WO2011087332A2 - 오디오 신호 처리 방법 및 장치 - Google Patents

오디오 신호 처리 방법 및 장치 Download PDF

Info

Publication number
WO2011087332A2
WO2011087332A2 PCT/KR2011/000324 KR2011000324W WO2011087332A2 WO 2011087332 A2 WO2011087332 A2 WO 2011087332A2 KR 2011000324 W KR2011000324 W KR 2011000324W WO 2011087332 A2 WO2011087332 A2 WO 2011087332A2
Authority
WO
WIPO (PCT)
Prior art keywords
harmonic
mode
information
pulse
generating
Prior art date
Application number
PCT/KR2011/000324
Other languages
English (en)
French (fr)
Other versions
WO2011087332A3 (ko
Inventor
정규혁
김대환
강인규
김락용
홍기봉
박지강
이인성
임종하
문상현
이병석
전혜정
Original Assignee
엘지전자 주식회사
충북대학교 산학협력단
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 엘지전자 주식회사, 충북대학교 산학협력단 filed Critical 엘지전자 주식회사
Priority to CN201180013842.5A priority Critical patent/CN102870155B/zh
Priority to KR1020127020609A priority patent/KR101764633B1/ko
Priority to EP11733119.9A priority patent/EP2525357B1/en
Priority to US13/522,274 priority patent/US9305563B2/en
Publication of WO2011087332A2 publication Critical patent/WO2011087332A2/ko
Publication of WO2011087332A3 publication Critical patent/WO2011087332A3/ko
Priority to US15/089,918 priority patent/US9741352B2/en

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/16Vocoder architecture
    • G10L19/18Vocoders using multiple modes
    • G10L19/20Vocoders using multiple modes using sound class specific coding, hybrid encoders or object based coding
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/02Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
    • G10L19/032Quantisation or dequantisation of spectral components
    • G10L19/038Vector quantisation, e.g. TwinVQ audio
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/02Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/002Dynamic bit allocation
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/012Comfort noise or silence coding
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/02Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
    • G10L19/0204Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders using subband decomposition
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/02Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
    • G10L19/028Noise substitution, i.e. substituting non-tonal spectral components by noisy source
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/02Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
    • G10L19/032Quantisation or dequantisation of spectral components
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/08Determination or coding of the excitation function; Determination or coding of the long-term prediction parameters
    • G10L19/09Long term prediction, i.e. removing periodical redundancies, e.g. by using adaptive codebook or pitch predictor
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/08Determination or coding of the excitation function; Determination or coding of the long-term prediction parameters
    • G10L19/10Determination or coding of the excitation function; Determination or coding of the long-term prediction parameters the excitation function being a multipulse excitation
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/16Vocoder architecture
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/16Vocoder architecture
    • G10L19/18Vocoders using multiple modes
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/02Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
    • G10L19/0212Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders using orthogonal transformation
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/16Vocoder architecture
    • G10L19/18Vocoders using multiple modes
    • G10L19/22Mode decision, i.e. based on audio signal content versus external parameters
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Processing of the speech or voice signal to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/038Speech enhancement, e.g. noise reduction or echo cancellation using band spreading techniques

Definitions

  • the present invention relates to an audio signal processing method and apparatus capable of encoding or decoding an audio signal.
  • audio signals contain signals of various frequencies, and the human audible frequency is 20 Hz-20 kHz, whereas the average human voice is in the range of about 200 Hz-3 kHz.
  • one of a plurality of coding modes or coding schemes may be applied according to the characteristics of the audio.
  • An object of the present invention is to provide an audio signal processing method and apparatus for separately encoding a pillar of a band.
  • Another object of the present invention is to provide an audio signal processing method and apparatus for separately encoding a harmonic track in the case of a signal in which harmonics (harmonics) are strongly present, such as a stringed sound.
  • the present invention provides the following effects and advantages.
  • the sound quality may be improved by adaptively applying one of encoding and decoding methods corresponding to a total of four modes according to each audio characteristic per frame.
  • the subfields adjacent to the main field are extracted in consideration of the characteristics of the MDCT, and the pulses mapped to specific frequency bands can be accurately extracted to increase the performance of the non-normal mode encoding scheme.
  • the number of bits can be reduced by extracting only the maximum field and its adjacent pulses from a plurality of harmonic tracks and quantizing them separately.
  • Sixth, in the harmonic mode for the harmonic tracks belonging to one group having the same pitch, by setting the starting position to one of a set of position sets, the number of bits is reduced in displaying each starting position of the plurality of harmonic tracks. can do.
  • FIG. 1 is a block diagram of an encoder in an audio signal processing apparatus according to an embodiment of the present invention.
  • FIG. 2 is a diagram for explaining an example of determining the similarity between frames.
  • 3 shows examples of signals suitable for coding in normal mode or non-normal mode.
  • 4 is a detailed block diagram of the normal mode encoding unit 140.
  • 5 is an example of syntax 1 when encoding in normal mode.
  • FIG. 6 is a detailed block diagram of the non-normal mode encoding unit 150.
  • 7 and 8 are views for explaining the peel extraction process.
  • SWB signal signal before pulse extraction
  • original noise signal original noise signal
  • 10 is a view for explaining a reference noise generating process.
  • 11 is an example of syntax in the case of encoding in non-normal mode.
  • FIG. 12 is a diagram for showing results encoded in a normal mode and a non-normal mode for a specific audio signal.
  • FIG. 13 is a detailed configuration diagram of the harmonic ratio determining unit 160.
  • FIG. 15 is a detailed block diagram of the non-harmonic mode encoding unit 170.
  • FIG. 15 is a detailed block diagram of the non-harmonic mode encoding unit 170.
  • FIG. 16 is a diagram for explaining a rule of extracting a fixed pulse in the non-harmonic mode
  • 17 shows an example of syntax 1 when encoding in non-harmonic mode.
  • FIG. 18 is a detailed block diagram of the harmonic mode encoding unit 180.
  • FIG. 18 is a detailed block diagram of the harmonic mode encoding unit 180.
  • 19 is a diagram for explaining extraction of harmonic tracks.
  • 21 is an example of syntax 1 when encoded in harmonic mode.
  • FIG. 22 is a diagram for showing a result encoded in non-harmonic mode and harmonic mode for a specific audio signal.
  • FIG. 23 is a block diagram of a decoder in an audio signal processing apparatus according to an embodiment of the present invention.
  • FIG. 24 is a schematic structural diagram of a product implemented with an audio signal processing apparatus according to an embodiment of the present invention.
  • FIG. 25 is a relationship diagram of products in which an audio signal processing apparatus according to an embodiment of the present invention is implemented. [Best Mode]
  • an audio signal processing method includes: obtaining a plurality of frequency conversion coefficients by performing frequency conversion on an audio signal; Selecting one of a normal mode and a non-normal mode on the basis of a pulse ratio of frequency conversion coefficients of a high frequency band among the plurality of frequency conversion coefficients; And, when the non-normal mode is selected, the next step is performed; Extracting a predetermined number of pulses from the frequency conversion coefficients of the high frequency band and generating pulse information; Generating an original noise signal excluding the fields from the frequency conversion coefficients of the high frequency band; Generating a reference noise signal using a frequency conversion coefficient of a low frequency band among the plurality of frequency conversion coefficients; And generating noise location information and noise energy information using the original noise signal and the reference noise signal.
  • the pulse ratio may be a ratio of energy for a plurality of pulses to the total energy of the current frame.
  • the step of extracting a predetermined number of pulses may include extracting a main field having the greatest energy; Extracting sub pulses adjacent to the main field; And generating a target noise signal by excluding a phase 7l main field and the sub pulse from the frequency conversion coefficient of the high frequency band. step; And extracting the main field and the sub-pulse with respect to the target noise signal a predetermined number of times.
  • the pulse information may include at least one of field position information, pulse code information, pulse size information, and field subband information.
  • the generating of the reference noise signal may include: setting a threshold based on total energy of a low frequency band; And generating the reference noise signal by excluding the pulse above the threshold.
  • the generating of the noise energy information may include: generating energy of the predetermined number of fields; Generating energy of the original noise signal; Obtaining a pulse rate using the energy of the pulse and the energy of the original noise signal; And,
  • the frequency conversion unit for obtaining a plurality of frequency conversion coefficients by performing a frequency conversion on the audio signal;
  • a pulse rate determination unit for selecting one of a normal mode and a non-normal mode based on a pulse ratio with respect to frequency conversion coefficients of a high frequency band among the plurality of frequency conversion coefficients; Operates when the non-normal mode is selected,
  • a non-normal mode encoding unit comprising;
  • a pulse extraction unit extracting a predetermined number of pillars from the frequency conversion coefficients of the high frequency band and generating pillar information;
  • a reference noise generator for generating a reference noise signal by using a frequency conversion coefficient of a low frequency band among the plurality of frequency conversion coefficients;
  • a noise search unit for generating noise position information and noise energy information by using an original noise signal and the reference noise signal, wherein the original noise signal excludes the fields from the frequency conversion coefficients of the high frequency band.
  • a method comprising receiving second mode information indicating whether a current frame is a normal mode or a non-normal mode; Receiving pulse information, noise location information, and noise energy information when the second mode information indicates that the current frame is a non-normal mode; Generating a predetermined number of fields for frequency transform coefficients using the pulse information; Generating a reference noise signal by using a frequency conversion coefficient of a low frequency band that performs the noise position information; Adjusting the energy of the reference noise signal using the noise energy information; And generating frequency conversion coefficients corresponding to a high frequency band by using the energy-adjusted reference noise signal and the plurality of pulses.
  • a step of receiving an audio signal Performing frequency transform on the audio signal to obtain a plurality of frequency transform coefficients; For the frequency transform coefficient, selecting one of a non-harmonic mode and a harmonic mode based on a harmonic ratio; When the harmonic mode is selected, a next step is performed; Determining a first group of harmonic tracks corresponding to the first pitch; Determining a second group of harmonic tracks corresponding to the second pitch; And generating starting position information of the plurality of harmonic tracks, wherein the harmonic packs of the first group include a first harmonic track and a second harmonic track, wherein the harmonic tracks of the second group are arranged in a third manner.
  • a harmonic track and a fourth harmonic track wherein the start position information of the first harmonic track and the third harmonic track is subtracted to one of the first position set, and the start position information of the second harmonic track and the fourth harmonic track; Is provided in one of the second set of positions.
  • the harmonic ratio may be generated based on the energy of the plurality of harmonic tracks and the energy of the plurality of pulses.
  • the first position set may correspond to even positions
  • the second position set may correspond to odd positions
  • a maximum pulse in the first harmonic track, and its neighboring fills, a maximum pulse in the second harmonic track, and its adjacent fills Generating a first target vector comprising; Generating a second target vector comprising a maximum fill in the third harmonic track, an adjacent fill thereof, a maximum pulse in the fourth harmonic track, and an adjacent fill thereof;
  • Vector-quantizing the first target vector and the second target vector The method may further include converting a frequency of the harmonic tracks to an object excluding the first target vector and the second target vector.
  • the first harmonic track is a set of a plurality of pulses having a first pitch
  • the second harmonic track is a set of a plurality of pulses having a crab pitch
  • the third harmonic track is a plurality of pulses having a second pitch
  • a fourth harmonic track may be a collection of a plurality of pillars having a second pitch.
  • the method may further include generating pitch information indicating the first pitch and the second pitch.
  • An audio signal processing method is provided that is directed to one of two position sets.
  • performing a frequency conversion on the audio signal to obtain a plurality of frequency conversion coefficients; For the frequency transform coefficients, selecting a non-tonal mode and a tonal mode based on interframe similarity; If the non-tonal mode is selected, selecting one of a normal mode and a non-normal mode based on a pulse rate; If the tonal mode is selected, selecting one of a non-harmonic mode and a harmonic mode based on the harmonic ratio; And generating a parameter by encoding the audio signal according to the selected mode, wherein in the normal mode, the parameter includes envelope position information and scaling information, and in the non-normal mode, The parameter includes pulse information and noise energy information, and in the non-harmonic mode, the parameter includes fixed field information that is information about fixed pulses predetermined in number per subband, and in the harmonic mode, The parameter is provided with an audio signal processing method including location information of harmonic tracks of a first group and location information of harmonic tracks of a second group.
  • the method may further include generating first mode information and second mode information according to the selected mode, wherein the first mode information indicates one of the non-tonal mode and the tonal mode.
  • the first mode information indicates a non-tonal mode
  • the second mode information indicates one of the normal mode or the non-normal mode
  • the first mode information indicates a tonal mode.
  • One of the non-harmonic mode and the harmonic mode may be indicated.
  • the step of extracting the first mode information and the second mode information through the bitstream Determining a current mode corresponding to a current frame based on the first mode information and the second mode information; Restoring an audio signal of a current frame by using envelope position information and scaling information when the current mode is a normal mode; Restoring an audio signal of a current frame by using field information and noise energy information when the current mode is a non-normal mode; Restoring an audio signal of a current frame by using fixed pulse information, which is information on fixed fields, the number of which is predetermined for each subband, when the current mode is a non-harmonic mode; And restoring an audio signal of a current frame by using position information of a harmonic track of a first group and position information of a harmonic track of a second group when the current mode is a harmonic mode.
  • Coding can be interpreted as encoding or decoding in some cases, and information is a term that encompasses values, parameters, coefficients, elements, and so on. It may be interpreted otherwise, but the present invention is not limited thereto.
  • the audio signal is, in broad terms, a concept that is distinguished from the video signal, and refers to a signal that can be visually identified during playback.
  • a concept that is distinguished from a speech signal it means a signal having no or less speech characteristics.
  • the audio signal in the present invention should be interpreted broadly and can be understood as a negotiated audio signal when used separately from the speech signal. . Coding may also refer to encoding only, but may be used as a concept including both encoding and decoding.
  • the encoder 100 includes at least one of a pulse rate determining unit 130, a harmonic rate determining unit 160, a non-normal mode encoding unit 150, and a harmonic mode encoding unit 180,
  • the apparatus may further include one or more of the frequency converter 110, the similarity determiner 120, the normal mode encoder 140, and the non-harmonic mode encoder 180.
  • the pulse rate determination unit 130 is a high pulse ratio (specifically, the ratio of the energy of the field to the total energy) 1) the normal mode method 2) If the fill ratio is low, decide whether to apply the non-normal mode method.
  • the harmonic ratio determination unit 160 determines that the non-harmonic mode is applied when the harmonic ratio (specifically, the ratio of the energy of the harmonic track to the energy of the pulse) is not high. 4) If harmonic ratio is high, 4) decide to apply harmonic mode.
  • the frequency converter 110 obtains a plurality of frequency conversion coefficients by performing frequency conversion on the input audio signal.
  • the Modified Discrete Cosine Transform (MDCT), Fast Fourier Transform (FFT), etc. may be applied to the frequency transform, but the present invention is not limited thereto.
  • the frequency conversion coefficients may include frequency conversion coefficients corresponding to a relatively low frequency band and frequency conversion coefficients corresponding to a high frequency band.
  • Frequency conversion coefficients in the low frequency band are referred to as wideband signals, wide band (WB) signals, or WB coefficients
  • high frequency band frequency conversion coefficients are also referred to as ultra-wide band signals, SWB (Super Wide Band) signals, or WB coefficients. I would like to call it.
  • the reference of the low frequency band and the high frequency band may be about 7 kHz, but the present invention is not limited to a specific frequency.
  • a total of 640 frequency conversion coefficients may be generated for the entire audio signal.
  • WB signals about 280 coefficients corresponding to the lowest band
  • SWB signals the present invention is not limited thereto.
  • the similarity determination unit 120 determines the similarity between frames with respect to the input audio signal.
  • the similarity between frames means how similar the spectrum of the frequency transform coefficients of the current frame is to the spectrum of the frequency transform coefficients of the previous frame. It is about Similarity between frames is also called tonality. A detailed description of the formula regarding the similarity between frames will be omitted.
  • FIG. 2 is a diagram for explaining an example of determining the similarity between frames. 2A, an example of the spectrum of the previous frame and the spectrum of the current frame is shown. Intuitively, we can see that the least similarity is found in the interval between 40 and 60 frequency bins. Referring to FIG. 2B, similar to the result of intuition, the similarity shows the lowest value in the 40 to 60 section.
  • the similarity determination unit 120 determining the similarity between frames, if the similarity is low, the signal is similar to noise and classified as non-tonal mode. If the similarity is high, the signal having a different characteristic from the noise is similar.
  • the first mode information indicating whether the corresponding frame corresponds to the non-tonal mode or the tonal mode is generated and transmitted to the decoder.
  • the non-tunnel mode for example, when the first mode information is 0
  • the frequency conversion coefficients of the high frequency band are transmitted to the pulse rate determination unit 130, In the opposite case (eg, when the first mode information is 1), the coefficients are transmitted to the harmonic ratio determination unit 160.
  • the pulse rate determination unit 130 is activated.
  • the pulse rate determination unit 130 determines the normal mode or the non-normal mode based on the pulse rate, that is, the energy ratio of the plurality of fields to the total energy of the current frame.
  • the pulse means a coefficient having a relatively high energy in the domain of the frequency conversion coefficient (eg, MDCT domain).
  • FIG. 3 is an example of a signal suitable for coding in normal mode or non-normal mode.
  • FIG. 3A it can be seen that all frequencies are evenly included without biasing a specific frequency band. In the case of having a noise-like characteristic as described above, the signal is suitable for coding in a normal mode.
  • FIG. 3B it can be seen that a specific band (line) is stronger than the entire frequency signal is evenly included. The specific band may appear as a pulse in the domain of the frequency conversion coefficient. If the energy of the pulse is high compared to the total energy, the signal is suitable for encoding in non-normal mode because the pulse ratio is high.
  • a signal such as (A) of FIG. 3 may be a signal close to noise, and FIG. 3 (B) may be a signal close to a percussion sound.
  • coding in the non-normal mode Since it may be the same as the pulse extraction process performed when the method is applied, it will be described later with the detailed configuration in the non-normal mode encoding unit 150. If a total of eight fields are extracted, they can be expressed as follows.
  • 560 is the SWB coefficient (frequency conversion coefficient of the high frequency band)
  • k is the index of the frequency conversion coefficient
  • j is the pulse index.
  • the pulse ratio may be expressed as the following equation.
  • the pulse rate e «
  • a certain reference value eg 0.6
  • the non-normal mode non -generic mode
  • the pulse rate determining unit 130 determines the normal mode or the non-normal mode based on the fill ratio through the above-described process. In mode, second mode information indicating whether a normal mode or a non-normal mode is generated and transmitted to the decoder.
  • the detailed configuration of the normal mode encoding unit 140 and the detailed configuration of the non-normal mode encoding unit 150 will now be described with reference to separate drawings.
  • FIG. 4 is a diagram illustrating a detailed configuration of the normal mode encoding unit 140
  • FIG. 5 is an example of syntax in the case of encoding in the normal mode.
  • the normal mode encoding unit 140 includes a normalizer 142, a subband generator 144, and a searcher 146.
  • the high frequency band signal (SWB signal) is encoded using the similarity to the envelope of the encoded low frequency band signal (WB signal).
  • the normalization unit 142 normalizes the envelope of the WB signal in an exponential domain.
  • the WB signal since the WB signal should be a signal that can be known from the decoder, the WB signal is preferably a signal reconstructed using the encoded WB signal. Since the envelope of the WB signal changes rapidly, the normalization in the exponential domain may be necessary because the quantization of the two scaling factors may not be accurate.
  • the subband generator 144 divides the SWB signal into a plurality of subbands (about 4). For example, if the frequency conversion coefficients of the SWB signal are 280 in total, each subband may have 40, 70, 70, and 100 coefficients.
  • the search unit 146 searches the normalized envelope of the WB signal, calculates the similarity with each subband of the SWB signal, and based on the similarity, the searcher 146 has the most similarity with an interval of the envelope similar to each subband. Determine the WB signal. The starting position of this maximum like WB signal is generated as envelope position information.
  • the search unit 146 may then determine two scaling information to make it acoustically similar to the original SWB signal. Accordingly, the first scaling information may be determined for each subband in the linear domain, and the second scaling information may be determined for each subband in the log domain.
  • the normal mode encoding unit 140 encodes the SWB signal using the envelope of the WB signal, and generates envelope position information and scaling information.
  • first mode information indicating whether the terminal is non-tonal or tonal, and a second mode indicating whether the general mode or the non-normal mode is the non-tonal Information is allocated one bit each.
  • the envelope position information may be allocated a total of 30 bits for each subband.
  • scaling information a total of 4 bits of scaling code information for each subband and 16 bits of first scaling information for each subband (four in total) can be allocated, and a total of four second scaling information for each subband can be assigned to 8 bits.
  • bit codebook The vector may be quantized and allocated a total of 8 bits, but the present invention is not limited thereto.
  • FIG. 6 is a diagram illustrating a detailed configuration of the non-normal mode encoding unit 150.
  • the non-normal mode encoding unit 150 may include a pulse extractor 152, a reference noise generator 154, and a noise searcher 156.
  • the pillar extractor 152 extracts a predetermined number of pillars from the frequency conversion coefficients (SWB signal) of the high frequency band, and includes pillar information (eg, pillar position information, pillar code information, pulse information) that is information on the pulses. Size information, etc.).
  • pillar information eg, pillar position information, pillar code information, pulse information
  • the field is the same as the pulse defined in the pulse rate determination unit 130 above.
  • the pulse extractor 152 divides the SWB signal into a plurality of subband signals as follows.
  • each subband may be subjected to a total of 64 frequency conversion coefficients.
  • FIG. 7 and 8 are diagrams for explaining the peel extraction process. First, referring to FIG. 7A, there are four subbands in total in SWB, and an example of a fill for each subband is illustrated.
  • E 0 , E 1 , E 2 , E 3 the subbands having the largest energy
  • E 0 the energy of the first subband is the highest.
  • the highest energy pulse in the corresponding subband is determined as the main pulse.
  • the high pulse of the left and right pulses of the main pulse is then determined as the sub pulse. Referring to FIG. 7C, an example of determining a main field and a sub pulse among the first subbands is illustrated.
  • the process of extracting the main field and the sub-pulse adjacent thereto is preferable when the frequency conversion coefficients are coefficients generated through MDCT. because,
  • one particular frequency does not correspond to one MDCT coefficient, but may correspond to two or more MDCT coefficients, so that only the main pulse of the MDCT can be extracted more accurately in the MDCT domain. Rather than extract, additionally extract sub pulses adjacent thereto.
  • the position information of the sub pulse can be encoded with only one bit indicating whether it is the left side or the right side of the main pulse. It is possible to estimate the exact pulse.
  • the pillar extractor 152 generates the target noise signal by excluding the first set of main pulses and sub-pulses extracted from the SWB signal.
  • the first set of pulses extracted in FIG. 7C are excluded.
  • the extraction process of the main pulse and the sub pulse is repeated for the target noise signal. That is, the subband having the largest energy is determined, the pulse having the largest energy in the corresponding subband is determined as the main field, and one of the adjacent pulses is determined as the sub pulse.
  • This process is repeated until the Nth set by redefining the target noise signal by excluding the second set of main pulses and sub pulses thus extracted.
  • the process may be repeated up to a third set, and two single pulses may be further extracted for the target noise signal except for the third set.
  • the single pulse means the pulse with the highest energy among the target noise signals, regardless of the main and sub as described above.
  • the pulse extractor 152 extracts a predetermined number of pulses as described above, and then generates field information that is information about the pulse.
  • the predetermined number of pillars may be, for example, a total of eight (a total of three sets of main pillars and sub pulses, a total of three single pulses), but the present invention is not limited thereto.
  • the pulse information may include one or more of field position information, pulse sign information, pulse size information, and pulse subband information.
  • the pulse subband information is information on which subband the pulse belongs to.
  • FIG. 11 is an example of syntax in the case of encoding in the non-normal mode. Here, only the pulse related information is referred to.
  • FIG. 11 is an example of syntax in the case of encoding in the non-normal mode. Here, only the pulse related information is referred to.
  • FIG. 11 is an example of syntax in the case of encoding in the non-normal mode. Here, only the pulse related information is referred to.
  • FIG. 11 is an example of syntax
  • FIG. 11 shows a case where there are four subbands in total and eight pulses (three main pulses and three sub pulses and two single pulses). It can be seen that the pulse subband information of FIG. 11 is allocated a total of 10 bits by 2 bits. This means that for a total of four subbands, one field requires two bits to represent a subband, which is one set (main and sub) since each set of main and sub pulses belong to the same subband. Only two bits are needed to represent the field of. However, in the case of a single pulse, it takes 2 bits to represent each one pulse.
  • the pulse position information is information to indicate to which coefficient the pulse exists in a specific subband
  • each 6 bits from the first to the third set, 6 bits in the first single field, and the second alone The pulse takes 6 bits, a total of 30 bits.
  • the pulse code information takes a total of eight bits, one bit for each of eight bits, and the field size information includes vector quantization of the size information of four pulses using an 8-bit codebook, and a total of 16 bits. Allocate
  • the pulses extracted by the pillar extracting unit 152 are excluded from the high frequency band signal (SWB signal) through the above process.
  • the original noise signal ( -3 ⁇ 4 2 c) is generated.
  • the original noise signal may correspond to a total of 272 coefficients.
  • 9 shows an example of a signal before field extraction (SWB signal) and a signal after pulse extraction (original noise signal).
  • the original SWB signal includes a plurality of pillars having high peak energy in the frequency conversion coefficient domain, while FIG. 9 ( ⁇ ) shows noise-like noise without the pillars. Only the signal of) remains.
  • the reference noise generator 154 of FIG. 6 generates a reference noise signal based on the frequency conversion coefficient (WB signal) of the low frequency band. Specifically, by setting a threshold based on the total energy of the WB signal and excluding pulses above the threshold : a reference noise signal is generated.
  • FIG. 10 is a diagram for explaining a process of generating reference noise.
  • FIG. 10A an example of a WB signal is displayed on the frequency conversion domain.
  • the threshold is set in consideration of the total energy, there are pulses which deviate from the threshold, and some pillars exist within the threshold. Excluding the pulse beyond the threshold will leave a signal as shown in (B) of FIG. In this way, the reference noise signal is generated and then normalized. Then it may be expressed as shown in (C) of FIG.
  • the reference noise generator 154 generates the reference noise signal ⁇ 16 using the WB signal through the above process.
  • the noise search unit 156 of FIG. 6 compares the original noise signal and the reference noise signal ⁇ 16 to determine a section of the reference noise signal most similar to the original noise signal, etc.), and determines the noise position information and the noise energy information. Create An embodiment of this process will be described in detail below.
  • the original noise signal (signal whose pulse is excluded from the SWB signal) is divided into a plurality of subband signals as follows.
  • each subband may have the same size as the subband in the normal mode.
  • All subbands have different search start positions and different search ranges, J , and detect similarities with the reference noise signals // 16 .
  • the search start position and search range for the j-th subband may be expressed as follows.
  • k 3 is the search start position
  • J is the length of the subband
  • W 3 is the search range
  • r 7 is negative, it is corrected to 0, and if 28 is greater than ⁇ ⁇ ⁇ , Modify to ⁇ .
  • the maximum likelihood starting position is estimated by Bestldx 3 for each subband through the following process.
  • the similarity ⁇ ( ⁇ ) corresponding to the similarity index is calculated as in the following equation. It is encoded in a similar way to the normal mode, but searches are performed in units of four samples rather than one sample (one coefficient).
  • Equation 8 k ⁇ d 3
  • the starting position of the subband where the actual similarity is maximum It is converted into a Lag Index 3 parameter and included in the bitstream as noise position information.
  • the process of generating the noise location information by the noise search unit 156 has been described above. Hereinafter, the process of generating the noise energy information will be described.
  • the reference noise signal maintains a waveform similar to the original noise signal, but the energy may be different.
  • the decoder has energy similar to the original noise In order to have a noise signal, it is necessary to generate and transmit noise energy information, which is information about energy of an original noise signal, to a decoder.
  • the value of the noise energy since the value of the noise energy has a large dynamic range, it can be converted into a value called a fill ratio and transmitted. Since the pulse rate is a percentage value, it has a value of 0% to 100%, so the dynamic range is small, thereby reducing the number of bits. This conversion process will be described.
  • the energy of the noise signal is equal to the total energy of the SWB signal excluding the fill energy as shown in the following equation.
  • Noise energy ⁇ ⁇ M 32 (280 + k) ⁇ 2 ⁇ P energy
  • Woise energ / is noise energy
  • ⁇ 32 is SWB signal
  • P energy is Fils
  • R per cent is Phelps rate
  • P is the pulse energy energy
  • No 'ise ene'rgy is the noise energy that is, the encoder in place of the noise energy Noise en gy ⁇ shown in equation (10)
  • the pulse rate perceni ⁇ shown in equation (11) send.
  • the corresponding noise energy information may be encoded into 4 bits as shown in FIG. 11.
  • the decoder first generates pulse energy 3 ⁇ 4 ⁇ ⁇ P ( fc ) ⁇ 2 ) based on the pulse information generated by the pulse extraction unit 152.
  • Equation 12 is a rearrangement of Equation 11.
  • the decoder converts the transmitted pulse ratio into noise energy as described above, the noise energy is multiplied by each coefficient of the reference noise signal as follows, by using the reference noise signal, the noise having an energy distribution similar to that of the original noise signal. A signal can be obtained.
  • the noise search unit i 56 generates noise position information, converts a noise energy value into a fill ratio, and transmits the noise position information to the decoder as the noise energy information.
  • 12 is a diagram for showing a result encoded in a normal mode and a non-normal mode for a specific audio signal.
  • a specific signal for example, a signal having a specific frequency band such as a percussion instrument
  • the results may be different, as shown in FIG. 12A. 12B, it can be seen that, for the original signal shown in FIG. 12, the result of encoding in the non-normal mode is superior to the result of encoding in the normal mode.
  • the sound quality can be improved more with little increase in the number of bits.
  • the harmonic ratio determination unit 160, the non-harmonic mode encoding unit 170, and the harmonic mode encoding unit 180 mentioned in FIG. 1 will be described.
  • the harmonic ratio determination unit 160 may include a harmonic track extraction unit 162, a fixed pulse extraction unit 164, and a harmonic ratio determination unit 166, which may include a harmonic ratio of an audio signal. Based on the non-harmonic mode and the harmonic mode is determined.
  • the harmonic mode is a mode suitable for encoding, for example, a signal in which a harmonic component by a single instrument is strong, or a signal including multiple pitch signals generated by several instruments.
  • 14 is an example of an audio signal with a high harmonic ratio. Referring to FIG. 14, it can be seen that harmonics that are multiples of the fundamental frequency appear strongly on the frequency conversion coefficient domain.
  • the present invention proposes a coding scheme suitable for such a signal.
  • the harmonic track extraction unit 162 extracts a harmonic attack for frequency conversion coefficients corresponding to a high frequency band. Since this process performs the same process as the harmonic extract extraction unit 182 of the harmonic mode encoding unit 180, it will be described in detail later.
  • the fixed pulse extractor 164 extracts a predetermined number of pulses from a predetermined region (164). Since this process is performed in the same manner as the fixed fence extractor 172 of the non-harmonic mode encoding unit 170, it will be described in detail later.
  • the harmonic ratio determination unit 166 is a ratio of the fixed pulse energy to the sum of the harmonic ratios, that is, the sum of the energy of the extracted harmonic tracks. When the harmonic ratio is low, the harmonic ratio determination unit determines the non-harmonic mode, and the harmonic ratio is high. In case it is decided to harmonic mode. As described earlier, non-harmonic mode, non- The harmonic mode encoding unit 170 is activated, and in the harmonic mode, the harmonic mode encoding unit 180 is activated.
  • FIG. 15 is a diagram illustrating a detailed configuration of the non-harmonic mode encoding unit 170.
  • FIG. 16 is a diagram for explaining a rule of extracting a fixed field in the non-harmonic mode
  • FIG. 17 is a non-harmonic mode. This is an example of syntax when encoded in mode.
  • the non-harmonic mode encoding unit 170 includes a fixed pulse extracting unit 172 and a pulse position information generating unit 174.
  • the fixed pulse extractor 172 extracts a fixed number of fixed pillars in the fixed region as shown in FIG. 16.
  • a predetermined number (eg, 10) of one of a plurality of position sets for each subband that is, a first position set (eg, even positions) or a second position set (odd positions)
  • a first position set eg, even positions
  • a second position set e.g.
  • An example of extracting the pills is shown.
  • the first subband two pulses (track 0) are extracted at even positions (position: 280, etc.), and two fields (track 1) are extracted even at odd positions (position: 281, etc.).
  • two pulses (track 2) are extracted at even positions (position: 280, etc.)
  • two fields (track 3) are extracted at odd positions (position: 281, etc.).
  • one pulse track4 is extracted regardless of the position
  • even in the fourth subband one pulse track5 is extracted regardless of the position.
  • the reason for extracting the fixed pulse that is, the reason for extracting the predetermined number of pulses at the predetermined position is to save the number of bits corresponding to the position information of the fixed pulse.
  • the pulse position information generator 174 generates fixed pulse position information on the extracted fixed pulse according to a predetermined rule. 17 is non- This is an example of syntax when encoded in harmonic mode. Referring to FIG. 17, when a fixed pulse is extracted according to the rule shown in FIG. 16, since eight pulses from trackO to track3 are positioned in even or odd numbers, the number of bits for encoding the fixed pulse position information is 64. It can be 32 bits, not bits. Fields corresponding to track4 require 64 bits because there is no even or odd limit, and track5 does not have even or odd limit, but since the position is limited to 472 to 503, 32 bits are required.
  • FIG. 18 is a diagram illustrating a detailed configuration of the harmonic mode encoding unit 180
  • FIG. 19 is a diagram for explaining extraction of harmonic tracks
  • FIG. 20 is a diagram for explaining quantization of harmonic track position information.
  • the harmonic mode encoding unit 180 includes a harmonic track extractor 182 and a harmonic information encoder 184.
  • the harmonic track extractor 182 extracts a plurality of harmonic tracks for frequency conversion coefficients corresponding to a high frequency band. Specifically, the first group of harmonic tracks (first harmonic track and second harmonic track) corresponding to the first pitch is extracted, and the second group of harmonic tracks (third harmonic track and fourth) corresponding to the second pitch is extracted. Harmonic track).
  • the starting position information of the first harmonic track and the third harmonic track may correspond to one of the first position set (eg, odd number), and the second harmonic
  • the starting position information of the track and the cramp 4 harmonic track can be substituted into one of the second set of positions (eg, even).
  • a first harmonic track having a first pitch and a second harmonic track having a first pitch are represented.
  • the start position of the first harmonic track may be expressed as an even number
  • the start position of the second harmonic track may be expressed as a draft.
  • a third harmonic track and a fourth harmonic track having a second pitch are displayed.
  • the start position of the third harmonic track may be set to an odd number
  • the start position of the fourth harmonic track may be set to an even number.
  • group 1 contains A harmonic track
  • second group contains K harmonic track, L harmonic track, M harmonic track.
  • the first set of positions corresponding to the AIK harmonic track is 3N (N is an integer)
  • the second set of positions to the B / L harmonic track is 3N + 1 (N is an integer)
  • the C / M harmonic track The third set of positions may be 3N + 2 (N is an integer).
  • D ( k ) is expressed as the sum of a predetermined number of harmonic tracks (eg, a total of four).
  • Each harmonic tracks is possible to include two or more pitch component It is possible to extract two harmonic tracks J ' in one pitch component.
  • the process of finding the harmonic tracker having the two largest values for each pitch component is as follows. .
  • the following formula uses the autocorrelation function to find the pitch of the harmonic track ⁇ that contains the most energy. It is possible to limit the number of harmonics extracted by limiting the range of pitch to the coefficient of 20-27 of the frequency conversion coefficients.
  • the starting range of the harmonic track ja is calculated by including the number of harmonics to be extracted, and the total of two harmonic tracks by the two starting positions ⁇ * by the pitch reflects the characteristics of the MDCT domain signal. ' Is extracted.
  • the harmonic information encoder 184 encodes and vector quantizes the information about the harmonic stack.
  • Each harmonic track extracted in the above process has a pitch and a start position.
  • the extracted pitch and starting position PS H are encoded as follows. Pitch P i limits the number of harmonics that can exist in HF
  • Extracting a total of four harmonic track location information above is a total of 22 bits can be used with the two pitches of the beginning ⁇ , but the present invention is not limited to this.
  • the four harmonic tracks extracted in the above process contain up to 44 pulses. Many bits are required to quantize all 44 field sizes and sign information. Therefore, the "size value and the coding information to extract the pulse containing a large amount of energy by using a pulse of Phelps Fitz extraction algorithm for each harmonic separately track and encoded as follows: formula.
  • the following algorithm is a pulse peak PPi extraction algorithm in each harmonic track, finds a continuous pulse containing a lot of energy, quantizes a magnitude value, and encodes code information separately as in the following equation. Use 3 beats to extract fill peaks from each harmonic track, 2 harmonics The four pulses extracted from the track are quantized in size using 8 bits, and 1 bit is allocated for each sign information. The pill extracted through the pill peak extraction algorithm is quantized to 24 bits in total.
  • Harmonic tracks except eight pulses extracted in the above process are combined into one track to simultaneously quantize magnitude and code information using a discrete cosine transform (DCT). 19 bits are used for DCT quantization.
  • the pulses extracted through the pulse peak extraction algorithm of the extracted four harmonic tracks and the harmonic stack except for this are shown in FIG. 20.
  • a first target vector (targetA) is generated for a maximum pulse and its adjacent field among the first harmonic tracks of the first group and the maximum field and the adjacent pulse among the second harmonic tracks of the first group.
  • a second target vector targetB is generated for the maximum field of the third harmonic track and its adjacent pulse and the maximum field of the fourth harmonic track and its adjacent field.
  • DCT discrete cosine transform
  • FIG. 21 An example of the information about the harmonic track described above is as shown in FIG. 21.
  • FIG. 22 is a diagram for showing a result encoded in a non-harmonic mode and a harmonic mode for a specific audio signal. Referring to FIG. 22, it can be seen that the sound quality can be improved because the harmonic mode encoding result is closer to the original signal than the non-harmonic mode encoding signal for the strong harmonic signal.
  • a decoder 200 includes one or more of a mode determiner 210, a non-normal mode decoder 230, and a harmonic mode decoder 250.
  • the mode decoding unit 220 may further include a non-harmonic mode decoding unit 240.
  • it may further include a de-multiplexer (not shown) for rupturing the bitstream for the received audio signal.
  • the mode determiner 210 determines a mode, ie, a current mode, based on the first mode information and the second mode information received through the bitstream.
  • the first mode information indicates one of the non-tonal mode and the tonal mode
  • the second mode information indicates the first mode. Normal mode, if the information indicates a non-tonal mode. Or one of the non-normal modes, and when the first mode information indicates the tonal mode, one of the non-harmonic mode and the harmonic mode.
  • one of four decoding units 220, 230, 240, and 250 is activated for the current frame, and a parameter for each mode is extracted by a demultiplexer (not shown) according to the current mode. .
  • the normal mode decoding unit 220 extracts the envelope of the maximum likelihood band, that is, the interval of the envelope position information from the reconstructed low-frequency frequency transform coefficients (WB signal). Then, by scaling the envelope by using the scaling information, to recover the current frame high frequency band (SWB signal).
  • the non-normal mode decoding unit 230 If the current mode is a non-normal mode, pulse information, noise location information, noise energy information, and the like are extracted. Then, the non-normal mode decoding unit 230 generates a plurality of pulses (for example, a total of three sets of main pulses and sub pulses and two independent fields) based on the pulse information.
  • the pulse information may include pulse position information, pulse sign information, and pulse size information. The sign of each pulse is determined according to the fill code information. The pulse information may be determined according to the pulse size information and the fill position information. Size and position are determined.
  • a section to be used as noise among the restored WB signals is determined by using the noise location information, the noise energy is adjusted using the noise energy information, and the pulses are summed to restore the SWB signal of the current frame.
  • the current mode is a non-harmonic mode
  • fixed field information which is information about fixed pulses, is extracted.
  • the non-harmonic mode decoding unit 240 obtains a predetermined position and a fixed number of fixed fences for each subband using fixed pulse information. A fixed pulse is used to generate the SWB signal of the current frame.
  • the position information of the harmonic track includes start position information of the harmonic tracks of the first group having the first pitch and start position information of the harmonic tracks of the second group having the second pitch.
  • the harmonic tracks of the first group may include a first harmonic track and a second harmonic track
  • the harmonic tracks of the second group may include a third harmonic track and a fourth harmonic track, the first harmonic track and the third harmonic track.
  • the start position information of the harmonic track may be substituted in one of the first position sets, and the start position information of the second harmonic track and the fourth harmonic track may be substituted in one of the second position sets.
  • pitch information indicating the first pitch and the second pitch may be further received.
  • the harmonic mode decoding unit 250 generates a plurality of harmonic tracks corresponding to the start position information by using the pitch information and the start position information, and uses the plurality of harmonic tracks to output an audio signal corresponding to a current frame, that is, SWB. Generate the signal.
  • the audio signal processing apparatus can be included and used in various products. These products can be broadly divided into stand alone and portable groups, which stand for TVs, monitors, and set-tops.
  • the box may include the portable group, and the portable group may include a PMP, a mobile phone, a navigation, and the like.
  • the wired / wireless communication unit 510 receives a bitstream through a wired / wireless communication scheme.
  • the wired / wireless communication unit 510 may include at least one of a wired communication unit 510A, an infrared communication unit 510B, a Bluetooth unit 510C, and a wireless LAN communication unit 510D.
  • the user authentication unit 520 performs user authentication by inputting user information, and at least one of a fingerprint recognition unit 520A, an iris recognition unit 520B, a face recognition unit 520C, and a voice recognition unit 520D.
  • a fingerprint recognition unit 520A an iris recognition unit 520B
  • a face recognition unit 520C a face recognition unit 520C
  • a voice recognition unit 520D Each of the fingerprint, iris information, facial contour information, and voice information may be input, converted into user information, and user authentication may be performed by determining whether the user information and the existing registered user data match. Can be.
  • the input unit 530 is an input device for the user to input various types of commands, and may include one or more of a keypad unit 530A, a touch pad unit 530B, and a remote controller unit 530C.
  • a keypad unit 530A may include one or more of a touch pad unit 530A, a touch pad unit 530B, and a remote controller unit 530C.
  • the present invention is not limited thereto.
  • the signal coding unit 540 encodes or decodes an audio signal and / or a video signal received through the wired / wireless communication unit 510 and outputs an audio signal of a time domain.
  • Audio signal processing apparatus 545 which is an embodiment of the invention described above (i.e., encoder 100 and / or decoder 200 according to the first embodiment, encoder according to the second embodiment) 300) and / or decoder 400) As such, the audio processing apparatus 545 and the signal coding unit including the same may be implemented by one or more processors.
  • the controller 550 receives input signals from the input devices and controls all processes of the signal decoding unit 540 and the output unit 560.
  • the output unit 560 is a component in which an output signal generated by the signal decoding unit 540 is output, and may include a speaker unit 560A and a display unit 560B. When the output signal is an audio signal, the output signal is output to the speaker, and when the output signal is a video signal, the output signal is output through the display.
  • FIG. 25 is a relationship diagram of products in which an audio signal processing apparatus according to an embodiment of the present invention is implemented.
  • FIG. 25 illustrates a relationship between a terminal and a server corresponding to the product illustrated in FIG. 24.
  • the first terminal 500. 1 and the second terminal 500 It can be seen that the data to the bitstream can be bidirectionally communicated through the wired / wireless communication unit.
  • the server 600 and the first terminal 500.1 may also perform wired / wireless communication with each other.
  • the audio signal processing method may be stored in a computer readable recording medium that is produced as a program for execution on a computer, and the computer readable recording medium may also have multimedia data having a data structure according to the present invention. Can be stored in.
  • the computer readable recording medium includes all kinds of storage devices for storing data that can be read by a computer system. Examples of computer-readable recording media include ROM, RAM, CD- ROMs, magnetic tapes, floppy disks, optical data storage devices, and the like, and also include those implemented in the form of carrier waves (eg, transmission over the Internet).
  • the bitstream generated by the encoding method may be stored in a computer-readable recording medium or transmitted using a wired / wireless communication network.
  • the present invention can be applied to encoding and decoding audio signals.

Abstract

본 발명은, 오디오 신호에 대해서 주파수 변환을 수행함으로써, 복수 개의 주파수 변환 계수들을 획득하는 단계; 상기 복수 개의 주파수 변환 계수들 중 고주파 대역의 주파수 변환 계수들에 대해서, 펄스 비율을 근거로 일반 모드 및 비-일반모드 중 하나를 선택하는 단계; 및, 상기 비-일반 모드가 선택된 경우, 다음 단계가 수행되는 단계; 상기 고주파 대역의 주파수 변환 계수들로부터 미리 결정된 개수의 펄스들을 추출하고, 펄스 정보를 생성하는 단계; 상기 고주파 대역의 주파수 변환 계수들로부터 상기 펄스들을 제외한 원본 노이즈 신호를 생성하는 단계; 상기 복수 개의 주파수 변환 계수들 중 저주파 대역의 주파수 변환 계수를 이용하여 참조 노이즈 신호를 생성하는 단계; 및, 상기 원본 노이즈 신호 및 상기 참조 노이즈 신호를 이용하여, 노이즈 위치정보 및 노이즈 에너지정보를 생성하는 단계를 포함하는 오디오 신호 처리 방법이 개시된다.

Description

[DESCRIPTION] [Invention Title! 오디오 신호 처리 방법 및 장치 [Technical Field]
본 발명은 오디오 신호를 인코딩하거나 디코딩할 수 있는 오디오 신호 처리 방법 및 장치에 관한 것이다.
[Background Art]
일반적으로, 오디오 신호는 다양한 주파수의 신호가 포함되어 있고, 사람의 가청 주파수는, 20Hz-20kHz 인데 비해, 보통 사람의 음성은 약 200Hz- 3kHz 영역에 존재한다.
사람의 음성이 존재하기 어려운 7kHz 이상의 고주파 영역의 오디오 신호를 인코딩하는 데 있어서, 오디오의 특성에 따라서 복수 개의 코딩 모드 또는 코딩 방식들 중 하나를 적용할 수 있다.
[Disclosure] [Technical Problem]
오디오의 특성에 적합하지 않은 코딩 모드 또는 코딩 방식을 적용할 경우, 음질이 왜곡되는 문제점이 있다.
[Technical Solution]
본 발명은 상기와 같은 문제점을 해결하기 위해 창안된 것으로서, 예컨대 타악기의 소리와 같이 특정 주파수 대역이 강한 신호의 경우, 해당 대역의 필스를 별도로 인코딩하기 위한 오디오 신호 처리 방법 및 장치를 제공하는 데 있다.
본 발명의 또 다른 목적은, 예컨대 현악의 소리와 같이 하모닉 (고조파)이 강하게 존재하는 신호의 경우, 해당 하모닉 트랙을 별도로 인코딩하기 위한 오디오 신호 처리 방법 및 장치를 제공하는 데 있다.
본 발명의 또 다른 목적은, 펄스비율 및 /또는 하모닉비율을 기반으로, 오디오 신호의 특성에 적절한 코딩 모드를 적용하기 위한 오디오 신호 처리 방법 및 장치를 제공하는 데 있다.
[Advantageous Effects]
본 발명은 다음과 같은 효과와 이점을 제공한다.
첫째, 특정 주파수 대역이 강한 신호에 대해서, 해당 대역의 펄스만을 별도로 인코딩으로써, 저주파 대역만을 이용한 인코딩 모드 (일반 모드)보다 복원를이 높기 때문에, 음질이 현저히 향상될 수 있다.
둘째, 하모닉이 포함된 신호에 대해서는, 하모닉에 해당하는 필스들올 각각 인코딩하기 보다는, 하모닉 트랙 전체를 인코딩함으로써, 비트수의 거의 증가시키지 않고 복원율을 높일 수 있다.
셋째, 프레임마다 각 오디오 특성에 맞게 총 4 개의 모드에 해당하는 인코딩 및 디코딩 방식들 중 하나를 적응적으로 적용함으로써, 음질을 향상시킬 수 있다. 넷째, MDCT 를 적용할 경우, MDCT 의 특성을 고려하여 , 메인 필스 그에 인접 한 서브 펄스를 추출함으로써 , 특정 주파수 대역에 매핑되는 펄스를 정확하게 추출함으로써 , 비-일반모드 인코딩 방식의 성능을 보다 높일 수 있다. 다섯째, 하모닉 모드에서 복수의 하모닉 트랙에서 최 대 필스와 그의 인접 한 펄스만을 추출하여 별도로 양자화함으로써 , 비트수를 절감할 수 있다. 여섯째, 하모닉 모드에 있어서, 동일한 피치를 갖는 하나의 그룹에 속하는 하모닉 트랙에 대해서 , 정해진 위치 셋 중 하나로 시작 위치를 설정함으로써, 복수의 하모닉 트랙들의 각 시작 위치를 표시하는 데 있어서 , 비트수를 절감할 수 있다.
[Description of Drawings ]
도 1 은 본 발명 의 실시 예에 따른 오디오 신호 처리 장치 중 인코더의 구성도.
도 2 는 프레임간 유사성 (tonality) 판단의 예를 설명하기 위 한 도면.
도 3 은 일반모드 또는 비 -일반모드로 코딩하기에 적합한 신호의 예들. 도 4 는 일반모드 인코딩부 (140)의 세부 구성도.
도 5 는 일반모드로 인코딩 한 경우의 신택스의 일 여 1.
도 6 은 비-일반모드 인코딩부 (150)의 세부 구성도.
도 7 및 도 8 은 필스 추출 과정을 설명하기 위한 도면.
도 9 는 펄스 추출 이 전의 신호 (SWB 신호) 및 펄스 추출 이후 신호 (원본 노이즈 신호)의 일 예.
도 10 은 참조 노이즈 생성과정을 설명하기 위한 도면. 도 11 은 비 -일반모드로 인코딩 한 경우의 신택스의 일 예.
도 12 는 특정 오디오 신호에 대해 일반 모드 및 비 -일반모드로 인코딩된 결과를 보여주기 위한 도면.
도 13 은 하모닉비율 판단부 (160)의 세부 구성도.
도 14 는 하모닉비율이 높은 오디오 신호의 예.
도 15 는 넌 -하모닉모드 인코딩부 (170)의 세부 구성도.
도 16 은 넌-하모닉모드인 경우, 고정 펄스를 추출하는 규칙올 설명하기 위한 도면.
도 17 은 넌-하모닉모드로 인코딩 한 경우의 신택스의 일 여 1.
도 18 은 하모닉모드 인코딩부 (180)의 세부 구성도.
도 19 는 하모닉트랙의 추출을 설명하기 위 한 도면
도 20 은 하모닉트랙 위치정보의 양자화를 설명하기 위한 도면.
도 21 은 하모닉모드로 인코딩 한 경우의 신택스의 일 여 1.
도 22 은 특정 오디오 신호에 대해 넌-하모닉 모드 및 하모닉모드로 인코딩 된 결과를 보여주기 위 한 도면.
도 23 은 본 발명의 실시 예에 따른 오디오 신호 처리 장치 중 디코더의 구성도.
도 24 는 본 발명의 실시 예에 따른 오디오 신호 처리 장치가 구현된 제품의 개략적 인 구성도.
도 25 은 본 발명의 일 실시 예에 따른 오디오 신호 처리 장치가 구현된 제품들의 관계도. [Best Mode]
상기와 같은 목적을 달성하기 위하여 본 발명에 따른 오디오 신호 처 리 방법은, 오디오 신호에 대해서 주파수 변환을 수행함으로써 , 복수 개의 주파수 변환 계수들을 획득하는 단계; 상기 복수 개의 주파수 변환 계수들 중 고주파 대역의 주파수 변환 계수들에 대해서 , 펄스 비율을 근거로 일반 모드 및 비- 일반모드 중 하나를 선택하는 단계 ; 및, 상기 비 -일반 모드가 선택된 경우, 다음 단계가 수행되는 단계 ; 상기 고주파 대역의 주파수 변환 계수들로부터 미 리 결정된 개수의 펄스들을 추출하고, 펄스 정보를 생성하는 단계; 상기 고주파 대역의 주파수 변환 계수들로부터 상기 필스들을 제외 한 원본 노이즈 신호를 생성하는 단계 ; 상기 복수 개의 주파수 변환 계수들 중 저주파 대 역의 주파수 변환 계수를 이용하여 참조 노이즈 신호를 생성하는 단계; 및, 상기 원본 노이즈 신호 및 상기 참조 노이즈 신호를 이용하여 , 노이즈 위치정보 및 노이즈 에너지정보를 생성하는 단계를 포함한다.
본 발명에 따르면, 상기 펄스 비율은, 현재 프레임의 전체 에너지에 대한 복수의 펄스들에 대한 에너지의 비율일 수 있다.
본 발명에 따르면, 미 리 결정된 개수의 펄스들을 추출하는 단계는 가장 큰 에너지를 갖는 메 인 필스를 추출하는 단계; 상기 메인 필스에 인접 한 서브 펄스를 추출하는 단계; 및 상기 고주파 대역의 주파수 변환 계수에서 상 7l 메인 필스 및 상기 서브 펄스를 제외시킴으로써 타깃 노이즈 신호를 생성하는 단계; 상기 타깃 노이즈 신호에 대해서 상기 메인 필스 및 상기 서브 펄스를 추출하는 것을 미 리 정해진 횟수만큼 반복하는 단계를 포함할 수 있다.
본 발명에 따르면, 상기 펄스 정보는, 필스 위 치 정보, 펄스 부호 정보, 펄스 크기 정보, 필스 서브밴드 정보 중 하나 이상을 포함할 수 있다.
본 발명 에 따르면, 상기 참조 노이즈 신호를 생성하는 단계는, 저주파 대역의 전체 에너지를 근거로 임 계치를 설정하는 단계; 및 상기 임 계치 이상의 펄스를 제외시킴으로써 , 상기 참조 노이즈 신호를 생성하는 단계를 포함할 수 있다.
본 발명에 따르면, 상기 노이즈 에너지 정보를 생성하는 단계는, 상기 미 리 결정된 개수의 필스의 에너지를 생성하는 단계 ; 상기 원본 노이즈 신호의 에너지를 생성하는 단계; 상기 펄스의 에너지 및 상기 원본 노이즈 신호의 에너지를 이용하여 펄스 비율을 획득하는 단계; 및,
상기 펄스 비율을 노이즈 에너지 정보로서 생성하는 단계를 포함할 수 있다.
본 발명의 또 다른 측면에 따르면, 오디오 신호에 대해서 주파수 변환을 수행함으로써, 복수 개의 주파수 변환 계수들을 획득하는 주파수 변환부; 상기 복수 개의 주파수 변환 계수들 중 고주파 대 역의 주파수 변환 계수들에 대해서 , 펄스 비율을 근거로 일반 모드 및 비 -일반모드 중 하나를 선택하는 펄스비율 판단부; 상기 비 -일반 모드가 선택된 경우에 동작하며 , 다음을 포함하는 비-일반모드 인코딩부; 상기 고주파 대역의 주파수 변환 계수들로부터 미리 결정된 개수의 필스들을 추출하고, 필스 정보를 생성하는 펄스 추출부; 상기 복수 개의 주파수 변환 계수들 중 저주파 대역의 주파수 변환 계수를 이용하여 참조 노이즈 신호를 생성하는 참조노이즈 생성부; 및, 원본 노이즈 신호 및 상기 참조 노이즈 신호를 이용하여, 노이즈 위치정보 및 노이즈 에너지정보를 생성하는 노이즈 탐색부를 포함하고, 상기 원본 노이즈 신호는, 상기 고주파 대역의 주파수 변환 계수들로부터 상기 필스들을 제외함으로써 생성되는 오디오 신호 처리 장치가 제공된다.
본 발명의 또 다른 측면에 따르면, 현재 프레임이 일반 모드 인지 아니면 비 -일반 모드인지 여부를 지시하는 제 2 모드 정보를 수신하는 단계; 상기 제 2 모드 정보가 현재 프레임이 비 -일반 모드임을 지시하는 경우, 펄스 정보, 노이즈 위치정보 및 노이즈 에너지정보를 수신하는 단계; 상기 펄스 정보를 이용하여, 주파수 변환 계수들에 대해서 미리 결정된 개수의 필스들을 생성하는 단계; 상기 노이즈 위치정보에 대웅하는 저주파 대역의 주파수 변환 계수를 이용하여 참조 노이즈 신호를 생성하는 단계; 상기 노이즈 에너지정보를 이용하여 상기 참조 노이즈 신호의 에너지를 조절하는 단계; 및, 상기 에너지 조절된 참조 노이즈 신호 및 상기 복수의 펄스를 이용하여 고주파 대역에 대응하는 주파수 변환 계수들올 생성하는 단계를 포함하는 오디오 신호 처리 방법이 제공된다. 본 발명에 따르면, 오디오 신호를 수신하는 단계; 오디오 신호에 대해서 주파수 변환을 수행하여, 복수개의 주파수 변환 계수들을 획득하는 단계; 상기 주파수 변환 계수에 대해서, 하모닉 비율을 근거로 넌-하모닉 모드 및 하모닉 모드 중 하나를 선택하는 단계; 상기 하모닉 모드가 선택된 경우, 다음 단계가 수행되는 단계; 제 1 피치에 해당하는 제 1 그룹의 하모닉 트랙들을 결정하는 단계; 제 2 피치에 해당하는 제 2 그룹의 하모닉 트랙들을 결정하는 단계; 및, 상기 복수의 하모닉 트랙들의 시작 위치 정보를 생성하는 단계를 포함하고, 상기 제 1 그룹의 하모닉 트팩들은 제 1 하모닉 트랙 및 제 2 하모닉 트랙을 포함하고, 상기 제 2 그룹의 하모닉 트랙들은 제 3 하모닉 트랙 및 제 4 하모닉 트랙을 포함하고, 상기 제 1 하모닉 트랙 및 제 3 하모닉 트랙의 시작 위치 정보는 제 1 위치 셋 중 하나에 대웅되고, 상기 제 2 하모닉 트랙 및 제 4 하모닉 트랙의 시작 위치 정보는 제 2 위치 셋 중 하나에 대웅되는 것을 특징으로 하는 오디오 신호 처리 방법이 제공된다.
본 발명에 따르면, 상기 하모닉 비율은, 복수의 하모닉 트랙들의 에너지 및 복수 개의 펄스의 에너지를 근거로 생성된 것일 수 있다.
본 발명에 따르면, 상기 제 1 위치 셋은 짝수 위치들에 해당하고, 제 2 위치 셋은 홀수 위치들에 해당할 수 있다.
본 발명에 따르면, 상기 제 1 하모닉 트랙 중에서의 최대 펄스, 및 그의 인접 필스, 상기 제 2 하모닉 트랙 중에서 최대 펄스, 및 그의 인접 필스를 포함하는 제 1 타깃 백터를 생성하는 단계; 상기 제 3 하모닉 트랙 중에서의 최 대 필스, 그의 인접 필스, 상기 제 4 하모닉 트랙 중에서의 최 대 펄스, 그의 인접 필스를 포함하는 제 2 타깃 백터를 생성하는 단계; 상기 제 1 타깃 백터 및 상기 제 2 타깃 백터를 백터 -양자화하는 단계; 상기 하모닉 트랙들에서 상기 제 1 타깃 백터 및 상기 제 2 타깃 백터를 제외 한 대상에 대해 주파수 변환하는 단계를 더 포함할 수 있다.
본 발명에 따르면, 제 1 하모닉 트랙은 제 1 피 치를 갖는 복수의 펄스들의 집합이고, 제 2 하모닉 트랙은 게 1 피치를 갖는 복수의 펄스들의 집합이고, 제 3 하모닉 트랙은 제 2 피치를 갖는 복수의 필스들의 집합이고, 제 4 하모닉 트랙은 제 2 피치를 갖는 복수의 필스들의 집합일 수 있다.
본 발명에 따르면, 상기 제 1 피치 및 상기 제 2 피치를 지시하는 피치 정보를 생성하는 단계를 더 포함할 수 있다.
본 발명의 또 다른 측면에 따르면, 제 1 피치에 해당하는 제 1 그룹의 하모닉 트택들 및 제 2 피치에 해당하는 제 2 그룹의 하모닉 트랙을 포함하는 복수의 하모닉 트랙들의 시작 위치 정보를 수신하는 단계; 상기 시작 위치 정보에 대웅하는 복수의 하모닉 트택을 생성하는 단계 ; 및, 상기 복수의 하모닉 트랙을 이용하여 현재 프레임에 해당하는 오디오 신호를 생성하는 단계를 포함하고, 상기 제 1 그룹의 하모닉 트랙들은 제 1 하모닉 트랙 및 제 2 하모닉 트택을 포함하고, 상기 제 2 그룹의 하모닉 트랙들은 제 3 하모닉 트랙 및 제 4 하모닉 트랙을 포함하고, 상기 제 1 하모닉 트랙 및 제 3 하모닉 트랙의 시작 위치 정보는 제 1 위치 셋 중 하나에 대웅되고, 상기 제 2 하모닉 트랙 및 제 4 하모닉 트랙의 시작 위치 정보는 제 2 위치 셋 중 하나에 대웅되는 오디오 신호 처리 방법이 제공된다.
본 발명의 또 다른 측면에 따르면, 오디오 신호에 대해서 주파수 변환을 수행하여, 복수개의 주파수 변환 계수들을 획득하는 단계; 상기 주파수 변환 계수들에 대해서, 프레임간 유사성을 근거로 넌 -토널 모드 및 토널 모드를 선택하는 단계; 상기 넌 -토널 모드가 선택된 경우, 펄스 비율을 근거로 일반 모드 및 비-일반모드 중 하나를 선택하는 단계; 상기 토널 모드가 선택된 경우, 하모닉 비율을 근거로 넌-하모닉 모드 및 하모닉 모드 중 하나를 선택하는 단계; 및, 상기 선택된 모드에 따라서 상기 오디오 신호를 인코딩함으로써 파라미터를 생성하는 단계를 포함하고, 상기 일반 모드인 경우, 상기 파라미터는 인벨롭 위치정보 및 스케일링 정보를 포함하고, 상기 비 -일반 모드인 경우, 상기 파라미터는 펄스정보 및 노이즈 에너지정보를 포함하고 상기 넌-하모닉 모드인 경우, 상기 파라미터는 서브밴드별로 개수가 미리 정해진 고정 펄스들에 대한 정보인 고정 필스정보를 포함하고, 상기 하모닉 모드인 경우, 상기 파라미터는 제 1 그룹의 하모닉 트랙들의 위치정보들, 제 2 그룹의 하모닉 트택들의 위치정보들올 포함하는 오디오 신호 처리 방법이 제공된다. 본 발명 에 따르면, 상기 선택된 모드에 따라서 , 제 1 모드 정보 및 제 2 모드 정보를 생성하는 단계를 더 포함하고, 상기 제 1 모드 정보는, 상기 넌- 토널 모드 및 상기 토널 모드 중 하나를 지시하고, 상기 제 2 모드 정보는, 상기 제 1 모드 정보가 넌 -토널 모드를 지시하는 경우, 상기 일반모드 또는 상기 비 -일반 모드 중 하나를 지시하고, 상기 제 1 모드 정보가 토널 모드를 지시하는 경우, 상기 넌-하모닉 모드 및 상기 하모닉 모드 중 하나를 지시할 수 있다.
본 발명의 또 다른 측면에 따르면, 비트스트림을 통해 제 1 모드 정보 및 제 2 모드 정보를 추출하는 단계 ; 상기 제 1 모드 정보 및 제 2 모드 정보를 근거로 하여 , 현재 프레임에 해당하는 현재 모드를 결정하는 단계; 상기 현재 모드가 일반 모드인 경우, 인벨롭 위치 정보 및 스케일링 정보를 이용하여 현재 프레임의 오디오 신호를 복원하는 단계; 상기 현재 모드가 비 -일반 모드인 경우, 필스정보 및 노이즈 에너지 정보를 이용하여 현재 프레임의 오디오 신호를 복원하는 단계 ; 상기 현재 모드가 넌-하모닉 모드인 경우, 서브밴드별로 개수가 미 리 정해진 고정 필스들에 대한 정보인 고정펄스정보를 이용하여 현재 프레임의 오디오 신호를 복원하는 단계; 및, 상기 현재 모드가 하모닉 모드인 경우, 제 1 그룹의 하모닉 트랙의 위치정보들 및 제 2 그룹의 하모닉 트랙의 위치정보들을 이용하여 현재 프레임의 오디오 신호를 복원하는 단계를 포함하는 오디오 신호 처리 방법 이 제공된다. [Mode for Invention]
이하 첨부된 도면을 참조로 본 발명의 바람직한 실시예를 상세히 설명하기로 한다. 이에 앞서, 본 명세서 및 청구범위에 사용된 용어나 단어는 통상적이거나 사전적인 의미로 한정해서 해석되어서는 아니되며, 발명자는 그 자신의 발명을 가장 최선의 방법으로 설명하기 위해 용어의 개념을 적절하게 정의할 수 있다는 원칙에 입각하여 본 발명의 기술적 사상에 부합하는 의미와 개념으로 해석되어야만 한다. 따라서, 본 명세서에 기재된 실시예와 도면에 도시된 구성은 본 발명의 가장 바람직한 일 실시예에 불과할 뿐이고 본 발명의 기술적 사상을 모두 대변하는 것은 아니므로, 본 출원시점에 있어서 이들을 대체할 수 있는 다양한 균등물과 변형예들이 있을 수 있음을 이해하여야 한다.
본 발명에서 다음 용어는 다음과 같은 기준으로 해석될 수 있고, 기재되지 않은 용어라도 하기 취지에 따라 해석될 수 있다. 코딩은 경우에 따라 인코딩 또는 디코딩으로 해석될 수 있고, 정보 (information)는 값 (values), 파라미터 (parameter), 계수 (coefficients), 성분 (elements) 등을 모두 아우르는 용어로서, 경우에 따라 의미는 달리 해석될 수 있는 바, 그러나 본 발명은 이에 한정되지 아니한다.
여기서 오디오 신호 (audio signal)란, 광의로는, 비디오 신호와 구분되는 개념으로서, 재생 시 청각으로 식별할 수 있는 신호를 지칭하고, 협의로는, 음성 (speech) 신호와 구분되는 개념으로서, 음성 특성 이 없거나 적은 신호를 의미한다ᅳ 본 발명에서의 오디오 신호는 광의로 해석되어야 하며 음성 신호와 구분되 어 사용될 때 협 의의 오디오 신호로 이해될 수 있다. 또한 코딩 이 란, 인코딩만을 지칭할 수도 있지만, 인코딩 및 디코딩을 모두 포함하는 개념으로 사용될 수도 있다.
도 1 은 본 발명의 실시 예에 따른 오디오 신호 처 리 장치 증 인코더의 구성을 보여주는 도면이다. 실시 예에 따른 인코더 (100)는 펄스비율 판단부 (130), 하모닉비율 판단부 (160), 비-일반모드 인코딩부 (150), 및 하모닉모드 인코딩부 (180) 중 하나 이상을 포함하고, 주파수 변환부 (110), 유사성 판단부 (120), 일반모드 인코딩부 (140), 및 넌 -하모닉모드 인코딩부 (180) 중 하나 이상을 더 포함할 수 있다.
개괄적으로 설명하면, 총 네 가지의 코딩 모드가 존재하는 바, 1) 일반 모드, 2) 비 -일반 모드, 3) 넌-하모닉모드, 4) 하모닉모드가 존재하는 데, 여 기서 1) 일반 모드 및 2) 비 -일반 모드는 넌 -토널 모드에 해당하고, 3) 넌-하모닉 모드 및 4) 하모닉모드는 토널 모드에 해당한다.
비 -토널 모드인지 아니면 토널 모드인지 여부는 프레 임간의 유사성의 정도에 따라서 유사성 판단부 (120)에 의 해 결정된다. 즉 유사성 이 높지 않은 경우에는 비 -토널 모드이고, 유사성 이 높은 경우에는 토널 모드에 해당한다. 한편, 비 -토널 모드인 경우, 펄스비율 판단부 (130)는 펄스비율 (구체적으로, 전체 에너지 대비 필스의 에너지의 비율)이 높은 경우 1) 일반 모드 방식을 적용하고 필스비율이 낮은 경우에는 2) 비 -일반 모드 방식을 적용할 것을 결정한다.
또한, 토널 모드일 때는, 하모닉 비율 판단부 (160)는 하모닉비율 (구체적으로, 펄스의 에너지 대비 하모닉 트랙의 에너지의 비율)이 높지 않는 경우 3) 넌-하모닉 모드를 적용할 것을 결정하고, 4) 하모닉 비율이 높은 경우에는 4) 하모닉 모드를 적용할 것을 결정한다.
주파수 변환부 (110)는 입 력되는 오디오 신호에 대해서 주파수 변환올 수행함으로써, 복수 개의 주파수 변환 계수들을 획득한다. 여기서 주파수 변환에는 MDCT(Modified Discrete Cosine Transform), FFT(Fast Fourier Transform) 방식 등이 적용될 수 있지만 본 발명은 이에 한정되지 아니 한다.
주파수 변환 계수들은 상대적으로 저주파 대역 에 해당하는 주파수 변환 계수들과, 고주파 대 역에 해당하는 주파수 변환 계수들이 존재할 수 있다. 저주파 대역의 주파수 변환 계수들을 광대 역 밴드 신호, WB(Wide Band) 신호, 또는 WB 계수라 지 칭하고, 고주파 대역의 주파수 변환 계수들을 초광대역 밴드 신호, SWB(Super Wide Band) 신호 또는 WB 계수라고도 지 칭하고자 한다. 한편 저주파 대역 및 고주파 대역의 기준은 약 7kHz 가 될 수 있지만, 본 발명은 특정 주파수에 한정되지 아니한다.
한편, 주파수 변환 방식 이 MDCT 의 경우, 전체 오디오 신호에 대해서 총 640 개의 주파수 변환 계수들이 생성될 수 있다. 이때, 가장 낮은 대역에 해당하는 약 280 개의 계수를 WB 신호로 지칭하고, 그 다음의 대역에 해당하는 약 280 개의 계수를 SWB 신호라 지 칭할 수도 있지 만, 역시 본 발명은 이 에 한정되지 아니 한다.
유사성 판단부 (120)는 입 력 오디오 신호에 대해서 프레 임간의 유사성을 판단하는데, 프레임간 유사성 이 란, 현재 프레임의 주파수 변환 계수들의 스펙트럼 이 이 전 프레임의 주파수 변환 계수들의 스펙트럼과 얼마나 유사한지 에 관한 것 이다. 프레임간 유사성은 음조성 (tonality)라고 지 칭하기도 한다. 프레임간 유사성에 관한 구체적 인 수식에 대한 설명은 생략하고자 한다. 도 2 는 프레임간 유사성 (tonality) 판단의 예를 설명하기 위 한 도면이다. 도 2 의 (A)를 참조하면, 이 전 프레임의 스펙트럼 및 현재 프레임의 스펙트럼의 예가 도시되어 있다. 직관적으로 판단해볼 때, 주파수 빈이 약 40 에서 60 사이 인 구간에서 유사성 이 가장 적은 것을 알 수 있다. 도 2 의 (B)를 참조하면, 직관에 의 한 결과와 마찬가지로 유사성은 40~60 구간에서 가장 낮은 수치를 보임을 알 수 있다.
유사성 판단부 (120)가 프레 임간 유사성을 판단한 결과, 유사성 이 낮은 경우는 노이즈와 유사한 신호로서 넌 -토널 모드 (non-tonal)로 분류하고, 유사성 이 높은 경우는 노이즈와는 다른 특성을 갖는 신호로서 토널 모드 (tonal)로 분류한다. 그리고 해당 프레임이 넌 -토널 모드에 해당하는지 토널 모드에 해당하는지를 지시하는 제 1 모드 정보를 생성하여 디코더에 전달한다. 넌 -토널 모드로 판단한 경우 (예를 들어 제 1 모드 정보가 0 인 경우), 고주파 대역의 주파수 변환 계수들을 펄스비율 판단부 (130)로 전달하고, 반대인 경우 (예를 들어 , 제 1 모드 정보가 1 인 경우), 상기 계수들을 하모닉비율 판단부 (160)에 전달한다.
다시 도 1 을 참고하면, 프레임간 유사성을 판단한 결과 유사성 이 낮은 경우, 즉 넌 -토널 모드인 경우, 펄스비율 판단부 (130)가 활성화된다.
펄스비율 판단부 (130)는 펄스 비율 즉, 현재 프레임의 전체 에너지 대비 복수의 필스들에 대한 에너지 비율을 근거로 하여 일반 모드 또는 비 -일반 모드를 결정한다. 여기서 펄스란, 주파수 변환 계수의 도메인 (예 : MDCT 도메인)에서 상대적으로 에너지가 높은 계수를 의미 한다.
도 3 은 일반모드 또는 비 -일반모드로 코딩하기 에 적합한 신호의 예들이다. 도 3 의 (A)를 참조하면, 특정 주파수 대역에 치우치지 않고 전체 주파수가 골고루 포함되어 있음을 알 수 있다. 이와 같이 노이즈와 유사한 특성을 갖는 경우, 일반 모드로 코딩하기에 적합한 신호라 할 수 있다. 도 3 의 (B)를 참조하면, 전체 주파수 신호가 고루 포함되 기 보다는 특정 대역 (라인)이 강한 것을 알 수 있다. 상기 특정 대역은 주파수 변환 계수의 도메 인에서는 펄스로 나타날 수 있는데, 이 펄스의 에너지가 전체 에너지에 비해서 높은 경우, 펄스 비율이 높으므로 비 -일반 모드로 인코딩하기 적합한 신호라 할 수 있다. 도 3 의 (A)와 같은 신호는 노이즈에 가까운 신호이고, 도 3 의 (B)는 타악기 소리에 가까운 신호일 수 있다.
펄스비율 판단부 (130)가 주파수 변환 계수의 도메인 상에서 높은 에너지를 갖는 필스들을 추출하는 과정에 관해서는, 비 -일반 모드의 코딩 방식이 적용되었을 때 수행되는 펄스 추출 과정과 동일할 수 있으므로, 이 추후 비-일반모드 인코딩부 (150)에서의 세부 구성과 함께 설명하고자 한다. 만약에, 총 8개의 필스를 추출한 경우, 다음과 같이 표현될 수 있다.
[수학식 1]
j ) = m x ({ 1 32 ¾ + 280 ) }2 ), j = 0, · .. , 7 A: = 280, . · . ; 560 여기서, 32 ( 는 SWB 계수 (고주파 대역의 주파수 변환 계수), k는 주파수 변환 계수의 인덱스, 는 펄스 (또는 피크), j는 펄스 인덱스
여기서, 펄스 비율은 다음 수학식과 같이 표현될 수 있다.
[수학식 2]
_ ^peak
peakSᅳ
total
7 280
^ , Epeak = ∑ {P(k†} Etotal = ∑{P(k + 280f
여기서, k = o , fc=o
여기서, RpeakS는 펄스 비.율, e 는 필스의 총 에너지
에너지 .
이와 같이 펄스 비율 ( e« )을 추정한 후에, 펄스 비율이 특정 기준값 (예: 0.6)을 넘지 못할 경우, 일반 모드 (generic mode)로 결정하고, 기준값을 초과할 경우에는 비 -일반모드 (non-generic mode)로 결정한다.
다시, 도 1 을 참조하면, 펄스비율 판단부 (130)는 상기와 같은 과정을 통해 필스 비율을 기준으로 일반 모드 또는 비 -일반 모드를 결정하고, 넌 -토널 모드일 때, 일반 모드인지 비 -일반 모드인지 여부를 지시하는 제 2 모드 정보를 생성하여 디코더에 전송한다. 그러면 일반모드 인코딩부 (140)의 세부 구성 및 비 일반모드 인코딩부 (150)의 세부 구성을 각각 별도의 도면을 참조하면서 설명하고자 한다.
그런 다음 하모닉비율 판단부 (160), 넌 -하모닉모드 인코딩부 (170) 및 하모닉모드 인코딩부 (180)의 각 세부구성 에 대해서 별도 도면을 참조하면서 설명하고자 한다.
도 4 는 일반모드 인코딩부 (140)의 세부 구성을 보여주는 도면이고, 도 5 는 일반모드로 인코딩 한 경우의 신택스의 일 예이다.
우선 도 4 를 참조하면, 일반모드 인코딩부 (140)는 정규화부 (142), 서브밴드 생성부 (144), 및 탐색부 (146)를 포함한다. 일반모드인 경우에는, 고주파대역의 신호 (SWB 신호)는 부호화된 저주파 대역의 신호 (WB 신호)의 인벨롭과의 유사 정도를 이용하여 부호화한다.
정규화부 (142)는 WB 신호의 인벨롭을 지수 도메 인 (logarithmic domain)에서 정규화한다. 여기서 WB 신호는 디코더에서도 알 수 있는 신호여 야 하므로, 인코딩된 WB 신호를 이용하여 복원된 신호인 것이 바람직하다. WB 신호의 인벨롭 (포락선)이 급속도로 변화하기 때문에 , 2 개의 스케 일링 팩터의 양자화는 정확히 할 수 없을 수 있기 때문에 지수 도메인에서 정규화하는 과정 이 필요할 수 있다. 서브밴드 생성부 (144)는 SWB 신호를 복수 개 (약 4 개)의 서브 밴드로 분할한다. 예를 들어 , SWB 신호의 주파수 변환 계수들이 총 280 개인 경우, 각 서브밴드는, 40, 70,70, 100 개의 계수들을 가질 수 있다.
탐색부 (146)는 WB 신호의 정규화된 인벨롭을 탐색함으로써 , SWB 신호의 각 서브밴드와 유사도를 연산하고, 이 유사도를 기 반으로 하여 각 서브밴드와 유사한 인벨롭의 구간을 갖는 최 대유사 WB 신호를 결정한다. 이 최 대 유사 WB 신호의 시작 위치를 인벨롭 위치정보로서 생성한다.
그런 다음, 탐색부 (146)는 원본 SWB 신호와 청각적으로 유사하게 만들기 위해, 두 개의 스케일링 정보를 결정할 수 있다. 이따, 제 1 스케일링 정보는 선형 도메인에서 서브밴드별로 결정되며 , 제 2 스케일링 정보는 로그 도메인에서 서브밴드별로 결정될 수 있다.
이와 같이 일반모드 인코딩부 (140)는 WB 신호의 인벨롭을 이용하여 SWB 신호를 인코딩하며 , 인벨롭 위치정보 및 스케일링 정보를 생성 한다.
도 5 를 참조하면, 일반 모드인 경우의 신택스의 일 예로서 , 넌-토널인지 토널인지를 지시하는 제 1 모드 정보, 넌-토널일 경우 일반 모드인지 비 -일반 모드인지를 지시하는 제 2 모드 정보가 각각 1 비트씩 할당된다. 그리고, 인벨롭 위치 정보가 각 서브밴드별로 총 30 비트가 할당될 수 있다.
스케일링 정보는 각 서브밴드별 스케일링 부호 정보가 총 4 비트, 서브밴드별 제 1 스케일링 정보 (총 4 개)는 총 16 비트가 할당될 수 있고, 서브밴드별 제 2 스케일링 정보들 총 4 개는 8 비트 코드북을 기반으로 백터 양자화되어 총 8 비트가 할당될 수 있으나, 본 발명은 이에 한정되지 아니한다.
이하, 도 6 이하를 참조하면서 , 비-일반모드에서의 인코딩과정에 대해서 설명하고자 한다. 도 6 은 비-일반모드 인코딩부 (150)의 세부 구성을 보여주는 도면이다. 도 6 을 참조하면, 비 -일반모드 인코딩부 (150)는 펄스 추출부 (152), 참조 노이즈 생성부 (154) 및 노이즈 탐색부 (156)를 포함한다.
필스 추출부 (152)는 고주파 대역의 주파수 변환 계수들 (SWB 신호)로부터 미 리 결정된 개수의 필스들을 추출하고, 상기 펄스들에 대한 정보인 필스 정보 (예 : 필스 위치 정보, 필스 부호 정보, 펄스 크기 정보 등)을 생성한다. 여기서 필스는 앞서 펄스비율 판단부 (130)에서 정의한 펄스와 마찬가지 이다. 이하, 도 7 내지 도 9 를 참조하면서 , 펄스 추출에 대한 과정의 일 실시 예에 대해서 구체적으로 설명하고자 한다.
우선, 펄스 추출부 (152)는 SWB 신호를 아래와 같이 복수 개의 서브밴드 신호로 분할한다. 이때, 각 서브밴드는 총 64 개의 주파수 변환 계수들에 대웅될 수 있다.
[수학식 3]
Figure imgf000022_0001
)는 SWB 신호 중 제 1 서브밴드
그런 다음, 서브밴드별 에너지를 다음과 같이 산출한다. [수학식 4]
63
E° = ∑{ 32(¾ + 280)}2
k= 0
Figure imgf000023_0001
은 제 1 서브밴드의 에너지
도 7 및 도 8 은 필스 추출 과정을 설명하기 위 한 도면이다. 우선 도 7 의 (A)를 참조하면, SWB 가 총 네 개의 서브밴드가 존재하고, 각 서브밴드별 필스의 예가 도시되어 있다.
그런 다음, 서브밴드별 에너지 (E0, E1, E2, E3)가 가장 큰 서브밴드 (j=0, 1, 2, 3 중 하나)를 선택한다. 도 7 의 (B)를 참조하면, 제 1 서브밴드의 에너지 (E0)가 가장 높아서 , 제 1 서브밴드 (j=0)가 선택된 예가 도시되어 있다.
그런 다음, 해당 서브밴드 내에서 가장 에너지가 높은 펄스를 메 인 펄스로 결정 한다. 그런 다음 메인 펄스와 인접 한 두 개의 필스들, 즉 메인 펄스의 왼쪽 필스 및 오른쪽 펄스 중 에너지가 높은 필스를 서브 펄스로 결정한다. 도 7 의 (C)를 참조하면, 제 1 서브밴드 중에서 메 인 필스와 서브 펄스를 결정한 예가 도시되어 있다.
특히 , 메인 필스 및 그에 인접 한 서브 펄스를 추출하는 과정은, 주파수 변환 계수들이 MDCT 를 통해 생성된 계수들인 경우에 바람직하다. 왜냐하면,
MDCT 의 독특한 특성 때문인데, 이 특성은 시간 이동 (time shift)에 민감하고 위상 변화성 (phase-variant)을 갖는 특징 이다. 따라서, 주파수 분해능 (frequency resolution)이 정확하지 않으므로, 하나의 특정 주파수가 1 개의 MDCT 계수에 대응되지 않고, 2 개 이상의 MDCT 계수에 대응될 수 있다ᅳ 따라서, MDCT 도메인에서 보다 정확하게 필스를 추출하기 위해서, MDCT 의 메인 펄스만을 추출하기 보다는, 그에 인접한 서브 펄스를 부가적으로 추출한다.
한편, 서브 펄스는 메인 필스의 좌측 또는 우측에 인접하기 때문에, 서브 펄스의 위치정보는 메인 펄스의 좌측인지 또는 우측인지를 지시하는 1 비트만으로 인코딩이 가능하기 때문에, 상대적으로 적은 비트를 사용하면서도 보다 정확한 펄스를 추정하는 것이 가능하다.
상기 메인 펄스 및 서브 필스의 추출과정을 논리식으로 정리하면 아래와 같다. 단 아래 표현에 본 발명은 한정되지 아니한다.
M^3Hk) = subband of maxium Energy
index = peak position in subband Λ/3'" ax
if {index ==0 or
Figure imgf000024_0001
+ l)|)
Pf0S (1 ) = index + 1
Figure imgf000024_0002
if( amp(l)< 0) else else
Poo (1 ) = index― 1
Figure imgf000024_0003
else 이와 같이 필스 추출부 (152)는 SWB 신호에서 앞서 추출된 제 1 세트의 메인 펄스 및 서브 펄스를 제외시킴으로써 타깃 노이즈 신호를 생성 한다.
도 8 의 (A)를 참조하면, 도 7 의 (C)에서 추출된 제 1 세트의 펄스가 제외되어 있음을 알 수 있다. 그 타깃 노이즈 신호에 대해서 상기 메인 펄스 및 서브 펄스의 추출과정을 반복한다. 즉, 가장 큰 에너지를 갖는 서브밴드를 결정하고, 해당 서브밴드 내에서 가장 큰 에너지를 갖는 펄스를 메인 필스로 결정하고, 그 인접 한 펄스들 중 하나를 서브 펄스로 결정하는 것이다. 이와 같이 추출된 제 2 세트의 메인 펄스 및 서브 펄스를 제외시킴으로써 타깃 노이즈 신호를 다시 정의함으로써 , 제 N 세트까지 이 과정을 반복한다. 예를 들어 , 상기 과정을 제 3 세트까지 반복하고, 상기 제 3 세트를 제외한 타깃 노이즈 신호에 대해서 2 개의 단독 펄스를 더 추출할 수 있다. 여기서 단독 펄스랑 상기와 같이 메 인 및 서브의 관계 없이 , 타깃 노이즈 신호 중 가장 에너지가 높은 펄스를 의미 한다.
펄스 추출부 (152)는 상기와 같이 정해진 개수의 펄스들을 추출한 후에 , 이 펄스에 대한 정보인 필스 정보를 생성 한다. 여기서 정해진 개수의 필스들은 예를 들어 총 8 개 (총 3 세트의 메인 필스들 및 서브 펄스들, 총 3 개의 단독 펄스들)일 수 있지만, 본 발명은 이에 한정되지 아니 한다. 펄스 정보는, 필스 위치 정보, 펄스 부호 정보, 펄스 크기 정보, 펄스 서브밴드 정보 중 하나 이상을 포함할 수 있다. 여기서 먼저 펄스 서브밴드 정보는, 해당 펄스가 몇 번째 서브밴드에 속하는지에 대한 정보이다. 도 11 은 비 -일반모드로 인코딩 한 경우의 신택스의 일 예인데, 여기서 펄스 관련 정보에 대해서만 참조하고자 한다. 도 11 은 서브밴드가 총 4 개이고, 펄스가 총 8 개일 때 (각 3 개씩 의 메 인 펄스 및 서브 펄스들, 단독 펄스 2 개)의 경우이다. 도 11 의 펄스 서브밴드 정보는 2 비트씩 총 10 비트가 할당되어 있음을 알 수 있다. 이는, 서브밴드가 총 4 개인 경우, 하나의 필스가 서브밴드를 표시하기 위해서는 2 비트가 필요한데, 이는 각 세트의 메인 펄스 및 서브 펄스는 동일한 서브밴드에 속하기 때문에 , 한 세트 (메인 및 서브)의 필스를 표현하기 위해 총 2 비트만 소요된다. 그런데 단독 펄스의 경우, 각 하나의 펄스를 표현하기 위해 2 비트씩 이 소요된다.
따라서, 필스 서브밴드 정보를 인코딩 하기 위해서는 제 1 세트에 2 비트, 제 2 세트에 2 비트, 제 3 세트에 2 비트, 제 1 단독 필스에 2 비트, 제 2 단독 펄스에 2 비트, 즉 총 10 비트가 필요하다.
또한, 펄스 위치 정보는, 특정 서브밴드 내에서는 펄스가 몇 번째 계수에 존재하는지를 나타내기 위 한 정보이므로, 제 1 세트 내지 제 3 세트까지 각 6 비트, 제 1 단독 필스에 6 비트, 제 2 단독 펄스에 6 비트, 총 30 비트가 소요된다.
또한, 펄스 부호 정보는, 총 8 개의 비트 각각 1 비트씩 , 총 8 개의 비트가 소요되고, 필스 크기 정보는, 4 개의 펄스들의 크기 정보를 8 비트의 코드북을 이용하여 백터 양자화하여 , 총 16 비트를 할당한다.
다시 도 6 을 참조하면, 상기와 같은 과정을 통해 필스 추출부 (152)에 의해 추출된 펄스들이 고주파 대역의 신호 (SWB 신호)로부터 제외됨으로써, 원본 노이즈 신호 (2 c) 등)가 생성된다. 예를 들어 , 총 280 개의 계수들 중에서 총 8 개의 필스에 해당하는 계수를 제외시킨 경우, 원본 노이즈 신호는 총 272 개의 계수들에 대응할 수 있다. 도 9 는 필스 추출 이전의 신호 (SWB 신호) 및 펄스 추출 이후 신호 (원본 노이즈 신호)의 일 예가 도시되어 있다. 도 9 의 (Α)에서 원본 SWB 신호는 주파수 변환 계수 도메인 상에서 높은 피크 에너지를 갖는 필스가 복수 개 포함되 어 있는 반면에 , 도 9 의 (Β)는 그 필스가 제외된 노이즈성 (noise-like)의 신호만이 남는다.
도 6 의 참조 노이즈 생성부 (154)는 저주파 대역의 주파수 변환 계수 (WB 신호)를 근거로, 참조 노이즈 신호를 생성 한다. 구체적으로, WB 신호의 전체 에너지를 근거로 임 계치를 설정하고, 그 임 계치 이상의 펄스를 제외시킴으로써 : 참조 노이즈 신호를 생성 한다.
도 10 은 참조 노이즈 생성과정을 설명하기 위 한 도면이다. 도 10 의 (A)를 참조하면, WB 신호의 일 예가 주파수 변환 도메인 상에 표시되어 있다. 이 중 전체 에너지를 고려하여 임 계치가 설정되 었을 때, 임 계치를 벗어나는 펄스도 존재하고, 임 계치 범위 내에 존재하는 필스도 있다. 임 계치를 벗어나는 펄스를 제외시키면 도 10 의 (B)와 같은 신호가 남게 된다. 이와 같이 참조 노이즈 신호를 생성한 후, 정규화과정을 거친다. 그러면 도 10 의 (C)와 같이 표현될 수 있다.
참조 노이즈 생성부 (154)는 상기와 같은 과정을 통해 WB 신호를 이용하여 참조 노이즈 신호 ^16를 생성 한다. 도 6 의 노이즈 탐색부 (156)는 원본 노이즈 신호 및 참조 노이즈 신호 ^16 를 비교함으로써 , 원본 노이즈 신호 등)와 가장 유사한 참조 노이즈 신호의 구간을 결정하고, 노이즈 위치 정 보ᅳ 및 노이즈 에너지정보를 생성한다. 이 과정에 대한 일 실시 예를 아래와 같이 구체적으로 설명하고자 한다.
우선, 원본 노이즈 신호 (SWB 신호에서 펄스가 제외된 신호)를 아래와 같이 복수 개의 서브밴드 신호로 분할한다.
[수학식 5]
Figure imgf000028_0001
여 기서의 각 서브밴드의 크기는 앞서 일반모드에서의 서브밴드와 동일한 크기를 가질 수 있다. 서브밴드의 길이 j = 0v,3는 40, 70,
70, 100 개의 주파수 변환 계수들에 대웅할 수 있다. 모든 서브밴드는 각 다른 검 색시작 위치 와 각기 다른 검 색범위 WJ 를 가지며, 참조 노이즈 신호 ΐ/16와의 유사정도를 검 색한다. 검 색시작 위치 는 j=0, 2 일 때 0 으로 고정되고, j=l, 3 인 경우 이 전 서브밴드의 최 대 유사도를 갖는 서브밴드의 시작위치에 종속된다. j 번째 서브밴드에 대한 검 색시작 위치 및 검 색범위 는 다음과 같이 표현될 수 있다.
[수학식 6]
Figure imgf000029_0001
k3는 검색시작 위치, Bestldx3^ 최대유사 시작위치, J는 서브밴드의 길이, W3는 검색 범위 만약, r7 가 음수가 되면 0 으로 수정해주며, 28으 ᅳ ί ^보다 커지면, 28으 < ᅳ 으로 수정해준다. 최대유사 시작위치는 Bestldx3은 다음 과정을 통해 각 서브밴드별로 추정한다. 우선 유사정도지표 에 해당하는 유사도 ^(^)는 다음 수학식과 같이 연산된다. 일반 모드와 유사한 방법으로 부호화되나, 한 샘플 (하나의 계수)가 아니라 4개의 샘플 단위로 검색을 실시한다.
[수학식 7]
k<dj _
corrik')二 ∑ Mi2{k)Mu{ > + k' + k), k' = 0,3,7,...,^' - 1 k = o corrik')는 유사도, Λ (^는 원본 노이즈 (수학식 5 참조), ΐ6는 참조 노이즈, r7는 검색시작 위치, /유사정도지표, 는 검색 범위
유사정도지표 에 해당하는 에너지는 다음 수학식과 같이 연산된다. [수학식 8] k < d3
Ene{k')= Mi6(k> + k' + k)2 k' = 0,d ,....,wj - 1 실질적인 유사정도^ 는 다음 수학식과 같다.
[수학식 9
Figure imgf000030_0001
실질적인 유사정도 가 최대값이 되는 서브밴드의 시작 위치
Figure imgf000030_0002
Lag Index3 파라미터로 변환되어 노이즈 위치 정보로서 비트스트림에 포함된다.
Bestldx 0
lag Corr = 0
lagEnergy= le30
for fc'― 0 to w3— I
ii(Ene{kf) > 0)
i f (lag Corr En (k' ) < corr(k' )lagEnergy)
Bestldxj = k'
lag Corr ― corr(k' )
lag Energy― Ene (fc' )
end
end
end
앞서 노이즈 탐색부 (156)가 노이즈 위치 정보를 생성한 과정에 대해서 설명한 바, 이하 노이즈 에너지 정보를 생성하는 과정에 대해서 설명하고자 한다. 참조 노이즈 신호는 원본 노이즈 신호와 유사한 파형을 유지하나, 그 에너지는 서로 다를 수 있다. 디코더에서 원본 노이즈와 유사한 에너지를 갖 노이즈 신호를 가질 수 있도록, 원본 노이즈 신호의 에너지에 대한 정보인 노이즈 에너지 정보를 생성하여 디코더에 전송할 필요가 있다.
한편, 상기 노이즈 에너지의 값은 다이나믹 레인지가 크기 때문에, 필스 비율이라는 값으로 변환하여 전송할 수 있다. 펄스 비율은 백분율 값이므로 0%~100%값을 가지므로 다이나믹 레인지가 작아서, 비트수를 절감할 수 있다. 이 변환 과정에 대해서 설명하고자 한다.
노이즈 신호의 에너지는 다음 수학식과 같이 SWB 신호의 전체 에너지에서 필스 에너지를 제외한 값과 같다.
[수학식 10]
280
Noise energy = ∑ {M32 (280 + k)}2 ~ P energy
fc= o
Woise energ/는 노이즈 에너지, ^32는 SWB 신호, P energy는 필스
, ΐ , i -,ι P energy = TJip (k)\2
에너지 ( ί" = 0 ) ' 상기 수학식을 백분율인 펄스 비율 perceni로 나타내면 다음과 같다. [수학식 11]
p
" P energy + 1 NoivstJe^energy
R per cent는 필스 비율, P energy는 펄스 에너지, No'ise ene'rgy는 노이즈 에너지 즉, 인코더에서는 수학식 10 에 나타난 노이즈 에너지 Noise en^gy 대신에, 수학식 11 에 나타난 펄스 비율 ^perceni을 전송한다. 이 펄스 비율에 해당하는 노이즈 에너지 정보는 도 11 에 도시된 바와 같이 4비트로 인코딩될 수 있다.
그러면, 디코더에서는 우선, 펄스 추출부 (152)에 의해 생성된 펄스 정보를 근거로 펄스 에너지 ¾ {尸續 P(fc)}2)를 생성한다ᅳ 그런 다음
Figure imgf000032_0001
펄스 에너지 ( ^ener / ) 및 전송된 펄스 비율 ^perceni을 다음 수학식에 대입함으로써 , Noise ene gy^ 노이즈 에너지를 생성한다.
[수학식 12]
^ ― (100 ^ energy^ ^ ^'percent
% se energy ~~ ~ ~ ^
-^* percent
상기 수학식 12는 수학식 11을 다시 정리한 식이다.
디코더는 전송된 펄스 비율을 상기와 같이 노이즈 에너지로 변환한 후, 노이즈 에너지는 참조 노이즈 신호의 각 계수에 다음과 같이 곱합으로써, 참조 노이즈 신호를 이용하여, 원본 노이즈 신호와 유사한 에너지 분포를 갖는 노이즈 신호를 획득할 수 있다.
[수학식 13]
^ amp ― l OibC energy 272
M32(k + 2S0)= Mi2(k+2S0)y Samp fc = 0,...,280
노이즈 탐색부 (i56)는 상기와 같은 과정을 통해 노이즈 위치 정보를 생성하고, 노이즈 에너지 값을 필스 비율로 변환하고, 이를 노이즈 에너지 정보로서 디코더에 전송한다. 도 12 는 특정 오디오 신호에 대해 일반 모드 및 비 -일반모드로 인코딩된 결과를 보여주기 위한 도면이다. 도 12 의 (A)를 우선 참조하면, 특정 신호 (예: 타악기와 같이 특정 주파수 대역이 강한 신호)에 대해서는 일반 모드로 인코딩한 후 합성한 결과와, 비 -일반 모드로 인코딩한 후 다시 복호화한 결과가, 도 12 의 (A)에 나타난 바와 같이, 차이가 있을 수 있다. 도 12 의 (B)를 살펴보면, 도 12 에 나타난 원본 신호에 대해서는, 비 -일반 모드로 인코딩한 결과가, 일반 모드로 인코딩한 결과보다 우수함을 알수 있다.
즉, 오디오 신호의 특성에 따라, 미리 결정된 특정 펄스의 에너지가 높은 경우에는, 본 발명의 실시예에 따른 비 -일반 모드로서 인코딩함으로써, 비트수 증가는 거의 없이 보다 음질을 높일 수 있다.
이하에서는, 프레임간의 유사성이 높아서 토널-모드로 분류된 경우, 도
1 에서 언급한 하모닉비율 판단부 (160), 넌 -하모닉모드 인코딩부 (170) 및 하모닉모드 인코딩부 (180)에 대해서 각각 설명하고자 한다.
우선 도 13 은 하모닉비율 판단부 (160)의 세부 구성을 보여주는 도면이다. 도 13 을 참조하면, 하모닉비율 판단부 (160)는, 하모닉트랙 추출부 (162) 및 고정펄스 추출부 (164) 및 하모닉비율 결정부 (166)를 포함할 수 있는 데, 오디오 신호의 하모닉비율을 근거로 넌-하모닉 모드 및 하모닉 모드를 결정한다. 하모닉모드는 예를 들어, 단일 악기에 의한 하모닉 성분이 강한 신호, 또는 여러 악기에 의해서 발생하는 멀티플 피치 (multiple pitch) 신호를 포함하는 신호를 인코딩하기에 적절한모드이다. 도 14 는 하모닉 비율이 높은 오디오 신호의 예이다. 도 14 를 참조하면, 주파수 변환 계수 도메인 상에서 기본 주파수의 배수가 되는 하모닉들이 강하게 나타나고 있음을 알 수 있다. 이 러 한 하모닉 특성 이 강한 신호의 경우, 종래의 방식대로 인코딩을 할 경우, 하모닉에 해당하는 펄스를 모두 인코딩해야 하므로, 비트가 많이 소요되어 부호화기 의 성능이 떨어지는 문제점 이 있다. 반대로, 정해진 개수의 펄스만을 추출하는 인코딩 방식을 적용하였을 때, 모든 필스를 추출하기 어 렵기 때문에 음질이 저하되는 문제점 이 있다. 따라서, 이 러한 신호에 적 절한 코딩 방식을 본원에서는 제안하고자 한다.
하모닉트랙 추출부 (162)는 고주파 대역에 해당하는 주파수 변환 계수들에 대해서 , 하모닉 트택을 추출한다. 이 과정은 추후 하모닉모드 인코딩부 (180)의 하모닉트택 추출부 (182)와 동일한 과정을 수행하므로, 추후에 구체적으로 설명하고자 한다.
고정펄스 추출부 (164)는 정해진 영 역에서 정해진 개수의 펄스를 추출한다 (164). 이 과정은 추후 넌 -하모닉모드 인코딩부 (170)의 고정필스 추출부 (172)와 동일한 과정을 수행하므로, 추후에 구체적으로 설명하고자 한다. 하모닉비율 결정부 (166)는, 하모닉 비율 즉, 추출된 하모닉트랙의 에너지의 합에 비 한 고정펄스 에너지의 비율인 바, 하모닉 비율이 낮은 경우에는 넌-하모닉 모드로 결정하고, 하모닉 비율이 높은 경우에는 하모닉 모드로 결정 한다. 앞서 설명 한 바와 같이 넌-하모닉 모드인 경우 넌- 하모닉모드 인코딩부 (170)가 활성화되고, 하모닉 모드인 경우 하모닉모드 인코딩부 (180)가 활성화된다.
도 15 는 넌 -하모닉모드 인코딩부 (170)의 세부 구성을 보여주는 도면이고, 도 16 은 넌-하모닉모드인 경우, 고정 필스를 추출하는 규칙을 설명하기 위 한 도면이고, 도 17 은 넌-하모닉모드로 인코딩 한 경우의 신택스의 일 예이다.
우선, 도 15 를 참조하면, 넌 -하모닉모드 인코딩부 (170)는 고정펄스 추출부 (172) 및 펄스위 치정보 생성부 (174)를 포함한다.
고정펄스 추출부 (172)는 도 16 에 나타난 바와 같이 고정된 영 역에서 고정된 개수의 고정 필스를 추출한다.
[수학식 14]
D{k) =
Figure imgf000035_0001
k = 280, ....560 여기서, 2 ( ^는 SWB 신호, 2 ( 는 HF 합성신호.
HF 합성 신호 7 ^32 ( 는 존재하지 않기 때문에 0 으로 결정되고, ikf32 (/c) 의 최 대값을 찾는 과정 이 된다. ^(fc) 에서 5 개의 서브밴드로 분할하여 쟈를 만들고 각 서브밴드의 펄스의 개수는 이 전에 결정된 개수 지 값을 갖는다. 각 서브밴드별 개의 가장 큰 값을 찾는 과정은 다음과 같다. 다음의 알고리즘은 정 렬 알고리즘으로서 최 대값 N 을 찾고 이를 input_data 라는 배열에 저장한다. for = 0 to N
data_sorted{j )— 0
data—sortedXj ) = 0
Idx = 0
for k = 1 to length(input_dat )
l i (input_data(j) > dataᅳ, sorted ( ))
index ^sortedij)― k
Idx = h
end- end
end
도 16 을 참조하면, 각 서브밴드 별로 다수의 위치 셋 중 하나, 즉, 제 1 위치 셋 (예 : 짝수 위치들) 또는 제 2 위치 셋 (홀수 위치들)에서 정해진 개수 (예 : 10 개)의 필스를 추출하는 예가 도시되어 있다. 제 1 서브밴드에서는 짝수의 위치 (position: 280 등)에서 두 개의 펄스들 (track 0)을, 홀수의 위치 (position: 281, 등)에서도 두 개의 필스들 (track 1)을 추출한다. 제 2 서브밴드에서도 마찬가지로 : 짝수의 위치 (position: 280 등)에서 두 개의 펄스들 (track 2)을, 홀수의 위치 (position: 281, 등)에서도 두 개의 필스들 (track 3)를 추출한다. 그런 다음 제 3 서브밴드에서는, 위치와 상관없이 1 개의 펄스 (track4)를, 제 4 서브밴드에서도, 위치와 상관없이 1 개의 펄스 (track5)를 추출한다.
위와 같이, 고정 펄스를 추출하는 이유는, 즉, 정해진 위치에서 정해진 개수만큼의 펄스를 추출하는 이유는, 고정 펄스의 위치정보에 해당하는 비트수를 절약하기 위해서 이다.
다시 도 15 를 참조하면, 펄스위치정보 생성부 (174)는 추출된 고정펄스에 대해서 , 정해진 규칙에 따라 고정펄스 위치정보를 생성 한다. 도 17 은 넌- 하모닉모드로 인코딩 한 경우의 신택스의 일 예이다. 도 17 를 참조하면, 도 16 에 나타난 규칙 대로 고정펄스를 추출할 경우, trackO 내지 track3 까지의 총 8 개의 펄스는 짝수 또는 홀수로 위치가 정해져 있기 때문에 , 고정펄스 위치정보를 인코딩하기 위한 비트수가 64 비트가 아니 라 32 비트가 될 수 있다. track4 에 해당하는 필스는 짝수 또는 홀수의 제한이 없으므로 64 비트가 소요되고, track5 의 경우에는 짝수 또는 홀수의 제한이 없지 만, 위치가 472 부터 503 으로 제한되므로, 32 비트가 필요하다.
이하, 도 18 내지 도 20 과 함께 하모닉모드 인코딩 과정을 설명하고자 한다.
도 18 은 하모닉모드 인코딩부 (180)의 세부 구성을 보여주는 도면이고, 도 19 는 하모닉트랙의 추출을 설명하기 위한 도면이고, 도 20 은 하모닉트랙 위치정보의 양자화를 설명하기 위한 도면이다.
도 18 을 참조하면, 하모닉모드 인코딩부 (180)은 하모닉트랙 추출부 (182) 및 하모닉정보 부호화부 (184)를 포함한다.
하모닉트랙 추출부 (182)는 고주파 대역에 해당하는 주파수 변환 계수들에 대해서 복수의 하모닉 트랙을 추출한다. 구체적으로, 제 1 피치에 해당하는 제 1 그룹의 하모닉 트랙 (제 1 하모닉 트랙 및 제 2 하모닉 트랙)을 추출하고, 제 2 피치에 해당하는 제 2 그룹의 하모닉 트랙 (제 3 하모닉 트랙 및 제 4 하모닉 트랙)을 추출한다. 계 1 하모닉 트랙 및 제 3 하모닉 트랙의 시작 위치 정보는 제 1 위 치 셋 (예 : 홀수) 중 하나에 대응될 수 있고, 제 2 하모닉 트랙 및 게 4 하모닉 트랙의 시작 위치 정보는 제 2 위치 셋 (예: 짝수) 중 하나에 대웅될 수 있다ᅳ
도 19 의 (A)를 참조하면, 제 1 피치를 갖는 제 1 하모닉 트랙 및 제 1 피치를 갖는 게 2 하모닉 트랙이 표현되어 있다. 예를 들어, 제 1 하모닉 트랙의 시작 위치는 짝수, 제 2 하모닉 트랙의 시작 위치는흘수로 표현될 수 있다. 한편, 도 19 의 (B)를 참조하면, 제 2 피치를 갖는 제 3 하모닉 트랙 및 제 4 하모닉 트랙이 표시되어 있다. 제 3 하모닉 트랙의 시작위치는 홀수로 설정되고, 제 4 하모닉 트랙의 시작위치는 짝수로 설정될 수 있다. 한편, 각 그룹의 하모닉 트랙들이 3 개 이상일 경우 (즉, 게 1 그룹에 A 하모닉 트랙, B 하모닉 트랙, C 하모닉 트랙이 포함, 제 2 그룹에 K 하모닉 트랙, L 하모닉 트랙, M 하모닉 트랙이 포함), A I K 하모닉 트랙에 대응하는 제 1 위치 셋은 3N(N은 정수), B/ L하모닉 트랙에 대웅하는 제 2 위치 셋은 3N+1(N은 정수), C/M 하모닉 트랙에 대웅하는 제 3 위치 셋은 3N+2(N은 정수)일 수 있다.
상기와 같은 복수의 하모낙 트택은 다음 수학식을 통해 수행될 수 있다. [수학식 14]
D{k) = |i 2(fc)-M32(/c)|, A; = 280, ...,560 여기서, 2 W는 SWB 신호, ^32( )는 HF 합성신호.
HF 합성신호는 존재하지 않기 때문에 0 으로 초기값을 설정하면,
71//32( )의 최대값을 찾는 과정이 된다. D(k)는 미리 결정된 개수 (예: 총 4 개)의 하모닉 트랙의 합으로 표현된다. 각각의 하모닉 트랙 는 최대한 2 개 이상의 피치 성분을 포함할 수 있으며, 하나의 피치 성분에 2 개의 하모닉 트랙 J'을 추출할 수 있다. 각 피치 성분별 2 개의 가장 큰 값을 갖는 하모닉 트랙쟈를 찾는 과정은 다음과 같다..
다음 수식은 오토코릴레이션 (autocorrelation) 함수를 이용하여 가장 많은 에너지를 포함하는 하모닉 트랙 ^ 의 피치 를 찾는다. 피치의 범위를 주파수 변환 계수들의 20-27 의 계수로 제한하여 추출되는 하모닉의 개수를 제한할 수 있다.
[수학식 15]
560― m
Pi(m)= ∑ (I 2(n)|x|il½(n+m)|), m = 20,...,27 , i = 1,2 n = 280 다음 수식은 개별 피치 Pi마다 가장 많은 에너지를 포함하는 총
2 개의 하모닉 트랙 쟈'의 시작위치 尸 를 계산하여 하모닉 트랙 Dj를 추출하는 과정이다. 하모닉 트랙 쟈의 시작위치 찌의 범위는 추출되는 하모닉의 개수를 포함하여 계산되며, MDCT 도메인 신호의 특성을 반영하여 피치 에 의해 2개의 시작위치 ^* 에 의해서 총 2개의 하모닉 트랙^? '이 추출된다.
[수학식 16]
l,…,: L6
Figure imgf000039_0001
' 추출된 4 개의 하모닉 트랙 ^ /'의 피치 "^ 와 시작위치 의 범위와 개수는 도 19 의 (C)에 도시되어 있다.
하모닉정보 부호화부 (184)는 하모닉트택에 관한 상기 정보들을 인코딩하고 백터 양자화한다. 위의 과정에서 추출된 각 하모닉 트랙은 피치 와 시작위치 ^ 들으 위치정보를 갖고 있다. 추출된 피치 와 시작위치 PSH 다음과 같이 부호화된다. 피치 Pi 는 HF 에서 존재할 수 있는 하모닉의 개수를 제한하여
3 비트를 사용하여 양자화되며 , 시작위 치 는 4 비트를 사용하여 각각 양자화된다. 총 4 개의 하모닉 트랙을 추출하기 위 한 위치정보는 2 개의 피치 개의 시작위치^ 를 사용하여 총 22 비트가 사용될 수 있으나 본 발명은 이에 한정되지 아니 한다.
위 과정에서 추출되는 4 개의 하모닉 트랙은 최 대 44 개의 펄스를 포함한다. 44 개의 필스의 크기값과 부호정보를 모두 양자화하기 위해서는 많은 비트가 필요하다. 따라서 각각의 하모닉 트랙의 필스 중 펄스 피츠 추출 알고리즘을 이용하여 에너지를 많이 포함하는' 펄스를 추출하여 크기 값과 부호화 정보를 다음 수식과 같이 별도 부호화한다.
다음의 알고리즘은 각각 하모닉 트랙에서 펄스 피크 PPi 추출 알고리즘으로서 에너지를 많이 포함하는 연속된 펄스를 찾고 크기값을 양자화하고, 부호정보를 다음 수식과 같이 별도로 부호화한다. 각각의 하모닉 트랙에서 필스 피크를 추출하기 위해서 3 비트를 사용하며, 2 개의 하모닉 트랙에서 추출된 4 개의 펄스는 8 비트를 사용하여 그 크기값이 양자화되며 , 각각의 부호정보를 위해 1 비트를 할당한다. 이를 통해 필스 피크 추출알고리즘을 통해 추출된 필스는 총 24 비트로 양자화된다.
[수학식 17]
Figure imgf000041_0001
+ 1)|2): n = 1,…, 5
PP^n - l)= (|Λ^2(η)|2 + |^2(η+ ΐ)|2); η = 7
Figure imgf000041_0002
^(«- 3)= (|ϋ^2{η)|2 + |^2(η+ ί)||2); η = 11
Figure imgf000041_0003
위 과정에서 추출된 8 개의 펄스를 제외한 하모닉 트랙은 하나의 트랙으로 결합되어 DCT(Discrete Cosine Transform)을 이용하여 크기값과 부호정보를 동시에 양자화한다. DCT 양자화를 위해서는 19 비트가 사용된다. 추출된 4 개의 하모닉 트랙의 펄스 피크 추출 알고리즘을 통해 추출된 펄스와 이를 제외 한 하모닉 트택의 부호화 과정은 도 20 에 나타난 바와 같다. 도 20 을 참조하면, 제 1 그룹의 제 1 하모닉 트랙 중에 최 대 펄스와 그의 인접필스, 제 1 그룹의 제 2 하모닉 트랙 중에서 최 대 필스와 그의 인접 펄스에 대해 제 1 타깃 백터 (targetA)를 생성하고, 제 3 하모닉 트랙 중 최대 필스와 그의 인접펄스, 제 4 하모닉 트랙 중 최대 필스와 그의 인접 필스에 대해서 제 2 타깃 백터 (targetB)를 생성 한다. 제 1 타깃 백터 및 제 2 타깃 백터에 대해서 백터 _양자화를 수행하고, 각 하모닉 트랙들 중에서 상기 최대 펄스 및 인접 펄스를 제외 한 나머지 부분들 (residual)은 조합하여 이에 대해 주파수 변환을 수행한다. 이 때 주파수 변환에는 앞서 언급한 바와 같이 DCT(Discrete Cosine Transform)가 사용될 수 있다.
그리고 상기 에서 설명한 하모닉 트랙에 관한 정보의 일 예는 도 21 에 나타난 바와 같다.
도 22 은 특정 오디오 신호에 대해 넌-하모닉 모드 및 하모닉모드로 인코딩된 결과를 보여주기 위 한 도면이다. 도 22 를 참조하면, 하모닉 이 강한 신호에 대해서는 넌-하모닉 모드로 인코딩 한 결과보다, 하모닉 모드로 인코딩 한 결과가 원본 신호에 더욱 가깝기 때문에 , 음질이 향상될 수 있음을 알 수 있다.
도 23 은 본 발명의 실시 예에 따른 오디오 신호 처 리 장치 중 디코더 의 구성을 보여주는 도면이다. 도 23 을 참조하면, 본 발명의 실시 예에 따른 디코더 (200)는 모드결정부 (210), 비 -일반모드 디코딩부 (230), 하모닉모드 디코딩부 (250) 중 하나 이상을 포함하고, 일반모드 디코딩부 (220), 넌- 하모닉모드 디코딩부 (240)를 더 포함할 수 있다. 한편, 수신된 오디오 신호에 대한 비트스트림를 파성하는 디 -멀티플렉서 (미도시)를 더 포함할 수 있다.
모드결정부 (210)는, 비트스트림을 통해 수신된 제 1 모드 정보 및 제 2 모드 정보를 근거로 현재 프레임에 대웅하는 모드 즉, 현재 모드를 결정한다. 제 1 모드 정보는, 앞서 인코더 (100)와 관련하여 언급한 바와 마찬가지로, 제 1 모드 정보는, 상기 넌 -토널 모드 및 상기 토널 모드 중 하나를 지시하고, 제 2 모드 정보는, 상기 제 1 모드 정보가 넌 -토널 모드를 지시하는 경우, 일반모드 또는 비 -일반 모드 중 하나를 지시하고, 제 1 모드 정보가 토널 모드를 지시하는 경우, 넌-하모닉 모드 및 하모닉 모드 중 하나를 지시한다.
이 결정된 현재 모드에 따라서, 현재 프레임에 대해 네 가지 디코딩부들 (220, 230, 240, 250) 중 하나가 활성화되고, 현재 모드에 따라서 각 모드에 대웅하는 파라미터가 디멀티플렉서 (미도시)에 의해 추출한다.
현재 모드가 일반 모드인 경우에는 인벨롭 위 치정보 및 스케일링 정보 등이 추출된다. 그러 면 일반모드 디코딩부 (220)는 복원된 저주파 대 역의 주파수 변환 계수들 (WB 신호) 중에서 상기 인벨롭 위치정보에 대웅하는 구간, 즉 최 대유사 밴드의 인벨롭을 추출한다. 그런 다음, 상기 스케일링 정보를 이용하여 인벨롭을 스케 일링 함으로써, 현재 프레 임의 고주파 대역 (SWB 신호)를 복원한다.
현재 모드가 비 -일반 모드인 경우에는 펄스 정보, 노이즈 위 치정보, 노이즈 에너지 정보 등이 추출된다. 그러면 비 -일반모드 디코딩부 (230)는, 펄스 정보를 근거로 복수 개의 펄스 (예를 들어 , 총 3 세트의 메 인펄스 및 서브펄스, 2 개의 단독 필스)를 생성 한다. 여 기서 펄스 정보는 펄스 위 치 정보, 펄스 부호 정보, 및 펄스 크기 정보를 포함할 수 있는데, 상기 필스 부호 정보에 따라 각 펄스들의 부호가 결정된다, 펄스 크기 정보 및 필스 위치 정보에 따라서 각 펄스들의 크기 및 위치가 결정된다. 그런 다음, 노이즈 위치정보를 이용하여 복원된 WB 신호 중에서 노이즈로 사용할 구간을 결정하고, 상기 노이즈 에너지 정보를 이용하여 노이즈 에너지를 조절한 후, 상기 펄스들을 합함으로써 , 현재 프레임의 SWB 신호를 복원한다. 현재 모드가 넌-하모닉 모드인 경우, 고정펄스들에 대한 정보인 고정필스정보가 추출된다. 넌 -하모닉모드 디코딩부 (240)는 고정펄스정보를 이용하여 서브밴드별로 정해진 위치 및 정해진 개수만큼의 고정필스를 획득한다. 고정펄스를 이용하여 현재 프레임의 SWB 신호를 생성 한다.
현재 모드가 하모닉 모드인 경우, 하모닉트랙의 위치정보 등이 추출된다. 여기서 하모닉트랙의 위치정보는 제 1 피 치를 갖는 제 1 그룹의 하모닉트랙들의 시작위치정보 및, 제 2 피치를 갖는 제 2 그룹의 하모닉트택들의 시작위치 정보를 포함한다. 제 1 그룹의 하모닉 트랙들은 제 1 하모닉 트택 및 제 2 하모닉 트택을 포함하고, 상기 제 2 그룹의 하모닉 트랙들은 제 3 하모닉 트랙 및 제 4 하모닉 트랙을 포함할 수 있는데, 제 1 하모닉 트랙 및 제 3 하모닉 트랙의 시작 위치 정보는 제 1 위치 셋 중 하나에 대웅되고, 상기 제 2 하모닉 트랙 및 제 4 하모닉 트랙의 시작 위치 정보는 제 2 위치 셋 중 하나에 대웅될 수 있다.
여기서 , 상기 제 1 피치 및 제 2 피 치를 지시하는 피치 정보를 더 수신할 수 있다. 하모닉모드 디코딩부 (250)은 상기 피치 정보 및 상기 시작위치정보를 이용하여 상기 시작 위치 정보에 대응하는 복수의 하모닉 트랙을 생성하고, 복수의 하모닉 트랙을 이용하여 현재 프레임에 해당하는 오디오 신호 즉 SWB 신호를 생성 한다.
본 발명에 따른 오디오 신호 처 리 장치는 다양한 제품에 포함되어 이용될 수 있다. 이 러한 제품은 크게 스탠드 얼론 (stand alone) 군과 포터블 (portable) 군으로 나뉠 수 있는데, 스탠드 얼론군은 티비, 모니터 , 셋탑 박스 등을 포함할 수 있고, 포터블군은 PMP, 휴대폰, 네비 게이션 등을 포함할 수 있다.
도 24 는 본 발명의 실시 예에 따른 오디오 신호 처 리 장치가 구현된 제품의 개략적 인 구성을 보여주는 도면이다. 우선 도 24 를 참조하면, 유무선 통신부 (510)는 유무선 통신 방식을 통해서 비트스트림을 수신한다. 구체적으로 유무선 통신부 (510)는 유선통신부 (510A), 적외선통신부 (510B), 블루투스부 (510C), 무선랜통신부 (510D) 중 하나 이상을 포함할 수 있다.
사용자 인증부는 (520)는 사용자 정보를 입 력 받아서 사용자 인증을 수행하는 것으로서 지문인식부 (520A), 홍채 인식부 (520B), 얼굴인식부 (520C), 및 음성 인식부 (520D) 중 하나 이상을 포함할 수 있는데, 각각 지문, 홍채정보, 얼굴 윤곽 정보, 음성 정보를 입 력받아서 , 사용자 정보로 변환하고, 사용자 정보 및 기존 등록되어 있는 사용자 데이터와의 일치 여부를 판단하여 사용자 인증을 수행할 수 있다.
입 력부 (530)는 사용자가 여 러 종류의 명 령을 입 력하기 위 한 입 력장치로서 , 키 패드부 (530A), 터치패드부 (530B), 리모컨부 (530C) 중 하나 이상을 포함할 수 있지만, 본 발명은 이에 한정되지 아니한다.
신호 코딩 유닛 (540)는 유무선 통신부 (510)를 통해 수신된 오디오 신호 및 /또는 비디오 신호에 대해서 인코딩 또는 디코딩을 수행하고, 시간 도메인의 오디오 신호를 출력 한다. 오디오 신호 처 리 장치 (545)를 포함하는데, 이는 앞서 설명 한 본 발명의 실시 예 (즉, 제 1 실시 예에 따른 인코더 (100) 및 /또는 디코더 (200), 제 2 실시 예에 따른 인코더 (300) 및 /또는 디코더 (400))에 해당하는 것으로서, 이와 같이 오디오 처리 장치 (545) 및 이를 포함한 신호 코딩 유닛은 하나 이상의 프로세서에 의해 구현될 수 있다.
제어부 (550)는 입력장치들로부터 입력 신호를 수신하고, 신호 디코딩부 (540)와 출력부 (560)의 모든 프로세스를 제어한다. 출력부 (560)는 신호 디코딩부 (540)에 의해 생성된 출력 신호 등이 출력되는 구성요소로서, 스피커부 (560A) 및 디스플레이부 (560B)를 포함할 수 있다. 출력 신호가 오디오 신호일 때 출력 신호는 스피커로 출력되고, 비디오 신호일 때 출력 신호는 디스플레이를 통해 출력된다.
도 25 는 본 발명의 일 실시예에 따른 오디오 신호 처리 장치가 구현된 제품들의 관계도이다. 도 25 는 도 24 에서 도시된 제품에 해당하는 단말 및 서버와의 관계를 도시한 것으로서, 도 25 의 (A)를 참조하면, 제 1 단말 (500.1) 및 제 2 단말 (500.2)이 각 단말들은 유무선 통신부를 통해서 데이터 내지 비트스트림을 양방향으로 통신할 수 있음을 알 수 있다. 도 16 의 (B)를 참조하면, 서버 (600) 및 제 1 단말 (500.1) 또한 서로 유무선 통신을 수행할 수 있음을 알 수 있다.
본 발명에 따른 오디오 신호 처리 방법은 컴퓨터에서 실행되기 위한 프로그램으로 제작되어 컴퓨터가 읽을 수 있는 기록 매체에 저장될 수 있으며, 본 발명에 따른 데이터 구조를 가지는 멀티미디어 데이터도 컴퓨터가 읽을 수 ' 있는 기록 매체에 저장될 수 있다. 상기 컴퓨터가 읽을 수 있는 기록 매체는 컴퓨터 시스템에 의하여 읽혀질 수 있는 데이터가 저장되는 모든 종류의 저장 장치를 포함한다. 컴퓨터가 읽을 수 있는 기록 매체의 예로는 ROM, RAM, CD- ROM, 자기 테이프, 플로피디스크, 광 데이터 저장장치 등이 있으며, 또한 캐리어 웨이브 (예를 들어 인터넷을 통한 전송)의 형태로 구현되는 것도 포함한다. 또한, 상기 인코딩 방법에 의해 생성된 비트스트림은 컴퓨터가 읽을 수 있는 기록 매체에 저장되거나, 유 /무선 통신망을 이용해 전송될 수 있다. 이상과 같이, 본 발명은 비록 한정된 실시예와 도면에 의해 설명되었으나, 본 발명은 이것에 의해 한정되지 않으며 본 발명이 속하는 기술분야에서 통상의 지식을 가진 자에 의해 본 발명의 기술사상과 아래에 기재될 특허청구범위의 균등범위 내에서 다양한 수정 및 변형이 가능함은 물론이다.
[Industrial Applicability]
본 발명은 오디오 신호를 인코딩하고 디코딩하는 데 적용될 수 있다.

Claims

【청구의 범위】
[청구항 1]
오디오 신호에 대해서 주파수 변환을 수행함으로써, 복수 개의 주파수 변환 계수들을 획득하는 단계;
상기 복수 개의 주파수 변환 계수들 중 고주파 대역의 주파수 변환 계수들에 대해서, 펄스 비율을 근거로 일반 모드 및 비-일반모드 중 하나를 선택하는 단계; 및,
상기 비 -일반 모드가 선택된 경우, 다음 단계가 수행되는 단계;
상기 고주파 대역의 주파수 변환 계수들로부터 미리 결정된 개수의 필스들을 추출하고, 펄스 정보를 생성하는 단계;
상기 고주파 대역의 주파수 변환 계수들로부터 상기 필스들올 제외한 원본 노이즈 신호를 생성하는 단계;
상기 복수 개의 주파수 변환 계수들 중 저주파 대역의 주파수 변환 계수를 이용하여 참조 노이즈 신호를 생성하는 단계; 및, 상기 원본 노이즈 신호 및 상기 참조 노이즈 신호를 이용하여, 노이즈 위치정보 및 노이즈 에너지정보를 생성하는 단계를 포함하는 것을 특징으로 하는 오디오 신호 처리 방법.
[청구항 2]
제 1 항에 있어서,
상기 펄스 비율은, 현재 프레임의 전체 에너지에 대한 복수의 펄스들에 대한 에너지의 비율인 것을 특징으로 하는 오디오 신호 처리 방법.
[청구항 3]
제 1항에 있어서,
미리 결정된 개수의 필스들을 추출하는 단계는
가장 큰 에너지를 갖는 메인 펄스를 추출하는 단계;
상기 메인 필스에 인접한서브 필스를 추출하는 단계; 및
상기 고주파 대역의 주파수 변환 계수에서 상기 메인 펄스 및 상기 서브 펄스를 제외시킴으로써 타깃 노이즈 신호를 생성하는 단계;
상기 타깃 노이즈 신호에 대해서 상기 메인 펄스 및 상기 서브 펄스를 추출하는 것을 미리 정해진 횟수만큼 반복하는 단계를 포함하는 것을 특징으로 하는 오디오 신호 처리 방법. [청구항 4]
제 1 항에 있어서, 상기 펄스 정보는, 필스 위치 정보, 펄스 부호 정보, 필스 크기 정보, 펄스 서브밴드 정보 중 하나 이상을 포함하는 것을 특징으로 하는 오디오 신호 처리 방법. [청구항 5]
제 1 항에 있어서,
상기 참조 노이즈 신호를 생성하는 단계는,
저주파 대역의 전체 에너지를 근거로 임계치를 설정하는 단계; 및 상기 임계치 이상의 펄스를 제외시킴으로써, 상기 참조 노이즈 신호를 생성하는 단계를 포함하는 것을 특징으로 하는 오디오 신호 처리 방법.
[청구항 6]
제 1 항에 있어서,
상기 노이즈 에너지정보를 생성하는 단계는,
상기 미리 결정된 개수의 펄스의 에너지를 생성하는 단계;
상기 원본 노이즈 신호의 에너지를 생성하는 단계;
상기 펄스의 에너지 및 상기 원본 노이즈 신호의 에너지를 이용하여 펄스 비율을 획득하는 단계; 및,
상기 펄스 비율을 노이즈 에너지 정보로서 생성하는 단계를 포함하는 것을 특징으로 하는 오디오 신호 처리 방법.
[청구항 7]
오디오 신호에 대해서 주파수 변환올 수행함으로써, 복수 개의 주파수 변환 계수들을 획득하는 주파수 변환부;
상기 복수 개의 주파수 변환 계수들 중 고주파 대역의 주파수 변환 계수들에 대해서, 펄스 비율을 근거로 일반 모드 및 비-일반모드 중 하나를 선택하는 펄스비율 판단부;
상기 비 -일반 모드가 선택된 경우에 동작하며, 다음을 포함하는 비- 일반모드 인코딩부;
상기 고주파 대역의 주파수 변환 계수들로부터 미리 결정된 개수의 펄스들을 추출하고, 펄스 정보를 생성하는 필스 추출부; 상기 복수 개의 주파수 변환 계수들 중 저주파 대역의 주파수 변환 계수를 이용하여 참조 노이즈 신호를 생성하는 참조노이즈 생성부; 및,
원본 노이즈 신호 및 상기 참조 노이즈 신호를 이용하여, 노이즈 위치정보 및 노이즈 에너지정보를 생성하는 노이즈 탐색부를 포함하고, 상기 원본 노이즈 신호는, 상기 고주파 대역의 주파수 변환 계수들로부터 상기 필스들을 제외함으로써 생성되는 것을 특징으로 하는 오디오 신호 처리 장치. ' [청구항 8]
현재 프레임이 일반 모드 인지 아니면 비 -일반 모드인지 여부를 지시하는 제 2 모드 정보를 수신하는 단계;
상기 제 2 모드 정보가 현재 프레임이 비 -일반 모드임을 지시하는 경우, 필스 정보, 노이즈 위치정보 및 노이즈 에너지정보를 수신하는 단계;
상기 펄스 정보를 이용하여, 주파수 변환 계수들에 대해서 미리 결정된 개수의 펄스들을 생성하는 단계;
상기 노이즈 위치정보에 대웅하는 저주파 대역의 주파수 변환 계수를 이용하여 참조 노이즈 신호를 생성하는 단계;
상기 노이즈 에너지정보를 이용하여 상기 참조 노이즈 신호의 에너지를 조절하는 단계; 및,
상기 에너지 조절된 참조 노이즈 신호 및 상기 복수의 필스를 이용하여 고주파 대역에 대웅하는 주파수 변환 계수들을 생성하는 단계를 포함하는 것을 특징으로 하는 오디오 신호 처리 방법. [청구항 9]
오디오 신호를 수신하는 단계;
오디오 신호에 대해서 주파수 변환을 수행하여, 복수개의 주파수 변환 계수들을 획득하는 단계;
상기 주파수 변환 계수에 대해서, 하모닉 비율을 근거로 넌-하모닉 모드 및 하모닉 모드 중 하나를 선택하는 단계;
상기 하모닉 모드가 선택된 경우, 다음 단계가수행되는 단계;
제 1 피치에 해당하는 제 1 그룹의 하모닉 트랙들을 결정하는 단계;
제 2 피치에 해당하는 제 2 그룹의 하모닉 트랙들을 결정하는 단계; 및, 상기 복수의 하모닉 트랙들의 시작 위치 정보를 생성하는 단계를 포함하고,
상기 제 1 그룹의 하모닉 트랙들은 제 1 하모닉 트택 및 제 2 하모닉 트랙을 포함하고,
상기 제 2 그룹의 하모닉 트랙들은 제 3 하모닉 트랙 및 제 4 하모닉 트랙을 포함하고,
상기 계 1 하모닉 트랙 및 제 3 하모닉 트랙의 시작 위치 정보는 제 1 위치 셋 중 하나에 대웅되고, 상기 제 2 하모닉 트랙 및 제 4 하모닉 트랙의 시작 위치 정보는 제 2 위치 셋 중 하나에 대웅되는 것을 특징으로 하는 오디오 신호 처리 방법.
[청구항 10]
제 9 항에 있어서,
상기 하모닉 비율은, 복수의 하모닉 트랙들의 에너지 및 복수 개의 펄스의 에너지를 근거로 생성된 것임을 특징으로 하는 오디오 신호 처리 방법.
[청구항 11]
제 9 항에 있어서,
상기 제 1 위치 셋은 짝수 위치들에 해당하고, 제 2 위치 셋은 홀수 위치들에 해당하는 것을 특징으로 하는 오디오 신호 처리 방법.
[청구항 12]
제 9 항에 있어서,
상기 제 1 하모닉 트랙 중에서의 최대 펄스, 및 그의 인접 펄스, 상기 제 2 하모닉 트랙 중에서 최대 펄스, 및 그의 인접 펄스를 포함하는 제 1 타깃 백터를 생성하는 단계;
상기 제 3 하모닉 트랙 중에서의 최대 필스, 그의 인접 펄스, 상기 제 4 하모닉 트랙 중에서의 최대 펄스, 그의 인접 펄스를 포함하는 제 2 타깃 백터를 생성하는 단계;
상기 제 1 타깃 백터 및 상기 제 2 타깃 백터를 백터 -양자화하는 단계; 상기 하모닉 트랙들에서 상기 게 1 타깃 백터 및 상기 제 2 타깃 백터를 제외한 대상에 대해 주파수 변환하는 단계를 더 포함하는 것을 특징으로 하는 오디오 신호 처리 방법.
[청구항 13]
제 9 항에 있어서,
제 1 하모닉 트택은 제 1 피치를 갖는 복수의 펄스들의 집합이고, 제 2 하모닉 트랙은 제 1 피치를 갖는 복수의 펄스들의 집합이고, 제 3 하모닉 트랙은 제 2 피치를 갖는 복수의 필스들의 집합이고, 제 4 하모닉 트랙은 제 2 피치를 갖는 복수의 필스들의 집합인 것을 특징으로 하는 오디오 신호 처리 방법. [청구항 14]
제 9 항에 있어서 상기 제 1 피치 및 상기 제 2 피치를 지시하는 피치 정보를 생성하는 단계를 더 포함하는 것을 특징으로 하는 오디오 신호 처 리 방법 .
[청구항 15]
제 1 피치에 해당하는 제 1 그룹의 하모닉 트랙들 및 제 2 피치에 해당하는 제 2 그룹의 하모닉 트랙을 포함하는 복수의 하모닉 트택들의 시작 위치 정보를 수신하는 단계;
상기 시작 위치 정보에 대응하는 복수의 하모닉 트택을 생성하는 단겨 h 상기 복수의 하모닉 트랙을 이용하여 현재 프레임에 해당하는 오디오 신호를 생성하는 단계를 포함하고,
상기 제 1 그룹의 하모닉 트랙들은 제 1 하모닉 트랙 및 제 2 하모닉 트랙을 포함하고,
상기 제 2 그룹의 하모닉 트랙들은 제 3 하모닉 트랙 및 제 4 하모닉 트택을 포함하고,
상기 제 1 하모닉 트랙 및 제 3 하모닉 트랙의 시작 위치 정보는 제 1 위치 셋 중 하나에 대웅되고,
상기 제 2 하모닉 트랙 및 제 4 하모닉 ^랙의 시작 위치 정보는 제 2 위치 셋 중 하나에 대웅되는 것을 특징으로 하는 오디오 신호 처 리 방법 .
[청구항 16]
오디오 신호에 대해서 주파수 변환을 수행하여 , 복수개의 주파수 변환 계수들을 획득하는 단계;
상기 주파수 변환 계수들에 대해서 , 프레임간 유사성을 근거로 넌 -토널 모드 및 토널 모드를 선택하는 단계;
상기 넌 -토널 모드가 선택된 경우, 펄스 비율을 근거로 일반 모드 및 비 - 일반모드 중 하나를 선택하는 단계;
상기 토널 모드가 선택된 경우, 하모닉 비율을 근거로 넌-하모닉 모드 및 하모닉 모드 중 하나를 선택하는 단계; 및,
상기 선택된 모드에 따라서 상기 오디오 신호를 인코딩함으로써 파라미터를 생성하는 단계를 포함하고,
상기 일반 모드인 경우, 상기 파라미터는 인벨롭 위치정보 및 스케일링 정보를 포함하고,
상기 비 -일반 모드인 경우, 상기 파라미터는 펄스정보 및 노이즈 에너지정보를 포함하고
상기 넌-하모닉 모드인 경우, 상기 파라미터는 서브밴드별로 개수가 미 리 정해진 고정 필스들에 대한 정보인 고정 필스정보를 포함하고, 상기 하모닉 모드인 경우, 상기 파라미터는 제 1 그룹의 하모닉 트랙들의 위치정보들, 제 2 그룹의 하모닉 트택들의 위치정보들을 포함하는 것을 특징으로 하는 오디오 신호 처 리 방법 . [청구항 Π]
제 16 항에 있어서 ,
상기 선택된 모드에 따라서 , 제 1 모드 정보 및 제 2 모드 정보를 생성하는 단계를 더 포함하고,
상기 제 1 모드 정보는, 상기 넌 -토널 모드 및 상기 토널 모드 중 하나를 지시하고,
상기 제 2 모드 정보는, 상기 제 1 모드 정보가 넌 -토널 모드를 지시하는 경우, 상기 일반모드 또는 상기 비 -일반 모드 중 하나를 지시하고, 상기 제 1 모드 정보가 토널 모드를 지시하는 경우, 상기 넌- 하모닉 모드 및 상기 하모닉 모드 중 하나를 지시하는 것을 특징으로 하는 오디오 신호 처리 방법 .
[청구항 18]
비트스트림을 통해 제 1 모드 정보 및 제 2 모드 정보를 추출하는 단계 ;
상기 제 1 모드 정보 및 제 2 모드 정보를 근거로 하여 , 현재 프레임에 해당하는 현재 모드를 결정하는 단계 ; '
상기 현재 모드가 일반 모드인 경우, 인벨톱 위치 정보 및 스케일링 정보를 이용하여 현재 프레임의 오디오 신호를 복원하는 단계; 상기 현재 모드가 비 -일반 모드인 경우, 필스정보 및 노이즈 에너지 정보를 이용하여 현재 프레임의 오디오 신호를 복원하는 단계 ;
상기 현재 모드가 넌-하모닉 모드인 경우, 서브밴드별로 개수가 미 리 정해진 고정 펄스들에 대한 정보인 고정펄스정보를 이용하여 현재 프레임의 오디오 신호를 복원하는 단계; 및,
상기 현재 모드가 하모닉 모드인 경우, 제 1 그룹의 하모닉 트랙의 위치정보들 및 제 2 그룹의 하모닉 트랙의 위치정보들을 이용하여 현재 프레임의 오디오 신호를 복원하는 단계를 포함하는 것을 특징으로 하는 오디오 신호 처 리 방법 .
PCT/KR2011/000324 2010-01-15 2011-01-17 오디오 신호 처리 방법 및 장치 WO2011087332A2 (ko)

Priority Applications (5)

Application Number Priority Date Filing Date Title
CN201180013842.5A CN102870155B (zh) 2010-01-15 2011-01-17 处理音频信号的方法和装置
KR1020127020609A KR101764633B1 (ko) 2010-01-15 2011-01-17 오디오 신호 처리 방법 및 장치
EP11733119.9A EP2525357B1 (en) 2010-01-15 2011-01-17 Method and apparatus for processing an audio signal
US13/522,274 US9305563B2 (en) 2010-01-15 2011-01-17 Method and apparatus for processing an audio signal
US15/089,918 US9741352B2 (en) 2010-01-15 2016-04-04 Method and apparatus for processing an audio signal

Applications Claiming Priority (8)

Application Number Priority Date Filing Date Title
US29517010P 2010-01-15 2010-01-15
US61/295,170 2010-01-15
US34919210P 2010-05-27 2010-05-27
US61/349,192 2010-05-27
US37744810P 2010-08-26 2010-08-26
US61/377,448 2010-08-26
US201061426502P 2010-12-22 2010-12-22
US61/426,502 2010-12-22

Related Child Applications (2)

Application Number Title Priority Date Filing Date
US13/522,274 A-371-Of-International US9305563B2 (en) 2010-01-15 2011-01-17 Method and apparatus for processing an audio signal
US15/089,918 Continuation US9741352B2 (en) 2010-01-15 2016-04-04 Method and apparatus for processing an audio signal

Publications (2)

Publication Number Publication Date
WO2011087332A2 true WO2011087332A2 (ko) 2011-07-21
WO2011087332A3 WO2011087332A3 (ko) 2011-12-01

Family

ID=44352281

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/KR2011/000324 WO2011087332A2 (ko) 2010-01-15 2011-01-17 오디오 신호 처리 방법 및 장치

Country Status (5)

Country Link
US (2) US9305563B2 (ko)
EP (2) EP3002752A1 (ko)
KR (1) KR101764633B1 (ko)
CN (2) CN104252862B (ko)
WO (1) WO2011087332A2 (ko)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2013085801A1 (en) * 2011-12-09 2013-06-13 Microsoft Corporation Harmonicity-based single-channel speech quality estimation
WO2014030928A1 (ko) * 2012-08-21 2014-02-27 엘지전자 주식회사 오디오 신호 부호화 방법 및 오디오 신호 복호화 방법 그리고 이를 이용하는 장치
KR20140082676A (ko) * 2011-09-28 2014-07-02 엘지전자 주식회사 음성 신호 부호화 방법 및 음성 신호 복호화 방법 그리고 이를 이용하는 장치

Families Citing this family (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2011087332A2 (ko) * 2010-01-15 2011-07-21 엘지전자 주식회사 오디오 신호 처리 방법 및 장치
CN102893718B (zh) * 2012-09-07 2014-10-22 中国农业大学 带状旋耕播种机主动覆土方法
NL2012567B1 (en) * 2014-04-04 2016-03-08 Teletrax B V Method and device for generating improved fingerprints.
CN104978968A (zh) * 2014-04-11 2015-10-14 鸿富锦精密工业(深圳)有限公司 水印加载装置及水印加载的方法
JP2018191145A (ja) * 2017-05-08 2018-11-29 オリンパス株式会社 収音装置、収音方法、収音プログラム及びディクテーション方法
US10586546B2 (en) 2018-04-26 2020-03-10 Qualcomm Incorporated Inversely enumerated pyramid vector quantizers for efficient rate adaptation in audio coding
US10580424B2 (en) * 2018-06-01 2020-03-03 Qualcomm Incorporated Perceptual audio coding as sequential decision-making problems
US10734006B2 (en) 2018-06-01 2020-08-04 Qualcomm Incorporated Audio coding based on audio pattern recognition
CN109102811B (zh) * 2018-07-27 2021-03-30 广州酷狗计算机科技有限公司 音频指纹的生成方法、装置及存储介质
CN113557519A (zh) * 2019-03-14 2021-10-26 日本电气株式会社 信息处理设备、信息处理系统、信息处理方法以及记录介质
CN111223491B (zh) * 2020-01-22 2022-11-15 深圳市倍轻松科技股份有限公司 一种提取音乐信号主旋律的方法、装置及终端设备

Family Cites Families (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
SE9903553D0 (sv) 1999-01-27 1999-10-01 Lars Liljeryd Enhancing percepptual performance of SBR and related coding methods by adaptive noise addition (ANA) and noise substitution limiting (NSL)
CN100395817C (zh) * 2001-11-14 2008-06-18 松下电器产业株式会社 编码设备、解码设备和解码方法
CA2457988A1 (en) 2004-02-18 2005-08-18 Voiceage Corporation Methods and devices for audio compression based on acelp/tcx coding and multi-rate lattice vector quantization
KR100707174B1 (ko) * 2004-12-31 2007-04-13 삼성전자주식회사 광대역 음성 부호화 및 복호화 시스템에서 고대역 음성부호화 및 복호화 장치와 그 방법
KR100788706B1 (ko) 2006-11-28 2007-12-26 삼성전자주식회사 광대역 음성 신호의 부호화/복호화 방법
US8630863B2 (en) 2007-04-24 2014-01-14 Samsung Electronics Co., Ltd. Method and apparatus for encoding and decoding audio/speech signal
KR101377667B1 (ko) * 2007-04-24 2014-03-26 삼성전자주식회사 오디오/스피치 신호의 시간 도메인에서의 부호화 방법
KR101393300B1 (ko) * 2007-04-24 2014-05-12 삼성전자주식회사 오디오/스피치 신호 복호화 방법 및 장치
US8527265B2 (en) * 2007-10-22 2013-09-03 Qualcomm Incorporated Low-complexity encoding/decoding of quantized MDCT spectrum in scalable speech and audio codecs
CN102460574A (zh) 2009-05-19 2012-05-16 韩国电子通信研究院 用于使用层级正弦脉冲编码对音频信号进行编码和解码的方法和设备
WO2011087332A2 (ko) * 2010-01-15 2011-07-21 엘지전자 주식회사 오디오 신호 처리 방법 및 장치

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
None
See also references of EP2525357A4

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20140082676A (ko) * 2011-09-28 2014-07-02 엘지전자 주식회사 음성 신호 부호화 방법 및 음성 신호 복호화 방법 그리고 이를 이용하는 장치
EP2763137A4 (en) * 2011-09-28 2015-05-06 Lg Electronics Inc METHOD FOR ENCODING A VOICE SIGNAL, METHOD FOR DECODING A VOICE SIGNAL, AND APPARATUS USING THE SAME
US9472199B2 (en) 2011-09-28 2016-10-18 Lg Electronics Inc. Voice signal encoding method, voice signal decoding method, and apparatus using same
KR102048076B1 (ko) * 2011-09-28 2019-11-22 엘지전자 주식회사 음성 신호 부호화 방법 및 음성 신호 복호화 방법 그리고 이를 이용하는 장치
WO2013085801A1 (en) * 2011-12-09 2013-06-13 Microsoft Corporation Harmonicity-based single-channel speech quality estimation
US8731911B2 (en) 2011-12-09 2014-05-20 Microsoft Corporation Harmonicity-based single-channel speech quality estimation
WO2014030928A1 (ko) * 2012-08-21 2014-02-27 엘지전자 주식회사 오디오 신호 부호화 방법 및 오디오 신호 복호화 방법 그리고 이를 이용하는 장치

Also Published As

Publication number Publication date
CN104252862B (zh) 2018-12-18
WO2011087332A3 (ko) 2011-12-01
CN104252862A (zh) 2014-12-31
US9305563B2 (en) 2016-04-05
CN102870155B (zh) 2014-09-03
KR101764633B1 (ko) 2017-08-04
EP3002752A1 (en) 2016-04-06
EP2525357A4 (en) 2014-11-05
EP2525357B1 (en) 2015-12-02
EP2525357A2 (en) 2012-11-21
US20160217801A1 (en) 2016-07-28
CN102870155A (zh) 2013-01-09
US20130060365A1 (en) 2013-03-07
US9741352B2 (en) 2017-08-22
KR20120121895A (ko) 2012-11-06

Similar Documents

Publication Publication Date Title
WO2011087332A2 (ko) 오디오 신호 처리 방법 및 장치
JP6789365B2 (ja) 音声符号化装置および方法
CN103258541B (zh) 音频解码方法
JP5485909B2 (ja) オーディオ信号処理方法及び装置
US9093120B2 (en) Audio fingerprint extraction by scaling in time and resampling
US8612215B2 (en) Method and apparatus to extract important frequency component of audio signal and method and apparatus to encode and/or decode audio signal using the same
WO1998000837A1 (fr) Procedes de codage et de decodage de signaux audio, et codeur et decodeur de signaux audio
KR20080097178A (ko) 부호화/복호화 장치 및 방법
US6678655B2 (en) Method and system for low bit rate speech coding with speech recognition features and pitch providing reconstruction of the spectral envelope
KR20100086000A (ko) 오디오 신호 처리 방법 및 장치
CN101779236A (zh) 基于频率子频带中的频谱动态的音频译码中的时间掩蔽
US10706866B2 (en) Audio signal encoding method and mobile phone
EP1441330B1 (en) Method of encoding and/or decoding digital audio using time-frequency correlation and apparatus performing the method
KR20130112871A (ko) 오디오 신호 처리 방법 및 장치
Huang et al. Lossless audio compression in the new IEEE standard for advanced audio coding
US20140236581A1 (en) Voice signal encoding method, voice signal decoding method, and apparatus using same
WO2015049820A1 (ja) 音響信号符号化装置、音響信号復号装置、端末装置、基地局装置、音響信号符号化方法及び復号方法
JP4281131B2 (ja) 信号符号化装置及び方法、並びに信号復号装置及び方法
JP3348759B2 (ja) 変換符号化方法および変換復号化方法
JP4274614B2 (ja) オーディオ信号復号方法
JPH09230898A (ja) 音響信号変換符号化方法及び復号化方法
US20020095297A1 (en) Device and method for processing audio information
JP4618823B2 (ja) 信号符号化装置及び方法
JP4327420B2 (ja) オーディオ信号符号化方法、及びオーディオ信号復号化方法
JP4438654B2 (ja) 符号化装置、復号装置、符号化方法及び復号方法

Legal Events

Date Code Title Description
WWE Wipo information: entry into national phase

Ref document number: 201180013842.5

Country of ref document: CN

NENP Non-entry into the national phase

Ref country code: DE

WWE Wipo information: entry into national phase

Ref document number: 2011733119

Country of ref document: EP

ENP Entry into the national phase

Ref document number: 20127020609

Country of ref document: KR

Kind code of ref document: A

121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 11733119

Country of ref document: EP

Kind code of ref document: A2

WWE Wipo information: entry into national phase

Ref document number: 13522274

Country of ref document: US