WO2013057895A1 - 符号化装置及び符号化方法 - Google Patents

符号化装置及び符号化方法 Download PDF

Info

Publication number
WO2013057895A1
WO2013057895A1 PCT/JP2012/006423 JP2012006423W WO2013057895A1 WO 2013057895 A1 WO2013057895 A1 WO 2013057895A1 JP 2012006423 W JP2012006423 W JP 2012006423W WO 2013057895 A1 WO2013057895 A1 WO 2013057895A1
Authority
WO
WIPO (PCT)
Prior art keywords
unit
importance
subband
encoding
signal
Prior art date
Application number
PCT/JP2012/006423
Other languages
English (en)
French (fr)
Inventor
智史 山梨
押切 正浩
Original Assignee
パナソニック株式会社
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by パナソニック株式会社 filed Critical パナソニック株式会社
Priority to EP12841610.4A priority Critical patent/EP2770506A4/en
Priority to US14/348,987 priority patent/US20140244274A1/en
Publication of WO2013057895A1 publication Critical patent/WO2013057895A1/ja

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Processing of the speech or voice signal to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/038Speech enhancement, e.g. noise reduction or echo cancellation using band spreading techniques
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/02Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/02Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
    • G10L19/0204Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders using subband decomposition
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/03Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
    • G10L25/06Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being correlation coefficients
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/03Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
    • G10L25/18Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being spectral information of each sub-band
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/03Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
    • G10L25/21Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being power information

Definitions

  • the present invention relates to an encoding device and an encoding method used in a communication system for encoding and transmitting a signal.
  • a configuration is disclosed in which the threshold value is adaptively variable for each process.
  • a rank is assigned in descending order of the absolute value of each sample, and a sample value other than the desired number of samples is set to zero (0 ) Is also disclosed.
  • Patent Document 2 discloses a technique related to a reduction in the amount of calculation of correlation processing in the frequency domain.
  • this technique when a position indicating a low-frequency spectrum similar to the high-frequency spectrum is specified by correlation analysis, the high-frequency spectrum having a small amplitude value is replaced with zero. Thereby, the amount of calculation is reduced by omitting the processing necessary for the correlation analysis.
  • the encoding apparatus adaptively switches a threshold for selecting a sample (a sample having a value of zero (0)) to be sparse during a pitch period search for each process (subframe process).
  • the configuration is disclosed.
  • the average processing calculation amount of the entire frame may be reduced, but there are subframes that can reduce the calculation amount and subframes that cannot reduce the calculation amount.
  • the amount of processing calculation is not necessarily reduced.
  • the worst-case processing calculation amount the processing calculation amount in the frame where the processing calculation amount is maximized
  • An object of the present invention is to perform a processing operation amount for each subframe or a processing operation for each subband without degrading the quality of a decoded signal when performing a correlation operation such as pitch period search when encoding an input signal. It is an object to provide an encoding apparatus and an encoding method capable of always reducing the amount (reducing the worst case (worst case) processing amount).
  • An encoding apparatus includes an acquisition unit that acquires a transform coefficient whose frequency band is divided into a low-frequency part and a high-frequency part, and the low-frequency part and the high-frequency part of the transform coefficient Division means for dividing one frequency band into a plurality of subbands, setting means for setting importance for each subband, and a plurality of subbands included in each subband according to the set importance Of the conversion coefficients, a correction means for setting the amplitude value of a predetermined number of conversion coefficients to zero, a calculation means for calculating a correlation between the corrected conversion coefficient of the one frequency band and the conversion coefficient of the other frequency band
  • the structure which comprises these is taken.
  • An encoding method includes an acquisition step of acquiring a transform coefficient whose frequency band is divided into a low-frequency part and a high-frequency part, and the low-frequency part and the high-frequency part of the transform coefficient A division step of dividing one frequency band into a plurality of subbands, a setting step of setting importance for each subband, and conversion coefficients included in the subband according to the set importance A correction step of setting the amplitude value of a predetermined number of conversion coefficients to zero, and a calculation step of calculating a correlation between the corrected conversion coefficient of the one frequency band and the conversion coefficient of the other frequency band. It has.
  • the sample (conversion coefficient) used for the correlation operation is adaptively adjusted for each process, thereby suppressing the quality deterioration of the output signal,
  • the amount of processing calculations can be greatly reduced. Note that the importance of each subframe (importance of each subband) is determined in advance for the entire frame, and the number of samples (or conversion coefficient) used for correlation calculation is determined for each subframe (subband) according to each importance. In this case, it is possible to guarantee a reduction in the processing amount of the worst case (worst case).
  • FIG. 1 is a block diagram showing a configuration of a communication system having an encoding device and a decoding device according to Embodiment 1 of the present invention.
  • 1 is a block diagram showing a main configuration inside the encoding apparatus shown in FIG. 1 according to Embodiment 1 of the present invention.
  • FIG. 2 is a block diagram showing the main configuration inside CELP encoding section shown in FIG. 2 according to Embodiment 1 of the present invention.
  • 1 is a block diagram showing the main configuration inside the decoding apparatus shown in FIG. 1 according to Embodiment 1 of the present invention.
  • the block diagram which shows the main structures inside the encoding apparatus which concerns on Embodiment 2 of this invention.
  • the block diagram which shows the main structures inside the high-pass signal encoding part shown in FIG.
  • FIG. 1 is a block diagram showing a configuration of a communication system having an encoding device and a decoding device according to Embodiment 1 of the present invention.
  • the communication system includes an encoding device 101 and a decoding device 103, and can communicate with each other via a transmission path 102.
  • both the encoding apparatus 101 and the decoding apparatus 103 are normally mounted and used in a base station apparatus or a communication terminal apparatus.
  • n represents the (n + 1) th signal element among the input signals divided by N samples.
  • the encoding device 101 transmits the encoded input information (encoded information) to the decoding device 103 via the transmission path 102.
  • the decoding device 103 receives the encoded information transmitted from the encoding device 101 via the transmission path 102, decodes it, and obtains an output signal.
  • FIG. 2 is a block diagram showing an internal configuration of the encoding apparatus 101 shown in FIG.
  • the encoding apparatus 101 mainly includes a subframe energy calculation unit 201, an importance degree determination unit 202, and a CELP encoding unit 203.
  • the subframe energy calculation unit 201 and the importance level determination unit 202 perform processing in units of frames
  • the CELP encoding unit 203 performs processing in units of subframes. Details of each process will be described below.
  • the subframe energy calculation unit 201 first divides the input signal into subframes.
  • start k and end k in Equation (1) indicate the first sample index and the last sample index in the subframe of subframe index k, respectively.
  • the importance level determination unit 202 sets the importance level for each subframe based on the subframe energy. Specifically, the importance level determination unit 202 sets a higher importance level for subframes with higher subframe energy.
  • the importance set for each subframe is referred to as importance information.
  • the importance determination unit 202 sorts the input subframe energy E k for each subframe in descending order, and the subframe corresponding to the first subframe energy after sorting (the subframe with the largest subframe energy). ) In order, higher importance (that is, importance information I k having a smaller value) is set.
  • the importance level determination unit 202 determines the importance level of each subframe (CELP encoding processing unit) as shown in Expression (3).
  • the importance level information I k is set.
  • the importance determining portion 202 as the sub-frame energy E k is large, a high importance of the sub-frame (smaller importance information I k) is set.
  • the importance information I k of each subframe within one frame is different from each other. That is, the importance determining portion 202, as get always a difference in the importance information I k of each sub-frames in one frame, sets the importance.
  • the case where the number of subframes is 4 has been described as an example.
  • the present invention is not limited to the number of subframes, and the number of subframes described as an example.
  • the present invention can be similarly applied to the number of subframes other than the case where is 4.
  • Expression (3) is merely an example of setting the importance information I k , and the present invention can be similarly applied to settings using values other than Expression (3).
  • the CELP encoding unit 203 encodes the input signal using the input importance information. Details of the encoding process in CELP encoding unit 203 will be described below.
  • FIG. 3 is a block diagram showing an internal configuration of the CELP encoding unit 203.
  • the CELP encoding unit 203 includes a preprocessing unit 301, an auditory weighting unit 302, a sparse processing unit 303, an LPC (Linear Prediction Coefficient) analysis unit 304, an LPC quantization unit 305, an adaptive excitation codebook 306, and a quantization gain generation unit 307. , Fixed excitation codebook 308, multiplication units 309 and 310, addition units 311 and 313, perceptual weighting synthesis filter 312, parameter determination unit 314, and multiplexing unit 315.
  • a preprocessing unit 301 includes a preprocessing unit 301, an auditory weighting unit 302, a sparse processing unit 303, an LPC (Linear Prediction Coefficient) analysis unit 304, an LPC quantization unit 305, an adaptive excitation codebook 306, and a quantization gain generation unit 307.
  • Fixed excitation codebook 308 multiplication units 309 and 310, addition units
  • the preprocessing unit 301 performs a high-pass filter process for removing a DC component, a waveform shaping process or a pre-emphasis process for improving the performance of a subsequent encoding process on the input signal xn , and the input signal X subjected to these processes.
  • the perceptual weighting section 302 outputs a perceptually weighted input signal WX n sparse processing unit 303.
  • sparse unit 303 importance information I value of k the smaller sub-frame (the higher sub-frame importance), set to a predetermined number T k increases.
  • the sparse processing unit 303 decreases the number of samples with an amplitude value of zero as the subframe has a smaller value of the importance level information I k (a subframe with a higher importance level).
  • the sparse processing unit 303 in each subframe, out of a plurality of samples constituting the input signal, a predetermined number of samples having a smaller amplitude value (that is, (number of samples in one subframe ⁇ T k )) The sample amplitude is zero.
  • the sparse processing unit 303 outputs the input signal after the sparse processing (sparse auditory weighting input signal SWX n ) to the adding unit 313.
  • the LPC analysis unit 304 performs linear prediction analysis using the input signal Xn output from the preprocessing unit 301, and outputs an analysis result (linear prediction coefficient: LPC) to the LPC quantization unit 305.
  • the LPC quantization unit 305 performs quantization processing on the linear prediction coefficient (LPC) output from the LPC analysis unit 304 and outputs the obtained quantized LPC to the perceptual weighting unit 302 and perceptual weighting synthesis filter 312. Further, the LPC quantization unit 305 outputs a code (L) representing the quantized LPC to the multiplexing unit 315.
  • LPC linear prediction coefficient
  • the adaptive excitation codebook 306 stores in the buffer the driving excitations output by the adding unit 311 in the past, and one frame from the past driving excitation specified by the signal output from the parameter determination unit 314 described later.
  • the sample is cut out as an adaptive excitation vector and output to the multiplication unit 309.
  • the quantization gain generation unit 307 outputs the quantization adaptive excitation gain and the quantization fixed excitation gain specified by the signal output from the parameter determination unit 314 to the multiplication unit 309 and the multiplication unit 310, respectively.
  • Fixed excitation codebook 308 outputs a pulse excitation vector having a shape specified by the signal output from parameter determination section 314 to multiplication section 310 as a fixed excitation vector.
  • Fixed excitation codebook 308 may output a result obtained by multiplying a pulse excitation vector by a diffusion vector to multiplication section 310 as a fixed excitation vector.
  • Multiplication section 309 multiplies the adaptive excitation vector output from adaptive excitation codebook 306 by the quantized adaptive excitation gain output from quantization gain generation section 307 and adds the adaptive excitation vector after gain multiplication to addition section 311.
  • Multiplication section 310 multiplies the fixed excitation vector output from fixed excitation codebook 308 by the quantized fixed excitation gain output from quantization gain generation section 307 and adds the fixed excitation vector after gain multiplication to the addition section. 311 is output.
  • the adder 311 performs vector addition of the adaptive excitation vector after gain multiplication output from the multiplier 309 and the fixed excitation vector after gain multiplication output from the multiplier 310, and auditory weighting is applied to the driving sound source as the addition result.
  • the result is output to synthesis filter 312 and adaptive excitation codebook 306.
  • the drive excitation output to adaptive excitation codebook 306 is stored in the buffer of adaptive excitation codebook 306.
  • the adding unit 313 inverts the polarity of the synthesized signal HP n output from the perceptual weighting synthesis filter 312, and the synthesized signal with the inverted polarity is added to the sparse perceptual weighting input signal SWX n output from the sparse processing unit 303.
  • the error signal is calculated by addition, and the error signal is output to the parameter determination unit 314.
  • the parameter determination unit 314 converts the adaptive excitation vector, fixed excitation vector, and quantization gain that minimize the encoding distortion of the error signal output from the addition unit 313 into the adaptive excitation codebook 306, fixed excitation codebook 308, and quantization. Each is selected from the gain generation unit 307, and the adaptive excitation vector code (A), fixed excitation vector code (F), and quantization gain code (G) indicating the selection result are output to the multiplexing unit 315.
  • the encoding apparatus 101 receives filter signals based on input signals that have undergone specific processing (preprocessing, auditory weighting processing, etc.), codebooks (adaptive excitation codebook 306, fixed excitation codebook 308), and quantized LPC.
  • the input signal is encoded by obtaining a correlation with the synthesized signal generated by using the input signal.
  • the parameter determination unit 314 generates a combined signal HP n (that is, various indexes (codes (A), (F), and so on) that minimize an error (coding distortion) with the sparse auditory weighting input signal SWX n . (G))) is searched.
  • the error calculation at that time is performed as follows.
  • the error D k between the two signals (the combined signal HP n and the sparse auditory weighting input signal SWX n ) is calculated as shown in Equation (5).
  • the first term is the energy of sparsified perceptually weighted input signal SWX n, is constant. For this reason, in order to minimize the error Dk of Equation (5), the second term should be maximized.
  • the sparse processing unit 303 increases the absolute value of the amplitude in the descending order of the absolute value of the amplitude by a predetermined number T k that is set according to the importance information I k . Select the samples (in order from the top). As a result, the second term shown in Equation (5) is calculated only for the selected sample.
  • the adding unit 313 calculates the correlation between the combined signal and the input signal that is an input signal in each subframe and has an amplitude value of a predetermined number of samples among a plurality of constituent samples that is zero.
  • the sparse processing unit 303 adaptively adjusts the number of samples for which the second term shown in Equation (5) is calculated between subframes in the frame.
  • the parameter determination unit 314 can omit the multiplication process of the second term shown in the equation (5), and as a result, the equation (5)
  • the amount of processing calculations can be greatly reduced.
  • the processing calculation amount can be reduced in all subframes. As a result, the worst case (worst case) processing calculation amount can be reduced. It can be guaranteed to reduce.
  • the multiplexing unit 315 includes a code (L) representing the quantized LPC output from the LPC quantization unit 305, an adaptive excitation vector code (A), a fixed excitation vector code (F), and a quantum output from the parameter determination unit 314.
  • the multiplexed gain code (G) is multiplexed and output to the transmission line 102 as encoded information.
  • the separation unit 401 separates the encoded information input via the transmission path 102 into individual codes ((L), (A), (G), (F)).
  • the separated LPC code (L) is output to the LPC decoding unit 402, the separated adaptive excitation vector code (A) is output to the adaptive excitation codebook 403, and the separated quantization gain code (G) is quantized.
  • the fixed excitation vector code (F) output to the gain generation unit 404 and separated is output to the fixed excitation codebook 405.
  • the LPC decoding unit 402 decodes the quantized LPC from the code (L) output from the separating unit 401, and outputs the decoded quantized LPC to the synthesis filter 409.
  • the adaptive excitation codebook 403 extracts a sample for one frame from the past driving excitation designated by the adaptive excitation vector code (A) output from the separation unit 401 as an adaptive excitation vector and outputs it to the multiplication unit 406.
  • the quantization gain generating unit 404 decodes the quantized adaptive excitation gain and the quantized fixed excitation gain specified by the quantization gain code (G) output from the separating unit 401, and multiplies the quantized adaptive excitation gain. And output the quantized fixed sound source gain to the multiplier 407.
  • G quantization gain code
  • the fixed excitation codebook 405 generates a fixed excitation vector specified by the fixed excitation vector code (F) output from the separation unit 401 and outputs the fixed excitation vector to the multiplication unit 407.
  • Multiplying section 406 multiplies the adaptive excitation vector output from adaptive excitation codebook 403 by the quantized adaptive excitation gain output from quantization gain generating section 404 and adds the adaptive excitation vector after gain multiplication to adding section 408. Output.
  • the multiplication unit 407 multiplies the fixed excitation vector output from the fixed excitation codebook 405 by the quantized fixed excitation gain output from the quantization gain generation unit 404, and adds the fixed excitation vector after gain multiplication to the addition unit. Output to 408.
  • the adding unit 408 adds the adaptive excitation vector after gain multiplication output from the multiplication unit 406 and the fixed excitation vector after gain multiplication output from the multiplication unit 407 to generate a driving sound source, and synthesizes the driving sound source. It outputs to the filter 409 and the adaptive excitation codebook 403.
  • the synthesis filter 409 performs filter synthesis of the driving sound source output from the addition unit 408 using the filter coefficient based on the quantized LPC decoded by the LPC decoding unit 402, and outputs the synthesized signal to the post-processing unit 410. .
  • the post-processing unit 410 performs, for the signal output from the synthesis filter 409, processing for improving the subjective quality of speech such as formant enhancement and pitch enhancement, processing for improving the subjective quality of stationary noise, and the like.
  • the processed signal is output as an output signal.
  • an encoding apparatus employing a CELP type encoding method first calculates subframe energy for each subframe with respect to the entire frame. Next, the encoding apparatus sets the importance for each subframe according to the calculated subframe energy. Then, when searching for the pitch period in each subframe, the encoding device selects a sample having a large absolute value of an amplitude by a predetermined number corresponding to the importance, calculates an error only for the selected sample, and calculates the optimum pitch. Calculate the period. With this configuration, it is possible to ensure that the amount of processing computation for one entire frame is greatly reduced.
  • the encoding apparatus does not uniformly determine the number of samples to be subjected to correlation calculation (distance calculation) at the time of pitch period search for all subframes, but the samples according to the importance of the subframes. Numbers can be switched adaptively. Specifically, it is possible to perform a pitch period search with high accuracy for subframes with large subframe energy and important perceptually (subframes with high importance). On the other hand, for subframes with low subframe energy and little impact on hearing (subframes with low importance), it is possible to reduce the accuracy of pitch period search and greatly reduce the amount of processing computation. . Thereby, it can suppress that the quality of a decoded signal deteriorates greatly.
  • the importance level determination unit 202 (FIG. 2) has been described by taking as an example a configuration in which importance level information is determined based on the subframe energy calculated by the subframe energy calculation unit 201. .
  • the present invention is not limited to this, and can be similarly applied to a configuration in which importance is determined based on information other than subframe energy.
  • a configuration in which the degree of signal variation (for example, SFM (Spectral (Flatness Measure)) for each subframe is calculated, and the importance is increased as the SFM value is increased is exemplified.
  • the importance may be determined based on information other than the SFM value.
  • the sparse processing unit 303 uses a predetermined target to be subjected to correlation calculation (error calculation) based on the importance level information determined by the importance level determination unit 202 (FIG. 2).
  • the number of samples was fixedly determined (eg, equation (4)).
  • the present invention is not limited to this, and can be similarly applied to a configuration in which the number of samples to be subjected to correlation calculation (error calculation) is determined in a method other than the determination method shown in Expression (4).
  • the importance level determination unit 202 simply calculates the importance level information as (1, 2, 3, Instead of setting with an integer value of 4), a value including a decimal value such as (1.0, 2.5, 2.5, 4.0) may be allowed. That is, importance information may be set with a finer accuracy in accordance with the difference in subframe energy between subframes.
  • the sparse processing unit 303 may be configured to set a predetermined number (predetermined number of samples) as (12, 8, 8, 6) based on the importance information.
  • the sparse processing unit 303 determines the predetermined number of samples by using a more flexible weight (importance) according to the distribution of the subframe energy in the plurality of subframes, thereby making it more than the above embodiment. Furthermore, the amount of processing calculations can be reduced efficiently.
  • the predetermined number of samples can be determined by preparing a plurality of patterns of the predetermined number of samples in advance. Further, a configuration in which the predetermined number of samples is dynamically determined based on the importance level information is also possible. In either configuration, however, it is assumed that a predetermined number of samples is determined or that a predetermined number of samples is dynamically determined so that the processing calculation amount can be reduced by a certain value or more in the entire frame. is there.
  • the present embodiment a case has been described in which sparse processing is performed on an input signal (here, sparse auditory weighting input signal SWX n ).
  • the synthesized signal here, the synthesized signal HP n
  • the amplitude value of a predetermined number of samples among a plurality of samples constituting at least one of the input signal and the combined signal in each subframe is determined according to the importance set in each subframe.
  • the correlation between the input signal and the combined signal may be calculated with zero.
  • the amplitude value of a predetermined number of samples among a plurality of samples constituting the signal is set to zero for both the input signal and the composite signal in each subframe, and the correlation between the input signal and the composite signal is calculated. The same applies to the calculated configuration.
  • the sparse processing unit 303 performs sparse processing on the input signal Xn .
  • CELP encoding section 203 has been described by taking as an example a configuration that employs a CELP type encoding scheme, but the present invention is not limited to this, and encoding schemes other than CELP type may be used. However, the same applies.
  • a configuration in which the present invention is applied to the correlation calculation of the signal between frames is given as an example. It is done.
  • FIG. 5 is a block diagram showing an internal configuration of the encoding apparatus 501 of the present embodiment.
  • the encoding device 501 mainly includes an input terminal, a downsampling unit 601, a low frequency signal encoding unit 602, a low frequency signal decoding unit 603, a delay unit 604, a high frequency signal encoding unit 605, a multiplexing unit 606, and an output terminal. Configured.
  • the digitized voice signal or music signal is input to the input terminal.
  • the downsampling unit 601 performs downsampling on the input signal input via the input terminal to generate a signal with a low sampling rate.
  • the downsampling unit 601 outputs the signal after downsampling to the low frequency signal encoding unit 602.
  • the low frequency signal encoding unit 602 encodes the signal after downsampling input from the downsampling unit 601.
  • the low frequency signal encoding unit 602 outputs the obtained encoded code to the low frequency signal decoding unit 603 and the multiplexing unit 606 (multiplexer).
  • the low frequency signal decoding unit 603 generates a decoded low frequency signal using the encoded code input from the low frequency signal encoding unit 602.
  • the low frequency signal decoding unit 603 outputs the generated decoded low frequency signal to the high frequency signal encoding unit 605.
  • the delay unit 604 gives a delay of a predetermined length to the input signal input via the input terminal, and outputs the input signal with the delay to the high frequency signal encoding unit 605. To do.
  • the high frequency signal encoding unit 605 encodes the high frequency part of the input signal input from the delay unit 604 using the decoded low frequency signal input from the low frequency signal decoding unit 603.
  • the high frequency signal encoding unit 605 outputs the generated encoded code to the multiplexing unit 606.
  • the multiplexing unit 606 multiplexes the encoded code input from the low frequency signal encoding unit 602 and the encoded code input from the high frequency signal encoding unit 605, and outputs the encoded information via the output terminal. Output.
  • FIG. 6 is a block diagram showing the internal configuration of the high-frequency signal encoding unit 605.
  • the high frequency signal encoding unit 605 mainly includes an input terminal, frequency domain conversion units 701 and 702, a subband energy calculation unit 703, an importance determination unit 704, a sparse processing unit 705, a correlation analysis unit 706, and an output terminal. Is done.
  • the decoded low-frequency signal is input from the low-frequency signal decoding unit 603 (FIG. 5) to the input terminal connected to the frequency domain conversion unit 701.
  • an input signal subjected to delay processing is input from the delay unit 604 to an input terminal connected to the frequency domain conversion unit 702.
  • the frequency domain transform unit 701 performs frequency transform on the decoded low frequency signal input via the input terminal, and calculates the decoded low frequency spectrum X1 k .
  • the frequency domain transform unit 702 performs frequency transform on an input signal input via the input terminal, and calculates an input spectrum X2 k .
  • frequency transform methods in the frequency domain transform units 701 and 702 are discrete Fourier transform (DFT), discrete cosine transform (DCT), and modified discrete cosine transform (MDCT). ) Etc. apply.
  • the spectrum may be referred to as a conversion coefficient. That is, in the frequency domain transform section 702, the input spectrum X2 k is acquired. The input spectrum (conversion coefficient) X2 k can be divided into a high frequency part and a high frequency part in the frequency band. Further, the frequency domain transform unit 701 obtains a decoded low frequency spectrum X1 k corresponding to the low frequency part of the spectrum of the input signal (input spectrum).
  • the subband energy calculation unit 703 receives an input spectrum from the frequency domain conversion unit 702.
  • the subband energy calculation unit 703 first divides the high frequency part of the input spectrum that has been input into a plurality of subbands.
  • the high-frequency portion X2 k of the input spectrum (k 0, ..., K -1.
  • start m and end m in the equation (6) indicate a transform coefficient index of the lowest frequency and a transform coefficient index of the highest frequency in the subband of the subband index m, respectively.
  • the importance level determination unit 704 sets the importance level for each subband. For example, the importance level determination unit 704 sets the importance level for each subband based on the subband energy. Specifically, the importance level determination unit 704 sets a higher importance level for a subband having a higher subband energy.
  • the importance set for each subband is referred to as importance information.
  • the importance determination unit 704 sets the importance (importance information I m ) of each subband as shown in Expression (8). To do.
  • the importance level determination unit 704 sets the importance level of the subband to be higher (the importance level information Im is decreased) as the subband energy Em is larger.
  • the importance information I m of each sub-band are different from each other. That is, the importance determining portion 704, so as to always take the difference in importance information I m for each subband, set the importance level.
  • the case where the number of subbands was 4 was described as an example, but the present invention is not limited to the number of subbands, and the number of subbands described as an example. The present invention can be similarly applied to the number of subbands other than the case where 4 is 4. Further, equation (8) is only an example of a setting of the importance information I m, even for setting using a value other than the formula (8), the present invention can be applied similarly.
  • a predetermined number of transform coefficients are selected from the higher absolute value of the amplitude for the high frequency portion X2 k of the input spectrum, and values are set for the other transform coefficients.
  • the same applies to the third and fourth subbands (subband index m 2, 3).
  • sparse unit 705 importance information I value of m the smaller sub-band (the higher the importance subbands), set to a predetermined number T m increases.
  • the sparse processing unit 705 outputs the high frequency part X2 k ((the high frequency part SX2 k of the sparse input spectrum)) of the input spectrum after the sparse processing to the correlation analysis unit 706.
  • the correlation analysis unit 706 includes a decoded low-frequency spectrum X1 k (corresponding to a low-frequency portion of the input spectrum) input from the frequency domain conversion unit 701 and a high-frequency input spectrum after sparse processing input from the sparse processing unit 705.
  • the correlation analysis with the part SX2 k is performed in units of subbands, and the shift amount d when the correlation value is maximized is obtained.
  • Correlation analysis section 706 then outputs the shift amount d of each subband to multiplexing section 606 (FIG. 5) via the output terminal.
  • the correlation value between the decoded low-frequency spectrum X1 k and the high-frequency part SX2 k of the input spectrum after sparse processing is calculated according to the equation (10).
  • d represents the shift amount
  • D min represents the minimum value of the shift amount search range
  • D max represents the maximum value of the shift amount search range
  • Cor m (d) represents the shift of the m-th subband. It represents the correlation value in the quantity d.
  • the correlation analysis unit 706 obtains a shift amount dmax when the correlation value is maximum among the correlation values Cor m (d) calculated according to the equation (10), and the obtained shift amount dmax is shifted to the m-th subband. Encoding is performed as a quantity, and the encoded code is output to the multiplexing unit 606 (FIG. 5). That is, the correlation analysis unit 706 calculates the correlation value for obtaining the shift amount dmax indicating the low-frequency part transform coefficient (decoded low-frequency spectrum) most similar to the high-frequency part transform coefficient (high-frequency part of the input spectrum). calculate.
  • the sparse processing unit 705 performs, for each subband m, in descending order of the absolute value of the amplitude by the predetermined number T m set according to the importance information I m (the absolute value of the amplitude). Select conversion coefficients (from top to bottom). Thereby, the process shown in Expression (10) is performed only for the selected conversion coefficient. That is, the correlation analysis unit 706 is a high-frequency part of the input spectrum in each subband, and the high-frequency part of the input spectrum in which the amplitude value of a predetermined number of transform coefficients is zero among the plurality of subbands constituting the subband. And the correlation with the decoded low-frequency spectrum.
  • the sparse processing unit 705 adaptively adjusts the number of transform coefficients for which the correlation value shown in Expression (10) is calculated between subbands in the frame.
  • the correlation analysis unit 706 can omit a part of the processing shown in the equation (10), and as a result, the equation (10)
  • the amount of processing calculations can be greatly reduced.
  • the number of transform coefficients to be selected is adjusted for the entire subband in one frame, the amount of processing calculation can be reduced in all subbands. As a result, the worst case (worst case) processing calculation is performed. The amount can be greatly reduced.
  • FIG. 7 is a block diagram showing an internal configuration of decoding apparatus 801 according to the present embodiment.
  • the decoding device 801 mainly includes an input terminal, a separation unit 901, a low frequency signal decoding unit 902, an upsampling unit 903, a high frequency signal decoding unit 904, an addition unit 905, and an output terminal.
  • ⁇ Encoding information is input to the input terminal.
  • Separating section 901 separates encoded information input via the input terminal into an encoded code for low-frequency signal decoding section 902 and an encoded code for high-frequency signal decoding section 904.
  • the encoded code for the low frequency signal decoding unit 902 is an encoded code of the signal after downsampling encoded by the low frequency signal encoding unit 602 (FIG. 5) of the encoding device 501.
  • the encoded code for the high frequency signal decoding unit 904 is the amount of shift encoded by the high frequency signal encoding unit 605 (FIG. 5) of the encoding device 501 (lowest value having the largest correlation value with the high frequency spectrum). This is an encoding code of information indicating the position of the band spectrum. Note that the high frequency signal encoding unit 605 obtains this shift amount for each subband.
  • the low frequency signal decoding unit 902 generates a decoded low frequency signal using the encoded code obtained by the separation unit 901, and outputs the generated decoded low frequency signal to the upsampling unit 903 and the high frequency signal decoding unit 904. To do.
  • the upsampling unit 903 upsamples the decoded low frequency signal input from the low frequency signal decoding unit 902 (increases the sampling frequency) to generate a signal with a high sampling rate. Upsampling section 903 outputs the signal after upsampling to addition section 905.
  • the high frequency signal decoding unit 904 receives the encoded code separated by the separation unit 901 and the decoded low frequency signal generated by the low frequency signal decoding unit 902.
  • the high frequency signal decoding unit 904 performs a decoding process described later to generate a decoded high frequency signal, and outputs the generated decoded high frequency signal to the adding unit 905.
  • the adder 905 adds the decoded low-frequency signal after up-sampling input from the up-sampling unit 903 and the decoded high-frequency signal input from the high-frequency signal decoder 904 to generate an output signal, and outputs the output signal. Is output to the output terminal.
  • FIG. 8 is a block diagram showing an internal configuration of the high frequency signal decoding unit 904.
  • the high frequency signal decoding unit 904 mainly includes an input terminal, a frequency domain conversion unit 1001, a high frequency spectrum generation unit 1002, a time domain conversion unit 1003, and an output terminal.
  • the decoded low-frequency signal is input from the low-frequency signal decoding unit 902 (FIG. 7) to the input terminal connected to the frequency domain conversion unit 1001.
  • an encoded code is input from the separation unit 901 (FIG. 7) to an input terminal connected to the high frequency spectrum generation unit 1002.
  • the frequency domain transform unit 1001 performs frequency transform on the decoded low frequency signal input from the input terminal, and calculates a decoded low frequency spectrum X1 (k).
  • a frequency transform method in the frequency domain transform unit 1001 uses discrete Fourier transform (DFT), discrete cosine transform (DCT), modified discrete cosine transform (MDCT), or the like.
  • the frequency domain transform unit 1001 outputs the calculated decoded low frequency spectrum X1 (k) to the high frequency spectrum generation unit 1002.
  • the high frequency spectrum generation unit 1002 refers to the shift amount for each subband based on the encoded code input from the input terminal, and selects the shift amount from the decoded low frequency spectrum input from the frequency domain transform unit 1001.
  • the decoded high frequency spectrum is generated by replicating the spectrum indicated by This duplication processing is performed for each subband.
  • the high frequency spectrum generation unit 1002 outputs the generated decoded high frequency spectrum to the time domain conversion unit 1003.
  • the time domain conversion unit 1003 converts the decoded high frequency spectrum input from the high frequency spectrum generation unit 1002 into a time domain signal and outputs the signal via an output terminal. At this time, the time domain conversion unit 1003 performs processing such as appropriate windowing and superposition addition to avoid discontinuity between frames.
  • the encoding apparatus first acquires transform coefficients (spectrums) whose frequency band is divided into a low frequency part and a high frequency part.
  • the encoding apparatus divides one frequency band (high frequency part in the present embodiment) of the low frequency part and high frequency part of the transform coefficient into a plurality of subbands.
  • the encoding apparatus sets the importance for each subband.
  • the encoding device corrects the amplitude value of a predetermined number of transform coefficients to zero among the transform coefficients included in the subband according to the set importance.
  • the encoding apparatus calculates a correlation between the low-frequency part transform coefficient and the corrected high-frequency part transform coefficient.
  • the transform coefficient that is the target of correlation calculation is not determined uniformly for all subbands, but the transform coefficient is adaptive according to the importance of the subband. You can switch to Specifically, it is possible to perform a shift amount search with high accuracy for subbands having large subband energy and important perceptually (subbands having high importance). On the other hand, for subbands (subframes with low importance) that have low subband energy and little impact on hearing, it is possible to greatly reduce the amount of processing calculations by reducing the accuracy of the shift amount search. . Thereby, it can suppress that the quality of a decoded signal deteriorates greatly.
  • FIG. 9 shows a configuration of highband signal encoding section 605a according to the present embodiment.
  • the same components as those in FIG. 6 are denoted by the same reference numerals, and the description thereof is omitted.
  • the subband energy calculation unit 703a divides the decoded low-frequency spectrum input from the frequency domain conversion unit 701 into a plurality of subbands.
  • N J in Equation (11) is the number of subbands of the decoded low-frequency spectrum
  • START j and END j are the lowest frequency transform coefficient index and the highest frequency transform coefficient index in the subband index j. Respectively.
  • Importance determining section 704a sets importance information I j for each subband based on the subband energy, as in the second embodiment (importance determining section 704).
  • the sparse processing is performed on the decoded low-frequency spectrum X1 k input from the frequency domain transform unit 701.
  • the sparse processing unit 705a sets the amplitude values of a predetermined number of transform coefficients to zero among a plurality of transform coefficients (transform coefficient indexes START j to END j ) constituting the decoded low-frequency spectrum X1 k in each subband j.
  • Sparse processing is performed to generate a decoded low frequency spectrum SX1 k after sparse processing.
  • the sparse processing unit 705a outputs the decoded low frequency spectrum SX1 k after the sparse processing to the correlation analysis unit 706a.
  • the correlation analysis unit 706a performs a correlation analysis between the sparse decoded low-frequency spectrum SX1 k input from the sparse processing unit 705a and the high-frequency portion X2 k of the input spectrum input from the frequency domain transform unit 702.
  • the shift amount d when the correlation value is maximized is obtained.
  • the correlation analysis unit 706a performs correlation analysis in units of subbands obtained by dividing the high frequency part of the input spectrum, and the amount of shift when the correlation value becomes maximum for each subband of the high frequency part of the input spectrum. d is obtained.
  • the correlation analysis unit 706a outputs the shift amount d for each subband in the high frequency part of the input spectrum to the multiplexing unit 606 (FIG. 5) via the output terminal.
  • the correlation value between the high frequency part X2 k of the input spectrum and the decoded low frequency spectrum SX1 k after the sparse processing is calculated according to the equation (12).
  • N M represents the number of sub-band high band of input spectrum
  • Cor m (d) represents a correlation value in the shift amount d of the m-th subband.
  • the correlation analysis unit 706 calculates a correlation value for obtaining a shift amount dmax indicating a low-frequency part conversion coefficient (decoded imperial breath spectrum) that is most similar to a high-frequency part conversion coefficient (high-frequency part of the input spectrum). calculate.
  • the encoding device first obtains a transform coefficient (spectrum) whose frequency band is divided into a low frequency part and a high frequency part.
  • the encoding apparatus divides one frequency band (low frequency part in the present embodiment) of the low frequency part and high frequency part of the transform coefficient into a plurality of subbands.
  • the encoding apparatus sets the importance for each subband.
  • the encoding device corrects the amplitude value of a predetermined number of transform coefficients to zero among the transform coefficients included in the subband according to the set importance.
  • the encoding apparatus calculates a correlation between the high-frequency part transform coefficient and the corrected low-frequency part transform coefficient.
  • the transform coefficient that is the target of correlation calculation is not determined uniformly for all subbands, but the transform coefficient is adaptive according to the importance of the subband. You can switch to Specifically, it is possible to perform a shift amount search with high accuracy for subbands having large subband energy and important perceptually (subbands having high importance). On the other hand, for subbands (subframes with low importance) that have low subband energy and little impact on hearing, it is possible to greatly reduce the amount of processing calculations by reducing the accuracy of the shift amount search. . Thereby, it can suppress that the quality of a decoded signal deteriorates greatly.
  • the importance level determination unit has been described by taking as an example a configuration in which importance level information is determined based on the subband energy calculated by the subband energy calculation unit. .
  • the present invention is not limited to this, and can be similarly applied to a configuration in which importance is determined based on information other than subband energy.
  • a configuration in which the degree of variation of the transform coefficient for each subband (for example, SFM (Spectral Flatness Measure)) is calculated, and the importance is increased as the SFM value is increased is given as an example.
  • the importance may be determined based on information other than the SFM value.
  • the sparse processing unit fixedly determines a predetermined number of samples for which a correlation value is to be calculated based on the importance level information determined by the importance level determination unit. did.
  • the present invention is not limited to this.
  • the subband energy is a numerical value that is very close between the upper subbands
  • the importance level determination unit displays the importance level information.
  • a value including a decimal value such as (1.0, 2.5, 2.5, 4.0) is allowed. May be set. That is, importance information may be set with a finer accuracy in accordance with the difference in subband energy between subbands.
  • the sparse processing unit may set a predetermined number (the number of predetermined conversion coefficients) as (12, 8, 8, 6) based on the importance information.
  • the sparse processing unit determines the number of predetermined transform coefficients using a more flexible weight (importance) in accordance with the distribution of subband energy in a plurality of subbands, and thus the above-described embodiment. The amount of processing calculations can be reduced more efficiently than that.
  • the predetermined number of conversion coefficients can be determined by preparing a plurality of patterns of the predetermined number of conversion coefficients in advance. Further, a configuration in which the number of predetermined conversion coefficients is dynamically determined based on the importance level information is also possible.
  • a predetermined number of transform coefficients is determined so that the amount of processing calculation can be reduced by a predetermined value or more over the plurality of subbands, or a predetermined transform coefficient is dynamically determined.
  • the premise is to determine the number.
  • the encoding device and the encoding method according to the present invention are not limited to the above-described embodiment, and can be implemented with various modifications.
  • the decoding device in the above embodiment performs processing using the encoded information transmitted from the encoding device in the above embodiment.
  • the present invention is not limited to this, and any encoding information including necessary parameters and data can be processed even if it is not the encoding information from the encoding device in the above embodiment.
  • the present invention can also be applied to a case where a signal processing program is recorded and written on a machine-readable recording medium such as a memory, a disk, a tape, a CD, or a DVD, and the operation is performed. Actions and effects similar to those of the form can be obtained.
  • each functional block used in the description of the above embodiment is typically realized as an LSI which is an integrated circuit. These may be individually made into one chip, or may be made into one chip so as to include a part or all of them.
  • the name used here is LSI, but it may also be called IC, system LSI, super LSI, or ultra LSI depending on the degree of integration.
  • the method of circuit integration is not limited to LSI, and may be realized by a dedicated circuit or a general-purpose processor.
  • An FPGA Field Programmable Gate Array
  • a reconfigurable processor that can reconfigure the connection or setting of circuit cells inside the LSI may be used.
  • the present invention can efficiently reduce the amount of calculation when performing correlation calculation on an input signal, and can be applied to, for example, a packet communication system and a mobile communication system.

Abstract

 入力信号に対して相関演算を行う際に、相関演算に利用する変換係数を処理毎に適応的に調節することにより、出力信号の品質劣化を抑制しつつ、処理演算量を大幅に削減することができる符号化装置。この装置において、周波数領域変換部(701),(702)は、周波数帯域が低域部と高域部とに分けられた変換係数を取得し、サブバンドエネルギ算出部(703)は、変換係数の低域部及び高域部のうち一方の周波数帯域を複数のサブバンドに分割し、重要度判定部(704)は、サブバンド毎に重要度を設定し、スパース処理部(705)は、設定された重要度に応じて、各サブバンドに含まれる複数の変換係数のうち、所定数の変換係数の振幅値をゼロとし、相関分析部(706)は、一方の周波数帯域の修正後の変換係数と、他方の周波数帯域の変換係数との相関を算出する。

Description

符号化装置及び符号化方法
 本発明は、信号を符号化して伝送する通信システムに用いられる符号化装置及び符号化方法に関する。
 インターネット通信に代表されるパケット通信システム、又は、移動通信システム等で音声信号及び/又は楽音信号を伝送する場合、音声信号及び/又は楽音信号の伝送効率を高めるため、圧縮/符号化技術がよく使われる。また、単に低ビットレートで音声信号及び/又は楽音信号を符号化するという一方で、より広帯域の音声信号及び/又は楽音信号を符号化する技術、及び、音質を劣化させずに低い処理演算量で符号化/復号する技術に対するニーズが高まっている。
 これらのニーズに対して、復号信号の品質を劣化させずに、処理演算量を削減する様々な技術が開発されてきている。例えば特許文献1で開示されている技術では、CELP(Code Excited Linear Prediction:符号励振線形予測)タイプの符号化装置において、ピッチ周期探索(適応符号帳探索)の処理演算量を削減している。具体的には、符号化装置は適応符号帳の更新をスパース化する。スパース化の処理方法としては、サンプルの振幅が一定の閾値を越えない場合にサンプルの値を零(0)に置き換えるという方法を採っている。これにより、ピッチ周期探索時に、サンプルの値が0の部分に対する処理(具体的には、乗算処理)を省略することで、演算量を削減している。また、上記閾値を処理毎に適応的に可変にする構成が開示されているほか、各サンプルの絶対値の大きい方から順位を付け、その上位から所望のサンプル数以外のサンプル値を零(0)に置き換えるという構成も開示されている。
 一方、特許文献2には、周波数領域での相関処理の演算量削減に関する技術が開示されている。この技術では、高域スペクトルに類似している低域スペクトルを示す位置を相関分析により特定する際、振幅値の小さい高域スペクトルをゼロに置き換える。これにより、相関分析に必要な処理を省略することで、演算量を削減している。
特開平5-61499号公報 国際公開第2011/000408号
 特許文献1では、符号化装置が、ピッチ周期探索時にスパース化するサンプル(値を零(0)値とするサンプル)を選択するための閾値を、処理(サブフレーム処理)毎に適応的に切り替える構成等を開示している。しかし、上記方法では、確かにフレーム全体の平均処理演算量を削減できる場合があるが、演算量を削減できるサブフレームと演算量を削減できないサブフレームとが混在し、1フレーム毎の処理としては、処理演算量が必ず削減されるとは限らない。換言すると、上記方法では、ワーストケースの処理演算量(処理演算量が最大となるフレームにおける処理演算量)を削減する保証はない。したがって、復号信号の品質を劣化させずに、1サブフレーム毎の処理でも、処理演算量を大きく削減する必要がある。同様に、特許文献2のように周波数領域での相関処理を行う場合にも、復号信号の品質を劣化させずに、1フレーム内のサブバンド毎の処理でも、処理演算量を大きく削減する必要がある。
 本発明の目的は、入力信号の符号化時にピッチ周期探索のような相関演算を行う際、復号信号の品質を劣化させずに、1サブフレーム毎の処理演算量または1サブバンド毎の処理演算量を必ず削減する(最悪のケース(ワーストケース)の処理演算量を削減する)ことができる符号化装置及び符号化方法を提供することである。
 本発明の一態様に係る符号化装置は、周波数帯域が低域部と高域部とに分けられた変換係数を取得する取得手段と、前記変換係数の前記低域部及び前記高域部のうち一方の周波数帯域を複数のサブバンドに分割する分割手段と、前記サブバンド毎に重要度を設定する設定手段と、前記設定された重要度に応じて、前記各サブバンドに含まれる複数の変換係数のうち、所定数の変換係数の振幅値をゼロとする修正手段と、前記一方の周波数帯域の前記修正後の変換係数と、他方の周波数帯域の変換係数との相関を算出する算出手段と、を具備する構成を採る。
 本発明の一態様に係る符号化方法は、周波数帯域が低域部と高域部とに分けられた変換係数を取得する取得ステップと、前記変換係数の前記低域部及び前記高域部のうち一方の周波数帯域を複数のサブバンドに分割する分割ステップと、前記サブバンド毎に重要度を設定する設定ステップと、前記設定された重要度に応じて、前記サブバンドに含まれる変換係数の内、所定数の変換係数の振幅値をゼロとする修正ステップと、前記一方の周波数帯域の前記修正後の変換係数と、他方の周波数帯域の変換係数との相関を算出する算出ステップと、を具備する。
 本発明によれば、入力信号に対して相関演算を行う際に、相関演算に利用するサンプル(変換係数)を処理毎に適応的に調節することにより、出力信号の品質劣化を抑制しつつ、処理演算量を大幅に削減することができる。なお、予めフレーム全体で各サブフレームの重要度(各サブバンドの重要度)を判定し、各重要度に応じて、相関演算に利用するサンプル数(または変換係数)をサブフレーム毎(サブバンド毎)に決定することにより、最悪のケース(ワーストケース)の処理演算量の削減を保証することができる。
本発明の実施の形態1に係る符号化装置及び復号装置を有する通信システムの構成を示すブロック図 本発明の実施の形態1に係る図1に示した符号化装置の内部の主要な構成を示すブロック図 本発明の実施の形態1に係る図2に示したCELP符号化部の内部の主要な構成を示すブロック図 本発明の実施の形態1に係る図1に示した復号装置の内部の主要な構成を示すブロック図 本発明の実施の形態2に係る符号化装置の内部の主要な構成を示すブロック図 本発明の実施の形態2に係る図5に示した高域信号符号化部の内部の主要な構成を示すブロック図 本発明の実施の形態2に係る復号装置の内部の主要な構成を示すブロック図 本発明の実施の形態2に係る図7に示した高域信号復号部の内部の主要な構成を示すブロック図 本発明の実施の形態3に係る符号化装置の高域信号符号化部の内部の主要な構成を示すブロック図
 以下、本発明の各実施の形態について、図面を参照して詳細に説明する。なお、本発明に係る符号化装置及び復号装置として、音声符号化装置及び音声復号装置を例にとって説明する。
 <実施の形態1>
 図1は、本発明の実施の形態1に係る符号化装置及び復号装置を有する通信システムの構成を示すブロック図である。図1において、通信システムは、符号化装置101と復号装置103とを備え、それぞれ伝送路102を介して通信可能な状態となっている。なお、符号化装置101及び復号装置103はいずれも、通常、基地局装置あるいは通信端末装置等に搭載されて用いられる。
 符号化装置101は、入力信号をNサンプルずつ区切り(N=1,2,・・・)、Nサンプルを1フレームとしてフレーム毎に符号化を行う。ここで、符号化の対象となる入力信号をx(n=0、…、N-1)と表すこととする。nは、Nサンプルずつ区切られた入力信号のうち、信号要素のn+1番目を示す。符号化装置101は、符号化した入力情報(符号化情報)を、伝送路102を介して復号装置103に送信する。
 復号装置103は、伝送路102を介して符号化装置101から送信された符号化情報を受信し、これを復号し出力信号を得る。
 図2は、図1に示した符号化装置101の内部構成を示すブロック図である。符号化装置101は、サブフレームエネルギ算出部201、重要度判定部202及びCELP符号化部203から主に構成される。なお、サブフレームエネルギ算出部201及び重要度判定部202は、フレーム単位で処理を行い、CELP符号化部203はサブフレーム単位で処理を行うものとする。以下、各処理の詳細について説明する。
 サブフレームエネルギ算出部201には入力信号が入力される。サブフレームエネルギ算出部201は、入力された入力信号を、まずサブフレームに分割する。以下、例えば、入力信号X(n=0、…、N-1。つまり、N個のサンプル)をN個のサブフレーム(サブフレームインデックスk=0~N-1)に分割する構成について説明する。
 そして、サブフレームエネルギ算出部201は、分割したサブフレーム毎に、サブフレームエネルギE(k=0、・・・、N-1)を、式(1)に従って算出する。そして、サブフレームエネルギ算出部201は、算出したサブフレームエネルギEを重要度判定部202に出力する。ここで、式(1)におけるstart及びendは、サブフレームインデックスkのサブフレームにおける先頭のサンプルインデックス、及び、最後尾のサンプルインデックスをそれぞれ示すものとする。
Figure JPOXMLDOC01-appb-M000001
 重要度判定部202には、サブフレームエネルギ算出部201から、サブフレームエネルギE(k=0、・・・、N-1)が入力される。重要度判定部202は、サブフレームエネルギに基づいて、サブフレーム毎の重要度を設定する。具体的には、重要度判定部202は、サブフレームエネルギが大きいサブフレームほど、重要度を高く設定する。以下、各サブフレームに対して設定された重要度を重要度情報と呼ぶ。以下、重要度情報をI(k=0、・・・、N-1)と表し、Iの値が小さいほど重要度が高いものとする。例えば、重要度判定部202は、入力された各サブフレームに対するサブフレームエネルギEを降順にソーティングして、ソーティング後の先頭のサブフレームエネルギに対応するサブフレーム(サブフレームエネルギが最も大きいサブフレーム)から順に、より高い重要度(つまり、より小さい値の重要度情報I)を設定する。
 例えば、サブフレームエネルギEが式(2)の関係であった場合には、重要度判定部202は、式(3)のように各サブフレーム(CELP符号化の処理単位)の重要度(重要度情報I)を設定する。
Figure JPOXMLDOC01-appb-M000002
Figure JPOXMLDOC01-appb-M000003
 つまり、重要度判定部202は、サブフレームエネルギEが大きいほど、当該サブフレームの重要度を高く(重要度情報Iを小さく)設定する。ここで、式(3)では、1フレーム内の各サブフレームの重要度情報Iは互いに異なる。すなわち、重要度判定部202は、1フレーム内の各サブフレームの重要度情報Iに常に差がつくように、重要度を設定する。
 そして、重要度判定部202は、設定した重要度情報I(k=0、・・・、N-1)をCELP符号化部203に出力する。なお、式(2)、及び式(3)では、サブフレーム数が4である場合を例に挙げて説明したが、本発明はサブフレーム数には限定されず、一例として説明したサブフレーム数が4である場合以外のサブフレーム数についても同様に適用できる。また、式(3)は重要度情報Iの設定の一例を示したに過ぎず、式(3)以外の値を用いた設定に対しても、本発明は同様に適用できる。
 CELP符号化部203には、入力信号、及び、重要度判定部202から重要度情報I(k=0、・・・、N-1)が入力される。CELP符号化部203は、入力された重要度情報を用いて、入力信号の符号化を行う。以下、CELP符号化部203における符号化処理の詳細を説明する。
 図3は、CELP符号化部203の内部構成を示すブロック図である。CELP符号化部203は、前処理部301、聴覚重み付け部302、スパース処理部303、LPC(Linear Prediction Coefficient)分析部304、LPC量子化部305、適応音源符号帳306、量子化利得生成部307、固定音源符号帳308、乗算部309、310、加算部311、313、聴覚重み付け合成フィルタ312、パラメータ決定部314、及び多重化部315とから主に構成される。以下、各処理部の詳細について説明する。
 前処理部301は、入力信号xに対し、DC成分を取り除くハイパスフィルタ処理、後続する符号化処理の性能改善を図る波形整形処理又はプリエンファシス処理を行い、これらの処理を施した入力信号X(n=0、…、N-1)を、聴覚重み付け部302及びLPC分析部304に出力する。
 聴覚重み付け部302は、前処理部301から出力される入力信号Xに対して、LPC量子化部305から出力される量子化LPCを用いて、聴覚的な重み付けを行って、聴覚重み付け入力信号WX(n=0、…、N-1)を生成する。そして、聴覚重み付け部302は、聴覚重み付け入力信号WXをスパース処理部303に出力する。
 スパース処理部303は、重要度判定部202(図2)から入力される重要度情報I(k=0、・・・、N-1)を用いて、聴覚重み付け部302から入力される聴覚重み付け入力信号WXに対してスパース処理を行う。つまり、スパース処理部303は、各サブフレームkにおける入力信号WXを構成する複数のサンプル(サンプルインデックスstart~end)のうち、所定数のサンプルの振幅値をゼロにするスパース処理を行う。以下、スパース処理の詳細を説明する。
 スパース処理部303は、入力される重要度情報I(k=0、・・・、N-1)に基づき、入力される聴覚重み付け入力信号WXに対してスパース処理を行う。ここでは、スパース処理の一例として、聴覚重み付け入力信号WXに対して、振幅の絶対値の大きい方から所定の数だけサンプルを選択し、それ以外のサンプルに対しては値を0とする処理について説明する。なお、ここで、上記所定の数は、重要度情報I(k=0、・・・、N-1)に基づいて適応的に決定される。重要度情報I(k=0、・・・、N-1)が式(3)の場合における上記所定の数の設定例を以下の式(4)に示す。ここで、所定の数をT(k=0、・・・、N-1)と表すものとし、式(4)ではサブフレーム数Nが4である場合の例を示す。
Figure JPOXMLDOC01-appb-M000004
 式(4)の場合、スパース処理部303は、第1サブフレーム(サブフレームインデックスk=0)では、聴覚重み付け入力信号WX(n=start~end)に対して、振幅の絶対値の大きい方から所定の数T=12個のサンプルを選択し、選択されたサンプル以外のサンプルの値を0に設定する。同様に、スパース処理部303は、第2サブフレーム(サブフレームインデックスk=1)では、聴覚重み付け入力信号WX(n=start~end)に対して、振幅の絶対値の大きい方から所定の数T=6個のサンプルを選択し、選択されたサンプル以外のサンプルの値を0に設定する。第3、第4サブフレーム(サブフレームインデックスk=2,3)についても同様である。
 つまり、スパース処理部303は、重要度情報Iの値が小さいサブフレームほど(重要度が高いサブフレームほど)、所定の数Tが大きくなるように設定する。換言すると、スパース処理部303は、重要度情報Iの値が小さいサブフレームほど(重要度が高いサブフレームほど)、振幅値をゼロとするサンプル数を少なくする。また、スパース処理部303は、各サブフレームにおいて、入力信号を構成する複数のサンプルのうち、振幅値がより小さい所定数のサンプル(つまり、(1サブフレーム内のサンプル数-T)個のサンプル)の振幅値をゼロとする。
 そして、スパース処理部303は、スパース処理後の入力信号(スパース化聴覚重み付け入力信号SWX)を加算部313に出力する。
 LPC分析部304は、前処理部301から出力される入力信号Xを用いて線形予測分析を行い、分析結果(線形予測係数:LPC)をLPC量子化部305に出力する。
 LPC量子化部305は、LPC分析部304から出力された線形予測係数(LPC)の量子化処理を行い、得られた量子化LPCを聴覚重み付け部302及び聴覚重み付け合成フィルタ312に出力する。また、LPC量子化部305は、量子化LPCを表す符号(L)を多重化部315に出力する。
 適応音源符号帳306は、過去に加算部311によって出力された駆動音源をバッファに記憶しており、後述するパラメータ決定部314から出力された信号により特定される過去の駆動音源から1フレーム分のサンプルを適応音源ベクトルとして切り出して、乗算部309に出力する。
 量子化利得生成部307は、パラメータ決定部314から出力された信号によって特定される量子化適応音源利得と量子化固定音源利得とをそれぞれ乗算部309及び乗算部310に出力する。
 固定音源符号帳308は、パラメータ決定部314から出力された信号によって特定される形状を有するパルス音源ベクトルを固定音源ベクトルとして乗算部310に出力する。なお、固定音源符号帳308は、パルス音源ベクトルに拡散ベクトルを乗算して得られたものを固定音源ベクトルとして乗算部310に出力しても良い。
 乗算部309は、量子化利得生成部307から出力された量子化適応音源利得を、適応音源符号帳306から出力された適応音源ベクトルに乗じて、利得乗算後の適応音源ベクトルを加算部311に出力する。また、乗算部310は、量子化利得生成部307から出力された量子化固定音源利得を、固定音源符号帳308から出力された固定音源ベクトルに乗じて、利得乗算後の固定音源ベクトルを加算部311に出力する。
 加算部311は、乗算部309から出力された利得乗算後の適応音源ベクトルと、乗算部310から出力された利得乗算後の固定音源ベクトルとをベクトル加算し、加算結果である駆動音源を聴覚重み付け合成フィルタ312及び適応音源符号帳306に出力する。なお、適応音源符号帳306に出力された駆動音源は、適応音源符号帳306のバッファに記憶される。
 聴覚重み付け合成フィルタ312は、LPC量子化部305から出力された量子化LPCに基づくフィルタ係数を用いて、加算部311から出力される駆動音源に対してフィルタ合成を行って合成信号HP(n=0、…、N-1)を生成し、合成信号HPを加算部313に出力する。
 加算部313は、聴覚重み付け合成フィルタ312から出力された合成信号HPの極性を反転させて、極性を反転させた合成信号をスパース処理部303から出力されたスパース化聴覚重み付け入力信号SWXに加算することにより誤差信号を算出し、誤差信号をパラメータ決定部314に出力する。
 パラメータ決定部314は、加算部313から出力された誤差信号の符号化歪みを最小とする適応音源ベクトル、固定音源ベクトル及び量子化利得を、適応音源符号帳306、固定音源符号帳308及び量子化利得生成部307からそれぞれ選択し、選択結果を示す適応音源ベクトル符号(A)、固定音源ベクトル符号(F)及び量子化利得符号(G)を多重化部315に出力する。
 ここで、加算部313及びパラメータ決定部314における処理の詳細について説明する。符号化装置101は、特定の処理(前処理、聴覚重み付け処理等)が施された入力信号と、符号帳(適応音源符号帳306、固定音源符号帳308)及び量子化LPCに基づくフィルタ係数を用いて生成される合成信号との相関を求めることで、入力信号を符号化する。具体的には、パラメータ決定部314は、スパース化聴覚重み付け入力信号SWXとの誤差(符号化歪)が最小になる合成信号HP(すなわち、各種インデックス(符号(A)、(F)、(G)))を探索する。その際の誤差計算は以下のようにして行う。
 通常、この2つの信号(合成信号HPとスパース化聴覚重み付け入力信号SWX)の誤差Dは式(5)のようにして算出される。
Figure JPOXMLDOC01-appb-M000005
 式(5)において、第1項はスパース化聴覚重み付け入力信号SWXのエネルギであり、一定である。このため、式(5)の誤差Dを最小化するためには、第2項を最大にすれば良いということになる。ここで、本発明では、スパース処理部303において、重要度判定部202(図2)から出力される重要度情報I(k=0、・・・、N-1)を用いて、式(5)における第2項の算出の対象とするサンプルを限定し、第2項算出時の処理演算量を削減する。
 具体的には、スパース処理部303は、各サブフレームkに対して、重要度情報Iに応じて設定される所定の数Tだけ、振幅の絶対値が大きい順に(振幅の絶対値の上位から順に)サンプルを選択する。これにより、選択されたサンプルに対してのみ、式(5)に示す第2項が算出される。つまり、加算部313は、各サブフレームにおける入力信号であって、構成する複数のサンプルのうち所定数のサンプルの振幅値がゼロとなった当該入力信号と、合成信号との相関を算出する。
 例えば、重要度情報Iが式(3)に示す値である場合、式(4)に示すように、スパース処理部303は、第1サブフレーム(サブフレームインデックスk=0)に対して、振幅の絶対値が大きい「12」個(T=12)のサンプル(振幅の絶対値の上位12個のサンプル)を選択する。同様に、スパース処理部303は、第2サブフレーム(サブフレームインデックスk=1)に対して、振幅の絶対値が大きい「6個」(T=6)のサンプル(振幅の絶対値の上位6個のサンプル)を選択する。第3、第4サブフレーム(サブフレームインデックスk=2,3)についても同様である。
 このようにして、スパース処理部303は、式(5)に示す第2項を計算する対象となるサンプル数をフレーム内のサブフレーム間で適応的に調整する。このとき、選択されないサンプルは値を零(0)とするので、パラメータ決定部314は、式(5)に示す第2項の乗算処理を省略することができ、その結果、式(5)の処理演算量を大幅に削減することができる。また、1フレーム内のサブフレーム全体で、選択するサンプル数を調整するため、処理演算量を全てのサブフレームにおいて削減することができ、その結果、最悪のケース(ワーストケース)の処理演算量を削減することを保証できる。
 多重化部315は、LPC量子化部305から出力された量子化LPCを表す符号(L)、パラメータ決定部314から出力された適応音源ベクトル符号(A)、固定音源ベクトル符号(F)及び量子化利得符号(G)を多重化して符号化情報として、伝送路102に出力する。
 以上が、図2に示すCELP符号化部203における処理の説明である。
 以上が、図1に示す符号化装置101における処理の説明である。
 次に、図1に示した復号装置103の内部構成について図4を用いて説明する。ここでは、復号装置103がCELPタイプの音声復号を行う場合について説明する。
 分離部401は、伝送路102を介して入力される符号化情報を個々の符号((L)、(A)、(G)、(F))に分離する。分離されたLPC符号(L)はLPC復号部402に出力され、分離された適応音源ベクトル符号(A)は適応音源符号帳403に出力され、分離された量子化利得符号(G)は量子化利得生成部404に出力され、分離された固定音源ベクトル符号(F)は固定音源符号帳405に出力される。
 LPC復号部402は、分離部401から出力された符号(L)から量子化LPCを復号し、復号した量子化LPCを合成フィルタ409に出力する。
 適応音源符号帳403は、分離部401から出力された適応音源ベクトル符号(A)で指定される過去の駆動音源から1フレーム分のサンプルを適応音源ベクトルとして取り出して乗算部406に出力する。
 量子化利得生成部404は、分離部401から出力された量子化利得符号(G)で指定される量子化適応音源利得と量子化固定音源利得とを復号し、量子化適応音源利得を乗算部406に出力し、量子化固定音源利得を乗算部407に出力する。
 固定音源符号帳405は、分離部401から出力された固定音源ベクトル符号(F)で指定される固定音源ベクトルを生成し、乗算部407に出力する。
 乗算部406は、適応音源符号帳403から出力された適応音源ベクトルに量子化利得生成部404から出力された量子化適応音源利得を乗算して、利得乗算後の適応音源ベクトルを加算部408に出力する。また、乗算部407は、固定音源符号帳405から出力された固定音源ベクトルに量子化利得生成部404から出力された量子化固定音源利得を乗算して、利得乗算後の固定音源ベクトルを加算部408に出力する。
 加算部408は、乗算部406から出力された利得乗算後の適応音源ベクトルと、乗算部407から出力された利得乗算後の固定音源ベクトルとを加算して駆動音源を生成し、駆動音源を合成フィルタ409及び適応音源符号帳403に出力する。
 合成フィルタ409は、LPC復号部402によって復号された量子化LPCに基づくフィルタ係数を用いて、加算部408から出力された駆動音源のフィルタ合成を行い、合成した信号を後処理部410に出力する。
 後処理部410は、合成フィルタ409から出力された信号に対して、ホルマント強調及びピッチ強調のような音声の主観的な品質を改善する処理、及び、定常雑音の主観的品質を改善する処理等を施し、処理後の信号を出力信号として出力する。
 以上が、図1に示す復号装置103における処理の説明である。
 このように、本実施の形態によれば、CELPタイプの符号化方法を採る符号化装置は、まず、フレーム全体に対して、サブフレーム毎にサブフレームエネルギを算出する。次に、符号化装置は、算出したサブフレームエネルギに応じて、サブフレーム毎の重要度を設定する。そして、符号化装置は、各サブフレームにおけるピッチ周期探索時には、重要度に応じた所定の数だけ振幅の絶対値が大きいサンプルを選択し、選択したサンプルに対してのみ誤差算出を行い、最適ピッチ周期を算出する。この構成により、1フレーム全体に対する処理演算量を大きく削減することを保証することができる。
 また、符号化装置では、ピッチ周期探索時における相関算出(距離計算)の対象となるサンプル数を全てのサブフレームに対して一律に決定するのではなく、サブフレームの重要度に応じて当該サンプル数を適応的に切り替えることができる。具体的には、サブフレームエネルギが大きく、聴感的に重要なサブフレーム(重要度が高いサブフレーム)に対しては、ピッチ周期探索を精度良く行うことが可能である。一方、サブフレームエネルギが小さく、聴感に与える影響が小さいサブフレーム(重要度が低いサブフレーム)に対しては、ピッチ周期探索の精度を落として、処理演算量を大きく削減することが可能である。これにより、復号信号の品質が大きく劣化することを抑制できる。
 なお、本実施の形態では、重要度判定部202(図2)において、サブフレームエネルギ算出部201で算出されたサブフレームエネルギに基づいて、重要度情報を決定する構成を例に挙げて説明した。しかし、本発明はこれに限らず、サブフレームエネルギ以外の情報に基づいて重要度を決定する構成に対しても同様に適用できる。例えば、サブフレーム毎の信号のばらつきの度合い(例えば、SFM(Spectral Flatness Measure))を算出し、SFM値が大きいほど重要度を高くするという構成が例として挙げられる。もちろん、SFM値以外の情報に基づいて重要度を決定してもよい。
 また、本実施の形態では、スパース処理部303(図3)において、重要度判定部202(図2)で決定された重要度情報に基づいて、相関算出(誤差計算)の対象となる所定のサンプル数を固定的に決定した(例えば、式(4))。しかし、本発明はこれに限らず、式(4)に示した決定方法以外の方法において、相関算出(誤差計算)の対象となるサンプル数を決定する構成についても同様に適用できる。例えば、サブフレームエネルギの大きさが上位のサブフレーム間でサブフレームエネルギが非常に近い数値であった場合には、重要度判定部202では、重要度情報を単に、(1、2、3、4)という整数値で設定するのではなく、(1.0、2.5、2.5、4.0)のように小数値も含めた値も許容して設定してもよい。つまり、サブフレーム間におけるサブフレームエネルギの差に応じて重要度情報をより細かい精度で設定してもよい。また、スパース処理部303において、上記重要度情報に基づいて、(12、8、8、6)のように所定の数(所定サンプル数)を設定する構成が例として挙げられる。このように、複数のサブフレームにおけるサブフレームエネルギの分布に応じて、より柔軟な重み(重要度)を用いて、スパース処理部303が所定サンプル数を決定することにより、上記実施の形態よりも更に効率的に処理演算量を削減することができる。なお、所定サンプル数の決定は、予め所定サンプル数のパターンを複数セット用意することで可能となる。また、重要度情報に基づき、動的に所定サンプル数を決定する構成も可能である。ただし、どちらの構成においても、1フレーム全体において、処理演算量が一定値以上削減できるように、所定サンプル数のパターンを決定すること、或いは、動的に所定サンプル数を決定することが前提である。
 また、本実施の形態では、入力信号(ここでは、スパース化聴覚重み付け入力信号SWX)に対してスパース処理を行う場合について説明した。しかし、本発明では、入力信号に限らず、入力信号との相関計算を行う合成信号(ここでは、合成信号HP)に対してスパース処理を行っても、上記実施の形態と同様の効果が得られる。すなわち、符号化装置では、各サブフレームに設定された重要度に応じて、各サブフレームにおける入力信号及び合成信号の少なくとも一方の信号を構成する複数のサンプルのうち所定数のサンプルの振幅値をゼロとし、入力信号と合成信号との相関を算出すればよい。また、本発明は、各サブフレームにおける入力信号及び合成信号の双方に対して、信号を構成する複数のサンプルのうち所定数のサンプルの振幅値をゼロとし、入力信号と合成信号との相関を算出する構成についても同様に適用できる。
 また、本実施の形態では、スパース化聴覚重み付け入力信号SWXに対してスパース処理を行う場合について説明した。しかし、本発明では、入力信号に対して、前処理部301における前処理、及び聴覚重み付け部302における聴覚重み付け処理を行わない場合にも同様に適用することが出来る。この場合、スパース処理部303では、入力信号Xに対して、スパース化処理を行うものとする。
 また、本実施の形態では、CELP符号化部203において、CELPタイプの符号化方式を採る構成を例に挙げて説明したが、本発明はこれに限らず、CELPタイプ以外の符号化方式に対しても同様に適用できる。例えば、LPC分析を行わずに、過去フレームにおいて符号化した信号を用いて現フレームにおける符号化パラメータを算出する際に、フレーム間の信号の相関演算に本発明を適用する構成等が例として挙げられる。
 <実施の形態2>
 実施の形態1では時間領域での相関分析処理について説明した。これに対して、本実施の形態では、周波数領域の相関分析処理について説明する。
 図5は、本実施の形態の符号化装置501の内部構成を示すブロック図である。
 符号化装置501は、入力端子、ダウンサンプリング部601、低域信号符号化部602、低域信号復号部603、遅延部604、高域信号符号化部605、多重化部606および出力端子から主に構成される。
 入力端子には、ディジタル化された音声信号もしくは音楽信号が入力される。
 ダウンサンプリング部601は、入力端子を介して入力される入力信号にダウンサンプリングを施して、サンプリングレートの低い信号を生成する。ダウンサンプリング部601は、ダウンサンプリング後の信号を、低域信号符号化部602に出力する。
 低域信号符号化部602は、ダウンサンプリング部601から入力されるダウンサンプリング後の信号を符号化する。低域信号符号化部602は、得られた符号化コードを低域信号復号部603および多重化部606(マルチプレクサ)に出力する。
 低域信号復号部603は、低域信号符号化部602から入力される符号化コードを用いて復号低域信号を生成する。低域信号復号部603は、生成した復号低域信号を高域信号符号化部605に出力する。
 遅延部604は、入力端子を介して入力される入力信号に対して、予め定められた所定の長さの遅延を与えて、遅延が与えられた入力信号を高域信号符号化部605に出力する。
 高域信号符号化部605は、低域信号復号部603から入力される復号低域信号を用いて、遅延部604から入力される入力信号の高域部の符号化を行う。高域信号符号化部605は、生成した符号化コードを多重化部606に出力する。
 多重化部606は、低域信号符号化部602から入力される符号化コードと、高域信号符号化部605から入力される符号化コードとを多重化して、符号化情報として出力端子を介し出力する。
 図6は、高域信号符号化部605の内部構成を示すブロック図である。高域信号符号化部605は、入力端子、周波数領域変換部701,702、サブバンドエネルギ算出部703、重要度判定部704、スパース処理部705、相関分析部706、および出力端子から主に構成される。
 周波数領域変換部701と接続された入力端子には、低域信号復号部603(図5)から復号低域信号が入力される。また、周波数領域変換部702と接続された入力端子には、遅延部604から、遅延処理された入力信号が入力される。
 周波数領域変換部701は、入力端子を介して入力される復号低域信号に周波数変換を行い、復号低域スペクトルX1kを算出する。
 周波数領域変換部702は、入力端子を介して入力される入力信号に周波数変換を行い、入力スペクトルX2kを算出する。
 ここで、周波数領域変換部701,702における周波数変換の方法は、離散フーリエ変換(DFT:Discrete Fourier Transform)、離散コサイン変換(DCT:Discrete Cosine Transform)、変形離散コサイン変換(MDCT:Modified Discrete Cosine Transform)等を適用する。以下、スペクトルのことを変換係数と呼ぶ場合もある。つまり、周波数領域変換部702では、入力スペクトルX2kが取得される。なお、入力スペクトル(変換係数)X2kは、周波数帯域が高域部と高域部とに分けることができる。また、周波数領域変換部701では、入力信号のスペクトル(入力スペクトル)の低域部に相当する復号低域スペクトルX1kが取得される。
 サブバンドエネルギ算出部703には周波数領域変換部702から入力スペクトルが入力される。サブバンドエネルギ算出部703は、まず、入力された入力スペクトルの高域部を複数のサブバンドに分割する。以下、例えば、入力スペクトルの高域部X2k(k=0、…、K-1。つまり、K個の変換係数)をN個のサブバンド(サブバンドインデックスm=0~N-1)に分割する構成について説明する。
 サブバンドエネルギ算出部703は、分割したサブバンド毎に、入力スペクトルの高域部X2kのサブバンドエネルギE(m=0、・・・、N-1)を、式(6)に従って算出する。そして、サブバンドエネルギ算出部703は、算出したサブバンドエネルギEを重要度判定部704に出力する。ここで、式(6)におけるstart及びendは、サブバンドインデックスmのサブバンドにおける最低周波数の変換係数インデックス、及び、最高周波数の変換係数インデックスをそれぞれ示す。
Figure JPOXMLDOC01-appb-M000006
 重要度判定部704には、サブバンドエネルギ算出部703から、サブバンドエネルギE(m=0、・・・、N-1)が入力される。重要度判定部704は、サブバンド毎の重要度を設定する。例えば、重要度判定部704は、サブバンドエネルギに基づいて、サブバンド毎の重要度を設定する。具体的には、重要度判定部704は、サブバンドエネルギが大きいサブバンドほど、重要度を高く設定する。以下、各サブバンドに対して設定された重要度を重要度情報と呼ぶ。以下、重要度情報をI(m=0、・・・、N-1)と表し、Iの値が小さいほど重要度が高いものとする。例えば、重要度判定部704は、入力された各サブバンドに対するサブバンドエネルギEを降順にソーティングして、ソーティング後の先頭のサブバンドエネルギに対応するサブバンド(サブバンドエネルギが最も大きいサブバンド)から順に、より高い重要度(つまり、より小さい値の重要度情報I)を設定する。
 例えば、サブバンドエネルギEが式(7)の関係であった場合には、重要度判定部704は、式(8)のように各サブバンドの重要度(重要度情報I)を設定する。
Figure JPOXMLDOC01-appb-M000007
Figure JPOXMLDOC01-appb-M000008
 つまり、重要度判定部704は、サブバンドエネルギEが大きいほど、当該サブバンドの重要度を高く(重要度情報Iを小さく)設定する。ここで、式(8)では、各サブバンドの重要度情報Iは互いに異なる。すなわち、重要度判定部704は、各サブバンドの重要度情報Iに常に差がつくように、重要度を設定する。
 そして、重要度判定部704は、設定した重要度情報I(m=0、・・・、N-1)をスパース処理部705に出力する。なお、式(7)、及び式(8)では、サブバンド数が4である場合を例に挙げて説明したが、本発明はサブバンド数には限定されず、一例として説明したサブバンド数が4である場合以外のサブバンド数についても同様に適用できる。また、式(8)は重要度情報Iの設定の一例を示したに過ぎず、式(8)以外の値を用いた設定に対しても、本発明は同様に適用できる。
 スパース処理部705は、重要度判定部704から入力される重要度情報I(m=0、・・・、N-1)を用いて、周波数領域変換部702から入力される入力スペクトルの高域部X2に対してスパース処理を行う。例えば、スパース処理部705は、各サブバンドmにおける入力スペクトルの高域部X2を構成する複数の変換係数(変換係数インデックスstart~end)のうち、所定数の変換係数の振幅値をゼロにするスパース処理を行う。以下、スパース処理の詳細を説明する。
 スパース処理部705は、入力される重要度情報I(m=0、・・・、N-1)に基づき、入力される入力スペクトルの高域部X2に対して、サブバンド単位でスパース処理を行う。ここでは、スパース処理の一例として、入力スペクトルの高域部X2kに対して、振幅の絶対値の大きい方から所定の数だけ変換係数を選択し、それ以外の変換係数に対しては値を0とする処理について説明する。なお、ここで、上記所定の数は、重要度情報I(m=0、・・・、N-1)に基づいて適応的に決定される。重要度情報I(m=0、・・・、N-1)が式(8)の場合における上記所定の数の設定例を以下の式(9)に示す。ここで、所定の数をT(m=0、・・・、N-1)と表すものとし、式(9)ではサブバンド数Nが4である場合の例を示す。
Figure JPOXMLDOC01-appb-M000009
 式(9)の場合、スパース処理部705は、第1サブバンド(サブバンドインデックスm=0)では、入力スペクトルの高域部X2k(k=start~end)に対して、振幅の絶対値の大きい方から所定の数T=12個の変換係数を選択し、選択された変換係数以外の変換係数の値を0に設定(修正)する。同様に、スパース処理部705は、第2サブバンド(サブバンドインデックスm=1)では、入力スペクトルの高域部X2k(k=start~end)に対して、振幅の絶対値の大きい方から所定の数T=10個の変換係数を選択し、選択された変換係数以外の変換係数の値を0に設定(修正)する。第3、第4サブバンド(サブバンドインデックスm=2,3)についても同様である。
 つまり、スパース処理部705は、重要度情報Iの値が小さいサブバンドほど(重要度が高いサブバンドほど)、所定の数Tが大きくなるように設定する。換言すると、スパース処理部705は、重要度情報Iの値が小さいサブバンドほど(重要度が高いサブバンドほど)、振幅値をゼロとする変換係数の数を少なくする。また、スパース処理部705は、各サブバンドにおいて、入力スペクトルの高域部を構成する複数の変換係数のうち、振幅値がより小さい所定数の変換係数(つまり、(1サブバンド内の変換係数の数-T)個の変換係数)の振幅値をゼロとする(振幅値をゼロに修正する)。
 そして、スパース処理部705は、スパース処理後の入力スペクトルの高域部X2k((スパース化入力スペクトルの高域部SX2k)を相関分析部706に出力する。
 相関分析部706は、周波数領域変換部701から入力される復号低域スペクトルX1k(入力スペクトルの低域部に相当)と、スパース処理部705から入力されるスパース処理後の入力スペクトルの高域部SX2kとの間の相関分析をサブバンド単位で行い、相関値が最大となるときのシフト量dを求める。そして、相関分析部706は、各サブバンドのシフト量dを出力端子を介して多重化部606(図5)に出力する。復号低域スペクトルX1kとスパース処理後の入力スペクトルの高域部SX2kとの相関値は式(10)に従って算出される。
Figure JPOXMLDOC01-appb-M000010
 ここで、dはシフト量を表し、Dminはシフト量の探索範囲の最小値を表し、Dmaxはシフト量の探索範囲の最大値を表し、Cor(d)は第mサブバンドのシフト量dにおける相関値を表す。
 相関分析部706は、式(10)に従って算出される相関値Cor(d)のうち、相関値が最大となるときのシフト量dmaxを求め、求めたシフト量dmaxを第mサブバンドのシフト量として符号化を行い、符号化コードを多重化部606(図5)に出力する。つまり、相関分析部706は、高域部の変換係数(入力スペクトルの高域部)と最も類似する低域部の変換係数(復号低域スペクトル)を示すシフト量dmaxを求めるための相関値を算出する。
 このようにして、本実施の形態では、スパース処理部705において、重要度判定部704から出力される重要度情報I(m=0、・・・、N-1)を用いて、式(10)の算出時の処理演算量を削減する。
 具体的には、スパース処理部705は、各サブバンドmに対して、重要度情報Iに応じて設定される所定の数Tだけ、振幅の絶対値が大きい順に(振幅の絶対値の上位から順に)変換係数を選択する。これにより、選択された変換係数に対してのみ、式(10)に示す処理が行われる。つまり、相関分析部706は、各サブバンドにおける入力スペクトルの高域部であって、構成する複数のサブバンドのうち所定数の変換係数の振幅値がゼロとなった当該入力スペクトルの高域部と、復号低域スペクトルとの相関を算出する。
 例えば、重要度情報Iが式(8)に示す値である場合、式(9)に示すように、スパース処理部705は、第1サブバンド(サブバンドインデックスm=0)に対して、振幅の絶対値が大きい「12」個(T=12)の変換係数(振幅の絶対値の上位12個の変換係数)を選択する。同様に、スパース処理部705は、第2サブバンド(サブバンドインデックスm=1)に対して、振幅の絶対値が大きい「6個」(T=6)の変換係数(振幅の絶対値の上位6個の変換係数)を選択する。第3、第4サブバンド(サブバンドインデックスm=2,3)についても同様である。
 このようにして、スパース処理部705は、式(10)に示す相関値を計算する対象となる変換係数の数をフレーム内のサブバンド間で適応的に調整する。このとき、選択されない変換係数はその値を零(0)とするので、相関分析部706は、式(10)に示す処理の一部を省略することができ、その結果、式(10)の処理演算量を大幅に削減することができる。また、1フレーム内のサブバンド全体で、選択する変換係数の数を調整するため、処理演算量を全てのサブバンドにおいて削減することができ、その結果、最悪のケース(ワーストケース)の処理演算量を大幅に削減することができる。
 以上が、本実施の形態に係る符号化装置501における処理の説明である。
 次に、本実施形態に係る復号装置における処理について説明する。図7は、本実施の形態に係る復号装置801の内部構成を示すブロック図である。
 復号装置801は、入力端子、分離部901、低域信号復号部902、アップサンプリング部903、高域信号復号部904、加算部905および出力端子から主に構成される。
 入力端子には、符号化情報が入力される。分離部901は、入力端子を介して入力される符号化情報を、低域信号復号部902用の符号化コードと高域信号復号部904用の符号化コードとに分離する。
 なお、低域信号復号部902用の符号化コードは、符号化装置501の低域信号符号化部602(図5)にて符号化されたダウンサンプリング後の信号の符号化コードである。また、高域信号復号部904用の符号化コードは、符号化装置501の高域信号符号化部605(図5)にて符号化されたシフト量(高域スペクトルと最も相関値の大きい低域スペクトルの位置を表す情報)の符号化コードである。なお、高域信号符号化部605において、このシフト量はサブバンド毎に求められている。
 低域信号復号部902は、分離部901で得られた符号化コードを用いて、復号低域信号を生成し、生成した復号低域信号をアップサンプリング部903および高域信号復号部904に出力する。
 アップサンプリング部903は、低域信号復号部902から入力される復号低域信号にアップサンプリングを施して(サンプリング周波数を上げて)、サンプリングレートの高い信号を生成する。アップサンプリング部903は、アップサンプリング後の信号を加算部905に出力する。
 高域信号復号部904には、分離部901で分離された符号化コードと、低域信号復号部902で生成された復号低域信号とが入力される。高域信号復号部904は、後述する復号処理を行って復号高域信号を生成し、生成した復号高域信号を加算部905に出力する。
 加算部905は、アップサンプリング部903から入力されるアップサンプリング後の復号低域信号と、高域信号復号部904から入力される復号高域信号とを加算して出力信号を生成し、出力信号を出力端子に出力する。
 図8は、高域信号復号部904の内部構成を示すブロック図である。高域信号復号部904は、入力端子、周波数領域変換部1001、高域スペクトル生成部1002、時間領域変換部1003、および出力端子から主に構成される。
 周波数領域変換部1001と接続された入力端子には、低域信号復号部902(図7)から復号低域信号が入力される。また、高域スペクトル生成部1002と接続された入力端子には、符号化コードが分離部901(図7)から入力される。
 周波数領域変換部1001は、入力端子から入力された復号低域信号に対して周波数変換を施し、復号低域スペクトルX1(k)を算出する。周波数領域変換部1001における周波数変換の方法は、離散フーリエ変換(DFT)、離散コサイン変換(DCT)、変形離散コサイン変換(MDCT)等を使用する。周波数領域変換部1001は、算出した復号低域スペクトルX1(k)を高域スペクトル生成部1002に出力する。
 高域スペクトル生成部1002は、入力端子から入力された符号化コードに基づいて、サブバンド毎のシフト量を参照し、周波数領域変換部1001から入力される復号低域スペクトルの中から、シフト量の示すスペクトルを高域部に複製することで復号高域スペクトルを生成する。この複製処理は、サブバンド毎に行われる。高域スペクトル生成部1002は、生成した復号高域スペクトルを時間領域変換部1003に出力する。
 時間領域変換部1003は、高域スペクトル生成部1002から入力される復号高域スペクトルを時間領域の信号に変換し、出力端子を介し出力する。この際、時間領域変換部1003は、適切な窓掛けおよび重ね合わせ加算等の処理を行い、フレーム間に生じる不連続を回避する。
 以上が、本実施の形態に係る復号装置801における処理の説明である。
 このように、本実施の形態によれば、符号化装置は、まず、周波数帯域が低域部と高域部とに分けられた変換係数(スペクトル)を取得する。次に、符号化装置は、変換係数の低域部および高域部のうち一方の周波数帯域(本実施の形態では高域部)を複数のサブバンドに分割する。次に、符号化装置は、サブバンド毎の重要度を設定する。そして、符号化装置は、設定された重要度に応じて、サブバンドに含まれる変換係数のうち、所定数の変換係数の振幅値をゼロに修正する。そして、符号化装置は、低域部の変換係数と、修正後の高域部の変換係数との相関を算出する。この構成により、周波数帯域全体(複数のサブバンド全体)に対する処理演算量を大きく削減することを保証することができる。
 また、符号化装置では、相関算出(シフト量計算)の対象となる変換係数を全てのサブバンドに対して一律に決定するのではなく、サブバンドの重要度に応じて当該変換係数を適応的に切り替えることができる。具体的には、サブバンドエネルギが大きく、聴感的に重要なサブバンド(重要度が高いサブバンド)に対しては、シフト量探索を精度良く行うことが可能である。一方、サブバンドエネルギが小さく、聴感に与える影響が小さいサブバンド(重要度が低いサブフレーム)に対しては、シフト量探索の精度を落として、処理演算量を大きく削減することが可能である。これにより、復号信号の品質が大きく劣化することを抑制できる。
 <実施の形態3>
 実施の形態2では、入力スペクトルの高域部X2kに対してスパース処理を行う構成について説明した。本実施の形態では、復号低域スペクトルX1k(つまり、入力スペクトルの低域部)に対してスパース処理を行う構成について説明する。
 図9は、本実施の形態に係る高域信号符号化部605aの構成を示す。図9において図6(高域信号符号化部605)と同じ構成要素には同一の符号を付し、その説明を省略する。
 サブバンドエネルギ算出部703aは、まず、周波数領域変換部701から入力された復号低域スペクトルを複数のサブバンドに分割する。以下、例えば、復号低域スペクトルX1k(k=0、…、K-1。つまり、K個の変換係数)をN個のサブバンド(サブバンドインデックスj=0~N-1)に分割する構成について説明する。
 サブバンドエネルギ算出部703aは、分割したサブバンド毎に、復号低域スペクトルX1kのサブバンドエネルギE(j=0、・・・、N-1)を、式(11)に従って算出する。そして、サブバンドエネルギ算出部703aは、算出したサブバンドエネルギEを重要度判定部704aに出力する。ここで、式(11)におけるNは復号低域スペクトルのサブバンド数、START及びENDは、サブバンドインデックスjのサブバンドにおける最低周波数の変換係数インデックス、及び、最高周波数の変換係数インデックスをそれぞれ示す。
Figure JPOXMLDOC01-appb-M000011
 重要度判定部704aには、サブバンドエネルギ算出部703aから、サブバンドエネルギE(j=0、・・・、N-1)が入力される。重要度判定部704aは、実施の形態2(重要度判定部704)と同様、サブバンドエネルギに基づいて、サブバンド毎の重要度情報Iを設定する。
 スパース処理部705aは、実施の形態2(スパース処理部705)と同様、重要度判定部704aから入力される重要度情報I(j=0、・・・、N-1)を用いて、周波数領域変換部701から入力される復号低域スペクトルX1に対してスパース処理を行う。例えば、スパース処理部705aは、各サブバンドjにおける復号低域スペクトルX1を構成する複数の変換係数(変換係数インデックスSTART~END)のうち、所定数の変換係数の振幅値をゼロにするスパース処理を行い、スパース処理後の復号低域スペクトルSX1kを生成する。スパース処理部705aは、スパース処理後の復号低域スペクトルSX1kを相関分析部706aに出力する。
 相関分析部706aは、スパース処理部705aから入力されるスパース処理後の復号低域スペクトルSX1kと、周波数領域変換部702から入力される入力スペクトルの高域部X2kとの間の相関分析を行い、相関値が最大となるときのシフト量dを求める。なお、相関分析部706aは、入力スペクトルの高域部を分割して得られるサブバンド単位で相関分析を行い、入力スペクトルの高域部のサブバンド毎に相関値が最大となるときのシフト量dを求める。う。相関分析部706aは、入力スペクトルの高域部のサブバンド毎のシフト量dを出力端子を介して多重化部606(図5)に出力する。入力スペクトルの高域部X2kとスパース処理後の復号低域スペクトルSX1kとの相関値は式(12)に従って算出される。
Figure JPOXMLDOC01-appb-M000012
 ここで、Nは入力スペクトルの高域部のサブバンド数を表し、start及びendは、サブバンドインデックスm(m=0、・・・、N-1)のサブバンドにおける最低周波数の変換係数インデックス、及び、最高周波数の変換係数インデックスをそれぞれ表し、dはシフト量を表し、Dminはシフト量の探索範囲の最小値を表し、Dmaxはシフト量の探索範囲の最大値を表し、Cor(d)は第mサブバンドのシフト量dにおける相関値を表す。
 このように算出される相関値Cor(d)の内、相関値が最大となるときのシフト量dmaxを求め、求めたシフト量dmaxを第mサブバンドのシフト量として符号化を行い、符号化コードを多重化部606(図5)に出力する。つまり、相関分析部706は、高域部の変換係数(入力スペクトルの高域部)と最も類似する低域部の変換係数(復号帝位息スペクトル)を示すシフト量dmaxを求めるための相関値を算出する。
 このようにして、本実施の形態では、スパース処理部705aにおいて、重要度判定部704aから出力される重要度情報I(j=0、・・・、N-1)を用いて、式(12)の算出時の処理演算量を削減する。
 すなわち、本実施の形態によれば、符号化装置は、まず、周波数帯域が低域部と高域部とに分けられた変換係数(スペクトル)を取得する。次に、符号化装置は、変換係数の低域部および高域部のうち一方の周波数帯域(本実施の形態では低域部)を複数のサブバンドに分割する。次に、符号化装置は、サブバンド毎の重要度を設定する。そして、符号化装置は、設定された重要度に応じて、サブバンドに含まれる変換係数のうち、所定数の変換係数の振幅値をゼロに修正する。そして、符号化装置は、高域部の変換係数と、修正後の低域部の変換係数との相関を算出する。この構成により、周波数帯域全体(複数のサブバンド全体)に対する処理演算量を大きく削減することを保証することができる。
 また、符号化装置では、相関算出(シフト量計算)の対象となる変換係数を全てのサブバンドに対して一律に決定するのではなく、サブバンドの重要度に応じて当該変換係数を適応的に切り替えることができる。具体的には、サブバンドエネルギが大きく、聴感的に重要なサブバンド(重要度が高いサブバンド)に対しては、シフト量探索を精度良く行うことが可能である。一方、サブバンドエネルギが小さく、聴感に与える影響が小さいサブバンド(重要度が低いサブフレーム)に対しては、シフト量探索の精度を落として、処理演算量を大きく削減することが可能である。これにより、復号信号の品質が大きく劣化することを抑制できる。
 なお、上記実施の形態2および実施の形態3では、重要度判定部において、サブバンドエネルギ算出部で算出されたサブバンドエネルギに基づいて、重要度情報を決定する構成を例に挙げて説明した。しかし、本発明はこれに限らず、サブバンドエネルギ以外の情報に基づいて重要度を決定する構成に対しても同様に適用できる。例えば、サブバンド毎の変換係数のばらつきの度合い(例えば、SFM(Spectral Flatness Measure))を算出し、SFM値が大きいほど重要度を高くするという構成が例として挙げられる。もちろん、SFM値以外の情報に基づいて重要度を決定してもよい。
 また、上記実施の形態2および実施の形態3では、スパース処理部において、重要度判定部で決定された重要度情報に基づいて、相関値算出の対象となる所定のサンプル数を固定的に決定した。しかし、本発明はこれに限らず、例えば、サブバンドエネルギの大きさが上位のサブバンド間でサブバンドエネルギが非常に近い数値であった場合には、重要度判定部では、重要度情報を単に、(1、2、3、4)という整数値で設定するのではなく、(1.0、2.5、2.5、4.0)のように小数値も含めた値も許容して設定してもよい。つまり、サブバンド間におけるサブバンドエネルギの差に応じて重要度情報をより細かい精度で設定してもよい。また、スパース処理部において、上記重要度情報に基づいて、(12、8、8、6)のように所定の数(所定の変換係数の数)を設定する構成が例として挙げられる。このように、複数のサブバンドにおけるサブバンドエネルギの分布に応じて、より柔軟な重み(重要度)を用いて、スパース処理部が所定の変換係数の数を決定することにより、上記実施の形態よりも更に効率的に処理演算量を削減することができる。なお、所定の変換係数の数の決定は、予め所定の変換係数の数のパターンを複数セット用意することで可能となる。また、重要度情報に基づき、動的に所定の変換係数の数を決定する構成も可能である。ただし、どちらの構成においても、複数のサブバンド全体において、処理演算量が一定値以上削減できるように、所定の変換係数の数のパターンを決定すること、或いは、動的に所定の変換係数の数を決定することが前提である。
 以上、本発明の各実施の形態について説明した。
 また、本発明に係る符号化装置及び符号化方法は、上記実施の形態に限定されず、種々変更して実施することが可能である。
 また、上記実施の形態における復号装置は、上記実施の形態における符号化装置から伝送された符号化情報を用いて処理を行うとした。しかし、本発明はこれに限定されず、必要なパラメータ及びデータを含む符号化情報であれば、必ずしも上記実施の形態における符号化装置からの符号化情報でなくても処理は可能である。
 また、信号処理プログラムを、メモリ、ディスク、テープ、CD、DVD等の機械読み取り可能な記録媒体に記録、書き込みをし、動作を行う場合についても、本発明は適用することができ、本実施の形態と同様の作用及び効果を得ることができる。
 また、上記実施の形態では、本発明をハードウェアで構成する場合を例にとって説明したが、本発明はハードウェアとの連携においてソフトウェアでも実現することも可能である。
 また、上記実施の形態の説明に用いた各機能ブロックは、典型的には集積回路であるLSIとして実現される。これらは個別に1チップ化されてもよいし、一部又は全てを含むように1チップ化されてもよい。ここでは、LSIとしたが、集積度の違いにより、IC、システムLSI、スーパーLSI、ウルトラLSIと呼称されることもある。
 また、集積回路化の手法はLSIに限るものではなく、専用回路又は汎用プロセッサで実現してもよい。LSI製造後に、プログラムすることが可能なFPGA(Field Programmable Gate Array)、又は、LSI内部の回路セルの接続又は設定を再構成可能なリコンフィギュラブルプロセッサを利用してもよい。
 さらには、半導体技術の進歩又は派生する別技術によりLSIに置き換わる集積回路化の技術が登場すれば、当然、その技術を用いて機能ブロックの集積化を行ってもよい。バイオ技術の適用等が可能性としてありえる。
 2011年10月19日出願の特願2011-229616の日本出願に含まれる明細書、図面および要約書の開示内容は、すべて本願に援用される。
 本発明は、入力信号に対する相関演算を行う際に効率的に演算量を削減することができ、例えば、パケット通信システム、移動通信システムなどに適用できる。
 101,501 符号化装置
 102 伝送路
 103,801 復号装置
 201 サブフレームエネルギ算出部
 202,704,704a 重要度判定部
 203 CELP符号化部
 301 前処理部
 302 聴覚重み付け部
 303,705,705a スパース処理部
 304 LPC分析部
 305 LPC量子化部
 306,403 適応音源符号帳
 307,404 量子化利得生成部
 308,405 固定音源符号帳
 309,310,406,407 乗算部
 311,313,408,905 加算部
 312 聴覚重み付け合成フィルタ
 314 パラメータ決定部
 315,606 多重化部
 401,901 分離部
 402 LPC復号部
 409 合成フィルタ
 410 後処理部
 601 ダウンサンプリング部
 602 低域信号符号化部
 603,902 低域信号復号部
 604 遅延部
 605,605a 高域信号符号化部
 701,702,1001 周波数領域変換部
 703,703a サブバンドエネルギ算出部
 706,706a 相関分析部
 903 アップサンプリング部
 904 高域信号復号部
 1002 高域スペクトル生成部
 1003 時間領域変換部

Claims (10)

  1.  周波数帯域が低域部と高域部とに分けられた変換係数を取得する取得手段と、
     前記変換係数の前記低域部及び前記高域部のうち一方の周波数帯域を複数のサブバンドに分割する分割手段と、
     前記サブバンド毎に重要度を設定する設定手段と、
     前記設定された重要度に応じて、前記各サブバンドに含まれる複数の変換係数のうち、所定数の変換係数の振幅値をゼロとする修正手段と、
     前記一方の周波数帯域の前記修正後の変換係数と、他方の周波数帯域の変換係数との相関を算出する算出手段と、
     を具備する符号化装置。
  2.  前記修正手段は、前記重要度が高いサブバンドほど、振幅値をゼロとする変換係数の数を少なくする、
     請求項1記載の符号化装置。
  3.  前記設定手段は、前記各サブバンドのエネルギに基づいて、前記重要度を設定する、
     請求項1記載の符号化装置。
  4.  前記設定手段は、前記エネルギが大きい前記サブバンドほど、前記重要度を高く設定する、
     請求項3記載の符号化装置。
  5.  前記修正手段は、前記各サブバンドにおいて、前記複数の変換係数のうち、振幅値がより小さい前記所定数の変換係数の振幅値をゼロにする、
     請求項1記載の符号化装置。
  6.  前記算出手段は、前記高域部の変換係数と最も類似する前記低域部の変換係数を示すシフト量を求めるための前記相関を算出する、
     請求項1記載の符号化装置。
  7.  前記設定手段は、前記各サブバンドの前記重要度に常に差がつくように前記重要度を設定する、
     請求項1記載の符号化装置。
  8.  請求項1記載の符号化装置を具備する通信端末装置。
  9.  請求項1記載の符号化装置を具備する基地局装置。
  10.  周波数帯域が低域部と高域部とに分けられた変換係数を取得する取得ステップと、
     前記変換係数の前記低域部及び前記高域部のうち一方の周波数帯域を複数のサブバンドに分割する分割ステップと、
     前記サブバンド毎に重要度を設定する設定ステップと、
     前記設定された重要度に応じて、前記サブバンドに含まれる変換係数の内、所定数の変換係数の振幅値をゼロとする修正ステップと、
     前記一方の周波数帯域の前記修正後の変換係数と、他方の周波数帯域の変換係数との相関を算出する算出ステップと、
     を具備する符号化方法。
PCT/JP2012/006423 2011-10-19 2012-10-05 符号化装置及び符号化方法 WO2013057895A1 (ja)

Priority Applications (2)

Application Number Priority Date Filing Date Title
EP12841610.4A EP2770506A4 (en) 2011-10-19 2012-10-05 CODING DEVICE AND CODING METHOD
US14/348,987 US20140244274A1 (en) 2011-10-19 2012-10-05 Encoding device and encoding method

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
JP2011-229616 2011-10-19
JP2011229616 2011-10-19

Publications (1)

Publication Number Publication Date
WO2013057895A1 true WO2013057895A1 (ja) 2013-04-25

Family

ID=48140564

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/JP2012/006423 WO2013057895A1 (ja) 2011-10-19 2012-10-05 符号化装置及び符号化方法

Country Status (4)

Country Link
US (1) US20140244274A1 (ja)
EP (1) EP2770506A4 (ja)
JP (1) JPWO2013057895A1 (ja)
WO (1) WO2013057895A1 (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11074922B2 (en) 2014-06-24 2021-07-27 Huawei Technologies Co., Ltd. Hybrid encoding method and apparatus for encoding speech or non-speech frames using different coding algorithms

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105976824B (zh) * 2012-12-06 2021-06-08 华为技术有限公司 信号解码的方法和设备
KR20210111603A (ko) * 2020-03-03 2021-09-13 삼성전자주식회사 음질 개선 방법 및 그 장치
CN113409377B (zh) * 2021-06-23 2022-09-27 四川大学 一种基于跳跃连接式生成对抗网络的相位展开方法

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH0561499A (ja) 1990-09-18 1993-03-12 Fujitsu Ltd 音声符号化・復号化方式
JP2007171519A (ja) * 2005-12-21 2007-07-05 Mitsubishi Electric Corp 音声符号化・復号装置
WO2011000408A1 (en) 2009-06-30 2011-01-06 Nokia Corporation Audio coding
WO2012005212A1 (ja) * 2010-07-05 2012-01-12 日本電信電話株式会社 符号化方法、復号方法、符号化装置、復号装置、プログラム、及び記録媒体
WO2012053146A1 (ja) * 2010-10-20 2012-04-26 パナソニック株式会社 符号化装置及び符号化方法

Family Cites Families (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6704705B1 (en) * 1998-09-04 2004-03-09 Nortel Networks Limited Perceptual audio coding
CN102623014A (zh) * 2005-10-14 2012-08-01 松下电器产业株式会社 变换编码装置和变换编码方法
EP1943643B1 (en) * 2005-11-04 2019-10-09 Nokia Technologies Oy Audio compression
EP2374124B1 (fr) * 2008-12-15 2013-05-29 France Telecom Codage perfectionne de signaux audionumériques multicanaux
PL2772913T3 (pl) * 2011-10-28 2018-08-31 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Urządzenie kodujące i sposób kodowania

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH0561499A (ja) 1990-09-18 1993-03-12 Fujitsu Ltd 音声符号化・復号化方式
JP2007171519A (ja) * 2005-12-21 2007-07-05 Mitsubishi Electric Corp 音声符号化・復号装置
WO2011000408A1 (en) 2009-06-30 2011-01-06 Nokia Corporation Audio coding
WO2012005212A1 (ja) * 2010-07-05 2012-01-12 日本電信電話株式会社 符号化方法、復号方法、符号化装置、復号装置、プログラム、及び記録媒体
WO2012053146A1 (ja) * 2010-10-20 2012-04-26 パナソニック株式会社 符号化装置及び符号化方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
See also references of EP2770506A4

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11074922B2 (en) 2014-06-24 2021-07-27 Huawei Technologies Co., Ltd. Hybrid encoding method and apparatus for encoding speech or non-speech frames using different coding algorithms

Also Published As

Publication number Publication date
EP2770506A4 (en) 2015-02-25
JPWO2013057895A1 (ja) 2015-04-02
EP2770506A1 (en) 2014-08-27
US20140244274A1 (en) 2014-08-28

Similar Documents

Publication Publication Date Title
JP5404418B2 (ja) 符号化装置、復号装置および符号化方法
JP5328368B2 (ja) 符号化装置、復号装置、およびこれらの方法
JP5449133B2 (ja) 符号化装置、復号装置およびこれらの方法
JP5339919B2 (ja) 符号化装置、復号装置およびこれらの方法
JP5448850B2 (ja) 符号化装置、復号装置およびこれらの方法
JP5511785B2 (ja) 符号化装置、復号装置およびこれらの方法
JP5058152B2 (ja) 符号化装置および符号化方法
WO2009084221A1 (ja) 符号化装置、復号装置およびこれらの方法
JP5419876B2 (ja) スペクトル平滑化装置、符号化装置、復号装置、通信端末装置、基地局装置及びスペクトル平滑化方法
US8121850B2 (en) Encoding apparatus and encoding method
JP5730303B2 (ja) 復号装置、符号化装置およびこれらの方法
KR20070121254A (ko) 광대역 부호화 및 복호화 방법 및 장치
JP5565914B2 (ja) 符号化装置、復号装置およびこれらの方法
WO2013057895A1 (ja) 符号化装置及び符号化方法
JP6001451B2 (ja) 符号化装置及び符号化方法
JP5774490B2 (ja) 符号化装置、復号装置およびこれらの方法

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 12841610

Country of ref document: EP

Kind code of ref document: A1

ENP Entry into the national phase

Ref document number: 2013539514

Country of ref document: JP

Kind code of ref document: A

WWE Wipo information: entry into national phase

Ref document number: 2012841610

Country of ref document: EP

WWE Wipo information: entry into national phase

Ref document number: 14348987

Country of ref document: US

NENP Non-entry into the national phase

Ref country code: DE