WO2005111568A1 - 符号化装置、復号化装置、およびこれらの方法 - Google Patents

符号化装置、復号化装置、およびこれらの方法 Download PDF

Info

Publication number
WO2005111568A1
WO2005111568A1 PCT/JP2005/008771 JP2005008771W WO2005111568A1 WO 2005111568 A1 WO2005111568 A1 WO 2005111568A1 JP 2005008771 W JP2005008771 W JP 2005008771W WO 2005111568 A1 WO2005111568 A1 WO 2005111568A1
Authority
WO
WIPO (PCT)
Prior art keywords
spectrum
low
decoding
frequency spectrum
amplitude
Prior art date
Application number
PCT/JP2005/008771
Other languages
English (en)
French (fr)
Inventor
Masahiro Oshikiri
Hiroyuki Ehara
Original Assignee
Matsushita Electric Industrial Co., Ltd.
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Matsushita Electric Industrial Co., Ltd. filed Critical Matsushita Electric Industrial Co., Ltd.
Priority to US11/596,085 priority Critical patent/US8417515B2/en
Priority to EP15187955.8A priority patent/EP2991075B1/en
Priority to EP05739225.0A priority patent/EP1744139B1/en
Priority to KR1020067023764A priority patent/KR101143724B1/ko
Priority to KR1020117031030A priority patent/KR101213840B1/ko
Priority to BRPI0510014-3A priority patent/BRPI0510014B1/pt
Priority to EP18154839.7A priority patent/EP3336843B1/en
Priority to JP2006513565A priority patent/JP4810422B2/ja
Publication of WO2005111568A1 publication Critical patent/WO2005111568A1/ja

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/02Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
    • G10L19/0204Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders using subband decomposition
    • G10L19/0208Subband vocoders
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/02Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Processing of the speech or voice signal to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0316Speech enhancement, e.g. noise reduction or echo cancellation by changing the amplitude
    • G10L21/0364Speech enhancement, e.g. noise reduction or echo cancellation by changing the amplitude for improving intelligibility
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/06Determination or coding of the spectral characteristics, e.g. of the short-term prediction coefficients
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Processing of the speech or voice signal to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/038Speech enhancement, e.g. noise reduction or echo cancellation using band spreading techniques
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Processing of the speech or voice signal to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0316Speech enhancement, e.g. noise reduction or echo cancellation by changing the amplitude
    • G10L21/0324Details of processing therefor
    • G10L21/0332Details of processing therefor involving modification of waveforms

Definitions

  • Encoding device decoding device, and methods thereof
  • the present invention relates to an encoding device, a decoding device, and a method for encoding and Z-decoding an audio signal, an audio signal, and the like.
  • Voice coding technology for compressing voice signals at a low bit rate is important for effective use of radio waves and the like in mobile communication. Furthermore, as a recent trend, there is an increasing expectation for improving the quality of call voice, and realization of a call service with a high sense of reality is desired.
  • the sense of presence means the sound environment (for example, BGM) surrounding the speaker, and therefore it is desirable to be able to encode non-voice signals such as audio with high quality.
  • G72o, G729, etc. systems that are coded by the ITU-T (International Telecommunication Union Telecommunication Standardization Sector) for voice coding for coding voice signals. These methods target narrowband signals (300 Hz to 3.4 kHz) and can encode at 8 kbitZs to 32 kbitZs. Although these systems can perform encoding at a low bit rate, the narrowband signal of interest has a narrow frequency band of up to 3.4 kHz, so its quality tends to be muffled and lack realism.
  • ITU-T International Telecommunication Union Telecommunication Standardization Sector
  • ITU-T and 3GPP include standard methods for encoding audio with a signal bandwidth of 0 Hz to 7 kHz (G.722, G.722.1, AMR-WB, etc.) Exists. These systems can encode wideband audio signals at bit rates of 6.6 kbitZs to 64 kbitZs, but require relatively high bit rates to encode wideband audio with high quality. Also, from the viewpoint of sound quality, broadband speech has higher sound quality than narrowband speech, but it cannot be said that it is sufficient for services requiring high presence.
  • the maximum frequency of the signal is up to about 10 to 15 kHz, a sense of realism equivalent to FM radio can be obtained, and if it is up to about 20 kHz, a quality comparable to a CD can be obtained.
  • Signals having such a band are standardized by MPEG (Moving Picture Expert Group).
  • Audio coding such as the Layer 3 method or the AAC method is suitable.
  • these audio coding methods are applied as a coding method for voice communication, it is necessary to set a high bit rate in order to code the sound with good quality.
  • there are problems such as an increase in encoding delay.
  • Patent Document 1 Japanese Patent Application Publication No. 2001-521648
  • Patent Document 2 JP-A-9-153811
  • Patent Document 3 JP-A-9-90992
  • the low-frequency spectrum at a frequency of 0 to 8000 Hz has a strong peak (there are many sharp peaks), and the dynamic range of the spectrum in this band is large.
  • the dynamic range of the high-frequency spectrum at frequencies 8000 to 15000 Hz decreases.
  • the conventional method of replicating a low-frequency spectrum into a high-frequency spectrum vector for a signal having such spectral characteristics even if the gain of the high-frequency spectrum is adjusted, as shown below, Shows an unnecessary peak shape.
  • Fig. 2 shows the low-frequency spectrum (1000 to 7000Hz) of the spectrum shown in Fig. 1 replicated and energy-adjusted to obtain the high-frequency spectrum (10000 to 16000Hz). It is a figure which shows a spectrum.
  • an object of the present invention is to provide a technique for substituting (replacing) a spectrum in a certain band with a spectrum in another band, appropriately adjusting the dynamic range of the spectrum to be inserted, and decoding the decoded signal. It is an object of the present invention to provide an encoding device, a decoding device, and a method thereof, which can improve the subjective quality of an image.
  • the encoding device of the present invention includes encoding means for encoding a high-frequency spectrum portion of an input signal, and a first low-frequency signal obtained by decoding a signal obtained by encoding a low-frequency spectrum portion of the input signal.
  • Limiting means for generating a second low-frequency spectrum in which the amplitude of the statue is uniformly limited, wherein the encoding means includes a high-frequency spectrum section based on the second low-frequency spectrum.
  • a configuration for performing encoding is employed.
  • the decoding device of the present invention provides a low-frequency band included in a code generated by the encoding device.
  • Converting means for generating a first low-frequency spectrum obtained by converting a signal obtained by decoding the code of the tuttle into a frequency-domain signal; and a high-frequency spectrum included in the code generated by the encoding device.
  • Decoding means for decoding the code of the tuttle section; and a second low-frequency signal for uniformly limiting the amplitude of the first low-frequency spectrum according to spectrum deformation information included in the code generated by the coding apparatus.
  • limiting means for generating a band spectrum, wherein the decoding unit decodes the code of the high band spectrum part based on the second low band spectrum.
  • the decoding device of the present invention provides a first decoding device that converts a signal obtained by decoding a code in a low-band statue portion included in a code generated by an encoding device into a signal in a frequency domain. Converting means for generating a band spectrum, decoding means for decoding a code of a high band stalk part included in the code generated by the coding apparatus, and amplitude of the first low band spectrum.
  • limiting means for generating a second low-frequency spectrum in which is limited uniformly, wherein the limiting means estimates information on a limiting method based on the first low-frequency spectrum, The second low-band spectrum is generated using the estimated information, and the decoding means adopts a configuration for decoding the code of the high-band spectrum section based on the second low-band spectrum.
  • the dynamic range of the spectrum to be inserted can be appropriately adjusted, and the subjective quality of the decoded signal is improved. Can be done.
  • FIG. 1 is a diagram showing an example of the spectrum of an audio signal
  • FIG. 3 is a block diagram showing a main configuration of a coding apparatus according to Embodiment 1.
  • FIG. 4 is a block diagram showing a main configuration inside a spectrum encoding unit according to Embodiment 1.
  • FIG. 5 is a block diagram showing a main configuration inside a spectrum transformation unit according to Embodiment 1.
  • FIG. 6 is a block diagram showing a main configuration inside a deformed portion according to Embodiment 1.
  • FIG. 7 is a diagram showing an example of a deformation spectrum obtained by the deformation unit according to the first embodiment.
  • FIG. 8 is a block diagram showing a configuration of another variation of the deformed portion according to Embodiment 1.
  • FIG. 9 is a block diagram showing a main configuration of a hierarchical decoding apparatus according to Embodiment 1.
  • FIG. 10 is a block diagram showing main components inside a spectrum decoding unit according to Embodiment 1.
  • FIG. 11 is a block diagram for explaining a spectrum encoding unit according to Embodiment 2.
  • FIG. 12 is a block diagram showing another configuration of the spectrum coding unit according to the second embodiment.
  • FIG. 13 is a block diagram showing a main configuration of a spectrum decoding unit according to Embodiment 2.
  • FIG. 14 is a block diagram showing a main configuration of a spectrum encoding unit according to Embodiment 3.
  • FIG. 15 is a view for explaining a deformation information estimating unit according to Embodiment 3.
  • FIG. 16 is a block diagram showing a main configuration of a deformed portion according to Embodiment 3.
  • FIG. 17 is a block diagram showing a main configuration of a spectrum decoding unit according to Embodiment 3.
  • FIG. 18 is a block diagram showing a main configuration of a hierarchical coding apparatus according to Embodiment 4.
  • FIG. 19 is a block diagram showing a main configuration of a spectrum encoding unit according to Embodiment 4.
  • FIG. 20 is a block diagram showing a main configuration of a hierarchical decoding device according to Embodiment 4.
  • FIG. 21 is a block diagram showing a main configuration of a spectrum decoding unit according to Embodiment 4.
  • FIG. 22 is a diagram showing a main configuration of a spectrum encoding unit according to Embodiment 5.
  • FIG. 23 is a block diagram showing a main configuration of a deformation information estimating unit according to Embodiment 5.
  • FIG. 24 is a diagram showing a main configuration of a spectrum decoding unit according to Embodiment 5.
  • FIG. 25 is a view for explaining a spectrum deformation method according to Embodiment 6.
  • FIG. 26 is a block diagram showing a main configuration inside a spectrum transforming unit according to Embodiment 6.
  • FIG. 27 is a diagram for explaining a method of generating a deformation spectrum
  • FIG. 28 is a diagram for explaining a method of generating a deformation spectrum
  • FIG. 29 is a block diagram showing a main configuration inside a spectrum transforming unit according to a sixth embodiment.
  • FIG. 3 is a block diagram showing a main configuration of hierarchical coding apparatus 100 according to Embodiment 1 of the present invention.
  • the encoding information has a hierarchical structure of a plurality of layers.
  • hierarchical coding scalable coding
  • Each section of the hierarchical coding device 100 performs the following operation in response to a signal input.
  • the downsampling section 101 generates a signal having a low input signal power and a low sampling rate, and supplies the signal to the first layer encoding section 102.
  • First layer encoding section 102 encodes the signal output from downsampling section 101.
  • the coded code obtained by first layer coding section 102 is provided to multiplexing section 103 and to first layer decoding section 104.
  • First layer decoding section 104 generates first layer decoded signal S 1 from the encoded code output from first layer coding section 102.
  • delay section 105 gives a delay of a predetermined length to the input signal. This delay is for correcting a time delay generated in the down-sampling unit 101, the first layer encoding unit 102, and the first layer decoding unit 104.
  • the spectrum encoding unit 106 uses the first layer decoded signal S1 generated by the first layer decoding unit 104, and outputs a predetermined time-delayed input signal S2 output from the delay unit 105. Then, the generated encoded code is output to the multiplexing unit 103.
  • Multiplexing section 103 multiplexes the encoded code obtained by first layer encoding section 102 and the encoded code obtained by spectrum encoding section 106, and outputs this. The code is output to the outside of the encoding device 100.
  • FIG. 4 is a block diagram showing a main configuration inside spectrum encoding unit 106 described above.
  • the spectrum encoding unit 106 mainly includes a frequency domain transforming unit 111, a spectrum transforming unit 112, a frequency domain transforming unit 113, an extended band spectrum encoding unit 114, and a multiplexing unit 115. .
  • First signal SI having an effective signal band of 0 ⁇ k and FL is input to spectrum coding section 106 from first layer decoding section 104,
  • the second signal S2 having an effective signal band of 0 ⁇ k ⁇ FH (where FL is less than FH) is input from the delay unit 105.
  • the spectrum coding unit 106 estimates the spectrum of the band FL ⁇ k ⁇ FH of the second signal S2 using the spectrum of the band 0 ⁇ k ⁇ FL of the first signal S1, and Is encoded and output.
  • Frequency domain transform section 111 performs frequency transform on input first signal S1, and calculates first spectrum Sl (k), which is a low-frequency spectrum.
  • the frequency domain transforming unit 113 performs frequency transform on the input second signal S2, and calculates a wide band second spectrum S2 (k).
  • the method of frequency transformation applies discrete Fourier transform (DFT), discrete cosine transform (DCT), modified discrete cosine transform (MDCT), and so on.
  • DFT discrete Fourier transform
  • DCT discrete cosine transform
  • MDCT modified discrete cosine transform
  • Sl (k) is a spectrum of a subband of frequency k of the first spectrum
  • S2 (k) is a spectrum of a subband of frequency k of the second spectrum.
  • the spectrum deforming unit 112 changes the dynamic range of the first spectrum by variously deforming the first spectrum Sl (k), and examines how to transform the first spectrum into an appropriate dynamic range. Then, information on the deformation (deformation information) is encoded and provided to multiplexing section 115. The details of this spectrum deformation processing will be described later. Also, vector transforming section 112 outputs first spectrum Sl (k) having an appropriate dynamic range to extended band spectrum coding section 114.
  • Extended band spectrum coding section 114 uses second spectrum S2 (k) as a reference signal to increase the spectrum (extended frequency) to be included in the high band (FL ⁇ k ⁇ FH) of first vector Sl (k).
  • a band spectrum is estimated, and information (estimated information) on the estimated spectrum is encoded and given to the multiplexing section 115.
  • the extension band spectrum is estimated based on the deformed first spectrum Sl ′ (k).
  • the multiplexing unit 115 includes a coding code of the transformation information output from the spectrum transformation unit 112, a coding code of estimation information regarding the extension band spectrum outputted from the extension band spectrum coding unit 114, Are multiplexed and output.
  • FIG. 5 is a block diagram showing a main configuration inside spectrum deforming section 112 described above.
  • the spectrum deforming unit 112 performs a deformation such that the dynamic range of the first spectrum Sl (k) is closest to the dynamic range of the high-band spectrum (FL ⁇ k ⁇ FH) of the second spectrum S2 (k). Add to spectrum Sl (k). Then, the transformation information at this time is encoded and output.
  • the buffer 121 temporarily stores the input first spectrum Sl (k), and gives the first spectrum Sl (k) to the deformation unit 122 as needed.
  • the deforming unit 122 deforms the first spectrum Sl (k) in various ways according to the following procedure.
  • One spectrum SI ′ (j, k) is generated and supplied to the sub-band energy calculating unit 123.
  • j is an index for identifying each transformation process.
  • the sub-band energy calculation unit 123 divides the frequency band of the modified first spectrum S '(j, k) into a plurality of sub-bands, and obtains a predetermined range of sub-band energies (sub-band energy). For example, when the range for obtaining the subband energy is defined as FlL ⁇ k ⁇ FlH, the subband width BWS when this bandwidth is divided into N is expressed as the following (Equation 1).
  • the minimum frequency FlL (n) and the maximum frequency FlH (n) of the n-th subband are expressed as (Equation 2) and (Equation 3), respectively.
  • n takes a value from 0 to N-1.
  • the sub-band energy Pl (j, n) is calculated as in the following (Equation 4).
  • the sub-band energy P l (j, ⁇ ) obtained in this way is given to the variance calculating section 124.
  • the variance calculation unit 124 calculates the variance ⁇ 1) according to the following (Equation 6) in order to represent the degree of variation in the subband energy Pl (j, n).
  • the variance ⁇ 13 ⁇ 4) representing the degree of variation of the subband energy in the deformation information j calculated in this way is provided to the search unit 125.
  • Subband energy calculating section 126 and variance calculating section 127 perform processing on input second spectrum S2 (k) in the same manner as the series of processing performed in subband energy calculating section 123 and variance calculating section 124 described above. Te, the degree of variation of subband energy calculating a variance sigma 2 2 to Table. However, the processing of the subband energy calculation unit 126 and the variance calculation unit 127 differs from the above in the following points. That is, the predetermined range for calculating the sub-band energy of the second spectrum S2 (k) is defined as F2L ⁇ k ⁇ F2H.
  • F2L that satisfies the condition of FL ⁇ F2L and F2H is set.
  • the number of subbands for the second spectrum does not need to match the number N of subbands for the first spectrum.
  • the number of sub-bands of the second spectrum is set such that the sub-band width of the first spectrum and the sub-band width of the second spectrum substantially match.
  • search unit 125 the variance ⁇ l 2 (j) and subband of variance sigma 2 2 and most approaches when first Supegairu subband of the second spectrum of the first spectral subband
  • the variance ⁇ l 2 (j) is determined by searching. Specifically, the search unit 125 calculates the variance ⁇ l 2 (j) of the sub-band of the first spectrum for all the deformation candidates 0 ⁇ j ⁇ J, and calculates the calculated value and the sub-band of the second spectrum. comparing the variance sigma 2 2, the value of j at which two approaches most (optimum modification information jopt) decide, and outputs the Jopt outside and deformed portion 128 of the spectrum modifying section 112.
  • the deforming unit 128 generates a deformed first spectrum S ′ (jopt, k) corresponding to the optimum deformation information jopt, and outputs it to the outside of the spectrum deforming unit 112. Note that the optimal deformation information jopt is multiplexed.
  • the modified first spectrum S l ′ (jopt, k) is sent to the converting section 115 and to the extended band spectrum coding section 114.
  • FIG. 6 is a block diagram showing a main configuration inside deforming section 122 described above.
  • the configuration inside the deforming section 128 is basically the same as that of the deforming section 122.
  • the positive / negative sign extracting section 131 obtains sign information sign (k) of each subband of the first spectrum, and outputs it to the positive / negative sign giving section 134.
  • the absolute value calculation unit 132 calculates the absolute value of the amplitude for each subband of the first spectrum, and supplies this value to the exponent value calculation unit 133.
  • the exponent value calculating unit 133 uses the exponential variable output from the exponential variable table 135 to output the exponent value of the scale (absolute value) output from the absolute value calculating unit 132, that is, each sub-band. Is calculated by raising the absolute value of the amplitude to the power of ex (j).
  • the positive sign Z negative sign providing unit 134 adds a positive sign to the exponent value output from the exponent value calculating unit 133.
  • the sign information sign (k) previously obtained by the Z-sign extraction unit 131 is added and output as a modified first vector S l ′ (j, k).
  • FIG. 7 is a diagram showing an example of a deformation spectrum obtained by the above-described deformation section 122 (or deformation section 128).
  • the first spectrum obtained from the first signal (0 ⁇ k ⁇ FL) When estimating the high-frequency part (FL ⁇ k ⁇ FH) of the second spectrum obtained from two signals (0 ⁇ k ⁇ FH), and encoding the estimated information, the first spectrum is not used as it is. Next, the above estimation is performed after the deformation of the first spectrum. At this time, information indicating how the force is deformed (deformation information) is also encoded and transmitted to the decoding side.
  • the first spectrum is divided into sub-bands, and the average of the absolute amplitudes of the spectra included in each sub-band (sub-band average amplitude) is calculated as the sub-band.
  • the first spectrum is calculated so that the variance obtained by statistically processing these subband average amplitudes is closest to the variance of the subband average amplitude similarly obtained from the spectrum in the high band of the second spectrum. Deform. That is, the first spectrum is deformed so that the average amplitude of the absolute amplitude of the first spectrum and the average amplitude of the absolute amplitude of the high-frequency spectrum of the second spectrum have the same value.
  • the transformation information indicating the concrete transformation method is encoded. Note that, instead of the sub-band average amplitude, the energy of the spectrum included in each sub-band may be used.
  • the dynamic range of the estimated spectrum can be appropriately adjusted, and decoding can be performed.
  • the subjective quality of the signal can be improved.
  • the first spectrum as a whole is raised to the power of ⁇ (0 ⁇ ⁇ ⁇ 1), thereby uniformly limiting the amplitude of the spectrum.
  • a sharp (steep) peak can be blunted.
  • the spectrum may be discontinuous and abnormal noise may occur.
  • FIG. 8 is a block diagram showing a configuration of another modification (deformation unit 122a) of the modification unit. Note that the same components as those of the deforming unit 122 (or the deforming unit 128) are denoted by the same reference numerals, and description thereof will be omitted.
  • the absolute value calculating section 132 calculates the absolute value of each spectrum of the input first spectrum Sl (k), and outputs the calculated absolute value to the average value calculating section 142 and the modified spectrum calculating section 143.
  • the average value calculation unit 142 calculates the average value Slmean of the absolute value of the spectrum according to the following (Equation 9).
  • the deformed spectrum calculating section 143 uses the absolute value of the first spectrum output from the absolute value calculating section 132 and the multiplier g (j) output from the multiplier table 144 to generate the deformed spectrum S1 ′ (k ) Is calculated according to the following (Equation 10), and is output to the positive / negative sign giving unit 134.
  • the positive / negative sign adding section 134 obtains the absolute value of the deformed statistic S 1 ′ (k) output from the deformation spectrum calculating section 143 and obtains the absolute value by the positive / negative sign extracting section 131.
  • the code information sign (k) is added to generate and output a final deformed spectrum S l '(k) represented by the following (Equation 11).
  • the deforming unit includes a positive / negative sign extracting unit, an absolute value calculating unit, and a positive / negative sign assigning unit. These configurations are not required if they are always positive.
  • the configuration of the hierarchical decoding device 150 capable of decoding the encoded code generated by the hierarchical encoding device 100 will be described in detail below.
  • FIG. 9 is a block diagram showing a main configuration of hierarchical decoding apparatus 150 according to the present embodiment.
  • Separating section 151 performs a separating process on the input encoded code, and encodes code S51 for first layer decoding section 152 and encoded code S51 for spectrum decoding section 153. And 52 are generated.
  • First layer decoding section 152 decodes the decoded signal of signal band 0 ⁇ k ⁇ FL using the encoded code obtained in separation section 151, and provides this decoded signal S53 to spectrum decoding section 153. .
  • the output of the first layer decoding unit 152 is also connected to the output terminal of the decoding device 150. Thereby, when it becomes necessary to output the first layer decoded signal generated by first layer decoding section 152, it can be output via this output terminal.
  • the spectrum decoding unit 153 is supplied with the encoded code S52 separated by the separation unit 151 and the first layer decoded signal S53 output from the first layer decoding unit 152.
  • the spectrum decoding unit 153 performs spectrum decoding described below, generates a wideband decoded signal having a signal band 0 ⁇ k ⁇ FH, and outputs the signal.
  • the spectrum decoding unit 153 performs processing by regarding the first layer decoded signal S53 given from the first layer decoding unit 152 as a first signal.
  • FIG. 10 is a block diagram showing a main configuration inside spectrum decoding section 153 described above.
  • the spectrum decoding unit 153 includes a code decoding code S52 and a first layer decoded signal S5.
  • Separating section 161 separates the transformed information generated by spectrum transforming section 112 on the encoding side and the extended band spectrum encoded information from input encoded code S52, and performs The information is transmitted to the transformation unit 162, and the extended band spectrum coding
  • Frequency domain transform section 164 performs frequency transform on first layer decoded signal S53, which is an input time domain signal, to calculate first spectrum Sl (k).
  • This frequency transformation method uses discrete Fourier transform (DFT), discrete cosine transform (DCT), modified discrete cosine transform (MDCT), and so on.
  • deforming section 162 Based on the deformation information provided from separating section 161, deforming section 162 maps the transformed first spectrum S1 (k) provided from frequency domain transforming section 164 to the transformed first spectrum Sl '. Generate (k). Note that the internal configuration of the deforming section 162 is the same as that of the deforming section 122 (see FIG. 6) on the reference character described above, and a description thereof will be omitted.
  • Extended band spectrum generating section 163 estimates second spectrum to be included in extended band FL ⁇ k ⁇ FH of first vector Sl (k) using first spectrum Sl '(k) after deformation. A value S2 "(k) is generated, and the estimated value S2" (k) of the second spectrum is provided to the spectrum forming unit 165.
  • Spectrum forming section 165 combines first spectrum Sl (k) provided from frequency domain transform section 164 and estimated value S2 "(k) of the second spectrum provided from extended band spectrum generating section 163. , And generates a decoded spectrum S3 (k), which is represented by the following (Equation 12).
  • This decoded spectrum S3 (k) is provided to time domain transform section 166.
  • the time domain transform unit 166 converts the decoded spectrum S3 (k) into a signal in the time domain, and performs processing such as appropriate windowing and superposition addition as necessary to avoid discontinuity occurring between frames. , And outputs the final decoded signal.
  • a signal encoded by the encoding apparatus according to the present embodiment is decoded. be able to.
  • the second spectrum is estimated using a pitch filter having the first spectrum as an internal state, and the characteristics of this pitch filter are encoded.
  • Internal state setting section 203 sets internal state S (k) of the filter used in filtering section 204 using the modified first spectrum S l '(k) generated by spectrum modifying section 112. .
  • Filtering section 204 performs filtering based on the internal state S (k) of the filter set in internal state setting section 203 and lag coefficient T given from lag coefficient setting section 206, and performs second spectrum
  • This embodiment calculates the estimated value S2 "(k).
  • a filter represented by the following (Equation 13) will be described.
  • T represents a coefficient given from the lag coefficient setting unit 206.
  • M l.
  • an estimated value is calculated by multiplying a spectrum ⁇ lower by the frequency T and multiplying by a coefficient ⁇ corresponding to the center in order from a lower frequency to obtain an estimated value. .
  • the search section 205 calculates the similarity between the second spectrum S2 (k) provided from the frequency domain transform section 113 and the estimated value S2 "(k) of the second spectrum provided from the filtering section 204. You.
  • filter coefficients ⁇ and ⁇ are assumed to be 0, and the following (Equation 15) defined based on least square error The similarity calculated accordingly is used.
  • 8 is determined after calculating the optimal lag coefficient ⁇ .
  • represents the square error between S2 (k) and S2 "(k). Since the first term on the right side of the above (Equation 15) is a fixed value regardless of the lag coefficient T, ( The lag coefficient T that generates S 2 ′′ (k) that maximizes the second term on the right side of Equation 15) is searched. In the present embodiment, the second term on the right side of (Equation 15) is referred to as similarity.
  • Lag coefficient setting section 206 sequentially outputs lag coefficient T included in predetermined search range TMIN to TMAX to filtering section 204. Therefore, every time the lag coefficient T is provided from the lag coefficient setting section 206, the filtering section 204 performs filtering after zero-clearing S (k) in the range of FL ⁇ k ⁇ FH, and the search section 205 performs the filtering. Similarity is calculated each time.
  • the search unit 205 also determines the coefficient Tmax when the calculated similarity becomes maximum between TMIN and TMAX, and determines the coefficient Tmax as the filter coefficient calculation unit 207, the spectrum rough coding unit 208, and the multiplexing unit. Give to 115.
  • Filter coefficient calculation section 207 obtains filter coefficient ⁇ using coefficient Tmax provided from search section 205.
  • the filter coefficient j8 is determined so as to minimize the square distortion E according to the following (Equation 16).
  • the filter coefficient calculation unit 207 has a plurality of combinations of j8 i as a table in advance, determines a combination of
  • Spectrum outline coding unit 208 includes internal state S (k) provided from internal state setting unit 203, lag coefficient Tmax provided from search unit 205, and filter provided from filter coefficient calculation unit 207. Filtering is performed using the coefficient j8 to obtain an estimated value S2 "(k) of the second studio in the band FL ⁇ k ⁇ FH. Using the estimated value S2 "(k) and the second spectrum S2 (k), the adjustment coefficient of the spectral outline is encoded.
  • this spectral outline information is represented by a spectral parameter for each subband.
  • the spectral parameter of the j-th subband is represented by the following (Equation 17).
  • ⁇ j) S2 (k) 2 (Equation i 7)
  • BL (j) represents the minimum frequency of the j-th subband
  • BH (j) represents the maximum frequency of the j-th subband.
  • the spectrum parameter of the sub-band of the second spectrum obtained in this way is regarded as the spectrum outline information of the second spectrum.
  • spectrum shape coding section 208 calculates the subband spectrum parameter B "G) of the estimated value S2" (k) of the second spectrum according to the following (Equation 18), The variation V (j) for each is calculated according to the following (Equation 19).
  • spectral outline coding section 208 codes the variation V (j) and sends the code to multiplexing section 115.
  • Multiplexing section 115 includes deformation information obtained from spectrum deforming section 112, information on optimum lag coefficient Tmax obtained from searching section 205, information on filter coefficients obtained from filter coefficient calculating section 207, and spectrum It multiplexes the information of the spectral shape adjustment coefficient obtained from shape coding section 208 and outputs the result.
  • the second spectrum is estimated using the pitch filter having the first spectrum as an internal state, it is sufficient to code only the characteristics of this pitch filter. A low bit rate is possible.
  • the pitch filter uses the filter function (transfer function) of the above (Equation 13) as an example, but the pitch filter is a primary-order pitch filter. May be.
  • FIG. 12 is a block diagram showing the configuration of another variation (story code shading section 201a) of spectrum coding section 201 according to the present embodiment. Note that the same components as those of the spectrum coding unit 201 are denoted by the same reference numerals, and description thereof will be omitted.
  • the estimated value S2 "(k) of the second spectrum generated by this filter uses the following (Equation 21). Thus, it can be obtained by sequentially copying the low-band spectrum of the internal state S (k) separated by T.
  • search section 205 searches for and determines lag coefficient T that minimizes the above (Equation 15) for optimum coefficient Tmax, as described above.
  • the coefficient Tmax thus obtained is provided to the multiplexing unit 115.
  • the configuration of the filter used in filtering section 204 is simplified, so that filter coefficient calculation section 207 becomes unnecessary, and the second spectrum can be estimated with a small amount of calculation. That is, according to this configuration, the configuration of the encoding device is simplified, and the amount of calculation in the encoding process can be reduced.
  • FIG. 13 is a block diagram showing a main configuration of spectrum decoding section 251 according to the present embodiment.
  • the spectrum decoding unit 251 has the same basic configuration as the spectrum decoding unit 153 shown in Embodiment 1 (see FIG. 10), and the same constituent elements have the same codes as in the first embodiment. And a description thereof will be omitted. The difference is that the extended band spectrum generator 16
  • Internal state setting section 252 sets the internal state S (k) of the filter used in filtering section 253 using the deformed first spectrum S l '(k) output from deformation section 162.
  • Filtering section 253 obtains information on the filter via separation section 161 from the encoded code generated in spectrum encoding section 201 (201a) on the encoding side. Specifically, in the case of spectrum coding section 201, lag coefficient Tmax and filter coefficient
  • filtering is also performed on the decoding side according to the above (Equation 13), and in the case of spectrum coding section 20 la, On the decoding side, filtering is performed according to the above (Equation 20).
  • Spectrum outline decoding section 254 decodes the spectrum outline information based on the spectrum outline information provided from separation section 161.
  • a case will be described as an example where a quantized value Vq (j) of a variation amount for each subband is used.
  • the spectrum adjustment unit 255 adds the quantized value Vq (j) of the variation for each subband obtained from the vector outline decoding unit 254 to the spectrum S "(k) obtained from the filtering unit 253. By multiplying according to the following (Equation 22), the spectrum shape of the frequency band FL ⁇ k ⁇ FH of the spectrum S "(k) is adjusted, and the estimated value S2" (k) of the second spectrum is generated.
  • S “2 (k) S" (k)-V q (j) (BL (j) ⁇ k ⁇ BH (j) or all j) ⁇ (Equation 2 2)
  • BL (j) and BH (j) represents the minimum frequency and the maximum frequency of the j-th subband, respectively.
  • the estimated value S 2 ′′ (k) of the second spectrum calculated according to the above (Equation 22) is provided to the static configuration unit 165.
  • spectrum forming section 165 combines decoded spectrum S3 (k) by combining first spectrum Sl (k) and estimated value S2 "(k) of second spectrum. Generated and provided to the time domain conversion unit 166.
  • the signal encoded by the coding device according to the present embodiment is decoded. be able to.
  • FIG. 14 is a block diagram showing a main configuration of a spectrum encoding unit according to Embodiment 3 of the present invention.
  • blocks with the same names and the same reference numerals as those in FIG. 4 have the same functions, and a description thereof will be omitted.
  • the dynamic range of the spectrum is adjusted based on information common to the encoding side and the decoding side. Thus, it is not necessary to output a code representing a dynamic range adjustment coefficient for adjusting the dynamic range of the saule. It is not necessary to output an encoded code representing the dynamic range adjustment coefficient, so that the bit rate can be reduced.
  • the spectrum transforming unit 112 changes the dynamic range of the first spectrum by variously transforming the first spectrum Sl (k), and examines a transformation method (deformation information) that provides an appropriate dynamic range.
  • the transformation information is encoded and output.
  • the transformation information is estimated based on information common to the encoding side and the decoding side, and the first spectrum Sl (k) is transformed according to the estimated transformation information.
  • Embodiment 3 instead of spectrum deforming section 112, dynamic range calculating section 302, deformation information estimating section 303, and deforming section 304 that deforms the first spectrum based on the estimated deformation information are provided. Having. Since the deformation information is obtained by estimation in each of the spectrum coding unit and the spectrum decoding unit described below, it is not necessary to output the deformation information from the spectrum coding unit 301 as an encoded code.
  • the multiplexing unit 115 is not required because the multiplexing unit 115 is arranged in the spectrum coding unit 106 of FIG.
  • First spectrum Sl (k) is output from frequency domain transform section 111 and provided to dynamic range calculating section 302 and deforming section 304.
  • the dynamic range calculation unit 302 quantifies the dynamic range of the first spectrum Sl (k), and outputs the result as dynamic range information.
  • the frequency band of the first spectrum is divided into a plurality of subbands, and the energy (subband energy) of a predetermined range of subbands is divided. ) Is calculated, the variance of the sub-band energy is calculated, and this variance is output as dynamic range information.
  • the dynamic range information from the dynamic range calculating unit 302 is input to the deformation information estimating unit 303 and is provided to the switching unit 305.
  • the switching unit 305 selects and outputs one piece of estimated deformation information from the estimated deformation information candidates recorded in the deformation information table 306 based on the dynamic range information.
  • a plurality of candidates for estimated deformation information having a value between 0 and 1 are recorded in the deformation information table 306, and the candidates are determined in advance by learning so as to correspond to the dynamic range information.
  • FIG. 16 is a block diagram showing a main configuration of deforming section 304. Blocks having the same names and the same reference numerals as those in FIG.
  • the exponent value calculation unit 307 in the deformation unit 304 in FIG. 16 calculates the absolute amplitude of the spectrum output from the absolute value calculation unit 132 according to the estimated deformation information (takes a value between 0 and 1) given by the deformation information estimation unit 303.
  • the exponent value that is, a value raised to the power of the estimated deformation information is output to the positive / negative sign giving unit 134.
  • the positive / negative sign adding section 134 adds the sign information previously obtained by the positive / negative sign extracting section 131 to the exponent value output from the exponent value calculating section 307, and generates the modified first Output as tuttle.
  • the encoding device (spectral encoding unit 301) according to the present embodiment, using the first spectrum (0 ⁇ k ⁇ FL) for which the first signal power is also obtained.
  • the first spectrum is used as it is. Instead, by performing the above estimation after the first spectrum is deformed, the dynamic range of the estimated spectrum can be appropriately adjusted, and the subjective quality of the decoded signal can be improved.
  • the information (deformation information) indicating how the deformation is performed is used to determine the deformation information based on information common to the encoding side and the decoding side (first spectrum in the third embodiment).
  • the bit rate that does not require the transmission of the encoding code relating to the deformation information to the decoding unit.
  • the dynamic information of the first A mapping function that uses range information as an input value and estimated deformation information as an output value may be used.
  • the estimated deformation information which is the output value of the function, is restricted to take a value between 0 and 1.
  • FIG. 17 is a block diagram showing a main configuration of spectrum decoding section 353 according to Embodiment 3.
  • the blocks having the same names and the same reference numerals as those in FIG. 10 have the same functions, and thus description thereof will be omitted.
  • a dynamic range calculating section 361, a deformation information estimating section 362, and a deforming section 363 are provided between the frequency domain transforming section 164 and the extended band vector generating section 163.
  • the transformation information generated by the shape section 112 is input, and the first spectrum Sl (k) provided from the frequency domain transformation section 164 is transformed based on the transformation information.
  • this modification information is estimated based on information common to the encoding side and the decoding side, and the first scan is performed according to the estimated modification information.
  • ⁇ ⁇ Deform the outer layer Sl (k).
  • Embodiment 3 includes dynamic range calculation section 361, deformation information estimation section 362, and deformation section 363. Note that, similarly to the above-described spectrum encoding unit 301, since the deformation information is obtained by estimation inside the spectrum decoding unit, the input encoded code does not include the deformation information.
  • the separation unit 161 that is disposed in the ten spectrum decoding units 153 is not required.
  • First domain Sl (k) is output from frequency domain transform section 164, and provided to dynamic range calculating section 361 and deforming section 363.
  • dynamic range calculating section 361, deformation information estimating section 362, and deforming section 363 will be described with reference to the dynamic range calculating section in spectrum coding section 301 (see FIG. 14) on the encoding side described above. The description is omitted because it is the same as 302, deformation information estimation section 303, and deformation section 304.
  • the deformation information table in the deformation information estimation unit 362 records the same estimated deformation information candidates as the deformation information table 306 in the deformation information estimation unit 303 in the spectrum encoding unit 301.
  • extended band spectrum generating section 163, spectrum forming section 165, and time domain transform section 166 are the same as those described in FIG. 10 of the first embodiment, and a description thereof will not be repeated.
  • the decoding device (spectrum decoding device 353) according to the present embodiment, it is possible to decode the signal encoded by the encoding device according to the present embodiment. In addition, it is possible to appropriately adjust the dynamic range of the estimation statue, and to improve the subjective quality of the decoded signal.
  • the force at which estimated deformation information is obtained in deformation information estimating section 303 is applied to spectrum coding section 106 of Embodiment 1 described in FIG.
  • the estimated deformation information is given to the deformation unit 112, and the spectrum deformation unit 112 selects the deformation information in the vicinity from the exponential variable table 135 based on the estimated deformation information given from the deformation information estimation unit 303, and performs the limited deformation. Most appropriate from information
  • the search unit 125 determines appropriate deformation information.
  • the encoded code of the deformation information finally selected is represented as a relative value from the reference estimated deformation information.
  • the number of bits representing the deformation information can be reduced while maintaining the subjective quality of the decoded signal. The effect is obtained.
  • the estimated deformation information to be output to the deformation unit in the outer coding unit is determined based on the pitch gain given by the first layer coding unit.
  • FIG. 18 is a block diagram showing a main configuration of hierarchical coding apparatus 400 according to the present embodiment. 18, blocks having the same names and the same reference numerals as those in FIG. 3 have the same functions, and thus description thereof will be omitted.
  • the pitch gain obtained in first layer coding section 402 is provided to spectrum coding section 406.
  • an adaptive codebook (not shown) inherent in first layer coding section 402 is output.
  • the gain force is output as a pitch gain and input to the spectrum encoding unit 406.
  • the adaptive code vector gain has a feature that it takes a large value when the periodicity of the input signal is strong, and takes a small value when the periodicity of the input signal is weak V, and when the periodicity of the input signal is weak.
  • FIG. 19 is a block diagram showing a main configuration of spectrum coding section 406 according to Embodiment 4.
  • Deformation information estimating section 411 outputs estimated deformation information using the pitch gain given from first layer coding section 402.
  • the deformation information estimating unit 411 has the same configuration as the deformation information estimating unit 303 in FIG. 15 described above. However, the deformation information table that is designed for the pitch gain is applied. Further, in the present embodiment, a configuration using a mapping function may be used instead of the configuration using the deformation information table.
  • the dynamic range of the estimated spectrum is appropriately adjusted in consideration of the periodicity of the input signal. And the subjective quality of the decoded signal can be improved.
  • Hierarchical decoding apparatus 450 capable of decoding the encoded code generated by hierarchical encoding apparatus 400 will be described below.
  • FIG. 20 is a block diagram showing a main configuration of hierarchical decoding apparatus 450 according to the present embodiment.
  • the pitch gain output from the first layer decoding unit 452 is given to the stadium decoding unit 453.
  • the adaptive code vector gain force multiplied by the adaptive code vector output from the adaptive codebook (not shown) inherent in the first layer decoding unit 452 is output as a pitch gain, It is input to the decoding unit 453.
  • FIG. 21 is a block diagram showing a main configuration of spectrum decoding section 453 according to Embodiment 4.
  • the deformation information estimating unit 461 outputs the estimated deformation information using the pitch gain provided from the first layer decoding unit 452.
  • the deformation information estimating unit 461 has the same configuration as the deformation information estimating unit 303 in FIG. 15 described above.
  • the deformation information table is the same as that in the deformation information estimation unit 411, and the one designed for the pitch gain is applied.
  • a configuration using a mapping function may be used instead of the configuration using the deformation information table.
  • the decoding device (spectrum decoding unit 453) according to the present embodiment, by decoding the signal encoded by the encoding device according to the present embodiment, The dynamic range of the estimated spectrum can be appropriately adjusted in consideration of the periodicity of the input signal, and the subjective quality of the decoded signal can be improved.
  • a configuration may be used in which deformation information is estimated using a pitch period (a lag obtained as a result of an adaptive codebook search inherent in first layer coding section 402) together with a pitch gain.
  • a pitch period a lag obtained as a result of an adaptive codebook search inherent in first layer coding section 402
  • a pitch gain obtained as a result of an adaptive codebook search inherent in first layer coding section 402
  • the pitch period it is possible to estimate the deformation information suitable for a voice having a short pitch period (for example, a female voice) and a voice having a long pitch period (for example, a male voice), thereby improving the estimation accuracy. be able to.
  • the estimated deformation information is obtained by deformation information estimating section 411, and as in Embodiment 3, this estimated deformation information is stored in the space shown in FIG.
  • the estimated deformation information is given to the spectrum deforming unit 112 by applying it to the
  • the vector deformation unit 112 selects the deformation information in the vicinity from the exponential variable table 135 based on the estimated deformation information provided by the deformation information estimation unit 411, and searches for the most appropriate deformation information from the limited deformation information. Determined in part 125.
  • the encoding code of the deformation information finally selected is represented as a relative value from the reference estimated deformation information.
  • the number of bits representing the deformation information can be reduced while maintaining the subjective quality of the decoded signal. Is obtained.
  • the estimated deformation information to be output to the deformation unit in the spectrum coding unit is determined based on the LPC coefficient given by the first layer coding unit.
  • the configuration of the hierarchical coding apparatus according to Embodiment 5 is the same as that of FIG. 18 described above. However, the parameters output from first layer coding section 402 to spectrum coding section 406 are not pitch gains but LPC coefficients.
  • the main configuration of spectrum coding section 406 according to the present embodiment is as shown in FIG. 19 is different from FIG. 19 described above in that the parameters provided to deformation information estimation section 511 are not pitch gains but LPC coefficients, and the configuration in deformation information estimation section 511 is different.
  • FIG. 23 is a block diagram showing a main configuration of deformation information estimation section 511 according to the present embodiment.
  • the deformation information estimating unit 511 includes a determination table 512, a similarity determining unit 513, a deformation information table 514, and a switching unit 515.
  • candidates for estimated deformation information are recorded as in the deformation information table 306 in FIG. However, as the candidate for the estimated deformation information, the one designed for the LPC coefficient is applied. LPC coefficient candidates are stored in the determination table 512, and the determination table 512 and the deformation information table 514 are associated with each other.
  • the estimated deformation information suitable for the LPC coefficient candidate is stored in the j-th deformation information table 514.
  • the LPC coefficient has such a feature that the outline of the spectrum (spectrum envelope) can be accurately represented by a small number of parameters, and the spectrum outline can be associated with the estimated deformation information for controlling the dynamic range.
  • the present embodiment is configured using this feature.
  • the similarity determination section 513 obtains an LPC coefficient most similar to the LPC coefficient provided from the first layer coding section 402 in the determination table 512.
  • the distance (distortion) between the LPC coefficients or the distortion of both after converting the LPC coefficient into another parameter such as LSP (Line Spectrum Pair) coefficient is calculated, and the distortion is minimized.
  • LSP Line Spectrum Pair
  • An index representing a candidate for an LPC coefficient in the determination table 512 when the distortion is minimized (that is, with the highest similarity) is output from the similarity determination section 513 and provided to the switching section 515.
  • Switching section 515 selects a candidate for the estimated deformation information represented by the index, and is output from deformation information estimating section 511.
  • the coding apparatus (spectral coding section 406) according to the present embodiment, it is possible to appropriately adjust the dynamic range of the estimated spectrum in consideration of the spectrum outline of the input signal as well. And the subjective quality of the decoded signal can be improved.
  • the configuration of the hierarchical decoding device according to the fifth embodiment is the same as that of FIG. 20 described above.
  • the parameters output from first layer decoding unit 452 to spectrum decoding unit 453 are not pitch gains but LPC coefficients.
  • the main configuration of spectrum decoding section 453 according to the present embodiment is as shown in FIG.
  • the difference from FIG. 21 described above is that the parameters given to the deformation information estimating section 561 are LPC coefficients instead of pitch gains, and the configuration in the deformation information estimating section 561.
  • deformation information estimating section 561 is the same as that of deformation information estimating section 511 in spectrum coding section 406 in FIG. 22, that is, the one described in FIG. 23, and is included in determination table 512 and deformation information table 514.
  • the recorded information is common to the encoding side and the decoding side.
  • the decoding device (spectrum decoding unit 453) according to the present embodiment, by decoding the signal encoded by the encoding device according to the present embodiment, The dynamic range of the estimated spectrum can be appropriately adjusted in consideration of the spectrum shape of the input signal, and the subjective quality of the decoded signal can be improved.
  • estimated deformation information is obtained by deformation information estimating section 511, but, as in Embodiment 4, this estimated deformation information is stored in the space shown in FIG.
  • the estimated deformation information is provided to the spectrum deforming unit 112 by applying to the tuttle coding unit 106, and the spectrum deforming unit 112 uses the estimated deformation information provided from the deformation information estimating unit 511 as a reference to convert the nearby deformation information into an exponential variable table.
  • the search unit 125 selects the most suitable deformation information from the limited deformation information.
  • the encoded code of the deformation information finally selected is represented as a relative value from the reference estimated deformation information.
  • the basic configuration of the hierarchical coding apparatus according to the sixth embodiment of the present invention is the same as that of the hierarchical coding apparatus described in the first embodiment.
  • the spectral transformation unit 612 having a different configuration will be described below.
  • the spectrum deforming unit 612 converts the dynamic range of the first spectrum SI (k) [0 ⁇ k ⁇ FL] to the dynamic range of the high band [FL ⁇ k ⁇ FH] of the second spectrum S2 (k). The following transformations are applied to the first spectrum SI (k) so as to approach.
  • Spectrum modification section 612 encodes and outputs modification information on the modification.
  • FIG. 25 is a diagram for explaining the spectrum modification method according to the present embodiment.
  • This figure shows the distribution of the amplitude of the first spectrum SI (k).
  • the first spectrum SI (k) shows different amplitudes depending on the value of the frequency k [0 ⁇ k ⁇ FL]. Therefore, when the amplitude is plotted on the horizontal axis and the occurrence probability at that amplitude is plotted on the vertical axis, a distribution close to a normal distribution as shown in the figure appears around the average value ml of the amplitude.
  • this distribution is largely divided into a group close to the average value ml (region B in the figure) and a group far from the average value ml (region A in the figure).
  • a representative value of the amplitude of these two groups specifically, an average value of the amplitude of the spectrum included in the area A and an average value of the amplitude of the spectrum included in the area B are obtained.
  • the amplitude is the absolute value of the amplitude when the average value ml is converted back to zero (the average value ml is subtracted from each value). Used.
  • region A has two regions: a region with a larger amplitude than the average value ml, and a region with a smaller amplitude than the average value ml. Will have similar values. Therefore, for example, if the average value of the area A is used, it is equivalent to determining the spectrum of the first spectrum, whose converted amplitude (absolute value) is relatively large, as one group, and calculating the representative value of the amplitude of this group. However, if the average value is in the region B, this means that the spectrum having a relatively small converted amplitude in the first spectrum is regarded as one group, and the representative value of the amplitude of this group is obtained. Therefore, these two representative values are parameters roughly representing the dynamic range of the first spectrum.
  • the same processing as that performed on the first spectrum is performed on the second spectrum, and a representative value corresponding to each group of the second spectrum is obtained.
  • the ratio of the representative value of the first spectrum to the representative value of the second spectrum in region A (specifically, the ratio of the representative value of the second spectrum to the representative value of the first spectrum) and the ratio in region B
  • the ratio between the representative value of the first spectrum and the representative value of the second spectrum is calculated. Therefore, the ratio between the dynamic range of the first spectrum and the dynamic range of the second spectrum can be roughly calculated.
  • the spectrum transformation unit encodes this ratio as spectrum transformation information and outputs the information.
  • FIG. 26 is a block diagram showing a main configuration inside spectrum transforming section 612.
  • Spectrum transforming section 612 calculates a representative value for each of the groups of the first spectrum, a system for calculating the representative value of each of the second spectra for each of the groups, and a system for calculating the representative values of each of the groups for the second spectrum.
  • a deformation information determination unit 626 that determines deformation information based on the representative value obtained, and a deformation spectrum generation unit 627 that generates a deformation spectrum based on the deformation information.
  • the system for calculating the representative value of the first spectrum is, specifically, a variation degree calculating section 621-1, a first threshold setting section 622-1, a second threshold setting section 623-1, (1)
  • the average spectrum calculating unit 624-1 and the second average spectrum calculating unit 625-1 are also powerful.
  • the system for calculating the representative value of the second spectrum also has basically the same configuration as the system for calculating the representative value of the first spectrum, and the same configuration in FIG. Add a sign and follow it The branch number indicates the difference in the processing system. The description of the same components is omitted.
  • the dispersion degree calculating section 621-1 calculates the "variation degree” from the average value ml of the first spectrum from the amplitude distribution of the input first spectrum Sl (k), and sets the first threshold value setting section. Output to 622-1 and the second threshold setting unit 623-1.
  • the “variation degree” specifically refers to the standard deviation ⁇ 1 of the amplitude distribution of the first spectrum.
  • the first threshold value setting unit 622-1 obtains the first threshold value TH1 using the standard deviation ⁇ 1 of the first spectrum obtained by the variation degree calculation unit 621-1.
  • the first threshold TH1 is a threshold for specifying a spectrum having a relatively large absolute amplitude included in the region ⁇ of the first spectrum, and a predetermined constant is defined as the standard deviation ⁇ 1. The value multiplied by a is used.
  • the operation of the second threshold value setting unit 623-1 is the same as the operation of the first threshold value setting unit 622-1, except that the second threshold value TH2 to be obtained is a comparison value included in the region B of the first spectrum.
  • This is a threshold for specifying a spectrum having a small absolute magnitude, and a value obtained by multiplying a standard deviation ⁇ 1 by a predetermined constant b ( ⁇ a) is used.
  • the first average spectrum calculation section 624-1 is configured to set the sum of the spectrum located outside the first threshold TH1, that is, the average value of the amplitude of the spectrum included in the region A (hereinafter referred to as the first average value). ) Is obtained and output to the deformation information determining unit 626.
  • the first average spectrum calculating section 624-1 converts the amplitude (however, the value before conversion) of the spectrum of each subband of the first spectrum into the average value ml of the first spectrum by the first average.
  • the threshold value TH1 is compared with the calculated value (ml + THl), and a spectrum having an amplitude larger than this value is specified (step 1).
  • the first average spectrum calculating section 624-1 calculates the amplitude value of the spectrum of each subband of the first spectrum as a value obtained by subtracting the first threshold value TH1 from the average value ml of the first spectrum (ml—TH1). Compare and identify the spectrum with amplitude smaller than this value (Step 2).
  • the amplitude of the spectrum obtained in both step 1 and step 2 is converted by setting the above average value ml to zero, and the average value of the absolute values of the obtained converted values is obtained.
  • the second average spectrum calculation unit calculates the average value of the amplitude of the spectrum located inside the second threshold value TH2, that is, the spectrum included in region B (hereinafter, referred to as the second average value). , Output to the deformation information determination unit 626.
  • the specific operation is the same as that of the first average scale calculation unit 6241.
  • the first average value and the second average value obtained by the above processing are representative values for the regions A and B of the first spectrum.
  • the process of obtaining the representative value of the second spectrum is basically the same as described above. However, since the first spectrum and the second spectrum are different spectra, a value obtained by multiplying the standard deviation ⁇ 2 of the second spectrum by a predetermined constant c is used as the third threshold TH3 according to the first threshold TH1, As the fourth threshold value ⁇ 4 according to the second threshold value ⁇ 2, a value obtained by multiplying the standard deviation ⁇ 2 of the second spectrum by a predetermined constant d ( ⁇ c) is used.
  • the deformation information determination unit 626 includes a first average value obtained by the first average spectrum calculation unit 624-1, a second average value obtained by the second average spectrum calculation unit 625-1, and a third average spectrum calculation unit. Using the third average value obtained in 624-2 and the fourth average value obtained in the fourth average spectrum calculation section 625-2, deformation information is determined as follows.
  • deformation information determining section 626 determines the ratio between the first average value and the third average value (hereinafter, referred to as the first gain) and the ratio between the second average value and the fourth average value (hereinafter, referred to as the first gain). , The second gain). Then, the deformation information determination unit 626 compares the first gain and the second gain with these coding candidates because the data table in which a plurality of encoding candidates of the deformation information are stored in advance is provided. Then, the most similar encoding candidate is selected, and an index representing the encoding candidate is output as deformation information. This index is also sent to the modified spectrum generating section 627.
  • the modified spectrum generation unit 627 includes a first spectrum, which is an input signal, a first threshold TH1 obtained by the first threshold setting unit 622-1; a second threshold TH2 obtained by the second threshold setting unit 623-1; Using the deformation information output from the deformation information determination unit 626, the first spectrum is deformed, and the generated deformation spectrum is output.
  • FIG. 27 and FIG. 28 are diagrams for explaining a method of generating a deformed spectrum.
  • the deformed spectrum generating section 627 uses the deformed information to generate a decoded value (hereinafter referred to as a decoded first gain) of a ratio between the first average value and the third average value, and a second average value and a fourth average value. Generate a decoded value of the ratio to the value (hereinafter, referred to as the decoded second gain). These correspondences are shown in Figure 27. It is.
  • modified spectrum generating section 627 specifies the spectra belonging to region A by comparing the amplitude value of the first spectrum with first threshold value TH1, and assigns the decoded first gain to these spectra. Multiply.
  • the modified spectrum generation unit 627 specifies the spectrum belonging to the region B by comparing the amplitude value of the first spectrum with the second threshold value TH2, and multiplies these spectra by the decoding second gain. .
  • the deformed spectrum generating section 627 uses a gain having an intermediate value between the first decoding gain and the second decoding gain. For example, as shown in FIG. 28, from a characteristic curve based on the first decoding gain, the second decoding gain, the first threshold TH1, and the second threshold TH2, a decoding gain y corresponding to a certain amplitude x is obtained. Then, the gain may be multiplied by the amplitude of the first spectrum. That is, the decoding gain y is a linear interpolation value of the decoding first gain and the decoding second gain.
  • FIG. 29 is a block diagram showing a main configuration inside spectrum transforming section 662 used in the decoding device.
  • spectrum deforming section 662 corresponds to deforming section 162 shown in the first embodiment.
  • the distribution of the amplitude of the first spectrum and the distribution of the amplitude of the second spectrum are individually grasped, and the group having a relatively large absolute amplitude and the relatively absolute It is divided into small amplitude groups, and the representative value of the amplitude of each group is determined. Then, by taking the ratio of the representative value of the amplitude of each group of the first spectrum and the second spectrum, the ratio of the dynamic range between the first spectrum and the second spectrum, that is, spectrum deformation information is obtained, and this is encoded. Become As a result, it is possible to obtain deformation information without using a function having a large amount of calculation such as an exponential function.
  • the distribution of the amplitude of the first spectrum and the amplitude of the second spectrum From the standard deviation, first to fourth thresholds are calculated based on the standard deviation. Therefore, since the threshold value is set based on the actual scale, it is possible to improve the encoding accuracy of the deformation information.
  • the dynamic range of the first spectrum is controlled by performing gain adjustment of the first vector using the first decoded gain and the second decoded gain. Then, the first decoding gain and the second decoding gain are determined such that the first spectrum approaches the high band of the second spectrum. Therefore, the dynamic range of the first spectrum approaches the dynamic range of the high band of the second spectrum. Furthermore, it is not necessary to use a computationally intensive function such as an exponential function to calculate the first decoding gain and the second decoding gain.
  • the second decoding gain may be larger than the first decoding gain depending on the properties of the audio signal. May be larger. That is, the dynamic range of the high frequency part of the second spectrum may be larger than the dynamic range of the first spectrum. Such a phenomenon often occurs when the input audio signal is a sound such as a fricative sound.
  • the spectrum deformation method according to the present embodiment can be applied even in the case where power is required.
  • the amplitude is converted based on the average value, and the spectrum is divided into a group having a relatively large amplitude and a group having a relatively small amplitude based on the converted amplitude. It is also possible to use the amplitude value of the force described as an example in the case where the force is applied as it is, and to perform the gnolapping of the statistic based on this amplitude.
  • the present invention is not limited to this.
  • the variance can be used as a parameter.
  • the average value of the absolute amplitude of the spectrum in each group is used as the representative value of the spectrum amplitude in each group.
  • the present invention is not limited to this.
  • the median value of the absolute amplitude of the spectrum in each group may be used.
  • a spectrum energy value may be used instead of the force amplitude value described in the example of using the amplitude value of each spectrum to adjust the dynamic range.
  • a representative value corresponding to each group if the amplitude of the spectrum has a positive or negative sign from the beginning, such as an MDCT coefficient, it is necessary to convert the average value to zero. In other words, a representative value corresponding to each group may be obtained simply by using the absolute value of the spectrum amplitude.
  • the encoding device and the decoding device according to the present invention are not limited to the above embodiments, and can be implemented with various modifications.
  • the encoding / decoding apparatus and the decoding / animation apparatus according to the present invention can be mounted on a communication terminal apparatus and a base station apparatus in a mobile communication system, and thereby have the same operational effects as described above.
  • a communication terminal device and a base station device can be provided.
  • the power described in the case of configuring the present invention with hardware as an example can also be realized by software.
  • the algorithm according to the present invention is described by describing the algorithm of the encoding method (decoding method) according to the present invention in a programming language, storing this program in memory, and executing the program by information processing means. A function similar to that of the decoding device (decoding device) can be realized.
  • Each functional block used in the description of each of the above embodiments is typically implemented as an LSI that is an integrated circuit. These may be individually made into one chip, or may be made into one chip so as to include a part or all of them.
  • an LSI it may be referred to as an IC, a system LSI, a super LSI, an unoratora LSI, or the like.
  • the method of circuit integration is not limited to LSI, but it may be a dedicated circuit or a general-purpose processor. It may be realized in the sa. FPGA (Field
  • the encoding device, the decoding device, and the methods thereof according to the present invention can be applied to scalable encoded Z decoding and the like.

Abstract

 ある帯域のスペクトルを別の帯域のスペクトルで置換する技術において、挿入されるスペクトルのダイナミックレンジを適切に調整することができる符号化装置を開示する。この装置において、スペクトル変形部(112)は、帯域0≦k<FLの第1スペクトルS1(k)を様々に変形させてダイナミックレンジを変化させ、適切なダイナミックレンジとなる変形の仕方について調べる。この変形に関する情報は符号化され、多重化部(115)に与えられる。拡張帯域スペクトル符号化部(114)は、有効信号帯域が0≦k<FHの第2スペクトルS2(k)を参照信号として、第1スペクトルS1(k)の高域(FL≦k<FH)に含めるべきスペクトル(拡張帯域スペクトル)を、変形後の第1スペクトルS1'(k)に基づいて推定し、この推定スペクトルに関する情報を符号化して多重化部(115)に与える。

Description

明 細 書
符号化装置、復号化装置、およびこれらの方法
技術分野
[oooi] 本発明は、音声信号、オーディオ信号等を符号化 Z復号化する符号化装置、復号 化装置、およびこれらの方法に関する。
背景技術
[0002] 音声信号を低ビットレートで圧縮する音声符号ィ匕技術は、移動体通信における電 波等の有効利用のために重要である。さらに近年の傾向として、通話音声の品質向 上に対する期待が高まってきており、臨場感の高い通話サービスの実現が望まれて いる。ここでいう臨場感とは、話者が取り巻く音環境 (例えば BGM)を意味し、そのた めオーディオ等の音声以外の信号をも高品質に符号ィ匕できることが望ましい。
[0003] 音声信号を符号化する音声符号化に、 ITU-T (International Telecommunication Union Telecommunication Standardization Sector)で 格ィ匕されている G72o、 G72 9等の方式が存在する。これらの方式は、狭帯域信号(300Hz〜3. 4kHz)を対象と し、 8kbitZs〜32kbitZsで符号化が行える。これら方式は低ビットレートで符号ィ匕 できるものの、対象としている狭帯域信号は周波数帯域が最大 3. 4kHzまでと狭い ため、その品質はこもっており臨場感に欠ける傾向にある。
[0004] また、 ITU—Tや 3GPP (The 3rd Generation Partnership Project)には、信号帯域 力 0Hz〜7kHzの音声を符号化する標準方式(G. 722、 G. 722. 1, AMR-WB 等)が存在する。これらの方式は、ビットレートが 6. 6kbitZs〜64kbitZsで広帯域 音声信号の符号ィ匕が行えるものの、広帯域音声を高品質に符号ィ匕するためには比 較的ビットレートを高くする必要がある。また音質の観点では、広帯域音声は狭帯域 音声に比べ高音質であるものの、高臨場感が要求されるサービスに対しては十分と は言い難い。
[0005] 一般に、信号の最大周波数が 10〜15kHz程度まであると FMラジオ相当の臨場 感が得られ、 20kHz程度までであれば CD並みの品質が得られる。このような帯域を 有する信号に対しては、 MPEG (Moving Picture Expert Group)で規格化されている レイヤ 3方式や AAC方式等に代表されるオーディオ符号ィ匕が適して 、る。し力しなが ら、これらオーディオ符号ィ匕方式を音声通信の符号ィ匕方式として適用する場合には 、音声を品質よく符号ィ匕するためにビットレートを高く設定する必要がある。その他に 符号ィ匕遅延が大きくなる、等の問題がある。
[0006] 周波数帯域の広い信号を低ビットレートで高品質に符号ィ匕する方法として、入力信 号のスペクトルを低域部と高域部との 2つのスペクトルに分割し、高域スペクトルは低 域スペクトルを複製しこれと置換する(高域スペクトルを低域スペクトルで代用する)こ とにより、全体のビットレートを低減させる技術がある(例えば、特許文献 1参照)。この 技術は、低域スぺ外ルの符号ィ匕に多くのビットを配分して高品質に符号ィ匕し、一方 、高域スペクトルは符号ィ匕後の低域スペクトルを複製することを基本の処理として、少 な!、ビット配分で符号ィ匕が行なわれる。
[0007] また、この技術に類似した技術として、符号ィ匕ビットを十分に配分できな 、帯域に対 しては、他の所定の部分帯域スペクトル情報を用いて近似することで品質を向上させ る技術 (例えば、特許文献 2参照)や、付加情報なしに狭帯域信号を広帯域信号に 帯域拡張するため、狭帯域信号の低域スぺ外ルを高域スペクトルに複製することを 基本の処理とする技術 (例えば、特許文献 3参照)がある。
[0008] なお、 、ずれの技術にお!、ても、スペクトルの補充を行!、た 、帯域に、別の帯域の スペクトルを複製してきて、スペクトル包絡を滑らかにするためのゲイン調整を行った 後に、この複製スペクトルを挿入している。
特許文献 1:特表 2001— 521648号公報
特許文献 2:特開平 9 153811号公報
特許文献 3:特開平 9 - 90992号公報
発明の開示
発明が解決しょうとする課題
[0009] しかしながら、音声信号またはオーディオ信号のスペクトルにおいては、低域スぺク トルのダイナミックレンジ (スペクトル振幅の絶対値 (絶対振幅)の最大値と最小値との 比)が、高域スペクトルのダイナミックレンジよりも大きくなる現象がよく見られる。図 1 は、この現象を説明するための図で、オーディオ信号のスペクトルの一例を示すもの である。このスペクトルは、標本化周波数 32kHzのオーディオ信号を 30msの長さで 周波数分析したときの対数スペクトルである。
[0010] この図に示されるように、周波数 0〜8000Hzの低域スペクトルはピーク性が強く( 鋭敏なピークが多数存在し)、この帯域でのスペクトルのダイナミックレンジは大きくな る。一方、周波数 8000〜 15000Hzの高域スペクトルのダイナミックレンジは小さくな る。このようなスペクトル特性を有する信号に対して、従来の低域スペクトルを高域ス ベクトルに複製する方法では、たとえ高域スペクトルのゲイン調整を行ったとしても、 以下に示すように、高域スペクトルには不必要なピーク形状が現れる。
[0011] 図 2は、図 1に示したスペクトルの低域のスペクトル(1000〜7000Hz)を複製し、ェ ネルギー調整することにより、高域スペクトル(10000〜16000Hz)を得た場合の全 帯域のスペクトルを示す図である。
[0012] 上記の処理を行うと、この図にあるように、 10000Hz以上の帯域 R1に不必要なピ ーク形状が現れる。このピークはオリジナルの高域スペクトルには見られなかったもの である。そして、このスペクトルを時間領域に変換して得られる復号信号には、鈴が鳴 るように聞こえるノイズが発生し、主観品質が低下するという問題が発生する。このよう に、ある帯域のスペクトルを別の帯域のスペクトルで代用する技術においては、挿入 されるスペクトルのダイナミックレンジを適切に調整する必要がある。
[0013] よって、本発明の目的は、ある帯域のスペクトルを別の帯域のスペクトルで代用(置 換)する技術にぉ ヽて、挿入されるスペクトルのダイナミックレンジを適切に調整して、 復号信号の主観品質を向上させることができる符号化装置、復号化装置、およびこ れらの方法を提供することである。
課題を解決するための手段
[0014] 本発明の符号化装置は、入力信号の高域スペクトル部の符号化を行う符号化手段 と、前記入力信号の低域スペクトル部を符号化した信号を復号化した第 1の低域スぺ タトルの振幅を一様に制限した第 2の低域スペクトルを生成する制限手段と、を具備 し、前記符号化手段は、前記第 2の低域スペクトルに基づいて前記高域スペクトル部 の符号化を行う構成を採る。
[0015] また、本発明の復号化装置は、符号化装置で生成された符号に含まれる低域スぺ タトル部の符号を復号ィ匕した信号を周波数領域の信号に変換した第 1の低域スぺク トルを生成する変換手段と、前記符号化装置で生成された符号に含まれる高域スぺ タトル部の符号を復号化する復号化手段と、前記符号化装置で生成された符号に含 まれるスペクトル変形情報に従って前記第 1の低域スペクトルの振幅を一様に制限し た第 2の低域スペクトルを生成する制限手段と、を具備し、前記復号化手段は、前記 第 2の低域スペクトルに基づいて前記高域スペクトル部の符号を復号ィ匕する構成を 採る。
[0016] また、本発明の復号化装置は、符号化装置で生成された符号に含まれる低域スぺ タトル部の符号を復号ィ匕した信号を周波数領域の信号に変換した第 1の低域スぺク トルを生成する変換手段と、前記符号化装置で生成された符号に含まれる高域スぺ タトル部の符号を復号化する復号化手段と、前記第 1の低域スペクトルの振幅を一様 に制限した第 2の低域スペクトルを生成する制限手段と、を具備し、前記制限手段は 、前記第 1の低域スぺ外ルに基づいて制限の仕方に関する情報を推定し、推定され た情報を用いて前記第 2の低域スペクトルを生成し、前記復号化手段は、前記第 2の 低域スペクトルに基づいて前記高域スペクトル部の符号を復号ィ匕する構成を採る。 発明の効果
[0017] 本発明によれば、ある帯域のスペクトルを別の帯域のスペクトルで代用する技術に おいて、挿入されるスペクトルのダイナミックレンジを適切に調整することができ、復号 信号の主観品質を向上させることができる。
図面の簡単な説明
[0018] [図 1]オーディオ信号のスペクトルの一例を示す図
[図 2]低域のスペクトルを複製し、エネルギー調整することにより、高域スペクトルを得 た場合の全帯域のスペクトルを示す図
[図 3]実施の形態 1に係る符号ィ匕装置の主要な構成を示すブロック図
[図 4]実施の形態 1に係るスペクトル符号ィ匕部内部の主要な構成を示すブロック図
[図 5]実施の形態 1に係るスペクトル変形部内部の主要な構成を示すブロック図
[図 6]実施の形態 1に係る変形部内部の主要な構成を示すブロック図
[図 7]実施の形態 1に係る変形部によって得られる変形スペクトルの例を示す図 [図 8]実施の形態 1に係る変形部の別のバリエーションの構成を示すブロック図
[図 9]実施の形態 1に係る階層復号ィ匕装置の主要な構成を示すブロック図
[図 10]実施の形態 1に係るスペクトル復号ィ匕部内部の主要な構成を示すブロック図
[図 11]実施の形態 2に係るスペクトル符号ィ匕部を説明するためのブロック図
[図 12]実施の形態 2に係るスペクトル符号ィ匕部の別のノリエーシヨンの構成を示すブ ロック図
[図 13]実施の形態 2に係るスペクトル復号ィ匕部の主要な構成を示すブロック図
[図 14]実施の形態 3に係るスペクトル符号ィ匕部の主要な構成を示すブロック図
[図 15]実施の形態 3に係る変形情報推定部の説明を行う図
[図 16]実施の形態 3に係る変形部の主要な構成を示すブロック図
[図 17]実施の形態 3に係るスペクトル復号ィ匕部の主要な構成を示すブロック図
[図 18]実施の形態 4に係る階層符号ィ匕装置の主要な構成を示すブロック図
[図 19]実施の形態 4に係るスペクトル符号ィ匕部の主要な構成を示すブロック図
[図 20]実施の形態 4に係る階層復号化装置の主要な構成を示すブロック図
[図 21]実施の形態 4に係るスペクトル復号ィ匕部の主要な構成を示すブロック図
[図 22]実施の形態 5に係るスペクトル符号ィ匕部の主要な構成を示す図
[図 23]実施の形態 5に係る変形情報推定部の主要な構成を示すブロック図
[図 24]実施の形態 5に係るスペクトル復号ィ匕部の主要な構成を示す図
[図 25]実施の形態 6に係るスペクトル変形方法を説明するための図
[図 26]実施の形態 6に係るスペクトル変形部内部の主要な構成を示すブロック図
[図 27]変形スペクトルの生成方法を説明するための図
[図 28]変形スペクトルの生成方法を説明するための図
[図 29]実施の形態 6に係るスペクトル変形部内部の主要な構成を示したブロック図 発明を実施するための最良の形態
[0019] 以下、本発明の実施の形態について、添付図面を参照して詳細に説明する。
[0020] (実施の形態 1)
図 3は、本発明の実施の形態 1に係る階層符号ィ匕装置 100の主要な構成を示すブ ロック図である。ここでは、符号ィ匕情報が複数のレイヤ力 なる階層構造を有する場 合、すなわち、階層符号ィ匕 (スケーラブル符号化)を行う場合を例にとって説明する。
[0021] 階層符号ィ匕装置 100の各部は、信号の入力に伴い以下の動作を行う。
[0022] ダウンサンプリング部 101は、入力信号力もサンプリングレートの低い信号を生成し 第 1レイヤ符号ィ匕部 102に与える。第 1レイヤ符号ィ匕部 102は、ダウンサンプリング部 101から出力された信号を符号化する。第 1レイヤ符号化部 102で得られた符号化コ ードは、多重化部 103に与えられると共に、第 1レイヤ復号ィ匕部 104に与えられる。 第 1レイヤ復号ィ匕部 104は、第 1レイヤ符号ィ匕部 102から出力された符号化コードか ら第 1レイヤの復号信号 S 1を生成する。
[0023] 一方、遅延部 105は、入力信号に所定の長さの遅延を与える。この遅延は、ダウン サンプリング部 101、第 1レイヤ符号ィ匕部 102、および第 1レイヤ復号化部 104で生じ る時間遅れを補正するためのものである。スペクトル符号ィ匕部 106は、第 1レイヤ復 号ィ匕部 104で生成された第 1レイヤ復号信号 S1を用いて、遅延部 105から出力され た所定時間遅延された入力信号 S2のスぺ外ル符号ィ匕を行 ヽ、生成された符号化コ ードを多重化部 103に出力する。
[0024] 多重化部 103は、第 1レイヤ符号ィ匕部 102で求められる符号ィ匕コードとスペクトル符 号ィ匕部 106で求められる符号ィ匕コードとを多重化し、これを出力符号ィ匕コードとして 符号ィ匕装置 100の外部に出力する。
[0025] 図 4は、上記のスペクトル符号ィ匕部 106内部の主要な構成を示すブロック図である
[0026] このスペクトル符号ィ匕部 106は、周波数領域変換部 111、スペクトル変形部 112、 周波数領域変換部 113、拡張帯域スペクトル符号ィ匕部 114、および多重化部 115か ら主に構成される。
[0027] スペクトル符号ィ匕部 106には、第 1レイヤ復号ィ匕部 104から有効信号帯域が 0≤k く FL (kは各サブバンドの周波数)の第 1信号 SIが入力され、また、遅延部 105から 有効信号帯域が 0≤k<FH (ただし、 FLく FH)の第 2信号 S2が入力される。スぺク トル符号ィ匕部 106は、第 1信号 S1の帯域 0≤k<FLのスペクトルを利用して、第 2信 号 S2の帯域 FL≤k<FHのスペクトルを推定し、この推定情報を符号ィ匕して出力す る。 [0028] 周波数領域変換部 111は、入力される第 1信号 S1に周波数変換を行い、低域スぺ タトルである第 1スペクトル Sl(k)を算出する。一方、周波数領域変換部 113は、入力 される第 2信号 S2に周波数変換を行い、広帯域の第 2スぺ外ル S2(k)を算出する。 ここで周波数変換の方法は、離散フーリエ変換 (DFT)、離散コサイン変換 (DCT)、 変形離散コサイン変換 (MDCT)等を適用する。また、 Sl(k)は、第 1スペクトルの周 波数 kのサブバンドのスペクトルであり、 S2(k)は、第 2スペクトルの周波数 kのサブバ ンドのスペクトルである。
[0029] スペクトル変形部 112は、第 1スペクトル Sl(k)を様々に変形させることにより第 1ス ベクトルのダイナミックレンジを変化させ、適切なダイナミックレンジとなる変形の仕方 について調べる。そして、この変形に関する情報 (変形情報)を符号ィ匕して多重化部 115に与える。このスペクトル変形処理の詳細については後ほど詳述する。また、ス ベクトル変形部 112は、適切なダイナミックレンジとなった第 1スペクトル Sl(k)を拡張 帯域スペクトル符号ィ匕部 114に出力する。
[0030] 拡張帯域スペクトル符号ィ匕部 114は、第 2スペクトル S2(k)を参照信号として、第 1ス ベクトル S l(k)の高域 (FL≤ k< FH)に含めるべきスペクトル(拡張帯域スペクトル)を 推定し、この推定スペクトルに関する情報 (推定情報)を符号ィ匕して多重化部 115に 与える。ここで、拡張帯域スペクトルの推定は、変形後の第 1スペクトル Sl'(k)に基づ いて行われる。
[0031] 多重化部 115は、スペクトル変形部 112から出力された変形情報の符号ィ匕コードと 、拡張帯域スペクトル符号ィ匕部 114から出力された拡張帯域スペクトルに関する推定 情報の符号化コードと、を多重化して出力する。
[0032] 図 5は、上記のスペクトル変形部 112内部の主要な構成を示すブロック図である。
[0033] スペクトル変形部 112は、第 1スペクトル Sl(k)のダイナミックレンジが第 2スペクトル S2(k)の高域スペクトル (FL≤k<FH)のダイナミックレンジに最も近付くような変形を 第 1スペクトル Sl(k)に加える。そして、このときの変形情報を符号ィ匕して出力する。
[0034] ノ ッファ 121は、入力された第 1スペクトル Sl(k)を一時保存し、必要に応じ第 1スぺ タトル S l(k)を変形部 122に与える。
[0035] 変形部 122は、下記の手順に従い、第 1スペクトル Sl(k)を様々に変形して変形第 1スペクトル SI' (j, k)を生成し、これをサブバンドエネルギー算出部 123に与える。こ こで、 jは各変形処理を識別するためのインデックスである。
[0036] サブバンドエネルギー算出部 123は、変形第 1スペクトル S' (j, k)の周波数帯域を 複数のサブバンドに分割し、所定の範囲のサブバンドのエネルギー(サブバンドエネ ルギ一)を求める。例えば、サブバンドエネルギーを求める範囲を FlL≤k<FlHと 定めたとき、この帯域幅を N分割したときのサブバンド幅 BWSは次の(式 1)のように 表される。
BWS = (F1H-F1L+ 1) /N · · · (式 1)
よって、第 nサブバンドの最小周波数 FlL(n)および最大周波数 FlH(n)は、それぞ れ (式 2) (式 3)と表される。
FlL(n) = F1L + n-BWS · · · (式 2)
FlH(n) = F1L + (n+ 1) 'BWS— 1 · · · (式 3)
ここで nは 0〜N—1の値をとる。このとき、サブバンドエネルギー Pl(j, n)は次の(式 4)のように算出される。
[数 1] 'ひ,ん) 2
Pl(j,n) = ^≡^ ... (式 4 )
BWS
または、次の(式 5)のようにサブバンドに含まれるスペクトルの平均値として求めても よい。
[数 2]
... (式 5 )
Figure imgf000010_0001
このようにして求められたサブバンドエネルギー P l(j , η)が分散算出部 124に与え られる。
[0037] 分散算出部 124は、サブバンドエネルギー Pl(j, n)のばらつきの程度を表すため 、分散 σ 1 )を次の (式 6)に従い算出する。
[数 3] σ12 ( ) = {Pl(j,n) - Plmean(j)f ... (式 6 ) ここで、 Plmean(j)はサブバンドエネルギー Pl(j, n)の平均値を表し、次の(式 7) のように算出される。
2 1ひ'")
P\mean{j) = ^ … (式 7 )
N
このようにして算出された、変形情報 jにおけるサブバンドエネルギーのばらつきの 度合いを表す分散 σ 1¾)は探索部 125に与えられる。
[0038] サブバンドエネルギー算出部 126および分散算出部 127は、上記のサブバンドエ ネルギー算出部 123および分散算出部 124で行われる一連の処理と同様に、入力 される第 2スペクトル S2(k)に対して、サブバンドエネルギーのばらつきの度合いを表 す分散 σ 22を算出する。ただし、サブバンドエネルギー算出部 126および分散算出 部 127の処理は、以下の点で上記と異なる。すなわち、第 2スペクトル S2(k)のサブバ ンドエネルギーを算出する所定の範囲を、 F2L≤k<F2Hと定める。ここで、第 1スぺ タトルのダイナミックレンジを第 2スペクトルの高域スペクトルのダイナミックレンジに近 づける必要があることから、 FL≤F2Lく F2Hの条件を満足する F2Lを設定する。ま た、第 2スペクトルに対するサブバンド数は、第 1スペクトルのサブバンド数 Nと一致さ せる必要はない。ただし、第 1スペクトルのサブバンド幅と第 2スペクトルのサブバンド 幅とがほぼ一致するように、第 2スペクトルのサブバンド数は設定される。
[0039] 探索部 125は、第 1スペクトルのサブバンドの分散 σ l2 (j)と第 2スペクトルのサブバ ンドの分散 σ 22とが最も近付く際の第 1スぺ外ルのサブバンドの分散 σ l2 (j)を探索 により決定する。具体的には、探索部 125は、全ての変形候補 0≤j<Jに対して第 1 スペクトルのサブバンドの分散 σ l2 (j)を算出し、この算出値と第 2スペクトルのサブ バンドの分散 σ 22とを比較し、両者が最も近付く際の jの値 (最適変形情報 jopt)を決 定し、この joptをスペクトル変形部 112の外部および変形部 128に出力する。
[0040] 変形部 128は、この最適変形情報 joptに対応する変形第 1スペクトル S'(jopt, k)を 生成し、スペクトル変形部 112の外部に出力する。なお、最適変形情報 joptは多重 化部 115に、変形第 1スペクトル S l '(jopt, k)は拡張帯域スペクトル符号ィ匕部 1 14に 送られる。
[0041] 図 6は、上記の変形部 122内部の主要な構成を示すブロック図である。なお、変形 部 128内部の構成も基本的に変形部 122と同様である。
[0042] 正号 Z負号抽出部 131は、第 1スペクトルの各サブバンドの符号情報 sign (k)を求 め、正号 Z負号付与部 134に出力する。
[0043] 絶対値算出部 132は、第 1スペクトルの各サブバンドに対し、振幅の絶対値を算出 し、この値を指数値算出部 133に与える。
[0044] 指数変数テーブル 135は、第 1スペクトルの変形に用いられる指数変数 ex (j)を記録 している。このテーブルに含まれる変数のうち jに対応する値力 指数変数テーブル 1 35から出力される。具体的には、指数変数テーブル 135には、例えば、指数変数 j) = { 1.0, 0.8, 0.6, 0.4}の 4つからなる指数変数の候補が記録されており、探索部 12 5から指定されたインデックス jに基づき 1つの指数変数 α①が選択され、指数値算出 部 133に与えられる。
[0045] 指数値算出部 133は、指数変数テーブル 135から出力された指数変数を用いて、 絶対値算出部 132から出力されるスぺ外ル (絶対値)の指数値、すなわち、各サブ バンドの振幅の絶対値を ex (j)でべき乗した値を算出する。
[0046] 正号 Z負号付与部 134は、指数値算出部 133から出力される指数値に対し、正号
Z負号抽出部 131で先に求めておいた符号情報 sign (k)を付与し、変形第 1スぺク トル S l '(j , k)として出力する。
[0047] よって変形部 122から出力される変形第 1スペクトル S l '(j, k)は、次の(式 8)のよう に表される。
[数 5]
SY(j,k)
Figure imgf000012_0001
… (式 8 )
[0048] 図 7は、上記の変形部 122 (または変形部 128)によって得られる変形スペクトルの 例を示す図である。
[0049] なお、ここでは、指数変数 = { 1.0, 0.6, 0.2 }の場合を例にとって説明している。
また、ここでは、各スペクトルの比較が容易となるように、 α = 1.0の場合のスぺク トル S71を上方に 40dB、 a (j) = 0.6の場合のスペクトル S72を上方に 20dBだけシ フトさせて表示をしている。この図から、指数変数 a G)によって、スペクトルのダイナミ ックレンジを変化させることが可能であることがわかる。
[0050] 以上説明したように、本実施の形態に係る符号化装置 (スペクトル符号化部 106) によれば、第 1信号 (0≤k<FL)から求められる第 1スペクトルを使って、第 2信号 (0 ≤ k< FH)カゝら求められる第 2スペクトルの高域部(FL≤ k< FH)を推定し、推定情 報を符号ィ匕する際に、第 1スペクトルをそのまま用いずに、第 1スペクトルに変形をカロ えた後に上記推定を行うようにする。このとき、どのように変形した力を表す情報 (変 形情報)も併せて符号化し、復号化側に伝送する。
[0051] 第 1スペクトルにカ卩える変形の具体的な方法は、第 1スペクトルをサブバンドに分割 し、各サブバンド内に含まれるスペクトルの絶対振幅の平均 (サブバンド平均振幅)を サブバンド毎に求め,これらサブバンド平均振幅を統計処理して求められる分散が、 第 2スペクトルの高域部のスペクトルから同様にして求められるサブバンド平均振幅 の分散に最も近付くように、第 1スペクトルを変形する。すなわち、第 1スペクトルの絶 対振幅の平均的な振れ幅と、第 2スペクトルの高域スペクトルの絶対振幅の平均的な 振れ幅とが同等の値となるように第 1スペクトルを変形する。また、この具体的な変形 方法を示す変形情報を符号化する。なお、サブバンド平均振幅の代わりに、各サブ バンドに含まれるスペクトルのエネルギーを用いても良 、。
[0052] 上記の具体的な変形方法のさらに詳細は、第 1スペクトルのスペクトルを α乗 (0≤ α≤1)することで、サブバンド内のスペクトルの絶対振幅のばらつき(振れ)を制御す る。そして、使用された αに関する情報を復号ィ匕側へ伝送する。
[0053] 上記の構成を採ることにより、第 1スペクトルのダイナミックレンジと第 2スペクトルの 高域部のダイナミックレンジとが大きく異なる場合でも、推定スペクトルのダイナミック レンジを適切に調整することができ、復号信号の主観品質を向上させることができる。
[0054] また、以上の構成において、第 1スペクトル全体を α乗 (0≤ α≤1)することにより、 スペクトルの振幅に対し一様な制限をカ卩えている。これにより、鋭敏 (急峻)なピークを 鈍化させることができる。また、例えば、ただ単に所定値以上のピークをピークカット する変形を行った場合、スペクトルが不連続となり異音が発生するおそれがあるが、 上記の構成を採ることにより、スペクトルは滑らかなままであり異音の発生を防止する ことができる。
[0055] なお、本実施の形態では、スペクトルの絶対振幅のばらつきの度合!/、(振れ幅)を 表す指標として分散を用いる場合を例にとって説明したが、これに限らず、例えば標 準偏差等の別の指標を適用しても良い。
[0056] また、本実施の形態では、符号ィ匕装置 100内の変形部 122 (または変形部 128)に おいて、指数関数を使用する場合を例にとって説明したが、以下に示すような方法を 用いても良い。
[0057] 図 8は、変形部の別のノリエーシヨン (変形部 122a)の構成を示すブロック図である 。なお、変形部 122 (または変形部 128)と同一の構成要素には同一の符号を付し、 その説明を省略する。
[0058] 上記の変形部 122 (または変形部 128)では、指数関数を使用しているために演算 量が大きくなる傾向にある。そこで、指数関数を使用せずにスペクトルのダイナミック レンジを変化させるようにすることで演算量の増大を回避する。
[0059] 絶対値算出部 132は、入力された第 1スペクトル Sl(k)の各スペクトルの絶対値を算 出し、平均値算出部 142および変形スペクトル算出部 143に出力する。平均値算出 部 142は、次の(式 9)に従いスペクトルの絶対値の平均値 Slmeanを算出する。
[数 6]
Slmean = ... (式 9 )
Figure imgf000014_0001
[0060] 乗数テーブル 144には、変形スペクトル算出部 143で使用される乗数の候補が記 録されており、探索部 125から指定されたインデックスに基づいて 1つの乗数が選択 され、変形スペクトル算出部 143に出力される。ここでは、乗数テーブルに、乗数 g(j) = { 1.0, 0.9, 0.8, 0.7}の 4候補が記録されているものとする。
[0061] 変形スペクトル算出部 143は、絶対値算出部 132から出力された第 1スペクトルの 絶対値と、乗数テーブル 144から出力された乗数 g (j)とを用いて、変形スペクトル S1 '(k)の絶対値を次の (式 10)に従い算出し、正号 Z負号付与部 134に出力する。
[数 7]
Figure imgf000015_0001
+ (1 - g{j))- Slmean … (式 1 o )
[0062] 正号 Z負号付与部 134は、変形スペクトル算出部 143から出力された変形スぺタト ル S 1 '(k)の絶対値に、正号 Z負号抽出部 131で得られた符号情報 sign (k)を付与し 、次の(式 11)で表される最終的な変形スペクトル S l '(k)を生成し、出力する。
[数 8]
Figure imgf000015_0002
… (式 1 1 )
[0063] また、本実施の形態では、変形部が、正号 Z負号抽出部、絶対値算出部、正号 Z 負号付与部を備える場合を例にとって説明したが、入力されるスペクトルが常に正で ある場合には、これらの構成は必要ない。
[0064] 次いで、上記の階層符号化装置 100で生成された符号化コードを復号化すること ができる階層復号ィ匕装置 150の構成について以下詳細に説明する。
[0065] 図 9は、本実施の形態に係る階層復号化装置 150の主要な構成を示すブロック図 である。
[0066] 分離部 151は、入力された符号化コードに分離処理を施し、第 1レイヤ復号ィ匕部 15 2用の符号ィ匕コード S51と、スペクトル復号ィ匕部 153用の符号化コード S 52とを生成 する。第 1レイヤ復号ィ匕部 152は、分離部 151で得られた符号化コードを用いて信号 帯域 0≤k< FLの復号信号を復号し、この復号信号 S53をスペクトル復号ィ匕部 153 に与える。また、第 1レイヤ復号ィ匕部 152の出力は、復号化装置 150の出力端子にも 接続されている。これにより、第 1レイヤ復号ィ匕部 152で生成される第 1レイヤ復号信 号を出力する必要が生じた場合には、この出力端子を介し出力させることができる。
[0067] スペクトル復号ィ匕部 153には、分離部 151で分離された符号ィ匕コード S52と第 1レ ィャ復号ィ匕部 152から出力される第 1レイヤ復号信号 S53とが与えられる。スペクトル 復号ィ匕部 153は、後述のスペクトル復号ィ匕を行い、信号帯域 0≤k< FHの広帯域の 復号信号を生成し、これを出力する。スペクトル復号ィ匕部 153では、第 1レイヤ復号 化部 152から与えられる第 1レイヤ復号信号 S53を第 1信号とみなして処理を行うこと になる。
[0068] 図 10は、上記のスペクトル復号化部 153内部の主要な構成を示すブロック図であ る。 [0069] このスペクトル復号ィ匕部 153には、符号ィ匕コード S52および第 1レイヤ復号信号 S5
3 (有効周波数帯域が 0≤k<FLの第 1信号)が入力される。
[0070] 分離部 161は、入力された符号ィ匕コード S52から、上記の符号化側のスペクトル変 形部 112で生成された変形情報と、拡張帯域スペクトル符号ィ匕情報とを分離し、変形 情報は変形部 162に、拡張帯域スペクトル符号ィ匕情報は拡張帯域スペクトル生成部
163に出力する。
[0071] 周波数領域変換部 164は、入力された時間領域信号である第 1レイヤ復号信号 S5 3に対し周波数変換を施し、第 1スペクトル Sl(k)を算出する。この周波数変換法は、 離散フーリエ変換 (DFT)、離散コサイン変換 (DCT)、変形離散コサイン変換 (MD CT)等を使用する。
[0072] 変形部 162は、分離部 161から与えられる変形情報に基づいて、周波数領域変換 部 164から与えられる第 1スペクトル S 1 (k)に変形をカ卩え、変形第 1スペクトル S l'(k) を生成する。なお、この変形部 162内部の構成は、既に説明した符号ィ匕側の変形部 122 (図 6参照)と同様なので、説明を省略する。
[0073] 拡張帯域スペクトル生成部 163は、変形後の第 1スペクトル Sl'(k)を用いて、第 1ス ベクトル Sl(k)の拡張帯域 FL≤k<FHに含めるべき第 2スペクトルの推定値 S2"(k) を生成し、この第 2スペクトルの推定値 S2"(k)をスペクトル構成部 165に与える。
[0074] スペクトル構成部 165は、周波数領域変換部 164から与えられる第 1スペクトル Sl( k)と、拡張帯域スペクトル生成部 163から与えられる第 2スペクトルの推定値 S2"(k)と を結合し、復号スペクトル S3 (k)を生成する。この復号スペクトル S3 (k)は次の(式 1 2)のように表される。
Figure imgf000016_0001
この復号スペクトル S3 (k)は、時間領域変換部 166へ与えられる。
時間領域変換部 166は、復号スペクトル S3 (k)を時間領域の信号に変換した後、 必要に応じて適切な窓掛けおよび重ね合わせ加算等の処理を行ってフレーム間に 生じる不連続を回避し、最終的な復号信号を出力する。 [0076] このように、本実施の形態に係る復号ィ匕装置 (スペクトル復号ィ匕部 153)によれば、 本実施の形態に係る符号ィ匕装置で符号化された信号を復号ィ匕することができる。
[0077] (実施の形態 2)
本発明の実施の形態 2では、第 1スペクトルを内部状態として持つピッチフィルタを 用いて第 2スペクトルを推定し、このピッチフィルタの特性を符号ィ匕する。
[0078] 本実施の形態に係る階層符号ィ匕装置の構成は、実施の形態 1に示した階層符号 化装置と同様であるので、異なる構成であるスペクトル符号ィ匕部 201を図 11のブロッ ク図を用いて説明する。なお、実施の形態 1に示したスペクトル符号ィ匕部 106 (図 4参 照)と同一の構成要素には同一の符号を付し、その説明を省略する。
[0079] 内部状態設定部 203は、スペクトル変形部 112にて生成された変形第 1スペクトル S l'(k)を使ってフィルタリング部 204で用いられるフィルタの内部状態 S (k)を設定す る。
[0080] フィルタリング部 204は、内部状態設定部 203で設定されたフィルタの内部状態 S ( k)と、ラグ係数設定部 206から与えられるラグ係数 Tとに基づいてフィルタリングを行 い、第 2スペクトルの推定値 S2"(k)を算出する。なお、本実施の形態では、フィルタを 次の(式 13)で表されるものを使用した場合について説明する。
[数 10] ( M … (式 1 3 )
1 - 2
ここで、 Tは、ラグ係数設定部 206から与えられる係数を表す。また、ここでは M= l とする。フィルタリング部 204におけるフィルタリング処理は、次の(式 14)に示すよう に、周波数の低い方から順に、周波数 Tだけ低いスペクトルを中心に対応する係数 βを乗じて加算することにより推定値を算出する。
[数 11]
S(k) = S(k - T - i) ... (式 1 4 ) この式に従う処理を、 FL≤k< FHの間に行う。ここで S (k)は、フィルタの内部状態 を表す。このとき算出される S(k) (ただし、 FL≤k< FH)力 第 2スペクトルの推定値 S 2"(k)として利用される。
[0081] 探索部 205は、周波数領域変換部 113から与えられる第 2スペクトル S2(k)と、フィ ルタリング部 204から与えられる第 2スペクトルの推定値 S2"(k)との類似度を算出す る。
[0082] なお、この類似度には様々な定義が存在する力 本実施の形態では、まずフィルタ 係数 β および β を 0とみなして最小 2乗誤差に基づき定義される次の(式 15)に従 い算出される類似度を使用する。
[数 12]
(式 1 5 )
Figure imgf000018_0001
この方法では、最適なラグ係数 Τを算出した後にフィルタ係数 |8を決定すること〖こ なる。ここで、 Εは S2(k)と S2"(k)間の 2乗誤差を表す。また、上記(式 15)の右辺第 1 項は、ラグ係数 Tに関わらず固定値となるので、(式 15)の右辺第 2項を最大とする S 2"(k)を生成するラグ係数 Tが探索されることになる。本実施の形態では、(式 15)の 右辺第 2項を類似度と呼ぶことにする。
[0083] ラグ係数設定部 206は、予め定められた探索範囲 TMIN〜TMAXに含まれるラグ 係数 Tを順次フィルタリング部 204に出力する。そのため、フィルタリング部 204では、 ラグ係数設定部 206からラグ係数 Tが与えられる度に、 FL≤k<FHの範囲の S (k) をゼロクリアした後のフィルタリングが行われ、探索部 205では、その度に類似度が算 出される。探索部 205は、算出される類似度が最大となるときの係数 Tmaxを TMIN 〜TMAXの間力も決定し、その係数 Tmaxをフィルタ係数算出部 207、スペクトル概 形符号化部 208,および多重化部 115に与える。
[0084] フィルタ係数算出部 207は、探索部 205から与えられる係数 Tmaxを用いてフィル タ係数 βを求める。ここで、フィルタ係数 j8は、次の(式 16)に従う 2乗歪 Eを最小に するように求められる。
[数 13] ··· (式 1 6 )
Figure imgf000019_0001
フィルタ係数算出部 207は、複数個の j8 iの組合せを予めテーブルとして有しており 、上記 (式 16)の 2乗歪 Eを最小とする |8の組合せを決定し、そのコードを多重化部 1 15に出力すると共に、フィルタ係数 |8をスペクトル概形符号ィ匕部 208に与える。
[0085] スペクトル概形符号ィ匕部 208は、内部状態設定部 203から与えられる内部状態 S(k )と、探索部 205から与えられるラグ係数 Tmaxと、フィルタ係数算出部 207から与えら れるフィルタ係数 j8とを用いてフィルタリングを行い、帯域 FL≤k<FHの第 2スぺタト ルの推定値 S2"(k)を求める。そして、スペクトル概形符号ィ匕部 208は、第 2スペクトル の推定値 S2"(k)と第 2スペクトル S2(k)とを用いてスペクトル概形の調整係数の符号 化を行う。
[0086] なお、本実施の形態では、このスペクトル概形情報をサブバンド毎のスペクトルパヮ で表す場合について説明する。このとき、第 jサブバンドのスペクトルパヮは次の(式 1 7)で表される。
[数 14]
BHU)
{j) = S2(k)2 … (式 i 7 ) ここで、 BL(j)は第 jサブバンドの最小周波数、 BH(j)は第 jサブバンドの最大周波数 を表す。このようにして求められた第 2スペクトルのサブバンドのスペクトルパヮを第 2 スペクトルのスペクトル概形情報とみなす。
[0087] 同様に、スペクトル概形符号ィ匕部 208は、第 2スペクトルの推定値 S2"(k)のサブバ ンドのスペクトルパヮ B"G)を次の(式 18)に従い算出し、サブバンド毎の変動量 V (j) を次の(式 19)に従い算出する。
[数 15]
BHU)
β"ω = s-2(k)2 ... (式 1 8 )
[数 16]
Figure imgf000019_0002
次に、スペクトル概形符号ィ匕部 208は、変動量 V (j)を符号ィ匕してそのコードを多重 化部 115に送る。
[0088] 多重化部 115は、スペクトル変形部 112から得られる変形情報と、探索部 205から 得られる最適ラグ係数 Tmaxの情報と、フィルタ係数算出部 207から得られるフィルタ 係数の情報と、スペクトル概形符号化部 208から得られるスペクトル概形調整係数の 情報とを多重化して出力する。
[0089] このように、本実施の形態によれば、第 1スペクトルを内部状態として持つピッチフィ ルタを用いて第 2スペクトルを推定するので、このピッチフィルタの特性のみを符号ィ匕 すれば良ぐ低ビットレートイ匕が可能となる。
[0090] なお、本実施の形態では、周波数領域変換部を備える場合を説明したが、これらは 時間領域信号を入力とする場合に必要な構成要素であり、直接スぺ外ルが入力さ れる場合には周波数領域変換部は必要な ヽ。
[0091] また、本実施の形態では、上記 (式 13)において M = lの場合を例にとって説明し た力 Mの値は 1に限定されることはなぐ 0以上の整数を用いることが可能である。
[0092] また、本実施の形態では、ピッチフィルタが上記 (式 13)のフィルタ関数 (伝達関数) を用 、る場合を例にとつて説明したが、ピッチフィルタは 1次のピッチフィルタであつて も良い。
[0093] 図 12は、本実施の形態に係るスペクトル符号ィ匕部 201の別のバリエーション (スぺ タトル符号ィ匕部 201a)の構成を示すブロック図である。なお、スペクトル符号ィ匕部 20 1と同一の構成要素には同一の符号を付し、その説明を省略する。
[0094] フィルタリング部 204で用いられるフィルタは、次の(式 20)のように簡略ィ匕したもの を用いる。
[数 17]
P{z) = - ~~ ^ … (式 2 0 )
丄ー Z
この式は、上記(式 13)において、 Μ = 0、 β = 1とした場合のフィルタ関数となって
0
いる。
このフィルタにより生成される第 2スペクトルの推定値 S2"(k)は、以下の(式 21)を用 、て、 Tだけ離れた内部状態 S(k)の低域スペクトルを順次コピーすることにより求める ことができる。
[数 18]
S(k) = S(k - T) … (式 2 1 )
[0095] また、探索部 205は、既に述べたのと同様に、最適な係数 Tmaxを上記(式 15)を 最小とするラグ係数 Tを探索して決定する。このようにして求められた係数 Tmaxは多 重化部 115に与えられる。
[0096] 上記の構成を採ることにより、フィルタリング部 204で用いるフィルタの構成が簡易 なため、フィルタ係数算出部 207が不要となり、少ない演算量で第 2スペクトルの推定 を行うことができる。すなわち、この構成によれば、符号化装置の構成が簡易となり、 符号ィ匕処理の演算量を削減することができる。
[0097] 次いで、上記のスペクトル符号ィ匕部 201 (またはスペクトル符号ィ匕部 201a)で生成 された符号ィ匕コードを復号ィ匕することができる復号側のスペクトル復号ィ匕部 251の構 成について以下詳細に説明する。
[0098] 図 13は、本実施の形態に係るスペクトル復号ィ匕部 251の主要な構成を示すブロッ ク図である。なお、このスペクトル復号ィ匕部 251は、実施の形態 1に示したスペクトル 復号ィ匕部 153 (図 10参照)と同様の基本的構成を有しており、同一の構成要素には 同一の符号を付し、その説明を省略する。異なるのは拡張帯域スペクトル生成部 16
3aの内部構成である。
[0099] 内部状態設定部 252は、変形部 162から出力される変形後の第 1スペクトル S l '(k) を使ってフィルタリング部 253で用いられるフィルタの内部状態 S (k)を設定する。
[0100] フィルタリング部 253は、符号ィ匕側のスペクトル符号ィ匕部 201 (201a)で生成された 符号化コードから、分離部 161を介してフィルタに関する情報を得る。具体的には、 スペクトル符号ィ匕部 201の場合は、ラグ係数 Tmaxおよびフィルタ係数 |8が得られ、 スペクトル符号ィ匕部 201aの場合には、ラグ係数 Tmaxのみが得られる。そして、フィ ルタリング部 253は、変形部 162で生成された変形第 1スペクトル S l '(k)をフィルタの 内部状態 S (k)として、取得したフィルタ情報に基づいてフィルタリングを行い、復号 スペクトル S"(k)を算出する。このフィルタリング方法は、符号化側のスペクトル符号化 部 201 (201a)で用いられたフィルタ関数に依存し、スペクトル符号ィ匕部 201の場合 は、復号側でも上記 (式 13)に従ってフィルタリングが行われ、スペクトル符号ィ匕部 20 laの場合には、復号側でも上記 (式 20)に従ってフィルタリングが行われる。
[0101] スペクトル概形復号ィ匕部 254は、分離部 161から与えられたスペクトル概形情報に 基づいてスペクトル概形情報を復号する。本実施の形態では、サブバンド毎の変動 量の量子化値 Vq (j)を用いる場合を例にとって説明を行う。
[0102] スペクトル調整部 255は、フィルタリング部 253から得られるスペクトル S"(k)に、ス ベクトル概形復号ィ匕部 254から得られるサブバンド毎の変動量の量子化値 Vq (j)を 次の(式 22)に従って乗じることにより、スペクトル S"(k)の周波数帯域 FL≤k<FHの スペクトル形状を調整し、第 2スペクトルの推定値 S2"(k)を生成する。
[数 19]
S"2(k) = S"(k)- Vq(j) (BL(j)≤k BH(j) or all j) ■■■ (式 2 2 ) ここで、 BL(j)および BH(j)は、それぞれ第 jサブバンドの最小周波数、最大周波数 を表す。上記 (式 22)に従って算出された第 2スペクトルの推定値 S2"(k)は、スぺタト ル構成部 165に与えられる。
[0103] スペクトル構成部 165は、実施の形態 1で前述したように、第 1スペクトル Sl(k)と第 2スペクトルの推定値 S2"(k)とを結合して復号スペクトル S3(k)を生成し、時間領域変 換部 166に与える。
[0104] このように、本実施の形態に係る復号ィ匕装置 (スペクトル復号ィ匕部 251)によれば、 本実施の形態に係る符号ィ匕装置で符号化された信号を復号ィ匕することができる。
[0105] (実施の形態 3)
図 14は、本発明の実施の形態 3に係るスペクトル符号ィ匕部の主要な構成を示すブ ロック図である。図 14において、図 4と同一名称および同一符号を付したブロックは 同一機能を有するので説明を省略する。本実施の形態 3では、符号化側、復号化側 で共通な情報を基にスペクトルのダイナミックレンジを調整する。これにより、スぺタト ルのダイナミックレンジを調整するダイナミックレンジ調整係数を表す符号ィ匕コードを 出力する必要がな ヽ。ダイナミックレンジ調整係数を表す符号化コードを出力する必 要がな!、ために、ビットレートを低減することができる。 [0106] 図 14におけるスペクトル符号ィ匕部 301は、周波数領域変換部 111と拡張帯域スぺ タトル符号ィ匕部 114との間に、図 4におけるスペクトル変形部 112の代わりに、ダイナ ミックレンジ算出部 302、変形情報推定部 303、および変形部 304を有する。実施の 形態 1におけるスペクトル変形部 112は、第 1スペクトル Sl(k)を様々に変形させること により第 1スペクトルのダイナミックレンジを変化させ、適切なダイナミックレンジとなる 変形の仕方 (変形情報)について調べ、この変形情報を符号ィ匕して出力する。一方、 本実施の形態 3では、符号化側および復号化側で共通な情報に基づきこの変形情 報の推定を行い、推定変形情報に従い第 1スペクトル Sl(k)の変形を行う。
[0107] したがって本実施の形態 3では、スペクトル変形部 112の代わりに、ダイナミックレン ジ算出部 302と、変形情報推定部 303と、その推定変形情報に基づき第 1スペクトル を変形する変形部 304とを有する。なお、変形情報はスペクトル符号化部及び後述 するスペクトル復号ィ匕部のそれぞれ内部にて推定により求められるため、スペクトル 符号ィ匕部 301から変形情報を符号化コードとして出力する必要がなぐこのため図 4 のスペクトル符号ィ匕部 106に配置されて 、る多重化部 115は必要としな 、。
[0108] 周波数領域変換部 111より第 1スペクトル Sl(k)が出力され、ダイナミックレンジ算出 部 302と変形部 304とに与えられる。ダイナミックレンジ算出部 302は、第 1スペクトル Sl(k)のダイナミックレンジを定量ィ匕し、その結果をダイナミックレンジ情報として出力 する。ダイナミックレンジの定量ィ匕の手法としては、実施の形態 1と同様に、第 1スぺク トルの周波数帯域を複数のサブバンドに分割し、所定の範囲のサブバンドのェネル ギー(サブバンドエネルギー)を求め、当該サブバンドエネルギーの分散値を算出し 、この分散値をダイナミックレンジ情報として出力する。
[0109] 次に、図 15を用いて変形情報推定部 303の説明を行う。変形情報推定部 303には 、ダイナミックレンジ算出部 302よりダイナミックレンジ情報が入力され、切替部 305に 与えられる。切替部 305は、前記ダイナミックレンジ情報を基に変形情報テーブル 30 6内に記録されている推定変形情報の候補の中から 1つの推定変形情報を選択し、 出力する。変形情報テーブル 306には 0〜1の間の値をとる複数の推定変形情報の 候補が記録されており、この候補はダイナミックレンジ情報と対応するようにあらかじ め学習によって決めておく。 [0110] 図 16は変形部 304の主要な構成を示すブロック図である。図 6と同一名称および 同一符号を付したブロックは同一の機能を有するので説明を省略する。図 16の変形 部 304における指数値算出部 307は、変形情報推定部 303より与えられる推定変形 情報 (0〜1の間をとる)に従い、絶対値算出部 132から出力されるスペクトルの絶対 振幅の指数値、すなわち、推定変形情報でべき乗した値を、正号 Z負号付与部 134 に出力する。正号 Z負号付与部 134は、指数値算出部 307から出力される指数値に 対し、正号 Z負号抽出部 131で先に求めておいた符号情報を付与し、変形第 1スぺ タトルとして出力する。
[0111] 以上説明したように、本実施の形態に係る符号ィ匕装置 (スペクトル符号ィ匕部 301) によれば、第 1信号力も求められる第 1スペクトル (0≤k<FL)を使って、第 2信号か ら求められる第 2スペクトル (0≤k<FH)の高域部(FL≤k<FH)を推定し、推定情 報を符号ィ匕する際に、第 1スペクトルをそのまま用いずに、第 1スペクトルに変形をカロ えた後に上記推定を行うようにすることで、推定スペクトルのダイナミックレンジを適切 に調整することができ、復号信号の主観品質を向上させることができる。このとき、ど のように変形したかを表す情報 (変形情報)は、符号化側、復号化側で共通な情報( 本実施の形態 3では第 1スペクトル)を基に変形情報を確定するために、変形情報に 関する符号ィ匕コードを復号ィ匕部に伝送する必要がなぐビットレートを低減させること が可能となる。
[0112] なお、変形情報推定部 303において、変形情報テーブル 306を用いた、第 1スぺク トルのダイナミックレンジ情報と推定変形情報との対応づけを行う代わりに、第 1スぺ タトルのダイナミックレンジ情報を入力値、推定変形情報を出力値とするマッピング関 数を用いても良い。この場合、関数の出力値である推定変形情報は 0〜1の間の値 をとるように制限される。
[0113] 図 17は、本実施の形態 3に係るスペクトル復号ィ匕部 353の主要な構成を示すプロ ック図である。この構成において、図 10と同一名称および同一符号を付したブロック は同一の機能を有するため説明を省略する。周波数領域変換部 164と拡張帯域ス ベクトル生成部 163との間に、ダイナミックレンジ算出部 361、変形情報推定部 362、 および変形部 363を有する。図 10における変形部 162は、符号ィ匕側のスペクトル変 形部 112で生成された変形情報を入力し、この変形情報に基づいて、周波数領域変 換部 164から与えられる第 1スペクトル Sl(k)に変形を施す。これに対し本実施の形 態 3は、上記スペクトル符号化部 301と同様に、符号化側および復号化側で共通な 情報に基づきこの変形情報の推定を行い、推定変形情報にしたがって第 1スぺ外ル Sl(k)の変形を行う。
[0114] したがって本実施の形態 3では、ダイナミックレンジ算出部 361、変形情報推定部 3 62、および変形部 363を有する。なお、上記スペクトル符号ィ匕部 301と同様に、変形 情報は、スペクトル復号ィ匕部の内部にて推定により求められるため、入力される符号 化コードには変形情報が含まれていないため、図 10のスペクトル復号ィ匕部 153に配 置されて!ヽる分離部 161は必要としな ヽ。
[0115] 周波数領域変換部 164より第 1スペクトル Sl(k)が出力され、ダイナミックレンジ算出 部 361と変形部 363とに与えられる。以降、ダイナミックレンジ算出部 361、変形情報 推定部 362、および変形部 363の動作については、既に説明した符号ィ匕側のスぺク トル符号化部 301 (図 14参照)内のダイナミックレンジ算出部 302、変形情報推定部 303、および変形部 304と同様なので説明を省略する。なお、変形情報推定部 362 内の変形情報テーブルは、スペクトル符号ィ匕部 301における変形情報推定部 303内 の変形情報テーブル 306と同じ推定変形情報の候補が記録されている。
[0116] また、拡張帯域スペクトル生成部 163、スペクトル構成部 165、時間領域変換部 16 6の動作は、実施の形態 1の図 10に記載のものと同様なので、説明を省略する。
[0117] このように、本実施の形態に係る復号ィ匕装置 (スペクトル復号ィ匕部 353)によれば、 本実施の形態に係る符号化装置で符号化された信号を復号化することで、推定スぺ タトルのダイナミックレンジを適切に調整することができ、復号信号の主観品質を向上 させることがでさる。
[0118] なお、本実施の形態では、変形情報推定部 303において推定変形情報が求めら れる力 この推定変形情報を実施の形態 1の図 4記載のスペクトル符号ィ匕部 106に 適用してスペクトル変形部 112に当該推定変形情報を与え、スペクトル変形部 112 では変形情報推定部 303より与えられる推定変形情報を基準にその近傍の変形情 報を指数変数テーブル 135から選択し、その限定された変形情報の中から最も適切 な変形情報を探索部 125にて決定する。この構成では、最終的に選択された変形情 報の符号化コードは、前記基準となる推定変形情報からの相対値として表される。こ のように正確な変形情報を符号ィ匕して復号ィ匕部へ伝送することができるため、復号 信号の主観品質を維持しながら、変形情報を表すビット数を少なくすることができると いう効果が得られる。
[0119] (実施の形態 4)
本発明の実施の形態 4では、第 1レイヤ符号ィ匕部より与えられるピッチゲインに基づ きスぺ外ル符号ィ匕部内の変形部に出力される推定変形情報を決定する。
[0120] 図 18は、本実施の形態に係る階層符号ィ匕装置 400の主要な構成を示すブロック 図である。図 18において図 3と同一名称および同一符号を付したブロックは、同一機 能を有するため説明を省略する。
[0121] 本実施の形態 4における階層符号化装置 400では、第 1レイヤ符号ィ匕部 402で求 められたピッチゲインをスペクトル符号ィ匕部 406に与える。具体的には、第 1レイヤ符 号ィ匕部 402にお 、て、第 1レイヤ符号化部 402に内在する適応符号帳(図示せず) 力 出力される適応コードベクトルに乗じられる適応コードベクトルゲイン力 ピッチゲ インとして出力され、スペクトル符号ィ匕部 406に入力される。この適応コードベクトル ゲインは、入力信号の周期性が強い場合に大きな値をとり、入力信号の周期性が弱 V、場合に小さな値をとると!/、う特徴がある。
[0122] 図 19は、本実施の形態 4に係るスペクトル符号ィ匕部 406の主要な構成を示すプロ ック図である。図 19において図 14と同一名称および同一符号を付したブロックは、同 一機能を有するので説明を省略する。変形情報推定部 411は第 1レイヤ符号ィ匕部 4 02より与えられるピッチゲインを使って推定変形情報を出力する。変形情報推定部 4 11は前述した図 15の変形情報推定部 303と同様の構成となる。ただし、変形情報テ 一ブルはピッチゲインに対して設計されたものを適用する。また、本実施の形態にお V、ても、変形情報テーブルを用いる構成の代わりにマッピング関数を用いる構成であ つても良い。
[0123] このように、本実施の形態に係る符号化装置 (スペクトル符号ィ匕部 406)によれば、 入力信号の周期性をも考慮して推定スペクトルのダイナミックレンジを適切に調整す ることができ、復号信号の主観品質を向上させることができる。
[0124] 次に、上記階層符号ィ匕装置 400で生成された符号化コードを復号ィ匕することがで きる階層復号ィ匕装置 450の構成について、以下に説明する。
[0125] 図 20は、本実施の形態に係る階層復号ィ匕装置 450の主要な構成を示すブロック 図である。図 20において、第 1レイヤ復号ィ匕部 452より出力されるピッチゲインがスぺ タトル復号ィ匕部 453に与えられている。第 1レイヤ復号ィ匕部 452において、第 1レイヤ 復号化部 452に内在する適応符号帳(図示せず)から出力される適応コードベクトル に乗じられる適応コードベクトルゲイン力 ピッチゲインとして出力され、スペクトル復 号ィ匕部 453に入力される。
[0126] 図 21は、本実施の形態 4に係るスペクトル復号ィ匕部 453の主要な構成を示すプロ ック図である。変形情報推定部 461は第 1レイヤ復号ィ匕部 452より与えられるピッチゲ インを使って推定変形情報を出力する。変形情報推定部 461は前述した図 15の変 形情報推定部 303と同様の構成となる。ただし、変形情報テーブルは変形情報推定 部 411内のものと同様のもので、ピッチゲインに対して設計されたものを適用する。ま た、本実施の形態においても、変形情報テーブルを用いる構成の代わりにマッピング 関数を用いる構成であっても良 、。
[0127] このように、本実施の形態に係る復号化装置 (スペクトル復号ィ匕部 453)によれば、 本実施の形態に係る符号化装置で符号化された信号を復号化することで、入力信 号の周期性をも考慮して推定スペクトルのダイナミックレンジを適切に調整することが でき、復号信号の主観品質を向上させることができる。
[0128] なお、ピッチゲインと共にピッチ周期(第 1レイヤ符号化部 402に内在する適応符号 帳探索の結果得られるラグのこと)を用いて変形情報を推定する構成であっても良い 。この場合、ピッチ周期を利用することで、ピッチ周期の短い音声 (例えば女声)とピッ チ周期の長い音声 (例えば男声)にそれぞれ適した変形情報の推定を行うことができ 、推定精度を向上させることができる。
[0129] また、本実施の形態では、変形情報推定部 411において推定変形情報が求められ るが、実施の形態 3と同様に、この推定変形情報を実施の形態 1の図 4記載のスぺク トル符号ィ匕部 106に適用してスペクトル変形部 112に当該推定変形情報を与え、ス ベクトル変形部 112では変形情報推定部 411より与えられる推定変形情報を基準に その近傍の変形情報を指数変数テーブル 135から選択し、その限定された変形情 報の中から最も適切な変形情報を探索部 125にて決定する。この構成では、最終的 に選択された変形情報の符号化コードは、前記基準となる推定変形情報からの相対 値として表される。このように正確な変形情報を符号ィ匕して復号ィ匕部へ伝送すること ができるため、復号信号の主観品質を維持しながら、変形情報を表すビット数を少な くすることができるという効果が得られる。
[0130] (実施の形態 5)
本発明の実施の形態 5では、第 1レイヤ符号ィ匕部より与えられる LPC係数に基づき スペクトル符号化部内の変形部に出力される推定変形情報を決定する。
[0131] 本実施の形態 5における階層符号ィ匕装置の構成は前述した図 18と同様となる。た だし、第 1レイヤ符号ィ匕部 402からスペクトル符号ィ匕部 406に対して出力されるパラメ ータは、ピッチゲインではなく LPC係数である。
[0132] 本実施の形態に係るスペクトル符号ィ匕部 406の主要な構成は、図 22に示すものと なる。前述した図 19との違いは、変形情報推定部 511に与えられるパラメータがピッ チゲインではなく LPC係数であることと、変形情報推定部 511内の構成である。
[0133] 図 23は、本実施の形態に係る変形情報推定部 511の主要な構成を示すブロック 図である。変形情報推定部 511は、判定テーブル 512、類似度判定部 513、変形情 報テーブル 514、および切替部 515より構成される。変形情報テーブル 514は、図 1 5における変形情報テーブル 306と同様に推定変形情報の候補が記録されている。 ただし、この推定変形情報の候補は、 LPC係数に対して設計されたものを適用する 。判定テーブル 512には LPC係数の候補が格納されており、判定テーブル 512と変 形情報テーブル 514とは対応付けが為されている。すなわち、判定テーブル 512か ら第 j番目の LPC係数の候補が選ばれたとき、その LPC係数候補に適した推定変形 情報は変形情報テーブル 514の第 j番目に格納されている。 LPC係数はスペクトル の概形 (スペクトル包絡)を少な 、パラメータで精度良く表現できると 、う特徴があり、 このスペクトル概形とダイナミックレンジを制御する推定変形情報を対応付けることが できる。本実施の形態は、この特徴を利用して構成したものである。 [0134] 類似度判定部 513は、第 1レイヤ符号ィ匕部 402より与えられる LPC係数と最も類似 する LPC係数を判定テーブル 512の中カゝら求める。この類似性の判定には、 LPC係 数同士の距離(歪)、または LPC係数を LSP (Line Spectrum Pair)係数などの別のパ ラメータに変換した後の両者の歪を求め、その歪が最小となるときの LPC係数を判定 テープノレ 512より求める。
[0135] 歪を最小(つまり最も類似度が高い)とするときの判定テーブル 512内の LPC係数 の候補を表すインデックスが類似度判定部 513より出力され、切替部 515に与えられ る。切替部 515は、このインデックスが表す推定変形情報の候補を選択し、変形情報 推定部 511より出力される。
[0136] このように、本実施の形態に係る符号化装置 (スペクトル符号ィ匕部 406)によれば、 入力信号のスペクトル概形をも考慮して推定スペクトルのダイナミックレンジを適切に 調整することができ、復号信号の主観品質を向上させることができる。
[0137] 次に、本実施の形態 5における階層符号化装置で生成された符号化コードを復号 化することができる階層復号ィ匕装置の構成について、以下説明する。
[0138] 本実施の形態 5における階層復号ィ匕装置の構成は前述した図 20と同様となる。た だし、第 1レイヤ復号ィ匕部 452からスペクトル復号ィ匕部 453に対して出力されるパラメ ータは、ピッチゲインではなく LPC係数である。
[0139] 本実施の形態に係るスペクトル復号ィ匕部 453の主要な構成は、図 24に示すものと なる。前述した図 21との違いは、変形情報推定部 561に与えられるパラメータがピッ チゲインではなく LPC係数であることと、変形情報推定部 561内の構成である。
[0140] 変形情報推定部 561内の構成は、図 22におけるスペクトル符号ィ匕部 406内の変形 情報推定部 511、すなわち図 23に記載のものと同様となり、判定テーブル 512及び 変形情報テーブル 514に記録された情報も、符号ィ匕側と復号ィ匕側とで共通のもので ある。
[0141] このように、本実施の形態に係る復号化装置 (スペクトル復号ィ匕部 453)によれば、 本実施の形態に係る符号化装置で符号化された信号を復号化することで、入力信 号のスペクトル概形をも考慮して推定スペクトルのダイナミックレンジを適切に調整す ることができ、復号信号の主観品質を向上させることができる。 [0142] なお、本実施の形態では、変形情報推定部 511において推定変形情報が求めら れるが、実施の形態 4と同様に、この推定変形情報を実施の形態 1の図 4記載のスぺ タトル符号ィ匕部 106に適用してスペクトル変形部 112に当該推定変形情報を与え、 スペクトル変形部 112では変形情報推定部 511より与えられる推定変形情報を基準 にその近傍の変形情報を指数変数テーブル 135から選択し、その限定された変形 情報の中から最も適切な変形情報を探索部 125にて決定する。この構成では、最終 的に選択された変形情報の符号化コードは、前記基準となる推定変形情報からの相 対値として表される。このように正確な変形情報を符号ィ匕して復号ィ匕部へ伝送するこ とができるため、復号信号の主観品質を維持しながら、変形情報を表すビット数を少 なくすることができるという効果が得られる。
[0143] (実施の形態 6)
本発明の実施の形態 6に係る階層符号ィ匕装置の基本的構成は、実施の形態 1〖こ 示した階層符号ィ匕装置と同様であるので、その説明を省略し、スペクトル変形部 112 と異なる構成であるスペクトル変形部 612について以下説明する。
[0144] スペクトル変形部 612は、第 1スペクトル SI (k) [0≤k<FL]のダイナミックレンジが 、第 2スペクトル S2 (k)の高域部 [FL≤k< FH]のダイナミックレンジに近づくように、 第 1スペクトル SI (k)に以下の変形をカ卩える。スペクトル変形部 612は、この変形に 関する変形情報を符号化して出力する。
[0145] 図 25は、本実施の形態に係るスペクトル変形方法を説明するための図である。
[0146] この図は、第 1スペクトル SI (k)の振幅の分布を示している。第 1スペクトル SI (k) は、周波数 k[0≤k<FL]の値によって異なる振幅を示す。そこで、横軸に振幅をとり 、縦軸にその振幅における出現確率をとると、振幅の平均値 mlを中心として図に示 すような正規分布に近い分布が現れる。
[0147] 本実施の形態では、まず、この分布を、平均値 mlに近 、グループ(図中の領域 B) と、平均値 mlから遠いグループ(図中の領域 A)とに大きく分ける。次に、これら 2つ のグループの振幅の代表値、具体的には、領域 Aに含まれるスペクトルの振幅の平 均値と、領域 Bに含まれるスペクトルの振幅の平均値とを求める。ここで、振幅は、平 均値 mlを零と換算し直した (各値カゝら平均値 mlを減じた)場合の振幅の絶対値を 用いる。例えば、領域 Aは、平均値 mlよりも振幅の大きい領域と、平均値 mlよりも振 幅の小さな領域との 2つの領域力 成る力 平均値 mlを零と換算し直すことにより、 2 つの領域に含まれるスペクトルの振幅の絶対値は、同じ様な値を有することになる。 よって、例えば領域 Aの平均値であれば、第 1スペクトルのうちで換算後の振幅 (絶対 値)が比較的大きなスペクトルを 1つのグループとし、このグループの振幅の代表値を 求めたことに相当し、領域 Bの平均値であれば、第 1スペクトルのうちで換算後の振幅 が比較的小さなスペクトルを 1つのグループとし、このグループの振幅の代表値を求 めたことに相当している。よって、これら 2つの代表値は、第 1スペクトルのダイナミック レンジを概略的に表現したパラメータとなる。
[0148] 次に、本実施の形態では、第 2スペクトルに対し、第 1スペクトルで行ったのと同様 の処理を行い、第 2スペクトルの各グループに対応する代表値を求める。そして、領 域 Aにおける第 1スペクトルの代表値と第 2スペクトルの代表値との比(具体的には、 第 2スペクトルの代表値の第 1スペクトルの代表値に対する比)、および領域 Bにおけ る第 1スペクトルの代表値と第 2スペクトルの代表値との比を求める。よって、第 1スぺ タトルのダイナミックレンジと第 2スペクトルのダイナミックレンジとの比を概算的に求め ることができる。本実施の形態に係るスペクトル変形部は、この比をスペクトルの変形 情報として符号ィ匕し、出力する。
[0149] 図 26は、スペクトル変形部 612内部の主要な構成を示すブロック図である。
[0150] スペクトル変形部 612は、第 1スペクトルの上記各グループに対する代表値を算出 する系統と、第 2スペクトルの上記各グループに対する代表値を算出する系統と、こ れら 2つの系統で算出された代表値に基づいて変形情報を決定する変形情報決定 部 626と、この変形情報に基づ 、て変形スペクトルを生成する変形スペクトル生成部 627とに大別される。
[0151] 第 1スペクトルの代表値を算出する系統は、具体的には、ばらつき度算出部 621— 1と、第 1閾値設定部 622— 1と、第 2閾値設定部 623— 1と、第 1平均スペクトル算出 部 624— 1と、第 2平均スペクトル算出部 625— 1と力もなる。第 2スペクトルの代表値 を算出する系統も、基本的には、第 1スぺ外ルの代表値を算出する系統と同様の構 成からなり、図中において同一の構成に対しては同一の符号を付し、符号の後に続 く枝番により処理系統の違いを表す。そして、同一の構成要素については、その説明 を省略する。
[0152] ばらつき度算出部 621— 1は、入力される第 1スペクトル Sl (k)の振幅の分布から、 第 1スペクトルの平均値 mlからの「ばらつき度」を算出し、第 1閾値設定部 622— 1お よび第 2閾値設定部 623— 1に出力する。「ばらつき度」とは、具体的には、第 1スぺク トルの振幅分布の標準偏差 σ 1のことである。
[0153] 第 1閾値設定部 622— 1は、ばらつき度算出部 621— 1で求まった第 1スペクトルの 標準偏差 σ 1を用いて第 1閾値 TH1を求める。ここで、第 1閾値 TH1とは、第 1スぺク トルのうち、上記領域 Αに含まれる比較的絶対振幅の大きなスペクトルを特定するた めの閾値であり、標準偏差 σ 1に所定の定数 aを乗じた値が使用される。
[0154] 第 2閾値設定部 623— 1の動作も、第 1閾値設定部 622— 1の動作と同様であるが 、求める第 2閾値 TH2は、第 1スペクトルのうちの領域 Bに含まれる比較的絶対振幅 の小さなスペクトルを特定するための閾値であり、標準偏差 σ 1に所定の定数 b (< a) を乗じた値が使用される。
[0155] 第 1平均スペクトル算出部 624— 1は、第 1閾値 TH1よりも外側に位置するスぺタト ル、すなわち、領域 Aに含まれるスペクトルの振幅の平均値 (以下、第 1平均値という )を求め、変形情報決定部 626に出力する。
[0156] 具体的には、第 1平均スペクトル算出部 624—1は、第 1スペクトルの各サブバンド のスペクトルの振幅 (ただし、換算前の値)を、第 1スペクトルの平均値 mlに第 1閾値 TH1をカ卩えた値 (ml +THl)と比較し、この値よりも大きな振幅を有するスペクトルを 特定する (ステップ 1)。次に、第 1平均スペクトル算出部 624— 1は、第 1スペクトルの 各サブバンドのスペクトルの振幅値を、第 1スペクトルの平均値 mlから第 1閾値 TH1 を減じた値 (ml— TH1)と比較し、この値よりも小さな振幅を有するスペクトルを特定 する(ステップ 2)。そして、ステップ 1およびステップ 2の双方で求まったスペクトルの 振幅に対し、上記の平均値 mlをゼロとする換算を行い、得られた換算値の絶対値の 平均値を求め、変形情報決定部 626に出力する。
[0157] 第 2平均スペクトル算出部は、第 2閾値 TH2よりも内側に位置するスペクトル、すな わち、領域 Bに含まれるスペクトルの振幅の平均値 (以下、第 2平均値という)を求め、 変形情報決定部 626に出力する。具体的な動作は、第 1平均スぺ外ル算出部 624 1と同様である。
[0158] 上記処理で求まった第 1平均値および第 2平均値が、第 1スペクトルの領域 Aおよ び領域 Bに対する代表値である。
[0159] 第 2スペクトルの代表値を求める処理も基本的には上記と同様である。ただし、第 1 スペクトルと第 2スペクトルとは異なるスペクトルであるので、第 1閾値 TH1に準ずる第 3閾値 TH3は、第 2スペクトルの標準偏差 σ 2に所定の定数 cを乗じた値が使用され 、第 2閾値 ΤΗ2に準ずる第 4閾値 ΤΗ4は、第 2スペクトルの標準偏差 σ 2に所定の定 数 d ( < c)を乗じた値が使用される。
[0160] 変形情報決定部 626は、第 1平均スペクトル算出部 624— 1で得られる第 1平均値 、第 2平均スペクトル算出部 625— 1で得られる第 2平均値、第 3平均スペクトル算出 部 624— 2で得られる第 3平均値、および第 4平均スペクトル算出部 625— 2で得ら れる第 4平均値を用いて、以下のように変形情報を決定する。
[0161] すなわち、変形情報決定部 626は、第 1平均値と第 3平均値との比(以下、第 1ゲイ ンと呼ぶ)、および第 2平均値と第 4平均値との比(以下、第 2ゲインと呼ぶ)を算出す る。そして、変形情報決定部 626は、変形情報の複数の符号ィ匕候補が予め記憶され たデータテーブルを内部に備えているので、第 1ゲインおよび第 2ゲインをこれらの符 号化候補と比較し、最も類似した符号化候補を選択して、この符号化候補を表すィ ンデッタスを変形情報として出力する。また、このインデックスは、変形スペクトル生成 部 627にも送られる。
[0162] 変形スペクトル生成部 627は、入力信号である第 1スペクトル、第 1閾値設定部 622 — 1で得られる第 1閾値 TH1、第 2閾値設定部 623— 1で得られる第 2閾値 TH2、お よび変形情報決定部 626から出力される変形情報、を用いて、第 1スぺ外ルの変形 を行い、生成された変形スペクトルを出力する。
[0163] 図 27、図 28は、変形スペクトルの生成方法を説明するための図である。
[0164] 変形スペクトル生成部 627は、変形情報を用いて第 1平均値と第 3平均値との比の 復号値 (以下、復号第 1ゲインと呼ぶ)、および第 2平均値と第 4平均値との比の復号 値 (以下、復号第 2ゲインと呼ぶ)を生成する。これらの対応関係は、図 27に示す通り である。
[0165] 次に、変形スペクトル生成部 627は、第 1スペクトルの振幅値と第 1閾値 TH1とを比 較することにより、領域 Aに属するスペクトルを特定し、これらのスペクトルに復号第 1 ゲインを乗じる。同様に、変形スペクトル生成部 627は、第 1スペクトルの振幅値と第 2 閾値 TH2とを比較することにより、領域 Bに属するスペクトルを特定し、これらのスぺク トルに復号第 2ゲインを乗じる。
[0166] 一方、図 28に示す通り、第 1スペクトルのうち、第 1閾値 TH1と第 2閾値 TH2とに挟 まれる領域 (以下、領域 C)に属するスペクトルに対しては、符号化情報が存在しない 。そこで、変形スペクトル生成部 627は、復号第 1ゲインと復号第 2ゲインの中間的な 値を有するゲインを使用する。例えば、図 28に示されるような、復号第 1ゲインと、復 号第 2ゲインと、第 1閾値 TH1と、第 2閾値 TH2とに基づく特性曲線から、ある振幅 x に対応する復号ゲイン yを求め、このゲインを第 1スペクトルの振幅に乗じれば良い。 すなわち、復号ゲイン yは、復号第 1ゲインおよび復号第 2ゲインの線形補間値となつ ている。
[0167] 図 29は、復号ィ匕装置で使用されるスペクトル変形部 662内部の主要な構成を示し たブロック図である。なお、このスペクトル変形部 662は、実施の形態 1で示した変形 部 162に対応するものである。
[0168] 基本的動作は上記のスペクトル変形部 612と同様なので、詳細な説明は省略する 力 このスペクトル変形部 662は、第 1スペクトルのみを処理対象とするので、処理系 統が 1つとなっている。
[0169] このように、本実施の形態によれば、第 1スペクトルの振幅の分布および第 2スぺタト ルの振幅の分布をそれぞれ把握し、比較的絶対振幅の大きなグループと比較的絶 対振幅の小さなグループとに分けて、各グループの振幅の代表値を求める。そして、 第 1スペクトルと第 2スペクトルの各グループの振幅の代表値の比をとることにより、第 1スペクトルおよび第 2スペクトル間のダイナミックレンジの比、すなわちスペクトルの 変形情報を得て、これを符号化する。これにより、指数関数のような演算量の多い関 数を用いることなぐ変形情報を求めることができる。
[0170] また、本実施の形態によれば、第 1スペクトルおよび第 2スペクトルの振幅の分布か ら標準偏差を求め、この標準偏差に基づいて第 1閾値〜第 4閾値を求める。よって、 実際のスぺ外ルに基づいた閾値が設定されるので、変形情報の符号ィ匕精度を向上 させることがでさる。
[0171] また、本実施の形態によれば、復号第 1ゲインおよび復号第 2ゲインを用いて第 1ス ベクトルのゲイン調整を行うことにより、第 1スペクトルのダイナミックレンジを制御する 。そして、復号第 1ゲインおよび復号第 2ゲインは、第 1スペクトルが第 2スペクトルの 高域部に近づくように決定される。よって、第 1スペクトルのダイナミックレンジは、第 2 スペクトルの高域部のダイナミックレンジに近づく。さらに、復号第 1ゲインおよび復号 第 2ゲインの算出には、指数関数のような演算量の多い関数を使用する必要がない
[0172] なお、本実施の形態では、復号第 1ゲインが復号第 2ゲインよりも大きい場合を例に とって説明したが、音声信号の性質によっては、復号第 1ゲインよりも復号第 2ゲイン の方が大きい場合がある。すなわち、第 1スペクトルのダイナミックレンジよりも第 2ス ベクトルの高域部のダイナミックレンジの方が大き 、場合がある。このような現象は、 入力音声信号が摩擦音のような音の場合に生じることが多 、。力かる場合にも本実 施の形態に係るスペクトル変形方法は適用することができる。
[0173] また、本実施の形態では、スペクトルを絶対振幅の比較的大きなグループと比較的 小さなグループとの 2つのグループに分ける場合を例にとって説明した力 ダイナミツ クレンジの再現性を高めるために、より多くのグループに分けるようにしても良 、。
[0174] また、本実施の形態では、平均値を基準として振幅を換算し、この換算後の振幅に 基づ!/、て、スペクトルを振幅の比較的大きなグループと比較的小さなグループとに分 ける場合を例にとって説明した力 元の振幅値をそのまま用いて、この振幅に基づい てスぺタトノレのグノレーピングを行っても良 、。
[0175] また、本実施の形態では、スペクトルの絶対振幅のばらつき度を算出するのに標準 偏差を用いる場合を例にとって説明したが、これに限定されず、例えば、標準偏差と 同様の統計的パラメータとして分散を用いることができる。
[0176] また、本実施の形態では、各グループのスペクトル振幅の代表値として、各グルー プにおけるスペクトルの絶対振幅の平均値を用いる場合を例にとって説明した力 こ れに限定されず、例えば、各グループにおけるスペクトルの絶対振幅の中央値等を 用いても良い。
[0177] また、本実施の形態では、ダイナミックレンジの調整に各スペクトルの振幅値を用い る場合を例にとって説明した力 振幅値の代わりにスペクトルのエネルギー値を用い ても良い。
[0178] また、各グループに対応する代表値を求める際に、例えば MDCT係数のように、 最初からスペクトルの振幅に正または負の符号を持つ場合には、平均値を零と換算 する必要はなぐ単にスペクトルの振幅の絶対値を用いて各グループに対応する代 表値を求めれば良い。
[0179] 以上、本発明の各実施の形態について説明した。
[0180] 本発明に係る符号化装置および復号化装置は、上記各実施の形態に限定されず 、種々変更して実施することが可能である。
[0181] 本発明に係る符号ィ匕装置および復号ィ匕装置は、移動体通信システムにおける通 信端末装置および基地局装置に搭載することも可能であり、これにより上記と同様の 作用効果を有する通信端末装置および基地局装置を提供することができる。
[0182] なお、ここでは、本発明をスケーラブル符号化方式に適用する場合を例にとって説 明したが、本発明は別の符号ィ匕方式にも適用可能である。
[0183] また、ここでは、本発明をノヽードウエアで構成する場合を例にとって説明した力 本 発明はソフトウェアで実現することも可能である。例えば、本発明に係る符号化方法( 復号化方法)のアルゴリズムをプログラミング言語によって記述し、このプログラムをメ モリに記憶してぉ 、て情報処理手段によって実行させることにより、本発明に係る符 号化装置 (復号化装置)と同様の機能を実現することができる。
[0184] また、上記各実施の形態の説明に用いた各機能ブロックは、典型的には集積回路 である LSIとして実現される。これらは個別に 1チップ化されていても良いし、一部ま たは全てを含むように 1チップィ匕されて ヽても良!、。
[0185] また、ここでは LSIとした力 集積度の違いによって、 IC、システム LSI、スーパー L SI、ウノレ卜ラ LSI等と呼称されることちある。
[0186] また、集積回路化の手法は LSIに限るものではなぐ専用回路または汎用プロセッ サで実現しても良い。 LSI製造後に、プログラム化することが可能な FPGA (Field
Programmable Gate Array)や、 LSI内部の回路セルの接続もしくは設定を再構成可 能なリコンフィギユラブル ·プロセッサを利用しても良!、。
[0187] さらに、半導体技術の進歩または派生する別技術により、 LSIに置き換わる集積回 路化の技術が登場すれば、当然、その技術を用いて機能ブロックの集積ィ匕を行って も良い。バイオ技術の適応等が可能性としてあり得る。
[0188] 本明細書は、 2004年 5月 14日出願の特願 2004— 145425、 2004年 11月 5日出 願の特願 2004— 322953、および 2005年 4月 28日出願の特願 2005— 133729 に基づく。これらの内容はすべてここに含めておく。
産業上の利用可能性
[0189] 本発明に係る符号化装置、復号化装置、およびこれらの方法は、スケーラブル符 号化 Z復号化等に適用できる。

Claims

請求の範囲
[1] 入力信号の高域スぺ外ル部の符号ィ匕を行う符号ィ匕手段と、
前記入力信号の低域スペクトル部の符号化信号を復号化した第 1の低域スペクトル を取得し、この第 1の低域スペクトルの振幅を一様に制限した第 2の低域スペクトルを 生成する制限手段と、
を具備し、
前記符号化手段は、
前記第 2の低域スペクトルに基づいて前記高域スペクトル部の符号ィ匕を行う、 符号化装置。
[2] 前記制限手段で使用された制限の仕方に関する情報を、前記符号化手段によって 得られた符号化情報と併せて送信する送信手段、
をさらに具備することを特徴とする請求項 1記載の符号化装置。
[3] 前記制限手段は、
前記第 2の低域スペクトルの振幅の平均的な振れ幅と、前記高域スペクトル部の振 幅の平均的な振れ幅とが同等となるように、前記第 1の低域スペクトルの振幅を一様 に制限する、
請求項 1記載の符号化装置。
[4] 前記制限手段は、
前記第 1の低域スペクトルの振幅を 0から 1までの範囲内の所定値で一様にべき乗 することで前記第 2の低域スペクトルを生成する、
請求項 1記載の符号化装置。
[5] 前記符号化手段は、
前記第 2の低域スペクトルを内部状態として有するピッチフィルタと、
前記ピッチフィルタを用いて前記高域スペクトル部を推定する推定手段と、 を具備し、
前記推定手段の推定結果に対応する前記ピッチフィルタの特性を符号化する、 請求項 1記載の符号化装置。
[6] 前記ピッチフィルタの特性は、次の伝達関数によって表される、 請求項 5記載の符号化装置。
[数 1]
Figure imgf000039_0001
ただし、
P(z):ピッチフィルタの伝達関数
z : z変換係数
T:ラグ係数
[7] 前記制限手段は、
前記第 1の低域スぺ外ルに基づいて制限の仕方に関する情報を推定し、推定され た情報を用いて前記第 2の低域スペクトルを生成する、
請求項 1記載の符号化装置。
[8] 前記制限手段は、
前記第 1の低域スペクトルを用いてダイナミックレンジ情報を求めるダイナミックレン ジ算出手段と、
前記ダイナミックレンジ情報を用いて、前記第 1の低域スペクトルの振幅を一様に制 限するための変形情報を推定する変形情報推定手段と、
推定された前記変形情報を用いて前記第 1の低域スペクトルの振幅を一様に制限 する変形手段と、
を具備する請求項 7記載の符号化装置。
[9] 前記制限手段は、
前記入力信号の周期性を示すピッチ情報を用いて、前記第 1の低域スペクトルの 振幅を一様に制限するための変形情報を推定する変形情報推定手段と、
推定された前記変形情報を用いて前記第 1の低域スペクトルの振幅を一様に制限 する変形手段と、
を具備する請求項 7記載の符号化装置。
[10] 前記ピッチ情報は、
ピッチゲインとピッチ周期との少なくとも一方を用いて構成されている、 請求項 9記載の符号化装置。
[11] 前記制限手段は、
前記入力信号のスペクトル概形情報を用いて、前記第 1の低域スペクトルの振幅を 一様に制限するための変形情報を推定する変形情報推定手段と、
推定された前記変形情報を用いて前記第 1の低域スペクトルの振幅を一様に制限 する変形手段と、
を具備する請求項 7記載の符号化装置。
[12] 前記変形情報推定手段は、
複数のスペクトル概形情報の候補が格納されたスペクトル概形情報格納手段と、 複数のダイナミックレンジ情報の候補が格納されたダイナミックレンジ情報格納手段 と、
を具備し、
前記スペクトル概形情報格納手段から、前記入力信号のスペクトル概形情報に対 応するスペクトル概形情報の候補を選択し、
前記ダイナミックレンジ情報格納手段から、前記選択されたスペクトル概形情報の 候補に対応するダイナミックレンジ情報の候補を選択することで前記変形情報を推定 する、
請求項 11記載の符号化装置。
[13] 前記第 1の低域スペクトルを振幅の違いに応じて複数のグループに分ける第 1の分 類手段と、
前記第 1の低域スペクトルの各グループの振幅の代表値を取得する第 1の代表値 取得手段と、
前記高域スペクトル部を振幅の違いに応じて複数のグループに分ける第 2の分類 手段と、
前記高域スペクトル部の各グループの振幅の代表値を取得する第 2の代表値取得 手段と、
をさらに具備し、
前記制限手段は、
前記第 1の低域スペクトルの各グループの代表値と、前記高域スペクトル部の各グ ループの代表値とに基づいて、前記第 1の低域スペクトルの振幅を一様に制限する、 請求項 1記載の符号化装置。
[14] 前記制限手段は、
前記各代表値間の振幅を、前記各代表値に対して線形補間を行うことにより求める 請求項 13記載の符号化装置。
[15] 前記制限手段は、
前記第 1の低域スペクトルの各グループの代表値と、前記高域スペクトル部の各グ ループの代表値との比に基づいて、前記第 1の低域スペクトルの振幅を一様に制限 する、
請求項 13記載の符号化装置。
[16] 前記第 1および第 2の代表値取得手段は、
各グループの振幅の平均値または中央値を取得する、
請求項 13記載の符号化装置。
[17] 符号化装置で生成された符号に含まれる低域スペクトル部の符号を復号化した信 号を周波数領域の信号に変換した第 1の低域スぺ外ルを生成する変換手段と、 前記符号化装置で生成された符号に含まれる高域スペクトル部の符号を復号ィ匕す る復号化手段と、
前記符号化装置で生成された符号に含まれるスペクトル変形情報に従って前記第 1の低域スペクトルの振幅を一様に制限した第 2の低域スペクトルを生成する制限手 段と、
を具備し、
前記復号化手段は、
前記第 2の低域スペクトルに基づいて前記高域スペクトル部の符号を復号ィ匕する、 復号化装置。
[18] 符号化装置で生成された符号に含まれる低域スペクトル部の符号を復号化した信 号を周波数領域の信号に変換した第 1の低域スぺ外ルを生成する変換手段と、 前記符号化装置で生成された符号に含まれる高域スペクトル部の符号を復号ィ匕す る復号化手段と、
前記第 1の低域スペクトルの振幅を一様に制限した第 2の低域スペクトルを生成す る制限手段と、
を具備し、
前記制限手段は、
前記第 1の低域スぺ外ルに基づいて制限の仕方に関する情報を推定し、推定され た情報を用いて前記第 2の低域スペクトルを生成し、
前記復号化手段は、
前記第 2の低域スペクトルに基づいて前記高域スペクトル部の符号を復号ィ匕する、 復号化装置。
[19] 請求項 1記載の符号化装置を具備する通信端末装置。
[20] 請求項 1記載の符号化装置を具備する基地局装置。
[21] 請求項 17記載の復号化装置を具備する通信端末装置。
[22] 請求項 17記載の復号化装置を具備する基地局装置。
[23] 請求項 18記載の復号化装置を具備する通信端末装置。
[24] 請求項 18記載の復号化装置を具備する基地局装置。
[25] 入力信号の高域スペクトル部の符号ィ匕を行う符号化ステップと、
前記入力信号の低域スペクトル部の符号化信号を復号化した第 1の低域スペクトル を取得する取得ステップと、
前記第 1の低域スペクトルの振幅を一様に制限した第 2の低域スペクトルを生成す る制限ステップと、
を具備し、
前記符号化ステップは、
前記第 2の低域スペクトルに基づいて前記高域スペクトル部の符号ィ匕を行う、 符号化方法。
[26] 符号化装置で生成された符号に含まれる低域スペクトル部の符号を復号化した信 号を周波数領域の信号に変換した第 1の低域スペクトルを生成する変換ステップと、 前記符号化装置で生成された符号に含まれる高域スペクトル部の符号を復号ィ匕す る復号化ステップと、
前記符号化装置で生成された符号に含まれるスペクトル変形情報を取得する取得 ステップと、
前記スペクトル変形情報に従って前記第 1の低域スペクトルの振幅を一様に制限し た第 2の低域スペクトルを生成する制限ステップと、
を具備し、
前記復号化ステップは、
前記第 2の低域スペクトルに基づいて前記高域スペクトル部の符号を復号ィ匕する、 復号化方法。
符号化装置で生成された符号に含まれる低域スペクトル部の符号を復号化した信 号を周波数領域の信号に変換した第 1の低域スペクトルを生成する変換ステップと、 前記符号化装置で生成された符号に含まれる高域スペクトル部の符号を復号ィ匕す る復号化ステップと、
前記第 1の低域スペクトルの振幅を一様に制限した第 2の低域スペクトルを生成す る制限ステップと、
を具備し、
前記制限ステップは、
前記第 1の低域スぺ外ルに基づいて制限の仕方に関する情報を推定し、推定され た情報を用いて前記第 2の低域スペクトルを生成し、
前記復号化ステップは、
前記第 2の低域スペクトルに基づいて前記高域スペクトル部の符号を復号ィ匕する、 復号化方法。
PCT/JP2005/008771 2004-05-14 2005-05-13 符号化装置、復号化装置、およびこれらの方法 WO2005111568A1 (ja)

Priority Applications (8)

Application Number Priority Date Filing Date Title
US11/596,085 US8417515B2 (en) 2004-05-14 2005-05-13 Encoding device, decoding device, and method thereof
EP15187955.8A EP2991075B1 (en) 2004-05-14 2005-05-13 Speech coding method and speech coding apparatus
EP05739225.0A EP1744139B1 (en) 2004-05-14 2005-05-13 Decoding apparatus and method thereof
KR1020067023764A KR101143724B1 (ko) 2004-05-14 2005-05-13 부호화 장치 및 부호화 방법, 및 부호화 장치를 구비한 통신 단말 장치 및 기지국 장치
KR1020117031030A KR101213840B1 (ko) 2004-05-14 2005-05-13 복호화 장치 및 복호화 방법, 및 복호화 장치를 구비하는 통신 단말 장치 및 기지국 장치
BRPI0510014-3A BRPI0510014B1 (pt) 2004-05-14 2005-05-13 Dispositivo de codificação, dispositivo de decodificação e método do mesmo
EP18154839.7A EP3336843B1 (en) 2004-05-14 2005-05-13 Speech coding method and speech coding apparatus
JP2006513565A JP4810422B2 (ja) 2004-05-14 2005-05-13 符号化装置、復号化装置、およびこれらの方法

Applications Claiming Priority (6)

Application Number Priority Date Filing Date Title
JP2004-145425 2004-05-14
JP2004145425 2004-05-14
JP2004-322953 2004-11-05
JP2004322953 2004-11-05
JP2005133729 2005-04-28
JP2005-133729 2005-04-28

Publications (1)

Publication Number Publication Date
WO2005111568A1 true WO2005111568A1 (ja) 2005-11-24

Family

ID=35394267

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/JP2005/008771 WO2005111568A1 (ja) 2004-05-14 2005-05-13 符号化装置、復号化装置、およびこれらの方法

Country Status (6)

Country Link
US (1) US8417515B2 (ja)
EP (3) EP3336843B1 (ja)
JP (2) JP4810422B2 (ja)
KR (2) KR101213840B1 (ja)
BR (1) BRPI0510014B1 (ja)
WO (1) WO2005111568A1 (ja)

Cited By (18)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2007126015A1 (ja) * 2006-04-27 2007-11-08 Panasonic Corporation 音声符号化装置、音声復号化装置、およびこれらの方法
WO2007129728A1 (ja) 2006-05-10 2007-11-15 Panasonic Corporation 符号化装置及び符号化方法
JP2009116245A (ja) * 2007-11-09 2009-05-28 Yamaha Corp 音声強調装置
WO2009113316A1 (ja) * 2008-03-14 2009-09-17 パナソニック株式会社 符号化装置、復号装置およびこれらの方法
WO2011121782A1 (ja) * 2010-03-31 2011-10-06 富士通株式会社 帯域拡張装置および帯域拡張方法
WO2011161886A1 (ja) * 2010-06-21 2011-12-29 パナソニック株式会社 復号装置、符号化装置およびこれらの方法
WO2013027631A1 (ja) * 2011-08-24 2013-02-28 ソニー株式会社 符号化装置および方法、復号装置および方法、並びにプログラム
JP5419876B2 (ja) * 2008-08-08 2014-02-19 パナソニック株式会社 スペクトル平滑化装置、符号化装置、復号装置、通信端末装置、基地局装置及びスペクトル平滑化方法
KR20160138373A (ko) 2014-03-31 2016-12-05 파나소닉 인텔렉츄얼 프로퍼티 코포레이션 오브 아메리카 부호화 장치, 복호 장치, 부호화 방법, 복호 방법, 및 프로그램
JP2017507363A (ja) * 2014-03-03 2017-03-16 サムスン エレクトロニクス カンパニー リミテッド 帯域幅拡張のための高周波復号方法及びその装置
US9679580B2 (en) 2010-04-13 2017-06-13 Sony Corporation Signal processing apparatus and signal processing method, encoder and encoding method, decoder and decoding method, and program
US9691410B2 (en) 2009-10-07 2017-06-27 Sony Corporation Frequency band extending device and method, encoding device and method, decoding device and method, and program
US9767824B2 (en) 2010-10-15 2017-09-19 Sony Corporation Encoding device and method, decoding device and method, and program
US9842603B2 (en) 2011-08-24 2017-12-12 Sony Corporation Encoding device and encoding method, decoding device and decoding method, and program
US9875746B2 (en) 2013-09-19 2018-01-23 Sony Corporation Encoding device and method, decoding device and method, and program
US10692511B2 (en) 2013-12-27 2020-06-23 Sony Corporation Decoding apparatus and method, and program
US11521628B2 (en) 2016-08-23 2022-12-06 Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. Apparatus and method for encoding an audio signal using compensation values between three spectral bands
US11688406B2 (en) 2014-03-24 2023-06-27 Samsung Electronics Co., Ltd. High-band encoding method and device, and high-band decoding method and device

Families Citing this family (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP3336843B1 (en) * 2004-05-14 2021-06-23 Panasonic Intellectual Property Corporation of America Speech coding method and speech coding apparatus
KR20070012832A (ko) * 2004-05-19 2007-01-29 마츠시타 덴끼 산교 가부시키가이샤 부호화 장치, 복호화 장치 및 이들의 방법
US20090201983A1 (en) * 2008-02-07 2009-08-13 Motorola, Inc. Method and apparatus for estimating high-band energy in a bandwidth extension system
US8983831B2 (en) * 2009-02-26 2015-03-17 Panasonic Intellectual Property Corporation Of America Encoder, decoder, and method therefor
JP5609737B2 (ja) 2010-04-13 2014-10-22 ソニー株式会社 信号処理装置および方法、符号化装置および方法、復号装置および方法、並びにプログラム
CN102893330B (zh) * 2010-05-11 2015-04-15 瑞典爱立信有限公司 用于处理音频信号的方法和装置
JP6075743B2 (ja) 2010-08-03 2017-02-08 ソニー株式会社 信号処理装置および方法、並びにプログラム
US8762158B2 (en) * 2010-08-06 2014-06-24 Samsung Electronics Co., Ltd. Decoding method and decoding apparatus therefor
WO2013051210A1 (ja) * 2011-10-07 2013-04-11 パナソニック株式会社 符号化装置及び符号化方法
CN105324982B (zh) * 2013-05-06 2018-10-12 波音频有限公司 用于抑制不需要的音频信号的方法和设备
US8879858B1 (en) * 2013-10-01 2014-11-04 Gopro, Inc. Multi-channel bit packing engine

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2003108197A (ja) * 2001-07-13 2003-04-11 Matsushita Electric Ind Co Ltd オーディオ信号復号化装置およびオーディオ信号符号化装置
WO2004027368A1 (en) * 2002-09-19 2004-04-01 Matsushita Electric Industrial Co., Ltd. Audio decoding apparatus and method
JP2004102095A (ja) * 2002-09-12 2004-04-02 Sony Corp 信号処理システム、信号処理装置および方法、記録媒体、並びにプログラム

Family Cites Families (38)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP3106749B2 (ja) * 1992-12-10 2000-11-06 ソニー株式会社 適応型ダイナミックレンジ符号化装置
US5742734A (en) * 1994-08-10 1998-04-21 Qualcomm Incorporated Encoding rate selection in a variable rate vocoder
JP3301473B2 (ja) 1995-09-27 2002-07-15 日本電信電話株式会社 広帯域音声信号復元方法
US6097824A (en) * 1997-06-06 2000-08-01 Audiologic, Incorporated Continuous frequency dynamic range audio compressor
JP3283413B2 (ja) * 1995-11-30 2002-05-20 株式会社日立製作所 符号化復号方法、符号化装置および復号装置
US5687191A (en) * 1995-12-06 1997-11-11 Solana Technology Development Corporation Post-compression hidden data transport
US6006108A (en) * 1996-01-31 1999-12-21 Qualcomm Incorporated Digital audio processing in a dual-mode telephone
CN1126264C (zh) * 1996-02-08 2003-10-29 松下电器产业株式会社 宽频带声音信号编码装置和宽频带声音信号编码解码装置
SE512719C2 (sv) * 1997-06-10 2000-05-02 Lars Gustaf Liljeryd En metod och anordning för reduktion av dataflöde baserad på harmonisk bandbreddsexpansion
CA2252170A1 (en) * 1998-10-27 2000-04-27 Bruno Bessette A method and device for high quality coding of wideband speech and audio signals
JP4354561B2 (ja) 1999-01-08 2009-10-28 パナソニック株式会社 オーディオ信号符号化装置及び復号化装置
SE9903553D0 (sv) * 1999-01-27 1999-10-01 Lars Liljeryd Enhancing percepptual performance of SBR and related coding methods by adaptive noise addition (ANA) and noise substitution limiting (NSL)
AUPR433901A0 (en) * 2001-04-10 2001-05-17 Lake Technology Limited High frequency signal construction method
CN1235192C (zh) 2001-06-28 2006-01-04 皇家菲利浦电子有限公司 传输系统以及用于接收窄带音频信号的接收机和方法
US7260541B2 (en) * 2001-07-13 2007-08-21 Matsushita Electric Industrial Co., Ltd. Audio signal decoding device and audio signal encoding device
DE60204038T2 (de) * 2001-11-02 2006-01-19 Matsushita Electric Industrial Co., Ltd., Kadoma Vorrichtung zum codieren bzw. decodieren eines audiosignals
CN100395817C (zh) 2001-11-14 2008-06-18 松下电器产业株式会社 编码设备、解码设备和解码方法
JP3926726B2 (ja) 2001-11-14 2007-06-06 松下電器産業株式会社 符号化装置および復号化装置
JP3870193B2 (ja) * 2001-11-29 2007-01-17 コーディング テクノロジーズ アクチボラゲット 高周波再構成に用いる符号器、復号器、方法及びコンピュータプログラム
JP4317355B2 (ja) 2001-11-30 2009-08-19 パナソニック株式会社 符号化装置、符号化方法、復号化装置、復号化方法および音響データ配信システム
JP2003255973A (ja) * 2002-02-28 2003-09-10 Nec Corp 音声帯域拡張システムおよび方法
US6978010B1 (en) * 2002-03-21 2005-12-20 Bellsouth Intellectual Property Corp. Ambient noise cancellation for voice communication device
US20030187663A1 (en) * 2002-03-28 2003-10-02 Truman Michael Mead Broadband frequency translation for high frequency regeneration
CA2388352A1 (en) * 2002-05-31 2003-11-30 Voiceage Corporation A method and device for frequency-selective pitch enhancement of synthesized speed
US7447631B2 (en) * 2002-06-17 2008-11-04 Dolby Laboratories Licensing Corporation Audio coding system using spectral hole filling
SE0202770D0 (sv) * 2002-09-18 2002-09-18 Coding Technologies Sweden Ab Method for reduction of aliasing introduces by spectral envelope adjustment in real-valued filterbanks
JP3854922B2 (ja) 2002-10-22 2006-12-06 株式会社みずほ銀行 取引支援方法及び取引支援プログラム
KR100754439B1 (ko) * 2003-01-09 2007-08-31 와이더댄 주식회사 이동 전화상의 체감 음질을 향상시키기 위한 디지털오디오 신호의 전처리 방법
JP2004322953A (ja) 2003-04-28 2004-11-18 Isono Body:Kk 車両用断熱ボディ及びこれに用いる断熱パネル
US7318035B2 (en) * 2003-05-08 2008-01-08 Dolby Laboratories Licensing Corporation Audio coding systems and methods using spectral component coupling and spectral component regeneration
EP1755109B1 (en) 2004-04-27 2012-08-15 Panasonic Corporation Scalable encoding and decoding apparatuses and methods
EP3336843B1 (en) * 2004-05-14 2021-06-23 Panasonic Intellectual Property Corporation of America Speech coding method and speech coding apparatus
KR20070084002A (ko) * 2004-11-05 2007-08-24 마츠시타 덴끼 산교 가부시키가이샤 스케일러블 복호화 장치 및 스케일러블 부호화 장치
JP2005133729A (ja) 2004-11-22 2005-05-26 Takehiro Yagi 振動軸と可動リングを用いた駆動装置
EP1840874B1 (en) * 2005-01-11 2019-04-10 NEC Corporation Audio encoding device, audio encoding method, and audio encoding program
RU2376657C2 (ru) * 2005-04-01 2009-12-20 Квэлкомм Инкорпорейтед Системы, способы и устройства для высокополосного предыскажения шкалы времени
WO2007037361A1 (ja) * 2005-09-30 2007-04-05 Matsushita Electric Industrial Co., Ltd. 音声符号化装置および音声符号化方法
ATE463029T1 (de) * 2006-05-10 2010-04-15 Panasonic Corp Codierungseinrichtung und codierungsverfahren

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2003108197A (ja) * 2001-07-13 2003-04-11 Matsushita Electric Ind Co Ltd オーディオ信号復号化装置およびオーディオ信号符号化装置
JP2004102095A (ja) * 2002-09-12 2004-04-02 Sony Corp 信号処理システム、信号処理装置および方法、記録媒体、並びにプログラム
WO2004027368A1 (en) * 2002-09-19 2004-04-01 Matsushita Electric Industrial Co., Ltd. Audio decoding apparatus and method

Non-Patent Citations (5)

* Cited by examiner, † Cited by third party
Title
NAKATOH Y. ET AL: "Spectrum Senkei Shazo ni yoru Taiiki Seigen Onsei no Kataiikika.", THE TRANSACTIONS OF THE INSTITUTE OF ELECTRONICS, INFORMATION AND COMMUNICATION ENGINEERS., vol. J83-D-II, no. 11, 25 November 2000 (2000-11-25), pages 2246 - 2254, XP002975697 *
OSHIKIRI M ET AL: "Jikan-Shuhasu Ryoiki ni Keisu no Tekio Sentaku Vector Ryoshinka o Mochiita 10Hz Taiiki Scalable Fugoka Hoshiki.", FIT (FORUM ON INFORMATION TECHNOLOGY)., 25 August 2003 (2003-08-25), pages 239 - 240, XP002986229 *
OSHIKIRI M ET AL: "Pitch Filtering ni Motozuku Spectrum Fugoka o Mochiita Cho Kotaiiki Scalable Onsei Fugoka no Kaizen.", THE ACOUSTICAL SOCIETY OF JAPAN(ASJ)., 21 September 2004 (2004-09-21), pages 297 - 298, XP002994276 *
OSHIKIRI M ET AL: "Pitch Filtering ni yoru Taiiki Kakucho Gijutsu o Mochiita 7/10/15kHz Taiiki Scalable Onsei Fugoka Hoshiki.", THE ACOUSTICAL SOCIETY OF JAPAN (ASJ)., 17 March 2004 (2004-03-17), pages 327 - 328, XP002986230 *
See also references of EP1744139A4 *

Cited By (50)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP2012305A1 (en) * 2006-04-27 2009-01-07 Panasonic Corporation Audio encoding device, audio decoding device, and their method
JP5173800B2 (ja) * 2006-04-27 2013-04-03 パナソニック株式会社 音声符号化装置、音声復号化装置、およびこれらの方法
EP2012305A4 (en) * 2006-04-27 2010-04-14 Panasonic Corp AUDIOCODING DEVICE, AUDIO DECODING DEVICE AND METHOD THEREFOR
EP2323131A1 (en) * 2006-04-27 2011-05-18 Panasonic Corporation Audio encoding device, audio decoding device, and their method
WO2007126015A1 (ja) * 2006-04-27 2007-11-08 Panasonic Corporation 音声符号化装置、音声復号化装置、およびこれらの方法
US8121850B2 (en) 2006-05-10 2012-02-21 Panasonic Corporation Encoding apparatus and encoding method
WO2007129728A1 (ja) 2006-05-10 2007-11-15 Panasonic Corporation 符号化装置及び符号化方法
JP5190359B2 (ja) * 2006-05-10 2013-04-24 パナソニック株式会社 符号化装置及び符号化方法
EP2200026A1 (en) * 2006-05-10 2010-06-23 Panasonic Corporation Encoding apparatus and encoding method
JP2009116245A (ja) * 2007-11-09 2009-05-28 Yamaha Corp 音声強調装置
JP5449133B2 (ja) * 2008-03-14 2014-03-19 パナソニック株式会社 符号化装置、復号装置およびこれらの方法
WO2009113316A1 (ja) * 2008-03-14 2009-09-17 パナソニック株式会社 符号化装置、復号装置およびこれらの方法
US8452588B2 (en) 2008-03-14 2013-05-28 Panasonic Corporation Encoding device, decoding device, and method thereof
JP5419876B2 (ja) * 2008-08-08 2014-02-19 パナソニック株式会社 スペクトル平滑化装置、符号化装置、復号装置、通信端末装置、基地局装置及びスペクトル平滑化方法
US9691410B2 (en) 2009-10-07 2017-06-27 Sony Corporation Frequency band extending device and method, encoding device and method, decoding device and method, and program
US8972248B2 (en) 2010-03-31 2015-03-03 Fujitsu Limited Band broadening apparatus and method
WO2011121782A1 (ja) * 2010-03-31 2011-10-06 富士通株式会社 帯域拡張装置および帯域拡張方法
US10546594B2 (en) 2010-04-13 2020-01-28 Sony Corporation Signal processing apparatus and signal processing method, encoder and encoding method, decoder and decoding method, and program
US10224054B2 (en) 2010-04-13 2019-03-05 Sony Corporation Signal processing apparatus and signal processing method, encoder and encoding method, decoder and decoding method, and program
US10381018B2 (en) 2010-04-13 2019-08-13 Sony Corporation Signal processing apparatus and signal processing method, encoder and encoding method, decoder and decoding method, and program
US10297270B2 (en) 2010-04-13 2019-05-21 Sony Corporation Signal processing apparatus and signal processing method, encoder and encoding method, decoder and decoding method, and program
US9679580B2 (en) 2010-04-13 2017-06-13 Sony Corporation Signal processing apparatus and signal processing method, encoder and encoding method, decoder and decoding method, and program
WO2011161886A1 (ja) * 2010-06-21 2011-12-29 パナソニック株式会社 復号装置、符号化装置およびこれらの方法
JP5730303B2 (ja) * 2010-06-21 2015-06-10 パナソニック インテレクチュアル プロパティ コーポレーション オブアメリカPanasonic Intellectual Property Corporation of America 復号装置、符号化装置およびこれらの方法
US9076434B2 (en) 2010-06-21 2015-07-07 Panasonic Intellectual Property Corporation Of America Decoding and encoding apparatus and method for efficiently encoding spectral data in a high-frequency portion based on spectral data in a low-frequency portion of a wideband signal
US10236015B2 (en) 2010-10-15 2019-03-19 Sony Corporation Encoding device and method, decoding device and method, and program
US9767824B2 (en) 2010-10-15 2017-09-19 Sony Corporation Encoding device and method, decoding device and method, and program
WO2013027631A1 (ja) * 2011-08-24 2013-02-28 ソニー株式会社 符号化装置および方法、復号装置および方法、並びにプログラム
US9361900B2 (en) 2011-08-24 2016-06-07 Sony Corporation Encoding device and method, decoding device and method, and program
US9842603B2 (en) 2011-08-24 2017-12-12 Sony Corporation Encoding device and encoding method, decoding device and decoding method, and program
JP2013044923A (ja) * 2011-08-24 2013-03-04 Sony Corp 符号化装置および方法、並びにプログラム
US9875746B2 (en) 2013-09-19 2018-01-23 Sony Corporation Encoding device and method, decoding device and method, and program
US11705140B2 (en) 2013-12-27 2023-07-18 Sony Corporation Decoding apparatus and method, and program
US10692511B2 (en) 2013-12-27 2020-06-23 Sony Corporation Decoding apparatus and method, and program
CN111312277B (zh) * 2014-03-03 2023-08-15 三星电子株式会社 用于带宽扩展的高频解码的方法及设备
US10410645B2 (en) 2014-03-03 2019-09-10 Samsung Electronics Co., Ltd. Method and apparatus for high frequency decoding for bandwidth extension
CN111312278B (zh) * 2014-03-03 2023-08-15 三星电子株式会社 用于带宽扩展的高频解码的方法及设备
US11676614B2 (en) 2014-03-03 2023-06-13 Samsung Electronics Co., Ltd. Method and apparatus for high frequency decoding for bandwidth extension
CN111312278A (zh) * 2014-03-03 2020-06-19 三星电子株式会社 用于带宽扩展的高频解码的方法及设备
CN111312277A (zh) * 2014-03-03 2020-06-19 三星电子株式会社 用于带宽扩展的高频解码的方法及设备
JP2017507363A (ja) * 2014-03-03 2017-03-16 サムスン エレクトロニクス カンパニー リミテッド 帯域幅拡張のための高周波復号方法及びその装置
US10803878B2 (en) 2014-03-03 2020-10-13 Samsung Electronics Co., Ltd. Method and apparatus for high frequency decoding for bandwidth extension
JP2018165843A (ja) * 2014-03-03 2018-10-25 サムスン エレクトロニクス カンパニー リミテッド 帯域幅拡張のための高周波復号方法及びその装置
US11688406B2 (en) 2014-03-24 2023-06-27 Samsung Electronics Co., Ltd. High-band encoding method and device, and high-band decoding method and device
KR20160138373A (ko) 2014-03-31 2016-12-05 파나소닉 인텔렉츄얼 프로퍼티 코포레이션 오브 아메리카 부호화 장치, 복호 장치, 부호화 방법, 복호 방법, 및 프로그램
US11232803B2 (en) 2014-03-31 2022-01-25 Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. Encoding device, decoding device, encoding method, decoding method, and non-transitory computer-readable recording medium
EP3550563A1 (en) 2014-03-31 2019-10-09 FRAUNHOFER-GESELLSCHAFT zur Förderung der angewandten Forschung e.V. Encoder, decoder, encoding method, decoding method, and program
US10269361B2 (en) 2014-03-31 2019-04-23 Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. Encoding device, decoding device, encoding method, decoding method, and non-transitory computer-readable recording medium
US11521628B2 (en) 2016-08-23 2022-12-06 Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. Apparatus and method for encoding an audio signal using compensation values between three spectral bands
US11935549B2 (en) 2016-08-23 2024-03-19 Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. Apparatus and method for encoding an audio signal using an output interface for outputting a parameter calculated from a compensation value

Also Published As

Publication number Publication date
KR101213840B1 (ko) 2012-12-20
US20080027733A1 (en) 2008-01-31
BRPI0510014A (pt) 2007-09-18
JPWO2005111568A1 (ja) 2008-03-27
US8417515B2 (en) 2013-04-09
KR20120008537A (ko) 2012-01-30
KR101143724B1 (ko) 2012-05-11
JP2011043853A (ja) 2011-03-03
EP1744139B1 (en) 2015-11-11
EP2991075B1 (en) 2018-08-01
EP3336843A1 (en) 2018-06-20
EP2991075A3 (en) 2016-04-06
JP5371931B2 (ja) 2013-12-18
BRPI0510014B1 (pt) 2019-03-26
EP1744139A4 (en) 2011-01-19
EP2991075A2 (en) 2016-03-02
EP3336843B1 (en) 2021-06-23
JP4810422B2 (ja) 2011-11-09
KR20070017524A (ko) 2007-02-12
EP1744139A1 (en) 2007-01-17

Similar Documents

Publication Publication Date Title
JP5371931B2 (ja) 符号化装置、復号化装置、およびこれらの方法
JP3579047B2 (ja) オーディオ復号装置と復号方法およびプログラム
RU2679973C1 (ru) Декодер речи, кодер речи, способ декодирования речи, способ кодирования речи, программа декодирования речи и программа кодирования речи
US8949119B2 (en) Signal processing apparatus and signal processing method, encoder and encoding method, decoder and decoding method, and program
US8639500B2 (en) Method, medium, and apparatus with bandwidth extension encoding and/or decoding
EP1157374B1 (en) Enhancing perceptual performance of sbr and related hfr coding methods by adaptive noise-floor addition and noise substitution limiting
JP5226092B2 (ja) スペクトル符号化装置、スペクトル復号化装置、音響信号送信装置、音響信号受信装置、およびこれらの方法
JP5485909B2 (ja) オーディオ信号処理方法及び装置
US9251800B2 (en) Generation of a high band extension of a bandwidth extended audio signal
WO2007043648A1 (ja) 変換符号化装置および変換符号化方法
KR20130042472A (ko) 신호 처리 장치 및 방법, 부호화 장치 및 방법, 복호 장치 및 방법 및 프로그램
WO2006041055A1 (ja) スケーラブル符号化装置、スケーラブル復号装置及びスケーラブル符号化方法
US9548057B2 (en) Adaptive gain-shape rate sharing
JP4354561B2 (ja) オーディオ信号符号化装置及び復号化装置
WO2011058752A1 (ja) 符号化装置、復号装置およびこれらの方法

Legal Events

Date Code Title Description
AK Designated states

Kind code of ref document: A1

Designated state(s): AE AG AL AM AT AU AZ BA BB BG BR BW BY BZ CA CH CN CO CR CU CZ DE DK DM DZ EC EE EG ES FI GB GD GE GH GM HR HU ID IL IN IS JP KE KG KM KP KR KZ LC LK LR LS LT LU LV MA MD MG MK MN MW MX MZ NA NG NI NO NZ OM PG PH PL PT RO RU SC SD SE SG SK SL SM SY TJ TM TN TR TT TZ UA UG US UZ VC VN YU ZA ZM ZW

AL Designated countries for regional patents

Kind code of ref document: A1

Designated state(s): BW GH GM KE LS MW MZ NA SD SL SZ TZ UG ZM ZW AM AZ BY KG KZ MD RU TJ TM AT BE BG CH CY CZ DE DK EE ES FI FR GB GR HU IE IS IT LT LU MC NL PL PT RO SE SI SK TR BF BJ CF CG CI CM GA GN GQ GW ML MR NE SN TD TG

121 Ep: the epo has been informed by wipo that ep was designated in this application
WWE Wipo information: entry into national phase

Ref document number: 2006513565

Country of ref document: JP

WWE Wipo information: entry into national phase

Ref document number: 200580014118.9

Country of ref document: CN

WWE Wipo information: entry into national phase

Ref document number: 2005739225

Country of ref document: EP

WWE Wipo information: entry into national phase

Ref document number: 11596085

Country of ref document: US

WWE Wipo information: entry into national phase

Ref document number: 1020067023764

Country of ref document: KR

WWE Wipo information: entry into national phase

Ref document number: 1360/MUMNP/2006

Country of ref document: IN

NENP Non-entry into the national phase

Ref country code: DE

WWW Wipo information: withdrawn in national office

Ref document number: DE

WWP Wipo information: published in national office

Ref document number: 2005739225

Country of ref document: EP

WWP Wipo information: published in national office

Ref document number: 1020067023764

Country of ref document: KR

ENP Entry into the national phase

Ref document number: PI0510014

Country of ref document: BR

WWP Wipo information: published in national office

Ref document number: 11596085

Country of ref document: US