WO2014068995A1 - 音声音響符号化装置、音声音響復号装置、音声音響符号化方法及び音声音響復号方法 - Google Patents

音声音響符号化装置、音声音響復号装置、音声音響符号化方法及び音声音響復号方法 Download PDF

Info

Publication number
WO2014068995A1
WO2014068995A1 PCT/JP2013/006496 JP2013006496W WO2014068995A1 WO 2014068995 A1 WO2014068995 A1 WO 2014068995A1 JP 2013006496 W JP2013006496 W JP 2013006496W WO 2014068995 A1 WO2014068995 A1 WO 2014068995A1
Authority
WO
WIPO (PCT)
Prior art keywords
spectrum
band
subband
unit
compression
Prior art date
Application number
PCT/JP2013/006496
Other languages
English (en)
French (fr)
Inventor
河嶋 拓也
押切 正浩
Original Assignee
パナソニック株式会社
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Priority to EP19190764.1A priority Critical patent/EP3584791B1/en
Priority to US14/439,090 priority patent/US9679576B2/en
Application filed by パナソニック株式会社 filed Critical パナソニック株式会社
Priority to RU2015116610A priority patent/RU2648629C2/ru
Priority to CA2889942A priority patent/CA2889942C/en
Priority to ES13850858T priority patent/ES2753228T3/es
Priority to BR112015009352-3A priority patent/BR112015009352B1/pt
Priority to JP2014544326A priority patent/JP6234372B2/ja
Priority to KR1020157011505A priority patent/KR102161162B1/ko
Priority to MX2015004981A priority patent/MX355630B/es
Priority to EP13850858.5A priority patent/EP2916318B1/en
Priority to EP23163921.2A priority patent/EP4220636A1/en
Priority to CN201380050272.6A priority patent/CN104737227B/zh
Priority to KR1020207027193A priority patent/KR102215991B1/ko
Priority to PL13850858T priority patent/PL2916318T3/pl
Publication of WO2014068995A1 publication Critical patent/WO2014068995A1/ja
Priority to US15/590,360 priority patent/US9892740B2/en
Priority to US15/848,841 priority patent/US10210877B2/en
Priority to US16/243,588 priority patent/US10510354B2/en

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/02Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
    • G10L19/0204Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders using subband decomposition
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/02Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/02Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
    • G10L19/0212Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders using orthogonal transformation
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/02Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
    • G10L19/032Quantisation or dequantisation of spectral components
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/002Dynamic bit allocation
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/02Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
    • G10L19/032Quantisation or dequantisation of spectral components
    • G10L19/035Scalar quantisation
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/16Vocoder architecture
    • G10L19/18Vocoders using multiple modes
    • G10L19/24Variable rate codecs, e.g. for generating different qualities using a scalable representation such as hierarchical encoding or layered encoding
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Processing of the speech or voice signal to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/038Speech enhancement, e.g. noise reduction or echo cancellation using band spreading techniques
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Processing of the speech or voice signal to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/038Speech enhancement, e.g. noise reduction or echo cancellation using band spreading techniques
    • G10L21/0388Details of processing therefor

Definitions

  • the present invention relates to a speech / acoustic encoding apparatus, a speech / acoustic decoding apparatus, a speech / acoustic encoding method, and a speech / acoustic decoding method using a transform encoding method.
  • Non-Patent Document 1 International Telecommunication Union Telecommunication Standardization Sector
  • extended band a band up to 7 kHz is encoded by the core encoding unit
  • extended band a band of 7 kHz or higher
  • the core coding unit performs coding using code-excited linear prediction (CELP: Code ⁇ ⁇ Excited Linear Prediction), and converts the residual signal that cannot be encoded by CELP into the frequency domain using MDCT (Modified Discrete Cosine Transform).
  • encoding is performed by transform encoding such as FPC (Factorial PulsedingCoding) or AVQ (Algebraic Vector Quantization).
  • FPC Fractorial PulsedingCoding
  • AVQ Algebraic Vector Quantization
  • the extension coding unit searches for a band having a high correlation with a low-frequency spectrum up to 7 kHz in an extension band of 7 kHz or more, and uses a method that uses the band with the highest correlation for coding of the extension band. It has become.
  • Non-Patent Document 1 and Non-Patent Document 2 the number of encoding bits is determined in advance on the low frequency side up to 7 kHz and on the high frequency side above 7 kHz, respectively. Encoding is performed with a predetermined number of encoding bits.
  • Non-Patent Document 3 discloses that a method for encoding SWB is standardized by ITU-T.
  • an input signal is converted into a frequency domain by MDCT, divided into subbands, and encoding is performed for each subband.
  • this encoding apparatus first calculates and encodes each subband energy.
  • coding bits for encoding the frequency fine structure are allocated to each subband based on the subband energy.
  • the frequency fine structure is encoded using lattice vector quantization (Lattice Vector Quantization).
  • Lattice vector quantization like FPC or AVQ, is a type of transform coding suitable for spectral coding.
  • encoding is performed by performing a process of filling an energy error between the subband energy and the decoded spectrum with a noise vector.
  • Non-Patent Document 4 describes an encoding technique based on AAC (Advanced Audio Coding).
  • AAC Advanced Audio Coding
  • encoding is efficiently performed by calculating a masking threshold based on an auditory model and excluding MDCT coefficients equal to or less than the masking threshold from the encoding target.
  • Non-Patent Document 1 and Non-Patent Document 2 bits are fixedly assigned to the low frequency side encoded by the core encoding unit and the high frequency side encoded by the extension encoding unit, and the signal characteristics are Accordingly, it is not possible to appropriately assign the coded bits to the low band and the high band. For this reason, there exists a subject that sufficient performance cannot be exhibited depending on the characteristic of an input signal.
  • Non-Patent Document 3 there is a mechanism for adaptively allocating bits from low to high according to the subband energy, but focusing on the auditory characteristics that the sensitivity to spectral errors is lower in the higher range, There is a problem that bits are more easily allocated than necessary. This will be described below.
  • the amount of bits necessary for each subband is calculated so that the larger the subband energy calculated for each subband, the more bits are allocated.
  • transform coding due to the nature of the algorithm, even if the coding bit allocation is increased by 1 bit, the coding performance is not improved, and the coding result may not change unless a certain number of bits are allocated. For this reason, it is convenient to assign bits in such a unit of the number of bits, not in units of bits.
  • a unit of the number of bits necessary for such encoding is referred to as a unit here. The greater the number of assigned units, the more accurately the spectrum shape and amplitude can be represented. In consideration of auditory characteristics, it is common for the high frequency sub-band to have a wider bandwidth than the low frequency, but the wider the bandwidth, the greater the amount of bits required per unit. The number of bits of one unit is changed according to the bandwidth.
  • the coded bits allocated in units are consumed for the amplitude information and position information.
  • Non-Patent Document 4 encoding is efficiently performed by removing MDCT coefficients that are not important for auditory characteristics from the encoding target.
  • the position information of each spectrum to be encoded is expressed accurately. Yes. For this reason, the wider the subband bandwidth, the more bits must be consumed to represent the position of the individual spectrum.
  • Non-Patent Document 3 and Non-Patent Document 4 consume many bits even in the high frequency range and try to accurately represent the position of each spectrum. In other words, there is a problem that the encoded bits are used more than necessary in order to accurately represent the spectrum position.
  • An object of the present invention is to provide a speech / acoustic encoding apparatus, a speech / acoustic decoding apparatus, a speech / acoustic encoding method, and an audio / acoustic decoding apparatus that reduce the amount of encoding bits allocated to encoding of an extension band spectrum while suppressing deterioration in sound quality of the extension band. It is to provide a speech acoustic decoding method.
  • the speech acoustic coding apparatus includes a time-frequency conversion unit that converts a time-domain input signal into a frequency-domain spectrum, a division unit that divides the spectrum into subbands, and a subband within an extension band. Are divided into combinations of multiple samples in order from the low-frequency side or the high-frequency side, and a spectrum with a large absolute value is selected from each combination, and the selected spectrum is packed and arranged on the frequency axis, and the subband is selected.
  • the band compression means for compressing the above-mentioned band, and the transform coding means for coding the sub-band spectrum lower than the extension band and the band-compressed spectrum by transform coding are employed.
  • the audio-acoustic decoding apparatus of the present invention divides the spectrum into a combination of a plurality of samples in order from the low band side or the high band side in the subbands in the extension band, and in each combination, the spectrum having a large absolute value of the amplitude is divided.
  • Transform coding and decoding means for decoding the encoded data, band expanding means for expanding the compressed subband bandwidth to the original subband bandwidth, subbands lower than the decoded extension band
  • Subband integration means for integrating the spectrum and the subband spectrum in the expanded extension band into one vector; and an integrated frequency region.
  • a configuration that includes a frequency-time converting means for converting into a signal in the time domain spectrum, the.
  • the speech acoustic coding method of the present invention includes a time-frequency conversion step of converting a time-domain input signal into a frequency-domain spectrum, a division step of dividing the spectrum into sub-bands, and a sub-band spectrum in an extension band. Divide the sample into combinations of multiple samples in order from the low-frequency side or the high-frequency side, select the spectrum with the largest absolute value in each combination, and compress the band by packing the selected spectrum on the frequency axis And a transform coding step of coding the sub-band spectrum lower than the extension band and the band-compressed spectrum by transform coding.
  • the speech acoustic decoding method of the present invention divides the spectrum of subbands in the extended band into a combination of a plurality of samples in order from the low frequency side or the high frequency side, and in each combination, a spectrum having a large absolute value of the amplitude is divided. Select and arrange the selected spectrum on the frequency axis and arrange the encoded data in which the band is compressed and the subband spectrum lower than the extension band is encoded by transform encoding.
  • a transform encoding decoding step for decoding a band expanding step for expanding the compressed sub-band bandwidth to the original sub-band bandwidth, a sub-band spectrum lower than the decoded extended band, and expansion
  • the present invention it is possible to reduce the amount of coding bits allocated to the coding of the extension band spectrum while suppressing the deterioration of the sound quality of the extension band.
  • Diagram for explaining bandwidth compression Diagram for explaining the operation of the unit recalculation unit The block diagram which shows the structure of the speech acoustic decoding apparatus concerning Embodiment 1,3,5 of this invention Diagram for explaining bandwidth expansion
  • band expansion was carried out based on position correction information The block diagram which shows the structure of the voice sound encoding apparatus which concerns on Embodiment 4 of this invention. Illustration for explaining interleaving
  • Diagram showing an example of bandwidth compression Diagram showing an example of bandwidth expansion The block diagram which shows the structure of the speech acoustic coding apparatus which concerns on Embodiment 6 of this invention.
  • the figure which shows an example of the transform coding which does not perform band limitation The figure which shows an example of the transform encoding which performed band limitation
  • FIG. 1 is a block diagram showing the configuration of speech acoustic coding apparatus 100 according to Embodiment 1 of the present invention.
  • the configuration of the speech acoustic coding apparatus 100 will be described with reference to FIG.
  • the time frequency conversion unit 101 acquires an input signal, converts the acquired time domain input signal into a frequency domain, and outputs the input signal spectrum to the subband division unit 102.
  • MDCT is described as an example of time-frequency conversion, but orthogonal transform such as FFT (Fast Fourier Transform) or DCT (Discrete Cosine Transform) may be used.
  • the subband division unit 102 divides the input signal spectrum output from the time-frequency conversion unit 101 into M subbands, and outputs the subband spectrum to the subband energy calculation unit 103 and the band compression unit 105.
  • non-uniform division is performed such that the bandwidth is narrower as the frequency is lower and the bandwidth is wider as the frequency is higher. This description is also based on this assumption.
  • the subband length of the nth subband is represented by W [n]
  • the subband spectrum vector is represented by Sn. Each Sn stores W [n] spectra. Further, it is assumed that a relationship of W [k ⁇ 1] ⁇ W [k] is established.
  • G. 719 performs time-frequency conversion on an input signal having a sampling rate of 48 kHz. Thereafter, the spectrum is divided into subbands every 8 points on the frequency axis in the lowest region, and is divided into subbands every 32 points in the highest region.
  • G. 719 is an encoding method that can use many encoded bits from 32 kbps to 128 kbps, but in order to further reduce the bit rate, it is useful to increase the length of each subband. It seems that it is useful to increase the subband length.
  • the subband energy calculation unit 103 calculates energy for each subband from the subband spectrum output from the subband division unit 102, outputs the quantized subband energy to the unit number calculation unit 104, and outputs subband energy. Is output to the multiplexing unit 108.
  • the subband energy represents the energy of the spectrum included in the subband as a logarithm with a base of 2.
  • the formula for calculating the subband energy is shown in the following formula (1).
  • n is the subband number
  • E [n] is the subband energy of subband n
  • W [n] is the subband length of subband n
  • Sn [i] is the i th spectrum of the n th subband. Means. It is assumed that the subband length is registered in advance in the subband energy calculation unit 103.
  • the unit number calculation unit 104 calculates a provisional number of allocated bits to be assigned to the subband based on the quantized subband energy output from the subband energy calculation unit 103, and the unit number recalculation unit along with the calculated unit number The data is output to 106. Similarly to the subband energy calculation unit 103, the subband length is registered in the unit number calculation unit 104 in advance. Basically, more encoded bits are allocated as the subband energy E [n] increases. However, coded bits are assigned in units, and the number of bits per unit depends on the subband length. Therefore, it is necessary to allocate optimally including bit allocation in other subbands. Details of the unit number calculation unit 104 will be described later.
  • the band compression unit 105 performs band compression on each subband of the extension band using the subband spectrum output from the subband division unit 102, and subband compression including the low band side subband and the compressed subband.
  • the spectrum is output to transform coding section 107.
  • the purpose of band compression is to reduce the coding bits required for transform coding by deleting spectrum position information while leaving the main spectrum as a coding target. Details of the band compression unit 105 will be described later.
  • the unit number recalculation unit 106 regenerates the bits reduced in the band-compressed subband to a low frequency outside the extension band. To distribute. Unit recalculation section 106 redistributes the number of units based on the redistributed bits, and outputs the number of redistributed units to transform coding section 107. Details of the unit number recalculation unit 106 will be described later.
  • the transform encoding unit 107 encodes the subband compressed spectrum output from the band compressing unit 105 by transform encoding, and outputs the transform encoded data to the multiplexing unit 108.
  • a transform coding method such as FPC, AVQ, or LVQ is used as the transform coding method.
  • Transform encoding section 107 encodes the input subband compressed spectrum using encoded bits determined by the number of redistribution units output from unit number recalculation section 106. The greater the number of redistribution units, the greater the number of pulses approximating the spectrum and the more accurate the amplitude value. Whether to increase the number of pulses or improve the amplitude accuracy is determined based on the distortion between the input spectrum to be encoded and the spectrum after decoding.
  • the multiplexing unit 108 multiplexes the subband energy encoded data output from the subband energy calculation unit 103 and the transform encoded data output from the transform encoder 107, and outputs the result as encoded data.
  • the unit number calculation unit 104 calculates the number of bits allocated to each subband based on the subband energy output from the subband energy calculation unit 103.
  • the number-of-units calculation unit 104 determines bits to be actually allocated to each subband (hereinafter referred to as “number of allocated bits”), but in transform coding, encoded bits are allocated in units.
  • the provisional allocation bit number cannot be used as the allocation bit number as it is. For example, if the provisional allocation bit number is 30 and one unit is 7 bits, and the allocation bit number does not exceed the provisional allocation bit number, the unit number is 4, and the allocation bit number is 28. Thus, 2 bits are extra bits for the provisional number of assigned bits.
  • the encoded bits may be excessive or insufficient when the calculation is completed for all the subbands. Therefore, a device for efficiently allocating coded bits is required. For example, it is conceivable to distribute bits without excess or deficiency by adding surplus bits generated in a certain subband to the provisional number of bits allocated to the next subband.
  • the provisional allocation bit number calculated from the subband energy is 33, the number of allocated units is 6, the allocation bit number is 30, and the surplus bits are 3 bits.
  • the surplus bit 2 of the previous subband is added to the provisional allocation bit number of this subband, and the provisional allocation bit number is 35.
  • the number of units is 7, and the number of allocated bits is 35. That is, the surplus bits are 0 bits.
  • a band compression method in the band compression unit 105 shown in FIG. 1 will be described.
  • a band compression method here, an example will be described in which a combination of two samples is made in order from the lower band side of the band compression target subband, and a sample having a larger absolute value amplitude is left among the combinations.
  • FIG. 2 shows a diagram for explaining band compression.
  • FIG. 2 shows a state in which the band compression target subband n in the extension band is extracted, the subband length is W (n), the horizontal axis indicates the frequency, and the vertical axis indicates the absolute value amplitude of the spectrum.
  • FIG. 2 (A) shows a subband spectrum before band compression.
  • Band compression section 105 creates a combination of two subband spectra output from subband division section 102 in order from the low frequency side, and leaves a spectrum with a large absolute value of each combination.
  • the second spectrum is selected from the combination of the first and second spectrums, and the first spectrum is discarded.
  • the band compression unit 105 selects a larger spectrum in each of the third and fourth combinations, the fifth and sixth combinations, and the seventh and eighth combinations. As a result of selection, the result is as shown in FIG. 2B, and the four spectra at positions 2, 4, 5, and 8 are selected.
  • the band compression unit 105 performs band compression on the selected spectrum.
  • Band compression is performed by placing the selected spectrum close to the low frequency side on the frequency axis.
  • the band-compressed subband spectrum is represented in FIG. 2C, and the bandwidth after the band compression is half that before the compression.
  • the sub-bandwidth W ′ (n) after bandwidth compression can be expressed by the following equation (2).
  • the unit number recalculation unit 106 is similar to the unit number calculation unit 104 in that the allocation bit number is calculated so as to be close to the provisional allocation bit number. However, in the band compression target subband, the unit number calculation unit The difference is that the number of units calculated in 104 is maintained and the bits reduced in the band compression target subband are redistributed to the low frequency band.
  • the unit number recalculation unit 106 first determines the number of bits allocated to the band compression target subband in order to redistribute the bits reduced in the band compression target subband to the low band. Since the number of units is fixed and the subband length is reduced by band compression, the number of allocated bits can be reduced. Here, the case where the subband length is halved by band compression is described as an example, so the number of bits per unit is reduced by 1 bit. When the total number of units of the band compression target subband is 10, the number of bits can be reduced by 10 bits.
  • the surplus bits generated in this subband are sequentially added to the provisional number of allocated bits of the high frequency side subband, and the units are redistributed.
  • the units can be redistributed to all the subbands after the band compression.
  • FIG. 3 is a diagram for explaining the operation of the unit number recalculation unit 106.
  • the uppermost stage shows a subband division image.
  • the subband is divided into 1 to M, and subband 1 is the lowest subband and subband M is the highest subband.
  • subband 1 to subband (kh-1) be a low-frequency subband that is not subject to band compression
  • subbands kh to M be subbands that are subject to band compression.
  • the middle stage (the stage described as “unit number calculation unit output”) indicates the number of units output from the unit number calculation unit 104.
  • u (k) is assigned to the subband k by the unit number calculation unit 104.
  • the unit number recalculation unit 106 uses u (k) calculated by the unit number calculation unit 104 as it is for the subband kh to subband M. This is because the number of pulses approximating the spectrum is maintained even after the bandwidth is compressed. Thereby, since the bandwidth is compressed while maintaining the spectrum approximation capability in the band compression subband, the encoded bits can be reduced, and the reduced bits can be used as surplus bits.
  • the lower part shows an image of the output of the unit number recalculation unit 106.
  • the unit number recalculation unit 106 uses the output of the unit number calculation unit 104 as it is from the subband kh to the subband M, so the number of units remains u (k).
  • the unit number recalculation unit 106 can use surplus bits for the subband on the low frequency side, and newly calculates u ′ (k). As a result, it is possible to improve the encoding accuracy of the low-frequency spectrum that is important for hearing, so that the overall sound quality can be improved.
  • the reduced bit number is still the allocation bit number. May be evenly allocated to subbands for which calculation is not performed and added to the provisional number of bits allocated to these subbands. Further, a larger amount may be added to a subband having a larger subband energy. Further, it is not always necessary to perform processing in ascending order from the low frequency side to the high frequency side.
  • the audio-acoustic encoding apparatus 100 performs band compression on each subband of the extension band to reduce the encoded bits, and redistributes the reduced encoded bits as a surplus bit to a low frequency range, Can be improved.
  • FIG. 4 is a block diagram showing the configuration of the speech acoustic decoding apparatus 200 according to Embodiment 1 of the present invention. Since the number of units or the number of bits per unit is not transmitted, it is necessary to calculate on the decoding device side. For this reason, similarly to the encoding apparatus, it has a unit number calculation unit and a unit number recalculation unit. Hereinafter, the configuration of the speech acoustic decoding apparatus 200 will be described with reference to FIG.
  • the code separation unit 201 receives encoded data, separates the input encoded data into subband energy encoded data and transform encoded data, and converts the subband energy encoded data to the subband energy decoding unit 202.
  • the converted encoded data is output to the conversion encoding / decoding unit 205.
  • the subband energy decoding unit 202 decodes the subband energy encoded data output from the code separation unit 201, and outputs the quantized subband energy obtained by the decoding to the unit number calculation unit 203.
  • Unit number calculation section 203 uses the quantized subband energy output from subband energy decoding section 202 to calculate a provisional allocation bit number and unit number, and calculates the provisional allocation bit number and unit number. Is output to the unit number recalculation unit 204. Note that the unit number calculation unit 203 is the same as the unit number calculation unit 104 of the audio-acoustic encoding apparatus 100, and thus detailed description thereof is omitted.
  • the unit number recalculation unit 204 calculates the redistribution unit number based on the provisional allocation bit number and the unit number output from the unit number calculation unit 203, and converts the calculated redistribution unit number into a transform coding / decoding unit. It outputs to 205. Note that the unit number recalculation unit 204 is the same as the unit number recalculation unit 106 of the audio-acoustic encoding apparatus 100, and thus detailed description thereof is omitted.
  • the transform encoding / decoding unit 205 Based on the transform encoded data output from the code separation unit 201 and the number of redistributed units output from the unit number recalculation unit 204, the transform encoding / decoding unit 205 performs sub-decoding of the result of decoding for each subband. It outputs to the band expansion part 206 as a band compression spectrum. The transform coding / decoding unit 205 acquires the number of coded bits required for coding from the number of redistribution units, and decodes the transform coded data.
  • band expanding section 206 outputs the subband compressed spectrum as it is to the subband integrating section 207 as the subband spectrum. . Also, the band expansion unit 206 expands the subband compressed spectrum to the width of the subband length in the subband compression target subband out of the subband compressed spectrum output from the transform coding / decoding unit 205, and outputs the subband spectrum. To the subband integration unit 207.
  • the band compression unit 105 of the audio-acoustic encoding apparatus 100 creates a combination of two samples in order from the lower band side of the band compression subband, and the sample having the larger absolute value amplitude among the combinations. Since the band compression is performed by the remaining method, the band expansion unit 206 expands the decoded spectrum to the original bandwidth (bandwidth before compression) by storing every other decoded spectrum at even addresses or odd addresses. Spectra can be obtained. In this case, the position shift of the decoded subband spectrum is a maximum of one sample. Details of the band expanding unit 206 will be described later.
  • the subband integration unit 207 packs the subband spectrum output from the band expansion unit 206 from the low frequency side and integrates it into one vector, and outputs the integrated vector to the frequency time conversion unit 208 as a decoded signal spectrum.
  • the frequency time conversion unit 208 converts the decoded signal spectrum, which is a frequency domain signal output from the subband integration unit 207, into a time domain signal and outputs a decoded signal.
  • FIG. 5 is a diagram for explaining band expansion.
  • the subband length is W (n)
  • the horizontal axis is frequency
  • the vertical axis is the absolute value of the spectrum
  • the subband compressed spectrum shown in FIG. A case where the image is expanded will be described.
  • the subband compression spectrum located at position 1 after band compression was present at position 1 or position 2 before compression.
  • the subband compression spectrum located at position 2 after band compression was present at position 3 or position 4 before compression.
  • the subband compression spectra existing at position 3 and position 4 after band compression existed at position 5 or position 6, and position 7 or position 8, respectively.
  • the band expansion unit 206 Since the band expansion unit 206 cannot know whether the spectrum after band compression exists at any position before band compression, it expands by arranging the spectrum after band compression at any position.
  • the subband compression spectrum at position 1 after band compression is arranged at position 1 after expansion
  • the subband compression spectrum at position 2 after band compression is arranged at position 3 after expansion. Will continue to place.
  • the spectrum existing at the expanded spectrum position 5 is arranged at the correct position, and the other spectrum positions are arranged at positions shifted by one sample.
  • the encoded data can be decoded by the audioacoustic decoding apparatus 200.
  • the audio-acoustic encoding apparatus 100 creates a combination of two subsamples in order from the low frequency side in the band compression target subband.
  • a spectrum having a large value amplitude and arranging the selected spectrum close to the low frequency side on the frequency axis it is possible to compress a band by thinning out a spectrum that is not important for hearing. Also, this makes it possible to reduce the number of allocated bits necessary for spectrum transform coding.
  • the number of allocated bits reduced in the band compression target subband is redistributed for transform coding of the spectrum in the lower band than the extension band, thereby more accurately expressing the spectrum important for hearing. Sound quality can be improved.
  • the present invention may be configured as a unit number calculation unit 111 by integrating the functions of the unit number calculation unit 104 and the unit number recalculation unit 106 as a speech acoustic encoding apparatus 110.
  • the present invention may be configured as the unit number calculation unit 211 by integrating the functions of the unit number calculation unit 203 and the unit number recalculation unit 204 as the speech acoustic decoding device 210.
  • a combination of 2 samples is made in order from the lower band side of the band compression target subband, and a sample having a larger absolute value amplitude among the combinations is left.
  • other bandwidth compression methods may be used. For example, not only a combination of two samples but also a combination of three or more samples may be created, and a sample having the largest absolute value amplitude among the combinations may be left. In this case, the number of bits that can be reduced by band compression can be increased.
  • the number of samples to be combined may be increased as the frequency becomes higher. Further, the combination is not limited to the order from the low frequency side, but may be made from the high frequency side.
  • FIG. 8 is a block diagram showing a configuration of speech acoustic coding apparatus 120 according to Embodiment 2 of the present invention.
  • the configuration of the audio-acoustic encoding device 120 will be described with reference to FIG. 8 differs from FIG. 1 in that the unit number recalculation unit 106 is deleted, the unit number calculation unit 104 is changed to the unit number calculation unit 111, and a subband energy attenuation unit 121 is added.
  • the subband energy attenuating unit 121 attenuates the subband energy of the band compression target subband among the quantized subband energies output from the subband energy calculating unit 103, and the attenuated subband energy is a unit number calculating unit. To 111.
  • the unit number calculation unit 111 determines a provisional allocation bit based on this subband energy. In the case of halving, the number of bits of the unit is reduced by 1 bit, and surplus bits are generated. However, since there is no unit number recalculation unit 106, the surplus bits cannot be appropriately redistributed from the high frequency subband to the low frequency subband, and may be wasted.
  • the subband energy attenuating unit 121 suppresses generation of useless surplus bits by attenuating the subband energy with respect to the band compression target subband.
  • the subband energy attenuating unit 121 may multiply the subband energy by a constant rate such as 0.8 times or subtract a constant such as 3.0 from the subband energy.
  • FIG. 9 is a block diagram showing the configuration of the audio-acoustic decoding apparatus 220 according to Embodiment 2 of the present invention.
  • the configuration of the audio-acoustic encoding apparatus 220 will be described with reference to FIG. 9 differs from FIG. 4 in that the unit number recalculation unit 204 is deleted, the unit number calculation unit 104 is changed to the unit number calculation unit 211, and a subband energy attenuation unit 221 is added.
  • the subband energy attenuating unit 221 attenuates the subband energy of the band compression target subband out of the subband energy output from the subband energy decoding unit 202, and supplies the attenuated subband energy to the unit number calculation unit 211. Output.
  • the subband energy attenuating unit 221 performs attenuation under the same conditions as the subband energy attenuating unit 121 of the audio-acoustic encoding apparatus 120.
  • the audio-acoustic encoding apparatus 120 attenuates the subband energy of the band compression target subband so that the provisional allocation bits have the same value as that on the encoding side. .
  • Embodiment 3 In Embodiment 1, there is a possibility that the spectrum position after expansion in the sub-band to be band-compressed changes from before band compression. Therefore, at least for the spectrum with the maximum absolute value amplitude (hereinafter referred to as “amplitude maximum spectrum”) that greatly affects the audibility in the subband, it is considered that the spectrum position does not change before and after the band compression. It is done.
  • Embodiment 3 of the present invention a case will be described in which the position after decoding of the maximum amplitude spectrum in a subband to be subjected to band compression is corrected.
  • the configurations of the speech / acoustic encoding apparatus and speech / acoustic decoding apparatus according to Embodiment 3 of the present invention are the same as those in FIG. 1 and FIG. 4 described in Embodiment 1, and include a band compression unit 105 and a band expansion unit. Since only the function 206 is different, the different functions will be described with reference to FIGS. 1 and 4. In the following, description will be made with reference to FIGS. 2 (A), 2 (B), and 5.
  • FIG. 1 The configurations of the speech / acoustic encoding apparatus and speech / acoustic decoding apparatus according to Embodiment 3 of the present invention are the same as those in FIG. 1 and FIG. 4 described in Embodiment 1, and include a band compression unit 105 and a band expansion unit. Since only the function 206 is different, the different functions will be described with reference to FIGS. 1 and 4. In the following, description will be made with reference to FIGS. 2 (A), 2 (B), and 5.
  • the band compression unit 105 searches for the maximum amplitude spectrum from the subband spectrum output from the subband division unit 102.
  • the band compression unit 105 calculates position correction information that is 0 if the position of the maximum amplitude spectrum is located at an odd address and 1 if the position is located at an even address, and outputs the position correction information to the transform coding unit 107.
  • the band compression unit 105 since the maximum amplitude spectrum is a spectrum existing at position 2 (even address), the band compression unit 105 calculates 1 as position correction information.
  • the calculated position correction information is encoded by the transform encoding unit 107 and transmitted to the speech acoustic decoding apparatus 200.
  • band expansion section 206 subtracts a subband compressed spectrum as a subband spectrum as it is in a subband that is not subjected to band compression out of the subband compressed spectrum output from transform coding / decoding section 205.
  • the data is output to the band integration unit 207.
  • the band expansion unit 206 arranges the maximum amplitude spectrum based on the decoded position correction information in the subband compression target subband out of the subband compression spectrum output from the transform coding / decoding unit 205, and the remaining
  • the sub-band compressed spectrum is expanded to the width of the sub-band length, and is output to the sub-band integrating unit 207 as a sub-band spectrum.
  • the position correction information is 1, the maximum amplitude spectrum is arranged at an even address.
  • the result is shown in FIG. Compared to FIG. 2A, it can be seen that the amplitude maximum spectrum located at position 2 is located at an accurate position. Except for the maximum amplitude spectrum, there is a possibility that a maximum of one sample is shifted.
  • the spectrum position of the amplitude maximum spectrum can be maintained before and after band compression.
  • the bandwidth When the bandwidth is halved, 1 bit needs to be allocated to the position correction information. Therefore, if the number of units is 5, it is finally determined from 5 bits for reduction and 1 bit for increasing position correction information.
  • the reduced number of bits is 4.
  • the final number of bits to be reduced is 8 from 10 bits for reduction and 2 bits for increasing position correction information.
  • speech acoustic coding apparatus 100 is 0 when the position of the maximum amplitude spectrum of the band compression target subband is located at an odd address, and 1 when located at an even address.
  • the position correction information to be calculated is transmitted to the audio-acoustic decoding apparatus 200, and the audio-acoustic decoding apparatus 200 arranges the maximum amplitude spectrum based on the position correction information, so that the amplitude that greatly affects the audibility in the subband.
  • the spectral position of the maximum spectrum can be maintained before and after band compression.
  • the position correction information is calculated as 0 when the position of the maximum amplitude spectrum is located at an odd address, and 1 when it is located at an even address. Not exclusively. For example, it may be 1 if the position of the maximum amplitude spectrum is located at an odd address, and may be 0 if it is located at an even address. Further, when the band compression target subband is compressed to 1/3, 1/4, etc., position correction information associated therewith is calculated.
  • Embodiment 4 of the present invention the spectrum arrangement of the band compression target subband is changed according to a predetermined procedure (hereinafter referred to as “interleave”), and the maximum amplitude spectrum and the next-point spectrum are not adjacent to each other. The case of doing so will be described.
  • FIG. 11 is a block diagram showing a configuration of speech acoustic coding apparatus 130 according to Embodiment 4 of the present invention.
  • the configuration of the speech acoustic coding apparatus 130 will be described with reference to FIG.
  • FIG. 11 differs from FIG. 6 in that an interleaver 131 is added.
  • the interleaver 131 interleaves the arrangement of the subband spectrum output from the subband division unit 102 and outputs the subband spectrum obtained by interleaving the arrangement to the band compression unit 105.
  • FIG. 12 shows a diagram for explaining interleaving.
  • FIG. 12 shows a state where the band compression target subband n is extracted, where the subband length is W (n), the horizontal axis indicates the frequency, and the vertical axis indicates the absolute value amplitude of the spectrum.
  • FIG. 12A shows a spectrum before band compression, where the spectrum at position 2 is the maximum amplitude spectrum and the spectrum at position 1 is the next-point spectrum.
  • the spectrum at position 2 is selected as shown in FIG. 12B, and the next-point spectrum at position 1 is excluded from the encoding target. End up.
  • FIG. 12C shows the spectrum after interleaving. Specifically, it shows a state where odd addresses are rearranged on the low frequency side on the spectrum, and even addresses are rearranged on the high frequency side on the spectrum.
  • the interleaver 131 interleaves the spectrum arrangement in the band compression target subband, the position of the maximum amplitude spectrum becomes 5 and the position of the next spectrum becomes 1, so that they are separated from each other. For this reason, even if band compression is performed by the method shown in Embodiment 1, as shown in FIG. 12D, it is possible to encode the maximum amplitude spectrum and the next point spectrum. However, the deviation of the spectrum position after decoding is a maximum of 2 samples in this example.
  • FIG. 13 is a block diagram showing the configuration of the audio-acoustic decoding apparatus 230 according to Embodiment 4 of the present invention.
  • the configuration of the audio-acoustic decoding device 230 will be described with reference to FIG.
  • FIG. 13 differs from FIG. 7 in that a deinterleaver 231 is added.
  • the deinterleaver 231 deinterleaves the arrangement of the subband spectrum in the subband spectrum to be compressed among the subband spectra separated from each subband output from the band expansion unit 206, and deinterleaves the subband.
  • the spectrum is output to the subband integration unit 207.
  • the audio-acoustic encoding apparatus 130 interleaves the spectrum arrangement of the band compression target subbands and performs band compression, so that the next point spectrum and the maximum amplitude spectrum are adjacent to each other. However, both can be separated, and it can be avoided that the next-point spectrum is excluded due to the band compression.
  • Embodiments 1 to 3 can be arbitrarily combined.
  • the method for encoding position correction information for the maximum amplitude spectrum of Embodiment 3 is combined with this embodiment, the position of the maximum amplitude spectrum can be encoded accurately even if interleaving is performed. .
  • the configurations of the speech / acoustic encoding apparatus and speech / acoustic decoding apparatus according to Embodiment 5 of the present invention are the same as those in FIG. 1 and FIG. 4 described in Embodiment 1, and include a band compression unit 105 and a band expansion unit. Since only the function 206 is different, the different functions will be described with reference to FIGS. 1 and 4.
  • the band compression unit 105 searches for the maximum amplitude spectrum from the subband spectrum output from the subband division unit 102.
  • the spectrum on the low frequency side is set as the amplitude maximum spectrum.
  • the band compression unit 105 extracts the searched amplitude maximum spectrum and the spectrum in the vicinity thereof, and sets it as a spectrum that is not subjected to band compression, that is, a part of the subband compression spectrum.
  • one sample before and after the maximum amplitude spectrum that is, three samples are excluded from the band compression target.
  • the band compression unit 105 performs band compression on the lower band side than the spectrum that is not subjected to band compression, and arranges the band compression result from the lower band side of the subband compression spectrum.
  • the band compression unit 105 arranges a spectrum that is not subjected to band compression, continuously on the high frequency side of the subband compression spectrum.
  • the band compression unit 105 performs band compression on the higher band side than the spectrum not subject to band compression, and continuously arranges the band compression result on the higher band side of the subband compression spectrum.
  • the band compression unit 105 can obtain a subband compressed spectrum in which the vicinity of the maximum amplitude spectrum is excluded from the band compression target, and the adjacent maximum amplitude spectrum and the next point spectrum are encoded. It becomes possible. If the position after expansion of the maximum amplitude spectrum is not accurately represented, there is no particular information to be sent to the audio-acoustic decoding apparatus 200 regarding this band compression method.
  • the band expanding unit 206 searches for the maximum amplitude value in the subband compressed spectrum output from the transform coding / decoding unit 205. Similar to the speech acoustic coding apparatus 100, when a plurality of maximum amplitude values are detected, the spectrum on the low frequency side is set as the maximum amplitude spectrum. As a result, the band extension unit 206 sets a spectrum near the maximum amplitude spectrum as a spectrum that is not subject to band compression. Here, a total of three samples are extracted as spectrums that are not subject to band compression, with the maximum amplitude spectrum and one sample before and after that.
  • the band expanding unit 206 expands the subband compressed spectrum on the lower frequency side than the spectrum that is not subjected to band compression.
  • the expansion is performed by sequentially arranging the low-frequency side spectrum of the subband compression spectrum at odd addresses and immediately before the spectrum that is not subject to band compression.
  • the band extension unit 206 arranges a spectrum that is not subjected to band compression, following the high band side of the extended low band side subband spectrum.
  • the band extending unit 206 expands the subband compressed spectrum on the higher frequency side than the spectrum not subject to band compression, and arranges the expanded subband spectrum on the higher frequency side of the spectrum not subject to band compression.
  • the band extension unit 206 By performing such processing by the band extension unit 206, it is possible to expand a subband compressed spectrum in which the vicinity of the maximum amplitude spectrum is excluded from the band compression target.
  • FIG. 14 shows an example of band compression.
  • the subband length is set to 10
  • the amplitude value from the low frequency side is set to 8, 3, 6, 2, 10, 9, 5, 7, 4, 1.
  • the band compression unit 105 first searches for the maximum amplitude spectrum of the subband spectrum, and extracts a total of three samples, each of the maximum amplitude spectrum and one sample before and after that, as non-band compression target spectra.
  • the spectrum at position 5 is the maximum
  • the spectra at positions 4, 5, and 6 are not subject to band compression. That is, the spectrums located at positions 1, 2, 3 on the low frequency side and positions 7, 8, 9, 10 on the high frequency side are subject to band compression.
  • the spectrums at positions 1 and 3 are selected, followed by the spectrums at positions 4, 5, and 6 that are not subject to band compression, and subsequently the spectra at positions 8 and 10. Is selected to construct a subband compressed spectrum.
  • FIG. 15 shows an example of band expansion.
  • the band extension unit 206 searches for the maximum amplitude value of the subband compression spectrum.
  • the spectrum at positions 3, 4, and 5 is a spectrum that is not subject to band compression. That is, it can be seen that the spectrum at positions 1 and 2 on the low frequency side and the spectrum at positions 6 and 7 on the high frequency side are band-compressed spectra.
  • the band extension unit 206 arranges the subband compressed spectra at positions 1 and 2 at positions 1 and 3 of the subband spectrum, respectively. Subsequently, the band extension unit 206 arranges the spectrum that is not subject to band compression at positions 5, 6, and 7 of the subband spectrum. Furthermore, the band extension unit 206 arranges the subband compressed spectra at the positions 6 and 7 at the positions 8 and 10 of the subband spectrum. By such a procedure, it is possible to extend the sub-band compressed spectrum obtained by removing the maximum amplitude spectrum and its vicinity from the band compression target and performing the band compression.
  • the audio-acoustic encoding apparatus 100 excludes the maximum amplitude spectrum in the band compression target subband and the spectrum in the vicinity thereof from the band compression target, and performs band compression on the other spectra. Even when the next point spectrum and the maximum amplitude spectrum are adjacent to each other, it is possible to prevent the next point spectrum from being excluded by band compression.
  • the spectrum that was output stably over several frames can be encoded for each frame because the coding bit amount varies from frame to frame as the subband energy varies. The phenomenon that it cannot be made may occur. In this case, the clarity of the decoded speech is deteriorated and made noisy.
  • FIG. 16 is a block diagram showing a configuration of speech acoustic coding apparatus 140 according to Embodiment 6 of the present invention.
  • the configuration of the speech acoustic coding apparatus 140 will be described with reference to FIG.
  • FIG. 16 differs from FIG. 1 in that the unit number recalculation unit 106 and the band compression unit 105 are deleted, the unit number calculation unit 104 is changed to the unit number calculation unit 141, and the transform coding unit 107 is transformed. It is the point which changed to the encoding part 142, changed the multiplexing part 108 to the multiplexing part 145, and added the conversion encoding result memory
  • the unit number calculation unit 141 calculates a provisional number of bits to be allocated to each subband based on the subband energy output from the subband energy calculation unit 103. Further, the unit number calculation unit 141 acquires the subband length of the encoding target band of transform encoding based on the band limited subband information output from the target band setting unit 144 described later. Since the number of units can be calculated from the acquired subband length, the unit number calculation unit 141 calculates the encoded bit amount so as to be close to the provisional number of allocated bits. The unit number calculation unit 141 outputs information equivalent to the calculated encoded bit amount to the transform encoding unit 142 as the unit number.
  • bit allocation is performed so that more bits are allocated to encoded bits as the subband energy E [n] is larger.
  • bit allocation is assigned in units, and the number of bits required for a unit depends on the subband length. That is, even with the same provisional number of allocated bits, if the subband length is short, the number of bits required for the unit is reduced, so that more units can be used. If more units are used, more spectrum can be encoded and the accuracy of the amplitude can be increased.
  • the transform coding unit 142 uses the number of units output from the unit number calculation unit 141 and the band limited subband information output from the target band setting unit 144 described later, and is output from the subband division unit 102.
  • the subband spectrum is encoded by transform encoding.
  • the encoded transform encoded data is output to multiplexing section 145.
  • transform coding section 142 decodes transform coded data and outputs the decoded spectrum to transform coding result storage section 143 as a decoded subband spectrum.
  • transform coding section 142 uses the number of units output from unit number calculation section 141 and the band limited subband information output from target band setting section 144 to be a band to be encoded.
  • the start spectral position, the end spectral position, the subband length, etc. are acquired, and transform coding is performed.
  • the encoding target subband shorter than the normal subband length set by the target band setting unit 144 is referred to as a limited band, and when all the spectra in the subband are to be encoded, the entire band is referred to as a full band.
  • a transform coding method such as FPC, AVQ, or LVQ is used as the transform coding method, the coding can be efficiently performed.
  • the spectrum outside the limited band is not encoded, and thus is not encoded by transform coding.
  • all the spectrums outside the limited band in the decoded subband spectrum have an amplitude of zero.
  • the transform coding result storage unit 143 stores the decoded subband spectrum information output from the transform coding unit 142.
  • transform coding result storage section 143 stores only the information of the maximum amplitude spectrum (the spectrum having the maximum absolute value amplitude) in the subband.
  • the transform coding result storage unit 143 outputs the stored spectrum position as the spectrum information of the previous frame to the target band setting unit 144 in the frame next to the stored frame.
  • the spectrum information of the previous frame may be set as -1.
  • the target band setting unit 144 generates band limited subband information using the spectrum information of the previous frame output from the transform coding result storage unit 143 and the subband spectrum output from the subband dividing unit 102. And output to the unit number calculation unit 141 and the transform coding unit 142.
  • the band-limited subband information may be any information as long as the start spectrum position, end spectrum position, and subband length of the band to be encoded can be known.
  • the target band setting unit 144 outputs a band limitation flag indicating whether or not to subband the subband to the multiplexing unit 145.
  • band limitation flag indicates whether or not to subband the subband to the multiplexing unit 145.
  • the multiplexing unit 145 includes subband energy encoded data output from the subband energy calculating unit 103, transform encoded data output from the transform encoding unit 142, and band limitation output from the target band setting unit 144.
  • the flag is multiplexed and output as encoded data.
  • the audio-acoustic encoding apparatus 140 can generate encoded data with band limitation using the transform encoding result of the previous frame.
  • the target band setting unit 144 converts all the spectrums included in the subbands to be encoded as targets for transform encoding, or the spectrum included in a band limited to the periphery of a spectrum important for auditory sense as a target for transform encoding. Judge whether or not. A method for determining whether or not the spectrum is important for audibility will be exemplified below by a simple method.
  • the maximum amplitude spectrum in the subband spectrum is considered to be important for hearing. Even in the current frame, if the maximum amplitude spectrum in the subband spectrum is in a band close to the maximum amplitude spectrum in the previous frame, it can be determined that the spectrum important for audibility is temporally continuous. In such a case, the encoding range can be narrowed down only to the spectrum peripheral band that is important for hearing of the previous frame.
  • the position of the spectrum important for the auditory sense of the previous frame is P [t ⁇ 1, n].
  • the bandwidth of the band after encoding limitation is WL [n]
  • the start spectrum position of the encoding target band after band limitation is P [t ⁇ 1, n] ⁇ (int) (WL [n] / 2)
  • the end spectrum position is expressed by P [t ⁇ 1, n] + (int) (WL [n]) / 2).
  • WL [n] is an odd number
  • (int) represents a process of truncating the decimal point.
  • the subband length W [n] is 100 and WL [n] is 31, the minimum amount of bits required to represent the position of one spectrum can be reduced from 7 bits to 5 bits.
  • WL [n] is described as being predetermined for each subband, but may be variable according to the characteristics of the subband spectrum. For example, when the subband energy is large, WL [n] is widened, and when the change of the subband energy at the frame t ⁇ 1 and the subband energy at the frame t is small, a method of narrowing WL [n], etc. is there.
  • the limited band is determined only by the result of transform coding in the previous frame, if the subjectively important spectrum moves outside the limited band, the spectrum is not encoded and is not subjectively important. There is a risk of continuing to encode as a limited band.
  • by checking whether the amplitude maximum spectrum of the current subband exists within the limited band it is possible to know whether a subjectively important spectrum exists outside the limited band. In that case, by making the entire band an encoding target, it is possible to contribute to the temporal encoding of a subjectively important spectrum.
  • the target band setting unit 144 In the target band setting unit 144, the case where the band important for hearing is calculated from the position of the maximum amplitude spectrum of the previous frame and the current frame has been described as an example. It is also possible to estimate the harmonic structure of and to calculate a band important for hearing.
  • the harmonic structure is a structure in which low-frequency spectra exist in the high frequency region at almost equal intervals. Therefore, the harmonic structure can be estimated from the low-frequency spectrum, and the harmonic structure in the high frequency can be estimated. It is also possible to encode the estimated band periphery as a limited band.
  • the same band limitation between the audio-acoustic encoding apparatus and the audio-acoustic decoding apparatus It is possible to obtain subband information.
  • FIG. 17 Two subbands of subband n-1 and subband n are displayed, with the horizontal axis representing the frequency and the vertical axis representing the absolute value of the spectrum amplitude.
  • the spectrum displays only the amplitude maximum spectrum in each subband.
  • three temporally continuous frames t ⁇ 1, t, and t + 1 are displayed in order from the top.
  • the position of the maximum amplitude spectrum of frame t and subband n ⁇ 1 is represented by P [t, n ⁇ 1].
  • the temporary allocation bit number of the frame t-1 and the subband n-1 is 7 bits, and the temporary allocation bit number of the subband n is 5 bits.
  • the frame t has 5 bits and 7 bits
  • the frame t + 1 has 7 bits and 5 bits.
  • the subband length W [n-1] of the subband n-1 is 100 and the subband length W [n] is 110, which are less than 2 to the 7th power. Assume 7 bits. In frame t-1, since the provisional number of bits allocated to subband n-1 exceeds the unit, one spectrum can be encoded. On the other hand, in subband n, the provisional number of allocated bits does not exceed the unit, so the spectrum is not encoded. In frame t, since the provisional allocation bit numbers are 5 bits and 7 bits, the spectrum is encoded only in subband n, and in frame t + 1, the provisional allocation bit numbers are 7 bits and 5 bits. It is assumed that n-1 spectrum is transform-coded.
  • the input spectrum has a number of provisional allocated bits that are slightly insufficient in spite of the continuous presence of spectrum in a close band.
  • the spectrum is not encoded at t, and is not encoded continuously in time from t ⁇ 1 to t + 1.
  • continuity is lacking as in this example, the clarity of the decoded signal is deteriorated, giving a noisy impression.
  • FIG. 18 The basic configuration of FIG. 18 is the same as that of FIG.
  • the frame t-1 is completely the same as the example described in FIG.
  • subband n of frame t will be described. Since subband n in frame t ⁇ 1 is not encoded by transform coding, in frame t, spectrum information of the previous frame is output as ⁇ 1 from transform coding result storage unit 143 to target band setting unit 144. . As a result, in subband n of frame t, transform coding is performed on all spectra in the subband without performing band limitation.
  • the band limitation flag for subband n is set to 0. In this example, since the provisional number of assigned bits is 7 bits, one spectrum is encoded.
  • the target band setting unit 144 uses, as band limited subband information, a start spectrum position P [t ⁇ 1, n ⁇ 1] ⁇ (int) (WL [n ⁇ 1] / 2) of the limited band, and an end spectrum position. P [t ⁇ 1, n ⁇ 1] + (int) (WL [n ⁇ 1] / 2) and limited bandwidth WL [n ⁇ 1] are output.
  • the subband length has been shortened from W [n-1] to WL [n-1], so the possibility that the number of units will increase increases.
  • the transform encoding unit 142 encodes only the spectrum in the limited band indicated by the limited band subband information output from the target band setting unit 144 out of the subband spectrum output from the subband dividing unit 102. If WL [n ⁇ 1] is 31, since 31 is less than the fifth power of 2, it is represented by 5 for simplicity. In this example, since the provisional number of allocated bits is 5 bits and the unit is 5, one spectrum can be encoded. Thereafter, the frame t + 1 can be encoded in the same procedure as that for the frame t.
  • FIG. 19 is a block diagram showing a configuration of a voice sound decoding apparatus 240 according to Embodiment 6 of the present invention.
  • the configuration of the audio-acoustic decoding apparatus 240 will be described with reference to FIG.
  • FIG. 19 differs from FIG. 7 in that the code separation unit 201 is changed to the code separation unit 241, the unit number calculation unit 211 is changed to the unit number calculation unit 242, and the transform encoding / decoding unit 205 is changed to the transform encoding / decoding unit 243.
  • the subband integration unit 207 is changed to a subband integration unit 246, and a transform coding result storage unit 244 and a target band decoding unit 245 are added.
  • the code separation unit 241 receives encoded data, separates the input encoded data into subband energy encoded data, transform encoded data, and a band limited flag, and subband energy encoded data into subband energy decoding Output to the unit 202, output the transform encoded data to the transform encoding / decoding unit 243, and output the band limitation flag to the target band decoding unit 245.
  • unit number calculation unit 242 is the same as the unit number calculation unit 141 of the speech acoustic coding apparatus 140, a detailed description thereof will be omitted.
  • the transform coding / decoding unit 243 applies the transform coded data output from the code separation unit 241, the number of units output from the unit number calculation unit 242, and the band limited subband information output from the target band decoding unit 245. Based on this, the result of decoding for each subband is output to the subband integration unit 246 as a decoded subband spectrum.
  • the amplitude of the spectrum outside the band limitation is all zero, and the output subband length is output as the spectrum of the subband length W [n] before band limitation. To do.
  • the transform coding result storage unit 244 has substantially the same function as the transform coding result storage unit 143 of the speech acoustic coding apparatus 140. However, since it is not possible to store the decoded subband spectrum in the transform coding result storage unit 244 when it is affected by an error due to the communication path such as frame loss or packet loss, for example, the spectrum information of the previous frame is ⁇ Set as 1.
  • the target band decoding unit 245 calculates the number of units of band limited subband information based on the band limited flag output from the code separation unit 241 and the spectrum information of the previous frame output from the transform coding result storage unit 244. Output to the unit 242 and the transform coding / decoding unit 243.
  • the target band decoding unit 245 determines whether or not to perform band limitation according to the value of the band limitation flag.
  • the target band decoding unit 245 performs band limitation and outputs band limitation subband information indicating the band limitation.
  • the target band decoding unit 245 outputs band limited subband information indicating that the entire spectrum of the subband is to be encoded without performing band limitation.
  • the target band decoding unit 245 may perform the band limitation sub that indicates the band limitation. Band information is calculated. This is because when the transform encoded data is not decoded in the previous frame due to frame loss or the like, the spectrum information of the previous frame becomes ⁇ 1, but the audio-acoustic encoding device 140 performs band limitation. This is because transform coding is performed, and transform coded data needs to be decoded on the premise of band limitation.
  • the subband integration unit 246 packs the decoded subband spectrum output from the transform encoding / decoding unit 243 from the low frequency side and integrates it into one vector, and outputs the integrated vector to the frequency time conversion unit 208 as a decoded signal spectrum. To do.
  • subband n-1 is transform-coded, and subband n is not coded by transform coding.
  • subband n-1 and subband n are transform-coded, and subband n-1 is coded by band limitation.
  • the target band decoding unit 245 uses the band limitation flag output from the code separation unit 241 to convert each subband to a subband that has been transform-coded without being band-limited, or a sub-band that has been band-limited. You can know if it ’s a band.
  • Subbands that are transform-coded without being limited in band, here, subband n is decoded as all spectrum encoding targets.
  • the transform coding / decoding unit 243 uses the encoded data output from the code separation unit 241, the subband length W [n] output from the target band decoding unit 245, and the unit output from the unit number calculation unit 242. The number can be used for decoding.
  • the target band decoding unit 245 can know from the band limitation flag that the subband n-1 is encoded in a band limited state. Therefore, the transform coding / decoding unit 243 converts the coded data output from the code separating unit 241 into the band-limited subband length WL [n ⁇ 1] of the subband n ⁇ 1 output from the target band decoding unit 245, Also, decoding can be performed using the number of units output from the unit number calculation unit 242.
  • the transform coding / decoding unit 243 cannot specify the exact arrangement position of the decoded decoded subband spectrum as it is, the accurate arrangement position is specified using the decoding result of the subband n ⁇ 1 of the previous frame. To do. It is assumed that P [t ⁇ 1, n ⁇ 1] is stored in the transform coding result storage unit 244. The target band decoding unit 245 focuses on P [t ⁇ 1, n ⁇ 1] output from the transform coding result storage unit 244 so that the subband width is WL [n ⁇ 1]. Set the band information.
  • the start spectrum position of the band-limited subband is P [t ⁇ 1, n ⁇ 1] ⁇ (int) (WL [n ⁇ 1] / 2)
  • the end spectrum position is P [t ⁇ 1, n ⁇ 1] + (int) (WL [n ⁇ 1] / 2).
  • the band-limited subband information calculated in this way is output to transform coding / decoding section 243.
  • the transform coding / decoding unit 243 can arrange the decoded subband spectrum at an accurate position. For the spectrum outside the limited band indicated by the band limited subband information, the amplitude of the spectrum is set to zero.
  • the decoded subband spectrum cannot be arranged at an accurate position.
  • the start spectrum position and the end spectrum position of the band limited subband information may be fixed so as to be near the center of the subband, for example.
  • the transform coding result storage unit 244 may perform estimation using a result decoded in the past.
  • the transform coding / decoding unit 243 may calculate the harmonic structure from the low-frequency spectrum, estimate the harmonic structure in the subband, and estimate the position of the maximum amplitude spectrum.
  • the audio-acoustic decoding device 240 can decode the encoded data encoded by the band limitation.
  • the target band can be encoded with a small number of bits by encoding only the subjectively important spectrum peripheral band in the previous frame.
  • the possibility of encoding can be improved. As a result, it becomes possible to obtain a decoded signal with high clarity.
  • the speech-acoustic encoding apparatus, speech-acoustic decoding apparatus, speech-acoustic encoding method, and speech-acoustic decoding method according to the present invention can be applied to a communication apparatus that performs a voice call.

Abstract

 拡張帯域の音質の劣化を抑制しつつ、拡張帯域のスペクトルの符号化に割り当てる符号化ビット量を低減する。帯域圧縮部(105)は、帯域圧縮対象サブバンドにおいて、サブバンドスペクトルを低域側から順に2サンプルずつを組みとする組み合わせを作り、各組み合わせのうち絶対値振幅の大きいスペクトルを選択し、選択したスペクトルを周波数軸上で低域側に詰めて配置する。ユニット数再算出部(106)は、帯域圧縮を行ったサブバンドにおいて節約したビットを拡張帯域外の低域に再配分し、再配分したビットに基づいて、ユニット数を再配分する。

Description

音声音響符号化装置、音声音響復号装置、音声音響符号化方法及び音声音響復号方法
 本発明は、変換符号化方式を用いた音声音響符号化装置、音声音響復号装置、音声音響符号化方法及び音声音響復号方法に関する。
 0.05-14kHz帯域の超広帯域(SWB:Super-Wide-Band)の音声信号または音楽信号を効率的に符号化できる方式として、ITU-T(International Telecommunication Union Telecommunication Standardization Sector)で規格化された非特許文献1及び非特許文献2に記載の技術がある。これらの技術では、7kHzまでの帯域をコア符号化部で符号化し、7kHz以上の帯域(以下、「拡張帯域」という)を拡張符号化部で符号化している。
 コア符号化部では、符号励振線形予測(CELP:Code Excited Linear Prediction)を用いて符号化を行い、CELPでは符号化しきれない残差信号をMDCT(Modified Discrete Cosine Transform)にて周波数領域に変換した上で、FPC(Factorial Pulse Coding)またはAVQ(Algebraic Vector Quantization)と言った変換符号化で符号化している。拡張符号化部では、7kHz以上の拡張帯域において、7kHzまでの低域のスペクトルと相関の高い帯域を探索して、最も相関の高い帯域を拡張帯域の符号化に利用する手法等を用いて符号化している。なお、非特許文献1及び非特許文献2では、7kHzまでの低域側と7kHz以上の高域側には、それぞれ符号化ビット数があらかじめ決められており、低域側と高域側をそれぞれ決められた符号化ビット数で符号化している。
 また、非特許文献3においても、SWBを符号化する方式がITU-Tで規格化されていることが開示されている。非特許文献3に記載の符号化装置では、入力信号をMDCTにより周波数領域に変換し、サブバンドに分割して、サブバンド毎に符号化を行う。具体的には、この符号化装置は、まず、各サブバンドエネルギーを算出し、符号化する。次に、周波数微細構造を符号化するために、サブバンドエネルギーに基づいて、各サブバンドに周波数微細構造を符号化するための符号化ビットを配分する。周波数微細構造は、格子ベクトル量子化(Lattice Vector Quantization)を用いて符号化される。格子ベクトル量子化も、FPCまたはAVQ同様、スペクトルの符号化に適した変換符号化の一種である。格子ベクトル量子化では、符号化ビットが十分に配分されないために、復号したスペクトルのエネルギーとサブバンドエネルギーとは誤差が大きい場合がある。この場合は、サブバンドエネルギーと復号スペクトルとのエネルギーの誤差を雑音ベクトルで埋める処理を行うことで符号化を行う。
 また、非特許文献4では、AAC(Advanced Audio Coding)による符号化技術について述べられている。AACでは、聴覚モデルに基づいてマスキング閾値を算出し、マスキング閾値以下のMDCT係数を符号化対象から外すことにより、効率的に符号化を行っている。
ITU-T Standard G.718 AnnexB,2010年 ITU-T Standard G.729.1 AnnexE,2010年 ITU-T Standard G.719,2008年 MP3 AND AAC explained, AES 17th International Conference on High Quality Audio Coding, 1999年
 非特許文献1及び非特許文献2では、コア符号化部が符号化する低域側と、拡張符号化部が符号化する高域側とにビットが固定で割り当てられており、信号の特性に応じて適切に低域と高域に符号化ビットを割り当てることができない。このため、入力信号の特性によっては十分な性能を発揮できないという課題がある。
 一方、非特許文献3では、サブバンドエネルギーに応じて低域から高域まで適応的にビットを割り当てる仕組みはあるが、高域ほどスペクトルの誤差に対する感度が低いという聴覚特性に着目すると、高域には必要以上にビットが割り当てられやすいという課題がある。これについて以下に説明する。
 符号化プロセスにおいて、まず、サブバンド毎に算出したサブバンドエネルギーが大きいほど、多くのビットが割り当てられるように各サブバンドで必要なビット量が算出される。ただし、変換符号化では、アルゴリズムの性質上、符号化ビット割り当てを1ビット増やしても符号化能力が向上せず、ある程度まとまったビット数を割り当てなければ符号化結果が変わらない場合がある。このため、ビット単位ではなく、このようなまとまったビット数の単位でビットの割り当てを行えば便利である。このような符号化に必要なビット数の単位を、ここではユニットと呼ぶことにする。割り当てられたユニット数が多いほど、スペクトルの形状及び振幅を正確に表現できる。なお、聴覚特性を考慮して、高域のサブバンドは低域に比べ、その帯域幅を広くとるのが一般的であるが、帯域幅が広いほど1ユニットに必要なビット量は多くなるから、1ユニットのビット数は帯域幅に応じて変えることにする。
 本発明で想定する変換符号化では、スペクトルを周波数軸上の少数のパルス列で近似するため、その振幅情報と位置情報に、ユニット単位で割り当てられた符号化ビットを消費することになる。
 さらに、非特許文献4では、聴覚特性上重要ではないMDCT係数を符号化対象から外すことにより、効率的に符号化を行っているが、符号化するスペクトル個々の位置情報は正確に表現している。このため、サブバンドの帯域幅が広いほど、個々のスペクトルの位置を表現するのに多くのビットを消費しなければならない。
 しかしながら、高域になるほど、スペクトルの位置に対する聴覚の感度は低くなり、主要なスペクトル振幅、サブバンドエネルギーが表現できていれば聴感上の劣化は感じにくい。それにも関わらず、非特許文献3及び非特許文献4では、高域においても多くのビットを消費して、スペクトル個々の位置を正確に表現しようとしている。つまり、スペクトル位置を正確に表現するために、必要以上に符号化ビットを使用するという課題がある。
 本発明の目的は、拡張帯域の音質の劣化を抑制しつつ、拡張帯域のスペクトルの符号化に割り当てる符号化ビット量を低減する音声音響符号化装置、音声音響復号装置、音声音響符号化方法及び音声音響復号方法を提供することである。
 本発明の音声音響符号化装置は、時間領域の入力信号を周波数領域のスペクトルに変換する時間周波数変換手段と、前記スペクトルをサブバンドに分割する分割手段と、拡張帯域内のサブバンドにおいて、スペクトルを低域側または高域側から順に複数サンプルずつの組み合わせに分け、各組み合わせの中で振幅の絶対値の大きいスペクトルを選択し、選択したスペクトルを周波数軸上で詰めて配置して当該サブバンドの帯域を圧縮する帯域圧縮手段と、前記拡張帯域より低域のサブバンドのスペクトルと、帯域圧縮されたスペクトルとを変換符号化により符号化する変換符号化手段と、を具備する構成を採る。
 本発明の音声音響復号装置は、拡張帯域内のサブバンドにおいて、スペクトルを低域側または高域側から順に複数サンプルずつの組み合わせに分け、各組み合わせの中で、振幅の絶対値の大きいスペクトルを選択し、選択したスペクトルを周波数軸上で詰めて配置して当該サブバンドの帯域を圧縮したスペクトルと、前記拡張帯域より低域のサブバンドのスペクトルとが共に変換符号化により符号化された符号化データを復号する変換符号化復号手段と、前記圧縮されたサブバンドの帯域幅を元のサブバンドの帯域幅に伸張する帯域伸張手段と、復号された前記拡張帯域より低域のサブバンドのスペクトルと、伸張された前記拡張帯域内のサブバンドのスペクトルとを一つのベクトルに統合するサブバンド統合手段と、統合された周波数領域のスペクトルを時間領域の信号に変換する周波数時間変換手段と、を具備する構成を採る。
 本発明の音声音響符号化方法は、時間領域の入力信号を周波数領域のスペクトルに変換する時間周波数変換工程と、前記スペクトルをサブバンドに分割する分割工程と、拡張帯域内のサブバンドのスペクトルを、低域側または高域側から順に複数サンプルずつの組み合わせに分け、各組み合わせの中で振幅の絶対値の大きいスペクトルを選択し、選択したスペクトルを周波数軸上で詰めて配置して帯域を圧縮する帯域圧縮工程と、前記拡張帯域より低域のサブバンドのスペクトルと、帯域圧縮されたスペクトルとを変換符号化により符号化する変換符号化工程と、を具備するようにした。
 本発明の音声音響復号方法は、拡張帯域内のサブバンドのスペクトルを、低域側または高域側から順に複数サンプルずつの組み合わせに分け、各組み合わせの中で、振幅の絶対値の大きいスペクトルを選択し、選択したスペクトルを周波数軸上で詰めて配置することで帯域を圧縮したスペクトルと、前記拡張帯域より低域のサブバンドのスペクトルとが共に変換符号化により符号化された符号化データを復号する変換符号化復号工程と、圧縮されたサブバンドの帯域幅を元のサブバンドの帯域幅に伸張する帯域伸張工程と、復号された前記拡張帯域より低域のサブバンドのスペクトルと、伸張された前記拡張帯域内のサブバンドのスペクトルとを一つのベクトルに統合するサブバンド統合工程と、統合された周波数領域のスペクトルを時間領域の信号に変換する周波数時間変換工程と、を具備するようにした。
 本発明によれば、拡張帯域の音質の劣化を抑制しつつ、拡張帯域のスペクトルの符号化に割り当てる符号化ビット量を低減することができる。
本発明の実施の形態1,3,5に係る音声音響符号化装置の構成を示すブロック図 帯域圧縮を説明するための図 ユニット数再算出部の動作を説明するための図 本発明の実施の形態1,3,5に係る音声音響復号装置の構成を示すブロック図 帯域伸張を説明するための図 本発明の実施の形態1に係る音声音響符号化装置の他の構成を示すブロック図 本発明の実施の形態1に係る音声音響復号装置の他の構成を示すブロック図 本発明の実施の形態2に係る音声音響符号化装置の構成を示すブロック図 本発明の実施の形態2に係る音声音響復号装置の構成を示すブロック図 位置補正情報に基づいて帯域伸張した様子を示す図 本発明の実施の形態4に係る声音響符号化装置の構成を示すブロック図 インタリーブを説明するための図 本発明の実施の形態4に係る声音響復号装置の構成を示すブロック図 帯域圧縮の一例を示す図 帯域伸張の一例を示す図 本発明の実施の形態6に係る音声音響符号化装置の構成を示すブロック図 帯域限定を行わない変換符号化の一例を示す図 帯域限定を行った変換符号化の一例を示す図 本発明の実施の形態6に係る音声音響復号装置の構成を示すブロック図
 以下、本発明の実施の形態について、図面を参照して詳細に説明する。ただし、実施の形態において、同一機能を有する構成には同一符号を付し、重複する説明は省略する。
 (実施の形態1)
 図1は、本発明の実施の形態1に係る音声音響符号化装置100の構成を示すブロック図である。以下、図1を用いて、音声音響符号化装置100の構成について説明する。
 時間周波数変換部101は、入力信号を取得し、取得した時間領域の入力信号を周波数領域に変換して、入力信号スペクトルとしてサブバンド分割部102に出力する。なお、実施の形態では、時間周波数変換としてMDCTを例に説明するが、FFT(Fast Fourier Transform)またはDCT(Discrete Cosine Transform)等の直交変換を用いてもよい。
 サブバンド分割部102は、時間周波数変換部101から出力された入力信号スペクトルをM個のサブバンドに分割し、サブバンドのスペクトルをサブバンドエネルギー算出部103及び帯域圧縮部105に出力する。一般に、人間の聴覚特性を考慮して、低域ほど帯域幅が狭く、高域ほど帯域幅が広くなるような不均一分割を行う。本説明においても、これを前提に説明を行う。n番目のサブバンドのサブバンド長をW[n]で表し、サブバンドスペクトルベクトルは、Snで表すものとする。各Snには、W[n]個のスペクトルが格納される。また、W[k-1]≦W[k]の関係を持つものとする。このように不均一分割を行う符号化方式として、ITU-T G.719がある。G.719は、サンプリングレートが48kHzの入力信号を時間周波数変換する。その後、スペクトルを最低域では周波数軸上で8点毎にサブバンドに分割し、最高域では32点毎にサブバンドに分割している。なお、G.719は32kbpsから128kbpsと多くの符号化ビットを使える符号化方式であるが、さらに低ビットレート化を図るためには、各サブバンドの長さを長くすることが有用であり、特に高域ほどサブバンド長を長くする方が有用であると考えられる。
 サブバンドエネルギー算出部103は、サブバンド分割部102から出力されたサブバンドスペクトルからサブバンド毎にエネルギーを算出して、量子化したサブバンドエネルギーをユニット数算出部104に出力し、サブバンドエネルギーを符号化したサブバンドエネルギー符号化データを多重化部108に出力する。ここでは、サブバンドエネルギーは、そのサブバンドに含まれるスペクトルのエネルギーを、底を2とする対数で表したものとする。サブバンドエネルギーの算出式を次式(1)に示す。
Figure JPOXMLDOC01-appb-M000001
 ここで、nはサブバンド番号、E[n]はサブバンドnのサブバンドエネルギー、W[n]はサブバンドnのサブバンド長、Sn[i]はn番目のサブバンドのi番目のスペクトルを意味するものとする。なお、サブバンド長はサブバンドエネルギー算出部103に予め登録されているものとする。
 ユニット数算出部104は、サブバンドエネルギー算出部103から出力された量子化サブバンドエネルギーに基づいて、サブバンドに割り当てる暫定的な割当ビット数を算出し、計算したユニット数とともにユニット数再算出部106に出力する。サブバンドエネルギー算出部103と同様に、サブバンド長はユニット数算出部104に予め登録されているものとする。基本的に、符号化ビットは、サブバンドエネルギーE[n]が大きいほど、多く割り当てられる。ただし、符号化ビットはユニット単位で割り当てられ、1ユニットあたりのビット数はサブバンド長に依存する。そのため、他のサブバンドでのビット配分も含めて最適に配分する必要がある。なお、ユニット数算出部104の詳細については後述する。
 帯域圧縮部105は、サブバンド分割部102から出力されたサブバンドスペクトルを用いて、拡張帯域の各サブバンドを帯域圧縮し、低域側のサブバンド及び前記圧縮したサブバンドを含むサブバンド圧縮スペクトルを変換符号化部107に出力する。帯域圧縮の目的は、主要なスペクトルを符号化対象として残しつつ、スペクトル位置の情報を削除することで、変換符号化に要する符号化ビットを削減することである。なお、帯域圧縮部105の詳細については後述する。
 ユニット数再算出部106は、ユニット数算出部104から出力された暫定的な割当ビット数及びユニット数に基づいて、帯域圧縮を行ったサブバンドにおいて削減したビットを拡張帯域外の低域に再配分する。ユニット数再算出部106は、再配分したビットに基づいて、ユニット数を再配分し、再配分ユニット数を変換符号化部107に出力する。なお、ユニット数再算出部106の詳細については後述する。
 変換符号化部107は、帯域圧縮部105から出力されたサブバンド圧縮スペクトルを変換符号化により符号化して、変換符号化データを多重化部108に出力する。変換符号化方式として、例えばFPC、AVQ、または、LVQといった変換符号化方式を用いる。変換符号化部107では、入力されたサブバンド圧縮スペクトルを、ユニット数再算出部106から出力された再配分ユニット数で決定される符号化ビットを用いて符号化する。再配分ユニット数が多ければ多いほど、スペクトルを近似するパルス数を増やしたり、その振幅値をより正確にしたりすることができる。パルス数を増やすのか、その振幅精度を向上させるのかは、符号化対象の入力スペクトルと復号後のスペクトルとの歪を基準として決定する。
 多重化部108は、サブバンドエネルギー算出部103から出力されたサブバンドエネルギー符号化データと、変換符号化部107から出力された変換符号化データとを多重化して符号化データとして出力する。
 ここで、図1に示したユニット数算出部104におけるユニット数の配分方法について具体例を挙げて説明する。まず、ユニット数算出部104は、サブバンドエネルギー算出部103から出力されたサブバンドエネルギーに基づいて、各サブバンドに割り当てるビット数を計算する。以下、計算されたビット数を暫定的な割当ビット数という。例えば、スペクトル微細構造を符号化するために与えられた符号化ビットの総量が320ビット、式(1)で計算した後に量子化した各サブバンドのサブバンドエネルギーの合計が160であった場合、320/160=2.0であるので、各サブバンドのエネルギーに2.0を乗じたものを暫定的な割当ビット数とすることができる。
 次に、ユニット数算出部104は、各サブバンドに実際に割り当てるビット(以下、「割当ビット数」という)を決定するが、変換符号化ではユニット単位で符号化ビットを割り当てることになるので、暫定的な割当ビット数をそのまま割当ビット数とすることができない。例えば、暫定的な割当ビット数が30、1ユニットが7ビットであった場合において、割当ビット数が暫定的な割当ビット数を超えないものとすると、ユニット数は4となり、割当ビット数は28、暫定的な割当ビット数に対して2ビットが余剰ビットとなる。
 このように、サブバンド毎に割当ビット数を順次算出すると、全サブバンドについて算出が終了した時点で、符号化ビットに過不足が発生する恐れがある。そのため、効率的に符号化ビットを割り当てる工夫が必要となる。例えば、あるサブバンドで生じた余剰ビットを、次のサブバンドの暫定的な割当ビット数に加算していくことにより、ビットを過不足なく配分することが考えられる。
 具体的な例を用いて説明する。ここでは簡単のため、スペクトルを近似するパルスの位置情報のみを符号化する例で説明し、かつ符号化されるパルスが増える毎にその位置情報分が単純に加算されるものとする。例えばサブバンド長を32とすると、32は2の5乗以下なので、サブバンド内のすべてのスペクトルの位置を符号化対象とするには最低限5ビット必要となる。つまり、このサブバンドにおける1ユニットは5ビットとなる。
 サブバンドのエネルギーから計算される暫定的な割当ビット数が33であったとすると、割り当てられるユニット数は6、割当ビット数30となり、余剰ビットは3ビットとなる。しかしながら、前サブバンドにおいて2ビットの余剰ビットが発生していたとしたら、このサブバンドの暫定的な割当ビット数に前サブバンドの余剰ビット2を加算して、暫定的な割当ビット数が35となる。この結果、ユニット数は7となり、割当ビット数は35となる。すなわち、余剰ビットは0ビットとなる。これを順次全てのサブバンドで繰り返していくことにより、効率的なユニット配分が可能となる。
 次に、図1に示した帯域圧縮部105における帯域圧縮方法について説明する。帯域圧縮方法として、ここでは、帯域圧縮対象サブバンドの低域側から順に2サンプルずつの組み合わせを作り、各組み合わせのうち絶対値振幅の大きい方のサンプルを残す場合を例に説明する。
 図2に、帯域圧縮を説明するための図を示す。ただし、図2では、拡張帯域における帯域圧縮対象サブバンドnを抽出した様子を示し、サブバンド長をW(n)、横軸は周波数、縦軸はスペクトルの絶対値振幅を示すものとする。
 図2(A)は、帯域圧縮前のサブバンドスペクトルを示す。この例では、帯域圧縮前の帯域幅はW(n)=8とする。帯域圧縮部105は、サブバンド分割部102から出力されたサブバンドスペクトルを低域側から順に2サンプルずつを組みとする組み合わせを作り、各組み合わせのうち絶対値振幅の大きいスペクトルを残す。図2(A)の例では、1番目と2番目に位置するスペクトルの組み合わせのうち2番目のスペクトルを選択し、1番目のスペクトルを破棄する。同様に、帯域圧縮部105は、3番目と4番目の組み合わせ、5番目と6番目の組み合わせ、7番目と8番目の組み合わせにおいてそれぞれ大きい方のスペクトルを選択する。選択した結果、図2(B)に示すようになり、位置2、4、5、8番目の4本のスペクトルが選択される。
 次に、帯域圧縮部105は、選択したスペクトルを帯域圧縮する。帯域圧縮は、選択されたスペクトルを周波数軸上で低域側に詰めて配置することにより行われる。この結果、帯域圧縮サブバンドスペクトルは、図2(C)で表され、帯域圧縮後の帯域幅は、圧縮前に比べて半分の帯域幅となる。なお、圧縮前の帯域幅が奇数である場合も考慮すると、帯域圧縮後のサブバンド幅W’(n)は、以下の式(2)によって表すことができる。
Figure JPOXMLDOC01-appb-M000002
 式(2)において、(int)は小数点以下を切り捨てて整数化する関数、%は剰余を算出する演算子を表す。
 このように、拡張帯域における各帯域圧縮対象サブバンドでは、低域側から順に2サンプルずつを組みとする各組み合わせのうち絶対値振幅の大きいスペクトルを残しつつ、帯域幅を半分にすることができる。
 次に、図1に示したユニット数再算出部106におけるユニット数再算出方法について説明する。ユニット数再算出部106では、暫定的な割当ビット数に近くなるように割当ビット数を算出する点は、ユニット数算出部104と同様であるが、帯域圧縮対象サブバンドでは、ユニット数算出部104において算出されたユニット数を維持することと、帯域圧縮対象サブバンドで削減したビットを低域に再配分するようにしている点が異なる。
 ユニット数再算出部106は、帯域圧縮対象サブバンドで削減したビットを低域に再配分するために、まず、帯域圧縮対象サブバンドの割当ビット数を確定させる。ユニット数は固定、サブバンド長は帯域圧縮により減っているので、割当ビット数を減らすことができる。ここでは、帯域圧縮によってサブバンド長が半減する場合を例に説明しているので、1ユニット当たりのビット数は1ビット減少する。帯域圧縮対象サブバンドのユニット数の合計が10ユニットであった場合には、10ビット削減できる。
 削減できたビットを低域サブバンドの暫定的な割当ビット数に加算することにより、低域サブバンドに対してユニット数を多く配分することができる。ここでは簡単のため、削減したビットを最も低域のサブバンドの暫定的な割当ビット数に加算するものとする。この結果、最も低域のサブバンドでは暫定的な割当ビット数が大きくなるため、配分されるユニット数が多くなることが期待できる。
 以後、このサブバンドで生じる余剰ビットを順次、高域側のサブバンドの暫定的な割当ビット数に加算し、ユニットの再配分を行う。これを帯域圧縮対象サブバンドの直前のサブバンドまで繰り返すことで、帯域圧縮後の全てのサブバンドにユニットを再配分することができる。
 図3に、ユニット数再算出部106の動作を説明するための図を示す。図3において、最上段(「サブバンド」と記載された段)は、サブバンドの分割イメージを示している。サブバンドは、1からMに分割され、サブバンド1が最も低域側のサブバンド、サブバンドMが最も高域側のサブバンドとする。また、サブバンド1からサブバンド(kh-1)までを帯域圧縮対象外の低域側のサブバンド、サブバンドkhからMまでを帯域圧縮対象のサブバンドとする。
 また、中段(「ユニット数算出部出力」と記載された段)は、ユニット数算出部104から出力されたユニット数を示している。ユニット数は、サブバンドkに対して、ユニット数算出部104によりu(k)が割り当てられているものとする。
 ユニット数再算出部106は、サブバンドkhからサブバンドMに対しては、ユニット数算出部104で算出されたu(k)をそのまま使用する。帯域幅を圧縮した後でもスペクトルを近似するパルスの本数を維持するためである。これにより、帯域圧縮サブバンドではスペクトル近似能力を維持しつつ、帯域幅が圧縮されるので、符号化ビットを削減でき、その削減ビットを余剰ビットにすることができる。
 図3において、下段(「ユニット数再算出部出力」と記載された段)は、ユニット数再算出部106の出力のイメージを示している。ユニット数再算出部106は、サブバンドkhからサブバンドMまでは、ユニット数算出部104の出力をそのまま使用するので、ユニット数はu(k)のままである。ユニット数再算出部106は、余剰ビットを低域側のサブバンドに利用でき、新たにu’(k)を算出する。これにより、聴感上重要な低域スペクトルの符号化精度を上げることができるので、全体の音質を向上させることができる。
 なお、上記の例では、帯域圧縮サブバンドで削減したビットを、最も低域のサブバンドの暫定的な割当ビット数に全て加算する例を示したが、削減したビット数を、まだ割当ビット数を算出していないサブバンドに均等に割り当て、これらサブバンドの暫定的な割当ビット数に加算するようにしてもよい。また、サブバンドエネルギーが大きいサブバンドにより多く加算するようにしてもよい。また、必ずしも低域側から高域側に向かって昇順で処理をしなくてもよい。
 以上の構成により、音声音響符号化装置100は、拡張帯域の各サブバンドを帯域圧縮して符号化ビットを削減し、削減した符号化ビットを余剰ビットとして低域に再配分することにより、音質を向上させることができる。
 図4は、本発明の実施の形態1に係る音声音響復号装置200の構成を示すブロック図である。ユニット数または1ユニットあたりのビット数は送信されないため、復号装置側で計算する必要がある。このため、符号化装置と同様に、ユニット数算出部とユニット数再算出部を持つ。以下、図4を用いて音声音響復号装置200の構成について説明する。
 符号分離部201は、符号化データが入力され、入力された符号化データをサブバンドエネルギー符号化データと変換符号化データとに分離し、サブバンドエネルギー符号化データをサブバンドエネルギー復号部202に出力し、変換符号化データを変換符号化復号部205に出力する。
 サブバンドエネルギー復号部202は、符号分離部201から出力されたサブバンドエネルギー符号化データを復号し、復号によって得られた量子化サブバンドエネルギーをユニット数算出部203に出力する。
 ユニット数算出部203は、サブバンドエネルギー復号部202から出力された量子化サブバンドエネルギーを用いて、暫定的な割当ビット数とユニット数を算出し、算出した暫定的な割当ビット数とユニット数をユニット数再算出部204に出力する。なお、ユニット数算出部203は、音声音響符号化装置100のユニット数算出部104と同一であるため、その詳細な説明は省略する。
 ユニット数再算出部204は、ユニット数算出部203から出力された暫定的な割当ビット数とユニット数に基づいて、再配分ユニット数を算出し、算出した再配分ユニット数を変換符号化復号部205に出力する。なお、ユニット数再算出部204は、音声音響符号化装置100のユニット数再算出部106と同一であるため、その詳細な説明は省略する。
 変換符号化復号部205は、符号分離部201から出力された変換符号化データ、及び、ユニット数再算出部204から出力された再配分ユニット数に基づいて、サブバンド毎に復号した結果をサブバンド圧縮スペクトルとして帯域伸長部206に出力する。変換符号化復号部205は、再配分ユニット数から符号化に要した符号化ビット数を取得し、変換符号化データを復号する。
 帯域伸張部206は、変換符号化復号部205から出力されたサブバンド圧縮スペクトルのうち、帯域圧縮対象外のサブバンドでは、そのままサブバンド圧縮スペクトルをサブバンドスペクトルとしてサブバンド統合部207に出力する。また、帯域伸張部206は、変換符号化復号部205から出力されたサブバンド圧縮スペクトルのうち、帯域圧縮対象サブバンドでは、サブバンド圧縮スペクトルをサブバンド長の幅に伸張して、サブバンドスペクトルとしてサブバンド統合部207に出力する。
 本実施の形態では、音声音響符号化装置100の帯域圧縮部105において、帯域圧縮サブバンドの低域側から順に2サンプルずつの組み合わせを作り、各組み合わせのうち絶対値振幅の大きい方のサンプルを残す方法で帯域圧縮しているので、帯域伸張部206は、復号されたスペクトルを一つおきに、偶数番地もしくは奇数番地に格納することで本来の帯域幅(圧縮前の帯域幅)に伸張されたスペクトルを得ることができる。この場合、復号されたサブバンドスペクトルの位置のずれは最大1サンプルとなる。なお、帯域伸張部206の詳細については後述する。
 サブバンド統合部207は、帯域伸張部206から出力されたサブバンドスペクトルを低域側から詰めて一つのベクトルに統合し、統合したベクトルを復号信号スペクトルとして周波数時間変換部208に出力する。
 周波数時間変換部208は、サブバンド統合部207から出力された周波数領域の信号である復号信号スペクトルを時間領域の信号に変換して復号信号を出力する。
 次に、図4に示した帯域伸張部206における帯域伸張方法について説明する。図5に帯域伸張を説明するための図を示す。ただし、図5では、図2と同様、サブバンド長をW(n)、横軸は周波数、縦軸はスペクトルの絶対値振幅を示すものとし、図2(C)で示したサブバンド圧縮スペクトルを伸張する場合について説明する。
 帯域圧縮後の位置1に位置するサブバンド圧縮スペクトルは、圧縮前には位置1または位置2に存在していた。同様に、帯域圧縮後の位置2に位置するサブバンド圧縮スペクトルは、圧縮前には位置3または位置4に存在していた。同様に、帯域圧縮後の位置3と位置4に存在しているサブバンド圧縮スペクトルは、位置5または位置6、位置7または位置8にそれぞれ存在していた。
 帯域伸張部206は、帯域圧縮後のスペクトルが帯域圧縮前にいずれかの位置に存在していたかは知りえないので、帯域圧縮後のスペクトルをいずれかの位置に配置することで伸張する。図5の例では、帯域圧縮後の位置1のサブバンド圧縮スペクトルは伸張後の位置1に、帯域圧縮後の位置2のサブバンド圧縮スペクトルは伸張後の位置3に配置するというように奇数番地に配置していく。この結果、伸張後のスペクトル位置5に存在するスペクトルのみが正しい位置に配置され、その他のスペクトル位置は1サンプルずれた位置に配置される。
 以上の構成により、符号化データを、音声音響復号装置200により復号することができる。
 このように、実施の形態1では、音声音響符号化装置100が、帯域圧縮対象サブバンドにおいて、サブバンドスペクトルを低域側から順に2サンプルずつを組みとする組み合わせを作り、各組み合わせのうち絶対値振幅の大きいスペクトルを選択し、選択したスペクトルを周波数軸上で低域側に詰めて配置することにより、聴感上重要ではないスペクトルを間引いて、帯域を圧縮することができる。また、これにより、スペクトルの変換符号化に必要な割当ビット数を削減することができる。
 また、実施の形態1では、帯域圧縮対象サブバンドにおいて削減した割当ビット数を拡張帯域より低域のスペクトルの変換符号化のために再配分することにより、聴感上重要なスペクトルをより正確に表すことができるので、音質を向上させることができる。
 なお、本実施の形態では、音声音響符号化装置100において、ユニット数算出部104がユニット数を算出し、ユニット数再算出部106が再配分ユニット数を算出する場合について説明した。しかし、本発明は、図6に示すように、音声音響符号化装置110として、ユニット数算出部104とユニット数再算出部106の機能を統合してユニット数算出部111としてもよい。
 また、本実施の形態では、音声音響復号装置200において、ユニット数算出部203がユニット数を算出し、ユニット数再算出部204が再配分ユニット数を算出する場合について説明した。しかし、本発明は、図7に示すように、音声音響復号装置210として、ユニット数算出部203とユニット数再算出部204の機能を統合してユニット数算出部211としてもよい。
 なお、本実施の形態では、帯域を圧縮する方法として、帯域圧縮対象サブバンドの低域側から順に2サンプルずつの組み合わせを作り、各組み合わせのうち絶対値振幅の大きい方のサンプルを残す場合について説明したが、別の帯域圧縮方法を用いてもよい。例えば、2サンプルずつの組み合わせに限らず、3サンプル以上のサンプル数で組み合わせを作り、各組み合わせのうち絶対値振幅の最も大きいサンプルを残すようにしてもよい。この場合、帯域圧縮によって削減できるビット数を増加させることができる。
 また、高域になるほど組み合わせるサンプル数を多くするようにしてもよい。また、低域側から順に組み合わせを作ることに限らず、高域側から順に組み合わせを作るようにしてもよい。
 (実施の形態2)
 図8は、本発明の実施の形態2に係る音声音響符号化装置120の構成を示すブロック図である。以下、図8を用いて音声音響符号化装置120の構成について説明する。なお、図8が図1と異なる点は、ユニット数再算出部106を削除し、ユニット数算出部104をユニット数算出部111に変更し、サブバンドエネルギー減衰部121を追加した点である。
 サブバンドエネルギー減衰部121は、サブバンドエネルギー算出部103から出力された量子化サブバンドエネルギーのうち、帯域圧縮対象サブバンドのサブバンドエネルギーを減衰させ、減衰させたサブバンドエネルギーをユニット数算出部111に出力する。
 ここで、帯域圧縮対象サブバンドのサブバンドエネルギーを減衰させる理由について説明する。仮に、サブバンドエネルギーを減衰させないとすると、実施の形態1で説明したように、ユニット数算出部111によってこのサブバンドエネルギーをもとに暫定的な割当ビットが決まるが、帯域圧縮によって例えば帯域を半分にした場合、ユニットのビット数は1ビット削減されるので、余剰ビットが発生することになる。しかし、ユニット数再算出部106が無いので、この余剰ビットは高域側のサブバンドから低域側のサブバンドに必ずしも適切に再配分することができず無駄になる場合がある。
 そこで、サブバンドエネルギー減衰部121は、帯域圧縮対象サブバンドに対して、当該サブバンドエネルギーを減衰させることにより、無駄な余剰ビットの発生を抑制している。ただし、帯域圧縮により、サブバンド長を半分にするとしても、主要なスペクトルは残しているので、サブバンドエネルギーを半分にしてしまうと過剰な減衰となってしまう。そのため、サブバンドエネルギー減衰部121は、例えば、サブバンドエネルギーに0.8倍等の定率を乗算したり、サブバンドエネルギーから3.0といった定数を減算したりしてもよい。
 図9は、本発明の実施の形態2に係る音声音響復号装置220の構成を示すブロック図である。以下、図9を用いて音声音響符号化装置220の構成について説明する。なお、図9が図4と異なる点は、ユニット数再算出部204を削除し、ユニット数算出部104をユニット数算出部211に変更し、サブバンドエネルギー減衰部221を追加した点である。
 サブバンドエネルギー減衰部221は、サブバンドエネルギー復号部202から出力されたサブバンドエネルギーのうち、帯域圧縮対象サブバンドのサブバンドエネルギーを減衰させ、減衰させたサブバンドエネルギーをユニット数算出部211に出力する。ただし、サブバンドエネルギー減衰部221は、音声音響符号化装置120のサブバンドエネルギー減衰部121と同一の条件で減衰を行う。
 このように、実施の形態2では、音声音響符号化装置120が帯域圧縮対象サブバンドのサブバンドエネルギーを減衰させることにより、暫定的な割当ビットが符号化側と同じ値になるようにしている。
 (実施の形態3)
 実施の形態1では、帯域圧縮対象のサブバンドにおける伸張後のスペクトル位置が帯域圧縮前から変化する可能性がある。そこで、少なくとも、サブバンド内において聴感に大きな影響を及ぼす絶対値振幅が最大のスペクトル(以下、「振幅最大スペクトル」という)については、帯域圧縮の前後でスペクトル位置が変化しないようにすることが考えられる。
 本発明の実施の形態3では、帯域圧縮対象のサブバンドにおける振幅最大スペクトルの復号後の位置を補正する場合について説明する。
 本発明の実施の形態3に係る音声音響符号化装置及び音声音響復号装置の構成は、実施の形態1に示した図1、図4と同様の構成であり、帯域圧縮部105、帯域伸張部206の機能が異なるのみなので、図1、図4を援用し、異なる機能について説明する。また、以下において、図2(A)、図2(B)、図5を流用して説明する。
 図1を参照するに、帯域圧縮部105は、サブバンド分割部102から出力されたサブバンドスペクトルから振幅最大スペクトルを探索する。帯域圧縮部105は、振幅最大スペクトルの位置が奇数番地に位置していれば0、偶数番地に位置していれば1とする位置補正情報を算出して変換符号化部107に出力する。図2(B)において、振幅最大スペクトルは位置2(偶数番地)に存在するスペクトルであるので、帯域圧縮部105は位置補正情報を1と算出する。算出された位置補正情報は、変換符号化部107によって符号化され、音声音響復号装置200に送信される。
 図4を参照するに、帯域伸張部206は、変換符号化復号部205から出力されたサブバンド圧縮スペクトルのうち、帯域圧縮対象外のサブバンドでは、そのままサブバンド圧縮スペクトルをサブバンドスペクトルとしてサブバンド統合部207に出力する。また、帯域伸張部206は、変換符号化復号部205から出力されたサブバンド圧縮スペクトルのうち、帯域圧縮対象サブバンドでは、復号された位置補正情報に基づいて、振幅最大スペクトルを配置し、残りのサブバンド圧縮スペクトルをサブバンド長の幅に伸張して、サブバンドスペクトルとしてサブバンド統合部207に出力する。ここでは、位置補正情報が1であるので、振幅最大スペクトルは偶数番地に配置される。この結果を図10に示す。図2(A)と比べると、位置2に位置する振幅最大スペクトルが正確な位置に配置されていることが分かる。なお、振幅最大スペクトル以外は、最大1サンプルずれる可能性がある。
 このように、位置補正情報に基づいて、振幅最大スペクトルを配置することにより、振幅最大スペクトルを帯域圧縮の前後でスペクトル位置を維持することができる。
 なお、帯域を半分にする場合は、位置補正情報に1ビットの割り当てが必要となるので、ユニット数を5とすると、削減分の5ビットと増加する位置補正情報分の1ビットとから最終的な削減ビット数は4となる。また、1/4に帯域圧縮し、ユニット数を5とする場合には、削減分の10ビットと増加する位置補正情報分2ビットとから最終的な削減ビット数は8となる。
 このように、実施の形態3では、音声音響符号化装置100は、帯域圧縮対象サブバンドの振幅最大スペクトルの位置が奇数番地に位置していれば0、偶数番地に位置していれば1とする位置補正情報を算出し、音声音響復号装置200に送信し、音声音響復号装置200が位置補正情報に基づいて、振幅最大スペクトルを配置することにより、サブバンド内において聴感に大きな影響を及ぼす振幅最大スペクトルを帯域圧縮の前後でスペクトル位置を維持することができる。
 なお、本実施の形態では、振幅最大スペクトルの位置が奇数番地に位置していれば0、偶数番地に位置していれば1とする位置補正情報を算出すると説明したが、本発明はこれに限らない。例えば、振幅最大スペクトルの位置が奇数番地に位置していれば1、偶数番地に位置していれば0であってもよい。また、帯域圧縮対象サブバンドを1/3、1/4等に圧縮する場合には、それに伴った位置補正情報が算出される。
 (実施の形態4)
 実施の形態1では、帯域を圧縮する方法として、帯域圧縮対象サブバンドの低域側から順に2サンプルずつの組み合わせを作り、各組み合わせのうち絶対値振幅の大きい方のサンプルを残す場合について説明した。しかし、振幅最大スペクトルの次に大きい振幅のスペクトル(以下、「次点スペクトル」という)が振幅最大スペクトルと隣接するケースでは、次点スペクトルは符号化対象から外れてしまうことがある。次点スペクトルが振幅最大スペクトルと隣接するケースは、拡張帯域においては確率的に多いことが観測により確認されている。
 そこで、本発明の実施の形態4では、帯域圧縮対象サブバンドのスペクトルの配置をあらかじめ定められた手順に従って変更し(以下、「インタリーブ」という)、振幅最大スペクトルと次点スペクトルとが隣り合わないようにする場合について説明する。
 図11は、本発明の実施の形態4に係る音声音響符号化装置130の構成を示すブロック図である。以下、図11を用いて音声音響符号化装置130の構成について説明する。ただし、図11が図6と異なる点は、インタリーバ131を追加した点である。
 インタリーバ131は、サブバンド分割部102から出力されたサブバンドスペクトルの配置をインタリーブし、配置をインタリーブしたサブバンドスペクトルを帯域圧縮部105に出力する。
 図12に、インタリーブを説明するための図を示す。図12では、帯域圧縮対象サブバンドnを抽出した様子を示し、サブバンド長をW(n)、横軸は周波数、縦軸はスペクトルの絶対値振幅を示すものとする。
 図12(A)は、帯域圧縮前のスペクトルを示しており、位置2のスペクトルが振幅最大スペクトルとし、位置1のスペクトルが次点スペクトルとする。ここで、実施の形態1に示した方法でスペクトルの選択を行うと、図12(B)に示すように、位置2のスペクトルが選択され、位置1の次点スペクトルは符号化対象から除外されてしまう。
 図12(C)は、インタリーブ後のスペクトルを示す。具体的には、奇数番地をスペクトル上で低域側に並べ替え、偶数番地をスペクトル上で高域側に並べ替えた様子を示している。図中のOp(x)(x=1~8)は、インタリーブ前のサブバンドスペクトル位置がxであることを示すものとする。
 このように、インタリーバ131が帯域圧縮対象サブバンドにおけるスペクトルの配置をインタリーブすることにより、振幅最大スペクトルの位置は5に、次点スペクトルの位置は1となって、両者は離れることになる。このため、実施の形態1に示した方法で帯域圧縮を行っても、図12(D)に示すように、振幅最大スペクトルと次点スペクトルとを符号化対象とすることが可能となる。ただし、復号後のスペクトル位置のずれは、この例では最大2サンプルとなる。
 図13は、本発明の実施の形態4に係る声音響復号装置230の構成を示すブロック図である。以下、図13を用いて音声音響復号装置230の構成について説明する。ただし、図13が図7と異なる点は、デインタリーバ231を追加した点である。
 デインタリーバ231は、帯域伸張部206から出力されたサブバンド毎に分離されたサブバンドスペクトルのうち、帯域圧縮対象サブバンドでは、サブバンドスペクトルの配置をデインタリーブし、配置をデインタリーブしたサブバンドスペクトルをサブバンド統合部207に出力する。
 このように、実施の形態4では、音声音響符号化装置130が帯域圧縮対象サブバンドのスペクトルの配置をインタリーブして帯域圧縮することにより、次点スペクトルと振幅最大スペクトルとが隣接する場合であっても、両者を離すことができ、帯域圧縮によって次点スペクトルが除外されることを回避することができる。
 なお、本実施の形態と実施の形態1~3のいずれかとは任意に組み合わせることが可能である。ちなみに、実施の形態3の振幅最大スペクトルに対する位置補正情報を符号化する方法と本実施の形態とを組み合わせた場合、インタリーブを行っても、振幅最大スペクトルの位置は正確に符号化することができる。
 (実施の形態5)
 実施の形態4では、インタリーブをすることで振幅最大スペクトルと次点スペクトルとが隣接する場合に、次点スペクトルが符号化対象から外れることを防ぐ方法について説明した。本発明の実施の形態5では、振幅最大スペクトル近辺を帯域圧縮対象から外すことで、次点スペクトルが符号化対象から外れることを防ぐ方法について説明する。
 本発明の実施の形態5に係る音声音響符号化装置及び音声音響復号装置の構成は、実施の形態1に示した図1、図4と同様の構成であり、帯域圧縮部105、帯域伸張部206の機能が異なるのみなので、図1、図4を援用し、異なる機能について説明する。
 図1を参照するに、帯域圧縮部105は、サブバンド分割部102から出力されたサブバンドスペクトルから振幅最大スペクトルを探索する。振幅最大スペクトルが複数あった場合は、低域側のスペクトルを振幅最大スペクトルとする。帯域圧縮部105は、探索した振幅最大スペクトル及びその近辺のスペクトルを抽出し、帯域圧縮対象外のスペクトル、すなわち、サブバンド圧縮スペクトルの一部とする。ここでは、例えば、振幅最大スペクトルの前後1サンプル、つまり、3サンプルを帯域圧縮対象から除外するものとする。
 帯域圧縮部105は、帯域圧縮対象外のスペクトルより低域側の帯域圧縮を行い、帯域圧縮した結果をサブバンド圧縮スペクトルの低域側から配置する。帯域圧縮部105は、帯域圧縮対象外のスペクトルを、サブバンド圧縮スペクトルの高域側に続けて配置する。次に、帯域圧縮部105は、帯域圧縮対象外のスペクトルより高域側の帯域圧縮を行い、帯域圧縮した結果をサブバンド圧縮スペクトルの高域側に続けて配置する。
 帯域圧縮部105がこのような処理を行うことにより、振幅最大スペクトルの近辺を帯域圧縮対象から除外したサブバンド圧縮スペクトルを得ることができ、隣接した振幅最大スペクトルと次点スペクトルとを符号化対象とすることが可能となる。なお、振幅最大スペクトルの伸張後の位置を正確に表さないのであれば、この帯域圧縮方法に関して音声音響復号装置200に送るべき情報は特にない。
 図4を参照するに、帯域伸張部206は、変換符号化復号部205から出力されたサブバンド圧縮スペクトルのうち振幅最大値を探索する。音声音響符号化装置100と同様に、振幅最大値が複数検出された場合は、低域側のスペクトルを振幅最大スペクトルとする。この結果、帯域伸張部206は、振幅最大スペクトル近辺のスペクトルを帯域圧縮対象外のスペクトルとする。ここでは、振幅最大スペクトル及びその前後1サンプルずつ、計3サンプルを帯域圧縮対象外のスペクトルとして抽出する。
 次に、帯域伸張部206は、帯域圧縮対象外のスペクトルより低域側のサブバンド圧縮スペクトルを伸張する。伸張は、サブバンド圧縮スペクトルの低域側スペクトルを奇数番地に順次配置し、帯域圧縮対象外のスペクトルの直前まで繰り返して行われる。帯域伸張部206は、伸張した低域側のサブバンドスペクトルの高域側に続けて、帯域圧縮対象外のスペクトルを配置する。次に、帯域伸張部206は、帯域圧縮対象外のスペクトルより高域側のサブバンド圧縮スペクトルを伸張し、伸張したサブバンドスペクトルを帯域圧縮対象外のスペクトルの高域側に配置する。
 帯域伸張部206がこのような処理を行うことにより、振幅最大スペクトルの近辺を帯域圧縮対象から外したサブバンド圧縮スペクトルを伸張することができる。
 次に、上述した帯域圧縮部105の帯域圧縮方法について説明する。図14に帯域圧縮の一例を示す。ここでは、サブバンド長を10とし、低域側から振幅値を、8,3,6,2,10,9,5,7,4,1とする。
 帯域圧縮部105は、まず、サブバンドスペクトルの振幅最大スペクトルを探索し、振幅最大スペクトル及びその前後1サンプルずつ、計3サンプルを帯域圧縮対象外のスペクトルとして抽出する。この例では、位置5のスペクトルが最大なので、位置4,5,6のスペクトルが帯域圧縮対象外となる。すなわち、低域側の位置1,2,3と高域側の位置7,8,9,10に位置するスペクトルが帯域圧縮対象となる。この結果、図14に示すように、位置1,3のスペクトルが選択され、それに続いて、帯域圧縮対象外の位置4,5,6のスペクトルが配置され、続いて、位置8,10のスペクトルが選択されて、サブバンド圧縮スペクトルが構成される。
 次に、上述した帯域伸張部206の帯域伸張方法について説明する。図15に帯域伸張の一例を示す。帯域伸張部206は、サブバンド圧縮スペクトルの振幅最大値を探索する。この例では、位置4のスペクトルが振幅最大スペクトルとなるため、位置3,4,5のスペクトルが帯域圧縮対象外のスペクトルとなる。すなわち、低域側の位置1,2のスペクトル、高域側の位置6,7のスペクトルは帯域圧縮されたスペクトルであることが分かる。
 帯域伸張部206は、位置1、2のサブバンド圧縮スペクトルをサブバンドスペクトルの位置1,3にそれぞれ配置する。続いて、帯域伸張部206は、帯域圧縮対象外のスペクトルをそれに続けてサブバンドスペクトルの位置5,6,7に配置する。さらに、帯域伸張部206は、位置6,7のサブバンド圧縮スペクトルをサブバンドスペクトルの位置8,10に配置する。このような手順により、振幅最大スペクトル及びその近辺を帯域圧縮対象から外して帯域圧縮されたサブバンド圧縮スペクトルを伸張することが可能となる。
 このように、実施の形態5では、音声音響符号化装置100が、帯域圧縮対象サブバンドにおける振幅最大スペクトル及びその近辺のスペクトルを帯域圧縮対象から除外し、その他のスペクトルを帯域圧縮することにより、次点スペクトルと振幅最大スペクトルとが隣接する場合であっても、帯域圧縮によって次点スペクトルが除外されることを回避することができる。
 なお、本実施の形態では、振幅最大スペクトルの伸張後の位置が正確な位置とならない可能性があるが、実施の形態2で説明した位置補正情報を符号化及び送信することにより、正確な位置に配置することが可能である。
 (実施の形態6)
 一般的に、聴感上重要なスペクトルは、振幅が大きく、かつ、ほぼ同じ周波数である程度以上の長い時間継続して発生しているケースが多い。人間の音声における母音がこの特徴を持つが、音声以外の楽器が発する高帯域においても母音程ではないにしても、この特徴を多くのケースで観察できる。この特徴を利用して、前のフレームで主観上重要なスペクトルを抽出しておき、現フレームにおいてそのスペクトルの周辺帯域のみを符号化対象として限定して符号化することで、聴感上重要なスペクトルをより効率的に符号化できる。
 原信号であるサブバンドスペクトルでは数フレームに渡って安定して出力されていたスペクトルが、サブバンドエネルギーの変動に伴い符号化ビット量がフレーム毎に変動するため、フレーム毎に符号化できたり符号化できなかったりといった現象が発生することがある。この場合、復号音声の明瞭性を劣化させノイジーにさせてしまう。
 そこで、本発明の実施の形態6では、拡張帯域におけるサブバンドの全てのスペクトルを符号化対象とせず、聴感上重要なスペクトル周辺帯域のみを符号化対象とすることで、より効率的な符号化を実現できる構成について説明する。
 図16は、本発明の実施の形態6に係る音声音響符号化装置140の構成を示すブロック図である。以下、図16を用いて音声音響符号化装置140の構成について説明する。ただし、図16が図1と異なる点は、ユニット数再算出部106と帯域圧縮部105を削除し、ユニット数算出部104をユニット数算出部141に変更し、変換符号化部107を変換符号化部142に変更し、多重化部108を多重化部145に変更し、変換符号化結果記憶部143及び対象帯域設定部144を追加した点である。
 ユニット数算出部141は、サブバンドエネルギー算出部103から出力されたサブバンドエネルギーに基づいて、各サブバンドに割り当てる暫定的な割当ビット数を算出する。また、ユニット数算出部141は、後述する対象帯域設定部144から出力される帯域限定サブバンド情報に基づいて、変換符号化の符号化対象帯域のサブバンド長を取得する。取得したサブバンド長からユニット数が算出できるので、ユニット数算出部141は、暫定的な割当ビット数に近くなるように、符号化ビット量を算出する。ユニット数算出部141は、算出した符号化ビット量と同等の情報をユニット数として変換符号化部142に出力する。基本的に、符号化ビットは、サブバンドエネルギーE[n]が大きいほど、多くのビットが割り当てられるようにビット配分が行われる。ただし、ビット配分はユニット単位で割り当てられ、ユニットに要するビット数はサブバンド長に依存する。つまり、同じ暫定的な割当ビット数であっても、サブバンド長が短ければ、ユニットに必要なビットは少なくなることで、より多くのユニットが使えることになる。ユニットが多く使えると、より多くのスペクトルを符号化できたり、振幅の精度を上げたりすることができる。
 変換符号化部142は、ユニット数算出部141から出力されたユニット数と、後述する対象帯域設定部144から出力される帯域限定サブバンド情報とを用いて、サブバンド分割部102から出力されたサブバンドスペクトルを変換符号化により符号化する。符号化した変換符号化データは多重化部145に出力される。また、変換符号化部142は、変換符号化データを復号し、復号したスペクトルを復号サブバンドスペクトルとして変換符号化結果記憶部143に出力する。変換符号化部142は、符号化する際には、ユニット数算出部141より出力されるユニット数と、対象帯域設定部144より出力される帯域限定サブバンド情報とから、符号化対象となる帯域の開始スペクトル位置、終了スペクトル位置、サブバンド長等を取得して変換符号化を行う。以後、対象帯域設定部144により設定される、通常のサブバンド長よりも短い符号化対象サブバンドを限定帯域と呼び、サブバンド内の全てのスペクトルを符号化対象とするときには全帯域と呼ぶこととする。変換符号化方式として、FPC、AVQ、または、LVQといった変換符号化方式を用いれば効率的に符号化できる。なお、限定帯域外のスペクトルは符号化対象から外れるため、変換符号化では符号化されない。ここでは、復号サブバンドスペクトルにおける限定帯域外のスペクトルは全て振幅を零にする。
 変換符号化結果記憶部143は、変換符号化部142から出力された復号サブバンドスペクトル情報を記憶する。ここでは、説明を簡単にするため、変換符号化結果記憶部143は、そのサブバンドにおける振幅最大スペクトル(絶対値振幅が最大のスペクトル)の情報のみを記憶するものとする。変換符号化結果記憶部143は、記憶したスペクトルの位置を前フレームのスペクトル情報として、記憶したフレームの次のフレームで対象帯域設定部144に出力する。なお、ビットが少なくユニット数が零となった場合、及び、変換符号化が行われなかった場合には、スペクトルが記憶されていないことを示すようにする。例えば、前フレームのスペクトル情報を-1のように設定すればよい。
 対象帯域設定部144は、変換符号化結果記憶部143から出力された前フレームのスペクトル情報と、サブバンド分割部102から出力されたサブバンドスペクトルとを用いて、帯域限定サブバンド情報を生成し、ユニット数算出部141及び変換符号化部142に出力する。帯域限定サブバンド情報は、符号化を行う帯域の開始スペクトル位置、終了スペクトル位置及び符号化対象帯域のサブバンド長が分かるものであればよい。
 また、対象帯域設定部144は、サブバンドを帯域限定するか否かを示す帯域限定フラグを多重化部145に出力する。ここでは、帯域限定フラグが1のときに帯域限定を行い、帯域限定フラグが0のときに全帯域を符号化対象とするものとする。
 多重化部145は、サブバンドエネルギー算出部103から出力されたサブバンドエネルギー符号化データと、変換符号化部142から出力された変換符号化データと、対象帯域設定部144から出力された帯域限定フラグとを多重化して符号化データとして出力する。
 以上の構成により、音声音響符号化装置140は、前フレームの変換符号化結果を用いて、帯域限定した符号化データを生成することができる。
 次に、図16に示した対象帯域設定部144における対象帯域設定方法について説明する。
 対象帯域設定部144は、符号化対象のサブバンドに含まれる全てのスペクトルを変換符号化の対象とするか、聴感上重要なスペクトルの周辺に限定した帯域に含まれるスペクトルを変換符号化の対象とするかの判断を行う。聴感上重要なスペクトルか否かの判断方法を、以下に簡易的な方法で例示する。
 サブバンドスペクトルの中で振幅最大スペクトルは聴感上重要性が高いと考えられる。現フレームにおいても、サブバンドスペクトルにおける振幅最大スペクトルが、前フレームの振幅最大スペクトルと近い帯域内にあれば、聴感上重要なスペクトルが時間的に連続していると判断できる。このようなケースでは、前フレームの聴感上重要なスペクトル周辺帯域のみに符号化範囲を絞ることができる。
 例えば、n番目のサブバンドにおいて、前フレームの聴感上重要なスペクトルの位置をP[t-1,n]とする。符号化対象限定後の帯域の幅をWL[n]とすると、帯域限定後の符号化対象帯域の開始スペクトル位置はP[t-1,n]-(int)(WL[n]/2)、終了スペクトル位置はP[t-1,n]+(int)(WL[n])/2)で表される。ただし、ここでは、WL[n]は奇数、(int)は小数点を切り捨てる処理を表すものとする。ここで、サブバンド長W[n]を100、WL[n]を31とすると、一本のスペクトルの位置を表すのに最低限必要なビット量は、7ビットから5ビットに削減できる。
 なお、WL[n]は、サブバンド毎にあらかじめ決めておくものとして説明するが、サブバンドスペクトルの特徴に応じて可変としてもよい。例えば、サブバンドエネルギーが大きいときは、WL[n]を広くし、フレームt-1におけるサブバンドエネルギーとフレームtにおけるサブバンドエネルギーの変化が少ないときは、WL[n]を狭くする方法等がある。
 また、サブバンド長W[n]においては、W[n-1]≦W[n]の関係があったが、限定帯域幅WL[n]においては、その関係に拘束されなくてもよい。また、限定帯域の開始スペクトル位置、及び終了スペクトル位置が、元々のサブバンドの範囲外になる場合には、元々のサブバンドの開始スペクトル位置を限定帯域の開始スペクトル位置、もしくは、元々のサブバンドの終了スペクトル位置を限定帯域の終了スペクトル位置とするようにし、WL[n]は変更しないものとする。
 ところで、限定帯域を前フレームでの変換符号化の結果のみで決めた場合、限定帯域外に主観上重要なスペクトルが移動した場合には、そのスペクトルは符号化されず、主観上重要ではない帯域を限定帯域として符号化し続ける危険がある。しかしながら、本例のように、限定帯域内に現サブバンドの振幅最大スペクトルが存在するか確認することにより、限定帯域外に主観上重要なスペクトルが存在するかを知ることができる。その場合には、全帯域を符号化対象とすることで、主観上重要なスペクトルの継時的な符号化に寄与することができる。
 なお、対象帯域設定部144においては、聴感上重要な帯域を、前フレームと現フレームの振幅最大スペクトルの位置から算出する場合を例に説明したが、低域スペクトルの調波構造から高域スペクトルの調波構造を推定して、聴感上重要な帯域を算出するようにしてもよい。調波構造とは、低域のスペクトルがほぼ等間隔で高域にも存在する構造である。そのため、低域スペクトルから調波構造を推定し、高域における調波構造を推定することもできる。推定した帯域周辺を限定帯域として符号化することも可能である。この場合、低域スペクトルを先に符号化し、その符号化結果を用いてから高域のスペクトルを符号化するようにすれば、音声音響符号化装置と音声音響復号装置の間で同一の帯域限定サブバンド情報を得ることは可能である。
 次に、上述した音声音響符号化装置140の一連の動作について説明する。
 まず、帯域限定を行わない拡張帯域の符号化について、図17を用いて説明する。図17では、サブバンドn-1とサブバンドnの2つのサブバンドを表示しており、横軸は周波数、縦軸はスペクトル振幅の絶対値を表している。また、スペクトルは、各サブバンドにおける振幅最大スペクトルのみを表示している。また、時間的に連続する3つのフレームt-1,t,t+1を上から順に表示している。フレームt、サブバンドn-1の振幅最大スペクトルの位置をP[t、n-1]で表すものとする。
 サブバンドエネルギー算出部103により算出されたサブバンドエネルギーにより、フレームt-1、サブバンドn-1の暫定的な割当ビット数は7ビット、サブバンドnの暫定的な割当ビット数は5ビットであったとする。以下、フレームtでは、5ビットと7ビット、フレームt+1では、7ビットと5ビットであったとする。
 なお、サブバンドn-1のサブバンド長W[n-1]は100、サブバンド長W[n]は110であるとし、それぞれ2の7乗を下回るので、ユニットを簡単のため整数化して7ビットであるものとする。フレームt-1では、サブバンドn-1の暫定的な割当ビット数がユニットを超えるため、ひとつのスペクトルを符号化できる。一方、サブバンドnでは暫定的な割当ビット数がユニットを超えないため、スペクトルは符号化されない。フレームtでは、暫定的な割当ビット数が5ビットと7ビットなので、サブバンドnのみスペクトルが符号化され、フレームt+1では、暫定的な割当ビット数が7ビットと5ビットであるため、サブバンドn-1のスペクトルが変換符号化されるものとする。
 このような場合、サブバンドn-1に着目すると、入力スペクトルでは、近い帯域内で連続してスペクトルが存在していたにも関わらず、暫定的な割当ビット数が若干足らないために、フレームtでスペクトルが符号化されず、t-1からt+1において時間的に連続して符号化されない。本例のように連続性が欠如した場合、復号信号の明瞭性を劣化させ、ノイジーな印象を与えてしまう。
 次に、帯域限定を行った拡張帯域の符号化について、図18を用いて説明する。図18の基本的な構成は図17と同様である。また、フレームt-1については、図17に説明した例と全く同一であるものとする。
 まず、フレームtのサブバンドnについて説明する。フレームt-1におけるサブバンドnは変換符号化では符号化されていないため、フレームtでは、対象帯域設定部144に変換符号化結果記憶部143から前フレームのスペクトル情報が-1として出力される。これにより、フレームtのサブバンドnでは、帯域限定を行わずにサブバンド内の全てのスペクトルを対象に変換符号化を行う。サブバンドnの帯域限定フラグは0に設定する。本例の場合、暫定的な割当ビット数は7ビットであるので、1つのスペクトルが符号化される。
 次に、フレームtのサブバンドn-1について説明する。フレームt-1では、サブバンドn-1で変換符号化がされているため、変換符号化結果記憶部143から前フレームのスペクトル情報P[t-1,n-1]が対象帯域設定部144に出力される。対象帯域設定部144では、限定帯域をP[t-1,n-1]-(int)(WL[n-1]/2)から、P[t-1,n-1]+(int)(WL[n-1]/2)と設定する。次に、入力されるサブバンドスペクトルのうち、振幅最大スペクトルP[t,n-1]を探索する。本例においては、P[t,n-1]は限定帯域内に存在するので、サブバンドn-1の帯域限定フラグを1にセットする。また、対象帯域設定部144は、帯域限定サブバンド情報として、限定帯域の開始スペクトル位置P[t-1,n-1]-(int)(WL[n-1]/2)、終了スペクトル位置P[t-1,n-1]+(int)(WL[n-1]/2)、限定帯域幅WL[n-1]を出力する。
 ユニット数算出部141では、サブバンド長がW[n-1]からWL[n-1]に短縮されたので、ユニット数が増える可能性が高くなる。
 変換符号化部142では、サブバンド分割部102から出力されたサブバンドスペクトルのうち、対象帯域設定部144から出力された限定帯域サブバンド情報で指示される限定帯域内のスペクトルのみ符号化する。WL[n-1]が31であるとすると、31は2の5乗未満なのでユニットは簡単のため5で表す。この例では、暫定的な割当ビット数が5ビット、ユニットが5であるためひとつのスペクトルを符号化できる。以後、フレームt+1においても、フレームtと同様の手順で符号化できる。
 上述したように、重要なスペクトル周辺帯域に限定して変換符号化することにより、サブバンドn-1に着目したとき、フレームt-1からt+1まで連続して変換符号化により符号化できることを示した。このように、聴感上重要なスペクトルを時間的に連続して符号化することが可能となるため、ノイズ感の少ない明瞭性の高い復号音声を得ることができる。
 図19は、本発明の実施の形態6に係る声音響復号装置240の構成を示すブロック図である。以下、図19を用いて音声音響復号装置240の構成について説明する。ただし、図19が図7と異なる点は、符号分離部201を符号分離部241に、ユニット数算出部211をユニット数算出部242に、変換符号化復号部205を変換符号化復号部243に、サブバンド統合部207をサブバンド統合部246にそれぞれ変更し、変換符号化結果記憶部244及び対象帯域復号部245を追加した点である。
 符号分離部241は、符号化データが入力され、入力された符号化データをサブバンドエネルギー符号化データ、変換符号化データ、帯域限定フラグに分離し、サブバンドエネルギー符号化データをサブバンドエネルギー復号部202に出力し、変換符号化データを変換符号化復号部243に出力し、帯域限定フラグを対象帯域復号部245に出力する。
 ユニット数算出部242は、音声音響符号化装置140のユニット数算出部141と同一であるため、その詳細な説明は省略する。
 変換符号化復号部243は、符号分離部241から出力された変換符号化データ、ユニット数算出部242から出力されたユニット数、および、対象帯域復号部245から出力された帯域限定サブバンド情報に基づいて、サブバンド毎に復号した結果を復号サブバンドスペクトルとしてサブバンド統合部246に出力する。なお、帯域限定された符号化データを復号した場合には、限定帯域外のスペクトルの振幅は全て零とし、出力するサブバンド長は帯域限定する前のサブバンド長W[n]のスペクトルとして出力する。
 変換符号化結果記憶部244は、音声音響符号化装置140の変換符号化結果記憶部143とほぼ同一の機能を有する。ただし、フレーム消失、パケットロス等、通信路による誤りの影響を受けたときは、復号サブバンドスペクトルを変換符号化結果記憶部244に記憶することができないので、例えば、前フレームのスペクトル情報を-1のように設定する。
 対象帯域復号部245は、符号分離部241から出力された帯域限定フラグと、変換符号化結果記憶部244から出力された前フレームのスペクトル情報とに基づいて、帯域限定サブバンド情報をユニット数算出部242と変換符号化復号部243とに出力する。対象帯域復号部245は、帯域限定フラグの値に応じて、帯域限定を行うか否かを決定する。ここでは、対象帯域復号部245は、帯域限定フラグが1のときには、帯域限定を行い、帯域限定を示す帯域限定サブバンド情報を出力する。一方、対象帯域復号部245は、帯域限定フラグが0のときには、帯域限定は行わずに、そのサブバンドの全スペクトルを符号化対象であることを示す帯域限定サブバンド情報を出力する。ただし、変換符号化結果記憶部244から出力された前フレームのスペクトル情報が-1であったとしても、帯域限定フラグが1であれば、対象帯域復号部245は、帯域限定を示す帯域限定サブバンド情報を算出する。これは、フレーム消失等により前フレームで変換符号化データの復号が行われなかった場合には、前フレームのスペクトル情報が-1となるが、音声音響符号化装置140においては帯域限定を行った変換符号化を行っているので、帯域限定を前提として変換符号化データを復号する必要があるためである。
 サブバンド統合部246は、変換符号化復号部243から出力された復号サブバンドスペクトルを低域側から詰めて一つのベクトルに統合し、統合したベクトルを復号信号スペクトルとして周波数時間変換部208に出力する。
 次に、上述した音声音響復号装置240の一連の動作について、図18を用いて説明する。
 ここでは、フレームt-1において、サブバンドn-1は変換符号化されており、サブバンドnは変換符号化で符号化されていないものとする。フレームtにおいては、サブバンドn-1及びサブバンドnは変換符号化されており、サブバンドn-1は帯域限定により符号化されているものとする。
 まず、フレームtについて説明する。対象帯域復号部245は、各サブバンドが、符号分離部241から出力された帯域限定フラグにより、帯域限定されずに変換符号化されたサブバンドか、帯域限定の上で変換符号化されたサブバンドかを知ることができる。帯域限定されずに変換符号化されたサブバンド、ここでは、サブバンドnは全てのスペクトル符号化対象として復号される。変換符号化復号部243は、符号分離部241から出力された符号化データを、対象帯域復号部245から出力されたサブバンド長W[n]、及び、ユニット数算出部242から出力されたユニット数を用いて復号することができる。
 一方、対象帯域復号部245は、帯域限定フラグにより、サブバンドn-1が帯域限定された状態で符号化されていることを知ることができる。そのため、変換符号化復号部243は、符号分離部241から出力された符号化データを、対象帯域復号部245から出力されたサブバンドn-1の帯域限定サブバンド長WL[n-1]、及び、ユニット数算出部242から出力されたユニット数を用いて復号することができる。
 ただし、このままでは、変換符号化復号部243は、復号した復号サブバンドスペクトルの正確な配置位置は特定できないので、前フレームのサブバンドn-1の復号結果を使って、正確な配置位置を特定する。変換符号化結果記憶部244には、P[t-1,n-1]が記憶されているものとする。対象帯域復号部245は、変換符号化結果記憶部244から出力されたP[t-1,n-1]を中心に、サブバンド幅がWL[n-1]となるように、帯域限定サブバンド情報を設定する。具体的には、帯域限定サブバンドの開始スペクトル位置をP[t-1,n-1]-(int)(WL[n-1]/2)、終了スペクトル位置をP[t-1,n-1]+(int)(WL[n-1]/2)とする。このようにして算出した帯域限定サブバンド情報を、変換符号化復号部243に出力する。
 これにより、変換符号化復号部243は、復号したサブバンドスペクトルを正確な位置に配置できる。なお、帯域限定サブバンド情報で示される限定帯域外のスペクトルについてはスペクトルの振幅を零とする。
 なお、フレームt-1が通信路の影響により受信できず、正しく復号できなかった場合は、変換符号化結果記憶部244には、正しい復号結果が記憶されない。そのため、フレームtにおいて帯域限定により符号化されたサブバンドの場合、復号サブバンドスペクトルを正確な位置に配置することはできない。この場合、帯域限定サブバンド情報の開始スペクトル位置、終了スペクトル位置を、例えば、サブバンド中央付近となるように固定としてもよい。また、変換符号化結果記憶部244において、過去に復号した結果を用いて推定するようにしてもよい。また、変換符号化復号部243が低域スペクトルから調波構造を算出し、当該サブバンドにおける調波構造を推定して、振幅最大スペクトルの位置を推定するようにしてもよい。
 以上の一連の動作により、音声音響復号装置240は、帯域限定により符号化された符号化データを復号することができる。
 以上の音声音響符号化装置140により、高域における継時性が高いスペクトルを効率的に符号化することが可能となり、また、音声音響復号装置240により、明瞭性の高い復号信号を得ることが可能となる。
 このように、実施の形態6では、前フレームで主観上重要なスペクトル周辺帯域のみを符号化することにより、少ないビットで対象帯域を符号化できるため、時間的に継続して聴感上重要なスペクトルを符号化できる可能性を向上させることができる。この結果、明瞭性の高い復号信号を得ることが可能となる。
 2012年11月5日出願の特願2012-243707及び2013年5月31日出願の特願2013-115917の日本出願に含まれる明細書、図面及び要約書の開示内容は、すべて本願に援用される。
 本発明にかかる音声音響符号化装置、音声音響復号装置、音声音響符号化方法及び音声音響復号方法は、音声通話を行う通信装置等に適用できる。
 101 時間周波数変換部
 102 サブバンド分割部
 103 サブバンドエネルギー算出部
 104、203、111、141、211、242 ユニット数算出部
 105 帯域圧縮部
 106、204 ユニット数再算出部
 107、142 変換符号化部
 108、145 多重化部
 121、221 サブバンドエネルギー減衰部
 131 インタリーバ
 143、244 変換符号化結果記憶部
 144 対象帯域設定部
 201、241 符号分離部
 202 サブバンドエネルギー復号部
 205、243 変換符号化復号部
 206 帯域伸張部
 207、246 サブバンド統合部
 208 周波数時間変換部
 231 デインタリーバ
 245 対象帯域復号部

Claims (17)

  1.  時間領域の入力信号を周波数領域のスペクトルに変換する時間周波数変換手段と、
     前記スペクトルをサブバンドに分割する分割手段と、
     拡張帯域内のサブバンドにおいて、スペクトルを低域側または高域側から順に複数サンプルずつの組み合わせに分け、各組み合わせの中で振幅の絶対値の大きいスペクトルを選択し、選択したスペクトルを周波数軸上で詰めて配置して当該サブバンドの帯域を圧縮する帯域圧縮手段と、
     前記拡張帯域より低域のサブバンドのスペクトルと、帯域圧縮されたスペクトルとを変換符号化により符号化する変換符号化手段と、
     を具備する音声音響符号化装置。
  2.  前記スペクトルの符号化を行う前記変換符号化手段の符号の単位であって、サブバンドのエネルギーと帯域幅から決まるユニットの暫定的なユニット数をサブバンド毎に算出するユニット数算出手段と、
     前記帯域圧縮手段の帯域圧縮によって削減されたビットを前記拡張帯域より低域のサブバンドに配分するようにして各サブバンドに配分する最終的なユニット数を算出する再算出手段と、
     をさらに具備する請求項1に記載の音声音響符号化装置。
  3.  前記スペクトルの符号化を行う前記変換符号化手段の符号の単位であって、サブバンドのエネルギーと帯域幅から決まるユニットの暫定的なユニット数をサブバンド毎に算出し、前記帯域圧縮手段の帯域圧縮によって削減されたビットを前記拡張帯域より低域のサブバンドに配分し、配分した前記ビットに基づいて、ユニット数を再配分するユニット数算出手段をさらに具備する請求項1に記載の音声音響符号化装置。
  4.  前記拡張帯域内の前記サブバンドのエネルギーを前記帯域圧縮前に減衰させる減衰手段をさらに具備する請求項3に記載の音声音響符号化装置。
  5.  前記帯域圧縮手段は、前記拡張帯域内のサブバンド毎に、振幅の絶対値が最大のスペクトルの前記帯域圧縮前の位置を示す位置補正情報を算出する、
     請求項1に記載の音声音響符号化装置。
  6.  前記拡張帯域内のサブバンドのスペクトルの配置を、帯域を圧縮する前にインタリーブするインタリーブ手段をさらに具備する請求項1に記載の音声音響符号化装置。
  7.  前記帯域圧縮手段は、前記拡張帯域内のサブバンドにおいて振幅の絶対値が最大となるスペクトルとその前後の所定サンプル数分のスペクトルを帯域圧縮の対象から除外し、残りのスペクトルの帯域を圧縮する、
     請求項1に記載の音声音響符号化装置。
  8.  前記帯域圧縮手段は、サブバンドが高域に位置するほど前記組み合わせのサンプル数を多くする、
     請求項1に記載の音声音響符号化装置。
  9.  音声音響復号装置であって、
     拡張帯域内のサブバンドにおいて、スペクトルを低域側または高域側から順に複数サンプルずつの組み合わせに分け、各組み合わせの中で、振幅の絶対値の大きいスペクトルを選択し、選択したスペクトルを周波数軸上で詰めて配置して当該サブバンドの帯域を圧縮したスペクトルと、前記拡張帯域より低域のサブバンドのスペクトルとが共に変換符号化により符号化された符号化データを復号する変換符号化復号手段と、
     前記圧縮されたサブバンドの帯域幅を元のサブバンドの帯域幅に伸張する帯域伸張手段と、
     復号された前記拡張帯域より低域のサブバンドのスペクトルと、伸張された前記拡張帯域内のサブバンドのスペクトルとを一つのベクトルに統合するサブバンド統合手段と、
     統合された周波数領域のスペクトルを時間領域の信号に変換する周波数時間変換手段と、
     を具備する音声音響復号装置。
  10.  前記スペクトルの符号化を行う変換符号化手段の符号の単位であって、サブバンドのエネルギーと帯域幅から決まるユニットの暫定的なユニット数をサブバンド毎に算出するユニット数算出手段と、
     帯域圧縮によって削減されたビットを前記拡張帯域より低域のサブバンドに配分するようにして、各サブバンドに配分する最終的なユニット数を算出する再算出手段と、
     をさらに具備する請求項9に記載の音声音響復号装置。
  11.  前記スペクトルの符号化を行う変換符号化手段の符号の単位であって、サブバンドのエネルギーと帯域幅から決まるユニットの暫定的なユニット数をサブバンド毎に算出し、帯域圧縮によって削減されたビットを前記拡張帯域より低域のサブバンドに配分するようにして各サブバンドに配分する最終的なユニット数を算出するユニット数算出手段をさらに具備する請求項9に記載の音声音響復号装置。
  12.  前記拡張帯域内のサブバンドのエネルギーを減衰させる減衰手段をさらに具備する請求項11に記載の音声音響復号装置。
  13.  前記帯域伸張手段は、前記拡張帯域内のサブバンド毎に、振幅の絶対値が最大のスペクトルの前記帯域圧縮前の位置を示す位置補正情報に基づいて、圧縮された帯域を伸張する、
     請求項9に記載の音声音響復号装置。
  14.  帯域伸張された前記拡張帯域内の前記サブバンドのスペクトルの配置をデインタリーブするデインタリーブ手段をさらに具備する請求項9に記載の音声音響復号装置。
  15.  前記帯域伸張手段は、前記拡張帯域内のサブバンドにおいて振幅の絶対値が最大となるスペクトルとその前後の所定サンプル数分のスペクトルであって帯域圧縮の対象から除外されたスペクトルはそのままとし、帯域圧縮されたスペクトルを元の帯域幅に伸張することでサブバンドの帯域幅を元の帯域幅に伸張する、
     請求項9に記載の音声音響復号装置。
  16.  時間領域の入力信号を周波数領域のスペクトルに変換する時間周波数変換工程と、
     前記スペクトルをサブバンドに分割する分割工程と、
     拡張帯域内のサブバンドのスペクトルを、低域側または高域側から順に複数サンプルずつの組み合わせに分け、各組み合わせの中で振幅の絶対値の大きいスペクトルを選択し、選択したスペクトルを周波数軸上で詰めて配置して帯域を圧縮する帯域圧縮工程と、
     前記拡張帯域より低域のサブバンドのスペクトルと、帯域圧縮されたスペクトルとを変換符号化により符号化する変換符号化工程と、
     を具備する音声音響符号化方法。
  17.  変換符号化復号工程であって、
     拡張帯域内のサブバンドのスペクトルを、低域側または高域側から順に複数サンプルずつの組み合わせに分け、各組み合わせの中で、振幅の絶対値の大きいスペクトルを選択し、選択したスペクトルを周波数軸上で詰めて配置することで帯域を圧縮したスペクトルと、前記拡張帯域より低域のサブバンドのスペクトルとが共に変換符号化により符号化された符号化データを復号する変換符号化復号工程と、
     圧縮されたサブバンドの帯域幅を元のサブバンドの帯域幅に伸張する帯域伸張工程と、
     復号された前記拡張帯域より低域のサブバンドのスペクトルと、伸張された前記拡張帯域内のサブバンドのスペクトルとを一つのベクトルに統合するサブバンド統合工程と、
     統合された周波数領域のスペクトルを時間領域の信号に変換する周波数時間変換工程と、
     を具備する音声音響復号方法。
     
PCT/JP2013/006496 2012-11-05 2013-11-01 音声音響符号化装置、音声音響復号装置、音声音響符号化方法及び音声音響復号方法 WO2014068995A1 (ja)

Priority Applications (17)

Application Number Priority Date Filing Date Title
KR1020207027193A KR102215991B1 (ko) 2012-11-05 2013-11-01 음성 음향 부호화 장치, 음성 음향 복호 장치, 음성 음향 부호화 방법 및 음성 음향 복호 방법
KR1020157011505A KR102161162B1 (ko) 2012-11-05 2013-11-01 음성 음향 부호화 장치, 음성 음향 복호 장치, 음성 음향 부호화 방법 및 음성 음향 복호 방법
RU2015116610A RU2648629C2 (ru) 2012-11-05 2013-11-01 Устройство кодирования речи-аудио, устройство декодирования речи-аудио, способ кодирования речи-аудио и способ декодирования речи-аудио
CA2889942A CA2889942C (en) 2012-11-05 2013-11-01 Speech audio encoding device, speech audio decoding device, speech audio encoding method, and speech audio decoding method
ES13850858T ES2753228T3 (es) 2012-11-05 2013-11-01 Dispositivo de codificación de audio de voz, dispositivo de decodificación de audio de voz, procedimiento de codificación de audio de voz y procedimiento de decodificación de audio de voz
BR112015009352-3A BR112015009352B1 (pt) 2012-11-05 2013-11-01 Dispositivo de codificação de fala/áudio, dispositivo de decodificação de fala/áudio, método de codificação de fala/áudio e método de decodificação de fala/áudio
JP2014544326A JP6234372B2 (ja) 2012-11-05 2013-11-01 音声音響符号化装置、音声音響復号装置、音声音響符号化方法及び音声音響復号方法
EP19190764.1A EP3584791B1 (en) 2012-11-05 2013-11-01 Speech audio encoding device and speech audio encoding method
MX2015004981A MX355630B (es) 2012-11-05 2013-11-01 Dispositivo de codificacion de voz audio, dispositivo de decodificacion de voz audio, metodo de codificacion de voz audio y metodo de decodificacion de voz audio.
EP23163921.2A EP4220636A1 (en) 2012-11-05 2013-11-01 Speech audio encoding device and speech audio encoding method
EP13850858.5A EP2916318B1 (en) 2012-11-05 2013-11-01 Speech audio encoding device, speech audio decoding device, speech audio encoding method, and speech audio decoding method
CN201380050272.6A CN104737227B (zh) 2012-11-05 2013-11-01 语音音响编码装置、语音音响解码装置、语音音响编码方法和语音音响解码方法
US14/439,090 US9679576B2 (en) 2012-11-05 2013-11-01 Speech audio encoding device, speech audio decoding device, speech audio encoding method, and speech audio decoding method
PL13850858T PL2916318T3 (pl) 2012-11-05 2013-11-01 Urządzenie do kodowania dźwięku mowy, urządzenie do dekodowania dźwięku mowy, sposób kodowania dźwięku mowy oraz sposób dekodowania dźwięku mowy
US15/590,360 US9892740B2 (en) 2012-11-05 2017-05-09 Speech audio encoding device, speech audio decoding device, speech audio encoding method, and speech audio decoding method
US15/848,841 US10210877B2 (en) 2012-11-05 2017-12-20 Speech audio encoding device, speech audio decoding device, speech audio encoding method, and speech audio decoding method
US16/243,588 US10510354B2 (en) 2012-11-05 2019-01-09 Speech audio encoding device, speech audio decoding device, speech audio encoding method, and speech audio decoding method

Applications Claiming Priority (4)

Application Number Priority Date Filing Date Title
JP2012-243707 2012-11-05
JP2012243707 2012-11-05
JP2013115917 2013-05-31
JP2013-115917 2013-05-31

Related Child Applications (2)

Application Number Title Priority Date Filing Date
US14/439,090 A-371-Of-International US9679576B2 (en) 2012-11-05 2013-11-01 Speech audio encoding device, speech audio decoding device, speech audio encoding method, and speech audio decoding method
US15/590,360 Continuation US9892740B2 (en) 2012-11-05 2017-05-09 Speech audio encoding device, speech audio decoding device, speech audio encoding method, and speech audio decoding method

Publications (1)

Publication Number Publication Date
WO2014068995A1 true WO2014068995A1 (ja) 2014-05-08

Family

ID=50626940

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/JP2013/006496 WO2014068995A1 (ja) 2012-11-05 2013-11-01 音声音響符号化装置、音声音響復号装置、音声音響符号化方法及び音声音響復号方法

Country Status (13)

Country Link
US (4) US9679576B2 (ja)
EP (3) EP2916318B1 (ja)
JP (3) JP6234372B2 (ja)
KR (2) KR102161162B1 (ja)
CN (2) CN104737227B (ja)
BR (1) BR112015009352B1 (ja)
CA (1) CA2889942C (ja)
ES (1) ES2753228T3 (ja)
MX (1) MX355630B (ja)
MY (2) MY189358A (ja)
PL (2) PL3584791T3 (ja)
RU (3) RU2678657C1 (ja)
WO (1) WO2014068995A1 (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10311879B2 (en) 2014-07-25 2019-06-04 Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. Audio signal coding apparatus, audio signal decoding apparatus, audio signal coding method, and audio signal decoding method

Families Citing this family (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR102185478B1 (ko) * 2014-02-28 2020-12-02 프라운호퍼-게젤샤프트 추르 푀르데룽 데어 안제반텐 포르슝 에 파우 복호 장치, 부호화 장치, 복호 방법, 및 부호화 방법
CN107294579A (zh) 2016-03-30 2017-10-24 索尼公司 无线通信系统中的装置和方法以及无线通信系统
JP6348562B2 (ja) * 2016-12-16 2018-06-27 マクセル株式会社 復号化装置および復号化方法
US10825467B2 (en) * 2017-04-21 2020-11-03 Qualcomm Incorporated Non-harmonic speech detection and bandwidth extension in a multi-source environment
US11682406B2 (en) * 2021-01-28 2023-06-20 Sony Interactive Entertainment LLC Level-of-detail audio codec
CN115512711A (zh) * 2021-06-22 2022-12-23 腾讯科技(深圳)有限公司 语音编码、语音解码方法、装置、计算机设备和存储介质
CN117095685B (zh) * 2023-10-19 2023-12-19 深圳市新移科技有限公司 一种联发科平台终端设备及其控制方法

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS6337400A (ja) * 1986-08-01 1988-02-18 日本電信電話株式会社 音声符号化及び復号化方法
JP2000132194A (ja) * 1998-10-22 2000-05-12 Sony Corp 信号符号化装置及び方法、並びに信号復号装置及び方法
JP2002374171A (ja) * 2001-06-15 2002-12-26 Sony Corp 符号化装置および方法、復号装置および方法、記録媒体、並びにプログラム
JP2002372995A (ja) * 2001-06-15 2002-12-26 Sony Corp 符号化装置及び方法、復号装置及び方法、並びに符号化プログラム及び復号プログラム
JP2004094090A (ja) * 2002-09-03 2004-03-25 Matsushita Electric Ind Co Ltd オーディオ信号圧縮伸長装置及び方法
JP2010506207A (ja) * 2006-10-06 2010-02-25 エージェンシー フォー サイエンス,テクノロジー アンド リサーチ エンコード方法、デコード方法、エンコーダ、デコーダ、及びコンピュータプログラム製品

Family Cites Families (23)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2570603B2 (ja) 1993-11-24 1997-01-08 日本電気株式会社 音声信号伝送装置およびノイズ抑圧装置
DE19730130C2 (de) * 1997-07-14 2002-02-28 Fraunhofer Ges Forschung Verfahren zum Codieren eines Audiosignals
US6353808B1 (en) 1998-10-22 2002-03-05 Sony Corporation Apparatus and method for encoding a signal as well as apparatus and method for decoding a signal
JP4287545B2 (ja) * 1999-07-26 2009-07-01 パナソニック株式会社 サブバンド符号化方式
JP4008244B2 (ja) * 2001-03-02 2007-11-14 松下電器産業株式会社 符号化装置および復号化装置
JP3877158B2 (ja) * 2002-10-31 2007-02-07 ソニー・エリクソン・モバイルコミュニケーションズ株式会社 周波数偏移検出回路及び周波数偏移検出方法、携帯通信端末
KR100851970B1 (ko) * 2005-07-15 2008-08-12 삼성전자주식회사 오디오 신호의 중요주파수 성분 추출방법 및 장치와 이를이용한 저비트율 오디오 신호 부호화/복호화 방법 및 장치
JP5142727B2 (ja) * 2005-12-27 2013-02-13 パナソニック株式会社 音声復号装置および音声復号方法
US7831434B2 (en) * 2006-01-20 2010-11-09 Microsoft Corporation Complex-transform channel coding with extended-band frequency coding
KR101412255B1 (ko) * 2006-12-13 2014-08-14 파나소닉 인텔렉츄얼 프로퍼티 코포레이션 오브 아메리카 부호화 장치, 복호 장치 및 이들의 방법
KR101291672B1 (ko) * 2007-03-07 2013-08-01 삼성전자주식회사 노이즈 신호 부호화 및 복호화 장치 및 방법
US7774205B2 (en) * 2007-06-15 2010-08-10 Microsoft Corporation Coding of sparse digital media spectral data
US8527265B2 (en) * 2007-10-22 2013-09-03 Qualcomm Incorporated Low-complexity encoding/decoding of quantized MDCT spectrum in scalable speech and audio codecs
JPWO2009084221A1 (ja) * 2007-12-27 2011-05-12 パナソニック株式会社 符号化装置、復号装置およびこれらの方法
WO2009125588A1 (ja) * 2008-04-09 2009-10-15 パナソニック株式会社 符号化装置および符号化方法
JP5267115B2 (ja) * 2008-12-26 2013-08-21 ソニー株式会社 信号処理装置、その処理方法およびプログラム
WO2010134757A2 (ko) * 2009-05-19 2010-11-25 한국전자통신연구원 계층형 정현파 펄스 코딩을 이용한 오디오 신호의 인코딩 및 디코딩 방법 및 장치
WO2011048798A1 (ja) * 2009-10-20 2011-04-28 パナソニック株式会社 符号化装置、復号化装置およびこれらの方法
CN102081927B (zh) * 2009-11-27 2012-07-18 中兴通讯股份有限公司 一种可分层音频编码、解码方法及系统
US8924222B2 (en) * 2010-07-30 2014-12-30 Qualcomm Incorporated Systems, methods, apparatus, and computer-readable media for coding of harmonic signals
CN103503061B (zh) * 2011-02-14 2016-02-17 弗劳恩霍夫应用研究促进协会 在一频谱域中用以处理已解码音频信号的装置及方法
JP5732614B2 (ja) 2011-05-24 2015-06-10 パナソニックIpマネジメント株式会社 放電灯点灯装置及びそれを用いた灯具並びに車両
JP2013115917A (ja) 2011-11-29 2013-06-10 Nec Tokin Corp 非接触電力伝送送電装置、非接触電力伝送受電装置、非接触電力伝送及び通信システム

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS6337400A (ja) * 1986-08-01 1988-02-18 日本電信電話株式会社 音声符号化及び復号化方法
JP2000132194A (ja) * 1998-10-22 2000-05-12 Sony Corp 信号符号化装置及び方法、並びに信号復号装置及び方法
JP2002374171A (ja) * 2001-06-15 2002-12-26 Sony Corp 符号化装置および方法、復号装置および方法、記録媒体、並びにプログラム
JP2002372995A (ja) * 2001-06-15 2002-12-26 Sony Corp 符号化装置及び方法、復号装置及び方法、並びに符号化プログラム及び復号プログラム
JP2004094090A (ja) * 2002-09-03 2004-03-25 Matsushita Electric Ind Co Ltd オーディオ信号圧縮伸長装置及び方法
JP2010506207A (ja) * 2006-10-06 2010-02-25 エージェンシー フォー サイエンス,テクノロジー アンド リサーチ エンコード方法、デコード方法、エンコーダ、デコーダ、及びコンピュータプログラム製品

Non-Patent Citations (4)

* Cited by examiner, † Cited by third party
Title
"MP3 AND AAC explained", AES 17TH INTERNATIONAL CONFERENCE ON HIGH QUALITY AUDIO CODING, 1999
ITU, ITU-T STANDARD G 719, 2008
ITU, ITU-T STANDARD G 729.1 ANNEXE, 2010
ITU, ITU-T STANDARD G.718 ANNEXB, 2010

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10311879B2 (en) 2014-07-25 2019-06-04 Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. Audio signal coding apparatus, audio signal decoding apparatus, audio signal coding method, and audio signal decoding method
US10643623B2 (en) 2014-07-25 2020-05-05 Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. Audio signal coding apparatus, audio signal decoding apparatus, audio signal coding method, and audio signal decoding method
US11521625B2 (en) 2014-07-25 2022-12-06 Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. Audio signal coding apparatus, audio signal decoding apparatus, audio signal coding method, and audio signal decoding method

Also Published As

Publication number Publication date
EP2916318B1 (en) 2019-09-25
CA2889942A1 (en) 2014-05-08
MY189358A (en) 2022-02-07
CN107633847B (zh) 2020-09-25
US20170243594A1 (en) 2017-08-24
RU2701065C1 (ru) 2019-09-24
KR20150082269A (ko) 2015-07-15
KR102215991B1 (ko) 2021-02-16
PL2916318T3 (pl) 2020-04-30
JP6234372B2 (ja) 2017-11-22
US20180114535A1 (en) 2018-04-26
MX2015004981A (es) 2015-07-17
US9679576B2 (en) 2017-06-13
JP2018018100A (ja) 2018-02-01
PL3584791T3 (pl) 2024-03-18
RU2648629C2 (ru) 2018-03-26
KR20200111830A (ko) 2020-09-29
BR112015009352A2 (pt) 2017-07-04
CN104737227A (zh) 2015-06-24
JP6435392B2 (ja) 2018-12-05
EP3584791A1 (en) 2019-12-25
US10210877B2 (en) 2019-02-19
EP2916318A1 (en) 2015-09-09
CA2889942C (en) 2019-09-17
BR112015009352A8 (pt) 2019-09-17
JPWO2014068995A1 (ja) 2016-09-08
EP3584791B1 (en) 2023-10-18
US9892740B2 (en) 2018-02-13
US20190147897A1 (en) 2019-05-16
CN107633847A (zh) 2018-01-26
RU2678657C1 (ru) 2019-01-30
KR102161162B1 (ko) 2020-09-29
MX355630B (es) 2018-04-25
CN104737227B (zh) 2017-11-10
US10510354B2 (en) 2019-12-17
RU2015116610A (ru) 2016-12-27
JP2019040206A (ja) 2019-03-14
EP4220636A1 (en) 2023-08-02
ES2753228T3 (es) 2020-04-07
BR112015009352B1 (pt) 2021-10-26
JP6647370B2 (ja) 2020-02-14
US20150294673A1 (en) 2015-10-15
MY171754A (en) 2019-10-28
EP2916318A4 (en) 2015-12-09

Similar Documents

Publication Publication Date Title
JP6435392B2 (ja) 音声音響符号化装置及び音声音響符号化方法
EP3096315A2 (en) Device and method for execution of huffman coding
KR101803410B1 (ko) 인코딩 방법 및 장치
CN110706715A (zh) 信号编码和解码的方法和设备
KR102512359B1 (ko) 에너지 무손실 부호화방법 및 장치, 신호 부호화방법 및 장치, 에너지 무손실 복호화방법 및 장치, 및 신호 복호화방법 및 장치
EP2697795B1 (en) Adaptive gain-shape rate sharing
JPWO2012004998A1 (ja) スペクトル係数コーディングの量子化パラメータを効率的に符号化する装置及び方法
KR20110110044A (ko) 부호화 방법 및 장치, 그리고 복호화 방법 및 장치
JP6400590B2 (ja) 音響信号符号化装置、音響信号復号装置、端末装置、基地局装置、音響信号符号化方法及び復号方法
ES2707337T3 (es) Aparato de codificación de señal de audio, dispositivo de decodificación de señal de audio y métodos del mismo
JP4573670B2 (ja) 符号化装置、符号化方法、復号化装置及び復号化方法

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 13850858

Country of ref document: EP

Kind code of ref document: A1

ENP Entry into the national phase

Ref document number: 2014544326

Country of ref document: JP

Kind code of ref document: A

WWE Wipo information: entry into national phase

Ref document number: MX/A/2015/004981

Country of ref document: MX

WWE Wipo information: entry into national phase

Ref document number: 14439090

Country of ref document: US

ENP Entry into the national phase

Ref document number: 2889942

Country of ref document: CA

REEP Request for entry into the european phase

Ref document number: 2013850858

Country of ref document: EP

WWE Wipo information: entry into national phase

Ref document number: 2013850858

Country of ref document: EP

ENP Entry into the national phase

Ref document number: 20157011505

Country of ref document: KR

Kind code of ref document: A

NENP Non-entry into the national phase

Ref country code: DE

REG Reference to national code

Ref country code: BR

Ref legal event code: B01A

Ref document number: 112015009352

Country of ref document: BR

ENP Entry into the national phase

Ref document number: 2015116610

Country of ref document: RU

Kind code of ref document: A

ENP Entry into the national phase

Ref document number: 112015009352

Country of ref document: BR

Kind code of ref document: A2

Effective date: 20150427