WO2007043648A1 - 変換符号化装置および変換符号化方法 - Google Patents

変換符号化装置および変換符号化方法 Download PDF

Info

Publication number
WO2007043648A1
WO2007043648A1 PCT/JP2006/320457 JP2006320457W WO2007043648A1 WO 2007043648 A1 WO2007043648 A1 WO 2007043648A1 JP 2006320457 W JP2006320457 W JP 2006320457W WO 2007043648 A1 WO2007043648 A1 WO 2007043648A1
Authority
WO
WIPO (PCT)
Prior art keywords
scale factor
spectrum
distortion
unit
weighted
Prior art date
Application number
PCT/JP2006/320457
Other languages
English (en)
French (fr)
Inventor
Masahiro Oshikiri
Tomofumi Yamanashi
Original Assignee
Matsushita Electric Industrial Co., Ltd.
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Matsushita Electric Industrial Co., Ltd. filed Critical Matsushita Electric Industrial Co., Ltd.
Priority to US12/089,985 priority Critical patent/US8135588B2/en
Priority to EP06821860A priority patent/EP1953737B1/en
Priority to BRPI0617447-7A priority patent/BRPI0617447A2/pt
Priority to CN2006800375449A priority patent/CN101283407B/zh
Priority to JP2007540000A priority patent/JP4954080B2/ja
Publication of WO2007043648A1 publication Critical patent/WO2007043648A1/ja
Priority to US13/367,840 priority patent/US8311818B2/en

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/02Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
    • G10L19/0204Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders using subband decomposition
    • G10L19/0208Subband vocoders
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/02Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
    • G10L19/032Quantisation or dequantisation of spectral components
    • G10L19/038Vector quantisation, e.g. TwinVQ audio
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/06Determination or coding of the spectral characteristics, e.g. of the short-term prediction coefficients
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/16Vocoder architecture
    • G10L19/18Vocoders using multiple modes
    • G10L19/24Variable rate codecs, e.g. for generating different qualities using a scalable representation such as hierarchical encoding or layered encoding

Definitions

  • the present invention relates to a transform coding apparatus and transform coding method for encoding an input signal in a frequency domain.
  • a first layer that encodes an input signal at a low bit rate with a model suitable for a speech signal, and a differential signal between the input signal and the first layer decoded signal is also suitable for a signal other than speech.
  • a technique that hierarchically combines the second layer encoded by the model see Non-Patent Document 1, for example.
  • an example of performing scalable coding using a technique specified by MPEG-4 (Moving Picture Experts Group phase-4) is shown.
  • CELP Code Excited Linear Prediction
  • AAC Ad is applied to the residual signal obtained by subtracting the first layer decoded signal from the original signal.
  • Transform code weights such as vanced audio and oaer
  • TwmVw Transform Domain Weighted Interleave Vector Quantization
  • TwinVQ uses the MDCT coefficients as scale factors. It can be considered that this is a technique for performing the sign separation separately into a fine spectrum.
  • Non-patent document 1 edited by Satoshi Miki, “All of MPEG-4 (First Edition)”, Industrial Research Committee, Inc., September 30, 1998, p. 126-127
  • Non-Patent Document 2 Naoki Iwagami, Takehiro Moriya, Mitsumata, Kazunaga Ikeda, and Akio Kamin, “Musical Coding with Frequency Domain Weighted Interleaved Vector Quantization (TwinVQ)” Theory of Science (A), 199 May, vol.J80 -A, no.5, p.830-837
  • the weight function w expressed by the above equation (1) is a Bark scale, that is, a function of frequency.
  • Bark scale i is the same, the difference between the input scale factor and the quantization candidate (E—Ci (m) )
  • the weights (weights) Wi to be multiplied are always the same.
  • Wi represents a weight corresponding to the Bark scale, and is calculated based on the magnitude of the spectrum envelope.
  • the average amplitude weight for a band with a small spectral envelope is a small value
  • the average amplitude weight for a band with a large spectral envelope is a large value. Therefore, since the weight of the average amplitude with respect to the band having a large spectrum envelope is set to be large, as a result, this band is regarded as important and the coding is performed. Conversely, since the weight of the average amplitude for the band with a small spectral envelope is set to be small, the importance of this band is low.
  • An object of the present invention is to provide a transform code key apparatus and a transform code key method capable of reducing deterioration in perceptual voice quality even when the number of bits is not sufficiently allocated. is there.
  • a conversion code encoder includes an input scale factor calculation means for calculating a plurality of input scale factors corresponding to an input spectrum, and a codebook for storing a plurality of scale factors and outputting one scale factor.
  • a distortion calculating means for calculating a distortion between one of the plurality of input scale factors and a scale factor output from the codebook, and the one input scale factor is output from the codebook.
  • the weighted distortion is weighted more than the distortion of the scale factor.
  • a weighted distortion calculating means for performing a scale factor that minimizes the weighted distortion in the codebook.
  • Search means for searching for Kuta; The structure to comprise is taken.
  • FIG. 1 is a block diagram showing the main configuration of a scalable code generator according to Embodiment 1.
  • FIG. 2 shows the main configuration inside the second layer code generator according to Embodiment 1.
  • Block diagram [FIG. 3] A block diagram showing the main components inside the correction scale factor code section according to the first embodiment.
  • FIG. 4 is a block diagram showing the main configuration of the scalable decoding device according to Embodiment 1.
  • FIG. 5 is a block diagram showing the main configuration inside the second layer decoding device according to Embodiment 1.
  • FIG. 6 is a block diagram showing the main configuration inside the second layer code section according to Embodiment 2.
  • FIG. 7 is a block diagram showing the main configuration inside the second layer decoding section according to Embodiment 2.
  • FIG. 8 is a block diagram showing the main configuration inside the second layer code key section according to the third embodiment.
  • FIG. 9 is a block diagram showing the main configuration of the transform code key apparatus according to the fourth embodiment.
  • FIG. 10 is a block diagram showing the main components inside the scale factor code section according to the fourth embodiment.
  • FIG. 11 is a block diagram showing the main configuration of a transform decoding apparatus according to Embodiment 4.
  • FIG. 12 is a block diagram showing the main configuration of the scalable code base apparatus according to Embodiment 5.
  • FIG. 13 is a block diagram showing the main configuration inside the second layer code base section according to Embodiment 5.
  • FIG. 14 is a block diagram showing the main configuration inside the correction scale factor code key section according to the fifth embodiment.
  • FIG. 15 is a block diagram showing the main configuration inside the second layer decoding key unit according to Embodiment 5.
  • FIG. 16 shows the main configuration inside the second layer code key unit according to Embodiment 6.
  • Block diagram [FIG. 17] A block diagram showing the main components inside the correction scale factor code section according to the sixth embodiment.
  • FIG. 18 is a block diagram showing the main configuration of the scalable decoding device according to Embodiment 7.
  • FIG. 19 is a block diagram showing the main configuration inside the modified LPC calculation unit according to Embodiment 7.
  • FIG. 20 is a schematic diagram showing the signal band and voice quality of each layer according to Embodiment 7.
  • FIG. 21 is a spectral characteristic diagram showing a state of power spectrum correction by the first realization method according to Embodiment 7.
  • FIG. 22 is a spectral characteristic diagram showing the state of power spectrum correction by the second realization method according to the seventh embodiment.
  • FIG. 23 is a spectral characteristic diagram of a post filter configured using the modified LPC coefficient according to the seventh embodiment.
  • FIG. 24 is a block diagram showing the main configuration of the scalable decoding device according to Embodiment 8.
  • FIG. 25 is a block diagram showing the main configuration inside the suppression information calculation unit according to Embodiment 8. Best form for
  • scalable coding is a coding scheme having a hierarchical structure consisting of a plurality of layers, and is characterized in that the coding parameters generated in each layer have scalability.
  • a certain level of decoded signal can be obtained, and decoding is performed using more layers of code key parameters. If a decoded signal with higher quality is obtained by performing the above, it has a characteristic.
  • Embodiments 1 to 3 and 5 to 8 describe cases in which the present invention is applied to scalable coding, and Embodiment 4 uses the present invention for a code that has a single layer power. The case where it applies is explained. In Embodiments 1 to 3 and 5 to 8, the following cases will be described as examples.
  • the second layer performs coding in the frequency domain, that is, transform code, and uses MDCT (Modified Discrete Cosine Transform) as a transform method.
  • MDCT Modified Discrete Cosine Transform
  • FIG. 1 is a block diagram showing the main configuration of a scalable coding apparatus including a transform coding apparatus according to Embodiment 1 of the present invention.
  • the scalable coding apparatus includes a downsampling unit 101, a first layer coding unit 102, a multiplexing unit 103, a first layer decoding unit 104, a delay unit 105, and a first coding unit.
  • a two-layer code key unit 106 is provided, and each unit performs the following operations.
  • Down-sampling section 101 generates a signal of sampling rate F 1 (F 1 ⁇ F 2) from the input signal of sampling rate F 2, and provides it to first layer coding section 102.
  • First layer encoding section 102 encodes the signal of sampling rate F1 output from downsampling section 101.
  • the code parameter obtained by the first layer code key unit 102 is provided to the multiplexing unit 103 and also to the first layer decoding key unit 104.
  • First layer decoding unit 104 generates a first layer decoded signal from the code key parameter output from first layer code unit 102.
  • the delay unit 105 gives a delay of a predetermined length to the input signal. This delay is for correcting a time delay generated in the downsampling unit 101, the first layer coding unit 102, and the first layer decoding unit 104.
  • Second layer code key unit 106 uses the first layer decoded signal generated in first layer decoding key unit 104 to convert the input signal converted from the delay unit 105 by a predetermined time. ⁇ is performed, and the generated sign key parameter is output to the multiplexing unit 103.
  • the multiplexing unit 103 multiplexes the code parameter obtained by the first layer coding unit 102 and the coding parameter obtained by the second layer coding unit 106, and finally multiplexes them. Output as a typical sign parameter.
  • FIG. 2 is a block diagram showing the main configuration inside second layer code key section 106.
  • the second layer code key unit 106 includes MDCT analysis units 111 and 112, a high-frequency spectrum estimation unit 113, and a corrected scale factor code key unit 114, and each unit performs the following operations.
  • MDCT analysis section 111 performs MDCT analysis on the first layer decoded signal to calculate a low band spectrum (narrow band spectrum) of signal band (frequency band) 0 to FL, and sends it to high band spectrum estimation section 1 13 Output.
  • the MDCT analysis unit 112 performs MDCT analysis on the voice signal that is the original signal, and calculates a wideband spectrum of the signal band 0 to FH. Of these, the same bandwidth as the narrowband spectrum and the signal band is The high-frequency spectrum of the high-frequency FL to FH is output to the high-frequency spectrum estimation unit 113 and the corrected scale factor code unit 114. Here, there is a relationship FL ⁇ FH between the signal band of the narrowband spectrum and the signal band of the wideband spectrum.
  • the high frequency spectrum estimation unit 113 estimates the high frequency spectrum of the signal bands FL to FH using the low frequency spectrum of the signal bands 0 to FL, and obtains an estimated spectrum.
  • the method for deriving the estimated spectrum is to obtain an estimated spectrum that maximizes the similarity to the high frequency spectrum by transforming the low frequency spectrum based on the low frequency spectrum.
  • the high-frequency spectrum estimation unit 113 encodes information (estimation information) related to the estimated spectrum, outputs the obtained encoding parameter, and supplies the estimated spectrum itself to the corrected scale factor encoding unit 114.
  • the estimated spectrum output from the high-frequency spectrum estimation unit 113 is referred to as a first spectrum
  • the high-frequency spectrum output from the MDCT analysis unit 112 is referred to as a second spectrum. To do.
  • Narrow band spectrum (low band spectrum) ⁇ ⁇ '0 to FL
  • the corrected scale factor encoding unit 114 corrects the scale factor of the first spectrum so that the scale factor of the first spectrum approaches the scale factor of the second spectrum, and encodes information on the corrected scale factor. And output.
  • FIG. 3 is a block diagram showing the main configuration inside the correction scale factor code key 114. is there.
  • the correction scale factor code unit 114 includes scale factor calculation units 121 and 122, a correction scale factor codebook 123, a multiplier 124, a subtractor 125, a determination unit 126, a weighted error calculation unit 127, and A search unit 128 is provided, and each unit performs the following operations.
  • the scale factor calculation unit 121 divides the input signal band FL to FH of the second spectrum into a plurality of subbands, obtains the size of the spectrum included in each subband, and outputs it to the subtractor 125. . Specifically, the division into subbands is performed in association with the critical band, and is divided at equal intervals on the Bark scale.
  • the scale factor calculation unit 121 calculates the average amplitude of the spectrum included in each subband, and sets this as the second scale factor SF2 (k) ⁇ 0 ⁇ k ⁇ NB ⁇ .
  • NB represents the number of subbands.
  • the maximum amplitude value may be used instead of the average amplitude.
  • the scale factor calculation unit 122 divides the input first spectrum signal band FL to FH into a plurality of subbands, and the first scale factor SF1 (k) ⁇ 0 ⁇ k ⁇ NB ⁇ of each subband. Is output to the multiplier 124. Note that the scale factor calculation unit 122 may use a maximum amplitude value or the like instead of the average amplitude, similarly to the scale factor calculation unit 121.
  • each parameter in a plurality of subbands is combined into one vector value.
  • NB scale factors are expressed as one vector.
  • a case where each process is performed for each vector, that is, a case where vector quantization is performed will be described as an example.
  • the correction scale factor codebook 123 stores a plurality of correction scale factor candidates. In accordance with an instruction from the search unit 128, one of the stored correction scale factor candidates is stored in the multiplier 124. Output sequentially. A plurality of correction scale factor candidates stored in the correction scale factor codebook 123 are represented by vectors.
  • Multiplier 124 multiplies the first scale factor output from scale factor calculation section 122 and the correction scale factor candidate output from correction scale factor codebook 123, and subtracts the multiplication result from subtractor 125. To give.
  • the subtractor 125 uses the second scale factor output from the scale factor calculation unit 121.
  • the output of the multiplier 124 that is, the product of the first scale factor and the correction scale factor candidate is subtracted, and the error signal obtained thereby is supplied to the weighted error calculation unit 127 and the determination unit 126.
  • the determination unit 126 determines a weight vector to be given to the weighted error calculation unit 127 based on the sign of the error signal given from the subtractor 125. Specifically, the error signal d (k) given from the subtractor 125 is expressed by the following equation (2).
  • d (k) SF2 (k)-V, (k)-SFl (k) (0 ⁇ k ⁇ NB)... (2)
  • Vi (k) is the i-th correction scale Represents a candidate factor.
  • the judging unit 126 checks the sign of d (k), and if w is positive, w is weighted if it is negative.
  • the weight vector w (k), which also includes these forces, is output to the weighted error calculation unit 127.
  • These weights have the following magnitude relationship (3).
  • the weighted error calculation unit 127 first calculates the square value of the error signal given from the subtraction unit 125, and then calculates the weight vector w (k) given from the determination unit 126 to the square of the error signal.
  • the weighted square error E is calculated by multiplying the value, and the calculation result is given to the search unit 128.
  • the weighted square error E is expressed by the following equation (4).
  • Search section 128 controls correction scale factor codebook 123 to sequentially output stored correction scale factor candidates, and weighted 2 output from weighted error calculation section 127 by closed-loop processing. Find a candidate for a correction scale factor that minimizes the multiplication error E.
  • the search unit 128 outputs the obtained index iopt of the corrected scale factor candidate as an encoding parameter.
  • Figure 4 shows the main components of this scalable decoding device. It is a block diagram which shows a structure.
  • Separating section 151 performs separation processing on the input bitstream indicating the encoding parameter.
  • a coding parameter for the first layer decoding key unit 152 and a coding parameter for the second layer decoding key unit 153 are generated.
  • First layer decoding section 152 decodes the decoded signal of signal band 0 to FL using the code key parameter obtained by separating section 151, and outputs this decoded signal. Also, first layer decoding section 152 gives the obtained decoded signal to second layer decoding section 153.
  • the second layer decoding unit 153 is provided with the code key parameter separated by the separating unit 151 and the first layer decoded signal output from the first layer decoding unit 152. Second layer decoding section 153 performs spectrum decoding, converts it to a time domain signal, generates a wideband decoded signal of signal bands 0 to FH, and outputs this.
  • FIG. 5 is a block diagram showing the main configuration inside second layer decoding section 153.
  • Second layer decoding unit 153 is a component corresponding to second layer code unit 106 in the transform code unit according to the present embodiment.
  • MDCT analysis section 161 performs MDCT analysis on the first layer decoded signal, calculates a first spectrum of signal bands 0 to FL, and outputs the first spectrum to highband spectrum decoding section 162.
  • the high-frequency spectrum decoding unit 162 uses the encoding parameter (estimation information) and the first spectrum transmitted from the transform encoding apparatus device according to the present embodiment to generate a signal. Decodes the estimated spectrum (fine spectrum) in the band FL to FH. The resulting estimated spectrum is provided to multiplier 164.
  • the correction scale factor decoding unit 163 decodes the correction scale factor using the code parameter (correction scale factor) sent from the transform coding apparatus according to the present embodiment. Specifically, referring to a built-in correction scale factor codebook (not shown), the corresponding correction scale factor is output to multiplier 164.
  • Multiplier 164 multiplies the estimated spectrum output from high-frequency spectrum decoding unit 162 by the correction scale factor output from correction scale factor decoding unit 163, and supplies the multiplication result to concatenating unit 165. Output.
  • the concatenation unit 165 frequency-combines the first spectrum and the estimated spectrum output from the multiplier 164. Connected on several axes, generates a wideband decoded spectrum of signal band 0 to FH, and outputs it to time domain transform section 166.
  • Time domain transform section 166 performs inverse MD CT processing on the decoded spectrum output from concatenation section 165, multiplies an appropriate window function, and then corresponds to the signal after windowing of the previous frame. Add the regions to generate and output the second layer decoded signal.
  • the scale factor in the coding process in the frequency domain of the higher layer, is quantized by converting the input signal into the frequency domain coefficient.
  • the scale factor is quantized using a weighted distortion scale that facilitates selection of a quantization candidate with a small scale factor. That is, it is easy to select a scale factor after quantization that is smaller than the scale factor before quantization. Therefore, even when the number of bits allocated to the quantization of the scale factor is insufficient, it is possible to suppress the deterioration of the subjective quality of hearing.
  • the weighting function w expressed by the above equation (1) is always the same when the Bark scale i is the same.
  • the weight to be multiplied by the difference is changed according to the difference (E ⁇ C (m)) between the input signal and the quantization candidate.
  • E ⁇ C (m) the difference between the input signal and the quantization candidate.
  • the weighting candidate C (m) with a positive E-C (m) is more likely to be selected than a quantized candidate C (m) with a negative E-C (m).
  • the scale factor after quantization is set smaller than the original scale factor.
  • correction scale factor candidates included in the correction scale factor codebook are represented by scalars.
  • the basic configuration of a scalable coding apparatus including the transform coding apparatus according to Embodiment 2 of the present invention is the same as that of Embodiment 1. Therefore, the description thereof will be omitted, and second layer coding unit 206 having a configuration different from that of Embodiment 1 will be described below.
  • FIG. 6 is a block diagram showing the main configuration inside second layer code key section 206. 2nd
  • the code encoder unit 206 has the same basic configuration as that of the second layer code unit 106 shown in the first embodiment. The explanation is omitted.
  • components having the same basic operation but different in detail will be described by adding the same reference numerals with alphabetic lower case letters to the same numbers. The same notation method will be used in the description of other configurations.
  • the second layer code key unit 206 further includes an auditory masking calculation unit 211 and a bit allocation determining unit 212, and the correction scale factor code key unit 114a is a bit determined by the bit allocation determining unit 212.
  • the correction scale factor sign based on the distribution is performed.
  • the auditory masking calculation unit 211 analyzes the input signal, calculates an auditory masking value representing an allowable value of quantization distortion, and outputs it to the bit allocation determination unit 212.
  • bit allocation determining section 212 determines how many bits are allocated to which subband, and outputs this bit allocation information to the outside. At the same time, it is output to the correction scale factor sign unit 114a.
  • the correction scale factor encoding unit 114a quantizes the correction scale factor candidate using the number of bits determined by the bit allocation information output from the bit allocation determination unit 212, and encodes the index. Output as a parameter. At that time, the size of the weight corresponding to the subband is set based on the number of quantization bits of the correction scale factor. Specifically, the correction scale factor sign unit 114a is the difference between two weights with respect to the correction scale factor of the subband having a small number of quantization bits, specifically, when the error signal d (k) is positive. Set so that the difference between weight w and weight w when error signal d (k) is negative is large, and pos neg
  • the scalable decoding device according to the present embodiment will be described.
  • the scalable decoding device according to the present embodiment is the same as that of the first embodiment.
  • the second layer decoding key unit 253 having a basic configuration similar to that of the first decoding decoding device, which is different from the first embodiment, will be described below.
  • FIG. 7 is a block diagram showing the main configuration inside second layer decoding section 253.
  • Bit allocation decoding section 261 decodes the number of bits of each subband using the code parameter (bit allocation information) that is also sent to the scalable coding apparatus according to the present embodiment. The obtained number of bits is output to the corrected scale factor decoding unit 163a.
  • the correction scale factor decoding unit 163a decodes the correction scale factor using the number of bits of each subband and the sign key parameter (correction scale factor), and obtains the obtained correction scale factor. Output to multiplier 164. Other processes are the same as those in the first embodiment.
  • the weight is changed according to the number of quantization bits allocated to the scale factor of each band. This weight change is based on the fact that the weight w and error signal d (k) when the error signal d (k) is positive are pos for a scale factor with a small number of quantization bits.
  • the basic configuration of the scalable coding apparatus including the conversion coding apparatus according to Embodiment 3 of the present invention is also the same as that of Embodiment 1. Therefore, description thereof is omitted, and second layer code key section 306 having a configuration different from that of Embodiment 1 will be described below.
  • FIG. 8 is a block diagram showing a main configuration inside second layer code key section 306.
  • the similarity calculation unit 311 calculates the similarity between the second spectrum of the signal bands FL to FH, that is, the vector signal FL to FH, and the similarity obtained. It outputs to the correction scale factor code part 114b.
  • the similarity is, for example, It is defined by the SNR (SignaH: o-Noise Ratio) of the estimated spectrum for two spectra.
  • the correction scale factor encoding unit 114b quantizes the correction scale factor candidate based on the similarity output from the similarity calculation unit 311, and outputs the index as an encoding parameter. At that time, the weight corresponding to the subband is set based on the similarity of the subband. Specifically, the correction scale factor sign unit 114b calculates the difference between the two weights for the correction scale factor of the subband with low similarity, specifically, the weight when the error signal d (k) is positive. The difference between weights w and pos neg when error signal d (k) is negative is set to be large, while for the above two weights for the correction scale factor of the subbands with high similarity, Set the difference between these two weights to be small
  • the weight is changed according to the accuracy of the shape of the estimated vector of each band with respect to the spectrum of the original signal (for example, similarity, SNR, etc.).
  • This change in weight is such that the difference between the weight w when the error signal d (k) is positive and the weight w when it is negative is large for the scale factor of the subbands with low similarity.
  • the input power of correction scale factor encoding sections 114, 114a, and 114b is shown as an example in the case of two spectra having different characteristics, ie, a first spectrum and a second spectrum.
  • the input of the correction scale factor code keys 114, 114a, 114b may be one spectrum. An embodiment in such a case will be described below.
  • FIG. 9 is a block diagram showing the main configuration of the transform coding apparatus according to the present embodiment.
  • MDCT is used as a conversion method
  • the transform code key apparatus includes an MDCT analysis unit 401, a scale factor code key unit 402, a fine spectrum code key unit 403, and a multiplexing unit 404. Perform the operation.
  • MDCT analysis section 401 performs MDCT analysis on the original speech signal and outputs the obtained spectrum to scale factor code section 402 and fine spectrum code section 403.
  • Scale factor encoding section 402 divides the signal band of the spectrum obtained by MDCT analysis section 401 into a plurality of subbands, calculates the scale factor of each subband, and applies the quantum to these. Do. Details of this quantization will be described later.
  • the scale factor encoding unit 402 outputs the code key parameter (scale factor) obtained by the quantization to the multiplexing unit 404 and outputs the decoded scale factor itself to the fine spectrum code key unit 403.
  • Fine spectrum code unit 403 normalizes the spectrum given from MDCT analysis unit 401 using the decoding scale factor output from scale factor code unit 402, and converts the normalized spectrum to Encode.
  • the fine spectrum encoding unit 403 outputs the obtained encoding parameter (fine spectrum) to the multiplexing unit 404.
  • FIG. 10 is a block diagram showing a main configuration inside scale factor code key unit 402.
  • the scale factor code unit 402 has the same basic configuration as the scale factor encoding unit 114 shown in the first embodiment, and the same components are denoted by the same reference numerals. The description is omitted.
  • multiplier 124 multiplies scale factor SF1 (k) of the first spectrum by correction scale factor candidate V (k), and subtractor 125 obtains error signal d (k).
  • the present embodiment is different in that the error signal d (k) is obtained by directly giving the scale factor candidate X (k) to the subtractor 125. That is, in the present embodiment, the expression (2) shown in the first embodiment is expressed as follows.
  • FIG. 11 is a block diagram showing the main configuration of the transform decoding apparatus according to the present embodiment.
  • Separating section 451 performs a separation process on the input bitstream indicating the encoding parameter, and provides a sign factor parameter (scale factor) for scale factor decoding section 452 and a fine vector decoding section 453. Generate sign key parameters (fine spectrum) for scale factor decoding section 452 and a fine vector decoding section 453.
  • the scale factor decoding unit 452 decodes the scale factor using the encoding parameter (scale factor) obtained by the demultiplexing unit 451, and supplies this to the multiplier 454.
  • the fine spectrum decoding unit 453 decodes the fine spectrum using the code key parameter (fine vector) obtained by the separation unit 451, and supplies this to the multiplier 454.
  • Multiplier 454 multiplies the fine spectrum output from fine spectrum decoding unit 453 by the scale factor output from scale factor decoding unit 452 to generate a decoded spectrum. This decoded spectrum is output to time domain transform section 455.
  • Time domain transform section 455 performs time domain transform on the decoded spectrum output from multiplier 454, and outputs the obtained time domain signal as a final decoded signal.
  • the present invention can be applied to a code that has a single layer force.
  • the scale factor code unit 402 is provided by the MDCT analysis unit 401 according to the bit allocation information shown in the second embodiment and the index such as the similarity shown in the third embodiment.
  • the vector scale factor may be attenuated in advance, and quantization may be performed using a normal distortion scale without weighting. As a result, deterioration of voice quality can be reduced even in a low bit rate environment.
  • FIG. 12 is a block diagram showing the main configuration of a scalable coding apparatus including the transform code coding apparatus according to Embodiment 5 of the present invention.
  • a scalable coding apparatus includes a downsampling unit 501.
  • a first layer coding unit 502, a multiplexing unit 503, a first layer decoding unit 504, an upsampling unit 505, a delay unit 507, a second layer coding unit 508, and a background noise analysis unit 506 Consists mainly of.
  • Downsampling section 501 generates a signal of sampling rate F 1 (F 1 ⁇ F 2) from the input signal of sampling rate F 2 and provides it to first layer coding section 502.
  • First layer encoding section 502 encodes the signal of sampling rate F1 output from downsampling section 501.
  • the code key parameter obtained by first layer code key section 502 is provided to multiplexing section 503 and also to first layer decoding key section 504.
  • First layer decoding unit 504 generates a first layer decoded signal from the code key parameter output from first layer code unit 502, and outputs the decoded signal to background noise analysis unit 506 and upsampling unit 505. To do.
  • Up-sampling section 505 up-samples the sampling rate of the first layer decoded signal from F1 to F2, and outputs this to second layer coding section 508.
  • Background noise analysis section 506 receives the first layer decoded signal and determines whether background noise is included in this signal. When the background noise analysis unit 506 determines that background noise is included in the first layer decoded signal! / Sound, it performs processing such as MDCT on the background noise and analyzes its frequency characteristics. The analyzed frequency characteristics are output to the second layer code encoder 508 as background noise information. On the other hand, when the background noise analysis unit 506 determines that the background noise is not included in the first layer decoded signal, the background noise is included in the first layer decoded signal in the second layer encoding unit 508. The background noise information indicating that is output.
  • a background noise detection method an input signal in a certain section is analyzed to calculate the maximum power value and the minimum power value of the input signal, and the ratio or difference between them is equal to or greater than a threshold value.
  • a general background noise detection method can be employed in addition to a method of setting the minimum power value as noise.
  • the delay unit 507 gives a delay having a predetermined length to the input signal. This delay is for correcting a time delay generated in the downsampling unit 501, the first layer coding unit 502, and the first layer decoding unit 504.
  • Second layer encoding section 508 receives the up-sampled first layer decoded signal obtained from up-sampling section 505 and background noise information obtained from background noise analysis section 506. Using this, the conversion code of the input signal output from the delay unit 507 is delayed for a predetermined time, and the generated encoding parameter is output to the multiplexing unit 503.
  • Multiplexing section 503 multiplexes the code parameter obtained by first layer code key section 502 and the coding parameter obtained by second layer code key section 508, and outputs this to the final result. Output as a typical sign parameter.
  • FIG. 13 is a block diagram showing the main configuration inside second layer code key section 508.
  • Second layer encoding section 508 includes MDCT analysis sections 511 and 512, high band spectrum estimation section 513, and corrected scale factor encoding section 514, and each section performs the following operations.
  • MDCT analysis section 511 performs MDCT analysis on the first layer decoded signal to calculate a low-frequency spectrum (narrowband spectrum) of signal band (frequency band) 0 to FL, and high-frequency spectrum estimation section 5
  • the MDCT analysis unit 512 performs MDCT analysis on the voice signal that is the original signal, and calculates a wideband spectrum of the signal band 0 to FH, of which the same bandwidth as the narrowband spectrum and the signal band is
  • the high-frequency spectrum of the high-frequency FL to FH is output to the high-frequency spectrum estimation unit 513 and the corrected scale factor code unit 514.
  • FL ⁇ FH there is a relationship FL ⁇ FH between the signal band of the narrowband spectrum and the signal band of the wideband spectrum.
  • Highband spectrum estimation section 513 estimates the highband spectrum of signal bands FL to FH using the lowband spectrum of signal bands 0 to FL to obtain an estimated spectrum.
  • the method for deriving the estimated spectrum is to obtain an estimated spectrum that maximizes the similarity to the high frequency spectrum by transforming the low frequency spectrum based on the low frequency spectrum.
  • the high-frequency spectrum estimation unit 513 encodes information (estimation information) related to the estimated spectrum and outputs the obtained encoding parameters.
  • the estimated spectrum output from the high-frequency spectrum estimation unit 513 is referred to as the first spectrum
  • the high-frequency spectrum output from the MDCT analysis unit 512 is referred to as the second spectrum. To do.
  • Narrow band spectrum (low band spectrum) ⁇ ⁇ ⁇ 0 to FL Broadband spectrum ... 0 ⁇ FH
  • the corrected scale factor code unit 514 encodes and outputs information on the scale factor of the second spectrum using the background noise information.
  • FIG. 14 is a block diagram showing the main configuration inside the correction scale factor code key section 514.
  • the corrected scale factor code unit 514 includes a scale factor calculation unit 521, a correction scale factor codebook 522, a subtractor 523, a determination unit 524, a weighted error calculation unit 525, and a search unit 526. Perform the operation.
  • Scale factor calculation section 521 divides input signal band FL to FH of the second spectrum into a plurality of subbands, obtains the size of the spectrum included in each subband, and outputs it to subtractor 523. . Specifically, the division into subbands is performed in association with the critical band, and is divided at equal intervals on the Bark scale.
  • the scale factor calculation unit 521 calculates the average amplitude of the spectrum included in each subband, and sets this as the second scale factor SF2 (k) ⁇ 0 ⁇ k ⁇ NB ⁇ .
  • NB represents the number of subbands.
  • the maximum amplitude value may be used instead of the average amplitude.
  • each parameter in a plurality of subbands is combined into one vector value.
  • NB scale factors are expressed as one vector.
  • a case where each process is performed for each vector, that is, a case where vector quantization is performed will be described as an example.
  • the correction scale factor codebook 522 stores a plurality of correction scale factor candidates. In accordance with an instruction from the search unit 526, one of the stored correction scale factor candidates is stored in the subtracter 523. Output sequentially. A plurality of correction scale factor candidates stored in the correction scale factor codebook 522 are represented by vectors.
  • the subtractor 523 subtracts the correction scale factor candidate, which is the output of the correction scale factor, from the second scale factor output from the scale factor calculation unit 521, and obtains an error signal obtained thereby as a weighted error calculation unit. 525 and determination unit 524.
  • the determination unit 524 is based on the sign of the error signal given from the subtracter and the background noise information.
  • the weight vector to be given to the weighted error calculation unit 525 is determined.
  • a specific processing flow in the determination unit 524 will be described.
  • the determination unit 524 analyzes the input background noise information. Further, the determination unit 524 has a background noise flag BNF (k) ⁇ 0 ⁇ k ⁇ NB ⁇ , in which the number of elements is the number of subbands NB. In the case where the background noise information indicates that background noise is included in the input signal (first decoded signal), the determination unit 524 indicates that the background noise flag BNF (k) Set all to 0. In addition, the determination unit 524 indicates that the background noise information includes the background noise in the input signal (first decoded signal), and in this case, the frequency characteristics of the background noise indicated by the background noise information. Is converted into a frequency characteristic for each subband. For simplicity, the background noise information is treated here as indicating the average power value of the spectrum for each subband.
  • the determination unit 524 compares the average power value SP (k) of the spectrum for each subband with the threshold ST (k) for each subband set in advance, and SP (k) is equal to or greater than ST (k). If it is, set the value of the background noise flag BNF (k) of the corresponding subband to 1.
  • V (k) represents the i-th correction scale factor candidate.
  • the determination unit 524 selects w as a weight when the sign of d (k) is positive. In addition, the determination unit 524 determines d (k)
  • wpos is selected as the weight.
  • the determination unit 524 selects w as a weight when the sign of d (k) is negative and the value of the background noise flag BNF (k) is 0. Next, the determination unit 524
  • the weight vector w (k) also comprising these forces is output to the weighted error calculation unit 525.
  • These weights have the following magnitude relationship (7).
  • the weighted error calculation unit 525 first calculates the square value of the error signal given from the subtractor 523, and then uses the weight vector w (k) given from the determination unit 524 as the square of the error signal.
  • the weighted square error E is calculated by multiplying the value, and the calculation result is given to the search unit 526.
  • the weighted square error E is expressed by the following equation (8).
  • Search section 526 controls correction scale factor codebook 522 to sequentially output stored correction scale factor candidates and performs weighted 2 output from weighted error calculation section 525 by closed-loop processing. Find a candidate for a correction scale factor that minimizes the multiplication error E. Search section 526 outputs the obtained index iopt of the corrected scale factor as an encoding parameter.
  • a better decoded signal can be obtained audibly by adjusting the degree of the above action according to whether or not background noise is included in the (first layer decoded signal). This trend was confirmed by computer simulation.
  • the decoding apparatus of the present embodiment is different from that of Embodiment 1 only in the internal configuration of second layer decoding section 153.
  • the main configuration of second layer decoding section 153 according to the present embodiment will be described below using FIG.
  • Second layer decoding key section 153 is a component corresponding to second layer code key section 508 in the transform code key apparatus according to the present embodiment.
  • MDCT analysis section 561 performs MDCT analysis on the first layer decoded signal, calculates the first spectrum of signal bands 0 to FL, and outputs the first spectrum to highband spectrum decoding section 562.
  • the high-frequency spectrum decoding unit 562 uses the encoding parameters (estimation information) and the first spectrum transmitted from the transform encoder apparatus according to the present embodiment to generate a signal. Decodes the estimated spectrum (fine spectrum) in the band FL to FH. The obtained estimated spectrum is given to the high-frequency spectral normalization unit 563.
  • Correction scale factor decoding unit 564 decodes the correction scale factor using the code parameter (correction scale factor) sent from the transform coding apparatus according to the present embodiment. Specifically, refer to the built-in correction scale factor codebook 522 (not shown). The corresponding correction scale factor is output to the multiplier 565.
  • the high-frequency spectrum normal part 563 divides the signal band FL to FH of the estimated spectrum output from the high-frequency spectrum decoding part 562 into a plurality of subbands, and the spectrum included in each subband. Find the size of. Specifically, the division into subbands is performed in correspondence with the critical band, and is divided at equal intervals by the Bark scale. Also, the scale factor calculation unit 521 obtains the average amplitude of the spectrum included in each subband, and sets this as the first scale factor SFl (k) ⁇ 0 ⁇ k ⁇ NB ⁇ .
  • NB represents the number of subbands. A maximum amplitude value or the like may be used instead of the average amplitude.
  • the high-frequency spectrum normal section 563 divides the estimated spectrum value (MDCT value) by the first scale factor SFl (k) for each subband, and divides the estimated spectral value by the normal value. ⁇ Output to multiplier 565 as estimated spectrum.
  • Multiplier 565 multiplies the normality estimation spectrum output from high-frequency spectrum normalization section 563 by the correction scale factor output from correction scale factor decoding section 564, and combines the multiplication results. Output to 566.
  • Concatenating unit 566 concatenates the first spectrum and the normality estimation spectrum output from the multiplier on the frequency axis to generate a wideband decoded spectrum of signal bands 0 to FH. To the time domain conversion unit 567.
  • Time domain transform section 567 performs inverse MD CT processing on the decoded spectrum output from concatenation section 566, multiplies an appropriate window function, and corresponds to the signal after windowing of the previous frame. Add the regions to generate and output the second layer decoded signal.
  • the scale factor is quantized using a weighted distortion scale that facilitates selection of a quantization candidate with a small scale factor. That is, it is easy to select a scale factor after quantization that is smaller than the scale factor before quantization. Therefore, even when the number of bits allocated to the quantization of the scale factor is insufficient, it is possible to suppress the deterioration of the subjective quality of hearing.
  • the case where vector quantization is used has been described as an example. Instead of vector quantization, that is, processing for each vector, processing may be performed independently for each subband.
  • the correction scale factor candidates included in the correction scale factor codebook 522 are represented by scalars.
  • the value of the background noise flag BNF (k) is determined by comparing the average power value for each subband with the threshold value.
  • the present invention is not limited to this, and background noise is not limited thereto. The same applies to a method that uses the ratio of the average power value for each subband to the average power value for each subband of the first decoded signal (speech unit).
  • the configuration in which the upsampling unit 505 is provided in the encoder apparatus has been described.
  • the present invention is not limited to this, and the first upsampling unit is not provided. The same applies to the case where the 1-layer decoded key signal is input to the second layer code key section.
  • the present invention is not limited to this, and can also be applied to the case of switching whether to use the above-described method according to the characteristics of the input signal (whether voiced or unvoiced).
  • external quantization is performed by distance calculation using the above-mentioned weight for the part where the input signal contains speech, and the above-mentioned weight for the part where the input signal does not contain voice.
  • Embodiment 6 of the present invention differs from Embodiment 5 only in the internal configuration of the second layer encoding section of the encoding apparatus.
  • FIG. 16 is a block diagram showing the main configuration inside second layer encoding section 508 according to the present embodiment.
  • the second layer code key section 508 shown in FIG. 16 is different from the action force correction scale factor code key section 514 of the correction scale factor code key section 614 in comparison with FIG.
  • the high frequency spectrum estimation unit 513 converts the estimated spectrum itself into a corrected scale factor code ⁇ . Part 614.
  • the corrected scale factor code unit 614 corrects the scale factor of the first spectrum using the background noise information so that the scale factor of the first spectrum approaches the scale factor of the second spectrum,
  • the information about the corrected scale factor is encoded and output.
  • FIG. 17 is a block diagram showing the main configuration inside correction scale factor sign key section 614 in FIG.
  • the corrected scale factor code unit 614 includes the scale factor calculation units 621 and 622, the correction scale factor code book 623, the multiplier 624, the subtractor 625, the determination unit 626, the weighted error calculation unit 627, and the search unit 628. Each part performs the following operations.
  • Scale factor calculation section 621 divides signal band FL to FH of the input second spectrum into a plurality of subbands, obtains the size of the spectrum included in each subband, and outputs the result to subtractor 625. . Specifically, the division into subbands is performed in association with the critical band, and is divided at equal intervals on the Bark scale.
  • the scale factor calculation unit 621 calculates the average amplitude of the spectrum included in each subband, and sets this as the second scale factor SF2 (k) ⁇ 0 ⁇ k ⁇ NB ⁇ .
  • NB represents the number of subbands.
  • the maximum amplitude value may be used instead of the average amplitude.
  • each parameter in a plurality of subbands is combined into one vector value.
  • NB scale factors are expressed as one vector.
  • a case where each process is performed for each vector, that is, a case where vector quantization is performed will be described as an example.
  • the scale factor calculation unit 622 divides the input signal band FL to FH of the first spectrum into a plurality of subbands, and the first scale factor SF1 (k) ⁇ 0 ⁇ k ⁇ NB ⁇ of each subband Is output to the multiplier 624.
  • the maximum amplitude value may be used instead of the average amplitude.
  • Correction scale factor codebook 623 stores a plurality of correction scale factor candidates, and in accordance with an instruction from search section 628, one of the stored correction scale factor candidates is stored in multiplier 624. Output sequentially. A plurality of correction scale factor candidates stored in the correction scale factor codebook 623 are represented by vectors. Multiplier 624 multiplies the first scale factor output from scale factor calculation section 622 and the correction scale factor candidate output from correction scale factor codebook 623, and subtracts the multiplication result by subtractor 625. To give.
  • the subtracter 625 subtracts the output of the multiplier 624, that is, the product of the first scale factor and the correction scale factor candidate, from the second scale factor output from the scale factor calculation unit 621, and is thus obtained.
  • the error signal is supplied to the determination unit 626 and the weighted error calculation ⁇ 627.
  • Determination unit 626 determines a weight vector to be given to the weighted error calculation unit based on the sign of the error signal given from subtractor 625 and the background noise information.
  • a specific processing flow in the determination unit will be described.
  • the determination unit 626 analyzes the input background noise information. Further, the determination unit 626 includes a background noise flag BNF (k) ⁇ 0 ⁇ k ⁇ NB ⁇ in which the number of elements is the number of subbands NB. In the case where the background noise information indicates that background noise is included in the input signal (first decoded signal), the determination unit 626 indicates that the background noise flag BNF (k) is set. Set all to 0. In addition, the determination unit 626 indicates that the background noise information includes the background noise in the input signal (first decoded signal), and in this case, the frequency characteristics of the background noise indicated by the background noise information. Is converted into a frequency characteristic for each subband.
  • the background noise information is treated here as indicating the average power value of the spectrum for each subband.
  • the determination unit 626 compares the average power value SP (k) of the spectrum for each subband with a threshold ST (k) for each subband set in advance, and SP (k) is equal to or greater than ST (k). If it is, set the value of the background noise flag BNF (k) of the corresponding subband to 1.
  • v ⁇ k represents a candidate for the i-th correction scale factor.
  • the judgment unit 626 uses d ( If the sign of k) is positive, select w as the weight. In addition, the determination unit 626 uses d (k) pos
  • w is selected as the weight pos. Also, the determination unit 626 selects w as a weight when the sign of d (k) is negative and the value of the background noise flag BNF (k) is 0. Next, the determination unit 626 neg
  • weight vector w (k) that also constitutes these forces is output to the weighted error calculation unit 627.
  • These weights have the following magnitude relationship (10).
  • the number of subbands NB 4, d (k) code +,-,-, + ⁇ , and the background noise flag BNF (k) is ⁇ 0, 0, 1, 1 ⁇
  • the weighted error calculation unit 627 first calculates the square value of the error signal given from the subtractor 625, and then uses the weight vector w (k) given from the judgment unit 626 as the square of the error signal.
  • the weighted square error E is calculated by multiplying the value, and the calculation result is given to the search unit 628.
  • the weighted square error E is expressed by the following equation (11).
  • Search section 628 controls correction scale factor codebook 623 to sequentially output stored correction scale factor candidates and performs weighted 2 output from weighted error calculation section 627 by closed-loop processing. Find a candidate for a correction scale factor that minimizes the multiplication error E. Search section 628 outputs the obtained index iopt of the corrected scale factor candidate as an encoding parameter.
  • the first scale factor is normalized and the normalized value multiplied by the correction scale factor candidate is smaller than the target second scale factor.
  • the case where the error signal d (k) is negative is a case where the decoded value generated on the decoding side is larger than the second scale factor which is the target value. Therefore, by setting the weight when the error signal d (k) is positive to be smaller than the weight when the error signal d (k) is negative, A correction scale factor candidate that generates a decoded value smaller than the second scale factor is easily selected.
  • the scale factor decoded value becomes smaller than the target value and the scale factor after quantization acts in a direction that attenuates this estimated spectrum
  • the low accuracy of the estimated spectrum becomes inconspicuous.
  • the effect is that the sound quality of the signal is improved.
  • a better decoded signal can be obtained audibly by adjusting the degree of the above action according to whether or not background noise is included in the input signal (first layer decoded signal). This trend was confirmed by computer simulation.
  • the present invention is not limited to this, and is similarly applied to the case of switching whether to use the method described above according to the characteristics of the input signal (whether voiced or unvoiced).
  • external quantization is performed by distance calculation using the above-mentioned weight for the part where the input signal contains speech, and the above-mentioned weight for the part where the input signal does not contain voice.
  • the realization of vector quantization by distance calculation using is a method of performing vector quantization by the method shown in the first to fourth embodiments. In this way, by switching the vector quantization distance calculation method on the time axis according to the characteristics of the input signal, a higher-quality decoded signal can be obtained.
  • FIG. 18 is a block diagram showing the main configuration of the scalable decoding device according to Embodiment 7 of the present invention.
  • a separation unit 701 receives a bitstream sent from an encoding device (not shown), separates the bitstream based on the layer information recorded in the received bitstream, and obtains layer information. Output to the switching unit 705 and the post-filter correction LPC calculation unit 708.
  • the separation unit 701 performs the bit stream.
  • One muka also separates the first layer code key information, the second layer code key information, and the third layer code key information.
  • the separated first layer code information is sent to the first layer decoding key unit 702
  • the second layer code key information is sent to the second layer decoding key unit 703
  • the third layer code key information is sent to the third layer.
  • the data is output to the decryption unit 704, respectively.
  • the separation unit 701 extracts the first layer code from the bitstream. Coding information and second layer coding information are separated. The separated first layer code key information is output to the first layer decoding key unit 702, and the second layer code key information is output to the second layer decoding key unit 703.
  • the separation unit 701 uses the bitstream power first layer code information. The information is separated, and the separated first layer code key information is output to first layer decoding key section 702.
  • First layer decoding key section 702 uses the first layer code key information output from demultiplexing section 701 to generate a first layer decoded signal of basic quality when signal band k is 0 or more and less than FH. Then, the generated first layer decoded signal is output to switching section 705, second layer decoding section 703, and background noise detection section 706. [0161] When the second layer code key information is output from separating section 701, second layer decoding key section 703 is output from the second layer code key information and first layer decoding key section 702.
  • the first layer decoded signal is used to generate a second layer decoded signal having an improved quality when the signal band k is 0 or more and less than FL and a basic quality when the signal band k is more than FL and less than FH.
  • the generated second layer decoded signal is output to switching section 705 and third layer decoding section 704. Note that the second layer decoding key unit 703 does not operate at all because the second layer code key information is not obtained when the layer information indicates layer 1, or the second layer decoding key unit 703 Update the provided variable.
  • third layer decoding key section 704 When third layer code key information is output from demultiplexing section 701, third layer decoding key section 704 outputs the third layer code key information and second layer decoding key section 703.
  • the second layer decoded signal is used to generate a third layer decoded signal of improved quality when the signal band k is 0 or more and less than FH.
  • the generated third layer decoded signal is output to switching section 705.
  • the third layer decoding unit 704 does not operate at all because the third layer code key information cannot be obtained when the layer information indicates layer 1 or layer 2, or the third layer decoding key unit 704 does not operate. Update the variable in Isobe 07 04.
  • Background noise detection section 706 receives the first layer decoded signal and determines whether or not background noise is included in this signal. If the background noise detection unit 706 determines that the background noise is included in the first layer decoded signal! / Sound, the background noise detection unit 706 performs processing such as MDCT on the background noise and analyzes the frequency characteristics thereof. The analyzed frequency characteristic is output to the modified LPC calculation unit 708 as background noise information. If the background noise detection unit 706 determines that the background noise is not included in the first layer decoded signal, the background noise information indicating that the background noise is not included in the first layer decoded signal. Output to the modified LPC calculator 708.
  • a background noise detection method an input signal in a certain section is analyzed to calculate a maximum power value and a minimum power value of the input signal, and a ratio or difference between them is greater than or equal to a threshold value.
  • a general background noise detection method can be employed.
  • background noise detection section 706 determines whether or not background noise is included in the first layer decoded signal.
  • the present invention is not limited to this, and the second layer decoded signal and the third layer decoded signal are not limited to this. Check whether background noise is included in the layer decoded signal It can also be applied to the case where the background noise information included in the input signal is transmitted, and the transmitted background noise information is used.
  • Switching section 705 determines which layer of the decoded signal is obtained based on the layer information output from demultiplexing section 701, and corrects the decoded signal in the highest layer as modified LPC calculating section 708 and Output to the filter unit 707.
  • the post filter includes a modified LPC calculation unit 708 and a filter unit 707, and a modified LPC calculation unit.
  • Modified LPC calculator 708 calculates a modified LPC coefficient using the layer information output from the separation unit 701, the decoded signal output from the switching unit 705, and the background noise information obtained from the background noise detection unit 706, The calculated modified LPC coefficient is output to the filter unit 707.
  • Modified LPC calculator 708 calculates a modified LPC coefficient using the layer information output from the separation unit 701, the decoded signal output from the switching unit 705, and the background noise information obtained from the background noise detection unit 706, The calculated modified LPC coefficient is output to the filter unit 707.
  • the filter unit 707 configures a filter by the modified LPC coefficient output from the modified LPC calculation unit 708, performs post-filter processing on the decoded signal output from the switching unit 705, and performs boost filter processing. Output the decoded signal.
  • FIG. 19 is a block diagram showing an internal configuration of modified LPC calculation section 708 shown in FIG.
  • a frequency conversion unit 711 performs frequency analysis of the decoded signal output from the switching unit 705, obtains a spectrum of the decoded signal (hereinafter referred to as “decoded spectrum”), and calculates the obtained decoded spectrum as a power spectrum. Output to part 712.
  • Power spectrum calculation section 712 calculates the power of the decoded spectrum output from frequency conversion section 711 (hereinafter referred to as “power spectrum”), and outputs the calculated power spectrum to power vector correction section 713
  • corrected band determining section 714 determines a band for correcting the spectrum (hereinafter referred to as "corrected band"), and the determined band is the corrected band.
  • Information is output to the power spectrum correction unit 713 as information.
  • the corrected band determining unit 714 sets the corrected band to 0 (corrected If the layer information indicates layer 2, the corrected bandwidth is set to 0 to FL. If the layer information indicates layer 3, the corrected bandwidth is set to 0 to FH. [0171]
  • the power spectrum correction unit 713 corrects and corrects the power vector output from the power spectrum calculation unit 712 based on the correction band information output from the correction band determination unit 714 and the background noise information. The power spectrum is output to the inverse conversion unit 715.
  • the correction of the power spectrum means that when the background noise information indicates that "the first decoded signal does not contain background noise", the post-filter characteristic is weakened and the spectrum is not deformed. It means to make it smaller, and more specifically, it means to make corrections to suppress changes on the frequency axis of the power spectrum.
  • the layer information indicates layer 2
  • the characteristics of the post filter in the band 0 to FL are weakened.
  • the layer information indicates layer 3, the characteristics of the post filter in the band 0 to FH are weakened.
  • the power spectrum correction unit 713 indicates that the background noise information indicates that “the first decoded signal includes background noise”. The process of not performing or reducing the degree of weakening is performed.
  • Inverse transform section 715 performs inverse transform on the modified power spectrum output from power spectrum modification section 713 to obtain an autocorrelation function.
  • the obtained autocorrelation function is output to the LPC analysis unit 716.
  • the inverse transform unit 715 can reduce the amount of calculation by using FFT (Fast Fourier Transform).
  • FFT Fast Fourier Transform
  • the LPC analysis unit 716 obtains an LPC coefficient using an autocorrelation method or the like for the autocorrelation function output from the inverse transform unit 715, and outputs the obtained LPC coefficient to the filter unit 707 as a modified LPC coefficient.
  • FIG. 21 shows how the power spectrum is corrected by the first realization method.
  • This figure shows how the power spectrum of the female voiced part (n /) is corrected when the layer information is layer 2 (weakening the post-filter characteristics in the 0 to FL band).
  • the band of ⁇ FL is replaced with a power spectrum of about 22 dB.
  • it is desirable to correct the spectrum so that the change in the spectrum at the connection portion of the band is not discontinuous with the band to be corrected.
  • a moving average value is obtained for the power spectrum in the connection portion and its vicinity, and the corresponding power spectrum is replaced with the moving average value. This makes it possible to obtain a modified LPC coefficient with accurate spectral characteristics.
  • the second method is to obtain the spectral slope of the power spectrum in the corrected band and replace the spectrum in that band with the obtained spectral slope.
  • the spectrum inclination indicates the overall inclination of the power spectrum in the band.
  • the first-order PARCOR coefficient (reflection coefficient) of the decoded signal or the spectral characteristics of a digital filter formed by multiplying the PARCOR coefficient by a constant is used.
  • the power spectrum of the band is replaced by multiplying this vector characteristic by a coefficient calculated so that the energy of the power spectrum in the band is preserved.
  • FIG. 22 shows how the power spectrum is corrected by the second realization method.
  • the power spectrum in the 0 to FL band is replaced with a power spectrum that slopes to about 23 dB to 26 dB.
  • Equation (12) a (i) is the LPC (Linear Prediction Coefficient) coefficient of the decoded signal, NP is the order of the LPC coefficient, and ⁇ n and ⁇ d are set values that determine the degree of noise suppression of the post filter (0 ⁇ n ⁇ d ⁇ 1), represents the set value for correcting the spectral tilt caused by the formant emphasis filter.
  • a power spectrum obtained by multiplying the power spectrum in the correction band by the ⁇ power (0 to ⁇ 1) may be used.
  • the characteristics of the post filter can be designed more flexibly than the method of flattening the power spectrum as described above.
  • the Ktonole in the f column The order of the LPC coefficient is 18th.
  • the solid line shown in Fig. 23 represents the spectrum characteristics when the power spectrum is corrected, and the dotted line represents the spectrum characteristics when the power spectrum is not corrected (the set values are the same as above).
  • the characteristics of the post filter when the power spectrum is corrected are almost flat in the 0 to FL band, and the power spectrum is not corrected in the FL to FH band.
  • the spectral characteristics are the same as in the case.
  • the power spectrum of the band corresponding to the layer information is corrected, the corrected LPC coefficient is calculated based on the corrected power spectrum, and the post-processing is performed using the calculated corrected LPC coefficient.
  • the corrected LPC coefficient is calculated when the layer information is any of layers 1 to 3, but all the bands to be encoded are almost the same.
  • layer 1 is the basic quality of the entire band and layer 3 of the improved quality of the entire band
  • setting values ( ⁇ ⁇ , yd, and) that define the strength of the post filter may be prepared for each layer in advance, and the post filter may be configured directly by switching the prepared setting values. .
  • the processing amount and processing time required to calculate the modified LPC coefficient can be reduced.
  • power spectrum correction section 713 performs processing common to all bands depending on whether or not background noise is present in the first layer decoded signal.
  • the background noise detection unit 706 calculates the frequency characteristics of the background noise included in the first layer decoded signal, and the power spectrum correction unit 713 uses the result to correct the power spectrum for each subband. The same can be applied to the case of switching.
  • FIG. 24 is a block diagram showing the main configuration of the scalable decoding device according to Embodiment 8 of the present invention.
  • the second switching unit 806 acquires layer information from the separation unit 801, determines which layer's decoded spectrum can be obtained based on the acquired layer information, and determines the highest layer.
  • the decoded LPC coefficients are output to the post-filter suppression information calculation section 808.
  • a decoded LPC coefficient is not generated during the decoding process, and in such a case, one of the decoded LPC coefficients obtained by the second switching unit 806 is selected.
  • Background noise detection section 807 receives the first layer decoded signal, and background noise is included in this signal. Determine whether it is included. When the background noise detection unit 807 determines that background noise is included in the first layer decoded signal! / Sound, the background noise detection unit 807 performs processing such as MDCT on the background noise and analyzes the frequency characteristics thereof. The analyzed frequency characteristics are output to the suppression information calculation unit 808 as background noise information. Further, when the background noise detection unit 807 determines that the background noise is not included in the first layer decoded signal, information indicating that the background noise is not included in the first layer decoded signal is used as background noise information. Output to suppression information calculation section 808.
  • the background noise detection method analyzes the input signal in a certain interval, calculates the maximum power value and minimum power value of the input signal, and the minimum power when the ratio or difference between them is greater than or equal to the threshold value.
  • a general background noise detection method will be adopted in addition to the method of setting the value as noise.
  • background noise detection section 706 determines whether background noise is included in the first layer decoded signal, but the present invention is not limited to this, and the second layer decoded signal and When detecting whether background noise is included in the third layer decoded signal, or when transmitting background noise information contained in the input signal from the encoder and using the transmitted background noise information The same applies to.
  • the suppression information calculation unit 808 uses the layer information output from the separation unit 801, the LPC coefficient output from the second switching unit 806, and the background noise information output from the background noise detection unit 807. The suppression information is calculated, and the calculated suppression information is output to the multiplier 809. Details of the suppression information calculation unit 808 will be described later.
  • Multiplier 809 multiplies the decoding spectrum output from switching section 805 by the suppression information output from suppression information calculation section 808, and a time domain conversion section using the decoding spectrum multiplied by the suppression information. Output to 810.
  • Time domain transform section 810 performs inverse MD CT processing on the decoded spectrum output from multiplier 809, multiplies an appropriate window function, and corresponds to the signal after windowing of the previous frame. The areas are added to generate and output an output signal.
  • FIG. 25 is a block diagram showing an internal configuration of suppression information calculation section 808 shown in FIG.
  • an LPC spectrum calculation unit 821 performs discrete Fourier transform on the decoded LPC coefficient output from the second switching unit 806, calculates the energy of each complex spectrum, and uses the calculated energy as the LPC spectrum. Output to. Ie
  • a filter represented by the following equation (13) is configured.
  • the LPC spectrum calculation unit 821 calculates the spectral characteristic of the filter represented by the above equation (13), and outputs it to the LPC spectrum correction unit 822.
  • NP represents the order of the decoded LPC coefficient.
  • a filter represented by the following equation (14) is configured using predetermined parameters ⁇ ⁇ and ⁇ d for adjusting the degree of noise suppression, and the spectral characteristics of the filter are calculated. Even so, ⁇ (0 ⁇ ⁇ ⁇ d ⁇ 1).
  • the filter represented by the formula (13) or the formula (14) has a characteristic in which the low frequency band (or high frequency band) is excessively emphasized compared to the high frequency band (or low frequency band). (In general, this characteristic has a “spectral slope” t), but a filter (anti-tilt filter) for correcting this may be used in combination.
  • the LPC spectrum correction unit 822 is similar to the power spectrum correction unit 713 in the seventh embodiment, based on the correction band information output from the correction band determination unit 823.
  • the LPC spectrum output from is corrected, and the corrected LPC spectrum is output to the suppression coefficient calculation unit 824.
  • the suppression coefficient calculation unit 824 calculates the suppression coefficient by the following method using the background noise information.
  • Suppression coefficient calculation section 824 divides the modified LPC spectrum output from LPC spectrum modification section 822 into subbands having a predetermined bandwidth, and obtains an average value for each divided subband. Then, a subband whose average value is smaller than a predetermined threshold is selected, and a coefficient (vector value) for suppressing the decoded spectrum is calculated based on the selected subband. Thereby, it is possible to attenuate the subband including the band that becomes the valley of the spectrum. Incidentally, the suppression coefficient is calculated based on the average value of the selected subbands.
  • the suppression coefficient is calculated by multiplying the average value of the subbands by a predetermined coefficient. For subbands whose average value is equal to or greater than a predetermined threshold, a coefficient that does not change the decoded spectrum is calculated.
  • the suppression coefficient need not be an LPC coefficient, but may be a coefficient that is directly multiplied by the decoded spectrum. As a result, it is not necessary to perform the inverse transformation process and the LPC analysis process, and the amount of calculation required for these processes can be reduced.
  • the suppression coefficient calculation unit 824 may calculate the suppression coefficient based on the following method. That is, suppression coefficient calculation section 824 divides the modified LPC spectrum output from LPC spectrum modification section 822 into subbands having a predetermined bandwidth, and obtains an average value for each divided subband. Then, the maximum subband is obtained from the average values of the subbands, and the average value of the subbands is normalized using the average value of the subbands. The subband average value after the normality is output as a suppression coefficient.
  • a suppression coefficient is calculated for each frequency. It may be output.
  • the suppression coefficient calculation unit 824 obtains the maximum frequency among the modified LPC spectra output from the LPC spectrum modification unit 822, and normalizes the spectrum of each frequency using the spectrum of the frequency. The normalized spectrum is output as a suppression coefficient.
  • the suppression coefficient calculated as described above is that the background noise information input to the suppression coefficient calculation unit 824 is "background noise is included in the first layer decoded signal" If so, the final decision will be made according to the background noise level so that the effect of attenuating the subband including the band that becomes the valley of the spectrum is reduced.
  • the decoding is performed. Processes that make the sense of noise in the signal as inconspicuous as possible and increase the sense of bandwidth of the decoded signal as much as possible in the presence of background noise can be generated, producing a more subjectively good quality decoded signal. I can do it.
  • the calculated LPC spectrum of the decoded LPC coefficient power is a spectrum envelope from which fine information of the decoded signal is removed, and is directly suppressed based on this spectrum envelope.
  • the suppression coefficient is switched depending on whether or not background noise is included in the input signal (in the first layer decoded signal). In contrast, it is possible to generate decoded signals of subjectively good quality.
  • Embodiments 1 to 3 and 5 to 8 the power described by taking the case where the number of hierarchies is 2 or 3 as an example.
  • the present invention is scalable to any number of hierarchies as long as the number of hierarchies is two or more. It can be applied to sign ⁇ .
  • Embodiments 1 to 3 and 5 to 8 can also be applied to other hierarchical encoding such as a force-encoded code that is described taking a scalable code as an example. .
  • an audio signal is an encoding target
  • the present invention is not limited to this, and the present invention can also be applied to, for example, an audio signal.
  • FFT force Fast Fourier Transform
  • DFT Discrete Fourier Transform
  • DCT subband filter
  • MDCT subband filter
  • transform coding apparatus and transform coding method according to the present invention are not limited to the above embodiments, and can be implemented with various modifications.
  • the conversion coding apparatus can be mounted on a communication terminal apparatus and a base station apparatus in a mobile communication system, and thus has the same effects as described above.
  • a communication terminal device, a base station device, and a mobile communication system can be provided.
  • the present invention can be implemented with software.
  • the algorithm of the transform code encoding method according to the present invention is described in a programming language, the program is stored in a memory, and is executed by an information processing means. Similar functions can be realized.
  • each functional block used in the description of each of the above embodiments is typically realized as an LSI which is an integrated circuit. These may be individually made into one chip, or may be made into one chip so as to include some or all of them.
  • the method of circuit integration is not limited to LSI, and may be realized by a dedicated circuit or a general-purpose processor. It is also possible to use a field programmable gate array (FPGA) that can be programmed after LSI manufacturing, or a reconfigurable processor that can reconfigure the connection or setting of circuit cells inside the LSI.
  • FPGA field programmable gate array
  • the transform coding apparatus and transform coding method according to the present invention can be applied to applications such as a communication terminal apparatus and a base station apparatus in a mobile communication system.

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Computational Linguistics (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Quality & Reliability (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)

Abstract

 ビット数が充分に割り当てられない場合でも、聴感的な音声品質の劣化を軽減することができる変換符号化装置。補正スケールファクタ符号帳(123)に格納されている補正スケールファクタの候補が順次出力され、スケールファクタ算出部(121、122)から出力されるスケールファクタとの所定の演算により、誤差信号が求められる。判定部(126)は、誤差信号の符号に基づいて、重み付き誤差算出部(127)に与える重みベクトルを決定する。重み付き誤差算出部(127)は、まず、誤差信号の2乗値を算出し、次に、判定部(126)から与えられる重みベクトルを誤差信号の2乗値に乗じて、重み付き2乗誤差Eを算出する。探索部(128)は、閉ループ処理により、重み付き2乗誤差Eが最小となる補正スケールファクタの候補を求める。

Description

明 細 書
変換符号化装置および変換符号化方法
技術分野
[0001] 本発明は、周波数領域において入力信号の符号化を行う変換符号化装置および 変換符号化方法に関する。
背景技術
[0002] 移動体通信システムにおける電波資源等の有効利用のために、音声信号を低ビッ トレートで圧縮することが要求されている。その一方で、ユーザからは通話音声の品 質向上や臨場感の高い通話サービスの実現が望まれている。この実現には、音声信 号の高品質ィヒのみならず、より帯域の広いオーディオ信号等の音声以外の信号をも 高品質に符号ィ匕できることが望ましい。そのため、複数の符号化技術を階層的に統 合するアプローチが有望視されて 、る。
[0003] 例えば、音声信号に適したモデルで入力信号を低ビットレートで符号ィ匕する第 1レ ィャと、入力信号と第 1レイヤ復号信号の差分信号を音声以外の信号にも適したモ デルで符号化する第 2レイヤと、を階層的に組み合わせる技術がある(例えば、非特 許文献 1参照)。ここでは、 MPEG -4 (Moving Picture Experts Group phase- 4)で規 格ィ匕された技術を用いてスケーラブル符号ィ匕を行う例が示されて ヽる。具体的には、 音声信号に適した CELP (Code Excited Linear Prediction:符号励信線形予測)を第 1レイヤに用い、原信号から第 1レイヤ復号信号を減じた残差信号に対して AAC (Ad vanced Audio し oaer)や TwmVw (Transform Domain Weighted Interleave Vector Q uantization:周波数領域重み付きインタリーブベクトル量子化)のような変換符号ィ匕を 第 2レイヤとして用いている。
[0004] ところで、 TwinVQと!、う変換符号化は、入力信号に MDCT (Modified Discrete C osine Transform:変形離散コサイン変換)を施し、得られる MDCT係数を、スペクトル 包絡とバーク尺度ごとの平均振幅とで正規化を行う技術である (例えば、非特許文献 2参照)。ここで、スペクトル包絡を表す LPC係数とバーク尺度ごとの平均振幅値とは 、それぞれ別個に符号化され、正規化された MDCT係数力 Sインタリーブされ、サブ ベクトルに分割され、ベクトル量子化が施される。特に、スペクトル包絡とバーク尺度 ごとの平均振幅とをスケールファクタと呼び、正規化後の MDCT係数をスペクトルの 微細構造(以下、微細スペクトル)と呼ぶこととすると、 TwinVQは、 MDCT係数をス ケールファクタと微細スペクトルとに分離して符号ィ匕を行う技術と考えることができる。
[0005] TwinVQに代表される変換符号化において、スケールファクタは、微細スペクトル のエネルギーを制御するために用いられる。このため、スケールファクタの主観品質( 人間の聴感品質)に与える影響は大きぐスケールファクタの符号ィ匕歪みが大きい場 合は主観品質を大きく劣化させてしまう。従って、スケールファクタの高性能な符号ィ匕 は重要である。
非特許文献 1 :三木弼ー編著、「MPEG— 4の全て (初版)」(株)工業調査会、 1998 年 9月 30日、 p. 126 - 127
非特許文献 2 :岩上直榭、守谷健弘、三榭聡、池田和永、神明夫著、「周波数領域重 み付けインタリーブベクトル量子化 (TwinVQ)による楽音符号化」信学論 (A)、 199 7年 5月、 vol. J80 -A, no. 5、 p. 830 - 837
発明の開示
発明が解決しょうとする課題
[0006] TwinVQは、スケールファクタに相当する情報を、スペクトル包絡とバーク尺度ごと の平均振幅とで表す。例えば、バーク尺度ごとの平均振幅に着目すると、非特許文 献 2に開示の技術では、次式で表される重み付き 2乗誤差 dを最小にするバーク尺度 ごとの平均振幅ベクトルを決定して 、る。
[数 1] d = ^ wt - (E1 - C1 (m))2 … ( 1 ) ここで、 iはバーク尺度の番号、 Eは第 iバークの平均振幅、 C (m)は平均振幅符号 帳に記録されて 、る第 m平均振幅ベクトルを示す。
[0007] 上記式(1)で示される重み関数 wは、バーク尺度、すなわち周波数の関数であり、 バーク尺度 iが同じ場合、入力スケールファクタと量子化候補との差 (E— Ci (m) )に 対して乗じられる重み(ウェイト) Wiは常に同一である。
[0008] また、 Wiはバーク尺度に対応する重みを表し、スペクトル包絡の大きさに基づいて 算出される。例えば、スペクトル包絡の小さな帯域に対する平均振幅の重みは小さな 値となり、スペクトル包絡の大きな帯域に対する平均振幅の重みは大きな値となる。よ つて、スペクトル包絡の大きな帯域に対する平均振幅の重みは大きく設定されるため 、結果として、この帯域を重要視して符号ィ匕を行うこととなる。逆に、スペクトル包絡の 小さい帯域に対する平均振幅の重みは小さく設定されるため、この帯域の重要度は 低くなる。
[0009] 一般に、スペクトル包絡の大きい帯域が音声品質に与える影響は大きぐこの帯域 に属するスペクトルを正確に表すことが音声品質を改善するためには重要である。し 力しながら、非特許文献 2に開示の技術では、低ビットレートイ匕を図るために平均振 幅の量子化に配分するビット数を少なくした場合、ビット数が充分でな 、ために平均 振幅ベクトル C (m)の候補数が限定されてしまい、たとえ上記式(1)を満足する平均 振幅ベクトルを決定したとしても、その量子化歪みは大きくなり、音声品質の劣化を招 くという問題がある。
[0010] 本発明の目的は、ビット数が充分に割り当てられない場合でも、聴感的な音声品質 の劣化を軽減することができる変換符号ィ匕装置および変換符号ィ匕方法を提供するこ とである。
課題を解決するための手段
[0011] 本発明の変換符号ィ匕装置は、入力スペクトルに対応する複数の入力スケールファ クタを算出する入力スケールファクタ算出手段と、スケールファクタを複数格納し、一 のスケールファクタを出力する符号帳と、前記複数の入力スケールファクタのうちの一 の入力スケールファクタと前記符号帳から出力されるスケールファクタとの歪みを算 出する歪み算出手段と、前記一の入力スケールファクタが前記符号帳から出力され るスケールファクタより大き 、場合の前記歪みよりも、前記一の入力スケールファクタ が前記符号帳から出力されるスケールファクタより小さい場合の前記歪みに対して、 より重みを付けた重み付き歪みを算出する重み付き歪み算出手段と、前記符号帳に おいて、前記重み付き歪みを最小とするスケールファクタを探索する探索手段と、を 具備する構成を採る。
発明の効果
[0012] 本発明によれば、低ビットレート環境下においても、聴感的な音声品質の劣化を軽 減することができる。
図面の簡単な説明
[0013] [図 1]実施の形態 1に係るスケーラブル符号ィ匕装置の主要な構成を示すブロック図 [図 2]実施の形態 1に係る第 2レイヤ符号ィ匕部内部の主要な構成を示すブロック図 [図 3]実施の形態 1に係る補正スケールファクタ符号ィ匕部内部の主要な構成を示すブ ロック図
[図 4]実施の形態 1に係るスケーラブル復号ィ匕装置の主要な構成を示すブロック図 [図 5]実施の形態 1に係る第 2レイヤ復号ィ匕部内部の主要な構成を示すブロック図 [図 6]実施の形態 2に係る第 2レイヤ符号ィ匕部内部の主要な構成を示すブロック図 [図 7]実施の形態 2に係る第 2レイヤ復号ィ匕部内部の主要な構成を示すブロック図 [図 8]実施の形態 3に係る第 2レイヤ符号ィ匕部内部の主要な構成を示すブロック図 [図 9]実施の形態 4に係る変換符号ィ匕装置の主要な構成を示すブロック図
[図 10]実施の形態 4に係るスケールファクタ符号ィ匕部内部の主要な構成を示すブロッ ク図
[図 11]実施の形態 4に係る変換復号ィ匕装置の主要な構成を示すブロック図
[図 12]実施の形態 5に係るスケーラブル符号ィ匕装置の主要な構成を示すブロック図 [図 13]実施の形態 5に係る第 2レイヤ符号ィ匕部内部の主要な構成を示すブロック図 [図 14]実施の形態 5に係る補正スケールファクタ符号ィ匕部内部の主要な構成を示す ブロック図
[図 15]実施の形態 5に係る第 2レイヤ復号ィ匕部内部の主要な構成を示すブロック図 [図 16]実施の形態 6に係る第 2レイヤ符号ィ匕部内部の主要な構成を示すブロック図 [図 17]実施の形態 6に係る補正スケールファクタ符号ィ匕部内部の主要な構成を示す ブロック図
[図 18]実施の形態 7に係るスケーラブル復号ィ匕装置の主要な構成を示すブロック図 [図 19]実施の形態 7に係る修正 LPC算出部内部の主要な構成を示すブロック図 [図 20]実施の形態 7に係る各レイヤの信号帯域及び音声品質を示す概略図
[図 21]実施の形態 7に係る第 1の実現方法によるパワースペクトルの修正の状態を示 すスペクトル特性図
[図 22]実施の形態 7に係る第 2の実現方法によるパワースペクトルの修正の状態を示 すスペクトル特性図
[図 23]実施の形態 7に係る修正 LPC係数を用いて構成されたポストフィルタのスぺク トル特性図
[図 24]実施の形態 8に係るスケーラブル復号ィ匕装置の主要な構成を示すブロック図 [図 25]実施の形態 8に係る抑圧情報算出部内部の主要な構成を示すブロック図 発明を実施するための最良の形態
[0014] 本発明は、大別して、スケーラブル符号化に適用する場合と単一レイヤからなる符 号化に適用する場合とに分けられる。ここで、スケーラブル符号化とは、複数のレイヤ 力 なる階層構造を有する符号ィ匕方式で、各レイヤで生成される符号ィ匕パラメータが スケーラビリティを有するという特徴がある。すなわち、複数レイヤの符号ィ匕パラメータ の一部のレイヤ (低位レイヤ)の符号ィ匕パラメータ力もでも、ある程度の品質の復号信 号が得られ、より多くのレイヤの符号ィ匕パラメータを用いて復号を行うことにより、より 高品質の復号信号が得られると 、う特徴を有して 、る。
[0015] そこで、実施の形態 1〜3、 5〜8では、本発明をスケーラブル符号化に適用する場 合について説明し、実施の形態 4では、本発明を単一レイヤ力もなる符号ィ匕に適用 する場合について説明する。なお、実施の形態 1〜3、 5〜8では、以下の場合を例 にとつて説明を行うこととする。
(1)第 1レイヤと当該レイヤより上位の第 2レイヤとからなる、すなわち、下位レイヤと 上位レイヤとからなる 2階層構造のスケーラブル符号ィ匕を行う。
(2)符号ィ匕パラメータが周波数軸方向にスケーラビリティを有する帯域スケーラブル 符号化を行う。
(3)第 2レイヤでは、周波数領域における符号化、すなわち変換符号ィ匕を行い、変 換方式として、 MDCT (Modified Discrete Cosine Transform :変形離散コサイン変換 )を使用する。 [0016] また、全ての実施の形態において、本発明を音声信号の符号化に適用する場合を 例にとって説明する。以下、本発明の実施の形態について、添付図面を参照して詳 細に説明する。
[0017] (実施の形態 1)
図 1は、本発明の実施の形態 1に係る変換符号ィ匕装置を備えるスケーラブル符号 化装置の主要な構成を示すブロック図である。
[0018] 本実施の形態に係るスケーラブル符号ィ匕装置は、ダウンサンプリング部 101、第 1 レイヤ符号ィ匕部 102、多重化部 103、第 1レイヤ復号ィ匕部 104、遅延部 105、および 第 2レイヤ符号ィ匕部 106を備え、各部は以下の動作を行う。
[0019] ダウンサンプリング部 101は、サンプリングレート F2の入力信号からサンプリングレ ート F1 (F1≤F2)の信号を生成し、第 1レイヤ符号ィ匕部 102に与える。第 1レイヤ符 号化部 102は、ダウンサンプリング部 101から出力されたサンプリングレート F1の信 号を符号化する。第 1レイヤ符号ィ匕部 102で得られた符号ィ匕パラメータは、多重化部 103に与えられると共に、第 1レイヤ復号ィ匕部 104に与えられる。第 1レイヤ復号ィ匕部 104は、第 1レイヤ符号ィ匕部 102から出力された符号ィ匕パラメータから、第 1レイヤの 復号信号を生成する。
[0020] 一方、遅延部 105は、入力信号に所定の長さの遅延を与える。この遅延は、ダウン サンプリング部 101、第 1レイヤ符号ィ匕部 102、および第 1レイヤ復号化部 104で生じ る時間遅れを補正するためのものである。第 2レイヤ符号ィ匕部 106は、第 1レイヤ復 号ィ匕部 104で生成された第 1レイヤ復号信号を用いて、遅延部 105から出力された 所定時間遅延された入力信号の変換符号ィ匕を行 ヽ、生成された符号ィ匕パラメータを 多重化部 103に出力する。
[0021] 多重化部 103は、第 1レイヤ符号ィ匕部 102で求められる符号ィ匕パラメータと、第 2レ ィャ符号ィ匕部 106で求められる符号化パラメータとを多重化し、これを最終的な符号 ィ匕パラメータとして出力する。
[0022] 図 2は、第 2レイヤ符号ィ匕部 106内部の主要な構成を示すブロック図である。
[0023] 第 2レイヤ符号ィ匕部 106は、 MDCT分析部 111、 112、高域スペクトル推定部 113 、および補正スケールファクタ符号ィ匕部 114を備え、各部は以下の動作を行う。 [0024] MDCT分析部 111は、第 1レイヤ復号信号を MDCT分析して、信号帯域 (周波数 帯域) 0〜FLの低域スペクトル (狭帯域スペクトル)を算出し、高域スペクトル推定部 1 13に出力する。
[0025] MDCT分析部 112は、原信号である音声信号を MDCT分析して、信号帯域 0〜F Hの広帯域スペクトルを算出し、このうち、狭帯域スペクトルと同じ帯域幅で、かつ信 号帯域が高域 FL〜FHの高域スペクトルを、高域スペクトル推定部 113および補正 スケールファクタ符号ィ匕部 114に出力する。ここで、狭帯域スペクトルの信号帯域と 広帯域スぺクトルの信号帯域との間には、 FL < FHの関係がある。
[0026] 高域スペクトル推定部 113は、信号帯域 0〜FLの低域スペクトルを利用して、信号 帯域 FL〜FHの高域スペクトルを推定し、推定スペクトルを得る。推定スペクトルの導 出方法は、高域スペクトルとの類似度が最大となるような推定スペクトルを、低域スぺ タトルを基に、この低域スペクトル変形することにより求める。高域スペクトル推定部 1 13は、この推定スペクトルに関する情報 (推定情報)を符号ィ匕し、得られる符号化パ ラメータを出力すると共に、推定スペクトル自体を補正スケールファクタ符号ィ匕部 114 に与える。
[0027] 以下の説明では、高域スペクトル推定部 113から出力される推定スペクトルのことを 第 1スペクトルと呼び、 MDCT分析部 112から出力される高域スペクトルのことを第 2 スペクトルと呼ぶこととする。
[0028] ここで、上記説明で現れた各種スペクトルをまとめて信号帯域と併せて示すと、以下 のようになる。
狭帯域スペクトル (低域スペクトル) · · '0〜FL
広帯域スペクトル . · · 0〜FH
第 1スペクトル(推定スペクトル) · · 'FL〜FH
第 2スペクトル(高域スペクトル) · · 'FL〜FH
[0029] 補正スケールファクタ符号化部 114は、第 1スペクトルのスケールファクタが第 2スぺ タトルのスケールファクタに近づくように、第 1スペクトルのスケールファクタを補正し、 この補正スケールファクタに関する情報を符号ィ匕して出力する。
[0030] 図 3は、補正スケールファクタ符号ィ匕部 114内部の主要な構成を示すブロック図で ある。
[0031] 補正スケールファクタ符号ィ匕部 114は、スケールファクタ算出部 121、 122、補正ス ケールファクタ符号帳 123、乗算器 124、減算器 125、判定部 126、重み付き誤差算 出部 127、および探索部 128を備え、各部は以下の動作を行う。
[0032] スケールファクタ算出部 121は、入力される第 2スペクトルの信号帯域 FL〜FHを 複数のサブバンドに分割し、各サブバンドに含まれるスペクトルの大きさを求め、減算 器 125に出力する。具体的には、サブバンドへの分割は、臨界帯域に対応付けて行 われ、バーク尺度で等間隔に分割される。また、スケールファクタ算出部 121は、各 サブバンドに含まれるスペクトルの平均振幅を求め、これを第 2スケールファクタ SF2 (k) {0≤k<NB}とする。ここで NBはサブバンド数を表す。なお、平均振幅の代わり に最大振幅値等を用いても良 、。
[0033] スケールファクタ算出部 122は、入力される第 1スペクトルの信号帯域 FL〜FHを 複数のサブバンドに分割し、各サブバンドの第 1スケールファクタ SF1 (k) {0≤k<N B}を算出し、乗算器 124に出力する。なお、スケールファクタ算出部 122では、スケ ールファクタ算出部 121と同様に、平均振幅の代わりに最大振幅値等を用 、ても良 い。
[0034] 以降の処理においては、複数のサブバンドにおける各パラメータを 1つのベクトル 値にまとめる。例えば、 NB個のスケールファクタを 1つのベクトルとして表す。そして、 このベクトル毎に各処理を行う場合、すなわち、ベクトル量子化を行う場合を例にとつ て説明を行う。
[0035] 補正スケールファクタ符号帳 123は、補正スケールファクタの候補が複数格納され ており、探索部 128からの指示に従い、格納されている補正スケールファクタの候補 のうちの 1つを乗算器 124に順次出力する。補正スケールファクタ符号帳 123に格納 されて 、る補正スケールファクタの複数の候補は、ベクトルで表される。
[0036] 乗算器 124は、スケールファクタ算出部 122から出力される第 1スケールファクタと、 補正スケールファクタ符号帳 123から出力される補正スケールファクタの候補とを乗 算し、乗算結果を減算器 125に与える。
[0037] 減算器 125は、スケールファクタ算出部 121より出力される第 2スケールファクタから 、乗算器 124の出力、すなわち、第 1スケールファクタおよび補正スケールファクタ候 補の積を減じ、これにより得られる誤差信号を、重み付き誤差算出部 127および判定 部 126に与える。
[0038] 判定部 126は、減算器 125から与えられる誤差信号の符号に基づいて、重み付き 誤差算出部 127に与える重みベクトルを決定する。具体的には、減算器 125から与 えられる誤差信号 d (k)は、以下の式(2)によって表される。
[数 2] d(k) = SF2(k) - V, (k) - SFl(k) (0≤k < NB) … ( 2 ) ここで、 Vi (k)は、第 i番目の補正スケールファクタの候補を表す。判定部 126は、 d ( k)の符号を調べ、正である場合には w 、負である場合には w を重み(ウェイト)と
pos neg
して選択し、これら力も構成される重みベクトル w (k)を、重み付き誤差算出部 127に 出力する。これらの重みには、以下の式(3)の大小関係がある。
[数 3]
0< < … ( 3 ) 例えば、サブバンド数 NB =4であり、 d (k)の符号力 + , -, -, + }となる場合、 重み付き誤差算出部 127に出力される重みベクトル w (k)は、 w (k) = {w , w , w
pos neg
, w }と表される。
neg pos
[0039] 重み付き誤差算出部 127は、まず、減算部 125から与えられる誤差信号の 2乗値を 算出し、次に、判定部 126から与えられる重みベクトル w (k)を誤差信号の 2乗値に 乗じて、重み付き 2乗誤差 Eを算出し、算出結果を探索部 128に与える。ここで、重み 付き 2乗誤差 Eは以下の式 (4)のように表される。
[数 4]
NB-1
E = y w(k -d(k) ( 4 ) [0040] 探索部 128は、補正スケールファクタ符号帳 123を制御して、格納されている補正 スケールファクタの候補を順次出力させ、閉ループ処理により、重み付き誤差算出部 127から出力される重み付き 2乗誤差 Eが最小となる補正スケールファクタの候補を 求める。探索部 128は、求まった補正スケールファクタの候補のインデックス ioptを符 号化パラメータとして出力する。
[0041] 上記のように、誤差信号の符号に応じて重み付き 2乗誤差を算出するときの重みを 設定し、かつその重みが式 (2)に示されるような関係がある場合、次のような作用が 得られる。すなわち、誤差信号 d (k)が正の場合とは、復号化側で生成される復号値 (符号化側で言うと、第 1スケールファクタに補正スケールファクタ候補を乗じた値)が 目標値である第 2スケールファクタよりも小さくなる場合である。また、誤差信号 d (k) が負の場合とは、復号ィ匕側で生成される復号値が目標値である第 2スケールファクタ よりも大きくなる場合である。従って、誤差信号 d (k)が正の場合の重みを、誤差信号 d (k)が負の場合の重みよりも小さくなるように設定することにより、 2乗誤差が同程度 の値の場合、第 2スケールファクタよりも小さ 、復号値を生成する補正スケールファタ タ候補が選択されやすくなる。
[0042] これにより次のような改善効果が得られる。例えば、本実施の形態のように、低域ス ベクトルを利用して高域スペクトルを推定する場合、一般的には、低ビットレートイ匕を 実現することができる。しかし、低ビットレートイ匕を実現する一方で、推定スペクトルの 精度、すなわち、推定スペクトルと高域スペクトルとの類似性は、上述の通り、充分に 高いとは言えない。かかる場合に、スケールファクタの復号値が目標値よりも大きくな り、量子化後のスケールファクタが推定スペクトルを強調する方向に作用すると、推定 スペクトルの精度の低さが人間の耳に品質劣化として知覚されやすくなる。逆に、ス ケールファクタの復号値が目標値よりも小さくなり、量子化後のスケールファクタがこ の推定スペクトルを減衰する方向に作用するときは、推定スペクトルの精度の低さが 目立たなくなり、復号信号の音質が改善するという効果が得られる。なお、この傾向 は、計算機によるシミュレーションにおいても確認することができた。
[0043] 次 、で、上記のスケーラブル符号ィ匕装置に対応する、本実施の形態に係るスケー ラブル復号ィ匕装置について説明する。図 4は、このスケーラブル復号化装置の主要 な構成を示すブロック図である。
[0044] 分離部 151は、符号化パラメータを示す入力ビットストリームに対し分離処理を施し
、第 1レイヤ復号ィ匕部 152用の符号ィ匕パラメータと、第 2レイヤ復号ィ匕部 153用の符 号化パラメータとを生成する。
[0045] 第 1レイヤ復号ィ匕部 152は、分離部 151で得られた符号ィ匕パラメータを用いて信号 帯域 0〜FLの復号信号を復号し、この復号信号を出力する。また、第 1レイヤ復号化 部 152は、得られた復号信号を第 2レイヤ復号化部 153にも与える。
[0046] 第 2レイヤ復号ィ匕部 153には、分離部 151で分離された符号ィ匕パラメータと第 1レイ ャ復号ィ匕部 152から出力される第 1レイヤ復号信号とが与えられる。第 2レイヤ復号 化部 153は、スペクトル復号ィ匕を行い、時間領域の信号に変換して信号帯域 0〜FH の広帯域の復号信号を生成し、これを出力する。
[0047] 図 5は、第 2レイヤ復号ィ匕部 153内部の主要な構成を示すブロック図である。なお、 第 2レイヤ復号ィ匕部 153は、本実施の形態に係る変換符号ィ匕装置における第 2レイ ャ符号ィ匕部 106に対応する構成要素である。
[0048] MDCT分析部 161は、第 1レイヤ復号信号を MDCT分析して、信号帯域 0〜FL の第 1スペクトルを算出し、高域スペクトル復号ィ匕部 162に出力する。
[0049] 高域スペクトル復号ィ匕部 162は、本実施の形態に係る変換符号ィ匕装置カゝら送られ てくる符号化パラメータ (推定情報)と第 1スぺ外ルとを用い、信号帯域 FL〜FHの 推定スペクトル (微細スペクトル)を復号する。得られた推定スペクトルは乗算器 164 に与えられる。
[0050] 補正スケールファクタ復号ィ匕部 163は、本実施の形態に係る変換符号化装置から 送られてくる符号ィ匕パラメータ (補正スケールファクタ)を用いて補正スケールファクタ を復号する。具体的には、内蔵の補正スケールファクタ符号帳(図示せず)を参照し、 対応する補正スケールファクタを乗算器 164に出力する。
[0051] 乗算器 164は、高域スペクトル復号ィ匕部 162から出力される推定スペクトルに、補 正スケールファクタ復号ィ匕部 163から出力される補正スケールファクタを乗じ、乗算 結果を連結部 165に出力する。
[0052] 連結部 165は、第 1スペクトルと乗算器 164から出力される推定スペクトルとを周波 数軸上において連結し、信号帯域 0〜FHの広帯域の復号スペクトルを生成して、時 間領域変換部 166に出力する。
[0053] 時間領域変換部 166は、連結部 165から出力される復号スペクトルに対し、逆 MD CT処理を施し、適切な窓関数を乗じた後に、前フレームの窓掛け後の信号と対応す る領域を加算して、第 2レイヤ復号信号を生成して出力する。
[0054] 以上説明したように、本実施の形態によれば、高位レイヤの周波数領域での符号 ィ匕にお 、て、入力信号を周波数領域の係数に変換してスケールファクタを量子化す る際に、スケールファクタが小さくなる量子化候補が選択されやすくなる重み付き歪 み尺度を用いてスケールファクタの量子化を行う。すなわち、量子化後のスケールフ ァクタが量子化前のスケールファクタよりも小さいものが選ばれやすくなる。よって、ス ケールファクタの量子化に配分されるビット数が充分でな 、場合でも、聴感的な主観 品質の劣化を抑えることができる。
[0055] また、非特許文献 2に開示の技術によれば、上記式(1)で示される重み関数 wは、 バーク尺度 iが同じ場合、常に同一となる。しかし、本実施の形態によれば、バーク尺 度 iが同じであったとしても、入力信号と量子化候補との差 (E— C (m) )に応じて差 に乗じる重みを変えることになる。すなわち、重みは、 E— C (m)が負となる量子化候 補 C (m)よりも、 E— C (m)が正となる量子化候補 C (m)が選択されやすくなるように 、換言すれば、原スケールファクタよりも量子化後のスケールファクタが小さくなるよう に設定されている。
[0056] なお、本実施の形態では、ベクトル量子化を用いる場合を例にとって説明したが、 ベクトル量子化、すなわちベクトル毎に処理を行う代わりに、サブバンド毎に独立に 処理を行っても良い。かかる場合、例えば、補正スケールファクタ符号帳に含まれる 補正スケールファクタ候補はスカラーで表される。
[0057] (実施の形態 2)
本発明の実施の形態 2に係る変換符号ィ匕装置を備えるスケーラブル符号ィ匕装置の 基本的構成は、実施の形態 1と同様である。よって、その説明を省略し、実施の形態 1と異なる構成である第 2レイヤ符号ィ匕部 206について以下説明する。
[0058] 図 6は、第 2レイヤ符号ィ匕部 206内部の主要な構成を示すブロック図である。第 2レ ィャ符号ィ匕部 206は、実施の形態 1に示した第 2レイヤ符号ィ匕部 106と同様の基本 的構成を有しており、同一の構成要素には同一の符号を付し、その説明を省略する 。また、基本的動作は同一であるが、詳細な点で違いがある構成要素には、同一の 番号にアルファベットの小文字を付した符号を付して適宜説明を加える。また、他の 構成の説明にお 、ても同様の表記方法を用いることとする。
[0059] 第 2レイヤ符号ィ匕部 206は、聴覚マスキング算出部 211およびビット配分決定部 21 2をさらに備え、補正スケールファクタ符号ィ匕部 114aは、ビット配分決定部 212で決 定されたビット配分に基づいた補正スケールファクタの符号ィ匕を行う。
[0060] 具体的には、聴覚マスキング算出部 211は、入力信号を分析して量子化歪みの許 容値を表す聴覚マスキング値を算出し、ビット配分決定部 212に出力する。
[0061] ビット配分決定部 212は、聴覚マスキング算出部 211で算出された聴覚マスキング 値に基づき、どのサブバンドにどの程度のビットを配分するかを決定し、このビット配 分情報を外部に出力すると共に、補正スケールファクタ符号ィ匕部 114aに出力する。
[0062] 補正スケールファクタ符号ィ匕部 114aは、ビット配分決定部 212から出力されるビット 配分情報で決定されるビット数を用いて、補正スケールファクタ候補を量子化し、そ のインデックスを符号ィ匕パラメータとして出力する。その際、サブバンドに対応する重 みの大きさを補正スケールファクタの量子化ビット数に基づき設定する。具体的には 、補正スケールファクタ符号ィ匕部 114aは、量子化ビット数の少ないサブバンドの補正 スケールファクタに対する 2つの重みの差、具体的には、誤差信号 d (k)が正の場合 の重み w と誤差信号 d (k)が負の場合の重み w の差が大きくなるように設定し、 pos neg
一方、量子化ビット数の多いサブバンドの補正スケールファクタに対する上記 2つの 重みに対しては、これら 2つの重みの差が小さくなるように設定する。
[0063] 上記構成を採ることにより、量子化ビット数の少ないサブバンドの補正スケールファ クタに対して、量子化後のスケールファクタが量子化前のスケールファクタよりも小さ いものが選ばれる確率が高くなり、その結果、聴感的な品質劣化を軽減することがで きる。
[0064] 次 、で、本実施の形態に係るスケーラブル復号ィ匕装置にっ 、て説明する。しかし、 本実施の形態に係るスケーラブル復号ィ匕装置は、実施の形態 1で示したスケーラブ ル復号ィ匕装置と同様の基本的構成を有しているため、実施の形態 1と異なる構成で ある第 2レイヤ復号ィ匕部 253について以下説明する。
[0065] 図 7は、第 2レイヤ復号ィ匕部 253内部の主要な構成を示すブロック図である。
[0066] ビット配分復号ィ匕部 261は、本実施の形態に係るスケーラブル符号ィ匕装置力も送ら れる符号ィ匕パラメータ (ビット配分情報)を用いて、各サブバンドのビット数を復号し、 得られたビット数を補正スケールファクタ復号ィ匕部 163aに出力する。
[0067] 補正スケールファクタ復号ィ匕部 163aは、各サブバンドのビット数と符号ィ匕パラメ一 タ(補正スケールファクタ)とを用いて、補正スケールファクタを復号し、得られた補正 スケールファクタを乗算器 164に出力する。その他の処理は、実施の形態 1と同様で ある。
[0068] このように、本実施の形態によれば、各帯域のスケールファクタに配分される量子化 ビット数に応じて、重みを変更する。この重みの変更は、量子化ビット数の少ないスケ ールファクタに対して、誤差信号 d (k)が正であるときの重み w と誤差信号 d (k)が pos
負であるときの重み W との差が大きくなるように設定する。
neg
[0069] 上記構成を採ることにより、量子化ビット数の少ないスケールファクタに対し、量子 化後のスケールファクタが量子化前のスケールファクタよりも小さいものがより選ばれ やすくなり、当該帯域で生じる聴感的な品質劣化を軽減することができる。
[0070] (実施の形態 3)
本発明の実施の形態 3に係る変換符号ィ匕装置を備えるスケーラブル符号ィ匕装置の 基本的構成も、実施の形態 1と同様である。よって、その説明を省略し、実施の形態 1 と異なる構成である第 2レイヤ符号ィ匕部 306について以下説明する。
[0071] 第 2レイヤ符号化部 306の基本的動作は、実施の形態 2に示した第 2レイヤ符号ィ匕 部 206と類似しており、実施の形態 2で用いたビット配分情報に代わりに、後述の類 似度を用いる点が異なる。図 8は、第 2レイヤ符号ィ匕部 306内部の主要な構成を示す ブロック図である。
[0072] 類似度算出部 311は、信号帯域 FL〜FHの第 2スペクトル、すなわち原信号のス ベクトルと、信号帯域 FL〜FHの推定スペクトルとの類似度を算出し、得られた類似 度を補正スケールファクタ符号ィ匕部 114bに出力する。ここで類似度とは、例えば、第 2スペクトルに対する推定スペクトルの SNR (SignaH:o- Noise Ratio)で定義する。
[0073] 補正スケールファクタ符号ィ匕部 114bは、類似度算出部 311から出力される類似度 に基づいて、補正スケールファクタ候補を量子化し、そのインデックスを符号化パラメ ータとして出力する。その際、サブバンドに対応する重みの大きさをそのサブバンドの 類似度に基づき設定する。具体的には、補正スケールファクタ符号ィ匕部 114bは、類 似度の低いサブバンドの補正スケールファクタに対する 2つの重みの差、具体的には 、誤差信号 d (k)が正の場合の重み w と誤差信号 d (k)が負の場合の重み w の差 pos neg が大きくなるように設定し、一方、類似度の高いサブバンドの補正スケールファクタに 対する上記 2つの重みに対しては、これら 2つの重みの差が小さくなるように設定する
[0074] 本実施の形態に係るスケーラブル復号化装置および変換復号化装置の基本的構 成は、実施の形態 1に示したものと同様であるのでその説明を省略する。
[0075] このように、本実施の形態によれば、原信号のスペクトルに対する各帯域の推定ス ベクトルの形状の精度 (例えば、類似度、 SNR等)に応じて重みを変更する。この重 みの変更は、類似度の低いサブバンドのスケールファクタに対して、誤差信号 d (k) が正であるときの重み w と負であるときの重み w との差が大きくなるように設定す pos neg
る。
[0076] 上記構成を採ることにより、推定スペクトルの SNRの低いサブバンドに対応するスケ ールファクタに対して、量子化後のスケールファクタが量子化前のスケールファクタよ りも小さいものがより選ばれやすくなり、当該帯域で生じる聴感的な品質劣化をより軽 減することができる。
[0077] (実施の形態 4)
実施の形態 1〜3では、補正スケールファクタ符号化部 114、 114a, 114bの入力 力 第 1スペクトルと第 2スペクトルという特徴の異なる 2つのスペクトルである場合を例 に示した。しかし、本発明では、補正スケールファクタ符号ィ匕部 114、 114a, 114bの 入力は、 1つのスペクトルであっても良い。かかる場合の実施の形態を以下示す。
[0078] 本発明の実施の形態 4は、レイヤ数 1、すなわちスケーラブル符号ィ匕でない場合に 本発明を適用したものである。 [0079] 図 9は、本実施の形態に係る変換符号ィ匕装置の主要な構成を示すブロック図であ る。なお、ここでは、変換方式として MDCTを使用する場合を例にとって説明を行う。
[0080] 本実施の形態に係る変換符号ィ匕装置は、 MDCT分析部 401、スケールファクタ符 号ィ匕部 402、微細スペクトル符号ィ匕部 403、および多重化部 404を備え、各部は以 下の動作を行う。
[0081] MDCT分析部 401は、原信号である音声信号を MDCT分析して、得られるスぺク トルをスケールファクタ符号ィ匕部 402および微細スペクトル符号ィ匕部 403に出力する
[0082] スケールファクタ符号化部 402は、 MDCT分析部 401で求められたスペクトルの信 号帯域を複数のサブバンドに分割し、各サブバンドのスケールファクタを算出して、こ れらに対し量子化を行う。この量子化の詳細については後述する。スケールファクタ 符号化部 402は、量子化により得られた符号ィ匕パラメータ (スケールファクタ)を多重 化部 404に出力すると共に、復号スケールファクタ自体を微細スペクトル符号ィ匕部 40 3に出力する。
[0083] 微細スペクトル符号ィ匕部 403は、スケールファクタ符号ィ匕部 402から出力される復 号スケールファクタを用いて、 MDCT分析部 401から与えられるスペクトルを正規化 し、正規化後のスペクトルを符号化する。微細スペクトル符号ィ匕部 403は、得られた 符号化パラメータ (微細スペクトル)を多重化部 404に出力する。
[0084] 図 10は、スケールファクタ符号ィ匕部 402内部の主要な構成を示すブロック図である 。なお、このスケールファクタ符号ィ匕部 402は、実施の形態 1に示したスケールファタ タ符号化部 114と同様の基本的構成を有しており、同一の構成要素には同一の符号 を付し、その説明を省略する。
[0085] 実施の形態 1では、乗算器 124において、第 1スペクトルのスケールファクタ SF1 (k )に補正スケールファクタ候補 V (k)を乗じ、減算器 125で誤差信号 d (k)を求めてい たが、本実施の形態では、スケールファクタ候補 X (k)を減算器 125に直接与えて誤 差信号 d (k)を求めている点が異なる。すなわち、本実施形態では、実施の形態 1で 示した式(2)は以下のように表される。
[数 5] d(k) = SF2(k) - Xj (k) (0≤k < NB) . · · ( 5 )
[0086] 図 11は、本実施の形態に係る変換復号化装置の主要な構成を示すブロック図で ある。
[0087] 分離部 451は、符号化パラメータを示す入力ビットストリームに対し分離処理を施し 、スケールファクタ復号ィ匕部 452用の符号ィ匕パラメータ (スケールファクタ)と、微細ス ベクトル復号ィ匕部 453用の符号ィ匕パラメータ (微細スペクトル)とを生成する。
[0088] スケールファクタ復号ィ匕部 452は、分離部 451で得られた符号化パラメータ (スケ一 ルファクタ)を用いてスケールファクタを復号し、これを乗算器 454に与える。
[0089] 微細スペクトル復号ィ匕部 453は、分離部 451で得られた符号ィ匕パラメータ (微細ス ベクトル)を用いて微細スペクトルを復号し、これを乗算器 454に与える。
[0090] 乗算器 454は、微細スペクトル復号ィ匕部 453から出力される微細スペクトルに、スケ ールファクタ復号ィ匕部 452から出力されるスケールファクタを乗じ、復号スペクトルを 生成する。この復号スペクトルは、時間領域変換部 455に出力される。
[0091] 時間領域変換部 455は、乗算器 454から出力される復号スペクトルに対し時間領 域変換を施し、得られる時間領域信号を最終的な復号信号として出力する。
[0092] このように、本実施の形態によれば、単一レイヤ力もなる符号ィ匕においても本発明 を適用することができる。
[0093] なお、スケールファクタ符号ィ匕部 402は、実施の形態 2で示したビット配分情報や実 施の形態 3で示した類似度等の指標に応じて、 MDCT分析部 401から与えられるス ベクトルのスケールファクタをあらかじめ減衰させてから、重み付けなしの通常の歪み 尺度により量子化を行う構成であっても良い。これにより、低ビットレート環境下にお いても、音声品質の劣化を軽減することができる。
[0094] (実施の形態 5)
図 12は、本発明の実施の形態 5に係る変換符号ィ匕装置を備えるスケーラブル符号 化装置の主要な構成を示すブロック図である。
[0095] 本発明の形態の形態に係るスケーラブル符号ィ匕装置は、ダウンサンプリング部 501 、第 1レイヤ符号ィ匕部 502、多重化部 503、第 1レイヤ復号ィ匕部 504、アップサンプリ ング部 505、遅延部 507、第 2レイヤ符号ィ匕部 508、及び背景雑音分析部 506とから 主に構成される。
[0096] ダウンサンプリング部 501は、サンプリングレート F2の入力信号からサンプリングレ ート F1 (F1≤F2)の信号を生成し、第 1レイヤ符号ィ匕部 502に与える。第 1レイヤ符 号化部 502は、ダウンサンプリング部 501から出力されたサンプリングレート F1の信 号を符号化する。第 1レイヤ符号ィ匕部 502で得られた符号ィ匕パラメータは、多重化部 503に与えられると共に、第 1レイヤ復号ィ匕部 504に与えられる。第 1レイヤ復号ィ匕部 504は、第 1レイヤ符号ィ匕部 502から出力された符号ィ匕パラメータから、第 1レイヤの 復号信号を生成し、背景雑音分析部 506とアップサンプリング部 505に出力する。ァ ップサンプリング部 505は、第 1レイヤ復号信号のサンプリングレートを F1から F2にァ ップサンプリングし、これを第 2レイヤ符号ィ匕部 508に出力する。
[0097] 背景雑音分析部 506は、第 1レイヤ復号信号を入力とし、この信号内に背景雑音が 含まれるかどうかを判定する。背景雑音分析部 506は、第 1レイヤ復号信号に背景雑 音が含まれて!/ヽると判定した場合には、該背景雑音に対して MDCTなどの処理を行 つてその周波数特性を分析し、分析した周波数特性を背景雑音情報として第 2レイ ャ符号ィ匕部 508に出力する。一方、背景雑音分析部 506は、第 1レイヤ復号信号に 背景雑音が含まれていないと判定した場合には、第 2レイヤ符号ィ匕部 508に第 1レイ ャ復号信号には背景雑音が含まれて 、な 、ことを示す背景雑音情報を出力する。な お、本実施の形態では、背景雑音の検出方法として、ある区間の入力信号を分析し その入力信号の最大パワー値と最小パワー値を算出し、それらの比、あるいは差が 閾値以上であった場合に最小パワー値を雑音とする等の方法の他、一般的な背景 雑音検出方法を採ることができる。
[0098] 遅延部 507は、入力信号に所定の長さの遅延を与える。この遅延は、ダウンサンプ リング部 501、第 1レイヤ符号ィ匕部 502、および第 1レイヤ復号化部 504で生じる時間 遅れを補正するためのものである。
[0099] 第 2レイヤ符号化部 508は、アップサンプリング部 505から得られるアップサンプリン グ後の第 1レイヤ復号信号、及び背景雑音分析部 506から得られる背景雑音情報を 用いて、遅延部 507から出力された所定時間遅延された入力信号の変換符号ィ匕を 行い、生成された符号化パラメータを多重化部 503に出力する。
[0100] 多重化部 503は、第 1レイヤ符号ィ匕部 502で求められる符号ィ匕パラメータと、第 2レ ィャ符号ィ匕部 508で求められる符号化パラメータとを多重化し、これを最終的な符号 ィ匕パラメータとして出力する。
[0101] 図 13は、第 2レイヤ符号ィ匕部 508内部の主要な構成を示すブロック図である。第 2 レイヤ符号化部 508は、 MDCT分析部 511、 512、高域スペクトル推定部 513、およ び補正スケールファクタ符号ィ匕部 514を備え、各部は以下の動作を行う。
[0102] MDCT分析部 511は、第 1レイヤ復号信号を MDCT分析して、信号帯域 (周波数 帯域) 0〜FLの低域スペクトル (狭帯域スペクトル)を算出し、高域スペクトル推定部 5
13に出力する。
[0103] MDCT分析部 512は、原信号である音声信号を MDCT分析して、信号帯域 0〜F Hの広帯域スペクトルを算出し、このうち、狭帯域スペクトルと同じ帯域幅で、かつ信 号帯域が高域 FL〜FHの高域スペクトルを、高域スペクトル推定部 513および補正 スケールファクタ符号ィ匕部 514に出力する。ここで、狭帯域スペクトルの信号帯域と 広帯域スぺクトルの信号帯域との間には、 FL < FHの関係がある。
[0104] 高域スペクトル推定部 513は、信号帯域 0〜FLの低域スペクトルを利用して、信号 帯域 FL〜FHの高域スペクトルを推定し、推定スペクトルを得る。推定スペクトルの導 出方法は、高域スペクトルとの類似度が最大となるような推定スペクトルを、低域スぺ タトルを基に、この低域スペクトル変形することにより求める。高域スペクトル推定部 5 13は、この推定スペクトルに関する情報 (推定情報)を符号ィ匕し、得られる符号化パ ラメータを出力する。
[0105] 以下の説明では、高域スペクトル推定部 513から出力される推定スペクトルのことを 第 1スペクトルと呼び、 MDCT分析部 512から出力される高域スペクトルのことを第 2 スペクトルと呼ぶこととする。
[0106] ここで、上記説明で現れた各種スペクトルをまとめて信号帯域と併せて示すと、以下 のようになる。
狭帯域スペクトル (低域スペクトル) · · · 0〜FL 広帯域スペクトル . · · 0〜FH
第 1スペクトル(推定スペクトル) · ' ·ΡΙ^〜ΡΗ
第 2スペクトル(高域スペクトル) · · · FL〜FH
[0107] 補正スケールファクタ符号ィ匕部 514は、背景雑音情報を用いて、第 2スペクトルのス ケールファクタに関する情報を符号ィ匕して出力する。
[0108] 図 14は、補正スケールファクタ符号ィ匕部 514内部の主要な構成を示すブロック図 である。補正スケールファクタ符号ィ匕部 514は、スケールファクタ算出部 521、補正ス ケールファクタ符号帳 522、減算器 523、判定部 524、重み付き誤差算出部 525、お よび探索部 526を備え、各部は以下の動作を行う。
[0109] スケールファクタ算出部 521は、入力される第 2スペクトルの信号帯域 FL〜FHを 複数のサブバンドに分割し、各サブバンドに含まれるスペクトルの大きさを求め、減算 器 523に出力する。具体的には、サブバンドへの分割は、臨界帯域に対応付けて行 われ、バーク尺度で等間隔に分割される。また、スケールファクタ算出部 521は、各 サブバンドに含まれるスペクトルの平均振幅を求め、これを第 2スケールファクタ SF2 (k) {0≤k<NB}とする。ここで NBはサブバンド数を表す。なお、平均振幅の代わり に最大振幅値等を用いても良 、。
[0110] 以降の処理においては、複数のサブバンドにおける各パラメータを 1つのベクトル 値にまとめる。例えば、 NB個のスケールファクタを 1つのベクトルとして表す。そして、 このベクトル毎に各処理を行う場合、すなわち、ベクトル量子化を行う場合を例にとつ て説明を行う。
[0111] 補正スケールファクタ符号帳 522は、補正スケールファクタの候補が複数格納され ており、探索部 526からの指示に従い、格納されている補正スケールファクタの候補 のうちの 1つを減算器 523に順次出力する。補正スケールファクタ符号帳 522に格納 されて 、る補正スケールファクタの複数の候補は、ベクトルで表される。
[0112] 減算器 523は、スケールファクタ算出部 521より出力される第 2スケールファクタから 、補正スケールファクタの出力である補正スケールファクタ候補を減じ、これにより得 られる誤差信号を、重み付き誤差算出部 525および判定部 524に与える。
[0113] 判定部 524は、減算器から与えられる誤差信号の符号、及び背景雑音情報に基づ いて、重み付き誤差算出部 525に与える重みベクトルを決定する。以下、判定部 52 4における具体的な処理の流れを説明する。
[0114] 判定部 524は、入力された背景雑音情報を分析する。また、判定部 524は、内部に 要素数がサブバンド数 NBである、背景雑音フラグ BNF (k) {0≤k< NB}を有する。 判定部 524は、背景雑音情報が、入力信号 (第 1復号信号)中に背景雑音が含まれ て!、な 、ことを示して 、る場合には、背景雑音フラグ BNF (k)の値を全て 0に設定す る。また、判定部 524は、背景雑音情報が、入力信号 (第 1復号信号)中に背景雑音 が含まれて 、ることを示して 、る場合には、背景雑音情報が示す背景雑音の周波数 特性を分析し、サブバンド毎の周波数特性に変換する。なお、ここでは説明の簡略 化のため、背景雑音情報がサブバンド毎のスペクトルの平均パワー値を示すものとし て扱う。判定部 524は、サブバンド毎のスペクトルの平均パワー値 SP (k)と、予め内 部に設定されたサブバンド毎の閾値 ST (k)を比較し、 SP (k)が ST (k)以上であった 場合には対応するサブバンドの背景雑音フラグ BNF (k)の値を 1に設定する。
[0115] ここで、減算器から与えられる誤差信号 d (k)は、以下の式 (6)によって表される。
[数 6] d(k) = SF2(k) - vi (k) (0≤k < NB) … ( 6
[0116] ここで、 V (k)は、第 i番目の補正スケールファクタの候補を表す。判定部 524は、 d ( k)の符号が正である場合には w を重みとして選択する。また、判定部 524は、 d (k)
pos
の符号が負であり、かつ背景雑音フラグ BNF (k)の値が 1である場合には wposを重 みとして選択する。また、判定部 524は、 d (k)の符号が負であり、かつ背景雑音フラ グ BNF (k)の値が 0である場合には w を重みとして選択する。次に、判定部 524は
neg
、これら力も構成される重みベクトル w (k)を、重み付き誤差算出部 525に出力する。 これらの重みには、以下の式(7)の大小関係がある。
[数 7]
( 7 ) [0117] 例えば、サブバンド数 NB = 4であり、 d (k)の符号カ + , -, -, + }であり、背景 雑音フラグ BNF (k)が {0, 0, 1, 1 }となる場合、重み付き誤差算出部 525に出力さ れる重みべクトノレ w(k)は、 w(k) = {w , w , w , w }と表される。
pos neg pos pos
[0118] 重み付き誤差算出部 525は、まず、減算器 523から与えられる誤差信号の 2乗値を 算出し、次に、判定部 524から与えられる重みベクトル w(k)を誤差信号の 2乗値に 乗じて、重み付き 2乗誤差 Eを算出し、算出結果を探索部 526に与える。ここで、重み 付き 2乗誤差 Eは以下の式 (8)のように表される。
[数 8]
Figure imgf000024_0001
[0119] 探索部 526は、補正スケールファクタ符号帳 522を制御して、格納されている補正 スケールファクタの候補を順次出力させ、閉ループ処理により、重み付き誤差算出部 525から出力される重み付き 2乗誤差 Eが最小となる補正スケールファクタの候補を 求める。探索部 526は、求まった補正スケールファクタの候補のインデックス ioptを符 号化パラメータとして出力する。
[0120] 上記のように、誤差信号の符号に応じて重み付き 2乗誤差を算出するときの重みを 設定し、かつその重みが式 (7)に示されるような関係がある場合、次のような作用が 得られる。すなわち、誤差信号 d (k)が正の場合とは、復号化側で生成される復号値 (符号化側で言うと、第 1スケールファクタを正規ィ匕し、正規化された値に補正スケー ルファクタ候補を乗じた値)が目標値である第 2スケールファクタよりも小さくなる場合 である。また、誤差信号 d (k)が負の場合とは、復号化側で生成される復号値が目標 値である第 2スケールファクタよりも大きくなる場合である。従って、誤差信号 d(k)が 正の場合の重みを、誤差信号 d (k)が負の場合の重みよりも小さくなるように設定する ことにより、 2乗誤差が同程度の値の場合、第 2スケールファクタよりも小さい復号値を 生成する補正スケールファクタ候補が選択されやすくなる。
[0121] これにより次のような改善効果が得られる。例えば、本実施の形態のように、低域ス ベクトルを利用して高域スペクトルを推定する場合、一般的には、低ビットレートイ匕を 実現することができる。しかし、低ビットレートイ匕を実現する一方で、推定スペクトルの 精度、すなわち、推定スペクトルと高域スペクトルとの類似性は、上述の通り、充分に 高いとは言えない。かかる場合に、スケールファクタの復号値が目標値よりも大きくな り、量子化後のスケールファクタが推定スペクトルを強調する方向に作用すると、推定 スペクトルの精度の低さが人間の耳に品質劣化として知覚されやすくなる。逆に、ス ケールファクタの復号値が目標値よりも小さくなり、量子化後のスケールファクタがこ の推定スペクトルを減衰する方向に作用するときは、推定スペクトルの精度の低さが 目立たなくなり、復号信号の音質が改善するという効果が得られる。さらに、入力信号
(第 1レイヤ復号化信号)中に背景雑音が含まれるかどうかに応じて、上記の作用の 程度を調整することにより、聴感的により良い復号ィ匕信号を得ることが出来る。なお、 この傾向は、計算機によるシミュレーションにおいても確認することができた。
[0122] 次いで、上記のスケーラブル符号ィ匕装置に対応する、本実施の形態に係るスケー ラブル復号ィ匕装置について説明する。なお、スケーラブル復号ィ匕装置の構成は、実 施の形態 1で説明した図 4と同じであるため、ここでは説明は省略する。
[0123] 本実施の形態の復号化装置は、第 2レイヤ復号ィ匕部 153の内部構成のみが実施 の形態 1の場合と異なる。以下、本実施の形態に係る第 2レイヤ復号ィ匕部 153の主要 な構成について図 15を用いて説明する。なお、第 2レイヤ復号ィ匕部 153は、本実施 の形態に係る変換符号ィ匕装置における第 2レイヤ符号ィ匕部 508に対応する構成要 素である。
[0124] MDCT分析部 561は、第 1レイヤ復号信号を MDCT分析して、信号帯域 0〜FL の第 1スペクトルを算出し、高域スペクトル復号ィ匕部 562に出力する。
[0125] 高域スペクトル復号ィ匕部 562は、本実施の形態に係る変換符号ィ匕装置カゝら送られ てくる符号化パラメータ (推定情報)と第 1スぺ外ルとを用い、信号帯域 FL〜FHの 推定スペクトル (微細スペクトル)を復号する。得られた推定スペクトルは高域スぺタト ル正規化部 563に与えられる。
[0126] 補正スケールファクタ復号ィ匕部 564は、本実施の形態に係る変換符号化装置から 送られてくる符号ィ匕パラメータ (補正スケールファクタ)を用いて補正スケールファクタ を復号する。具体的には、内蔵の補正スケールファクタ符号帳 522 (図示せず)を参 照し、対応する補正スケールファクタを乗算器 565に出力する。
[0127] 高域スペクトル正規ィ匕部 563は、高域スペクトル復号ィ匕部 562から出力される推定 スペクトルの信号帯域 FL〜FHを複数のサブバンドに分割し、各サブバンドに含まれ るスペクトルの大きさを求める。具体的には、サブバンドへの分割は、臨界帯域に対 応付けて行われ、バーク尺度で等間隔に分割される。また、スケールファクタ算出部 521は、各サブバンドに含まれるスペクトルの平均振幅を求め、これを第 1スケールフ ァクタ SFl (k) {0≤k<NB}とする。ここで NBはサブバンド数を表す。なお、平均振 幅の代わりに最大振幅値等を用いても良い。次に、高域スペクトル正規ィ匕部 563は、 推定スペクトルの値(MDCT値)をサブバンド毎に第 1スケールファクタ SFl (k)で除 算し、除算した推定スぺ外ル値を正規ィ匕推定スペクトルとして乗算器 565に出力す る。
[0128] 乗算器 565は、高域スペクトル正規ィ匕部 563から出力される正規ィ匕推定スペクトル に、補正スケールファクタ復号ィ匕部 564から出力される補正スケールファクタを乗じ、 乗算結果を連結部 566に出力する。
[0129] 連結部 566は、第 1スペクトルと乗算器から出力される正規ィ匕推定スペクトルとを周 波数軸上にぉ 、て連結し、信号帯域 0〜FHの広帯域の復号スペクトルを生成して、 時間領域変換部 567に出力する。
[0130] 時間領域変換部 567は、連結部 566から出力される復号スペクトルに対し、逆 MD CT処理を施し、適切な窓関数を乗じた後に、前フレームの窓掛け後の信号と対応す る領域を加算して、第 2レイヤ復号信号を生成して出力する。
[0131] 以上説明したように、本実施の形態によれば、高位レイヤの周波数領域での符号 ィ匕にお 、て、入力信号を周波数領域の係数に変換してスケールファクタを量子化す る際に、スケールファクタが小さくなる量子化候補が選択されやすくなる重み付き歪 み尺度を用いてスケールファクタの量子化を行う。すなわち、量子化後のスケールフ ァクタが量子化前のスケールファクタよりも小さいものが選ばれやすくなる。よって、ス ケールファクタの量子化に配分されるビット数が充分でな 、場合でも、聴感的な主観 品質の劣化を抑えることができる。
[0132] なお、本実施の形態では、ベクトル量子化を用いる場合を例にとって説明したが、 ベクトル量子化、すなわちベクトル毎に処理を行う代わりに、サブバンド毎に独立に 処理を行っても良い。かかる場合、例えば、補正スケールファクタ符号帳 522に含ま れる補正スケールファクタ候補はスカラーで表される。
[0133] また、本実施の形態では、サブバンド毎の平均パワー値を閾値を比較することで背 景雑音フラグ BNF (k)の値を決定したが、本発明はこれに限らず、背景雑音のサブ バンド毎の平均パワー値と、第 1復号信号 (音声部)のサブバンド毎の平均パワー値 との比を利用する方法等にも同様に適用される。
[0134] また、本実施の形態では、符号ィ匕装置内にアップサンプリング部 505を備える構成 について説明したが、本発明はこれに限らず、第 1アップサンプリング部を備えず、狭 帯域の第 1レイヤ復号ィ匕信号を第 2レイヤ符号ィ匕部に入力する場合についても同様 に適用できる。
[0135] また、本実施の形態では、入力信号の特性 (例えば、音声が含まれる部分か音声 が含まれない部分か、等)に関わらず、常に上述した方法によって量子化を行う場合 について説明したが、本発明はこれに限らず、入力信号の特性 (有声部分か無声部 分か等)に応じて上述した方法を利用するかどうかを切り替える場合についても同様 に適用できる。例えば、入力信号に音声が含まれている部分に対しては上述した重 みを適用した距離計算によるべ外ル量子化を行い、入力信号に音声が含まれない 部分に対しては上述した重みを適用した距離計算によるベクトル量子化ではなぐ実 施の形態 1〜4に示した方法によるベクトル量子化を行うという手法が挙げられる。こ のように、入力信号の特性に応じて、時間軸上でもベクトル量子化の距離計算手法 を切り替えることで、より品質の良い復号ィ匕信号を得ることができる。
[0136] (実施の形態 6)
本発明の実施の形態 6は、実施の形態 5に対して、符号化装置の第 2レイヤ符号化 部の内部構成のみが異なる。図 16は、本実施の形態に係る第 2レイヤ符号化部 508 の内部の主要な構成を示すブロック図である。図 16に示す第 2レイヤ符号ィ匕部 508 は、図 13と比較して、補正スケールファクタ符号ィ匕部 614の作用力 補正スケールフ ァクタ符号ィ匕部 514と異なる。
[0137] 高域スペクトル推定部 513は、推定スペクトル自体を補正スケールファクタ符号ィ匕 部 614に与える。
[0138] 補正スケールファクタ符号ィ匕部 614は、背景雑音情報を用いて、第 1スペクトルのス ケールファクタが第 2スペクトルのスケールファクタに近づくように、第 1スペクトルのス ケールファクタを補正し、この補正スケールファクタに関する情報を符号ィ匕して出力 する。
[0139] 図 17は、図 16中の補正スケールファクタ符号ィ匕部 614の内部の主要な構成を示 すブロック図である。補正スケールファクタ符号ィ匕部 614は、スケールファクタ算出部 621、 622、補正スケールファクタ符号帳 623、乗算器 624、減算器 625、判定部 62 6、重み付き誤差算出部 627、および探索部 628を備え、各部は以下の動作を行う。
[0140] スケールファクタ算出部 621は、入力される第 2スペクトルの信号帯域 FL〜FHを 複数のサブバンドに分割し、各サブバンドに含まれるスペクトルの大きさを求め、減算 器 625に出力する。具体的には、サブバンドへの分割は、臨界帯域に対応付けて行 われ、バーク尺度で等間隔に分割される。また、スケールファクタ算出部 621は、各 サブバンドに含まれるスペクトルの平均振幅を求め、これを第 2スケールファクタ SF2 (k) {0≤k<NB}とする。ここで NBはサブバンド数を表す。なお、平均振幅の代わり に最大振幅値等を用いても良 、。
[0141] 以降の処理においては、複数のサブバンドにおける各パラメータを 1つのベクトル 値にまとめる。例えば、 NB個のスケールファクタを 1つのベクトルとして表す。そして、 このベクトル毎に各処理を行う場合、すなわち、ベクトル量子化を行う場合を例にとつ て説明を行う。
[0142] スケールファクタ算出部 622は、入力される第 1スペクトルの信号帯域 FL〜FHを 複数のサブバンドに分割し、各サブバンドの第 1スケールファクタ SF1 (k) {0≤k<N B}を算出し、乗算器 624に出力する。スケールファクタ算出部 621と同様に、平均振 幅の代わりに最大振幅値等を用いても良 、。
[0143] 補正スケールファクタ符号帳 623は、補正スケールファクタの候補が複数格納され ており、探索部 628からの指示に従い、格納されている補正スケールファクタの候補 のうちの 1つを乗算器 624に順次出力する。補正スケールファクタ符号帳 623に格納 されて 、る補正スケールファクタの複数の候補は、ベクトルで表される。 [0144] 乗算器 624は、スケールファクタ算出部 622から出力される第 1スケールファクタと、 補正スケールファクタ符号帳 623から出力される補正スケールファクタの候補とを乗 算し、乗算結果を減算器 625に与える。
[0145] 減算器 625は、スケールファクタ算出部 621より出力される第 2スケールファクタから 、乗算器 624の出力、すなわち、第 1スケールファクタおよび補正スケールファクタ候 補の積を減じ、これにより得られる誤差信号を、判定部 626および重み付き誤差算出 咅 627に与える。
[0146] 判定部 626は、減算器 625から与えられる誤差信号の符号、及び背景雑音情報と に基づいて、重み付き誤差算出部に与える重みベクトルを決定する。以下、判定部 における具体的な処理の流れを説明する。
[0147] 判定部 626は、入力された背景雑音情報を分析する。また、判定部 626は、内部に 要素数がサブバンド数 NBである、背景雑音フラグ BNF (k) {0≤k< NB}を有する。 判定部 626は、背景雑音情報が、入力信号 (第 1復号信号)中に背景雑音が含まれ て!、な 、ことを示して 、る場合には、背景雑音フラグ BNF (k)の値を全て 0に設定す る。また、判定部 626は、背景雑音情報が、入力信号 (第 1復号信号)中に背景雑音 が含まれて 、ることを示して 、る場合には、背景雑音情報が示す背景雑音の周波数 特性を分析し、サブバンド毎の周波数特性に変換する。なお、ここでは説明の簡略 化のため、背景雑音情報がサブバンド毎のスペクトルの平均パワー値を示すものとし て扱う。判定部 626は、サブバンド毎のスペクトルの平均パワー値 SP (k)と、予め内 部に設定されたサブバンド毎の閾値 ST (k)を比較し、 SP (k)が ST (k)以上であった 場合には対応するサブバンドの背景雑音フラグ BNF (k)の値を 1に設定する。
[0148] ここで、減算器 625から与えられる誤差信号 d (k)は、以下の式(9)によって表され る。
[数 9] d{k) = SF2(k)一 V, (k) ' SF\(k) (0≤k < NB) · · · ( 9 )
[0149] ここで、 v^k)は、第 i番目の補正スケールファクタの候補を表す。判定部 626は、 d ( k)の符号が正である場合には w を重みとして選択する。また、判定部 626は、 d(k) pos
の符号が負であり、かつ背景雑音フラグ BNF(k)の値が 1である場合には w を重み pos として選択する。また、判定部 626は、 d(k)の符号が負であり、かつ背景雑音フラグ BNF(k)の値が 0である場合には w を重みとして選択する。次に、判定部 626は、 neg
これら力も構成される重みベクトル w(k)を、重み付き誤差算出部 627に出力する。こ れらの重みには、以下の式(10)の大小関係がある。
[数 10]
0<wpos < ··· ( 1 0 )
[0150] 例えば、サブバンド数 NB=4であり、 d(k)の符号カ + , -, -, +}であり、背景 雑音フラグ BNF(k)が {0, 0, 1, 1}となる場合、重み付き誤差算出部 627に出力さ れる重みべクトノレ w(k)は、 w(k) = {w , w , w , w }と表される。
pos neg pos pos
[0151] 重み付き誤差算出部 627は、まず、減算器 625から与えられる誤差信号の 2乗値を 算出し、次に、判定部 626から与えられる重みベクトル w(k)を誤差信号の 2乗値に 乗じて、重み付き 2乗誤差 Eを算出し、算出結果を探索部 628に与える。ここで、重み 付き 2乗誤差 Eは以下の式(11)のように表される。
[数 11]
Figure imgf000030_0001
[0152] 探索部 628は、補正スケールファクタ符号帳 623を制御して、格納されている補正 スケールファクタの候補を順次出力させ、閉ループ処理により、重み付き誤差算出部 627から出力される重み付き 2乗誤差 Eが最小となる補正スケールファクタの候補を 求める。探索部 628は、求まった補正スケールファクタの候補のインデックス ioptを符 号化パラメータとして出力する。
[0153] 上記のように、誤差信号の符号に応じて重み付き 2乗誤差を算出するときの重みを 設定し、かつその重みが式(10)に示されるような関係がある場合、次のような作用が 得られる。すなわち、誤差信号 d(k)が正の場合とは、復号化側で生成される復号値
(符号化側で言うと、第 1スケールファクタを正規ィ匕し、正規化された値に補正スケー ルファクタ候補を乗じた値)が目標値である第 2スケールファクタよりも小さくなる場合 である。また、誤差信号 d(k)が負の場合とは、復号化側で生成される復号値が目標 値である第 2スケールファクタよりも大きくなる場合である。従って、誤差信号 d(k)が 正の場合の重みを、誤差信号 d(k)が負の場合の重みよりも小さくなるように設定する ことにより、 2乗誤差が同程度の値の場合、第 2スケールファクタよりも小さい復号値を 生成する補正スケールファクタ候補が選択されやすくなる。
[0154] これにより次のような改善効果が得られる。例えば、本実施の形態のように、低域ス ベクトルを利用して高域スペクトルを推定する場合、一般的には、低ビットレートイ匕を 実現することができる。しかし、低ビットレートイ匕を実現する一方で、推定スペクトルの 精度、すなわち、推定スペクトルと高域スペクトルとの類似性は、上述の通り、充分に 高いとは言えない。かかる場合に、スケールファクタの復号値が目標値よりも大きくな り、量子化後のスケールファクタが推定スペクトルを強調する方向に作用すると、推定 スペクトルの精度の低さが人間の耳に品質劣化として知覚されやすくなる。逆に、ス ケールファクタの復号値が目標値よりも小さくなり、量子化後のスケールファクタがこ の推定スペクトルを減衰する方向に作用するときは、推定スペクトルの精度の低さが 目立たなくなり、復号信号の音質が改善するという効果が得られる。さらに、入力信号 (第 1レイヤ復号化信号)中に背景雑音が含まれるかどうかに応じて、上記の作用の 程度を調整することにより、聴感的により良い復号ィ匕信号を得ることが出来る。なお、 この傾向は、計算機によるシミュレーションにおいても確認することができた。
[0155] また、本実施の形態では、入力信号の特性 (例えば、音声が含まれる部分か音声 が含まれない部分か、等)に関わらず、常に上述した方法によって量子化を行う場合 について説明したが、本発明はこれに限らず、入力信号の特性 (有声部分か無声部 分か等)に応じて上述した方法を利用するかどうかを切り替える場合についても同様 に適用される。例えば、入力信号に音声が含まれている部分に対しては上述した重 みを適用した距離計算によるべ外ル量子化を行い、入力信号に音声が含まれない 部分に対しては上述した重みを適用した距離計算によるベクトル量子化ではなぐ実 施の形態 1〜4に示した方法によるベクトル量子化を行うという手法が挙げられる。こ のように、入力信号の特性に応じて、時間軸上でもベクトル量子化の距離計算手法 を切り替えることで、より品質の良い復号ィ匕信号を得ることが出来る。
[0156] (実施の形態 7)
図 18は、本発明の実施の形態 7に係るスケーラブル復号ィ匕装置の主要な構成を示 すブロック図である。図 18において、分離部 701は、図示せぬ符号化装置から送出 されたビットストリームを受信し、受信したビットストリームに記録されて 、るレイヤ情報 に基づいて、ビットストリームを分離し、レイヤ情報を切替部 705及びポストフィルタの 修正 LPC算出部 708に出力する。
[0157] レイヤ情報がレイヤ 3を示す場合、すなわち、ビットストリームに全てのレイヤ (第 1レ ィャ〜第 3レイヤ)の符号ィ匕情報が格納されている場合、分離部 701は、ビットストリ 一ムカも第 1レイヤ符号ィ匕情報、第 2レイヤ符号ィ匕情報、第 3レイヤ符号ィ匕情報を分 離する。分離された第 1レイヤ符号ィ匕情報は第 1レイヤ復号ィ匕部 702に、第 2レイヤ 符号ィ匕情報は第 2レイヤ復号ィ匕部 703に、第 3レイヤ符号ィ匕情報は第 3レイヤ復号ィ匕 部 704にそれぞれ出力される。
[0158] また、レイヤ情報がレイヤ 2を示す場合、すなわち、ビットストリームに第 1レイヤ及び 第 2レイヤの符号ィ匕情報が格納されている場合、分離部 701は、ビットストリームから 第 1レイヤ符号化情報、第 2レイヤ符号化情報を分離する。分離された第 1レイヤ符 号ィ匕情報は第 1レイヤ復号ィ匕部 702に、第 2レイヤ符号ィ匕情報は第 2レイヤ復号ィ匕部 703にそれぞれ出力される。
[0159] さらに、レイヤ情報がレイヤ 1を示す場合、すなわち、ビットストリームに第 1レイヤの 符号ィ匕情報のみが格納されている場合、分離部 701は、ビットストリーム力 第 1レイ ャ符号ィ匕情報を分離し、分離した第 1レイヤ符号ィ匕情報を第 1レイヤ復号ィ匕部 702に 出力する。
[0160] 第 1レイヤ復号ィ匕部 702は、分離部 701から出力された第 1レイヤ符号ィ匕情報を用 いて、信号帯域 kが 0以上、 FH未満における基本品質の第 1レイヤ復号信号を生成 し、生成した第 1レイヤ復号信号を切替部 705、第 2レイヤ復号化部 703、及び背景 雑音検出部 706に出力する。 [0161] 第 2レイヤ復号ィ匕部 703は、分離部 701から第 2レイヤ符号ィ匕情報が出力されると、 この第 2レイヤ符号ィ匕情報と第 1レイヤ復号ィ匕部 702から出力された第 1レイヤ復号 信号とを用いて、信号帯域 kが 0以上、 FL未満における改善品質と、信号帯域 kが F L以上、 FH未満における基本品質の第 2レイヤ復号信号を生成する。生成された第 2レイヤ復号信号は切替部 705及び第 3レイヤ復号ィ匕部 704に出力される。なお、第 2レイヤ復号ィ匕部 703は、レイヤ情報がレイヤ 1を示す場合、第 2レイヤ符号ィ匕情報が 得られないので、全く動作しないか、もしくは、第 2レイヤ復号ィ匕部 703に備わる変数 を更新する。
[0162] 第 3レイヤ復号ィ匕部 704は、分離部 701から第 3レイヤ符号ィ匕情報が出力されると、 この第 3レイヤ符号ィ匕情報と第 2レイヤ復号ィ匕部 703から出力された第 2レイヤ復号 信号とを用いて、信号帯域 kが 0以上、 FH未満における改善品質の第 3レイヤ復号 信号を生成する。生成された第 3レイヤ復号信号は切替部 705に出力される。なお、 第 3レイヤ復号ィ匕部 704は、レイヤ情報がレイヤ 1又はレイヤ 2を示す場合、第 3レイ ャ符号ィ匕情報が得られないので、全く動作しないか、もしくは、第 3レイヤ復号ィ匕部 7 04に備わる変数を更新する。
[0163] 背景雑音検出部 706は、第 1レイヤ復号信号を入力とし、この信号内に背景雑音が 含まれるかどうかを判定する。背景雑音検出部 706は、第 1レイヤ復号信号に背景雑 音が含まれて!/ヽると判定した場合には、該背景雑音に対して MDCTなどの処理を行 つてその周波数特性を分析し、分析した周波数特性を背景雑音情報として修正 LPC 算出部 708に出力する。また、背景雑音検出部 706は、第 1レイヤ復号信号に背景 雑音が含まれていないと判定した場合には、第 1レイヤ復号信号には背景雑音が含 まれていないことを示す背景雑音情報を修正 LPC算出部 708に出力する。なお、本 実施の形態では、背景雑音の検出方法として、ある区間の入力信号を分析しその入 力信号の最大パワー値と最小パワー値を算出し、それらの比、あるいは差が閾値以 上であった場合に最小パワー値を雑音とする等の方法の他、一般的な背景雑音検 出方法を採ることができる。なお、本実施の形態では、背景雑音検出部 706は、第 1 レイヤ復号信号に背景雑音が含まれるかどうかを判定したが、本発明はこれに限らず 、第 2レイヤ復号信号、及び第 3レイヤ復号信号に背景雑音が含まれるかどうかを検 出する場合や、入力信号中に含まれる背景雑音の情報を符号ィヒ装置側力 伝送し、 伝送された背景雑音の情報を利用する場合に対しても同様に適用できる。
[0164] 切替部 705は、分離部 701から出力されたレイヤ情報に基づいて、いずれのレイヤ の復号信号が得られるかを判断し、最も高次のレイヤにおける復号信号を修正 LPC 算出部 708及びフィルタ部 707に出力する。
[0165] ポストフィルタは、修正 LPC算出部 708とフィルタ部 707とを備え、修正 LPC算出部
708は、分離部 701から出力されたレイヤ情報と、切替部 705から出力された復号信 号、及び背景雑音検出部 706から得られる背景雑音情報とを用いて、修正 LPC係 数を算出し、算出した修正 LPC係数をフィルタ部 707に出力する。修正 LPC算出部
708の詳細については後述する。
[0166] フィルタ部 707は、修正 LPC算出部 708から出力された修正 LPC係数によってフィ ルタを構成し、切替部 705から出力された復号信号にポストフィルタ処理を施し、ボス トフィルタ処理を施した復号信号を出力する。
[0167] 図 19は、図 18に示した修正 LPC算出部 708の内部構成を示すブロック図である。
この図において、周波数変換部 711は、切替部 705から出力された復号信号の周波 数分析を行い、復号信号のスペクトル (以下、「復号スペクトル」という)を求め、求めた 復号スペクトルをパワースペクトル算出部 712に出力する。
[0168] パワースペクトル算出部 712は、周波数変換部 711から出力された復号スペクトル のパワー(以下、「パワースペクトル」という)を算出し、算出したパワースペクトルをパ ワースベクトル修正部 713に出力する
[0169] 修正帯域決定部 714は、分離部 701から出力されたレイヤ情報に基づいて、パヮ 一スペクトルの修正を行う帯域 (以下、「修正帯域」という)を決定し、決定した帯域は 修正帯域情報としてパワースペクトル修正部 713に出力する。
[0170] 本実施の形態では、各レイヤは図 20に示した信号帯域及び音声品質を担当して いるので、レイヤ情報がレイヤ 1を示す場合、修正帯域決定部 714は修正帯域を 0 ( 修正を行わない)とし、レイヤ情報がレイヤ 2を示す場合、修正帯域を 0〜FLとし、ま た、レイヤ情報がレイヤ 3を示す場合、修正帯域を 0〜FHとして修正帯域情報を生 成する。 [0171] パワースペクトル修正部 713は、修正帯域決定部 714から出力された修正帯域情 報、及び背景雑音情報に基づいて、パワースペクトル算出部 712から出力されたパ ワースベクトルを修正し、修正したパワースペクトルを逆変換部 715に出力する。
[0172] ここで、パワースペクトルの修正とは、背景雑音情報が「第 1復号信号に背景雑音が 含まれていない」ことを示している場合に、ポストフィルタの特性を弱め、スペクトルの 変形が小さくなるようにすることを意味し、より具体的には、パワースペクトルの周波数 軸上での変化を抑圧するように修正することを意味する。これにより、レイヤ情報がレ ィャ 2を示す場合、 0〜FLの帯域におけるポストフィルタの特性が弱められ、レイヤ情 報がレイヤ 3を示す場合、 0〜FHの帯域におけるポストフィルタの特性が弱められる 。また、パワースペクトル修正部 713は、背景雑音情報が「第 1復号信号に背景雑音 が含まれて 、る」ことを示して 、る場合には、上記のようなポストフィルタの特性を弱め る処理を行わない、あるいは弱める程度を少なくするという処理を行う。このように第 1 復号信号中に背景雑音が存在するかどうか (入力信号中に背景雑音が存在するか どうか)に応じて、ポストフィルタ処理を切り替えることにより、背景雑音が存在しない 場合には復号信号の異音感を出来る限り目立たないようにし、背景雑音が存在する 場合には復号信号の帯域感を出来る限り増加させるような処理が可能になり、より主 観的に良い品質の復号信号を生成することが出来る。
[0173] 逆変換部 715は、パワースペクトル修正部 713から出力された修正パワースぺタト ルに逆変換を施し、自己相関関数を求める。求められた自己相関関数は LPC分析 部 716に出力される。なお、逆変換部 715は FFT (Fast Fourier Transform)を利 用することにより、演算量を削減することができる。このとき、修正パワースペクトルの 次数が 2Nで表せな 、場合、分析長が 2Nになるよう修正パワースペクトルを平均化し てもよ 、し、修正パワースペクトルを間弓 I V、てもよ 、。
[0174] LPC分析部 716は、逆変換部 715から出力された自己相関関数に自己相関法な どを用いて LPC係数を求め、求めた LPC係数を修正 LPC係数としてフィルタ部 707 に出力する。
[0175] 次に、上述したパワースペクトル修正部 713の具体的な実現方法について説明す る。まず、第 1の実現方法として、修正帯域におけるパワースペクトルを平坦ィ匕する方 法について説明する。この方法は、修正帯域におけるパワースペクトルの平均値を 算出し、算出した平均値によって平均化前のスペクトルを置き換えるものである。
[0176] 図 21に、第 1の実現方法によるパワースペクトルの修正の様子を示す。この図では 、女性の有声部(ん/)のパワースペクトルに対し、レイヤ情報がレイヤ 2 (0〜FLの帯 域におけるポストフィルタの特性を弱める)のときの修正の様子を示しており、 0〜FL の帯域を約 22dBのパワースペクトルで置き換えている。このとき、修正される帯域と 修正されな 、帯域の接続部分でのスペクトルの変化が不連続にならな 、ようにパヮ 一スペクトルを修正することが望ましい。その具体的な方法として、例えば、前記接続 部分とその近傍のパワースペクトルに対して移動平均値を求め、その移動平均値で 対応するパワースペクトルを置き換える。これにより正確なスペクトル特性を有する修 正 LPC係数を求めることができる。
[0177] 次に、パワースペクトル修正部 713の第 2の実現方法について説明する。第 2の実 現方法は、修正帯域におけるパワースペクトルのスペクトル傾斜を求め、求めたスぺ タトル傾斜によって当該帯域のスペクトルを置き換えるものである。ここで、スペクトル 傾斜とは、当該帯域におけるパワースペクトルの全体的な傾きを示すものである。例 えば、復号信号の 1次の PARCOR係数 (反射係数)、あるいは当該 PARCOR係数 に定数を乗じて形成されるディジタルフィルタのスペクトル特性が用いられる。このス ベクトル特性に、当該帯域におけるパワースペクトルのエネルギーが保存されるよう に算出された係数を乗じたもので当該帯域のパワースペクトルが置き換えられる。
[0178] 図 22に、第 2の実現方法によるパワースペクトルの修正の様子を示す。この図では 、 0〜FLの帯域におけるパワースペクトルを約 23dB〜26dBに傾斜するパワースぺ タトルで置き換えている。
[0179] ここで、以下の式(12)に代表的なポストフィルタの伝達関数 PFを示す。なお式(12 )における a (i)は復号信号の LPC (Linear Prediction Coefficient )係数、 NPは LPC係数の次数、 γ nと γ dはポストフィルタの雑音抑圧の程度を決定する設定値 (0 く γ nく γ d< 1)、 はフォルマント強調フィルタにより生じるスペクトル傾きを補正す るための設定値、をそれぞれ表す。
[数 12] PF(z) = F(z) - U(z)
NP
F{z) = ~ … ( 1 2 )
Figure imgf000037_0001
[0180] 上述したように修正帯域におけるパワースペクトルをスペクトル傾斜で置き換えるこ とにより、ポストフィルタの傾き補正フィルタ式(12)の U (z) による高域強調の作用を 当該帯域内では打ち消しあうことになる。すなわち、式(12)の U (z)のスペクトル特性 の逆特性に相当するスペクトル特性を付与することになる。これにより、ポストフィルタ を含めた当該帯域のスペクトル特性をより平坦ィ匕させることができる。
[0181] また、パワースペクトル修正部 713の第 3の実現方法として、修正帯域におけるパヮ 一スペクトルを α乗(0く αく 1)したものを用いてもよい。この方法では、前述したよう なパワースペクトルを平坦ィ匕する方法に比べて、より柔軟にポストフィルタの特性を設 計することができる。
[0182] 次に、上述した修正 LPC算出部 708によって算出された修正 LPC係数を用いて構 成されたポストフィルタのスペクトル特性について図 23を用いて説明する。ここでは、 図 22に示したスペクトルを用いて修正 LPC係数を求め、かつ、ポストフィルタの設定 値を γ η = 0. 6、 y d = 0. 8、 μ =0. 4とした場合のスぺクトノレ特'性を f列に説明する。 なお、 LPC係数の次数は 18次とする。
[0183] 図 23に示す実線はパワースペクトル修正を行った場合のスペクトル特性を表し、点 線はパワースペクトル修正を行わな力つた場合 (設定値は上記同様)のスペクトル特 性を表す。図 23に示すように、パワースペクトル修正を行った場合のポストフィルタの 特性は、 0〜FLの帯域ではほぼ平坦になっており、 FL〜FHの帯域ではパワースぺ タトル修正を行わなカゝつた場合と同様のスペクトル特性となっている。
[0184] 一方、ナイキスト周波数近傍では、パワースペクトル修正を行った場合のスペクトル 特性は、パワースペクトル修正を行わなカゝつた場合のスペクトル特性に比べ、若干減 衰しているが、この帯域の信号成分は他の帯域の信号成分に比べて小さいため、こ の影響はほとんど無視することができる。 [0185] このように実施の形態 7によれば、レイヤ情報に応じた帯域のパワースペクトルを修 正し、修正したパワースペクトルに基づいて修正 LPC係数を算出し、算出した修正 L PC係数によってポストフィルタを構成することにより、各レイヤが担当する帯域毎に音 声品質が異なる場合でも、音声品質に応じたスペクトル特性によって復号信号にボス トフィルタ処理を施すことができるので、音声品質を改善することができる。
[0186] なお、本実施の形態では、レイヤ情報がレイヤ 1〜3のいずれの場合も、修正 LPC 係数を算出するものとして説明したが、符号ィ匕の対象となる全ての帯域がほぼ同一 の音声品質であるレイヤの場合 (本実施の形態では、全帯域が基本品質のレイヤ 1、 及び、全帯域が改善品質のレイヤ 3)には、必ずしも帯域毎に修正 LPC係数を算出 する必要はなぐこのような場合、ポストフィルタの強さを規定する設定値(γ η、 y d及 び )をレイヤ毎に予め用意し、用意された設定値を切り替えてポストフィルタを直接 構成するようにしてもよい。これにより、修正 LPC係数の算出に要する処理量、処理 時間を削減することができる。
[0187] なお、本実施の形態では、パワースペクトル修正部 713において、第 1レイヤ復号 信号中に背景雑音が存在する力否かに応じて全帯域共通の処理を行ったが、本発 明はこれに限らず、背景雑音検出部 706において第 1レイヤ復号信号中に含まれる 背景雑音の周波数特性を算出し、パワースペクトル修正部 713ではその結果を利用 してサブバンド毎にパワースペクトルの修正方法を切り替える場合等にも同様に適用 できる。
[0188] (実施の形態 8)
図 24は、本発明の実施の形態 8に係るスケーラブル復号ィ匕装置の主要な構成を示 すブロック図である。ここでは、図 18と異なる部分のみ説明する。この図において、第 2切替部 806は、分離部 801からレイヤ情報を取得し、取得したレイヤ情報に基づい て、いずれのレイヤの復号スペクトルが得られるかを判断し、最も高次のレイヤにおけ る復号 LPC係数をポストフィルタの抑圧情報算出部 808に出力する。ただし、復号処 理の過程で復号 LPC係数を生成しない場合も考えられ、このような場合、第 2切替部 806が取得した復号 LPC係数カゝらいずれかの復号 LPC係数が選択される。
[0189] 背景雑音検出部 807は、第 1レイヤ復号信号を入力とし、この信号内に背景雑音が 含まれるかどうかを判定する。背景雑音検出部 807は、第 1レイヤ復号信号に背景雑 音が含まれて!/ヽると判定した場合には、該背景雑音に対して MDCTなどの処理を行 つてその周波数特性を分析し、分析した周波数特性を背景雑音情報として抑圧情報 算出部 808に出力する。また、背景雑音検出部 807は、第 1レイヤ復号信号に背景 雑音が含まれていないと判定した場合には、第 1レイヤ復号信号には背景雑音が含 まれていないという情報を背景雑音情報として抑圧情報算出部 808に出力する。な お、背景雑音の検出方法は、ある区間の入力信号を分析しその入力信号の最大パ ヮー値と最小パワー値を算出し、それらの比、あるいは差が閾値以上であった場合に 最小パワー値を雑音とする等の方法の他、一般的な背景雑音検出方法を採ることと する。なお、本実施の形態では、背景雑音検出部 706は、第 1レイヤ復号信号に背 景雑音が含まれるかどうかを判定したが、本発明はこれに限らず、第 2レイヤ復号信 号、及び第 3レイヤ復号信号に背景雑音が含まれるかどうかを検出する場合や、入 力信号中に含まれる背景雑音の情報を符号化装置側から伝送し、伝送された背景 雑音の情報を利用する場合に対しても同様に適用できる。
[0190] 抑圧情報算出部 808は、分離部 801から出力されたレイヤ情報と、第 2切替部 806 力も出力された LPC係数と、背景雑音検出部 807から出力された背景雑音情報とを 用いて、抑圧情報を算出し、算出した抑圧情報を乗算器 809に出力する。抑圧情報 算出部 808の詳細については後述する。
[0191] 乗算器 809は、抑圧情報算出部 808から出力された抑圧情報を切替部 805から出 力された復号スペクトルに乗算し、抑圧情報を乗算した復号スぺ外ルを時間領域変 換部 810に出力する。
[0192] 時間領域変換部 810は、乗算器 809から出力される復号スペクトルに対し、逆 MD CT処理を施し、適切な窓関数を乗じた後に、前フレームの窓掛け後の信号と対応す る領域を加算して、出力信号を生成して出力する。
[0193] 図 25は、図 24に示した抑圧情報算出部 808の内部構成を示すブロック図である。
この図において、 LPCスペクトル算出部 821は、第 2切替部 806から出力された復号 LPC係数を離散フーリエ変換し、各複素スペクトルのエネルギーを算出し、算出した エネルギーを LPCスペクトルとして LPCスペクトル修正部 822に出力する。すなわち 、復号 LPC係数を a (i)と表したとき、次式(13)で表されるフィルタを構成する。
[数 13]
P (
1 … ( 1 3 ) 一 NP
1-2 «('·)·
[0194] LPCスペクトル算出部 821は、上式(13)で表されるフィルタのスペクトル特性を算 出し、 LPCスペクトル修正部 822に出力する。ここで、 NPは復号 LPC係数の次数を 表す。
[0195] また、雑音抑圧の強さの程度を調整する所定のパラメータ γ η及び γ dを用いて、 以下の式(14)で表されるフィルタを構成し、このフィルタのスペクトル特性を算出する ようにしてもょ ヽ(0< γ η< γ d< 1)。
[数 14] (z) = ^
Figure imgf000040_0001
[0196] また、式(13)又は式(14)で表されるフィルタには、低域部 (もしくは高域部)が高域 部 (もしくは低域部)に比べて過度に強調される特性 (一般に、この特性を「スペクトル 傾き」 t 、う)が生じる場合があるが、これを補正するためのフィルタ (アンチチルトフィ ルタ)を併用してもよい。
[0197] LPCスペクトル修正部 822は、実施の形態 7中のパワースペクトル修正部 713と同 様に、修正帯域決定部 823から出力された修正帯域情報に基づいて、 LPCスぺタト ル算出部 821から出力された LPCスペクトルを修正し、修正した LPCスペクトルを抑 圧係数算出部 824に出力する。
[0198] 抑圧係数算出部 824は、背景雑音情報を利用して、以下のような方法で抑圧係数 を算出する。 [0199] 抑圧係数算出部 824は、 LPCスペクトル修正部 822から出力された修正 LPCスぺ タトルを予め定められたバンド幅のサブバンドに分割し、分割したサブバンド毎の平 均値を求める。そして、求めた平均値が所定の閾値より小さいサブバンドを選択し、 選択したサブバンドにっ 、て、復号スペクトルを抑圧する係数 (ベクトル値)を算出す る。これにより、スペクトルの谷となる帯域を含むサブバンドを減衰させることができる 。ちなみに、抑圧係数の算出は選択されたサブバンドの平均値に基づいて行われる 。その具体的な算出法としては、例えば、サブバンドの平均値に所定の係数を乗じて 抑圧係数を算出する。また、平均値が所定の閾値以上のサブバンドについては、復 号スペクトルを変化させないような係数が算出される。
[0200] なお、抑圧係数は、 LPC係数である必要はなぐ復号スペクトルに直接乗じられる 係数であればよい。これにより、逆変換処理及び LPC分析処理を行う必要がなくなり 、これらの処理に要する演算量を削減することができる。
[0201] また、抑圧係数算出部 824は、次に示す方法に基づいて抑圧係数を算出してもよ い。すなわち、抑圧係数算出部 824では、 LPCスペクトル修正部 822から出力された 修正 LPCスペクトルを予め定められたバンド幅のサブバンドに分割し、分割したサブ バンド毎の平均値を求める。そして、各サブバンドの平均値の中で最大となるサブバ ンドを求め、当該サブバンドの平均値を用いて各サブバンドの平均値を正規ィ匕する。 当該正規ィ匕後のサブバンド平均値を抑圧係数として出力する。
[0202] この方法では、所定のサブバンドに分割した後に抑圧係数を出力する方法につい て説明しているが、より細力べ抑圧係数を決定するために、周波数毎に抑圧係数を算 出して出力してもよい。その場合、抑圧係数算出部 824では、 LPCスペクトル修正部 822から出力された修正 LPCスペクトルの中で最大となる周波数を求め、当該周波 数のスペクトルを用いて各周波数のスペクトルを正規ィ匕する。当該正規化後のスぺク トルを抑圧係数として出力する。
[0203] なお、ここで、上記のようにして算出される抑圧係数は、抑圧係数算出部 824に入 力された背景雑音情報が「第 1レイヤ復号信号中に背景雑音が含まれている」ことを 示していた場合には、その背景雑音のレベルに応じて、スペクトルの谷となる帯域を 含むサブバンドを減衰させる効果が少なくなるように最終的に決定されることとする。 このように第 1復号信号中に背景雑音が存在するかどうか (入力信号中に背景雑音 が存在するかどうか)に応じて、ポストフィルタ処理を切り替えることにより、背景雑音 が存在しない場合には復号信号の異音感を出来る限り目立たないようにし、背景雑 音が存在する場合には復号信号の帯域感を出来る限り増加させるような処理が可能 になり、より主観的に良い品質の復号信号を生成することが出来る。
[0204] このように実施の形態 8によれば、復号 LPC係数力 算出された LPCスペクトルは 、復号信号の微細情報が除かれたスペクトル包絡であり、このスペクトル包絡に基づ いて直接的に抑圧係数を求めることにより、少ない演算量でより正確なポストフィルタ を実現することができ、音声品質の向上を図ることが出来る。また、前記抑圧係数を、 入力信号中(第 1レイヤ復号信号中)に背景雑音が含まれるか否かに応じて切り替え ること〖こよって、背景雑音がある場合に対しても、ない場合に対してもそれぞれ主観 的に良い品質の復号信号を生成することが出来る。
[0205] 以上、本発明の各実施の形態について説明した。
[0206] なお、実施の形態 1〜3、 5〜8では、階層数が 2または 3の場合を例にとって説明し た力 本発明は、階層数が 2以上であればいずれの階層数のスケーラブル符号ィ匕に ち適用することがでさる。
[0207] また、実施の形態 1〜3、 5〜8では、スケーラブル符号ィ匕を例にとって説明している 力 ェンべディッド符号ィ匕等の他の階層符号化にも適用することができる。
[0208] また、本明細書では、音声信号を符号化対象とする場合を例にとって説明している 力 これに限定されず、本発明は、例えばオーディオ信号等にも適用することができ る。
[0209] また、本明細書では、周波数変換として MDCTを用いる場合を例にとって説明した 力 高速フーリエ変換 (FFT)、離散フーリエ変換 (DFT)、 DCT、サブバンドフィルタ 等を使用することもできる。
[0210] 本発明に係る変換符号化装置および変換符号化方法は、上記各実施の形態に限 定されず、種々変更して実施することが可能である。
[0211] 本発明に係る変換符号ィ匕装置は、移動体通信システムにおける通信端末装置お よび基地局装置に搭載することが可能であり、これにより上記と同様の作用効果を有 する通信端末装置、基地局装置、および移動体通信システムを提供することができ る。
[0212] なお、ここでは、本発明をノヽードウエアで構成する場合を例にとって説明したが、本 発明をソフトウェアで実現することも可能である。例えば、本発明に係る変換符号ィ匕 方法のアルゴリズムをプログラミング言語によって記述し、このプログラムをメモリに記 憶しておいて情報処理手段によって実行させることにより、本発明に係る変換符号ィ匕 装置と同様の機能を実現することができる。
[0213] また、上記各実施の形態の説明に用いた各機能ブロックは、典型的には集積回路 である LSIとして実現される。これらは個別に 1チップ化されても良いし、一部または 全てを含むように 1チップィ匕されても良い。
[0214] また、ここでは LSIとした力 集積度の違いによって、 IC、システム LSI、スーパー L
SI、ウノレ卜ラ LSI等と呼称されることちある。
[0215] また、集積回路化の手法は LSIに限るものではなぐ専用回路または汎用プロセッ サで実現しても良い。 LSI製造後に、プログラム化することが可能な FPGA (Field Pro grammable Gate Array)や、 LSI内部の回路セルの接続もしくは設定を再構成可能な リコンフィギユラブル ·プロセッサを利用しても良 、。
[0216] さらに、半導体技術の進歩または派生する別技術により、 LSIに置き換わる集積回 路化の技術が登場すれば、当然、その技術を用いて機能ブロックの集積ィ匕を行って も良い。バイオ技術の適応等が可能性としてあり得る。
[0217] 本明細書は、 2005年 10月 14日出願の特願 2005— 300778および 2006年 10月
3日出願の特願 2006— 272251に基づく。これらの内容は、すべてここに含めてお
<o
産業上の利用可能性
[0218] 本発明に係る変換符号化装置および変換符号化方法は、移動体通信システムに おける通信端末装置、基地局装置等の用途に適用することができる。

Claims

請求の範囲
[1] 入力スペクトルに対応する複数の入力スケールファクタを算出する入力スケールフ ァクタ算出手段と、
スケールファクタを複数格納し、一のスケールファクタを出力する符号帳と、 前記複数の入力スケールファクタのうちの一の入力スケールファクタと前記符号帳 力 出力されるスケールファクタとの歪みを算出する歪み算出手段と、
前記一の入力スケールファクタが前記符号帳から出力されるスケールファクタより大 き 、場合の前記歪みよりも、前記一の入力スケールファクタが前記符号帳から出力さ れるスケールファクタより小さい場合の前記歪みに対して、より重みを付けた重み付き 歪みを算出する重み付き歪み算出手段と、
前記符号帳にお!、て、前記重み付き歪みを最小とするスケールファクタを探索する 探索手段と、
を具備する変換符号ィ匕装置。
[2] 前記入力スケールファクタの符号ィ匕に割り当てるビット数を適応的に決定する決定 手段をさらに具備し、
前記重み付き歪み算出手段は、
割り当てられる前記ビット数が少な 、入力スケールファクタに対しては、より加重した 前記重みを使用して重み付き歪みを算出する、
請求項 1記載の変換符号化装置。
[3] 前記入力スペクトルに対して雑音が含まれるか否かを検出する背景雑音検出手段 をさらに具備し、
前記重み付き歪み算出手段は、
前記一の入力スケールファクタが前記符号帳から出力されるスケールファクタより大 き 、場合の前記歪みよりも、前記一の入力スケールファクタが前記符号帳から出力さ れるスケールファクタより小さい場合の前記歪みに対して、より重みを付けるとともに、 前記背景雑音検出部で検出された背景雑音のレベルが大きくなるにつれて、より重 みが少なくなるように重み付き歪みを算出する、
請求項 1記載の変換符号化装置。
[4] 第 1スペクトルに対応する複数の第 1スケールファクタを算出する第 1スケールファタ タ算出手段と、
第 2スペクトルに対応する複数の第 2スケールファクタを算出する第 2スケールファタ タ算出手段と、
補正係数を複数格納し、一の補正係数を出力する符号帳と、
前記複数の第 1スケールファクタのうちの一の第 1スケールファクタに前記符号帳か ら出力される補正係数を乗算して出力する乗算手段と、
前記複数の第 2スケールファクタのうちの一の第 2スケールファクタと前記乗算手段 力 出力される第 1スケールファクタとの歪みを算出する歪み算出手段と、
前記一の第 2スケールファクタが前記乗算手段力 出力される第 1スケールファクタ より大きい場合の前記歪みよりも、前記一の第 2スケールファクタが前記乗算手段か ら出力される第 1スケールファクタより小さい場合の前記歪みに対して、より重みを付 けた重み付き歪みを算出する重み付き歪み算出手段と、
前記符号帳にお!、て、前記重み付き歪みを最小とする補正係数を探索する探索手 段と、
を具備する変換符号ィ匕装置。
[5] 前記第 1スペクトルと前記第 2スペクトルとの類似度を算出する類似度算出手段をさ らに具備し、
前記重み付き歪み算出手段は、
前記類似度が小さ 、第 2スケールファクタに対しては、より加重した前記重みを使 用して重み付き歪みを算出する、
請求項 4記載の変換符号化装置。
[6] 前記第 1スペクトル、または第 2スペクトルの 、ずれか、あるいは両方に対して雑音 が含まれる力否かを検出する背景雑音検出手段をさらに具備し、
前記重み付き歪み算出手段は、
前記一の第 2スケールファクタが前記乗算手段力 出力される第 1スケールファクタ より大きい場合の前記歪みよりも、前記一の第 2スケールファクタが前記乗算手段か ら出力される第 1スケールファクタより小さい場合の前記歪みに対して、より重みを付 けるとともに、前記背景雑音検出部で検出された背景雑音のレベルが大きくなるにつ れて、より重みが少なくなるように重み付き歪みを算出する、
請求項 4記載の変換符号化装置。
[7] 請求項 1記載の変換符号化装置を具備する通信端末装置。
[8] 請求項 1記載の変換符号化装置を具備する基地局装置。
[9] 入力スペクトルに対応する複数の入力スケールファクタを算出するステップと、 スケールファクタを複数格納して 、る符号帳の中力 一のスケールファクタを選択 するステップと、
前記複数の入力スケールファクタのうちの一の入力スケールファクタと前記選択さ れたスケールファクタとの歪みを算出するステップと、
前記一の入力スケールファクタが前記選択されたスケールファクタより大きい場合の 前記歪みよりも、前記一の入力スケールファクタが前記選択されたスケールファクタよ り小さい場合の前記歪みに対して、より重みを付けた重み付き歪みを算出するステツ プと、
前記符号帳にお!、て、前記重み付き歪みを最小とするスケールファクタを探索する ステップと、
を具備する変換符号化方法。
[10] 入力スペクトルに対応する複数の入力スケールファクタを算出するステップと、 スケールファクタを複数格納して 、る符号帳の中力 一のスケールファクタを選択 するステップと、
前記入力スペクトルに対して雑音が含まれるか否かを検出する背景雑音検出ステ ップと、
前記複数の入力スケールファクタのうちの一の入力スケールファクタと前記選択さ れたスケールファクタとの歪みを算出するステップと、
前記一の入力スケールファクタが前記選択されたスケールファクタより大きい場合の 前記歪みよりも、前記一の入力スケールファクタが前記選択されたスケールファクタよ り小さい場合の前記歪みに対して、より重みを付けるとともに、前記背景雑音検出部 で検出された背景雑音のレベルが大きくなるにつれて、より重みが少なくなるように重 み付き歪みを算出する重み付き歪み算出ステップと、
前記符号帳にお!、て、前記重み付き歪みを最小とするスケールファクタを探索する ステップと、
を具備する変換符号化方法。
PCT/JP2006/320457 2005-10-14 2006-10-13 変換符号化装置および変換符号化方法 WO2007043648A1 (ja)

Priority Applications (6)

Application Number Priority Date Filing Date Title
US12/089,985 US8135588B2 (en) 2005-10-14 2006-10-13 Transform coder and transform coding method
EP06821860A EP1953737B1 (en) 2005-10-14 2006-10-13 Transform coder and transform coding method
BRPI0617447-7A BRPI0617447A2 (pt) 2005-10-14 2006-10-13 codificador de transformada e método de codificação de transformada
CN2006800375449A CN101283407B (zh) 2005-10-14 2006-10-13 变换编码装置和变换编码方法
JP2007540000A JP4954080B2 (ja) 2005-10-14 2006-10-13 変換符号化装置および変換符号化方法
US13/367,840 US8311818B2 (en) 2005-10-14 2012-02-07 Transform coder and transform coding method

Applications Claiming Priority (4)

Application Number Priority Date Filing Date Title
JP2005-300778 2005-10-14
JP2005300778 2005-10-14
JP2006272251 2006-10-03
JP2006-272251 2006-10-03

Related Child Applications (2)

Application Number Title Priority Date Filing Date
US12/089,985 A-371-Of-International US8135588B2 (en) 2005-10-14 2006-10-13 Transform coder and transform coding method
US13/367,840 Continuation US8311818B2 (en) 2005-10-14 2012-02-07 Transform coder and transform coding method

Publications (1)

Publication Number Publication Date
WO2007043648A1 true WO2007043648A1 (ja) 2007-04-19

Family

ID=37942869

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/JP2006/320457 WO2007043648A1 (ja) 2005-10-14 2006-10-13 変換符号化装置および変換符号化方法

Country Status (8)

Country Link
US (2) US8135588B2 (ja)
EP (1) EP1953737B1 (ja)
JP (1) JP4954080B2 (ja)
KR (1) KR20080047443A (ja)
CN (2) CN101283407B (ja)
BR (1) BRPI0617447A2 (ja)
RU (1) RU2008114382A (ja)
WO (1) WO2007043648A1 (ja)

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2011058752A1 (ja) * 2009-11-12 2011-05-19 パナソニック株式会社 符号化装置、復号装置およびこれらの方法
WO2012005212A1 (ja) * 2010-07-05 2012-01-12 日本電信電話株式会社 符号化方法、復号方法、符号化装置、復号装置、プログラム、及び記録媒体
WO2012032759A1 (ja) * 2010-09-10 2012-03-15 パナソニック株式会社 符号化装置及び符号化方法
WO2013051210A1 (ja) * 2011-10-07 2013-04-11 パナソニック株式会社 符号化装置及び符号化方法
JP2019152878A (ja) * 2011-11-03 2019-09-12 ヴォイスエイジ・コーポレーション 時間領域デコーダによって復号化された時間領域励振の一般のオーディオ合成物を修正するための方法および装置

Families Citing this family (27)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8660851B2 (en) 2009-05-26 2014-02-25 Panasonic Corporation Stereo signal decoding device and stereo signal decoding method
CN102804263A (zh) * 2009-06-23 2012-11-28 日本电信电话株式会社 编码方法、解码方法、利用了这些方法的装置、程序
JP5754899B2 (ja) 2009-10-07 2015-07-29 ソニー株式会社 復号装置および方法、並びにプログラム
WO2011045926A1 (ja) * 2009-10-14 2011-04-21 パナソニック株式会社 符号化装置、復号装置およびこれらの方法
EP2525354B1 (en) * 2010-01-13 2015-04-22 Panasonic Intellectual Property Corporation of America Encoding device and encoding method
JP5850216B2 (ja) 2010-04-13 2016-02-03 ソニー株式会社 信号処理装置および方法、符号化装置および方法、復号装置および方法、並びにプログラム
JP5609737B2 (ja) 2010-04-13 2014-10-22 ソニー株式会社 信号処理装置および方法、符号化装置および方法、復号装置および方法、並びにプログラム
US20130101028A1 (en) * 2010-07-05 2013-04-25 Nippon Telegraph And Telephone Corporation Encoding method, decoding method, device, program, and recording medium
JP6075743B2 (ja) 2010-08-03 2017-02-08 ソニー株式会社 信号処理装置および方法、並びにプログラム
JP5707842B2 (ja) 2010-10-15 2015-04-30 ソニー株式会社 符号化装置および方法、復号装置および方法、並びにプログラム
WO2012144128A1 (ja) 2011-04-20 2012-10-26 パナソニック株式会社 音声音響符号化装置、音声音響復号装置、およびこれらの方法
WO2013035257A1 (ja) * 2011-09-09 2013-03-14 パナソニック株式会社 符号化装置、復号装置、符号化方法および復号方法
EP2770506A4 (en) * 2011-10-19 2015-02-25 Panasonic Ip Corp America CODING DEVICE AND CODING METHOD
WO2013067465A1 (en) * 2011-11-04 2013-05-10 Ess Technology, Inc. Down-conversion of multiple rf channels
JP6179087B2 (ja) * 2012-10-24 2017-08-16 富士通株式会社 オーディオ符号化装置、オーディオ符号化方法、オーディオ符号化用コンピュータプログラム
JP6531649B2 (ja) 2013-09-19 2019-06-19 ソニー株式会社 符号化装置および方法、復号化装置および方法、並びにプログラム
CN105849801B (zh) 2013-12-27 2020-02-14 索尼公司 解码设备和方法以及程序
ES2709329T3 (es) * 2014-04-25 2019-04-16 Ntt Docomo Inc Dispositivo de conversión de coeficiente de predicción lineal y procedimiento de conversión de coeficiente de predicción lineal
FR3049084B1 (fr) * 2016-03-15 2022-11-11 Fraunhofer Ges Forschung Dispositif de codage pour le traitement d'un signal d'entree et dispositif de decodage pour le traitement d'un signal code
US10263765B2 (en) * 2016-11-09 2019-04-16 Khalifa University of Science and Technology Systems and methods for low-power single-wire communication
CN108418612B (zh) * 2017-04-26 2019-03-26 华为技术有限公司 一种指示及确定预编码向量的方法和设备
US11133891B2 (en) 2018-06-29 2021-09-28 Khalifa University of Science and Technology Systems and methods for self-synchronized communications
US10951596B2 (en) * 2018-07-27 2021-03-16 Khalifa University of Science and Technology Method for secure device-to-device communication using multilayered cyphers
US11380345B2 (en) * 2020-10-15 2022-07-05 Agora Lab, Inc. Real-time voice timbre style transform
US11457224B2 (en) * 2020-12-29 2022-09-27 Qualcomm Incorporated Interlaced coefficients in hybrid digital-analog modulation for transmission of video data
US11431962B2 (en) 2020-12-29 2022-08-30 Qualcomm Incorporated Analog modulated video transmission with variable symbol rate
US11553184B2 (en) 2020-12-29 2023-01-10 Qualcomm Incorporated Hybrid digital-analog modulation for transmission of video data

Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH0651795A (ja) * 1992-03-02 1994-02-25 American Teleph & Telegr Co <Att> 信号量子化装置及びその方法
JPH09190198A (ja) * 1995-09-29 1997-07-22 Rockwell Internatl Corp 狭い帯域幅チャネルで音声を送信する方法、狭い帯域幅チャネルからデジタル化された音声を受信する方法、および狭い帯域幅チャネルで音声を送信する装置
JPH09230898A (ja) * 1996-02-22 1997-09-05 Nippon Telegr & Teleph Corp <Ntt> 音響信号変換符号化方法及び復号化方法
JP2001255892A (ja) * 2000-03-13 2001-09-21 Nippon Telegr & Teleph Corp <Ntt> ステレオ信号符号化方法
JP2002091498A (ja) * 2000-09-19 2002-03-27 Victor Co Of Japan Ltd オーディオ信号符号化装置
JP2002335161A (ja) * 2001-05-07 2002-11-22 Sony Corp 信号処理装置及び方法、信号符号化装置及び方法、並びに信号復号装置及び方法
JP2003273747A (ja) * 2001-11-28 2003-09-26 Victor Co Of Japan Ltd 可変長符号化データ受信方法及び可変長符号化データ受信装置
JP2005300778A (ja) 2004-04-08 2005-10-27 Ricoh Co Ltd 光走査装置、画像形成装置
JP2006272251A (ja) 2005-03-30 2006-10-12 Monobe Engineering:Kk ストレーナーシステム

Family Cites Families (39)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5684920A (en) * 1994-03-17 1997-11-04 Nippon Telegraph And Telephone Acoustic signal transform coding method and decoding method having a high efficiency envelope flattening method therein
JPH07261797A (ja) * 1994-03-18 1995-10-13 Mitsubishi Electric Corp 信号符号化装置及び信号復号化装置
US5651090A (en) * 1994-05-06 1997-07-22 Nippon Telegraph And Telephone Corporation Coding method and coder for coding input signals of plural channels using vector quantization, and decoding method and decoder therefor
US5649051A (en) * 1995-06-01 1997-07-15 Rothweiler; Joseph Harvey Constant data rate speech encoder for limited bandwidth path
US5710863A (en) * 1995-09-19 1998-01-20 Chen; Juin-Hwey Speech signal quantization using human auditory models in predictive coding systems
US5956674A (en) * 1995-12-01 1999-09-21 Digital Theater Systems, Inc. Multi-channel predictive subband audio coder using psychoacoustic adaptive bit allocation in frequency, time and over the multiple channels
US6119083A (en) * 1996-02-29 2000-09-12 British Telecommunications Public Limited Company Training process for the classification of a perceptual signal
JP3246715B2 (ja) * 1996-07-01 2002-01-15 松下電器産業株式会社 オーディオ信号圧縮方法,およびオーディオ信号圧縮装置
US6202046B1 (en) * 1997-01-23 2001-03-13 Kabushiki Kaisha Toshiba Background noise/speech classification method
US6345246B1 (en) * 1997-02-05 2002-02-05 Nippon Telegraph And Telephone Corporation Apparatus and method for efficiently coding plural channels of an acoustic signal at low bit rates
US6167375A (en) * 1997-03-17 2000-12-26 Kabushiki Kaisha Toshiba Method for encoding and decoding a speech signal including background noise
CA2230188A1 (en) * 1998-03-27 1999-09-27 William C. Treurniet Objective audio quality measurement
WO1999050828A1 (en) * 1998-03-30 1999-10-07 Voxware, Inc. Low-complexity, low-delay, scalable and embedded speech and audio coding with adaptive frame loss concealment
SE9903553D0 (sv) * 1999-01-27 1999-10-01 Lars Liljeryd Enhancing percepptual performance of SBR and related coding methods by adaptive noise addition (ANA) and noise substitution limiting (NSL)
US6691082B1 (en) * 1999-08-03 2004-02-10 Lucent Technologies Inc Method and system for sub-band hybrid coding
US7171355B1 (en) * 2000-10-25 2007-01-30 Broadcom Corporation Method and apparatus for one-stage and two-stage noise feedback coding of speech and audio signals
US6842761B2 (en) * 2000-11-21 2005-01-11 America Online, Inc. Full-text relevancy ranking
JP3404016B2 (ja) * 2000-12-26 2003-05-06 三菱電機株式会社 音声符号化装置及び音声符号化方法
US7200561B2 (en) * 2001-08-23 2007-04-03 Nippon Telegraph And Telephone Corporation Digital signal coding and decoding methods and apparatuses and programs therefor
US6934677B2 (en) * 2001-12-14 2005-08-23 Microsoft Corporation Quantization matrices based on critical band pattern information for digital audio wherein quantization bands differ from critical bands
US7146313B2 (en) * 2001-12-14 2006-12-05 Microsoft Corporation Techniques for measurement of perceptual audio quality
CN1275222C (zh) * 2001-12-25 2006-09-13 株式会社Ntt都科摩 信号编码装置和信号编码方法
US6947886B2 (en) * 2002-02-21 2005-09-20 The Regents Of The University Of California Scalable compression of audio and other signals
US20040002856A1 (en) * 2002-03-08 2004-01-01 Udaya Bhaskar Multi-rate frequency domain interpolative speech CODEC system
WO2003091989A1 (en) * 2002-04-26 2003-11-06 Matsushita Electric Industrial Co., Ltd. Coding device, decoding device, coding method, and decoding method
CA2464408C (en) * 2002-08-01 2012-02-21 Matsushita Electric Industrial Co., Ltd. Audio decoding apparatus and method for band expansion with aliasing suppression
US7054807B2 (en) * 2002-11-08 2006-05-30 Motorola, Inc. Optimizing encoder for efficiently determining analysis-by-synthesis codebook-related parameters
CN1420487A (zh) * 2002-12-19 2003-05-28 北京工业大学 1kb/s线谱频率参数的一步插值预测矢量量化方法
US7349842B2 (en) * 2003-09-29 2008-03-25 Sony Corporation Rate-distortion control scheme in audio encoding
US7613607B2 (en) * 2003-12-18 2009-11-03 Nokia Corporation Audio enhancement in coded domain
TWI231656B (en) * 2004-04-08 2005-04-21 Univ Nat Chiao Tung Fast bit allocation algorithm for audio coding
US7490044B2 (en) * 2004-06-08 2009-02-10 Bose Corporation Audio signal processing
AU2006232364B2 (en) * 2005-04-01 2010-11-25 Qualcomm Incorporated Systems, methods, and apparatus for wideband speech coding
US7539612B2 (en) * 2005-07-15 2009-05-26 Microsoft Corporation Coding and decoding scale factor information
TWI271703B (en) * 2005-07-22 2007-01-21 Pixart Imaging Inc Audio encoder and method thereof
US7953604B2 (en) * 2006-01-20 2011-05-31 Microsoft Corporation Shape and scale parameters for extended-band frequency coding
US9454974B2 (en) * 2006-07-31 2016-09-27 Qualcomm Incorporated Systems, methods, and apparatus for gain factor limiting
US8374857B2 (en) * 2006-08-08 2013-02-12 Stmicroelectronics Asia Pacific Pte, Ltd. Estimating rate controlling parameters in perceptual audio encoders
US7873514B2 (en) * 2006-08-11 2011-01-18 Ntt Docomo, Inc. Method for quantizing speech and audio through an efficient perceptually relevant search of multiple quantization patterns

Patent Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH0651795A (ja) * 1992-03-02 1994-02-25 American Teleph & Telegr Co <Att> 信号量子化装置及びその方法
JPH09190198A (ja) * 1995-09-29 1997-07-22 Rockwell Internatl Corp 狭い帯域幅チャネルで音声を送信する方法、狭い帯域幅チャネルからデジタル化された音声を受信する方法、および狭い帯域幅チャネルで音声を送信する装置
JPH09230898A (ja) * 1996-02-22 1997-09-05 Nippon Telegr & Teleph Corp <Ntt> 音響信号変換符号化方法及び復号化方法
JP2001255892A (ja) * 2000-03-13 2001-09-21 Nippon Telegr & Teleph Corp <Ntt> ステレオ信号符号化方法
JP2002091498A (ja) * 2000-09-19 2002-03-27 Victor Co Of Japan Ltd オーディオ信号符号化装置
JP2002335161A (ja) * 2001-05-07 2002-11-22 Sony Corp 信号処理装置及び方法、信号符号化装置及び方法、並びに信号復号装置及び方法
JP2003273747A (ja) * 2001-11-28 2003-09-26 Victor Co Of Japan Ltd 可変長符号化データ受信方法及び可変長符号化データ受信装置
JP2005300778A (ja) 2004-04-08 2005-10-27 Ricoh Co Ltd 光走査装置、画像形成装置
JP2006272251A (ja) 2005-03-30 2006-10-12 Monobe Engineering:Kk ストレーナーシステム

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
"Everything about MPEG-4", 30 September 1998, KOGYO CHOSAKAI PUBLISHING, INC., pages: 126 - 127
NAOKI IWAKAMI ET AL.: "Audio Coding Using Transform-Domain Weighted Interleave Vector Quantization (TwinVQ", THE TRANSACTIONS OF THE INSTITUTE OF ELECTRONICS, INFORMATION AND COMMUNICATION ENGINEERS, vol. J80-A, no. 5, May 1997 (1997-05-01), pages 830 - 837
See also references of EP1953737A4

Cited By (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2011058752A1 (ja) * 2009-11-12 2011-05-19 パナソニック株式会社 符号化装置、復号装置およびこれらの方法
US8838443B2 (en) 2009-11-12 2014-09-16 Panasonic Intellectual Property Corporation Of America Encoder apparatus, decoder apparatus and methods of these
WO2012005212A1 (ja) * 2010-07-05 2012-01-12 日本電信電話株式会社 符号化方法、復号方法、符号化装置、復号装置、プログラム、及び記録媒体
JP5337305B2 (ja) * 2010-07-05 2013-11-06 日本電信電話株式会社 符号化方法、復号方法、符号化装置、復号装置、プログラム、及び記録媒体
US8711012B2 (en) 2010-07-05 2014-04-29 Nippon Telegraph And Telephone Corporation Encoding method, decoding method, encoding device, decoding device, program, and recording medium
US9361892B2 (en) 2010-09-10 2016-06-07 Panasonic Intellectual Property Corporation Of America Encoder apparatus and method that perform preliminary signal selection for transform coding before main signal selection for transform coding
WO2012032759A1 (ja) * 2010-09-10 2012-03-15 パナソニック株式会社 符号化装置及び符号化方法
CN103069483A (zh) * 2010-09-10 2013-04-24 松下电器产业株式会社 编码装置以及编码方法
JP5679470B2 (ja) * 2010-09-10 2015-03-04 パナソニック インテレクチュアル プロパティ コーポレーション オブアメリカPanasonic Intellectual Property Corporation of America 符号化装置及び符号化方法
WO2013051210A1 (ja) * 2011-10-07 2013-04-11 パナソニック株式会社 符号化装置及び符号化方法
JPWO2013051210A1 (ja) * 2011-10-07 2015-03-30 パナソニック インテレクチュアル プロパティ コーポレーション オブアメリカPanasonic Intellectual Property Corporation of America 符号化装置及び符号化方法
US9558752B2 (en) 2011-10-07 2017-01-31 Panasonic Intellectual Property Corporation Of America Encoding device and encoding method
JP2019152878A (ja) * 2011-11-03 2019-09-12 ヴォイスエイジ・コーポレーション 時間領域デコーダによって復号化された時間領域励振の一般のオーディオ合成物を修正するための方法および装置

Also Published As

Publication number Publication date
CN102623014A (zh) 2012-08-01
EP1953737A1 (en) 2008-08-06
EP1953737A4 (en) 2011-11-09
US20090281811A1 (en) 2009-11-12
CN101283407A (zh) 2008-10-08
US8311818B2 (en) 2012-11-13
US8135588B2 (en) 2012-03-13
EP1953737B1 (en) 2012-10-03
JP4954080B2 (ja) 2012-06-13
US20120136653A1 (en) 2012-05-31
JPWO2007043648A1 (ja) 2009-04-16
KR20080047443A (ko) 2008-05-28
CN101283407B (zh) 2012-05-23
RU2008114382A (ru) 2009-10-20
BRPI0617447A2 (pt) 2012-04-17

Similar Documents

Publication Publication Date Title
WO2007043648A1 (ja) 変換符号化装置および変換符号化方法
KR102240271B1 (ko) 대역폭 확장신호 생성장치 및 방법
KR101213840B1 (ko) 복호화 장치 및 복호화 방법, 및 복호화 장치를 구비하는 통신 단말 장치 및 기지국 장치
JP4954069B2 (ja) ポストフィルタ、復号化装置及びポストフィルタ処理方法
JP5328368B2 (ja) 符号化装置、復号装置、およびこれらの方法
JP4861196B2 (ja) Acelp/tcxに基づくオーディオ圧縮中の低周波数強調の方法およびデバイス
RU2471252C2 (ru) Устройство кодирования и способ кодирования
JP5247826B2 (ja) 復号化音調音響信号を増強するためのシステムおよび方法
JP6980871B2 (ja) 信号符号化方法及びその装置、並びに信号復号方法及びその装置
US20070147518A1 (en) Methods and devices for low-frequency emphasis during audio compression based on ACELP/TCX
WO2007037361A1 (ja) 音声符号化装置および音声符号化方法
WO2008072737A1 (ja) 符号化装置、復号装置およびこれらの方法
WO2010127617A1 (en) Methods for receiving digital audio signal using processor and correcting lost data in digital audio signal
WO2006041055A1 (ja) スケーラブル符号化装置、スケーラブル復号装置及びスケーラブル符号化方法
JPWO2008084688A1 (ja) 符号化装置、復号装置及びこれらの方法
EP2571170B1 (en) Encoding method, decoding method, encoding device, decoding device, program, and recording medium
US20100280830A1 (en) Decoder
RU2464650C2 (ru) Устройство и способ кодирования, устройство и способ декодирования
KR20160098597A (ko) 통신 시스템에서 신호 코덱 장치 및 방법

Legal Events

Date Code Title Description
WWE Wipo information: entry into national phase

Ref document number: 200680037544.9

Country of ref document: CN

121 Ep: the epo has been informed by wipo that ep was designated in this application
ENP Entry into the national phase

Ref document number: 2007540000

Country of ref document: JP

Kind code of ref document: A

WWE Wipo information: entry into national phase

Ref document number: 12089985

Country of ref document: US

Ref document number: 2008114382

Country of ref document: RU

Ref document number: 1020087008677

Country of ref document: KR

WWE Wipo information: entry into national phase

Ref document number: 717/MUMNP/2008

Country of ref document: IN

WWE Wipo information: entry into national phase

Ref document number: 2006821860

Country of ref document: EP

NENP Non-entry into the national phase

Ref country code: DE

ENP Entry into the national phase

Ref document number: PI0617447

Country of ref document: BR

Kind code of ref document: A2

Effective date: 20080414