WO2010016271A1 - スペクトル平滑化装置、符号化装置、復号装置、通信端末装置、基地局装置及びスペクトル平滑化方法 - Google Patents

スペクトル平滑化装置、符号化装置、復号装置、通信端末装置、基地局装置及びスペクトル平滑化方法 Download PDF

Info

Publication number
WO2010016271A1
WO2010016271A1 PCT/JP2009/003799 JP2009003799W WO2010016271A1 WO 2010016271 A1 WO2010016271 A1 WO 2010016271A1 JP 2009003799 W JP2009003799 W JP 2009003799W WO 2010016271 A1 WO2010016271 A1 WO 2010016271A1
Authority
WO
WIPO (PCT)
Prior art keywords
spectrum
subband
unit
representative value
smoothing
Prior art date
Application number
PCT/JP2009/003799
Other languages
English (en)
French (fr)
Inventor
智史 山梨
押切 正浩
利幸 森井
江原 宏幸
Original Assignee
パナソニック株式会社
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by パナソニック株式会社 filed Critical パナソニック株式会社
Priority to EP09804758.2A priority Critical patent/EP2320416B1/en
Priority to US13/057,454 priority patent/US8731909B2/en
Priority to CN2009801283823A priority patent/CN102099855B/zh
Priority to BRPI0917953-4A priority patent/BRPI0917953B1/pt
Priority to MX2011001253A priority patent/MX2011001253A/es
Priority to RU2011104350/08A priority patent/RU2510536C9/ru
Priority to ES09804758.2T priority patent/ES2452300T3/es
Priority to JP2010523772A priority patent/JP5419876B2/ja
Priority to DK09804758.2T priority patent/DK2320416T3/da
Publication of WO2010016271A1 publication Critical patent/WO2010016271A1/ja

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/002Dynamic bit allocation
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/02Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
    • G10L19/0204Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders using subband decomposition
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/16Vocoder architecture
    • G10L19/18Vocoders using multiple modes
    • G10L19/24Variable rate codecs, e.g. for generating different qualities using a scalable representation such as hierarchical encoding or layered encoding
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/02Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
    • G10L19/0212Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders using orthogonal transformation
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/02Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
    • G10L19/032Quantisation or dequantisation of spectral components

Definitions

  • the present invention relates to a spectrum smoothing device, a coding device, a decoding device, a communication terminal device, a base station device, and a spectrum smoothing method for smoothing the spectrum of an audio signal.
  • the audio signal is orthogonally transformed (time-frequency conversion), the frequency component (spectrum) of the audio signal is calculated, and the calculated spectrum is subjected to processing such as linear conversion and nonlinear conversion.
  • processing such as linear conversion and nonlinear conversion.
  • Various techniques for improving the quality of a decoded signal have been developed (see, for example, Patent Document 1).
  • a frequency spectrum included in a speech signal is analyzed from a speech signal having a fixed time length, and a nonlinear conversion process that emphasizes the higher the spectrum intensity value of the analyzed spectrum is. I do.
  • linear smoothing processing is performed in the frequency domain on the spectrum subjected to nonlinear transformation processing.
  • Patent Document 1 has a problem that the amount of processing computation becomes enormous because nonlinear conversion processing is performed on all samples of a spectrum obtained from a speech signal.
  • simply extracting a part of the sample from the spectrum sample and performing the nonlinear conversion process on the extracted sample may result in smoothing the spectrum after nonlinear conversion.
  • An object of the present invention is a spectrum that can significantly reduce the amount of processing operations while maintaining good speech quality in a configuration in which smoothing is performed after nonlinear conversion is performed on a spectrum calculated from an audio signal.
  • a smoothing device, an encoding device, a decoding device, a communication terminal device, a base station device, and a spectrum smoothing method are provided.
  • the spectrum smoothing apparatus of the present invention includes a time-frequency converting means for generating a frequency component by time-frequency converting an input signal, a subband dividing means for dividing the frequency component into a plurality of subbands, For each divided subband, a representative value calculation means for calculating a representative value of the subband using a calculation of an arithmetic average and a multiplication operation using the calculation result, and a representative value for each subband A non-linear conversion means for performing non-linear conversion and a smoothing means for smoothing the representative value subjected to the non-linear conversion in the frequency domain are adopted.
  • the spectrum smoothing method of the present invention includes a time-frequency conversion step for generating a frequency component by time-frequency conversion of an input signal, a subband division step for dividing the frequency component into a plurality of subbands, For each divided subband, a representative value calculating step of calculating a representative value of the subband using an arithmetic average calculation and a multiplication operation using the calculation result, and a representative value for each subband
  • a non-linear conversion step for performing non-linear conversion and a smoothing step for smoothing the representative value subjected to the non-linear conversion in a frequency domain are provided.
  • FIG. 3 is a block diagram showing a main configuration of the spectrum smoothing apparatus according to Embodiment 1.
  • FIG. 3 is a block diagram showing a main configuration of a representative value calculation unit according to the first embodiment. Schematic diagram showing the configuration of subbands and subgroups of an input signal in the first embodiment
  • FIG. 3 is a block diagram showing a configuration of a communication system having an encoding device and a decoding device according to Embodiment 2 of the present invention.
  • FIG. 5 is a block diagram showing a main configuration inside the encoding apparatus shown in FIG. 5 according to the second embodiment. The block diagram which shows the main structures inside the 2nd layer encoding part shown in FIG.
  • FIG. 7 is a flowchart showing a processing procedure for searching for the optimum pitch coefficient T p ′ for the subband SB p in the search unit shown in FIG. 7 according to the second embodiment.
  • FIG. 5 is a block diagram showing a main configuration inside the decoding apparatus shown in FIG. 5 according to the second embodiment.
  • FIG. 1 is a spectrum diagram for explaining the outline of the spectrum smoothing method according to the present embodiment.
  • Fig. 1A shows the spectrum of the input signal.
  • the spectrum of the input signal is divided into a plurality of subbands.
  • FIG. 1B shows the state of the spectrum of the input signal divided into a plurality of subbands.
  • the spectrum diagram of FIG. 1 is for explaining the outline of the present invention.
  • the present invention is not limited to the number of subbands in the figure.
  • a representative value is calculated for each subband. Specifically, the samples in the subband are further divided into a plurality of subgroups. Then, the arithmetic average (arithmetic mean) of the absolute value of the spectrum is calculated for each subgroup.
  • the geometric mean (geometric mean) of the arithmetic mean values of each subgroup is calculated for each subband. Note that the geometric mean value is not yet an accurate geometric mean value at this time, but a value obtained by simply multiplying the arithmetic mean values of each subgroup is calculated. Sought after. The above processing is for further reduction of the calculation amount, and of course, an accurate geometric average value may be obtained at this point.
  • FIG. 1C shows the representative value of each subband superimposed on the spectrum of the input signal indicated by the dotted line.
  • FIG. 1C shows an accurate geometric average value as a representative value instead of a value obtained by simply multiplying the arithmetic average value of each subgroup.
  • a non-linear transformation for example, logarithmic transformation
  • smoothing processing is performed in the frequency domain.
  • inverse nonlinear transformation for example, logarithmic inverse transformation
  • a smoothed spectrum is calculated for each subband.
  • FIG. 1D shows a smoothed spectrum for each subband superimposed on the spectrum of the input signal indicated by the dotted line.
  • the spectrum smoothing apparatus smoothes an input spectrum and outputs a smoothed spectrum (hereinafter referred to as “smoothed spectrum”) as an output signal. More specifically, the spectrum smoothing apparatus divides the input signal into N samples (N is a natural number), and performs smoothing processing for each frame with N samples as one frame.
  • xn represents the (n + 1) th sample among the input signals divided by N samples.
  • FIG. 2 shows a main configuration of spectrum smoothing apparatus 100 according to the present embodiment.
  • the spectrum smoothing apparatus 100 shown in FIG. 2 mainly includes a time-frequency conversion processing unit 101, a subband division unit 102, a representative value calculation unit 103, a nonlinear conversion unit 104, a smoothing unit 105, and an inverse nonlinear conversion unit 106. Composed.
  • the time-frequency conversion processing unit 101 performs Fast Fourier Transform (FFT) on the input signal xn , and calculates a spectrum S1 (k) (hereinafter, input spectrum) of the frequency component.
  • FFT Fast Fourier Transform
  • the time-frequency conversion processing unit 101 outputs the input spectrum S1 (k) to the subband dividing unit 102.
  • the subband division unit 102 divides the input spectrum S1 (k) input from the time-frequency conversion processing unit 101 into P subbands (P is an integer of 2 or more).
  • P is an integer of 2 or more.
  • Subband splitting section 102 outputs a spectrum divided into subbands (hereinafter also referred to as “subband spectrum”) to representative value calculation section 103.
  • the representative value calculation unit 103 calculates a representative value for each subband of the input spectrum divided into subbands input from the subband division unit 102, and the calculated representative value for each subband is a nonlinear conversion unit. To 104. Detailed processing of the representative value calculation unit 103 will be described later.
  • FIG. 3 shows an internal configuration of the representative value calculation unit 103.
  • the representative value calculation unit 103 illustrated in FIG. 3 includes an arithmetic average calculation unit 201 and a geometric average calculation unit 202.
  • the subband spectrum is input from the subband dividing unit 102 to the arithmetic mean calculating unit 201.
  • the arithmetic mean calculation unit 201 further divides each subband of the input subband spectrum into Q subgroups (0th subgroup to Q-1 subgroup) (Q is an integer of 2 or more). .
  • Q is an integer of 2 or more.
  • each of the Q subgroups is composed of R samples (R is an integer of 2 or more).
  • R is an integer of 2 or more.
  • each of the Q subgroups is composed of R samples, but the number of samples in each subgroup may of course be different.
  • FIG. 4 shows a configuration example of subbands and subgroups.
  • FIG. 4 shows an example in which the number of samples constituting one subband is 8, the number of subgroups Q constituting the subband is 2, and the number of samples R in the subgroup is 4.
  • the arithmetic mean calculation unit 201 uses, for each of the Q subgroups, an arithmetic average (arithmetic mean) of the absolute values of the spectra (FFT coefficients) included in each subgroup using Equation (1). ) Is calculated.
  • AVE1 q is a spectrum included in the q-th sub-group arithmetic mean of the absolute value of the (FFT coefficients) (arithmetic mean)
  • BS q is the leading sample of the q subgroup Indicates the index.
  • P is the number of subbands.
  • the larger the value is, the more nonlinear the characteristic is enhanced, and the first subband logarithmic representative value spectrum AVE3 p (p 0 to P ⁇ 1) is calculated.
  • logarithmic transformation is performed as the nonlinear transformation processing will be described.
  • the subband arithmetic average value spectrum AVE1 p of each subband is simply multiplied, but the processing of the equation (4) in the nonlinear conversion unit 104 is performed.
  • the geometric mean (geometric mean) is calculated.
  • the reciprocal number of the subgroup number Q is multiplied using Formula (4).
  • Equation (5) shows the smoothing filtering processing
  • MA_LEN indicates the degree of smoothing filtering
  • W i represents the weight of a smoothing filter.
  • Equation (5) is a logarithmic smoothing spectrum calculation when the subband index p is p ⁇ (MA_LEN-1) / 2 and p ⁇ P-1- (MA_LEN-1) / 2. Is the method. When the subband index p is near the head or near the tail, the spectrum is smoothed using Equation (6) and Equation (7) in consideration of boundary conditions.
  • the smoothing unit 105 may perform smoothing by a simple moving average as the smoothing processing by the smoothing filtering process as described above (when Wi is 1 for all i, the moving average). Smoothing).
  • a simple moving average as the smoothing processing by the smoothing filtering process as described above (when Wi is 1 for all i, the moving average). Smoothing).
  • the window function weight
  • a Hanning window or other window functions may be used.
  • the inverse non-linear transformation unit 106 outputs the smoothed spectrum values of all samples as the processing result of the spectrum smoothing apparatus 100.
  • the subband division unit 102 divides the input spectrum into a plurality of subbands, and the representative value calculation unit 103 performs arithmetic averaging, multiplication operation, or geometric for each subband.
  • the average value is used to calculate the representative value, and the non-linear conversion unit 104 performs non-linear conversion of characteristics that emphasize the larger the value for each representative value, and the smoothing unit 105 performs non-linear conversion for each subband.
  • the representative value is smoothed in the frequency domain.
  • the arithmetic average of the sample values in the subband is obtained by adopting a configuration in which the arithmetic value of the samples in the subband is combined with the multiplication operation or the geometric average to calculate the representative value of the subband.
  • the value (arithmetic mean value) that is, the average value in the linear region is simply set as the representative value of each subband, the voice quality may be deteriorated due to the variation in the size of the sample value in the subband. Can be avoided.
  • the fast Fourier transform is described as an example of the time-frequency conversion processing.
  • the present invention is not limited to this, and time-frequency conversion other than the fast Fourier transform (FFT) is described.
  • frequency components spectrums
  • FFT fast Fourier transform
  • FIG. 2 auditory masking value
  • the nonlinear conversion unit 104 converts the logarithmic domain using the equation (3) as a nonlinear conversion process, and then multiplies the reciprocal of the subgroup number Q using the equation (4). This is because the calculation amount can be further reduced because the calculation of the power root can be replaced with simple division (multiplication).
  • the present invention is not necessarily limited to the above-described configuration.
  • the smoothing unit 105 can obtain a representative value for each subband subjected to nonlinear transformation.
  • the calculation of Equation (4) may be omitted in the nonlinear conversion unit 104.
  • the representative value for each subband is first obtained as the arithmetic average value of the subgroups, and then the geometric average value of the arithmetic average values of all the subgroups in the subband.
  • the present invention is not limited to this, and when the number of samples constituting the subgroup is 1, that is, the arithmetic average value of each subgroup is not calculated, and the geometric average value of all the samples in the subband is calculated. The same can be applied to the case of using a representative value of.
  • the geometric mean value may not be accurately calculated, and the geometric mean value may be calculated in the logarithmic region by multiplying the reciprocal of the number of subgroups after performing non-linear transformation.
  • the spectrum values of the samples in the same subband are all set to the same value.
  • the present invention is not limited to this, and an inverse smoothing processing unit is provided after the inverse nonlinear transformation unit 106, and the inverse smoothing processing unit weights each sample within each subband and performs inverse smoothing. Processing may be performed. Further, this inverse smoothing process may not be a completely opposite conversion to the smoothing unit 105.
  • the nonlinear conversion unit 104 performs logarithmic conversion as the nonlinear conversion process and the inverse nonlinear conversion unit 106 performs logarithmic inverse conversion as the inverse nonlinear conversion process.
  • the present invention is not limited to this, and a power or the like may be used, and the inverse processing of the nonlinear transformation processing may be performed in the inverse nonlinear transformation processing.
  • the calculation of the power root can be replaced with a simple division (multiplication), so that the amount of calculation can be further reduced. This is because the nonlinear transformation unit 104 performs logarithmic transformation as nonlinear transformation.
  • the number of subbands and subgroups for example, when the sampling frequency of the input signal is 32 kHz and the length of one frame is 20 msec, that is, when there are 640 samples of the input signal, the number of subbands is set to 80. As an example, the number of subgroups is set to 2, the number of samples of each subgroup is set to 4, and the order of smoothing filtering is set to 7. However, the present invention is not limited to the setting, and can be similarly applied when these are set to other numerical values.
  • the spectrum smoothing apparatus and spectrum smoothing method according to the present invention include a speech coding apparatus and speech coding method, a speech decoding apparatus and speech decoding method, a speech recognition apparatus and speech recognition method, and the like. It can be applied to all of the spectral smoothing parts to be performed.
  • a spectrum envelope is calculated from LPC (Linear Predictive Coefficient) as a preprocessing for a lowband spectrum performed to calculate a parameter for generating a highband spectrum.
  • LPC Linear Predictive Coefficient
  • the spectrum smoothing method according to the present invention is replaced with the spectrum smoothing method according to the present invention instead of the spectrum envelope used in the spectrum envelope removal process of Patent Document 2. It is also possible to use a smoothed spectrum calculated by applying to the spectrum.
  • the configuration in which the input spectrum S1 (k) to be input is divided into P subbands (P is an integer of 2 or more) having the same number of samples in each subband has been described.
  • the present invention is not limited to this, and the present invention can be similarly applied to configurations in which the number of samples in each subband is different.
  • a configuration in which the subband is divided so that the number of samples is smaller as the subband on the low frequency side and the number of samples is larger as the subband on the high frequency side is given.
  • the human auditory sensation has a lower frequency resolution at the higher frequency side, and thus the spectrum can be smoothed more efficiently by adopting the above configuration.
  • each of the Q subgroups is composed of R samples, but the present invention is not limited to this, and the number of samples is smaller in the lower frequency subgroup,
  • the present invention can be similarly applied to a configuration in which a subgroup is divided so that the number of samples in the higher frequency subgroup increases.
  • the weighted moving average is described as an example of the smoothing process.
  • the present invention is not limited to this, and can be similarly applied to various smoothing processes.
  • the number of taps of the moving average filter is not symmetrical and the number of taps in the high range is small. It doesn't matter.
  • smoothing processing more suitable for audibility can be performed by using a moving average filter having a small number of taps on the high frequency side.
  • the present invention can be similarly applied to the case of using a left-right asymmetric moving average filter that has a larger number of taps in a higher frequency range.
  • FIG. 5 is a block diagram showing a configuration of a communication system having an encoding device and a decoding device according to Embodiment 2 of the present invention.
  • the communication system includes an encoding device and a decoding device, and can communicate with each other via a transmission path. Note that both the encoding device and the decoding device are usually mounted and used in a base station device or a communication terminal device.
  • the encoding device 301 divides the input signal into N samples (N is a natural number), and encodes each frame with N samples as one frame.
  • n indicates the (n + 1) th signal element in the input signal divided by N samples.
  • the encoded input information (encoded information) is transmitted to the decoding device 303 via the transmission path 302.
  • the decoding device 303 receives the encoded information transmitted from the encoding device 301 via the transmission path 302 and decodes it to obtain an output signal.
  • FIG. 6 is a block diagram showing the main components inside coding apparatus 301 shown in FIG.
  • the downsampling processing unit 311 downsamples the sampling frequency of the input signal from SR input to SR base (SR base ⁇ SR input ), and after downsampling the downsampled input signal
  • the input signal is output to first layer encoding section 312.
  • the first layer coding unit 312 performs coding on the downsampled input signal input from the downsampling processing unit 311 using, for example, a CELP (Code (Excited Linear Prediction) method speech coding method.
  • CELP Code (Excited Linear Prediction) method speech coding method.
  • One-layer encoded information is generated, and the generated first layer encoded information is output to first layer decoding section 313 and encoded information integration section 317.
  • the first layer decoding unit 313 decodes the first layer encoded information input from the first layer encoding unit 312 using, for example, a CELP speech decoding method to generate a first layer decoded signal Then, the generated first layer decoded signal is output to the upsampling processing unit 314.
  • the upsampling processing unit 314 upsamples the sampling frequency of the first layer decoded signal input from the first layer decoding unit 313 from SR base to SR input, and first upsamples the upsampled first layer decoded signal. It outputs to the time-frequency conversion process part 315 as a layer decoding signal.
  • the delay unit 318 gives a delay of a predetermined length to the input signal. This delay is for correcting a time delay generated in the downsampling processing unit 311, the first layer encoding unit 312, the first layer decoding unit 313, and the upsampling processing unit 314.
  • the one-layer decoded signal yn is subjected to modified discrete cosine transform (MDCT).
  • MDCT modified discrete cosine transform
  • the time-frequency conversion processing unit 315 initializes the buffers buf1 n and buf2 n using “0” as an initial value according to the following equations (9) and (10).
  • the time - frequency conversion processing unit 315 MDCT according to the input signal x n, the following formula with respect to the first layer decoded signal y n after upsampling (11) and Equation (12), MDCT coefficients of the input signal (hereinafter , referred to as an input spectrum) S2 (k) and an up-sampled MDCT coefficients of the first layer decoded signal y n (hereinafter, referred to as a first layer decoded spectrum) Request S1 (k).
  • k represents the index of each sample in one frame.
  • the time-frequency conversion processing unit 315 obtains x n ′, which is a vector obtained by combining the input signal x n and the buffer buf1 n by the following equation (13). Further, the time-frequency conversion processing unit 315 obtains y n ′, which is a vector obtained by combining the up-sampled first layer decoded signal y n and the buffer buf2 n by the following equation (14).
  • the time-frequency conversion processing unit 315 updates the buffers buf1 n and buf2 n according to equations (15) and (16).
  • the time-frequency conversion processing unit 315 outputs the input spectrum S2 (k) and the first layer decoded spectrum S1 (k) to the second layer encoding unit 316.
  • Second layer encoding section 316 generates second layer encoded information using input spectrum S2 (k) and first layer decoded spectrum S1 (k) input from time-frequency conversion processing section 315, and generates The encoded second layer encoded information is output to encoded information integration section 317. Details of second layer encoding section 316 will be described later.
  • the encoded information integration unit 317 integrates and integrates the first layer encoded information input from the first layer encoding unit 312 and the second layer encoded information input from the second layer encoding unit 316. If necessary, a transmission error code or the like is added to the information source code, which is output to the transmission line 302 as encoded information.
  • Second layer encoding section 316 includes band dividing section 360, spectrum smoothing section 361, filter state setting section 362, filtering section 363, search section 364, pitch coefficient setting section 365, gain encoding section 366, and multiplexing section 367. Each part performs the following operations.
  • a portion corresponding to the subband SB p in the input spectrum S2 (k) is referred to as a subband spectrum S2 p (k) (BS p ⁇ k ⁇ BS p + BW p ).
  • the spectrum smoothing unit 361 performs the smoothing process on the first layer decoded spectrum S1 (k) (0 ⁇ k ⁇ FL) input from the time-frequency conversion processing unit 315, and performs the smoothing after the smoothing process
  • First layer decoded spectrum S 1 ′ (k) (0 ⁇ k ⁇ FL) is output to filter state setting section 362.
  • FIG. 8 shows the internal configuration of the spectrum smoothing unit 361.
  • the spectrum smoothing unit 361 mainly includes a subband division unit 102, a representative value calculation unit 103, a nonlinear transformation unit 104, a smoothing unit 105, and an inverse nonlinear transformation unit 106.
  • each processing unit is the same as the processing unit described in the first embodiment, the same reference numerals are given and description thereof is omitted.
  • the filter state setting unit 362 sets the smoothed first layer decoded spectrum S1 ′ (k) (0 ⁇ k ⁇ FL) input from the spectrum smoothing unit 361 as the internal state of the filter used in the subsequent filtering unit 363. To do.
  • the smoothed first layer decoded spectrum S1 '(k) is stored as an internal state (filter state) of the filter in the band of 0 ⁇ k ⁇ FL of the spectrum S (k) of all frequency bands in the filtering unit 363.
  • the filtering unit 363 outputs the estimated spectrum S2 p ′ (k) of the subband SB p to the search unit 364. Details of the filtering process in the filtering unit 363 will be described later. It is assumed that the number of taps of a multi-tap can take an arbitrary value (integer) of 1 or more.
  • the search unit 364 receives the estimated spectrum S2 p ′ (k) of the subband SB p input from the filtering unit 363 and the time-frequency conversion processing unit 315 based on the band division information input from the band dividing unit 360.
  • the similarity with each subband spectrum S2 p (k) in the high frequency part (FL ⁇ k ⁇ FH) of the input spectrum S2 (k) is calculated.
  • the similarity is calculated by, for example, correlation calculation.
  • the processes of the filtering unit 363, the search unit 364, and the pitch coefficient setting unit 365 constitute a closed loop search process for each subband, and in each closed loop, the search unit 364 is changed from the pitch coefficient setting unit 365 to the filtering unit 363.
  • the degree of similarity corresponding to each pitch coefficient is calculated by variously changing the input pitch coefficient T.
  • the search unit 364 obtains an optimum pitch coefficient T p ′ (however, in the range of Tmin to Tmax) that maximizes the similarity in the closed loop corresponding to the subband SB p , and P optimal
  • the pitch coefficient is output to multiplexing section 367.
  • Search unit 364 uses each optimum pitch coefficient T p ′ to calculate a partial band of the first layer decoded spectrum that is similar to each subband SB p .
  • the pitch coefficient setting unit 365 When the pitch coefficient setting unit 365 performs a closed loop search process corresponding to the first subband SB 0 together with the filtering unit 363 and the search unit 364 under the control of the search unit 364, the pitch coefficient T is determined in advance. The output is sequentially output to the filtering unit 363 while changing little by little within the obtained search range Tmin to Tmax.
  • the gain encoding unit 366 calculates gain information for the high frequency part (FL ⁇ k ⁇ FH) of the input spectrum S2 (k) input from the time-frequency conversion processing unit 315. Specifically, gain encoding section 366 divides frequency band FL ⁇ k ⁇ FH into J subbands, and obtains the spectrum power for each subband of input spectrum S2 (k). In this case, the spectrum power B j of the (j + 1) -th subband is expressed by the following equation (17).
  • BL j represents the minimum frequency of the (j + 1) th subband
  • BH j represents the maximum frequency of the (j + 1) th subband.
  • the estimated spectrum S2 ′ (k) of the high frequency region is constructed.
  • gain encoding section 366 similarly to the case of calculating the spectral power for the input spectrum S2 (k), j to the following formula 'spectrum power B of each subband (k)' estimated spectrum S2 ( Calculate according to 18).
  • the gain encoding unit 366 performs the spectrum power fluctuation amount V j for each subband of the estimated spectrum S2 ′ (k) with respect to the input spectrum S2 (k). Is calculated according to equation (19).
  • the gain encoding unit 366 encodes the variation amount V j and outputs an index corresponding to the encoded variation amount VQ j to the multiplexing unit 367.
  • the filtering unit 363 uses the filter state input from the filter state setting unit 362, the pitch coefficient T input from the pitch coefficient setting unit 365, and the band division information input from the band division unit 360, and uses the subband.
  • the transfer function F (z) of the filter used in the filtering unit 363 is expressed by the following equation (20).
  • T represents a pitch coefficient given from the pitch coefficient setting unit 365
  • ⁇ i represents a filter coefficient stored in advance.
  • values such as ( ⁇ ⁇ 1 , ⁇ 0 , ⁇ 1 ) (0.2, 0.6, 0.2), (0.3, 0.4, 0.3) are also appropriate.
  • M 1.
  • M is an index related to the number of taps.
  • the smoothed first layer decoded spectrum S1 '(k) is stored as an internal state (filter state) of the filter in the band of 0 ⁇ k ⁇ FL of the spectrum S (k) of all frequency bands.
  • the estimated spectrum S2 p ′ (k) of the subband SB p is stored by the filtering process of the following procedure. That is, a spectrum S (k ⁇ T) having a frequency lower than this k by T is basically substituted into S2 p ′ (k). However, in order to increase the smoothness of the spectrum, actually, a spectrum ⁇ i .multidot. ⁇ Obtained by multiplying a spectrum S (k ⁇ T + i) in the vicinity away from the spectrum S (k ⁇ T) by a predetermined filter coefficient ⁇ i. A spectrum obtained by adding S (k ⁇ T + i) for all i is substituted into S2 p ′ (k). This process is expressed by the following equation (21).
  • the above filtering process is performed by clearing S (k) to zero each time in the range of BS p ⁇ k ⁇ BS p + BW p every time the pitch coefficient T is given from the pitch coefficient setting unit 365. That is, every time the pitch coefficient T changes, S (k) is calculated and output to the search unit 364.
  • search section 364 initializes minimum similarity D min , which is a variable for storing the minimum value of similarity, to “+ ⁇ ” (ST110).
  • search unit 364 according to the following equation (22), similarity between the high frequency part (FL ⁇ k ⁇ FH) of the input spectrum S2 (k) at a certain pitch coefficient and the estimated spectrum S2 p ′ (k) D is calculated (ST120).
  • M ′ represents the number of samples when the similarity D is calculated, and may be an arbitrary value equal to or smaller than the bandwidth of each subband. It should be noted that S2 p ′ (k) does not exist in the equation (22) because this represents S2 p ′ (k) using BS p and S2 ′ (k).
  • search section 364 determines whether calculated similarity D is smaller than minimum similarity D min (ST130). When the similarity D calculated in ST120 is smaller than the minimum similarity Dmin (ST130: “YES”), search section 364 substitutes similarity D into minimum similarity Dmin (ST140). On the other hand, when the similarity D calculated in ST120 is greater than or equal to the minimum similarity D min (ST130: “NO”), search section 364 determines whether or not the process over the search range has ended. That is, search section 364 determines whether or not the similarity is calculated according to the above equation (22) in ST120 for each of all pitch coefficients in the search range (ST150).
  • search section 364 If the process has not been completed over the search range (ST150: “NO”), search section 364 returns the process to ST120 again. Then, search section 364 calculates similarity according to equation (22) for a pitch coefficient different from the case where similarity was calculated according to equation (22) in the previous ST120 procedure. On the other hand, when the process over the search range is completed (ST150: “YES”), the search unit 364 sets the pitch coefficient T corresponding to the minimum similarity D min to the multiplexing unit 367 as the optimum pitch coefficient T p ′. Output (ST160).
  • FIG. 11 is a block diagram illustrating a main configuration inside the decoding device 303.
  • the encoded information separation unit 331 separates the first layer encoded information and the second layer encoded information from the input encoded information, and the first layer encoded information is first layer decoded. And outputs the second layer encoded information to second layer decoding section 335.
  • the first layer decoding unit 332 performs decoding on the first layer encoded information input from the encoded information separation unit 331, and outputs the generated first layer decoded signal to the upsampling processing unit 333.
  • the operation of first layer decoding section 332 is the same as that of first layer decoding section 313 shown in FIG.
  • the upsampling processing unit 333 performs a process of upsampling the sampling frequency from the SR base to the SR input on the first layer decoded signal input from the first layer decoding unit 332, and obtains the first layer decoding after the upsampling obtained.
  • the signal is output to the time-frequency conversion processing unit 334.
  • the time-frequency conversion processing unit 334 performs orthogonal transform processing (MDCT) on the first layer decoded signal after upsampling input from the upsampling processing unit 333, and the MDCT of the first layer decoded signal after upsampling obtained.
  • the coefficient (hereinafter referred to as first layer decoded spectrum) S1 (k) is output to second layer decoding section 335.
  • the operation of the time-frequency conversion processing unit 334 is the same as the processing for the first layer decoded signal after upsampling of the time-frequency conversion processing unit 315 shown in FIG.
  • Second layer decoding section 335 uses first layer decoded spectrum S1 (k) input from time-frequency conversion processing section 334 and second layer encoded information input from encoded information separating section 331 to A second layer decoded signal including a band component is generated and output as an output signal.
  • FIG. 12 is a block diagram showing the main configuration inside second layer decoding section 335 shown in FIG.
  • the spectrum smoothing unit 352 performs a smoothing process on the first layer decoded spectrum S1 (k) (0 ⁇ k ⁇ FL) input from the time-frequency conversion processing unit 334, and performs smoothing after the smoothing.
  • One-layer decoded spectrum S1 ′ (k) (0 ⁇ k ⁇ FL) is output to filter state setting section 353. Since the process of the spectrum smoothing unit 352 is the same as that of the spectrum smoothing unit 361 in the second layer encoding unit 316, the description thereof is omitted here.
  • the filter state setting unit 353 sets the smoothed first layer decoded spectrum S1 ′ (k) (0 ⁇ k ⁇ FL) input from the spectrum smoothing unit 352 as the filter state used by the filtering unit 354.
  • S (k) when the spectrum of all frequency bands 0 ⁇ k ⁇ FH in the filtering unit 354 is referred to as S (k) for convenience, the smoothed first layer decoded spectrum is included in the band of 0 ⁇ k ⁇ FL of S (k).
  • S1 ′ (k) is stored as the internal state (filter state) of the filter.
  • the configuration and operation of the filter state setting unit 353 are the same as those of the filter state setting unit 362 shown in FIG.
  • the filtering unit 354 includes a multi-tap pitch filter (the number of taps is greater than 1).
  • the filter function shown in the above equation (20) is used. However, in this case, the filtering process and the filter function are obtained by replacing T in Equation (20) and Equation (21) with T p ′.
  • the gain decoding unit 355 decodes the index of the encoded variation amount VQ j input from the separation unit 351, and obtains a variation amount VQ j that is a quantized value of the variation amount V j .
  • the spectrum adjustment unit 356 adjusts the spectrum shape in the frequency band FL ⁇ k ⁇ FH of the estimated spectrum S2 ′ (k), generates the decoded spectrum S3 (k), and outputs it to the time-frequency conversion processing unit 357. To do.
  • spectrum adjustment section 356 converts first layer decoded spectrum S1 (k) (0 ⁇ k ⁇ FL) input from time-frequency conversion processing section 334 into decoded spectrum S3 ( Substitute in the low-frequency part (0 ⁇ k ⁇ FL) of k).
  • the low frequency part (0 ⁇ k ⁇ FL) of the decoded spectrum S3 (k) is composed of the first layer decoded spectrum S1 (k), and the high frequency part (FL ⁇ k ⁇ FH) of the decoded spectrum S3 (k).
  • the time-frequency conversion processing unit 357 orthogonally transforms the decoded spectrum S3 (k) input from the spectrum adjustment unit 356 into a time domain signal, and outputs the obtained second layer decoded signal as an output signal.
  • processing such as appropriate windowing and overlay addition is performed as necessary to avoid discontinuities between frames.
  • the time-frequency conversion processing unit 357 has a buffer buf ′ (k) therein, and initializes the buffer buf ′ (k) as shown in the following equation (25).
  • time-frequency conversion processing unit 357 obtains the second layer decoded signal y n ′′ according to the following equation (26) using the second layer decoded spectrum S3 (k) input from the spectrum adjusting unit 356. Output.
  • Z4 (k) is a vector obtained by combining the decoded spectrum S3 (k) and the buffer buf ′ (k) as shown in Expression (27) below.
  • the time-frequency conversion processing unit 357 updates the buffer buf ′ (k) according to the following equation (28).
  • the time-frequency conversion processing unit 357 outputs the decoded signal y n ′′ as an output signal.
  • a pre-processing is performed on the low-frequency spectrum.
  • a smoothing process combining the arithmetic mean and the geometric mean is performed.
  • the present invention at the time of band extension encoding, smoothing processing is performed on the low-frequency decoded spectrum obtained by decoding, the high-frequency spectrum is estimated using the smoothed low-frequency decoded spectrum,
  • the configuration for encoding has been described, the present invention is not limited to this, and the configuration is such that the low-frequency spectrum of the input signal is smoothed, the high-frequency spectrum is estimated from the smoothed input spectrum, and the encoding is performed. The same applies to.
  • the spectrum smoothing apparatus and the spectrum smoothing method according to the present invention are not limited to the above-described embodiment, and can be implemented with various modifications.
  • each embodiment can be implemented in combination as appropriate.
  • the present invention can also be applied to a case where a signal processing program is recorded and written on a machine-readable recording medium such as a memory, a disk, a tape, a CD, or a DVD, and the operation is performed. Actions and effects similar to those of the form can be obtained.
  • each functional block used in the description of the above embodiment is typically realized as an LSI which is an integrated circuit. These may be individually made into one chip, or may be made into one chip so as to include a part or all of them.
  • the name used here is LSI, but it may also be called IC, system LSI, super LSI, or ultra LSI depending on the degree of integration.
  • the method of circuit integration is not limited to LSI, and implementation with a dedicated circuit or a general-purpose processor is also possible.
  • An FPGA Field Programmable Gate Array
  • a reconfigurable / processor that can reconfigure the connection and setting of circuit cells inside the LSI may be used.
  • the spectrum smoothing device, the coding device, the decoding device, the communication terminal device, the base station device, and the spectrum smoothing method according to the present invention can realize smoothing in the spectrum domain with a small amount of calculation, for example, a packet It can be applied to a communication system, a mobile communication system, and the like.

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Quality & Reliability (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)

Abstract

 音声信号から算出されるスペクトルに対して、非線形変換した後に、平滑化を行う構成において、良好な音声品質を維持しつつ、処理演算量を大幅に削減させるスペクトル平滑化装置を開示する。このスペクトル平滑化装置において、サブバンド分割部(102)は、入力スペクトルを複数のサブバンドに分割し、代表値算出部(103)は、サブバンド毎に、算術平均及び幾何平均を用いて代表値を算出し、非線形変換部(104)は、各代表値に対して値が大きいほどより強調する特性の非線形変換を行い、平滑化部(105)は、当該サブバンド毎の非線形変換された代表値を周波数領域で平滑化する。

Description

スペクトル平滑化装置、符号化装置、復号装置、通信端末装置、基地局装置及びスペクトル平滑化方法
 本発明は、音声信号のスペクトルを平滑化するスペクトル平滑化装置、符号化装置、復号装置、通信端末装置、基地局装置及びスペクトル平滑化方法に関する。
 インターネット通信に代表されるパケット通信システムや、移動通信システムなどで音声・楽音信号を伝送する場合、音声・楽音信号の伝送効率を高めるため、圧縮・符号化技術がよく使われる。また、近年では、単に低ビットレートで音声・楽音信号を符号化するという一方で、より高品質の音声・楽音信号を符号化する技術に対するニーズが高まっている。
 このようなニーズに対して、音声信号を直交変換(時間-周波数変換)し、音声信号の周波数成分(スペクトル)を算出し、算出したスペクトルに対して、線形変換及び非線形変換等の処理を行い復号信号の品質を高めるための様々な技術が開発されてきている(例えば、特許文献1参照)。特許文献1に開示される方法では、まず一定時間長の音声信号から当該音声信号に含まれる周波数スペクトルを分析し、分析したスペクトルに対し、スペクトル強度の値が大きいほど、より強調する非線形変換処理を行う。次に、非線形変換処理されたスペクトルに対し、周波数領域で線形の平滑化処理を行う。その後、非線形変換特性を打ち消すための逆非線形変換処理を行い、さらに平滑化特性を打ち消すための逆平滑化処理を行うことによって、音声信号に含まれる全帯域の雑音成分を抑制する。このように、特許文献1に開示される方法では、音声信号から得られるスペクトルの全サンプルに対し非線形変換処理を行った後、スペクトルの平滑化を行うことにより、良好な品質の音声信号を得る。なお、特許文献1には、非線形処理の例として、べき乗、対数変換等の変換方法が挙げられている。
特開2002-244695号公報 国際公開第2007/037361号パンフレット
Yuichiro TAKAMIZAWA, Toshiyuki NOMURA and Masao IKEKAWA, "High-Quality and Processor-Efficient Implementation of and MPEG-2 AAC Encoder", IEICE TRANS. INF. &SYST., VOL.E86-D, No.3 MARCH 2003
 しかしながら、特許文献1に開示される方法では、音声信号から得られるスペクトルの全サンプルに対し非線形変換処理を行うため、処理演算量が膨大となるという問題点が存在する。また、処理演算量を削減するために、単純に、スペクトルのサンプルから一部のサンプルを抽出し、抽出したサンプルに対し非線形変換処理を行うだけでは、非線形変換後にスペクトルの平滑化を行っても、十分に高い音声品質を得ることができるとは限らない。
 本発明の目的は、音声信号から算出されるスペクトルに対して、非線形変換した後に、平滑化を行う構成において、良好な音声品質を維持しつつ、処理演算量を大幅に削減させることができるスペクトル平滑化装置、符号化装置、復号装置、通信端末装置、基地局装置及びスペクトル平滑化方法を提供することである。
 本発明のスペクトル平滑化装置は、入力される信号を時間-周波数変換して周波数成分を生成する時間-周波数変換手段と、前記周波数成分を複数のサブバンドに分割するサブバンド分割手段と、前記分割された各サブバンドに対して、算術平均の計算及びその計算結果を用いた乗算演算を用いてサブバンドの代表値を算出する代表値算出手段と、前記サブバンド毎の代表値に対して非線形変換を行う非線形変換手段と、前記非線形変換された代表値を周波数領域で平滑化する平滑化手段と、を具備する構成を採る。
 本発明のスペクトル平滑化方法は、入力される信号を時間-周波数変換して周波数成分を生成する時間-周波数変換ステップと、前記周波数成分を複数のサブバンドに分割するサブバンド分割ステップと、前記分割された各サブバンドに対して、算術平均の計算及びその計算結果を用いた乗算演算を用いてサブバンドの代表値を算出する代表値算出ステップと、前記サブバンド毎の代表値に対して非線形変換を行う非線形変換ステップと、前記非線形変換された代表値を周波数領域で平滑化する平滑化ステップと、を有するようにした。
 本発明によれば、良好な音声品質を維持しつつ、処理演算量を大幅に削減させることが可能となる。
本発明の実施の形態1に係る処理の概要を示すスペクトル概略図 実施の形態1に係るスペクトル平滑化装置の要部構成を示すブロック図 実施の形態1に係る代表値算出部の要部構成を示すブロック図 実施の形態1における入力信号のサブバンド及びサブグループの構成を示す概略図 本発明の実施の形態2に係る符号化装置および復号装置を有する通信システムの構成を示すブロック図 実施の形態2に係る図5に示した符号化装置の内部の主要な構成を示すブロック図 実施の形態2に係る図6に示した第2レイヤ符号化部の内部の主要な構成を示すブロック図 実施の形態2に係る図7に示したスペクトル平滑部の主要な構成を示すブロック図 実施の形態2に係る図7に示したフィルタリング部におけるフィルタリング処理の詳細について説明するための図 実施の形態2に係る図7に示した探索部においてサブバンドSBに対して最適ピッチ係数T’を探索する処理の手順を示すフロー図 実施の形態2に係る図5に示した復号装置の内部の主要な構成を示すブロック図 実施の形態2に係る図11に示した第2レイヤ復号部の内部の主要な構成を示すブロック図
 以下、本発明の実施の形態について、図面を参照して詳細に説明する。
 (実施の形態1)
 先ず、本発明の実施の形態に係るスペクトル平滑化方法の概要について、図1を用いて説明する。図1は、本実施の形態に係るスペクトル平滑化方法の概要を説明するためのスペクトル図である。
 図1Aに、入力信号のスペクトルを示す。本実施の形態では、まず、入力信号のスペクトルを複数のサブバンドに分割する。図1Bに、複数のサブバンドに分割された入力信号のスペクトルの様子を示す。なお、図1のスペクトル図は、本発明の概要を説明するためのものであり、例えば、本発明は、図中のサブバンド数に制限されるものではない。
 次に、各サブバンド毎に代表値を算出する。具体的には、サブバンド内のサンプルを更に複数のサブグループに分割する。そして、サブグループ毎にスペクトルの絶対値の算術平均(相加平均)を算出する。
 次に、各サブグループの算術平均値の幾何平均(相乗平均)をサブバンド毎に算出する。なお、上記の幾何平均値は、この時点ではまだ正確な幾何平均値ではなく、各サブグループの算術平均値を単純に掛け合わせた値を算出し、正確な幾何平均値は、後述する非線形変換の後に求めることとする。上記の処理は更なる演算量削減のためであり、もちろんこの時点で正確な幾何平均値を求めても構わない。
 上記の幾何平均値を各サブバンドの代表値とする。図1Cに、点線で示す入力信号のスペクトルに重ねて、各サブバンドの代表値を示す。なお、説明をわかりやすくするため、図1Cには、各サブグループの算術平均値を単純に掛け合わせた値に代えて、正確な幾何平均値を代表値として示す。
 次に、各サブバンドの代表値に対して、入力信号のスペクトルに対しスペクトル強度の値が大きいほど、より強調する非線形変換(例えば、対数変換)を行った後、周波数領域で平滑化処理を行う。その後、逆非線形変換(例えば、対数逆変換)を行い、各サブバンド毎に平滑化スペクトルを算出する。図1Dに、点線で示す入力信号のスペクトルに重ねて、各サブバンド毎の平滑化スペクトルを示す。
 このような処理により、対数領域におけるスペクトルの平滑化を、音声品質の劣化を抑えつつ、かつ、処理演算量を大幅に削減することができる。以下、当該効果を得る本発明の実施の形態に係るスペクトル平滑化装置の構成について説明する。
 本実施の形態に係るスペクトル平滑化装置は、入力スペクトルを平滑化し、平滑化後のスペクトル(以下「平滑化スペクトル」という)を出力信号として出力する。より具体的には、スペクトル平滑化装置は、入力信号をNサンプルずつに区切り(Nは自然数)、Nサンプルを1フレームとしてフレーム毎に平滑化処理を行う。ここで、平滑化処理の対象となる入力信号をx(n=0、…、N-1)と表す。xは、Nサンプルずつ区切られた入力信号のうち、n+1番目のサンプルを示す。
 図2に、本実施の形態に係るスペクトル平滑化装置100の要部構成を示す。
 図2に示すスペクトル平滑化装置100は、時間-周波数変換処理部101、サブバンド分割部102、代表値算出部103、非線形変換部104、平滑化部105、及び逆非線形変換部106から主に構成される。
 時間-周波数変換処理部101は、入力信号xに対して高速フーリエ変換(FFT:Fast Fourier Transform)を行い、周波数成分のスペクトルS1(k)(以下、入力スペクトル)を算出する。
 そして、時間-周波数変換処理部101は、入力スペクトルS1(k)をサブバンド分割部102に出力する。
 サブバンド分割部102は、時間-周波数変換処理部101から入力される入力スペクトルS1(k)をP個(Pは2以上の整数)のサブバンドに分割する。以下では、サブバンド分割部102が、各サブバンドのサンプル数が等しくなるように、入力スペクトルS1(k)を分割する場合を例に説明する。なお、各サブバンドのサンプル数は、サブバンド毎に異なっていてもよい。サブバンド分割部102は、サブバンドに分割されたスペクトル(以下「サブバンドスペクトル」ともいう)を代表値算出部103に出力する。
 代表値算出部103は、サブバンド分割部102から入力される、サブバンドに分割された入力スペクトルの各サブバンドに対して代表値を算出し、算出したサブバンド毎の代表値を非線形変換部104へ出力する。代表値算出部103の詳しい処理については後述する。
 図3に、代表値算出部103の内部構成を示す。図3に示す代表値算出部103は、相加平均算出部201、及び相乗平均算出部202を備える。
 まず、サブバンド分割部102からサブバンドスペクトルが相加平均算出部201に入力される。
 相加平均算出部201は、入力されたサブバンドスペクトルの各サブバンドを、さらにQ個(Qは2以上の整数)のサブグループ(第0サブグループ~第Q-1サブグループ)に分割する。なお、以下では、Q個の各サブグループが、それぞれR個(Rは2以上の整数)のサンプルから構成される場合を例に説明する。なお、ここではQ個の各サブグループが全てR個のサンプルから構成される場合について説明するが、各サブグループ内のサンプルはもちろん異なる数であっても構わない。
 図4に、サブバンド及びサブグループの構成例を示す。図4は、一例として、1サブバンドを構成するサンプル数が8であり、サブバンドを構成するサブグループ数Qが2であり、サブグループ内のサンプル数Rが4である場合を示す。
 次に、相加平均算出部201は、Q個のサブグループそれぞれに対して、式(1)を用いて、各サブグループに含まれるスペクトル(FFT係数)の絶対値の算術平均(相加平均)を算出する。
Figure JPOXMLDOC01-appb-M000001
なお、式(1)において、AVE1は、第qサブグループに含まれるスペクトル(FFT係数)の絶対値の算術平均(相加平均)であり、BSは、第qサブグループの先頭サンプルのインデックスを示す。
 次に、相加平均算出部201は、算出したサブバンド毎の算術平均(相加平均)値スペクトルAVE1(q=0~Q-1)(サブバンド算術平均値スペクトル)を相乗平均算出部202に出力する。
 相乗平均算出部202は、相加平均算出部201から入力されるサブバンド毎の算術平均値(相加平均)スペクトルAVE1(q=0~Q-1)を、式(2)に示すように全て掛け合わせ、サブバンド毎に代表値スペクトル(サブバンド代表値スペクトル)AVE2(p=0~P-1)を算出する。
Figure JPOXMLDOC01-appb-M000002
式(2)において、Pは、サブバンド数である。
 次に、相乗平均算出部202は、算出したサブバンド代表値スペクトルAVE2(p=0~P-1)を非線形変換部104に出力する。
 非線形変換部104は、相乗平均算出部202から入力されるサブバンド代表値スペクトルAVE2(p=0~P-1)に対して、式(3)を用いて、各代表値に対して値が大きいほどより強調する特性の非線形変換を行い、第1サブバンド対数代表値スペクトルAVE3(p=0~P-1)を算出する。ここでは、非線形変換処理として対数変換を行う場合について説明する。
Figure JPOXMLDOC01-appb-M000003
 次に、非線形変換部104は、式(4)を用いて、算出した第1サブバンド対数代表値スペクトルAVE3(p=0~P-1)に対して、サブグループ数Qの逆数を乗じることにより第2サブバンド対数代表値スペクトルAVE4(p=0~P-1)を算出する。
Figure JPOXMLDOC01-appb-M000004
 相乗平均算出部202における式(2)の処理では、単純に各サブバンドのサブバンド算術平均値スペクトルAVE1が掛け合わせられただけであったが、非線形変換部104における式(4)の処理により幾何平均(相乗平均)が算出されることになる。このように、本実施の形態では、式(3)を用いて対数領域に変換した後に、式(4)を用いてサブグループ数Qの逆数を乗じる。これにより、演算量が大きい累乗根の計算を、単純な除算に置き換えることができる。さらに、サブグループ数Qが定数である場合には、Qの逆数を予め算出しておくことにより、累乗根の計算を単純な乗算に置き換えることができるので、演算量をより削減することが可能となる。
 次に、非線形変換部104は、式(4)を用いて算出した第2サブバンド対数代表値スペクトルAVE4(p=0~P-1)を平滑化部105に出力する。
 再度、図2に戻り、平滑化部105は、非線形変換部104から入力される第2サブバンド対数代表値スペクトルAVE4(p=0~P-1)に対して、式(5)を用いて、周波数領域で平滑化し、対数平滑化スペクトルAVE5(p=0~P-1)を算出する。
Figure JPOXMLDOC01-appb-M000005
 なお、式(5)は、平滑化フィルタリング処理を示し、式(5)において、MA_LENは平滑化フィルタリングの次数を示し、Wは平滑化フィルタの重みを示す。
 また、式(5)は、サブバンドインデックスpが、p≧(MA_LEN-1)/2であり、かつ、p≦P-1-(MA_LEN-1)/2の場合の対数平滑化スペクトルの算出方法である。サブバンドインデックスpが先頭、あるいは、最後尾付近の場合には、境界条件を考慮し、式(6)、及び式(7)を用いてそれぞれスペクトルを平滑化する。
Figure JPOXMLDOC01-appb-M000006
Figure JPOXMLDOC01-appb-M000007
 なお、平滑化部105は、上述したように平滑化フィルタリング処理による平滑化処理として、単純な移動平均による平滑化を行っても良い(Wが全てのiに対して1の時には、移動平均による平滑化になる)。また、窓関数(重み)は、ハニング窓やその他の窓関数を利用してもよい。
 次に、平滑化部105は算出した対数平滑化スペクトルAVE5(p=0~P-1)を逆非線形変換部106に出力する。
 逆非線形変換部106は、平滑化部105から入力される対数平滑化スペクトルAVE5(p=0~P-1)に対して逆非線形変換として、対数逆変換を行い、対数平滑化スペクトルを対数領域の値から線形領域の値に変換する。逆非線形変換部106は、式(8)を用いて、対数平滑化スペクトルAVE5(p=0~P-1)に対して対数逆変換を行い、平滑化スペクトルAVE6(p=0~P-1)を算出する。
Figure JPOXMLDOC01-appb-M000008
 さらに、逆非線形変換部106は、各サブバンド内のサンプルの値を、算出した線形領域の平滑化スペクトルAVE6(p=0~P-1)の値として、全サンプルの平滑化スペクトルを算出する。
 逆非線形変換部106は、全サンプルの平滑化スペクトル値をスペクトル平滑化装置100の処理結果として出力する。
 以上、本発明に係るスペクトル平滑化装置及びスペクトル平滑化方法について説明した。
 以上のように、本実施の形態では、サブバンド分割部102は、入力スペクトルを複数のサブバンドに分割し、代表値算出部103は、サブバンド毎に、算術平均、及び、乗算演算あるいは幾何平均を用いて代表値を算出し、非線形変換部104は、各代表値に対して値が大きいほどより強調する特性の非線形変換を行い、平滑化部105は、当該サブバンド毎の非線形変換された代表値を周波数領域で平滑化する。
 このように、スペクトルの全サンプルを複数のサブバンドに分割し、各サブバンドに対して、算術平均(相加平均)と、乗算演算あるいは幾何平均(相乗平均)とを組み合せて代表値を得、当該代表値を非線形変換した後に平滑化することにより、良好な音声品質を維持しつつ、かつ、処理演算量を大幅に減らすことができるようになる。
 上述したように、本発明においてサブバンド内のサンプルの算術平均と、乗算演算あるいは幾何平均とを組み合せてサブバンドの代表値を算出する構成を採ることにより、サブバンド内のサンプル値の算術平均値(相加平均値)、すなわち、線形領域での平均値を、単純に各サブバンドの代表値とする場合において、サブバンド内のサンプル値の大きさのばらつきによって発生し得る音声品質の劣化を回避することができる。
 なお、本実施の形態では、時間-周波数変換処理として高速フーリエ変換(FFT)を例に挙げて説明したが、本発明はこれに限定されず、高速フーリエ変換(FFT)以外の時間-周波数変換方法を利用する場合にも同様に適用される。例えば、非特許文献1では、聴覚マスキング値の算出(図2参照)に際し、高速フーリエ変換(FFT)ではなく、修正離散コサイン変換(MDCT:Modified Discrete Cosine Transform)を用いて周波数成分(スペクトル)を算出している。このように時間-周波数変換処理部において、修正離散コサイン変換(MDCT)やその他の時間-周波数変換方法を用いる構成に対しても、同様に本発明は適用される。
 なお、上述した構成では、相乗平均算出部202は、算術平均(相加平均)値スペクトルAVE1(q=0~Q-1)を掛け合わせただけであり、累乗根の計算を行っていない。そのため、相乗平均算出部202は、正確には、相乗平均値を算出しているわけではない。これは、上述したように、非線形変換部104において、非線形変換処理として式(3)を用いて対数領域に変換した後に、式(4)を用いてサブグループ数Qの逆数を乗じることにより、累乗根の計算を単純な除算(乗算)に置き換えることができるため、演算量をより削減することができるからである。
 したがって、本発明は、必ずしも上述の構成に限定されるものではない。例えば、相乗平均算出部202において、算術平均(相加平均)値スペクトルAVE1(q=0~Q-1)に対して、サブバンド毎に全サブグループの算術平均値スペクトルの値を掛け合わせた後に、サブグループ数の累乗根を算出し、算出した累乗根をサブバンド代表値スペクトルAVE2(p=0~P-1)として非線形変換部104に出力する構成においても同様に本発明を適用することができる。すなわち、いずれの場合も、平滑化部105は、非線形変換されたサブバンド毎の代表値を得ることができる。なお、この場合には、非線形変換部104において、式(4)の演算を省略すればよい。
 なお、本実施の形態では、サブバンド毎の代表値を、まずサブグループの算術平均値を求め、次にサブバンド内の全サブグループの算術平均値の幾何平均値とする場合について説明した。しかし、本発明はこれに限定されず、サブグループを構成するサンプル数が1である場合、つまり各サブグループの算術平均値を算出せず、サブバンド内の全サンプルの幾何平均値をサブバンドの代表値とする場合にも同様に適用できる。なお、この構成においても、上述したように、正確に幾何平均値を算出せず、非線形変換を行った後にサブグループ数の逆数を乗じることによって対数領域で幾何平均値を算出してもよい。
 なお、以上の説明では、逆非線形変換部106において、同一サブバンド内のサンプルのスペクトル値を全て同じ値とした。しかし、本発明はこれに限定されず、逆非線形変換部106の後段に、逆平滑化処理部を設け、逆平滑化処理部が、各サブバンド内でサンプル毎に重みをつけて逆平滑化処理を行ってもよい。また、この逆平滑化処理は、平滑化部105と全く逆の変換でなくてもよい。
 また、以上の説明では、非線形変換部104が、非線形変換処理として対数変換を行い、逆非線形変換部106が、逆非線形変換処理として対数逆変換を行う場合を例に説明したが、非線形変換処理は、これに限られず、べき乗等を用いてもよく、逆非線形変換処理に、当該非線形変換処理の逆処理を行うようにすればよい。ただし、式(4)を用いてサブグループ数Qの逆数を乗じることにより、累乗根の計算を単純な除算(乗算)に置き換えることができるため、演算量をより削減することができるのは、非線形変換部104が、非線形変換として対数変換を行うことによる。したがって、非線形変換処理として、対数変換以外の処理を行う場合には、サブグループ毎の算術平均値に対し幾何平均値を算出することにより、サブバンド毎の代表値を算出し、当該代表値に対し非線形処理を施せばよい。
 また、サブバンド数、サブグループ数としては、例えば、入力信号のサンプリング周波数が32kHzであり、1フレーム長が20msecの場合、つまり、入力信号が640サンプルある場合、サブバンド数を80に設定し、サブグループ数を2に設定し、各サブグループのサンプル数を4に設定し、平滑化フィルタリングの次数を7に設定するという場合が一例として挙げられる。但し、本発明は、当該設定に限定されるものではなく、これらが他の数値に設定される場合にも同様に適用することができる。
 また、本発明に係るスペクトル平滑化装置及びスペクトル平滑化方法は、音声符号化装置及び音声符号化方法、音声復号装置及び音声復号方法、音声認識装置及び音声認識方法など、スペクトル領域において平滑化を行うスペクトル平滑化部分の全てに適用可することができる。例えば、特許文献2に公開されている帯域拡張技術では、高域スペクトルを生成するパラメータを算出するために行う低域スペクトルに対する前処理として、LPC(Linear Predictive Coefficient)からスペクトル包絡を算出し、算出したスペクトル包絡を用いて低域スペクトルからスペクトル包絡を除去する処理を行っているが、特許文献2のスペクトル包絡除去処理に利用するスペクトル包絡に代えて、本発明に係るスペクトル平滑化方法を低域スペクトルに適用して算出した平滑化スペクトルを用いることも可能である。
 また、本実施の形態では、入力される入力スペクトルS1(k)を各サブバンドのサンプル数が等しいP個(Pは2以上の整数)のサブバンドに分割する構成について説明したが、本発明はこれに限らず、各サブバンドのサンプル数が異なる構成についても同様に適用できる。例えば、低域側のサブバンドほどサンプル数が少なく、高域側のサブバンドほどサンプル数が多くなるようにサブバンドを分割する構成が例として挙げられる。一般的に、人間の聴感は、高域側ほど周波数分解能が低いということが言えるため、上記のような構成にすることによって、より効率的にスペクトルを平滑化することができる。また、各サブバンドを構成するサブグループについても同様である。つまり、本実施の形態では、Q個の各サブグループが全てR個のサンプルから構成される場合について説明したが、本発明はこれに限らず、低域側のサブグループほどサンプル数が少なく、高域側のサブグループほどサンプル数が多くなるようにサブグループを分割するような構成に対しても同様に適用することができる。
 また、本実施の形態では、平滑化処理として重み付け移動平均を例として説明したが、本発明はこれに限らず、種々の平滑化処理に対しても同様に適用することができる。例えば、上述したように、各サブバンドのサンプル数が異なる(高域ほどサンプル数が多くなる)構成において、移動平均のフィルタのタップ数が左右対称ではなく、高域ほど小さいタップ数にしてもかまわない。高域のサブバンドほどサンプル数が多い場合には、高域側のタップ数が小さい移動平均フィルタを用いることで、聴感的により適した平滑化処理が可能となる。もちろん、本発明は、高域ほど大きいタップ数である、左右非対称の移動平均フィルタを利用する場合にも同様に適用することができる。
 (実施の形態2)
 本実施の形態では、実施の形態1で説明したスペクトル平滑化処理を、特許文献2などに公開されている帯域拡張符号化時の前処理に利用する場合の構成を説明する。
 図5は、本発明の実施の形態2に係る符号化装置および復号装置を有する通信システムの構成を示すブロック図である。図5において、通信システムは、符号化装置と復号装置とを備え、それぞれ伝送路を介して通信可能な状態となっている。なお、符号化装置および復号装置はいずれも、通常、基地局装置あるいは通信端末装置等に搭載されて用いられる。
 符号化装置301は、入力信号をNサンプルずつ区切り(Nは自然数)、Nサンプルを1フレームとしてフレーム毎に符号化を行う。ここで、符号化の対象となる入力信号をx(n=0、…、N-1)と表すこととする。nは、Nサンプルずつ区切られた入力信号のうち、n+1番目の信号要素を示す。符号化された入力情報(符号化情報)は、伝送路302を介して復号装置303に送信される。
 復号装置303は、伝送路302を介して、符号化装置301から送信された符号化情報を受信し、これを復号し出力信号を得る。
 図6は、図5に示した符号化装置301の内部の主要な構成を示すブロック図である。入力信号のサンプリング周波数をSRinputとすると、ダウンサンプリング処理部311は、入力信号のサンプリング周波数をSRinputからSRbaseまでダウンサンプリングし(SRbase<SRinput)、ダウンサンプリングした入力信号をダウンサンプリング後入力信号として、第1レイヤ符号化部312に出力する。
 第1レイヤ符号化部312は、ダウンサンプリング処理部311から入力されるダウンサンプリング後入力信号に対して、例えばCELP(Code Excited Linear Prediction)方式の音声符号化方法を用いて符号化を行って第1レイヤ符号化情報を生成し、生成した第1レイヤ符号化情報を第1レイヤ復号部313および符号化情報統合部317に出力する。
 第1レイヤ復号部313は、第1レイヤ符号化部312から入力される第1レイヤ符号化情報に対して、例えばCELP方式の音声復号方法を用いて復号を行って第1レイヤ復号信号を生成し、生成した第1レイヤ復号信号をアップサンプリング処理部314に出力する。
 アップサンプリング処理部314は、第1レイヤ復号部313から入力される第1レイヤ復号信号のサンプリング周波数をSRbaseからSRinputまでアップサンプリングし、アップサンプリングした第1レイヤ復号信号をアップサンプリング後第1レイヤ復号信号として、時間-周波数変換処理部315に出力する。
 遅延部318は、入力信号に所定の長さの遅延を与える。この遅延は、ダウンサンプリング処理部311、第1レイヤ符号化部312、第1レイヤ復号部313、およびアップサンプリング処理部314で生じる時間遅れを補正するためのものである。
 時間-周波数変換処理部315は、バッファbuf1およびbuf2(n=0、…、N-1)を内部に有し、入力信号xおよびアップサンプリング処理部314から入力されるアップサンプリング後第1レイヤ復号信号yを修正離散コサイン変換(MDCT:Modified Discrete Cosine Transform)する。
 次に、時間-周波数変換処理部315における直交変換処理について、その計算手順と内部バッファへのデータ出力に関して説明する。
 まず、時間-周波数変換処理部315は、下記の式(9)および式(10)によりバッファbuf1およびbuf2それぞれを、「0」を初期値として初期化する。
Figure JPOXMLDOC01-appb-M000009
Figure JPOXMLDOC01-appb-M000010
 次いで、時間-周波数変換処理部315は、入力信号x、アップサンプリング後第1レイヤ復号信号yに対し下記の式(11)および式(12)に従ってMDCTし、入力信号のMDCT係数(以下、入力スペクトルと呼ぶ)S2(k)およびアップサンプリング後第1レイヤ復号信号ynのMDCT係数(以下、第1レイヤ復号スペクトルと呼ぶ)S1(k)を求める。
Figure JPOXMLDOC01-appb-M000011
Figure JPOXMLDOC01-appb-M000012
 ここで、kは1フレームにおける各サンプルのインデックスを示す。時間-周波数変換処理部315は、入力信号xとバッファbuf1とを結合させたベクトルであるx’を下記の式(13)により求める。また、時間-周波数変換処理部315は、アップサンプリング後第1レイヤ復号信号yとバッファbuf2とを結合させたベクトルであるy’を下記の式(14)により求める。
Figure JPOXMLDOC01-appb-M000013
Figure JPOXMLDOC01-appb-M000014
 次に、時間-周波数変換処理部315は、式(15)および式(16)によりバッファbuf1およびbuf2を更新する。
Figure JPOXMLDOC01-appb-M000015
Figure JPOXMLDOC01-appb-M000016
 そして、時間-周波数変換処理部315は、入力スペクトルS2(k)および第1レイヤ復号スペクトルS1(k)を第2レイヤ符号化部316に出力する。
 第2レイヤ符号化部316は、時間-周波数変換処理部315から入力される入力スペクトルS2(k)および第1レイヤ復号スペクトルS1(k)を用いて第2レイヤ符号化情報を生成し、生成した第2レイヤ符号化情報を符号化情報統合部317に出力する。なお、第2レイヤ符号化部316の詳細については後述する。
 符号化情報統合部317は、第1レイヤ符号化部312から入力される第1レイヤ符号化情報と、第2レイヤ符号化部316から入力される第2レイヤ符号化情報とを統合し、統合された情報源符号に対し、必要であれば伝送誤り符号などを付加した上でこれを符号化情報として伝送路302に出力する。
 次に、図6に示した第2レイヤ符号化部316の内部の主要な構成について図7を用いて説明する。
 第2レイヤ符号化部316は、帯域分割部360、スペクトル平滑化部361、フィルタ状態設定部362、フィルタリング部363、探索部364、ピッチ係数設定部365、ゲイン符号化部366および多重化部367を備え、各部は以下の動作を行う。
 帯域分割部360は、時間-周波数変換処理部315から入力される入力スペクトルS2(k)の高域部(FL≦k<FH)をP個のサブバンドSB(p=0,1,…,P-1)に分割する。そして、帯域分割部360は、分割した各サブバンドのバンド幅BW(p=0,1,…,P-1)および先頭インデックスBS(p=0,1,…,P-1)(FL≦BS<FH)を帯域分割情報としてフィルタリング部363、探索部364および多重化部367に出力する。以下、入力スペクトルS2(k)のうち、サブバンドSBに対応する部分をサブバンドスペクトルS2(k)(BS≦k<BS+BW)と記す。
 スペクトル平滑化部361は、時間-周波数変換処理部315から入力される第1レイヤ復号スペクトルS1(k)(0≦k<FL)に対して平滑化処理を施し、平滑化処理後の平滑化第1レイヤ復号スペクトルS1’(k)(0≦k<FL)をフィルタ状態設定部362に出力する。
 図8にスペクトル平滑化部361の内部構成を示す。スペクトル平滑化部361は、サブバンド分割部102、代表値算出部103、非線形変換部104、平滑化部105、逆非線形変換部106とから主に構成される。ここで、各処理部は、実施の形態1で説明した処理部と同一であるため、同一の符号を付して説明を省略する。
 フィルタ状態設定部362は、スペクトル平滑化部361から入力される平滑化第1レイヤ復号スペクトルS1’(k)(0≦k<FL)を、後段のフィルタリング部363で用いるフィルタの内部状態として設定する。フィルタリング部363における全周波数帯域のスペクトルS(k)の0≦k<FLの帯域に、平滑化第1レイヤ復号スペクトルS1’(k)がフィルタの内部状態(フィルタ状態)として格納される。
 フィルタリング部363は、マルチタップのピッチフィルタを備え、フィルタ状態設定部362により設定されたフィルタ状態と、ピッチ係数設定部365から入力されるピッチ係数と、帯域分割部360から入力される帯域分割情報とに基づいて、第1レイヤ復号スペクトルをフィルタリングし、各サブバンドSB(p=0,1,…,P-1)の推定値スペクトルS2’(k)(BS≦k<BS+BW)(p=0,1,…,P-1)(以下、「サブバンドSBの推定スペクトル」と称す)を算出する。フィルタリング部363は、サブバンドSBの推定スペクトルS2’(k)を探索部364に出力する。なお、フィルタリング部363におけるフィルタリング処理の詳細については後述する。なお、マルチタップのタップ数は1以上の任意の値(整数)をとることができるものとする。
 探索部364は、帯域分割部360から入力される帯域分割情報に基づき、フィルタリング部363から入力されるサブバンドSBの推定スペクトルS2’(k)と、時間-周波数変換処理部315から入力される入力スペクトルS2(k)の高域部(FL≦k<FH)における各サブバンドスペクトルS2(k)との類似度を算出する。この類似度の算出は、例えば相関演算等により行われる。また、フィルタリング部363、探索部364およびピッチ係数設定部365の処理は、サブバンド毎に閉ループの探索処理を構成し、各閉ループにおいて、探索部364は、ピッチ係数設定部365からフィルタリング部363に入力されるピッチ係数Tを種々に変化させることにより、各ピッチ係数に対応する類似度を算出する。探索部364は、サブバンド毎の閉ループにおいて、例えば、サブバンドSBに対応する閉ループにおいて類似度が最大となる最適ピッチ係数T’(ただしTmin~Tmaxの範囲)を求め、P個の最適ピッチ係数を多重化部367に出力する。探索部364は、各最適ピッチ係数T’を用いて、各サブバンドSBに類似する、第1レイヤ復号スペクトルの一部帯域を算出する。また、探索部364は、各最適ピッチ係数T’(p=0,1,…,P-1)に対応する推定スペクトルS2’(k)をゲイン符号化部366に出力する。なお、探索部364における最適ピッチ係数T’(p=0,1,…,P-1)の探索処理の詳細については後述する。
 ピッチ係数設定部365は、探索部364の制御の下、フィルタリング部363および探索部364とともに、第1サブバンドSBに対応する閉ループの探索処理を行う場合には、ピッチ係数Tを、予め定められた探索範囲Tmin~Tmaxの中で少しずつ変化させながら、フィルタリング部363に順次出力する。
 ゲイン符号化部366は、時間-周波数変換処理部315から入力される入力スペクトルS2(k)の高域部(FL≦k<FH)についてのゲイン情報を算出する。具体的には、ゲイン符号化部366は、周波数帯域FL≦k<FHをJ個のサブバンドに分割し、入力スペクトルS2(k)のサブバンド毎のスペクトルパワを求める。この場合、第j+1サブバンドのスペクトルパワBは下記の式(17)で表される。
Figure JPOXMLDOC01-appb-M000017
 式(17)において、BLは第j+1サブバンドの最小周波数、BHは第j+1サブバンドの最大周波数を表す。また、ゲイン符号化部366は、探索部364から入力される各サブバンドの推定スペクトルS2’(k)(p=0,1,…,P-1)を周波数領域で連続させて入力スペクトルの高域部の推定スペクトルS2’(k)を構成する。そして、ゲイン符号化部366は、入力スペクトルS2(k)に対してスペクトルパワを算出した場合と同様に、推定スペクトルS2’(k)のサブバンド毎のスペクトルパワB’を下記の式(18)に従い算出する。次いで、ゲイン符号化部366は、入力スペクトルS2(k)に対する推定スペクトルのS2’(k)のサブバンド毎のスペクトルパワの変動量V
を式(19)に従い算出する。
Figure JPOXMLDOC01-appb-M000018
Figure JPOXMLDOC01-appb-M000019
 そして、ゲイン符号化部366は、変動量Vを符号化し、符号化後の変動量VQに対応するインデックスを多重化部367に出力する。
 多重化部367は、帯域分割部360から入力される帯域分割情報と、探索部364から入力される各サブバンドSB(p=0,1,…,P-1)に対する最適ピッチ係数T’と、ゲイン符号化部366から入力される変動量VQのインデックスと、を第2レイヤ符号化情報として多重化し、符号化情報統合部317に出力する。なお、T’と、VQのインデックスとを直接、符号化情報統合部317に入力して、符号化情報統合部317にて第1レイヤ符号化情報と多重化しても良い。
 次いで、図7に示したフィルタリング部363におけるフィルタリング処理の詳細について、図9を用いて説明する。
 フィルタリング部363は、フィルタ状態設定部362から入力されるフィルタ状態と、ピッチ係数設定部365から入力されるピッチ係数Tと、帯域分割部360から入力される帯域分割情報とを用いて、サブバンドSB(p=0,1,…,P-1)に対して、帯域BS≦k<BS+BW(p=0,1,…,P-1)における推定スペクトルを生成する。フィルタリング部363において用いるフィルタの伝達関数F(z)は下記の式(20)で表される。
 以下、サブバンドSBを例にとり、サブバンドスペクトルS2(k)の推定スペクトルS2’(k)を生成する処理を説明する。
Figure JPOXMLDOC01-appb-M000020
 式(20)において、Tはピッチ係数設定部365から与えられるピッチ係数、βは予め内部に記憶されているフィルタ係数を表している。例えば、タップ数が3の場合、フィルタ係数の候補は(β-1、β、β)=(0.1、0.8、0.1)が例として挙げられる。この他に(β-1、β、β)=(0.2、0.6、0.2)、(0.3、0.4、0.3)などの値も適当である。また、(β-1、β、β)=(0.0、1.0、0.0)の値でも良く、この場合には帯域0≦k<FLの第1レイヤ復号スペクトルの一部帯域をその形状を変化させずにそのままBS≦k<BS+BWの帯域にコピーすることを意味する。また、式(20)においてM=1とする。Mはタップ数に関する指標である。
 フィルタリング部363における全周波数帯域のスペクトルS(k)の0≦k<FLの帯域には、平滑化第1レイヤ復号スペクトルS1’(k)がフィルタの内部状態(フィルタ状態)として格納される。
 S(k)のBS≦k<BS+BWの帯域には、以下の手順のフィルタリング処理によりサブバンドSBの推定スペクトルS2’(k)が格納される。すなわち、S2’(k)には、基本的に、このkよりTだけ低い周波数のスペクトルS(k-T)が代入される。ただし、スペクトルの円滑性を増すために、実際には、スペクトルS(k-T)からiだけ離れた近傍のスペクトルS(k-T+i)に所定のフィルタ係数βを乗じたスペクトルβ・S(k-T+i)を、全てのiについて加算したスペクトルをS2’(k)に代入する。この処理は下記の式(21)で表される。
Figure JPOXMLDOC01-appb-M000021
 上記演算を、周波数の低いk=BSから順に、kをBS≦k<BS+BWの範囲で変化させて行うことにより、BS≦k<BS+BWにおける推定スペクトルS2’(k)を算出する。
 以上のフィルタリング処理は、ピッチ係数設定部365からピッチ係数Tが与えられる度に、BS≦k<BS+BWの範囲において、その都度S(k)をゼロクリアして行われる。すなわち、ピッチ係数Tが変化するたびにS(k)は算出され、探索部364に出力される。
 図10は、図7に示した探索部364においてサブバンドSBに対して最適ピッチ係数T’を探索する処理の手順を示すフロー図である。なお、探索部364は、図10に示した手順を繰り返すことにより、各サブバンドSB(p=0,1,…,P-1)に対応する最適ピッチ係数T’(p=0,1,…,P-1)を探索する。
 まず、探索部364は、類似度の最小値を保存するための変数である最小類似度Dminを「+∞」に初期化する(ST110)。次いで、探索部364は、下記の式(22)に従い、あるピッチ係数における入力スペクトルS2(k)の高域部(FL≦k<FH)と、推定スペクトルS2’(k)との類似度Dを算出する(ST120)。
Figure JPOXMLDOC01-appb-M000022
 式(22)において、M’は、類似度Dを算出する際のサンプル数を示し、各サブバンドのバンド幅以下の任意の値で良い。なお、式(22)中にはS2’(k)が存在しないが、これはBSとS2’(k)を用いてS2’(k)を表しているためである。
 次いで、探索部364は算出した類似度Dが最小類似度Dminより小さいか否かを判定する(ST130)。ST120において算出された類似度Dが最小類似度Dminより小さい場合(ST130:「YES」)には、探索部364は、類似度Dを最小類似度Dminに代入する(ST140)。一方、ST120において算出された類似度Dが最小類似度Dmin以上である場合(ST130:「NO」)には、探索部364は、探索範囲にわたる処理が終了した否かを判定する。すなわち、探索部364は、探索範囲内のすべてのピッチ係数それぞれに対し、ST120において上記の式(22)に従って類似度を算出したか否かを判定する(ST150)。探索範囲にわたって処理が終了していなかった場合(ST150:「NO」)には、探索部364は処理を再びST120に戻す。そして、探索部364は、前回のST120の手順において式(22)に従って類似度を算出した場合とは異なるピッチ係数に対して、式(22)に従い類似度を算出する。一方、探索範囲にわたる処理が終了した場合(ST150:「YES」)には、探索部364には、最小類似度Dminに対応するピッチ係数Tを最適ピッチ係数T’として多重化部367に出力する(ST160)。
 次いで、図5に示した復号装置303について説明する。
 図11は、復号装置303の内部の主要な構成を示すブロック図である。
 図11において、符号化情報分離部331は、入力された符号化情報の中から第1レイヤ符号化情報と第2レイヤ符号化情報とを分離し、第1レイヤ符号化情報を第1レイヤ復号部332に出力し、第2レイヤ符号化情報を第2レイヤ復号部335に出力する。
 第1レイヤ復号部332は、符号化情報分離部331から入力される第1レイヤ符号化情報に対して復号を行い、生成された第1レイヤ復号信号をアップサンプリング処理部333に出力する。ここで、第1レイヤ復号部332の動作は、図6に示した第1レイヤ復号部313と同様であるため、詳細な説明は省略する。
 アップサンプリング処理部333は、第1レイヤ復号部332から入力される第1レイヤ復号信号に対してサンプリング周波数をSRbaseからSRinputまでアップサンプリングする処理を行い、得られるアップサンプリング後第1レイヤ復号信号を時間-周波数変換処理部334に出力する。
 時間-周波数変換処理部334は、アップサンプリング処理部333から入力されるアップサンプリング後第1レイヤ復号信号に対して直交変換処理(MDCT)を施し、得られるアップサンプリング後第1レイヤ復号信号のMDCT係数(以下、第1レイヤ復号スペクトルと呼ぶ)S1(k)を第2レイヤ復号部335に出力する。ここで、時間-周波数変換処理部334の動作は、図6に示した時間-周波数変換処理部315のアップサンプリング後第1レイヤ復号信号に対する処理と同様であるため、詳細な説明は省略する。
 第2レイヤ復号部335は、時間-周波数変換処理部334から入力される第1レイヤ復号スペクトルS1(k)、符号化情報分離部331から入力される第2レイヤ符号化情報を用いて、高域成分を含む第2レイヤ復号信号を生成し出力信号として出力する。
 図12は、図11に示した第2レイヤ復号部335の内部の主要な構成を示すブロック図である。
 分離部351は、符号化情報分離部331から入力される第2レイヤ符号化情報を、各サブバンドのバンド幅BW(p=0,1,…,P-1)、先頭インデックスBS(p=0,1,…,P-1)(FL≦BS<FH)を含む帯域分割情報と、フィルタリングに関する情報である最適ピッチ係数T’(p=0,1,…,P-1)と、ゲインに関する情報である符号化後変動量VQ(j=0,1,…,J-1)のインデックスと、に分離する。また、分離部351は、帯域分割情報および最適ピッチ係数T’(p=0,1,…,P-1)をフィルタリング部354に出力し、符号化後変動量VQ(j=0,1,…,J-1)のインデックスをゲイン復号部355に出力する。なお、符号化情報分離部331において、帯域分割情報と、T’(p=0,1,…,P-1)と、VQ(j=0,1,…,J-1)のインデックスとを分離済みの場合は、分離部351を配置しなくても良い。
 スペクトル平滑化部352は、時間-周波数変換処理部334から入力される第1レイヤ復号スペクトルS1(k)(0≦k<FL)に対して平滑化処理を施し、平滑化後の平滑化第1レイヤ復号スペクトルS1’(k)(0≦k<FL)をフィルタ状態設定部353に出力する。スペクトル平滑化部352の処理は、第2レイヤ符号化部316内のスペクトル平滑化部361と同様であるため、ここでは説明を省略する。
 フィルタ状態設定部353は、スペクトル平滑化部352から入力される平滑化第1レイヤ復号スペクトルS1’(k)(0≦k<FL)を、フィルタリング部354で用いるフィルタ状態として設定する。ここで、フィルタリング部354における全周波数帯域0≦k<FHのスペクトルを便宜的にS(k)と呼ぶ場合、S(k)の0≦k<FLの帯域に、平滑化第1レイヤ復号スペクトルS1’(k)がフィルタの内部状態(フィルタ状態)として格納される。ここで、フィルタ状態設定部353の構成および動作は、図7に示したフィルタ状態設定部362と同様であるため、詳細な説明は省略する。
 フィルタリング部354は、マルチタップ(タップ数が1より多い)のピッチフィルタを備える。フィルタリング部354は、分離部351から入力される帯域分割情報と、フィルタ状態設定部353により設定されたフィルタ状態と、分離部351から入力されるピッチ係数T’(p=0,1,…,P-1)と、予め内部に格納しているフィルタ係数とに基づき、平滑化第1レイヤ復号スペクトルS1’(k)をフィルタリングし、上記の式(21)に示す、各サブバンドSB(p=0,1,…,P-1)の推定値スペクトルS2’(k)(BS≦k<BS+BW)(p=0,1,…,P-1)を算出する。フィルタリング部354でも、上記の式(20)に示したフィルタ関数が用いられる。ただし、この場合のフィルタリング処理およびフィルタ関数は、式(20)、式(21)におけるTをT’に置き換えたものとする。
 ゲイン復号部355は、分離部351から入力される、符号化後変動量VQのインデックスを復号し、変動量Vの量子化値である変動量VQを求める。
 スペクトル調整部356は、フィルタリング部354から入力される各サブバンドSB(p=0,1,…,P-1)の推定値スペクトルS2’(k)(BS≦k<BS+BW)(p=0,1,…,P-1)を周波数領域で連続させて入力スペクトルの推定スペクトルS2’(k)を求める。また、スペクトル調整部356は、下記の式(23)に従い、推定スペクトルS2’(k)にゲイン復号部355から入力されるサブバンド毎の変動量VQを乗じる。これにより、スペクトル調整部356は、推定スペクトルS2’(k)の周波数帯域FL≦k<FHにおけるスペクトル形状を調整し、復号スペクトルS3(k)を生成して時間-周波数変換処理部357に出力する。
Figure JPOXMLDOC01-appb-M000023
 次に、スペクトル調整部356は、式(24)のようにして、時間-周波数変換処理部334から入力される第1レイヤ復号スペクトルS1(k)(0≦k<FL)を復号スペクトルS3(k)の低域部(0≦k<FL)に代入する。ここで、復号スペクトルS3(k)の低域部(0≦k<FL)は、第1レイヤ復号スペクトルS1(k)からなり、復号スペクトルS3(k)の高域部(FL≦k<FH)は、スペクトル形状調整後の推定スペクトルS2’(k)からなる。
Figure JPOXMLDOC01-appb-M000024
 時間-周波数変換処理部357は、スペクトル調整部356から入力される復号スペクトルS3(k)を時間領域の信号に直交変換し、得られる第2レイヤ復号信号を出力信号として出力する。ここでは、必要に応じて適切な窓掛けおよび重ね合わせ加算等の処理を行い、フレーム間に生じる不連続を回避する。
 以下、時間-周波数変換処理部357における具体的な処理について説明する。
 時間-周波数変換処理部357は、バッファbuf’(k)を内部に有しており、下記の式(25)に示すようにバッファbuf’(k)を初期化する。
Figure JPOXMLDOC01-appb-M000025
 また、時間-周波数変換処理部357は、スペクトル調整部356から入力される第2レイヤ復号スペクトルS3(k)を用いて下記の式(26)に従い、第2レイヤ復号信号y”を求めて出力する。
Figure JPOXMLDOC01-appb-M000026
 式(26)において、Z4(k)は、下記の式(27)に示すように、復号スペクトルS3(k)とバッファbuf’(k)とを結合させたベクトルである。
Figure JPOXMLDOC01-appb-M000027
 次に、時間-周波数変換処理部357は、下記の式(28)に従いバッファbuf’(k)を更新する。
Figure JPOXMLDOC01-appb-M000028
 次に、時間-周波数変換処理部357は、復号信号y”を出力信号として出力する。
 このように、本実施の形態によれば、低域部のスペクトルを用いて帯域拡張を行い高域部のスペクトルを推定する符号化/復号において、前処理として低域部のスペクトルに対して相加平均と相乗平均を組み合わせた平滑化処理を施す。これにより、帯域拡張符号化方式に対しても、復号信号に大きな品質劣化を発生させることなく、処理演算量を大幅に削減することができる。
 また、本実施の形態では、帯域拡張符号化時に、復号して得られる低域復号スペクトルに対して平滑化処理を行い、平滑化された低域復号スペクトルを用いて高域スペクトルを推定し、符号化する構成について説明したが、本発明はこれに限らず、入力信号の低域スペクトルに対して平滑化処理を行い、平滑化された入力スペクトルから高域スペクトルを推定し、符号化する構成についても同様に適用できる。
 また、本発明に係るスペクトル平滑化装置およびスペクトル平滑化方法は、上記実施の形態に限定されず、種々変更して実施することができる。例えば、各実施の形態は、適宜組み合わせて実施することが可能である。
 また、信号処理プログラムを、メモリ、ディスク、テープ、CD、DVD等の機械読み取り可能な記録媒体に記録、書き込みをし、動作を行う場合についても、本発明は適用することができ、本実施の形態と同様の作用および効果を得ることができる。
 また、上記実施の形態では、本発明をハードウェアで構成する場合を例にとって説明したが、本発明はソフトウェアで実現することも可能である。
 また、上記実施の形態の説明に用いた各機能ブロックは、典型的には集積回路であるLSIとして実現される。これらは個別に1チップ化されてもよいし、一部または全てを含むように1チップ化されてもよい。ここでは、LSIとしたが、集積度の違いにより、IC、システムLSI、スーパーLSI、ウルトラLSIと呼称されることもある。
 また、集積回路化の手法はLSIに限るものではなく、専用回路または汎用プロセッサで実現してもよい。LSI製造後に、プログラムすることが可能なFPGA(Field Programmable Gate Array)や、LSI内部の回路セルの接続や設定を再構成可能なリコンフィギュラブル/プロセッサを利用してもよい。
 さらには、半導体技術の進歩または派生する別技術によりLSIに置き換わる集積回路化の技術が登場すれば、当然、その技術を用いて機能ブロックの集積化を行ってもよい。バイオ技術の適用等が可能性としてありえる。
 2008年8月8日出願の特願2008-205645及び2009年4月10日出願の特願2009-096222に含まれる明細書、図面及び要約書の開示内容は、すべて本願に援用される。
 本発明にかかるスペクトル平滑化装置、符号化装置、復号装置、通信端末装置、基地局装置及びスペクトル平滑化方法は、スペクトル領域での平滑化を少ない演算量で実現することができ、例えば、パケット通信システム、移動通信システムなどに適用できる。
 100 スペクトル平滑化装置
 101,315,334,357 時間-周波数変換処理部
 102 サブバンド分割部
 103 代表値算出部
 104 非線形変換部
 105 平滑化部
 106 逆非線形変換部
 201 相加平均算出部
 202 相乗平均算出部
 301 符号化装置
 302 伝送路
 303 復号装置
 311 ダウンサンプリング処理部
 312 第1レイヤ符号化部
 313,332 第1レイヤ復号部
 314,333 アップサンプリング処理部
 316 第2レイヤ符号化部
 317 符号化情報統合部
 318 遅延部
 331 符号化情報分離部
 335 第2レイヤ復号部
 351 分離部
 352,361 スペクトル平滑化部
 353,362 フィルタ状態設定部
 354,363 フィルタリング部
 355 ゲイン復号部
 356 スペクトル調整部
 360 帯域分割部
 364 探索部
 365 ピッチ係数設定部
 366 ゲイン符号化部
 367 多重化部
 

Claims (12)

  1.  入力される信号を時間-周波数変換して周波数成分を生成する時間-周波数変換手段と、
     前記周波数成分を複数のサブバンドに分割するサブバンド分割手段と、
     前記分割された各サブバンドに対して、算術平均の計算及びその計算結果を用いた乗算演算を用いてサブバンドの代表値を算出する代表値算出手段と、
     前記サブバンド毎の代表値に対して非線形変換を行う非線形変換手段と、
     前記非線形変換された代表値を周波数領域で平滑化する平滑化手段と、
     を具備するスペクトル平滑化装置。
  2.  平滑化された代表値に対して、前記非線形変換と逆特性の逆非線形変換を行う逆非線形変換手段と、を更に具備する、
     請求項1記載のスペクトル平滑化装置。
  3.  前記非線形変換手段は、
     前記各代表値に対して、値が大きいほど、より強調する特性の非線形変換を行う、
     請求項1記載のスペクトル平滑化装置。
  4.  前記非線形変換手段は、
     前記非線形変換として対数変換を行う、
     請求項1記載のスペクトル平滑化装置。
  5.  前記代表値算出手段は、
     前記乗算演算の結果を用いて幾何平均の計算を行うことにより、前記サブバンドの代表値を算出する、
     請求項1記載のスペクトル平滑化装置。
  6.  前記代表値算出手段は、各サブバンドをさらに複数のサブグループに分割し、前記サブグループ毎に算術平均値を算出し、前記サブグループ毎の算術平均値を用いた前記乗算演算を行った結果を用いて幾何平均値を算出することにより、前記サブバンド毎の代表値を算出する、
     請求項1記載のスペクトル平滑化装置。
  7.  前記代表値算出手段は、
     各サブバンドをさらに複数のサブグループに分割し、前記サブグループ毎に算術平均値を算出し、前記サブグループ毎の算術平均値を掛け合わせた値を、前記サブバンド毎の代表値として算出し、
     前記非線形変換手段は、
     前記サブバンド毎の代表値に対して前記非線形変換を行うことによりサブバンド毎の中間値を算出し、前記サブバンド毎の中間値に対して、各サブバンド内のサブグループ数の逆数を乗じて得られる値を、前記非線形変換された代表値として算出する、
     請求項1記載のスペクトル平滑化装置。
  8.  入力信号の所定周波数以下の低域部分を符号化して第1符号化情報を生成する第1符号化手段と、
     前記第1符号化情報を復号して復号信号を生成する復号手段と、
     前記入力信号の前記所定周波数より高い高域部分を複数のサブバンドに分割し、前記入力信号または前記復号信号から前記複数のサブバンドをそれぞれ推定することにより第2符号化情報を生成する第2符号化手段と、を具備する帯域拡張符号化を行う符号化装置であって、
     前記第2符号化手段は、
     前記復号信号を入力して平滑化する請求項1から請求項7のいずれかに記載のスペクトル平滑化装置を具備し、
     前記入力信号または平滑化後の前記復号信号から前記複数のサブバンドをそれぞれ推定する、
     符号化装置。
  9.  符号化装置において生成された、符号化側入力信号の所定周波数以下の低域部分を符号化して得られる第1符号化情報と、前記符号化側入力信号の前記所定周波数より高い高域部分を複数のサブバンドに分割し、前記符号化側入力信号または前記第1符号化情報を復号して得られる第1復号信号から、前記複数のサブバンドをそれぞれ推定することにより生成された第2符号化情報と、を受信する受信手段と、
     前記第1符号化情報を復号して第2復号信号を生成する第1復号手段と、
     前記第2符号化情報を用いて、前記第2復号信号から前記符号化側入力信号の高域部分を推定することにより第3復号信号を生成する第2復号手段と、を具備する帯域拡張復号を行う復号装置であって、
     前記第2復号手段は、
     前記第2復号信号を入力して平滑化する請求項1から請求項7のいずれかに記載のスペクトル平滑化装置を具備し、
     平滑化後の前記第2復号信号から前記符号化側入力信号の高域部分を推定する、
     復号装置。
  10.  請求項1から請求項7のいずれかに記載のスペクトル平滑化装置を具備する通信端末装置。
  11.  請求項1から請求項7のいずれかに記載のスペクトル平滑化装置を具備する基地局装置。
  12.  入力される信号を時間-周波数変換して周波数成分を生成する時間-周波数変換ステップと、
     前記周波数成分を複数のサブバンドに分割するサブバンド分割ステップと、
     前記分割された各サブバンドに対して、算術平均の計算及びその計算結果を用いた乗算演算を用いてサブバンドの代表値を算出する代表値算出ステップと、
     前記サブバンド毎の代表値に対して非線形変換を行う非線形変換ステップと、
     前記非線形変換された代表値を周波数領域で平滑化する平滑化ステップと、
     を有するスペクトル平滑化方法。
     
PCT/JP2009/003799 2008-08-08 2009-08-07 スペクトル平滑化装置、符号化装置、復号装置、通信端末装置、基地局装置及びスペクトル平滑化方法 WO2010016271A1 (ja)

Priority Applications (9)

Application Number Priority Date Filing Date Title
EP09804758.2A EP2320416B1 (en) 2008-08-08 2009-08-07 Spectral smoothing device, encoding device, decoding device, communication terminal device, base station device, and spectral smoothing method
US13/057,454 US8731909B2 (en) 2008-08-08 2009-08-07 Spectral smoothing device, encoding device, decoding device, communication terminal device, base station device, and spectral smoothing method
CN2009801283823A CN102099855B (zh) 2008-08-08 2009-08-07 频谱平滑化装置、编码装置、解码装置、通信终端装置、基站装置以及频谱平滑化方法
BRPI0917953-4A BRPI0917953B1 (pt) 2008-08-08 2009-08-07 Aparelho de atenuação de espectro, aparelho de codificação, aparelho terminal de comunicação, aparelho de estação base e método de atenuação de espectro.
MX2011001253A MX2011001253A (es) 2008-08-08 2009-08-07 Dispositivo de filtrado espectral, dispositivo de codificacion, dispositivo de decodificacion, dispositivo de terminal de comunicacion, dispositivo de estacion base y metodo de filtrado espectral.
RU2011104350/08A RU2510536C9 (ru) 2008-08-08 2009-08-07 Устройство сглаживания спектра, устройство кодирования, устройство декодирования, устройство терминала связи, устройство базовой станции и способ сглаживания спектра
ES09804758.2T ES2452300T3 (es) 2008-08-08 2009-08-07 Dispositivo de alisamiento espectral, dispositivo de codificación, dispositivo de decodificación, dispositivo de terminal de comunicación, dispositivo de estación base y método de alisamiento espectral
JP2010523772A JP5419876B2 (ja) 2008-08-08 2009-08-07 スペクトル平滑化装置、符号化装置、復号装置、通信端末装置、基地局装置及びスペクトル平滑化方法
DK09804758.2T DK2320416T3 (da) 2008-08-08 2009-08-07 Indretning til spektral udglatning, kodningsindretning, afkodningsindretning, kommunikationsterminalindretning, basisstationsindretning og fremgangsmåde til spektral udglatning

Applications Claiming Priority (4)

Application Number Priority Date Filing Date Title
JP2008205645 2008-08-08
JP2008-205645 2008-08-08
JP2009-096222 2009-04-10
JP2009096222 2009-04-10

Publications (1)

Publication Number Publication Date
WO2010016271A1 true WO2010016271A1 (ja) 2010-02-11

Family

ID=41663498

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/JP2009/003799 WO2010016271A1 (ja) 2008-08-08 2009-08-07 スペクトル平滑化装置、符号化装置、復号装置、通信端末装置、基地局装置及びスペクトル平滑化方法

Country Status (11)

Country Link
US (1) US8731909B2 (ja)
EP (1) EP2320416B1 (ja)
JP (1) JP5419876B2 (ja)
KR (1) KR101576318B1 (ja)
CN (1) CN102099855B (ja)
BR (1) BRPI0917953B1 (ja)
DK (1) DK2320416T3 (ja)
ES (1) ES2452300T3 (ja)
MX (1) MX2011001253A (ja)
RU (1) RU2510536C9 (ja)
WO (1) WO2010016271A1 (ja)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2013531265A (ja) * 2010-07-19 2013-08-01 ドルビー・インターナショナル・アーベー 高周波再構成の際のオーディオ信号処理
US9570085B2 (en) 2012-10-10 2017-02-14 Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. Apparatus and method for efficient synthesis of sinusoids and sweeps by employing spectral patterns
JP2017223996A (ja) * 2017-09-14 2017-12-21 ソニー株式会社 信号処理装置および方法、並びにプログラム
US12002476B2 (en) 2022-12-22 2024-06-04 Dolby International Ab Processing of audio signals during high frequency reconstruction

Families Citing this family (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP5754899B2 (ja) 2009-10-07 2015-07-29 ソニー株式会社 復号装置および方法、並びにプログラム
JP5609737B2 (ja) 2010-04-13 2014-10-22 ソニー株式会社 信号処理装置および方法、符号化装置および方法、復号装置および方法、並びにプログラム
JP5850216B2 (ja) 2010-04-13 2016-02-03 ソニー株式会社 信号処理装置および方法、符号化装置および方法、復号装置および方法、並びにプログラム
JP6075743B2 (ja) 2010-08-03 2017-02-08 ソニー株式会社 信号処理装置および方法、並びにプログラム
JP5707842B2 (ja) 2010-10-15 2015-04-30 ソニー株式会社 符号化装置および方法、復号装置および方法、並びにプログラム
US9319790B2 (en) * 2012-12-26 2016-04-19 Dts Llc Systems and methods of frequency response correction for consumer electronic devices
JP6531649B2 (ja) 2013-09-19 2019-06-19 ソニー株式会社 符号化装置および方法、復号化装置および方法、並びにプログラム
CN105849801B (zh) 2013-12-27 2020-02-14 索尼公司 解码设备和方法以及程序
US20160379661A1 (en) * 2015-06-26 2016-12-29 Intel IP Corporation Noise reduction for electronic devices
US10043527B1 (en) * 2015-07-17 2018-08-07 Digimarc Corporation Human auditory system modeling with masking energy adaptation
JP6780108B2 (ja) * 2017-06-07 2020-11-04 日本電信電話株式会社 符号化装置、復号装置、平滑化装置、逆平滑化装置、それらの方法、およびプログラム

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2002244695A (ja) 2001-02-22 2002-08-30 Nippon Telegr & Teleph Corp <Ntt> 音声スペクトル改善方法、音声スペクトル改善装置、音声スペクトル改善プログラム、プログラムを記憶した記憶媒体
JP2006011456A (ja) * 2004-06-25 2006-01-12 Samsung Electronics Co Ltd 低ビット率符号化/復号化方法及び装置並びにコンピュータ可読媒体
WO2007037361A1 (ja) 2005-09-30 2007-04-05 Matsushita Electric Industrial Co., Ltd. 音声符号化装置および音声符号化方法
JP2008205645A (ja) 2007-02-16 2008-09-04 Mitsubishi Electric Corp アンテナ装置
JP2009096222A (ja) 2007-10-12 2009-05-07 Komatsu Ltd 建設機械

Family Cites Families (19)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH046450A (ja) * 1990-04-24 1992-01-10 Sumitomo Light Metal Ind Ltd Al合金材上の溶着金属定量方法
JPH0522151A (ja) 1991-07-09 1993-01-29 Toshiba Corp 帯域分割形符号化方式
DE4212339A1 (de) * 1991-08-12 1993-02-18 Standard Elektrik Lorenz Ag Codierverfahren fuer audiosignale mit 32 kbit/s
US5495552A (en) * 1992-04-20 1996-02-27 Mitsubishi Denki Kabushiki Kaisha Methods of efficiently recording an audio signal in semiconductor memory
JP3087814B2 (ja) * 1994-03-17 2000-09-11 日本電信電話株式会社 音響信号変換符号化装置および復号化装置
JP4274614B2 (ja) 1999-03-09 2009-06-10 パナソニック株式会社 オーディオ信号復号方法
EP1199812A1 (en) * 2000-10-20 2002-04-24 Telefonaktiebolaget Lm Ericsson Perceptually improved encoding of acoustic signals
DE10105339B4 (de) * 2001-02-05 2004-05-13 november Aktiengesellschaft Gesellschaft für Molekulare Medizin Verfahren zur fälschungssicheren Markierung, fälschungssichere Markierung und Kit
JP3976169B2 (ja) * 2001-09-27 2007-09-12 株式会社ケンウッド 音声信号加工装置、音声信号加工方法及びプログラム
JP3926726B2 (ja) * 2001-11-14 2007-06-06 松下電器産業株式会社 符号化装置および復号化装置
AU2003233425A1 (en) * 2002-03-22 2003-10-13 Georgia Tech Research Corporation Analog audio enhancement system using a noise suppression algorithm
US7447631B2 (en) * 2002-06-17 2008-11-04 Dolby Laboratories Licensing Corporation Audio coding system using spectral hole filling
JP3881932B2 (ja) * 2002-06-07 2007-02-14 株式会社ケンウッド 音声信号補間装置、音声信号補間方法及びプログラム
JP4161628B2 (ja) * 2002-07-19 2008-10-08 日本電気株式会社 エコー抑圧方法及び装置
US7277550B1 (en) * 2003-06-24 2007-10-02 Creative Technology Ltd. Enhancing audio signals by nonlinear spectral operations
CN1322488C (zh) * 2004-04-14 2007-06-20 华为技术有限公司 一种语音增强的方法
EP1744139B1 (en) * 2004-05-14 2015-11-11 Panasonic Intellectual Property Corporation of America Decoding apparatus and method thereof
US8126706B2 (en) * 2005-12-09 2012-02-28 Acoustic Technologies, Inc. Music detector for echo cancellation and noise reduction
EP1928115A1 (en) * 2006-11-30 2008-06-04 Nokia Siemens Networks Gmbh & Co. Kg Adaptive modulation and coding in a SC-FDMA system

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2002244695A (ja) 2001-02-22 2002-08-30 Nippon Telegr & Teleph Corp <Ntt> 音声スペクトル改善方法、音声スペクトル改善装置、音声スペクトル改善プログラム、プログラムを記憶した記憶媒体
JP2006011456A (ja) * 2004-06-25 2006-01-12 Samsung Electronics Co Ltd 低ビット率符号化/復号化方法及び装置並びにコンピュータ可読媒体
WO2007037361A1 (ja) 2005-09-30 2007-04-05 Matsushita Electric Industrial Co., Ltd. 音声符号化装置および音声符号化方法
JP2008205645A (ja) 2007-02-16 2008-09-04 Mitsubishi Electric Corp アンテナ装置
JP2009096222A (ja) 2007-10-12 2009-05-07 Komatsu Ltd 建設機械

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
See also references of EP2320416A4
YUICHIRO TAKAMIZAWA; TOSHIYUKI NOMURA; MASAO IKEKAWA: "High-Quality and Processor-Efficient Implementation of and MPEG-2 AAC Encoder", IEICE TRANS. INF. &SYST., vol. E86-D, no. 3, March 2003 (2003-03-01)

Cited By (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2013531265A (ja) * 2010-07-19 2013-08-01 ドルビー・インターナショナル・アーベー 高周波再構成の際のオーディオ信号処理
US9117459B2 (en) 2010-07-19 2015-08-25 Dolby International Ab Processing of audio signals during high frequency reconstruction
US9640184B2 (en) 2010-07-19 2017-05-02 Dolby International Ab Processing of audio signals during high frequency reconstruction
US9911431B2 (en) 2010-07-19 2018-03-06 Dolby International Ab Processing of audio signals during high frequency reconstruction
US10283122B2 (en) 2010-07-19 2019-05-07 Dolby International Ab Processing of audio signals during high frequency reconstruction
US11031019B2 (en) 2010-07-19 2021-06-08 Dolby International Ab Processing of audio signals during high frequency reconstruction
US11568880B2 (en) 2010-07-19 2023-01-31 Dolby International Ab Processing of audio signals during high frequency reconstruction
US9570085B2 (en) 2012-10-10 2017-02-14 Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. Apparatus and method for efficient synthesis of sinusoids and sweeps by employing spectral patterns
RU2633136C2 (ru) * 2012-10-10 2017-10-11 Фраунхофер-Гезелльшафт Цур Фердерунг Дер Ангевандтен Форшунг Е.Ф. Устройство и способ для эффективного синтеза синусоид и свип-синусоид с помощью использования спектральных шаблонов
JP2017223996A (ja) * 2017-09-14 2017-12-21 ソニー株式会社 信号処理装置および方法、並びにプログラム
US12002476B2 (en) 2022-12-22 2024-06-04 Dolby International Ab Processing of audio signals during high frequency reconstruction

Also Published As

Publication number Publication date
EP2320416A1 (en) 2011-05-11
ES2452300T3 (es) 2014-03-31
US20110137643A1 (en) 2011-06-09
JP5419876B2 (ja) 2014-02-19
EP2320416A4 (en) 2012-08-22
EP2320416B1 (en) 2014-03-05
BRPI0917953A2 (pt) 2015-11-10
US8731909B2 (en) 2014-05-20
DK2320416T3 (da) 2014-05-26
KR101576318B1 (ko) 2015-12-09
KR20110049789A (ko) 2011-05-12
JPWO2010016271A1 (ja) 2012-01-19
RU2011104350A (ru) 2012-09-20
RU2510536C2 (ru) 2014-03-27
RU2510536C9 (ru) 2015-09-10
CN102099855B (zh) 2012-09-26
CN102099855A (zh) 2011-06-15
BRPI0917953B1 (pt) 2020-03-24
MX2011001253A (es) 2011-03-21

Similar Documents

Publication Publication Date Title
JP5419876B2 (ja) スペクトル平滑化装置、符号化装置、復号装置、通信端末装置、基地局装置及びスペクトル平滑化方法
JP5404418B2 (ja) 符号化装置、復号装置および符号化方法
JP5448850B2 (ja) 符号化装置、復号装置およびこれらの方法
US8639500B2 (en) Method, medium, and apparatus with bandwidth extension encoding and/or decoding
JP5511785B2 (ja) 符号化装置、復号装置およびこれらの方法
JP5449133B2 (ja) 符号化装置、復号装置およびこれらの方法
WO2009084221A1 (ja) 符号化装置、復号装置およびこれらの方法
JP5730303B2 (ja) 復号装置、符号化装置およびこれらの方法
JPWO2007129728A1 (ja) 符号化装置及び符号化方法
WO2011048820A1 (ja) 符号化装置、復号装置およびこれらの方法
WO2013057895A1 (ja) 符号化装置及び符号化方法
JP5774490B2 (ja) 符号化装置、復号装置およびこれらの方法

Legal Events

Date Code Title Description
WWE Wipo information: entry into national phase

Ref document number: 200980128382.3

Country of ref document: CN

121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 09804758

Country of ref document: EP

Kind code of ref document: A1

WWE Wipo information: entry into national phase

Ref document number: 2010523772

Country of ref document: JP

WWE Wipo information: entry into national phase

Ref document number: 58/MUMNP/2011

Country of ref document: IN

WWE Wipo information: entry into national phase

Ref document number: 2009804758

Country of ref document: EP

WWE Wipo information: entry into national phase

Ref document number: MX/A/2011/001253

Country of ref document: MX

WWE Wipo information: entry into national phase

Ref document number: 13057454

Country of ref document: US

ENP Entry into the national phase

Ref document number: 20117002822

Country of ref document: KR

Kind code of ref document: A

NENP Non-entry into the national phase

Ref country code: DE

WWE Wipo information: entry into national phase

Ref document number: 2011104350

Country of ref document: RU

ENP Entry into the national phase

Ref document number: PI0917953

Country of ref document: BR

Kind code of ref document: A2

Effective date: 20110207