WO2021075167A1 - 量子化スケール係数決定装置、及び、量子化スケール係数決定方法 - Google Patents

量子化スケール係数決定装置、及び、量子化スケール係数決定方法 Download PDF

Info

Publication number
WO2021075167A1
WO2021075167A1 PCT/JP2020/033579 JP2020033579W WO2021075167A1 WO 2021075167 A1 WO2021075167 A1 WO 2021075167A1 JP 2020033579 W JP2020033579 W JP 2020033579W WO 2021075167 A1 WO2021075167 A1 WO 2021075167A1
Authority
WO
WIPO (PCT)
Prior art keywords
quantization scale
scale coefficient
search
spectrum
sparsity
Prior art date
Application number
PCT/JP2020/033579
Other languages
English (en)
French (fr)
Inventor
旭 原田
江原 宏幸
Original Assignee
パナソニック インテレクチュアル プロパティ コーポレーション オブ アメリカ
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by パナソニック インテレクチュアル プロパティ コーポレーション オブ アメリカ filed Critical パナソニック インテレクチュアル プロパティ コーポレーション オブ アメリカ
Priority to JP2021552264A priority Critical patent/JPWO2021075167A1/ja
Priority to US17/768,801 priority patent/US20230025447A1/en
Publication of WO2021075167A1 publication Critical patent/WO2021075167A1/ja

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/02Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
    • G10L19/032Quantisation or dequantisation of spectral components
    • G10L19/035Scalar quantisation

Definitions

  • the present disclosure relates to a quantization scale coefficient determining device and a quantization scale coefficient determining method.
  • MDCT Modified Discrete Cosine Transform
  • audio acoustic signal also called “audio acoustic signal”
  • the MDCT spectrum is scaled (or referred to as quantization scaling), quantized, and arithmetically coded (see, for example, Patent Document 1).
  • the non-limiting embodiment of the present disclosure contributes to the provision of a quantization scale coefficient determining device capable of reducing the amount of calculation in coding an audio signal or an acoustic signal, and a method for determining a quantization scale coefficient.
  • the quantization scale coefficient determining device includes a correction circuit that corrects an initial value of the quantization scale coefficient based on whether or not the spectrum of the audio-acoustic signal has sparseness, and the initial value.
  • the amount of calculation in coding an audio signal or an acoustic signal can be reduced.
  • Block diagram showing a configuration example of an audio signal or acoustic signal transmission system Block diagram showing a configuration example of the TCX coding unit Block diagram showing a configuration example of the rate loop processing unit and the quantization / coding unit Block diagram showing a configuration example of the sparse analysis unit
  • the figure which shows an example of the spectrum which has sparsity The figure which shows an example of the correction processing of the quantization scale coefficient based on sparsity.
  • the figure which shows an example of the judgment condition of sparsity The figure which shows an example of the search process of the quantization scale coefficient.
  • Patent Document 1 for example, the value obtained by multiplying the envelope (in other words, the envelope) of the MDCT spectrum obtained based on linear predictive analysis (for example, linear prediction coding (LPC) analysis) by the absolute value of the MDCT spectrum.
  • linear predictive analysis for example, linear prediction coding (LPC) analysis
  • LPC linear prediction coding
  • RMS root mean square
  • the coding device performs a search process for the quantization scale coefficient based on the initial value of the quantization scale coefficient. For example, a coding device estimates the amount of bits consumed by arithmetic coding of an MDCT spectrum (for example, referred to as "bit amount consumed") from an approximate expression based on a quantization scale coefficient. Then, the encoding device compares the estimated consumption bit amount with the target bit amount, and obtains, for example, a quantization scale coefficient that satisfies the conditions of "not exceeding the target bit amount" and "closest to the target bit amount”. , Search according to the dichotomy method.
  • the binary search method is known to be a slow convergence method.
  • FIG. 1 shows a configuration example of a voice signal or acoustic signal transmission system according to the present embodiment.
  • the transmission system shown in FIG. 1 includes, for example, a coding device 1 and a decoding device 2.
  • the coding device 1 encodes an input signal such as an audio signal or an acoustic signal, and transmits the coded data to the decoding device 2 via a communication network or a storage medium (not shown).
  • the encoder 1 is a various audio-acoustic codecs (for example, ITU-T) defined in standards such as Moving Picture Experts Group (MPEG), 3rd Generation Partnership Project (3GPP), or International Telecommunication Union Telecommunication Standardization Sector (ITU-T).
  • An encoder may be provided.
  • the decoding device 2 decodes the coded data received from the coding device 1 via, for example, a transmission line or a storage medium, and outputs an output signal (for example, an electric signal).
  • the decoding device 2 may output, for example, an electric signal as a sound wave via a speaker or headphones. Further, the decoding device 2 may use, for example, a decoder corresponding to the above-mentioned audio-acoustic codec.
  • the codec in the coding apparatus 1 may include, for example, transformed code excitation (TCX) coding, which is one of frequency domain coding.
  • TCX transformed code excitation
  • the coding device 1 shown in FIG. 1 includes a TCX coding unit 10 that performs TCX coding processing.
  • TCX coding may be applied to coding in low bit rate transmissions such as 13.2 kbps or 16.4 kbps.
  • the transmission bit rate to which TCX coding is applied is not limited to 13.2 kbps and 16.4 kbps, and may be another bit rate.
  • TCX coding using MDCT to code the excitation signal is sometimes called, for example, "MDCT based TCX".
  • FIG. 2 shows a configuration example of the TCX coding unit 10 included in the coding device 1 shown in FIG.
  • the TCX coding unit 10 shown in FIG. 2 includes, for example, an envelope generation unit 11, a harmonics analysis unit 12, an envelope scaling unit 13, a rate loop processing unit 14, and a quantization / coding unit 15.
  • a frequency domain signal (hereinafter referred to as "MDCT spectrum") obtained by MDCT with respect to the input signal and an LPC coefficient obtained by LPC analysis with respect to the input signal are input to the envelope generation unit 11.
  • the envelope generation unit 11 generates an envelope (in other words, an envelope) of the MDCT spectrum based on, for example, the LPC coefficient.
  • the envelope generation unit 11 outputs the envelope information indicating the generated envelope and the spectrum information indicating the MDCT spectrum to the harmonics analysis unit 12.
  • the harmonics analysis unit 12 analyzes the harmonics structure (in other words, harmonic components) in the MDCT spectrum based on the information input from the envelope generation unit 11, for example.
  • the harmonics analysis unit 12 outputs, for example, harmonics information, envelope information, and spectral information indicating the analysis result of the harmonics structure to the envelope scaling unit 13.
  • the harmonics information may include information indicating whether or not the MDCT spectrum has a harmonics structure (for example, referred to as a "harmonics flag” or a "harmonic model flag”).
  • the harmonics information may include, for example, an index (for example, referred to as “harmonics gain index”) indicating the gain of harmonics (in other words, the gain of harmonics).
  • the harmonics gain index may be, for example, a value obtained by indexing (in other words, quantizing) the harmonics gain for each level. For example, the higher the value of the harmonics gain index, the higher the harmonics gain level may be.
  • the envelope scaling unit 13 performs scaling processing on the envelope of the MDCT spectrum based on the information input from the harmonics analysis unit 12, for example.
  • the envelope scaling unit 13 outputs envelope information, harmonics information, and spectrum information indicating the scaled envelope to the rate loop processing unit 14.
  • the rate loop processing unit 14 performs rate loop processing (also referred to as quantization rate loop processing) based on the information input from the envelope scaling unit 13, and calculates the quantization scale coefficient in the quantization of the MDCT spectrum. ..
  • the rate loop processing unit 14 searches for a quantization scale coefficient based on, for example, a comparison between the amount of consumed bits and the amount of target bits.
  • the search method may be, for example, a binary search method or another search method.
  • the rate loop processing unit 14 may set the initial value of the quantization scale coefficient in the search based on the sparsity in the MDCT spectrum, for example. An example of how to set the initial value of the quantization scale coefficient in the rate loop processing unit 14 will be described later.
  • the rate loop processing unit 14 outputs the information indicating the searched quantization scale coefficient and the spectral information to the quantization / coding unit 15.
  • the quantization / coding unit 15 quantizes and encodes the MDCT spectrum based on the information input from the rate loop processing unit 14, and outputs the obtained coded data.
  • FIG. 3 shows a configuration example of the rate loop processing unit 14 (for example, corresponding to the quantization scale coefficient determining device) and the quantization / coding unit 15 included in the TCX coding unit 10 shown in FIG.
  • the rate loop processing unit 14 shown in FIG. 3 is, for example, a quantization scale coefficient calculation unit 141 (for example, corresponding to a calculation circuit), a sparse analysis unit 142, and a quantization scale coefficient search unit 143 (for example, corresponding to a search circuit). ) Is provided. Further, the quantization / coding unit 15 shown in FIG. 3 includes, for example, a quantization unit 151 and a coding unit 152.
  • the quantization scale coefficient calculation unit 141 quantizes the MDCT spectrum in the quantization processing based on, for example, the envelope information input from the envelope scaling unit 13 and the spectrum information. Calculate the initial value of the scale factor.
  • the quantization scale coefficient calculation unit 141 is a standard of the multiplication value (in other words, the amplitude spectrum normalized by the spectrum inclusion) of the envelope (for example, the envelope obtained based on the LPC analysis) and the absolute value of the MDCT spectrum.
  • the inverse of the deviation may be set to the initial value of the quantization scale factor (or sometimes referred to as the "uncorrected quantization scale factor").
  • the quantization scale coefficient calculation unit 141 outputs information indicating the quantization scale coefficient before correction to the sparse analysis unit 142.
  • the calculation method of the quantization scale coefficient in the quantization scale coefficient calculation unit 141 is not limited to the above-mentioned method.
  • the quantization scale coefficient calculation unit 141 may set the reciprocal of the dispersion of the multiplication value of the envelope and the absolute value of the MDCT spectrum as the initial value of the quantization scale coefficient.
  • the quantization scale coefficient calculation unit 141 calculates the reciprocal of the root mean square squared value (or this reciprocal may be multiplied by a predetermined coefficient) with respect to the multiplication value of the envelope and the MDCT spectrum. It may be set to the initial value of.
  • the sparse analysis unit 142 analyzes (in other words, determines) the sparseness of the MDCT spectrum based on at least one of harmonics information, spectrum information, and envelope information, for example.
  • “Sparsity” is, for example, a property in which a small number of spectra (components) are non-zero and a large number of spectra (components) are zero (or components whose amplitude is less than a threshold value) in the distribution of MDCT spectra. is there.
  • sparsity is, for example, a state in which a small number of spectra occupy a larger proportion of the spectral amplitudes (for example, a sum of amplitudes of 50% or more) in the sum of the spectral amplitudes.
  • the sparsity analysis unit 142 may determine, for example, whether or not to correct the quantization scale coefficient input from the quantization scale coefficient calculation unit 141 based on the analysis result of sparsity.
  • the sparse analysis unit 142 determines the correction of the quantization scale coefficient
  • the sparse analysis unit 142 corrects the quantization scale coefficient and outputs information indicating the corrected quantization scale coefficient to the quantization scale coefficient search unit 143.
  • the sparse analysis unit 142 does not correct the quantization scale coefficient, the sparse analysis unit 142 outputs information indicating the quantization scale coefficient input from the quantization scale coefficient calculation unit 141 to the quantization scale coefficient search unit 143.
  • the quantization scale coefficient search unit 143 searches for the quantization scale coefficient based on the initial value of the quantization scale coefficient input from the sparse analysis unit 142. Then, the quantization scale coefficient search unit 143 performs a dichotomy based on the comparison result between the consumption bit amount estimated for arithmetic coding and the target bit amount, and information indicating the quantization scale coefficient after the search. Is output to the quantization / coding unit 15 (quantization unit 151).
  • the quantization unit 151 quantizes the MDCT spectrum based on the quantization scale coefficient input from the quantization scale coefficient search unit 143.
  • the quantization unit 151 outputs information indicating the MDCT spectrum after quantization to the coding unit 152.
  • the coding unit 152 encodes the quantized MDCT spectrum input from the quantization unit 151 and outputs the coded data.
  • the coding method in the coding unit 152 may be, for example, arithmetic coding or other coding.
  • FIG. 4 shows a configuration example of the sparse analysis unit 142.
  • the sparse analysis unit 142 shown in FIG. 4 includes, for example, a preprocessing unit 1421 (for example, corresponding to a preprocessing circuit), a sparseness determination unit 1422 (for example, corresponding to a determination circuit), and a quantization scale coefficient correction unit 1423 (corresponding to a determination circuit). For example, it corresponds to a correction circuit).
  • the preprocessing unit 1421 performs preprocessing on, for example, the quantization scale coefficient (for example, the quantization scale coefficient (initial value) before correction) input from the quantization scale coefficient calculation unit 141.
  • the preprocessing unit 1421 may adjust, for example, the upper limit of the quantization scale coefficient. Further, the preprocessing unit 1421 may multiply the quantization scale coefficient by a specific value (for example, a value less than 1.00).
  • the preprocessing unit 1421 outputs information indicating the quantization scale coefficient after the preprocessing to the sparsity determination unit 1422.
  • the sparsity determination unit 1422 determines whether or not the MDCT spectrum has sparsity. For example, the sparsity determination unit 1422 may determine the sparsity of the MDCT spectrum based on the envelope information, the harmonics information, and the information about the MDCT spectrum (for example, the absolute value of the MDCT spectrum).
  • FIGS. 5 (a) to 5 (d) show an example of the MDCT spectrum in the case of having sparsity.
  • the horizontal axis represents the frequency (for example, frequency bin), and the vertical axis represents the amplitude of the MDCT spectrum (for example, the absolute value of the amplitude).
  • an MDCT spectrum having a harmonics structure peaks of the MDCT spectrum appear intensively at certain intervals, for example, as shown in FIG. 5 (a) or FIG. 5 (b).
  • the MDCT spectrum at one interval in other words, the peak component
  • the MDCT spectrum at another frequency in other words, a component different from the peak.
  • an MDCT spectrum having a harmonic structure may have sparsity.
  • energy may be concentrated in a part of the MDCT spectrum.
  • some MDCT spectra where energy is concentrated may have higher amplitude (or power) than other MDCT spectra. Therefore, as shown in FIG. 5 (c) or FIG. 5 (d), the MDCT spectrum in which the energy is concentrated in a part of the spectrum may have sparsity.
  • the sparsity determination unit 1422 may determine the sparsity based on, for example, harmonics information. Further, the sparsity determination unit 1422 may determine the sparsity based on, for example, the number of spectra that occupy a ratio of a threshold value (for example, 50%) or more in the MDCT spectrum (in other words, an audio signal or an acoustic signal). Further, the sparsity determination unit 1422 may determine the sparsity based on, for example, an envelope based on LPC analysis and an MDCT spectrum (for example, an absolute value). The determination of sparsity is not limited to at least one parameter (or feature amount) of harmonics information, envelope information, and MDCT spectrum (for example, absolute value), and may be determined based on other parameters. ..
  • the quantization scale coefficient correction unit 1423 corrects the initial value of the quantization scale coefficient based on, for example, whether or not the MDCT spectrum has sparsity. For example, the quantization scale coefficient correction unit 1423 corrects the quantization scale coefficient (initial value) when there is sparsity in the MDCT spectrum. On the other hand, the sparse analysis unit 142 does not correct the quantization scale coefficient, for example, when there is no sparse property in the MDCT spectrum.
  • the quantization scale coefficient correction unit 1423 outputs the obtained quantization scale coefficient to the quantization / coding unit 15 (for example, FIG. 3).
  • the quantization scale coefficient calculation unit 141 for example, the standard deviation with respect to the multiplication value of the envelope obtained based on the LPC analysis (in other words, the scaled envelope) and the absolute value of the MDCT spectrum.
  • the reciprocal is determined by the quantization scale factor.
  • the mean value of the MDCT spectrum can be lower.
  • the energy or average amplitude (for example, corresponding to the above standard deviation) of the entire MDCT spectrum can be estimated to be lower than when it does not have sparsity. Therefore, for example, when the MDCT spectrum has sparseness, the quantization scale coefficient (for example, the inverse of the above standard deviation) determined by the quantization scale factor calculation unit 141 does not have sparseness. It can be a larger value than the quantization scale coefficient or the quantization scale coefficient after the search.
  • FIG. 6 shows an example of correction processing of the quantization scale coefficient based on sparsity.
  • FIG. 6 shows a quantization scale coefficient when the MDCT spectrum has sparseness (in other words, a quantization scale coefficient before correction) and a quantization scale coefficient after search (in other words, a quantization scale after correction). An example of the correspondence with the coefficient) is shown.
  • the horizontal axis represents the quantization scale coefficient after the search (for example, binary search), and the vertical axis represents the quantization scale coefficient input to the sparseness determination unit 1422.
  • the quantization scale coefficient input to the sparseness determination unit 1422 may be, for example, the quantization scale coefficient calculated by the quantization scale coefficient calculation unit 141 or the quantization scale coefficient adjusted by the preprocessing unit 1421.
  • the quantization scale factor correction unit 1423 determines the quantization scale coefficient (for example, scl_b) before correction. , Correct (reduce) to the quantization scale factor (eg, scl_a).
  • the method of correcting the quantization scale coefficient is based on the statistical relationship (for example, simulation result) between the quantization scale coefficient when there is sparseness and the quantization scale coefficient after the search. It may be set based on.
  • the parameter "1.85" is an example and is not limited to this value. Further, the method for correcting the quantization scale coefficient is not limited to the above method, and other methods may be used.
  • the quantization scale coefficient search unit 143 can start the search based on the initial value of the corrected quantization scale coefficient. For example, in FIG. 6, the quantization scale coefficient search unit 143 sets the corrected quantization scale coefficient scl_a as an initial value and performs a binary search. By this search, the quantization scale coefficient search unit 143, for example, sets the uncorrected quantization scale coefficient scl_b shown in FIG. 6 as an initial value and performs a binary search, and compares it with a case where a binary search is performed, and obtains a convergence value by the binary search. The number of searches until it is obtained, that is, the amount of calculation can be reduced.
  • the sparsity determination unit 1422 determines the sparsity based on whether or not the MDCT spectrum has a "harmonics structure" as shown in FIG. 5 (a) or FIG. 5 (b).
  • the sparseness determination unit 1422 may determine the sparseness based on the harmonics flag, the harmonics gain index, and the average value of the absolute values of the MDCT spectrum (hereinafter, referred to as “spectral average value”). ..
  • the sparseness determination unit 1422 when the harmonics flag is ON (in other words, when it has a harmonics structure) and when the harmonics gain index is equal to or greater than the threshold value (in other words, when the harmonics gain is equal to or greater than the threshold value). ), And when the number of spectra exceeding the spectral average value (in other words, also referred to as frequency bin or line) is less than the threshold value, it may be determined that the MDCT spectrum has sparseness.
  • the sparsity determination unit 1422 may determine that the MDCT spectrum does not have sparsity.
  • a plurality of threshold values for the harmonics gain index may be set. Further, in the determination condition 1, a plurality of threshold values for the number of spectra exceeding the spectral average value may be set.
  • the harmonics flag is ON
  • the number of spectra exceeding the spectral average value is the threshold value “.
  • the harmonics flag is ON
  • the number of spectra exceeding the spectral average value is the threshold value.
  • the case of less than "Y2" (for example, Y2 85) is shown.
  • the values of the threshold values X1, X2, Y1 and Y2 are examples, and are not limited to these values. Further, here, the case where the sparsity is determined based on any of the conditions of the two patterns of the combination of X1 and Y1 and the combination of X2 and Y2 has been described, but the present invention is not limited to this.
  • the combination pattern of the threshold value X regarding the harmonics gain index and the threshold value Y for the number of spectra exceeding the spectral average value may be one pattern or three or more patterns.
  • the sparsity determination unit 1422 sparses based on the number of spectra in which the MDCT spectrum occupies a ratio equal to or more than the threshold value (for example, also referred to as “composition ratio”) in the MDCT spectrum as shown in FIG. Determine sex.
  • the threshold value for example, also referred to as “composition ratio”
  • the sparsity determination unit 1422 may determine that the MDCT spectrum has sparsity when the number of spectra occupying a composition ratio of the threshold value (for example, 50%) or more in the MDCT spectrum is the threshold value L1 or less.
  • the sparseness determination unit 1422 has a case where the number of spectra occupying a composition ratio of the threshold value (for example, 50%) or more in the MDCT spectrum is the threshold value L1 or less, and the root mean square of the absolute value of the MDCT spectrum (in other words, , Power mean value or mean amplitude) may be determined to have sparseness when the number of spectra exceeds the threshold value L2.
  • the threshold value for example, 50%
  • the root mean square of the absolute value of the MDCT spectrum in other words, Power mean value or mean amplitude
  • the sparseness determination unit 1422 may determine that the sparseness is not present.
  • determination condition 2 may be applied, for example, when the MDCT spectrum does not have a harmonic structure (an example will be described later).
  • the sparsity determination unit 1422 is based on the number of spectra in which the MDCT spectrum occupies a ratio (or composition ratio) equal to or greater than the threshold value in the MDCT spectrum, as shown in FIG. 5D. , Judge sparseness.
  • the sparseness determination unit 1422 is the ratio of the "maximum value of the multiplication value of the envelope and the absolute value of the MDCT spectrum" and the "root mean square". The sparseness may be determined based on.
  • the sparseness determination unit 1422 states that when the number of spectra occupying a composition ratio equal to or more than a threshold value (for example, 50%) in the MDCT spectrum is the threshold value L1 or less, and “the maximum value of the multiplication value between the envelope and the absolute value of the MDCT spectrum When the ratio of "value" and "root mean square" is equal to or greater than the threshold value L2, it may be determined that the MDCT spectrum has sparseness.
  • a threshold value for example, 50%
  • the ratio of the "maximum value of the multiplication of the envelope to the absolute value of the MDCT spectrum” and the "root mean square” is less than the threshold L2
  • the power (or amplitude) with respect to the maximum peak power (or amplitude) The ratio of the average value of (amplitude) can be large. Therefore, it is highly possible that the power (or amplitude) of the maximum peak is not concentrated (in other words, dispersed) in a part of the spectrum, so that the sparsity determination unit 1422 must have sparsity. You may judge.
  • the values of the parameter k and the threshold values L1 and L2 are examples, and are not limited to these values.
  • the ratio is not limited to 50% and may be another ratio.
  • the judgment conditions 1 to 3 have been described above.
  • the determination condition 1 to the determination condition 3 may be combined.
  • the determination condition of sparsity is not limited to the determination condition 1 to the determination condition 2, and other determination conditions may be used.
  • the sparsity determination unit 1422 switches the determination condition for determining the sparsity of the MDCT spectrum based on, for example, the uncorrected quantization scale coefficient (in other words, the initial value before correction) calculated based on the MDCT spectrum. You may.
  • FIG. 7 shows an example of switching the determination conditions in the sparsity determination unit 1422.
  • the sparseness determination unit 1422 applies the determination condition 1 and the determination condition 2 before the correction.
  • the determination condition 3 may be applied.
  • the threshold n1 may be determined, for example, based on whether or not it is a quantization scale coefficient corresponding to an MDCT spectrum that may have a harmonic structure. For example, the larger the peak amplitude value of the MDCT spectrum and the smaller the average value of the MDCT spectrum amplitude, the more likely the MDCT spectrum has a harmonic structure. Therefore, for example, when the quantization scale coefficient before correction is less than the threshold value n1 (in other words, when the peak amplitude value of the MDCT spectrum is large and the average value of the MDCT spectrum amplitude is small), the sparseness determination unit 1422 sparses. At the time of sex determination, it may be determined whether or not it has a harmonic structure.
  • the sparseness determination unit 1422 when the quantization scale coefficient before correction is the threshold value n1 or more (in other words, the peak amplitude value of only a few MDCT spectra is large and the average value of the MDCT spectrum amplitude is small). In the case), it is not necessary to determine whether or not it has a harmonic structure when determining the sparseness.
  • the threshold value n2 may be determined based on, for example, the lower limit of the amplitude level of the MDCT spectrum scaled by the quantization scale coefficient.
  • the quantization scale coefficient may be set so that the MDCT spectrum is quantized at 0 without setting the quantization scale coefficient larger.
  • the MDCT spectrum amplitude level near 0 is forcibly quantized with a value larger than 0, the MDCT spectrum can be overscaled depending on the setting of the quantization scale coefficient.
  • the upper limit of the quantization scale coefficient in other words, the lower limit of the amplitude level at which the MDCT spectrum is quantized, is set by setting the threshold value n2.
  • the threshold value n2 for example, when the amplitude level of the MDCT spectrum is near 0, it is possible to prevent a larger quantization scale coefficient from being set, so that excessive scaling of the MDCT spectrum can be suppressed.
  • the sparsity determination unit 1422 does not have to determine the sparsity.
  • the correction value of the quantization scale coefficient is not limited to the threshold value n2, and may be another value (for example, 0.05).
  • the sparsity determination unit 1422 switches the sparsity determination conditions based on the quantization scale coefficient (in other words, the MDCT spectrum amplitude level) before correction.
  • the sparsity determination unit 1422 can determine the sparsity according to the characteristics of the MDCT spectrum (for example, the amplitude level or the presence or absence of the harmonic structure), so that the sparsity determination accuracy can be improved. ..
  • the values of the threshold values n1 and n2 are examples, and other values may be used. Further, the threshold value may be one or three or more.
  • the initial value of the quantization scale coefficient is corrected based on whether or not the MDCT spectrum of the audio signal or the acoustic signal has sparseness, and the initial value is corrected.
  • the quantization scale factor is searched based on.
  • the initial value of the quantization scale coefficient is corrected to a value closer to, for example, the quantization case coefficient obtained in the binary search.
  • the quantization scale coefficient search unit 143 (for example, FIG. 3) may perform the search process shown in FIG.
  • the quantization scale coefficient search unit 143 may calculate the quantization scale coefficient (for example, expressed as “nx scl ”) in the next search based on the equation (1), for example.
  • t bit represents the target bit amount
  • bf bit represents the amount of bits consumed estimated for the arithmetic coding of the MDCT spectrum in the previous search
  • cr bit represents the arithmetic code of the MDCT spectrum in this search. Represents the estimated amount of bits consumed for conversion.
  • bf scl represents the quantization scale coefficient in the previous search
  • cr scl represents the quantization scale coefficient in the current search.
  • the quantization scale coefficient search unit 143 determines the difference n between the consumption bit amount cr bit and the target bit amount t bit estimated for the arithmetic coding of the MDCT spectrum in this search, and the previous time. Based on the difference m between the estimated bit consumption bf bit and the target bit amount t bit for the arithmetic coding of the MDCT spectrum in the search of , the quantization scale coefficient n x scl in the next time is determined. Note that nx scl satisfies "bf scl ⁇ nx scl ⁇ cr scl " or "cr scl ⁇ nx scl ⁇ bf scl ".
  • the quantization scale coefficient search unit 143 determines the quantization scale coefficient used in each search based on the difference (for example, m and n) between the amount of consumed bits estimated in each search and the amount of target bits. Weighting is performed.
  • the quantization scale coefficient search unit 143 sets a larger weight on the quantization scale coefficient cr scl at the time of the current search than at the quantization scale coefficient bf scl at the time of the previous search (for example,
  • the quantization scale coefficient for the next search obtained by weighting is wg scl
  • the quantization scale coefficient for the next search obtained by the binary search is bi scl (in the case of the binary search method, the weighting coefficient bi scl is 0.5.
  • the quantization scale coefficient search unit 143 may determine the quantization scale coefficient n x scl at the time of the next search by the weighted sum of both. The weighting factor of this weighting may be changed for each search.
  • nx scl 1 x wg scl + 0 x bi scl
  • nx scl 0.75 x wg scl + 0.25 x bi scl
  • nx scl 0.5 x wg scl + 0.5 x bi scl
  • nx scl 0.25 x wg
  • the weight may be increased or decreased by 0.25 each time, such as scl + 0.75 ⁇ bi scl
  • nx scl 0 ⁇ wg scl +1 ⁇ bi scl , which is the same as the dichotomy method.
  • nx scl is expressed by equation (2).
  • the search to be compared with the amount of bits consumed in this search is not limited to the previous search (in other words, the previous search), but may be a search before the previous search.
  • the search in which the quantization scale coefficient is determined based on a plurality of searches is not limited to the next search (in other words, the search after one), and may be a search after the next search.
  • the search to be compared with the consumption bit amount in the current search is not limited to one search in the past, and the consumption bit amount in a plurality of past searches may be used.
  • the preprocessing unit 1421 adjusts (in other words, in other words) the upper limit value of the quantization scale coefficient (initial value) in addition to the above-mentioned operation (for example, adjustment of the quantization scale coefficient). , Limit).
  • the sparsity determination unit 1422 may determine the sparsity based on the output of the preprocessing unit 1421 (quantization scale coefficient with an adjusted upper limit).
  • the preprocessing unit 1421 may set the threshold value n2 shown in FIG. 7 as the upper limit value.
  • the threshold value n2 shown in FIG. 7
  • the upper limit value of the quantization scale coefficient is adjusted to n2 in the preprocessing unit 1421, the quantization scale coefficient larger than the threshold value n2 is not input to the sparseness determination unit 1422, so that the sparseness determination (for example, FIG. In 7), the threshold value n2 does not have to be set.
  • the upper limit of the quantization scale coefficient in the preprocessing unit 1421 may be a value different from the threshold value n2.
  • the coding device 1 determines, for example, that the MDCT spectrum has sparseness, and when the number of spectra occupying the composition ratio of the threshold value (for example, 50%) is equal to or less than the threshold value, the quantized MDCT spectrum is used.
  • Pulse coding may be performed instead of arithmetic coding. By this processing, the coding efficiency can be improved.
  • the coding unit 152 shown in FIG. 3 may include, for example, a switching unit for switching the coding method, an arithmetic coding unit, and a pulse coding unit. Further, the coding device 1 may generate, for example, information indicating a coding method applied to the coding of the MDCT spectrum and transmit the information to the decoding device 2.
  • the decoding device 2 corresponds to a plurality of coding methods including, for example, arithmetic coding and pulse coding, and the decoding device 2 can specify the coding method in the coding device 1, the coding method is used. The indicated information does not have to be notified to the decoding device 2.
  • Each functional block used in the description of the above embodiment is partially or wholly realized as an LSI which is an integrated circuit, and each process described in the above embodiment is partially or wholly. It may be controlled by one LSI or a combination of LSIs.
  • the LSI may be composed of individual chips, or may be composed of one chip so as to include a part or all of functional blocks.
  • the LSI may include data input and output.
  • LSIs may be referred to as ICs, system LSIs, super LSIs, and ultra LSIs depending on the degree of integration.
  • the method of making an integrated circuit is not limited to LSI, and may be realized by a dedicated circuit, a general-purpose processor, or a dedicated processor. Further, an FPGA (Field Programmable Gate Array) that can be programmed after the LSI is manufactured, or a reconfigurable processor that can reconfigure the connection and settings of the circuit cells inside the LSI may be used.
  • FPGA Field Programmable Gate Array
  • the present disclosure may be realized as digital processing or analog processing.
  • the communication device may include a wireless transceiver and a processing / control circuit.
  • the wireless transmitter / receiver may include a receiver and a transmitter, or those as functions.
  • the radio transmitter / receiver (transmitter, receiver) may include an RF (Radio Frequency) module and one or more antennas.
  • RF modules may include amplifiers, RF modulators / demodulators, or the like.
  • Non-limiting examples of communication devices include telephones (mobile phones, smartphones, etc.), tablets, personal computers (PCs) (laptops, desktops, notebooks, etc.), cameras (digital stills / video cameras, etc.).
  • Digital players digital audio / video players, etc.
  • wearable devices wearable cameras, smart watches, tracking devices, etc.
  • game consoles digital book readers
  • telehealth telemedicines remote health Care / medicine prescription
  • vehicles with communication functions or mobile transportation automobiles, airplanes, ships, etc.
  • combinations of the above-mentioned various devices can be mentioned.
  • Communication devices are not limited to those that are portable or mobile, but are all types of devices, devices, systems that are not portable or fixed, such as smart home devices (home appliances, lighting equipment, smart meters or Includes measuring instruments, control panels, etc.), vending machines, and any other "Things” that can exist on the IoT (Internet of Things) network.
  • smart home devices home appliances, lighting equipment, smart meters or Includes measuring instruments, control panels, etc.
  • vending machines and any other “Things” that can exist on the IoT (Internet of Things) network.
  • Communication includes data communication using a combination of these, in addition to data communication using a cellular system, wireless LAN system, communication satellite system, etc.
  • the communication device also includes a device such as a controller or a sensor that is connected or connected to a communication device that executes the communication function described in the present disclosure.
  • a device such as a controller or a sensor that is connected or connected to a communication device that executes the communication function described in the present disclosure.
  • it includes controllers and sensors that generate control and data signals used by communication devices that perform the communication functions of the communication device.
  • Communication devices also include infrastructure equipment that communicates with or controls these non-limiting devices, such as base stations, access points, and any other device, device, or system. ..
  • the quantization scale coefficient determining device includes a correction circuit that corrects an initial value of the quantization scale coefficient based on whether or not the spectrum of the audio-acoustic signal has sparseness, and the initial value.
  • a determination circuit for determining whether or not it has the sparsity is further provided.
  • the determination circuit determines the sparsity based on the harmonic structure of the spectrum.
  • the determination circuit determines the sparsity based on the number of spectra that occupy a ratio equal to or greater than a threshold value in the audio-acoustic signal.
  • the determination circuit determines the sparsity based on the absolute value of the spectrum and the envelope of the spectrum.
  • the determination circuit switches the conditions for determining the sparsity based on the initial value before correction calculated based on the spectrum.
  • a preprocessing circuit for adjusting the upper limit of the initial value is further provided, and the determination circuit determines the sparsity based on the output of the preprocessing circuit.
  • the search circuit comprises a difference between an estimated bit amount consumed and a target bit amount for coding the spectrum in the first search, and a second search prior to the first search.
  • the quantization scale coefficient in the third search after the first search is determined based on the difference between the consumption bit amount estimated for the coding of the spectrum in the search and the target bit amount.
  • a calculation circuit for calculating the initial value based on either the dispersion of the spectral amplitude of the audio-acoustic signal or the standard deviation is further provided.
  • the quantization scale coefficient determining device corrects the initial value of the quantization scale coefficient based on whether or not the spectrum of the audio-acoustic signal has sparseness. Then, the quantization scale coefficient is searched based on the initial value.
  • One embodiment of the present disclosure is useful for a voice signal or acoustic signal transmission system or the like.

Landscapes

  • Physics & Mathematics (AREA)
  • Engineering & Computer Science (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Computational Linguistics (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)

Abstract

量子化スケール係数決定装置は、音声信号のスペクトルがスパース性を有するか否かに基づいて、量子化スケール係数の初期値を補正する補正回路と、初期値に基づいて、量子化スケール係数の探索を行う探索回路と、を具備する。

Description

量子化スケール係数決定装置、及び、量子化スケール係数決定方法
 本開示は、量子化スケール係数決定装置、及び、量子化スケール係数決定方法に関する。
 符号化技術の一つに、音声信号又は音響信号(例えば、「音声音響信号」とも呼ぶ)を低ビットレートによって符号化する修正離散コサイン変換(MDCT:Modified Discrete Cosine Transform)スペクトル算術符号化技術がある。この符号化技術は、例えば、MDCTスペクトルをスケーリング(又は、量子化スケーリングと呼ぶ)して量子化し、算術符号化する(例えば、特許文献1を参照)。
特表2019-514065号公報
 しかしながら、音声信号又は音響信号の符号化において演算量を低減する方法について検討の余地がある。
 本開示の非限定的な実施例は、音声信号又は音響信号の符号化において演算量を低減できる量子化スケール係数決定装置、及び、量子化スケール係数決定方法の提供に資する。
 本開示の一実施例に係る量子化スケール係数決定装置は、音声音響信号のスペクトルがスパース性を有するか否かに基づいて、量子化スケール係数の初期値を補正する補正回路と、前記初期値に基づいて、前記量子化スケール係数の探索を行う探索回路と、を具備する。
 なお、これらの包括的または具体的な態様は、システム、装置、方法、集積回路、コンピュータプログラム、または、記録媒体で実現されてもよく、システム、装置、方法、集積回路、コンピュータプログラムおよび記録媒体の任意な組み合わせで実現されてもよい。
 本開示の一実施例によれば、音声信号又は音響信号の符号化における演算量を低減できる。
 本開示の一実施例における更なる利点および効果は、明細書および図面から明らかにされる。かかる利点および/または効果は、いくつかの実施形態並びに明細書および図面に記載された特徴によってそれぞれ提供されるが、1つまたはそれ以上の同一の特徴を得るために必ずしも全てが提供される必要はない。
音声信号又は音響信号の伝送システムの構成例を示すブロック図 TCX符号化部の構成例を示すブロック図 レートループ処理部及び量子化・符号化部の構成例を示すブロック図 スパース解析部の構成例を示すブロック図 スパース性を有するスペクトルの一例を示す図 スパース性に基づく量子化スケール係数の補正処理の一例を示す図 スパース性の判定条件の一例を示す図 量子化スケール係数の探索処理の一例を示す図
 以下、本開示の実施の形態について図面を参照して詳細に説明する。
 特許文献1では、例えば、線形予測分析(例えば、linear prediction coding(LPC)分析)に基づいて得られるMDCTスペクトルのエンベロープ(換言すると、包絡線)と、MDCTスペクトルの絶対値とを乗算した値の二乗平均平方根(RMS:Root Mean Square)の逆数が、MDCTスペクトルの量子化スケーリングにおける「量子化スケール係数」の初期値に設定される。
 符号化装置は、例えば、量子化スケール係数の初期値に基づいて、量子化スケール係数の探索処理を行う。例えば、符号化装置は、量子化スケール係数に基づいて、MDCTスペクトルの算術符号化によって消費されるビット量(例えば、「消費ビット量」と呼ぶ)を近似式から推定する。そして、符号化装置は、推定された消費ビット量と目標ビット量との比較を行い、例えば、「目標ビット量を超えない」かつ「目標ビット量に最も近い」条件を満たす量子化スケール係数を、二分探索法に従って探索する。
 しかしながら、例えば、量子化スケール係数の初期値が、探索後の量子化スケール係数(換言すると、二分探索において収束した値)から離れているほど、探索において値が収束するまでの探索回数が増加し、符号化装置における演算量が増加する可能性がある。また、二分探索法は収束が遅い方法であることが知られている。
 そこで、本開示の一実施例では、量子化スケール係数の探索における演算量を低減する方法について説明する。
 [伝送システムの概要]
 図1は、本実施の形態に係る音声信号又は音響信号の伝送システムの構成例を示す。
 図1に示す伝送システムは、例えば、符号化装置1と、復号装置2とを備える。
 符号化装置1は、例えば、音声信号又は音響信号といった入力信号を符号化し、符号化データを、通信網又は記憶媒体(図示せず)を介して、復号装置2に送信する。例えば、符号化装置1は、Moving Picture Experts Group(MPEG)、3rd Generation Partnership Project(3GPP)又はInternational Telecommunication Union Telecommunication Standardization Sector(ITU-T)といった規格に規定されている種々の音声音響コーデック(例えば、エンコーダ)を備えてよい。
 復号装置2は、例えば、伝送路又は記憶媒体を介して、符号化装置1から受信した符号化データを復号して出力信号(例えば、電気信号)を出力する。復号装置2は、例えば、電気信号を、スピーカ又はヘッドホンを介して音波として出力してよい。また、復号装置2は、例えば、前述した音声音響コーデックに対応するデコーダを用いてもよい。
 また、符号化装置1におけるコーデックには、例えば、周波数領域符号化の一つであるtransformed code excitation(TCX)符号化が含まれてよい。例えば、図1に示す符号化装置1は、TCX符号化処理を行うTCX符号化部10を備える。
 TCX符号化は、例えば、13.2kbps又は16.4kbpsといった低ビットレートの伝送における符号化に適用されてよい。なお、TCX符号化が適用される伝送のビットレートは、13.2kbps及び16.4kbpsに限らず、他のビットレートでもよい。励振信号の符号化にMDCTを用いるTCX符号化は、例えば、「MDCT based TCX」と呼ばれることもある。
 [TCX符号化部10の構成例]
 図2は、図1に示す符号化装置1に含まれるTCX符号化部10の構成例を示す。図2に示すTCX符号化部10は、例えば、エンベロープ生成部11、ハーモニクス解析部12、エンベロープスケーリング部13、レートループ処理部14、及び、量子化・符号化部15を備える。
 エンベロープ生成部11には、例えば、入力信号に対するMDCTによって得られる周波数領域信号(以下、「MDCTスペクトル」と呼ぶ)、及び、入力信号に対するLPC分析によって得られるLPC係数が入力される。エンベロープ生成部11は、例えば、LPC係数に基づいて、MDCTスペクトルのエンベロープ(換言すると、包絡線)を生成する。エンベロープ生成部11は、生成したエンベロープを示すエンベロープ情報、及び、MDCTスペクトルを示すスペクトル情報をハーモニクス解析部12へ出力する。
 ハーモニクス解析部12は、例えば、エンベロープ生成部11から入力される情報に基づいて、MDCTスペクトルにおけるハーモニクス構造(換言すると、高調波成分)を解析する。ハーモニクス解析部12は、例えば、ハーモニクス構造の解析結果を示すハーモニクス情報、エンベロープ情報、及び、スペクトル情報をエンベロープスケーリング部13へ出力する。
 例えば、ハーモニクス情報には、MDCTスペクトルがハーモニクス構造を有するか否かを示す情報(例えば、「ハーモニクスフラグ」又は「高調波モデルフラグ」と呼ぶ)が含まれてよい。また、ハーモニクス情報には、例えば、ハーモニクスのゲイン(換言すると、高調波の利得)を示すインデックス(例えば、「ハーモニクスゲインインデックス」と呼ぶ)が含まれてよい。ハーモニクスゲインインデックスは、例えば、ハーモニクスのゲインを或るレベル毎にインデックス化(換言すると、量子化)した値でもよい。例えば、ハーモニクスゲインインデックスの値が高いほど、ハーモニクスのゲインレベルが高くてよい。
 エンベロープスケーリング部13は、例えば、ハーモニクス解析部12から入力される情報に基づいて、MDCTスペクトルのエンベロープに対してスケーリング処理を行う。エンベロープスケーリング部13は、スケーリングされたエンベロープを示すエンベロープ情報、ハーモニクス情報、及び、スペクトル情報をレートループ処理部14へ出力する。
 レートループ処理部14は、エンベロープスケーリング部13から入力される情報に基づいて、レートループ処理(又は、量子化レートループ処理とも呼ぶ)を行い、MDCTスペクトルの量子化における量子化スケール係数を算出する。レートループ処理部14は、例えば、消費ビット量と目標ビット量との比較に基づいて、量子化スケール係数を探索する。探索方法は、例えば、二分探索法でもよく、他の探索法でもよい。
 また、レートループ処理部14は、例えば、MDCTスペクトルにおけるスパース性に基づいて、探索における量子化スケール係数の初期値を設定してよい。なお、レートループ処理部14における量子化スケール係数の初期値の設定方法の一例は後述する。
 レートループ処理部14は、探索した量子化スケール係数を示す情報、及び、スペクトル情報を量子化・符号化部15へ出力する。
 量子化・符号化部15は、レートループ処理部14から入力される情報に基づいて、MDCTスペクトルを量子化及び符号化し、得られる符号化データを出力する。
 [レートループ処理部14及び量子化・符号化部15の構成例]
 図3は、図2に示すTCX符号化部10に含まれるレートループ処理部14(例えば、量子化スケール係数決定装置に相当)及び量子化・符号化部15の構成例を示す。
 図3に示すレートループ処理部14は、例えば、量子化スケール係数計算部141(例えば、算出回路に相当)、スパース解析部142、及び、量子化スケール係数探索部143(例えば、探索回路に相当)を備える。また、図3に示す量子化・符号化部15は、例えば、量子化部151及び符号化部152を備える。
 図3に示すレートループ処理部14において、量子化スケール係数計算部141は、例えば、エンベロープスケーリング部13から入力されるエンベロープ情報、及び、スペクトル情報に基づいて、MDCTスペクトルの量子化処理における量子化スケール係数の初期値を算出する。例えば、量子化スケール係数計算部141は、エンベロープ(例えば、LPC分析に基づいて得られるエンベロープ)と、MDCTスペクトルの絶対値との乗算値(言い換えると、スペクトル包絡で正規化した振幅スペクトル)の標準偏差の逆数を、量子化スケール係数の初期値(又は、「補正前の量子化スケール係数」と呼ぶこともある)に設定してよい。標準偏差の逆数を用いることにより、スペクトル振幅値にばらつきが大きいほど小さな量子化スケール係数となり、ばらつきが小さいほど大きな量子化スケール係数となる。量子化スケール係数計算部141は、補正前の量子化スケール係数を示す情報をスパース解析部142へ出力する。
 なお、量子化スケール係数計算部141における量子化スケール係数の算出方法は、上述した方法に限定されない。例えば、量子化スケール係数計算部141は、エンベロープと、MDCTスペクトルの絶対値との乗算値の分散の逆数を、量子化スケール係数の初期値に設定してよい。また、例えば、量子化スケール係数計算部141は、エンベロープと、MDCTスペクトルとの乗算値に対する二乗平均平方根の逆数(又は、この逆数に所定の係数を乗算してもよい)を、量子化スケール係数の初期値に設定してよい。
 スパース解析部142は、例えば、ハーモニクス情報、スペクトル情報、及び、エンベロープ情報の少なくとも一つに基づいて、MDCTスペクトルのスパース性を解析(換言すると、判定)する。
 「スパース性(sparsity)」は、例えば、MDCTスペクトルの分布において、少数のスペクトル(成分)が非ゼロとなり、多数のスペクトル(成分)がゼロ(又は、振幅が閾値未満の成分)となる性質である。又は、スパース性は、例えば、スペクトル振幅の総和のうち、少数のスペクトルによってより多くのスペクトル振幅の割合(例えば、50%以上の振幅和)が占められている状態である。
 スパース解析部142は、例えば、スパース性の解析結果に基づいて、量子化スケール係数計算部141から入力される量子化スケール係数を補正するか否かを決定してよい。スパース解析部142は、量子化スケール係数の補正を決定した場合、量子化スケール係数を補正し、補正後の量子化スケール係数を示す情報を量子化スケール係数探索部143へ出力する。一方、スパース解析部142は、量子化スケール係数を補正しない場合、量子化スケール係数計算部141から入力される量子化スケール係数を示す情報を、量子化スケール係数探索部143へ出力する。
 量子化スケール係数探索部143は、スパース解析部142から入力される量子化スケール係数の初期値に基づいて、量子化スケール係数の探索を行う。そして、量子化スケール係数探索部143は、例えば、算術符号化について推定される消費ビット量と、目標ビット量との比較結果に基づいて二分探索を行い、探索後の量子化スケール係数を示す情報を量子化・符号化部15(量子化部151)へ出力する。
 図3に示す量子化・符号化部15において、量子化部151は、量子化スケール係数探索部143から入力される量子化スケール係数に基づいて、MDCTスペクトルを量子化する。量子化部151は、量子化後のMDCTスペクトルを示す情報を符号化部152へ出力する。
 符号化部152は、量子化部151から入力される量子化後のMDCTスペクトルを符号化し、符号化データを出力する。符号化部152における符号化方式は、例えば、算術符号化でもよく、他の符号化でもよい。
 [スパース解析部142の構成例]
 図4は、スパース解析部142の構成例を示す。
 図4に示すスパース解析部142は、例えば、前処理部1421(例えば、前処理回路に相当)、スパース性判定部1422(例えば、判定回路に相当)、及び、量子化スケール係数補正部1423(例えば、補正回路に相当)を備える。
 前処理部1421は、例えば、量子化スケール係数計算部141から入力される量子化スケール係数(例えば、補正前の量子化スケール係数(初期値))に対して前処理を行う。前処理部1421は、例えば、量子化スケール係数の上限値を調整してよい。また、前処理部1421は、例えば、量子化スケール係数に特定の値(例えば、1.00未満の値)を乗算してもよい。前処理部1421は、前処理後の量子化スケール係数を示す情報をスパース性判定部1422へ出力する。
 スパース性判定部1422は、MDCTスペクトルがスパース性を有するか否かを判定する。例えば、スパース性判定部1422は、エンベロープ情報、ハーモニクス情報、及び、MDCTスペクトルに関する情報(例えば、MDCTスペクトルの絶対値)に基づいて、MDCTスペクトルのスパース性を判定してよい。
 図5(a)~図5(d)は、スパース性を有する場合のMDCTスペクトルの一例を示す。図5(a)~図5(d)において、横軸は周波数(例えば、周波数bin)を表し、縦軸はMDCTスペクトルの振幅(例えば、振幅の絶対値)を表す。
 例えば、ハーモニクス構造を有するMDCTスペクトルでは、例えば、図5(a)又は図5(b)に示すように、或る間隔でMDCTスペクトルのピークが集中的に現れる。換言すると、ハーモニクス構造を有する場合、或る間隔のMDCTスペクトル(換言すると、ピーク成分)は、他の周波数のMDCTスペクトル(換言すると、ピークと異なる成分)と比較して、振幅(又はパワー)が大きくなり得る。よって、図5(a)又は図5(b)に示すように、ハーモニクス構造を有するMDCTスペクトルは、スパース性を有し得る。
 また、例えば、図5(c)又は図5(d)に示すように、一部のMDCTスペクトルにエネルギが集中する場合があり得る。換言すると、エネルギが集中する一部のMDCTスペクトルは、他のMDCTスペクトルと比較して、振幅(又は、パワー)が大きくなり得る。よって、図5(c)又は図5(d)に示すように、エネルギが一部のスペクトルに集中するMDCTスペクトルは、スパース性を有し得る。
 そこで、スパース性判定部1422は、例えば、ハーモニクス情報に基づいてスパース性を判定してよい。また、スパース性判定部1422は、例えば、MDCTスペクトル(換言すると、音声信号又は音響信号)において閾値(例えば、50%)以上の割合を占めるスペクトル数に基づいてスパース性を判定してよい。また、スパース性判定部1422は、例えば、LPC分析に基づくエンベロープ、及び、MDCTスペクトル(例えば、絶対値)に基づいてスパース性を判定してよい。なお、スパース性の判定は、ハーモニクス情報、エンベロープ情報、及び、MDCTスペクトル(例えば、絶対値)の少なくとも一つのパラメータ(又は、特徴量)に限らず、他のパラメータに基づいて判定されてもよい。
 なお、スパース性判定部1422におけるMDCTスペクトルがスパース性を有するか否かを判定する条件の一例については後述する。
 量子化スケール係数補正部1423は、例えば、MDCTスペクトルがスパース性を有するか否かに基づいて、量子化スケール係数の初期値を補正する。例えば、量子化スケール係数補正部1423は、MDCTスペクトルにおいてスパース性が有る場合、量子化スケール係数(初期値)を補正する。一方、スパース解析部142は、例えば、MDCTスペクトルにおいてスパース性が無い場合、量子化スケール係数の補正を行わない。量子化スケール係数補正部1423は、得られた量子化スケール係数を、量子化・符号化部15(例えば、図3)へ出力する。
 ここで、図3において、量子化スケール係数計算部141では、例えば、LPC分析に基づいて得られるエンベロープ(換言すると、スケーリングされたエンベロープ)と、MDCTスペクトルの絶対値との乗算値に対する標準偏差の逆数が、量子化スケール係数に決定される。
 また、例えば、図5(a)~(d)に示すように、MDCTスペクトルがスパース性を有する場合には、MDCTスペクトルがスパース性を有さない場合(図示せず)と比較して、同じようなMDCTスペクトルのピーク値を有する場合において、MDCTスペクトルの平均値はより低くなり得る。
 このため、MDCTスペクトルにおいて、スパース性を有する場合には、スパース性を有さない場合と比較して、MDCTスペクトル全体のエネルギあるいは平均振幅(例えば、上記標準偏差に相当)は低く推定され得る。よって、例えば、MDCTスペクトルにおいて、スパース性を有する場合には、量子化スケール係数計算部141において決定される量子化スケール係数(例えば、上記標準偏差の逆数)は、スパース性を有さない場合の量子化スケール係数、又は、探索後の量子化スケール係数と比較して、より大きな値になり得る。
 図6は、スパース性に基づく量子化スケール係数の補正処理の一例を示す。例えば、図6は、MDCTスペクトルがスパース性を有する場合の量子化スケール係数(換言すると、補正前の量子化スケール係数)と、探索後の量子化スケール係数(換言すると、補正後の量子化スケール係数)との対応関係の一例を示す。
 図6において、横軸は、探索(例えば、二分探索)後の量子化スケール係数を表し、縦軸は、スパース性判定部1422に入力される量子化スケール係数を表す。スパース性判定部1422に入力される量子化スケール係数は、例えば、量子化スケール係数計算部141において算出される量子化スケール係数でもよく、前処理部1421において調整された量子化スケール係数でもよい。
 図6に示すように、例えば、スパース性判定部1422においてMDCTスペクトルがスパース性を有すると判定された場合、量子化スケール係数補正部1423は、補正前の量子化スケール係数(例えば、scl_b)を、量子化スケール係数(例えば、scl_a)に補正(低減)する。
 量子化スケール係数の補正方法は、例えば、図6に示すように、スパース性が有る場合の量子化スケール係数と、探索後の量子化スケール係数との統計的な関係(例えば、シミュレーション結果)に基づいて設定されてよい。例えば、図6の例では、補正前の量子化スケール係数scl_b=0.0400、及び、補正後の量子化スケール係数scl_a=0.0216となり、scl_bと、scl_aとの間に「1.85」の比率がある。よって、例えば、量子化スケール係数補正部1423は、MDCTスペクトルがスパース性を有する場合には、量子化スケール係数scl_bを、1.85で除した値scl_aに補正してよい(例えば、scl_a = scl_b / 1.85)。
 なお、パラメータ「1.85」は一例であり、この値に限定されない。また、量子化スケール係数の補正方法は、上記方法に限らず、他の方法でもよい。
 以上、スパース解析部142の動作について説明した。例えば、MDCTスペクトルにおいてスパース性を有する場合には、量子化スケール係数探索部143は、補正後の量子化スケール係数の初期値に基づいて探索を開始できる。例えば、図6では、量子化スケール係数探索部143は、補正後の量子化スケール係数scl_aを初期値に設定して、二分探索を行う。この探索により、量子化スケール係数探索部143は、例えば、図6に示す補正前の量子化スケール係数scl_bを初期値に設定して二分探索を行う場合と比較して、二分探索による収束値を得るまでの探索回数、すなわち、演算量を低減できる。
 [スパース性の判定例]
 次に、スパース性判定部1422におけるMDCTスペクトルがスパース性を有するか否かを判定する条件(判定方法)の一例について説明する。
 <判定条件1>
 判定条件1では、スパース性判定部1422は、MDCTスペクトルが図5(a)又は図5(b)のように、「ハーモニクス構造」を有するか否かに基づいて、スパース性を判定する。
 例えば、スパース性判定部1422は、ハーモニクスフラグと、ハーモニクスゲインインデックスと、MDCTスペクトルの絶対値の平均値(以下、「スペクトル平均値」と呼ぶ)と、に基づいて、スパース性を判定してよい。
 また、例えば、スパース性判定部1422は、ハーモニクスフラグがONの場合(換言すると、ハーモニクス構造を有する場合)、かつ、ハーモニクスゲインインデックスが閾値以上の場合(換言すると、ハーモニクスのゲインが閾値以上の場合)、かつ、スペクトル平均値を超えるスペクトル(換言すると、周波数bin又はラインとも呼ぶ)の数が閾値未満の場合、MDCTスペクトルがスパース性を有すると判定してよい。
 例えば、MDCTスペクトルがハーモニクス構造を有する場合でも、スペクトル平均値を超えるスペクトル数が閾値以上の場合には、ハーモニクス構造におけるスペクトルのピーク成分と、ピーク成分と異なる他の成分との差がより小さくなり、スパース性を有さない可能性がある。よって、スペクトル平均値を超えるスペクトル数が閾値以上の場合には、スパース性判定部1422は、MDCTスペクトルがスパース性を有さないと判定してよい。
 なお、判定条件1において、ハーモニクスゲインインデックスに対する閾値は複数設定されてよい。また、判定条件1において、スペクトル平均値を超えるスペクトル数に対する閾値は複数設定されてよい。
 例えば、図5(a)に示す例は、ハーモニクスフラグがONであり、ハーモニクスゲインインデックスが閾値「X1」(例えば、X1=3)以上であり、かつ、スペクトル平均値を超えるスペクトル数が閾値「Y1」(例えば、Y1=95)未満の場合を示す。
 また、例えば、図5(b)に示す例は、ハーモニクスフラグがONであり、ハーモニクスゲインインデックスが閾値「X2」(例えば、X2=2)であり、かつ、スペクトル平均値を超えるスペクトル数が閾値「Y2」(例えば、Y2=85)未満の場合を示す。
 なお、閾値X1、X2、Y1及びY2の値は一例であり、これらの値に限定されない。また、ここでは、X1及びY1の組み合わせ、及び、X2及びY2の組み合わせの2パターンの条件の何れかに基づいて、スパース性が判定される場合について説明したが、これに限定されない。例えば、ハーモニクスゲインインデックスに関する閾値X、及び、スペクトル平均値を超えるスペクトル数に関する閾値Yの組み合わせのパターンは、1パターンでもよく、3パターン以上でもよい。
 <判定条件2>
 判定条件2では、スパース性判定部1422は、MDCTスペクトルが図5(c)のように、MDCTスペクトルにおいて閾値以上の割合(例えば、「構成比」とも呼ぶ)を占めるスペクトル数に基づいて、スパース性を判定する。
 例えば、スパース性判定部1422は、MDCTスペクトルにおいて閾値(例えば、50%)以上の構成比を占めるスペクトル数が閾値L1以下の場合に、MDCTスペクトルがスパース性を有すると判定してよい。
 または、例えば、スパース性判定部1422は、MDCTスペクトルにおいて閾値(例えば、50%)以上の構成比を占めるスペクトル数が閾値L1以下の場合、かつ、MDCTスペクトルの絶対値の二乗平均平方根(換言すると、パワー平均値または平均振幅)を超えるスペクトル数が閾値L2未満の場合に、MDCTスペクトルがスパース性を有すると判定してよい。
 例えば、MDCTスペクトルの絶対値の二乗平均平方根を超えるスペクトル数が閾値L2以上の場合、MDCTスペクトルの分布において、エネルギが一部のスペクトルに集中していない(換言すると、分散している)可能性が高いので、スパース性判定部1422は、スパース性を有さないと判定してよい。
 例えば、図5(c)に示す例は、振幅上位のスペクトルk個(例えば、k=4)にエネルギが集中し、上位k個のMDCTスペクトルの振幅がスペクトル全体の振幅総和に対して50%以上を占め、かつ、MDCTスペクトルの絶対値の二乗平均平方根を超えるスペクトル数が閾値L1(例えば、L1=13)未満の場合を示す。
 なお、判定条件2は、例えば、MDCTスペクトルがハーモニクス構造を有さない場合に適用されてもよい(一例は後述する)。
 <判定条件3>
 判定条件3では、スパース性判定部1422は、判定条件2と同様、MDCTスペクトルが図5(d)のように、MDCTスペクトルにおいて閾値以上の割合(又は、構成比)を占めるスペクトル数に基づいて、スパース性を判定する。
 また、判定条件3では、スパース性判定部1422は、スペクトルの占める構成比に基づく条件に加え、「エンベロープとMDCTスペクトルの絶対値との乗算値の最大値」と「二乗平均平方根」との比に基づいて、スパース性を判定してよい。
 例えば、スパース性判定部1422は、MDCTスペクトルにおいて閾値(例えば、50%)以上の構成比を占めるスペクトル数が閾値L1以下の場合、かつ、「エンベロープとMDCTスペクトルの絶対値との乗算値の最大値」と「二乗平均平方根」との比が閾値L2以上の場合、MDCTスペクトルがスパース性を有すると判定してよい。
 例えば、「エンベロープとMDCTスペクトルの絶対値との乗算値の最大値」と「二乗平均平方根」との比が閾値L2未満の場合、MDCTスペクトルにおいて、最大ピークのパワー(または振幅)に対するパワー(または振幅)の平均値の比率が大きくなり得る。このため、最大ピークのパワー(または振幅)が一部のスペクトルに集中していない(換言すると、分散している)可能性が高いので、スパース性判定部1422は、スパース性を有さないと判定してよい。
 例えば、図5(d)に示す例は、スペクトル振幅上位のk個(例えば、k=4)がスペクトル全体のエネルギ(スペクトル振幅の総和)の50%以上を占め、かつ、「エンベロープとMDCTスペクトルの絶対値との乗算値の最大値」と「二乗平均平方根」との比が閾値L2(例えば、L2=12.4)以上の場合を示す。
 なお、パラメータk、閾値L1及びL2の値は一例であり、これらの値に限定されない。
 また、判定条件2及び判定条件3において、スペクトルが占める構成比に関する閾値が50%の場合について説明したが、50%に限らず、他の割合でもよい。
 また、判定条件2及び判定条件3において、例えば、k個のスペクトルが占める構成比が50%を超えることは、フレーム内のスペクトル数(例えば、L_frame個)のうち、構成比50%を占めるスペクトル数kの割合(例えば、k/L_frame)が閾値以下であることに置き換えてもよい。例えば、L_frame=640であり、閾値=0.0559の場合、k/L_frame≦0.0559を満たすkは4個である。
 以上、判定条件1~判定条件3について説明した。なお、判定条件1~判定条件3を組み合わせてもよい。また、スパース性の判定条件は、判定条件1~判定条件2に限らず、他の判定条件でもよい。
 スパース性判定部1422は、例えば、MDCTスペクトルに基づいて算出される補正前の量子化スケール係数(換言すると、補正前の初期値)に基づいて、MDCTスペクトルのスパース性を判定する判定条件を切り替えてもよい。
 図7は、スパース性判定部1422における判定条件の切り替え例を示す。
 例えば、図7の例では、スパース性判定部1422は、補正前の量子化スケール係数が閾値n1(例えば、n1=0.01)未満の場合には判定条件1及び判定条件2を適用し、補正前の量子化スケール係数が閾値n1以上、かつ、閾値n2(例えば、n2=0.0559)以下の場合には判定条件3を適用してもよい。
 閾値n1は、例えば、ハーモニクス構造を有する可能性のあるMDCTスペクトルに対応する量子化スケール係数であるか否かに基づいて決定されてよい。例えば、MDCTスペクトルのピーク振幅値が大きく、かつMDCTスペクトル振幅の平均値が小さいほど、当該MDCTスペクトルがハーモニクス構造を有する可能性が高い。そこで、例えば、スパース性判定部1422は、補正前の量子化スケール係数が閾値n1未満の場合(換言すると、MDCTスペクトルのピーク振幅値が大きく、かつMDCTスペクトル振幅の平均値が小さい場合)、スパース性判定の際にハーモニクス構造を有するか否かを判定してよい。一方、例えば、スパース性判定部1422は、補正前の量子化スケール係数が閾値n1以上の場合(換言すると、MDCTスペクトルの数本のみのピーク振幅値が大きく、かつMDCTスペクトル振幅の平均値が小さい場合)、スパース性判定の際にハーモニクス構造を有するか否かを判定しなくてよい。
 また、閾値n2は、例えば、量子化スケール係数によってスケーリングされるMDCTスペクトルの振幅レベルの下限値に基づいて決定されてよい。
 例えば、MDCTスペクトルの振幅レベルが小さいほど、量子化スケール係数は大きく設定され得る。ただし、MDCTスペクトルの振幅レベルが0付近では、量子化スケール係数をより大きく設定することなく、MDCTスペクトルが0で量子化されるような量子化スケール係数に設定してもよい。換言すると、MDCTスペクトル振幅レベルが0付近のものを無理に0より大きな値で量子化するような場合には、量子化スケール係数の設定によっては、MDCTスペクトルを過剰にスケーリングし得る。
 例えば、図7に示す例では、閾値n2の設定により、量子化スケール係数の上限値、換言すると、MDCTスペクトルが量子化される振幅レベルの下限値が設定される。閾値n2の設定により、例えば、MDCTスペクトルの振幅レベルが0付近の場合に、より大きな量子化スケール係数が設定されることを防止できるので、MDCTスペクトルの過剰なスケーリングを抑制できる。
 また、例えば、図7において、補正前の量子化スケール係数が閾値n2より大きい場合、スパース性判定部1422は、スパース性の判定を行わなくてもよい。補正前の量子化スケール係数が閾値n2より大きい場合、例えば、量子化スケール係数補正部1423は、スパース性の有無に依らず、量子化スケール係数を、閾値n2(図7では例えば、n2=0.0559)の値に設定してよい。なお、補正前の量子化スケール係数が閾値n2より大きい場合の量子化スケール係数の補正値は、閾値n2に限らず、他の値(例えば、0.05)でもよい。
 このように、スパース性判定部1422は、補正前の量子化スケール係数(換言すると、MDCTスペクトル振幅レベル)に基づいて、スパース性の判定条件を切り替える。判定条件の切り替えにより、スパース性判定部1422は、MDCTスペクトルの特徴(例えば、振幅レベル、又は、ハーモニクス構造の有無等)に応じて、スパース性を判定できるので、スパース性の判定精度を向上できる。
 なお、閾値n1及びn2の値は一例であり、他の値でもよい。また、閾値は、1個でもよく、3個以上でもよい。
 以上のように、本実施の形態では、符号化装置1において、音声信号又は音響信号のMDCTスペクトルがスパース性を有するか否かに基づいて、量子化スケール係数の初期値を補正し、初期値に基づいて、量子化スケール係数の探索を行う。換言すると、符号化装置1において、量子化スケール係数の初期値は、例えば、二分探索において得られる量子化スケース係数により近い値へ補正される。この補正により、例えば、二分探索における探索回数を低減し、量子化スケール係数の探索処理における演算量を低減できる。よって、本実施の形態によれば、音声信号又は音響信号の符号化における演算量を低減できる。
 (バリエーション1)
 バリエーション1では、量子化スケール係数探索部143(例えば、図3)は、図8に示す探索処理を行ってもよい。
 図8では、量子化スケール係数探索部143は、例えば、式(1)に基づいて、次回の探索における量子化スケール係数(例えば、「nxscl」と表す)を算出してよい。
Figure JPOXMLDOC01-appb-M000001
 式(1)において、tbitは目標ビット量を表し、bfbitは前回の探索においてMDCTスペクトルの算術符号化について推定される消費ビット量を表し、crbitは今回の探索においてMDCTスペクトルの算術符号化について推定される消費ビット量を表す。また、bfsclは前回の探索における量子化スケール係数を表し、crsclは今回の探索における量子化スケール係数を表す。
 このように、バリエーション1では、量子化スケール係数探索部143は、今回の探索におけるMDCTスペクトルの算術符号化について推定される消費ビット量crbitと目標ビット量tbitとの差分n、及び、前回の探索におけるMDCTスペクトルの算術符号化について推定される消費ビット量bfbitと目標ビット量tbitとの差分mに基づいて、次回のにおける量子化スケール係数nxsclを決定する。なお、nxsclは、”bfscl≦nxscl≦crscl”または”crscl≦nxscl≦bfsclを満たす。
 換言すると、量子化スケール係数探索部143は、各探索において推定される消費ビット量と目標ビット量との差分(例えば、m及びn)に基づいて、各探索に使用された量子化スケール係数に対して重み付けを行う。
 例えば、図8に示す例では、前回探索時の消費ビット量bfbitと目標ビット量tbitとの差分mよりも、今回探索時の消費ビット量crbitと目標ビット量tbitとの差分nの方が小さい。よって、量子化スケール係数探索部143は、前回探索時の量子化スケール係数bfsclよりも今回探索時の量子化スケール係数crsclに対する重み付けを大きく設定し(例えば、|m|<|n|)、次回探索時の量子化スケール係数nxsclを決定する。
 また、重み付けで得られた次回探索時の量子化スケール係数をwgsclとし、二分探索で得られた次回探索時の量子化スケール係数をbiscl(二分探索法の場合、重み係数bisclは0.5となる)とし、量子化スケール係数探索部143は、両者の重みづけ和によって次回探索時の量子化スケール係数nxsclを決定してもよい。この重みづけの重み係数は探索ごとに変えてもよい。例えば,nxscl=1×wgscl+0×bisclから始めて、nxscl=0.75×wgscl+0.25×biscl,nxscl=0.5×wgscl+0.5×biscl,nxscl=0.25×wgscl+0.75×biscl,と1回ごとに0.25ずつ重みを増減させ、最終的に二分探索法と同じとなる、nxscl=0×wgscl+1×bisclにしても良い。一般化すると、nxsclは式(2)で表される。
Figure JPOXMLDOC01-appb-M000002
 バリエーション1によれば、例えば、前回探索時及び今回探索時の量子化スケール係数の中間値を次回探索時の量子化スケール係数に設定する場合と比較して、目標ビット量を満たす量子化スケール係数をより早く(少ない探索回数で)探索できる。よって、量子化スケール係数探索部143における量子化スケール係数の探索回数を低減でき、演算量を低減できる。
 なお、今回の探索における消費ビット量と比較する探索は、前回の探索(換言すると、1つ前の探索)に限らず、前回の探索より前の探索でもよい。また、複数の探索に基づいて量子化スケール係数が決定される探索は、次回の探索(換言すると、1つ後の探索)に限らず、次回の探索より後の探索でもよい。また、今回の探索における消費ビット量と比較する探索は、過去の1回の探索に限らず、過去の複数の探索における消費ビット量が使用されてもよい。
 (バリエーション2)
 図4に示すスパース解析部142において、前処理部1421は、上述した動作(例えば、量子化スケール係数の調整)に加え、例えば、量子化スケール係数(初期値)の上限値を調整(換言すると、リミット)してもよい。この場合、スパース性判定部1422は、前処理部1421の出力(上限値が調整された量子化スケール係数)に基づいて、スパース性を判定してよい。
 例えば、量子化スケール係数の上限値を調整する場合、前処理部1421は、図7に示す閾値n2を上限値に設定してよい。この設定により、上述したように、量子化スケール係数によってスケーリングされるMDCTスペクトル振幅レベルの下限値が設定され、MDCTスペクトルの過剰なスケーリングを抑制できる。また、前処理部1421において量子化スケール係数の上限値がn2に調整される場合、スパース性判定部1422には、閾値n2より大きい量子化スケール係数は入力されないので、スパース性判定(例えば、図7)において閾値n2は設定されなくてもよい。
 なお、前処理部1421における量子化スケール係数の上限値は、閾値n2と異なる値でもよい。
 (バリエーション3)
 符号化装置1は、例えば、MDCTスペクトルがスパース性を有すると判定し、かつ、閾値(例えば、50%)の構成比を占めるスペクトル数が閾値以下の場合、量子化されたMDCTスペクトルに対して、算術符号化ではなく、パルス符号化を行ってもよい。この処理により、符号化効率を向上できる。
 なお、図3に示す符号化部152は、例えば、符号化方法を切り替える切替部と、算術符号化部と、パルス符号化部と、を有してよい。また、符号化装置1は、例えば、MDCTスペクトルの符号化に適用した符号化方法を示す情報を生成し、復号装置2へ送信してもよい。なお、復号装置2が、例えば、算術符号化及びパルス符号化を含む複数の符号化方法に対応し、復号装置2において符号化装置1での符号化方法を特定可能な場合、符号化方法を示す情報は、復号装置2へ通知されなくてよい。
 以上、本開示の実施の形態について説明した。
 本開示はソフトウェア、ハードウェア、又は、ハードウェアと連携したソフトウェアで実現することが可能である。上記実施の形態の説明に用いた各機能ブロックは、部分的に又は全体的に、集積回路であるLSIとして実現され、上記実施の形態で説明した各プロセスは、部分的に又は全体的に、一つのLSI又はLSIの組み合わせによって制御されてもよい。LSIは個々のチップから構成されてもよいし、機能ブロックの一部または全てを含むように一つのチップから構成されてもよい。LSIはデータの入力と出力を備えてもよい。LSIは、集積度の違いにより、IC、システムLSI、スーパーLSI、ウルトラLSIと呼称されることもある。
 集積回路化の手法はLSIに限るものではなく、専用回路、汎用プロセッサ又は専用プロセッサで実現してもよい。また、LSI製造後に、プログラムすることが可能なFPGA(Field Programmable Gate Array)や、LSI内部の回路セルの接続や設定を再構成可能なリコンフィギュラブル・プロセッサを利用してもよい。本開示は、デジタル処理又はアナログ処理として実現されてもよい。
 さらには、半導体技術の進歩または派生する別技術によりLSIに置き換わる集積回路化の技術が登場すれば、当然、その技術を用いて機能ブロックの集積化を行ってもよい。バイオ技術の適用等が可能性としてありえる。
 本開示は、通信機能を持つあらゆる種類の装置、デバイス、システム(通信装置と総称)において実施可能である。通信装置は無線送受信機(トランシーバー)と処理/制御回路を含んでもよい。無線送受信機は受信部と送信部、またはそれらを機能として、含んでもよい。無線送受信機(送信部、受信部)は、RF(Radio Frequency)モジュールと1または複数のアンテナを含んでもよい。RFモジュールは、増幅器、RF変調器/復調器、またはそれらに類するものを含んでもよい。通信装置の、非限定的な例としては、電話機(携帯電話、スマートフォン等)、タブレット、パーソナル・コンピューター(PC)(ラップトップ、デスクトップ、ノートブック等)、カメラ(デジタル・スチル/ビデオ・カメラ等)、デジタル・プレーヤー(デジタル・オーディオ/ビデオ・プレーヤー等)、着用可能なデバイス(ウェアラブル・カメラ、スマートウオッチ、トラッキングデバイス等)、ゲーム・コンソール、デジタル・ブック・リーダー、テレヘルス・テレメディシン(遠隔ヘルスケア・メディシン処方)デバイス、通信機能付きの乗り物又は移動輸送機関(自動車、飛行機、船等)、及び上述の各種装置の組み合わせがあげられる。
 通信装置は、持ち運び可能又は移動可能なものに限定されず、持ち運びできない又は固定されている、あらゆる種類の装置、デバイス、システム、例えば、スマート・ホーム・デバイス(家電機器、照明機器、スマートメーター又は計測機器、コントロール・パネル等)、自動販売機、その他IoT(Internet of Things)ネットワーク上に存在し得るあらゆる「モノ(Things)」をも含む。
 通信には、セルラーシステム、無線LANシステム、通信衛星システム等によるデータ通信に加え、これらの組み合わせによるデータ通信も含まれる。
 また、通信装置には、本開示に記載される通信機能を実行する通信デバイスに接続又は連結される、コントローラやセンサー等のデバイスも含まれる。例えば、通信装置の通信機能を実行する通信デバイスが使用する制御信号やデータ信号を生成するような、コントローラやセンサーが含まれる。
 また、通信装置には、上記の非限定的な各種装置と通信を行う、あるいはこれら各種装置を制御する、インフラストラクチャ設備、例えば、基地局、アクセスポイント、その他あらゆる装置、デバイス、システムが含まれる。
 本開示の一実施例に係る量子化スケール係数決定装置は、音声音響信号のスペクトルがスパース性を有するか否かに基づいて、量子化スケール係数の初期値を補正する補正回路と、前記初期値に基づいて、前記量子化スケール係数の探索を行う探索回路と、を具備する。
 本開示の一実施例において、前記スパース性を有するか否かを判定する判定回路、を更に具備する。
 本開示の一実施例において、前記判定回路は、前記スペクトルのハーモニクス構造に基づいて、前記スパース性を判定する。
 本開示の一実施例において、前記判定回路は、前記音声音響信号において閾値以上の割合を占めるスペクトル数に基づいて、前記スパース性を判定する。
 本開示の一実施例において、前記判定回路は、前記スペクトルの絶対値、及び、前記スペクトルのエンベロープに基づいて、前記スパース性を判定する。
 本開示の一実施例において、前記判定回路は、前記スペクトルに基づいて算出される補正前の前記初期値に基づいて、前記スパース性を判定する条件を切り替える。
 本開示の一実施例において、前記初期値の上限値を調整する前処理回路、を更に具備し、前記判定回路は、前記前処理回路の出力に基づいて、前記スパース性を判定する。
 本開示の一実施例において、前記探索回路は、第1の探索における前記スペクトルの符号化について推定される消費ビット量と目標ビット量との差分、及び、前記第1の探索の前の第2の探索における前記スペクトルの符号化について推定される消費ビット量と前記目標ビット量との差分に基づいて、前記第1の探索の後の第3の探索における前記量子化スケール係数を決定する。
 本開示の一実施例において、前記音声音響信号のスペクトル振幅の分散及び標準偏差の何れか一方に基づいて前記初期値を算出する算出回路、を更に具備する。
 本開示の一実施例に係る量子化スケール係数決定方法において、量子化スケール係数決定装置は、音声音響信号のスペクトルがスパース性を有するか否かに基づいて、量子化スケール係数の初期値を補正し、前記初期値に基づいて、前記量子化スケール係数の探索を行う。
 2019年10月16日出願の特願2019-189177の日本出願に含まれる明細書、図面および要約書の開示内容は、すべて本願に援用される。
 本開示の一実施例は、音声信号又は音響信号の伝送システム等に有用である。
 1 符号化装置
 2 復号装置
 10 TCX符号化部
 11 エンベロープ生成部
 12 ハーモニクス解析部
 13 エンベロープスケーリング部
 14 レートループ処理部
 15 量子化・符号化部
 141 量子化スケール係数計算部
 142 スパース解析部
 143 量子化スケール係数探索部
 151 量子化部
 152 符号化部
 1421 前処理部
 1422 スパース性判定部
 1423 量子化スケール係数補正部

Claims (10)

  1.  音声音響信号のスペクトルがスパース性を有するか否かに基づいて、量子化スケール係数の初期値を補正する補正回路と、
     前記初期値に基づいて、前記量子化スケール係数の探索を行う探索回路と、
     を具備する量子化スケール係数決定装置。
  2.  前記スパース性を有するか否かを判定する判定回路、を更に具備する、
     請求項1に記載の量子化スケール係数決定装置。
  3.  前記判定回路は、前記スペクトルのハーモニクス構造に基づいて、前記スパース性を判定する、
     請求項2に記載の量子化スケール係数決定装置。
  4.  前記判定回路は、前記音声音響信号において閾値以上の割合を占めるスペクトル数に基づいて、前記スパース性を判定する、
     請求項2に記載の量子化スケール係数決定装置。
  5.  前記判定回路は、前記スペクトルの絶対値、及び、前記スペクトルのエンベロープに基づいて、前記スパース性を判定する、
     請求項2に記載の量子化スケール係数決定装置。
  6.  前記判定回路は、前記スペクトルに基づいて算出される補正前の前記初期値に基づいて、前記スパース性を判定する条件を切り替える、
     請求項2に記載の量子化スケール係数決定装置。
  7.  前記初期値の上限値を調整する前処理回路、を更に具備し、
     前記判定回路は、前記前処理回路の出力に基づいて、前記スパース性を判定する、
     請求項2に記載の量子化スケール係数決定装置。
  8.  前記探索回路は、第1の探索における前記スペクトルの符号化について推定される消費ビット量と目標ビット量との差分、及び、前記第1の探索の前の第2の探索における前記スペクトルの符号化について推定される消費ビット量と前記目標ビット量との差分に基づいて、前記第1の探索の後の第3の探索における前記量子化スケール係数を決定する、
     請求項1に記載の量子化スケール係数決定装置。
  9.  前記音声音響信号のスペクトル振幅の分散及び標準偏差の何れか一方に基づいて前記初期値を算出する算出回路、を更に具備する、
     請求項1に記載の量子化スケール係数決定装置。
  10.  量子化スケール係数決定装置は、
     音声音響信号のスペクトルがスパース性を有するか否かに基づいて、量子化スケール係数の初期値を補正し、
     前記初期値に基づいて、前記量子化スケール係数の探索を行う、
     量子化スケール係数決定方法。
PCT/JP2020/033579 2019-10-16 2020-09-04 量子化スケール係数決定装置、及び、量子化スケール係数決定方法 WO2021075167A1 (ja)

Priority Applications (2)

Application Number Priority Date Filing Date Title
JP2021552264A JPWO2021075167A1 (ja) 2019-10-16 2020-09-04
US17/768,801 US20230025447A1 (en) 2019-10-16 2020-09-04 Quantization scale factor determination device and quantization scale factor determination method

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
JP2019-189177 2019-10-16
JP2019189177 2019-10-16

Publications (1)

Publication Number Publication Date
WO2021075167A1 true WO2021075167A1 (ja) 2021-04-22

Family

ID=75537592

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/JP2020/033579 WO2021075167A1 (ja) 2019-10-16 2020-09-04 量子化スケール係数決定装置、及び、量子化スケール係数決定方法

Country Status (3)

Country Link
US (1) US20230025447A1 (ja)
JP (1) JPWO2021075167A1 (ja)
WO (1) WO2021075167A1 (ja)

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2009198612A (ja) * 2008-02-19 2009-09-03 Fujitsu Ltd 符号化装置、符号化方法および符号化プログラム
JP2016533515A (ja) * 2013-10-18 2016-10-27 テレフオンアクチーボラゲット エルエム エリクソン(パブル) スペクトルピーク位置の符号化及び復号化

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2009198612A (ja) * 2008-02-19 2009-09-03 Fujitsu Ltd 符号化装置、符号化方法および符号化プログラム
JP2016533515A (ja) * 2013-10-18 2016-10-27 テレフオンアクチーボラゲット エルエム エリクソン(パブル) スペクトルピーク位置の符号化及び復号化

Also Published As

Publication number Publication date
US20230025447A1 (en) 2023-01-26
JPWO2021075167A1 (ja) 2021-04-22

Similar Documents

Publication Publication Date Title
CN102576542B (zh) 从窄频带信号确定上频带信号的方法和设备
CN101223582B (zh) 一种音频编码方法、音频解码方法及音频编码器
US8099275B2 (en) Sound encoder and sound encoding method for generating a second layer decoded signal based on a degree of variation in a first layer decoded signal
US10121480B2 (en) Method and apparatus for encoding audio data
US10643623B2 (en) Audio signal coding apparatus, audio signal decoding apparatus, audio signal coding method, and audio signal decoding method
EP2831875B1 (en) Bandwidth extension of harmonic audio signal
EP2863388B1 (en) Bit allocation method and device for audio signal
CN104956438B (zh) 执行噪声调制和增益调节的系统和方法
CN111710342B (zh) 编码装置、解码装置、编码方法、解码方法及程序
JP5262171B2 (ja) 符号化装置、符号化方法および符号化プログラム
EP2127088B1 (en) Audio quantization
KR20070090217A (ko) 스케일러블 부호화 장치 및 스케일러블 부호화 방법
WO2021075167A1 (ja) 量子化スケール係数決定装置、及び、量子化スケール係数決定方法
US8438012B2 (en) Method and apparatus for adaptive sub-band allocation of spectral coefficients
US8731081B2 (en) Apparatus and method for combinatorial coding of signals
US8711012B2 (en) Encoding method, decoding method, encoding device, decoding device, program, and recording medium
US20130096927A1 (en) Audio coding device and audio coding method, audio decoding device and audio decoding method, and program
JP6179087B2 (ja) オーディオ符号化装置、オーディオ符号化方法、オーディオ符号化用コンピュータプログラム
US20120263312A1 (en) Rate controller, rate control method, and rate control program
WO2018052004A1 (ja) サンプル列変形装置、信号符号化装置、信号復号装置、サンプル列変形方法、信号符号化方法、信号復号方法、およびプログラム
JP2002311997A (ja) オーディオ信号符号化装置
CN117715072A (zh) 信息传输方法、ai网络模型训练方法、装置和通信设备
CN116631418A (zh) 语音编码、解码方法、装置、计算机设备和存储介质
JPWO2020009082A1 (ja) 符号化装置及び符号化方法

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 20875945

Country of ref document: EP

Kind code of ref document: A1

ENP Entry into the national phase

Ref document number: 2021552264

Country of ref document: JP

Kind code of ref document: A

NENP Non-entry into the national phase

Ref country code: DE

32PN Ep: public notification in the ep bulletin as address of the adressee cannot be established

Free format text: NOTING OF LOSS OF RIGHTS PURSUANT TO RULE 112(1) EPC (EPO FORM 1205A DATED 20/07/2022)

122 Ep: pct application non-entry in european phase

Ref document number: 20875945

Country of ref document: EP

Kind code of ref document: A1