WO2006049205A1 - スケーラブル復号化装置およびスケーラブル符号化装置 - Google Patents

スケーラブル復号化装置およびスケーラブル符号化装置 Download PDF

Info

Publication number
WO2006049205A1
WO2006049205A1 PCT/JP2005/020201 JP2005020201W WO2006049205A1 WO 2006049205 A1 WO2006049205 A1 WO 2006049205A1 JP 2005020201 W JP2005020201 W JP 2005020201W WO 2006049205 A1 WO2006049205 A1 WO 2006049205A1
Authority
WO
WIPO (PCT)
Prior art keywords
spectrum
decoding
frequency band
unit
information
Prior art date
Application number
PCT/JP2005/020201
Other languages
English (en)
French (fr)
Inventor
Hiroyuki Ehara
Masahiro Oshikiri
Koji Yoshida
Original Assignee
Matsushita Electric Industrial Co., Ltd.
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Matsushita Electric Industrial Co., Ltd. filed Critical Matsushita Electric Industrial Co., Ltd.
Priority to JP2006542422A priority Critical patent/JP4977472B2/ja
Priority to US11/718,437 priority patent/US7983904B2/en
Priority to BRPI0517780-4A priority patent/BRPI0517780A2/pt
Priority to EP05805495.8A priority patent/EP1808684B1/en
Publication of WO2006049205A1 publication Critical patent/WO2006049205A1/ja

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/038Speech enhancement, e.g. noise reduction or echo cancellation using band spreading techniques
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L27/00Modulated-carrier systems
    • H04L27/02Amplitude-modulated carrier systems, e.g. using on-off keying; Single sideband or vestigial sideband modulation
    • H04L27/06Demodulator circuits; Receiver circuits
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/16Vocoder architecture
    • G10L19/18Vocoders using multiple modes
    • G10L19/24Variable rate codecs, e.g. for generating different qualities using a scalable representation such as hierarchical encoding or layered encoding
    • HELECTRICITY
    • H03ELECTRONIC CIRCUITRY
    • H03MCODING; DECODING; CODE CONVERSION IN GENERAL
    • H03M7/00Conversion of a code where information is represented by a given sequence or number of digits to a code where the same, similar or subset of information is represented by a different sequence or number of digits
    • H03M7/30Compression; Expansion; Suppression of unnecessary data, e.g. redundancy reduction

Definitions

  • the present invention relates to a scalable decoding device and a scalable encoding device used when voice signals and acoustic signals are communicated in a packet communication system using a mobile communication system or an Internet protocol.
  • the band scalable speech coding scheme is a scheme that encodes speech signals hierarchically, and is a coding scheme that increases the quality of the coding scheme as the number of layers of the coding scheme increases. Since the bit rate can be made variable by increasing or decreasing the number of code layers, the transmission line capacity can be used effectively.
  • the decoder side is allowed to a certain extent that the coding layer information of the additional layer, which is sufficient as long as it can receive the coding layer data of the lowest basic layer, is lost on the transmission line. Because it can, it is highly resistant to transmission path errors.
  • the frequency band of the audio signal to be encoded increases as the code hierarchy increases.
  • a conventional telephone band voice encoding method is used for the basic layer (core layer).
  • the layer is configured so that wideband speech such as the 7 kHz band can be encoded.
  • the band scalable speech coding system is It can be used for both telephone-band voice service terminals and high-quality broadband voice service terminals, and can also handle multipoint communications including both terminals.
  • the code information is hierarchical, error tolerance can be increased depending on how the transmission is devised, and the bit rate can be controlled on the code side or on the transmission path. Easy. For this reason, the band scalable speech coding scheme is attracting attention as a future speech coding scheme for communication.
  • the MDCT coefficient is coded using a scale factor and fine structure information for each band.
  • the scale factor is Huffman encoded and the fine structure is vector quantized.
  • the auditory importance of each band is calculated using the decoding result of the scale factor, and bit allocation to each band is determined.
  • the bandwidth of each band is unequal, and is set in advance so that the higher the band is, the wider!
  • transmission information is classified into the following four groups.
  • the decoded signal of the core codec is output.
  • ⁇ Case 3> When B information is received in addition to A information, the decoded signal of the core codec To generate a high frequency, and generate a decoded signal having a wider band than the decoded signal of the core codec.
  • the decoded B information is used to generate the high-frequency spectrum shape. Mirroring is performed in a voiced frame and is done in such a way that the harmonic structure (harmonic structure) does not collapse. In unvoiced frames, high frequencies are generated using random noise.
  • Non-Patent Document 1 B. Kovesi et al, A scalable speech and audio coding scheme with continuous bitrateflexibility, "in proc. IEEE ICASSP 2004, pp.I- 273--1- 276
  • Non-Patent Document 1 a high frequency is generated by mirroring. At this time, since the mirroring is performed so as not to break the harmonic structure, the harmonic structure is maintained. However, the low-frequency harmonic structure appears as a mirror image in the high frequency range. In general, in a voiced signal, the harmonic structure collapses as it goes up, so in the high range it often does not show a pronounced harmonic structure as the low range. In other words, even if the Harmotus valley is deep in the low frequency range, the Harmony valley may be shallow in the high frequency range, and in some cases, the harmonic structure itself may have a clear force. Therefore, in the above prior art, an excessive harmonic structure appears in the high-frequency component and appears immediately, so that the quality of the decoded speech signal is deteriorated.
  • An object of the present invention is that even when a speech (sound) signal is decoded by generating a high-frequency spectrum using the low-frequency spectrum, the degradation of the high-frequency spectrum is small! Quality recovery
  • the scalable decoding device of the present invention includes a first decoding unit that decodes low-frequency band encoded information to obtain a low-frequency band decoded signal, the low-frequency band decoded signal, and the high-frequency band decoded signal.
  • Second decoding means for obtaining a decoded signal in a high frequency band from the encoded information, wherein the second decoding means converts the decoded signal in the low frequency band.
  • Conversion means for obtaining a spectrum in the low frequency band, adjustment means for adjusting the amplitude of the low frequency band vector, a spectrum of the low frequency band whose amplitude has been adjusted, and a sign signal of the high frequency band.
  • a generating unit that artificially generates a spectrum in a high frequency band using the information.
  • FIG. 1 is a block diagram showing a configuration of a scalable decoding device according to Embodiment 1 of the present invention.
  • FIG. 2 is a block diagram showing a configuration of a scalable code device according to Embodiment 1 of the invention.
  • FIG. 3 is a block diagram showing a configuration of a second layer decoding unit according to Embodiment 1 of the present invention.
  • FIG. 4 is a block diagram showing a configuration of a second layer code key section according to Embodiment 1 of the present invention.
  • FIG. 5 is a block diagram showing a configuration of a spectrum decoding unit according to Embodiment 1 of the present invention.
  • FIG. 6 is a block diagram showing a configuration of a spectrum decoding unit according to Embodiment 1 of the present invention.
  • FIG. 7 is a block diagram showing a configuration of a spectrum decoding unit according to Embodiment 1 of the present invention.
  • FIG. 8 is a block diagram showing a configuration of a spectrum decoding unit according to Embodiment 1 of the present invention.
  • FIG. 9 is a block diagram showing a configuration of a spectrum decoding unit according to Embodiment 1 of the present invention.
  • FIG. 10 is a block diagram showing a configuration of a spectrum decoding key unit according to Embodiment 1 of the present invention.
  • FIG. 11 shows a high frequency component in the high frequency spectrum decoding key unit according to Embodiment 1 of the present invention.
  • Schematic diagram showing the state of processing to be generated FIG. 12 is a block diagram showing a configuration of a spectrum decoding unit according to the first embodiment of the present invention.
  • FIG. 13 is a block diagram showing a configuration of a spectrum decoding unit according to the first embodiment of the present invention.
  • 14 Block diagram showing the configuration of the second layer decoding key unit according to Embodiment 2 of the present invention.
  • FIG. 15 Block diagram showing the configuration of the second layer code keying unit according to Embodiment 2 of the present invention.
  • FIG. 16 is a block diagram showing a configuration of a spectrum decoding unit according to Embodiment 2 of the present invention.
  • FIG. 17 is a block diagram showing a configuration of a spectrum decoding unit according to Embodiment 2 of the present invention.
  • 18 Block diagram showing the configuration of the first spectrum code key section according to Embodiment 2 of the present invention.
  • FIG. 19 Block diagram showing the configuration of the extended band decoding key section according to Embodiment 2 of the present invention.
  • FIG. 20 is a block diagram showing the configuration of the extended band decoding unit according to Embodiment 2 of the present invention.
  • FIG. 22 is a block diagram showing a configuration of an extended band decoding unit according to the second embodiment of the present invention.
  • FIG. 22 A block diagram showing a configuration of an extended band decoding unit according to the second embodiment of the present invention. Schematic diagram showing a state of processing for generating a high frequency component in the extended band decoding unit according to the second embodiment of the invention.
  • FIG. 24 is a block diagram showing a configuration of an extension band code key unit according to Embodiment 2 of the present invention.
  • FIG. 25 is a block diagram showing a reception received by the demultiplexing unit of the scalable decoding device according to Embodiment 2 of the present invention. Schematic diagram showing the contents of a stream
  • FIG. 26 is a block diagram showing a configuration of an extended band decoding unit according to the third embodiment of the present invention.
  • FIG. 1 is a block diagram showing a configuration of a scalable decoding apparatus 100 that forms, for example, a band scalable audio (acoustic) signal decoding apparatus.
  • the scalable decoding device 100 includes a separation unit 101, a first layer decoding unit 102, and a second layer decoding unit 103.
  • Separating section 101 receives a bitstream that has also been transmitted with a scalable coding device capability, which will be described later, and separates it into a first layer code parameter and a second layer code parameter.
  • the data is output to the first layer decoding unit 102 and the second layer decoding unit 103, respectively.
  • the first layer decoding unit 102 receives the first layer code parameter input from the separating unit 101. Decode the data and output the first layer decoded signal. This first layer decoded signal is also output to second layer decoding section 103.
  • Second layer decoding section 103 receives the second layer code parameters input from demultiplexing section 101, and the first layer decoded signal input from first layer decoding section 102. Is used to decode, and the second layer decoded signal is output.
  • FIG. 2 shows an example of the configuration of a scalable coding apparatus 200 corresponding to the scalable decoding apparatus 100 of FIG.
  • first layer encoding unit 201 encodes an input speech signal (original signal), and converts the obtained encoding parameters into first layer decoding unit 202 and multiplexing unit 203. Output to.
  • the first layer code key unit 201 realizes band scalability of the first layer and the second layer by performing a down-sampling process, a low-pass filtering process, and the like for the code key.
  • the first layer decoding unit 202 also generates the first layer decoded signal from the code layer parameter input from the first layer encoding unit 201 to generate the second layer encoding unit 204. Output to.
  • Second layer encoding unit 204 encodes the input speech signal (original signal) using the first layer decoded signal input from first layer decoding unit 202, and obtains Is output to the multiplexing unit 203.
  • the second layer code key unit 204 increases the first layer decoded signal in accordance with the processing (down-sampling processing or low-pass filtering processing) performed by the first layer code key unit 201 in the case of the code key. Sample processing and phase adjustment processing to match the phase of the first layer decoded signal and the phase of the input audio signal are performed.
  • the multiplexing unit 203 multiplexes the coding parameter input from the first layer coding unit 201 and the coding parameter input from the second layer coding unit 204, and generates a bit stream. Is output.
  • FIG. 3 is a block diagram showing the configuration of second layer decoding section 103.
  • Second layer decoding section 103 includes separating section 301, scaling coefficient decoding section 302, fine spectrum decoding section 303, frequency domain conversion section 304, spectrum decoding section 305, and time domain conversion section 306. Prepare.
  • Separating section 301 represents the input second-layer encoding parameters as scaling coefficients. Coding parameters (scaling coefficient parameters) and coding parameters (fine spectrum parameters) representing the spectral fine structure are output to the scaling coefficient decoding unit 302 and the fine spectral decoding unit 303, respectively.
  • the scaling coefficient decoding unit 302 decodes the input scaling coefficient parameter to obtain a low-frequency scaling coefficient and a high-frequency scaling coefficient, and outputs these decoded scaling coefficients to the spectrum decoding unit 305. At the same time, it is also output to the fine spectrum decoding unit 303.
  • the fine spectrum decoding unit 303 calculates the auditory importance of each band using the decoding scaling coefficient input from the scaling coefficient decoding unit 302, and generates the fine spectrum information of each band. Find the number of allocated bits.
  • the fine spectrum decoding unit 303 decodes the fine spectrum parameter input from the separation unit 301 to obtain decoded fine spectrum information of each band, and outputs the decoded fine spectrum information to the spectrum decoding unit 305. Note that in the case where the information of the first layer decoded signal may be used for the calculation of the auditory importance, the output of the frequency domain transform unit 304 is also input to the fine spectrum decoding unit 303.
  • Frequency domain transform section 304 transforms the input first layer decoded signal into a frequency domain spectral parameter (for example, MDCT coefficient) and outputs it to spectrum decoding section 305.
  • a frequency domain spectral parameter for example, MDCT coefficient
  • the spectrum decoding unit 305 includes a first layer decoded signal converted into the frequency domain input from the frequency domain converting unit 304, and a decoding scaling coefficient (low frequency input) from the scaling coefficient decoding unit 302. And high frequency), the decoded fine spectrum information input from the fine spectrum decoding unit 303, and the spectrum of the force second layer decoded signal are decoded and output to the time domain conversion unit 306.
  • Time domain conversion section 306 converts the second layer decoded signal input from spectrum decoding section 305 into a time domain signal and outputs it as a second layer decoded signal.
  • FIG. 3 An example of the configuration of second layer coding unit 204 corresponding to second layer decoding unit 103 in FIG. 3 is shown in FIG.
  • the input audio signal is input to auditory masking calculation section 401 and frequency domain conversion section 402A.
  • the auditory masking calculation unit 401 is a subband having a predetermined bandwidth. Each auditory masking is calculated, and this auditory masking is output to the scaling coefficient code unit 403 and the fine spectrum code unit 404.
  • Human auditory characteristics include an auditory masking characteristic that when a certain signal is heard, it is difficult to hear even if a sound with a frequency close to that signal enters the ear. Based on this auditory masking characteristic, the above-mentioned auditory masking is used to allocate a small number of quantization bits to a frequency spectrum where the quantization distortion is difficult to hear, and to a frequency spectrum where the quantization distortion is easy to hear, the quantization bit number. Efficient spectrum coding can be realized by allocating a large amount.
  • Frequency domain conversion section 402A converts the input audio signal into frequency domain spectral parameters (for example, MDCT coefficients), and outputs them to scaling coefficient code section 403 and fine vector code section 404.
  • Frequency domain transform section 402B transforms the input first layer decoded signal into a frequency domain spectrum parameter (for example, MDCT coefficient), and outputs it to scaling coefficient code section 403 and fine spectrum code section 404 .
  • the scaling coefficient sign key unit 403 uses the auditory masking information input from the auditory masking calculation unit 401, and the spectral parameters and frequency domain converter 402B input from the frequency domain converter 402A. Then, a scaling coefficient parameter is obtained by performing a difference vector coding with the first-layer decoded spectrum that is input, and the scaling coefficient parameter is converted into a code key parameter multiplexing unit 405 and a fine spectrum code key unit. Output to 404. In this example, the scaling coefficient parameter for the high frequency spectrum and the scaling coefficient parameter for the low frequency spectrum are output separately.
  • the fine spectrum encoding unit 404 decodes the scaling coefficient parameters (low frequency and high frequency) input from the scaling coefficient encoding unit 403 to obtain decoding scaling coefficients (low frequency and high frequency),
  • the difference spectrum between the spectrum parameter input from frequency domain transform section 402A and the first layer decoded spectrum input from frequency domain transform section 402B is normalized using a decoding scaling coefficient (low frequency and high frequency).
  • the fine spectrum encoding unit 404 encodes the normalized differential spectrum and outputs the encoded differential spectrum (fine spectral code parameter) to the code parameter multiplexing unit 405.
  • the fine spectrum code part 404 is provided with a decoding scaling factor (low frequency and high frequency). ) Is used to calculate the auditory importance for each band of the fine spectrum, and the bits are allocated according to the auditory importance.
  • the first layer decoded spectrum may be used to calculate this auditory importance.
  • the encoding parameter multiplexing unit 405 includes a high-frequency spectral scaling coefficient parameter and a low-frequency spectral scaling coefficient parameter input from the scaling coefficient encoding unit 403, and a fine spectral code input unit 404 input from the fine spectral code encoding unit 404.
  • the spectrum code parameter is multiplexed and output as the first spectrum code parameter.
  • FIG. 9 is a block diagram showing the configuration of the spectrum decoding unit 305.
  • FIG. 5 shows a configuration for executing processing when the first layer decoded signal, all decoding scaling coefficients (low frequency and high frequency), and all fine spectrum decoded information are normally received. Indicates.
  • FIG. 6 shows a configuration for executing processing when a part of the high frequency fine spectrum decoding information is not received.
  • the difference from FIG. 5 is that the output result of adder A is input to high-frequency spectrum decoding unit 602.
  • the spectrum of the band to be decoded using the received high-frequency fine spectrum decoding information is generated in a pseudo manner by the method described later.
  • FIG. 7 shows a configuration for executing processing when not all of the high-frequency fine spectrum decoding information is received (in addition, some of the low-frequency fine spectrum decoding information is not received). Indicates. The difference from FIG. 6 is that the fine spectrum decoding information is not input to the high frequency spectrum decoding section 702. The spectrum of the band to be decoded using the received high frequency fine spectrum decoding information is generated in a pseudo manner by the method described later.
  • FIG. 8 shows a configuration for executing the processing when all the fine spectrum decoding information is not received and a part of the low-band decoding scaling coefficients are not received.
  • FIG. 7 is different from FIG. 7 in that fine spectrum decoding information is not input and there is no output from the low-frequency spectrum decoding unit 801 and there is no adder A.
  • the spectrum of the band to be decoded using the received high-frequency fine spur decoding information that has not been received is artificially generated by the method described later.
  • FIG. 9 shows a configuration for executing processing when only high-frequency decoding scaling coefficients are received (including cases where some high-frequency decoding scaling coefficients are not received). Low This is different from Fig. 8 in that there is no low-frequency spectrum decoding part that receives the input of the domain decoding scaling factor. A method of artificially generating a high-frequency spectrum from only the received high-frequency decoding scaling coefficient will be described later.
  • the spectrum decoding unit 305 in FIG. 5 includes a low-frequency spectrum decoding unit 501, a high-frequency spectrum decoding unit 502, an adder A, and an adder B.
  • the low-band spectrum decoding unit 501 includes a low-band decoding scaling coefficient input from the scaling coefficient decoding unit 302, fine spectrum decoding information input from the fine spectrum decoding unit 303, Is used to decode the low frequency band and output to adder A.
  • the decoded spectrum is calculated by multiplying the fine spectrum decoding information by the decoding scaling factor.
  • Adder A receives the decoded low-frequency spectrum (residue) input from low-frequency spectrum decoding unit 501 and the first layer decoded signal (spectrum) input from frequency-domain transform unit 304. Add to obtain the decoded low-frequency spectrum and output to adder B.
  • High frequency spectrum decoding section 502 has a high frequency decoding scaling coefficient input from scaling coefficient decoding section 302, fine spectrum decoding information input from fine spectrum decoding section 303, and Is used to decode the high frequency spectrum and output to adder B.
  • the Calo arithmetic unit B combines the decoded low-frequency spectrum input from the adder A and the decoded high-frequency spectrum input from the high-frequency spectrum decoding unit 502 together with the entire region (low frequency and high frequency). All frequency bands) are generated and output as a decoded spectrum.
  • FIG. 6 differs from FIG. 5 only in the operation of the high frequency spectrum decoding unit 602.
  • the high frequency spectrum decoding unit 602 includes the high frequency decoding scaling coefficient input from the scaling coefficient decoding unit 302 and the high frequency fine spectrum decoding information input from the fine spectrum decoding unit 303.
  • the high-frequency spectrum is decoded using At this time, the high frequency fine spectrum decoding information of a part of the band is not received, and therefore the high frequency vector of the corresponding band cannot be accurately decoded. Therefore, high-frequency spectrum decoding section 602 uses the decoding scaling coefficient, the low-frequency decoded spectrum input from adder A, and the high-frequency spectrum that can be received and accurately decoded, Generate a high-frequency spectrum.
  • FIG. 7 shows the operation when all the high-frequency fine spectrum decoding information is not received in FIGS. 5 and 6. In this case, the high frequency spectrum decoding unit 702 decodes the high frequency spectrum using only the high frequency decoding scaling coefficient input from the scaling coefficient decoding key unit 302.
  • the low-frequency spectrum decoding unit 701 includes a low-frequency decoding scaling coefficient input from the scaling coefficient decoding unit 302 and a low-frequency fine scaling input from the fine spectrum decoding unit 303.
  • the low-frequency spectrum is decoded using the spectrum decoding information.
  • the low frequency fine spectrum decoding information of a part of the band is not received, and therefore, a part of the band is not subjected to the decoding process and is set to the zero spectrum.
  • the spectrum of the corresponding band output via the adders A and B is the first layer decoded signal (spectrum) itself.
  • FIG. 8 shows the operation when all the low-frequency fine spectrum decoding information is not received in FIG.
  • the low-frequency spectrum decoding unit 801 does not perform decoding because no fine spectrum decoding information to which a low-frequency decoding scaling coefficient is input is input.
  • FIG. 9 shows the operation when no low-frequency decoding scaling coefficient is input in FIG. However, in the high frequency spectrum decoding unit 902, when some decoding scaling coefficients (high frequency) are not input, the spectrum of that band is output as zero.
  • FIG. 9 shows the configuration of the high-frequency spectrum decoding unit 902 in more detail.
  • the high-frequency spectrum decoding unit 902 in FIG. 10 includes an amplitude adjustment unit 1011, a pseudo spectrum generation unit 1012, and a scaling unit 1013.
  • Amplitude adjustment section 1011 adjusts the amplitude of the first layer decoded signal vector input from frequency domain transform section 304, and outputs the result to pseudo spectrum generation section 1012.
  • the pseudo spectrum generation unit 1012 generates a high-frequency spectrum in a pseudo manner using the amplitude-adjusted first layer decoded signal spectrum to which the amplitude adjustment unit 1011 is also input, and supplies the spectrum to the scaling unit 1013. Output.
  • the scaling unit 1013 scans the spectrum input from the pseudo spectrum generation unit 1012. Carry out and output to adder B.
  • FIG. 11 is a schematic diagram showing an example of the above-described series of processes for generating a high-frequency spectrum in a pseudo manner.
  • the amplitude of the decoded signal spectrum of the first layer is adjusted.
  • the amplitude adjustment method can be a constant multiple in the log domain (0 XS, ⁇ is an amplitude adjustment factor (real number) in the range of 0 ⁇ ⁇ 1, S is a log spectrum), or a constant power ( s Y and s are linear spectra).
  • is an amplitude adjustment factor (real number) in the range of 0 ⁇ ⁇ 1
  • S is a log spectrum
  • s Y and s are linear spectra
  • the adjustment factor may be a fixed constant.
  • an index that represents the depth of the harmonic spectrum valley in the low-frequency spectrum (for example, the dispersion value of the spectral amplitude directly in the low-frequency range is the first indirect It is more preferable to prepare a plurality of appropriate adjustment coefficients in accordance with the pitch gain value in the layer code key section 201, etc., and selectively use the corresponding adjustment coefficient in accordance with the index. It is also possible to selectively use the adjustment coefficient according to the characteristics of each vowel using low-frequency spectrum shape (envelope) information and pitch period information. Further, the optimum adjustment coefficient may be separately encoded as transmission information and transmitted on the encoder side.
  • FIG. 11 shows an example of mirroring that generates the high-frequency spectrum as a mirror image of the low-frequency spectrum.
  • a method of generating a high frequency spectrum by shifting the spectrum after amplitude adjustment in the high frequency direction of the frequency axis, and a frequency axis for the spectrum after amplitude adjustment using a pitch lag obtained from the low frequency spectrum.
  • FIG. 12 shows the spectrum information of the first layer (for example, decoding LSP parameters) to the amplitude adjustment unit 1211. 2 is input from the first layer decoding unit 102.
  • the amplitude adjustment unit 1211 determines an adjustment coefficient used for amplitude adjustment based on the input first layer vector information.
  • the first layer pitch information pitch period and pitch gain
  • FIG. 13 shows a case where an amplitude adjustment coefficient is separately input to the amplitude adjustment unit 1311.
  • the amplitude adjustment coefficient is quantized and encoded on the encoder side and transmitted.
  • FIG. 14 is a block diagram showing the configuration of second layer decoding section 103 according to Embodiment 2 of the present invention.
  • Second layer decoding section 103 in FIG. 14 includes separating section 1401, spectrum decoding section 1402A, extended band decoding section 1403, spectrum decoding section 1402B, frequency domain transform section 1404, In addition, a time domain conversion unit 1405 is provided.
  • Separating section 1401 separates the second layer code parameter into a first spectral code parameter, an extended band code parameter, and a second spectral coding parameter, and The data is output to the spectrum decoding unit 1402A, the extended band decoding unit 1403, and the spectrum decoding unit 1402B, respectively.
  • Frequency domain transform section 1404 transforms the first layer decoded signal input from first layer decoding section 102 into frequency domain parameters (for example, MDCT coefficients, etc.), and first layer decoded signal spectrum Is output to the spectrum decoding unit 1402A.
  • frequency domain parameters for example, MDCT coefficients, etc.
  • the spectrum decoding unit 1402A decodes the first spectrum code parameter input from the separation unit 1401 to the decoded signal spectrum of the first layer input from the frequency domain transform unit 1404.
  • the quantized spectrum of the obtained first layer code error is added and output as the first decoded spectrum to the extended band decoding unit 1403.
  • the spectrum decoding unit 1402A mainly improves the first layer code error for the low frequency component.
  • the extended band decoding unit 1403 also decodes various parameters by the extended band encoding parameter input from the demultiplexing unit 1401, and the spectrum decoding unit 1402A also receives the first power. Based on the decoded spectrum, the high-frequency spectrum is decoded and generated using the decoded parameters. Then, extended band decoding section 1403 outputs the spectrum of all bands to spectrum decoding section 1402B as the second decoded spectrum.
  • Spectrum decoding key section 1402B decodes the second spectrum code key parameter input from demultiplexing section 1401 to the second decoded spectrum input from extension band decoding key section 1403.
  • a spectrum obtained by quantizing the sign error of the obtained second decoded spectrum is added and output to the time domain conversion unit 1405 as a third decoded spectrum.
  • Time domain conversion section 1405 converts the third decoding vector, to which spectrum decoding unit 1402B force is also input, into a time domain signal and outputs it as a second layer decoded signal.
  • FIG. 14 a configuration in which one or both of spectrum decoding section 1402A and spectrum decoding section 1402B are not provided may be employed.
  • spectrum decoding key unit 1402A first layer decoded signal spectrum output from frequency domain transforming unit 1404 is input to extension band decoding key unit 1403.
  • second decoded spectrum output from extended band decoding unit 1403 is input to time domain conversion unit 1405.
  • FIG. 15 shows an example of the configuration of second layer coding unit 204 corresponding to second layer decoding unit 103 in FIG.
  • the audio signal (original signal) is input to auditory masking calculation section 1501 and frequency domain conversion section 1502A.
  • Auditory masking calculation section 1501 calculates auditory masking using the input audio signal, and outputs the result to first spectrum code key section 1503, extended band code key section 1504, and second spectrum code key section 1505. Output.
  • Frequency domain transform section 1502A transforms the input audio signal into frequency domain spectrum parameters (for example, MDCT coefficients), and first spectrum coding section 1503, extended band coding section 1504, and second spectrum. Outputs to the code field 1505.
  • frequency domain spectrum parameters for example, MDCT coefficients
  • Frequency domain transform section 1502B converts the input first layer decoded signal into a spectrum parameter such as MDCT, and outputs the spectrum parameter to first spectrum coding section 1503.
  • the first spectrum code key unit 1503 receives the auditory masking input from the auditory masking calculator 1501. By using masking, the first input signal spectrum input from the frequency domain transform unit 1502A and the first layer decoded spectrum from which the frequency domain transform unit 1502B force is also input are subjected to sign coding. The first spectral spectrum obtained by decoding the first spectral code key parameter is output to the extended band code key unit 1504.
  • the extended band code key unit 1504 uses the auditory masking input from the auditory masking calculation unit 1501 and the input speech signal spectrum input from the frequency domain transform unit 1502A and the first spectrum code key unit 1503.
  • the second decoding result obtained by encoding the error spectrum with the first decoded spectrum input from, and outputting it as an extended band code parameter, as well as decoding the extended band code parameter
  • the spectrum is output to the second spectrum code key unit 1505.
  • Second spectrum code encoding unit 1505 uses the auditory masking input from auditory masking calculation unit 1501, and uses the input speech signal spectrum input from frequency domain transform unit 1502A and the extended band code signal.
  • the error spectrum with the second decoded spectrum input from unit 1504 is encoded and output as the second spectral encoding parameter.
  • the separation unit 1601 separates the input encoding parameter into an encoding parameter (scaling coefficient parameter) representing a scaling factor and an encoding parameter (fine spectral parameter) representing a spectral fine structure.
  • the scaling coefficient decoding unit 1602 and the fine spectrum decoding unit 1603 respectively output the result.
  • Scaling coefficient decoding unit 1602 decodes the input scaling coefficient parameter to obtain a low-frequency scaling coefficient and a high-frequency scaling coefficient, and outputs these decoded scaling coefficients to spectrum decoding unit 1604. At the same time, it is also output to the fine spectrum decoding unit 1603.
  • Fine spectrum decoding unit 1603 calculates the auditory importance of each band using the decoding scaling coefficient input from scaling coefficient decoding unit 1602, and assigns it to the fine spectrum information of each band. Find the number of bits given.
  • the fine spectrum decoding unit 1603 Decodes the fine spectrum parameter input from the separation unit 1601 to obtain decoded fine spectrum information of each band, and outputs it to the spectrum decoding unit 1604. Note that the information of the decoded spectrum A may be used to calculate the auditory importance. In this case, the decoded spectrum A is also input to the fine spectrum decoding unit 1603.
  • the spectrum decoding unit 1604 includes the input decoded spectrum A, the decoding scaling coefficient (low band and high band) input from the scaling coefficient decoding unit 1602, and the fine spectral decoding unit.
  • the decoded fine spectrum information and force input from 1603 are also decoded and output as decoded spectrum B.
  • FIG. 16 The correspondence between FIG. 16 and FIG. 14 will be explained.
  • the code key parameter in FIG. 16 is the first spectrum encoding parameter in FIG.
  • the decoded spectrum A in FIG. 16 corresponds to the first layer decoded signal spectrum in FIG. 14
  • the decoded spectrum B in FIG. 16 corresponds to the first decoded spectrum in FIG.
  • the encoding parameter of FIG. 16 is changed to the second spectrum encoding parameter of FIG. 14 and the decoding spectrum A of FIG.
  • FIG. 18 shows an example of the configuration of first spectrum encoding section 1503 corresponding to spectrum decoding sections 1402A and 1402B in FIG.
  • FIG. 18 shows a configuration of first spectrum code key section 1503 in FIG.
  • the first spectrum coding unit 1503 shown in FIG. 18 includes a scaling coefficient coding unit 403, a fine spectrum coding unit 404, a coding parameter multiplexing unit 405, and a spectrum decoding shown in FIG. Since the operation is the same as that described with reference to FIGS. 4 and 16, the description thereof is omitted here. Also, if the first layer decoded spectrum in FIG. 18 is replaced with the second decoded spectrum and the first vector encoding parameter is replaced with the second spectral encoding parameter, the configuration shown in FIG. The second spectrum code key unit 1505 in FIG. However, in the configuration of second spectrum code key unit 1505, spectrum decoding key unit 1604 is excluded.
  • FIG. 17 shows spectrum decoding units 1402A and 1402B in the case where no scaling coefficient is used. The structure of is shown.
  • spectrum decoding units 1402A and 1402B include auditory importance and bit allocation calculation unit 1701, fine spectrum decoding unit 1702, and spectrum decoding unit 1703.
  • auditory importance and bit allocation calculation section 1701 obtains the auditory importance of each band from input decoding spectrum A, and bit to each band determined according to the auditory importance. Ask for distribution.
  • the obtained auditory importance level and bit allocation information are output to the fine spectrum decoding unit 1702.
  • Fine spectrum decoding unit 1702 decodes the input coding parameters based on the auditory importance level and bit allocation calculation unit 1701, and outputs each band. Is obtained and output to the spectrum decoding unit 1703.
  • the spectrum decoding unit 1703 adds the fine spectrum decoding information input from the fine spectrum decoding unit 1702 to the input decoded spectrum A and outputs the decoded spectrum B as the decoded spectrum B.
  • FIG. 17 The correspondence between FIG. 17 and FIG. 14 will be explained.
  • the code key parameter in FIG. 17 is the first spectrum encoding parameter in FIG.
  • the decoded spectrum A in FIG. 17 corresponds to the first layer decoded signal spectrum in FIG. 14, and the decoded spectrum B in FIG. 17 corresponds to the first decoded spectrum in FIG.
  • the encoding parameter of FIG. 17 is the second spectrum encoding parameter of FIG. 14, and the decoding spectrum A of FIG.
  • the second decoded spectrum in FIG. 14 corresponds to the decoded spectrum B in FIG. 17 and corresponds to the third decoded spectrum in FIG.
  • the first spectrum encoding unit corresponding to spectrum decoding units 1402A and 1402B in FIG. 17 can be configured.
  • FIG. 19 is a block diagram showing the configuration of the extended band decoding unit 1403.
  • the extended band decoding unit 1403 shown in FIG. 19 includes a separating unit 1901, an amplitude adjusting unit 1902, a filter state setting unit 19 03, a filtering unit 1904, a spectral residual shape codebook 1905, a spectral residual gain codebook 1906, a multiplier 1907, a scale factor decoding unit 1908, a scaling unit 1909, and a spectral synthesis unit 1910.
  • Separation section 1901 uses the encoding parameters input from separation section 1401 in FIG. 14 as amplitude adjustment coefficient coding parameters, lag coding parameters, residual shape coding parameters, residual gain code key parameters. And the scale factor code key parameter, and output to the amplitude adjustment unit 1902, the filtering unit 1904, the spectral residual shape code book 1905, the spectral residual gain code book 1906, and the scale factor decoding key unit 1908, respectively. .
  • Amplitude adjustment section 1902 decodes the amplitude adjustment coefficient encoding parameter input from separation section 1901, and uses the decoded amplitude adjustment coefficient as input from spectrum decoding section 1402A in FIG.
  • the amplitude of the first decoding spectrum is adjusted, and the first decoding spectrum after the amplitude adjustment is output to the filter state setting unit 1903.
  • the amplitude adjustment is performed by a method represented by ⁇ S (n) r.
  • S (n) is the spectral amplitude in the linear region
  • n is the frequency.
  • Spectrum residual shape codebook 1905 decodes the residual shape coding parameters input from separation section 1901 and outputs a spectral residual shape vector corresponding to the decoding result to multiplier 1907.
  • the spectral residual gain codebook 1906 decodes the residual gain encoding parameter input from the separation unit 1901 and outputs the residual gain corresponding to the decoding result to the multiplier 1907.
  • Multiplier 1907 multiplies the residual shape beta C [n] input from spectral residual shape codebook 1905 and the residual gain g input from spectral residual gain codebook 1906. gC [n] is output to the filtering unit 1904.
  • Scale factor decoding section 1908 decodes the scale factor encoding parameter input from separation section 1901, and outputs the decoded scale factor to scaling section 1909.
  • the scaling unit 1909 multiplies the spectrum S [Nn to Nw] input from the filtering unit 1904 by the scale factor input from the scale factor decoding unit 1908, and outputs the result to the spectrum combining unit 1910.
  • the spectrum synthesizing unit 1910 generates the first decoded spectrum, in which the spectrum decoding unit 1402A of FIG. 14 is input to the low band (S [0 to Nn]) in the high band (S [Nn to Nw]).
  • Scaling unit 1909 The spectrum obtained by substituting the spectrum to which the force is also input is output to spectrum decoding unit 1402B in FIG. 14 as the second decoding spectrum.
  • FIG. 20 shows the configuration of extended band decoding section 1403 when the spectral residual shape coding parameter and the spectral residual gain coding parameter cannot be completely received.
  • the information that can be completely received is the encoding parameter of the amplitude adjustment coefficient, the lag code key parameter, and the scale factor code key parameter.
  • the separation unit 2001 converts the code parameters input from the separation unit 1401 of FIG. 14 into amplitude adjustment coefficient coding parameters, lag coding parameters, and scale factor codes. And output to the amplitude adjustment unit 1902, the filtering unit 2002, and the scale factor decoding unit 1908, respectively.
  • FIG. 21 shows the configuration of extended band decoding section 1403 when lag encoding parameters cannot be received.
  • the information that can be completely received is the sign key parameter of the amplitude adjustment coefficient and the scale factor sign key parameter.
  • FIG. 21 is replaced by a fineletter state setting unit 1903 and a finelettering unit 2002 force pseudo-spectrum generation unit 2102 in FIG.
  • the configuration other than the separation unit 2101 and the pseudo spectrum generation unit 2102 is the same as each unit in FIG.
  • separation section 2101 separates the code parameter input from separation section 1401 in FIG. 14 into an amplitude adjustment coefficient encoding parameter and a scale factor encoding parameter, and an amplitude adjustment section 1902 and the scale factor decoding unit 1908 respectively.
  • the pseudo spectrum generation unit 2102 generates a high frequency spectrum in a pseudo manner using the first decoded spectrum after amplitude adjustment input from the amplitude adjustment unit 1902, and outputs it to the scaling unit 1909.
  • Specific methods for generating a high-frequency spectrum include a method based on mirroring that generates a high-frequency spectrum as a mirror image of a low-frequency vector, a method of shifting the spectrum after amplitude adjustment in the high frequency direction, and a low-frequency spectrum.
  • Spectral force Pitch lag is obtained, and the pitch lag is used to perform pitch filtering in the frequency axis direction on the spectrum after amplitude adjustment.
  • a pseudo spectrum may be generated using a randomly generated noise spectrum.
  • FIG. 22 shows the configuration of extended band decoding section 1403 when amplitude adjustment information cannot be received.
  • the information that can be completely received is the scale factor encoding parameter.
  • separation section 2201 separates the scale factor code parameter from the code parameter input from separation section 1401 in FIG. 14, and outputs the result to scale factor decoding section 1908. .
  • Pseudospectrum generation section 2202 generates a high-frequency spectrum in a pseudo manner using the first decoded spectrum, and outputs it to scaling section 1909.
  • Specific methods of generating the high-frequency spectrum include a method based on mirroring that generates the high-frequency spectrum as a mirror image of the low-frequency spectrum, a method of shifting the spectrum after amplitude adjustment in the high-frequency direction, and a low-frequency spectrum. There is a method of obtaining a pitch lag and performing a pitch filtering process in the frequency axis direction on the spectrum after amplitude adjustment using this pitch lag.
  • a pseudo spectrum may be generated using a randomly generated noise spectrum.
  • constant multiplication XS and S are logarithmic spectra in the logarithmic domain) or a constant power (s Y and s are linear spectral) in the linear domain.
  • s Y and s are linear spectral
  • the typical coefficient required to match the depth of the harmonics valley in the low range and the depth of the harmonics valley in the high range in voiced sound It is good to use.
  • the adjustment factor may be a fixed constant, but it is an index indicating the depth of the harmonic valley in the low frequency spectrum (for example, the dispersion value of the spectral amplitude in the low frequency range, indirectly, It is more preferable to prepare a plurality of appropriate adjustment coefficients according to the pitch gain value in the first layer code key unit 201 and selectively use the corresponding adjustment coefficient according to the above index. It is also possible to selectively use the adjustment coefficient according to the characteristics of each vowel, using low-frequency spectrum shape (envelope) information, pitch period information, and the like. More specifically, since it is the same as the generation of the pseudo spectrum described in the first embodiment, a description thereof is omitted here.
  • FIG. 23 is a schematic diagram showing a series of operations for generating a high frequency component in the configuration of FIG. As shown in FIG. 23, first, the amplitude of the first decoded spectrum is adjusted. Next, using the first decoded spectrum after amplitude adjustment as filter information of the pitch filter, a filtering process (pitch filtering) is performed in the frequency axis direction to generate a high frequency component. Next, perform scaling for each band of the scaling coefficient on the generated high frequency component and Generate the final high-frequency spectrum. Then, a second decoded spectrum is generated by combining the generated high frequency spectrum and the first decoded vector.
  • a filtering process pitch filtering
  • FIG. 24 shows an example of the configuration of the extended band coding unit 1504 corresponding to the extended band decoding unit 1403 in FIG.
  • amplitude adjustment section 2401 adjusts the amplitude of the first decoded spectrum input from first spectrum coding section 1503 using the input speech signal spectrum input from frequency domain conversion section 1502A. , Output the encoding parameter of the amplitude adjustment coefficient, and output the first decoded spectrum after the amplitude adjustment to the filter state setting unit 2402.
  • the amplitude adjustment unit 2401 performs amplitude adjustment processing such that the ratio (dynamic range) of the maximum amplitude spectrum and minimum amplitude spectrum of the first decoded spectrum approaches the high dynamic range of the input audio signal spectrum. Examples of the amplitude adjustment method include the above method. For example, amplitude adjustment can be performed using a conversion equation such as equation (1). S1 is the spectrum before conversion, and S1, is the spectrum after conversion.
  • the amplitude adjustment unit 2401 prepares in advance an amplitude adjustment coefficient ⁇ when the first decoded spectrum after amplitude adjustment is closest to the dynamic range of the high frequency part of the input audio signal spectrum.
  • a candidate is selected from a plurality of candidates, and the sign key parameter of the selected amplitude adjustment coefficient ⁇ is output to the multiplexing unit 203.
  • Filter state setting section 2402 sets the first decoded spectrum after amplitude adjustment input from amplitude adjustment section 2401 to the internal state of the pitch filter in the same manner as filter state setting section 1903 in FIG. .
  • the lag setting unit 2403 sequentially outputs the lag ⁇ ⁇ to the filtering unit 2404 while gradually changing the lag ⁇ ⁇ within a predetermined search range ⁇ to ⁇ .
  • Spectral residual shape codebook 2405 stores a plurality of spectral residual shape vector candidates, and in accordance with an instruction from search unit 2406, spectral residual shape vectors are sequentially or sequentially selected from candidates. Select to output.
  • spectral residual gain Codebook 2407 stores a plurality of spectral residual gain candidates, and selects and outputs all or predetermined candidate intermediate sequential spectral residual vectors according to an instruction from search unit 2406.
  • Multiplier 2408 multiplies the spectral residual shape vector candidate output from spectral residual shape codebook 2405 by the spectral residual gain candidate output from spectral residual gain codebook 2407. The result is output to the filtering unit 2404.
  • the filtering unit 2404 performs filtering using the internal state of the pitch filter set by the filter state setting unit 2402, the lag T output from the lag setting unit 2403, and the spectral residual shape vector after gain adjustment. To calculate the estimated value of the input speech signal spectrum. This operation is the same as the operation of the filtering unit 1904 in FIG.
  • Search unit 2406 includes, among a plurality of combinations of lag, spectral residual shape vector, and spectral residual gain, the high frequency part of the input speech signal spectrum (original spectrum) and the output signal of filtering part 2404.
  • the combination when the cross-correlation is maximized is determined by the analysis method by synthesis (AbS; Analysis by Synthesis). At this time, auditory masking is used to determine the most audibly similar combination.
  • a search is performed in consideration of scaling by the scale factor that is performed later.
  • the lag coding parameters, spectral residual shape vector coding parameters, and spectral residual gain coding parameters determined by search section 2406 are output to multiplexing section 203 and extended band decoding section 2409. .
  • the pitch coefficient, the spectral residual shape vector, and the spectral residual gain may be determined simultaneously.
  • the pitch coefficient T, the spectral residual shape vector, and the spectral residual gain may be determined in order in order to reduce the amount of computation.
  • Extension band decoding section 2409 is the encoding parameter of the amplitude adjustment coefficient output from amplitude adjustment section 2401, the lag sign key parameter output from search section 2406, and the sign of the spectral residual shape vector.
  • the first decoding spectrum is decoded using the ⁇ parameter and the spectral residual gain sign ⁇ parameter to generate the estimated spectrum of the input speech signal spectrum (ie, the spectrum before scaling), and the scale factor code Output to the conversion unit 2410.
  • the decoding procedure is the same as that of the extended band decoding unit 1403 in FIG. 19 (except for the processing of the scaling unit 1909 and the spectrum synthesis unit 1910 in FIG. 19).
  • Scale factor code key unit 2410 includes a high frequency part of the input speech signal spectrum (original spectrum) output from frequency domain transform unit 1502A, an estimated spectrum output from extended band decoding key unit 2409, Using the auditory masking, the scale factor (scaling coefficient) of the estimated spectrum most suitable for hearing is encoded, and the code parameter is output to the multiplexing unit 203.
  • FIG. 25 is a schematic diagram showing the contents of the bitstream received by the separation unit 101 in FIG.
  • a plurality of code parameters are time-multiplexed in the bitstream.
  • the left side of FIG. 25 shows MSB (Most Significant Bit, the bit having the highest importance in the bitstream), and the right side shows LSB (Least Significant Bit, the bit having the lowest importance in the bitstream).
  • MSB Mobile Bit
  • LSB Large Significant Bit
  • Figure 20 shows when LSB to (1) is discarded
  • Figure 21 shows when LSB to (2) is discarded
  • Figure 22 shows when LSB to (3) is discarded. It is possible to perform the decoding process using the method described above. If LSB to (4) are discarded, the decoded signal of the first layer is used as the output signal.
  • FIG. 19 shows a configuration including spectrum residual shape codebook 1905, spectral residual gain codebook 1906, and multiplier 1907, but a configuration not including these It can also be taken.
  • the encoder side can perform communication at a low bit rate that does not require transmission of the sign shape parameter of the residual shape vector and the sign weight parameter of the residual gain.
  • the decoding processing procedure in this case is different from the description using FIG. 19 only in that there is no decoding processing of spectrum residual information (shape / gain). That is, decryption
  • the processing procedure is the same as that described with reference to FIG. 20, and the position of (1) is LSB in FIG. 25 for the bitstream.
  • the present embodiment shows another configuration of extended band decoding section 1403 of second layer decoding section 103 shown in FIG. 14 in the second embodiment.
  • the decoding parameters of the frame are determined by using the decoding parameters for decoding the extended band code of the frame and the previous frame, and the data loss information for the received bit stream of the frame. Decide and decode the second decoded spectrum.
  • FIG. 26 is a block diagram showing the configuration of extended band decoding section 1403 according to Embodiment 3 of the present invention.
  • the amplitude adjustment coefficient decoding unit 2 601 decodes the amplitude adjustment coefficient from the amplitude adjustment coefficient encoding parameter.
  • the lag decoding unit 2602 also decodes the lag with the lag code key parameter force.
  • the decoding parameter control unit 2603 uses the decoding parameters to be decoded, the received data loss information, and the decoding parameters of the previous frame output from the buffers 2604a to 2604e. Thus, the decoding parameters used for decoding the second decoding spectrum of the frame are determined.
  • Each of the noffers 2604a to 2604e is a notch for storing an amplitude adjustment coefficient, a lag, a residual shape vector, a spectral residual gain, and a scale factor, which are decoding parameters of the frame.
  • the other configuration in FIG. 26 is the same as the configuration of extended band decoding section 1403 in FIG.
  • each decoding parameter included in the extended band code parameter that is a part of the second layer code data of the frame that is, the scale factor, lag, amplitude adjustment coefficient, residual shape vector
  • the sign parameters of each of the spectral residual gains are decoded by the respective decoding keys 1908, 2602, 2601, 1905, 1906.
  • the decoding norm control unit 2603 uses each decoded parameter and the decoding parameter of the previous frame to decode the second decoding spectrum of the frame based on the received data loss information. Determine the parameters.
  • the received data loss information refers to loss (packet loss or errors detected due to transmission errors). This information indicates which part of the extended band code key parameter cannot be used by the extended band decoding unit 1403.
  • the second decoded spectrum is decoded using the decoding parameter of the frame and the first decoded spectrum obtained by decoding parameter control section 2603. Since the specific operation is the same as that of the extended band decoding unit 1403 of FIG. 19 in the second embodiment, the description thereof is omitted.
  • decoding parameter control section 2603 uses the decoding parameter of the corresponding frequency band of the previous frame as the decoding parameter of the frequency band corresponding to the strong coding parameter obtained by loss. to substitute.
  • T (n, m) lag of the mth frequency band of the ⁇ th frame
  • ⁇ ( ⁇ , m) Amplitude adjustment factor of mth frequency band of ⁇ th frame
  • g (n, m) spectral residual gain in the mth frequency band of the nth frame
  • the decoding parameter corresponding to the lost coding parameter As a result, the decoding parameter of the m-th band of the previous frame (the n ⁇ 1th frame) is output.
  • the corresponding parameter of the previous frame is used as a plurality of types of decoding parameters associated with all five types or in any combination.
  • the decoding parameters decoded using the received encoding parameters of the frame are output as they are.
  • the second layer frame compensation corresponds to the previous frame as an extended band decoding parameter for the entire high frequency band of the frame. Use decoding parameters.
  • decoding is performed by the method described above only when the correlation is higher than the threshold, and when the correlation is lower than the threshold, the method closed in the frame according to the second embodiment.
  • Decoding may be performed by the following.
  • the spectral envelope information such as the LPC parameter obtained from the coding parameter power of the first layer, the pitch period, etc.
  • the previous frame and the frame calculated using information on the voiced continuity of the signal, such as the pitch gain parameter, the low-frequency decoded signal of the first layer, and the low-frequency decoding boundary itself of the first layer There are correlation coefficient and spectral distance.
  • the decoding parameter control unit 2603 for the frequency band in which data loss of the frame has occurred, decodes the decoding parameter of the frequency band of the previous frame, and the previous frame and the frame.
  • the decoding parameters of the frequency band are obtained using the decoding parameters of the frequency band adjacent to the frequency band.
  • the decoding parameter corresponding to the lost code key parameter The decoding parameters of the m-th band of the previous frame (the n-1st frame) and the decoding parameters of the band adjacent to the previous frame and the frequency band of the frame (the same band in the previous frame and the frame) are used. Then, obtain the decoding parameter as follows.
  • decoding parameters decoded using the received encoding parameters of the frame are output as they are.
  • decoding is performed by the method described above only when the correlation is higher than the threshold.
  • decoding parameter may be decoded using the parameter of the frequency band of the previous frame, or may be decoded by the method described in the second embodiment.
  • the decoded spectrum in the vector decoding unit 1402B in the second layer decoding unit 103 shown in FIG. 14 is not added to the frequency band in which the loss has occurred in the extended band encoding parameter.
  • the extended band decoding unit 1403 may be configured not to include a spectral residual shape codebook, a spectral residual gain codebook, and a multiplier.
  • the force may be 3 layers or more as shown in the configuration example of 2 layers.
  • the scalable decoding device and the scalable encoding device according to the present invention are not limited to the above-described Embodiments 1 to 3, and can be implemented with various modifications.
  • the scalable decoding device and the scalable coding device according to the present invention can be mounted on a communication terminal device and a base station device in a mobile communication system, and thereby have the same effects as described above.
  • a communication terminal device and a base station device can be provided.
  • the present invention can also be realized by software.
  • Each functional block used in the description of each of the above embodiments is typically realized as an LSI which is an integrated circuit. These may be individually made into one chip, or may be made into one chip so as to include some or all of them.
  • IC integrated circuit
  • system LSI system LSI
  • super LSI super LSI
  • non-regular LSI depending on the difference in the power density of LSI.
  • the method of circuit integration is not limited to LSI's, and implementation using dedicated circuitry or general purpose processors is also possible.
  • An FPGA Field Programmable Gate Array
  • a reconfigurable 'processor that can reconfigure the connection and settings of circuit cells inside the LSI may be used.
  • the decoding process is performed in the manner of decoding according to the second feature. For this reason, it is designed to increase in the order of transmission path error and loss of coded information 'discarding power scale factor, amplitude adjustment coefficient, lag, and spectral residual (that is, the scale factor is the most erroneous).
  • the present invention When the present invention is applied to a system in which protection is strong or transmission is preferentially performed on a transmission path, it is possible to minimize degradation in quality of decoded speech due to transmission path errors. In addition, since the decoded speech quality gradually changes in units of each parameter described above, it is possible to achieve more detailed and scalable capabilities than in the past.
  • the extended band coding parameter force used for decoding the previous frame is stored as a buffer for storing each decoded parameter
  • the decoding parameters of the frame are determined by using the decoding parameters of the frame and the previous frame and the data loss information for the received bit stream of the frame.
  • a decoding parameter control unit configured to generate a second decoding spectrum using the first decoding spectrum of the frame and the decoding parameter output from the decoding parameter control unit. For this reason, some or all of the extended band code data obtained by encoding a high frequency vector using a filter having a low frequency spectrum as an internal state may be used for decoding. If this is not possible, loss compensation can be performed by using the decoding parameter of the previous frame with high similarity, and a high-quality signal can be decoded even when data loss occurs.
  • the decoding parameter control unit power is adjacent to the frequency band of the previous frame and the frequency band of the previous frame and the frame to the frequency band in which the data loss of the frame has occurred.
  • the decoding parameter of the frequency band may be obtained using the decoding parameter of the frequency band.
  • the scalable decoding device and the scalable coding device of the present invention can be applied to uses such as a mobile communication system and a packet communication system using the Internet protocol.

Landscapes

  • Engineering & Computer Science (AREA)
  • Signal Processing (AREA)
  • Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Quality & Reliability (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Theoretical Computer Science (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)
  • Compression Or Coding Systems Of Tv Signals (AREA)

Abstract

 低域スペクトルを用いて高域スペクトルを生成することで音声信号を復号化する場合においても、高域スペクトルの劣化が少ない高品質な復号音声信号を得ることができるスケーラブル復号化装置等を開示する。この装置において、振幅調整部(1211)は、第1レイヤスペクトル情報の特徴に応じて異なる調整係数を用いて第1レイヤ復号信号スペクトルの振幅調整を行って擬似スペクトル生成部(1012)へ出力し、擬似スペクトル生成部(1012)は、振幅調整部(1211)から入力された振幅調整後の第1レイヤ復号信号スペクトルを用いて擬似的に高域のスペクトルを生成してスケーリング部(1013)へ出力し、スケーリング部(1013)は、擬似スペクトル生成部(1012)から入力されたスペクトルをスケーリングして加算器Bへ出力する。

Description

明 細 書
スケーラブル復号化装置およびスケーラブル符号化装置
技術分野
[0001] 本発明は、移動体通信システムやインターネットプロトコルを用いたパケット通信シ ステム等において、音声信号や音響信号の通信を行う際に用いられるスケーラブル 復号化装置およびスケーラブル符号化装置に関する。
背景技術
[0002] 移動体通信システムにおける電波資源等の有効利用のために、音声信号を低ビッ トレートで圧縮することが要求されている。その一方で、ユーザからは通話音声の品 質向上や臨場感の高い通話サービスの実現が望まれている。この実現には、音声信 号の高品質ィヒのみならず、より帯域の広いオーディオ信号等の音声以外の信号をも 高品質に符号ィ匕できることが望ましい。
[0003] さらに、多種多様なネットワークが混在する環境においては、異なるネットワーク間 での通信、異なるサービスを利用する端末間での通信、異なる処理性能の端末間で の通信、さらには、 2者間の通信のみならずマルチポイントでの相互通信などに柔軟 に対応できる音声符号ィ匕方式が求められて 、る。
[0004] さらに、伝送路誤り(特に IP網に代表されるパケット交換網においてはパケットロス) にも耐性のある音声符号ィ匕方式が求められて 、る。
[0005] このような要求を満たす音声符号ィヒ方式の一つに帯域スケーラブル音声符号ィ匕方 式がある。帯域スケーラブル音声符号ィ匕方式とは、音声信号を階層的に符号化する 方式で、符号ィ匕の階層の数を増やすにしたがって符号ィ匕品質が上がる符号ィ匕方式 である。符号ィ匕の階層の数の増減によりビットレートを可変にすることもできるので、 伝送路容量を有効に使用することができる。
[0006] また、帯域スケーラブル音声符号ィ匕方式では、復号器側は最低基本となる階層の 符号ィヒデータを受信できればよぐ追加階層の符号ィヒ情報が伝送路上で失われるこ とをある程度まで許容できるので、伝送路誤りに対しても耐性が高い。また、符号ィ匕 の階層を増やすにしたがって符号ィヒする音声信号の周波数帯域が広がってゆく。例 えば、基本となる階層(コアレイヤ)には、従来の電話帯域音声の符号化方式が用い られる。また、追加の階層(拡張レイヤ)では、 7kHz帯域のような広帯域音声を符号 化できるように階層が構成される。
[0007] このように、帯域スケーラブル音声符号化方式では、コアレイヤで電話帯域音声信 号を符号化し、拡張レイヤで高品質な広帯域信号を符号ィ匕するので、帯域スケーラ ブル音声符号ィ匕方式は、電話帯域音声サービス端末にも高品質広帯域音声サービ ス端末にも利用でき、また、双方の端末を含む多地点間通信にも対応可能である。ま た、符号ィ匕情報が階層的になっているため、伝送の仕方の工夫次第で誤り耐性も高 くすることができ、さらには符号ィ匕側や伝送路上でビットレートを制御することも容易 である。このようなことから、帯域スケーラブル音声符号ィ匕方式は、今後の通信用音 声符号化方式として注目されて ヽる。
[0008] 上記のような帯域スケーラブル音声符号ィ匕方式の一例として、非特許文献 1記載の 方式が挙げられる。
[0009] 非特許文献 1記載の帯域スケーラブル音声符号化方式では、 MDCT係数を帯域 毎のスケールファクタと微細構造情報とで符号ィ匕する。スケールファクタはハフマン符 号化され、微細構造はベクトル量子化される。スケールファクタの復号結果を用いて 各帯域の聴覚的重要度が算出されるとともに各帯域へのビット配分が決定される。各 帯域の帯域幅は不均等で、高域ほど広くなるように予め設定されて!、る。
[0010] また、伝送情報は以下のような 4つのグループに分類される。
A:コアコーデック符号ィ匕情報
B:高域のスケールファクタ符号ィ匕情報
C:低域のスケールファクタ符号ィ匕情報
D:スペクトル微細構造の符号ィ匕情報
[0011] また、復号側では以下のような処理を行う。
くケース 1 > Aの情報が完全に受信できない場合、フレーム消失補償処理を行って 復号音声を生成する。
くケース 2 > Aの情報のみを受信した場合、コアコーデックの復号信号を出力する。 <ケース 3 > Aの情報に加えて Bの情報を受信した場合、コアコーデックの復号信号 をミラーリングすることによって高域を生成し、コアコーデックの復号信号より広 、帯域 を有する復号信号を生成する。高域のスペクトル形状の生成には復号した Bの情報 を用いる。ミラーリングは、有声フレームにおいて行われ、ハーモニック構造 (調波構 造)が崩れないようなやり方で行われる。無声フレームではランダム雑音を用いて高 域を生成する。
<ケース 4 > Aと Bの情報に加えて Cの情報を受信した場合、 Aと Bの情報だけでケ ース 3と同様の復号処理を行う。
くケース 5 >A、 B、 Cの情報にカ卩えて Dの情報を受信した場合、 A〜Dの情報を全て 受信できた帯域では完全な復号処理を行 、、 Dの情報を受信できな 、帯域では低 域側の復号信号スペクトルをミラーリングすることによって微細スペクトルを復号する。 Dの情報が受信されていなくても B、 Cの情報は受信されているので、スペクトル包絡 情報の復号にはこれら B、 Cの情報を利用する。ミラーリングは、有声フレームにおい て行われ、ハーモニック構造 (調波構造)が崩れないようなやり方で行われる。無声フ レームではランダム雑音を用いて高域を生成する。
非特許文献 1: B. Kovesi et al, A scalable speech and audio coding scheme with con tinuous bitrateflexibility," in proc. IEEE ICASSP 2004, pp.I- 273- - 1- 276
発明の開示
発明が解決しょうとする課題
[0012] 上記従来技術 (非特許文献 1)では、ミラーリングによって高域を生成する。この際、 調波構造を崩さないようにミラーリングを行うので、調波構造は維持される。しかし、低 域の調波構造が鏡像となって高域に現れることになる。一般に、有声信号では、高域 に行くほど調波構造が崩れるため、高域では低域ほど顕著な調波構造を示さないこ とが多い。換言すると、低域ではハーモ-タスの谷が深くても、高域では、ハーモニタ スの谷が浅力つたり、場合によっては調波構造自体がはっきりしな力つたりすることが ある。したがって、上記従来技術では、高域成分に過度の調波構造が現れやすぐこ のため、復号音声信号の品質が劣化してしまう。
[0013] 本発明の目的は、低域スペクトルを用いて高域スペクトルを生成することで音声 (音 響)信号を復号化する場合にぉ 、ても、高域スペクトルの劣化が少な!ヽ高品質な復 号音声 (音響)信号を得ることができるスケーラブル復号ィ匕装置およびスケーラブル 符号ィ匕装置を提供することである。
課題を解決するための手段
[0014] 本発明のスケーラブル復号化装置は、低周波帯域の符号化情報を復号して低周 波帯域の復号信号を得る第 1復号化手段と、前記低周波帯域の復号信号と高周波 帯域の符号化情報とから高周波帯域の復号信号を得る第 2復号化手段と、を具備す るスケーラブル復号化装置であって、前記第 2復号化手段は、前記低周波帯域の復 号信号を変換して低周波帯域のスペクトルを得る変換手段と、前記低周波帯域のス ベクトルに対して振幅調整を施す調整手段と、振幅調整された低周波帯域のスぺタト ルと前記高周波帯域の符号ィ匕情報とを用いて、高周波帯域のスペクトルを擬似的に 生成する生成手段と、を具備する構成を採る。
発明の効果
[0015] 本発明によれば、低域スペクトルを用いて高域スペクトルを生成することで音声 (音 響)信号を復号化する場合にぉ 、ても、高域スペクトルの劣化が少な!ヽ高品質な復 号音声 (音響)信号を得ることができる。
図面の簡単な説明
[0016] [図 1]本発明の実施の形態 1に係るスケーラブル復号ィ匕装置の構成を示すブロック図 [図 2]本発明の実施の形態 1に係るスケーラブル符号ィ匕装置の構成を示すブロック図 [図 3]本発明の実施の形態 1に係る第 2レイヤ復号ィ匕部の構成を示すブロック図
[図 4]本発明の実施の形態 1に係る第 2レイヤ符号ィ匕部の構成を示すブロック図
[図 5]本発明の実施の形態 1に係るスペクトル復号ィ匕部の構成を示すブロック図
[図 6]本発明の実施の形態 1に係るスペクトル復号ィ匕部の構成を示すブロック図
[図 7]本発明の実施の形態 1に係るスペクトル復号ィ匕部の構成を示すブロック図
[図 8]本発明の実施の形態 1に係るスペクトル復号ィ匕部の構成を示すブロック図
[図 9]本発明の実施の形態 1に係るスペクトル復号ィ匕部の構成を示すブロック図
[図 10]本発明の実施の形態 1に係るスペクトル復号ィ匕部の構成を示すブロック図 [図 11]本発明の実施の形態 1に係る高域スペクトル復号ィ匕部にて高域成分を生成す る処理の様子を示す模式図 [図 12]本発明の実施の形態 1に係るスペクトル復号ィ匕部の構成を示すブロック図 [図 13]本発明の実施の形態 1に係るスペクトル復号ィ匕部の構成を示すブロック図 [図 14]本発明の実施の形態 2に係る第 2レイヤ復号ィ匕部の構成を示すブロック図 [図 15]本発明の実施の形態 2に係る第 2レイヤ符号ィ匕部の構成を示すブロック図 [図 16]本発明の実施の形態 2に係るスペクトル復号ィ匕部の構成を示すブロック図 [図 17]本発明の実施の形態 2に係るスペクトル復号ィ匕部の構成を示すブロック図 [図 18]本発明の実施の形態 2に係る第 1スペクトル符号ィ匕部の構成を示すブロック図 [図 19]本発明の実施の形態 2に係る拡張帯域復号ィ匕部の構成を示すブロック図 [図 20]本発明の実施の形態 2に係る拡張帯域復号ィ匕部の構成を示すブロック図 [図 21]本発明の実施の形態 2に係る拡張帯域復号ィ匕部の構成を示すブロック図 [図 22]本発明の実施の形態 2に係る拡張帯域復号ィ匕部の構成を示すブロック図 [図 23]本発明の実施の形態 2に係る拡張帯域復号ィ匕部にて高域成分を生成する処 理の様子を示す模式図
[図 24]本発明の実施の形態 2に係る拡張帯域符号ィ匕部の構成を示すブロック図 [図 25]本発明の実施の形態 2に係るスケーラブル復号ィ匕装置の分離部が受信するビ ットストリームの内容を示す模式図
[図 26]本発明の実施の形態 3に係る拡張帯域復号ィ匕部の構成を示すブロック図 発明を実施するための最良の形態
[0017] 以下、本発明の実施の形態について、添付図面を参照して詳細に説明する。
[0018] (実施の形態 1)
図 1は、例えば帯域スケーラブル音声 (音響)信号復号化装置等を形成するスケー ラブル復号ィ匕装置 100の構成を表すブロック図である。
[0019] スケーラブル復号ィ匕装置 100は、分離部 101、第 1レイヤ復号ィ匕部 102、および、 第 2レイヤ復号ィ匕部 103を備える。
[0020] 分離部 101は、後述するスケーラブル符号ィ匕装置力も送出されたビットストリームを 受信し、第 1レイヤ用の符号ィ匕パラメータと第 2レイヤ用の符号ィ匕パラメータとに分離 し、第 1レイヤ復号ィ匕部 102と第 2レイヤ復号ィ匕部 103にそれぞれ出力する。
[0021] 第 1レイヤ復号ィ匕部 102は、分離部 101より入力された第 1レイヤ用の符号ィ匕パラメ 一タを復号し、第 1レイヤ復号信号を出力する。この第 1レイヤ復号信号は第 2レイヤ 復号ィ匕部 103へも出力される。
[0022] 第 2レイヤ復号ィ匕部 103は、分離部 101より入力された第 2レイヤ用の符号ィ匕パラメ ータを、第 1レイヤ復号ィ匕部 102より入力された第 1レイヤ復号信号を用いて復号し、 第 2レイヤ復号信号を出力する。
[0023] 図 1のスケーラブル復号ィ匕装置 100に対応するスケーラブル符号ィ匕装置 200の構 成の一例を図 2に示す。
[0024] 図 2において、第 1レイヤ符号ィ匕部 201は、入力される音声信号 (原信号)を符号化 し、得られる符号化パラメータを第 1レイヤ復号ィ匕部 202および多重化部 203に出力 する。第 1レイヤ符号ィ匕部 201は、符号ィ匕にあたり、ダウンサンプル処理や低域通過 フィルタリング処理などを行うことで、第 1レイヤと第 2レイヤの帯域スケーラビリティを 実現する。
[0025] 第 1レイヤ復号ィ匕部 202は、第 1レイヤ符号ィ匕部 201から入力される符号ィ匕パラメ 一タカも第 1レイヤの復号信号を生成して第 2レイヤ符号ィ匕部 204に出力する。
[0026] 第 2レイヤ符号ィ匕部 204は、入力される音声信号 (原信号)を、第 1レイヤ復号ィ匕部 202から入力される第 1レイヤ復号信号を用いて符号ィ匕し、得られる符号ィ匕パラメ一 タを多重化部 203に出力する。第 2レイヤ符号ィ匕部 204は、符号ィ匕にあたり、第 1レイ ャ符号ィ匕部 201で行われる処理 (ダウンサンプル処理や低域通過フィルタリング処理 )に応じて、第 1レイヤ復号信号のアップサンプル処理や、第 1レイヤ復号信号の位 相と入力音声信号の位相を合わせるための位相調整処理などを行う。
[0027] 多重化部 203は、第 1レイヤ符号ィ匕部 201から入力される符号化パラメータと第 2レ ィャ符号ィ匕部 204から入力される符号ィ匕パラメータとを多重化し、ビットストリームを出 力する。
[0028] 次いで、図 1に示す第 2レイヤ復号ィ匕部 103についてより詳しく説明する。図 3は第 2レイヤ復号ィ匕部 103の構成を表すブロック図である。第 2レイヤ復号ィ匕部 103は、 分離部 301、スケーリング係数復号化部 302、微細スペクトル復号ィ匕部 303、周波数 領域変換部 304、スペクトル復号ィ匕部 305、および、時間領域変換部 306を備える。
[0029] 分離部 301は、入力された第 2レイヤ用符号化パラメータを、スケーリング係数を表 す符号化パラメータ (スケーリング係数パラメータ)とスペクトル微細構造を表す符号 化パラメータ (微細スペクトルパラメータ)とに分離し、スケーリング係数復号化部 302 と微細スペクトル復号ィ匕部 303とにそれぞれ出力する。
[0030] スケーリング係数復号ィ匕部 302は、入力されたスケーリング係数パラメータを復号し て低域スケーリング係数と高域スケーリング係数を得て、それらの復号スケーリング係 数をスペクトル復号ィ匕部 305へ出力するとともに、微細スペクトル復号ィ匕部 303にも 出力する。
[0031] 微細スペクトル復号ィ匕部 303は、スケーリング係数復号化部 302から入力された復 号スケーリング係数を用いて各帯域の聴覚的重要度を算出し、各帯域の微細スぺク トル情報に割り当てられたビット数を求める。そして、微細スペクトル復号ィ匕部 303は 、分離部 301から入力された微細スペクトルパラメータを復号して各帯域の復号微細 スペクトル情報を得て、スペクトル復号ィ匕部 305へ出力する。なお、聴覚的重要度の 算出に第 1レイヤ復号信号の情報を用いても良ぐその場合は、周波数領域変換部 3 04の出力が微細スペクトル復号ィ匕部 303にも入力される。
[0032] 周波数領域変換部 304は、入力された第 1レイヤ復号信号を周波数領域のスぺタト ルパラメータ(例えば MDCT係数)に変換し、スペクトル復号ィ匕部 305へ出力する。
[0033] スペクトル復号ィ匕部 305は、周波数領域変換部 304から入力された周波数領域に 変換された第 1レイヤ復号信号と、スケーリング係数復号化部 302から入力された復 号スケーリング係数 (低域および高域)と、微細スペクトル復号ィ匕部 303から入力され た復号微細スペクトル情報と、力 第 2レイヤ復号信号のスペクトルを復号し、時間領 域変換部 306へ出力する。
[0034] 時間領域変換部 306は、スペクトル復号ィ匕部 305から入力された第 2レイヤ復号信 号のスぺ外ルを時間領域の信号に変換し、第 2レイヤ復号信号として出力する。
[0035] 図 3の第 2レイヤ復号ィ匕部 103に対応する第 2レイヤ符号ィ匕部 204の構成の一例を 図 4に示す。
[0036] 図 4において、入力音声信号は、聴覚マスキング算出部 401および周波数領域変 換部 402Aへ入力される。
[0037] 聴覚マスキング算出部 401は、あら力じめ規定されている帯域幅を持つサブバンド 毎の聴覚マスキングを算出し、この聴覚マスキングをスケーリング係数符号ィ匕部 403 および微細スペクトル符号ィ匕部 404に出力する。
[0038] 人間の聴覚特性には、ある信号が聞こえているときに、その信号と周波数の近い音 が耳に入ってきても聞こえにくい、という聴覚マスキング特性がある。この聴覚マスキ ング特性に基づき、上記聴覚マスキングを用いて、量子化歪が聞こえにくい周波数 のスペクトルには量子化ビット数を少なく配分し、量子化歪が聞こえやすい周波数の スペクトルには量子化ビット数を多く配分することで効率的なスペクトル符号ィヒを実現 することができる。
[0039] 周波数領域変換部 402Aは、入力された音声信号を周波数領域のスペクトルパラ メータ (例えば MDCT係数)に変換し、スケーリング係数符号ィ匕部 403および微細ス ベクトル符号ィ匕部 404に出力する。周波数領域変換部 402Bは、入力された第 1レイ ャ復号信号を周波数領域のスペクトルパラメータ (例えば MDCT係数)に変換し、ス ケーリング係数符号ィ匕部 403および微細スペクトル符号ィ匕部 404に出力する。
[0040] スケーリング係数符号ィ匕部 403は、聴覚マスキング算出部 401から入力される聴覚 マスキング情報を用いて、周波数領域変換部 402Aカゝら入力されるスペクトルパラメ ータと周波数領域変換部 402Bカゝら入力される第 1レイヤ復号スペクトルとの差分ス ベクトルの符号ィ匕を行ってスケーリング係数パラメータを得て、そのスケーリング係数 ノ ラメータを符号ィ匕パラメータ多重化部 405および微細スペクトル符号ィ匕部 404へ出 力する。なお、ここでは高域スペクトルのスケーリング係数パラメータと低域スペクトル のスケーリング係数パラメータを別々に出力する例を図示している。
[0041] 微細スペクトル符号ィ匕部 404は、スケーリング係数符号化部 403から入力されるス ケーリング係数パラメータ (低域および高域)を復号して復号スケーリング係数 (低域 および高域)を得、周波数領域変換部 402Aから入力されるスペクトルパラメータと周 波数領域変換部 402Bから入力される第 1レイヤ復号スペクトルとの差分スペクトルを 復号スケーリング係数 (低域および高域)を用いて正規化する。微細スペクトル符号 化部 404は、この正規化した差分スペクトルを符号化し、その符号化後の差分スぺク トル (微細スペクトル符号ィ匕パラメータ)を符号ィ匕パラメータ多重化部 405へ出力する 。このとき、微細スペクトル符号ィ匕部 404は、復号スケーリング係数 (低域および高域 )を用いて微細スペクトルの帯域毎の聴覚重要度を算出し、聴覚重要度に応じたビッ ト配分を行う。この聴覚重要度の算出には第 1レイヤ復号スペクトルを用いても良 、。
[0042] 符号化パラメータ多重化部 405は、スケーリング係数符号化部 403から入力される 高域スペクトルスケーリング係数パラメータおよび低域スペクトルスケーリング係数パ ラメータと、微細スペクトル符号ィ匕部 404から入力される微細スペクトル符号ィ匕パラメ ータと、を多重化し、第 1のスペクトル符号ィ匕パラメータとして出力する。
[0043] 次いで、図 3に示すスペクトル復号ィ匕部 305についてより詳しく説明する。図 5〜図
9はスペクトル復号ィ匕部 305の構成を表すブロック図である。
[0044] 図 5は、第 1レイヤ復号信号、全ての復号スケーリング係数 (低域および高域)、全 ての微細スペクトル復号情報、が全て正常に受信される場合の処理を実行するため の構成を示す。
[0045] 図 6は、高域の微細スペクトル復号情報の一部が受信されない場合の処理を実行 するための構成を示す。加算器 Aの出力結果が高域スペクトル復号ィ匕部 602へ入力 されている点が図 5と異なる。受信されな力つた高域微細スペクトル復号情報を用い て復号されるべき帯域のスペクトルは、後述する方法によって擬似的に生成される。
[0046] 図 7は、高域の微細スペクトル復号情報が全て受信されない場合 (加えて低域の微 細スペクトル復号情報の一部も受信されな 、場合を含む)の処理を実行するための 構成を示す。微細スペクトル復号情報が高域スペクトル復号ィ匕部 702へ入力されな い点が図 6と異なる。受信されな力つた高域微細スペクトル復号情報を用いて復号さ れるべき帯域のスペクトルは、後述する方法によって擬似的に生成される。
[0047] 図 8は、全ての微細スペクトル復号情報が受信されず、さらに低域の復号スケーリン グ係数の一部が受信されな 、場合の処理を実行するための構成を示す。微細スぺク トル復号情報が入力されない点と、低域スペクトル復号ィ匕部 801からの出力がなく加 算器 Aが存在しな 、点が図 7と異なる。受信されな力つた高域微細スぺ外ル復号情 報を用いて復号されるべき帯域のスペクトルは、後述する方法によって擬似的に生 成される。
[0048] 図 9は、高域の復号スケーリング係数のみが受信される場合 (一部の高域復号スケ 一リング係数が受信されな ヽ場合も含む)の処理を実行するための構成を示す。低 域の復号スケーリング係数の入力がなぐ低域スペクトル復号ィ匕部がない点が図 8と 異なる。受信された高域復号スケーリング係数のみから高域のスペクトルを擬似的に 生成する方法にっ 、ては後述する。
[0049] 図 5のスペクトル復号化部 305は、低域スペクトル復号化部 501、高域スペクトル復 号ィ匕部 502、加算器 A、および、加算器 Bを備える。
[0050] 低域スペクトル復号ィ匕部 501は、スケーリング係数復号化部 302から入力された低 域の復号スケーリング係数と、微細スペクトル復号ィ匕部 303から入力された微細スぺ タトル復号情報と、を用いて低域スぺ外ルを復号し、加算器 Aへ出力する。一般的 には、微細スペクトル復号情報に復号スケーリング係数を乗算することによって復号 スペクトルを算出する。
[0051] 加算器 Aは、低域スペクトル復号ィ匕部 501から入力された復号低域スペクトル (残 差)と、周波数領域変換部 304から入力された第 1レイヤ復号信号 (スペクトル)と、を 加算して復号低域スペクトルを求めて加算器 Bに出力する。
[0052] 高域スペクトル復号ィ匕部 502は、スケーリング係数復号化部 302から入力された高 域の復号スケーリング係数と、微細スペクトル復号ィ匕部 303から入力された微細スぺ タトル復号情報と、を用いて高域スペクトルを復号し、加算器 Bへ出力する。
[0053] カロ算器 Bは、加算器 Aより入力される復号低域スペクトルと、高域スペクトル復号ィ匕 部 502より入力される復号高域スペクトルと、を合わせて全域 (低域と高域を合わせた 全周波数帯域)のスペクトルを生成し、復号スペクトルとして出力する。
[0054] 図 6では、図 5と比べて高域スペクトル復号化部 602の動作のみが異なる。
[0055] 高域スペクトル復号ィ匕部 602は、スケーリング係数復号化部 302から入力された高 域の復号スケーリング係数と、微細スペクトル復号ィ匕部 303から入力された高域の微 細スペクトル復号情報と、を用いて高域のスペクトルを復号する。このとき、一部の帯 域の高域微細スペクトル復号情報は受信されて 、な 、ため、該当する帯域の高域ス ベクトルは正確に復号できない。よって、高域スペクトル復号化部 602は、復号スケ 一リング係数と、加算器 Aから入力される低域の復号スペクトルと、受信されて正確に 復号できる高域のスペクトルとを用いて、擬似的に高域のスペクトルを生成する。具 体的な生成方法につ!、ては後述する。 [0056] 図 7では、図 5および図 6において、高域微細スペクトル復号情報が全て受信され ない場合の動作となる。この場合、高域スペクトル復号ィ匕部 702は、スケーリング係数 復号ィ匕部 302から入力された高域の復号スケーリング係数だけを用いて高域のスぺ タトルを復号する。
[0057] また、低域スペクトル復号ィ匕部 701は、スケーリング係数復号ィ匕部 302から入力さ れた低域の復号スケーリング係数と、微細スペクトル復号ィ匕部 303から入力された低 域の微細スペクトル復号情報と、を用いて低域のスペクトルを復号する。このとき、一 部の帯域の低域微細スペクトル復号情報は受信されて 、な 、ため、その一部の帯域 については復号処理を行なわず、零スペクトルとする。この場合、加算器 Aおよび B を経て出力される該当帯域のスぺクトルは第 1レイヤ復号信号 (スベタトル)そのものと なる。
[0058] 図 8では、図 7において低域微細スペクトル復号情報が全て受信されない場合の動 作となる。低域スペクトル復号ィ匕部 801は、低域の復号スケーリング係数が入力され る力 微細スペクトル復号情報が全く入力されないので、復号処理を行なわない。
[0059] 図 9では、図 8において低域の復号スケーリング係数が全く入力されない場合の動 作となる。ただし、高域スペクトル復号ィ匕部 902では、一部の復号スケーリング係数( 高域)が入力されない場合、その帯域のスペクトルは零として出力する。
[0060] 次いで、擬似的に高域スペクトルを生成する方法について図 9を例にとって説明す る。図 9において、高域スペクトルを擬似的に生成するのは高域スペクトル復号ィ匕部 9 02である。高域スペクトル復号ィ匕部 902の構成をより詳細に示したのが図 10である。
[0061] 図 10の高域スペクトル復号ィ匕部 902は、振幅調整部 1011と、擬似スペクトル生成 部 1012と、スケーリング部 1013と、を備える。
[0062] 振幅調整部 1011は、周波数領域変換部 304から入力される第 1レイヤ復号信号ス ベクトルの振幅を調整し、擬似スペクトル生成部 1012へ出力する。
[0063] 擬似スペクトル生成部 1012は、振幅調整部 1011力も入力された振幅調整後の第 1レイヤ復号信号スぺクトルを用 、て擬似的に高域のスペクトルを生成し、スケーリン グ部 1013へ出力する。
[0064] スケーリング部 1013は、擬似スペクトル生成部 1012から入力されたスペクトルをス ケーリングして加算器 Bへ出力する。
[0065] 図 11は高域スペクトルを擬似的に生成する上記一連の処理の様子の一例を示し た模式図である。
[0066] まず、第 1レイヤの復号信号スペクトルの振幅調整を行う。振幅調整の方法は、例え ば、対数領域で定数倍(0 X S、 γは 0≤ γ≤1の範囲にある振幅調整係数 (実数)、 Sは対数スペクトル)したり、線形領域で定数乗(sY、 sは線形スペクトル)したりすれば 良い。また、振幅調整のための調整係数として、有声音において低域におけるハー モ-タスの谷の深さと高域におけるハーモ-タスの谷の深さとを合わせるのに必要と なる係数の代表的なものを用いると良い。また、調整係数は固定の定数としても良い 力 低域スペクトルのハーモ-タスの谷の深さを表す指標(例えば、直接的には低域 におけるスペクトル振幅の分散値など、間接的には第 1レイヤ符号ィ匕部 201における ピッチゲインの値など)に応じて適当な調整係数を複数用意し、上記指標に応じて対 応する調整係数を選択的に用いるとなお良い。また、低域のスペクトル形状 (包絡) 情報やピッチ周期情報なども用いて、母音毎の特徴に応じて調整係数を選択的に用 いるのも良い。また、最適な調整係数を別途伝送情報として符号器側で符号化して 伝送するようにしても良い。
[0067] 次に、振幅調整後のスペクトルを用いて擬似的に高域のスペクトルを生成する。生 成方法として、高域スペクトルを低域スペクトルの鏡像として生成するミラーリングの 例を図 11に示す。ミラーリングの他にも、振幅調整後のスペクトルを周波数軸の高域 方向にシフトして高域スペクトルを生成する方法、低域スペクトルから求められるピッ チラグを用いて振幅調整後のスペクトルに対し周波数軸方向にピッチフィルタリング 処理を行なって高域スペクトルを生成する方法などがある。 V、ずれの方法にしても、 生成した高域のハーモニタス構造が崩れな 、ようにするとともに、低域スペクトルのハ 一モニタス構造と生成した高域スペクトルのハーモニタス構造とが連続的につながる ようにする。
[0068] 最後に、符号ィ匕単位の帯域毎に振幅のスケーリングを行って高域スペクトルを生成 する。
[0069] 図 12は、振幅調整部 1211に、第 1レイヤのスペクトル情報 (例えば復号 LSPパラメ ータなど)が第 1レイヤ復号ィ匕部 102から入力される場合を示したものである。この場 合、振幅調整部 1211は、振幅調整に用いる調整係数を、入力された第 1レイヤのス ベクトル情報に基いて決定する。なお、調整係数の決定にあたり、第 1レイヤのスぺク トル情報以外に、第 1レイヤのピッチ情報 (ピッチ周期やピッチゲイン)を用いても良い
[0070] 図 13は、振幅調整部 1311に、振幅調整係数が別途入力される場合を示したもの である。この場合、符号器側において振幅調整係数が量子化 ·符号化されて伝送さ れる。
[0071] (実施の形態 2)
図 14は、本発明の実施の形態 2に係る第 2レイヤ復号ィ匕部 103の構成を示すプロ ック図である。
[0072] 図 14の第 2レイヤ復号ィ匕部 103は、分離部 1401、スペクトル復号ィ匕部 1402A、拡 張帯域復号ィ匕部 1403、スペクトル復号ィ匕部 1402B、周波数領域変換部 1404、お よび、時間領域変換部 1405を備える。
[0073] 分離部 1401は、第 2レイヤ用符号ィ匕パラメータを、第 1のスペクトル符号ィ匕パラメ一 タ、拡張帯域符号ィ匕パラメータ、第 2のスペクトル符号化パラメータ、に分離し、スぺク トル復号ィ匕部 1402A、拡張帯域復号ィ匕部 1403、スペクトル復号ィ匕部 1402B、にそ れぞれ出力する。
[0074] 周波数領域変換部 1404は、第 1レイヤ復号ィ匕部 102から入力された第 1レイヤ復 号信号を周波数領域のパラメータ (例えば MDCT係数など)に変換し、第 1レイヤ復 号信号スペクトルとしてスペクトル復号ィ匕部 1402Aに出力する。
[0075] スペクトル復号ィ匕部 1402Aは、周波数領域変換部 1404から入力された第 1レイヤ の復号信号スペクトルに、分離部 1401から入力された第 1のスペクトル符号ィ匕パラメ 一タを復号して得られる第 1レイヤの符号ィ匕誤差の量子化スペクトルを加えて、第 1の 復号スペクトルとして拡張帯域復号ィ匕部 1403へ出力する。なお、スペクトル復号ィ匕 部 1402Aでは主として低域成分に対する第 1レイヤの符号ィ匕誤差が改善される。
[0076] 拡張帯域復号ィ匕部 1403は、分離部 1401から入力された拡張帯域符号化パラメ 一タカも各種パラメータを復号し、スペクトル復号ィ匕部 1402A力も入力された第 1の 復号スペクトルを基にして、その復号した各種パラメータを用いて高域のスペクトルを 復号 '生成する。そして、拡張帯域復号ィ匕部 1403は、全帯域のスペクトルを第 2の復 号スペクトルとしてスペクトル復号化部 1402Bへ出力する。
[0077] スペクトル復号ィ匕部 1402Bは、拡張帯域復号ィ匕部 1403から入力された第 2の復 号スペクトルに、分離部 1401から入力された第 2のスペクトル符号ィ匕パラメータを復 号して得られる第 2の復号スペクトルの符号ィヒ誤差を量子化したスペクトルを加えて、 第 3の復号スペクトルとして時間領域変換部 1405へ出力する。
[0078] 時間領域変換部 1405は、スペクトル復号ィ匕部 1402B力も入力された第 3の復号ス ベクトルを時間領域の信号に変換し、第 2レイヤ復号信号として出力する。
[0079] なお、図 14において、スペクトル復号化部 1402Aおよびスペクトル復号化部 1402 Bの一方もしくは双方がない構成を採ることもできる。スペクトル復号ィ匕部 1402Aがな い構成の場合は、周波数領域変換部 1404から出力された第 1レイヤ復号信号スぺ タトルは拡張帯域復号ィ匕部 1403へ入力される。また、スペクトル復号ィ匕部 1402Bが ない構成の場合は、拡張帯域復号ィ匕部 1403が出力する第 2の復号スペクトルが時 間領域変換部 1405へ入力される。
[0080] 図 14の第 2レイヤ復号ィ匕部 103に対応する第 2レイヤ符号ィ匕部 204の構成の一例 を図 15に示す。
[0081] 図 15において、音声信号 (原信号)は、聴覚マスキング算出部 1501および周波数 領域変換部 1502Aへ入力される。
[0082] 聴覚マスキング算出部 1501は、入力される音声信号を用いて聴覚マスキングを算 出して第 1スペクトル符号ィ匕部 1503、拡張帯域符号ィ匕部 1504および第 2スペクトル 符号ィ匕部 1505へ出力する。
[0083] 周波数領域変換部 1502Aは、入力された音声信号を周波数領域のスペクトルパラ メータ (例えば MDCT係数)に変換し、第 1スペクトル符号ィ匕部 1503、拡張帯域符号 化部 1504および第 2スペクトル符号ィ匕部 1505へ出力する。
[0084] 周波数領域変換部 1502Bは、入力される第 1レイヤ復号信号を MDCT等のスぺク トルパラメータに変換し、第 1スペクトル符号ィ匕部 1503へ出力する。
[0085] 第 1スペクトル符号ィ匕部 1503は、聴覚マスキング算出部 1501から入力される聴覚 マスキングを用いて、周波数領域変換部 1502Aから入力される入力音声信号スぺク トルと周波数領域変換部 1502B力も入力される第 1レイヤ復号スペクトルとの差分ス ベクトルの符号ィ匕を行い、第 1のスペクトル符号ィ匕パラメータとして出力するとともに、 第 1のスペクトル符号ィ匕パラメータを復号して得られる第 1の復号スぺクトルを拡張帯 域符号ィ匕部 1504に出力する。
[0086] 拡張帯域符号ィ匕部 1504は、聴覚マスキング算出部 1501から入力される聴覚マス キングを用いて、周波数領域変換部 1502Aから入力される入力音声信号スペクトル と第 1スペクトル符号ィ匕部 1503から入力される第 1の復号スペクトルとの誤差スぺタト ルを符号ィ匕し、拡張帯域符号ィ匕パラメータとして出力するとともに、拡張帯域符号ィ匕 ノ ラメータを復号して得られる第 2の復号スペクトルを第 2スペクトル符号ィ匕部 1505 へ出力する。
[0087] 第 2スペクトル符号ィ匕部 1505は、聴覚マスキング算出部 1501から入力される聴覚 マスキングを用いて、周波数領域変換部 1502Aから入力される入力音声信号スぺク トルと拡張帯域符号ィ匕部 1504から入力される第 2の復号スペクトルとの誤差スぺタト ルを符号ィ匕し、第 2のスペクトル符号化パラメータとして出力する。
[0088] 次いで、図 14のスペクトル復号化部 1402A、 1402Bの具体例を図 16および図 17 に示す。
[0089] 図 16において、分離部 1601は、入力される符号化パラメータを、スケーリング係数 を表す符号化パラメータ (スケーリング係数パラメータ)とスペクトル微細構造を表す 符号化パラメータ (微細スペクトルパラメータ)とに分離し、スケーリング係数復号化部 1602と微細スペクトル復号ィ匕部 1603とにそれぞれ出力する。
[0090] スケーリング係数復号ィ匕部 1602は、入力されたスケーリング係数パラメータを復号 して低域スケーリング係数と高域スケーリング係数を得て、それらの復号スケーリング 係数をスペクトル復号ィ匕部 1604へ出力するとともに、微細スペクトル復号ィ匕部 1603 にも出力する。
[0091] 微細スペクトル復号ィ匕部 1603は、スケーリング係数復号ィ匕部 1602から入力された 復号スケーリング係数を用いて各帯域の聴覚的重要度を算出し、各帯域の微細スぺ タトル情報に割り当てられたビット数を求める。そして、微細スペクトル復号ィ匕部 1603 は、分離部 1601から入力された微細スペクトルパラメータを復号して各帯域の復号 微細スペクトル情報を得て、スペクトル復号ィ匕部 1604へ出力する。なお、聴覚的重 要度の算出に復号スペクトル Aの情報を用いても良い。その場合、復号スペクトル A も微細スペクトル復号ィ匕部 1603へ入力されるように構成する。
[0092] スペクトル復号ィ匕部 1604は、入力された復号スペクトル Aと、スケーリング係数復号 化部 1602から入力された復号スケーリング係数 (低域および高域)と、微細スぺタト ル復号ィ匕部 1603から入力された復号微細スペクトル情報と、力も復号スペクトル Bを 復号して出力する。
[0093] 図 16と図 14の対応関係について説明すると、図 16に示す構成がスペクトル復号 化部 1402Aの構成である場合、図 16の符号ィ匕パラメータが図 14の第 1のスペクトル 符号化パラメータに、図 16の復号スペクトル Aが図 14の第 1レイヤ復号信号スぺタト ルに、図 16の復号スペクトル Bが図 14の第 1の復号スペクトルに、それぞれ相当する 。また、図 16に示す構成力 Sスペクトル復号ィ匕部 1402Bの構成である場合、図 16の符 号化パラメータが図 14の第 2のスペクトル符号化パラメータに、図 16の復号スぺクト ル Aが図 14の第 2の復号スペクトルに、図 16の復号スペクトル Bが図 14の第 3の復 号スペクトルに、それぞれ相当する。
[0094] 図 16のスペクトル復号化部 1402A、 1402Bに対応する第 1スペクトル符号化部 15 03の構成の一例を図 18に示す。図 18では、図 15における第 1スペクトル符号ィ匕部 1 503の構成を示している。図 18に示す第 1スペクトル符号ィ匕部 1503は、図 4に示す スケーリング係数符号化部 403、微細スペクトル符号ィヒ部 404、符号化パラメータ多 重化部 405、および、図 16に示すスペクトル復号ィ匕部 1604から構成されており、そ れらの動作は図 4および図 16において説明したのと同一であるのでここでの説明を 省略する。また、図 18の第 1レイヤ復号スペクトルを第 2の復号スペクトルに、第 1のス ベクトル符号ィ匕パラメータを第 2のスペクトル符号化パラメータに、それぞれ置き換え れば、図 18に示す構成は図 15における第 2スペクトル符号ィ匕部 1505の構成となる。 ただし、第 2スペクトル符号ィ匕部 1505の構成では、スペクトル復号ィ匕部 1604は除か れる。
[0095] 図 17は、スケーリング係数を用いない場合のスペクトル復号化部 1402A、 1402B の構成を示している。この場合、スペクトル復号ィ匕部 1402A、 1402Bは、聴覚重要 度およびビット配分算出部 1701と、微細スペクトル復号ィ匕部 1702と、スペクトル復号 化部 1703とを備える。
[0096] 図 17において、聴覚重要度およびビット配分算出部 1701は、入力される復号スぺ タトル Aから各帯域の聴覚重要度を求め、聴覚重要度に応じて決定される各帯域へ のビット配分を求める。求められた聴覚重要度とビット配分の情報は、微細スペクトル 復号ィ匕部 1702へ出力される。
[0097] 微細スペクトル復号ィ匕部 1702は、入力される符号化パラメータを、聴覚重要度およ びビット配分算出部 1701から入力された聴覚重要度およびビット配分情報に基づい て復号して各帯域の復号微細スペクトル情報を得て、スペクトル復号ィ匕部 1703に出 力する。
[0098] スペクトル復号化部 1703は、入力された復号スペクトル Aに、微細スペクトル復号 化部 1702から入力された微細スペクトル復号情報をカ卩えて、復号スペクトル Bとして 出力する。
[0099] 図 17と図 14の対応関係について説明すると、図 17に示す構成がスペクトル復号 化部 1402Aの構成である場合、図 17の符号ィ匕パラメータが図 14の第 1のスペクトル 符号化パラメータに、図 17の復号スペクトル Aが図 14の第 1レイヤ復号信号スぺタト ルに、図 17の復号スペクトル Bが図 14の第 1の復号スペクトルに、それぞれ相当する 。また、図 17に示す構成力スペクトル復号ィ匕部 1402Bの構成である場合、図 17の符 号化パラメータが図 14の第 2のスペクトル符号化パラメータに、図 17の復号スぺクト ル Aが図 14の第 2の復号スペクトルに、図 17の復号スペクトル Bが図 14の第 3の復 号スペクトルに、それぞれ相当する。
[0100] なお、図 16と図 18の対応と同様にして、図 17のスペクトル復号化部 1402A、 140 2Bに対応する第 1スペクトル符号ィ匕部を構成することができる。
[0101] 次いで、図 14に示す拡張帯域復号ィ匕部 1403の詳細について図 19〜図 23を用い て説明する。
[0102] 図 19は、拡張帯域復号ィ匕部 1403の構成を示すブロック図である。図 19に示す拡 張帯域復号ィ匕部 1403は、分離部 1901、振幅調整部 1902、フィルタ状態設定部 19 03、フィルタリング部 1904、スペクトル残差形状符号帳 1905、スペクトル残差ゲイン 符号帳 1906、乗算器 1907、スケールファクタ復号ィ匕部 1908、スケーリング部 1909 、および、スペクトル合成部 1910を備える。
[0103] 分離部 1901は、図 14の分離部 1401から入力される符号化パラメータを、振幅調 整係数符号化パラメータ、ラグ符号化パラメータ、残差形状符号化パラメータ、残差 ゲイン符号ィ匕パラメータ、スケールファクタ符号ィ匕パラメータ、に分離し、振幅調整部 1902、フィルタリング部 1904、スペクトル残差形状符号帳 1905、スペクトル残差ゲ イン符号帳 1906、スケールファクタ復号ィ匕部 1908、にそれぞれ出力する。
[0104] 振幅調整部 1902は、分離部 1901から入力された振幅調整係数符号化パラメータ を復号し、復号された振幅調整係数を用いて、図 14のスペクトル復号ィ匕部 1402Aか ら入力された第 1の復号スぺクトルの振幅を調整し、振幅調整後の第 1の復号スぺク トルをフィルタ状態設定部 1903に出力する。振幅調整は、例えば第 1の復号スぺクト ルを S (n)、振幅調整係数を γとすると、 {S (n)rで表されるような方法で行う。ここで 、 S (n)は線形領域でのスペクトル振幅、 nは周波数である。
[0105] フィルタ状態設定部 1903は、伝達関数 P (z) = (1 -ζ"τ) _1で表されるようなピッチ フィルタのフィルタ状態に、振幅調整後の第 1の復号スペクトルを設定する。具体的 には、フィルタ状態設定部 1903は、振幅調整後の第 1の復号スペクトル Sl [0〜Nn ]を生成スペクトルバッファ S [0〜Nn]に代入し、代入後の生成スペクトルバッファを フィルタリング部 1904へ出力する。ここで、 zは z変換における変数である。 z_1は複 素変数であり遅延演算子と呼ばれる。また、 Tはピッチフィルタのラグ、 Nnは第 1の復 号スペクトルの有効スペクトル点数 (フィルタ状態として用いるスペクトルの上限周波 数に相当)であり、生成スペクトルバッファ S [n]は、 n=0〜Nwの範囲で定義される 配列変数である。また、 Nwは帯域拡張後のスペクトル点数であり、本フィルタリング 処理によって(Nw—Nn)点のスペクトルが生成される。
[0106] フィルタリング部 1904は、分離部 1901から入力されたラグ符号化パラメータ Tを用 いて、フィルタ状態設定部 1903から入力された生成スペクトルバッファ S[n]に対して フィルタリング処理を行う。具体的には、フィルタリング部 1904は、 S[n] = S[n— T] + gC[n], n=Nn〜Nw、によって S[n]を生成する。ここで、 gはスペクトル残差ゲイン、 C[n]はスペクトル残差形状ベクトルをそれぞれ示しており、 gC[n]は乗算器 1907から 入力される。生成された S[Nn〜Nw]はスケーリング部 1909へ出力される。
[0107] スペクトル残差形状符号帳 1905は、分離部 1901から入力された残差形状符号化 パラメータを復号し、復号結果に対応するスペクトル残差形状ベクトルを乗算器 190 7へ出力する。
[0108] スペクトル残差ゲイン符号帳 1906は、分離部 1901から入力された残差ゲイン符号 化パラメータを復号し、復号結果に対応する残差ゲインを乗算器 1907へ出力する。
[0109] 乗算器 1907は、スペクトル残差形状符号帳 1905から入力された残差形状べタト ル C[n]とスペクトル残差ゲイン符号帳 1906から入力された残差ゲイン gとの乗算結 果 gC[n]をフィルタリング部 1904へ出力する。
[0110] スケールファクタ復号化部 1908は、分離部 1901から入力されたスケールファクタ 符号化パラメータを復号し、復号スケールファクタをスケーリング部 1909へ出力する
[0111] スケーリング部 1909は、フィルタリング部 1904から入力されたスペクトル S[Nn〜N w]に、スケールファクタ復号化部 1908から入力されたスケールファクタを乗じてスぺ タトル合成部 1910に出力する。
[0112] スペクトル合成部 1910は、低域(S[0〜Nn])に図 14のスペクトル復号化部 1402A 力も入力される第 1の復号スペクトルを、高域(S[Nn〜Nw])にスケーリング部 1909 力も入力されるスペクトルを、それぞれ代入して得られるスペクトルを第 2の復号スぺ タトルとして図 14のスペクトル復号化部 1402Bに出力する。
[0113] 次いで、スペクトル残差形状符号化パラメータとスペクトル残差ゲイン符号化パラメ ータを完全には受信できない場合の拡張帯域復号ィ匕部 1403の構成を図 20に示す
。この場合、完全に受信できる情報は、振幅調整係数の符号化パラメータ、ラグ符号 ィ匕パラメータ、スケールファクタ符号ィ匕パラメータである。
[0114] 図 20において、分離部 2001およびフィルタリング部 2002以外の構成は図 19にお ける各部と同じであるので説明を省略する。
[0115] 図 20において、分離部 2001は、図 14の分離部 1401から入力される符号ィ匕パラメ ータを、振幅調整係数符号化パラメータ、ラグ符号化パラメータ、スケールファクタ符 号化パラメータ、に分離し、振幅調整部 1902、フィルタリング部 2002、スケールファ クタ復号ィ匕部 1908、にそれぞれ出力する。
[0116] フィルタリング部 2002は、分離部 2001から入力されたラグ符号化パラメータ Tを用 いて、フィルタ状態設定部 1903から入力された生成スペクトルバッファ S[n]に対して フィルタリング処理を行う。具体的には、フィルタリング部 2002は、 S[n] = S[n— T], n =Nn〜Nw、によって S[n]を生成する。生成された S[Nn〜Nw]はスケーリング部 19 09へ出力される。
[0117] 次いで、さらにラグ符号化パラメータも受信できない場合の拡張帯域復号ィ匕部 140 3の構成を図 21に示す。この場合、完全に受信できる情報は、振幅調整係数の符号 ィ匕パラメータ、スケールファクタ符号ィ匕パラメータである。
[0118] 図 21では、図 20におけるフイノレタ状態設定部 1903およびフイノレタリング部 2002 力 擬似スペクトル生成部 2102に置き換えられている。図 21において、分離部 210 1および擬似スペクトル生成部 2102以外の構成は図 19における各部と同じであるの で説明を省略する。
[0119] 図 21において、分離部 2101は、図 14の分離部 1401から入力される符号ィ匕パラメ ータを、振幅調整係数符号化パラメータとスケールファクタ符号化パラメータとに分離 し、振幅調整部 1902、スケールファクタ復号ィ匕部 1908にそれぞれ出力する。
[0120] 擬似スペクトル生成部 2102は、振幅調整部 1902から入力される振幅調整後の第 1の復号スペクトルを用いて高域スペクトルを擬似的に生成し、スケーリング部 1909 へ出力する。高域スペクトルの具体的な生成方法としては、高域スペクトルを低域ス ベクトルの鏡像として生成するミラーリングに基く方法、振幅調整後のスペクトルを周 波数軸の高域方向にシフトする方法、低域スペクトル力 ピッチラグを求めてこのピッ チラグを用いて振幅調整後のスペクトルに対し周波数軸方向にピッチフィルタリング 処理を行う方法、などがある。なお、復号中のフレームが無声フレームと判断される場 合は、ランダムに生成した雑音スペクトルを用いて擬似スペクトルを生成しても良い。
[0121] 次いで、さらに振幅調整情報も受信できない場合の拡張帯域復号ィ匕部 1403の構 成を図 22に示す。この場合、完全に受信できる情報は、スケールファクタ符号化パラ メータである。図 22において、分離部 2201および擬似スペクトル生成部 2202以外 の構成は図 19における各部と同じであるので説明を省略する。
[0122] 図 22において、分離部 2201は、図 14の分離部 1401から入力される符号ィ匕パラメ ータからスケールファクタ符号ィ匕パラメータを分離し、スケールファクタ復号ィ匕部 190 8に出力する。
[0123] 擬似スペクトル生成部 2202は、第 1の復号スペクトルを用いて高域スペクトルを擬 似的に生成し、スケーリング部 1909へ出力する。高域スペクトルの具体的な生成方 法としては、高域スペクトルを低域スペクトルの鏡像として生成するミラーリングに基く 方法、振幅調整後のスペクトルを周波数軸の高域方向にシフトする方法、低域スぺク トルカ ピッチラグを求めてこのピッチラグを用いて振幅調整後のスペクトルに対し周 波数軸方向にピッチフィルタリング処理を行う方法、などがある。なお、復号中のフレ ームが無声フレームと判断される場合は、ランダムに生成した雑音スペクトルを用い て擬似スペクトルを生成しても良い。また、振幅調整の方法は、例えば、対数領域で 定数倍 X S、 Sは対数スペクトル)したり、線形領域で定数乗(sY、 sは線形スぺタト ル)したりすれば良い。また、振幅調整のための調整係数として、有声音において低 域におけるハーモ-タスの谷の深さと高域におけるハーモ-タスの谷の深さとを合わ せるのに必要となる係数の代表的なものを用いると良い。また、調整係数は固定の定 数としても良いが、低域スペクトルのハーモ-タスの谷の深さを表す指標(例えば、直 接的には低域におけるスペクトル振幅の分散値、間接的には第 1レイヤ符号ィ匕部 20 1におけるピッチゲインの値)に応じて適当な調整係数を複数用意し、上記指標に応 じて対応する調整係数を選択的に用いるとなお良い。また、低域のスペクトル形状( 包絡)情報やピッチ周期情報なども用いて、母音毎の特徴に応じて調整係数を選択 的に用いるのも良い。より具体的には、実施の形態 1において説明した疑似スぺタト ルの生成と同一になるので、ここでの説明は省略する。
[0124] 図 23は、図 20の構成において高域成分を生成する一連の動作を示した模式図で ある。図 23に示すように、まず第 1の復号スペクトルの振幅調整を行う。次いで、振幅 調整後の第 1の復号スペクトルをピッチフィルタのフィルタ情報として、フィルタリング 処理 (ピッチフィルタリング)を周波数軸方向に行なって高域成分を生成する。次 、で 、生成された高域成分に対してスケーリング係数の帯域毎にスケーリングを行って最 終的な高域スペクトルを生成する。そして、生成された高域スペクトルと第 1の復号ス ベクトルとを合わせて第 2の復号スペクトルを生成する。
[0125] 図 19の拡張帯域復号ィ匕部 1403に対応する拡張帯域符号ィ匕部 1504の構成の一 例を図 24に示す。
[0126] 図 24において、振幅調整部 2401は、周波数領域変換部 1502Aから入力される 入力音声信号スペクトルを用いて、第 1スペクトル符号ィ匕部 1503から入力される第 1 の復号スペクトルの振幅調整を行 ヽ、振幅調整係数の符号化パラメータを出力する とともに、振幅調整後の第 1の復号スペクトルをフィルタ状態設定部 2402へ出力する 。振幅調整部 2401は、第 1の復号スペクトルの最大振幅スペクトルと最小振幅スぺク トルの比(ダイナミックレンジ)が入力音声信号スペクトルの高域のダイナミックレンジ に近づくような振幅調整処理を行う。振幅調整の方法としては、例えば上記の方法が 挙げられる。また、例えば式(1)のような変換式を用いて振幅調整を行うことも可能で ある。 S1が変換前のスペクトル、 S1,が変換後のスペクトルである。
[数 1]
Figure imgf000024_0001
[0127] ここで、 sign( )は正号 Z負号を返す関数、 γは 0≤ γ≤ 1の範囲にある実数を表す 。式(1)を用いる場合、振幅調整部 2401は、振幅調整後の第 1の復号スペクトルが 入力音声信号スペクトルの高域部のダイナミックレンジに最も近づくときの振幅調整 係数 γを、あらかじめ用意してある複数の候補の中から選択し、その選択した振幅調 整係数 γの符号ィ匕パラメータを多重化部 203に出力する。
[0128] フィルタ状態設定部 2402は、振幅調整部 2401から入力される振幅調整後の第 1 の復号スペクトルを、図 19のフィルタ状態設定部 1903と同様にして、ピッチフィルタ の内部状態に設定する。
[0129] ラグ設定部 2403は、ラグ Τを予め定められた探索範囲 ΤΜΙΝ〜ΤΜΑΧの中で少 しずつ変化させながら、フィルタリング部 2404に順次出力する。
[0130] スペクトル残差形状符号帳 2405は複数のスペクトル残差形状ベクトルの候補を格 納しており、探索部 2406からの指示に従い全てまたは予め限定された候補の中から 順次スペクトル残差形状ベクトルを選択して出力する。同様に、スペクトル残差ゲイン 符号帳 2407は複数のスペクトル残差ゲインの候補を格納しており、探索部 2406か らの指示に従い全てまたは予め限定された候補の中力 順次スペクトル残差ベクトル を選択して出力する。
[0131] 乗算部 2408では、スペクトル残差形状符号帳 2405から出力されるスペクトル残差 形状ベクトルの候補と、スペクトル残差ゲイン符号帳 2407から出力されるスペクトル 残差ゲインの候補を乗じ、乗じた結果をフィルタリング部 2404に出力する。
[0132] フィルタリング部 2404は、フィルタ状態設定部 2402で設定されたピッチフィルタの 内部状態と、ラグ設定部 2403から出力されるラグ Tと、ゲイン調整されたスペクトル残 差形状ベクトルとを用いてフィルタリングを行 、、入力音声信号スペクトルの推定値を 算出する。この動作は、図 19のフィルタリング部 1904の動作と同様である。
[0133] 探索部 2406は、ラグ、スペクトル残差形状ベクトル、および、スペクトル残差ゲイン の複数の組み合わせのうち、入力音声信号スペクトル (原スペクトル)の高域部とフィ ルタリング部 2404の出力信号との相互相関が最大になるときの組み合わせを、合成 による分析手法 (AbS ; Analysis by Synthesis)により決定する。このとき、聴覚マスキ ングを利用して聴感的に最も類似している組合せを決定する。また、後段で行われる スケールファクタによるスケーリングを考慮した探索を行う。探索部 2406により決定さ れたラグの符号化パラメータ、スペクトル残差形状ベクトルの符号化パラメータおよび スペクトル残差ゲインの符号化パラメータは、多重化部 203および拡張帯域復号ィ匕 部 2409に出力される。
[0134] なお、上記の AbSによる符号ィ匕パラメータ決定法において、ピッチ係数、スペクトル 残差形状ベクトルおよびスペクトル残差ゲインを同時に決定しても良い。または、演 算量を削減するためにピッチ係数 T、スペクトル残差形状ベクトル、スペクトル残差ゲ インの順に決定しても良い。
[0135] 拡張帯域復号化部 2409は、振幅調整部 2401より出力される振幅調整係数の符 号化パラメータ、探索部 2406より出力されるラグの符号ィ匕パラメータ、スペクトル残差 形状ベクトルの符号ィ匕パラメータおよびスペクトル残差ゲインの符号ィ匕パラメータを 用いて第 1の復号スペクトルに対する復号処理を行い、入力音声信号スペクトルの推 定スペクトル (すなわち、スケーリング前のスペクトル)を生成し、スケールファクタ符号 化部 2410に出力する。復号手順は図 19の拡張帯域復号ィ匕部 1403と同様である( 但し、図 19のスケーリング部 1909およびスペクトル合成部 1910の処理を除く)。
[0136] スケールファクタ符号ィ匕部 2410は、周波数領域変換部 1502Aより出力される入力 音声信号スペクトル (原スペクトル)の高域部と、拡張帯域復号ィ匕部 2409より出力さ れる推定スペクトルと、聴覚マスキングと、を用いて、聴感上最も適した推定スぺタト ルのスケールファクタ (スケーリング係数)を符号化し、その符号ィ匕パラメータを多重 化部 203に出力する。
[0137] 図 25は、図 1の分離部 101が受信するビットストリームの内容を示す模式図である。
この図に示すように、ビットストリームでは複数の符号ィ匕パラメータが時間多重されて いる。また、図 25の左側が MSB (Most Significant Bit,ビットストリーム中で重要度が 最も高いビット)、右側が LSB (Least Significant Bit,ビットストリーム中で重要度が最 も低いビット)を示している。このように符号ィ匕パラメータが並べられることによって、伝 送路上でビットストリームを部分的に破棄する場合に、 LSB側力 順に破棄すること で、破棄による品質劣化を最小限に抑えることができる。 LSBから(1)までが破棄さ れる場合は図 20、 LSBから(2)までが破棄される場合は図 21、 LSBから(3)までが 破棄される場合は図 22、を用いてそれぞれ説明した方法で復号処理を行なうことが 可能である。また、 LSBから (4)までが破棄される場合は、第 1レイヤの復号信号を出 力信号とする。
[0138] なお、符号ィ匕パラメータを LSB側力 優先的に破棄するネットワークの実現方法に ついては特に限定されない。例えば、図 25で区切られた各符号ィ匕パラメータに優先 順位付けをして別々のパケットで伝送することで優先制御を行うパケット網を使うこと も可能である。
[0139] また、本実施の形態では、図 19において、スペクトル残差形状符号帳 1905、スぺ タトル残差ゲイン符号帳 1906、乗算器 1907を備える構成を示したが、これらを備え ない構成を採ることもできる。この場合、符号化器側は、残差形状ベクトルの符号ィ匕 ノ ラメータと残差ゲインの符号ィ匕パラメータを伝送する必要がなぐ低ビットレートで 通信を行うことができる。また、この場合の復号処理手順は、スペクトル残差情報 (形 状 ·ゲイン)の復号処理がない点だけが図 19を用いた説明と相違する。つまり、復号 処理手順は図 20を用 、て説明した処理手順となり、ビットストリームは図 25にお ヽて (1)の位置が LSBとなる。
[0140] (実施の形態 3)
本実施の形態は、実施の形態 2において、図 14に示した第 2レイヤ復号ィ匕部 103 の拡張帯域復号ィ匕部 1403の別の構成を示すものである。本実施の形態では、当該 フレームおよび前フレームの拡張帯域符号ィ匕パラメータ力 復号される復号パラメ一 タと、当該フレームの受信ビットストリームに対するデータロス情報と、を用いて当該フ レームの復号パラメータを決定し第 2の復号スペクトルを復号する。
[0141] 図 26は、本発明の実施の形態 3に係る拡張帯域復号化部 1403の構成を示すプロ ック図である。図 26の拡張帯域復号ィ匕部 1403において、振幅調整係数復号化部 2 601は、振幅調整係数符号化パラメータから振幅調整係数を復号する。ラグ復号ィ匕 部 2602は、ラグ符号ィ匕パラメータ力もラグを復号する。復号パラメータ制御部 2603 は、拡張帯域符号ィ匕パラメータ力ゝら復号される各復号パラメータ、受信データロス情 報、および、各バッファ 2604a〜2604eから出力される前フレームの各復号パラメ一 タを用いて、当該フレームの第 2の復号スペクトルの復号に用いる復号パラメータを 決定する。ノ ッファ 2604a〜2604eは各々、当該フレームの復号パラメータである、 振幅調整係数、ラグ、残差形状ベクトル、スペクトル残差ゲイン、スケールファクタを 記憶するノ ッファである。なお、図 26におけるこれ以外の構成は、図 19の拡張帯域 復号ィ匕部 1403の構成と同一であるため説明を省略する。
[0142] 次いで、このように構成された拡張帯域復号ィ匕部 1403の動作を説明する。
[0143] まず、当該フレームの第 2レイヤ符号ィ匕データの一部である拡張帯域符号ィ匕パラメ ータに含まれる各復号パラメータ、すなわち、スケールファクタ、ラグ、振幅調整係数 、残差形状ベクトル、スペクトル残差ゲインの各々の符号ィヒパラメータは、各々の復 号ィ匕咅 1908、 2602、 2601、 1905、 1906により復号される。そして、復号ノ ラメ一 タ制御部 2603において、復号された各復号パラメータおよびそれらの前フレームの 復号パラメータを用いて、受信データロス情報に基づき、当該フレームの第 2の復号 スペクトルの復号に用いる復号パラメータを決定する。
[0144] ここで、受信データロス情報とは、ロス (パケットロスや、伝送誤りにより誤りが検出さ れた場合などを含む)により、拡張帯域符号ィ匕パラメータのどの部分が拡張帯域復号 化部 1403で用いることができな ヽかを示す情報である。
[0145] そして、復号パラメータ制御部 2603で得られた当該フレームの復号パラメータおよ び第 1の復号スペクトルを用いて、第 2の復号スペクトルが復号される。その具体的動 作は実施の形態 2における図 19の拡張帯域復号ィ匕部 1403と同様なので説明は省 略する。
[0146] 次に、復号パラメータ制御部 2603の第 1の動作形態を以下に説明する。
[0147] 第 1の動作形態では、復号パラメータ制御部 2603は、ロスにより得られな力つた符 号化パラメータに対応する周波数帯域の復号パラメータとして、前フレームの対応す る周波数帯域の復号パラメータを代用する。
[0148] 具体的には、
SF(n, m):第 nフレームの第 m周波数帯域のスケールファクタ、
T(n, m) :第 ηフレームの第 m周波数帯域のラグ、
γ (η, m) :第 ηフレームの第 m周波数帯域の振幅調整係数、
c(n, m):第 nフレームの第 m周波数帯域の残差形状ベクトル、
g(n, m):第 nフレームの第 m周波数帯域のスペクトル残差ゲイン、
m=ML〜 、
ML:第 2レイヤにおける高域周波数帯域の最低周波数帯域の番号、
MH:第 2レイヤにおける高域周波数帯域の最高周波数帯域の番号、
とすると、当該フレームの第 m帯域の上記 、ずれかの符号ィ匕パラメータがロスして 受信できないことが受信データロス情報により示される場合は、前記ロスした当該符 号化パラメータに対応する復号パラメータとして前フレーム (第 n— 1フレーム)の第 m 帯域の復号パラメータが出力される。
[0149] すなわち、
スケールファクタがロスした場合:
SF(n, m) SF(n- l, m)
ラグがロスした場合:
T(n, m) T(n— 1, m) 振幅調整係数がロスした場合:
y (n, m) γ (η— 1 , m)
残差形状ベクトルがロスした場合:
c(n, m) c(n— 1 , m)
スペクトル残差ゲインがロスした場合:
g(n, m g(n— 1 , m)
である。
[0150] なお、上記の代わりに、下記(a)または (b)のいずれかとしても良い。
(a)上記 5種類のパラメータの 、ずれか一つでもロスした周波数帯域では、 5種全て または任意の組み合わせで関連付けた複数種の復号パラメータとして、前フレーム の対応するパラメータを用いる。
(b)上記 5種類のパラメータの 、ずれか一つでもロスした周波数帯域では、残差形 状ベクトルおよび (または)スペクトル残差ゲインを 0とする。
[0151] 一方、ロスが発生していない周波数帯域では、受信した当該フレームの符号化パラ メータを用いて復号した復号パラメータをそのまま出力する。
[0152] そして、上記により得られた、当該フレームの高域周波数全ての帯域の復号パラメ ータ SF(n, m)、 T(n, m)、 y (n, m)、 c(n, m)、 g(n, m) : m=ML〜MH、を当該フレ 一ムの復号パラメータとして出力する。
[0153] なお、第 2レイヤの符号ィ匕パラメータ全てがロスした場合には、第 2レイヤのフレーム 補償では、当該フレームの高域周波数の全帯域の拡張帯域復号パラメータとして、 前フレームの対応する復号パラメータを用いる。
[0154] また、上記の説明では、ロスが発生したフレームでは常に前フレームの復号パラメ ータを用いて復号を行う形態を説明したが、別の形態として、前フレームと当該フレ ームとの信号の相関性に基づき、相関性が閾値より高い場合にのみ上記で説明した 方法により復号を行い、相関性が閾値より低い場合には、実施の形態 2に従って、当 該フレーム内に閉じた手法により復号を行うようにしても良い。この場合、前フレーム の信号と当該フレームの信号との相関性を表す指標としては、例えば、第 1レイヤの 符号化パラメータ力 得られる LPCパラメータなどのスペクトル包絡情報、ピッチ周期 やピッチゲインパラメータ等の信号の有声定常性に関する情報、第 1レイヤの低域復 号信号、第 1レイヤの低域復号スぺ外ルそのもの等を用いて算出された、前フレー ムと当該フレームとの間の相関係数やスペクトル距離などがある。
[0155] 次に、復号パラメータ制御部 2603の第 2の動作形態を以下に説明する。
[0156] 第 2の動作形態では、復号パラメータ制御部 2603は、当該フレームのデータロスが 発生した周波数帯域に対して、前フレームの当該周波数帯域の復号パラメータ、お よび、前フレームと当該フレームの当該周波数帯域に隣接する周波数帯域の復号パ ラメータを用いて、当該周波数帯域の復号パラメータを求める。
[0157] 具体的には、当該フレームの第 m帯域の符号ィ匕パラメータがロスして受信できない ことが受信データロス情報により示される場合は、前記ロスした当該符号ィ匕パラメータ に対応する復号パラメータとして前フレーム (第 n— 1フレーム)の第 m帯域の復号パ ラメータ、および、前フレームおよび当該フレームの当該周波数帯域に隣接する帯域 (前フレームと当該フレームで同一の帯域)の復号パラメータを用い、下記のように復 号ノ ラメータを得る。
[0158] すなわち、
スケールファクタがロスした場合:
SF(n, m) SF(n— 1, m)*SF(n, m— l)ZSF(n— 1, m— 1)
ラグがロスした場合:
T(n, m) T(n— 1, m)*T(n, m— l)ZT(n— 1, m— 1)
振幅調整係数がロスした場合:
y (n, m γ (n— 1, πι)* γ m, m— 1)ζ γ、η— 1, m— 1)
スペクトル残差ゲインがロスした場合:
g(n, m) g(n—l, m)*g、n, m—l)z g(n—l, m—l)
残差形状ベクトルがロスした場合:
c(n, m) c(n— 1, m)または 0
である。
[0159] 上記の代わりに、下記(a)または (b)のいずれかとしても良い。
(a)上記 5種類のパラメータの 、ずれか一つでもロスした周波数帯域では、 5種全て または任意の組み合わせで関連付けた複数種の復号パラメータとして、上記に従 ヽ 求めたパラメータを用いる。
(b)上記 5種類のパラメータの 、ずれか一つでもロスした周波数帯域では、残差形 状ベクトルおよび (または)スペクトル残差ゲインを 0とする。
[0160] 一方、ロスが発生していない周波数帯域では、受信した当該フレームの符号化パラ メータを用いて復号した復号パラメータをそのまま出力する。
[0161] そして、上記により得られた、当該フレームの高域周波数全ての帯域の復号パラメ ータ SF(n, m)、 T(n, m)、 y (n, m)、 c(n, m)、 g(n, m) :m=ML〜MH、を当該フレ 一ムの復号パラメータとして出力する。
[0162] なお、上記では、当該周波数帯域 mの隣接周波数帯域を m— 1とした例で説明し たが、周波数帯域 m+ 1のパラメータを用いても良い。ただし、隣接する周波数帯域 も符号ィ匕パラメータがロスして 、る場合には、ロスが発生して 、な 、最も近 、周波数 帯域など別の周波数帯域の復号パラメータを用いるようにしても良 、。
[0163] また、上記第 1の動作形態と同様に、前フレームの信号と当該フレームの信号との 相関性に基づき、相関性が閾値より高い場合にのみ上記で説明した方法により復号 を行うようにしても良い。
[0164] さらに、上記 5種類の復号パラメータのうち、一部のパラメータ (スケールファクタ、ま たはスケールファクタおよび振幅調整係数)のみ、上記で説明した処理により算出し た復号パラメータを用い、それ以外の復号パラメータを前フレームの当該周波数帯 域のパラメータを用いて復号を行うか、または、実施の形態 2で説明した方法により復 号を行うようにしても良い。
[0165] さらに、別の動作形態として、複数の符号ィ匕フレームをまとめて 1つのパケットに多 重化して伝送するようなシステムにおいて、時間的に未来の符号化パラメータを優先 的に保護する(ロスさせない)ように制御する形態がある。この形態では、受信側では 、複数フレームまとめて受信したビットストリームを復号する際に、ロスした当該フレー ムの符号ィ匕パラメータの復号を、当該フレームの前後のフレームの符号ィ匕パラメータ を用いて、上記第 1の動作形態または第 2の動作形態と同様に行うようにしても良い。 その際には、前フレームの復号パラメータと後続フレームの復号パラメータの中間的 な値になるような補間値を求めて復号パラメータとして使用するようにする。
[0166] また、下記のような形態をとることも可能である。 (1) 拡張帯域符号化パラメータに ロスが発生した周波数帯域に対しては、図 14に示す第 2レイヤ復号ィ匕部 103内のス ベクトル復号ィ匕部 1402Bでの復号スペクトルを加算しない。 (2) 拡張帯域復号化部 1403では、スペクトル残差形状符号帳、スペクトル残差ゲイン符号帳、乗算器を備 えない構成としても良い。
[0167] また、上記実施の形態 1〜3においては、いずれも 2レイヤの構成例を示した力 3 レイヤ以上になって 、ても良 、。
[0168] 以上、本発明によるスケーラブル復号化装置およびスケーラブル符号化装置の実 施の形態について説明した。
[0169] 本発明に係るスケーラブル復号化装置およびスケーラブル符号化装置は、上記の 実施の形態 1〜3に限定されず、種々変更して実施することが可能である。
[0170] 本発明に係るスケーラブル復号ィ匕装置およびスケーラブル符号ィ匕装置は、移動体 通信システムにおける通信端末装置および基地局装置に搭載することが可能であり 、これにより上記と同様の作用効果を有する通信端末装置および基地局装置を提供 することができる。
[0171] また、ここでは、本発明をノヽードウエアで構成する場合を例にとって説明した力 本 発明はソフトウェアで実現することも可能である。
[0172] また、上記各実施の形態の説明に用いた各機能ブロックは、典型的には集積回路 である LSIとして実現される。これらは個別に 1チップ化されても良いし、一部または 全てを含むように 1チップィ匕されても良い。
[0173] ここでは、 LSIとした力 集積度の違いにより、 IC、システム LSI、スーパー LSI、ゥ ノレ卜ラ LSIと呼称されることちある。
[0174] また、集積回路化の手法は LSIに限るものではなぐ専用回路または汎用プロセッ サで実現しても良い。 LSI製造後に、プログラムすることが可能な FPGA (Field Progr ammable Gate Array)や、 LSI内部の回路セルの接続や設定を再構成可能なリコン フィギユラブル'プロセッサーを利用しても良い。
[0175] さらには、半導体技術の進歩または派生する別技術により LSIに置き換わる集積回 路化の技術が登場すれば、当然、その技術を用いて機能ブロックの集積ィ匕を行って も良い。バイオ技術の適応等が可能性としてありえる。
[0176] 本発明のスケーラブル復号ィ匕装置の主な特徴を以下に示す。
[0177] 第 1に、本発明では、ミラーリングによって高域生成を行う際、ミラーリングする元の 低域スペクトルの変動幅を調整した後にミラーリングを行うため、変動幅の調整に関 する情報を伝送してもしなくても良い。これにより、実際の高域スペクトルに即した調 波構造を近似でき、過度の調波構造を生成することを回避できる。
[0178] 第 2に、本発明では、伝送路誤り等によってラグ情報が受信されないときは、符号ィ匕 された高域成分を復号する際、上記第 1の特徴による要領でミラーリングを行って高 域成分の復号処理を行うため、ラグ情報を用いずとも高域に調波構造を有するスぺ タトルを生成することができる。また、調波構造の強さも妥当なレベルに調整すること ができる。なお、ミラーリングの代わりに別の手法を用いて擬似スペクトルを生成して も良い。
[0179] 第 3に、本発明では、スケールファクタ、振幅調整係数、ラグ、スペクトル残差、の順 に構成されたビットストリームが使用され、スペクトル残差情報が受信されない場合は 、スケールファクタ、振幅調整係数、およびラグ情報のみで復号信号を生成し、ラグ 情報とスペクトル残差情報が受信されな 、場合は、上記第 2の特徴による復号化の 要領で復号処理を行う。このため、伝送路誤りや符号化情報の消失'破棄の発生率 力 スケールファクタ、振幅調整係数、ラグ、スペクトル残差、の順に高くなるように設 計されている(すなわち、スケールファクタが最も誤り保護が強力 たり、伝送路上で 優先的に伝送されたりする)システムに本発明が適用される場合、伝送路誤りによる 復号音声の品質劣化を最小限に抑えることができる。また、上記の各パラメータ単位 で復号音声品質が徐々に変化するので、従来より細力 、スケ一ラビリティを実現でき る。
[0180] 第 4に、本発明では、拡張帯域復号ィ匕部において、前フレームの復号に用いた拡 張帯域符号化パラメータ力 復号される復号パラメータを各々記憶しておくためのバ ッファと、当該フレームおよび前フレームの各復号パラメータ、当該フレームの受信ビ ットストリームに対するデータロス情報、を用いて当該フレームの復号パラメータを決 定する復号パラメータ制御部と、を備え、当該フレームの第 1の復号スペクトルと、復 号パラメータ制御部カゝら出力された復号パラメータを用いて、第 2の復号スペクトルを 生成する。このため、低域スペクトルを内部状態として持つフィルタを利用して高域ス ベクトルを符号ィ匕して得られる拡張帯域符号ィ匕データのうちの一部または全てがロス して復号に用いることができな 、場合に、類似性の高 、前フレームの復号パラメータ を代わりに用いてロス補償を行うことができ、データロス発生時にも高音質な信号を 復号できる。
[0181] 上記第 4の特徴においては、復号パラメータ制御部力 当該フレームのデータロス が発生した周波数帯域に対して、前フレームの当該周波数帯域および、前フレーム と当該フレームの当該周波数帯域に隣接する周波数帯域の復号パラメータを用いて 、当該周波数帯域の復号パラメータを求めるようにしてもよい。これにより、類似性の 高い前フレームの符号化パラメータを用いる際に、補償対象の周波数帯域に隣接す る周波数帯域の時間的変化の関係を利用することができ、より精度の高い補償を行う ことができる。
[0182] 本明細書は、 2004年 11月 5日出願の特願 2004— 322954に基づくものである。
この内容はすべてここに含めておく。
産業上の利用可能性
[0183] 本発明のスケーラブル復号ィ匕装置およびスケーラブル符号ィ匕装置は、移動体通信 システムやインターネットプロトコルを用いたパケット通信システム等の用途に適用で きる。

Claims

請求の範囲
[1] 低周波帯域の符号化情報を復号して低周波帯域の復号信号を得る第 1復号化手 段と、
前記低周波帯域の復号信号と高周波帯域の符号ィ匕情報とから高周波帯域の復号 信号を得る第 2復号化手段と、
を具備するスケーラブル復号ィ匕装置であって、
前記第 2復号化手段は、
前記低周波帯域の復号信号を変換して低周波帯域のスペクトルを得る変換手段と 前記低周波帯域のスぺ外ルに対して振幅調整を施す調整手段と、
振幅調整された低周波帯域のスペクトルと前記高周波帯域の符号化情報とを用い て、高周波帯域のスペクトルを擬似的に生成する生成手段と、
を具備するスケーラブル復号ィ匕装置。
[2] 前記生成手段は、振幅調整された低周波帯域のスペクトルにミラーリングを適用し て前記高周波帯域のスペクトルを擬似的に生成する、
請求項 1記載のスケーラブル復号化装置。
[3] 前記生成手段は、前記高周波帯域の符号化情報の少なくとも一部が復号できない 場合に、前記高周波帯域のスペクトルを擬似的に生成する、
請求項 1記載のスケーラブル復号化装置。
[4] 前記生成手段は、振幅調整された低周波帯域のスペクトルにピッチフィルタリング 処理を適用して前記高周波帯域のスペクトルを擬似的に生成する、
請求項 1記載のスケーラブル復号化装置。
[5] 前記高周波帯域の符号化情報は、重要度の高 、順に、スケールファクタ、振幅調 整係数、ラグ、スペクトル残差、の順で構成され、
前記生成手段は、前記高周波帯域の符号化情報において前記スペクトル残差が 欠落する場合に、前記スケールファクタ、前記振幅調整係数、前記ラグを用いて、前 記高周波帯域のスペクトルを擬似的に生成する、
請求項 1記載のスケーラブル復号化装置。
[6] 前記高周波帯域の符号化情報は、重要度の高 、順に、スケールファクタ、振幅調 整係数、ラグ、スペクトル残差、の順で構成され、
前記生成手段は、前記高周波帯域の符号化情報において前記ラグおよび前記ス ベクトル残差が欠落する場合に、振幅調整された低周波帯域のスペクトルにミラーリ ングを適用して前記高周波帯域のスペクトルを擬似的に生成する、
請求項 1記載のスケーラブル復号化装置。
[7] 前記高周波帯域の符号化情報は、重要度の高 、順に、スケールファクタ、振幅調 整係数、ラグ、スペクトル残差、の順で構成され、
前記生成手段は、前記スケールファクタ、前記振幅調整係数、前記ラグ、前記スぺ タトル残差の少なくとも一つが欠落する場合に、欠落した情報に対応する過去の情 報を用いて前記高周波帯域のスペクトルを擬似的に生成する、
請求項 1記載のスケーラブル復号化装置。
[8] 原信号から、低周波帯域の符号化情報と高周波帯域の符号化情報とを生成して請 求項 1記載のスケーラブル復号ィ匕装置に対して出力するスケーラブル符号ィ匕装置で あって、
前記原信号を符号化して前記低周波帯域の符号化情報を得る第 1符号化手段と、 前記低周波帯域の符号化情報の復号信号から得られる低周波帯域のスペクトルを 内部状態として有するフィルタを用いて前記原信号のスペクトルの高周波帯域部の 推定値を得るとともに、前記フィルタの特性を示す情報を前記高周波帯域の符号ィ匕 情報として出力する第 2符号化手段と、
を具備するスケーラブル符号ィ匕装置。
PCT/JP2005/020201 2004-11-05 2005-11-02 スケーラブル復号化装置およびスケーラブル符号化装置 WO2006049205A1 (ja)

Priority Applications (4)

Application Number Priority Date Filing Date Title
JP2006542422A JP4977472B2 (ja) 2004-11-05 2005-11-02 スケーラブル復号化装置
US11/718,437 US7983904B2 (en) 2004-11-05 2005-11-02 Scalable decoding apparatus and scalable encoding apparatus
BRPI0517780-4A BRPI0517780A2 (pt) 2004-11-05 2005-11-02 aparelho de decodificação escalável e aparelho de codificação escalável
EP05805495.8A EP1808684B1 (en) 2004-11-05 2005-11-02 Scalable decoding apparatus

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
JP2004322954 2004-11-05
JP2004-322954 2004-11-05

Publications (1)

Publication Number Publication Date
WO2006049205A1 true WO2006049205A1 (ja) 2006-05-11

Family

ID=36319210

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/JP2005/020201 WO2006049205A1 (ja) 2004-11-05 2005-11-02 スケーラブル復号化装置およびスケーラブル符号化装置

Country Status (8)

Country Link
US (1) US7983904B2 (ja)
EP (1) EP1808684B1 (ja)
JP (1) JP4977472B2 (ja)
KR (1) KR20070084002A (ja)
CN (1) CN101048649A (ja)
BR (1) BRPI0517780A2 (ja)
RU (2) RU2404506C2 (ja)
WO (1) WO2006049205A1 (ja)

Cited By (27)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2008016925A2 (en) * 2006-07-31 2008-02-07 Qualcomm Incorporated Systems, methods, and apparatus for wideband encoding and decoding of active frames
JP2008058953A (ja) * 2006-07-26 2008-03-13 Nec (China) Co Ltd 音声透かしをベースとするメディア・プログラムの識別方法及び装置
WO2008072737A1 (ja) * 2006-12-15 2008-06-19 Panasonic Corporation 符号化装置、復号装置およびこれらの方法
WO2008114078A1 (en) * 2007-03-16 2008-09-25 Nokia Corporation En encoder
WO2008120437A1 (ja) * 2007-03-02 2008-10-09 Panasonic Corporation 符号化装置、復号装置およびそれらの方法
JP2009545775A (ja) * 2006-07-31 2009-12-24 クゥアルコム・インコーポレイテッド ゲインファクタ制限のためのシステム、方法及び装置
JP2010515090A (ja) * 2006-12-28 2010-05-06 アクトイマジン 音声コード化の方法および装置
JP2010522346A (ja) * 2006-12-28 2010-07-01 アクトイマジン 音声コード化の方法および装置
JP2011154383A (ja) * 2007-03-02 2011-08-11 Panasonic Corp 音声符号化装置、音声復号装置およびそれらの方法
CN101089951B (zh) * 2006-06-16 2011-08-31 北京天籁传音数字技术有限公司 频带扩展编码方法及装置和解码方法及装置
US8260609B2 (en) 2006-07-31 2012-09-04 Qualcomm Incorporated Systems, methods, and apparatus for wideband encoding and decoding of inactive frames
RU2471252C2 (ru) * 2007-03-02 2012-12-27 Панасоник Корпорэйшн Устройство кодирования и способ кодирования
WO2013027629A1 (ja) 2011-08-24 2013-02-28 ソニー株式会社 符号化装置および方法、復号装置および方法、並びにプログラム
WO2013027630A1 (ja) 2011-08-24 2013-02-28 ソニー株式会社 符号化装置および方法、復号装置および方法、並びにプログラム
CN103366751A (zh) * 2012-03-28 2013-10-23 北京天籁传音数字技术有限公司 一种声音编解码装置及其方法
JP2014531056A (ja) * 2011-10-21 2014-11-20 サムスン エレクトロニクスカンパニー リミテッド フレームエラー隠匿方法及びその装置、並びにオーディオ復号化方法及びその装置
CN104969291A (zh) * 2013-02-08 2015-10-07 高通股份有限公司 执行用于增益确定的滤波的系统及方法
US9361900B2 (en) 2011-08-24 2016-06-07 Sony Corporation Encoding device and method, decoding device and method, and program
US9406312B2 (en) 2010-04-13 2016-08-02 Sony Corporation Signal processing apparatus and signal processing method, encoder and encoding method, decoder and decoding method, and program
JP2017016141A (ja) * 2012-03-29 2017-01-19 ▲ホア▼▲ウェイ▼技術有限公司Huawei Technologies Co.,Ltd. 信号符号化および復号化の方法および装置
US9583112B2 (en) 2010-04-13 2017-02-28 Sony Corporation Signal processing apparatus and signal processing method, encoder and encoding method, decoder and decoding method, and program
US9659573B2 (en) 2010-04-13 2017-05-23 Sony Corporation Signal processing apparatus and signal processing method, encoder and encoding method, decoder and decoding method, and program
JP2017102299A (ja) * 2015-12-02 2017-06-08 パナソニックIpマネジメント株式会社 音声信号復号装置及び音声信号復号方法
US9691410B2 (en) 2009-10-07 2017-06-27 Sony Corporation Frequency band extending device and method, encoding device and method, decoding device and method, and program
US9767824B2 (en) 2010-10-15 2017-09-19 Sony Corporation Encoding device and method, decoding device and method, and program
US9875746B2 (en) 2013-09-19 2018-01-23 Sony Corporation Encoding device and method, decoding device and method, and program
US10692511B2 (en) 2013-12-27 2020-06-23 Sony Corporation Decoding apparatus and method, and program

Families Citing this family (50)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP1744139B1 (en) * 2004-05-14 2015-11-11 Panasonic Intellectual Property Corporation of America Decoding apparatus and method thereof
JP4977471B2 (ja) 2004-11-05 2012-07-18 パナソニック株式会社 符号化装置及び符号化方法
JP4899359B2 (ja) * 2005-07-11 2012-03-21 ソニー株式会社 信号符号化装置及び方法、信号復号装置及び方法、並びにプログラム及び記録媒体
CN101273403B (zh) * 2005-10-14 2012-01-18 松下电器产业株式会社 可扩展编码装置、可扩展解码装置以及其方法
BRPI0619258A2 (pt) * 2005-11-30 2011-09-27 Matsushita Electric Ind Co Ltd aparelho de codificação de sub-banda e método de codificação de sub-banda
DE602006015097D1 (de) * 2005-11-30 2010-08-05 Panasonic Corp Skalierbare codierungsvorrichtung und skalierbares codierungsverfahren
US8352254B2 (en) * 2005-12-09 2013-01-08 Panasonic Corporation Fixed code book search device and fixed code book search method
FR2912249A1 (fr) * 2007-02-02 2008-08-08 France Telecom Codage/decodage perfectionnes de signaux audionumeriques.
US9466307B1 (en) * 2007-05-22 2016-10-11 Digimarc Corporation Robust spectral encoding and decoding methods
CA2690433C (en) * 2007-06-22 2016-01-19 Voiceage Corporation Method and device for sound activity detection and sound signal classification
JP5098530B2 (ja) * 2007-09-12 2012-12-12 富士通株式会社 復号化装置、復号化方法および復号化プログラム
CN100524462C (zh) * 2007-09-15 2009-08-05 华为技术有限公司 对高带信号进行帧错误隐藏的方法及装置
US9872066B2 (en) * 2007-12-18 2018-01-16 Ibiquity Digital Corporation Method for streaming through a data service over a radio link subsystem
EP2224432B1 (en) * 2007-12-21 2017-03-15 Panasonic Intellectual Property Corporation of America Encoder, decoder, and encoding method
JP5485909B2 (ja) * 2007-12-31 2014-05-07 エルジー エレクトロニクス インコーポレイティド オーディオ信号処理方法及び装置
EP2251861B1 (en) * 2008-03-14 2017-11-22 Panasonic Intellectual Property Corporation of America Encoding device and method thereof
EP2255534B1 (en) * 2008-03-20 2017-12-20 Samsung Electronics Co., Ltd. Apparatus and method for encoding using bandwidth extension in portable terminal
JP2009300707A (ja) * 2008-06-13 2009-12-24 Sony Corp 情報処理装置および方法、並びにプログラム
KR101424944B1 (ko) * 2008-12-15 2014-08-01 프라운호퍼 게젤샤프트 쭈르 푀르데룽 데어 안겐반텐 포르슝 에. 베. 오디오 인코더 및 대역폭 확장 디코더
WO2010070770A1 (ja) * 2008-12-19 2010-06-24 富士通株式会社 音声帯域拡張装置及び音声帯域拡張方法
EP2490217A4 (en) * 2009-10-14 2016-08-24 Panasonic Ip Corp America ENCODING DEVICE, ENCODING METHOD AND CORRESPONDING METHODS
JP5295380B2 (ja) 2009-10-20 2013-09-18 パナソニック株式会社 符号化装置、復号化装置およびこれらの方法
KR101309671B1 (ko) * 2009-10-21 2013-09-23 돌비 인터네셔널 에이비 결합된 트랜스포저 필터 뱅크에서의 오버샘플링
EP2555188B1 (en) * 2010-03-31 2014-05-14 Fujitsu Limited Bandwidth extension apparatuses and methods
BR112012032746A2 (pt) * 2010-06-21 2016-11-08 Panasonic Corp dispositivo de descodificação, dispositivo de codificação, e métodos para os mesmos.
US8762158B2 (en) * 2010-08-06 2014-06-24 Samsung Electronics Co., Ltd. Decoding method and decoding apparatus therefor
US9230551B2 (en) * 2010-10-18 2016-01-05 Nokia Technologies Oy Audio encoder or decoder apparatus
WO2012144128A1 (ja) * 2011-04-20 2012-10-26 パナソニック株式会社 音声音響符号化装置、音声音響復号装置、およびこれらの方法
US8620646B2 (en) * 2011-08-08 2013-12-31 The Intellisis Corporation System and method for tracking sound pitch across an audio signal using harmonic envelope
CN103366749B (zh) * 2012-03-28 2016-01-27 北京天籁传音数字技术有限公司 一种声音编解码装置及其方法
EP2842322A1 (en) * 2012-04-24 2015-03-04 Telefonaktiebolaget LM Ericsson (Publ) Encoding and deriving parameters for coded multi-layer video sequences
US9601125B2 (en) * 2013-02-08 2017-03-21 Qualcomm Incorporated Systems and methods of performing noise modulation and gain adjustment
CN108364657B (zh) 2013-07-16 2020-10-30 超清编解码有限公司 处理丢失帧的方法和解码器
EP2830061A1 (en) * 2013-07-22 2015-01-28 Fraunhofer Gesellschaft zur Förderung der angewandten Forschung e.V. Apparatus and method for encoding and decoding an encoded audio signal using temporal noise/patch shaping
CN105745703B (zh) * 2013-09-16 2019-12-10 三星电子株式会社 信号编码方法和装置以及信号解码方法和装置
US8879858B1 (en) * 2013-10-01 2014-11-04 Gopro, Inc. Multi-channel bit packing engine
KR101782454B1 (ko) * 2013-12-06 2017-09-28 후아웨이 테크놀러지 컴퍼니 리미티드 이미지 복호화 장치, 이미지 부호화 장치, 및 부호화된 데이터 변환 장치
CN111370008B (zh) * 2014-02-28 2024-04-09 弗朗霍弗应用研究促进协会 解码装置、编码装置、解码方法、编码方法、终端装置、以及基站装置
ES2878061T3 (es) * 2014-05-01 2021-11-18 Nippon Telegraph & Telephone Dispositivo de generación de secuencia envolvente combinada periódica, método de generación de secuencia envolvente combinada periódica, programa de generación de secuencia envolvente combinada periódica y soporte de registro
CN110875048B (zh) * 2014-05-01 2023-06-09 日本电信电话株式会社 编码装置、及其方法、记录介质
CN106683681B (zh) 2014-06-25 2020-09-25 华为技术有限公司 处理丢失帧的方法和装置
EP4293666A3 (en) 2014-07-28 2024-03-06 Samsung Electronics Co., Ltd. Signal encoding method and apparatus and signal decoding method and apparatus
JP2016038435A (ja) * 2014-08-06 2016-03-22 ソニー株式会社 符号化装置および方法、復号装置および方法、並びにプログラム
US10825467B2 (en) * 2017-04-21 2020-11-03 Qualcomm Incorporated Non-harmonic speech detection and bandwidth extension in a multi-source environment
US10431231B2 (en) * 2017-06-29 2019-10-01 Qualcomm Incorporated High-band residual prediction with time-domain inter-channel bandwidth extension
CN110556122B (zh) * 2019-09-18 2024-01-19 腾讯科技(深圳)有限公司 频带扩展方法、装置、电子设备及计算机可读存储介质
CN113113032B (zh) * 2020-01-10 2024-08-09 华为技术有限公司 一种音频编解码方法和音频编解码设备
CN112309408A (zh) * 2020-11-10 2021-02-02 北京百瑞互联技术有限公司 一种扩展lc3音频编解码带宽的方法、装置及存储介质
CN113724725B (zh) * 2021-11-04 2022-01-18 北京百瑞互联技术有限公司 一种蓝牙音频啸叫检测抑制方法、装置、介质及蓝牙设备
CN114664319A (zh) * 2022-03-28 2022-06-24 北京百度网讯科技有限公司 频带扩展方法、装置、设备、介质及程序产品

Family Cites Families (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2779886B2 (ja) * 1992-10-05 1998-07-23 日本電信電話株式会社 広帯域音声信号復元方法
JP2964879B2 (ja) * 1994-08-22 1999-10-18 日本電気株式会社 ポストフィルタ
JP3707153B2 (ja) * 1996-09-24 2005-10-19 ソニー株式会社 ベクトル量子化方法、音声符号化方法及び装置
US6453288B1 (en) * 1996-11-07 2002-09-17 Matsushita Electric Industrial Co., Ltd. Method and apparatus for producing component of excitation vector
GB2351889B (en) 1999-07-06 2003-12-17 Ericsson Telefon Ab L M Speech band expansion
US7742927B2 (en) * 2000-04-18 2010-06-22 France Telecom Spectral enhancing method and device
EP1405303A1 (en) * 2001-06-28 2004-04-07 Koninklijke Philips Electronics N.V. Wideband signal transmission system
DE60208426T2 (de) * 2001-11-02 2006-08-24 Matsushita Electric Industrial Co., Ltd., Kadoma Vorrichtung zur signalkodierung, signaldekodierung und system zum verteilen von audiodaten
JP3926726B2 (ja) * 2001-11-14 2007-06-06 松下電器産業株式会社 符号化装置および復号化装置
JP2003323199A (ja) * 2002-04-26 2003-11-14 Matsushita Electric Ind Co Ltd 符号化装置、復号化装置及び符号化方法、復号化方法
JP3881946B2 (ja) * 2002-09-12 2007-02-14 松下電器産業株式会社 音響符号化装置及び音響符号化方法
BRPI0305710B1 (pt) * 2002-08-01 2017-11-07 Panasonic Corporation "apparatus and method of decoding of audio"
JP3861770B2 (ja) * 2002-08-21 2006-12-20 ソニー株式会社 信号符号化装置及び方法、信号復号装置及び方法、並びにプログラム及び記録媒体
US7844451B2 (en) * 2003-09-16 2010-11-30 Panasonic Corporation Spectrum coding/decoding apparatus and method for reducing distortion of two band spectrums

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
KOVESI B ET AL: "A Scalable Speech and Audio Coding Scheme with Continuous Bitrate Flexibility.", PROC OF ICASSP-04., 17 March 2004 (2004-03-17), pages I-273 - 276, XP010717618 *
OSHIKIRI M. ET AL: "Pichi Filtering ni Motozuku Spectre Fugoka o Mochiita Choko Taiiki Schelable Onsei Fugoka no Kaizen.", THE ACUSTICAL SOCIETY OF JAPAN 2004 NEN SHUKI KENKYU HAPPYOKAI KOEN RONBUNSHU-I., 21 September 2004 (2004-09-21), pages 297 - 298, XP002998459 *

Cited By (56)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101089951B (zh) * 2006-06-16 2011-08-31 北京天籁传音数字技术有限公司 频带扩展编码方法及装置和解码方法及装置
JP2008058953A (ja) * 2006-07-26 2008-03-13 Nec (China) Co Ltd 音声透かしをベースとするメディア・プログラムの識別方法及び装置
US7957977B2 (en) 2006-07-26 2011-06-07 Nec (China) Co., Ltd. Media program identification method and apparatus based on audio watermarking
EP2741288A3 (en) * 2006-07-31 2014-08-06 Qualcomm Incorporated Systems, methods, and apparatus for wideband encoding and decoding of active frames
US8260609B2 (en) 2006-07-31 2012-09-04 Qualcomm Incorporated Systems, methods, and apparatus for wideband encoding and decoding of inactive frames
WO2008016925A3 (en) * 2006-07-31 2008-08-14 Qualcomm Inc Systems, methods, and apparatus for wideband encoding and decoding of active frames
US9454974B2 (en) 2006-07-31 2016-09-27 Qualcomm Incorporated Systems, methods, and apparatus for gain factor limiting
US9324333B2 (en) 2006-07-31 2016-04-26 Qualcomm Incorporated Systems, methods, and apparatus for wideband encoding and decoding of inactive frames
WO2008016925A2 (en) * 2006-07-31 2008-02-07 Qualcomm Incorporated Systems, methods, and apparatus for wideband encoding and decoding of active frames
JP2009545775A (ja) * 2006-07-31 2009-12-24 クゥアルコム・インコーポレイテッド ゲインファクタ制限のためのシステム、方法及び装置
US8532984B2 (en) 2006-07-31 2013-09-10 Qualcomm Incorporated Systems, methods, and apparatus for wideband encoding and decoding of active frames
JP5339919B2 (ja) * 2006-12-15 2013-11-13 パナソニック株式会社 符号化装置、復号装置およびこれらの方法
WO2008072737A1 (ja) * 2006-12-15 2008-06-19 Panasonic Corporation 符号化装置、復号装置およびこれらの方法
US8560328B2 (en) 2006-12-15 2013-10-15 Panasonic Corporation Encoding device, decoding device, and method thereof
JP2010522346A (ja) * 2006-12-28 2010-07-01 アクトイマジン 音声コード化の方法および装置
JP2010515090A (ja) * 2006-12-28 2010-05-06 アクトイマジン 音声コード化の方法および装置
US8935161B2 (en) 2007-03-02 2015-01-13 Panasonic Intellectual Property Corporation Of America Encoding device, decoding device, and method thereof for secifying a band of a great error
JP2009042733A (ja) * 2007-03-02 2009-02-26 Panasonic Corp 符号化装置、復号装置およびそれらの方法
US8543392B2 (en) 2007-03-02 2013-09-24 Panasonic Corporation Encoding device, decoding device, and method thereof for specifying a band of a great error
RU2471252C2 (ru) * 2007-03-02 2012-12-27 Панасоник Корпорэйшн Устройство кодирования и способ кодирования
JP2011154384A (ja) * 2007-03-02 2011-08-11 Panasonic Corp 音声符号化装置、音声復号装置およびそれらの方法
RU2502138C2 (ru) * 2007-03-02 2013-12-20 Панасоник Корпорэйшн Кодирующее устройство, декодирующее устройство и способ
JP2011154383A (ja) * 2007-03-02 2011-08-11 Panasonic Corp 音声符号化装置、音声復号装置およびそれらの方法
EP2747080A3 (en) * 2007-03-02 2014-08-06 Panasonic Intellectual Property Corporation of America Encoding device, decoding device, and method thereof
EP2747079A3 (en) * 2007-03-02 2014-08-13 Panasonic Intellectual Property Corporation of America Encoding device, decoding device, and method thereof
WO2008120437A1 (ja) * 2007-03-02 2008-10-09 Panasonic Corporation 符号化装置、復号装置およびそれらの方法
US8935162B2 (en) 2007-03-02 2015-01-13 Panasonic Intellectual Property Corporation Of America Encoding device, decoding device, and method thereof for specifying a band of a great error
WO2008114078A1 (en) * 2007-03-16 2008-09-25 Nokia Corporation En encoder
US9691410B2 (en) 2009-10-07 2017-06-27 Sony Corporation Frequency band extending device and method, encoding device and method, decoding device and method, and program
US9406312B2 (en) 2010-04-13 2016-08-02 Sony Corporation Signal processing apparatus and signal processing method, encoder and encoding method, decoder and decoding method, and program
US10224054B2 (en) 2010-04-13 2019-03-05 Sony Corporation Signal processing apparatus and signal processing method, encoder and encoding method, decoder and decoding method, and program
US10546594B2 (en) 2010-04-13 2020-01-28 Sony Corporation Signal processing apparatus and signal processing method, encoder and encoding method, decoder and decoding method, and program
US10381018B2 (en) 2010-04-13 2019-08-13 Sony Corporation Signal processing apparatus and signal processing method, encoder and encoding method, decoder and decoding method, and program
US10297270B2 (en) 2010-04-13 2019-05-21 Sony Corporation Signal processing apparatus and signal processing method, encoder and encoding method, decoder and decoding method, and program
US9679580B2 (en) 2010-04-13 2017-06-13 Sony Corporation Signal processing apparatus and signal processing method, encoder and encoding method, decoder and decoding method, and program
US9659573B2 (en) 2010-04-13 2017-05-23 Sony Corporation Signal processing apparatus and signal processing method, encoder and encoding method, decoder and decoding method, and program
US9583112B2 (en) 2010-04-13 2017-02-28 Sony Corporation Signal processing apparatus and signal processing method, encoder and encoding method, decoder and decoding method, and program
US9767824B2 (en) 2010-10-15 2017-09-19 Sony Corporation Encoding device and method, decoding device and method, and program
US10236015B2 (en) 2010-10-15 2019-03-19 Sony Corporation Encoding device and method, decoding device and method, and program
US9842603B2 (en) 2011-08-24 2017-12-12 Sony Corporation Encoding device and encoding method, decoding device and decoding method, and program
US9361900B2 (en) 2011-08-24 2016-06-07 Sony Corporation Encoding device and method, decoding device and method, and program
US9390717B2 (en) 2011-08-24 2016-07-12 Sony Corporation Encoding device and method, decoding device and method, and program
WO2013027629A1 (ja) 2011-08-24 2013-02-28 ソニー株式会社 符号化装置および方法、復号装置および方法、並びにプログラム
WO2013027630A1 (ja) 2011-08-24 2013-02-28 ソニー株式会社 符号化装置および方法、復号装置および方法、並びにプログラム
JP2014531056A (ja) * 2011-10-21 2014-11-20 サムスン エレクトロニクスカンパニー リミテッド フレームエラー隠匿方法及びその装置、並びにオーディオ復号化方法及びその装置
CN103366751B (zh) * 2012-03-28 2015-10-14 北京天籁传音数字技术有限公司 一种声音编解码装置及其方法
CN103366751A (zh) * 2012-03-28 2013-10-23 北京天籁传音数字技术有限公司 一种声音编解码装置及其方法
US9899033B2 (en) 2012-03-29 2018-02-20 Huawei Technologies Co., Ltd. Signal coding and decoding methods and devices
JP2017016141A (ja) * 2012-03-29 2017-01-19 ▲ホア▼▲ウェイ▼技術有限公司Huawei Technologies Co.,Ltd. 信号符号化および復号化の方法および装置
US10600430B2 (en) 2012-03-29 2020-03-24 Huawei Technologies Co., Ltd. Signal decoding method, audio signal decoder and non-transitory computer-readable medium
CN104969291A (zh) * 2013-02-08 2015-10-07 高通股份有限公司 执行用于增益确定的滤波的系统及方法
US9875746B2 (en) 2013-09-19 2018-01-23 Sony Corporation Encoding device and method, decoding device and method, and program
US10692511B2 (en) 2013-12-27 2020-06-23 Sony Corporation Decoding apparatus and method, and program
US11705140B2 (en) 2013-12-27 2023-07-18 Sony Corporation Decoding apparatus and method, and program
WO2017094203A1 (ja) * 2015-12-02 2017-06-08 パナソニックIpマネジメント株式会社 音声信号復号装置及び音声信号復号方法
JP2017102299A (ja) * 2015-12-02 2017-06-08 パナソニックIpマネジメント株式会社 音声信号復号装置及び音声信号復号方法

Also Published As

Publication number Publication date
EP1808684B1 (en) 2014-07-30
CN101048649A (zh) 2007-10-03
JP4977472B2 (ja) 2012-07-18
EP1808684A1 (en) 2007-07-18
RU2434324C1 (ru) 2011-11-20
KR20070084002A (ko) 2007-08-24
JPWO2006049205A1 (ja) 2008-05-29
US20080126082A1 (en) 2008-05-29
US7983904B2 (en) 2011-07-19
EP1808684A4 (en) 2010-07-14
BRPI0517780A2 (pt) 2011-04-19
RU2404506C2 (ru) 2010-11-20
RU2007116937A (ru) 2008-11-20

Similar Documents

Publication Publication Date Title
JP4977472B2 (ja) スケーラブル復号化装置
JP5383676B2 (ja) 符号化装置、復号装置およびこれらの方法
JP4859670B2 (ja) 音声符号化装置および音声符号化方法
JP4977471B2 (ja) 符号化装置及び符号化方法
KR101363793B1 (ko) 부호화 장치, 복호 장치 및 그 방법
US8433581B2 (en) Audio encoding device and audio encoding method
US20090262945A1 (en) Stereo encoding device, stereo decoding device, and stereo encoding method
JP5036317B2 (ja) スケーラブル符号化装置、スケーラブル復号化装置、およびこれらの方法
JP4606418B2 (ja) スケーラブル符号化装置、スケーラブル復号装置及びスケーラブル符号化方法
KR20070029754A (ko) 음성 부호화 장치 및 그 방법과, 음성 복호화 장치 및 그방법
JPWO2009057327A1 (ja) 符号化装置および復号装置
WO2006129615A1 (ja) スケーラブル符号化装置およびスケーラブル符号化方法
JP5340378B2 (ja) チャネル信号生成装置、音響信号符号化装置、音響信号復号装置、音響信号符号化方法及び音響信号復号方法
JP4373693B2 (ja) 音響信号の階層符号化方法および階層復号化方法

Legal Events

Date Code Title Description
AK Designated states

Kind code of ref document: A1

Designated state(s): AE AG AL AM AT AU AZ BA BB BG BR BW BY BZ CA CH CN CO CR CU CZ DE DK DM DZ EC EE EG ES FI GB GD GE GH GM HR HU ID IL IN IS JP KE KG KM KN KP KR KZ LC LK LR LS LT LU LV LY MA MD MG MK MN MW MX MZ NA NG NI NO NZ OM PG PH PL PT RO RU SC SD SE SG SK SL SM SY TJ TM TN TR TT TZ UA UG US UZ VC VN YU ZA ZM ZW

AL Designated countries for regional patents

Kind code of ref document: A1

Designated state(s): BW GH GM KE LS MW MZ NA SD SL SZ TZ UG ZM ZW AM AZ BY KG KZ MD RU TJ TM AT BE BG CH CY CZ DE DK EE ES FI FR GB GR HU IE IS IT LT LU LV MC NL PL PT RO SE SI SK TR BF BJ CF CG CI CM GA GN GQ GW ML MR NE SN TD TG

121 Ep: the epo has been informed by wipo that ep was designated in this application
WWE Wipo information: entry into national phase

Ref document number: 2006542422

Country of ref document: JP

WWE Wipo information: entry into national phase

Ref document number: 200580037362.7

Country of ref document: CN

WWE Wipo information: entry into national phase

Ref document number: 11718437

Country of ref document: US

WWE Wipo information: entry into national phase

Ref document number: 2005805495

Country of ref document: EP

WWE Wipo information: entry into national phase

Ref document number: 2007116937

Country of ref document: RU

Ref document number: 1020077010273

Country of ref document: KR

NENP Non-entry into the national phase

Ref country code: DE

WWP Wipo information: published in national office

Ref document number: 2005805495

Country of ref document: EP

WWP Wipo information: published in national office

Ref document number: 11718437

Country of ref document: US

ENP Entry into the national phase

Ref document number: PI0517780

Country of ref document: BR

Kind code of ref document: A2

Effective date: 20070504