WO2001052241A1 - Multi-mode voice encoding device and decoding device - Google Patents

Multi-mode voice encoding device and decoding device Download PDF

Info

Publication number
WO2001052241A1
WO2001052241A1 PCT/JP2001/000062 JP0100062W WO0152241A1 WO 2001052241 A1 WO2001052241 A1 WO 2001052241A1 JP 0100062 W JP0100062 W JP 0100062W WO 0152241 A1 WO0152241 A1 WO 0152241A1
Authority
WO
WIPO (PCT)
Prior art keywords
mode
noise
parameter
codebook
quantized lsp
Prior art date
Application number
PCT/JP2001/000062
Other languages
English (en)
French (fr)
Inventor
Hiroyuki Ehara
Original Assignee
Matsushita Electric Industrial Co., Ltd.
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Matsushita Electric Industrial Co., Ltd. filed Critical Matsushita Electric Industrial Co., Ltd.
Priority to US09/914,916 priority Critical patent/US7167828B2/en
Priority to AU25472/01A priority patent/AU2547201A/en
Priority to EP01900640.2A priority patent/EP1164580B1/en
Publication of WO2001052241A1 publication Critical patent/WO2001052241A1/ja
Priority to US11/637,128 priority patent/US7577567B2/en

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/06Determination or coding of the spectral characteristics, e.g. of the short-term prediction coefficients
    • G10L19/07Line spectrum pair [LSP] vocoders
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/16Vocoder architecture
    • G10L19/18Vocoders using multiple modes
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/78Detection of presence or absence of voice signals
    • G10L2025/783Detection of presence or absence of voice signals based on threshold decision

Definitions

  • the present invention relates to a low bit rate speech coding apparatus in a mobile communication system or the like that encodes and transmits a speech signal, and in particular, to a CELP (Code Excited Linear) which separates and represents a speech signal into vocal tract information and sound source information. Prediction) type speech coding device.
  • CELP Code Excited Linear
  • CELP Code Excited Linear Prediction
  • the CE LP-type speech coding scheme divides speech into a certain frame length (about 5 ms to 50 ms), performs linear prediction of speech for each frame, and predicts the residual (excitation signal) by linear prediction for each frame.
  • the adaptive code vector stores the previously generated driving excitation vector from the adaptive codebook, and the noise code vector stores a predetermined number of vectors having a predetermined shape. Selected from the random codebook that is used.
  • the random code vector stored in the random codebook includes a random noise sequence vector and some pulses at different positions. For example, a vector generated by arranging them in a location is used.
  • LPC analysis and quantization, pitch search, noise codebook search, and gain codebook search are performed using the input digitized signal, and the quantized LPC code (L) and The pitch period (P), the noise codebook index (S) and the gain codebook index (G) are transmitted to the decoder.
  • An object of the present invention is to enable multi-mode of excitation coding without newly transmitting mode information.In particular, in addition to determination of voiced section Z and unvoiced section, determination of voice section and non-voice section can be performed.
  • An object of the present invention is to provide a multi-mode speech coding apparatus and a speech decoding apparatus capable of further improving the performance of encoding Z decoding by multi-mode.
  • the subject of the present invention is to perform mode determination using static / dynamic features of a quantization parameter representing a spectrum characteristic, and to determine a voice section Z a non-voice section, a voiced section / unvoiced section, and a mode determination result.
  • the switching of the sound source configuration and the post-processing are performed based on this.
  • FIG. 1 is a block diagram showing a configuration of a speech coding apparatus according to Embodiment 1 of the present invention
  • FIG. 2 is a block diagram showing a configuration of a speech decoding apparatus according to Embodiment 2 of the present invention
  • FIG. 3 is a flowchart showing a flow of a speech encoding process according to Embodiment 1 of the present invention
  • FIG. 4 is a flowchart showing the flow of a speech decoding process according to Embodiment 2 of the present invention
  • FIG. 5A is a block diagram showing a configuration of an audio signal transmitting apparatus according to Embodiment 3 of the present invention.
  • FIG. 5B is a block diagram showing a configuration of the audio signal receiving apparatus according to Embodiment 3 of the present invention.
  • FIG. 6 is a block diagram showing a configuration of a mode selector according to Embodiment 4 of the present invention.
  • FIG. 7 is a block diagram showing a configuration of a mode selector according to Embodiment 4 of the present invention.
  • FIG. 8 is a flow chart showing a flow of a mode selection process at a preceding stage according to the fourth embodiment of the present invention.
  • FIG. 9 is a block diagram showing a configuration of a bite search according to the fifth embodiment of the present invention.
  • FIG. 10 is a diagram showing a search range of a pitch search according to the fifth embodiment of the present invention
  • FIG. 11 is a diagram showing a configuration for controlling switching of a pitch period gain in the fifth embodiment of the present invention
  • FIG. 12 is a diagram showing a configuration for performing switching control of pitch period gain in Embodiment 5 of the present invention.
  • FIG. 13 is a block diagram showing a configuration for performing weighting processing according to Embodiment 6 of the present invention.
  • FIG. 14 is a flowchart in the case of performing weighting processing in pitch period candidate selection in the above embodiment
  • FIG. 15 is a flowchart in the above embodiment when weighting processing is not performed in pitch cycle candidate selection
  • FIG. 16 is a block diagram showing a configuration of a speech coding apparatus according to Embodiment 7 of the present invention
  • FIG. 17 is a block diagram showing a configuration of a speech decoding apparatus according to Embodiment 7 of the present invention
  • FIG. 18 is a block diagram showing a configuration of a speech decoding apparatus according to Embodiment 8 of the present invention.
  • FIG. 19 is a block diagram showing a configuration of the mode determiner of the speech decoding device according to the above embodiment.
  • FIG. 1 is a block diagram showing a configuration of a speech coding apparatus according to Embodiment 1 of the present invention.
  • Input data including digitized audio signals and the like is input to the preprocessor 101.
  • the preprocessor 101 cuts the DC component and limits the band of the input data using the high-pass filter and the band-pass filter, and outputs it to the LPC analyzer 102 and the adder 106. I do.
  • subsequent encoding processing can be performed without performing any processing in the preprocessor 101, encoding performance is improved by performing the above-described processing. Note that conversion to a waveform that can be easily coded without deteriorating subjective quality, such as operation of pitch period / interpolation of pitch waveform, is also effective as preprocessing.
  • the LPC analyzer 102 performs a linear prediction analysis, calculates a linear prediction coefficient (LPC), and outputs it to the LPC quantizer 103.
  • LPC linear prediction coefficient
  • the LPC quantizer 103 quantizes the input LPC, and applies the quantized LPC to the synthesis filter 104 and mode selector 105, and the code L representing the quantized LPC to the decoder. Output each one.
  • LPC quantization is performed by converting to LSP (Line Spectrum Pair: line spectrum pair) with good interpolation characteristics. It is generally expressed as LSP 3 ⁇ 4 LSF (Line Spectrum Frequency).
  • the synthesis filter 104 constructs an LPC synthesis filter using the input quantized LPC.
  • the synthesized filter is subjected to fill processing with the drive sound source signal output from the adder 114 as an input, and the synthesized signal is output to the adder 106.
  • the mode selector 105 determines the mode of the random codebook 109 using the quantized LPC input from the LPC quantizer 103.
  • the mode selector 105 also accumulates the information of the quantized LPC input in the past, and determines both the characteristics of the fluctuation of the quantized LPC between frames and the characteristics of the quantized LPC in the current frame. To select a mode. There are at least two types of this mode, for example, a mode corresponding to a voiced voice part and a mode corresponding to an unvoiced voice part and a stationary noise part. Also, the information used for selecting the mode does not need to be the quantized LPC itself, but it is more effective to use quantized LSPs, reflection coefficients, linear prediction residual parameters, and other parameters that have been converted into parameters. . When the LPC quantizer 103 has an LSP quantizer as a component (when LPC is converted to an LSP and quantized), the quantized LSP is converted into the input parameter of the mode selector 105. Good for one evening.
  • the adder 106 calculates an error between the preprocessed input data input from the preprocessor 101 and the synthesized signal, and outputs the error to the auditory weighting filter 107.
  • the auditory weighting filter 107 aurally weights the error calculated by the adder 106 and outputs it to the error minimizer 108.
  • the error minimizer 108 adjusts the noise codebook index, adaptive codebook index (pitch period), and gain codebook index while adjusting the noise codebook 109, adaptive codebook 110, and gain codebook, respectively.
  • 1 1 1 and the noise codebook 109, adaptive codebook 110, and gain codebook so that the perceptually weighted error input from the auditory weighting filter 107 is minimized.
  • the noise code vector, adaptive code vector, noise codebook gain, and adaptive codebook gain generated by 1 1 and 1 are determined, respectively, and the code S that expresses the noise code vector and the adaptive code vector are expressed.
  • P and the code G representing gain information are output to the decoder, respectively.
  • the noise code book 109 stores a predetermined number of noise code vectors having different shapes, and is specified by the index S i of the noise code vector input from the error minimizer 108. Output a random code vector.
  • the noise code book 109 has at least two or more types of modes. For example, in a mode corresponding to a voiced voice part, a more pulse-like noise code vector is generated, and an unvoiced voice part and a stationary noise part are generated. In the modes corresponding to the above, the structure is such that a more noisy noise code vector is generated.
  • the noise code vector output from the noise codebook 109 is generated from one of the two or more modes selected by the mode selector 105, and the noise codebook is generated by the multiplier 112. After being multiplied by the gain, it is output to the adder 114.
  • the adaptive codebook 110 performs buffering while sequentially updating the driving excitation signal generated in the past.
  • the adaptive codebook index (pitch period (pitch lag)) input from the error minimizer 108 is used. Generate an adaptive code vector using Pi.
  • the adaptive code vector generated in adaptive codebook 110 is output to adder 114 after being multiplied by the adaptive codebook gain in multiplier 113.
  • the gain codebook 111 stores a predetermined number of sets (gain vectors) of the adaptive codebook gain and the noise codebook gain, and the gain code input from the error minimizer 108 is stored.
  • the adaptive codebook gain component of the gain vector specified by the book index Gi is output to the multiplier 113, and the noise codebook gain component is output to the multiplier 112. If the gain codebook has a multi-stage configuration, the amount of memory required for the gain codebook and the amount of computation required for searching the gain codebook can be reduced. If the number of bits allocated to the gain codebook is sufficient, the adaptive codebook gain and the noise codebook gain can be independently scalar-quantized. It is also conceivable to perform vector quantization or matrix quantization on the adaptive codebook gain / noise codebook gain of multiple subframes collectively.
  • the adder 114 adds the noise code vector and the adaptive code vector input from the multipliers 112 and 113 to generate a drive excitation signal, and the combined filter 110 4 and output to adaptive codebook 110.
  • the noise codebook 109 is multi-moded, but the quality is further improved by making the adaptive codebook 110 and the gain codebook 111 multi-mode. Improvements can also be made.
  • Step 301 all memories such as the contents of the adaptive codebook, the synthesis filter memory, and the input buffer are cleared.
  • input data such as a voice signal digitized in ST302 is input for one frame, and high-pass filtering or band-pass filtering is performed to remove offset and band limitation of the input data. Do.
  • the input data after preprocessing is buffered in the input buffer and used for the subsequent encoding processing.
  • an LPC analysis linear prediction analysis
  • an LPC coefficient linear prediction coefficient
  • the LPC coefficient calculated in ST303 is quantized.
  • Various methods of quantizing LPC coefficients have been proposed.However, efficient LSP parameters with good interpolation characteristics can be efficiently converted to LSP parameters by applying multistage vector quantization or predictive quantization using inter-frame correlation. it can. For example, when one frame is divided into two subframes and processed, the LPC coefficient of the second subframe is quantized, and the LPC coefficient of the first subframe is changed to the second subframe of the immediately preceding frame. Is determined by interpolation using the quantized LPC coefficient of the current frame and the quantized LPC coefficient of the second subframe in the current frame.
  • a perceptual weighting filter for perceptually weighting the preprocessed input data is constructed.
  • an auditory weighted synthetic filter for generating a synthetic signal of an auditory weighting area from the driving sound source signal is constructed.
  • This filter is a filter in which the synthesized filter and the auditory weighting filter are connected in cascade, and the synthesized filter is constructed using the quantized LPC coefficients quantized in ST 304, and The fill file is constructed using the LPC coefficients calculated in ST303 o
  • a mode is selected.
  • the mode selection is made using the dynamic and static features of the quantized LPC coefficients quantized in ST304. Specifically, a variation of the quantized LSP, a reflection coefficient calculated from the quantized LPC coefficient, and a prediction residual parameter are used.
  • the random codebook is searched according to the mode selected in this step. There are at least two types of modes selected in this step, and for example, a two-mode configuration of a voiced voice mode, an unvoiced voice, and a stationary noise mode can be considered.
  • a search for an adaptive codebook is performed.
  • the search for the adaptive codebook is to search for an adaptive code vector that produces an auditory weighted composite waveform that is closest to the auditory weighted waveform over the pre-processed input data.
  • the input data after preprocessing is filtered by the auditory weighting filter constructed in ST 305 and the adaptive code vector cut out from the adaptive codebook is constructed in ST 306 as the driving sound source signal.
  • the position at which the adaptive code vector is cut out is determined so that the error from the signal filtered by the perceived hearing weighting synthesis filter is minimized.
  • a search for a random codebook is performed.
  • the search for the noise codebook is performed by selecting a noise code vector that generates a driving sound source signal that generates an auditory weighted composite waveform that is closest to the waveform obtained by applying the auditory weighting to the preprocessed input data.
  • a search is performed in consideration of the fact that the driving excitation signal is generated by adding the adaptive code vector and the noise code vector. Therefore, it is already stored in the adaptive code vector and the random codebook determined in ST 308.
  • the noise code vector is selected from the noise codebook so that the error from the signal obtained by filtering the data with the auditory weighting filter constructed in ST305 is minimized.
  • This random codebook has at least two types of modes.For example, in a mode corresponding to a voiced voice section, a search using a noise codebook storing a more noiseless noise code vector is performed. In the modes corresponding to the unvoiced speech part and the stationary noise part, a search is performed using a noise codebook that stores a more noisy noise code vector. Which mode of the random codebook to use in the search is selected in ST307.
  • a search for a gain codebook is performed.
  • the search for the gain codebook is based on the adaptive codebook gain and noise multiplied by the adaptive code vector already determined in S ⁇ ⁇ 308 and the noise code vector determined in S ⁇ 309. This is to select the codebook gain set from the gain codebook, and to add the adaptive code vector after multiplication by the adaptive codebook gain and the noise code vector after multiplication by the noise code gain to generate the driving excitation signal.
  • Generated driving sound source signals are perceptually weighted by the auditory weighting constructed by ST 306. Select the combination of adaptive codebook gain and noise codebook gain from the gain codebook that minimizes the error between the signal and the filtered signal.
  • a driving sound source signal is generated.
  • the driving sound source signal is
  • the memory used in the subframe processing loop is updated. Specifically, the adaptive codebook is updated, and the state of the auditory weighting filter and the auditory weighting synthesis filter are updated.
  • the adaptive codebook gain and the fixed codebook gain are quantized separately, the adaptive codebook gain is quantized immediately after ST 308, and the noise codebook gain is quantized immediately after ST 309. It is common to do.
  • the above STs 305 to 312 are processing in subframe units.
  • the memory used in the frame processing loop is updated. Specifically, the state of the filter used in the preprocessor, the update of the quantization coefficient LPC coefficient buffer, the update of the input data buffer, and the like are performed.
  • output of the encoded data is performed. The coded data is subjected to bitstreaming and multiplexing according to the transmission format, and sent out to the transmission path.
  • the above STs 302 to 304 and 313 to 314 are processing on a frame basis. The processing in units of frames and subframes is repeated until there is no input data.
  • FIG. 2 shows the configuration of the speech decoding device according to the second embodiment of the present invention.
  • the code L expressing the quantized LPC, the code S expressing the noise code vector, the code P expressing the adaptive code vector, and the code G expressing the gain information, transmitted from the encoder, are different.
  • the data are input to the LPC decoder 201, the noise codebook 203, the adaptive codebook 204, and the gain codebook 205.
  • LPC decoder 201 decodes quantized LPC from code L, and outputs
  • the mode selector 202 determines the mode of the noise codebook 203 and the post-processor 211 using the quantized LPC input from the LPC decoder 201, and converts the mode information M into the noise codebook 203 and the post-processor 211. And output respectively. Also, the mode selector 2 ⁇ 2 calculates the average LSP (LSP n) of the stationary noise section using the quantized LSP parameters output from the LPC decoder 201, and sends this LSP n to the post-processor 2 1 1. Output. The mode selector 202 also stores the information of the quantized LPC input in the past, and uses both the characteristics of the fluctuation of the quantized LPC between frames and the characteristics of the quantized LPC in the current frame to determine the mode.
  • the mode selector 105 is input to the mode selector 105 as an input parameter. It may be one of the evenings.
  • the noise codebook 203 stores a predetermined number of noise code vectors having different shapes, and the noise code specified by the noise codebook index obtained by decoding the input code S. Output a vector. Further, the random codebook 203 has at least two or more modes. For example, in a mode corresponding to a voiced voice part, a more pulse-like noise code vector is generated, and the unvoiced voice part is not set. The mode corresponding to the noise part has a structure that generates a more noisy noise code vector.
  • the noise code vector output from the noise codebook 203 is generated from one of the two or more modes selected by the mode selector 202, and the noise codebook is generated by the multiplier 206. It is output to the adder 208 after being multiplied by the gain Gs.
  • the adaptive codebook 204 buffers the driving excitation signal generated in the past while sequentially updating it.
  • the adaptive codebook index (pitch period (pitch lag)) obtained by decoding the input code P is calculated. To generate an adaptive code vector.
  • the adaptive code vector generated by adaptive codebook 204 is applied to adaptive code by multiplier 207. After being multiplied by the book gain Ga, it is output to the adder 208.
  • the gain codebook 205 stores a predetermined number of sets (gain vectors) of the adaptive codebook gain and the noise codebook gain, and obtains a gain codebook obtained by decoding the input code G.
  • the adaptive codebook gain component of the gain vector specified by the index is output to the multiplier 207, and the noise codebook gain component is output to the multiplier 206.
  • the adder 208 generates a driving excitation signal by adding the noise code vector and the adaptive code vector input from the multipliers 206 and 207, and generates a combined filter 209 and an adaptive code. Output to book 204.
  • the synthesis filter 209 constructs an LPC synthesis filter using the input quantized LPC.
  • the driving filter signal output from the adder 208 is input to the synthesized filter to perform a filtering process, and the synthesized signal is output to the boost filter 210.
  • the post-fill filter 210 performs processing to improve the subjective quality of the audio signal, such as pitch enhancement, formant enhancement, spectral tilt correction, and gain adjustment, on the synthesized signal input from the synthesis filter 209. And outputs it to the post-processor 211.
  • the post-processor 211 generates a pseudo-stationary noise and superimposes it on the signal input from the post-fill 210, thereby improving the subjective quality.
  • This processing is adaptively performed using the mode information M input from the mode selector 202 and the average LSP (LSPn) of the noise section. Specific post-processing will be described later.
  • mode information M output from mode selector 202 is configured to be used in both mode switching of noise codebook 203 and post-processor 211. The effect can be obtained even if only one of them is used.
  • the speech encoding process is performed by a processing unit having a predetermined time length.
  • An example is shown in which processing is performed for every unit (frame: about several tens of milliseconds in terms of time length), and one frame is further processed for an integer number of short processing units (subframes).
  • the encoded data is decoded.
  • demultiplexing of the multiplexed received signal ⁇ quantizing the bitstreamed received signal is a code that represents the LPC coefficient, adaptive code vector, noise code vector, and gain information, respectively. Respectively.
  • the LPC coefficient is decoded.
  • the LPC coefficient is decoded from the code representing the quantized LPC coefficient obtained in ST402 by the reverse procedure of the LPC coefficient quantization method described in the first embodiment.
  • a mode selection of the noise codebook and post-processing is performed. Specifically, a variation of the quantized LSP, a reflection coefficient calculated from the quantized LPC coefficient, a predicted residual error ratio, and the like are used.
  • the decoding and post-processing of the noise code book are performed according to the mode selected in this step. There are at least two types of modes, for example, a mode corresponding to a voiced voice part, a mode corresponding to an unvoiced voice part, and a mode corresponding to a stationary noise part.
  • the adaptive code vector is decoded.
  • the adaptive code vector is decoded by decoding the position where the adaptive code vector is extracted from the adaptive codebook from the code representing the adaptive code vector, and extracting the adaptive code vector from the position.
  • the random code vector is decoded.
  • the noise code vector decodes the noise codebook index from the code representing the noise code vector, and extracts the noise code vector corresponding to the index from the noise codebook. Is decrypted.
  • the decoded noise code vector is the one after further pitch periodization.
  • This noise codebook has at least two types of modes.For example, in a mode corresponding to a voiced voice part, a more pulse-like noise code vector is generated, and the noise codebook is used for an unvoiced voice part and a stationary noise part. In the corresponding mode, a more noisy noise code vector is generated.
  • the adaptive codebook gain and the noise codebook gain are decoded.
  • the gain information is decoded by decoding the gain codebook index from the code representing the gain information and extracting the set of the adaptive codebook gain and the noise codebook gain indicated by the index from the gain codebook.
  • the driving excitation signal is a vector obtained by multiplying the adaptive code vector selected in ST 406 by the adaptive codebook gain selected in ST 408, and the noise selected in ST 407. It is generated by adding the vector obtained by multiplying the code vector by the noise codebook gain selected in ST 408, and.
  • the decoded signal is synthesized.
  • the decoded excitation signal is synthesized by filling the drive excitation signal generated in ST 409 with the synthesis filter constructed in ST 409.
  • post-fill processing is performed on the decoded signal.
  • the post-fill processing consists of pitch enhancement processing, formant enhancement processing, spectral tilt correction processing, gain adjustment processing, and other processing for improving the subjective quality of decoded signals, especially decoded audio signals.
  • the memory used in the subframe processing loop Is updated. Specifically, the adaptive codebook is updated, and the state of each file included in the post-fill processing is updated.
  • the above ST 404 to 413 are processing in units of subframes.
  • the memory used in the frame processing loop is updated. Specifically, the quantization (decoding) LPC coefficient buffer is updated and the output data buffer is updated.
  • the above ST402 to 403 and 414 are processing in units of frames. Further, the processing in units of frames is repeated until there is no more encoded data.
  • FIG. 5 is a block diagram showing an audio signal transmitter and a receiver including the audio encoding device according to the first embodiment or the audio decoding device according to the second embodiment.
  • Figure 5A shows the transmitter
  • Figure 5B shows the receiver.
  • the audio is converted into an electrical analog signal by the audio input device 501 and output to the AZD converter 502.
  • the analog audio signal is converted into a digital audio signal by the A / D converter 502 and output to the audio encoder 503.
  • the audio encoder 503 performs audio encoding processing, and outputs the encoded information to the RF modulator 504.
  • the RF modulator performs operations for transmitting information of the encoded audio signal as radio waves such as modulation, amplification, and code spreading, and outputs the information to the transmission antenna 505.
  • a radio wave (RF signal) 506 is transmitted from the transmitting antenna 505.
  • a radio wave (RF signal) 506 is received by the receiving antenna 507, and the received signal is sent to the RF demodulator 508.
  • the RF demodulator 509 performs processing such as code despreading / demodulation for converting a radio signal into encoded information, and outputs the encoded information to the speech decoder 509.
  • the audio decoder 509 performs a decoding process on the encoded information and outputs a digitized decoded audio signal to the D / A converter 510.
  • the D / A converter 510 converts the digital decoded audio signal output from the audio decoder 509 into an analog decoded audio signal and outputs it to the audio output device 511 I do.
  • the audio output device 511 converts the electrical analog decoded audio signal into decoded audio and outputs it.
  • the transmitting device and the receiving device can be used as a mobile device or a base station device of a mobile communication device such as a mobile phone.
  • the medium for transmitting information is not limited to radio waves as described in the present embodiment, but may use optical signals or the like, and may use a wired transmission path.
  • the audio encoding device shown in Embodiment 1 and the audio decoding device shown in Embodiment 2 and the transmitting device and transmitting / receiving device shown in Embodiment 3 are magnetic disks, magneto-optical disks, It is also possible to realize by recording as software on a recording medium such as a ROM cartridge, and by using such a recording medium, a personal computer or the like using such a recording medium can decode the audio encoding device. Device and transmitting device A Z receiving device can be realized.
  • Embodiment 4 is an example showing a configuration example of the mode selectors 105 and 202 in Embodiments 1 and 2 described above.
  • FIG. 6 shows the configuration of the mode selector according to the fourth embodiment.
  • the current quantization LSP parameter is input to the smoothing unit 601 to perform a smoothing process.
  • the smoothing unit 601 performs a smoothing process shown in Expression (1) using each of the following quantization LSP parameters input for each processing unit time as a time series data.
  • Equation (1) the value of HI is set to about 0.7 so that the smoothing is not so strong.
  • the smoothed quantized LSP parameter obtained by the above equation (1) is input to the adder 6 11 via the delay section 602 and directly to the adder 6 11.
  • the delay unit 602 delays the input smoothed quantized LSP parameter by one processing unit time and outputs the result to the adder 6 11.
  • the adder 611 receives the smoothed quantized LSP parameter at the current processing unit time and the smoothed quantized LSP parameter at the immediately preceding processing unit time.
  • the adder 611 calculates the difference between the smoothed quantized LSP parameter at the current processing unit time and the smoothed quantized LSP parameter at the immediately preceding processing unit time. This difference is calculated for each order of the LSP parameter.
  • the calculation result by adder 606 is output to sum of squares calculation section 603.
  • the sum of squares calculation unit 603 calculates the smoothed quantization L in the current processing unit time.
  • the first dynamic parameter (Para 1) is obtained.
  • a threshold value of the first dynamic parameter it is possible to identify whether or not it is a voice section. That is, if the first dynamic parameter is larger than the threshold Th1, it is determined to be a voice section. This determination is performed by a mode determiner 607 described later.
  • the average LSP calculator 609 calculates an average LSP parameter in the noise section based on the equation (1) in the same manner as the smoothing unit 601, and outputs the average LSP parameter to the caro calculator 610 via the delay unit 612. .
  • the value of Hi is set to about 0.05 to 0, and the average LSP parameter is calculated by performing extremely strong smoothing processing. Specifically, it is conceivable to set the value of hi to 0 in a voice section and to average (perform smoothing) only in sections other than the voice section.
  • the adder 6 10 performs the quantization LSP parameter overnight in the current processing unit time,
  • the difference from the average quantized LSP parameter in the noise section calculated in the immediately preceding processing unit time by the average LSP calculator 609 is calculated for each order and output to the squared value calculator 604 I do. That is, after the mode is determined as described later, the average LSP calculator 609 calculates the average LSP of the noise section, and the average LSP parameter of the noise section is processed through the delay unit 6 12 for one process.
  • the data is delayed by the unit time and used by the adder 610 for the next processing unit.
  • the square value calculator 604 receives the difference information of the quantized LSP parameters output from the adder 610, calculates the square value of each order, and outputs it to the sum calculator 605. At the same time, it outputs to the maximum value calculator 606.
  • the square sum calculator 605 calculates the sum of squares using the square value of each order. This sum of squares becomes the second dynamic parameter overnight (Para 2). By determining the threshold value of the second dynamic parameter, it is possible to identify whether or not it is a voice section. That is, if the second dynamic parameter is greater than the threshold Th2, it is determined to be a voice section. This determination is performed by a mode determiner 607 described later.
  • the maximum value calculator 606 selects the maximum value among the square values of the following orders.
  • This maximum value is the third dynamic parameter overnight (Para 3).
  • the threshold of this third dynamic parameter overnight it is possible to identify whether or not it is a voice section. That is, if the third dynamic parameter is larger than the threshold value Th3, it is determined that the section is a voice section. This determination is performed by a mode determiner 607 described later.
  • the threshold determination using the third parameter is performed to detect a change that will be buried by averaging the square errors of all orders, and to determine whether or not the voice section is more accurate.
  • the threshold is determined at the maximum value even if most of the results do not exceed the threshold and one or two results exceed the threshold.
  • the voice section can be determined more accurately.
  • the above-described first to third dynamic parameters are sent to the mode determiner 607, and the audio mode is determined by the above-described threshold determination, and is output as mode information.
  • This mode information is sent to the average LSP calculator controller 608.
  • the average LSP calculator controller 608 controls the average LSP calculator 609 according to the mode information.
  • the value of equation (1) is switched in the range of about 0 to 0.05 to switch the level of smoothing.
  • the smoothing process is turned off by setting it to 0, and in the non-voice (stationary noise) mode, the average LSP in the steady noise section is calculated by strong smoothing process with ⁇ 0.05. Is done.
  • FIG. 7 is a block diagram showing a configuration of a mode determination device including the above configuration.
  • the mode determiner includes a dynamic feature extraction unit 701 for extracting a dynamic feature of a quantized LSP parameter and a static feature extraction unit 702 for extracting a static feature of a quantized LSP parameter.
  • the dynamic feature extraction unit 701 is configured by a portion from the smoothing unit 6001 to the delay unit 612 in FIG.
  • the static feature quantity extraction unit 702 calculates a prediction residual parameter from the quantized LSP parameters in the normalized prediction residual parameter calculation unit 704. This prediction residual error is supplied to the mode determiner 607.
  • the adjacent LSP interval calculation unit 705 calculates an interval for each adjacent order of the quantized LSP parameter as shown in Expression (2).
  • the calculated value of the adjacent LSP interval calculation unit 705 is provided to the mode determiner 607.
  • the spectrum tilt calculator 703 calculates the spectrum tilt information using the quantized LSP parameters. Specifically, a primary reflection coefficient can be used as a parameter representing the spectral tilt. Since the relationship between the reflection coefficient and the linear prediction coefficient (LPC) can be mutually converted by using the Levinson-Durbin algorithm, the first-order reflection coefficient can be obtained from the quantized LPC. ⁇ ⁇ ⁇ Used as vector tilt information.
  • the normalized prediction residual value calculation unit 704 also calculates the normalized prediction residual value from the quantized LPC using the Levinson-Durbin algorithm. That is, the reflection coefficient and the normalized prediction residual error are simultaneously obtained from the quantized LPC using the same algorithm. This spectrum tilt information is provided to mode determiner 607.
  • the above-described elements of the spectrum inclination calculation unit 703 to the adjacent LSP interval calculation unit 705 constitute a static feature value calculation unit 702 for the quantized LSP parameters.
  • the outputs of the dynamic feature value calculation unit 701 and the static feature value calculation unit 702 are provided to a mode decision unit 607.
  • the amount of variation in the smoothed quantization LSP parameter is input from the sum of squares calculator 603, and the average quantization LSP parameter and the current quantization LSP parameter in the noise section are input from the sum of squares calculator 605.
  • the quantization prediction residual part is input, the adjacent LSP interval data from the adjacent LSP interval calculation unit 705 is input with the spectrum inclination information, and the variance information is input from the spectrum inclination calculation unit 703 with input. Then, by using these pieces of information, a mode for determining whether or not the input signal (or the decoded signal) in the current processing unit time is in the voice section is determined. A more specific method for determining whether or not a voice section is a voice section will be described later with reference to FIG.
  • a first dynamic parameter (Paral) is calculated.
  • the specific content of the first dynamic parameter overnight is the variation of the quantization LSP parameter overnight per processing unit time, and is shown in equation (3).
  • Step 802 it is checked whether or not the first dynamic parameter is greater than a predetermined threshold Th1. If the threshold value Th1 is exceeded, the amount of variation in the quantized LSP parameter is large, so that it is determined to be a voice section. On the other hand, if the difference is equal to or smaller than the threshold value T h i, the amount of variation in the quantized LSP parameter is small, so the process proceeds to ST 803, and further proceeds to the step of determination processing using another parameter.
  • the process proceeds to ST 803, and the number of counts indicating the number of stationary noise sections determined in the past is checked. The initial value of the count is 0, and it is incremented by 1 for each processing unit time determined to be a stationary noise section by this mode determination method.
  • the process proceeds to ST 804 to determine whether or not the voice section is used by using static parameters.
  • the process proceeds to ST 806 to determine whether or not it is in the voice section using the second dynamic parameter.
  • ST 804 two types of parameters are calculated.
  • One is the linear prediction residual parameter calculated from the quantized LSP parameter—evening (Para4), and the other is the variance of the difference information of the adjacent order over the quantized LSP parameter (Para5).
  • the linear prediction residual parameter can be obtained by converting the quantized LSP parameters into linear prediction coefficients and using a relational expression in the Levinson-Durbin algorithm.
  • Linear prediction residuals tend to be larger in unvoiced parts than in voiced parts. Since it is known, it can be used as a voice / unvoiced criterion.
  • the difference information of the adjacent order of the quantized LSP parameters is shown in equation (2), and the variance of these data is obtained.
  • a spectrum peak (peak) is likely to exist in the low frequency range.
  • the two types of parameters calculated in ST 804 are used in ST 805.
  • threshold processing using the two types of parameters calculated in ST 804 is performed. Specifically, when the linear prediction residual error (Para4) is smaller than the threshold Th4 and the variance (Para5) of the adjacent LSP interval data is larger than the threshold Th5, the voice section is determined. Otherwise, it is determined as a stationary noise section (non-speech section). If it is determined to be a stationary noise section, the counter value is incremented by one.
  • the second dynamic parameter overnight (Para2) is calculated.
  • the dynamic parameter parameter 2 is a parameter parameter that indicates the similarity between the average quantized LSP parameter parameter in the past stationary noise section and the quantized LSP parameter parameter in the current processing unit time. Specifically, as shown in Expression (4), the difference value is obtained for each order using the above two types of quantized LSP parameters, and the sum of squares is obtained. The obtained second dynamic parameters are used for threshold processing in ST 807.
  • the second dynamic parameter it is determined whether or not the second dynamic parameter has exceeded the threshold Th2. If the threshold value Th2 is exceeded, the similarity with the average quantized LSP parameter in the past stationary noise section is low, so it is determined to be a speech section. Since the degree of similarity to the average quantization LSP parameter in the stationary noise section is high, it is determined to be the stationary noise section. If it is determined to be a stationary noise section, the value of the count is incremented.
  • the third dynamic parameter overnight (Para3) is calculated.
  • the third dynamic parameter is hard to determine by the determination using the second dynamic parameter, that is, it is not determined only by the sum of squares of the difference between the quantized LSPs. Is a parameter for detecting orders with significant differences, and specifically, as shown in equation (5), the maximum value of the quantized LSP parameter for each order is calculated. It is.
  • the obtained third dynamic parameter is used in ST 808 for threshold processing.
  • the third dynamic parameter has exceeded the threshold value Th3. If it exceeds the threshold Th3, the similarity with the average quantized LSP parameter in the past stationary noise interval is low, so it is determined to be a speech interval. Since the similarity with the average quantized LSP parameter in the stationary noise section is high, it is determined to be the stationary noise section. If it is determined to be a stationary noise section, the value of the count is incremented.
  • the inventor of the present invention has found that the mode determination error is caused only by the determination using the first and second dynamic parameters, and that the cause of the mode determination error is the average quantization LSP in the noise section and the relevant section. It was found that the value of the quantized LSP at the location was very close, and the variation of the quantized LSP at the location was very small. However, focusing on the quantized LSP in a specific order, there was a significant difference between the average quantized LSP in the noise section and the quantized LSP in the relevant section.
  • mode determination is performed using all of the first to third dynamic parameters at the time of mode determination.
  • the mode is determined using the first dynamic parameter and the third dynamic parameter. You may do it.
  • the encoder has an algorithm to determine the noise interval separately, and in the interval determined as a noise interval, smoothes the LSP that is the LSP quantizer's one-time gain, thereby changing the quantized LSP. If this is used in combination with a configuration that makes it very small, the accuracy of this mode determination can be further improved.
  • the adaptive codebook search range is set according to the mode.
  • FIG. 9 is a block diagram showing a configuration for performing a pitch search according to the present embodiment.
  • a search range determining section 91 that determines a search range according to mode information, and a determined search
  • a pitch search unit 902 that performs a pitch search using the evening get vector in the range
  • an adaptive code vector generation unit that generates an adaptive code vector from the adaptive codebook 903 using the searched pitch.
  • 906 a noise codebook search section 906 that searches for a random codebook using the adaptive code vector, evening vector, and pitch information, and the searched noise codebook vector and pitch information
  • a noise code vector generation unit 907 that generates a noise code vector from the noise adaptive codebook 904 using and.
  • mode information is input to search range determining section 901.
  • the search range determining unit 901 determines a pitch search range based on the mode information.
  • the pitch search range is set to be equal to or longer than the subframe length (that is, to go back more than the subframe in the past).
  • the search range should include the subframe length or less. This prevents cycling from occurring within a subframe in the stationary noise section.
  • the present inventor has found that it is preferable in the configuration of the noise codebook to limit the pitch search range based on mode information for the following reasons. And found.
  • the present inventor first limited the search range of the pitch period to only a portion longer than the subframe length in generating the adaptive code vector in the noise mode. As a result, periodicity enhancement within one subframe can be avoided.
  • the pitch period in the stationary noise mode is controlled on the decoder side. It is also possible to detect that the error is short and detect an error.
  • the search range becomes the search range ⁇ ⁇ limited to the subframe length (L) or more. If the mode information is a mode other than the steady noise mode, the search range includes the range less than the subframe length. (The lower limit (shortest pitch lag) of the search range is shown as 0 in the figure, but the range of about 0 to 20 samples with 8 kHz sampling is too short for the pitch period. Generally, no search is performed, and a range of 15 to 20 samples or more is defined as a search range)). This switching of the search range is performed by the search range determination unit 901.
  • the pitch search section 902 performs a pitch search using the input evening get vector in the search range determined by the search range determination section 901. Specifically, in the determined pitch search range, the adaptive codebook component is calculated by convolving the impulse response with the adaptive code vector extracted from the adaptive codebook 903, and this value and the target The pitch for generating the adaptive code vector that minimizes the error from the vector is extracted.
  • the adaptive code vector generation unit 905 generates an adaptive code vector based on the obtained pitch.
  • the noise codebook search unit 906 searches the noise codebook at the obtained pitch using the generated adaptive code vector and evening get vector. Specifically, the noise codebook search section 906 calculates the noise codebook component by convolving the impulse response with the noise code vector extracted from the noise codebook 904, and Select a noise code vector that minimizes the error from the evening vector.
  • the search range is limited to the subframe length or more, thereby suppressing the pitch periodicity with respect to the noise code vector.
  • the pitch periodic gain is controlled in the stationary noise mode (or the stationary noise mode and the unvoiced mode). That is, in the stationary noise mode, the adaptive code vector generation is performed. , Pitch period gain By reducing the value to 0 or less than 1, pitch periodicization (pitch periodicity of the adaptive code vector) for the adaptive code vector can be suppressed.
  • the pitch periodic gain is set to 0 as shown in Fig. 10 (b), or the pitch periodic gain is reduced to less than 1 as shown in Fig. 10 (c).
  • Figure 10 (d) shows a general adaptive code vector generation method. TO in the figure indicates the pitch period.
  • the same control is performed for generating the random code vector.
  • Such control can be realized by the configuration shown in FIG.
  • the noise code vector is input from the random codebook 1103 to the periodic filter 1102, and the periodic gain controller 1101 changes the periodic filter according to the mode information. Control the pitch period gain in 1102.
  • a random code vector is input from the random codebook 1203 to the periodic filter 1201, and a random code vector is input from the random codebook 1204 to the periodic filter. It is input to 1202, and the periodic gain controller 1206 controls the pitch periodic gain in the periodic filters 1201 and 1202 according to the mode information. For example, if the random codebook 1203 is an algebraic codebook and the random codebook 1204 is a random codebook (for example, a Gaussian codebook, etc.), Set the pitch periodic gain of the periodic filter to 1 or a value close to 1, and set the pitch periodic gain of the periodic filter for the random codebook to a lower value. The output of either one of the random codebooks is selected by the switch 125 as the output of the entire random codebook.
  • the pitch periodicity with respect to the noise code vector can be suppressed, and the noise codebook can be suppressed.
  • Pitch circumference during configuration It is possible to prevent the occurrence of distortion due to aging. As a result, it is possible to improve coding performance for an input signal such as a noise signal having no periodicity.
  • the pitch period gain is switched, the same applies to the period gains for the second and subsequent periods for the adaptive codebook, and the period is set to 0 for the second and subsequent periods of the adaptive codebook. It may not be changed.
  • the signal used for the buffer of the current subframe is set to all 0s, or the linear prediction residual signal of the current subframe whose signal amplitude is attenuated so as to correspond to the periodic gain is copied.
  • the pitch search can be performed with the conventional pitch search method as it is.
  • a technique for preventing a double pitch error (an error of selecting a pitch of an integral multiple of the pitch period) is generally used.
  • this method may cause quality degradation.
  • such a deterioration is avoided by switching the method of preventing the double pitch error to 0 N / 0 FF depending on the mode.
  • FIG. 13 is a diagram showing a configuration of the weighting processing unit according to the present embodiment.
  • the output from the autocorrelation function calculator 1301 is switched according to the mode information selected in the above embodiment, and the weighting processor 1300 is selected. Input via 2 or directly to the maximized pitch selector 1303. That is, when the mode information is not the stationary noise mode, the output from the autocorrelation function calculator 1301 is input to the weighting processor 1302 so that the short pitch is selected, and the weighting is performed. A weighting process, which will be described later, is performed in the processor 1302, and this output is input to the maximum pitch selector 1303.
  • FIG. 13 is a diagram showing a configuration of the weighting processing unit according to the present embodiment.
  • FIG. 14 is a flowchart in the case of performing the weighting process according to the mode information.
  • the weighted result of the autocorrelation function at this sample (ncor_ma) is compared with the result of the autocorrelation function (ncor [n ⁇ 1]) at the sample time before this sample (ST 1 403).
  • the weights are set so that the preceding sample time point is large (next 1).
  • n is Pmin, the comparison ends and the frame pitch period candidate (p it) is output. If n is not Pmin, return to ST 1403 and repeat a series of processing.
  • FIG. 15 is a flowchart in a case where pitch candidates are selected without performing weighting processing.
  • Autocorrelation function calculator 1301 calculates a normalized autocorrelation function (pitch period) of the residual signal (ST 1501). That is, a sample time point for starting the comparison is set (n2Pmax), and the result of the autocorrelation function at that time point is obtained (ST1502). The time point of the sample that starts this comparison is the latest time point.
  • the result of the autocorrelation function (nc 0 r_max) at the time of this sample is compared with the result of the autocorrelation function (nc or [n ⁇ 1]) at the time of the sample before this sample (ST 1503).
  • n is a subframe (N_subframe)
  • the comparison is terminated and a frame pitch period candidate (pit) is output.
  • n is not a subframe (N-subframme)
  • the sampling point is shifted to the near side, and the process returns to ST 1503 to repeat a series of processing.
  • the maximum value is determined by comparing all sample times.
  • the sampling time may be divided into at least two ranges, the maximum value may be obtained in each range, and then the maximum value may be compared.
  • the search order of the pitch may be in the order of shorter pitch period.
  • FIG. 16 is a block diagram showing a configuration of the speech coding apparatus according to the present embodiment.
  • the same portions as those shown in FIG. 1 are denoted by the same reference numerals as those in FIG.
  • the speech coder shown in Fig. 16 uses the noise codebook used in the stationary noise mode.
  • a switch 164 for switching codebooks according to mode information from the mode selector 105, and a multiplexer 1 for multiplexing codes and outputting multiplexed codes.
  • the switch 164 determines the combination of the adaptive codebook 110 and the noise codebook 109 and the noise code. Switch between book 1 and 402. That is, the combination of the code S 1 for the noise codebook 109, the code P for the adaptive codebook 110, and the code G 1 for the gain codebook 111, and the code for the noise codebook 160 2 The combination of the code S2 and the code G2 for the gain codebook 1601 is switched according to the mode information M output from the mode selector 105.
  • the switch 164 switches to the noise codebook 1602, Do not use adaptive codebook.
  • the mode selector 105 outputs information on modes other than the stationary noise mode (stationary noise mode and unvoiced mode)
  • FIG. 17 is a block diagram showing a configuration of the speech decoding apparatus according to the present embodiment. In FIG. 17, the same parts as those shown in FIG. 2 are denoted by the same reference numerals as those in FIG. 2, and detailed description thereof will be omitted.
  • the speech decoder shown in Fig. 17 uses the noise codebook used in the stationary noise mode.
  • the switch 1704 determines the combination of the adaptive codebook 204 and the noise codebook 203 according to the mode information from the mode selector 202 and the noise code. Switch between book 1 7 0 2. That is, the multiplexing code C is input to the demultiplexer 1705, and the mode information is first separated and decoded. According to the decoded mode information, the code set of Gl, P, SI or G2, S One of the two code sets is separated and decoded. The code G1 is output to the gain codebook 205, the code P is output to the adaptive codebook 204, and the code S1 is output to the noise codebook 203. Also, code S 2 is output to noise codebook 1702, and code G2 is output to gain codebook 1 ⁇ 01.
  • the switch 1704 switches to the random codebook 1 ⁇ 02 and does not use the adaptive codebook.
  • the switch 1704 switches between the noise codebook 203 and the adaptive codebook 202. Switch to 4.
  • an appropriate excitation model is selected according to the state of the input (speech) signal, thereby improving the quality of the decoded signal. be able to.
  • the present embodiment provides a stationary noise generator including a sound source generating unit that generates a sound source such as white Gaussian noise and an LSP synthesis filter that represents a spectrum envelope of the stationary noise. Since the stationary noise generated by this stationary noise generator cannot be represented by the configuration of CELP, the stationary noise generator having the above configuration is modeled and provided in the speech decoding device. Then, the stationary noise signal generated by the stationary noise generator is superimposed on the decoded signal irrespective of the voice section Z and the non-voice section.
  • a noise-driven excitation vector is generated by randomly selecting a vector from a noise codebook that is a component of the CELP decoding device, and the generated noise-driven excitation vector is generated.
  • the stationary noise signal Generate The generated stationary noise signal is scaled to a power obtained by multiplying the average power of the stationary noise section by a constant (around 0.5), and added to the decoded signal (post-filter output signal).
  • a scaling process may be performed on the signal after the addition.
  • FIG. 18 is a block diagram showing a configuration of the speech decoding device according to the present embodiment.
  • the stationary noise generator 1801 generates noise by inputting an LPC converter 1812 that converts the average LSP in the noise section into LPC and a random signal from the random codebook 1804a in the noise codebook 1804.
  • a noise generator 1814 a synthetic filter 1813 driven by the generated noise signal, a stationary noise power calculator 1815 that calculates the power of the stationary noise based on the mode determined by the mode determiner 1802,
  • a multiplier 1816 for performing scaling by multiplying the noise signal synthesized by the synthesis filter 1813 by the power of the stationary noise.
  • the LSP code L transmitted from the encoder, the codebook index S representing the noise code vector, and the adaptive code vector are represented.
  • Codebook index A and codebook index G representing gain information are input to LPC decoder 1803, noise codebook 1804, adaptive codebook 1805, and gain codebook, respectively.
  • Decoder 1803 decodes quantized LSP from LSP code L, and outputs the result to mode determiner 1802 and LPC converter 1809, respectively.
  • the mode determiner 1802 has the configuration shown in FIG. 19, and the mode determiner 1 901 determines the mode using the quantized LSP input from the LSP decoder 1803, and converts the mode information into a noise code. Send it to Book 1804 and LPC converter 1809.
  • the average LSP calculator controller 1902 controls the average LSP calculator 1903 based on the mode information determined by the mode determiner 1901. That is, the average LSP calculator controller 1902 calculates the average LSP in the noise section from the current quantized LSP and the past quantized LSP in the stationary noise mode. The average LSP calculator 1902 is controlled so that The average LSP in this noise section is output to LPC converter 1812 and also to mode determiner 1901.
  • the noise codebook 1804 stores a predetermined number of noise code vectors having different shapes, and the noise code specified by the noise codebook index obtained by decoding the input code S. Output a vector. Further, the random codebook 1804 has a random codebook 1804a and a partial algebraic codebook 1804b which is an algebraic codebook, and corresponds to, for example, a voiced voice section. In the mode, a more pulse-like noise code vector is generated from the partial algebraic codebook 1804b, and in the mode corresponding to the unvoiced voice part or the stationary noise part, the random codebook 1804a is generated. However, the structure is such that a more noisy noise code vector is generated.
  • the ratio between the number of entries in the random codebook 1804a and the number of entries in the partial algebraic codebook 1804b is switched according to the determination result of the mode determiner 1802.
  • the noise code vector output from the noise code book 1804 the optimum one is selected from the entries of the two or more modes, and the noise codebook gain G is calculated by the multiplier 1806. After being multiplied, it is output to the adder 1808.
  • the adaptive codebook 1805 buffers the driving excitation signal generated in the past while sequentially updating it, and decodes the adaptive codebook index (pitch period (pitch lag)) obtained by decoding the input code P. To generate an adaptive code vector.
  • the adaptive code vector generated by adaptive codebook 1805 is output to adder 18008 after being multiplied by adaptive codebook gain G in multiplier 1807.
  • the adder 1808 generates a driving excitation signal by adding the noise code vector and the adaptive code vector input from the multipliers 1806 and 1807, and generates the combined excitation signal. Output to 0.
  • the synthesis filter 1810 constructs an LPC synthesis filter using the input quantized LPC.
  • the driving signal output from the adder 1808 is input to this combined filter, and a filter processing is performed using the input sound source signal as an input. 1 Output to 1.
  • the post-fill filter 1811 is used to improve the subjective quality of audio signals, such as pitch enhancement, formant enhancement, spectral tilt correction, and gain adjustment, for the composite signal input from the composite filter 1810. Perform processing.
  • the average LSP of the noise section output from the mode determiner 1802 is input to the LPC converter 1812 of the stationary noise generator 1801, where it is converted to LPC.
  • This LPC is input to the synthetic filter 18 13.
  • the noise generator 1814 selects a random vector at random from the random codebook 1804a, and generates a noise signal using the selected vector.
  • the synthesis filter 18 13 is driven by the noise signal generated by the noise generator 18 c.
  • the synthesized noise signal is output to the multiplier 18 16.
  • the stationary noise power calculator 1815 uses the mode information output from the mode determiner 1802 and the information on the power change of the signal output from the post-filler 1811 to obtain reliable information. Determine the stationary noise interval.
  • the certain steady noise section is a section where the mode information indicates a non-speech section (stationary noise section) and the power change is small. Even if the mode information indicates a stationary noise section, if the change in the power greatly increases, it may be a rising section of the voice, and is treated as a voice section. Then, the average power of the section determined as the stationary noise section is calculated.
  • the multiplier 18 16 8 Find the scaling coefficient to be multiplied by the output signal from 13.
  • the noise signal output from the synthesis filter 1813 is scaled by the scaling coefficient output from the stationary noise power calculator 1815. This scaled noise signal is output to the adder 18 17.
  • the adder 1817 the scaled noise signal is superimposed on the output from the above-described boost filter 1811, and a decoded speech is obtained.
  • the speech decoding apparatus having the above configuration uses a filter-driven pseudo-stationary noise generator 1801 that generates a sound source randomly, the same synthesized filter and the same par information are used repeatedly. However, buzzer-like noise due to discontinuity between segments does not occur, and natural noise can be generated.
  • Embodiments 1 to 8 can be implemented with various modifications.
  • Embodiments 1 to 8 above can be implemented in appropriate combinations.
  • the stationary noise generator of the present invention can be applied to any type of decoder, and if necessary, means for supplying an average LSP in a noise section, and means for determining a noise section (mode information). And an appropriate noise generator (or an appropriate random codebook) and the average power (average energy) of the noise interval
  • a multi-mode audio encoding device includes: a first encoding unit that encodes at least one or more parameters representing vocal tract information included in an audio signal; and a sound source information included in the audio signal.
  • a second encoding unit capable of encoding at least one or more types of parameters to be expressed in several modes, and the second encoding unit based on dynamic characteristics of the specific parameters encoded by the first encoding unit.
  • a mode determining unit that determines a mode of the second encoding unit; a combining unit that combines an input audio signal with a plurality of types of parameter information encoded by the first and second encoding units.
  • the mode switching unit includes: a calculating unit that calculates an inter-frame change in a quantized LSP parameter; and a calculating unit that calculates an average quantized LSP parameter in a frame in which the quantized LSP parameter is stationary. Calculating a distance between the average quantized LSP parameter and the current quantized LSP parameter, and calculating a distance between the specific order quantized LSP parameter and the average quantized LSP parameter. And a detecting unit for detecting a difference of a predetermined amount between the two.
  • the multi-mode speech coding apparatus of the present invention employs a configuration in the above-described configuration that includes a search range determining unit that limits the search range of the pitch period to only the subframe length or more when the mode is the stationary noise mode.
  • the search range is limited to the subframe length or more, so that the pitch periodicity with respect to the noise code vector can be suppressed. Also, it is possible to prevent coding distortion caused by the pitch period model generated in the decoded speech signal.
  • the multimode speech coding apparatus of the present invention in the above configuration, includes a pitch period gain control unit that controls a pitch period gain according to a mode when determining a pitch period using a codebook. Take the configuration.
  • the multi-mode speech coding apparatus of the present invention in the above-described configuration, employs a configuration in which the pitch-periodization gain control unit controls the gain for each noise codebook.
  • the pitch periodicity with respect to the noise code vector can be suppressed by changing the gain for each noise codebook. It is possible to prevent coding distortion caused by the pitch periodic model generated at the time of vector generation.
  • the multi-mode speech coding apparatus of the present invention in the above configuration, employs a configuration in which the pitch-periodization gain control unit reduces the pitch-periodization gain when the mode is a stationary noise mode.
  • An autocorrelation function calculator for obtaining an autocorrelation function of a residual signal of an input speech during a search, a weighting processor for performing weighting processing on an autocorrelation function result according to a mode, and a weighting processing.
  • a selecting unit that selects a pitch candidate using the result of the obtained autocorrelation function.
  • a multi-mode audio decoding device includes: a first decoding unit that decodes at least one or more parameters representing vocal tract information included in an audio signal; and a sound source information included in the audio signal.
  • a second decoding unit capable of decoding at least one or more types of parameters in several encoding modes, and a dynamic characteristic of the specific parameters decoded by the first decoding unit.
  • the mode switching unit includes: a calculating unit that calculates an inter-frame change in the quantized LSP parameter; and an average quantized LSP parameter in a frame in which the quantized LSP parameter is stationary.
  • a calculating unit that calculates The distance between the quantized LSP parameter and the current quantized LSP parameter is calculated, and a difference between a predetermined order of the quantized LSP parameter and the average quantized LSP parameter is determined.
  • a detection unit that detects
  • the average quantized LSP in the noise section and the quantized LSP in the relevant section show very close values, and even if the fluctuation of the quantized LSP in the relevant section is very small, accurate The mode can be determined at any time.
  • the multimode speech decoding device of the present invention in the above configuration, If the mode determined in step 2 is the stationary noise mode, the average LSP parameters in the noise section are output, and the synthesis constructed with the LPC parameters obtained from the average LSP parameters is performed.
  • a configuration including a stationary noise generating unit that generates stationary noise by driving the filter with a random signal obtained from the noise codebook is adopted.
  • the filter-driven pseudo-stationary noise generator 1801 that generates sound sources randomly is used, even if the same synthetic filter and the same par information are used repeatedly, the Buzzer-like noise caused by discontinuity does not occur, and natural noise can be generated.
  • the threshold value is determined at the maximum value using the third dynamic parameter, so that most results do not exceed the threshold value. Even when one or two results exceed the threshold, it can be accurately determined to be a voice section.
  • the present invention provides a mode determinator that determines a stationary noise interval using the change between LSP frames, the distance between the obtained LSP and the average LSP in the past noise interval (stationary interval). It has a basic configuration. The contents are based on Japanese Patent Application No. 10-236147 filed on August 21, 1998 and Japanese Patent Application No. 10-266883 filed on September 21, 1998. All of these details are also included here. Industrial applicability
  • the present invention is applicable to a low bit rate speech coding apparatus in a digital mobile communication system, and particularly to a CELP type speech coding apparatus which separately represents a speech signal into vocal tract information and sound source information. Can be.

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)

Description

明 細 書 マルチモード音声符号化装置及び復号化装置 技術分野
本発明は、 音声信号を符号化して伝送する移動通信システムなどにおける低 ビットレート音声符号化装置、 特に音声信号を声道情報と音源情報とに分離し て表現するような CE LP (Code Excited Linear Prediction) 型音声 符号化装置などに関する。 背景技術
ディジ夕ル移動通信や音声蓄積の分野においては、 電波や記憶媒体の有効利 用のために音声情報を圧縮し、 高能率で符号化するための音声符号化装置が用 いられている。 中でも CELP (Code Excited Linear Prediction:符 号励振線形予測符号化) 方式をベースにした方式が中 ·低ビットレートにおい て広く実用化されている。 CE LPの技術については、 M.R.Schroeder and B. S .Atal: "Code-Excited Linear Prediction (CELP): Hiah-quality Speech at Very Low Bit Rates" , Proc . ICASSP-85, 25.1.1, pp.937-940, 1985" に示されている。
CE LP型音声符号化方式は、 音声をある一定のフレーム長 ( 5ms〜50 ms程度) に区切り、 各フレーム毎に音声の線形予測を行い、 フレーム毎の線 形予測による予測残差 (励振信号) を既知の波形からなる適応符号ベクトルと 雑音符号べクトルを用いて符号化するものである。適応符号べクトルは過去に 生成した駆動音源べクトルを格納している適応符号帳から、 雑音符号べクトル は予め用意された定められた数の定められた形状を有するべク トルを格納し ている雑音符号帳から選択されて使用される。雑音符号帳に格納される雑音符 号べクトルには、 ランダムな雑音系列のべクトルや何本かのパルスを異なる位 置に配置することによって生成されるべクトルなどが用いられる。
従来の C E L P符号化装置では、 入力されたディジ夕ル信号を用いて L P C の分析 ·量子化とピッチ探索と雑音符号帳探索とゲイン符号帳探索とが行われ、 量子化 L P C符号 (L ) とピッチ周期 (P ) と雑音符号帳インデックス (S ) とゲイン符号帳インデックス (G) とが復号器に伝送される。
しかしながら、 上記従来の音声符号化装置においては、 1種類の雑音符号帳 で有声音声や無声音声さらには背景雑音などについても対応しなければなら ず、 これら全ての入力信号を高品質で符号化することは困難である。 発明の開示
本発明の目的は、 モード情報を新たに伝送することなしに音源符号化のマル チモード化を図ることができ、 特に有声区間 Z無声区間の判定に加えて音声区 間ノ非音声区間の判定を行うことも可能で、 マルチモード化による符号化 Z復 号化性能の改善度をより高めることを可能としたマルチモード音声符号化装 置及び音声復号化装置を提供することである。
本発明の主題は、 スぺクトル特性を表す量子化パラメ一夕の静的/動的特徴 を用いたモード判定を行い、 音声区間 Z非音声区間、 有声区間/無声区間を示 すモード判定結果に基づいて音源構成の切り替え及び後処理を行うことであ る。 図面の簡単な説明
図 1は、 本発明の実施の形態 1における音声符号化装置の構成を示すプロッ ク図;
図 2は、 本発明の実施の形態 2における音声復号化装置の構成を示すプロッ ク図;
図 3は、 本発明の実施の形態 1における音声符号化処理の流れを示すフロー チヤ一ト ; 図 4は、 本発明の実施の形態 2における音声復号化処理の流れを示すフロー チャート ;
図 5 Aは、 本発明の実施の形態 3における音声信号送信装置の構成を示すブ ロック図;
図 5 Bは、 本発明の実施の形態 3における音声信号受信装置の構成を示すブ ロック図;
図 6は、 本発明の実施の形態 4におけるモード選択器の構成を示すプロック 図;
図 7は、 本発明の実施の形態 4におけるモード選択器の構成を示すプロック 図;
図 8は、 本発明の実施の形態 4における前段のモード選択処理の流れを示す フローチヤ一ト ;
図 9は、 本発明の実施の形態 5におけるビツチ探索の構成を示すプロック 図;
図 1 0は、 本発明の実施の形態 5におけるピッチ探索の探索範囲を示す図; 図 1 1は、 本発明の実施の形態 5におけるピッチ周期化ゲインの切り替え制 御を行う構成を示す図;
図 1 2は、 本発明の実施の形態 5におけるピッチ周期化ゲインの切り替え制 御を行う構成を示す図;
図 1 3は、 本発明の実施の形態 6における重みづけ処理を行う構成を示すブ ロック図;
図 1 4は、 上記実施の形態において、 ピッチ周期候補選択で重みづけ処理を 行う場合のフローチヤ一ト ;
図 1 5は、 上記実施の形態において、 ピッチ周期候補選択で重みづけ処理を 行わない場合のフローチャート ;
図 1 6は、 本発明の実施の形態 7における音声符号化装置の構成を示すプロ ック図; 図 1 7は、 本発明の実施の形態 7における音声復号化装置の構成を示すプロ ック図;
図 1 8は、 本発明の実施の形態 8における音声復号化装置の構成を示すプロ ック図;並びに
図 1 9は、 上記実施の形態における音声復号化装置のモード判定器の構成を 示すブロック図である。 発明を実施するための最良の形態
以下、 本発明の実施の形態について、 添付図面を参照して詳細に説明する。 (実施の形態 1 )
図 1は、 本発明の実施の形態 1に係る音声符号化装置の構成を示すプロック 図である。 ディジ夕ル化された音声信号などからなる入力データが前処理器 1 0 1に入力される。 前処理器 1 0 1は、 ハイパスフィル夕やバンドパスフィル 夕などを用いて直流成分のカットや入力デー夕の帯域制限などを行って L P C分析器 1 0 2と加算器 1 0 6とに出力する。 なお、 この前処理器 1 0 1にお いて何も処理を行わなくても後続する符号化処理は可能であるが、 前述したよ うな処理を行った方が符号化性能は向上する。 なお、 主観的な品質を劣化させ ずに、 符号化し易い波形などに変換すること、 例えばピッチ周期の操作ゃピッ チ波形の補間処理など、 も前処理として有効である。
L P C分析器 1 0 2は、 線形予測分析を行って線形予測係数 ( L P C ) を算 出して L P C量子化器 1 0 3へ出力する。
L P C量子化器 1 0 3は、 入力した L P Cを量子化し、 量子化後の L P Cを 合成フィルタ 1 0 4とモード選択器 1 0 5に、 また、 量子化 L P Cを表現する 符号 Lを復号器に夫々出力する。 なお、 L P Cの量子化は補間特性の良い L S P (Line Spectrum Pair:線スぺクトル対) に変換して行うのが一般的で ある。 L S P ¾ L S F (Line Spectrum Frequency:線スぺク 卜ノレ周波数) で表されるのが一般的である。 合成フィル夕 1 0 4は、 入力した量子化 L P Cを用いて L P C合成フィル夕 を構築する。 この合成フィル夕に対して加算器 1 1 4から出力される駆動音源 信号を入力としてフィル夕処理を行って合成信号を加算器 1 0 6に出力する。 モード選択器 1 0 5は、 L P C量子化器 1 0 3から入力した量子化 L P Cを 用いて雑音符号帳 1 0 9のモードを決定する。
ここで、 モード選択器 1 0 5は、 過去に入力した量子化 L P Cの情報も蓄積 しており、 フレーム間における量子化 L P Cの変動の特徴と現フレームにおけ る量子化 L P Cの特徴の双方を用いてモードの選択を行う。 このモードは少な くとも 2種類以上あり、 例えば有声音声部に対応するモ一ドと無声音声部及び 定常雑音部などに対応するモードから成る。 また、 モードの選択に用いる情報 は量子化 L P Cそのものである必要はなく、 量子化 L S Pや反射係数や線形予 測残差パヮなどのパラメ一夕に変換したものを用いた方が効果的である。 L P C量子化器 1 0 3が L S P量子化器を構成要素として持っている場合(L P C を L S Pに変換して量子化を行う場合) は、 量子化 L S Pをモード選択器 1 0 5の入力パラメ一夕の一つとしても良い。
加算器 1 0 6は、 前処理器 1 0 1から入力される前処理後の入力データと合 成信号との誤差を算出し、 聴覚重みづけフィル夕 1 0 7へ出力する。
聴覚重み付けフィル夕 1 0 7は、 加算器 1 0 6において算出された誤差に対 して聴覚的な重み付けを行って誤差最小化器 1 0 8へ出力する。
誤差最小化器 1 0 8は、 雑音符号帳インデックスと適応符号帳インデックス (ピッチ周期) とゲイン符号帳ィンデックスとを調整しながら夫々雑音符号帳 1 0 9と適応符号帳 1 1 0とゲイン符号帳 1 1 1とに出力し、 聴覚重み付けフ ィル夕 1 0 7から入力される聴覚的重み付けされた誤差が最小となるように 雑音符号帳 1 0 9と適応符号帳 1 1 0とゲイン符号帳 1 1 1とが生成する雑 音符号べクトルと適応符号べクトルと雑音符号帳ゲイン及び適応符号帳ゲイ ンとを夫々決定し、 雑音符号べクトルを表現する符号 Sと適応符号べクトルを 表現する Pとゲイン情報を表現する符号 Gを夫々復号器に出力する。 雑音符号帳 1 0 9は、 予め定められた個数の形状の異なる雑音符号べクトル が格納されており、 誤差最小化器 1 0 8から入力される雑音符号べクトルのィ ンデックス S iによって指定される雑音符号ベクトルを出力する。 また、 この 雑音符号帳 1 0 9は少なくとも 2種類以上のモードを有しており、 例えば有声 音声部に対応するモードではよりパルス的な雑音符号べクトルを生成し、 無声 音声部や定常雑音部などに対応するモードではより雑音的な雑音符号べク ト ルを生成するような構造となっている。雑音符号帳 1 0 9から出力される雑音 符号べクトルは前記 2種類以上のモードのうちモード選択器 1 0 5で選択さ れた 1つのモードから生成され、 乗算器 1 1 2で雑音符号帳ゲインが乗じられ た後に加算器 1 1 4に出力される。
適応符号帳 1 1 0は、 過去に生成した駆動音源信号を逐次更新しながらバッ ファリングしており、 誤差最小化器 1 0 8から入力される適応符号帳インデッ クス (ピッチ周期 (ピッチラグ) ) P iを用いて適応符号ベクトルを生成する。 適応符号帳 1 1 0にて生成された適応符号べク トルは乗算器 1 1 3で適応符 号帳ゲインが乗じられた後に加算器 1 1 4に出力される。
ゲイン符号帳 1 1 1は、 適応符号帳ゲインと雑音符号帳ゲインのセット (ゲ インべクトル) を予め定められた個数だけ格納しており、 誤差最小化器 1 0 8 から入力されるゲイン符号帳ィンデックス G iによって指定されるゲインべ クトルの適応符号帳ゲイン成分を乗算器 1 1 3に、 雑音符号帳ゲイン成分を乗 算器 1 1 2に夫々出力する。 なお、 ゲイン符号帳は多段構成とすればゲイン符 号帳に要するメモリ量やゲイン符号帳探索に要する演算量の削減が可能であ る。 また、 ゲイン符号帳に割り当てられるビット数が十分であれば、 適応符号 帳ゲインと雑音符号帳ゲインとを独立してスカラ量子化することもできる。 ま た、 複数のサブフレームの適応符号帳ゲインゃ雑音符号帳ゲインをまとめてベ クトル量子化したりマトリックス量子化することも考えられる。
加算器 1 1 4は、 乗算器 1 1 2及び 1 1 3から入力される雑音符号べクトル と適応符号べクトルの加算を行って駆動音源信号を生成し、 合成フィル夕 1 0 4及び適応符号帳 1 1 0に出力する。
なお、 本実施の形態においては、 マルチモード化されているのは雑音符号帳 1 0 9のみであるが、 適応符号帳 1 1 0及びゲイン符号帳 1 1 1をマルチモー ド化することによってさらに品質改善を行うことも可能である。
次に、 図 3を参照して上記実施の形態における音声符号化方法の処理の流れ を示す。 本説明においては、 音声符号化処理を予め定められた時間長の処理単 位 (フレーム :時間長にして数十ミリ秒、程度) 毎に処理を行い、 1フレームを さらに整数個の短い処理単位 (サブフレーム) 毎に処理を行う例を示す。 ステップ (以下、 S Tと省略する) 3 0 1において、 適応符号帳の内容、 合 成フィル夕メモリ、 入力バッファなどの全てのメモリをクリアする。
次に、 S T 3 0 2においてディジタル化された音声信号などの入力デ一夕を 1フレーム分入力し、 ハイパスフィル夕またはバンドバスフィル夕などをかけ ることによって入力データのオフセット除去や帯域制限を行う。 前処理後の入 カデ一夕は入力バッファにバッファリングされ、 以降の符号化処理に用いられ る。
次に、 S T 3 0 3において、 L P C分析 (線形予測分析) が行われ、 L P C 係数 (線形予測係数) が算出される。
次に、 S T 3 0 4において、 S T 3 0 3にて算出された L P C係数の量子化 が行われる。 L P C係数の量子化方法は種々提案されているが、 補間特性の良 い L S Pパラメ一夕に変換して多段べクトル量子化やフレーム間相関を利用 した予測量子化を適用すると効率的に量子化できる。 また、 例えば 1フレーム が 2つのサブフレームに分割されて処理される場合には、 第 2サブフレームの L P C係数を量子化して、 第 1サブフレームの L P C係数は直前フレームにお ける第 2サブフレームの量子化 L P C係数と現フレームにおける第 2サブフ レームの量子化 L P C係数とを用いて補間処理によって決定する。
次に、 S T 3 0 5において、 前処理後の入力データに聴覚重みづけを行う聴 覚重みづけフィル夕を構築する。 次に、 S T 3 0 6において、 駆動音源信号から聴覚重み付け領域の合成信号 を生成する聴覚重み付け合成フィル夕を構築する。 このフィル夕は、 合成フィ ル夕と聴覚重み付けフィル夕とを従属接続したフィル夕であり、 合成フィル夕 は S T 3 0 4にて量子化された量子化 L P C係数を用いて構築され、 聴覚重み 付けフィル夕は S T 3 0 3において算出された L P C係数を用いて構築され る o
次に、 S T 3 0 7において、 モードの選択が行われる。 モードの選択は S T 3 0 4において量子化された量子化 L P C係数の動的及び静的特徴を用いて 行われる。 具体的には、 量子化 L S Pの変動や量子化 L P C係数から算出され る反射係数や予測残差パヮなどを用いる。 本ステップにおいて選択されたモ一 ドに従って雑音符号帳の探索が行われる。 本ステップにおいて選択されるモー ドは少なくとも 2種類以上あり、 例えば有声音声モードと無声音声及び定常雑 音モードの 2モード構成などが考えられる。
次に、 S T 3 0 8において、 適応符号帳の探索が行われる。 適応符号帳の探 索は、 前処理後の入力デ一夕に聴覚重みづけを行った波形に最も近くなるよう な聴覚重みづけ合成波形が生成される適応符号べク トルを探索することであ り、 前処理後の入力データを S T 3 0 5で構築された聴覚重み付けフィル夕で フィル夕リングした信号と適応符号帳から切り出した適応符号べクトルを駆 動音源信号として S T 3 0 6で構築された聴覚重み付け合成フィル夕でフィ ル夕リングした信号との誤差が最小となるように、 適応符号ベクトルを切り出 す位置を決定する。
次に、 S T 3 0 9において、 雑音符号帳の探索が行われる。 雑音符号帳の探 索は、 前処理後の入力データに聴覚重みづけを行った波形に最も近くなるよう な聴覚重みづけ合成波形が生成される駆動音源信号を生成する雑音符号べク トルを選択することであり、 駆動音源信号が適応符号べクトルと雑音符号べク トルとを加算して生成されることを考慮した探索が行われる。 したがって、 既 に S T 3 0 8にて決定された適応符号べクトルと雑音符号帳に格納されてい る雑音符号べクトルとを加算して駆動音源信号を生成し、 生成された駆動音源 信号を S T 3 0 6で構築された聴覚重みづけ合成フィル夕でフィル夕リング した信号と前処理後の入力データを S T 3 0 5で構築された聴覚重みづけフ ィル夕でフィル夕リングした信号との誤差が最小となるように、 雑音符号帳の 中から雑音符号べクトルを選択する。
なお、 雑音符号ベクトルに対してピッチ周期化などの処理を行う場合は、 そ の処理も考慮した探索が行われる。 また、 この雑音符号帳は少なくとも 2種類 以上のモードを有しており、 例えば有声音声部に対応するモードではよりノ レ ス的な雑音符号べクトルを格納している雑音符号帳を用いて探索が行われ、 無 声音声部や定常雑音部などに対応するモードではより雑音的な雑音符号べク トルを格納している雑音符号帳を用いて探索が行われる。探索時にどのモ一ド の雑音符号帳を用いるかは、 S T 3 0 7にて選択される。
次に、 S Τ 3 1 0において、 ゲイン符号帳の探索が行われる。 ゲイン符号帳 の探索は、 既に S Τ 3 0 8にて決定された適応符号ぺクトルと S Τ 3 0 9にて 決定された雑音符号べク トルのそれそれに対して乗じる適応符号帳ゲインと 雑音符号帳ゲインの組をゲイン符号帳の中から選択することであり、 適応符号 帳ゲイン乗算後の適応符号べクトルと雑音符号ゲイン乗算後の雑音符号べク トルとを加算して駆動音源信号を生成し、 生成した駆動音源信号を S T 3 0 6 にて構築された聴覚重みづけ合成フィル夕でフィル夕リングした信号と前処 理後の入力データを S T 3 0 5で構築された聴覚重みづけフィル夕でフィル 夕リングした信号との誤差が最小となるような適応符号帳ゲインと雑音符号 帳ゲインの組をゲイン符号帳の中から選択する。
次に、 S T 3 1 1において、 駆動音源信号が生成される。 駆動音源信号は、
S Τ 3 0 8にて選択された適応符号べクトルに S Τ 3 1 0にて選択された適 応符号帳ゲインを乗じたベクトルと、 S T 3 0 9にて選択された雑音符号べク トルに S T 3 1 0において選択された雑音符号帳ゲインを乗じたべクトルと、 を加算して生成される。 次に、 ST312において、 サブフレーム処理のループで用いられるメモリ の更新が行われる。 具体的には、 適応符号帳の更新や聴覚重みづけフィル夕及 び聴覚重みづけ合成フィル夕の状態更新などが行われる。
なお、 適応符号帳ゲインと固定符号帳ゲインとを別々に量子化する場合は、 S T 308の直後に適応符号帳ゲインの量子化を行い、 S T 309の直後に雑 音符号帳ゲインの量子化を行うのが一般的である。
上記 ST 305〜312はサブフレーム単位の処理である。
次に、 ST 313において、 フレーム処理のループで用いられるメモリの更 新が行われる。 具体的には、 前処理器で用いられるフィル夕の状態更新や量子 ィ匕 L P C係数バッファの更新や入力デ一夕バッファの更新などが行われる。 次に、 ST314において、 符号化デ一夕の出力が行われる。 符号化データ は伝送される形態に応じてビットス トリーム化や多重化処理などが行われて 伝送路に送出される。
上記 ST 302〜304及び 313〜314がフレーム単位の処理である。 また、 フレーム単位及びサブフレーム単位の処理は入力デ一夕がなくなるまで 繰り返し行われる。
(実施の形態 2)
図 2に本発明の実施の形態 2にかかる音声復号化装置の構成を示す。
符号器から伝送された、 量子化 LP Cを表現する符号 Lと雑音符号べクトル を表現する符号 Sと適応符号べク トルを表現する符号 Pとゲイン情報を表現 する符号 Gとが、 それそれ LP C復号器 201と雑音符号帳 203と適応符号 帳 204とゲイン符号帳 205とに入力される。
L PC復号器 201は、 符号 Lから量子化 LP Cを復号し、 モード選択器 2
02と合成フィル夕 209に夫々出力する。
モード選択器 202は、 LPC復号器 201から入力した量子化 LPCを用 いて雑音符号帳 203及び後処理器 2 1 1のモードを決定し、 モード情報 Mを 雑音符号帳 203及び後処理器 21 1とに夫々出力する。 また、 モード選択器 2◦ 2は、 L P C復号器 2 0 1から出力された量子化 L S Pパラメ一夕を用い て定常雑音区間の平均的 L S P ( L S P n ) を求め、 この L S P nを後処理器 2 1 1に対して出力する。 なお、 モード選択器 2 0 2は過去に入力した量子化 L P Cの情報も蓄積しており、 フレーム間における量子化 L P Cの変動の特徴 と現フレームにおける量子化 L P Cの特徴の双方を用いてモードの選択を行 う。 このモードは少なくとも 2種類以上あり、 例えば有声音声部に対応するモ 一ドと無声音声部に対応するモードと定常雑音部などに対応するモードから 成る。 また、 モードの選択に用いる情報は量子化 L P Cそのものである必要は なく、 量子化 L S Pや反射係数や線形予測残差パヮなどのパラメ一夕に変換し たものを用いた方が効果的である。 L P C復号器 2 0 1が L S P復号器を構成 要素として持っている場合( L P Cを L S Pに変換して量子化が行なわれてい る場合) は、 復号 L S Pをモード選択器 1 0 5の入力パラメ一夕の一つとして も良い。
雑音符号帳 2 0 3は、 予め定められた個数の、 形状の異なる雑音符号べクト ルが格納されており、 入力した符号 Sを復号して得られる雑音符号帳インデッ クスによって指定される雑音符号ベクトルを出力する。 また、 この雑音符号帳 2 0 3は少なくとも 2種類以上のモードを有しており、 例えば有声音声部に対 応するモードではよりパルス的な雑音符号べクトルを生成し、 無声音声部ゃ定 常雑音部などに対応するモードではより雑音的な雑音符号べクトルを生成す るような構造となっている。雑音符号帳 2 0 3から出力される雑音符号べクト ルは前記 2種類以上のモードのうちモード選択器 2 0 2で選択された 1つの モードから生成され、 乗算器 2 0 6で雑音符号帳ゲイン G sが乗じられた後に 加算器 2 0 8に出力される。
適応符号帳 2 0 4は、 過去に生成した駆動音源信号を逐次更新しながらバッ ファリングしており、 入力した符号 Pを復号して得られる適応符号帳インデッ クス (ピッチ周期 (ピッチラグ) ) を用いて適応符号ベクトルを生成する。 適 応符号帳 2 0 4にて生成された適応符号べク トルは乗算器 2 0 7で適応符号 帳ゲイン Gaが乗じられた後に加算器 2 0 8に出力される。
ゲイン符号帳 2 0 5は、 適応符号帳ゲインと雑音符号帳ゲインのセット (ゲ インベクトル) を予め定められた個数だけ格納しており、 入力した符号 Gを復 号して得られるゲイン符号帳ィンデックスによって指定されるゲインべク ト ルの適応符号帳ゲイン成分を乗算器 2 0 7に、 雑音符号帳ゲイン成分を乗算器 2 0 6に夫々出力する。
加算器 2 0 8は、 乗算器 2 0 6及び 2 0 7から入力される雑音符号べクトル と適応符号べクトルの加算を行って駆動音源信号を生成し、 合成フィル夕 2 0 9及び適応符号帳 2 0 4に出力する。
合成フィル夕 2 0 9は、 入力した量子化 L P Cを用いて L P C合成フィル夕 を構築する。 この合成フィル夕に対して加算器 2 0 8から出力される駆動音源 信号を入力としてフィル夕処理を行って合成信号をボストフィル夕 2 1 0に 出力する。
ボストフィル夕 2 1 0は、 合成フィル夕 2 0 9から入力した合成信号に対し て、 ピッチ強調、 ホルマント強調、 スペクトル傾斜補正、 ゲイン調整などの音 声信号の主観的品質を改善させるための処理を行い、 後処理器 2 1 1に出力す る。
後処理器 2 1 1は、 ポストフィル夕 2 1 0から入力した信号に対して、 擬似 的に定常雑音を生成して重畳することにより、 主観品質を改善する。 この処理 は、 モード選択器 2 0 2から入力されるモ一ド情報 M及び雑音区間の平均的 L S P ( L S P n ) を利用して適応的に行う。 具体的な後処理については後述す る。
なお、 本実施の形態においては、 モード選択器 2 0 2から出力されるモード 情報 Mは、 雑音符号帳 2 0 3のモード切替と後処理器 2 1 1の双方で用いられ る構成としたが、 どちらか一方のみに用いても効果が得られる。
次に、 図 4を参照して上記実施の形態における音声復号化方法の処理の流れ を示す。 本説明においては、 音声符号化処理を予め定められた時間長の処理単 位 (フレーム :時間長にして数十ミリ秒程度) 毎に処理を行い、 1フレームを さら整数個の短い処理単位 (サブフレーム) 毎に処理を行う例を示す。
S T 4 0 1において、 適応符号帳の内容、 合成フィル夕メモリ、 出力バッフ ァなどの全てのメモリをクリァする。
次に、 S T 4 0 2において、 符号化データが復号される。 具体的には、 多重 化されている受信信号の分離化ゃビッ トストリーム化されている受信信号を 量子化 L P C係数と適応符号べクトルと雑音符号べク トルとゲイン情報とを 夫々表現する符号に夫々変換する。
次に、 S T 4 0 3において、 L P C係数を復号する。 L P C係数は、 S T 4 0 2にて得られた量子化 L P C係数を表現する符号から、 実施の形態 1に示し た L P C係数の量子化方法の逆の手順によって復号される。
次に、 S T 4 0 4において、 S T 4 0 3にて復号された L P C係数を用いて 合成フィル夕が構築される。
次に、 S T 4 0 5において、 S T 4 0 3にて復号された L P C係数の静的及 び動的特徴を用いて、 雑音符号帳及び後処理のモード選択が行われる。 具体的 には、 量子化 L S Pの変動や量子化 L P C係数から算出される反射係数や予測 残差パヮなどを用いる。 本ステップにおいて選択されたモ一ドに従って雑音符 号帳の復号及び後処理が行われる。 このモードは少なくとも 2種類以上あり、 例えば有声音声部に対応するモードと無声音声部に対応するモードと定常雑 音部などに対応するモードとから成る。
次に、 S T 4 0 6において、 適応符号べクトルが復号される。 適応符号べク トルは、 適応符号べクトルを表現する符号から適応符号べクトルを適応符号帳 から切り出す位置を復号してその位置から適応符号べクトルを切り出すこと によって、 復号される。
次に、 S T 4 0 7において、 雑音符号べクトルが復号される。 雑音符号べク トルは、 雑音符号べクトルを表現する符号から雑音符号帳インデックスを復号 してそのィンデックスに対応する雑音符号べクトルを雑音符号帳から取り出 すことによって、 復号される。 雑音符号べクトルのピッチ周期化などを適用す る際は、 さらにピッチ周期化などを行った後のものが復号雑音符号べクトルと なる。 また、 この雑音符号帳は少なくとも 2種類以上のモードを有しており、 例えば有声音声部に対応するモードではよりパルス的な雑音符号べク トルを 生成し、 無声音声部や定常雑音部などに対応するモードではより雑音的な雑音 符号べクトルを生成するようになっている。
次に、 S T 4 0 8において、 適応符号帳ゲインと雑音符号帳ゲインが復号さ れる。 ゲイン情報を表す符号からゲイン符号帳ィンデックスを復号してこのィ ンデックスで示される適応符号帳ゲインと雑音符号帳ゲインの組をゲイン符 号帳の中から取り出すことによって、 ゲイン情報が復号される。
次に、 S T 4 0 9において、 駆動音源信号が生成される。 駆動音源信号は、 S T 4 0 6にて選択された適応符号べク トルに S T 4 0 8にて選択された適 応符号帳ゲインを乗じたべクトルと、 S T 4 0 7にて選択された雑音符号べク トルに S T 4 0 8において選択された雑音符号帳ゲインを乗じたべクトルと、 を加算して生成される。
次に、 S T 4 1 0において、 復号信号が合成される。 S T 4 0 9にて生成さ れた駆動音源信号を、 S T 4 0 4にて構築された合成フィル夕でフィル夕リン グすることによって、 復号信号が合成される。
次に、 S T 4 1 1において、 復号信号に対してポストフィル夕処理が行われ る。 ポストフィル夕処理は、 ピッチ強調処理やホルマント強調処理ゃスぺクト ル傾斜補正処理やゲイン調整処理などの復号信号特に復号音声信号の主観的 品質を改善するための処理から成っている。
次に、 S T 4 1 2において、 ポストフィル夕処理後の復号信号に対して最終 的な後処理が行われる。 この後処理については、 S T 4 0 5にて選択されたモ ードに対応したものであり、 詳細については後述する。 本ステップで生成され る信号が出力データとなる。
次に、 S T 4 1 3において、 サブフレーム処理のループで用いられるメモリ の更新が行われる。 具体的には、 適応符号帳の更新やポストフィル夕処理に含 まれる各フィル夕の状態更新などが行われる。
上記 S T 4 0 4〜4 1 3はサブフレーム単位の処理である。
次に、 S T 4 1 4において、 フレーム処理のループで用いられるメモリの更 新が行われる。 具体的には、 量子化 (復号) L P C係数バッファの更新や出力 デ—夕バッファの更新などが行われる。
上記 S T 4 0 2〜4 0 3及び 4 1 4はフレーム単位の処理である。 また、 フ レーム単位の処理は符号化データがなくなるまで繰り返し行われる。
(実施の形態 3 )
図 5は実施の形態 1の音声符号化装置または実施の形態 2の音声復号化装 置を備えた音声信号送信機及び受信機を示したプロック図である。 図 5 Aは送 信機、 図 5 Bは受信機を示す。
図 5 Aの音声信号送信機では、 音声が音声入力装置 5 0 1によって電気的ァ ナログ信号に変換され、 AZD変換器 5 0 2に出力される。 アナログ音声信号 は A/D変換器 5 0 2によってディジ夕ル音声信号に変換され、 音声符号化器 5 0 3に出力される。 音声符号化器 5 0 3は音声符号化処理を行い、 符号化し た情報を R F変調器 5 0 4に出力する。 R F変調器は符号化された音声信号の 情報を変調 ·増幅 ·符号拡散などの電波として送出するための操作を行い、 送 信アンテナ 5 0 5に出力する。最後に送信アンテナ 5 0 5から電波(R F信号) 5 0 6が送出される。
一方、 図 5 Bの受信機においては、 電波 (R F信号) 5 0 6を受信アンテナ 5 0 7で受信し、 受信信号は R F復調器 5 0 8に送られる。 R F復調器 5 0 8 は符号逆拡散 ·復調など電波信号を符号化情報に変換するための処理を行い、 符号化情報を音声復号化器 5 0 9に出力する。 音声復号化器 5 0 9は、 符号化 情報の復号処理を行ってディジ夕ル復号音声信号を D /A変換器 5 1 0へ出 力する。 D/A変換器 5 1 0は音声復号化器 5 0 9から出力されたディジタル 復号音声信号をアナログ復号音声信号に変換して音声出力装置 5 1 1に出力 する。 最後に音声出力装置 51 1が電気的アナログ復号音声信号を復号音声に 変換して出力する。
上記送信装置及び受信装置は携帯電話などの移動通信機器の移動機または 基地局装置として利用することが可能である。 なお、 情報を伝送する媒体は本 実施の形態に示したような電波に限らず、 光信号などを利用することも可能で あり、 さらには有線の伝送路を使用することも可能である。
なお、 上記実施の形態 1に示した音声符号化装置及び上記実施の形態 2に示 した音声復号化装置及び上記実施の形態 3に示した送信装置及び送受信装置 は、 磁気ディスク、 光磁気ディスク、 ROMカートリッジなどの記録媒体にソ フトウェアとして記録して実現することも可能であり、 その記録媒体を使用す ることにより、 このような記録媒体を使用するパーソナルコンピュータなどに より音声符号化装置ノ復号化装置及び送信装置 Z受信装置を実現するとがで きる。
(実施の形態 4)
実施の形態 4は、 上述した実施の形態 1、 2におけるモード選択器 105、 202の構成例を示した例である。
図 6に実施の形態 4にかかるモード選択器の構成を示す。
本実施の形態にかかるモード選択器では、 平滑化部 601に現在の量子化 L SPパラメ一夕を入力して平滑化処理を行う。 平滑化部 601では、 処理単位 時間毎に入力される各次の量子化 L S Pパラメ一夕を時系列デ一夕として式 ( 1) に示す平滑化処理を行う。
L s [i] = (l-a) xL s [i] + crxL[i], Ϊ=1,2,··',Μ、 0<ひ <1
… ( 1)
L s [i]: i次の平滑化量子化 LSPパラメ一夕
L [i] : i次の量子化 L SPパラメ一夕
a:平滑化係数
M: LSP分析次数 なお、 式 ( 1) において、 ひの値は 0. 7程度に設定し、 それほど強い平滑 化にならないようにする。 上記式 ( 1) で求めた平滑化した量子化 LSPパラ メータは、 遅延部 602を経由して加算器 6 1 1へ入力されると共に、 直接加 算器 61 1へ入力される。 遅延部 602は、 入力した平滑化した量子化 LSP パラメ一夕を 1処理単位時間だけ遅延させて加算器 6 1 1に出力する。
加算器 6 1 1には、 現在の処理単位時間における平滑化された量子化 LSP パラメ一夕と 1つ前の処理単位時間における平滑化された量子化 L S Pパラ メータとが入力される。 この加算器 6 1 1において、 現在の処理単位時間にお ける平滑化量子化 L S Pパラメ一夕と 1つ前の処理単位時間における平滑化 量子化 L S Pパラメ一夕との差を算出する。 この差は L S Pパラメ一夕の各次 数毎に算出される。 加算器 606による算出結果は自乗和算出部 603に出力 する。
自乗和算出部 603は、 現在の処理単位時間における平滑化された量子化 L
5 Pパラメ一夕と 1つ前の処理単位時間における平滑化された量子化 L S P パラメ一夕との次数毎の差の自乗和を計算する。 これにより、 第 1の動的パラ メ一夕 (Para 1) が得られる。 この第 1の動的パラメ一夕をしきい値判定す ることにより音声区間であるかどうかを識別することができる。 すなわち、 第 1の動的パラメ一夕がしきい値 Th 1よりも大きい場合には音声区間と判定 される。 この判定は、 後述するモード決定器 607において行う。
平均 L SP算出器 609は、 平滑化部 60 1と同様に式 ( 1 ) に基づいて雑 音区間における平均的 LSPパラメ一夕を算出し、 遅延器 612を介してカロ算 器 610に出力する。 ただし、 式 ( 1) におけるひは平均 L SP算出器制御器
608によって制御される。 なお、 ひの値は、 0. 05程度〜 0とし、 極めて 強い平滑化処理を行うことによって、 平均的な LSPパラメ一夕を算出する。 具体的には、 音声区間ではひの値を 0として、 音声区間以外の区間でのみ平均 をとる (平滑化を行う) ようにすることなどが考えられる。
加算器 6 10は、 現在の処理単位時間における量子化 LSPパラメ一夕と、 平均 L S P算出器 6 0 9によって直前の処理単位時間において算出された雑 音区間における平均的量子化 L S Pパラメ一夕との差を各次数毎に算出し、 自 乗値算出器 6 0 4に出力する。 すなわち、 後述するようにモード決定がなされ た後、 平均 L S P算出器 6 0 9で雑音区間の平均 L S Pが計算され、 その雑音 区間の平均 L S Pパラメ一夕が遅延器 6 1 2を介して 1処理単位時間遅延さ れて加算器 6 1 0で次の処理単位に用いられる。
自乗値算出器 6 0 4は、 加算器 6 1 0から出力された量子化 L S Pパラメ一 夕の差分情報を入力し、 各次数の自乗値を算出して、 総和算出器 6 0 5に出力 すると共に、 最大値算出器 6 0 6に出力する。
自乗和算出器 6 0 5では、 各次数の自乗値を用いて自乗和を算出する。 この 自乗和が第 2の動的パラメ一夕 (Para 2 ) となる。 この第 2の動的パラメ一 夕をしきい値判定することにより音声区間であるかどうかを識別することが できる。 すなわち、 第 2の動的パラメ一夕がしきい値 T h 2よりも大きい場合 には音声区間と判定される。 この判定は、 後述するモード決定器 6 0 7におい て行う。
また、 最大値算出器 6 0 6では、 各次の自乗値のうち最大値を選択する。 こ の最大値が第 3の動的パラメ一夕 (Para 3 ) となる。 この第 3の動的パラメ 一夕をしきい値判定することにより音声区間であるかどうかを識別すること ができる。 すなわち、 第 3の動的パラメ一夕がしきい値 T h 3よりも大きい場 合には音声区間と判定される。 この判定は、 後述するモード決定器 6 0 7にお いて行う。 この第 3のパラメ一夕を用いたしきい値判定は、 全次数の自乗誤差 を平均化することにより埋もれてしまう変化を検出してより正確に音声区間 であるかどうかを判定するために行う。
例えば、 複数の自乗和の結果のうち、 ほとんどの結果がしきい値を超えなく、 1つや 2つの結果がしきい値を超える場合、 平均化した結果についてしきい値 判定を行うと、 平均化した結果がしきい値を超えなくなってしまい、 音声区間 と判定されなくなってしまうことがある。 上記のように第 3の動的パラメ一夕 を用いてしきい値判定を行うことにより、 ほとんどの結果がしきい値を超えな く、 1つや 2つの結果がしきい値を超える場合においても、 最大値でしきい値 判定を行うので、 より正確に音声区間と判定することができる。
上述した第 1から第 3の動的パラメ一夕は、 モード決定器 607に送られ、 上記しきい値判定により、 音声モードが決定され、 モード情報として出力され る。 また、 このモード情報は、 平均 LSP算出器制御器 608に送られる。 平 均 LSP算出器制御器 608では、 モード情報にしたがって、 平均 LSP算出 器 609を制御する。
具体的に、 平均 LSP算出器 609を制御する場合、 式 ( 1) のひの値を 0 〜0. 05程度の範囲で切換えて、 平滑化の強さを切換える。 最も簡単な例で は、音声モードではひ =0として平滑化処理を OFFとし、非音声(定常雑音) モードでは《=0. 05程度として強い平滑化処理によって定常雑音区間の平 均 LSPの算出が行われるようにする。 なお、 L SPの各次数毎にひの値を制 御することも考えられ、 この場合は音声モードにおいても一部 (例えば特定の 周波数帯域に含まれる次数) の LSPを更新すること等が考えられる。
図 7は、 上記構成を含むモード判定器の構成を示すブロック図である。
このモード判定器は、 量子化 L S Pパラメ一夕の動的特徴を抽出する動的特 徴抽出部 701と、 量子化 LSPパラメ一夕の静的特徴を抽出する静的特徴抽 出部 702とを備える。 動的特徴抽出部 701は、 図 6において、 平滑化部 6 01から遅延器 612までの部分によって構成される。
静的特徴量抽出部 702は、 正規化予測残差パヮ算出部 704において量子 化 LSPパラメ一夕から予測残差パヮを算出する。 この予測残差パヮは、 モー ド決定器 607に与えられる。
また、 隣接 LSP間隔算出部 705において、 式 (2) に示すように量子化 LSPパラメ一夕の隣接する次数毎に間隔を算出する。
Ld[i]=L[i+l]-L[i] , ί=1,2,···Μ-1 … ( 2 )
LTi] : i次の量子化 L SPパラメ一夕 隣接 LSP間隔算出部 705の算出値はモード決定器 607へ与えられる。 スぺクトル傾斜算出部 703は、 量子化 L SPパラメ一夕を用いてスぺクト ル傾斜情報を算出する。 具体的に、 スペクトル傾斜を表すパラメ一夕としては、 1次の反射係数が利用可能である。 反射係数と線形予測係数 (LPC) との間 には Levinson-Durbin のアルゴリズムを用いれば互いに変換可能な関係が あるので、 量子化 LP Cから 1次の反射係数を求めることができ、 これをスぺ クトル傾斜情報として用いる。 なお、 正規化予測残差パヮ算出部 704におい ても量子化 LP Cから Levinson- Durbin のアルゴリズムを用いて正規化予 測残差パヮを算出する。 すなわち、 反射係数も正規化予測残差パヮも同じアル ゴリズムを用いて量子化 LP Cから同時に求められる。 このスペクトル傾斜情 報は、 モード決定器 607に与えられる。
以上のスぺクトル傾斜算出部 703〜隣接 LSP間隔算出部 705の要素 によって、 量子化 LSPパラメ一夕の静的特徴量算出部 702が構成される。 動的特徴量算出部 701及び静的特徴量算出部 702の出力は、 モード決定 器 607へ与えられる。 自乗和算出器 603から平滑化量子化 L SPパラメ一 夕の変動量を入力し、 自乗和算出器 605から雑音区間の平均的量子化 LSP パラメ一夕と現在の量子化 L SPパラメ一夕との距離を入力し、 最大値算出器 606から雑音区間の量子化 L S Pパラメ一夕と現在の量子化 L S Pパラメ —夕との距離の最大値を入力し、 正規化予測残差パヮ算出部 704から量子化 予測残差パヮを入力し、 隣接 LSP間隔算出部 705から隣接 LSP間隔デー 夕のスぺクトル傾斜情報を入力し、 スぺクトル傾斜算出部 703から分散情報 を入力するする。 そして、 これらの情報を用いて、 現在の処理単位時間におけ る入力信号 (又は復号信号) が音声区間であるか否かのモードを決定する。 よ り具体的な音声区間か否かの判定方法は、 図 8を用いて後述する。
次に、 図 8を参照して、 上記実施の形態における音声区間判定方法の詳細に ついて説明する。
まず、 ST801において、 第 1の動的パラメ一夕 (Paral) を算出する。 第 1の動的パラメ一夕の具体的内容は、 処理単位時間毎の量子化 L SPパラメ 一夕の変動量であり、 式 (3) に示される。
2
0( = ^ (LSi(t)-LSi(t-l))
(3)
S/ :時刻(サフ 'フレーム) /(こおける平滑化量子化厶
ST 802において、 第 1の動的パラメ一夕が予め定めてある閾値 Th 1よ り大きいかどうかをチェックする。 閾値 Th 1を越えている場合は、 量子化 L SPパラメ一夕の変動量が大きいので、 音声区間であると判定する。 一方、 閾 値 T h i以下の場合は、 量子化 LSPパラメ一夕の変動量が小さいので、 ST 803に進み、 さらに別のパラメ一夕を用いた判定処理のステップに進んでゆ く。
ST 802において、 第 1の動的パラメ一夕が閾値 Th 1以下の場合は、 S T 803に進んで、 過去にどれだけ定常雑音区間と判定されたかを示すカウン 夕一の数をチェックする。 カウン夕一は初期値が 0で、 本モード判定方法によ つて定常雑音区間であると判定された処理単位時間毎に 1ずつインクリメン 卜される。 ST 803において、 カウン夕一の数が、 予め設定されている閾値 ThC以下の場合は、 ST 804に進み、 静的パラメ一夕を用いて音声区間か 否かの判定を行う。 一方、 閾値 ThCを越えている場合は、 ST 806に進み、 第 2の動的パラメ一夕を用いて音声区間か否かの判定を行う。
ST 804では 2種類のパラメ一夕を算出する。 一つは量子化 LSPパラメ —夕から算出される線形予測残差パヮであり (Para4) 、 もう一つは量子化 L SPパラメ一夕の隣接次数の差分情報の分散である (Para5) 。
線形予測残差パヮは、 量子化 L S Pパラメ一夕を線形予測係数に変換し、 Levinson-Durbinのアルゴリズムにある関係式を用いることにより、求める ことができる。線形予測残差パヮは有声部より無声部の方が大きくなる傾向が 知られているので、 有声/無声の判定基準として利用できる。 量子化 LSPパ ラメ一夕の隣接次数の差分情報は式 (2) に示したもので、 これらのデータの 分散を求める。 ただし、 雑音の種類や帯域制限のかけかたによっては、 低域に スぺクトルの山 (ピーク) が存在し易くなるので、 低域端の隣接次数の差分情 報 (式 (2) において、 i= 1) は用いずに、 式 (2) において、 i = 2から M— 1 (Mは分析次数) までのデ一夕を用いて分散を求めた方が雑音区間と音 声区間とを分類し易くなる。 音声信号においては、 電話帯域 (200 Hz〜3. 4 kHz) 内に 3つ程度のホルマントを持っため、 LSPの間隔が狭い部分と 広い部分がいくつかあり、 間隔のデータの分散が大きくなる傾向がある。
一方、 定常ノイズでは、 ホルマント構造を持たないため、 LSPは比較的等 間隔になりやすく、 前記分散は小さくなる傾向がある。 この性質を利用して、 音声区間か否かの判定を行うことが可能である。 ただし、 前述のように雑音の 種類や伝送路の周波数特性などによっては、 低域にスペクトルの山 (ピーク) をもつ場合があり、 この様な場合は最も低域側の L S P間隔が狭くなるので、 全ての隣接 LSP差分データを用いて分散を求めると、 ホルマント構造の有無 による差が小さくなり、 判定精度が低くなる。
したがって、 低域端の隣接 LSP差分情報を除いて分散を求めることによつ て、 この様な精度劣化を回避する。 ただし、 この様な静的パラメ一夕は、 動的 パラメ一夕に比べると判定能力が低いので、 補助的な情報として用いるのが良 い。 ST 804にて算出された 2種類のパラメ一夕は ST 805で用いられる。 次に、 ST 805において、 ST 804にて算出された 2種類のパラメ一夕 を用いた閾値処理が行われる。 具体的には線形予測残差パヮ (Para4) が閾値 Th4より小さく、 かつ、 隣接 LSP間隔データの分散 (Para5) が閾値 Th 5より大きい場合に、 音声区間と判定する。 それ以外の場合は、 定常雑音区間 (非音声区間) と判定する。 定常雑音区間と判定された場合は、 カウンターの 値を 1インクリメントする。
ST 806においては、 第 2の動的パラメ一夕 (Para2) が算出される。 第 2の動的パラメ一夕は過去の定常雑音区間における平均的な量子化 L S Pパ ラメ一夕と現在の処理単位時間における量子化 LSPパラメ一夕との類似度 を示すパラメ一夕であり、 具体的には式 (4) に示したように、 前記 2種類の 量子化 L SPパラメ一夕を用いて各次数毎に差分値を求め、 自乗和を求めたも のである。 求められた第 2の動的パラメ一夕は、 ST 807にて閾値処理に用 いられる。
(4) ム /丫 :時刻(サフ 'フレ-ム) ί(こおける量子化 /:雑音区間の平均量子化
次に、 ST 807において、 第 2の動的パラメ一夕が閾値 Th 2を越えてい るかどうかの判定が行われる。 閾値 Th 2を越えていれば、 過去の定常雑音区 間における平均的な量子化 L SPパラメ一夕との類似度が低いので、 音声区間 と判定し、 閾値 Th 2以下であれば、 過去の定常雑音区間における平均的な量 子化 LSPパラメ一夕との類似度が高いので、 定常雑音区間と判定する。 定常 雑音区間と判定された場合は、 カウン夕一の値をインクリメントする。
ST 808においては、 第 3の動的パラメ一夕 (Para3) が算出される。 第 3の動的パラメ一夕は、 第 2の動的パラメ一夕を用いた判定では判定しにくい、 すなわち量子化 L S Pの差の自乗和だけでは判定されないが、 平均的量子化 L SPに対して有意な差を持つ次数を検出するためのパラメ一夕であり、 具体的 には式 (5) に示したように、 各次数の量子化 L SPパラメ一夕の最大値を求 めたものである。 求められた第 3の動的パラメ一夕は、 ST 808にて閾値処 理に用いられる。 2
E(t) =max [ ( Li( -LAi) } i=1. 2....... M
(5) ム /' ノ:時刻(サフ 'フレーム) tにおける量子化/ 雑音区間の平均量子化
ただし、 MiLSPi^PCの分析次数
次に、 S T 8 0 8において、 第 3の動的パラメ一夕が閾値 T h 3を越えてい るかどうかの判定が行われる。 閾値 T h 3を越えていれば、 過去の定常雑音区 間における平均的な量子化 L S Pパラメ一夕との類似度が低いので、 音声区間 と判定し、 閾値 T h 3以下であれば、 過去の定常雑音区間における平均的な量 子化 L S Pパラメ一夕との類似度が高いので、 定常雑音区間と判定する。 定常 雑音区間と判定された場合は、 カウン夕一の値をインクリメントする。
本発明者は、 第 1及び第 2の動的パラメ一夕を用いた判定だけではモード判 定誤りが生じることについて、 モード判定誤りの原因が、 雑音区間の平均的量 子化 L S Pと当該部所における量子化 L S Pとが非常に近い値を示しており、 かつ当該部所における量子化 L S Pの変動が非常に小さかったことを見出し た。 ただし、 ある特定の次数における量子化 L S Pに着目すると、 雑音区間の 平均的量子化 L S Pと当該部所における量子化 L S Pとで有意な差があった ことから、 上述したように、 第 3の動的パラメ一夕を用いて、 全次数の量子化 L S Pの差 (雑音区間の平均的量子化 L S Pと当該サブフレームにおける量子 化 L S Pとの差) の自乗和だけでなく、 各次数毎の量子化 L S Pの差を求め、 1つの次数においてだけでも差が大きいものが認められた場合は音声区間と 判定するようにしている。
これにより、 雑音区間の平均的量子化 L S Pと当該部所における量子化 L S Pとが非常に近い値を示しており、 かつ当該部所における量子化 L S Pの変動 が非常に小さい場合でも、 より正確にモード判定を行うことができる。
本実施の形態においては、 モ一ド判定の際に第 1から第 3の動的パラメ一夕 をすベて用いてモード判定を行う場合について説明しているが、 本発明におい ては、 第 1の動的パラメ一夕と第 3の動的パラメ一夕を用いてモード判定を行 うようにしても良い。
なお、 符号器側で別途雑音区間を判定するアルゴリズムを備え、 雑音区間と 判定された区間では L S P量子化器の夕一ゲッ トとなる L S Pの平滑化を行 うことにより、 量子化 L S Pの変動が非常に小さくなるようにする構成と組み 合わせて用いれば、 本モード判定の精度をさらに改善することも可能である。
(実施の形態 5 )
本実施の形態では、 モードに応じて適応符号帳探索範囲を設定する場合につ いて説明する。
図 9は、 本実施の形態に係るピッチ探索を行う構成を示すブロック図である c この構成においては、 モード情報に応じて探索範囲を決定する探索範囲決定部 9 0 1と、 決定された探索範囲において夕一ゲットべクトルを用いてピッチ探 索を行うピッチ探索部 9 0 2と、 探索されたピッチを用いて適応符号帳 9 0 3 から適応符号べクトルを生成する適応符号べクトル生成部 9 0 5と、 適応符号 べクトルと夕ーゲッ トべクトルとピッチ情報とを用いて雑音符号帳を探索す る雑音符号帳探索部 9 0 6と、 探索された雑音符号帳べクトルとピッチ情報と を用いて雑音適応符号帳 9 0 4から雑音符号べクトルを生成する雑音符号べ クトル生成部 9 0 7とを含む。
次に、 この構成を用いてピッチ探索を行う場合について説明する。 まず、 実 施の形態 4に記載したようにしてモード判定が行われた後、 モード情報が探索 範囲決定部 9 0 1に入力される。 探索範囲決定部 9 0 1では、 モード情報に基 づいてピッチ探索の範囲を決定する。
具体的には、 定常雑音モード (又は定常雑音モードと無声モード) では、 ピ ツチ探索範囲をサブフレーム長以上 (すなわち、 サブフレーム以上過去に溯る よう) に設定し、 それ以外のモードでは、 ピッチ探索範囲をサブフレーム長以 下も含むようにする。 これにより、 定常雑音区間におけるサブフレーム内で周 期化が起こることを防止する。 本発明者は、 以下の理由によりモード情報に基 づくピッチ探索範囲を限定することが雑音符号帳の構成において好ましいこ とを見出した。
常に固定のピッチ周期化を適用する雑音符号帳を構成する際、 ランダム符号 帳 (雑音的な符号帳) 率を 1 0 0 %に上げても swirling あるいは water falling歪みと呼ばれる類の符号化歪みが強く残ることが確認された。 この swirling 歪みについては、 1 ^えば T . Wigren ら : " Improvements of Background Sound Coding in Linear Predictive Speech Coders " , IEEE Proc . ICASSP ' 95 , pp25-28 など (こ示されてレヽるよう(こ、 短期スぺ クトル (合成フィル夕の周波数特性) の変動が原因であることが知られている。 しかしながら、 ピッチ周期化のモデルは周期性を持たない雑音信号を表現する のには適さないことは明らかであり、 周期化による特有の歪みを生じている可 能性が考えられる。 このため、 雑音符号帳の構成においてピッチ周期化の影響 があるかどうかを調べた。雑音符号べクトルに対するピッチ周期化をなくした 場合、 適応符号ベクトルをオール 0にした場合、 のそれぞれについて試聴した 結果、どちらの場合も swirling歪みのような歪みが残ることが確認された。 また、 適応符号ベクトルをオール 0にし、 かつ雑音符号ベクトルに対するピッ チ周期化処理を外すと、 前記歪みがかなり軽減されることが確認された。 これ らのことから、 1サブフレーム内でのビッチ周期化が少なからず前記歪みの原 因になっていることが確認できた。
そこで、 本発明者は、 まず、 雑音モードにおいては、 適応符号ベクトルの生 成において、 ピッチ周期の探索範囲をサブフレーム長以上の部分のみに限定す るようにした。 これにより、 1サブフレーム内における周期性強調を避けるこ とができる。
なお、 このようなモード情報に応じて適応符号帳の一部のみを使用する制御、 すなわち、 定常雑音モードでピッチ周期の探索範囲を限定する制御を行うと、 デコーダ側で定常雑音モードでピッチ周期が短いことを検出して、 誤りを検出 することも可能である。
図 1 0 ( a ) を用いて説明すると、 モード情報が定常雑音モードである場合 には、 探索範囲はサブフレーム長 (L ) 以上に限定した探索範囲②となり、 モ 一ド情報が定常雑音モード以外のモードである場合には、 探索範囲はサブフレ ーム長未満範囲を含む探索範囲①となる (なお、 図において、 探索範囲の下限 (最も短いピッチラグ) は 0として図示されているが、 8 k H zサンプリング で 0〜2 0サンプル程度の範囲はピッチ周期としては短すぎるため一般的に は探索せず、 1 5〜2 0サンプル以上の範囲を探索範囲①とする) 。 この探索 範囲の切り替えは、 探索範囲決定部 9 0 1において行う。
ピッチ探索部 9 0 2では、 探索範囲決定部 9 0 1で決定した探索範囲におい て、 入力された夕ーゲットべクトルを用いてピッチ探索を行う。 具体的には、 決定されたピッチ探索範囲において、 適応符号帳 9 0 3の中から取り出した適 応符号べクトルにィンパルス応答を畳み込むことにより、 適応符号帳成分を算 出し、 この値と夕ーゲットべクトルとの誤差を最小とする適応符号べクトルを 生成するピッチを抽出する。 適応符号べクトル生成部 9 0 5では、 求められた ピッチによって適応符号べクトルが生成される。
雑音符号帳探索部 9 0 6では、 生成した適応符号べクトル及び夕一ゲットべ クトルを用い、 求められたピッチで雑音符号帳を探索する。 具体的には、 雑音 符号帳探索部 9 0 6は、 雑音符号帳 9 0 4の中から取り出した雑音符号べクト ルにインパルス応答を畳み込むことにより、 雑音符号帳成分を算出し、 この値 と夕ーゲットべクトルとの誤差を最小とする雑音符号べクトルを選び出す。 このように、 本実施の形態では、 定常雑音モード (又は定常雑音モードと無 声モード) において、 探索範囲をサブフレーム長以上に限定することにより、 雑音符号べクトルに対するピッチ周期性を抑制することができ、 雑音符号帳構 成の際のピッチ周期化に起因する特有の歪みの発生を防止することができる。 その結果、 合成される定常雑音信号の自然性を高めることができる。
次に、 ピッチ周期性を抑制する観点から考えると、 定常雑音モード (又は定 常雑音モードと無声モード) で、 ピッチ周期化ゲインを制御して、 すなわち、 定常雑音モードでは、 適応符号ベクトル生成において、 ピッチ周期化ゲインを 0又は 1未満に下げることにより、 適応符号べクトルに対するピッチ周期化 (適応符号ベクトルのピッチ周期性) を抑制することができる。 例えば、 定常 雑音モードにおいては、 図 1 0 ( b ) に示すように、 ピッチ周期化ゲインを 0 としたり、 図 1 0 ( c ) に示すように、 ピッチ周期化ゲインを 1未満に下げる c なお、 図 1 0 ( d ) は一般的な適応符号べクトル生成法である。 図中の T Oは ピッチ周期を示す。
また、 雑音符号ベクトル生成についても同様の制御を行う。 このような制御 は、 図 1 1に示すような構成により実現することができる。 この構成において は、 雑音符号帳 1 1 0 3から雑音符号べクトルを周期化フィル夕 1 1 0 2に入 力し、 周期化ゲイン制御器 1 1 0 1でモード情報に応じて周期化フィル夕 1 1 0 2におけるピッチ周期化ゲインを制御する。
また、 さらに、 一部の雑音符号帳に対してはビツチ周期化を弱くし、 残りの 雑音符号帳に対してはピッチ周期化を強くする構成も有効である。
このような制御は、 図 1 2に示すような構成により実現することができる。 この構成においては、 雑音符号帳 1 2 0 3から雑音符号べクトルを周期化フィ ル夕 1 2 0 1に入力し、 雑音符号帳 1 2 0 4から雑音符号べクトルを周期化フ ィル夕 1 2 0 2に入力し、 周期化ゲイン制御器 1 2 0 6でモード情報に応じて 周期化フィル夕 1 2 0 1, 1 2 0 2におけるピッチ周期化ゲインを制御する。 例えば、 雑音符号帳 1 2 0 3が代数符号帳であり、 雑音符号帳 1 2 0 4がラン ダム符号帳 (例えば、 ガウス符号帳などが挙げられる) である場合には、 代数 符号帳用の周期化フィル夕 1 2 0 1のピッチ周期化ゲインを 1又は 1に近い 値とし、 ランダム符号帳用の周期化フィル夕 1 2 0 2のピッチ周期化ゲインは それより低めの値にする。 どちらか一方の雑音符号帳の出力が雑音符号帳全体 の出力としてスィツチ 1 2 0 5によって選択される。
上記のように、 定常雑音モード (又は定常雑音モードと無声モード) におい て、 探索範囲をサブフレーム長以上に限定することにより、 雑音符号ベクトル に対するピッチ周期性を抑制することができ、 雑音符号帳構成の際のピッチ周 期化による歪みの発生を防止することができる。 その結果、 周期性を持たない 雑音信号のような入力信号に対する符号化性能を改善することができる。 また、 ピッチ周期化ゲインを切り替える場合、 適応符号帳に対しても 2周期 目以降の周期化ゲインも同様とする構成や、 適応符号帳の 2周期目以降はォー ル 0とするして周期化しないようにしても良い。 この場合、 現サブフレームの バッファに用いる信号をオール 0にするか、 周期化ゲインに対応するように信 号振幅を減衰させた現サブフレームの線形予測残差信号をコピーするなどす ることにより、 従来のピッチ探索法そのままでピッチ探索を行うことが可能で ある。
(実施の形態 6 )
本実施の形態では、 モードによりピッチ重み付けを切り替える場合について 説明する。
ピッチ探索時においては、 一般的に倍ピッチ誤り (ピッチ周期の整数倍のピ ツチを選択する誤り) を防止する手法が用いられる。 しかしながら、 周期性の 無い信号に対しては、 この手法が品質劣化を招く要因となる場合がある。 本実 施の形態では、 この倍ピッチ誤りを防止する手法をモードによって 0 N/ 0 F F切換えすることにより、 このような劣化を回避する。
図 1 3は、 本実施の形態に係る重み付け処理部の構成を示す図である。 この 構成においては、 ピッチ候補の選択を行う場合に、 自己相関関数算出器 1 3 0 1からの出力を、 上記実施の形態で選択されたモード情報にしたがって切り替 えて、 重みづけ処理器 1 3 0 2を介して又は直接最大化ピッチ選択器 1 3 0 3 に入力する。 すなわち、 モード情報が定常雑音モードでない場合には、 短いピ ツチが選択されるように、 自己相関関数算出器 1 3 0 1からの出力を重みづけ 処理器 1 3 0 2に入力し、 重みづけ処理器 1 3 0 2において後述する重みづけ 処理を行って、 この出力を最大化ピッチ選択器 1 3 0 3に入力する。 図 1 3に おいて、 参照符号 1 3 0 4, 1 3 0 5は、 モード情報にしたがって自己相関関 数算出器 1 3 0 1からの出力先を切り替えるスィツチである。 図 1 4は、 上記モード情報にしたがって重みづけ処理を行う場合のフロー図 である。 自己相関関数算出器 1 3 0 1において、 残差信号の正規化自己相関関 数 (ピッチ周期) を計算する (S T 1 40 1 ) 。 すなわち、 比較を始めるサン プル時点を設定し (n = Pmax) 、 その時点における自己相関関数の結果を 求める (S T 1 40 2) 。 なお、 この比較を始めるサンプルの時点は、 最も時 間的に後ろの時点である。
次いで、 このサンプル時点における自己相関関数の結果に重みづけしたもの (n c o r_ma ) と、 このサンプルより手前のサンプル時点における 自己相関関数の結果 (n c o r [n— 1 ]) とを比較する (S T 1 403) 。 こ の場合、 重みづけは、 手前のサンプル時点が大きくなるように設定される (ひ ぐ 1 ) 。
そして、 (nc o r [n— 1 ]) が (n c o r一 max xひ) よりも大きけれ ば、 その時点における最大値 (n c o r_max) を n c o r [ n— 1 ]とし、 ピッチを n— 1とする(S T 1 404)。そして、重みづけの値ひに係数ァ (こ こでは例えば 0. 9 94) を乗算し、 nの値を手前のサンプル時点 (n— 1 ) に設定し (S T 1405)、 nが最小値 (Pmi n) であるかどうかを判断す る (S T 1 40 6) 。一方、 (n c o r [n— 1 ]) が(nc o r_max x α) よりも大きくなければ、 重みづけの値ひに係数ァ (0<ァ≤ 1. 0、 ここでは 例えば 0. 9 94) を乗算し、 ηの値を手前のサンプル時点 (η— 1 ) に設定 し (S Τ 140 5)、 ηが最小値 (Pmi n) であるかどうかを判断する (S T 1 4 0 6) 。 この判断は、 最大化ピッチ選択器 1 303において行う。
nが Pmi nであれば、 比較を終了してフレームピッチ周期候補 (p i t ) を出力する。 nが Pmi nでなければ、 S T 1 40 3にもどり、 一連の処理を 繰り返す。
このような重みづけを行うことにより、 すなわちサンプル時点を手前にシフ 卜するにしたがって重みづけ係数 (ひ) を小さくすることにより、 手前のサン プル時点の自己相関関数に対する閾値が小さくなるので、 短い周期が選ばれ易 くなり、 倍ピッチ誤りを回避できる。
図 15は、 重みづけ処理を行なわないでピッチ候補の選択を行う場合のフロ —図である。 自己相関関数算出器 1301において、 残差信号の正規化自己相 関関数 (ピッチ周期) を計算する (ST 1501) 。 すなわち、 比較を始める サンプル時点を設定し (n二 Pmax) 、 その時点における自己相関関数の結 果を求める (ST 1502) 。 なお、 この比較を始めるサンプルの時点は、 最 も時間的に後ろの時点である。
次いで、 このサンプル時点における自己相関関数の結果(nc 0 r_max) と、 このサンプルより手前のサンプル時点における自己相関関数の結果 (nc o r [n— 1 ]) とを比較する (ST 1503) 。
そして、 (nc o r[n— 1 ]) が (nc o r一 max) よりも大きければ、 その時点における最大値 (nc o r_max) を nc o r [ n- 1 ]とし、 ピッ チを n— 1とする(S T 1504)。そして、 ηの値を手前のサンプル時点( η - 1 ) に設定し (ST 1505)、 ηがサブフレーム (N— sub f rame) であるかどうかを判断する (ST 1506) 。 一方、 (nc o r[n— 1 ]) が (nc o r— max)よりも大きくなければ、 nの値を手前のサンプル時点(n - 1) に設定し (ST 1505)、 nがサブフレーム (N— subf rame) であるかどうかを判断する (ST 1506) 。 この判断は、 最大化ピッチ選択 器 1303において行う。
nがサブフレーム (N_sub f rame) であれば、 比較を終了してフレ ームピッチ周期候補 (p i t) を出力する。 nがサブフレーム (N— subf r ame) でなければ、 サンプル時点を手前にずらした上で S T 1503にも どり、 一連の処理を繰り返す。
このように、 サブフレーム内でのピッチ周期化が起こらない範囲でピッチ探 索を行うことおよび短いピツチに優先度を持たせないようにすることにより、 定常雑音モードにおける品質劣化を抑えることが可能となる。 上記ピッチ周期 候補の選択においては、 すべてのサンプル時点について比較を行って最大値を 選択するようにしているが、 本発明においては、 サンプル時点を少なくとも 2 つのレンジに分割し、 そのレンジにおいてそれそれ最大値を求めた後に、 その 最大値間で比較を行うようにしても良い。 また、 ピッチの探索順序はピッチ周 期の短い方から順にしても良い。
(実施の形態 7 )
本実施の形態においては、 上記実施の形態において選択したモード情報にし たがって適応符号帳の使用の有無を切り替える場合について説明する。 すなわ ち、 モード情報が定常雑音モード (又は定常雑音モードと無声モード) では、 適応符号帳を使用しないように切り替える。
図 1 6は、 本実施の形態に係る音声符号化装置の構成を示すプロック図であ る。 図 1 6において、 図 1に示す部分と同じ部分については、 図 1と同一の符 号を付してその詳細な説明は省略する。
図 1 6に示す音声符号化装置は、 定常雑音モードの際に使用する雑音符号帳
1 6 0 2と、 この雑音符号帳 1 6 0 2に対するゲイン符号帳 1 6 0 1と、 雑音 符号帳 1 6 0 2からの雑音符号べク トルにゲインを乗算する乗算器 1 6 0 3 と、 モード選択器 1 0 5からのモード情報にしたがって符号帳の切り替えを行 うスィッチ 1 6 0 4と、 符号を多重化して多重化符号を出力する多重化装置 1
6 0 5とを有する。
上記構成を有する音声符号化装置においては、 モード選択器 1 0 5からのモ ード情報にしたがってスィッチ 1 6 0 4が適応符号帳 1 1 0及び雑音符号帳 1 0 9の組み合わせと、 雑音符号帳 1 6 0 2とを切り替える。 すなわち、 雑音 符号帳 1 0 9用の符号 S 1, 適応符号帳 1 1 0用の符号 P , 及びゲイン符号帳 1 1 1用の符号 G 1の組み合わせと、 雑音符号帳 1 6 0 2用の符号 S 2及びゲ イン符号帳 1 6 0 1用の符号 G 2の組み合わせとをモード選択器 1 0 5から 出力されたモード情報 Mにより切り替える。
モード選択器 1 0 5で定常雑音モード (定常雑音モ一ドと無声モード) の情 報が出力された時には、 スィッチ 1 6 0 4は、 雑音符号帳 1 6 0 2に切り替え、 適応符号帳を使用しない。 一方、 モード選択器 1 0 5で定常雑音モード (定常 雑音モードと無声モード) 以外のモードの情報が出力された時には、 スィッチ
1 6 0 4は、 雑音符号帳 1 0 9及び適応符号帳 1 1 0に切り替える。
雑音符号帳 1 0 9用の符号 S 1 , 適応符号帳 1 1 0用の符号 P , ゲイン符号 帳 1 1 1用の符号, 雑音符号帳 1 6 0 2用の符号 S 2及びゲイン符号帳 1 6 0 1用の符号 G 2は、 一旦多重化装置 1 6 0 5に入力される。 多重化装置 1 6 0 5は、 上述したようにモード情報 Mにより上述したいずれかの組み合わせを選 択して、 選択された組み合わせの符号を多重した多重化符号 Cを出力する。 図 1 7は、 本実施の形態に係る音声復号化装置の構成を示すブロック図であ る。 図 1 7において、 図 2に示す部分と同じ部分については、 図 2と同一の符 号を付してその詳細な説明は省略する。
図 1 7に示す音声復号化装置は、 定常雑音モードの際に使用する雑音符号帳
1 7 0 2と、 この雑音符号帳 1 7 0 2に対するゲイン符号帳 1 7 0 1と、 雑音 符号帳 1 Ί 0 2からの雑音符号べク トルにゲインを乗算する乗算器 1 7 0 3 と、 モード選択器 2 0 2からのモード情報にしたがって符号帳の切り替えを行 ぅスィツチ 1 7 0 4と、 多重化符号を分離する多重分離装置 1 7 0 5とを有す る。
上記構成を有する音声復号化装置においては、 モード選択器 2 0 2からのモ 一ド情報にしたがってスィツチ 1 7 0 4が適応符号帳 2 0 4及び雑音符号帳 2 0 3の組み合わせと、 雑音符号帳 1 7 0 2とを切り替える。 すなわち、 多重 化符号 Cが多重分離装置 1 7 0 5に入力され、 最初にモード情報が分離 ·復号 され、 復号されたモード情報にしたがって、 G l, P , S Iの符号セット又は G 2 , S 2の符号セットのいずれかが分離 ·復号される。 符号 G 1はゲイン符 号帳 2 0 5に出力され、 符号 Pは適応符号帳 2 0 4に出力され、 符号 S 1は雑 音符号帳 2 0 3に出力される。 また、 符号 S 2は雑音符号帳 1 7 0 2に出力さ れ、 符号 G 2はゲイン符号帳 1 Ί 0 1に出力される。
モード選択器 2 0 2で定常雑音モード (定常雑音モードと無声モード) の情 報が出力された時には、 スィツチ 1 7 0 4は、 雑音符号帳 1 Ί 0 2に切り替え、 適応符号帳を使用しない。 一方、 モード選択器 2 0 2で定常雑音モード (定常 雑音モードと無声モード) 以外のモードの情報が出力された時には、 スィッチ 1 7 0 4は、 雑音符号帳 2 0 3及び適応符号帳 2 0 4に切り替える。
これらのように、 モード情報にしたがって、 適応符号帳の使用の有無を切り 替えることにより、 入力 (音声) 信号の状態に応じて適切な音源モデルが選択 されるので、 復号信号の品質を改善することができる。
(実施の形態 8 )
本実施の形態においては、 モード情報にしたがって擬似定常雑音生成器を用 いる場合について説明する。
定常雑音の音源としては、 できるだけ白色ガウス雑音のような音源を用いる ことが望ましいが、 音源としてパルス音源を用いる場合には、 合成フィル夕を 通すと望ましい定常雑音を得ることができない。 そこで、 本実施の形態では、 白色ガウス雑音のような音源を生成する音源生成部と、 定常雑音のスぺクトル 包絡を表す L S P合成フィル夕とで構成される定常雑音生成器を提供する。 こ の定常雑音生成器で生成される定常雑音は、 C E L Pの構成では表すことがで きないので、 上記構成の定常雑音生成器をモデル化して音声復号化装置に備え るようにする。 そして、 この定常雑音生成器で生成された定常雑音信号を音声 区間 Z非音声区間に拘わらず復号信号に重畳する。
なお、 この定常雑音信号を復号信号に重畳する場合において、 常に固定の聴 覚重み付けがなされているときは、 雑音区間について雑音レベルが小さくなる 傾向があるので、 この定常雑音信号を復号信号に重畳しても雑音レベルが大き くなりすぎない様に調整することが可能である。
また、 本実施の形態では、 C E L P型復号化装置の構成要素となっている雑 音符号帳から、 ランダムにベクトルを選択してくることによって雑音駆動音源 ベクトルを生成し、 生成した雑音駆動音源ベクトルを駆動信号として、 定常雑 音区間の平均 L S Pによって特定される L P C合成フィル夕で定常雑音信号 を生成する。 生成された定常雑音信号は、 定常雑音区間の平均的パヮを定数倍 (0. 5倍前後) したパヮにスケーリングされて、 復号信号 (ポストフィルタ 出力信号) に加算される。 定常雑音加算後の信号パヮを定常雑音加算前の信号 パヮに合わせるために、 加算後の信号に対してスケ一リング処理を行っても良 い。
図 18は、 本実施の形態に係る音声復号化装置の構成を示すブロック図であ る。 ここで、 定常雑音生成器 1801は、 雑音区間の平均 LSPを LP Cに変 換する LP C変換器 1812と、 雑音符号帳 1804におけるランダム符号帳 1804 aからのランダム信号を入力して雑音を生成する雑音生成器 18 1 4と、 生成した雑音信号で駆動される合成フィル夕 1813と、 モード判定器 1802で判定されたモードに基づいて定常雑音のパヮを算出する定常雑音 パヮ算出器 1815と、 合成フィル夕 1813で合成された雑音信号に定常雑 音のパヮを乗算してスケーリングを行う乗算器 1816とを有する。
このような擬似定常雑音生成器を備えた音声復号化装置においては、 符号器 から伝送された L SP符号 Lと雑音符号べク トルを表現する符号帳ィンデッ クス Sと適応符号べクトルを表現する符号帳ィンデックス Aとゲイン情報を 表現する符号帳インデックス Gとが、 それそれ LPC復号器 1803と雑音符 号帳 1804と適応符号帳 1805とゲイン符号帳とに入力される。
!^3 復号器1803は、 L SP符号 Lから量子化 L SPを復号し、 モード 判定器 1802と LP C変換器 1809に夫々出力する。
モード判定器 1802は、 図 19に示す構成を有しており、 モード決定器 1 901では、 L SP復号器 1803から入力した量子化 L SPを用いてモード を決定し、 そのモード情報を雑音符号帳 1804及び LP C変換器 1809に 送る。 また、 平均 LSP算出器制御器 1902において、 モード決定器 190 1で決定されたモード情報に基づいて平均 L SP算出器 1903を制御する。 すなわち、 平均 LSP算出器制御器 1902は、 定常雑音モードにおいて、 現 在の量子化 L S P及び過去の量子化 L S Pから雑音区間の平均 L S Pを算出 するように平均 L S P算出器 1 9 0 2を制御する。 この雑音区間の平均 L S P は、 L P C変換器 1 8 1 2に出力されると共に、 モード決定器 1 9 0 1に出力 される。
雑音符号帳 1 8 0 4は、 予め定められた個数の形状の異なる雑音符号べクト ルが格納されており、 入力した符号 Sを復号して得られる雑音符号帳インデッ クスによって指定される雑音符号ベクトルを出力する。 また、 この雑音符号帳 1 8 0 4は、 ランダム符号帳 1 8 0 4 aと代数符号帳である部分的代数符号帳 1 8 0 4 bとを有しており、 例えば有声音声部に対応するモードでは、 部分的 代数符号帳 1 8 0 4 bから、 よりパルス的な雑音符号ベクトルを生成し、 無声 音声部や定常雑音部などに対応するモードでは、 ランダム符号帳 1 8 0 4 aか ら、 より雑音的な雑音符号べクトルを生成するような構造となっている。 モード判定器 1 8 0 2の判定結果により、 ランダム符号帳 1 8 0 4 aのェン トリ数と部分的代数符号帳 1 8 0 4 bのェントリ数との比率が切換えられる。 雑音符号帳 1 8 0 4から出力される雑音符号べクトルは、 前記 2種類以上のモ —ドのエントリの中から最適なものが選択され、 乗算器 1 8 0 6で雑音符号帳 ゲイン Gが乗じられた後に加算器 1 8 0 8に出力される。
適応符号帳 1 8 0 5は、 過去に生成した駆動音源信号を逐次更新しながらバ ッファリングしており、 入力した符号 Pを復号して得られる適応符号帳インデ ックス (ピッチ周期 (ピッチラグ) ) を用いて適応符号ベクトルを生成する。 適応符号帳 1 8 0 5にて生成された適応符号べクトルは、 乗算器 1 8 0 7で適 応符号帳ゲイン Gが乗じられた後に加算器 1 8 0 8に出力される。
加算器 1 8 0 8は、 乗算器 1 8 0 6及び 1 8 0 7から入力される雑音符号べ クトルと適応符号べクトルの加算を行って駆動音源信号を生成し、 合成フィル 夕 1 8 1 0に出力する。
合成フィル夕 1 8 1 0は、 入力した量子化 L P Cを用いて L P C合成フィル 夕を構築する。 この合成フィル夕に対して加算器 1 8 0 8から出力される駆動 音源信号を入力としてフィルタ処理を行って合成信号をボストフィル夕 1 8 1 1に出力する。
ポストフィル夕 1 8 1 1は、 合成フィル夕 1 8 1 0から入力した合成信号に 対して、 ピッチ強調、 ホルマント強調、 スペクトル傾斜補正、 ゲイン調整など の音声信号の主観的品質を改善させるための処理を行う。
一方、 モード判定器 1 8 0 2から出力された雑音区間の平均 L S Pは、 定常 雑音生成器 1 8 0 1の L P C変換器 1 8 1 2に入力され、 そこで L P Cに変換 される。 この L P Cは、 合成フィル夕 1 8 1 3に入力される。
雑音生成器 1 8 1 4は、 ランダム符号帳 1 8 0 4 aからランダムにランダム べクトルを選択し、 選択したべクトルを用いて雑音信号を生成する。 合成フィ ル夕 1 8 1 3は、 雑音生成器 1 8 1 4で生成された雑音信号により駆動される c 合成された雑音信号は、 乗算器 1 8 1 6に出力される。
定常雑音パヮ算出器 1 8 1 5は、 モード判定器 1 8 0 2から出力されるモー ド情報と、 ポストフィル夕 1 8 1 1から出力される信号のパヮ変化の情報を用 いて、 確実な定常雑音区間を判定する。 確実な定常雑音区間とは、 前記モード 情報が非音声区間 (定常雑音区間) を示していて、 かつ、 前記パヮ変化が少な い区間のことである。 前記モード情報が定常雑音区間を示していても、 前記パ ヮ変化が大きく上昇する場合は音声の立ち上がり部である可能性があるため 音声区間として扱う。 そして、 定常雑音区間と判定された区間の平均的パヮを 算出する。 さらに、 復号音声信号に重畳する定常雑音信号のパヮが大きくなり すぎないように、 前記平均的パヮに一定の係数を乗じたパヮが得られるように、 乗算器 1 8 1 6において合成フィル夕 1 8 1 3からの出力信号に乗ずべきス ケ一リング係数を求める。 乗算器 1 8 1 6では、 定常雑音パヮ算出器 1 8 1 5 から出力されるスケーリング係数により、 合成フィル夕 1 8 1 3から出力され た雑音信号がスケーリングされる。 このスケーリングされた雑音信号は、 加算 器 1 8 1 7に出力される。 加算器 1 8 1 7では、 上述したボストフィルタ 1 8 1 1からの出力にスケーリングされた雑音信号が重畳され、 復号音声が得られ る。 上記構成の音声復号化装置では、 音源をランダムに生成するフィル夕駆動型 の擬似定常雑音生成器 1 8 0 1を用いているので、 同じ合成フィル夕、 同じパ ヮ情報を繰り返して使用しても、 セグメント間の不連続性に起因するブザー音 的なノイズが発生せず、 自然なノイズを生成することが可能である。
本発明は上記実施の形態 1から 8に限定されず、 種々変更して実施すること が可能である。 例えば、 上記実施の形態 1から 8は適宜組み合わせて実施する ことが可能である。 また、 本発明の定常雑音生成器はいかなるタイプの復号器 に対しても適用可能であり、 必要に応じて、 雑音区間の平均 L S Pを供給する 手段と、 雑音区間 (モード情報) を判定する手段と、 適当な雑音生成器 (また は適当なランダム符号帳) と、 雑音区間の平均パヮ (平均エネルギー) を供給
(算出) する手段と、 を設ければ良い。
本発明のマルチモード音声符号化装置は、 音声信号に含まれる声道情報を表 す少なくとも 1種類以上のパラメ一夕を符号化する第 1符号化部と、 前記音声 信号に含まれる音源情報を表す少なくとも 1種類以上のパラメ一夕を幾つか のモードで符号化可能な第 2符号化部と、 前記第 1符号化部で符号化された特 定パラメ一夕の動的特徴に基づいて前記第 2符号化部のモードを判定するモ ード判定部と、 前記第 1及び第 2符号化部によって符号化された複数種類のパ ラメ一夕情報によって入力音声信号を合成する合成部と、 を具備し、
前記モード切替部は、 量子化 L S Pパラメ一夕のフレーム間変化を算出する 算出部と、 量子化 L S Pパラメ一夕が定常的であるフレームにおける平均的量 子化 L S Pパラメ一夕を算出する算出部と、 前記平均的量子化 L S Pパラメ一 夕と現在の量子化 L S Pパラメ一夕との距離を算出し、 特定の次数の量子化 L S Pパラメ一夕と前記平均的量子化 L S Pパラメ一夕との間の所定量の差を 検出する検出部と、 を有する構成を採る。
この構成によれば、 特定の次数の量子化 L S Pパラメ一夕と平均的量子化 L S Pパラメ一夕との間の所定量の差を検出するので、 平均化した結果について 判定した場合に音声区間と判定されなくなってしまうときでも、 正確に音声区 間と判定することができる。 これにより、 雑音区間の平均的量子化 L S Pと当 該部所における量子化 L S Pとが非常に近い値を示しており、 かつ当該部所に おける量子化 L S Pの変動が非常に小さい場合でも、 正確にモ一ド判定を行う ことができる。
本発明のマルチモード音声符号化装置は、 上記構成において、 モードが定常 雑音モードである場合に、 ピッチ周期の探索範囲をサブフレーム長以上のみに 限定する探索範囲決定手段を具備する構成を採る。
この構成によれば、 定常雑音モード (又は定常雑音モードと無声モード) に おいて、 探索範囲をサブフレーム長以上に限定することにより、 雑音符号べク トルに対するピッチ周期性を抑制することができ、 復号音声信号に生じるピッ チ周期化モデルに起因する符号化歪みを防止することができる。
本発明のマルチモード音声符号化装置は、 上記構成において、 符号帳を用い てピッチ周期を決定する際に、 モードに応じてビッチ周期化利得を制御するピ ッチ周期化利得制御部を具備する構成を採る。
この構成によれば、 1サブフレーム内における周期性強調を避けることがで きる。 これにより、 適応符号ベクトル生成の際に生じるピッチ周期化モデルに 起因する符号化歪みを防止することができる。
本発明のマルチモード音声符号化装置は、 上記構成において、 ピッチ周期化 利得制御部が、 雑音符号帳毎に利得を制御する構成を採る。
この構成によれば、 定常雑音モード (又は定常雑音モードと無声モード) に おいて、 雑音符号帳毎に利得を変えることにより、 雑音符号ベクトルに対する ピッチ周期性を抑制することができ、 雑音符号べクトル生成の際に生じるピッ チ周期化モデルに起因する符号化歪みを防止することができる。
本発明のマルチモード音声符号化装置は、 上記構成において、 ピッチ周期化 利得制御部が、 モードが定常雑音モードである場合に、 ピッチ周期化利得を下 げる構成を採る。
本発明のマルチモード音声符号化装置は、 上記構成において、 ピッチ周期の 探索時において、 入力音声の残差信号の自己相関関数を求める自己相関関数算 出部と、 自己相関関数の結果に対してモードに応じて重みづけ処理を行う重み づけ処理部と、 重みづけ処理された自己相関関数の結果を用いてピッチ候補を 選択する選択部と、 を具備する構成を採る。
この構成によれば、 ピッチ構造を持たない信号に対する復号音声信号の品質 劣化を回避することができる。
本発明のマルチモード音声復号化装置は、 音声信号に含まれる声道情報を表 す少なくとも 1種類以上のパラメ一夕を復号化する第 1復号化部と、 前記音声 信号に含まれる音源情報を表す少なくとも 1種類以上のパラメ一夕を幾つか の符号化モードで復号化可能な第 2復号化部と、 前記第 1復号化部で復号化さ れた特定パラメ一夕の動的特徴に基づいて前記第 2復号化部のモードの判定 を行うモード判定部と、 前記第 1及び第 2復号化部によつて復号化された複数 種類のパラメ一夕情報によって音声信号を復号する合成部と、 を具備し、 前記モード切替部は、 量子化 L S Pパラメ一夕のフレーム間変化を算出する 算出部と、 量子化 L S Pパラメ一夕が定常的であるフレームにおける平均的量 子化 L S Pパラメ一夕を算出する算出部と、 前記平均的量子化 L S Pパラメ一 夕と現在の量子化 L S Pパラメ一夕との距離を算出し、 特定の次数の量子化 L S Pパラメ一夕と前記平均的量子化 L S Pパラメ一夕との間の所定量の差を 検出する検出部と、 を有する構成を採る。
この構成によれば、 特定の次数の量子化 L S Pパラメ一夕と平均的量子化 L S Pパラメ一夕との間の所定量の差を検出するので、 平均化した結果について 判定した場合に音声区間と判定されなくなってしまうときでも、 正確に音声区 間と判定することができる。 これにより、 雑音区間の平均的量子化 L S Pと当 該部所における量子化 L S Pとが非常に近い値を示しており、 かつ当該部所に おける量子化 L S Pの変動が非常に小さい場合でも、 正確にモード判定を行う ことができる。
本発明のマルチモード音声復号化装置は、 上記構成において、 モード判定部 で判定されたモードが定常雑音モードである場合に、 雑音区間の平均 L S Pパ ラメ一夕を出力し、 かつ、 前記平均 LSPパラメ一夕から求められた LP Cパ ラメ一夕で構築された合成フィル夕を雑音符号帳から取得したランダム信号 で駆動させることにより定常雑音を生成する定常雑音生成部を具備する構成 を採る。
この構成によれば、 音源をランダムに生成するフィル夕駆動型の擬似定常雑 音生成器 1801を用いているので、 同じ合成フィル夕、 同じパヮ情報を繰り 返して使用しても、 セグメント間の不連続性に起因するブザー音的なノイズが 発生せず、 自然なノイズを生成することが可能である。
以上説明したように、 本発明によれば、 モード判定において、 第 3の動的パ ラメ一夕を用いて最大値でしきい値判定を行うので、 ほとんどの結果がしきい 値を超えなく、 1つや 2つの結果がしきい値を超える場合においても、 正確に 音声区間と判定することができる。
本明細書は、 2000年 1月 1 1日出願の特願 2000— 002874に基 づく。 この内容はすべてここに含めておく。 また、 本発明は、 LSPのフレー ム間変化と、 求められた LSPと過去の雑音区間 (定常区間) における平均 L S Pとの間の距離と、 を用いて定常雑音区間を判定するモード判定器を基本構 成としている。 この内容は、 1998年 8月 2 1日出願の特願平 10— 236 147号及び 1 998年 9月 21日出願の特願平 10— 266883号に基 づく。 これらの内容もすベてここに含めておく。 産業上の利用可能性
本発明は、 ディジタル移動通信システムなどにおける低ビットレート音声符 号化装置、 特に音声信号を声道情報と音源情報とに分離して表現するような C ELP型音声符号化装置などに適用することができる。

Claims

請求の範囲
1 . 音声信号に含まれる声道情報を表す少なくとも 1種類以上のパラメ一夕を 復号化する第 1復号化手段と、 前記音声信号に含まれる音源倩報を表す少なく とも 1種類以上のパラメ一夕を幾つかの符号化モードで復号化可能な第 2復 号化手段と、 前記第 1復号化手段で復号化された特定パラメ一夕の動的特徴に 基づいてモードの判定を行うモード判定手段と、 前記第 1及び第 2復号化手段 によって復号化された複数種類のパラメ一夕情報によって音声信号を復号す る合成手段と、 を具備し、
前記モード判定手段は、 量子化 L S Pパラメ一夕のフレーム間変化を算出す る手段と、 量子化 L S Pパラメ一夕が定常的であるフレームにおける平均的量 子化 L S Pパラメ一夕を算出する手段と、 前記平均的量子化 L S Pパラメ一夕 と現在の量子化 L S Pパラメ一夕との距離を算出し、 特定の次数の量子化 L S Pパラメ一夕と前記平均的量子化 L S Pパラメ一夕との間の所定量の差を検 出する手段と、 を有するマルチモード音声復号化装置。
2 . モード判定手段においてモードが定常雑音モードである場合に、 雑音区間 の平均 L S Pパラメ一夕を出力し、 かつ、 前記平均 L S Pパラメ一夕から求め られた L P Cパラメ一夕で構築された合成フィル夕を雑音符号帳から取得し たランダム信号で駆動させることにより定常雑音を生成する定常雑音生成手 段を具備する請求項 1記載のマルチモード音声復号化装置。
3 . 音声信号に含まれる声道情報を表す少なくとも 1種類以上のパラメ一夕を 復号化する第 1復号化手段と、 前記音声信号に含まれる音源情報を表す少なく とも 1種類以上のパラメ一夕を幾つかの符号化モードで復号化可能な第 2復 号化手段と、 前記第 1復号化手段で復号化された特定パラメ一夕の動的特徴に 基づいてモードの判定を行うモード判定手段と、 を具備するモ一ド判定装置。
4 . 量子化 L S Pパラメ一夕のフレーム間変化を算出する手段と、 量子化 L S Pパラメ一夕が定常的であるフレームにおける平均的量子化 L S Pパラメ一 夕を算出する手段と、 前記平均的量子化 L S Pパラメ一夕と現在の量子化 L S Pパラメ一夕との距離を算出し、 特定の次数の量子化 L S Pパラメ一夕と前記 平均的量子化 L S Pパラメ一夕との間の所定量の差を検出する手段と、 を有す る請求項 3記載のモード判定装置。
5 . 雑音音源を生成する音源生成手段と、 定常雑音のスペクトル包絡を表す L S P合成フィル夕と、 を具備し、 請求項 4記載のモード判定装置で判定された モード情報を用いる定常雑音生成装置。
6 . 音源生成手段は、 雑音符号帳からランダムに選択したベクトルから雑音駆 動音源べクトルを生成する請求項 5記載の定常雑音生成装置。
7 . 音声信号に含まれる声道情報を表す少なくとも 1種類以上のパラメ一夕を 符号化する第 1符号化手段と、 前記音声信号に含まれる音源情報を表す少なく とも 1種類以上のパラメ一夕を幾つかのモードで符号化可能な第 2符号化手 段と、 前記第 1符号化手段で符号化された特定パラメ一夕の動的特徴に基づい て前記第 2符号化手段のモードを判定するモード判定手段と、 前記第 1及び第 2符号化手段によって符号化された複数種類のパラメ一夕情報によって入力 音声信号を合成する合成手段と、 を具備し、
前記モードの切り替え手段は、 量子化 L S Pパラメ一夕のフレーム間変化を 算出する手段と、 量子化 L S Pパラメ一夕が定常的であるフレームにおける平 均的量子化 L S Pパラメ一夕を算出する手段と、 前記平均的量子化 L S Pパラ メ一夕と現在の量子化 L S Pパラメ一夕との距離を算出し、 特定の次数の量子 化 L S Pパラメ一夕と前記平均的量子化 L S Pパラメ一夕との間の所定量の 差を検出する手段と、 を有するマルチモード音声符号化装置。
8 . モードが定常雑音モードである場合に、 ピッチ周期の探索範囲をサブフレ ーム長以上の範囲に設定する探索範囲決定手段を具備する請求項 7記載の音 声符号化装置。
9 . 符号帳を用いてピッチ周期を決定する際において、 モードに応じてピッチ 周期化利得を制御するピツチ周期化利得制御手段を具備する請求項 7記載の 音声符号化装置。
1 0 . ピッチ周期化利得制御手段は、 符号帳毎に利得を制御する請求項 9記載 の音声符号化装置。
1 1 . ピッチ周期化利得制御手段は、 モードが定常雑音モードである場合に、 ピッチ周期化利得を下げる請求項 9記載の音声符号化装置。
1 2 . ピッチ周期の探索時において、 入力音声の残差信号の自己相関関数を求 める自己相関関数算出手段と、 自己相関関数の結果に対してモードに応じて重 みづけ処理を行う重みづけ処理手段と、 重みづけ処理された自己相関関数の結 果を用いてピッチ候補を選択する選択手段と、 を具備する請求項 7記載の音声 符号化装置。
PCT/JP2001/000062 2000-01-11 2001-01-10 Multi-mode voice encoding device and decoding device WO2001052241A1 (en)

Priority Applications (4)

Application Number Priority Date Filing Date Title
US09/914,916 US7167828B2 (en) 2000-01-11 2001-01-10 Multimode speech coding apparatus and decoding apparatus
AU25472/01A AU2547201A (en) 2000-01-11 2001-01-10 Multi-mode voice encoding device and decoding device
EP01900640.2A EP1164580B1 (en) 2000-01-11 2001-01-10 Multi-mode voice encoding device and decoding device
US11/637,128 US7577567B2 (en) 2000-01-11 2006-12-12 Multimode speech coding apparatus and decoding apparatus

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
JP2000002874 2000-01-11
JP2000-2874 2000-01-11

Publications (1)

Publication Number Publication Date
WO2001052241A1 true WO2001052241A1 (en) 2001-07-19

Family

ID=18531921

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/JP2001/000062 WO2001052241A1 (en) 2000-01-11 2001-01-10 Multi-mode voice encoding device and decoding device

Country Status (5)

Country Link
US (2) US7167828B2 (ja)
EP (1) EP1164580B1 (ja)
CN (1) CN1187735C (ja)
AU (1) AU2547201A (ja)
WO (1) WO2001052241A1 (ja)

Families Citing this family (43)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2001052241A1 (en) * 2000-01-11 2001-07-19 Matsushita Electric Industrial Co., Ltd. Multi-mode voice encoding device and decoding device
ATE420432T1 (de) * 2000-04-24 2009-01-15 Qualcomm Inc Verfahren und vorrichtung zur prädiktiven quantisierung von stimmhaften sprachsignalen
CA2388352A1 (en) * 2002-05-31 2003-11-30 Voiceage Corporation A method and device for frequency-selective pitch enhancement of synthesized speed
FR2867649A1 (fr) * 2003-12-10 2005-09-16 France Telecom Procede de codage multiple optimise
CN1989548B (zh) * 2004-07-20 2010-12-08 松下电器产业株式会社 语音解码装置及补偿帧生成方法
CN101185124B (zh) * 2005-04-01 2012-01-11 高通股份有限公司 用于语音信号的分割频带编码的方法和设备
NZ562182A (en) * 2005-04-01 2010-03-26 Qualcomm Inc Method and apparatus for anti-sparseness filtering of a bandwidth extended speech prediction excitation signal
DK1875463T3 (en) * 2005-04-22 2019-01-28 Qualcomm Inc SYSTEMS, PROCEDURES AND APPARATUS FOR AMPLIFIER FACTOR GLOSSARY
US7177804B2 (en) * 2005-05-31 2007-02-13 Microsoft Corporation Sub-band voice codec with multi-stage codebooks and redundant coding
US8725499B2 (en) * 2006-07-31 2014-05-13 Qualcomm Incorporated Systems, methods, and apparatus for signal change detection
US8006155B2 (en) * 2007-01-09 2011-08-23 International Business Machines Corporation Testing an operation of integrated circuitry
JP5596341B2 (ja) * 2007-03-02 2014-09-24 パナソニック インテレクチュアル プロパティ コーポレーション オブ アメリカ 音声符号化装置および音声符号化方法
CN101622667B (zh) * 2007-03-02 2012-08-15 艾利森电话股份有限公司 用于分层编解码器的后置滤波器
CN101266798B (zh) * 2007-03-12 2011-06-15 华为技术有限公司 一种在语音解码器中进行增益平滑的方法及装置
US8768690B2 (en) * 2008-06-20 2014-07-01 Qualcomm Incorporated Coding scheme selection for low-bit-rate applications
US20090319263A1 (en) * 2008-06-20 2009-12-24 Qualcomm Incorporated Coding of transitional speech frames for low-bit-rate applications
US20090319261A1 (en) * 2008-06-20 2009-12-24 Qualcomm Incorporated Coding of transitional speech frames for low-bit-rate applications
KR20100006492A (ko) 2008-07-09 2010-01-19 삼성전자주식회사 부호화 방식 결정 방법 및 장치
GB2466673B (en) 2009-01-06 2012-11-07 Skype Quantization
GB2466670B (en) * 2009-01-06 2012-11-14 Skype Speech encoding
GB2466674B (en) * 2009-01-06 2013-11-13 Skype Speech coding
GB2466671B (en) * 2009-01-06 2013-03-27 Skype Speech encoding
GB2466669B (en) 2009-01-06 2013-03-06 Skype Speech coding
GB2466672B (en) * 2009-01-06 2013-03-13 Skype Speech coding
GB2466675B (en) 2009-01-06 2013-03-06 Skype Speech coding
CN101859568B (zh) * 2009-04-10 2012-05-30 比亚迪股份有限公司 一种语音背景噪声的消除方法和装置
CN101615910B (zh) 2009-05-31 2010-12-22 华为技术有限公司 压缩编码的方法、装置和设备以及压缩解码方法
US8452606B2 (en) * 2009-09-29 2013-05-28 Skype Speech encoding using multiple bit rates
PL2471061T3 (pl) 2009-10-08 2014-03-31 Fraunhofer Ges Forschung Działający w wielu trybach dekoder sygnału audio, działający w wielu trybach koder sygnału audio, sposoby i program komputerowy stosujące kształtowanie szumu oparte o kodowanie z wykorzystaniem predykcji liniowej
KR101381272B1 (ko) * 2010-01-08 2014-04-07 니뽄 덴신 덴와 가부시키가이샤 부호화 방법, 복호 방법, 부호화 장치, 복호 장치, 프로그램 및 기록 매체
KR101702561B1 (ko) * 2010-08-30 2017-02-03 삼성전자 주식회사 음원출력장치 및 이를 제어하는 방법
JP6178305B2 (ja) 2011-04-21 2017-08-09 サムスン エレクトロニクス カンパニー リミテッド 量子化方法
CA2833868C (en) * 2011-04-21 2019-08-20 Samsung Electronics Co., Ltd. Apparatus for quantizing linear predictive coding coefficients, sound encoding apparatus, apparatus for de-quantizing linear predictive coding coefficients, sound decoding apparatus, and electronic device therefor
CN104221287B (zh) * 2012-03-29 2017-05-31 瑞典爱立信有限公司 矢量量化器
CN107945813B (zh) 2012-08-29 2021-10-26 日本电信电话株式会社 解码方法、解码装置、和计算机可读取的记录介质
EP2720222A1 (en) * 2012-10-10 2014-04-16 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Apparatus and method for efficient synthesis of sinusoids and sweeps by employing spectral patterns
TWI615834B (zh) * 2013-05-31 2018-02-21 Sony Corp 編碼裝置及方法、解碼裝置及方法、以及程式
US20150025894A1 (en) * 2013-07-16 2015-01-22 Electronics And Telecommunications Research Institute Method for encoding and decoding of multi channel audio signal, encoder and decoder
TWI557726B (zh) * 2013-08-29 2016-11-11 杜比國際公司 用於決定音頻信號的高頻帶信號的主比例因子頻帶表之系統和方法
US9135923B1 (en) * 2014-03-17 2015-09-15 Chengjun Julian Chen Pitch synchronous speech coding based on timbre vectors
ES2911527T3 (es) 2014-05-01 2022-05-19 Nippon Telegraph & Telephone Dispositivo de descodificación de señales de sonido, método de descodificación de señales de sonido, programa y soporte de registro
KR101883817B1 (ko) * 2014-05-01 2018-07-31 니폰 덴신 덴와 가부시끼가이샤 부호화 장치, 복호 장치 및 그 방법, 프로그램, 기록 매체
US11270719B2 (en) * 2017-12-01 2022-03-08 Nippon Telegraph And Telephone Corporation Pitch enhancement apparatus, pitch enhancement method, and program

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH06131000A (ja) * 1992-10-15 1994-05-13 Nec Corp 基本周期符号化装置
JPH08185199A (ja) * 1995-01-05 1996-07-16 Nec Corp 音声符号化装置
JPH09152896A (ja) * 1995-11-30 1997-06-10 Oki Electric Ind Co Ltd 声道予測係数符号化・復号化回路、声道予測係数符号化回路、声道予測係数復号化回路、音声符号化装置及び音声復号化装置
JPH09179593A (ja) * 1995-12-26 1997-07-11 Nec Corp 音声符号化装置
JPH11119798A (ja) * 1997-10-17 1999-04-30 Sony Corp 音声符号化方法及び装置、並びに音声復号化方法及び装置
JP2000163096A (ja) * 1998-11-27 2000-06-16 Nec Corp 音声符号化方法及び音声符号化装置

Family Cites Families (17)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
IL84948A0 (en) * 1987-12-25 1988-06-30 D S P Group Israel Ltd Noise reduction system
EP0422232B1 (en) * 1989-04-25 1996-11-13 Kabushiki Kaisha Toshiba Voice encoder
US5060269A (en) * 1989-05-18 1991-10-22 General Electric Company Hybrid switched multi-pulse/stochastic speech coding technique
US5734789A (en) * 1992-06-01 1998-03-31 Hughes Electronics Voiced, unvoiced or noise modes in a CELP vocoder
JPH06180948A (ja) * 1992-12-11 1994-06-28 Sony Corp ディジタル信号処理装置又は方法、及び記録媒体
US5751903A (en) * 1994-12-19 1998-05-12 Hughes Electronics Low rate multi-mode CELP codec that encodes line SPECTRAL frequencies utilizing an offset
JPH0990974A (ja) * 1995-09-25 1997-04-04 Nippon Telegr & Teleph Corp <Ntt> 信号処理方法
US5802109A (en) * 1996-03-28 1998-09-01 Nec Corporation Speech encoding communication system
JP3092652B2 (ja) 1996-06-10 2000-09-25 日本電気株式会社 音声再生装置
KR20030096444A (ko) * 1996-11-07 2003-12-31 마쯔시다덴기산교 가부시키가이샤 음원 벡터 생성 장치 및 방법
US6269331B1 (en) * 1996-11-14 2001-07-31 Nokia Mobile Phones Limited Transmission of comfort noise parameters during discontinuous transmission
JP4308345B2 (ja) * 1998-08-21 2009-08-05 パナソニック株式会社 マルチモード音声符号化装置及び復号化装置
US7272556B1 (en) * 1998-09-23 2007-09-18 Lucent Technologies Inc. Scalable and embedded codec for speech and audio signals
US6691084B2 (en) * 1998-12-21 2004-02-10 Qualcomm Incorporated Multiple mode variable rate speech coding
JP3490324B2 (ja) 1999-02-15 2004-01-26 日本電信電話株式会社 音響信号符号化装置、復号化装置、これらの方法、及びプログラム記録媒体
US6765931B1 (en) * 1999-04-13 2004-07-20 Broadcom Corporation Gateway with voice
WO2001052241A1 (en) * 2000-01-11 2001-07-19 Matsushita Electric Industrial Co., Ltd. Multi-mode voice encoding device and decoding device

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH06131000A (ja) * 1992-10-15 1994-05-13 Nec Corp 基本周期符号化装置
JPH08185199A (ja) * 1995-01-05 1996-07-16 Nec Corp 音声符号化装置
JPH09152896A (ja) * 1995-11-30 1997-06-10 Oki Electric Ind Co Ltd 声道予測係数符号化・復号化回路、声道予測係数符号化回路、声道予測係数復号化回路、音声符号化装置及び音声復号化装置
JPH09179593A (ja) * 1995-12-26 1997-07-11 Nec Corp 音声符号化装置
JPH11119798A (ja) * 1997-10-17 1999-04-30 Sony Corp 音声符号化方法及び装置、並びに音声復号化方法及び装置
JP2000163096A (ja) * 1998-11-27 2000-06-16 Nec Corp 音声符号化方法及び音声符号化装置

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
See also references of EP1164580A4 *

Also Published As

Publication number Publication date
US20070088543A1 (en) 2007-04-19
CN1187735C (zh) 2005-02-02
AU2547201A (en) 2001-07-24
US7167828B2 (en) 2007-01-23
EP1164580B1 (en) 2015-10-28
EP1164580A1 (en) 2001-12-19
CN1358301A (zh) 2002-07-10
US7577567B2 (en) 2009-08-18
EP1164580A4 (en) 2005-09-14
US20020173951A1 (en) 2002-11-21

Similar Documents

Publication Publication Date Title
WO2001052241A1 (en) Multi-mode voice encoding device and decoding device
AU748597B2 (en) Multimode speech encoder and decoder
EP1959435B1 (en) Speech encoder
US6427135B1 (en) Method for encoding speech wherein pitch periods are changed based upon input speech signal
CN101180676B (zh) 用于谱包络表示的向量量化的方法和设备
US20010016817A1 (en) CELP-based to CELP-based vocoder packet translation
JP3955179B2 (ja) 音声符号化装置、音声復号化装置、およびこれらの方法
JPH09127991A (ja) 音声符号化方法及び装置、音声復号化方法及び装置
JP4734286B2 (ja) 音声符号化装置
JPH08272395A (ja) 音声符号化装置
JP3746067B2 (ja) 音声復号化方法及び音声復号化装置
JP3353852B2 (ja) 音声の符号化方法
JP3199142B2 (ja) 音声の励振信号符号化方法および装置
JP2003044099A (ja) ピッチ周期探索範囲設定装置及びピッチ周期探索装置
JP4619549B2 (ja) マルチモード音声復号化装置及びマルチモード音声復号化方法
JP2613503B2 (ja) 音声の励振信号符号化・復号化方法
JP2002073097A (ja) Celp型音声符号化装置とcelp型音声復号化装置及び音声符号化方法と音声復号化方法
JP3232728B2 (ja) 音声符号化方法
CA2513842C (en) Apparatus and method for speech coding
JP2004061558A (ja) 音声符号化復号方式間の符号変換方法及び装置とその記憶媒体
JPH07199994A (ja) 音声符号化方式
Popescu et al. A DIFFERENTIAL, ENCODING, METHOD FOR THE ITP DELAY IN CELP
AU8937001A (en) Multimode speech coding apparatus and decoding apparatus

Legal Events

Date Code Title Description
WWE Wipo information: entry into national phase

Ref document number: 01800015.0

Country of ref document: CN

AK Designated states

Kind code of ref document: A1

Designated state(s): AE AG AL AM AT AU AZ BA BB BG BR BY BZ CA CH CN CR CU CZ DE DK DM DZ EE ES FI GB GD GE GH GM HR HU ID IL IN IS KE KG KP KR KZ LC LK LR LS LT LU LV MA MD MG MK MN MW MX MZ NO NZ PL PT RO RU SD SE SG SI SK SL TJ TM TR TT TZ UA UG US UZ VN YU ZA ZW

AL Designated countries for regional patents

Kind code of ref document: A1

Designated state(s): GH GM KE LS MW MZ SD SL SZ TZ UG ZW AM AZ BY KG KZ MD RU TJ TM AT BE CH CY DE DK ES FI FR GB GR IE IT LU MC NL PT SE TR BF BJ CF CG CI CM GA GN GW ML MR NE SN TD TG

WWE Wipo information: entry into national phase

Ref document number: 2001900640

Country of ref document: EP

Ref document number: 09914916

Country of ref document: US

121 Ep: the epo has been informed by wipo that ep was designated in this application
WWP Wipo information: published in national office

Ref document number: 2001900640

Country of ref document: EP

REG Reference to national code

Ref country code: DE

Ref legal event code: 8642