WO2001015144A1 - Vocodeur et procede correspondant - Google Patents

Vocodeur et procede correspondant Download PDF

Info

Publication number
WO2001015144A1
WO2001015144A1 PCT/JP2000/005621 JP0005621W WO0115144A1 WO 2001015144 A1 WO2001015144 A1 WO 2001015144A1 JP 0005621 W JP0005621 W JP 0005621W WO 0115144 A1 WO0115144 A1 WO 0115144A1
Authority
WO
WIPO (PCT)
Prior art keywords
speech
sound source
codebook
stochastic
adaptive
Prior art date
Application number
PCT/JP2000/005621
Other languages
English (en)
French (fr)
Other versions
WO2001015144A8 (fr
Inventor
Kazutoshi Yasunaga
Toshiyuki Morii
Original Assignee
Matsushita Electric Industrial Co., Ltd.
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Matsushita Electric Industrial Co., Ltd. filed Critical Matsushita Electric Industrial Co., Ltd.
Priority to AU67255/00A priority Critical patent/AU6725500A/en
Priority to US09/807,427 priority patent/US6988065B1/en
Priority to CA002348659A priority patent/CA2348659C/en
Priority to EP00954908A priority patent/EP1132892B1/en
Publication of WO2001015144A1 publication Critical patent/WO2001015144A1/ja
Publication of WO2001015144A8 publication Critical patent/WO2001015144A8/ja
Priority to US11/095,530 priority patent/US7289953B2/en
Priority to US11/095,605 priority patent/US7383176B2/en

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/16Vocoder architecture
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/08Determination or coding of the excitation function; Determination or coding of the long-term prediction parameters
    • G10L19/083Determination or coding of the excitation function; Determination or coding of the long-term prediction parameters the excitation function being an excitation gain
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/08Determination or coding of the excitation function; Determination or coding of the long-term prediction parameters
    • G10L19/09Long term prediction, i.e. removing periodical redundancies, e.g. by using adaptive codebook or pitch predictor

Definitions

  • the present invention relates to a voice coding device and a voice coding method used in a digital communication system.
  • VSELP an encoding method developed by Motorola with a bit rate of 11.2 kbps, has been adopted as the standard encoding method for digital mobile phones. Has been launched in Japan since the fall of 1994.
  • PS I—CELP An encoding method called PS I—CELP is currently being commercialized. All of these methods are improved versions of CELP (Code Exited Linear Prediction: M.R. Schroeder "High Quality Speech at Low Bit Rates" Proc. ICASSP '85 pp.937-940). is there.
  • the CE LP method speech is separated into sound source information and vocal tract information, and the sound source information is encoded by the index of a plurality of sound source samples stored in a codebook, and the vocal tract information is LPC (linear).
  • A-b-S Analysis by Synthesis
  • LPC coefficients are obtained by performing autocorrelation analysis and LPC analysis on input voice data (input voice), and the obtained LPC coefficients are coded to obtain LPC codes. . Further, the obtained LPC code is decoded to obtain a decoded LPC coefficient.
  • the input speech is perceptually weighted using a perceptual weighting filter using LPC coefficients.
  • an optimum value (optimum gain) of the two synthesized sounds is obtained, and the power of the synthesized sound is adjusted by the obtained optimum gain. Then, each synthesized sound is added to obtain a total synthesized sound. Then, the coding distortion between the obtained synthesized speech and the input speech is obtained. In this way, the coding distortion between the synthetic speech and the input speech is obtained for all the sound source samples, and the index of the sound source sample when the coding distortion is the smallest is obtained.
  • the gain and the index of the excitation sample obtained in this way are encoded, and the encoded gain and excitation sample are sent to the transmission path together with the LPC code.
  • an actual excitation signal is created from the two excitations corresponding to the gain code and the index of the excitation sample, stored in the adaptive codebook, and the old excitation sample is discarded.
  • the excitation search for the adaptive codebook and the probabilistic codebook is performed in sections (called subframes) in which the analysis sections are further divided.
  • Gain coding is performed by vector quantization (VQ), which evaluates the quantization distortion of the gain using two synthesized sounds corresponding to the indices of the sound source samples.
  • a representative sample of the parameter Create a vector codebook in which multiple (code vectors) are stored.
  • the coding distortion is calculated using the gain code vector stored in the vector codebook according to the following equation 1. calculate.
  • base compares the distortion E n when using the co-one de base vector by controlling the vector codebook, a sign of the base number of the most strained small code base vector vector.
  • the number of the code vector with the smallest distortion is obtained, and this is used as the code of the vector.
  • Equation 1 above seems to require a lot of calculations for each n at a glance, but since it is sufficient to calculate the sum of products for i in advance, n can be searched with a small amount of calculation .
  • the audio decoder decodes the encoded data by obtaining the code vector based on the transmitted vector code. To get the code vector.
  • An object of the present invention is to provide a CELP-type speech coding apparatus and method capable of performing speech coding using predictive quantization without causing local abnormal noise.
  • the subject of the present invention is to automatically adjust the prediction coefficient when the state value in the previous subframe is extremely large or extremely small in predictive quantization, and thereby to reduce local noise. It is to prevent occurrence.
  • FIG. 1 is a block diagram showing a configuration of a wireless communication apparatus provided with the speech coding apparatus of the present invention.
  • FIG. 2 is a block diagram showing the configuration of the speech encoding apparatus according to Embodiment 1 of the present invention
  • FIG. 3 is a block diagram showing a configuration of a gain calculation unit in the speech coding apparatus shown in FIG. 2;
  • FIG. 4 is a block diagram showing a configuration of a parameter encoding unit in the speech encoding device shown in FIG. 2;
  • FIG. 5 is a block diagram illustrating a configuration of a speech decoding device that decodes a speech data encoded by the speech encoding device according to Embodiment 1 of the present invention
  • Figure 6 is a diagram for explaining the adaptive codebook search
  • FIG. 7 is a block diagram showing a configuration of a speech coding apparatus according to Embodiment 2 of the present invention.
  • FIG. 8 is a block diagram for explaining a pulse spreading codebook
  • FIG. 9 is a block diagram showing an example of a detailed configuration of a pulse spreading codebook
  • FIG. 10 is a block diagram showing an example of a detailed configuration of a pulse spreading codebook
  • FIG. 12 is a block diagram showing a configuration of an audio decoding device that decodes audio data encoded by the audio encoding device according to Embodiment 3 of the present invention.
  • FIG. 13A is a diagram showing an example of a pulse spread codebook used in the speech coding apparatus according to Embodiment 3 of the present invention.
  • FIG. 13B is a diagram showing an example of a pulse spread codebook used in the speech decoding apparatus according to Embodiment 3 of the present invention.
  • FIG. 14A is a diagram showing an example of a pulse spread codebook used in the speech coding apparatus according to Embodiment 3 of the present invention.
  • FIG. 14B is a diagram showing an example of a pulse spread codebook used in the speech decoding apparatus according to Embodiment 3 of the present invention.
  • FIG. 1 is a block diagram showing a configuration of a wireless communication device including the speech coding device according to Embodiments 1 to 3 of the present invention.
  • sound is converted into an electric analog signal by a sound input device 11 such as a microphone on the transmitting side, and output to the AZD converter 12.
  • the analog audio signal is converted into a digital audio signal by the AZD converter 12 and output to the audio encoding unit 13.
  • the audio encoding unit 13 performs an audio encoding process on the digital audio signal, and outputs the encoded information to the modulation / demodulation unit 14.
  • the modulation / demodulation unit 14 digitally modulates the encoded voice signal and sends it to the radio transmission unit 15.
  • Radio transmitting section 15 performs a predetermined radio transmission process on the modulated signal. This signal is transmitted via antenna 16.
  • the processor 21 performs processing using the data stored in the RAM 22 and the ROM 23 as appropriate.
  • a received signal received by antenna 16 is subjected to predetermined wireless reception processing by radio reception section 17 and sent to modulation / demodulation section 14.
  • the modulation / demodulation unit 14 performs demodulation processing on the received signal, and outputs the demodulated signal to the audio decoding unit 18.
  • Audio decoding section 18 performs a decoding process on the demodulated signal to obtain a digitized decoded audio signal, and outputs the digitized decoded audio signal to DZA converter 19.
  • the DZA converter 19 converts the digitally decoded audio signal output from the audio decoding unit 18 into an analog decoded audio signal and outputs the analog decoded audio signal to an audio output device 20 such as a speaker.
  • the audio output device 20 converts the electrical analog decoded audio signal into decoded audio and outputs it.
  • FIG. 2 is a block diagram showing a configuration of the CE LP-type speech encoding device according to Embodiment 1 of the present invention. This speech encoding device is included in speech encoding section 13 shown in FIG.
  • the adaptive codebook 103 shown in FIG. 2 is stored in the RAM 22 shown in FIG. 1, and the probabilistic codebook 104 shown in FIG. 2 is stored in the ROM 23 shown in FIG.
  • LPC analysis section 102 performs autocorrelation analysis and LPC analysis on input speech data 101 to obtain LPC coefficients.
  • LPC analysis section 102 encodes the obtained LPC coefficient to obtain an LPC code.
  • LPC analysis section 102 decodes the obtained LPC code to obtain a decoded LPC coefficient.
  • the input voice data 101 is sent to the perceptual weighting section 107, where it is perceptually weighted using the perceptual weighting filter using the LPC coefficient.
  • a sound source creation unit 105 a sound source sample (adaptive code vector or adaptive sound source) stored in adaptive codebook 103 and a sound source sample (probabilistic code vector or stochastic code vector) stored in stochastic codebook 104. Sound source) and sends each code vector to the perceptual weight LPC synthesis unit 106. What's more, hearing weight?
  • the two sound sources obtained in the sound source creating unit 105 are compared with each other. (Filtering is performed using the decoded LPC coefficient obtained by the analysis unit 102 to obtain two synthesized sounds.
  • the hearing weight LPC synthesis unit 106 uses an LPC coefficient and a high-frequency emphasis filter and a long-term prediction coefficient (obtained by performing a long-term prediction analysis of the input speech) together with a hearing weighting filter. Aperture weighted LPC synthesis is performed on the synthesized sound of.
  • the hearing weight LPC synthesis unit 106 outputs the two synthesized sounds to the gain calculation unit 108.
  • Gain calculation section 108 has the configuration shown in FIG.
  • the gain calculator 108 sends the two synthesized sounds obtained by the perceptual weight LPC synthesizer 106 and the input sound weighted by the perceptual weight to the analyzer 108 1, where the two synthesized sounds and the input Analyze the relationship with speech and find the optimal value (optimum gain) for the two synthesized sounds. This optimum gain is output to the power adjustment unit 1082.
  • the power adjustment unit 1082 adjusts the power of the two synthesized sounds according to the obtained optimum gain.
  • the synthesized sound whose power has been adjusted is output to the synthesizer 1083, where it is added to become a synthetic synthesized sound.
  • This synthetic speech is output to the encoding distortion calculator 1084.
  • the coding distortion calculation unit 1084 obtains coding distortion between the obtained synthesized speech and the input speech.
  • the encoding distortion calculation unit 1084 controls the sound source creation unit 105 to output all the excitation samples of the adaptive codebook 103 and the stochastic codebook 104, and outputs all the excitation samples. Then, the coding distortion between the synthesized speech and the input speech is calculated, and the index of the sound source sample when the coding distortion is the smallest is calculated.
  • the analysis unit 1081 sends the index of the sound source sample, the two auditory weighting LPC synthesized sound sources corresponding to the index, and the input voice to the parameter encoding unit 109.
  • the parameter encoding unit 109 obtains a gain code by performing gain encoding, and collectively sends the LPC code and the index of the excitation sample to the transmission path. Also, an actual sound source signal is generated from two sound sources corresponding to the gain code and the index, and stored in the adaptive codebook 103, and at the same time, old sound source samples are discarded. In general, the excitation search for the adaptive codebook and the probabilistic codebook is performed in sections (called subframes) obtained by further dividing the analysis section.
  • FIG. 4 is a block diagram showing a configuration of a parameter encoding unit of the speech encoding device of the present invention.
  • the perceptually weighted input speech ( ⁇ ;), the perceptually weighted LPC-synthesized adaptive sound source ( ⁇ , and the perceptually weighted LPC-synthesized stochastic sound source (S i) are transmitted to the parameter overnight calculation unit 1091.
  • the parameter calculator 1 109 calculates the parameters required for the coding distortion calculation.
  • the parameter calculator 1 109 calculates the parameters.
  • the parameters are output to a coding distortion calculation unit 1092, where coding distortion is calculated.
  • This encoding distortion is output to comparison section 109.
  • the comparison unit 1093 controls the coding distortion calculation unit 1092 and the vector codebook 1094 to determine the most appropriate code (decoding vector) from the obtained coding distortion. And outputs the code vector obtained from the vector codebook 1094 to the decryption vector storage unit 106 based on this code, and updates the decoding vector storage unit 106 I do.
  • the prediction coefficient storage unit 1095 stores prediction coefficients used for predictive coding. This prediction coefficient is output to the parameter overnight calculation unit 1091 and the encoding distortion calculation unit 1092 to be used for the parameter overnight calculation and the encoding distortion calculation.
  • the decoding vector storage unit 1106 stores the state for predictive coding. Since this state is used for the parameter calculation, it is output to the parameter calculation unit 1091.
  • the vector codebook 1 094 stores a code vector.
  • a vector codebook 1094 in which a plurality of representative samples (code vectors) of quantization target vectors are stored in advance. Each vector is composed of three elements: an AC gain, a value corresponding to the logarithmic value of the SC gain, and an adjustment coefficient of the SC prediction coefficient.
  • This adjustment coefficient is a coefficient for adjusting the prediction coefficient according to the state of the previous subframe. Specifically, the adjustment coefficient is set so as to reduce the influence of the state of the previous subframe having an extremely large value or an extremely small value.
  • This adjustment coefficient can be obtained by a learning algorithm developed by the present inventors using a large number of vector samples. Here, the description of the learning algorithm is omitted.
  • a chord vector frequently used for voiced sounds has a large adjustment factor. That is, when the same waveforms are arranged, the adjustment coefficient is increased because the state of the previous subframe is highly reliable, so that the prediction coefficient of the previous subframe can be used as it is. This allows for more efficient predictions Can be.
  • the code vector used at the beginning of a word, etc. which is used less frequently, has a smaller adjustment coefficient.
  • the state of the previous subframe is unreliable (it is considered that the adaptive codebook does not work), so the adjustment coefficient is reduced and the prediction coefficient of the previous subframe is reduced.
  • the prediction coefficient is reduced and the prediction coefficient of the previous subframe is reduced.
  • the prediction coefficient storage unit 1095 stores prediction coefficients for performing predictive coding.
  • the prediction coefficient is a moving average (MA) prediction coefficient, and stores two types of AC and SC for the prediction order. Generally, these prediction coefficient values are obtained in advance by learning using a large amount of data.
  • a value indicating a silent state is stored as an initial value.
  • the parameter calculation unit 1091 sends the perceptually weighted input speech (X, the perceptually weighted LPC-synthesized adaptive sound source (A, the perceptually weighted LPC-synthesized probabilistic sound source (S), and the decoding vector storage unit 1 Send the decoded vector (AC, SC, adjustment coefficient) stored in 096 and the prediction coefficient (AC, SO) stored in the prediction coefficient storage unit 1 95. These are used to calculate the coding distortion. Calculate the parameters.
  • the coding distortion calculation in the coding distortion calculation unit 1092 is performed according to the following equation 2.
  • I subframe length (input speech coding unit)
  • the parameter calculation unit 1091 calculates a part independent of the code vector number. What is calculated is the correlation between the predicted vector and the three synthesized sounds ( ⁇ ⁇ ;, S i). This calculation is performed according to Equation 3 below.
  • a s Perceptual weighting LPC synthesized adaptive sound source
  • n Code vector number
  • the parameter calculation unit 1091 uses the past code vectors stored in the decoded vector storage unit 1096 and the prediction coefficients stored in the prediction coefficient storage unit 1095 to calculate the three predictions shown in the following Expression 4. Calculate the value.
  • the adjustment coefficient can mitigate (reduce the influence of) the state value in the previous subframe when it is extremely large or small. That is, it becomes possible to adaptively change the predicted value and the predicted coefficient of the SC gain according to the state.
  • the coding distortion calculation unit 1092 calculates the parameter Using each of the parameters, the prediction coefficient stored in the prediction coefficient storage unit 1095 and the code vector stored in the vector codebook 1094 are used to calculate the coding distortion according to the following equation 5.
  • C an , C sn,: code vector, C en is a prediction coefficient adjustment coefficient, but is not used here
  • n Code vector number
  • D xx does not actually depend on the code vector number n, so that the addition can be omitted.
  • the comparison unit 1093 controls the vector codebook 1094 and the coding distortion calculation unit 1092, and the coding distortion calculation unit 1092 calculates the coding vector among the plurality of code vectors stored in the vector codebook 1094.
  • the code vector number that minimizes the coding distortion is obtained, and this is used as the sign of the gain.
  • the content of the decoded vector storage unit 1096 is updated using the obtained gain code. Updates are This is performed according to Equation 6 below.
  • the state vector Sem is stored in the decoding vector storage unit 106, and the prediction coefficient is adjusted using the prediction coefficient adjustment coefficient. Is adaptively controlled.
  • FIG. 5 is a block diagram showing a configuration of the speech decoding device according to the embodiment of the present invention.
  • This speech decoding device is included in speech decoding section 18 shown in FIG.
  • the adaptive codebook 202 shown in Fig. 5 is stored in RAM 22 shown in Fig. 1, and the probabilistic codebook 203 shown in Fig. 5 is stored in ROM 23 shown in Fig. 1.
  • the parameter overnight decoding unit 201 obtains an encoded speech signal from the transmission path, and generates each excitation codebook (adaptive codebook 202, stochastic code).
  • the code, the LPC code, and the gain code of the sound source sample in the book 203) are obtained.
  • a decoded LPC coefficient is obtained from the LPC code
  • a decoded gain is obtained from the gain code.
  • the sound source creation unit 204 obtains a decoded sound source signal by multiplying each sound source sample by the decoded gain and adding the resultant.
  • the obtained decoded excitation signal is stored as excitation samples in adaptive codebook 204, and at the same time, old excitation samples are discarded.
  • the same synthesis unit 205 performs filtering on the decoded sound source signal using the decoded LPC coefficients. With this, a synthesized sound is obtained.
  • the two excitation codebooks are the same as those included in the speech coding apparatus shown in FIG. 2 (reference numerals 103 and 104 in FIG. 2), and have sample numbers for extracting the excitation samples. (The code to the adaptive codebook and the code to the probabilistic codebook) are both supplied from the parameter overnight decoding unit 201.
  • the speech coding apparatus it is possible to control the prediction coefficient according to each code vector, to perform more efficient prediction adapted to local features of speech, and to perform non-stationary This makes it possible to prevent the adverse effects of the prediction in the department, and it is possible to obtain an extraordinary effect that could not be obtained conventionally.
  • the gain calculation unit compares the synthesized speech with the input speech for all the sound sources of the adaptive codebook and the stochastic codebook obtained from the sound source creation unit. At this time, two sound sources (adaptive codebook and stochastic codebook) are usually searched in an open loop due to the computational complexity.
  • two sound sources adaptive codebook and stochastic codebook
  • the sound source creation unit 105 sequentially selects sound source candidates only from the adaptive codebook 103, and makes the perceptual weight LPC synthesis unit 106 function to obtain synthesized sounds.
  • the signal is sent to the gain calculation unit 108, and a comparison between the synthesized speech and the input speech is performed to select an optimal code of the adaptive codebook 103.
  • the code of the adaptive codebook 103 is fixed, the same excitation is selected from the adaptive codebook 103, and the code of the gain operation unit 108 is selected from the probabilistic codebook 104.
  • the selected sound sources are selected one after another and transmitted to the audibility weight LPC synthesis unit 106.
  • the gain calculation unit 108 compares the sum of both synthesized sounds and the input speech to determine the code of the probabilistic codebook 104.
  • the sound source creation unit 105 extracts a sound source from the adaptive codebook 103 and sends it to the perceptual weight LPC synthesis unit 106.
  • the optimum code is obtained by repeating the comparison between the synthesized sound source and the input speech of the first subframe.
  • the adaptive codebook is a sound source used for synthesis in the past. The sign corresponds to the time lag as shown in FIG.
  • the sound source creation unit 105 extracts the sound source of the code obtained by searching the adaptive codebook 103 and the sound source of the probabilistic codebook 104 specified by the gain calculation unit 108 to extract the perceptual weight LPC.
  • Send to synthesis unit 106 the gain calculator 108 calculates the coding distortion between the perceived weighted synthesized speech and the perceived weighted input speech, and calculates the most appropriate (the one that minimizes the square error) probability. Determine the sign of the dynamic sound source 104.
  • the procedure for excitation code search in one analysis section (when the subframe is 2) is shown below.
  • the parameter encoding unit 109 encodes the gain, generates the excitation of the first subframe with the decoding gain, and updates the adaptive codebook 103.
  • the parameter encoding unit 109 encodes the gain, generates the excitation of the second subframe with the decoding gain, and updates the adaptive codebook 103.
  • the above algorithm enables efficient encoding of the sound source.
  • the lag of the adaptive codebook has a large correlation, so that the code of the first subframe remains the same and the search range of the second subframe is close to the lag of the first subframe. It is an algorithm that reduces the number of bits by reducing the number of bits (by reducing the number of entries).
  • This algorithm may cause local degradation when the speech changes from the middle of the analysis section (frame) or when the state of the two subframes is significantly different.
  • the speech coding apparatus before encoding, a correlation value is calculated by performing pitch analysis on both of the two subframes, and a search for determining a lag search range of the two subframes based on the obtained correlation value is performed.
  • An audio encoding device for implementing the method is provided. More specifically, the speech coding apparatus according to the present embodiment includes a CELP coding apparatus that decomposes one frame into a plurality of subframes and codes each of the subframes.
  • a pitch analysis unit that calculates a correlation value by performing a pitch analysis of a plurality of sub-frames forming a frame, and the pitch analysis unit calculates a correlation value of a plurality of sub-frames forming the frame, and A value (referred to as a representative pitch) that is most likely to be the pitch period in each subframe is obtained from the magnitude of the correlation value.
  • a search range setting unit to be determined.
  • the search range setting unit uses the representative pitch of the plurality of subframes obtained by the pitch analysis unit and the correlation value to determine the temporary pitch (temporary pitch) at the center of the search range.
  • a lag search section is set in a specified range around the obtained temporary pitch, and when the lag search section is set, the search range is set before and after the temporary pitch. Set. At that time, candidates for short lags are reduced, the range of longer lags is set wider, and lag search is performed in the range set by the search range setting section during adaptive codebook search. .
  • FIG. 7 is a block diagram showing a configuration of the speech coding apparatus according to Embodiment 2 of the present invention.
  • an LPC analysis unit 302 performs an autocorrelation analysis and an LPC analysis on the input speech data (input speech) 301 to obtain an LPC coefficient.
  • the LPC code is obtained by performing coding on the obtained LPC coefficient by passing to LPC analysis section 302.
  • LPC analysis section 302 decodes the obtained LPC code to obtain a decoded LPC coefficient.
  • pitch analysis section 310 performs pitch analysis of the input speech for two sub-frames, and obtains pitch candidates and parameters.
  • the algorithm for one subframe is shown below. Two correlation coefficients are obtained by the following equation (7).
  • the autocorrelation function and the power component obtained by the above equation 7 are stored in a memory, and the representative pitch Pi is obtained by the following procedure. This is a process of obtaining the pitch P to maximize the VpXVpZCpp V p is positive.
  • division generally requires a lot of computation, so both the numerator and denominator are stored and multiplied to improve efficiency.
  • the work performed for each of the two sub-frame, determining a representative pitch P have P 2 and autocorrelation coefficients V lp, V 2p, power component C lpp, C 2pp the (P mi n ⁇ p ⁇ P max).
  • the search range setting unit 311 sets the search range of the lag of the adaptive codebook.
  • a temporary pitch which is the axis of the search range, is obtained.
  • the provisional pitch is determined using the representative pitch obtained by the pitch analysis unit 310 and the parameters.
  • the provisional pitch Q 2 is obtained by the following procedure.
  • a constant Th (specifically, about 6 is appropriate) is used as the range of the lag.
  • the correlation value obtained by the above equation 7 is used.
  • C max is not initialized.
  • C at the time of seeking Q 2 by correlating including ma x is maximum, first, it is possible to obtain a Q have Q 2 having the maximum correlation between the second sub-frame.
  • two temporary pitches with relatively small size are selected while simultaneously evaluating the correlation between two subframes.
  • Th the maximum difference
  • the search range setting unit 311 sets a range (L- ST to L- EN ) in which to search the adaptive codebook using the obtained provisional pitch as shown in the following Expression 8.
  • the first subframe does not need to narrow the search range.
  • the present inventors have experimentally confirmed that the performance is better when the search interval is around the value based on the pitch of the input voice, and in the present embodiment, the performance is narrowed to 26 samples. Use an algorithm to search.
  • the adaptive codebook lag of the second subframe can be encoded with 5 bits. Also, The present inventors have also confirmed by experiments that better performance can be obtained by setting fewer candidates with a small lag and many candidates with a large lag. However, as can be seen in the description so far, in the present embodiment, the provisional pitch Q 2 is not used.
  • the provisional pitch of the first subframe is a value close to P 2. For this reason, in the search by Dell Even Lag, a part close to the part where the voice has risen can be used as the temporary pitch.
  • the sound source creation unit 304 the sound source sample (adaptive code vector or adaptive sound source) stored in the adaptive codebook 303 and the sound source sample (stochastic code) stored in the stochastic codebook 304 are generated.
  • Vector or probabilistic sound source and send them to the perceptual weight LPC synthesis unit 303.
  • the auditory weighting LPC synthesizing section 306 the two sound sources obtained in the sound source creating section 305 are compared with the LPC analyzing section 3 02 Filtering is performed using the decoded LPC coefficient obtained in step 2 to obtain two synthesized sounds.
  • the gain calculator 308 analyzes the relationship between the two synthesized sounds obtained by the perceptual weight LPC synthesizer 306 and the input voice, and determines the optimum value (optimum gain) of the two synthesized sounds. Ask. In addition, the gain calculation section 308 adds the synthesized sounds whose phases have been adjusted by the optimum gain to obtain a total synthesized sound. Then, the gain calculator 308 calculates the coding distortion of the synthesized speech and the input speech. In addition, in the gain calculation section 308, the sound source creation section 305 and the perceptual weight LPC synthesis section 306 function for all the excitation samples in the adaptive codebook 303 and the probabilistic codebook 304. Then, the coding distortion between the synthesized speech and the input speech is obtained, and the index of the sound source sample at the minimum of the resulting coding distortion is obtained.
  • the parameter encoding unit 309 obtains a gain code by performing gain encoding, and sends it to the transmission path together with the LPC code and the index of the sound source sample.
  • the parameter overnight encoder 309 creates an actual excitation signal from the two excitations corresponding to the gain code and the index of the excitation sample, stores it in the adaptive codebook 303, and at the same time stores the old excitation signal. Discard the sample.
  • the perceptual weighting LPC synthesizing unit 306 uses a perceptual weighting filter using an LPC coefficient or a high-frequency emphasis filter and a long-term prediction coefficient (obtained by performing a long-term prediction analysis of the input speech).
  • the above-mentioned gain calculation unit 310 compares all the sound sources of the adaptive codebook 303 and the probabilistic codebook 304 obtained from the sound source creation unit 105 with the input speech. In order to reduce the amount, the two sound sources (the adaptive codebook 303 and the stochastic codebook 304) are searched by the open loop as described above.
  • the pitch search method allows the first subframe Before the adaptive codebook search of a frame, a correlation value is calculated by performing pitch analysis of a plurality of subframes constituting the frame, so that correlation values of all subframes in the frame can be simultaneously grasped. .
  • the correlation value of each subframe is calculated, and a value (referred to as a representative pitch) most likely to be the pitch period in each subframe is obtained from the magnitude of the correlation value.
  • a value referred to as a representative pitch
  • set the search range for lag in multiple subframes an appropriate temporary pitch (referred to as a temporary pitch) having a small difference at the center of the search range is obtained by using the representative pitches and correlation values of a plurality of subframes obtained by the pitch analysis. .
  • the search interval of the lag is limited to a specified range before and after the provisional pitch obtained by setting the search range, an efficient search of the adaptive codebook is enabled. At that time, candidates for short lag portions are reduced and the longer lag range is set wider, so that an appropriate search range that can obtain good performance can be set.
  • the lag is searched in the range set in the above search range setting in the adaptive codebook search, it is possible to perform coding capable of obtaining a good decoded sound.
  • the temporary pitch of the second subframe also exists near the temporary pitch of the first subframe obtained by search range setting section 311. Since the search range is narrowed in the subframe, the lag obtained as a result of the search does not go away from the temporary pitch. Therefore, when searching for the second sub-frame, it is possible to search near the provisional pitch of the second sub-frame, and even in a non-stationary frame such as when speech starts in the latter half of the frame, appropriate search can be performed in the first and second sub-frames. Lag search can be performed, and special effects not obtained before can be obtained.
  • the algebraic codebooks disclosed in the above-mentioned documents are: (1) When applied to the CELP system with a bit rate of about 8 kb / s, high-quality synthesized speech can be generated. This codebook has excellent features such as the ability to search for codebooks, and (3) no need for data ROM capacity to directly store probabilistic excitation vectors.
  • CS-A CELP bit rate 8 kb / s
  • AC ELP bit rate 5.3 kb / s
  • G.729 and g723.1 Each was recommended by the ITU-T in 1996.
  • CS-AC ELP see “Design and Description of CS-ACELP: A Toll Quality 8 kb / s Speech Coder”, Redwan Salami et al, IEEE trans. SPEECH AND AUDIO PROCESSING, vol. 6, no. Detailed technology is disclosed in March 1998.
  • An algebraic codebook is a codebook having the above-mentioned excellent characteristics.
  • a vector including a small number of nonzero elements (elements other than the nonzero elements have a value of zero) output from the algebraic codebook, and a diffusion pattern There is disclosed a method using a pulse spread codebook in which a vector obtained by superimposing a fixed waveform called a driving frequency of a synthetic filter is used.
  • the pulse spread codebook is disclosed in Japanese Patent Laid-Open No. Hei 10-232696, “AC ELP Coding Using Pulse Spread Structured Sound Source” Yasunaga et al., Proceedings of the 1997 IEICE Spring Conference, D-14-11 , p. 253, 1997-03, "Low Rate Speech Coding Using Pulsed Spreading Sound Sources” Yasunaga et al., Proceedings of the Acoustical Society of Japan Fall Meeting 1998, pp. 281-282, 1998-10 Etc. (This is disclosed!
  • FIG. 9 shows a more detailed example of the pulse spreading codebook of FIG.
  • an algebraic codebook 401 1 is a codebook that generates a pulse vector composed of a small number of non-zero elements (amplitude is +1 or 11).
  • the pulse vector (consisting of a small number of nonzero elements), which is the output of the algebraic codebook 40 11, is used as it is. It is used as a stochastic sound source vector.
  • the diffusion pattern storage unit 4012 stores one or more types of fixed waveforms called diffusion patterns for each channel. Note that the diffusion pattern stored for each channel is different when a diffusion pattern having a different shape is stored for each channel. Both cases are considered where the same shape (common) diffusion pattern is stored in each channel. The case where the diffusion pattern stored for each channel is common is equivalent to a simplified case where the diffusion pattern stored for each channel is stored. The case where the shape of the diffusion pattern stored in each is different will be described.
  • the pulse spread codebook 4 0 1 is output from the algebraic codebook 4 0 1 1 instead of outputting the output vector from the algebraic code book 4 0 1 1 as it is as a stochastic excitation vector
  • the pulse and the spreading pattern read from the spreading pattern storage unit 410 are superimposed on each channel by the pulse spreading unit 410 and the vectors obtained by the superposition calculation are added.
  • the vector is used as a probabilistic sound source vector.
  • the CELP encoding / decoding device disclosed in the above document has the same configuration in the encoding device and the decoding device (the number of channels in the algebraic codebook unit, the spreading pattern registered in the spreading pattern storage unit). (The number of types and the shape of are common to the encoding device side and the decoding device side). Then, by setting the shape, the number of types, and the selection method of a plurality of types of the diffusion patterns to be registered in the diffusion pattern storage unit 410, efficiently, the synthesized speech can be set. Improving quality.
  • the explanation of the pulse spreading codebook is based on the algebraic codebook in which the amplitude of nonzero elements is limited to +1 or -1 as a codebook that generates a pulse vector composed of a small number of nonzero elements. This is an explanation of the case in which a pulse vector is used.As a codebook that generates the pulse vector, a multipulse codebook that does not limit the amplitude of nonzero elements or a regular pulse codebook can be used. In addition, the quality of synthesized speech can be improved by using a pulse vector superimposed on a diffusion pattern as a stochastic sound source vector.
  • the speech signal is encoded, From the algebraic codebook, a diffusion pattern selected to output high-quality synthesized speech by repeating decoding and viewing evaluation of synthesized speech, or a diffusion pattern created based on phonetic knowledge, etc.
  • One or more types are registered for each non-zero element (channel) in the output excitation vector, and the registered diffusion pattern and the vector generated by the algebraic codebook ( (Composed of several non-zero elements) is superimposed on each channel, and the sum of the superimposition results of each channel is used as a probabilistic sound source vector to effectively improve the quality of synthesized speech. Has been shown to be possible.
  • the diffusion pattern storage section 4102 registers a plurality of types (two or more types) of diffusion patterns per channel, it is registered as a method of selecting the plurality of diffusion patterns. It is already evident at the time of actually performing encoding and decoding for all combinations of spread patterns that have been performed, and selecting closed patterns that minimize the resulting coding distortion, and when performing a probabilistic codebook search.
  • the speech information is determined using, for example, dynamic fluctuation information of a gain code or magnitude relationship information (with a preset threshold value) of a gain value.
  • the spreading pattern storage unit 401 in the pulse spreading codebook of FIG. 9 is characterized in that only one type of spreading pattern is registered per channel.
  • the description is limited to the pulse spread codebook of FIG.
  • the probabilistic probability of applying the algebraic codebook to the CELP encoder is as follows. A description will be given of a probabilistic codebook search process when a pulse spread codebook is applied to a CELP encoding device, as compared with a codebook search process. First, a codebook search process when an algebraic codebook is used for a probabilistic codebook will be described.
  • the number of nonzero elements in the vector output by the algebraic codebook is N (the number of channels in the algebraic codebook is N), and only one nonzero element with an amplitude of +1 or 1 is output for each channel Entries output by the algebraic codebook, where di (i is the channel number: 0 ⁇ i ⁇ N—l) and the subframe length is L for the vector containing (the amplitude of elements other than nonzero elements is zero).
  • the stochastic sound source vector ck of the number k is given by the following equation 9.
  • V transpose vector of V (probabilistic sound source target)
  • H t transpose matrix of H (synthetic filter impulse response matrix)
  • ck entry number k-th stochastic sound source vector
  • Formula 11 1 The process of specifying the entry number k that maximizes the following formula 12 obtained by organizing this formula 10 is the stochastic codebook search process.
  • ⁇ and ⁇ are calculated, and the calculation results are expanded (stored) in a memory.By introducing this preprocessing, the equation 1 2 is calculated for each candidate entry as a stochastic sound source vector. It is disclosed in the above-mentioned literatures and the like that it is possible to greatly reduce the amount of calculation when calculating, and as a result, the total amount of calculation required for stochastic codebook search can be reduced. .
  • the number of non-zero elements output by the algebraic codebook which is a part of the pulse spread codebook, is N (the number of channels in the algebraic codebook is N), and the amplitude output for each channel is +1 or 1
  • a vector containing only one non-zero element (the amplitude of elements other than the non-zero element is zero) is di (i is the channel number: 0 ⁇ i ⁇ N—l), and the channel is stored in the diffusion pattern storage unit.
  • the probabilistic excitation vector ck of the entry number k output by the pulse spreading codebook is given by the following equation 13.
  • N Number of channels in the algebraic codebook
  • Equation 13 Therefore, in this case, the following Equation 14 is obtained by substituting Equation 13 into Equation 10.
  • Equation 14 The process of identifying the entry number k of the stochastic sound source vector that maximizes the following Equation 15 obtained by rearranging this Equation 14 is as follows. This is a stochastic codebook search process.
  • the number of bits that can be allocated to the stochastic codebook unit tends to decrease as the bit rate decreases. This tendency leads to a decrease in the number of non-zero elements when constructing a probabilistic excitation vector when using an algebraic codebook or a pulse spreading codebook for the probabilistic codebook unit. Therefore, the lower the bit rate of the CELP encoder / decoder, the smaller the difference in the amount of computation between the case where an algebraic codebook is used and the case where a pulse spread codebook is used. However, when the bit rate is relatively high, or when it is necessary to minimize the amount of calculation even at a low bit rate, the increase in the amount of calculation in the preprocessing stage caused by using the pulse spreading codebook can be ignored. May disappear.
  • an algebraic codebook A description will be given of obtaining a high-quality synthesized speech on the decoding side while suppressing the increase in the amount of computation in the pre-processing part in the code search process, which is increased compared to the case of using the dynamic codebook.
  • the technology according to the present embodiment is intended to solve the above-mentioned problem that may occur when a pulse spread codebook is used for a stochastic codebook section of a CELP coding device and a decoding device.
  • This is characterized by using different spreading patterns on the encoding device side and the decoding device side. That is, in the present embodiment, the above-described spreading pattern is registered in the spreading pattern storage unit of the speech decoding apparatus side, and by using the registered spreading pattern, higher quality synthesis than when an algebraic codebook is used. Generate audio.
  • the diffusion pattern registered in the diffusion pattern storage unit on the decoding device side is a simplified diffusion pattern (for example, a diffusion pattern thinned out at regular intervals or a diffusion pattern cut off at a certain length). ) Is registered, and the probabilistic codebook search is performed using it.
  • the coding side increases when compared with the case where the algebraic codebook is used for the stochastic codebook unit. The amount of calculation can be reduced, and the decoding side can obtain high-quality synthesized speech.
  • the use of different spreading patterns on the encoding device side and the decoding device side means that the spreading vector prepared for the decoding device (for the decoding device) is deformed while retaining its characteristics, so that the spreading vector for the encoder is used. It is to get the vector.
  • a method of preparing a spreading vector for a decoding device in advance a method disclosed in a patent (Japanese Patent Application Laid-Open No. H10-630000) previously filed by the present inventors, A method of preparing by learning the statistical tendency of the evening vector for sound source search, an operation of actually encoding the sound source target and gradually deforming it in a direction to reduce the total sum of the encoding distortion that occurs at that time , A method designed based on phonetic knowledge to improve the quality of synthesized speech, and a method designed to randomize the high-frequency phase component of pulsed sound sources And so on. All of these details are included here.
  • All of the diffusion vectors obtained in this way have the characteristic that the amplitude of the sample near the head sample of the diffusion vector (the front sample) is relatively larger than the amplitude of the rear sample.
  • the amplitude of the first sample is often the largest among all samples in the divergent vector (in most cases, this is the case).
  • the spreading vector for the encoder is obtained by replacing the sample value of the spreading vector for the decoding device with zero at appropriate intervals.
  • the spreading vector for the encoder is obtained by truncating the spreading vector for the decoding device of a certain length at an appropriate length. 3) By setting a threshold value of the amplitude in advance, and replacing the samples whose amplitude is smaller than the threshold value set for the spreading vector for the decoding device with zero, the spreading vector for the encoder is obtained. I do.
  • the spreading vector for the encoder is stored by storing the sample value at a suitable interval including the first sample for the decoder for a certain length, and replacing the values of the other samples with zero. To win.
  • the spread vector for the encoding device is maintained while the general shape (rough characteristics) of the diffusion vector is preserved. Can be newly acquired.
  • the spread vector for the encoding device is retained while the general shape (rough characteristics) of the original spread vector is preserved. Can be newly acquired.
  • the method 4) above since the amplitude of the first sample, whose amplitude is often the largest, is always preserved as it is, the outline of the original diffusion vector is more reliably obtained. It is possible to keep it.
  • the sample having the amplitude equal to or greater than the specified value is stored as it is, and the amplitude of the sample having the amplitude equal to or less than the specified value is replaced with zero. It is possible to obtain a spreading vector for the encoding device while preserving).
  • CELP speech coding device FIG. 11
  • CELP speech decoding device FIG. 12
  • the parts described as stochastic codebook, stochastic excitation vector, and stochastic excitation gain can be read as pulse spreading codebook, pulse spreading excitation vector, and pulse spreading excitation gain, respectively. It is.
  • CELP speech coding The probabilistic codebook in the device and the CELP speech decoding device is sometimes called a noise codebook or a fixed codebook because of its function of storing a plurality of types of fixed waveforms.
  • a linear prediction analysis unit 501 linearly analyzes input speech to calculate a linear prediction coefficient, and the calculated linear prediction coefficient is used as a linear prediction coefficient coding unit.
  • a linear prediction coefficient encoding unit 502 encodes the linear prediction coefficients (vector quantization), and a quantization index (hereinafter, referred to as a linear prediction code) obtained by vector quantization is output to a code output unit. 5 13 and output to the linear predictive code decoder 503.
  • the linear prediction code decoding unit 503 decodes (inverse quantizes) the linear prediction code obtained by the linear prediction coefficient coding unit 502 and outputs the result to the synthesis filter 504.
  • the composite filter 504 forms a composite filter of an all-pole model having, as coefficients, a decoded linear prediction code obtained by decoding in the linear prediction code decoder 503.
  • the vector obtained by multiplying the adaptive excitation vector selected from the adaptive codebook 506 by the adaptive excitation gain 509 and the probabilistic excitation vector selected from the pulse spreading codebook 507 have the probability
  • the vector obtained by multiplying the dynamic sound source gain 5 10 and is added by the vector addition unit 5 11 1 to generate a driving sound source vector.
  • the distortion calculator 505 calculates the output vector when the synthetic filter 504 is driven by the driving sound source vector and the distortion between the input voice and the input speech by the following equation 16, and encodes the distortion ER. Output to the specific unit 5 1 2
  • Equation 16 where, in Equation 16, u is the input speech vector in the processing frame, H is the impulse response matrix of the synthesis filter, ga is the adaptive sound source gain, gc is the stochastic sound source gain, p is the adaptive sound source vector, c Denotes a stochastic sound source vector.
  • the adaptive codebook 506 is a buffer (dynamic memory) that stores driving excitation vectors for the past several frames, and the adaptive excitation vector selected from the adaptive codebook 506 is an input. It is used to represent the periodic component in the linear prediction residual vector obtained by passing the speech through the inverse filter of the synthesis filter.
  • the excitation vector selected from the pulse spread codebook 507 is composed of the aperiodic component newly added in the current processing frame to the linear prediction residual vector (from the linear prediction residual vector to the periodicity (adaptive excitation vector Used to represent the component) from which the component is removed.
  • the adaptive excitation vector gain multiplier 509 and the stochastic excitation vector gain multiplier 510 are selected from the adaptive excitation vector and the pulse spreading codebook 507 selected from the adaptive codebook 506. It has a function of multiplying the probabilistic sound source vector by the adaptive sound source gain read from the gain codebook 508 and the stochastic sound source gain.
  • the gain codebook 508 is a static memory that stores a plurality of types of sets of an adaptive excitation gain multiplied by the adaptive excitation vector and a stochastic excitation gain by which the probabilistic excitation vector is multiplied.
  • the code identification unit 512 optimizes the indexes of the above three codebooks (adaptive codebook, pulse spread codebook, and gain codebook) that minimize the distortion ER of equation 16 calculated by the distortion calculation unit 505 Select a combination. Then, the distortion specifying unit 512 outputs the index of each codebook selected when the distortion is minimized to the code output unit 513 as an adaptive excitation code, a stochastic excitation code, and a gain code, respectively. I do. And finally, the code output unit 5 13 is obtained by the linear prediction coefficient coding unit 502 The linear prediction code and the adaptive excitation code, stochastic excitation code, and gain code identified by the code identification unit 512 are all collected into a code (bit information) representing the input speech in the current processing frame. Output to the encoding device side.
  • code bit information
  • the identification of the adaptive excitation code, the stochastic excitation code, and the gain code performed by the code identification unit 512 may be performed after dividing a frame at a fixed time interval into shorter time intervals called subframes. is there. However, in the present specification, the following description is given without distinction between frames and subframes (after unifying them as frames).
  • the code input section 600 1 generates the code (bit for expressing the voice signal in the frame section by code) specified by the CELP voice coding device (FIG. 11). Information), and decomposes the received code into four types of codes: a linear prediction code, an adaptive excitation code, a stochastic excitation code, and a gain code. Then, the linear predictive code is sent to the linear predictive coefficient decoding unit 602, the adaptive excitation code is applied to the adaptive codebook 603, the stochastic excitation code is applied to the pulse spread codebook 604, and the gain code is applied to the gain codebook. Output to 605.
  • the linear prediction coefficient decoding unit 602 decodes the linear prediction code input from the code input unit 601 to obtain a decoded linear prediction code, and synthesizes the decoded linear prediction code. Output to Phil 609.
  • the composite filter 609 forms a composite filter of an all-pole model having the decoded linear prediction code obtained by the linear prediction coefficient decoder 602 as a coefficient.
  • adaptive codebook 603 outputs an adaptive excitation vector corresponding to the adaptive excitation code input from code input section 601.
  • pulse spread codebook 604 outputs a probabilistic excitation vector corresponding to the probabilistic excitation code input from code input section 601.
  • the gain codebook 600 reads out the adaptive excitation gain and the stochastic excitation gain corresponding to the gain code input from the code input section 601, and outputs the adaptive excitation gain multiplication section 606 and the stochastic excitation respectively. Output to gain multiplication section 607.
  • the adaptive excitation gain multiplication unit 606 multiplies the adaptive excitation vector output from the adaptive codebook 603 by the adaptive excitation gain output from the gain codebook 605, and generates a stochastic excitation gain.
  • Multiplying unit 607 Multiplies the stochastic excitation vector output from the pulse spreading codebook 604 by the stochastic excitation gain output from the gain codebook 605.
  • a vector adding unit 608 adds the output vectors of the adaptive sound source gain multiplying unit 606 and the stochastic sound source gain multiplying unit 607 to generate a driving sound source vector.
  • the synthetic sound source 609 is driven by the driving sound source vector, and the synthesized sound of the received frame section is output.
  • an adaptive codebook search is performed.
  • the adaptive codebook search process means that the periodic component in the prediction residual vector obtained by passing the input speech through the inverse filter is output from the adaptive codebook that stores the driving excitation vector of the past frame. This is the process of performing vector quantization using an adaptive sound source vector.
  • the periodic component in the linear prediction residual vector and the entry number of the adaptive excitation vector having a close periodic component are specified as the adaptive excitation code.
  • the ideal adaptive excitation gain is provisionally determined by the adaptive codebook search.
  • the pulse spread codebook search is a component obtained by removing the periodic component from the linear prediction residual vector of the processing frame, that is, a component obtained by subtracting the adaptive sound source vector component from the linear prediction residual vector (hereinafter referred to as “probabilistic sound”).
  • This is a process of performing vector quantization using a plurality of probable excitation vector candidates stored in a pulse spreading codebook.
  • the pulse spread codebook search processing the entry number of the stochastic excitation vector that encodes the stochastic excitation target with the least distortion is specified as the stochastic excitation code.
  • the ideal stochastic gain is provisionally determined by the pulse spread codebook search.
  • a gain codebook search is performed.
  • a vector consisting of two elements, an ideal adaptive gain tentatively obtained in the adaptive codebook search and an ideal stochastic gain tentatively obtained in the pulse spread codebook search is calculated as a gain code
  • the gain candidate vector stored in the notebook a vector candidate consisting of two elements, an adaptive sound source gain candidate and a stochastic sound source gain candidate
  • encoding vector quantization
  • the entry number of the gain candidate vector selected here is output to the code output unit as a gain code.
  • the pulse spread codebook search process (the process of specifying the probabilistic excitation code after identifying the adaptive excitation code) will be described in further detail. Give an explanation.
  • the linear prediction code and the adaptive excitation code have already been specified at the time of performing the pulse spreading codebook search.
  • H is the impulse response matrix of the synthesized filter composed of the linear prediction codes that have already been specified
  • p is the adaptive excitation code and the corresponding adaptive excitation vector
  • the ideal is that the adaptive excitation code is determined at the same time as the specified excitation code.
  • Equation 1 7 Where the vector v in Equation 17 is the input speech signal ii in the frame section, the impulse response matrix H of the synthetic filter (default), the adaptive sound source vector p (default), and the ideal adaptive sound source gain ga (provisional value). This is the probabilistic sound source target of Equation 18 below.
  • g a Adaptive sound source gain (provisional value)
  • Equation 16 Adaptive sound source vector
  • Equation 17 specifies the entry number.
  • the pulse spread codebook search is a process of finding the entry number k of the stochastic excitation vector ck that minimizes the distortion E Rk in Equation 17. Then, when specifying the entry number k of the stochastic sound source vector c k that minimizes the distortion E Rl in Equation 17, it can be assumed that the stochastic sound source gain g c can take an arbitrary value. Therefore, the process of finding the entry number that minimizes the distortion in Equation 17 is a process that identifies the entry number k of the stochastic sound source vector ck that maximizes the fractional expression Dk of Equation 10 above. Be replaced.
  • the pulse spread codebook search calculates the fractional expression Dk of the expression 10 for each entry number k of the stochastic excitation vector C k in the distortion calculation unit 505, and outputs the value to the code identification unit 5 1 2
  • the code identification unit 5 1 2 calculates the value of Expression 10 for each entry number k. By comparing the magnitudes, the entry number k when the value becomes the maximum is determined as a probabilistic excitation code, and is output to the code output unit 513.
  • FIG. 13A shows the configuration of pulse spread codebook 507 in the speech encoder shown in FIG. 11, and FIG. 13 shows the configuration of pulse spread codebook 604 in the speech decoder shown in FIG. Shown in B.
  • the difference in the configuration is that the spreading code registered in the spreading pattern storage unit is different. The point is that the shape of the pattern is different.
  • the diffusion pattern storage section 401 stores (1) statistically learns the shape of many probabilistic sound source sunsets, and obtains statistics during the probabilistic sound source sunset. (2) Efficiently expresses a diffuse pattern with random shapes to efficiently represent unvoiced consonant intervals and noise intervals, and (3) Efficiently expresses voiced stationary intervals (4) It has the effect of dispersing the energy of the source vector (energy is concentrated at the position of the nonzero element) output from the algebraic codebook to the surroundings. (5) For several appropriately prepared diffusion pattern candidates, repeat the encoding, decoding, and evaluation of the synthesized speech for audio signals so that high quality synthesized speech can be output.
  • the speech encoding device uses a diffusion pattern obtained by replacing the spreading pattern used by the speech decoding device with zero every other sample.
  • the speech coding apparatus also uses the spreading pattern obtained by replacing the elements of the spreading pattern used by the speech decoding apparatus with zeros every N (N ⁇ 1) samples.
  • the present embodiment can be applied as it is, and in that case, the same operation can be obtained.
  • the embodiment has been described where the diffusion pattern storage unit registers one type of diffusion pattern per channel, but two or more types of diffusion patterns are registered per channel.
  • the present invention can also be applied to CELP voice coding devices and decoding devices that use a pulse spread codebook for the stochastic codebook, which is characterized by selecting and using these spread patterns. Yes, and in that case, the same operation and effect can be obtained.
  • the embodiment has been described in which the algebraic codebook unit uses a pulse spread codebook that outputs a vector including three non-zero elements, but the algebraic codebook unit outputs
  • This embodiment can be applied to the case where the number of non-zero elements in the vector to be executed is M (M ⁇ l), and the same operation and effect can be obtained in such a case. .
  • an algebraic codebook is used as a codebook for generating a pulse vector composed of a small number of non-zero elements.
  • Pulse codebook and regular pulse The present embodiment can be applied to a case where another codebook such as a codebook is used, and the same operation and effect can be obtained in such a case.
  • FIG. 14A shows the configuration of the pulse spread codebook in the speech encoding device shown in FIG. 11, and FIG. 14B shows the configuration of the pulse spread codebook in the speech decoding device shown in FIG. .
  • the diffusion pattern storage section 401 stores the same diffusion pattern as the above-mentioned diffusion pattern, that is, (1) statistically stores the shape of many stochastic sound source targets. Learning, the diffusion pattern of the shape that is statistically included in the probabilistic sound source target at a high frequency, (2) The diffusion pattern of the random shape for efficiently expressing the unvoiced consonant section and the noise section, (3) ) A pulse-shaped diffusion pattern to efficiently represent voiced stationary sections.
  • the above-described processing is performed without knowing that different spreading patterns are registered on the coding apparatus side and the decoding apparatus side. Encode and decode the audio signal in the same way as in the case.
  • the pulse spread codebook is used for the stochastic codebook part
  • the speech encoding device uses a diffusion pattern obtained by truncating the diffusion pattern used by the speech decoding device by half the length.
  • the spreading pattern used by the speech coding device is truncated to a shorter length N (N ⁇ 1), the speech coding device will perform An effect is obtained when the amount of processing operation can be further reduced.
  • N a shorter length
  • this corresponds to a speech coding device that does not use a spreading pattern (a spreading pattern is applied to a speech decoding device).
  • the diffusion pattern storage unit registers one type of diffusion pattern per channel.
  • two or more types of diffusion patterns are registered per channel, and these diffusion patterns are registered.
  • the present embodiment can also be applied to a speech coding apparatus that uses a pulse spread codebook for the stochastic codebook, which is characterized by using Similar functions and effects can be obtained.
  • the embodiment has been described in which the algebraic codebook unit uses a pulse spread codebook that outputs a vector including three non-zero elements, but the algebraic codebook unit outputs
  • This embodiment can be applied to the case where the number of non-zero elements in the vector to be executed is M (M ⁇ l), and the same operation and effect can be obtained in such a case. .
  • the speech coding apparatus uses a spreading pattern in which the spreading pattern used in the speech decoding apparatus is truncated by half the length. Then, the diffusion pattern used by the speech decoding device is truncated at length N (N ⁇ l), and the diffusion pattern after truncation is M (M ⁇ l) It is also possible to replace each sample with zero, in which case the amount of code search operation can be further reduced.
  • the CELP speech coding apparatus and decoding apparatus using the pulse spread codebook for the probabilistic codebook unit, and the speech coding and decoding system the fixed waveform frequently included in the stochastic sound source target is registered as a diffusion pattern, and the diffusion pattern is superimposed (reflected) on the pulse vector, so that the stochastic sound source closer to the stochastic sound source target is registered. Since the vector can be used, it is possible to improve the quality of synthesized speech on the decoding side, and furthermore, a problem may occur when the pulse spreading codebook is used for the probabilistic codebook on the encoding side. An advantageous effect is obtained that the amount of calculation for a certain probabilistic codebook search can be suppressed lower than before.
  • these speech encoding / Z decoding may be configured as software.
  • a configuration may be adopted in which a program for speech encoding and Z decoding is stored in a ROM, and the program is operated according to an instruction from the CPU according to the program.
  • the program, the adaptive codebook, and the stochastic codebook are stored in a computer-readable storage medium, and the program, the adaptive codebook, and the probabilistic codebook (pulse codebook) of the storage medium are stored.
  • Spreading codebook may be recorded in the RAM of the computer and operated according to the program.
  • the program according to the first to third embodiments may be downloaded by a communication terminal, and the program may be operated by the communication terminal.
  • the above first to third embodiments may be implemented individually or in combination. This description is based on Japanese Patent Application No. 11-235050, filed on August 23, 1999, Japanese Patent Application No. 11-236728, filed on August 24, 1999, and Japanese Patent Application No. 11-236728, filed on September 2, 1999. Based on Ganpei 1 1—248363. These are all included here. Industrial applicability
  • the present invention can be applied to a base station device and a communication terminal device in a digital communication system.

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)
  • Compression Or Coding Systems Of Tv Signals (AREA)

Description

明 細 書 音声符号化装置及び音声符号化方法 技術分野
本発明は、 ディジタル通信システムにおいて使用される音声符号化装置およ び音声符号化方法に関する。 背景技術
携帯電話などのディジ夕ル移動通信の分野では、 加入者の増加に対処するた めに低ビットレートの音声の圧縮符号化法が求められており、 各研究機関にお いて研究開発が進んでいる。
日本国内においては、 モトローラ社が開発したビットレート 1 1. 2 kb p sの V S E L Pという符号化法がディジ夕ル携帯電話用の標準符号化方式と して採用され、 同方式を搭載したディジタル携帯電話は 1994年秋から国内 において発売されている。
また、 NTT移動通信網株式会社の開発したビットレート 5. 6 k b p sの
PS I—CELPという符号化方式が現在製品化されている。 これらの方式は いずれも C E L P (Code Exited Linear Prediction: M . R . Schroeder" High Quality Speech at Low Bit Rates " Proc . ICASSP ' 85 pp.937-940に記載されている)という方式を改良したものである。
この CE LP方式は、 音声を音源情報と声道情報とに分離し、 音源情報につ いては符号帳に格納された複数の音源サンプルのィンデクスによって符号化 し、 声道情報については LPC (線形予測係数) を符号化するということ及び 音源情報符号化の際に声道情報を加味して入力音声とを比較することを行う 方法(A— b— S: Analysis by Synthesis )を採用していることに特徴があ る。 この C E L P方式においては、 まず、 入力された音声データ (入力音声) に 対して自己相関分析と L P C分析を行って L P C係数を得て、 得られた L P C 係数の符号化を行って L P C符号を得る。 さらに、 得られた L P C符号を復号 化して復号化 L P C係数を得る。 一方、 入力音声は、 L P C係数を用いた聴感 重み付けフィル夕を用いて聴感重み付けされる。
適応符号帳と確率的符号帳に格納された音源サンプル (それぞれ適応コード ベクトル (又は適応音源) 、 確率的コードベクトル (又は、 確率的音源) と呼 ぶ) のそれぞれのコードベクトルに対して、 得られた復号化 L P C係数によつ てフィル夕リングを行い、 2つの合成音を得る。
そして、 得られた 2つの合成音と、 聴感重み付けされた入力音声との関係を 分析し、 2つの合成音の最適値 (最適ゲイン) を求め、 求められた最適ゲイン によって合成音をパワー調整し、 それぞれの合成音を加算して総合合成音を得 る。 その後、 得られた総合合成音と入力音声との間の符号化歪みを求める。 こ のようにして、 全ての音源サンプルに対して総合合成音と入力音声との間の符 号化歪みを求め、 符号化歪みが最も小さいときの音源サンプルのインデクスを 求める。
このようにして得られたゲイン及び音源サンプルのインデクスを符号化し、 これらの符号化されたゲイン及び音源サンプルを L P C符号と共に伝送路に 送る。 また、 ゲイン符号と音源サンプルのインデクスに対応する 2つの音源か ら実際の音源信号を作成し、 それを適応符号帳に格納すると同時に古い音源サ ンプルを破棄する。
なお、 一般的には、 適応符号帳と確率的符号帳に対する音源探索は、 分析区 間をさらに細かく分けた区間 (サブフレームと呼ばれる) で行われる。
ゲインの符号化 (ゲイン量子化) は、 音源サンプルのインデクスに対応する 2つの合成音を用いてゲインの量子化歪を評価するベクトル量子化 (V Q) に よって行われる。
このアルゴリズムにおいては、 予めパラメ一夕べクトルの代表的サンプル (コードベクトル) が複数格納されたベクトル符号帳を作成しておく。 次いで、 聴感重み付けした入力音声と、 適応音源及び確率的音源を聴感重み付け L P C 合成したものとに対して、 べクトル符号帳に格納されたゲインコードべクトル を用いて符号化歪を下記式 1により計算する。
I 2
En = ^ (Xi - gn X Ai - hn Si) 式 l ここで、
E n: n番のゲインコードべクトルを用いたときの符号化歪み
X i :聴感重み付け音声
A , :聴感重み付け L P C合成済み適応音源
S i :聴感重み付け L P C合成済み確率的音源
g n:コードべクトルの要素 (適応音源側のゲイン)
h n:コードべクトルの要素 (確率的音源側のゲイン)
n :コ一ドべクトルの番号
i :音源データのインデクス
I :サブフレーム長 (入力音声の符号化単位)
次いで、 べクトル符号帳を制御することによって各コ一ドべクトルを用いた ときの歪 E nを比較し、 最も歪の小さいコードべクトルの番号をべクトルの符 号とする。 また、 ベクトル符号帳に格納された全てのコードベクトルの中で最 も歪みが小さくなるコードベクトルの番号を求め、 これをベクトルの符号とす る。
上記式 1は一見して各 n毎に多くの計算を必要とするように見えるが、 予め iについての積和を計算しておけばよいので、 少ない計算量で nの探索を行う ことができる。
一方、 音声復号化装置 (デコーダ) では、 伝送されてきたベクトルの符号に 基づいてコードべクトルを求めることによって符号化されたデータを復号化 してコ一ドべクトルを得る。
また、 上記アルゴリズムを基本として、 従来よりさらなる改良がなされてき た。 例えば、 人間の音圧の聴覚特性が対数であることを利用し、 パヮを対数化 して量子化し、 そのパヮで正規化した 2つのゲインを V Qする。 この方法は、 日本国 P D Cハーフレートコ一デックの標準方式で用いられている方法であ る。 また、 ゲインパラメ一夕のフレーム間相関を利用して符号化する方法 (予 測符号化) がある。 この方法は、 I T U— T国際標準 G . 7 2 9で用いられて いる方法である。 しかしな力 ら、 これらの改良によっても十分な性能を得るこ とができていない。
これまで人間の聴覚特性やフレーム間相関を利用したゲイン情報符号化法 が開発され、 ある程度効率の良いゲイン情報の符号化が可能になった。 特に、 予測量子化によって性能は大きく向上したが、 その従来法では、 状態としての 値として以前のサブフレームの値をそのまま用いて予測量子化を行っていた。 しかしながら、 状態として格納される値の中には、 極端に大きな (小さな) 値 をとるものがあり、 その値を次のサブフレームに用いると、 次のサブフレーム の量子化がうまくいかず、 局所的異音になる場合がある。 発明の開示
本発明の目的は、 予測量子化を用いて局所的異音を生じることなく音声符号 化を行うことができる C E L P型音声符号化装置及び方法を提供することで ある。
本発明の主題は、 予測量子化において前のサブフレームでの状態値が極端に 大きな値や極端に小さな値である場合に、 自動的に予測係数を調整することに より、 局所的異音の発生を防止することである。 図面の簡単な説明
図 1は、 本発明の音声符号化装置を備えた無線通信装置の構成を示すプロッ ク図;
図 2は、 本発明の実施の形態 1に係る音声符号化装置の構成を示すプロック 図;
図 3は、 図 2に示す音声符号化装置におけるゲイン演算部の構成を示すプロ ック図;
図 4は、 図 2に示す音声符号化装置におけるパラメータ符号化部の構成を示 すブロック図;
図 5は、 本発明の実施の形態 1に係る音声符号化装置で符号化された音声デ 一夕を復号する音声複号化装置の構成を示すプロック図;
図 6は、 適応符号帳探索を説明するための図;
図 7は、 本発明の実施の形態 2に係る音声符号化装置の構成を示すプロック 図;
図 8は、 パルス拡散符号帳を説明するためのブロック図;
図 9は、 パルス拡散符号帳の詳細な構成の一例を示すブロック図; 図 1 0は、 パルス拡散符号帳の詳細な構成の一例を示すプロック図; 図 1 1は、 本発明の実施の形態 3に係る音声符号化装置の構成を示すブロッ ク図;
図 1 2は、 本発明の実施の形態 3に係る音声符号化装置で符号化された音声 データを復号する音声復号化装置の構成を示すブロック図;
図 1 3 Aは、 本発明の実施の形態 3に係る音声符号化装置で用いるパルス拡 散符号帳の一例を示す図;
図 1 3 Bは、 本発明の実施の形態 3に係る音声復号化装置で用いるパルス拡 散符号帳の一例を示す図;
図 1 4 Aは、 本発明の実施の形態 3に係る音声符号化装置で用いるパルス拡 散符号帳の一例を示す図;並びに
図 1 4 Bは、 本発明の実施の形態 3に係る音声復号化装置で用いるパルス拡 散符号帳の一例を示す図である。 発明を実施するための最良の形態
以下、 本発明の実施の形態について、 添付図面を参照して詳細に説明する。
(実施の形態 1 )
図 1は、 本発明の実施の形態 1〜 3に係る音声符号化装置を備えた無線通信 装置の構成を示すブロック図である。
この無線通信装置において、 送信側で音声がマイクなどの音声入力装置 1 1 によって電気的アナログ信号に変換され、 AZD変換器 1 2に出力される。 ァ ナログ音声信号は、 AZD変換器 1 2によってディジタル音声信号に変換され、 音声符号化部 1 3に出力される。 音声符号化部 1 3は、 ディジタル音声信号に 対して音声符号化処理を行い、 符号化した情報を変復調部 1 4に出力する。 変 復調部 1 4は、 符号化された音声信号をディジタル変調して、 無線送信部 1 5 に送る。 無線送信部 1 5では、 変調後の信号に所定の無線送信処理を施す。 こ の信号は、 アンテナ 1 6を介して送信される。 なお、 プロセッサ 2 1は、 適宜 R AM 2 2及び R OM 2 3に格納されたデータを用いて処理を行う。
一方、 無線通信装置の受信側では、 アンテナ 1 6で受信した受信信号は、 無 線受信部 1 7で所定の無線受信処理が施され、 変復調部 1 4に送られる。 変復 調部 1 4では、 受信信号に対して復調処理を行い、 復調後の信号を音声復号化 部 1 8に出力する。 音声複号化部 1 8は、 復調後の信号に復号処理を行ってデ ィジ夕ル復号音声信号を得て、 そのディジ夕ル復号音声信号を D ZA変換器 1 9へ出力する。 D ZA変換器 1 9は、 音声復号化部 1 8から出力されたデイジ 夕ル復号音声信号をアナログ復号音声信号に変換してスピーカなどの音声出 力装置 2 0に出力する。 最後に音声出力装置 2 0が電気的アナログ復号音声信 号を復号音声に変換して出力する。
ここで、 音声符号化部 1 3及び音声復号化部 1 8は、 R AM 2 2及び R O M 2 3に格納された符号帳を用いて D S Pなどのプロセッサ 2 1により動作す る。 また、 これらの動作プログラムは、 R O M 2 3に格納されている。 図 2は、 本発明の実施の形態 1に係る CE LP型音声符号化装置の構成を示 すブロック図である。 この音声符号化装置は、 図 1に示す音声符号化部 13に 含まれている。 なお、 図 2に示す適応符号帳 103は図 1に示す RAM22に 格納されており、 図 2に示す確率的符号帳 104は図 1に示す ROM 23に格 納されている。
図 2に示す音声符号化装置においては、 L PC分析部 102において、 入力 された音声データ 10 1に対して自己相関分析及び LP C分析を行って LP C係数を得る。 また、 L PC分析部 102では、 得られた LP C係数の符号化 を行って LP C符号を得る。 さらに、 L PC分析部 102では、 得られた LP C符号を復号化して復号化 L PC係数を得る。 入力された音声データ 101は、 聴感重み付け部 107に送られ、 そこで上記 LP C係数を用いた聴感重み付け フィル夕を用いて聴感重み付けされる。
次に、 音源作成部 105において、 適応符号帳 103に格納された音源サン プル (適応コードべクトル又は適応音源) と確率的符号帳 104に格納された 音源サンプル (確率的コードベクトル又は、 確率的音源) を取り出し、 それぞ れのコードベクトルを聴感重み L P C合成部 106へ送る。 さらに、 聴感重み し?じ合成部106において、 音源作成部 105で得られた 2つの音源に対し て、 し?( 分析部102で得られた復号化 LP C係数によってフィルタリング を行い、 2つの合成音を得る。
なお、 聴感重み LP C合成部 106においては、 LPC係数や高域強調フィ ル夕ゃ長期予測係数 (入力音声の長期予測分析を行うことによって得られる) を用いた聴感重み付けフィルターを併用してそれぞれの合成音に対して聴感 重み付け LP C合成を行う。
聴感重み LP C合成部 106は、 2つの合成音をゲイン演算部 108に出力 する。 ゲイン演算部 108は、 図 3に示す構成を有する。 ゲイン演算部 108 においては、 聴感重み LP C合成部 106で得られた 2つの合成音及びを聴感 重み付けされた入力音声を分析部 108 1に送り、 そこで 2つの合成音と入力 音声との関係を分析し、 2つの合成音の最適値 (最適ゲイン) を求める。 この 最適ゲインは、 パヮ調整部 1 0 8 2に出力される。
パヮ調整部 1 0 8 2では、 求められた最適ゲインによって 2つの合成音をパ ヮ調整する。 パヮ調整された合成音は、 合成部 1 0 8 3に出力されて、 そこで 加算されて総合合成音となる。 この総合合成音は、 符号化歪算出部 1 0 8 4に 出力される。 符号化歪算出部 1 0 8 4では、 得られた総合合成音と入力音声と の間の符号化歪みを求める。
符号化歪算出部 1 0 8 4は、 音源作成部 1 0 5を制御して、 適応符号帳 1 0 3及び確率的符号帳 1 0 4の全ての音源サンプルを出力させ、 全ての音源サン プルに対して総合合成音と入力音声との間の符号化歪みを求め、 符号化歪みが 最も小さいときの音源サンプルのインデクスを求める。
次に、 分析部 1 0 8 1は、 音源サンプルのインデクス、 そのインデクスに対 応する 2つの聴感重み付け L P C合成された音源、 及び入力音声をパラメ一夕 符号化部 1 0 9に送る。
パラメ一夕符号化部 1 0 9では、 ゲインの符号化を行うことによってゲイン 符号を得、 L P C符号、 音源サンプルのインデクスをまとめて伝送路へ送る。 また、 ゲイン符号とィンデクスに対応する 2つの音源から実際の音源信号を作 成し、 それを適応符号帳 1 0 3に格納すると同時に古い音源サンプルを破棄す る。 なお、 一般的には、 適応符号帳と確率的符号帳に対する音源探索は、 分析 区間をさらに細かく分けた区間 (サブフレームと呼ばれる) で行われる。 ここで、 上記構成を有する音声符号化装置のパラメ一夕符号化部 1 0 9のゲ イン符号化の動作について説明する。 図 4は、 本発明の音声符号化装置のパラ メータ符号化部の構成を示すプロック図である。
図 4において、 聴感重み付け入力音声 (Χ ; ) 、 聴感重み付け L P C合成済 み適応音源 (Α 、 及び聴感重み付け L P C合成済み確率的音源 (S i ) がパ ラメ一夕計算部 1 0 9 1に送られる。 パラメ一夕計算部 1 0 9 1では、 符号化 歪計算に必要なパラメ一夕を計算する。 パラメ一夕計算部 1 0 9 1で計算され たパラメ一夕は、 符号化歪計算部 1 0 9 2に出力され、 そこで符号化歪が計算 される。 この符号化歪は、 比較部 1 0 9 3に出力される。 比較部 1 0 9 3では、 符号化歪計算部 1 0 9 2及びべクトル符号帳 1 0 9 4を制御して、 得られた符 号化歪から最も適当とされる符号 (復号化ベクトル) を求め、 この符号を基に べクトル符号帳 1 0 9 4から得られるコードべクトルを複号化べクトル格納 部 1 0 9 6に出力し、 復号化べクトル格納部 1 0 9 6を更新する。
予測係数格納部 1 0 9 5は、 予測符号化に用いる予測係数を格納する。 この 予測係数はパラメ一夕計算及び符号化歪計算に用いられるために、 パラメ一夕 計算部 1 0 9 1及び符号化歪計算部 1 0 9 2に出力される。 復号化べクトル格 納部 1 0 9 6は、 予測符号化のために状態を格納する。 この状態は、 パラメ一 夕計算に用いられるため、 パラメ一夕計算部 1 0 9 1に出力される。 ベクトル 符号帳 1 0 9 4は、 コードベクトルを格納する。
次に、 本発明に係るゲイン符号化方法のァルゴリズムについて説明する。 予め、 量子化対象ベクトルの代表的サンプル (コードベクトル) が複数格納 されたベクトル符号帳 1 0 9 4を作成しておく。 各ベクトルは、 A Cゲイン、 S Cゲインの対数値に対応する値、 及び S Cの予測係数の調整係数の 3つの要 素からなる。
この調整係数は、 以前のサブフレームの状態に応じて予測係数を調整する係 数である。 具体的には、 この調整係数は、 以前のサブフレームの状態が極端に 大きな値又は極端に小さな値である場合に、 その影響を小さくするように設定 される。 この調整係数は、 多数のベクトルサンプルを用いた本発明者らが開発 した学習アルゴリズムにより求めることが可能である。 ここでは、 この学習ァ ルゴリズムについての説明は省略する。
例えば、 有声音に多くの頻度で用いるコードべクトルは調整係数を大きく設 定する。 すなわち、 同じ波形が並んでいる場合には、 以前のサブフレームの状 態の信頼性が高いので調整係数を大きくして、 以前のサブフレームの予測係数 をそのまま利用できるようにする。 これにより、 より効率的な予測を行うこと ができる。
一方、 語頭などに使用するあまり使用頻度の少ないコードべクトルは調整係 数を小さくする。 すなわち、 前の波形と全然違う場合には、 以前のサブフレー ムの状態の信頼性が低い (適応符号帳が機能しないと考えられる) ので、 調整 係数を小さくして、 以前のサブフレームの予測係数の影響を小さくする。 これ により、 次の予測の弊害を防いで良好な予測符号化を実現することができる。 このように、 各コードベクトル (状態) に応じて予測係数を制御することに より、 これまでの予測符号化の性能をさらに向上させることができる。
また、 予測係数格納部 1 0 9 5には、 予測符号化を行うための予測係数を格 納しておく。 この予測係数は M A (moving average )の予測係数で A Cと S Cの 2種類を予測次数分格納する。 これらの予測係数値は、 一般に、 予め多く のデータを用いた学習により求めておく。 また、 複号化ベクトル格納部 1 0 9 6には、 初期値として無音状態を示す値を格納しておく。
次に、 符号化方法について詳細に説明する。 まず、 パラメ一夕計算部 1 0 9 1に聴感重み付け入力音声 (X 、 聴感重み付け L P C合成済み適応音源(A 、 聴感重み付け L P C合成済み確率的音源 (S を送り、 さらに復号化べ クトル格納部 1 0 9 6に格納された復号化ベクトル (A C、 S C、 調整係数) 、 予測係数格納部 1 0 9 5に格納された予測係数 (A C、 S O を送る。 これら を用いて符号化歪計算に必要なパラメ一夕を計算する。
符号化歪計算部 1 0 9 2における符号化歪計算は、 下記式 2にしたがって行 Ό。
I 2
En = (Xi - Gan χ Ai - Gsn χ Si) 式 2 ここで、
G a n , G s n:復号化ゲイン
E n : n番のゲインコードべクトルを用いたときの符号化歪み Xi 聴感重み付け音声
聴感重み付け L P C合成済み適応音源
S i 聴感重み付け L P C合成済み確率的音源
n コードべクトルの番号
i 音源べクトルのインデクス
I サブフレーム長 (入力音声の符号化単位)
この場合、 演算量を少なくするために、 パラメ一夕計算部 1 09 1では、 コ —ドベクトルの番号に依存しない部分の計算を行う。 計算しておくものは、 上 記予測ベクトルと 3つの合成音 (Χ Α;, S i) 間の相関、 パヮである。 こ の計算は、 下記式 3にしたがって行う。
Dxx = jXixXi Dxa = Xi χ Ai χ 2
Dxs = Xi x Si x 2
Daa = ^ Ai x Ai
Figure imgf000013_0001
Dss = SixSi 式 3
Dxx, Dxa, Dxs, Daa, Da! Ds ·合成音間の相関値、 パヮ
X i :聴感重み付け音声
As :聴感重み付け L P C合成済み適応音源
S :聴感重み付け L P C合成済み確率的音源
n :コードべクトルの番号
i :音源ベクトルのインデクス
I :サブフレーム長 (入力音声の符号化単位) また、 パラメ一夕計算部 1091では、 復号化ベクトル格納部 1096に格 納された過去のコードべクトルと、 予測係数格納部 1095に格納された予測 係数を用いて下記式 4に示す 3つの予測値を計算しておく。
Pra = 2 am x Sam
m-0
M
Prs = Pm x Scm x Ssm
m-0
M
Psc = ^pm Scm
m-0 式 4 ここで、
Pra:予測値
P r B :予測値
Ps :予測値 (予測係数)
am :予測係数 (ACゲイン、 固定値)
i3m :予測係数 (SCゲイン、 固定値)
Sam:状態 (過去のコードベクトルの要素、 ACゲイン)
S :状態 (過去のコードベクトルの要素、 SCゲイン)
Scm:状態 (過去のコードベクトルの要素、 SC予測係数調整係数)
m:予測インデクス
M:予測次数
上記式 4から分かるように、 Prs、 Pscについては、 従来と異なり調整係数 が乗算されている。 したがって、 S Cゲインの予測値及び予測係数については、 調整係数により、 以前のサブフレームにおける状態の値が極端に大きいか小さ い場合に、 それを緩和する (影響を小さくする) ことができる。 すなわち、 状 態に応じて適応的に S Cゲインの予測値及び予測係数を変化させることが可 能となる。
次に、 符号化歪計算部 1092において、 パラメ一夕計算部 1091で計算 した各パラメ一夕、 予測係数格納部 1095に格納された予測係数、 及びべク トル符号帳 1094に格納されたコードべクトルを用いて、 下記式 5にしたが つて符号化歪を算出する。
En = Dxx + (Gan)2 χ Daa + (Gsn)2 x Dss - Gan x Dxa 一 Gsn χ Dxs + Gan χ Gsn χ Das
Gan = Pr a + (1 - Pac ) χ Can
Gsn = 10A{Pr s + (1 -Psc)xCsn 式 5 ここで、
En: n番のゲインコードべクトルを用いたときの符号化歪み
Dxx, Dxa, Dxs, Daa, Das, Ds s :合成音間の相関値、 パヮ
Gan, Gsn:復号化ゲイン
Pra:予測値 (ACゲイン)
Pr s :予測値 (SCゲイン)
Pac:予測係数の和 (固定値)
Psc :予測係数の和 (上記式 4で算出)
Can, Cs n, : コードベクトル、 Cenは予測係数調整係数であるがこ こでは使用しない
n :コードべクトルの番号
なお、 実際には Dxxはコードベクトルの番号 nに依存しないので、 その加算 を省略することができる。
次いで、 比較部 1093は、 べクトル符号帳 1094と符号化歪計算部 10 92を制御し、 ベクトル符号帳 1094に格納された複数のコードベクトルの 中で符号化歪計算部 1092にて算出された符号化歪みの最も小さくなるコ ードベクトルの番号を求め、 これをゲインの符号とする。 また、 得られたゲイ ンの符号を用いて復号化べクトル格納部 1096の内容を更新する。 更新は、 下記式 6にしたがって行う。
Sam=Sam-l(M=M〜l),SaO=CaJ
Ssm=Ssm-l(M=M〜 1),SS0=CSJ
Scm=Scm-l(M=M〜l),ScO=CcJ
式 6 ここで、
S a m, S s m, S c m:状態ベクトル (A C、 S C、 予測係数調整係数) m:予測インデクス
M:予測次数
J :比較部で求められた符号
式 4から式 6までで分かるように、 本実施の形態では、 複号化ベクトル格納 部 1 0 9 6で状態べクトル S e mを格納しておいて、 この予測係数調整係数を用 いて予測係数を適応的に制御している。
図 5は、 本発明の実施の形態の音声復号化装置の構成を示すプロック図であ る。 この音声復号化装置は、 図 1に示す音声復号化部 1 8に含まれている。 な お、 図 5に示す適応符号帳 2 0 2は図 1に示す R AM 2 2に格納されており、 図 5に示す確率的符号帳 2 0 3は図 1に示す R OM 2 3に格納されている。 図 5に示す音声復号化装置において、 パラメ一夕復号化部 2 0 1は、 伝送路 から、 符号化された音声信号を得ると共に、 各音源符号帳 (適応符号帳 2 0 2、 確率的符号帳 2 0 3 ) の音源サンプルの符号、 L P C符号、 及びゲイン符号を 得る。 そして、 L P C符号から復号化された L P C係数を得て、 ゲイン符号か ら復号化されたゲインを得る。
そして、 音源作成部 2 0 4は、 それぞれの音源サンプルに復号化されたゲイ ンを乗じて加算することによって復号化された音源信号を得る。 この際、 得ら れた復号化された音源信号を、 音源サンプルとして適応符号帳 2 0 4へ格納し、 同時に古い音源サンプルを破棄する。 そして、 し?じ合成部2 0 5では、 復号 化された音源信号に復号化された L P C係数によるフィル夕リングを行うこ とによって、 合成音を得る。
また、 2つの音源符号帳は、 図 2に示す音声符号化装置に含まれるもの (図 2の参照符号 1 0 3, 1 0 4 ) と同様のものであり、 音源サンプルを取り出す ためのサンプル番号 (適応符号帳への符号と確率的符号帳への符号) は、 いず れもパラメ一夕復号化部 2 0 1から供給される。
このように、 本実施の形態の音声符号化装置では、 各コードベクトルに応じ て予測係数を制御することが可能になり、 音声の局所的特徴により適応したよ り効率的な予測や、 非定常部における予測の弊害を防ぐことが可能になり、 従 来得られなかつた格別の効果を得ることができる。
(実施の形態 2 )
音声符号化装置において、 上述したように、 ゲイン演算部では、 音源作成部 から得られた適応符号帳、 確率的符号帳の全ての音源について合成音と入力音 声との間の比較を行う。 このとき、 演算量の都合上、 通常は 2つの音源 (適応 符号帳と確率的符号帳) はオープンループに探索される。 以下、 図 2を参照し て説明する。
このオープンループ探索においては、 まず、 音源作成部 1 0 5は適応符号帳 1 0 3からのみ音源候補を次々に選び、 聴感重み L P C合成部 1 0 6を機能さ せて合成音を得て、 ゲイン演算部 1 0 8へ送り、 合成音と入力音声との間の比 較を行って最適な適応符号帳 1 0 3の符号を選択する。
次いで、 上記適応符号帳 1 0 3の符号を固定して、 適応符号帳 1 0 3からは 同じ音源を選択し、 確率的符号帳 1 0 4からはゲイン演算部 1 0 8の符号に対 応した音源を次々に選択して聴感重み L P C合成部 1 0 6へ伝送する。 ゲイン 演算部 1 0 8で両合成音の和と入力音声との間の比較を行って確率的符号帳 1 0 4の符号を決定する。
このアルゴリズムを用いた場合、 全ての符号帳の符号をそれぞれに対して全 て探索するよりは符号化性能は若干劣化するが、 計算量は大幅に削減される。 このため一般にはこのオープンループ探索が用いられる。 ここで、 従来のオープンループの音源探索の中で代表的なアルゴリズムにつ いて説明する。 ここでは、 1つの分析区間 (フレーム) に対して 2つのサブフ レームで構成する場合の音源探索手順について説明する。
まず、 ゲイン演算部 1 0 8の指示を受けて、 音源作成部 1 0 5は適応符号帳 1 0 3から音源を引出して聴感重み L P C合成部 1 0 6へ送る。 ゲイン演算部 1 0 8において、 合成された音源と第 1サブフレームの入力音声との間の比較 を繰り返して最適な符号を求める。 ここで、 適応符号帳の特徴を示す。 適応符 号帳は過去において合成に使用した音源である。 そして、 符号は、 図 6に示す ようにタイムラグに対応している。
次に、 適応符号帳 1 0 3の符号が決まった後に、 確率的符号帳の探索を行う。 音源作成部 1 0 5は適応符号帳 1 0 3の探索で得られた符号の音源とゲイン 演算部 1 0 8で指定された確率的符号帳 1 0 4の音源とを取り出して聴感重 み L P C合成部 1 0 6へ送る。 そして、 ゲイン演算部 1 0 8において、 聴感重 み付け済みの合成音と聴感重み付け済みの入力音声との間の符号化歪みを計 算し、 最も適当な (二乗誤差が最小となるもの) 確率的音源 1 0 4の符号を決 める。 1つの分析区間 (サブフレームが 2の場合) での音源符号探索の手順を 以下に示す。
1 ) 第 1サブフレームの適応符号帳の符号を決定
2 ) 第 1サブフレームの確率的符号帳の符号を決定
3 ) パラメ一夕符号化部 1 0 9でゲインを符号化し、 復号化ゲインで第 1サ ブフレームの音源を作成し、 適応符号帳 1 0 3を更新する。
4 ) 第 2サブフレームの適応符号帳の符号を決定
5 ) 第 2サブフレームの確率的符号帳の符号を決定
6 ) パラメ一夕符号化部 1 0 9でゲインを符号化し、 復号化ゲインで第 2サ ブフレームの音源を作成し、 適応符号帳 1 0 3を更新する。
上記アルゴリズムによって効率よく音源の符号化を行うことができる。 しか しながら、 最近では、 さらなる低ビットレート化を目指し、 音源のビット数を 節約する工夫が行われている。 特に注目されているのは、 適応符号帳のラグに 大きな相関があることを利用して、 第 1サブフレームの符号はそのままで、 第 2サブフレームの探索範囲を第 1サブフレームのラグの近くに狭めて (ェント リ数を減らして) ビット数を少なくするというアルゴリズムである。
このアルゴリズムでは、 分析区間 (フレーム) の途中から音声が変化する場 合や、 2つのサブフレームの様子が大きく異なる場合には局所的劣化を引き起 こすことが考えられる。
本実施の形態では、 符号化の前に 2つのサブフレーム両方についてピッチ分 析を行って相関値を算出し、 得られた相関値に基づいて 2つのサブフレームの ラグの探索範囲を決定する探索方法を実現する音声符号化装置を提供する。 具体的には、 本実施の形態の音声符号化装置は、 1つのフレームを複数のサ ブフレームに分解してそれぞれを符号化する C E L P型符号化装置において、 最初のサブフレームの適応符号帳探索の前に、 フレームを構成する複数のサブ フレームのピッチ分析を行って相関値を算出するピッチ分析部と、 上記ピッチ 分析部がフレームを構成する複数のサブフレームの相関値を算出すると共に、 その相関値の大小から各サブフレームで最もピッチ周期らしい値 (代表ピッチ と呼ぶ) を求め、 ピッチ分析部にて得られた相関値と代表ピッチとに基づいて 複数のサブフレームのラグの探索範囲を決定する探索範囲設定部と、 を備える ことを特徴としている。 そして、 この音声符号化装置では、 探索範囲設定部に おいて、 ピッチ分析部で得た複数のサブフレームの代表ピッチと相関値を利用 して採索範囲の中心となる仮のピッチ (仮ピッチと呼ぶ) を求め、 探索範囲設 定部において、 求めた仮ピッチの周りの指定の範囲にラグの探索区間を設定し、 ラグの探索区間を設定するときに、 仮ピッチの前後に探索範囲を設定する。 ま た、 その際に、 ラグの短い部分の候補を少なくし、 ラグのより長い範囲を広く 設定し、 適応符号帳探索の際に上記探索範囲設定部で設定された範囲でラグの 探索を行う。
以下、 本実施の形態に係る音声符号化装置について添付図面を用いて詳細に
c説明する。 ここでは、 1フレームは 2サブフレームに分割されているものとす る。 3サブフレーム以上の場合でも同様の手順で符号化を行うことができる。 この音声符号化装置においては、 いわゆるデルタラグ方式によるピッチ探索 において、 分割されたサブフレームについてすべてピッチを求め、 ピッチ間で どの程度の相関があるかどうかを求めて、 その相関結果に応じて探索範囲を決 定する。
図 7は、 本発明の実施の形態 2に係る音声符号化装置の構成を示すプロック 図である。 まず、 L PC分析部 302において、 入力された音声デ一夕 (入力 音声) 301に対して自己相関分析と LP C分析を行うことによって LP C係 数を得る。 また、 L PC分析部 302にぼいて、 得られた LPC係数の符号化 を行って L PC符号を得る。 さらに、 L PC分析部 302において、 得られた L P C符号を復号化して復号化 L P C係数を得る。
次いで、 ピッチ分析部 310において、 2サブフレーム分の入力音声のピッ チ分析を行い、 ピッチ候補とパラメ一夕を求める。 1サブフレームに対するァ ルゴリズムを以下に示す。 相関係数は、 下記式 7により、 2つ求められる。 な おこの時、 Cppは Pmi nについてまず求め、 あとの Pmi n+1、 Pmi n + 2について は、 フレーム端の値の足し引きで効率的に計算できる。
Vp = ^XixXi P (P=Pmm~ max)
Figure imgf000020_0001
式 7 ここで、
Xi, X P:入力音声
vp: 自己相関関数
cpp:パヮ成分
i:入力音声のサンプル番号 L :サブフレームの長さ
P : ピッチ
Pmi n, Pmax: ピッチの探索を行う最小値と最大値
そして、 上記式 7で求めた自己相関関数とパヮ成分はメモリに蓄えておき、 次の手順で代表ピッチ Piを求める。 これは Vpが正で VpXVpZCppを最大 にするピッチ Pを求める処理となっている。 ただし、 割り算は一般的に計算量 がかかるので、 分子と分母を 2つとも格納し、 掛け算に直して効率化を図って いる。
ここでは、 入力音声と入力音声からピッチ分過去の適応音源との差分の二乗 和が最も小さくなるようなピッチを探す。この処理は V p X V p z c p pを最大に するピッチ Pを求める処理と等価となる。 具体的な処理は以下のようになる。
1) 初期化 (P = Pmi n、 vv = c=o、 P^P^J
2) もし (VPXVPXC<VVXCPP) 又は (Vp<0) ならば 4) へ。 そ れ以外なら 3) へ。
3) VV = VPXVP、 C = CPP、 P1 = Pとして 4) へ
4) P = P+ 1とする。 この時 P〉Pmaxであれば終了、 それ以外の場合に は 2) へ。
上記作業を 2サブフレームのそれぞれについて行い、 代表ピッチ Pい P2と 自己相関係数 Vl p、 V2p、 パワー成分 Clpp、 C2pp (Pmi n<p<Pmax) を 求める。
次に、 探索範囲設定部 31 1で適応符号帳のラグの探索範囲を設定する。 ま ず、 その探索範囲の軸となる仮ピッチを求める。 仮ピッチはピッチ分析部 31 0で求めた代表ピッチとパラメ一夕を用いて行う。
仮ピッチ Q2は以下の手順で求める。 なお、 以下の説明においてラグの 範囲として定数 Th (具体的には 6程度が適当である) を用いる。 また、 相関 値は上記式 7で求めたものを用いる。
まず、 Piを固定した状態で Piの付近 (土 Th) で相関の最も大きい仮ピッ チ (Q2) を見つける。
1) 初期化 (p Pi— Th、 Cmax=0、 Q^P^ Q2 = P
2) もし (VlplXVl plZCl plpl + V2pXV2pZC2pp<Cmax) または (V2p<0) ならば 4) へ。 それ以外なら 3) へ。
3) Cmax = VlplXVl plZClplpl + V2pXV2pZC2pp、 Q2=pとし て 4) へ
4) p = p+ lとして 2) へ。 ただし、 この時 p〉Pェ + Thであれば 5) へ。
このようにして 2) 〜4) の処理を P i— Th〜P + Thまで行って、 相関 の最も大きいもの Cmaxと仮ピッチ Q2を求める。
次に、 P2を固定した状態で P2の付近 (土 Th) で相関の最も大きい仮ピッ チ (《2 を求める。 この場合、 Cmaxは初期化しない。 Q2を求めた際の Cma xを含めて相関が最大となる を求めることにより、 第 1, 第 2サブフレーム 間で最大の相関を持つ Qい Q2を求めることが可能となる。
5) 初期化 (p = P2— Th)
6)もし(Vl pXV1 Cl pp + V2p2XV2pノC2p2p2<Cmax)又は(V l p<0) ならば 8) へ。 それ以外は 7) へ。
7) Cmax = Vl pXVlp/Clpp + V2p2XV2 p2ZC2p2p2、 Q1 = p、 Q 2 = P2として 8) へ。
8) p = p+ lとして 6) へ。 ただし、 この時 p〉P2 + Thであれば 9) へ。
9) 終了。
このようにして 6) 〜8) の処理を P2— Th〜P2 + Thまで行って、 相関 の最も大きいもの Cmaxと仮ピッチ <3ぃ Q2を求める。 この時の Q2が第 1サブフレームと第 2サブフレームの仮ピッチである。
上記アルゴリズムにより、 2つのサブフレームの相関を同時に評価しながら 大きさに比較的差のない (差の最大は Thである) 仮ピッチを 2つ選択するこ とができる。 この仮ピッチを用いることにより、 第 2サブフレームの適応符号 帳探索の際に、 探索の範囲を狭く設定しても符号化性能を大きく劣化させるこ とを防止できる。 例えば、 第 2サブフレームから音質が急に変化した場合など で、 第 2サブフレームの相関が強い場合は、 第 2サブフレームの相関を反映し た Q を用いることで第 2サブフレームの劣化を回避出来る。
さらに、 探索範囲設定部 3 1 1は、 求めた仮ピッチ を用いて適応符号帳 の探索を行う範囲 (L— S T〜L— E N) を下記式 8のようにして設定する。
第 1サブフレーム
L_ST=Ql-5 (ただし、 L一 STく Lminの時 L— ST=Lmin) L_EN=L— ST+20 (ただし、 L— ST>Lmaxの時 L一 ST=Lmax) 第 2サブフレーム
L— ST=T1-10 (ただし、 L一 ST<Lminの時 L— ST=Lmin) L_EN=L_ST+21 (ただし、 L— ST〉 maxの時 L_ST=Lmax) 式 8 ここで、
L_S T:探索範囲の最小
L_E N:探索範囲の最大
L m i n: ラグの最小値 (例: 2 0 )
L m a x: ラグの最大値 (例: 1 4 3 )
T\ :第 1フレームの適応符号帳ラグ
上記設定において、 第 1サブフレームは探索範囲を狭める必要はない。 しか しながら、 本発明者らは、 入力音声のピッチに基づいた値の付近を探索区間と した方が性能が良いことを実験により確認しており、 本実施の形態では 2 6サ ンプルに狭めて探索するアルゴリズムを使用している。
また、 第 2サブフレームは第 1サブフレームで求められたラグ を中心に その付近に探索範囲を設定している。 したがって、 合計 3 2エントリで、 第 2 サブフレームの適応符号帳のラグを 5ビッ卜で符号化できることになる。 また、 本発明者らは、 この時もラグの小さい候補を少なく、 ラグの大きい候補を多く 設定することにより、 より良い性能が得られることを実験により確認している。 ただし、 これまでの説明でわかるように、 本実施の形態においては、 仮ピッチ Q 2は使用しない。
ここで、 本実施の形態における効果について説明する。 探索範囲設定部 3 1 1によって得られた第 1サブフレームの仮ピッチの近くには、 第 2サブフレー ムの仮ピッチも存在している (定数 T hで制限したため) 。 また、 第 1サブフ レームにおいて探索範囲を絞って探索しているので、 探索の結果得られるラグ は第 1サブフレームの仮ピッチから離れない。
したがって、 第 2サブフレームの探索の時には、 第 2サブフレームの仮ピッ チから近い範囲を探索できることになり、 第 1, 第 2サブフレームの両方にお いて適当なラグが探索できることになる。
例として、 第 1サブフレームが無音で、 第 2サブフレームから音声が立ち上 がった場合を考える。 従来法では、 探索範囲を狭めることで第 2サブフレーム のピッチが探索区間に含まれなくなると、 音質は大きく劣化してしまう。 本実 施の形態に係る方法においては、 ピッチ分析部の仮ピッチの分析において、 代 表ピッチ P 2の相関は強く出る。 したがって、 第 1サブフレームの仮ピッチは P 2付近の値になる。 このため、 デル夕ラグによる探索の際に、 音声が立ち上 がった部分に近い部分を仮ピッチとすることができる。 すなわち、 第 2サブフ レームの適応符号帳の探索の時には、 P 2付近の値を探索できることになり、 途中で音声の立ち上がり生じても劣化なくデルダラグにより第 2サブフレー ムの適応符号帳探索を行うことができる。
次に、 音源作成部 3 0 5において、 適応符号帳 3 0 3に格納された音源サン プル (適応コードベクトル又は適応音源) と確率的符号帳 3 0 4に格納された 音源サンプル (確率的コードベクトル又は確率的音源) を取り出し、 それぞれ を聴感重み L P C合成部 3 0 6へ送る。 さらに、 聴感重み L P C合成部 3 0 6 において、 音源作成部 3 0 5で得られた 2つの音源に対して、 L P C分析部 3 0 2で得られた復号化 L P C係数によってフィルタリングを行って 2つの合 成音を得る。
さらに、 ゲイン演算部 3 0 8においては、 聴感重み L P C合成部 3 0 6で得 られた 2つの合成音と入力音声との関係を分析し、 2つの合成音の最適値 (最 適ゲイン) を求める。 また、 ゲイン演算部 3 0 8においては、 その最適ゲイン によってパヮ調整したそれぞれの合成音を加算して総合合成音を得る。 そして、 ゲイン演算部 3 0 8は、 その総合合成音と入力音声の符号化歪みの計算を行う。 また、 ゲイン演算部 3 0 8においては、 適応符号帳 3 0 3と確率的符号帳 3 0 4の全ての音源サンプルに対して音源作成部 3 0 5、 聴感重み L P C合成部 3 0 6を機能させることによって得られる多くの合成音と入力音声との間の符 号化歪みを行い、 その結果得られる符号化歪みの中で最も小さいときの音源サ ンプルのィンデクスを求める。
次に、 得られた音源サンプルのインデクス、 そのインデクスに対応する 2つ の音源、 及び入力音声をパラメ一夕符号化部 3 0 9へ送る。 パラメ一夕符号化 部 3 0 9では、 ゲインの符号化を行うことによってゲイン符号を得て、 L P C 符号、 音源サンプルのインデクスと共に伝送路へ送る。
また、 パラメ一夕符号化部 3 0 9は、 ゲイン符号と音源サンプルのインデク スに対応する 2つの音源から実際の音源信号を作成し、 それを適応符号帳 3 0 3に格納すると同時に古い音源サンプルを破棄する。
なお、 聴感重み L P C合成部 3 0 6においては、 L P C係数や高域強調フィ ル夕ゃ長期予測係数 (入力音声の長期予測分析を行うことによって得られる) を用いた聴感重み付けフィル夕を用いる。
上記ゲイン演算部 3 0 8は、 音源作成部 3 0 5から得られた適応符号帳 3 0 3、 確率的符号帳 3 0 4の全ての音源について入力音声との間の比較を行うが、 計算量削減のため、 2つの音源 (適応符号帳 3 0 3と確率的符号帳 3 0 4 ) に ついては上述したようにしてオープンループにより探索する。
このように、 本実施の形態におけるピッチ探索方法により、 最初のサブフレ ームの適応符号帳探索の前に、 フレームを構成する複数のサブフレームのピッ チ分析を行つて相関値を算出することにより、 フレーム内の全サブフレームの 相関値を同時に把握することができる。
そして、 各サブフレームの相関値を算出すると共に、 その相関値の大小から 各サブフレームで最もピッチ周期らしい値 (代表ピッチと呼ぶ) を求め、 ピッ チ分析で得られた相関値と代表ピッチに基づいて複数のサブフレームのラグ の探索範囲を設定する。 この探索範囲の設定においては、 ピッチ分析で得た複 数のサブフレームの代表ピッチと相関値を利用して探索範囲の中心となる差 の少ない適当な仮のピッチ (仮ピッチと呼ぶ) を求める。
さらに、 上記探索範囲の設定で求めた仮ピッチの前後の指定の範囲にラグの 探索区間を限定するので、 適応符号帳の効率の良い探索を可能にする。 その際、 ラグの短い部分の候補を少なくし、 ラグのより長い範囲を広く設定するので、 良好な性能が得られる適当な探索範囲を設定することができる。 また、 適応符 号帳探索の際に上記探索範囲の設定で設定された範囲でラグの探索を行うの で、 良好な復号化音を得ることができる符号化が可能になる。
このように、 本実施の形態によれば、 探索範囲設定部 3 1 1によって得られ た第 1サブフレームの仮ピッチの近くには第 2サブフレームの仮ピッチも存 在しており、 第 1サブフレームにおいて探索範囲を絞っているので、 探索の結 果得られるラグは仮ピッチから離れて行かない。 したがって、 第 2サブフレー ムの探索の時には第 2サブフレームの仮ピッチ付近を探索できることになり、 フレームの後半から音声が始まる場合などの非定常なフレームでも、 第 1 , 第 2サブフレームにおいて適当なラグ探索が可能になり、 従来得られなかった格 別の効果を得ることができる。
(実施の形態 3 )
初期の C E L P方式では、 ランダム数列が確率的音源ベクトルとして複数種 類エントリーされた確率的符号帳、 すなわち複数種類のランダム数列をメモリ に直接記録した確率的符号帳が使われていた。 一方、 近年の低ビットレート C E LP符号化 ·復号化装置においては、 振幅が + 1か— 1の非零要素 (非零要 素以外の要素の振幅は零) を少数個含んだ確率的音源べクトルを生成する代数 的符号帳を確率的符号帳部に備えるものが多く開発されている。
なお、代数的符号帳は、「Fast CELP Coding based on Algebraic codesj , J . Adoul et al, Proc - IEEE Int. Conf . Acoustics , Speech, Signal Processing, 1987 , pp. 1957 -1960や「Comparison of Some Algebraic Structure for CELP Coding of Speech」 , J. Adoul et al , Proc . IEEE Int. Conf . Acoustics , Speech, Signal Processing, 1987, pp. 1953-1956など Ίこ開示されてレ る。
上記文献に開示されている代数的符号帳は、 (1) ビットレートが 8kb/s 程度の CELP方式に適用した場合、 品質の高い合成音を生成できる、 (2) 少ない演算量で確率的音源符号帳を探索できる、 (3) 確率的音源ベクトルを、 直接格納しておくデータ ROM容量が不要になる、 といった優れた特徴を有す る符号帳である。
そして、 代数符号帳を確率的符号帳として用いることを特徴とする CS— A CELP (ビットレート 8kb/s) や AC E L P (ビットレート 5. 3kb/s) 力 G. 729、 g 723. 1として、 それぞれ I TU— Tから 1996年に 勧告化されている。 なお、 C S— AC E L Pに関しては、 「Design and Description of CS-ACELP:A Toll Quality 8 kb/s Speech Coder」 , Redwan Salami et al, IEEE trans . SPEECH AND AUDIO PROCESSING, vol. 6, no. 2, March 1998などに、 その詳細技術が開示されている。 代数的符号帳は、 上記のように優れた特徴を有する符号帳である。 しかしな がら、 代数的符号帳を CELP符号化,復号化装置の確率的符号帳に適用した 場合、 確率的音源ターゲットは、 比零要素を少数個だけ含んだ確率的音源べク トルで常に符号化 (ベクトル量子化) されることになるので、 確率的音源夕一 ゲットの忠実な符号表現は不可能であるという課題も生じている。 そして、 処 理フレームが、 無声子音区間や背景雑音区間などに相当する場合に、 この課題 は特に顕著になる。
無声子音区間や背景雑音区間では、 確率的音源夕ーゲッ卜が複雑な形状にな ることが多いためである。 またさらには、 ビットレートが 8kb/s 程度よりさ らに低い C E L P符号化 ·復号化装置に代数的符号帳を適用した場合には、 確 率的音源ベクトル中の比零要素数を少なくすることになるため、 確率的音源夕 ーゲッ卜がパルス的形状になりやすい有声区間でさえも、 上記課題が問題にな る場合がある。
代数的符号帳の有する上記課題を解決する一方法として、 代数的符号帳より 出力される少数個の非零要素 (非零要素以外の要素はゼロの値を持つ) を含む ベクトルと、 拡散パタンと呼ばれる固定波形とを重畳して得られるベクトルを、 合成フィル夕の駆動音源とするパルス拡散符号帳を用いる方法が開示されて いる。 パルス拡散符号帳は、 特開平 10— 232696号公報、 「パルス拡散 構造音源を併用する AC E LP符号化」 安永他,電子情報通信学会平成 9年度 春季全国大会発表予稿集, D-14-11, p. 253, 1997-03、 「パルス拡散音 源を用いた低レート音声符号化」 安永他, 日本音響学会平成 10年秋期研究発 表会講演論文集, pp. 281-282, 1998-10など (こ開示されて!^る。
そこで次に、 上記文献で開示されたパルス拡散符号帳の概要を、 図 8及び図 9を用いて説明する。 なお、 図 9は、 図 8のパルス拡散符号帳のさらに詳細な 一例を示すものである。
図 8及び図 9のパルス拡散符号帳において、 代数的符号帳 401 1は、 少数 個の非零要素 (振幅は + 1又は一 1) からなるパルスベクトルを生成する符号 帳である。 上記文献に記載されている CEL P符号化装置 ·復号化装置では、 代数的符号帳 40 1 1の出力であるパルスべクトル (少数個の非零要素によつ て構成される) がそのまま、 確率的音源ベクトルとして用いられている。
拡散パタン格納部 4012には、 拡散パタンと呼ばれる固定波形が、 各チヤ ネルあたり 1種類以上ずつ格納されている。 なお、 各チャネルごとに格納され た前記拡散パタンは、 チャネル毎で異なる形状の拡散パタンが格納される場合、 各チャネルに同一形状 (共通の) の拡散パタンが格納される場合の双方が考え られる。 各チャネル用に格納される拡散パタンが共通の場合は、 各チャネル用 に格納される拡散パタンが格納される場合を簡単化したものに相当するので、 本明細書の以下の説明では、 チャネル毎に格納される拡散パタンの形状がそれ ぞれ異なる場合について説明を進めることとする。
パルス拡散符号帳 4 0 1は、 代数的符号帳 4 0 1 1からの出力べクトルをそ のまま確率的音源べクトルとして出力するのではなく、 代数的符号帳 4 0 1 1 から出力されるべクトルと、 拡散パタン格納部 4 0 1 2から読み出される拡散 パタンとを、 パルス拡散部 4 0 1 3でチャネルごとに重畳し、 重畳演算によつ て得られるべクトルを加算して得られるべクトルを確率的音源べク トルとし て利用する。
なお、 上記文献において開示されている C E L P符号化 '復号化装置は、 符 号化装置と復号化装置で同一構成 (代数的符号帳部のチャネル数、 拡散パタン 格納部に登録されている拡散パタンの種類数および形状などが、 符号化装置側 と復号化装置側で共通) のパルス拡散符号帳を用いることを特徴としている。 そして、 拡散パタン格納部 4 0 1 2に登録しておく拡散パタンの形状、 種類数、 複数種類以上登録している場合にはそれらの選択方法を効率的に設定するこ とによって、 合成音声の品質を向上を図っている。
なお、 パルス拡散符号帳に関するここでの説明は、 少数個の非零要素からな るパルスベクトルを生成する符号帳として、 非零要素の振幅を + 1もしくは— 1に限定した代数的符号帳を用いた場合についての説明であるが、 当該パルス べクトルを生成する符号帳としては、 非零要素の振幅を限定しないマルチパル ス符号帳や、 レギュラーパルス符号帳を用いることも可能であり、 その場合に も、 パルスべクトルを拡散パタンと重畳したものを確率的音源べクトルとして 利用することで合成音声の品質向上を実現できる。
これまでに、 多くの確率的音源ターゲットの形状を統計学習し、 確率的音源 夕ーゲッ卜中に統計的に高い頻度で含まれる形状の拡散パタン、 無声子音区間 や雑音区間を効率的に表現するための乱数的な形状の拡散パタン、 有声定常区 間を効率的に表現するためのパルス的な形状の拡散パタン、 代数的符号帳から 出力されるパルスべクトルのエネルギー (非零要素の位置にエネルギーが集中 している) を周囲に分散させるような作用を与える形状の拡散パタン、 適当に 用意したいくつかの拡散パタン候補について、 音声信号を、 符号化、 複号化、 合成音声の視聴評価を繰り返し、 品質の高い合成音声を出力しうるよう選択し た拡散パタン、 又は音声学的な知見をもとに作成した拡散パタンなどを、 代数 的符号帳から出力される音源ベクトル中の非零要素 (チャネル) あたり 1種類 以上ずつ登録しておき、 登録しておいた拡散パタンと、 代数的符号帳によって 生成されるベクトル (少数個の非零要素によって構成される) とをチャネルご とに重畳し、 各チャネルの重畳結果を加算したものを確率的音源べクトルとし て用いることにより、 合成音声を有効に品質向上させることができることが開 示されてきた。
また、 特に、 拡散パタン格納部 4 0 1 2が、 チャネルあたり複数種類 (2種 類以上) の拡散パタンを登録している場合については、 それら複数の拡散パ夕 ンの選択方法として、 登録された拡散パタンの全組合わせについて実際に符号 化 ·復号化を行い、 その結果生じる符号化歪みが最小になるような拡散パタン をクローズド選択する方法や、 確率的符号帳探索を行う時点で既に明らかにな つている音声的情報 (ここでいう音声的情報とは、 例えば、 ゲイン符号の動的 変動情報もしくはゲイン値の (予め設定したしきい値との) 大小関係情報など を利用して判定した有声性の強弱情報、 あるいは、 線形予測符号の動的変動を 利用して判定した有声性の強弱情報などのことである) 利用して、 拡散パタン をオープン選択する方法などが開示されている。
なお、 以降の説明では、 説明を簡単にするため、 図 9のパルス拡散符号帳内 の拡散パタン格納部 4 0 1 3が、 チャネルあたり 1種類だけの拡散パタンを登 録していることを特徴とする図 1 0のパルス拡散符号帳に限定して説明する。 ここでは次に、 代数的符号帳を C E L P符号化装置に適用した場合の確率的 符号帳探索処理と比較して、 パルス拡散符号帳を C E L P符号化装置に適用し た場合の確率的符号帳探索処理を説明する。 まず、 代数的符号帳を確率的符号 帳部に用いた場合の符号帳探索処理を説明する。
代数的符号帳によって出力されるべクトル内の非零要素数を N (代数的符号 帳のチャネル数を N) 、 チャネルごとに出力する振幅が + 1か一 1の非零要素 を 1本だけ含むベクトル (非零要素以外の要素の振幅はゼロ) を d i ( iはチ ャネル番号: 0≤ i≤N— l ) 、 サブフレーム長を Lとした時、 代数的符号帳 によって出力されるエントリ一番号 kの確率的音源べクトル c kは、 下記式 9 となる。
N-1
Ck = ^ di
Ck:代数的符号帳によるェントリ番号 Kの確率的音源べクトル
di:非零要素ベクトル (di = ±S(n - pi) ただし、 pi:非零要素位置)
N:代数的符号帳のチャネル数(=確率的音源べクトル中の非零要素数) 式 9 そして、 式 9を式 1 0に代入することで、 下記式 1 1が得られる。
Figure imgf000031_0001
V : V (確率的音源ターゲット)の転置ベクトル Ht : H (合成フィル夕のインパルス応答行列)の転置行列 ck :エントリ番号 k番目の確率的音源べクトル 式 1 0
Figure imgf000032_0001
V :確率的音源夕ーゲットベクトル
H :合成フィル夕のィンパルス応答畳み込み行列
di :非零要素ベクトル (di= ± S(n - Pi) ただし、 pi:非零要素位置)
N :代数的符号帳のチャネル数(=確率的音源べクトル中の非零要素数)
X =νι Η
Μ=Ηι Η
式 1 1 この式 1 0を整理して得られる下記式 1 2を最大化するようなエントリ番 号 kを特定する処理が確率的符号帳探索処理となる。
Figure imgf000032_0002
式 1 2 ただし、 式 1 2において、 X^H、 Μ=Η"Η ( 7は確率的音源夕ーゲッ卜) である。 ここで各エントリ番号 kについて式 1 2の値を計算する場合、 その前 処理段階で ^及び ^ を計算し、 計算結果をメモリに展開 (記憶) させておく。 この前処理を導入することで、 確率的音源ベクトルとしてェント リしている各候補ごとに式 1 2を計算する際の演算量を大幅に削減でき、 この 結果として、 確率的符号帳探索に要するトータルの演算量を少なくおさえられ ることが、 上記文献などに開示されており、 一般に知られている。
次に、 パルス拡散符号帳を確率的符号帳に用いた場合の確率的符号帳探索処 理を説明する。 パルス拡散符号帳の構成一部位である代数的符号帳によって出力される非 零要素数を N (代数的符号帳のチャネル数を N) 、 チャネルごとに出力する振 幅が + 1か一 1の非零要素を 1本だけ含むべクトル (非零要素以外の要素の振 幅はゼロ) を d i ( iはチャネル番号: 0≤ i≤N— l ) 、 拡散パタン格納部 が格納しているチャネル番号 i用の拡散パタンを wi、 サブフレーム長を と した時、 パルス拡散符号帳によって出力されるエントリー番号 kの確率的音源 ベクトル c kは、 下記式 1 3となる。
N-1
1=0
Ck:パルス拡散符号帳によるェントリ番号 Kの確率的音源べクトル
Wi:拡散パタン(wi )重畳行列
di:代数的符号帳部が出力する非零要素べクトル
( =± <5 (n-Pi) ただし、 pi :非零要素位置)
N:代数的符号帳部のチャネル数
式 1 3 したがってこの場合、 式 1 3を式 1 0に代入することで、 下記式 1 4が得ら れる。
Figure imgf000033_0001
v:確率的音源ターゲットベクトル
H:合成フィルタのィンパルス応答畳み込み行列
Wi:拡散パタン( w:L )重畳行列
di:代表的符号帳部が出力する非零要素べクトル
(di= ± δ(η - ただし、 Pl:非零要素位置)
N:代数的符号帳のチャネル数(=確率的音源べクトル中の非零要素数) Hi=HWi
X; =vlHi
R=HiHj
X
i t 式 1 4 この式 1 4を整理して得られる下記式 1 5を最大化する確率的音源べクト ルのェン卜リ番号 kを特定する処理が、 パルス拡散符号帳を用いた場合の確率 的符号帳探索処理となる。
Dk = N - 1 N-1
式 1 5 ただし、 式 1 5において、 xt- v^IIi (ただし、 = ;¾ : Wiは拡散パタン 重畳行列) 、 である。 各エントリ番号 kについて式 1 5の値計算する場合、 そ の前処理として =HWi及び ν"Η1及び R-Hi 'Hjを計算しメモリに記録し ておくことが可能である。 すると、 確率的音源ベクトルとしてエントリしてい る各候補ごとに式 1 5を計算する際の演算量が、 代数的符号帳を用いた場合に 式 1 2を計算する際の演算量と同じになり (式 1 2と式 1 5が同形であること から明らか) 、 パルス拡散符号帳を用いた場合も、 少ない演算量で確率的符号 帳探索を行うことができる。
上記技術においては、 パルス拡散符号帳を C E L P符号化装置 ·復号化装置 の確率的符号帳部に用いることの効果、 及びパルス拡散符号帳を確率的符号帳 部に用いた場合に、 代数的符号帳を確率的符号帳部に用いた場合と同様の方法 で確率的符号帳探索を行えることを示した。 代数的符号帳を確率的符号帳部に 用いた場合の確率的符号帳探索に要する演算量と、 パルス拡散符号帳を確率的 符号帳部に用いた場合の確率的符号帳探索に要する演算量の違いは、 式 1 2と 式 1 5それぞれの前処理段階に要する演算量の違い、 すなわち、 前処理 、 Hi M=lfH) と前処理 Hi=HWi x'^Hi , R^i'Hj に要する演算 量の違いである。
一般に、 C E L P符号化装置 '復号化装置では、 そのビットレートが低くな るほど確率的符号帳部に割り当て可能なビット数も減少する傾向にある。 そし てこの傾向は、 代数的符号帳やパルス拡散符号帳を確率的符号帳部に用いる場 合、 確率的音源べクトルを構成する際の非零要素数の減少につながつていく。 したがって、 C E L P符号化装置 ·復号化装置のビットレー卜が低くなるほど、 代数的符号帳を用いた場合とパルス拡散符号帳を用いた場合の演算量の差は 少なくなる。 しかしビットレートが比較的高い場合や、 ビットレートが低くて も演算量を極力少なく押さえる必要がある場合には、 パルス拡散符号帳を用い ることによって生じる前処理段階の演算量の増加が無視できなくなることが ある。
本実施の形態では、 パルス拡散符号帳を確率的符号帳部に用いた C E L P方 式の音声符号化装置と音声復号化装置、 及び音声符号化複号化システムにおい て、 代数的符号帳を確率的符号帳部に用いる場合と比べて増加する、 符号探索 処理における前処理部分の演算量増加分を少なく抑えながら、 復号化側では高 品質な合成音声を得ることについて説明する。
具体的には、 本実施の形態に係る技術は、 パルス拡散符号帳を C E L P符号 化装置 ·復号化装置の確率的符号帳部に用いる場合に生じることがある上記課 題を解決するためのものであり、 符号化装置側と復号化装置側で異なる拡散パ タンを用いることを特徴である。 すなわち、 本実施の形態においては、 音声復 号化装置側の拡散パタン格納部には、 上述した拡散パタンを登録し、 それを用 いることで、 代数的符号帳を用いる場合より品質の高い合成音声を生成する。 一方、 音声符号化装置側では、 復号化装置側の拡散パタン格納部に登録する拡 散パタンを簡素化した拡散パタン (例えば、 一定間隔で間引いた拡散パタンや、 ある長さで打ち切った拡散パタン) を登録し、 それを用いて確率的符号帳探索 を行うようにする。 これにより、 パルス拡散符号帳を確率的符号帳部に用いる場合に、 符号化側 では、 代数的符号帳を確率的符号帳部に用いる場合と比べて増加する、 前処理 段階の符号探索時の演算量を少なく抑えることができ、 復号化側では、 高品質 の合成音声を得ることができる。
符号化装置側と復号化装置側で異なる拡散パタンを用いることとは、 予め用 意された (復号化装置用の) 拡散ベクトルを、 その特性を残しつつ変形するこ とにより、 エンコーダ用の拡散べクトルを獲得することである。
ここで、 復号化装置用の拡散ベクトルを予め用意する方法としては、 本発明 者らが以前に出願した特許 (特開平 1 0— 6 3 3 0 0号公報) に開示された方 法、 すなわち音源探索用夕ーゲッ卜べクトルの統計的傾向を学習することによ つて用意する方法、 音源ターゲットを実際に符号化し、 その時生じる符号化歪 みの総和をより小さくする方向に徐々に変形させる操作を反復することで用 意する方法、 及び合成音声を高品質化すべく音声学的な知見に基づいて設計す る方法などや、 パルス音源の高域位相成分をランダマイズさせることを目的に 設計する方法などが考えられる。 これらの内容はすべてここに含めておく。 このようにして得られた拡散べクトルは、 いずれも拡散べクトルの先頭サン プルに近いサンプル (前方のサンプル) の振幅が、 後方のサンプルの振幅より、 比較的大きめになるという特徴がある。 中でも、 先頭のサンプルの振幅が、 拡 散べクトル内の全サンプル中で最大となることが多い (ほとんどの場合そのよ うになる) 。
復号化装置用の拡散べクトルを、 その特性を残しつつ変形することでェンコ ーダ用の拡散べクトルを獲得する具体的方法としては、 以下の方法が挙げられ る。
1 ) 復号化装置用の拡散ベクトルのサンプル値を、 適当な間隔ごとにゼロに 置き換えることで、 エンコーダ用の拡散ベクトルを獲得する。
2 ) ある長さの復号化装置用の拡散ベクトルを、 適当な長さで打ち切ること によって、 エンコーダ用の拡散ベクトルを獲得する。 3 ) 振幅のしきい値を予め設定し、 復号化装置用の拡散ベクトルに対して設 定したしきい値より振幅の小さいサンプルをゼロに置き換えることで、 ェンコ ーダ用の拡散べクトルを獲得する。
4 ) ある長さの復号化装置用の拡散ベクトルを、 先頭サンプルを含む適当な 間隔ごとのサンプル値を保存し、 それ以外のサンプルの値をゼロに置きかえる ことで、 符号化装置用の拡散ベクトルを獲得する。
ここで例えば上記 1 ) の方法のように、 拡散ベクトルの前方からの数サンプ ルを用いた場合でも、 拡散ベクトルの概形 (大まかな特性) を保存したまま、 符号化装置用の拡散べクトルを新たに獲得することが可能となっている。 また例えば、 上記 2 ) の方法のように、 適当な間隔ごとにサンプル値をゼロ に置き換えてももとの拡散ベクトルの概形 (大まかな特性) を保存したまま、 符号化装置用の拡散ベクトルを新たに獲得することが可能となる。 特に、 上記 4 ) の方法の場合は、 振幅が最大であることの多い先頭サンプルの振幅をその まま必ず保存するという限定を付けているので、 もとの拡散べクトルの概形を より確実に保存しておくことが可能である。
また、 3 ) の方法のように、 特定値以上の振幅を有するサンプルをそのまま 保存し、 前記特定値以下の振幅を有するサンプルの振幅をゼロに置き換えても 拡散べクトルの概形 (大まかな特性) を保存したまま、 符号化装置用の拡散べ クトルを獲得することが可能となる。
以下、 本実施の形態に係る音声符号化装置及び音声復号化装置について、 添 付図面を参照して詳細に説明する。 なお、 添付図面に記載の C E L P音声符号 化装置 (図 1 1 ) 、 および、 C E L P音声復号化装置 (図 1 2 ) は、 従来の C E L P音声装置および C E L P音声復号化装置における確率的符号帳部分に、 上記のパルス拡散符号帳を用いている点に特徴を有している。 従って、 以降の 説明において、 確率的符号帳、 確率的音源ベクトル、 確率的音源ゲインと記載 された部分は、 それぞれ、 パルス拡散符号帳、 パルス拡散音源ベクトル、 パル ス拡散音源ゲインと読み替えることが可能である。 なお、 C E L P音声符号化 装置および C E L P音声復号化装置における確率的符号帳は、 雑音符号帳、 あ るいは、 複数種類の固定波形を格納する作用を有することから固定符号帳と呼 ばれることもある。 図 1 1の C E L P音声符号化装置では、 まず始めに、 線形予測分析部 5 0 1力 入力音声を線形予測分析して線形予測係数を算出し、 算出した線形予測 係数を線形予測係数符号化部 5 0 2へ出力する。 次に、 線形予測係数符号化部 5 0 2力 線形予測係数を符号化 (ベクトル量子化) し、 ベクトル量子化によ つて得られる量子化インデクス (以下、 線形予測符号と呼ぶ) を符号出力部 5 1 3及び線形予測符号復号化部 5 0 3へ出力する。
次いで、 線形予測符号復号化部 5 0 3が、 線形予測係数符号化部 5 0 2で得 た線形予測符号を復号化 (逆量子化) して合成フィル夕 5 0 4へ出力する。 合 成フィル夕 5 0 4は、 線形予測符号復号化部 5 0 3で復号化して得られた復号 化線形予測符号を係数に持つ全極型モデルの合成フィル夕を構成する。
そして、 適応符号帳 5 0 6から選出される適応音源べクトルに適応音源ゲイ ン 5 0 9を乗じて得られるべクトルと、 パルス拡散符号帳 5 0 7から選出した 確率的音源べクトルに確率的音源ゲイン 5 1 0を乗じて得られるべクトルと をベクトル加算部 5 1 1で加算して駆動音源ベクトルを生成する。 そして、 歪 み計算部 5 0 5力 当該駆動音源べクトルで合成フィル夕 5 0 4を駆動したと きの出力ベクトルと、 入力音声との歪みを下記式 1 6により計算し、 歪み E R を符号特定部 5 1 2へ出力する。
ER = ||u - (gaHp + gcHc" u:入力音声(べクトル)
H:合成フィル夕のィンパルス応答行列
p :適応音源ベクトル
c :確率的音源べクトル ga :適応音源ゲイン
ge :確率的音源ゲイン
式 1 6 ただし、 式 1 6において、 uは処理フレーム内の入力音声ベクトル、 Hは合 成フィルタのインパルス応答行列、 g aは適応音源ゲイン、 g cは確率的音源 ゲイン、 pは適応音源ベクトル、 cは確率的音源ベクトルを示す。
ここで、 適応符号帳 5 0 6は、 過去数フレーム分の駆動音源ベクトルを格納 したバッファ (動的メモリ) であり、 上記適応符号帳 5 0 6から選出される適 応音源べクトルは、 入力音声を合成フィル夕の逆フィルタに通して得られる線 形予測残差べクトル中の周期成分を表現するために使われる。
一方、 パルス拡散符号帳 5 0 7から選出される音源ベクトルは、 線形予測残 差べクトルに現処理フレームで新たに加わった非周期成分 (線形予測残差べク トルから周期性 (適応音源ベクトル成分) を除去した成分) を表現するために 使われる。
そして、 適応音源べクトルゲイン乗算部 5 0 9及び確率的音源べクトルゲイ ン乗算部 5 1 0は、 適応符号帳 5 0 6から選出される適応音源べクトル及びパ ルス拡散符号帳 5 0 7から選出される確率的音源べクトルに対して、 ゲイン符 号帳 5 0 8から読みだした適応音源ゲイン及び確率的音源ゲインを乗じる機 能を有している。 なお、 ゲイン符号帳 5 0 8とは、 適応音源ベクトルに乗じる 適応音源ゲインと、 確率的音源ベクトルに乗じる確率的音源ゲインとのセット を複数種類格納した静的メモリである。
符号特定部 5 1 2は、 歪み計算部 5 0 5で計算した式 1 6の歪み E Rを最小 化する上記 3つの符号帳 (適応符号帳、 パルス拡散符号帳、 ゲイン符号帳) の インデクスの最適組み合わせを選択する。 そして、 歪み特定部 5 1 2は、 上記 歪みが最小になるときに選択していた各符号帳のインデクスを、 それぞれ適応 音源符号、 確率的音源符号、 ゲイン符号として符号出力部 5 1 3へ出力する。 そして最後に、 符号出力部 5 1 3は、 線形予測係数符号化部 5 0 2で得られ た線形予測符号と、 符号特定部 5 1 2で特定された適応音源符号、 確率的音源 符号及びゲイン符号を、 全てまとめて現処理フレーム内の入力音声を表現する 符号 (ビット情報) とし、 複号化装置側へ出力する。
なお、 符号特定部 5 1 2で行う適応音源符号、 確率的音源符号、 ゲイン符号 の特定は、 一定時間間隔のフレームを、 サブフレームと呼ぶさらに短い時間間 隔に分割した上で行われることがある。 ただし、 本明細書では、 フレームとサ ブフレームと特に区別しないで (フレームという呼び方に統一した上で) 、 以 下の説明を行う。
次に、 C E L P音声復号化装置の概要を、 図 1 2を用いて説明する。
図 1 2の C E L P復号化装置では、 まず、 符号入力部 6 0 1が、 C E L P音 声符号化装置 (図 1 1 ) で特定した符号 (フレーム区間内の音声信号を符号表 現するためのビット情報) を受け、 受けた符号を線形予測符号、 適応音源符号、 確率的音源符号、 及びゲイン符号の 4種類の符号に分解する。 そして、 線形予 測符号を線形予測係数復号化部 6 0 2へ、 適応音源符号を適応符号帳 6 0 3へ、 確率的音源符号をパルス拡散符号帳 6 0 4へ、 ゲイン符号をゲイン符号帳 6 0 5へ出力する。
次に、 線形予測係数複号化部 6 0 2は、 符号入力部 6 0 1から入力される線 形予測符号を復号化して復号化線形予測符号を得て、 この復号化線形予測符号 を合成フィル夕 6 0 9へ出力する。
合成フィル夕 6 0 9は、 線形予測係数復号化部 6 0 2で得た復号化線形予測 符号を係数にもつ全極型モデルの合成フィル夕を構成する。 また、 適応符号帳 6 0 3は、 符号入力部 6 0 1から入力された適応音源符号に対応する適応音源 ベクトルを出力する。 また、 パルス拡散符号帳 6 0 4は、 符号入力部 6 0 1か ら入力された確率的音源符号に対応する確率的音源べクトルを出力する。 また、 ゲイン符号帳 6 0 5は、 符号入力部 6 0 1から入力されるゲイン符号に対応す る適応音源ゲイン及び確率的音源ゲインを読み出し、 それぞれ適応音源ゲイン 乗算部 6 0 6及び確率的音源ゲイン乗算部 6 0 7へ出力する。 そして、 適応音源ゲイン乗算部 6 0 6が、 適応符号帳 6 0 3から出力された 適応音源べクトルに、 ゲイン符号帳 6 0 5から出力された適応音源ゲインを乗 算し、 確率的音源ゲイン乗算部 6 0 7力 パルス拡散符号帳 6 0 4から出力さ れた確率的音源べクトルに、 ゲイン符号帳 6 0 5で出力された確率的音源ゲイ ンを乗算する。 そしてべクトル加算部 6 0 8が、 適応音源ゲイン乗算部 6 0 6 及び確率的音源ゲイン乗算部 6 0 7それぞれの出力べクトルを加算して駆動 音源ベクトルを生成する。 そして、 当該駆動音源ベクトルで、 合成フィル夕 6 0 9を駆動し、 受信したフレーム区間の合成音声を出力する。
このような C E L P方式の音声符号化装置 ·音声復号化装置において、 品質 の高い合成音声を得るためには、 式 1 6の歪み E Rを小さく抑えることが必要 になる。 そのためには、 式 1 6の E Rを最小化するように、 適応音源符号、 確 率的音源符号、 ゲイン符号の組み合わせを閉ループで特定することが望ましい。 しかしながら、 式 1 6の歪み E Rをクローズドループで特定しょうとすると演 算処理量が大きくなりすぎるため、 上記 3種類の符号はオープンループで特定 していくことが一般的である。
具体的には、 まず、 適応符号帳探索を行う。 ここで、 適応符号帳探索処理と は、 入力音声を逆フィル夕に通して得られる予測残差べクトル中の周期性成分 を、 過去フレームの駆動音源べクトルを格納した適応符号帳から出力される適 応音源ベクトルによってベクトル量子化する処理である。 そして、 線形予測残 差べクトル内の周期成分と、 近い周期成分を有する適応音源べクトルのェント リー番号を適応音源符号として特定する。 なお、 適応符号帳探索によって、 同 時に、 理想適応音源ゲインが暫定的に確定されることになる。
次いで、 パルス拡散符号帳探索を行う。 パルス拡散符号帳探索は、 処理フレ ームの線形予測残差ベクトルから周期成分を除去した成分、 すなわち、 線形予 測残差べクトルから適応音源べクトル成分を差し引いた成分 (以下、 確率的音 源ターゲットと呼ぶこともある) を、 パルス拡散符号帳に格納された複数の確 率的音源ベクトル候補を用いてベクトル量子化する処理である。 そして、 この パルス拡散符号帳探索処理により、 確率的音源ターゲットを、 もっとも歪み少 なく符号化する確率的音源べクトルのェントリ番号を確率的音源符号として 特定する。 なお、 パルス拡散符号帳探索によって、 同時に、 理想確率的ゲイン も暫定的に確定されることになる。
そして最後に、 ゲイン符号帳探索を行う。 ゲイン符号帳探索は、 適応符号帳 探索時に暫定的に得られた理想適応ゲインと、 パルス拡散符号帳探索時に暫定 的に得られた理想確率的ゲインとの 2要素からなるべクトルを、 ゲイン符号帳 に格納されたゲイン候補べクトル (適応音源ゲイン候補と確率的音源ゲイン候 補の 2要素からなるベクトル候補) で歪みが最小になるように符号化 (べク卜 ル量子化) する処理である。 そして、 ここで選択されるゲイン候補ベクトルの ェントリ番号がゲイン符号として符号出力部へ出力される。
ここでは、 次に、 C E L P音声符号化装置における上記一般的な符号探索処 理のうち、 パルス拡散符号帳探索処理 (適応音源符号を特定した後に、 確率的 音源符号を特定する処理) についてさらに詳しく説明を行う。
説明したように、 一般的な C E L P符号化装置では、 パルス拡散符号帳探索 を行う時点では、 線形予測符号及び適応音源符号は、 既に特定されている。 こ こで、 既に特定されている線形予測符号によって構成される合成フィル夕のィ ンパルス応答行列を H、 適応音源符号と対応する適応音源ベクトルを p、 適応 音源符号を特定した時点で同時に求まる理想適応音源ゲイン (暫定値) を g a とすると、 式 1 6の歪み E Rは、 下記式 1 7へと変形される。
ERk = ||v - gcHck v:確率的音源ターゲット(ただし、 v=u-gaHp)
ge:確率的音源ゲイン
H:合成フィルタのインパルス応答行列
:確率的音源べクトル(k:ェントリー番号)
式 1 7 ただし、 式 1 7内のベクトル vは、 フレーム区間内の入力音声信号 ii、 合成 フィル夕のインパルス応答行列 H (既定) 、 適応音源ベクトル p (既定) 、 理 想適応音源ゲイン g a (暫定値) を用いた、 下記式 1 8の確率的音源夕ーゲッ トである。
v = u - gaHp
U :入力音声(べクトル)
ga:適応音源ゲイン(暫定値)
H:合成フィル夕のインパルス応答行列
p :適応音源ベクトル 式 1 8 なお、 式 1 6では確率的音源ベクトルが cと表現されており、 一方、 式 1 7 では確率的音源ベクトルは c kと表現がされている。 これは、 式 1 6では確率 的音源ベクトルのエントリ一番号 (kのこと) を違いを明示していないことに 対して、 式 1 7ではエントリ一番号を明示していることによるものであり、 表 現上の違いはあるものの意味する対象は同じものである。
したがって、 パルス拡散符号帳探索とは、 式 1 7の歪み E Rkを最小化する ような確率的音源べクトル c kのエントリ番号 kを求める処理である。そして、 式 1 7の歪み E Rl を最小化するような確率的音源べクトル c kのエントリ番 号 kを特定する際には、 確率的音源ゲイン g cは任意の値をとりうると仮定で きる。 したがって、 式 1 7の歪みを最小化するようなエントリ番号を求める処 理は、 上記式 1 0の分数式 Dkを最大化するような確率的音源べクトル c kの エントリ番号 kを特定する処理に置き換えられる。
そして、 パルス拡散符号帳探索は、 確率的音源ベクトル C kのエントリ番号 kごとに式 1 0の分数式 Dkを歪み計算部 5 0 5で計算し、 その値を符号特定 部 5 1 2へ出力し、 符号特定部 5 1 2で、 エントリ番号 kごとの式 1 0の値を 大小比較して、 その値が最大になるときのエントリ番号 kを確率的音源符号と 決定して符号出力部 5 1 3へ出力する、 といった 2段階の処理によって行われ ることになる。
以下、 本実施の形態における音声符号化装置及び音声復号化装置の動作につ いて説明する。
図 1 1に示す音声符号化装置におけるパルス拡散符号帳 5 0 7の構成を図 1 3 Aに示し、 図 1 2に示す音声復号化装置におけるパルス拡散符号帳 6 0 4 の構成を図 1 3 Bに示す。 図 1 3 Aに示すパルス拡散符号帳 5 0 7と図 1 3 B に示すパルス拡散符号帳 6 0 4を比較した場合、 構成上の異なる点は、 拡散パ タン格納部に登録している拡散パタンの形状が異なっている点である。
図 1 3 Bの音声復号化装置側では、 拡散パタン格納部 4 0 1 2には、 (1 ) 多くの確率的音源夕ーゲッ卜の形状を統計学習し、 確率的音源夕ーゲッ卜中に 統計的に高い頻度で含まれる形状の拡散パタン、 (2 ) 無声子音区間や雑音区 間を効率的に表現するための乱数的な形状の拡散パタン、 (3 ) 有声定常区間 を効率的に表現するためのパルス的な形状の拡散パタン、 (4 ) 代数的符号帳 から出力される音源べクトルのエネルギー (非零要素の位置にエネルギーが集 中している) を周囲に分散させるような作用を与える形状の拡散パタン、 (5 ) 適当に用意したいくつかの拡散パタン候補について、 音声信号を、 符号化、 復 号化、 合成音声の視聴評価を繰り返し、 品質の高い合成音声を出力しうるよう 選択した拡散パタン、 (6 ) 音声学的な知見をもとに作成した拡散パタンのう ちのいずれかの拡散パタンが各チャネルあたり 1種類ずつ登録されている。 一方、 図 1 3 Aの音声符号化装置側では、 拡散パタン格納部 4 0 1 2には、 図 1 3 Bの音声復号化装置側の拡散パタン格納部 4 0 1 2に登録されている 拡散パタンを、 1サンプルおきにゼロに置き換えた拡散パタンが登録されてい る。
そして、 上述のように構成された C E L P音声符号化装置 音声復号化装置 では、 符号化装置側と復号化装置側で異なる拡散パタンが登録されていること を意識せずに、 上記と同様の方法で、 音声信号を符号化 ·復号化する。
符号化装置では、 パルス拡散符号帳を確率的符号帳部に用いた場合の確率的 符号帳探索時の前処理演算量を削減することができ (Hi= HtWi 及び x it = v tHi の演算量をおよそ半分に削減でき) 、 復号化装置側では、 従来どお りの拡散パタンをパルスベクトルに重畳することで、 非零要素位置に集中して いるエネルギーを周囲に拡散することができ、 合成音声の品質を向上すること が可能となる。
なお、 本実施の形態では、 図 1 3 A及び図 1 3 Bに示すように、 音声符号化 装置側では、 音声復号化装置側で用いる拡散パタンを 1サンプルおきにゼロに 置き換えた拡散パタンを用いる場合について説明したが、 音声符号化装置側で は、 音声復号化装置側で用いる拡散パタンの要素を N (N≥ 1 ) サンプルおき にゼロに置き換えて得られる拡散パタンを用いた場合にも、 本実施の形態をそ のまま適用することができ、 その場合にも同様の作用を得ることができる。 また、 本実施の形態では、 拡散パタン格納部が、 チャネルあたり 1種類ずつ の拡散パタンを登録している場合の実施の形態を説明したが、 チャネルあたり 2種類以上の拡散パ夕ンが登録されており、 それら拡散パタンを選択して用い ることを特徴とするパルス拡散符号帳を確率的符号帳部に用いる C E L P音 声符号化装置 ·復号化装置においても本発明を適用することが可能であり、 そ の場合にも同様の作用 ·効果を得ることができる。
また、 本実施の形態では、 代数的符号帳部が 3個の非零要素を含むベクトル を出力するパルス拡散符号帳を用いた場合について実施の形態を説明したが、 代数的符号帳部が出力するベクトル中の非零要素数が M個 (M≥l ) の場合に おいても本実施の形態を適用することが可能であり、 その場合にも同様の作 用 ·効果を得ることができる。
また、 本実施の形態では、 少数個の非零要素からなるパルスベクトルを生成 する符号帳として代数的符号帳を用いた場合について説明したが、 当該パルス べクトルを生成する符号帳としては、 マルチパルス符号帳やレギュラーパルス 符号帳など、 その他の符号帳を用いる場合にも本実施の形態を適用することが 可能であり、 その場合にも同様の作用 ·効果を得ることができる。
次に、 図 1 1に示す音声符号化装置におけるパルス拡散符号帳の構成を図 1 4 Aに示す、 図 1 2に示す音声復号化装置におけるパルス拡散符号帳の構成を 図 1 4 Bに示す。
図 1 4 Aに示すパルス拡散符号帳と図 1 4 Bに示すパルス拡散符号帳の構 成を比較した場合、 構成上の異なる点は、 拡散パタン格納部に登録している拡 散パタンの長さが異なっている。 図 1 4 Bの音声復号化装置側では、 拡散パ夕 ン格納部 4 0 1 2には、 上述した拡散パタンと同様の拡散パタン、 すなわち、 ( 1 ) 多くの確率的音源ターゲットの形状を統計学習し、 確率的音源ターゲッ ト中に統計的に高い頻度で含まれる形状の拡散パタン、 (2 ) 無声子音区間や 雑音区間を効率的に表現するための乱数的な形状の拡散パタン、 (3 ) 有声定 常区間を効率的に表現するためのパルス的な形状の拡散パタン、 (4 ) 代数的 符号帳から出力される音源べクトルのエネルギー (非零要素の位置にエネルギ 一が集中している) を周囲に分散させるような作用を与える形状の拡散パタン、 ( 5 ) 適当に用意したいくつかの拡散パタン候補について、 音声信号を、 符号 化、 復号化、 合成音声の視聴評価を繰り替えし、 品質の高い合成音声を出力し うるよう選択した拡散パタン、 (6 ) 音声学的な知見をもとに作成した拡散パ タンのうちのいずれかの拡散パタンが各チャネルあたり 1種類ずつ登録され ている。
一方、 図 1 4 Aの音声符号化装置側では、 拡散パタン格納部 4 0 1 2には、 図 1 4 Bの音声復号化装置側の拡散パタン格納部に登録されている拡散パ夕 ンを、 半分の長さで打ち切った拡散パタンが登録されている。
そして、 上述のように構成された C E L P音声符号化装置 ·復号化装置では、 符号化装置側と復号化装置側で異なる拡散パ夕ンが登録されていることを意 識せずに、 上述した場合と同様の方法で、 音声信号を符号化 ·復号化する。 符号化装置では、 パルス拡散符号帳を確率的符号帳部に用いた場合の確率的 符号帳探索時の前処理演算量を削減することができ (Hi= HtWi および X it= v tHi の演算量をおよそ半分に削減でき) 、 復号化装置側では、 従来ど おりの拡散パ夕ンを利用することで、 合成音声の品質向上を実現することが可 能となる。
なお、 本実施の形態では、 図 1 4 A及び図 1 4 Bに示すように、 音声符号化 装置側では、 音声復号化装置側で用いる拡散パタンを半分の長さで打ち切った 拡散パタンを用いる場合について説明したが、 音声符号化装置側では、 音声符 号化装置側で用いる拡散パタンを、 さらに短い長さ N (N≥ 1 ) で打ち切った 場合には、 確率的符号帳探索時の前処理演算量をさらに削減することが可能に なるといつた作用が得られる。 ただしここで、 音声符号化装置側で用いる拡散 パタンを長さ 1で打ち切る場合は、 拡散パタンを用いない音声符号化装置に相 当する (音声復号化装置には拡散パタンが適用されている) 。
また、 本実施の形態では、 拡散パタン格納部が、 チャネルあたり 1種類ずつ の拡散パタンを登録している場合を説明したが、 チャネルあたり 2種類以上の 拡散パタンが登録されており、 それら拡散パタンを選択して用いることを特徴 とするパルス拡散符号帳を確率的符号帳部に用いる音声符号化装置 音声復 号化装置においても本実施の形態を適用することが可能であり、 その場合にも 同様の作用 ·効果を得ることができる。
また、 本実施の形態では、 代数的符号帳部が 3個の非零要素を含むベクトル を出力するパルス拡散符号帳を用いた場合について実施の形態を説明したが、 代数的符号帳部が出力するベクトル中の非零要素数が M個 (M≥l ) の場合に おいても本実施の形態を適用することが可能であり、 その場合にも同様の作 用 ·効果を得ることができる。
また、 本実施の形態では、 音声符号化装置側では、 音声復号化装置側で用い る拡散パタンを半分の長さで打ち切った拡散パタンを用いる場合について説 明したが、 音声符号化装置側では、 音声復号化装置側で用いる拡散パタンを長 さ N (N≥ l ) で打ち切り、 さらに、 打ち切り後の拡散パタンを M (M≥l ) サンプルおきにゼロに置き換えることも可能であり、 その場合には、 符号探索 演算量をさらに低減することが可能になる。
このように本実施の形態によれば、 パルス拡散符号帳を確率的符号帳部に用 いる C E L P方式の音声符号化装置と復号化装置、 及び音声符号化復号化シス テムにおいて、 学習によって獲得された確率的音源ターゲット中に頻繁に含ま れる固定波形を拡散パタンとして登録しておき、 当該拡散パタンをパルスべク トルに重畳する (反映させる) ことで、 確率的音源ターゲットにより近い確率 的音源べクトルを利用することができるため、 復号化側で合成音声の品質向上 を実現でき、 さらには、 符号化側で、 パルス拡散符号帳を確率的符号帳部に用 いる場合に問題となることがある確率的符号帳探索の演算量を、 従来よりも低 く抑えることが可能となるという有利な効果が得られる。
なお、 少数個の非零要素からなるパルスべクトルを生成する符号帳として、 マルチパルス符号帳やレギュラーパルス符号帳など、 その他の符号帳を用いた 場合にも同様の作用 ·効果を得ることができる。
上記実施の形態 1〜 3に係る音声符号化/復号化は、 音声符号化装置ノ音声 復号化装置として説明しているが、 これらの音声符号化 Z復号化をソフトゥェ ァとして構成しても良い。 例えば、 上記音声符号化 Z復号化のプログラムを R OMに格納し、 そのプログラムにしたがって C P Uの指示により動作させるよ うに構成しても良い。 また、 プログラム, 適応符号帳, 及び確率的符号帳 (パ ルス拡散符号帳) をコンピュータで読み取り可能な記憶媒体に格納し、 この記 憶媒体のプログラム, 適応符号帳, 及び確率的符号帳 (パルス拡散符号帳) を コンピュータの R AMに記録して、 プログラムにしたがって動作させるように しても良い。 このような場合においても、 上記実施の形態 1〜3と同様の作用、 効果を呈する。 さらに、 実施の形態 1〜3におけるプログラムを通信端末でダ ゥンロードし、 その通信端末でプログラムを動作させるようにしても良い。 なお、 上記実施の形態 1〜3については、 個々に実施しても良く、 組み合わ せて実施しても良い。 本明細書は、 1999年 8月 23日出願の特願平 1 1— 235050号、 1 999年 8月 24日出願の特願平 1 1—236728号、 及び 1999年 9月 2日出願の特願平 1 1— 248363号に基づく。 これらの内容はすべてここ に含めておく。 産業上の利用可能性
本発明は、 ディジ夕ル通信システムにおける基地局装置や通信端末装置に適用 することができる。

Claims

請求の範囲
1 . 適応符号帳及び確率的符号帳に格納された適応音源及び確率的音源に対し て、 入力音声から求めた L P C係数を用いてフィルタリングすることにより、 合成音を得る L P C合成手段と、 前記適応音源及び前記確率的音源のゲインを 求め、 さらに前記ゲインを用いて得られる前記入力音声と前記合成音との間の 符号化歪みを用いて適応音源及び確率的音源の符号を探索するゲイン演算手 段と、 求められた符号に対応する適応音源及び確率的音源を用いてゲインの予 測符号化を行うパラメ一夕符号化手段と、 を具備し、
前記パラメ一夕符号化手段は、 以前のサブフレームの状態に応じて前記予測 符号化に用いる予測係数を調整する予測係数調整手段を備える音声符号化装 置。
2 . 前記予測係数調整手段は、 以前のサブフレームの状態が極端に大きな値又 は極端に小さな値である場合に、 その影響を小さくするように前記予測係数を 調整する請求項 1記載の音声符号化装置。
3 . 前記パラメ一夕符号化手段は、 適応音源のゲインのベクトル及び確率的音 源のゲインのべクトル、 並びに予測係数を調整する係数を含む符号帳を有する ことを特徴とする請求項 1記載の音声符号化装置。
4 . 予測符号化において、 状態と予測係数との間の積和を求めるときに、 その 状態に対応した予測係数調整係数を乗じる請求項 3記載の音声符号化装置。 5 . 前記適応音源及び前記確率的音源、 並びに予測係数調整係数を状態毎に対 応させて格納する格納手段を具備する請求項 1記載の音声符号化装置。
6 . 前記格納手段に格納された前記適応音源及び前記確率的音源の状態を更新 する際に、 前記予測係数調整係数も更新する請求項 5記載のべクトル量子化装 置。
7 . 適応符号帳及び確率的符号帳に格納された適応音源及び確率的音源に対し て、 入力音声から求めた L P C係数を用いてフィル夕リングすることにより、 合成音を得る L P C合成手段と、 前記適応音源及び前記確率的音源のゲインを 求めるゲイン演算手段と、 前記入力音声と前記合成音との間の符号化歪みを用 いて求められた適応音源及び確率的音源、 並びに前記ゲインのべクトル量子化 を行うパラメ一夕符号化手段と、 を具備し、 1つのフレームを複数のサブフレ ームに分解して符号化を行う C E L P型音声符号化装置であって、
最初のサブフレームの適応符号帳探索の前に、 フレームを構成する複数のサ ブフレームのピッチ分析を行つて相関値を求め、 前記相関値を用いて最もピッ チ周期に近似する値を算出するピッチ分析手段を備える音声符号化装置。 8 . 前記ピッチ分析手段において得られた相関値及び最もピッチ周期に近似す る値に基づいて複数のサブフレームのラグの探索範囲を決定する探索範囲設 定手段を具備する請求項 7記載の音声符号化装置。
9 . 探索範囲設定手段は、 前記ピッチ分析手段において得られた相関値及び最 もピッチ周期に近似する値を用いて探索範囲の中心となる仮ピッチを求める 請求項 8記載の音声符号化装置。
1 0 . 探索範囲設定手段は、 仮ピッチの周りの指定の範囲にラグの探索区間を 設定する請求項 9記載の音声符号化装置。
1 1 . 探索範囲設定手段は、 ラグが短い候補を少なくしてラグの探索区間を設 定する請求項 8記載の音声符号化装置。
1 2 . 探索範囲設定手段は、 適応符号帳探索の際に、 設定された範囲でラグの 探索を行う請求項 8記載の音声符号化装置。
1 3 . 音声符号化プログラム;過去に合成した音源信号が格納された適応符号 帳;複数の音源べクトルを格納した確率的符号帳;を格納し、 コンピュータに より読み取り可能な記録媒体であつて、 前記音声符号化プログラムは、 前記適応符号帳及び前記確率的符号帳に格納された適応音源及び確率的音 源に対して、 入力音声から求めた L P C係数を用いてフィルタリングすること により、 合成音を得る手順と、
前記適応音源及び前記確率的音源のゲインを求める手順と、
前記入力音声と前記合成音との間の符号化歪みを用いて求められた適応音 源及び確率的音源、 並びに前記ゲインのべクトル量子化を行う手順と、 を含み、
ベクトル量子化を行う手順において、 複数の量子化対象ベクトルと、 予測符 号化に用いる予測係数との間の符号化歪みに基づいて量子化対象べクトルを 求める手順と、 以前のサブフレームの状態に応じて前記予測係数を調整する手 川頁と、 を含む。
1 4 . 音声符号化プログラム;過去に合成した音源信号が格納された適応符号 帳;複数の音源べクトルを格納した確率的符号帳;を格納し、 コンピュータに より読み取り可能な記録媒体であって、 前記音声符号化プログラムは、 前記適応符号帳及び前記確率的符号帳に格納された適応音源及び確率的音 源に対して、 入力音声から求めた L P C係数を用いてフィルタリングすること により、 合成音を得る手順と、
前記適応音源及び前記確率的音源のゲインを求める手順と、
前記入力音声と前記合成音との間の符号化歪みを用いて求められた適応音 源及び確率的音源、 並びに前記ゲインのベクトル量子化を行う手順と、 最初のサブフレームの適応符号帳探索の前に、 フレームを構成する複数のサ ブフレームのピッチ分析を行つて相関値を求め、 前記相関値を用いて最もピッ チ周期に近似する値を算出する手順と、
を含む。
補正書の請求の範囲
[ 2 0 0 0年 1 2月 2 2日 (2 2 , 1 2 . 0 0 ) 国際事務局受理:出願当初の請求の範囲 は補正された;新しい請求の範囲 1 5— 3 8が加えられた;他の請求の範囲は変更なし。 ( 6頁) ]
1 . 適応符号帳及び確率的符号帳に格納された適応音源及び確率的音源に対し て、 入力音声から求めた L P C係数を用いてフィルタリングすることにより、 合成音を得る L P C合成手段と、 前記適応音源及ぴ前記確率的音源のゲインを 求め、 さらに前記ゲインを用いて得られる前記入力音声と前記合成音との間の 符号化歪みを用いて適応音源及び確率的音源の符号を探索するゲイン演算手 段と、 求められた符号に対応する適応音源及び確率的音源を用いてゲインの予 測符号化を行うパラメータ符号化手段と、 を具備し、
前記パラメ一夕符号化手段は、 以前のサブフレームの状態に応じて前記予測 符号化に用いる予測係数を調整する予測係数調整手段を備える音声符号化装 置。
2 . 前記予測係数調整手段は、 以前のサブフレームの状態が極端に大きな値又 は極端に小さな値である場合に、 その影響を小さくするように前記予測係数を 調整する請求項 1記載の音声符号化装置。
3 . 前記パラメータ符号化手段は、 適応音源のゲインのベクトル及び確率的音 源のゲインのべクトル、 並びに予測係数を調整する係数を含む符号帳を有する ことを特徴とする請求項 1記載の音声符号化装置。
4 . 予測符号化において、 状態と予測係数との間の積和を求めるときに、 その 状態に対応した予測係数調整係数を乗じる請求項 3記載の音声符号化装置。
5 . 前記適応音源及び前記確率的音源、 並びに予測係数調整係数を状態毎に対 応させて格納する格納手段を具備する請求項 1記載の音声符号化装置。
6 . (補正後) 前記格納手段に格納された前記適応音源及び前記確率的音源の 状態を更新する際に、 前記予測係数調整係数も更新する請求項 5記載の音声符 号化装置。
7 . 適応符号帳及び確率的符号帳に格納された適応音源及び確率的音源に対し て、 入力音声から求めた L P C係数を用いてフィルタリングすることにより、 合成音を得る L P C合成手段と、 前記適応音源及び前記確率的音源のゲインを 補正された用紙 (条約第 19条) 求めるゲイン演算手段と、 前記入力音声と前記合成音との間の符号化歪みを用 いて求められた適応音源及び確率的音源、 並びに前記ゲインのべクトル量子化 を行うパラメ一夕符号化手段と、 を具備し、 1つのフレームを複数のサブフレ ームに分解して符号化を行う C E L P型音声符号化装置であつて、
最初のサブフレームの適応符号帳探索の前に、 フレームを構成する複数のサ ブフレームのピッチ分析を行って相関値を求め、 前記相関値を用いて最もピッ チ周期に近似する値を算出するピッチ分析手段を備える音声符号化装置。
8 . 前記ピッチ分析手段において得られた相関値及び最もピッチ周期に近似す る値に基づいて複数のサブフレームのラグの探索範囲を決定する探索範囲設 定手段を具備する請求項 7記載の音声符号化装置。
9 . 探索範囲設定手段は、 前記ピッチ分析手段において得られた相関値及び最 もピッチ周期に近似する値を用いて探索範囲の中心となる仮ピッチを求める 請求項 8記載の音声符号化装置。
1 0 . 採索範囲設定手段は、 仮ピッチの周りの指定の範囲にラグの探索区間を 設定する請求項 9記載の音声符号化装置。
1 1 . 探索範囲設定手段は、 ラグが短い候補を少なくしてラグの探索区間を設 定する請求項 8記載の音声符号化装置。
1 2 . 探索範囲設定手段は、 適応符号帳探索の際に、 設定された範囲でラグの 探索を行う請求項 8記載の音声符号化装置。
1 3 . 音声符号化プログラム;過去に合成した音源信号が格納された適応符号 帳;複数の音源べクトルを格納した確率的符号帳;を格納し、 コンピュータに より読み取り可能な記録媒体であって、 前記音声符号化プログラムは、 前記適応符号帳及び前記確率的符号帳に格納された適応音源及び確率的音 源に対して、 入力音声から求めた L P C係数を用いてフィルタリングすること により、 合成音を得る手順と、
前記適応音源及び前記確率的音源のゲインを求める手順と、
前記入力音声と前記合成音との間の符号化歪みを用いて求められた適応音 補正きれた用紙 (条約第 19条) 源及び確率的音源、 並びに前記ゲインのべクトル量子化を行う手順と、 を含み、
ベクトル量子化を行う手順において、 複数の量子化対象ベクトルと、 予測符 号化に用いる予測係数との間の符号化歪みに基づいて量子化対象べクトルを 求める手順と、 以前のサブフレームの状態に応じて前記予測係数を調整する手 順と、 を含む。
1 4 . 音声符号化プログラム;過去に合成した音源信号が格納された適応符号 帳;複数の音源べクトルを格納した確率的符号帳;を格納し、 コンピュータに より読み取り可能な記録媒体であつて、 前記音声符号化プログラムは、 前記適応符号帳及び前記確率的符号帳に格納された適応音源及び確率的音 源に対して、 入力音声から求めた L P C係数を用いてフィルタリングすること により、 合成音を得る手順と、
前記適応音源及び前記確率的音源のゲインを求める手順と、
前記入力音声と前記合成音との間の符号化歪みを用いて求められた適応音 源及び確率的音源、 並びに前記ゲインのベクトル量子化を行う手順と、 最初のサブフレームの適応符号帳探索の前に、 フレームを構成する複数のサ ブフレームのピッチ分析を行つて相関値を求め、 前記相関値を用いて最もピッ チ周期に近似する値を算出する手順と、
を含む。
1 5 . (追加) 少なくとも一つの非零要素 (非零要素以外の要素はゼロの値を 持つ) を含むベクトルと、 拡散パタンと呼ばれる固定波形とを重畳してべクト ルを生成するパルス拡散符号帳を備え、 前記パルス拡散符号帳が、 音声復号化 装置側のパルス拡散符号帳の構成と異なる構成を有する音声符号化装置。
1 6 . (追加) パルス拡散符号帳の構成部位である拡散パタン格納部が、 音声 復号化装置側の拡散パ夕ン格納部が格納している拡散パタンと異なる拡散パ タンを格納している請求項 1 5記載の音声符号化装置。
1 7 . (追加) 拡散パタン格納部が、 音声復号化装置側の拡散パタン格納部が 補正きれた用紙 (条約第 19条) 格納している拡散パタンを簡素化して選られる得られる拡散パタンを格納し ている請求項 1 6記載の音声符号化装置。
1 8 . (追加) 拡散パタン格納部が、 音声復号化装置側の拡散パタン格納部が 格納している拡散パタンの構成要素を、 所定の間隔ごとにゼロに置き換えて得 られる拡散パタンを格納している請求項 1 6記載の音声符号化装置。
1 9 . (追加) 拡散パタン格納部が、 音声復号化装置側の拡散パタン格納部が 格納している拡散パタンの構成要素を、 Nサンプル (Nは自然数) ごとにゼロ に置き換えて得られる拡散パタンを格納している請求項 1 6記載の音声符号 化装置。
2 0 . (追加) 拡散パタン格納部が、 音声復号化装置側の拡散パタン格納部が 格納している拡散パタンの構成要素を、 1サンプルごとにゼロに置き換えて得 られる拡散パタンを格納している請求項 1 9記載の音声符号化装置。
2 1 . (追加) 拡散パタン格納部が、 音声復号化装置側の拡散パタン格納部が 格納している拡散パタンの構成要素を、 適当な長さで打ち切って得られる拡散 パタンを格納している請求項 1 6記載の音声符号化装置。
2 2 . (追加) 拡散パタン格納部が、 音声復号化装置側の拡散パタン格納部が 格納している拡散パタンの構成要素を、 Nサンプル (Nは自然数) の長さで打 ち切って得られる拡散パタンを格納していることを特徵とする請求項 1 6記 載の音声符号化装置。
2 3 . (追加) 拡散パタン格納部が、 音声復号化装置側の拡散パタン格納部が 格納している拡散パタンの構成要素を、 半分の長さに打ち切って得られる拡散 パタンを格納している請求項 1 6記載の音声符号化装置。
2 4. (追加) 請求項 1 5音声符号化装置で生成された音声符号を有する音声 信号を復号化する音声復号化装置。
2 5 . (追加) 請求項 1 5音声符号化装置を実現するソフトウェアプログラム を記述した信号処理用プロセッサ。
2 6 . (追加) 請求項 2 4記載の音声復号化装置を実現するソフトウェアプロ 補正きれた用紙 (条約第 19条) グラムを記述した信号処理用プロセッサ。
2 7 . (追加) 音声符号化装置側が有するパルス拡散符号帳の構成と、 音声復 号化装置側が有するパルス拡散符号帳の構成とが異なる音声符号化復号化シ ステム。
2 8 . (追加) 音声符号化装置側が有するパルス拡散符号帳の構成と、 音声符 号化装置側が有するパルス拡散符号帳の構成との違いが、 それぞれのパルス拡 散符号帳に備えられた拡散パタンの形状である請求項 2 7記載の音声符号化 復号化システム。
2 9 . (追加) 音声符号化装置側の拡散パタンの形状が、 音声復号化装置側の 拡散パタンの形状を簡素化したのもである請求項 2 8記載の音声符号化復号 化システム。
3 0 . (追加) 音声符号化装置側の拡散パタンの形状が、 音声復号化装置側の 拡散パタンの構成要素を、 適当な間隔ごとにゼロに置き換えて得られる形状で ある請求項 2 7記載の音声符号化復号化システム。
3 1 . (追加) 音声符号化装置側の拡散パタンの形状が、 音声復号化装置側の 拡散パタンの構成要素を、 Nサンプル (Nは自然数) ごとにゼロに置き換えて 得られる形状である請求項 2 7記載の音声符号化復号化システム。
3 2 . (追加) 音声符号化装置側の拡散パタンの形状が、 音声復号化装置側の 拡散パタンの構成要素を、 1サンプルごとにゼロに置き換えて得られる形状で ある請求項 3 1記載の音声符号化復号化システム。
3 3 . (追加) 音声符号化装置側の拡散パタンの形状が、 音声復号化装置側の 拡散パタンの構成要素を、 適当な長さで打ち切って得られる形状である請求項 2 7記載の音声符号化復号化システム。
3 4. (追加) 音声符号化装置側の拡散パタンの形状が、 音声符号化装置側の 拡散パタンの構成要素を、 Nサンプル (Nは自然数) の長さで打ち切って得ら れる形状である請求項 2 7記載の音声符号化復号化システム。
3 5 . (追加) 音声符号化装置側の拡散パタンの形状が、 音声復号化装置側の 補正きれた用紙 (^第 19条) 拡散パタンの構成要素を、 半分の長さに打ち切って得られる形状である請求項 2 7記載の音声符号化復号化システム。
3 6 . (追加) 請求項 2 5記載の信号処理用プロセッサを備える通信用基地局 3 7 . (追加) 請求項 2 5記載の信号処理用プロセッサを備える通信用端末。 3 8 . (追加) 請求項 3 6記載の通信用基地局及び請求項 3 7記載の通信端末 を無線ネットワークでつないだ無線通信システム。
補正された用紙 (^第 19条)
PCT/JP2000/005621 1999-08-23 2000-08-23 Vocodeur et procede correspondant WO2001015144A1 (fr)

Priority Applications (6)

Application Number Priority Date Filing Date Title
AU67255/00A AU6725500A (en) 1999-08-23 2000-08-23 Voice encoder and voice encoding method
US09/807,427 US6988065B1 (en) 1999-08-23 2000-08-23 Voice encoder and voice encoding method
CA002348659A CA2348659C (en) 1999-08-23 2000-08-23 Apparatus and method for speech coding
EP00954908A EP1132892B1 (en) 1999-08-23 2000-08-23 Speech encoding and decoding system
US11/095,530 US7289953B2 (en) 1999-08-23 2005-04-01 Apparatus and method for speech coding
US11/095,605 US7383176B2 (en) 1999-08-23 2005-04-01 Apparatus and method for speech coding

Applications Claiming Priority (6)

Application Number Priority Date Filing Date Title
JP11/235050 1999-08-23
JP23505099 1999-08-23
JP11/236728 1999-08-24
JP23672899 1999-08-24
JP24836399 1999-09-02
JP11/248363 1999-09-02

Related Child Applications (3)

Application Number Title Priority Date Filing Date
US09807427 A-371-Of-International 2000-08-23
US11/095,605 Continuation US7383176B2 (en) 1999-08-23 2005-04-01 Apparatus and method for speech coding
US11/095,530 Continuation US7289953B2 (en) 1999-08-23 2005-04-01 Apparatus and method for speech coding

Publications (2)

Publication Number Publication Date
WO2001015144A1 true WO2001015144A1 (fr) 2001-03-01
WO2001015144A8 WO2001015144A8 (fr) 2001-04-26

Family

ID=27332220

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/JP2000/005621 WO2001015144A1 (fr) 1999-08-23 2000-08-23 Vocodeur et procede correspondant

Country Status (8)

Country Link
US (3) US6988065B1 (ja)
EP (3) EP1959434B1 (ja)
KR (1) KR100391527B1 (ja)
CN (3) CN1296888C (ja)
AU (1) AU6725500A (ja)
CA (2) CA2348659C (ja)
DE (1) DE60043601D1 (ja)
WO (1) WO2001015144A1 (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR100852483B1 (ko) * 2004-02-13 2008-08-18 프라운호퍼-게젤샤프트 츄어 푀르더룽 데어 안게반텐 포르슝에.파우. 예측 부호화 방법

Families Citing this family (46)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7363219B2 (en) * 2000-09-22 2008-04-22 Texas Instruments Incorporated Hybrid speech coding and system
AU2003211229A1 (en) 2002-02-20 2003-09-09 Matsushita Electric Industrial Co., Ltd. Fixed sound source vector generation method and fixed sound source codebook
WO2004097796A1 (ja) 2003-04-30 2004-11-11 Matsushita Electric Industrial Co., Ltd. 音声符号化装置、音声復号化装置及びこれらの方法
KR20060131793A (ko) * 2003-12-26 2006-12-20 마츠시타 덴끼 산교 가부시키가이샤 음성ㆍ악음 부호화 장치 및 음성ㆍ악음 부호화 방법
JP4771674B2 (ja) * 2004-09-02 2011-09-14 パナソニック株式会社 音声符号化装置、音声復号化装置及びこれらの方法
US7991611B2 (en) * 2005-10-14 2011-08-02 Panasonic Corporation Speech encoding apparatus and speech encoding method that encode speech signals in a scalable manner, and speech decoding apparatus and speech decoding method that decode scalable encoded signals
JP5159318B2 (ja) * 2005-12-09 2013-03-06 パナソニック株式会社 固定符号帳探索装置および固定符号帳探索方法
JP3981399B1 (ja) * 2006-03-10 2007-09-26 松下電器産業株式会社 固定符号帳探索装置および固定符号帳探索方法
JPWO2007129726A1 (ja) * 2006-05-10 2009-09-17 パナソニック株式会社 音声符号化装置及び音声符号化方法
US20090240494A1 (en) * 2006-06-29 2009-09-24 Panasonic Corporation Voice encoding device and voice encoding method
US8812306B2 (en) 2006-07-12 2014-08-19 Panasonic Intellectual Property Corporation Of America Speech decoding and encoding apparatus for lost frame concealment using predetermined number of waveform samples peripheral to the lost frame
US8010350B2 (en) * 2006-08-03 2011-08-30 Broadcom Corporation Decimated bisectional pitch refinement
JPWO2008018464A1 (ja) * 2006-08-08 2009-12-24 パナソニック株式会社 音声符号化装置および音声符号化方法
US8239191B2 (en) * 2006-09-15 2012-08-07 Panasonic Corporation Speech encoding apparatus and speech encoding method
US20100017197A1 (en) * 2006-11-02 2010-01-21 Panasonic Corporation Voice coding device, voice decoding device and their methods
ATE512437T1 (de) * 2006-11-29 2011-06-15 Loquendo Spa Quellenabhängige codierung und decodierung mit mehreren codebüchern
JPWO2008072701A1 (ja) * 2006-12-13 2010-04-02 パナソニック株式会社 ポストフィルタおよびフィルタリング方法
US8249860B2 (en) * 2006-12-15 2012-08-21 Panasonic Corporation Adaptive sound source vector quantization unit and adaptive sound source vector quantization method
JP5339919B2 (ja) * 2006-12-15 2013-11-13 パナソニック株式会社 符号化装置、復号装置およびこれらの方法
JP5241509B2 (ja) * 2006-12-15 2013-07-17 パナソニック株式会社 適応音源ベクトル量子化装置、適応音源ベクトル逆量子化装置、およびこれらの方法
US20080154605A1 (en) * 2006-12-21 2008-06-26 International Business Machines Corporation Adaptive quality adjustments for speech synthesis in a real-time speech processing system based upon load
CN101636784B (zh) * 2007-03-20 2011-12-28 富士通株式会社 语音识别系统及语音识别方法
WO2009011826A2 (en) * 2007-07-13 2009-01-22 Dolby Laboratories Licensing Corporation Time-varying audio-signal level using a time-varying estimated probability density of the level
CN101802908A (zh) * 2007-09-21 2010-08-11 松下电器产业株式会社 通信终端装置、通信系统和通信方法
CN101483495B (zh) * 2008-03-20 2012-02-15 华为技术有限公司 一种背景噪声生成方法以及噪声处理装置
US8504365B2 (en) * 2008-04-11 2013-08-06 At&T Intellectual Property I, L.P. System and method for detecting synthetic speaker verification
US8768690B2 (en) * 2008-06-20 2014-07-01 Qualcomm Incorporated Coding scheme selection for low-bit-rate applications
KR101614160B1 (ko) * 2008-07-16 2016-04-20 한국전자통신연구원 포스트 다운믹스 신호를 지원하는 다객체 오디오 부호화 장치 및 복호화 장치
CN101615394B (zh) 2008-12-31 2011-02-16 华为技术有限公司 分配子帧的方法和装置
MX2013009295A (es) * 2011-02-15 2013-10-08 Voiceage Corp Dispositivo y método para cuantificar ganancias de contribuciones adaptativas y fijas de una excitación en un codec celp.
US9626982B2 (en) 2011-02-15 2017-04-18 Voiceage Corporation Device and method for quantizing the gains of the adaptive and fixed contributions of the excitation in a CELP codec
MX2013012301A (es) 2011-04-21 2013-12-06 Samsung Electronics Co Ltd Aparato para cuantificar coeficientes de codificacion predictiva lineal, aparato de codificacion de sonido, aparato para decuantificar coeficientes de codificacion predictiva lineal, aparato de decodificacion de sonido y dispositivo electronico para los mismos.
WO2012144878A2 (en) 2011-04-21 2012-10-26 Samsung Electronics Co., Ltd. Method of quantizing linear predictive coding coefficients, sound encoding method, method of de-quantizing linear predictive coding coefficients, sound decoding method, and recording medium
US9015039B2 (en) * 2011-12-21 2015-04-21 Huawei Technologies Co., Ltd. Adaptive encoding pitch lag for voiced speech
US9111531B2 (en) * 2012-01-13 2015-08-18 Qualcomm Incorporated Multiple coding mode signal classification
CN104718572B (zh) * 2012-06-04 2018-07-31 三星电子株式会社 音频编码方法和装置、音频解码方法和装置及采用该方法和装置的多媒体装置
KR102148407B1 (ko) * 2013-02-27 2020-08-27 한국전자통신연구원 소스 필터를 이용한 주파수 스펙트럼 처리 장치 및 방법
KR101883789B1 (ko) * 2013-07-18 2018-07-31 니폰 덴신 덴와 가부시끼가이샤 선형 예측 분석 장치, 방법, 프로그램 및 기록 매체
CN103474075B (zh) * 2013-08-19 2016-12-28 科大讯飞股份有限公司 语音信号发送方法及系统、接收方法及系统
US9672838B2 (en) * 2014-08-15 2017-06-06 Google Technology Holdings LLC Method for coding pulse vectors using statistical properties
WO2016036163A2 (ko) * 2014-09-03 2016-03-10 삼성전자 주식회사 오디오 신호를 학습하고 인식하는 방법 및 장치
CN105589675B (zh) * 2014-10-20 2019-01-11 联想(北京)有限公司 一种声音数据处理方法、装置及电子设备
US9837089B2 (en) * 2015-06-18 2017-12-05 Qualcomm Incorporated High-band signal generation
US10847170B2 (en) 2015-06-18 2020-11-24 Qualcomm Incorporated Device and method for generating a high-band signal from non-linearly processed sub-ranges
US11869482B2 (en) * 2018-09-30 2024-01-09 Microsoft Technology Licensing, Llc Speech waveform generation
CN113287167A (zh) * 2019-01-03 2021-08-20 杜比国际公司 用于混合语音合成的方法、设备及系统

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH09152897A (ja) * 1995-11-30 1997-06-10 Hitachi Ltd 音声符号化装置および音声符号化方法
JPH1063300A (ja) 1996-08-22 1998-03-06 Matsushita Electric Ind Co Ltd 音声復号化装置及び音声符号化装置
JPH10233694A (ja) * 1997-02-19 1998-09-02 Matsushita Electric Ind Co Ltd ベクトル量子化法
JPH10282998A (ja) * 1997-04-04 1998-10-23 Matsushita Electric Ind Co Ltd 音声パラメータ符号化装置

Family Cites Families (34)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US93266A (en) * 1869-08-03 Improvement in embroidering-attachment for sewing-machines
US4969192A (en) * 1987-04-06 1990-11-06 Voicecraft, Inc. Vector adaptive predictive coder for speech and audio
JPS6463300A (en) 1987-09-03 1989-03-09 Toshiba Corp High frequency acceleration cavity
US5307441A (en) * 1989-11-29 1994-04-26 Comsat Corporation Wear-toll quality 4.8 kbps speech codec
FI98104C (fi) * 1991-05-20 1997-04-10 Nokia Mobile Phones Ltd Menetelmä herätevektorin generoimiseksi ja digitaalinen puhekooderi
JPH0511799A (ja) 1991-07-08 1993-01-22 Fujitsu Ltd 音声符号化方式
JP3218630B2 (ja) 1991-07-31 2001-10-15 ソニー株式会社 高能率符号化装置及び高能率符号復号化装置
US5734789A (en) * 1992-06-01 1998-03-31 Hughes Electronics Voiced, unvoiced or noise modes in a CELP vocoder
US5327520A (en) * 1992-06-04 1994-07-05 At&T Bell Laboratories Method of use of voice message coder/decoder
JP3148778B2 (ja) 1993-03-29 2001-03-26 日本電信電話株式会社 音声の符号化方法
JP3087796B2 (ja) 1992-06-29 2000-09-11 日本電信電話株式会社 音声の予測符号化装置
US5598504A (en) * 1993-03-15 1997-01-28 Nec Corporation Speech coding system to reduce distortion through signal overlap
CA2154911C (en) * 1994-08-02 2001-01-02 Kazunori Ozawa Speech coding device
JP3047761B2 (ja) 1995-01-30 2000-06-05 日本電気株式会社 音声符号化装置
US5664055A (en) 1995-06-07 1997-09-02 Lucent Technologies Inc. CS-ACELP speech compression system with adaptive pitch prediction filter gain based on a measure of periodicity
JP3522012B2 (ja) * 1995-08-23 2004-04-26 沖電気工業株式会社 コード励振線形予測符号化装置
US5864798A (en) 1995-09-18 1999-01-26 Kabushiki Kaisha Toshiba Method and apparatus for adjusting a spectrum shape of a speech signal
JP3426871B2 (ja) 1995-09-18 2003-07-14 株式会社東芝 音声信号のスペクトル形状調整方法および装置
JP3196595B2 (ja) * 1995-09-27 2001-08-06 日本電気株式会社 音声符号化装置
JP3462958B2 (ja) 1996-07-01 2003-11-05 松下電器産業株式会社 音声符号化装置および記録媒体
JPH1097295A (ja) 1996-09-24 1998-04-14 Nippon Telegr & Teleph Corp <Ntt> 音響信号符号化方法及び復号化方法
JP3849210B2 (ja) * 1996-09-24 2006-11-22 ヤマハ株式会社 音声符号化復号方式
EP1085504B1 (en) 1996-11-07 2002-05-29 Matsushita Electric Industrial Co., Ltd. CELP-Codec
JP3174742B2 (ja) 1997-02-19 2001-06-11 松下電器産業株式会社 Celp型音声復号化装置及びcelp型音声復号化方法
US5915232A (en) * 1996-12-10 1999-06-22 Advanced Micro Devices, Inc. Method and apparatus for tracking power of an integrated circuit
US6202046B1 (en) * 1997-01-23 2001-03-13 Kabushiki Kaisha Toshiba Background noise/speech classification method
FI973873A (fi) * 1997-10-02 1999-04-03 Nokia Mobile Phones Ltd Puhekoodaus
JP3553356B2 (ja) * 1998-02-23 2004-08-11 パイオニア株式会社 線形予測パラメータのコードブック設計方法及び線形予測パラメータ符号化装置並びにコードブック設計プログラムが記録された記録媒体
US6470309B1 (en) * 1998-05-08 2002-10-22 Texas Instruments Incorporated Subframe-based correlation
TW439368B (en) * 1998-05-14 2001-06-07 Koninkl Philips Electronics Nv Transmission system using an improved signal encoder and decoder
US6480822B2 (en) * 1998-08-24 2002-11-12 Conexant Systems, Inc. Low complexity random codebook structure
SE521225C2 (sv) * 1998-09-16 2003-10-14 Ericsson Telefon Ab L M Förfarande och anordning för CELP-kodning/avkodning
JP3462464B2 (ja) * 2000-10-20 2003-11-05 株式会社東芝 音声符号化方法、音声復号化方法及び電子装置
JP4245288B2 (ja) 2001-11-13 2009-03-25 パナソニック株式会社 音声符号化装置および音声復号化装置

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH09152897A (ja) * 1995-11-30 1997-06-10 Hitachi Ltd 音声符号化装置および音声符号化方法
JPH1063300A (ja) 1996-08-22 1998-03-06 Matsushita Electric Ind Co Ltd 音声復号化装置及び音声符号化装置
JPH10233694A (ja) * 1997-02-19 1998-09-02 Matsushita Electric Ind Co Ltd ベクトル量子化法
JPH10282998A (ja) * 1997-04-04 1998-10-23 Matsushita Electric Ind Co Ltd 音声パラメータ符号化装置

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
J.ADOU ET AL.: "IEEE Int. Conf. Acoustics", 1987, SIGNAL PROCESSING, article "Comparison of Some Algebraic Structure for CELP Coding of Speech", pages: 1953 - 1956
J.ADOUL ET AL.: "Proc. IEEE Int. Conf. Acoustics", 1987, SIGNAL PROCESSING, article "Fast CELP Coding based on Algebraic codes", pages: 1957 - 1960
See also references of EP1132892A4

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR100852483B1 (ko) * 2004-02-13 2008-08-18 프라운호퍼-게젤샤프트 츄어 푀르더룽 데어 안게반텐 포르슝에.파우. 예측 부호화 방법

Also Published As

Publication number Publication date
CA2348659C (en) 2008-08-05
AU6725500A (en) 2001-03-19
CA2722110C (en) 2014-04-08
US20050171771A1 (en) 2005-08-04
EP1959435A2 (en) 2008-08-20
EP1132892A4 (en) 2007-05-09
CN1503222A (zh) 2004-06-09
EP1959435A3 (en) 2008-09-03
EP1959434B1 (en) 2013-03-06
CN1242378C (zh) 2006-02-15
WO2001015144A8 (fr) 2001-04-26
CA2722110A1 (en) 2001-03-01
EP1959434A3 (en) 2008-09-03
CN1503221A (zh) 2004-06-09
US20050197833A1 (en) 2005-09-08
US6988065B1 (en) 2006-01-17
CA2348659A1 (en) 2001-03-01
CN1242379C (zh) 2006-02-15
US7289953B2 (en) 2007-10-30
KR100391527B1 (ko) 2003-07-12
EP1132892A1 (en) 2001-09-12
EP1959435B1 (en) 2009-12-23
CN1296888C (zh) 2007-01-24
DE60043601D1 (de) 2010-02-04
US7383176B2 (en) 2008-06-03
CN1321297A (zh) 2001-11-07
EP1959434A2 (en) 2008-08-20
KR20010080258A (ko) 2001-08-22
EP1132892B1 (en) 2011-07-27

Similar Documents

Publication Publication Date Title
WO2001015144A1 (fr) Vocodeur et procede correspondant
RU2389085C2 (ru) Способы и устройства для введения низкочастотных предыскажений в ходе сжатия звука на основе acelp/tcx
US6427135B1 (en) Method for encoding speech wherein pitch periods are changed based upon input speech signal
US6055496A (en) Vector quantization in celp speech coder
US20020007269A1 (en) Codebook structure and search for speech coding
WO2001052241A1 (en) Multi-mode voice encoding device and decoding device
CA2918345C (en) Unvoiced/voiced decision for speech processing
KR20030046451A (ko) 음성 코딩을 위한 코드북 구조 및 탐색 방법
KR100351484B1 (ko) 음성 부호화 장치, 음성 복호화 장치, 음성 부호화 방법 및 기록 매체
JP4734286B2 (ja) 音声符号化装置
US20040181398A1 (en) Apparatus for coding wide-band low bit rate speech signal
EP1187337B1 (en) Speech coding processor and speech coding method
JPWO2007037359A1 (ja) 音声符号化装置および音声符号化方法
EP1397655A1 (en) Method and device for coding speech in analysis-by-synthesis speech coders
JP3916934B2 (ja) 音響パラメータ符号化、復号化方法、装置及びプログラム、音響信号符号化、復号化方法、装置及びプログラム、音響信号送信装置、音響信号受信装置
JP3593839B2 (ja) ベクトルサーチ方法
JP4287840B2 (ja) 符号化装置
JP4034929B2 (ja) 音声符号化装置
Li et al. Basic audio compression techniques
CA2513842C (en) Apparatus and method for speech coding
JP2002073097A (ja) Celp型音声符号化装置とcelp型音声復号化装置及び音声符号化方法と音声復号化方法
JP3232728B2 (ja) 音声符号化方法
JPH0786952A (ja) 音声の予測符号化方法
JP2002169595A (ja) 固定音源符号帳及び音声符号化/復号化装置
Viswanathan et al. Medium and low bit rate speech transmission

Legal Events

Date Code Title Description
WWE Wipo information: entry into national phase

Ref document number: 00801770.0

Country of ref document: CN

AK Designated states

Kind code of ref document: A1

Designated state(s): AE AG AL AM AT AU AZ BA BB BG BR BY BZ CA CH CN CR CU CZ DE DK DM DZ EE ES FI GB GD GE GH GM HR HU ID IL IN IS KE KG KP KR KZ LC LK LR LS LT LU LV MA MD MG MK MN MW MX MZ NO NZ PL PT RO RU SD SE SG SI SK SL TJ TM TR TT TZ UA UG US UZ VN YU ZA ZW

AL Designated countries for regional patents

Kind code of ref document: A1

Designated state(s): GH GM KE LS MW MZ SD SL SZ TZ UG ZW AM AZ BY KG KZ MD RU TJ TM AT BE CH CY DE DK ES FI FR GB GR IE IT LU MC NL PT SE BF BJ CF CG CI CM GA GN GW ML MR NE SN TD TG

WWE Wipo information: entry into national phase

Ref document number: 1020017004941

Country of ref document: KR

Ref document number: 09807427

Country of ref document: US

ENP Entry into the national phase

Ref document number: 2348659

Country of ref document: CA

Ref document number: 2348659

Country of ref document: CA

Kind code of ref document: A

WWE Wipo information: entry into national phase

Ref document number: 2000954908

Country of ref document: EP

121 Ep: the epo has been informed by wipo that ep was designated in this application
AK Designated states

Kind code of ref document: C1

Designated state(s): AE AG AL AM AT AU AZ BA BB BG BR BY BZ CA CH CN CR CU CZ DE DK DM DZ EE ES FI GB GD GE GH GM HR HU ID IL IN IS KE KG KP KR KZ LC LK LR LS LT LU LV MA MD MG MK MN MW MX MZ NO NZ PL PT RO RU SD SE SG SI SK SL TJ TM TR TT TZ UA UG US UZ VN YU ZA ZW

AL Designated countries for regional patents

Kind code of ref document: C1

Designated state(s): GH GM KE LS MW MZ SD SL SZ TZ UG ZW AM AZ BY KG KZ MD RU TJ TM AT BE CH CY DE DK ES FI FR GB GR IE IT LU MC NL PT SE BF BJ CF CG CI CM GA GN GW ML MR NE SN TD TG

CFP Corrected version of a pamphlet front page

Free format text: UNDER (72, 75) REPLACE "YASUNAGA, TOSHIYUKI" BY "YASUNAGA, KAZUTOSHI" AND REPLACE "MORII, KAZUTOSHI" BY "MORII, TOSHIYUKI"

WWP Wipo information: published in national office

Ref document number: 1020017004941

Country of ref document: KR

WWP Wipo information: published in national office

Ref document number: 2000954908

Country of ref document: EP

REG Reference to national code

Ref country code: DE

Ref legal event code: 8642

WWG Wipo information: grant in national office

Ref document number: 1020017004941

Country of ref document: KR