WO2002035522A1 - Procede et appareil de codage vocal - Google Patents

Procede et appareil de codage vocal Download PDF

Info

Publication number
WO2002035522A1
WO2002035522A1 PCT/JP2001/003240 JP0103240W WO0235522A1 WO 2002035522 A1 WO2002035522 A1 WO 2002035522A1 JP 0103240 W JP0103240 W JP 0103240W WO 0235522 A1 WO0235522 A1 WO 0235522A1
Authority
WO
WIPO (PCT)
Prior art keywords
distortion
vector
evaluation value
calculating
drive
Prior art date
Application number
PCT/JP2001/003240
Other languages
English (en)
French (fr)
Inventor
Hirohisa Tasaki
Original Assignee
Mitsubishi Denki Kabushiki Kaisha
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Mitsubishi Denki Kabushiki Kaisha filed Critical Mitsubishi Denki Kabushiki Kaisha
Priority to IL15524301A priority Critical patent/IL155243A0/xx
Priority to US10/398,808 priority patent/US7203641B2/en
Priority to DE60141646T priority patent/DE60141646D1/de
Priority to EP01919951A priority patent/EP1339042B1/en
Publication of WO2002035522A1 publication Critical patent/WO2002035522A1/ja

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/08Determination or coding of the excitation function; Determination or coding of the long-term prediction parameters
    • G10L19/12Determination or coding of the excitation function; Determination or coding of the long-term prediction parameters the excitation function being a code excitation, e.g. in code excited linear prediction [CELP] vocoders
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis

Definitions

  • the present invention relates to an audio encoding method and apparatus for compressing a digital audio signal into a small amount of information, and more particularly to a search for a driving vector in the audio encoding method and apparatus.
  • an input speech is divided into spectrum envelope information and a sound source, and each is encoded in frame units to generate a speech code.
  • the most typical speech coding method and apparatus are described in Reference 1 (ITU-T Recoinendation G.729, "CODING OF SPEECH AT 8 kbit / s USING CONJUGATE -ST drawing CT basket AL GEBRAIC-CODE-EXCITED LINEAR-PREDICTION (CS-ACELP) ", March 1996), etc., using the Code-Excited Linear Prediction (CELP) method.
  • CELP Code-Excited Linear Prediction
  • FIG. 8 is a block diagram showing the overall configuration of a conventional CELP-based speech encoding device disclosed in Reference 1.
  • 1 is input speech
  • 2 is linear prediction analysis means
  • 3 is linear prediction coefficient coding means
  • 4 is adaptive excitation coding means
  • 5 is driving excitation coding section
  • 6 is gain coding means
  • 7 is multiplexing.
  • the means 8 is a phonetic code.
  • processing is performed in frame units, with 10 ms as one frame.
  • processing is performed for each subframe obtained by dividing one frame into two.
  • a frame and a subframe are simply referred to as a frame without distinction.
  • the input speech 1 is input to the linear prediction analysis means 2, the adaptive excitation coding means 4, and the gain coding means 6.
  • the linear prediction analysis means 2 analyzes the input speech 1 and obtains the spectrum envelope information of the speech. Is extracted.
  • the linear prediction coefficient encoding means 3 encodes this linear prediction coefficient, outputs the code to the multiplexing means 7, and outputs a quantized linear prediction coefficient for excitation coding.
  • the adaptive excitation coding means 4 stores past excitations (signals) of a predetermined length as an adaptive excitation codebook, and corresponds to each adaptive excitation code represented by a binary number of several bits generated internally. Then, a time-series vector (adaptation vector) that periodically repeats past sound sources is generated. Next, a temporary synthesized sound is obtained by passing through a synthesis filter using the quantized linear prediction coefficients output from the linear prediction coefficient encoding means 3. The distortion between the signal obtained by multiplying the provisional synthesized sound by an appropriate gain and the input speech 1 is examined, an adaptive excitation code that minimizes this distortion is selected, output to the multiplexing means 7, and selected.
  • the time series vector corresponding to the adaptive excitation code is output to the driving excitation encoding section 5 and the gain encoding means 6 as an adaptive excitation. Further, a signal obtained by subtracting a signal obtained by multiplying the synthesized sound by the adaptive sound source by an appropriate gain from the input speech 1 is output to the driving sound source encoding unit 5 as an encoding target signal.
  • Driving excitation coding section 5 first sequentially converts time-series vectors (driving vectors) from the driving excitation codebook stored therein, corresponding to each driving excitation code represented by a binary value generated internally. read out. Next, a temporary synthesized sound is obtained by passing through a synthesis filter using the quantized linear prediction coefficients output from the linear prediction coefficient encoding means 3. Examine the distortion between the signal obtained by multiplying the provisional synthesized sound by an appropriate gain and the signal to be coded, which is the signal obtained by subtracting the synthesized sound from the adaptive sound source from the input speech 1, and determine the driving excitation code that minimizes this distortion. Is selected and output to the multiplexing means 7, and the time series vector corresponding to the selected driving excitation code is output to the gain encoding means 6 as a driving excitation.
  • the gain encoding means 6 first sequentially reads out the gain vectors from the gain codebook stored therein, corresponding to each of the internally generated gain codes represented by binary values. Then, the sound source is generated by multiplying each element of each gain vector by the adaptive excitation output from the adaptive excitation coding means 4 and the driving excitation output from the driving excitation coding section 5 and adding them. By passing this sound source through a synthesis filter using the quantized linear prediction coefficients output from the linear prediction coefficient encoding means 3, a temporary synthesized sound is obtained. The distortion between the provisional synthesized sound and the input speech 1 is examined, and a gain code that minimizes this distortion is selected and output to the multiplexing means 7. The generated excitation corresponding to this gain code is output to adaptive excitation encoding means 4.
  • adaptive excitation coding means 4 updates the internal adaptive excitation codebook using the excitation corresponding to the gain code generated by gain coding means 6.
  • the multiplexing unit 7 outputs the code of the linear prediction coefficient output from the linear prediction coefficient coding unit 3, the adaptive excitation code output from the adaptive excitation coding unit 4, and the output from the driving excitation coding unit 5.
  • the driving excitation code and the gain code output from the gain coding means 6 are multiplexed, and the obtained speech code 8 is output.
  • FIG. 9 is a block diagram showing a detailed configuration of a driving excitation coding section 5 of a conventional CELP speech coding apparatus disclosed in Document 1 and the like.
  • 9 is an adaptive vector generation means
  • 10 and 14 are synthesis filters
  • 11 is a subtraction means
  • 12 is a signal to be coded
  • 13 is a drive vector generation means
  • 15 is a distortion calculation output.
  • Unit 20 is a search means
  • 21 is a driving excitation code
  • 22 is a driving excitation.
  • the distortion calculating unit 15 includes an auditory weighting filter 16, an auditory weighting filter 17, a subtracting unit 18, and a power calculating unit 19.
  • the adaptive vector generating means 9, the synthesis filter 10, and the subtracting means 11 are included in the adaptive excitation coding means 4, but are described together for easy understanding. .
  • the adaptive vector generating means 9 in the adaptive excitation coding means 4 outputs a time-series vector corresponding to the above-mentioned adaptive sound source code to the synthesis filter 10 as an adaptive sound source.
  • the quantized linear prediction coefficients output from the linear prediction coefficient coding means 3 in FIG. 8 are set as the filter coefficients, and the adaptive vector It performs synthesis filtering on the adaptive sound source output from the generation means 9 and outputs the obtained synthesized sound to the subtraction means 11.
  • the subtraction means 11 in the adaptive excitation coding means 4 obtains a difference signal between the synthesized sound output from the synthesis filter 10 and the input speech 1, and the obtained difference signal is outputted to the driving excitation coding section 5. Output as encoding target signal 1 2.
  • the search means 20 sequentially generates each excitation code represented by a binary value, and First, it outputs to the drive vector generation means 13.
  • the driving vector generating means 13 reads out a time-series vector from the driving excitation codebook stored therein in accordance with the driving excitation code output from the searching means 20, and generates a synthesized file as a driving vector.
  • Output to Examples of the driving excitation codebook include a storage of a noise vector prepared in advance, and an algebraic excitation codebook described algebraically by a combination of a pulse position and a polarity.
  • Some models include the addition form of two or more codebooks and the pitch period using the repetition period of the adaptive sound source.
  • the quantized linear prediction coefficient output from the linear prediction coefficient encoding means 3 is set as a filter coefficient, and the combined filter is used as the drive vector output from the drive vector generation means 13. Synthetic filtering is performed on the resultant, and the obtained synthesized sound is output to the distortion calculator 15.
  • the perceptual weighting filter 16 in the distortion calculator 15 calculates the perceptual weighting filter coefficient based on the quantized linear prediction coefficient output from the linear prediction coefficient coding means 3, and calculates the perceptual weighting filter coefficient.
  • the coefficients are set, filtering is performed on the encoding target signal 12 output from the subtraction means 11 in the adaptive excitation encoding means 4, and the obtained signal is output to the subtraction means 18.
  • the perceptual weighting filter 17 in the distortion calculator 15 sets the same perceptual weighting coefficient as the perceptual weighting filter 16, performs filtering on the synthesized sound output from the synthesized filter 14, and obtains The obtained signal is output to the subtraction means 18.
  • the subtraction means 18 in the distortion calculator 15 calculates a difference signal between the signal output from the auditory weighting filter 16 and a signal obtained by multiplying the signal output from the auditory weighting filter 17 by an appropriate gain. This difference signal is output to the power calculation means 19.
  • the power calculating means 19 in the distortion calculating section 15 calculates the total power of the difference signal output from the subtracting means 18 and outputs this to the searching means 20 as a search evaluation value.
  • the search means 20 searches for a drive excitation code that minimizes the search evaluation value output from the power calculation means 19 in the distortion calculation section 15 and drives the drive excitation code that minimizes the search evaluation value. Output as excitation code 21.
  • the driving vector generating means 13 converts the driving vector output when the driving sound source code 21 is input into the driving sound source 2 2 Output as
  • the gain multiplied by the subtraction means 18 is uniquely determined by solving a partial differential equation so as to minimize the search evaluation value.
  • various deformation methods have been reported to reduce the amount of computation.
  • Japanese Patent Application Laid-Open No. 7-271397 discloses several methods for reducing the amount of calculation of a distortion calculating unit.
  • the method of the distortion calculating unit disclosed in Japanese Patent Application Laid-Open No. 7-271397 will be described.
  • Equation (1) This matches the case where the auditory weighting filter was not introduced in the search evaluation value calculation described in FIG. H is the gain to be multiplied by the subtraction means 18. Equation (1) is partially differentiated by a to find a zero, and this is substituted into equation (1) to obtain equation (2).
  • equation (2) Since the first term in equation (2) is a constant independent of the driving vector, minimizing the search evaluation value ⁇ ⁇ is equivalent to maximizing the second term in equation (2). Therefore, the second term of equation (2) is often used as it is as a search evaluation value.
  • Equations (3) to (5) are used as simplified search evaluation values used in the preliminary selection.
  • Equations (3), (4), and (5) which are the simplified search evaluation values at the time of preliminary selection
  • Equation (2) which is the search evaluation value at the time of the main selection
  • Equations (3), (4), and (5) all approximate the second term of equation (2), and evaluate the waveform distortion between the two signals shown in equation (1). It is no different that it is.
  • the driving excitation code that minimizes the waveform distortion described in Equations (1) to (5) is used. Even if it is selected, the sound quality may be degraded in the decoded sound obtained by decoding the speech code including the driving excitation code.
  • FIG. 10 is an explanatory diagram illustrating one case that causes sound quality degradation.
  • (a) is the signal to be encoded
  • (c) is the driving vector
  • (b) is the synthesized sound obtained by passing the driving vector shown in (c) through the synthesis filter.
  • Each of them indicates a signal in the encoding target frame.
  • an algebraic sound source that algebraically represents the position and polarity of the noise is used as the drive vector.
  • the present invention has been made to solve such a problem, and an object of the present invention is to provide a high-quality speech encoding method and apparatus in which the occurrence of local abnormal noise in a decoded sound is small. It is another object of the present invention to provide a high-quality speech encoding method and apparatus while minimizing an increase in the amount of computation. Disclosure of the invention
  • a speech encoding method is directed to a speech encoding method for encoding input speech for each predetermined length section called a frame, wherein a driving scheme for generating a plurality of driving vectors is provided.
  • a first distortion for calculating, as a first distortion, a distortion related to a waveform defined between an encoding target signal obtained from the input speech and a synthesized vector obtained from the driving vector for each driving vector.
  • Select and select the drive vector Ru der that a search step of outputting a code previously associated to.
  • a plurality of driving vector generation steps for generating different driving vectors from each other are provided, and at least one drive in which the first distortion calculated by the first distortion calculation step is small is provided for each driving vector generation step.
  • the first distortion calculating step includes a step of perceptually weighting an encoding target signal obtained from the input speech.
  • the result of adding the error percentage of each sample in the frame between the signal passed through the fitting filter and the signal passed through the fitting vector obtained from the driving vector in the perceptual weight is the first distortion. It is characterized by the following.
  • the second distortion calculating step is characterized in that distortion relating to time-direction amplitude or power bias in the frame is defined as the second distortion.
  • the amplitude or the position of the center of gravity of the signal to be encoded in the frame is determined, and the amplitude of the synthesized vector or the position of the center of gravity in the frame is determined. It is characterized in that the difference between the two barycentric positions is defined as a second distortion.
  • the search evaluation value is calculated by correcting the first distortion according to the second distortion.
  • the search evaluation value is calculated by a weighted sum of the first distortion and the second distortion.
  • the evaluation value calculating step is characterized in that a process of calculating a search evaluation value is changed according to a predetermined parameter calculated from an input voice.
  • a contribution calculation step is provided to calculate the ratio of the energy of the synthesized vector obtained from sound source vectors other than the driving vector to the energy of the input sound, and to use this as the other sound source contribution.
  • a predetermined parameter in the evaluation value calculating step is set to be one.
  • the process of calculating the search evaluation value is changed depending on which drive vector is output from the drive vector.
  • the evaluation value calculating step is characterized in that, as one of processes for calculating a search evaluation value, a process for directly using the first distortion as a search evaluation value is included.
  • a speech encoding apparatus is a speech encoding apparatus that encodes input speech for each predetermined length section called a frame, wherein: a drive vector generation unit that generates a plurality of drive vectors; To be encoded from the input speech First distortion calculating means for calculating, as a first distortion, a distortion related to a waveform defined between a signal and a synthesized vector obtained from the driving vector, and for each driving vector, the encoding target signal and the driving vector. And a second distortion calculating means for calculating a second distortion different from the first distortion defined between the combined vectors obtained from the first and second driving vectors.
  • An evaluation value calculating means for calculating a predetermined search evaluation value using the search vector, a search for selecting a drive vector that minimizes the search evaluation value, and outputting a code previously associated with the selected drive vector.
  • the first distortion calculating means passes a signal to be coded obtained from the input speech through a perceptual weighting filter and a signal obtained by passing a synthesized vector obtained from a driving vector through a perceptual weighting filter. It is characterized in that a result obtained by adding an error ratio of each signal to the signal for each sample within a frame is defined as a first distortion.
  • the second distortion calculating means is characterized in that a distortion relating to a time-direction amplitude or power bias in a frame is defined as a second distortion.
  • the evaluation value calculation means is configured to calculate the search evaluation value by correcting the first distortion according to the second distortion.
  • the evaluation value calculation means is configured to change a process of calculating a search evaluation value in accordance with a predetermined parameter calculated from an input voice.
  • FIG. 1 is a block diagram showing a detailed configuration of a driving excitation encoding unit 5 according to Embodiment 1 in a speech encoding apparatus to which a speech encoding method according to the present invention is applied,
  • FIG. 2 is a configuration diagram showing a configuration of a search evaluation value calculation unit 29 according to Embodiment 1 of the present invention.
  • FIG. 3 is an explanatory diagram illustrating the operation of the second distortion calculator 24 according to Embodiment 1 of the present invention
  • FIG. 4 is a configuration diagram showing a configuration of a search evaluation value calculation unit 29 according to Embodiment 2 of the present invention.
  • FIG. 5 shows an example of a speech encoding apparatus to which the speech encoding method according to the present invention is applied.
  • FIG. 6 is a block diagram showing a detailed configuration of a driving excitation encoding unit 5 according to Embodiment 4 in a speech encoding device to which the speech encoding method according to the present invention is applied,
  • FIG. 7 is a configuration diagram showing a configuration of a search evaluation value calculation unit 29 according to Embodiment 4 of the present invention.
  • Fig. 8 is disclosed in the literature (ITU-T Recomendation G.729, "CODING OF SPEECH AT 8 kbit / s USING CONJUGATE -STURUCTURE ALGEBRAIC-CODE-EXCITED LINEAR-PREDICTION (CS-ACELP)", March 1996).
  • FIG. 9 is a block diagram showing a detailed configuration of the driving sound source coding unit 5 of the CELP speech coding device disclosed in the above-mentioned Document 1, etc.
  • FIG. 10 is an explanatory diagram relating to one case that causes sound quality deterioration.
  • Embodiment 1 Embodiment 1
  • FIG. 1 is a block diagram showing a detailed configuration of driving excitation encoding section 5 according to Embodiment 1 in a speech encoding device to which a speech encoding method according to the present invention is applied.
  • the overall configuration of the speech coding apparatus according to the first embodiment is the same as the configuration shown in FIG. 8, except that the input of input speech 1 is added to driving excitation coding section 5.
  • FIG. 1 the same components as those of the configuration of driving excitation coding section 5 of the conventional example shown in FIG. 9 are denoted by the same reference numerals, and description thereof will be omitted.
  • 23 is a first distortion calculator composed of auditory weighting filters 16 and 17, a subtractor 18 and a power calculator 19, and 24 is a center of gravity calculator 25.
  • a second distortion calculator configured by 26 and a subtractor 27, an adaptive sound source contribution calculator 28, and a search evaluation value calculator 29 are provided.
  • the adaptive vector generating means 9 in the adaptive excitation coding means 4 outputs a time-series vector corresponding to the above-mentioned adaptive sound source code to the synthesis filter 10 as an adaptive sound source.
  • the quantized linear prediction coefficient output from the linear prediction coefficient coding means 3 is set as the filter coefficient.
  • the subtraction means 11 in the adaptive excitation coding means 4 obtains a difference signal between the synthesized sound output from the synthesis filter 10 and the input voice i, and the obtained difference signal is outputted to the driving excitation coding section 5.
  • the signal is output to the first distortion calculator 23 and the second distortion calculator 24 as the encoding target signal 12.
  • the adaptive sound source contribution calculating means 28 calculates the magnitude of the contribution of the adaptive sound source in the encoding of the input speech 1 using the input speech 1 and the synthesized sound output from the synthesis filter 10, The obtained adaptive sound source contribution is output to the search evaluation value calculator 29.
  • the specific calculation of the adaptive sound source contribution is performed as follows.
  • the gain is set so that the waveform distortion for the input sound 1 is minimized, and the synthetic sound output from the synthetic filter 10 is set. Is multiplied by the gain to obtain the power Pa of the signal.
  • the power P of the input speech 1 is obtained, and the ratio of Pa to P, that is, Pa / P is calculated to obtain the adaptive sound source contribution.
  • the appropriate gain can be determined based on the partial differential equation, and the waveform distortion can be directly obtained by removing the gain from the calculation formula, as in equation (2). If the input speech 1 is R and the synthesized sound output from the synthesis filter 10 is X, the adaptive sound source contribution G can be calculated by equation (6).
  • -Search means 20 sequentially generates each excitation code represented by a binary value, First, it outputs to the drive vector generation means 13.
  • the driving vector generating means 13 reads out a time-series vector from the driving excitation codebook stored therein in accordance with the driving excitation code output from the searching means 20, and generates a synthesized file as a driving vector.
  • Output to Examples of the driving excitation codebook include a storage of a noise vector prepared in advance, and an algebraic excitation codebook described algebraically by a combination of a pulse position and a polarity. Some include the addition form of two or more codebooks and the pitch period using the repetition period of the adaptive sound source. ⁇
  • the quantized linear prediction coefficient output from the linear prediction coefficient encoding means 3 is set as a filter coefficient, and the combined filter is used as the drive vector output from the drive vector generation means 13. Synthetic filtering is performed on the resultant, and the obtained synthesized sound is output to the first distortion calculator 23 and the second distortion calculator 24.
  • the perceptual weighting filter 16 in the first distortion calculator 23 calculates the perceptual weighting filter coefficient based on the quantized linear prediction coefficient output from the linear prediction coefficient encoding means 3, Is set as the filter coefficient, the filter is performed on the encoding target signal 12 output from the subtraction means 11 in the adaptive excitation coding means 4, and the obtained signal is output to the subtraction means 18 .
  • the perceptual weighting filter 17 in the first distortion calculator 23 is set to the same filter coefficient as the perceptual weighting filter 16 to perform the filtering on the synthetic sound output from the composite filter 14. And outputs the obtained signal to the subtraction means 18.
  • the subtraction means 18 in the first distortion calculator 23 calculates the difference signal between the signal output from the auditory weighting filter 16 and the signal obtained by multiplying the signal output from the auditory weighting filter 17 by an appropriate gain. Then, the difference signal is output to the power calculation means 19.
  • the power calculating means 19 in the first distortion calculating section 23 obtains the total power of the difference signal output from the reducing means 18, and uses this as the first distortion to the search evaluation value calculating section 29. Output.
  • the gain to be multiplied by the subtraction means 18 is uniquely determined by solving a partial differential equation so as to minimize the first distortion. With respect to the actual internal configuration of the distortion calculator 23, a conventional deformation method can be used to reduce the amount of calculation.
  • the center-of-gravity calculating means 25 in the second distortion calculating section 24 finds the position of the center of gravity of the amplitude of the encoding target signal 12 output from the subtracting means 11 in the frame, and subtracts the obtained position of the center of gravity. 2 Output to 7.
  • the position of the center of gravity of the amplitude is calculated by calculating the sum of the amplitude (absolute value of the sample value) of the target signal within the frame, calculating the sum of the amplitude again from the start position, and halving the sum within the frame.
  • the center of gravity calculating means 26 in the second distortion calculator 24 can determine the position of the center of gravity of the amplitude of the synthesized sound output from the synthetic filter 14 in the frame. The position is output to the subtraction means 27.
  • the position of the center of gravity is calculated in the same manner as the center of gravity calculating means 25.
  • the subtraction means 27 in the second distortion calculation unit 24 calculates the difference between the position of the center of gravity output from the center of gravity calculation means 25 and the position of the center of gravity output from the center of gravity calculation means 26, and calculates the position of the obtained center of gravity.
  • the difference is output to the search evaluation value calculation unit 29 as a second distortion.
  • the search evaluation value calculation unit 29 includes an adaptive sound source contribution output from the adaptive sound source contribution calculation means 28, a first distortion output from the first distortion calculation unit 23, and a second distortion Using the second distortion output from the calculation unit 24, a search evaluation value to be used for the final search is obtained, and this search evaluation value is output to the search means 20.
  • the search means 20 searches for a drive excitation code that minimizes the search evaluation value output from the search evaluation value calculation unit 29, and outputs a drive excitation code that minimizes the search evaluation value to the drive excitation code 2.
  • the drive vector generating means 13 outputs the drive vector output when the drive sound source code 21 is input as the drive sound source 22 o
  • FIG. 2 is a configuration diagram showing a configuration of the search evaluation value calculation unit 29.
  • reference numerals 30 and 32 denote switching means and 31 denotes multiplication means.
  • the multiplying means 31 multiplies the first distortion output from the first distortion calculating section 23 by a constant /? Prepared in advance, and outputs a multiplication result.
  • An appropriate value of the constant /? Is about 1.2 to 2.0.
  • the switching means 32 connects the switching switch to the multiplication result output from the multiplying means 31 when the second distortion output from the second distortion calculating section 24 exceeds a predetermined threshold.
  • the switching switch When the second distortion output from the second distortion calculator 24 is equal to or less than a predetermined threshold, The switching switch is connected to the first distortion output from the first distortion calculator 23.
  • a suitable threshold value is about one tenth of the frame length.
  • the switching means 30 switches the switching switch to the first output from the first distortion calculating section 23.
  • the connection is made to the output result of the switching means 32.
  • a suitable threshold value is about 0.3 to 0.4.
  • the output of the switching means 30 is output from the search evaluation value calculation section 29 as a search evaluation value.
  • the first distortion is normally output as the evaluation value for search, and the value obtained by multiplying the first distortion by a constant only when the second distortion is large and the adaptive sound source contribution is small. Is output as the search evaluation value. That is, the search evaluation value is corrected to a large value only when the second distortion is large and the adaptive sound source contribution is small, and the selection of the corresponding excitation code in the subsequent search means 20 is suppressed.
  • FIG. 3 is an explanatory diagram illustrating the operation of the second distortion calculator 24.
  • the signal to be coded is the same as in FIG.
  • the center-of-gravity calculating means 25 calculates the center-of-gravity position of the signal to be encoded as shown in FIG.
  • the center-of-gravity calculating means 26 calculates the center of gravity of the drive vector after the composite fill as shown in FIG. 3 (b). Then, the subtraction means 27 calculates the difference between the two positions of the center of gravity as shown in FIG. 3 (b).
  • FIG. 3D shows a synthesized sound when a driving vector different from that in FIG. 3B is passed through the synthetic filter.
  • the waveform distortion is slightly larger around the latter half of the frame, but the difference in the position of the center of gravity is smaller.
  • the drive vector that generates this Fig. 3 (d) is selected, there is no 0 amplitude part in the frame and there is little deterioration of the decoded sound, but in the conventional method, the selection is made only by the waveform distortion.
  • Fig. 3 (b) The drive vector to be generated has been selected.
  • the difference in the position of the center of gravity can be reflected as the second distortion in the evaluation value for search, so the waveform distortion is not so large and the difference in the position of the center of gravity is small It is possible to select the drive vector that generates
  • the second distortion is calculated based on the difference between the position of the center of gravity of the amplitude of the synthesized sound output from the signal to be encoded 12 and the synthesized filter 14, but the present invention is not limited to this. Instead, the difference between the positions of the power centers of gravity may be used, and the second distortion may be evaluated for the signal output from the auditory weighting filter 16 and the signal output from the auditory weighting filter 17. You may do it.
  • the frame is divided into several parts in the time direction, and the average amplitude or average pulse in each division is calculated for each of the encoding target signal 12 and the synthetic sound output from the synthetic filter 14, and the encoding is performed.
  • the second distortion may be obtained by calculating the square distance of the calculation result for each division of the target signal 12 and the calculation result for each division of the synthetic sound output from the synthesis filter 14. It is also possible to calculate some of these types of second distortions, and use a plurality of second distortions in the search evaluation value calculation means 29.
  • the switching means 32 is deleted, the output of the multiplication means 31 is changed to a configuration in which the output of the multiplication means 31 is connected to the switching means 30. It is also possible to configure to change according to the second distortion.
  • the first distortion calculating section 23 is not limited to this configuration either, but is configured to exclude the auditory weighting filter, or collectively applies the auditory weighting to the output of the subtraction means 18. It is also possible to make various modifications to reduce the amount of calculation and the configuration described above.
  • the adaptive sound source contribution calculation means 28 may also be configured to perform the perceptual weighting filtering on two input signals and then calculate the contribution.
  • the synthesized speech obtained by passing the adaptive vector through the synthesis filter 10 from the input speech 1 is subtracted and used as the signal to be encoded.
  • the input speech 1 is used as it is as the signal to be encoded.
  • a configuration may be adopted in which the synthesized sound obtained by passing the driving vector through the synthetic filter 14 is made orthogonal to the synthesized sound obtained by passing the adaptive vector through the synthetic filter 10.
  • the drive vector search is performed for each frame.
  • the distortion related to the waveform defined between the encoding target signal and the synthesis vector obtained from the driving vector is calculated as the first distortion, and the encoding target signal and the encoding target signal are calculated.
  • a signal obtained by passing an encoding target signal obtained from an input voice through an auditory weighting filter and a signal obtained by passing a synthesized vector obtained from a driving vector through an auditory weighting filter are shown in FIG. Since the result obtained by adding the error ratio of each sample in the frame is defined as the first distortion, a driving vector with a small subjective distortion of the decoded sound can be selected, and high-quality speech encoding can be realized. There is.
  • the second distortion since distortion relating to temporal amplitude or power bias in a frame is defined as the second distortion, subjective degradation of decoded sound such as locally too small amplitude is caused.
  • the drive vector that is likely to be caused can be detected by the second distortion, and there is an effect that high-quality speech encoding with little local abnormal noise of the decoded sound can be realized.
  • the center of gravity of the amplitude or power of the signal to be encoded in the frame is obtained, the center of gravity of the amplitude or power of the combined vector in the frame is obtained, and the two obtained centers of gravity are obtained.
  • the second distortion it is possible to evaluate the amplitude or power bias in the frame despite simple processing, and to reduce the subjective degradation of decoded sound such as locally too small amplitude. It is possible to detect the driving vector that is highly likely to be caused by the second distortion, and there is an effect that high-quality speech encoding with little local noise generation of the decoded sound can be realized.
  • the first distortion is corrected in accordance with the second distortion.
  • the second distortion Is used to calculate the evaluation value for search, so it is basically a driving vector that reduces the first distortion, which is a waveform distortion, and there are few problems with the second distortion that is different from the first distortion
  • the driving vector can be selected, which has the effect of realizing high quality speech coding.
  • the search evaluation value is calculated according to a predetermined parameter such as the adaptive sound source contribution calculated from the input voice.
  • the ratio of the energy of the synthesized vector obtained from the adaptive sound source (the sound source vector other than the drive vector) to the energy of the input voice is calculated, and this is calculated as the adaptive sound source contribution (other sound source). (Degree of contribution) was used in the calculation of the search evaluation value, so that an appropriate search evaluation value was used for each frame, such as by using the second distortion only in the frames where the drive vector contribution in the decoded sound was large. It is possible to select the appropriate driving vector for the frame, which is unlikely to cause degradation in the quality of decoded sound, and has the effect of realizing high quality speech coding.
  • one of the processes for calculating the search evaluation value is as follows.
  • the first distortion is used as the search evaluation value as it is, the contribution of the drive vector to the decoded sound is small, and even if the amplitude of the drive vector is biased, it does not lead to the deterioration of the decoded sound. In such a case, it is possible to select a driving vector that minimizes the first distortion, which is a waveform distortion, and has an effect of avoiding unnecessary use of the second distortion to cause deterioration of sound quality.
  • FIG. 4 is a configuration diagram showing a configuration of the search evaluation value calculation unit 29 according to Embodiment 2 of the present invention.
  • FIG. 4 30 is switching means, 33 and 34 are multiplication means, and 37 is addition means.
  • the multiplying means 3 3 is prepared in advance for the first distortion output from the first distortion calculating section 23 Multiplies by the constant? 1, and outputs the multiplication result to the adding means 37. Since the constant /? 1 may be fixed at 1.0, the multiplication means 33 itself can be omitted.
  • the multiplication means 34 multiplies the second distortion output from the second distortion calculation section 24 by a predetermined constant /? 2, and outputs the multiplication result to the addition means 37.
  • the constant /? 2 is set so that the output of the multiplying means 34 is smaller on average than the output of the multiplying means 33
  • addition means 37 adds the output of the multiplication means 33 and the output of the multiplication means 34, and outputs the addition result to the switching means 30.
  • the switching means 30 switches the switching switch to the first output from the first distortion calculating section 23. If the adaptive sound source contribution output from the adaptive sound source contribution calculating means 28 is equal to or less than a predetermined threshold, the distortion is connected to the output result of the adding means 37.
  • a suitable threshold value is about 0.3 to 0.4.
  • the output of the switching means 30 is output from the search evaluation value calculation section 29 as a search evaluation value. With this configuration, the first distortion is normally output as the search evaluation value, and the second distortion is included in the search evaluation value and output only when the adaptive sound source contribution is small. In addition, by setting /? 1 and /?
  • the first distortion is basically reduced.
  • the result is that the correction is made by the second distortion. Therefore, only when the second distortion is relatively large and the adaptive excitation contribution is small, the search evaluation value is corrected to a large value, and the subsequent search means 20 suppresses selection of the corresponding driving excitation code.
  • the search evaluation value is calculated based on the weighted sum of the first distortion and the second distortion.
  • This is a driving vector that reduces the distortion of the driving vector, and can select a driving vector that has little problem with the second distortion that is different from the first distortion, and has the effect of achieving high-quality speech coding. .
  • the ratio between the energy of the synthesized vector and the energy of the input sound obtained from the sound source vector other than the drive vector is obtained, and this is set as a predetermined parameter in the evaluation calculation process.
  • the driving vector in the decoded sound For example, the second distortion is used only for frames with a large contribution, so that an appropriate search evaluation value can be obtained for each frame, and the quality of decoded sound is unlikely to deteriorate. The effect is that the user can select a vector and realize high-quality speech coding.
  • the process for directly using the first distortion as the search evaluation value is included.
  • the contribution of the vector is small and the amplitude of the driving vector is not biased even if the amplitude of the driving vector does not lead to the degradation of the decoded sound, it is possible to select the driving vector that minimizes the first distortion which is the waveform distortion There is an effect that it is possible to avoid the deterioration of sound quality by using the second distortion as necessary.
  • FIG. 5 is a block diagram showing a detailed configuration of driving excitation encoding section 5 according to Embodiment 3 in a speech encoding device to which the speech encoding method according to the present invention is applied. Also in the third embodiment, the overall configuration of the speech coding apparatus is the same as that of FIG. 8, except that the input of input speech 1 is added to driving excitation coding section 5.
  • FIG. 5 the same parts as those in Embodiment 1 shown in FIG. 1 are denoted by the same reference numerals, and description thereof will be omitted.
  • 35 is a preliminary selection means.
  • the first distortion calculator 23 includes a quantized linear prediction coefficient output from the linear prediction coefficient encoding unit 3, an encoding target signal 12 output from the subtraction unit 11, and a driving vector Then, the total power of the difference signal after the auditory weighting filter is obtained from the synthetic sound output from the synthetic filter 14 and output to the preliminary selection means 35 as the first distortion.
  • Preliminary selection means 35 compares the first distortions for each drive vector outputted from first distortion calculation section 23 with each other, and preliminarily selects M drive vectors having a small first distortion. I do. Note that M is a number smaller than the number of all drive vectors. Then, the number of the pre-selected driving vector is output to the second distortion calculating section 24, and the first distortion for each pre-selected driving vector is output to the search evaluation value calculating section 29.
  • the second distortion calculator 24 generates the encoding target signal output from the subtraction means 11 for each drive vector designated by the number of the M drive vectors preliminarily selected and output by the preliminary selection means 35 Find the difference between the center of gravity of the amplitude in the frame and the synthesized sound output from the synthetic filter for each drive vector and the calculated center of gravity difference as the second distortion. Output to calculation section 29.
  • the search evaluation value calculation unit 29 includes the adaptive sound source contribution output from the adaptive sound source contribution calculation means 28, the M first distortions preliminarily selected and output by the preliminary selection means 35, Using the M second distortions output from the second distortion calculator 24, M search evaluation values used for the final search are obtained, and the search evaluation values are used as search means 20.
  • Output to The search means 20 searches for a drive excitation code that minimizes the search evaluation value output from the search evaluation value calculation unit 29, and outputs a drive excitation code that minimizes the search evaluation value to the drive excitation code 2.
  • the drive vector generating means 13 outputs the drive vector output when the dynamic sound source code 21 is input, as the drive sound source 22.
  • the second distortion is calculated based on the difference between the position of the amplitude centroid of the signal to be encoded 12 and the synthesized sound output from the synthesized filter 14.
  • the present invention is not limited to this.
  • the difference between the positions of the power centroids may be used, or the second distortion may be evaluated for the signal after the hearing weighting fill.
  • the frame is divided into several parts in the time direction, and the average amplitude or average power in each division is calculated for each of the signal to be coded 12 and the synthesized sound output from the composite filter 14, and the encoding is performed.
  • the second distortion may be obtained by calculating the square distance of the calculation result for each division of the target signal 12 and the calculation result for each division of the synthesized sound output from the synthesis filter 14. Further, a configuration is also possible in which some of these types of second distortions are calculated, and the search evaluation value calculation means 29 uses a plurality of second distortions.
  • a configuration excluding the auditory weighting filter, a configuration for performing the auditory weighting collectively, and various modifications for reducing the amount of calculation can be performed.
  • an adaptive vector is synthesized from input speech
  • the synthesized sound passed through 0 is subtracted and used as the signal to be encoded, the same as in the first embodiment
  • the input speech 1 is used as it is as the signal to be encoded, and instead the drive vector is orthogonalized to the synthesized sound that has passed through the synthesis filter 14 and the adaptive vector that has passed through the synthesis filter 10. It may be a configuration that does.
  • the drive vector search is performed for each frame.
  • a configuration in which the search is performed for each subframe obtained by dividing the frame into a plurality may be naturally performed.
  • two or more drive vectors having a small first distortion are preliminarily selected, and a second distortion is calculated, a search evaluation value is calculated, and a search target is Since the driving vector is limited to the preselected driving vector, in addition to the effects of the first embodiment, the amount of calculation for calculating the second distortion and calculating the search evaluation value can be reduced. With a small increase in the amount of computation compared to the conventional configuration in which the search was performed using only one distortion, it is possible to detect the driving vector that is likely to cause the deterioration of the decoded sound using the second distortion, This has the effect of realizing high-quality speech coding with few local abnormal sounds.
  • FIG. 6 is a block diagram showing a detailed configuration of driving excitation encoding section 5 according to Embodiment 4 of the speech encoding apparatus to which the speech encoding method according to the present invention is applied.
  • the overall configuration of the speech coding apparatus is the same as that of FIG. 8, except that the input of input speech 1 is added to driving excitation coding section 5.
  • the same parts as those in Embodiment 3 shown in FIG. 5 are denoted by the same reference numerals, and description thereof will be omitted.
  • the drive vector generation means 13 includes N drive vector generation means from the first drive vector generation means to the Nth drive vector generation means and switching means. I have.
  • the driving vector generating means 13 includes N driving vector generating means from the first driving vector generating means to the Nth driving vector generating means and switching means, and the driving vector is generated from outside. When the generation means number and the drive vector number are input, one drive vector is output according to these.
  • Drive vector generation with switching means input A switching switch is connected to one drive vector generating means according to the means number, and the connected first to Nth drive vector generating means are connected to the drive specified by the input drive vector number. It is designed to output vectors.
  • the plurality of drive vector generation means are different from each other, such as a drive vector generation means in which energy is collected in the first half of the frame, a drive vector generation means in which energy is collected in the second half of the frame, and a frame.
  • drive vector generation means such as a drive vector generation means in which the energy is relatively dispersed and the energy is distributed, a drive vector generation means consisting of only a few pulses, and a drive vector generation means consisting of many pulses.
  • the search means 20 sequentially generates each drive excitation code represented by a binary value, decomposes this drive excitation code into a drive vector generation means number and a drive vector number, and drives the drive vector generation means number Output to the switching means in the vector generation means 13 and the search evaluation value calculation section 29.
  • the drive vector number is also output to the first to Nth drive vector generation means in the drive vector generation means 13.
  • the driving vector generating means 13 outputs one driving vector to the composite filter 14 according to the driving vector generating means number and the driving vector number output from the searching means 20.
  • the quantized linear prediction coefficient output from the linear prediction coefficient encoding means 3 is set as the filter coefficient, and the combined filter is used as the drive vector output from the drive vector generation means 13. Synthetic filtering is performed on the resultant, and the obtained synthesized sound is output to the first distortion calculator 23 and the second distortion calculator 24.
  • the first distortion calculator 23 includes a quantized linear prediction coefficient output from the linear prediction coefficient encoding unit 3, an encoding target signal 12 output from the subtraction unit 11, and a driving vector Then, the total power of the difference signal after the auditory weighting filter is obtained from the synthesized sound output from the synthesis filter 14 and is output to the preliminary selection means 35 as the first distortion.
  • Preliminary selection means 35 compares the first distortions for each drive vector outputted from first distortion calculation section 23 with each other, and preliminarily selects M drive vectors having a small first distortion. I do. Note that M is a number smaller than the number of all drive vectors. Then, the number of the preselected driving vector is output to the second distortion calculating section 24, and the first distortion for each preselected driving vector is output to the search evaluation value calculating section 29.
  • L drive vectors may be preliminarily selected for each of the same drive vector generation means numbers. If L is 1, the number of preselections, M, is equal to N.
  • the second distortion calculator 24 generates the encoding target signal output from the subtraction unit 11 for each of the drive vectors designated by the numbers of the M drive vectors that are preselected and output by the preliminary selection unit 35. Find the difference between the center of gravity of the amplitude within the frame and the synthesized sound output from the synthetic filter for each drive vector and the synthesized sound output for each drive vector, and evaluate the difference for the obtained center of gravity as the second distortion for search. Output to the value calculator 29.
  • the search evaluation value calculation unit 29 includes the adaptive sound source contribution output from the adaptive sound source contribution calculation means 28, the drive vector generation means number output from the search means 20, and the preliminary selection means 35 Using the M first distortions selected and output and the M second distortions output from the second distortion calculator 24, M search The evaluation value is obtained, and this search evaluation value is output to the search means 20.
  • the search means 20 searches for a drive excitation code that minimizes the search evaluation value output from the search evaluation value calculation unit 29, and outputs a drive excitation code that minimizes the search evaluation value to the drive excitation code 2.
  • the driving vector generating means 13 outputs the driving vector output when the driving sound source code 21 is input as the driving sound source 22.
  • FIG. 7 is a configuration diagram showing a configuration of the search evaluation value calculation unit 29.
  • reference numerals 30, 32 and 36 denote switching means and 31 denotes a multiplication means.
  • N constants /? 1 to /? N are set in advance corresponding to the drive vector generation means numbers.
  • the switching means 36 switches the switching switch according to the driving vector generating means number output from the searching means 20.When the driving vector generating means number is 1,? 1, and when the driving vector generating means number is N, ? Select and output one constant, such as N
  • the multiplication unit 31 multiplies the first distortion output from the first distortion calculation unit 23 by the constant output from the switching unit 36, and outputs a multiplication result.
  • the switching means 32 When the second distortion output from the second distortion calculator 24 exceeds a predetermined threshold value, the switching means 32 connects the switching switch to the multiplication result output from the multiplication means 31, and If the second distortion output from the second distortion calculator 24 is equal to or smaller than the predetermined threshold, the switching switch is connected to the first distortion output from the first distortion calculator 23.
  • a suitable threshold value is about one tenth of the frame length.
  • the switching means 30 switches the switching switch to the first one outputted from the first distortion calculating section 23.
  • the adaptive sound source contribution output from the adaptive sound source contribution calculation means 28 is equal to or smaller than a predetermined threshold, the distortion is connected to the output result of the switching means 32.
  • a suitable threshold value is about 0.3 to 0.4.
  • the output of the switching means 30 is output from the search evaluation value calculation section 29 as a search evaluation value. With this configuration, the first distortion is normally output as a search evaluation value, and the driving vector generating means is switched to the first distortion only when the second distortion is large and the adaptive sound source contribution is small.
  • a value multiplied by a constant corresponding to the number is output as a search evaluation value. That is, the search evaluation value is corrected to a large value only when the second distortion is large and the adaptive sound source contribution is small, and the magnitude of the correction is controlled according to the driving vector generation means number. Subsequent search means 20 suppresses the selection of the corresponding excitation code.
  • the second distortion is calculated based on the difference between the position of the amplitude centroid of the signal to be encoded 12 and the synthesized sound output from the synthetic filter 14, but is not limited to this. Instead, the difference between the positions of the power centroids may be used, and the second distortion may be evaluated for the signal after the hearing weighting and filling.
  • the second distortion may be obtained by calculating the square distance of the calculation result for each division of 2 and the calculation result for each division of the synthesized sound output from the synthesis filter 14. Further, a configuration is also possible in which some of these types of second distortions are calculated, and a plurality of second distortions are used in the search evaluation value calculation means 29.
  • a configuration excluding the auditory weighting filter, a configuration for performing the auditory weighting collectively, and various modifications for reducing the amount of calculation can be performed.
  • the synthesized speech obtained by passing the adaptive vector through the synthesis filter 10 is subtracted from the input speech 1 to be a signal to be encoded.
  • the input speech 1 is A configuration may be used in which the synthesized sound obtained by passing the drive vector through the synthesis filter 14 and the synthesized sound obtained by passing the adaptive vector through the synthesis filter 10 are orthogonalized instead.
  • the drive vector search is performed for each frame.
  • a configuration in which the search is performed for each sub-frame obtained by dividing a frame into a plurality of parts is naturally possible.
  • a plurality of drive vector generating means for generating mutually different drive vectors are provided.
  • One or more drive vectors having a small first distortion calculated by the first distortion calculating means (step) are preliminarily selected, and a second distortion is calculated, a search evaluation value is calculated, and a search is performed. Since the target is limited to the preselected drive vector, in addition to the effects of the third embodiment, one drive vector generation means (process) with variously different sound source positions and pulse numbers is used. One or more drive vector candidates can be left, and among the drive vector candidates with different sound source position limits and pulse numbers, the drive vector that is likely to cause decoded sound degradation is By detecting the distortion and suppressing the selection, it is possible to achieve high-quality speech encoding with little local noise generation of the decoded sound despite a small increase in the amount of computation.
  • the sound source position limitation and the number of pulses are variously different. Since there is no compensation for preselection of the driving vector, for example, if only the driving vector in which energy is concentrated in the first half of the frame is preselected, the position of the center of gravity is included in the preselected driving vector. It is possible that the one with the small difference (second distortion) is not included. In that case, local degradation of the decoded sound cannot be eliminated.
  • the constant used for calculating the search evaluation value is changed from? 1 to? N depending on which drive vector generating means (process) is the drive vector.
  • the processing for calculating the search evaluation value is changed), so that the drive vector generating means (process) that is likely to lead to the deterioration of the decoded sound when the second distortion becomes large is selectively used for the search.
  • By increasing the weight of the second distortion in the evaluation value it is possible to suppress the selection of the drive vector output from the drive vector generation means (process), and to generate local abnormal noise in the decoded sound. There is an effect that a small amount of high quality speech coding can be realized.
  • the present invention is applied to the search for the driving vector in the sound source configured by the addition of the adaptive vector and the driving vector.
  • the present invention is not limited to this.
  • the present invention can be applied to a sound source including only a driving vector for expressing a rising portion of a sound.
  • the adaptive excitation coding means 4, the adaptive vector generation means 9, and the synthesis filter 10 are not required, and the output of the adaptive excitation contribution calculation means 28 may be always 0.
  • the adaptive excitation coding means 4, the adaptive vector generation means 9, and the synthesis filter 10 are not required, and the output of the adaptive excitation contribution calculation means 28 may be always 0.
  • the present invention is applied to the search for the driving vector.
  • the present invention can be applied to a search for an adaptive vector.
  • the driving vector generating means 13 in the fifth embodiment may be changed to the adaptive vector generating means 9.
  • Embodiment 7 With this configuration, it is possible to detect, by the second distortion, an adaptive vector that cannot be understood from the first distortion alone and has a high possibility of causing degradation of the decoded sound. This has the effect of realizing high-quality speech encoding with little local noise generation.
  • the first to fourth embodiments only one drive vector is selected.
  • two sub-drive vector generating means are provided, and two sub-drive vectors output from each of them are added to each other.
  • a configuration with one driving vector is also possible.
  • the other configuration may be the same as in the first to fourth embodiments, but when searching for the sub-drive vector output from one sub-drive vector generation means, the other already determined A configuration is also possible in which the contribution of the sub-drive vector and the adaptive sound source is obtained and used to calculate the search evaluation value.
  • a distortion related to a waveform defined between a combined vector obtained from an encoding target signal and a driving vector is calculated as a first distortion, and is calculated from the encoding target signal and the driving vector.
  • a second distortion that is different from the first distortion defined between the obtained combined vectors is calculated, and a driving method that minimizes the search evaluation value calculated using the first distortion and the second distortion. Since the first distortion is used, the driving vector that is likely to cause the deterioration of the decoded sound cannot be determined only by the first distortion. This makes it possible to perform detection and realize high-quality speech encoding with little local abnormal noise in the decoded sound.

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)

Description

明 細 書 音声符号化方法および装置 技術分野
この発明は、 ディジ夕ル音声信号を少ない情報量に圧縮する音声符号化方法お よび装置に関するもので、 特に、 音声符号化方法および装置における駆動べクト ルの探索に関する。 背景技術
従来、 多くの音声符号化方法および装置では、 入力音声をスペクトル包絡情報 と音源に分けて、 フレーム単位で各々を符号化して音声符号を生成している。 最も代表的な音声符号化方法および装置としては、 文献 1 (ITU-T Recoinendat ion G.729, "CODING OF SPEECH AT 8 kbit/s USING CONJUGATE -ST画 CT籠 AL GEBRAIC-CODE-EXCITED LINEAR-PREDICTION (CS-ACELP) ", 1996年 3月) 等に開 示されている、 符号駆動線形予測符号化 (Code-Excited Linear Prediction: C E L P ) 方式を用いたものがある。
図 8は、 文献 1に開示されている従来の C E L P系音声符号化装置の全体構成 を示すプロック図である。
図において、 1は入力音声、 2は線形予測分析手段、 3は線形予測係数符号化 手段、 4は適応音源符号手段、 5は駆動音源符号化部、 6はゲイン符号化手段、 7は多重化手段、 8は音声符号である。
この従来の音声符号化装置では、 1 0 m sを 1フレームとして、 フレーム単位 で処理を行う。 音源の符号化については、 1フレームを 2分割したサブフレーム 毎に処理を行う。 なお、 説明を分かりやすくするために、 以降の説明では、 フレ ームとサブフレームを特に区別せず、 単にフレームと記す。
以下、 この従来の音声符号化装置の動作について説明する。 まず、 入力音声 1 が線形予測分析手段 2と適応音源符号化手段 4及びゲイン符号化手段 6に入力さ れる。 線形予測分析手段 2は、 入力音声 1を分析し、 音声のスペクトル包絡情報 である線形予測係数を抽出する。 線形予測係数符号化手段 3は、 この線形予測係 数を符号化し、 その符号を多重化手段 7に出力すると共に、 音源の符号化のため に量子化された線形予測係数を出力する。
適応音源符号化手段 4は、 過去の所定長の音源 (信号) を適応音源符号帳とし て記憶しており、 内部で発生させた数ビットの 2進数値で示した各適応音源符号 に対応して、 過去の音源を周期的に繰り返した時系列べクトル (適応べクトル) を生成する。 次に、 線形予測係数符号化手段 3から出力された量子化された線形 予測係数を用いた合成フィル夕に通すことにより、 仮の合成音を得る。 この仮の 合成音に適切なゲインを乗じた信号と、 入力音声 1との間の歪を調べ、 この歪を 最小とする適応音源符号を選択して多重化手段 7に出力すると共に、 選択された 適応音源符号に対応する時系列ぺクトルを適応音源として、 駆動音源符号化部 5 とゲイン符号化手段 6に出力する。 また、 入力音声 1から適応音源による合成音 に適切なゲインを乗じた信号を差し引いた信号を、 符号化対象信号として駆動音 源符号化部 5に出力する。
駆動音源符号化部 5は、 まず、 内部で発生させた 2進数値で示した各駆動音源 符号に対応して、 内部に格納してある駆動音源符号帳から時系列ベクトル (駆動 ベクトル) を順次読み出す。 次に、 線形予測係数符号化手段 3から出力された量 子化された線形予測係数を用いた合成フィル夕に通すことにより、 仮の合成音を 得る。 この仮の合成音に適切なゲインを乗じた信号と、 入力音声 1から適応音源 による合成音を差し引いた信号である符号化対象信号との歪を調べ、 この歪を最 小とする駆動音源符号を選択して多重化手段 7に出力すると共に、 選択された駆 動音源符号に対応する時系列べクトルを駆動音源として、 ゲイン符号化手段 6に 出力する。
ゲイン符号化手段 6は、 まず、 内部で発生させた 2進数値で示した各ゲイン符 号に対応して、 内部に格納してあるゲイン符号帳からゲインべクトルを順次読み 出す。 そして、 各ゲインベクトルの各要素を、 適応音源符号化手段 4から出力さ れた適応音源と駆動音源符号化部 5から出力された駆動音源に乗じて加算して音 源を生成し、 生成したこの音源を線形予測係数符号化手段 3から出力された量子 化された線形予測係数を用いた合成フィル夕に通すことで、 仮の合成音を得る。 この仮の合成音と入力音声 1との歪を調べ、 この歪を最小とするゲイン符号を選 択して多重化手段 7に出力する。 また、 このゲイン符号に対応する上記生成され た音源を適応音源符号化手段 4に出力する。
最後に、 適応音源符号化手段 4は、 ゲイン符号化手段 6により生成されたゲイ ン符号に対応する音源を用いて、 内部の適応音源符号帳の更新を行う。
多重化手段 7は、 線形予測係数符号化手段 3から出力された線形予測係数の符 号と、 適応音源符号化手段 4から出力された適応音源符号と、 駆動音源符号化部 5から出力された駆動音源符号と、 ゲイン符号化手段 6から出力されたゲイン符 号を多重化し、 得られた音声符号 8を出力する。
図 9は、 文献 1などに開示されている従来の C E L P系音声符号化装置の駆動 音源符号化部 5の詳細構成を示すプロック図である。
図 9において、 9は適応べクトル生成手段、 1 0と 1 4は合成フィル夕、 1 1 は減算手段、 1 2は符号化対象信号、 1 3は駆動ベクトル生成手段、 1 5は歪算 出部、 2 0は探索手段、 2 1は駆動音源符号、 2 2は駆動音源である。 歪算出部 1 5は、 聴覚重み付けフィル夕 1 6、 聴覚重み付けフィル夕 1 7、 減算手段 1 8 、 パワー算出手段 1 9によって構成されている。 なお、 適応ベクトル生成手段 9 、 合成フィル夕 1 0、 減算手段 1 1は、 適応音源符号化手段 4内に含まれている ものであるが、 内容を分かりやすくするために合わせて記載している。
まず、 適応音源符号化手段 4内の適応ベクトル生成手段 9が、 前記した適応音 源符号に対応した時系列べクトルを、 適応音源として合成フィル夕 1 0に出力す る。
適応音源符号化手段 4内の合成フィル夕 1 0は、 図 8の線形予測係数符号化手 段 3から出力された量子化された線形予測係数がフィル夕係数として設定されて おり、 適応べクトル生成手段 9から出力された適応音源に対する合成フィルタリ ングを行い、 得られた合成音を減算手段 1 1に出力する。
適応音源符号化手段 4内の減算手段 1 1は、 合成フィル夕 1 0より出力された 合成音と入力音声 1の差信号を求め、 得られた差信号を駆動音源符号化部 5にお ける符号化対象信号 1 2として出力する。
一方、 探索手段 2 0は、 2進数値で示した各駆動音源符号を順次発生させ、 順 番に駆動べクトル生成手段 1 3に出力する。
駆動べクトル生成手段 1 3は、 探索手段 2 0から出力された駆動音源符号に応 じて、 内部に格納してある駆動音源符号帳から時系列ベクトルを読み出し、 駆動 ベクトルとして合成フィル夕 1 4に出力する。 なお、 駆動音源符号帳としては、 予め用意した雑音べクトルを格納したものや、 代数的にパルス位置と極性の組み 合わせによって記述した代数的音源符号帳などがある。 また、 2つ以上の符号帳 の加算形式や、 適応音源の繰返し周期も用いたピッチ周期化を内包したものもあ ο
合成フィル夕 1 4は、 線形予測係数符号化手段 3から出力された量子化された 線形予測係数がフィル夕係数として設定されており、 駆動べクトル生成手段 1 3 から出力された駆動べクトルに対して合成フィル夕リングを行い、 得られた合成 音を、 歪算出部 1 5に対して出力する。
歪算出部 1 5内の聴覚重み付けフィル夕 1 6は、 線形予測係数符号化手段 3か ら出力された量子化された線形予測係数に基づいて聴覚重み付けフィル夕係数を 算出し、 これをフィル夕係数に設定して、 適応音源符号化手段 4内の減算手段 1 1から出力された符号化対象信号 1 2に対するフィル夕リングを行い、 得られた 信号を減算手段 1 8に出力する。
歪算出部 1 5内の聴覚重み付けフィル夕 1 7は、 聴覚重み付けフィル夕 1 6と 同じフィル夕係数に設定して、 合成フィル夕 1 4から出力された合成音に対する フィル夕リングを行い、 得られた信号を減算手段 1 8に出力する。
歪算出部 1 5内の減算手段 1 8は、 聴覚重み付けフィル夕 1 6から出力した信 号と、 聴覚重み付けフィル夕 1 7から出力した信号に適切なゲインを乗じた信号 の差信号を求め、 この差信号をパヮ一算出手段 1 9に出力する。
歪算出部 1 5内のパワー算出手段 1 9は、 減算手段 1 8から出力された差信号 の総パワーを求め、 これを探索用評価値として探索手段 2 0に出力する。
探索手段 2 0は、 歪算出部 1 5内のパワー算出手段 1 9より出力された探索用 評価値を最小にする駆動音源符号を探索し、 探索用評価値を最小にする駆動音源 符号を駆動音源符号 2 1として出力する。 また、 駆動べクトル生成手段 1 3は、 この駆動音源符号 2 1を入力されたときに出力した駆動べクトルを駆動音源 2 2 として出力する。
なお、 減算手段 18で乗じるゲインについては、 探索用評価値を最小にするよ うに偏微分方程式を解くことによって一意に決定される。 実際の歪算出部 15の 内部構成に付いては、 演算量を削減するために各種変形方法が報告されている。 また、 特開平 7— 271397号公報には、 歪算出部の演算量を削減する幾つ かの方法が開示されている。 以下、 特開平 7— 271397号公報に開示されて いる歪算出部の方法について説明する。
駆動べクトルを合成フィル夕 14に通して得られた合成音を Yi、 入力音声を R (図 9における符号化対象信号 12に相当) とした時、 2つの信号の間の波形 歪として定義される探索用評価値は、 式 (1) となる。
Figure imgf000007_0001
これは、 図 9で説明した探索用評価値算出において、 聴覚重み付けフィル夕を 導入しなかった場合に一致する。 ひが減算手段 18で乗じるゲインであり、 式 ( 1) を aで偏微分した式をゼロとするひを求め、 これを式 (1) に代入すると、 式 (2) となる。
Figure imgf000007_0002
式 (2) の第一項は駆動ベクトルによらない定数なので、 探索用評価値 Εを最 小化することは、 式 (2)の第二項を最大化することに等しい。 そこで、 式 (2 ) の第二項をそのまま探索用評価値として用いる場合が多い。
この式 (2) の第二項の演算には多くの演算量を要するため、 特開平 7— 27 1397号公報では、 簡略化した探索用評価値を用いた予備選択を行い、 予備選 択された駆動ベクトルについてのみ式 (2) の第二項を計算して本選択すること で演算量の削減を図っている。 予備選択で用いる簡略化した探索用評価値として は、 式 (3) 〜 (5) などを用いている。
E'D 2 (3)
Figure imgf000007_0003
ここで、 Y iは駆動ベクトル、 Cは符号帳に格納された駆動ベクトル群であり 、 これらによって定義される重み係数 Wを式 (3 ) に乗じた値を予備選択におけ る探索用評価値とすることで、 式 (3 ) を用いる場合よりも式 (4 ) または式 ( 5 ) を用いる場合の方が予備選択の精度が高くなると報告されている。
予備選択時の簡易化した探索用評価値である式 (3 ) 、 式 (4 ) 、 式 (5 ) と 、 本選択時の探索用評価値である式 (2 ) の第二項を比較すると、 駆動ベクトル 群 Cまたは駆動べクトル yiに基づく重み係数の乗算と、 駆動ぺクトルの合成音 Y iのパワーによる除算部分の違いだけである。 式 (3 ) 、 式 (4 ) 、 式 (5 ) は 何れも、 式 (2 ) の第二項を近似するものであり、 式 (1 ) に示した 2つの信号 間の波形歪を評価していることにかわりがない。
しかしながら、 上述した従来の音声符号化方法及び装置では、 以下に述べる課 題がある。
駆動音源符号に用いることができる情報量が少ない場合、 つまり駆動べクトル の数が少なくなつてくると、 式 ( 1 ) 乃至式 (5 ) で説明した波形歪を最小にす る駆動音源符号を選択しても、 この駆動音源符号を含む音声符号を復号して得ら れる復号音において、 音質劣化を招く場合がある。
図 1 0は、 音質劣化を引き起こす 1つのケースについて説明する説明図である 。 図 1 0中、 ( a ) が符号化対象信号、 ( c ) が駆動べクトル、 ( b ) が ( c ) に示した駆動べクトルを合成フィル夕に通して得られる合成音である。 何れも符 号化対象フレーム内の信号を示している。 この例では、 駆動ベクトルとして、 ノ ^ ルス位置と極性を代数的に表現した代数的音源を用いている。
図 1 0の場合、 フレームの後半では (a ) と (b ) の類似度は高く、 比較的良 好に表現されているが、 フレームの前半では (b ) の振幅が 0となっていて、 全 く (a ) を表現できていない。 音声の立ちあがり部分など適応音源へのゲインが 大きく取れない場合には、 図 1 0のようにフレームの一部の符号化特性が極端に 悪い部分が、 復号音において局所的異音として聞こえてしまうことが多い。
つまり、 フレーム全体での波形歪を最小にする駆動音源符号を選択する従来法 では、 図 1 0のようにフレーム内の一部に極端に符号化特性が悪い部分があって も選択してしまい、 復号音の品質劣化を招いてしまう課題がある。 なお、 この課題は、 特開平 7— 2 7 1 3 9 7号公報に開示されているような簡 易化した探索用評価値を用いても解消しない。
この発明は、 かかる課題を解決するためになされたものであり、 復号音の局所 的な異音発生の少ない高品質な音声符号化方法および装置を提供することを目的 としている。 また、 演算量の増加を最小限に抑えつつ、 高品質の音声符号化方法 および装置を提供することを目的としている。 発明の開示
上記目的を達成するために、 この発明に係る音声符号化方法は、 入力音声をフ レームと呼ばれる所定長区間毎に符号化する音声符号化方法において、 複数の駆 動べクトルを生成する駆動べクトル生成工程と、 各駆動べクトル毎に、 入力音声 から求まる符号化対象信号と駆動べクトルから求まる合成べクトルの間に定義さ れる波形に関する歪を第一の歪として算出する第一の歪算出工程と、 各駆動べク トル毎に、 前記符号化対象信号と駆動べクトルから求まる合成ぺクトルの間に定 義される第一の歪と異なる第二の歪を算出する第二の歪算出工程と、 各駆動ぺク トル毎に、 前記第一の歪と第二の歪を用いて所定の探索用評価値を算出する評価 値算出工程と、 探索用評価値を最小にする駆動ベクトルを選択し、 選択した駆動 べクトルに予め対応付けられている符号を出力する探索工程とを備えたものであ る。
また、 前記第一の歪算出工程が算出した第一の歪が小さい 2つ以上の駆動べク トルを選択する予備選択工程を備え、 前記第二の歪算出工程、 評価値算出工程、 探索工程の対象を、 予備選択工程が選択した駆動べクトルに限定するようにした ことを特徴とするものである。
また、 互いに異なる駆動べクトルを生成する駆動べクトル生成工程を複数備え ると共に、 各駆動ベクトル生成工程毎に、 前記第一の歪算出工程が算出した第一 の歪が小さい 1つ以上の駆動べクトルを選択する予備選択工程を備え、 前記第二 の歪算出工程、 評価値算出工程、 探索工程の対象を、 予備選択工程が選択した駆 動べクトルに限定するようにしたことを特徴とするものである。
また、 前記第一の歪算出工程は、 入力音声から求まる符号化対象信号を聴覚重 み付けフィル夕に通した信号と、 駆動べクトルから求まる合成べクトルを聴覚重 み付けフィル夕に通した信号との、 サンプル毎の誤差パヮ一をフレーム内で加算 した結果を第一の歪とすることを特徴とするものである。
また、 前記第二の歪算出工程は、 フレーム内の時間方向の振幅またはパワーの 偏りに関する歪を第二の歪とすることを特徴とするものである。
また、 前記第二の歪算出工程は、 フレーム内の符号化対象信号の振幅またはパ ヮ一の重心位置を求めると共に、 フレーム内の合成べクトルの振幅またはパヮ一 の重心位置を求め、 求まった 2つの重心位置の差を第二の歪とすることを特徴と するものである。
また、 前記評価値算出工程は、 第二の歪に応じて第一の歪を補正することで探 索用評価値を算出するようにしたことを特徴とするものである。
また、 前記評価値算出工程は、 第一の歪と第二の歪の重み付き和によって探索 用評価値を算出するようにしたことを特徴とするものである。
また、 前記評価値算出工程は、 入力音声から算出した所定のパラメ一夕に応じ て探索用評価値を算出する処理を変更するようにしたことを特徴とするものであ る。
また、 駆動ぺクトル以外の音源べクトルから求まる合成べクトルのエネルギー と入力音声のエネルギーの比率を求め、 これを他音源寄与度とする寄与度算出ェ 程を備え、 算出した他音源寄与度を前記評価値算出工程における所定パラメ一夕 としたことを特徴とするものである。
また、 前記評価値算出工程は、 どの駆動ベクトル生成工程から出力された駆動 べクトルであるかによって、 探索用評価値を算出する処理を変更するようにした ことを特徴とするものである。
また、 前記評価値算出工程は、 探索用評価値を算出する処理の 1つとして、 第 一の歪をそのまま探索用評価値とする処理を含むようにしたことを特徴とするも のである。
また、 この発明に係る音声符号化装置は、 入力音声をフレームと呼ばれる所定 長区間毎に符号化する音声符号化装置において、 複数の駆動べクトルを生成する 駆動ベクトル生成手段と、 各駆動ベクトル毎に、 入力音声から求まる符号化対象 信号と駆動べクトルから求まる合成べクトルの間に定義される波形に関する歪を 第一の歪として算出する第一の歪算出手段と、 各駆動ベクトル毎に、 前記符号化 対象信号と駆動べクトルから求まる合成べクトルの間に定義される第一の歪と異 なる第二の歪を算出する第二の歪算出手段と、 各駆動ベクトル毎に、 前記第一の 歪と第二の歪を用いて所定の探索用評価値を算出する評価値算出手段と、 探索用 評価値を最小にする駆動べクトルを選択し、 選択した駆動べクトルに予め対応付 けられている符号を出力する探索手段とを備えたことを特徴とするものである。 また、 前記第一の歪算出手段は、 入力音声から求まる符号化対象信号を聴覚重 み付けフィル夕に通した信号と、 駆動ぺクトルから求まる合成べクトルを聴覚重 み付けフィル夕に通した信号との、 サンプル毎の誤差パヮ一をフレ一ム内で加算 した結果を第一の歪とすることを特徴とするものである。
また、 前記第二の歪算出手段は、 フレーム内の時間方向の振幅またはパワーの 偏りに関する歪を第二の歪とすることを特徴とするものである。
また、 前記評価値算出手段は、 第二の歪に応じて第一の歪を補正することで探 索用評価値を算出するようにしたことを特徴とするものである。
さらに、 前記評価値算出手段は、 入力音声から算出した所定のパラメ一夕に応 じて探索用評価値を算出する処理を変更するようにしたことを特徴とするもので あ■© 図面の簡単な説明
図 1は、 この発明による音声符号化方法を適用した音声符号化装置における実 施の形態 1に係る駆動音源符号化部 5の詳細構成を示すプロック図、
図 2は、 この発明の実施の形態 1に係る探索用評価値算出部 2 9の構成を示す 構成図、
図 3は、 この発明の実施の形態 1に係る第二の歪算出部 2 4の動作を説明する 説明図、
図 4は、 この発明の実施の形態 2に係る探索用評価値算出部 2 9の構成を示す 構成図、
図 5は、 この発明による音声符号化方法を適用した音声符号化装置における実 施の形態 3に係る駆動音源符号化部 5の詳細構成を示すプロック図、
図 6は、 この発明による音声符号化方法を適用した音声符号化装置における実 施の形態 4に係る駆動音源符号化部 5の詳細構成を示すプロック図、
図 7は、 この発明の実施の形態 4に係る探索用評価値算出部 2 9の構成を示す 構成図、
図 8は、 文献 ( ITU-T Recomendation G.729, "CODING OF SPEECH AT 8 kbit /s USING CONJUGATE -STURUCTURE ALGEBRAIC-CODE-EXCITED LINEAR-PREDICTION (CS-ACELP) ", 1996年 3月) に開示されている C E L P系音声符号化装置の全 体構成を示すブロック図、
図 9は、 上記文献 1などに開示されている C E L P系音声符号化装置の駆動音 源符号化部 5の詳細構成を示すプロック図、
図 1 0は、 音質劣化を引き起こす 1つのケースに係る説明図である。 発明を実施するための最良の形態
以下、 図面を参照しながら、 この発明の各実施の形態について説明する。 実施の形態 1 .
図 1は、 この発明による音声符号化方法を適用した音声符号化装置における実 施の形態 1に係る駆動音源符号化部 5の詳細構成を示すプロック図である。 この実施の形態 1における音声符号化装置の全体構成は図 8に示す構成と同様 であるが、 駆動音源符号化部 5に入力音声 1の入力を追加したものとなっている ο
図 1において、 図 9に示す従来例の駆動音源符号化部 5の構成と同一部分は同 一符号を付してその説明は省略する。 新たな符号として、 2 3は、 聴覚重み付け フィル夕 1 6と 1 7、 減算手段 1 8及びパワー算出手段 1 9によって構成される 第一の歪算出部、 2 4は、 重心算出手段 2 5と 2 6及び減算手段 2 7によって構 成される第二の歪算出部、 2 8は適応音源寄与度算出手段、 2 9は探索用評価値 算出部である。 なお、 適応ベクトル生成手段 9、 合成フィル夕 1 0、 減算手段 1
1は、 図 8に示す適応音源符号化手段 4内に含まれているものであるが、 内容を 分かりやすくするために合わせて記載している。 以下、 本実施の形態 1に係る駆動音源符号化部 5の動作を説明する。
まず、 適応音源符号化手段 4内の適応ベクトル生成手段 9が、 前記した適応音 源符号に対応した時系列ぺクトルを、 適応音源として合成フィル夕 1 0に出力す る ο
適応音源符号化手段 4内の合成フィル夕 1 0は、 線形予測係数符号化手段 3か ら出力された量子化された線形予測係数がフィル夕係数として設定されており、 適応べクトル生成手段 9から出力された適応音源に対する合成フィル夕リングを 行い、 得られた合成音を減算手段 1 1と適応音源寄与度算出手段 2 8に出力する ο
適応音源符号化手段 4内の減算手段 1 1は、 合成フィル夕 1 0より出力された 合成音と入力音声 iの差信号を求め、 得られた差信号を駆動音源符号化部 5にお ける符号化対象信号 1 2として、 第一の歪算出部 2 3と第二の歪算出部 2 4に出 力する。
適応音源寄与度算出手段 2 8は、 入力音声 1と、 合成フィル夕 1 0より出力さ れた合成音を用いて、 入力音声 1の符号化における適応音源の寄与の大きさを計 算し、 求まった適応音源寄与度を探索用評価値算出部 2 9に出力する。 具体的な 適応音源寄与度の計算は以下のようにして行う。
まず、 合成フィル夕 1 0より出力された合成音に適切なゲインを乗じた時に、 入力音声 1に対する波形歪が最も小さくなるようにゲインを設定し、 合成フィル 夕 1 0より出力された合成音にこのゲインを乗じた信号のパワー P aを求める。 入力音声 1のパワー Pを求め、 Pに対する P aの比率、 つまり P a/Pを計算し て適応音源寄与度とする。 なお、 適切なゲインについては偏微分方程式に基づい て決定することができ、 式 (2 ) と同様にゲインを計算式から取り除いた形で波 形歪を直接求めることができる。 入力音声 1を R、 合成フィル夕 1 0より出力さ れた合成音を Xとすれば、 適応音源寄与度 Gは、 式 (6 ) により計算することが できる。 ひ
Figure imgf000013_0001
-方、 探索手段 2 0は、 2進数値で示した各駆動音源符号を順次発生させ、 順 番に駆動べクトル生成手段 1 3に出力する。
駆動べクトル生成手段 1 3は、 探索手段 2 0から出力された駆動音源符号に応 じて、 内部に格納してある駆動音源符号帳から時系列ベクトルを読み出し、 駆動 ベクトルとして合成フィル夕 1 4に出力する。 なお、 駆動音源符号帳としては、 予め用意した雑音べクトルを格納したものや、 代数的にパルス位置と極性の組み 合わせによって記述した代数的音源符号帳などがある。 また 2つ以上の符号帳の 加算形式や、 適応音源の繰返し周期も用いたピッチ周期化を内包したものもある ο
合成フィル夕 1 4は、 線形予測係数符号化手段 3から出力された量子化された 線形予測係数がフィル夕係数として設定されており、 駆動べクトル生成手段 1 3 から出力された駆動べクトルに対して合成フィル夕リングを行い、 得られた合成 音を、 第一の歪算出部 2 3と第二の歪算出部 2 4に対して出力する。
第一の歪算出部 2 3内の聴覚重み付けフィル夕 1 6は、 線形予測係数符号化手 段 3から出力された量子化された線形予測係数に基づいて聴覚重み付けフィル夕 係数を算出し、 これをフィル夕係数に設定して、 適応音源符号化手段 4内の減算 手段 1 1から出力された符号化対象信号 1 2に対するフィル夕リングを行い、 得 られた信号を減算手段 1 8に出力する。
第一の歪算出部 2 3内の聴覚重み付けフィル夕 1 7は、 聴覚重み付けフィル夕 1 6と同じフィルタ係数に設定して、 合成フィル夕 1 4から出力された合成音に 対するフィル夕リングを行い、 得られた信号を減算手段 1 8に出力する。
第一の歪算出部 2 3内の減算手段 1 8は、 聴覚重み付けフィル夕 1 6から出力 した信号と、 聴覚重み付けフィル夕 1 7から出力した信号に適切なゲインを乗じ た信号の差信号を求め、 この差信号をパワー算出手段 1 9に出力する。
第一の歪算出部 2 3内のパワー算出手段 1 9は、 減箅手段 1 8から出力された 差信号の総パワーを求め、 これを第一の歪として探索用評価値算出部 2 9に出力 する。 なお、 減算手段 1 8で乗じるゲインについては、 第一の歪を最小にするよ うに偏微分方程式を解くことによって一意に決定される。 実際の歪算出部 2 3の 内部構成に付いては、 演算量を削減するために従来の変形方法を用いることがで ぎる。 第二の歪算出部 2 4内の重心算出手段 2 5では、 減算手段 1 1から出力した符 号化対象信号 1 2のフレーム内の振幅の重心位置を求め、 求まった重心位置を減 算手段 2 7に出力する。 振幅の重心位置は、 対象とする信号の振幅 (サンプル値 の絶対値) のフレーム内合計値を計算し、 再び先頭位置から振幅の合計値を計算 していって、 フレーム内合計値の半分に到達した位置として求めることができる 第二の歪算出部 2 4内の重心算出手段 2 6では、 合成フィル夕 1 4から出力し た合成音のフレーム内の振幅の重心位置を求め、 求まった重心位置を減算手段 2 7に出力する。 重心位置の算出は重心算出手段 2 5と同様にして行う。
第二の歪算出部 2 4内の減算手段 2 7は、 重心算出手段 2 5から出力した重心 位置と、 重心算出手段 2 6から出力した重心位置との差を求め、 求まった重心位 置の差を第二の歪として探索用評価値算出部 2 9に出力する。
探索用評価値算出部 2 9は、 適応音源寄与度算出手段 2 8から出力された適応 音源寄与度と、 第一の歪算出部 2 3から出力された第一の歪と、 第二の歪算出部 2 4から出力された第二の歪とを用いて、 最終的な探索に用いる探索用評価値を 求め、 この探索用評価値を探索手段 2 0に出力する。
探索手段 2 0は、 探索用評価値算出部 2 9より出力された探索用評価値を最小 にする駆動音源符号を探索し、 探索用評価値を最小にする駆動音源符号を駆動音 源符号 2 1として出力する。 また、 駆動ベクトル生成手段 1 3は、 この駆動音源 符号 2 1を入力されたときに出力した駆動べクトルを駆動音源 2 2として出力す o
図 2は、 上記探索用評価値算出部 2 9の構成を示す構成図である。
図 2において、 3 0と 3 2が切換手段、 3 1が乗算手段である。
乗算手段 3 1は、 第一の歪算出部 2 3から出力された第一の歪に予め用意した 定数/?を乗じ、 乗算結果を出力する。 定数/?は 1 . 2〜2 . 0程度の値が適切で ある。
切換手段 3 2は、 第二の歪算出部 2 4から出力された第二の歪が所定の閾値を 上回る場合には、 切換スィッチを乗算手段 3 1から出力された乗算結果へ接続し
、 第二の歪算出部 2 4から出力された第二の歪が所定の閾値以下である場合には 、 切換スィッチを第一の歪算出部 2 3から出力された第一の歪に接続する。 所定 の閾値としては、 フレーム長の 1 0分の 1程度が適切である。 これにより、 切換 手段 3 2は、 第二の歪が大きい時には第一の歪に/?を乗算した結果を、 第二の歪 が小さい時には第一の歪をそのまま出力する。
切換手段 3 0は、 適応音源寄与度算出手段 2 8から出力された適応音源寄与度 が所定の閾値を上回る場合には、 切換スィツチを第一の歪算出部 2 3から出力さ れた第一の歪に接続し、 適応音源寄与度算出手段 2 8から出力された適応音源寄 与度が所定の閾値以下である場合には、 切換手段 3 2の出力結果に.接続する。 所 定の閾値としては、 0 . 3〜0 . 4程度が適切である。 そして、 この切換手段 3 0の出力が探索用評価値として、 探索用評価値算出部 2 9より出力される。 このように構成することで、 通常は第一の歪が探索用評価値として出力され、 第二の歪が大きくかつ適応音源寄与度が小さい場合にのみ第一の歪に定数 を乗 じた値が探索用評価値として出力される。 つまり、 第二の歪が大きくかつ適応音 源寄与度が小さい場合にのみ探索用評価値が大きい値に補正され、 後続の探索手 段 2 0において該当する駆動音源符号の選択が抑制される。
図 3は、 第二の歪算出部 2 4の動作を説明する説明図である。 なお、 符号化対 象信号は図 1 0と同じものである。
重心算出手段 2 5は、 図 3 ( a ) に示すように符号化対象信号の重心位置を求 める。 重心算出手段 2 6は、 図 3 ( b ) に示すように合成フィル夕後の駆動ぺク トルの重心位置を求める。 そして、 減算手段 2 7が、 この 2つの重心位置の差を 図 3 ( b ) に示したように算出する。
この図 3のように、 符号化対象信号と比較して、 合成フィル夕後の駆動べクト ルの振幅がフレーム内で極端に偏っている場合には、 重心位置の差として求めら れる第二の歪の値が大きく評価される。
図 3 ( d ) は、 図 3 ( b ) の場合と異なる駆動ベクトルを合成フィル夕に通し たときの合成音である。 図 3 ( b ) と比較して、 フレームの後半を中心に波形歪 は若干大きいが、 重心位置の差は小さくなつている。 この図 3 ( d ) を生成する 駆動ベクトルを選択した場合には、 フレーム内に 0振幅の部分も無く、 復号音の 劣化は少ないが、 従来の方法では、 波形歪だけで選択を行うため、 図 3 ( b ) を 生成する駆動ベクトルを選択してしまっていた。 これに対し、 この実施の形態で は、 重心位置の差を第二の歪として探索用評価値に反映できるので、 波形歪がそ れ程大きくなく、 重心位置の差も小さい図 3 ( d ) を生成する駆動ベクトルを選 択することが可能となる。
なお、 上記実施の形態では、 符号化対象信号 1 2と合成フィル夕 1 4から出力 した合成音の振幅重心の位置の差によって第二の歪を算出しているが、 これに限 定されるものではなく、 パワー重心の位置の差としてもよいし、 聴覚重み付けフ ィル夕 1 6から出力した信号と、 聴覚重み付けフィル夕 1 7から出力した信号に 対して第二の歪を評価するようにしても良い。
また、 フレームを時間方向に数個に分割し、 符号化対象信号 1 2と合成フィル 夕 1 4から出力した合成音の各々について、 各分割内の平均振幅または平均パヮ 一を算出し、 符号化対象信号 1 2の分割毎の算出結果と、 合成フィル夕 1 4から 出力した合成音の分割毎の算出結果の 2乗距離を求めて第二の歪としても良い。 また、 これらの幾つかの種類の第二の歪を算出して、 探索用評価値算出手段 2 9 で複数の第二の歪を使用する構成も可能である。
また、 探索用評価値算出部 2 9において、 切換手段 3 2を削除し、 乗算手段 3 1の出力を切換手段 3 0に接続する構成に変更し、 乗算手段 3 1で使用する/?を 第二の歪に応じて変更する構成することも可能である。
第一の歪算出部 2 3についても、 この構成に限定されるものではなく、 聴覚重 み付けフィル夕を除いた構成や、 減算手段 1 8の出力に対して聴覚重み付けを一 括して行う構成や、 上述した演算量削減のための各種変形を行うことも可能であ る。
適応音源寄与度算出手段 2 8についても、 2つの入力信号に対して聴覚重み付 けフィル夕リングを行ってから寄与度の計算を行う構成でも構わない。
この実施の形態 1では、 入力音声 1から適応べクトルを合成フィル夕 1 0に通 した合成音を減算して符号化対象信号としているが、 入力音声 1をそのまま符号 化対象信号として用い、 代わりに駆動べクトルを合成フィル夕 1 4に通した合成 音を、 適応べクトルを合成フィル夕 1 0に通した合成音に対して直交化する構成 でも構わない。 また、 この実施の形態 1では、 フレーム毎に駆動ベクトル探索を行っているが
、 従来技術と同様、 フレームを複数に分割したサブフレーム毎に探索を行う構成 も当然可能である。
以上のように、 この実施の形態 1によれば、 符号化対象信号と駆動ベクトルか ら求まる合成べクトルの間に定義される波形に関する歪を第一の歪として算出し 、 符号化対象信号と駆動べクトルから求まる合成べクトルの間に定義される第一 の歪と異なる第二の歪を算出し、 この第一の歪と第二の歪を用いて算出した探索 用評価値を最小にする駆動べクトルを選択するようにしたので、 第一の歪だけで は分からない、 復号音の劣化を引き起こす可能性が高い駆動べクトルを第二の歪 によって検知することが可能となり、 復号音の局所的な異音発生の少ない高品質 な音声符号化が実現できる効果がある。
また、 この実施の形態 1によれば、 入力音声から求まる符号化対象信号を聴覚 重み付けフィル夕に通した信号と、 駆動べクトルから求まる合成べクトルを聴覚 重み付けフィル夕に通した信号との、 サンプル毎の誤差パヮ一をフレーム内で加 算した結果を第一の歪としたので、 復号音の主観的な歪感の小さい駆動べクトル が選択でき、 高品質な音声符号化が実現できる効果がある。
また、 この実施の形態 1によれば、 フレーム内の時間方向の振幅またはパワー の偏りに関する歪を第二の歪としたので、 局所的に振幅が小さすぎるなどの復号 音の主観的な劣化を引き起こす可能性が高い駆動べクトルを第二の歪によって検 知することが可能となり、 復号音の局所的な異音発生の少ない高品質な音声符号 化が実現できる効果がある。
また、 この実施の形態 1によれば、 フレーム内の符号化対象信号の振幅または パワーの重心位置を求め、 フレーム内の合成べクトルの振幅またはパワーの重心 位置を求め、 求まった 2つの重心位置の差を第二の歪としたので、 簡単な処理で あるにもかかわらず、 フレーム内の振幅またはパワーの偏りを評価でき、 局所的 に振幅が小さすぎるなどの復号音の主観的な劣化を引き起こす可能性が高い駆動 ぺクトルを第二の歪によって検知することが可能となり、 復号音の局所的な異音 発生の少ない高品質な音声符号化が実現できる効果がある。
また、 この実施の形態 1によれば、 第二の歪に応じて第一の歪を補正すること で探索用評価値を算出するようにしたので、 基本的には波形歪である第一の歪を 小さくする駆動べクトルであって、 第一の歪と異なる第二の歪についても問題が 少ない駆動べクトルを選択することができ、 高品質な音声符号化が実現できる効 果がある。
また、 この実施の形態 1によれば、 入力音声から算出した適応音源寄与度など の所定のパラメ一夕に応じて探索用評価値を算出するようにしたので、 音声の状 態や符号化特性などに応じて第一の歪だけを使用したり、 第二の歪による補正を 行ったりすることで、 復号音の品質劣化を起こしにくい、 そのフレームに適切な 駆動べクトルが選択でき、 高品質な音声符号化が実現できる効果がある。
また、 この実施の形態 1によれば、 適応音源 (駆動ベクトル以外の音源べクト ル) から求まる合成べクトルのエネルギーと入力音声のエネルギーの比率を求め て、 これを適応音源寄与度 (他音源寄与度) として、 探索用評価値の算出に使用 したので、 復号音における駆動べクトルの寄与度が大きいフレームでのみ第二の 歪の使用を行うなど、 フレーム毎に適切な探索用評価値を求めることができ、 復 号音の品質劣化を起こしにくい、 そのフレームに適切な駆動べクトルが選択でき 、 高品質な音声符号化が実現できる効果がある。
また、 この実施の形態 1によれば、 探索用評価値を算出する処理の 1つとして
、 第一の歪をそのまま探索用評価値とする処理、 を含むようにしたので、 復号音 における駆動べクトルの寄与度が小さく、 駆動べクトルの振幅偏りがあっても復 号音劣化につながらない場合などにおいて、 波形歪である第一の歪を最小にする 駆動べクトルを選択することができ、 不必要に第二の歪を利用してかえって音質 劣化を招くことを回避できる効果がある。 実施の形態 2 .
図 4は、 この発明の実施の形態 2に係る探索用評価値算出部 2 9の構成を示す 構成図である。
図 4において、 3 0は切換手段、 3 3と 3 4は乗算手段、 3 7は加算手段であ る。
乗算手段 3 3は、 第一の歪算出部 2 3から出力された第一の歪に予め用意した 定数 ? 1を乗じ、 乗算結果を加算手段 3 7に出力する。 定数/? 1は 1 . 0固定で 構わないので、 乗算手段 3 3自体は省略可能である。
また、 乗算手段 3 4は、 第二の歪算出部 2 4から出力された第二の歪に予め用 意した定数/? 2を乗じ、 乗算結果を加算手段 3 7に出力する。 定数/? 2は、 乗算 手段 3 3の出力に対して乗算手段 3 4の出力が平均的に小さくなるように設定す る
さらに、 加算手段 3 7は、 乗算手段 3 3の出力と乗算手段 3 4の出力を加算し 、 加算結果を切換手段 3 0に出力する。
切換手段 3 0は、 適応音源寄与度算出手段 2 8から出力された適応音源寄与度 が所定の閾値を上回る場合には、 切換スィツチを第一の歪算出部 2 3から出力さ れた第一の歪に接続し、 適応音源寄与度算出手段 2 8から出力された適応音源寄 与度が所定の閾値以下である場合には、 加算手段 3 7の出力結果に接続する。 所 定の閾値としては、 0 . 3〜0 . 4程度が適切である。 そして、 この切換手段 3 0の出力が探索用評価値として、 探索用評価値算出部 2 9より出力される。 このように構成することで、 通常は第一の歪が探索用評価値として出力され、 適応音源寄与度が小さい場合にのみ第二の歪が探索用評価値に含まれて出力され る。 また、 乗算手段 3 3の出力に比べて乗算手段 3 4の出力が平均的に小さくな るように/? 1と/? 2を設定しておくことによって、 基本的には第一の歪が主で、 第二の歪によって補正を行う結果となる。 従って、 第二の歪が比較的大きくかつ 適応音源寄与度が小さい場合にのみ探索用評価値が大きい値に補正され、 後続の 探索手段 2 0において該当する駆動音源符号の選択が抑制される。
以上のように、 この実施の形態 2によれば、 第一の歪と第二の歪の重み付き和 によって探索用評価値を算出するようにしたので、 基本的には波形歪である第一 の歪を小さくする駆動べクトルであって、 第一の歪と異なる第二の歪についても 問題が少ない駆動べクトルを選択することができ、 高品質な音声符号化が実現で きる効果がある。
また、 この実施の形態 2によれば、 駆動ベクトル以外の音源ベクトルから求ま る合成ぺクトルのエネルギーと入力音声のエネルギーの比率を求めて、 これを評 価値算出工程における所定パラメ一夕としたので、 復号音における駆動ぺクトル の寄与度が大きいフレームでのみ第二の歪の使用を行うなど、 フレーム毎に適切 な探索用評価値を求めることができ、 復号音の品質劣化を起こしにくい、 そのフ レームに適切な駆動べクトルが選択でき、 高品質な音声符号化が実現できる効果 がめる。
また、 この実施の形態 2によれば、 探索用評価値を算出する処理の 1つとして 、 第一の歪をそのまま探索用評価値とする処理、 を含むようにしたので、 復号音 における駆動べクトルの寄与度が小さく、 駆動べクトルの振幅偏りがあっても復 号音劣化につながらない場合などにおいて、 波形歪である第一の歪を最小にする 駆動べクトルを選択することができ、 不必要に第二の歪を利用してかえって音質 劣化を招くことを回避できる効果がある。 実施の形態 3 .
図 5は、 この発明による音声符号化方法を適用した音声符号化装置における実 施の形態 3に係る駆動音源符号化部 5の詳細構成を示すプロック図である。 本実施の形態 3においても音声符号化装置の全体構成は図 8と同様であるが、 駆動音源符号化部 5に入力音声 1の入力を追加したものとなっている。
図 5において、 図 1に示す実施の形態 1と同一部分は同一符号を付してその説 明は省略する。 新たな符号として、 3 5は予備選択手段である。
以下、 図に基づいて動作を説明する。
第一の歪算出部 2 3は、 線形予測係数符号化手段 3から出力された量子化され た線形予測係数、 減算手段 1 1から出力された符号化対象信号 1 2と、 各駆動べ クトル毎に合成フィル夕 1 4から出力された合成音から、 聴覚重み付けフィル夕 後の差信号の総パワーを求めて、 これを第一の歪として予備選択手段 3 5に出力 する。
予備選択手段 3 5は、 第一の歪算出部 2 3から出力された各駆動ぺクトル毎の 第一の歪を互いに比較し、 この第一の歪が小さい M個の駆動べクトルを予備選択 する。 なお、 Mは全駆動ベクトルの数より少ない数である。 そして予備選択した 駆動べクトルの番号を第二の歪算出部 2 4に出力すると共に、 予備選択した各駆 動べクトルに対する第一の歪を探索用評価値算出部 2 9に出力する。 第二の歪算出部 2 4は、 予備選択手段 3 5が予備選択して出力した M個の駆動 ぺクトルの番号が指定する各駆動べクトルについて、 減算手段 1 1から出力した 符号化対象信号 1 2と、 各駆動べクトル毎に合成フィル夕 1 4から出力した合成 音とのフレーム内の振幅の重心位置の差を求め、 求まった重心位置の差を第二の 歪として探索用評価値算出部 2 9に出力する。
探索用評価値算出部 2 9は、 適応音源寄与度算出手段 2 8から出力された適応 音源寄与度と、 予備選択手段 3 5が予備選択して出力した M個の第一の歪と、 第 二の歪算出部 2 4から出力された M個の第二の歪とを用いて、 最終的な探索に用 いる M個の探索用評価値を求め、 この探索用評価値を探索手段 2 0に出力する。 探索手段 2 0は、 探索用評価値算出部 2 9より出力された探索用評価値を最小 にする駆動音源符号を探索し、 探索用評価値を最小にする駆動音源符号を駆動音 源符号 2 1として出力する。 また、 駆動べクトル生成手段 1 3は、 この, 動音源 符号 2 1を入力されたときに出力した駆動べクトルを駆動音源 2 2として出力す る。
なお、 上記実施の形態 3についても、 実施の形態 1と同様に、 符号化対象信号 1 2と合成フィル夕 1 4から出力した合成音の振幅重心の位置の差によって第二 の歪を算出しているが、 これに限定されるものではなく、 パワー重心の位置の差 としてもよいし、 聴覚重み付けフィル夕後の信号に対して第二の歪を評価するよ うにしても良い。 フレ一ムを時間方向に数個に分割し、 符号化対象信号 1 2と合 成フィル夕 1 4から出力した合成音の各々について、 各分割内の平均振幅または 平均パワーを算出し、 符号化対象信号 1 2の分割毎の算出結果と、 合成フィル夕 1 4から出力した合成音の分割毎の算出結果の 2乗距離を求めて第二の歪として も良い。 また、 これらの幾つかの種類の第二の歪を算出して、 探索用評価値算出 手段 2 9で複数の第二の歪を使用する構成も可能である。
第一の歪算出部 2 3についても、 聴覚重み付けフィル夕を除いた構成や、 聴覚 重み付けを一括して行う構成や、 演算量削減のための各種変形を行うことも可能 である。
また、 この実施の形態 3では、 入力音声 1から適応ベクトルを合成フィル夕 1
0に通した合成音を減算して符号化対象信号としているが、 実施の形態 1と同様 に、 入力音声 1をそのまま符号化対象信号として用い、 代わりに駆動ベクトルを 合成フィル夕 1 4に通した合成音を、 適応べクトルを合成フィル夕 1 0に通した 合成音に対して直交化する構成でも構わない。
また、 この実施の形態 3では、 フレーム毎に駆動ベクトル探索を行っているが 、 従来技術と同様、 フレームを複数に分割したサブフレーム毎に探索を行う構成 も当然可能である。
以上のように、 この実施の形態 3によれば、 第一の歪が小さい 2つ以上の駆動 ベクトルを予備選択し、 第二の歪の算出、 探索用評価値の算出、 探索の対象を、 予備選択した駆動べクトルに限定するようにしたので、 実施の形態 1が持つ効果 に加えて、 第二の歪の算出と探索用評価値の算出の演算量を少なく抑制すること ができ、 第一の歪だけで探索を行っていた従来構成に対して少ない演算量の増加 で、 復号音の劣化を引き起こす可能性が高い駆動ぺクトルを第二の歪によって検 知することが可能となり、 復号音の局所的な異音発生の少ない高品質な音声符号 化が実現できる効果がある。 実施の形態 4 .
図 6は、 この発明による音声符号化方法を適用した音声符号化装置における実 施の形態 4に係る駆動音源符号化部 5の詳細構成を示すプロック図である。 この実施の形態 4においても音声符号化装置の全体構成は図 8と同様であるが 、 駆動音源符号化部 5に入力音声 1の入力を追加したものとなっている。 図 5に 示す実施の形態 3と同一部分は同一符号を付してその説明は省略する。 この実施 の形態 4においては、 駆動ベクトル生成手段 1 3として、 第一の駆動ベクトル生 成手段から第 Nの駆動べクトル生成手段までの N個の駆動ぺクトル生成手段と切 換手段を備えている。
以下、 図に基づいて動作を説明する。
駆動べクトル生成手段 1 3は、 第一の駆動べクトル生成手段から第 Nの駆動べ クトル生成手段までの N個の駆動べクトル生成手段と切換手段を備えており、 外 部から駆動べクトル生成手段番号と駆動べクトル番号が入力されると、 これらに 応じて 1つの駆動ぺクトルを出力する。 切換手段が入力された駆動ぺクトル生成 手段番号に応じて 1つの駆動べクトル生成手段に切換スィツチを接続し、 接続さ れた第一から第 Nの駆動べクトル生成手段が、 入力された駆動べクトル番号によ つて指定された駆動べクトルを出力するようになっている。
なお、 複数の駆動ベクトル生成手段は互いに異なるものであり、 フレーム内の 前半にエネルギーが集まっている駆動べクトル生成手段や、 フレーム内の後半に エネルギーが集まっている駆動べクトル生成手段や、 フレーム内に比較的分散し てエネルギーが分布している駆動べクトル生成手段や、 少ないパルスだけで構成 されている駆動べクトル生成手段と多くのパルスで構成されている駆動べクトル 生成手段など、 様々な様態を持つ音声信号を安定に符号化するために様々な様態 の駆動べクトル生成手段を備えるようにしておくのがよい。
探索手段 2 0は、 2進数値で示した各駆動音源符号を順次発生させ、 この駆動 音源符号を駆動べクトル生成手段番号と駆動べクトル番号に分解し、 駆動べクト ル生成手段番号を駆動べクトル生成手段 1 3内の切換手段と、 探索用評価値算出 部 2 9に出力する。 また駆動べクトル番号を駆動べクトル生成手段 1 3内の第一 から第 Nの駆動べクトル生成手段に出力する。
駆動べクトル生成手段 1 3は、 探索手段 2 0から出力された駆動ぺクトル生成 手段番号と駆動ぺクトル番号に応じて、 1つの駆動べクトルを合成フィル夕 1 4 に出力する。
合成フィル夕 1 4は、 線形予測係数符号化手段 3から出力された量子化された 線形予測係数がフィル夕係数として設定されており、 駆動ぺクトル生成手段 1 3 から出力された駆動べクトルに対して合成フィル夕リングを行い、 得られた合成 音を、 第一の歪算出部 2 3と第二の歪算出部 2 4に対して出力する。
第一の歪算出部 2 3は、 線形予測係数符号化手段 3から出力された量子化され た線形予測係数、 減算手段 1 1から出力された符号化対象信号 1 2と、 各駆動べ クトル毎に合成フィルタ 1 4から出力された合成音から、 聴覚重み付けフィル夕 後の差信号の総パワーを求めて、 これを第一の歪として予備選択手段 3 5に出力 る。
予備選択手段 3 5は、 第一の歪算出部 2 3から出力された各駆動ぺクトル毎の 第一の歪を互いに比較し、 この第一の歪が小さい M個の駆動べクトルを予備選択 する。 なお、 Mは全駆動ベクトルの数より少ない数である。 そして予備選択した 駆動べクトルの番号を第二の歪算出部 2 4に出力すると共に、 予備選択した各駆 動ベクトルに対する第一の歪を探索用評価値算出部 2 9に出力する。 なお、 探索 手段 2 0より駆動ぺクトル生成手段番号を入力する構成として、 同一の駆動ぺク トル生成手段番号毎に L個の駆動ぺクトルを予備選択してもよい。 Lを 1とすれ ば、 予備選択数 Mは Nに一致する。
第二の歪算出部 2 4は、 予備選択手段 3 5が予備選択して出力した M個の駆動 べクトルの番号が指定する各駆動べクトルについて、 減算手段 1 1から出力した 符号化対象信号 1 2と、 各駆動べクトル毎に合成フィル夕 1 4から出力した合成 音とのフレーム内の振幅の重心位置の差を求め、 求まつた重心位置の差を第二の 歪として探索用評価値算出部 2 9に出力する。
探索用評価値算出部 2 9は、 適応音源寄与度算出手段 2 8から出力された適応 音源寄与度と、 探索手段 2 0から出力した駆動ベクトル生成手段番号と、 予備選 択手段 3 5が予備選択して出力した M個の第一の歪と、.第二の歪算出部 2 4から 出力された M個の第二の歪とを用いて、 最終的な探索に用いる M個の探索用評価 値を求め、 この探索用評価値を探索手段 2 0に出力する。
探索手段 2 0は、 探索用評価値算出部 2 9より出力された探索用評価値を最小 にする駆動音源符号を探索し、 探索用評価値を最小にする駆動音源符号を駆動音 源符号 2 1として出力する。 また、 駆動べクトル生成手段 1 3は、 この駆動音源 符号 2 1を入力されたときに出力した駆動べクトルを駆動音源 2 2として出力す る。
図 7は、 探索用評価値算出部 2 9の構成を示す構成図である。
図 7において、 3 0、 3 2、 3 6は切換手段、 3 1は乗算手段である。
探索用評価値算出部 2 9内には、 予め駆動べクトル生成手段番号に対応して N 個の定数/? 1乃至/? Nが設定してある。
切換手段 3 6は、 探索手段 2 0より出力した駆動べクトル生成手段番号に応じ て切換スィッチを切換え、 駆動ベクトル生成手段番号が 1の時には ? 1、 駆動べ クトル生成手段番号が Nの時には/? Nという具合に 1つの定数を選択して出力す o 乗算手段 3 1は、 第一の歪算出部 2 3から出力された第一の歪に、 切換手段 3 6より出力した定数を乗じ、 乗算結果を出力する。
切換手段 3 2は、 第二の歪算出部 2 4から出力された第二の歪が所定の閾値を 上回る場合には、 切換スィッチを乗算手段 3 1から出力された乗算結果へ接続し 、 第二の歪算出部 2 4から出力された第二の歪が所定の閾値以下である場合には 、 切換スィッチを第一の歪算出部 2 3から出力された第一の歪に接続する。 所定 の閾値としては、 フレーム長の 1 0分の 1程度が適切である。 これにより、 切換 手段 3 2は、 第二の歪が大きい時には第一の歪に駆動べクトル生成手段番号に応 じた定数を乗算した結果を、 第二の歪が小さい時には第一の歪をそのまま出力す る。
切換手段 3 0は、 適応音源寄与度算出手段 2 8から出力された適応音源寄与度 が所定の閾値を上回る場合には、 切換スィッチを第一の歪算出部 2 3から出力さ れた第一の歪に接続し、 適応音源寄与度算出手段 2 8から出力された適応音源寄 与度が所定の閾値以下である場合には、 切換手段 3 2の出力結果に接続する。 所 定の閾値としては、 0 . 3〜0 . 4程度が適切である。 そして、 この切換手段 3 0の出力が探索用評価値として、 探索用評価値算出部 2 9より出力される。 このように構成することで、 通常は第一の歪が探索用評価値として出力され、 第二の歪が大きくかつ適応音源寄与度が小さい場合にのみ第一の歪に駆動べクト ル生成手段番号に応じた定数を乗じた値が探索用評価値として出力される。 つま り第二の歪が大きくかつ適応音源寄与度が小さい場合にのみ探索用評価値が大き い値に補正され、 かつその補正の大きさが駆動べクトル生成手段番号に応じて制 御され、 後続の探索手段 2 0において該当する駆動音源符号の選択が抑制される ο
なお、 上記実施の形態 4についても、 実施の形態 2と同様に、 切換スイッチ 3 2を図 4に示した乗算手段 3 3と加算手段 3 7に変更する構成が可能である。 また、 実施の形態 1と同様に、 符号化対象信号 1 2と合成フィル夕 1 4から出 力した合成音の振幅重心の位置の差によって第二の歪を算出しているが、 これに 限定されるものではなく、 パワー重心の位置の差としてもよいし、 聴覚重み付け フィル夕後の信号に対して第二の歪を評価するようにしても良い。 フレームを時 間方向に数個に分割し、 符号化対象信号 1 2と合成フィル夕 1 4から出力した合 成音の各々について、 各分割内の平均振幅または平均パワーを算出し、 符号化対 象信号 1 2の分割毎の算出結果と、 合成フィル夕 1 4から出力した合成音の分割 毎の算出結果の 2乗距離を求めて第二の歪としても良い。 また、 これらの幾つか の種類の第二の歪を算出して、 探索用評価値算出手段 2 9で複数の第二の歪を使 用する構成も可能である。
第一の歪算出部 2 3についても、 聴覚重み付けフィル夕を除いた構成や、 聴覚 重み付けを一括して行う構成や、 演算量削減のための各種変形を行うことも可能 である。
また、 この実施の形態 4では、 入力音声 1から適応ベクトルを合成フィル夕 1 0に通した合成音を減算して符号化対象信号としているが、 実施の形態 1と同様 に、 入力音声 1をそのまま符号化対象信号として用い、 代わりに駆動ベクトルを 合成フィル夕 1 4に通した合成音を、 適応べクトルを合成フィル夕 1 0に通した 合成音に対して直交化する構成でも構わない。
また、 この実施の形態 4では、 フレーム毎に駆動ベクトル探索を行っているが 、 従来技術と同様、 フレームを複数に分割したサブフレーム毎に探索を行う構成 も当然可能である。
以上のように、 この実施の形態 4によれば、 互いに異なる駆動ベクトルを生成 する駆動べクトル生成手段 (工程) を複数備え、 各駆動べクトル生成手段 (工程
) 毎に、 前記第一の歪算出手段 (工程) が算出した第一の歪が小さい 1つ以上の 駆動ベクトルを予備選択し、 第二の歪の算出、 探索用評価値の算出、 探索の対象 を、 予備選択した駆動ベクトルに限定するようにしたので、 実施の形態 3が持つ 効果に加えて、 音源位置限定やパルス数などが様々に異なる駆動べクトル生成手 段 (工程) 毎に 1つ以上の駆動ベクトルの候補を残すことができ、 音源位置限定 やパルス数などが様々に異なる駆動べクトルの候補中から復号音の劣化を引き起 こす可能性が高い駆動べクトルを第二の歪によって検知して選択を抑制すること で、 少ない演算量の増加であるにもかかわらず、 復号音の局所的な異音発生の少 ない高品質な音声符号化が実現できる効果がある。
なお、 実施の形態 3においては、 音源位置限定やパルス数などが様々に異なる 駆動ぺクトルが予備選択される補償がないので、 例えばフレーム内の前半にエネ ルギ一が集まっている駆動べクトルだけが予備選択された場合、 その予備選択さ れた駆動ベクトルの中に重心位置の差 (第二の歪) が小さいものが含まれていな いことも起こり得る。 その場合、 復号音の局所的な劣化を解消できない。
この実施の形態 4によれば、 どの駆動ベクトル生成手段 (工程) から出力され た駆動べクトルであるかによって、 探索用評価値の算出に用いる定数を ? 1から ? Nの間で変更する (探索用評価値を算出する処理を変更する) ようにしたので 、 第二の歪が大きくなつたときに復号音の劣化につながりやすい駆動べクトル生 成手段 (工程) について、 選択的に探索用評価値における第二の歪の重みを大き くして、 その駆動べクトル生成手段 (工程) から出力される駆動べクトルの選択 を抑制することが可能となり、 復号音の局所的な異音発生の少ない高品質な音声 符号化が実現できる効果がある。 実施の形態 5 .
上記実施の形態 1乃至 4では、 全て適応べクトルと駆動べクトルの加算によつ て構成される音源における、 駆動べクトルの探索に関して本発明を適用した構成 であったが、 音源の構成はこれに限定されるものではなく、 例えば音声の立ちあ がり部分を表現するための駆動べクトルだけで構成される音源においても、 適用 可能である。
.その場合には、 適応音源符号化手段 4、 適応ベクトル生成手段 9、 合成フィル 夕 1 0が不要となり、 適応音源寄与度算出手段 2 8の出力が常に 0とすれば良い このように構成することで、 駆動べクトルだけで音源を構成する場合において も、 第一の歪だけでは分からない、 復号音の劣化を引き起こす可能性が高い駆動 べクトルを第二の歪によって検知することが可能となり、 復号音の局所的な異音 発生の少ない高品質な音声符号化が実現できる効果がある。 実施の形態 6 .
上記実施の形態 1乃至 4では、 駆動ぺクトルの探索に関して本発明を適用した 構成であつたが、 適応べクトルの探索においても本発明を適用することが可能で ある。
その場合には、 実施の形態 5における駆動べクトル生成手段 1 3を適応ぺクト ル生成手段 9に変更すれば良い。
このように構成することで、 第一の歪だけでは分からない、 復号音の劣化を引 き起こす可能性が高い適応べクトルを第二の歪によって検知することが可能とな り、 復号音の局所的な異音発生の少ない高品質な音声符号化が実現できる効果が ある。 実施の形態 7 .
上記実施の形態 1乃至 4では、 1つの駆動ベクトルだけを選択していたが、 サ ブ駆動べクトル生成手段を 2つ備え、 これらの各々から出力される 2つのサブ駆 動べクトルの加算によって 1つの駆動ぺクトルとする構成も当然可能である。 その場合、 他の構成は実施の形態 1乃至 4と同様でも構わないが、 1つのサブ 駆動べクトル生成手段から出力されるサブ駆動べクトルの探索の際に、 既に決定 しているもう一方のサブ駆動べクトルと適応音源の寄与度を求めて探索用評価値 の算出に用いる構成も可能である。
このように構成することで、 第一の歪だけでは分からない、 復号音の劣化を引 き起こす可能性が高いサブ駆動べクトルを第二の歪によって検知することが可能 となり、 復号音の局所的な異音発生の少ない高品質な音声符号化が実現できる効 果がある。 産業上の利用の可能性
以上のように、 この発明によれば、 符号化対象信号と駆動ベクトルから求まる 合成ぺクトルの間に定義される波形に関する歪を第一の歪として算出し、 符号化 対象信号と駆動べクトルから求まる合成ぺクトルの間に定義される第一の歪と異 なる第二の歪を算出し、 この第一の歪と第二の歪を用いて算出した探索用評価値 を最小にする駆動べクトルを選択するようにしたので、 第一の歪だけでは分から ない、 復号音の劣化を引き起こす可能性が高い駆動べクトルを第二の歪によって 検知することが可能となり、 復号音の局所的な異音発生の少ない高品質な音声符 号化が実現できる。

Claims

請 求 の 範 囲
1 . 入力音声をフレームと呼ばれる所定長区間毎に符号化する音声符号化 方法において、
複数の駆動ぺクトルを生成する駆動べクトル生成工程と、
各駆動ぺクトル毎に、 入力音声から求まる符号化対象信号と駆動べクトルから 求まる合成べクトルの間に定義される波形に関する歪を第一の歪として算出する 第一の歪算出工程と、
各駆動べクトル毎に、 前記符号化対象信号と駆動べクトルから求まる合成ぺク トルの間に定義される第一の歪と異なる第二の歪を算出する第二の歪算出工程と 各駆動べクトル毎に、 前記第一の歪と第二の歪を用いて所定の探索用評価値を 算出する評価値算出工程と、
探索用評価値を最小にする駆動べクトルを選択し、 選択した駆動ぺクトルに予 め対応付けられている符号を出力する探索工程と
を備えた音声符号化方法。
2 . 請求項 1に記載の音声符号化方法において、
前記第一の歪算出工程が算出した第一の歪が小さい 2つ以上の駆動べクトルを 選択する予備選択工程を備え、
前記第二の歪算出工程、 評価値算出工程、 探索工程の対象を、 予備選択工程が 選択した駆動ベクトルに限定するようにしたことを特徴とする音声符号化方法。
3 . 請求項 1に記載の音声符号化方法において、
互いに異なる駆動べクトルを生成する駆動ぺクトル生成工程を複数備えると共 に、 各駆動ベクトル生成工程毎に、 前記第一の歪算出工程が算出した第一の歪が 小さい 1つ以上の駆動べクトルを選択する予備選択工程を備え、
前記第二の歪算出工程、 評価値算出工程、 探索工程の対象を、 予備選択工程が 選択した駆動べクトルに限定するようにしたことを特徴とする音声符号化方法。
4 . 請求項 1に記載の音声符号化方法において、
前記第一の歪算出工程は、 入力音声から求まる符号化対象信号を聴覚重み付け フィル夕に通した信号と、 駆動べクトルから求まる合成べクトルを聴覚重み付け フィル夕に通した信号との、 サンプル毎の誤差パヮ一をフレーム内で加算した結 果を第一の歪とすることを特徴とする音声符号化方法。
5 . 請求項 1に記載の音声符号化方法において、
前記第二の歪算出工程は、 フレーム内の時間方向の振幅またはパワーの偏りに 関する歪を第二の歪とすることを特徴とする音声符号化方法。
6 . 請求項 5に記載の音声符号化方法において、
前記第二の歪算出工程は、 フレーム内の符号化対象信号の振幅またはパワーの 重心位置を求めると共に、 フレーム内の合成べクトルの振幅またはパワーの重心 位置を求め、 求まった 2つの重心位置の差を第二の歪とすることを特徴とする音 声符号化方法。
7 . 請求項 1に記載の音声符号化方法において、
前記評価値算出工程は、 第二の歪に応じて第一の歪を補正することで探索用評 価値を算出するようにしたことを特徴とする音声符号化方法。
8 . 請求項 1に記載の音声符号化方法において、
前記評価値算出工程は、 第一の歪と第二の歪の重み付き和によって探索用評価 値を算出するようにしたことを特徴とする音声符号化方法。
9 . 請求項 1に記載の音声符号化方法において、
前記評価値算出工程は、 入力音声から算出した所定のパラメータに応じて探索 用評価値を算出する処理を変更するようにしたことを特徴とする音声符号化方法
1 0 . 請求項 9に記載の音声符号化方法において、
駆動べクトル以外の音源べクトルから求まる合成べクトルのエネルギーと入力 音声のエネルギーの比率を求め、 これを他音源寄与度とする寄与度算出工程を備 え、 算出した他音源寄与度を前記評価値算出工程における所定パラメ一夕とした ことを特徴とする音声符号化方法。
1 1 . 請求項 3に記載の音声符号化方法において、
前記評価値算出工程は、 どの駆動べクトル生成工程から出力された駆動べクト ルであるかによって、 探索用評価値を算出する処理を変更するようにしたことを 特徴とする音声符号化方法。
1 2 . 請求項 1に記載の音声符号化方法において、
前記評価値算出工程は、 探索用評価値を算出する処理の 1つとして、 第一の歪 をそのまま探索用評価値とする処理を含むようにしたことを特徴とする音声符号 化方法。
1 3 . 入力音声をフレームと呼ばれる所定長区間毎に符号化する音声符号 化装置において、
複数の駆動ぺクトルを生成する駆動べクトル生成手段と、
各駆動ぺクトル毎に、 入力音声から求まる符号化対象信号と駆動ぺクトルから 求まる合成ぺクトルの間に定義される波形に関する歪を第一の歪として算出する 第一の歪算出手段と、
各駆動べクトル毎に、 前記符号化対象信号と駆動べクトルから求まる合成べク トルの間に定義される第一の歪と異なる第二の歪を算出する第二の歪算出手段と 各駆動べクトル毎に、 前記第一の歪と第二の歪を用いて所定の探索用評価値を 算出する評価値算出手段と、
探索用評価値を最小にする駆動べクトルを選択し、 選択した駆動べクトルに予 め対応付けられている符号を出力する探索手段と を備えたことを特徴とする音声符号化装置。
1 4 . 請求項 1 3に記載の音声符号化装置において、
前記第一の歪算出手段は、 入力音声から求まる符号化対象信号を聴覚重み付け フィル夕に通した信号と、 駆動べクトルから求まる合成べクトルを聴覚重み付け フィル夕に通した信号との、 サンプル毎の誤差パワーをフレーム内で加算した結 果を第一の歪とすることを特徴とする音声符号化装置。
1 5 . 請求項 1 3に記載の音声符号化装置において、
前記第二の歪算出手段は、 フレーム内の時間方向の振幅またはパワーの偏りに 関する歪を第二の歪とすることを特徴とする音声符号化装置。
1 6 . 請求項 1 3に記載の音声符号化装置において、
前記評価値算出手段は、 第二の歪に応じて第一の歪を補正することで探索用評 価値を算出するようにしたことを特徴とする音声符号化装置。
1 7 . 請求項 1 3に記載の音声符号化装置において、
前記評価値算出手段は、 入力音声から算出した所定のパラメ一夕に応じて探索 用評価値を算出する処理を変更するようにしたことを特徴とする音声符号化装置
PCT/JP2001/003240 2000-10-26 2001-04-16 Procede et appareil de codage vocal WO2002035522A1 (fr)

Priority Applications (4)

Application Number Priority Date Filing Date Title
IL15524301A IL155243A0 (en) 2000-10-26 2001-04-16 Voice encoding method and apparatus
US10/398,808 US7203641B2 (en) 2000-10-26 2001-04-16 Voice encoding method and apparatus
DE60141646T DE60141646D1 (de) 2000-10-26 2001-04-16 Sprachcodierungsverfahren und -vorrichtung
EP01919951A EP1339042B1 (en) 2000-10-26 2001-04-16 Voice encoding method and apparatus

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
JP2000327322A JP3426207B2 (ja) 2000-10-26 2000-10-26 音声符号化方法および装置
JP2000-327322 2000-10-26

Publications (1)

Publication Number Publication Date
WO2002035522A1 true WO2002035522A1 (fr) 2002-05-02

Family

ID=18804359

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/JP2001/003240 WO2002035522A1 (fr) 2000-10-26 2001-04-16 Procede et appareil de codage vocal

Country Status (8)

Country Link
US (1) US7203641B2 (ja)
EP (1) EP1339042B1 (ja)
JP (1) JP3426207B2 (ja)
CN (1) CN1222926C (ja)
DE (1) DE60141646D1 (ja)
IL (1) IL155243A0 (ja)
TW (1) TW517223B (ja)
WO (1) WO2002035522A1 (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101615395B (zh) * 2008-12-31 2011-01-12 华为技术有限公司 信号编码、解码方法及装置、系统

Families Citing this family (16)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7644003B2 (en) 2001-05-04 2010-01-05 Agere Systems Inc. Cue-based audio coding/decoding
US7805313B2 (en) 2004-03-04 2010-09-28 Agere Systems Inc. Frequency-based coding of channels in parametric multi-channel coding systems
US7720230B2 (en) 2004-10-20 2010-05-18 Agere Systems, Inc. Individual channel shaping for BCC schemes and the like
US8204261B2 (en) 2004-10-20 2012-06-19 Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. Diffuse sound shaping for BCC schemes and the like
EP1817767B1 (en) 2004-11-30 2015-11-11 Agere Systems Inc. Parametric coding of spatial audio with object-based side information
US7787631B2 (en) 2004-11-30 2010-08-31 Agere Systems Inc. Parametric coding of spatial audio with cues based on transmitted channels
KR101236259B1 (ko) 2004-11-30 2013-02-22 에이저 시스템즈 엘엘시 오디오 채널들을 인코딩하는 방법 및 장치
US7903824B2 (en) 2005-01-10 2011-03-08 Agere Systems Inc. Compact side information for parametric coding of spatial audio
DE102005002195A1 (de) * 2005-01-17 2006-07-27 Siemens Ag Verfahren und Anordnung zur Regeneration eines optischen Datensignals
EP2051244A4 (en) * 2006-08-08 2010-04-14 Panasonic Corp AUDIOCODING DEVICE AND AUDIOCODING METHOD
US20100049508A1 (en) * 2006-12-14 2010-02-25 Panasonic Corporation Audio encoding device and audio encoding method
IN2012DN05235A (ja) * 2010-01-08 2015-10-23 Nippon Telegraph & Telephone
WO2012150482A1 (en) * 2011-05-04 2012-11-08 Nokia Corporation Encoding of stereophonic signals
WO2015025454A1 (ja) * 2013-08-22 2015-02-26 パナソニック インテレクチュアル プロパティ コーポレーション オブ アメリカ 音声符号化装置およびその方法
JP6411509B2 (ja) * 2014-07-28 2018-10-24 日本電信電話株式会社 符号化方法、装置、プログラム及び記録媒体
US10127918B1 (en) * 2017-05-03 2018-11-13 Amazon Technologies, Inc. Methods for reconstructing an audio signal

Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH0435527A (ja) * 1990-05-31 1992-02-06 Fujitsu Ltd 多段符号化・復号化方式
JPH04298800A (ja) * 1991-03-08 1992-10-22 Mitsubishi Electric Corp 量子化器
JPH06266399A (ja) * 1993-03-10 1994-09-22 Mitsubishi Electric Corp 符号化装置及び音声符号化復号化装置
JPH07271397A (ja) 1994-04-01 1995-10-20 Toshiba Corp 音声符号化装置
JPH096396A (ja) * 1995-06-16 1997-01-10 Nippon Telegr & Teleph Corp <Ntt> 音響信号符号化方法及び音響信号復号化方法
JPH09214349A (ja) * 1996-01-31 1997-08-15 Toshiba Corp ベクトル量子化方法および音声符号化方法
JPH09281998A (ja) * 1996-04-17 1997-10-31 Nec Corp 音声符号化装置
JPH1020890A (ja) * 1996-07-01 1998-01-23 Matsushita Electric Ind Co Ltd 音声符号化装置および情報記録媒体
JPH1020898A (ja) * 1996-07-01 1998-01-23 Matsushita Electric Ind Co Ltd オーディオ信号圧縮方法,およびオーディオ信号圧縮装置

Family Cites Families (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS6151200A (ja) 1984-08-20 1986-03-13 日本電信電話株式会社 音声信号符号化方式
JPS60217744A (ja) * 1984-04-13 1985-10-31 Nippon Telegr & Teleph Corp <Ntt> 情報割り当てを伴うブロツク符号化法
JP3151874B2 (ja) * 1991-02-26 2001-04-03 日本電気株式会社 音声パラメータ符号化方式および装置
JP2953238B2 (ja) 1993-02-09 1999-09-27 日本電気株式会社 音質主観評価予測方式
JP2624130B2 (ja) * 1993-07-29 1997-06-25 日本電気株式会社 音声符号化方式
US6393391B1 (en) * 1998-04-15 2002-05-21 Nec Corporation Speech coder for high quality at low bit rates
EP0992981B1 (en) * 1996-11-07 2001-11-28 Matsushita Electric Industrial Co., Ltd Excitation Method Generator and Excitation Vector Generating Method
US6014618A (en) * 1998-08-06 2000-01-11 Dsp Software Engineering, Inc. LPAS speech coder using vector quantized, multi-codebook, multi-tap pitch predictor and optimized ternary source excitation codebook derivation
US6823303B1 (en) * 1998-08-24 2004-11-23 Conexant Systems, Inc. Speech encoder using voice activity detection in coding noise
US6311154B1 (en) * 1998-12-30 2001-10-30 Nokia Mobile Phones Limited Adaptive windows for analysis-by-synthesis CELP-type speech coding
US6697430B1 (en) * 1999-05-19 2004-02-24 Matsushita Electric Industrial Co., Ltd. MPEG encoder

Patent Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH0435527A (ja) * 1990-05-31 1992-02-06 Fujitsu Ltd 多段符号化・復号化方式
JPH04298800A (ja) * 1991-03-08 1992-10-22 Mitsubishi Electric Corp 量子化器
JPH06266399A (ja) * 1993-03-10 1994-09-22 Mitsubishi Electric Corp 符号化装置及び音声符号化復号化装置
JPH07271397A (ja) 1994-04-01 1995-10-20 Toshiba Corp 音声符号化装置
JPH096396A (ja) * 1995-06-16 1997-01-10 Nippon Telegr & Teleph Corp <Ntt> 音響信号符号化方法及び音響信号復号化方法
JPH09214349A (ja) * 1996-01-31 1997-08-15 Toshiba Corp ベクトル量子化方法および音声符号化方法
JPH09281998A (ja) * 1996-04-17 1997-10-31 Nec Corp 音声符号化装置
JPH1020890A (ja) * 1996-07-01 1998-01-23 Matsushita Electric Ind Co Ltd 音声符号化装置および情報記録媒体
JPH1020898A (ja) * 1996-07-01 1998-01-23 Matsushita Electric Ind Co Ltd オーディオ信号圧縮方法,およびオーディオ信号圧縮装置

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
FERRER-BALLESTER M A ET AL.: "IMPROVING CELP VOICE QUALITY BY PROJECTION SIMILARITY MEASURE", INTERNATIONAL CONFERENCE ON SPOKEN LANGUAGE PROCESSING, 18 September 1994 (1994-09-18)
INTERNATIONAL CONFERENCE ON SPOKEN LANGUAGE PROCESSING, vol. 4, 18 September 1994 (1994-09-18), pages 2063 - 2066
See also references of EP1339042A4

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101615395B (zh) * 2008-12-31 2011-01-12 华为技术有限公司 信号编码、解码方法及装置、系统
US8515744B2 (en) 2008-12-31 2013-08-20 Huawei Technologies Co., Ltd. Method for encoding signal, and method for decoding signal
US8712763B2 (en) 2008-12-31 2014-04-29 Huawei Technologies Co., Ltd Method for encoding signal, and method for decoding signal

Also Published As

Publication number Publication date
EP1339042A4 (en) 2005-10-12
CN1483188A (zh) 2004-03-17
JP2002132299A (ja) 2002-05-09
EP1339042A1 (en) 2003-08-27
IL155243A0 (en) 2003-11-23
EP1339042B1 (en) 2010-03-24
JP3426207B2 (ja) 2003-07-14
US7203641B2 (en) 2007-04-10
US20040111256A1 (en) 2004-06-10
CN1222926C (zh) 2005-10-12
TW517223B (en) 2003-01-11
DE60141646D1 (de) 2010-05-06

Similar Documents

Publication Publication Date Title
US5864798A (en) Method and apparatus for adjusting a spectrum shape of a speech signal
JP3346765B2 (ja) 音声復号化方法及び音声復号化装置
WO2002035522A1 (fr) Procede et appareil de codage vocal
JP2964879B2 (ja) ポストフィルタ
JP3404024B2 (ja) 音声符号化方法および音声符号化装置
JPH07261797A (ja) 信号符号化装置及び信号復号化装置
JPH08328591A (ja) 短期知覚重み付けフィルタを使用する合成分析音声コーダに雑音マスキングレベルを適応する方法
USRE43190E1 (en) Speech coding apparatus and speech decoding apparatus
JP6366706B2 (ja) スピーチ関連のスペクトル整形情報を使用したオーディオ信号符号化と復号化の概念
JP2016537667A (ja) 確定的及びノイズ状情報を用いてオーディオ信号を符号化/復号化する概念
JPH11184498A (ja) 音声符号化/復号化方法
JP2002196799A (ja) 音声符号化装置及び音声符号化方法
JP3531780B2 (ja) 音声符号化方法および復号化方法
JP3003531B2 (ja) 音声符号化装置
JPH08292797A (ja) 音声符号化装置
JP3089967B2 (ja) 音声符号化装置
JP3192051B2 (ja) 音声符号化装置
JP3047761B2 (ja) 音声符号化装置
JP3578933B2 (ja) 重み符号帳の作成方法及び符号帳設計時における学習時のma予測係数の初期値の設定方法並びに音響信号の符号化方法及びその復号方法並びに符号化プログラムが記憶されたコンピュータに読み取り可能な記憶媒体及び復号プログラムが記憶されたコンピュータに読み取り可能な記憶媒体
JP3954050B2 (ja) 音声符号化装置及び音声符号化方法
JP2658794B2 (ja) 音声符号化方式
JP2001013999A (ja) 音声符号化方法および装置
JPH0720896A (ja) 音声の励振信号符号化法
JP4087429B2 (ja) 音声符号化装置及び音声符号化方法
JP4907677B2 (ja) 音声符号化装置及び音声符号化方法

Legal Events

Date Code Title Description
DFPE Request for preliminary examination filed prior to expiration of 19th month from priority date (pct application filed before 20040101)
121 Ep: the epo has been informed by wipo that ep was designated in this application
WWE Wipo information: entry into national phase

Ref document number: 155243

Country of ref document: IL

WWE Wipo information: entry into national phase

Ref document number: 2001919951

Country of ref document: EP

WWE Wipo information: entry into national phase

Ref document number: 10398808

Country of ref document: US

WWE Wipo information: entry into national phase

Ref document number: 01821214X

Country of ref document: CN

WWP Wipo information: published in national office

Ref document number: 2001919951

Country of ref document: EP