WO2002059877A1 - Appareil de traitement de donnees - Google Patents

Appareil de traitement de donnees Download PDF

Info

Publication number
WO2002059877A1
WO2002059877A1 PCT/JP2002/000491 JP0200491W WO02059877A1 WO 2002059877 A1 WO2002059877 A1 WO 2002059877A1 JP 0200491 W JP0200491 W JP 0200491W WO 02059877 A1 WO02059877 A1 WO 02059877A1
Authority
WO
WIPO (PCT)
Prior art keywords
data
tap
prediction
predetermined
code
Prior art date
Application number
PCT/JP2002/000491
Other languages
English (en)
French (fr)
Inventor
Tetsujiro Kondo
Hiroto Kimura
Tsutomu Watanabe
Masaaki Hattori
Original Assignee
Sony Corporation
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Sony Corporation filed Critical Sony Corporation
Priority to US10/239,135 priority Critical patent/US7269559B2/en
Priority to KR1020027012612A priority patent/KR100875784B1/ko
Priority to EP02716353A priority patent/EP1355297B1/en
Priority to DE60222627T priority patent/DE60222627T2/de
Publication of WO2002059877A1 publication Critical patent/WO2002059877A1/ja

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/06Determination or coding of the spectral characteristics, e.g. of the short-term prediction coefficients
    • G10L19/07Line spectrum pair [LSP] vocoders
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/08Determination or coding of the excitation function; Determination or coding of the long-term prediction parameters
    • G10L19/12Determination or coding of the excitation function; Determination or coding of the long-term prediction parameters the excitation function being a code excitation, e.g. in code excited linear prediction [CELP] vocoders

Definitions

  • the present invention relates to a data processing apparatus, and more particularly to a data processing apparatus that can decode, for example, speech encoded by CELP (Code Excited Liner Prediction coding) into high-quality speech.
  • CELP Code Excited Liner Prediction coding
  • 1 and 2 show a configuration of an example of a conventional mobile phone.
  • FIG. 1 shows a transmitting unit that performs a transmitting process
  • FIG. 2 shows a receiving unit that performs a receiving process.
  • the voice uttered by the user is input to a microphone (microphone) 1, where it is converted into an audio signal as an electric signal, and the A / D (Analog / Digital) conversion unit Supplied to 2.
  • the A / D converter 2 A / D converts the analog audio signal from the microphone 1 into a digital audio signal by sampling at a sampling frequency of, for example, 8 kHz.
  • the result is quantized by the number and supplied to the arithmetic unit 3 and the LPC (Liner Prediction Coefficient) analysis unit 4.
  • the vector quantization unit 5 stores a codebook in which code vectors each having a linear prediction coefficient as an element are associated with a code.
  • the feature vector from the LPC analysis unit 4 is stored.
  • is vector-quantized, and a code obtained as a result of the vector quantization (hereinafter, appropriately referred to as ⁇ code (A-code)) is supplied to the code determination unit 15.
  • A-code a code obtained as a result of the vector quantization
  • the vector quantization unit 5 sends the linear prediction coefficients H 2 , H 2 ′, ... , ⁇ ⁇ ⁇ ⁇ , which constitute the code vector ⁇ ′ corresponding to the A code, to the speech synthesis filter 6. Supply.
  • IIR Infinite Impulse Response
  • the LPC analysis performed by the LPC analysis unit 4 includes (a sample value of) the audio signal s n at the current time n and the past P sample values s ⁇ , s n _ 2 , ⁇ ⁇ ⁇ , S ⁇ — ⁇
  • ⁇ e n ⁇ ( ⁇ ⁇ ⁇ , e n - have e n, e n + 1, ⁇ ⁇ ⁇ ) is the average value is 0, the dispersion of the predetermined value sigma 2
  • the speech synthesis filter 6 uses the linear prediction coefficient ⁇ ⁇ ′ from the vector quantization unit 5 as a tap coefficient, and the residual signal e supplied from the arithmetic unit 14 as an input signal. Calculate equation (4) to find the voice signal (synthesized sound data) ss.
  • the synthesized sound signal output by the voice synthesis filter 6 is not basically the same as the voice signal output by the A / D converter 2.
  • the synthesized sound data ss output from the voice synthesis filter 6 is supplied to the arithmetic unit 3.
  • the arithmetic unit 3 subtracts the audio signal s output from the AZD conversion unit 2 from the synthetic sound data ss from the sound synthesis filter 6 (from each sample of the synthetic sound data ss, The sample of the audio data s corresponding to the pull is subtracted), and the subtracted value is supplied to the square error calculator 7.
  • the square error calculator 7 calculates the sum of squares of the subtraction value from the calculator 3 (the sum of squares of the subtraction value of each sample value of the subframe), and determines the resulting square error as the minimum square error determination unit.
  • Supply 8
  • the minimum squared error determination unit 8 correlates the squared error output by the squared error calculation unit 7 with an L code (L-code) representing a long-term prediction lag, and a G code (L code as a code representing a gain). G_code) and an I code (code) representing a codeword (excitation codebook).
  • L code L-code
  • G_code G code
  • I code code representing a codeword
  • the L code, the G code, the L code corresponding to the square error output by the square error calculation unit 7 are stored. And output L code.
  • the L code is supplied to the adaptive codebook storage unit 9, the G code is supplied to the gain decoder 10, and the I code is supplied to the excitation codebook storage unit 11. Further, the L code, the G code, and the I code are also supplied to a code determination unit 15.
  • the adaptive codebook storage unit 9 stores, for example, an adaptive codebook in which a 7-bit L code is associated with a predetermined delay time (lag), and stores the residual signal e supplied from the arithmetic unit 14. Then, it is delayed by the delay time (long-term prediction lag) associated with the L code supplied from the square error minimum determination unit 8 and output to the computing unit 12.
  • the adaptive codebook storage unit 9 outputs the residual signal e with a delay corresponding to the time corresponding to the L code, the output signal is close to a periodic signal having a period of the soma 'delay time.
  • This signal is mainly used as a driving signal for generating a synthesized voiced voice in speech synthesis using linear prediction coefficients. Therefore, the L code conceptually represents the pitch period of the voice. According to the CELP standard, the L code takes an integer value in the range of 20 to 146.
  • the gain decoder 10 stores a table in which a G code is associated with a predetermined gain; 8 and r, and is associated with the G code supplied from the square error minimum determination unit 8. Gain] 3 and r are output.
  • the gains) 3 and ⁇ are supplied to computing units 12 and 13, respectively.
  • the gain j8 is what is called the long-term filter state output gain
  • the gain ⁇ is what is called the excitation codebook gain. is there.
  • the excitation codebook storage unit 11 stores, for example, an excitation codebook that associates a 9-bit I code with a predetermined excitation signal, and stores the excitation codebook in the I code supplied from the square error minimum determination unit 8.
  • the associated excitation signal is output to arithmetic unit 13.
  • the excitation signal stored in the excitation codebook is, for example, a signal close to white noise or the like, and is mainly used for generating unvoiced synthesized voice in speech synthesis using linear prediction coefficients. Signal.
  • the arithmetic unit 12 multiplies the output signal of the adaptive codebook storage unit 9 by the gain 3 output by the gain decoder 10, and supplies the multiplied value 1 to the arithmetic unit 14.
  • the arithmetic unit 13 multiplies the output signal of the excitation codebook storage unit 11 by the gainer output by the gain decoder 10 and supplies the multiplied value n to the arithmetic unit 14.
  • the computing unit 14 adds the multiplication value 1 from the computing unit 12 and the multiplication value n from the computing unit 13, and uses the sum as the residual signal e as the speech synthesis filter 6 and the adaptive codebook. It is supplied to the storage unit 9.
  • the residual signal e supplied from the arithmetic unit 14 is filtered by the IIR filter having the linear prediction coefficient supplied from the vector quantization unit 5 as a tap coefficient,
  • the synthesized sound data obtained as a result is supplied to the arithmetic unit 3.
  • the same processing as described above is performed, and the square error obtained as a result is supplied to the square error minimum determiner 8.
  • the square error minimum determination unit 8 determines whether the square error from the square error calculation unit 7 has become minimum (minimum). When the square error minimum determination unit 8 determines that the square error is not minimized, it outputs the L code, the G code, and the L code corresponding to the square error as described above. A similar process is repeated. On the other hand, when determining that the square error has become minimum, the square error minimum determination unit 8 outputs a determination signal to the code determination unit 15.
  • the code determination unit 15 latches the A code supplied from the vector quantization unit 5, and The supplied L code, G code, and I code are sequentially latched. When a decision signal is received from the square error minimum judgment unit 8, the A code, L code, G code, And the I code to channel encoder 16.
  • the channel encoder 16 multiplexes the A code, the L code, the G code, and the I code from the code determination unit 15 and outputs them as a code. This code data is transmitted via a transmission path.
  • the code decoding is a coding decoding in which A code, L code, G code, and I code, which are information used for decoding, are provided for each subframe.
  • a code, L code, G code, and I code are assumed to be obtained for each subframe.For example, for A code, it may be obtained for each frame. In this case, The same A code is used to decode the four subframes that make up that frame. However, even in this case, it can be seen that each of the four subframes that make up that one frame has the same A code, and by thinking like that, the code data is used for decoding.
  • a code, L code, G code, and I code, which are information to be obtained, can be regarded as encoded data having each subframe unit.
  • FIG. 1 the same applies to FIG. 2, FIG. 5, FIG. 9, FIG. 11, FIG. 16, FIG. 16, FIG. 18 and FIG.
  • [k] is added to each variable, It is an array variable. This k represents the number of subframes, but the description is omitted as appropriate in the specification.
  • the code data transmitted from the transmission unit of another mobile phone is represented by the code shown in FIG.
  • the channel decoder 21 separates the L code, G code, I code, and A code from the code, and stores them in the adaptive codebook storage unit 22, the gain decoder 23, and the excitation codebook.
  • the section 24 supplies the filter coefficient decoder 25.
  • the adaptive codebook storage 22, the gain decoder 23, the excitation codebook storage 24, and the calculators 26 to 28 are the adaptive codebook storage 9 and the gain decoder 1 in FIG. 0, the excitation codebook storage unit 11 and the arithmetic units 12 to 14 are each configured in the same manner.
  • the L code, the G code, and the The I code is decoded into a residual signal e.
  • the residual signal e is provided as an input signal to the voice synthesis filter 29.
  • the filter coefficient decoder 25 stores the same codebook as that stored in the vector quantization unit 5 in FIG. 1, and decodes the A code into a linear prediction coefficient and a speech synthesis filter.
  • the speech synthesis filter 29 has the same configuration as that of the speech synthesis filter 6 in FIG. 1.
  • the 'linear prediction coefficient ⁇ ⁇ ' from the filter coefficient decoder 25 is used as a tap coefficient, and the Equation (4) is calculated using the supplied residual signal e as an input signal, thereby generating synthetic sound data when the square error is determined to be the minimum in the square error minimum determination unit 8 in FIG. .
  • This synthesized sound data is supplied to a DZA (Digital / Analog) converter 30.
  • the D / A converter 30 converts the synthesized sound data from the sound synthesis filter 29 from a digital signal to an analog signal by DZA conversion, and supplies the analog signal to the speaker 31 for output.
  • the receiving unit in Fig. 2 uses the frame to decode all four subframes that make up the frame.
  • interpolation is performed for each subframe using the linear prediction coefficient corresponding to the A code in the adjacent frame, and the result of the interpolation is obtained.
  • the obtained linear prediction coefficients can be used for decoding each subframe.
  • the residual signal and the linear prediction coefficient as the input signal provided to the speech synthesis filter 29 of the receiving unit are coded and transmitted.
  • the code is decoded into a residual signal and linear prediction coefficients.
  • decoded residual signals and linear prediction coefficients include errors such as quantization errors, speech is subjected to LPC analysis. Between the residual signal obtained by do not do.
  • the synthesized sound output from the sound synthesis filter 29 of the receiving unit has distortion and the like and deteriorated sound quality. Disclosure of the invention
  • the present invention has been made in view of such a situation, and it is an object of the present invention to obtain a high-quality synthesized sound and the like.
  • the first data processing device extracts a predetermined data from the predetermined data according to the cycle information for the data of interest, and uses the data for predetermined processing. It is characterized by comprising a tap generating means for generating a tap, and a processing means for performing a predetermined process on the target data using the tap.
  • the first data processing method is used for a predetermined process by extracting a predetermined data according to the period information for a target data of interest among predetermined data. It is characterized by comprising a tap generating step of generating a tap, and a processing step of performing a predetermined process on the data of interest using the tap.
  • a tap for generating a tap to be used for a predetermined process by extracting predetermined data according to period information based on data of interest in a predetermined data It is characterized by comprising a generating step and a processing step of performing a predetermined process on the data of interest by using a tap.
  • the predetermined processing is performed by extracting the predetermined data according to the cycle information with respect to the focused data of the predetermined data.
  • a program including a tap generating step of generating a tap to be used, and a processing step of performing a predetermined process on target data using the tap is recorded.
  • a second data processing device includes: student data generating means for generating predetermined data and period information from teacher data serving as a learning teacher as student data serving as a learning student; Attention data of interest out of the predetermined data as In addition, by extracting a predetermined data according to the period information, a prediction tap generation means for generating a prediction tap used for predicting the teacher data, and a prediction tap and a tap coefficient are calculated. Learning means for learning so as to statistically minimize the prediction error of the prediction value of the teacher data obtained by performing a predetermined prediction operation, and for calculating a tap coefficient. .
  • a second data processing method includes a student data generating step of generating a predetermined data and period information from a teacher data as a learning teacher as student data as a learning student.
  • the prediction data used for predicting the teacher data is obtained.
  • the prediction error of the prediction value of the evening prediction value obtained by performing a predetermined prediction operation using the prediction step generation step for generating the prediction tap and the prediction step and the tap coefficient is statistically calculated.
  • a learning step of performing learning so as to minimize it and obtaining a tap coefficient.
  • a second program includes: a student data generation step for generating predetermined data and period information from teacher data as learning teachers as student data as learning students; and By extracting the predetermined data according to the period information with respect to the attention data of interest among the predetermined data, a prediction tap for generating a prediction tap used for predicting the teacher data is extracted. Learning is performed so that the prediction error of the prediction value of the teacher data obtained by performing a predetermined prediction operation using the prediction generation step, the prediction step and the tap coefficient is statistically minimized, And a learning step for obtaining tap coefficients.
  • a second recording medium includes: a student data generating step of generating predetermined data and periodic information from teacher data as a learning teacher as student data as a learning student; A prediction tap generating step of generating a prediction tap used for predicting teacher data by extracting predetermined data according to the period information from the data of interest of the data of interest. Of the teacher data obtained by performing a predetermined prediction operation using the tap and the tap coefficient. A learning step is performed so that learning is performed so that the prediction error of the predicted value is statistically minimized, and a learning step of obtaining a tap coefficient is recorded.
  • predetermined data is extracted from data of interest among the predetermined data according to the cycle information.
  • a tap used for a predetermined process is generated, and the predetermined process is performed on the target data using the tap.
  • predetermined data and periodic information are obtained from the teacher data serving as a learning teacher by a student data serving as a learning student. Is generated as Then, by extracting predetermined data according to the period information from the data of interest among the predetermined data as the student data, the prediction data used for predicting the teacher data is extracted. Learning is performed so that the prediction error of the predicted value of the teacher data obtained by performing a predetermined prediction operation using the prediction tap and the tap coefficient is statistically minimized. A coefficient is determined.
  • FIG. 1 is a block diagram showing a configuration of an example of a transmitting section of a conventional mobile phone.
  • FIG. 2 is a block diagram showing a configuration of an example of a receiving section of a conventional mobile phone.
  • FIG. 3 is a diagram showing a configuration example of an embodiment of a transmission system to which the present invention is applied.
  • Figure 4 is a block diagram showing a configuration of a mobile phone 1 0 1, and 1 0 1 2.
  • FIG. 5 is a block diagram showing a first configuration example of the receiving unit 114. As shown in FIG.
  • FIG. 6 is a flowchart for explaining the processing of the receiving unit 114 in FIG.
  • FIG. 7 is a diagram illustrating a method of generating a prediction tap and a class tap.
  • FIG. 8 is a diagram illustrating a method of generating a prediction tap and a class tap.
  • FIG. 9 is a block diagram showing a configuration example of a first embodiment of a learning device to which the present invention has been applied.
  • FIG. 10 is a flowchart illustrating the processing of the learning device in FIG.
  • FIG. 11 is a block diagram showing a second configuration example of the receiving unit 114. As shown in FIG.
  • FIGS. 12A to 12C are diagrams showing the transition of the waveform of the synthesized sound data.
  • FIG. 13 is a block diagram showing a configuration example of the tap generation units 301 and 302.
  • FIG. 14 is a flowchart illustrating the processing of the tap generation units 301 and 302.
  • FIG. 15 is a block diagram showing another configuration example of the tap generation units 301 and 302.
  • FIG. 16 is a block diagram illustrating a configuration example of a second embodiment of the learning device to which the present invention has been applied.
  • FIG. 17 is a block diagram illustrating a configuration example of the tap generation units 32 1 and 32 2.
  • FIG. 18 is a block diagram showing a third configuration example of the receiving unit 114. As shown in FIG.
  • FIG. 19 is a flowchart illustrating the processing of the receiving unit 114 in FIG.
  • FIG. 20 is a block diagram illustrating a configuration example of the tap generation units 341 and 342.
  • FIG. 21 is a block diagram illustrating a configuration example of a third embodiment of the learning device to which the present invention has been applied.
  • FIG. 22 is a flowchart illustrating the processing of the learning device in FIG.
  • FIG. 23 is a block diagram showing a configuration example of an embodiment of a computer to which the present invention is applied.
  • FIG. 3 shows one embodiment of a transmission system to which the present invention is applied (a system refers to a device in which a plurality of devices are logically assembled, and it does not matter whether or not the devices of each configuration are in the same housing). The configuration of the embodiment is shown.
  • the mobile phone 1 0 1, and 1 0 1 2, the base station 1 0 2, and 1 0 2 2 between each performs transmission and reception by radio, the base station 1 0 2, and 1 0 2 2 respectively, by performing the transmission and reception to and from the switching station 1 0 3, in the end, Mobile phone 1 0 1, and between the 1 0 1 2, the base station 1 0 2, and 1 0 2 2 via the switching center 1 0 3 in parallel beauty, to be able to transmit and receive voice summer ing.
  • the base station 1 0 2 i and 1 0 2 2 may be the same base station, or may be a different base station.
  • mobile phone 1 0 1, and 1 0 1 2 the mobile phone 1 0 1.
  • FIG. 4 shows a configuration example of the mobile phone 101 of FIG.
  • voice transmission / reception is performed by the CELP method.
  • the antenna 1 1 1 receives the radio waves from the base station 1 0 2 t or 1 0 2 2, the received signal, and supplies the modem unit 1 1 2, signals from the modem unit 1 1 2 a radio wave, and transmits to the base station 1 0 2 or 1 0 2 2,.
  • the modulation / demodulation unit 112 demodulates the signal from the antenna 111, and supplies the resulting code as described in FIG. 1 to the reception unit 114.
  • the modulation / demodulation ⁇ 1 12 modulates the code data supplied from the transmission section 113 as described with reference to FIG. 1, and supplies the resulting modulated signal to the antenna 111.
  • the transmission section 113 is configured in the same way as the transmission section shown in FIG.
  • the receiving unit 114 receives the code data from the modulation / demodulation unit 112, decodes it by the CELP method, and further decodes and outputs high-quality sound.
  • the class classification adaptation process includes a class classification process and an adaptation process.
  • the class classification process classifies data into classes based on their properties, and performs an adaptation process for each class.
  • the processing is based on the following method. That is, in the adaptive processing, for example, a predicted value of a high-quality sound is obtained by a linear combination of a synthesized sound and a predetermined tap coefficient.
  • high-quality voice (sample value of) is used as training data, and the high-quality voice is converted into L-code, G-code, I-code, and A-code by the CELP method.
  • High-quality audio that is used as teacher data for student data using synthesized speech obtained by encoding into codes and decoding those codes by the receiver shown in Fig. 2.
  • the predicted value E [y] of y is calculated by a linear combination of a set of (sampling values) x ,, x 2 , ⁇ ⁇ and a predetermined tap coefficient w ,, w 2 ⁇ ⁇ ⁇ ⁇ Let's consider finding it using a specified linear linear combination model. In this case, the predicted value E [y] can be expressed by the following equation.
  • Equation (6) matrix W consisting of a set of tap coefficients, matrix X consisting of a set of student data Xij, and prediction A matrix Y ′ consisting of a set of values E [ yj ] is given by
  • the component of the matrix X is the i-th student data set (the set of student data used for predicting the i-th teacher data): means the i-th student data,
  • the component Wj of W represents a tap coefficient by which a product with the j-th student data in the set of student data is calculated.
  • Yi represents the i-th teacher data, and
  • E [y,] represents the predicted value of the i-th teacher data.
  • the type coefficient Wj for finding the predicted value E [y] close to the original high-quality sound y is the square error
  • the tap coefficient Wj that satisfies the following equation immediately determines the predicted value E [y] that is close to the original high-quality sound y. This is the optimal value.
  • equation (1 2) Note that the normal equation shown in equation (1 2) is a matrix (covariance matrix) A and vector V
  • each normal equation in equation (1 2) can be made as many as the number J of tap coefficients Wj to be obtained.
  • the matrix A in equation (13) needs to be regular).
  • the tap coefficients here, tap coefficients that minimize the square error
  • an audio signal sampled at a high sampling frequency or an audio signal to which many pits are assigned is used as the teacher data, and the audio signal as the teacher data is thinned out or the low bit rate is used as the student data.
  • the speech signal re-quantized in step 2 is encoded by the CELP method and a synthesized sound obtained by decoding the encoding result is used
  • the tap coefficient may be an audio signal sampled at a high sampling frequency or a multi-bit
  • the prediction error is statistically minimized. Therefore, in this case, it is possible to obtain a synthesized sound of higher sound quality.
  • the synthesized speech obtained by decoding the code data is further decoded into high-quality speech by the above-described classification adaptive processing.
  • FIG. 5 illustrates a first configuration example of the receiving unit 114 in FIG.
  • parts corresponding to those in FIG. 2 are denoted by the same reference numerals, and a description thereof will be omitted as appropriate below.
  • the tap generators 1 2 1 and 1 2 2 output the synthesized speech data for each sub-frame output from the speech synthesis filter 29 and the L code, G code, and I output for each sub-frame output from the channel decoder 21. Code and L code of A code are supplied.
  • the tap generators 1 2 1 and 1 2 2 are used as prediction taps used for predicting a predicted value of high-quality sound from the synthetic sound data supplied thereto, and as class taps used for class classification. Items are extracted based on the L code.
  • the prediction tap is supplied to the prediction unit 125, and the class tap is supplied to the class classification unit 123.
  • the class classification unit 123 performs a class classification based on the class tap supplied from the tap generation unit 122, and supplies a class code as a result of the classification to the coefficient memory 124.
  • a method of class classification in the class classification unit 123 for example, there is a method using a K-bit ADRC (Advertise Dynamic Range Coding) process.
  • the maximum value MAX and the minimum value MIN of the data constituting the class tap are detected, and DR-MAX-MIN is set as the local dynamic range of the set.
  • each data constituting the class tap is requantized to K bits. That is, from Isseki the de that make up the class taps, the minimum value MIN is subtracted, and the subtracted value is divided (quantized) by DR / 2 K. Then, a bit string obtained by arranging the K-bit values of the respective data constituting the class tap in a predetermined order is output as an ADRC code.
  • an ADRC code obtained as a result of the K-bit ADRC processing can be used as a class code.
  • class classification can be performed by, for example, treating the class tap as a vector having the elements of each element constituting the class tap and performing vector quantization on the class tap as the vector. It is.
  • the coefficient memory 124 stores a tap coefficient for each class obtained by performing a learning process in the learning device of FIG. 9 described later, and corresponds to a class code output from the class classification unit 123.
  • the tap coefficient stored in the address to be supplied is supplied to the prediction unit 125.
  • the prediction unit 125 obtains the prediction tap output from the tap generation unit 122 and the tap coefficient output from the coefficient memory 124, and uses the prediction tap and the tap coefficient to obtain an equation ( Perform the linear prediction operation shown in 6). In this way, the prediction unit 125 obtains (a predicted value of) high-quality sound for the target subframe of interest and supplies it to the DZA conversion unit 30.
  • the channel decoder 21 separates the L code, the G code, the I code, and the A code from the code data supplied thereto, and separates them into an adaptive codebook storage unit 22, a gain decoder 23, an excitation It is supplied to a codebook storage unit 24 and a filter coefficient decoder 25.
  • the L code is also supplied to evening generators 122 and 122.
  • the adaptive codebook storage unit 22, the gain decoder 23, the excitation codebook storage unit 24, and the arithmetic units 26 to 28 perform the same processing as in FIG. , G code, and I code are decoded into a residual signal e. This residual signal is supplied to the speech synthesis filter 29.
  • the filter coefficient decoder 25 decodes the supplied A code into a linear prediction coefficient and supplies it to the speech synthesis filter 29.
  • the speech synthesis filter 29 performs speech synthesis using the residual signal from the arithmetic unit 28 and the linear prediction coefficient from the filter coefficient decoder 25, and synthesizes the resulting synthesized sound into a tap generation unit 1 Feed 2 1 and 1 2 2
  • the tap generation unit 121 sequentially sets the subframes of the synthetic sound sequentially output by the speech synthesis filter 29 as a subframe of interest, and in step S1, extracts the synthetic sound data of the subframe of interest, and A prediction tap is generated by extracting temporally past or future synthetic sound data from the target subframe based on the L-code supplied thereto, and generating a prediction tap. Supply. Further, in step S1, the tap generation unit 122 extracts, for example, the synthetic sound data of the subframe of interest, and the synthesized sound data in the past direction or the future direction as viewed from the subframe of interest. A class tap is generated by extracting the data based on the L code supplied thereto, and is supplied to the classifying unit 123.
  • step S2 the class classifying unit 123 classifies the class based on the class taps supplied from the tap generating unit 122, and stores the resulting class code in the coefficient memory 1 2 4 and go to step S3.
  • step S3 the coefficient memory 124 reads the tap coefficient from the address corresponding to the class code supplied from the class classification unit 123 and supplies the tap coefficient to the prediction unit 125.
  • step S4 the prediction unit 125 obtains the tap coefficient output from the coefficient memory 124, and uses the tap coefficient and the prediction tap from the tap generation unit 122 to obtain an equation.
  • the product-sum operation shown in (6) is performed to obtain (predicted value) of the high-quality sound of the subframe of interest.
  • steps S1 to S4 are performed using the sample values of the synthesized sound data of the subframe of interest as the data of interest. That is, since the synthesized sound data of the sub-frame is composed of 40 samples as described above, the processes of steps S1 to S4 are performed on each of the synthesized sound data of the 40 samples.
  • the high-quality sound data obtained as described above is supplied from the prediction unit 125 to the speaker 31 via the DZA conversion unit 30. As a result, the speaker 31 outputs High quality sound is output.
  • step S4 the process proceeds to step S5, and it is determined whether there is still a subframe to be processed as the subframe of interest. If it is determined that there is a subframe, the process returns to step S1 and then the process proceeds to step S1. A subframe to be set as a subframe is newly set as an attention subframe, and the same processing is repeated hereafter. If it is determined in step S5 that there is no subframe to be processed as the subframe of interest, the process ends.
  • the tap generation unit 1221 extracts 40 samples of synthesized sound data in the subframe of interest, and is arranged from the subframe of interest to the subframe of interest. Extract 40 samples of synthesized sound data (hereinafter referred to as lag-corresponding past data as appropriate) starting from the past position of the lag represented by the L code, and use it as a prediction tap for the data of interest.
  • the tap generation unit 1221 extracts the synthesized sound data of 40 samples of the subframe of interest, and focuses on the past position only by the lag represented by the L code.
  • L code synthesized sound data
  • the tap generation unit 122 1 extracts, for example, synthesized sound data of the target subframe, past data corresponding to the lag, and future data corresponding to the lag, and sets them as prediction taps for the target data.
  • the synthesized sound data of the sub-frame other than the target sub-frame as well as the synthesized sound data of the sub-frame other than the target sub-frame are used as prediction taps, so that higher sound quality can be obtained. It is thought that voice can be obtained.
  • the prediction tap may be simply composed of the synthesized sound data of the subframe immediately before and after the subframe of interest, in addition to the synthesized sound data of the subframe of interest.
  • the configuration of the prediction tap is as follows. Since the method does not take into account the waveform characteristics of the synthesized sound data, the sound quality is expected to be affected accordingly.
  • the tap generation unit 1221 extracts the synthetic sound data to be used as the prediction tap based on the L-code.
  • the lag (long-term prediction lag) represented by the L code placed in the subframe indicates at which point in the past the waveform of the synthesized sound in the focused portion of the sound is similar to the waveform of the synthesized sound.
  • the waveform of the portion of the target data and the waveform of the portion of the future data corresponding to the lag corresponding to the lag have a large correlation.
  • the prediction tap is set to the synthesized sound data of the subframe of interest and the synthesized sound data
  • the prediction tap is set to the synthesized sound data of the subframe of interest and the synthesized sound data
  • the tap generation unit 122 of FIG. 5 for example, similarly to the case of the tap generation unit 122, the synthesized sound data of the subframe of interest and the lag-compatible past data or the lag-compatible future It is possible to generate a cluster from one or both of the data, and this is the case in the embodiment of FIG.
  • the configuration patterns of the prediction taps and the class taps are not limited to those described above. That is, the prediction taps and class taps include all synthesized sound data of the subframe of interest, include only synthesized sound data of every other sample, etc. It is possible to include, for example, the synthesized sound data of the subframe at the past position only by the lag indicated by the L-code placed at the subframe from the subframe at the past position only by the lag indicated by the code. It is.
  • the class tap and the prediction tap have the same configuration.
  • the class tap and the prediction tap can have different configurations.
  • the L-code in which the position in the past by the lag represented by the L-code is the position of the synthetic sound data (for example, the note of interest, etc.) in the note-taking frame is arranged.
  • the synthesized sound data of 40 samples arranged in the subframe in the future direction viewed from the frame is included in the prediction tap as future data for lag, but other future data for lag are For example, it is also possible to use the following synthesized sound data.
  • the L code included in the encoded data in the CELP method indicates the position of the past synthesized sound data similar to the waveform of the synthesized sound data of the subframe in which the L code is arranged.
  • the encoded data includes an L code indicating the position of a similar waveform in the past and an L code indicating the position of a similar waveform in the future (hereinafter referred to as L code).
  • L code L code indicating the position of a similar waveform in the future
  • the future L code referred to as the future L code.
  • the future data corresponding to the lag for the target data one or more samples starting from the synthesized sound data located at the future position by the lag represented by the future L code arranged in the target subframe. Can be used.
  • FIG. 9 illustrates a configuration example of an embodiment of a learning device that performs a learning process of a tap coefficient stored in the coefficient memory 124 of FIG.
  • the microphones 201 to the code determination unit 215 are configured similarly to the microphones 1 to the code determination unit 15 of FIG.
  • the microphone 1 receives a learning audio signal, so that the microphone 201 through the code determination unit 215 receive the learning audio signal as shown in FIG. Similar processing is performed.
  • the code determination unit 215 extracts the synthesized sound data that constitutes the prediction map / cluster map in the present embodiment from the L code, the G code, the I code, and the A code. Output only the L code used to do this.
  • the tap generators 13 1 and 13 2 output the synthesized sound output by the speech synthesis filter 206 when the square error is determined to be the minimum by the square error minimum determiner 208. De night is supplied. Further, the tap generators 1 3 1 and 1 32 are also supplied with an L code which is output when the code determiner 2 15 receives a decision signal from the minimum square error determiner 2 08. .
  • the audio data output from the AZD conversion unit 202 is supplied to the normal equation addition circuit 134 as teacher data.
  • the tap generation unit 13 1 is the same as the tap generation unit 12 1 of FIG. 5 based on the L code output by the code determination unit 2 15 from the synthesized sound data output by the speech synthesis filter 206. Is generated and supplied to the normal equation addition circuit 13 4 as student data.
  • the tap generation unit 132 is also the same as the tap generation unit 122 of FIG. 5 based on the synthesized code data output by the speech synthesis filter 206 and based on the L code output by the code determination unit 215. Is generated, and supplied to the classifying unit 13 3.
  • the class classification unit 1 3 3 is based on the class tap from the tap generation unit 1 3 2, Classification is performed in the same manner as in the case of the classification unit 123 in FIG. 5, and the resulting class code is supplied to the normal equation addition circuit 134.
  • the normal equation adding circuit 1 3 4 receives the audio data from the A / D converter 2 0 2 as the teacher data, and also receives the prediction tap from the tap generator 1 3 1 as the student data, and receives the teacher data. For the data and student data, add the class code from Class Classification Division 133 to each class code.
  • the normal equation addition circuit 13 4 uses the prediction tap (student data) for each class corresponding to the class code supplied from the class classification section 13 3, and calculates each component in the matrix A of the equation (13). Performs operations equivalent to multiplication (x in x ini ) of student data and sharks ( ⁇ ).
  • the normal equation addition circuit 13 4 also uses the student data and the teacher data for each class corresponding to the class code supplied from the class classification section 13 3, and the vector of the expression (1 3) Performs operations equivalent to multiplication (x in yi) of student data and teacher data (x in yi) and sharks ( ⁇ ), which are the components in V.
  • the normal equation addition circuit 13 4 adds the above addition to all the subframes of the audio data for learning supplied thereto as subframes of interest, and uses all the audio data of the subframe of interest as data of interest. Then, for each class, the normal equation shown in equation (13) is established.
  • the tap coefficient determination circuit 135 calculates the tap coefficient for each class by solving the normal equation generated for each class in the normal equation addition circuit 134, and corresponds to each class in the coefficient memory 136. Supply address.
  • the normal equation addition circuit 134 may have a class in which the number of normal equations required for obtaining the tap coefficients cannot be obtained.
  • the tap coefficient determining circuit 135 outputs, for example, a default tap coefficient for such a class.
  • the coefficient memory 1336 stores the tap coefficient for each class supplied from the tap coefficient determination circuit 135 at an address corresponding to the class.
  • a learning audio signal is supplied to the learning device.
  • teacher data and student data are generated from the learning audio signal.
  • the audio signal for learning is input to the microphone 201, and the microphones 201 to the code determination unit 215 are the same as those in the microphone 1 to the code determination unit 15 in FIG. Is performed.
  • the audio data of the digital signal obtained by the AZD converter 202 is supplied to the normal equation adding circuit 134 as teacher data.
  • the squared error minimum determination unit 208 determines that the squared error is minimized
  • the synthesized sound data output from the voice synthesis filter 206 is output to the tap generation unit 13 as student data. Supplied to 1 and 1 32.
  • the L code output from the code determination unit 215 is also used as the student data as tap generation units 13 1 and 13 Supplied to 2.
  • step S12 the tap generation unit 1331 sets the subframe of the synthesized sound supplied as the student data from the speech synthesis filter 206 as the subframe of interest, and furthermore, The synthesized sound data is sequentially set as the attention data, and for each data of interest, the synthesized sound data from the speech synthesis filter 206 is used, based on the L code from the code determination unit 215. In the same manner as in the tap generation section 121 of FIG. 5, a prediction tap is generated and supplied to the normal equation addition circuit 134. Further, in step S12, the tap generation unit 132 also uses the synthesized sound data—evening, based on the L code, in the same manner as in the case of the tap generation unit 122 in FIG. A tap is generated and supplied to the classifying unit 13 3.
  • step S12 the process proceeds to step S13, in which the classifying unit 133 performs the classifying based on the class taps from the tap generating unit 132, and obtains the resulting class code. Is supplied to the normal equation addition circuit 1 3 4.
  • step S 14 the normal equation adding circuit 1 3 4 includes the AZD converter
  • the training audio data that is the high-quality audio data as the teacher data from 202
  • the data corresponding to the target data among the learning audio data, and the predicted taps as the student data from the tap generation unit 132 are targeted.
  • the above-described addition of the matrix A and the vector V in Expression (13) is performed for each class code of the data of interest from the class classification unit 133, and the process proceeds to step S15.
  • step S15 it is determined whether there is any subframe to be processed as the subframe of interest. If it is determined in step S15 that there is still a subframe to be processed as the target subframe, the process returns to step S11, and the next subframe is newly set as the target subframe. Is repeated.
  • step S15 If it is determined in step S15 that there is no subframe to be processed as the subframe of interest, the process proceeds to step S16, where the tap coefficient determination circuit 135 receives the normal equation addition circuit 134. By solving the normal equation generated for each class, a tap coefficient is obtained for each class, supplied to an address corresponding to each class in the coefficient memory 1336, stored, and the processing is terminated.
  • the tap coefficients for each class stored in the coefficient memory 1336 are stored in the coefficient memory 124 of FIG.
  • the tap coefficient stored in the coefficient memory 124 in FIG. 5 is such that the prediction error (square error) of the high-quality sound predicted value obtained by performing the linear prediction operation is statistically minimized. Therefore, the speech output by the prediction unit 125 in FIG. 5 has high sound quality.
  • the prediction taps and the class taps are configured from the synthesized sound data output from the speech synthesis filter 206.
  • I code, L code, G code, A code, linear prediction coefficient a p obtained from A code, gain / 3, T obtained from G code, other , L code, G code, I code, or ⁇ code for example, the residual signal e or the residual signal e N to obtain, and further one or more of 1 ⁇ , ⁇ , etc.
  • code data as encoded data may include list interpolation bits / frame energy, etc.
  • prediction taps and class taps include soft interpolation pits and frame energies. It is also possible to include them.
  • FIG. 11 shows a second configuration example of the receiving section 114 of FIG.
  • parts corresponding to those in FIG. 5 are denoted by the same reference numerals, and the description thereof will be omitted below as appropriate. That is, the receiving unit 1 14 in FIG. 11 is different from the receiving unit 1 in FIG. 5 in that tap generating units 301 and 302 are provided instead of the tap generating units 121 and 122, respectively. It is configured as in the case.
  • the prediction tap or the class tap is used in the subframe of interest. It is composed of 40 samples of synthetic sound data and one or both of lag-compatible past data and / or lag-compatible future data, but only lag-compatible past data, lag-compatible future data only, or Since it is not specifically controlled which of the two is included in the prediction tap or the class tap, it is necessary to determine in advance which one to include and fix it.
  • the frame including the subframe of interest corresponds to, for example, the start of an utterance, as shown in FIG. And so on are considered to be in a silent state (a state in which only noise is present).
  • the frame of interest corresponds to, for example, the end of an utterance, it is considered that frames future than the frame of interest are silent as shown in FIG. 12B.
  • Such silences even if included in prediction taps or class taps, hardly contribute to the improvement of sound quality, and in the worst case, may hinder the improvement of sound quality.
  • the tap generation units 301 and 302 in FIG. 11 determine which of the transitions of the waveform of the synthesized sound data is, for example, any of those shown in FIGS. 12A to 12C. Based on the determination result, a prediction tap and a class tap are generated, respectively.
  • FIG. 13 illustrates a configuration example of the tap generation unit 301 of FIG.
  • the synthesized sound memory 311 is sequentially supplied with the synthesized sound data output from the sound synthesis filter 29 (FIG. 11), and the synthesized sound memory 311 stores the synthesized sound data.
  • the synthesized sound memory 3 1 1 stores the synthesized sound data from the earliest sample to the most future sample of the synthesized sound data that may be used as prediction taps for the synthesized sound data that is the target data.
  • the synthesized sound memory 311 stores the synthesized sound data for the storage capacity, the synthesized sound data to be supplied next is overwritten with the oldest stored value. I have.
  • the L-code memory 312 is supplied with the L-code in subframe units output from the channel decoder 21 (Fig. 11) sequentially.
  • the L-code memory 312 stores the L-code. And memorize sequentially.
  • the L-code memory 3 1 2 the earliest sample of the synthetic sound data that may be used as a prediction tap for the synthetic sound data that is regarded as the target data is arranged. It has at least the storage capacity that can store the L code from the subframe to the subframe where the most future sample is located, and stores the L code for the storage capacity. Then, the next supplied L code is stored over the oldest stored value.
  • the frame power calculation unit 313 uses the synthesized sound data stored in the synthesized sound memory 311 to determine the power of the synthesized sound data in the frame in a predetermined frame unit and supplies the power to the buffer 314. .
  • the frame which is a unit for obtaining the parity in the frame parity calculator 3 13, may or may not match a frame or a subframe in the CELP system. Therefore, the frame which is a unit for calculating the power in the frame power calculator 3 13 is a value other than the 160 samples constituting the frame in the CELP system and the 40 samples constituting the subframe. It can be composed of 128 samples.
  • a frame which is a unit for obtaining power in frame power calculation section 313, matches a frame in the CELP system.
  • the buffer 314 sequentially stores synthesized sound data sequentially supplied from the frame power calculation unit 313.
  • the buffer 314 is capable of storing at least the power of the focused sound frame and the frames immediately before and after it, that is, the power of the synthesized sound data for three frames in total.
  • the power supplied from the frame power calculation unit 313 is stored in the form of overwriting the oldest storage value.
  • the state determination unit 315 determines the transition of the waveform of the synthesized sound data near the target data based on the power stored in the buffer 314. That is, as shown in FIG. 12A, the state determination unit 315 determines that the transition of the waveform of the synthesized sound data in the vicinity of the target data is a state in which the frame immediately before the target frame is silence (hereinafter, referred to as As shown in Fig. 12B, the frame immediately after the frame of interest is silent (hereinafter referred to as the falling state, as appropriate), or as shown in Fig. 12C, Judgment is made as to which of the steady state from immediately before to immediately after the frame (hereinafter referred to as steady state as appropriate).
  • the state determination unit 315 supplies the determination result to the data extraction unit 316.
  • the de-night extraction unit 316 extracts the synthesized sound of the target subframe from the synthesized sound memory 311 by reading it out. Further, the data extracting unit 316 refers to the L code memory 312 based on the determination result of the transition of the waveform from the state determining unit 315, and lags from the synthesized sound memory 311. Extract by extracting one or both of the past data of the correspondence or the future of the lag. Then, the data extraction unit 316 compares the synthesized sound data of the subframe of interest read from the synthesized sound memory 311 with one or both of the past data for lag or the future data for lag. Is output as a prediction tap.
  • Synthesized sound memory 311 is sequentially supplied with synthesized sound data output from the speech synthesis filter 29 (FIG. 11), and the synthesized sound memory 311 sequentially stores the synthesized sound data. Further, the L code memory 312 is sequentially supplied with L codes in subframe units output from the channel decoder 21 (FIG. 11), and the L code memory 312 stores the L code in Store them sequentially.
  • the frame power calculation unit 3 13 sequentially reads out the synthesized sound data stored in the synthesized sound memory 3 11 in frame units, finds the power of the synthesized sound data in each frame, and stores the power in the buffer 3 14. I remember.
  • step S 21 the state determination unit 3 15 calculates the buffer 314 power, the power of the frame of interest P N , the power P ⁇ of the immediately preceding frame, and the power P N + 1 of the immediately following frame. read, and Pawa one P N of the frame of interest, immediately before the frame - beam of Pawa one P N -, the difference value P N of the - with calculating the a power [rho eta + iota immediately after the frame, the frame of interest Calculate the difference value ⁇ ischen +1 — ⁇ ⁇ from the power ⁇ ⁇ , and proceed to step S 22.
  • step S22 the state determination unit 315 determines that the absolute value of the difference value ⁇ ⁇ — ⁇ > ⁇ and the absolute value of the difference value ⁇ ⁇ + 1 — ⁇ ⁇ are all equal to the predetermined threshold ⁇ Is greater than (or greater than).
  • step S22 the absolute value of the difference value P n — or the difference value If it is determined that at least one of the absolute values of is not larger than the predetermined threshold ⁇ , the state determination unit 315 determines that the transition of the waveform of the synthesized sound data near the target data is as shown in FIG. As shown, it is determined that a steady state has been reached from immediately before to immediately after the frame of interest, and a “steady state” message indicating that fact is supplied to the data extraction unit 3 16. Proceed to step S23.
  • step S23 upon receiving the “steady state” message from the state determination unit 315, the data extraction unit 316 receives the synthesized sound data of the subframe of interest from the synthesized sound memory 311. In addition to reading, synthesized sound data as lag-compatible past data and lag-compatible future data is read with reference to the L-code memory 312. Then, the data extraction unit 316 outputs these synthesized sound data as prediction taps, and ends the processing.
  • step S22 when it is determined in step S22 that the absolute value of the difference value ⁇ ⁇ — ⁇ ⁇ and the absolute value of the difference value ⁇ ⁇ + , ⁇ ⁇ are both greater than a predetermined threshold ⁇ Then, the process proceeds to step S24, where the state determination unit 315 determines whether the difference value ⁇ ⁇ ⁇ ⁇ ⁇ — ⁇ and the difference value ⁇ ⁇ + 1 — ⁇ sculpture both positive. If it is determined in step S 24 that the difference value ⁇ ⁇ — and the difference value ⁇ ⁇ + 1 — ⁇ ⁇ are both positive, the state determination unit 3 15 5 sets the synthesized sound data in the vicinity of the data of interest. As shown in Fig.
  • the transition of the waveform is judged that the frame immediately before the frame of interest is in the rising state in which there is no sound, and the “rising state” message indicating that is determined by the data It supplies to the extraction part 3 16 and it progresses to step S25.
  • step S25 upon receipt of the “rising state” message from the state determination section 315, the data extraction section 316 reads the synthesized sound data of the subframe of interest from the synthesized sound memory 311. At the same time, the synthesized sound data as future data corresponding to the lag is read with reference to the L code memory 312. Then, the data extraction unit 316 outputs these synthesized sound data as prediction taps, and ends the processing. On the other hand, if it is determined in step S24 that at least one of the difference value ⁇ ⁇ — Pulate—, and the difference value ⁇ ⁇ + 1 — ⁇ ⁇ is not positive, the process proceeds to step S26 to determine the state.
  • the unit 315 determines whether each of the difference value ⁇ ⁇ — ⁇ ⁇ —, and the difference value ⁇ ⁇ + 1 — ⁇ ⁇ is negative In step S 26, the difference value ⁇ ⁇ ⁇ ⁇ — , And at least one of the difference values P n + 1 and P n is determined to be non-negative, the state determination unit 315 determines that the transition of the waveform of the synthesized sound data in the vicinity of the target data is in a steady state. Then, a “steady state” message indicating that fact is supplied to the data extraction unit 316, and the process proceeds to step S23.
  • step S23 the data extraction unit 316 reads out the synthetic sound data of the subframe of interest, the past data corresponding to the lag, and the future data corresponding to the lag from the synthetic sound memory 311, and Is output and the processing ends. If it is determined in step S26 that the difference value P n — and the difference value ⁇ ⁇ + 1 — ⁇ ⁇ are both negative, the state determination unit 315 determines the synthesized sound in the vicinity of the target data. As shown in FIG. 12B, the transition of the data waveform is determined to be a falling state in which the frame immediately after the frame of interest is in a state of silence, and a “falling state” indicating that fact. The message is supplied to the data extraction unit 316, and the process proceeds to step S27.
  • step S27 upon receiving the “falling state” message from the state determination section 315, the data extraction section 316 reads out the synthetic sound data of the subframe of interest from the synthetic sound memory 311 and furthermore, With reference to the memory 312, the synthetic sound data as the past data corresponding to the lag is read out. Then, the data extracting unit 316 outputs these synthesized sound data as prediction taps, and ends the processing.
  • the tap generation unit 302 in FIG. 11 can be configured similarly to the tap generation unit 301 shown in FIG. 13, and in this case, a class map is configured as described in FIG. be able to.
  • the synthesized sound memory 311, the L-code memory 312, the frame power calculator 313, the buffer 314, and the state The state determination unit 315 can be shared by the tap generation units 301 and 302.
  • the transition of the waveform of the synthesized sound data near the target data is determined by comparing the phases of the target frame and the frames immediately before or immediately after the target frame.
  • the transition of the waveform of the synthesized sound data in the vicinity of the data can be determined, for example, by comparing the phases of the frame of interest and each of the past and future frames.
  • the transition of the waveform of the synthesized sound data in the vicinity of the target data is determined to be one of three states of “steady state”, “rising state”, and “falling state”.
  • the prediction tap includes the synthesized sound data of the target subframe and the past corresponding to the lag.
  • the synthetic sound data which becomes the past data corresponding to the lag or the future data corresponding to the lag is provided. And the like.
  • the tap generation unit 301 when the tap generation unit 301 generates a prediction tap as described above, the number of samples of the synthetic sound data forming the prediction tap changes. This is the same for the class tap generated by the tap generation unit 302.
  • the prediction taps even if the number of taps constituting the prediction taps (the number of taps) changes, the same number of tap coefficients as the prediction taps are calculated in the learning apparatus of FIG. There is no problem since it is only necessary to learn and store it in the coefficient memory 124.
  • the configuration of the class tap is considered in the class classification.
  • the class tap in addition to the synthetic sound data of the subframe of interest, includes one or both of the past data for the lag or the future data for the lag.
  • the number of class taps increases or decreases. So, for example, if the class tap is composed of the synthesized sound of the subframe of interest and one of the past data for lag or the future data for lag, the number of taps is If the number of taps is S, and the class tap is composed of both the synthesized sound data of the subframe of interest and the past data for lag and future data for lag, the number of taps is LOS.) It is assumed that there are If the number of taps is S, an n-bit class code is obtained, and if the number of taps is L, an n + m-bit class code is obtained.
  • n + m + 2 bits are used as the class code, and the 2 + upper bits of the n + m + 2 bits are used, for example, and the class tap includes the past data corresponding to the lag. For example, when the future data corresponding to the lag is included, and when both are included, the number of taps is set to “0 0”, “01”, and “10”, respectively. Regardless of whether it is L or L, the total number of classes can be classified into 2 n1 ⁇ 2 + 2 classes.
  • n + m-bit class code is obtained. Classification is performed, and “10” indicating that the class tap includes both the past data corresponding to the lag and the future data corresponding to the lag is added to the n + m-bit class code as the upper two bits. The added n + m + 2 bits may be used as the final class code.
  • class classification is performed so that an n-bit class code is obtained. Adds m-bit "0" to n + m bits, and adds "00" to the n + m bits as upper bits indicating that the class tap includes past data corresponding to lag. The n + m + 2 bits obtained can be used as the final class code.
  • the class tap includes a lag-adaptive future data and the number of taps is S
  • a class classification is performed to obtain an n-bit class code
  • the n-bit class code includes As a high-order bit
  • an m-bit "0" is added to form n + m bits
  • the n + m bits indicate that the class tap includes a lag-compatible future data as a high-order pit.
  • the final class code may be n + m + 2 bits with 01 "added.
  • the frame part calculation unit 313 calculates the power of each frame from the synthesized sound data, but the audio is encoded by the CE LP method.
  • frame data may be included in the encoded data (code data), and in this case, the frame energy can be used as the power of the synthesized sound in the frame. It is.
  • FIG. 15 shows an example of the configuration of the tap generation unit 301 in FIG. 11 when the frame energy is used as the power of the synthesized sound in the frame.
  • the tap generation unit 301 in FIG. 15 has the same configuration as that in FIG. 13 except that the frame power calculation unit 313 is not provided.
  • the frame energy for each frame included in the coded data (code data) supplied to the receiver 114 (FIG. 11) is supplied to the buffer 314.
  • the buffer 314 stores the frame energy.
  • the state determination unit 315 uses this frame energy in the same manner as the above-described power in units of frames obtained from the synthesized sound data, and determines the transition of the waveform of the synthesized sound data in the vicinity of the target data. .
  • the frame energy of each frame included in the coded data is separated from the coded data in the channel encoder 21 and supplied to the tap generation unit 301.
  • tap generation unit 302 can also be configured as shown in FIG.
  • FIG. 16 shows an embodiment of a learning device for learning tap coefficients stored in the coefficient memory 124 when the receiving unit 114 is configured as shown in FIG. It shows a configuration example of the mode.
  • the learning apparatus of FIG. 16 is different from the case of FIG. 9 except that tap generation sections 3 2 1 and 3 2 2 are provided instead of the evening generation sections 13 1 and 13 2 respectively.
  • the c- map generators 3 2 1 and 3 2 2 configured in the same manner are the same as the tap generators 3 0 1 and 3 0 2 in FIG. 11, respectively. Is configured.
  • the learning device uses the frame energy of each frame to determine the transition of the waveform of the synthesized sound data near the target data, as described in Fig. 15.
  • the frame energy can be calculated using the autocorrelation coefficient obtained in the LPC analysis process in the LPC analysis section 204.
  • Fig. 17 shows the case where the frame energy is obtained from the autocorrelation coefficient.
  • 3 shows a configuration example of the tap generation unit 3 21. Note that, in the figure, the same reference numerals are given to portions corresponding to the case of the tap generation unit 301 of FIG. 13, and the description thereof will be appropriately omitted below. That is, the tap generator 3 21 in FIG. 17 is different from the tap generator 3 21 in FIG. 13 in that a frame energy calculator 3 31 is provided instead of the frame power calculator 3 13. It is configured similarly to.
  • the frame energy calculation unit 331 is supplied with the autocorrelation coefficient of the voice obtained in the process of performing the LPC analysis by the LPC analysis unit 204 in FIG. 331 calculates the frame energy included in the encoded data (code and data) from the autocorrelation coefficient, and supplies it to the buffer 314. Therefore, in the embodiment shown in FIG. 17, the state determination unit 315 uses the frame energy in the same manner as the above-described power in units of frame obtained from the synthesized sound data, and sets the Of the synthesized sound data is determined.
  • tap generation section 3222 for generating the class taps in FIG. 16 can also be configured as shown in FIG.
  • FIG. 18 shows a third configuration example of the receiving section 114 of FIG.
  • the same reference numerals are given to portions corresponding to the case in FIG. 5 or FIG. 11, and the description thereof will be omitted as appropriate.
  • the receiving section 114 shown in FIGS. 5 and 11 performs high-quality speech by applying the classification adaptive processing to the synthesized speech data output from the speech synthesis filter 29.
  • the receiving unit 114 in FIG. 18 classifies the residual signal (decoded residual signal) input to the speech synthesis filter 29 and the linear prediction coefficient (decoded linear prediction coefficient) into class classification. By applying adaptive processing, high-quality sound is decoded.
  • the error includes errors, and if it is input to the speech synthesis filter 29 as it is, the sound quality of the synthesized speech data output from the speech synthesis filter 29 deteriorates.
  • the receiving unit 114 shown in Fig. 18 calculates the true residual signal and the predicted value of the linear prediction coefficient by performing a prediction operation using the tap coefficients obtained by learning, and uses these as speech synthesis filters. By giving it to 2, a high-quality synthesized sound is generated.
  • the receiving unit 114 in FIG. 18 decodes the decoded residual signal into (the predicted value of) the true residual signal by using, for example, the classification adaptive processing, and performs the decoding linear prediction.
  • the coefficients are decoded into (true predicted values of) the true linear prediction coefficients, and the residual signal and the linear prediction coefficients are applied to the speech synthesis filter 29, whereby high-quality synthesized speech data is obtained.
  • the decoded residual signal output from the arithmetic unit 28 is supplied to the tap generators 341, 332. Further, the L code output from the channel decoder 21 is also supplied to the tap generators 34 1 and 34 2.
  • the evening generating section 34 1 calculates the prediction tap from the decoded residual signal supplied thereto. Is extracted based on the L code and supplied to the prediction unit 345.
  • the evening generating section 324 is also used as a class tap from the decoded residual signal supplied thereto. Samples are extracted based on the L code and supplied to the classifying section 343.
  • the class classifying unit 343 performs class classification based on the class tap supplied from the tap generating unit 342, and supplies a class code as a result of the class classification to the coefficient memory 344.
  • Coefficient memory 3 4 4 is obtained by the learning process is performed in the learning apparatus of FIG 1 described later, stores the tap coefficients w w for the residual signal for each class, the class classification section 3 4 3 Stored at the address corresponding to the class code output by The calculated tap coefficient is supplied to the prediction unit 345.
  • the prediction unit 3 4 5 includes a prediction tap output from the tap generation unit 3 4 1 and a coefficient memory 3
  • the tap coefficient for the residual signal output by 4 is obtained, and the linear prediction operation shown in equation (6) is performed using the prediction tap and the tap coefficient.
  • the prediction unit 345 obtains (the predicted value of) the residual signal em of the subframe of interest and supplies it to the speech synthesis filter 29 as an input signal.
  • the tap generators 35 1 and 35 2 are supplied with the decoded linear prediction coefficients ⁇ ⁇ ′ for each sub-frame output from the filter coefficient decoder 25, and the tap generators 3 5 1 and 352 extract prediction taps and cluster taps from the decoded linear prediction coefficients.
  • the tap generators 35 1 and 35 2 use, for example, all the linear prediction coefficients of the subframe of interest as a prediction tap and a class tap, respectively.
  • the prediction taps are supplied from the tap generation unit 351 to the prediction unit 355, and the class taps are supplied from the tap generation unit 352 to the class classification unit 353.
  • the class classification unit 353 performs class classification based on the class tap supplied from the tap generation unit 352, and supplies a class code as a result of the classification to the coefficient memory 354.
  • the coefficient memory 354 stores a tap coefficient w ⁇ for a linear prediction coefficient for each class, which is obtained by performing a learning process in the learning device of FIG. 21 described later.
  • the tap coefficient stored at the address corresponding to the class code output by 3 is supplied to the prediction unit 355.
  • the prediction unit 3 5 5 includes a prediction tap output from the tap generation unit 3 51 and a coefficient memory 3
  • a tap coefficient for the linear prediction coefficient output by 54 is obtained, and the linear prediction operation shown in Expression (6) is performed using the prediction tap and the tap coefficient.
  • the prediction unit 355 obtains the linear prediction coefficient (prediction value) mo; p of the subframe of interest and supplies it to the speech synthesis filter 29.
  • the channel decoder 21 separates an L code, a G code, an I code, and an A code from the code supplied thereto, and separates them into an adaptive codebook storage unit 22 and a gain decoder. 23, excitation codebook storage 24, filter coefficient decoder 25. Further, the L code is also supplied to the tap generators 341 and 342. Then, the adaptive codebook storage unit 22, the gain decoder 23, the excitation codebook storage unit 24, and the arithmetic units 26 to 28 include the adaptive codebook storage unit 9, the gain decoder 10 in FIG.
  • the filter coefficient decoder 25 decodes the A code supplied thereto into decoded linear prediction coefficients, and supplies the decoded linear prediction coefficients to the tap generators 35 1 and 35 2.
  • step S31 a prediction tap and a class tap are generated. That is, the tap generation unit 341 sequentially sets the subframes of the decoded residual signal supplied thereto as a subframe of interest, and further, sequentially samples the decoded residual signal of the subframe of interest. As the data of interest, the decoding residual signal of the subframe of interest is extracted, and the decoding residual signal of the subframe other than the subframe of interest is extracted based on the L code etc. arranged in the subframe of interest outputted by the channel decoder 21.
  • a 40-sample decoded residual signal whose starting point is the past position only by the lag represented by the L code arranged in the subframe of interest (hereinafter also referred to as lag-corresponding past data as appropriate), or L Sub-frame in the future direction when viewed from the sub-frame of interest, where the L code whose past position is the position of the data of interest by the lag represented by the code (Again, hereinafter referred to as the lag-compensating future de Isseki) arranged 4 0 samples of the decoded residual signal is extracted, and generates prediction taps.
  • the tap generation unit 342 also generates class taps in the same manner as the tap generation unit 341.
  • step S31 the tap generators 35 1 and 3 52
  • the decoded linear prediction coefficient of the subframe of interest output from the decoder 35 is extracted as a prediction tap and a class tap, respectively.
  • the prediction taps obtained by the tap generator 341 are given to the predictor 345
  • the class taps obtained by the tap generator 342 are given to the classifier 343
  • the tap generator 351 is provided by the tap generator 351.
  • the obtained prediction taps are supplied to the prediction unit 355, and the class taps obtained in the tap generation unit 352 are supplied to the class classification unit 353.
  • step S 32 the class classification unit 343 performs class classification based on the class taps supplied from the tap generation unit 324, and stores the resulting class code in the coefficient memory 334.
  • step S 33 the class classification unit 355 performs class classification based on the class tap supplied from the tap generation unit 352, and supplies the resulting class code to the coefficient memory 354. Then, go to step S33.
  • step S33 the coefficient memory 344 reads the tap coefficient for the residual signal from the address corresponding to the class code supplied from the classifying section 343, and supplies the tap coefficient to the prediction section 345.
  • the coefficient memory 354 reads out the tap coefficients for the linear prediction coefficients from the address corresponding to the class code supplied from the classifying section 343 and supplies the tap coefficients to the prediction section 355.
  • step S34 the prediction unit 345 acquires the tap coefficient for the residual signal output from the coefficient memory 344, and calculates the tap coefficient and the prediction from the tap generation unit 341.
  • the product-sum operation shown in equation (6) is performed to obtain (the predicted value of) the true residual signal of the subframe of interest.
  • the prediction section 355 acquires the tap coefficients for the linear prediction coefficients output from the coefficient memory 344, and the tap coefficients and the prediction taps from the tap generation section 351 are obtained.
  • the product-sum operation shown in equation (6) is performed to obtain the true linear prediction coefficient (predicted value) of the subframe of interest.
  • the residual signal and the linear prediction coefficient obtained as described above are supplied to the speech synthesis filter 29, and the speech synthesis filter 29 generates the residual signal and the linear prediction coefficient.
  • synthesized sound data corresponding to the target data of the target subframe is generated.
  • the synthesized voice data is supplied from the voice synthesis filter 29 to the speaker 31 via the DZA conversion unit 30. Thereby, the speech force 31 generates a synthesized voice corresponding to the synthesized voice data. A sound is output.
  • step S35 the L code of the subframe to be processed as the subframe of interest, It is determined whether there are G code, I code, and A code. If it is determined in step S35 that there is still an L code, a G code, an I code, and an A code of the frame to be processed as the subframe of interest, the process returns to step S31, and The same process is repeated hereafter, with the subframe to be the subframe of interest set as a new subframe of interest. If it is determined in step S35 that there is no L code, G code, I code, or A code of the frame to be processed as the subframe of interest, the process ends.
  • the prediction tap is used to determine whether the lag corresponding to the decoding residual signal of the subframe of interest and the lag It is composed of one or both of past data and future data corresponding to lag.
  • the configuration can be fixed or variable based on the transition of the waveform of the residual signal.
  • FIG. 20 shows an example of the configuration of the tap generation unit 341 when the configuration of the prediction tap is made variable based on the transition of the waveform of the residual signal.
  • the tap generation unit 341 in FIG. 20 is provided with a residual signal memory 361 and a frame power calculation unit 363 instead of the synthetic sound memory 311 and the frame power calculation unit 313.
  • the configuration is the same as that of the tap generation unit 301 in FIG.
  • the decoded signal output from the arithmetic unit 28 (FIG. 18) is sequentially supplied to the residual signal memory 361, and the residual signal memory 361 stores the decoded residual signal.
  • signal are sequentially stored.
  • the residual signal memory 36 1 stores the decoded residual signal from the oldest sample to the latest sample among the decoded residual signals that may be used as the prediction tap for the data of interest. It has at least a storage capacity capable of storing the difference signal. Further, the residual signal memory 361, when storing the decoded residual signal by the amount of the storage capacity, overwrites the sample value of the decoded residual signal supplied next to the oldest stored value. It is designed to remember.
  • the frame power calculator 363 uses the residual signal stored in the residual signal memory 361 to determine the power of the residual signal in the frame in a predetermined frame unit and supplies it to the buffer 314 .
  • the frame which is a unit for calculating the power in the frame power calculation unit 363, matches the frame or subframe in the CELP method, as in the case of the frame power calculation unit 313 in FIG. And they don't have to match.
  • the tap generation unit 341 in FIG. 20 obtains not the power of the synthesized sound data but the power of the decoded residual signal, and based on the power, the transition of the waveform of the residual signal is, for example, shown in FIG. As described in 12, it is determined whether the state is a rising state, a falling state, or a steady state. Then, based on the determination result, in addition to the decoded residual signal of the subframe of interest, one or both of a lag-adaptive past data and a lag-compatible future data are extracted, and a prediction gap is obtained. Generated.
  • tap generator 342 of FIG. 18 can be configured similarly to the tap generator 341 shown in FIG.
  • prediction taps and class taps are generated based on the L code only for the decoded residual signal, but the decoded linear prediction coefficients are also generated based on the L code.
  • the L code output from the channel decoder 21 may be supplied to the tap generators 35 1 and 35 2.
  • the prediction tap and the class tap are converted to synthesized sound data.
  • the power of the synthesized sound data is determined, the transition of the waveform of the synthesized sound data is determined based on the power, and the power of the decoded residual signal is calculated when generated from the decoded residual signal.
  • the transition of the waveform of the synthesized sound data is determined based on the power
  • the transition of the waveform of the synthesized sound data can be determined based on the power of the residual signal.
  • the transition of the waveform of the residual signal can be determined based on the power of the synthesized sound data.
  • FIG. 21 illustrates a configuration example of an embodiment of a learning device that performs a learning process of tap coefficients stored in the coefficient memories 344 and 354 of FIG.
  • the same reference numerals are given to the portions corresponding to the case in FIG. 16, and the description thereof will be appropriately omitted below.
  • the prediction filter 370 is supplied with a learning speech signal converted into a digital signal, which is output from the A / D converter 202, and a linear prediction coefficient, which is output from the LPC analyzer 204.
  • the tap generators 371 and 372 have the decoded residual signal (the same residual signal supplied to the speech synthesis filter 206) output by the arithmetic unit 214 and the code determination.
  • the L code output from the unit 215 is supplied, and the tap generation units 381 and 382 are provided with the decoded linear prediction coefficients (the code used for the vector quantization) output from the vector quantization unit 205.
  • the linear prediction coefficients that make up the book's code vector (centroid vector) are supplied. Further, the linear prediction coefficient output from the LPC analysis section 204 is supplied to the normal equation addition circuit 384.
  • the prediction filter 370 sequentially sets the subframes of the audio signal for learning supplied from the AZD converter 202 as the subframe of interest, and the audio signal of the subframe of interest and the LPC analyzer 204
  • the residual signal of the frame of interest is obtained by performing, for example, an operation according to equation (1) using the linear prediction coefficient supplied from the c. Supplied to 7 4.
  • the tap generation section 3 71 uses the decoded residual signal supplied from the arithmetic unit 2 14, and based on the L code output from the code determination section 2 15, the tap generation section 3 4 in FIG. Generate the same prediction tap as in 1 and supply it to the normal equation addition circuit 3 7 4 You.
  • the tap generation unit 37 2 also uses the decoded residual signal supplied from the arithmetic unit 2 14, and based on the L code output by the code determination unit 2 15, the tap generation unit 3 42 in FIG. The same class tap as in the case is generated and supplied to the classification unit 373. Based on the class taps supplied from the tap generation unit 371, the class classification unit 373 performs the same class classification as in the class classification unit 343 of FIG. 18 and obtains the resulting class. The code is supplied to a normal equation addition circuit 374.
  • the normal equation addition circuit 374 receives the residual signal of the subframe of interest from the prediction filter 370 as teacher data, and also receives the prediction tap from the tap generator 371 as student data. The same addition as in the normal equation adding circuit 13 4 shown in FIG. 9 and FIG. 16 is performed for each class code from the class classifier 3 73 for the teacher data and the student data. Then, for each class, the normal equation shown in equation (13) for the residual signal is established.
  • the tap coefficient determination circuit 375 obtains the tap coefficient for the residual signal for each class by solving each of the normal equations generated for each class in the normal equation addition circuit 374, and the coefficient memory 3 76 To the address corresponding to each class, respectively.
  • the coefficient memory 376 stores tap coefficients for the residual signal for each class supplied from the tap coefficient determination circuit 375.
  • the tap generation unit 381 uses the linear prediction coefficients, which are the elements of the code vector, supplied from the vector quantization unit 205, that is, the decoded linear prediction coefficients. The same prediction tap as that in the unit 3 51 is generated and supplied to the normal equation addition circuit 3 84.
  • the tap generator 382 also uses the decoded linear prediction coefficients supplied from the vector quantizer 205 to generate the same class taps as in the tap generator 352 in FIG. Supplied to classifier 3 8 3.
  • the tap generation units 38 1 and 38 2 include the code determination unit 2 1 as shown by the dotted line in FIG. L code output by 5 is supplied.
  • the classifying unit 3883 performs a classifying process based on the class taps from the tap generating unit 3832, and obtains the resulting class code. Is supplied to the normal equation addition circuit 384.
  • the normal equation addition circuit 384 receives the linear prediction coefficient of the subframe of interest from the LPC analysis section 204 as teacher data, and receives the prediction tap from the tap generation section 381 as student data. Then, for the teacher data and student data, the same addition as in the regular equation addition circuit 13 4 shown in FIGS. 9 and 16 is performed for each class code from the class classification unit 38 3. By doing so, for each class, the normal equation shown in equation (13) for the linear prediction coefficient is established.
  • the tap coefficient determination circuit 385 determines the tap coefficients for the linear prediction coefficients for each class by solving the normal equation generated for each class in the normal equation addition circuit 384, and stores the coefficient memory. Supply to the address corresponding to each class of 6.
  • the coefficient memory 386 stores tap coefficients for the linear prediction coefficients for each class supplied from the tap coefficient determination circuit 385.
  • the tap coefficient determination circuits 375 and 385 output, for example, a default tap coefficient for such a class.
  • the learning device is supplied with an audio signal for learning.
  • the learning device receives the audio signal.
  • Teacher data and student data are generated from the audio signal for learning.
  • the audio signal for learning is input to the microphone 201, and the microphone 201 to the code determination unit 215 are the same as those in the microphone 1 to the code determination unit 15 in FIG. Perform processing.
  • the linear prediction coefficient obtained by the LPC analysis unit 204 is supplied to the normal equation addition circuit 384 as a training data.
  • This linear prediction coefficient is also supplied to the prediction file 370.
  • the decoded residual signal obtained by the arithmetic unit 221 is supplied to the tap generating units 371 and 372 as student data.
  • the digital audio signal output from the A / D converter 202 is supplied to a prediction filter 370, and the decoded linear prediction coefficient output from the vector quantization unit 205 is converted into student data as The tap generators 38 1 and 38 2 are supplied. Further, the code determination unit 2 15 converts the L code from the minimum square error determination unit 208 when the decision signal is received from the minimum square error determination unit 208 into tap generation units 37 1 and 3 7 to 2
  • the prediction filter 370 sequentially sets the subframes of the audio signal for learning supplied from the AZD converter 202 as the subframe of interest, the audio signal of the subframe of interest, and the LPC analysis unit.
  • the linear prediction coefficient supplied from 204 the linear prediction coefficient obtained from the audio signal of the subframe of interest
  • the residual of the subframe of interest is obtained. Find the signal.
  • the residual signal obtained by the prediction filter 370 is supplied to the normal equation adding circuit 374 as teacher data.
  • step S42 the tap generation units 37 1 and 37 2 generate the decoding residue supplied from the arithmetic unit 2 14 Using the difference signal, a prediction tap and a class tap for the residual signal are generated based on the L code from the code determination unit 215. That is, the tap generators 37 1 and 37 2 generate a residual signal from the decoded residual signal of the subframe of interest from the arithmetic unit 2 14 and the past data corresponding to the lag or the future data corresponding to the lag. Prediction tap about And a cluster map are generated.
  • step S42 the tap generation units 38 1 and 38 2 calculate the prediction tap and the class tap for the linear prediction coefficient from the linear prediction coefficients of the subframe of interest supplied from the vector quantization unit 205. Generate
  • the prediction taps for the residual signal are supplied from the tap generation unit 371, to the normal equation adding circuit 374, and the class taps for the residual signal are supplied from the tap generation unit 372 to the class classification unit 372. Supplied to 7 3. Also, the prediction taps for the linear prediction coefficients are supplied from the tap generation unit 38 1 to the normal equation addition circuit 3 84, and the class taps for the linear prediction coefficients are supplied from the tap generation unit 38 2 to the class classification circuit 3 Supplied to 8 3.
  • step S43 the classifying sections 373 and 383 perform class classification based on the class taps supplied thereto, and classify the resulting class code into a normal equation addition circuit. 3 8 4 and 3 7 4 respectively.
  • step S44 in which the normal equation addition circuit 374 outputs the residual signal of the subframe of interest as the teacher data from the prediction filter 370 and the student data from the tap generation unit 371.
  • the normal equation addition circuit 384 outputs the linear prediction coefficient of the subframe of interest as the teacher data from the LPC analysis unit 204 and the evening map generation unit 381
  • the above-mentioned addition of the matrix A and the vector V of the equation (13) is performed for each class code from the class classifying unit 383 for the prediction gap as the student data of Proceed to step S45.
  • step S45 it is determined whether there is still a learning audio signal of the frame to be processed as the subframe of interest. If it is determined in step S45 that there is still a speech signal for learning the subframe to be processed as the subframe of interest, the process returns to step S41, and the next subframe is newly added to the subframe of interest. Hereinafter, the same processing is repeated. If it is determined in step S45 that there is no audio signal for learning the subframe to be processed as the subframe of interest, the process proceeds to step S46, where the tap coefficient determination circuit 3755 By solving the normal equation generated for each class, the tap coefficient for the residual signal is obtained for each class, and supplied to the address corresponding to each class in the coefficient memory 376 to be stored. . Further, the tap coefficient determination circuit 385 also solves the normal equation generated for each class, thereby obtaining a tap coefficient for the linear prediction coefficient for each class, The data is supplied to the address corresponding to the class and stored, and the process ends.
  • the tap coefficients for the residual signal of each class stored in the coefficient memory 378 are stored in the coefficient memory 344 of FIG. 18 and stored in the coefficient memory 386.
  • the coefficient of the linear prediction coefficient for each class is stored in the coefficient memory 354 in FIG.
  • the tap coefficients stored in the coefficient memories 34 4 and 35 4 in FIG. 1 ⁇ are respectively the true residual signal obtained by performing the linear prediction operation and the predicted value of the linear prediction coefficient. Since the prediction error (square error) was obtained by performing learning so as to be statistically minimized, the residual signals output by the prediction units 345 and 355 in Fig. 18 are obtained. The signal and the linear prediction coefficient almost correspond to the true residual signal and the linear prediction coefficient, respectively. As a result, the synthesized sound generated by the residual signal and the linear prediction coefficient has low distortion and high sound quality. It will be.
  • FIG. 23 illustrates a configuration example of an embodiment of a computer in which a program for executing the above-described series of processes is installed.
  • the program can be recorded in advance on a hard disk 405 or a ROM 403 as a recording medium built in the computer.
  • the program may be stored on a removable recording medium 411 such as a floppy disk, CD-ROM (Compact Disc Read Only Memory), MO (Magneto optical), magnetic disk, or semiconductor memory. Can be stored (recorded) temporarily or permanently.
  • a removable recording medium 411 can be provided as so-called package software.
  • the program can be installed from the removable recording medium 411 as described above at the convenience of the user, transferred from the download site to the computer via digital satellite broadcasting artificial satellites, or transmitted to the LVNO Local Area. (Network), the Internet, and the like, and the data is transferred to the computer by wire, and the computer receives the transferred program by the communication unit 408 and installs it on the built-in hard disk 405. can do.
  • LVNO Local Area. Network
  • the Internet the Internet
  • the computer includes a CPU (Central Processing Unit) 402.
  • An input / output interface 410 is connected to the CPU 402 via a bus 401.
  • the CPU 402 is configured by a keyboard, a mouse, a microphone, and the like by a user via the input / output interface 410.
  • the program stored in the R0M (Read Only Memory) 403 is executed according to the command.
  • C J402 may be a program stored on the hard disk 405, a program transferred from a satellite or a network, received by the communication unit 408 and installed on the hard disk 405, or a drive 409.
  • the program read from the removable recording medium 411 mounted on the hard disk 405 and installed on the hard disk 405 is loaded into a RAM (Random Access Memory) 404 and executed. Accordingly, the CPU 402 performs the processing according to the above-described flowchart or the processing performed by the configuration of the above-described block diagram. Then, the CPU 402 transmits the processing result to an LCD (Liquid CryStal) through the input / output interface 410 as necessary, for example. Output from the output unit 406 including a display and a speaker or the like, or transmission from the communication unit 408, and further recording on the recording disk 405.
  • LCD Liquid CryStal
  • processing steps for describing a program for causing a computer to perform various kinds of processing do not necessarily need to be processed in chronological order according to the order described as a flowchart. It also includes processes that are executed either individually or individually (eg, parallel processing or processing by objects).
  • the program may be processed by one computer, or may be processed in a distributed manner by a plurality of computers. Further, the program may be transferred to a remote computer and executed.
  • no particular reference is made to what kind of speech signal to use as the learning speech signal. , Music (music), etc. can be adopted.
  • Music music
  • tap coefficients that improve the sound quality of the music can be obtained.
  • the tap coefficients are stored in advance in the coefficient memories 124 and the like, but the tap coefficients stored in the coefficient memories 124 and the like are stored in the mobile phone 101 in the base station shown in FIG. It can be downloaded from the station 102 (or the exchange 103), a WWW W or ld Wid Web (not shown). That is, as described above, a tap coefficient suitable for a certain type of audio signal, such as for a human utterance or music, can be obtained by learning. Furthermore, depending on the teacher data and student data used for learning, tap coefficients that cause a difference in the sound quality of the synthesized sound can be obtained. Therefore, such various tap coefficients can be stored in the base station 102 or the like, and the user can download the desired tap coefficient.
  • the tap coefficient download service can be provided free of charge, or can be provided for a fee.
  • tap staff If the number of down payment services is paid for, the price for downloading the evening coefficient can be charged, for example, along with the telephone charge of the mobile phone 101. is there.
  • the coefficient memory 124 and the like can be configured by a memory card or the like that can be attached to and detached from the mobile phone 101.
  • the user can change the memory card storing the desired tap coefficients as necessary. It can be used by attaching to the mobile phone 101.
  • the present invention provides, for example, a result of encoding by a CELP method such as VSELP (Vector Sum Excited Liner Prediction), PSI-CELP (Pitch Synchronous Innovation CELP), CS-ACELP (Conjugate Structure Algebraic CELP). It is widely applicable when generating synthesized sounds from the obtained chords.
  • VSELP Vector Sum Excited Liner Prediction
  • PSI-CELP Pitch Synchronous Innovation CELP
  • CS-ACELP Conjugate Structure Algebraic CELP
  • the present invention is not limited to the case where a synthesized sound is generated from a code obtained as a result of encoding according to the CELP method, but is also applicable to the case where a residual signal and a linear prediction coefficient are obtained from a certain code to generate a synthesized sound. , Widely applicable.
  • the present invention is applicable not only to audio but also to, for example, images. That is, the present invention is widely applicable to data processed using period information indicating a period, such as an L code.
  • the predicted values of the high-quality sound, the residual signal, and the linear prediction coefficient are obtained by the linear primary prediction operation using the tap coefficients. It can also be obtained by a second or higher order prediction operation.
  • the tap coefficients themselves are stored in the coefficient memory 124 or the like. However, the coefficient memory 124 or the like may additionally perform, for example, stepless adjustment (analog-like adjustment).
  • the coefficient type is stored as information that is the source (seed) of the tap coefficient, and a sound of the user's desired sound quality can be obtained from the coefficient type according to the user's operation. It is possible to generate various tap coefficients.
  • a predetermined data is obtained in accordance with the period information.
  • a tap used for a predetermined process is generated, and a predetermined process is performed on the data of interest using the tap. Therefore, for example, it is possible to decode high quality data.
  • a predetermined data and periodic information are obtained from a teacher data as a learning teacher. Is generated as student data. Then, by extracting the predetermined data from the predetermined data as the student data, which is of interest, according to the period information, a prediction tap used for predicting the teacher data is generated. Learning is performed so that the prediction error of the predicted value of the teacher data obtained by performing a predetermined prediction operation using the prediction tap and the tap coefficient is statistically minimized, and the tap coefficient is determined. . Therefore, for example, it is possible to obtain a tap coefficient for obtaining high-quality data.

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)

Description

明細書
データ処理装置 技術分野
本発明は、 データ処理装置に関し、 特に、 例えば、 CELP (Code Excited Li ner Prediction coding)方式で符号化された音声を、 高音質の音声に復号するこ とができるようにするデータ処理装置に関する。 背景技術
図 1および図 2は、 従来の携帯電話機の一例の構成を示している。
この携帯電話機では、 音声を、 CELP方式により所定のコードに符号化して 送信する送信処理と、 他の携帯電話機から送信されてくるコードを受信して、 音 声に復号する受信処理とが行われるようになつており、 図 1は、 送信処理を行う 送信部を、 図 2は、 受信処理を行う受信部を、 それぞれ示している。
図 1に示した送信部では、 ユーザが発話した音声が、 マイク (マイクロフォ ン) 1に入力され、 そこで、 電気信号としての音声信号に変換され、 A/D (Ana log/Digital)変換部 2に供給される。 A/D変換部 2は、 マイク 1からのアナ口 グの音声信号を、 例えば、 8 kHz等のサンプリング周波数でサンプリングする ことにより、 ディジタルの音声信号に A/D変換し、 さらに、 所定のビット数で 量子化を行って、 演算器 3と LP C (Liner Prediction Coefficient)分析部 4に 供給する。
LPC分析部 4は、 A/D変換部 2からの音声信号を、 例えば、 1 6 0サンプ ル分の長さを 1フレームとし、 その 1フレームを 40サンプルごとのサブフレ一 ムに分割して、 サブフレームごとに LP C分析し、 P次の線形予測係数 α^, 2, · · ·, ο;Ρを求める。 そして、 LPC分析部 4は、 この Ρ次の線形予測係数 Q!p (p= l, 2, · · ·, P) を要素とするベクトルを、 音声の特徴ベクトルとし て、 ベクトル量子化部 5に供給する。 べクトル量子化部 5は、 線形予測係数を要素とするコードべクトルとコードと を対応付けたコードブックを記憶しており、 そのコードブックに基づいて、 LP C分析部 4からの特徴べクトル αをべクトル量子化し、 そのべクトル量子化の結 果得られるコード (以下、 適宜、 Αコード(A— code)という) を、 コ一ド決定部 1 5に供給する。
さらに、 ベクトル量子化部 5は、 Aコードに対応するコードベクトル α' を構 成する要素となっている線形予測係数ひ , ひ2' , · · ·, αΡ, を、 音声合成 フィルタ 6に供給する。
音声合成フィルタ 6は、 例えば、 I I R (Infinite Impulse Response)型のデ イジタルフィルタで、 ベクトル量子化部 5からの線形予測係数ひ ρ' (p= 1, 2, · · ·, P) を I I Rフィル夕のタップ係数とするとともに、 演算器 14か ら供給される残差信号 eを入力信号として、 音声合成を行う。
即ち、 L PC分析部 4で行われる LP C分析は、 現在時刻 nの音声信号 (のサ ンプル値) sn、 およびこれに隣接する過去の P個のサンプル値 s^, sn_2, · · · , s η— ρに、 式
s„+ «i s n-i + a2s n-2+ - · - + aPsn.P=en
• · · (1) で示す線形 1次結合が成立すると仮定し、 現在時刻 nのサンプル値 snの予測値 (線形予測値) sn' を、 過去の P個の標本値 sn2, · · ·, snPを用い て、 式
sn, =一 (0;! s„.,+ a;2s„.2+ - · · + a p s„.ρ)
• · · (2) によって線形予測したときに、 実際のサンプル値 s„と線形予測値 sn' との間の 自乗誤差を最小にする線形予測係数 αρを求めるものである。
ここで、 式 (1) において、 {en} ( · · ·, en—い en, en+1, · · ·) は、 平 均値が 0で、 分散が所定値 σ 2の互いに無相関な確率変数である。
式 (1) から、 サンプル値 s„は、 式 S n=en- ( Q^ S n— Q! 2 S n2+ · · · + Q!p S n.P)
• · · (3) で表すことができ、 これを、 Z変換すると、 次式が成立する。
S = Eノ ( 1 + α,ζ-' - α2ζ"2+ - · - + ,ζ '?)
· · · (4) 但し、 式 (4) において、 Sと Εは、 式 (3) における snと enの Ζ変換を、 そ れぞれ表す。
ここで、 式 (1) および (2) から、 enは、 式
C n― S n S n
· · · (5) で表すことができ、 実際のサンプル値 snと線形予測値 sn' との間の残差信号と 呼ばれる。 . 従って、 式 (4) から、 線形予測係数 c¾pを I I Rフィル夕のタップ係数とす るとともに、 残差信号 enを I I Rフィル夕の入力信号とすることにより、 音声 信号 snを求めることができる。
そこで、 音声合成フィル夕 6は、 上述したように、 ベクトル量子化部 5からの 線形予測係数《ρ' をタップ係数とするとともに、 演算器 14から供給される残 差信号 eを入力信号として、 式 (4) を演算し、 音声信号 (合成音デ一夕) s s を求める。
なお、 音声合成フィルタ 6では、 L P C分析部 4による LP C分析の結果得ら れる線形予測係数 αρではなく、 そのべクトル量子化の結果得られるコードに対 応するコードベクトルとしての線形予測係数 Οίρ' が用いられるため、 音声合成 フィルタ 6が出力する合成音信号は、 A/D変換部 2が出力する音声信号とは、 基本的に同一にはならない。
音声合成フィル夕 6が出力する合成音デ一夕 s sは、 演算器 3に供給される。 演算器 3は、 音声合成フィル夕 6からの合成音データ s sから、 AZD変換部 2 が出力する音声信号 sを減算し (合成音デ一夕 s sの各サンプルから、 そのサン プルに対応する音声データ sのサンプルを減算し) 、 その減算値を、 自乗誤差演 算部 7に供給する。 自乗誤差演算部 7は、 演算器 3からの減算値の自乗和 (第 サブフレームの各サンプル値の減算値についての自乗和) を演算し、 その結果得 られる自乗誤差を、 自乗誤差最小判定部 8に供給する。
自乗誤差最小判定部 8は、 自乗誤差演算部 7が出力する自乗誤差に対応付けて、 長期予測ラグを表すコードとしての Lコード(L— c ode) , ゲインを表すコードとし ての Gコード(G_code)、 および符号語 (励起コードブック) を表すコードとして の Iコード(し code)を記憶しており、 自乗誤差演算部 7が出力する自乗誤差に対 応する Lコード、 Gコ一ド、 および Lコードを出力する。 Lコードは、 適応コー ドブック記憶部 9に、 Gコードは、 ゲイン復号器 1 0に、 Iコードは、 励起コー ドブック記憶部 1 1に、 それぞれ供給される。 さらに、 Lコード、 Gコード、 お よび Iコードは、 コード決定部 1 5にも供給される。
適応コードブック記憶部 9は、 例えば 7ビットの Lコードと、 所定の遅延時間 (ラグ) とを対応付けた適応コードブックを記憶しており、 演算器 1 4から供給 される残差信号 eを、 自乗誤差最小判定部 8から供給される Lコードに対応付け られた遅延時間 (長期予測ラグ) だけ遅延して、 演算器 1 2に出力する。
ここで、 適応コードブック記憶部 9は、 残差信号 eを、 Lコードに対応する時 間だけ遅延して出力することから、 その出力信号は、 そめ'遅延時間を周期とする 周期信号に近い信号となる。 この信号は、 線形予測係数を用いた音声合成におい て、 主として、 有声音の合成音を生成するための駆動信号となる。 従って、 Lコ ードは、 概念的には、 音声のピッチ周期を表す。 なお、 CELPの規格によれば、 Lコードは、 2 0乃至 1 4 6の範囲の整数値をとる。
ゲイン復号器 1 0は、 Gコードと、 所定のゲイン ;8および rとを対応付けたテ —ブルを記憶しており、 自乗誤差最小判定部 8から供給される Gコードに対応付 けられたゲイン ]3および rを出力する。 ゲイン )3とァは、 演算器 1 2と 1 3に、 それぞれ供給される。 ここで、 ゲイン j8は、 長期フィルタ状態出力ゲインと呼ば れるものであり、 また、 ゲイン τは、 励起コードブックゲインと呼ばれる'もので ある。
励起コードブック記憶部 1 1は、 例えば 9ビットの Iコードと、 所定の励起信 号とを対応付けた励起コ一ドブックを記憶しており、 自乗誤差最小判定部 8から 供給される Iコードに対応付けられた励起信号を、 演算器 1 3に出力する。
ここで、 励起コードブックに記憶されている励起信号は、 例えば、 ホワイトノ ィズ等に近い信号であり、 線形予測係数を用いた音声合成において、 主として、 無声音の合成音を生成するための駆動信号となる。
演算器 1 2は、 適応コードブック記憶部 9の出力信号と、 ゲイン復号器 1 0が 出力するゲイン ]3とを乗算し、 その乗算値 1を: 演算器 1 4に供給する。 演算器 1 3は、 励起コードブック記憶部 1 1の出力信号と、 ゲイン復号器 1 0が出力す るゲインァとを乗算し、 その乗算値 nを、 演算器 1 4に供給する。 演算器 1 4は、 演算器 1 2からの乗算値 1と、 演算器 1 3からの乗算値 nとを加算し、 その加算 値を、 残差信号 eとして、 音声合成フィルタ 6と適応コードブック記憶部 9に供 給する。
音声合成フィルタ 6では、 以上のようにして、 演算器 1 4から供給される残差 信号 eが、 ベクトル量子化部 5から供給される線形予測係数ひ をタップ係数 とする I I Rフィルタでフィルタリングされ、 その結果得られる合成音データが、 演算器 3に供給される。 そして、 演算器 3および'自乗誤差演算部 7において、 上 述の場合と同様の処理が行われ、 その結果得られる自乗誤差が、 自乗誤差最小判 定部 8に供給される。
自乗誤差最小判定部 8は、 自乗誤差演算部 7からの自乗誤差が最小 (極小) に なったかどうかを判定する。 そして、 自乗誤差最小判定部 8は、 自乗誤差が最小 になっていないと判定した場合、 上述のように、 その自乗誤差に対応する Lコー ド、 Gコード、 および Lコードを出力し、 以下、 同様の処理が繰り返される。 一方、 自乗誤差最小判定部 8は、 自乗誤差が最小になったと判定した場合、 確 定信号を、 コード決定部 1 5に出力する。 コード決定部 1 5は、 ベクトル量子化 部 5から供給される Aコードをラッチするとともに、 自乗誤差最小判定部 8から 供給される Lコード、 Gコード、 および Iコードを順次ラッチするようになって おり、 自乗誤差最小判定部 8から確定信号を受信すると、 そのときラッチしてい る Aコード、 Lコード、 Gコード、 および Iコードを、 チャネルエンコーダ 1 6 に供給する。 チャネルエンコーダ 1 6は、 コード決定部 1 5からの Aコード、 L コード、 Gコード、 および Iコードを多重化し、 コ一ドデ一夕として出力する。 このコードデータは、 伝送路を介して送信される。
以上から、 コードデ一夕は、 復号に用いられる情報である Aコード、 Lコード、 Gコード、 および Iコードを、 サブフレーム単位ごとに有する符号化デ一夕とな つている。
なお、 ここでは、 Aコード、 Lコード、 Gコード、 および Iコードは、 サブフ レームごとに求められるものとしているが、 例えば、 Aコードについては、 フレ —ムごとに求められる場合があり、 この場合、 そのフレームを構成する 4つのサ ブフレームの復号には、 同一の Aコードが用いられる。 但し、 この場合でも、 そ の 1フレームを構成する 4つのサブフレームそれぞれが、 同一の Aコードを有し ていると見ることができ、 そのように考えることによって、 コードデータは、 復 号に用いられる情報である Aコード、 Lコード、 Gコード、 および Iコードを、 サブフレーム単位ごとに有する符号化データとなっているとみなすことができる。 ここで、 図 1 (後述する図 2、 図 5、 図 9、 図 1 1、 図 1 6、 図 1 8、 および 図 2 1においても同様) では、 各変数に、 [k]が付され、 配列変数とされている。 この kは、 サブフレーム数を表すが、 明細書中では、 その記述は、 適宜省略する 次に、 以上のようにして、 他の携帯電話機の送信部から送信されてくるコード データは、 図 2に示した受信部のチャネルデコーダ 2 1で受信される。 チャネル デコーダ 2 1は、 コ一ドデ一夕から、 Lコード、 Gコード、 Iコード、 Aコード を分離し、 それぞれを、 適応コードブック記憶部 2 2、 ゲイン復号器 2 3、 励起 コードブック記憶部 2 4、 フィルタ係数復号器 2 5に供給する。
適応コードブック記憶部 2 2、 ゲイン復号器 2 3、 励起コードブック記憶部 2 4、 演算器 2 6乃至 2 8は、 図 1の適応コードブック記憶部 9、 ゲイン復号器 1 0、 励起コードブック記憶部 1 1、 演算器 1 2乃至 1 4とそれぞれ同様に構成さ れるもので、 図 1で説明した場合と同様の処理が行われることにより、 Lコード、 Gコード、 および Iコードが、 残差信号 eに復号される。 この残差信号 eは、 音 声合成フィル夕 2 9に対して、 入力信号として与えられる。
フィル夕係数復号器 2 5は、 図 1のベクトル量子化部 5が記憶しているのと同 一のコードブックを記憶しており、 Aコードを、 線形予測係数ひ に復号し、 音声合成フィルタ 2 9に供給する。
音声合成フィルタ 2 9は、 図 1の音声合成フィル夕 6と同様に構成されており、 フィルタ係数復号器 2 5からの'線形予測係数 α ρ ' をタップ係数とするとともに、 演算器 2 8から供給される残差信号 eを入力信号として、 式 (4 ) を演算し、 こ れにより、 図 1の自乗誤差最小判定部 8において自乗誤差が最小と判定されたと きの合成音データを生成する。 この合成音データは、 D ZA (Di gi tal/Anal og)変 換部 3 0に供給される。 D /A変換部 3 0は、 音声合成フィルタ 2 9からの合成 音データを、 ディジタル信号からアナログ信号に D ZA変換し、 スピーカ 3 1に 供給して出力させる。
なお、 コ一ドデータにおいて、 Aコードが、 サブフレーム単位でなく、 フレー ム単位で配置されている場合、 図 2の受信部では、 フレームを構成する 4つのサ ブフレームすべての復号に、 そのフレームに配置された Aコ一ドに対応する線形 予測係数を用いることができる他、 各サブフレームについて、 隣接するフレーム の Aコードに対応する線形予測係数を用いて補間を行い、 その補間の結果得られ る線形予測係数を、 各サブフレームの復号に用いることが可能である。
以上のように、 携帯電話機の送信部では、 受信部の音声合成フィルタ 2 9に与 えられる入力信号としての残差信号と線形予測係数がコード化されて送信されて くるため、 受信部では、 そのコードが、 残差信号と線形予測係数に復号される。 しかしながら、 この復号された残差信号や線形予測係数 (以下、 適宜、 それぞれ を、 復号残差信号または復号線形予測係数という) には、 量子化誤差等の誤差が 含まれるため、 音声を L P C分析して得られる残差信号と線形予測係数には一致 しない。
このため、 受信部の音声合成フィルタ 2 9が出力する合成音デ一夕は、 歪み等 を有する、 音質の劣化したものとなる。 発明の開示
本発明は、 このような状況に鑑みてなされたものであり、 高音質の合成音等を 得ることができるようにするものである。
本発明の第 1のデータ処理装置は、 所定のデータのうちの注目している注目デ —夕につき、 周期情報に応じて、 所定のデ一夕を抽出することにより、 所定の処 理に用いるタップを生成するタップ生成手段と、 タップを用いて、 注目データに ついて、 所定の処理を行う処理手段とを備えることを特徴とする。
本発明の第 1のデータ処理方法は、 所定のデータのうちの注目している注目デ —夕につき、 周期情報に応じて、 所定のデ一夕を抽出することにより、 所定の処 理に用いるタップを生成するタップ生成ステップと、 タップを用いて、 注目デー 夕について、 所定の処理を行う処理ステップとを備えることを特徴とする。 本発明の第 1のプログラムは、 所定のデ一夕のうちの注目している注目データ にっき、 周期情報に応じて、 所定のデータを抽出することにより、 所定の処理に 用いるタップを生成するタップ生成ステップと、 タップを ¾いて、 注目データに ついて、 所定の処理を行う処理ステップとを備えることを特徴とする。
本発明の第 1の記録媒体は、 所定のデ一夕のうちの注目している注目デ一夕に つき、 周期情報に応じて、 所定のデ一夕を抽出することにより、 所定の処理に用 いるタップを生成するタップ生成ステップと、 タップを用いて、 注目データにつ いて、 所定の処理を行う処理ステップとを備えるプログラムが記録されているこ とを特徴とする。
本発明の第 2のデータ処理装置は、 学習の教師となる教師データから、 所定の データと周期情報を、 '学習の生徒となる生徒データとして生成する生徒デ一夕生 成手段と、 生徒データとしての所定のデータのうちの注目している注目データに つき、 周期情報に応じて、 所定のデ一夕を抽出することにより、 教師データを予 測するのに用いる予測タップを生成する予測夕ップ生成手段と、 予測タップと夕 ップ係数とを用いて、 所定の予測演算を行うことにより得られる教師データの予 測値の予測誤差が、 統計的に最小になるように学習を行い、 タップ係数を求める 学習手段とを備えることを特徴とする。
本発明の第 2のデータ処理方法は、 学習の教師となる教師デ一夕から、 所定の デ一夕と周期情報を、 学習の生徒となる生徒デ一夕として生成する生徒データ生 成ステップと、 生徒デ一夕としての所定のデータのうちの注目している注目デ一 夕につき、 周期情報に応じて、 所定のデータを抽出することにより、 教師デ一夕 を予測するのに用いる予測夕ップを生成する予測夕ップ生成ステツプと、 予測夕 ップとタップ係数とを用いて、 所定の予測演算を行うことにより得られる教師デ —夕の予測値の予測誤差が、 統計的に最小になるように学習を行い、 タップ係数 を求める学習ステップとを備えることを特徴とする。
本発明の第 2のプログラムは、 学習の教師となる教師データから、 所定のデ一 夕と周期情報を、 学習の生徒となる生徒データとして生成する生徒データ生成ス テツプと、 生徒デー夕としての所定のデータのうちの注目している注目デ一夕に つき、 周期情報に応じて、 所定のデータを抽出することにより、 教師デ一タを予 測するのに用いる予測タップを生成する予測夕ップ生成ステツプと、 予測夕ップ とタップ係数とを用いて、 所定の予測演算を行うことにより得られる教師データ の予測値の予測誤差が、 統計的に最小になるように学習を行い、 タップ係数を求 める学習ステップとを備えることを特徴とする。
本発明の第 2の記録媒体は、 学習の教師となる教師データから、 所定のデータ と周期情報を、 学習の生徒となる生徒データとして生成する生徒データ生成ステ ップと、 生徒データとしての所定のデータのうちの注目している注目データにつ き、 周期情報に応じて、 所定のデータを抽出することにより、 教師データを予測 するのに用いる予測タップを生成する予測タップ生成ステップと、 予測タップと 夕ップ係数とを用いて、 所定の予測演算を行うことにより得られる教師データの 予測値の予測誤差が、 統計的に最小になるように学習を行い、 タップ係数を求め る学習ステップとを備えるプログラムが記録されていることを特徴とする。
本発明の第 1のデータ処理装置およびデータ処理方法、 並びにプログラムおよ び記録媒体においては、 所定のデータのうちの注目している注目データにつき、 周期情報に応じて、 所定のデータを抽出することにより、 所定の処理に用いる夕 ップが生成され、 そのタップを用いて、 注目データについて、 所定の処理が行わ れる。
本発明の第 2のデータ処理装置およびデータ処理方法、 並びにプログラムおよ び記録媒体においては、 学習の教師となる教師データから、 所定のデータと周期 情報が、 学習の生徒となる生徒デ一夕として生成される。 そして、 生徒デ一夕と しての所定のデータのうちの注目している注目データにつき、 周期情報に応じて、 所定のデータを抽出することにより、 教師データを予測するのに用いる予測夕ッ プが生成され、 予測タップとタップ係数とを用いて、 所定の予測演算を行うこと により得られる教師データの予測値の予測誤差が、 統計的に最小になるように学 習が行われ、 タップ係数が求められる。 図面の簡単な説明
' 図 1は、 従来の携帯電話機の送信部の一例の'構成を示すブロック図である。 図 2は、 従来の携帯電話機の受信部の一例の構成を示すブロック図である。 図 3は、 本発明を適用した伝送システムの一実施の形態の構成例を示す図であ る。
図 4は、 携帯電話機 1 0 1 ,と 1 0 1 2の構成例を示すブロック図である。
図 5は、 受信部 1 1 4の第 1の構成例を示すブロック図である。
図 6は、 図 5の受信部 1 1 4の処理を説明するフローチヤ一トである。
図 7は、 予測タップとクラスタップの生成方法を説明する図である。
図 8は、 予測タップとクラスタップの生成方法を説明する図である。
図 9は、 本発明を適用した学習装置の第 1実施の形態の構成例を示すプロック 図である。
図 1 0は、 図 9の学習装置の処理を説明するフローチャートである。
図 1 1は、 受信部 1 1 4の第 2の構成例を示すブロック図である。
図 1 2 A〜図 1 2 Cは、 合成音データの波形の推移を示す図である。
図 1 3は、 タップ生成部 3 0 1と 3 0 2の構成例を示すブロック図である。 図 1 4は、 タップ生成部 3 0 1と 3 0 2の処理を説明するフローチャートであ る。
図 1 5は、. タップ生成部 3 0 1と 3 0 2の他の構成例を示すブロック図である。 図 1 6は、 本発明を適用した学習装置の第 2実施の形態の構成例を示すブロッ ク図である。
図 1 7は、 タップ生成部 3 2 1と 3 2 2の構成例を示すブロック図である。 図 1 8は、 受信部 1 1 4の第 3の構成例を示すブロック図である。
図 1 9は、 図 1 8の受信部 1 1 4の処理を説明するフローチャートである。 図 2 0は、 タップ生成部 3 4 1と 3 4 2の構成例を示すブロック図である。 図 2 1は、 本発明を適用した学習装置の第 3実施の形態の構成例を示すブロッ ク図である。
図 2 2は、 図 2 1の学習装置の処理を説明するフローチャートである。
図 2 3は、'本発明を適用したコンピュー夕の一実施の形態の構成例を示すプロ ック図である。 発明を実施するための最良の形態
図 3は、 本発明を適用した伝送システム (システムとは、 複数の装置が論理的 に集合した物をいい、 各構成の装置が同一筐体中にあるか否かは問わない) の一 実施の形態の構成を示している。
この伝送システムでは、 携帯電話機 1 0 1 ,と 1 0 1 2が、 基地局 1 0 2 ,と 1 0 2 2それぞれとの間で、 無線による送受信を行うとともに、 基地局 1 0 2 ,と 1 0 2 2それぞれが、 交換局 1 0 3との間で送受信を行うことにより、 最終的には, 携帯電話機 1 0 1 ,と 1 0 1 2との間において、 基地局 1 0 2 ,および 1 0 2 2、 並 びに交換局 1 0 3を介して、 音声の送受信を行うことができるようになつている。 なお、 基地局 1 0 2 iと 1 0 2 2は、 同一の基地局であっても良いし、 異なる基地 局であっても良い。
ここで、 以下、 特に区別する必要がない限り、 携帯電話機 1 0 1 ,と 1 0 1 2を、 携帯電話機 1 0 1と記述する。
次に、 図 4は、 図 3の携帯電話機 1 0 1の構成例を示している。
この携帯電話機 1 0 1では、 CELP方式によって、 音声の送受信が行われるよ うになっている。
即ち、 アンテナ 1 1 1は、 基地局 1 0 2 tまたは 1 0 2 2からの電波を受信し、 その受信信号を、 変復調部 1 1 2に供給するとともに、 変復調部 1 1 2からの信 号を、 電波で、 基地局 1 0 2 ,または 1 0 2 2に送信する。 変復調部 1 1 2は、 ァ ンテナ 1 1 1からの信号を復調し、 その結果得られる、 図 1で説明したようなコ —ドデ一夕を、 受信部 1 1 4に供給する。 また、 変復調^ 1 1 2は、 送信部 1 1 3から供給される、 図 1で説明したようなコードデ一夕を変調し、 その結果得ら れる変調信号を、 アンテナ 1 1 1に供給する。 送信部 1 1 3は、 図 1に示した送 信部と同様に構成され、 そこに入力されるュ一ザの音声を、 CELP 方式によって、 コードデータに符号化して、 変復調部 1 丄 2に供給する。 受信部 1 1 4は、 変復 調部 1 1 2からのコ一ドデータを受信して CELP方式により復号し、 さらに、 高 音質の音声を復号して出力する。
即ち、 受信部 1 1 4では、 例えば、 クラス分類適応処理を利用して、 CELP方 式で復号された合成音が、 さらに、 真の高音質の音声 (の予測値) に復号される c ここで、 クラス分類適応処理は、 クラス分類処理と適応処理とからなり、 クラ ス分類処理によって、 データを、 その性質に基づいてクラス分けし、 各クラスご とに適応処理を施すものであり、 適応処理は、 以下のような手法のものである。 即ち、 適応処理では、 例えば、 合成音と、 所定のタップ係数との線形結合によ り、 高音質の音声の予測値が求められる。 具体的には、 例えば、 いま、 高音質の音声 (のサンプル値) を教師データとす るとともに、 その高音質の音声を、 CELP方式によって、 Lコ一ド、 Gコード、 Iコード、 および Aコードに符号化し、 それらのコードを、 図 2に示した受信部 で復号することにより得られる合成音を生徒データとして、 教師デ一夕である高 音質の音声。 yの予測値 E [y] を、 幾つかの合成音 (のサンプル値) x,, x2, • · ·の集合と、 所定のタップ係数 w,, w2, · · ·の線形結合により規定され る線形 1次結合モデルにより求めることを考える。 この場合、 予測値 E [y] は、 次式で表すことができる。
E Ly ] =^-^! + ^-^2+ · · · 式 (6) を一般化するために、 タップ係数 の集合でなる行列 W、 生徒デー 夕 Xijの集合でなる行列 X、 および予測値 E [yj] の集合でなる行列 Y' を、 【数 1】
Figure imgf000015_0001
Wi 'E '
w= 2 E [y2]
,r =
.E .
で定義すると、 次のような観測方程式が成立する。
XW=Y'
(7)
ここで、 行列 Xの成分 は、 i件目の生徒データの集合 ( i件目の教師データ の予測に用いる生徒データの集合) の中の: i番目の生徒デ一夕を意味し、 行 列 Wの成分 Wjは、 生徒データの集合の中の j番目の生徒データとの積が演算さ れるタップ係数を表す。 また、 Yiは、 i件目の教師デ一夕を表し、 従って、 E [y,] は、 i件目の教師データの予測値を表す。 なお、 式 (6) の左辺におけ
Σ Ι
る y θは、 行列 Yの成分 のサフィックス iを省略したものであり、 また、 式 (6) の右辺における χ,, χ2, · · ·も、 行列 Xの成分 のサフィックス i を省略したものである。
そして、 この観測方程式に最小自乗法を適用して、 真の高音質の音声 yに近い 予測値 E [y] を求めることを考える。 この場合、 教師データとなる真の高音質 の音声 yの集合でなる行列 Y、 および高音質の音声 yに対する予測値 E [y] の 残差 eの集合でなる行列 Eを、
【数 2】
E=
Figure imgf000016_0001
で定義すると、 式 (7) から、 次のような残差方程式が成立する。
XW=Y+E
• · · (8) この場合、 元の高音質の音声 yに近い予測値 E [y] を求めるためのタヅプ係 数 Wjは、 自乗誤差
【数 3】
2 を最小にすることで求めることができる。
従って、 上述の自乗誤差をタップ係数 Wjで微分したものが 0になる場合、 即 ち、 次式を満たすタップ係数 Wjが、 元の高音質の音声 yに近い予測値 E [y] を求めるため最適値ということになる。
【数 4】 )
Figure imgf000016_0002
(9) そこで、 まず、 式. (8) を、 タップ係数 」で 分することにより、 次式が成 立する。
【数 5】
Figure imgf000017_0001
(10) 式 (9) および (10) より、 式 (1 1) が得られる。
【数 6】
Figure imgf000017_0002
… (1 1) さらに、 式 (8) の残差方程式における生徒データ Xij、 タップ係数 Wj、 教師 データ yi、 および誤差 e iの関係を考慮すると、 式 (1 1) から、—次のような正 規方程式を得ることができる。
【数 7】
1 I ί 1
(2XiiXi1)w1- ( Xi1Xi2)w2+..-+( xiiXij)wj=(∑xi yi)
i=1 i=1
T I l I
(∑Xj2Xil)WH-(∑Xi2 i2}W2+-.-+(∑Xi2 ij)Wj=(∑Xi2yi)
Figure imgf000017_0003
… (1 2) なお、 式 (1 2) に示した正規方程式は、 行列 (共分散行列) Aおよびべクト ル Vを、
【数 8】 '
差替え用紙(規則 26) I I Γ
∑ー I XilXi1 ∑XilXi2 ∑XilXiJ
i=1 X i=1 i=1
X I I
A= ∑Xi2Xi1 ∑Xi2Xi2 ∑Xi2XiJ
i=1 ' i=1 i=1
∑XiJXi2 Zxijxij
i=1 i=1
Figure imgf000018_0001
で定義するとともに、 ベク トル Wを、 数 1で示したように定義すると、 式 .
AW= V ·
… (1 3) で表すことができる。
式 (1 2) における各正規方程式は、 生徒データ Xijおよび教師データ Yiの セットを、 ある程度の数だけ用意することで、 求めるべきタップ係数 Wjの数 J と同じ数だけたてることができ、 従って、 式 (1 3) を、 べク トル Wについて解 くことで (伹し、 式 (1 3) を解くには、 式 (1 3) における行列 Aが正則であ る必要がある) 、 最適なタップ係数 (ここでは、 自乗誤差を最小にするタップ係' 数) を求めることができる。 なお、 式 ( 1 3 ) 'を解くにあたっては、 例えば、 掃き出し法 (Gauss- Jordanの消去法) などを用いることが可能である。
以上のようにして、 最適なタップ係数 Wjを求めておき、 さらに、 そのタップ
差替え甩紙(規則 26) 係数 Wjを用い、 式 (6 ) により、 真の高音質の音声 yに近い予測値 E [ y ] を 求めるのが適応処理である。
なお、 例えば、 教師デ一夕として、 高いサンプリング周波数でサンプリングし た音声信号、 または多ピットを割り当てた音声信号を用いるとともに、 生徒デー 夕として、 その教師データとしての音声信号を間引いたり、 低ビットで再量子化 したした音声信号を C E L P方式により符号化し、 その符号化結果を復号して得 られる合成音を用いた場合、 タップ係数としては、 高いサンプリング周波数でサ ンプリングした音声信号、 または多ビットを割り当てた音声信号を生成するのに、 予測誤差が、 統計的に最小となる高音質の音声が得られることになる。 従って、 この場合、 より高音質の合成音を得ることが可能となる。
図 4の受信部 1 1 4では、 以上のようなクラス分類適応処理により、 コードデ 一夕を復号して得られる合成音を、 さらに、 高音質の音声に復号するようになつ ている。
即ち、 図 5は、 図 4の受信部 1 1 4の第 1の構成例を示している。 なお、 図中、 図 2における場合と対応する部分については、 同一の符号を付してあり、 以下で は、 その説明は、 適宜省略する。
タップ生成部 1 2 1と 1 2 2には、 音声合成フィルタ 2 9が出力する、 サブフ レームごとの合成音データと、 チャネルデコーダ 2 1が出力する、 サブフレーム ごとの Lコード、 Gコード、 Iコード、 Aコ一ドのうちの Lコードとが供給され るようになっている。 タップ生成部 1 2 1と 1 2 2は、 そこに供給される合成音 データから、 高音質の音声の予測値を予測するのに用いる予測タップとするもの と、 クラス分類に用いるクラスタップとするものを、 Lコードに基づいて、 それ ぞれ抽出する。 予測タップは、 予測部 1 2 5に供給され、 クラスタップは、 クラ ス分類部 1 2 3に供給される。
クラス分類部 1 2 3は、 タップ生成部 1 2 2から供給されるクラスタップに基 づいて、 クラス分類を行い、 そのクラス分類結果としてのクラスコードを、 係数 メモリ 1 2 4に供給する。 ここで、 クラス分類部 1 2 3におけるクラス分類の方法としては、 例えば、 K ビット ADRC (Adap t ive Dynami c Range Cod ing)処理を利用した方法等がある。
ここで、 Kビット ADRC処理においては、 例えば、 クラスタップを構成するデ —夕の最大値 MAXと最小値 MINが検出され、 DR-MAX- MINを、 集合の局所的なダ イナミックレンジとし、 このダイナミックレンジ DRに基づいて、 クラスタップ を構成する各データが Kビットに再量子化される。 即ち、 クラスタップを構成す る各デ一夕から、 最小値 MINが減算され、 その減算値が DR/2Kで除算 (量子化) される。 そして、 以上のようにして得られる、 クラスタップを構成する各データ の Kビットの値を、 所定の順番で並べたビット列が、 ADRCコードとして出力さ れる。
このような Kビット ADRC処理を、 クラス分類に利用する場合には、 例えば、 その Kビット ADRC処理の結果得られる ADRCコードを、 クラスコードとすること が可能である。
なお、 クラス分類は、 その他、 例えば、 クラスタップを、 それを構成する各デ —夕を要素とするベクトルと見なして、 そのベクトルとしてのクラスタップをべ クトル量子化すること等によって行うことも可能である。
係数メモリ 1 2 4は、 後述する図 9の学習装置において学習処理が行われるこ とにより得られる、 クラスごとのタップ係数を記憶しており、 クラス分類部 1 2 3が出力するクラスコードに対応するァドレスに記憶されているタップ係数を、 予測部 1 2 5に供給する。
予測部 1 2 5は、 タップ生成部 1 2 1が出力する予測タップと、 係数メモリ 1 2 4が出力するタツプ係数とを取得し、 その予測夕ップとタツプ係数とを用いて、 式 (6 ) に示した線形予測演算を行う。 これにより、 予測部 1 2 5は、 注目して いる注目サブフレームについて、 高音質の音声 (の予測値) を求めて、 D ZA変 換部 3 0に供給する。
次に、 図 6のフローチャートを参照して、 図 5の受信部 1 1 4の処理について 説明する。 チャネルデコーダ 2 1は、 そこに供給されるコードデータから、 Lコ一ド、 G コード、 Iコード、 Aコードを分離し、 それぞれを、 適応コードブック記憶部 2 2、 ゲイン復号器 2 3、 励起コードブック記憶部 2 4、 フィルタ係数復号器 2 5 に供給する。 さらに、 Lコ一ドは、 夕ップ生成部 1 2 1および 1 2 2にも供給さ れる。
そして、 適応コードブック記憶部 2 2、 ゲイン復号器 2 3、 励起コードブック 記憶部 2 4、 演算器 2 6乃至 2 8は、 図 2における場合と同様の処理を行い、 こ れにより、 Lコード、 Gコード、 および Iコードが、 残差信号 eに復号される。 この残差信号は、 音声合成フィルタ 2 9に供給される。
さらに、 フィルタ係数復号器 2 5は、 図 2で説明したように、 そこに供給され る Aコードを、 線形予測係数に復号し、 音声合成フィルタ 2 9に供給する。 音声 合成フィルタ 2 9は、 演算器 2 8からの残差信号と、 フィルタ係数復号器 2 5か らの線形予測係数を用いて音声合成を行い、 その結果得られる合成音を、 タップ 生成部 1 2 1と 1 2 2に供給する。
タップ生成部 1 2 1は、 音声合成フィルタ 2 9が順次出力する合成音のサブフ レームを、 順次、 注目サブフレームとし、 ステップ S 1において、 その注目サブ フレームの合成音データを抽出するとともに、 その注目サブフレームから見て時 間的に過去方向または未来方向の合成音デ一夕を、 そこに供給される Lコードに 基づいて抽出することにより、 予測タップを生成し、 予測部 1 2 5に供給する。 さらに、 ステップ S 1では、 タップ生成部 1 2 2が、 例えば、 やはり、 注目サブ フレームの合成音データを抽出するとともに、 その注目サブフレームから見て時 間的に過去方向または未来方向の合成音デ一夕を、 そこに供給される Lコードに 基づいて抽出することにより、 クラスタップを生成し、 クラス分類部 1 2 3に供 給する。
そして、 ステップ S 2に進み、 クラス分類部 1 2 3は、 タップ生成部 1 2 2か ら供給されるクラスタップに基づいて、 クラス分類を行い、 その結果得られるク ラスコードを、 係数メモリ 1 2 4に供給して、 ステップ S 3に進む。 ステップ S 3では、 係数メモリ 1 2 4は、 クラス分類部 1 2 3から供給される クラスコードに対応するアドレスから、 タップ係数を読み出し、 予測部 1 2 5に 供給する。
そして、 ステップ S 4に進み、 予測部 1 2 5は、 係数メモリ 1 2 4が出力する タップ係数を取得し、 そのタップ係数と、 タップ生成部 1 2 1からの予測タップ とを用いて、 式 (6 ) に示した積和演算を行い、 注目サブフレームの高音質の音 声デ一夕 (の予測値) を得る。
なお、 ステップ S 1乃至 S 4の処理は、 注目サブフレームの合成音デ一夕のサ ンプル値それぞれを、 注目デ一夕として行われる。 即ち、 サブフレームの合成音 データは、 前述したことから、 4 0サンプルで構成されるから、 その 4 0サンプ ルの合成音データそれぞれについて、 ステップ S 1乃至 S 4の処理が行われる。 以上のようにして得られた高音質の音声デ一夕は、 予測部 1 2 5から、 D ZA 変換部 3 0を介して、 スピーカ 3 1に供給され、 これにより、 スピーカ 3 1から は、 高音質の音声が出力される。
ステップ S 4の処理後は、 ステップ S 5に進み、 まだ、 注目サブフレームとし て処理すべきサブフレームがあるかどうかが判定され、 あると判定された場合、 ステップ S 1に戻り、 次に注目サブフレームとすべきサブフレームを、 新たに注 目サブフレームとして、 以下、 同様の処理を繰り返す。 また、 ステップ S 5にお いて、 注目サブフレームとして処理すべきサブフレームがないと判定された場合、 処理を終了する。
次に、 図 7および図 8を参照して、 図 5のタップ生成部 1 2 1での予測タップ の生成方法について説明する。
タップ生成部 1 2 1は、 例えば、 図 7に示すように、 注目サブフレームにおけ る 4 0サンプルの合成音データを抽出するとともに、 注目サブフレームから、 そ の注目サブフレームに配置されている Lコードが表すラグだけ過去の位置を始点 とする 4 0サンプルの合成音データ (以下、 適宜、 ラグ対応の過去データとい う) を抽出し、 注目データについての予測タップとする。 あるいは、 タップ生成部 1 2 1は、 例えば、 図 8に示すように、 注目サブフレ —ムの 4 0サンプルの合成音デ一夕を抽出するとともに、 Lコードが表すラグだ け過去の位置が注目サブフレーム内の合成音データ (例えば、 注目データ等) の 位置となる Lコードが配置された、 注目サブフレームから見て未来方向のサブフ レームに配置された 4 0サンプルの合成音データ (以下、 適宜、 ラグ対応の未来 データという) を抽出し、 注目データについての予測タップとする。
また、 タップ生成部 1 2 1は、 例えば、 注目サブフレームの合成音データ、 ラ グ対応の過去データ、 およびラグ対応の未来データを抽出し、 注目データについ ての予測タップとする。
ここで、 注目データを、 クラス分類適応処理によって予測するにあたり、 注目 サブフレームの合成音データの他、 注目サブフレーム以外のサブフレームの合成 音データを、 予測タップとして用いることにより、 より高音質の音声を得ること ができると考えられる。 そして、 この場合、 予測タップは、 例えば、 単純に、 注 目サブフレームの合成音データの他、 注目サブフレームの直前と直後のサブフレ ームの合成音データによって構成することが考えられる。
しかしながら、 このように、 予測タップを、 単純に、 注目サブフレームの合成 音デ一夕、 および注目サブフレームの直前と直後のサブフレームの合成音データ によって構成する場合には、 予測タップの構成の仕方に、 合成音データの波形特 性がほとんど考慮されていないことから、 その分、 高音質化に影響が生じると考 えられる。
そこで、 タップ生成部 1 2 1は、 上述のように、 予測タップとする合成音デー 夕を、 Lコ一ドに基づいて抽出するようになっている。
即ち、 サブフレームに配置されている Lコードが表すラグ (長期予測ラグ) は、 注目デ一夕部分の合成音の波形が、 過去のどの時点における合成音の波形に類似 しているかを表すので、 注目デ一夕の部分の波形と、 ラグ対応の過去デ一夕ゃラ グ対応の未来データの部分の波形とは、 大きな相関性を有する。
従って、 予測タップを、 注目サブフレームの合成音デ一夕と、 その合成音デー タに対して大きな相関を有するラグ対応の過去データもしくはラグ対応の未来デ 一夕のうちの一方または両方とによって構成することにより、 さらに高音質の音 声を得ることが可能となる。
ここで、 図 5のタップ生成部 1 2 2においても、 例えば、 タップ生成部 1 2 1 における場合と同様にして、 注目サブフレームの合成音データと、 ラグ対応の過 去データもしくはラグ対応の未来デ一夕のうちの一方または両方とからクラスタ ップを生成することが可能であり、 図 5の実施の形態では、 そのようになってい る。
なお、 予測タップやクラスタップの構成パターンは、 上述したパターンのもの に限定されるものではない。 即ち、 予測タップやクラスタップには、 注目サブフ レームのすべての合成音デ一夕を含める他、 1サンプルおき等の合成音データだ けを含めるようにしたり、 注目サブフレームに配置されている Lコードが表すラ グだけ過去の位置のサブフレームから、 そのサブフレームに配置されている Lコ —ドが表すラグだけ過去の位置のサブフレームの合成音データ等を含めるように すること等が可能である。
また、 上述の場合には、 クラスタップと予測タップを同一構成にするようにし たが、 クラスタップと予測タップは、 異なる構成とすることができる。
さらに、 上述の場合には、 Lコードが表すラグだけ過去の位置が注目 ブフレ ーム内の合成音データ (例えば、 注目デ一夕等) の位置となる Lコードが配置さ れた、 注目サブフレームから見て未来方向のサブフレームに配置された 4 0サン プルの合成音デ一夕を、 ラグ対応の未来データとして、 予測タップに含めるよう にしたが、 ラグ対応の未来データとしては、 その他、 例えば、 次のような合成音 データを用いるようにすることも可能である。
即ち、 C E L P方式において符号化データに含まれる Lコードは、 上述したよ うに、 その Lコードが配置されているサブフレームの合成音データの波形と類似 する過去の合成音デ一夕の位置を表すが、 符号化データには、 そのような過去の 類似波形の位置を表す Lコードの他、 未来の類似波形の位置を表す Lコード (以 下、 適宜、 未来 Lコードという) を含めるようにすることが可能である。 この場 合、 注目デ一夕についてのラグ対応の未来データとしては、 注目サブフレームに 配置されている未来 Lコードが表すラグだけ未来の位置にある合成音データを始 点とする 1以上のサンプルを用いることが可能である。
次に、 図 9は、 図 5の係数メモリ 1 2 4に記憶させるタップ係数の学習処理を 行う学習装置の一実施の形態の構成例を示している。
マイク 2 0 1乃至コード決定部 2 1 5は、 図 1のマイク 1乃至コード決定部 1 5とそれぞれ同様に構成される。 マイク 1には、 学習用の音声信号が入力される ようになつており、 従って、 マイク 2 0 1乃至コード決定部 2 1 5では、 その学 習用の音声信号に対して、 図 1における場合と同様の処理が施される。
但し、 コ一ド決定部 2 1 5は、 Lコード、 Gコード、 Iコード、 および Aコ一 ドのうち、 本実施の形態において予測夕ップゃクラスタツプを構成する合成音デ —夕を抽出するのに用いられる Lコードだけを出力するようになっている。
そして、 タップ生成部 1 3 1と 1 3 2には、 自乗誤差最小判定部 2 0 8におい て自乗誤差が最小になったと判定されたときの音声合成フィル夕 2 0 6が出力す る合成音デ一夕が供給される。 さらに、 タップ生成部 1 3 1と' 1 3 2には、 コー ド決定部 2 1 5が、 自乗誤差最小判定部 2 0 8から確定信号を受信したときに出 力する Lコードも供給される。 また、 正規方程式加算回路 1 3 4には、 AZD変 換部 2 0 2が出力する音声データが、 教師データとして供給ざれる。
タップ生成部 1 3 1は、 音声合成フィルタ 2 0 6が出力する合成音データから、 コード決定部 2 1 5が出力する Lコードに基づいて、 図 5のタップ生成部 1 2 1 における場合と同一の予測タップを生成し、 生徒データとして、 正規方程式加算 回路 1 3 4に供給する。
タップ生成部 1 3 2も、 音声合成フィルタ 2 0 6が出力する合成音データから, コード決定部 2 1 5が出力する Lコードに基づいて、 図 5のタップ生成部 1 2 2 における場合と同一のクラスタップを生成し、 クラス分類部 1 3 3に供給する。 クラス分類部 1 3 3は、 タップ生成部 1 3 2からのクラスタップに基づいて、 図 5のクラス分類部 1 2 3における場合と同様のクラス分類を行い、 その結果得 られるクラスコードを、 正規方程式加算回路 1 3 4に供給する。
正規方程式加算回路 1 3 4は、 A/D変換部 2 0 2からの音声データを、 教師 データとして受信するとともに、 タップ生成部 1 3 1からの予測タップを、 生徒 データとして受信し、 その教師データおよび生徒デ一夕を対象として、 クラス分 類部 1 3 3からのクラスコ一ドごとに足し込みを行う。
即ち、 正規方程式加算回路 1 3 4は、 クラス分類部 1 3 3から供給されるクラ スコードに対応するクラスごとに、 予測タップ (生徒データ) を用い、 式 (1 3 ) の行列 Aにおける各コンポーネントとなっている、 生徒データどうしの乗算 ( x in x ini) と、 サメ一シヨン (∑) に相当する演算を行う。
さらに、 正規方程式加算回路 1 3 4は、 やはり、 クラス分類部 1 3 3から供給 されるクラスコードに対応するクラスごとに、 生徒データおよび教師デ一夕を用 レ 、 式 (1 3 ) のベクトル Vにおける各コンポーネントとなっている、 生徒デー 夕と教師デ一夕の乗算 (x iny i) と、 サメ一シヨン (∑) に相当する演算を行う。 正規方程式加算回路 1 3 4は、 以上の足し込みを、 そこに供給される学習用の 音声データのサブフレームすべてを注目サブフレームとし、 かつその注目サブフ レームの音声データすベてを注目データとして行い、 これにより、 各クラスにつ いて、 式 (1 3 ) に示した正規方程式をたてる。
タップ係数決定回路 1 3 5は、 正規方程式加算回路 1 3 4においてクラスごと に生成された正規方程式を解くことにより、 クラスごとに、 タップ係数を求め、 係数メモリ 1 3 6の、 各クラスに対応するアドレスに供給する。
なお、 学習用の音声信号として用意した音声信号によっては、 正規方程式加算 回路 1 3 4において、 タップ係数を求めるのに必要な数の正規方程式が得られな いクラスが生じる場合があり得るが、 タップ係数決定回路 1 3 5は、 そのような クラスについては、 例えば、 デフォルトのタップ係数を出力する。
係数メモリ 1 3 6は、 タップ係数決定回路 1 3 5から供給されるクラスごとの タップ係数を、 そのクラスに対応するアドレスに記憶する。 次に、 図 1 0のフローチャートを参照して、 図 9の学習装置で行われる、 高音 質の音声を復号するためのタップ係数を求める学習処理について説明する。
学習装置には、 学習用の音声信号が供給され、 ステップ S 1 1では、 その学習 用の音声信号から、 教師データと生徒データが生成される。
即ち、 学習用の音声信号は、 マイク 2 0 1に入力され、 マイク 2 0 1乃至コ一 ド決定部 2 1 5は、 図 1のマイク 1乃至コード決定部 1 5における場合とそれぞ れ同様の処理を行う。
その結果、 AZD変換部 2 0 2で得られるディジタル信号の音声データは、 教 師データとして、 正規方程式加算回路 1 3 4に供給される。 また、 自乗誤差最小 判定部 2 0 8において自乗誤差が最小になったと判定されたときに、 音声合成フ ィルタ 2 0 6が出力する合成音データは、 生徒デ一夕として、 タップ生成部 1 3 1と 1 3 2に供給される。 さらに、 自乗誤差最小判定部 2 0 8において自乗誤差 が最小になったと判定されたときに、 コード決定部 2 1 5が出力する Lコードも、 生徒データとして、 タップ生成部 1 3 1と 1 3 2に供給される。
その後、 ステップ S 1 2に進み、 タップ生成部 1 3 1は、 音声合成フィルタ 2 0 6から生徒デ一夕として供給される合成音のサブフレームを注目サブフレーム とし、 さらに、 その注目サブフレームの合成音デ一夕を、 順次、 注目デ一夕とし て、 各注目データについて、 音声合成フィルタ 2 0 6からの合成音デ一夕を用い、 コード決定部 2 1 5からの Lコードに基づいて、 図 5のタップ生成部 1 2 1にお ける場合と同様にして、 予測タップを生成し、 正規方程式加算回路 1 3 4に供給 する。 さらに、 ステップ S 1 2では、 タップ生成部 1 3 2が、 やはり、 合成音デ —夕を用い、 Lコードに基づいて、 図 5のタップ生成部 1 2 2における場合と同 様にして、 クラスタップを生成し、 クラス分類部 1 3 3に供給する。
ステップ S 1 2の処理後は、 ステップ S 1 3に進み、 クラス分類部 1 3 3が、 タップ生成部 1 3 2からのクラスタップに基づいて、 クラス分類を行い、 その結 果得られるクラスコードを、 正規方程式加算回路 1 3 4に供給する。
そして、 ステップ S 1 4に進み、 正規方程式加算回路 1 3 4は、 AZD変換器 2 0 2からの教師データとしての高音質の音声データである学習用の音声データ のうちの注目データに対応するもの、 およびタップ生成部 1 3 2からの生徒デー 夕としての予測タップを対象として、 式 (1 3 ) の行列 Aとベクトル Vの、 上述 したような足し込みを、 クラス分類部 1 3 3からの注目データについてのクラス コードごとに行い、 ステップ S 1 5に進む。
ステップ S 1 5では、 まだ、 注目サブフレームとして処理すべきサブフレーム があるかどうかが判定される。 ステップ S 1 5において、 まだ、 注目サブフレー ムとして処理すべきサブフレームがあると判定された場合、 ステップ S 1 1に戻 り、 次のサブフレームを新たに注目サブフレームとして、 以下、 同様の処理が繰 り返される。
また、 ステップ S 1 5において、 注目サブフレームとして処理すべきサブフレ ームがないと判定された場合、 ステップ S 1 6に進み、 タップ係数決定回路 1 3 5は、 正規方程式加算回路 1 3 4で各クラスごとに生成された正規方程式を解く ことにより、 各クラスごとに、 タップ係数を求め、 係数メモリ 1 3 6の、 各クラ スに対応するアドレスに供給して記憶させ、 処理を終了する。
以上のようにして、 係数メモリ 1 3 6に記憶された各クラスごとのタップ係数 が、 図 5の係数メモリ 1 2 4に記憶されている。
以上のように、 図 5の係数メモリ 1 2 4に記憶されたタップ係数は、 線形予測 演算を行うことにより得られる高音質の音声予測値の予測誤差 (自乗誤差) が、 統計的に最小になるように学習を行うことにより求められたものであるから、 図 5の予測部 1 2 5が出力する音声は、 高音質のものとなる。
なお、 例えば、 図 5および図 9の実施の形態では、 予測タップやクラスタップ を、 音声合成フィルタ 2 0 6が出力する合成音データから構成するようにしたが、 予測タップやクラスタップは、 図 5および図 9において点線で示すように、 Iコ —ドや、 Lコード、 Gコード、 Aコード、 Aコードから得られる線形予測係数 a p、 Gコードから得られるゲイン /3, T、 その他の、 Lコ一ド、 Gコード、 Iコ ード、 または Αコードから得られる情報 (例えば、 残差信号 eや、 残差信号 eを 得るための n、 さらには、 1 Ζ β , η Ζ τなど) のうちの 1以上を含めて構 成することが可能である。 また、 C E L P方式では、 符号化デ一夕としてのコー ドデータに、 リスト補間ビットゃフレームエネルギ等が含められる場合があるが、 この場合、 予測タップやクラスタップは、 ソフト補間ピットやフレームエネルギ 等を含めて構成することも可能である。
次に、 図 1 1は、 図 4の受信部 1 1 4の第 2の構成例を示している。 なお、 図 中、 図 5における場合と対応する部分については、 同一の符号を付してあり、 以 下では、 その説明は、 適宜省略する。 即ち、 図 1 1の受信部 1 1 4は、 タップ生 成部 1 2 1と 1 2 2に替えて、 タップ生成部 3 0 1と 3 0 2がそれぞれ設けられ ている他は、 図 5における場合と同様に構成されている。
図 5の実施の形態においては、 タップ生成部 1 2 1や 1 2 2において (図 9の タップ生成部 1 3 1と 1 3 2においても同様) 、 予測タップやクラスタップが、 注目サブフレームにおける 4 0サンプルの合成音データの他、 ラグ対応の過去デ 一夕もしくはラグ対応の未来データのうちの一方または両方から構成されるが、 ラグ対応の過去データだけ、 ラグ対応の未来データだけ、 またはその両方のうち のいずれを予測タップやクラスタップに含めるかを、 特に制御するようにはなつ ていないことから、 いずれを含めるかを、 あらかじめ決めておき、 固定にしてお く必要がある。
しかしながら、 注目サブフレームを含むフレーム (以下、 適宜、 注目フレーム という) 等が、 例えば、 発話の開始時等に相当する場合には、 図 1 2 Aに示すよ うに、 注目フレームよりも過去のフレーム等は、 無音の状態 (雑音だけが存在す るのと等しい状態) となっていると考えられる。 同様に、 注目フレームが、 例え ば、 発話の終了時等に相当する場合には、 図 1 2 Bに示すように、 注目フレーム よりも未来のフレーム等は、 無音の状態となっていると考えられる。 そして、 こ のような無音部分については、 予測タップやクラスタップに含めても、 音質の向 上にほとんど寄与せず、 むしろ、 最悪の場合には、 音質の向上を妨げるおそれが ある。 一方、 注目フレームが、 発話の開始時や終了時等以外の定常な発話が行われて いる状態に相当する場合には、 図 1 2 Cに示すように、 注目フレームから過去方 向および未来方向のいずれにも、 定常的な音声に相当する合成音データが存在す ると考えられる。 そして、 このような場合には、 ラグ対応の過去データと、 ラグ 対応の未来デ一夕のうちのいずれか一方だけでなく、 その両方を、 予測タップや クラスタップに含めることによって、 さらなる音質の向上を図ることができると 考えられる。
そこで、 図 1 1のタップ生成部 3 0 1と 3 0 2は、 合成音データの波形の推移 が、 例えば、 図 1 2 A乃至図 1 2 Cに示したうちのいずれであるかを判定し、 そ の判定結果に基づいて、 予測タップとクラスタップを、 それぞれ生成するように なっている。
即ち、 図 1 3は、 図 1 1のタップ生成部 3 0 1の構成例を示している。
合成音メモリ 3 1 1には、 音声合成フィルタ 2 9 (図 1 1 ) が出力する合成音 デ一夕が順次供給されるようになっており、 合成音メモリ 3 1 1は、 その合成音 データを、 順次記憶する。 なお、 合成音メモリ 3 1 1は、 注目データとされる合 成音デ一夕について予測タップとされる可能性のある合成音データのうちの、 最 も過去のサンプルから、 最も未来のサンプルまでの間の合成音デ一タを記憶する ことのできる記憶容量を少なくとも有している。 また、 合成音メモリ 3 1 1は、 その記憶容量分だけ、 合成音デ一夕を記憶すると、 次に供給される合成音データ を、 最も古い記憶値に上書きする形で記憶するようになっている。
Lコードメモリ 3 1 2には、 チャネルデコーダ 2 1 (図 1 1 ) が出力するサブ フレーム単位の Lコードが順次供給されるようになっており、 Lコードメモリ 3 1 2は、 その Lコードを、 順次記憶する。 なお、 Lコ一ドメモリ 3 1 2は、 注目 デ一夕とされる合成音デ一夕について予測タップとされる可能性のある合成音デ 一夕のうちの、 最も過去のサンプルが配置されるサブフレームから、 最も未来の サンプルが配置されるサブフレームまでの間の Lコードを記憶することのできる 記憶容量を少なくとも有しており、 また、 その記憶容量分だけ、 Lコードを記憶 すると、 次に供給される Lコードを、 最も古い記憶値に上書きする形で記憶する ようになっている。
フレームパワー計算部 3 1 3は、 合成音メモリ 3 1 1に記憶された合成音デー 夕を用い、 所定のフレーム単位で、 そのフレームにおける合成音データのパワー を求め、 バッファ 3 1 4に供給する。 なお、 フレームパヮ一計算部 3 1 3でパヮ 一を求める単位であるフレームは、 CELP方式におけるフレームやサブフレーム に一致していても良いし、 一致していなくても良い。 従って、 フレームパワー計 算部 3 1 3でパワーを求める単位であるフレームは、 CELP方式におけるフレー ムを構成する 1 6 0サンプルや、 サブフレームを構成する 4 0サンプル以外の値 である、 例えば、 1 2 8サンプル等で構成することが可能である。 但し、 本実施 の形態では、 説明を簡単にするため、 フレームパヮ一計算部 3 1 3でパワーを求 める単位であるフレームは、 CELP 方式におけるフレームと一致するものとする。 バッファ 3 1 4は、 フレームパワー計算部 3 1 3から順次供給される合成音デ —夕のパヮ一を、 順次記憶する。 なお、 バッファ 3 1 4は、 少なくとも、 注目フ レーム、 およびその直前と直後のフレームの、 合計で 3フレーム分の合成音デ一 夕のパワーを記憶することができるようになつており、 また、 その記憶容量分だ け、 パワーを記憶すると、 次にフレームパワー計算部 3 1 3から供給されるパヮ 一を、 最も古い記憶値に上書きする形で記憶するようになっている。
状態判定部 3 1 5は、 バッファ 3 1 4に記憶されたパワーに基づき、 注目デー 夕付近の合成音データの波形の推移を判定する。 即ち、 状態判定部 3 1 5は、 注 目デ一タ付近の合成音データの波形の推移が、 図 1 2 Aに示したように、 注目フ レームの直前のフレームが無音の状態 (以下、 適宜、 立ち上がり状態という) 、 図 1 2 Bに示したように、 注目フレームの直後のフレームが無音の状態 (以下、 適宜、 たち下がり状態という) 、 または図 1 2 Cに示したように、 注目フレーム の直前から直後にかけて定常になっている状態 (以下、 適宜、 定常状態という) のうちのいずれの状態になっているかを判定する。 そして、 状態判定部 3 1 5は、 その判定結果を、 データ抽出部 3 1 6に供給する。 デ一夕抽出部 3 1 6は、 合成音メモリ 3 1 1から、 注目 ブフレームの合成音 デ一夕を読み出すことにより抽出する。 さらに、 デ一タ抽出部 3 1 6は、 状態判 定部 3 1 5からの波形の推移の判定結果に基づき、 Lコードメモリ 3 1 2を参照 して、 合成音メモリ 3 1 1から、 ラグ対応の過去データもしくはラグ対応の未来 デ一夕のうちの一方または両方を読み出すことにより抽出する。 そして、 データ 抽出部 3 1 6は、 合成音メモリ 3 1 1から読み出した注目サブフレームの合成音 データと、 ラグ対応の過去デ一夕もしくはラグ対応の未来データのうちの一方ま たは両方とを、 予測タップとして出力する。
次に、 図 1 4のフローチャートを参照して、 図 1 3のタップ生成部 3 0 1の処 理について説明する。
合成音メモリ 3 1 1には、 音声合成フィルタ 2 9 (図 1 1 ) が出力する合成音 データが順次供給され、 合成音メモリ 3 1 1は、 その合成音データを、 順次記憶 する。 また、 Lコ一ドメモリ 3 1 2には、 チャネルデコーダ 2 1 (図 1 1 ) が出 力するサブフレ一ム単位の Lコードが順次供給され、 Lコードメモリ 3 1 2は、 その Lコードを、 順次記憶する。
一方、 フレームパワー計算部 3 1 3は、 合成音メモリ 3 1 1に記憶された合成 音データを、 フレーム単位で順次読み出し、 各フレームにおける合成音データの パワーを求めて、' バッファ 3 1 4に記憶させている。
そして、 状態判定部 3 1 5は、 ステップ S 2 1において、 バッファ 3 1 4力、ら、 注目フレームのパワー P N、 その直前のフレームのパワー P ^ およびその直後 のフレームのパワー P N+1を読み出し、 注目フレームのパヮ一 P Nと、 直前のフレ —ムのパヮ一 P N— ,との差分値 P N— を計算するとともに、 直後のフレームの パワー Ρ η+ιと、 注目フレームのパワー Ρ ηとの差分値 Ρ„+1— Ρ πとを計算して、 ス テツプ S 2 2に進む。
ステップ S 2 2では、 状態判定部 3 1 5は、 差分値 Ρ Η— Ρ >Ηの絶対値、 およ び差分値 Ρ η+1— Ρ ηの絶対値が、 いずれも、 所定の閾値 εよりも大であるか (以 上であるか) どうかを判定する。 ステップ S 2 2において、 差分値 P n— の絶対値、 または差分値
Figure imgf000033_0001
の絶対値のうちの少なくとも一方が、 所定の閾値 εより大でないと判定された場 合、 状態判定部 3 1 5は、 注目データ付近の合成音データの波形の推移が、 図 1 2 Cに示したように、 注目フレームの直前から直後にかけて定常になっている定 常状態になっていると判定し、 その旨を表す 「定常状態」 メッセージを、 データ 抽出部 3 1 6に供給して、 ステップ S 2 3に進む。
ステップ S 2 3では、 データ抽出部 3 1 6は、 状態判定部 3 1 5から 「定常状 態」 メッセ一ジを受信すると、 合成音メモリ 3 1 1から、 注目サブフレームの合 成音データを読み出すとともに、 さらに、 Lコードメモリ 3 1 2を参照して、 ラ グ対応の過去デ一夕およびラグ対応の未来データとしての合成音データを読み出 す。 そして、 データ抽出部 3 1 6は、 これらの合成音デ一夕を予測タップとして 出力し、 処理を終了する。
また、 ステップ S 2 2において、 差分値 Ρ η— Ρ η の絶対値、 および差分値 Ρ η+ ,一 Ρ ηの絶対値が、 いずれも、 所定の閾値 εより大であると判定された場合、 ス テツプ S 2 4に進み、 状態判定部 3 1 5は、 差分値 Ρ η_ Ρ η—【と、 差分値 Ρ η+1— Ρ„が、 いずれも正であるかどうかを判定する。 ステップ S 2 4において、 差分 値 Ρ η— と、 差分値 Ρ η+1— Ρ πが、 いずれも正であると判定された場合、 状態 判定部 3 1 5は、 注目データ付近の合成音データの波形の推移が、 図 1 2 Αに示 したように、 注目フレームの直前のフレームが無音の状態である立ち上がり状態 になっていると判定し、 その旨を表す 「立ち上がり状態」 メッセージを、 データ 抽出部 3 1 6に供給して、 ステップ S 2 5に進む。
ステップ S 2 5では、 デ一夕抽出部 3 1 6は、 状態判定部 3 1 5から 「立ち上 がり状態」 メッセージを受信すると、 合成音メモリ 3 1 1から、 注目サブフレー ムの合成音データを読み出すとともに、 さらに、 Lコードメモリ 3 1 2を参照し て、 ラグ対応の未来データとしての合成音データを読み出す。 そして、 データ抽 出部 3 1 6は、 これらの合成音データを予測タップとして出力し、 処理を終了す る。 一方、 ステップ S 24において、 差分値 Ρπ— P„— ,と、 差分値 Ρη+1— Ρηのうち の少なくとも一方が、 正でないと判定された場合、 ステップ S 26に進み、 状態 判定部 31 5は、 差分値 Ρη— Ρη— ,と、 差分値 Ρη+1— Ρηが、 いずれも負であるか どうかを判定する。 ステップ S 26において、 差分値 Ρηη— ,と、 差分値 Pn+1 一 Pnのうちの少なくとも一方が、 負でないと判定された場合、 状態判定部 31 5は、 注目データ付近の合成音データの波形の推移が、 定常状態になっていると 判定し、 その旨を表す 「定常状態」 メッセージを、 データ抽出部 3 16に供給し て、 ステップ S 23に進む。
ステップ S 23では、 データ抽出部 3 1 6は、 上述したように、 合成音メモリ 31 1から、 注目サブフレームの合成音データと、 ラグ対応の過去データおよび ラグ対応の未来データを読み出し、 予測タップとして出力して、 処理を終了する。 また、 ステップ S 26において、 差分値 Pn— と、 差分値 Ρη+1— Ρηが、 い ずれも負であると判定された場合、 状態判定部 3 15は、 注目データ付近の合成 音データの波形の推移が、 図 12 Bに示したように、 注目フレームの直後のフレ —ムが無音の状態である立ち下がり状態になっていると判定し、 その旨を表す 「立ち下がり状態」 メッセージを、 データ抽出部 31 6に供給して、 ステップ S 27に進む。
ステップ S 27では、 データ抽出部 316は、 状態判定部 315から 「立ち下 がり状態」 メッセージを受信すると、 合成音メモリ 3 1 1から、 注目サブフレー ムの合成音データを読み出すとともに、 さらに、 Lコードメモリ 3 12を参照し て、 ラグ対応の過去デ一夕としての合成音データを読み出す。 そして、 データ抽 出部 316は、 これらの合成音データを予測タップとして出力し、 処理を終了す る。
なお、 図 1 1のタップ生成部 302も、 図 13に示したタップ生成部 30 1と 同様に構成することができ、 この場合、 図 14で説明したようにして、 クラス夕 ップを構成させることができる。 但し、 図 13において、 合成音メモリ 3 1 1、 Lコ一ドメモリ 312、 フレーパワー計算部 31 3、 バッファ 314、 および状 態判定部 3 1 5は、 タップ生成部 3 0 1と 3 0 2とで兼用することが可能である。 また、 上述の場合には、 注目フレームと、 その直前または直後のフレームそれ ぞれとにおけるパヮ一を比較して、 注目データ付近の合成音データの波形の推移 を判定するようにしたが、 注目データ付近の合成音データの波形の推移を判定は、 その他、 例えば、 注目フレームと、 より過去または未来に亘るフレームそれぞれ とにおけるパヮ一を比較して行うことも可能である。
さらに、 上述の場合には、 注目データ付近の合成音データの波形の推移を、 「定常状態」 、 「立ち上がり状態」 、 または 「たち下がり状態」 の 3つの状態の うちのいずれかに判定するようにしたが、 4以上の状態のいずれかに判定するこ とも可能である。 即ち、 例えば、 図 1 4では、 ステップ S 2 2において、 差分値 P n— の絶対値、 および差分値 P n+1— P nの絶対値を、 いずれも、 1つの閾値 εと比較し、 その大小関係を判定しているが、 差分値 Ρ η— の絶対値や、 差 分値 Ρ η+1— Ρ ηの絶対値を、 複数の閾値と比較するようにすることで、 注目デー 夕付近の合成音デ一夕の波形の推移を、 4以上の状態のいずれかに判定すること が可能である。
そして、 このように、 注目データ付近の合成音データの波形の推移を、 4以上 の状態のいずれかに判定する場合においては、 予測タップは、 注目サブフレーム の合成音データと、 ラグ対応の過去データまたはラグ対応の未来データの他、 例 えば、 そのラグ対応の過去データまたはラグ対応の未来データを注目データとし たときに、 ラグ対応の過去データまたはラグ対応の未来データとなる合成音デ一 タを含めて構成すること等が可能である。
ところで、 タップ生成部 3 0 1において、 以上のように予測タップを生成する 場合には、 その予測タップを構成する合成音データのサンプル数は変化する。 こ のことは、 タップ生成部 3 0 2において生成されるクラスタップについても同様 である。
予測タップについては、 それを構成するデ一夕の数 (タップ数) が変化しても、 その予測タップと同一の数のタップ係数を、 後述する図 1 6の学習装置において 学習し、 係数メモリ 1 2 4に記憶させておけば良いから問題はない。
一方、 クラスタップについては、 それを構成するタップ数が変化すると、 各夕 ップ数のクラスタップごとに得られる全クラス数が変化することから、 処理が複 雑になるおそれがある。 そこで、 クラスタップのタップ数が変化しても、 そのク ラスタップにより得られるクラス数が変化しないようなクラス分類を行うのが望 ましい。
このように、 クラスタップのタップ数が変化しても、 そのクラスタップにより 得られるクラス数が変化しないようなクラス分類を行う方法としては、 クラス分 類において、 例えば、 クラスタップの構成を考慮する方法がある。
即ち、 本実施の形態では、 クラスタップが、 注目サブフレームの合成音デ一夕 の他に、 ラグ対応の過去デ一夕もしくはラグ対応の未来データの一方または両方 を含めて構成されることによって、 クラスタップのタップ数が増減する。 そこで、 例えば、 いま、 クラスタップが、 注目サブフレームの合成音デ一夕と、 ラグ対応 の過去デ一夕もしくはラグ対応の未来デー夕の一方とから構成される場合に、 そ のタップ数が S個であるとし、 クラスタップが、 注目サブフレームの合成音デ一 夕と、 ラグ対応の過去デ一夕およびラグ対応の未来データの両方とから構成され る場合に、 そのタップ数が L O S ) 個であるとする。 そして、 タップ数が S個 の場合は、 nビットのクラスコードが得られ、 タップ数が L個の場合は、 n + m ビットのクラスコ一ドが得られるとする。
この場合、 クラスコードとして、 n + m+ 2ビットを用いるとともに、 その n + m + 2ビットのうちの、 例えば、 上位ビットの 2ビットを、 クラスタップが、 ラグ対応の過去デ一夕を含む場合、 ラグ対応の未来データを含む場合、 その両方 を含む場合の 3つの場合とで、 それぞれ、 例えば、 " 0 0 " , " 0 1 " , " 1 0 " に設定することにより、 タップ数が S個と L個のいずれであっても、 全クラス 数が 2 n½+2クラスのクラス分類が可能となる。
即ち、 クラスタップが、 ラグ対応の過去データと、 ラグ対応の未来データの両 方を含み、 そのタップ数が L個の場合には、 n + mビットのクラスコードが得ら れるクラス分類を行い、 その n +mビットのクラスコードに、 その上位 2ビット として、 クラスタップが、 ラグ対応の過去データと、 ラグ対応の未来データの両 方を含むことを表す" 10" を付加した n+m+ 2ビットを最終的なクラスコー ドとすれば良い。
また、 クラスタップが、 ラグ対応の過去データを含み、 そのタップ数が S個の 場合には、 nビットのクラスコ一ドが得られるクラス分類を行い、 その nビット のクラスコードに、 その上位ビットとして、 mビットの" 0" を付加して n+m ビットとし、 さらに、 その n+mビットに、 上位ビットとして、 クラスタップが、 ラグ対応の過去データを含むことを表す" 00" を付加した n+m+ 2ビットを 最終的なクラスコードとすれば良い。
さらに、 クラスタップが、 ラグ対応の未来デ一夕を含み、 そのタップ数が S個 の場合には、 nビットのクラスコードが得られるクラス分類を行い、 その nビッ トのクラスコードに、 その上位ビットとして、 mビットの" 0" を付加して n + mビットとし、 さらに、 その n+mビットに、 上位ピットとして、 クラスタップ が、 ラグ対応の未来デ一夕を含むことを表す" 01" を付加した n+m+ 2ビッ トを最終的なクラスコ一ドとすれば良い。
次に、 図 1 3のタップ生成部 301では、 フレ一ムパヮ一計算部 313におい て、 合成音データから、 そのフレーム単位のパワーを計算するようにしたが、 CE LP方式によって、 音声を符号化した符号化データ (コードデ一夕) には、 上述 したように、 フレームエネルギが含められる場合があり、 この場合には、 そのフ レームエネルギを、 そのフレームにおける合成音のパワーとして採用することが 可能である。
図 15は、 フレームエネルギを、 そのフレームにおける合成音のパワーとして 採用する場合の、 図 1 1のタップ生成部 30 1の構成例を示している。 なお、 図 中、 図 1 3における場合と対応する部分については、 同一の符号を付してある。 即ち、 図 1 5のタップ生成部 30 1は、 フレ一ムパワー計算部 313が設けられ ていない他は、 図 13における場合と同様に構成されている。 但し、 ノ ッファ 3 1 4には、 受信部 1 1 4 (図 1 1 ) に供給される符号化デー 夕 (コードデータ) に含まれる、 フレームごとのフレームエネルギが供給されて いるようになっており、 ノ ッファ 3 1 4は、 このフレームエネルギを記憶するよ うになつている。 そして、 状態判定部 3 1 5は、 このフレームエネルギを、 上述 した、 合成音データから求められるフレーム単位のパワーと同様に用いて、 注目 デ一夕付近の合成音データの波形の推移を判定する。
ここで、 符号化データに含まれる、 フレームごとのフレームエネルギは、 チヤ ネルエンコーダ 2 1において、 符号化データから分離され、 タップ生成部 3 0 1 に供給される。
なお、 タップ生成部 3 0 2も、 図 1 5に示したように構成することが可能であ る。
次に、 図 1 6は、 受信部 1 1 4が図 1 1に示したように構成される場合に、 そ の係数メモリ 1 2 4に記憶されるタップ係数を学習する学習装置の一実施の形態 の構成例を示している。 なお、 図中、 図 9における場合と対応する部分について は、 同一の符号を付してあり、 以下では、 その説明は、 適宜省略する。 即ち、 図 1 6の学習装置は、 夕ップ生成部 1 3 1と 1 3 2に替えて、 タツプ生成部 3 2 1 と 3 2 2がそれぞれ設けられている他は、 図 9における場合と同様に構成される c 夕ップ生成部 3 2 1と 3 2 2は、 図 1 1のタツプ生成部 3 0 1と 3 0 2におけ る場合とそれぞれ同様にして、 予測夕ップとクラスタツプを構成する。
従って、 この場合、 より高音質の音声を復号することのできるタップ係数を得 ることができる。
なお、 学習装置において、 予測タップやクラスタップの生成にあたり、 注目デ —夕付近の合成音データの波形の推移の判定を、 図 1 5で説明したように、 フレ ームごとのフレームエネルギを用いて行う場合には、 そのフレームエネルギは、 L P C分析部 2 0 4における L P C分析の過程で得られる自己相関係数を用いて 計算することができる。
そこで、 図 1 7は、 自己相関係数からフレームエネルギを求める場合の図 1 6 のタップ生成部 3 2 1の構成例を示している。 なお、 図中、 図 1 3のタップ生成 部 3 0 1における場合と対応する部分については、 同一の符号を付してあり、 以 下では、 その説明は、 適宜省略する。 即ち、 図 1 7のタップ生成部 3 2 1は、 フ レームパワー計算部 3 1 3に替えてフレームエネルギ計算部 3 3 1が設けられて いる他は、 図 1 3におけるタップ生成部 3 0 1と同様に構成されている。
フレームエネルギ計算部 3 3 1には、 図 1 6の L P C分析部 2 0 4が L P C分 析を行う過程で求められる音声の自己相関係数が供給されるようになっており、 フレームエネルギ計算部 3 3 1は、 その自己相関係数から、 符号化データ (コ一 ドデ一夕) に含められるフレームエネルギを計算し、 バッファ 3 1 4に供給する。 従って、 図 1 7の実施の形態では、 状態判定部 3 1 5は、 このフレームェネル ギを、 上述した、 合成音データから求められるフレーム単位のパワーと同様に用 いて、 注目デ一夕付近の合成音データの波形の推移を判定する。
なお、 図 1 6のクラスタップを生成するタップ生成部 3 2 2も、 図 1 7に示し たように構成することが可能である。
次に、 図 1 8は、 図 4の受信部 1 1 4の第 3の構成例を示している。 なお、 図 中、 図 5または図 1 1における場合と対応する部分については、 同一の符号を付 してあり、 その説明は、 適宜省略する。
図 5や図 1 1の受信部 1 1 4は、 音声合成フィルタ 2 9が出力する合成音デー 夕に対して、 クラス分類適応処理を施すことによって、 高音質の音声を復号する ようになっていたが、 図 1 8の受信部 1 1 4は、 音声合成フィル夕 2 9に入力さ れる残差信号 (復号残差信号) と、 線形予測係数 (復号線形予測係数) に対して、 クラス分類適応処理を施すことによって、 高音質の音声を復号するようになって いる。
即ち、 適応コードブック記憶部 2 2、 ゲイン復号器 2 3、 励起コードブック記 憶部 2 4、 および演算器 2 6乃至 2 8において、 Lコード、 Gコード、 および I コードから復号される残差信号である復号残差信号や、 フィルタ係数復号器 2 5 において、 Aコードから復号される線形予測係数である復号線形予測係数は、 前 述したように、 誤差を含むものとなっており、 そのまま音声合成フィルタ 2 9に 入力したのでは、 音声合成フィル夕 2 9から出力される合成音データの音質が劣 化する。
そこで、 図 1 8の受信部 1 1 4では、 学習により求めたタップ係数を用いた予 測演算を行うことにより、 真の残差信号と線形予測係数の予測値を求め、 これら を音声合成フィルタ 2 9に与えることで、 高音質の合成音を生成するようになつ ている。
即ち、 図 1 8の受信部 1 1 4では、 例えば、 クラス分類適応処理を利用して、 復号残差信号が、 真の残差信号 (の予測値) に復号されるとともに、 復号線形予 測係数が、 真の線形予測係数 (の予測値) に復号され、 その残差信号と線形予測 係数を、 音声合成フィルタ 2 9に与えることで、 高音質の合成音データが求めら れる。
そのために、 演算器 2 8が出力する復号残差信号は、 タップ生成部 3 4 1と 3 2に供給される。 また、 タップ生成部 3 4 1と 3 4 2には、 チャネルデコーダ 2 1が出力する Lコードも供給されるようになっている。
そして、 夕ップ生成部 3 4 1は、 図 5のタツプ生成部 1 2 1や図 1 1のタップ 生成部 3 0 1と同様にして、 そこに供給される復号残差信号から、 予測タップと するサンプルを、 Lコードに基づいて抽出し、 予測部 3 4 5に供給する。
夕ップ生成部 3 4 2も、 図 5のタツプ生成部 1 2 2や図 1 1のタツプ生成部 3 0 2と同様にして、 そこに供給される復号残差信号から、 クラスタップとするサ ンプルを、 Lコードに基づいて抽出し、 クラス分類部 3 4 3に供給する。
クラス分類部 3 4 3は、 タップ生成部 3 4 2から供給されるクラスタップに基 づいて、 クラス分類を行い、 そのクラス分類結果としてのクラスコードを、 係数 メモリ 3 4 4に供給する。
係数メモリ 3 4 4は、 後述する図 2 1の学習装置において学習処理が行われる ことにより得られる、 クラスごとの残差信号についてのタップ係数 wwを記憶し ており、 クラス分類部 3 4 3が出力するクラスコードに対応するアドレスに記憶 されているタップ係数を、 予測部 3 4 5に供給する。
予測部 3 4 5は、 タップ生成部 3 4 1が出力する予測タップと、 係数メモリ 3
4 4が出力する残差信号についてのタップ係数とを取得し、 その予測タップと夕 ップ係数とを用いて、 式 (6 ) に示した線形予測演算を行う。 これにより、 予測 部 3 4 5は、 注目サブフレームの残差信号 (の予測値) e mを求めて、 音声合成 フィル夕 2 9に、 入力信号として供給する。
タップ生成部 3 5 1と 3 5 2には、 フィル夕係数復号器 2 5が出力する、 サブ フレームごとの復号線形予測係数 α ρ' が供給されるようになっており、 タップ 生成部 3 5 1と 3 5 2は、 その復号線形予測係数から、 予想タップとクラスタツ プとするものをそれぞれ抽出する。 ここで、 タップ生成部 3 5 1と 3 5 2は、 例 えば、 注目サブフレームの線形予測係数すベてを、 それぞれ、 予測タップとクラ スタップとする。 予測タップは、 タップ生成部 3 5 1から予測部 3 5 5に供給さ れ、 クラスタップは、 タップ生成部 3 5 2からクラス分類部 3 5 3に供給される。 クラス分類部 3 5 3は、 タップ生成部 3 5 2から供給されるクラスタップに基 づいて、 クラス分類を行い、 そのクラス分類結果としてのクラスコードを、 係数 メモリ 3 5 4に供給する。
係数メモリ 3 5 4は、 後述する図 2 1の学習装置において学習処理が行われる ことにより得られる、 クラスごとの線形予測係数についてのタツプ係数 w ωを記 憶しており、 クラス分類部 3 5 3が出力するクラスコードに対応するアドレスに 記憶されているタツプ係数を、 予測部 3 5 5に供給する。
予測部 3 5 5は、 タップ生成部 3 5 1が出力する予測タップと、 係数メモリ 3
5 4が出力する線形予測係数についてのタップ係数とを取得し、 その予測タップ とタップ係数とを用いて、 式 (6 ) に示した線形予測演算を行う。 これにより、 予測部 3 5 5は、 注目サブフレームの線形予測係数 (の予測値) m o; pを求めて, 音声合成フィルタ 2 9に供給する。
次に、 図 1 9のフロ一チャートを参照して、 図 1 8の受信部 1 1 4の処理につ いて説明する。 チャネルデコ一ダ 2 1は、 そこに供給されるコ一ドデ一夕から、 Lコード、 G コード、 Iコード、 Aコードを分離し、 それぞれを、 適応コードブック記憶部 2 2、 ゲイン復号器 2 3、 励起コードブック記憶部 2 4、 フィルタ係数復号器 2 5 に供給する。 さらに、 Lコードは、 タップ生成部 3 4 1と 3 4 2にも供給される。 そして、 適応コードブック記憶部 2 2、 ゲイン復号器 2 3、 励起コードブック 記憶部 2 4、 演算器 2 6乃至 2 8では、 図 1の適応コードブック記憶部 9、 ゲイ ン復号器 1 0、 励起コードブック記憶部 1 1、 演算器 1 2乃至 1 4における場合 と同様の処理が行われ、 これにより、 Lコード、 Gコード、 および Iコードが、 残差信号 eに復号される。 この復号残差信号は、 演算器 2 8からタップ生成部 3 4 1と 3 4 2に供給される。
さらに、 フィルタ係数復号器 2 5は、 図 2で説明したように、 そこに供給され る Aコードを、 復号線形予測係数に復号し、 タップ生成部 3 5 1と 3 5 2に供給 する。
そして、 ステップ S 3 1において、 予測タップとクラスタップが生成される。 即ち、 タップ生成部 3 4 1は、 そこに供給される復号残差信号のサブフレーム を、 順次、 注目サブフレームとし、 さらに、 その注目サブフレームの復号残差信 号のサンプル値を、 順次、 注目データとして、 注目サブフレームにおける復号残 差信号を抽出するとともに、 チャネルデコーダ 2 1が出力する注目サブフレーム に配置された Lコード等に基づいて、 注目サブフレーム以外の復号残差信号を抽 出し、 即ち、 注目サブフレームに配置されている Lコードが表すラグだけ過去の 位置を始点とする 4 0サンプルの復号残差信号 (これも、 以下、 適宜、 ラグ対応 の過去データという) 、 または Lコードが表すラグだけ過去の位置が注目データ の位置となる Lコードが配置された、 注目サブフレームから見て未来方向のサブ フレームに配置された 4 0サンプルの復号残差信号 (これも、 以下、 適宜、 ラグ 対応の未来デ一夕という) を抽出し、 予測タップを生成する。 タップ生成部 3 4 2も、 タップ生成部 3 4 1と同様にして、 クラスタップを生成する。
さらに、 ステップ S 3 1では、 タップ生成部 3 5 1と 3 5 2が、 フィル夕係数 復号器 3 5が出力する注目サブフレームの復号線形予測係数を、 それぞれ、 予測 タップとクラスタップとして抽出する。
そして、 タップ生成部 3 4 1で得られた予測タップは予測部 3 4 5に、 タップ 生成部 3 4 2で得られたクラスタップはクラス分類部 3 4 3に、 タップ生成部 3 5 1で得られた予測タップは予測部 3 5 5に、 タップ生成部 3 5 2で得られたク ラスタップはクラス分類部 3 5 3に、 それぞれ供給される。
そして、 ステップ S 3 2に進み、 クラス分類部 3 4 3が、 タップ生成部 3 4 2 から供給されるクラスタップに基づいて、 クラス分類を行い、 その結果得られる クラスコードを、 係数メモリ 3 4 4に供給するとともに、 クラス分類部 3 5 3が、 タップ生成部 3 5 2から供給されるクラスタップに基づいて、 クラス分類を行い、 その結果得られるクラスコードを、 係数メモリ 3 5 4に供給して、 ステップ S 3 3に進む。
ステップ S 3 3では、 係数メモリ 3 4 4が、 クラス分類部 3 4 3から供給され るクラスコ一ドに対応するアドレスから、 残差信号についてのタップ係数を読み 出し、 予測部 3 4 5に供給するとともに、 係数メモリ 3 5 4が、 クラス分類部 3 4 3から供給されるクラスコードに対応するァドレスから、 線形予測係数につい てのタップ係数を読み出し、 予測部 3 5 5に供給する。
そして、 ステップ S 3 4に進み、 予測部 3 4 5は、 係数メモリ 3 4 4が出力す る残差信号についてのタップ係数を取得し、 そのタップ係数と、 タップ生成部 3 4 1からの予測タップとを用いて、 式 (6 ) に示した積和演算を行い、 注目サブ フレームの真の残差信号 (の予測値) を得る。 さらに、 ステップ S 3 4では、 予 測部 3 5 5は、 係数メモリ 3 4 4が出力する線形予測係数についてのタップ係数 を取得し、 そのタップ係数と、 タップ生成部 3 5 1からの予測タップとを用いて、 式 (6 ) に示した積和演算を行い、 注目サブフレームの真の線形予測係数 (の予 測値) を得る。
以上のようにして得られた残差信号および線形予測係数は、 音声合成フィルタ 2 9に供給され、 音声合成フィルタ 2 9では、 その残差信号および線形予測係数 を用いて、 式 (4 ) の演算が行われることにより、 注目サブフレームの注目デー 夕に対応する合成音データが生成される。 この合成音データは、 音声合成フィル 夕 2 9から、 D ZA変換部 3 0を介して、 スピーカ 3 1に供給され、 これにより、 スピ一力 3 1からは、 その合成音データに対応する合成音が出力される。
予測部 3 4 5と 3 5 5において、 残差信号と線形予測係数がそれぞれ得られた 後は、 ステップ S 3 5に進み、 まだ、 注目サブフレームとして処理すべきサブフ レームの Lコ一ド、 Gコード、 Iコード、 および Aコードがあるかどうかが判定 される。 ステップ S 3 5において、 まだ、 注目サブフレームとして処理すべきフ レームの Lコード、 Gコード、 Iコ一ド、 および Aコードがあると判定された場 合、 ステップ S 3 1に戻り、 次に注目サブフレームとすべきサブフレームを、 新 たに注目サブフレームとして、 以下、 同様の処理を繰り返す。 また、 ステップ S 3 5において、 注目サブフレームとして処理すべきフレームの Lコード、 Gコ一 ド、 Iコード、 および Aコードがないと判定された場合、 処理を終了する。
次に、 図 1 8のタップ生成部 3 4 1においては (クラスタップを生成するタツ プ生成部 3 4 2についても同様) 、 予測タップが、 注目サブフレームの復号残差 信号と、 ラグ対応の過去データもしくはラグ対応の未来データのうちの一方また は両方から構成されるが、 その構成は、 固定とすることもできるが、 残差信号の 波形の推移に基づいて可変にすることもできる。
図 2 0は、 残差信号の波形の推移に基づいて、 予測タップの構成を可変にする 場合のタップ生成部 3 4 1の構成例を示している。 なお、 図中、 図 1 3における 場合と対応する部分については、 同一の符号を付してあり、 以下では、 その説明 は、 適宜省略する。 即ち、 図 2 0のタップ生成部 3 4 1は、 合成音メモリ 3 1 1 とフレームパワー計算部 3 1 3に替えて、 残差信号メモリ 3 6 1とフレームパヮ —計算部 3 6 3が設けられている他は、 図 1 3のタップ生成部 3 0 1と同様に構 成されている。
残差信号メモリ 3 6 1には、 演算器 2 8 (図 1 8 ) が出力する復号残差信号が 順次供給されるようになっており、 残差信号メモリ 3 6 1は、 その復号残差信号 を、 順次記憶する。 なお、 残差信号メモリ 3 6 1は、 注目データについて予測タ ップとされる可能性のある復号残差信号のうちの、 最も過去のサンプルから、 最 も未来のサンプルまでの間の復号残差信号を記憶することのできる記憶容量を少 なくとも有している。 また、 残差信号メモリ 3 6 1は、 その記憶容量分だけ、 復 号残差信号を記憶すると、 次に供給される復号残差信号のサンプル値を、 最も古 い記憶値に上書きする形で記憶するようになっている。
フレームパワー計算部 3 6 3は、 残差信号メモリ 3 6 1に記憶された残差信号 を用い、 所定のフレーム単位で、 そのフレームにおける残差信号のパワーを求め、 バッファ 3 1 4に供給する。 なお、 フレームパワー計算部 3 6 3でパヮ一を求め る単位であるフレームは、 図 1 3のフレームパワー計算部 3 1 3における場合と 同様に、 CELP方式におけるフレームやサブフレームに一致していても良いし、 一致していなくても良い。
図 2 0のタップ生成部 3 4 1では、 合成音データのパワーでなく、 復号残差信 号のパワーが求められ、 そのパワーに基づいて、 残差信号の波形の推移が、 例え ば、 図 1 2で説明したように、 立ち上がり状態、 たち下がり状態、 定常状態のう ちのいずれであるかが判定される。 そして、 その判定結果に基づいて、 注目サブ フレームの復号残差信号の他、 ラグ対応の過去デ一夕もしくはラグ対応の未来デ 一夕のうちの一方または両方が抽出され、 予測夕ップが生成される。
なお、 図 1 8のタップ生成部 3 4 2も、 図 2 0に示したタップ生成部 3 4 1と 同様に構成することができる。
また、 図 1 8の実施の形態では、 復号残差信号についてだけ、 Lコードに基づ いて、 予測タップやクラスタップを生成するようにしたが、 復号線形予測係数に ついても、 Lコードに基づいて、 注目サブフレーム以外の復号線形予測係数を抽 出し、 予測タップやクラスタップを生成するようにすることが可能である。 この 場合、 図 1 8において点線で示すように、 チャネルデコーダ 2 1が出力する Lコ —ドを、 タップ生成部 3 5 1や 3 5 2に供給するようにすれば良い。
さらに、 上述の場合においては、 予測タップやクラスタップを、 合成音デ一タ から生成するときには、 合成音データのパワーを求め、 そのパワーに基づき、 合 成音データの波形の推移を判定し、 また、 復号残差信号から生成するときには、 復号残差信号のパワーを求め、 そのパワーに基づき、 合成音デ一夕の波形の推移 を判定するようにしたが、 合成音データの波形の推移は、 残差信号のパワーに基 づいて判定することが可能であり、 同様に、 残差信号の波形の推移は、 合成音デ 一夕のパワーに基づいて判定することが可能である。
次に、 図 2 1は、 図 1 8の係数メモリ 3 4 4と 3 5 4に記憶させるタップ係数 の学習処理を行う学習装置の一実施の形態の構成例を示している。 なお、 図中、 図 1 6における場合と対応する部分については、 同一の符号を付してあり、 以下 では、 その説明は、 適宜省略する。
予測フィルタ 3 7 0には、 A/D変換部 2 0 2が出力する、 ディジタル信号と された学習用の音声信号と、 L P C分析部 2 0 4が出力する線形予測係数が供給 される。 また、 タップ生成部 3 7 1と 3 7 2には、 演算器 2 1 4が出力する復号 残差信号 (音声合成フィルタ 2 0 6に供給されるのと同一の残差信号) 、 および コード決定部 2 1 5が出力する Lコードが供給され、 タップ生成部 3 8 1と 3 8 2には、 べクトル量子化部 2 0 5が出力する復号線形予測係数 (べクトル量子化 に用いられるコードブックのコードベクトル (セントロイドベクトル) を構成す る線形予測係数) が供給される。 さらに、 正規方程式加算回路 3 8 4には、 L P C分析部 2 0 4が出力する線形予測係数が供給される。
予測フィルタ 3 7 0は、 AZD変換部 2 0 2から供給される学習用の音声信号 のサブフレームを、 順次、 注目サブフレームとして、 その注目サブフレームの音 声信号と、 L P C分析部 2 0 4から供給される線形予測係数を用いて、 例えば、 式 (1 ) にしたがった演算を行うことにより、 注目フレームの残差信号を求める c この残差信号は、 教師データとして、 正規方程式加算回路 3 7 4に供給される。 タップ生成部 3 7 1は、 演算器 2 1 4から供給される復号残差信号を用い、 コ —ド決定部 2 1 5が出力する Lコードに基づいて、 図 1 8のタップ生成部 3 4 1 における場合と同一の予測タップを生成し、 正規方程式加算回路 3 7 4に供給す る。 タップ生成部 3 7 2も、 演算器 2 1 4から供給される復号残差信号を用い、 コード決定部 2 1 5が出力する Lコードに基づいて、 図 1 8のタップ生成部 3 4 2における場合と同一のクラスタップを生成し、 クラス分類部 3 7 3に供給する。 クラス分類部 3 7 3は、 タップ生成部 3 7 1から供給されるクラスタップに基 づき、 図 1 8のクラス分類部 3 4 3における場合と同様にのクラス分類を行い、 その結果得られるクラスコードを、 正規方程式加算回路 3 7 4に供給する。
正規方程式加算回路 3 7 4は、 予測フィル夕 3 7 0からの注目サブフレームの 残差信号を、 教師データとして受信するとともに、 タップ生成部 3 7 1からの予 測タップを、 生徒データとして受信し、 その教師デ一夕および生徒デ一夕を対象 として、 クラス分類部 3 7 3からのクラスコードごとに、 図 9や図 1 6の正規方 程式加算回路 1 3 4における場合と同様の足し込みを行うことにより、 各クラス について、 残差信号に関する式 (1 3 ) に示した正規方程式をたてる。
タップ係数決定回路 3 7 5は、 正規方程式加算回路 3 7 4においてクラスごと に生成された正規方程式それぞれを解くことにより、 クラスごとに、 残差信号に ついてのタップ係数をそれぞれ求め、 係数メモリ 3 7 6の、 各クラスに対応する ァドレスにそれぞれ供給する。
係数メモリ 3 7 6は、 タップ係数決定回路 3 7 5から供給されるクラスごとの 残差信号についてのタップ係数を記憶する。
タップ生成部 3 8 1は、 ベクトル量子化部 2 0 5から供給される、 コードべク トルの要素となっている線形予測係数、 即ち、 復号線形予測係数を用いて、 図 1 8のタップ生成部 3 5 1における場合と同一の予測タップを生成し、 正規方程式 加算回路 3 8 4に供給する。 タップ生成部 3 8 2も、 ベクトル量子化部 2 0 5か ら供給される復号線形予測係数を用い、 図 1 8のタップ生成部 3 5 2における場 合と同一のクラスタップを生成し、 クラス分類部 3 8 3に供給する。
なお、 図 1 8の実施の形態において、 復号線形予測係数につき、 Lコ"ドに基 づいて、 注目サブフレーム以外の復号線形予測係数を抽出して、 予測タップゃク ラスタップを生成する場合には、 図 2 1のタップ生成部 3 8 1や 3 8 2において も、 同様にして、 予測タップやクラスタップを生成する必要があり、 この場合、 タップ生成部 3 8 1や 3 8 2には、 図 2 1において点線で示すように、 コード決 定部 2 1 5が出力する Lコードが供給される。
クラス分類部 3 8 3は、 図 1 8のクラス分類部 3 5 3における場合と同様に、 タップ生成部 3 8 2からのクラスタップに基づいて、 クラス分類を行い、 その結 果得られるクラスコードを、 正規方程式加算回路 3 8 4に供給する。
正規方程式加算回路 3 8 4は、 L P C分析部 2 0 4からの注目サブフレ一ムの 線形予測係数を、 教師データとして受信するとともに、 タップ生成部 3 8 1から の予測タップを、 生徒データとして受信し、 その教師データおよび生徒デ一夕を 対象として、 クラス分類部 3 8 3からのクラスコードごとに、 図 9や図 1 6の正 規方程式加算回路 1 3 4における場合と同様の足し込みを行うことにより、 各ク ラスについて、 線形予測係数に関する式 (1 3 ) に示した正規方程式をたてる。 タップ係数決定回路 3 8 5は、 正規方程式加算回路 3 8 4においてクラスごと に生成された正規方程式を解くことにより、 クラスごとに、 線形予測係数につい てのタップ係数をそれぞれ求め、 係数メモリ 3 8 6の、 各クラスに対応するアド レスに供給する。
係数メモリ 3 8 6は、 タップ係数決定回路 3 8 5から供給されるクラスごとの 線形予測係数についてのタツプ係数を記憶する。
なお、 学習用の音声信号として用意する音声信号によっては、 正規方程式加算 回路 3 7 4や 3 8 4において、 タップ係数を求めるのに必要な数の正規方程式が 得られないクラスが生じる場合があり得るが、 タップ係数決定回路 3 7 5と 3 8 5は、 そのようなクラスについては、 例えば、 デフォルトのタップ係数を出力す る。
次に、 図 2 2のフローチャートを参照して、 図 2 1の学習装置が行う、 残差信 号と線形予測係数それぞれについてのタップ係数を求める学習処理について説明 する。
学習装置には、 学習用の音声信号が供給され、 ステップ S 4 1において、 その 学習用の音声信号から、 教師データと生徒データが生成される。
即ち、 学習用の音声信号は、 マイク 2 0 1に入力され、 マイク 2 0 1乃至コー ド決定部 2 1 5は、 図 1のマイク 1乃至コード決定部 1 5における場合とそれぞ れ同様の処理を行う。
その結果、 L P C分析部 2 0 4で得られる線形予測係数は、 教師デ一夕として、 正規方程式加算回路 3 8 4に供給される。 また、 この線形予測係数は、 予測フィ ル夕 3 7 0にも供給される。 さらに、 演算器 2 1 4で得られる復号残差信号は、 生徒データとして、 タップ生成部 3 7 1および 3 7 2に供給される。
また、 A/D変換部 2 0 2が出力するディジタルの音声信号は、 予測フィルタ 3 7 0に供給され、 べクトル量子化部 2 0 5が出力する復号線形予測係数は、 生 徒データとして、 タップ生成部 3 8 1および 3 8 2に供給される。 さらに、 コー ド決定部 2 1 5は、 自乗誤差最小判定部 2 0 8から確定信号を受信したときの、 自乗誤差最小判定部 2 0 8からの Lコードを、 タップ生成部 3 7 1および 3 7 2 に供給する。
そして、 予測フィル夕 3 7 0は、 AZD変換部 2 0 2から供給される学習用の 音声信号のサブフレームを、 順次、 注目サブフレームとして、 その注目サブフレ ームの音声信号と、 L P C分析部 2 0 4から供給される線形予測係数 (注目サブ フレ ムの音声信号から求められた線形予測係数) を用いて、 式 (1 ) にしたが つた演算を行うことにより、 注目サブフレームの残差信号を求める。 この予測フ ィルタ 3 7 0で得られる残差信号は、 教師データとして、 正規方程式加算回路 3 7 4に供給される。
以上のようにして、 教師データと生徒デ一夕が得られた後は、 ステップ S 4 2 に進み、 タップ生成部 3 7 1と 3 7 2が、 演算器 2 1 4から供給される復号残差 信号を用い、 コード決定部 2 1 5からの Lコードに基づいて、 残差信号について の予測タップとクラスタップをそれぞれ生成する。 即ち、 タップ生成部 3 7 1と 3 7 2は、 演算器 2 1 4からの注目サブフレームの復号残差信号と、 ラグ対応の 過去データまたはラグ対応の未来デ一夕とから、 残差信号についての予測タップ とクラスタツプをそれぞれ生成する。
さらに、 ステップ S 4 2では、 タップ生成部 3 8 1と 3 8 2が、 ベクトル量子 化部 2 0 5から供給される注目サブフレームの線形予測係数から、 線形予測係数 についての予測タップとクラスタップを生成する。
そして、 残差信号についての予測タップは、 タップ生成部 3 7 1から正規方程 式加算回路 3 7 4に供給され、 残差信号についてのクラスタップは、 タップ生成 部 3 7 2からクラス分類部 3 7 3に供給される。 また、 線形予測係数についての 予測タップは、 タップ生成部 3 8 1から正規方程式加算回路 3 8 4に供給され、 線形予測係数についてのクラスタップは、 タップ生成部 3 8 2からクラス分類回 路 3 8 3に供給される。
その後、 ステップ S 4 3において、 クラス分類部 3 7 3と 3 8 3が、 そこに供 .給されるクラスタップに基づいて、 クラス分類を行い、 その結果得られるクラス コードを、 正規方程式加算回路 3 8 4と 3 7 4に、 それぞれ供給する。
そして、 ステップ S 4 4に進み、 正規方程式加算回路 3 7 4が、 予測フィルタ 3 7 0からの教師データとしての注目サブフレームの残差信号、 およびタップ生 成部 3 7 1からの生徒デ一夕としての予測タップを対象として、 式 (1 3 ) の行 列 Aとベクトル Vの、 上述したような足し込みを、 クラス分類部 3 7 3からのク ラスコードごとに行う。 さらに、 ステップ S 4 4では、 正規方程式加算回路 3 8 4が、 L P C分析部 2 0 4からの教師デ一夕としての注目サブフレームの線形予 測係数、 および夕ップ生成部 3 8 1からの生徒データとしての予測夕ップを対象 として、 式 (1 3 ) の行列 Aとベクトル Vの、 上述したような足し込みを、 クラ ス分類部 3 8 3からのクラスコ一ドごとに行い、 ステップ S 4 5に進む。
ステップ S 4 5では、 まだ、 注目サブフレームとして処理すべきフレームの学 習用の音声信号があるかどうかが判定される。 ステップ S 4 5において、 まだ、 注目サブフレームとして処理すべきサブフレームの学習用の音声信号があると判 定された場合、 ステップ S 4 1に戻り、 次のサブフレームを新たに注目サブフレ —ムとして、 以下、 同様の処理が繰り返される。 また、 ステップ S 4 5において、 ·注目サブフレームとして処理すべきサブフレ ームの学習用の音声信号がないと判定された場合、 ステップ S 4 6に進み、 タツ プ係数決定回路 3 7 5は、 各クラスごとに生成された正規方程式を解くことによ り、 各クラスごとに、 残差信号についてのタップ係数を求め、 係数メモリ 3 7 6 の、 各クラスに対応するアドレスに供給して記憶させる。 さらに、 タップ係数決 定回路 3 8 5も、 各クラスごとに生成された正規方程式を解くことにより、 各ク ラスごとに、 線形予測係数についてのタップ係数を求め、 係数メモリ 3 8 6の、 各クラスに対応するアドレスに供給して記憶させ、 処理を終了する。
以上のようにして、 係数メモリ 3 7 6に記憶された各クラスごとの残差信号に ついてのタップ係数が、 図 1 8の係数メモリ 3 4 4に記憶され、 係数メモリ 3 8 6に記憶された各クラスごとの線形予測係数についての夕ップ係数が、 図 1 8の .係数メモリ 3 5 4に記憶されている。
従って、 図 1 §の係数メモリ 3 4 4と 3 5 4に記憶されたタップ係数は、 それ ぞれ、 線形予測演算を行うことにより得られる真の残差信号と線形予測係数の予 測値の予測誤差 (自乗誤差) が、 統計的に最小になるように学習を行うことによ り求められたものであるから、 図 1 8の予測部 3 4 5と 3 5 5が出力する残差信 号と線形予測係数は、 それぞれ真の残差信号と線形予測係数にほぼ一致すること となり、 その結果、 これらの残差信号と線形予測係数によって生成される合成音 は、 歪みの少ない、 高音質のものとなる。
次に、 上述した一連の処理は、 ハードウェアにより行うこともできるし、 ソフ トウエアにより行うこともできる。 一連の処理をソフトウェアによって行う場合 には、 そのソフトウェアを構成するプログラムが、 汎用のコンピュータ等にイン ス 1 ^一ルされる。
そこで、 図 2 3は、 上述した一連の処理を実行するプログラムがインストール されるコンピュータの一実施の形態の構成例を示している。
プログラムは、 コンピュータに内蔵されている記録媒体としてのハードデイス ク 4 0 5や R O M 4 0 3に予め記録しておくことができる。 あるいはまた、 プログラムは、 フロッピ一ディスク、 CD-ROM (Compact Disc Re ad Only Memory) , MO (Magneto optical)アイスク, 歸 (Digital Versatile Dis c)、 磁気ディスク、 半導体メモリなどのリムーバブル記録媒体 41 1に、 一時的 あるいは永続的に格納 (記録) しておくことができる。 このようなリム一バブル 記録媒体 41 1は、 いわゆるパッケージソフトウェアとして提供することができ る。
なお、 プログラムは、 上述したようなリム一バブル記録媒体 41 1からコンビ ユー夕にインストールする他、 ダウンロードサイトから、 ディジタル衛星放送用 の人工衛星を介して、 コンピュータに無線で転送したり、 LVNOLocal Area Netwo rk)、 インタ一ネットといったネットワークを介して、 コンピュータに有線で転 送し、 コンピュータでは、 そのようにして転送されてくるプログラムを、 通信部 408で受信し、 内蔵するハードディスク 405にインス 1 ルすることができ る。
コンピュータは、 CPU(Central Processing Unit) 402を内蔵している。 CPU 402には、 バス 401を介して、 入出力インタフェース 410が接続されてお り、 CPU402は、 入出力インタフェース 41 0を介して、 ユーザによって、 キ —ボードや、 マウス、 マイク等で構成される入力部 407が操作等されることに より指令が入力されると、 それにしたがって、 R0M(Read Only Memory) 403に 格納されているプログラムを実行する。 あるいは、 また、 C J402は、 ハ一ド ディスク 40 5に格納されているプログラム、 衛星若しくはネットワークから転 送され、 通信部 408で受信されてハ一ドディスク 405にインストールされた プログラム、 またはドライブ 409に装着されたリム一バブル記録媒体 41 1か ら読み出されてハードディスク 405にインストールされたプログラムを、 RAM (Random Access Memory) 404にロードして実行する。 これにより、 CPU402 は、 上述したフロ一チャートにしたがった処理、 あるいは上述したブロック図の 構成により行われる処理を行う。 そして、 CPU402は、 その処理結果を、 必要 に応じて、 例えば、 入出力インタフェース 410を介して、 LCD(Liquid CryStal Displ ay)やスピーカ等で構成される出力部 4 0 6から出力、 あるいは、 通信部 4 0 8から送信、 さらには、 Λ ドディスク 4 0 5に記録等させる。
ここで、 本明細書において、 コンピュータに各種の処理を行わせるためのプロ グラムを記述する処理ステップは、 必ずしもフローチヤ一トとして記載された順 序に沿って時系列に処理する必要はなく、 並列的あるいは個別に実行される処理 (例えば、 並列処理あるいはオブジェクトによる処理) も含むものである。
また、 プログラムは、 1のコンピュータにより処理されるものであっても良い し、 複数のコンピュータによって分散処理されるものであっても良い。 さらに、 プログラムは、 遠方のコンピュータに転送されて実行されるものであっても良い。 なお、 本実施の形態においては、 学習用の音声信号として、 どのようなものを 用いるかについては、 特に言及しなかったが、 学習用の音声信号としては、 人が 発話した音声の他、 例えば、 曲 (音楽) 等を採用することが可能である。 そして、 上述したような学習処理によれば、 学習用の音声信号として、 人の発話を用いた 場合には、 そのような人の発話の音声の音質を向上させるようなタップ係数が得 られ、 曲を用いた場合には、 曲の音質を向上させるようなタップ係数が得られる ことになる。
また、 係数メモリ 1 2 4等には、 タップ係数をあらかじめ記憶させておくよう にしたが、 係数メモリ 1 2 4等に記憶させるタップ係数は、 携帯電話機 1 0 1に おいて、 図 3の基地局 1 0 2 (あるいは交換局 1 0 3 ) や、 図示しない WWW W or ld Wi de Web)サ一パ等からダウンロードするようにすることができる。 即ち、 上述したように、 タップ係数は、 人の発話用や曲用等のように、 ある種類の音声 信号に適したものを、 学習によって得ることができる。 さらに、 学習に用いる教 師データおよび生徒デ一夕によっては、 合成音の音質に差が生じるタップ係数を 得ることができる。 従って、 そのような各種のタップ係数を、 基地局 1 0 2等に 記憶させておき、 ユーザには、 自身の所望するタップ係数をダウンロードさせる ようにすることができる。 そして、 このようなタップ係数のダウンロードサービ スは、 無料で行うこともできるし、 有料で行うこともできる。 さらに、 タップ係 数のダウン口一ドサ一ビスを有料で行う場合には、 夕ップ係数のダウンロードに 対する対価としての代金は、 例えば、 携帯電話機 10 1の通話料等とともに請求 するようにすることが可能である。
また、 係数メモリ 124等は、 携帯電話機 10 1に対して着脱可能なメモリ力 ード等で構成することができる。 この場合、 上述したような各種のタップ係数そ れぞれを記憶させた、 異なるメモリカードを提供するようにすれば、 ユーザは、 場合に応じて、 所望のタップ係数が記憶されたメモリカードを、 携帯電話機 10 1に装着して使用することが可能となる。
さらに、 本発明は、 例えば、 VSELP (Vector Sum Excited Liner Predicti on), PS I -C EL P (Pitch Synchronous Innovation CELP) , CS—ACEL P (Conjugate Structure Algebraic CELP)等の C E L P方式による符号化の結果 得られるコードから合成音を生成する場合に、 広く適用可能である。
また、 本発明は、 CELP方式による符号化の結果得られるコードから合成音 を生成する場合に限らず、 あるコードから、 残差信号と線形予測係数を得て、 合 成音を生成する場合に、 広く適用可能である。
さらに、 本発明は、 音声に限らず、 例えば、 画像等にも適用可能である。 即ち、 本発明は、 Lコードのような、 周期を表す周期情報を用いて処理されるデータに、 広く適用可能である。
また、 本実施の形態では、 タップ係数を用いた線形 1次予測演算によって、 高 音質の音声や、 残差信号、 線形予測係数の予測値を求めるようにしたが、 この予 測値は、 その他、 2次以上の高次の予測演算によって求めることも可能である。 さらに、 本実施の形態では、 係数メモリ 124等に、 タップ係数自体を記憶さ せておくようにしたが、 係数メモリ 124等には、 その他、 例えば、 無段階の調 整が可能な (アナログ的な変化が可能な) タップ係数の元 (種) となる情報とし ての係数種を記憶させておき、 ユーザの操作に応じて、 その係数種から、 ユーザ の所望する音質の音声が得られるようなタップ係数を生成するようにすることが 可能である。 産業上の利用可能性
本発明の第 1のデータ処理装置およびデ一夕処理方法、 並びにプログラムおよ び記録媒体によれば、 所定のデータのうちの注目している注目データにつき、 周 期情報に応じて、 所定のデ一夕を抽出することにより、 所定の処理に用いるタツ プが生成され、 そのタップを用いて、 注目データについて、 所定の処理が行われ る。 従って、 例えば、 品質の良いデータの復号等が可能となる。
本発明の第 2のデータ処理装置およびデータ処理方法、 並びにプログラムおよ び記録媒体によれば、 学習の教師となる教師デ一夕から、 所定のデ一夕と周期情 報が、 学習の生徒となる生徒データとして生成される。 そして、 生徒データとし ての所定のデータのうちの注目している注目データにつき、 周期情報に応じて、 所定のデータを抽出することにより、 教師データを予測するのに用いる予測タツ プが生成され、 予測タップとタップ係数とを用いて、 所定の予測演算を行うこと により得られる教師データの予測値の予測誤差が、 統計的に最小になるように学 習が行われ、 タップ係数が求められる。 従って、 例えば、 品質の良いデ一夕を得 るためのタツプ係数を得ることが可能となる。

Claims

請求の範囲
1 . 所定のデータと、 周期を表す周期情報とを処理するデータ処理装置であつ て、
前記所定のデータのうちの注目している注目データにつき、 前記周期情報に応 じて、 前記所定のデータを抽出することにより、 所定の処理に用いるタップを生 成するタップ生成手段と、
前記タップを用いて、 前記注目データについて、 所定の処理を行う処理手段と を備えることを特徴とするデータ処理装置。
2 . 学習を行うことにより求められたタツプ係数を取得する夕ップ係数取得手 段をさらに備え、
前記夕ップ生成手段は、 前記夕ップ係数との所定の予測演算を行う予測夕ップ を生成し、
前記処理手段は、 前記予測タップとタップ係数とを用いて、 所定の予測演算を 行うことにより、 前記学習において教師として用いられた教師デ一夕に対応する 予測値を求める
ことを特徴とする請求の範囲第 1項に記載のデータ処理装置。
3 . 前記処理手段は、 前記予測タップとタップ係数とを用いて、 線形 1次予測 演算を行うことにより、 前記予測値を求める
ことを特徴とする請求の範囲第 2項に記載のデータ処理装置。
4 . 前記タップ生成手段は、 前記注目データをクラス分けするクラス分類を行 うのに用いるクラスタップを生成し、
前記処理手段は、 前記クラスタップに基づき、 前記注目データについて、 クラ ス分類を行う
ことを特徴とする請求の範囲第 1項に記載のデ一夕処理装置。
5 . 前記タップ生成手段は、 学習を行うことにより求められたタップ係数との 所定の予測演算を行う予測タップを生成するとともに、 前記注目デ一夕をクラス 分けするクラス分類を行うのに用いられるクラスタツプを生成し、 前記処理手段は、 前記クラスタップに基づき、 前記注目データについて、 クラ ス分類を行い、 そのクラス分類の結果得られるクラスに対応する前記タップ係数 と、 前記予測タップとを用いて、 所定の予測演算を行うことにより、 前記学習に おいて教師として用いられた教師データに対応する予測値を求める
ことを特徴とする請求の範囲第 1項に記載のデータ処理装置。
6. 前記所定のデータと周期情報は、 音声を符号化した符号化データから得ら れるものである
ことを特徴とする請求の範囲第 1項に記載のデータ処理装置。
7. 前記符号化データは、 音声を、 CEL P (Code Excited Liner Prediction coding)方式によって符号化したものである
ことを特徴とする請求の範囲第 6項に記載のデータ処理装置。
.
8. 前記周期情報は、 CELP方式で規定されている長期予測ラグである
ことを特徴とする請求の範囲第 7項に記載のデータ処理装置。
9. 前記所定のデータは、 前記符号化データを復号した復号音声データである ことを特徴とする請求の範囲第 6項に記載のデータ処理装置。
10. 前記所定のデ一夕は、 前記符号化データを音声データに復号するのに用 いられる残差信号である
ことを特徴とする請求の範囲第 6項に記載のデータ処理 g置。'
1 1. 前記所定のデータは、 時系列のデータであり、
前記タップ生成手段は、 前記注目データから、 前記周期情報に対応する時間だ け離れた位置の前記所定のデータを抽出することにより、 前記タップを生成する ことを特徴とする請求の範囲第 1項に記載のデータ処理装置。
12. 前記タップ生成手段は、 前記注目デ一夕から、 前記周期情報に対応する 時間だけ過去方向もしくは未来方向に離れた位置の前記所定のデータのうちの一 方または両方を抽出することにより、 前記タップを生成する
ことを特徴とする請求の範囲第 1 1項に記載のデータ処理装置。
13. 前記所定のデータの波形の推移を判定する判定手段をさらに備え、 前記タップ生成手段は、 前記判定手段による判定結果に基づいて、 前記周期情 報に対応する時間だけ過去方向もしくは未来方向に離れた位置の前記所定のデー 夕のうちの一方または両方を抽出する
ことを特徴とする請求の範囲第 1 2項に記載のデ一夕処理装置。
1 4 . 前記判定手段は、 前記所定のデータのパワーに基づいて、 その波形の推 移を判定する
ことを特徴とする請求の範囲第 1 3項に記載のデータ処理装置。
1 5 . 所定のデータと、 周期を表す周期情報とを処理するデータ処理方法であ つて、
前記所定のデータのうちの注目している注目デ一夕につき、 前記周期情報に応 じて、 前記所定のデータを抽出することにより、 所定の処理に用いるタップを生 成するタップ生成ステップと、
前記タップを用いて、 前記注目データについて、 所定の処理を行う処理ステツ プと
を備えることを特徴とするデータ処理方法。
1 6 . 所定のデ一夕と、 周期を表す周期情報とを、 コンピュータに処理させる プログラムであって、
前記所定のデータのうちの注目している注目データにつき、 前記周期情報に応 じて、 前記所定のデータを抽出することにより、 所定の処理に用いるタップを生 成するタップ生成ステップと、
前記タップを用いて、 前記注目デ一夕について、 所定の処理を行う処理ステツ プと
を備えることを特徴とするプログラム。
1 7 . 所定のデータと、 周期を表す周期情報とを、 コンピュータに処理させる プログラムが記録されている記録媒体であって、
前記所定のデ一夕のうちの注目している注目データにつき、 前記周期情報に応 じて、 前記所定のデータを抽出することにより、 所定の処理に用いるタップを生 成するタツプ生成ステップと、
前記タップを用いて、 前記注目デ一夕について、 所定の処理を行う処理ステツ プと
を備えるプログラムが記録されている
ことを特徴とする記録媒体。
1 8 . 所定のデ一夕と、 周期を表す周期情報とを処理するのに用いられる所定 のタップ係数を学習するデータ処理装置であって、
学習の教師となる教師デ一夕から、 前記所定のデ一夕と周期情報を、 学習の生 徒となる生徒デー夕として生成する生徒デー夕生成手段と、
前記生徒データとしての所定のデータのうちの注目している注目データにつき、 前記周期情報に応じて、 前記所定のデータを抽出することにより、 前記教師デー .夕を予測するのに用いる予測タップを生成する予測夕ップ生成手段と、
前記予測夕ップとタツプ係数とを用いて、 所定の予測演算を行うことにより得 られる前記教師データの予測値の予測誤差が、 統計的に最小になるように学習を 行い、 前記タップ係数を求める学習手段と
を備えることを特徴とするデータ処理装置。
1 9 . 前記学習手段は、 前記予測タップとタップ係数とを用いて、 線形一次予 測演^:を行うことにより得られる前記教師デ一夕の予測値の予測誤差が、 統計的 に最小になるように学習を行う
ことを特徴とする請求の範囲第 1 8項に記載のデータ処理装置。
2 0 . 前記生徒データとしての所定のデータから、 前記注目デ一夕をクラス分 けするクラス分類を行うのに用いるクラスタップとするものを生成するクラスタ ップ生成手段と、
前記クラスタップに基づき、 前記注目デ一夕について、 クラス分類を行うクラ ス分類手段と
をさらに備え、
前記学習手段は、 前記クラス分類手段によるクラス分類の結果得られるクラス ごとに、 前記タップ係数を求める
ことを特徴とする請求の範囲第 18項に記載のデータ処理装置。
21. 前記クラスタップ生成手段は、 前記注目データにつき、 前記周期情報に 応じて、 前記所定のデータを抽出することにより、 前記クラスタップを生成する ことを特徴とする請求の範囲第 20項に記載のデータ処理装置。
22. 前記教師データは、 音声データであり、
前記所定のデータと周期情報は、 前記教師データとしての音声データを符号化 した符号化デー夕から得られるものである
ことを特徴とする請求の範囲第 18項に記載のデータ処理装置。
23. 前記符号化データは、 音声データを、 CELP Code Excited Liner Pr edict ion coding)方式によって符号化したものである
. ことを特徴とする請求の範囲第 22項に記載のデータ処理装置。
24. 前記周期情報は、 CELP方式で規定されている長期予測ラグである ことを特徴とする請求の範囲第 23項に記載のデータ処理装置。
25. 前記所定のデータは、 前記符号化データを復号した復号音声データであ る
ことを特徴とする請求の範囲第 22項に記載のデータ処理装置。
26.' 前記所定のデ一夕は、 前記符号化データを音声データに復号するのに用 いられる残差信号である
ことを特徴とする請求の範囲第 22項に記載のデータ処理装置。
27. 前記所定のデータは、 時系列のデータであり、
前記予測タップ生成手段は、 前記注目データから、 前記周期情報に対応する時 間だけ離れた位置の前記所定のデータを抽出することにより、 前記予測夕ップを 生成する
ことを特徴とする請求の範囲第 1 8項に記載のデータ処理装置。
28. 前記予測タップ生成手段は、 前記注目データから、 前記周期情報に対応 する時間だけ過去方向もしくは未来方向に離れた位置の前記所定のデータのうち の一方または両方を抽出することにより、 前記予測夕ップを生成する ことを特徴とする請求の範囲第 2 7項に記載のデータ処理装置。
2 9 . 前記所定のデータの波形の推移を判定する判定手段をさらに備え、 前記予測タップ生成手段は、 前記判定手段による判定結果に基づいて、 前記周 期情報に対応する時間だけ過去方向もしくは未来方向に離れた位置の前記所定の デ一夕のうちの一方または両方を抽出する
ことを特徴とする請求の範囲第 2 8項に記載のデータ処理装置。
3 0 . 前記判定手段は、 前記所定のデ一夕のパワーに基づいて、 その波形の推 移を判定する
ことを特徴とする請求の範囲第 2 9項に記載のデータ処理装置。
3 1 . 所定のデータと、 周期を表す周期情報とを処理するのに用いられる所定 のタップ係数を学習するデータ処理方法であって、
学習の教師となる教師データから、 前記所定のデータと周期情報を、 学習の生 徒となる生徒データとして生成する生徒データ生成ステップと、
前記生徒デー夕としての所定のデータのうちの注目している注目データにつき、 前記周期情報に応じて、 前記所定のデータを抽出することにより、 前記教師デ一 夕を予測するのに用いる予測タップを生成する予測夕ップ生成ステップと、 前記予測タップとタップ係数とを用いて、 所定の予測演算を行うことにより得 られる前記教師データの予測値の予測誤差が、 統計的に最小になるように学習を 行い、 前記タップ係数を求める学習ステップと
を備えることを特徴とするデ一夕処理方法。
3 2 . 所定のデータと、 周期を表す周期情報とを処理するのに用いられる所定 のタップ係数を学習するデータ処理を、 コンピュータに行わせるプログラムであ つて、
学習の教師となる教師デ一夕から、 前記所定のデータと周期情報を、 学習の生 徒となる生徒デー夕として生成する生徒デー夕生成ステップと、
前記生徒データとしての所定のデータのうちの注目している注目データにつき、 前記周期情報に応じて、 前記所定のデータを抽出することにより、 前記教師デー 夕を予測するのに用いる予測タップを生成する予測タップ生成ステップと、 前記予測タップとタップ係数とを用いて、 所定の予測演算を行うことにより得 られる前記教師デ一夕の予測値の予測誤差が、 統計的に最小になるように学習を 行い、 前記タップ係数を求める学習ステップと
を備えることを特徴とするプログラム。
3 3 . 所定のデータと、 周期を表す周期情報とを処理するのに用いられる所定 のタップ係数を学習するデータ処理を、 コンピュータに行わせるプログラムが記 録されている記録媒体であって、
学習の教師となる教師データから、 前記所定のデータと周期情報を、 学習の生 徒となる生徒データとして生成する生徒データ生成ステップと、
前記生徒デ一夕としての所定のデータのうちの注目している注目データにつき、 前記周期情報に応じて、 前記所定のデータを抽出することにより、 前記教師デー 夕を予測するのに用いる予測タップを生成する予測タップ生成ステップと、 前記予測夕ップとタツプ係数とを用いて、 所定の予測演算を行うことにより得 られる前記教師データの予測値の予測誤差が、 統計的に最小になるように学習を 行い、 前記タップ係数を求める学習:
を備えるプログラムが記録されている
ことを特徴とする記録媒体。
PCT/JP2002/000491 2001-01-25 2002-01-24 Appareil de traitement de donnees WO2002059877A1 (fr)

Priority Applications (4)

Application Number Priority Date Filing Date Title
US10/239,135 US7269559B2 (en) 2001-01-25 2002-01-24 Speech decoding apparatus and method using prediction and class taps
KR1020027012612A KR100875784B1 (ko) 2001-01-25 2002-01-24 데이터 처리 장치
EP02716353A EP1355297B1 (en) 2001-01-25 2002-01-24 Data processing device
DE60222627T DE60222627T2 (de) 2001-01-25 2002-01-24 Datenverarbeitungsgerät

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
JP2001016870A JP4857468B2 (ja) 2001-01-25 2001-01-25 データ処理装置およびデータ処理方法、並びにプログラムおよび記録媒体
JP2001-16870 2001-01-25

Publications (1)

Publication Number Publication Date
WO2002059877A1 true WO2002059877A1 (fr) 2002-08-01

Family

ID=18883165

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/JP2002/000491 WO2002059877A1 (fr) 2001-01-25 2002-01-24 Appareil de traitement de donnees

Country Status (7)

Country Link
US (1) US7269559B2 (ja)
EP (1) EP1355297B1 (ja)
JP (1) JP4857468B2 (ja)
KR (1) KR100875784B1 (ja)
CN (1) CN1216367C (ja)
DE (1) DE60222627T2 (ja)
WO (1) WO2002059877A1 (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR100819623B1 (ko) * 2000-08-09 2008-04-04 소니 가부시끼 가이샤 음성 데이터의 처리 장치 및 처리 방법

Families Citing this family (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6934677B2 (en) 2001-12-14 2005-08-23 Microsoft Corporation Quantization matrices based on critical band pattern information for digital audio wherein quantization bands differ from critical bands
US7240001B2 (en) * 2001-12-14 2007-07-03 Microsoft Corporation Quality improvement techniques in an audio encoder
CN1639984B (zh) * 2002-03-08 2011-05-11 日本电信电话株式会社 数字信号编码方法、解码方法、编码设备、解码设备
US7299190B2 (en) * 2002-09-04 2007-11-20 Microsoft Corporation Quantization and inverse quantization for audio
JP4676140B2 (ja) * 2002-09-04 2011-04-27 マイクロソフト コーポレーション オーディオの量子化および逆量子化
US7502743B2 (en) 2002-09-04 2009-03-10 Microsoft Corporation Multi-channel audio encoding and decoding with multi-channel transform selection
US7539612B2 (en) * 2005-07-15 2009-05-26 Microsoft Corporation Coding and decoding scale factor information
WO2008114075A1 (en) * 2007-03-16 2008-09-25 Nokia Corporation An encoder
JP5084360B2 (ja) * 2007-06-13 2012-11-28 三菱電機株式会社 音声符号化装置及び音声復号装置
CN101604526B (zh) * 2009-07-07 2011-11-16 武汉大学 基于权重的音频关注度计算系统和方法
US9308618B2 (en) * 2012-04-26 2016-04-12 Applied Materials, Inc. Linear prediction for filtering of data during in-situ monitoring of polishing

Citations (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS63214032A (ja) * 1987-03-02 1988-09-06 Fujitsu Ltd 符号化伝送装置
JPH01205199A (ja) * 1988-02-12 1989-08-17 Nec Corp 音声符号化方式
JPH0430200A (ja) * 1990-05-28 1992-02-03 Nec Corp 音声復号化方法
JPH04502675A (ja) * 1989-09-01 1992-05-14 モトローラ・インコーポレーテッド 改良されたロングターム予測器を有するデジタル音声コーダ
JPH04213000A (ja) * 1990-11-28 1992-08-04 Sharp Corp 信号再生装置
JPH04212999A (ja) * 1990-11-29 1992-08-04 Sharp Corp 信号符号化装置
JPH06131000A (ja) * 1992-10-15 1994-05-13 Nec Corp 基本周期符号化装置
JPH06214600A (ja) * 1992-12-14 1994-08-05 American Teleph & Telegr Co <Att> 汎用合成による分析符号化の時間軸シフト方法とその装置
JPH0750586A (ja) * 1991-09-10 1995-02-21 At & T Corp 低遅延celp符号化方法
JPH113098A (ja) * 1997-06-12 1999-01-06 Toshiba Corp 音声符号化方法および装置

Family Cites Families (18)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS6111800A (ja) * 1984-06-27 1986-01-20 日本電気株式会社 残差励振型ボコ−ダ
US4776014A (en) * 1986-09-02 1988-10-04 General Electric Company Method for pitch-aligned high-frequency regeneration in RELP vocoders
US5359696A (en) * 1988-06-28 1994-10-25 Motorola Inc. Digital speech coder having improved sub-sample resolution long-term predictor
US4980916A (en) * 1989-10-26 1990-12-25 General Electric Company Method for improving speech quality in code excited linear predictive speech coding
SG47025A1 (en) * 1993-03-26 1998-03-20 Motorola Inc Vector quantizer method and apparatus
US5574825A (en) * 1994-03-14 1996-11-12 Lucent Technologies Inc. Linear prediction coefficient generation during frame erasure or packet loss
US5450449A (en) * 1994-03-14 1995-09-12 At&T Ipm Corp. Linear prediction coefficient generation during frame erasure or packet loss
FR2734389B1 (fr) * 1995-05-17 1997-07-18 Proust Stephane Procede d'adaptation du niveau de masquage du bruit dans un codeur de parole a analyse par synthese utilisant un filtre de ponderation perceptuelle a court terme
US5692101A (en) * 1995-11-20 1997-11-25 Motorola, Inc. Speech coding method and apparatus using mean squared error modifier for selected speech coder parameters using VSELP techniques
US5708757A (en) * 1996-04-22 1998-01-13 France Telecom Method of determining parameters of a pitch synthesis filter in a speech coder, and speech coder implementing such method
US6202046B1 (en) * 1997-01-23 2001-03-13 Kabushiki Kaisha Toshiba Background noise/speech classification method
JP3095133B2 (ja) * 1997-02-25 2000-10-03 日本電信電話株式会社 音響信号符号化方法
JP3263347B2 (ja) * 1997-09-20 2002-03-04 松下電送システム株式会社 音声符号化装置及び音声符号化におけるピッチ予測方法
US6067511A (en) * 1998-07-13 2000-05-23 Lockheed Martin Corp. LPC speech synthesis using harmonic excitation generator with phase modulator for voiced speech
US6119082A (en) * 1998-07-13 2000-09-12 Lockheed Martin Corporation Speech coding system and method including harmonic generator having an adaptive phase off-setter
US6014618A (en) * 1998-08-06 2000-01-11 Dsp Software Engineering, Inc. LPAS speech coder using vector quantized, multi-codebook, multi-tap pitch predictor and optimized ternary source excitation codebook derivation
US6510407B1 (en) * 1999-10-19 2003-01-21 Atmel Corporation Method and apparatus for variable rate coding of speech
WO2002013183A1 (fr) * 2000-08-09 2002-02-14 Sony Corporation Procede et dispositif de traitement de donnees vocales

Patent Citations (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS63214032A (ja) * 1987-03-02 1988-09-06 Fujitsu Ltd 符号化伝送装置
JPH01205199A (ja) * 1988-02-12 1989-08-17 Nec Corp 音声符号化方式
JPH04502675A (ja) * 1989-09-01 1992-05-14 モトローラ・インコーポレーテッド 改良されたロングターム予測器を有するデジタル音声コーダ
JPH0430200A (ja) * 1990-05-28 1992-02-03 Nec Corp 音声復号化方法
JPH04213000A (ja) * 1990-11-28 1992-08-04 Sharp Corp 信号再生装置
JPH04212999A (ja) * 1990-11-29 1992-08-04 Sharp Corp 信号符号化装置
JPH0750586A (ja) * 1991-09-10 1995-02-21 At & T Corp 低遅延celp符号化方法
JPH06131000A (ja) * 1992-10-15 1994-05-13 Nec Corp 基本周期符号化装置
JPH06214600A (ja) * 1992-12-14 1994-08-05 American Teleph & Telegr Co <Att> 汎用合成による分析符号化の時間軸シフト方法とその装置
JPH113098A (ja) * 1997-06-12 1999-01-06 Toshiba Corp 音声符号化方法および装置

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
See also references of EP1355297A4 *

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR100819623B1 (ko) * 2000-08-09 2008-04-04 소니 가부시끼 가이샤 음성 데이터의 처리 장치 및 처리 방법

Also Published As

Publication number Publication date
JP2002222000A (ja) 2002-08-09
KR100875784B1 (ko) 2008-12-26
EP1355297A4 (en) 2005-09-07
US20030163317A1 (en) 2003-08-28
DE60222627T2 (de) 2008-07-17
JP4857468B2 (ja) 2012-01-18
CN1459093A (zh) 2003-11-26
EP1355297B1 (en) 2007-09-26
US7269559B2 (en) 2007-09-11
KR20020088088A (ko) 2002-11-25
CN1216367C (zh) 2005-08-24
DE60222627D1 (de) 2007-11-08
EP1355297A1 (en) 2003-10-22

Similar Documents

Publication Publication Date Title
CN100362568C (zh) 用于预测量化有声语音的方法和设备
CN101178899B (zh) 可变速率语音编码
US7599833B2 (en) Apparatus and method for coding residual signals of audio signals into a frequency domain and apparatus and method for decoding the same
JPH06222797A (ja) 音声符号化方式
CN101496098A (zh) 用于以与音频信号相关联的帧修改窗口的系统及方法
CN101006495A (zh) 语音编码装置、语音解码装置、通信装置以及语音编码方法
WO1999034354A1 (en) Sound encoding method and sound decoding method, and sound encoding device and sound decoding device
JP3344962B2 (ja) オーディオ信号符号化装置、及びオーディオ信号復号化装置
WO2002043052A1 (en) Method, device and program for coding and decoding acoustic parameter, and method, device and program for coding and decoding sound
WO2002059877A1 (fr) Appareil de traitement de donnees
JP2002268686A (ja) 音声符号化装置及び音声復号化装置
KR100819623B1 (ko) 음성 데이터의 처리 장치 및 처리 방법
JP2002156999A (ja) 雑音信号分析装置、雑音信号合成装置、雑音信号分析方法および雑音信号合成方法
JP4857467B2 (ja) データ処理装置およびデータ処理方法、並びにプログラムおよび記録媒体
JP3353852B2 (ja) 音声の符号化方法
JP4736266B2 (ja) 音声処理装置および音声処理方法、学習装置および学習方法、並びにプログラムおよび記録媒体
JP4287840B2 (ja) 符号化装置
JP3185748B2 (ja) 信号符号化装置
JP4517262B2 (ja) 音声処理装置および音声処理方法、学習装置および学習方法、並びに記録媒体
Sun et al. Speech compression
JP2001142499A (ja) 音声符号化装置ならびに音声復号化装置
JP2002221998A (ja) 音響パラメータ符号化、復号化方法、装置及びプログラム、音声符号化、復号化方法、装置及びプログラム
JPH0844398A (ja) 音声符号化装置
JP3024467B2 (ja) 音声符号化装置
JP2002062899A (ja) データ処理装置およびデータ処理方法、学習装置および学習方法、並びに記録媒体

Legal Events

Date Code Title Description
AK Designated states

Kind code of ref document: A1

Designated state(s): CN KR US

AL Designated countries for regional patents

Kind code of ref document: A1

Designated state(s): AT BE CH CY DE DK ES FI FR GB GR IE IT LU MC NL PT SE TR

WWE Wipo information: entry into national phase

Ref document number: 2002716353

Country of ref document: EP

WWE Wipo information: entry into national phase

Ref document number: 1020027012612

Country of ref document: KR

121 Ep: the epo has been informed by wipo that ep was designated in this application
WWE Wipo information: entry into national phase

Ref document number: 028007395

Country of ref document: CN

WWP Wipo information: published in national office

Ref document number: 1020027012612

Country of ref document: KR

WWE Wipo information: entry into national phase

Ref document number: 10239135

Country of ref document: US

WWP Wipo information: published in national office

Ref document number: 2002716353

Country of ref document: EP

WWG Wipo information: grant in national office

Ref document number: 2002716353

Country of ref document: EP