WO1990013112A1 - Voice encoder - Google Patents

Voice encoder Download PDF

Info

Publication number
WO1990013112A1
WO1990013112A1 PCT/JP1990/000199 JP9000199W WO9013112A1 WO 1990013112 A1 WO1990013112 A1 WO 1990013112A1 JP 9000199 W JP9000199 W JP 9000199W WO 9013112 A1 WO9013112 A1 WO 9013112A1
Authority
WO
WIPO (PCT)
Prior art keywords
signal
circuit
drive
filter
drive signal
Prior art date
Application number
PCT/JP1990/000199
Other languages
English (en)
French (fr)
Inventor
Masami Akamine
Kimio Miseki
Original Assignee
Kabushiki Kaisha Toshiba
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Priority claimed from JP1103398A external-priority patent/JP3017747B2/ja
Application filed by Kabushiki Kaisha Toshiba filed Critical Kabushiki Kaisha Toshiba
Priority to DE69029120T priority Critical patent/DE69029120T2/de
Priority to EP90903217A priority patent/EP0422232B1/en
Publication of WO1990013112A1 publication Critical patent/WO1990013112A1/ja

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/08Determination or coding of the excitation function; Determination or coding of the long-term prediction parameters
    • G10L19/10Determination or coding of the excitation function; Determination or coding of the long-term prediction parameters the excitation function being a multipulse excitation
    • G10L19/113Regular pulse excitation

Definitions

  • the present invention relates to an audio encoding apparatus for encoding an audio signal by compressing the audio signal with high efficiency, and particularly to an adaptive density drive capable of reducing a transmission bit rate, for example, to 10 Kb / s or less.
  • the present invention relates to a speech coding apparatus based on a pulse sequence.
  • Fig. 1 and Fig. 2 are block diagrams of the coding device and the decoding device of this system.
  • the input signal of the prediction filter 1 is an A / D-converted audio signal sequence s (n).
  • FIG. 3 shows an example of the NOT of the driving pulse train V (n).
  • K indicates the phase of the pulse sequence, and indicates the position of the first pulse in each frame.
  • the horizontal axis represents discrete time. In this example, the length of one frame is set to 40 samples (sampling frequency: 5 ms at 8 KHz) and the pulse interval is set to 4 samples. Yes.
  • the subtracter 3 calculates a difference e (n) between the prediction residual signal r (n) and the drive signal V ( ⁇ ), and outputs the difference to the auditory weighting filter 4.
  • This filter 4 is for shaping e (ri) in the frequency domain in order to use the masking effect of hearing, and its transfer function W (z) Is given by
  • the error e ′ (n) weighted by the weighting filter 4 is input to the error minimizing circuit 5.
  • the error minimizing circuit 5 determines the amplitude and phase of the driving pulse train so that the square error of e ′ (II) is minimized.
  • the drive signal generation circuit 2 generates a drive signal based on the information on the amplitude and the phase. The procedure for determining the amplitude and phase of the drive pulse train in the error minimizing circuit 5 will be briefly described below according to the description in Ref.
  • the frame length be L samples
  • the number of driving pulses in one frame be Q
  • the matrix of QXL representing the position of the driving pulse be MK.
  • the element 111 of 1 ⁇ is expressed as follows.
  • K is the phase of the driving pulse train as described above.
  • H the next LXL matrix that has the impulse response of the weighting filter 4 as an element.
  • Vector e Is the output of the weighting filter according to the internal state of the weighting filter in the previous frame, and the vector r is the prediction residual signal vector. is there.
  • the vector representing the optimum drive pulse amplitude is the square error expressed by the following equation:
  • phase K of the drive pulse train is calculated so that the following equation is calculated for each K, and is selected so that E ( ⁇ > is minimized).
  • the drive signal generation circuit 7 is the same as the drive signal generation circuit 2 in FIG. 1, and the drive signal transmitted from the encoder and input to the input terminal 6 is shown in FIG. Generates a drive signal based on the width and phase of the pulse train.
  • the synthesis filter 8 receives the drive signal as an input, generates a synthesized voice signal s (n), and outputs it to the output terminal 9.
  • the synthetic filter 8 has a relationship between the predictive filter 1 and the inverse filter shown in FIG. 1, and its transfer function is 1 ZA (z).
  • the information to be transmitted includes the parameters ai (1 ⁇ i ⁇ p) of the synthesis filter 8 and the amplitudes of the driving pulse trains.
  • the transmission rate is low, especially when the transmission rate is less than 10 kb / s, noise is noticeable in the synthesized speech and the quality is low. become worse. In particular, quality degradation is noticeable when an experiment is performed using a female voice with a short pitch cycle.
  • the driving pulse train is always represented by pulse trains at regular intervals. That is, the voice signal is a periodic signal due to the pitch when it is voiced, so that the prediction residual signal also has a large power in the pitch period ⁇ . It becomes a periodic signal. In such a predictive residual signal whose power periodically increases, the largest part of the signal contains important information. Further, in a portion where the correlation of the audio signal changes due to the deterioration of the phoneme or a portion where the power of the audio signal becomes large such as a start portion of the utterance, the noise of the prediction residual signal is reduced. Also increase within the frame. Again, the residual The large part of the signal power is important because it is the part where the properties of the audio signal have changed.
  • the drive even though the power of the prediction residual signal changes in the frame, the drive always has a constant interval in the frame. Since the synthesized filter is driven by the pulse train to obtain a synthesized speech, the quality of the synthesized speech is significantly degraded.
  • the synthesis filter is driven by a driving pulse train that is always at a constant interval in the frame.
  • the sound quality is reduced, for example, to 10 kb / s or less, the quality of synthesized speech is degraded.
  • the present invention has been made in view of such a problem, and it is an object of the present invention to provide a speech coding apparatus that can obtain high-quality synthesized speech even at a low transmission rate. Target.
  • the present invention relates to a speech coding apparatus that obtains a synthesized voice by driving a synthetic filter by a drive signal, wherein the frame of the drive signal is a plurality of equal length or unequal lengths.
  • the sub-frames are divided into sub-frames, and the pulse interval is variable in units of sub-frames.
  • the drive signal is transmitted by an equally-spaced drive pulse train.
  • the amplitude or amplitude of the drive pulse train is configured so that the power of the error signal between the output signal of the synthesis filter driven by the drive signal and the input audio signal is minimized.
  • the driving pulse train density is determined based on the short-term predicted residual signal or the pitch predicted residual signal for the input audio signal. You.
  • the density of the driving loose train that is, the pulse spacing force
  • the subframes should be dense and sub-frames that are not.
  • the quality of the synthesized speech is improved by changing adaptively.
  • FIG. 1 and 2 are block diagrams showing the configuration of an encoding device and a decoding device according to the prior art
  • FIG. 3 is a diagram showing an example of a driving signal of the prior art
  • FIG. FIG. 5 is a block diagram showing the configuration of an encoding device according to a first embodiment of the speech encoding device according to the invention
  • FIG. 5 is a detailed block diagram of the drive signal generation unit shown in FIG. Fig. 6
  • FIG. 7 shows an example of a drive signal generated in the second embodiment of the present invention
  • FIG. FIG. 9 is a detailed block diagram of the drive signal generation unit in the encoding device according to the embodiment
  • FIG. 9 is a block diagram of the encoding device according to the third embodiment of the present invention.
  • 10 is a block diagram of a prediction filter in the third embodiment
  • FIG. 11 is a block diagram of a decoding device according to the third embodiment
  • FIG. 13 is a block diagram of an encoding device according to a fourth embodiment of the present invention
  • FIG. 14 is a fourth embodiment.
  • FIG. 15 is a block diagram of a decoding device according to an example
  • FIG. 15 is a block diagram of a coding device according to a fifth embodiment of the present invention
  • FIG. 16 is a fifth embodiment
  • FIG. 17 is a block diagram of the prediction filter in the fifth embodiment
  • FIG. 18 is a block diagram of the prediction filter in the fifth embodiment.
  • FIG. 19 is a block diagram of an encoding device according to a sixth embodiment of the present invention.
  • FIG. 19 is a block diagram of an encoding device according to a sixth embodiment of the present invention.
  • FIG. 21 is a block diagram of an encoding device according to a seventh embodiment of the present invention
  • FIG. 21 is a block diagram of an encoding device according to an eighth embodiment of the present invention
  • FIG. 23 is a block diagram of an encoding device according to a ninth embodiment of the present invention
  • FIG. 23 is a block diagram of a decoding device according to the ninth embodiment
  • FIG. 24 is a ninth embodiment.
  • the detailed block diagram of the short-term vector quantization circuit in the encoder of FIG. 2, and FIG. 25 is a detailed diagram of the drive signal generation circuit in the decoder of the ninth embodiment.
  • FIG. 2 is a block diagram of the encoding apparatus according to the tenth embodiment of the present invention
  • FIG. 27 is a block diagram of the encoding apparatus according to the first embodiment of the present invention.
  • FIG. 28 is a block diagram of an encoding apparatus according to a 12th embodiment of the present invention
  • FIG. 29 is a block diagram of a prediction filter and a synthesis filter. Constitute The block diagram of the pole-zero model, Fig. 30 is Fig. 29, Fig. 29 is a detailed block diagram of the smoothing circuit, Fig. 31 and Fig. 32 are Fig. 29. Figures 33 and 36 show the frequency characteristics of the pole-zero model in comparison with the conventional example, and Figs. 33 to 36 are block diagrams of other pole-zero models.
  • FIG. 4 is a block diagram showing an encoding device according to the first embodiment.
  • the AZD-converted audio signal s (n) is input to the frame buffer 102.
  • the frame notifier 102 stores the audio signal ... s (n) for one frame.
  • Each component in FIG. 4 performs the following processing in one frame.
  • the prediction parameter calculation circuit 108 has a frame knocker 10.
  • the speech signal s (n) from 2 is input, and a predetermined number of prediction parameters ( ⁇ parameters or k parameters S parameters) are determined by an autocorrelation method. Alternatively, it is calculated by the covariance method.
  • the obtained prediction parameter is input to the prediction parameter encoding circuit 110.
  • the prediction parameter encoding circuit 110 encodes the prediction parameter based on the predetermined number of quantization bits, and decodes this code into a decoding circuit 11. Output to 2 and multiplexer 1 18.
  • the decoding circuit 112 decodes the code of the input prediction parameter, and inputs the decoded value to the prediction filter 106 and the drive signal generation unit 104.
  • the drive signal generation unit 104 inputs the input signal s (n), the prediction residual signal r (n), and the quantum value ai (1 ⁇ i ⁇ p) of the ⁇ -nometer, and Calculates the interval and amplitude of the pulse for each of the determined M subframes, and encodes the interval of the pulse from output terminals 126
  • the signal is output to the circuit 114, and the pulse amplitude is output from the output terminal 128 to the encoding circuit 116.
  • the encoding circuit 114 encodes the pulse interval of each subframe with a predetermined number of bits, and outputs the result to the multiplexer 118.
  • Various methods are conceivable for the pulse interval encoding method. For example, as a value of the pulse interval, a plurality of values may be used. A method is conceivable in which the signal is determined in advance and numbered, and the signal is used as the pulse interval code.
  • the encoding circuit 116 encodes the amplitude of the driving pulse of each subframe with a predetermined number of bits, and outputs the result to the multiplexer 116.
  • Various methods are also conceivable for encoding the amplitude of the driving pulse, but a method well known in the art can be used. For example, a method may be considered in which the probability distribution of the normalized pulse amplitude is checked in advance, and an optimal quantizer (generally called MAX quantization) is used for the probability distribution. Is received. Since this is described in detail in the above-mentioned reference 1 and the like, the description is omitted here.
  • a method in which the pulse amplitude is normalized and then re-encoded by the vector quantization method can be considered.
  • Codebooks that can be created can be created using the LBG algorithm.
  • LBG algorithm see "An algo 1 ithm for Vector Quantizer” described in the IEEE bulletin by YOSEPH INDLE, January 1980, vo 1.1, COM-28, pp. 84-95. It is described in detail in the paper entitled “Design” (Ref. 3), and will not be described here.
  • the encoding method of the driving pulse sequence and the encoding method of the prediction parameter are not limited to the method described here, and the use of the known method may be used. it can.
  • FIG. 5 is a block diagram showing an example of the drive signal generation unit 104.
  • the predicted residual signal r (II) for one frame is input from the terminal 122, and is input to the non-memory 130.
  • the notebook memory 130 divides the input prediction residual signal into M equal-length or unequal-length subframes of a predetermined length, and generates a subframe. Accumulate in mud.
  • the pulse interval calculation circuit 132 inputs the prediction residual signal accumulated in the no-female memory 130, and calculates the pulse interval in each subframe. Calculation is performed according to a predetermined algorithm, and output to the drive signal generation circuit 134 and the output terminal 126.
  • N 1 and N 2 are set in advance as pulse intervals, and if the sum of squares of the predicted residual signal of the subframe is larger than a certain threshold, It is conceivable to set the pulse interval of the subframe to N1, and to set it to N2 if it is small. As another method, the sum of squares of the predicted residual signal of each subframe is calculated, and a predetermined number of subframe pulses are calculated in descending order of the sum of squares. A method is also conceivable in which the pulse interval is N 1 and the pulse interval of the remaining subframes is N 2.
  • the drive signal generation circuit 134 also has information on the pulse interval output from the pulse interval calculation circuit 132 and the pulse amplitude output from the error minimization circuit 144.
  • a drive signal V (n) composed of equally-spaced pulse trains is generated in the subframe, and is output to the synthesis filter 136.
  • the synthesis filter 1336 is connected to the drive signal V (n) and the terminal Input the quantized prediction parameter ⁇ i (1 ⁇ i ⁇ p) from 1 2 4, calculate the synthesized signal (n) according to the following equation, and subtract s (n) Output to 1 3 8.
  • the subtracter 38 calculates the difference (n) between the input audio signal input from the terminal 120 and the synthesized signal. Then, it outputs to the hearing weighting filter 140.
  • the weighting filter 140 weights e (n) on the frequency axis and outputs the result to the square error calculation circuit 142.
  • the transfer function of the weighting filter 140 is expressed as follows using the prediction parameter a i of the composite filter 136.
  • W (z) (l-2 ⁇ i-Z-r / (1-2 ⁇ z-(15)
  • y is a parameter that gives the characteristics of the weighting filter. It is.
  • This child-attached filter uses the masking effect of the auditory sense similarly to the conventional filter 4 and is described in detail in Reference 1. ing.
  • the square error calculation circuit 1442 calculates the sum of squares of the weighted error e '(n) in the subframe, and outputs the error minimization circuit 144;
  • the minimizing circuit 144 accumulates the weighted squared error calculated by the squared error calculating circuit 1442, as well as ascends the amplitude of the driving pulse and uses the amplitude information as the driving signal.
  • the drive signal generation circuit 1 3 4 A drive signal V (n) is generated again based on the information of the amplitude and the amplitude, and is output to the synthesis filter 1336.
  • the combined filter 1336 calculates the combined signal s (n) using the drive signal V (n) and the prediction parameter i, and outputs the result to the subtractor 1338.
  • the error e (n) between the input audio signal s (n) calculated by the subtractor 1 38 and the synthesized signal (n) is determined by the weighting filter 140 on the frequency axis. After being weighted by, it is output to the square error calculation circuit 142.
  • the square error calculation circuit 1442 calculates the sum of squares of the weighted errors and outputs the result to the error minimization circuit 144.
  • the error minimizing circuit 144 re-accumulates the weighted square error again, adjusts the amplitude of the drive pulse again, and outputs it to the drive signal generation circuit 134.
  • a series of processes from the generation of the drive signal as described above to the adjustment of the drive pulse amplitude by minimizing the error is performed in a sub-process for all combinations of the drive pulse amplitude and the obtained value.
  • the drive pulse amplitude that is performed at frame I and minimizes the weighted square error is output to the output terminal 128.
  • the internal states of the synthesis filter and the weighting filter need to be initialized before the adjustment of the amplitude of the driving pulse is completed.
  • the pulse interval of the drive signal is not densely set in a subframe including important information or a large amount of information. Subframes can be changed from subframe to coarse.
  • Figure 6 is the block diagram. From the encoding device via a communication channel, etc. The code obtained by combining the code of the transmitted pulse interval of the track, the code of the drive pulse amplitude, and the code of the prediction parameter is input to the demultiplexer 150. It is. The demultiplexer 150 separates the input code into a drive pulse interval code, a drive pulse amplitude code, and a prediction parameter code, and decodes each code. Output to circuits 15 2, 15 4 and 15 6.
  • the decoding procedure is as follows. The procedure is the reverse of that of the encoding circuit 110 in Fig. 4.
  • the drive signal generation circuit 158 based on the input drive pulse interval and amplitude information, generates pulse trains at equal intervals in the subframe and different intervals in the subframe.
  • the resulting drive signal V (j) is generated and output to the total filter 160.
  • the synthesis filter 1660 uses the drive signal V (j) and the quantized prediction parameters a i, the synthesis filter 1660 calculates and outputs a ⁇ synthesis signal y (j) according to the following equation.
  • the driving pulse is calculated by the A-b-1S (Analysis by Symthesis) method, but as another method, the driving pulse is calculated analytically. You There is a possible method.
  • the frame length is set to N (sample)
  • the number of subframes is set to M
  • the subframe length is set to L (sample)
  • the m-th subframe is set.
  • the interval of the driving pulse in the room is Nm (1 ⁇ m ⁇ M)
  • the number of driving pulses is Qm
  • the amplitude of the driving pulse is gi (m) (1 ⁇ i ⁇ Qm ) Set the phase of the drive pulse to Km.
  • y. (J) is a filter output based on the internal state of the composite filter at the end of the previous frame.
  • the output of the composite filter of the previous frame is yOLD.
  • the initial state is y admir(0) O D (N), y (-1)
  • Sw (n) is the output of the weighting filter when the input audio signal S (n) is input to the weighting filter It is.
  • ⁇ hh, J ⁇ h w (n- i) h w (n-j)
  • T hh (i, j) ⁇ h w (n-i) h w (n-j)
  • the amplitude gi (m) (1 ⁇ i ⁇ Q m) of the driving pulse with K m phase can be obtained by solving Eq. (31). .
  • the phase K m can be sealed to each value of K m, the amplitude of the pulse can be determined, the weighted square error at that time can be calculated, and the phase can be selected so as to minimize it.
  • FIG. 8 shows a block diagram of the drive signal generation unit 104 in the second embodiment using the above drive pulse calculation algorithm.
  • the same parts as those in FIG. 5 are denoted by the same reference numerals, and description thereof will be omitted.
  • the impulse response calculation circuit 1668 calculates the quantized value ai of the prediction parameter input from the input terminal 124 and the predetermined weighted filter Using the parameter ⁇ , the impulse response hw (n) of the composite filter and the cascade connection of the weighted filters is calculated according to equation (26). Calculate only for a predetermined number of samples. The obtained h w (n) is output to the covariance coefficient calculation circuit 170 and the cross-correlation coefficient calculation circuit 164. The covariance coefficient calculation circuit 164 inputs the impulse response sequence hw (n), and calculates the covariance coefficient 0 hh (i) of hw (n) according to Equations (32) and (31).
  • the subtracter 171 outputs the output of the weighting filter 140.
  • the force x (j) and the output y of the cascaded filter 17 2 are calculated by subtracting one frame from the difference x (j) from (j) according to equation (30), and the correlation coefficient Output to calculation circuit 16 4.
  • the cross-correlation coefficient calculation circuit 164 inputs X (j) and hw (n), calculates the cross-correlation coefficient xht- ⁇ ) of X and hw according to equation (34), and calculates the pulse amplitude. Output to calculation circuit 16 6. Pulse amplitude calculation circuit
  • 1 6 6 is the pulse interval N m calculated and output by the pulse interval calculation circuit 13 2, the cross-correlation coefficient 0 xh ( »> (i) and the covariance coefficient
  • the drive signal J signal generation circuit 13 4 outputs the drive pulse interval and amplitude information N m, g i (m) (1 ⁇ m ⁇ M,
  • the note memory 130 is the sum of y (N), y (N-1), and y (N-p + 1).
  • the amount of calculation is significantly larger than that of the first embodiment shown in FIG. It has the effect of decreasing.
  • the encoding of the driving pulse amplitude in one frame is performed by the pulse encoding that was performed after all the pulse amplitudes were obtained. Including the calculation of the pulse amplitude for one sub-frame in the calculation of the amplitude and including the calculation of the pulse amplitude, the pulse amplitude of the next sub-frame is calculated. can do. With such a configuration, a pulse amplitude that minimizes errors including coding errors can be obtained, so that there is an effect that quality is improved.
  • the prediction parameter used a linear prediction filter that removes the close correlation, but instead used a pitch that removed long-term correlation.
  • the configuration is such that the pitch synthesis filter is included in the drive pulse amplitude calculation loop. Is also good. With such a configuration, it is possible to remove even a strong correlation with each pitch period included in the audio signal, thereby improving quality. .
  • the prediction filter and the composite filter a configuration using an all-pole model or a pole-zero model may be used.
  • the pole-zero model can better represent the zeros present in the speech spectrum, thus further improving the quality.
  • the driving pulse interval was calculated based on the power of the prediction residual signal, but the cross-correlation coefficient between the noise response of the synthetic filter and the prediction residual signal and It is also possible to calculate the autocorrelation coefficient of the impulse response based on it. In this case, the interval between the pulses can be determined so that the error between the synthesized signal and the input signal is reduced, so that the quality is improved.
  • the subframe length is fixed, but may be variable for subframe I. By making it variable, the number of driving pulses in the subframe can be controlled precisely according to the statistical properties of the audio signal, so that the coding efficiency is improved. Has the effect.
  • the predicted parameter is ⁇ ; the force that used the parameter a.
  • a well-known parameter with well-known quantization characteristics For example, a K-noise parameter, an LSP-noise parameter, a log area, a ratio-noise parameter, etc. may be used.
  • the covariance coefficient was calculated according to the equations (32) and (33). It is also possible to use a configuration that calculates the Kappa coefficient.
  • FIG. 9 is a block diagram of a coding apparatus according to a third embodiment of the present invention.
  • FIG. 11 is a block diagram of the decoding device according to the third embodiment.
  • the audio signal after the AZD conversion is input to the frame knocker 202.
  • the frame knocker 202 stores the audio signal for one frame.
  • each component in Fig. 9 performs the following processing for each frame.
  • the prediction parameter calculation circuit 204 calculates the prediction parameters using a known method.
  • the prediction filter 206 is composed of a long-time prediction filter (pitch prediction filter) 240 and a short-time prediction filter 2442 as shown in FIG.
  • the prediction parameter calculation circuit 204 calculates the pitch period, the pitch prediction coefficient, and the linear prediction coefficient ( ⁇ parameter or K parameter). ) Is calculated by a known method such as an autocorrelation method or a covariance method.
  • a known method such as an autocorrelation method or a covariance method. The calculation method is described in the above-mentioned document 2 (“Digital Speech Processing”, written by Sadahiro Furui, published in 1985, Tokai University Press).
  • the calculated prediction parameter is input to the prediction parameter coding circuit 208.
  • the prediction parameter encoding circuit 208 encodes the prediction parameter based on a predetermined number of quantization bits, and encodes this code into a multi-plexer 2.
  • the signal is output to 10 and is also supplied to the decoding circuit 2 12.
  • the decoding circuit 211 outputs the decoded value to the prediction filter 206 and the synthesis filter 220.
  • the prediction filter 206 receives the audio signal and the prediction parameter, calculates a prediction residual signal, and outputs it to the drive signal parameter calculation circuit 214. .
  • the ⁇ drive signal parameter calculation circuit 2 14 first, one frame of the predicted residual signal is divided into a plurality of subframes, and each of them is divided into a plurality of subframes. Calculate the sum of squares of the predicted residual signals of these subframes. Next, based on the sum of squares of the prediction residual signal, the density of the driving pulse train signal in each subframe, that is, the pulse interval, is calculated.
  • the concrete method is that the pulse interval is long and short, the number of subframes with long pulse interval and the subframe with short pulse interval. Number of frames ⁇ ⁇ This is a method in which the pulse interval is set to a shorter value in the order of the subframe in which the sum of squares of the prediction residual signal is larger, and is set in advance.
  • the gain of the drive signal can be expressed by the standard calculation circuit 211 and the standard deviation of the prediction residual signal of all the subframes with a short pulse interval and all the subframes with a long pulse interval. Two types are obtained using the standard deviation of the prediction residual signal.
  • the obtained drive signal parameters that is, the drive pulse interval and the gain, are coded by the drive signal parameter coding circuit 2 16, and the The decoded value is output to the driving signal generator circuit 218— while being output to the driving signal generator 210.
  • the driving signal generator circuit 218 outputs the driving signal parameter. Supplied from the coding circuit 2 16 : the drive pulse interval and gain, the normalized amplitude of the drive pulse supplied from the codebook 2 32 2 Based on the phase of the drive pulse supplied from the phase search circuit 228, drive signals having different densities in subframes and units are generated.
  • FIG. 12 shows an example of the drive signal generated by the drive signal generation circuit 218.
  • the gain of the drive pulse in the m-th subframe is G (m)
  • the normalized amplitude of the drive pulse is gi (m)
  • the number of pulses is Dm
  • the interval of the noise is Dm.
  • the drive signal V (n) is described by the following equation, where the phase of the noise is K m and the length of the subframe is it can.
  • the drive signal generated by the drive signal generation circuit 218 is input to the synthesis filter 220, and the synthesis signal is output.
  • the synthetic filter 220 has a relationship of a predictive filter 206 and an inverse filter.
  • the error between the input audio signal output from the subtraction circuit 222 and the synthesized signal is obtained after the spectral transformation by the perceptual weighting filter 222. Input to the square error calculation circuit 2 26.
  • the auditory weighting filter 22 6 is for taking advantage of the auditory masking effect.
  • the square error calculation circuit 2 26 calculates the sum of squares of the error signal weighted by the auditory sense and the code word unit stored in the code book 23 2 and the phase search circuit 2 2 The calculation is performed on the phase ⁇ of the driving pulse output from 8, and the calculation result is output to the phase search circuit 228 and the amplitude search circuit 230.
  • the amplitude search circuit 230 outputs a code word for minimizing the sum of squares of the error signal for each phase of the driving pulse output from the phase search circuit 222.
  • This value is given to the drive signal generation circuit, and the minimum value of the sum of squares of the error signal determined for each of the D m phases is input from the amplitude search circuit, and the D m The phase corresponding to the smallest sum of squares among the minimum values is output to the multiplexer 210.
  • the amplitude search circuit 230 is informed of the phase at that time, and the amplitude search circuit 230 reads the index of the code word corresponding to the phase. Output to chipplexer 210.
  • Code Bed Tsu 2 3 2 stores ⁇ normalized drive Pulse train, white noise or preparative analytically determined et a drive pulse train against the speech data Raney LBG
  • the drive pulse train is analytically determined so that the sum of squares of the perceptual weighting error signal as described in the second embodiment is minimized. Method can be adopted. Since the details have already been described with reference to equations (17) to (34), the description will be omitted. That is, the amplitude gi (»>) of the drive pulse with phase K m is obtained by solving equation (34) .For each value of phase K m, The amplitude of the pulse is obtained, and the weighted squared error at that time is calculated for each, and is selected so as to minimize it.
  • the multiplexer 210 multiplexes the prediction parameter, the drive signal parameter, the phase and amplitude code of the drive pulse, and outputs the multiplexed signal to a transmission path (not shown). You. Note that the output of the subtraction circuit 222 may be directly input to the square error calculation circuit 222 without passing through the weighting filter 222.
  • a demultiplexer 250 outputs a code input from a transmission line or the like to a prediction parameter, a driving signal parameter, or a driving pulse. It is separated into the sign of the phase and the amplitude of the drive pulse.
  • the drive signal parameter decoding circuit 252 decodes the interval of the drive pulse and the sign of the gain of the drive pulse, and outputs the decoded signal to the drive signal generation circuit 2554.
  • the codebook 260 is the same as the codebook 2332 of the encoder and corresponds to the index of the transmitted drive pulse amplitude.
  • the codework is output to the drive signal generation circuit 254.
  • the prediction parameter decoding circuit 258 decodes the code of the prediction parameter coded by the prediction parameter coding circuit 408, and synthesizes the synthesized filter 258. Output to 6.
  • the drive signal generation circuit 25 like the generation circuit 218 in the encoder, has the input drive pulse interval, the drive pulse gain, and the drive pulse normalized. Generates drive signals with different densities in subframe units based on the amplitude and the phase of the drive pulse.
  • the synthesizing filter 2556 is the same as the synthesizing filter 220 in the encoding device, and outputs the synthesized signal by inputting the drive signal and the prediction parameter. You.
  • the code book has a single type of force, a plurality of code books are provided, and the code book is switched according to the interval of the driving pulses. You can use it. Since the statistical properties of the driving pulse sequence differ depending on the interval of the driving pulse, the performance can be improved by switching the driving pulse train.
  • Block diagrams of the encoding device and the decoding device according to the fourth embodiment adopting this configuration are shown in FIGS. 13 and 14. In Fig. 13 and Fig. 14, Fig. 9 and 13112
  • the selection circuit 2666 shown in Fig. 13 and the selection circuit 2668 shown in Fig. 14 are used to select the output of the codebook according to the drive pulse 0 phase. Book selection circuit.
  • the pulse interval of the drive signal is not changed in a subframe including important information or a large amount of information.
  • the quality of the synthesized signal can be changed for each subframe in such a way as to make it coarser in the other subframes.
  • the third and fourth embodiments can be modified similarly to the first and second embodiments.
  • FIG. 1'5 and FIG. 16 are block diagrams of an encoding device and a decoding device according to the fifth embodiment.
  • the frame knocker 11 is a circuit for storing one frame of the audio signal input to the input terminal 10.
  • Each block in FIG. 15 is a frame knocker. Use 1 to perform the following processing on the frame : subframe or subframe.
  • the prediction parameter calculation circuit 12 calculates the prediction parameters using a known method.
  • the prediction filter 14 is composed of a long-term prediction filter 41 and a short-time prediction filter 42 as shown in FIG.
  • the prediction parameter calculation circuit 12 determines the peak period ; the pitch prediction coefficient and the linear prediction coefficient ("Norameter or The K parameter is calculated by a known method such as the autocorrelation method or the covariance method. For the calculation method, see, for example, Reference 2 (Sadateru Furui, “Digital 1 Speech Processing ”published by Tokai University Press in 985).
  • the calculated prediction parameter is input to the prediction parameter coding circuit 13.
  • the prediction parameter coding circuit 13 encodes the prediction parameter based on a predetermined number of quantization bits, and multiplies this code by multiple prediction.
  • the decoded value is output to the prediction filter 14, the synthesis filter 15, and the perceptual weight filter 20, together with the output to the filter 25.
  • the prediction filter 14 receives the input audio signal and the prediction parameter, calculates a prediction residual signal, and outputs the result to the density pattern selection circuit 15. You.
  • the density pattern selection circuit 15 the power that can be used in the embodiment described later is used, and in the present embodiment, the prediction of one frame is performed first.
  • the residual signal is divided into multiple subframes, and the sum of squares of the predicted residual signal of each subframe is calculated.
  • the density (pulse interval) pattern of the driving pulse train signal in each subframe is obtained based on the sum of squares of the prediction residual signal.
  • An example of a specific method is that the density pattern is two types with the shortest pulse interval, the number of subframes with a long pulse interval and the pulse interval are two.
  • a density pattern in which the number of short subframes is set in advance, and the pulse interval becomes shorter in the order of the subframe in which the sum of squares of the prediction residual signal is larger. It is a method of selecting.
  • the gain calculation circuit 27 receives the information of the selected density pattern as an input, and calculates the gain of the drive signal, for example, the prediction residual of all subframes having a short pulse interval. Two types are obtained using the standard deviation of the signal and the standard deviation of the prediction residual signal of all subframes with long pulse intervals.
  • the obtained density pattern and gain are coded by coding circuits 16 and 28, respectively, and input to the multiplexer 25 together with the density pattern. 'These decoded values are input to the drive signal generation circuit 17.
  • the drive signal generation circuit 17 includes a density pulse and a gain input from the encoding circuits 16 and 28, and a drive pulse input from the codebook 24 and the like. Generates a drive signal with a variable density in subframe units based on the normalized amplitude of the input signal and the phase of the drive pulse input from the phase search circuit 22. .
  • FIG. 18 shows an example of the drive signal generated by the drive signal generation circuit 17.
  • the gain of the driving pulse in the m-th subframe is G (m)
  • the normalized amplitude of the driving pulse is gi (m)
  • the number of pulses is Q 3 ⁇ 4
  • the drive signal ex >> (n) can be described by the following equation, where Dm is the interval between pulses, Km is the phase of the noise, and L is the length of the subframe. e ( »> in) i ⁇ ) ⁇ ⁇ ⁇ ( ⁇ - (i-1) Dm-Km ⁇
  • the drive signal generated by the drive signal generation circuit 17 is input to the synthesis filter 18 and the synthesized signal is output.
  • the synthesis filter 18 has a relationship between the prediction filter 14 and the inverse filter.
  • the error between the input speech signal, which is the subtraction circuit 190 output, and the synthesized signal is the square error after the spectrum is transformed by the perceptual weighting filter 20. Input to the calculation circuit 21.
  • the square error calculation circuit 21 calculates the sum of squares of the error signals weighted by the auditory sense for each code vector stored in the code book 24 and the phase.
  • the phase ⁇ of the drive pulse output from the search circuit 22 is calculated, and the calculation result is output to the phase search circuit 22 and the amplitude search circuit 23.
  • the amplitude search circuit 23 is a code word that minimizes the sum of squares of the error signal for each phase of the drive pulse output from the phase search circuit 22.
  • An index is searched from the codebook 24, the minimum value of the sum of squares is output to the phase search circuit 22 and the code for minimizing the sum of squares is searched. Retains the index of the word.
  • the phase search circuit 22 receives the information of the selected density pattern as input, changes the phase K m of the driving pulse train in a range of 1 K m ⁇ D m, and changes the value.
  • the minimum value of the sum of squares of the error signal determined for each of the D m phases is supplied to the drive signal generation circuit 17 from the amplitude search circuit 23, and the D m minimum values thereof are obtained.
  • the phase corresponding to the smallest sum of squares among the two is output to the multiplexer 25, and at the same time, the amplitude search circuit 23 is informed of the phase.
  • the index of the code word corresponding to the phase is output to the multiplexer 25.
  • the multiplexer 25 multiplexes the phase and amplitude signs of the prediction parameter, density pattern, gain, and driving pulse, and outputs the signal. Output to the transmission line via terminal 26.
  • the output of the subtraction circuit 19 may be directly input to the square error calculation circuit 21 without passing through the perceptual weight filter 20.
  • the demultiplexer 31 converts the code input from the input terminal 30 into a prediction parameter, a density pattern, a gain, and a driving pulse. Separation into phase and amplitude sign.
  • the decoding circuits 32 and 37 decode the density pattern of the driving pulse and the sign of the gain of the driving pulse, respectively, and output them to the driving signal generating circuit 33.
  • Code book 35 is the same as code book 24 in the encoder of FIG. 1 and is an index of the amplitude of the transmitted drive pulse. A code word corresponding to the output signal is output to the drive signal generation circuit 33.
  • the prediction parameter decoding circuit 36 decodes the code of the prediction parameter coded by the prediction parameter coding circuit 13 in FIG. Output to filters 34.
  • the drive signal generation circuit 33 like the drive signal generation circuit 17 in the encoding device, uses the subframe based on the normalized amplitude of the input drive pulse and the phase of the drive pulse. Generates a drive signal with a variable density per unit.
  • the synthesizing filter 34 is the same as the synthesizing filter 18 in the encoder, receives the driving signal and the prediction parameter, and converts the synthesizing signal to a noise.
  • Output to The knocker 38 combines the input signals for each frame, and outputs the synthesized signal to the output terminal 39.
  • FIG. 19 is a block diagram of an encoding apparatus according to a sixth embodiment of the present invention.
  • Fig. This embodiment has the same function as the encoder of the fifth embodiment, but can reduce the amount of calculation required for encoding the pulse train of the drive signal to about 1 Z 2. That's what we did.
  • H (z), W) in Eq. (41) are obtained by using the transfer function A ( Z ) of the prediction filter 14 respectively.
  • ew (n) X (nec (n) * nw (n) ... (5)
  • x (ii) is the input signal with auditory weighting
  • exc (n) is the drive signal.
  • the candidate, hw (n) indicates the impulse response of the auditory weighting filter having a transfer function of ⁇ ⁇ ⁇ ⁇ ⁇ ).
  • Eq. (40) Comparing Eqs. (40) and (45), in Eq. (40), one drive signal candidate exc (n) is used to calculate the perceptually weighted error signal ew (n). Although the convolution operation of two filters is required, it can be seen that the convolution operation of one filter is sufficient in Eq. (45). In the actual encoding process, since hundreds to thousands of drive signal candidates are calculated as ⁇ weighted error signals, the amount of computation in this part is Most of the amount is occupied. Therefore, if the configuration of the encoding device is changed to use Eq. (45) instead of Eq. (40), the amount of calculation required for encoding will be reduced by 1/2 order. Therefore, the practical use of the _ coding apparatus is further facilitated.
  • a first perceptual weight filter 51 having a transfer function of ⁇ ⁇ ⁇ ( ⁇ ⁇ ) receives a prediction parameter as an input, and receives a prediction residual signal r () from the prediction filter 14. n), and outputs an input signal ⁇ ( ⁇ ) with perceptual weight.
  • a second perceptual weight filter 52 having the same characteristics as the first perceptual weight filter 51 receives a prediction parameter as an input and receives a signal from the drive signal generation circuit 17.
  • the subtraction circuit 5 3 is the auditory weight Outputs the error between the attached input signal x (n) and the perceived weighted synthesized signal candidate xc (n), that is, the perceptually weighted error signal ew (n) to the squared error calculation circuit 21 You.
  • FIG. 20 is a block diagram of an encoding device according to a seventh embodiment of the present invention.
  • This encoder has the same function as the encoder shown in Fig. 19, but can optimally determine the drive pulse gain in a closed loop type. In this way, the quality of synthesized speech is further improved.
  • the gain of the driving pulse is the codebook normalized using the standard deviation of the expected residual signal of the input signal. Configuration that multiplies all code vectors drawn from the network by the common gain G to find the phase J and the index I of the code book And it was. In this method, the optimal phase J and index I are selected for the determined gain G, but the gain, phase, and index are the same. It is not always optimized. If the gain, phase, and index can be optimized simultaneously, the driving pulse can be expressed more accurately, and the quality of synthesized speech will be significantly improved. .
  • Equation (45) can be rewritten as the following equation (46).
  • ew (n) x (n)-G ij-xj (1 > (n)... (46)
  • ew (n) is the perceptually weighted error signal
  • X (n) is the perceptually weighted input.
  • the force signal, G ij is the optimal gain for the drive pulse of index i and phase j
  • X j (( n ) is the gay of index i and phase j.
  • the optimal gain GU is determined by setting the value E wZ G ij obtained by partially differentiating the optimal gain ⁇ to zero.
  • the encoder shown in Fig. 20 differs from the encoder shown in Fig. 19 only in that it incorporates a method for simultaneously optimizing the index, the phase, and the gain described above. Therefore, blocks having the same functions as those in FIG. 19 are assigned the same numbers as those in FIG. 19, and description thereof is omitted.
  • the phase search circuit 22 receives the density pattern information and the phase update information from the index / phase selection circuit 56 as inputs and performs a normalization drive.
  • the phase information j is output to the signal generation circuit 58.
  • the normalized drive signal generation circuit 58 outputs the pre-normalized code vector C (i) (i is the code vector) stored in the code book 24.
  • the inner product calculation circuit 54 calculates the inner product value A j ( l > of the perceptually weighted input signal X (n) and the perceived weighted synthesized signal candidate xj "> (n) according to equation (49). This is output to the index / phase selection circuit 56.
  • the power calculation circuit 55 generates the perceived weighted synthesized signal candidate xj ( ') (n)' s noise Bj). The value is calculated by equation (50) and output to the index 'phase selection circuit 56.
  • the index / phase selection circuit 56 calculates the input inner product value. To find the index I and the phase J that maximizes the ratio of the square of the power to the power ⁇ A j (i> ⁇ 2 B j ( 90/13112
  • the secondary index and phase update information are output to the codebook 24 and the phase search circuit 22.
  • the optimal index I and phase J information obtained by this search is output to the multiplexer 25, and AJ ⁇ »>, BJ"> is temporarily stored.
  • the gain coding circuit 57 receives the AJ "), from the index / phase selection circuit 56 as an input, and quantizes the optimal gain AJM ⁇ BJ). And outputs the information of this gain to the multiplexer 25.
  • FIG. 21 is a block diagram of an encoder according to an eighth embodiment of the present invention. This encoder has the same function as the encoder of FIG. It was designed so that the amount of calculation required to search for the phase of the drive signal could be reduced while having it.
  • a phase shift circuit 59 receives a perceptual weighted synthesized signal candidate X 1 ( 1 ) (n) of phase 1 output from a perceptual weight filter 52 as an input. And all possible phase states for index i can be easily shifted by simply shifting the sample points of xl (l> (n) in the positive direction of the time axis. Can be created in
  • the hearing weight filter shown in Fig. 20 is used.
  • the number of uses of the filter 52 is NIXNJ for one drive signal search, whereas the number of uses of the perceptual weight filter 52 in Fig. 21 is one.
  • the computational complexity can be reduced to about 1 / N, which is the order of NI for each drive signal search.
  • the prediction filter 14 is composed of a long-time prediction filter 41 and a short-time prediction filter 42, as shown in FIG.
  • the predicted parameters were obtained by analyzing the input voice signal.
  • the long-term prediction file was used.
  • the parameters of the long-term synthesis filter which is the filter and its inverse filter, are closed-loop, that is, the root-mean-square error between the input audio signal and the synthesized signal is minimized. It is a configuration that is required to be as follows. According to this configuration, the noise is determined so that the error is minimized at the level of the synthesized signal, so that the quality of the synthesized speech is further improved.
  • FIG. 22 and FIG. 23 are block diagrams of the encoding device and the decoding device of the ninth embodiment.
  • the frame buffer 301 is a circuit for accumulating one frame of the audio signal input to the input terminal 300, as shown in FIG. 8. Each block performs the following processing for each frame or subframe using the frame knob 301.
  • a short-term prediction parameter is calculated by using a known method in a prediction parameter calculation circuit 302 for an audio signal for one frame. Usually, 8 to 12 prediction parameters are calculated.
  • the calculation method is described in, for example, the above-mentioned document 2 (Sadateru Furui, “Digital Speech Processing”).
  • the calculated prediction parameter is input to the prediction parameter coding circuit 303.
  • the prediction parameter encoding circuit 303 encodes the prediction parameter based on a predetermined number of quantization bits, and encodes the code into a multi-prediction code. And outputs the decrypted value P to the Predictive filter 304, auditory weight filter 305, influence signal generation circuit 307, long-term vector quantization (VQ) circuit 309 and short-term vector quantization Output to circuit 3 1 1.
  • VQ long-term vector quantization
  • the prediction filter 304 is a short-term prediction based on the input speech signal from the frame knob 301 and the decoded value of the prediction parameter from the encoding circuit 303. Calculates the residual signal r and outputs it to the perceptual weight filter 30 &.
  • the auditory weighting filter 305 is a filter formed based on the decoded value P of the prediction parameter, and is a signal X obtained by transforming the spectrum of the short-term prediction residual signal r with a filter X. Is output to the subtraction circuit 303.
  • This auditory weighting filter 3005 is for utilizing the masking effect of hearing, and the details thereof are described in the above-mentioned Reference 2. Description is omitted.
  • the influence signal creation circuit 307 receives the past weighted synthesized signal X from the adder circuit 312 and the decoded value P of the prediction parameter as inputs, and outputs the past influence signal.
  • Output f More specifically, the quiescent response of a perceptual weighting filter that uses the past weighted synthesized signal X as an internal state of the filter is calculated, and the calculated input signal is used as an influence signal f.
  • the influence signal creation path 307 is used for the first subframe to generate a composite signal of the previous frame created based on the density pattern K determined in the previous frame. type to create the effect signal f - Ru a subtracting circuit 3 0 6, perceptual weighting penetration by support Boeuf les over arm unit The signal u obtained by subtracting the past influence signal f from the force signal X is output to the subtraction circuit 308 and the long-term vector quantization circuit 309.
  • the calculation circuit 3 13 calculates the power (sum of squares) of the short-term prediction residual signal, which is the output of the prediction filter 304, in subframe units.
  • the power of the subframe is output to the density pattern selection circuit 3 1 4.
  • the density pattern selection circuit 314 is set in advance based on the power of the short-term prediction residual signal of the subframe ⁇ ⁇ output from the power calculation circuit 315. Select one of the drive signal density patterns. Specifically, the density pattern is selected so that the sub-frames with large power have a high normal density. For example, if there are four equal-length subframes and two types of density, and the density pattern is set as shown in the following table, the density pattern selection circuit 3 15 Compare the above power of sub-frame No., select the number K of the density pattern where the sub-frame with the maximum power is dense, and replace it with the density pattern. The information is output to the short-term vector quantization circuit 311 and multiplexer 315 as the simulation information.
  • the long-term vector quantization circuit 309 is a signal from the subtraction circuit 306. 1
  • the difference signal u, the past drive signal e X from the drive signal holding circuit 310 described later, and the prediction parameter P from the encoding circuit 303 are input and the subframe
  • the quantized output signal ⁇ of the difference signal u is multiplied by the vector gain ⁇ and the index ⁇ to the subtraction circuit 308 and the addition circuit 312 in units of units.
  • the long-term drive signal t is output to the multiplexer 315 and the drive signal holding circuit 310, respectively.
  • t and u t * h (h represents the impulse response of the perceptual weight filter 305 and * represents convolution). There is.
  • a drive signal candidate for the current subframe is created using the preset index T, gain, and drive signal in the past, and this is input to an intelligent weight filter.
  • To generate a quantized signal candidate for the difference signal u and determine an optimal index T (and an optimal ⁇ ) such that an error between the difference signal u and the quantized signal candidate is minimized.
  • the drive signal of the current subframe created using and the optimal / 9 (“ ⁇ is assumed to be t, and t is input to the perceptual weight filter.
  • the resulting signal is defined as a quantized output signal u of the difference signal u.
  • the subtraction circuit 308 outputs the difference signal V obtained by subtracting the quantized output signal u from the difference signal u power to the short-term vector quantization circuit 311 in a subframe unit. .
  • the short-term vector quantization circuit 3 1 1 has a difference signal V, a prediction parameter P, and a density pattern number K output from the density pattern selection circuit 3 1 4. , And outputs the quantized output signal V of the difference signal V to the adder circuit 312 and the short-term drive signal y to the drive signal holding circuit 310 in subframe units.
  • V and y on V y * h.
  • the short-term vector quantization circuit 311 has the gain G of the driving pulse train, the phase information J, and the index of the code vector. I is output to the multiplexers 3 15. At this time, the nodal parameters G, J, and I output in subframe units are the current subframe (mth subframe) determined by the density pattern number K. Is set in advance because the number of pulses N ⁇ >>> according to the density (pulse interval) of the sub-frame must be encoded in the subframe. The number of dimensions of the code vector ND (the number of pulses that make up each code vector), that is, N i ⁇ ZND It is output in the subframe.
  • a frame length is composed of 160 samples
  • a subframe is composed of four equal length 40 samples
  • the dimension of the code vector is 20.
  • one of the density patterns prepared in advance is the pulse interval 1 of the first subframe, and the second to fourth subframes. 9 13112 ,;
  • the short-term vector quantization circuit 311 for this density pattern outputs gains and gains.
  • Figure 24 shows a specific configuration example of the short-term vector quantization circuit 311.
  • the synthesis vector generation circuit 500 1 ′ includes a prediction parameter P and a code vector C in a predetermined code book 50 2.
  • I is the index X of the code vector
  • K the density pattern information K
  • the density information is obtained by interpolating zeros with a predetermined period after the first sample of C (1> so that the interval becomes the interval.
  • V 1 ⁇ 1 is produced by synthesizing with the perceptual weight filter generated from the parameter P force.
  • the image path 503 delays the composite vector V 1 t by a predetermined number of samples based on the density pattern information ⁇ to calculate the phase. Create different composite vectors V 2 (i, V 3 ⁇ ,..., V j ⁇ 1) and output them to the inner product calculation circuit 504 and the power calculation circuit 505
  • the code book 502 stores the amplitude information of the adaptive density pulse, and a predetermined code code C t "for the index i is obtained.
  • the inner product calculation circuit 504 is composed of a memory circuit or a vector generation simplification circuit which can output the difference signal V from the subtraction circuit 308 of FIG.
  • the composite vector V j (within The product value A j) is calculated and output to the index / phase selection circuit 506.
  • the node calculation circuit 505 obtains the value B j (i) of the synthesized vector V j) and outputs it to the index / phase selection circuit 306.
  • the index / phase selection circuit 306 uses the inner product value A j ( i) and the power B j) to evaluate the following equation.
  • the index / phase selection circuit 506 further outputs the information of the phase J to the short-term drive signal generation circuit 508 and the multiplexer 31 of FIG. 5 and outputs the information of the index I to the code book 502 and the multiplexer 315 shown in FIG. ⁇
  • the ratio between the inner product value AJ (I>) and the node BJ (I> ) from the index / phase selection circuit 506 is obtained.
  • the gain information G is output to the short-term drive signal generation circuit 508 and the multiplexer 315 shown in FIG.
  • Equations (53) and (54) are based on, for example, I.M. Trancoso et al.
  • the short-term drive signal generation circuit 508 includes a code vector C (D) corresponding to the density pattern information K, the gain information G, the phase information J, and the index I. , And a pulse train having density information is created using K and C ") in the same manner as in the synthetic vector generation circuit 501 described above.
  • the short-term drive signal «y is generated by multiplying the amplitude by the value corresponding to the gain information G and delaying the pulse train by a predetermined number of samples based on the phase information J.
  • the short-term drive signal y is output to the perceptual weight filter 509 and the drive signal holding circuit 310 of Fig. 2.
  • the perceptual weight filter 50 Reference numeral 9 denotes a filter having characteristics similar to those of the perceptual weighting filter 300 in FIG. 22, which is created based on the prediction parameter P. You Outputs as input a period KaTsutomu signal y quantized output V of the difference signal V to the second 2 diagram of addition circuit 3 1 2.
  • the driving signal holding circuit 310 is a long-term driving signal t and a short-term vector quantizing circuit output from the long-term vector quantization circuit 310.
  • the short-term drive signal y output from 311 is input, and the drive signal ex is output to the long-term vector quantization circuit 309 in subframe units.
  • a signal obtained by adding t and y in subframe units for each sample may be used as the drive signal eX.
  • the drive signal e X of the current subframe is used as a past drive signal in the next subframe so that it can be used in the long-term vector quantization circuit 309.
  • the data is held in the knock memory in the drive signal holding circuit 330.
  • the adder circuit 3 2 outputs the quantized output u (" And (and the sum signal X of the past influence signal f created in the current subframe is obtained and output to the influence signal creation circuit 307.
  • the information of the parameters P, ⁇ , ⁇ , G, I, J, and K obtained as described above is multiplexed by the multiplexer 315.
  • the signal is transmitted from the output terminal 316 as a transmission code.
  • the transmitted code is input to the input terminal 400.
  • the demultiplexer 401 first uses this input code to predict parameters, density pattern information ⁇ , Zine ⁇ , Gain G, Index! , The index I and the sign of the phase information J.
  • the decoding circuits 402 to 407 respectively provide density pattern information K, gain G, phase J, index I, gain / 5, and index T. Is decoded and output to the drive signal generation circuit 409.
  • the other decoding circuit 408 decodes the encoded prediction parameter and outputs the result to the synthesis filter 410.
  • the driving signal generation circuit 409 receives the decoded parameters as inputs, and generates driving signals having different densities in subframe units based on the density pattern information K. Generate a signal.
  • the drive signal generation circuit 409 is specifically configured, for example, as shown in FIG. In FIG. 25, the code book 600 has the same function as the code book 502 shown in FIG. 24 in the encoder. Then, the code vector C (I) corresponding to the index I is applied to the short-term drive signal generation circuit 601. The short-term drive signal generation circuit 60 1 is shown in Fig. 24 in the encoder. ⁇
  • Adder circuit 600 (the sum signal of short-term drive signal y and long-term drive signal t generated by long-term drive signal generation circuit 602, that is, drive signal ex is referred to as drive signal 3 and output it to the synthesis filter 410 of Fig. 23.
  • the driving signal knocker 603 holds the drive # output from the adder circuit 606 from the present to the past by a predetermined number of samples, and the index When the input T is input, the number of samples corresponding to the subframe length is output in order from the drive signal in the past T samples.
  • the long-term drive signal generation circuit 602 receives the signal output from the drive signal buffer 603 based on the index T as an input, and applies a gain to this input signal. , A long-term drive signal that repeats at the cycle of the T sample is generated, and is output to the addition circuit 606 in subframe units.
  • the synthetic filter 410 has a frequency characteristic opposite to that of the predictive filter 304 shown in FIG. It is a filter that receives a drive signal and a prediction parameter as inputs and outputs a composite signal.
  • the post filter 411 uses the predictor, gain, and index T to generate a composite output from the composite filter 410.
  • the spectrum of the signal is subjectively shaped so that the noise is reduced, and the signal is output to the amplifier 412.
  • the specific construction method of the post filter is described in, for example, the above-mentioned reference 5. Just use a simple method.
  • the output of the synthesis filter 410 may be directly supplied to the notifier 412 without using the post filter 411.
  • the knob 412 combines the input signals for each frame, and outputs the synthesized voice signal to the output terminal 413.
  • the density pattern of the drive signal is selected based on the number of zero crossings of the short-term predicted residual signal based on the power of the short-term predicted residual signal. Wear.
  • FIG. 26 shows the encoding apparatus of the tenth embodiment having this configuration.
  • the number of zero-crossings calculation circuit 317 calculates the number of times that the short-term prediction residual signal r crosses 0 in subframe units, and calculates the value as the density. Output to the pattern selection circuit 3 1 4.
  • the density pattern selection circuit 3 1 4 uses one of the preset density patterns based on the magnitude of the zero crossing number of the subframe ⁇ . Select a pattern.
  • FIG. 27 shows a block diagram of the encoding apparatus of the first embodiment in which the density pattern is selected based on the power of the pitch prediction residual signal.
  • Fig. 8 shows a block diagram of the encoder of the 12th embodiment that performs density pattern selection based on the number of zero crossings of the pitch prediction residual signal.
  • Fig. 27 and Fig. 28 are before the power calculation circuit 3 13 and the number of zero crossings 3 17 in Fig. 22 and Fig. 26 respectively.
  • the pitch analysis circuit 321, and the pitch prediction filter 322 are placed in Configuration.
  • the pitch analysis circuit 32 1 is a circuit for calculating the pitch period and the pitch gain, outputs the calculation result to the pitch prediction filter 32 2, and outputs the result.
  • the pitch prediction filter 322 outputs the pitch prediction residual signal to the power calculation circuit 313 or the zero-crossing number calculation circuit 317.
  • the pitch period and pitch gain can be obtained by a known method, for example, an autocorrelation method or a covariance method.
  • a pole-zero prediction analysis model as an example of a prediction filter or a synthetic filter will be described.
  • Fig. 29 shows a block diagram of the pole-zero model. In Fig. 29, the audio signal s (n) is input to the terminal 70, and the pole It is input to the estimating circuit 70 2.
  • s (n) is the input signal sequence
  • a i is the parameter of the all-pole model
  • P is the prediction order.
  • the power vector of the residual signal d (n) is obtained by a fast Fourier transform (FFT) circuit 704 and a square circuit 705, and the peak vector is obtained.
  • the pitch analysis processing circuit 7.06 extracts the pitch period and judges voiced Z unvoiced.
  • DFT discrete Fourier transform
  • the power vector of the residual signal obtained by the FFT circuit 704 and the squaring circuit 705 is input to the smoothing circuit 707.
  • the smoothing circuit 707 uses the pitch cycle and the voiced / unvoiced state obtained by the pitch analysis processing circuit 706 as a noramator as a noise meter. Smoothes the file.
  • the details of the smoothing circuit 707 are shown in FIG.
  • the time constant of this circuit that is, the number of samples T that gives an impulse response 1 / e is
  • This time constant ⁇ is adaptively changed according to the value of the pitch period. If the pitch period is ⁇ (sample), the number of sampling periods fs (Hz), and the order of FFT or DFT is N, the power spectrum of the residual signal is The period m (sample) of the fine structure due to the pitch that appears can be described by the following equation.
  • T p is a parameter that represents the number of fine structures that perform smoothing.
  • T p cannot be obtained, so the pitch analysis processing circuit 706 determines that there is no voice. : In this case, set T p to an appropriately determined value in advance.
  • the filter when smoothing the Renoise vector by the filter shown in Fig. 30, the filter has zero phase.
  • To obtain zero phase for example, filter the north-spectral output in the forward and backward directions, and average the obtained outputs. ,. D (ncu o) for residual signal power vector, (nwo) f for filter output when filtering forward, and If the filter output in the case of filtering is denoted by D (nwo) b , the smoothing is described as follows.
  • ⁇ 0 2 ji / N one ... (62): ⁇ , D (n ⁇ 0) is the smoothed power vector, ⁇ is the FF ⁇ or DF ⁇ The order.
  • the spectrum smoothed by the smoothing circuit 707 is converted into an inverse spectrum by the reciprocal circuit 708.
  • the zeros of the resulting residual signal spectrum are converted to poles.
  • the inverse spectrum is subjected to inverse FFT by an inverse FFT processing circuit 709, converted into an autocorrelation sequence, and input to a zero prediction parameter estimation circuit 710. You.
  • the zero-prediction parameter estimator 710 uses the input autocorrelation system.
  • the zero prediction parameter was calculated using the autocorrelation method
  • the pole-zero prediction analysis of the audio signal is performed.
  • Figure 31 shows the results of analysis of “rain” uttered by adults.
  • Fig. 32 shows the spectrum waveform when smoothing is not performed.
  • the smoothing circuit 707 shown in Fig.29 a method of detecting peaks in the noise vector and interpolating between the detected peaks using a quadratic curve You can also do this. Specifically, the coefficients of the quadratic equation are calculated through three peaks, and the quadratic curve is interpolated between the two peaks. In this case, there is an effect that the amount of calculation is reduced because pitch analysis is not required.
  • the smoothing circuit 707 shown in FIG. 29 can be inserted after the reciprocal circuit 708, and the block diagram in this case is shown in FIG. 33. .
  • the smoothing shown in Fig. 29 and Fig. 33 performed in the frequency domain can be performed in the time domain.
  • the smoothing is performed in the frequency domain as shown by the following equation. This is done by filtering at
  • Equation (64) is described in the time domain as the following equation due to the nature of the Rie transform.
  • ⁇ ( ⁇ ) is called a lag wind.
  • ⁇ ( ⁇ ) changes adaptively according to the pitch period.
  • Fig. 34 shows a block diagram when smoothing is performed in the time domain.
  • the force that converts zeros to poles in the frequency domain can be performed in the time domain. Wear.
  • the autocorrelation sequence of the residual signal d (n) for polar prediction is ⁇ (n), and the Fourier transform of the Noworth vector
  • equation (68) Since the autocorrelation coefficient is symmetric with respect to ⁇ (0), equation (68) is written in the form of a matrix as I can do it.
  • Block diagrams in the case of performing zero point conversion and smoothing in the time domain are shown in Fig. 35 and Fig. 36.
  • the inverse convolution circuit 757, 767 [Eq. (69) is calculated, and Eq. (68) is converted to ⁇ '( ⁇ ). And solve it.
  • the output of the lag window 766 is subjected to FFT or DFT processing in place of the deconvolution circuit 766, and *
  • the power vector of the residual signal of the all-pole model or the inverse of its noisy vector is smoothed, and the smoothed power vector is smoothed.
  • the autocorrelation coefficient is obtained from the inverse of the vector by the inverse Fourier transform, and the zero-point point is obtained by applying the all-pole model analysis method to the obtained autocorrelation coefficient.
  • the pulse interval of the drive signal is not densely set in a subframe including child information or a large amount of information.
  • Subframes can be changed for each subframe so that they can be roughly defined, which has the effect of improving the quality of the synthesized signal.

Description

明 細 書 音声符号化装置 技術分野
こ の発明 は、 音声信号 を 髙能率で圧縮 し て符号化す る 音声 符号化装置に係 り、 特 に伝送 ビ ッ ト レー ト を低 く、 例え ば 10Kb/s以下 に で き る適応密度駆動パ ルス 列 に基づ く 音声符号 化装置 に関す る。
背景技術
, 現在、 音声信号 を 10Kb/s以下の低 ビ ッ ト レー ト で伝送す る 符号化技術が盛ん に検討 さ れて い る 力《、 その具体的方法 と し て、 一定間隔で並ん だパルス 列で音声合成フ ィ ル タ の駆動信 号 を 表現 し、 こ れ を 用 いて符号化 を 行 う 方式があ る。 こ の詳 細 に つ レヽて は、 PETER KR00N氏 ら に よ る IEEE会報、 1986年 10月、 Vol. ASSP-34, pp. 1054 - 1063に掲載の " Regu 1 ar - Pu 1 se
Excitation - A Novel Approach to Effective and
Efficient Multipulse Coding of Speech,,と 題 し た 論文 (文 献 1 ) に説明 さ れて い る。
こ の論文 に記載の音声符号化方式 を 第 1 図お よ び第 2 図 を 用 いて 説明 す る。 第 1 図 お よ び第 2 図 は こ の方式の 符号化装 置 と 復号化装置の プロ ッ ク 図で あ る。
第 1 図 に お いて、 予測 フ ィ ル タ 1 の入 力信号 は Aノ D変換 さ れた 音声信号系列 s (n)で あ る。 予測フ ィ ル タ 1 は s (n)の 過去の 系列 と 予測ノ ラ メ ー タ a i ( l ≤ i p ) を 用 い、 次式 に示さ れる よ う 予測残差信号 r (n)を 計算 し、 出 力 す る。 r (n) = s (n)— , a i - s ( n- i ) ··· ( 1 )
i = 1 こ こ で、 p は予測フ ィ ル タ 1 の次数で あ り、 上述 し た論文 で は P = 12と し て い る。 予測 フ ィ ル タ 1 の伝達関数 A (z)は次 の よ う に表わ さ れる。
A ( Z) = 1 - £ ^ K · Z -κ … (2) 駆動信号生成回路 2 は、 予め定め ら れた間隔 で並ん だ駆動 パ ル ス 列 V (n)を駆動信号 と し て発生す る。 こ の駆動パ ル ス列 V ( n )の ノ タ ー ン の一例 を 第 3 図 に示す。 こ の 図 に お け る K は パ ルス 系列の位相 を示 し、 各 フ レーム に お け る 最初 のノ ル ス の位置 を表わす。 ま た、 横軸 は離散的な 時刻を 表わ す。 こ こ で は、 1 フ レ ー ム の長 さ を 40サ ン プル (サ ン プ リ ン グ周波数 」8KHzで 5ms) 、 パル ス の 間隔 を 4 サ ン プル と し た場合 に つ いて 示 し て あ る。
減算器 3 は、 予測残差信号 r (n)と駆動信号 V (η)と の差 e (n)を計算 し、 聴感重み付け フ ィ ル タ 4 へ出 力す る。 こ の フ ィ' タ 4 は聴覚の マ ス キ ン グ効果を 利用 す る た め に e (ri)を 周 波数領域で整形す る た め の も のであ り、 その伝達関数 W (z)は 次式で与えち れる。
W ( z ) = 1 / A (zZ r)
= I / ( 1 - ^ Κ · Γ κ · Ζ - …(3)
( た だ し、 0 ≤ r ≤ 1 )
重み ^!け フ ィ ル タ や マ ス キ ン グ効果に 関 し て は、 例え ば古 井貞照著 I "デ ィ ジ タ ル音声処理」 1985年東海大学出版会発行 (文献 2 ) に記述 さ れて い る の で、 こ こ で は説 明 を 省略す る。 重み付け フ ィ ル タ 4 に よ っ て重み付け さ れた 誤差 e ' (n)は、 誤差最小化回路 5 に入力 さ れ る。 こ の誤差最小化回路 5 は、 e ' (II)の 2 乗誤差が最小 と な る よ う に駆動パル ス列の振幅 と 位相 を 決定す る。 駆動信号生成回路 2 は、 こ れ ら振幅 と 位相 の情報 を基 に駆動信号 を 発生 さ せ る。 誤差最小化回路 5 に お け る駆動パ ル ス列 の振幅 と 位相の決定手順 を 文献 1 の記述 に 従 っ て、 以下 に簡単 に説明す る。
ま ず、 フ レ ーム 長 を L サ ン プル、 1 フ レ ーム 中 の駆動パ ル ス 数を Q個 と し、 駆動パ ル ス の位置を 表わす Q X L の行列 を M Kと お く。 1^ の要素 111 は、 次の よ う に表わ さ れ る。 ま た、 K は前述 し た よ う に駆動パ ル ス列の位相で あ る。
m i j = 1 ; j = i X N + K — 1 の と き
m i j = 0; その他
0 ≤ 1 ≤ Q - 1 … ) 0 ≤ j ≤ L - 1
( た だ し、 N = L / Q )
次に、 位相 Kの駆動信号 (駆動パ ル ス 列) の 非零の振幅 を 要素 と す る 行べ ク ト ル を b (K> と お く と、 位相 Kの駆動信号 を 表わす行ベ ク ト ル u (K) は、 次式の よ う に表わ さ れる。
u ( K ) = b ( κ ) Μ κ … (5)
重み付け フ ィ ル タ 4 の ィ ン パルス応答 を 要素 と す る次の L X L 行列 を H と お く。
Figure imgf000006_0001
こ の と き、 重み付け さ れた誤差 e ' (n)を 要素 と す る誤差べ ク ト ル e > は、 次式で記述さ れる。
e <κ > - e 《ο) 一 b ) … (7)
( た だ し、 K = 1, 2, … N )
こ こ で、 e (0) = e 0 + r H … (8)
. H M KH 〜 (9)
ベ ク ト ル e 。は前 フ レ ーム に お け る重み付け フ ィ ル タ の 内部 状態に よ る重み付 け フ ィ ル タ の 出力 で あ り、 べ ク ト ル r は予 測残差信号ベ ク ト ルで あ る。 最適な駆動パ ル ス の振幅 を 表わ すベク ト ル は、 次式で表わ さ れる 2 乗誤差
E = e "》 e 《κ> * ' … ( 10) を b " >で偏微分 し、 零 と お く こ と に よ り、 次式の よ う に得 ら れ る,
<" .= e <¾} H [ Η RH Κ*] -1 - (11)
(た だ し、 t は転置を 示す)
こ の と き、 駆動パルス列の位相 K は、 次式を 各 K につ いて 計算 し、 E ( κ >が最小 と な る よ う に選ぶ。
E "〉 = e (。) [ H R* [ H KH K*] -1 H K ] e - (12) こ の よ う に し て 駆動パ ル ス 列の振幅 お よ び位相が決定 さ れ る。 次 に、 第 2 図 に 示 し た復号化装置 に つ いて説明す る。 第 2 図 に お い て、 駆動信号生成回路 7 は第 1 図の駆動信号生成回 路 2 と 同 じ も ので あ り、 符号化装置か ら 伝送さ れ入 力端子 6 に 入力 さ れた駆動パ ル ス列の握幅 と 位相 を 基に 駆動信号 を 発 生 す る。 合成 フ ィ ル タ 8 は、 こ の駆動信号 を 入 力 と し て合成 音声信号 s ( n )を生成 し、 出 力 端子 9 へ 出 力す る。 合成 フ ィ ル タ 8 は第 1 図の予測フ ィ ル タ 1 と 逆フ ィ ル タ の 関係 に あ り、 そ の伝達関数 は 1 Z A ( z )であ る。
以上説明 し た従来例の符号化方式 に お い て は、 伝送すべ き 情報は合成 フ ィ ル タ 8 の パ ラ メ ー タ a i ( 1 ≤ i ≤ p ) と 駆動 ノ ル ス 列の振幅お よ び位相で あ リ、 駆動パ ル ス 列の 間隔 N = L Z Q を 変 え る こ と に よ っ て、 伝送 レー ト を 自 由 に設定で き る。 し か し な が ら、 こ の従来方式 に よ る 実験結果で は、 伝送 レ ー ト が低 く、 特 に 1 0k b / s以下 に な る と、 合成音声 に雑音が 目 立ち、 品質が悪 く な る。 特 に、 ピ ッ チ周期の短い女性の声 で 実験 を 行っ た と き の品質劣化が 目 立つ。
こ の原因 は、 駆動パル ス列 を 常 に 一定間隔の パル ス列で表 現 し て い る た めで あ る。 す な わ ち、 音声信号は、 有声音の 時、 ピ ッ チ に よ る 周期 的な信号 と な る た め、 その予測残差信号 も ピ ッ チ 周期每 にパ ワ ーが大 き く な る 周期的な信号 と な る。 こ の よ う に周期的 に パ ワ ーが大 き く な る 予測残差信号 で は、 ノ ヮ 一の 大 き い部分が重要 な情報 を 含ん で い る。 ま た、 音韻等 の 劣化 に伴っ て音声信号の相関が変わ る 部分や、 発声の 開始 部分等、 音声信号 のパ ワ ーが大 き く な る 部分で は、 予測残差 信号の ノ ヮ ー も フ レーム 内 で 大 き く な る。 こ の場合 も、 残差 信号のパ ワ ーの大 き い部分は、 音声信号の性質 が変化 し た部 分で あ る-ので、 重要で あ る。
と こ ろ が、 従来の方式で は予測残差信号のパ ワ ー がフ レ ー ム 内で変化 し て い る に も 関わ ら ず、 フ レ ー ム内 で常 に一定の 間隔を 持つ駆動パ ル ス列で合成フ ィ ル タ を 駆動 し て 合成音声 を 得て いる た め、 合成音声の 品質が著 し く 劣化 し て し ま う。
上述 し た よ う に、 従来の音声符号化方式は フ レー ム 内で常 の 一定の間隔 を持つ駆動パ ル ス列で合成 フ ィ ル タ を 駆動 し て い る た め、 伝送 レ ー ト が低 く な リ、 例え ば 1 0 k b / s以下 に な る と、 合成音声の品質が劣化す る と い う 問題点があ っ た。
本発明 は こ の よ う な問題 に鑑みて な さ れた も ので、 低い伝 送 レー ト に お いて も高品質の合成音声が得 ら れ る 音声符号化 装置を 提供す る こ と を 目 的 と す る。
発明の開示
本発明 は、 駆動信号 に よ り 合成フ ィ ル タ を 駆動 し て合成音 声 を 得る音声符号化装置に お いて、 駆動信号の フ レ ーム を 複 数の等長ま た は不等長のサ ブフ レ ー ム に分割 し、 パ ル ス 間隔 がサ ブ フ レーム単位で可変で あ り、 各サ ブフ レ ーム 内で は等 間隔の駆動パ ル ス 列に よ っ て駆動信号 を構成 し、 駆動信号 に よ リ 駆動さ れる 合成フ ィ ル タ の 出力信号 と 入力 音声信号 と の 誤差信号のパ ワ ーが最小 と な る よ う に駆動パ ル ス列 の振幅 ま た は振幅お よ び位相 を 決定す る よ う に す る と 共 に、 入力音声 信号 に対す る短期予測残差信号 ま た は ピ ッ チ予測残差信号 に 基づい て駆動パ ル ス列の密度 を 決定す る。
本発明で は駆動 ルス 列の密度、 すな わ ち パ ル ス 間隔力 重要な 情報 ま た は 多 く の情報が含 ま れる サ ブフ レー ムで は密 に、 そ う で な いサ ブフ レ ームで は粗 く と レヽ う よ う に サ ブフ レ 一ム每 に適応的に 変化す る こ と に よ り、 合成音声の 品質が向 上す る。
図面の簡単な説明
第 1 図、 第 2 図 は従来技術 に よ る 符号化装置、 復号化装置 の構成 を 示す ブロ ッ ク 図、 第 3 図は従来技術の駆動信号の例 を 示す 図、 第 4 図 は こ の発明 に よ る 音声符号化装置の第 1 実 施例に係る 符号化装置の構成 を 示す ブ ロ ッ ク 図、 第 5 図 は第 4 図 に お け る 駆動信号生成部の詳細 な ブ ロ ッ ク 図、 第 6 図 は
'第 1 実施例に係る 復号化装置の構成 を 示す ブロ ッ ク 図、 第 7 図 は こ の発明 の第 2 実施例で生成 さ れる 駆動信号の 一例 を 示 す 図、 第 8 図 は第 2 実施例 に係 る符号化装置に お け る駆動信 号生成部の詳細な ブロ ッ ク 図、 第 9 図 は こ の発明 の第 3 実施 例 に係 る符号化装置の ブ ッ ク 図、 第 1 0 図は第 3 実施例 に お け る 予測 フ ィ ル タ の ブ ロ ッ ク 図、 第 1 1 図は第 3 実施例 に 係 る復号化装置の ブ ロ ッ ク 図、 第 1 2 図 は第 3 実施例で生成 さ れる 駆動信号の 一例を 示す 図、 第 1 3 図 は こ の発明 の第 4 実施例 に係る 符号化装置の ブ ロ ッ ク 図、 第 1 4 図は第 4 実施 例 に係 る復号化装置の ブ ロ ッ ク 図、 第 1 5 図は こ の発明 の第 5 実施例 に係 る符号化装置の ブ ロ ッ ク 図、 第 1 6 図 は第 5 実 施例に係る 複号化装置の ブ ロ ッ ク 図、 第 1 7 図 は第 5 実施例 に お け る 予測 フ ィ ル タ の ブ ロ ッ ク 図、 第 1 8 図 は第 5 実施例 で生成 さ れる 駆動信号の一例 を 示す 図、 第 1 9 図は こ の発明 の第 6 実施例 に係 る符号化装置の ブ ロ ッ ク 図、 第 2 0 図 は こ . の発明 の第 7 実施例に'係 る符号化装置の ブ ロ ッ ク 図、 第 2 1 図 は こ の発明 の第 8 実施例に係る符号化装置の プロ ッ ク 図、 2 2 図は こ の発明の第 9 実施例に係る 符号化装置の プ ロ ッ ク 図、 第 2 3 図は第 9 実施例に係る 復号化装置の ブ ロ ッ ク 図、 第 2 4 図は第 9 実施例の符号化装置に お け る短期べ ク ト ル量 子化回路の詳細な ブロ ッ ク 図、 第 2 5 図 は第 9 実施例の復号 化装置 に お け る駆動信号生成回路の詳細 な プロ ッ ク 図、 第 2 ' 6 図は こ の発明 の第 1 0 実施例 に係 る 符号化装置の ブロ ッ ク 図、 第 2 7 図 は こ の発明 の第 1 1 実施例 に係る 符号化装置の ブ ロ ッ ク 図、 第 2 8 図は こ の発明の第 1 2 実施例に係る符号 化装置の ブ ロ ッ ク 図、 第 2 9 図 は予測フ ィ ル タ、 合成フ ィ ル タ を構成す る 極零モ デルの ブ ロ ッ ク 図、 第 3 0 図は第 2 9 図 ス ム ^ " ジ ン グ回路の詳細な ブ ロ ッ ク 図、 第 3 1 図、 第 3 2 図 は第 2 9 図の極零モ デル の周波数特性 を 従来例と 比較 し て 示す図、 第 3 3 図〜第 3 6 図 は他の極零モ デル の ブ ロ ッ ク 図 で あ る。
' 発明 を 実施す る た め の最良 の形態
以下、 図面 を参照 し て、 こ の発明 に よ る音声符号化装置の 実施例 を説明 す る。
第 4 図 は第 1 実施例 に係る符号化装置を 示す プ ロ ッ ク 図で あ る。 A Z D 変換 さ れた音声信号 s ( n )がフ レ ー ム バ ッ フ ァ 1 0 2 に 入力 さ れる。 フ レ ー ム ノ ッ フ ァ 1 0 2 は、 音声信号 ... s ( n )を :1 フ レ ー ム分蓄積す る。 第 4 図の各構成要素 は 1 フ レ 一ム每 に以下 の処理 を 行 う。
. 予測パ ラ メ ー ダ計算回路 1 0 8 は、 フ レ ー ム ノ ッ フ ァ 1 0 2 か ら の音声信号 s (n)を 入力 し、 予め定め ら れた p 個の予測 ノ ラ メ ー タ ( α ノ ラ メ ー タ 又 は k ノ S ラ メ ー タ ) を 自 己相関法 又 は共分散法 に よ り 計算す る。 求め ら れた予測パ ラ メ ー タ は 予測パ ラ メ ー タ 符号化回路 1 1 0 に 入力 さ れる。 予測パ ラ メ ー タ 符号化回路 1 1 0 は、 予測パ ラ メ ー タ を 予 め定 め ら れた 量子化 ビ ッ ト 数に基づいて符号化 し、 こ の符号 を 復号化回路 1 1 2 と マ ル チ プ レ ク サ 1 1 8 に 出 力す る。 復号化 回路 1 1 2 は入 力 し た予測パ ラ メ ー タ の符号 を 復号化 し、 復号値 を 予 測 フ ィ ル タ 1 0 6 と 駆動信号生成部 1 0 4 に入 力す る。 予測 フ ィ ル タ 1 0 6 は、 音声信号 s (n)と 復号化 さ れた予測パ ラ メ ー タ と し て例え ば α ノ ラ メ一タ ^ iを 入力 し、 次式 に従 っ て予 測残差信号 r (n)を 計算 し、 r (n)を 駆動信号生成部 1 0 4 に 出 力す る。 r (n) = s (n) - £ a i - s (n-i) - (13)
1 = 1
駆動信号生成部 1 0 4 は、 入力信号 s (n)と 予測残差信号 r (n)と α ノ ラ メ ー タ の量子ィヒ値 a i ( 1 ≤ i < p ) を 入 力 し、 予 め 定 め ら れ た M個 の サ ブ フ レ ーム の各 々 に つ い て ノ ル ス の 間隔及 び振幅 を計算 し、 パ ル ス の間隔 を 出 力端子 1 2 6 か ら 符号化回路 1 1 4 へ出 力 し、 パ ル ス の振幅 を 出 力端子 1 2 8 か ら 符号化回路 1 1 6 へ 出 力 す る。
符号化回路 1 1 4 は、 各サ ブフ レ ー ム の パ ル ス 間隔 を 予め 定 め ら れた ビ ッ ト 数で符号化 し て マ ルチ プ レ ク サ 1 1 8 へ 出 力 す る。 パ ル ス 間隔の符号化法 と し て は種々 の 方法が考 え ら れ る カ S、 一例 と し て、 パ ル ス 間隔の と り う る値 と し て複数個 を 予め 定め、 それ に番号付け を し て お き、 その信号 を パル ス 間隔の符号 と す る 方法が考え ら れる。
符号化回路 1 1 6 は、 各サ ブフ レーム の駆動パル ス の振幅 を 予め定め ら れた ビ ッ ト 数で符号化 し て マ ルチ プ レ ク サ 1 1 6 へ 出 力す る。 駆動パル ス の振幅の符号化法と し て も種々 の 方法が考え ら れる が、 従来 よ く 知 ら れて い る方法を 用 い る こ t がで き る。 例え ば、 正規化 さ れた パル ス振幅 の確率分布 を 予め調べ、 そ の確率分布 に対す る最適量子化器 (一般に M A X の量子化 と 呼ばれて い る ) を 用 い る方法が考 え ら れる。 こ れ につ いて は、 上述 し た 文献 1 等に詳述さ れて い る ので こ こ で は説明 を 省.略する。 ま た他の方法 と し て、 パ ルス 振幅 を 正 規化 し た後、 ベ ク ドル量子化法 に よ リ 符号化す る 方法も 考 え ら れる, ぺ ク ト ル量子ィヒで用 い ら れる コ ー ド ブ ッ ク は L B G ア ル ゴ リ ズム等 に よ り 作成す る こ と がで き る。 L B Gァ ル ゴ リ ズム につ いて は、 YOSEPH L INDLEに よ る IEEE会報, 1980年 1 月 , vo 1. 1, COM - 28, pp. 84 - 95に記載の " An algo 1 ithm for Vector Quantizer Des i gn"と 題 し た論文 (文献 3 ) に詳述 さ れて い るので こ こ で は説明 を 省 く。
ま た、 駆動パル ス系列の符号化及び予測パ ラ メ ー タ の符号 ィヒ に関 して は こ こ で説明 し た 方法に 限 ら ず、 周 知の方法 を 用 い る こ と 力 ίで き る。
マ ル チプ レ ク サ 1 1 8 は、 予測パ ラ メ ー タ 符号化 回路 1 1 0 の 出 力符号 と 符号化回路 1 1 4、 1 1 6 の 出 力符号 を 組み 合 わせ て、 符号化装置出 力信号 を生成 し、 出 力 端子 か ら通信 路等へ 出力す る。 次に、 駆動信号生成部 1 0 4 の構成 に つ いて 説明 す る。 第 5 図は、 駆動信号生成部 1 0 4 の一例 を 示す ブ ロ ッ ク 図で あ る。 図 に お い て端子 1 2 2 か ら 1 フ レーム分の予測残差信号 r ( II )が入力 さ れ、 ノ ッ フ ァ メ モ リ 1 3 0 に入 力 さ れ る。 ノ' ッ プ ア メ モ リ 1 3 0 は、 入 力 し た予測残差信号 を 予め 定め ら れ た 等長又は不等長 の M個のサ ブフ レ ー ム に分割 し、 サ ブフ レ 一ム每 に蓄積す る。 パ ル ス 間隔計算回路 1 3 2 は、 ノ ッ フ ァ メ モ リ 1 3 0 に蓄積さ れた予測残差信号 を 入力 し、 各サ ブ フ レ ーム に お け るノ Sルス 間隔 を 予め定め ら れた ア ル ゴ リ ズム に 従 っ て計算 し、 駆動信号生成回路 1 3 4 と 出 力 端子 1 2 6 に 出 力す る。
パル ス 間隔 を 計算す る ア ル ゴ リ ズム と し て は種々 考え ら れ る。 例 え ば、 パル ス 間隔 と し て予め 2 種類の値 N 1 と N 2 を 設定 し て お き、 サ ブフ レーム の予測残差信号の 2 乗和があ る 閾値よ リ 大 き い場合はサ ブフ レ ーム の パ ル ス 間隔 を N 1 と し、 小 さ い場合 は N 2 と す る方法が考え ら れ る。 ま だ、 その他の 方法 と し て、 各サ ブフ レ ーム の予測残差信号の 2 乗和 を 計算 し、 2 乗和が大 き い順 に予め定め ら れた個数の サブ フ レーム の パル ス 間隔 を N 1 と し、 残 り のサ ブフ レーム のパ ルス 間隔 を N 2 と す る 方法 も考え ら れる。
駆動信号生成回路 1 3 4 は、 パ ル ス 間隔計算 回路 1 3 2 力 ら 出力 さ れ る パ ル ス 間隔 と 誤差最小化回路 1 4 4 か ら 出 力 さ れ る パ ルス振幅の情報 を も と に、 等間隔のパル ス列か ら な る 駆動信号 V (n)を サ ブフ レ ー ム每に 発生 し、 合成フ ィ ル タ 1 3 6 へ 出 力す る。 合成フ ィ ル タ 1 3 6 は駆動信号 V (n)と、 端子 1 2 4 から量子化 さ れた予測パ ラ メ 一 タ ^ i ( 1 ≤ i ≤ p ) を 入力 し、 次式 に従 っ て合成信号 (n)を 計算 し、 s (n)を 減算 器 1 3 8 へ 出 力する。 (n) = V (n) + 2 i · s(n-i ) 〜 (U) 減算器 3 8 は端子 1 2 0 か ら 入力 さ れた入 力音声信号 と 合成信号と の差 (n)を 計算 し、 聴感重み付け フ ィ ル タ 1 4 0 へ 出力 する。 重み付け フ ィ ル タ 1 4 0 は e (n)を 周波数数軸上 で重み付け を 行な い 2 乗誤差計算回路 1 4 2 に 出力 す る。
重み け フ ィ ル タ 1 4 0 の伝達関数は、 合成 フ ィ ル タ 1 3 6 の予測パ ラ メ ー タ a iを 用 い て次の よ う に表 さ れる。
W (z)= ( l - 2 ^ i - Z -リ / ( 1 - 2 · · z ー (15) こ こ で、 y は重 み付け フ ィ ル タ の特性 を 与え るノ ラ メ ー タ で あ る。
こ の童み付 け ブ イ ル タ は、 従来例の フ ィ ル タ 4 と 同様 に聴 覚のマ ス キ ン グ効果を利用 す る も の で あ り、 文献 1 に詳述 さ れ、てい る。
2 乗誤差計算回路 1 4 2 は重み付け さ れた誤差 e ' (n)の サ ブフ レ ー ム に お け る 2 乗和 を 計算 し、 誤差最小化回路 1 4 4 出;^す る, 誤差最小化回路 1 4 4 は、 2 乗誤差計算回路 1 4 2 で計算 さ れた 重み付 け 2 乗誤差 を 蓄積す る と 共 に、 駆動 パ ルス の振幅 を調攀し、 振幅情報 を 駆動信号生成回路 1 3 4 へ 出力 する。 駆動信号生成回路 1 3 4 は、 駆動パ ル ス の間隔 と 振幅 の情報 を も と に駆動信号 V (n)を 再び発生 さ せ、 合成フ ィ ル タ 1 3 6 に 出 力す る。
合成 フ ィ ル タ 1 3 6 は こ の駆動信号 V (n)と 予測パ ラ メ ー タ iを 用 いて 合成信号 s (n)を 計算 し、 減算器 1 3 8 へ出 力 す る。 減算器 1 3 8 で計算 さ れた入力音声信号 s (n)と 合成信号 (n)と の誤差 e (n)は重 み付 け フ ィ ル タ 1 4 0 に よ リ、 周波 数軸上で重み付け さ れた後、 2 乗誤差計算回路 1 4 2 へ 出 力 さ れる。 2 乗誤差計算回路 1 4 2 は重み付け さ れた誤差の 2 乗和 を 計算 し、 誤差最小化回路 1 4 4 へ 出 力す る。 誤差最小 ィヒ 回路 1 4 4 は、 重み付け さ れた 2 乗誤差 を 再 び蓄積す る と 共 に、 駆動パルス の振幅 を 再び調整 し、 駆動信号生成回路 1 3 4 へ 出力 す る。
以上 の よ う な駆動信号の発生か ら誤差最小化 に よ る駆動パ ル ス振幅の調整ま での一連の処理は、 駆動パル ス振幅の と リ 得 る 全ての組み合せ に対 し て サ ブフ レーム每に 行わ れ、 重み 付 け さ れた 2 乗誤差を 最小 と す る駆動パ ル ス振幅が 出 力端子 1 2 8 へ出 力 さ れ る。 な お、 以上の一連の処理 に お いて、 合 成 フ ィ ル タ 及び重み付け フ ィ ル タ の 内部状態は駆動パル ス の 振幅の調整が終わ る每 に初期化す る 必要があ る。
こ の よ う に、 第 1 実施例 に よ れば、 駆動信号 のパ ル ス 間隔 を 重要 な情報又は多 く の情報が含 ま れる サ ブフ レ ー ム で は密 に、 そ う で な い サ ブ フ レ ー ム で は粗 く と い う よ う に、 サ ブ フ レ ーム ご と に変え る こ と がで き る。
次 に、 第 1 実施例に係 る 復号化装置の説明 を 行 う。 第 6 図 は その ブ ロ ッ ク 図で あ る。 符号化装置か ら通信路等 を 介 し て 伝送さ れた駆軌パ ル ス 間隔の符号 と 駆動パ ル ス 振幅 の符号 と 予測パ ラ メ ー タ の符号 を 組み合 さ れた符号がデマ ル チ プ レ ク サ 1 5 0 に入力 さ れる。 デマ ルチプ レ ク サ 1 5 0 は、 入力 し た 符号 を駆動パ ル ス 間隔の符号 と、 駆動パ ル ス 振幅 の符号 と 予測パ ラ メ ー タ の符号 に分離 し、 それぞれの符号 を 復号化回 路 1 5 2, 1 5 4, 1 5 6 へ 出力す る。
復号回路 1 5 2, 1 5 4 は入力 し た符号 を駆動パ ル ス 間隔 N m ( 1 ≤ m ≤ M, 1 ≤ i ≤ Q m, Q m= L / N m) に 復号 し 駆 動信号 $成回路 1 5 8 へ 出力 す る が、 復号の手順は、 第 4 図 で説明 し た符号化回路 1 1 4, 1 1 6 と 逆の手順 と な る。 ま f 、 復号化回路 1 5 6 は、 予測パ ラ メ ー タ の符号 を a i ( 1 ≤ i ^ P ) に復号 し、 合成 フ ィ ル タ 1 6 0 へ 出力 す る カ、 復号 の手順 は、 第 4 図 に お け る符号化回路 1 1 0 と 逆の手順で あ る' ■
駆動信号生成回路 1 5 8 は、 入力 し た駆動パ ル ス 間隔及 び 振幅の情報を も と に、 サ ブフ レーム 内で等間隔で、 サブフ レ 一ム每 に間隔の異な る パ ル ス列か ら な る 駆動信号 V ( j )を 発生 さ せ合蟓フ ィ ル タ 1 6 0 に 出 力す る。 合成フ ィ ル タ 1 6 0 は、 駆動信号 V (j)と 量子化 さ れた 予測パ ラ メ ー タ a iを 用 いて、 次式に ぃ合成信号 y (j)を計算 し 出力す る。
y (j) = V (j) +
Figure imgf000016_0001
T i · τ 1 - y ( j-1)
( j = 1, 2, … N ) … (16) 次に、 第 2 実施例 を 説明 す る。 第 1 実施例で は駆動パ ル ス は A— b 一 S (Ana lysis by Symthesis)手法に よ り 計算さ れて い る が、 その他の方法 と し て、 解析的 に駆動パ ル ス を 計算す る 方法が考え ら れ る。
こ こ で は、 先ず、 フ レ ー ム長 を N ( サ ン プル ) 、 サ ブ フ レ 一ム数 を M、 サブ フ レーム長 を L (サ ン プル) 、 m番 目 の サ ブ フ レ ー ム に お け る駆動パ ル ス の間隔 を N m ( 1 ≤ m < M ) , 駆動ノ ル ス数 を Q m、 駆動パ ル ス の振幅 を g i(m) ( 1 ≤ i ≤ Q m) 駆動ノ ルス の位相 を K mと お く。 こ の と き
Q m= し L ノ N mj - (17)
の 関係があ る。 こ こ で し · 」 は切 り 捨て に よ る 整数化の演算 を 示す。
第 7 図 に、 M = 5、 L = 8、 N 1 = N 3= 1、 N 2= N 4 = N 5= 2、 Q 1= Q 3= 8、 Q 2 = Q 4 = Q 5 = 4、 K 1 = K 2 = K 3= K 4= 1 の場合の駆動信号の例 を 示す。 m番 目 のサ ブ フ レ ーム に於 け る駆動信号 を V 〉 (n)と お く と、 V 》 (n)は、 次式の よ う に表 さ れる。
V 〉 (n) ίΛ> δ (n-l )
f
( n = 1, 2, - L ) … (18)
1 = ( i-1 ) N m+ K m
( 1 ≤ K m≤ N m) … (19) な お、 δ ( · ) は ク ロ ネ ヅ カ デル タ 関数であ る。
次に、 合成 フ ィ ル タ 1 3 6 の イ ンノ ル ス 反応 を h (n)と お く と、 合成フ ィ ル タ 1 3 6 の 出 力 は駆動信号 と ィ ン パ ル ス応答 の た た み込み和 と、 前フ レー ム に お け る 合成 フ ィ ル タ の 内部 状態に よ る フ ィ ル タ 出 力 と の和 と し て表 さ れる。 従 っ て、 m 番 目 の サ ブフ レ ー ム に お け る 合成信号 y > ( n )は、 次式で記 I 2
述す る こ と がで き る„ y <»> (n) = y „ { n+ ( m- 1 ) L } 4- ∑ < J > (n) · hi n+(m-l)L} j = 1
こ こ で、 * はた たみ込み和 を 表す。 ま た、 y 。( j )は前フ レ —ムの最後 に お け る 合成 フ ィ ル タ の 内部状態に よ る フ ィ ル タ 出 力で あ り、 前フ レームの合成フ ィ ル タ の 出力 を y OLD (j)と お く と、 y 。( j )は次の よ う に表 さ れる。 y o ( J ) = ∑ a y o ( J - 1 )
ι=1
( j = 1, 2, … N ) … (21)
' なお、 y 。の初期状態は y。(0) = y OLD (N)、 y 。(-i) = y O LD (N-i), y 。(― i ) = y OLD (N - i )と す— . る。
ま ^ : 合成フ ィ ル タ 1 / A (z)と 重み付 1*フ /— ィ ル タ W (z)の縦 続接続フ ィ ル タ の伝達関数を H w(z)、 そ の イ ン パル ス応答 を h w(z)と お く と、 V ^^ )を 駆動信号 と し た場合の縦続接続 フィ ル タ の y ίΛ) (n)は次式の よ う に書け る。 (Λ} (η) = y 。{n+(m-l)L}
m L
tJ> ( i) h w{n-i+(m-j)L}
j = 1 1=1
( n 2, L ) (22) P
こ こ で、 y Q (j) = ∑ a i ' γ
i =l
( j = 1, 2, … N ) (23)
初期状態は y „ (0) Oレ D (N), y (-1 )
Figure imgf000019_0001
A
= y OLD (N-i) (24) ま た、
H w(z) { 1 / A (z) } · {A (z)/ A (z/r) }
A
1 / A (z/r)
1 ノ ( 1 - Ύ Z ) (25) h w ( n ) = 2_ i - y 1 · h w(n-i ) + 8 (o) (26) こ の と き、 入力 音声信号 s (n)と 合成信号 y <»> (n)と の重み 付 け誤差 e (»> (n)は次の よ う に表わ さ れ る。
e <»> (n) = S w{n+(m-l)L}
= y (») (n) …(27) た だ し、 S w(n)は入力 音声信号 S (n)を 重み付け フ ィ ル タ に 入 力 し た場合の重み付け フ ィ ル タ の 出 力 で あ る。
重み付け誤差の サブフ レ ー ム の 2 乗和 J は式 (18), (19),
(22) , (27)を 用 いて次の よ う に 書 く こ と がで き る。
L. m L
J = ∑ [x{n+(m-l)L} - S - 2 V { J > ( i ) h w{n- i + (m-j ) L} ]2 n= I j = 1 i=l
= [x{n+(m-l)U - , § s i J ) h w { n- 1 + ( m- j ) L } ] 2 n= I j = 1 1 = Γ
(28) た だ し、 1 = ( i - 1 ) N m + K m (29) x J = S w(j )— y 。 ) ( j = 1, 2, … N ) (30) 次に、 式(28)を で偏微分 し て 0 と お く こ と に よ り 次 式 を 導 出す る こ と がで き る。
§ ^ j <») φ hh { ( i-l)Nm + Km, ( j - 1 ) Nm + Km } >
= Φ xh〖(i-l》Nm + I }
- ¾~j k tJ ,¥ hhi(j-l)L + Kj,m · L+(i-l)Nm + Km} 〜 (31) こ の方程式 は係数行列が対称行列 と な る Q m次の連立一次方 程式と な リ、 chol esky分解に よ り Q m3の オー ダで解 く こ と が で き る, 式 に お い て、 ø hh(i, j)及び"? Thh(i, j)は h w(n)の相 互相関係数を 表わ し、 ø xh ( i )は m番 目 の サ ブ フ レ ー ム に お け る x (n)と h w(n)の 自 己相関係数を 表わ し、 次の よ う に表わ さ れ る。 0 hh(i,j)及 び^ T hh(i, j)は音声信号処理の分野で は共 分散係数と 呼ばれる こ と が多 いので、 こ こ でも その よ う に 呼 ぶ.
φ hh , J ) = ∑ h w ( n- i ) h w(n - j)
( 1 ≤ i , j ≤ L ) …(32)
T hh(i, j) = ∑ h w(n-i) h w(n-j)
( 1 ≤ i ( M - 1 ) L, 1 ≤ j ≤ L ) … (33) ø hx <»> ( i ) = ∑ x (n) h w { ( n- i- ( m- 1 ) L }
( 1 ≤ j ≤ L ) … (34) 位相が K mの駆動パ ル ス の振幅 g i(m) ( 1 ≤ i ≤ Q m) は式 (31)を 解 く こ と に よ り 得 ら れる。 位相 K mは、 K mの それぞれ の値に 封 し パルス の振幅 を 求め、 そ の時の重み付け 2 乗誤差 を それぞれ計算 し、 そ れが最小 と な る よ う に選ぶ こ と がで き る。
以上の よ う な駆動パ ル ス計算ア ル ゴ リ ズム を 用 い た第 2 実 施例に お け る 駆動信号生成部 1 0 4 の ブ ロ ッ ク 図 を 第 8 図 に 示す。 第 8 図 に お いて、 第 5 図 と 同一部分 は同 一番号 を 付 し、 説明 を 省略す る。
イ ン パ ル ス 応答計算回路 1 6 8 は、 入力端子 1 2 4 か ら 入 力 さ れた予測パ ラ メ ー タ の量子化値 a iと 予め定め ら れた重み 付 け フ イ リレ タ のノ ラ メ ー タ γ を 用 い て、 合成フ ィ ル タ と 重み 付 け フ ィ ル タ の縦続接続フ ィ ル タ の ィ ン パ ル ス 応答 h w(n)を 式 ( 26 )に従 っ て予め定め ら れたサ ン プル数だ け計算す る。 得 れた h w(n)は共分散係数計算回路 1 7 0 と 相互相関係数計 算回路 1 6 4 へ出 力 さ れる。 共分散係数計算回路 1 6 4 は、 イ ン パ ル ス応答系列 h w(n)を 入力 し、 式 (32)と 式(31)に従つ て h w(n)の共分散係数 0 hh(i, j)と 5"hh(i, j)を 計算 し、 パ ル ス振幅計算回路 1 6 6 へ 出 力 す る。 減算器 1 7 1 は、 重み付 け フ ィ ル タ 1 4 0 の 出 力 S w(j)と縦続接続 フ ィ ル タ 1 7 2 の 出 力 y 。(j)と の差 x (j)を 式(30)に従っ て 1 フ レーム分計算 し、 相互相 関係数計算回路 1 6 4 へ 出力 す る。
相互相関係数計算回路 1 6 4 は、 X (j)と h w(n)を 入力 し、 式 (34)に従っ て X と h wの相互相閧係数 xht-^ )を 計算 し パ ル ス振幅計算回路 1 6 6 へ 出 力す る。 パ ル ス振幅計算回路
1 6 6 は、 パ ル ス 間隔計算回路 1 3 2 で計算 さ れ出 力 さ れた パ ル ス 間隔 N mと 相互相関係数 0 xh(»> (i)と 共分散係数
0 hh(i,j)、 hh( i , j )を 入力 し、 予め定 め ら れ た L や K mの も と で式 (31)の方程式 を chores ky分解等の方法 を 用 い て解 く こ と に よ り 駆動パ ル ス振幅 g i (m)を計算 し、 g i (m)を 駆動信号 生成回路 1 3 4 と 出力端子 1 2 8 へ 出 力 す る と 共 に、 パ ル ス 間隔 N と 振幅 g i Gm)を メ モ リ に蓄積す る。
駆動信J 号生成回路 1 3 4 は、 前述 し た よ う に、 1 フ レ ー ム 分の駆動パ ル ス の 間隔 と 振幅の情報 N m、 g i(m) ( 1 ≤ m ≤ M,
1 ≤ i ≤ Q ffl) を も と に サブフ レームで一定の 間隔 を も つ パル ス列か ら構成 さ れ ¾¾る駆動信号 を 発生 さ せ、 縦続接続 フ ィ ル タ
1 7 2 へ出 力 する。 縦続接続フ ィ ル タ 1 7 2 は、 駆動信号 を
1 フ レ ^-ム分メ モ リ に蓄積す る と 共 に、 全サ ブ フ レ ームのパ ル ス振幅の計算が終了 し て い な い場合は、 ノ、" ッ フ ァ メ モ リ 1 3 0 に蓄積 さ れた前フ レーム の 出力 y OLDと 量子化さ れた 予測 ノ ラ メ タ i及び予め定め ら れた γ を 用 いて、 式 (23)に従 つ ; て . y。 (J)を 計算 し減算器 1 7 1 へ出 力す る。 全サ ブ フ レ ー ム フ レー ム分の駆 出 力 y (j)を 計算
Figure imgf000022_0001
2, N ) (35)
ノ ツ フ ァ メ モ リ 1 3 0 は、 y (N)、 y (N - 1)、 y (N-p+ 1 )の
Λ
» 個の を 蓄積す る。
以上 の一連の処理を 1 番 目 の サ ブ フ レーム ( m = l ) 力 ら 最後の サ ブフ レーム ( m = M ) ま で行 う。
第 2 実施例 に よ る と、 駆動パルス の振幅 を解析的 に求め て い る の で第 5 図に示 し た第 1 実施例 に比べて計算量が大幅 に 減少す る効果があ る。
第 7 図 に示 し た第 2 実施例で は、 駆動パルス の位相 K mを 固 定 と し た 力 S、 前述 し た よ う に、 K mを サ ブフ レ ーム每 に可変 に し、 そ の最適値を 求め る こ と がで き る。 こ の場合、 よ り 良好 な 品質の合成音が得 ら れ る 効果があ る。
上述 し た第 1、 第 2 実施例 は種々 変形可能で あ る。 例え ば、 上述の説明で は、 1 フ レーム 内 の駆動パ ル ス振幅の符号化は、 パ ル ス 振幅が全て 求 ま っ た後 に符号化 を 行っ て いた 力 符号 ィ匕 を パ ル ス振幅の計算 に含め て、 パ ル ス 振幅 を 1 サ ブフ レ ー ム 分計算す る 每に符号化 を 行い、 次のサ ブフ レ ー ム の パ ル ス 振幅を 計算す る と い う 構成 に す る こ と がで き る。 こ の よ う な 構成 を と る と、 符号化の誤差 を も含め た誤差 を 最小 に す る よ う なパ ルス振幅が求ま る ので 品質が向上す る と い う 効果があ る。
ま た、 予測パ ラ メ ー タ は近接の相関 を 除去す る線形予測 フ ィ ル タ が用 い ら れて い た が、 そ の代 り に、 長期 の相 関 を 除去 す る ピ ッ チ予測フ ィ ル タ と 前記線形予測 フ ィ ル タ の縦続接続 に す る 構成 に す る と 共 に、 駆動パル ス振幅の計算ループ に ピ ツ チ合成フ ィ ル タ を含め る構成 に し て も よ い。 こ の よ う な構 成 に よ り、 音声信号に含 ま れ る ピ ッ チ周期 ご と の強 い相関 を も 除去で き る よ う に な る の で 品質が向上す る効果が あ る。
さ ら に、 予測フ ィ ル タ 及び合成フ ィ ル タ と し て は全極モ デ ル を 用 いた 力、 極零モ デル を 用 い る構成 に し て も よ い。 極零 モ デル は、 音声の ス ぺ ク ト ル に存在す る 零点 を も 良 く 表現で き る の で、 さ ら に 品質が向上す る。 ま た, 駆動パル ス の間隔は予測残差信号のパ ワー を 基に計 算 し て いたが、 合成フ ィ ル タ のイ ンノ ル ス応答 と 予測残差信 号 と の相互相関係数及びィ ンパルス応答の 自 己相関係数を も と に計算. する,こ と も で き る。 こ の場合、 合成信号 と 入力信号 と の誤差が小 さ く な る よ う にパルス の間隔 を 求め る こ と がで き る ので、 品質が向上す る効果があ る。 ま た, サ ブフ レ ーム長 は一定 と し たが、 サブ フ レ ーム每 に 可変に し て も よ い。 可変 に す る こ と に よ つ て、 サ ブ フ レーム 内 の駆動パルス数 を音声信号の統計的性質 に応 じて き め細か く 制御で き る よ う に な る ので符号化効率が向上 す る 効果があ る。
ま た, 予測ノ ラ メ ー タ は α; ノ ラ メ ー タ を用 い て い た力 a ノ ラ メ ータ の代 り に、 量子化特性のす ぐ れた周知の パ ラ メ 一 タ 例え ば Kノ S ラ メ ータ ゃ L S P ノ ラ メ 一 タ 及び ロ グ · エ リ ア . レ シ ォ · ノ ラ メ 一 タ 等 を 用 いても よ い。
ま た、 駆動パル ス振幅の計算式(31)に お いて は、 式(32), (33)に従っ て共分散係数 を 計算 し た が、 こ れは、 次式の よ う な 自 己栢闋係数を 計算す る構成 に し て も よ い。
ø hh(i j) = H» hh( if j)
= Ν~¾ ' J w(n) h w{n-(i-j)} (36) n = こ の よ う な構成 にす る こ と に よ っ て、 φ hhの計算 に要す る 演算量 を 大幅 に減少 さ せ る こ と がで き、 符号化全体の演算量 も 低減で き る 効果があ る。 第 9 図は こ の発明 の第 3 実施例に係る 符号化装置の プ ロ ッ ク 図、 第 1 1 図 は第 3 実施例 に係る 復号化装置の ブ ロ ッ ク 図 で あ る。 第 9 図 に お いて、 A Z D 変換後の音声信号がフ レ ー ム ノ ッ フ ァ 2 0 2 に入力 さ れ る。 フ レ ー ム ノ ッ フ ァ 2 0 2 は、 音声信号 を 1 フ レ ーム分蓄積す る。 そ の た め、 第 9 図の各構 成要素 は 1 フ レ ー ム毎 に以下の処理 を 行 う。
予測パ ラ メ ー タ 計算回路 2 0 4 は、 予測パ ラ メ ー タ を 公知 の 方法 を 用 い て計算す る。 予測 フ ィ ル タ 2 0 6 が第 1 0 図 に 示す よ う な長時間予測 フ ィ ル タ ( ピ ッ チ予測フ ィ ル タ ) 2 4 0 と 短時間予測フ ィ ル タ 2 4 2 の縦続接続の構成 を も つ場合、 予測パ ラ メ ー タ 計算回路 2 0 4 は、 ピ ッ チ周期 と ピ ッ チ予測 係数及 び線形予測係数 ( α パ ラ メ ー タ 又 は Kパ ラ メ ー タ ) を 自 己相関法や共分散法等の公知の方法で計算す る。 計算法 に つ いて は、 上述 し た文献 2 ( 「ディ ジ タ ル音声処理」 、 古井 貞熙著、 1 985年、 東海大学出版会発行) に記述 さ れて い る。
計算 さ れた予測パ ラ メ ー タ は、 予測パ ラ メ ー タ 符号化回路 2 0 8 へ入力 さ れ る。 予測パ ラ メ ー タ 符号化回路 2 0 8 は、 予測パ ラ メ ー タ を 予め定め ら れた量子化 ビ ッ ト 数に基づいて 符号化 し、 こ の符号 を マ ルチ プ レ ク サ 2 1 0 に 出 力 す る と 共 に復号化回路 2 1 2 に供給す る。 復号化回路 2 1 2 は、 復号 値 を 予測フ ィ ル タ 2 0 6 と 合成フ ィ ル タ 2 2 0 に 出 力す る。 予測フ ィ ル タ 2 0 6 は、 音声信号 と 予測パ ラ メ ー タ を 入力 し、 予測残差信号 を 計算 し、 それ を 駆動信号パ ラ メ ー タ 計算回路 2 1 4 へ出 力 す る。
τ 駆動信号パ ラ メ ー タ 計算回路 2 1 4 で は、 ま ず、 1 フ レ ー ム の予測残差信号 を 複数個 の サ ブフ レ ー ム に分割 し、 そ れぞ れのサ プフ レーム の予測残差信号の 2 乗和 を計算す る。 次 に 予測残差信号の 2 乗和 を 基に、 各サ ブフ レ ーム で の駆動パル ス列信号の密度, 言い変 え る と パ ル ス 間隔 を 求め る。 そ の具 体的:な 方法の 一倒 は、 パ ル ス 間隔 と し て、 長短の 2 種類, ノ ル ス 間隔が長 いサ ブフ レー ム の個数 と パ ル ス間隔が短い サ ブ フ レ ー ム の個数 ¾ 予め設定 し て お き、 予測残差信号の 2 乗和 が大き いサ ブフ レ ーム の順にパ ル ス 間隔 を 短い値に選ぶ方法 で あ る, 駆動信号パ ラ メ ー タ 計算回路 2 1 4 は、 更 に、 駆動 信号の ゲイ ン を例え ば、 パル ス 間隔の短 い全サ ブフ レーム の 予測残差信号の標準偏差 と パ ル ス間隔の長い全サブ フ レ ー ム 予測残差信号の標準偏差 を 用 いて 2 種類求め る。
得 ら れた駆動信号パ ラ メ ー タ す な わ ち、 駆動パル ス間隔 と ゲ イ ン は駆動信号パ ラ メ ー タ 符号化回路 2 1 6 で符号化 さ れ、 マ ル チ プ レ ク サ 2 1 0 に 出力 さ れる と 共 に、 そ れ ら の復号値 が駆動儔号生成回路 2 1 8— へ 出 力 さ れる, 駆動信号生成回路 2 1 8 は、 駆動信号パ ラ メ ー タ 符号化回路 2 1 6 か ら供給 さ :れ る',駆 ¾ ノ ル ス間隔と ゲイ ン、 コ ー ド ブ ッ ク 2 3 2 力 ら供給 さ れる 駆動パ ルス の正規化 さ れた振幅 と、 位相探索 回路 2 2 8 か ら 供給 さ れる 駆動パ ル ス の位相 を も と に、 サ ブ フ レ ー ム 、単位で密度の異な る駆動信号 を 生成す る。
第 1 2 図に駆動信号生成回路 2 1 8 で作成 さ れる 駆動信号 の 一例 を示す。 m番 目 の サブフ レーム に お け る 駆動パルス の ゲイ ン を G ( m )、 駆動パ ルス の正規化 さ れた振幅 を g i ( m )、 パ ル ス数 を 氣 ノ ル ス 間隔 を D m、 ノ ル ス の位相 を K m、 サ ブフ レ ー ム の長 さ を と お く と、 駆動信号 V ( n )は次式で記述 で き る。
V <»> (n) = G · | ^ i ) δ {(n-(i-l)Dm-Rm}
( n = 1, 2, - L; 1 < K m≤ D m) - (37) な お、 位相 K mは、 サ ブフ レ ーム に お け る ノ ルス の先頭位置 で あ る。 ま た、 S ( n )は ク ロ ネ ッ 力 のデル タ 関数で あ る。
駆動信号生成回路 2 1 8 で生成 さ れた駆動信号は合成 フ ィ ル タ 2 2 0 へ入力 さ れ、 合成信号が出 力 さ れる。 合成フ ィ ル タ 2 2 0 は予測フ ィ ル タ 2 0 6 と 逆 フ ィ ル タ の 関係 にあ る。 減算回路 2 2 2 の 出 力で あ る 入力音声信号 と 合成信号 と の誤 差 は、 聴感重み付 け フ ィ ル タ 2 2 4 に よ り その ス ぺ ク ト ル カ 変形 さ れた後、 2 乗誤差計算回路 2 2 6 へ入力 さ れ る。 聴感 重み付 け フ ィ ル タ 2 2 6 は、 聴覚の マ ス キ ン グ効果 を 利用 す る た め の も のであ る。
2 乗誤差計算回路 2 2 6 は、 聴感重み付け さ れた 誤差信号 の 2 乗和 を コ ー ド ブ ッ ク 2 3 2 に蓄積 さ れた コ ー ド ワ ー ド単 位 と 位相探索回路 2 2 8 か ら 出 力 さ れる 駆動パ ルス の位相每 に 計算 し、 計算結果を 位相探索回路 2 2 8 と 振幅探索回路 2 3 0 へ 出力す る。 振幅探索回路 2 3 0 は、 位相探索回路 2 2 8 か ら 出力 さ れる 駆動パ ルス の位相 1 個 ご と に、 誤差信号の 2 乗和 を 最小 と す る コ ー ド ワ ー ド を コ ー ド ブ ッ ク 2 3 2 力、 ら 探索 し、 2 乗和の 最小値 を 位相探索回路 2 2 8 へ出 力す る と と も に、 2 乗和 を 最小 と す る コ ー ド ワ ー ド の イ ン デ ッ ク ス を 保持す る。 位相探索回路 2 2 8 は、 駆動パルス 列の 間隔 D mに 応 じ て 駆動パルス の位相 K mを 1 K m≤ D mの範囲で変ィヒ さ せ、 013112
そ の値 を駆動信号生成回路に与え、 D m個の位相 に対 し て それ ぞれ決 ま る 誤差信号の 2 乗和の最小値を 振幅探索回路か ら 入 力 し、 その D m個の最小値の中 で最 も小 さ い 2 乗和 に対応す る 位相 を マルチ プ レ ク サ 2 1 0 に 出力 す る。 同時 に、 振幅探索 回路 2 3 0 に その 時の位相 を 知 らせ、 振幅探索 回路 2 3 0 で は、 そ の位相 に対応す る コ ー ド ワー ドの イ ンデ ッ ク ス を マ ル チ プ レ ク サ 2 1 0 に 出力す る。
コー ド ブ ッ 2 3 2 は、 正規化さ れた駆動パ ル ス 列の搌幅 を 格納 し、 白色雑音又は、 音声デー タ に対 し て 解析的 に求め ら れた駆動パルス 列 を ト レーニ ン グべ ク ト ル と し て、 L B G
7ル ゴ リ ズム に よ り 作成 さ れる。 駆動パ ル ス列 を 求め る 方法 と して 第 2 実施例で説明 し た よ う な聴感重 み付 け誤差信 号の 2 乗和が最小 に な る よ う に駆動パルス列 を 解析的に求め る 方法 を採用す る こ と がで き る。 こ の詳細 は、 式(17)〜 (34) を 参照 して既 に説明 し て あ る ので、 説明 は省略す る。 す な わ ち、 位相が K mの駆動パ ル ス の振幅 g i (»>は式 (34)を 解 く こ と に よ り 得ら れる。 位相 K mのそ れぞれの値 に対 し パ ル ス の振幅 を 求め、 その時の重み付 2 乗誤差 を そ れぞれ計算 し、 それが 最小 と な る よ う に選ぶ。
マ ル チプ レ ク サ 2 1 0 は予測ノ ラ メ ー タ, 駆動信号パ ラ メ ー タ, 駆動パ ル ス の位相, 振幅の符号 を 多重化 し て 図示せぬ 伝送路等へ出 力す る。 尚、 重み付け フ ィ ル タ 2 2 4 を介 さ ず 直接減算回路 2 2 2 の 出 力 を 2 乗誤差計算回路 2 2 6 へ入力 し ても よ レヽ。
以上が符号化装置の説明 で あ り、 次 に復号化装置の説明 を
- ': 行 う。 第 1 1 図 に お いて、 デマ ルチ プ レ ク サ 2 5 0 は伝送路 等か ら 入力 さ れた符号 を、 予測パ ラ メ ー タ, 駆動信号パ ラ メ ー タ、 駆動パ ル ス の位相, 駆動パ ル ス の振幅の符号 に分離す る。 駆動信号パ ラ メ ー タ 復号化回路 2 5 2 は、 駆動パ ル ス の 間隔 と 駆動パ ル ス の ゲ イ ン の符号 を 復号 し、 駆動信号生成回 路 2 5 4 へ 出 力す る。
コ ー ド ブ ッ ク 2 6 0 は符号化装置の コ ー ド ブ ッ ク 2 3 2 と 同 一の も ので あ り、 送 ら れた駆動パ ルス振幅の イ ン デ ッ ク ス に 対応す る コ ー ド ワ ー ク を 駆動信号生成回路 2 5 4 へ出 力す る。 予測パ ラ メ ー タ 復号化回路 2 5 8 は予測パ ラ メ ー タ 符号 化回路 4 0 8 で符号化 さ れた予測パ ラ メ ー タ の符号 を復号 し、 合成フ ィ ル タ 2 5 6 へ出 力す る。 駆動信号生成 回路 2 5 4 は、 符号化装置内 の生成回路 2 1 8 と 同様に、 入力 し た駆動パ ル ス 間隔 と 駆動パ ル ス の ゲイ ン, 駆動パ ル ス の正規化 さ れ た振 幅 と、 駆動パ ル ス の位相 を も と にサ ブフ レーム単位で密度の 異 な る 駆動信号 を 生成す る。 合成フ ィ ル タ 2 5 6 は符号化装 置内の 合成 フ ィ ル タ 2 2 0 と 同一の も の で あ り、 駆動信号 と 予測パ ラ メ ー タ を 入力 し て合成信号 を 出 力 す る。
上述の第 3 実施例で は、 コ ー ド ブ ッ ク は一種類と し た 力、 コ ー ド ブ ッ ク を複数個用 意 し、 駆動パ ル ス の間隔に よ っ て切 リ 替え て用 い て も よ い。 駆動パ ル ス 列の統計的 な性質は駆動 ノ ル ス の間隔 に よ っ て異 な る の で、 切 り 替えて 用 い る こ と に よ り 性能が向上す る効果があ る。 こ の構成 を採用 し た第 4 実 施例に係る 符号化装置 と 復号化装置の ブ ロ ッ ク 図 を 第 1 3 図 と 第 1 4 図 に示す。 第 1 3 図 と 第 1 4 図 に お い て、 第 9 図 と 13112
第 1 1 図 と 同一の番号が付与 さ れた 回路は同一 の機能 を 有す . る。 第 1 3 図の選択回路 2 6 6 と 第 1 4 図の選択回 路 2 6 8 は、 駆動パ ル ス 0位相 に よ っ て、 コ ー ド ブ ッ ク の 出 力 を 選択 す る コ ド ブ ッ ク 選択回路で あ る。
こ の ^: う に、 第 3、 第 4 実施例に よ っ て も、 駆動信号のパ ル ス 間隔 を 重要な情報又 は多 く の情報が含 ま れ る サ ブフ レ ー ム で は密に、 そ う でな い サ ブフ レームで は粗 く と い う よ う に サ ブフ レーム ご と に変え る こ と がで き る の で合成信号の 品質
' 、 を 向上 き せ る 効果があ る。
な お、 第 3、 第 4 実施例も 第 1、 第 2 実施例 と 同様 に変形 可能で あ る。
第 1 '5 図、 第 1 6 図は第 5 実施例 に係 る 符号化装置お よ び 復号化装置の ブロ ッ ク 図で あ る。 フ レームノ ッ フ ァ 1 1 は入 力端子 1 0 に入力 さ れる 音声信号 を 1 フ レ ー ム分蓄積す る 回 路であ 、 第 1 5 図の各 ブロ ッ ク は フ レ ームノ ッ フ ァ 1 1 を 用 いて フ レ一 :ム每 ま た はサ ブフ レー ム每 に以下 の処理 を 行 う。 - 予測バ メ ー タ 計算回路 1 2 は、 予測パ ラ メ ー タ を 公知の 方法を 用 いて計算する。 予測 フ ィ ル タ 1 4 が第 1 7 図に示す よ う な 長時間予測 フ ィ ル タ 4 1 と 短時間予測フ ィ ル タ 4 2 を
M. 接饞 て;藤成 さ れる場合、 予測パ ラ メ ー タ 計算回路 1 2 は ピ ッ 周 ;期 と ピ ッ チ予測係数お よ び線形予測係数 ( " ノ ラ メ ー タ ま た は Kパ ラ メ ー タ ) を 自 己相関法や共分散法等の公 知の方法で計算す る。 計算法 につ い て は、 例え ば文献 2 (古 井貞照著 「 デ ィ ジ タ ル音声処理」 1 985年東海大学出版会発行) に記述 されて い る。 計算 さ れた予測パ ラ メ ー タ は、 予測パ ラ メ ー タ 符号化回路 1 3 へ入力 さ れる。 予測パ ラ メ ー タ 符号化回路 1 3 は、 予測 ノ ラ メ ー タ を 予め 定め ら れた量子化 ビ ッ ト 数に 基づ いて符号 ィ匕 し、 こ の符号 を マ ル チ プ レ ク サ 2 5 に 出 力す る と 共 に、 復 号値 を 予測フ ィ ル タ 1 4 と 合成 フ ィ ル タ 1 5 お よ び聴感重み フ ィ ル タ 2 0 に 出 力す る。 予測 フ ィ ル タ 1 4 は、 入 力の音声 信号 と 予測パ ラ メ ー タ を 入力 と し て予測残差信号 を 計算 し、 そ れを 密度パ タ ー ン選択回路 1 5 へ 出 力 す る。
密度パ タ ー ン選択回路 1 5 と し て は、 後で述べ る 実施例の も のも 使 う こ と がで き る 力、 本実施例に お いて は ま ず 1 フ レ ー ム の 予測残差信号 を 複数個のサ ブフ レ ー ム に 分割 し、 そ れ ぞ れの サ ブフ レー ムの予測残差信号の 2 乗和 を 計算す る。 次 に、 予測残差信号の 2 乗和 を 基 に各サブ フ レ ー ム で の駆動パ ル ス列信号の密度 (パ ル ス 間隔) パ タ ー ン を 求 め る。 そ の具 体的な 方法の一例 は、 密度パ タ ー ン と し てパ ル ス 間隔が最短 の 2 種類、 パ ル ス 間隔が長 い サ ブフ レ ー ム の個数 と パ ル ス 間 隔が短 いサ ブフ レ ー ム の個数 を 予め設定 し て お き、 予測残差 信号の 2 乗和が大 き いサ ブフ レ ーム の順 にパル ス 間隔が短 く な る密度パ タ ー ン を 選択す る 方法で あ る。
ゲイ ン計算回路 2 7 は選択 さ れた密度パ タ ー ン の情報 を 入 力 と し、 駆動信号 の ゲイ ン を 例え ばパ ル ス 間隔 の短 い全サ ブ フ レ ー ムの予測残差信号の標準偏差 と パ ル ス 間隔の 長い全サ フ' フ レ ー ム の予測残差信号の標準偏差 を 用 いて 2 種類求め る。 得 ら れ た密度パ タ ー ン と ゲイ ン はそ れぞれ符号化回 路 1 6 , 2 8 で符号化 さ れ、 マ ル チ プ レ ク サ 2 5 に入力 さ れ る と 共 に、 'それ ら の復号値が駆動信号生成回路 1 7 へ入力 さ れ る。 駆動 信号生成回路 1 7 は、 符号化回路 1 6, 2 8 カゝ ら入 力 さ れ る 密度パ ー ン と ゲイ ン、 コ ー ド ブッ ク 2 4 力、 ら 入力 さ れる 駆 動パ ル ス の正規化 さ れた振幅、 お よ び位相探索 回路 2 2 か ら 入 力 さ れる駆動パ ル ス の位相 を 基に、 サ ブフ レ ー ム単位で密 度が可変の駆動信号 を 生成す る。
' 第 1 8 図 に駆動信号生成回路 1 7 で作成 さ れ る駆動信号の 例 を示す。 m番 目 のサ ブフ レ ーム に お け る駆動ノ ル ス の ゲイ ン を G (m)、 駆動パルス の正規ィヒさ れた振幅 を g i (m)、 ノ ルス 数 を Q ¾ ノ ル ス 間隔を D m、 ノ ル ス の位相 を K m、 サ ブフ レ ー の長 さ を L と お く と、 駆動信号 e x 》 (n)は次式で記述で き る。 e (»> in) i ίΛ) · σ { (η- ( i-1) Dm - Km}
Figure imgf000032_0001
( n = 1, 2, - L; 1 ≤ K m≤ D m) - (38) な お、 位栢 K mは サ ブフ レー ム に お け る パル ス の先頭位置で あ る。 ま た、 び ( n )は ク ロ ネ ッ 力 の デル タ 関数で あ る。
駆動信号生成回路 1 7 で生成 さ れた駆動信号 は合成フ ィ ル タ 1 8 に入力 さ れ、 合成信号が出力 さ れ る。 合成フ ィ ル タ 1 8 は、 予測フ ィ ル タ 1 4 と 逆 フ ィ ル タ の 関係に あ る。 減算回 路 1 9 0出力 であ る 入力音声信号と 合成信号 と の誤差は、 聴 感重み フ ィ ル タ 2 0 に よ り そ の スぺ ク ト ルが変形 さ れた後、 2 乗誤差計算回路 2 1 へ入力 さ れる。 聴感重み フ ィ ル タ 2 0 は、 伝達関数が W (z) = A (z)/ A (z/ γ )
( 0 ≤ 7 ≤ 1 ) … (39)
で表わ さ れる フ ィ ル タ で、 重み付け フ ィ ル タ と 同様 に聴感の マ ス キ ン グ効果を 利用 す る た め の も の で あ り、 文献 2 に詳述 さ れて い る の で説明 は省略す る。
2 乗誤差計算回路 2 1 は、 聴感重み付 け さ れ た誤差信号の 2 乗和 を コ ー ド ブ ッ ク 2 4 に蓄積 さ れた コ ー ド ベ ク ト ル毎 に、 お よ び位相探索回路 2 2 か ら 出 力 さ れる 駆動パ ル ス の位相每 に計算 し、 計算結果 を 位相探索回路 2 2 と 振幅探索 回路 2 3 へ 出力 す る。 振幅探索回路 2 3 は、 位相探索回路 2 2 か ら 出 力 さ れ る駆動パ ル ス の位相 1 個毎に、 誤差信号 の 2 乗和 を 最 小 と す る コ ー ド ワ ー ドの イ ン デ ッ ク ス を コ ー ド ブ ッ ク 2 4 か ら 探索 し、 2 乗和 の最小値 を 位相探索回路 2 2 へ出 力す る と 共 に、 2 乗和 を 最小 と す る コ ー ド ワ ー ド の イ ン デ ッ ク ス を 保 持す る。 位相探索回路 2 2 は、 選択 さ れた密度パ タ ー ン の情 報 を 入 力 と し、 駆動パル ス列の位相 K mを 1 K m≤ D mの範囲 で変化 さ せ、 その値 を 駆動信号生成回路 1 7 に与え、 D m個の 位相 に 対 し て それぞれ決 ま る 誤差信号の 2 乗和 の最小値 を 振 幅探索 回路 2 3 か ら受け、 そ の D m個の最小値の中 で最も 小さ い 2 乗和 に対応す る位相 を マ ル チ プ レ ク サ 2 5 に 出 力す る と 同 時に、 振幅探索 回路 2 3 に そ の位相 を 知 らせ る。 振幅探索 回路 2 3 で は、 そ の位相 に対応す る コ ー ド ワ ー ドの イ ン デ ッ ク ス を マ ル チ プ レ ク サ 2 5 に 出 力す る。
マ ル チ プ レ ク サ 2 5 は予測パ ラ メ ー タ、 密度パ タ ー ン、 ゲ イ ン、 駆動パ ル ス の位相 お よ び振幅の符号 を 多 重化 し、 出 力 端子 2 6 を 介 して伝送路へ 出 力 す る。 な お、 減算回路 1 9 の 出 力 を聽感重みフ ィ ル タ 2 0 を 介さ ず に 直接 2 乗誤差計算回 路 2 1 入力 して も よ い。
次に、 第 1 6 図 に示す復号化装置 に つ いて説明す る。 第 1 6 図に お いて、 デマルチ プ レ ク サ 3 1 は入力端子 3 0 か ら 入 ガされ た符号 を予測パ ラ メ ー タ、 密度パ タ ー ン、 ゲ イ ン、 駆 動パル ス の位相 ' 振幅の符号 に分離す る。 復号化回路 3 2、 3 7 はそれぞれ前記駆動パル ス の密度パ タ ー ン と 駆動パル ス の ゲイ ン の符号を 復号 し、 '駆動信号生成回路 3 3 へ 出力 す る。 コ ー ド ブッ ク 3 5 は第 1 図の符号化装置内の コ ー ド ブ ッ ク 2 4 と 同 じ も の であ り、 送 ら れた駆動パ ル ス の振幅の イ ン デ ッ ク ス に 対応す る コ ー ド ワ ー ド を 駆動信号生成回路 3 3 へ 出 力 す る。
予測パ ラ メ ー タ 復号化回路 3 6 は、 第 1 5 図の予測パ ラ メ ー タ 符号化回路 1 3 で符号化 さ れた予測パ ラ メ ー タ の符号 を 復号 し、 合成フ ィ ル タ 3 4 へ 出力す る。 駆動信号生成回路 3 3 は、 符号化装置内の駆動信号生成回路 1 7 と 同様 に、 入 力 れた 駆動パ ルス の正規化 さ れた振幅 と 駆動パ ルス の位相 を 基 に、 サブフ レ ー ム単位で密度が可変の駆動信号を 生成す る。 合成フ ィ ル タ 3 4 は符号化装置内 の合成 フ ィ ル タ 1 8 と 同 じ も の で り、 駆動信号 と 予測パ ラ メ ー タ を 受け て、 合成信号 を ノ ッ フ ァ 3 8 へ 出力す る。 ノ ッ フ ァ 3 8 は、 入力 さ れ る 信 号 を フ レ ー ム毎に結合 し、 合成信号 を 出 力端子 3 9 へ出 力 す る。
第 1 9 図は こ の発明 の第 6 実施例 に係 る符号化装置の ブ ロ ッ ク 図であ る。 こ の実施例は第 5 実施例の符号化装置 と 同一 の機能 を 有 し なが ら、 駆動信号のパ ル ス 列の符号化 に要す る 計算量 を約 1 Z 2 に低減で き る よ う に し た も の で あ る。
以下、 こ の計算量低減の原理につ い て簡単に説明 す る。 第 1 5 図 の 2 乗誤差計算回路 2 1 に入 力 さ れる聴感重 み付 き 誤 差信号 e w(n)は
e w ( n )
= { s (n) - e xc(n) * h (n) } * W (n) 〜 (40) こ こ で、 s (n)は入力音声信号、 e xc(n)は駆動信号の候補、 h (n)は合成 フ ィ ル タ 1 8 の ィ ン パ ル ス応答、 W (n)は聴感重 み フ ィ ル タ 2 0 の イ ンパ ル ス応答 を そ れぞれ示 し、 * は時間 域の畳み込み演算 を 表わ す。
(40)式の両辺を z 変換す る と、
E w、 z )
= { S (z) - E X c(z) · H (z) } W (z) … ( ) と な る。
(41)式 に お け る H (z),W )はそ れぞれ予測 フ ィ ル タ 1 4 の 伝達関数 A (Z)を 用 いて、
H (z)= 1 ノ A (z) … (42)
Figure imgf000035_0001
( 0 ≤ γ ≤ 1 ) … (43) と 定義 さ れる ので、 (42 ),(43)式を (41)式 に代入す る と、 次式 が得 ら れる。
W (z) = { S (ζ) Α (ζ)} · { 1 / Α (ζ/ γ )}
- Ε χ c(z) { 1 / A (ζ/ γ )} … (44) 013112
こ れ を逆 z 変換す る と、 次式が得 ら れ る。
e w(n) = X (n · e c(n) * n w(n) ··· ( 5 ) こ こで、 x (ii)は聴感重み付 き入力信号、 e xc(n)は駆動信 号の候補、 h w(n)は ΐ Ζ Α ίζΖ γ )の伝達関数 を 持つ聴感重み フ ィ ル タ の ィ ンパルス応答 を 示す。
(40)式と (45)式 を 比較す る と、 (40)式で は聴感重み付き 誤 差信号 e w(n) を計算す る の に 1 つ の駆動信号候補 e xc(n)に つ き 2 つの フ ィ ル タ の畳み込み演算が必要で あ る が、 (45)式 で は 1 つの フ ィ ル タ の畳み込み演算で よ い こ と が分かる。 実 際の符号化処理で は、 数百〜数千の駆動信号の候補 に つ い て 隳感重 み付き誤差信号 を 計算す る た め、 こ の部分の計算量が 符号化装置の全計算量の大部分 を 占 めて い る。 従っ て、 (40) 式の代わ り に (45)式 を 用 い る よ う に符号化装置の構成 を 変 え た場合、 1 / 2 の オー ダで符号化に要す る計算量が低減さ れ る ため、 _ 符号化装置の実用化が一層容易 と な る。
第 1 9 図 に示す第 6 実施例の符号化装置に お いて、 第 1 5 図 に示す第 5 実施例 と 同一番号が付 さ れて い る プロ ッ ク は第 1 5 図 と 同一機能 を 有す る た め、 こ こ で は説明 を 省略す る。 伝達関数が Ι Ζ Α (ΖΖ Ύ ) の第 1 の聴感重みフ ィ ル タ 5 1 は 予測パ ラ メ ー タ を 入力 と し、 予測フ ィ ル タ 1 4 か ら の予測残 差信号 r (n)を 受け、 聴感重み付き 入力信号 χ (η)を 出力 す る。 一方、 第 1 の聴感重み フ ィ ル タ 5 1 と 同一特性の第 2 の聴感 重み フ ィ ル タ 5 2 は予測パ ラ メ ー タ を 入 力 と し、 駆動信号生 成回路 1 7 か ら の駆動信号の候補 e xc(n)を 受 けて聴感重み付 き 合成信号候補 X c(n)を 出力 す る。 減算回路 5 3 は聴感重み 付 き入 力信号 x (n)と 聴感重み付き 合成信号候補 x c(n)と の誤 差、 す なわ ち 聴感重み付き誤差信号 e w(n)を 2 乗誤差計算回 路 2 1 へ出 力 す る。
第 2 0 図 は こ の発明 の第 7 実施例 に係 る 符号化装置の プ ロ ッ ク 図であ る。 こ の符号化装置は、 第 1 9 図の符号化装置 と 同 一の機能 を 有 し なが ら、 駆動パル ス の ゲイ ン を 閉 ルー プ型 で最適 に決定す る こ と がで き る よ う に し、 さ ら に合成音声の 品質を 改良 し たも ので あ る。
第 1 5 図 と 第 1 9 図の符号化装置 に お い て は、 駆動パル ス の ゲイ ン は入 力信号の予測残差信号の標準偏差 を 用 いて正規 化 さ れ た コ ー ド ブ ッ ク か ら 引 き 出 さ れる 全ての コ ー ドべ ク ト ル に共通の ゲイ ン G を乗 じ て、 位相 J、 コ ー ド ブ ッ ク の イ ン デ ッ ク ス I を 探索す る構成 と な っ て い た。 こ の方法 は、 確定 し た ゲ イ ン G に対 し て最適な位相 J と ィ ン デ ッ ク ス I が選 ば れ る が、 ゲイ ン、 位相お よ びイ ン デ ッ ク ス が同 時に 最適化 さ れて い る訳で はな い。 ゲイ ン、 位相 お よ びイ ン デ ッ ク ス を 同 時 に最適化で き れ ば、 さ ら に駆動パ ルス を 精度良 く 表現で き る ため、 合成音声の品質が大幅 に 向上す る。
次に、 ゲイ ン、 位相お よ びイ ンデ ッ ク ス を 効率良 く 同時 に 最適化す る 方法の原理 に つ いて説明 す る。
前記 (45)式 は、 次の (46)式 に書き 替え る こ と がで き る。
e w(n) = x (n) - G ij - x j ( 1 > ( n ) … (46) こ こ で、 e w(n)は聴感重み付 き誤差信号、 X (n)は聴感重み 付 き 入 力信号、 G i jは イ ン デ ッ ク ス i , 位相 j の駆動パル ス に 最適 な ゲイ ン、 X j ( ( n )は イ ン デ ッ ク ス i , 位相 j の ゲイ ン を乗 じな い駆動パ ル ス を、 前述の 1 ノ A (zノ ア )の伝達関数 の聴感重み フ ィ ル タ で重み付け し た聴感重み付 き合成信号候 補 を 示す。 聴感重み付き 誤差信号のパ ワ ー
Figure imgf000038_0001
を 最適 ゲイ ンで偏微分 し た値 E wZ G ijを 零 と お く こ と に よ り、 最適ゲイ ン G Uが決定 さ れる。
G ij = [∑ X (n) · x j { 1 (n)]/ [∑ { x j <«> (n) } 2 ] … (48) n n 今、
A j " > = ∑ x ( n ) · x j < 1 > ( n ) (49)
B j ( i ) = ∑ {x j (l> (n) } 2 (50)
n
と お く と、 (48)式 は
G ij = A j ( i ) / B j(i) … (51)
と 表わ す こ と がで き る。 (51)式 を (47)式 に代入 す る と、 聴感 重み付 き誤差信号のパ ワ ーの極小値 は次式で表わす こ と がで さ る。
( E w) min = ∑ {x (n)}2 - {A j <»> } 2 / B j t i > 〜 (52) (52)式の聴感重み付き 誤差信号のパ ワ ー を 最小化す る ィ ン 'デ 、ッ ク : I i お よ び位相 j は、 { A jい)) 2/ B jい) を 最大 に す る イ ン デ ッ ク ス i お よ び位相 j と 等 し い。 従っ て、 最適な ィ ン デ ッ グス I .'と 位相 J お よ びゲイ ン G I Jを 同時 に求 め る に は、 —例 と し て、 ま ず イ ン デ ッ ク ス i , 位相 j の候補に つ い て (49), (50)式 に よ り A j ( ", B j (" を それぞれ求め、 次 に、 { A j ( } 2ノ B j ( 1 )が最大 と な る ィ ンデ ッ ク ス I , 位相 J の組 を 探索 し、 (51)式 を 用 いて G IJを 求め符号化す れば よ い。
第 2 0 図の符号化装置は、 上記の イ ン デ ッ ク ス、 位相 お よ びゲイ ン を 同時に 最適化す る 方法を 組み込んで い る 点だ け が 第 1 9 図の符号化装置 と 異な る ため、 第 1 9 図 と 同 一機能 を 有す る ブロ ッ ク は第 1 9 図 と 同一番号 を 付 し て説明 を 省略す る。 第 2 0 図 に お いて、 位相探索回路 2 2 は密度パ タ ー ン情 報 と イ ンデ ッ ク ス · 位相選択回路 5 6 よ り の位相更新情報 を 入 力 と し て、 正規化駆動信号生成回路 5 8 に位相情報 j を 出 力 す る。 正規化駆動信号生成回路 5 8 は、 コ ー ド ブ ッ ク 2 4 に格納 さ れる 予め 正規化 さ れた コ ー ドべ ク ト ル C (i ) ( i は コ r- ドべ ク ト ルのィ ン デ ッ ク ス ) と 密度パ タ ー ン 情報 お よ び位 相情報 j を 入力 と し、 密度パ タ ー ン情報 に基づ き 上記コ ー ド べ ク ト ルの各要素 の後ろ に所定数の零 を 内揷す る こ と でサ ブ フ レー ム 内で一定のパル ス 間隔 と な る 正規化駆動信号 を 生成 し、 入 力 さ れた位相情報 j に基づき 正規化駆動信号 を 時間軸 の正方 向へ シ フ 卜 さ せた も の を 最終出力 と し て 聴感重み フ ィ ル タ 5 2 へ 出 力す る。
内積計算回路 5 4 は聴感重み付き 入力信号 X (n)と 聴感重み 付 き 合成信号候補 x j "> (n)と の 内積値 A j (l> を (49)式 に よ り 計算 し、 こ れ を イ ン デ ッ ク ス · 位相選択回路 5 6 へ 出 力 す る。 パ ワ ー計算回路 5 5 は聴感重み付き 合成信号候補 x j (') (n)の ノ ヮ 一 B jい) を (50)式 に よ り 計算 し、 こ れ を イ ン デ ッ ク ス ' 位相選択回路 5 6 へ 出 力 す る。 イ ン デ ッ ク ス · 位相選択回路 5 6 は入力 さ れた 内積値の 2 乗 と パ ワ ーの比 { A j ( i > } 2ノ B j ( が最大 と な る ィ ン デ ッ ク ス I と 位相 J を 探索す る た め 90/13112
に、 顒次イ ン デッ ク ス と 位相の更新情報 を コ ー ド ブ ッ ク 2 4 お よ び位相探索回路 2 2 へ出 力す る。 こ の探索 に よ っ て得 ら れ る最適な イ ンデ ッ ク ス I と 位相 J の情報 は、 マル チプ レ ク サ 2 5 へ出力 さ れ、 A J <»>, B J">は一時保存 さ れ る。 ゲイ ン符号化回路 5 7 はイ ン デ ッ ク ス · 位相選択回路 5 6 よ り の A J"), を 入力 と し、 最適ゲイ ン A JM^ B J )の量 子化 ♦ 符号化 を 行い、 こ の ゲイ ンの情報 を マ ル チプ レ ク サ 2 5 へ出 力す る。
第 2 1 図 は こ の発明 の第 8 実施例 に係 る符号化装置の プ ロ ヅ ク 図で あ る, こ の符号化装置は、 第 2 0 図の符号化装置 と 同 一の機能 を 有 し なが ら、 駆動信号の位相探索 に要す る計算 量 を減 ら す こ と がで き る よ う に構成 し た も ので あ る。
第 2 1 図 に おい て、 位相 シ フ ト 回路 5 9 は聴感重み フ ィ ル タ 5 2 か ら 出 力 さ れる位相 1 の聴感重み付き 合成信号候補 X 1 ( 1 ) ( n )を 入力 と し、 イ ンデ ッ ク ス i に つ い て取 り 得る 全て の位相状態を 単に x l( l > (n)の サン プル点 を 時間軸の正方向 に シ フ ト さ せ る こ と で簡単 に作 り 出す こ と がで き る。
今、 コ ー ド ブ ッ ク 2 4 内の イ ンデ ッ ク ス の候補数 を N I、 位 相 の候捕数を N Jと すれば、 第 2 0 図 に お け る 聴感重み フ ィ ル タ 5 2 の使用 回数 は 1 回 の駆動信号探索 に つ き N I X N Jの ォ ー ダで あ る に の に対 し、 第 2 1 図 に お け る聴感重み フ ィ ル タ 5 2 の使用 回数は 1 回の駆動信号探索 につ き N Iの オー ダ と な リ、 約 1 / N に計算量 を減 ら す こ と がで き る。
次に、 密度パ タ ー ン選択回路 1 5 を そ の前処理部分を 含め て よ り 具体的 に示 し た第 9 〜第 1 2 実施例 を 説 明す る。 上述 し た第 5 〜第 8 実施例で は、 予測フ ィ ル タ 1 4 を第 1 7 図 に 示 し た よ う に長時間予測 フ ィ ル タ 4 1 と 短時間予測 フ ィ ル タ 4 2 の縦続構成 と し、 そ れ ら の予測パ ラ メ ー タ を 入 力音声信 号の分析 に よ り 求めて い た 力、 以下 の第 9 〜第 1 2 実施例で は長期予測フ ィ ル タ の及びそ の逆フ ィ ル タ で あ る 長期合成 フ ィ ル タ のパ ラ メ ー タ を 閉ルー プで、 す な わ ち 入 力音声信号 と 合成信号 と の 2 乗平均誤差が最小 と な る よ う に 求め る構成 と す る。 こ の構成 に よ る と、 合成信号の レ ベ ル で誤差が最小 と な る よ う にノ ラ メ ー タ を 求め る の で、 合成音声 の品質が さ ら に 向上す る。
' 第 2 2 図、 第 2 3 図 は第 9 実施例の符号化装置、 復号化装 置の ブ ロ ッ ク 図で あ る。
第 2 2 図 に おい て、 フ レ ー ム バ ッ フ ァ 3 0 1 は入力端子 3 0 0 に 入力 さ れる 音声信号 を 1 フ レ ー ム分蓄積す る 回路で あ り、 第 8 図 の各ブ ロ ッ ク は フ レ ー ム ノ ッ フ ァ 3 0 1 を 用 い て 1 フ レ ー ム、 ま た はサ ブフ レ ー ム毎 に以下の処理を 行う。
ま ず、 1 フ レー ム分の音声信号 に対 し 予測パ ラ メ ー タ 計算 回路 3 0 2 に お い て、 公知の方法を 用 い て短時間予測パ ラ メ ー タ を 計算す る。 通常、 こ の予測パ ラ メ ー タ は 8 〜 12個計算 さ れる。 計算法に つ いて は、 例え ば前記文献 2 (古井貞照著 Γ ディ ジ タ ル音声処理」 ) に記述 さ れて い る。 計算 さ れた予 測パ ラ メ ー タ は、 予測パ ラ メ ー タ 符号化回路 3 0 3 に入力 さ れ る。 予測パ ラ メ ー タ 符号化回路 3 0 3 は、 予測パ ラ メ ー タ を 予め 定め ら れた 量子化 ビ ッ 卜 数 に基づ い て符号化 し、 そ の 符号 を マ ル チ プ レ ク サ 3 1 5 へ 出力 す る と 共 に、 復号値 P を 予測フ ルタ 3 0 4、 聴感重み フ ィ ル タ 3 0 5、 影響信号作 成 回路 3 0 7、 長期ベ ク ト ル量子化 ( V Q ) 回路 3 0 9 お よ び短期ベ ク ト ル量子化回路 3 1 1 へ 出 力 す る。
予測 フ ィ ル タ 3 0 4 は、 フ レ ー ムノ ッ フ ァ 3 0 1 か ら の 入 力音声信号 と 符号化回路 3 0 3 か ら の予測パ ラ メ ー タ の復号 値か ら 短期予測残差信号 r を 計算 し、 そ れ を聴感重みフ ィ ル タ 3 0 & へ 出力す る。 聴感重みフ ィ ル タ 3 0 5 は、 予測パ ラ メ ー タ の復号値 P を 基 に構成 さ れる フ ィ ル タ で短期予測残差信号 r の ス ぺ ク ト ル を 変形 し た信号 X を減算回路 3 0 6 へ 出 力す る。 こ の聴感重 み フ ィ タ 3 0 5 は聴覚の マ ス キ ン グ効果 を 利用 す る た め の も の で あ り、 そ の詳細は前記文献 2 に記載さ れて い る の で、 説明 は省略す る。
影響信号作成回路 3 0 7 は、 加算回路 3 1 2 か ら の過去の 重み付 け さ れた合成信号 X と、 予測パ ラ メ ー タ の復号値 P を 入 力 と し、 過去の影響信号 f を 出力 す る。 具体的に は過去の 重み付け さ れた合成信号 X を フ ィ ル タ の 内部状態と す る 聴感 重み フ ィ ル タ の零入力応答 を 計算 し、 それ を影響信号 f と し て、 予め設定 さ れ る サ ブフ レ ー ム単位で 出力す る。 8 kH zサ ン ブ リ ン グ時のサブフ レーム 中 の典型的な値 と し て は、 1 フ レ ー ム ( 1 80サン プル) を 4 分割 し た 40サ ン プル程度が使用 さ れ る。 影響信号作成画路 3 0 7 は、 第 1 サ ブフ レ ー ム に お いて は前フ レームで決定 し た密度パ タ ー ン K に基づ いて作成 さ れ た前フ レー ム の合成信号 を 入力 と し て影響信号 f を 作成す - る a 減算回路 3 0 6 は、 サ ブフ レ ー ム単位で聴感重み付け入 力信号 X か ら 過去 の影響信号 f を差 し 引 い た信号 u を減算回 路 3 0 8 お よ び長期べ ク ト ル量子化回路 3 0 9 へ出 力す る。
Λ ヮ一計算回路 3 1 3 は、 予測フ ィ ル タ 3 0 4 の 出力 で あ る 短期予測残差信号のパ ワ ー ( 2 乗和) を サ ブ フ レ ー ム単位 で計算 し、 各サ ブ フ レ ー ム のパ ワ ー を 密度パ タ ー ン選択回路 3 1 4 へ出 力 す る。
密度パ タ ー ン選択回路 3 1 4 は、 パ ワ ー計算 回路 3 1 5 か ら 出力 さ れる サ ブフ レ ー ム每の短期予測残差信号の パ ワ ー を 基 に、 予め設定 さ れた駆動信号の密度パ タ ー ン の 中 か ら 一 つ を 選択す る。 具体的 に は、 パ ワ ーの大 き いサ ブ フ レ ーム の順 密度が高 く な る よ う に密度パ タ ー ン を 選択す る。 例え ば、 等長の サ ブフ レー ムが 4 個、 密度の種類が 2 つ で、 密度パ タ — ン を 次表の よ う に設定 し た場合、 密度パ タ ー ン選択回路 3 1 5 はサ ブフ レ ー ム每の上記パ ワ ー を 比較 し、 パ ワ ーが最大 と な る サブフ レー ムが密 と な る密度パ タ ー ン の番号 K を 選択 し、 そ れを 密度パ タ ー ン情報 と し て短期べ ク 卜 ル量子化回路 3 1 1 と マ ル チ プ レ ク サ 3 1 5 へ出 力 す る。
Figure imgf000043_0001
長期 ベ ク ト ル量子化回路 3 0 9 は、 減算回路 3 0 6 か ら の 1
差信号 u、 後述の駆動信号保持回路 3 1 0 か ら の過去の駆動 信号 e Xお よ 符号化回路 3 0 3 か ら の予測パ ラ メ ー タ P を 入 力 と し、 サ ブフ レ ーム単位で差信号 u の量子化 出力 信号 ί を 滅算回路 3 0 8 お よ び加算回路 3 1 2 へ、 ベ ク ト ル ゲイ ン ^ お よ びイ ン デ ッ ク ス Τ を マ ル チ プレ ク サ 3 1 5 へ、 長期駆動 信号 t を駆動信号保持回路 3 1 0 へそれぞれ出 力す る。 こ の と き t と と の間 に は、 u = t * h ( h は聴感重み フ ィ ル タ 3 0 5 のイ ン パ ル ス応答、 * は畳み込み を 表わ す) と い う 関 係があ る。
サブフ レーム単位のべ ク ト ルゲイ ン β <») と ィ ン デ ッ ク ス .Τ <-> ( m はサ ブフ レ ー ム の番号) の求め方の一例を 以下 に詳 細 に示す。
予め設定 さ れる イ ンデ ッ ク ス T と ゲイ ン と 過去 の駆動信 号 を 用 いて現サ ブフ レ ー ム の駆動信号候補 を作成 し、 こ れ を 聰感重みフ ィ ル タ に入力 し て差信号 u の量子化信号の候補 を 作成 し、 差信号 u と 量子化信号の候補 と の誤差が最小と な る よ う に最適な ィ ン デッ ク ス T ( と 最適な β 》 を 決定す る。 こ の と き Τ と 最適な /9 ("^ を 用 い て作成 さ れ る現サブフ レ ー ム の駆動信号を t と し、 t を 聴感重み フ ィ ル タ に 入力 し て 得 ら れる信号 を差信号 u の量子化出 力信号 u と す る。
こ れ と 同様な方法は、 例え ば PETER KR00N氏 ら に よ る IEEE 会報、 1988年 2 月、 Vol · SAC - 6, ρρ· 353 - 363に掲載の , 'A class of Analysis-by-Synthesic Predicative Coders for High Qual ity Speech Coding at Rates Between 4.8 and 16 k bits / s"と 題す る 論文 (文献 3 ) 中 の閉ルー プで ピ ッ チ予測 器の係数を 求め る 方法 と 同様の公知の方法 を 用 いる こ と がで き る の で、 こ こ で は説明 を 省略す る。
一方、 減算回路 3 0 8 で は サ ブフ レ ー ム単位で差信号 u 力 ら 量子化出 力信号 u を減 じ た差信号 V を 短期べ ク ト ル量子化 回路 3 1 1 へ 出力 す る。
短期 ベ ク ト ル量子化回路 3 1 1 は、 差信号 V、 予測パ ラ メ ー タ P お よ び密度パ タ ー ン選択回路 3 1 4 よ り 出力 さ れる 密 度パ タ ー ン番号 K を 入力 と し、 サ ブフ レ ー ム単位で 差信号 V の量子化出 力信号 V を 加算回路 3 1 2 へ、 短期駆動信号 y を 駆動信号保持回路 3 1 0 へそ れぞれ 出 力 す る。 こ こ で V と y 上 の間 に は、 V = y * h と い う 闋係があ る。
ま た、 こ れ と 共 に短期ベ ク ト ル量子化回路 3 1 1 は駆動パ ル ス列 の ゲイ ン G、 位相情報 J お よ び コ ー ドべ ク ト ルの イ ン デ ッ ク ス I を マ ル チプ レ ク サ 3 1 5 へ 出 力 す る。 こ の と き、 サ ブフ レーム単位で 出 力 さ れ る ノ ラ メ 一 タ G, J , I は、 密 度パ タ ー ン番号 K で決ま る現サ ブフ レ ー ム (第 mサ ブフ レ ー ム ) の密度 ( パ ル ス 間隔) に応 じ た パ ル ス数 N 〈》> を サ ブ フ レ ー ム 内 で符号ィ匕 し な けれ ばな ら な い ので、 予め 設定 さ れ る コ 一 ド べ ク ト ル の次元数 N D ( 1 つず つ の コ ー ド べ ク ト ル を 構成 す るパ ル ス数) に 応 じ た個数、 すな わ ち N i ^ Z N D個ずつ現 サ ブフ レ ー ム で 出 力 さ れ る。
例え ば、 フ レー ム長が 1 6 0 サ ン プル、 サ ブフ レ ームが 4 つ の等長の 4 0 サ ン プル で構成 さ れ、 コ ー ドべ ク ト ルの次元 カ 2 0 で あ る と す る。 こ の場合、 予め用 意 さ れ る密度パ タ ー ン の 1 つ が第 1 サ ブフ レ ー ム の パ ル ス 間隔 1、 第 2 〜第 4 サ 9 13112,;
ブフ レ ームのノ ル ス 間隔 2 と す る と、 こ の密度パ タ ー ン に対 して短期べ ク ト ル量子化回路 3 1 1 カゝ ら 出 力 さ れる ゲイ ン、 嫁栢お よ びイ ンデッ ク ス の個数は、 それぞれ第 1 サ ブフ レー . ム で 40 20= 2 (锢) (た だ し、 こ の場合はパル ス 間隔が 1 な ので、 位相情報は 出力 し な い) 、 第 2 〜第 4 サ ブフ レーム で 20/20= 1 (個) と な る。
短期ベ ク ト ル量子化回路 3 1 1 の具体的な構成例 を 第 2 4 、 図 に示す。 第 2 4 図 に お いて、 合成べ ク ト ル生成回路 5 0 1 ' は予測 ラ メ ー タ P と、 予め設定 さ れる コ ー ド ブ ッ ク 5 0 2 内 の コ ー ドベ ク ト ル C い) ( i は コ ー ドベ ク ト ルの イ ン デ ッ ク X ) お よ び密度パ タ ー ン情報 K と か ら、 密度パ タ ー ン情報 K 対応す る予め設定さ れたパ ルス 間隔 と な る よ う に C ( 1 > の第 1 サ ン プル以降に所定の周期で零 を 内挿 し て密度情報 を 持つ -: パルス 列を作成 し、 こ のノ ル ス列 を 予測パ ラ メ ー タ P力 ら 生 成 さ れる聴感重み フ ィ ル タ で合成す る こ と に よ り、 合成べ ク ト ル V 1 < 1 ) を生'威す る。
-. 位相 シ フ ト.画路 5 0 3 は、 こ の合成ベ ク ト ル V 1 tい を 密度 ノ タ ー ン情報 κに基づいて所定のサ ン プル数だ け遅延さ せて 位相の異な る 合成ベ ク ト ル V 2(い, V 3< , ···, V j < 1 , を 作成 し、 内積計算回路 5 0 4 お よ びパ ワ ー計算回路 5 0 5 へ 出 力 する。 コ ー ド ブ ッ ク 5 0 2 は適応密度パ ルス の振幅情 報 を格納し、 イ ン デッ ク ス i に対 し て予め定め ら れ た コ ー ド ク ト ル C t "が i き 出 し可能な メ モ リ 回路ま た はべ ク ト ル発 生簡路で構成 さ れ る。 内積計算回路 5 0 4 は、 第 2 2 図の減 、算回路 3 0 8 から の差信号 V と、 合成ベ ク ト ル V j (い と の 内 積値 A j ) を 求め、 イ ン デ ッ ク ス · 位相選択回路 5 0 6 へ 出 力 す る。 ノ ヮ ー計算回路 5 0 5 は、 合成ベ ク ト ル V jい)のパ ヮ 一 B j (i) を 求め、 イ ン デ ッ ク ス · 位相選択回路 3 0 6 へ 出 力 す る。
イ ン デ ッ ク ス · 位相選択回路 3 0 6 で は、 内 積値 A j (i) と パ ワ ー B jい) を 用 いて、 次式の評価値
{ A j { 1 > } 2 / B j < 1 > … (53)
が最も 大 き く な る よ う な位相 J と イ ン デ ッ ク ス I を 位相候補 j と イ ン デ ッ ク ス 候補 i の中 か ら選択 し、 対応す る 内積値 A J"> と ノ S ヮ ー B J">の組 を ゲ イ ン符号化回路 5 0 7 へ 出 力 す る。 ま た、 イ ン デ ッ ク ス · 位相選択回路 5 0 6 は さ ら に位 相 J の情報 を 短期駆動信号生成回路 5 0 8 お よ び第 2 2 図の マ ルチ プ レ ク サ 3 1 5 へ 出 力 し、 イ ン デ ッ ク ス I の情報 を コ ー ド ブ ッ ク 5 0 2 お よ び第 2 2 図の マ ル チ プ レ ク サ 3 1 5 へ 出 力す る。 ―
ゲイ ン符号化回路 5 0 7 で は、 イ ンデ ッ ク ス · 位相選択回 路 5 0 6 か ら の 内積値 A J( I > と ノ ヮ ー B J( I > と の比
A Jい〉ノ B J(I } … (54)
を 所定 の方法で符号化 し て、 そ のゲイ ン情報 G を 短期駆動信 号生成回路 5 0 8 お よ び第 2 2 図の マ ル チ プ レ ク サ 3 1 5 へ 出 力す る。
上記 (53) , (54)式 は、 例 え ば I.M. Trancoso氏 ら に よ る
Interna ional Conierence on Acoustic, Speech and Signal Processing の論文 " EFFICIENT PROCEDURES FOR FINDING THE OPTIMUM INNOVATION IN STOCHATIC CODERS" (文献 4 ) 1
に よ っ て提案さ れ たも の を 用 レヽ る こ と がで き る。
短期駆動信号生成回路 5 0 8 は、 密度パ タ ー ン情報 K、 ゲ イ ン情報 G、 位相情報 J お よ びイ ン デ ッ ク ス I に対応す る コ ー ドベ ク ト ル C ( D を 入 力 と し、 K お よ び C " ) を 用 いて上記 合成べ ク ト ル生成回路 5 0 1 での方法 と 同様の 方法で密度情 報 を持つパル ス列 を 作成 し、 そのパ ルス振幅 に ゲイ ン情報 G に対応す る値を乗 じ、 位相情報 J に基づ き所定 のサ ン プル数 だ けパ ルス列 を遅延す る こ と に よ り、 短期駆動信号« y を 生成 す る。 こ の短期駆動信号 y は、 聴感重み フ ィ ル タ 5 0 9 お よ び第 2 2 図の駆動信号保持回路 3 1 0 へ 出 力 さ れる。 聴感重 み フ ィ ル タ 5 0 9 は第 2 2 図の聴感重み フ ィ ル タ 3 0 5 と 同 様の特性 を持つ フ ィ ル タ で あ り、 予測パ ラ メ ー タ P を基 に し て作 ら 、 短期駆勤信号 y を 入力 と し て差信号 Vの量子化出 力 V を 第 2 2 図の加算回路 3 1 2 へ 出 力 す る。
第 2 2 図 に説明 を戻す と、 駆動信号保持回路 3 1 0 は長期 ベ ク ト ル量子化回路 3 0 9 よ り 出力 さ れ る 長期駆動信号 t お よ び短期べク ト ル量子化回路 3 1 1 よ り 出 力 さ れる 短期駆動 信号 y を 入力 と し、 駆動信号 e xを サブフ レー ム単位で長期べ ク ト ル量子化回路 3 0 9 へ 出 力す る。 具体的に は、 例え ば t と y を サブフ レー ム単位でサ ン プル毎 に加算 し た も の を 駆動 信号 e Xと すればよ い。 現サブフ レ ームの駆動信号 e Xは、 次 の サ ブ フ レーム に お いて過去 の駆動信号 と し て 長期 べ ク ト ル 量子化回路 3 0 9 に お い て使用 で き る よ う に、 駆動信号保持 回路 3 3 0 内 のノ ッ フ ァ メ モ リ に保持 さ れ る。
加算回路 3 レ 2 は、 サ ブフ レ ーム単位で量子化出 力 u ( " お よ び ( と、 現サ ブフ レ ー ム で作成 さ れた過去の影響信号 f と の和信号 X を求め、 影響信号作成回路 3 0 7 へ出 力す る。
以上の よ う に し て求め ら れた各パ ラ メ ー タ P, β, Τ, G, I, J, Kの情報がマ ルチ プ レ ク サ 3 1 5 に よ り 多 重化 さ れ、 伝送符号 と し て 出 力端子 3 1 6 よ り 伝送 さ れる。
次に、 第 2 2 図の符号化装置か ら 伝送 さ れた符号 を 復号す る 第 2 3 図の復号化装置につ いて説明す る。
第 2 3 図 に お い て、 入力端子 4 0 0 に は伝送 さ れ た符号が 入 力 さ れる。 デマ ルチ プ レ ク サ 4 0 1 は こ の入 力符号 を ま ず 予測パ ラ メ ー タ、 密度パ タ ー ン情報 Κ、 ザ イ ン β、 ゲイ ン G、 イ ン デ ッ ク ス !、 イ ン デ ッ ク ス I お よ び位相情報 J の符号 に 分離す る。 復号化回路 4 0 2 〜 4 0 7 は、 それぞれ密度パ タ ー ン情報 K、 ゲイ ン G、 位相 J、 イ ン デ ッ ク ス I、 ゲイ ン /5 お よ び イ ン デ ッ ク ス T の符号 を 復号 し、 駆動信号生成回路 4 0 9 へ 出力す る。 他の復号化回路 4 0 8 は、 符号化 さ れた予 測パ ラ メ ー タ を 復号 し、 合成 フ ィ ル タ 4 1 0 へ 出力 す る。 駆 動信号生成回路 4 0 9 は、 復号 さ れた各パ ラ メ ー タ を 入力 と し、 密度パ タ ー ン情報 K に 基 づ い て サ ブ フ レ ー ム単位で密度 の異な る駆動信号 を 生成す る。
駆動信号生成回路 4 0 9 は、 具体的 に は例え ば第 2 5 図 に 示す よ う に構成さ れる。 第 2 5 図 に お い て、 コ ー ド ブ ッ ク 6 0 0 は符号化装置内の第 2 4 図 に示す コ ー ド ブ ッ ク 5 0 2 と 同 一機能 を 有す る も ので あ り、 イ ン デ ッ ク ス I に対応す る コ ー ドベ ク ト ル C (I)を短期駆動信号生成回路 6 0 1 へ tB力 す る。 短期駆動信号生成回路 6 0 1 は、 符号化装置内 の第 2 4 図 に }
示す短期駆動信号生成回路 3 0 8 と 同一機能を 有す る も の で あ り、 密度パ タ ー ン情報 K、 位相情報 J お よ びゲイ ン G を 入 力 と し、 短期駆動信号 y を 加算回路 6 0 6 へ出 力す る。 加算 回路 6 0 6 ( 短期駆動信号 y と 長期駆動信号生成回路 6 0 2 で生成 さ れた長期駆動信号 t と の和信号、 す なわ ち駆動信 号 e xを 駆動信号ノく ヅ フ ァ 6 0 3 お よ び第 2 3 図の合成 フ ィ ル タ 4 1 0 へ 出 力す る。
駆働信号ノ ッ フ ァ 6 0 3 は、 加算回路 6 0 6 か ら 出力 さ れ る 駆動 #号を 現在か ら所定のサ ン プル数だけ過去の も の ま で 保持 し、 イ ン デッ ク ス T が入力 さ れる と T サ ン プル過去の駆 動信号か ら順 にサ ブフ レ ー ム長 に相当 す る サン プル数だ け 出 ' 力す る構成と な っ て い る。 長期駆動信号生成回路 6 0 2 は、 イ ン デ ッ ク ス T に基づき駆動信号バ ッ フ ァ 6 0 3 よ り 出 力 さ れ る信号を 入力 と し、 こ の入 力信号 に ゲ イ ン を乗 じ る と 共 に、 T 會ン プルの周期で繰 り 返す長期駆動信号 を 生成 し、 加 算回路 6 0 6 へサ ブフ レ ー ム単位で 出力す る。
, 第 2 3 囱に説明 を戻す と、 合成フ ィ ル タ 4 1 0 は符号化装 - :置内 の第 2 . 2 図に示す予測フ ィ ル タ 3 0 4 と 逆の周 波数特性 を 持つ フ ィ ル タ で あ り、 駆動信号 と 予測パ ラ メ ー タ を 入力 と し て、 合成信号を 出力す る。
ポス ト フ ィ 'ル タ 4 1 1 は予測ノ ラ メ ー タ、 ゲ イ ン お よ び イ ンデ ッ ク ス T を 用 いて 合成 フ ィ ル タ 4 1 0 か ら 出 力 さ れ る 合成信号の ス ぺ ク ト ル を 主観的 に雑音が減少す る よ う に整形 て、 ノ ヅ フ ァ 4 1 2 へ 出 力 す る。 ポ ス ト フ ィ ル タ の具体的 な構成法に つ いて は例え ば前記文献 5 に記載さ れて い る よ う な 方法 を 用 い れば よ い。 ま た、 ポス ト フ ィ ル タ 4 1 1 を 用 い ず に直接合成 フ ィ ル タ 4 1 0 の 出力 を ノ ッ フ ァ 4 1 2 へ供給 す る構成 と し て も よ い。 ノく ッ フ ァ 4 1 2 は入力 さ れ る信号 を フ レ ー ム毎に結合 し、 合成音声信号 を 出 力端子 4 1 3 へ 出 力 す る。
上述の実施例で は駆動信号の密度パ タ ー ン選択 を 短期予測 残差信号のパ ワ ー に基づい て行 っ た 力 短期予測残差信号の 零交差数に基づい て行 う こ と も で き る。 こ の構成の第 1 0 実 施例の符号化装置 を 第 2 6 図 に示す。
第 2 6 図 に お い て、 零交差数計算回路 3 1 7 はサ ブフ レ ー ム単位で短期予測残差信号 r が 0 を 交差す る 回数を 力 ゥ ン ト し、 そ の値 を 密度パ タ ー ン選択回路 3 1 4 へ 出 力す る。 こ の 場合、 密度パ タ ー ン選択回路 3 1 4 はサ ブフ レ ー ム每の零交 差数の 大き さ に基づいて、 予め設定 さ れ た密度パ タ ー ン の 中 力、 ら 一つ のパ タ ー ン を 選択す る。
ま た、 密度パ タ ー ン選択 を 短期予測残差信号 に ピ ッ チ予測 を 適用 し て得 ら れ る ピ ッ チ予測残差信号 のパ ワ ー ま た は零交 差数に 基づい て行 う こ と も で き る。 第 2 7 図 に、 ピ ッ チ予測 残差信号のパ ワ ー に基づいて密度パ タ ー ン選択 を 行 う 第 1 1 実施例の符号化装置の ブ ロ ッ ク 図 を 示 し、 第 2 8 図 に ピ ッ チ 予測残差信号の零交差数 に基づいて密度パ タ ー ン選択を 行 う 第 1 2 実施例の符号化装置の ブ ロ ッ ク 図 を 示す。 第 2 7 図 お よ び第 2 8 図 は、 それぞれ第 2 2 図 お よ び第 2 6 図 に お け る パ ワ ー計算回路 3 1 3 お よ び零交差数計算回路 3 1 7 の前 に ピ ッ チ分析回路 3 2 1、 ピ ッ チ予測 フ ィ ル タ 3 2 2 を 配置 し た構成 と な っ て い る。 ピ ッ チ分析回路 3 2 1 は ピ ッ チ周期 と ピ ッ チ ゲイ ン を 計算す る 回路で あ り、 そ の計算結果 を ピ ッ チ 予測フ ィ ル タ 3 2 2 へ出 力 し、 ピ ッ チ予測フ ィ ル タ 3 2 2 は ピ ッ チ予測残差信号 を パ ワ ー計算回路 3 1 3 ま た は零交差数 計算回路 3 1 7 へ 出力す る。 ピ ッ チ周期 と ピ ッ チゲ イ ン は、 公知の方法、 例え ば 自 己相関法や共分散法で求め る ごと がで き る。 次に、 予測フ ィ ル タ や合成 フ ィ ル タ の一例と し て の極零予 測分析モ デル を説明 す る。 第 2 9 図 にそ の極零 モ デルの プ ロ ッ ク 図 を 示す, 第 2 9 図 に お いて、 音声信号 s (n)は端子 7 0 ュ に入力 さ れ、 極ノ ラ メ ー タ 推定回路 7 0 2 に 入力 さ れる。 極パ ラ メ ー タ の推定方法 と し て は、 い く つ か知 さ れて い る カ 例え ば前述 し た文献 2 ( 「ディ ジ タ ル音声処理 j 東海大学出 版会) に示 さ れる 自 己相閧法 を 用 い る こ と がで き る。 入力音 声信号 は、 次 に こ の極パ ラ メ ー タ 推定回路 7 0 2 で得 ら れた 極ノ ラ メ 一 タ を も つ全極形逆 フ ィ ル タ 3 に入力 さ れ る。 こ こ で は、 次式に従っ て予測残差信号 d (n)を 計算 し、 出 力す る。 d (n) = s (n) - i · s (n-i
i 2 a ) … (55)
=l
こ こ で、 s ( n )は入力信号系列、 a iは全極モ デルのパ ラ メ ー タ、 P は予測次数であ る。
次に、 高速 フー リ ヱ変換 ( F F T ) 回路 7 0 4 と 2 乗回路 7 0 5 に よ リ 残差镡号 d (n)のパ ワ ース ぺ ク ト ル を 求め る と 共 に、 ピ ッ チ分析処理回路 7.0 6 に よ り、 ピ ッ チ周期 の抽出 と 有声 Z無声の判定 を 行 う。 な お、 F F T 回路 7 0 4 の代 り に 離散フ ー リ エ 変換 ( D F T ) を 用 い る こ と も で き る。 ま た、 ピ ッ チ分析の方法 と し て は、 上記 し た文献 2 に 記載 さ れて い る 変形相関法 を用 い る こ と がで き る。
F F T 回路 7 0 4 と 2 乗回路 7 0 5 に よ っ て 求め ら れた残 差信号のパ ワ ース ぺ ク ト ル は ス ムー ジ ン グ回路 7 0 7 に入 力 さ れる。 ス ムージ ン グ回路 7 0 7 は、 ピ ッ チ分析処理回路 7 0 6 に よ り 得 ら れ た ピ ッ チ周期 と 有声 無声の状態 を ノ ラ メ ー タ と し てノ ワー ス ぺ ク ト ル を 平滑化す る。
ス ム 一 ジ ン グ回路 7 0 7 の詳細 を 第 3 0 図 に 示す。 こ の 回 路の時定数、 すな わち イ ン パ ル ス応答力 1 / e に な る サ ン プ ル数 T は
T = - 1 / 1 η ( α ) …(56)
と 表 さ れる。 こ の時定数 Τ を ピ ッ チ周期 の値に応 じ て適応的 に変化 さ せ る。 ピ ッ チ周期 を Τ ρ (サ ン プル) 、 サ ン プ リ ン グ周期数 f s (Hz), F F T 又 は D F T の次数 を N と すれば残 差信号のパ ワ ース ペ ク ト ル に現れる ピ ッ チ に よ る微細構造の 周 期 m (サ ン プル) は次式で記述す る こ と がで き る。
m = ( f s / T p ) · ( Ν / f s )
= N / T p … (57)
従っ て時定数 T を m に応 じ て適応的 に変化さ せる に は、 T = N Z T p に (56)式 を 代入 し、 α に つ い て解 き
a = l / e x p ( T p / N - L ) … (58)
と 定め れば よ い。 ただ し、 L は ス ム一ジ ン グを 行 う 微細構造 の数を 表すパ ラ メ ー タ で あ る。 ま た、 無音声の場合、 T p は 得 ら れ な い の で、 ピ ッ チ分析処理回路 7 0 6 が無声 と 判定 し :、 だ場合 に は、 T p を 予め適当 に定め た値 に設定す る。
- - さ ら に、 第 3 0 図に示 し た フ ィ ル タ に よ リ ノ ワ ー ス ぺ ク ト ルを 平滑化す る際、 フ ィ ル タ は零位相 と す る。 零位相 と す る に は、 例え ば、 ノ ワース ぺ ク ト ソレ を 前向 き と 後 向 き に各々、 フ ィ ル タ リ ン グし、 各々 得 ら れ る 出力 を 平均す れば よ レ、。 残 差信号 パ ワ ース ぺ ク ト ル を D (ncu o)、 前向 き に フ ィ ル タ リ ン グ し た場合のフ ィ ル タ 出 力 を (nw o) f、 後向 き に フ ィ ル タ リ ン グ し た場合の フ ィ ル タ 出 力 を D (nw o)bと お く と、 平滑化 は次の よ う に記述 さ れる。
^ (η ω o) f = (I- ) - D (ηω o) + a · . { (n- 1 ) ω o } - (59) - JD { (N-n) ω o)b = (1- a ) · D { (N-n+1) ω o)
+ a · D. { (N-n + 1) ω o} … (60) T7 (n ^» o) = (1/2) {ΤΓ (ηω o) f + TJ (ηω o)b}
' Cた し、 n = 0, 1, … N - 1 ) … (61)
. ω 0 = 2 ji / N 一 … (62) : 伹し、 D ( n ω 0)は平滑化 さ れたパ ワ ース ぺ ク ト ル で あ り、 Ν は F F Τ 又 は D F Τ の次数で あ る。
ス ム一ジ ン グ回路 7 0 7 に よ り 平滑化 さ れた ス ぺ ク ト ル は、 逆数回路 7 0 8 に よ っ て、 逆ス ペ ク ト ル に変換 さ れ る。 こ の 結 残差信号ス ペ ク ト ル の零点は極へ変換 さ れる。 逆ス ぺ ク ト ル は逆 F F T 処理回路 7 0 9 に よ り 逆 F F T が施 さ れ、 自 己相関系列へ と 変換 さ れ、 零予測パ ラ メ ー タ 推定 回路 7 1 0 へ入力 さ れ る。 零予測パ ラ メ 一 ダ推定回路 7 1 0 は、 入力 し た 自 己相関系
Μか ら、 自 己相関法を 用 いて零予測パ ラ メ ー タ を 求 め、 全零
- ' 形逆フ ィ ル タ 7 1 1 は、 全極形逆フ ィ ル タ の残差信号を 入力 と し、 零予測パ ラ メ ー タ 推定回路 7 1 0 に よ り 求め ら れた零 予測パ ラ メ ー タ を 用 いて予測 を 行い、 予測残差信号 e ( n )を 出 力 す る。 e ( n )は次式 に従い計算さ れる。 e 、 n ) = d ( n ) - 1 §=f e ( n - i ) ( 6 3 ) こ こ で、 b iは零予測パ ラ メ ー タ、 Q は零予測の次数で あ る。 以上の処理 に よ り、 音声信号の極零予測分析が行われる。 次 に実音声 に対す る 実験結果 を 示す。 成人の発声 し た 「雨」 に 対す る分析結果 を 第 3 1 図 に示す。 第 3 2 図 は平滑化 を 行 な わな い場合の ス ぺ ク ト ル波形で あ る。 こ れ ら の図か ら分力、 る よ う に、 平滑化 を 行わ な い場合に は、 極零モ デル の ス ぺ ク ト ルに偽の零点や強調 さ れた零点が現れ、 ス ぺ ク ト ルの近似 が悪 零ノ ラ メ ー タ の推定 を 誤る こ と 力 あ っ た。 し 力、 し、 ピ ッ チ周期 に応 じ て時定数 を 適応的 に変化 さ せ る フ ィ ル タ に よ り 残差信号のパ ワ ース ぺ ク ト ル を 周波数領域で平滑化 し、 そ の後、 逆ス ペ ク ト ルィ匕 し零ノ ラ メ ー タ を 抽出 す る こ と に よ リ、 ス ペ ク ト ル の微細構造 に影響 さ れず、 常 に ノ S ラ メ一タ カ 誤 り な く 抽出 で き る よ う に な っ た。
第 2 9 図 に示す ス ム ー ジ ン グ回路 7 0 7 と し て、 ノ ワ ー ス ベ ク ト ルの ピー ク を 検出 し、 検出 し た ピー ク 間 を 2 次曲線で 補間す る方法 に よ っ て も 行 う こ と がで き る。 具体的 に は、 3 点 の ピー ク を 通、る 2 次方程式の係数 を 求め、 2 点の ピー ク 間 を その 2 次曲線で補間す る。 こ の場合、 ピ ッ チ分析が要 ら な く な る の で演算量が少な く な る と い う 効果があ る。 第 2 9 図 に示す ス ムー ジ ン グ回路 7 0 7 は、 逆数回路 7 0 8 の次 に揷入す る こ と も で き、 こ の場合の ブロ ッ ク 図 を 第 3 3 図 に示す。
ま た、 周波数領域で行っ て い る第 2 9 図、 第 3 3 図の ス ム — ジ ン グは時間領域で行 う こ と も で き る。 残差信号 d (n)のパ ワ ー ス ベ ク ト ル の逆数 を D ' (no) o), (η = 0, 1, ··· Ν-1)、 第 3 0 図のデ ィ ジ タ ル フ ィ ル タ の イ ンパル ス応答 と 伝達関数を各々 h (n), Η (ηω ο)と お く と、 ス ム一 ジ ン グは次式で表 さ れ る よ う に周波数領域で の フ ィ ル タ リ ン グに よ っ て行 われ る。
ΤΤ (η ω ο) = ∑ (η ω 0 · h ( n - i ) (64) ω ο = 2 π / Ν …(65) こ こ で ΤΤ (ηω ο)は ス ム ー ジ ン グ さ れ たノ ワ ー ス ぺ ク ト ル で あ る。 ΤΤ (ηω o)と ϋ ' (ηω ο)の逆フ ー リ ヱ 変換 を 各々 " γ (η), Ύ ' ( n )と すれ ば、 フー リ エ変換の性質か ら、 式 (64)は時間領 域で次式の よ う に記述 さ れる。
Y ( n ) = 7 ' ( n ) · Η (ηω ο) … (66)
すな わち、 窓 H ( n ω 0 )を かけ る の と 等 し い。 こ の と き、 Η (ηω ο)を ラ グ ゥ ィ ン ド と 呼ぶ。 Η (ηω ο)は ピ ッ チ周期 に応 じ て適応的 に変化す る。
第 3 4 図 に、 ス ムージ ン グ を 時間領域で行う 場合の プ ロ ッ ク 図 を 示す。
ま た、 第 2 9 図, 第 3 3 図, 第 3 4 図の例で は、 周波数領 域で零点の極への変換 を 行っ て い る 力 こ れ を 時間領域で行 う こ と も で き る。 極予測の残差信号 d (n)の 自 己相関系列 を Ύ (n)、 そ の フー リ ェ変換で あ る ノ ワース ぺ ク ト ル を
D (no) o)と お く と、 D (no) o)と その逆数 D ' (n u o)の 間 に は次 の 関係 があ る。
D (η ω 0 ) · D,(η ω 0 ) = 1 - (67)
フー リ エ変換の性質か ら、 上式は時間領域で 次の よ う に表 さ れる。
Ύ ( η ) = ¾ η γ ( i ) · γ ' (n-i ) = δ (η-ηο )
ι=0
(た だ し、 ηο= 0 ) … (68) 自 己相関係数は γ (0)に つ い て対称で あ る の で、 (68)式 は行 列 の形 で次の よ う に書 く こ と 力 で き る。
Ύ (0) γ (1) Ύ (Ν-1)Ί 「7 ' (0)
Ύ (1) Τ (0) γ (1) γ (Ν-2)| |γ , (1)
Ύ (2) γ (1) γ (0) Ύ (Ν-3) I | γ ' (2) (69) し y (Ν-1) γ (Ν-2) ··· Ύ (0) J LT ' (Ν-1
Figure imgf000057_0001
Figure imgf000057_0002
こ の方程式は Levinsonァ ル ゴ リ ズ ム に よ り 再帰的 に解 く こ と がで き る。 こ の方法は例 え ば、 「 デ ィ ジ タ ル信号処理の理 論 1 基礎 · 制御」 ( コ ロ ナ社) (文献 5 ) に記載さ れて い る。
時間領域で零点の変換 と ス ム ージ ン グ を 行う 場合の ブ ロ ッ ク 図 を 第 3 5 図 と 第 3 6 図 に示す。 こ れ ら の図 に お いて逆た た み込 み回路 7 5 7, 7 6 7 【ま式 (69)を 計算す る こ と に よ り、 式 (68)を γ ' (η)に つ いて解 く も ので あ る。
尚、 第 3 6 図 に お いて、 逆 た た み込み 回路 7 6 7 にかえ て ラ グウ ィ ン ド 7 6 6 の 出 力 を、 F F T あ る い は D F T処理 し、 *
絶封値の. 2 乗逆数 ( 1 Z 1 - 1 2 ) を施 し、 逆 F F T あ る い は 逆. D F T-処理す る 方法も あ る。 こ の場合、 演算量が逆た だみ 込み に よ る も の よ り さ ら に少 な く な る と い う 効果があ る。
こ の よ う に、 全極モ デルの残差信号のパ ワー ス ぺ ク ト ル又 i . そ のノ ヮ一ス ベ ク ト ルの逆数を 平滑化 し、 平滑化 さ れた パ ワースぺ ク ト ルの逆数か ら 逆フー リ エ 変換に よ り 自 己相関 係数 を 求め、 求め た 自 己相関係数に全極モ デル の分析法 を 適 用 す る こ と に よ り 零点のパ ラ メ ータ を 抽 出 し、 平滑化の度合 い は ピ ツ チ周期の値に応 じ て適応的 に変化 さ せ る こ と に よ り、 発生者や音韻 に依 ら ず常 に ス ぺ ク ト ル の平滑化 を 良好に行 こ と がで き、 微細構造 に よ る 為の零点や強調 さ れ過ぎた零 点 を除去 T る こ と がで き る。 ま た、 平滑化 に用 い ら れる フ ィ ル タ を 零 '相 と す る こ と に よ り、 フ ィ ル タ の位相特性の た め ス ぺ ク ト ル の零点がずれる 問題 を 防止で き、 音声の ス ぺ ク ト ル を 良好に近似す る極零モ デル を得る こ と がで き る。
産業上の利用 可能性
以上説明 し た よ う に、 こ の発明 に よ れば、 駆動信号のパ ル ス 間隔 を童要 情報又は多 く の情報が含 ま れる サ ブ フ レーム で は密 に、 そ う で な いサ ブフ レ ー ム で は粗 く と レヽ う よ う に サ ブフ レ —ム ごと に変え る こ と がで き る ので合成信号の品質 を 向上 さ せる効果があ る。

Claims

「一 90/13112 ' PCT/JP90/00199 請 求 の 範 囲
( 1 ) 駆動信号に よ り 合成フ ィ ル タ を 駆動 し、 合成信号 を 得る 音声符号化装置に お い て、 前記駆動信号の フ レーム を 複数の等長 ま た は不等長のサ ブフ レ ー ム に分割 し、 駆動信号 のパ ル ス間隔が予測残差信号のパ ワ ー に応 じ て サ ブ フ レ ー ム で異な る等間隔の パル ス 列 を も つ こ と を 特徴 と す る 音声符号 化装 So
( 2 ) 駆動信号の フ レ ー ム を 複数の等長 ま た は不等長の サ ブフ レ ー ム に分割 し、 駆動パ ル ス の間隔がサ ブフ レ ー ム単 位'で異 な る等間隔 の駆動パ ル ス列 と な る よ う 設定す る手段 と、 パ ル ス列の振幅 ま た は駆動パ ル ス 列の振幅 と 位相 の情報 を 予 め格納す る 記憶手段 と、
前記記憶手段に 格納 さ れて い る情報 を 基 に駆動信号 を 生成 す る手段 と、
前記駆動信号生成手段か ら 生成 さ れた駆動信号に よ り 駆動 さ れる 合成 フ ィ ル タ と、
前記合成 フ ィ ル タ か ら の合成信号 と 入力信号 と の誤差信号 のパ ワ ーが最小に な る よ う に前記記憶手段の情報 を 選択 し、 符号化す る手段 と を 具備す る 音声符号化装 ft
( 3 ) 駆動信号の フ レー ム を 複数の等長 ま た は不等長の サ ブフ レ ー ム に分割 し、 駆動パ ル ス の間隔がサ ブフ レ ー ム単 位で異 な る 等間隔 の駆動パ ル ス列 と な る よ う 設定す る手段 と、 パ ル ス列の振幅 ま た は駆動パ ル ス列 の振幅 と 位相 の情報 を 予め格納す る 記憶手段 と、 前記記億手段に格納 さ れて い る情報 を 基に駆動信号を生成 す る手段と、
前記駆動信号生成手段か ら 生成 さ れた駆動信号に よ リ 駆動 さ れる 合成フ ィ ル タ と、
前記合成フ ィ ル タ か ら の合成信号 と 入力信号 と の誤差信号 を 聴感重み付けフ ィ ル タ を通 し て得 ら れる聴感重み付け誤差 信号のパ ワ ーが最小に な る よ う に前記記億手段の情報 を 選択 し、 符号化す る手段と を 具備す る音声符号化装氍
( 4 ) フ レームが複数の サ ブフ レ ー ム に分割 さ れ、 サ ブ フ レ ー ム単位でパ ル ス 間隔が可変の駆動パ ル ス 列か ら な る 駆 動信号 を生成す る 手段 と、
前記駆動信号に よ リ 駆動 さ れる 合成フ ィ ル タ と、
前記合成フ ィ ル タ の 出 力信号 と 入力音声信号 と の聴感重み 付 き誤差信号のパ ワ ーが最小 と な る よ う に、 前記駆動パ ル ス 列の振幅 ま た は振幅お よ び位相 を 決定す る手段 と、
前記入力音声信号に対す る 短期予測残差信号 に基づいて前 記駆動パ ル ス列の密度 を 決定す る手段 と を 具備す る 音声符号 化装
( 5 ) フ レームが複数のサブフ レ ー ム に分割さ れ、 サ ブ フ レ ー ム単位でパル ス 間隔が可変の駆動パ ル ス 列か ら な る 駆 動信号 を 生成す る 手段 と、
前記駆動信号に よ り 駆動 さ れる合成 フ ィ ル タ と、
前記合成 フ ィ ル タ の 出 力信号 と 入力音声信号 と の聴感重み 付き誤差信号のパ ワ ーが最小 と な る よ う に、 前記駆動パ ル ス 列の振幅 ま た 振幅お よ び位相 を 決定す る 手段 と、 目 tf 入力音声信号に対す る ピ ッ チ予測残差信号 に基づい て 前記駆動パ ル ス列 の密度 を 決定す る 手段 と を 具備す る 音声符 号化装 Mo
( 6 ) フ レ ー ムが複数のサ プフ レーム に分割 さ れ、 サ ブ フ レ ー ム単位でパ ル ス 間隔が可変の駆動パ ル ス 列か ら な る 駆 動信号 を 生成す る 手段 と、
目【J記駆動信号に よ り 駆動 さ れる 合成 フ ィ ル タ と、
目 U g己合成 フ ィ ル タ の 出 力信号 と 入力音声信号 と の聴感重み 付 き誤差信号のパ ヮ 一が最小 と な る よ う に、 前記駆動パ ル ス 列 の振幅 ま た は振幅お よ び位相 を 決定す る手段 と、
s己入力音声信号に対す る 短期予測残差信号 を ピ ッ チ予測 し て得 ら れる ピ ッ チ予測残差信号 に基づいて前記駆動パ ル ス 列 の密度 を 決定す る手段 と を 具備す る音声符号化装氍
PCT/JP1990/000199 1989-04-25 1990-02-20 Voice encoder WO1990013112A1 (en)

Priority Applications (2)

Application Number Priority Date Filing Date Title
DE69029120T DE69029120T2 (de) 1989-04-25 1990-02-20 Stimmenkodierer
EP90903217A EP0422232B1 (en) 1989-04-25 1990-02-20 Voice encoder

Applications Claiming Priority (4)

Application Number Priority Date Filing Date Title
JP1103398A JP3017747B2 (ja) 1989-04-25 1989-04-25 音声符号化装置
JP1/103398 1989-04-25
JP2583890 1990-02-05
JP2/25838 1990-02-05

Publications (1)

Publication Number Publication Date
WO1990013112A1 true WO1990013112A1 (en) 1990-11-01

Family

ID=26363533

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/JP1990/000199 WO1990013112A1 (en) 1989-04-25 1990-02-20 Voice encoder

Country Status (4)

Country Link
US (2) US5265167A (ja)
EP (1) EP0422232B1 (ja)
DE (1) DE69029120T2 (ja)
WO (1) WO1990013112A1 (ja)

Families Citing this family (67)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6006174A (en) 1990-10-03 1999-12-21 Interdigital Technology Coporation Multiple impulse excitation speech encoder and decoder
US5630011A (en) * 1990-12-05 1997-05-13 Digital Voice Systems, Inc. Quantization of harmonic amplitudes representing speech
FI95085C (fi) * 1992-05-11 1995-12-11 Nokia Mobile Phones Ltd Menetelmä puhesignaalin digitaaliseksi koodaamiseksi sekä puhekooderi menetelmän suorittamiseksi
FI95086C (fi) * 1992-11-26 1995-12-11 Nokia Mobile Phones Ltd Menetelmä puhesignaalin tehokkaaksi koodaamiseksi
US5517511A (en) * 1992-11-30 1996-05-14 Digital Voice Systems, Inc. Digital transmission of acoustic signals over a noisy communication channel
IT1257431B (it) * 1992-12-04 1996-01-16 Sip Procedimento e dispositivo per la quantizzazione dei guadagni dell'eccitazione in codificatori della voce basati su tecniche di analisi per sintesi
FI96248C (fi) * 1993-05-06 1996-05-27 Nokia Mobile Phones Ltd Menetelmä pitkän aikavälin synteesisuodattimen toteuttamiseksi sekä synteesisuodatin puhekoodereihin
DE4315319C2 (de) * 1993-05-07 2002-11-14 Bosch Gmbh Robert Verfahren zur Aufbereitung von Daten, insbesondere von codierten Sprachsignalparametern
JP2616549B2 (ja) * 1993-12-10 1997-06-04 日本電気株式会社 音声復号装置
DE69426860T2 (de) * 1993-12-10 2001-07-19 Nec Corp Sprachcodierer und Verfahren zum Suchen von Codebüchern
US5715365A (en) * 1994-04-04 1998-02-03 Digital Voice Systems, Inc. Estimation of excitation parameters
US5568588A (en) * 1994-04-29 1996-10-22 Audiocodes Ltd. Multi-pulse analysis speech processing System and method
GB9419388D0 (en) * 1994-09-26 1994-11-09 Canon Kk Speech analysis
FR2729245B1 (fr) * 1995-01-06 1997-04-11 Lamblin Claude Procede de codage de parole a prediction lineaire et excitation par codes algebriques
AU696092B2 (en) * 1995-01-12 1998-09-03 Digital Voice Systems, Inc. Estimation of excitation parameters
US5754974A (en) * 1995-02-22 1998-05-19 Digital Voice Systems, Inc Spectral magnitude representation for multi-band excitation speech coders
US5701390A (en) * 1995-02-22 1997-12-23 Digital Voice Systems, Inc. Synthesis of MBE-based coded speech using regenerated phase information
FR2734389B1 (fr) * 1995-05-17 1997-07-18 Proust Stephane Procede d'adaptation du niveau de masquage du bruit dans un codeur de parole a analyse par synthese utilisant un filtre de ponderation perceptuelle a court terme
US6393391B1 (en) * 1998-04-15 2002-05-21 Nec Corporation Speech coder for high quality at low bit rates
US6240384B1 (en) * 1995-12-04 2001-05-29 Kabushiki Kaisha Toshiba Speech synthesis method
TW317051B (ja) * 1996-02-15 1997-10-01 Philips Electronics Nv
US5819224A (en) * 1996-04-01 1998-10-06 The Victoria University Of Manchester Split matrix quantization
JP3094908B2 (ja) * 1996-04-17 2000-10-03 日本電気株式会社 音声符号化装置
US5708757A (en) * 1996-04-22 1998-01-13 France Telecom Method of determining parameters of a pitch synthesis filter in a speech coder, and speech coder implementing such method
KR100389895B1 (ko) * 1996-05-25 2003-11-28 삼성전자주식회사 음성 부호화 및 복호화방법 및 그 장치
CN1163870C (zh) * 1996-08-02 2004-08-25 松下电器产业株式会社 声音编码装置和方法,声音译码装置,以及声音译码方法
DE19641619C1 (de) * 1996-10-09 1997-06-26 Nokia Mobile Phones Ltd Verfahren zur Synthese eines Rahmens eines Sprachsignals
DE69721595T2 (de) * 1996-11-07 2003-11-27 Matsushita Electric Ind Co Ltd Verfahren zur Erzeugung eines Vektorquantisierungs-Codebuchs
FI964975A (fi) * 1996-12-12 1998-06-13 Nokia Mobile Phones Ltd Menetelmä ja laite puheen koodaamiseksi
US6161089A (en) * 1997-03-14 2000-12-12 Digital Voice Systems, Inc. Multi-subframe quantization of spectral parameters
US6131084A (en) * 1997-03-14 2000-10-10 Digital Voice Systems, Inc. Dual subframe quantization of spectral magnitudes
FR2762464B1 (fr) * 1997-04-16 1999-06-25 France Telecom Procede et dispositif de codage d'un signal audiofrequence par analyse lpc "avant" et "arriere"
US6128417A (en) * 1997-06-09 2000-10-03 Ausbeck, Jr.; Paul J. Image partition moment operators
US6199037B1 (en) 1997-12-04 2001-03-06 Digital Voice Systems, Inc. Joint quantization of speech subframe voicing metrics and fundamental frequencies
JP3166697B2 (ja) * 1998-01-14 2001-05-14 日本電気株式会社 音声符号化・復号装置及びシステム
SE519563C2 (sv) * 1998-09-16 2003-03-11 Ericsson Telefon Ab L M Förfarande och kodare för linjär prediktiv analys-genom- synteskodning
US6381330B1 (en) * 1998-12-22 2002-04-30 Agere Systems Guardian Corp. False tone detect suppression using multiple frame sweeping harmonic analysis
FI116992B (fi) * 1999-07-05 2006-04-28 Nokia Corp Menetelmät, järjestelmä ja laitteet audiosignaalin koodauksen ja siirron tehostamiseksi
US6397175B1 (en) * 1999-07-19 2002-05-28 Qualcomm Incorporated Method and apparatus for subsampling phase spectrum information
US6377916B1 (en) 1999-11-29 2002-04-23 Digital Voice Systems, Inc. Multiband harmonic transform coder
AU2547201A (en) * 2000-01-11 2001-07-24 Matsushita Electric Industrial Co., Ltd. Multi-mode voice encoding device and decoding device
US6760276B1 (en) * 2000-02-11 2004-07-06 Gerald S. Karr Acoustic signaling system
US7136810B2 (en) * 2000-05-22 2006-11-14 Texas Instruments Incorporated Wideband speech coding system and method
US7330814B2 (en) * 2000-05-22 2008-02-12 Texas Instruments Incorporated Wideband speech coding with modulated noise highband excitation system and method
US7133823B2 (en) * 2000-09-15 2006-11-07 Mindspeed Technologies, Inc. System for an adaptive excitation pattern for speech coding
JP3469567B2 (ja) * 2001-09-03 2003-11-25 三菱電機株式会社 音響符号化装置、音響復号化装置、音響符号化方法及び音響復号化方法
US6662154B2 (en) * 2001-12-12 2003-12-09 Motorola, Inc. Method and system for information signal coding using combinatorial and huffman codes
US6934677B2 (en) 2001-12-14 2005-08-23 Microsoft Corporation Quantization matrices based on critical band pattern information for digital audio wherein quantization bands differ from critical bands
US7240001B2 (en) * 2001-12-14 2007-07-03 Microsoft Corporation Quality improvement techniques in an audio encoder
US20030135374A1 (en) * 2002-01-16 2003-07-17 Hardwick John C. Speech synthesizer
JP4676140B2 (ja) * 2002-09-04 2011-04-27 マイクロソフト コーポレーション オーディオの量子化および逆量子化
US7299190B2 (en) * 2002-09-04 2007-11-20 Microsoft Corporation Quantization and inverse quantization for audio
US7502743B2 (en) * 2002-09-04 2009-03-10 Microsoft Corporation Multi-channel audio encoding and decoding with multi-channel transform selection
US20040064308A1 (en) * 2002-09-30 2004-04-01 Intel Corporation Method and apparatus for speech packet loss recovery
US20040176950A1 (en) * 2003-03-04 2004-09-09 Docomo Communications Laboratories Usa, Inc. Methods and apparatuses for variable dimension vector quantization
US20040208169A1 (en) * 2003-04-18 2004-10-21 Reznik Yuriy A. Digital audio signal compression method and apparatus
US7742926B2 (en) 2003-04-18 2010-06-22 Realnetworks, Inc. Digital audio signal compression method and apparatus
US20050065787A1 (en) * 2003-09-23 2005-03-24 Jacek Stachurski Hybrid speech coding and system
CN1886783A (zh) * 2003-12-01 2006-12-27 皇家飞利浦电子股份有限公司 音频编码
JP4789430B2 (ja) * 2004-06-25 2011-10-12 パナソニック株式会社 音声符号化装置、音声復号化装置、およびこれらの方法
US7539612B2 (en) * 2005-07-15 2009-05-26 Microsoft Corporation Coding and decoding scale factor information
US9830920B2 (en) 2012-08-19 2017-11-28 The Regents Of The University Of California Method and apparatus for polyphonic audio signal prediction in coding and networking systems
US9406307B2 (en) * 2012-08-19 2016-08-02 The Regents Of The University Of California Method and apparatus for polyphonic audio signal prediction in coding and networking systems
PT2904612T (pt) 2012-10-05 2018-12-17 Fraunhofer Ges Forschung Um aparelho para codificar um sinal de discurso que emprega acelp no domínio de autocorrelação
EP2980799A1 (en) 2014-07-28 2016-02-03 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Apparatus and method for processing an audio signal using a harmonic post-filter
US10847170B2 (en) 2015-06-18 2020-11-24 Qualcomm Incorporated Device and method for generating a high-band signal from non-linearly processed sub-ranges
US9837089B2 (en) * 2015-06-18 2017-12-05 Qualcomm Incorporated High-band signal generation

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS61220000A (ja) * 1985-03-22 1986-09-30 フィリップス エレクトロニクス ネムローゼ フェンノートシャップ マルチパルス励起線形予測符号器
JPH06119000A (ja) * 1992-10-05 1994-04-28 Sharp Corp 音声合成lsi

Family Cites Families (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
NL8302985A (nl) * 1983-08-26 1985-03-18 Philips Nv Multipulse excitatie lineair predictieve spraakcodeerder.
JPS60116000A (ja) * 1983-11-28 1985-06-22 ケイディディ株式会社 音声符号化装置
CA1223365A (en) * 1984-02-02 1987-06-23 Shigeru Ono Method and apparatus for speech coding
US4944013A (en) * 1985-04-03 1990-07-24 British Telecommunications Public Limited Company Multi-pulse speech coder
JPS62194296A (ja) * 1986-02-21 1987-08-26 株式会社日立製作所 音声符号化方式
GB8621932D0 (en) * 1986-09-11 1986-10-15 British Telecomm Speech coding
DE3783905T2 (de) * 1987-03-05 1993-08-19 Ibm Verfahren zur grundfrequenzbestimmung und sprachkodierer unter verwendung dieses verfahrens.

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS61220000A (ja) * 1985-03-22 1986-09-30 フィリップス エレクトロニクス ネムローゼ フェンノートシャップ マルチパルス励起線形予測符号器
JPH06119000A (ja) * 1992-10-05 1994-04-28 Sharp Corp 音声合成lsi

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
See also references of EP0422232A4 *

Also Published As

Publication number Publication date
US5265167A (en) 1993-11-23
DE69029120D1 (de) 1996-12-19
USRE36721E (en) 2000-05-30
EP0422232A4 (en) 1992-03-04
EP0422232B1 (en) 1996-11-13
EP0422232A1 (en) 1991-04-17
DE69029120T2 (de) 1997-04-30

Similar Documents

Publication Publication Date Title
WO1990013112A1 (en) Voice encoder
JP3134817B2 (ja) 音声符号化復号装置
JP4550289B2 (ja) Celp符号変換
US9418666B2 (en) Method and apparatus for encoding and decoding audio/speech signal
JP5978218B2 (ja) 低ビットレート低遅延の一般オーディオ信号の符号化
US7599833B2 (en) Apparatus and method for coding residual signals of audio signals into a frequency domain and apparatus and method for decoding the same
US7805314B2 (en) Method and apparatus to quantize/dequantize frequency amplitude data and method and apparatus to audio encode/decode using the method and apparatus to quantize/dequantize frequency amplitude data
JPH10187196A (ja) 低ビットレートピッチ遅れコーダ
JP3266178B2 (ja) 音声符号化装置
JP3582589B2 (ja) 音声符号化装置及び音声復号化装置
JP3063668B2 (ja) 音声符号化装置及び復号装置
JPH09319398A (ja) 信号符号化装置
EP1103953B1 (en) Method for concealing erased speech frames
JPH11504733A (ja) 聴覚モデルによる量子化を伴う予測残余信号の変形符号化による多段音声符号器
JP3417362B2 (ja) 音声信号復号方法及び音声信号符号化復号方法
JP3299099B2 (ja) 音声符号化装置
JP3319396B2 (ja) 音声符号化装置ならびに音声符号化復号化装置
KR0155798B1 (ko) 음성신호 부호화 및 복호화 방법
JP2004348120A (ja) 音声符号化装置、音声復号化装置及びこれらの方法
JP3490325B2 (ja) 音声信号符号化方法、復号方法およびその符号化器、復号器
JP2853170B2 (ja) 音声符号化復号化方式
JP2001142499A (ja) 音声符号化装置ならびに音声復号化装置
KR100682966B1 (ko) 주파수 크기데이터 양자화/역양자화 방법 및 장치와 이를이용한 오디오 부호화/복호화 방법 및 장치
JP2947788B1 (ja) 音声および音響信号の高速な符号化方法および装置および記録媒体
JP3192051B2 (ja) 音声符号化装置

Legal Events

Date Code Title Description
AK Designated states

Kind code of ref document: A1

Designated state(s): US

AL Designated countries for regional patents

Kind code of ref document: A1

Designated state(s): DE FR GB

WWE Wipo information: entry into national phase

Ref document number: 1990903217

Country of ref document: EP

WWP Wipo information: published in national office

Ref document number: 1990903217

Country of ref document: EP

WWG Wipo information: grant in national office

Ref document number: 1990903217

Country of ref document: EP