WO2000063878A1 - Codeur de parole, processeur de parole et procede de traitement de la parole - Google Patents

Codeur de parole, processeur de parole et procede de traitement de la parole Download PDF

Info

Publication number
WO2000063878A1
WO2000063878A1 PCT/JP1999/002089 JP9902089W WO0063878A1 WO 2000063878 A1 WO2000063878 A1 WO 2000063878A1 JP 9902089 W JP9902089 W JP 9902089W WO 0063878 A1 WO0063878 A1 WO 0063878A1
Authority
WO
WIPO (PCT)
Prior art keywords
speech
signal
filter
vector
audio
Prior art date
Application number
PCT/JP1999/002089
Other languages
English (en)
French (fr)
Inventor
Masanao Suzuki
Yasuji Ota
Yoshiteru Tsuchinaga
Original Assignee
Fujitsu Limited
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fujitsu Limited filed Critical Fujitsu Limited
Priority to EP99913723A priority Critical patent/EP1187337B1/en
Priority to PCT/JP1999/002089 priority patent/WO2000063878A1/ja
Priority to JP2000612922A priority patent/JP3905706B2/ja
Priority to DE69937907T priority patent/DE69937907T2/de
Publication of WO2000063878A1 publication Critical patent/WO2000063878A1/ja
Priority to US09/897,839 priority patent/US6470312B1/en

Links

Classifications

    • HELECTRICITY
    • H03ELECTRONIC CIRCUITRY
    • H03MCODING; DECODING; CODE CONVERSION IN GENERAL
    • H03M7/00Conversion of a code where information is represented by a given sequence or number of digits to a code where the same, similar or subset of information is represented by a different sequence or number of digits
    • H03M7/30Compression; Expansion; Suppression of unnecessary data, e.g. redundancy reduction
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/08Determination or coding of the excitation function; Determination or coding of the long-term prediction parameters

Definitions

  • the present invention relates to an audio encoding device, an audio processing device, and an audio processing method, and particularly to A-b-S (Analysis-by-Synthesis) at a low bit rate (specifically, 4 kb Zs or less).
  • Speech coding device that performs speech coding on the assumption that a speech generation model is used for speech signals that include multiple-cycle signals in a fixed-length section using type vector quantization.
  • Speech processor that performs speech analysis and synthesis assuming a speech generation model using S-type vector quantization
  • A— b Assumes a speech generation model using S-type vector quantization.
  • a voice processing method for performing voice analysis and synthesis a voice processing method for performing voice analysis and synthesis.
  • CELP Code Excited Linear Prediction: Code-Driven Linear Prediction
  • telephone band 0.3 to 3.4 kHz
  • a coding method is known, and is widely used in fields such as digital mobile communication and intra-company communication systems.
  • CELP transmits linear predictive (LPC) coefficients, which represent human vocal tract characteristics, and parameters, which represent an excitation signal (sound source information) consisting of pitch components and noise components of speech. .
  • LPC linear predictive
  • the human vocal tract is assumed to be an LPC synthesized filter H (z) expressed by equation (1), and the input (sound source signal) to the LPC synthesized filter is a pitch period component representing the periodicity of voice.
  • the input (sound source signal) to the LPC synthesized filter is a pitch period component representing the periodicity of voice.
  • random noise components Suppose you can.
  • the filter coefficient of the LPC synthesis filter, the pitch period component and the noise component of the excitation signal are extracted, and information is obtained by transmitting the quantization result (quantized index). Compression is achieved.
  • FIG. 18 is a diagram showing an encoding algorithm of CELP.
  • the input voice signal Sn is input to the LPC analysis means 21.
  • p is the Phil evening order.
  • p 10 to 12 for telephone band voice
  • p 16 to 20 for wideband voice.
  • the LPC filter coefficients are quantized by scalar quantization, vector quantization, or the like (a quantization unit is not shown), and then the quantized index is transmitted to the decoder side.
  • the excitation signal is quantized.
  • an adaptive codebook Ba storing past excitation signal sequences is prepared.
  • a noise codebook Bn storing various noise signal sequence patterns is prepared for quantization of the noise component.
  • vector quantization by A—b—s is performed using the codebooks B a and B n. That is, first, the multipliers 22 a and 22 b are used to calculate the values obtained by varying the gains of the code vectors stored in the respective codebooks.
  • the adder 23 adds the output values from the multipliers 22a and 22b, and the addition result Is input to the LPC composite filter 24 composed of the LPC filter coefficient.
  • the LPC synthesis filter 24 performs a filter process to obtain a reproduced signal S. Then, the arithmetic unit 26 obtains an error en between the input audio signal S n and the reproduction signal S n *.
  • the error power evaluation means 23 controls the switches SW a and SW b for all the patterns in the codebooks B a and B n, and performs the error evaluation to determine the code base that minimizes the error en.
  • the vector is determined as the optimal code vector.
  • the gain for the optimal code vector selected at that time is defined as the optimal gain. Then, the optimum code vector and the optimum gain are quantized (a quantization unit is not shown) to obtain a quantization index.
  • the quantization index of the LPC filter coefficient and the quantization index of the optimal code vector (actually, the “delay” described later when extracting the optimal vector from the adaptive codebook Ba)
  • the value, the quantization index obtained by quantizing the code vector of the random codebook Bn) and the quantization index of the optimal gain are transmitted to the decoder side.
  • the decoder side has the same codebooks Ba and Bn as the encoder side, and decodes LPC filter coefficients, optimal code vector, and optimal gain from transmission information transmitted from the encoder, and The audio signal is reproduced by the LPC synthesis filter as in.
  • CELP achieves speech compression by modeling the speech generation process and quantizing and transmitting the feature parameters of the model.
  • vocal tract information and sound sources are generated for each fixed length (frame) of 5 to L0 msec in CELP. Updating information. This allows With CELP, even if the bit rate is reduced to about 5 to 6 kb / s, coded speech without degradation can be obtained.
  • the frame length must be 10 msec or more in order to make the bit rate 4 kb / s or less.
  • one frame often contains input signals having a plurality of cycles, which leads to a problem that quality of coded speech is deteriorated.
  • the periodicity of the output signal from adaptive codebook Ba is limited to only a single frame component, and the expressiveness of the periodicity is weak. For this reason, when one frame of the input signal includes a plurality of periods, the periodicity cannot be represented with high accuracy, and the coding efficiency is degraded. Disclosure of the invention
  • Still another object of the present invention is to provide an audio processing method that performs optimal audio processing according to input audio and reproduces high-quality audio.
  • a speech encoding apparatus 10 that divides a speech signal Sn into sections of a fixed length and performs speech encoding on the assumption of a speech generation model.
  • the adaptive codebook Ba that stores the signal vector sequence of the past speech signal, and the signal vector stored at a position that is shifted from the starting point O of the adaptive codebook Ba by a certain delay L intervals.
  • Vector extracting means for extracting the neighboring vector stored in the vicinity of the signal vector And a high-order long-term prediction synthesis filter that generates a long-term prediction speech signal S na-1 by performing a long-term prediction analysis and synthesis on the periodicity of the audio signal Sn with respect to the signal vector and the neighboring vector.
  • a long-term predictive synthesis filter 12 and a filter coefficient calculating means 13 for calculating the fill coefficient of the line 2
  • a linear predictive synthesis filter 14a estimated by linear predictive analysis synthesis representing vocal tract characteristics, and a linear form are examples of the fill coefficient of the line.
  • a first auditory weighting filter 14b which is connected before or after the predictive synthesis filter 14a to perform weighting of auditory characteristics, and a second auditory weighting process that performs auditory weighting on the audio signal Sn Perceptually weighted fill filter 1 4 b— 1, and a perceptually weighted synthetic filter 14 that generates a reproduced encoded voice signal S na from the long-term predicted voice signal S na-1, and a perceptually weighted voice signal S n and the reproduced encoded audio signal S na
  • the speech encoding device 10
  • the adaptive codebook Ba stores a signal vector sequence of a past speech signal.
  • the vector extracting means 11 includes a signal vector stored at a position shifted by a fixed delay L interval from the starting point O of the adaptive codebook Ba, and a neighboring vector stored near the signal vector. Is extracted.
  • the higher-order long-term prediction synthesis filter 12 performs long-term prediction analysis and synthesis on the periodicity of the audio signal S n for the signal vector and the neighboring vector, and obtains the long-term prediction audio signal S na — Generates 1.
  • the filter coefficient calculating means 13 calculates the filter coefficient of the long-term prediction synthetic filter 12.
  • the auditory weighting synthesis filter is a linear prediction synthesis filter estimated by linear prediction analysis synthesis that represents the vocal tract characteristics.
  • a first auditory weighting filter that connects to the first or second stage of the evening prediction 14a and the linear prediction synthesis filter evening 14a to perform auditory characteristic weighting, and an auditory weighting process for the audio signal Sn
  • a second perceptual weighting filter for generating a reproduced encoded speech signal S na from the long-term predicted speech signal S na-1.
  • the error calculating means 15 calculates an error En between the perceptual weighted speech signal S n ′ and the reproduced encoded speech signal S na.
  • the minimum error detecting means 16 detects the minimum error from the errors repeatedly calculated by the error calculating means 15 by changing the delay L.
  • the optimum value transmitting means 17 transmits the optimum filter coefficient 3a, which is the filter coefficient when the minimum error is detected, and the optimum delay La, which is the delay when the minimum error is detected, as the optimum values. .
  • a speech processing apparatus 100 that performs speech analysis and synthesis assuming a speech generation model, a plurality of periods are not included when a speech signal is divided into processing sections of a fixed length.
  • the first speech encoding means 20 for encoding the speech signal and generating encoded information and the case where the speech signal is divided into processing sections of a fixed length and a plurality of periods are included,
  • An adaptive codebook that stores the signal vector sequence of the past speech signal, a signal vector that is stored at a position that is shifted from the start point of the adaptive codebook by a fixed delay interval, and a signal vector that is stored near the signal vector.
  • a vector extraction means for extracting the stored neighboring vectors and a long-term prediction analysis and synthesis relating to the periodicity of the audio signal are performed on the signal vectors and the neighboring vectors to obtain a long-term predicted audio signal.
  • High-order long-term prediction synthesis Evening, a fill coefficient coefficient calculating means for calculating the fill coefficient of the long-term predictive synthesis filter, a linear predictive synthetic filter estimated by linear predictive analysis / synthesis representing vocal tract characteristics, and a stage preceding or preceding the linear predictive synthetic filter.
  • a long-term predicted audio signal which is connected to the subsequent stage and is composed of a first auditory weighting filter that performs auditory characteristic weighting processing and a second auditory weighting filter that performs auditory weighting processing on the audio signal.
  • the minimum error detection means for detecting the minimum error, the optimal filter coefficient which is the filter coefficient when the minimum error is detected, and the optimal delay which is the delay when the minimum error is detected are set as the optimal values.
  • a speech encoding processor 1 comprising: an optimal value transmitting means for transmitting; and a second speech encoding means 10 including: a first speech decoding apparatus for decoding the encoded information to reproduce speech. And a second speech decoding means for decoding the optimum value and reproducing the speech, and a speech decoding processing device comprising: An apparatus is provided.
  • the first audio encoding means 20 encodes the audio signal when a plurality of periods are not included when the audio signal is divided into processing sections of a fixed length, and generates encoded information.
  • the first audio decoding means 120 decodes the encoded information to reproduce the audio.
  • the second speech decoding means 110 reproduces speech by decoding the optimum value.
  • an adaptive codebook that stores a signal vector sequence of past speech signals is generated, and a speech signal is generated. If the audio signal is divided into processing sections of a fixed length and multiple periods are not included, the audio signal is encoded to generate encoded information, and the audio signal is divided into processing sections of a fixed length. Is extracted, the signal vector stored at a position shifted by a certain delay interval from the start point of the adaptive codebook and the neighboring vector stored near the signal vector are extracted.
  • a long-term predictive analysis synthesis relating to the periodicity of the speech signal is performed using a high-order long-term predictive synthesis filter for the signal vector and the neighboring vector to generate a long-term predictive speech signal, Long-term forecast synthetic fill Evening fill Calculating a coefficient by linear predictive analysis and synthesis representing the vocal tract characteristics 7
  • an audio processing method characterized by transmitting an optimal delay, which is a delay when detecting, and an optimal value, decoding encoded information or an optimal value, and reproducing audio.
  • the audio signal is coded to generate coded information.
  • speech coding is performed using the high-order long-term prediction synthesis file estimated by long-term prediction analysis synthesis and the linear prediction synthesis file estimated by linear prediction analysis synthesis.
  • the optimal value is generated, and the decoding side decodes the encoded information and the optimal value.
  • FIG. 1 is a diagram illustrating the principle of a speech encoding apparatus according to the present invention.
  • FIG. 2 is a diagram for explaining the order of the LTP synthesis filter.
  • FIG. 3 is a diagram for explaining the order of the LTP synthesis filter.
  • Figure 4 is a flowchart showing the processing procedure for searching for the optimal LTP fill coefficient and optimal lag.
  • FIG. 5 is a diagram illustrating the principle of the audio processing device.
  • FIG. 6 is a diagram showing a configuration of the first exemplary embodiment.
  • FIG. 7 is a diagram showing an operation when the value of the lag is changed.
  • FIG. 8 is a diagram showing the state update of the adaptive codebook.
  • FIG. 9 is a diagram showing information transmitted by the speech encoding processing device.
  • FIG. 10 is a diagram showing the configuration of the second embodiment.
  • FIG. 11 is a diagram showing an example of the arrangement of poles when the filter is stable.
  • FIG. 12 is a diagram showing an example of the arrangement of poles when the filter is unstable.
  • FIG. 13 is a diagram showing a configuration of the third embodiment.
  • FIG. 14 is a diagram showing the configuration of the fourth embodiment.
  • FIG. 15 is a diagram showing the configuration of the speech decoding processing device.
  • FIG. 16 is a diagram showing the configuration of the speech decoding processing device.
  • FIG. 17 is a flowchart showing the processing procedure of the audio processing method.
  • FIG. 18 is a diagram showing an encoding algorithm of CELP. BEST MODE FOR CARRYING OUT THE INVENTION
  • FIG. 1 is a diagram illustrating the principle of a speech encoding apparatus according to the present invention.
  • Speech coding apparatus 10 is capable of converting speech signal S n into a fixed-length section (a frame when the bit rate is 4 kb Zs or less). Speech coding is performed assuming the generation model.
  • the adaptive codebook Ba stores a signal vector (code vector) sequence of the past speech signal Sn for each frame.
  • the vector extraction means 11 1 stores the signal vector stored at a position shifted by a fixed delay L from the starting point of the adaptive codebook Ba, and stored in the vicinity of the signal vector. Extract the neighborhood vector.
  • two neighboring vectors C L _, and C UI above and below the signal vector CL are extracted from the adaptive codebook Ba, but even if two or more are extracted, Good. Also, only the signal vector at the upper position of the signal vector CL may be extracted as a neighboring vector from the adaptive codebook Ba, or only the signal vector at the lower position may be extracted. May be extracted from the adaptive codebook Ba as a neighborhood vector.
  • the long-term predictive synthesis filter 12 with higher order performs long-term predictive analysis and synthesis (LTP: Long Term Prediction) on the periodicity of the speech signal S n for the extracted signal vector and the neighboring vector. To generate a long-term predicted speech signal Sna-1.
  • LTP Long Term Prediction
  • the filter coefficient calculating means 13 calculates the filter coefficient of the long-term prediction composite filter 12.
  • the auditory weighting synthesis filter 14 is composed of a linear prediction synthesis filter 14 a (hereinafter referred to as an LPC synthesis filter 14 a) estimated by linear prediction (LPC) analysis and synthesis representing vocal tract characteristics, and an LPC synthesis filter 1.
  • 4a which is connected to the front or back of 4a to perform weighting processing of the auditory characteristics, and is composed of a first perceptual weighting filter 14b and a long-term predicted voice signal Sna-1 Generate S na.
  • the second auditory weighting filter 1 4b-1 performs an auditory weighting process on the audio signal Sn.
  • the error calculating means 15 calculates an error En between the perceptual weighted voice signal S n ′ and the reproduced coded voice signal S na.
  • the minimum error detecting means 16 detects the minimum error from the errors repeatedly calculated by the error calculating means 15 by changing the delay L.
  • the optimum value transmitting means 17 transmits the optimum filter coefficient (optimum filter coefficient) 3 a which is a filter coefficient when the minimum error is detected and an optimum delay L a which is a delay when the minimum error is detected, as optimum values. .
  • the optimum value transmitting means 17 quantizes the optimal filter coefficient 3 a and transmits the quantized value.
  • the long-term prediction synthesis filter 12 will be described.
  • the long-term prediction composite filter 12 is called the LTP composite filter 12
  • the filter coefficient of the LTP composite filter 12 is called the LTP filter coefficient
  • the delay is called the lag.
  • Equation (2) is an equation showing the transfer function P (z) of the LTP synthesis filter 12.
  • FIG. 2 is a diagram for explaining the order of the LTP synthesis filter 12.
  • CL the left direction
  • J 2 the right direction
  • FIG. 3 is a diagram for explaining the order of the LTP synthesis filter 12. There is a signal base-vector CL to a position of the lag L, to the right direction and J 3.
  • the speech coding apparatus 10 obtains the LTP filter coefficient / 3i and the lag L so as to minimize the error evaluation equation of the equation (4).
  • X is the target signal vector (the vector of the input audio signal input when calculating the error)
  • H is the impulse response vector of the LPC synthesis filter 14a and Ct at the lag L position.
  • Equation (4) Equation (5)
  • Equation (6) is obtained by partially differentiating equation (5) by 3,.
  • a ' represents the transposed matrix of A.
  • equation (7) is obtained.
  • Equation (8) the L ⁇ ⁇ coefficient vector / 3 is obtained from equation (8).
  • R- 1 represents the inverse matrix of R.
  • FIG. 4 is a flowchart showing a processing procedure for searching for the optimal LTP fill coefficient / 3 a and the optimal lag La.
  • Equation (8) is solved from 11 'and, and the LTP fill coefficient coefficient vector 3 is obtained.
  • the search range of the lag L is arbitrary, but when the sampling frequency of the input signal is 8 kHz, the range of the lag L may be set to a range of 20 to 147.
  • the input to the LTP synthesis filter 12 is a vector from the adaptive codebook Ba, and any other vector may be used.
  • a white noise vector, a pulse vector, or a previously learned noise vector may be used.
  • the speech encoding device 10 of the present invention performs LTP synthesis and W 00
  • the audio signal transmission rate should be 4 to 16 kb / s, and audio encoding should be performed for frames with a short frame length of 5 to 10 Omsec or less.
  • the frame length becomes a long frame length of 10 msec or more, and this one frame may include a signal of multiple periods. Is high.
  • speech encoding apparatus 10 of the present invention when a signal of a plurality of cycles is included in one frame, not only signal vector from adaptive codebook Ba but also the vicinity of signal vector The neighboring vectors at the position of are also extracted from the adaptive codebook Ba, and these vectors are subjected to long-term prediction synthesis using the LTP filter 12, and then subjected to LTP synthesis processing to obtain speech data.
  • the coding was performed.
  • the periodicity of the voice can be expressed well, and the encoding accuracy can be improved.
  • Fig. 5 shows the principle of the speech processing device.
  • the audio processing device 100 and the audio encoding processing device 1 It is composed of an encryption processor 2.
  • the audio encoding processing device 1 includes first audio encoding means 20 and second audio encoding means 10.
  • the first audio encoding means 20 encodes the audio signal and generates encoded information when a plurality of periods are not included when the audio signal is divided into processing sections (frames) of a fixed length. .
  • the first speech encoding means 20 actually corresponds to CELP, a case where speech encoding processing is performed using the first speech encoding means 20 is hereinafter referred to as a CELP mode. .
  • the second audio encoding means 10 performs audio encoding when a plurality of periods are included when the audio signal is divided into processing sections (frames) of a fixed length.
  • the second speech encoding unit 10 corresponds to the speech encoding device 10 described above, and a detailed description thereof will be omitted. Note that the case where speech encoding processing is performed using the second speech encoding means 10 is hereinafter referred to as LTP mode.
  • the audio decoding device 2 includes a first audio decoding unit 120 and a second audio decoding unit 110.
  • the first audio decoding means 120 decodes the encoded information to reproduce the audio. That is, decoding processing corresponding to the case where the encoding side encodes in the CELP mode is performed.
  • the second speech decoding unit 110 decodes the optimum value generated by the second speech encoding unit 10 to reproduce the speech. That is, decoding processing corresponding to the case where the encoding side performs encoding in the LTP mode is performed.
  • the audio decoding processing device 2 will be described later with reference to FIGS.
  • FIG. 6 is a diagram showing a configuration of the first exemplary embodiment.
  • the speech coding apparatus 1a mainly includes a CELP (first speech coding means 20) shown in FIG. 18 and a speech coding apparatus shown in FIG. 10 (second speech coding means 10).
  • CELP first speech coding means 20
  • second speech coding means 10 second speech coding means 10.
  • the input audio signal X (n) is divided into frames of a fixed length, and the encoding process is performed in frame units. Let N be the frame length.
  • the LPC analyzing means 21, the LPC filtering coefficient quantizing means 19 a and the LPC filtering coefficient dequantizing means 19 b which are commonly used in the CELP mode and the LTP mode will be described.
  • the LPC filter coefficient quantization means 19a quantizes a i to obtain a quantization index Index Lpc.
  • the LPC filter coefficient inverse quantization means 19b inversely quantizes the quantization index Index Lpc to obtain an inverse quantization value aq ;
  • any one of the auditory weighting filters 14 b and 14 b-1 can be used.
  • the equation (10) can be used. ⁇ , ⁇ , ⁇ ⁇ ⁇ ⁇ ⁇ ⁇ ⁇ ⁇ ⁇ ⁇ ⁇ ⁇ . ⁇ .
  • the auditory weighting synthesis filter 14 is a subordinate connection of ⁇ ( ⁇ ) and W ( ⁇ ), and can be expressed as ⁇ ( ⁇ ) -W ( ⁇ ).
  • the gain quantization means 32 used in the C E L ⁇ mode quantizes the optimal gain determined in the search for the adaptive codebook Ba and the noise codebook Bn.
  • the quantization format is arbitrary, and is performed using scalar quantization, vector quantization, etc.
  • the coded information transmitting means 18 transmits coded information such as the optimum gain in the CELP mode to the speech decoding processing device 2 (described later with reference to FIG. 9).
  • the LTP mode is characterized in that an input signal is encoded by using a higher-order LTP composite filter and an LPC composite filter.
  • the LTP processing means 30 in the figure includes a vector extraction means 11, an LTP synthesis filter 12, and a filter coefficient calculation means 13.
  • the signal vector ( ⁇ ) corresponding to the lag L is extracted from the adaptive codebook Ba.
  • This C t and the impulse response h (n) of the auditory weighting synthesis filter 14 (n 0,..., I-
  • the CL value is input to the LTP synthesis filter 12 composed of ⁇ i to obtain a sound source signal (the long-term predicted speech signal Sna-1 described in FIG. 1), and this sound source signal is perceived as an auditory weighting synthesis filter. 14 to generate a reproduced speech vector (the reproduced encoded speech signal S na described in FIG. 1).
  • the error calculation control means 15a obtains a weighted square error E between the reproduced voice vector and the input voice signal from equation (4). (The error calculation control means 15a Calculate the error using the error evaluation formula for CELP mode).
  • the minimum error detecting means 16 repeats such a process for a predetermined lag range (for example, 20 ⁇ L1 47), and detects the minimum error that minimizes E.
  • the optimal value transmitting means 17 outputs the optimal lag La and the optimal LTP filter coefficient / 3 a at the time of calculating the minimum error to the speech decoding processing device 2.
  • the mode selection means 31 controls switching between the CELP mode and the LTP mode. For example, switching between the CELP mode and the LTP mode may be performed according to the periodicity of the input audio signal, and after performing the audio encoding in both the CELP mode and the LTP mode, each code output is performed. May be compared, and the mode with the higher coding quality may be selected.
  • the switch terminal c in the mode selection means 31 is connected to the terminal a when switching to the CELP mode, and the switch terminal c is connected to the terminal b when switching to the LTP mode.
  • a plurality of modes of three or more with two total modes may be prepared, and one of them may be set as the LTP mode. Note that when switching modes according to the periodicity of the input audio signal, The processing will be described later.
  • the state updating means 33 in the figure will be described later with reference to FIG.
  • both the CELP mode and the LTP mode are provided, and the mode is switched according to the input audio signal to perform the audio encoding.
  • the noise codebook Bn which has a low contribution to the periodicity of speech, is not used, and all the quantum codes that harm the noise codebook Bn in the CELP mode are used. And assigns the conversion bits to the LTP synthesis filter 12.
  • encoding processing specialized for the periodicity of the input signal can be performed.
  • sufficient coding capability can be exerted even for signals that cannot be conventionally encoded sufficiently, and signals that do not include a plurality of cycles in one frame can be exhibited.
  • the CELP mode it is possible to efficiently perform highly flexible encoding according to the input audio signal.
  • FIG. 7 is a diagram showing an operation when the value of the lag L is changed.
  • a signal (signal vector) having a frame length is extracted from a position shifted by a lag L from the starting point O of the adaptive codebook Ba.
  • step S10 The signal vector extracted in step S10 is subjected to LTP processing by the LTP processing means 30, and then input to the auditory weighting synthesis filter 14. You.
  • the error calculation control means 15a calculates an error between the output signal from the auditory weighting synthesis filter 14 and the input audio signal.
  • step S11 the processing from step S11 is repeated for all L to detect the minimum error.
  • the process of changing the lag L from L to L + 1 is the same for the random codebook Bn.
  • FIG. 8 is a diagram showing a state update of the adaptive codebook Ba.
  • the adaptive codebook Ba stores L max past sound source signals (signal vectors). N in the figure represents a frame length which is a unit of encoding.
  • the state updating means 33 discards the temporally oldest N samples in the adaptive codebook Ba, shifts the remaining signals to the left (toward the temporally oldest), and The obtained excitation signal (the linear combination of the adaptive codebook Ba output and the noise codebook Bn output) is copied to the part opened by the shift. Therefore, the latest excitation signal is always stored on the right side (newest in time) in adaptive codebook Ba.
  • FIG. 9 is a diagram showing information transmitted by the voice coding processing apparatus 1a.
  • Items in Table T include mode information, lag, noise codebook index, gain index, LPC fill coefficient index, and LTP fill coefficient There is a number index.
  • the mode information is information indicating whether the mode is the CELP mode or the LTP mode (MODE).
  • the lag information is information indicating the position of adaptive codebook Ba from start point ((L).
  • the random codebook index is an index obtained when the code vector extracted from the random codebook B n is quantized (Index cl).
  • the gain index is an index when the optimal gain is quantized (Index Gain).
  • the LPC fill coefficient index is an index when the LPC fill coefficient is quantized (Index Lpc).
  • the LTP filter coefficient index is an index when the LTP filter coefficient is quantized (Index L tp.
  • the coded information transmitting means 18 transmits the information shown in Table T in the CELP mode. Further, the optimum value transmitting means 17 transmits the information shown in Table T in the LTP mode.
  • FIG. 10 is a diagram showing the configuration of the second embodiment.
  • the speech encoding processing device 1b further includes a stability determination unit 41 with respect to the speech encoding processing unit 1a.
  • the stability determining means 41 determines the stability of the LTP composite filter 12 while searching for the optimal LTP filter coefficient / 3a and the optimal lag La in the LTP mode. Then, when it is determined to be unstable, the LTP filter coefficient and the lag L at that time are excluded from the candidates for selecting the optimum value.
  • the matrix R in equation (8) used to calculate the LTP filter coefficient is a covariance matrix.
  • the stability of the LTP composite filter 12 composed of the LTP filter coefficient obtained from (8) is not necessarily guaranteed.
  • the absolute value of the k-parameter (PARCOR coefficient) obtained from the LTP filter coefficient constituting the filter does not exceed 1.
  • the range of k-parameters in the case where the stability of the filter is not guaranteed is wider than that in the case where the filter is stable, and in this case, the quantization efficiency is reduced.
  • the order of the LTP synthesis filter 12 is increased in order to improve the quality of the reproduced sound, the probability of finding an unstable coefficient increases, and the quantization efficiency may be degraded. .
  • the LTP synthesis filter composed of the LTP filter coefficient obtained during the search for the optimum LTP filter coefficient / 3a and the optimum lag La is used.
  • the stability of (1) and (2) is determined, and if the filter is unstable, the LTP filter coefficient and the lag are excluded from the selection candidates.
  • i3 i is the L T P filter coefficient
  • p is the L T P order.
  • FIG. 11 is a diagram showing an example of the arrangement of poles when the filter is stable.
  • Fig. 12 is a diagram showing an example of pole placement when the fill is unstable. In each case, the vertical axis is Im ⁇ z, ⁇ and the horizontal axis is Re ⁇ z t ⁇ .
  • the stability determination means 41 determines the stability of the filter by the stability determination means 41, and when the stability is determined to be unstable, the filter coefficient and the lag of the LTP composite filter 12 are determined. We decided to exclude them from the selection. As a result, only stable parameters can be extracted.
  • Stability may be determined for the optimal optimal LTP fill coefficient / 3 a.
  • the LTP mode is not selected and the CELP mode is selected.
  • FIG. 13 is a diagram showing a configuration of the third embodiment.
  • the voice coding apparatus lc according to the third embodiment further includes a stability determination unit 41 and a stabilization processing unit 42 with respect to the voice coding processing unit 1a. 2 ⁇ stabilization processing means 42, when the stability determination means 41 determines the stability of the LTP synthesis filter 12 and determines that it is unstable, the LTP fill coefficient and lag L at that time are stabilized. It is to make it.
  • the stability of the LTP synthesis filter 12 is determined, and if unstable, the filter coefficient and the corresponding lag are removed from the candidates to obtain a stable filter coefficient. Was getting.
  • the LTP filter coefficient corresponding to each lag is determined during the search process, and the stability of the filter is determined in the same manner as in the second embodiment. If it is determined that is unstable, the configuration is such that the LTP synthesis filter 12 is stabilized to correct the LTP filter coefficient. If the LTP composite filter 12 is determined to be stable, the LTP composite coefficient is not corrected.
  • Any method can be used as a method of stabilizing the LTP synthesis filter 12.
  • the pole position on the z-plane is calculated from the filter coefficient, and the pole position is shifted inward on the unit circle.
  • a moving method (hereinafter, referred to as a polar moving method) can be used.
  • the polar movement method will be described.
  • equation (11) is solved in the same manner as described in the second embodiment, and the root z is obtained.
  • Re ⁇ zi ⁇ is the real part of zi
  • Im ⁇ z t ⁇ is the imaginary part of Z i.
  • the stability determination means 41 calculates the root z, and if the pole is in the unit circle, the filter is determined to be stable, and if even one pole is outside the unit circle, the It is determined that Phil is unstable.
  • the TP filter coefficient and the stabilization processing means 42 are input. If the LTP composite file 12 is stable, 3 is output as is) 3ia. If the filter is unstable, the processing of the following equation (12) is performed.
  • 3 ia is used as the LTP coefficient in the error evaluation during the search processing in the LTP mode.
  • 3 ia is used as the LTP coefficient in the error evaluation during the search processing in the LTP mode.
  • the LTP synthesis filter 12 is unstable, it is not necessary to exclude the LTP filter coefficient and lag from the search candidates, so by increasing the order of the LTP filter coefficient, the unstable filter coefficient is increased. Is found Even if the number increases, it is possible to prevent the encoded voice quality from deteriorating.
  • FIG. 14 is a diagram showing the configuration of the fourth embodiment.
  • the speech encoding processing device 1d according to the fourth embodiment further includes parameter / parameter conversion control means 50 for the speech encoding processing unit 1a.
  • the parameter-to-parameter conversion control means 50 includes a parameter-to-parameter conversion means 51, a parameter-to-parameter quantization means 52, a parameter-to-parameter inverse conversion means 53, and a parameter-to-parameter inverse quantization means 54.
  • the parameter-to-parameter conversion means 51 converts the output H i of the LPC analysis means 21 into parameter-to-parameter ki.
  • the parameter quantization unit 52 quantizes the parameter k, and generates Index Lpc.
  • the parameter overnight inverse transform means 53 inversely transforms Index Lpc to generate k Q i.
  • the parameter inverse quantization means 54 inversely quantizes k Q i to generate a q i.
  • the optimum value transmitting means 17 includes a parameter / parameter converting means 51a and a parameter / quantizing means 52a.
  • a parameter / parameter converting means 51a and a parameter / quantizing means 52a.
  • the peripheral portion of the parameter conversion control means 50 is shown, and other components are omitted because they are the same as those of the speech encoding device 1a.
  • the LTP synthesis filter 12 is an all-pole resonance circuit having a feedback path from the output to the input, the coefficient sensitivity is high. Therefore, if the quantization error is large when quantizing the LTP filter coefficients, the quantization error is large.
  • the LTP filter coefficient is received on the decoding side. Then, there is a possibility that the LTP synthesis filter 12 on the decoding side oscillates, or the distortion of the spectrum increases, thereby greatly deteriorating the reproduced voice quality.
  • the LTP filter coefficient is converted into another equivalent parameter and then quantized.
  • k parameter parameter PAR COR coefficient
  • LSP line spectrum pair
  • k-parameters are known as parameters equivalent to the LPC filter coefficients obtained by LPC analysis of the input signal.
  • the conversion formula to LPC coefficient is known.
  • LSP is a parameter equivalent to the LPC filter coefficient
  • a conversion equation from the LPC filter coefficient to LSP and a conversion equation from LSP to the LPC coefficient are known.
  • the LSP has better quantization characteristics than the LPC fill coefficient, so in normal CELP coding, the LPC fill coefficient is converted to k-parameter or LSP and then quantized. I have.
  • the above-mentioned relational expression between the LPC fill coefficient and the k parameter (or LSP) is also applied to the LTP fill coefficient.
  • the method of converting the LTP filter coefficient into the k parameter is also called a step-down process, and is represented by equations (14) and (15).
  • is the LTP fill coefficient and p is the fill order.
  • k parameters and k i are obtained.
  • the k parameter can be converted to LTP filter coefficients by the step-up process shown in equations (17) and (18).
  • the LTP filter coefficients are converted to k-parameters or equivalent parameters such as LSP, and then quantized. This makes it possible to achieve high-quality coded speech quality with a small number of quantization bits.
  • the mode selection means 31 determines the nature of the input voice, and selects the CELP mode or the LTP mode according to the result of the determination.
  • R CC (L) ⁇ x (nL) x (nL), (20)
  • L for L of Te to Baie ⁇ L 2, calculates a pitch prediction gain G (L), to determine the maximum value G (L) max of G (L).
  • G (L) max is compared with a predetermined threshold Th, and if G (L) max is larger than T, it is determined that the period is strong, and the LTP mode is selected.
  • G (L) fflax is smaller than Th, it is determined that the period is weak, and the CELP mode is selected.
  • the pitch prediction gain of the input speech signal is used as a parameter for mode determination, but other characteristic parameters may be used.
  • the mode may be determined based on a combination of a plurality of feature parameters.
  • the mode is determined by the mode selection unit 31. As a result, it is possible to select an optimal encoding mode according to the properties of the input audio signal, thereby improving the quality of the encoded audio. be able to.
  • FIG. 15 is a diagram showing the configuration of the speech decoding processing device.
  • the audio decoding processor 2a is a CELP This is a decoder for decoding audio from information output by the audio encoding processing device 1 composed of two modes, namely, a mode and an LTP mode.
  • the information shown in FIG. 9 is input to the audio decoding processing device 2a corresponding to each mode.
  • the LPC synthesis filter 103 is composed of and is used in both the CELP mode and the LTP mode.
  • the mode selection means 106 selects the CELP mode based on the mode information M ⁇ DE, the following decoding process is performed.
  • N is the frame length.
  • the gain index Index Gain is input to the gain inverse quantization means 105, and the adaptive codebook gain g e and the noise codebook gain g are supplied to the multipliers 107a and 107b. Each given.
  • the multiplier 107a is a code vector C extracted from the adaptive codebook Ba. (N) Gain g. Multiply by g. '(:. (N) is generated.
  • the multiplier 107 b multiplies the code vector ( ⁇ (n)) extracted from the random codebook B n by a gain to generate g, ⁇ C, (n).
  • the sound source signal y (n) is as shown in equation (23).
  • y (n) g o -C o (n) + g i -C i (n)
  • L max is the adaptive codebook size (the maximum value of the lag).
  • the LTP mode is selected according to the mode information
  • the following decoding processing is performed.
  • the quantization index Index Lpc is input to the LTP filter coefficient inverse quantization means 104, and the LTP composite filter coefficient 3i is output.
  • a reproduced signal s (n) is obtained by inputting ya (n) to the LPC synthesis filter 103. Also, the state of the adaptive codebook Ba is updated by feeding back the excitation signal ya (n) created in the current frame to the adaptive codebook Ba.
  • the method of feedback is arbitrary, but the same method as in the case of the CELP method described above can be used.
  • the audio decoding processing device 2a can reproduce (decode) high-quality audio from the information encoded from the audio encoding processing device 1.
  • FIG. 16 is a diagram showing a configuration of the speech decoding processing device.
  • the speech decoding processing device 2b has two modes, the CELP mode and the LTP mode, as described in the fourth embodiment, and sets the LTP synthesis filter coefficient to the k parameter or the LTP coefficient such as LSP.
  • This is a decoder for decoding audio from information encoded by the audio encoding processor 1d, which converts the parameters into equivalent parameters and then quantizes them.
  • the audio decoding processing device 2b is the same as the audio decoding processing device 2a except that the method of generating the LTP fill coefficient is the same as the audio decoding processing device 2a, and thus only the operation when the LTP mode is selected will be described. .
  • p is the order of the LTP synthesis filter 102.
  • the parameter-to-parameter conversion means 104b performs the conversion process by the step-up process of the equation (17) described in the fourth embodiment.
  • the LTP synthesis filter 102 is composed of lags L and 3. Next, the output (: (n) corresponding to the lag L is extracted from the adaptive codebook Ba, and C Q (n) is input to the LTP synthesis filter 102 to generate the excitation signal ya (n). Further, input ya (n) to the LPC synthesis filter 103 to obtain the reproduced signal s. Create (n).
  • the state of the adaptive codebook Ba is updated by feeding back the excitation signal ya (n) created in the current frame to the adaptive codebook Ba.
  • the method of feedback is arbitrary, and for example, the methods of equations (24) and (25) can be used.
  • the audio decoding processing device 2b can reproduce (decode) high-quality audio from the information encoded by the audio encoding processing device 1d.
  • Figure 17 is a flowchart showing the processing procedure of the audio processing method.
  • the audio signal is encoded to generate encoded information.
  • CS 24 Generates long-term predicted speech signals by performing long-term predictive analysis and synthesis on the periodicity of speech signals using high-order long-term predictive synthesis filters for signal vectors and neighboring vectors. I do.
  • the encoded information or the optimal value is decoded to reproduce the audio.
  • the audio processing apparatus 100 and the audio processing method according to the present invention provide an audio signal processing method in which when an audio signal is divided into sections of a certain length and a signal of a plurality of cycles is not included, If the fixed-length section contains signals of multiple periods, speech is generated using a higher-order long-term prediction synthesis file estimated by long-term prediction analysis synthesis.
  • An optimal value is generated by encoding, and the decoding side is configured to decode the encoded information and the optimal value.
  • the encoding process performed by the first speech encoding unit 20 has been described as CELP, but speech encoding processes other than CELP may be performed.
  • the speech coding apparatus provides a high-order speech estimation method based on long-term prediction analysis / synthesis when a speech signal is divided into sections of a fixed length and includes a signal of a plurality of cycles.
  • the audio coding was performed using the long-term prediction synthesis filter. This makes it possible to perform optimal speech coding according to the input speech.
  • the audio processing device of the present invention encodes an audio signal to generate encoded information when a signal of a plurality of periods is not included when the audio signal is divided into sections of a fixed length, and If the long section contains signals of multiple cycles,
  • the optimal value is generated by performing speech coding using the high-order long-term prediction synthesis file estimated by long-term prediction analysis and synthesis, and the decoding side decodes the encoding information and the optimal value. Configuration. This makes it possible to perform optimal speech coding according to the input speech, and to reproduce high-quality speech.
  • the audio processing method of the present invention encodes an audio signal to generate encoded information when a signal of a plurality of cycles is not included when the audio signal is divided into sections of a fixed length.
  • speech coding is performed using the high-order long-term prediction synthesis filter estimated by long-term prediction analysis and synthesis to generate an optimal value.

Description

明 細 書 音声符号化装置、 音声処理装置及び音声処理方法 技術分野
本発明は音声符号化装置、 音声処理装置及び音声処理方法に関し、 特 に低ビッ ト レー ト (具体的には、 4 k b Z s 以下) で A— b — S (Analysis- by- Synthesis : 合成による分析) 型ベク トル量子化を用い て一定長の区間に複数周期の信号を含んでいる音声信号に対し、 音声の 生成モデルを仮定して音声符号化を行う音声符号化装置、 A— b— S型 べク トル量子化を用いて音声の生成モデルを仮定して音声分析合成を行 う音声処理装置及び A— b— S型べク トル量子化を用いて音声の生成モ デルを仮定して音声分析合成を行う音声処理方法に関する。 背景技術
音声符号化方式として、 電話帯域 ( 0. 3〜 3. 4 k H z ) の音声を 4〜 1 6 k b Z s 程度の伝送レー トで符号化する C E L P (Code Excited Linear Prediction : 符号駆動線形予測符号化) 方式が知られ ており、 ディジタル移動体通信や企業内通信システムなどの分野で広く 用いられている。
C E L Pは、 人間の声道特性を表す線形予測 ( L P C : L i near Predictive Coding) 係数と、 音声のピッチ周期成分と雑音成分からなる 励起信号 (音源情報) を表すパラメ一夕と、 を伝送する。
C E L Pでは、 人間の声道を式 ( 1 ) で表した L P C合成フィル夕 H ( z ) であるとし、 この L P C合成フィル夕への入力 (音源信号) が音 声の周期性を表すピッチ周期成分とランダム性を表す雑音成分とに分離 できると仮定する。
1
H(z)= 一 (1)
1- i =1 そして、 L P C合成フィル夕のフィル夕係数と、 励起信号のピッチ周 期成分及び雑音成分とを抽出し、 これらを量子化した結果 (量子化イン デックス) を伝送することで情報圧縮を実現している。
図 1 8は C E L Pの符号化アルゴリズムを示す図である。 入力音声信 号 S nが L P C分析手段 2 1に入力される。 L P C分析手段 2 1は、 人 間の声道を式 ( 1 ) で表される全極型フィル夕と見なし、 このフィル夕 の係数ひ i ( i = l, ..., p) を求める。 ここで、 pはフィル夕次数で ある。 一般に電話帯域音声の場合は p = 1 0〜 1 2、 広帯域音声の場合 は p = 1 6〜 2 0の値をとる。
そして、 L P Cフィル夕係数は、 スカラ量子化やベク トル量子化など により量子化された後 (量子化部は図示せず) 、 その量子化インデック スが復号器側へ伝送される。
次に励起信号の量子化を行う。 ピッチ周期成分の量子化のため、 過去 の音源信号系列を格納した適応符号帳 B aを用意する。 また、 雑音成分 の量子化のため、 種々の雑音信号系列パターンを格納した雑音符号帳 B nを用意する。
そして、 各符号帳 B a、 B nを用いて A— b— sによるベク トル量子 化を行う。 すなわち、 まず各符号帳に格納されている符号ベク トルに対 して、 乗算器 2 2 a、 2 2 bを用いて、 ゲインを可変して乗じた値を算 出する。
加算器 2 3は乗算器 2 2 a、 2 2 bからの出力値を加算し、 加算結果 を L P Cフィル夕係数により構成される L P C合成フィル夕 2 4へ入力 する。 L P C合成フィル夕 2 4は、 フィル夕処理を行って、 再生信号 S を求める。 その後、 演算器 2 6で入力音声信号 S nと再生信号 S n * との誤差 e nを求める。
さらに、 誤差電力評価手段 2 3は、 符号帳 B a、 B n内のすべてのパ ターンについて、 スィッチ S W a 、 S W bを制御して、 誤差評価を行つ て誤差 e nが最も小さくなる符号べク トルを最適符号べク トルと決定す る。
また、 その時に選択された最適符号べク トルに対するゲインを最適ゲ インとする。 そして、 最適符号ベク トルと最適ゲインを量子化し (量子 化部は図示せず) 、 量子化インデックスを求める。
したがって、符号器からは L P Cフィル夕係数の量子化ィンデックス、 最適符号ベク トルの量子化インデックス (実際には、 適応符号帳 B aか ら最適なベク トルを取り出す際の、 後述する "遅れ" の値と、 雑音符号 帳 B nの符号ベク トルを量子化した量子化インデックス) 及び最適ゲイ ンの量子化ィンデックスが復号器側へ伝送されることになる。
一方、 復号器側では、 符号器側と同じ符号帳 B a、 B nを持ち、 符号 器から伝送された伝送情報から L P Cフィルタ係数、最適符号べク トル、 最適ゲインを復号し、 符号器側と同様に L P C合成フィル夕により、 音 声信号を再生する。
このように、 C E L Pは、 音声の生成過程をモデル化し、 そのモデル の特徴パラメ一夕を量子化して伝送することにより、 音声圧縮を実現し ている。
また、 人間の音声の性質は 5 〜 1 0 m s e c程度の短区間ではそれほ ど変化しないことから、 C E L Pでは 5〜; L 0 m s e cの一定長の小区 間 (フレーム) 毎に声道情報、 音源情報を更新している。 これにより、 C E L Pでは 5 〜 6 k b / s程度までビッ トレ一トを削減しても、 劣化 のない符号化音声を得ることができる。
しかし、 上記のような従来の音声符号化では、 ビッ トレートを 4 k b / s以下にするためにはフレームの長さを 1 0 m s e c以上にしなけれ ばならない。 すると、 1フレーム中に複数周期の入力信号が含まれるこ とが多くなり、 これが符号化音声の品質劣化につながるといった問題が あつ/こ。
すなわち、 従来の C E L Pでは、 適応符号帳 B aからの出力信号の周 期性が単一のフレームの成分のみに限定されるため、 周期性の表現力が 弱い。 このため、 入力信号の 1フレーム内に複数の周期が含まれるよう な場合では、 高精度に周期性を表現できないため、 符号化効率が悪化し てしまう。 発明の開示
本発明はこのような点に鑑みてなされたものであり、 入力音声に応じ て最適な音声符号化を行う音声符号化装置を提供することを目的とする, また、 本発明の他の目的は、 入力音声に応じて最適な音声処理を行い、 高品質な音声を再現する音声処理装置を提供することである。
さらに、 本発明の他の目的は、 入力音声に応じて最適な音声処理を行 い、 高品質な音声を再現する音声処理方法を提供することである。
本発明では上記課題を解決するために、 図 1に示すような、 音声信号 S nを一定長の区間に分割し、 音声の生成モデルを仮定して音声符号化 を行う音声符号化装置 1 0において、 過去の音声信号の信号べク トル系 列を格納した適応符号帳 B aと、 適応符号帳 B aの始点 Oから一定の遅 れ L間隔ずれた位置に格納されている信号ベク トルと、 信号ベク トルの 近傍に格納されている近傍べク トルとを抽出するべク トル抽出手段 1 1 と、 音声信号 S nの周期性に関する長期予測分析合成を、 信号ベク トル と近傍ベク トルとに対して行って、 長期予測音声信号 S n a— 1 を生成 する高次の長期予測合成フィル夕 1 2 と、 長期予測合成フィル夕 1 2の フィル夕係数を算出するフィル夕係数算出手段 1 3 と、 声道特性を表す 線形予測分析合成によって推定した線形予測合成フィル夕 1 4 aと、 線 形予測合成フィル夕 1 4 aの前段または後段に接続して、 聴覚特性の重 み付け処理を行う第 1の聴覚重み付けフィル夕 1 4 bと、 音声信号 S n に聴覚重み付け処理を行う第 2の聴覚重み付けフィル夕 1 4 b— 1 と、 から構成され、 長期予測音声信号 S n a - 1から再生符号化音声信号 S n aを生成する聴覚重み付け合成フィル夕 1 4と、 聴覚重み付き音声信 号 S nと、 再生符号化音声信号 S n aと、 の誤差 E nを算出する誤差算 出手段 1 5 と、 遅れ Lを変化させて誤差算出手段 1 5が繰り返し算出し た誤差の中から、 最小誤差を検出する最小誤差検出手段 1 6と、 最小誤 差を検出した時のフィル夕係数である最適フィル夕係数 i3 aと、 最小誤 差を検出した時の遅れである最適遅れ L aと、 を最適値として送信する 最適値送信手段 1 7 と、 を有することを特徴とする音声符号化装置 1 0 が提供される。
ここで、 適応符号帳 B aは、 過去の音声信号の信号ベク トル系列を格 納する。 ベク トル抽出手段 1 1は、 適応符号帳 B aの始点 Oから一定の 遅れ L間隔ずれた位置に格納されている信号ベク トルと、 信号ベク トル の近傍に格納されている近傍べク トルとを抽出する。 高次の長期予測合 成フィル夕 1 2は、音声信号 S nの周期性に関する長期予測分析合成を、 信号べク トルと近傍べク トルとに対して行って、 長期予測音声信号 S n a— 1 を生成する。 フィル夕係数算出手段 1 3は、 長期予測合成フィル 夕 1 2のフィル夕係数を算出する。 聴覚重み付け合成フィル夕 1 4は、 声道特性を表す線形予測分析合成によって推定した線形予測合成フィル 夕 1 4 aと、線形予測合成フィル夕 1 4 aの前段または後段に接続して、 聴覚特性の重み付け処理を行う第 1の聴覚重み付けフィル夕 1 4 bと、 音声信号 S nに聴覚重み付け処理を行う第 2の聴覚重み付けフィル夕と. から構成され、 長期予測音声信号 S n a— 1から再生符号化音声信号 S n aを生成する。誤差算出手段 1 5は、 聴覚重み付き音声信号 S n ' と、 再生符号化音声信号 S n aと、 の誤差 E nを算出する。 最小誤差検出手 段 1 6は、 遅れ Lを変化させて誤差算出手段 1 5が繰り返し算出した誤 差の中から、 最小誤差を検出する。 最適値送信手段 1 7は、 最小誤差を 検出した時のフィル夕係数である最適フィル夕係数 3 a と、 最小誤差を 検出した時の遅れである最適遅れ L aと、 を最適値として送信する。
また、 図 5に示すような、 音声の生成モデルを仮定して音声分析合成 を行う音声処理装置 1 0 0において、 音声信号を一定長の処理区間に分 割した際に複数周期が含まれない場合に対し、 音声信号を符号化し、 符 号化情報を生成する第 1の音声符号化手段 2 0と、 音声信号を一定長の 処理区間に分割した際に複数周期が含まれる場合に対し、 過去の音声信 号の信号べク トル系列を格納する適応符号帳と、 適応符号帳の始点から 一定の遅れ間隔ずれた位置に格納されている信号べク トルと、 信号べク トルの近傍に格納されている近傍べク トルとを抽出するべク トル抽出手 段と、 音声信号の周期性に関する長期予測分析合成を、 信号ベク トルと 近傍ベク トルとに対して行って、 長期予測音声信号を生成する高次の長 期予測合成フィル夕と、 長期予測合成フィル夕のフィル夕係数を算出す るフィル夕係数算出手段と、 声道特性を表す線形予測分析合成によって 推定した線形予測合成フィル夕と、 線形予測合成フィル夕の前段または 後段に接続して、 聴覚特性の重み付け処理を行う第 1の聴覚重み付けフ ィル夕と、 音声信号に聴覚重み付け処理を行う第 2の聴覚重み付けフィ ル夕と、 から構成され、 長期予測音声信号から再生符号化音声信号を生 成する聴覚重み付け合成フィルタと、 聴覚重み付き音声信号と、 再生符 号化音声信号と、 の誤差を算出する誤差算出手段と、 遅れを変化させて 誤差算出手段が繰り返し算出した誤差の中から、 最小誤差を検出する最 小誤差検出手段と、 最小誤差を検出した時のフィル夕係数である最適フ ィル夕係数と、 最小誤差を検出した時の遅れである最適遅れと、 を最適 値として送信する最適値送信手段と、 を含む第 2の音声符号化手段 1 0 と、 から構成される音声符号化処理装置 1 と、 符号化情報を復号化して 音声を再現する第 1の音声復号化手段 1 2 0と、 最適値を復号化して音 声を再現する第 2の音声復号化手段 1 1 0と、 から構成される音声復号 化処理装置 2と、を有することを特徴とする音声処理装置が提供される。
ここで、 第 1の音声符号化手段 2 0は、 音声信号を一定長の処理区間 に分割した際に複数周期が含まれない場合に対し、音声信号を符号化し、 符号化情報を生成する。 第 1 の音声復号化手段 1 2 0は、 符号化情報を 復号化して音声を再現する。 第 2の音声復号化手段 1 1 0は、 最適値を 復号化して音声を再現する。
さらに、 図 1 7に示すような、 音声の生成モデルを仮定して音声分析 合成を行う音声処理方法において、 過去の音声信号の信号べク トル系列 を格納した適応符号帳を生成し、 音声信号を一定長の処理区間に分割し た際に複数周期が含まれない場合に対し、 音声信号を符号化して符号化 情報を生成し、 音声信号を一定長の処理区間に分割した際に複数周期が 含まれる場合に対し、 適応符号帳の始点から一定の遅れ間隔ずれた位置 に格納されている信号べク トルと、 信号べク トルの近傍に格納されてい る近傍べク トルとを抽出し、 音声信号の周期性に関する長期予測分析合 成を、 信号べク トルと近傍べク トルとに対して高次の長期予測合成フィ ル夕を用いて行って、 長期予測音声信号を生成し、 長期予測合成フィル 夕のフィルタ係数を算出し、 声道特性を表す線形予測分析合成によって 7
8 推定した線形予測合成フィル夕と聴覚特性の重み付け処理を行う聴覚重 み付けフィル夕とを用いて、 長期予測音声信号から再生符号化音声信号 を生成し、 聴覚重み付き音声信号と、 再生符号化音声信号と、 の誤差を 算出し、 遅れを変化させて繰り返し算出した誤差の中から、 最小誤差を 検出し、 最小誤差を検出した時のフィル夕係数である最適フィル夕係数 と、 最小誤差を検出した時の遅れである最適遅れと、 を最適値として送 信し、 符号化情報または最適値を復号化して、 音声を再現することを特 徴とする音声処理方法が提供される。
ここで、 一定長の処理区間に分割した際に複数周期が含まれない場合 に対しては、 音声信号を符号化して符号化情報を生成し、 一定長の処理 区間に分割した際に複数周期が含まれる場合に対しては、 長期予測分析 合成によって推定した高次の長期予測合成フィル夕と、 線形予測分析合 成によって推定した線形予測合成フィル夕とを用いて音声符号化を行つ て最適値を生成し、 復号側では符号化情報と最適値を復号化する。 本発明の上記および他の目的, 特徴および利点は本発明の例として好 ましい実施の形態を表す添付の図面と関連した以下の説明により明らか になるであろう。 図面の簡単な説明
図 1は本発明の音声符号化装置の原理図である。
図 2は L T P合成フィル夕の次数を説明するための図である。
図 3は L T P合成フィル夕の次数を説明するための図である。
図 4は最適 L T Pフィル夕係数と最適ラグを探索する際の処理手順を 示すフローチヤ一トである。
図 5は音声処理装置の原理図である。
図 6は第 1の実施の形態の構成を示す図である。 図 7はラグの値を変化させる場合の動作を示す図である。 図 8は適応符号帳の状態更新を示す図である。
図 9は音声符号化処理装置が送信する情報を示す図である。
図 1 0は第 2の実施の形態の構成を示す図である。
図 1 1はフィル夕が安定な場合の極の配置例を示す図である。
図 1 2はフィル夕が不安定な場合の極の配置例を示す図である。
図 1 3は第 3の実施の形態の構成を示す図である。
図 1 4は第 4の実施の形態の構成を示す図である。
図 1 5は音声復号化処理装置の構成を示す図である。
図 1 6は音声復号化処理装置の構成を示す図である。
図 1 7は音声処理方法の処理手順を示すフローチヤ一トである。
図 1 8は C E L Pの符号化ァルゴリズムを示す図である。 発明を実施するための最良の形態
以下、 本発明の実施の形態を図面を参照して説明する。 図 1は本発明 の音声符号化装置の原理図である。 音声符号化装置 1 0は、 音声信号 S nを一定長の区間 (ビッ トレートが 4 k b Z s以下とした場合のフレー ム) に分割した際に複数周期が含まれる場合に対して、 音声の生成モデ ルを仮定して音声符号化を行う。
適応符号帳 B aは、 過去の音声信号 S nの信号ベク トル (符号べク ト ル) 系列をフレーム毎に格納する。 ベク トル抽出手段 1 1は、 適応符号 帳 B aの始点〇から一定の遅れ Lの間隔ずれた位置に格納されている信 号べク トルと、 その信号べク トルの近傍に格納されている近傍べク トル を抽出する。
図では、 信号ベク トル C Lの上下の位置にある 2つの近傍ベク トル C L_, 、 C U I を適応符号帳 B aから抽出しているが、 2つ以上抽出しても よい。 また、 信号べク トル CLの上の位置にある信号べク トルのみを、 適 応符号帳 B aから近傍べク トルとして抽出してもよいし、 下の位置にあ る信号べク トルのみを、 適応符号帳 B aから近傍べク トルとして抽出し てもよい。
高次の次数を持つ長期予測合成フィル夕 1 2は、 音声信号 S nの周期 性に関する長期予測分析合成 (L T P : Long Term Prediction) を、 抽 出した信号べク トルと近傍べク トルに対して行って、 長期予測音声信号 S n a - 1を生成する。
フィル夕係数算出手段 1 3は、 長期予測合成フィル夕 1 2のフィル夕 係数を算出する。
聴覚重み付け合成フィルタ 1 4は、 声道特性を表す線形予測 (L P C) 分析合成によって推定した線形予測合成フィルタ 1 4 a (以下、 L P C 合成フィル夕 1 4 aと呼ぶ) と、 L P C合成フィル夕 1 4 aの前段また は後段に接続して、 聴覚特性の重み付け処理を行う第 1の聴覚重み付け フィル夕 1 4 bと、 から構成され、 長期予測音声信号 S n a— 1から再 生符号化音声信号 S n aを生成する。
第 2の聴覚重み付けフィル夕 1 4 b— 1は、 音声信号 S nに聴覚重み 付け処理を行う。
誤差算出手段 1 5は、 聴覚重み付き音声信号 S n ' と、 再生符号化音 声信号 S n aと、 の誤差 E nを算出する。
最小誤差検出手段 1 6は、 遅れ Lを変化させて誤差算出手段 1 5が繰 り返し算出した誤差の中から、 最小誤差を検出する。
最適値送信手段 1 7は、 最小誤差を検出した時のフィルタ係数である 最適フィル夕係数) 3 aと、 最小誤差を検出した時の遅れである最適遅れ L aと、 を最適値として送信する。 なお、 最適値送信手段 1 7は、 最適 フィル夕係数) 3 aは量子化して、 量子化した値を送信する。 次に長期予測合成フィル夕 1 2について説明する。 なお、 以降では長 期予測合成フィル夕 1 2を L T P合成フィル夕 1 2、 L T P合成フィル 夕 1 2のフィルタ係数を L T Pフィル夕係数、遅れをラグと呼ぶ。式( 2 ) は L T P合成フィル夕 1 2の伝達関数 P ( z ) を示す式である。
P(z)= ; . · · (2)
J 2
1- ∑ 3 - z (し-
I ="J1 ' 信号べク トル C L の両側にある近傍べク トルの位置の一方の側の値を
Jい 他方の側の値を J 2 、 遅延を表す演算子を z、 整数を i 、 L T Pフ ィル夕係数を ]3 i ( i =— J , , ···, J 2 ) 、 ラグの値を Lとしている。 また、 L T P合成フィル夕 1 2の次数を pとすると、 p = J ,+ J 2+ l である。
図 2は L T P合成フィル夕 1 2の次数を説明するための図である。 ラ グ Lの位置に信号ベク トル C Lがあり、 その左方向を J , 、 右方向を J 2 とする。
図のように、 J の方向へ近傍ベク トル Cい, 、 Cい 2 、 CL_3 をとり、 J 2 の方向へ近傍ベク トル Cい , 、 Cい 2 をとれば、 J ,= 3 、 J 2= 2 と表 せる。 したがって、 この場合の次数は p = 3 + 2 + 1 = 6 となる。
すなわち、 適応符号帳 B aからラグ Lの位置にある信号べク トル CL の近傍ベク トルとして、 ラグ Lの位置から上方向に近傍ベク トル 、 Cい 2 、 CL_3 , ラグ Lの位置から下方向に近傍ベク トル CL+I 、 CL+2を抽 出したことになる。
一方、 L T P合成フィル夕 1 2 として、 式 ( 3 ) で示す伝達関数 P a ( z ) を用いてもよい。 Pa(z) = (3)
J
3
1- ∑ ノ Z — し
i =1 1 信号ベク トルの片側にある近傍ベク トルの位置の値を J 3 、 遅延を表 す演算子を z、 整数を i 、 L T Pフィル夕係数を 3 i ( i = 1 , ···, J 3 ) > ラグの値を Lとしている。 また、 この場合の L T Pフィル夕 1 2の次数 pは、 p = l + J 3である。
図 3は L T P合成フィル夕 1 2の次数を説明するための図である。 ラ グ Lの位置に信号べク トル C Lがあり、 その右方向を J 3とする。
図のように、 J 3の方向へ近傍ベク トル CL+1 、 CL+2 、 CU3をとれば、 J 3= 3 と表せる。 したがって、 この場合の次数は p = 1 + 3 = 4となる c すなわち、 適応符号帳 B aからラグ Lの位置にある信号べク トル CL の近傍ベク トルとして、 ラグ Lの位置から下方向に近傍ベク トル CL+1 、 CL+2 、 CU3 を抽出したことになる。 なお、 以降では P ( z ) を用いた 場合について説明するが、 P a ( z ) についても同様である。
次に音声符号化装置 1 0では、 式 ( 4 ) の誤差評価式を最小にするよ うな L T Pフィル夕係数 /3 iとラグ Lを求める。
Xを目標信号べク トル (誤差を算出する際に入力された入力音声信号 のベク トル) 、 Hを L P C合成フィル夕 1 4 aのインパルス応答べク ト ル、ラグ Lの位置にある Ctを適応符号帳 B aから抽出した信号べク トル とする。 なお、 I A I は、 Aの絶対値を表す。
J 2
2 2
X- > β - - C
L-i (4)
i=一 J. ここでは、 簡単のため、 p = 3 (信号ベク トル CL 、 近傍ベク トル C CL + 1 ) とすると、 式 (4) は式 ( 5 ) のようになる
X-8 H C -β H · C -β · H · C
L-1 0 +1 L+1
• · · (5) 式 ( 5 ) を 3 , で偏微分することにより、 式 ( 6 ) を得る。 なお、 A' は Aの転置行列を表す。
Figure imgf000015_0002
Figure imgf000015_0001
ここで、 式 ( 6 ) の左辺 3 X 3行列を Rとし、 左辺の 1 X 3行列を;3 右辺の行列を r とすると式 ( 7 ) になる。
R β= r · · · (7)
したがって、 式 (8 ) から L Τ Ρ係数ベク トル /3が求められる。 こ で、 R—1は Rの逆行列を表す。
-1
β R (8) ここでは、 L T Pフィル夕係数の次数 ρを 3として説明した力 ρの 値は任意の正数でよく、 上記の説明も同様に成り立つ。
次に最適フィルタ係数 (最適 L Τ Ρフィル夕係数) i3 aと最適ラグ L 00/6 7
14 aを探索する際の処理手順についてフローチヤ一トを用いて説明する。 図 4は最適 L T Pフィル夕係数 /3 aと最適ラグ L aを探索する際の処理 手順を示すフ口一チャートである。
〔S 1〕 ラグ Lに初期値を設定する。
C S 2 ] 適応符号帳 B aのラグ Lの位置に格納されている信号ベク トル 及びその信号ベク トルの近傍にある近傍ベク トルとして、 。い, ( i = - J , , …, J 2 ) を抽出する。
〔S 3〕 CL_iを重み付き合成処理して、 H ' C を算出する。
〔S 4〕 11 ' じぃ,と から式 ( 8 ) を解き、 L T Pフィル夕係数べク ト リレ 3を求める。
〔S 5〕 ステップ S 4で求めた /3を式 (4) に代入して、 ラグ Lの時の 誤差 Eを算出する。
[ S 6 ラグ Lの値を変える。 Lの値をすベて変化させた場合はステツ プ S 7へ、 そうでなければステップ S 2へ戻り、 変化させたラグ Lの値 を用いて、 誤差及び L T Pフィルタ係数 ;3を繰り返し算出する。
(S 7 ] 算出したすべての誤差 Eの中から、 最小誤差を検出する。
〔S 8〕 最小誤差を算出した際の L T Pフィルタ係数とラグ Lをそれぞ れ、 最適 L T Pフィルタ係数 /3 a及び最適ラグ L aとする。
ここで、 ラグ Lの探索範囲は任意であるが、 入力信号のサンプリ ング 周波数が 8 kH zの場合にはラグ Lの範囲を 2 0〜 1 4 7の範囲として よい。
なお、 ここでは L T P合成フィル夕 1 2への入力を適応符号帳 B aか らのベク トルとした力 これ以外の任意のベク トルを用いてもよい。 例 えば、 白色性の雑音ベク トル、 パルス性のベク トルまたはあらかじめ学 習された雑音べク トル等を用いてもよい。
以上説明したように、 本発明の音声符号化装置 1 0は、 L T P合成及 W 00
15 び L P C合成を行って音声符号化を行う構成とした。
従来のような C E L Pでは、 音声信号の伝送レー トを 4〜 1 6 k bノ s を対象にした、 5〜 1 O m s e c以内の短いフレーム長のフレームに 対して音声符号化を行えばよいので、 適応符号帳 B aから単一の信号べ ク トルのみを抽出して、 L P C合成処理を行えば、 音声の品質を保つこ とができた。
すなわち、 複数周期の信号が存在しない短フレームの処理なので、 適 応符号帳 B aから 1つの信号べク トルを使用するだけで、 周期性を十分 表現 (再現) できていた。
一方、 音声信号の伝送レー トを 4 k bZ s以下にした場合には、 フレ —ム長は 1 0m s e c以上の長いフレーム長となり、 この 1フレームに は、 複数周期の信号が含まれる可能性が高い。
したがって、 従来の C E L Pのように、 適応符号帳 B aから 1つの信 号ベク トルのみを使用して、 L P C合成処理を行うだけでは、 周期性を 十分に表現することが困難であり、符号化精度を悪化させることになる。
したがって、 本発明の音声符号化装置 1 0では、 1フレーム内に複数 周期の信号が含まれている場合には、 適応符号帳 B aから信号べク トル だけでなく、 信号べク トルの近傍の位置にある近傍べク トルも適応符号 帳 B aから抽出し、 これらのベク トルに対して L T Pフィル夕 1 2を用 いて長期予測合成を行い、 その後に L T P合成処理をして、 音声の符号 化を行う構成とした。
これにより、 複数周期の信号が含まれるような長いフレーム長のフレ ームに対しても、 音声の周期性を良好に表現でき、 符号化精度の向上を 図ることが可能になる。
次に本発明の音声処理装置について説明する。 図 5は音声処理装置の 原理図である。 音声処理装置 1 0 0は、 音声符号化処理装置 1 と音声復 号化処理装置 2から構成される。
音声符号化処理装置 1 は、 第 1 の音声符号化手段 2 0 と、 第 2の音声 符号化手段 1 0から構成される。
第 1 の音声符号化手段 2 0は、 音声信号を一定長の処理区間 (フレー ム) に分割した際に複数周期が含まれない場合に対し、 音声信号を符号 化し、 符号化情報を生成する。
また、 第 1 の音声符号化手段 2 0は、 実際には C E L Pに該当するた め、 第 1 の音声符号化手段 2 0を用いて音声符号化処理を行う場合を、 以降では C E L Pモードと呼ぶ。
第 2の音声符号化手段 1 0は、 音声信号を一定長の処理区間 (フレー ム) に分割した際に、 複数周期が含まれる場合の音声符号化処理を行う。 第 2の音声符号化手段 1 0は、 上述した音声符号化装置 1 0に該当する ので詳細な説明は省略する。 なお、 第 2の音声符号化手段 1 0を用いて 音声符号化処理を行う場合を、 以降では L T Pモードと呼ぶ。
音声複号化処理装置 2は、 第 1の音声復号化手段 1 2 0 と第 2の音声 復号化手段 1 1 0から構成される。 第 1の音声復号化手段 1 2 0は、 符 号化情報を復号化して音声を再現する。 すなわち、 符号化側が C E L P モードで符号化した場合に対応した復号化処理を行う。
また、 第 2の音声復号化手段 1 1 0は、 第 2の音声符号化手段 1 0で 生成された最適値を復号化して音声を再現する。 すなわち、 符号化側が L T Pモードで符号化した場合に対応した復号化処理を行う。 なお、 音 声復号化処理装置 2は、 図 1 5 、 1 6で後述する。
次に音声符号化処理装置 1 の第 1 の実施の形態について説明する。 図 6は第 1 の実施の形態の構成を示す図である。
第 1の実施の形態の音声符号化処理装置 1 aは、 主に図 1 8で示した C E L P (第 1の音声符号化手段 2 0 ) と、 図 1で示した音声符号化装 置 1 0 (第 2の音声符号化手段 1 0 ) とから構成される。 なお、 すでに 上述した構成要素に対しては、 同符号を付けて説明は省略する。
入力音声信号 X (n) は、 一定長のフレームに分割され、 フレーム単 位で符号化処理が行われる。 フレーム長を Nとする。 まず、 C E L Pモ ードと L T Pモードで共通して用いられる L P C分析手段 2 1、 L P C フィル夕係数量子化手段 1 9 a及び L P Cフィル夕係数逆量子化手段 1 9 bについて説明する。
L P C分析手段 2 1は、 入力音声信号 X ( n ) (n = 0〜N— 1 ) を L P C分析して、 m次の L P C係数 α ; ( i = 1〜m) を算出する。
L P Cフィルタ係数量子化手段 1 9 aは、 a iを量子化して、 量子化 ィンデックス Index Lpcを求める。
L P Cフィル夕係数逆量子化手段 1 9 bは、 量子化イ ンデックス Index Lpcを逆量子化して、 逆量子化値 a q ;を求める。
このように、 符号器側でも復号器側で得られるのと同じ L P Cフィル 夕係数を生成しておく。 また、 逆量子化値ひ q iは、 L P C合成フィル 夕 1 4 a、 聴覚重み付けフィル夕 1 4 b、 1 4 b— 1へ与えられる。 一方、 L P C合成フィルタ 1 4 aの伝達関数 H ( z ) は式 ( 9 ) で表 される。
H(z)= ~" · . · (9)
1- . a q i · z 1
i =1 また、 聴覚重み付けフィル夕 1 4 b、 1 4 b— 1 としては、 任意のも のが使用可能であるが、 例えば式 ( 1 0 ) を用いることができる。 ァ , 、 ァ,は、 重み付けパラメ一夕である。
Figure imgf000020_0001
w(z)= ~ — 一 , · ■ do)
1-∑ T · θί · ζ— 1 したがって、 聴覚重み付け合成フィル夕 1 4は、 Η ( ζ ) と W ( ζ ) の従属接続なので Η ( ζ ) - W ( ζ ) と表すことができる。
C E L Ρモードで用いられるゲイン量子化手段 3 2では、 適応符号帳 B aと雑音符号帳 B nの探索で決定された最適ゲインを量子化する。 量 子化形式は任意であり、 スカラ量子化やべク トル量子化などを用いて行
Ό。
符号化情報送信手段 1 8は、 C E L Pモードの時の最適ゲイン等の符 号化情報を音声復号化処理装置 2へ送信する (図 9で後述) 。
次に音声符号化処理装置 1 aの L T Pモードについて説明する。 L T Pモードでは、 高次の L T P合成フィル夕と、 L P C合成フィル夕と、 により入力信号を符号化する点に特徴がある。 また、 図の L T P処理手 段 3 0は、 べク トル抽出手段 1 1、 L T P合成フィル夕 1 2、 フィル夕 係数算出手段 1 3を含んでいる。
なお、 ここで用いる L T P合成フィル夕 1 2の伝達関数 P ( z ) は、 式 ( 2 ) に示したものと同一である。
まず、適応符号帳 B aからラグ Lに対応する信号べク トル(^を取り出 す。 この Ctと聴覚重み付け合成フィルタ 1 4のインパルス応答 h (n) (n = 0 , …, I - 1 ) に対して式 ( 8) を適用することにより、 L T P合成フィル夕係数 ( i = 1 , …, ) を得る。 ここで、 I はインパ ルス応答の打ち切り次数である。
なお、 L T P合成フィル夕 1 2のフィル夕次数 pを大きくすると、 そ れにつれて符号化音声品質も向上するが、 次数が増加する分だけ量子化 に要するビッ ト数 (量子化ビッ ト数) も増加するので、 音声品質とビッ トレートのトレードオフを考慮して、 pの値を決定する必要がある。
β iで構成される L T P合成フィル夕 1 2に、 C Lの値を入力して音源 信号 (図 1で説明した長期予測音声信号 S n a— 1 ) を求め、 この音源 信号を聴覚重み付け合成フィル夕 1 4に入力して、再生音声ベク トル(図 1で説明した再生符号化音声信号 S n a ) を生成する。
そして、 誤差算出制御手段 1 5 aは、 再生音声べク トルと、 入力音声 信号との重み付け自乗誤差 Eを式 (4 ) から求める (誤差算出制御手段 1 5 aは、 C E L Pモードの場合には、 C E L Pモード用の誤差評価式 を用いて誤差を算出する) 。
最小誤差検出手段 1 6は、 所定のラグ範囲 (例えば、 2 0≤ L 1 4 7 ) について、 このような処理を繰り返し、 最も Eが小さくなるような 最小誤差を検出する。 最適値送信手段 1 7は、 最小誤差を算出した際の 最適ラグ L aと最適 L T Pフィル夕係数 /3 aを音声復号化処理装置 2へ 出力する。
一方、 モード選択手段 3 1 は、 C E L Pモード及び L T Pモードの切 り替え制御を行う。 例えば、 入力音声信号の周期性に応じて、 C E L P モードまたは L T Pモードの切り替えを行ってもよいし、 C E L Pモー ドまたは L T Pモ一ドの両方で音声符号化を行った後に、 それぞれの符 号出力を比較して、 符号化品質の高い方のモードを選択してもよい。 図では、 C E L Pモードに切り替える場合は、 モード選択手段 3 1内 のスィツチ端子 c を端子 aに接続し、 L T Pモードに切り替える場合は、 スィツチ端子 c を端子 bに接続させる。
なお、 第 1 の実施の形態では、 簡単のため総モード数を 2つとした力 3つ以上の複数モードを用意し、 その中の 1つを L T Pモードとしても よい。 なお、 入力音声信号の周期性に応じてモードを切り替える場合の 処理については後述する。 また、 図中の状態更新手段 3 3についても図 8で後述する。
以上説明したように、 第 1の実施の形態では、 C E L Pモード及び L T Pモードの両方を有し、入力音声信号に応じてモード切替えを行って、 音声符号化を行う構成とした。
また、 本発明の L T Pモードでは、 音声の周期性に対して寄与度の低 い雑音符号帳 B nを使用せず、 C E L Pモードで雑音符号帳 B nに害 り 当てていたすベての量子化ビッ 卜を L T P合成フィルタ 1 2に割り当て る。 これにより、 入力信号の周期性に特化した符号化処理が可能になる。 このように、 本発明の L T Pモードを用いれば、 従来では十分に符号 化できなかつ信号に対しても、 十分な符号化能力を発揮でき、 さらに、 1フレームに複数周期を含まない信号に対しては、 C E L Pモードに切 り替えることにより、 入力音声信号に応じた、 柔軟度の高い符号化を効 率よく行うことが可能になる。
次にラグ Lの値を変化させる場合の動作について説明する。 上記で説 明したように、 最小誤差を検出する場合は、 ラグ Lを変化させて、 変化 させた値それぞれに対応して算出した複数の誤差の中から、 最小誤差を 検出する。 なお、 説明を簡単にするため、 適応符号帳 B aから 1つの信 号べク トルを抽出する際の動作について説明する。
図 7はラグ Lの値を変化させる場合の動作を示す図である。 適応符号 帳 B aに図のような時間軸を設定する。 時間軸に対して、 左へ行くほど 古く、 右へ行くほど新しい信号べク トルが格納される。
〔S 1 0〕 適応符号帳 B aの始点 Oからラグ Lずれた位置からフレーム 長の信号 (信号ベク トル) を取り出す。
〔 S 1 1〕 ステップ S 1 0で取り出した信号べク トルを L T P処理手段 3 0で L T P処理を行った後、 聴覚重み付け合成フィル夕 1 4へ入力す る。
〔S 1 2〕 誤差算出制御手段 1 5 aは、 聴覚重み付け合成フィル夕 1 4 からの出力信号と入力音声信号との誤差を算出する。
〔S 1 3〕 最小誤差検出手段 1 6は、 L T P処理手段 3 0内のベク トル 抽出手段 1 1 に対して、 L = L + 1 と設定指示する。
〔 S 1 4〕 ベク トル抽出手段 1 1は、 適応符号帳 B aの始点 Oからラグ L ( = L + 1 ) ずれた位置からフレーム長の信号を取り出す。
そして、 ステップ S 1 1からの処理をすベての Lに対して繰り返し行 つて、 最小誤差を検出する。 なお、 ラグ Lを、 Lから L + 1 にして変化 させる処理については雑音符号帳 B nに対しても同様である。
次に状態更新手段 3 3について説明する。 図 8は適応符号帳 B aの状 態更新を示す図である。
適応符号帳 B aには、 L max個の過去の音源信号 (信号ベク トル) が格 納されている。 また、 図中の Nは符号化の単位となるフレーム長を表す。 状態更新手段 3 3は、 適応符号帳 B a内の時間的に最も古い Nサンプ ルを捨てて、 残りの信号を全体へ左へ (時間的に古い方へ) シフ トし、 現在のフレームで求めた音源信号 (適応符号帳 B a出力と雑音符号帳 B n出力の線形結合) をシフ トで開いた部分にコピーする。 したがって、 適応符号帳 B a内の右側 (時間的に新しい方) には常に最新の音源信号 が格納される。
また、 状態更新手段 3 3は、 フレーム毎の符号化情報の生成または最 適値の量子化処理を終了した時点で、 このような状態更新処理を行う。 次に最適値送信手段 1 7 と符号化情報送信手段 1 8について説明する, 図 9は音声符号化処理装置 1 aが送信する情報を示す図である。
表 Tの項目には、 モード情報、 ラグ、 雑音符号帳インデックス、 ゲイ ンインデックス、 L P Cフィル夕係数インデックス、 L T Pフィル夕係 数インデックスがる。
モード情報は、 C E L Pモードか L T Pモードなのかを示す情報であ る (MOD E) 。 ラグ情報は、 適応符号帳 B aの始点〇からの位置を示 す情報である (L) 。 雑音符号帳インデックスは、 雑音符号帳 B nから 抽出した符号ベク トルを量子化した際のイ ンデックスである (Index cl) 。 ゲインインデックスは、 最適ゲインを量子化した際のインデック スである (Index Gain) 。
L P Cフィル夕係数ィンデックスは、 L P Cフィル夕係数を量子化し た際のインデックスである (Index Lpc) 。 L T Pフィル夕係数インデ ックスは、 L T Pフィル夕係数を量子化した際のイ ンデックスである (Index L tp 。
符号化情報送信手段 1 8は、 C E L Pモードの時の表 Tに示される情 報を送信する。 また、 最適値送信手段 1 7は、 L T Pモードの時の表 T に示される情報を送信する。
次に音声符号化処理装置 1の第 2の実施の形態について説明する。 な お、 上述した第 1の実施の形態の音声符号化処理装置 1 aを音声符号化 処理部 l aとして、 以降では簡略化した図を用いて説明する。 図 1 0は 第 2の実施の形態の構成を示す図である。
第 2の実施の形態の音声符号化処理装置 1 bは、 音声符号化処理部 1 aに対して、 さらに安定性判別手段 4 1を有している。
安定性判別手段 4 1は、 L T Pモードの最適 L T Pフィルタ係数 /3 a と最適ラグ L aの探索中に、 L T P合成フィル夕 1 2の安定性判別を行 う。 そして、 不安定と判別した場合には、 その時の L T Pフィルタ係数 及びラグ Lを最適値を選択する際の候補から除外するものである。
ここで、 L T P合成フィル夕 1 2の安定性に対し、 L T Pフィル夕係 数を算出する際に用いる式 ( 8 ) の行列 Rが共分散行列となるため、 式 ( 8 ) から求めた L T Pフィル夕係数で構成される L T P合成フィル夕 1 2の安定性は必ずしも保証されない。
また、 L T Pフィル夕係数の次数を高く していくにつれて、 不安定な フィル夕係数が多く求まることを実験によって確認した。
一方、 L T P合成フィルタ 1 2が安定であれば、 そのフィル夕を構成 する L T Pフィル夕係数から得られる kパラメ一夕(PAR C O R係数) の絶対値は 1を越えないことが知られている。
ところが、 フィル夕の安定性が保証されない場合の kパラメ一夕の存 在範囲は、 フィル夕が安定な場合よりもさらに広くなつてしまうので、 この場合、 量子化の効率が悪くなる。
このように、 再生音声の品質を向上させるために、 L T P合成フィル 夕 1 2の次数を高くすると不安定な係数が求まる確率が高くなり、 かえ つて量子化効率を悪化させてしまう可能性がある。
したがって、 第 2の実施の形態の音声符号化処理装置 1 bでは、 最適 L T Pフィル夕係数 /3 a及び最適ラグ L aの探索中に求めた L T Pフィ ル夕係数で構成される L T P合成フィル夕 1 2の安定性を判別し、 フィ ル夕が不安定な場合にはその L T Pフィル夕係数及びラグを選択候補か ら除外することにする。
安定性判別の方法としては、任意の方法を用いることが可能であるが、 L T Pフィル夕係数を kパラメ一夕に変換した時の kパラメ一夕の絶対 値による判定方法、 L T Pフィル夕係数から極の位置を直接求める方法 などを用いることができる。 ここでは後者の方法について説明する。 後者の方法では式 ( 1 1 ) に示す p次の代数方程式を解き、 根 z ( i = 1, ···, p ) を求める。 ここで、 i3 i は L T Pフィル夕係数であり、 pは L T P次数である。
! + z"1 + 32z "2 + · - · + 3p z"p = 0 · · · i3 iは実係数であるから式 ( 1 1 ) の根 は、 実根 (重解) または複 素共役根となり、 z ,= R e { z , } + j I m { z t ] と表せる。 ここで、 R e { z , } は の実部であり、 I m { z , } は ζ , の虚部である。 R e { Z i } と I m { z i } により、 z平面上における極の配置がわかる。 図 1 1はフィル夕が安定な場合の極の配置例を示す図である。 図 1 2 はフィル夕が不安定な場合の極の配置例を示す図である。 いずれも縦軸 に I m { z , } 、 横軸に R e { z t } をとる。
図 1 1の場合は、 z ,として得られたすべての極が z平面上の単位円内 にあるのでフィル夕は安定である。
これに対し、 図 1 2の場合は z ,は単位円内にあるものの、 z 2 、 z 3が 単位円の外にあるのでフィル夕としては不安定である。
以上説明したように、 安定性判別手段 4 1により、 フィル夕の安定性 を判別することが可能になり、 不安定と判定された場合には L T P合成 フィル夕 1 2のフィル夕係数及びラグを選択候補から除外することにし た。 これにより、 安定なパラメ一夕のみを抽出できる。
なお、 上記の説明では、 L T Pモードの探索処理中に安定判別を行う 方法を説明したが、 別の実現方法として探索処理中に安定判別を行わず に、 L T Pモードの探索処理で決定された最終的な最適 L T Pフィル夕 係数 /3 aについて安定判別を行ってもよい。
そして、 この場合は、 最終的な最適 L T Pフィル夕係数 i3 aで構成さ れる L T P合成フィル夕 1 2が不安定であると判別された場合には、 L T Pモードは選ばれず C E L Pモードを選択するようにする。
次に音声符号化処理装置 1の第 3の実施の形態について説明する。 図 1 3は第 3の実施の形態の構成を示す図である。 第 3の実施の形態の音 声符号化処理装置 l cは、 音声符号化処理部 1 aに対して、 さらに安定 性判別手段 4 1及び安定化処理手段 4 2を有している。 2δ 安定化処理手段 4 2は、 安定性判別手段 4 1が L T P合成フィル夕 1 2の安定性判別を行って、 不安定と判別した場合には、 その時の L T P フィル夕係数及びラグ Lを安定化させるものである。
上述した第 2の実施の形態では、 L T P合成フィル夕 1 2の安定性を 判別し、 不安定な場合にはそのフィル夕係数及び対応するラグを候補か ら除外することで安定なフィル夕係数を得ていた。
ところカ^ L T Pフィル夕係数の次数を高く していく と、 それにつれ て不安定な係数が求まる確率も高くなる傾向があるため、 上記のように L T P合成フィル夕 1 2が不安定な場合に候補をその度に除外すると、 探索候補であるラグ、 L T Pフィル夕係数の候補数自体が少なくなり、 十分な符号化性能を得られない可能性がある。
したがって、 第 3の実施の形態では、 探索処理中に各ラグに対応する L T Pフィルタ係数を求め、 第 2の実施の形態と同様な方法でフィルタ の安定性判別を行い、 L T P合成フィル夕 1 2が不安定と判別された場 合には、 L T P合成フィル夕 1 2の安定化処理を行って、 L T Pフィル 夕係数を修正する構成とした。 また、 L T P合成フィル夕 1 2が安定と 判別された場合には、 L T Pフィル夕係数の修正は行わない。
L T P合成フィル夕 1 2の安定化処理の方法としては、 任意の方法を 用いることが可能であるが、 フィル夕係数から z平面における極の位置 を求め、 極の位置を単位円上の内側へ移動する (以下、 極移動法と呼ぶ) 手法を用いることができる。 ここでは極移動法について説明する。
極移動法では、 まず、 式 ( 1 1 ) を第 2の実施の形態で説明したのと 同様に解き、 根 z ,を求める。 ここで /3 iは L T Pフィル夕係数であり、 は Z i= R e { z , } + j I m { z , } と表せる。 上述したように、 R e { z i } は z i の実部であり、 I m { z t } は Z i の虚部である。 R e { Z j } と I m { z , } より、 z平面上における極の配置がわかる。 安定性判別手段 4 1では、 根 z ,を算出し、 極が単位円の中にあればそ のフィル夕は安定であると判別し、 極が 1つでも単位円の外にあれば、 そのフィル夕は不安定であると判定する。
そして、 安定性判別手段 4 1からの判別結果 (安定/不安定) と、 L
T Pフィル夕係数とが安定化処理手段 4 2に入力される。 L T P合成フ ィル夕 1 2が安定な場合には、 3 , をそのまま) 3 i aとして出力する。 ま た、 フィル夕が不安定な場合には以下の式 ( 1 2 ) の処理を行う。
, *
a = (i = 1, · ■ ■, P) · · ■ (12)
2 ここで z i は式 ( 1 1 ) から求めた安定化する前の根であり、 z i aは 安定化された根である、 ここで z は z iの複素共役根である。
式 ( 1 2 ) の変換により、 元の L T Pフィル夕係数により構成される L T P合成フィル夕 1 2の周波数特性を保存したままフィル夕を安定化 することが可能になる。
式 ( 1 2 ) で安定化された根 z j aは、 式 ( 1 3 ) の関係を用いて安定 化された L T Pフィルタ係数 β i aに変換される。
1-∑ 8j a · ζ-' = Π ( 1 - z a · z"1 ) · · · (13)
i=1 i=1 1
したがって、 L T Pモードでの探索処理中の誤差評価では、 L T P係 数として 3 i aを用いる。 以上説明したように、 不安定な L T P合成フィ ルタ 1 2を安定化することにより、 不安定な L T P合成フィル夕 1 2に よる符号化音声品質の劣化を防ぐことができる。
また、 L T P合成フィル夕 1 2が不安定な場合でも、 L T Pフィル夕 係数及びラグを探索候補から除外する必要がないため、 L T Pフィル夕 係数の次数を高くすることにより、 不安定なフィル夕係数が求まる場合 が多くなつても、 符号化音声品質の劣化を防ぐことができる。
次に第 4の実施の形態について説明する。 図 1 4は第 4の実施の形態 の構成を示す図である。第 4の実施の形態の音声符号化処理装置 1 dは、 音声符号化処理部 1 aに対して、 パラメ一夕変換制御手段 5 0をさらに 有している。
パラメ一夕変換制御手段 5 0は、 パラメ一夕変換手段 5 1、 パラメ一 夕量子化手段 5 2、 パラメ一夕逆変換手段 5 3及びパラメ一夕逆量子化 手段 5 4から構成される。
パラメ一夕変換手段 5 1は、 L P C分析手段 2 1の出力ひ iをパラメ一 夕 kiに変換する。 パラメ一夕量子化手段 5 2は、 パラメ一夕 k ,を量子 化して Index Lpc を生成する。 パラメ一夕逆変換手段 5 3は、 Index Lpc を逆変換して、 k Q iを生成する。 パラメ一夕逆量子化手段 54は、 k Q iを逆量子化して a q iを生成する。
また、 最適値送信手段 1 7は、 パラメ一夕変換手段 5 1 a、 パラメ一 夕量子化手段 5 2 aを含んでいる。 なお、 図ではパラメ一夕変換制御手 段 5 0の周辺部のみ示し、 その他の構成要素は音声符号化装置 1 aと同 様であるため省略する。
L T P合成フィルタ 1 2は、 出力から入力へのフィードバック路を持 つ全極型共振回路であるため係数感度が高い。 このため、 L T Pフィル タ係数を量子化した時に量子化誤差が大きい場合、 量子化誤差が大きい
L T Pフィル夕係数を復号側では受信することになる。 すると、 復号側 の L T P合成フィル夕 1 2が発振したり、 スぺク トル歪みが増大して、 再生音声品質を大きく劣化させてしまう可能性がある。
したがって、 第 4の実施の形態では、 L T Pフィル夕係数を等価な別 のパラメ一夕に変換してから量子化する。 L T Pフィル夕係数と等価な 別パラメ一夕としては、 例えば、 kパラメ一夕 (P AR C OR係数) や L S P (線スペク トル対) などを用いることができる。
元々、 kパラメ一夕は入力信号を L P C分析して得られる L P Cフィ ル夕係数と等価なパラメ一夕として知られており、 L P Cフィル夕係数 から kパラメータへの変換式、 kパラメ一夕から L P C係数への変換式 が知られている。
また、 L S Pも L P Cフィル夕係数と等価なパラメ一夕であり、 L P Cフィル夕係数から L S Pへの変換式と、 L S Pから L P C係数への変 換式が知られている。
これら kパラメ一夕、 L S Pはその量子化特性が L P Cフィル夕係数 よりも優れていることから、 通常の C E L P符号化では L P Cフィル夕 係数を kパラメ一夕または L S Pに変換してから量子化している。
第 4の実施の形態では、 上述した L P Cフィル夕係数と kパラメータ (または L S P) の関係式を、 L T Pフィル夕係数に対しても適用する ものである。
以下では L T Pフィル夕係数から kパラメ一夕に変換する方法 (ステ ップダウン過程) について説明するが、 L S Pについても同様である。
L T Pフィル夕係数を kパラメータに変換する方法は、 ステツプダウ ン過程とも呼ばれ、 式 ( 1 4 ) 、 ( 1 5) で表される。
(i)
k = (14)
(i) 丄 (i) (i)
(i-l) i-j
a, (1≤j≤i-l) (15)
2
1一
ここで、 i は pから p— 1 , '··, 1 と減少し、 また、 最初は式 ( 1 6 ) のように、 (P) (1≤j≤p) (16)
j j
と設定しておく。 ここで、 α ,は L T Pフィル夕係数であり、 pはフィル 夕次数である。 上記の変換処理により、 kパラメ一夕 k iが求まる。 また. kパラメ一夕は式 ( 1 7 ) 、 ( 1 8 ) に示すステップアップ過程により L T Pフィル夕係数に変換することが可能である。
(i)
= k • · · (17)
(i) (i-1) ,
, = — k
J j i i-j (i≤j≤i-1) · · ■ (18)
これらの式を i = ] 2, pについて解き、 最終の係数集合から 式 ( 1 9 ) のように、
(P)
a j = j (i≤j≤i-1) · · · (19)
とおいて、 L Τ Pフィル夕係数 a jが得られる。
以上説明したように、 L T Pモードの符号化において、 L T Pフィル タ係数を直接量子化するのではなく、 L T Pフィル夕係数を kパラメ一 夕または L S P等の等価なパラメ一夕に変換してから量子化することに より、 少ない量子化ビッ ト数で高品質な符号化音声品質を実現すること が可能になる。
次にモ一ド選択手段 3 1が入力音声信号を周期性の強弱に応じて切り 替える場合の処理について説明する。
モード選択手段 3 1は、 入力音声の性質を判定し、 その判定結果に応 じて C E L Pモードまたは L T Pモードを選択する。
ここでは、 入力音声のピッチ周期性を表すパラメ一夕として、 各フレ ームの入力信号から求めたピツチ予測利得を利用する方法を説明する。
まず、 入力音声信号 X ( n ) ( i = 0, ···, N— 1 ) から式 ( 2 0 ) 、 ( 2 1 ) により、 自己相関 Rcc (L ) 、 相互相関 R„ (L ) を求める。 こ こで、 Lは時間遅れを表すパラメ一夕であり、 Lの範囲は L,≤L≤L2 とする。
N-1
RCC(L) = ∑ x(n-L) · x(n-L) · · , (20)
i=0
N-1
Rcx (し) = ∑ x(n) · x(n-L) ■ · · (21)
i=0
Lの値を L ,から L2まで変えながら、 Rcc (L) と R„ (L) を求め、 式 ( 2 2 ) からピッチ予測利得 G (L) を求める。
Figure imgf000032_0001
L ,〜L2のすベての Lについて、 ピッチ予測利得 G (L ) を計算し、 G (L) の最大値 G (L) maxを決定する。
次に G (L) maxとあらかじめ決めた閾値 T hとを比較し、 G (L) max が T よりも大きければ周期が強いと判断して、 L T Pモードを選択す る。
また、 G (L) fflaxが T hよりも小さければ周期が弱いと判断して、 C E L Pモードを選択する。 なお、 上記の説明では、 モード判定のための パラメ一夕として入力音声信号のピッチ予測利得を用いたが、 他の特徴 パラメ一タを用いてもよい。 また、 複数の特徴パラメ一夕の組合せによ り、 モード判定を行ってもよい。
以上説明したように、 モード選択手段 3 1でモード判定をすることに より、 入力音声信号の性質に応じて、 最適な符号化モードを選ぶことが 可能になり、 符号化音声の品質を向上させることができる。
次に音声復号化処理装置 2について説明する。 図 1 5は音声復号化処 理装置の構成を示す図である。 音声復号化処理装置 2 aは、 C E L Pモ —ドと L T Pモードの 2つのモ一ドから構成される音声符号化処理装置 1が出力した情報から、 音声を復号するための復号器である。
図 9で示した情報が各モードに対応して、 音声復号化処理装置 2 aに 入力される。
L P Cフィル夕係数の量子化インデックス Index Lpc が、 L P C係数 逆量子化手段 1 0 1に入力され、 L P Cフィル夕係数 a , ( i = l, …, m) が出力される。
L P C合成フィル夕 1 0 3は により構成され、 C E L Pモード、 L T Pモードの両モードで用いられる。
モード情報 M〇 D Eにより、 モード選択手段 1 0 6が C E L Pモード を選択した場合は以下の復号化処理を行う。
まず、 適応符号帳 B aよりラグ Lに対応する出力 C。 (n) (n = 0, ···, N— 1 ) を取り出す。 ここで、 Nはフレーム長である。
次に雑音符号帳 B nから雑音符号帳ィンデックス Index clに対応する 信号 C, ( n ) (n = 0 , …, N— 1 ) が出力される。 また、 ゲインイン デックス Index Gainがゲイン逆量子化手段 1 0 5へ入力され、 適応符号 帳用ゲイン ge、 雑音符号帳用ゲイン g, が、 乗算器 1 0 7 a、 1 0 7 b に対してそれぞれ与えられる。
乗算器 1 0 7 aは、適応符号帳 B aから抽出した符号ベク トル C。(n) にゲイン g。を乗算して、 g。 ' (:。 (n) を生成する。
乗算器 1 0 7 bは、雑音符号帳 B nから抽出した符号べク トル(^(n) にゲイン を乗算して、 g, · C, (n) を生成する。
加算器 1 0 8は、 g。 ' C。 (n) と gi ' C' n) を加算して、 音源信 号 y (n) (n = 0〜N— 1 ) を生成する。 音源信号 y (n) は式 ( 2 3 ) のようになる。 y(n) = go - Co(n)+gi- Ci(n)
(n=0, · · ·, N-1) · ■ · (23) そして、 y ( n ) を L P C合成フィル夕 1 0 3に入力することにより、 再生信号 s (n) (n = 0 , …, N - 1 ) が得られる。 また、 現在のフ レームで得られた音源信号 y (n) を適応符号帳 B aに帰還させること により、 適応符号帳 B aの状態更新を行う。 帰還の方法は任意であるが、 例えば式 ( 2 4 ) 、 ( 2 5 ) の方法を用いることができる。
aclun) = acb (n+N)
(0≤n≤Lmax -N-1) (24) acb(Lmax -N+n) = y(n)
(0≤n≤N-1) , , · (25)
ここで、 a c b (n) (n = 0, ···, Lmax - 1 ) は適応符号帳の格納 位置であり、 Lmaxは適応符号帳サイズ (ラグの最大値) である。
一方、 モード情報により L T Pモードが選択された場合は、 以下の復 号処理を行う。 量子化ィンデックス Index Lpc を L T Pフィル夕係数逆 量子化手段 1 0 4に入力して、 L T P合成フィル夕係数 3 iを出力する。 次に C E L Pモードと同様に、 ラグ Lに対応する適応符号べク トル C。
(n) を適応符号帳 B aから取り出し、 CQ (n ) を L T P合成フィル夕 1 0 2に入力して音源信号 y a (n) を求める。
さらに、 y a ( n ) を L P C合成フィル夕 1 0 3に入力することによ り、 再生信号 s (n) を得る。 また、 現在のフレームで作成した音源信 号 y a (n ) を適応符号帳 B aに帰還させることにより、 適応符号帳 B aの状態更新を行う。 帰還の方法は任意であるが、 上述した C E L P方 式の場合と同じ方法を用いることができる。 以上説明したように、 音声復号化処理装置 2 aは、 音声符号化処理装 置 1から符号化された情報から高品質な音声を再生 (復号) することが 可能になる。
次に図 1 4で説明した音声符号化処理装置 1 dで符号化された情報を 復号化する場合の音声'復号化処理装置について説明する。 図 1 6は音声 復号化処理装置の構成を示す図である。
音声復号化処理装置 2 bは、 第 4の実施の形態で説明したような、 C E L Pモードと L T Pモードの 2つのモードを持ち、 L T P合成フィル 夕係数を kパラメ一夕または L S P等の L T P係数と等価なパラメ一夕 に変換してから量子化する音声符号化処理装置 1 dにより符号化された 情報から、 音声を復号するための復号器である。
なお、 音声復号化処理装置 2 bは、 L T Pフィル夕係数の生成方法が 音声復号化処理装置 2 aと異なるだけで他は同一なので、 ここでは L T Pモードが選択された場合の動作のみを説明する。
モード情報により、 L T Pモードが選択された場合には以下の復号処 理を行う。 量子化ィンデックス Index Lpc をパラメ一夕逆量子化手段 1 0 4 aに入力して kパラメ一夕 k j ( i = l, …, p ) を生成する。
ここで、 pは L T P合成フィル夕 1 0 2の次数である。 次に k ,をパラ メータ変換手段 1 0 4 bに入力して、 L T P合成フィル夕係数 3 i ( i = 1 , ···, ρ) を出力する。 パラメ一夕変換手段 1 0 4 bでは、 第 4の実 施の形態で説明した式 ( 1 7 ) のステップアップ過程により変換処理を 行う。
L T P合成フィルタ 1 0 2は、 ラグ Lと 3 ,により構成される。 次にラ グ Lに対応する出力(:。 (n) を適応符号帳 B aから取り出し、 CQ (n) を L T P合成フィル夕 1 0 2に入力して音源信号 y a (n) を生成する。 さらに y a (n) を L P C合成フィル夕 1 0 3へ入力して再生信号 s ( n ) を作成する。
また、 現在のフレームで作成した音源信号 y a ( n ) を適応符号帳 B aに帰還させることにより、 適応符号帳 B aの状態更新を行う。 帰還の 方法は任意であり、 例えば式 ( 2 4 ) 、 ( 2 5 ) の方法を用いることが できる。
以上説明したように、 音声復号化処理装置 2 bは、 音声符号化処理装 置 1 dからで符号化された情報から高品質な音声を再生 (復号) するこ とが可能になる。
次に本発明の音声処理方法について説明する。 図 1 7は音声処理方法 の処理手順を示すフローチヤ一卜である。
( S 2 0〕 過去の音声信号の信号べク トル系列を格納した適応符号帳を 生成する。
C S 2 1 音声信号を一定長の処理区間に分割した際に複数周期が含ま れない場合に対し、 音声信号を符号化して符号化情報を生成する。
[ S 2 2 ) 音声信号を一定長の処理区間に分割した際に複数周期が含ま れる場合に対し、 適応符号帳の始点から一定の遅れ間隔ずれた位置に格 納されている信号べク トルと、 信号べク トルの近傍に格納されている近 傍べク トルとを抽出する。
C S 2 3 ] 長期予測合成フィル夕のフィル夕係数を算出する。
C S 2 4 ) 音声信号の周期性に関する長期予測分析合成を、 信号べク ト ルと近傍べクトルとに対して高次の長期予測合成フィル夕を用いて行つ て、 長期予測音声信号を生成する。
〔S 2 5〕 声道特性を表す線形予測分析合成によって推定した線形予測 合成フィル夕と聴覚特性の重み付け処理を行う聴覚重み付けフィル夕と を用いて、 長期予測音声信号から再生符号化音声信号を生成する。
C S 2 6 ] 音声信号と、 再生符号化音声信号との誤差を算出する。 7 P
35
〔S 2 7〕 遅れを変化させて繰り返し算出した誤差の中から、 最小誤差 を検出する。
〔S 2 8〕 最小誤差を検出した時のフィル夕係数である最適フィル夕係 数と、 最小誤差を検出した時の遅れである最適遅れと、 を最適値として 送信する。
〔S 2 9〕 符号化情報または最適値に復号化を行って音声を再生する。 以上説明したように、 本発明の音声処理装置 1 0 0及び音声処理方法 は、 音声信号を一定長の区間に分割した際に複数周期の信号が含まれな い場合に対しては、 音声信号を符号化して符号化情報を生成し、 一定長 の区間に複数周期の信号を含んでいる場合に対しては、 長期予測分析合 成によって推定した高次の長期予測合成フィル夕を用いて音声符号化を 行って最適値を生成し、 復号化側では符号化情報と最適値を復号化する 構成とした。
これにより、 入力音声に応じて最適な音声符号化を行うことができ、 高品質な音声を再現することが可能になる。
なお。 上記の説明では、 第 1音声符号化手段 2 0が行う符号化処理を C E L Pとして説明したが、 C E L P以外の音声符号化処理を行っても 構わない。
以上説明したように、 本発明の音声符号化装置は、 音声信号を一定長 の区間に分割した際に複数周期の信号を含んでいる場合に対して、 長期 予測分析合成によって推定した高次の長期予測合成フィル夕を用いて音 声符号化を行う構成とした。 これにより、 入力音声に応じて最適な音声 符号化を行うことが可能になる。
また、 本発明の音声処理装置は、 音声信号を一定長の区間に分割した 際に複数周期の信号が含まれない場合に対しては、 音声信号を符号化し て符号化情報を生成し、 一定長の区間に複数周期の信号を含んでいる場 合に対しては、 長期予測分析合成によって推定した高次の長期予測合成 フィル夕を用いて音声符号化を行って最適値を生成し、 復号化側では符 号化情報と最適値を復号化する構成とした。 これにより、 入力音声に応 じて最適な音声符号化を行うことができ、 高品質な音声を再現すること が可能になる。
さらに、 本発明の音声処理方法は、 音声信号を一定長の区間に分割し た際に複数周期の信号が含まれない場合に対しては、 音声信号を符号化 して符号化情報を生成し、 一定長の区間に複数周期の信号を含んでいる 場合に対しては、 長期予測分析合成によって推定した高次の長期予測合 成フィル夕を用いて音声符号化を行って最適値を生成し、 復号化側では 符号化情報と最適値を復号化することとした。 これにより、 入力音声に 応じて最適な音声符号化を行うことができ、 高品質な音声を再現するこ とが可能になる。
上記については単に本発明の原理を示すものである。 さらに、 多数の 変形、 変更が当業者にとって可能であり、 本発明は上記に示し、 説明し た正確な構成および応用例に限定されるものではなく、 対応するすべて の変形例および均等物は、 添付の請求項およびその均等物による本発明 の範囲とみなされる。

Claims

請 求 の 範 囲
1 . 音声信号を一定長の処理区間に分割した、 音声の生成モデルを仮定 して音声符号化を行う音声符号化装置において、
過去の音声信号の信号べク トル系列を格納する適応符号帳と、 前記適応符号帳の始点から一定の遅れ間隔ずれた位置に格納されてい る信号べク トルと、 前記信号べク トルの近傍に格納されている近傍べク トルとを抽出するべク トル抽出手段と、
前記音声信号の周期性に関する長期予測分析合成を、 前記信号べク ト ルと前記近傍ベク トルとに対して行って、 長期予測音声信号を生成する 高次の長期予測合成フィル夕と、
前記長期予測合成フィル夕のフィル夕係数を算出するフィルタ係数算 出手段と、
声道特性を表す線形予測分析合成によって推定した線形予測合成フィ ル夕と、 前記線形予測合成フィル夕の前段または後段に接続して、 聴覚 特性の重み付け処理を行う第 1の聴覚重み付けフィル夕と、 から構成さ れ、 前記長期予測音声信号から再生符号化音声信号を生成する聴覚重み 付け合成フィルタと、
前記音声信号から聴覚重み付き音声信号を生成する第 2の聴覚重み付 けフィル夕と、
前記聴覚重み付き音声信号と、 前記再生符号化音声信号との誤差を算 出する誤差算出手段と、
前記遅れを変化させて前記誤差算出手段が繰り返し算出した前記誤差 の中から、 最小誤差を検出する最小誤差検出手段と、
前記最小誤差を検出した時のフィル夕係数である最適フィル夕係数と. 前記最小誤差を検出した時の遅れである最適遅れと、 を最適値として送 信する最適値送信手段と、
を有することを特徴とする音声符号化装置。
2 . 前記最適フィル夕係数と前記最適遅れとの探索中に、 前記長期予測 合成フィル夕の安定性判別を行い、 不安定と判別した場合のフィル夕係 数及び遅れは、 前記最適値を選択する際の候補から除外する安定性判別 手段をさらに有することを特徴とする請求項 1記載の音声符号化装置。
3 . 前記安定性判別手段によって、 不安定と判別された場合の前記フィ ル夕係数及び前記遅れを安定化させる安定化処理手段をさらに有するこ とを特徴とする請求項 2記載の音声符号化装置。
4 . 前記最適値送信手段は、 前記最適フィル夕係数を量子化して、 量子 化した値を送信することを特徴する請求項 1記載の音声符号化装置。
5 . 前記最適値送信手段は、 前記最適フィル夕係数を等価な別のパラメ 一夕に変換し、 前記パラメ一夕に対して量子化して、 量子化した値を送 信することを特徴とする請求項 1記載の音声符号化装置。
6 . 前記長期予測合成フィル夕は、 前記信号ベク トルの両側にある近傍 ベク トルの位置の一方の側の値を Jい 他方の側の値を J 2、 遅延を表す 演算子を z、 整数を i 、 前記フィルタ係数を ]3い 前記遅れの値を Lとし た場合に、 以下の伝達関数 P ( z ) 、
P ( z ) = 1 / ( 1 一 (∑ /3 i · z - (L- i ) ) ( i = - J …, J 2) で表せることを特徴とする請求項 1記載の音声符号化装置。
7 . 前記長期予測合成フィルタは、 前記信号ベク トルの片側にある近傍 べク トルの位置の値を J 3、 遅延を表す演算子を z、 整数を i 、 前記フィ ル夕係数を 3ぃ 前記遅れの値を Lとした場合に、 以下の伝達関数 P a ( z ) 、
P a ( z ) = 1 Z ( 1 — (∑ /3 , · z - i - L) ) ( i = 1 , ···, J 3) で表せることを特徴とする請求項 1記載の音声符号化装置。
8 . 前記誤差算出手段は、 前記信号ベク トルの両側にある近傍ベク トル の位置の一方の側の値を Jい 他方の側の値を J 2、 前記誤差を E、 目標 信号ベク トルを X、 前記線形予測合成フィル夕のィンパルス応答べク 卜 ルを H、 前記遅れを L、 前記 Lに相当する前記適応符号帳の前記信号べ ク トルを C とした場合に、 以下の式、
E 2 = I Χ -∑ 3 , · Η · C L- i | 2 ( i = - J , , …, J 2)
を誤差評価式とし、 前記誤差評価式を用いて前記誤差を算出することを 特徴とする請求項 1記載の音声符号化装置。
9 . 音声の生成モデルを仮定して音声分析合成を行う音声処理装置にお いて、
音声信号を一定長の処理区間に分割した際に複数周期が含まれない場 合に対し、 前記音声信号を符号化し、 符号化情報を生成する第 1の音声 符号化手段と、 音声信号を一定長の処理区間に分割した際に複数周期が 含まれる場合に対し、 過去の音声信号の信号べク トル系列を格納する適 応符号帳と、 前記適応符号帳の始点から一定の遅れ間隔ずれた位置に格 納されている信号べク トルと、 前記信号べク トルの近傍に格納されてい る近傍べク トルとを抽出するべク トル抽出手段と、 前記音声信号の周期 性に関する長期予測分析合成を、 前記信号べク トルと前記近傍べク トル とに対して行って、 長期予測音声信号を生成する高次の長期予測合成フ ィル夕と、 前記長期予測合成フィル夕のフィル夕係数を算出するフィル 夕係数算出手段と、 声道特性を表す線形予測分析合成によって推定した 線形予測合成フィル夕と、 前記線形予測合成フィル夕の前段または後段 に接続して、 聴覚特性の重み付け処理を行う第 1 の聴覚重み付けフィル 夕と、 前記音声信号から聴覚重み付き音声信号を生成する第 2の聴覚重 み付けフィル夕と、 から構成され、 前記長期予測音声信号から再生符号 化音声信号を生成する聴覚重み付け合成フィル夕と、 前記聴覚重み付き 音声信号と、 前記再生符号化音声信号との誤差を算出する誤差算出手段 と、 前記遅れを変化させて前記誤差算出手段が繰り返し算出した前記誤 差の中から、 最小誤差を検出する最小誤差検出手段と、 前記最小誤差を 検出した時のフィル夕係数である最適フィルタ係数と、 前記最小誤差を 検出した時の遅れである最適遅れと、 を最適値として送信する最適値送 信手段と、 を含む第 2の音声符号化手段と、 から構成される音声符号化 処理装置と、
前記符号化情報を復号化して音声を再現する第 1の音声復号化手段と. 前記最適値を復号化して音声を再現する第 2の音声復号化手段と、 から 構成される音声復号化処理装置と、
を有することを特徴とする音声処理装置。
1 0 . 入力した音声信号の周期性に応じて、 前記第 1の音声符号化手段 及び前記第 2の音声符号化手段の切り替えを行うモード選択手段をさら に有することを特徴とする請求項 9記載の音声処理装置。
1 1 . 前記第 1の音声符号化手段から生成された符号化音声信号と、 前 記第 2の音声符号化手段から生成された前記再生符号化音声信号とを比 較して、 符号化品質の高い方を選択するモード選択手段をさらに有する ことを特徴とする請求項 9記載の音声処理装置。
1 2 . 前記第 1の音声符号化手段は、 一定長の区間に複数周期の信号が 含まれない前記音声信号に対して、 符号駆動線形予測符号化を行うこと を特徴とする請求項 9記載の音声処理装置。
1 3 . 前記音声復号化処理装置は、 前記線形予測合成フィル夕と、 前記 長期予測合成フィルタを有することを特徴とする請求項 9記載の音声処 理装置。
1 4 . 前記最適値送信手段は、 前記最適フィルタ係数を量子化して、 量 子化した値を送信することを特徴する請求項 9記載の音声処理装置。
1 5 . 前記最適値送信手段は、 前記最適フィル夕係数を等価な別のパラ メータに変換し、 前記パラメ一夕に対して量子化して、 量子化した値を 送信することを特徴とする請求項 9記載の音声処理装置。
1 6 . 前記音声復号化処理装置は、 前記第 2の音声復号化手段で、 前記 最適値から前記パラメ一夕を抽出し、 前記パラメ一夕から前記最適フィ ルタ係数へ変換して復号化することを特徴とする請求項 1 5記載の音声 処理装置。
1 7 . 音声の生成モデルを仮定して音声符号化処理を行う音声符号化処 理装置において、
音声信号を一定長の処理区間に分割した際に複数周期が含まれない場 合に対し、 前記音声信号を符号化し、 第 1の符号化情報を生成する第 1 の音声符号化手段と、
音声信号を一定長の処理区間に分割した際に複数周期が含まれる場合 に対し、 過去の音声信号の信号べク トル系列を格納する適応符号帳と、 前記適応符号帳の始点から一定の遅れ間隔ずれた位置に格納されている 信号べク トルと、 前記信号べク トルの近傍に格納されている近傍べク ト ルとを抽出するべク トル抽出手段と、 前記音声信号の周期性に関する長 期予測分析合成を、 前記信号べク トルと前記近傍べク トルとに対して行 つて、 長期予測音声信号を生成する高次の長期予測合成フィル夕と、 前 記長期予測合成フィル夕のフィルタ係数を算出するフィルタ係数算出手 段と、 声道特性を表す線形予測分析合成によって推定した線形予測合成 フィル夕と、 前記線形予測合成フィル夕の前段または後段に接続して、 聴覚特性の重み付け処理を行う第 1の聴覚重み付けフィル夕と、 から構 成され、 前記長期予測音声信号から再生符号化音声信号を生成する聴覚 重み付け合成フィルタと、 前記音声信号から聴覚重み付き音声信号を生 成する第 2の聴覚重み付けフィル夕と、 前記聴覚重み付き音声信号と、 前記再生符号化音声信号と、 の誤差を算出する誤差算出手段と、 前記遅 れを変化させて前記誤差算出手段が繰り返し算出した前記誤差の中から. 最小誤差を検出する最小誤差検出手段と、 前記最小誤差を検出した時の フィル夕係数である最適フィル夕係数と、 前記最小誤差を検出した時の 遅れである最適遅れと、 を最適値として送信する最適値送信手段と、 を 含む第 2の音声符号化手段と、
を有することを特徴とする音声符号化処理装置。
1 8 . 音声の生成モデルを仮定して音声復号化処理を行う音声復号化処 理装置において、
音声信号を一定長の処理区間に分割した際に複数周期が含まれない場 合に対し、 前記音声信号を符号化して生成された符号化情報を復号化す る第 1の音声復号化手段と、
音声信号を一定長の処理区間に分割した際に複数周期が含まれる場合 に対し、 前記音声信号を符号化して生成された最適値を復号化する第 2 の音声復号化手段と、
を有することを特徴とする音声復号化処理装置。
1 9 . 音声の生成モデルを仮定して音声分析合成を行う音声処理方法に おいて、
過去の音声信号の信号べク トル系列を格納した適応符号帳を生成し、 音声信号を一定長の処理区間に分割した際に複数周期が含まれない場 合に対し、 前記音声信号を符号化して符号化情報を生成し、
音声信号を一定長の処理区間に分割した際に複数周期が含まれる場合 に対し、 前記適応符号帳の始点から一定の遅れ間隔ずれた位置に格納さ れている信号べク トルと、 前記信号べク トルの近傍に格納されている近 傍べク トルとを抽出し、
前記音声信号の周期性に関する長期予測分析合成を、 前記信号べク ト ルと前記近傍べク トルとに対して高次の長期予測合成フィル夕を用いて 行って、 長期予測音声信号を生成し、
前記長期予測合成フィル夕のフィル夕係数を算出し、
声道特性を表す線形予測分析合成によって推定した線形予測合成フィ ル夕と聴覚特性の重み付け処理を行う聴覚重み付けフィル夕とを用いて. 前記長期予測音声信号から再生符号化音声信号を生成し、
前記音声信号と、 前記再生符号化音声信号と、 の誤差を算出し、 前記遅れを変化させて繰り返し算出した前記誤差の中から、 最小誤差 を検出し、
前記最小誤差を検出した時のフィル夕係数である最適フィル夕係数と. 前記最小誤差を検出した時の遅れである最適遅れと、 を最適値として送 信し、
前記符号化情報または前記最適値を復号化して、 音声を再現すること を特徴とする音声処理方法。
PCT/JP1999/002089 1999-04-19 1999-04-19 Codeur de parole, processeur de parole et procede de traitement de la parole WO2000063878A1 (fr)

Priority Applications (5)

Application Number Priority Date Filing Date Title
EP99913723A EP1187337B1 (en) 1999-04-19 1999-04-19 Speech coding processor and speech coding method
PCT/JP1999/002089 WO2000063878A1 (fr) 1999-04-19 1999-04-19 Codeur de parole, processeur de parole et procede de traitement de la parole
JP2000612922A JP3905706B2 (ja) 1999-04-19 1999-04-19 音声符号化装置、音声処理装置及び音声処理方法
DE69937907T DE69937907T2 (de) 1999-04-19 1999-04-19 Sprachkodiererprozessor und sprachkodierungsmethode
US09/897,839 US6470312B1 (en) 1999-04-19 2001-07-02 Speech coding apparatus, speech processing apparatus, and speech processing method

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
PCT/JP1999/002089 WO2000063878A1 (fr) 1999-04-19 1999-04-19 Codeur de parole, processeur de parole et procede de traitement de la parole

Related Child Applications (1)

Application Number Title Priority Date Filing Date
US09/897,839 Continuation US6470312B1 (en) 1999-04-19 2001-07-02 Speech coding apparatus, speech processing apparatus, and speech processing method

Publications (1)

Publication Number Publication Date
WO2000063878A1 true WO2000063878A1 (fr) 2000-10-26

Family

ID=14235515

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/JP1999/002089 WO2000063878A1 (fr) 1999-04-19 1999-04-19 Codeur de parole, processeur de parole et procede de traitement de la parole

Country Status (5)

Country Link
US (1) US6470312B1 (ja)
EP (1) EP1187337B1 (ja)
JP (1) JP3905706B2 (ja)
DE (1) DE69937907T2 (ja)
WO (1) WO2000063878A1 (ja)

Families Citing this family (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7072832B1 (en) 1998-08-24 2006-07-04 Mindspeed Technologies, Inc. System for speech encoding having an adaptive encoding arrangement
DE19934296C2 (de) * 1999-07-21 2002-01-24 Infineon Technologies Ag Prüfanordnung und Verfahren zum Testen eines digitalen elektronischen Filters
US6910007B2 (en) * 2000-05-31 2005-06-21 At&T Corp Stochastic modeling of spectral adjustment for high quality pitch modification
US7103538B1 (en) * 2002-06-10 2006-09-05 Mindspeed Technologies, Inc. Fixed code book with embedded adaptive code book
US9058812B2 (en) * 2005-07-27 2015-06-16 Google Technology Holdings LLC Method and system for coding an information signal using pitch delay contour adjustment
PT2165328T (pt) 2007-06-11 2018-04-24 Fraunhofer Ges Forschung Codificação e descodificação de um sinal de áudio tendo uma parte do tipo impulso e uma parte estacionária
KR101403340B1 (ko) * 2007-08-02 2014-06-09 삼성전자주식회사 변환 부호화 방법 및 장치
US9972301B2 (en) * 2016-10-18 2018-05-15 Mastercard International Incorporated Systems and methods for correcting text-to-speech pronunciation

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS6068400A (ja) * 1983-09-26 1985-04-18 沖電気工業株式会社 音声分析合成方法
JPH05113800A (ja) * 1991-10-22 1993-05-07 Nippon Telegr & Teleph Corp <Ntt> 音声符号化法
JPH0981174A (ja) * 1995-09-13 1997-03-28 Toshiba Corp 音声合成システムおよび音声合成方法
JPH09134196A (ja) * 1995-11-08 1997-05-20 Matsushita Electric Ind Co Ltd 音声符号化装置

Family Cites Families (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5265190A (en) * 1991-05-31 1993-11-23 Motorola, Inc. CELP vocoder with efficient adaptive codebook search
WO1995024776A2 (en) * 1994-03-11 1995-09-14 Philips Electronics N.V. Transmission system for quasi-periodic signals
IT1277194B1 (it) * 1995-06-28 1997-11-05 Alcatel Italia Metodo e relativi apparati di codifica e di decodifica di un segnale vocale campionato
JP3499658B2 (ja) 1995-09-12 2004-02-23 株式会社東芝 対話支援装置
US5774837A (en) * 1995-09-13 1998-06-30 Voxware, Inc. Speech coding system and method using voicing probability determination

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS6068400A (ja) * 1983-09-26 1985-04-18 沖電気工業株式会社 音声分析合成方法
JPH05113800A (ja) * 1991-10-22 1993-05-07 Nippon Telegr & Teleph Corp <Ntt> 音声符号化法
JPH0981174A (ja) * 1995-09-13 1997-03-28 Toshiba Corp 音声合成システムおよび音声合成方法
JPH09134196A (ja) * 1995-11-08 1997-05-20 Matsushita Electric Ind Co Ltd 音声符号化装置

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
KLEIJN W. B. ET AL: "Improved Speech Quality and Efficient Vector Quantization in Selp", PROC. IEEE ICASSP-88, vol. 1, 1988, pages 155 - 158, XP002923665 *
See also references of EP1187337A4 *

Also Published As

Publication number Publication date
EP1187337A4 (en) 2005-05-11
EP1187337B1 (en) 2008-01-02
JP3905706B2 (ja) 2007-04-18
DE69937907T2 (de) 2008-12-24
EP1187337A1 (en) 2002-03-13
DE69937907D1 (de) 2008-02-14
US6470312B1 (en) 2002-10-22

Similar Documents

Publication Publication Date Title
JP7209032B2 (ja) 音声符号化装置および音声符号化方法
JPH0736118B2 (ja) セルプを使用した音声圧縮装置
KR20070028373A (ko) 음성음악 복호화 장치 및 음성음악 복호화 방법
JP2004526213A (ja) 音声コーデックにおける線スペクトル周波数ベクトル量子化のための方法およびシステム
JP3628268B2 (ja) 音響信号符号化方法、復号化方法及び装置並びにプログラム及び記録媒体
WO2000063878A1 (fr) Codeur de parole, processeur de parole et procede de traitement de la parole
WO2002071394A1 (en) Sound encoding apparatus and method, and sound decoding apparatus and method
JP3888097B2 (ja) ピッチ周期探索範囲設定装置、ピッチ周期探索装置、復号化適応音源ベクトル生成装置、音声符号化装置、音声復号化装置、音声信号送信装置、音声信号受信装置、移動局装置、及び基地局装置
US6842732B2 (en) Speech encoding and decoding method and electronic apparatus for synthesizing speech signals using excitation signals
CN110709925A (zh) 音频编码
JP3490325B2 (ja) 音声信号符号化方法、復号方法およびその符号化器、復号器
JPH113098A (ja) 音声符号化方法および装置
JP3578933B2 (ja) 重み符号帳の作成方法及び符号帳設計時における学習時のma予測係数の初期値の設定方法並びに音響信号の符号化方法及びその復号方法並びに符号化プログラムが記憶されたコンピュータに読み取り可能な記憶媒体及び復号プログラムが記憶されたコンピュータに読み取り可能な記憶媒体
JPH09244695A (ja) 音声符号化装置及び復号化装置
JP4525693B2 (ja) 音声符号化装置および音声復号化装置
JP3175667B2 (ja) ベクトル量子化法
JP3232728B2 (ja) 音声符号化方法
JPH11272298A (ja) 音声通信方法及び音声通信装置
JP2004020676A (ja) 音声符号化/復号化方法及び音声符号化/復号化装置
JP4525694B2 (ja) 音声符号化装置
JP2020129115A (ja) 音声信号処理方法
JP2001343984A (ja) 有音/無音判定装置、音声復号化装置及び音声復号化方法

Legal Events

Date Code Title Description
AK Designated states

Kind code of ref document: A1

Designated state(s): JP US

AL Designated countries for regional patents

Kind code of ref document: A1

Designated state(s): AT BE CH CY DE DK ES FI FR GB GR IE IT LU MC NL PT SE

DFPE Request for preliminary examination filed prior to expiration of 19th month from priority date (pct application filed before 20040101)
121 Ep: the epo has been informed by wipo that ep was designated in this application
ENP Entry into the national phase

Ref country code: JP

Ref document number: 2000 612922

Kind code of ref document: A

Format of ref document f/p: F

WWE Wipo information: entry into national phase

Ref document number: 09897839

Country of ref document: US

WWE Wipo information: entry into national phase

Ref document number: 1999913723

Country of ref document: EP

WWP Wipo information: published in national office

Ref document number: 1999913723

Country of ref document: EP

WWG Wipo information: grant in national office

Ref document number: 1999913723

Country of ref document: EP