WO2000064055A1 - Dispositif de codage de signaux vocaux - Google Patents

Dispositif de codage de signaux vocaux Download PDF

Info

Publication number
WO2000064055A1
WO2000064055A1 PCT/JP2000/002464 JP0002464W WO0064055A1 WO 2000064055 A1 WO2000064055 A1 WO 2000064055A1 JP 0002464 W JP0002464 W JP 0002464W WO 0064055 A1 WO0064055 A1 WO 0064055A1
Authority
WO
WIPO (PCT)
Prior art keywords
signal
speech
quantization
voice
lsp
Prior art date
Application number
PCT/JP2000/002464
Other languages
English (en)
French (fr)
Inventor
Hisashi Yajima
Original Assignee
Mitsubishi Denki Kabushiki Kaisha
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Mitsubishi Denki Kabushiki Kaisha filed Critical Mitsubishi Denki Kabushiki Kaisha
Priority to EP00915544A priority Critical patent/EP1091495A4/en
Priority to IL14012300A priority patent/IL140123A0/xx
Publication of WO2000064055A1 publication Critical patent/WO2000064055A1/ja
Priority to US09/739,676 priority patent/US6484139B2/en

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/16Vocoder architecture
    • G10L19/18Vocoders using multiple modes
    • HELECTRICITY
    • H03ELECTRONIC CIRCUITRY
    • H03MCODING; DECODING; CODE CONVERSION IN GENERAL
    • H03M7/00Conversion of a code where information is represented by a given sequence or number of digits to a code where the same, similar or subset of information is represented by a different sequence or number of digits
    • H03M7/30Compression; Expansion; Suppression of unnecessary data, e.g. redundancy reduction

Definitions

  • the present invention relates to an audio encoding device used in audio digital wired communication and wireless communication, and particularly to a non-audio encoding device using an audio frequency band such as a DTMF (Dual Tone Multi-Frequency) signal and a PB (Push Button) signal.
  • the present invention relates to an improved method of a speech encoding device for transmitting a speech signal.
  • FIG. 9 shows a schematic block diagram of the encoder
  • FIG. 10 shows a detailed block diagram of the encoder.
  • Such an encoding method is an encoding algorithm that models a human vocal mechanism. That is, a synthetic filter 6 (a linear filter corresponding to a speech vector envelope) that models human vocal tract information is formed, and a time-series signal stored in a codebook corresponding to a human vocal cord sound source. (Output of adder 15) It is based on the CE LP system that reproduces sound by driving.
  • FIG. 11 shows the detailed configuration of the LSP quantizer (309) in the encoder based on the CS-ACELP scheme shown in FIG.
  • 308 is the MA (moving average) predictor of the LSP MA predictor component calculator
  • 330 is a multiplier
  • 331, 332, 333 are adders
  • 338 is a weighting coefficient based on the input LSP coefficient
  • 334 calculates the square error between the quantized LSP vector calculated by the adder 332 and the LSP vector calculated based on the input audio signal, and 334 calculates After multiplying by the calculated weighting coefficient, a least square error calculator having a function of selecting the minimum square error from the quantized LSP vector candidates
  • 335 is the first stage LSP codebook
  • 336 is the second
  • the LSP codebook 337 is a MA prediction coefficient codebook in which a plurality of sets of MA prediction coefficients are stored.
  • the quantization of LSP coefficients is realized by taking three processing procedures. That is, the LSP quantization unit 309 has the following three processing function blocks.
  • MA moving average predictive component calculator 308 for efficiently quantizing by subtracting predictable components between frames.
  • the second-stage LSP quantization codebook that fine-tunes the target LSP roughly quantized in the first stage with a codebook using a random number sequence 1
  • MA moving average
  • the learning codebook of (2) it is possible to efficiently represent the outline of the spectral envelope peculiar to a speech signal with a small amount of information.
  • the random codebook of (3) in addition to the learning codebook of (2), it is possible to flexibly follow the subtle changes in the spectral envelope. From the above viewpoints, it can be said that the LSP quantization unit 309 is a well-suited method for efficiently encoding the characteristics of the speech spectral envelope information.
  • the LSP quantizer 309 is an effective method for encoding the spectral envelope information of the DTMF signal. It can not be said.
  • a non-voice signal such as a DTMF signal has different characteristics from a voice signal in some respects. Under the condition of low coding redundancy, it is not appropriate to use the same technique as for speech signals.
  • signaling transmission is performed in-channel.
  • the assigned transmission path is a transmission path using the above-described high-efficiency voice coding
  • the transmission of the DTMF signal is performed. Since the call quality deteriorates, there is a problem that the call connection cannot be performed normally, which occurs frequently.
  • an apparatus configuration shown in FIG. 12 as shown in Japanese Patent Application Laid-Open No. Hei 9-181999 may be adopted.
  • means for discriminating between a voice signal and a non-voice signal such as a DTMF signal, and a memory storing a pattern in which the DTMF signal is encoded in advance are transmitted to the transmitting side.
  • the index of the memory holding the coding pattern corresponding to the DTMF number is transmitted to the receiving side, and the index is transmitted to the receiving side. And generates a DTMF signal corresponding to the number.
  • an apparatus configuration shown in FIG. 13 may be employed.
  • the encoder 101 with regard to some of the coding processing functional blocks, those optimized for encoding of speech signals and those optimized for compression encoding non-speech signals (for example, DTMF signals) with little distortion And what was done.
  • a configuration for providing means for identifying whether a signal to be transmitted is voice or non-voice, and performing the encoding process after selecting one of the functional blocks according to the determination result of the identification means
  • a means for convolving the decision result with the encoder output is provided so that the transmission can be performed without changing the transmission speed and without deteriorating the voice quality as much as possible.
  • the decoder 201 also has a switching unit corresponding to the encoder 101.
  • the speech / non-speech signal discriminator 102 constantly monitors whether the input signal is a speech signal or a non-speech signal, and codes based on the determination result. Determines the operation mode of unit 101.
  • the voice / non-voice signal discriminator 102 determines “voice”
  • the switching switch 103 is moved to the 103 A side
  • the switching switch 104 is moved to the 104 A side.
  • an encoding processing function block 105 is selected inside the encoder 101, and an operation mode (hereinafter, referred to as a “sound mode”) suitable for encoding a speech signal with high efficiency is selected. ").
  • the encoder 101 performs an encoding process on the audio signal based on an encoding algorithm, and outputs a code corresponding to the input audio. Also, voice / silent If the signal discriminator 102 determines that it is “non-voice,” then move the switch 103 down to 103. ⁇ and the switch 104 down to 104 4. As a result, the encoding processing function block 106 is selected inside the encoder 101, and an operation mode (hereinafter referred to as "") suitable for compression-encoding a non-speech signal such as a DTMF signal with a small distortion. Non-voice mode ").
  • the encoder 101 performs a coding process on a non-voice signal, for example, a DTMF signal, based on a coding algorithm, and outputs a code corresponding to the input non-voice signal.
  • a speech signal or a non-speech signal which is encoded (hereinafter referred to as speech / non-speech code) and an input which is an output of the speech / non-speech signal discriminator 102.
  • the signal identification result (speech signal or non-speech signal) is multiplexed and transmitted to the transmission line.
  • the demultiplexing unit 202 determines the speech / non-speech code, To separate. If the determination result of the voice / non-voice signal discriminator 102 extracted from the signal sequence in this way is “voice”, the switching switch 203 is set to 203 0 and the switch 204 is set to 2 0 4 Push it down to the A side. As a result, the decoding processing function block 205 is selected inside the decoder 201, and the operation mode of the decoder corresponding to the audio mode of the encoder 101 is set. In this mode, the decoder 201 executes a decoding process based on the decoding algorithm, and decodes the audio signal. At this time, since both the encoding and decoding processes are performed in the audio mode, the decoded audio signal has a quality that matches the original performance of the encoding algorithm.
  • the audio / non-speech signal discriminator 1 extracted from the signal sequence by the demultiplexer 202
  • the switching switch 203 is moved to 203B side, and the switching switch 204 is moved to 204B side. As a result, inside the decoder 201
  • the decoding processing function block 206 is selected, and the operation mode of the decoder corresponding to the non-voice mode of the encoder 101 is set.
  • the decoder 201 performs a decoding process based on the decoding algorithm, and decodes a non-voice signal.
  • the decoded non-speech signal has less distortion than in the speech mode.
  • the voice transmission device cannot be rebuilt on the transmitting side and the receiving side simultaneously due to various reasons.
  • a voice transmission device for example, a multimedia multiplexing device
  • a voice transmission device equipped with a voice coding / decoding device based on the CS-ACELP system compliant with the ITU-T recommendation G.729
  • the voice transmitting device on the other side is a conventional type. Since it is a decoder, it is not possible to make an opposite connection. Therefore, the voice transmission device of the other party also needs rebirth, but this requires an even higher investment for the user of the voice transmission device, making replacement difficult.
  • the present invention has been made to solve such a conventional problem, and while improving the transmission characteristics of a non-voice signal such as a DTMF signal, the voice transmission quality inherent in the coding algorithm is improved.
  • a voice coding device that enables non-voice signals such as DTMF signals to be transmitted over the IN channel, while being able to be connected to the conventional decoder.
  • An audio encoding device includes a first quantization processing block suitable for audio encoding, and a second quantization processing block suitable for non-audio encoding.
  • An encoder for compressing and encoding the signal; a speech Z non-speech signal discriminator for discriminating whether a signal input to the encoder is a speech signal or a non-speech signal and outputting a determination result; and a first quantization processing block.
  • a multiplexing unit that multiplexes the output of each of the second quantization processing blocks and outputs the multiplexed output to the transmission path, wherein the encoder responds to the determination result of the speech / non-speech signal discriminator by using the first quantum And a second quantization processing block, wherein the first quantization processing block and the second quantization processing block use the same quantization table to select one of the quantization processing block and the second quantization processing block.
  • the first and second quantization processing blocks are processing blocks that quantize LSP (line spectrum pair) coefficients.
  • the first and second coefficient quantization processing blocks have different evaluation criteria used for determining an optimum quantization value.
  • the evaluation criterion used to determine the optimal quantization value is adaptively changed according to the properties of the input audio signal.
  • the evaluation criterion is stationary irrespective of the properties of the input speech signal.
  • the speech / non-speech signal discriminator has digit detecting means for detecting the digit of the DTMF signal, and inputs the LSP coefficient determined according to the digit value to the second quantization processing block.
  • the second quantization processing block uses a closed-loop search method as a search method for the LSP codebook.
  • a linear prediction residual signal of the input audio signal is used as a parameter used for determining an optimal quantization value.
  • FIG. 1 is a block diagram showing the configuration of a speech encoding device according to Embodiment 1 of the present invention
  • Fig. 2 is a block diagram showing the configuration of a speech encoding device according to Embodiment 2 of the present invention
  • Fig. 3 is an embodiment of the present invention.
  • FIG. 4 is a block diagram illustrating a configuration of a speech encoding device according to a third embodiment of the present invention.
  • FIG. 5 is a block diagram illustrating a configuration of the speech encoding device according to a fourth embodiment of the present invention.
  • FIG. 6 is a block diagram showing the configuration of a speech encoding device according to Embodiment 6 of the present invention, FIG.
  • FIG. 6 is a block diagram showing the configuration of a speech encoding device according to Embodiment 7 of the present invention
  • FIG. I is a block diagram showing a configuration of a speech encoding apparatus according to Embodiment 8 of the present invention
  • FIG. 9 is a schematic block diagram of a conventional encoder
  • FIG. 10 is a more detailed block diagram of the encoder of FIG. 9,
  • FIG. 11 is a diagram showing details of the LSP quantization unit
  • FIG. 12 is a diagram showing another conventional encoder and decoder
  • FIG. 13 is a diagram showing another conventional encoder and decoder.
  • FIG. 1 is a block diagram illustrating a configuration of a speech encoding device according to a first embodiment of the present invention.
  • 101 is an encoder that compresses and encodes a speech signal with high efficiency based on a certain algorithm
  • 102 is whether the input signal to the encoder is a speech signal or a non-speech signal.
  • Speech / non-speech signal discriminator that outputs a judgment result
  • 103, 104 are switching switches as selection means
  • Reference numerals 0 5 and 106 denote parameter quantization processing blocks for performing quantization of a particular parameter of the encoder 101, respectively
  • 108 denotes a quantization processing block 105
  • the quantization table referenced by 106, 107 is the processing procedure 105
  • a multiplexing unit that multiplexes the parameters quantized by the encoder 101 and the other quantized parameters encoded by the encoder 101 and outputs them to the transmission line.
  • the quantization processing block 105 performs optimal quantization for the audio signal. This is the first quantization processing block that has been devised so that it can be performed.
  • the quantization processing block 106 is a second quantization processing block that is devised so as to realize optimal quantization for non-voice signals (for example, DTMF signals).
  • the quantization processing blocks 105 and 106 have different evaluation criteria for determining “optimum” when searching for a quantization table.
  • the same quantization table 108 used when the quantization processing blocks 105 and 106 execute the quantization processing is used. There must be .
  • the code words (quantization index, etc.) assigned to the quantized values must be common to the quantization processing blocks 105 and 106.
  • a speech / non-speech signal discriminator 102 constantly monitors whether an input signal is a speech signal or a non-speech signal, and based on a determination result, determines an operation mode of the encoder 101. To determine. When the voice / non-voice signal discriminator 102 determines that the voice is “voice”, the switching switch 103 is moved to the 103 A side, and the switching switch 104 is moved to the 104 A side. As a result, the encoding processing function block 105 is selected inside the encoder 101, and an operation mode (hereinafter, referred to as "audio mode") suitable for encoding the audio signal with high efficiency. Becomes In this mode, the encoder 101 performs an encoding process on the audio signal based on the encoding algorithm, and outputs a code corresponding to the input audio.
  • an operation mode hereinafter, referred to as "audio mode
  • the voice / non-voice signal discriminator 102 determines that the voice signal is “non-voice”
  • the switching switch 103 is shifted to the 103 B side
  • the switching switch 104 is shifted to the 104 B side. knock down.
  • an encoding processing function block 106 is selected inside the encoder 101, and an operation mode (suitable for compression-encoding a non-speech signal, for example, a DTMF signal, etc. with a small distortion is used.
  • non-voice mode suitable for compression-encoding a non-speech signal, for example, a DTMF signal, etc. with a small distortion.
  • the encoder 101 performs a coding process on a non-voice signal, for example, a DTMF signal, based on a coding algorithm, and outputs a code corresponding to the input non-voice signal.
  • the operation of the speech / non-speech signal discriminator 102 will be described as an example using a DTMF signal as a non-speech signal to be discriminated.
  • the DTMF signal is composed of a dual tone, and the frequency component of the output signal is fixed to a specific value by regulation. Perform frequency analysis using I ⁇ FFT.
  • the level of the DTMF signal is limited to a specific range according to the regulations and the level fluctuation is small, so it is clear that the audio signal has a relatively large level fluctuation and a wide dynamic range. Shows different features. Therefore, by monitoring the level of the input signal and using it as auxiliary information for identifying the DTMF signal, the detection accuracy of the DTMF signal can be improved.
  • the voice / non-voice signal discriminator 102 has a function of calculating the above parameters independently using an input signal, making a judgment based on the parameters, and outputting a result.
  • the multiplexing unit 107 is not only required for the quantization parameters obtained in the above 105 or 106, but also for the speech encoding obtained in other processing blocks of the encoder 101. It is multiplexed with other quantized parameters and transmitted to the receiving side via the transmission path.
  • the identification result output from the voice / DTMF signal identifier 102 since the quantization table 108 and the codeword corresponding to the quantization value are shared, the decoding result has already been obtained. It is no longer required information. Therefore, there is no need to send it to the receiver. For this reason, the same sequence as the conventional encoder can be used for the bit sequence (frame format) transmitted from the multiplexing unit 107.
  • the bit sequence sent from the transmitting side is exactly the same as the conventional one, and the physical characteristics of the parameters expressed by the codeword are also shared with the conventional encoder. Therefore, on the receiving side, decoding can be performed using exactly the same configuration as the conventional decoder.
  • a non-speech signal especially a non-speech signal, particularly
  • some of the processing function blocks are switched to a quantization method that is more suitable for transmitting non-voice signals, and encoding is performed.
  • encoding is performed.
  • non-speech signals while using a common bit sequence. It can be transmitted in a more suitable form.
  • a change is made to a part of the function of the encoding process, and switching is not performed so as to relate to the essence of the algorithm. Even if the speech signal discriminator 102 misidentifies the speech as "non-speech", the speech transmission quality can be maintained to some extent, although there is some deterioration, so that a sound that can be heard during the call is decoded. There is also the advantage that such adverse effects can be suppressed. Example 2.
  • FIG. 1 describes in detail one operation example in a case where an LSP (line spectrum pair) quantization unit is applied to the quantization processing blocks 105 and 106 of the first embodiment.
  • LSP line spectrum pair
  • a CS-ACELP method ITU-II compliant with Recommendation G.729
  • 3 ⁇ and 3 ⁇ are LSP quantization blocks that perform LSP quantization.
  • 3 A is a quantizer (hereinafter, referred to as a voice LSP quantizer) optimized for the quantization of the LSP parameter of the audio signal, and 35 is 0? 3? It is a quantizer (same as above) that is optimized for the parameter quantization.
  • a quantizer (same as above) that is optimized for the parameter quantization.
  • components having the same reference numerals as those in FIGS. 1, 9 and 10 are components having the same functions as those described in the section of the first embodiment, and therefore, duplicate description will be omitted.
  • LSP line spectrum pair
  • the LSP method is used as a transmission method for the vector envelope information parameter.
  • LSP Line-Spectrum Pair
  • a speech / non-speech signal discriminator 102 constantly monitors whether an input signal is a speech signal or a non-speech signal, and determines the state of the switching switches 103 and 104 based on the determination result. To determine. When the voice / non-voice signal discriminator 102 determines that the voice is "voice”, the switching switch 103 is moved to the 103A side, and the switching switch 104 is moved to the 104A side. As a result, the audio LSP quantizer 3A is selected as the quantization processing block, and the audio mode is set to "audio mode".
  • the switch 103 When the voice / non-voice signal discriminator 102 determines that the voice signal is "non-voice", the switch 103 is moved to the 103B side, and the switching switch 104 is moved to the 104B side. As a result, the DTMF LSP quantizer 3B is selected as the LSP quantization processing block, and set to the “non-voice mode”.
  • the audio LSP quantizer 3A has, for example, the same configuration as that of FIG. That is,
  • the quantizer 3A quantizes the LSP, which is a parameter in the frequency domain, using the least square error as an evaluation criterion.
  • the one selected as the optimum quantization value is the one whose square error takes the minimum value. Therefore, it is highly possible that the quantization error is reflected in the decoded audio signal as frequency distortion.
  • the spectral distortion of voice is detected as an average over a long period of time, even if the frequency distortion is instantaneously increased due to the state of the MA predictor 308, it is often not detected as distortion.
  • the reception rules for small changes in the spectrum peak are strict (for example, see TTC Standard JJ—20.12).
  • PBX TDM digital interface (individual line signaling) — PBX—P
  • the frequency deviation from the signal frequency specified in the PB transmission rules is specified to be within ⁇ 1.8%). It is considered weak.
  • the time period when the spectral distortion has momentarily increased due to the state of the MA predictor 308 is determined. If they are detected as detected samples, they will be maximally affected by the LSP quantization error and may not be recognized as DTMF signals. In this way, it can be said that it is necessary to pay more attention to frequency distortion than to voice when transmitting DTMF.
  • Some commercially available DTMF detectors employ a method of detecting higher-order frequency beaks, such as the third formant, to distinguish between voice and DTMF, but the frequency of the main signal Since it is not intended to detect signals more strictly than the components, it is considered that loose components of the DTMF do not degrade the transmission characteristics of the DTMF, even if the distortion is loose.
  • the DTMF quantizer 309 B allows the quantization error for other frequency components to increase and minimizes the quantization error near the frequency components that make up the DTMF. To be configured. As described above, according to the present embodiment, at the time of encoding, it is devised to minimize the spectral distortion due to quantization in the vicinity of the tone frequency which is a decisive factor for DTMF detection. The effect is that DTMF signals that are faithful to the original signal can be decoded.
  • the quantization error weighting coefficient calculation unit 338 which is a function block inside the LSP quantization processing block 309 of the second embodiment, is used in accordance with the determination result of the voice / DTMF signal discriminator 102 when the voice input and the It is designed so that it can be switched adaptively between input and output.
  • 338A is the quantization of the LSP coefficient of the audio signal.
  • the voice weighting coefficient calculator 338B designed to optimize the difference is a DTMF weighting coefficient calculator designed to optimize the quantization error of the LSP coefficient of the DTMF signal.
  • the weighting coefficient used for the quantization error calculation is calculated by the method represented by the following equation (1) according to the CS-ACELP method.
  • the weighting factor is increased in the frequency region where the spectrum beak comes, and the weighting factor is reduced in the frequency region where the spectrum is in the "valley". This has the effect of making the contribution of the quantization error heavier in the frequency region showing the spectrum beak, and sharpening the sensitivity to the error.
  • the DTMF signal is LSP-encoded, it is thought that the LSP of the order with a large weighting coefficient will correspond to the tone frequency.
  • the coefficient is set to a certain threshold. If it exceeds, it is only necessary to perform processing to multiply the weighting coefficient by a correction value of 1 or more. Threshold value and correction value used here It is desirable to experimentally determine the optimum value in consideration of the DTMF recognition rate on the receiving side and the deterioration of voice quality due to erroneous detection of the voice /: DTMF signal discriminator 102.
  • LSP quantization is performed at the time of encoding by changing the evaluation criterion of the quantization error in the vicinity of the dual tone frequency constituting the DTMF signal. Since it is devised to minimize the spectrum distortion, there is an effect that a DTMF signal more faithful to the original signal can be decoded.
  • Example 4
  • the DTMF weighting coefficient calculation processing unit 338B of the first embodiment is replaced with a weighting coefficient storage memory 338C.
  • the spectrum beak corresponding to the low group frequency involves the first to third-order LSP coefficients (in particular, the primary and secondary contributions are large).
  • LSP coefficients of the 4th to 6th orders are involved (also the 5th and 6th order contributions are large), and other LSP coefficients are used in the spectral envelope representation of the DTMF signal. It turns out that they are hardly involved.
  • a weighting sequence in which the weights of the 1st to 6th LSP coefficients are increased and the weights of the 7th to 10th LSP coefficients are extremely reduced is determined in advance by some method. And store it. If the result of the speech / DTMF signal discriminator is “DTMF”, the least squares error is searched using the weighting coefficient in this memory without calculating from the LSP coefficient before quantization. I do.
  • a digit detection function is added to the voice / DTMF signal discriminator 102 of the second embodiment (102A), and according to the digit detection result, an optimal LSP coefficient is stored in a memory 111 in advance. Adds the function to load ⁇
  • the value of the DTMF digit detected by the signal discriminator 102A is sent to the memory 111.
  • the memory 111 stores LSP coefficients corresponding to each digit, extracts corresponding LSP coefficients according to the output of the signal discriminator 102A, and sends the LSP coefficients to the LSP quantization unit.
  • the LSP coefficient stored in the memory is obtained by previously calculating the LSP coefficient in an ideal DTMF waveform.
  • the quantizer 38 searches the quantization codebook based on the ideal LSP coefficients loaded from the memory, and outputs an index.
  • the present embodiment uses a so-called closed-loop search method as a search method of an LSP codebook when detecting DTMF in the LSP quantization unit 3B of the second embodiment.
  • the operation of the switches 103 and 104 by the signal discriminator 102 is the same as in the second embodiment.
  • the LSP coefficient is quantized based on the input signal, and the coefficient of the synthesis filter is determined.
  • the speech signal is synthesized by changing the combination of the adaptive codebook index 6A, the noise codebook index 6B, and the gain codebook index 6C of the excitation signal so that the square error with the input speech signal is minimized. Decide which combination of indexes to use.
  • the coefficients of the composite filter are not determined first, and will be decoded by the decoder as in the other three types of quantization parameters.
  • the synthesized speech waveform is evaluated.
  • the combination of the adaptive codebook index 6A, the noise codebook index 6B, and the gain codebook index 6C of the excitation signal which are the quantization parameters transmitted to the decoder, yields the excitation signal 6 of the composite filter.
  • the least square error search unit 17 finds the square error between the plurality of types of synthesized signals obtained as described above and the speech signal 6F input to the encoder. Among them, select the combination of quantization parameters that minimizes the square error. Each parameter is coded, multiplexed by the multiplexing unit 107, and transmitted to the decoder.
  • speech is synthesized for all four combinations of quantization parameters of the LSP codebook index 6D, and the square of the input signal and the synthesized signal is calculated for each synthesized signal waveform.
  • the error and search for a combination of quantization parameters that minimizes the error it is possible to decode a DTMF signal with little waveform distortion.
  • a seventh embodiment according to the present invention will be described with reference to FIGS.
  • a plurality of types of excitation signals used in the evaluation of LSP quantization in the sixth embodiment are replaced with prediction residual signals of input signals.
  • the speech signal input to the encoder is subjected to linear prediction analysis in block 2, and is also input to an inverse synthesis filter 110 constructed using the linear prediction coefficients obtained therefrom.
  • the linear prediction residual signal 7 A output from the inverse synthesis filter 110 is input to the LSP quantizer for DTMF and used for evaluation at the time of LSP quantization.
  • the inverse synthesis filter 110 can be composed of, for example, a transfer function represented by the following equation (2). 10 —i
  • h is a linear prediction coefficient calculated by the linear prediction analysis unit 2.
  • a method using a normal voice coding / decoding algorithm which is more suitable for voice coding, and when transmitting a non-voice signal, particularly a DTMF signal, etc.
  • Some processing function blocks are D
  • the speech signal discriminator 102 since a part of the encoding / decoding process is changed, and the switching related to the essence of the algorithm is not performed, for example, voice / non Even if the speech signal discriminator 102 mistakenly identifies it as "non-speech", it can maintain a certain level of speech transmission quality, albeit with some degradation, so it decodes sounds that can be heard during a call. There is also the advantage that the adverse effects such as endurance are suppressed.

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)
  • Use Of Switch Circuits For Exchanges And Methods Of Control Of Multiplex Exchanges (AREA)
  • Telephonic Communication Services (AREA)

Description

明 細 書 音声符号化装置 技術分野
本発明は、 音声のディジ夕ル有線通信および無線通信において用いられる音声 符号化装置に関し、 特に DTMF (Dual Tone Multi-Frequency) 信号、 PB (Push Button) 信号などの、 音声周波数帯域を用いた非音声信号を伝送する 事を目的とした音声符号化装置の改良方法に関する。 背景技術
企業内通信においては、 通信コストの低減が最も重要な課題である。 通信トラ ヒックの大部分を占める音声信号の高能率伝送を実現するため、 近年、 8 kb i t / s C S— A C E L- P ( Conjugate-Structure Algebraic-Code-Excited Line ar Prediction : 共役構造代数的符号励振線形予測) 音声符号化方式 (ITU-T勧 告 G.729準拠) に代表されるような、 音声符号化 '復号方式に基づく高能率音声 符号化装置を適用する事例が増えつつある。
伝送速度が 8 kb i t/sクラスの音声符号化アルゴリズムにおいては、 少な い情報量で高品質な音声を得るため、 入力信号を音声信号に特化した構成となつ ている。 この事を上記 8 kb i t/s CS— ACELP方式を例にとって説明 する。 図 9に符号器の概略ブロック図を、 図 1 0に同詳細ブロック図を示す。 このような符号化方式は、 人間の発声機構をモデル化した符号化ァルゴリズム となっている。 即ち、 人間の声道情報をモデル化した合成フィル夕 6 (音声のス ベクトル包絡に対応する線形フィル夕) を構成し、 人間の声帯音源に相当する、 符号帳に蓄えられた時系列の信号 (加算器 1 5の出力) で駆動する事によって音 声を再生する CE LP方式に基づいている。
なお、 詳細なアルゴリズムの説明は、 ITU-T Recommendation G.729, "Codi ng of Speech at 8kbit/s usmg Conjugate-Structure Algebraic-Code-Excited Linear Prediction(CS-ACLEP)"を参照されたい。 W j符号化アルゴリズムが音声に特化された構造になると、 高能率音声符号化装置 を用いた伝送路において、 音声周波数帯域を用いた音声信号以外の信号 (例えば
、 DTMF信号、 PB信号、 No.5シグナリング、 モデム信号など) の伝送特性 は、 伝送効率が高能率になればなるほど低下する傾向がある。
この事を示す一例として、 LSP量子化部の詳細について、 図 1 1を用いて説 明する。 図 1 1は、 図 9に示した CS— ACELP方式に基づく符号器内の LS P量子化部 (309) の詳細構成である。 図 1 1において 308は L SPの MA (移動平均) 予測成分を計算する MA予測成分計算器、 330は乗算器、 331 , 332, 333は加算器、 338は入力 LSP係数をもとに重み付け係数を算 出する量子化誤差重み付け係数計算部、 334は加算器 332で計算された量子 化 LSPベクトルと、 入力音声信号をもとに計算された LSPべクトルとの自乗 誤差を計算し、 334で計算された重み付け係数を乗じた後、 量子化 LSPべク トル候補の中から最小の自乗誤差を選択する機能を備えた最小自乗誤差計算器、 335は第 1段 LSP符号帳、 336は第 2段 LSP符号帳、 337は M A予測 係数のセットが複数種類格納された M A予測係数符号帳である。
なおく この構成を用いた L S P量子化方法については、 片岡他、 「CS-ACEL Pの LSPとゲインの量子化法」 、 NTT R&D、 Vol.45 No.4 1996 pp.331-336に 詳細に述べられているのでこの場での説明は省略する。 この L S P量子化方式を 用いる事により、 音声信号のスぺクトル包絡情報を効率よく量子化できる事が知 られている。
CS-ACE L P音声符号化方式においては、 L S P係数の量子化に 3つの処 理手順を踏む事で実現している。 即ち、 LSP量子化部 309は、 以下に示す 3 つの処理機能ブロックを有している。
( 1) フレーム間で予測可能な成分を差し引いて効率的に量子化するための、 MA (移動平均) 予測成分計算部 308
(2) ターゲットとなる LSPを、 音声により学習された符号帳を用いて大雑 把に量子化を行う第 1段 LSP量子化符号帳 335
(3) 第 1段で大雑把に量子化されたターゲット LSPに対して、 乱数系列を 用いた符号帳で微調整を行う第 2段 LSP量子化符号帳 336 1 (1) の MA (移動平均) 予測を用いる事により、 周波数特性の急激な変化の 少ない、 即ちフレーム間で相関性の強い信号を効率的に量子化する事が出来る。 また (2) の学習符号帳を用いることにより、 音声信号特有のスペクトル包絡の 概形を、 少ない情報量で効率よく表現することが出来る。 また、 (2) の学習符 号帳に加えて、 (3) の乱数符号帳を併用することにより、 スペクトル包絡の微 妙な変化にも柔軟に追随する事が出来る。 以上の観点から、 LSP量子化部 30 9は、 音声のスペクトル包絡情報の特徴を効率よく符号化するのに、 良く適した 方式であるといえる。
一方、 非音声信号、 特に DTMF信号の符号化においては、 以下のような性質 を考慮する必要がある。
•スぺクトル包絡に関して、 音声信号と DTMF信号とでは明らかに異なって いる。
-信号継続時間と、 ポーズ時間との間で、 スペクトル特性に急激な変化がある 。 利得も急激に変化する。 ただし、 信号継続時間内に限定すれば、 スペクトル特 性、 利得ともに変化量が極めて小さい。
• LSPの量子化歪が、 そのまま DTMF信号の周波数歪に反映されるため、 L S P量子化歪は出来るだけ小さくする必要がある。
• DTMF信号が継続する区間においては、 周波数特性は極めて安定している 以上の観点から、 上記 LSP量子化部 309は、 DTMF信号のスペクトル包 絡情報を符号化するのに効果的な方法であるとは言えない。
以上の例で示したように、 DTMF信号のような非音声信号は、 いくつかの観 点で音声信号とは異なる性質を有しているため、 非音声信号の符号化に当たって 、 特に伝送速度が低く符号化のための冗長性が少ないという条件の下では、 音声 信号と同じ手法を用いるのは適当とは言えない。
ところで、 企業内通信においては、 電話通信における呼接続などのために、 シ グナリング伝送のための信号線を別途設ける事をせず、 DTMF信号等を用いて
、 インチャネルでシグナリング伝送を行う事が多い。 この場合、 割当てられた伝 送路が、 上記の高能率音声符号化を用いた伝送路であれば、 DTMF信号の伝送 ^性は悪化するため、 呼接続が正常に出来なくなるケースが、 高い頻度で発生す るといった弊害がある。
このような問題を解決する第 1の手段として、 例えば、 特開平 9一 8 1 1 9 9 号公報に示されるような、 図 1 2の装置構成がとられる事がある。 この構成にお いては、 送信側に、 音声信号と、 D T M F信号のような非音声信号とを識別する 手段と、 D T M F信号をあらかじめ符号化したパターンを記憶しているメモリを 、 送信側と受信側とで有しており、 本識別手段において D T M F信号の入力を識 別すると、 D T M Fの番号に対応する符号化パターンを保持するメモリのィンデ ックスを受信側に送信し、 受信側では、 そのインデックスを識別して、 その番号 に対応する D T M F信号を生成するものである。
また、 このような問題を解決する第 2の手段として、 例えば、 図 1 3の装置構 成がとられる事がある。 符号器 1 0 1において、 一部の符号化処理機能ブロック に関して、 音声信号の符号化に最適化されたものと、 非音声信号 (例えば D T M F信号) を少ない歪で圧縮符号化できるように最適化されたものとを設ける。 伝 送する対象となる信号が音声か、 非音声かを識別する手段を設け、 識別手段の判 定結果に応じて、 上記機能プロックのいずれかを選択した上で符号化処理を行う ような構成とする。 符号器出力に判定結果を畳み込む手段を設け、 伝送速度を変 えず、 かつ音声品質を極力劣化させずに伝送できるような構成にする。 また、 復 号器 2 0 1側も、 符号器 1 0 1に対応する切替手段を備えた。
次に、 この音声符号化 ·復号装置の動作について説明する。 図 1 3の送信側に おいて、 音声/非音声信号識別器 1 0 2は、 入力される信号が音声信号か、 非音 声信号であるかを常に監視し、 その判定結果に基づいて符号器 1 0 1の動作モー ドを決定する。 音声/非音声信号識別器 1 0 2で 「音声」 と判定されたときは、 切替スィツチ 1 0 3を 1 0 3 A側に、 同 1 0 4を 1 0 4 A側にそれそれ倒す。 そ の結果、 符号器 1 0 1の内部において、 符号化処理処理機能ブロック 1 0 5が選 択され、 音声信号を高能率に符号化するのに適した動作モード (以下、 "音声モ —ド" と称する) となる。
このモードにおいて、 符号器 1 0 1は音声信号を符号化アルゴリズムに基づい て符号化処理を実行し、 入力音声に対応する符号を出力する。 また、 音声/非音 信号識別器 1 0 2で 「非音声」 と判定されたときは、 切替スィッチ 1 0 3を 1 0 3.Β側に、 同 1 0 4を 1 0 4 Β側にそれそれ倒す。 その結果、 符号器 1 0 1の 内部において、 符号化処理機能ブロック 1 0 6が選択され、 非音声信号、 例えば D T M F信号等を、 少ない歪で圧縮符号化するのに適した動作モード (以下 "非 音声モード" と称する) となる。
このモードにおいて、 符号器 1 0 1は非音声信号、 例えば D T M F信号等を符 号化アルゴリズムに基づいて符号化処理を実行し、 入力された非音声信号に対応 する符号を出力する。 さらに多重化部 1 0 7では、 音声信号、 或いは非音声信号 が符号化されたもの (以下、 音声/非音声符号と称する) と、 音声/非音声信号 識別器 1 0 2の出力である入力信号の識別結果 (音声信号か、 非音声信号か) を 多重化して、 伝送路へ送出する。
一方、 図 1 3の受信側においては、 まず伝送路から受信した信号列から、 多重 分離部 2 0 2において音声/非音声符号と、 音声/非音声信号識別器 1 0 2の判 定結果とに分離する。 このように信号列から取り出された音声/非音声信号識別 器 1 0 2の判定結果が、 「音声」 であれば、 切替スィツチ 2 0 3を 2 0 3 Α側に 、 同 2 0 4を 2 0 4 A側にそれそれ倒す。 その結果、 復号器 2 0 1の内部におい て、 復号処理機能ブロック 2 0 5が選択され、 符号器 1 0 1の音声モードに対応 した復号器の動作モードとなる。 このモードにおいて、 復号器 2 0 1は復号アル ゴリズムに基づいて復号処理を実行し、 音声信号を復号する。 このとき、 符号化 •復号処理はいずれも音声モードで実行されているので、 復号された音声信号は 、 符号化アルゴリズムがもつ本来の性能に見合った品質となっている。
また、 多重分離部 2 0 2で信号列から取り出された音声/非音声信号識別器 1
0 2の判定結果が、 「非音声」 であれば、 切替スィツチ 2 0 3を 2 0 3 B側に、 同 2 0 4を 2 0 4 B側にそれそれ倒す。 その結果、 復号器 2 0 1の内部において
、 復号処理機能プロック 2 0 6が選択され、 符号器 1 0 1の非音声モードに対応 した復号器の動作モードとなる。 このモードにおいて、 復号器 2 0 1は復号アル ゴリズムに基づいて復号処理を実行し、 非音声信号を復号する。 このとき、 符号 ィ匕 ·復号処理はいずれも非音声モードで実行されているので、 復号された非音声 信号は、 音声モードで実行されるよりも、 一層歪の少ないものとなっている。 I以上述べたような従来の実施例に依れば、 音声信号伝送時には音声の符号化に より適した、 通常の音声符号化 ·復号アルゴリズムを用いた方法で、 また、 非音 声信号、 特に D T M F信号等の伝送時においては、 一部の処理機能ブロックを、 非音声信号の符号化により適した方法に切替えて、 符号化 ·復号処理を実行する ので、 非音声信号伝送時に、 伝送速度を上げる事無く、 高品質の非音声信号を伝 送する事が出来る。
上記の従来例に基づく音声通信システムを構築するに当たっては、 符号器 1 0 1、 復号器 2 0 1両者に上記の非音声モードを搭載する事が必須である。 送信側 (符号化側) の改良のみでは、 非音声モードに対して復号器側が対応できていな いため、 正常な音声信号を復号する手段がなく、 異音の発生など、 通話者にとつ て好ましくない現象が発生する事が考えられる。
ところで、 企業内通信システム等の構築に当たっては、 諸事情により音声伝送 装置を送信側と受信側とで同時にリブレイス出来ない事例が発生する。 例えば、 従来 I T U— T勧告 G . 7 2 9に準拠した C S—A C E L P方式に基づく音声符 号化 ·復号装置を搭載した音声伝送装置 (例えばマルチメディア多重化装置) が 構築されていたとする。 ここで、 D T M Fのインチャネル伝送の実現を目的とし て、 上記に掲げたような非音声モードに対応した音声伝送装置を、 送信側のみリ プレイスしたとしても、 相手側の音声伝送装置は従来型復号器であるため、 対向 接続が出来ない。 従って、 相手先の音声伝送装置もリブレイスが必要となるが、 音声伝送装置のユーザに更に高額な投資を要求する事となるため、 リプレイスを 困難なものとしていた。
本発明は、 このような従来の問題を解決するためになされたものであり、 D T M F信号等の非音声信号の伝送特性の改善を図りつつ、 符号化ァルゴリズムが本 来持っている音声伝送品質が維持された高能率音声符号化 ·復号装置を提供する に当たり、 従来型の復号器と対向接続を可能としつつ、 D T M F信号等の非音声 信号を、 ィンチャネルで伝送可能とする音声符号化装置を得ることを目的とする J 発明の開示
この発明に係る音声符号化装置は、 音声の符号化に適した第 1の量子化処理ブ ロック、 及び非音声の符号化に適した第 2の量子化処理ブロックを有し、 入力さ れる信号を圧縮符号化する符号器と、 符号器に入力される信号が音声信号か非音 声信号かを識別し、 判定結果を出力する音声 Z非音声信号識別器と、 第 1の量子 化処理ブロック及び第 2の量子化処理ブロックの各々の出力を多重化し伝送路に 出力する多重化部とを備え、 符号器は、 音声/非音声信号識別器の判定結果に応 じて、 第 1の量子化処理ブロック、 または第 2の量子化処理ブロックのいずれか を選択する選択手段を有し、 第 1の量子化処理プロック及び第 2の量子化処理ブ 口ックは、 同一の量子化テーブルを用いて信号を圧縮符号化する。
また、 第 1及び第 2の量子化処理ブロックは、 L S P (線スペクトル対) 係数 を量子化する処理プロックである。
また、 L S P係数を量子化する際、 最適な量子化値を決定するために用いられ る評価基準について、 第 1及び第 2の係数量子化処理ブロックは、 それそれ相異 なる評価基準を有する。
また; 第 1の量子化処理ブロックにおいて、 L S P係数を量子化する際、 最適 な量子化値を決定するために用いられる評価基準を、 入力された音声信号の性質 に応じて適応的に変化させるのに対し、 第 2の量子化処理ブロックにおいては、 評価基準は入力された音声信号の性質にかかわらず定常的である。
また、 音声/非音声信号識別器は、 D T M F信号のディジットを検出するディ ジット検出手段を有し、 ディジットの値に応じて決められた L S P係数を、 第 2 の量子化処理プロックに入力する。
また、 第 2の量子化処理ブロックは、 L S P符号帳の探索方法に閉ループ探索 法を用いる。
さらに、 第 2の量子化処理ブロックにおいて、 最適な量子化値を決定するため に用いられるパラメ一夕として、 入力された音声信号の線形予測残差信号を用い o , 図面の簡単な説明
図.1は本発明の実施例 1における音声符号化装置の構成を示すプロック図、 図 2は本発明の実施例 2における音声符号化装置の構成を示すプロック図、 図 3は本発明の実施例 3における音声符号化装置の構成を示すプロック図、 図 4は本発明の実施例 4における音声符号化装置の構成を示すプロック図、 図 5は本発明の実施例 5における音声符号化装置の構成を示すプロック図、 図 6は本発明の実施例 6における音声符号化装置の構成を示すプロック図、 図 Ίは本発明の実施例 7における音声符号化装置の構成を示すプロック図、 図 8は本発明の実施例 8における音声符号化装置の構成を示すプロック図、 図 9は従来の符号器の概略プロック図、
図 1 0は図 9の符号器の更に詳細なブロック図、
図 1 1は L S P量子化部の詳細を示す図、
図 1 2は従来の他の符号器及び復号器を示す図、
図 1 3は従来の他の符号器及び復号器を示す図である。
• 発明を実施するための最良の形態
実施例 1 .
以下、 本発明の一実施例について図面を参照しながら説明する。
図 1は本発明の第 1の実施例における音声符号化装置の構成を示すプロック図 である。 図 1において、 1 0 1は音声信号をあるアルゴリズムに基づき高能率に 圧縮符号化する符号器、 1 0 2は符号器への入力信号が音声信号か、 非音声信号
(例えば、 D T M F信号、 P B信号、 No.5シグナリング等) かを識別し、 判定 結果を出力する音声/非音声信号識別器、 1 0 3、 1 0 4は選択手段としての切 替スィッチ、 1 0 5、 1 0 6はそれそれ符号器 1 0 1のある特定のパラメ一夕の 量子化を実行するパラメ一夕量子化処理ブロック、 1 0 8は上記量子化処理プロ ック 1 0 5, 1 0 6で参照される量子化テーブル、 1 0 7は処理プロヅク 1 0 5
, 1 0 6で量子化されたパラメ一夕と、 符号器 1 0 1で符号化されたそれ以外の 量子化パラメ一夕とを多重化して伝送路に出力する多重化部である。
ここで量子化処理ブロック 1 0 5は、 音声信号を対象とした最適な量子化が実 ^できるよう工夫がなされている第 1の量子化処理ブロックである。 一方、 量子 化処理ブロック 1 0 6は非音声信号 (例えば D T M F信号) を対象とした最適な 量子化が実現できるよう工夫がなされている第 2の量子化処理ブロックである。 例えば、 量子化処理プロック 1 0 5と 1 0 6とでは、 量子化テーブル探索時に 「 最適」 と判断する評価基準が異なっているとする。 なお、 本実施例を実現するに 当たっては、 上記量子化処理ブロック 1 0 5, 1 0 6が量子化処理を実行する際 に参照する量子化テーブル 1 0 8は、 ともに同一のものを用いなければならない 。 また、 量子化値に割り当てられる符号語 (量子化インデックスなど) も、 量子 化処理プロック 1 0 5と 1 0 6とで共通でなければならない。
次に、 この音声符号化装置の動作について説明する。 図 1において、 音声/非 音声信号識別器 1 0 2は、 入力される信号が音声信号か、 非音声信号であるかを 常に監視し、 その判定結果に基づいて符号器 1 0 1の動作モードを決定する。 音 声/非音声信号識別器 1 0 2で 「音声」 と判定されたときは、 切替スィツチ 1 0 3を 1 0 3 A側に、 同 1 0 4を 1 0 4 A側にそれそれ倒す。 その結果、 符号器 1 0 1の内部において、 符号化処理処理機能ブロック 1 0 5が選択され、 音声信号 を高能率に符号化するのに適した動作モード (以下、 "音声モード" と称する) となる。 このモードにおいて、 符号器 1 0 1は音声信号を符号化アルゴリズムに 基づいて符号化処理を実行し、 入力音声に対応する符号を出力する。
また、 音声/非音声信号識別器 1 0 2で 「非音声」 と判定されたときは、 切替 スィッチ 1 0 3を 1 0 3 B側に、 同 1 0 4を 1 0 4 B側にそれそれ倒す。 その結 果、 符号器 1 0 1の内部において、 符号化処理機能ブロック 1 0 6が選択され、 非音声信号、 例えば D T M F信号等を、 少ない歪で圧縮符号化するのに適した動 作モード (以下 "非音声モード" と称する) となる。 このモードにおいて、 符号 器 1 0 1は非音声信号、 例えば D T M F信号等を符号化アルゴリズムに基づいて 符号化処理を実行し、 入力された非音声信号に対応する符号を出力する。
音声/非音声信号識別器 1 0 2の動作について、 一例として、 識別の対象とな る非音声信号に D T M F信号を用いて説明する。 D T M F信号はデュアルトーン で構成されており、 出力される信号の周波数成分は、 規定により特定の値に固定 されている事から、 I · F F T等を用いて周波数分析を行う。
-パンドパスフィル夕を用いて特定の周波数成分を濾波する
等の方法を用いて、 周波数軸上の特徴量を抽出し、 D T M F信号の持つ特徴量 と一致するか否かを判定する事により識別する事が出来る。
また、 D T M F信号のレベルについても、 送出レベルが規定により特定の範囲 に限定されている事、 レベルの変動が少ない事などから、 比較的レベル変動が大 きく、 ダイナミックレンジの広い音声信号とは明らかに異なった特徴を示す。 従 つて、 入力信号のレベルを監視する事により、 D T M F信号識別のための補助情 報として用いる事で、 D T M F信号の検出精度を向上させる事も出来る。 音声/ 非音声信号識別器 1 0 2では、 上記のパラメ一夕を、 入力信号を用いて独自に算 出し、 それらを基に判定を下して結果を出力する機能を持つ。
多重化部 1 0 7は、 上記 1 0 5、 あるいは 1 0 6で得られた量子化パラメ一夕 のほか、 符号器 1 0 1のほかの処理ブロックで得られる、 音声の符号化に必要な 量子化されたほかのパラメ一夕とともに多重化し、 伝送路を経由して受信側へ送 出する。 ここで、 音声/ D T M F信号識別器 1 0 2からの出力である識別結果に ついては、 量子化テーブル 1 0 8及びその量子化値に対応する符号語が共通化さ れているため、 すでに復号のための必須情報では無くなつている。 従って受信側 へ送出する必要がない。 このため、 多重化部 1 0 7から送出されるビットシ一ケ ンス (フレームフォーマット) は、 従来の符号器と同一のフォーマットを用いる 事が出来る。
送信側から送られてくるビットシーケンスが従来型のものと全く同一であり、 また、 符号語の表現するパラメ一夕の物理的特性についても、 従来型の符号器と 共通化が図られているため、 受信側については、 従来型の復号器と全く同じ構成 を用いて復号する事が出来る。
以上のように、 本実施例に依れば、 音声信号伝送時には音声の符号化により適 した、 通常の音声符号化アルゴリズムを用いた方法で、 また、 非音声信号、 特に
D T M F信号等の伝送時においては、 一部の処理機能ブロックを、 非音声信号の 伝送により適した量子化方法に切替えて、 符号化処理を実行するので、 音声伝送 時と非音声信号伝送時とで共通のビッ トシーケンスを用いながら、 非音声信号を り適した形で伝送する事が出来る。
また、 本実施例においては、 符号化処理の一部機能に変更を加えるものであり 、 アルゴリズムの本質に関わるような切替を行うものではないため、 例えば、 音 声信号入力中に、 音声/非音声信号識別器 102で 「非音声」 と誤識別した場合 でも、 多少の劣化はあるものの、 ある程度の音声伝送品質は維持できるので、 通 話中に耳触りとなるような音を復号してしまう、 といった弊害は抑えられる、 と いった利点もある。 実施例 2.
以下に、 本発明に係る第 2の実施例について、 図 2を参照しながら説明する。 本実施例は実施例 1の量子化処理プロック 105、 106に LSP (線スぺク ト ル対) 量子化部を適用した場合についての、 一つの動作例について詳細に述べた ものである。 ここで、 説明を判り易くするために、 符号化アルゴリズムの一例と して CS— ACELP方式 (I TU— Τ勧告 G. 729準拠) を用いる事とする 。 CS— ACELP方式に基づく符号器の詳細なブロック図は、 図 9に示した通 りである。 図 2において、 3Α、 3 Βは LSPの量子化を実行する LSP量子化 プロックである。 3 Aは音声信号の L S Pパラメ一夕の量子化に最適化された量 子化器 (以下、 音声用 LSP量子化器と称す) であり、 35は0丁1 の 3? パラメ一夕の量子化に最適化された量子化器 (同、 0了1^?用1^3卩量子化器) である。 その他、 図 1及び図 9, 図 10と同一の番号を記した構成要素は、 上記 実施例 1の項で説明したものと同一の機能を持つ構成要素であるため、 説明の重 複を省く。
高能率に音声を符号化する符号器において、 音声信号のスぺクトル包絡情報を 効率よく表現する手法として、 LSP (線スペクトル対) が用いられる事が多く 、 CS— ACELP方式においても音声スぺク トル包絡情報パラメ一夕の伝送方 式として LSP方式が採用されている。 LSPについては、 菅村、 板倉、 「線ス ぺクトル対 (LSP) 音声分析合成法式による音声情報圧縮」 、 電子通信学会論 文誌' 81/08 Vol.J64-A No.8 pp.599-606 に詳しく述べられているので、 この場 での説明は省略する。 I次に、 この符号器の動作について説明する。 図 2おいて、 音声/非音声信号識 別器.102は、 入力される信号が音声信号か、 非音声信号であるかを常に監視し 、 その判定結果に基づいて切替スィッチ 103, 104の状態を決定する。 音声 /非音声信号識別器 102で 「音声」 と判定されたときは、 切替スィツチ 103 を 103 A側に、 同 104を 104 A側にそれそれ倒す。 その結果、 量子化処理 ブロックに音声用 LSP量子化器 3 Aが選択され、 "音声モード" に設定される 。 また、 音声/非音声信号識別器 102で 「非音声」 と判定されたときは、 切替 スィッチ 103を 103 B側に、 同 104を 104 B側にそれそれ倒す。 その結 果、 LSP量子化処理ブロックとしてDTMF用LSP量子化器3Bが選択され 、 "非音声モード" に設定される。
音声用 LSP量子化器 3 Aは、 例えば、 図 11と全く同一の構成をとるものと する。 即ち、
(1) MA (移動平均) 予測成分計算部 308
(2)第 1段 LSP量子化符号帳 335
(3)第 2段 LSP量子化符号帳 336
を備えた、 フレーム間予測及び多段量子化の 2つの手法を用いるものとする。 上記量子化器 3 Aは、 周波数領域のパラメ一夕である LSPを、 最小自乗誤差 を評価基準として量子化を行っている。 即ち、 最適な量子化値として選択される のは、 この自乗誤差が最小の値をとるものである。 従って量子化誤差は周波数歪 として復号された音声信号に反映される可能性が高い。
人間の聴覚は、 音声のスペクトル歪を長時間の平均で検知するため、 上記 MA 予測器 308の状態により瞬間的に周波数歪が大きくなつたとしても、 歪として 検知されない場合が多い。 ところが DTMFの受信規定では、 スペクトルピーク の微小変化に対する受信規定が厳しい事 (例えば、 TTC標準 JJ— 20. 12
「PBX— TDM間ディジタルイン夕フェース (個別線信号方式) — PBX— P
BX間信号規定」 の PB信号受信規定によれば、 PB送信規定で定められた信号 周波数からの周波数偏差は +— 1. 8%以内と規定されている) から、 元来スぺ クトル歪に対しては弱いと考えられる。
さらに、 交換機等で用いられる DTMF検出器の構成によっては、 DTMFの 時スぺクトルを検出のためのサンプルとして捉えてしまう恐れがある。 上記
SP量子化器 309 Aを用いて高能率に符号化 ·復号処理を施された DTMF信 号について、 上記 MA予測器 308の状態によりスぺクトル歪が瞬間的に大きく なってしまった時間帯を検出サンプルとして捉えてしまうと、 L SPの量子化誤 差による影響を最大限に受けてしまい、 DTMF信号と認識されなくなる恐れが ある。 このように、 DTMFの伝送に当たっては音声よりも周波数歪に対して留 意する必要があるといえる。
一般的に市販されている DTMF検出器について、 音声と DTMFとを識別す るため、 第 3フォルマント等、 高次の周波数ビークを検出する方式を採用してい るものもあるが、 主信号の周波数成分に比べ厳密な検出を目的としたものではな いので、 D TMFを構成する周波数成分以外の成分については、 歪についてルー ズであっても DTMFの伝送特性を劣化させる要因にはならないと考えられる。 即ち歪のない D TMF信号を復号するためには、 スべクトルのピークとなる付近 の周波数域では量子化誤差を最大限に少なくする事が重要で、 それ以外の D TM F検出には関わらない周波数領域では、 ある程度の量子化誤差を許容する事が出 来ると考えられる。 このトレードオフの関係から、 DTMF用量子化器 309 B は、 例えば、 他の周波数成分についての量子化誤差の増加を許容して、 DTMF を構成する周波数成分付近の量子化誤差を極力少なくするように構成する。 以上のように本実施例によれば、 符号化時に、 DTMF検出の決め手となるト ーン周波数近傍での、 量子化によるスぺクトル歪を極力抑えられるように工夫さ れているので、 より原信号に忠実な DTMF信号を復号できるという効果がある
実施例 3.
以下に、 本発明に係る第 3の実施例について、 図 3を参照しながら説明する。 本実施例は実施例 2の L S P量子化処理プロック 309内部の機能プロックであ る量子化誤差重み付け係数計算部 338を、 音声/ DTMF信号識別器 102の 判定結果に応じて、 音声入力時と D T M F入力時とで適応的に切替えられるよう にしたものである。 図 3において、 338Aは、 音声信号の L S P係数の量子化 差を最適に評価できるよう工夫された、 音声用重み付け係数算出部、 338B は、 D T M F信号の L S P係数の量子化誤差を最適に評価できるよう工夫された 、 DTMF用重み付け係数算出部である。
次に、 動作について説明する。 本実施例において、 量子化誤差計算に用いる重 み付け係数は、 CS— ACELP方式に依れば、 以下の式 (1) で示される方法 で計算されている。
Figure imgf000016_0001
ここで、 ;:1は1次1^3 、 である。
即ち、 スぺクトルのビークがくる周波数域については重み付け係数を重くし、 スぺクトルの"谷" になっている周波数域については重み付け係数が軽くなつて いる。 これは、 スペクトルのビークを示す周波数域については量子化誤差の寄与 分を重くして、 誤差に対する感度を鋭くする効果がある。 ここで、 DTMF信号 を LSP符号化する際、 重み付け係数が大きい次数の LSPについては、 トーン 周波数に対応するものであろうと考えられる。 このトーン周波数成分に対応する 重み付け係数をより大きくする事により、 この周波数成分について、 局所的にで はあるが量子化誤差による周波数歪を低減する事が出来る。
この DTMFのトーン周波数に対応するであろうと考えられる L S P係数の重 み付け係数をより大きくするためには、 例えば、 重み付け計算部 338 Aと同様 な操作を行った後、 その係数がある閾値を超えていたら、 その重み付け係数に 1 以上の補正値を掛けるような処理を施せば良い。 ここで用いる閾値、 及び補正値 付いては、 受信側での DTMF認識率や、 音声/: DTMF信号識別器 102の 誤検出による音声品質の劣化なども考慮した上で、 実験的に最適な値を求めてい く事が望ましい。
以上のように、 本発明の第 3の実施例に依れば、 LSP量子化を、 DTMF信 号を構成するデュアルトーン周波数近傍について、 量子化誤差の評価基準を変え る事によって、 符号化時にスぺクトル歪を極力抑えられるように工夫されている ので、 より原信号に忠実な DTMF信号を復号できるという効果がある。 実施例 4.
以下に、 本発明に係る第 4の実施例について、 図 4を参照しながら説明する。 本実施例は実施例 1の DTMF用重み付け係数計算処理部 338 Bを、 重み付け 係数格納メモリ 338 Cに置き換えたものである。
DTMF信号の LSP係数を詳しく調査すると、 低群周波数に相当するスぺク トルビークは 1次〜 3次の LSP係数が関与しており (その中でも、 特に 1次と 2次の寄与分が大きい) 、 同じく高群周波数については 4次〜 6次の LSP係数 が関与'(同じく 5次と 6次の寄与分が大きい) しており、 その他の LSP係数は DTMF信号のスべクトル包絡表現には殆ど関与していない事が判っている。 メ モリ 338 Cには、 例えば、 1次〜 6次の LSP係数の重み付けを大きくし、 7 次〜 10次の LSP係数の重み付けを極端に小さくしたような重み付け系数列を 、 あらかじめ何らかの手法で定めておいた上で格納しておく。 音声/ DTMF信 号識別器の判定結果で 「DTMF」 と判定された場合は、 量子化前の LSP係数 から計算する事をせずに、 このメモリ内の重み付け係数を用いて最小自乗誤差の 探索を行う。
以上のように、 本実施例に依れば、 DTMF用重み付け係数計算処理部を専用 に設ける必要がなくなるため、 符号化アルゴリズムを実現するプログラム容量を 削減する事が出来るほか、 符号化アルゴリズムを簡素化出来るため導入しやすい などの利点がある。 実施例 5. I以下に、 本発明に係る第 5の実施例について、 図 5を参照しながら説明する。 本実施例は実施例 2の音声/ DTMF信号識別器 102に、 ディジット検出機能 を追加し (102A) 、 またそのディジット検出結果に応じて、 最適な LSP係 数をあらかじめ格納してあるメモリ 111からロードする機能を追加したもので ある ο
次に動作について説明する。 信号識別器 102 Aで検出された DTMFデイジ ッ卜の値はメモリ 111に送られる。 メモリ 111には、 各ディジットに対応し て LSP係数が格納されており、 信号識別器 102 Aの出力に応じて、 対応する LSP係数を抽出し、 LSP量子化部へ送る。 メモリに格納される LSP係数は 、 理想的な DTMF波形における L SP係数をあらかじめ求めておいたものであ る。 0丁1 ?用 3?量子化部38では、 DTMF検出時は、 メモリからロード された理想的な LSP係数をもとに、 量子化コードブックを探索し、 インデック スを出力する。
この実施例を用いる事で、 例えば、 符号器に入力された D TMF信号がヅイス ト歪や、 若干の周波数歪を受けたものであっても、 L SP量子化の時点で補正さ れるため、 より望ましい特性を持った DTMF信号を送信する事が出来るなどの 効果がある。 実施例 6.
以下に、 本発明に係る第 6の実施例について、 図 6を参照しながら説明する。 本実施例は実施例 2の L S P量子化部 3 Bにおいて、 D T M F検出時の L S Pコ ―ドブックの探索方法にいわゆる閉ループ探索法を用いるものである。
次に動作について説明する。 信号識別器 102によるスィツチ 103, 104 の動作は実施例 2の場合と同様である。 音声入力時、 即ち従来の CS— ACEL P方式では、 入力信号をもとにまず LSP係数の量子化を実行し、 合成フィル夕 の係数を決定する。 その後、 適応符号帳インデックス 6 A、 雑音符号帳インデッ クス 6 B、 励振信号の利得符号帳ィンデックス 6 Cの組み合わせを変えて音声信 号を合成し、 入力音声信号との自乗誤差が最小となるようなインデックスの組み 合わせを決定する。 I一方、 D T M F検出時の L S P量子化に際しては、 最初に合成フィル夕の係数 を決定する事はせず、 他の 3種類の量子化パラメ一夕と同様、 復号器で復号され るであろう合成音声波形について評価を行う。 まず、 復号器に伝送される量子化 パラメ一夕である適応符号帳ィンデックス 6 A、 雑音符号帳ィンデックス 6 B、 励振信号の利得符号帳ィンデックス 6 Cを組み合わせることにより、 合成フィル 夕の励振信号 6 Eの候補を複数パターン生成する。 その励振信号 6 Eの各々につ いて、 L S Pコードブックに格納された複数パターンの L S P係数を用いて、 合 成フィル夕 6にて合成信号を生成する。 最小自乗誤差探索部 1 7では、 上記のよ うにして得られた複数種類の合成信号と、 符号器に入力された音声信号 6 Fとの 自乗誤差を求める。 その中で自乗誤差が最小となるような量子化パラメ一夕の組 合わせを選択する。 各パラメ一夕について符号化して多重化部 1 0 7にて多重化 し、 復号器に伝送する。
この実施例によれば、 L S P符号帳インデックス 6 Dの、 4種類の量子化パラ メ一夕の組み合わせ全てについて音声を合成し、 それそれの合成信号波形につい て、 入力信号と合成信号との自乗誤差を計算し、 最小となるような、 量子化パラ メ一夕の組合せを探索するため、 波形歪の少ない D T M F信号の復号する事が出 来る。 実施例 Ί .
以下に、 本発明に掛かる第 7の実施例について、 図 7、 図 8を参照しながら説 明する。 本実施例は、 実施例 6で L S P量子化の評価に用いていた複数種類の励 振信号を、 入力信号の予測残差信号に置換したものである。
次に動作について説明する。 まず、 信号識別器 1 0 2によるスィッチ 1 0 3 , 1 0 4の動作は実施例 2の場合と同様である。 符号器に入力された音声信号はブ ロック 2で線形予測分析されると同時に、 そこで得られた線形予測係数を用いて 構成された逆合成フィル夕 1 1 0に入力される。 逆合成フィル夕 1 1 0から出力 された線形予測残差信号 7 Aは、 D T M F用L S P量子化器に入カされ、 L S P 量子化時の評価に用いられる。 逆合成フィル夕 1 1 0は、 例えば次式 (2 ) で示 される伝達関数で構成する事が出来る。 10 —i
(2 )
ここで、 ひ iは線形予測分析部 2で計算される線形予測係数である。
D T M F用 L S P量子化器 3 Bの詳細な動作について、 図 8を用いて説明する 。 3種類の L S P符号帳 3 3 5〜3 3 7の組み合わせ、 及び M A予測によって得 られた、 複数の量子化 L S P係数の候補は、 D T M F用 L S P量子化器 3 Bに口 一カルに構成された合成フィル夕 3 4 0に供給される。 逆合成フィル夕で生成さ れた残差信号 7 Aをこの合成フィル夕に入力し、 各々の L S P係数の候補に対応 した複数の合成信号を得る。 この複数の合成信号と、 符号器に入力された音声信 号との自乗誤差を計算し、 最小の値をとる L S Pパラメ一夕の組み合わせを探索 し、 そのインデックスを抽出し、 出力する。
実施例 6では、 総ての量子化パラメ一夕の組み合わせについて音声を合成し、 それそれの合成信号波形について、 入力信号との自乗誤差を求め評価するため、 最適な量子化パラメ一夕の組み合わせが得られる可能性はあるものの、 計算量が 膨大となっていた。 この実施例を用いる事で、 その性能は若干劣るものの、 量子 化歪をある程度低減しつつ、 演算量の低減も図られているため、 廉価な D S Pで も実現できる、 消費電力が低減できるなどの効果がある。 産業上の利用の可能性
本発明に依れば、 音声信号伝送時には音声の符号化により適した、 通常の音声 符号化 ·復号アルゴリズムを用いた方法で、 また、 非音声信号、 特に D T M F信 号等の伝送時においては、 一部の処理機能ブロックを、 非音声信号の符号化によ D|適した方法に切替えて、 符号化 ·復号処理を実行するので、 非音声信号伝送時 に、 伝送速度を変える事無く、 高品質の非音声信号を伝送する事が出来る。 また、 本発明においては、 符号化 *復号処理の一部に変更を加えるものであり 、 アルゴリズムの本質に関わるような切替を行うものではないため、 例えば、 音 声信号入力中に、 音声/非音声信号識別器 1 0 2で 「非音声」 と誤識別した場合 でも、 多少の劣化はあるものの、 ある程度の音声伝送品質は維持できるので、 通 話中に耳触りとなるような音を復号してしまう、 といった弊害は抑えられる、 と いった利点もある。
また、 簡便な方法で構成された、 識別性能の良くない音声/非音声信号識別器 を適用しても、 ある程度の音声品質の維持が可能である事から、 簡単な装置構成 で実現できるため、 製造コストが低減できるなどの優れた効果がある。

Claims

請 求 の 範 囲
1 . 音声の符号化に適した第 1の量子化処理ブロック、 及び非音声の符号化に 適した第 2の量子化処理プロックを有し、 入力される信号を圧縮符号化する符号 器と、
上記符号器に入力される信号が音声信号か非音声信号かを識別し、 判定結果を 出力する音声/非音声信号識別器と、
上記第 1の量子化処理プロック及び上記第 2の量子化処理プロックの各々の出 力を多重化し伝送路に出力する多重化部とを備え、—
上記符号器は、 上記音声/非音声信号識別器の上記判定結果に応じて、 上記第 1の量子化処理ブロック、 または上記第 2の量子化処理プロックのいずれかを選 択する選択手段を有し、
上記第 1の量子化処理プロック及び上記第 2の量子化処理プロックは、 同一の 量子化テーブルを用いて信号を圧縮符号化する
ことを特徴とする音声符号化装置。
2 . 上記第 1及び第 2の量子化処理ブロックは、 L S P (線スペクトル対) 係 数を量子化する処理プロックである
ことを特徴とする請求項 1記載の音声符号化装置。
3 . 上記 L S P係数を量子化する際、 最適な量子化値を決定するために用いら れる評価基準について、 上記第 1及び第 2の係数量子化処理ブロックは、 それそ れ相異なる評価基準を有する
ことを特徴とする請求項 2記載の音声符号化装置。
4 . 上記第 1の量子化処理ブロックにおいて、 上記 L S P係数を量子化する際 、 最適な量子化値を決定するために用いられる評価基準を、 入力された音声信号 の性質に応じて適応的に変化させるのに対し、
上記第 2の量子化処理ブロックにおいては、 上記評価基準は入力された音声信 号の性質にかかわらず定常的である tことを特徴とする請求項 2記載の音声符号化装置。
5. 上記音声/非音声信号識別器は、 DTMF信号のディジットを検出するデ ィジット検出手段を有し、
上記ディジッ 卜の値に応じて決められた LSP係数を、 上記第 2の量子化処理 ブロックに入力する
ことを特徴とする請求項 1乃至 4のいずれか記載の音声符号化装置。
6. 上記第 2の量子化処理ブロックは、 LSP符号帳の探索方法に閉ループ探 索法を用いる
ことを特徴とする請求項 1乃至 5のいずれか記載の音声符号化装置。
7. 上記第 2の量子化処理ブロックにおいて、 最適な量子化値を決定するため に用いられるパラメ一夕として、 入力された音声信号の線形予測残差信号を用い る
ことを特徴とする請求項 6記載の音声符号化装置。
PCT/JP2000/002464 1999-04-20 2000-04-14 Dispositif de codage de signaux vocaux WO2000064055A1 (fr)

Priority Applications (3)

Application Number Priority Date Filing Date Title
EP00915544A EP1091495A4 (en) 1999-04-20 2000-04-14 STIMMENKODIERVORRICHTUNG
IL14012300A IL140123A0 (en) 1999-04-20 2000-04-14 Voice encoding device
US09/739,676 US6484139B2 (en) 1999-04-20 2000-12-20 Voice frequency-band encoder having separate quantizing units for voice and non-voice encoding

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
JP11112013A JP2000308167A (ja) 1999-04-20 1999-04-20 音声符号化装置
JP11/112013 1999-04-20

Related Child Applications (1)

Application Number Title Priority Date Filing Date
US09/739,676 Continuation US6484139B2 (en) 1999-04-20 2000-12-20 Voice frequency-band encoder having separate quantizing units for voice and non-voice encoding

Publications (1)

Publication Number Publication Date
WO2000064055A1 true WO2000064055A1 (fr) 2000-10-26

Family

ID=14575797

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/JP2000/002464 WO2000064055A1 (fr) 1999-04-20 2000-04-14 Dispositif de codage de signaux vocaux

Country Status (5)

Country Link
US (1) US6484139B2 (ja)
EP (1) EP1091495A4 (ja)
JP (1) JP2000308167A (ja)
IL (1) IL140123A0 (ja)
WO (1) WO2000064055A1 (ja)

Families Citing this family (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR100332644B1 (ko) * 1999-11-18 2002-04-17 서평원 음성데이터 및 신호의 다중화/역다중화 장치
CN1432261A (zh) * 2001-03-28 2003-07-23 三菱电机株式会社 数字电路多路复用装置
US7031916B2 (en) * 2001-06-01 2006-04-18 Texas Instruments Incorporated Method for converging a G.729 Annex B compliant voice activity detection circuit
US7310596B2 (en) * 2002-02-04 2007-12-18 Fujitsu Limited Method and system for embedding and extracting data from encoded voice code
US20030216909A1 (en) * 2002-05-14 2003-11-20 Davis Wallace K. Voice activity detection
US7970606B2 (en) 2002-11-13 2011-06-28 Digital Voice Systems, Inc. Interoperable vocoder
US7634399B2 (en) * 2003-01-30 2009-12-15 Digital Voice Systems, Inc. Voice transcoder
US8359197B2 (en) * 2003-04-01 2013-01-22 Digital Voice Systems, Inc. Half-rate vocoder
US8447592B2 (en) * 2005-09-13 2013-05-21 Nuance Communications, Inc. Methods and apparatus for formant-based voice systems
US8036886B2 (en) * 2006-12-22 2011-10-11 Digital Voice Systems, Inc. Estimation of pulsed speech model parameters
US10373630B2 (en) * 2017-03-31 2019-08-06 Intel Corporation Systems and methods for energy efficient and low power distributed automatic speech recognition on wearable devices
US11270714B2 (en) 2020-01-08 2022-03-08 Digital Voice Systems, Inc. Speech coding using time-varying interpolation
US11990144B2 (en) 2021-07-28 2024-05-21 Digital Voice Systems, Inc. Reducing perceived effects of non-voice data in digital speech

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH0981199A (ja) * 1995-09-08 1997-03-28 Matsushita Electric Ind Co Ltd 音声帯域情報伝送装置
JPH10124097A (ja) * 1996-10-21 1998-05-15 Olympus Optical Co Ltd 音声記録再生装置
JPH11205485A (ja) * 1998-01-13 1999-07-30 Nec Corp モデム信号対応音声符号化復号化装置

Family Cites Families (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS5853352B2 (ja) 1979-10-03 1983-11-29 日本電信電話株式会社 音声合成器
US5751903A (en) * 1994-12-19 1998-05-12 Hughes Electronics Low rate multi-mode CELP codec that encodes line SPECTRAL frequencies utilizing an offset
JPH08179796A (ja) * 1994-12-21 1996-07-12 Sony Corp 音声符号化方法
FI955266A (fi) * 1995-11-02 1997-05-03 Nokia Telecommunications Oy Menetelmä ja laitteisto viestien välittämiseksi tietoliikennejärjestelmässä
GB2312360B (en) * 1996-04-12 2001-01-24 Olympus Optical Co Voice signal coding apparatus
US6161089A (en) * 1997-03-14 2000-12-12 Digital Voice Systems, Inc. Multi-subframe quantization of spectral parameters
US6131084A (en) * 1997-03-14 2000-10-10 Digital Voice Systems, Inc. Dual subframe quantization of spectral magnitudes

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH0981199A (ja) * 1995-09-08 1997-03-28 Matsushita Electric Ind Co Ltd 音声帯域情報伝送装置
JPH10124097A (ja) * 1996-10-21 1998-05-15 Olympus Optical Co Ltd 音声記録再生装置
JPH11205485A (ja) * 1998-01-13 1999-07-30 Nec Corp モデム信号対応音声符号化復号化装置

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
See also references of EP1091495A4 *

Also Published As

Publication number Publication date
IL140123A0 (en) 2002-02-10
EP1091495A4 (en) 2005-08-10
JP2000308167A (ja) 2000-11-02
EP1091495A1 (en) 2001-04-11
US6484139B2 (en) 2002-11-19
US20010007973A1 (en) 2001-07-12

Similar Documents

Publication Publication Date Title
US5966688A (en) Speech mode based multi-stage vector quantizer
JP2964344B2 (ja) 符号化/復号化装置
AU2009209444B2 (en) Lossless multi-channel audio codec using adaptive segmentation with random access point (RAP) and multiple prediction parameter set (MPPS) capability
EP0751494B1 (en) Speech encoding system
EP2313887B1 (en) Variable bit rate lpc filter quantizing and inverse quantizing device and method
JP2002055699A (ja) 音声符号化装置および音声符号化方法
JP4263412B2 (ja) 音声符号変換方法
JPH02155313A (ja) 符号化方法
WO2000064055A1 (fr) Dispositif de codage de signaux vocaux
US5659659A (en) Speech compressor using trellis encoding and linear prediction
WO2010104011A1 (ja) 符号化方法、復号方法、符号化装置、復号装置、プログラム及び記録媒体
EP1847022B1 (en) Encoder, decoder, method for encoding/decoding, computer readable media and computer program elements
US8914280B2 (en) Method and apparatus for encoding/decoding speech signal
JPH1097295A (ja) 音響信号符号化方法及び復号化方法
AU727706B2 (en) Repetitive sound compression system
US6144935A (en) Tunable perceptual weighting filter for tandem coders
JP3444131B2 (ja) 音声符号化及び復号装置
EP2009623A1 (en) Speech coding
JP3905706B2 (ja) 音声符号化装置、音声処理装置及び音声処理方法
JP3475772B2 (ja) 音声符号化装置および音声復号装置
JP4236675B2 (ja) 音声符号変換方法および装置
JP3088163B2 (ja) Lsp係数の量子化方法
EP1334485B1 (en) Speech codec and method for generating a vector codebook and encoding/decoding speech signals
JP3010655B2 (ja) 圧縮符号化装置及び方法、並びに復号装置及び方法
JP2000322095A (ja) 音声復号装置

Legal Events

Date Code Title Description
AK Designated states

Kind code of ref document: A1

Designated state(s): IL US

AL Designated countries for regional patents

Kind code of ref document: A1

Designated state(s): AT BE CH CY DE DK ES FI FR GB GR IE IT LU MC NL PT SE

WWE Wipo information: entry into national phase

Ref document number: 140123

Country of ref document: IL

WWE Wipo information: entry into national phase

Ref document number: 2000915544

Country of ref document: EP

121 Ep: the epo has been informed by wipo that ep was designated in this application
WWE Wipo information: entry into national phase

Ref document number: 09739676

Country of ref document: US

WWP Wipo information: published in national office

Ref document number: 2000915544

Country of ref document: EP

WWW Wipo information: withdrawn in national office

Ref document number: 2000915544

Country of ref document: EP