WO2004112256A1 - 音声符号化装置 - Google Patents
音声符号化装置 Download PDFInfo
- Publication number
- WO2004112256A1 WO2004112256A1 PCT/JP2003/007380 JP0307380W WO2004112256A1 WO 2004112256 A1 WO2004112256 A1 WO 2004112256A1 JP 0307380 W JP0307380 W JP 0307380W WO 2004112256 A1 WO2004112256 A1 WO 2004112256A1
- Authority
- WO
- WIPO (PCT)
- Prior art keywords
- code
- time
- signal
- sample value
- value
- Prior art date
Links
- 238000013139 quantization Methods 0.000 claims abstract description 97
- 238000011156 evaluation Methods 0.000 claims abstract description 22
- 230000005236 sound signal Effects 0.000 claims description 18
- 238000000034 method Methods 0.000 claims description 10
- 230000007274 generation of a signal involved in cell-cell signaling Effects 0.000 claims description 4
- 238000010586 diagram Methods 0.000 description 28
- 230000003044 adaptive effect Effects 0.000 description 22
- 238000012545 processing Methods 0.000 description 18
- 230000008859 change Effects 0.000 description 6
- 230000004048 modification Effects 0.000 description 5
- 238000012986 modification Methods 0.000 description 5
- 238000005516 engineering process Methods 0.000 description 4
- 230000005540 biological transmission Effects 0.000 description 3
- 230000008569 process Effects 0.000 description 3
- 238000004364 calculation method Methods 0.000 description 2
- 230000003111 delayed effect Effects 0.000 description 2
- 238000001514 detection method Methods 0.000 description 2
- 230000006872 improvement Effects 0.000 description 2
- 238000005070 sampling Methods 0.000 description 2
- 241001465754 Metazoa Species 0.000 description 1
- 230000006835 compression Effects 0.000 description 1
- 238000007906 compression Methods 0.000 description 1
- 230000003247 decreasing effect Effects 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000010295 mobile communication Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/02—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
- G10L19/032—Quantisation or dequantisation of spectral components
Definitions
- the present invention relates to a speech coding apparatus, and more particularly to a speech coding apparatus that compresses and encodes information of a speech signal.
- High-efficiency coding is a technology that removes the redundancy of the amount of information and compresses it so that distortion is not perceived as much as possible by human senses to save transmission capacity, and various methods have been proposed.
- ADPCM Adaptive Differential Pulse Code Modulation
- ITU-T G.726 ITU-T G.726
- FIG. 18 and FIG. 19 are diagrams showing the block configuration of the ADPCM codec.
- the AD PCM encoder 110 includes an AZD section 111, an adaptive quantization section 112, an adaptive inverse quantization section 113, an adaptive prediction section 114, a subtracter 115, and an adder 116.
- the area inside the dotted line is called a local decoder.
- the ADPCM decoder 120 includes an adaptive inverse quantization unit 121, an adaptive prediction unit 122, a DZA unit 123, and an adder 124 (the local decoder on the encoder side becomes the decoder as it is).
- the AZD section 111 converts the input speech into a digital signal X.
- the subtractor 115 generates a prediction residual signal r by taking the difference between the current input signal X and the prediction signal y generated by the adaptive prediction unit 114 based on the past input signal.
- the adaptive quantization unit 112 performs quantization by increasing or decreasing the quantization step width (step size) according to the past quantization value of the prediction residual signal r so that the quantization error is reduced. Do. In other words, when the amplitude of the quantization value of the immediately preceding sample (sample) is smaller than a certain value, it is considered that there is little change, and the quantization step size is multiplied by a coefficient smaller than 1 (called a scaling factor). Quantization is performed by reducing the step size. When the amplitude of the quantization value of the immediately preceding sample exceeds a certain value, the change is considered to be large, and the quantization step size is multiplied by a coefficient larger than 1 to broaden the quantization step size and coarsely quantize.
- the ADPCM code z is input to the adaptive inverse quantization unit 113 of the local decoder.
- the adaptive inverse quantization unit 113 inversely quantizes the ADPCM code z to generate a quantized prediction residual signal ra.
- the adder 116 adds the prediction signal y and the quantized prediction residual signal ra to generate a reproduction signal (local reproduction signal) Xa.
- the adaptive prediction unit 114 includes an adaptive filter inside, and sequentially modifies the prediction coefficients of the adaptive filter so that the power of the prediction residual signal is minimized, and adjusts the reproduction signal X and the quantized prediction residual signal ra. Based on this, a prediction signal y for the next input sample value is generated and transmitted to the subtractor 115.
- the ADPCM decoder 120 performs exactly the same processing as the local decoder of the ADP CM encoder 110 on the transmitted ADP CM code z to generate a reproduced signal xa, and the DZA unit 123 converts the signal into an analog signal. Convert to get audio output.
- ADPCM has been used in mobile phones with built-in ADPCM sound sources to play sampled animal sounds and human voices as ringtones, and to use realistic playback sounds to play game music. It is widely used in various voice services such as inserting sound, and further improvement in voice quality is required.
- the conventional technology for improving voice quality by ADPCM includes input voice and predicted value.
- the signal obtained by adding or subtracting the unit quantization width of 12 to or from the difference value between the two is adaptively quantized to obtain a code, and the unit quantization width in the next step is updated from the code to obtain the predicted value and the inverse quantization value.
- There has been proposed a technique for obtaining the next predicted value from the above for example, see Patent Document 1).
- Patent Document 1
- JP-A-10-233696 (paragraph numbers [0049] to [0089], FIG. 1)
- the ADPCM code is generated based on the quantization information of only one sample at the current time (time n). Leave Therefore, the time (n + 1) suddenly as amplitude increases, if than predicted value inputting a large signal x n + 1, the time (n + 1) the quantization step size delta eta + 1 of small As a result, a large quantization error occurs because it cannot follow the change. When this is reproduced, the sound becomes audibly hard to hear (subjectively, crisp sound), and there is a problem that sound quality is degraded.
- the present invention has been made in view of such a point, and an object of the present invention is to provide a speech coding apparatus that suppresses a quantization error and improves speech quality.
- a speech encoding apparatus 10 for encoding a speech signal as shown in FIG.
- Code candidate storage unit 11 for storing a plurality of combinations of code candidates in the above
- a decoded signal generation unit 12 for decoding the code stored in the code candidate storage unit 11 to generate a reproduced signal
- one code candidate Calculates the sum of squares of the difference between the input sample value and the reproduced signal for each time, detects code candidates with the minimum sum of squares that minimizes the quantization error, and outputs the codes in the detected code candidates.
- An error estimating unit 13 is provided, and a speech encoding device 10 is provided.
- the code candidate storage unit 11 stores a plurality of combinations of code candidates in a section near the sample value when obtaining the code for the sample value of the audio signal.
- the decoded signal generation unit 12 decodes the code stored in the code candidate storage unit 11 to generate a reproduced signal.
- the error evaluator 13 calculates the sum of squares of the difference between the input sample value and the reproduced signal for each code candidate, and detects a code candidate with the minimum sum of squares to minimize the quantization error, The code in the detected code candidate is output.
- FIG. 1 is a diagram illustrating the principle of a speech encoding apparatus according to the present invention.
- FIG. 2 is a diagram illustrating a state in which a reproduced signal is obtained.
- FIG. 3 is a diagram illustrating a state in which a large quantization error occurs without being able to follow the amplitude fluctuation.
- FIG. 4 is a diagram for explaining the concept of code candidates stored in the code candidate storage unit.
- FIG. 5 is a diagram for explaining the operation of the present invention.
- FIG. 6 is a diagram for explaining the operation of the present invention.
- FIG. 7 is a diagram for explaining the operation of the present invention.
- FIG. 8 is a diagram for explaining the operation of the present invention.
- FIG. 9 is a diagram for explaining the operation of the present invention.
- FIG. 10 is a diagram for explaining the operation of the present invention.
- FIG. 11 is a diagram showing code selection when the present invention is not applied.
- FIG. 12 is a diagram illustrating a configuration of a speech encoding device.
- FIG. 13 is a flowchart showing an outline of the operation of the speech coding apparatus.
- FIG. 14 is a diagram showing a waveform when a conventional process is performed.
- FIG. 15 is a diagram showing a waveform when the processing of the present invention is performed.
- FIG. 16 is a diagram showing a modification of the present invention.
- FIG. 17 is a diagram for explaining the operation of the modification.
- FIG. 18 is a diagram showing an ADPCM clock configuration.
- FIG. 19 is a diagram showing an ADPCM clock configuration. BEST MODE FOR CARRYING OUT THE INVENTION
- FIG. 1 is a diagram showing the principle of a speech coding apparatus according to the present invention.
- the audio encoding device 10 is a device that compresses and encodes information of an audio signal.
- the code candidate storage unit 11 calculates the code for the sample value of the audio signal by using the up to the prefetched sample number Pr described later as a nearby section and determining the code up to the time (n + k) (0 ⁇ k ⁇ pr). Stores multiple (all) combinations of code candidates ⁇ j1, j2,..., J (pr + 1) ⁇ .
- the figure shows an example in which pr of the prefetch sample is set to 1 and a combination of a code j1 at time n and a code candidate of code j2 at time (n + 1) is stored.
- the decoded signal generation unit (local decoder) 12 sequentially decodes the codes stored in the code candidate storage unit 11 to generate a reproduced signal sr.
- the vector notation in the drawing indicates that the processing is performed sequentially. That is, the vector notation of the code candidates indicates that the code candidates ⁇ 1, 1 ⁇ , ⁇ 1, 2 ⁇ ,... Are sequentially input from the code candidate storage unit 11 to the local decoder 12, and the reproduced signal vector The notation indicates that they are sequentially generated by the local decoder 12 and input to the error evaluator 13, and the vector notation of the input sample values indicates that they are sequentially input to the error evaluator 13.
- a prefetch sample not only the current sample value but also a future sample (referred to as a prefetch sample in the present invention) is used. For example, if the prefetch sample is 1, two samples of time n and time (n + 1) are used.
- the code idx [n] at the time n is determined in consideration of the information of.
- the sign id x [n] of time n will be obtained by considering up to three samples of information, time n, time n + 1), and time (n + 2). The detailed operation of this device will be described with reference to FIG.
- FIG. 2 is a diagram showing a state in which a reproduction signal is obtained.
- Xn-1 be the sample value sampled at time (n-1) and Xn be the sample value sampled at time n. It is also assumed that the reproduced signal decoded at time (n-1) is Sn-1.
- a difference signal En is generated by taking the difference between the sample value Xn at time n and the reproduced signal Sn-1 at time (n-1) (prediction processing If this is done, the difference at the same time is obtained, but here, since no prediction is made, the difference between the previous reproduced signal and the current input sample value is obtained.)
- quantization is performed on the difference signal En to select a quantization value at time n.
- 2-bit quantization is used, and there are four quantization values, hl to h4. Of these four candidates, the one that can express the value of the difference signal En most correctly (the sample value Xn Will be selected (the interval between the dots corresponds to the quantization step size).
- the quantization signal h3 is the one that can express the difference signal En most correctly (that is, the dot closest to the sample value Xn is h3). Therefore, the quantized value h3 (referred to as Sn) is selected as the reproduced signal at time n, and the ADP CM code indicating the quantized value h3 is output from the encoder.
- Fig. 3 shows how large quantization errors occur because they cannot follow amplitude fluctuations.
- You. 9 illustrates a problem of the conventional AD PCM encoder.
- Xn + 1 be the sample value sampled at time (n + 1)
- Xn + 2 the sample value sampled at time (n + 2).
- the reproduced signal decoded at time n is Sn shown in FIG.
- the audio signal has a waveform whose amplitude suddenly increases near time (n + 1).
- a difference signal En + 1 is generated by taking the difference between the sample value Xn + 1 at time (n + 1) and the reproduced signal Sn at time n.
- the difference signal En + 1 is quantized, and a quantized value at time (n + 1) is selected. Since it is 2-bit quantization, there are four quantization value candidates, h5 to h8. The quantization step size of these quantization values is determined by the quantization value selected immediately before.
- the quantization value selected immediately before is one of the two dots in the middle of the four dots, so the amplitude fluctuation from time (n-1) to time n is small, so time n
- the quantization step size at time (n + 1) is reduced, assuming that the amplitude fluctuation from time to time (n + 1) will also be small.
- the quantization step size at time (n + 1) is increased.
- the reproduced signal Sn at the time n is a selected one of the reproduced signal candidates h1 to h4, h3 (one of the middle two). Therefore, the quantization step size of the quantized value at time (n + 1) (that is, the dot interval between h5 and h8) is made smaller (the scaling factor smaller than 1 used at time n is changed to time (n + 1) It is used in 1) and is the same as the dot spacing of hl to h4).
- the quantization value candidates h5 to h8 the one that can most accurately represent the difference signal En + 1 is selected.
- the reproduction signal with a small quantization step size is used.
- the quantized value h5 (Sn + 1) is selected as the reproduced signal at the time (n + 1), and the ADPCM code indicating the quantized value h5 is output from the encoder.
- the quantization error becomes large, and the sound quality deteriorates.
- the playback signal Sn + 1 at time (n + 1) is a selection of h5 among the playback signal candidates h5 to h8 (the ),
- the amplitude variation is assumed to be large, and the quantization step size of the quantized value at time (n + 2) is (that is, the dot interval of h9 ⁇ ! 112) is equal to the time (n + 1). It is larger than the quantization step size.
- the same processing as described above is performed, and h9 is selected as the reproduction signal.
- the quantized value of the sample with large amplitude fluctuations is calculated with the quantization step size before the amplitude increase, where the change is small.
- a large quantization error occurred, resulting in poor sound quality.
- the present invention aims to improve the voice quality by efficiently suppressing the quantization error even when the amplitude fluctuation of the voice is large.
- FIG. 4 is a diagram for explaining the concept of code candidates stored in the code candidate storage unit 11.
- the sign i d x [n] of the sample value of the audio signal at time n is obtained.
- the sample value at time (n + 1) is assumed to be a section near the sample value at time n (that is, look-ahead sample 1), and it is assumed that 2-bit quantization is performed per sample.
- the sign j1 of the quantized value for the sample value at time n has four candidates, # 1 to # 4. For each of # 1 to # 4 of code ⁇ 1, the The sign j 2 also has four candidates # 1 to # 4.
- the code candidate storage unit 11 sequentially inputs these code candidates to the local decoder 12, and after completing the input of all 16 patterns, next, the code of the current time (n + 1) is obtained in the apparatus. Therefore, up to the sample value at the time (n + 2) is used, the code candidate storage unit 11 stores the code j1 at the time (n + 1) and the code j2 at the time (n + 2). All 16 combinations are stored and input to the local decoder 12 again. Hereinafter, such an operation is repeated.
- the code candidate is stored.
- 5 to 10 are diagrams for explaining the operation of the present invention.
- Xn be the sample value sampled at time n
- Xn + 1 be the sample value sampled at time (n + 1).
- the audio signal is assumed to have a waveform whose amplitude suddenly increases near time (n + 1).
- code candidate # 2 is selected at time n in FIG. Then, there are four code candidates that can be selected at time (n + 1), corresponding to code candidate # 2, from # (2-1) to # (2-4) with a narrow quantization step size.
- # (2-1) is selected as the code candidate for the time (n + 1) in FIG.
- # 2 the difference between the candidate codes # 2
- the time the sample value Xn + 1 of the (n + 1), the difference is determined between the candidate codes # (2_ 1) .
- the sum of squares of these differences is calculated to obtain an error evaluation value e ( ⁇ 2, 1 ⁇ ).
- Such processing is also performed for code candidate # 3 # 4 at time n, and 16 error evaluation values e ( ⁇ 1 1 ⁇ ) e ( ⁇ 4 4 ⁇ ) are eventually obtained. Then, the minimum value is selected from the error evaluation values e ( ⁇ 1 1 ⁇ ) e ( ⁇ 4 4 ⁇ ). In the case of this example, it can be determined from the figure that the error evaluation value e ( ⁇ 1 1 ⁇ ) described in FIG. 6 becomes the minimum value. Therefore, the code candidate # 1 at the time n is finally selected and determined, and the code id x [n] representing the code candidate # 1 is output on the transmission path.
- FIG. 11 is a diagram showing code selection when the present invention is not applied. If the conventional processing as described in FIG. 3 is performed on the examples of FIGS. 5 to 10 described above, at time n, candidate # 2 closest to the sample value Xn is found. At the time (n + 1), the candidate # (2-1) closest to the sample value Xn + 1 will be selected. Then, even if the quantization error e la is small at the time n, a large quantization error e 2a occurs at the time (n + 1).
- the quantization step size is determined by the value selected immediately before, which is conventionally the same as in the present invention.
- the following processing is performed based on the code determined in the past. Is determined. Therefore, at time n, even if the sign closest to the sample value at time n can be determined, if the amplitude fluctuation suddenly increases at the next sampling time (n + 1), the amplitude of the change is small.
- a large quantization error e 2a occurs at the time (n + 1) because the sign of the time (n + 1) may be obtained with the quantization step size before the increase.
- quantization errors occurring for all code candidates in the neighboring sample section are obtained in advance, and a combination of code candidates that minimizes the quantization error is selected. For this reason, even if the amplitude fluctuation increases rapidly, If the width fluctuation is within the neighborhood, it is no longer necessary to select a code that generates a large quantization error only at one sample point as in the past.
- Fig. 6 shows code candidates # 1 and # (1-1) with the smallest error evaluation value.
- candidate # 1 is selected and determined, so only the quantization error at time n is determined.
- the present invention in contrast to the conventional technology in which the quantization error can be reduced before the amplitude fluctuation, but a large quantization error is generated after the amplitude fluctuation, the present invention generally reduces the quantization error before and after the amplitude fluctuation. Since the size is reduced, S can be improved.
- FIG. 12 is a diagram showing a configuration of the speech encoding device 10.
- Speech coding apparatus 10 includes code candidate storage section 11, local decoder 12, and error evaluation section 13.
- the local decoder 12 includes an adaptive inverse quantization unit 12 a, an adder 12 b, and a delay unit 12 c.
- the error evaluation unit 13 includes a difference sum of squares calculation unit 13 a and a minimum value detection unit. Consists of 1 3 b. Since the code candidate storage unit 11 has been described above, the local decoder 12 and the error evaluation unit 13 will be described. It is assumed that the code candidate storage unit 11 stores a combination of ⁇ j1, j2 ⁇ of code j1 at time n and code j2 at time (n + 1).
- the adaptive inverse quantization unit 12a recognizes the quantized value corresponding to the sign of “(2 + 1)” at time (n + 1), and then inversely quantizes the quantized value to generate an inversely quantized signal. Outputs dq [n]. Then, in the adder 12b and the delay unit 12c, the same processing as described above is performed to generate a reproduced signal for the code "'2".
- the difference square sum calculator 13a receives the input sample value in [n] and the reproduced signal sr [n], and calculates the difference square sum based on the following equation. . However, 0 ⁇ k ⁇ pr (pr is the number of prefetched samples). p r 2
- the minimum value detection unit 13b detects a minimum value from the values of Expression (5) for all code candidates. Then, a code candidate (reproduced signal) at time n is recognized from the code candidates that are the minimum value, and a code idx [n] corresponding to the code candidate is output onto the transmission path.
- the adaptive prediction It can correspond to the method.
- FIG. 13 is a flowchart showing an outline of the operation of the speech encoding apparatus 10.
- the candidate code is ⁇ j1, j2 ⁇ , where j1 is the code at time n and j2 is the code at time (n + 1).
- the code candidate storage unit 11 stores code candidates ⁇ j1, j2 ⁇ .
- the local decoder 12 generates a reproduced signal of code j1 at time n.
- the local decoder 12 generates a reproduced signal of the code j2 at the time (n + 1).
- the error evaluation unit 13 calculates the error evaluation value e ( ⁇ j 1, j 2 ⁇ ) is calculated.
- the error evaluator 13 detects the minimum value of the error evaluation value e ( ⁇ j1, j2 ⁇ ), and substitutes j1 of the minimum value ⁇ j1, j2 ⁇ for the code at time n. Output as idx [n].
- the local decoder 12 updates the quantization step size at time (n + 1) based on j1 at time n determined in step S6.
- the time ⁇ is updated, and processing for obtaining the sign of the time (n + 1) is started.
- the sign candidate storage unit 11 stores the sign j1 of the time (n + 1) and the sign of the time (n + 2).
- the code candidate of j2 ⁇ j1, j2 ⁇ will be stored).
- the present invention when obtaining a code for a sample value of an audio signal, a combination of all code candidates in a section near the sample value is stored, and a reproduction signal is generated from the code candidate. The sum of the squares of the difference between the input sample value and the reproduced signal is calculated, and the code in the code candidate that minimizes the sum of the squares is output. This makes it possible to efficiently suppress the quantization error even when the amplitude fluctuation of the voice is large, and to improve the voice quality. Further, since the present invention can be realized only by changing the configuration on the encoder side, it can be easily put into practical use.
- FIG. 14 is a waveform when the conventional process is performed
- FIG. 15 is a diagram illustrating a waveform when the process of the present invention is performed.
- the vertical axis is amplitude, and the horizontal axis is time.
- the results are measured for natural sound (voice) files of men and women.
- the upper waveform Wla in Fig. 14 is a signal reproduced from the signal encoded by the conventional ADP CM encoder (the output waveform of the ADP CM decoder), and the lower waveform Wlb is the original input speech. And the waveform Wla.
- the 15 is a signal (output waveform of the ADPCM decoder) obtained by reproducing the signal encoded by the audio encoding device 10 of the present invention, and the lower waveform W 2 b is the original waveform.
- This is the level difference between the input voice and the waveform W2a (the magnification of the error signal indicating the level difference was quadrupled).
- the waveform W2b of the present invention is flatter and the quantization error is suppressed.
- the SZN was previously 28.37 dB, but in the present invention it is 34.50 dB, an improvement of 6.13 dB. This shows that the present invention is effective.
- FIG. 16 is a diagram showing a modification of the present invention.
- Speech coding apparatus 10 a further includes a code selecting unit 14. The other components are the same as in FIG.
- the code selection unit 14 sets the value closest to the input sample value in [n + k] to the code candidate at time (n + k). Is selected and output to the adaptive inverse quantization unit 12a. Then, the local decoder 12 reproduces only the code selected by the code selecting section 14 for the reproduced signal at the time (n + k) to generate a reproduced signal.
- FIG. 17 is a diagram for explaining the operation of the modification.
- # (1 _ 1) is to be selected by the code selection unit 14, so that the local decoder 12 decodes only # (1-1), and # (1-2)-# Regarding (1-4), decryption is not performed.
- the amount of calculation can be reduced, and the processing speed can be improved.
- the present invention it is possible to suppress a quantization error and improve sound quality by selecting a code in consideration of a quantization error not only in a current sample but also in a neighboring sample section. Can be.
- the present invention is not limited to audio signals, and the present invention can be widely applied to various fields as a method of high-efficiency encoding. It is possible.
- the speech coding apparatus of the present invention when obtaining a code for a sample value of a speech signal, stores all combinations of code candidates in a section near the sample value, and stores the combination.
- the reproduced code is decoded to generate a reproduced signal, the sum of squares of the difference between the input sample value and the reproduced signal is calculated, and the code candidate with the smallest square sum is regarded as the minimum quantization error. Is output. As a result, even when the amplitude fluctuation of the voice is large, the quantization error can be suppressed efficiently, and the voice quality can be improved.
Landscapes
- Physics & Mathematics (AREA)
- Engineering & Computer Science (AREA)
- Spectroscopy & Molecular Physics (AREA)
- Computational Linguistics (AREA)
- Signal Processing (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Compression, Expansion, Code Conversion, And Decoders (AREA)
Abstract
量子化誤差を抑制して音声品質の向上を図る。符号候補格納部(11)は、音声信号のサンプル値に対する符号を求める際に、サンプル値の近傍区間での符号候補のすべての組み合わせを格納する。ローカルデコーダ(12)は、符号候補格納部(11)で格納されている符号を復号化して再生信号を生成する。誤差評価部(13)は、1つの符号候補毎に入力サンプル値と再生信号との差分の自乗和を算出して、量子化誤差を最小とする、自乗和が最小値の符号候補を検出し、検出した符合候補の中の符号を出力する。
Description
明 細 書 音声符号化装置 技術分野
本発明は、 音声符号化装置に関し、 特に音声信号の情報を圧縮して符号化を行 う音声符号化装置に関する。 背景技術
移動体通信や CDなどでは、 音声のディジタル処理が行われ、 ディジタル化さ れた音声信号は、 ユーザにとっても身近な存在となっている。 ディジタル音声信 号を効率よく圧縮 ·伝送するためには、 高能率符号化が行われる。
高能率符号化は、 情報量の冗長度を除去して圧縮し、 人間の感覚で歪ができる だけ感知されないようにして伝送容量の節約を図る技術であり、 様々な方式が提 案されている。 音声信号の高能率符号化アルゴリズムとしては、 ITU-T G.726 で標準化されている A D P C M ( Adaptive Differential Pulse Code Modulation:適応的差分パルス符号変調) が広く使用されている。
図 18、 図 19は ADPCMコーデックのブロック構成を示す図である。 AD PCM符号器 110は、 AZD部 1 1 1、 適応量子化部 1 12、 適応逆量子化部 1 13、 適応予測部 1 14、 減算器 1 15、 加算器 116から構成される。 なお、 点線枠内をローカルデコーダと呼ぶ。 ADPCM復号器 120は、 適応逆量子化 部 121、 適応予測部 122、 DZA部 123、 加算器 124から構成される (符号器側のローカルデコーダがそのまま復号器となる) 。
ADPCM符号器 110に対し、 AZD部 1 1 1は、 入力音声をディジタル信 号 Xに変換する。 減算器 1 15は、 現在の入力信号 Xと、 適応予測部 114で過 去の入力信号にもとづいて生成した予測信号 yとの差分をとつて予測残差信号 r を生成する。
適応量子化部 1 12は、 量子化誤差が小さくなるように、 予測残差信号 rの過 去の量子化値に応じて量子化ステップ幅 (ステップサイズ) を増減して量子化を
行う。 すなわち、 直前の標本 (サンプル) の量子化値の振幅が一定値以下のとき は変化が少ないとみて、 量子化ステップサイズに 1よりも小さい係数 (スケーリ ングファクタと呼ばれる) を乗じて、 量子化ステップサイズを狭めて量子化する。 また、 直前のサンプルの量子化値の振幅が一定値を越えるときは変化が大きい とみて、 量子化ステップサイズに 1よりも大きい係数を乗じて、 量子化ステップ サイズを広げて粗く量子化する。
ここで、 適応量子化部 1 12の量子化レベル数は、 符号化ビット数によって決 まり、 例えば、 4ビット符号化であれば 16レベルに量子化される。 AZD部 1 1 1のサンプリング周波数を 8 H zとすれば、 適応量子化部 1 12のディジ夕ル 出力 (ADPCM符号) zは、 32 kb i tZs (=8 kHz x 4ビット) とな る (AZD部 1 1 1が出力するディジタル音声信号が 64 kb i t/sならば圧 縮率は 1 2である) 。
また、 ADPCM符号 zは、 ローカルデコーダの適応逆量子化部 1 13に入力 される。 適応逆量子化部 1 13は、 ADPCM符号 zを逆量子化して、 量子化予 測残差信号 r aを生成する。 加算器 1 16は、 予測信号 yと量子化予測残差信号 r aとを加算して、 再生信号 (局部再生信号) X aを生成する。
適応予測部 1 14は、 内部に適応フィル夕を含み、 適応フィルタの予測係数を 予測残差信号の電力が最小になるように逐次修正しながら、 再生信号 X と量子 化予測残差信号 r aにもとづいて、 次の入力のサンプル値に対する予測信号 yを 生成し、 減算器 1 15へ送信する。
一方、 ADPCM復号器 120では、 伝送された ADP CM符号 zに対し、 A DP CM符号器 1 10のローカルデコーダと全く同一の処理を行って再生信号 x aを生成し、 DZA部 123でアナログ信号に変換して音声出力を得る。
ADPCMの利用分野としては、 近年、 携帯電話機に ADPCM音源を内蔵し て、 サンプリングした動物の鳴き声や人の話し声などを着信メロディとして流し たり、 リアルな再生音を利用して、 ゲームの音楽に効果音を挿入するなど、 多様 な音声サービスに盛んに使われており、 さらなる音声品質の向上が求められてい る。
ADPCMによる音声品質向上を図った従来技術としては、 入力音声と予測値
との差分値に単位量子化幅の 1 2を加算または減算した信号を、 適応量子化し て符号を求め、 その符号から次ステップの単位量子化幅を更新して、 予測値、 逆 量子化値から次の予測値を求める技術が提案されている (例えば、 特許文献 1参 照) 。
特許文献 1
特開平 10— 233696号公報 (段落番号 〔0049〕 〜 〔0089〕 , 第 1図)
図 18で上述した ITU-T G.726の AD PCM符号器 1 10のループ制御では、 現在 (時刻 n) の 1つのサンプルのみの量子化の情報によって、 ADPCM符号 を生成している。 このため、 時刻 (n+ 1) で急に振幅が増加するような、 予測 した値よりも大きな信号 xn + 1が入力すると、 時刻 (n+ 1) の量子化ステップ サイズ Δη + 1は小さいままなので、 変化に追随できずに大きな量子化誤差が生じ てしまう。 これを再生すると聴覚的に聞き苦しい音 (主観的にはカサカサした 音) となり、 音質劣化を引き起こすといった問題があった。
また、 従来技術 (特開平 10— 233696号公報) では、 単位量子化幅を更 新するために必要なテーブルを、 符号器と復号器の両方に用意して置かなければ ならず、 実用面において必ずしも好適とはいえない。 発明の開示
本発明はこのような点に鑑みてなされたものであり、 量子化誤差を抑制して音 声品質の向上を図った音声符号化装置を提供することを目的とする。
本発明では上記課題を解決するために、 図 1に示すような、 音声信号の符号化 を行う音声符号化装置 10において、 音声信号のサンプル値に対する符号を求め る際に、 サンプル値の近傍区間での符号候補の複数の組み合わせを格納する符号 候補格納部 1 1と、 符号候補格納部 11で格納されている符号を復号化して再生 信号を生成する復号信号生成部 12と、 1つの符号候補毎に入力サンプル値と再 生信号との差分の自乗和を算出して、 量子化誤差を最小とする、 自乗和が最小値 の符号候補を検出し、 検出した符号候補の中の符号を出力する誤差評価部 13と、 を有することを特徴とする音声符号化装置 10が提供される。
ここで、 符号候補格納部 1 1は、 音声信号のサンプル値に対する符号を求める 際に、 サンプル値の近傍区間での符号候補の複数の組み合わせを格納する。 復号 信号生成部 1 2は、 符号候補格納部 1 1で格納されている符号を復号化して再生 信号を生成する。 誤差評価部 1 3は、 1つの符号候補毎に入力サンプル値と再生 信号との差分の自乗和を算出して、 量子化誤差を最小とする、 自乗和が最小値の 符号候補を検出し、 検出した符号候補の中の符号を出力する。
本発明の上記および他の目的、 特徴および利点は本発明の例として好ましい実 施の形態を表す添付の図面と関連した以下の説明により明らかになるであろう。 図面の簡単な説明
図 1は、 本発明の音声符号化装置の原理図である。
図 2は、 再生信号を求めている様子を示す図である。
図 3は、 振幅変動に追随できずに大きな量子化誤差が発生する様子を示す図で ある。
図 4は、 符号候補格納部で格納される符号候補の概念を説明するための図であ る。
図 5は、 本発明の動作を説明するための図である。
図 6は、 本発明の動作を説明するための図である。
図 7は、 本発明の動作を説明するための図である。
図 8は、 本発明の動作を説明するための図である。
図 9は、 本発明の動作を説明するための図である。
図 1 0は、 本発明の動作を説明するための図である。
図 1 1は、 本発明を適用しない場合の符号選択を示す図である。
図 1 2は、 音声符号化装置の構成を示す図である。
図 1 3は、 音声符号化装置の動作概要を示すフローチャートである。
図 1 4は、 従来の処理を行った場合の波形を示す図である。
図 1 5は、 本発明の処理を行った場合の波形を示す図である。
図 1 6は、 本発明の変形例を示す図である。
図 1 7は、 変形例の動作を説明するための図である。
図 18は、 ADPCMコ- ロック構成を示す図である。
図 19は、 ADPCMコ- ロック構成を示す図である。 発明を実施するための最良の形態
以下、 本発明の実施の形態を図面を参照して説明する。 図 1は本発明の音声符 号化装置の原理図である。 音声符号化装置 10は、 音声信号の情報を圧縮して符 号化を行う装置である。
符号候補格納部 1 1は、 音声信号のサンプル値に対する符号を求める際に、 後 述の先読みサンプル数 P rまでを近傍区間とした、 時刻 (n + k) (0≤k≤p r) までの符号候補 {j 1、 j 2、 ···、 j (p r + 1) }の複数 (すべて) の組 み合わせを格納する。 図では、 先読みサンプルの p rを 1として、 時刻 nの符号 j 1と時刻 (n+ 1) の符号 j 2の符号候補の組み合わせを格納している例を示 している。
復号信号生成部 (ローカルデコーダ) 12は、 符号候補格納部 11で格納され ている符号を順次復号化して再生信号 s rを生成する。 誤差評価部 13は、 1つ の符号候補毎に、 入力音声信号の入力サンプル値 i nと再生信号 s rとの差分の 自乗和を算出し、 自乗和が最小値の符号候補 (=量子化誤差が最小とみなせる) を検出し、 検出した符号候補の中の符号 i dxを出力する。
なお、 図中ベクトル表記してあるのは、 順次処理が行われることを示すもので ある。 すなわち、 符号候補のベクトル表記は、 符号候補格納部 1 1からローカル デコーダ 12へ符号候補 {1、 1}、 {1、 2}、 ···が順次入力されることを示し、 再生信号のベクトル表記は、 ローカルデコーダ 12で順次生成されて誤差評価部 13へ入力することを示し、 入力サンプル値のベクトル表記は、 誤差評価部 13 へ順次入力されることを示している。
ここで、 時刻 nのサンプル値に対する符号 i d x[n]を求める場合、 従来では 上述したように、 現在時刻 nの 1つのサンプルのみの量子化によって符号化を行 つていたが、 本発明では、 時刻 nだけでなく時刻 n周辺のサンプル区間 (=近傍 区間) の情報も誤差評価の対象として利用して、 符号 i d x[n]を求めるもので ある。
すなわち、 現在のサンプル値だけでなく、 未来のサンプル (先読みサンプルと 本発明では呼ぶ) も利用するということであり、 例えば、 先読みサンプルを 1と したら、 時刻 n及び時刻 (n+ 1) の 2サンプルの情報までを考慮して、 時刻 n の符号 i d x[n]を求めることになる。
また、 先読みサンプルを 2としたら、 時刻 n、 時刻 n+ 1) 、 時刻 (n + 2) の 3サンプルの情報までを考慮して、 時刻 nの符号 i d x[n]を求めること になる。 なお、 本装置の詳細動作については図 4以降で説明する。
次に本発明が解決すべき問題点について図 2、 図 3を用いて詳しく説明する。 図 2は再生信号を求めている様子を示す図である。 説明を簡略にするために、 予 測なし (単に入力サンプルと再生信号との差分を量子化) として、 1サンプルあ たり 2ビット (量子化レベルは 4通り) で量子化するものとする。
音声信号に対して、 時刻 (n— 1) でサンプルしたサンプル値を Xn— 1、 時 刻 nでサンプルしたサンプル値を Xnとする。 また、 時刻 (n— 1) で復号され た再生信号が Sn— 1であったとする。
ここで、 時刻 nにおける再生信号を求める場合、 まず、 時刻 nのサンプル値 X nと、 時刻 (n— 1) の再生信号 Sn— 1との差分をとつて差分信号 Enを生成 する (予測処理を行うのであれば同一時刻での差分を求めるが、 ここでは予測な しとしたので、 1つ前の再生信号と現在の入力サンプル値との差分が求められ る) 。
そして、 この差分信号 Enに量子化を施して、 時刻 nにおける量子化値を選択 する。 ここでは 2ビットの量子化としたので、 量子化値は h l〜h 4の 4通りあ り、 これら 4候補の中から、 差分信号 Enの値を最も正しく表現できるもの (サ ンプル値 Xnに最も近接するもの) が選択されることになる (なお、 ドットの間 隔が量子化ステップサイズに対応する) 。
図では、 差分信号 Enを最も正しく表現できるものは量子化値 h 3である (す なわち、 サンプル値 Xnと最も近接なドットは h 3) 。 したがって、 時刻 nにお ける再生信号として、 量子化値 h 3 (Snとする) を選択し、 量子化値 h 3を示 す ADP CM符号が符号器から出力することになる。
図 3は振幅変動に追随できずに大きな量子化誤差が発生する様子を示す図であ
る。 従来の AD PCM符号器の問題点を示している。 図 2で示した音声信号に対 して、 時刻 (n+ 1) でサンプルしたサンプル値を Xn+ 1、 時刻 (n + 2) で サンプルしたサンプル値を Xn + 2とする。 また、 時刻 nで復号された再生信号 は図 2で示した S nである。 なお、 音声信号は、 時刻 (n+ 1) 付近で急に振幅 が増加する波形とする。
時刻 (n+ 1) における再生信号を求める場合を考える。 まず、 時刻 (n + 1) のサンプル値 Xn+ 1と、 時刻 nの再生信号 Snとの差分をとつて差分信号 En+ 1を生成する。
そして、 差分信号 En + 1に量子化を施して、 時刻 (n+ 1) の量子化値を選 択する。 2ビットの量子化なので、 量子化値の候補は、 h 5〜h 8の 4通りある。 また、 これら量子化値の量子化ステップサイズは、 直前で選択された量子化値に よって決まる。
すなわち、 直前で選択された量子化値が、 4つあるドットの真ん中 2つのいず れかが選ばれているなら、 時刻 (n— 1) から時刻 nへの振幅変動は少ないため、 時刻 nから時刻 (n+ 1) への振幅変動も少ないであろうとみなして、 時刻 (n + 1) の量子化ステップサイズは小さくする。
,また、 直前で選択された量子化値が、 4つあるドットの両端のいずれかが選ば れた場合には、 時刻 (n— 1) から時刻 nへの振幅変動は大きいため、 時刻 nか ら時刻 (n+ 1) への振幅変動も大きいであろうとみなして、 時刻 (n+ 1) の 量子化ステップサイズは大きくする。
ここの例では、 時刻 nの再生信号 Snは、 再生信号候補 h 1〜h 4の中の h 3 を選択したものであるから (真ん中 2つの内の 1つである) 、 振幅変動が少ない とみなせるので、 時刻 (n+ 1) の量子化値の量子化ステップサイズは (つまり h 5〜h 8のドット間隔は) 、 小さくする (時刻 nで用いた 1より小さいスケ一 リングファクタを時刻 (n+ 1) でも用いて、 h l〜h 4のドット間隔と同じと している) 。
その後、 量子化値の候補 h 5〜h 8の中から、 差分信号 En+ 1を最も正しく 表現できるものを選択することになる。 ところが、 時刻 (n+ 1) で音声信号の 振幅が急に立ち上がつているため、 量子化ステップサイズが大きくない再生信号
候補 h 5〜! i 8の中から差分信号 En + 1をもっとも正しく表現できるもの (サ ンプル値 Xn+ 1に最も近接なドット) を選ぶとしてもせいぜい h 5しかない。 したがって、 時刻 (n+ 1) における再生信号は、 量子化値 h 5 (Sn+ 1) が選択され、 量子化値 h 5を示す A D P C M符号が符号器から出力されることに なる。 しかし、 図からわかるように、 量子化誤差が大きくなつてしまい、 音質劣 化を招くことになる。
次に時刻 (n + 2) での量子化に対し、 時刻 (n+ 1) の再生信号 Sn+ 1は、 再生信号候補 h 5〜h 8の中の h 5を選択したものであるから (両端の内の 1つ である) 、 振幅変動が大きいとみなし、 時刻 (n+2) の量子化値の量子化ステ ップサイズは (つまり h 9〜! 112のドット間隔は) 、 時刻 (n+ 1) の量子化 ステップサイズよりも大きくなつている。 そして、 上述と同様な処理を行って、 再生信号としては h 9が選択されることになる。
このように、 従来の ADPCMでは、 音声の急なレベル変化があった場合でも、 変化量が小さい振幅増加前の量子化ステップサイズで、 振幅変動の大きいサンプ ルの量子化値を求めているために、 大きな量子化誤差が発生してしまい、 音質劣 化が生じていた。 本発明は、 音声の振幅変動が大きい場合でも、 量子化誤差を効 率よく抑制して音声品質の向上を図るものである。
次に本発明の音声符号化装置 10の構成及び動作について以降詳しく説明する。 最初に符号候補格納部 11について説明する。 図 4は符号候補格納部 1 1で格納 される符号候補の概念を説明するための図である。 今、 時刻 nにおける音声信号 のサンプル値の符号 i d x[n]を求める場合を考える。 また、 時刻 (n+ 1) の サンプル値までを、 時刻 nのサンプル値の近傍区間とし (すなわち、 先読みサン プル 1とする) 、 1サンプルあたり 2ビットの量子化と仮定する。
時刻 nのサンプル値に対する量子化値の符号 j 1は、 # 1〜#4の 4通りの候 補があり、 符号〗 1の # 1〜#4それぞれに対して、 時刻 (n + 1) の符号 j 2 も # 1〜# 4の 4通りの候補がある。
ここで、 例えば、 時刻 nのサンプル値に対する符号 j 1に # 1を選択して、 時 刻 (n+ 1) の符号 j 2に # 1を選択した場合を {1、 1}のように表記すると、 符号候補のすべての組み合わせは、 {1、 1}、 {1、 2}、 ·'·{4、 3}、 {4、 4}
の 1 6通りあることになる。
したがって、 現在時刻 nの符号を 2ビットの量子化で求める際に、 先読みサン プル 1として、 時刻 (n+ 1) のサンプル値までを使用すると、 符号候補格納部 1 1では、 時刻 nの符号 j 1と時刻 (n+ 1) の符号 j 2の符号のすべての 16 通りの組み合わせ {j 1、 j 2} = {1、 1}、 ···、 {4、 4}が格納されることにな る。
また、 符号候補格納部 1 1は、 これら符号候補をローカルデコーダ 12に順次 入力し、 16通りすベて入力し終わると、 次は装置内では現在時刻 (n+ 1) の 符号を求めることになるので、 時刻 (n + 2) のサンプル値までを使用すること になり、 符号候補格納部 1 1には、 時刻 (n+ 1) の符号 j 1と、 時刻 (n + 2) の符号 j 2とのすベての 16通りの組み合わせが格納され、 再びローカルデ コーダ 12へ入力することになる。 以下、 このような動作が繰り返される。
なお、 上記の例では、 時刻 nの符号 i d x[n]を求める際に、 先読みサンプル 1として時刻 (n+ 1) までを含めたが、 2ビット量子化で先読みサンプル 2と すれば、 符号候補格納部 1 1には、 時刻 nの符号 j 1、 時刻 (n+ 1) の符号 j 2、 時刻 (n + 2) の符号 j 3のすベての符号の組み合わせ {j 1、 j 2、 j 3} = {1、 1、 1}、 ···、 {4、 4、 4}の 64通りの候補が格納されることになる (以降、 同様な考え方である) 。
次に符号化時に量子化誤差を抑制する本発明の動作について図 5〜図 1 1を用 いて説明する。 なお、 時刻 nの符号 i d x[n]を求めるものとし、 先読みサンプ ル 1として時刻 (n+ 1) の情報を利用する。 また、 説明を簡略化するために、 予測なしとし、 量子化は 2ビッ卜で行うものとする。
図 5〜図 10は本発明の動作を説明するための図である。 音声信号に対して、 時刻 nでサンプルしたサンプル値を Xn、 時刻 (n+ 1) でサンプルしたサンプ ル値を Xn+ 1とする。 また、 音声信号は、 時刻 (n+ 1) 付近で急に振幅が増 加する波形とする。
図 5に対し、 時刻 nにおける符号候補 j 1を復号した際の符号候補は # 1〜# 4の 4通りある。 ここで、 時刻 nにおいて、 符号候補 # 1を最初に選択したとす る。 すると、 符号候補 # 1に対応する、 時刻 (n+ 1) において選択可能な符号
候補は、 量子化ステップサイズの広い # (1— 1) 〜# (1—4) の 4通りある。 図 6に対し、 時刻 (n+ 1) の符号候補として、 # (1— 1) を選択したとす る。 このとき、 時刻 nのサンプル値 Xnと、 符号候補 # 1との差分 d iを求め、 時刻 (n+ 1) のサンプル値 Xn+ 1と、 符号候補 # (1 _ 1) との差分 を求める。 そして、 これらの差分の自乗和を算出して誤差評価値 e ({1、 1}) を求める。
e ({1、 1}) = (d ,) 2 + (d 1→) 2 … (1) 図 7に対し、 時刻 (n+ 1) の符号候補として、 # (1— 2) を選択したとす る。 このとき、 時刻 nのサンプル値 Xnと、 符号候補 # 1との差分は dェであり、 また、 時刻 (n+ 1) のサンプル値 Xn+ 1と、 符号候補 # (1 _2) との差分 が求められる。 そして、 これらの差分の自乗和を算出して誤差評価値 e ({1、 2}) を求める。
e ({1、 1}) = (άχ) 2+ (ά ,_2) 2 … (2) 以下、 時刻 (n+ 1) の符号候補として、 # (1一 3) 、 # (1 _4) を選択 した場合も同様の処理を行って、 誤差評価値 e ({1、 3}) 、 e ({1、 4}) を 求める。
図 8に対し、 時刻 nにおいて、 符号候補 #2を選択したとする。 すると、 符号 候補 #2に対応する、 時刻 (n+ 1) において選択可能な符号候補は、 量子化ス テツプサイズの狭い # (2— 1) 〜# (2— 4) の 4通りある。
図 9に対し、 時刻 (n+ 1) の符号候補として、 # (2— 1) を選択したとす る。 このとき、 時刻 nのサンプル値 Xnと、 符号候補 # 2との差分 d2を求め、 また、 時刻 (n+ 1) のサンプル値 Xn+ 1と、 符号候補 # (2_ 1) との差分 が求められる。 そして、 これら差分の自乗和を算出して誤差評価値 e ({2、 1}) を求める。
e ({2、 1}) = (d2) 2+ (d 2→) 2 … (3) 図 10に対し、 時刻 (n+ 1) の符号候補として、 # (2— 2) を選択したと する。 このとき、 時刻 nのサンプル値 Xnと、 再生信号候補 # 1との差分は d2 であり、 また、 時刻 (n+ 1) のサンプル値 Xn+ 1と、 符号候補 # (2— 2) との差分 d2— 2が求められる。 そして、 これら差分の自乗和を算出して誤差評価
値 e ({2 2}) を求める。
e ({2 2}) (d2) 2+ (d2_2) 2 (4) 以下、 時刻 (n+ 1) の符号候補として、 # (2— 3) # (2— 4) を選択 した場合も同様の処理を行って、 誤差評価値 e ({2 3}) e ({2 4}) を 求める。
このような処理を時刻 nにおける符号候補 # 3 #4についても行い、 結局、 16個の誤差評価値 e ({1 1}) e ({4 4}) を求める。 そして、 誤差評 価値 e ({1 1}) e ({4 4}) の中から最小値を選択する。 この例の場合、 図 6で説明した誤差評価値 e ({1 1}) が最小値になることが、 図から判別で きる。 したがって、 時刻 nの符号候補 # 1が最終的に選択決定され、 符号候補 # 1を表す符号 i d x[n]が伝送路上へ出力されることになる。
ここで、 従来技術と比較しながら本発明の特徴について説明する。 図 1 1は本 発明を適用しない場合の符号選択を示す図である。 もし、 上記の図 5〜図 10の 例に対して、 図 3で説明したような従来技術の処理を行ったとすると、 時刻 nで は、 サンプル値 Xnに最も近接な位置にある候補 #2が選択され、 時刻 (n + 1) では、 サンプル値 Xn+ 1に最も近接な位置にある候補 # (2— 1) が選択 されることになる。 すると、 時刻 nでは量子化誤差 e l aが小さくても、 時刻 (n+ 1) では大きな量子化誤差 e2aが発生してしまうことになる。
ここで、 量子化ステップサイズを決めるには、 直前で選択された値によって決 めることは従来、 本発明ともに同じであるが、 従来の処理では、 過去に決定され た符号にもとづいて、 次の量子化ステップサイズを決めている。 したがって、 時 刻 nでは、 時刻 nのサンプル値に最も近い符号を決定できたとしても、 次のサン プリング時刻 (n+ 1) で振幅変動が急激に増加したような場合、 変化量が小さ い振幅増加前の量子化ステップサイズで、 時刻 (n+ 1) の符号を求めてしまう ことが起こるため、 時刻 (n+ 1) では大きな量子化誤差 e2aが発生してしま う。
一方、 本発明の場合、 近傍サンプル区間内の符号候補すべてに対して発生する 量子化誤差をあらかじめ求めておき、 量子化誤差が最小となる符号候補の組み合 わせを選択する。 このため、 振幅変動が急激に増加する場合であっても、 その振
幅変動が近傍区間内にあれば、 従来のように 1つのサンプル地点のみ大きな量子 化誤差を発生する符号を選択するようなことがなくなる。
例えば、 図 6は、 誤差評価値が最小となる符号候補 # 1、 # (1— 1) を示し ており、 時刻 nでは候補 # 1を選択決定しているため、 時刻 nの量子化誤差だけ について見ると、 量子化誤差 (= d ,) は、 図 1 1の従来処理と比べて大き くはなっている (e i>e la) 。
ただし、 時刻 nで候補 # 1を選択することで、 時刻 (n+ 1) では量子化ステ ップサイズを広げることができる。 このため、 時刻 (n+ 1) ではステップサイ ズが広がった候補 # 1〜# 4の中でサンプル値 Xn + 1に近接な候補を選択する ことになるので、 結局、 (e i + e 2 (= 6 ^,) ) < (e l a+ e 2 a) となり、 本発明の方が量子化誤差を小さくできることがわかる。
このように、 振幅変動前は量子化誤差を小さくできても、 振幅変動後に大きな 量子化誤差を発生させてしまう従来技術に対して、 本発明では、 振幅変動前後で 量子化誤差を総体的に小さくする構成としたので、 S の向上を図ることが可 能になる。
次にローカルデコーダ 1 2の詳細ブロックを示した音声符号化装置 1 0につい て説明する。 図 1 2は音声符号化装置 1 0の構成を示す図である。 音声符号化装 置 1 0は、 符号候補格納部 1 1、 ローカルデコーダ 1 2、 誤差評価部 1 3を含む。 ローカルデコーダ 1 2は、 適応逆量子化部 1 2 a、 加算器 1 2 b、 遅延部 1 2 c から構成され、 誤差評価部 1 3は、 差分自乗和算出部 1 3 a、 最小値検出部 1 3 bから構成される。 符号候補格納部 1 1については上述したので、 ローカルデコ ーダ 1 2、 誤差評価部 1 3について説明する。 なお、 符号候補格納部 1 1では、 時刻 nの符号 j 1、 時刻 (n+ 1) の符号 j 2の {j 1、 j 2}の組み合わせを格 納しているものとする。
ローカルデコーダ 1 2に対し、 適応逆量子化部 1 2 aは、 符号候補 {1、 1}を 受信すると、 前回の時刻 (n— 1) で処理した結果から量子化ステップサイズを 更新する。 そして、 最初に時刻 nの j 1 =# 1の符号に対応する量子化値を認識 した後、 その量子化値を逆量子化して、 逆量子化信号 d q[n]を出力する。
加算器 1 2 bは、 遅延部 1 2 cから出力される遅延信号 s e[n] (時刻 (n_
1) の処理で 1サンプル時間遅延した信号である) と、 逆量子化信号 dq[n]と を加算して、 再生信号 s r [n] (=d q[n]+ s e[n]) を生成し、 遅延部 12 c及び誤差評価部 13へ出力する。 遅延部 12 cは、 再生信号 s r[n]を受信す ると、 1サンプル時間遅延させて遅延信号 s e[n+ 1]を出力し、 加算器 12 b へフィードバックする。
次に適応逆量子化部 12 aは、 時刻 (n+ 1) の」' 2 = # 1の符号に対応する 量子化値を認識した後、 その量子化値を逆量子化して、 逆量子化信号 dq[n]を 出力する。 そして、 加算器 12 b、 遅延部 12 cでは、 上述と同様な処理が行わ れて、 符号」' 2に対する再生信号が生成される。
誤差評価部 13に対し、 差分自乗和算出部 13 aは、 入力サンプル値 i n[n] と、 再生信号 s r [n]とを受信して、 以下の式にもとづいて差分自乗和を算出す る。 ただし、 0≤k≤p rである (p rは先読みサンプル数) 。 pr 2
e (J ) =2 (in[n+k]-sr[n+k]) ··· (5)
k=0
最小値検出部 13 bは、 すべての符号候補に対する式 (5) の値から最小値を 検出する。 そして、 最小値である符号候補の中から時刻 nの符号候補 (再生信 号) を認識し、 その符号候補に対応する符号 i dx[n]を伝送路上へ出力する。 なお、 上記の構成に対して、 予測を行う場合には、 遅延部 12 cを適応予測部 に置き換え、 この適応予測部に再生信号および逆量子化信号を入力する構成とす れば、 適応予測方式に対応することができる。
図 13は音声符号化装置 10の動作概要を示すフローチャートである。 符号候 補は {j 1、 j 2}とし、 j 1は時刻 nの符号、 j 2は時刻 (n+ 1) の符号であ る。
〔S 1〕 符号候補格納部 1 1は、 符号候補 {j 1、 j 2}を格納する。
(S 2) ローカルデコーダ 12は、 時刻 nの符号 j 1の再生信号を生成する。 〔S 3〕 ローカルデコーダ 12は、 時刻 (n+ 1) の符号 j 2の再生信号を生成 する。
〔S 4〕 誤差評価部 1 3は、 式 (5) にもとづき、 誤差評価値 e ({ j 1、 j
2}) を算出する。
〔S 5〕 すべての符号候補 {j 1、 j 2} = {1、 1}〜 、 f}に対する誤差を算 出したならばステップ S 6へいき、 そうでなければステップ S 2へ戻る。
〔S 6〕 誤差評価部 13は、 誤差評価値 e ({j 1、 j 2}) の最小値を検出し、 最小値となった {j 1、 j 2}の j 1を時刻 nの符号 i d x[n]として出力する。 〔S 7〕 ローカルデコーダ 12は、 ステップ S 6で決定された時刻 nの j 1にも とづいて、 時刻 (n+ 1) における量子化ステップサイズの更新を行う。
〔S 8〕 時刻 ηを更新し、 時刻 (n+ 1) の符号を求める処理に入る (符号候補 格納部 1 1には、 時刻 (n+ 1) の符号 j 1、 時刻 (n + 2) の符号 j 2の符号 候補 {j 1、 j 2}が格納されることになる) 。
以上説明したように、 本発明によれば、 音声信号のサンプル値に対する符号を 求める際に、 サンプル値の近傍区間でのすべての符号候補の組み合わせを格納し、 符号候補から再生信号を生成し、 入力サンプル値と再生信号との差分の自乗和を 算出して、 自乗和が最小となる符号候補の中の符号を出力する構成とした。 これ により、 音声の振幅変動が大きい場合でも、 量子化誤差を効率よく抑制すること ができ、 音声品質の向上を図ることが可能になる。 また、 符号器側の構成変更の みで本発明を実現できるので容易に実用化が可能である。
次に本発明の効果について説明する。 図 14は従来の処理を行った場合の波形 であり、 図 15は本発明の処理を行った場合の波形を示す図である。 縦軸は振幅、 横軸は時間であり、 男女の自然音 (肉声) ファイルについて測定した結果である。 図 14の上側の波形 Wl aは、 従来の ADP CM符号器で符号化した信号を再 生した信号 (ADP CM復号器の出力波形) であり、 下側の波形 Wl bは元の入 力音声と波形 Wl aとのレベル差分である。 また、 図 15の上側の波形 W 2 aは、 本発明の音声符号化装置 10で符号化した信号を再生した信号 (ADPCM復号 器の出力波形) であり、 下側の波形 W 2 bは元の入力音声と波形 W 2 aとのレべ ル差分である (レベル差分を示す誤差信号の倍率は 4倍にした) 。
波形 Wl b、 波形 W 2 bを比較すると、 本発明の波形 W 2 bの方が平坦であり、 量子化誤差が抑制されていることがわかる。 また、 SZNについては従来は 28. 37 d Bであったが、 本発明では 34. 50 dBとなり、 6. 13dBの改善が
見られ、 本発明が有効であることがわかる。
次に本発明の変形例について説明する。 図 16は本発明の変形例を示す図であ る。 音声符号化装置 10 aは、 あらたに符号選択部 14を含む。 その他の構成要 素は図 12と同じである。
符号選択部 14では、 近傍区間の最終段のサンプル時刻を時刻 (n + k) とし た場合、 時刻 (n + k) における符号候補に対し、 入力サンプル値 i n [n + k] に最も近い値を表す符号を選択し、 適応逆量子化部 12 aへ出力する。 そして、 ローカルデコーダ 12では、 時刻 (n + k) の再生信号に対しては、 符号選択部 14で選択された符号のみを再生して再生信号を生成する。
図 17は変形例の動作を説明するための図である。 時刻 nの符号を求める際に、 先読みサンプル 1とすると、 最終段時刻は時刻 (n+ 1) となる (先読みサンプ ルが 2なら、 最終段時刻は時刻 (n + 2) である) 。
ここで、 図 15以前に上述した本発明の動作では、 符号候補格納部 11から入 力した符号をすベて復号化して再生信号を生成し、 誤差評価を行うものであった。 一方、 変形例の場合は、 最終段時刻 (n + k) の符号候補に対しては、 最終段時 刻 (n + k) の入力サンプル値 i n[n + k]と最も近接な 1つの符号を符号選択 部 14であらかじめ選択し (通常の符号化が行われている) 、 最終段時刻 (n + k) に関しては、 その符号だけをローカルデコーダ 12で復号化して再生信号を 生成して、 その後、 誤差評価部 13で誤差評価が行われるものである。
したがって、 図の場合、 # (1 _ 1) が符号選択部 14で選択されることにな るので、 ローカルデコーダ 12では、 # (1— 1) のみ復号化し、 # (1— 2) 〜# (1—4) に関しては、 復号化は行わない。 このような構成にすることで、 変形例の場合では、 計算量を低減することができ、 処理速度の向上を図ることが 可能になる。
このように、 本発明によれば、 現在のサンプルだけでなく、 近傍のサンプル区 間での量子化誤差を考慮して符号を選択することで、 量子化誤差を抑制し、 音質 を向上させることができる。 なお、 上記では、 符号化を行う信号として、 音声信 号を対象にして説明したが、 音声信号に限らず、 本発明は高能率符号化の一方式 として、 多様な分野に広く適用することが可能である。
以上説明したように、 本発明の音声符号化装置は、 音声信号のサンプル値に対 する符号を求める際に、 サンプル値の近傍区間でのすべての符号候補の組み合わ せを格納し、 格納されている符号を復号化して再生信号を生成し、 入力サンプル 値と再生信号との差分の自乗和を算出して、 自乗和が最小となる符号候補を量子 化誤差最小とみなして、 符号候補の中の符号を出力する構成とした。 これにより、 音声の振幅変動が大きい場合でも、 量子化誤差を効率よく抑制することができ、 音声品質の向上を図ることが可能になる。
上記については単に本発明の原理を示すものである。 さらに、 多数の変形、 変 更が当業者にとって可能であり、 本発明は上記に示し、 説明した正確な構成およ び応用例に限定されるものではなく、 対応するすべての変形例および均等物は、 添付の請求項およびその均等物による本発明の範囲とみなされる。
Claims
1. 音声信号の符号化を行う音声符号化装置において、
音声信号のサンプル値に対する符号を求める際に、 前記サンプル値の近傍区間 での符号候補の複数の組み合わせを格納する符号候補格納部と、
前記符号候補格納部で格納されている符号を復号化して再生信号を生成する復 号信号生成部と、
1つの符号候補毎に入力サンプル値と再生信号との差分の自乗和を算出して、 量子化誤差を最小とする、 自乗和が最小値の符号候補を検出し、 検出した符号候 補の中の符号を出力する誤差評価部と、
を有することを特徴とする音声符号化装置。
2. 時刻 nのサンプル値に対する符号を求める際に、 先読みサンプル数 p rま でを近傍区間とした、 時刻 (n + k) を設定した場合 (0≤k≤p r) 、 前記符 号候補格納部は、 時刻 nのサンプル値の符号 j 1から時刻 (n + k) までのサン プル値に対する符号 j kの符号候補 J{j 1、 j 2、 ···、 j k}の複数の組み合 わせを格納し、 前記復号信号生成部は、 符号 j 1、 j 2、 ···、 j kから再生信 号 s r (J) を逐次生成し、 前記誤差評価部は、 入力サンプル値を i nとした場 e ( J) =∑ ( i n[n + k]- s r [n + k]) 2 (0≤k≤p r)
の誤差評価値 e (J) を最小とする符号候補 {j 1、 j 2、 ···、 j k}を検出し、 検出した符号候補 {j 1、 j 2、 ···、 j k}の j 1を時刻 nでの符号として出力 することを特徴とする請求の範囲第 1項記載の音声符号化装置。
3. 時刻 nのサンプル値に対する符号を求める際に、 先読みサンプル数 p rま でを近傍区間とした、 近傍区間の最終段のサンプル時刻を時刻 (n + k) とした 場合 (k = p r) 、 最終段時刻 (n + k) の入力サンプル値 i n [n + k]に最も 近接な符号を選択する符号選択部をさらに有し、 前記復号信号生成部は、 最終段 時刻 (n + k) の再生信号に対しては、 前記符号選択部で選択された符号のみを 再生して再生信号を生成することを特徴とする請求の範囲第 1項記載の音声符号 化装置。
4. 信号の符号化を行う符号化方法において、
時刻 nのサンプル値に対する符号を求める際に、 先読みサンプル数 p rまでを 近傍区間とした、 時刻 (n + k) を設定した場合 (0≤k≤p r) 、
時刻 nのサンプル値の符号 j 1から時刻 (n + k) までのサンプル値に対する 符号 j kの符号候補 J{j 1、 j 2、 ···、 j k}の複数の組み合わせを格納し、 符号 j 1、 j 2、 ···、 j kから再生信号 s r (J) を逐次生成し、
入力サンプル値を i nとした場合に、
e (J) =∑ ( i n[n + k]- s r [n + k]) 2 (0≤k≤p r)
の誤差評価値 e (J) を最小とする符号候補 {j 1、 j 2、 ···、 j k}を検出し、 検出した符号候補 {j 1、 j 2、 ···、 j k}の j 1を時刻 nでの符号として出 力することを特徴とする符号化方法。
5. 時刻 nのサンプル値に対する符号を求める際に、 先読みサンプル数 p rま でを近傍区間とした、 近傍区間の最終段のサンプル時刻を時刻 (n + k) とした 場合 (k = p r) 、 最終段時刻 (n + k) の入力サンプル値 i n[n + k]に最も 近接な符号を選択して、 最終段時刻 (n + k) の再生信号に対しては、 選択され た前記符号のみを再生して再生信号を生成することを特徴とする請求の範囲第 4 項記載の符号化方法。
Priority Applications (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2005500739A JP4245606B2 (ja) | 2003-06-10 | 2003-06-10 | 音声符号化装置 |
PCT/JP2003/007380 WO2004112256A1 (ja) | 2003-06-10 | 2003-06-10 | 音声符号化装置 |
US11/185,302 US7072830B2 (en) | 2003-06-10 | 2005-07-20 | Audio coder |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
PCT/JP2003/007380 WO2004112256A1 (ja) | 2003-06-10 | 2003-06-10 | 音声符号化装置 |
Related Child Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
US11/185,302 Continuation US7072830B2 (en) | 2003-06-10 | 2005-07-20 | Audio coder |
Publications (1)
Publication Number | Publication Date |
---|---|
WO2004112256A1 true WO2004112256A1 (ja) | 2004-12-23 |
Family
ID=33548989
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
PCT/JP2003/007380 WO2004112256A1 (ja) | 2003-06-10 | 2003-06-10 | 音声符号化装置 |
Country Status (3)
Country | Link |
---|---|
US (1) | US7072830B2 (ja) |
JP (1) | JP4245606B2 (ja) |
WO (1) | WO2004112256A1 (ja) |
Families Citing this family (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2007043643A1 (ja) * | 2005-10-14 | 2007-04-19 | Matsushita Electric Industrial Co., Ltd. | 音声符号化装置、音声復号装置、音声符号化方法、及び音声復号化方法 |
WO2010028292A1 (en) * | 2008-09-06 | 2010-03-11 | Huawei Technologies Co., Ltd. | Adaptive frequency prediction |
US8407046B2 (en) * | 2008-09-06 | 2013-03-26 | Huawei Technologies Co., Ltd. | Noise-feedback for spectral envelope quantization |
US8515747B2 (en) * | 2008-09-06 | 2013-08-20 | Huawei Technologies Co., Ltd. | Spectrum harmonic/noise sharpness control |
US8532998B2 (en) * | 2008-09-06 | 2013-09-10 | Huawei Technologies Co., Ltd. | Selective bandwidth extension for encoding/decoding audio/speech signal |
WO2010031003A1 (en) * | 2008-09-15 | 2010-03-18 | Huawei Technologies Co., Ltd. | Adding second enhancement layer to celp based core layer |
US8577673B2 (en) | 2008-09-15 | 2013-11-05 | Huawei Technologies Co., Ltd. | CELP post-processing for music signals |
TWI579831B (zh) * | 2013-09-12 | 2017-04-21 | 杜比國際公司 | 用於參數量化的方法、用於量化的參數之解量化方法及其電腦可讀取的媒體、音頻編碼器、音頻解碼器及音頻系統 |
US20230037541A1 (en) * | 2021-07-29 | 2023-02-09 | Xinapse Co., Ltd. | Method and system for synthesizing speeches by scoring speeches |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH02246625A (ja) * | 1989-03-20 | 1990-10-02 | Fujitsu Ltd | 音声信号の予測符号化方法 |
JPH1056388A (ja) * | 1996-08-07 | 1998-02-24 | Ricoh Co Ltd | 適応予測器選択回路 |
JPH11220405A (ja) * | 1998-01-29 | 1999-08-10 | Toshiba Corp | Adpcm圧縮装置、adpcm伸長装置及びadpcm圧縮伸長装置 |
JP2000347694A (ja) * | 1999-06-07 | 2000-12-15 | Matsushita Electric Ind Co Ltd | 音声圧縮伸長装置 |
Family Cites Families (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US5819213A (en) * | 1996-01-31 | 1998-10-06 | Kabushiki Kaisha Toshiba | Speech encoding and decoding with pitch filter range unrestricted by codebook range and preselecting, then increasing, search candidates from linear overlap codebooks |
JP3143406B2 (ja) | 1997-02-19 | 2001-03-07 | 三洋電機株式会社 | 音声符号化方法 |
US6601032B1 (en) * | 2000-06-14 | 2003-07-29 | Intervideo, Inc. | Fast code length search method for MPEG audio encoding |
-
2003
- 2003-06-10 JP JP2005500739A patent/JP4245606B2/ja not_active Expired - Fee Related
- 2003-06-10 WO PCT/JP2003/007380 patent/WO2004112256A1/ja active Application Filing
-
2005
- 2005-07-20 US US11/185,302 patent/US7072830B2/en not_active Expired - Fee Related
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH02246625A (ja) * | 1989-03-20 | 1990-10-02 | Fujitsu Ltd | 音声信号の予測符号化方法 |
JPH1056388A (ja) * | 1996-08-07 | 1998-02-24 | Ricoh Co Ltd | 適応予測器選択回路 |
JPH11220405A (ja) * | 1998-01-29 | 1999-08-10 | Toshiba Corp | Adpcm圧縮装置、adpcm伸長装置及びadpcm圧縮伸長装置 |
JP2000347694A (ja) * | 1999-06-07 | 2000-12-15 | Matsushita Electric Ind Co Ltd | 音声圧縮伸長装置 |
Also Published As
Publication number | Publication date |
---|---|
JP4245606B2 (ja) | 2009-03-25 |
US7072830B2 (en) | 2006-07-04 |
JPWO2004112256A1 (ja) | 2006-07-20 |
US20050278174A1 (en) | 2005-12-15 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP3343965B2 (ja) | 音声符号化方法及び復号化方法 | |
US6418408B1 (en) | Frequency domain interpolative speech codec system | |
US7072830B2 (en) | Audio coder | |
US6654718B1 (en) | Speech encoding method and apparatus, input signal discriminating method, speech decoding method and apparatus and program furnishing medium | |
JPH0736118B2 (ja) | セルプを使用した音声圧縮装置 | |
JPH08263099A (ja) | 符号化装置 | |
JP4420562B2 (ja) | 背景ノイズが共存する符号化音声の品質を向上させるためのシステムおよび方法 | |
JPH02231825A (ja) | 音声符号化方法、音声復号方法、およびこれらを使用した通信方法 | |
US7047186B2 (en) | Voice decoder, voice decoding method and program for decoding voice signals | |
JP3472279B2 (ja) | 音声符号化パラメータ符号化方法及び装置 | |
WO1998037636A1 (fr) | Procede de codage de signaux vocaux | |
Pandey et al. | Optimal non-uniform sampling by branch-and-bound approach for speech coding | |
JP3219467B2 (ja) | 音声復号化方法 | |
JP4292767B2 (ja) | データレート変換方法及びデータレート変換装置 | |
JP3417362B2 (ja) | 音声信号復号方法及び音声信号符号化復号方法 | |
JP4489371B2 (ja) | 合成音声を最適化する方法、音声合成フィルタを生成する方法、音声最適化方法及び音声最適化装置 | |
JPH05165499A (ja) | Lsp係数の量子化方法 | |
JP3496618B2 (ja) | 複数レートで動作する無音声符号化を含む音声符号化・復号装置及び方法 | |
JPH09244695A (ja) | 音声符号化装置及び復号化装置 | |
JPH11259098A (ja) | 音声符号化/復号化方法 | |
JPH0573098A (ja) | 音声処理装置 | |
JPH0786952A (ja) | 音声の予測符号化方法 | |
JP3350340B2 (ja) | 音声符号化方法および音声復号化方法 | |
JP3147208B2 (ja) | 量子化符号復号方法 | |
JP3580906B2 (ja) | 音声復号装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
AK | Designated states |
Kind code of ref document: A1 Designated state(s): JP US |
|
WWE | Wipo information: entry into national phase |
Ref document number: 2005500739 Country of ref document: JP |
|
WWE | Wipo information: entry into national phase |
Ref document number: 11185302 Country of ref document: US |