WO2006114964A1 - ピッチ周期等化装置及びピッチ周期等化方法、並びに音声符号化装置、音声復号装置及び音声符号化方法 - Google Patents
ピッチ周期等化装置及びピッチ周期等化方法、並びに音声符号化装置、音声復号装置及び音声符号化方法 Download PDFInfo
- Publication number
- WO2006114964A1 WO2006114964A1 PCT/JP2006/305968 JP2006305968W WO2006114964A1 WO 2006114964 A1 WO2006114964 A1 WO 2006114964A1 JP 2006305968 W JP2006305968 W JP 2006305968W WO 2006114964 A1 WO2006114964 A1 WO 2006114964A1
- Authority
- WO
- WIPO (PCT)
- Prior art keywords
- frequency
- pitch
- output
- input
- signal
- Prior art date
Links
- 238000000034 method Methods 0.000 title claims abstract description 62
- 230000005236 sound signal Effects 0.000 claims abstract description 176
- 239000011295 pitch Substances 0.000 claims description 738
- 238000001514 detection method Methods 0.000 claims description 65
- 238000004364 calculation method Methods 0.000 claims description 30
- 238000012952 Resampling Methods 0.000 claims description 21
- 238000012935 Averaging Methods 0.000 claims description 16
- 238000005070 sampling Methods 0.000 claims description 8
- 230000009466 transformation Effects 0.000 claims description 8
- 238000006243 chemical reaction Methods 0.000 claims description 7
- 230000006870 function Effects 0.000 claims description 7
- 238000001914 filtration Methods 0.000 claims description 6
- 230000009467 reduction Effects 0.000 claims description 5
- 230000001131 transforming effect Effects 0.000 claims description 3
- 239000013598 vector Substances 0.000 description 46
- 238000010586 diagram Methods 0.000 description 30
- 238000001228 spectrum Methods 0.000 description 30
- 238000013139 quantization Methods 0.000 description 26
- 230000008859 change Effects 0.000 description 19
- 230000005284 excitation Effects 0.000 description 17
- 230000003595 spectral effect Effects 0.000 description 16
- 230000003044 adaptive effect Effects 0.000 description 14
- 230000000737 periodic effect Effects 0.000 description 10
- 230000002123 temporal effect Effects 0.000 description 9
- 230000015572 biosynthetic process Effects 0.000 description 6
- 238000012545 processing Methods 0.000 description 6
- 238000003786 synthesis reaction Methods 0.000 description 6
- 230000008451 emotion Effects 0.000 description 5
- 238000004458 analytical method Methods 0.000 description 4
- 230000000694 effects Effects 0.000 description 4
- 239000003990 capacitor Substances 0.000 description 2
- 230000006835 compression Effects 0.000 description 2
- 238000007906 compression Methods 0.000 description 2
- 230000003247 decreasing effect Effects 0.000 description 2
- 230000010355 oscillation Effects 0.000 description 2
- 239000002699 waste material Substances 0.000 description 2
- 230000009471 action Effects 0.000 description 1
- 238000005311 autocorrelation function Methods 0.000 description 1
- 238000007796 conventional method Methods 0.000 description 1
- 238000012937 correction Methods 0.000 description 1
- 230000007423 decrease Effects 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 239000000284 extract Substances 0.000 description 1
- 238000000605 extraction Methods 0.000 description 1
- 230000007246 mechanism Effects 0.000 description 1
- 238000002156 mixing Methods 0.000 description 1
- 230000008569 process Effects 0.000 description 1
- 238000011084 recovery Methods 0.000 description 1
- 230000004044 response Effects 0.000 description 1
- 239000013589 supplement Substances 0.000 description 1
- 230000002194 synthesizing effect Effects 0.000 description 1
- 238000013519 translation Methods 0.000 description 1
- 210000001260 vocal cord Anatomy 0.000 description 1
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/003—Changing voice quality, e.g. pitch or formants
- G10L21/007—Changing voice quality, e.g. pitch or formants characterised by the process used
- G10L21/013—Adapting to target pitch
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/04—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/04—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
- G10L19/08—Determination or coding of the excitation function; Determination or coding of the long-term prediction parameters
- G10L19/09—Long term prediction, i.e. removing periodical redundancies, e.g. by using adaptive codebook or pitch predictor
Definitions
- Pitch period equalizing apparatus Pitch period equalizing apparatus, pitch period equalizing method, speech encoding apparatus, speech decoding apparatus, and speech encoding method
- the present invention relates to a pitch period equalization technique for equalizing a pitch period of a voice signal including a pitch component, and a voice coding technique using the same.
- CELP code-excited linear prediction coding
- the speech is divided into units called frames, and each frame is encoded.
- Spectral envelope components are calculated based on the speech AR model (Auto-Regressive model) based on linear prediction, and are given in the form of linear prediction (Linear Prediction Coding: LPC) coefficients. It is done.
- Sound source components are given in the form of prediction residuals. This prediction residual is separated into periodic information representing pitch information, noise information which is sound source information, and gain information representing a mixing ratio of pitch and sound source. Each of these pieces of information is composed of code vectors stored in the code book.
- the determination of the code title is performed by a method of synthesizing speech by passing each code vector through a filter and searching for the one closest to the input waveform, that is, a closed loop search by the so-called AbS (Analysis by Synthesis) method.
- each encoded information is decoded, and LPC coefficients, period information (pitch information), noise source information, and gain information are restored.
- An excitation source signal is generated by adding pitch information to noise information. By passing this excitation source signal through a linear prediction synthesis filter composed of LPC coefficients, synthesized speech is obtained.
- FIG. 16 shows an example of the basic configuration of a speech coding apparatus using the CELP coding system (Patent Document) 1, see Figure 9).
- the original audio signal is divided into frames of a predetermined number of samples and input to the input terminal 101.
- An LPC coefficient representing a frequency spectrum envelope characteristic is calculated in the linear prediction analysis unit 102 for the original speech signal input to the input terminal 101. Specifically, the autocorrelation function of the frame is obtained, and the LPC coefficient is calculated using Durbin's recursive solution method.
- the LPC coefficient code unit 103 generates an LPC coefficient code by quantizing and encoding the LPC coefficient. This quantization is often performed by converting into a line spectrum pair (LSP) parameter with excellent quantization efficiency, a partial auto-correlation (PARCOR) parameter, a reflection coefficient, etc. .
- LSP line spectrum pair
- PARCOR partial auto-correlation
- the LPC coefficient decoding unit 104 reproduces the LPC coefficient by decoding the LPC coefficient code. Based on the reproduced LPC coefficients, a codebook search is performed for the sign of the prediction residual component (sound source component) of each frame. This codebook search is often performed on a unit obtained by further dividing a frame (hereinafter referred to as “subframe”).
- the codebook is composed of adaptive codebook 105, noise codebook 106, and gain codebook 107.
- the adaptive codebook 105 is a codebook in which the pitch period and the amplitude of the pitch pulse are represented and stored as a pitch period vector, and represents the pitch component of speech.
- the pitch period vector is a subframe length vector configured by repeating the residual component up to the previous frame (the drive excitation vector for one to several frames immediately before quantization) for a preset period. It is.
- the adaptive codebook 105 stores a powerful pitch period vector group. Adaptive codebook 105 selects one pitch period vector corresponding to the period component of speech from these pitch period vector groups, and outputs it as a time-series code vector candidate.
- the noise codebook 106 is a codebook in which the residual signal power is the remaining waveform excluding the pitch component, and the shape excitation source component is represented and stored as an excitation vector. Express excitement).
- the excitation vector is a vector of subframe length prepared based on white noise, independent of the input speech.
- the noise codebook 106 stores a predetermined number of such excitation vectors.
- the noise codebook 106 selects one excitation vector corresponding to the noise component of the voice from the group of pitch excitation vectors. And output as a candidate for the time-series code base corresponding to the non-periodic component of the speech.
- the gain codebook 107 represents the gain of the pitch component of speech and other components.
- Candidates of respective time-series code vectors output from adaptive codebook 105 and noise codebook 106 are multiplied by pitch gain g and shape gain g in gain sections 108 and 109, respectively.
- the gains g and g are selected and output in the gain codebook 107. And both add a r
- Addition is performed in unit 110 to generate a drive sound source vector candidate.
- the synthesis filter 111 is a linear filter that uses the LPC coefficient output from the LPC coefficient decoding unit 104 as a filter coefficient.
- the synthesis filter 111 filters the drive sound source vector candidates output from the adder 110 and outputs the result as a reproduced speech candidate vector.
- the comparison unit 112 subtracts the reproduced speech candidate vector from the original speech signal vector and outputs distortion data.
- This distortion data is weighted by a coefficient corresponding to human auditory characteristics in the auditory weighting filter 113.
- This auditory weighting filter 113 is usually a moving average autoregressive filter of about tenth order, and is configured to slightly emphasize the formant peak. This weighting is performed in order to perform coding so that the quantization noise is reduced in the frequency band of the valley where the envelope value of the speech spectrum is small.
- the distance minimizing unit 114 selects a periodic signal, a noise code, and a gain code that minimize the square error of the distortion data output from the perceptual weighting filter 113.
- the periodic signal, noise code, and gain code are sent to adaptive codebook 105, noise codebook 106, and profit codebook 107, respectively.
- Adaptive codebook 105 outputs the next time-series code vector candidate based on the input periodic signal.
- the noise codebook 106 outputs a candidate for the next time series code vector based on the input noise code.
- the gain codebook 107 also calculates the next gain g, g based on the input gain code.
- the distance minimizing unit 114 repeats such an AbS loop, and when the distortion data output from the auditory weighting filter 113 is minimized, the periodic signal, noise code, and gain code are The driving sound source vector in that frame is determined.
- the code sending unit 115 includes a periodic signal, a noise code, and a profit determined by the distance minimizing unit 114.
- the obtained code and the LPC coefficient code output from the LPC coefficient encoding unit 103 are converted into a bit-sequence code, and a correction code is added as necessary and output.
- FIG. 17 shows an example of the basic configuration of a speech decoding apparatus using the CELP code method (see Patent Document 1 and FIG. 11).
- the speech decoding apparatus has substantially the same configuration as the speech encoding apparatus except that the codebook is not searched! /.
- the code receiving unit 121 receives an LPC coefficient code, a periodic code, a noise code, and a gain code.
- the LPC coefficient code is sent to the LPC coefficient decoding unit 122.
- the LPC coefficient decoding unit 122 decodes the LPC coefficient code to generate an LPC coefficient (filter coefficient).
- Adaptive codebook 123 stores a pitch period vector group.
- the pitch period vector is a sub-frame length vector configured by repeating the residual component up to the previous frame (the drive sound source vector for one to several frames immediately before decoding) for a preset period. It is.
- Adaptive codebook 123 selects one pitch period vector corresponding to the period code input from code receiving section 121, and outputs it as a time-series code vector.
- the noise codebook 124 stores excitation vector groups.
- the excitation vector is a subframe length vector prepared based on white noise independently of the input speech.
- One excitation vector is selected corresponding to the noise code input from the code receiver 121, and is output as a time-series code vector corresponding to the non-periodic component of speech.
- the gain codebook 125 is used for the gain of pitch components of speech and other components (pitch gain g).
- the gain codebook 125 selects and outputs a set of pitch gain g and shape gain g corresponding to the gain code input from the code receiver 121.
- time-series code vectors output from adaptive codebook 123 and noise codebook 124 are multiplied by pitch gain g and shape gain g in gain sections 126 and 127, respectively.
- pitch gain g and shape gain g are multiplied by pitch gain g and shape gain g in gain sections 126 and 127, respectively.
- Both are added by the adder 128 to generate a driving sound source vector.
- the synthesis filter 129 is a linear filter that uses the LPC coefficient output from the LPC coefficient decoding unit 122 as a filter coefficient.
- the synthesis filter 129 filters the drive sound source vector candidates output from the adder 128 and outputs the result to the terminal 130 as reproduced sound.
- the speech signal is basically coded by the following signal processing.
- the input original audio signal power pitch is extracted.
- the original audio signal is divided into pitch sections.
- the audio signal of each pitch section obtained by the division is resampled so that the number of samples in each pitch section becomes a constant number.
- orthogonal transform such as DCT
- subband data having (n + 1) data power is generated.
- components exceeding a predetermined frequency are removed from the temporal change in intensity, and smoothed.
- determining the threshold of the ratio of the high frequency component of the subband data force it is determined whether or not the original sound signal is a friction sound force, and the determination result is output as friction sound information.
- the original audio signal is information (pitch information) indicating the original pitch length of each pitch section
- acoustic information consisting of (n + 1) pieces of acoustic information data and friction sound information.
- FIG. 18 is a diagram illustrating a configuration example of a speech encoding device (speech signal processing device) described in Patent Document 2.
- the original audio signal (audio data) is input to the audio data input unit 141.
- the pitch extraction unit 142 also extracts a signal (pitch signal) of the basic frequency of the pitch of the voice data input to the voice data input unit 141, and divides the voice data by a unit period (unit pitch section) of the pitch signal. Then, the audio data of each unit pitch section is adjusted by shifting the phase so that the correlation with the pitch signal is maximized, and output to the pitch length fixing unit 143.
- the pitch length fixing unit 143 resamples the audio data of each unit pitch section so that the number of samples in each unit pitch section becomes substantially equal. Then, the resampled audio data of the unit pitch section is output as pitch waveform data. This resampling removes information about the length of each unit pitch section (pitch period). The pitch length fixing unit 143 outputs information representing the original pitch length in each unit pitch section as pitch information.
- the subband dividing unit 144 performs orthogonal transformation such as DCT on the pitch waveform data to generate subband data.
- This subband data is composed of time series data of (n + 1) spectral intensity data representing the intensity of the fundamental frequency component of the voice and the n harmonic components of the voice.
- Band information limiting section 145 filters each of (n + 1) pieces of spectral intensity data constituting the subband data, so that a predetermined amount of time variation of (n + 1) pieces of spectral intensity data is determined. The component exceeding the frequency of is removed. This is a process performed to remove the effect of aliasing caused by resampling in the pitch length fixing unit 143.
- the subband data filtered by the band information limiter 145 is nonlinearly quantized by the nonlinear quantizer 146, encoded by the dictionary selector 147, and output as acoustic information.
- the frictional sound detection unit 149 determines whether the input sound data is voiced sound or unvoiced sound (friction sound) based on the ratio of the high frequency component to the entire spectrum intensity of the subband data. And this discrimination
- Patent Document 1 Japanese Patent No. 3199128
- Patent Document 2 Japanese Patent Laid-Open No. 2003-108172
- Patent Document 3 Japanese Patent Laid-Open No. 2003-108200
- Patent Document 4 Japanese Patent Laid-Open No. 2004-12908
- Non-special reference 1 Manfred R. Schroeder and Bisnnu b. Atal, "Ode- excited Linear Prediction (CELP): High- Quality Speech at Very Low Bit Rates, Proceedings of ICASS P 85, pp. 25.1.1-25.1 .4, 1985.
- Non-Patent Document 2 Hitoshi Kiya, “Digital Signal Processing Series (IV) Multirate Signal Processing”, first edition, October 6, 1995, pp. 34-49, 78- 79.
- the pitch component of the residual signal is selected from a group of pitch period vectors prepared in the adaptive codebook.
- the excitation component of the residual signal is selected from a fixed excitation vector group prepared in the noise codebook. Therefore, if the input speech is to be faithfully reproduced, it is necessary to prepare as many candidates as possible in the pitch period beta group of the adaptive codebook and the excitation code group of the noise codebook.
- the number of candidates when the number of candidates is increased, the memory capacity of the adaptive codebook and the noise codebook becomes enormous and the mounting area increases. If the number of candidates is too large, the amount of code of periodic codes and noise codes increases in proportion to the logarithm of the number of candidates. Therefore, in order to realize a low bit rate, the number of adaptive codebook and noise codebook candidates cannot be increased.
- the former is a phenomenon in which an aliasing component is generated by downsampling, and this can be avoided by using a decimation 'filter as in a normal decimator (for example, Non-Patent Document 2). reference).
- the latter is caused by modulating a voice signal by fluctuation by matching a signal whose period fluctuates with a constant number of samples for each pitch interval. That is, the pitch length fixing unit 143 resamples the audio data whose period fluctuates for each pitch section so that the number of samples in each pitch section becomes constant.
- the pitch fluctuation period is usually about 1Z10 compared to the pitch period, which is quite long.
- pitch fluctuation modulation component the modulation component due to this pitch fluctuation
- the spectral intensity data of each subband component output from the subband dividing unit 144 is used as the band information limiting unit 145.
- the band information limiting unit 145 By filtering with, we are trying to remove the pitch fluctuation modulation component that appears as a time change of the spectral intensity data.
- the passband is too narrow in the band information limiter 145, the original time signal component other than the pitch fluctuation modulation component is smoothed to the original time change component. This results in signal distortion.
- the pass band in the band information limiting unit 145 is widened, a ghost tone appears because the pitch fluctuation modulation component passes.
- the pitch fluctuation modulation component is to be removed by averaging the spectral intensity data of each subband component output from the subband dividing unit 144.
- this averaging results in loss of the original time-varying component other than the pitch fluctuation modulation component, resulting in distortion of the audio signal.
- an object of the present invention is to realize a low bit rate and a speech code that can suppress distortion of reproduced speech smaller than that in the past without causing distortion such as frequency modulation due to pitch fluctuation.
- a pitch period equalization technique suitable for use in the technique is provided.
- each pitch frequency of the original speech signal varies depending on gender differences, individual differences, phonemes, emotions, and conversation contents. Even in the same phoneme, each pitch period fluctuates or changes. Therefore, even if the transform code ⁇ is performed in each pitch section as it is, the obtained spectrum sequence cannot be expected to have high coding efficiency with a large temporal change.
- the information included in the original speech including the pitch component is the information on the basic frequency of the pitch, the information on the fluctuation of the pitch period, and the information within each pitch interval.
- a method of separating into waveform information is adopted.
- the original speech signal from which the information on the fundamental frequency of the pitch and the fluctuation information on the pitch period are removed has a constant pitch period, and the conversion code in each pitch section or a fixed number of pitch sections is easy.
- the correlation between the waveforms of adjacent pitch sections is large, the spectrum obtained by the transform code ⁇ is expected to be concentrated on the equalized pitch frequency and its harmonic components to obtain high coding efficiency. it can.
- pitch period equalization technology is used to extract and remove pitch fundamental frequency information and pitch period fluctuation information from the original speech signal. Therefore, hereinafter, a pitch period equalizing apparatus and method according to the present invention, and a sound The configuration and operation of the voice encoding apparatus and method will be described.
- the first configuration of the pitch period equalizing apparatus is a pitch period equalizing apparatus that equalizes the pitch period of voiced sound with respect to an input voice signal, and detects the pitch frequency of the voice signal.
- a frequency shifter that equalizes the pitch period of the audio signal by shifting in a direction approaching the frequency of the audio signal, and the frequency shifter modulates the amplitude of the input signal with a predetermined modulation wave to generate a modulated wave.
- a bandpass filter that selectively passes only a single sideband component signal of the modulated wave; a predetermined recovery is applied to the modulated wave filtered by the bandpass filter; Demodulation means for performing demodulation with a wave and outputting as an output audio signal; and one of a frequency of a modulation wave used for modulation by the modulation means and a frequency of the demodulation wave used for demodulation by the demodulation means as a predetermined basic carrier Frequency adjusting means for subtracting the residual frequency from the basic carrier frequency and setting it to a value obtained by subtracting the residual frequency from the basic carrier frequency.
- the input audio signal is once amplitude-modulated with the modulated wave, and the modulated wave is The lower sideband is removed through a pass filter. Then, the demodulated wave is used to demodulate the single sideband modulated wave.
- the residual frequency is 0, both the modulated wave and demodulated wave are set to the basic carrier frequency, but if the residual frequency force is not ⁇ , either the modulated wave or demodulated wave is frequency adjusted.
- the basic carrier frequency force is set to a value obtained by subtracting the residual frequency. As a result, the difference between the basic frequency and the reference frequency of the pitch of the input audio signal is canceled, and the pitch period of the output audio signal is equalized to the reference period.
- information included in the input audio signal is separated into information on the reference frequency of the pitch, information on the fluctuation of the pitch frequency for each pitch, and information on the waveform component superimposed on the pitch. These are obtained as a reference frequency, a residual frequency, and a waveform within one pitch section of the equalized audio signal. Since the reference frequency is almost constant for each phoneme, the code efficiency is high when performing code encoding. In general, since the fluctuation range of the fluctuation of the pitch frequency is small in each phoneme, the bin frequency is a narrow range, and the residual frequency has a sign key efficiency when performing the sign key. high. In addition, the waveform within one pitch section of the equalized audio signal has the same number of samples in each pitch section because the fluctuation component of the pitch is removed.
- the waveform of each pitch section in the same phoneme since the waveform of each pitch section in the same phoneme has a strong similarity, the waveform in each pitch section becomes highly similar by equalizing the same number of samples in each pitch section. Therefore, it is possible to significantly compress the code amount by performing conversion code conversion in one to a predetermined number of pitch intervals. Therefore, it is possible to improve the code efficiency of the audio signal.
- this pitch period equalizing apparatus can be applied to a voice matching technique such as voice search in addition to the voice code.
- voice matching technique such as voice search
- the waveforms in each pitch section become highly similar, making it easier to compare speech signals. It is possible to improve accuracy.
- a second configuration of the pitch period equalizer according to the present invention is the same as the first configuration described above, except that
- the pitch detecting means is an input pitch detecting means for detecting a pitch frequency (hereinafter referred to as “input pitch frequency”) of an input audio signal input to the frequency shifter; and an output audio signal of which the frequency shifter force is also output.
- Output pitch detecting means for detecting a pitch frequency (hereinafter referred to as “output pitch frequency”); and pitch average means for calculating an average pitch frequency that is a time average of the input pitch frequency, and the residual calculating means. Is characterized by calculating a residual frequency, which is a difference between the output pitch frequency and the reference frequency, using the average pitch frequency as a reference frequency.
- the time average by the pitch average means may be a simple geometric average, a weighted average, or the like.
- a low-pass filter can be used as the pitch averaging means.
- the time average by the pitch average means is a weighted average.
- the pitch detection means includes a pitch frequency (hereinafter referred to as "input") of the input audio signal input to the frequency shifter.
- Input pitch detection means for detecting a pitch frequency comprising pitch average means for calculating an average pitch frequency that is a time average of the input pitch frequency, wherein the residual calculation means is based on the average pitch frequency.
- a residual frequency that is a difference between the input pitch frequency and the reference frequency is calculated as a frequency.
- the difference between the input pitch frequency and the reference frequency is defined as a residual frequency, and this frequency is By feeding forward to the shift amount of the frequency shifter, the pitch period equalization error due to the frequency shifter is reduced, and the information on the fluctuation of the pitch frequency for each pitch and the information on the waveform component superimposed on the pitch are efficiently separated. Can be performed automatically.
- the pitch detection means includes a pitch frequency (hereinafter referred to as "output") of the output audio signal output by the frequency shifter.
- Output pitch detection means for detecting the pitch frequency comprising pitch average means for calculating an average pitch frequency that is a time average of the output pitch frequency, and the residual calculation means is configured to output the average pitch frequency.
- a residual frequency which is a difference between the output pitch frequency and the reference frequency, is calculated using the reference frequency as a reference frequency.
- the equalization error of the pitch period by the frequency shifter can be reduced and It is possible to efficiently separate the information regarding the fluctuation of the pitch frequency and the information of the waveform component superimposed on the pitch.
- the pitch detection means includes a pitch frequency (hereinafter referred to as an "input frequency") of the input audio signal input to the frequency shifter.
- Input pitch detection means for detecting the pitch frequency comprising reference frequency generation means for outputting the reference frequency, wherein the residual calculation means is a difference between the input pitch frequency and the reference frequency. It is characterized by calculating the residual frequency.
- the reference frequency generation means As described above, by using the determined frequency output from the reference frequency generation means as the reference frequency, information on the basic frequency of the pitch and information on each pitch among the information on the audio included in the input audio signal. Information on fluctuations in pitch frequency is separated as residual frequency. The information of the waveform component superimposed on the pitch is separated as a waveform within one pitch section of the equalized audio signal.
- the pitch detection means includes a pitch frequency (hereinafter referred to as "output") of the output audio signal output from the frequency shifter.
- Output pitch detection means for detecting the pitch frequency comprising reference frequency generation means for outputting the reference frequency, wherein the residual calculation means is a difference between the output pitch frequency and the reference frequency. It is characterized by calculating the residual frequency.
- the encoding efficiency of the audio signal can be improved as in the case of the fifth configuration described above. It becomes pretty.
- a first configuration of a speech encoding device is a speech encoding device that encodes an input speech signal, and equalizes the pitch period of voiced sound with respect to the speech signal.
- a pitch period equalizing apparatus having any one of the first to sixth configurations; and an audio signal output by the pitch period equalizing apparatus (hereinafter referred to as a “pitch equalized audio signal”);
- Orthogonal transform means for performing orthogonal transform with the number of sections and generating transform coefficient data for each subband.
- the pitch period equalizing apparatus information on the basic frequency of the pitch, information on the fluctuation of the pitch frequency for each pitch, and superposition on the pitch included in the input audio signal.
- the information of the waveform components to be performed is separated into the reference frequency, the residual frequency, and the waveform within one pitch section of the equalized audio signal (pitch equalized audio signal), respectively.
- the waveform within one pitch interval of the pitch-equalized audio signal obtained here (hereinafter referred to as the "unit pitch interval waveform") is the variation in pitch period for each pitch from the audio waveform superimposed on the basic pitch frequency. (Jitter) and changes are removed. Therefore, when performing orthogonal transformation, Since each pitch interval can be orthogonally converted at the same sampling interval and with the same resolution, conversion codes for each pitch interval can be easily executed. In addition, the correlation between unit pitch section waveforms of adjacent pitch sections within the same phoneme increases.
- the “fixed number of pitch sections” for which the orthogonal transform is performed by the orthogonal transform means can be one pitch section or an integer multiple of two or more pitch sections.
- the pitch frequency output by the pitch detection means and the residual calculation means are respectively provided. This can be done by signing the output residual frequency. Since the fundamental frequency of the pitch is almost constant for each phoneme, the coding efficiency when coding is high. In general, since the fluctuation range of the pitch fluctuation is small in each phoneme, the residual frequency is in a narrow range, and the sign key efficiency when sign key is performed is high. Therefore, the coding efficiency as a whole is also increased.
- the speech coding apparatus is characterized in that speech coding can be achieved at a low bit rate without using a codebook. Since a codebook is not used, there is no need to prepare a codebook in the speech coding apparatus and speech decoding apparatus. For this reason, the mounting area when configuring with hardware can be reduced.
- the degree of speech distortion is determined by the degree of matching between input speech and codebook candidates. Therefore, a large distortion appears when speech that is significantly different from the codebook candidate is input. In order to avoid this phenomenon, it is necessary to prepare as many candidates as possible in the codebook. But, Increasing the number of candidates increases the overall code amount in proportion to the logarithm of the number of candidates. Therefore, since the number of codebook candidates cannot be increased so much in order to realize a low bit rate, the distortion cannot be reduced to a certain extent.
- the speech encoding apparatus directly encodes input speech by transform encoding, optimal encoding suitable for the input speech is always performed. Therefore, it is possible to minimize the distortion of speech due to the code ⁇ and achieve speech coding with a high S / N ratio.
- a second configuration of the speech coding apparatus is the same as the first configuration, in which the pitch equalization speech signal output by the pitch period equalization device is a standard for one pitch section. Resampling means for performing resampling so as to keep the number of keys constant is provided.
- the orthogonal transform means can be easily configured.
- the orthogonal transform means actually uses PFB (Polyphase Filter Bank), but the number of usable filters (number of subbands) changes as the number of samples in the pitch section changes. Therefore, a filter (subband) that is not used is generated, resulting in waste. Therefore, such a waste can be eliminated by always setting the pitch interval to a constant number of samples by resampling.
- resampling by the resampling means is different from resampling used in Patent Documents 2 to 4.
- the re-sampling in Patent Documents 2 to 4 is a re-sampling performed in order to make the pitch period with fluctuation a constant pitch period. Accordingly, resampling interval of the pitch period in accordance with the cycle of fluctuation of pitch period (approximately 10 3 about sec) is intended to vibrate. Therefore, as a result of resampling, the effect of frequency modulation by the pitch period fluctuation period is significant.
- resampling in the present invention is performed in order to prevent the number of sample samples for each pitch section from differing due to a change in the reference frequency with respect to an audio signal whose pitch period has already been equalized.
- the change in the reference frequency is usually very slow (about 100 msec), and the effect of frequency modulation due to resampling is not a problem.
- the speech decoding apparatus includes a pitch equalized speech signal in which a pitch frequency is equalized to a predetermined reference frequency with respect to an original speech signal and decomposed into subband components by orthogonal transformation, and the original speech
- a speech decoding apparatus that decodes the original speech signal based on a residual frequency signal that is a difference obtained by subtracting the reference frequency from a pitch frequency force of the signal, the pitch equalized speech being orthogonally transformed in a certain number of pitch sections
- An inverse orthogonal transform means for restoring a pitch equalized speech signal by performing an inverse orthogonal transform on the signal; and a pitch frequency of the pitch equalized speech signal close to a frequency obtained by adding the residual frequency to the reference frequency.
- a frequency shifter that generates the restored audio signal by shifting in a direction in which the pitch equalized audio signal is amplitude-modulated with a predetermined modulation wave.
- Modulation means for generating a modulated wave; a band-pass filter that selectively passes only a signal of a single sideband component of the modulated wave; a predetermined demodulated wave with respect to the modulated wave filtered by the band-pass filter; Demodulation means for performing demodulation and outputting as a restored audio signal; and one of the frequency of the modulation wave used for modulation by the modulation means and the frequency of the demodulation wave used by the demodulation means for demodulation is set as a predetermined basic carrier frequency.
- frequency adjusting means for setting the other to a value obtained by adding the residual frequency to the basic carrier frequency.
- the audio signal encoded by the audio encoding device having the first or second configuration can be decoded.
- the first configuration of the pitch period equalizing method is a pitch period that equalizes the pitch period of voiced sound with respect to an input audio signal (hereinafter referred to as “input audio signal”).
- An output pitch detecting step for detecting a frequency hereinafter referred to as “output pitch frequency”
- a residual frequency calculating step for calculating a residual frequency which is a difference obtained by subtracting a predetermined reference frequency from the output pitch frequency force
- the frequency shift step one of the frequency of the modulated wave used for modulation and the frequency of the demodulated wave used for demodulation is set as a predetermined basic carrier frequency, and the other is used as the basic carrier frequency force and the residual frequency calculation
- a frequency setting step for setting to a frequency obtained by subtracting the residual frequency calculated in the step; a modulation step for generating a modulated wave by amplitude-modulating the input audio signal with the modulated wave; a single side of the modulated wave; A band reduction step of filtering the modulated wave by a bandpass filter that passes only the waveband component; the modulated wave filtered by the bandpass filter is demodulated by the demodulated wave, and output as an audio signal And a demodulating step for outputting.
- a second configuration of the pitch period equalizing method includes, in the first configuration, a pitch averaging step for calculating an average pitch frequency that is a time average of the output pitch frequency.
- a difference between the output pitch frequency and the average pitch frequency is calculated and used as the residual frequency.
- a third configuration of the pitch period equalizing method according to the present invention in the first configuration, detects the pitch frequency of the input audio signal (hereinafter referred to as "input pitch frequency").
- An input pitch detection step a pitch averaging step that calculates an average pitch frequency that is a time average of the input pitch frequency; and in the residual frequency calculation step, the output pitch frequency and the average pitch frequency This difference is calculated and used as the residual frequency.
- a fourth configuration of the pitch period equalizing method is a pitch period that equalizes the pitch period of voiced sound with respect to an input audio signal (hereinafter referred to as "input audio signal”).
- An input pitch detection step of detecting a pitch frequency of the input audio signal (hereinafter referred to as “input pitch frequency”); inputting the input audio signal to a frequency shifter and outputting an output signal of the frequency shifter ( Hereinafter referred to as “output audio signal”); and a residual frequency calculating step of calculating a residual frequency that is a difference obtained by subtracting a predetermined reference frequency from the input pitch frequency force;
- the frequency shift step the frequency of the modulation wave used for modulation and the frequency of the demodulation wave used for demodulation are determined.
- the input audio signal is A modulation step of modulating the amplitude with the modulation wave to generate a modulated wave; a band reduction step of filtering the modulated wave with a band-pass filter that passes only a single sideband component of the modulated wave; and the band-pass filter A demodulating step of demodulating the modulated wave filtered in step (b) with the demodulated wave and outputting the demodulated wave as an output audio signal.
- a fifth configuration of the pitch period equalizing method includes, in the fourth configuration, a pitch averaging step for calculating an average pitch frequency that is a time average of the input pitch frequency.
- a pitch averaging step for calculating an average pitch frequency that is a time average of the input pitch frequency.
- the residual frequency calculating step a difference between the input pitch frequency and the average pitch frequency is calculated and used as the residual frequency.
- a first configuration of the speech coding method is a speech coding method for coding an input speech signal, and the pitch of any one of the first to fifth configurations.
- a pitch period equalization step for equalizing the pitch period of voiced sound with respect to the voice signal by a period equalization method; a voice signal equalized in the pitch period equalization step (hereinafter referred to as “pitch equalization voice signal”) ))
- pitch equalization voice signal By performing orthogonal transformation with a fixed number of pitch sections and generating transformation coefficient data for each subband; and waveform coding step for coding the transformation coefficient data; It is characterized by having.
- a second configuration of the speech encoding method according to the present invention is such that in the first configuration, the pitch equalized speech signal equalized in the pitch period equalizing step is 1 pitch. It is characterized by a resampling step for resampling so that the number of samples in the interval is constant.
- a program according to the present invention is characterized by causing a computer to function as the pitch period equalizing device according to any one of claims 1 to 6 by being executed by a computer.
- the program according to the present invention is characterized by causing the computer to function as the speech coding apparatus according to claim 7 or 8 by being executed by a computer.
- the program according to the present invention is characterized by causing the computer to function as the speech decoding apparatus of the present invention by being executed by a computer.
- information included in the input audio signal is converted into information on the basic frequency of the pitch, information on fluctuations in the pitch frequency for each pitch, and pitch. Separated into information on the waveform component to be superimposed. These pieces of information are extracted as waveforms within one pitch section of the reference frequency, residual frequency, and equalized audio signal, respectively.
- the information included in the input speech signal is the information on the basic frequency of the pitch and the information on the fluctuation of the pitch frequency for each pitch in the pitch period equalizing device.
- the waveform component information superimposed on the pitch and obtained as a waveform within one pitch section of the reference frequency, residual frequency, and pitch equalized audio signal, respectively. Then, by performing orthogonal transform on the pitch equalized speech signal with a fixed number of pitch sections, it is possible to efficiently encode the information of the waveform component superimposed on the pitch.
- FIG. 1 is a block diagram showing a configuration of a pitch period equalizing apparatus 1 according to Embodiment 1 of the present invention.
- FIG. 2 is a diagram for explaining the outline of signal processing in pitch detection means 11.
- FIG. 3 is a diagram illustrating an internal configuration of a frequency shifter 4.
- FIG. 4 is a diagram showing another excitation of the internal configuration of the frequency shifter 4.
- FIG. 5 is a diagram showing formant characteristics of voiced sound “A”.
- FIG. 6 is a diagram showing the autocorrelation, cepstrum waveform and frequency characteristics of unvoiced sound “su”.
- FIG. 7 is a diagram illustrating a configuration of a pitch period equalizing apparatus 1 ′ according to Embodiment 2 of the present invention.
- FIG. 8 is a diagram illustrating a configuration of a speech coding apparatus 30 according to Embodiment 3 of the present invention.
- FIG. 9 is an explanatory diagram of the number of quantization bits.
- FIG. 10 is an example of the temporal change of the spectral intensity of each subband.
- FIG. 11 is a block diagram showing a configuration of speech decoding apparatus 50 according to Embodiment 4 of the present invention.
- FIG. 12 is a diagram illustrating a configuration of a pitch period equalizing apparatus 41 according to Embodiment 5 of the present invention.
- FIG. 13 is a diagram illustrating a configuration of a pitch period equalizing apparatus 41 ′ according to Embodiment 6 of the present invention.
- FIG. 14 is a diagram illustrating a configuration of a speech coding apparatus 30 ′ according to Embodiment 7 of the present invention.
- FIG. 15 is a block diagram showing the configuration of a speech decoding apparatus 50 ′ according to Embodiment 8 of the present invention.
- FIG. 16 is a diagram illustrating a basic configuration example of a speech coding apparatus using a CELP coding scheme.
- FIG. 17 is a diagram illustrating a basic configuration example of a speech decoding apparatus using a CELP code key scheme.
- FIG. 18 is a diagram illustrating a configuration example of a speech encoding device described in Patent Document 2.
- VCO Voltage controlled oscillator
- FIG. 1 is a block diagram showing the configuration of pitch period equalizing apparatus 1 according to Embodiment 1 of the present invention.
- the pitch period equalizer 1 includes an input pitch detection means 2, a pitch averaging means 3, a frequency shifter 4, an output pitch detection means 5, a residual calculation means 6, and a PID controller 7.
- the input pitch detection means 2 receives the input audio signal X (t) input from the input terminal In.
- the input pitch detection means 2 includes a pitch detection means 11, a band pass filter (hereinafter referred to as “BPF”) 12, and a frequency counter 13.
- BPF band pass filter
- the pitch detection means 11 detects the fundamental frequency f of the pitch from the input audio signal X (t).
- Stage 11 first performs a short-time Fourier transform on this waveform to derive a spectral waveform X (f) as shown in Fig. 2 (b).
- a speech waveform includes many frequency components in addition to the pitch, and the spectrum waveform obtained here has many additional components in addition to the fundamental frequency and the harmonic components of the pitch. Has a frequency component. Therefore, it is generally difficult to extract the fundamental frequency f of the pitch from the spectrum waveform X (f). Therefore, the pitch detection means 11
- Pitch detection means 11 detects this peak position F
- the pitch detection means 11 uses the spectrum waveform X (f) as the input voice signal X (t).
- FIG. 5 is a diagram showing formant characteristics of voiced sound “A”
- FIG. 6 is a diagram showing autocorrelation, cepstrum waveform, and frequency characteristics of unvoiced sound “Su”.
- the voiced sound has a formant characteristic such that the spectrum waveform X (f) is large on the low frequency side and small on the high frequency side. Showing gender.
- unvoiced sounds as shown in Fig. 6, exhibit frequency characteristics that increase overall toward the high frequency side. Therefore, by detecting the overall slope of the spectrum waveform X (f), it is possible to determine whether the input speech signal X (t) is voiced or unvoiced.
- the fundamental frequency f of the pitch output by stage 11 is meaningless.
- the BPF 12 uses a narrow band FIR (Finite Impulse Response) type filter with a variable center frequency.
- the BPF 12 sets the fundamental frequency f of the pitch detected by the pitch detection means 11 as the center frequency of the pass band (see FIG. 2 (d)).
- BPF12 uses a narrow band FIR (Finite Impulse Response) type filter with a variable center frequency.
- the BPF 12 sets the fundamental frequency f of the pitch detected by the pitch detection means 11 as the center frequency of the pass band (see FIG. 2 (d)).
- the frequency counter 13 outputs the fundamental frequency f of the pitch by counting the number of zero cross points per unit time of the substantially sinusoidal waveform output by the BPF 12.
- the fundamental frequency f of the detected pitch is the output signal of the input pitch detection means 2
- Wavenumber signal " is output as V (see 02 (f)).
- the pitch averaging means 3 averages the basic frequency signal V pitch of the pitch output from the pitch detection means 11, and is used by a normal low pass filter (hereinafter referred to as "LPF"). Is done.
- the pitch averaging means 3 smooths the fundamental frequency signal V, and the sound pitch
- the frequency shifter 4 equalizes the pitch period of the audio signal by shifting the pitch frequency of the input audio signal X (t) in the in 0 direction approaching the reference frequency f.
- the output pitch detection means 5 detects the fundamental frequency f ′ of the pitch included in the output audio signal X (t) out from the output audio signal X (t) output from the frequency shifter 4. This output pin out 0
- the nail detecting means 5 can be basically configured similarly to the input pitch detecting means 2.
- the output pitch detection means 5 includes a BPF 15 and a frequency counter 16.
- BPF15 a narrow-band FIR filter with a variable center frequency is used.
- BPF15 Is the fundamental frequency f detected by the pitch detection means 11
- Frequency counter 16 is BP
- the wave number f ′ is output as the output signal V ′ of the output pitch detection means 5.
- the residual calculation means 6 calculates the pitch level from the fundamental frequency f 'output by the output pitch detection means 5.
- the frequency ⁇ f is input to the frequency shifter 4 via the PID controller 7.
- Frequency pitcn is input to the frequency shifter 4 via the PID controller 7.
- the lid 4 determines the pitch frequency of the input audio signal as the reference frequency pit en in proportion to the residual frequency ⁇ f.
- the PID controller 7 includes an amplifier 18 and a resistor 20 connected in series, and a capacitor 19 connected in parallel to the amplifier 18.
- the PID controller 7 is for preventing oscillation of a feedback loop composed of the frequency shifter 4, the output pitch detection means 5, and the residual calculation means 6.
- the PID controller 7 shows an analog circuit, but it can be configured with a digital circuit.
- FIG. 3 is a diagram showing the internal configuration of the frequency shifter 4.
- the frequency shifter 4 includes a transmitter 21, a modulator 22, a BPF 23, a voltage controlled oscillator (hereinafter referred to as “VCO”) 24, and a demodulator 25.
- VCO voltage controlled oscillator
- the transmitter 21 is a constant frequency modulation carrier for performing amplitude modulation of the input audio signal X (t).
- the bandwidth of the audio signal is about 8kHz (see Fig. 3 (a)). Therefore, the frequency of the modulated carrier signal C1 generated by the transmitter 21 (hereinafter referred to as “carrier frequency”) is normally about 20 kHz.
- Modulator 22 performs in-amplitude modulation of modulated carrier signal C1 output from transmitter 21 with input audio signal X (t) to generate a modulated signal.
- This modulated signal is a signal having sidebands (upper sideband and lower sideband) of the same bandwidth as the audio signal band on both sides centered on the carrier frequency (see Fig. 3 (b)). ).
- BPF 23 is a BPF that passes only the upper sideband component of the modulated signal. As a result, the modulated signal output from the BPF 23 is a single sideband signal with only the lower sideband cut.
- VC024 outputs a signal having the same carrier frequency as that of modulated carrier signal C1 output from transmitter 21 to a pitch signal (hereinafter referred to as a residual frequency ⁇ ⁇ ) input from residual calculation means 6 via PID controller 7. This is called “residual frequency signal.”)
- a signal obtained by frequency modulation with AV pitch (hereinafter referred to as “demodulated carrier signal”) is output.
- the frequency of the demodulated carrier signal is the carrier frequency force minus the residual frequency.
- the demodulator 25 demodulates the modulated signal of only the upper side band output from the BPF 23 with the demodulated carrier signal output from the VC024 to restore the audio signal (see Fig. 3 (d)). At this time, the demodulated carrier signal is modulated with the residual frequency signal ⁇ . Therefore, the modulated pitch
- FIG. 4 is a diagram illustrating another example of the internal configuration of the frequency shifter 4.
- the transmitter 21 and VC024 of FIG. 3 are interchanged. Even with this configuration, as in the case of FIG. 3, the input audio signal X (t)
- the fundamental frequency signal V is output to the pitch averaging means 3.
- Pitch averaging means 3 is the basic circumference pitch
- the wavenumber signal V is averaged (in this case, it is a weighted average because LPF is used), and this is pitch
- This reference frequency signal AV is output from the output terminal 0 pitcn pitch
- the frequency shifter 4 shifts the frequency of the input audio signal X (t) and outputs the output audio signal. Output to output terminal Out_l as signal x (t). In the initial state, the residual frequency signal out
- ⁇ is 0 (reset state), and the frequency shifter 4 outputs the input audio signal ⁇ (t) as it is to the output terminal Out_l as the pitch in output audio signal ⁇ (t).
- the output pitch detection means 5 detects the pitch frequency f ′ of the output audio signal output from the frequency shifter 4.
- the detected pitch frequency f ′ is defined as the pitch frequency signal V ′.
- the residual calculation means 6 generates a residual frequency signal ⁇ by pitch pitch subtracting the reference frequency signal AV from the pitch frequency signal V.
- This residual frequency signal ⁇ is output to the output pitch pitch force terminal Out_2 and also input to the frequency shifter 4 via the PID controller 7.
- the frequency shifter 4 sets the frequency shift amount in proportion to the pitch of the residual frequency signal ⁇ input via the PID controller 7. In this case, if the residual frequency signal ⁇ is a positive value pitch, the shift pitch pitch is decreased so that the frequency is decreased by an amount proportional to the residual frequency signal ⁇ .
- the shift amount is set so that the frequency is increased by an amount proportional to pitch pitch to the residual frequency signal ⁇ .
- the pitch period of out is equalized.
- the input audio signal X (t) the input audio signal X (t)
- the information of (a) to (d) is the noise flag signal V and the pitch period is noise, respectively.
- the output audio signal x (t) varies depending on gender differences, individual differences, phonemes, emotions, and conversation contents.
- the output voice signal X (t) of the voiced sound is equal to the reference period lZf and the pitch period is out S
- the frequency spectrum X (f) of (t) is output to the subband component of the harmonic component of the reference frequency.
- the reference frequency signal AV and the residual frequency signal ⁇ are narrower in the same phoneme due to the nature of speech.
- FIG. 7 is a diagram illustrating the configuration of a pitch period equalizing apparatus 1 ′ according to the second embodiment of the present invention.
- the pitch period equalizer 1 in Example 1 performs pitch control by feedback control of the residual frequency ⁇ .
- the pitch period equalizing apparatus 1 'of the second embodiment is configured to equalize the period
- the pitch period is equalized by feedforward control of the residual frequency ⁇ .
- the input pitch detection means 2, the pitch averaging means 3, the frequency shifter 4, the residual calculation means 6, the pitch detection means 11, the BPF 12, and the frequency counter 13 are the same as those in FIG. For this reason, the same reference numerals are given and description thereof is omitted.
- the residual calculation means 6 subtracts the reference frequency signal AV from the fundamental frequency signal V output from the input pitch detection means 2 to obtain the residual frequency.
- the number signal ⁇ V is generated. Also, since feed forward control is used, oscillation countermeasures are pitch It is unnecessary and the PID controller 7 is omitted. Further, since the feed forward control is used, the output pitch detecting means 5 is also omitted. Other configurations are the same as those in the first embodiment.
- the input audio signal X (t) is converted into the noise flag signal V, the output audio signal X (t), the reference frequency signal AV, and the residual frequency.
- the noise out pitch signal ⁇ V can be separated.
- FIG. 8 is a diagram illustrating the configuration of the speech coding apparatus 30 according to the third embodiment of the present invention.
- the speech coder 30 includes a pitch period equalizer 1, 1 ′, a resampler 31, an analyzer 32, a quantizer 33, a pitch equalization waveform coder 34, a difference bit calculator 35, and a pitch information coder.
- a pitch period equalizer 1, 1 ′ a resampler 31, an analyzer 32, a quantizer 33, a pitch equalization waveform coder 34, a difference bit calculator 35, and a pitch information coder.
- the pitch period equalizer 1, 1 ′ is the pitch period equalizer shown in the first and second embodiments.
- the resampler 31 resamples out the same number of samples for each pitch section of the output audio signal X (t) output from the output terminal Out_l of the pitch period equalizer 1, 1 ′.
- the analyzer 32 transforms the equal number of samples of the speech signal X (t) with a fixed number of pitch intervals eq
- the quantizer 33 quantizes the frequency spectrum signal X (f) according to a predetermined quantization curve.
- the pitch equalization waveform encoder 34 encodes the frequency vector signal X (f) output from the quantizer 33 and outputs it as encoded waveform data.
- an entropy encoding method such as a Huffman encoding method or an arithmetic encoding method is used.
- the difference bit calculator 35 subtracts the target bit number from the code amount of the sign key waveform data output from the pitch equalization waveform encoder 34 (hereinafter referred to as “difference bit number”). Is output.
- the quantizer 33 translates the quantization curve according to the difference bit number and adjusts the code amount of the encoded waveform data to be within the target bit number range.
- the pitch information encoder 36 is a residual frequency signal output from the pitch period equalizer 1, 1 '.
- ⁇ V and reference frequency signal AV are encoded and output as sign key pitch data.
- Entropy coding methods such as Huffman coding method and arithmetic coding method are used for this coding.
- the input audio signal X (t) is input from the input terminal In. Pitch period equalizer 1, 1 in
- Noise flag signal V output audio signal X (t), and reference frequency signal noise out, respectively.
- the noise flag signal V is output from the output pitcn pitcn noise terminal Out_4, and the output audio signal X (t) is output from the output terminal Out_l.
- the quasi-frequency signal AV is output from the output terminal Out_3, and the residual frequency signal ⁇ is output from the output pitch pitch force terminal Out_2.
- the resampler 31 calculates the re-sampling period by dividing the reference frequency signal AV by a constant re-pitch sampling number n in each pitch interval. Then, the output audio signal X (t) is resampled by the resampling period, and the equal sample number audio signal X out e
- the analyzer 32 converts the equal number of samples of the audio signal X (t) to a sub-phase eq with a fixed number of pitch intervals.
- the frequency spectrum signal X (f) is generated by performing the modified discrete cosine transform for each subframe.
- the length of one subframe is an integral multiple of one pitch period.
- the length of the subframe is 1 pitch period (sample number n). Therefore, n frequency vector signals ⁇ X (f), X (f),..., X (f) ⁇ are output.
- Frequency f is the first harmonic of the reference frequency
- frequency f is the second harmonic of the reference frequency
- frequency f is the nth harmonic of the reference frequency
- the frequency spectrum signal of the speech waveform data is obtained by performing subband coding by dividing the subframes into subframes that are integral multiples of one pitch period and orthogonally transforming each subframe. It is summarized in the spectrum of harmonics of the reference frequency. And due to the nature of speech, the waveforms of successive pitch sections within the same phoneme are similar. Therefore, the spectrum of the harmonic component of the reference frequency is similar between adjacent subframes. Therefore, the code efficiency is increased.
- FIG. 10 shows an example of the temporal change of the spectral intensity of each subband.
- Figure 10 (a) shows the time variation of the spectral intensity of each subband for Japanese vowels. From the bottom, the first harmonic, second harmonic, ..., eighth harmonic of the reference frequency are shown in this order.
- Figure 10 (b) shows the time variation of the spectral intensity of each sub-band with respect to the speech signal, “Alajurgen Jisubose Jibun no Ho Hen Gegetanoda”. This is also shown in the order of the 1st harmonic, 2nd harmonic, ..., 8th harmonic of the reference frequency from the bottom.
- the horizontal axis is time
- the vertical axis force is the S spectrum intensity.
- the spectral intensity of each subband exhibits a flat (DC-like) characteristic in each pitch segment of voiced sound. Therefore, it can be easily divided that the sign efficiency is high when the sign is entered.
- the quantizer 33 quantizes the frequency spectrum signal X (f).
- the quantizer 33 refers to the noise flag signal V, and in the case of the noise flag signal V force SO (voiced sound) and 1 (
- the quantization curve is such that the number of quantization bits decreases as the frequency increases. This corresponds to the fact that the frequency characteristic of voiced sound has a characteristic that, as shown in FIG.
- the quantization curve is such that the number of quantization bits increases as the frequency increases. This corresponds to the fact that the frequency characteristics of the unvoiced sound increase as it goes to the high frequency range as shown in FIG.
- the optimal quantized music can be used for voiced or unvoiced sounds.
- a line is selected.
- the number of quantization bits will be described.
- the data format of quantization by the quantizer 33 is expressed by the real part (FL) after the decimal point and the exponent part (EXP) representing the power of 2.
- the exponent (EXP) shall be adjusted so that the first bit of the real part (FL) is always 1.
- the pitch equalization waveform encoder 34 encodes the quantized frequency spectrum signal X (f) output from the quantizer 33 by an entropy encoding method, and outputs encoded waveform data.
- the pitch equalization waveform encoder 34 is configured to generate a code amount (number of bits) of the encoded waveform data. ) Is output to the difference bit calculator 35.
- the difference bit calculator 35 subtracts a predetermined target bit number from the code amount of the encoded waveform data and outputs the difference bit number.
- the quantizer 33 moves the quantization curve for voiced sound up and down in parallel translation according to the number of differential bits.
- the quantization curve for ⁇ f, f, f, f, f ⁇ was ⁇ 6, 5, 4, 3, 2, 1 ⁇
- the quantizer 33 translates the quantization curve downward by 2 in parallel.
- the quantization curve is ⁇ 4, 3, 2, 1, 0, 0 ⁇ .
- the quantizer 33 translates the quantization curve upward by two.
- the quantization curve is ⁇ 8, 7, 6, 5, 4, 3 ⁇ .
- the pitch information encoder 36 encodes the reference frequency signal AV and the remaining pitch difference frequency signal ⁇ .
- the pitch period of voiced sound is equalized and divided into subframes each having a length that is an integral multiple of one pitch period.
- FIG. 11 is a block diagram showing a configuration of speech decoding apparatus 50 according to Embodiment 4 of the present invention.
- the audio decoding device 50 is a device that decodes the audio signal encoded by the audio encoding device 30 of the third embodiment.
- the speech decoding apparatus 50 includes a pitch equalization waveform decoder 51, an inverse quantizer 52, a synthesizer 53, a pitch information decoder 54, a pitch frequency detection means 55, a difference unit 56, an adder 57, and a frequency shifter 58. ing.
- the audio decoding device 50 receives the code waveform data and the code pitch data.
- the sign waveform data is sign waveform data output from the pitch equalization waveform encoder 34 of FIG.
- the sign key pitch data is the sign key pitch data output from the pitch information encoder 36 of FIG.
- the pitch equalization waveform decoder 51 decodes the encoded waveform data, and sub-bands after quantization.
- the frequency spectrum signal (hereinafter referred to as “quantized frequency spectrum signal”)
- the synthesizer 53 converts the frequency spectrum signal X (f) into an inverse modified discrete cosine transform (Inverse
- the pitch frequency detection means 55 detects the pitch frequency of the equalized audio signal X (t) and detects the equalized pitch frequency signal V.
- the pitch information decoder 54 restores the reference frequency signal AV and the residual frequency signal ⁇ by decoding the sign key pitch data.
- Differentiator 56 is the reference frequency
- the adder 57 generates a residual frequency signal ⁇ and a reference frequency change pitch pitch.
- the signal ⁇ is added and output as a modified residual frequency signal ⁇ ′′.
- the frequency shifter 58 has the same configuration as the frequency shifter 4 shown in FIG. 3 or FIG. In this case, the equalized audio signal X (t) is input to the input terminal In, and the modified residual frequency signal ⁇ "is input to the VC024. VC024 is the modulated carrier signal output from the transmitter 21.
- a signal with the same carrier frequency as C1 is input to the modified residual frequency signal AV input from the adder 57.
- the frequency of the demodulated carrier signal is the carrier frequency plus the residual frequency.
- FIG. 12 is a diagram illustrating the configuration of a pitch period equalizing apparatus 41 according to Embodiment 5 of the present invention.
- the basic configuration of the pitch period equalizer 41 according to the present embodiment is substantially the same as the pitch period equalizer 1 ′ according to the second embodiment, but differs in that a constant frequency is used as a reference frequency.
- Pitch period equalizer 41 includes input pitch detection means 2, frequency shifter 4, residual calculation means 6 and a reference frequency generator 42 are provided.
- the input pitch detection means 2, frequency shifter 4 and residual calculation means 6 are the same as those in FIG.
- the reference frequency generator 42 generates a predetermined constant reference frequency signal.
- the residual calculation means 6 is the fundamental frequency signal V force output from the input pitch detection means 2.
- the number signal ⁇ is fed forward to the frequency shifter 4. Later configuration and operation
- the pitch period equalizing device 41 converts the waveform information of the input audio signal X (t) into the waveform information.
- Noise flag signal V output audio signal X (t), and residual frequency, respectively.
- the pitch is not so large. Therefore, this also provides the pitch period equalizing device 41 that enables high code efficiency.
- FIG. 13 is a diagram illustrating the configuration of a pitch period equalizing apparatus 41 ′ according to Embodiment 6 of the present invention.
- the basic configuration of the pitch period equalizer 41 ′ according to the present embodiment is substantially the same as that of the pitch period equalizer 1 according to the first embodiment, but differs in that a constant frequency is used as a reference frequency.
- Pitch period equalizer 41 includes frequency shifter 4, output pitch detection means 5 ", residual calculation means 6, PID controller 7, and reference frequency generator 42.
- Frequency shifter 4, output Pitch detection means 5 "and residual calculation means 6 are the same as in FIG. To do.
- the reference frequency generator 42 is the same as that shown in FIG.
- the reference frequency generator 42 generates a predetermined constant reference frequency signal. Residual calculation means 6 detects this from fundamental frequency signal V ′ output by output pitch detection means 5 ".
- the wave number signal ⁇ is fed back to the frequency shifter 4 via the PID controller 7.
- the pitch period equalizer 41 uses the waveform information of the input audio signal X (t) as the waveform information.
- Noise flag signal V output audio signal X (t), and residual frequency, respectively.
- the pitch is not so large. Therefore, this also provides a pitch period equalizing device 41 ′ that enables high code efficiency.
- Fig. 14 is a diagram illustrating the configuration of a speech coding apparatus 30 'according to Embodiment 7 of the present invention.
- the voice encoder 30 ′ includes a pitch period equalizer 41, 41 ′, an analyzer 32, a quantizer 33, a pitch equalization waveform encoder 34, a difference bit calculator 35, and a pitch information encoder 36 ′. It is equipped with.
- the analyzer 32, the quantizer 33, the pitch equalization waveform encoder 34, and the difference bit calculator 35 are the same as those in the third embodiment. Further, the pitch period equalizing devices 41 and 41 ′ are the speech encoding device 30 ′ according to the fifth embodiment or the sixth embodiment.
- the pitch period equalizer 41, 41 ' the pitch period is always a constant reference period lZf Is equalized. Therefore, the number of samples in one pitch section is always constant, and the audio s in Example 3
- the resampler 31 in the sign unit 30 is not necessary and is omitted.
- the reference frequency signal AV is not output. Therefore, the pitch information encoder 36 '
- the speech coding apparatus 30 'using the pitch period equalizing devices 41, 41' can be realized.
- the speech coding apparatus 30 ′ is compared with the speech coding apparatus 30 of the third embodiment, the following points are different.
- the reference frequency signal AV slightly varies with time.
- Encoder 30 'does not require resampling because the reference frequency signal V is always constant
- the apparatus configuration can be simplified and the processing time can be increased.
- the pitch information is separated into reference period information (reference frequency signal AV) and residual frequency information (residual frequency signal ⁇ ). pitch
- the reference period information is taken into the residual frequency information (residual frequency signal ⁇ ) and the residual frequency is
- the residual frequency signal ⁇ Only information is encoded. In this way, when the reference period information (that is, time variation information of the average pitch frequency) and the residual frequency information are not separated, the residual frequency signal ⁇
- the pitch range is slightly larger than in Example 3. However, since the time variation of the average pitch frequency is small, the range of the residual frequency signal ⁇ is slightly increased.
- the pitch period of each pitch section is forcibly equalized to a constant reference period.
- the SN reduction due to the code y is somewhat larger.
- FIG. 15 is a block diagram showing a configuration of speech decoding apparatus 50 ′ according to Embodiment 8 of the present invention.
- the speech decoding device 50 ′ is a device that decodes the speech signal encoded by the speech encoding device 30 ′ of the seventh embodiment.
- the speech decoding apparatus 50 ′ includes a pitch equalization waveform decoder 51, an inverse quantizer 52, a synthesizer 53, a pitch information decoder 54 ′, and a frequency shifter 58. Of these, those similar to those in Example 4 are denoted by the same reference numerals.
- the encoded waveform data and the encoded pitch data are input to the audio decoding device 50 '.
- the sign key waveform data is sign key waveform data output from the pitch equalization waveform encoder 34 of FIG.
- the sign key pitch data is the sign key pitch data output from the pitch information encoder 36 'of FIG.
- the speech decoding apparatus 50 ' is different from the speech decoding apparatus 50 according to the fourth embodiment in that the pitch frequency detection means 55, the difference unit 56, and the adder 57 are omitted.
- the pitch information decoder 54 ′ restores the residual frequency signal ⁇ pitch by decoding the sign key pitch data.
- the frequency shifter 58 converts the pitch frequency of each pitch section of the equalized audio signal X (t) output from the synthesizer 53 into the pitch frequency plus the residual frequency signal ⁇ .
- pitch period equalizers 1, 1 ', speech encoders 30, 30', and speech decoders 50, 50 ' are configured as hardware. It is also possible to configure each functional block as a program and have the computer function as each device by causing the computer to execute it.
Landscapes
- Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Signal Processing (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Quality & Reliability (AREA)
- Compression, Expansion, Code Conversion, And Decoders (AREA)
Abstract
低ビットレートを実現し、従来よりも再生音声の歪みを小さく抑えることが可能な音声符号化技術を提供する。 入力音声信号のピッチ周波数の検出を行うピッチ検出手段5、ピッチ周波数と基準周波数との差分(残差周波数)を演算する残差演算手段6、残差周波数に比例し入力音声信号の周波数を基準周波数に近づける方向にシフトさせピッチ周期を等化する周波数シフタ4、周波数シフタ4が出力する音声信号(ピッチ等化音声信号)に対し一定のピッチ区間数で直交変換を行い変換係数データを生成する直交変換手段、及び変換係数データを符号化する波形符号化手段を備えた。
Description
明 細 書
ピッチ周期等化装置及びピッチ周期等化方法、並びに音声符号化装置、 音声復号装置及び音声符号化方法
技術分野
[0001] 本発明は、ピッチ成分を含む音声信号のピッチ周期を等化するピッチ周期等化技 術、及びそれを使用した音声符号ィ匕技術に関する。
背景技術
[0002] 音声符号ィ匕の分野において、 10kbps以下の低ビットレートでは、現在のところ、符 号励振線形予測(Code Excited Linear Prediction Coding Encoding :以下「CELP」と いう。)符号化方式が広く用いられている (非特許文献 1参照)。 CELP符号化方式は 、人間の音声発生機構を音源成分 (声帯)とスぺ外ル包絡成分 (声道)とによってモ デル化し、それぞれのパラメータを符号化する方式である。
[0003] 符号ィ匕側においては、音声はフレームと呼ばれる単位に分割され、各フレームに対 して、符号化が行われる。スペクトル包絡成分は、線形予測に基づく音声の ARモデ ル (Auto-Regressive model :自己回帰モデル)に基づいて計算され、線形予測(Line ar Prediction Coding :以下「LPC」という。)係数という形で与えられる。また、音源成 分は、予測残差という形で与えられる。この予測残差は、ピッチ情報を表す周期情報 、音源情報である雑音情報、及びピッチと音源の混合比を表す利得情報に分離され る。これら各情報は、符号帳に蓄えられた符号ベクトルにより構成される。符号べタト ルの決定は、各符号ベクトルをフィルタに通して音声を合成し、入力波形に最も近い ものを探索する方法、いわゆる AbS (Analysis by Synthesis)法による閉ループ探索 によって行われる。
[0004] また、復号側においては、符号化された各情報を復号し、 LPC係数、周期情報 (ピ ツチ情報)、雑音源情報、及び利得情報を復元する。雑音情報にピッチ情報を加える ことにより励振源信号を生成する。この励振源信号を LPC係数で構成される線形予 測合成フィルタに通すことにより、合成音声を得る。
[0005] 図 16は CELP符号ィ匕方式による音声符号ィ匕装置の基本構成例を表す (特許文献
1,図 9参照)。
[0006] 原音声信号は、所定のサンプル数のフレーム単位に分割され、入力端子 101に入 力される。入力端子 101に入力された原音声信号は、線形予測分析部 102において 、周波数スペクトル包絡特性を表す LPC係数が計算される。具体的には、フレーム の自己相関関数を求め、 Durbinの再帰解法などを用いて LPC係数が計算される。
[0007] LPC係数符号ィ匕部 103は、この LPC係数を量子化し符号化することにより、 LPC 係数符号を生成する。この量子化は、量子化効率の優れた線スペクトル対 (Line Spe ctrum Pair: LSP)パラメータ、偏自己相関方式(Partial auto- Correlation: PARCOR )パラメータ、反射係数等に変換して行われる場合が多い。 LPC係数復号部 104は、 LPC係数符号を復号して LPC係数を再生する。この再生された LPC係数に基づき、 各フレームの予測残差成分 (音源成分)の符号ィ匕のための符号帳探索が行われる。 この符号帳探索は、フレームを更に分割した単位 (以下「サブフレーム」という。 )に対 して行われることが多い。
[0008] ここで、符号帳は、適応符号帳 105、雑音符号帳 106、及び利得符号帳 107から 構成されている。
[0009] 適応符号帳 105は、ピッチ周期とピッチパルスの振幅をピッチ周期ベクトルとして表 し記憶した符号帳であり、音声のピッチ成分を表現する。ピッチ周期ベクトルは、以前 のフレームまでの残差成分 (既に量子化された直前の 1〜数フレーム分の駆動音源 ベクトル)を、予め設定された周期だけ繰り返すことにより構成されたサブフレーム長 のベクトルである。適応符号帳 105は、力かるピッチ周期ベクトル群を記憶している。 適応符号帳 105は、これらピッチ周期ベクトル群の中から、音声の周期成分に対応し て一つのピッチ周期ベクトルを選択し、時系列符号ベクトルの候補として出力する。
[0010] 雑音符号帳 106は、残差信号力もピッチ成分を除いた残りの波形である形状励振 源成分を励振ベクトルとして表し記憶した符号帳であり、ピッチ以外の雑音的な成分 (非周期的励振)を表現する。励振べ外ルは、入力音声とは独立に、白色雑音を基 調として用意されたサブフレーム長のベクトルである。雑音符号帳 106には、このよう な励振ベクトルが予め指定された数だけ記憶されている。雑音符号帳 106は、これら ピッチ励振ベクトル群の中から、音声の雑音成分に対応して一つの励振ベクトルを選
択し、音声の非周期成分に対応する時系列符号べ外ルの候補として出力する。
[0011] また、利得符号帳 107は、音声のピッチ成分及びそれ以外の成分の利得を表現す る。
[0012] 適応符号帳 105及び雑音符号帳 106から出力された各時系列符号ベクトルの候 補は、それぞれ、利得部 108, 109においてピッチ利得 g ,形状利得 gが乗算される a r
。利得 g , gは、利得符号帳 107において選択され出力される。そして、両者は加算 a r
部 110において加算され、駆動音源ベクトルの候補が生成される。
[0013] 合成フィルタ 111は、 LPC係数復号部 104が出力する LPC係数をフィルタ係数と する線形フィルタである。合成フィルタ 111は、加算部 110から出力される駆動音源 ベクトルの候補をフィルタリングして、再生音声候補ベクトルとして出力する。
[0014] 比較部 112は、原音声信号ベクトルから上記再生音声候補ベクトルを減算し歪デ ータを出力する。この歪データは、聴覚重み付けフィルタ 113において、人間の聴覚 の特性に対応した係数によって重み付けがされる。この聴覚重み付けフィルタ 113は 、通常、移動平均自己回帰型の 10次程度のフィルタであり、フォルマントの山の部分 をやや強調するように構成されている。この重み付けは、音声スペクトルの包絡の値 が小さくなる谷の部分の周波数帯域では量子化雑音が小さくなるように符号ィ匕を行う ために行われる。
[0015] 距離最小化部 114は、聴覚重み付けフィルタ 113から出力された歪データの二乗 誤差が最小となるような周期信号、雑音符号、及び利得符号を選択する。周期信号、 雑音符号、及び利得符号は、それぞれ、適応符号帳 105、雑音符号帳 106、及び利 得符号帳 107に送られる。適応符号帳 105は、入力される周期信号に基づいて、次 の時系列符号ベクトルの候補を出力する。雑音符号帳 106は、入力される雑音符号 に基づいて次の時系列符号ベクトルの候補を出力する。また、利得符号帳 107は、 入力される利得符号に基づいて、次の利得 g , g
a rを出力する。
[0016] 距離最小化部 114は、このような AbSループを繰り返すことにより、聴覚重み付けフ ィルタ 113が出力する歪データが最小化された時点で、上記周期信号、雑音符号、 及び利得符号を、そのフレームにおける駆動音源ベクトルとして決定する。
[0017] 符号送出部 115は、距離最小化部 114が決定する周期信号、雑音符号、及び利
得符号と、 LPC係数符号化部 103が出力する LPC係数符号を、ビット系列の符号に 変換し、さらに必要に応じて訂正符号を付加して出力する。
[0018] 図 17は CELP符号ィ匕方式による音声復号装置の基本構成例を表す (特許文献 1, 図 11参照)。
[0019] 音声復号装置は、符号帳の検索を行わな!/、点を除 、て、音声符号化装置とほぼ同 一の構成となる。符号受信部 121は、 LPC係数符号、周期符号、雑音符号、及び利 得符号を受信する。 LPC係数符号は、 LPC係数復号部 122に送られる。 LPC係数 復号部 122は、 LPC係数符号を復号し LPC係数 (フィルタ係数)を生成する。
[0020] 適応符号帳 123は、ピッチ周期ベクトル群を記憶している。ピッチ周期ベクトルは、 以前のフレームまでの残差成分 (既に復号された直前の 1〜数フレーム分の駆動音 源ベクトル)を、予め設定された周期だけ繰り返すことにより構成されたサブフレーム 長のベクトルである。適応符号帳 123は、符号受信部 121から入力される周期符号 に対応して一つのピッチ周期ベクトルを選択し、時系列符号ベクトルとして出力する。
[0021] 雑音符号帳 124は、励振ベクトル群を記憶している。励振ベクトルは、入力音声と は独立に、白色雑音を基調として用意されたサブフレーム長のベクトルである。符号 受信部 121から入力される雑音符号に対応して一つの励振ベクトルを選択し、音声 の非周期成分に対応する時系列符号ベクトルとして出力する。
[0022] また、利得符号帳 125は、音声のピッチ成分及びそれ以外の成分の利得 (ピッチ利 得 g
a ,形状利得 g
r )群を記憶する。利得符号帳 125は、符号受信部 121から入力され る利得符号に対応して一組のピッチ利得 g ,形状利得 gを選択して出力する。
a r
[0023] 適応符号帳 123及び雑音符号帳 124から出力される時系列符号ベクトルは、それ ぞれ、利得部 126, 127においてピッチ利得 g ,形状利得 gが乗算される。そして、 a r
両者は加算部 128において加算され、駆動音源ベクトルが生成される。
[0024] 合成フィルタ 129は、 LPC係数復号部 122が出力する LPC係数をフィルタ係数と する線形フィルタである。合成フィルタ 129は、加算部 128から出力される駆動音源 ベタトルの候補をフィルタリングして、再生音声として端子 130に出力する。
[0025] 一方、 MPEG規格やオーディオ機器では、サブバンド符号ィ匕方式が多く用いられ ている。サブバンド符号ィ匕方式においては、音声信号を複数の周波数帯域 (サブバ
ンド)に分割し、各サブバンド内での信号エネルギーに応じたビット割り当てを行うこと により効率のよい符号ィ匕が行われる。サブバンド符号化方式を音声符号化に適用し た技術としては、特許文献 2〜4に記載の技術が公知である。
[0026] 特許文献 2〜4に記載の音声符号化方式においては、基本的に次のような信号処 理によって音声信号の符号化を行う。
[0027] まず、入力された原音声信号力 ピッチを抽出する。そして、原音声信号をピッチ 区間に分割する。次に、分割により得られた各ピッチ区間の音声信号について、それ ぞれのピッチ区間の標本ィ匕数が一定数となるようにリサンプリングを行う。そして、リサ ンプリングされた各ピッチ区間の音声信号に対し、 DCT等の直交変換を施すことに より、(n+ 1)個のデータ力も成るサブバンドデータを生成する。最後に、時系列的に 得られる(n+ 1)個のデータのそれぞれに対して、フィルタリングを行うことにより、強 度の時間変化のうち所定の周波数を超える成分を除去して平滑ィ匕し、(n+ 1)個の 音響情報データを生成する。また、サブバンドデータ力 高周波成分の割合を閾値 判定することによって、原音声信号が摩擦音力否かを判定し、その判定結果を摩擦 音情報として出力する。
[0028] 最終的に、原音声信号は、各ピッチ区間の元のピッチ長を表す情報 (ピッチ情報)、
(n+ 1)個の音響情報データからなる音響情報、及び摩擦音情報に分割され符号化 される。
[0029] 図 18は、特許文献 2記載の音声符号化装置 (音声信号加工装置)の構成例を表す 図である。原音声信号 (音声データ)は、音声データ入力部 141に入力される。ピッ チ抽出部 142は、音声データ入力部 141に入力された音声データ力もピッチの基本 周波数の信号 (ピッチ信号)を抽出し、音声データをピッチ信号の単位周期 (単位ピ ツチ区間)で区切る。そして、それぞれの単位ピッチ区間の音声データを、ピッチ信 号との相関が最大となるように移相して調整し、ピッチ長固定部 143に出力する。
[0030] ピッチ長固定部 143は、この各単位ピッチ区間の音声データを、各単位ピッチ区間 の標本ィ匕数がほぼ等しくなるようにリサンプリングを行う。そして、リサンプリングされた 単位ピッチ区間の音声データを、ピッチ波形データとして出力する。尚、このリサンプ リングによって各単位ピッチ区間の長さ (ピッチ周期)に関する情報が除去されるので
、ピッチ長固定部 143は、各単位ピッチ区間における元のピッチ長を表す情報をピッ チ情報として出力する。
[0031] サブバンド分割部 144は、このピッチ波形データに DCT等の直交変換を施してサ ブバンドデータを生成する。このサブバンドデータは、音声の基本周波数成分、及び この音声の n個の高調波成分の強度を表す (n+ 1)個のスペクトル強度データの時 系列データからなる。
[0032] 帯域情報制限部 145は、上記サブバンドデータを構成する (n+ 1)個のスペクトル 強度データをそれぞれフィルタリングすることにより、 (n+ 1)個のスペクトル強度デー タの時間変化のうち、所定の周波数を超える成分を除去する。これは、ピッチ長固定 部 143におけるリサンプリングによって発生するエリアシングの影響を除去するため に行われる処理である。
[0033] 帯域情報制限部 145でフィルタリングされたサブバンドデータは、非線形量子化部 146において非線形量子化され、辞書選択部 147でコード化されて音響情報として 出力される。
[0034] 一方、摩擦音検出部 149は、サブバンドデータの全体のスペクトル強度に占める高 周波成分の割合に基づき、入力された音声データが有声音か無声音 (摩擦音)かを 判別する。そして、この判別結果を、摩擦音情報として出力する。
[0035] このように、原音声信号をサブバンドに分割する前にピッチの揺らぎを除去し、ピッ チ区間ごとに直交変換を行うことによってサブバンドに分割する。これにより、各サブ バンドのスペクトル強度の時間変化が小さくなるため、音響情報に関して高い圧縮率 が実現できる。
[0036] 特許文献 1 :特許 3199128号公報
特許文献 2:特開 2003— 108172号公報
特許文献 3 :特開 2003— 108200号公報
特許文献 4:特開 2004 - 12908号公報
非特干文献 1: Manfred R. Schroeder and Bisnnu b. Atal, "し ode- excited Linear Pred iction (CELP): High- Quality Speech at Very Low Bit Rates , Proceedings of ICASS P 85, pp. 25.1.1-25.1.4, 1985.
非特許文献 2:貴家仁志, 「デジタル信号処理シリーズ (第 14卷)マルチレート信号処 理」,初版, 1995年 10月 6日, pp. 34-49, 78- 79.
発明の開示
発明が解決しょうとする課題
[0037] 上記従来の CELP符号化方式においては、残差信号のうちのピッチ成分は適応符 号帳に用意されたピッチ周期ベクトル群の中から選択される。また、残差信号のうち の音源成分は雑音符号帳に用意された固定的な励振ベクトル群の中から選択される 。そのため、入力音声を忠実に再現しょうとした場合、適応符号帳のピッチ周期べタト ル群及び雑音符号帳の励振べ外ル群の中の候補数をできるだけ多く用意する必要 がある。
[0038] しかしながら、これら候補数を多くすると、適応符号帳及び雑音符号帳のメモリ容量 が莫大となり、実装面積が増大する。また、候補数をあまり多くすると、候補数の対数 に比例して周期符号や雑音符号の符号量も大きくなる。そのため、低ビットレートを 実現するためには適応符号帳及び雑音符号帳の候補数をあまり多くすることはでき ない。
[0039] したがって、限られた数のピッチ周期ベクトル及び励振ベクトルの中力 候補を選 択し、入力音声の音源成分を近似することとなり、歪みは或る程度以上は小さくでき ない。特に、音声信号において音源成分はかなりの割合を占める成分である半面、 雑音的であるため予測が困難である。したがって、再生音声に或る程度の大きい歪 みが生じ、更なる高音質ィ匕に限界がある。
[0040] 一方、特許文献 2〜4に記載の音声符号化方式では、音声信号をサブバンド符号 方式により符号ィ匕するため、高音質で高圧縮率の符号ィ匕が可能である。
[0041] し力しながら、この方式では、ピッチ長固定部において音声信号をリサンプリング( 通常、ダウンサンプリング)する際にエリアシングの問題及びピッチの揺らぎにより音 声信号が変調を受けるという問題がある。
[0042] 前者は、ダウンサンプリングによりエリアシング成分が生じる現象であり、これは、通 常のデシメータと同様にデシメーシヨン'フィルタを使用することにより回避することが 可能である (例えば、非特許文献 2参照)。
[0043] 一方、後者は周期が揺らいだ信号をピッチ区間ごとに一定の標本ィ匕数に合わせ込 むことによって、揺らぎにより音声信号が変調されることによって生じる。すなわち、ピ ツチ長固定部 143は、ピッチ区間ごとに周期が揺らいでいる音声データを、それぞれ のピッチ区間の標本ィ匕数が一定となるようにリサンプリングを行う。この場合、通常、ピ ツチの揺らぎの周期はピッチ周期に比べると 1Z10程度であり、かなり長い。従って、 このようにピッチ周期が揺らいでいる音声信号を、それぞれのピッチ区間が同一の標 本ィ匕数となるようにむりやりリサンプリングすると、ピッチの揺らぎの周波数によって周 波数変調された状態となる。従って、ピッチの揺らぎ周波数によって周波数変調され た音響情報から、音声信号を再び復元した際に、このピッチの揺らぎによる変調成分 (以下「ピッチ揺らぎ変調成分」という。)がゴーストトーンとなって現れ、音声に歪みが 生じる。
[0044] この現象を防止するために、特許文献 2, 3に記載の音声符号ィ匕装置においては、 サブバンド分割部 144が出力する各サブバンド成分のスペクトル強度データを、帯域 情報制限部 145によりフィルタリングすることによりスペクトル強度データの時間変化 として現れるピッチ揺らぎ変調成分を除去しょうとしている。
[0045] し力しながら、帯域情報制限部 145において通過帯域をあまり狭くしすぎると、ピッ チ揺らぎ変調成分以外の原音声信号本来の時間変化成分まで平滑化されてしまう ため、力えって音声信号の歪みを生じさせる結果となる。一方、帯域情報制限部 145 における通過帯域を広くすると、ピッチ揺らぎ変調成分が通過するためゴーストトーン が現れる。
[0046] また、特許文献 4に記載の音声符号化装置においては、サブバンド分割部 144が 出力する各サブバンド成分のスペクトル強度データを平均化することによってピッチ 揺らぎ変調成分を除去しょうとしている。しかし、この平均化により、ピッチ揺らぎ変調 成分以外の原音声信号本来の時間変化成分まで失われるため、結局、音声信号の 歪みを生じさせる結果となる。
[0047] 従って、特許文献 2〜4に記載の音声符号化方式では、ピッチ揺らぎ変調成分を除 去することは困難であり、この変調成分による音声信号の歪みが避けられないという 問題がある。
[0048] そこで、本発明の目的は、低ビットレートを実現するとともに、ピッチの揺らぎによる 周波数変調のような歪みを生じることなぐ従来よりも再生音声の歪みを小さく抑える ことを可能とする音声符号ィヒ技術、及びそれに使用するのに適したピッチ周期等化 技術を提供することにある。
課題を解決するための手段
[0049] ピッチ成分を含む音声信号は、同一の音素内においては、隣接するピッチ区間の 波形は比較的類似している。従って、それぞれのピッチ区間において又は一定の数 のピッチ区間において変換符号ィ匕を行うことができれば、隣り合うピッチ区間でのス ベクトルは類似し、冗長性の大きいスペクトルの時間系列が得られると考えられる。そ して、これを符号化すれば符号化効率は向上すると考えられる。この場合、符号帳は 使用する必要がない。また、原音声の波形をそのまま符号ィ匕するため、歪みの少な Vヽ再生音声を得ることも可能である。
[0050] しかしながら、原音声信号の各ピッチ周波数は男女差、個人差、音素、感情及び会 話内容によって様々である。また、同一の音素においても、それぞれのピッチ周期は 揺らいだり変化したりする。従って、そのままでは各ピッチ区間で変換符号ィ匕を行つ たとしても、得られるスペクトル列は時間的変化が大きぐ高い符号化効率は期待で きない。
[0051] そこで、本発明の音声符号ィ匕方法においては、ピッチ成分を含む原音声に含まれ る情報を、ピッチの基本周波数の情報、ピッチ周期の揺らぎの情報、及び各ピッチ区 間内における波形の情報に分離する方法を採用する。ピッチの基本周波数の情報 及びピッチ周期の揺らぎ情報が除去された原音声信号は、ピッチ周期は一定となり、 各ピッチ区間又は一定数のピッチ区間における変換符号ィ匕は容易である。そして、 隣接するピッチ区間の波形の相関は大きいため、変換符号ィ匕によって得られるスぺ タトルは、等化されたピッチ周波数及びその高調波成分に集約され高 、符号化効率 を得ることが期待できる。
[0052] 上記本発明の音声符号化方法において、原音声信号からピッチの基本周波数の 情報及びピッチ周期の揺らぎの情報を抽出し除去するのに、ピッチ周期等化技術が 用いられる。そこで、以下、本発明に係るピッチ周期等化装置及び方法、並びに音
声符号化装置及び方法の構成及び作用につ 、て説明する。
[0053] 〔本発明の構成及び作用〕
本発明に係るピッチ周期等化装置の第 1の構成は、入力される音声信号に対して 有声音のピッチ周期を等化するピッチ周期等化装置において、音声信号のピッチ周 波数の検出を行うピッチ検出手段;前記ピッチ周波数力 所定の基準周波数を差し 引いた差分である残差周波数を演算する残差演算手段;及び、前記残差周波数に 基づいて、前記音声信号のピッチ周波数を前記基準周波数に近づける方向にシフト させることにより、前記音声信号のピッチ周期を等化する周波数シフタ;を備え、前記 周波数シフタは、前記入力信号を所定の変調波で振幅変調し被変調波を生成する 変調手段;前記被変調波の単側波帯成分の信号のみを選択的に通過させるバンド パスフィルタ;前記バンドパスフィルタでフィルタリングした被変調波に対して所定の 復調波で復調を行い、出力音声信号として出力する復調手段;及び、前記変調手段 が変調に用いる変調波の周波数及び前記復調手段が復調に用いる復調波の周波 数の何れか一方を所定の基本キャリア周波数とし、他方を前記基本キャリア周波数 から前記残差周波数を差し引 、た値に設定する周波数調整手段;を備えて 、ること を備えたことを特徴とする。
[0054] この構成によれば、音声信号のピッチ周期を基準周期 (基準周波数の逆数)に等 化する際に、一旦、入力された音声信号を変調波で振幅変調し、被変調波をバンド パスフィルタに通して下側波帯を除去する。そして、復調波を用いて単側波帯の被変 調波を復調する。この際、残差周波数が 0の場合は変調波及び復調波はともに基本 キャリア周波数とされるが、残差周波数力^でない場合には、変調波又は復調波の何 れか一方は、周波数調整手段によって基本キャリア周波数力 残差周波数を差し引 いた値に設定される。これにより、入力された音声信号のピッチの基本周波数と基準 周波数の差分がキャンセルされ、出力音声信号のピッチ周期は基準周期に等化され る。
[0055] このように、ピッチ周期を所定の基準周期に等化することにより、音声信号に含まれ るピッチの男女差、個人差、音素、感情及び会話内容によって変化するピッチ周波 数のジッタ成分や変化成分が除去される。
[0056] また、音声信号のピッチ周期を基準周期に等化する際に、単側波帯変調を用いる ため、エリアシングの問題は生じない。また、ピッチ周期の等化を行う際にリサンプリ ングを用いな 、ため、上記従来の方式 (特許文献 2〜4)のようにピッチの揺らぎにより 音声信号が変調を受けるという問題を生じない。従って、ピッチ周期が等化された出 力音声信号は、等化による歪みが生じることがな 、。
[0057] また、入力音声信号に含まれる情報は、ピッチの基準周波数の情報、ピッチ毎のピ ツチ周波数の変動に関する情報、及びピッチに重畳する波形成分の情報に分離さ れる。これらはそれぞれ、基準周波数、残差周波数、及び等化後の音声信号の 1ピッ チ区間内の波形として得られる。基準周波数は、音素毎にほぼ一定であるため、符 号ィ匕を行う場合の符号ィ匕効率が高い。また、一般的に各音素内ではピッチ周波数の 揺らぎの変動幅は小さいため、ビン周波数 (bin-frequency)は狭レンジであり、残差周 波数は符号ィ匕を行う場合の符号ィ匕効率が高い。また、等化後の音声信号の 1ピッチ 区間内の波形は、ピッチの揺らぎ成分が除去されているため、各ピッチ区間で同一 の標本化数となる。また、同一音素内の各ピッチ区間の波形は相似性が強いため、 各ピッチ区間で同一の標本ィ匕数に等化することによって各ピッチ区間における波形 は類似性の高いものとなる。したがって、一乃至所定数のピッチ区間で変換符号ィ匕 することによって、符号量を大幅に圧縮することが可能である。したがって、音声信号 の符号ィ匕効率を向上させることが可能となる。
[0058] 尚、上記本発明の構成は、音声信号の中で、ピッチを含む有声音に対してピッチ 周期を等化するものである。したがって、ピッチを含まない無声音やノイズについては 、別途、公知のケプストラム解析やスペクトル形状の特徴分析を用いた方法により分 別するようにすればよい。
[0059] また、このピッチ周期等化装置は、音声符号ィ匕以外にも音声検索等の音声マッチ ング技術に適用することも可能である。すなわち、各ピッチ区間を同一周期に等化す ることによって各ピッチ区間における波形は類似性の高いものとなり、音声信号の対 比が容易となるため、音声検索に応用した場合には、音声のマッチング精度を向上 させることが可會となる。
[0060] 本発明に係るピッチ周期等化装置の第 2の構成は、前記第 1の構成において、前
記ピッチ検出手段は、前記周波数シフタに入力される入力音声信号のピッチ周波数 (以下「入力ピッチ周波数」という。)を検出する入力ピッチ検出手段;及び前記周波 数シフタ力も出力される出力音声信号のピッチ周波数 (以下「出力ピッチ周波数」とい う。)を検出する出力ピッチ検出手段;を備え、前記入力ピッチ周波数の時間平均で ある平均ピッチ周波数を演算するピッチ平均手段を備え、前記残差演算手段は、前 記平均ピッチ周波数を基準周波数として、前記出力ピッチ周波数と当該基準周波数 との差分である残差周波数を演算することを特徴とする。
[0061] この構成によれば、基準周波数として入力ピッチ周波数の時間平均を使用すること により、各音素内のピッチ周波数に男女差、個人差、音素による差、感情、又は会話 内容による差があっても、それらの差異に適応して最適な周波数を基準周波数とす ることが可能となる。
[0062] また、出力ピッチ周波数と基準周波数との差分を残差周波数として、この周波数を 周波数シフタのシフト量にフィードバックすることによって、周波数シフタによるピッチ 周期の等化誤差を低減させ、ピッチ毎のピッチ周波数の変動に関する情報と、ピッチ に重畳する波形成分の情報との分離を効率的に行うことが可能となる。
[0063] ここで、ピッチ平均手段による時間平均は、単純な幾何学平均、加重平均等を問わ ない。また、ピッチ平均手段としてローパスフィルタを使用することができる。この場合 、ピッチ平均手段による時間平均は加重平均となる。
[0064] 本発明に係るピッチ周期等化装置の第 3の構成は、前記第 1の構成において、前 記ピッチ検出手段は、前記周波数シフタに入力される入力音声信号のピッチ周波数 (以下「入力ピッチ周波数」という。)を検出する入力ピッチ検出手段であり、前記入力 ピッチ周波数の時間平均である平均ピッチ周波数を演算するピッチ平均手段を備え 、前記残差演算手段は、前記平均ピッチ周波数を基準周波数として、前記入力ピッ チ周波数と当該基準周波数との差分である残差周波数を演算することを特徴とする
[0065] このように、基準周波数として入力ピッチ周波数の時間平均を使用することにより、 上述のように最適な周波数を基準周波数とすることが可能となる。
[0066] また、入力ピッチ周波数と基準周波数との差分を残差周波数として、この周波数を
周波数シフタのシフト量にフィードフォアワードすることによって、周波数シフタによる ピッチ周期の等化誤差を低減させ、ピッチ毎のピッチ周波数の変動に関する情報と、 ピッチに重畳する波形成分の情報との分離を効率的に行うことが可能となる。
[0067] 本発明に係るピッチ周期等化装置の第 4の構成は、前記第 1の構成において、前 記ピッチ検出手段は、前記周波数シフタカ 出力される出力音声信号のピッチ周波 数 (以下「出力ピッチ周波数」という。)を検出する出力ピッチ検出手段であり、前記出 力ピッチ周波数の時間平均である平均ピッチ周波数を演算するピッチ平均手段を備 え、前記残差演算手段は、前記平均ピッチ周波数を基準周波数として、前記出力ピ ツチ周波数と当該基準周波数との差分である残差周波数を演算することを特徴とす る。
[0068] このように、基準周波数として出力ピッチ周波数の時間平均を使用することにより、 上述のように最適な周波数を基準周波数とすることが可能となる。
[0069] また、入力ピッチ周波数と基準周波数との差分を残差周波数として、この周波数を 周波数シフタのシフト量にフィードバックすることによって、周波数シフタによるピッチ 周期の等化誤差を低減させ、ピッチ毎のピッチ周波数の変動に関する情報と、ピッチ に重畳する波形成分の情報との分離を効率的に行うことが可能となる。
[0070] 本発明に係るピッチ周期等化装置の第 5の構成は、前記第 1の構成において、前 記ピッチ検出手段は、前記周波数シフタに入力される入力音声信号のピッチ周波数 (以下「入力ピッチ周波数」という。)を検出する入力ピッチ検出手段であり、前記基準 周波数を出力する基準周波数発生手段を備え、前記残差演算手段は、前記入力ピ ツチ周波数と前記基準周波数との差分である残差周波数を演算することを特徴とす る。
[0071] このように、基準周波数として、基準周波数発生手段が出力する決められた周波数 を用いることによって、入力音声信号に含まれる音声の情報のうち、ピッチの基本周 波数の情報及びピッチ毎のピッチ周波数の変動に関する情報は残差周波数として 分離される。また、ピッチに重畳する波形成分の情報は、等化後の音声信号の 1ピッ チ区間内の波形として分離される。
[0072] ピッチの基本周波数の男女差、個人差、音素による差、又は会話内容による差は
一般的に狭ぐまた、ピッチ毎のピッチ周波数の変動も一般的に小さい。したがって、 残差周波数は狭レンジとなり、符号ィ匕を行う場合の符号ィ匕効率が高い。また、等化後 の音声信号の 1ピッチ区間内の波形は、ピッチの揺らぎ成分が除去されているため、 変換符号ィ匕により符号量を大幅に圧縮することが可能である。したがって、音声信号 の符号ィ匕効率を向上させることが可能となる。
[0073] 本発明に係るピッチ周期等化装置の第 6の構成は、前記第 1の構成において、前 記ピッチ検出手段は、前記周波数シフタカ 出力される出力音声信号のピッチ周波 数 (以下「出力ピッチ周波数」という。)を検出する出力ピッチ検出手段であり、前記基 準周波数を出力する基準周波数発生手段を備え、前記残差演算手段は、前記出力 ピッチ周波数と前記基準周波数との差分である残差周波数を演算することを特徴と する。
[0074] このように、基準周波数として、基準周波数発生手段が出力する決められた周波数 を用いることによって、上述の第 5の構成の場合と同様に、音声信号の符号化効率を 向上させることが可會となる。
[0075] 本発明に係る音声符号化装置の第 1の構成は、入力される音声信号を符号化する 音声符号化装置であって、前記音声信号に対して有声音のピッチ周期を等化する 前記第 1乃至 6の何れか一の構成のピッチ周期等化装置;及び、前記ピッチ周期等 化装置が出力する音声信号 (以下「ピッチ等化音声信号」という。)に対して、一定の ピッチ区間数で直交変換を行い、各サブバンドの変換係数データを生成する直交変 換手段;を備えたことを特徴とする。
[0076] この構成によれば、上述のように、ピッチ周期等化装置において、入力音声信号に 含まれる、ピッチの基本周波数の情報、ピッチ毎のピッチ周波数の変動に関する情 報、及びピッチに重畳する波形成分の情報は、それぞれ、基準周波数、残差周波数 、及び等化後の音声信号 (ピッチ等化音声信号)の 1ピッチ区間内の波形にそれぞ れ分離される。
[0077] ここで得られるピッチ等化音声信号の 1ピッチ区間内の波形 (以下「単位ピッチ区間 波形」という。)は、基本ピッチ周波数に重畳した音声波形から、ピッチ毎のピッチ周 期の変動 (ジッタ)や変化が除去されたものである。したがって、直交変換する際に、
各ピッチ区間を同一のサンプリング間隔で同一の分解能で直交変換することができ るため、ピッチ区間毎の変換符号ィ匕を容易に実行できる。また、同じ音素内で隣接す るピッチ区間の単位ピッチ区間波形の相関は大きくなる。
[0078] したがって、このピッチ等化音声信号に対して一定のピッチ区間数で直交変換を行 い、各サブバンドの変換係数データとすることにより、高い符号ィ匕効率を得ることが可 能となる。
[0079] ここで、直交変換手段により直交変換を行う「一定のピッチ区間数」としては、 1ピッ チ区間又は 2以上の整数倍のピッチ区間とすることができる。しかし、各サブバンドの 変換係数データの時間的変化を最小とし、高い符号ィ匕効率を得るには 1ピッチ区間 とするのが好ましい。 2以上のピッチ区間とすると各サブバンドの周波数は基準周波 数の高調波成分以外の周波数が含まれてくるのに対し、 1ピッチ区間とすると、各サ ブバンドの周波数はすべて基準周波数の高調波成分となるため、各サブバンドの変 換係数データの時間的変化が最小となるからである。
[0080] また、ピッチの基本周波数の情報、及びそれぞれのピッチ区間ごとのピッチ周波数 の変動に関する情報の符号ィ匕については、それぞれ、ピッチ検出手段が出力するピ ツチ周波数、及び残差演算手段が出力する残差周波数を符号ィ匕することにより行うこ とができる。ピッチの基本周波数は、音素毎にほぼ一定であるため、符号化を行う場 合の符号ィ匕効率が高い。また、一般的に各音素内ではピッチの揺らぎの変動幅は小 さいため、残差周波数は狭いレンジであり、符号ィ匕を行う場合の符号ィ匕効率が高い。 したがって、全体としての符号化効率も高くなる。
[0081] さらに、 CELP方式と比較すると、本発明に係る音声符号化装置は、符号帳を使用 することなく低ビットレートの音声符号ィ匕を達成できる点に特徴がある。符号帳を使用 しないため、音声符号化装置及び音声復号装置において符号帳を用意する必要が ない。そのため、ハードウェアで構成する際の実装面積を小さくすることができる。
[0082] また、上述したように、符号帳を利用する場合、入力音声と符号帳の候補とのマツ チングの度合いにより音声の歪み度合いが定まる。したがって、符号帳の候補と大き く異なる音声が入力された場合には大きな歪みが現れることとなる。この現象を回避 しょうとした場合、符号帳中の候補数をできるだけ多く用意する必要がある。しかし、
候補数を増やすと候補数の対数に比例して全体の符号量も大きくなる。したがって、 低ビットレートを実現するためには符号帳の候補数をあまり多くすることはできないた め、歪みは或る程度以上は小さくできない。
[0083] しかし、本発明に係る音声符号化装置は、入力音声を変換符号化によって直接符 号化するため、常に入力音声に適合した最適な符号ィ匕が行われる。したがって、符 号ィ匕による音声の歪みは最小限に抑えることが可能であり、 SN比の高い音声符号 化を達成することが可能となる。
[0084] 本発明に係る音声符号化装置の第 2の構成は、前記第 1の構成において、前記ピ ツチ周期等化装置が出力する前記ピッチ等化音声信号に対して、 1ピッチ区間の標 本ィ匕数が一定となるようにリサンプリングを行うリサンプリング手段を備えて 、ることを 特徴とする。
[0085] この構成により、基準周波数として入力ピッチ周波数の平均あるいは出力ピッチ周 波数の平均である平均ピッチ周波数を用いた場合において、基準周波数が時間的 に緩やかに変化する場合、リサンプリングによってピッチ区間を常に一定数の標本ィ匕 数としておくことにより、直交変換手段を簡単に構成することができる。すなわち、直 交変換手段は、実際には PFB (Polyphase Filter Bank :多層フィルタ 'バンク)が用い られるが、ピッチ区間の標本ィ匕数が変化すると使用可能なフィルタ数 (サブバンドの 数)が変化するため、使用されないフィルタ (サブバンド)が生じ、無駄が生じる。従つ て、リサンプリングによってピッチ区間を常に一定数の標本ィ匕数としておくことにより、 このような無駄をなくすことができる。
[0086] ここで、リサンプリング手段によるリサンプリングは、特許文献 2〜4において用いら れているリサンプリングとは異なることを注意しておく。特許文献 2〜4におけるリサン プリングは、揺らぎのあるピッチ周期を一定のピッチ周期とするために行われるリサン プリングである。従って、ピッチ周期の揺らぎの周期(およそ 10— 3 sec程度)に応じて各 ピッチ区間のリサンプリング間隔は振動するものとなる。従って、リサンプリングの結果 、ピッチ周期の揺らぎの周期による周波数変調の効果が顕著である。一方、本発明 におけるリサンプリングは、既にピッチ周期が等化された音声信号に対して、基準周 波数の変化によりピッチ区間ごとの標本ィ匕数が異なるのを防止するために行われるリ
サンプリングである。基準周波数の変化は通常極めて緩やかであり(およそ 100 msec 程度)、リサンプリングによる周波数変調の影響が問題となることはない。
[0087] 本発明に係る音声復号装置は、原音声信号に対しピッチ周波数が所定の基準周 波数に等化され、直交変換によりサブバンド成分に分解されたピッチ等化音声信号 、及び前記原音声信号のピッチ周波数力も前記基準周波数を差し引いた差分であ る残差周波数信号に基づいて前記原音声信号を復号する音声復号装置であって、 一定のピッチ数区間で直交変換されたピッチ等化音声信号に対し逆直交変換を行う ことによりピッチ等化音声信号を復元する逆直交変換手段;及び、前記ピッチ等化音 声信号のピッチ周波数を前記基準周波数に前記残差周波数を加えた周波数に近づ ける方向にシフトさせることにより、前記復元音声信号を生成する周波数シフタ;を備 え、前記周波数シフタは、前記ピッチ等化音声信号を所定の変調波で振幅変調し被 変調波を生成する変調手段;前記被変調波の単側波帯成分の信号のみを選択的に 通過させるバンドパスフィルタ;前記バンドパスフィルタでフィルタリングした被変調波 に対して所定の復調波で復調を行い、復元音声信号として出力する復調手段;及び 、前記変調手段が変調に用いる変調波の周波数及び前記復調手段が復調に用いる 復調波の周波数の何れか一方を所定の基本キャリア周波数とし、他方を前記基本キ ャリア周波数に前記残差周波数を加えた値に設定する周波数調整手段;を備えて ヽ ることを特徴とする。
[0088] この構成により、上記第 1又は第 2の構成の音声符号ィ匕装置により符号化された音 声信号を復号することができる。
[0089] 本発明に係るピッチ周期等化方法の第 1の構成は、入力される音声信号 (以下「入 力音声信号」という。 )に対して有声音のピッチ周期を等化するピッチ周期等化方法 であって、前記入力音声信号を周波数シフタに入力し、前記周波数シフタからの出 力信号 (以下「出力音声信号」と 、う。 )を得る周波数シフトステップ;前記出力音声信 号のピッチ周波数 (以下「出力ピッチ周波数」という。)を検出する出力ピッチ検出ステ ップ;前記出力ピッチ周波数力も所定の基準周波数を差し引いた差分である残差周 波数を演算する残差周波数演算ステップ;及び、前記出力ピッチ周波数と所定の基 準周波数との差分である残差周波数を演算する残差周波数演算ステップ;を有し、
前記周波数シフトステップにおいては、変調に用いる変調波の周波数及び復調に用 V、る復調波の周波数の何れか一方を所定の基本キャリア周波数とし、他方を前記基 本キャリア周波数力 前記残差周波数演算ステップにおいて算出される前記残差周 波数を差し引いた周波数に設定する周波数設定ステップ;前記入力音声信号を前 記変調波で振幅変調し被変調波を生成する変調ステップ;前記被変調波の単側波 帯成分のみを通過させるバンドパスフィルタにより、前記被変調波をフィルタリングす る帯域縮小ステップ;前記バンドパスフィルタでフィルタリングした被変調波に対して 前記復調波で復調を行 、、出力音声信号として出力する復調ステップ;を有すること を特徴とする。
[0090] 本発明に係るピッチ周期等化方法の第 2の構成は、前記第 1の構成において、前 記出力ピッチ周波数の時間平均である平均ピッチ周波数を演算するピッチ平均化ス テツプ;を有し、前記残差周波数演算ステップにおいては、前記出力ピッチ周波数と 前記平均ピッチ周波数との差分を演算し、これを前記残差周波数とすることを特徴と する。
[0091] 本発明に係るピッチ周期等化方法の第 3の構成は、前記第 1の構成において、前 記入力音声信号のピッチ周波数 (以下「入力ピッチ周波数」と!、う。 )を検出する入力 ピッチ検出ステップ;前記入力ピッチ周波数の時間平均である平均ピッチ周波数を演 算するピッチ平均化ステップ;を有し、前記残差周波数演算ステップにおいては、前 記出力ピッチ周波数と前記平均ピッチ周波数との差分を演算し、これを前記残差周 波数とすることを特徴とする。
[0092] 本発明に係るピッチ周期等化方法の第 4の構成は、入力される音声信号 (以下「入 力音声信号」という。 )に対して有声音のピッチ周期を等化するピッチ周期等化方法 であって、前記入力音声信号のピッチ周波数 (以下「入力ピッチ周波数」という。)を 検出する入力ピッチ検出ステップ;前記入力音声信号を周波数シフタに入力し、前 記周波数シフタカもの出力信号 (以下「出力音声信号」という。)を得る周波数シフトス テツプ;及び、前記入力ピッチ周波数力 所定の基準周波数を差し引いた差分であ る残差周波数を演算する残差周波数演算ステップ;を有し、前記周波数シフトステツ プにおいては、変調に用いる変調波の周波数及び復調に用いる復調波の周波数の
何れか一方を所定の基本キャリア周波数とし、他方を前記基本キャリア周波数から前 記残差周波数演算ステップにおいて算出される前記残差周波数を差し引いた周波 数に設定する周波数設定ステップ;前記入力音声信号を前記変調波で振幅変調し 被変調波を生成する変調ステップ;前記被変調波の単側波帯成分のみを通過させる バンドパスフィルタにより、前記被変調波をフィルタリングする帯域縮小ステップ;前記 バンドパスフィルタでフィルタリングした被変調波に対して前記復調波で復調を行い、 出力音声信号として出力する復調ステップ;を有することを特徴とする。
[0093] 本発明に係るピッチ周期等化方法の第 5の構成は、前記第 4の構成において、前 記入力ピッチ周波数の時間平均である平均ピッチ周波数を演算するピッチ平均化ス テツプ;を有し、前記残差周波数演算ステップにおいては、前記入力ピッチ周波数と 前記平均ピッチ周波数との差分を演算し、これを前記残差周波数とすることを特徴と する。
[0094] 本発明に係る音声符号ィ匕方法の第 1の構成は、入力される音声信号を符号ィ匕する 音声符号化方法であって、前記第 1乃至 5の何れか一の構成のピッチ周期等化方法 により、前記音声信号に対して有声音のピッチ周期を等化するピッチ周期等化ステツ プ;前記ピッチ周期等化ステップで等化された音声信号 (以下「ピッチ等化音声信号 」という。 )に対して、一定のピッチ区間数で直交変換を行い、各サブバンドの変換係 数データを生成する直交変換ステップ;及び、前記変換係数データを符号化する波 形符号化ステップ;を備えたことを特徴とする。
[0095] 本発明に係る音声符号化方法の第 2の構成は、前記第 1の構成において、前記ピ ツチ周期等化ステップにおいて等化された前記ピッチ等化音声信号に対して、 1ピッ チ区間の標本ィ匕数が一定となるようにリサンプリングを行うリサンプリングステップを備 えていることを特徴とする。
[0096] 本発明に係るプログラムは、コンピュータで実行することにより、前記コンピュータを 請求項 1乃至 6の何れか一記載のピッチ周期等化装置として機能させることを特徴と する。
[0097] また、本発明に係るプログラムは、コンピュータで実行することにより、前記コンビュ ータを請求項 7又は 8記載の音声符号ィ匕装置として機能させることを特徴とする。
[0098] また、本発明に係るプログラムは、コンピュータで実行することにより、前記コンビュ ータを上記本発明の音声復号装置として機能させることを特徴とする。
発明の効果
[0099] 以上のように、本発明に係るピッチ周期等化装置によれば、入力音声信号に含ま れる情報を、ピッチの基本周波数の情報、ピッチ毎のピッチ周波数の変動に関する 情報、及びピッチに重畳する波形成分の情報に分離する。これらの情報は、それぞ れ、基準周波数、残差周波数、及び等化後の音声信号の 1ピッチ区間内の波形とし て取り出される。
[0100] このように、分離された情報から、ピッチの基本周波数の情報及びピッチに重畳す る波形成分の情報のみを用いれば、マッチング誤差力 、さく精度のよい音声検索が 可能となる。
[0101] また、各情報を分離して、それぞれの情報を個別に最適な符号化方法で符号化す ることにより、入力音声信号の符号ィ匕効率を向上させることが可能となる。
[0102] 故に、精度のよい音声検索を可能とし、入力音声信号の符号化効率を向上させる ことを可能とするピッチ周期等化装置を提供することができる。
[0103] また、本発明に係る音声符号化装置によれば、入力音声信号に含まれる情報は、 ピッチ周期等化装置において、ピッチの基本周波数の情報、ピッチ毎のピッチ周波 数の変動に関する情報、及びピッチに重畳する波形成分の情報に分離され、それぞ れ、基準周波数、残差周波数、及びピッチ等化音声信号の 1ピッチ区間内の波形と して得られる。そして、このピッチ等化音声信号に対して一定のピッチ区間数で直交 変換を行うことで、ピッチに重畳する波形成分の情報を効率よく符号ィ匕することがで きる。
図面の簡単な説明
[0104] [図 1]本発明の実施例 1に係るピッチ周期等化装置 1の構成を表すブロック図である。
[図 2]ピッチ検出手段 11における信号処理の概略を説明する図である。
[図 3]周波数シフタ 4の内部構成を表す図である。
[図 4]周波数シフタ 4の内部構成の他の励を表す図である。
[図 5]有声音「あ」のフォルマント特性を示す図である。
[図 6]無声音「す」の自己相関及びケプストラム波形並びに周波数特性を示す図であ る。
[図 7]本発明の実施例 2に係るピッチ周期等化装置 1 'の構成を表す図である。
[図 8]本発明の実施例 3に係る音声符号ィ匕装置 30の構成を表す図である。
[図 9]量子化ビット数についての説明図である。
[図 10]各サブバンドのスペクトル強度の時間変化の例である。
[図 11]本発明の実施例 4に係る音声復号装置 50の構成を表すブロック図である。
[図 12]本発明の実施例 5に係るピッチ周期等化装置 41の構成を表す図である。
[図 13]本発明の実施例 6に係るピッチ周期等化装置 41 'の構成を表す図である。
[図 14]本発明の実施例 7に係る音声符号ィ匕装置 30'の構成を表す図である。
[図 15]本発明の実施例 8に係る音声復号装置 50'の構成を表すブロック図である。
[図 16]CELP符号ィ匕方式による音声符号ィ匕装置の基本構成例を表す図である。
[図 17]CELP符号ィ匕方式による音声復号装置の基本構成例を表す図である。
[図 18]特許文献 2記載の音声符号化装置の構成例を表す図である。
符号の説明
1, 1 ' ピッチ周期等化装置
2 入力ピッチ検出手段
3 ピッチ平均手段
4 周波数シフタ
5, 5" 出力ピッチ検出手段
6 残差演算手段
7 PIDコントローラ
11 ピッチ検出手段
12, 15 バンドパスフィルタ(BPF)
13 周波数カウンタ
16 周波数カウンタ
18 アンプ
19 コンデンサ
20 抵抗
21 発信器
22 変調器
23 BPF
24 電圧制御発信器 (VCO)
25
30, 30' 音声符号化装置
31 リサンプラ
32 アナライザ
33 量子化器
34 ピッチ等化波形符号化器
35 差分ビット演算器
36, 36' ピッチ情報符号化器
41, 41 ' ピッチ周期等化装置
42 基準周波数発生器
50, 50' 音声復号装置
51 ピッチ等化波形復号器
52 逆量子化器
53 シンセサイザ
54, 54' ピッチ情報復号器
55 ピッチ周波数検出手段
56 差分器
57 加算器
58 周波数シフタ
発明を実施するための最良の形態
以下、本発明を実施するための最良の形態について、図面を参照しながら説明す る。
実施例 1
[0107] 図 1は、本発明の実施例 1に係るピッチ周期等化装置 1の構成を表すブロック図で ある。ピッチ周期等化装置 1は、入力ピッチ検出手段 2、ピッチ平均手段 3、周波数シ フタ 4、出力ピッチ検出手段 5、残差演算手段 6、及び PIDコントローラ 7を備えている
[0108] 入力ピッチ検出手段 2は、入力端子 Inより入力される入力音声信号 X (t)から、当
in
該音声信号に含まれるピッチの基本周波数を検出する。ピッチの基本周波数を検出 する方法は、現在までに種々の方法が考案されているが、本実施例ではその代表的 なものを示す。この入力ピッチ検出手段 2は、ピッチ検出手段 11、バンドパスフィルタ (Band Pass Filter:以下「BPF」という。 ) 12、及び周波数カウンタ 13を備えている。
[0109] ピッチ検出手段 11は、入力音声信号 X (t)から、ピッチの基本周波数 f を検出する
in 0
。例えば、入力音声信号 X (t)が図 2 (a)のような波形であったとする。ピッチ検出手
in
段 11は、まずこの波形に対して短時間フーリエ変換を行い、図 2 (b)のようなスぺタト ル波形 X(f)を導出する。
[0110] 通常、音声波形は、ピッチ以外にも多くの周波数成分を含み、ここで得られるスぺク トル波形は、ピッチの基本周波数及びピッチの高調波成分以外にも、付加的に多く の周波数成分を有する。したがって、このスペクトル波形 X(f)カゝらピッチの基本周波 数 f を抽出するのは一般に困難である。そこで、ピッチ検出手段 11は、このスぺタト
0
ル波形 X(f)に対し再度フーリエ変換を行う。これにより、スペクトル波形 X(f)に含ま れるピッチの高調波の間隔 Δ f の逆数 F = 1Z Δ f の点に鋭 、ピークを持つスぺタト
0 0 0
ル波形が得られる(図 2 (c)参照)。ピッチ検出手段 11は、このピークの位置 Fを検出
0 すること〖こよって、ピッチの基本周波数 f = Δ ί = 1/Fを検出する。
0 0 0
[0111] また、ピッチ検出手段 11は、スペクトル波形 X(f)から、入力音声信号 X (t)が有声
in
音か無声音かを判別する。有声音の場合には、ノイズフラグ信号 V として 0を出力
noise
する。無声音の場合にはノイズフラグ信号 V として 1を出力する。なお、有声音と無
noise
声音の判別は、スペクトル波形 X(f)の傾き検出によって行われる。図 5は有声音「あ」 のフォルマント特性を示す図であり、図 6は無声音「す」の自己相関及びケプストラム 波形並びに周波数特性を示す図である。有声音は、図 5のように、スペクトル波形 X( f)は、全体的に低周波側が大きく高周波側に向力つて小さくなるようなフォルマント特
性を示す。それに対して、無声音は、図 6のように、全体的に高周波側に向かって大 きくなるような周波数特性を示す。したがって、スペクトル波形 X(f)の全体的な傾きを 検出することによって、入力音声信号 X (t)が有声音か無声音かを判別することがで in
きる。
[0112] 尚、入力音声信号 X (t)が無声音の場合、ピッチが存在しないので、ピッチ検出手 in
段 11が出力するピッチの基本周波数 f は無意味な値となる。
0
[0113] BPF12は、中心周波数が可変な狭帯域の FIR (Finite Impulse Response)型のフィ ルタが使用される。 BPF12は、ピッチ検出手段 11により検出されるピッチの基本周 波数 f を通過帯域の中心周波数として設定する(図 2 (d)参照)。そして、 BPF12は、
0
入力音声信号 X (t)をフィルタリングし、ピッチの基本周波数 f のほぼ正弦波状の波 in 0 形を出力する(図 2 (e)参照)。
[0114] 周波数カウンタ 13は、 BPF12が出力するほぼ正弦波状の波形のゼロクロス点の単 位時間当たりの数をカウントすることにより、ピッチの基本周波数 f を出力する。この
0
検出されたピッチの基本周波数 f が入力ピッチ検出手段 2の出力信号 (以下「基本周
0
波数信号」 ) V として出力される (02 (f)参照)。
pitch
[0115] ピッチ平均手段 3は、ピッチ検出手段 11が出力するピッチの基本周波数信号 V pitch を平均化するものであり、通常のローパスフィルタ(Low Pass Filter:以下「LPF」とい う。 )が使用される。ピッチ平均手段 3により、基本周波数信号 V が平滑化され、音 pitch
素内では時間的にほぼ一定の信号となる(図 2 (g)参照)。この平滑化された基本周 波数が基準周波数 f として使用される。
s
[0116] 周波数シフタ 4は、入力音声信号 X (t)のピッチ周波数を基準周波数 f に近づける in 0 方向にシフトさせることにより、音声信号のピッチ周期を等化する。
[0117] 出力ピッチ検出手段 5は、周波数シフタ 4より出力される出力音声信号 X (t)から、 out 当該出力音声信号 X (t)に含まれるピッチの基本周波数 f 'を検出する。この出力ピ out 0
ツチ検出手段 5も、基本的に入力ピッチ検出手段 2と同様の構成とすることができる。 本実施例の場合、出力ピッチ検出手段 5は、 BPF15及び周波数カウンタ 16を備えて いる。
[0118] BPF15は、中心周波数が可変な狭帯域の FIR型のフィルタが使用される。 BPF15
は、ピッチ検出手段 11により検出されるピッチの基本周波数 f
0を通過帯域の中心周 波数として設定する。そして、 BPF15は、出力音声信号 X (t)をフィルタリングし、ピ out
ツチの基本周波数 f ,のほぼ正弦波状の波形を出力する。周波数カウンタ 16は、 BP
0
F15が出力するほぼ正弦波状の波形のゼロクロス点の単位時間当たりの数をカウン トすること〖こより、ピッチの基本周波数 f ,を出力する。この検出されたピッチの基本周
0
波数 f 'が出力ピッチ検出手段 5の出力信号 V 'として出力される。
0 pitch
[0119] 残差演算手段 6は、出力ピッチ検出手段 5が出力する基本周波数 f 'からピッチ平
0
均手段 3が出力する基準周波数 fを引いた残差周波数 Δ ί を出力する。この残差 s pitch
周波数 Δ f は、 PIDコントローラ 7を介して周波数シフタ 4に入力される。周波数シ pitcn
フタ 4は、残差周波数 Δ f に比例して、入力音声信号のピッチ周波数を基準周波 pit en
数 f に近づける方向にシフトさせる。
0
[0120] 尚、 PIDコントローラ 7は、直列接続されたアンプ 18及び抵抗 20、並びに、アンプ 1 8に対して並列接続されたコンデンサ 19から構成されて!、る。この PIDコントローラ 7 は、周波数シフタ 4、出力ピッチ検出手段 5、及び残差演算手段 6からなるフィードバ ックループの発振を防止するためのものである。
[0121] 尚、図 1では、 PIDコントローラ 7は、アナログ回路表示しているが、デジタル回路で 構成してちょい。
[0122] 図 3は周波数シフタ 4の内部構成を表す図である。周波数シフタ 4は、発信器 21、 変調器 22、 BPF23、電圧制御発信器 (Voltage Controlled Oscillator:以下「VCO」 という。) 24、及び復調器 25を備えている。
[0123] 発信器 21は、入力音声信号 X (t)の振幅変調を行うための一定周波数の変調キヤ in
リア信号 C1を出力する。通常、音声信号の帯域は 8kHz程度である(図 3 (a)参照)。 したがって、発信器 21が発生する変調キャリア信号 C1の周波数 (以下「キャリア周波 数」という。)としては、通常は 20kHz程度のものが使用される。
[0124] 変調器 22は、発信器 21が出力する変調キャリア信号 C1を入力音声信号 X (t)で in 振幅変調し、被変調信号を生成する。この被変調信号は、キャリア周波数を中心とし て、その両側に音声信号の帯域と同じバンド幅の側波帯 (上側波帯及び下側波帯) を有する信号である(図 3 (b)参照)。
[0125] BPF23は、被変調信号の上側波帯成分のみを通過させる BPFである。これにより 、 BPF23から出力される被変調信号は、下側波帯のみがカットされた単側波帯信号 となる。
[0126] VC024は、発信器 21が出力する変調キャリア信号 C1と同じキャリア周波数の信 号を、 PIDコントローラ 7を介して残差演算手段 6から入力される残差周波数 Δ ί の pitch 信号 (以下「残差周波数信号」という。 ) AV pitchにより周波数変調して得られる信号( 以下「復調キャリア信号」という。)を出力する。復調キャリア信号の周波数は、キャリア 周波数力も残差周波数を差し引いた周波数となる。
[0127] 復調器 25は、 BPF23が出力する上側波帯のみの被変調信号を、 VC024が出力 する復調キャリア信号により復調し、音声信号を復元する(図 3 (d)参照)。このとき、 復調キャリア信号は、残差周波数信号 Δν で変調されている。そのため、被変調 pitch
信号を復調する際に、入力音声信号 X (t)のピッチ周波数の基準周波数 fからのず in s れが消去される。すなわち、入力音声信号 X (t)の
in ピッチ周期は、基準周期 lZf
sに 等化される。
[0128] 図 4は、周波数シフタ 4の内部構成の他の例を表す図である。図 4においては、図 3 の発信器 21と VC024とを入れ替えた構成とされている。この構成によっても、図 3の 場合と同様に、入力音声信号 X (t)の
in ピッチ周期を基準周期 lZf
sに等化することが できる。
[0129] 以上のように構成された実施例 1のピッチ周期等化装置 1について、以下その動作 を説明する。
[0130] まず、入力音声信号 X (t)が入力端子 Inから入力されると、入力ピッチ検出手段 2 in
は、入力音声信号 X (t)が有声音か無声音かを判別してノイズフラグ信号 V を出 in noise 力端子 OUT_4へ出力するとともに、入力音声信号 X (t)からピッチ周波数を検出し、 in
基本周波数信号 V をピッチ平均手段 3に出力する。ピッチ平均手段 3は、基本周 pitch
波数信号 V を平均化し (この場合、 LPFを使用するので加重平均となる。 )、これを pitch
基準周波数信号 AV として出力する。この基準周波数信号 AV は、出力端子 0 pitcn pitch
UT_3から出力されるとともに、残差演算手段 6に入力される。
[0131] 一方、周波数シフタ 4は、入力音声信号 X (t)の周波数をシフトさせ、出力音声信
号 x (t)として出力端子 Out_lへ出力する。初期状態においては、残差周波数信号 out
Δν は 0 (リセット状態)であり、周波数シフタ 4は、入力音声信号 χ (t)がそのまま pitch in 出力音声信号 χ (t)として出力端子 Out_lへ出力される。
out
[0132] 次に、出力ピッチ検出手段 5は、周波数シフタ 4が出力する出力音声信号のピッチ 周波数 f 'を検出する。検出されたピッチ周波数 f 'は、ピッチ周波数信号 V 'とし
0 0 pitch て残差演算手段 6に入力される。
[0133] 残差演算手段 6は、ピッチ周波数信号 V ,から基準周波数信号 AV を差し引く pitch pitch ことにより、残差周波数信号 Δν を生成する。この残差周波数信号 Δν は、出 pitch pitch 力端子 Out_2へ出力されるとともに、 PIDコントローラ 7を介して周波数シフタ 4へ入力 される。
[0134] 周波数シフタ 4は、 PIDコントローラ 7を介して入力される残差周波数信号 Δν に pitch 比例して、周波数のシフト量を設定する。この場合、残差周波数信号 Δν が正値 pitch であれば、残差周波数信号 Δν に比例した量だけ周波数を下げるようにシフト量 pitch
が設定される。残差周波数信号 Δν 力負値であれば、残差周波数信号 Δν に pitch pitch 比例した量だけ周波数を上げるようにシフト量が設定される。
[0135] このようなフィードバック制御により、入力音声信号 X (t)のピッチ周期は、常に基準 in
周期 lZf
sに維持され、出力音声信号 X (t)
out のピッチ周期は等化される。
[0136] 以上のように、本実施例 1のピッチ周期等化装置 1によれば、入力音声信号 X (t)
in に含まれる情報は、
(a)有声音か無声音かを示す情報;
(b) 1ピッチ区間の音声波形を表す情報;
(c)基準ピッチ周波数の情報;
(d)各ピッチ区間のピッチ周波数の基準ピッチ周波数力 の偏倚量を表す残差周波 数情報;
に分離される。(a)〜 (d)の情報は、それぞれ、ノイズフラグ信号 V 、ピッチ周期が noise
基準周期 lZf
s (入力音声信号の過去のピッチ周波数の加重平均の逆数)に等化さ れた出力音声信号 X (t)、基準周波数信号 AV 、及び残差周波数信号 Δν と out pitch pitch して出力される。
[0137] 出力音声信号 x (t)は、男女差、個人差、音素、感情及び会話内容によって変化 out
するピッチ周波数のジッタ成分や変化成分が除去された音声信号であり、抑揚のな い平坦的 ·機械的な音声信号である。したがって、同じ有声音の出力音声信号 X (t
out
)は、男女差、個人差、音素、感情又は会話内容に無関係にほぼ同じ波形が得られ るため、出力音声信号 X (t)を比較することによって有声音についてのマッチングを out
精度よく行うことが可能となる。すなわち、ピッチ周期等化装置 1を音声検索装置に応 用すれば、検索精度を向上させることが可能となる。
[0138] また、有声音の出力音声信号 X (t)はピッチ周期が基準周期 lZf に等化されて out S
いるので、一定数のピッチ区間でサブバンド符号ィ匕を行うことにより、出力音声信号 X
(t)の周波数スペクトル X (f)は、基準周波数の高調波成分のサブバンド成分に out out
集約される。音声はピッチ間の波形相関が大きいので、各サブバンド成分のスぺタト ル強度の時間変化は緩やかである。したがって、各サブバンド成分を符号化し、その 他の雑音成分を省略することにより、高効率の符号ィ匕が可能となる。また、基準周波 数信号 AV 、及び残差周波数信号 Δν は、音声の性質上、同一音素内で狭レ
pitch pitch
ンジでしか変動しないため、高効率の符号化が可能である。したがって、全体として 入力音声信号 X (t)の
in 有声音成分を高効率で符号ィ匕することが可能となる。
実施例 2
[0139] 図 7は本発明の実施例 2に係るピッチ周期等化装置 1 'の構成を表す図である。実 施例 1のピッチ周期等化装置 1が残差周波数 Δί のフィードバック制御によりピッチ
pit en
周期を等化する構成としたのに対し、実施例 2のピッチ周期等化装置 1 'は、残差周 波数 Δί のフィードフォアワード制御によりピッチ周期を等化する構成とされている pitch
[0140] 図 7において、入力ピッチ検出手段 2、ピッチ平均手段 3、周波数シフタ 4、残差演 算手段 6、ピッチ検出手段 11、 BPF12、及び周波数カウンタ 13は、図 1のものと同様 であるため、同一符号を付して説明は省略する。
[0141] ピッチ周期等化装置 1 'では、残差演算手段 6は、入力ピッチ検出手段 2が出力す る基本周波数信号 V から基準周波数信号 AV を差し引くことによって残差周波
pitch pitch
数信号 Δ V を生成する。また、フィードフォアワード制御であるため、発振対策は pitch
不要であり、 PIDコントローラ 7は省略されている。また、フィードフォアワード制御であ るため、出力ピッチ検出手段 5も省略されている。その他の構成は実施例 1と同様で ある。
[0142] このような構成によっても、実施例 1の場合と同様に、入力音声信号 X (t)をノイズ フラグ信号 V 、出力音声信号 X (t)、基準周波数信号 AV 、及び残差周波数
noise out pitch 信号 Δ V に分離することが可能である。
pitch
実施例 3
[0143] 図 8は本発明の実施例 3に係る音声符号ィ匕装置 30の構成を表す図である。音声符 号化装置 30は、ピッチ周期等化装置 1, 1 '、リサンプラ 31、アナライザ 32、量子化器 33、ピッチ等化波形符号化器 34、差分ビット演算器 35、及びピッチ情報符号化器 3 6を備えている。
[0144] ピッチ周期等化装置 1, 1 'は、実施例 1, 2に示したピッチ周期等化装置である。リ サンブラ 31は、ピッチ周期等化装置 1, 1 'の出力端子 Out_lから出力される出力音 声信号 X (t)の各ピッチ区間について、同一の標本ィ匕数となるようにリサンプリング out
を行い、等標本数音声信号 X (t)として出力する。
eq
[0145] アナライザ 32は、等標本数音声信号 X (t)について、一定のピッチ区間数で変形 eq
離散コサイン変換(Modified Discrete Cosine Transform:以下「MDCT」という。)を行 い、 n個のサブバンド成分の周波数スペクトル信号 X(f) = {X(f ) , X(f ) , · ··, X(f )
1 2 n
}を生成する。量子化器 33は、周波数スペクトル信号 X(f)を所定の量子化曲線に従 つて量子化する。ピッチ等化波形符号化器 34は、量子化器 33が出力する周波数ス ベクトル信号 X(f)を符号ィ匕し、符号化波形データとして出力する。この符号化には、 ハフマン符号化法や算術符号化法等のエントロピ符号化法が使用される。
[0146] 差分ビット演算器 35は、ピッチ等化波形符号化器 34が出力する符号ィ匕波形デー タの符号量から目的ビット数を減算し差分 (以下「差分ビット数」と 、う。 )を出力する。 量子化器 33は、この差分ビット数によって量子化曲線を平行移動させ、符号化波形 データの符号量が目的ビット数の範囲内となるように調整する。
[0147] ピッチ情報符号化器 36は、ピッチ周期等化装置 1, 1 'が出力する残差周波数信号
Δ V 及び基準周波数信号 AV を符号化し、符号ィ匕ピッチデータとして出力する
。この符号化には、ハフマン符号化法や算術符号化法等のエントロピ符号化法が使 用される。
[0148] 以上のように構成された本実施例に係る音声符号ィ匕装置 30について、以下その動 作を説明する。
[0149] まず、入力音声信号 X (t)が入力端子 Inから入力される。ピッチ周期等化装置 1, 1 in
'は実施例 1で説明したように、入力音声信号 X (t)の波形情報を、
in
(a)有声音か無声音かを示す情報;
(b) 1ピッチ区間の音声波形を表す情報;
(c)基準ピッチ周波数の情報;
(d)各ピッチ区間のピッチ周波数の基準ピッチ周波数力 の偏倚量を表す残差周波 数情報;
に分離し、それぞれ、ノイズフラグ信号 V 、出力音声信号 X (t)、基準周波数信号 noise out
AV 、及び残差周波数信号 Δν として出力する。ノイズフラグ信号 V は出力 pitcn pitcn noise 端子 Out_4力 出力され、出力音声信号 X (t)は出力端子 Out_lから出力され、基 out
準周波数信号 AV は出力端子 Out_3から出力され、残差周波数信号 Δν は出 pitch pitch 力端子 Out_2から出力される。
[0150] 次に、リサンプラ 31は、各ピッチ区間において、基準周波数信号 AV を一定のリ pitch サンプリング数 nで除算することによりリサンプリング周期を計算する。そして、出力音 声信号 X (t)をそのリサンプリング周期によりリサンプリングし、等標本数音声信号 X out e
(t)として出力する。これにより、出力音声信号 X (t)の 1ピッチ区間の標本化数が q out
一定の値とされる。
[0151] 次に、アナライザ 32は、等標本数音声信号 X (t)を、一定のピッチ区間数のサブフ eq
レームに区分する。そして、サブフレーム毎に変形離散コサイン変換を行うことによつ て周波数スペクトル信号 X (f)を生成する。
[0152] ここで、 1つのサブフレームの長さは、 1ピッチ周期の整数倍とされる。本実施例で は、サブフレームの長さは 1ピッチ周期(標本ィ匕数 n)とする。従って、 n個の周波数ス ベクトル信号 {X(f ) , X(f ) , · ··, X(f ) }が出力される。周波数 f は基準周波数の第 1高調波、周波数 f は基準周波数の第 2高調波、周波数 f は基準周波数の第 n高調
2 n
波である。
[0153] このように、 1ピッチ周期の整数倍のサブフレームに分割して各サブフレームを直交 変換することによりサブバンド符号ィ匕を行うことで、音声波形データの周波数スぺタト ル信号は基準周波数の高調波のスペクトルに集約される。そして、音声の性質上、 同一の音素内における連続するピッチ区間の波形は類似する。従って、隣接するサ ブフレーム間で基準周波数の高調波成分のスペクトルは類似する。従って、符号ィ匕 効率は高められる。
[0154] 図 10に各サブバンドのスペクトル強度の時間変化の例を示す。図 10 (a)は日本語 の母音に対する各サブバンドのスペクトル強度の時間変化を示している。下から基準 周波数の第 1高調波、第 2高調波、 ···、第 8高調波の順に示している。図 10 (b)は「 ァラユルゲンジッヲスべテジブンノホウへネジマゲタノダ」と 、う音声信号に対する各 サブバンドのスペクトル強度の時間変化を示している。これも、下から基準周波数の 第 1高調波、第 2高調波、 ···、第 8高調波の順に示している。図 10 (a) (b)は横軸が 時間であり、縦軸力 Sスペクトル強度である。これから分力るように、有声音の各ピッチ 区間では各サブバンドのスペクトル強度は平坦な (DC的な)特性を示す。従って、符 号ィ匕した場合に符号ィ匕効率が高 、ことが容易に分力る。
[0155] 次に、量子化器 33は、周波数スペクトル信号 X(f)を量子化する。ここで、量子化器 33はノイズフラグ信号 V を参照し、ノイズフラグ信号 V 力 SO (有声音)の場合と 1 (
noise noise
無声音)の場合とで量子化曲線を切り換える。
[0156] ノイズフラグ信号 V が 0 (有声音)の場合、量子化曲線は、図 8 (a)に示したように
noise
、周波数が高くなるに従って量子化ビット数が減少するような量子化曲線とされる。こ れは、有声音の周波数特性は、図 5に示したように低周波数域で大きく高周波域に V、くに従って減少する特性を有することに対応させたものである。
[0157] 一方、ノイズフラグ信号 V 力 (無声音)の場合、量子化曲線は、図 8 (b)に示した
noise
ように、周波数が高くなるに従って量子化ビット数が増加するような量子化曲線とされ る。これは、無声音の周波数特性は、図 6に示したように高周波域にいくに従って増 加する特性を有することに対応させたものである。
[0158] この量子化曲線の切り換えにより、有声音か無声音かに対応して最適な量子化曲
線が選択される。
[0159] 尚、補足として、量子化ビット数について説明する。量子化器 33による量子化のデ ータフォーマットは図 9 (a) (b)に示したように、小数点以下の実数部 (FL)及び 2の冪 乗を表す指数部 (EXP)によって表現される。但し、 0以外の数を表す場合において 、実数部 (FL)の先頭の 1ビットは必ず 1であるように指数部 (EXP)が調整されるもの とする。
[0160] 例えば、実数部 (FL)が 4ビット、指数部 (EXP)が 2ビットの場合にぉ 、て、 4ビット で量子化する場合、及び 2ビットで量子化する場合は、次のようになる(図 9(c), (d) 参照)。
[0161] (1)4ビットで量子化する場合
(例 1) X(f)=8=[1000] (但し、 [ ] は 2進数表記を表す。)は、
2 2
FL=[1000], EXP=[100]
2 2
(例 2) X(f)=7=[0100] は、
2
FL=[1110], EXP=[011]
2 2
(例 3) X(f)=3=[1000] は、
2
FL=[1100], EXP=[010]
2 2
[0162] (2) 2ビットで量子化する場合
(例 1) X(f)=8=[1000] は、
2
FL=[1000], EXP=[100]
2 2
(例 2) X(f)=7=[0100] は、
2
FL=[1100] , EXP=[011]
2 2
(例 3) X(f)=3=[1000] は、
2
FL=[1100], EXP=[010]
2 2
[0163] すなわち、 nビットで量子化する場合は、実数部 (FL)の先頭カゝら nビットを残し、残 りのビットは 0とするものとする(図 9 (d)参照)。
[0164] 次に、ピッチ等化波形符号化器 34は、量子化器 33が出力する量子化された周波 数スペクトル信号 X(f)をエントロピ符号化法により符号化し、符号化波形データを出 力する。また、ピッチ等化波形符号化器 34は、符号化波形データの符号量 (ビット数
)を差分ビット演算器 35に出力する。差分ビット演算器 35は、符号化波形データの符 号量から所定の目的ビット数を減算し、差分ビット数を出力する。量子化器 33は、差 分ビット数に応じて、有声音に対する量子化曲線を平行移動的に上下させる。
[0165] 例えば、 {f , f , f , f , f , f }に対する量子化曲線が {6, 5, 4, 3, 2, 1 }であった
1 2 3 4 5 6
とし、差分ビット数として 2が入力されたとすると、量子化器 33は、量子化曲線を下方 に 2だけ平行移動する。その結果、量子化曲線は {4, 3, 2, 1, 0, 0}となる。また、差 分ビット数として— 2が入力されたとすると、量子化器 33は、量子化曲線を上方に 2だ け平行移動する。その結果、量子化曲線は {8, 7, 6, 5, 4, 3}となる。
[0166] このように有声音の量子化曲線を上下に変化させることによって、各サブフレーム の符号化波形データの符号量が目的ビット数程度に調整される。
[0167] 一方、これに並行して、ピッチ情報符号化器 36は、基準周波数信号 AV 及び残 pitch 差周波数信号 Δν を符号化する。
pitcn
[0168] 以上のように、本実施例の音声符号化装置 30によれば、有声音のピッチ周期を等 化し、 1ピッチ周期の整数倍の長さのサブフレームに分割し、これら各サブフレームを 直交変換してサブバンド符号ィ匕することにより、時間的に変化が少ないサブフレーム の周波数スペクトルが時系列的に得られる。従って、高い符号化効率で符号化する ことができる。
実施例 4
[0169] 図 11は、本発明の実施例 4に係る音声復号装置 50の構成を表すブロック図である 。音声復号装置 50は、実施例 3の音声符号化装置 30により符号化された音声信号 を復号する装置である。音声復号装置 50は、ピッチ等化波形復号器 51、逆量子化 器 52、シンセサイザ 53、ピッチ情報復号器 54、ピッチ周波数検出手段 55、差分器 5 6、加算器 57、及び周波数シフタ 58を備えている。
[0170] 音声復号装置 50には、符号ィ匕波形データ及び符号ィ匕ピッチデータが入力される。
符号ィ匕波形データは、図 9のピッチ等化波形符号化器 34から出力される符号ィ匕波 形データである。符号ィ匕ピッチデータは、図 9のピッチ情報符号化器 36から出力され る符号ィ匕ピッチデータである。
[0171] ピッチ等化波形復号器 51は、符号化波形データを復号し、量子化後の各サブバン
ドの周波数スペクトル信号 (以下「量子化周波数スペクトル信号」と 、う。)を復元する
。逆量子化器 52は、この量子化周波数スペクトル信号を逆量子化し、 n個のサブバ ンドの周波数スペクトル信号 X(f) = {X(f ) , X(f ) , · ··, X(f ) }
1 2 n を復元する。
[0172] シンセサイザ 53は、周波数スペクトル信号 X(f)を逆変形離散コサイン変換 (Inverse
Modified Discrete Cosine Transform:以下「IMDCT」という。)し、 1ピッチ区間の時 系列データ (以下「等化音声信号」という。 ) x (t)を生成する。ピッチ周波数検出手 段 55は、この等化音声信号 X (t)のピッチ周波数を検出し等化ピッチ周波数信号 V
eq e として出力する。
[0173] 一方、ピッチ情報復号器 54は、符号ィ匕ピッチデータを復号することにより、基準周 波数信号 AV 及び残差周波数信号 Δν を復元する。差分器 56は、基準周波数
pitch pitcn
信号 AV 力 等化ピッチ周波数信号 V を差し引いた差分を基準周波数変化信号 pitch eq
AAV として出力する。加算器 57は、残差周波数信号 Δν と基準周波数変化 pitch pitch
信号 ΔΑν とを加算してこれを修正残差周波数信号 Δν "として出力する。
pitch pitch
[0174] 周波数シフタ 58は、図 3又は図 4に示した周波数シフタ 4と同様の構成を有する。こ の場合、入力端子 Inには等化音声信号 X (t)が入力され、 VC024には修正残差周 波数信号 Δν "が入力される。 VC024は発信器 21が出力する変調キャリア信号
pitch
C1と同じキャリア周波数の信号を、加算器 57から入力される修正残差周波数信号 AV
tch "により周波数変調して得られる信号 (以下「復調キャリア
pi 信号」という。)を出 力するが、この場合、復調キャリア信号の周波数は、キャリア周波数に残差周波数を 加えた周波数となる。
[0175] これにより、周波数シフタ 58において等化音声信号 X (t)の各ピッチ区間のピッチ 周期に揺らぎ成分が加えられ、音声信号 X (t)
res が復元される。
実施例 5
[0176] 図 12は本発明の実施例 5に係るピッチ周期等化装置 41の構成を表す図である。
本実施例に係るピッチ周期等化装置 41の基本構成は、実施例 2に係るピッチ周期 等化装置 1 'と略同様であるが、基準周波数として一定の周波数を使用する点におい て異なる。
[0177] ピッチ周期等化装置 41は、入力ピッチ検出手段 2、周波数シフタ 4、残差演算手段
6、及び基準周波数発生器 42を備えている。入力ピッチ検出手段 2、周波数シフタ 4 、残差演算手段 6は図 7と同様のものであるため説明は省略する。
[0178] 基準周波数発生器 42は、予め定められた一定の基準周波数信号を発生する。残 差演算手段 6は、入力ピッチ検出手段 2が出力する基本周波数信号 V 力 この基
pitch
準周波数信号 Vを差し引いて、残差周波数信号 Δν を生成する。この残差周波
s pitch
数信号 Δν は周波数シフタ 4にフィードフォアワードされる。あとの構成及び動作
pitch
は実施例 2と同様である。
[0179] この構成によれば、ピッチ周期等化装置 41は、入力音声信号 X (t)の波形情報を
in
(a)有声音か無声音かを示す情報;
(b) 1ピッチ区間の音声波形を表す情報;
(c)各ピッチ区間のピッチ周波数の基準ピッチ周波数力 の偏倚量を表す残差周波 数情報;
に分離し、それぞれ、ノイズフラグ信号 V 、出力音声信号 X (t)、及び残差周波数
noise out
信号 Δν として出力する。実施例 2と異なるのは、基準ピッチ周波数の情報を各ピ
pitch
ツチ区間のピッチ周波数の基準ピッチ周波数力 の偏倚量を表す残差周波数情報 の中に繰り込んだ点である。一般にピッチ周波数はあまり大きな変化はしな 、ため、 このように残差周波数情報の中に繰り込んでも残差周波数信号 Δ V ンジ
pitchのレ はさ ほど大きくはならない。従って、これによつても高い符号ィ匕効率を可能とするピッチ周 期等化装置 41が得られる。
実施例 6
[0180] 図 13は本発明の実施例 6に係るピッチ周期等化装置 41 'の構成を表す図である。
本実施例に係るピッチ周期等化装置 41 'の基本構成は、実施例 1に係るピッチ周期 等化装置 1と略同様であるが、基準周波数として一定の周波数を使用する点におい て異なる。
[0181] ピッチ周期等化装置 41 'は、周波数シフタ 4、出力ピッチ検出手段 5"、残差演算手 段 6、 PIDコントローラ 7、及び基準周波数発生器 42を備えている。周波数シフタ 4、 出力ピッチ検出手段 5"、残差演算手段 6は図 8と同様のものであるため説明は省略
する。また、基準周波数発生器 42は、図 12のものと同様である。
[0182] 基準周波数発生器 42は、予め定められた一定の基準周波数信号を発生する。残 差演算手段 6は、出力ピッチ検出手段 5"が出力する基本周波数信号 V 'からこの
pitch
基準周波数信号 Vを差し引いて、残差周波数信号 Δν を生成する。この残差周
s pitch
波数信号 Δν は PIDコントローラ 7を介して周波数シフタ 4にフィードバックされる。
pitch
あとの構成及び動作は実施例 1と同様である。
[0183] この構成によれば、ピッチ周期等化装置 41 'は、入力音声信号 X (t)の波形情報を
(a)有声音か無声音かを示す情報;
(b) 1ピッチ区間の音声波形を表す情報;
(c)各ピッチ区間のピッチ周波数の基準ピッチ周波数力 の偏倚量を表す残差周波 数情報;
に分離し、それぞれ、ノイズフラグ信号 V 、出力音声信号 X (t)、及び残差周波数
noise out
信号 Δν として出力する。実施例 3と異なるのは、基準ピッチ周波数の情報を各ピ
pitch
ツチ区間のピッチ周波数の基準ピッチ周波数力 の偏倚量を表す残差周波数情報 の中に繰り込んだ点である。一般にピッチ周波数はあまり大きな変化はしな 、ため、 このように残差周波数情報の中に繰り込んでも残差周波数信号 Δ V レンジ
pitchの はさ ほど大きくはならない。従って、これによつても高い符号ィ匕効率を可能とするピッチ周 期等化装置 41 'が得られる。
実施例 7
[0184] 図 14は本発明の実施例 7に係る音声符号ィ匕装置 30'の構成を表す図である。音 声符号化装置 30'は、ピッチ周期等化装置 41, 41 '、アナライザ 32、量子化器 33、 ピッチ等化波形符号化器 34、差分ビット演算器 35、及びピッチ情報符号化器 36 'を 備えている。
[0185] アナライザ 32、量子化器 33、ピッチ等化波形符号化器 34、及び差分ビット演算器 35については実施例 3と同様のものである。また、ピッチ周期等化装置 41, 41 'は、 実施例 5又は実施例 6に係る音声符号化装置 30'である。
[0186] ピッチ周期等化装置 41, 41 'においては、ピッチ周期は常に一定の基準周期 lZf
に等化される。従って、 1ピッチ区間の標本ィ匕数は常に一定であり、実施例 3の音声 s
符号ィ匕装置 30におけるリサンプラ 31は必要ないため省略されている。また、ピッチ周 期は常に一定の基準周期 lZf に等化されるので、ピッチ周期等化装置 41, 41 'は
s
、基準周波数信号 AV を出力しない。従って、ピッチ情報符号化器 36'は残差周
pitch
波数信号 Δν のみを符号化する。
pitch
[0187] 以上のような構成により、ピッチ周期等化装置 41, 41 'を用いた音声符号ィ匕装置 3 0'を実現することができる。この音声符号化装置 30'を実施例 3の音声符号化装置 3 0と比較すると、以下の点で異なる。
[0188] (1)実施例 3の音声符号化装置 30では、基準周波数信号 AV が時間的に多少変
pitch
化するため、出力音声信号 X (t)のリサンプリングが必要であつたのに対し、音声符
out
号化装置 30'は基準周波数信号 Vが常に一定であるためリサンプリングが必要ない
。そのため、装置構成を簡略ィ匕し処理時間を高速ィ匕することができる。
[0189] (2)実施例 3の音声符号化装置 30では、ピッチ情報は、基準周期情報 (基準周波数 信号 AV )と残差周波数情報 (残差周波数信号 Δν )とに分離され、それぞれの pitch pitch
情報について符号化が行われていたのに対し、音声符号化装置 30'では、基準周 期情報は残差周波数情報 (残差周波数信号 Δν )の中に取り込まれ、残差周波数
pitch
情報のみを符号化している。このように基準周期情報 (すなわち、平均ピッチ周波数 の時間変化情報)と残差周波数情報とを分離しない場合、残差周波数信号 Δν の
pitch レンジは実施例 3の場合に比べて多少大きくなる。し力しながら、平均ピッチ周波数 の時間変化は小さいため、残差周波数信号 Δν のレンジが若干大きくなつたとし
pitch
ても残差周波数信号 Δν は依然狭レンジの信号であるため、符号化効率が極端
pitch
に低下することはない。従って、高い符号ィ匕効率を得ることが可能となる。
[0190] (3)音声符号化装置 30'では、各ピッチ区間のピッチ周期を一定の基準周期に強制 的に等化するため、場合によっては入力音声信号 X (t)のピッチ周期と基準周期と
in
の差が大きい場合がある。かかる場合、等化によって若干の歪みが生じる場合がある 。従って、実施例 3の音声符号化装置 30に比べ、符号ィ匕による SNの低下は多少大 きくなる。
実施例 8
[0191] 図 15は、本発明の実施例 8に係る音声復号装置 50'の構成を表すブロック図であ る。音声復号装置 50'は、実施例 7の音声符号化装置 30'により符号化された音声 信号を復号する装置である。音声復号装置 50'は、ピッチ等化波形復号器 51、逆量 子化器 52、シンセサイザ 53、ピッチ情報復号器 54'、及び周波数シフタ 58を備えて いる。このうち、実施例 4と同様のものについては同符号を付してある。
[0192] 音声復号装置 50'には、符号化波形データ及び符号化ピッチデータが入力される 。符号ィ匕波形データは、図 14のピッチ等化波形符号化器 34から出力される符号ィ匕 波形データである。符号ィ匕ピッチデータは、図 14のピッチ情報符号化器 36'から出 力される符号ィ匕ピッチデータである。
[0193] 本実施例の音声復号装置 50'は実施例 4の音声復号装置 50に対してピッチ周波 数検出手段 55、差分器 56、及び加算器 57が省略されている。ピッチ情報復号器 54 'は、符号ィ匕ピッチデータを復号することにより、残差周波数信号 Δν pitchを復元する。 周波数シフタ 58は、シンセサイザ 53が出力する等化音声信号 X (t)の各ピッチ区間 のピッチ周波数を当該ピッチ周波数に残差周波数信号 Δν を加えたものに変換し
pitch
、音声信号 X (t)として復元する。その他の動作に関しては実施例 4と同様である。
res
[0194] 尚、実施例 1〜8までのピッチ周期等化装置 1, 1 '、音声符号化装置 30, 30'、及 び音声復号装置 50, 50'はハードウ ア的に構成する例を示した力 各機能ブロック をプログラムとして構成し、コンピュータに実行させることによってコンピュータを各装 置として機能させる構成としてもょ ヽ。
Claims
[1] 入力される音声信号に対して有声音のピッチ周期を等化するピッチ周期等化装置 であって、
音声信号のピッチ周波数の検出を行うピッチ検出手段;
前記ピッチ周波数力も所定の基準周波数を差し引いた差分である残差周波数を演 算する残差演算手段;
及び、前記残差周波数に基づいて、前記音声信号のピッチ周波数を前記基準周 波数に近づける方向にシフトさせることにより、前記音声信号のピッチ周期を等化す る周波数シフタ;
を備え、
前記周波数シフタは、
前記入力信号を所定の変調波で振幅変調し被変調波を生成する変調手段; 前記被変調波の単側波帯成分の信号のみを選択的に通過させるバンドパスフィル タ;
前記バンドパスフィルタでフィルタリングした被変調波に対して所定の復調波で復 調を行い、出力音声信号として出力する復調手段;
及び、前記変調手段が変調に用いる変調波の周波数及び前記復調手段が復調に 用いる復調波の周波数の何れか一方を所定の基本キャリア周波数とし、他方を前記 基本キャリア周波数力も前記残差周波数を差し引いた周波数に設定する周波数調 整手段;
を備えて 、ることを特徴とするピッチ周期等化装置。
[2] 前記ピッチ検出手段は、
前記周波数シフタに入力される入力音声信号のピッチ周波数 (以下「入力ピッチ周 波数」という。)を検出する入力ピッチ検出手段;
及び前記周波数シフタから出力される出力音声信号のピッチ周波数 (以下「出力ピ ツチ周波数」という。)を検出する出力ピッチ検出手段;
を備え、
前記入力ピッチ周波数の時間平均である平均ピッチ周波数を演算するピッチ平均
手段を備え、
前記残差演算手段は、前記平均ピッチ周波数を基準周波数として、前記出力ピッ チ周波数と当該基準周波数との差分である残差周波数を演算すること
を特徴とする請求項 1記載のピッチ周期等化装置。
[3] 前記ピッチ検出手段は、前記周波数シフタに入力される入力音声信号のピッチ周 波数 (以下「入力ピッチ周波数」という。)を検出する入力ピッチ検出手段であり、 前記入力ピッチ周波数の時間平均である平均ピッチ周波数を演算するピッチ平均 手段を備え、
前記残差演算手段は、前記平均ピッチ周波数を基準周波数として、前記入力ピッ チ周波数と当該基準周波数との差分である残差周波数を演算すること
を特徴とする請求項 1記載のピッチ周期等化装置。
[4] 前記ピッチ検出手段は、前記周波数シフタカ 出力される出力音声信号のピッチ 周波数 (以下「出力ピッチ周波数」という。)を検出する出力ピッチ検出手段であり、 前記出力ピッチ周波数の時間平均である平均ピッチ周波数を演算するピッチ平均 手段を備え、
前記残差演算手段は、前記平均ピッチ周波数を基準周波数として、前記出力ピッ チ周波数と当該基準周波数との差分である残差周波数を演算すること
を特徴とする請求項 1記載のピッチ周期等化装置。
[5] 前記ピッチ検出手段は、前記周波数シフタに入力される入力音声信号のピッチ周 波数 (以下「入力ピッチ周波数」という。)を検出する入力ピッチ検出手段であり、 前記基準周波数を出力する基準周波数発生手段を備え、
前記残差演算手段は、前記入力ピッチ周波数と前記基準周波数との差分である残 差周波数を演算すること
を特徴とする請求項 1記載のピッチ周期等化装置。
[6] 前記ピッチ検出手段は、前記周波数シフタカ 出力される出力音声信号のピッチ 周波数 (以下「出力ピッチ周波数」という。)を検出する出力ピッチ検出手段であり、 前記基準周波数を出力する基準周波数発生手段を備え、
前記残差演算手段は、前記出力ピッチ周波数と前記基準周波数との差分である残
差周波数を演算すること
を特徴とする請求項 1記載のピッチ周期等化装置。
[7] 入力される音声信号を符号化する音声符号化装置であって、
前記音声信号に対して有声音のピッチ周期を等化する請求項 1乃至 6の何れか一 記載のピッチ周期等化装置;
及び、前記ピッチ周期等化装置が出力する音声信号 (以下「ピッチ等化音声信号」 という。 )に対して、一定のピッチ数区間で直交変換を行い、各サブバンドの変換係 数データを生成する直交変換手段;
を備えた音声符号化装置。
[8] 前記ピッチ周期等化装置が出力する前記ピッチ等化音声信号に対して、 1ピッチ区 間のサンプリング数が一定となるようにリサンプリングを行うリサンプリング手段を備え て!ヽることを特徴とする請求項 7記載の音声符号化装置。
[9] 原音声信号に対しピッチ周波数が所定の基準周波数に等化され、直交変換により サブバンド成分に分解されたピッチ等化音声信号、及び前記原音声信号のピッチ周 波数力も前記基準周波数を差し引いた差分である残差周波数信号に基づいて前記 原音声信号を復号する音声復号装置であって、
一定のピッチ数区間で直交変換されたピッチ等化音声信号に対し逆直交変換を行 うことによりピッチ等化音声信号を復元する逆直交変換手段;
及び、前記ピッチ等化音声信号のピッチ周波数を前記基準周波数に前記残差周 波数を加えた周波数に近づける方向にシフトさせることにより、前記復元音声信号を 生成する周波数シフタ;
を備え、
前記周波数シフタは、
前記ピッチ等化音声信号を所定の変調波で振幅変調し被変調波を生成する変調 手段;
前記被変調波の単側波帯成分の信号のみを選択的に通過させるバンドパスフィル タ;
前記バンドパスフィルタでフィルタリングした被変調波に対して所定の復調波で復
調を行い、復元音声信号として出力する復調手段;
及び、前記変調手段が変調に用いる変調波の周波数及び前記復調手段が復調に 用いる復調波の周波数の何れか一方を所定の基本キャリア周波数とし、他方を前記 基本キャリア周波数に前記残差周波数を加えた値に設定する周波数調整手段; を備えて 、ることを特徴とする音声復号装置。
[10] 入力される音声信号 (以下「入力音声信号」という。 )に対して有声音のピッチ周期 を等化するピッチ周期等化方法であって、
前記入力音声信号を周波数シフタに入力し、前記周波数シフタからの出力信号( 以下「出力音声信号」 t 、う。 )を得る周波数シフトステップ;
前記出力音声信号のピッチ周波数 (以下「出力ピッチ周波数」という。)を検出する 出力ピッチ検出ステップ;
前記出力ピッチ周波数力も所定の基準周波数を差し引いた差分である残差周波 数を演算する残差周波数演算ステップ;
及び、前記出力ピッチ周波数と所定の基準周波数との差分である残差周波数を演 算する残差周波数演算ステップ;
を有し、
前記周波数シフトステップにおいては、
変調に用 、る変調波の周波数及び復調に用 、る復調波の周波数の何れか一方を 所定の基本キャリア周波数とし、他方を前記基本キャリア周波数から前記残差周波 数演算ステップにおいて算出される前記残差周波数を差し引いた周波数に設定す る周波数設定ステップ;
前記入力音声信号を前記変調波で振幅変調し被変調波を生成する変調ステップ; 前記被変調波の単側波帯成分のみを通過させるバンドパスフィルタにより、前記被 変調波をフィルタリングする帯域縮小ステップ;
前記バンドパスフィルタでフィルタリングした被変調波に対して前記復調波で復調を 行い、出力音声信号として出力する復調ステップ;
を有することを特徴とするピッチ周期等化方法。
[11] 前記出力ピッチ周波数の時間平均である平均ピッチ周波数を演算するピッチ平均
化ステップ;
を有し、
前記残差周波数演算ステップにおいては、前記出力ピッチ周波数と前記平均ピッ チ周波数との差分を演算し、これを前記残差周波数とすること
を特徴とする請求項 10記載のピッチ周期等化方法。
[12] 前記入力音声信号のピッチ周波数 (以下「入力ピッチ周波数」という。)を検出する 入力ピッチ検出ステップ;
前記入力ピッチ周波数の時間平均である平均ピッチ周波数を演算するピッチ平均 化ステップ;
を有し、
前記残差周波数演算ステップにおいては、前記出力ピッチ周波数と前記平均ピッ チ周波数との差分を演算し、これを前記残差周波数とすること
を特徴とする請求項 10記載のピッチ周期等化方法。
[13] 入力される音声信号 (以下「入力音声信号」という。 )に対して有声音のピッチ周期 を等化するピッチ周期等化方法であって、
前記入力音声信号のピッチ周波数 (以下「入力ピッチ周波数」と!、う。 )を検出する 入力ピッチ検出ステップ;
前記入力音声信号を周波数シフタに入力し、前記周波数シフタからの出力信号( 以下「出力音声信号」 t 、う。 )を得る周波数シフトステップ;
及び、前記入力ピッチ周波数力も所定の基準周波数を差し引いた差分である残差 周波数を演算する残差周波数演算ステップ;
を有し、
前記周波数シフトステップにおいては、
変調に用 、る変調波の周波数及び復調に用 、る復調波の周波数の何れか一方を 所定の基本キャリア周波数とし、他方を前記基本キャリア周波数から前記残差周波 数演算ステップにおいて算出される前記残差周波数を差し引いた周波数に設定す る周波数設定ステップ;
前記入力音声信号を前記変調波で振幅変調し被変調波を生成する変調ステップ;
前記被変調波の単側波帯成分のみを通過させるバンドパスフィルタにより、前記被 変調波をフィルタリングする帯域縮小ステップ;
前記バンドパスフィルタでフィルタリングした被変調波に対して前記復調波で復調を 行い、出力音声信号として出力する復調ステップ;
を有することを特徴とするピッチ周期等化方法。
[14] 前記入力ピッチ周波数の時間平均である平均ピッチ周波数を演算するピッチ平均 化ステップ;
を有し、
前記残差周波数演算ステップにおいては、前記入力ピッチ周波数と前記平均ピッ チ周波数との差分を演算し、これを前記残差周波数とすること
を特徴とする請求項 13記載のピッチ周期等化方法。
[15] 入力される音声信号を符号化する音声符号化方法であって、
請求項 10乃至 14の何れか一記載のピッチ周期等化方法により、前記音声信号に 対して有声音のピッチ周期を等化するピッチ周期等化ステップ;
前記ピッチ周期等化ステップで等化された音声信号 (以下「ピッチ等化音声信号」と いう。 )に対して、一定のピッチ数区間で直交変換を行い、各サブバンドの変換係数 データを生成する直交変換ステップ;
及び、前記変換係数データを符号ィ匕する波形符号化ステップ;
を備えた音声符号化方法。
[16] 前記ピッチ周期等化ステップにおいて等化された前記ピッチ等化音声信号に対し て、 1ピッチ区間のサンプリング数が一定となるようにリサンプリングを行うリサンプリン グステップ
を備えていることを特徴とする請求項 14記載の音声符号ィ匕方法。
[17] コンピュータで実行することにより、前記コンピュータを請求項 1乃至 6の何れか一 記載のピッチ周期等化装置として機能させるプログラム。
[18] コンピュータで実行することにより、前記コンピュータを請求項 7又は 8記載の音声 符号ィ匕装置として機能させるプログラム。
[19] コンピュータで実行することにより、前記コンピュータを請求項 9記載の音声復号装
置として機能させるプログラム。
Priority Applications (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
EP06729916.4A EP1876587B1 (en) | 2005-04-22 | 2006-03-24 | Pitch period equalizing apparatus, pitch period equalizing method, speech encoding apparatus, speech decoding apparatus, speech encoding method and computerprogram products |
US11/918,958 US7957958B2 (en) | 2005-04-22 | 2006-03-24 | Pitch period equalizing apparatus and pitch period equalizing method, and speech coding apparatus, speech decoding apparatus, and speech coding method |
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2005125815A JP4599558B2 (ja) | 2005-04-22 | 2005-04-22 | ピッチ周期等化装置及びピッチ周期等化方法、並びに音声符号化装置、音声復号装置及び音声符号化方法 |
JP2005-125815 | 2005-04-22 |
Publications (1)
Publication Number | Publication Date |
---|---|
WO2006114964A1 true WO2006114964A1 (ja) | 2006-11-02 |
Family
ID=37214595
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
PCT/JP2006/305968 WO2006114964A1 (ja) | 2005-04-22 | 2006-03-24 | ピッチ周期等化装置及びピッチ周期等化方法、並びに音声符号化装置、音声復号装置及び音声符号化方法 |
Country Status (4)
Country | Link |
---|---|
US (1) | US7957958B2 (ja) |
EP (1) | EP1876587B1 (ja) |
JP (1) | JP4599558B2 (ja) |
WO (1) | WO2006114964A1 (ja) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2014084162A1 (ja) * | 2012-11-27 | 2014-06-05 | 国立大学法人九州工業大学 | 信号雑音除去装置、その方法及びプログラム |
Families Citing this family (23)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20070270987A1 (en) * | 2006-05-18 | 2007-11-22 | Sharp Kabushiki Kaisha | Signal processing method, signal processing apparatus and recording medium |
KR101412255B1 (ko) * | 2006-12-13 | 2014-08-14 | 파나소닉 인텔렉츄얼 프로퍼티 코포레이션 오브 아메리카 | 부호화 장치, 복호 장치 및 이들의 방법 |
JPWO2008072733A1 (ja) * | 2006-12-15 | 2010-04-02 | パナソニック株式会社 | 符号化装置および符号化方法 |
EP2107556A1 (en) * | 2008-04-04 | 2009-10-07 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Audio transform coding using pitch correction |
US20090319263A1 (en) * | 2008-06-20 | 2009-12-24 | Qualcomm Incorporated | Coding of transitional speech frames for low-bit-rate applications |
US20090319261A1 (en) * | 2008-06-20 | 2009-12-24 | Qualcomm Incorporated | Coding of transitional speech frames for low-bit-rate applications |
US8768690B2 (en) * | 2008-06-20 | 2014-07-01 | Qualcomm Incorporated | Coding scheme selection for low-bit-rate applications |
CN102016530B (zh) * | 2009-02-13 | 2012-11-14 | 华为技术有限公司 | 一种基音周期检测方法和装置 |
US8522074B2 (en) * | 2009-10-29 | 2013-08-27 | Cleversafe, Inc. | Intentionally introduced storage deviations in a dispersed storage network |
US8983829B2 (en) | 2010-04-12 | 2015-03-17 | Smule, Inc. | Coordinating and mixing vocals captured from geographically distributed performers |
US9236063B2 (en) | 2010-07-30 | 2016-01-12 | Qualcomm Incorporated | Systems, methods, apparatus, and computer-readable media for dynamic bit allocation |
US9208792B2 (en) | 2010-08-17 | 2015-12-08 | Qualcomm Incorporated | Systems, methods, apparatus, and computer-readable media for noise injection |
JP5723568B2 (ja) * | 2010-10-15 | 2015-05-27 | 日本放送協会 | 話速変換装置及びプログラム |
JP2013073230A (ja) * | 2011-09-29 | 2013-04-22 | Renesas Electronics Corp | オーディオ符号化装置 |
US20130275126A1 (en) * | 2011-10-11 | 2013-10-17 | Robert Schiff Lee | Methods and systems to modify a speech signal while preserving aural distinctions between speech sounds |
CN103296971B (zh) * | 2013-04-28 | 2016-03-09 | 中国人民解放军95989部队 | 一种产生调频信号的方法和装置 |
US9418671B2 (en) * | 2013-08-15 | 2016-08-16 | Huawei Technologies Co., Ltd. | Adaptive high-pass post-filter |
US9372925B2 (en) | 2013-09-19 | 2016-06-21 | Microsoft Technology Licensing, Llc | Combining audio samples by automatically adjusting sample characteristics |
US9280313B2 (en) | 2013-09-19 | 2016-03-08 | Microsoft Technology Licensing, Llc | Automatically expanding sets of audio samples |
US9798974B2 (en) | 2013-09-19 | 2017-10-24 | Microsoft Technology Licensing, Llc | Recommending audio sample combinations |
US9257954B2 (en) * | 2013-09-19 | 2016-02-09 | Microsoft Technology Licensing, Llc | Automatic audio harmonization based on pitch distributions |
KR102251833B1 (ko) | 2013-12-16 | 2021-05-13 | 삼성전자주식회사 | 오디오 신호의 부호화, 복호화 방법 및 장치 |
JP6704608B2 (ja) * | 2016-02-08 | 2020-06-03 | 富士ゼロックス株式会社 | 端末装置、診断システムおよびプログラム |
Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH0380300A (ja) * | 1989-08-23 | 1991-04-05 | Nec Corp | 音声合成方法 |
Family Cites Families (15)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2773942B2 (ja) | 1989-12-27 | 1998-07-09 | 田中貴金属工業株式会社 | パラジウムの溶解方法 |
JP3199128B2 (ja) | 1992-04-09 | 2001-08-13 | 日本電信電話株式会社 | 音声の符号化方法 |
DE69328450T2 (de) * | 1992-06-29 | 2001-01-18 | Nippon Telegraph And Telephone Corp., Tokio/Tokyo | Verfahren und Vorrichtung zur Sprachkodierung |
JPH08202395A (ja) * | 1995-01-31 | 1996-08-09 | Matsushita Electric Ind Co Ltd | ピッチ変換方法およびその装置 |
US5774837A (en) * | 1995-09-13 | 1998-06-30 | Voxware, Inc. | Speech coding system and method using voicing probability determination |
US7272556B1 (en) * | 1998-09-23 | 2007-09-18 | Lucent Technologies Inc. | Scalable and embedded codec for speech and audio signals |
US7423983B1 (en) * | 1999-09-20 | 2008-09-09 | Broadcom Corporation | Voice and data exchange over a packet based network |
US7039581B1 (en) * | 1999-09-22 | 2006-05-02 | Texas Instruments Incorporated | Hybrid speed coding and system |
SE519985C2 (sv) * | 2000-09-15 | 2003-05-06 | Ericsson Telefon Ab L M | Kodning och avkodning av signaler från flera kanaler |
US7363219B2 (en) * | 2000-09-22 | 2008-04-22 | Texas Instruments Incorporated | Hybrid speech coding and system |
US20020184009A1 (en) * | 2001-05-31 | 2002-12-05 | Heikkinen Ari P. | Method and apparatus for improved voicing determination in speech signals containing high levels of jitter |
DE02765393T1 (de) * | 2001-08-31 | 2005-01-13 | Kabushiki Kaisha Kenwood, Hachiouji | Vorrichtung und verfahren zum erzeugen eines tonhöhen-kurvenformsignals und vorrichtung und verfahren zum komprimieren, dekomprimieren und synthetisieren eines sprachsignals damit |
JP3955967B2 (ja) | 2001-09-27 | 2007-08-08 | 株式会社ケンウッド | 音声信号雑音除去装置、音声信号雑音除去方法及びプログラム |
JP3976169B2 (ja) | 2001-09-27 | 2007-09-12 | 株式会社ケンウッド | 音声信号加工装置、音声信号加工方法及びプログラム |
JP3881932B2 (ja) | 2002-06-07 | 2007-02-14 | 株式会社ケンウッド | 音声信号補間装置、音声信号補間方法及びプログラム |
-
2005
- 2005-04-22 JP JP2005125815A patent/JP4599558B2/ja active Active
-
2006
- 2006-03-24 EP EP06729916.4A patent/EP1876587B1/en not_active Ceased
- 2006-03-24 US US11/918,958 patent/US7957958B2/en not_active Expired - Fee Related
- 2006-03-24 WO PCT/JP2006/305968 patent/WO2006114964A1/ja active Application Filing
Patent Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH0380300A (ja) * | 1989-08-23 | 1991-04-05 | Nec Corp | 音声合成方法 |
Non-Patent Citations (3)
Title |
---|
KANNO T. ET AL.: "Iso Joho o Mochiiru Onsei Bunseki Goseikei no Ongen Seiseiho", IEICE TECHNICAL REPORT UONSEI], SP91-80, vol. 91, no. 347, 22 November 1991 (1991-11-22), pages 31 - 36, XP008099205 * |
LIN C-H. ET AL.: "New refinement schemes for voice conversion", MULTIMEDIA AND EXPO, vol. 2, 2003, pages II-725 - II-728, XP010650574 * |
See also references of EP1876587A4 * |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2014084162A1 (ja) * | 2012-11-27 | 2014-06-05 | 国立大学法人九州工業大学 | 信号雑音除去装置、その方法及びプログラム |
Also Published As
Publication number | Publication date |
---|---|
JP2006301464A (ja) | 2006-11-02 |
EP1876587B1 (en) | 2016-02-24 |
US20090299736A1 (en) | 2009-12-03 |
JP4599558B2 (ja) | 2010-12-15 |
US7957958B2 (en) | 2011-06-07 |
EP1876587A4 (en) | 2008-10-01 |
EP1876587A1 (en) | 2008-01-09 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP4599558B2 (ja) | ピッチ周期等化装置及びピッチ周期等化方法、並びに音声符号化装置、音声復号装置及び音声符号化方法 | |
KR101747918B1 (ko) | 고주파수 신호 복호화 방법 및 장치 | |
KR101373004B1 (ko) | 고주파수 신호 부호화 및 복호화 장치 및 방법 | |
EP0770985B1 (en) | Signal encoding method and apparatus | |
JP5467098B2 (ja) | オーディオ信号をパラメータ化された表現に変換するための装置および方法、パラメータ化された表現を修正するための装置および方法、オーディオ信号のパラメータ化された表現を合成するための装置および方法 | |
JP4842538B2 (ja) | 合成発話の周波数選択的ピッチ強調方法およびデバイス | |
JP3557662B2 (ja) | 音声符号化方法及び音声復号化方法、並びに音声符号化装置及び音声復号化装置 | |
CN101518083B (zh) | 通过使用带宽扩展和立体声编码对音频信号编码和/或解码的方法和系统 | |
EP0837453B1 (en) | Speech analysis method and speech encoding method and apparatus | |
KR100452955B1 (ko) | 음성부호화방법, 음성복호화방법, 음성부호화장치, 음성복호화장치, 전화장치, 피치변환방법 및 매체 | |
KR20080101873A (ko) | 부호화/복호화 장치 및 방법 | |
JP2002023800A (ja) | マルチモード音声符号化装置及び復号化装置 | |
US20030088402A1 (en) | Method and system for low bit rate speech coding with speech recognition features and pitch providing reconstruction of the spectral envelope | |
JP2000132193A (ja) | 信号符号化装置及び方法、並びに信号復号装置及び方法 | |
JP4438280B2 (ja) | トランスコーダ及び符号変換方法 | |
KR20070008211A (ko) | 스케일러블 대역 확장 음성 부호화/복호화 방법 및 장치 | |
KR20080034819A (ko) | 부호화/복호화 장치 및 방법 | |
KR100682966B1 (ko) | 주파수 크기데이터 양자화/역양자화 방법 및 장치와 이를이용한 오디오 부호화/복호화 방법 및 장치 | |
EP0987680A1 (en) | Audio signal processing | |
KR100221185B1 (ko) | 음성 부호화 및 복호화 장치와 그 방법 | |
KR100221186B1 (ko) | 음성 부호화 및 복호화 장치와 그 방법 | |
Bartkowiak | Low bit rate coding of sparse audio spectra using frequency shift and interleaved MDCT | |
KR20080034817A (ko) | 부호화/복호화 장치 및 방법 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
121 | Ep: the epo has been informed by wipo that ep was designated in this application | ||
WWE | Wipo information: entry into national phase |
Ref document number: 11918958 Country of ref document: US |
|
NENP | Non-entry into the national phase |
Ref country code: DE |
|
WWE | Wipo information: entry into national phase |
Ref document number: 2006729916 Country of ref document: EP |
|
NENP | Non-entry into the national phase |
Ref country code: RU |
|
WWP | Wipo information: published in national office |
Ref document number: 2006729916 Country of ref document: EP |