WO1998006091A1 - Codec vocal, support sur lequel est enregistre un programme codec vocal, et appareil mobile de telecommunications - Google Patents

Codec vocal, support sur lequel est enregistre un programme codec vocal, et appareil mobile de telecommunications Download PDF

Info

Publication number
WO1998006091A1
WO1998006091A1 PCT/JP1997/002703 JP9702703W WO9806091A1 WO 1998006091 A1 WO1998006091 A1 WO 1998006091A1 JP 9702703 W JP9702703 W JP 9702703W WO 9806091 A1 WO9806091 A1 WO 9806091A1
Authority
WO
WIPO (PCT)
Prior art keywords
pitch
pulse
sound source
search
celp
Prior art date
Application number
PCT/JP1997/002703
Other languages
English (en)
French (fr)
Inventor
Hiroyuki Ehara
Toshiyuki Morii
Original Assignee
Matsushita Electric Industrial Co., Ltd.
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Priority claimed from JP03672697A external-priority patent/JP4063911B2/ja
Application filed by Matsushita Electric Industrial Co., Ltd. filed Critical Matsushita Electric Industrial Co., Ltd.
Priority to EP97933895A priority Critical patent/EP0858069B1/en
Priority to DE69737012T priority patent/DE69737012T2/de
Priority to AU37085/97A priority patent/AU3708597A/en
Priority to US09/051,137 priority patent/US6226604B1/en
Publication of WO1998006091A1 publication Critical patent/WO1998006091A1/ja

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/08Determination or coding of the excitation function; Determination or coding of the long-term prediction parameters
    • G10L19/12Determination or coding of the excitation function; Determination or coding of the long-term prediction parameters the excitation function being a code excitation, e.g. in code excited linear prediction [CELP] vocoders
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L2019/0001Codebooks
    • G10L2019/0004Design or structure of the codebook
    • G10L2019/0005Multi-stage vector quantisation

Definitions

  • the present invention relates to a CELP (Code Excited Linear Prediction) type speech encoding apparatus, a CELP type speech decoding apparatus, and a mobile communication apparatus in a mobile communication system or the like for encoding and transmitting an audio signal.
  • CELP Code Excited Linear Prediction
  • the adaptive code vector is selected from the adaptive codebook 1
  • the pitch period L is output
  • the random code vector selected from the random codebook 2 is converted into the pitch period by the periodizer 3.
  • Periodized using L the noise code vector is cut out from the beginning by the pitch period, This is done by connecting multiple times until the subframe length is reached.
  • the pitch period component remaining after removing the adaptive code vector component is calculated using the noise code vector as the pitch period. Since it is removed by cycling, it does not actively use the phase information that exists in one pitch waveform, that is, the information about where the pitch pulse beak exists, which is a limitation in improving voice quality. was there.
  • the present invention solves such a conventional problem, and an object of the present invention is to provide a speech encoding device capable of further improving speech quality. Disclosure of the invention
  • the present invention also uses a noise code vector limited only to the vicinity of a pitch beak of an adaptive code vector, so that sound quality degradation is reduced even when the number of bits allocated to the noise code vector is small. It is the one that was made.
  • the present invention also limits the search range of the pulse position using the pitch beak position and the pitch period of the adaptive code vector, thereby reducing sound quality degradation even when the number of bits representing the pulse position is small.
  • the search range was narrowed.
  • the invention also relates to the position of the pitch beak and the pitch period of the adaptive code vector.
  • the search range of the pulse position is limited by using, the sound quality of the voiced part of the voice with a short pitch period is improved by making the pulse position search accuracy of the 1-2 pitch waveform particularly fine. is there.
  • the sound quality is improved by changing the number of pulses of the pulse sound source according to the value of the pitch period.
  • sound quality is improved by performing a pulse sound source search after previously determining the pulse amplitudes in the vicinity of the pitch peak position of the adaptive code vector and other portions.
  • the present invention also improves the voice quality by performing control to switch the search position of the pulse sound source using the quantized pitch period information or the quantized pitch gain information in the immediately preceding subframe or the current subframe. It is like that.
  • the present invention also determines the continuity of the phase between subframes in the backward direction, and applies the phase adaptation process only to the subframes determined to be continuous in phase, so that the amount of information to be transmitted is not increased. In this case, the phase adaptation processing is switched to improve the sound quality. If the fixed codebook is used when the phase adaptation process is not performed, it is possible to obtain the effect of preventing propagation of a transmission path error.
  • the present invention determines whether or not to apply the phase adaptation processing based on the degree of signal power concentration near the pitch peak position in the adaptive code vector, thereby increasing the phase without increasing the amount of information to be transmitted. It switches adaptive processing to improve speech quality. Note that the phase If a fixed codebook is used when adaptive processing is not performed, it is possible to obtain the effect of preventing propagation of transmission path errors.
  • the present invention also provides a CELP-type speech coding apparatus that searches for a sound source pulse at a relative position from a bit peak position. This is to prevent the effect of the generated transmission line error from propagating to subsequent frames without transmission line errors.
  • the present invention also provides a CELP-type speech coding apparatus that searches for a sound source pulse at a relative position from a bit peak position, in which a pulse position is indexed sequentially from the head of a subframe, and a different pulse having the same index is assigned. Also, by assigning pulse numbers sequentially from the beginning of the subframe, the effect of a transmission line error generated in one frame is prevented from propagating to the subsequent frame without transmission line error. It is.
  • the present invention also provides a CELP-type speech coding apparatus that performs a sound source pulse search at a relative position from a pitch peak position, wherein not all of the pulse search positions are represented by relative positions, but only a part near the bite peak is represented by relative positions. In other words, the remaining part is set at a predetermined fixed position so as to prevent the effect of the transmission path error occurring in one frame from propagating to the subsequent transmission-free frame. It was made.
  • the present invention also includes means for searching for a pitch beak position in a signal having a cut out pitch of the pitch, instead of searching for a peak peak position for the entire target signal when obtaining a pitch beak position.
  • searching for a pitch beak position in a signal having a cut out pitch of the pitch instead of searching for a peak peak position for the entire target signal when obtaining a pitch beak position.
  • the present invention also relates to a part where the pitch period is continuous between subframes, That is, in the part considered to be a voiced stationary part, the bit-victory position in the current sub-frame is predicted using the pitch peak position in the immediately preceding sub-frame, the pitch period in the immediately preceding sub-frame, and the pitch period in the current sub-frame.
  • the pitch beak position can be extracted so that the phase discontinuity does not occur in the voiced stationary part. It was done.
  • the present invention also has a subframe length of about 10 ms or more, and a relatively small amount of information, such as about 15 bits per subframe, allocated to the noise codebook.
  • a mode in which the number of pulses is reduced to obtain sufficient positional information for each pulse and a mode in which the number of pulses is increased instead of coarsening the positional information of each pulse.
  • the invention according to claim 1 is a CELP-type speech coding apparatus provided with a sound source generation unit that emphasizes the amplitude of a noise code vector corresponding to a pitch beak position of an adaptive code vector, and includes: The sound quality can be improved using the phase information existing in the sound.
  • the invention according to claim 2 is the speech encoding device according to claim 1, wherein the speech generation unit multiplies the noise enhancement vector by an amplitude emphasis window synchronized with a pitch period of the adaptive code vector. It emphasizes the amplitude of the noise code vector corresponding to the position of the bitch-beat in the adaptive code vector, and enhances the sound quality by emphasizing the amplitude of the noise source vector in synchronization with the bit cycle. Can be planned.
  • the audio generation unit uses a triangular window centered on a pitch beak position of the adaptive code vector as an amplitude emphasis window. It is possible to easily control the amplitude emphasis window length.
  • the invention according to claim 4 is the CELP-type speech coding apparatus, wherein the speech coding apparatus includes a sound source generation unit that uses a noise code vector limited only to the vicinity of a pitch peak of an adaptive code vector.
  • a noise code vector limited only to the vicinity of the pitch code of the adaptive code vector even when the number of bits allocated to the noise code vector is small, deterioration in sound quality can be reduced and the vicinity of the pitch pulse can be reduced. The sound quality can be improved in a voiced part where the residual power is concentrated in the voice.
  • the invention according to claim 5 is a CELP-type speech coding apparatus that uses a pulse excitation as a noise codebook, and further includes an excitation generation unit that determines a search range of a pulse position based on a pitch period and a pitch beak position of the adaptive code vector. This makes it possible to reduce sound quality degradation even when the number of bits allocated to pulse positions is small.
  • the sound source generation unit determines a pulse position of the adaptive code vector so as to be dense near a pitch beak position and sparse in other portions.
  • the search range is determined, and a portion where the probability of generating a pulse is increased is finely searched, so that sound can be improved.
  • the invention according to claim 9 is the CELP-type speech coding apparatus, wherein the speech coding apparatus includes a sound source generation unit that switches a noise codebook according to a speech analysis result. Since switching can be performed, voice quality can be improved.
  • the invention according to claim 14 is the speech encoding apparatus according to claim 13, wherein the number of pulses is switched between a case where the change of the pitch period between consecutive subframes is small and a case where the change is not so. Since the number of pulses used in the rising part and the steady part of the voiced part is switched, the voice quality can be improved.
  • the invention according to claim 15 is the noise code vector generation unit using a pulse sound source as the noise sound source, wherein the pulse amplitude is determined prior to the pulse position search.
  • the speech encoding device according to any one of the claims, wherein the pulse sound source has amplitude variations, thereby improving speech quality. Further, since the amplitude is determined before searching for a pulse, an optimum pulse position can be determined for the amplitude.
  • the invention according to claim 16 is the noise code vector generating section using a pulse sound source as a noise sound source, wherein the pulse amplitude is changed near the pitch peak of the adaptive code vector and at other parts.
  • the speech coding apparatus described in the above section changes the amplitudes of the sound source signal near the pitch beak and other portions, so that the shape of the pitch structure of the sound source signal can be efficiently expressed, thereby improving the sound quality and improving the pulse amplitude information. The efficiency of quantization can be improved.
  • the invention according to claim 17 is the speech encoding apparatus according to claim 13, wherein the number of pulses of the pulse sound source to be used is determined based on the pitch cycle, either statistically or by learning. Statistical number Since it is determined by the target or other learning methods, the voice quality can be improved.
  • the invention according to claim 18 is a CELP-type speech coding apparatus, comprising: a sound source generation unit that performs multi-stage quantization of pitch gain, wherein a value obtained immediately after an adaptive codebook search is used as a quantization target in a first stage. In the second and subsequent stages, this is a speech coding device that uses the difference between the pitch gain determined in the closed-loop search and the value quantized in the first stage as the quantization target after all sound source searches have been completed.
  • a CELP-type speech coder that generates a driving excitation vector using the sum of a book and a fixed codebook (noise codebook)
  • information obtained before searching for a fixed codebook (noise codebook) is quantized and transmitted. Therefore, it is possible to switch between fixed codebooks (noise codebooks) without adding independent mode information, and it is possible to encode speech information efficiently.
  • the invention according to claim 19 is characterized in that the speech coding apparatus according to claim 18 has a configuration in which a fixed codebook is switched using a quantization value of a bit gain obtained immediately after an adaptive codebook search.
  • the invention according to claim 20 is the speech encoding apparatus according to any one of claims 9 to 12, and 15 to 19, wherein the fixed codebook is switched based on a change in pitch period between subframes. By using the continuity between subframes of the pitch period, etc., it is determined whether or not the voiced / voiced stationary part is present. Standing The sound quality can be improved by switching to a sound source that is effective for the rising part (such as a rising part).
  • the invention according to claim 21 switches the fixed codebook using the pitch gain quantized in the immediately preceding subframe, and the speech code according to any one of claims 9 to 12 and 15 to 17 It uses a continuity between pitch gain sub-frames to determine whether it is a voiced / voiced stationary part, and determines whether a sound source is effective for the voiced / voiced stationary part and other By switching to a sound source that is effective for the part (silent, rising part, etc.), the sound quality can be improved.
  • the invention according to claim 22 switches the fixed codebook based on a change in pitch period between subframes and a quantized pitch gain, and the speech according to any one of claims 9 to 12 and 15 to 17 It is an encoding device that determines whether it is a voiced / voiced stationary part using information on the pitch period and pitch gain, which are the transmission parameters, and determines whether the sound source is valid for the voiced / voiced stationary part and other The sound quality can be improved by switching to a sound source that is effective in the part (voiceless part, rising part, etc.).
  • the invention according to claim 24 is a CELP-type speech coding apparatus that performs a speech coding process for each subframe having a predetermined time length, wherein the phase in the current subframe and the phase in the immediately preceding subframe are continuous.
  • a speech encoding device that switches between a sound source used when it is determined that the sound is continuous and a sound source that is used when it is determined that the sound is not continuous, A sound source configuration in which the voiced (stationary) part and the other part are separated can be realized, and the sound quality can be improved.
  • the invention according to claim 25 predicts a peak position in the current subframe using a pitch peak position in the immediately preceding subframe, a pitch period in the immediately preceding subframe, and a pitch period in the current subframe, Depending on whether the predicted beak position in the current subframe obtained by this prediction is close to the pitch beak position obtained from only the data in the current subframe, the phase in the immediately preceding subframe and the current.
  • the CELP-type speech encoding apparatus according to claim 24, wherein it is determined whether or not the phase in the subframe is continuous, and the excitation processing method is switched according to the determination result. Since the judgment result is obtained using the information to be determined, the judgment result is transmitted to the new transmission information. There is no need to transmit using information.
  • the phase adaptive processing is performed on the noise codebook
  • the invention according to claim 27 is a CELP-type speech coding apparatus that performs a speech coding process for each subframe having a predetermined time length.
  • This is a speech encoding device that switches the encoding processing method of a sound source signal based on the degree of concentration of a signal pattern near a pitch beak of an adaptive code vector in a frame. Therefore, it is possible to adaptively switch the sound source configuration without requiring new transmission information.
  • the invention according to claim 28 is characterized in that, if the ratio of the signal power in the vicinity of the pitch beak of the adaptive code vector in the current subframe to the entire signal of one pitch period length is equal to or greater than a predetermined value, the phase adaptation is performed.
  • the processing is performed on the noise codebook, and the phase adaptation processing is not performed on the noise codebook if the value is less than a predetermined value.
  • the phase adaptation process can be adaptively controlled (switched) depending on the intensity of the pulse of the torque, and the voice quality can be improved. Also, new transmission information for controlling (switching) the phase adaptive processing is not required. Furthermore, if a fixed codebook is used when phase adaptation processing is not performed, it is possible to obtain the effect of suppressing the propagation of the effects of transmission path errors.
  • the invention according to claim 29 is characterized in that, as the phase adaptation processing, a pulse position search is performed densely near the pitch beak, and a pulse position search is performed sparsely in a portion other than the vicinity of the bite beak. 6 or 28, which uses a pulsed sound source for the noise codebook, so that the amount of memory required for the noise codebook and the amount of computation at the time of searching for the noise codebook can be reduced. The expressiveness of the rising can be improved.
  • the speech encoding device according to any one of the above, wherein the index indicating the position of the pulse is By adding the subframe from the beginning, as in the vicinity of the beginning of the frame, it is possible to reduce the deviation of the pulse position that occurs when the bite-beak position is incorrect, and to mitigate the effects of transmission path errors .
  • the pulse numbers are sequentially numbered from the head of the subframe, and the near the pitch beak position is dense, and the parts other than the near the pitch peak are sparse.
  • a search position of each pulse is determined, and in a case where the index number is the same, each pulse is positioned such that the smaller the pulse number, the closer to the head of the subframe. Since the pulse number is determined, the pulse numbering method is also defined in addition to the pulse index.This makes it possible to further reduce the deviation of the pulse position that occurs when the pitch peak position is incorrect. Impact propagation can be further reduced.
  • part of the pulse search position is determined by the pitch peak position, and the other pulse search positions are fixed positions that are predetermined regardless of the pitch peak position.
  • the speech coding apparatus according to any one of 1 to 17, 23, and 29, wherein even if the pitch peak position is incorrect, the probability that the position of the excitation pulse is incorrect is reduced, so that the transmission path Propagation of the effects of errors can be suppressed.
  • the pitch beak position of a voice or sound source signal having a predetermined time length when determining the pitch beak position of a voice or sound source signal having a predetermined time length, only the pitch period length is cut out from the signal, and the bit peak that determines the bit peak position in the cut out signal is determined.
  • the speech encoding device according to any one of claims 1 to 8, 11 to 17, 19 to 23, and 25 to 32 having position calculation means, wherein To select the pitch beak, simply search for the point where the amplitude value (absolute value) becomes the maximum, and one pitch period is added to the subframe. It is possible to accurately determine the bite-beak position even if the waveform includes a waveform exceeding the maximum.
  • the pitch beak position is determined using the entire signal without cutting out one cycle length, and the determined pitch peak position is determined.
  • the speech encoding apparatus according to claim 33 wherein one pitch period length is cut out as a cutout starting point, and a pitch peak position is determined in the cutout signal, wherein the pitch peak position is determined using the entire signal.
  • the invention according to claim 35 is characterized in that, in the CELP-type speech encoding apparatus that performs speech encoding processing for each subframe having a predetermined time length, when calculating the pitch beak position in the current subframe, the immediately preceding subframe is used. If the difference between the pitch period in the current subframe and the pitch period in the current subframe is within a predetermined range, the pitch beak position in the immediately preceding subframe, the pitch period in the immediately preceding subframe, and the current subframe The pitch beak position in the current subframe is predicted using the pitch period in the frame, and the existence range of the pitch beak position in the current subframe is previously defined using the beak position in the current subframe obtained by this prediction. The pitch beak position search is performed within that range.
  • FIG. 14 is a block diagram illustrating a configuration of a sound source generation unit of a CELP-type speech coding apparatus according to a seventh embodiment of the present invention.
  • FIG. 26 (d) is a schematic diagram showing an example of a pattern of a sound source pulse search position used in the pulse position searcher of the 14th embodiment of the present invention.
  • FIG. 2 shows the correspondence between the shape of the amplitude enhancement window output from the amplitude enhancement window generator 13 and the shape of the adaptive code vector.
  • the position of the broken line in the figure is the pitch pulse position determined by the pitch peak position calculator 12.
  • the periodizer 15 pitch-cycles the random code vector output from the random codebook 14.
  • Pitch periodicization is a method of periodicizing the random code vector with the pitch period. The vector stored in the random code book is cut out from the beginning for the pitch period L, and this is repeated several times until the subframe length is reached. This is done by connecting. However, pitch periodization is performed only when the pitch period is equal to or less than the subframe length.
  • sound quality can be improved using phase information existing in one pitch waveform.
  • FIG. 3 21 is an adaptive codebook
  • 22 is a beach peak position calculator
  • 23 is an amplitude emphasis window generator
  • 24 is a noise codebook
  • 25 is an amplitude emphasis window multiplier. The only difference from the sound source generator in Fig. 1 is that they are not synchronized with pitch synchronization.
  • FIG. 4 shows a second embodiment of the present invention, which is applied to a CELP-type speech coding apparatus having a configuration in which a sound source combining a pulse train sound source and a noise sound source is applied to a rising portion of a voiced portion of a speech signal. It shows the sound source generator of the speech coding device that emphasizes the amplitude of the noise code vector corresponding to the pulse position of the pulse train sound source.
  • reference numeral 31 denotes a pulse train sound source which is output to an amplitude emphasis window generator 32 and an adder 33 and is composed of a pulse train arranged at intervals of a pitch period L located at the position of the pitch pulse.
  • An adder that adds the noise code vector after amplitude emphasizing window output from the multiplier 35 and outputs it as an excitation vector.34 is represented by a noise code vector and is output to the multiplier 35.
  • a noise source 35 is a multiplier that multiplies the noise source vector output from the noise source 34 by the amplitude enhancement window output from the amplitude enhancement window generator 32.
  • the pulse train source 31 is a pulse train whose pulse positions and intervals are determined by the pitch period L and the initial phase P, and the pitch period L and the initial phase P are separately calculated outside the sound source generation unit.
  • the pulse train sound source may be one in which impulses are arranged, but the sampling point and the sampler The performance is better if it can represent the impulse that exists between the switching points.
  • the performance of the initial phase (position of the first pulse) is better if it is expressed with fractional precision that can represent between sampling points, but the number of bits that can be allocated to this information is sufficient. If not, good performance is obtained with integer precision, and search for position determination is easy.
  • FIG. 5 shows a third embodiment of the present invention, in which a CELP-type speech coding apparatus is used. Then, the excitation generator of the speech coding apparatus using the noise code vector limited only to the vicinity of the pitch peak of the adaptive code vector is shown.
  • a noise code vector generator that outputs the noise code vector to the periodizer 45 using the phase information and the pitch period L output from the phase searcher 42 as input, and 45 is a noise code vector generator The noise code output from the As input torque and pitch period L, and periodic for outputting a final noise code base-vector.
  • the noise code book 43 limited to the vicinity of the pitch pulse position stores a noise code vector to be applied to the vicinity of the pitch beak of the adaptive code vector, and the vector length is determined by a pitch period or a frame (subframe). Fixed regardless of length Long.
  • the area near the pitch beak may be the same length before and after the pitch beak, but the longer the area after the pitch peak is, the less the sound quality is degraded. For example, if the neighborhood range is 5 ms ec, it is 0.625 ms ec before the pitch and 4.37 after the pitch beak, rather than 2.5 msec before and after the pitch peak. It is better to set it to 5 msec.
  • the vector length when the subframe length is 10 ms ec, approximately 5 ms ec can achieve almost the same sound quality as when the vector length is 10 ms ec or more.
  • the noise code vector generator 44 arranges the noise code vector output from the pitch pulse position limited type noise code book 43 at the position of the pitch pulse determined by the phase searcher 42.
  • FIGS. 6 (a) and 6 (b) and FIGS. 7 (a) and 7 (b) show the noise code vector output from the bit-pulse position-limited noise codebook 43 and the noise code vector generator 44.
  • FIG. 3 illustrates a method of arranging the positions at positions corresponding to the pitch pulse positions. Basically, as shown in Fig. 6 (a), a bit pulse position limited noise code vector is arranged near the pitch pulse position. 6 (a) and 6 (b), the portion (hatched portion) indicated as the pitch period range is a portion which is targeted when the pitch period is formed in the period section 45.
  • the pitch cycle unit 45 By performing the bit cycle prior to the pitch cycle unit 45 in this way, the pitch cycle that effectively uses all parts of the limited vector near the pitch position is performed by the bit cycle unit 45. I am trying to be. If the pitch period is shorter than the vector length limited to the vicinity of the pitch pulse position, the pitch period is extracted by cutting out the bit length from the limited vector. In this case, there are various possible cutting methods, but the cutting is performed so that the pitch pulse position is included in the cut vector. For example, the clipping start point is determined using the pitch pulse position and the pitch period, such that one pitch period is cut out from a point one quarter pitch period before the bit pulse position.
  • Fig. 7 (b) shows an example of a method for extracting the noise code vector when the pitch period is shorter than the limited vector length.
  • the bit cycle length is cut out from the beginning of the pitch pulse position-only noise code vector. This eliminates the need to calculate the clipping start point every time.c
  • the pitch cycle is a variable
  • the periodicizer 45 makes the noise code vector output from the noise code vector generator 44 a pitch period.
  • Pitch periodicization is a method of periodicizing the noise code vector with the pitch period.
  • the noise code vector is cut out from the beginning by the pitch period L, and is connected multiple times until the subframe length is reached. This is done by: However, the pitch period is set only when the pitch period is equal to or smaller than the subframe length. In the case of a fractional precision bit cycle, connect vectors obtained by calculating fractional precision points by interpolation.
  • the number of bits allocated to the noise code vector is small by using the noise code vector limited only to the vicinity of the pitch peak of the adaptive code vector. Even in this case, sound quality degradation can be reduced, and sound quality can be improved in a voiced part where residual power is concentrated near the bit pulse.
  • FIG. 8 shows a fourth embodiment of the present invention, and shows a sound source generation unit of a speech coding apparatus that determines a search range of a pulse position based on a bitch cycle and a bite-beak position of an adaptive code vector.
  • reference numeral 51 denotes an adaptive codebook that stores the past excitation source vector and outputs the selected adaptive code vector to the pitch beak position calculator 52 and the pitch gain multiplier 55.
  • the adaptive code book 51 calculates the pitch beak position using the adaptive code vector output from 1 and the pitch period L as inputs, and outputs the pitch beak position to the search range calculator 53.53 is the pitch beak position calculator.
  • a search range calculator that calculates and outputs to the pulse source searcher 54, 54 is a search for the pulse source using the search range output from the search range calculator 53 and the pitch period L as input, and the pulse source vector
  • a pulse source searcher that outputs a torque to a pulse source gain multiplier 56, 55 is a multiplier that multiplies the adaptive code vector output from the adaptive codebook by a pitch gain and outputs the result to an adder 57
  • 56 Is a multiplier that multiplies the pulse sound source vector output from the pulse sound source searcher by the pulse sound source gain and outputs the result to the adder 57
  • 57 is the output from the multiplier 55 and the output from the multiplier 56.
  • This is an adder that takes as input, adds, and outputs it as an excitation source vector.
  • adaptive codebook 51 is obtained by extracting an adaptive code vector by a subframe length from a point that has been retroactively calculated by a bit period L that is calculated in advance outside the sound source generation unit. Is output as. If the pitch period L is less than the subframe length, the extracted vector with the bit period L repeated until the subframe length is reached is output as an adaptive code vector.
  • Pitch beak position calculator 52 uses the adaptive code vector output from adaptive codebook 51 to determine the position of the pitch pulse present in the adaptive code vector.
  • the position of the pitch pulse can be determined by maximizing the normalized cross-correlation between the impulse train arranged in the pitch period and the adaptive code vector.
  • the search range calculator 53 calculates a range in which to search for a pulse sound source using the input pitch peak position and pitch period L. In other words, the perceptually important range of one pitch waveform is calculated from the pitch beak position information. Then, that range is determined as the search range.
  • the expression of the frequency component in a specific band may be deteriorated.
  • Fig. 9 (b) instead of expanding the search range according to the pitch period, instead of searching for all sample points, search every other or every other sample point.
  • the gain to be multiplied by the multipliers 55 and 56 is obtained by performing speech synthesis using the adaptive code vector output from the adaptive codebook 51 and the pulse source vector output from the pulse position searcher 54. This is a value determined for each vector so that the error from the input speech is minimized.
  • the multiplier 55 multiplies the adaptive code vector by the pitch gain
  • Multiplier 5 6 pulse The sound source vector is multiplied by the pulse sound source gain and output to the adder 57.
  • the adder 57 adds the adaptive code vector after the optimal gain multiplication output from the multiplier 55 and the pulse source vector after the optimal gain multiplication output from the multiplier 56, and Output as excitation source vector.
  • FIG. 11 (a) shows a fifth embodiment of the present invention, and shows a pulse search position determination unit of a sound source generation unit that determines a pulse position search position by a pitch period and a pitch beak position of an adaptive code vector.
  • FIG. 9 shows the search range calculator 53 in FIG. 8 in more detail.
  • reference numeral 61 denotes a pulse search position pattern selector which receives the pitch period L as an input and outputs a pulse search position pattern to the pulse search position determiner 62
  • 62 denotes a pulse
  • a pulse search position pattern is input from the search position pattern selector 6 1
  • a pitch beak position is input from the bite beak position calculator 52
  • a search range (pulse search position) is output to the pulse position searcher 54.
  • a search position determiner is input from the search position pattern selector 6 1
  • a pitch beak position is input from the bite beak position calculator 52
  • a search range (pulse search position) is output to the pulse position searcher 54.
  • the pulse search position pattern selector 61 has a plurality of types of pulse search position patterns in advance. The sample point is expressed by the relative position of the pulse search position), the pulse period L obtained by the pitch analysis is used to determine which pulse search position pattern to use, and the pulse search position pattern is determined. Output to container 6 2 You.
  • the bit periodicity can be easily performed by using the following equation (1) (ITU-T STUDY GROUP 15-CONTRIBUTION 1 52, "G.729-C0DING OF SPEECH AT 8 KBIT / S USING CONJUGATE- STRUCTUR E ALGEBRAIC-CODE-EXCITED LINEAR-PREDICTION (CS-ACELP) ", COM 15-1 52-E July 1995).
  • code () represents a pulse source vector
  • i represents a sample number (0 to 79 in the example of FIG. 11).
  • is a gain value that indicates the strength of the periodicity, which is large when the periodicity is strong and small when the periodicity is weak (generally, a value from 0 to 1.0 is used).
  • the pulse search is performed in the range of (-4) to 48 samples (range of 53 samples). Therefore, when the pitch period is less than 53 (or 54), In this case, it is also possible to use the search range pattern shown in FIG. 11 (c).
  • the two pitch beak positions can be included in the search range, and the first cycle bit pulse waveform and the second cycle pitch pulse waveform change. Or a case where the obtained pitch beak position is erroneously detected as a position one cycle before the actual pitch beak position.
  • FIG. 12 shows a sixth embodiment of the present invention, which has a configuration in which the search position of the pulse position is determined by the bit period and the pitch beak position of the adaptive code and the number of pulses used for the pulse sound source is switched.
  • 2 shows a sound source generation unit of the speech coding apparatus.
  • reference numeral 71 denotes an output of an adaptive code vector to a pitch beak position calculator 72 and a multiplier 76.
  • An adaptive codebook, 72 is obtained externally by pitch analysis or adaptive codebook search.
  • the pitch period L and the adaptive code vector output from the adaptive codebook are input and the pitch beak position is output to the search position calculator 74.
  • the pitch beak position calculator, ⁇ 3 is pitch analysis or adaptive codebook search.
  • the pulse number determiner outputs the number of pulses to the search position calculator 74 with the pitch period L obtained externally by the input as the input, and the number of pulses is determined by bit analysis or adaptive codebook search.
  • the pitch period L obtained externally, the number of pulses output from the pulse number determiner 73, and the pitch peak position output from the bit-beak position calculator 72 are input, and the pulse search position is determined by the pulse position searcher 7.
  • the search position calculator 75 outputs the pitch period L externally obtained by pitch analysis or adaptive codebook search, and the pulse search position output from the search position calculator 74.
  • the adaptive code vector output from adaptive codebook 71 is output to multiplier 76, multiplied by the adaptive code vector gain, and output to adder 78.
  • the pitch beak position calculator 72 detects the pitch beak from the adaptive code vector and outputs the position to the search position calculator 74.
  • the detection (calculation) of the pitch beak position can be performed by maximizing the inner product of the impulse train vector arranged in the pitch period L and the adaptive code vector. Also, the vector obtained by convolving the impulse response of the composite filter with the impulse response vector arranged in the pitch cycle L and the impulse response of the composite filter in the adaptive code vector.
  • the pulse position tends to be more important than the number of pulses because a male voice has a stronger pulse, and the pulse is weaker for a female voice so that the number of pulses is increased to avoid concentration of power. Tend to be better. From these facts, it is effective to reduce the number of pulses when the pitch period is long, and to increase the number of pulses to some extent when the pitch period is short. Furthermore, if the number of pulses is determined in consideration of changes in the number of pulses between consecutive subframes ⁇ ⁇ changes in the bit period L, etc. Can be planned.
  • R R r r (i 0, i 0) +
  • Rr (i, i) is the autocorrelation matrix of the impulse response, as shown in equation (3).
  • the range of positions that i 0, i l, i 2, and i 3 can take is determined by the search position calculator 74. Specifically, when the number of pulses is four, the results are as shown in Figs. 13 (a) to 13 (d). (Positions where the parts marked with arrows in the figure can be taken. The scale value indicates the pitch beak position.) It is a relative value with 0).
  • dn (j) ⁇ ⁇ '( ⁇ ) ⁇ ( ⁇ — "),"-0,1, ..., 79
  • Pulse position searcher 75 Determines the optimum pulse position in combination Then, the pulse excitation vector generated by the combination is output to multiplier 77, multiplied by the pulse code vector gain, and output to adder 78.
  • An adder 78 adds the adaptive code vector component and the pulse source vector component, and outputs the result as an excitation source vector.
  • the pulse search position output from the pulse generator 84 and the pulse amplitude output from the pulse amplitude calculator 87 are used as input, and the pulse source generated by the combination is determined by determining the combination of the positions where the pulses to be used for the pulse source are set.
  • Pal that outputs the vector to multipliers 8 and 9 A position locator, 86 is a multiplier based on the prediction residual signal obtained from the linear prediction filter determined by the external LPC analysis and LPC quantizer.
  • the output multiplier 90 is an adder that adds the vectors output from the multipliers 88 and 89 and outputs the result as an excitation sound source vector.
  • the operation of the excitation generator of the CELP-type speech coding apparatus configured as described above will be described with reference to FIG.
  • the adaptive code vector output from adaptive codebook 81 is output to multiplier 88, multiplied by the adaptive code vector gain, and output to adders 90 and 86.
  • Pitch peak position calculator 82 detects a bite-bit from the adaptive code vector and outputs the position to search position calculator 84 and pulse amplitude calculator 87.
  • the detection (calculation) of the pitch beak position can be performed by maximizing the inner product of the impulse train vector arranged in the pitch period L and the adaptive code vector.
  • the vector obtained by convolving the impulse response of the composite filter with the impulse response vector arranged in the pitch period L and the vector that convolves the impulse response of the composite filter with the adaptive code vector By maximizing the inner product of the pitch beak position, it is possible to detect the pitch beak position more accurately.
  • the number-of-pulses determiner 83 determines the pulse source based on the value of the pitch period L.
  • the number of pulses to be used is determined and output to the search position calculator 84.
  • the relationship between the number of pulses and the bit period is predetermined by learning or statistically.For example, when the pitch period is 45 samples or less, 5 lines, and when the pitch period exceeds 45 samples and less than 80 samples, The number of pulses is determined by the range of the pitch period, such as four, three for more than 80 samples, and so on.
  • the number of pulses is determined in consideration of changes in the number of pulses between consecutive subframes ⁇ ⁇ changes in the bit period L, etc., it is possible to reduce discontinuity between consecutive subframes and improve the quality of the rising part of voiced parts. Can be planned.
  • the pitch period L of the previous subframe and the pitch period L of the current subframe If the number of pulses is significantly different, the number of pulses is determined to be three regardless of the value of the pitch period L of the current subframe.
  • the pitch cycle is short, as described in Embodiment 5, if the search range is limited to only a little more than one pitch cycle from the first pitch beak in the subframe, voice quality can be further improved. It is.
  • the pulse position searcher 85 determines the optimum combination of the position where the pulse is to be raised based on the search position determined by the search position calculator 84 and the pulse amplitude information determined by the pulse amplitude calculator 87 described later.
  • the method of pulse search is "ITU-T STUDY GROUP 15-CONTRIBUTION 152," G.729-CODING OF SPE ECH AT 8 KBIT / S USING CONJUGATE-STRUCTURE ALGEBRAIC-CODE-EXCITED LINEAR-PREDICTION (CS-ACELP) ", COM 15-152-E July 1995 ”, for example, when the number of pulses is four, the combination of i0 to i3 is determined so as to maximize equation (4).
  • al al al rr (il, i 1) + 2 a0 al rr (i O, i 1) + a2 x a2 xrr (i 2, i 2) + 2 x (aO x a2 xrr (i 0, i 2) + al x a2 xrr (il, i 2)) +
  • Rr (i, i) is the autocorrelation matrix of the impulse response as shown in Eq. (3).
  • the range of positions that i O, i l, i 2, and i 3 can take is obtained by the search position calculator 84. Specifically, when the number of pulses is four, the results are as shown in Fig. 13 (a) to 13 (d). (Positions where the parts marked with arrows in the figure can be taken.The scale value indicates the pitch beak position. It is a relative value with 0).
  • A0, al, a2, a3 are the pulse amplitudes calculated by the pulse amplitude calculator 87.
  • the pulse source vector generated by the combination is output to the multiplier 89, where the pulse code vector gain is multiplied, and the adder is added. Output to 90.
  • the adder 86 multiplies an adaptive code vector component (adaptive code vector gain by an adaptive code vector gain) from a linear prediction residual signal (prediction residual vector) obtained by external LPC analysis. ) Is subtracted, and the difference signal is output to the pulse amplitude calculator 87.
  • the adaptive code vector gain and the noise code vector are generally determined by the adaptive codebook search.
  • the noise codebook search (corresponding to the pulse position search in the present invention) are completed, so the adaptive code vector is multiplied by the adaptive code vector gain. The obtained vector cannot be obtained before the pulse position search. For this reason
  • the adaptive code vector component used for subtraction in the adder 86 is the adaptive code vector gain (not the final optimal adaptive code vector gain) obtained from equation (5) when searching for the adaptive codebook. ) Is multiplied by the adaptive code vector ⁇ _ ⁇ nieO ")")
  • X (n) is the so-called target vector, which is obtained by removing the zero input response of the LPC synthesis filter of the current subframe from the input signal weighted in the auditory sense.
  • Y (n) is a component generated by the adaptive code vector in the synthesized speech signal.
  • the adaptive code vector is cascaded with the LPC synthesis filter of the current subframe and the auditory weighting filter. This is a convolution of the connected impulse response of Phil.
  • the pulse amplitude calculator 87 divides the difference signal output from the adder 86 into the vicinity of the pitch beak position and other parts using the pitch beak position calculated by the pitch beak position calculator 82, and Calculate the average value of the power of the part or the average value of the absolute value of the signal amplitude at each sample point included in each part, and use the amplitude as the pulse amplitude near the pitch beak position and the pulse amplitude of the other parts.
  • the pulse position searcher 85 evaluates Expression (4) using different amplitudes for the pulse near the pitch pulse and the pulses in the other portions, and searches for the pulse position.
  • a pulse source vector expressed by the pulse position determined in the pulse position search and the pulse amplitude assigned to the pulse at that position is output from the pulse position searcher 85.
  • the adder 90 adds the adaptive code vector component and the pulse source vector component, and outputs the result as an excitation source vector.
  • FIG. 15 shows an embodiment of the eighth invention of the present invention, and has a configuration in which a search position used for a pulse search is switched based on a determination result of continuity of a pitch period. Part is shown.
  • reference numeral 91 denotes an adaptive codebook that outputs an adaptive code vector to a pitch beak position calculator 92 and a multiplier 99
  • reference numeral 92 denotes an adaptive code vector output from the adaptive codebook 91.
  • a pitch beak position calculator that outputs the pitch position L in the adaptive code vector to the search position calculator 94 with the pitch period L as input, and 93 searches for the number of pulses of the pulse sound source with the pitch period L as input.
  • the number-of-pulses determiner 94 to be output to the detector 94 receives the pitch period L, the pitch peak position output from the pitch beak position calculator 92, and the number of pulses output from the pulse number determiner 93 as inputs.
  • a search position calculator that outputs the pulse search position to the pulse position searcher 97 via the switch 98.
  • the search position calculator 95 receives the pitch period L of the current subframe as input and makes a delay by one subframe for determination.
  • the delay unit 96 receives the bit period L of the current subframe and the pitch period of the previous subframe output from the delay unit 95 as inputs, and outputs a determination result of the continuity of the pitch period to the switch 98.
  • Judgment unit 97 is a search position of a pulse input from search position calculator 94 via switch 98 or a fixed search position input via switch 98, and a switch 98.
  • a pulse position searcher that uses the input search position and the bit period L to search for a pulse position, and outputs a pulse source vector to the multiplier 100, 9 8 is linked based on the judgment result input from the judgment unit 9 6
  • One of the switches in the system is used to switch the pulse search position between the search position calculated by the search position calculator 9 and the fixed search position determined in advance.
  • the switch of one system is used for ONZOFF as to whether or not to input the pitch period L to the pulse position searcher 97.
  • 9 9 is a multiplier which receives the adaptive code vector output from the adaptive codebook 9 1 as an input, multiplies the adaptive code vector gain and outputs the result to the adder 101, and 100 is a pulse position searcher 9 Multiplier that receives the pulse source vector output from 7 as input, multiplies the pulse source vector gain, and outputs the result to adder 101, 101 is input from multipliers 990 and 100 This is an adder that adds the obtained vectors and outputs the result as an excitation sound source vector.
  • the adaptive codebook 91 is composed of a buffer of the past excitation source, and extracts a corresponding portion from the buffer of the excitation source based on the pitch period or pitch lag obtained by external pitch analysis or adaptive codebook search means. , And output to the pitch beak position calculator 92 and the multiplier 99 as an adaptive code vector.
  • the adaptive code vector output from adaptive codebook 91 to multiplier 99 is multiplied by the adaptive code vector gain and output to adder 101.
  • Pitch beak position calculator 92 detects a pitch beak from the adaptive code vector, and outputs the position to search position calculator 94.
  • the detection (calculation) of the pitch beak position can be performed by maximizing the inner product of the impulse train vector arranged with the pitch period L and the adaptive code vector.
  • the number-of-pulses determiner 93 determines the number of pulses used for the pulse sound source based on the value of the pitch period L, and outputs the number to the search position calculator 94.
  • the relationship between the number of pulses and the bit cycle is predetermined in a learning or statistical manner.For example, if the pitch cycle is less than 45 samples, 5 pieces, and if the pitch cycle exceeds 45 samples and less than 80 samples, 4 pieces.
  • the number of pulses is determined by the range of the bit cycle value, such as 3 for 80 samples or more.
  • the search position calculator 94 determines the position for performing the pulse search based on the pitch peak position and the number of pulses. Pulse search positions are distributed so that they are dense near the pitch peak and sparse elsewhere (effective when there is not enough bit allocation to search all sample points). . In other words, all the sample points near the bite-beak position are subject to pulse position search, but the part far from the bite-peak position is set to have a wider pulse position search interval, such as every two samples or every three samples (for example, The search position is determined as shown in FIGS. 11 (b) and (c)).
  • the pitch period is short, as described in Embodiment 5, if the search range is limited to a range slightly more than one pitch period from the first bite-beak in the subframe, voice quality can be further improved. ⁇ Me.
  • the pulse position searcher 97 determines an optimum combination of the search position determined by the search position calculator 94 or a fixed search position determined in advance and a position where a pulse is to be formed based on the pitch period L.
  • For the method of pulse search see “ITU-T STUDY GR0UP15-CONTRIBUTION 152," G.729-CODING OF SPEECH AT 8 KB IT / S USING CONJUGATE-STRUCTURE ALGEBRAIC-CODE-EXC ITED L INEA -PRED ICT ION (CS-ACELP) ", COM 15-152-E July 1995 j
  • the number of pulses is four, from i 0 to maximize equation (2) Determine the combination of i3.
  • Judgment unit 96 determines whether or not the bit period is continuous using pitch period L of the current subframe and the bitch period in the immediately preceding subframe input from delay unit 95. Specifically, if the difference between the value of the bit period of the current subframe and the value of the bit period of the immediately preceding subframe is equal to or less than a predetermined or calculated threshold, the pitch period is continuous. Is determined. If it is determined that the pitch period is continuous, the current subframe is regarded as a voiced 'voiced stationary part', and the switch 98 connects the search position calculator 94 to the pulse position searcher 97.
  • the pitch period L is input to the pulse position search unit 97 (one system of the switch 98 is switched to the search position calculator 94, and the other system is turned on and the pitch period L is pulsed. Input to the position searcher 97). If it is determined that the pitch period is not continuous (the difference between the bit period of the current subframe and the pitch period of the immediately preceding subframe exceeds the threshold value), the current subframe is not a voiced / voiced stationary part (unvoiced part 'voiced) Switch 98 inputs a predetermined fixed search position to pulse searcher 97, and does not input pitch period L to pulse position searcher (switch 98). One system is switched to the fixed search position, the other system is in the 0FF state, and the bit period L is not input to the pulse position searcher 97).
  • the pulse source vector generated by the combination is output to the multiplier 100, and is multiplied by the pulse code vector gain.
  • the adder 101 adds the adaptive code vector component and the pulse excitation vector component, and outputs the result as an excitation excitation vector.
  • FIG. 16 shows an example of the contents of the fixed search position in FIG. Fig. 16 (b) shows that the search positions were fixed so that the search positions were evenly distributed over the entire subframe when eight positions were assigned per pulse as in the search position shown in Fig. 13. (Rather than dense near the pitch peak and sparse elsewhere, the overall density is uniform).
  • Fig. 16 (a) shows that instead of reducing the search positions assigned to two of the four pulses to four, four search types are used and all sample points in the subframe are It is included in any of the search position groups (the number of bits to represent the pulse position is the same in both Figures 16 (a), 16 (b) and 13). In this way, there are no positions that are not searched at all, as shown in Fig. 16 (b), so that the performance in Fig. 16 (a) is generally better with the same number of bits.
  • the excitation generator of the variable pulse number speech encoder having the pulse number determiner 93 has been described.
  • switching the pulse search position using the continuity of the bit cycle is effective.
  • the continuity of the pitch cycle is determined only from the pitch cycle of the immediately preceding subframe and the current subframe.
  • the determination accuracy is further improved by using the pitch cycle of the past subframe. Can also be improved
  • Pitch peak position calculator that outputs the adaptive code vector output from adaptive codebook 1 and pitch period L to search position calculator 1 14 using the input of the adaptive code vector and pitch period L, 1 13 is a pulse number L input, and the number of pulses of the pulse sound source is input to the search position calculator 1 14
  • the pulse number determiner that outputs to the search position calculator 1 1 4 is a pitch L and pitch peak position calculator 1 1 2 that is output With the input pitch beak position and the number of pulses output from the number-of-pulses determiner 113 as inputs, a search position is calculated that outputs the pulse search position to the pulse position searcher 119 via the switch 115.
  • the adder 210 08 performs vector addition of the adaptive code vector component output from the multiplier 210 6 and the pulse source vector component output from the multiplier 210 7. Output as excitation source vector. It should be noted that the index assignment method based on the present embodiment can be applied to all cases where the position information of the sound source is expressed by relative values. It is possible to obtain the effect of suppressing propagation of transmission path errors without affecting performance at all.
  • Figure 24 (a) shows the sound source pulse search position determined by the search position calculator 2103 when the number of pulses is four.
  • the sound source pulse search position is shown.
  • the relative positions in Fig. 24 (a) are represented by numerical values from 14 to +75 with the pitch pitch position being 0, and points before 14 protrude beyond the subframe boundary. It is expressed as a number of ten by folding the dots.
  • the equation (2) is obtained in the same manner as in the case where the pitch periodization is not performed.
  • the sound source pulse can be searched for by maximizing.
  • a pulse is generated at the position of each sound source pulse determined in this manner according to the polarity of each determined sound source pulse, and a pitch periodic fill is applied using the pitch period L. Torr is generated.
  • the generated pulse sound source vector is output to multiplier 2307. Multiplier from pulse position searcher 2 3 0 5
  • the pulse sound source vector output to 2303 is multiplied by a quantized pulse sound source vector gain quantized by an external gain quantizer, and output to the adder 2308.
  • each sound source pulse representing the pulse sound source vector is used.
  • the polarity and index information are separately output outside the sound source generation unit.
  • the polarity and index information of the excitation pulse are converted into a data sequence output to the transmission line through an encoder, a multiplexer, and the like, and sent out to the transmission line.
  • Vector addition of the adaptive code vector component output from 2303 and the pulse source vector component output from the multiplier 2307 is performed, and the resultant is output as an excitation source vector.
  • the decoder side also has the same pulse number and index updating means 2304.
  • the method of setting pulses when a fixed number of pulses, for example, four pulses are set in a search range, for example, somewhere in 32 positions, 32 points are divided into four as described above. In addition to searching for all combinations (8 x 8 x 8 x 8) so that one pulse is determined to be one of the eight assigned positions, select 4 from 3 2 There is a method to search for all combinations.
  • a combination of a plurality of pulses for example, two pulses, or a combination of impulses having different amplitudes can be used to form a pulse.
  • the adder 2504 is composed of a set of sound source pulse search positions (FIGS. 26 (b) and 26 (c)) output from the search position calculator 2503 and a predetermined fixed search position.
  • the union (Fig. 26 (d)) with the set (Fig. 26 (a)) is obtained and output to the pulse position searcher 2505.
  • the search position of the sound source pulse is limited densely near the pitch beak position and sparsely in the other parts. This limitation method is based on the statistical result that the position where the pulse is likely to be raised is concentrated near the bitic pulse. If the pulse position search range is not limited, in a voiced part, the probability of a pulse being raised near the bite pulse is higher than the probability of being raised in other parts.
  • the search position of the excitation pulse calculated by the search position calculator 2503 differs between the encoder side and the decoder side. However, since a part of the excitation pulse search position input to the pulse position searcher 2505 is a fixed search position, the pulse positions of the encoder and decoder will be different. Probability can be reduced, and the effect of transmission path errors can be reduced
  • the polarity and index information of each sound source pulse representing the pulse sound source vector together with the pulse sound source vector are separately output outside the sound source generation unit. Is forced.
  • the polarity and index information of the excitation pulse are converted into a data sequence to be output to the transmission path through an encoder, a multiplexer, etc., and sent out to the transmission path.
  • the adder 2508 calculates the vector of the adaptive code vector component output from the multiplier 2506 and the pulse sound source vector component output from the multiplier 2507. Vector addition is performed and output as an excitation sound source vector.
  • a constant number of, for example, four pulses are set in the search range. For example, when setting the pulse at any of 32 positions, as described above, 32 points are divided into four parts. In addition to searching for all combinations (8 x 8 x 8 x 8) so that one pulse is determined to one of the eight assigned locations, select 4 locations from 3 2 locations For example, there is a method to search for all combinations.
  • a combination of a plurality of pulses for example, two pulses, or a combination of impulses having different amplitudes can be used to form a pulse.
  • reference numeral 27011 stores the past excitation source vector, and converts the selected adaptive code vector into a pitch beak position calculator 270, a pitch peak position corrector 270, and a pitch gay.
  • the adaptive codebook output to the multiplier 276, and the adaptive codebook 270 is the pitch peak position using the adaptive code vector output from the adaptive codebook 270 and the pitch period L input from the outside as input.
  • a pulse position searcher that searches for a pulse source using the Bitch period L separately calculated outside the generator and outputs the pulse source vector to the pulse source gain multiplier 270 6 is a multiplier that multiplies the adaptive code vector output from the adaptive codebook 2710 by the adaptive code vector gain and outputs the result to the adder 27 08, and 2707 is a pulse position searcher. Multiply the pulse source vector output from 2 7 0 5 by the pulse source vector gain and add A multiplier that outputs to 27078, and 27008 receives the output from multiplier 276 and the output from multiplier 277 as input, adds the vectors, and generates the excitation source vector. This is the adder that outputs.
  • adaptive codebook 27001 extracts an adaptive code vector by a sub-frame length from a point that has been retroactive by a bit period L calculated in advance outside the sound source generation unit, and generates an adaptive codebook. ⁇ Output as vector. If the pitch period L is less than the subframe length, the extracted vector with the pitch period L repeated until the subframe length is reached is output as an adaptive code vector.
  • the pitch beak position calculator 2702 uses the adaptive code vector output from the adaptive codebook 2701 to determine the position of the bit vector existing in the adaptive code vector.
  • the position of the pitch beak can be determined by maximizing the normalized cross-correlation between the impulse train arranged in the pitch period and the adaptive code vector. Also, the impulse trains arranged in the pitch cycle are combined. By minimizing the error that passed through the composite filter and the original error that passed the adaptive code vector through the composite filter (maximizing the normalized cross-correlation function), more accurate It is also possible to ask.
  • the pitch beak position corrector 27073 is a pitch period length including the point of the pitch beak position calculated by the pitch beak position calculator 270 from the adaptive code vector output from the adaptive codebook 270 A vector having a length of L is cut out, a point having the maximum amplitude value is searched for from the cut-out waveform, and output to the search position calculator 2704. This process is performed only when the pitch period L is shorter than the subframe length. If the pitch period L is longer than the subframe length, the pitch peak position output from the pitch beak position calculator 270 is output to the pulse position searcher 275 as it is.
  • the pitch beak position output from the pitch peak position calculator 270 is the second highest amplitude position in a one-bit waveform when one subframe length is equivalent to about one pitch period.
  • each sound source pulse at this time depends on the target vector of the noise codebook component, that is, the zero input response signal of the perceptually weighted synthetic filter and the signal of the adaptive codebook component from the perceptually weighted input speech. If the pulse position search is determined beforehand so that the polarity at each position of the reduced signal vector and becomes equal to each other, the amount of calculation for the search can be greatly reduced.
  • the source pulse is not an impulse but a pulse train of a bite period by applying a bitch periodicization filter as described in the fifth embodiment. I have to.
  • the search for the source pulse can be performed.
  • a pulse is generated at the position of each sound source pulse determined in this manner according to the polarity of each determined sound source pulse, and a pitch periodicization filter is applied using the pitch period L to obtain a pulse sound source vector. Is generated.
  • the generated pulse sound source vector is output to the multiplier 270 7.
  • the pulse source vector output from the pulse position searcher 2705 to the multiplier 2707 is multiplied by the quantized pulse source vector gain quantized by the external gain quantizer. Output to adder 27 08.
  • the index updating means or the pulse number and the index updating means or the fixed search position and the phase adaptive search are used.
  • the effects of transmission path errors can be reduced.
  • switching to a pulse source at a fixed search position it is possible to further suppress the propagation of the effects of channel errors.
  • the pitch peak position corrector of the present invention is different from the third embodiment in the eleventh embodiment.
  • the present invention can be applied to any of the speech encoding devices up to the embodiment.
  • a constant number of, for example, four pulses are set in the search range.
  • searching for all combinations (8 x 8 x 8 x 8 ways) so that one pulse is determined to be one of the eight assigned positions, select 4 from 3 2 locations
  • a combination of a plurality of pulses for example, two pulses, or a combination of impulses having different amplitudes may be used.
  • FIG. 29 shows a 16th embodiment of the present invention, in which the existence range of the pitch peak position is limited in advance before calculating the pitch beak position by utilizing the continuity of the phase of the sound source signal waveform between consecutive subframes.
  • 1 shows a sound source generation unit of a CELP type speech coding apparatus.
  • reference numeral 290 1 denotes an adaptive codebook that outputs an adaptive code vector to a bit position calculator 290 2 and a multiplier 290 8
  • 290 2 denotes an adaptive codebook 2
  • the adaptive code vector output from 901 and the bit period L input from outside the speech generation unit and the pitch peak search range limiter 290 are used as input.
  • a bit beak position calculator that calculates the pitch beak position in the vector and outputs it to the delay unit 290 4 and the search position calculator 290 6, and 290 3 is just before the output from the delay unit 290 4
  • the pitch period and the pitch period L in the current subframe input from the outside of the sound source generation unit and the pitch period in the subframe immediately before output from the delay unit Pitch bee in current subframe K Pitch beak search range limiter, delay unit 2904 that predicts the position, limits the range for searching for the bite-beak position based on the predicted pitch beak position, and outputs the range to pitch peak position calculator 2902 Is a delay unit that receives the pitch beak position output from the bite-peak position calculator as input, delays it by one subframe, and outputs it to the pitch peak search range limiter 2903.
  • the search position calculator that outputs the search position of the sound source pulse to the pulse position searcher 290 7 using the pitch pitch position and the pitch period L input from outside the sound source generator as inputs, Search
  • the search position of the sound source pulse input from the search position calculator 2906 and the bit cycle L input from outside the sound source generator are input, and the input sound source pulse search position and the bit period L are used as input.
  • the pitch beak position calculator 2902 detects a picture beak from the adaptive code vector, and outputs the position to the delay unit 2904 and the search position calculator 29006.
  • the detection (calculation) of the pitch beak position can be performed by maximizing the normalized cross-correlation function between the impulse train vector arranged in the pitch period L and the adaptive code vector.
  • a vector obtained by convolving the impulse response of the synthetic filter with the impulse train vector arranged in the pitch period L and a vector obtained by convolving the impulse response of the synthetic filter with the adaptive code vector.
  • the second peak in the 1-pitch periodic waveform is prevented from being erroneously detected. It is also possible to do.
  • the delay unit 2904 delays the pitch peak position calculated by the pitch peak position calculator 2902 by one subframe and outputs the delay to the bit peak search range limiter 2903. That is, the pitch peak position in the immediately preceding subframe is input from the delay unit 294 to the pitch peak search range limiter 2903.
  • the delay unit 2905 delays the pitch period L input from outside the sound source generation unit by one subframe, and outputs the result to the pitch peak search range limiter 2903. That is, the pitch beak search range limiter 290 3 stores the pitch period in the immediately preceding subframe from the delay unit 290 5 Is entered.
  • the pitch sub-search range is not limited and the entire subframe is used as the pitch beak search range.
  • the pitch beak search range obtained by the pitch beak search range limiter 2903 in this way is output to the bit peak position calculator 2902.
  • an appropriate constant for example, the pitch period Impossible bits such as maximum and minimum or 0 .
  • the predicted pitch beak position is obtained by the equation (6) shown in the tenth embodiment (see FIG. 19).
  • the search position calculator 29006 determines the search position of the sound source pulse based on the pitch beak position, and outputs the search position to the pulse position searcher 2907.
  • the search position is determined so that the vicinity of the bite peak is densely distributed and other portions are sparsely distributed.
  • it is also effective to use the bit cycle information to change the number of sound source pulses or to limit the search range of the sound source pulses. .
  • the search position is determined as shown in any one of the 12th to 14th embodiments, it is possible to reduce the influence of the transmission path error.
  • the pulse position searcher 2907 uses the sound source pulse search position determined by the search position calculator 2906 or a predetermined fixed search position, and the pitch period L input separately to generate the sound source pulse. Determine the best combination of positions where you will stand.
  • the pulse search method is described in ⁇ ITU-T Recommendation G.729: Coding or Speech at 8 kbits / s using Con jugate- Structure Algebraic-Code-Excited L inear-Prediction (CS-ACELP), March 1996, for example, when the number of pulses is four, the combination of i0 to i3 is determined so as to maximize the equation (2) shown in the sixth embodiment.
  • the polarity of each sound source pulse at this time is determined by the evening vector of the noise codebook component, that is, the zero-input response signal of the perceptually weighted synthesized file from the perceptually weighted input speech and the adaptive codebook. It is determined before the pulse position search is performed so that the polarity at each position of the signal vector, which is obtained by subtracting the component signal, becomes equal to the polarity. If the pitch period is shorter than the subframe length, the pitch period is filtered as shown in the fifth embodiment, and the The pulse is not a pulse but a pulse train with a pitch period.
  • the source pulse can be searched by maximizing (2).
  • a pulse is generated at the position of each sound source pulse determined in this manner in accordance with the polarity of each determined sound source pulse, and a pitch sound source vector is generated by applying a pitch period filter using the pitch period L.
  • the generated pulse sound source vector is output to multiplier 299.
  • the pulse sound source vector output from the pulse position searcher 290 7 to the multiplier 290 9 is output by an external gain quantizer! : Multiplied by the quantized pulse sound source vector gain and output to the adder 2910.
  • a constant number of, for example, four pulses are set in the search range. For example, in the case where the pulse is set at any of 32 positions, 32 points are divided into four as described above.
  • searching for all combinations (8 x 8 x 8 x 8) so that one pulse is determined to one of the eight assigned locations select 4 locations from 3 2 locations
  • the combination of the impulses having the amplitude of 1 it is also possible to combine a plurality of, for example, two pulses, a pulse pair, or a combination of impulses having different amplitudes.
  • FIG. 30 shows a 17th embodiment of the present invention.
  • a pulse searcher using a fixed search position in which the number of pulses is small and the position information assigned to each pulse is sufficient, and the number of pulses is large A pulse searcher that uses a source pulse search position where the position information assigned to each pulse is not always sufficient, and an optimal pulse source from among the pulse source vectors output from these multiple pulse searchers 2 shows a sound source generation unit of a CELP-type speech coding apparatus provided with a selector for selecting a vector.
  • reference numeral 3001 stores the past excitation source vector, and outputs the selected adaptive code vector to the pitch beak position calculator 3002 and the pitch gain multiplier 3007.
  • the adaptive codebook 3002 calculates the pitch peak position using the adaptive code vector output from the adaptive codebook 3001 and the pitch period L input from the outside as an input, and a search position calculator
  • the pitch beak position calculator output to 3003 is input to the pitch beak position output from the pitch beak position calculator 3002 and the pitch period L input from outside the sound source generation unit.
  • the search position calculator that outputs the search position of the sound source pulse to the pulse position searcher 3004, and the search position calculator 304 outputs the search position output from the search position calculator 3003 and the outside of the sound source generator.
  • a pulse sound source is searched for using the pitch period L calculated separately as an input.
  • a pulse position searcher that outputs pulse source vector 1 to selector 305, and 805 is a pulse source vector 1 that is output from pulse position searcher 304 and pulse position search A selector which receives the pulse source vector 2 output from the multiplier 306 as an input, selects the optimum pulse source vector and outputs the vector to the multiplier 308,
  • a pulse sound source is searched by using the fixed search position that has been determined and the pitch period L input from outside of the sound source generation unit, and a pulse position search that outputs to the selector 3005 as the pulse sound source vector 2 307 is the adaptive code in the adaptive code vector output from adaptive codebook 3001
  • a multiplier that multiplies the vector gain and outputs the result to the adder 309, and 308 multiplies the pulse source vector output from the selector 305 by the pulse source vector gain
  • a multiplier that outputs to the adder 309, and 309 receives the output of the multiplier 307 and the output
  • adaptive codebook 3001 extracts adaptive code vector by a subframe length from a point that has been advanced in the past by pitch period L calculated outside the sound source generation unit, and Output as a sign vector. If the pitch period L is less than the subframe length, the vector obtained by repeatedly connecting the extracted pitch period L until the subframe length is reached is output as an adaptive code vector.
  • the pitch beak position calculator 3002 uses the adaptive code vector output from the adaptive codebook 3001 to determine the position of the bite vector existing in the adaptive code vector.
  • the position of the pitch beak can be determined by maximizing the normalized cross-correlation between the impulse train arranged in the pitch period and the adaptive code vector. In addition, it minimizes the error between the impulse trains arranged in the pitch cycle when they pass through the synthesis filter and the error when the adaptive code vector passes through the synthesis filter. By maximizing, it is also possible to obtain the accuracy with higher accuracy. If the pitch beak corrector as shown in the fifteenth embodiment is provided, it is possible to reduce the calculation error of the pitch beak position.
  • the search position calculator 3003 determines the search position of the sound source pulse based on the pitch peak position output from the pitch beak position calculator 3002, and outputs it to the pulse position searcher 304. To determine the search position,
  • the sixth embodiment or the 14th embodiment There is a method to limit the search position of the sound source pulse densely near the position and sparsely in the other parts. This limitation method is based on the statistical result that the position where the pulse is probable is concentrated near the bitic pulse. If the pulse position search range is not limited, the fact that the probability that a pulse is raised near a bite pulse in voiced parts is higher than the probability that it is raised in other parts is used. It should be noted that if the method of determining a sound source pulse search position as shown in any one of the 12th to 14th embodiments is used, it is also possible to mitigate the effects of transmission path errors.
  • the pulse position searcher 3004 determines the optimal combination of the sound source pulse setting position using the sound source pulse search position output from the search position calculator 3003 and the separately input pitch period L. I do.
  • the pulse search method is described in "ITU-T Recommendation G.729: Coding of Speechat 8 kbits / susing Conjugate- Structure Algebraic -Code-Excited Linear-Prediction (CS-ACELP), March 1996". As shown, for example, when the number of pulses is 4, the combination of i0 to i3 is determined so as to maximize the equation (2) shown in the sixth embodiment.
  • the polarity of each sound source pulse at this time is determined by the evening get vector of the noise codebook component, that is, the zero-input response signal of the perceptually weighted synthetic filter from the perceptually weighted human voice and the adaptive codebook. If the pulse position search is determined in advance before performing the pulse position search so that the polarity becomes equal to the polarity at each position of the signal vector obtained by subtracting the component signal, the amount of calculation for the search can be greatly reduced.
  • the pitch pulse is applied as shown in the fifth embodiment so that the sound source pulse becomes a pulse train with a pitch period instead of an impulse. I have to.
  • a search for a sound source pulse can be performed. At the position of each sound source pulse determined in this way, a pulse is set up according to the polarity of each sound source pulse determined, and a pitch periodicization filter is applied using the pitch period L. Generated. The generated pulse sound source vector is output to the selector 3005 as pulse sound source vector 1.
  • the sound source pulse search position used in the pulse position searcher 3004 has a large number of sound source pulses, so that the position information allocated to each sound source pulse is not always sufficient.
  • the mode using the pulse position searcher 304 is a mode in which the number of pulses is large, but the position of each pulse cannot always be represented exactly.
  • the effect of using the pulse search position determination method as performed by the search position calculator 3003 can be obtained.
  • the pulse position searcher 3006 determines an optimal combination of a position where a sound source pulse is to be generated, using a predetermined fixed search position and a pitch period L separately input from outside the sound source generation unit.
  • the pulse search method is described in ⁇ ITU-T Recommendation G. 729: Coding of Speech at 8 kb its / susing Conjugate-Structure A lgebraic-Code-Excited L inear-Predication (CS- ACELP) ; March 1996 ”, for example, when the number of pulses is four, the combination of i0 to i3 is determined so as to maximize the equation (2) shown in the sixth embodiment. I do.
  • the polarity of each sound source pulse at this time is determined by the noise vector of the noise codebook component, that is, the zero-input response signal of the perceptually weighted synthesized speech from the perceptually weighted input speech and the adaptive codebook component. If the pulse position search is determined in advance before performing the pulse position search so as to be equal in polarity to each position of the signal vector and the signal vector obtained by subtracting the signal, the amount of calculation for the search can be greatly reduced.
  • the pitch period is shorter than the subframe length, the sound source pulse is reduced by applying a pitch period fill filter as described in the fifth embodiment.
  • a pulse train with a pitch period is used instead of a pulse.
  • the sound source pulse can be searched by maximizing 2).
  • a pulse is generated at the position of each sound source pulse determined in this way in accordance with the polarity of each determined sound source pulse, and a pitch periodicization filter is applied using the pitch period L to generate a pulse sound source vector. Is done.
  • the generated pulse sound source vector is output to the selector 3005 as the pulse sound source vector 2.
  • the fixed search position input to the pulse position search unit 3006 is set so that the position information assigned to each sound-source pulse is sufficient (specifically, all points in the subframe are The number of sound source pulses must be narrowed down so as to be included in the fixed search position pattern. By reducing the number of pulses and accurately representing the position at which the pulse is raised, it is possible to improve the synthesized voice quality in the voiced rising portion and the like. Also, by providing such a mode in which the positional information is sufficient, it is possible to avoid deterioration that occurs when only a mode in which the positional information is insufficient is used.
  • FIG. 30 shows two types of pulse position searchers, it is possible to increase the number of types to three or more and perform switching according to the characteristics of the input signal.
  • the sound source pulse search position input to the pulse position searcher 304 is set to a predetermined fixed search position instead of the one output from the search position calculator 3003.
  • the configuration with a mode with a small number of pulses, where the position information assigned to each pulse is sufficient uses only the effect of improving the synthesized speech quality in voiced rising parts and the mode where the position information is insufficient. Of synthesized speech quality The effect of avoiding deterioration is obtained.
  • the pulse position searcher 3004 it is easier for the pulse position searcher 3004 to search for a pulse position using the sound source pulse search position determined by the search position calculator 3003 so that a sound source pulse is easily generated near the peak. In a voiced part having features, the efficiency of using a mode with a large number of pulses can be increased.
  • the selector 3005 compares the pulse sound source vector 1 output from the pulse position searcher 3004 with the pulse sound source vector 2 output from the pulse position searcher 300, and The one in which the distortion of the synthesized speech becomes smaller is output to the multiplier 3008 as the optimum pulse sound source vector.
  • the pulse source vector output from the selector 3005 to the multiplier 3008 is multiplied by a quantized pulse source vector gain quantized by an external gain quantizer and added to the adder 3. Output to 0 0 9
  • the pulse position locators 3004 and 306 of the encoder use the pulse source vectors 1 and 2 together with the pulse source vectors 1 and 2 to represent each pulse source vector.
  • the polarity and index information of the sound source pulse are separately output to the selector 3005. Further, the selector 3005 provides information on which of the pulse source vectors 1 and 2 has been selected, and the polarity and index of each pulse representing the selected pulse source vector outside the sound source generator. Is output. The selection information and the polarity and index information of the excitation pulse are converted into a data sequence to be output to the transmission path through an encoder, a multiplexer, and the like, and are transmitted to the transmission path.
  • the adder 309 performs vector addition of the adaptive code vector component output from the multiplier 307 and the pulse source vector component output from the multiplier 308. Output as excitation source vector.
  • the index updating means or the pulse number and index updating means or the fixed search position and the phase adaptive search position are different from each other. Pulse position locating with combination If the search position calculator 304 is provided in front of the cable searcher 304, it is possible to reduce the property of being easily affected by a transmission path error caused by using the search position calculator 303.
  • a constant number of, for example, four pulses are set in the search range. For example, when setting the pulse at any of 32 positions, as described above, 32 points are divided into four parts.
  • the method of searching all combinations (8 x 8 x 8 x 8 ways) so that one pulse is determined to one of the eight assigned positions select 4 from 3 2 locations
  • the combination of impulses having an amplitude of 1 it is also possible to use a combination of a plurality of pulses, for example, two pulses, or a combination of impulses having different amplitudes.
  • a portion of the pulse position information is assigned to an index representing the noise code vector within a range where the pulse position information is not insufficient, so that voiced start-up is possible. It is possible to improve the performance not only for the unvoiced part but also for unvoiced consonant parts and noise-like input signals.
  • the sound source generation function of the audio encoding device and the audio decoding device shown in the first to seventeenth embodiments includes a magnetic disk, a magneto-optical disk, an optical disk such as a CD or DVD, an IC card, a ROM, and a RAM.
  • the program can be recorded as a program on a recording medium or a storage device. Therefore, the function of the audio encoding device can be realized by reading the recording data from the recording medium or the storage device by the computer.
  • FIG. 31 is a block diagram showing the overall configuration of a preferred embodiment of the CELP-type speech coding apparatus according to the present invention.
  • the configuration of each of the above embodiments is used for a codebook block surrounded by a dotted line and a sound source vector block surrounded by a dashed line. That is, the embodiment of the configuration for generating the adaptive code vector and the noise code ⁇ vector as shown in Fig. 1 and Fig. 3 is used as the codebook block in Fig. 31, while Figs. 2, Fig. 14, Fig. 15, Fig. 17, Fig. 17, Fig. 18, Fig. 20, Fig. 21, Fig. 21, Fig. 23, Fig. 25, Fig. 27, Fig. 29, Fig. 30, etc.
  • the embodiment of the configuration for generating the excitation sound source vector is used as the sound source vector block in FIG.
  • FIG. 31 shows the conventional configuration of the sound source vector block and a part of the codebook block itself.
  • a time-series code which is the output data of the adaptive codebook 3401, is input to a vector multiplier 3403 and is multiplied by a gain code GO.
  • a time-series code which is output data of the random codebook 3402
  • the outputs of the vector multipliers 3403 and 3404 are added to each other by the adder 3405, and the result is supplied to one input of the adder 3410 via the synthesis filter 3407.
  • the input speech signal is input to the linear predictive analyzer 346 and to the + input of the adder 340.
  • the linear prediction analyzer 340 6 performs a linear prediction analysis of the input speech, further quantizes the input speech, and uses it as a prediction coefficient L as a part of the encoded output. Is set.
  • the output data of the adder 3410 is supplied to a distortion minimizer 3409, and the adaptive codebook 3401 and the noise codebook 3402 so that the composite waveform distortion of the composite filter 3407 is minimized.
  • a control signal for controlling 08 is generated and sent to these circuits.
  • Symbols A, S, G, and L indicating data in FIG. 31 and FIG. 32 described later are as follows.
  • A Index information indicating the adaptive code vector finally selected by the distortion minimizer 349 (transferred from the encoder to the decoder)
  • S Distortion minimizer 340 Information (transferred from the encoder to the decoder) indicating the noise code vector finally selected by G: The quantization gain finally determined by the distortion minimizer 3409 Quantization information (transferred from the encoding device to the decoding device)
  • L Information indicating the linear prediction coefficient quantized by the linear prediction analyzer 340 (transferred from the encoder to the decoder)
  • the present invention has a feature in a method of generating a sound source vector, and this feature is applied to a speech decoding apparatus as it is. It is possible. Therefore, each of the above-described embodiments can be used as it is for the generation part of the sound source vector in the CELP-type speech decoding device. To clarify this point, a CELP-type speech decoding device according to the present invention will be described below.
  • FIG. 32 is a block diagram showing the overall configuration of a preferred embodiment of the CELP-type speech decoding device according to the present invention.
  • a codebook block surrounded by a dotted line and a sound source vector block surrounded by a dashed line use the configuration of each of the above embodiments. That is, the embodiment of the configuration for generating the adaptive code vector and the noise code vector as shown in FIGS. 1 and 3 is used as the codebook block in FIG. 2, Fig. 14, Fig. 15, Fig. 17, Fig. 17, Fig. 18, Fig. 20, Fig. 21, Fig. 21, Fig. 23, Fig. 25, Fig. 27, Fig. 29, Fig. 30, etc.
  • the embodiment of the configuration for generating the excitation sound source vector is used as the sound source vector block in FIG. In FIG. 32, the sound source vector block and a part of the codebook block itself have a conventional configuration.
  • a time-series code which is output data of adaptive codebook 3501
  • the time series code which is the output data of the noise codebook 3502 is input to the vector multiplier 3504 and multiplied by the gain code G1.
  • the outputs of the vector multipliers 3503 and 3504 are mutually added by the adder 3505, and the result is output as a decoded speech via the synthesis filter 3507.
  • the synthesis coefficient of the synthesis filter 3507 is generated by a linear prediction coefficient decoder 3506 that decodes the linear prediction coefficient.
  • the gain codes G 1 and G 0 are generated by a gain decoder 3508.
  • the amplitude emphasis window for emphasizing the amplitude of the noise code vector corresponding to the bit peak position of the adaptive code vector is multiplied by the noise code vector, as is apparent from the above embodiment.
  • the sound quality can be improved by using the phase information existing in one pitch waveform.
  • the present invention also uses the noise code vector limited only to the vicinity of the pitch beak of the adaptive code vector, so that even if the number of bits allocated to the noise code vector is small, sound quality degradation is reduced. It is possible to improve the voice quality of voiced parts where power is concentrated near the pitch beak.
  • the search range of the pulse position is determined based on the pitch beak position and the pitch cycle of the adaptive code vector.Therefore, it is possible to perform the pulse position search according to the pitch cycle within one pitch waveform. Therefore, even when the number of bits allocated to the pulse position is small, it is possible to suppress the deterioration of the voice quality.
  • a sound source signal having a pitch periodicity can be efficiently expressed by limiting the range of the pulse search to a length of slightly more than one pitch period.
  • two pitch beaks are included in the search range, it is possible to handle cases where the shape of the first pitch beak is different from the shape of the second pitch peak, or where the position of the first pitch beak is erroneously detected.
  • the present invention also has a configuration in which the number of pulses is adaptively changed in accordance with the bit period of the input audio signal, so that the audio quality can be improved without requiring new information for switching the number of pulses. Can be.
  • the present invention also efficiently expresses the shape of one pitch waveform because the pulse amplitude near the pitch beak and other portions are determined before the pulse position search. can do.
  • the pulse search position by switching the pulse search position using the continuity of the pitch period, it is possible to perform a pulse sound source search suitable for each of a voiced rising portion, an unvoiced portion, a voiced stationary portion, and a voiced portion. Therefore, it is possible to improve the voice quality.
  • the present invention also performs the first-stage quantization of the pitch gain (adaptive code vector gain) of the current subframe using the pitch gain obtained immediately after the adaptive codebook search, and obtains the optimal bit gain obtained at the end of the sound source search.
  • CELP-type speech coding that generates the driving excitation vector by the sum of the adaptive codebook and the fixed codebook (noise codebook) by quantizing the difference between the adaptive codebook and the first-stage quantization bit gain in the second step.
  • the information obtained before searching for the fixed codebook (noise codebook) is quantized and transmitted, so switching between fixed codebooks (noise codebook) without adding independent mode information, etc. This makes it possible to efficiently encode audio information.
  • the present invention also determines the bit periodicity of the audio signal of the current subframe based on the continuity of the previously encoded pitch period or the magnitude (or continuity) of the previously encoded pitch gain. Since the search position of the sound source is switched, it becomes possible to perform a pulse sound source search suitable for each part without adding new information to the judgment of the high and low bit periodicity. Thus, it is possible to improve the voice quality under the same information amount.
  • the present invention also predicts the pitch beak position in the current subframe in a back-end by using the pitch beak position in the immediately preceding subframe, the pitch cycle in the immediately preceding subframe, and the pitch period in the current subframe. It is possible to use this predicted pitch peak position to switch whether or not to perform phase adaptation processing.
  • the switching of the phase adaptation processing can be performed without any change, and the sound quality can be improved under the same information amount.
  • the fixed codebook may be used.Since the fixed codebook continues to be used in silence, etc., errors in the phase adaptive sound source may be lost. The effect of resetting propagation can also be obtained.
  • the present invention also provides a CELP-type speech coding apparatus that expresses the position of an excitation pulse by a relative position with the pitch beak position being 0, wherein an index indicating each position of the excitation pulse is arranged in order from the head of the subframe.

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)
  • Transmission Systems Not Characterized By The Medium Used For Transmission (AREA)

Description

明 細 書 音声符号化装置、 音声復号装置、 音声符号化 Z復号を実現するプログラ ムの記録された記録媒体並びに移動体通信装置 技術分野
本発明は、 音声信号をコ一ド化して伝送する移動通信システム等にお ける C E L P ( Code Exc ited Linear Predic ion )型音声符号化装置及び に C E L P型音声復号装置、 並びに移動体通信装置に関する。 背景技術
C E L P型音声符号化装置は、 音声をある一定のフレーム長に区切り、 各フレーム毎に音声の線形予測を行い、 フレーム毎の線形予測による予 測残差 (励起信号) を既知の波形からなる適応符号ベク トルと雑音符号 べク トルを用いて符号化するものである。 適応符号べク トルと雑音符号 ベク トルは、 図 3 4に示すように、 それそれ適応符号帳 1及び雑音符号 帳 2に格納された適応符号べク トルと雑音符号べク トルをそのまま使用 する場合と、 図 3 5に示すように、 適応符号帳 1からの適応符号べク ト ルと、 雑音符号帳 2からの雑音符号べク トルを適応符号帳 1のピッチ同 期 Lに同期させた雑音符号べク トルを用いる場合とがある。 図 3 5は特 開平 5— 1 9 7 9 5号公報及び特開平 5— 1 9 7 9 6号公報に開示され ている C E L P型音声符号化装置における雑音音源べク トル生成部の構 成である。 図 3 5において、 適応符号帳 1から適応符号べク トルが選択 されるとともに、 ピッチ周期 Lが出力され、 雑音符号帳 2から選択され た雑音符号べク トルが、 周期化器 3により ピッチ周期 Lを用いて周期化 される。 周期化は、 雑音符号べク トルを先頭からピッチ周期分切り出し、 それをサブフレーム長に達するまで複数回繰り返して接続することによ つて行われる。
しかしながら、 上記従来の雑音符号べク トルをピッチ周期化する C E L P型音声符号化装置では、 適応符号ぺク トル成分を取り除いた後に残 留するピッチ周期成分を、 雑音符号べク トルをピッチ周期で周期化する ことによって取り除いているため、 1 ピッチ波形内に存在する位相情報、 すなわちどこにピッチパルスのビークが存在するかという情報を積極的 に用いることがなく、 音声品質の向上を図る上で限界があった。
本発明は、 このような従来の問題を解決するものであり、 音声品質を 一段と向上させることのできる音声符号化装置を提供することを目的と する。 発明の開示
上記目的を達成するために、 本発明は、 適応符号ベク トルのピッチピ —ク位置に対応する雑音符号べク トルの振幅を強調することによって、 1 ピッチ波形内に存在する位相情報を利用して、 音質向上を図るように したものである。
本発明はまた、 適応符号べク トルのピッチビーク近傍のみに限定した 雑音符号べク トルを用いることにより、 雑音符号べク トルに割り当てら れるビッ ト数が少ない場合でも、 音質劣化を少なくするようにしたもの である。
本発明はまた、 適応符号べク トルのピッチビークの位置とピッチ周期 を用いてパルス位置の探索範囲を限定することにより、 パルスの位置を 表すビッ ト数が少ない場合でも、 音質劣化を少なく しながら探索範囲を 狭めるようにしたものである。
本発明はまた、 適応符号べク トルのピッチビークの位置とピッチ周期 を用いてパルス位置の探索範囲を限定する際に、 特に 1〜 2 ピッチ波形 のパルス位置探索精度を細かく とることによって、 ピッチ周期が短い音 声の有声部の音質向上を図るようにしたものである。
本発明はまた、 ピッチ周期の値によってパルス音源のパルス本数を変 化させることにより、 音質向上を図るようにしたものである。
本発明はまた、 適応符号べク トルのピッチピーク位置付近とそれ以外 の部分のパルス振幅を予め決定してからパルス音源探索を行うことによ つて、 音質向上を図るようにしたものである。
本発明はまた、 ピッチゲインを多段量子化して初段の量子化情報を適 応符号帳探索直後に行うことによって、 ピッチゲインの初段量子化情報 を雑音符号帳切り替えの為のモード情報として利用できるようにして符 号化効率の向上を図るようにしたものである。
本発明はまた、 量子化ピッチ周期情報又は直前のサブフレームあるい は現サブフレームにおける量子化ピッチゲイ ン情報をもちいて、 パルス 音源の探索位置を切り替える制御を行うことにより、 音声品質の向上を 図るようにしたものである。
本発明はまた、 サブフレーム間における位相の連続性をバックワード で判定し、 位相が連続していると判定されたサブフレームについてのみ 位相適応処理を適用することにより、 伝送する情報量を増やさずに位相 適応処理の切り替えを行い、 音声品質の向上を図るようにしたものであ る。 なお、 位相適応処理を行わない場合に固定符号帳を使用すれば、 伝 送路誤りの伝播を防ぐ効果を得ることも可能となる。
本発明はまた、 適応符号べク トルにおけるピッチピーク位置近傍への 信号パワーの集中度によって、 位相適応処理を適用するかしないかを決 定することとにより、 伝送する情報量を増やさずに位相適応処理の切り 替えを行い、 音声品質の向上を図るようにしたものである。 なお、 位相 適応処理を行わない場合に固定符号帳を使用すれば、 伝送路誤りの伝播 を防ぐ効果を得ることも可能となる。
本発明はまた、 ビツチピーク位置からの相対位置で音源パルス探索を 行う C E L P型音声符号化装置において、 サブフレームの先頭側から順 番にパルス位置のイ ンデックスを付けるようにすることによって、 ある フレームにおいて発生した伝送路誤りの影響が後続の伝送路誤りのない フレームに伝播することを防ぐようにしたものである。
本発明はまた、 ビツチピーク位置からの相対位置で音源パルス探索を 行う C E L P型音声符号化装置において、 サブフレームの先頭側から順 番にパルス位置のイ ンデックスを付けるとともに、 同じインデヅクの異 なるパルスにおいてもサブフ レームの先頭側から順番にパルス番号を付 けるようにすることによって、 あるフレームにおいて発生した伝送路誤 りの影響が後続の伝送路誤りのないフレームに伝播することを防ぐよう にしたものである。
本発明はまた、 ピッチピーク位置からの相対位置で音源パルス探索を 行う C E L P型音声符号化装置において、 パルス探索位置の全てを相対 位置で表すのではなく、 ビツチピーク近傍の一部のみを相対位置で表現 し、 残りの部分は予め定められた固定位置にすることにより、 あるフ レ ームにおいて発生した伝送路誤りの影響が後続の伝送路誤りのないフ レ ームに伝播することを防ぐようにしたものである。
本発明はまた、 ピッチビーク位置を求める際に、 対象となる信号全体 に対してビヅチピーク位置の探索を行うのではなく、 切り出したビヅチ 周期長の信号の中でピッチビーク位置の探索を行う手段を備えることに より、 より正確に先頭のピッチビーク位置を抽出できるようにしたもの である。
本発明はまた、 サブフレーム間でピッチ周期が連続している部分、 即 ち有声定常部と思われる部分において、 直前のサブフ レームにおけるピ ツチピーク位置と直前のサブフレームにおけるビッチ周期と現在のサブ フレームにおけるピッチ周期を用いて現在のサブフレームにおけるビッ チビ一ク位置を予測し、 予測されたビッチビ一ク位置に基づいて現在の サブフレームにおけるピツチピーク位置の存在範囲を限定することによ り、 有声定常部における位相の不連続が生じないようにピッチビーク位 置を抽出できるようにしたものである。
本発明はまた、 サブフ レーム長が 1 0 m s程度以上を有し、 かつ雑音 符号帳倩報に割り当てられる情報量がサブフ レーム当たり 1 5 ビッ ト程 度のように比較的少なく、 雑音符号帳としてパルス音源を適用する場合 において、 パルス数を少なく して各パルスの位置情報を十分にとるモー ドと各パルスの位置情報を粗くする代わりにパルス数を増やしたモード とをそれそれ少なく とも 1モード以上 (合計 2モード以上) 備える構成 とすることによ り、 音声信号の有声立ち上がり部分の品質向上を図り、 またパルス数を増やすことによって各パルスの位置情報が粗くなること による音声品質の劣化を抑えることを可能としたものである。
請求項 1に記載の発明は、 適応符号べク トルのピッチビーク位置に対 応する雑音符号べク トルの振幅を強調する音源生成部を備えた C E L P 型音声符号化装置であり、 1 ピッチ波形内に存在する位相情報を利用し て、 音質向上を図ることができる。
請求項 2に記載の発明は、 請求項 1記載の音声符号化装置において、 音声生成部が、 適応符号べク トルのピッチ周期と同期した振幅強調窓を 雑音符号べク トルに乗ずることによって、 適応符号べク トルのビッチビ ークの位置に対応する雑音符号べク トルの振幅を強調するものであり、 雑音音源べク トルの振幅をビツチ周期に同期して強調することによって、 音質向上を図ることができる。 請求項 3に記載の発明は、 請求項 2記載の音声符号化装置において、 音声生成部が、 適応符号べク トルのピッチビーク位置を中心とする三角 窓を振幅強調窓として使用するものであり、 振幅強調窓長の制御を容易 に行うことができる。
請求項 4に記載の発明は、 C E L P型音声符号化装置において、 適応 符号べク トルのピッチピーク近傍のみに限定した雑音符号べク トルを用 いる音源生成部を備えた音声符号化装置であり、 適応符号べク トルのピ ツチビーク近傍のみに限定した雑音符号べク トルを用いることにより、 雑音符号べク トルに割り当てられるビッ ト数が少ない場合でも、 音質劣 化を少なくでき、 ピッチパルス近傍に残差パワーが集中するような有声 部で音質向上を図ることができる。
請求項 5に記載の発明は、 パルス音源を雑音符号帳に用いる C E L P 型音声符号化装置において、 パルス位置の探索範囲を適応符号べク トル のピッチ周期及びピッチビーク位置によって決定する音源生成部を備え た音声符号化装置であり、 パルス位置に割り当てられるビッ ト数が少な い場合でも、 音質劣化を少なくできる。
請求項 6に記載の発明は、 請求項 5記載の音声符号化装置において、 音源生成部が、 適応符号ベク トルのピッチビーク位置近傍は密に、 それ 以外の部分は疎になるようにパルス位置の探索範囲を決定するものであ り、 パルスが立てられる確率が高くなる部分を細かく探索するので、 音 声向上を図ることができる。
請求項 7記載の発明は、 ピツチ周期によってパルス位置の探索範囲を 切り替える請求項 5又は請求項 6記載の音声符号化装置であり、 ピッチ 周期に基づいてパルス位置の探索範囲を伸縮するので、 ビッチ周期が短 い場合に 1〜 2 ピッチの波形をより細かく表現することができ、 音声品 質の向上を図ることができる。 請求項 8記載の発明は、 適応符号べク トルに複数のピッチピークが存 在する場合に、 少なく とも 2つのピッチビークの位置が探索範囲に含ま れるようにパルス位置の探索範囲を限定する請求項 7記載の音声符号化 装置であり、 検出された先頭のビツチビークの位置が誤っていた場合の 影響を緩和することができ、 また、 先頭のピッチビーク付近の波形と 2 番目のピッチビーク付近の波形の形状変化にも対応することができるの で、 音声品質の向上を図ることができる。
請求項 9記載の発明は、 C E L P型音声符号化装置において、 音声の 分析結果によって雑音符号帳を切り替える音源生成部を備えた音声符号 化装置であり、 入力音声の特徴に応じて雑音符号帳を切り替えることが できるので、 音声品質の向上を図ることができる。
請求項 1 0記載の発明は、 C E L P型音声符号化装置において、 雑音 符号帳探索を行う以前に抽出された伝送パラメ一夕を用いて雑音符号帳 を切り替える音源生成部を備えた音声符号化装置であり、 すでに伝送す ることが決定されている情報を用いて雑音符号帳を切り替えるので、 情 報量を増加させることなく雑音符号帳の切り替えが行うことができる。 請求項 1 1記載の発明は、 音声信号の分析結果によってパルス本数を 切り替える構成の請求項 5から 8のいずれか 1つに記載の音声符号化装 置であり、 入力音声の特徴に応じてパルス本数を切り替えるため、 音声 品質の向上を図ることができる。
請求項 1 2記載の発明は、 雑音符号帳探索を行う以前に抽出されてい る情報を用いてパルス本数を切り替える構成を有する、 請求項 5から 8 又は 1 1のいずれか 1つに記載の音声符号化装置であり、 すでに伝送す ることが決定している情報を用いてパルス本数を切り替えるため、 伝送 する情報量を増加させることなくパルス本数の切り替えを行うことがで きる。 請求項 1 3記載の発明は、 ピッチ周期によってパルス本数を切り替え る音源生成部を備えた請求項 5から 8又は 1 1、 1 2のいずれか 1つに 記載の音声符号化装置であり、 ピッチ周期を用いてパルス数を切り替え るため、 伝送情報を増加させることなくパルス本数を切り替えることが できる。 また、 ピッチ周期によって最適なパルス本数が異なるため、 音 声品質の向上を図ることができる。
請求項 1 4記載の発明は、 連続するサブフレーム間でピッチ周期の変 動が小さい場合とそうでない場合でパルス本数を切り替える請求項 1 3 記載の記載の音声符号化装置であり、 音声信号の有声部の立ち上がり部 分と定常部分で使用するパルスの本数を切り替えることになるので、 音 声品質の向上を図ることができる。
請求項 1 5記載の発明は、 雑音音源としてパルス音源を用いる雑音符 号べク トル生成部において、 パルス位置探索に先立ってパルス振幅を決 定する請求項 5から 8、 1 1から 1 4のいずれか 1つに記載の音声符号 化装置であり、 パルス音源に振幅のバリエーションを持たせるため、 音 声品質の向上が図れる。 また、 パルス探索前に振幅を決定するため、 そ の振幅に対して最適なパルス位置を決定することができる。
請求項 1 6記載の発明は、 雑音音源としてパルス音源を用いる雑音符 号べク トル生成部において、 適応符号べク トルのピッチピーク近傍とそ れ以外の部分でパルス振幅を変える請求項 1 5記載の音声符号化装置で あり、 音源信号のピッチビーク近傍とそれ以外の部分の振幅を変化させ るので、 音源信号のピッチ構造の形状を効率的に表現でき、 音声品質の 向上及びパルス振幅情報の量子化の効率化を図ることができる。
請求項 1 7記載の発明は、 統計的にあるいは学習によって、 使用する パルス音源のパルス数をピッチ周期に基づいて決定する請求項 1 3記載 の音声符号化装置であり、 各ピッチ周期に対する最適パルス本数を統計 的あるいはその他の学習方法によって決定するため、 音声品質の向上を 図ることができる。
請求項 1 8記載の発明は、 C E L P型音声符号化装置において、 ピッ チゲイ ンを多段量子化する音源生成部を備え、 初段においては適応符号 帳探索直後に求められる値を量子化ターゲッ トとし、 2段目以降におい ては音源探索を全 て終えた後に閉ループ探索で决定されたピッチゲイ ンと初段で量子化された値の差分を量子化夕ーゲッ トとする音声符号化 装置であり、 適応符号帳と固定符号帳 (雑音符号帳) の和で駆動音源べ ク トルを生成する C E L P型音声符号化装置においては、 固定符号帳 (雑音符号帳) 探索前に得られる情報を量子化して伝送するため、 独立 したモード情報を付加せずに固定符号帳 (雑音符号帳) の切り替え等を 行うことが可能となり、 効率的に音声情報を符号化することが可能とな る。
請求項 1 9記載の発明は、 請求項 1 8記載の音声符号化装置において 適応符号帳探索直後に求められたビツチゲイ ンの量子化値を用いて固定 符号帳を切り替える構成を有する、 請求項 9から 1 2、 1 5から 1 7の いずれか 1つに記載の音声符号化装置であり、 固定符号帳探索前に求め られるピッチゲインと固定符号帳探索後に求められるビツチゲインの値 が大きく異ならないことを利用して、 モード情報を付加することなく固 定符号帳のモード切り替えを可能とし、 音声品質の向上を図ることがで ぎる。
請求項 2 0記載の発明は、 ピッチ周期のサブフレーム間変化に基づい て固定符号帳を切り替える請求項 9から 1 2、 1 5から 1 9のいずれか 1つに記載の音声符号化装置であり、 ピッチ周期のサブフレーム間の連 続性等を利用することによって、 有声 ·有声定常部であるか否かの判定 を行い、 有声 · 有声定常部に有効な音源とそれ以外の部分 (無声 · 立ち 上がり部等) に有効な音源との切り替えを行うことによって、 音声品質 の向上を図ることができる。
請求項 2 1記載の発明は、 直前のサブフレームで量子化されたピッチ ゲインを用いて固定符号帳を切り替える請求項 9から 1 2、 1 5から 1 7のいずれか 1つに記載の音声符号化装置であり、 ピッチゲインのサブ フレーム間の連続性等を利用することによって、 有声 · 有声定常部であ るか否かの判定を行い、 有声 ·有声定常部に有効な音源とそれ以外の部 分 (無声 · 立ち上がり部等) に有効な音源との切り替えを行うことによ つて、 音声品質の向上を図ることができる。
請求項 2 2記載の発明は、 ピッチ周期のサブフレーム間変化及び量子 化ピッチゲイ ンに基づいて固定符号帳を切り替える請求項 9から 1 2、 1 5から 1 7のいずれか 1つに記載の音声符号化装置であり、 伝送パラ メータであるピッチ周期及びピッチゲインの情報を用いて、 有声 ·有声 定常部であるか否かの判定を行い、 有声 · 有声定常部に有効な音源とそ れ以外の部分 (無声 · 立ち上がり部等) に有効な音源との切り替えを行 うことによって、 音声品質の向上を図ることができる。
請求項 2 3記載の発明は、 固定符号帳にパルス音源符号帳を用いる請 求項 1 9から 2 2のいずれか 1つに記載の音声符号化装置であり、 雑音 符号帳にパルス音源を用いるので、 雑音符号帳に要するメモリ量や雑音 符号帳探索時の演算量を少なくすることができ、 さらに有声部の立ち上 がりの表現性を向上することができる。
請求項 2 4記載の発明は、 所定の時間長を有するサブフレーム毎に音 声符号化処理を行う C E L P型音声符号化装置において、 現在のサブフ レームにおける位相と直前のサブフレームにおける位相とが連続してい るかどうかを判定し、 連続していると判定された場合と連続していない と判定された場合とで用いる音源を切り替える音声符号化装置であり、 有声 (定常) 部とそれ以外の部分を切り分けた音源構成が実現でき、 音 質向上を図ることができる。
請求項 2 5記載の発明は、 直前のサブフレームにおけるピッチピーク 位置と、 直前のサブフレームにおけるピッチ周期と、 現在のサブフレー ムにおけるビヅチ周期を用いて現在のサブフレームにおけるビヅチピー ク位置を予測し、 この予測によって得られた現在のサブフレームにおけ るビツチビーク位置が、 現在のサブフレームにおけるデ一夕のみから求 められたピッチビーク位置に近いかどうかによつて、 直前のサブフレー ムにおける位相と現在のサブフレームにおける位相とが連続しているか どうかを判定し、 その判定結果によって音源の符号化処理方法を切り替 える請求項 2 4記載の C E L P型音声符号化装置であり、 既に伝送され た又は伝送されることになっている情報を用いて判定結果を得るので、 判定結果を新たな伝送情報を用いて伝送する必要がない。
請求項 2 6記載の発明は、 直前のサブフレームにおける位相と現在の サブフ レームにおける位相とが連続していると判定された場合には、 位 相適応処理を雑音符号帳に対して行い、 直前のサブフレームにおける位 相と現在のサブフ レームにおける位相とが連続していないと判定された 場合には、 位相適応処理を雑音符号帳に対して行わない請求項 2 4又は 2 5記載の音声符号化装置であり、 効果的な位相適応処理を行うことが できる。 なお、 サブフレーム間の位相の連続性はバックワードで判定さ れるため、 位相適応処理を適用するかしないかの切り替え情報を新たに 伝送する必要もない。 さらに、 位相適応処理を適用しない場合は固定符 号帳を使用することにより、 伝送路誤りの影響の伝播を抑える効果を得 ることも可能である。
請求項 2 7記載の発明は、 所定の時間長を有するサブフ レーム毎に音 声符号化処理を行う C E L P型音声符号化装置において、 現在のサブフ レームにおける適応符号ベク トルのピッチビーク付近における信号パヮ 一の集中度を基準として、 音源信号の符号化処理方法を切り替える音声 符号化装置であり、 音源構成 (音源信号の符号化処理方法) の切り替え のために新たな伝送情報を必要とせずに、 適応的に音源構成の切り替え を行うことができる。
請求項 2 8記載の発明は、 現在のサブフレームにおける適応符号べク トルのピッチビーク付近における信号パワーの 1 ピッチ周期長の信号全 体に占める割合が所定の値以上である場合には、 位相適応処理を雑音符 号帳に対して行い、 所定の値未満である場合には、 位相適応処理を雑音 符号帳に対して行わない請求項 2 7記載の音声符号化装置であり、 適応 符号べク トルのパルス性の強さによって適応的に位相適応処理を制御す る (切り替える) ことができ、 音声品質の向上を図ることができる。 ま た、 位相適応処理の制御 (切り替え) のための新たな伝送情報も不要で ある。 さらに、 位相適応処理を行わない場合に固定符号帳を用いれば、 伝送路誤りの影響の伝播を抑える効果を得ることも可能である。
請求項 2 9記載の発明は、 位相適応処理として、 ピッチビーク近傍は 密にパルス位置探索を行い、 ビツチビーク近傍以外の部分は疎にパルス 位置探索を行う、 パルス音源を雑音音源に適用した請求項 2 6又は 2 8 記載の音声符号化装置であり、 雑音符号帳にパルス音源を用いるので、 雑音符号帳に要するメモリ量や雑音符号帳探索時の演算量を少なくする ことができ、 さらに有声部の立ち上がりの表現性を向上することができ る。
請求項 3 0記載の発明は、 パルスの位置を表すイ ンデックスを、 サブ フレームの先頭側から順番に並ぶように付ける請求項 5から 8、 1 1か ら 1 7、 2 3、 2 9のいずれか 1つに記載の音声符号化装置であり、 パ ルスの位置を表すィンデックスを、 ィンデックスの番号が若いほどサブ フレームの先頭付近にあるように、 サブフ レームの先頭から付けること によって、 ビツチビーク位置が誤った場合に生じるパルス位置のずれを 小さくすることが可能となり、 伝送路誤りの影響の伝播を和らげること ができる。
請求項 3 1記載の発明は、 同じィンデックス番号である場合、 サブフ レームの先頭側から順番にパルスの番号を付け、 さらにピッチビーク位 置近傍は密に、 ピッチピーク近傍以外の部分は疎になるように、 各パル スの探索位置が決定されている請求項 3 0記載の音声符号化装置であり、 同じイ ンデックス番号の場合、 パルスの番号が若いほどサブフレームの 先頭側になるように、 各パルスの番号が決められので、 パルスのインデ ックスに加えてパルスの番号のつけかたも定義され、 ピッチピーク位置 が誤った場合に生じるパルス位置のずれをさらに小さくすることが可能 となり、 伝送路誤りの影響の伝播をさらに減らすことができる。
請求項 3 2記載の発明は、 パルス探索位置の一部をピッチピーク位置 によって決定し、 その他のパルス探索位置はピッチピーク位置に関係な く予め定められた固定位置である請求項 5から 8、 1 1から 1 7、 2 3、 2 9のいずれか 1つに記載の音声符号化装置であり、 ピッチピーク位置 が誤った場合においても、 音源パルスの位置を誤る確率が減るので、 伝 送路誤りの影響の伝播を抑えることができる。
請求項 3 3記載の発明は、 所定の時間長を有する音声あるいは音源信 号のピッチビーク位置を求める際に、 当該信号からピッチ周期長のみを 切り出し、 切り出した信号内においてビツチピーク位置を决定するビッ チピーク位置算出手段を有する請求項 1から 8、 1 1から 1 7、 1 9か ら 2 3、 2 5から 3 2のいずれか 1つに記載の音声符号化装置であり、 1 ビツチ波形の中からピッチビークを選択するため、 単純に振幅値 (絶 対値) が最大になる点を探索すれば良く、 サブフレームに 1 ピッチ周期 を超える波形が含まれていても正確にビツチビーク位置を求めることが できる。
請求項 3 4記載の発明は、 当該信号からピッチ周期長のみを切り出す 場合に、 まず 1周期長を切り出さずに当該信号全体を用いてピッチビー ク位置を決定し、 この決定されたピッチピーク位置を切り出し開始点と して 1 ピッチ周期長を切り出し、 切り出した信号内においてピッチピー ク位置を決定する請求項 3 3記載の音声符号化装置であり、 当該信号全 体を用いてピッチピーク位置を決定した場合に発生する、 1 ピッチ波形 内のセカン ドビークをピッチビーク位置としてしまう現象を回避するこ とが可能となる。 すなわち、 ピッチ周期とサブフ レーム長が同期してい ないことに起因するピッチピーク位置の抽出誤りを回避することが可能 となる。
請求項 3 5記載の発明は、 所定の時間長を有するサブフレーム毎に音 声符号化処理を行う C E L P型音声符号化装置において、 現在のサブフ レームにおけるピッチビーク位置を算出する際、 直前のサブフレームに おけるピッチ周期と現在のサブフレームにおけるピツチ周期との差が予 め定められた範囲内である場合は、 直前のサブフレームにおけるピッチ ビーク位置と、 直前のサブフレームにおけるピッチ周期と、 現在のサブ フレームにおけるピッチ周期を用いて現在のサブフ レームにおけるピッ チビーク位置を予測し、 この予測によって得られた現在のサブフレーム におけるビヅチビーク位置を用いて現在のサブフレームにおけるピヅチ ビーク位置の存在範囲を予め限定し、 その範囲内でピッチビーク位置探 索を行う請求項 1から 8、 1 1から 1 7、 1 9から 2 3、 2 5から 3 2 のいずれか 1つに記載の音声符号化装置であり、 直前のサブフレームの ピッチビーク位置を考慮して現在のサブフ レームのピッチピーク位置を 決定するため、 現在のサブフレームのみからピッチビーク位置を求める と 1 ピッチピーク波形内のセカン ドビーク位置を誤検出してしまうよう な場合に、 誤検出を回避する手法となる。
請求項 3 6記載の発明は、 所定の時間長を有するサブフレーム毎に音 声符号化処理を行う C E L P型音声符号化装置において、 雑音符号帳と してパルス音源を用い、 雑音符号帳のモードを少なく とも 2モード以上 有し、 音源パルスの本数はモードを切り替えることによって変化させる ことができ、 少なく とも 1つは各パルスの位置情報が十分に取ってある パルス本数の少ないモードであり、 その他は各パルスの位置情報が不足 するがパルス数の多いモードであり、 モードの切り替え情報を伝送して モードの切り替えを行う音声符号化装置であり、 位置情報が十分な少な い音源パルス数のモードを備えることによって、 音声信号の有声立ち上 がり部の品質向上を図り、 また位置情報が不十分である音源パルス数の 多いモードを有効利用することができる。
請求項 3 7記載の発明は、 ピッチ周期が短い場合には、 ピッチ周期に 対応して音源パルスの探索範囲を狭い範囲内に限定することによって、 音源パルスの位置情報を減らして音源パルスの本数を増やす請求項 3 6 記載の音声符号化装置であり、 短いビツチ周期のビツチ周期性を有する 音源信号に対しては、 1 ピッチ周期当たりにおける音源パルスの位置情 報を十分に保ったまま音源パルスの本数を増やすことができ、 音声品質 の向上を図ることができる。
請求項 3 8記載の発明は、 各パルスの位置情報が不足するがパルス数 の多いモードにおいては、 ピツチビーク位置近傍は音源パルスの探索位 置を密に、 それ以外の部分においては音源パルスの探索位置を疎になる ように、 パルス位置の探索範囲を決定する請求項 3 6又は 3 7記載の音 声符号化装置であり、 音源パルスが立てられる確率の高い部分に音源パ ルスの位置情報を集中させるため、 音源パルスの位置情報が不十分であ る音源パルス数の多いモードの利用効率を高めることができる。
請求項 3 9記載の発明は、 請求項 3 6から 3 8のいずれか 1つに記載 の C E L P型音声符号化装置において、 パルス数が少なく位置情報が十 分である音源モードにおいて、 位置情報の一部を雑音性の音源コードべ ク トルを表すィ ンデックスに割り当てるようにした音声符号化装置であ り、 新たなモ一 ドを設けることなく無声子音部や雑音的な入力信号にも 対応することができる。
請求項 4 0に記載の発明は、 請求項 1から 3 9のいずれか 1つに記載 の音声符号化装置の機能を実行させるためのプログラムを記録したコ ン ピュー夕読み取り可能な記録媒体であり、 このような記録媒体をコンビ ユー夕で読み取ることにより音声符号化装置の機能を実現することがで きる。
請求項 4 1から 7 9記載の発明は請求項 1から 3 9の音声符号化装置 をほぼ同一内容の方法の発明として捉らえたものであり、 それそれ同様 の効果を奏する。
請求項 8 0に記載の発明は、 請求項 4 1から 7 9のいずれか 1つに記 載の音声符号化方法を実行させるためのプログラムを記録したコンビュ 一夕読み取り可能な記録媒体であり、 このような記録媒体をコンビュー 夕で読み取ることにより音声符号化装置の機能を実現することができる c 請求項 8 1から 1 1 9記載の発明は請求項 1から 3 9で規定された内 容とほぼ同一構成の音源生成部を有する音声復号装置として本発明を捉 らぇたものであり、 それそれ同様の効果を奏する。
請求項 1 2 0に記載の発明は、 請求項 8 1から 1 1 9のいずれか 1つ に記載の音声復号装置の機能を実行させるためのプログラムを記録した コンビュ一夕読み取り可能な記録媒体であり、 このような記録媒体をコ ンピュー夕で読み取ることにより音声符号化装置の機能を実現すること ができる。
請求項 1 2 1から 1 5 9記載の発明は請求項 4 1から 7 9で規定され た内容とほぼ同一構成の音源生成方法を有する音声復号方法として本発 明を捉らえたものであり、 それそれ同様の効果を奏する。
請求項 1 6 0に記載の発明は、 請求項 1 2 1から 1 5 9のいずれか 1 つに記載の音声復号方法を実行させるためのプログラムを記録したコン ビュー夕読み取り可能な記録媒体であり、 このような記録媒体をコンピ ユー夕で読み取ることにより音声符号化装置の機能を実現することがで さ 。
請求項 1 6 1 に記載の移動体通信装置は請求項 1から 4 1のいずれか 1つに記載の音声符号化装置を構成要素として有するもので、 同様の効 果を奏する。 図面の簡単な説明
図 1は本発明の第 1実施例における C E L P音声符号化装置の音源生 成部の構成を示すプロック図、
図 2は本発明の第 1実施例における振幅強調窓の形状と適応符号べク トル及びピツチパルス位置の関係を表す模式図、
図 3は本発明の第 1実施例の変形例における C E L P音声符号化装置 の音源生成部の構成を示すプロック図、
図 4は本発明の第 2実施例における C E L P音声符号化装置の音源生 成部の構成を示すブロック図、
図 5は、 本発明の第 3実施例における C E L P音声符号化装置の音源 生成部の構成を示すプロック図
図 6 ( a ) 、 6 ( b ) は本発明の第 3実施例におけるパルス位置近傍 限定べク トルの配置の様子の前半を示す模式図、 図 7 (a) 、 7 (b) は本発明の第 3実施例におけるパルス位置近傍 限定べク トルの配置の様子の後半を示す模式図、
図 8は本発明の第 4実施例における C E L P音声符号化装置の音源生 成部の構成を示すプロック図、
図 9 (a) 、 9 (b) は本発明の第 4実施例におけるパルス音源探索 範囲を示す模式図の一部、
図 1 0は本発明の第 4実施例におけるパルス音源探索範囲を示す模式 図の残りの部分、
図 1 1 (a) は本発明の第 5実施例における探索位置算出器の構成を 示すブロック図、
図 1 1 (b) 及び図 1 1 (c) はそれそれパルス探索位置パターンの 例を示す模式図、
図 1 2は本発明の第 6実施例における C E L P型音声符号化装置の音 源生成部の構成を示すブロック図 、
図 1 3 (a) 〜 1 3 (d) は本発明の第 6実施例における探索位置 出器で算出されるパルス探索位置の一例を示す模式図、
図 14は本発明の第 7実施例における C E L P型音声符号化装置の音 源生成部の構成を示すプロック図、
図 1 5は本発明の第 8実施例における C E L P型音声符号化装置の音 源生成部の構成を示すプロック図、
図 1 6 (a) 、 1 6 ( b) は本発明の第 8実施例に用いられる固定探 索位置パターンの一例を示す一覧図、
図 1 7は本発明の第 9実施例における C E L P型音声符号化装置の音 源生成部の 構成を示すブロック図、
図 1 8は本発明の第 1 0実施例における C E L P型音声符号化装置の 音源生成部の構成を示すプロック図、 図 1 9は本発明の第 1 0実施例のピッチビーク位置予測器における予 測原理を表す模式図、
図 2 0は本発明の第 1 1実施例における C E L P型音声符号化装置の 音源生成部の構成を示すプロック図、
図 2 1は本発明の第 1 2実施例における C E L P型音声符号化装置の 音源生成部の構成を示すプロック図、
図 2 2は本発明の第 1 2実施例における探索位置算出器が出力するあ る音源パルスの探索位置パターンと、 ィンデックス更新手段を備えない 場合の各位置に対応するィンデックスと、 ィンデックス更新手段を備え た場合の各位置に対応するィンデックスをそれそれ示す模式図
図 2 3は本発明の第 1 3実施例における C E L P型音声符号化装置の 音源生成部の構成を示すプロック図、
図 2 4 ( a ) は本発明の第 1 3実施例における探索位置算出器が出力 する音源パルス探索位置のパターン及び各位置に対応する相対位置と絶 対位置の対応を示す模式図、
図 2 4 ( b ) は本発明の第 1 3実施例におけるパルス番号及びィンデ ックスの更新手段を備えない場合に、 各音源パルスに割り当てられるパ ルス番号及びィ ンデックスを示す模式図、
図 2 4 ( c ) は本発明の第 1 3実施例におけるパルス番号及びィンデ ックスの更新手段を備えた場合に、 各音源パルスに割り当てられるパル ス番号及びィンデックスを示す模式図、
図 2 5は本発明の第 1 4実施例における C E L P型音声符号化装置の 音源生成部の構成を示すプロ、ソク図、
図 2 6 ( a ) は本発明の第 1 4実施例で用いられる固定探索位置パ夕 ーンの一例を表す模式図、
図 2 6 ( b ) 、 2 6 ( c ) は本発明の第 1 4実施例で用いられる探索 位置算出器で生成される音源パルス探索位置のパターンの一例をそれそ れ示す模式図、
図 2 6 ( d ) は本発明の第 1 4実施例のパルス位置探索器において用 いられる音源パルス探索位置のパターンの一例を示す模式図、
図 2 7は本発明の第 1 5実施例における C E L P型音声符号化装置の 音源生成部の構成を示すプロック図、
図 2 8 ( a ) 、 2 8 ( b ) はビヅチビ一ク算出器においてピッチビー クとセカン ドビークを誤る適応符号べク トル波形の一例をそれそれ示す 模式図、
図 2 8 ( c ) はピッチビーク位置補正器においてピッチビーク位置を 探索する範囲を図示した適応符号べク トル波形の一例を示す模式図、 図 2 9は本発明の第 1 6実施例における C E L P型音声符号化装置の 音源生成部の構成を示すプロック図、
図 3 0は本発明の第 1 7実施例における C E L P型音声符号化装置の 音源生成部の構成を示すプロック図、
図 3 1は本発明の C E L P型音声符号化装置の好ましい実施例の全体 構成を従来の音源生成部と共に示すプロック図、
図 3 2は本発明の C E L P型音声復号装置の好ましい実施例の全体構 成を従来の音源生成部と共に示すプロック図、
図 3 3は本発明の C E L P型音声符号化装置を用いた移動体通信装置 の好ましい実施例のプロ ック図、
図 3 4は従来の一般的な C E L P音声符号化装置の音源生成部の構成 を示すブロック図、
図 3 5は従来の雑音音源のビツチ周期化部を有する C E L P音声符号 化装置の音源生成部の構成を示すプロック図である。 発明を実施するための最良の形態
以下、 本発明を実施するための最良の形態について音声符号化装置の 音源生成部のいくつかの実施例により図 1から図 1 0を用いて説明する c なお、 後述するように、 これらの音源生成部は本発明の音声復号装置に も同様の構成として用いられるものである。 く第 1実施例 >
図 1は本発明の第 1実施例を示し、 適応符号べク トルのピッチビーク 位置に対応する雑音符号べク トルの振幅を強調する音声符号化装置の音 源生成部を示す。 図 1において、 1 1は適応符号ベク トルをピッチビー ク位置検出器 1 2に出力する適応符号帳 (ァダブティブ · コード · ブッ ク) 、 1 2は適応符号帳 1 1から出力された適応符号べク トルを入力と して、 ピッチビーク位置を振幅強調窓生成器 1 3に出力するピッチビー ク位置算出器、 1 3はピッチピーク位置算出器 1 2から出力されたビッ チビーク位置を入力として、 振幅強調窓を振幅強調窓掛け器 1 6に出力 する振幅強調窓生成器、 1 4は雑音符号ベク トルを格納し、 周期化器 1 5へ出力する雑音符号帳 (ノイズ · コード · ブック) 、 1 5は雑音符号 帳 1 4から出力された雑音符号べク トルとピッチ周期 Lを入力として、 雑音符号べク トルをピッチ周期化して振幅強調窓掛け器 1 6に出力する 周期化器、 1 6は振幅強調窓生成器 1 3から出力された振幅強調窓と周 期化器 1 5から出力された雑音符号べク トルを入力とし、 雑音符号べク トルに振幅強調窓を乗じて、 最終的な雑音符号べク トルを出力する振幅 強調窓掛け器である。
以上のように構成された C E L P型音声符号化装置の音源生成部の動 作について図 1 を用いて説明する。 ピッチビーク位置算出器 1 2は、 入 力された適応符号べク トルを用いて適応符号べク トル内に存在するビッ チパルスの位置を決定する。 ピッチパルスの位置は、 ピッチ周期で並べ たィンパルス列と適応符号べク トルとの正規化相互相関を最大化するこ とによって行うことができる。 また、 ピッチ周期で並べたイ ンパルス列 を合成フィル夕に通したものと、 適応符号べク トルを合成フィル夕に通 したもとの誤差を最小化することによつても可能である。
振幅強調窓生成器 1 3は、 ピッチピーク位置算出器 1 2によって決定 されたビツチパルス位置に基づいて振幅強調窓を生成する。 振幅強調窓 としては、 種々なものを用いることが可能であるが、 例えば、 ピッチパ ルス位置を中心とする三角窓が窓長の制御が容易な点において有利であ る。
図 2は振幅強調窓生成器 1 3から出力される振幅強調窓の形状と適応 符号べク トルの形状の対応を示す。 図中破線の位置がピッチピーク位置 算出器 1 2によって決定されたピツチパルス位置である。
周期化器 1 5は、 雑音符号帳 1 4から出力された雑音符号べク トルを ピッチ周期化する。 ピッチ周期化は、 雑音符号ベク トルをピッチ周期で 周期化するもので、 雑音符号帳の格納べク トルを先頭からピッチ周期 L の分だけ切り出し、 それをサブフレーム長に達するまで複数回繰り返し て接続することによって行われる。 ただし、 ピッチ周期化が行われるの は、 ピッチ周期がサブフレーム長以下の場合のみである。
振幅強調窓掛け器 1 6は、 周期化器 1 5から出力された雑音符号べク トルに振幅強調窓生成器 1 3から出力された振幅強調窓を乗ずる。
このように、 上記第 1実施例によれば、 1 ピッチ波形内に存在する位 相情報を利用して、 音質向上を図ることができる。
なお、 図 1では、 雑音符号ベク トルの周期化を行う C E L P型音声符 号化装置の音源部分について説明したが、 図 1 1に示すような雑音符号 帳に格納された雑音符号べク トルをそのまま使用する一般的な C E L P 型音声符号化装置の音源部分に対しても実施は可能であり、 その例を図
3に示す。 図 3において、 2 1は適応符号帳、 2 2はビーチピーク位置 算出器、 2 3は振幅強調窓生成器、 2 4は雑音符号帳、 2 5は振幅強調 窓掛け器であり、 雑音音源をピッチ同期に同期させないことだけが図 1 の音源生成部と異なる。
<第 2実施例 >
図 4は本発明の第 2実施例を示し、 音声信号の有声部の立ち上がり部 分に対してパルス列音源と雑音音源を組み合わせた音源を適用する構成 を有する C E L P型音声符号化装置に対して、 パルス列音源のパルス位 置に対応する雑音符号べク トルの振幅を強調する音声符号化装置の音源 生成部を示している。 図 4において、 3 1は振幅強調窓生成器 3 2及び 加算器 3 3に出力されて、 ピッチパルスの位置に置かれたピッチ周期 L の間隔で並べられたィンパルス列からなるパルス列音源、 3 2はパルス 列のパルス位置に対応する位置の雑音符号べク トル振幅を強調するため の振幅強調窓を生成して、 乗算器 3 5に出力する振幅強調窓生成器、 3 3はパルス列音源と乗算器 3 5から出力された振幅強調窓掛け後の雑音 符号べク トルを加算して、 励振べク トルとして出力する加算器、 3 4は 雑音符号ベク トルで表現され、 乗算器 3 5へ出力される雑音音源、 3 5 は雑音音源 3 4から出力された雑音音源べク トルに対して振幅強調窓生 成器 3 2から出力された振幅強調窓を乗ずる乗算器である。
以上のように構成された音源生成部について、 図 4を用いてその動作 を説明する。 パルス列音源 3 1は、 ピッチ周期 Lと初期位相 Pによって パルスの位置と間隔が決定されているパルス列であり、 ピッチ周期 L及 び初期位相 Pは音源生成部の外部で別途計算される。 なお、 パルス列音 源は、 インパルスを並べたものでも良いが、 サンプリ ング点とサンプリ ング点の間に存在するのィ ンパルスを表現できる方が性能がよい。 同様 に初期位相 (最初のパルスの位置) も、 サンプリ ング点とサンプリ ング 点の間を表現できる分数精度で表す方が性能が良くなるが、 この情報に 割り当てることが可能なビッ ト数が十分でない場合は、 整数精度でも良 い性能が得られ、 位置決定のための探索も容易である。
振幅強調窓生成器 3 2は、 パルス列音源べク トルのパルスの位置に対 応する位置の雑音音源べク トルの振幅を強調するための窓であり、 第 1 実施例で説明した振幅強調窓と同様のものである。 パルスの位置を中心 とする三角窓などを用いることができる。
加算器 3 3は、 パルス列音源べク トル 3 1 と振幅強調窓が乗算器 3 5 によって乗ぜられた雑音音源べク トル 3 4 とを加算して、 励振音源べク トルとして出力する。
なお、 図 4には示されていないが、 加算器 3 3に入力される前にパル ス列音源べク トル及び雑音音源べク トルのそれそれに適切な利得を乗ず る構成にすると、 より表現性の高い音源生成部となる。 ただし、 その場 合、 利得情報を別途伝送する必要が生ずる。 また、 パルス列音源ぺク ト ルと雑音音源べク トルの利得を固定する場合は、 パルス列音源べク トル が雑音音源べク トルに埋もれてしまわないように、 パルス列音源べク ト ルのパワーと雑音音源べク トルのパワーが等しくなるように調整するな どの利得調整は必要である。
このように、 上記第 2実施例によれば、 雑音音源ベク トルの振幅をビ ツチ周期に同期して強調することによって、 音質向上を図ることができ る o <第 3実施例 >
図 5は本発明の第 3実施例を示し、 C E L P型音声符号化装置におい て、 適応符号べク トルのピッチピーク近傍のみに限定した雑音符号べク トルを用いた音声符号化装置の音源生成部を示す。
図 5において、 4 1は適応符号ベク トルを出力する適応符号帳、 4 2 は適応符号帳 4 1から出力された適応符号べク トルとピッチ周期 Lを入 力として、 ピッチビークの位置 (位相情報) を雑音符号ベク トル生成器 4 4に出力する位相探索器、 4 3はピッチピークの近傍のみにべク トル 長を限定した雑音符号べク トルを格納し、 ピッチパルス位置近傍の雑音 符号べク トルを雑音符号べク トル生成器 4 4に出力するピッチパルス位 置近傍限定型雑音符号帳、 4 4はピッチパルス位置近傍限定型雑音符号 帳 4 3から出力された雑音符号べク トルと位相探索器 4 2から出力され た位相情報とピッチ周期 Lを入力として、 雑音符号べク トルを周期化器 4 5に出力する雑音符号べク トル生成器、 4 5は雑音符号べク トル生成 器 4 4から出力された雑音符号べク トルとピッチ周期 Lを入力として、 最終的な雑音符号べク トルを出力する周期化器である。
以上のように構成された音声符号化装置の音源生成部について、 図 5 を用いてその動作を説明する。 位相探索器 4 2は、 適応符号帳 4 1から 出力された適応符号べク トルを用いて、 適応符号べク トル内に存在する ピッチパルスの位置 (位相) を決定する。 ピッチパルスの位置は、 ピッ チ周期で並べたィンパルス列と適応符号べク トルとの正規化相互相関を 最大化することによって行うことができる。 また、 ピッチ周期で並べた ィンパルス列を合成フィル夕に通したものと、 適応符号べク トルを合成 フィル夕に通したもとの誤差を最小化することによって、 より精度良く 求めることも可能である。
ピッチパルス位置近傍限定型雑音符号帳 4 3は、 適応符号べク トルの ピッチビーク近傍に適用するための雑音符号べク トルを格納しており、 ベク トル長は、 ピッチ周期やフレーム (サブフレーム) 長によらず固定 長である。 ピッチビーク近傍の範囲としては、 ピッチビークを中心とし て前後等しい長さとしてもよいが、 ピツチピークの後の範囲を前よりも 長く取る方が、 音質劣化が少ない。 例えば、 近傍の範囲を 5 ms e cと した場合、 ピッチピークの前後を 2. 5 m s e cずつ取るよりも、 ピッ チビ一クの前を 0. 6 2 5 ms e c、 ピッチビークの後ろを 4. 3 7 5 m s e cの様にした方が良い。 また、 べク トル長としては、 サブフレー ム長が 1 0 ms e cの場合で、 5 ms e c程度であればべク トル長を 1 0 ms e c以上にした場合とほぼ同等の音質を実現できる。
雑音符号べク トル生成器 44は、 ピッチパルス位置限定型雑音符号帳 4 3から出力された雑音符号ベク トルを、 位相探索器 4 2によって決定 されたピヅチパルスの位置に配置する。
図 6 ( a) 、 6 ( b) 及び図 7 ( a) 、 7 ( b ) はビヅチパルス位置 限定型雑音符号帳 4 3から出力された雑音符号べク トルを、 雑音符号べ ク トル生成器 44によってピッチパルス位置に対応する位置に配置する 方法を図解したものである。 基本的には、 図 6 ( a) に示すように、 ピ ツチパルス位置の近傍にビツチパルス位置限定雑音符号べク トルを配置 する。 図 6 ( a) 、 6 (b) において、 ピッチ周期化範囲と示されてい る部分 (斜線部) は、 周期化部 4 5においてピッチ周期化する場合に対 象となる部分である。 図 6 ( a) のような場合、 雑音符号べク トル生成 器 44においてピッチ周期化を行う必要はないが、 図 6 (b) に示すよ うな場合には、 ピッチパルスの位置がサブフレーム境界の近くにあるた め、 ピッチパルス位置限定型雑音符号帳 4 3から出力された雑音符号べ ク トルの前半部 (サブフレーム境界より前の部分) を周期化部 4 5にお いて周期化することができないので (周期化部 4 5においては、 サブフ レーム境界からピッチ周期長だけ切り出したべク トルをピッチ周期で繰 り返し並べる。 ) 、 雑音符号べク トル生成器 44において予めピッチ周 期化するように動作させる。 また、 サブフレーム境界の直前にピッチパ ルス位置がある場合、 サブフレームの先頭からピッチ周期だけ切り出し て周期化すると、 ピッチパルス位置近傍限定べク トルの後半部分が適切 にピッチ周期化されないため、 図 7 ( a ) に示すように、 雑音ベク トル 生成器 4 4は時間軸の負の方向にもピッチ周期化するように動作する。 ただし、 ビツチパルス位置がサブフレーム先頭からビツチ周期長の間に 存在しない場合はこの周期化は必要ない。 このようにピツチ周期化部 4 5に先立ってビッチ周期化を行なっておく ことにより、 ピッチ位置近傍 限定べク トルの全ての部分を有効に用いたピッチ周期化がビツチ周期化 部 4 5で行われるようにしている。 なお、 ピッチ周期がピッチパルス位 置近傍に限定したべク トル長より短い場合は、 限定べク トルの中からビ ツチ周期長だけ切り出してピッチ周期化を行う。 この場合、 切り出し方 はいろいろ考えられるが、 ピッチパルス位置が切り出したべク トルに含 まれるように切り出す。 例えば、 ビツチパルス位置から 4分の 1 ピッチ 周期前の点から 1 ピッチ周期分を切り出すというように、 ピッチパルス 位置とピッチ周期を用いて切り出し開始点を決定する。
図 7 ( b ) はピッチ周期が限定べク トル長より短い場合の、 雑音符号 ベク トルの切り出し方法の一例を示す。 この場合、 ピッチパルス位置近 傍限定雑音符号べク トルの先頭からビツチ周期長を切り出すようにして いる。 このようにすると切り出し開始点を毎回算出する必要がなくなる c すなわち、 上記したようにピッチパルス位置から 4分の 1 ピッチ周期前 の点から 1 ピッチ周期分を切り出す場合、 ピッチ周期が変数であるため、 4分の 1 ピッチ周期を毎回計算する必要があるが、 ピッチパルス位置近 傍限定雑音符号べク トルの先頭位置は固定値であるため、 この計算が不 要となる。 ただし、 ピッチパルス位置近傍限定雑音符号ベク トルの先頭 からピッチ周期長だけ切り出したべク トルに、 ピッチパルス位置に対応 する部分が含まれない場合は、 ピツチパルス位置に対応する部分が含ま れるように切り出しを開始する位置をずらす必要がある。
周期化器 4 5は、 雑音符号べク トル生成器 4 4から出力された雑音符 号ベク トルをピッチ周期化する。 ピッチ周期化は、 雑音符号ベク トルを ピッチ周期で周期化するもので、 雑音符号ベク トルを先頭からピッチ周 期 Lの分だけ切り出し、 それをサブフ レーム長に達するまで複数回繰り 返して接続することによって行われる。 ただし、 ピッチ周期化が行われ るのは、 ピッチ周期がサブフ レーム長以下の場合のみである。 なお、 分 数精度のビツチ周期の場合は、 分数精度の点を補間によって算出して得 られるべク トルを接続する。
このように、 上記第 3実施例によれば、 適応符号ベク トルのピッチピ —ク近傍のみに限定した雑音符号べク トルを用いることにより、 雑音符 号べク トルに割り当てられるビッ ト数が少ない場合でも、 音質劣化を少 なくでき、 ビツチパルス近傍に残差パワーが集中するような有声部で音 質向上を図ることができる。 く第 4実施例 >
図 8は本発明の第 4実施例を示し、 パルス位置の探索範囲を適応符号 べク トルのビッチ周期及びビツチビーク位置によって決定する音声符号 化装置の音源生成部を示す。 図 8において、 5 1は過去の励振音源べク トルを保存し、 選択された適応符号べク トルをピッチビーク位置算出器 5 2及びピッチゲイン乗算器 5 5に出力する適応符号帳、 5 2は適応符 号帳 5 1から出力された適応符号べク トルとピッチ周期 Lを入力として ピッチビーク位置を算出し、 探索範囲算出器 5 3に出力するピッチピー ク位置算出器、 5 3はピッチビーク位置算出器 5 2から出力されたピッ チビーク位置とピッチ周期 Lを入力としてパルス音源を探索する範囲を 算出し、 パルス音源探索器 5 4へ出力する探索範囲算出器、 5 4は探索 範囲算出器 5 3から出力された探索範囲と、 ピッチ周期 Lを入力として パルス音源を探索し、 パルス音源べク トルをパルス音源ゲイ ン乗算器 5 6に出力するパルス音源探索器、 5 5は適応符号帳から出力された適応 符号ベク トルにピッチゲインを乗じて加算器 5 7に出力する乗算器、 5 6はパルス音源探索器から出力されたパルス音源べク トルにパルス音源 ゲイ ンを乗じて加算器 5 7に出力する乗算器、 5 7は乗算器 5 5からの 出力と乗算器 5 6からの出力を入力とし、 加算して、 励振音源べク トル として出力する加算器である。
以上のように構成された、 音源生成部の動作について、 図 8を用いて 説明する。 図 8において、 適応符号帳 5 1は、 音源生成部の外部で予め 算出されるビツチ周期 Lだけ過去にさかのぼった点から、 適応符号べク トルをサブフレーム長だけ切り出して、 適応符号べク トルとして出力す る。 ピッチ周期 Lがサブフレーム長に満たない場合は、 切り出したビッ チ周期 Lのベク トルを、 サブフレーム長に達するまで繰り返して接続し たものを適応符号べク トルとして出力する。
ピッチビーク位置算出器 5 2は、 適応符号帳 5 1から出力された適応 符号べク トルを用いて適応符号べク トル内に存在するピッチパルスの位 置を決定する。 ピッチパルスの位置は、 ピッチ周期で並べたインパルス 列と適応符号べク トルとの正規化相互相関を最大化することによって行 うことができる。 また、 ビヅチ周期で並べたインパルス列を合成フィル 夕に通したものと、 適応符号べク トルを合成フィル夕に通したもとの誤 差を最小化することによって、 より精度良く求めることも可能である。 探索範囲算出器 5 3は、 入力されたピッチピーク位置及びピッチ周期 Lを用いて、 パルス音源を探索する範囲を算出する。 すなわち、 ピッチ ビークの位置情報から 1 ピッチ波形の中でも聴覚的に重要な範囲を算出 し、 その範囲を探索範囲として決定する。 探索範囲算出器 5 3によって 決定される具体的な探索範囲を図 9及び図 1 0に示す。 図 9 ( a ) にお いては、 ピッチピーク位置から 5サンプル前の位置から始めて 3 2サン プルの範囲を探索範囲として決定する場合を示している。 有声部におい ては、 予めピッチ周期で並べたインパルス列をパルス音源.として用いる ようにすれば、 2番目のパルスの探索範囲の同じ位置にパルスを立てら れ、 効率的に音源を表現できる。 図 9 ( b ) は、 ピッチ周期が図 9 ( a ) の時よりも長くなった場合に決定される探索範囲の一例を示している。 ピッチ周期が長い場合、 図 9 ( a ) のようにピッチパルス近傍を集中的 に探索するようにすると、 1 ピッチ波形に対する相対的な探索範囲が狭 くなり、 表現できる周波数帯域が狭まるなどして、 特定の帯域の周波数 成分の表現性が悪くなる場合がある。 このような場合は、 図 9 ( b ) に 示すように、 ピッチ周期に応じて探索範囲を広げる代わりに、 全てのサ ンプル点を探索せずに 1つおきあるいは 2つおきのサンプル点を探索す る部分を設けることで、 探索する位置の数を増やさずに、 特定の帯域の 周波数成分の表現性が悪くなることを回避することができる。
また、 図 1 0にはピッチパルス位置近傍は密に、 それ以外の部分は疎 に、 パルス位置探索範囲を限定する方法を示している。 この限定方法は、 パルスが立てられる確率が高い位置がビッチパルス近傍に集中する統計 的結果に基づいている。 パルス位置探索範囲を限定しない場合、 有声部 においてはビツチパルス近傍にパルスが立てられる確率がその他の部分 に立てられる確率に比べて高くなる。 ただし、 その他の部分にパルスが 立てられる確率が無視できるほど小さくなるわけではない。 図 1 0に示 すパルス位置探索範囲限定方法は、 図 9 ( b ) に示す方法において、 パ ルスが立てられる確率分布に基づいて探索範囲限定を行う一例と言える。 なお、 図 9 ( a ) において、 ピッチ周期が短く、 最初のパルスの探索範 囲が 2番目のパルスの探索範囲と重なるような場合は、 2番目のパルス の探索範囲に重ならないように、 最初のパルスの探索範囲を狭める代わ りにパルス数を増やすという方法と、 2番目のパルスの探索範囲に重な つた探索範囲に決定する方法 (図 9 ( a ) と同じ探索範囲決定方法) と がある。
パルス位置探索器 5 4は、 探索範囲算出器 5 3で決定された探索範囲 (位置) にパルス音源を立てて、 合成音声が入力音声と最も近くなる位 置を出力する。 特に、 サブフレーム長が複数のピッチパルスを含むよう な長さでかつ有声定常部においては、 ピッチ周期間隔で並べたインパル ス列をパルス音源としてィ ンパルス列の 1本目のパルス位置を探索範囲 の中から決定するのが効率的である。 パルスの立て方としては種々考え られ、 定数本例えば 4本のパルスを探索範囲、 例えば 3 2箇所の位置の どこかに立てる場合、 3 2箇所を 4つに分けて 1本のパルスを割り当て られた 8箇所の中の 1箇所に決定するように全ての組み合わせ ( 8 x 8 X 8 X 8通り) を探索する方法や、 3 2箇所の中から 4箇所を選びだす 組み合わせ全てについて探索する方法などがある。 なお、 振幅 1のイ ン パルスの組み合わせの他に、 複数本例えば 2本のパルスを組み合わせた パルス対の組み合わせや、 振幅の異なるィ ンパルスの組み合わせによる パルスの立て方も可能である。
乗算器 5 5及び 5 6で乗ずる利得は、 適応符号帳 5 1から出力された 適応符号べク トルとパルス位置探索器 5 4から出力されたパルス音源べ ク トルとを用いて音声合成を行って、 入力音声との誤差が最小となるよ うにそれそれのベク トルに対して決定された値である。 ここで、 適応符 号べク トルに乗ずる利得をピッチゲイン、 パルス音源ベク トルに乗ずる 利得をパルス音源ゲインとすると、 乗算器 5 5は、 適応符号ベク トルに ピッチゲインを乗じて、 加算器 5 7に出力する。 乗算器 5 6は、 パルス 音源べク トルにパルス音源ゲインを乗じて、 加算器 5 7に出力する。 加算器 5 7は、 乗算器 5 5から出力された最適利得乗算後の適応符号 べク トルと、 乗算器 5 6から出力された最適利得乗算後のパルス音源べ ク トルとを加算して、 励振音源ベク トルとして出力する。
このように、 上記第 4実施例によれば、 パルスに割り当てられるビッ ト数が少ない場合でも、 音質劣化を少なくできる。
<第 5実施例 >
図 1 1 ( a ) は本発明の第 5実施例を示し、 パルス位置の探索位置を適 応符号べク トルのピッチ周期及びピッチビーク位置によって決定する音 源生成部のパルス探索位置决定部を示し、 図 8における探索範囲算出器 5 3をさらに細かく示したものである。 図 1 1 ( a ) において、 6 1は、 ピッチ周期 Lを入力として、 パルス探索位置決定器 6 2にパルス探索位 置パターンを出力する、 パルス探索位置パターン選択器であり、 6 2は、 パルス探索位置パターン選択器 6 1からパルス探索位置パターンを、 ビ ツチビーク位置算出器 5 2からピッチビーク位置を、 それそれ入力し、 探索範囲 (パルス探索位置) をパルス位置探索器 5 4に出力する、 パル ス探索位置決定器である。
以上のように構成された、 音源生成部の探索範囲算出器 5 3の動作に ついて、 図 1 1 ( a ) 、 1 1 ( b ) 、 1 1 ( c ) を用いて説明する。 パ ルス探索位置パターン選択器 6 1は、 複数種類のパルス探索位置パター ンをあらかじめ持っており (このパルス探索位置パターンは、 パルス探 索を行うサンブル点の位置の集合から成り、 ピッチビーク位置を 0とす る相対位置でサンプル点を表現している) 、 ピッチ分析によって得られ たピッチ周期 Lを用いて、 どのパルス探索位置パターンを使用するかを 決定し、 パルス探索位置パターンをパルス探索位置決定器 6 2に出力す る。
図 1 1 (b) 、 1 1 ( c) は、 パルス探索位置パターン選択器 6 1が、 予め持っているパルス探索位置パターンの一例を示したものである。 図 中の目盛りはサンプル点の位置を示しており、 矢印がつけられたサンプ ル点がパルス探索位置である (矢印が付いていない部分は探索しない) c 目盛りの数値は適応符号べク トルから求められるピッチビーク位置を 0 とした相対位置を表す数値である。 また、 図 1 1 (b) 、 1 1 ( c ) で は、 1サブフレーム 80サンプルの場合を示している。 図 1 1 (b) で はピッチ周期 Lが長い (たとえば 45サンブル以上) の場合の探索位置 パターンを示しており、 図 1 1 ( c) ではピッチ周期 Lが短い (たとえ ば 44サンプル未満) の場合の探索位置パターンを示している。 ピッチ 周期 Lが短い場合はサブフレーム全体の探索をしないこととなるが、 ピ ツチ周期化処理を行うことによって、 サブフレーム全体にパルスを立て ることが可能となる。 ビツチ周期化は、 下記式 ( 1 ) を用いることによ つて容易に行うことができる (ITU- T STUDY GROUP 15 - CONTRIBUTION 1 52, "G.729-C0DING OF SPEECH AT 8 KBIT/S USING CONJUGATE-STRUCTUR E ALGEBRAIC-CODE-EXCITED LINEAR-PREDICTION(CS-ACELP )", COM 15-1 52- E July 1995) 。
c o d e ( i ) = c o d e ( i ) + 5 x c o d e ( i - L )
. . . ( 1 ) 式 ( 1 ) において、 c o d e () はパルス音源べク トルを表し、 iはサ ンブル番号 (図 1 1の例では、 0 ~ 79 ) を表す。 また、 ^は周期化の 強さを示す利得値で、 周期性が強い場合は大きく周期性が弱い場合は小 さくする (一般的には 0〜 1. 0の値を用いる) 。 図 1 1 ( c) では (—4) 〜48サンプルの範囲 ( 53サンプルの範囲) でパルス探索を 行うこととなる。 このため、 ピッチ周期 が 53 (又は 54 ) 未満の場 合に図 1 1 ( c ) の探索範囲パターンを用いることも可能である。 しか し、 ピッチ周期 Lが 4 5サンプル程度未満の場合にすることによって、 2つのピッチビーク位置を探索範囲内に含むことができ、 1周期目のビ ツチパルス波形と 2周期目のピッチパルス波形が変化する場合や、 求め られたピッチビーク位置が実際のピッチビーク位置よりも 1周期前の位 置として誤検出された場合に対応することができる。
パルス探索位置決定器 6 2は、 パルス探索位置パターン選択器から出 力されたパルス探索位置パターンを用いて現サブフレームにおけるパル ス探索位置を決定し、 パルス位置探索器 5 4に出力する。 パルス探索位 置パターン選択器 6 2から出力されるパルス探索位置パターンは、 ビッ チビーク位置を 0 とする相対位置で表現されているため、 そのままでは パルス探索に用いることができない。 このため、 サブフレームの先頭を 0とする絶対位置に変換してパルス位置探索器 5 4に出力する。 <第 6実施例 >
図 1 2は本発明の第 6実施例を示し、 パルス位置の探索位置を適応符 号べク トルのビツチ周期及びピッチビーク位置によって決定するととも に、 パルス音源に使用するパルス数を切り替える構成を有する音声符号 化装置の音源生成部を示す。 図 1 2において、 7 1は、 適応符号べク ト ルをピッチビーク位置算出器 7 2 と乗算器 7 6に出力する、 適応符号帳、 7 2は、 ピッチ分析あるいは適応符号帳探索によって外部で求められた ピッチ周期 Lと適応符号帳から出力された適応符号べク トルを入力とし、 ピッチビーク位置を探索位置算出器 7 4に出力する、 ピッチビーク位置 算出器、 Ί 3はピッチ分析あるいは適応符号帳探索によって外部で求め られたピッチ周期 Lを入力として、 パルス数を探索位置算出器 7 4に出 力するパルス数決定器、 7 4はビツチ分析あるいは適応符号帳探索によ つて外部で求められたピッチ周期 Lとパルス数決定器 7 3から出力され たパルス数とビツチビーク位置算出器 7 2から出力されたピッチピーク 位置を入力とし、 パルスの探索位置をパルス位置探索器 7 5に出力する 探索位置算出器、 7 5はピッチ分析あるいは適応符号帳探索によって外 部で求められたピッチ周期 Lと探索位置算出器 7 4から出力されたパル ス探索位置を入力とし、 パルス音源に用いるパルスを立てる位置の組み 合わせを決定してその組み合わせによって生成されるパルス音源べク ト ルを乗算器 7 7に出力するパルス位置探索器、 7 6は、 適応符号帳から 出力された適応符号べク トルを入力とし、 適応符号べク トル利得を乗じ て加算器 7 8に出力する乗算器、 7 7は、 パルス位置探索器から出力さ れたパルス音源べク トルを入力とし、 パルス音源べク トル利得を乗じて 加算器 7 8に出力する乗算器、 7 8は乗算器 7 6及び 7 7から出力され たべク トルを入力とし、 べク トル加算をおこなって音源べク トルとして 出力する加算器である。
以上のように構成された C E L P型音声符号化装置の音源生成部の動 作について、 図 1 2を参照しながら説明する。 適応符号帳 7 1から出力 された適応符号べク トルは乗算器 7 6に出力され、 適応符号べク トル利 得が乗算されて加算器 7 8に出力される。 ピッチビーク位置算出器 7 2 は適応符号べク トルからピッチビークを検出し、 その位置を探索位置算 出器 7 4に出力する。 ピッチビーク位置の検出 (算出) は、 ピッチ周期 Lで並べたィンパルス列べク トルと適応符号べク トルの内積を最大化す ることによって行うことができる。 また、 ピッチ周期 Lで並べたイ ンパ ルス列べク トルに合成フィル夕のィ ンパルス応答を畳み込んだべク トル と適応符号べク トルに合成フィル夕のイ ンパルス応答を畳み込んだべク トルの内積を最大化することによって、 より精度良く ピッチビーク位置 の検出を行うことも可能である。 パルス数決定器 7 3はピッチ周期 Lの値に基づいて、 パルス音源に使 用するパルスの本数を決定して、 探索位置算出器 7 4に出力する。 パル ス数とピツチ周期の関係は予め学習的あるいは統計的に定められており、 たとえばピッチ周期が 4 5サンプル以下の場合は 5本、 4 5サンプルを 超えて 8 0サンプル未満の場合は 4本、 8 0サンプル以上の場合は 3本、 というようにビツチ周期の値の範囲によってそれそれのパルス本数が定 められている。 ビツチ周期が短い場合はビツチ周期化処理を用いること によってパルス探索範囲を 1〜 2 ピッチ周期に限定できるので、 位置情 報を減らす代わりにパルス数を増やすことができる。 また、 波形的にも ピッチ周期が短い女声とピッチ周期の長い男声では、 波形の特徴が異な り、 それそれに適したパルス数が存在する。
一般的には、 男声の方がパルス性が強いためパルス数よりもパルス位 置が重要となる傾向があり、 女声ではパルス性が弱い為パルス数を増や してパワーの集中を避けた方が良くなる傾向がある。 これらのことから、 ピッチ周期が長い場合はパルス数を少なく、 ピッチ周期が短い場合はあ る程度パルス数を多くすることが有効となる。 さらに、 連続するサブフ レーム間のパルス本数の変化ゃビツチ周期 Lの変化などを考慮に入れて パルス数を決定すると、 連続するサブフレーム間の不連続性緩和や有声 部の立ち上がり部の品質向上を図ることができる。 具体的には、 連続す るサブフレームで、 ピッチ周期 Lから決定されたパルス数が 5本から 3 本に減少したときは、 パルス数の減少にヒステリシスを持たせて、 5本 から急に 3本に減らすのではなく 4本にすることによってサブフレーム 間でパルス数が大きく変化することを避けるようにする、 あるいは、 連 続するサブフレーム間でビツチ周期 Lが大きく異なる場合は、 有声部の 立ち上がりである可能性が大きいので、 パルス数を減らしてパルス位置 の精度を向上させた方が音声品質が向上するため、 前サブフ レームのビ ツチ周期 Lと現サブフレームのビツチ周期 Lが大きく異なる場合は現サ ブフレームのピッチ周期 Lの値に関わらずパルス数を 3本とする、 等と いう手法によってパルス数の决定を行うとより音声品質の向上を図るこ とが可能である。 なお、 これらの手法を用いる場合には、 ピッチ分析に おける倍ピッチ誤りや半ピッチ誤り等の影響を受けやすくなるので、 こ れらの影響を緩和するパルス数決定法 (たとえば、 半ピッチや倍ピッチ の可能性を考慮に入れてビツチ周期の連続性を判定するなど) を取り入 れたり、 ピッチ分析の精度をでき得る限り上げると、 より効果的である。 探索位置算出器 7 4は、 ピッチピーク位置とパルス本数をもとにして、 パルス探索を行う位置を決定する。 パルスの探索位置はピッチピーク付 近は密に、 それ以外の部分は疎になるように配分される (全てのサンプ ル点を探索するだけの十分なビッ ト配分がないときに有効である) 。 す なわち、 ビツチビーク位置近傍は全てのサンプル点がパルス位置探索の 対象となるが、 ビツチビーク位置から離れた部分は 2サンプル每ゃ 3サ ンプル毎というようにパルス位置探索の間隔を広く する (たとえば、 図 1 1 ( b ) 、 1 1 ( c ) のように探索位置を決定する) 。 また、 ノヽ'ル ス数が多いときは 1本あたりのパルスに配分されるビッ ト数は少なくな るた め、 疎になる部分の間隔がパルス数が少ない場合より広くなる (パ ルス位置の精度が荒くなる) 。 なお、 ピッチ周期が短い場合は、 第 5実 施例に示したように、 サブフレーム内の最初のピヅチピークから 1 ビヅ チ周期強の範囲のみに探索範囲を限定すると、 より音声品質を向上する ことが可能である。
パルス位置探索器 7 5は、 探索位置算出器 7 4で決定された探索位置 に基づいてパルスを立てる位置の最適な組み合わせを決定する。 パルス 探索の方法は 「 ITU- T STUDY GROUP 15 - CONTRIBUTION 152, " G.729-C0 DING OF SPEECH AT 8 KBIT/S USING CONJUGATE-STRUCTURE ALGEBRAIC- C ODE-EXCITED LINEAR-PREDICTION (CS-ACELP)", COM 15-152-E July 199 5 」 に示されているように、 たとえばパルス数が 4本の場合は式 (2) を最大化するように i 0から i 3の組み合わせを決定する。
(DNxDN) /RR
DN = d n ( i O) +dn ( i l ) +dn ( i 2) + dn ( i 3)
R R = r r ( i 0, i 0 ) +
r r ( i l , i l) + 2 x r r ( i O, i l ) + r r ( i 2 , i 2 ) + 2 x (r r ( i 0 , i 2 ) +
r r ( i 1, i 2 ) ) + r r ( i 3 , i 3) + 2 x (r r ( i O, i 3) +
r r ( i 1 , i 3 ) + r r ( i 2 , i 3 ) )
. . . (2) ここで、 dn ( i ) ( i = 0〜79 : サブフレーム長 80サンブルの場 合) はパルス音源成分の夕ーゲッ 卜ベク トル X ' ( i ) を合成フィル夕 のインパルス応答でバックワードフィル夕リングしたもので、 r r ( i, i ) は、 式 ( 3) のようにインパルス応答の自己相関行列である。 また、 i 0、 i l、 i 2、 i 3が取り得る位置の範囲は探索位置算出器 74で 求められたものである。 具体的にはパルス数が 4本の場合、 図 13 (a) 〜1 3 (d) のようになる (図中矢印をつけた部分が取り得る位置、 な お、 目盛りの数値はピッチビーク位置を 0とした相対値である) 。 dn(j) = ^ Λ'(Ι)Λ(Ι—"),"- 0,1 ,..., 79
rr(i,j) = 79 h{n - i)h{n - j), i - 0,1"."79, j - i,i + 1 79 . . . (3) パルス位置探索器 75によって、 最適パルス位置の組み合わせた決定 されると、 その組み合わせによって生成されるパルス音源べク トルが乗 算器 7 7に出力され、 パルス符号ベク トル利得が乗算され、 加算器 7 8 に出力される。
加算器 7 8は適応符号べク トル成分とパルス音源べク トル成分の加算 を行い、 励振音源ベク トルとして出力する。
<第 7実施例 >
図 1 4は、 本発明の第 7の発明の実施例を示し、 パルス探索前にパルス の振幅を決定する構成を有する、 C E L P型音声符号化装置の音源生成 部を示している。 図 1 4において、 8 1は過去の励振音源信号のバヅ フ ァから構成され、 適応符号べク トルをピッチビーク位置算出器 8 2 と乗 算器 8 8に出力する適応符号帳、 8 2はピッチ分析あるいは適応符号帳 探索によって外部で求められたピッチ周期 Lと適応符号帳 8 1から出力 された適応符号べク トルを入力とし、 ピッチピーク位置を探索位置算出 器 8 4 とパルス振幅算出器 8 7に出力するピッチビーク位置算出器、 8 3はピッチ分析あるいは適応符号帳探索によって外部で求められたビッ チ周期 Lを入力として、 パルス数を探索位置算出器 8 4に出力するパル ス数决定器、 8 4はピッチ分析あるいは適応符号帳探索によって外部で 求められたピッチ周期 Lとパルス数決定器 8 3から出力されたパルス数 とビツチビーク位置算出器 8 2から出力されたピッチビーク位置を入力 とし、 パルスの探索位置をパルス位置探索器 8 5に出力する探索位置算 出器、 8 5はピッチ分析あるいは適応符号帳探索によって外部で求めら れたビツチ周期 Lと探索位置算出器 8 4から出力されたパルス探索位置 とパルス振幅算出器 8 7から出力されたパルス振幅を入力とし、 パルス 音源に用いるパルスを立てる位置の組み合わせを決定してその組み合わ せによって生成されるパルス音源べク トルを乗算器 8 9に出力するパル ス位置探索器、 8 6は外部の L P C分析及び L P C量子化器によって決 定された線形予測フ ィル夕によって得られる予測残差信号から、 乗算器
8 8から出力された (利得乗算後の) 適応符号べク トルを減算し、 差分 信号をパルス振幅算出器 8 7に出力する加算器、 8 7は加算器 8 6から 出力された差分信号を入力とし、 パルス振幅情報をパルス位置探索器 8 5に出力するパルス振幅算出器、 8 8は適応符号帳 8 1から出力された 適応符号べク トルを入力として適応符号べク トル利得を乗算し、 加算器
9 0及び 8 6に出力する乗算器、 8 9は、 パルス位置探索器 8 5から出 力されたパルス音源べク トルを入力としてパルス音源べク トル利得を乗 算し、 加算器 9 0に出力する乗算器、 9 0は乗算器 8 8及び 8 9から出 力されたべク トルの加算をおこない、 励振音源べク トルとして出力する 加算器である。
以上のように構成された C E L P型音声符号化装置の音源生成部につ いて、 図 1 4を用いてその動作を説明する。 適応符号帳 8 1から出力さ れた適応符号ベク トルは乗算器 8 8に出力され、 適応符号ベク トル利得 が乗算されて加算器 9 0及び 8 6に出力される。
ピヅチピーク位置算出器 8 2は適応符号べク トルからビッチビ一クを 検出し、 その位置を探索位置算出器 8 4及びパルス振幅算出器 8 7に出 力する。 ピッチビーク位置の検出 (算出) は、 ピッチ周期 Lで並べたィ ンパルス列べク トルと適応符号べク トルの内積を最大化することによつ て行うことができる。 また、 ピッチ周期 Lで並べたインパルス列べク ト ルに合成フィル夕のイ ンパルス応答を畳み込んだべク トルと適応符号べ ク トルに合成フィル夕のィ ンパルス応答を畳み込んだべク トルの内積を 最大化することによって、 より精度良く ピッチビーク位置の検出を行う ことも可能である。
パルス数決定器 8 3は、 ピッチ周期 Lの値に基づいて、 パルス音源に 使用するパルスの本数を決定して、 探索位置算出器 8 4に出力する。 パ ルス数とビツチ周期の関係は予め学習的あるいは統計的に定められてお り、 たとえばピッチ周期が 4 5サンブル以下の場合は 5本、 4 5サンプ ルを超えて 8 0サンプル未満の場合は 4本、 8 0サンプル以上の場合は 3本、 というようにピッチ周期の値の範囲によってそれそれのパルス本 数が定められている。 さらに、 連続するサブフ レーム間のパルス本数の 変化ゃビツチ周期 Lの変化などを考慮に入れてパルス数を決定すると、 連続するサブフ レーム間の不連続性緩和や有声部の立ち上がり部の品質 向上を図ることができる。 具体的には、 連続するサブフレームで、 ビッ チ周期 Lから決定されたパルス数が 5本から 3本に減少したときは、 パ ルス数の減少にヒステリシスを持たせて、 5本から急に 3本に減らすの ではなく 4本にすることによってサブフレーム間でパルス数が大きく変 化することを避けるようにする、 あるいは、 連続するサブフ レーム間で ピッチ周期 Lが大きく異なる場合は、 有声部の立ち上がりである可能性 が大きいので、 パルス数を減らしてパルス位置の精度を向 tさせた方が 音声品質が向上するため、 前サブフ レームのピッチ周期 Lと現サブフ レ ームのピッチ周期 Lが大きく異なる場合は現サブフレームのピッチ周期 Lの値に関わらずパルス数を 3本とする、 等という手法によってパルス 数の決定を行う とより音声品質の向上を図ることが可能である。 なお、 これらの手法を用いる場合には、 ピッチ分析における倍ピッチ誤りや半 ピッチ誤り等の影響を受けやすくなるので、 これらの影響を緩和するパ ルス数決定法 (たとえば、 半ピッチや倍ピッチの可能性を考慮に入れて ピッチ周期の連続性を判定するなど) を取り入れたり、 ピッチ分析の精 度をでき得る限り上げると、 より効果的である。
探索位置算出器 8 4は、 ピッチビーク位置とパルス本数をもとにして、 パルス探索を行う位置を決定する。 パルスの探索位置はピツチビーク付 近は密に、 それ以外の部分は疎になるように配分される (全てのサンプ ル点を探索するだけの十分なビッ ト配分がないときに有効である) 。 す なわち、 ピッチビーク位置近傍は全てのサンプル点がパルス位置探索の 対象となるが、 ビツチビーク位置から離れた部分は 2サンプル毎や 3サ ンプル毎というようにパルス位置探索の間隔を広くする (たとえば、 図 1 1 ( b ) 、 1 1 ( c ) のように探索位置を決定する) 。 また、 パルス 数が多いときは 1本あたりのパルスに配分されるビッ ト数は少なくなる ため、 疎になる部分の間隔がパルス数が少ない場合より広くなる (パル ス位置の精度が荒くなる) 。 なお、 ピッチ周期が短い場合は実施の形態 5に示したように、 サブフレーム内の最初のピッチビークから 1 ピッチ 周期強の範囲のみに探索範囲を限定すると、 より音声品質を向上するこ とが可能である。
パルス位置探索器 8 5は、 探索位置算出器 84で決定された探索位置 と後述のパルス振幅算出器 8 7で決定されたパルス振幅情報に基づいて パルスを立てる位置の最適な組み合わせを決定する。 パルス探索の方法 は 「 ITU-T STUDY GROUP 15 ― CONTRIBUTION 152,"G.729-CODING OF SPE ECH AT 8 KBIT/S USING CONJUGATE-STRUCTURE ALGEBRAIC-CODE-EXCITED LINEAR-PREDICTION (CS-ACELP)", COM 15-152-E July 1995」 に示され ているように、 たとえばパルス数が 4本の場合は、 式 ( 4 ) を最大化す るように i 0から i 3の組み合わせを決定する。
D N X D N/R R
D N = aOx d n ( i 0 ) +al d n ( i 1 ) + a2 x d n ( i 2 ) +a3 x d n ( i 3 )
RR = aO aOx r r ( i O , i 0 ) +
al al r r ( i l , i 1 ) + 2 a0 al r r ( i O , i 1 ) + a2 x a2 x r r ( i 2 , i 2 ) + 2 x ( aO x a2 x r r ( i 0, i 2 ) + al x a2 x r r ( i l, i 2 ) ) +
a3 x a3 x r r ( i 3 , i 3 ) + 2 x (aOx a3x r r ( i O, i 3 ) + al xa3x r r ( i l , i 3 ) +
a2 xa3x r r ( i 2 , i 3 ) )
. . . (4) ここで、 dn ( i ) ( i = 0〜79 : サブフレーム長 80サンブルの場 合) はパルス音源成分のタ一ゲヅ トべク トルに合成フィル夕のインパル ス応答を畳み込んだもので、 r r ( i , i ) は式 ( 3) のようにイ ンパ ルス応答の自己相関行列である。 また、 i O、 i l、 i 2、 i 3が取り 得る位置の範囲は探索位置算出器 84で求められたものである。 具体的 にはパルス数が 4本の場合、 図 1 3 (a) 〜 13 ( d ) のようになる (図中矢印をつけた部分が取りうる位置、 なお、 目盛りの数値はピッチ ビーク位置を 0とした相対値である) 。 また、 a0、 al、 a2、 a3はパルス 振幅算出器 87で求められたパルス振幅である。
パルス位置探索器 85によって、 最適パルス位置の組み合わせた決定 されると、 その組み合わせによって生成されるパルス音源べク トルが乗 算器 8 9に出力され、 パルス符号ベク トル利得が乗算され、 加算器 90 に出力される。
加算器 86は、 外部で行われる L P C分析によって得られる線形予測 残差信号 (予測残差べク トル) から適応符号べク トル成分 (適応符号べ ク トルに適応符号ベク トル利得を乗算したもの) を減算し、 差分信号を パルス振幅算出器 87に出力する。 なお、 C E L P型音声符号化装置の 音源部においては、 一般的には適応符号べク トル利得と雑音符号べク 卜 ル (本発明ではパルス音源べク トルに相当) 利得は、 適応符号帳探索と 雑音符号帳探索 (本発明ではパルス位置探索に相当) の双方が終わった 後に決定されるため、 適応部号べク トルに適応符号べク トル利得を乗算 したベク トルを、 パルス位置探索以前に得ることはできない。 このため
、 加算器 8 6で減算に使用する適応符号べク トル成分は、 適応符号帳探 索時に式 ( 5 ) から求められる適応符号ベク トル利得 (最終的な最適適 応符号べク トル利得ではない) を適応符号べク トルに乗算したものであ る 一 ∑ _ ^nieO ") ")
8P
∑ (") ")
. . . ( 5 ) ここで、 X ( n ) はいわゆるターゲッ トベク トルで、 ここでは聴覚重み づけした入力信号から現サブフレームの L P C合成フィル夕の零入力応 答を除去したものである。 また、 y ( n ) は合成音声信号のうち、 適応 符号べク トルによって生成される成分で、 ここでは適応符号べク トルに、 現サブフレームの L P C合成フィル夕と聴覚重みづけフィル夕を縦続接 続したフィル夕のインパルス応答を、 畳み込んだものである。
パルス振幅算出器 8 7は、 ピッチビーク位置算出器 8 2によって求め られたピッチビーク位置を用いて、 加算器 8 6から出力された差分信号 をピツチビーク位置近傍とそれ以外の部分に分割し、 それそれの部分の パワーの平均値又はそれぞれの部分に含まれる各サンプル点における信 号振幅の絶対値の平均値を求め、 それそれの振幅をピッチビーク位置近 傍のパルス振幅及びそれ以外の部分のパルス振幅としてパルス位置探索 器 8 5に出力する。 パルス位置探索器 8 5では、 ピッチパルス近傍のパ ルスとそれ以外の部分のパルスとで異なる振幅を用いて式 ( 4 ) の評価 を行い、 パルス位置探索を行う。 パルス位置探索で決定されたパルス位 置とその位置のパルスに割り当てられたパルス振幅によって表現される、 パルス音源べク トルがパルス位置探索器 8 5から出力される。 加算器 9 0は適応符号べク トル成分とパルス音源べク トル成分の加算 を行い、 励振音源ベク トルとして出力する。 ぐ第 8実施例 >
図 1 5は、 本発明の第 8の発明の実施例を示し、 ピッチ周期の連続性 の判定結果に基づいてパルス探索に用いる探索位置を切り替える構成を 有する、 C E L P型音声符号化装置の音源生成部を示している。 図 1 5 において、 9 1は適応符号べク トルをピッチビーク位置算出器 9 2 と乗 算器 9 9に出力する適応符号帳、 9 2は適応符号帳 9 1から出力された 適応符号ベク トルとピッチ周期 Lを入力として、 適応符号ベク トル内の ビツチビーク位置を探索位置算出器 9 4に出力するピッチビーク位置算 出器、 9 3はピッチ周期 Lを入力として、 パルス音源のパルス数を探索 位置算出器 9 4に出力するパルス数決定器、 9 4は、 ピッチ周期 Lとピ ツチビーク位置算出器 9 2から出力されたピッチピーク位置とパルス数 決定器 9 3から出力されたパルス数を入力として、 パルスの探索位置を スィ ッチ 9 8を介してパルス位置探索器 9 7に出力する探索位置算出器、 9 5は、 現サブフレームのピッチ周期 Lを入力とし、 1サブフレーム分 遅延させて判定器 9 6に出力 する遅延器、 9 6は現サブフ レームのビ ツチ周期 Lと遅延器 9 5から出力された前サブフレームのピッチ周期を 入力として、 ピッチ周期の連続性の判定結果をスィ ッチ 9 8に出力する 判定器、 9 7はスィ ツチ 9 8を介して探索位置算出器 9 4から入力され るパルスの探索位置又はスィ ツチ 9 8を介して入力される固定探索位置 と、 スィ ッチ 9 8を介して入力されるピッチ周期 Lをそれそれ入力とし、 入力された探索位置とビツチ周期 Lを用いてパルス位置の探索を行い、 パルス音源ベク トルを乗算器 1 0 0に出力するパルス位置探索器、 9 8 は判定器 9 6から入力される判定結果に基づいて切り替わる連動する 2 系統のスィ ッチで、 一方の系統のスィ ッチは、 パルスの探索位置を探索 位置算出器 9 によって算出された探索位置と ^め定められている固定 探索位置との切り替えに用いられ、 もう一方の系統のスィ ッチは、 ピッ チ周期 Lをパルス位置探索器 9 7に入力するかしないかの O N Z O F F に用いられる。 9 9は適応符号帳 9 1から出力された適応符号ベク トル を入力とし、 適応符号べク トル利得を乗じて加算器 1 0 1に出力する乗 算器、 1 0 0はパルス位置探索器 9 7から出力されたパルス音源べク ト ルを入力とし、 パルス音源べク トル利得を乗じて加算器 1 0 1に出力す る乗算器、 1 0 1は乗算器 9 9及び 1 0 0から入力されたべク トルの加 算を行い、 励振音源ベク トルとして出力する加算器である。
以上の様に構成された、 C E L P型音声符号化装置の音源生成部につ いて、 図 1 5を用いてその動作を説明する。 適応符号帳 9 1は、 過去の 励振音源のバッファによ り構成され、 外部のピッチ分析又は適応符号帳 探索手段によって求められたピッチ周期又はピッチラグに基づいて励振 音源のバッファから該当する部分を取り出し、 適応符号べク トルとして ピッチビーク位置算出器 9 2及び乗算器 9 9に出力する。 適応符号帳 9 1から乗算器 9 9に出力された適応符号べク トルは、 適応符号べク トル 利得が乗算されて加算器 1 0 1に出力される。
ピッチビーク位置算出器 9 2は、 適応符号べク トルからピッチビーク を検出し、 その位置を探索位置算出器 9 4に出力する。 ピッチビーク位 置の検出 (算出) は、 ピッチ周期 Lで並べたィ ンパルス列べク トルと適 応符号べク トルの内積を最大化することによって行うことができる。 ま た、 ビツチ周期 Lで並べたィンパルス列べク トルに合成フィル夕のィ ン パルス応答を畳み込んだべク トルと適応符号べク トルに合成フィル夕の ィンパルス応答を畳み込んだべク トルの内積を最大化することによって、 より精度良く ピッチビーク位置の検出を行うことも可能である。 パルス数決定器 9 3はピッチ周期 Lの値に基づいて、 パルス音源に使 用するパルスの本数を決定して、 探索位置算出器 9 4に出力する。 パル ス数とビツチ周期の関係は予め学習的あるいは統計的に定められており、 たとえばピッチ周期が 4 5サンブル以下の場合は 5本、 4 5サンプルを 超えて 8 0サンプル未満の場合は 4本、 8 0サンプル以上の場合は 3本、 というようにビツチ周期の値の範囲によってそれそれのパルス本数が定 められている。
探索位置算出器 9 4は、 ピッチピーク位.置とパルス本数をもとにして、 パルス探索を行う位置を決定する。 パルスの探索位置はピッチピーク付 近は密に、 それ以外の部分は疎になるように配分される (全てのサンプ ル点を探索するだけの十分なビッ ト配分がないときに有効である) 。 す なわち、 ビツチビーク位置近傍は全てのサンプル点がパルス位置探索の 対象となるが、 ビツチピーク位置から離れた部分は 2サンプル毎や 3サ ンプル毎というようにパルス位置探索の間隔を広くする (たとえば、 図 1 1 ( b ) 、 ( c ) のように探索位置を決定する) 。 また、 パルス数が 多いときは 1本あたりのパルスに配分されるビッ ト数は少なくなるため、 疎になる部分の間隔がパルス数が少ない場合より広くなる (パルス位置 の精度が荒くなる) 。 なお、 ピッチ周期が短い場合は実施の形態 5に示 したように、 サブフレーム内の最初のビツチビークから 1 ピッチ周期強 の範囲のみに探索範囲を限定すると、 より音声品質を向上することが可 能 < め 。
パルス位置探索器 9 7は、 探索位置算出器 9 4で決定された探索位置 又は予め決められている固定探索位置とピッチ周期 Lに基づいてパルス を立てる位置の最適な組み合わせを決定する。 パルス探索の方法は 「 I TU-T STUDY GR0UP15 - CONTRI BUTION 152 , "G . 729-COD ING OF SPEECH AT 8 KB IT/S USING CONJUGATE-STRUCTURE ALGEBRAIC-CODE-EXC ITED L INEA -PRED ICT ION ( CS-ACELP )" , COM 15-152-E July 1995 j に示されている ように、 たとえばパルス数が 4本の場合は式 ( 2 ) を最大化するように i 0から i 3の組み合わせを決定する。
スィ ッチ 9 8の切り替えは、 判定器 9 6の判定結果に基づいて行われ る。 判定器 9 6は、 現サブフレームのピッチ周期 Lと遅延器 9 5から入 力された直前のサブフレームにおけるビッチ周期を用いて、 ビツチ周期 が連続しているか否かを判定する。 具体的には、 現サブフレームのビッ チ周期の値と直前のサブフレームのビツチ周期の値の差が予め定められ たあるいは計算により求められた閾値以下の場合に、 ピツチ周期が連続 していると判定する。 ピッチ周期が連続であると判定された場合、 現サ ブフレームは有声 ' 有声定常部であるとみなし、 スィ ッチ 9 8は探索位 置算出器 9 4 とパルス位置探索器 9 7を接続し、 ピッチ周期 Lをパルス 位置探索器 9 7に入力する (スィ ッチ 9 8の一方の系統は探索位置算出 器 9 4に切り替えられ、 もう一方の系統は O N状態となってピッチ周期 Lをパルス位置探索器 9 7に入力する) 。 ピッチ周期が連続でない (現 サブフ レームのビツチ周期と直前のサブフ レームのピッチ周期の差が閾 値を超えてい) と判定された場合、 現サブフレームは有声 · 有声定常部 でない (無声部 ' 有声立ち上がり部である) とみなし、 スイ ッチ 9 8は 予め定められている固定探索位置をパルス探索器 9 7に入力し、 ピッチ 周期 Lはパルス位置探索器に入力しない (スィ ッチ 9 8の一方の系統は 固定探索位置に切り替えられ、 もう一方の系統は 0 F F状態となってビ ツチ周期 Lはパルス位置探索器 9 7に入力されない) 。
パルス位置探索器 9 7によって、 最適パルス位置の組み合わせた決定 されると、 その組み合わせによって生成されるパルス音源べク トルが乗 算器 1 0 0に出力され、 パルス符号ベク トル利得が乗算され、 加算器 1 0 1に出力される。 加算器 1 0 1は適応符号べク トル成分とパルス音源べク トル成分の加 算を行い、 励振音源べク トルとして出力する。
なお、 図 1 6に示した表は図 1 5の固定探索位置の内容の一例を示し ている。 図 1 6 ( b ) は、 図 1 3に示した探索位置と同様に 1 パルスあ たり 8個所の位置を割り当てた場合に、 サブフ レーム全体に均等に探索 位置が散らばるように探索位置を固定したものである (ピッチピーク近 傍を密に、 その他の部分を疎に、 というのではなく、 全体的に均等な密 度にしている) 。 また、 図 1 6 ( a ) は、 4パルスのうち 2パルスに割 り当てる探索位置を 4個所ずつに減らす代わりに、 探索位置の種類を 4 種類にして、 サブフ レーム内の全てのサンプル点がどれかの探索位置グ ループに含まれる様にしたものである (パルス位置を表現する為のビッ ト数は図 1 6 ( a ) も 1 6 ( b ) も図 1 3も全て同じ) 。 このようにす ると、 図 1 6 ( b ) のように、 全く探索されない位置がなくなるため、 同一のビッ 卜数でも一般的に図 1 6 ( a ) の方が性能が良くなる。
なお、 本実施例では、 パルス数決定器 9 3を有するパルス数可変型の 音声符号化装置の音源生成部を示したが、 パルス数決定器 9 3を持たな いパルス数固定型のものにおいても、 ビツチ周期の連続性を用いたパル ス探索位置切り替えは有効である。 また、 本実施例では、 ピッチ周期の 連続性を直前のサブフレームと現在のサブフレームのピッチ周期のみか ら判定しているが、 さらに過去のサブフレームのピッチ周期を利用する ことによって判定確度を向上させることも可能である
<第 9実施例 >
図 1 7は、 本発明の第 9の発明の実施例を示し、 ピッチゲイン (適応符 号ベク トル利得) の量子化が 2段量子化構成になっており、 初段の夕一 ゲッ トが適応符号帳探索直後に算出されるピッチゲインであり、 この初 段の量子化ピッチゲイ ンに基づいてパルス探索に用いる探索位置を切り 替える構成を有する、 C E L P型音声符号化装置の音源生成部を示して いる。 図 1 7において、 1 1 1は、 適応符号べク トルをピッチビーク位 置算出器 1 1 2 とピッチゲイ ン算出器 1 1 6 と乗算器 1 2 3に出力する 適応符号帳、 1 1 2は、 適応符号帳 1 1 1から出力された適応符号べク トルとピッチ周期 Lを入力として、 適応符号べク トル内のピッチピーク 位置を探索位置算出器 1 1 4に出力するピツチビーク位置算出器、 1 1 3はピッチ周期 Lを入力として、 パルス音源のパルス数を探索位置算出 器 1 1 4に出力するパルス数決定器、 1 1 4はビヅチ周期 Lとピッチピ —ク位置算出器 1 1 2から出力されたピッチビーク位置とパルス数決定 器 1 1 3から出力されたパルス数を入力として、 パルスの探索位置をス イ ッチ 1 1 5を介してパルス位置探索器 1 1 9に出力する探索位置算出 器、 1 1 5は判定器 1 1 8から入力される判定結果に基づいて切り替わ る連動する 2系統のスィ ツチで、 一方の系統のスィ ツチはパルスの探索 位置を探索位置算出器 1 1 4によって算出された探索位置と了'め定めら れている固定探索位置との切り替えに用いられ、 もう一方の系統のスィ ツチは、 ピッチ周期 Lをパルス位置探索器 1 1 9に入力するかしないか の O N / O F Fに用いられる。 1 1 6は適応符号帳 1 1 1から出力され た適応符号べク トルと現フ レームの夕ーゲッ トべク トルとイ ンパルス応 答を入力とし、 ピッチゲイ ンを量子化器 1 1 7に出力するピッチゲイ ン 算出器、 1 1 7はピッチゲイ ン算出器 1 1 6から出力されるピッチゲイ ンを量子化して、 判定器 1 1 8と加算器 1 2 0及び 1 2 2に出力する量 子化器、 1 1 8は量子化器 1 1 7から出力された初段量子化ピッチゲイ ンを入力として、 ピッチ周期性の判定結果をスィ ツチ 1 1 5に出力する 判定器、 1 1 9はスイ ッチ 1 1 5を介して探索位置算出器 1 1 4から入 力されるパルスの探索位置又はスィ ツチ 1 1 5を介して入力される固定 探索位置と、 スィ ッチ 1 1 5を介して入力されるピッチ周期 Lをそれそ れ入力とし、 入力された探索位置とピッチ周期 Lを用いてパルス位置の 探索を行い、 パルス音源べク トルを乗算器 1 2 4に出力するパルス位置 探索器、 1 2 0は量子化器 1 1 7から出力された初段量子化ピッチゲイ ンと差分量子化器 1 2 1から出力された差分量子化ピッチゲインとを人 力として、 加算結果を最適量子化ピッチゲイ ン (適応符号ベク トル利得) として乗算器 1 2 3に出力する加算器、 1 2 1は加算器 1 2 2から出力 された差分値を入力とし、 その量子化値を加算器 1 2 0に出力する差分 量子化器、 1 2 2は適応符号べク トルとパルス音源ぺク トルが決定され た後に外部で算出される最適ピッチゲイン (適応符号ベク トル利得) と 量子化器 1 1 7から出力された初段量子化ピッチゲイ ン (適応符号べク トル利得) とを入力とし、 これらの差分を差分量子化器 1 2 1に出力す る加算器、 1 2 3は適応符号帳 1 1 1から出力された適応符号べク トル を入力とし、 加算器 1 2 0から出力された量子化ピツチゲイン (適応符 号ベク トル利得) を乗じて加算器 1 2 5に出力する乗算器、 1 2 4はパ ルス位置探索器 1 1 9から出力されたパルス音源べク トルを入力とし、 パルス音源べク トル利得を乗じて加算器 1 2 5に出力する乗算器、 1 2 5は乗算器 1 2 3及び 1 2 4から入力されたべク トルの加算を行い、 励 振音源べク トルとして出力する加算器である。
以上のように構成された音声符号化装置の音源生成部について、 図 1 7を用いてその動作を説明する。 適応符号帳 1 1 1は、 過去の励振音源 のバッファにより構成され、 外部のピッチ分析又は適応符号帳探索手段 によって求められたビッチ周期又はピツチラグに基づいて励振音源のバ ッファから該当する部分を取り出し、 適応符号べク トルとしてピッチピ ーク位置算出器 1 1 2及びピッチゲイ ン算出器 1 1 6及び乗算器 1 2 3 に出力する。 適応符号帳 1 1 1から乗算器 1 2 3に出力された適応符号 ベク トルは、 加算器 1 2 0から出力される量子化ピッチゲイ ン (適応符 号べク トル利得) が乗算されて加算器 1 2 5に出力される。
ピッチビーク位置算出器 1 1 2は、 適応符号べク トルからピッチピー クを検出し、 その位置を探索位置算出器 1 1 4に出力する。 ピッチピ一 ク位置の検出 (算出) は、 ピッチ周期 Lで並べたイ ンパルス列ベク トル と適応符号べク トルの内積を最大化することによって行うことができる。 また、 ピツチ周期 Lで並べたィンパルス列べク トルに合成フィル夕のィ ンパルス応答を畳み込んだべク トルと適応符号べク トルに合成フィル夕 のィ ンパルス応答を畳み込んだべク 卜ルの内積を最大化することによつ て、 より精度良く ピッチビーク位置の検出を行うことも可能である。 パルス数決定器 1 1 3はピッチ周期 Lの値に基づいて、 パルス音源に 使用するパルスの本数を決定して、 探索位置算出器 1 1 4に出力する。 パルス数とビツチ周期の関係は予め学習的あるいは統計的に定められて おり、 たとえばピッチ周期が 4 5サンブル以下の場合は 5本、 4 5サン プルを超えて 8 0サンプル未満の場合は 4本、 8 0サンブル以上の場合 は 3本、 というようにピッチ周期の値の範囲によってそれそれのパルス 本数が定められている。
探索位置算出器 1 1 4は、 ピッチビーク位置とパルス本数をもとにし て、 パルス探索を行う位置を決定する。 パルスの探索位置はピッチビー ク付近は密に、 それ以外の部分は疎になるように配分される (全てのサ ンプル点を探索するだけの十分なビッ ト配分がないときに有効である) すなわち、 ビツチピーク位置近傍は全てのサンブル点がパルス位置探索 の対象となるが、 ピッチビーク位置から離れた部分は 2サンプル毎や 3 サンプル毎というようにパルス位置探索の間隔を広 くする (たとえば、 図 1 1 ( b ) 、 1 1 ( c ) のように探索位置を決定する) 。 また、 パル ス数が多いときは 1本あたりのパルスに配分されるビッ ト数は少なくな るため、 疎になる部分の間隔がパルス数が少ない場合より広くなる (パ ルス位置の精度が荒くなる) 。 なお、 ピッチ周期が短い場合は、 実施の 形態 5に示したように、 サブフレーム内の最初のピッチビークから 1 ピ ツチ周期強の範囲のみに探索範囲を限定すると、 より音声品質を向上す ることが可能である。
パルス位置探索器 1 1 9は、 探索位置算出器 1 1 4で決定された探索 位置又は予め決められている固定探索位置とピツチ周期 Lに基づいてパ ルスを立てる位置の最適な組み合わせを決定する。 パルス探索の方法は 「 ITU-T STUDY GR0UP15 ― CONTRIBUT ION 152, " G.729-C0D ING OF SPEEC H AT 8 KB IT/S USING CONJUGATE-STRUCTURE ALGEBRAI C-CODE-EXC ITED L INEAR-PRED I CT ION (CS-ACELP )", COM 15- 152- E July 1995 j に示されて いるように、 たとえばパルス数が 4本の場合は、 式 ( 2 ) を最大化する ように i 0から i 3の組み合わせを決定する。
スィ ツチ 1 1 5の切り替えは、 判定器 1 1 8の判定結果に基づいて行 われる。 判定器 1 1 8は、 量子化器 1 1 7から出力された初段量子化ビ ヅチゲインを用いて、 現サブフレームがビヅチ周期性の強いサブフレー ムか否かを判定する。 具体的には、 初段量子化ピッチゲインが予め定め られたあるいは計算により求められた範囲内にある場合に、 ピッチ周期 性が強いと判定する。 ピッチ周期性が強いと判定された場合、 現サブフ レームは有声 · 有声定常部であるとみなし、 スィ ッチ 1 1 5は探索位置 算出器 1 1 4とパルス位置探索器 1 1 9を接続し、 ビツチ周期 Lをパル ス位置探索器に入力する (スィ ッチ 1 1 5の一方の系統は探索位置算出 器 1 1 4に切り替えられ、 もう一方の系統は O N状態となってピッチ周 期 Lをパルス位置探索器 1 1 9に入力する) 。 ピッチ周期が連続でない (現サブフレームのピッチ周期と直前のサブフレームのピッチ周期の差 が閾値を超えてい) と判定された場合、 現サブフレームは有声 ·有声定 常部でない (無声部 · 有声立ち上がり部である) とみなし、 スィ ッチ 1 1 5は予め定められている固定探索位置をパルス探索器 1 1 9に入力し、 ピッチ周期 Lはパルス位置探索器に入力しない (スイ ッチ 1 1 5の一方 の系統は固定探索位置に切り替えられ、 もう一方の系統は 0 F F状態と なってピッチ周期 Lはパルス位置探索器 1 1 9に入力されない) 。
パルス位置探索器 1 1 9によって、 最適パルス位置の組み合わせた決 定されると、 その組み合わせによって生成されるパルス音源べク トルが 乗算器 1 2 4に出力され、 パルス符号べク トル利得が乗算され、 加算器 1 2 5に出力される。
ピヅチゲイン算出器 1 1 6は、 現サブフレームの量子化 L P C合成フ ィル夕と聴覚重みづけフィル夕を縦続接続したフィル夕のィ ンパルス応 答と夕一ゲッ トべク トルと適応符号帳から出力された適応符号べク トル とを用いて、 式 ( 5 ) によってピッチゲイ ン (適応符号べク トル利得) を算出する。 算出されたピッチゲイ ンは量子化器 1 1 7で量子化され、 ピッチ周期性の強さを判定する判定器 1 1 8 と加算器 1 2 0及び 1 2 2 に出力される。 加算器 1 2 2では、 音源符号帳探索 (適応符号帳探索と 雑音符号帳探索 (本実施例ではパルス位置探索) ) が全て終了した後に 算出される最適量子化ピッチゲイ ンと、 量子化器 1 1 7から出力される (初段) 量子化ピッチゲインとの差分を計算し、 差分量子化器 1 2 1に 出力する。 差分量子化器 1 2 1で量子化された差分値は、 加算器 1 2 0 によって、 量子化器 1 1 7から出力される初段量子化ビツチゲインと加 算されて、 最適量子化ビツチゲイ ンとして乗算器 1 2 3に出力される。 乗算器 1 2 3は、 適応符号帳 1 1 1から出力された適応符号べク トル に最適量子化ビツチゲイ ンを乗じて、 加算器 1 2 5に出力する。
加算器 1 2 5は、 適応符号べク トル成分とパルス音源べク トル成分の 加算を行い、 励振音源ベク トルとして出力する。 なお、 本実施例では、 判定器 1 1 8の入力として、 現サブフレームの 初段量子化ビツチゲインを用いたが、 一般的なゲイン量子化を用いた場 合 (本実施例に示したような多段量子化を用いない場合) には、 直前の サブフレームの量子化ピッチゲイン (適応符号ベク トル利得) を判定器 1 1 8の入力とすることも可能である。 また、 本実施例では、 パルス数 決定器を有するパルス数可変型の音声符号化装置の音源生成部を示した が、 パルス数決定器を持たないパルス数固定型のものにおいても、 ピッ チゲインの値を用いて周期性の強さを判定してパルス探索位置切り替え を行うことは有効である。
<第 1 0実施例 >
図 1 8は本発明の第 1 0実施例を示し、 連続するサブフレーム間の音 源信号波形の位相の連続性を利用して、 バックヮー ドで雑音符号帳に対 する位相適応処理の切り替えを行う音声符号化装置の音源生成部を示す 図 1 8において、 1 8 0 1は適応符号ベク トルをピッチビーク位置算出. 器 1 8 0 2 と乗算器 1 8 1 0に出力する適応符号帳、 1 8 0 2は適応符 号帳 1 8 0 1から出力された適応符号べク トルとピッチ周期 Lとを入力 として、 適応符号べク トル内のビツチビーク位置を遅延器 1 8 0 3 と判 定器 1 8 0 6 と探索位置算出器 1 8 0 7 とに出力するピッチビーク位置 算出器、 1 8 0 3はビヅチピーク位置算出器 1 8 0 2から出力されたピ ヅチビーク位置を入力として、 1サブフレーム分遅延させてピッチピー ク位置予測器 1 8 0 5に出力する遅延器、 1 8 0 4はピッチ周期 Lを入 力として、 1サブフレーム分遅延させてピツチピーク位置予測器 1 8 0 5に出力する遅延器、 1 8 0 5は遅延器 1 8 0 3から出力された直前の サブフレームにおけるピッチピーク位置と遅延器 1 8 0 4から出力され た直前のサブフ レームにおけるピツチ周期と現在のサブフレームにおけ るピッチ周期 Lとを入力として、 予測ピッチピーク位置を判定器 1 8 0 6に出力するピッチビーク位置予測器、 1 8 0 6はピッチピーク位置算 出器 1 8 0 2から出力されたビヅチビ一ク位置とピッチビーク位置予測 器 1 8 0 5から出力された予測ピッチピーク位置とを入力として、 直前 のサブフレームと現在のサブフレームで位相の連続性があるかどうかを 判定し、 判定結果をスィ ツチ 1 8 0 8に出力する判定器、 1 8 0 7はビ ツチビーク位置算出器 1 8 0 2から出力されたピッチピーク位置とビッ チ周期 Lとを入力として、 音源パルスの探索位置をスィ ツチ 1 8 0 8を 介してパルス位置探索器 1 8 0 9に出力する探索位置算出器、 1 8 0 8 は判定器 1 8 0 6から出力された判定結果に基づいて切り替わるスィ ヅ チで、 探索位置算出器から出力された探索位置と予め定められている固 定探索位置との切り替えに用いられる。 1 8 0 9はスィ ッチ 1 8 0 8を 介して探索位置算出器 1 8 0 7から入力される音源パルスの探索位置又 はスィ ッチ 1 8 0 8を介して入力される固定探索位置と、 ピッチ周期 L をそれそれ入力とし、 入力された音源パルス探索位置とピッチ周期 Lを 用いて音源パルスの位置を探索し、 パルス音源べク トルを乗算器 1 8 1 2に出力するパルス位置探索器、 1 8 1 0は適応符号帳 1 8 0 1から出 力された適応符号べク トルを入力として量子化適応符号べク トル利得を 乗じて加算器 1 8 1 1に出力する乗算器、 1 8 1 2はパルス位置探索器 1 8 0 9から出力されるパルス音源べク トルを入力として量子化パルス 音源べク トル利得を乗じて加算器 1 8 1 1に出力する乗算器、 1 8 1 1 は乗算器 1 8 1 0および 1 8 1 2から出力されたべク トルをそれそれ入 力とし、 入力されたべク トルの加算を行い、 励振音源べク トルとして出 力する加算器である。
以上のように構成された音声符号化装置の音源生成部について、 図 1 8を用いてその動作を説明する。 適応符号帳 1 8 0 1は、 過去の励振音 源のバッファにより構成され、 外部のピッチ分析又は適応符号帳探索手 段によって求められたピツチ周期又はピッチラグに基づいて励振音源の バッファから該当する部分を取り出し、 適応符号べク トルとしてピッチ ビーク位置算出器 1 8 0 2及び乗算器 1 8 1 0に出力する。 適応符号帳 1 8 0 1から乗算器 1 8 1 0に出力された適応符号べク トルは、 外部の ゲイン量子化器によって量子化された量子化適応符号べク トル利得が乗 算されて加算器 1 8 1 1 に出力される。
ピッチビーク位置算出器 1 8 0 2は、 適応符号べク トルカゝらビッチビ —クを検出し、 その位置を遅延器 1 8 0 3 と判定器 1 8 0 6 と探索位置 算出器 1 8 0 7のそれそれに出力する。 ビツチピーク位置の検出 (算出) は、 ビツチ周期 Lで並べたィンパルス列べク トルと適応符号べク トルの 正規化相互相関関数を最大化することによって行うことができる。 また、 ビヅチ周期 Lで並べたィ ンパルス列べク トルに合成フィル夕のインパル ス応答を畳み込んだべク トルと、 適応符号べク トルに合成フィルタのィ ンパルス応答を畳み込んだべク トルとの正規化相互相関関数を最大化す ることによって、 より精度良く ピツチビーク位置の検出を行うことも可 能である。 さらに、 検出されたピッチビーク位置を含む 1 ピッチ周期波 形の中から振幅値最大となる位置をピッチビークとする後処理を加えれ ば、 1 ピッチ周期波形内のセカン ドピークを誤検出することを回避する ことも可能である。
遅延器 1 8 0 3は、 ピッチビーク位置算出器 1 8 0 2で算出されたビ ツチピーク位置を 1サブフレーム分だけ遅延させてビヅチビ一ク位置予 測器 1 8 0 5に出力する。 即ち、 ピッチピーク位置予測器 1 8 0 5には 直前のサブフレームにおけるピヅチピーク位置が遅延器 1 8 0 3から入 力される。 遅延器 1 8 0 4は、 ピッチ周期 Lを 1サブフレーム分だけ遅 延させてピッチビーク位置算出器 1 8 0 5に出力する。 即ち、 ピッチビ —ク位置予測器 1 8 0 5には直前のサブフ レームにおけるピッチ周期が 遅延器 1 8 04から入力される。
ピッチピーク位置予測器 1 80 5は、 遅延器 1 8 0 3から入力される 直前のサブフレームにおけるビヅチピーク位置と、 遅延器 1 8 04から 入力される直前のサブフ レームにおけるピッチ周期と、 現在のサブフ レ ームにおけるピツチ周期 Lを入力として、 現在のサブフレームにおける ビツチピーク位置を予測し、 予測ビッチピーク位置を判定器 1 80 6に 出力する。 予測ピッチビ一ク位置は ( 6 ) 式によって求められる (図 1 9参照) 。
Φ ( N) = Φ ( N - 1 ) + n X T ( N - 1 ) + T (N) - L ,
n二 I NT ( ( L - Φ (N - 1 ) ) /T (N- 1 )
)
. . . ( 6 ) 上式において、 Φ ( k ) は第 k番目のサブフレームにおける最初のビ ツチビーク位置をそのサブフレームの先頭を 0として表したものであり、 T (k) は第 k番目のサブフレームにおける音源 (音声) 信号のピッチ 周期であり、 Lはサブフレーム長である。 また、 nは第 k番目のサブフ レームにおける最初のピッチビーク位置 (Φ ( k ) ) から第 k番目のサ ブフレームの最後のまでの間にいくつのピツチ周期長が含まれるか (小 数点以下切り捨て) を示す整数値である ( k= 0 , 1, 2, ···) 。
判定器 1 80 6は、 ピッチビーク位置算出器 1 8 0 2から出力された ピッチビーク位置とピッチビーク位置予測器 1 8 0 5から出力された予 測ピッチビーク位置とを入力とし、 ピッチビーク位置が予測ピッチビー ク位置と大きくかけ離れていない場合は位相が連続していると判定し、 ピッチビーク位置が予測ピッチビーク位置と大きく異なる場合は位相が 連続していないと判定する。 そして、 判定結果をスィ ツチ 1 8 08に出 力する。 なお、 ピッチビーク位置を予測ピッチピーク位置と比較する際、 ビヅチビ一ク位置又は予測ピッチビーク位置がサブフ レーム境界付近に 存在する場合は、 1 ピッチ周期後の位置がピッチピーク位置である可能 性も考慮して、 ピッチビーク位置と予測ピッチビーク位置の比較を行つ て位相の連続性の判定を行う。
探索位置算出器 1 8 0 7は、 ビツチビーク位置を基準として音源パル スの探索位置を決定し、 探索位置をスィ ツチ 1 8 0 8を介してパルス位 置探索器 1 8 0 9に出力する。 探索位置の決定法としては、 例えば第 6 実施例や第 8実施例に示したようにピッチビーク近傍は密にそれ以外の 部分は疎に探索位置が分布するように決定される。 なお、 第 6実施例や 第 8実施例に示したようにピッチ周期情報を用いて音源パルス数を変化 させたり、 音源パルスの探索範囲を限定したりすることを適用すること も有効である。
スィ ッチ 1 8 0 8は、 判定器 1 8 0 6の判定結果に基づいて位相適応 型の音源パルス探索を行うか、 固定位置による音源パルス探索 (又は一 般の雑音符号帳探索) を行うかを切り替えるものである。 即ち、 判定器 1 8 0 6の判定結果が、 「位相の連続性あり」 の場合は探索位置算出器 1 8 0 7 とパルス位置探索器 1 8 0 9を接続して、 探索位置算出器 1 8 0 7によって算出された音源パルス探索位置をパルス位置探索器 1 8 0 9に入力させる (つまり、 位相適応型の音源パルス探索を行わせる) 。 反対に、 判定器 1 8 0 6の判定結果が、 「位相の連続性なし」 の場合は 固定探索位置をパルス位置探索器 1 8 0 9に入力させるように切り替わ る (一般の雑音符号帳探索と切り替える場合は別途雑音符号帳探索器を 備える構成とし、 パルス位置探索器 1 8 0 9 と切り替えて用いる構成に する) 。
パルス位置探索器 1 8 0 9は、 探索位置算出器 1 8 0 7で決定された 音源パルス探索位置又は予め決められている固定探索位置と、 別途人力 されるピッチ周期 Lを用いて、 音源パルスを立てる位置の最適な組み合 わせを決定する。 パルス探索の方法は 「ITU-T Recommendation G.729 : Coding of Speech at 8 kbits/s using Conjugate- Structure Algebrai c- Code- Excited Linear-Prediction ( CS-ACELP ) , March 1996 」 に示さ れているように、 例えばパルス数が 4本の場合は第 6実施例で示した式 ( 2 ) を最大化するように i 0から i 3の組み合わせを决定する。 なお、 この時の各音源パルスの極性は、 雑音符号帳成分の夕ーゲッ トべク トル、 即ち聴覚重みづけされた入力音声から聴覚重みづけ合成フィル夕の零入 力応答信号と適応符号帳成分の信号を減じた信号ベク トル、 の各位置に おける極性と等しくなるようにパルス位置探索を行う前に予め決定して いる。 また、 ピッチ周期がサブフレーム長より短い場合には第 5実施例 にも示したようにビツチ周期化フィル夕をかけることによって、 音源パ ルスをィンパルスではなく ピッチ周期のパルス列になるようにしている このようなピッチ周期化処理を行う場合は聴覚重みづけ合成フィル夕の ィンパルス応答べク トルにピッチ周期化フィル夕を予めかけておけば、 ピッチ周期化を行わない場合と同様にして式 ( 2 ) の最大化によって音 源パルスの探索を行うことができる。 このようにして決定された各音源 パルスの位置に、 決定された各音源パルスの極性にしたがってパルスを 立て、 ピッチ周期 Lを用いてピッチ周期化フィルタをかければ、 パルス 音源べク トルが生成される。 生成されたパルス音源べク トルは乗算器 1 8 1 2に出力される。 パルス位置探索器 1 8 0 9から乗算器 1 8 1 2に 出力されたパルス音源べク トルは、 外部のゲイン量子化器によって量子 化された量子化パルス音源べク トル利得が乗算されて加算器 1 8 1 1 に 出力される。
加算器 1 8 1 1は、 乗算器 1 8 1 0から出力された適応符号べク トル 成分と、 乗算器 1 8 1 2から出力されたパルス音源べク トル成分とのベ ク トル加算を行い、 励振音源べク トルとして出力する。
なお、 本発明による音声符号化装置においては、 有声定常部以外の部 分では、 固定探索位置が選択され続ける状態が生じ易いので、 伝送路誤 りの影響が伝播している場合にはリセッ トをかける効果を得ることもで きる。 (ピッチビーク位置を 0とする相対位置でパルス位置を表現する 場合は、 一度伝送路誤りが生じて符号器側と復号器側の適応符号帳の内 容が大きく異なってしまうと、 後続のフレームにおいて伝送路誤りがな くてもピッチビーク位置が符号器側と復号器側で一致しなくなり続ける 現象が発生することがあり、 誤りの影響を長く引きずることになる。 ) また、 パルスの立て方としては、 定数本例えば 4本のパルスを探索範 囲、 例えば 3 2箇所の位置のどこかに立てる場合においては、 前述のよ うに 3 2箇所を 4つに分けて 1本のパルスを割り当てられナこ 8箇所の中 の 1箇所に決定するように全ての組み合わせ ( 8 x 8 x 8 x 8通り) を 探索する方法の他に、 3 2箇所の中から 4箇所を選びだす組み合わせ全 てについて探索する方法などがある。 なお、 振幅 1のインパルスの組み 合わせの他に、 複数本例えば 2本のパルスを組み合わせたパルス対の組 み合わせや、 振幅の異なるインパルスの組み合わせによるパルスの立て 方も可能である。
<第 1 1実施例 >
図 2 0は本発明の第 1 1実施例を示し、 適応符号べク トルの形状に強 いパルス性が存在するか否かで、 位相適応処理を行うか行わないかの切 り替えを行う C E L P型音声符号化装置の音源生成部を示している。 図 2 0において、 2 0 0 1は適応符号べク トルをピッチピーク位置算出器 2 0 0 2 とパルス性判定器 2 0 0 3と乗算器 2 0 0 7に出力する適応符 号帳、 2 0 0 2は適応符号帳 2 0 0 1から出力された適応符号べク トル とピッチ周期 Lとを入力として、 適応符号べク トル内のピッチビーク位 置をパルス性判定器 2 0 0 3 と探索位置算出器 2 0 0 4 とに出力するビ 、ソチビーク位置算出器、 2 0 0 3は適応符号帳 2 0 0 1から出力された 適応符号べク トルとピッチビーク位置算出器 2 0 0 2から出力されたビ ツチビーク位置と外部から入力するピツチ周期 Lを入力として、 適応符 号べク トルによいパルス性が存在するか否かを判定し、 判定結果をスィ ツチ 2 0 0 5に出力するパルス性判定器、 2 0 0 4は外部から入力する ピヅチ周期 Lとビヅチビーク位置算出器 2 0 0 2から出力されるピッチ ピーク位置を入力として、 音源パルスの探索位置をスイ ッチ 2 0 0 5を 介してパルス位置探索器 2 0 0 6に出力する探索位置算出器、 2 0 0 5 はパルス性判定器 2 0 0 3から出力された判定結果に基づいて切り替わ るスイ ッチで、 探索位置算出器 2 0 0 4から出力された探索位置と予め 定められている固定探索位置との切り替えに用いられる。 2 0 0 6はス イ ッチ 2 0 0 5を介して探索位置算出器 2 0 0 4から入力される音源パ ルスの探索位置又はスィ ツチ 2 0 0 5を介して入力される固定探索位置 と外部から入力されるピッチ周期 Lをそれそれ入力とし、 入力された音 源パルス探索位置とピツチ周期 Lを用いて音源パルスの位置を探索し、 パルス音源べク トルを乗算器 2 0 0 9に出力するパルス位置探索器、 2 0 0 7は適応符号帳 2 0 0 1から出力された適応符号べク トルを入力と して量子化適応符号べク トル利得を乗じて加算器 2 0 0 8に出力する乗 算器、 2 0 0 9はパルス位置探索器 2 0 0 6から出力されるパルス音源 べク トルを入力として量子化パルス音源べク トル利得を乗じて加算器 2 0 0 8に出力する乗算器、 2 0 0 8は乗算器 2 0 0 7及び 2 0 0 9から 出力されたベク トルをそれそれ入力とし、 入力されたベク トルの加算を 行い、 励振音源ベク トルとして出力する加算器である。 以上のように構成された音声符号化装置の音源生成部について、 図 2 0を用いてその動作を説明する。 適応符号帳 2 0 0 1は、 過去の励振音 源のバッファにより構成され、 外部のピッチ分析又は適応符号帳探索手 段によって求められたピッチ周期又はビツチラグに基づいて励振音源の バッファから該当する部分を取り出し、 適応符号べク トルとしてピッチ ビーク位置算出器 2 0 0 2及びパルス性判定器 2 0 0 3及び乗算器 2 0 0 7に出力する。 適応符号帳 2 0 0 1から乗算器 2 0 0 7に出力された 適応符号べク トルは、 外部のゲイ ン量子化器によって量子化された量子 化適応符号べク トル利得が乗算されて加算器 2 0 0 8に出力される。
ビヅチピーク位置算出器 2 0 0 2は、 適応符号べク トルからピッチピ —クを検出し、 その位置をパルス性判定器 2 0 0 3 と探索位置算出器 2 0 0 4のそれそれに出力する。 ピッチピーク位置の検出 (算出) は、 ビ ツチ周期 Lで並べたインパルス列べク トルと適応符号べク トルの正規化 相互相関関数を最大化することによって行うことができる。 また、 ビッ チ周期 Lで並べたィンパルス列べク トルに合成フィル夕のイ ンパルス応 答を畳み込んだべク トルと、 適応符号べク トルに合成フィル夕のイ ンパ ルス応答を畳み込んだべク トルとの正規化相互相関関数を最大化するこ とによって、 より精度良く ビツチピーク位置の検出を行うことも可能で ある。 さらに、 検出されたピッチビーク位置を含む 1 ピッチ周期波形の 中から振幅値最大となる位置をピツチビークとする後処理を加えれば、 1 ピッチ周期波形内のセカン ドピークを誤検出することを回避すること も可能である。
パルス性判定器 2 0 0 3は、 ピッチビーク位置算出器 2 0 0 2で算出 されたピッチビーク位置付近に適応符号べク トルの信号パワーが集中し ているかどうかを判定し、 信号パワーの集中がある場合は 「パルス性あ り」 の判定結果をスィ ツチ 2 0 0 5に出力、 信号パワーの集中が見られ ない場合は 「パルス性なし」 の判定結果をスィ ツチ 2 0 0 5に出力する。 信号パワーが集中しているかどうかを調べる手法としては、 例えば以下 のような方法が考えられる。 まず、 ピッチピーク位置を含む 1 ピッチ周 期長の適応符号べク トルを切り出し、 切り出した信号全体のパワーを算 出しこれを P W 0とする。 次に、 ピッチビーク位置の近傍の 2分の 1か ら 3分の 1 ピッチ長の適応符号べク トルを切り出し、 この切り出した信 号パワーを算出しこれを P W 1 とする。 P W 1 / P W 0の値が所定の値 (例えば 0 . 5から 0 . 6程度) 以上である場合は、 ピッチピーク近傍 に信号パワーが集中しているので、 パルス性が高いを判定することがで きる。 また、 別の判定方法としては、 ピッチピーク位置に最初のイ ンパ ルスが立つビツチ周期間隔で並べたィンパルス列べク トルで適応符号べ ク トルを近似した場合の、 ィンパルス列べク トルと適応符号べク トルの との誤差を用いた判定方法がある。 さらに、 ピッチ周期 Lで並べたイ ン パルス列べク トルに合成フィル夕のィンパルス応答を畳み込んだべク ト ルと、 適応符号ベク トルに合成フィル夕のイ ンパルス応答を畳み込んだ べク トルとの正規化相互相関関数を最大化することによってピッチビー ク位置を求めた場合には、 ピッチ周期 Lで並べたィ ンパルス列べク トル に合成フィル夕のィ ンパルス応答を畳み込んだべク トルと、 適応符号べ ク トルに合成フィル夕のィ ンパルス応答を畳み込んだべク トルとの誤差 を用いた判定方法がある。 これらベク トル間の誤差を評価する手段とし ては、 式 ( 7 ) に示すような予測ゲインや式 ( 8 ) に示すような正規化 相互相関関数などをを利用する。 式 ( 7 ) 及び ( 8 ) において、 x( n )は 適応符号べク トル又は適応符号べク トルに合成フィル夕のイ ンパルス応 答を畳み込んだべク トル、 y(n )はィンパルス列べク トル又はィンパルス 列べク トルに合成フィル夕のイ ンパルス応答を畳み込んだべク トルであ る。 どちらの式においても値が例えば 0 . 3〜 0 . 4以上あれば、 ある 程度強いパルス性が適応符号べク トルに存在していると判定できる
Σ " )
( 7 ) または " ^^
Figure imgf000067_0001
… ( 8 ) 探索位置算出器 2 0 0 4は、 ピッチビーク位置を基準として音源パル スの探索位置を決定し、 探索位置をスィ ツチ 2 0 0 5を介してパルス位 置探索器 2 0 0 6に出力する。 探索位置の決定法としては、 例えば第 6' 実施例や第 8実施例に示したようにピッチビーク近傍は密にそれ以外の 部分は疎に探索位置が分布するように決定される。 なお、 第 6実施例や 第 8実施例に示したようにピッチ周期情報を用いて音源パルス数を変化 させたり、 音源パルスの探索範囲を限定したりすることを適用すること も有効である。
スィ ッチ 2 0 0 5は、 パルス性判定器 2 0 0 3の判定結果に基づいて 位相適応型の音源パルス探索を行うか、 固定位置による音源パルス探索 を行うかを切り替えるものである。 即ち、 パルス性判定器 2 0 0 3の判 定結果が、 「パルス性あり」 の場合は探索位置算出器 2 0 0 4 とパルス 位置探索器 2 0 0 6を接続して、 探索位置算出器 2 0 0 4によって算出 された音源パルス探索位置をパルス位置探索器 2 0 0 6に入力させる (つま り、 位相適応型の音源パルス探索を行わせる) 。 反対に、 パルス 性判定器 2 0 0 3の判定結果が、 「パルス性なし」 の場合は固定探索位 置をパルス位置探索器 2 0 0 6に入力させるように切り替わる Λ パルス位置探索器 2 0 0 6は、 探索位置算出器 2 0 0 4で決定された 音源パルス探索位置又は予め決められている固定探索位置と、 別途入力 されるピッチ周期 Lを用いて、 音源パルスを立てる位置の最適な組み合 わせを決定する。 パルス探索の方法は 「ITU- T Recommendation G.729 : Coding of Speech at 8 kbits/s using Conjugate-Structure Algebrai c- Code- Excited Linear-Prediction ( CS-ACELP ) , March 1996 j に示さ れているように、 例えばパルス数が 4本の場合は第 6実施例で示した式 ( 2 ) を最大化するように i 0から i 3の組み合わせを決定する。 なお、 この時の各音源パルスの極性は、 雑音符号帳成分の夕ーゲッ トべク トル、 即ち聴覚重みづけされた入力音声から聴覚重みづけ合成フィル夕の零入 力応答信号と適応符号帳成分の信号を減じた信号べク トル、 の各位置に おける極性と等しくなるようにパルス位置探索を行う前に予め決定して いる。 また、 ビヅチ周期がサブフ レーム長より短い場合には実施の形態 5にも示したようにピッチ周期化フ ィル夕をかけることによって、 音源 パルスをインパルスではなく ビツチ周期のパルス列になるようにしてい る。 このようなピッチ周期化処理を行う場合は、 聴覚重みづけ合成フィ ル夕のィ ンパルス応答べク トルにピッチ周期化フィル夕を予めかけてお けば、 ピッチ周期化を行わない場合と同様にして式 ( 2 ) の最大化によ つて音源パルスの探索を行うことができる。 このようにして決定された 各音源パルスの位置に、 決定された各音源パルスの極性にしたがってパ ルスを立て、 ピッチ周期 Lを用いてピッチ周期化フィル夕をかければ、 パルス音源べク トルが生成される。 生成されたパルス音源べク トルは乗 算器 2 0 0 9に出力される。 パルス位置探索器 2 0 0 6から乗算器 2 0 0 9に出力されたパルス音源べク トルは、 外部のゲイン量子化器によつ て量子化された量子化パルス音源べク トル利得が乗算されて加算器 2 0 0 8に出力される。 加算器 2 0 0 8は、 乗算器 2 0 0 7から出力された適応符号べク トル 成分と、 乗算器 2 0 0 9から出力されたパルス音源べク トル成分とのベ ク トル加算を行い、 励振音源ベク トルとして出力する。
なお、 本発明による音声符号化装置においては、 有声定常部以外の部 分では、 固定探索位置が選択され続ける状態が生じ易いので、 伝送路誤 りの影響が伝播している場合にはリセッ トをかける効果を得ることもで きる。 (ピッチビーク位置を 0とする相対位置でパルス位置を表現する 場合は、 一度伝送路誤りが生じて符号器側と復号器側の適応符号帳の内 容が大きく異なってしまうと、 後続のフレームにおいて伝送路誤りがな くてもピッチピーク位置が符号器側と復号器側で一致しなくなり続ける 現象が発生することがあり、 誤りの影響を長く引きずることになる。 ) なお、 パルスの立て方としては、 定数本例えば 4本のパルスを探索範 囲、 例えば 3 2箇所の位置のどこかに立てる場合においては、 前述のよ うに 3 2箇所を 4つに分けて 1本のパルスを割り当てられた 8箇所の中 の 1箇所に決定するように全ての組み合わせ ( 8 x 8 x 8 x 8通り) を 探索する方法の他に、 3 2箇所の中から 4箇所を選びだす組み合わせ全 てについて探索する方法などがある。 なお、 振幅 1のイ ンパルスの組み 合わせの他に、 複数本例えば 2本のパルスを組み合わせたパルス対の組 み合わせや、 振幅の異なるィ ンパルスの組み合わせによるパルスの立て 方も可能である。
<第 1 2実施例 >
図 2 1は本発明の第 1 2実施例を示し、 パルス探索位置のィンデック スを付け替えるインデックス更新手段を備え、 パルス位置の探索範囲を 適応符号べク トルのピッチ周期及びピッチピーク位置によって決定する C E L P型音声符号化装置の符号器側の音源生成部を示す。 より具体的 には、 ピッチビーク位置からの相対位置で音源パルス探索を行う C E L P型音声符号化装置において、 サブフ レームの先頭側から順番にパルス 位置のィンデックスを付けるようにすることによって、 あるフレームに おいて発生した伝送路誤りの影響が後続の伝送路誤りのないフレームに 伝播することを防ぐようにした音源生成部を示す。
図 2 1において、 2 1 0 1は過去の励振音源べク トルを保存し、 選択 された適応符号べク トルをピッチビーク位置算出器 2 1 0 2及びピッチ ゲイン乗算器 2 1 0 6に出力する適応符号帳、 2 1 0 2は適応符号帳 2 1 0 1から出力された適応符号べク トルとピッチ周期 Lを入力としてピ ツチビーク位置を算出し、 探索位置算出器 2 1 0 3に出力するピ、ソチビ —ク位置算出器、 2 1 0 3はビヅチピーク位置算出器 2 1 0 2から出力 されたピッチビーク位置とピッチ周期 Lを入力としてパルス音源を探索 する範囲を算出し、 ィンデックス更新手段 2 1 0 4へ出力する探索位置 算出器、 2 1 0 4は探索位置算出器 2 1 0 3から出力された、 各音源パ ルスの各位置のィンデックスを付け替えてパルス位置探索器 2 1 0 5に 出力するィ ンデックス更新手段、 2 1 0 5はィンデックス更新手段 2 1 0 4から出力された探索位置 (パルス位置を表すィ ンデックスが付け直 されている) と、 音源生成部の外部で別途算出されたピッチ周期 Lとを 入力としてパルス音源を探索し、 パルス音源べク トルをパルス音源ゲイ ン乗算器 2 1 0 7に出力し、 符号化出力としてパルス音源べク トルを表 すインデックスを音源生成部の外部に出力するパルス位置探索器、 2 1 0 6は適応符号帳 2 1 0 1から出力された適応符号べク トルに適応符号 べク トル利得を乗じて加算器 2 1 0 8に出力する乗算器、 2 1 0 7はパ ルス位置探索器 2 1 0 5から出力されたパルス音源べク トルにパルス音 源ベク トル利得を乗じて加算器 2 1 0 8に出力する乗算器、 2 1 0 8は 乗算器 2 1 0 6からの出力と乗算器 2 1 0 7からの出力を入力とし、 ベ ク トル加算して励振音源べク トルとして出力する加算器である。
以上のように構成された、 音源生成部の動作について、 図 2 1及び図 2 2を用いて説明する。 図 2 1 において、 適応符号帳 2 1 0 1は、 音源 生成部の外部で予め算出されるビツチ周期 Lだけ過去に溯った点から、 適応符号ベク トルをサブフレーム長だけ切り出して、 適応符号ベク トル として出力する。 ピッチ周期 Lがサブフ レーム長に満たない場合は、 切 り出したピッチ周期 Lのべク トルを、 サブフ レーム長に達するまで繰り 返して接続したものを適応符号べク トルとして出力する。
ビツチピーク位置算出器 2 1 0 2は、 適応符号帳 2 1 0 1から出力さ れた適応符号べク トルを用いて適応符号べク トル内に存在するピッチピ ークの位置を決定する。 ピッチピークの位置は、 ピッチ周期で並べたィ ンパルス列と適応符号べク トルとの正規化相互相関を最大化することに よって行うことができる。 また、 ピッチ周期で並べたインパルス列を合 成フィル夕に通したものと、 適応符号べク トルを合成フィル夕に通した もとの誤差を最小化することによって、 より精度良く求めることも可能 である。
探索位置算出器 2 1 0 3は、 ピッチピーク位置を基準として音源パル スの探索位置を決定し、 イ ンデックス更新手段 2 1 0 4に出力する。 探 索位置の決定法としては、 例えば第 5実施例や第 6実施例に示したよう にピツチピーク近傍は密にそれ以外の部分は疎に探索位置が分布するよ うに決定される。 なお、 第 6実施例や第 8実施例に示したようにピッチ 周期情報を用いて音源パルス数を変化させたり、 音源パルスの探索範囲 を限定したりすることを適用することも有効である。 探索位置算出器 2 1 0 3によって決定される具体的な探索位置の例は図 1 0、 図 1 1 ( b ) 、 図 1 1 ( c ) 、 図 1 3に示している。 例えば図 1 0においては、 ピッ チパルス位置近傍は密に、 それ以外の部分は疎に、 パルス位置探索範囲 を限定する方法を具体的に示している。 この限定方法は、 パルスが立て られる確率が高い位置がビツチパルス近傍に集中する統計的結果に基づ いている。 パルス位置探索範囲を限定しない場合、 有声部においてはビ ツチパルス近傍にパルスが立てられる確率がその他の部分に立てられる 確率に比べて高くなる。 なお、 探索位置算出器で算出されるのは、 ビッ チビーク位置からの相対位置を用いた、 音源パルスの探索位置であり、 この時点では、 ピッチビーク位置を 0 とする相対位置の数値が小さいも のから順にイ ンデックスが付けられている (図 2 2参照。 なお図 2 2で はパルス数を 4本とした場合の図 1 3 ( a ) に対応する場合を示してい る。 ) 。
インデックス更新手段 2 1 0 4は、 ピッチピーク位置からの相対位置 が小さいものから順番にイ ンデックスが付けられている (図 2 2の相対 位置) 音源パルス探索位置を、 サブフレームの先頭を 0とする絶対位置 に変換した後に絶対位置が小さいものから順番にィ ンデックスを付け直 して (図 2 2の絶対位置) 、 パルス位置探索器 2 1 0 5へ出力する。 こ のようにすることによって、 伝送路誤りが生じるなどして符号器側と復 号器側とで算出されるピッチビーク位置が異なった場合において、 パル ス位置のずれを小さくすることができる。
パルス位置探索器 2 1 0 5は、 ィンデックス更新手段 2 1 0 4によつ て各探索位置を示すィンデックの付け直しが行われた音源パルス探索位 置と、 別途入力されるピッチ周期 Lを用いて、 音源パルスを立てる位置 の最適な組み合わせを決定する。 パルス探索の方法は 「ITU- T Recommen dation G.729 : Coding of Speech at 8 kbits/s using Conjugate - Stru cture Algebraic-Code-Excited Linear-Prediction ( CS-ACELP ) , March 1996 」 に示されているように、 例えばパルス数が 4本の場合は第 6実 施例で示した式 ( 2 ) を最大化するように i 0から i 3の組み合わせを 決定する。 なお、 この時の各音源パルスの極性は、 雑音符号帳成分の夕 —ゲッ トべク トル、 即ち聴覚重みづけされた入力音声から聴覚重みづけ 合成フィル夕の零入力応答信号と適応符号帳成分の信号を減じた信号べ ク トル、 の各位置における極性と等しくなるようにパルス位置探索を行 う前に予め決定すれば探索のための演算量を大幅に軽減でぎる。 また、 ビヅチ周期がサブフレーム長より短い場合には第 5実施例にも示したよ うにピヅチ周期化フィル夕をかけることによって、 音源パルスをインパ ルスではなく ビッチ周期のパルス列になるようにしている。 このような ピッチ周期化処理を行う場合は、 聴覚重みづけ合成フィル夕のインパル ス応答ベク トルにピッチ周期化フィル夕を予めかけておけば、 ピッチ周 期化を行わない場合と同様にして式 ( 2 ) の最大化によって音源パルス の探索を行うことができる。 このようにして決定された各音源パルスの 位置に、 決定された各音源パルスの極性にしたがってパルスを立て、 ビ ツチ周期 Lを用いてピッチ周期化フィル夕をかければ、 パルス音源べク トルが生成される。 生成されたパルス音源べク トルは乗算器 2 1 0 7に 出力される。 パルス位置探索器 2 1 0 5から乗算器 2 1 0 7に出力され たパルス音源べク トルは、 外部のゲイン量子化器によって量子化された 量子化パルス音源べク トル利得が乗算されて加算器 2 1 0 8に出力され る。 なお、 パルス位置探索器 2 1 0 5においては、 パルス音源ベク トル とともにパルス音源べク トルを表す各音源パルスの極性及びィ ンデック ス情報が別途音源生成部の外部に出力される。 この音源パルスの極性及 びィンデックス情報は符号化器や多重化器などを通って伝送路へ出力さ れるデ一夕系列に変換されて伝送路へ送り出される。
加算器 2 1 0 8は、 乗算器 2 1 0 6から出力された適応符号べク トル 成分と、 乗算器 2 1 0 7から出力されたパルス音源べク トル成分とのベ ク トル加算を行い、 励振音源べク トルとして出力する。 なお、 本実施例に基づくインデックスの割り当て方法は、 音源の位置 情報が相対的な値で表現される全ての場合に適用することが可能であり、 インデックスの割り当てかたのみの違いであるので、 性能に全く影響を 及ぼさずに伝送路誤りの伝播を抑える効果を得ることができる。
なお、 復号器側にも符号器側と同様のィ ンデックス更新手段を備える また、 パルスの立て方としては、 定数本例えば 4本のパルスを探索範囲、 例えば 3 2箇所の位置のどこかに立てる場合においては、 前述のように 3 2箇所を 4つに分けて 1本のパルスを割り当てられた 8箇所の中の 1 箇所に決定するように全ての組み合わせ ( 8 x 8 x 8 x 8通り) を探索 する方法の他に、 3 2箇所の中から 4箇所を選びだす組み合わせ全てに ついて探索する方法などがある。 なお、 振幅 1のイ ンパルスの組み合わ せの他に、 複数本例えば 2本のパルスを組み合わせたパルス対の組み合 わせや、 振幅の異なるィ ンパルスの組み合わせによるパルスの立て方も 可能である。
<第 1 3実施例 >
図 2 3は本発明の第 1 3実施例を示し、 パルス探索位置のィ ンデック ス及びパルス番号の割り当てを行うパルス番号及びィ ンデックスの更新 手段を備えた、 パルス位置の探索範囲を適応符号べク トルのピッチ周期 及びビツチビーク位置によって決定する C E L P型音声符号化装置の符 号器側の音源生成部を示す。 より具体的には、 ピッチビーク位置からの 相対位置で音源パルス探索を行う C E L P型音声符号化装置において、 サブフレームの先頭側から順番にパルス位置のィ ンデックスを付けると ともに、 同じイ ンデックス番号である異なる番号のパルスに対しては、 サブフレームの先頭側から順番にパルスの番号を付ける、 即ち同じイン デックス番号の場合パルスの番号が若いほどサブフレームの先頭側にな るように各パルスの番号を決めるようにすることによって、 あるフレー ムにおいて発生した伝送路誤りの影響が後続の伝送路誤りのないフレー ムに伝播することを防ぐようにした音源生成部を示す。
図 2 3において、 2 3 0 1は過去の励振音源べク トルを保存し、 選択 された適応符号べク トルをピッチビーク位置算出器 2 3 0 2及びピッチ ゲイ ン乗算器 2 3 0 6に出力する適応符号帳、 2 3 0 2は適応符号帳 2 3 0 1から出力された適応符号べク トルとピッチ周期 Lを入力としてビ ツチピーク位置を算出し、 探索位置算出器 2 3 0 3に出力するピッチピ ーク位置算出器、 2 3 0 3はピッチビーク位置算出器 2 3 0 2から出力 されたピッチビーク位置とピッチ周期 Lを入力としてパルス音源を探索 する範囲を算出し、 パルス番号及びィンデックスの更新手段 2 3 0 4へ 出力する探索位置算出器、 2 3 0 4は探索位置算出器 2 3 0 3から出力 された、 各音源パルスの番号と各音源パルスの各位置のィンデックスを 付け替えてパルス位置探索器 2 3 0 5に出力するパルス番号及びィンデ ックスの更新手段、 2 3 0 5はパルス番号及びインデックスの更新手段 2 3 0 4から出力された探索位置 (パルスの番号とパルス位置を表すィ ンデックスが付け直されている) と、 音源生成部の外部で別途算出され たピッチ周期 Lとを入力としてパルス音源を探索し、 パルス音源べク ト ルをパルス音源ゲイ ン乗算器 2 3 0 7に出力し、 符号化出力としてパル ス音源ベク トルを表すィンデックスを音源生成部の外部に出力するパル ス位置探索器、 2 3 0 6は適応符号帳 2 3 0 1から出力された適応符号 べク トルに適応符号べク トル利得を乗じて加算器 2 3 0 8に出力する乗 算器、 2 3 0 7はパルス位置探索器 2 3 0 5から出力されたパルス音源 べク トルにパルス音源べク トル利得を乗じて加算器 2 3 0 8に出力する 乗算器、 2 3 0 8は乗算器 2 3 0 6からの出力と乗算器 2 3 0 7からの 出力を入力とし、 べク トル加算して励振音源べク トルとして出力する加 算器である。
以上のように構成された、 音源生成部の動作について、 図 2 3及び図 2 4を用いて説明する。 図 2 3において、 適応符号帳 2 3 0 1は、 音源 生成部の外部で予め算出されるビツチ周期 Lだけ過去に溯った点から、 適応符号べク トルをサブフレーム長だけ切り出して、 適応符号べク トル として出力する。 ピッチ周期 Lがサブフレーム長に満たない場合は、 切 り出したビヅチ周期 Lのべク トルを、 サブフレーム長に達するまで繰り 返して接続したものを適応符号べク トルとして出力する。
ピヅチビーク位置算出器 2 3 0 2は、 適応符号帳 2 3 0 1から出力さ れた適応符号べク トルを用いて適応符号べク トル内に存在するピッチピ ークの位置を决定する。 ピッチビークの位置は、 ピッチ周期で並べたィ ンパルス列と適応符号べク トルとの正規化相互相関を最大化することに よって行うことができる。 また、 ピッチ周期で並べたイ ンパルス列を合 成フィル夕に通したものと、 適応符号べク トルを合成フィル夕に通した もとの誤差を最小化することによって、 より精度良く求めることも可能 である。
探索位置算出器 2 3 0 3は、 ピッチビーク位置を基準として音源パル スの探索位置を決定し、 パルス番号及びィ ンデックスの更新手段 2 3 0 4に出力する。 探索位置の決定法としては、 例えば第 6実施例や第 8実 施例に示したようにビツチビーク近傍は密にそれ以外の部分は疎に探索 位置が分布するように决定される。 なお、 第 6実施例や第 8実施例に示 したようにビッチ周期情報を用いて音源パルス数を変化させたり、 音源 パルスの探索範囲を限定したりすることを適用することも有効である。 探索位置算出器 2 3 0 3によって決定される具体的な探索位置の例は図 1 0、 図 1 1 ( b ) 、 図 1 1 ( c ) 、 図 1 3に示している。 例えば図 1 0においては、 ピッチパルス位置近傍は密に、 それ以外の部分は疎に、 パルス位置探索範囲を限定する方法を具体的に示している。 この限定方 法は、 パルスが立てられる確率が高い位置がビツチパルス近傍に集中す る統計的結果に基づいている。 パルス位置探索範囲を限定しない場合、 有声部においてはビツチパルス近傍にパルスが立てられる確率がその他 の部分に立てられる確率に比べて高くなる。 なお、 探索位置算出器で算 出されるのは、 ピッチビーク位置からの相対位置を用いた、 音源パルス の探索位置であり、 この時点では、 ピッチビーク位置を 0とする相対位 置の数値が小さいものから順にパルス番号及びインデックスがつけられ ている (図 2 4 ( b ) 参照) 。 なお図 2 4では、 パルス数を 4本とした 場合の図 1 1 ( b ) 、 図 1 3に対応する場合を示している。 図 2 4 ( a ) はパルス数を 4本とした場合に探索位置算出器 2 1 0 3によって決定さ れる音源パルス探索位置を示しており、 矢印の長短、 上向き下向は 4種 類の各音源パルス探索位置を示している。 また、 図 2 4 ( a ) の相対位 置はピツチビーク位置を 0として一 4から + 7 5の数値で各サンプル点 が表されており、 一 4より前の点はサブフ レーム境界より後ろにはみ出 す点を折り返すことにより十の数値で表現している。
パルス番号及びィンデックスの更新手段 2 3 0 4は、 ピッチビーク位 置からの相対位置が小さいものから順番にィンデックスがつけられてい る (図 2 4 ( b ) ) 音源パルス探索位置を、 サブフ レームの先頭を 0 と する絶対位置に変換した後に絶対位置が小さいものから順番にパルス番 号及びインデックスを付け直して (図 2 4 ( c ) ) 、 パルス位置探索器 2 3 0 5へ出力する。 このようにすることによって、 伝送路誤りが生じ るなどして符号器側と復号器側とで算出されるピッチビーク位置が異な つた場合において、 パルス位置のずれを小さくすることができる。
パルス位置探索器 2 3 0 5は、 パルス番号及びイ ンデックスの更新手 段 2 3 0 4によって各探索位置を示すィンデックの付け直しが行われた 音源パルス探索位置と、 別途入力されるピッチ周期 Lを用いて、 音源パ ルスを立てる位置の最適な組み合わせを決定する。 パルス探索の方法は 「 ITU-T Recommendation G.729 : Coding of Speech at 8 kbits/s usin g Conjugate-Structure Algebraic-Code-Exc ited L inear-Prediction ( CS-ACELP ) , March 1996」 に示されているように、 例えばパルス数が 4本の場合は第 6実施例で示した式 ( 2 ) を最大化するように i 0から
1 3の組み合わせを決定する。 なお、 この時の各音源パルスの極性は
、 雑音符号帳成分のターゲッ トベク トル、 即ち聴覚重みづけされた入力 音声から聴覚重みづけ合成フィルタの零入力応答信号と適応符号帳成分 の信号を減じた信号ベク トル、 の各位置における極性と等しくなるよう にパルス位置探索を行う前に予め決定すれば探索のための演算量を大幅 に軽減できる。 また、 ピッチ周期がサブフ レーム長より短い場合には第 5実施例にも示したようにビヅチ周期化フ ィ ル夕をかけることによって、 音源パルスをィ ンパルスではなく ビッチ周期のパルス列になるようにし ている。 このようなピッチ周期化処理を行う場合は、 聴覚重みづけ合成 フィル夕のインパルス応答ベク トルにピッチ周期化フィルタを予めかけ ておけば、 ピッチ周期化を行わない場合と同様にして式 ( 2 ) の最大化 によって音源パルスの探索を行うことができる。 このようにして決定さ れた各音源パルスの位置に、 決定された各音源パルスの極性にしたがつ てパルスを立て、 ピッチ周期 Lを用いてピッチ周期化フィル夕をかけれ ば、 パルス音源ベク トルが生成される。 生成されたパルス音源ベク トル は乗算器 2 3 0 7に出力される。 パルス位置探索器 2 3 0 5から乗算器
2 3 0 7に出力されたパルス音源べク トルは、 外部のゲイン量子化器に よって量子化された量子化パルス音源べク トル利得が乗算されて加算器 2 3 0 8に出力される。 なお、 パルス位置探索器 2 3 0 5においては、 パルス音源べク トルとともにパルス音源べク トルを表す各音源パルスの 極性及びィンデックス情報が別途音源生成部の外部に出力される。 この 音源パルスの極性及びィ ンデックス情報は符号化器や多重化器などを通 つて伝送路へ出力されるデ一夕系列に変換されて伝送路へ送り出される 加算器 2 3 0 8は、 乗算器 2 3 0 6から出力された適応符号べク トル 成分と、 乗算器 2 3 0 7から出力されたパルス音源ベク トル.成分とのベ ク トル加算を行い、 励振音源べク トルとして出力する。
なお、 本実施例に基づくインデックスの割り当て方法は、 音源の位置 情報が相対的な値で表現される全ての場合に適用することが可能であり、 パルス番号とィ ンデックスの割り当てかたのみの違いであるので、 性能 に影響を及ぼさずに伝送路誤りの伝播を抑える効果を得ることができる c また、 固定探索位置のパルス音源との切り替え使用を行えば、 さらに伝 送路誤りの影響の伝播を抑えることも可能である。
なお、 復号器側も同様のパルス番号及びィンデックスの更新手段 2 3 0 4を備える。 また、 パルスの立て方としては、 定数本例えば 4本のパ ルスを探索範囲、 例えば 3 2箇所の位置のどこかに立てる場合において は、 前述のように 3 2箇所を 4つに分けて 1本のパルスを割り当てられ た 8箇所の中の 1箇所に决定するように全ての組み合わせ ( 8 x 8 x 8 x 8通り) を探索する方法の他に、 3 2箇所の中から 4箇所を選びだす 組み合わせ全てについて探索する方法などがある。 なお、 振幅 1のイン パルスの組み合わせの他に、 複数本例えば 2本のパルスを組み合わせた パルス対の組み合わせや、 振幅の異なるィ ンパルスの組み合わせによる パルスの立て方も可能である。
<第 1 4実施例 >
図 2 5は本発明の第 1 4実施例を示し、 固定探索位置と位相適応型探 索位置との両者によって生成される音源パルス探索位置を用いてパルス 探索を行う C E L P型音声符号化装置の音源生成部を示す。
図 2 5において、 2 5 0 1は過去の励振音源べク トルを保存し、 選択 された適応符号べク トルをピッチビーク位置算出器 2 5 0 2及びピッチ ゲイン乗算器 2 5 0 6に出力する適応符号帳、 2 5 0 2は適応符号帳 2 5 0 1から出力された適応符号べク トルと外部から入力されるピッチ周 期 Lを入力としてピッチビーク位置を算出し、 探索位置算出器 2 5 0 3 に出力するピッチビーク位置算出器、 2 5 0 3はピッチビーク位置算出 器 2 5 0 2から出力されたピッチビーク位置と外部から入力されるビッ チ周期 Lを入力としてパルス音源を探索する位置を算出し、 加算器 2 5 0 4へ出力する探索位置算出器、 2 5 0 4は探索位置算出器 2 5 0 3か ら出力された、 ピッチピーク位置を 0 とする相対位置で表される探索位 置と固定位置で探索される探索位置とを合わせて (数値加算をするもの ではなく、 2種類の探索位置の集合の和を求める) パルス位置探索器 2 5 0 5に出力する加算器、 2 5 0 5は加算器 2 5 0 4から出力された探 索位置と、 音源生成部の外部で別途算出されたピッチ周期 Lとを入力と してパルス音源を探索し、 パルス音源べク トルをパルス音源ゲイン乗算 器 2 5 0 7に出力するパルス位置探索器、 2 5 0 6は適応符号帳 2 5 0 1から出力された適応符号べク トルに適応符号べク トル利得を乗じて加 算器 2 5 0 8に出力する乗算器、 2 5 0 7はパルス位置探索器 2 5 0 5 から出力されたパルス音源べク トルにパルス音源べク トル利得を乗じて 加算器 2 5 0 8に出力する乗算器、 2 5 0 8は乗算器 2 5 0 6からの出 力と乗算器 2 5 0 7からの出力を入力とし、 べク トル加算して励振音源 べク トルとして出力する加算器である。
以上のように構成された、 音源生成部の動作について、 図 2 5及び図 2 6を用いて説明する。 図 2 5において、 適応符号帳 2 5 0 1は、 音源 生成部の外部で予め算出されるピツチ周期 Lだけ過去に溯った点から、 適応符号べク トルをサブフレーム長だけ切り出して、 適応符号べク トル として出力する。 ピッチ周期 Lがサブフレーム長に満たない場合は、 切 り出したピッチ周期 Lのべク トルを、 サブフレーム長に達するまで繰り 返して接続したものを適応符号べク トルとして出力する。
ピッチビーク位置算出器 2 5 0 2は、 適応符号帳 2 5 0 1から出力さ れた適応符号べク トルを用いて適応符号べク トル内に存在するビッチビ ークの位置を決定する。 ピッチビークの位置は、 ピッチ周期で並べたィ ンパルス列と適応符号べク トルとの正規化相互相関を最大化することに よって行うことができる。 また、 ピッチ周期で並べたインパルス列を合 成フィル夕に通したものと、 適応符号べク トルを合成フィル夕に通した もとの誤差を最小化する (正規化相互相関関数を最大化する) ことによ つて、 より精度良く求めることも可能である。
探索位置算出器 2 5 0 3は、 ピッチピーク位置を基準として音源パル スの探索位置を決定し、 加算器 2 5 0 4に出力する。 探索位置の決定法 としては、 例えば図 2 6に示すようにピッチピーク近傍の固定探索位置 と重ならない点を出力するような決定法を用いる。 なお、 第 6実施例や 第 8実施例に示したようにピッチ周期情報を用いて音源パルス数を変化 させたり、 音源パルスの探索範囲を限定したりすることを適用する場合 も同様である。 探索位置算出器 2 5 0 3によって決定される具体的な探 索位置の例は図 2 6 ( b ) 、 2 6 ( c ) に示している。 図 2 6において は固定探索位置を奇数サンプル点に設定し (図 2 6 ( a ) ) , ピッチビ ーク近傍の偶数サンプル点に探索位置算出器 2 5 0 3が探索位置を設定 する様子 (図 2 6 ( b ) 、 2 6 ( c ) ) を示している。 図 2 6 ( b ) は ピッチピーク位置が偶数サンプル点にある (ピッチピーク位置が固定探 索位置に含まれない) 場合を、 図 2 6 ( c ) はピッチピーク位置が奇数 サンプル点にある (ピッチビーク位置が固定探索位置に含まれる) 場合 を、 それそれ示している。 図 2 6 ( b ) 、 2 6 ( c ) の比較から分かる ように、 ピッチビーク位置の場所によって若干探索位置 (ピッチビーク 位置を 0 とする相対位置) が異なる。
加算器 2 5 0 4は、 探索位置算出器 2 5 0 3から出力された音源パル ス探索位置の集合 (図 2 6 ( b ) 、 2 6 ( c ) ) と予め定められている 固定探索位置の集合 (図 2 6 ( a ) ) との和集合 (図 2 6 ( d ) ) を求 めて、 パルス位置探索器 2 5 0 5へ出力する。 このようにすることによ つてピッチビーク位置近傍は密に、 それ以外の部分は疎に、 音源パルス の探索位置を限定している。 この限定方法は、 パルスが立てられる確率 が高い位置がビツチパルス近傍に集中する統計的結果に基づいている。 パルス位置探索範囲を限定しない場合、 有声部においてはビツチパルス 近傍にパルスが立てられる確率がその他の部分に立てられる確率に比べ て高くなる。 なお、 伝送路誤り等の影響で復号器側におけるピッチピー ク位置の算出が誤った場合、 探索位置算出器 2 5 0 3で算出される音源 パルスの探索位置が符号器側と復号器側で異なってしまうが、 パルス位 置探索器 2 5 0 5に入力される音源パルス探索位置の一部は固定探索位 置になっているので、 符号器側と復号器側のパルス位置が異なってしま う確率を低くすることができ、 伝送路誤りの影響を緩和することができ る
パルス位置探索器 2 5 0 5は、 加算器 2 5 0 4から出力された音源パ ルス探索位置と、 別途入力されるピッチ周期 Lを用いて、 音源パルスを 立てる位置の最適な組み合わせを決定する。 パルス探索の方法は 「ITU - T Recommendat ion G. 729: Coding of Speech at 8 kb its/s us ing Conj ugate - Structure Algebraic -Code-Exc ited L inear-Prediction ( CS - AC ELP ) , March 1996」 に示されているように、 例えばパルス数が 4本の場 合は実施の形態 6で示した式 ( 2 ) を最大化するように i 0から i 3の 組み合わせを決定する。 なお、 この時の各音源パルスの極性は、 雑音符 号帳成分のターゲッ トべク トル、 即ち聴覚重みづけされた入力音声から 聴覚重みづけ合成フィル夕の零入力応答信号と適応符号帳成分の信号を 減じた信号べク トル、 の各位置における極性と等しくなるようにパルス 位置探索を行う前に予め決定すれば探索のための演算量を大幅に軽減で きる。 また、 ピッチ周期がサブフ レーム長より短い場合には第 5実施例 にも示したようにピッチ周期化フィル夕をかけることによって、 音源パ ルスをィンパルスではなく ピッチ周期のパルス列になるようにしている c このようなビッチ周期化処理を行う場合は、 聴覚重みづけ合成フィル夕 のィ ンパルス応答べク 卜ルにビヅチ周期化フィル夕を予めかけておけば、 ピッチ周期化を行わない場合と同様にして式 ( 2 ) の最大化によって音 源パルスの探索を行うことができる。 このようにして決定された各音源 パルスの位置に、 決定された各音源パルスの極性にしたがってパルスを 立て、 ピッチ周期 Lを用いてピッチ周期化フィル夕をかければ、 パルス 音源べク トルが生成される。 生成されたパルス音源べク トルは乗算器 2 5 0 7に出力される。 パルス位置探索器 2 5 0 5から乗算器 2 5 0 7に 出力されたパルス音源べク トルは、 外部のゲイン量子化器によって量子 化された量子化パルス音源べク トル利得が乗算されて加算器 2 5 0 8に 出力される。 なお図 2 5では省略しているが、 パルス位置探索器 2 5 0 5においては、 パルス音源ベク トルとともにパルス音源ベク トルを表す 各音源パルスの極性及びィンデックス情報が別途音源生成部の外部に出 力される。 この音源パルスの極性及びィンデックス情報は符号化器や多 重化器などを通って伝送路へ出力されるデータ系列に変換されて伝送路 へ送り出される。
加算器 2 5 0 8は、 乗算器 2 5 0 6から出力された適応符号べク トル 成分と、 乗算器 2 5 0 7から出力されたパルス音源べク トル成分とのベ ク トル加算を行い、 励振音源ベク トルとして出力する。
なお、 固定探索位置のパルス音源との切り替え使用を行えば、 さらに 伝送路誤りの影響の伝播を抑えることも可能である。
また、 パルスの立て方としては、 定数本例えば 4本のパルスを探索範 囲、 例えば 3 2箇所の位置のどこかに立てる場合においては、 前述のよ うに 3 2箇所を 4つに分けて 1本のパルスを割り当てられた 8箇所の中 の 1箇所に决定するように全ての組み合わせ ( 8 x 8 x 8 x 8通り) を 探索する方法の他に、 3 2箇所の中から 4箇所を選びだす組み合わせ全 てについて探索する方法などがある。 なお、 振幅 1のイ ンパルスの組み わせの他に、 複数本例えば 2本のパルスを組み合わせたパルス対の組 み合わせや、 振幅の異なるィンパルスの組み合わせによるパルスの立て 方も可能である。
<第 1 5実施例〉
図 2 7は本発明の第 1 5実施例を示し、 ピッチビーク位置補正器を備 えた第 5実施例記載の C E L P型音声符号化装置の音源生成部を示して いる。
図 2 7において、 2 7 0 1は過去の励振音源べク トルを保存し、 選択 された適応符号べク トルをピッチビーク位置算出器 2 7 0 2及びピッチ ピーク位置補正器 2 7 0 3及びピッチゲイ ン乗算器 2 7 0 6に出力する 適応符号帳、 2 7 0 2は適応符号帳 2 7 0 1から出力された適応符号べ ク トルと外部から入力されるピッチ周期 Lを入力としてピッチピーク位 置を算出し、 ピッチビーク位置補正器 2 7 0 3に出力するピッチピーク 位置算出器、 2 7 0 3は適応符号帳 2 7 0 1から出力される適応符号べ ク トルとピッチビーク位置算出器 2 7 0 2から出力されたピッチピーク 位置と外部から入力されるピッチ周期 Lを入力としてピッチピーク位置 を補正し、 探索位置算出器 2 7 0 4へ出力するピッチピーク位置補正器、 2 7 0 4はピッチピーク位置補正器 2 7 0 3から出力されたピッチピー ク位置と別途入力されるピッチ周期 Lとを入力として、 音源パルスの探 索位置をパルス位置探索器 2 7 0 5に出力する探索位置算出器、 2 7 0 5は探索位置算出器 2 7 0 4から出力された探索位置と、 音源生成部の 外部で別途算出されたビッチ周期 Lとを入力としてパルス音源を探索し、 パルス音源べク トルをパルス音源ゲイ ン乗算器 2 7 0 7に出力するパル ス位置探索器、 2 7 0 6は適応符号帳 2 7 0 1から出力された適応符号 べク トルに適応符号べク トル利得を乗じて加算器 2 7 0 8に出力する乗 算器、 2 7 0 7はパルス位置探索器 2 7 0 5から出力されたパルス音源 べク トルにパルス音源べク トル利得を乗じて加算器 2 7 0 8に出力する 乗算器、 2 7 0 8は乗算器 2 7 0 6からの出力と乗算器 2 7 0 7からの 出力を入力とし、 べク トル加算して励振音源べク トルとして出力する加 算器である。
以上のように構成された、 音源生成部の動作について、 図 2 7及び図 2 8を用いて説明する。 図 2 7において、 適応符号帳 2 7 0 1は、 音源 生成部の外部で予め算出されるビツチ周期 Lだけ過去に溯った点から、 適応符号べク トルをサブフレーム長だけ切り出して、 適応符^べク トル として出力する。 ピッチ周期 Lがサブフ レーム長に満たない場合は、 切 り出したピッチ周期 Lのベク トルを、 サブフ レーム長に達するまで繰り 返して接続したものを適応符号べク トルとして出力する。
ピッチビーク位置算出器 2 7 0 2は、 適応符号帳 2 7 0 1から出力さ れた適応符号べク トルを用いて適応符号べク トル内に存在するビッチビ —クの位置を決定する。 ピッチビークの位置は、 ピッチ周期で並べたィ ンパルス列と適応符号べク トルとの正規化相互相関を最大化することに よって行うことができる。 また、 ピッチ周期で並べたイ ンパルス列を合 成フ ィ ル夕に通したものと、 適応符号べク トルを合成フィル夕に通した もとの誤差を最小化する (正規化相互相関関数を最大化する) ことによ つて、 より精度良く求めることも可能である。
ピッチビーク位置補正器 2 7 0 3は、 適応符号帳 2 7 0 1から出力さ れた適応符号ベク トルから、 ピッチビーク位置算出器 2 7 0 2によって 算出されたピッチビーク位置の点を含む 1 ピッチ周期長 Lの長さをもつ ベク トルを切り出し、 この切り出した波形の中から振幅値が最大となる 点を探し出して探索位置算出器 2 7 0 4に出力する。 なお、 この処理は ピッチ周期 Lがサブフレーム長よ りも短い場合についてのみ行われる。 ピッチ周期 Lがサブフ レーム長より長い場合はピッチビーク位置算出器 2 7 0 2が出力したピッチピーク位置をそのままパルス位置探索器 2 7 0 5に出力する。 ピッチピーク位置算出器 2 7 0 2から出力されるピッ チビーク位置は、 1サブフ レーム長が 1ピッチ周期程度の長さに相当す る場合、 1ビツチ波形内の 2番目に振幅が高い場所になっている可能性が ある (図 2 8 ( a ) 、 2 8 ( b ) : ピッチビークは 1サブフレーム内 に 1個所しか存在しないが、 1 ピツチ周期波形内で 2番目に大きい振幅 値を有する点 (セカン ドビーク) が 1サブフレーム内に 2個所存在する ために、 セカン ドピークをピッチビークと誤検出してしまう) 。 このた め、 ピッチピーク位置補正器 2 7 0 3により、 ピッチピーク位置算出器 2 7 0 2から出力されたピッチピーク位置から 1ピッチ周期長以内に よ り大きい振幅値を有する点が存在しないかチェックし、 ピッチビーク ,'立 置算出器 2 7 0 2から出力されたピッチピーク位置付近の点の振幅値よ り大きい振幅値を有する点が存在する場合は、 その大きい振幅値を有す る点の方をピッチビーク位置とする。 例えば図 2 8 ( c ) においてセカ ン ドビークをピッチビーク位置算出器 2 7 0 2が出力した場合は、 この セカン ドピークから 1 ビツチ周期分の適応符号べク トル (図 2 8 ( c ) の太線部) の中で振幅が最大となる位置をピッチピークとする。
探索位置算出器 2 7 0 4は、 ピッチビーク位置補正器 2 7 0 3から出 力されたピッチピーク位置を基準として音源パルスの探索位置を决定し、 パルス位置探索器 2 7 0 5に出力する。 探索位置の決定法としては、 第 5実施例又は第 6実施例又は第 1 4実施例などのように、 ピッチビーク 位置近傍は密に、 それ以外の部分は疎に、 音源パルスの探索位置を限定 する方法がある。 この限定方法は、 パルスが立てられる確率が高い位置 がビツチパルス近傍に集中する統計的結果に基づいている。 パルス位置 探索範囲を限定しない場合、 有声部においてはビツチパルス近傍にパル スが立てられる確率がその他の部分に立てられる確率に比べて高くなる ことを利用するものである。
パルス位置探索器 2 7 0 5は、 探索位置算出器 2 7 0 4から出力され た音源パルス探索位置と、 別途入力されるピッチ周期 Lを用いて、 音源 パルスを立てる位置の最適な組み合わせを決定する。 パルス探索の方法 は r I TU-T Recommendat ion G. 729 : Coding of Speechat 8 kbits/s usi ng Con jugate- Structure Algebraic-Code-Exc i ted Linear-Predi ct ion ( CS-ACELP ) , March 1996」 に示されているように、 例えばパルス数が 4 本の場合は第 6実施例で示した式 ( 2 ) を最大化するように i 0から i 3の組み合わせを決定する。 なお、 この時の各音源パルスの極性は、 雑 音符号帳成分のターゲッ トベク トル、 すなわち聴覚重みづけされた入力 音声から聴覚重みづけ合成フィル夕の零入力応答信号と適応符号帳成分 の信号を減じた信号べク トル、 の各位置における極性と等しくなるよう にパルス位置探索を行う前に予め決定すれば探索のための演算量を大幅 に軽減できる。 また、 ピッチ周期がサブフレーム長より短い場合には実 施の形態 5にも示したようにビッチ周期化フィル夕をかけることによつ て、 音源パルスをインパルスではなく ビツチ周期のパルス列になるよう にしている。 このようなピッチ周期化処理を行う場合は、 聴覚重みづけ 合成フィル夕のィ ンパルス応答べク 卜ルにピツチ周期化フィル夕を予め かけておけば、 ピッチ周期化を行わない場合と同様にして式 ( 2 ) の最 大化によって音源パルスの探索を行うことができる。 このようにして決 定された各音源パルスの位置に、 決定された各音源パルスの極性に従つ てパルスを立て、 ピッチ周期 Lを用いてピッチ周期化フィル夕をかけれ ば、 パルス音源ベク トルが生成される。 生成されたパルス音源ベク トル は乗算器 2 7 0 7に出力される。 パルス位置探索器 2 7 0 5から乗算器 2 7 0 7に出力されたパルス音源べク トルは、 外部のゲイン量子化器に よって量子化された量子化パルス音源べク トル利得が乗算されて加算器 2 7 0 8に出力される。 なお図 2 7では省略しているが、 符号器のパル ス位置探索器 2 7 0 5においては、 パルス音源べク トルとともにパルス 音源べク トルを表す各音源パルスの極性及びィ ンデックス倩報が別途音 源生成部の外部に出力される。 この音源パルスの極性及びィ ンデックス 情報は符号化器や多重化器などを通って伝送路へ出力されるデ一夕系列 に変換されて伝送路へ送り出される。
加算器 2 7 0 8は、 乗算器 2 7 0 6から出力された適応符号べク トル 成分と、 乗算器 2 7 0 7から出力されたパルス音源べク トル成分とのベ ク トル加算を行い、 励振音源ベク トルとして出力する。
なお、 本実施例おいて、 第 1 2実施例又は第 1 3実施例又は第 1 4実 施例のようにィ ンデックス更新手段又はパルス番号及びィ ンデックスの 更新手段又は固定探索位置と位相適応探索位置の併用を取り入れれば、 伝送路誤りの影響を緩和することができる。 また、 固定探索位置のパル ス音源との切り替え使用を行えば、 さらに伝送路誤りの影響の伝播を抑 えることも可能である。
また、 本発明のピッチピーク位置補正器は、 第 3実施例から第 1 1実 施例までのいずれの音声符号化装置にも適用することが可能である。 なお、 パルスの立て方としては、 定数本例えば 4本のパルスを探索範 囲、 例えば 3 2箇所の位置のどこかに立てる場合においては、 前述のよ うに 3 2箇所を 4つに分けて 1本のパルスを割り当てられた 8箇所の中 の 1箇所に決定するように全ての組み合わせ ( 8 x 8 x 8 x 8通り) を 探索する方法の他に、 3 2箇所の中から 4箇所を選びだす組み合わせ全 てについて探索する方法などがある。 なお、 振幅 1のイ ンパルスの組み 合わせの他に、 複数本例えば 2本のパルスを組み合わせたパルス対の組 み合わせや、 振幅の異なるィ ンパルスの組み合わせによるパルスの立て 方も可能である。
<第 1 6実施例 >
図 2 9は本発明の第 1 6実施例を示し、 連続するサブフレーム間の音 源信号波形の位相の連続性を利用して、 ピッチピーク位置の存在範囲を ピッチビーク位置算出前に予め限定する C E L P型音声符号化装置の音 源生成部を示す。 図 2 9において、 2 9 0 1は適応符号べク トルをビッ チビ一ク位置算出器 2 9 0 2 と乗算器 2 9 0 8に出力する適応符号帳、 2 9 0 2は適応符号帳 2 9 0 1から出力された適応符号べク トルと音声 生成部の外部から入力されるビツチ周期 Lとピツチピーク探索範囲限定 器 2 9 0 3から出力されるピッチビーク探索範囲を入力として、 適応符 号べク トル内のピッチビーク位置を算出して遅延器 2 9 0 4 と探索位置 算出器 2 9 0 6 とに出力するビツチビーク位置算出器、 2 9 0 3は遅延 器 2 9 0 4から出力された直前のサブフ レームにおけるピッチピーク位 置と遅延器 2 9 0 5から出力された直前のサブフ レームにおけるピッチ 周期と音源生成部の外部から入力される現在のサブフレームにおけるビ ツチ周期 Lとを入力として、 現在のサブフレームにおけるピッチビーク 位置を予測し、 予測したピッチビーク位置に基づいてビツチビーク位置 を探索する範囲を限定して、 その範囲をピッチピーク位置算出器 2 9 0 2に出力するピッチビーク探索範囲限定器、 遅延器 2 9 0 4はビッチビ —ク位置算出器から出力されたピッチビーク位置を入力として、 1サブ フレーム分遅延させてピツチピーク探索範囲限定器 2 9 0 3に出力する 遅延器、 2 9 0 5は音声生成部の外部から入力されるピッチ周期 Lを入 力として、 1サブフレーム分遅延させてピッチピーク探索範囲限定器 2 9 0 3に出力する遅延器、 2 9 0 6はピッチビーク位置算出器 2 9 0 2 から出力されたピッチピーク位置と音源生成部の外部から入力されるピ ツチ周期 Lとを入力として、 音源パルスの探索位置をパルス位置探索器 2 9 0 7に出力する探索位置算出器、 2 9 0 7は探索位置算出器 2 9 0 6から入力される音源パルスの探索位置と音源生成部の外部から入力さ れるビツチ周期 Lとを入力とし、 入力された音源パルス探索位置とビッ チ周期 Lを用いて音源パルスの位置を探索し、 パルス音源べク トルを乗 算器 2 9 0 9に出力するパルス位置探索器、 2 9 0 8は適応符号帳から 出力された適応符号べク トルを入力として量子化適応符号べク トル利得 を乗じて加算器 2 9 1 0に出力する乗算器、 2 9 0 9はパルス位置探索 器 2 9 0 7から出力されるパルス音源べク トルを入力として量子化パル ス音源べク トル利得を乗じて加算器 2 9 1 0に出力する乗算器、 2 9 1 0は乗算器 2 9 0 8及び 2 9 0 9から出力されたべク トルをそれそれ入 力とし、 入力されたベク トルの加算を行い、 励振音源ベク トルとして出 力する加算器である。
以上のように構成された音声符号化装置の音源生成部について、 図 2 9を用いてその動作を説明する。 適応符号帳 2 9 0 1は、 過去の励振音 源のバッファにより構成され、 外部のピッチ分析又は適応符号帳探索手 段によって求められたピッチ周期又はピッチラグに基づいて励振音源の バッファから該当する部分を取り出し、 適応符号べク トルとしてピッチ ピーク位置算出器 2 9 0 2及び乗算器 2 9 0 8に出力する。 適応符号帳 2 9 0 1から乗算器 2 9 0 8に出力された適応符号べク トルは、 外部の ゲイ ン量子化器によって量子化された量子化適応符号べク トル利得が乗 算されて加算器 2 9 1 0に出力される。
ピッチビーク位置算出器 2 9 0 2は、 適応符号べク トルからピヅチビ ークを検出し、 その位置を遅延器 2 9 0 4と探索位置算出器 2 9 0 6の それそれに出力する。 ピッチビーク位置の検出 (算出) は、 ピッチ周期 Lで並べたィ ンパルス列べク トルと適応符号べク トルの正規化相互相関 関数を最大化することによって行うことができる。 また、 ピッチ周期 L で並べたィンパルス列べク トルに合成フィル夕のィ ンパルス応答を畳み 込んだべク トルと、 適応符号べク トルに合成フィル夕のィ ンパルス応答 を畳み込んだべク トルとの正規化相互相関関数を最大化することによつ て、 よ り精度良く ピッチビーク位置の検出を行うことも可能である。 さ らに、 検出されたピッチビーク位置を含む 1 ピッチ周期波形の中から振 幅値最大となる位置をビツチビークとする後処理を加えれば、 1 ピッチ 周期波形内のセカン ドピークを誤検出することを回避することも可能で める。
遅延器 2 9 0 4は、 ピッチピーク位置算出器 2 9 0 2で算出されたピ ツチピーク位置を 1サブフレーム分だけ遅延させてビツチピーク探索範 囲限定器 2 9 0 3に出力する。 即ち、 ピッチピーク探索範囲限定器 2 9 0 3には直前のサブフレームにおけるピツチビーク位置が遅延器 2 9 0 4から入力される。 遅延器 2 9 0 5は、 音源生成部の外部から入力され るピッチ周期 Lを 1サブフ レーム分だけ遅延させてピッチピーク探索範 囲限定器 2 9 0 3に出力する。 即ち、 ピッチビーク探索範囲限定器 2 9 0 3には直前のサブフレームにおけるピッチ周期が遅延器 2 9 0 5から 入力される。
ピッチビーク探索範囲限定器 2 9 0 3は、 まず始めに遅延器 2 9 0 5 から入力される直前のサブフ レームにおけるピッチ周期と現在のサブフ レームにおけるビッチ周期の比較を行い、 現在のサブフレームが有声 (定常) 部であるかどうかの判定を行う。 具体的には、 直前のサブフ レ ームにおけるピッチ周期と現在のサブフレームにおけるピッチ周期との 差が小さい場合 (例えば ± 5サンブル以内のとき) に有声 (定常) 部で あると判定する。 なお、 遅延器を増やして数サブフ レーム前までのピッ チ周期を用いて有声判定を行うこともできる。 有声 (定常) 部であると 判定されると、 ピッチビーク探索範囲限定器 2 9 0 3は、 遅延器 2 9 0 4から入力される直前のサブフ レームにおけるピッチビーク位置と、 遅 延器 2 9 0 5から入力される直前のサブフ レームにおけるピッチ周期と、 現在のサブフ レームにおけるピッチ周期 Lを入力として、 現在のサブフ レームにおけるピッチピーク位置を予測し、 その予測位置の前後 (例え ば 1 0サンプル) をピッチピーク位置の探索を行う範囲とする。 なお、 予測したピッチビーク位置がサブフレーム先頭付近にある場合は、 1 ビ ツチ周期後ろの付近も探索範囲に加え、 予測したピッチビーク位置がサ ブフレームの先頭から 1 ビツチ周期後ろの位置の付近にある場合は、 サ ブフ レーム先頭付近も探索範囲に加える。 なお、 有声 (定常) 部でない と判定された場合は、 ピッチピーク探索範囲の限定は行わずに、 サブフ レーム全体をピツチビーク探索範囲とする。 このようにしてピッチビー ク探索範囲限定器 2 9 0 3で求められたピッチビーク探索範囲は、 ビッ チピーク位置算出器 2 9 0 2に出力される。 なお、 音声符号化処理を開 始した時点 (最初のサブフ レーム) においては、 過去に入力された (直 前のサブフレームにおける) ピッチ周期 Lが存在しないため、 適当な定 数 (例えばピッチ周期の最大値や最小値あるいは 0など有り得ないビッ チ周期) を遅延器 2 9 0 5が出力するようにしておく。 遅延器 2 9 0 4 についても同様である。 なお、 予測ピッチビーク位置は第 1 0実施例に 示される ( 6 ) 式によって求められる (図 1 9参照) 。
探索位置算出器 2 9 0 6は、 ピッチビーク位置を基準として音源パル スの探索位置を決定し、 探索位置をパルス位置探索器 2 9 0 7に出力す る。 探索位置の決定法としては、 例えば第 6実施例や第 8実施例に示し たようにビツチピーク近傍は密にそれ以外の部分は疎に探索位置が分布 するように決定される。 なお、 第 6実施例や第 8実施例に示したように ビツチ周期情報を用いて音源パルス数を変化させたり、 音源パルスの探 索範囲を限定したりすることを適用することも有効である。 また、 第 1 2実施例から第 1 4実施例のいずれかに示したように探索位置を决定す れば、 伝送路誤りの影響を緩和することも可能である。
パルス位置探索器 2 9 0 7は、 探索位置算出器 2 9 0 6で決定された 音源パルス探索位置又は予め決められている固定探索位置と、 別途入力 されるピッチ周期 Lを用いて、 音源パルスを立てる位置の最適な組み合 わせを決定する。 パルス探索の方法は 「ITU- T Recommendat ion G .729 : Cod ing or Speech at 8 kbi ts/s us ing Con jugate- Structure Algebrai c- Code-Exci ted L inear-Predict ion ( CS-ACELP ) , March 1996 」 に示さ れているように、 例えばパルス数が 4本の場合は第 6実施例で示した式 ( 2 ) を最大化するように i 0から i 3の組み合わせを決定する。 なお、 この時の各音源パルスの極性は、 雑音符号帳成分の夕一ゲッ トべク トル、 即ち聴覚重みづけされた入力音声から聴覚重みづけ合成フィル夕の零入 力応答信号と適応符号帳成分の信号を減じた信号べク トル、 の各位置に おける極性と等しくなるようにパルス位置探索を行う前に予め決定して いる。 また、 ピッチ周期がサブフ レーム長よ り短い場合には第 5実施例 にも示したようにピッチ周期化フィル夕をかけることによって、 音源パ ルスをィンパルスではなく ピッチ周期のパルス列になるようにしている。 このようなピッチ周期化処理を行う場合は、 聴覚重みづけ合成フィル夕 のィ ンパルス応答べク トルにビッチ周期化フィル夕を予めかけておけば、 ピッチ周期化を行わない場合と同様にして式 ( 2 ) の最大化によって音 源パルスの探索を行うことができる。 このようにして決定された各音源 パルスの位置に、 決定された各音源パルスの極性にしたがってパルスを 立て、 ピッチ周期 Lを用いてピッチ周期化フィルタをかければ、 パルス 音源べク トルが生成される。 生成されたパルス音源べク トルは乗算器 2 9 0 9に出力される。 パルス位置探索器 2 9 0 7から乗算器 2 9 0 9に 出力されたパルス音源ベク トルは、 外部のゲイ ン量子化器によって!:子 化された量子化パルス音源べク トル利得が乗算されて加算器 2 9 1 0に 出力される。
加算器 2 9 1 0は、 乗算器 2 9 0 8から出力された適応符号べク トル 成分と、 乗算器 2 9 0 9から出力されたパルス音源べク トル成分とのベ ク トル加算を行い、 励振音源ベク トルとして出力する。
なお、 パルスの立て方としては、 定数本例えば 4本のパルスを探索範 囲、 例えば 3 2箇所の位置のどこかに立てる場合においては、 前述のよ うに 3 2箇所を 4つに分けて 1本のパルスを割り当てられた 8箇所の中 の 1箇所に决定するように全ての組み合わせ ( 8 x 8 x 8 x 8通り) を 探索する方法の他に、 3 2箇所の中から 4箇所を選びだす組み合わせ全 てについて探索する方法などがある。 なお、 振幅 1のイ ンパルスの組み 合わせの他に、 複数本例えば 2本のパルスを組み合わせたパルス対の組 み合わせや、 振幅の異なるィンパルスの組み合わせによるパルスの立て 方も可能である。
<第 1 7実施例 > 図 3 0は本発明の第 1 7実施例を示し、 パルス本数が少なくて各パル スに割り当てられている位置情報が十分である固定探索位置を用いたパ ルス探索器と、 パルス本数が多くて各パルスに割り 当てられている位置 情報が必ずしも十分でない音源パルス探索位置を用いたパルス探索器と、 これら複数のパルス探索器から出力されたパルス音源べク トルの中から 最適なパルス音源べク トルを選択する選択器とを備えた C E L P型音声 符号化装置の音源生成部を示している。
図 3 0において、 3 0 0 1は過去の励振音源べク トルを保存し、 選択 された適応符号べク トルをピッチビーク位置算出器 3 0 0 2及びピッチ ゲイ ン乗算器 3 0 0 7に出力する適応符号帳、 3 0 0 2は適応符号帳 3 0 0 1から出力された適応符号べク トルと外部から入力されるピッチ周 期 Lを入力としてピッチピーク位置を算出し、 探索位置算出器 3 0 0 3 に出力するピッチビーク位置算出器、 3 0 0 3はピッチビーク位置算出 器 3 0 0 2から出力されたピッチビーク位置と音源生成部の外部から入 力されるピッチ周期 Lとを入力として、 音源パルスの探索位置をパルス 位置探索器 3 0 0 4に出力する探索位置算出器、 3 0 0 4は探索位置算 出器 3 0 0 3から出力された探索位置と、 音源生成部の外部で別途算出 されたピッチ周期 Lとを入力としてパルス音源を探索し、 パルス音源べ ク トル 1 を選択器 3 0 0 5に出力するパルス位置探索器、 8 0 0 5はパ ルス位置探索器 3 0 0 4から出力されるパルス音源べク トル 1 とパルス 位置探索器 3 0 0 6から出力されるパルス音源ベク トル 2 とを入力とし、 最適であるパルス音源べク トルを選択して乗算器 3 0 0 8に出力する選 択器、 3 0 0 6は予め定められた固定探索位置と音源生成部の外部から 入力されるピッチ周期 Lとを入力としてパルス音源を探索し、 パルス音 源ベク トル 2 と して選択器 3 0 0 5へ出力するパルス位置探索器、 3 0 0 7は適応符号帳 3 0 0 1から出力された適応符号べク トルに適応符号 べク トル利得を乗じて加算器 3 0 0 9に出力する乗算器、 3 0 0 8は選 択器 3 0 0 5から出力されたパルス音源べク トルにパルス音源べク トル 利得を乗じて加算器 3 0 0 9に出力する乗算器、 3 0 0 9は乗算器 3 0 0 7からの出力と乗算器 3 0 0 8からの出力を入力とし、 ベク トル加算 して励振音源ベク トルとして出力する加算器である。
以上のよう に構成された、 音源生成部の動作について、 図 3 0を用い て説明する。 図 3 0において、 適応符号帳 3 0 0 1は、 音源生成部の外 部で予め算出されるピッチ周期 Lだけ過去に溯った点から、 適応符号べ ク トルをサブフ レーム長だけ切り出して、 適応符号べク トルとして出力 する。 ピッチ周期 Lがサブフレーム長に満たない場合は、 切り出したピ ツチ周期 Lのべク トルを、 サブフ レーム長に達するまで繰り返して接続 したものを適応符号べク トルとして出力する。
ピッチビーク位置算出器 3 0 0 2は、 適応符号帳 3 0 0 1から出力さ れた適応符号べク トルを用いて適応符号べク トル内に存在するビッチビ —クの位置を決定する。 ピッチビークの位置は、 ピッチ周期で並べたィ ンパルス列と適応符号べク トルとの正規化相互相関を最大化することに よって行うことができる。 また、 ピッチ周期で並べたイ ンパルス列を合 成フ ィル夕に通したものと、 適応符号べク トルを合成フ ィルタに通した もとの誤差を最小化する (正規化相互相関関数を最大化する) ことによ つて、 より精度良く求めることも可能である。 なお、 第 1 5実施例に示 したようなピッチビーク補正器を備えるとピッチビーク位置の算出誤り を減らすことができる。
探索位置算出器 3 0 0 3は、 ピッチビーク位置算出器 3 0 0 2から出 力されたピッチピーク位置を基準として音源パルスの探索位置を決定し、 パルス位置探索器 3 0 0 4に出力する。 探索位置の決定法と しては、 第
5実施例又は第 6実施例又は第 1 4実施例などのように、 ピッチビーク 位置近傍は密に、 それ以外の部分は疎に、 音源パルスの探索位置を限定 する方法がある。 この限定方法は、 パルスが立てられる確率が高い位置 がビツチパルス近傍に集中する統計的結果に基づいている。 パルス位置 探索範囲を限定しない場合、 有声部においてはビツチパルス近傍にパル スが立てられる確率がその他の部分に立てられる確率に比べて高くなる ことを利用するものである。 なお、 第 1 2実施例から第 1 4実施例のい ずれかに示すような音源パルス探索位置の決定法を用いれば、 伝送路誤 りの影響を緩和することも可能である。
パルス位置探索器 3 0 0 4は、 探索位置算出器 3 0 0 3から出力され た音源パルス探索位置と、 別途入力されるピッチ周期 Lを用いて、 音源 パルスを立てる位置の最適な組み合わせを决定する。 パルス探索の方法 は 「I TU - T Recommendat ion G. 729 : Coding of Speechat 8 kbi ts/s usi ng Con jugate- Structure Algebraic -Code-Exci ted Linear-Predict ion ( CS-ACELP ) , March 1996」 に示されているように、 例えばパルス数が 4 本の場合は第 6実施例で示した式 ( 2 ) を最大化するように i 0から i 3の組み合わせを決定する。 なお、 この時の各音源パルスの極性は、 雑 音符号帳成分の夕一ゲッ トべク トル、 即ち聴覚重みづけされた人力音声 から聴覚重みづけ合成フィル夕の零入力応答信号と適応符号帳成分の信 号を減じた信号べク トル、 の各位置における極性と等しくなるようにパ ルス位置探索を行う前に予め决定すれば探索のための演算量を大幅に軽 減できる。 また、 ピッチ周期がサブフ レーム長より短い場合には第 5実 施例にも示したようにピッチ周期化フ ィ ル夕をかけることによって、 音 源パルスをインパルスではなく ピッチ周期のパルス列になるようにして いる。 このようなピッチ周期化処理を行う場合は、 聴覚重みづけ合成フ ィル夕のィ ンパルス応答べク トルにピッチ周期化フィル夕を予めかけて おけば、 ピッチ周期化を行わない場合と同様にして式 ( 2 ) の最大化に よって音源パルスの探索を行うことができる。 このようにして決定され た各音源パルスの位置に、 決定された各音源パルスの極性に従ってパル スを立て、 ピッチ周期 Lを用いてピッチ周期化フィル夕をかければ、 Λ ルス音源べク トルが生成される。 生成されたパルス音源べク トルはパル ス音源ベク トル 1 として選択器 3 0 0 5に出力される。 なお、 パルス位 置探索器 3 0 0 4に用いられる音源パルス探索位置は、 音源パルス数を 多く しているので各音源パルスに割り振られる位置情報は必ずしも十分 でないものである。 すなわち、 パルス位置探索器 3 0 0 4を使用するモ ードは、 パルス数は多いが各パルスの位置を必ずしも厳密に表すことは できないモードである。 このような各パルスの位置情報が不足している 場合は、 探索位置算出器 3 0 0 3で行われるようなパルス探索位置の決 定法を用いることの効果を得ることができる。
パルス位置探索器 3 0 0 6は、 予め定められた固定探索位置と音源生 成部の外部から別途入力されるピッチ周期 Lを用いて、 音源パルスを立 てる位置の最適な組み合わせを決定する。 パルス探索の方法は 「I TU- T Recommendat ion G . 729 : Cod ing of Speech at 8 kb its/ s us ing Conjug ate - Structure A lgebrai c -Code- Exc ited L inear-Pred ic t ion ( CS-ACELP ) ; March 1996」 に示されているように、 例えばパルス数が 4本の場合は第 6実施例で示した式 ( 2 ) を最大化するように i 0から i 3の組み合わ せを決定する。 なお、 この時の各音源パルスの極性は、 雑音符号帳成分 の夕—ゲッ 卜べク トル、 即ち聴覚重みづけされた入力音声から聴覚重み づけ合成フィル夕の零入力応答信号と適応符号帳成分の信号を減じた信 号べク トル、 の各位置における極性と等しくなるようにパルス位置探索 を行う前に予め決定すれば探索のための演算量を大幅に軽減できる。 ま た、 ピッチ周期がサブフ レーム長より短い場合には第 5実施例にも示し たようにピッチ周期化フィル夕をかけることによって、 音源パルスをィ ンパルスではなく ピッチ周期のパルス列になるようにしている。 このよ うなピッチ周期化処理を行う場合は聴覚重みづけ合成フィル夕のィンパ ルス応答べク トルにビッチ周期化フィル夕を予めかけておけば、 ピッチ 周期化を行わない場合と同様にして式 ( 2 ) の最大化によって音源パル スの探索を行うことができる。 このようにして決定された各音源パルス の位置に、 決定された各音源パルスの極性にしたがってパルスを立て、 ピッチ周期 Lを用いてピッチ周期化フィル夕をかければ、 パルス音源べ ク トルが生成される。 生成されたパルス音源ベク トルは、 パルス音源べ ク トル 2 として選択器 3 0 0 5に出力される。 ここで、 パルス位置探索 器 3 0 0 6に入力される固定探索位置は、 各音-源パルスに割り当てられ る位置情報が十分になるように (具体的にはサブフレーム内の全ての点 がこの固定探索位置のパターンに含まれるように) 音源パルスの数を絞 り込んだものでなければならない。 パルス数を減ら して、 その分パルス を立てる位置を正確に表せるようにすることによって、 有声立ち上がり 部分などにおける合成音声品質を向上することが可能となる。 また、 こ のような位置情報が十分であるモードを設けることによって、 位置情報 が不足するモ一 ドのみを使用した場合に生じる劣化を回避することも可 能となる。
なお、 図 3 0においてはパルス位置探索器は 2種類の場合を示してい るが、 3種類以上に増やして入力信号の特徴に応じた切り替えを行うこ とも可能である。 また、 パルス位置探索器 3 0 0 4に入力する音源パル ス探索位置を、 探索位置算出器 3 0 0 3から出力されたものの代わりに、 予め定められている固定探索位置とする構成であつても、 各パルスに割 り当てられる位置情報が十分である少ないパルス数のモードを備える構 成は、 有声立ち上がり部分などにおける合成音声品質を向上する効果や 位置情報が不足するモー ドのみを使用した場合に生じる合成音声品質の 劣化を回避する効果が得られる。 しかし、 探索位置算出器 3 0 0 3によ つて決定される音源パルス探索位置を用いてパルス位置探索器 3 0 0 4 がパルス位置探索を行う方が、 ビヅチピーク付近に音源パルスが立てら れやすい特徴を有する有声部分においては、 パルス数の多いモードの利 用効率を上げることができる。
選択器 3 0 0 5は、 パルス位置探索器 3 0 0 4から出力されたパルス 音源べク トル 1 とパルス位置探索器 3 0 0 6から出力されたパルス音源 べク トル 2 とを比較し、 合成音声の歪みが小さくなる方を最適パルス音 源べク トルとして乗算器 3 0 0 8に出力する。 選択器 3 0 0 5から乗算 器 3 0 0 8に出力されたパルス音源ベク トルは、 外部のゲイ ン量子化器 によって量子化された量子化パルス音源べク トル利得が乗算されて加算 器 3 0 0 9に出力される。 なお図 3 0では省略しているが、 符号器のパ ルス位置探索器 3 0 0 4及び 3 0 0 6においては、 パルス音源べク 卜ル 1、 2 とともに各パルス音源べク トルを表す各音源パルスの極性及びィ ンデックス情報が別途選択器 3 0 0 5に出力される。 さらに選択器 3 0 0 5は、 パルス音源ベク トル 1 と 2のどちらを選択したかという情報と、 選択したパルス音源べク トルを表す、 各パルスの極性及びィ ンデヅクス が音源生成部の外部に出力される。 この選択情報及び音源パルスの極性 及びィ ンデックス情報は、 符号化器や多重化器などを通って伝送路へ出 力されるデータ系列に変換されて伝送路へ送り出される。
加算器 3 0 0 9は、 乗算器 3 0 0 7から出力された適応符号べク トル 成分と、 乗算器 3 0 0 8から出力されたパルス音源べク トル成分とのベ ク トル加算を行い、 励振音源べク トルとして出力する。
なお、 本実施例において、 第 1 2実施例又は第 1 3実施例又は第 1 4 実施例のようにィ ンデックス更新手段又はパルス番号及びィ ンデックス の更新手段又は固定探索位置と位相適応探索位置の併用をパルス位置探 索器 3 0 0 4の前段に備えれば、 探索位置算出器 3 0 0 3を用いること に起因する伝送路誤りの影響を受けやすいという性質を低くすることが できる。
また、 パルスの立て方としては、 定数本例えば 4本のパルスを探索範 囲、 例えば 3 2箇所の位置のどこかに立てる場合においては、 前述のよ うに 3 2箇所を 4つに分けて 1本のパルスを割り当てられた 8箇所の中 の 1箇所に決定するように全ての組み合わせ ( 8 x 8 x 8 x 8通り) を 探索する方法の他に、 3 2箇所の中から 4箇所を選びだす組み合わせ全 てについて探索する方法などがある。 なお、 振幅 1のイ ンパルスの組み 合わせの他に、 複数本例えば 2本のパルスを組み合わせたパルス対の組 み合わせや、 振幅の異なるィ ンパルスの組み合わせによるパルスの立て 方も可能である。
なお、 パルス数が少なくパルス位置情報が十分であるモ一ドにおいて は、 パルス位置情報が不足しない範囲内において、 パルス位置情報の一 部を雑音コードベク トルを表すイ ンデックスに割り当てることにより、 有声立ち上がり部のみならず無声子音部や雑音的な入力信号に対する性 能向上を図ることも可能である。
また、 上記第 1実施例から第 1 7実施例に示した音声符号化装置及び 音声復号装置の音源生成機能は、 磁気ディスク、 光磁気ディスク、 C D や D V Dなどの光ディスク、 I Cカード、 R O M、 R A M等の記録媒体 あるいは記憶装置にプログラムとして記録することができる。 よって、 この記録媒体や記憶装置から記録データをコンピュータで読み取ること により、 音声符号化装置の機能を実現することができる。
以上本発明による音声符号化装置及び音声復号装置の音源生成部につ いて説明したが、 この音源生成部は次に示す C E L P型音声符号化装置 及び C E L P型音声復号装置に用いられることによ り、 その効果を発揮 C
rn C C
¾" 図 3 1は本発明にかかる C E L P型音声符号化装置の好ましい実施例 の全体構成を示すブロック図である。 このブロック図中、 点線で囲んだ コードブックブロックと一点鎖線で囲んだ音源べク トルブロックには、 上記各実施例の構成が用いられるものとする。 すなわち、 図 1、 図 3な どのように、 適応符号ベク トルと雑音符^ベク トルを生成する構成の実 施例は、 図 3 1のコードブックブロックとして用いられ、 一方、 図 8、 図 1 2、 図 1 4、 図 1 5、 図 1 7、 図 1 8、 図 2 0、 図 2 1、 図 2 3、 図 2 5、 図 2 7、 図 2 9、 図 3 0などのように、 励振音源べク トルを生 成する構成の実施例は図 3 1の音源べク トルブロックとして用いられる。 なお、 図 3 1では、 音源ベク トルブロックと、 その一部のコードブック プロック自体は従来の構成が示されている。
図 3 1において、 適応符号帳 3 40 1の出力デ一夕である時系列符号 はべク トル乗算器 34 0 3に入力され、 ゲイ ン符号 G Oと乗算される。 一方、 雑音符号帳 34 0 2の出力データである時系列符号はベク トル乗 算器 3 4 0 4に入力され、 ゲイ ン符号 G 1 と乗算される。 ベク トル乗算 器 34 0 3、 3 4 04の出力は相互に加算器 34 0 5で加算され、 その 結果が合成フィル夕 34 0 7を介して加算器 34 1 0の一入力に与えら れる。 入力音声信号は線形予測分析器 3 4 0 6に入力されるとともに、 加算器 3 4 1 0の +入力に与えられている。 線形予測分析器 340 6で は、 入力音声の線形予測分析が行われ、 さらに量子化され、 予測係数 L として符号化出力の一部とされるとともに、 合成フィル夕 3 4 0 7の係 数として設定される。 加算器 34 1 0の出力データは、 歪最小化器 3 4 0 9に与えられ、 合成フィル夕 3 40 7の合成波形歪が最小となるよう、 適応符号帳 34 0 1 と雑音符号帳 340 2でのべク トル切出しを制御す る信号を生成する。 すなわち、 歪最小化器 34 0 9は歪を最小にするよ うに、 適応符号帳 34 0 1 と雑音符号帳 3 4 0 2とゲイン量子化器 3 4 0 8をそれぞれ制御する制御信号を生成して、 これらの回路に送出する。 図 3 1及び後述する図 3 2におけるデ一夕を示す符号 A、 S、 G、 L は次のようなものである。
A : 歪最小化器 3 4 0 9によって最終的に選択された適応符号べク ト ルを指し示すイ ンデックス情報 (符号化装置から復号装置に転送される) S : 歪最小化器 3 4 0 9によって最終的に選択された雑音符号べク ト ルを指し示すイ ンデックス情報 (符号化装置から復号装置に転送される) G : 歪最小化器 3 4 0 9によって最終的に決定された量子化ゲインを 表す量子化情報 (符号化装置から復号装置に転送される)
L : 線形予測分析器 3 4 0 6によって量子化された線形予測係数を表 す情報 (符号化装置から復号装置に転送される)
上記各実施例では、 本発明の音声符号化装置を実現するものとして説 明しているが、 本発明では音源ベク トルの生成手法に特徴があり、 この 特徴は、 そのまま音声復号装置にも適用可能である。 したがって、 上記 各実施例は、 そのまま C E L P型音声復号装置における音源ベク トルの 生成部分に利用することができる。 この点を明らかにするために、 本発 明による C E L P型音声復号装置について以下に説明する。
図 3 2は本発明にかかる C E L P型音声復号装置の好ましい実施例の 全体構成を示すブロック図である。 このブロック図中、 点線で囲んだコ —ドブックブロックと一点鎖線で囲んだ音源ベク トルブロックには、 上 記各実施例の構成が用いられるものとする。 すなわち、 図 1、 図 3など のように、 適応符号べク トルと雑音符号べク トルを生成する構成の実施 例は、 図 3 2のコー ドブックブロックとして用いられ、 一方、 図 8、 図 1 2、 図 1 4、 図 1 5、 図 1 7、 図 1 8、 図 2 0、 図 2 1、 図 2 3、 図 2 5、 図 2 7、 図 2 9、 図 3 0などのように、 励振音源べク トルを生成 する構成の実施例は図 3 2の音源べク トルブロックとして用いられる。 なお、 図 32では、 音源ベク トルブロックと、 その一部のコードブック プロック自体は従来の構成が示されている。
図 32において、 適応符号帳 3 50 1の出力データである時系列符号 はべク トル乗算器 3 503に入力され、 ゲイ ン符号 G Oと乗算される。 一方、 雑音符号帳 3 502の出力デ一夕である時系列符号はべク トル乗 算器 35 04に入力され、 ゲイ ン符号 G 1と乗算される。 べク トル乗算 器 3503、 3 504の出力は相互に加算器 3505で加算され、 その 結果が合成フィル夕 3507を介して復号音声として出力される。 合成 フィル夕 3507のフィル夕係数は線形予測係数を復号する線形予測係 数復号器 3 506にて生成される。 ゲイ ン符号 G 1、 G 0はゲイン復号 器 3508にて生成れる。
以上説明したように、 本発明による C E L P型音声符号化装置及び/ 又は C E L P型音声復号装置は、 音声の符号化及び/又は復号時に適応 符号べク トルのピッチビーク位置に対応する雑音符号べク トルの振幅を 強調することによって、 1ピッチ波形内に存在する位相倩報を利用して、 音質向上を図ることができるので、 本発明は例えば、 デジタル信号とし て無線通信、 光無線通信を行う音声通信装置に好適に適用可能である。 図 33は本発明の CE LP型音声符号化装置 330 1を用いた移動無 線端末の概略構成を示すプロック図である。 音声符号化装置 330 1の 出力信号は変調器 330 2にて、 例えば QP S K (Quadrature Differe ntial Phase Shift Keying) によるデジタル変調が行われるとともに、 例えば CDMA (Code Division Multiple Access) 方式や、 TDMA (Time Division Multiple Access) 方式などの所定アクセス方式に適 合する信号形式に変調され、 ついで増幅器 3303にて増幅され、 アン テナ 3304から放射される。 なお、 図示しないが、 本発明の音声復号 装置も同様に移動無線端末において適用可能である。 産業上の利用可能性
本発明は、 上記実施例から明らかなように、 適応符号ベク トルのビッ チピーク位置に対応する雑音符号べク トルの振幅を強調するための振幅 強調窓を雑音符号ベク トルに乗ずるようにしたので、 1 ピッチ波形内に 存在する位相情報を利用して、 音質向上を図ることができる。
本発明はまた、 適応符号べク トルのピッチビーク近傍のみに限定した 雑音符号べク トルを用いるようにしたので、 雑音符号べク トルに割り 当 てられるビッ ト数が少ない場合でも、 音質劣化を少なくでき、 ピッチビ ーク近傍にパワーが集中する有声部の音声品質の向上を図ることができ
■Q o
本発明はまた、 適応符号べク トルのピッチビーク位置とピッチ周期に 基づいてパルス位置の探索範囲を決定するようにしたので、 1 ピッチ波 形内でピッチ周期に応じたパルス位置探索を行うことができ、 パルス位 置に割り当てられるビッ ト数が少ない場合でも、 音声品質の劣化を抑え ることができる。
本発明はまた、 パルス探索の範囲を 1 ピッチ周期強の長さに限定する ことにより、 ピッチ周期性のある音源信号を効率的に表現できる。 また、 探索範囲内に 2つのピッチビークを含む為、 1つめのピッチビークと 2 つめのピッチピークの形が異なる場合や、 1つめのピッチビークの位置 を誤って検出した場合への対応が可能である。
本発明はまた、 入力音声信号のビツチ周期に応じて適応的にパルス数 を変化させる構成を有するので、 パルス数の切り替えのために新たな情 報を必要とせずに音声品質の向上を図ることができる。
本発明はまた、 パルス位置探索の前にピッチビーク近傍とそれ以外の 部分のパルス振幅を決定するため、 1 ピッチ波形の形状を効率的に表現 することができる。
本発明はまた、 ピッチ周期の連続性を用いてパルスの探索位置を切り 替えることによって、 有声の立ち上がり部 ■ 無声部と有声定常部 · 有声 部のそれぞれに適したパルス音源探索を行うことができるので、 音声品 質の向上を図ることができる。
本発明はまた、 現サブフ レームのピッチゲイ ン (適応符号ベク トル利 得) を、 適応符号帳探索直後に求めたピッチゲイ ンを用いて初段量子化 を行い、 音源探索の最後に求められた最適ビツチゲイ ンと初段量子化ビ ツチゲイ ンの差分を 2段目で量子化することによって、 適応符号帳と固 定符号帳 (雑音符号帳) の和で駆動音源べク トルを生成する C E L P型 音声符号化装置においては、 固定符号帳 (雑音符号帳) 探索前に得られ る情報を量子化して伝送するため、 独立したモ一ド情報を付加せずに固 定符号帳 (雑音符号帳) の切り替え等を行うことが可能となり、 効率的 に音声情報を符号化することが可能となる。
本発明はまた、 過去に符号化したピッチ周期の連続性あるいは過去に 符号化したピッチゲイ ンの大きさ (あるいは連続性) に基づいて現在の サブフレームの音声信号のビツチ周期性を判定し、 パルス音源の探索位 置を切り替えるため、 ビツチ周期性が高いところと低いところの判定に 新たな情報を付加することなく、 それそれの部分に適したパルス音源探 索を行うことができるようになるので、 同一情報量下での音声品質の向 上を図ることができる。
本発明はまた、 直前のサブフレームにおけるピッチビーク位置と直前 のサブフレームにおけるピツチ周期と現在のサブフレームにおけるビヅ チ周期を用いることにより、 バックヮ一ドで現在のサブフレームにおけ るピッチビーク位置を予測でき、 この予測ピッチピーク位置を用いて位 相適応処理を行うか否かを切り替えるため、 切り替え情報の新たな伝送 なしに位相適応処理の切り替えを行うことができ、 同一情報量下での音 声品質の向上を図ることができる。 なお、 位相適応処理を行わないモー ドにおいては、 固定符号帳を使用すれば良く、 無音部等において固定符 号帳が使用され続ける様な状態が生じることにより、 位相適応型音源に 対する誤りの伝播をリセッ 卜する効果も得ることができる。
本発明はまた、 適応符号べク トルのピッチビーク近傍への信号パワー 集中度を用いて位相適応を行うか否かを切り替えるため、 切り替え情報 の新たな伝送無しに位相適応処理の切り替えを行うことができ、 同一-情 報量下での音声品質の向上を図ることができる。 なお、 位相適応処理を 行わないモー ドにおいては、 固定符号帳を使用すれば良く、 無音部等に おいて固定符号帳が使用され続ける様な状態が生じることにより、 位相 適応型音源に対する誤りの伝播を リセッ 卜する効果も得ることができる。 本発明はまた、 ピッチビーク位置を 0とする相対位置で音源パルスの 位置を表現する C E L P型音声符号化装置において、 音源パルスの各位 置を表すインデックスをサブフレーム先頭から順番に並ぶように付ける ことにより、 伝送路誤りの影響等によってピッチビーク位置を誤ってし まった場合において、 音源パルス位置のずれが非常に大きくならないよ うにすることができる。
本発明はまた、 ピツチビーク位置を 0とする相対位置で音源パルスの 位置を表現する C E L P型音声符号化装置において、 音源パルスの各位 置を表すイ ンデックスをサブフレーム先頭から順番に並ぶように付ける とともに、 同じィ ンデックス番号で表される別々のパルスに付ける番号 もサブフ レームの先頭から順番になるように定義することにより、 伝送 路誤りの影響等によってピッチビーク位置を誤ってしまった場合におい て、 音源パルス位置のずれが小さ くなるようにすることができる。
本発明はまた、 ピッチビーク位置を 0 とする相対位置で音源パルスの 位置を表現する C E L P型音声符号化装置において、 音源パルスの探索 位置の全てを相対位置で表現するのではなく、 一部分のみを相対位置で 表現して残りの探索位置は予め定められた固定位置にすることにより、 伝送路誤りの影響等によってビツチビーク位置を誤ってしまった場合に おいて、 音源パルスの位置がずれてしまう確率を減らすことにより、 伝 送路誤りの影響が長く伝播することを防ぐことができる。
本発明はまた、 1 ピッチ波形内のビーク位置をピッチピーク位置とし て探し出すため、 サブフレーム長とピッチ周期とがー致しないことに起 因するセカン ドビークをピッチピークとしてしまう誤検出を防ぐことが できる。
本発明はまた、 連続する有声定常部においては、 直前のサブフレーム におけるピッチピークの位置と直前のサブフ レームにおけるピッチ周期 と現在のサブフレームにおけるビッチ周期の情報を用いて現在のピッチ ビーク位置の存在範囲を限定し、 その範囲内でピッチビーク位置を探索 する構成とすることによ り、 現在のサブフ レームの信号のみを用いてピ ッチピーク位置を探索したときに生じる、 1 ピヅチ波形内のセカン ドビ —クをピッチピークとする誤検出を防ぐことができる。
本発明はまた、 パルス音源を雑音符 ^帳に適用した C E L P型音声符 号化装置において、 音源パルス数が少ない代わりに各音源パルスの位置 情報が十分なモードと、 各音源パルスの位置情報が粗い代わりに音源パ ルス数が多いモードとの双方を有する雑音符号帳構成としたので、 有声 立ち上がり部分の音声品質の向上と音源パルス数が多いモードの有効利 用との双方を実現できるものである。
本発明によれば、 上記構成あるいは手法により音源を生成しているの で、 C E L P型音声符号化装置のみならず、 C E L P型音声復号装置に おいても同様の効果を奏する。 また、 本発明の C E L P型音声符号化装 置並びに C E L P型音声復号装置は移動体通信装置などの音声を符号化 して伝送したり、 符号化されて伝送された音声を復号して元の音声を再 生する通信装置や、 音声記録装置などに広く応用が可能である。

Claims

請 求 の 範 囲
1 . 適応符号ベク トルのピツチピーク位置に対応する雑音符号べ ク トルの振幅を強調する音源生成部を備えた C E L P型音声符号化装置 c
2 . 前記音源生成部が、 前記適応符号ベク トルのピッチ周期と同 期した振幅強調窓を前記雑音符号べク トルに乗ずることによって、 前記 適応符号べク トルのピッチビークの位置に対応する前記雑音符号べク ト ルの振幅を強調する請求項 1記載の C E L P型音声符号化装置。
3 . 前記音源生成部が、 前記適応符号ベク トルのピッチビーク位 匱を中心とする三角窓を振幅強調窓として使用する請求項 2記載の C E L P型音声符号化装置。
4 . 適応符号べク トルのピッチピーク近傍のみに限定した雑音符 号べク トルを用いる音源生成部を備えた C E L P型音声符号化装置。
5 . パルス音源を雑音符号帳に用いる C E L P型音声符号化装置 において、 パルス位置の探索範囲を適応符号べク トルのピッチ周期及び ピッチピーク位置によって決定する音源生成部を備えたことを特徴とす る C E L P型音声符号化装置。
6 . 前記音源生成部が、 前記適応符号ベク トルのピッチピーク位 置近傍は密に、 それ以外の部分は疎になるように前記パルス位置の探索 範囲を决定する請求項 5記載の C E L P型音声符号化装置。
7. 前記ビッチ周期によって前記パルス位置の探索範囲を切り替 える請求項 5又は 6記載の C E L P型音声符号化装置。
8. 前記適応符号べク トルに複数のピッチピークが存在する場合 に、 少なく とも 2つのピッチピークの位置が探索範囲に含まれるように 前記パルス位置の探索範囲を限定する請求項 7記載の C E L P型音声符 号化装置。
9. 入力音声の分析結果によって雑音符号帳を切り替える構成の C E L P型音声符号化装置。
1 0. 雑音符号帳探索を行う以前に抽出された伝送パラメ一夕を 用いて雑音符号帳を切り替える音源生成部を備えた C E L P型音声符号 化装置。
1 1. 音声信号の分析結果によって前記パルスの本数を切り替え る音源生成部を備えた請求項 5から 8のいずれか 1つに記載の C E L P 型音声符号化装置。
1 2. 前記雑音符号帳の探索を行う以前に抽出されている伝送パ ラメ一夕を用いて前記パルスの本数を切り替える音源生成部を備えた請 求項 5から 8、 1 1のいずれか 1つに記載の C E L P型音声符号化装置 c
1 3. 前記ピッチ周期によって前記パルスの本数を切り替える音 源生成部を備えた請求項 5から 8、 1 1、 1 2のいずれか 1つに記載の C E L P型音声符号化装置。
1 4 . 連続するサブフレーム間で前記ピッチ周期の変動が小さい 場合とそうでない場合で前記パルスの本数を切り替える請求項 1 3記載 の C E L P型音声符号化装置。
1 5 . 雑音音源としてパルス音源を用いる雑音符号べク トル生成 部が、 前記パルス位置の探索に先立ってパルス振幅を決定する請求項 5 から 8、 1 1から 1 4のいずれか 1つに記載の C E L P型音声符号化装
1 6 . 雑音音源としてパルス音源を用いる雑音符号ベク トル生成 部が、 前記適応符号べク トルのピッチビーク近傍とそれ以外の部分で前 記パルスの振幅を変える請求項 1 5記載の C E L P型音声符号化装置。
1 7 . 統計的にあるいは学習によって、 使用するパルス音源のパ ルス数をピッチ周期に基づいて决定する請求項 1 3記載の C E L P型音 声符号化装置。
1 8 . ピッチゲイ ンを多段量子化する音源生成部を備え、 初段に おいては適応符号帳探索直後に求められる値を量子化夕一ゲッ トとし、 2段目以降においては音源探索を全て終えた後に閉ループ探索で決定さ れたビツチゲイ ンと前記初段で量子化された値の差分を量子化夕一ゲッ トとする C E L P型音声符号化装置。
1 9 . ピッチゲイ ンを多段量子化する音源生成部を備え、 初段 においては適応符号帳探索直後に求められる値を量子化夕一ゲッ トとし、 2段目以降においては音源探索を全て終えた後に閉ループ探索で決定さ れたピツチゲイ ンと前記初段で量子化された値の差分を量子化夕ーゲッ トとする C E L P型音声符号化装置の適応符号帳探索直後に求められた ピッチゲイ ンの量子化値を用いて固定符号帳を切り替える請求項 9から 1 2、 1 5から 1 7のいずれか 1つに記載の C E L P型音声符号化装置。
2 0 . ピッチ周期のサブフ レーム間変化に基づいて固定符号帳を 切り替える請求項 9から 1 2、 1 5から 1 9のいずれか 1つに記載の C E L P型音声符号化装置。
2 1 . 直前のサブフレームで量子化されたビヅチゲイ ンを用いて 固定符号帳を切り替える請求項 9から 1 2、 1 5から 1 7のいずれか 1 つに記載の C E L P型音声符号化装置。
2 2 . ピッチ周期のサブフ レーム間変化及び量子化ピッチゲイ ン に基づいて固定符^帳を切り替える請求項 9から 1 2及び 1 5から 1 7 のいずれか 1つに記載の C E L P型音声符号化装置。
2 3 . 固定符号帳にパルス音源符号帳を用いる請求項 1 9から 2 2のいずれか 1つに記載の C E L P型音声符号化装置。
2 4 . 所定の時間長を有するサブフレーム毎に音声符号化処理を 行う C E L P型音声符号化装置において、 現在のサブフレームにおける 位相と直前のサブフ レームにおける位相とが連続しているかどうかを判 定し、 連続していると判定された場合と連続していないと判定された場 合とで用いる音源を切り替えることを特徴とする C E L P型音声符号化 装置。
2 5 . 直前のサブフレームにおけるピッチピーク位置と、 直前の サブフ レームにおけるピッチ周期と、 現在のサブフ レームにおけるピヅ チ周期を用いて現在のサブフ レームにおけるピッチピーク位匱を予測し、 この予測によって得られた現在のサブフ レームにおけるピッチビーク位 置が、 現在のサブフ レームにおけるデ一夕のみから求められたピッチピ ーク位置に近いかどうかによつて、 前記直前のサブフレームにおける位 相と前記現在のサブフ レームにおける位相とが連続しているかどうかを 判定し、 その判定結果によって前記音源の符号化処理方法を切り替える 請求項 2 4記載の C E L P型音声符号化装置。
2 6 . 直前のサブフレームにおける位相と現在のサブフレームに おける位相とが連続していると判定された場合には、 位相適応処理を雑 音符号帳に対して行い、 前記直前のサブフ レームにおける位相と前記現 在のサブフ レームにおける位相とが連続していないと判定された場合に は、 位相適応処理を雑音符号帳に対して行わない請求項 2 4又は 2 5記 載の C E L P型音声符号化装置。
2 7 . 所定の時間長を有するサブフレーム毎に音声符号化処理を 行う C E L P型音声符号化装置において、 現在のサブフ レームにおける 適応符号ベク トルのピッチビーク付近における信号パワーの集中度を基 準として、 音源信号の符号化処理方法を切り替えることを特徴とする C E L P型音声符号化装置。
2 8 . 現在のサブフレームにおける適応符号べク トルのビツチピ —ク付近における信号パワーの 1 ビツチ周期長の信号全体に占める割合 が所定の値以上である場合には、 位相適応処理を雑音符号帳に対して行 レ、、 所定の値未満である場合には、 位相適応処理を雑音符号帳に対して 行わない請求項 2 7記載の C E L P型音声符号化装置。
2 9 . 前記位相適応処理として、 ピッチピーク近傍は密にパルス 位置探索を行い、 ビッチビーク近傍以外の部分は疎にパルス位置探索を 行う、 パルス音源を雑音音源に適用した請求項 2 6又は 2 8記載の C E L P型音声符号化装置。
3 0 . 前記パルスの位置を表すイ ンデックスを、 サブフ レームの 先頭側から順番に並ぶように付ける請求項 5から 8、 1 1から 1 7、 2 3、 2 9のいずれか 1つに記載の C E L P型音声符号化装置。
3 1 . 同じイ ンデッ クス番号である場合、 サブフ レームの先頭側 から順番にパルスの番号を付け、 さらにピツチピーク位置近傍は密に、 ビッチピーク近傍以外の部分は疎になるように、 各パルスの探索位置が 決定されている請求項 3 0記載の C E L P型音声符号化装置。
3 2 . 前記パルスの探索位置の一部を前記ビツチビーク位置によ つて決定し、 その他のパルス探索位置はビツチピーク位置に関係なく予 め定められた固定位置である、 請求項 5から 8、 1 1から 1 7、 2 3、 2 9のいずれか 1つに記載の C E L P型音声符号化装置。
3 3 . 所定の時間長を有する音声あるいは音源信号の前記ピッチ ピーク位置を求める際に、 当該信号から 1 ピッチ周期長のみを切り出し、 切り出した信号内においてピッチピーク位置を決定するピッチビーク位 置算出手段を有する請求項 1から 8、 1 1から 1 7、 1 9から 2 3、 2 5から 3 2のいずれか 1つに記載の C E L P型音声符号化装置。
3 4 . 当該信号から 1 ピッチ周期長のみを切り出す場合に、 まず
1 ピッチ周期長を切り出さずに当該信号全体を用いて前記ビツチビーク 位置を決定し、 この決定されたピッチビーク位置を切り出し開始点とし て 1 ピッチ周期長を切り出し、 切り出した信号内において前記ビッチピ ーク位置を泱定する請求項 3 3記載の C E L P型音声符号化装置。
3 5 . 所定の時間長を有するサブフ レーム毎に音声符号化処理を 行う C E L P型音声符号化装置において、 現在のサブフレームにおける 前記ビツチビーク位置を算出する際、 直前のサブフレームにおけるビッ チ周期と現在のサブフレームにおけるピッチ周期との差が予め定められ た範囲内である場合は、 直前のサブフレームにおける前記ピッチピーク 位置と、 直前のサブフ レームにおけるピッチ周期と、 現在のサブフレー ムにおけるビツチ周期を用いて現在のサブフレームにおけるピヅチピー ク位置を予測し、 この予測によって得られた現在のサブフレームにおけ るピッチピーク位置を用いて現在のサブフ レームにおける前記ピッチピ ーク位置の存在範囲を予め限定し、 その範囲内でピッチピーク位置探索 を行うことを特徴とする請求項 1から 8、 1 1から 1 7、 1 9から 2 3、
2 5から 3 2のいずれか 1つに記載の C E L P型音声符号化装置。
3 6 . 所定の時間長を有するサブフレーム毎に音声符号化処理を 行う C E L P型音声符号化装置において、 雑音符号帳としてパルス音源 を用い、 前記雑音符号帳のモードを少なく とも 2モード以上有し、 前記 音源パルスの本数はモードを切り替えることによって変化させることが でき、 少なく とも 1つは各パルスの位置情報が十分にあるパルス本数の 少ないモ一ドであり、 その他は各パルスの位置倩報が不足するがパルス 数の多いモードであり、 モードの切り替え情報を伝送してモードの切り 替えを行うことを特徴とする C E L P型音声符号化装置。
3 7 . ピッチ周期が短い場合には、 前記ピッチ周期に対応して前 記音源パルスの探索範囲を狭い範囲内に限定することによって、 前記音 源パルスの位置情報を減ら して前記音源パルスの本数を増やす請求項 3 6記載の C E L P型音声符 化装置。
3 8 . 前記各パルスの位置情報が不足するが前記パルスの数が多 いモードにおいては、 ビツチビーク位置近傍は音源パルスの探索位置を 密に、 それ以外の部分においては前記音源パルスの探索位置を疎になる ように、 前記パルス位置の探索範囲を決定する請求項 3 6又は 3 7記載 の C E L P型音声符号化装置。
3 9 . 前記パルスの数が少なく位置情報が十分である音源モー ド において、 位置情報の一部を雑音性の音源コ一ドベク トルを表すインデ ックスに割り当てるようにした請求項 3 6から 3 8のいずれか 1つに記 載の C E L P型音声符号化装置。
4 0 . 請求項 1から 3 9までのいずれか 1つに記載の C E L P型 音声符号化装置の機能を実行させるためのプログラムを記録したコンビ ュ一夕読み取り可能な記憶媒体。
4 1 . 適応符号べク トルのピツチビーク位置に対応する雑音符号 べク トルの振幅を強調するステツプを有する音声符号化方法。
4 2 . 前記適応符号べク トルのピッチ周期と同期した振幅強調窓 を前記雑音符号ベク トルに乗ずることによって、 前記適応符号ベク トル のピッチピークの位置に対応する前記雑音符号べク トルの振幅を強調す る請求項 4 1記載の音声符号化方法。
4 3 . 前記適応符号べク トルのピッチビーク位置を中心とする三 角窓を振幅強調窓として使用する請求項 4 2記載の音声符号化方法。
4 4 . 適応符号べク トルのビツチビーク近傍のみに限定した雑音 符号べク トルを用いるステップを有する音声符号化方法。
4 5 . パルス音源を雑音符号帳に用いる音声符号化方法において、 パルス位置の探索範囲を適応符号べク トルのビツチ周期及びビッチビ一 ク位置によって決定するステツプを有することを特徴とする音声符号化 方法。
4 6 . 前記音源生成部が、 前記適応符号ベク トルのピッチビーク 位置近傍は密に、 それ以外の部分は疎になるように前記パルス位置の探 索範囲を決定する請求項 4 5記載の音声符号化方法。
4 7 . 前記ピツチ周期によって前記パルス位置の探索範囲を切り 替える請求項 4 5又は 4 6記載の音声符号化方法。
4 8 . 前記適応符号べク トルに複数のピッチビークが存在する場 合に、 少なく とも 2つのビツチピークの位置が探索範囲に含まれるよう に前記パルス位置の探索範囲を限定する請求項 4 7記載の音声符号化方 法。
4 9 . 入力音声の分析結果によって雑音符号帳を切り替える構成 の音声符号化方法。
5 0 . 雑音符号帳探索を行う以前に抽出された伝送パラメ一夕を 用いて雑音符号帳を切り替える音源生成部を備えた音声符号化方法。
5 1 . 音声信号の分析結果によって前記パルスの本数を切り替え る音源生成部を備えた請求項 4 5から 4 8のいずれか 1つに記載の音声 符号化方法。
5 2 . 前記雑音符号帳の探索を行う以前に抽出されている伝送パ ラメ一夕を用いて前記パルスの本数を切り替える音源生成部を備えた請 求項 4 5から 4 8、 5 1のいずれか 1つに記載の音声符号化方法。
5 3 . 前記ビツチ周期によって前記パルスの本数を切り替える音 源生成部を備えた請求項 4 5から 4 8、 5 1、 5 2のいずれか 1つに記 載の音声符号化方法。
5 4 . 連続するサブフレーム間で前記ピッチ周期の変動が小さい 場合とそうでない場合で前記パルスの本数を切り替える請求項 5 3記載 の音声符号化方法。
5 5 . 雑音音源としてパルス音源を用いる雑音符号べク トル生成 部が、 前記パルス位置の探索に先立ってパルス振幅を決定する請求項 4 5から 4 8、 5 1から 5 4のいずれか 1つに記載の音声符号化方法。
5 6 . 雑音音源としてパルス音源を用いる雑音符号べク トル生成 部が、 前記適応符号べク トルのピッチピーク近傍とそれ以外の部分で前 記パルスの振幅を変える請求項 5 5記載の音声符号化方法。
5 7 . 統計的にあるいは学習によって、 使用するパルス音源のパ ルス数をピツチ周期に基づいて決定する請求項 5 3記載の音声符号化方 法。
5 8 . ピッチゲイ ンを多段量子化する音源生成部を用い、 初段に おいては適応符号帳探索直後に求められる値を量子化夕一ゲッ トとし、 2段目以降においては音源探索を全て終えた後に閉ル一ブ探索で決定さ れたピッチゲイ ンと前記初段で量子化された値の差分を量子化夕ーゲッ トとする音声符号化方法。
5 9 . ピッチゲインを多段量子化する音源生成部を用い、 初段 においては適応符号帳探索直後に求められる値を量子化夕一ゲッ トとし、 2段目以降においては音源探索を全て終えた後に閉ル一ブ探索で決定さ れたピツチゲイ ンと前記初段で量子化された値の差分を量子化夕一ゲッ 卜とする音声符号化方法の適応符号帳探索直後に求められたピッチゲイ ンの量子化値を用いて固定符号帳を切り替える請求項 4 9から 5 2、 5 5から 5 7のいずれか 1つに記載の音声符号化方法。
6 0. ピッチ周期のサブフレーム間変化に基づいて固定符号帳を 切り替える請求項 4 9から 5 2、 5 5から 5 9のいずれか 1つに記載の 音声符号化方法。
6 1 . 直前のサブフレームで量子化されたピッチゲイ ンを用いて 固定符号帳を切り替える請求項 4 9から 5 2、 5 5から 5 7のいずれか 1つに記載の音声符号化方法。
6 2. ピッチ周期のサブフ レーム間変化及び量子化ピッチゲイ ン に基づいて固定符号帳を切り替える請求項 4 9から 5 2及び 5 5から 5 7のいずれか 1つに記載の音声符号化方法。
6 3. 固定符号帳にパルス音源符号帳を用いる請求項 5 9から 6 2のいずれか 1つに記載の音声符号化方法。
6 4. 所定の時間長を有するサブフレーム毎に音声符号化処理を 行う音声符号化方法において、 現在のサブフレームにおける位相と直前 のサブフレームにおける位相とが連続しているかどうかを判定し、 連続 していると判定された場合と連続していないと判定された場合とで用い る音源を切り替えることを特徴とする音声符号化装置。
6 5. 直前のサブフ レームにおけるピッチピーク位置と、 直前の サブフレームにおけるピッチ周期と、 現在のサブフレームにおけるピッ チ周期を用いて現在のサブフレームにおけるビツチビーク位置を予測し、 この予測によって得られた現在のサブフ レームにおけるピッチビーク位 置が、 現在のサブフレームにおけるデ一夕のみから求められたビッチビ —ク位置に近いかどうかによつて、 前記直前のサブフ レームにおける位 相と前記現在のサブフレームにおける位相とが連続しているかどうかを 判定し、 その判定結果によって前記音源の符号化処理方法を切り替える 請求項 6 4記載の音声符号化方法。
6 6 . 直前のサブフレームにおける位相と現在のサブフレームに おける位相とが連続していると判定された場合には、 位相適応処理を雑 音符号帳に対して行い、 前記直前のサブフレームにおける位相と前記現 在のサブフレームにおける位相とが連続していないと判定された場合に は、 位相適応処理を雑音符号帳に対して行わない請求項 6 4又は 6 5 載の音声符号化方法。
6 7 . 所定の時間長を有するサブフレーム毎に音声符号化処理を 行う音声符号化方法において、 現在のサブフレームにおける適応符号べ ク トルのビツチピーク付近における信号パワーの集中度を基準として、 音源信号の符号化処理方法を切り替えることを特徴とする音声符号化方 法。
6 8 . 現在のサブフ レームにおける適応符号べク トルのピッチビ ーク付近における信号パワーの 1 ピツチ周期長の信号全体に占める割合 が所定の値以上である場合には、 位相適応処理を雑音符号帳に対して行 い、 所定の値未満である場合には、 位相適応処理を雑音符号帳に対して 行わない請求項 6 7記載の音声符号化方法。
6 9 . 前記位相適応処理として、 ピッチピーク近傍は密にパルス 位置探索を行い、 ビッチビーク近傍以外の部分は疎にパルス位置探索を 行う、 パルス音源を雑音音源に適用した請求項 6 6又は 6 8記載の音声 符号化方法。
7 0 . 前記パルスの位置を表すイ ンデックスを、 サブフ レームの 先頭側から順番に並ぶように付ける請求項 4 5から 4 8、 5 1から 5 7、
6 3、 6 9のいずれか 1つに記載の音声符号化方法。
7 1 . 同じイ ンデックス番号である場合、 サブフレームの先頭側 から順番にパルスの番号を付け、 さらにピッチピーク位置近傍は密に、 ビッチビーク近傍以外の部分は疎になるように、 各パルスの探索位置が 決定されている請求項 7 0記載の音声符^化方法。
7 2 . 前記パルスの探索位置の一部を前記ビツチピーク位置によ つて決定し、 その他のパルス探索位置はピッチビーク位置に関係なく予 め定められた固定位置である、 請求項 4 5から 4 8、 5 1から 5 7、 6 3、 6 9のいずれか 1つに記載の音声符号化方法。
7 3 . 所定の時間長を有する音声あるいは音源信号の前記ピッチ ピーク位置を求める際に、 当該信号から 1 ピッチ周期長のみを切り出し、 切り出した信号内においてピッチビーク位置を決定するピッチビーク位 置算出ステップを有する請求項 4 1から 4 8、 5 1から 5 7、 5 9から 6 3、 6 5から 7 2のいずれか 1つに記載の音声符号化方法。
7 4 . 当該信号から 1 ピッチ周期長のみを切り出す場合に、 まず
1 ピッチ周期長を切り出さずに当該信号全体を用いて前記ビツチピーク 位置を決定し、 この决定されたピッチビーク位置を切り出し開始点とし て 1 ピッチ周期長を切り出し、 切り出した信号内において前記ビッチビ ーク位置を決定する請求項 7 3記載の音声符号化方法。
7 5 . 所定の時間長を有するサブフレーム毎に音声符号化処理を 行う音声符号化方法において、 現在のサブフレームにおける前記ピッチ ビーク位置を算出する際、 直前のサブフレームにおけるピッチ周期と現 在のサブフレームにおけるピッチ周期との差が予め定められた範囲内で ある場合は、 直前のサブフレームにおける前記ピッチビーク位置と、 直 前のサブフレームにおけるピッチ周期と、 現在のサブフ レームにおける ピッチ周期を用いて現在のサブフ レームにおけるピッチピーク位置を予 測し、 この予測によって得られた現在のサブフレームにおけるビッチビ —ク位置を用いて現在のサブフレームにおける前記ビツチピーク位置の 存在範囲を予め限定し、 その範囲内でピッチビーク位置探索を行うこと を特徴とする請求項 4 1から 4 8、 5 1から 5 7、 5 9から 6 3、 6 5 から 7 2のいずれか 1つに記載の音声符号化方法。
7 6 . 所定の時間長を有するサブフレーム毎に音声符号化処理を 行う音声符号化方法において、 雑音符号帳としてパルス音源を用い、 前 記雑音符号帳のモードを少なく とも 2モー ド以上有し、 前記音源パルス の本数はモードを切り替えることによって変化させることができ、 少な く とも 1つは各パルスの位置情報が十分にあるパルス本数の少ないモ一 ドであり、 その他は各パルスの位置情報が不足するがパルス数の多いモ —ドであり、 モードの切り替え情報を伝送してモー ドの切り替えを行う ことを特徴とする音声符号化方法。
7 7 . ピッチ周期が短い場合には、 前記ピッチ周期に対応して前 記音源パルスの探索範囲を狭い範囲内に限定することによって、 前記音 源パルスの位置情報を減らして前記音源パルスの本数を増やす請求項 7 6記載の音声符号化方法。
7 8 . 前記各パルスの位置情報が不足するが前記パルスの数が多 いモー ドにおいては、 ビツチピーク位置近傍は音源パルスの探索位置を 密に、 それ以外の部分においては前記音源パルスの探索位置を疎になる ように、 前記パルス位置の探索範囲を決定する請求項 7 6又は 7 7記載 の音声符号化方法。
7 9 . 前記パルスの数が少なく位置情報が十分である音源モー ド において、 位置情報の一部を雑音性の音源コードべク トルを表すィンデ ックスに割り当てるようにした請求項 7 6から 7 8のいずれか 1つに記 載の音声符号化方法。
8 0 . 請求项 4 1 から 7 9 までのいずれか 1つに記載の音声符号 化方法を実行させるためのプログラムを記録したコンビュ一夕読み取り 可能な記憶媒体。
8 1 . 適応符号べク トルのビツチビーク位置に対応する雑音符号 べク トルの振幅を強調する音源生成部を備えた C E L P型音声復号装置 c
8 2 . 前記音源生成部が、 前記適応符号ベク トルのビツチ周期と 同期した振幅強調窓を前記雑音符号ベク トルに乗ずることによって、 前 記適応符号べク トルのビツチビークの位置に対応する前記雑音符号べク トルの振幅を強調する請求項 8 1記載の C E L P型音声復号装置。
8 3 . 前記音源生成部が、 前記適応符号ベク トルのピッチピーク 位置を中心とする三角窓を振幅強調窓として使用する請求項 8 2記載の C E L P型音声復号装置。
8 4 . 適応符号べク トルのピッチビーク近傍のみに限定した雑音 符号べク トルを用いる音源生成部を備えた C E L P型音声復号装置。
8 5 . パルス音源を雑音符号帳に用いる C E L P型音声復号装置 において、 パルス位置の範囲を適応符号べク トルのピッチ周期及びピッ チピーク位置によって決定する音源生成部を備えたことを特徴とする C E L P型音声復号装置。
8 6 . 前記音源生成部が、 前記適応符号ベク トルのピッチビーク 位置近傍は密に、 それ以外の部分は疎になるように前記パルス位置の範 囲を決定する請求項 8 5記載の C E L P型音声復号装置。
8 7 . 前記ビツチ周期によって前記パルス位置の範囲を切り替え る請求項 8 5又は 8 6記載の C E L P型音声復号装置。
8 8 . 前記適応符号べク トルに複数のピッチビークが存在する場 合に、 少なく とも 2つのピッチビークの位置が範囲に含まれるように前 記パルス位置の範囲を限定する請求項 8 7記載の C E L P型音声復号装 置。
8 9 . 入力音声の分析結果によって雑音符号帳を切り替える構成 の C E L P型音声復号装置。
9 0 . 雑音符号帳探索を行う以前に抽出された伝送パラメ一夕を 用いて雑音符 ^帳を切り替える音源生成部を備えた C E L P型音声復号 装置。
9 1 . 音声信号の分析結果によって前記パルスの本数を切り替え る音源生成部を備えた請求項 8 5から 8 8のいずれか 1つに記載の C E L P型音声復号装置。
9 2 . 前記雑音符号帳の探索を行う以前に抽出されている伝送パ ラメ一夕を復号した結果を用いて前記パルスの本数を切り替える音源生 成部を備えた請求項 8 5から 8 8、 9 1のいずれか 1つに記載の C E L P型音声復号装置。
9 3 . 前記ピッチ周期によって前記パルスの本数を切り替える音 源生成部を備えた請求項 8 5から 8 8、 9 1、 9 2のいずれか 1つに記 載の C E L P型音声復号装置。
9 4 . 連続するサブフレーム間で前記ピッチ周期の変動が小さい 場合とそうでない場合で前記パルスの本数を切り替える請求項 9 3記載 の C E L P型音声復号装置。
9 5 . 雑音音源としてパルス音源を用いる雑音符号べク トル生成 部が、 前記パルス位置とパルス振幅とを決定する請求項 8 5から 8 8、 9 1から 9 4のいずれか 1つに記載の C E L P型音声復号装置。
9 6 . 雑音音源としてパルス音源を用いる雑音符号べク トル生成 部が、 前記適応符号べク トルのピッチピーク近傍とそれ以外の部分で前 記パルスの振幅を変える請求項 9 5記載の C E L P型音声復号装置。
9 7 . 統計的にあるいは学習によって、 使用するパルス音源のパ ルス数をピッチ周期に基づいて決定する請求項 9 3記載の C E L P型音 声復号装置。
9 8 . ピッチゲイ ンを多段量子化する音源生成部を備え、 初段に おいては適応符号帳探索直後に求められる値を量子化夕一ゲッ 卜として 量子化されたゲイ ンを復号し、 2段目以降においては音源探索を全て終 えた後に閉ループ探索で決定されたビツチゲインと前記初段で復号され た値の差分を量子化夕ーゲッ トとして量子化されたゲインを復号する C E L P型音声復号装置。
9 9 . ピッチゲインを多段量子化する音源生成部を備え、 初段 においては適応符号帳探索直後に求められる値を量子化夕一ゲッ 卜とし て量子化されたゲイ ンを復号し、 2段目以降においては音源探索を全て 終えた後に閉ループ探索で決定されたビツチゲインと前記初段で復号さ れた値の差分を量子化夕ーゲッ トとして量子化されたゲイ ンを復号する C E L P型音声復号装置の適応符号帳探索直後に求められたピッチゲイ ンの量子化値を用いて固定符号帳を切り替える請求項 8 9から 9 2、 9 5から 9 7のいずれか 1つに記載の C E L P型音声復号装置。
1 0 0. ピッチ周期のサブフレーム間変化に基づいて固定符号帳 を切り替える請求項 8 9から 9 2、 9 5から 9 9のいずれか 1つに記載 の C E L P型音声復号装置。
1 0 1. 直前のサブフ レームで復号されたピッチゲイ ンを用いて 固定符号帳を切り替える請求項 8 9から 9 2、 9 5から 9 7のいずれか 1つに記載の C E L P型音声復号装置。
1 0 2. ピッチ周期のサブフレーム間変化及び量子化ピッチゲイ ンに基づいて固定符号帳を切り替える請求項 8 9から 9 2及び 9 5から
9 7のいずれか 1つに記載の C E L P型音声復号装置。
1 0 3. 固定符号帳にパルス音源符号帳を用いる請求項 9 9から 1 0 2のいずれか 1つに記載の C E L P型音声復号装置。
1 04. 所定の時間長を有するサブフ レーム毎に音声復号処理を 行う C E L P型音声復^装置において、 現在のサブフレームにおける位 相と直前のサブフ レームにおける位相とが連続しているかどうかを判定 し、 連続していると判定された場合と連続していないと判定された場合 とで用いる音源を切り替えることを特徴とする C E L P型音声復¾ -装置。
1 0 5. 直前のサブフレームにおけるピッチピーク位置と、 直前 のサブフレームにおけるピッチ周期と、 現在のサブフレームにおけるピ ツチ周期を用いて現在のサブフ レームにおけるピッチビーク位置を予測 し、 この予測によって得られた現在のサブフレームにおけるピッチビー ク位置が、 現在のサブフレームにおけるデータのみから求められたピッ チビーク位置に近いかどうかによつて、 前記直前のサブフレームにおけ る位相と前記現在のサブフレームにおける位相とが連続しているかどう かを判定し、 その判定結果によって前記音源の復号処理方法を切り替え る請求項 1 0 4記載の C E L P型音声復号装置。
1 0 6 . 直前のサブフレームにおける位相と現在のサブフレーム における位相とが連続していると判定された場合には、 位相適応処理を 雑音符号帳に対して行い、 前記直前のサブフレームにおける位相と前記 現在のサブフレームにおける位相とが連続していないと判定された場合 には、 位相適応処理を雑音符号帳に対して行わない請求項 1 0 4又は 1 0 5記載の C E L P型音声復号装置。
1 0 7 . 所定の時間長を有するサブフレーム毎に音声復号処理を 行う C E L P型音声復号装置において、 現在のサブフ レームにおける適 応符号べク トルのピッチビーク付近における信号パワーの集中度を基準 として、 音源信号の復号処理方法を切り替えることを特徴とする C E L P型音声復号装置。
1 0 8 . 現在のサブフレームにおける適応符号べク トルのピッチ ピーク付近における信号パワーの 1 ピッチ周期長の信号全体に占める割 合が所定の値以上である場合には、 位相適応処理を雑音符号帳に対して 行い、 所定の値未満である場合には、 位相適応処理を雑音符号帳に対し て行わない請求項 1 0 7記載の C E L P型音声復号装置。
1 0 9 . 前記位相適応処理として、 ピッチピーク近傍はパルス位 置が密であり、 ピッチビーク近傍以外の部分はパルス位置が疎である、 パルス音源を雑音音源に適用した請求項 1 06又は 108記載の C E L P型音声復号装置。
1 1 0. 前記パルスの位置を表すィ ンデヅクスを、 サブフレーム の先頭側から順番に並ぶように付ける請求項 8 5から 88、 9 1から 9
7、 1 03、 1 09のいずれか 1つに記載の C E L P型音声復号装置。
1 1 1. 同じイ ンデックス番号である場合、 サブフレームの先頭 側から順番にパルスの番号を付け、 さらにビツチビーク位置近傍は密に、 ピッチビーク近傍以外の部分は疎になるように、 各パルスの存在位置が 決定されている請求項 1 1 0記載の CE L P型音声復号装置。
1 1 2. 前記パルスの存在位置の一部を前記ピツチビーク位置に よって決定し、 その他のパルス存在位置はピツチビーク位置に関係なく 予め定められた固定位置である、 請求項 8 5から 88、 9 1から 97、 103、 1 09のいずれか 1つに記載の C E L P型音声復号装置。
1 1 3. 所定の時間長を有する音声あるいは音源信号の前記ビッ チビーク位置を求める際に、 当該信号から 1ピッチ周期長のみを切り出 し、 切り出した信号内においてピッチビーク位置を決定するピッチビー ク位置算出手段を有する請求項 1から 88、 9 1から 97、 99から 1 03、 1 05から 1 1 2のいずれか 1つに記載の C E L P型音声復号装
1 14. 当該信号から 1ピッチ周期長のみを切り出す場合に、 ま ず 1ピツチ周期長を切り出さずに当該信号全体を用いて前記ビツチビー ク位置を决定し、 この決定されたビッチビーク位置を切り出し開始点と して 1 ピッチ周期長を切り出し、 切り出した信号内において前記ピッチ ピーク位置を決定する請求項 1 1 3記載の C E L P型音声復号装置。
1 1 5 . 所定の時間長を有するサブフ レーム毎に音声復号処理を 行う C E L P型音声復号装置において、 現在のサブフレームにおける前 記ピッチビーク位置を算出する際、 直前のサブフ レームにおけるピッチ 周期と現在のサブフ レームにおけるピッチ周期との差が予め定められた 範囲内である場合は、 直前のサブフ レームにおける前記ピッチビーク位 置と、 直前のサブフ レームにおけるピッチ周期と、 現在のサブフ レーム におけるピッチ周期を用いて現在のサブフ レームにおけるピッチピーク 位置を予測し、 この予測によって得られた現在のサブフレームにおける ビヅチピーク位置を用いて現在のサブフ レームにおける前記ビッチビ一 ク位置の存在範囲を予め限定し、 その範囲内でピッチビーク位置探索を 行うことを特徴とする請求項 8 1から 8 8、 9 1から 9 7、 9 9から 1 0 3、 1 0 5から 1 1 2のいずれか 1つに記載の C E L P型音声復号装
1 1 6 . 所定の時間長を有するサブフ レーム毎に音声復号処理を 行う C E L P型音声復号装置において、 雑音符号帳としてパルス音源を 用い、 前記雑音符号帳のモードを少なく とも 2モード以上有し、 前記音 源パルスの本数はモ一ドを切り替えることによって変化させることがで き、 少なく とも 1つは各パルスの位置情報が十分にあるパルス本数の少 ないモ一ドであり、 その他は各パルスの位置情報が不足するがパルス数 の多いモードであり、 モー ドの切り替え情報を伝送してモー ドの切り替 えを行うことを特徴とする C E L P型音声復号装置。
1 1 7. ピッチ周期が短い場合には、 前記ピッチ周期に対応して 前記音源パルスの存在範囲を狭い範囲内に限定することによって、 前記 音源パルスの位置情報を減らして前記音源パルスの本数を増やす請求項 1 1 6記載の CE L P型音声復号装置。
1 1 8. 前記各パルスの位置情報が不足するが前記パルスの数が 多いモ一ドにおいては、 ビツチビーク位置近傍は音源パルスの存在位置 を密に、 それ以外の部分においては前記音源パルスの存在位置を疎にな るように、 前記パルス位置の範囲を決定する請求項 1 1 6又は 1 1 7記 載の C E L P型音声復号装置。
1 1 9. 前記パルスの数が少なく位置情報が十分である音源モー ドにおいて、 位置情報の一部を雑音性の音源コ一ドベク トルを表すイ ン デヅクスに割り当てるようにした請求項 1 1 6から 1 1 8のいずれか 1 つに記載の C E L P型音声復号装置。
1 2 0. 請求項 8 1から 1 1 9までのいずれか 1つに記載の C E
L P型音声復号装置の機能を実行させるためのプログラムを記録したコ ンビュー夕読み取り可能な記憶媒体。
1 2 1. 適応符号べク トルのピッチビーク位置に対応する雑音符 号べク 卜ルの振幅を強調するステップを有する音声復号方法。
1 2 2. 前記適応符号べク トルのピッチ周期と同期した振幅強調 窓を前記雑音符号べク トルに乗ずることによって、 前記適応符号べク ト ルのビツチピークの位置に対応する前記雑音符号べク トルの振幅を強調 する請求項 1 2 1記載の音声復号方法。
1 2 3 . 前記適応符号べク トルのビツチビーク位置を中心とする 三角窓を振幅強調窓として使用する請求項 1 2 2記載の音声復号方法。
1 2 4 . 適応符号べク トルのピツチビーク近傍のみに限定した雑 音符号べク トルを用いるステップを有する音声復号方法。
1 2 5 . パルス音源を雑音符号帳に用いる音声復号方法において、 パルス位置の範囲を適応符号べク 卜ルのビッチ周期及びビッチビーク位 置によって決定するステップを有することを特徴とする音声復号方法。
1 2 6 . 前記音源生成部が、 前記適応符号ベク トルのピッチピ一 ク位置近傍は密に、 それ以外の部分は疎になるように前記パルス位置の 範囲を決定する請求項 1 2 5記載の音声復号方法。
1 2 7 . 前記ピッチ周期によって前記パルス位置の範囲を切り替 える請求項 1 2 5又は 1 2 6記載の音声復号方法。
1 2 8 . 前記適応符号べク トルに複数のビッチビークが存在する 場合に、 少なく とも 2つのピッチビークの位置が範囲に含まれるように 前記パルス位置の範囲を限定する請求項 1 2 7記載の音声復号方法。
1 2 9 . 入力音声の分析結果によって雑音符号帳を切り替える構 成の音声復号方法。
130. 雑音符号帳探索を行う以前に抽出された伝送パラメ一夕 を用いて雑音符号帳を切り替える音源生成部を備えた音声復号方法。
1 3 1. 音声信号の分析結果によって前記パルスの本数を切り替 える音源生成部を備えた請求項 1 2 5から 1 2 8のいずれか 1つに記載 の音声復号方法。
1 3 2. 前記雑音符号帳の探索を行う以前に抽出されている伝送 パラメータを用いて復号した結果を用いて前記パルスの本数を切り替え る音源生成部を備えた請求項 1 2 5から 1 2 8、 1 3 1のいずれか 1つ に記載の音声復号方法。
1 3 3. 前記ピッチ周期によって前記パルスの本数を切り替える 音源生成部を備えた請求項 1 2 5から 1 2 8、 1 3 1、 1 3 2のいずれ か 1つに記載の音声復号方法。
1 34. 連続するサブフレーム間で前記ビツチ周期の変動が小さ い場合とそうでない場合で前記パルスの本数を切り替える請求項 1 3 3 記載の音声復号方法。
1 3 5. 雑音音源としてパルス音源を用いる雑音符号ベク トル生 成部が、 前記パルス位置とパルス振幅とを決定する請求項 1 2 5から 1 2 8、 1 3 1から 1 3 4のいずれか 1つに記載の音声復号方法。
1 3 6. 雑音音源としてパルス音源を用いる雑音符号べク トル生 成部が、 前記適応符号べク トルのピッチビーク近傍とそれ以外の部分で 前記パルスの振幅を変える請求項 1 3 5記載の音声復号方法。
1 3 7. 統計的にあるいは学習によって、 使用するパルス音源の パルス数をピッチ周期に基づいて決定する請求項 1 3 3記載の音声復号 方法。
1 3 8. ピッチゲインを多段量子化する音源生成部を用い、 初段 においては適応符号帳探索直後に求められる値を量子化夕一ゲッ トとし て量子化されたゲイ ンを復号し、 2段目以降においては音源探索を全て 終えた後に閉ループ探索で決定されたピッチゲインと前記初段で復号さ れた値の差分を量子化ターゲッ トとして量子化されたゲイ ンを復号する 音声復号方法。
1 3 9. ピッチゲイ ンを多段量子化する音源生成部を用い、 初 段においては適応符号帳探索直後に求められる値を量子化夕一ゲッ トと して量子化されたゲイ ンを復号し、 2段目以降においては音源探索を全 て終えた後に閉ループ探索で決定されたピッチゲインと前記初段で復号 された値の差分を量子化夕一ゲッ 卜として量子化されたゲイ ンを復号す る音声復号方法の適応符号帳探索直後に求められたピッチゲイ ンの復号 値を用いて固定符号帳を切り替える請求項 1 2 9から 1 3 2、 1 3 1 3 から 1 3 7のいずれか 1つに記載の音声復号方法。
1 4 0. ピッチ周期のサブフレーム間変化に基づいて固定符号帳 を切り替える請求項 1 2 9から 1 3 2、 1 3 5から 1 3 9のいずれか 1 つに記載の音声復号方法。
1 4 1. 直前のサブフ レームで復号されたピッチゲイ ンを用いて 固定符号帳を切り替える請求項 1 2 9から 1 3 2、 1 3 5から 1 3 7の いずれか 1つに記載の音声復号方法。
1 4 2. ピッチ周期のサブフレーム間変化及び量子化ピッチゲイ ンに基づいて固定符号帳を切り替える請求項 1 2 9から 1 3 2及び 1 3 5から 1 3 7のいずれか 1つに記載の音声復号方法。
1 4 3. 固定符号帳にパルス音源符号帳を用いる請求項 1 3 9か ら 1 4 2のいずれか 1つに記載の音声復号方法。
1 44. 所定の時間長を有するサブフ レーム毎に音声復号処理を 行う音声復号方法において、 現在のサブフレームにおける位相と直前の サブフ レームにおける位相とが連続しているかどうかを判定し、 連続し ていると判定された場合と連続していないと判定された場合とで用いる 音源を切り替えることを特徴とする音声復号方法。
1 4 5 , 直前のサブフ レームにおけるピッチビーク位置と、 直前 のサブフレームにおけるピッチ周期と、 現在のサブフレームにおけるビ ツチ周期を用いて現在のサブフレームにおけるピツチビーク位置を予測 し、 この予測によって得られた現在のサブフレームにおけるピッチビー ク位置が、 現在のサブフレームにおけるデータのみから求められたビヅ チビーク位置に近いかどうかによつて、 前記直前のサブフ レームにおけ る位相と前記現在のサブフレームにおける位相とが連続しているかどう かを判定し、 その判定結果によって前記音源の復号処理方法を切り替え る請求項 1 4 4記載の音声復号方法。
1 4 6 . 直前のサブフレームにおける位相と現在のサブフレーム における位相とが連続していると判定された場合には、 位相適応処理を 雑音符号帳に対して行い、 前記直前のサブフ レームにおける位相と前記 現在のサブフレームにおける位相とが連続していないと判定された場合 には、 位相適応処理を雑音符号帳に対して行わない請求項 1 4 4又は 1 4 5記載の音声復号方法。
1 4 7 . 所定の時間長を有するサブフレーム毎に音声復号処理を 行う音声復号方法において、 現在のサブフレームにおける適応符号べク トルのピッチピーク付近における信号パワーの集中度を基準として、 音 源信号の復号処理方法を切り替えることを特徴とする音声復号方法。
1 4 8 . 現在のサブフレームにおける適応符号べク トルのピッチ ビーク付近における信号パワーの 1 ビツチ周期長の信号全体に占める割 合が所定の値以上である場合には、 位相適応処理を雑音符号帳に対して 行い、 所定の値未満である場合には、 位相適応処理を雑音符号帳に対し て行わない請求項 1 4 7記載の音声復号方法。
1 4 9 . 前記位相適応処理として、 ピッチビーク近傍はパルス位 置が密であり、 ピッチビーク近傍以外の部分はパルス位置が疎である、 パルス音源を雑音音源に適用した請求項 1 4 6又は 1 4 8記載の音声復 号方法。
1 5 0 . 前記パルスの位置を表すイ ンデックスを、 サブフ レーム の先頭側から順番に並ぶように付ける請求項 1 2 5から 1 2 8、 1 3 1 から 1 3 7、 1 4 3、 1 4 9のいずれか 1つに記載の音声復号方法。
1 5 1. 同じイ ンデヅクス番号である場合、 サブフレームの先頭 側から順番にパルスの番号を付け、 さらにピッチビーク位置近傍は密に、 ピッチビーク近傍以外の部分は疎になるように、 各パルスの存在位置が 決定されている請求項 1 5 0記載の音声復号方法。
1 5 2. 前記パルスの存在位置の一部を前記ピッチビーク位置に よって決定し、 その他のパルス位置はピッチピーク位置に関係なく予め 定められた固定位置である、 請求項 1 2 5から 1 2 8、 1 3 1から 1 3 7、 1 4 3、 1 4 9のいずれか 1つに記載の音声復号方法。
1 5 3. 所定の時間長を有する音声あるいは音源信号の前記ビッ チビーク位置を求める際に、 当該信号から 1 ピッチ周期長のみを切り出 し、 切り出した信号内においてビツチビーク位置を決定するビツチビー ク位置算出ステツプを有する請求項 1 2 1から 1 2 8、 1 3 1から 1 3 7、 1 3 9から 1 4 3、 1 4 5から 1 5 2のいずれか 1つに記載の音声 復号方法。
1 5 4. 当該信号から 1ピッチ周期長のみを切り出す場合に、 ま ず 1ピッチ周期長を切り出さずに当該信号全体を用いて前記ビッチビ一 ク位置を決定し、 この決定されたピッチビーク位置を切り出し開始点と して 1 ピッチ周期長を切り出し、 切り出した信号内において前記ピッチ ピーク位置を決定する請求項 1 5 3記載の音声復号方法。
1 5 5. 所定の時間長を有するサブフレーム毎に音声復号処理を 行う音声復号方法において、 現在のサブフレームにおける前記ビッチピ ーク位置を算出する際、 直前のサブフ レームにおけるピッチ周期と現在 のサブフレームにおけるピッチ周期との差が予め定められた範囲内であ る場合は、 直前のサブフ レームにおける前記ピッチビーク位置と、 直前 のサブフレームにおけるピッチ周期と、 現在のサブフレームにおけるビ ツチ周期を用いて現在のサブフ レームにおけるピッチビーク位置を予測 し、 この予測によって得られた現在のサブフレームにおけるピッチビー ク位置を用いて現在のサブフレームにおける前記ビツチビーク位置の存 在範囲を予め限定し、 その範囲内でピッチピーク位置探索を行うことを 特徴とする請求項 1 2 1から 1 2 8、 1 3 1から 1 3 7、 1 3 9から 1 43、 1 4 5から 1 5 2のいずれか 1つに記載の音声復号方法。
1 5 6. 所定の時間長を有するサブフレーム毎に音声復号処理を 行う音声復号方法において、 雑音符号帳と してパルス音源を用い、 前記 雑音符号帳のモードを少なく とも 2モード以上有し、 前記音源パルスの 本数はモードを切り替えることによって変化させることができ、 少なく とも 1つは各パルスの位置情報が十分にあるパルス本数の少ないモー ド であり、 その他は各パルスの位置情報が不足するがパルス数の多いモ一 ドであり、 モードの切り替え情報を伝送してモードの切り替えを行うこ とを特徴とする音声復号方法。
1 5 7. ピッチ周期が短い場合には、 前記ピッチ周期に対応して 前記音源パルスの存在範囲を狭い範囲内に限定することによって、 前記 音源パルスの位置情報を減らして前記音源パルスの本数を増やす請求項 1 5 6記載の音声復号方法。
1 5 8 . 前記各パルスの位置情報が不足するが前記パルスの数が 多いモ一ドにおいては、 ピッチビーク位置近傍は音源パルスの存在位置 を密に、 それ以外の部分においては前記音源パルスの存在位置を疎にな るように、 前記パルス位置の範囲を決定する請求項 1 5 6又は 1 5 7記 載の音声復号方法。
1 5 9 . 前記パルスの数が少なく位置情報が十分である音源モー ドにおいて、 位置情報の一部を雑音性の音源コ一ドベク トルを表すイ ン デックスに割り当てるようにした請求項 1 5 6から 1 5 8のいずれか 1 つに記載の音声復号方法。
1 6 0 . 請求項 1 2 1から 1 5 9までのいずれか 1つに記載の音 声復号方法を実行させるためのプログラムを記録したコンピュー夕読み 取り可能な記憶媒体。
1 6 1 . 請求項 1から 3 9のいずれか 1つに記載の音声符号化装 置と、
前記音声符号化装置の出力信号を変調する変調手段と、
前記変調手段の出力信号を増幅する増幅手段とを、
有する移動体通信装置。
PCT/JP1997/002703 1996-08-02 1997-08-04 Codec vocal, support sur lequel est enregistre un programme codec vocal, et appareil mobile de telecommunications WO1998006091A1 (fr)

Priority Applications (4)

Application Number Priority Date Filing Date Title
EP97933895A EP0858069B1 (en) 1996-08-02 1997-08-04 Voice encoder, voice decoder and recording medium thereof
DE69737012T DE69737012T2 (de) 1996-08-02 1997-08-04 Sprachkodierer, sprachdekodierer und aufzeichnungsmedium dafür
AU37085/97A AU3708597A (en) 1996-08-02 1997-08-04 Voice encoder, voice decoder, recording medium on which program for realizing voice encoding/decoding is recorded and mobile communication apparatus
US09/051,137 US6226604B1 (en) 1996-08-02 1997-08-04 Voice encoder, voice decoder, recording medium on which program for realizing voice encoding/decoding is recorded and mobile communication apparatus

Applications Claiming Priority (4)

Application Number Priority Date Filing Date Title
JP20443996 1996-08-02
JP8/204439 1996-08-02
JP03672697A JP4063911B2 (ja) 1996-02-21 1997-02-20 音声符号化装置
JP9/36726 1997-02-20

Related Child Applications (4)

Application Number Title Priority Date Filing Date
US09/051,137 A-371-Of-International US6226604B1 (en) 1996-08-02 1997-08-04 Voice encoder, voice decoder, recording medium on which program for realizing voice encoding/decoding is recorded and mobile communication apparatus
US09/729,229 Division US6687666B2 (en) 1996-08-02 2000-12-05 Voice encoding device, voice decoding device, recording medium for recording program for realizing voice encoding/decoding and mobile communication device
US09/729,420 Division US6421638B2 (en) 1996-08-02 2000-12-05 Voice encoding device, voice decoding device, recording medium for recording program for realizing voice encoding/decoding and mobile communication device
US09/729,419 Division US6549885B2 (en) 1996-08-02 2000-12-05 Celp type voice encoding device and celp type voice encoding method

Publications (1)

Publication Number Publication Date
WO1998006091A1 true WO1998006091A1 (fr) 1998-02-12

Family

ID=26375818

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/JP1997/002703 WO1998006091A1 (fr) 1996-08-02 1997-08-04 Codec vocal, support sur lequel est enregistre un programme codec vocal, et appareil mobile de telecommunications

Country Status (6)

Country Link
US (4) US6226604B1 (ja)
EP (2) EP1553564A3 (ja)
CN (1) CN1163870C (ja)
AU (1) AU3708597A (ja)
DE (1) DE69737012T2 (ja)
WO (1) WO1998006091A1 (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
GB2338630A (en) * 1998-06-20 1999-12-22 Motorola Ltd Voice decoder reduces buzzing

Families Citing this family (41)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP3180786B2 (ja) * 1998-11-27 2001-06-25 日本電気株式会社 音声符号化方法及び音声符号化装置
JP4008607B2 (ja) * 1999-01-22 2007-11-14 株式会社東芝 音声符号化/復号化方法
JP3594854B2 (ja) 1999-11-08 2004-12-02 三菱電機株式会社 音声符号化装置及び音声復号化装置
USRE43209E1 (en) 1999-11-08 2012-02-21 Mitsubishi Denki Kabushiki Kaisha Speech coding apparatus and speech decoding apparatus
US7386444B2 (en) * 2000-09-22 2008-06-10 Texas Instruments Incorporated Hybrid speech coding and system
US6480821B2 (en) * 2001-01-31 2002-11-12 Motorola, Inc. Methods and apparatus for reducing noise associated with an electrical speech signal
US6996522B2 (en) * 2001-03-13 2006-02-07 Industrial Technology Research Institute Celp-Based speech coding for fine grain scalability by altering sub-frame pitch-pulse
US7206739B2 (en) * 2001-05-23 2007-04-17 Samsung Electronics Co., Ltd. Excitation codebook search method in a speech coding system
JP3888097B2 (ja) * 2001-08-02 2007-02-28 松下電器産業株式会社 ピッチ周期探索範囲設定装置、ピッチ周期探索装置、復号化適応音源ベクトル生成装置、音声符号化装置、音声復号化装置、音声信号送信装置、音声信号受信装置、移動局装置、及び基地局装置
US7272555B2 (en) * 2001-09-13 2007-09-18 Industrial Technology Research Institute Fine granularity scalability speech coding for multi-pulses CELP-based algorithm
JP2004101588A (ja) * 2002-09-05 2004-04-02 Hitachi Kokusai Electric Inc 音声符号化方法及び音声符号化装置
FR2865310A1 (fr) * 2004-01-20 2005-07-22 France Telecom Procede de restauration de partiels d'un signal sonore
JP3827317B2 (ja) * 2004-06-03 2006-09-27 任天堂株式会社 コマンド処理装置
US7240252B1 (en) * 2004-06-30 2007-07-03 Sprint Spectrum L.P. Pulse interference testing in a CDMA communication system
DE102004049347A1 (de) * 2004-10-08 2006-04-20 Micronas Gmbh Schaltungsanordnung bzw. Verfahren für Sprache enthaltende Audiosignale
TWI279774B (en) * 2005-04-14 2007-04-21 Ind Tech Res Inst Adaptive pulse allocation mechanism for multi-pulse CELP coder
US8766995B2 (en) * 2006-04-26 2014-07-01 Qualcomm Incorporated Graphics system with configurable caches
US20070268289A1 (en) * 2006-05-16 2007-11-22 Chun Yu Graphics system with dynamic reposition of depth engine
US8884972B2 (en) * 2006-05-25 2014-11-11 Qualcomm Incorporated Graphics processor with arithmetic and elementary function units
US8869147B2 (en) * 2006-05-31 2014-10-21 Qualcomm Incorporated Multi-threaded processor with deferred thread output control
US8644643B2 (en) * 2006-06-14 2014-02-04 Qualcomm Incorporated Convolution filtering in a graphics processor
US8766996B2 (en) * 2006-06-21 2014-07-01 Qualcomm Incorporated Unified virtual addressed register file
US20080276359A1 (en) * 2007-05-09 2008-11-13 Morgan Terra J Drain clog remover
JP4882899B2 (ja) * 2007-07-25 2012-02-22 ソニー株式会社 音声解析装置、および音声解析方法、並びにコンピュータ・プログラム
WO2009081568A1 (ja) * 2007-12-21 2009-07-02 Panasonic Corporation 符号化装置、復号装置および符号化方法
US20090319263A1 (en) * 2008-06-20 2009-12-24 Qualcomm Incorporated Coding of transitional speech frames for low-bit-rate applications
CN101604525B (zh) * 2008-12-31 2011-04-06 华为技术有限公司 基音增益获取方法、装置及编码器、解码器
US8504378B2 (en) * 2009-01-22 2013-08-06 Panasonic Corporation Stereo acoustic signal encoding apparatus, stereo acoustic signal decoding apparatus, and methods for the same
US8670990B2 (en) * 2009-08-03 2014-03-11 Broadcom Corporation Dynamic time scale modification for reduced bit rate audio coding
JPWO2011048810A1 (ja) * 2009-10-20 2013-03-07 パナソニック株式会社 ベクトル量子化装置及びベクトル量子化方法
KR101761629B1 (ko) * 2009-11-24 2017-07-26 엘지전자 주식회사 오디오 신호 처리 방법 및 장치
US8990094B2 (en) * 2010-09-13 2015-03-24 Qualcomm Incorporated Coding and decoding a transient frame
US9082416B2 (en) 2010-09-16 2015-07-14 Qualcomm Incorporated Estimating a pitch lag
US8862465B2 (en) 2010-09-17 2014-10-14 Qualcomm Incorporated Determining pitch cycle energy and scaling an excitation signal
CN107342094B (zh) 2011-12-21 2021-05-07 华为技术有限公司 非常短的基音周期检测和编码
CN104254886B (zh) 2011-12-21 2018-08-14 华为技术有限公司 自适应编码浊音语音的基音周期
CN103426441B (zh) 2012-05-18 2016-03-02 华为技术有限公司 检测基音周期的正确性的方法和装置
US9589570B2 (en) 2012-09-18 2017-03-07 Huawei Technologies Co., Ltd. Audio classification based on perceptual quality for low or medium bit rates
WO2014053261A1 (en) * 2012-10-05 2014-04-10 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. An apparatus for encoding a speech signal employing acelp in the autocorrelation domain
US9208775B2 (en) 2013-02-21 2015-12-08 Qualcomm Incorporated Systems and methods for determining pitch pulse period signal boundaries
CN113192517B (zh) 2020-01-13 2024-04-26 华为技术有限公司 一种音频编解码方法和音频编解码设备

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH02232700A (ja) * 1989-03-07 1990-09-14 Nippon Telegr & Teleph Corp <Ntt> 音声合成装置
JPH0475100A (ja) * 1990-07-17 1992-03-10 Sharp Corp 符号化装置
JPH0519795A (ja) * 1991-07-08 1993-01-29 Nippon Telegr & Teleph Corp <Ntt> 音声の励振信号符号化・復号化方法
JPH05113800A (ja) * 1991-10-22 1993-05-07 Nippon Telegr & Teleph Corp <Ntt> 音声符号化法
JPH0792999A (ja) * 1993-09-22 1995-04-07 Nippon Telegr & Teleph Corp <Ntt> 音声の励振信号符号化方法および装置
JPH08185198A (ja) * 1994-12-28 1996-07-16 Nippon Telegr & Teleph Corp <Ntt> 符号励振線形予測音声符号化方法及びその復号化方法

Family Cites Families (34)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CA1252568A (en) * 1984-12-24 1989-04-11 Kazunori Ozawa Low bit-rate pattern encoding and decoding capable of reducing an information transmission rate
US4924517A (en) * 1988-02-04 1990-05-08 Nec Corporation Encoder of a multi-pulse type capable of controlling the number of excitation pulses
DE68922134T2 (de) * 1988-05-20 1995-11-30 Nec Corp Überträgungssystem für codierte Sprache mit Codebüchern zur Synthetisierung von Komponenten mit niedriger Amplitude.
EP0422232B1 (en) * 1989-04-25 1996-11-13 Kabushiki Kaisha Toshiba Voice encoder
US5261027A (en) * 1989-06-28 1993-11-09 Fujitsu Limited Code excited linear prediction speech coding system
JPH0332228A (ja) * 1989-06-29 1991-02-12 Fujitsu Ltd ゲイン―シェイプ・ベクトル量子化方式
JP2940005B2 (ja) * 1989-07-20 1999-08-25 日本電気株式会社 音声符号化装置
US5097508A (en) * 1989-08-31 1992-03-17 Codex Corporation Digital speech coder having improved long term lag parameter determination
US5307441A (en) * 1989-11-29 1994-04-26 Comsat Corporation Wear-toll quality 4.8 kbps speech codec
EP0443548B1 (en) * 1990-02-22 2003-07-23 Nec Corporation Speech coder
JP2626223B2 (ja) * 1990-09-26 1997-07-02 日本電気株式会社 音声符号化装置
US5235670A (en) * 1990-10-03 1993-08-10 Interdigital Patents Corporation Multiple impulse excitation speech encoder and decoder
US5127053A (en) * 1990-12-24 1992-06-30 General Electric Company Low-complexity method for improving the performance of autocorrelation-based pitch detectors
US5884253A (en) * 1992-04-09 1999-03-16 Lucent Technologies, Inc. Prototype waveform speech coding with interpolation of pitch, pitch-period waveforms, and synthesis filter
IT1264766B1 (it) * 1993-04-09 1996-10-04 Sip Codificatore della voce utilizzante tecniche di analisi con un'eccitazione a impulsi.
JP3137805B2 (ja) * 1993-05-21 2001-02-26 三菱電機株式会社 音声符号化装置、音声復号化装置、音声後処理装置及びこれらの方法
US5504834A (en) * 1993-05-28 1996-04-02 Motrola, Inc. Pitch epoch synchronous linear predictive coding vocoder and method
US5784532A (en) * 1994-02-16 1998-07-21 Qualcomm Incorporated Application specific integrated circuit (ASIC) for performing rapid speech compression in a mobile telephone system
US5602961A (en) * 1994-05-31 1997-02-11 Alaris, Inc. Method and apparatus for speech compression using multi-mode code excited linear predictive coding
JP3179291B2 (ja) * 1994-08-11 2001-06-25 日本電気株式会社 音声符号化装置
JPH08123494A (ja) * 1994-10-28 1996-05-17 Mitsubishi Electric Corp 音声符号化装置、音声復号化装置、音声符号化復号化方法およびこれらに使用可能な位相振幅特性導出装置
JPH08179796A (ja) * 1994-12-21 1996-07-12 Sony Corp 音声符号化方法
FR2729246A1 (fr) * 1995-01-06 1996-07-12 Matra Communication Procede de codage de parole a analyse par synthese
US5864797A (en) * 1995-05-30 1999-01-26 Sanyo Electric Co., Ltd. Pitch-synchronous speech coding by applying multiple analysis to select and align a plurality of types of code vectors
US5664055A (en) * 1995-06-07 1997-09-02 Lucent Technologies Inc. CS-ACELP speech compression system with adaptive pitch prediction filter gain based on a measure of periodicity
US5732389A (en) * 1995-06-07 1998-03-24 Lucent Technologies Inc. Voiced/unvoiced classification of speech for excitation codebook selection in celp speech decoding during frame erasures
US5699485A (en) * 1995-06-07 1997-12-16 Lucent Technologies Inc. Pitch delay modification during frame erasures
US5704003A (en) * 1995-09-19 1997-12-30 Lucent Technologies Inc. RCELP coder
WO1997027578A1 (en) * 1996-01-26 1997-07-31 Motorola Inc. Very low bit rate time domain speech analyzer for voice messaging
EP0788091A3 (en) * 1996-01-31 1999-02-24 Kabushiki Kaisha Toshiba Speech encoding and decoding method and apparatus therefor
TW307960B (en) * 1996-02-15 1997-06-11 Philips Electronics Nv Reduced complexity signal transmission system
JPH1020891A (ja) * 1996-07-09 1998-01-23 Sony Corp 音声符号化方法及び装置
US6014622A (en) * 1996-09-26 2000-01-11 Rockwell Semiconductor Systems, Inc. Low bit rate speech coder using adaptive open-loop subframe pitch lag estimation and vector quantization
JPH10247098A (ja) * 1997-03-04 1998-09-14 Mitsubishi Electric Corp 可変レート音声符号化方法、可変レート音声復号化方法

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH02232700A (ja) * 1989-03-07 1990-09-14 Nippon Telegr & Teleph Corp <Ntt> 音声合成装置
JPH0475100A (ja) * 1990-07-17 1992-03-10 Sharp Corp 符号化装置
JPH0519795A (ja) * 1991-07-08 1993-01-29 Nippon Telegr & Teleph Corp <Ntt> 音声の励振信号符号化・復号化方法
JPH05113800A (ja) * 1991-10-22 1993-05-07 Nippon Telegr & Teleph Corp <Ntt> 音声符号化法
JPH0792999A (ja) * 1993-09-22 1995-04-07 Nippon Telegr & Teleph Corp <Ntt> 音声の励振信号符号化方法および装置
JPH08185198A (ja) * 1994-12-28 1996-07-16 Nippon Telegr & Teleph Corp <Ntt> 符号励振線形予測音声符号化方法及びその復号化方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
See also references of EP0858069A4 *

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
GB2338630A (en) * 1998-06-20 1999-12-22 Motorola Ltd Voice decoder reduces buzzing
GB2338630B (en) * 1998-06-20 2000-07-26 Motorola Ltd Speech decoder and method of operation

Also Published As

Publication number Publication date
US20010001139A1 (en) 2001-05-10
EP1553564A3 (en) 2005-10-19
CN1205097A (zh) 1999-01-13
EP0858069A1 (en) 1998-08-12
US20010003812A1 (en) 2001-06-14
EP1553564A2 (en) 2005-07-13
US6226604B1 (en) 2001-05-01
US6549885B2 (en) 2003-04-15
US6687666B2 (en) 2004-02-03
US6421638B2 (en) 2002-07-16
AU3708597A (en) 1998-02-25
US20010001142A1 (en) 2001-05-10
EP0858069B1 (en) 2006-11-29
DE69737012D1 (de) 2007-01-11
CN1163870C (zh) 2004-08-25
DE69737012T2 (de) 2007-06-06
EP0858069A4 (en) 2000-08-23

Similar Documents

Publication Publication Date Title
WO1998006091A1 (fr) Codec vocal, support sur lequel est enregistre un programme codec vocal, et appareil mobile de telecommunications
JP3346765B2 (ja) 音声復号化方法及び音声復号化装置
EP0926660B1 (en) Speech encoding/decoding method
KR100350340B1 (ko) 음성 부호화 장치, 음성 복호 장치 및 음성 부호화 복호 장치 및 음성 부호화 방법, 음성 복호 방법 및 음성 부호화 복호 방법
US6978235B1 (en) Speech coding apparatus and speech decoding apparatus
USRE43190E1 (en) Speech coding apparatus and speech decoding apparatus
WO2001052241A1 (en) Multi-mode voice encoding device and decoding device
JP3343082B2 (ja) Celp型音声符号化装置
JP4063911B2 (ja) 音声符号化装置
US7680669B2 (en) Sound encoding apparatus and method, and sound decoding apparatus and method
JP3746067B2 (ja) 音声復号化方法及び音声復号化装置
US5719993A (en) Long term predictor
JP3579276B2 (ja) 音声符号化/復号化方法
JP3268750B2 (ja) 音声合成方法及びシステム
JP3003531B2 (ja) 音声符号化装置
JP2613503B2 (ja) 音声の励振信号符号化・復号化方法
JP3299099B2 (ja) 音声符号化装置
JP3319396B2 (ja) 音声符号化装置ならびに音声符号化復号化装置
JP3954716B2 (ja) 音源信号符号化装置、音源信号復号化装置及びそれらの方法、並びに記録媒体
JP3552201B2 (ja) 音声符号化方法および装置
JP3874851B2 (ja) 音声符号化装置
JP3226180B2 (ja) 音声のピッチ周期符号化法
JP3063087B2 (ja) 音声符号化復号化装置及び音声符号化装置ならびに音声復号化装置
JP3199128B2 (ja) 音声の符号化方法
USRE43209E1 (en) Speech coding apparatus and speech decoding apparatus

Legal Events

Date Code Title Description
WWE Wipo information: entry into national phase

Ref document number: 97191350.1

Country of ref document: CN

AK Designated states

Kind code of ref document: A1

Designated state(s): AL AU BA BB BG BR CA CN CU CZ EE GE HU IL IS KR LC LK LR LT LV MG MK MN MX NO NZ PL RO SG SI SK SL TR TT UA US UZ VN YU AM AZ BY KG KZ MD RU TJ TM

AL Designated countries for regional patents

Kind code of ref document: A1

Designated state(s): GH KE LS MW SD SZ UG ZW AT BE CH DE DK ES FI FR GB GR IE IT LU MC NL PT SE BF BJ CF CG CI CM GA GN ML MR NE SN TD TG

WWE Wipo information: entry into national phase

Ref document number: 1997933895

Country of ref document: EP

WWE Wipo information: entry into national phase

Ref document number: 09051137

Country of ref document: US

121 Ep: the epo has been informed by wipo that ep was designated in this application
WWP Wipo information: published in national office

Ref document number: 1997933895

Country of ref document: EP

NENP Non-entry into the national phase

Ref country code: CA

WWG Wipo information: grant in national office

Ref document number: 1997933895

Country of ref document: EP