WO1998021710A1 - Convertisseur de rapidite de reproduction de sons - Google Patents

Convertisseur de rapidite de reproduction de sons Download PDF

Info

Publication number
WO1998021710A1
WO1998021710A1 PCT/JP1997/004077 JP9704077W WO9821710A1 WO 1998021710 A1 WO1998021710 A1 WO 1998021710A1 JP 9704077 W JP9704077 W JP 9704077W WO 9821710 A1 WO9821710 A1 WO 9821710A1
Authority
WO
WIPO (PCT)
Prior art keywords
audio
waveform
waveforms
signal
speed conversion
Prior art date
Application number
PCT/JP1997/004077
Other languages
English (en)
French (fr)
Inventor
Naoya Tanaka
Hiroaki Takeda
Original Assignee
Matsushita Electric Industrial Co., Ltd.
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Matsushita Electric Industrial Co., Ltd. filed Critical Matsushita Electric Industrial Co., Ltd.
Priority to CA002242610A priority Critical patent/CA2242610C/en
Priority to AU48863/97A priority patent/AU4886397A/en
Priority to JP52238098A priority patent/JP3891309B2/ja
Priority to US09/091,823 priority patent/US6115687A/en
Priority to EP97911495A priority patent/EP0883106B1/en
Priority to DE69736279T priority patent/DE69736279T2/de
Priority to KR1019980705288A priority patent/KR100327969B1/ko
Publication of WO1998021710A1 publication Critical patent/WO1998021710A1/ja

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/04Time compression or expansion

Definitions

  • the present invention relates to a sound reproduction speed conversion device for reproducing a digitized sound signal at an arbitrary speed without changing the pitch of the sound.
  • speech and “speech signal” are used to represent not only speech uttered by humans but also all acoustic signals emitted from musical instruments and the like. Background art
  • PI COLA Pointer Interval Control Overlap and Add
  • the principle of the PI COLA method is as follows: Naotaka Morita, Fumitada Itakura, "Decompression and expansion of speech using time-based overlap addition method (PI COLA) on the time axis and its evaluation," Proceedings of the Acoustical Society of Japan. 4- 14 (March 1988).
  • Japanese Patent Application Laid-Open No. Hei 8-137491 discloses a method in which the PICOLA method is applied to an audio signal divided in units of frames to realize a reproduction speed conversion with a small buffer memory.
  • Fig. 9 shows a block diagram of a conventional PICOLA audio playback speed converter.
  • a digitized audio signal is recorded on a recording medium 1
  • a framing unit 2 converts the audio signal from the recording medium 1 to a predetermined length.
  • the audio signal extracted by the framing unit 2 is temporarily stored in the buffer memory 3, while being supplied to the pitch period calculation unit 6.
  • the pitch cycle calculator 6 The pitch period T p of the audio signal is calculated and provided to the waveform superimposing unit 4, and the processing start position pointer is stored in the buffer memory 3.
  • the waveform superimposing unit 4 superimposes the waveform of the audio signal held in the buffer memory 3 using the pitch period of the input audio, and outputs the superimposed waveform to the waveform synthesizing unit 5.
  • the waveform synthesizing unit 5 synthesizes an output audio signal waveform from the audio signal waveform held in the buffer memory 3 and the superimposed waveform calculated by the waveform superimposing unit 4, and outputs an output audio.
  • This audio playback speed converter converts the playback speed without changing the pitch by the following processing.
  • P0 is a pointer indicating the beginning of a frame in which waveform superposition processing is performed.
  • a processing frame is set to LW samples having a length of two periods of the voice pitch period Tp. Also, L is given assuming that the input sound speed is 1 and the desired playback speed is given by r.
  • the input voice cut out from the recording medium 1 by the framing unit 2 is stored in the buffer memory 3.
  • the pitch period calculation unit 6 calculates the pitch period Tp of the input voice, and inputs it to the waveform superposition unit 4.
  • the pitch cycle calculation unit 6 calculates L from the pitch cycle Tp using equation (1), determines the next processing start position P 0 ′, and transfers it to the buffer memory 3 as a pointer on the buffer memory.
  • the waveform synthesizing unit 5 cuts out the waveform (waveform A + waveform B) of the waveform superposition processing frame from the input signal waveform (a) shown in FIG. 10 and substitutes the superimposed waveform (waveform c) shown in FIG. insert. Then, the input audio waveform D is connected to P 0 ′, which indicates the position of the (PO + Tp + L) point on the input waveform (P 1, which indicates the position of the top + L point of the waveform C on the composite waveform). Add. Note that when r> 2, P1 exists on the waveform C. In this case, the waveform C is output up to the position indicated by P1.
  • the length of the synthesized output waveform (c) is L samples, and the input sound of Tp + L samples is reproduced as the output sound of L samples.
  • the next waveform superimposition process is performed from the point P0 'on the input waveform.
  • FIG. 11 is a diagram showing the relationship between the audio signal held in the buffer memory 3 and the framing by the framing unit 2 in the processing described above with reference to FIG.
  • the buffer length required for the waveform superimposition process on the buffer memory 3 is two periods of the maximum pitch period Tpmax of the input voice.
  • Processing on the buffer memory is performed by shifting the contents of the buffer memory every time an LF sample is input, and performing the waveform superimposition processing only when the processing start position P0 is within the first frame. Good. Otherwise, the input signal becomes the output signal.
  • a processing frame is a LW sample having a length of two periods of the pitch period Tp of the voice. Also, L is given assuming that the input sound speed is 1 and the desired playback speed is given by r.
  • L Tp ⁇ / (1-r) ⁇ is the number of samples given by (2).
  • r LZ (Tp + L), and the relationship of (2) is derived.
  • the waveform superimposition unit 4 has a triangle window that increases in the time axis direction for the first half (waveform A) of the processing frame and a triangle that decreases in the time axis direction for the second half (waveform B). After windowing, add waveform A and waveform B to calculate superimposed waveform C.
  • the waveform synthesizer 5 inserts a superimposed waveform (waveform C) between the waveform A and the waveform B of the input signal waveform (a) shown in FIG. Then, add the input audio waveform B to P 0 ′, which indicates the position of the point P 0 + L on the input waveform (P 1, which indicates the position of the top + L point of the waveform C on the composite waveform).
  • P 0 ′ which indicates the position of the point P 0 + L on the input waveform
  • P 1 which indicates the position of the top + L point of the waveform C on the composite waveform.
  • waveform D is output to the position indicated by P0 ' .
  • the length of the synthesized output waveform (c) becomes Tp + L samples, and L
  • the input sound of the sample will be reproduced as the output sound of T ⁇ + L samples.
  • the next waveform superposition process is performed from the point P 0 ′ on the input waveform.
  • the relationship between the audio signal held in the buffer memory 3 and the framing by the framing unit 2 is the same as in the case of high-speed playback.
  • the above-mentioned sound reproduction speed conversion device obtains a pitch period of an input sound and superimposes waveforms based on the pitch period.
  • the input speech separated by the pitch period is called a pitch waveform.
  • pitch waveforms have very high similarity and are suitable for use in waveform superposition processing.
  • the pitch cycle calculation error is considered as follows.
  • the calculated pitch cycle is a pitch cycle representing a certain section of the input voice (referred to as a pitch cycle analysis section). If the pitch cycle changes rapidly within the pitch cycle analysis section, This is because the error between the calculated pitch period and the actual pitch period increases. Therefore, it is necessary to find the optimal pitch waveform at the waveform superimposition processing position in order to prevent the quality of the output voice from deteriorating. Disclosure of the invention
  • the present invention has been made in view of the above circumstances, and provides an audio reproduction speed conversion device capable of reducing distortion caused by waveform superposition during audio reproduction speed conversion and improving output audio quality. It is intended to provide.
  • the present invention selects a waveform in an input audio signal or an input residual signal such that an error between two adjacent waveforms having the same length is minimized.
  • By superimposing two waveforms By calculating and replacing the superimposed waveform with a part of the input audio signal or input residual signal, or by inserting it, audio playback speed conversion is realized.
  • the waveforms to be superimposed can be selected accurately, the quality of the speed-converted sound is improved.
  • the present invention provides a speech coding apparatus which combines a speech signal with a decoder of a speech encoding apparatus that separates and encodes a speech signal into linear prediction coefficients representing spectrum information, pitch period information, and excitation information representing a prediction residual. Utilize output information from the optimization device.
  • ADVANTAGE OF THE INVENTION According to this invention, the calculation cost of the reproduction
  • the present invention provides a buffer memory for temporarily holding a digitized input audio signal, a waveform superimposing section for superimposing a waveform of the audio signal stored in the buffer memory, and an input audio waveform in the buffer memory.
  • a sound reproduction speed conversion device having a waveform synthesizing unit for synthesizing an output audio waveform from a superimposed audio waveform, a waveform extracting unit for extracting two adjacent equal-length audio waveforms from a buffer memory; and a waveform extracting unit.
  • An error calculator that calculates an error between the two audio waveforms cut out by the unit, and a waveform superimposing unit selects and superimposes the two audio waveforms that minimize the error calculated by the error calculator. It is configured to match.
  • the present invention provides a linear prediction analysis unit that calculates a linear prediction coefficient representing spectrum information of an input audio signal, and calculates a prediction residual signal from the input audio signal using the calculated linear prediction coefficient. And a synthesis filter that synthesizes an audio signal from the prediction residual signal using a linear prediction coefficient.
  • the prediction residual signal calculated by the inverse filtering is stored in a buffer memory, and waveform synthesis is performed.
  • the prediction residual signal synthesized by the section is output to the synthesis filter.
  • the present invention has a configuration in which a speech signal is combined with a speech encoding device that separates and encodes a speech signal into linear prediction coefficients representing spectrum information, pitch period information, and excitation information representing a prediction residual, and
  • the memory temporarily stores the sound source information indicating the prediction residual, and the waveform cutout unit sets the range of the length of the sound waveform cut out from the buffer memory based on the pitch period information.
  • the present invention has a configuration in which a speech signal is combined with a speech encoding apparatus that separates and encodes a speech signal into linear prediction coefficients representing spectrum information, pitch period information, and excitation information representing a prediction residual.
  • the memory temporarily holds the decoded audio signal, and the waveform cutout section sets the range of the length of the audio waveform cut out from the buffer memory based on the pitch period information.
  • the present invention provides a linear prediction analysis unit that calculates a linear prediction coefficient representing spectrum information of an input audio signal, and an inverse filter that calculates a prediction residual signal from the input audio signal using the calculated linear prediction coefficient.
  • a linear prediction coefficient interpolator for interpolating the linear prediction coefficient, and a synthesis filter for synthesizing the speech signal from the prediction residual signal using the linear prediction coefficient, wherein the buffer memory calculates the prediction calculated by the inverse filter.
  • the residual signal is temporarily held, the waveform synthesis unit outputs the synthesized prediction residual signal to the synthesis filter, and the linear prediction coefficient interpolation unit optimizes the synthesized prediction residual signal.
  • the synthesis filter is configured to synthesize the output audio signal using the interpolated linear prediction coefficients.
  • the output speech signal is synthesized using the linear prediction coefficients interpolated so as to be optimal for the synthesized prediction residual signal, so that the speech quality is improved.
  • FIG. 1 is a block diagram of an audio reproduction speed conversion device according to the first embodiment
  • FIG. 2 is a waveform diagram of an audio signal to be subjected to reproduction speed conversion in the first embodiment
  • FIG. FIG. 4 is a block diagram of the audio reproduction speed conversion device according to the third embodiment
  • FIG. 5 is a block diagram of the audio reproduction speed conversion device according to the third embodiment
  • FIG. 6 is a block diagram of the sound reproducing speed converting device according to the fifth embodiment
  • FIG. 6 is a diagram showing a relationship between a processing frame position, a window shape and weights, and a superposition process
  • FIG. Is a block diagram of an audio reproduction speed conversion device according to a sixth embodiment
  • FIG. 9 is a block diagram of a conventional audio reproduction speed conversion device
  • Figure 10 shows the relationship between the input waveform, superimposed waveform, and output waveform for high-speed playback.
  • Figure 11 shows the framed input signal, the input signal in the buffer memory, and the input in the buffer memory after shifting. Signal relationship diagram, and
  • FIG. 12 is a relationship diagram of an input waveform, a superimposed waveform, and an output waveform in the case of low-speed reproduction.
  • FIG. 1 shows functional blocks of the audio reproduction speed conversion device according to the first embodiment. Parts having the same functions as the respective parts of the apparatus shown in FIG. 9 described above are denoted by the same reference numerals.
  • the waveform cutout unit 7 gives the buffer memory 3 a start position at which a waveform is cut out and the length of the cutout waveform, and cuts out two adjacent sound waveforms of the same length from the buffer memory 3.
  • Error calculator 8 cuts out waveform An error between the two audio waveforms cut out by the extracting unit 7 is calculated, and a waveform having a length that minimizes the error is selected, and a superimposition processing frame is determined. Then, the waveform superimposing section 9 superimposes the two waveforms determined by the error calculating section 8. Note that, similarly to the apparatus shown in FIG.
  • the digitized audio signal is recorded on the recording medium 1, and the ramming unit 2 converts the audio signal into a recording medium of a predetermined length LF sample frame.
  • the audio signal taken out from 1 and taken out by the framing unit 2 is temporarily stored in the buffer memory 3.
  • the waveform synthesizing unit 5 synthesizes an output audio signal waveform from the audio signal waveform held in the buffer memory 3 and the superimposed waveform calculated by the waveform superimposing unit 9.
  • the functions of the storage medium 1, the framing unit 2, the buffer memory 3, the waveform superimposing unit 9, and the waveform synthesizing unit 5 and the processing of the reproduction speed conversion of this device are the same as those of the conventional device, and therefore the description is omitted.
  • the functions of the cutout unit 7 and the error calculation unit 8 and the process of determining a superimposition processing frame will be mainly described.
  • the waveform cutout unit 7 generates two overlapping sound waveforms (of the same length Tc) adjacent to the buffer memory 3 and the processing start position pointer P0 as overlay processing frame candidate waveforms 19. Cut out waveform A and waveform B).
  • the error calculator 8 calculates an error between the two waveforms of the waveform A and the waveform B.
  • the error Err between the two waveforms is represented by the following equation, where X (n) is the waveform A, y (n) is the waveform B, and n is a sample point.
  • the error calculation unit 8 calculates the other two waveforms A and B by keeping the processing start position pointer P0 fixed and changing the lengths (number of samples) of two consecutive waveforms A and B cut out from the pointer P0. Read from buffer memory 3 and calculate error E rr between waveforms. calculate. The error E rr is calculated by sequentially varying the lengths (number of samples) of the two waveforms A and B while keeping the processing start position pointer P 0 fixed. Then, the combination of waveforms A and B that minimizes the error E rr is selected.
  • E rr is the integration error in the waveform length T c samples
  • the error can be compared by using the value obtained by dividing the error E rr by the number of samples by T c, that is, the average error E rr ZT c for one sample point.
  • a range of values to be taken is determined in advance. For example, an audio signal of 8 kHz sampling may be about 16 to 160 sample. Change the waveform length Tc within the specified range, calculate the average error E rr ZTc for each Tc, compare them, and find Tc that minimizes the average error The length of the waveform.
  • the waveform superposition unit 9 captures the two waveforms A and B selected from the error calculation unit 8 as a superimposition processing frame 14 and separates them into a processing frame (waveform A) and a processing frame (waveform B). After applying a triangular window, the two are superimposed to generate a superimposed waveform 15.
  • the waveform synthesizing unit 5 fetches the input audio waveform 16 from the buffer memory 3 and converts or superimposes the superimposed waveform 15 with a part of the input audio waveform 16 on the basis of the playback speed r, thereby converting the speed.
  • the output sound 17 is generated.
  • the waveform cutout unit 7 cuts out the pair of adjacent waveforms A and B that are the waveform synthesis candidates from the buffer memory 3 and gradually changes the length of the cutout target waveform. Then, the error E rr / T c between the waveforms in each pair of waveforms is calculated, and the combination of the waveforms A and B with the smallest error E rr ZT c is to be synthesized. The distortion can be reduced and the quality of the output sound can be improved. (Second embodiment)
  • the second embodiment is an example in which a reproduction speed conversion process is performed using a residual signal in which a pitch waveform appears remarkably.
  • FIG. 3 shows a function block of the audio reproduction speed conversion device according to the second embodiment. Parts having the same functions as the respective parts of the apparatus shown in FIGS. 1 and 9 are given the same reference numerals.
  • This audio reproduction speed conversion device includes a linear prediction analysis unit 30 for calculating a linear prediction coefficient representing spectrum information of an input audio signal, and a prediction residual signal from the input audio signal using the calculated linear prediction coefficient. And a synthesis filter 32 for synthesizing a speech signal from a prediction residual signal using a linear prediction coefficient.
  • a linear prediction analysis unit 30 for calculating a linear prediction coefficient representing spectrum information of an input audio signal, and a prediction residual signal from the input audio signal using the calculated linear prediction coefficient.
  • a synthesis filter 32 for synthesizing a speech signal from a prediction residual signal using a linear prediction coefficient.
  • the input audio 12 in frame units extracted by the framing unit 2 is input to the linear prediction analysis unit 30 and the inverse filter 31.
  • the linear prediction analysis unit 30 calculates the linear prediction coefficient 33 from the input speech 12 in frame units, and the inverse filter 31 uses the linear prediction coefficient 33 to convert the residual signal 3 4 from the input speech 12. Is calculated.
  • the residual signal 34 calculated by the inverse filter 31 is described in the first embodiment by the buffer memory 3, the waveform cutout unit 7, the error calculation unit 8, and the waveform superimposition unit 9.
  • the waveforms are synthesized by the reproduction speed conversion process described above, and are output from the waveform synthesizing unit 5 as a synthesized residual signal 35.
  • the synthesis filter 32 calculates and outputs an output synthesized speech 36 from the synthesized residual signal 35 using the linear prediction coefficient 33 supplied from the linear prediction analysis unit 30.
  • two waveforms are obtained from the prediction residual signal which is a signal obtained by removing the spectrum envelope information represented by the linear prediction coefficient from the input speech signal. Cut out A and B and synthesize waveforms. Since the prediction residual signal has a characteristic in which the pitch waveform appears more remarkably than the original input signal, the pitch waveform can be accurately cut out by performing the reproduction speed conversion processing on the residual signal as in the present embodiment. And the quality of the reproduced sound can be improved.
  • the amount of calculation is reduced by combining an audio reproduction speed conversion device with an audio encoding device and using audio encoded information output from the audio encoding device in a speed conversion process.
  • FIG. 4 shows a functional block of the audio reproduction speed conversion device according to the present embodiment. Parts having the same functions as the respective parts of the apparatus shown in FIGS. 1, 3 and 9 are given the same reference numerals.
  • This audio reproduction speed conversion device includes a storage medium 1, a framing unit 2, a linear prediction analysis unit 30 and an inverse filter 31 according to the second embodiment, and an audio codec having these functions. It is replaced by the decoder 40 of the conversion device.
  • the decoder 40 of the speech coding apparatus has a function of separating and coding a speech signal into linear prediction coefficients representing spectrum information, pitch period information, and excitation information representing prediction residuals.
  • a representative example of such a speech encoding device is CELP (Code Excluded Li near Prediction on coding).
  • CELP Code Excluded Li near Prediction on coding
  • each piece of coded information is coded in frame units. Therefore, the sound source signal 41 output from the decoder 40 is a signal of a frame unit having a length determined by the audio encoding device, and can be directly used as an input of the audio reproduction speed conversion device of the present invention. it can.
  • the sound source signal 41 in frame units output from the decoder 40 is stored in the buffer memory 3, and the pitch period information 42 is input to the waveform cutout unit 43.
  • the linear prediction coefficient 3 3 Enter in evening 3.
  • the waveform cutout section 43 adjacent waveforms A and B having a length Tc are cut out from the buffer memory 3 in the same manner as in the first embodiment, and a plurality of sets of waveforms A , B are supplied to the error calculator 8. Moreover, the waveform cutout unit 43 changes the range of the value of the length Tc of the cutout waveform in accordance with the pitch period information 42, so that the amount of calculation required for error calculation can be significantly reduced.
  • the linear prediction coefficient 33 output from the decoder is used as an input to the synthesis filter 32.
  • a decoder of a voice coding apparatus that separates and codes a voice signal into linear prediction coefficients representing spectrum information, pitch period information, and sound source information representing prediction residuals,
  • the reproduction speed conversion of the audio signal encoded by the audio encoding device can be realized with a small amount of calculation by using information output from the audio encoding device.
  • the audio reproduction speed conversion device reduces the amount of operation by using the audio encoding information output from the audio encoding device in combination with the audio encoding device.
  • FIG. 5 shows a function block of the audio reproduction speed conversion device according to the present embodiment. Note that parts having the same functions as the respective parts of the third embodiment described above are given the same reference numerals.
  • This audio reproduction speed conversion device includes a synthesis filter 32 ′ having the same function as the synthesis filter 32 provided in the third embodiment, and is provided between the decoder 40 of the audio encoding device and the buffer memory 3.
  • the synthetic filter 3 2 ′ generates a decoded speech signal from the sound source signal 41 and the linear prediction coefficient 33 in frame units, and stores the decoded speech signal in the buffer memory 3 as a synthesized speech signal 44.
  • Sound source signal 41 from decoder 40 Since the signal is input in units of frames, the synthesized audio signal 44 is also a signal in units of frames, and therefore can be directly used as an input of the audio reproduction speed conversion device of the present invention.
  • a speech encoding apparatus that separates and encodes a speech signal into linear prediction coefficients representing spectrum information, pitch period information, and excitation information representing a prediction residual
  • a speech reproduction speed conversion apparatus By combining the above, the reproduction speed conversion of the audio signal encoded by the audio encoding device can be realized with a small amount of computation using the information output from the audio encoding device.
  • the fifth embodiment is an audio reproduction speed conversion device for improving audio quality by interpolating linear prediction coefficients so as to be optimal for a synthesized prediction residual signal.
  • FIG. 6 shows a function block of the audio reproduction speed conversion device according to the present embodiment. Note that portions having the same functions as the respective portions in each of the above-described embodiments have the same functions.
  • This audio reproduction speed conversion device includes a linear prediction analysis unit 30 for calculating a linear prediction coefficient representing spectrum information of an input audio signal, and a prediction from the input audio signal using the calculated linear prediction coefficient 33.
  • An inverse filter 3 1 for calculating the residual signal 3 4 a synthesis filter 3 2 for synthesizing the audio signal from the input audio signal using the linear prediction coefficient, and a linear prediction coefficient 3 3 for the synthesized prediction residual signal.
  • a linear prediction coefficient interpolator 60 for performing interpolation so as to be optimal for this.
  • Other configurations are the same as those of the first embodiment (FIG. 1).
  • the input audio 12 in frame units cut out from the recording medium 1 by the framing unit 2 is supplied to the linear prediction analysis unit 30.
  • the linear prediction analysis unit 30 calculates a linear prediction coefficient 33 from the input speech 1 2 in frame units. The calculated value is output to the inverse filter 31 and the linear prediction coefficient interpolation unit 60.
  • the inverse filter 21 calculates a residual signal 34 from the input speech 12 using the linear prediction coefficient 33.
  • the residual signal 34 is waveform-synthesized by the reproduction speed conversion processing described in the first embodiment, and is output from the waveform synthesizing unit 5 as a synthesized residual signal 35.
  • the linear prediction coefficient interpolation unit 60 receives the processing frame position information 61 from the waveform synthesis unit 4, and interpolates the linear prediction coefficient 33 to be optimal for the synthesized residual signal 35.
  • the interpolated linear prediction coefficient 62 is input to the synthesis filter 32, and the output speech signal 36 is synthesized from the synthesis residual signal 35.
  • the processing frame for calculating the combined residual signal 35 extends over the input frames 1, 2, and 3.
  • the shape of the window used for waveform superposition is assumed to be the window shape and weight as shown in FIG. 7 (b). Therefore, as shown in Fig. 7 (c), the amount of data included in the superimposed waveform generated by the superimposition process is calculated by considering the amount of data included in the sections F1, F2, and F3 in consideration of the window shape. Weights are weighted by wl, w2, and w3. Based on the original data amount included in this superimposed waveform, the interpolated linear prediction coefficient 62 is obtained as follows.
  • each linear prediction coefficient is converted into an LSP parameter suitable for interpolation processing, and the converted LSP parameter is subjected to interpolation processing. The performance can be improved by re-converting the coefficients.
  • the audio reproduction speed conversion device is used in combination with an audio encoding device, and reduces the amount of calculation by using audio encoded information output from the audio encoding device. ing.
  • FIG. 8 shows a function block of the audio reproduction speed conversion device according to the present embodiment.
  • This audio reproduction speed conversion apparatus is characterized in that the audio signal used in the third embodiment is replaced with a linear prediction coefficient representing spectral information, a pitch, and a pitch, instead of the storage medium 1 and the framing unit 2 of the fifth embodiment.
  • a speech encoding device (decoder 40) that separates and encodes the period information and the excitation information representing the prediction residual is arranged.
  • the sound source signal 41 for each frame output from the decoder 40 is input to the buffer memory 3, and the linear prediction coefficient 33 is input to the linear prediction coefficient interpolation unit 60. Further, the pitch period information 42 is input to the waveform cutout unit 43, and the range of the value of the length Tc of the waveform cut out by the waveform cutout unit 43 is switched according to the pitch period information 42. This limits the range of the value of the length Tc of the waveform to be cut out, so that the amount of calculation required for error calculation can be significantly reduced.
  • a speech coding apparatus that separates and encodes a speech signal into linear prediction coefficients representing spectrum information, pitch period information, and excitation information representing prediction residuals
  • the audio reproduction speed conversion device of the present invention by using the information output from the audio encoding device, the reproduction speed conversion of the audio signal encoded by the audio encoding device can be performed with a small amount of calculation. Can be realized. (Seventh embodiment)
  • the audio reproduction speed conversion device of the present invention can be realized as software by describing the algorithm of the processing in a programming language.
  • the functions of the speech encoding device of the present invention are realized by recording the program on a storage medium such as a floppy disk, connecting the storage medium to a general-purpose signal processing device such as a personal computer, and executing the program. can do.
  • the audio reproduction speed conversion device is useful for reproducing an audio signal recorded on a recording medium at an arbitrary speed without changing the pitch of the audio. It is suitable for improving the quality of voice.

Landscapes

  • Engineering & Computer Science (AREA)
  • Human Computer Interaction (AREA)
  • Quality & Reliability (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)
  • Transmission Systems Not Characterized By The Medium Used For Transmission (AREA)
  • Signal Processing Not Specific To The Method Of Recording And Reproducing (AREA)

Description

明 細 書 音声再生速度変換装置 技術分野
本発明は、 ディジタル化された音声信号を音声のピッチ (音程) を変化させ ずに任意の速度で再生する音声再生速度変換装置に関するものである。
本明細書では 「音声」 及び「音声信号」 を、 人間の発する音声だけではなく、 楽器等から発せられるすべての音響信号を表すものとして使用する。 背景技術
音声のピッチを変化させずにその再生速度を任意の速度に変換する方法の 1 つとして、 P I COLA (Pointer Interval Control OverLap and Add) 方式 がある。 P I COLA方式の原理は、 森田直孝、 板倉文忠、 「ポインタ移動量 制御による重複加算法 (P I COLA) を用いた音声の時間軸上での伸長圧縮 とその評価」、 日本音響学会講演論文集卜 4- 14 (1988年 3月)に紹介されている。 また、 P I COLA方式を、 フレーム単位に分割された音声信号に対して適用 し、 少ないバッファメモリで再生速度変換を実現する方法が、 特開平 8— 13 7491号に開示されている。
図 9に従来の P I COLA方式による音声再生速度変換装置のブロック図を 示す。 同図に示された音声再生速度変換装置では、 ディジタル化された音声信 号が記録媒体 1に記録されており、 フレ一ミング部 2が記録媒体 1から音声信 号をあらかじめ決められた長さ L Fサンプルのフレーム単位で取り出す。 フレ 一ミング部 2によって取り出された音声信号は、 バッファメモリ 3に一時的に 保持される一方で、 ピッチ周期算出部 6へ与えられる。 ピッチ周期算出部 6は、 音声信号のピッチ周期 T pを算出して波形重ね合わせ部 4へ与えると共に処理 開始位置ポインタをバッファメモリ 3へ保存する。 波形重ね合わせ部 4は、 入 力音声のピッチ周期を用いてバッファメモリ 3に保持されている音声信号の波 形を重ね合わせ、重ね合わせ波形を波形合成部 5へ出力する。波形合成部 5は、 バッファメモリ 3に保持されている音声信号波形と波形重ね合わせ部 4によつ て算出された重ね合わせ波形とから出力音声信号波形を合成して出力音声を出 力する。
この音声再生速度変換装置は、 次のような処理により音程を変えずに再生速 度を変換する。
まず、高速再生を行なう時の処理方法を図 10及び図 1 1を用いて説明する。 図において、 P 0は、 波形の重ね合わせ処理が行なわれるフレームの先頭を表 わすポインタである。 波形重ね合わせ処理は、 音声のピッチ周期 Tpの 2周期 分の長さ LWサンプルを処理フレームとする。 また、 Lは、 入力音声の速度を 1として、 所望再生速度が rで与えられたとき、
L = Tp { \/ (r - 1) } (1) で与えられるサンプル数である。 この Lは出力波形 (c) の長さに対応するサ ンプルであり、 後述するように、 Tp + Lサンプルの入力音声が Lサンプルの 出力音声として再生される。 従って、 r= (Tp + L) ZLとなり、 (1) の 関係が導出される。
記録媒体 1からフレーミング部 2によって切り出された入力音声は、 バッフ ァメモリ 3に蓄えられる。 同時に、 ピッチ周期算出部 6は、 入力音声のピッチ 周期 Tpを算出し、 波形重ね合わせ部 4に入力する。 また、 ピッチ周期算出部 6は、 ピッチ周期 Tpから (1) 式を用いて Lを算出し、 次の処理開始位置 P 0 ' を決定し、 バッファメモリ上のポインタとして、 バッファメモリ 3に引き 渡す。 波形重ね合わせ部 4は、 バッファメモリ 3から、 ポインタ P 0が示す処理開 始位置から波形重ね合わせ処理フレーム LW (=2Tp) サンプルの波形を切 り出し、 処理フレームの前半部分 (波形 Α) に対しては、 時間軸方向に減少す る三角窓、 後半部分 (波形 Β) に対しては、 時間軸方向に増加する三角窓を掛 けたのち、 波形 Αと波形 Βを加算し、 重ね合わせ波形 Cを算出する。
波形合成部 5は、 図 10に示す入力信号波形 (a) から、 波形重ね合わせ処 理フレームの波形 (波形 A +波形 B) を切り取り、 代わりに図 10に示す重ね 合わせ波形 (波形 c) を挿入する。 その後、 入力波形上で (P O+Tp + L) 点の位置を示す P 0 ' (合成波形上でば波形 Cの先頭 + L点の位置を示す P 1 ) まで、 入力音声波形 Dを継ぎ足す。 なお、 r〉2のときは、 P 1は波形 C上に 存在することになるが、 この場合は、 波形 Cを P 1の示す位置まで出力する。 この結果、 合成された出力波形 (c) の長さは Lサンプルとなり、 Tp + L サンプルの入力音声が Lサンプルの出力音声として再生されることになる。 次 の波形重ね合わせ処理は、 入力波形上の P 0' 点から行なう。
図 1 1は、 図 10を用いて説明した上記の処理について、 バッファメモリ 3 に保持された音声信号と、 フレーミング部 2によるフレーミングとの関係を示 した図である。
本来、 バッファメモリ 3上において、 波形重ね合わせ処理に必要なバッファ 長は、 入力音声の最大ピッチ周期 Tpmaxの 2周期分である。 しかし、 入力音声 が、 あらかじめ定められたフレーム長 L Fサンプル毎に区切られて入力される ため、 処理開始位置 P 0は入力音声の先頭フレーム内の、 任意の位置を取るこ ととなり、 また、 バッファ長は入力フレーム長の整数倍でなければならないこ とから、 バッファ長は(LF+ 2Tpmax)以上で L Fの倍数のうち最小のもの ということになる。 例えば、 入力フレーム長 LFが 160サンプル、 ピッチ周 期の最大値 Tpmaxが 145ならば ッファ長は 3 L F = 480サンプル必要 となる。
バッファメモリ上での処理は、 L Fサンプルの入力がある毎にバッファメモ リの内容をシフトして行き、 処理開始位置 P 0が先頭フレーム内に入ったとき のみ、 波形重ね合わせの処理を行なえばよい。 それ以外のときは、 入力信号が そのまま出力信号となる。
次に、 低速再生を行なう方法について、 図 12を用いて説明する。
高速再生の場合と同様に、 P 0は波形重ね合わせ処理フレームの先頭を表わ すポインタである。 波形重ね合わせ処理は、 音声のピッチ周期 Tpの 2周期分 の長さ LWサンプルを処理フレームとする。 また、 Lは、 入力音声の速度を 1 として、 所望再生速度が rで与えられたとき、
L = Tp { τ / ( 1 - r) } (2) で与えられるサンプル数である。 低速再生の場合は、 後述するように、 Lサン プルの入力音声が T p + Lサンプルの出力音声として再生されることになる。 従って、 r=LZ (Tp + L) となり、 (2) の関係が導出される。
波形重ね合わせ部 4は、 処理フレームの前半部分 (波形 A) に対しては、 時 間軸方向に増加する三角窓、 後半部分 (波形 B) に対しては、 時間軸方向に減 少する三角窓を掛けたのち、 波形 Aと波形 Bとを加算し、 重ね合わせ波形 Cを 算出する。
波形合成部 5は、 図 12に示す入力信号波形 (a) の波形 Aと波形 Bとの間 に、 重ね合わせ波形 (波形 C) を挿入する。 その後、 入力波形上で P 0+L点 の位置を示す P 0 ' (合成波形上でば波形 Cの先頭 +L点の位置を示す P 1) まで、 入力音声波形 Bを継ぎ足す。 r>0. 5のときは、 P 1は波形 B上では なく、 重ね合わせ処理フレームに続く波形 D上に存在ことになるが、 この場合 は、 波形 Dを P 0' の示す位置まで出力する。
この結果、 合成された出力波形 (c) の長さは Tp + Lサンプルとなり、 L サンプルの入力音声が T ρ + Lサンプルの出力音声として再生されることにな る。 また、 次の波形重ね合わせ処理は、 入力波形上の P 0 ' 点から行なう。 バッファメモリ 3に保持された音声信号と、 フレ一ミング部 2によるフレー ミングとの関係は、 高速再生の場合と同じである。
ところで、前述した音声再生速度変換装置は、入力音声のピッチ周期を求め、 そのピッチ周期に基づいて波形の重ね合わせを行なっている。 ピッチ周期で区 切られた入力音声はピッチ波形と呼ばれ、 一般にピッチ波形同士は非常に類似 度が高いため、 波形重ね合わせ処理に用いるのに適している。
しかしな力 ら、 ピッチ周期に算出誤りが含まれると、 隣接するピッチ波形間 の誤差が増大し、 結果として波形重ね合わせ後の出力音声の品質が低下する問 題が生じる。 ピッチ周期の算出誤りが発生する主な原因として次のようなこと が考えられる。一般に、算出されたピッチ周期は、入力音声のある一部区間(ピ ツチ周期分析区間という) を代表するピッチ周期であり、 ピッチ周期分析区間 内でピッチ周期が急激に変化している場合には、 算出されたピッチ周期と、 実 際のピッチ周期との誤差が大きくなるためである。 従って、 出力音声の品質が 低下するのを抑えるためには、 波形重ね合わせ処理位置における最適なピッチ 波形を求める必要がある。 発明の開示
本発明は以上のような実情に鑑みてなされたもであり、 音声再生速度変換時 の波形重ね合わせによって生じる歪みを低減し、 出力音声の品質を向上するこ とができる音声再生速度変換装置を提供することを目的としている。
上記目的を達成するために、 本発明は、 入力音声信号または入力残差信号に おいて、 隣接する長さの等しい 2つの波形の誤差が、 最も小さくなるような波 形を選択し、 その 2つの波形を重ね合わせることによって、 重ね合わせ波形を 算出し、 その重ね合わせ波形を入力音声信号または入力残差信号の一部と置き 換え、 あるいは、 挿入することにより、 音声の再生速度変換を実現している。 本発明によれば、 重ね合わせる波形を的確に選択することができるため、 速 度変換した音声の品質が向上する。
また、 本発明は、 音声信号を、 スペクトル情報を表わす線形予測係数、 ピッ チ周期情報、 及び予測残差を表わす音源情報に分離して符号化する音声符号化 装置のデコーダと組み合わせて、 音声符号化装置からの出力情報を利用する。 本発明によれば、 音声符号化装置からの出力情報を利用することにより、 符 号化された音声信号の再生速度変換の計算コストを大幅の下げることができる。 本発明は、 ディジ夕ル化された入力音声信号を一時的に保持するバッファメ モリと、 バッファメモリに保持された音声信号の波形を重ね合わせる波形重ね 合わせ部と、 バッファメモリ内の入力音声波形と重ね合わせ音声波形とから出 力音声波形を合成する波形合成部とを具備する音声再生速度変換装置において、 バッファメモリから隣接する等しい長さの 2つの音声波形を切り出す波形切り 出し部と、 波形切り出し部によって切り出された 2つの音声波形の間の誤差を 算出する誤差算出部とを設け、 波形重ね合わせ部が、 誤差算出部によって算出 された誤差が最小になる 2つの音声波形を選択して重ね合わせるように構成し たものである。
また、 本発明は、 入力音声信号のスぺクトル情報を表わす線形予測係数を算 出する線形予測分析部と、 算出された線形予測係数を利用して入力音声信号か ら予測残差信号を算出する逆フィル夕と、 線形予測係数を利用して予測残差信 号から音声信号を合成する合成フィル夕とを備え、 逆フィル夕の算出した予測 残差信号をバッファメモリに保持し、 波形合成部が合成した予測残差信号を合 成フィル夕に出力するように構成したものである。
これにより、 ピッチ波形の見極めが容易な予測残差信号を用いて再生速度変 換処理を行なうことができ、 ピッチ波形を正確に切り出すことができ、 再生音 声の品質が向上する。
また、 本発明は、 音声信号を、 スペクトル情報を表わす線形予測係数とピッ チ周期情報と予測残差を表わす音源情報とに分離して符号化する音声符号化装 置と組み合せた構成であり、 バッファメモリが予測残差を表わす音源情報を一 時的に保持し、 波形切り出し部がピッチ周期情報を基にバッファメモリから切 り出す音声波形の長さの範囲を設定するようにしたものである。
また、 本発明は、 音声信号を、 スペクトル情報を表わす線形予測係数とピッ チ周期情報と予測残差を表わす音源情報とに分離して符号化する音声符号化装 置と組み合わせた構成であり、 バッファメモリが復号音声信号を一時的に保持 し、 波形切り出し部がピッチ周期情報を基にバッファメモリから切り出す音声 波形の長さの範囲を設定するようにしたものである。
また、 本発明は、 入力音声信号のスペクトル情報を表す線形予測係数を算出 する線形予測分析部と、 算出された線形予測係数を利用して入力音声信号から 予測残差信号を算出する逆フィル夕と、 線形予測係数を補間する線形予測係数 補間部と、 線形予測係数を利用して予測残差信号から音声信号を合成する合成 フィル夕とを備え、 バッファメモリが逆フィル夕によって算出された予測残差 信号を一時的に保持し、 波形合成部は合成した予測残差信号を前記合成フィル 夕に出力し、 線形予測係数補間部は合成された予測残差信号に対して最適にな るように線形予測係数を補間し、 合成フィルタは補間された線形予測係数を利 用して出力音声信号を合成する様に構成したものである。
これにより、 合成された予測残差信号に対して最適になるように補間された 線形予測係数を用いて出力音声信号が合成されるため、 音声品質が向上するこ とになる。 図面の簡単な説明
図 1は、 第 1の実施の形態にかかる音声再生速度変換装置のブロック図、 図 2は、 第 1の実施の形態で再生速度変換対象となる音声信号の波形図、 図 3は、 第 2の実施の形態にかかる音声再生速度変換装置のプロック図、 図 4は、 第 3の実施の形態にかかる音声再生速度変換装置のプロック図、 図 5は、 第 4の実施の形態にかかる音声再生速度変換装置のブロック図、 図 6は、 第 5の実施の形態にかかる音声再生速度変換装置のプロック図、 図 7は、 処理フレーム位置、 窓形状と重み及び重ね合わせ処理の関係図、 図 8は、 第 6の実施の形態にかかる音声再生速度変換装置のプロック図、 図 9は、 従来の音声再生速度変換装置のブロック図、
図 1 0は、 高速再生の場合の入力波形、 重ね合わせ波形、 出力波形の関係図、 図 1 1は、 フレーミングされた入力信号、 バッファメモリ内の入力信号、 シ フト後のバッファメモリ内の入力信号の関係図、 及び
図 1 2は、 低速再生の場合の入力波形、 重ね合わせ波形、 出力波形の関係図 である。 発明を実施するための最良の形態
以下、 本発明の実施の形態について図面を参照して具体的に説明する。
(第 1の実施の形態)
図 1に、 第 1の実施の形態にかかる音声再生速度変換装置の機能ブロックが 示されている。 なお、 前述した図 9に示された装置の各部と同一機能を有する 部分には同一符号を付している。
この音声再生速度変換装置では、 波形切り出し部 7がバッファメモリ 3に波 形を切り出す開始位置と切り出す波形の長さとを与えて、 隣接する同じ長さの 2つの音声波形をバッファメモリ 3から切り出し、 誤差算出部 8が波形切り出 し部 7によって切り出された 2つの音声波形間の誤差を算出し、 且つ誤差が最 小となる長さの波形を選択し、 重ね合わせ処理フレームを決定する。 そして、 波形重ね合わせ部 9が誤差算出部 8で決定した 2つの波形を重ね合わせる。 なお、 前述の図 9に示された装置と同様に、 記録媒体 1にディジタル化され た音声信号が記録され、 レーミング部 2が音声信号をあらかじめ決められた長 さ L Fサンプルのフレーム単位で記録媒体 1から取り出し、 フレーミング部 2 によつて取り出された音声信号を一時的にバッファメモリ 3に保持する。また、 波形合成部 5がバッファメモリ 3に保持されている音声信号波形と波形重ね合 わせ部 9によって算出された重ね合わせ波形とから出力音声信号波形を合成す る。
この装置の記憶媒体 1、 フレーミング部 2、 バッファメモリ 3、 波形重ね合 わせ部 9、 波形合成部 5の機能及び再生速度変換の処理は、 従来の装置と同じ であるので説明を省略し、 波形切り出し部 7、 誤差算出部 8の機能と、 重ね合 わせ処理フレームの決定プロセスについて主に説明する。
波形切り出し部 7は、図 2に示すように、重ね合わせ処理フレーム候補波形 1 9として、ノ ッファメモリ 3力、ら、処理開始位置ポインタ P 0から隣接する同じ 長さ T cの 2つの音声波形 (波形 Aと波形 B ) を切り出す。
誤差算出部 8は、 波形 Aと波形 Bとの 2つの波形間の誤差を算出する。 2つ の波形間の誤差 E r rは、 波形 Aを X ( n ) 、 波形 Bを y ( n ) 、 nをサンプ ル点として、 次式のように表わされる。
E r r =∑ { x ( n ) - y ( η ) } 2 ( 3 )
(∑は η = 0から T c一 1まで加算)
誤差算出部 8は、 処理開始位置ポインタ P 0を固定したまま、 ポインタ P 0 より切り出す連続する 2つの波形 A, Bの長さ (サンプル数) を異ならせて別 の 2つの波形 A, Bをバッファメモリ 3から読み出して波形間の誤差 E r rを 計算する。 処理開始位置ポインタ P 0を固定したまま、 2つの波形 A, Bの長 さ (サンプル数) を順次異ならせて誤差 E r rを計算する。 そして、 誤差 E r rが最小になる波形 A, Bの組み合せを選択する。
ここで、 E r rは波形の長さ T cサンプルにおける積算誤差であるため、 長 さ T cの異なる波形に対する誤差同士を直接比較することはできない。そこで、 例えば、 誤差 E r rをサンプル数で T cで割り算した値、 つまり、 1サンプル 点に対する平均誤差 E r r ZT cを用いることにより、 誤差の比較が可能とな る。 波形の長さ T cは、 あらかじめ、 取る値の範囲が定められており、 例えば、 8 k H zサンプリングの音声信号に対しては 1 6から 1 6 0サンブル程度でよ い。波形の長さ T cを定められた範囲内で変化させ、それぞれの T cに対して、 平均誤差 E r r ZT cを算出し、 それらを比較して、 平均誤差を最小にする T cが求める波形の長さとなる。
波形重ね合わせ部 9では、 誤差算出部 8から選択した 2つの波形 A, Bを重 ね合わせ処理フレーム 1 4として取込み、 処理フレーム (波形 A) と処理フレ ーム (波形 B ) とに別々の三角窓を掛けた上で、 両者を重ね合わして重ね合わ せ波形 1 5を生成する。
波形合成部 5では、バッファメモリ 3から入力音声波形 1 6を取込むと共に、 再生速度 rに基づいて重ね合わせ波形 1 5を入力音声波形 1 6の一部と交換又 は挿入して速度変換された出力音声 1 7を発生させる。
このように本実施の形態によれば、 波形切り出し部 7がバッファメモリ 3か ら波形合成候補となる隣接する一対の波形 A, Bを切り出し、 切り出し対象と なる波形の長さを徐々に変化させて、 各波形対における波形間の誤差 E r r / T cを計算し、 誤差 E r r ZT cが最も小さくなる波形 A, Bの組を合成対象 とするので、 波形 A, Bの重ね合わせによって生じる歪みを低減し、 出力音声 の品質を向上させることができる。 (第 2の実施の形態)
第 2の実施形態は、 ピッチ波形が顕著に現れる残差信号によって再生速度変 換処理を行なう例である。
図 3に、 第 2の実施形態にかかる音声再生速度変換装置の機能プロックを示 す。 なお、 前述した図 1及び図 9に示された装置の各部と同一機能を有する部 分には同一符号を付している。
この音声再生速度変換装置は、 入力音声信号のスぺクトル情報を表わす線形 予測係数を算出する線形予測分析部 3 0と、 算出された線形予測係数を利用し て入力音声信号から予測残差信号を算出する逆フィル夕 3 1と、 線形予測係数 を利用して予測残差信号から音声信号を合成する合成フィル夕 3 2とを備えて いる。 本実施の形態にかかる音声再生速度変換装置のその他の構成は第 1の実 施の形態と同じである。
以上に様に構成された音声再生速度変換装置では、 フレ一ミング部 2によつ て切り出されたフレーム単位の入力音声 1 2が線形予測分析部 3 0と逆フィル 夕 3 1へ入力される。 線形予測分析部 3 0ではフレーム単位の入力音声 1 2か ら線形予測係数 3 3が算出され、 逆フィルタ 3 1では線形予測係数 3 3を用い て、 入力音声 1 2から残差信号 3 4が算出される。
逆フィル夕 3 1にて算出される残差信号 3 4は、 ノ ッファメモリ 3、 波形切 り出し部 7、 誤差算出部 8、 及び波形重ね合わせ部 9にて、 第 1の実施の形態 で説明した再生速度変換処理により波形合成され、 波形合成部 5より合成残差 信号 3 5として出力される。
合成フィルタ 3 2は、 線形予測分析部 3 0から与えられる線形予測係数 3 3 を用いて、 合成残差信号 3 5から出力合成音声 3 6を算出して出力する。 このように本実施の形態は、 入力音声信号から線形予測係数によって表わさ れるスぺクトル包絡情報を取り除いた信号である予測残差信号から 2つの波形 A, Bを切り出して波形合成する。 予測残差信号は元の入力信号よりもピッチ 波形が顕著に現れる特性があるので、 本実施の形態のように残差信号上で再生 速度変換処理を行なうことによって、ピッチ波形を正確に切り出すことができ、 再生音声の品質を向上することができる。
(第 3の実施の形態)
第 3の実施形態は、 音声再生速度変換装置を音声符号化装置と組み合わせ、 前記音声符号化装置から出力される音声符号化情報を速度変換処理で利用する ことにより、 演算量の削減を行なっている。
図 4に、 本実施の形態にかかる音声再生速度変換装置の機能プロックが示さ れている。 なお、 前述した図 1、 図 3及び図 9に示された装置の各部と同一機 能を有する部分には同一符号を付している。
この音声再生速度変換装置は、 第 2の実施の形態における記憶媒体 1、 フレ 一ミング部 2、 線形予測分析部 3 0及び逆フィル夕 3 1の各部を、 それら各機 能を備えた音声符号化装置のデコーダ 4 0で置き換えたものである。 音声符号 化装置のデコーダ 4 0は、 音声信号を、 スペクトル情報を表わす線形予測係数 とピッチ周期情報と予測残差を表わす音源情報とに分離して符号化する機能を 有する。 このような音声符号化装置の代表としては C E L P (Code Exc i ted L i near Predic t i on cod ing)がある。また一般に、 C E L Pに代表される高能率音 声符号化装置では、各符号化情報はフレーム単位で符号化されている。従って、 デコーダ 4 0から出力される音源信号 4 1は、 音声符号化装置で定められた長 さのフレーム単位の信号であり、本発明の音声再生速度変換装置の入力として、 直接使用することができる。
本実施の形態にかかる音声再生速度変換装置では、 デコーダ 4 0から出力さ れるフレーム単位の音源信号 4 1をバッファメモリ 3へ格納し、 ピッチ周期情 報 4 2を波形切り出し部 4 3に入力し、 さらに線形予測係数 3 3を合成フィル 夕 3 2へ入力する。
波形切り出し部 4 3では、 第 1の実施の形態と同様にしてバッファメモリ 3 から長さ T cの隣接する波形 A, Bを切り出し、 長さ T cを順次異ならせて複 数組の波形 A, Bを誤差算出部 8へ供給する。 しかも、 波形切り出し部 4 3は 切り出す波形の長さ T cのとる値の範囲を、 ピッチ周期情報 4 2に応じて変え ることにより、誤差算出に要する演算量を大幅に削減することができる。 また、 デコーダから出力された線形予測係数 3 3は合成フィルタ 3 2の入力として用 いる。
このように、 音声信号をスペクトル情報を表わす線形予測係数と、 ピッチ周 期情報と、 予測残差を表わす音源情報とに分離して符号化する音声符号化装置 のデコーダと、 本発明の音声再生速度変換装置とを組み合わせることにより、 音声符号化装置から出力される情報を利用して、 音声符号化装置が符号化した 音声信号の再生速度変換を少ない演算量で実現することができる。
(第 4の実施の形態)
第 4の実施形態の音声再生速度変換装置は、 音声符号化装置と組み合わせ、 前記音声符号化装置から出力される音声符号化情報を利用することにより、 演 算量の削減を行なっている。
図 5に、 本実施の形態にかかる音声再生速度変換装置の機能プロックを示し ている。 なお、 前述した第 3の実施の形態の各部と同一機能を有する部分には 同一符号を付している。
この音声再生速度変換装置は、 第 3の実施の形態に備えた合成フィル夕 3 2 と同一機能を有する合成フィル夕 3 2 ' を、 音声符号化装置のデコーダ 4 0と バッファメモリ 3との間に配置している。 合成フィル夕 3 2 ' がフレーム単位 の音源信号 4 1と線形予測係数 3 3とから復号音声信号を生成して合成音声信 号 4 4としてバッファメモリ 3に保存する。 デコーダ 4 0から音源信号 4 1が フレーム単位で入力されるため、 合成音声信号 4 4もフレーム単位の信号とな り、 従って、 本発明の音声再生速度変換装置の入力として直接使用することが できるものである。
このように、 音声信号を、 スペクトル情報を表わす線形予測係数と、 ピッチ 周期情報と、 予測残差を表わす音源情報に分離して符号化する音声符号化装置 と、 本発明の音声再生速度変換装置とを組み合わせることにより、 音声符号化 装置から出力される情報を利用して、 音声符号化装置が符号化した音声信号の 再生速度変換を、 少ない演算量で実現することができる。
(第 5の実施の形態)
第 5の実施の形態は、 線形予測係数を合成された予測残差信号に対して最適 になるように補間することにより、 音声品質を向上させる音声再生速度変換装 置である。
図 6に、本実施の形態にかかる音声再生速度変換装置の機能プロックを示す。 なお、 前述した各実施の形態の各部と同一機能を有する部分には同一機能を付 している。
この音声再生速度変換装置は、 入力音声信号のスぺクトル情報を表わす線形 予測係数を算出する線形予測分析部 3 0と、 算出された線形予測係数 3 3を利 用して入力音声信号から予測残差信号 3 4を算出する逆フィルタ 3 1と、 線形 予測係数を利用して入力音声信号から音声信号を合成する合成フィルタ 3 2と、 線形予測係数 3 3を合成された予測残差信号に対して最適になるように補間す る線形予測係数補間部 6 0とを備えている。 その他の構成については、 第 1の 実施の形態 (図 1 ) と同じである。
この音声再生速度変換装置では、 フレ一ミング部 2によって記録媒体 1から 切り出されたフレーム単位の入力音声 1 2が線形予測分析部 3 0へ与えられる。 線形予測分析部 3 0は、 フレーム単位の入力音声 1 2から線形予測係数 3 3を 算出して逆フィルタ 3 1及び線形予測係数補間部 6 0へ出力する。 逆フィルタ 2 1は、線形予測係数 3 3を用いて入力音声 1 2から残差信号 3 4を算出する。 この残差信号 3 4は、 第 1の実施の形態で説明した再生速度変換処理により波 形合成され、 波形合成部 5より合成残差信号 3 5として出力される。
線形予測係数補間部 6 0は、 波形合成部 4から処理フレーム位置情報 6 1を 受け取り、 線形予測係数 3 3を合成残差信号 3 5に対して最適になるように補 間する。 補間された線形予測係数 6 2は、 合成フィルタ 3 2に入力され、 合成 残差信号 3 5から、 出力音声信号 3 6が合成される。
ここで、 線形予測係数 3 3を合成残差信号 3 5に対して最適になるように補 間する方法の一例について図 7を参照しながら説明する。
図 7 ( a ) に示すように、 合成残差信号 3 5を算出するための処理フレーム 力 入力フレーム 1、 2、 3にまたがっているのもとする。 このとき波形重ね 合わせに用いる窓の形状は図 7 ( b )に示すような窓形状と重みであるとする。 したがって、 図 7 ( c ) に示すように重ね合わせ処理によって生成される重ね 合わせ波形に含まれるデ一夕量は、 区間 F l、 F 2、 F 3に含まれるデータ量 を窓形状を考慮した重み w l、 w2、 w3によって重み付けしたものとなる。 この 重ね合わせ波形に含まれる元のデ一夕量を基準にすれば、 補間された線形予測 係数 6 2は次のように求められる。
(補間線形予測係数) = (フレーム 1の線形予測係数) X (重み wl )
+ (フレーム 2の線形予測係数) X (重み w2) + (フレーム 3の線形予測係数) X (重み w3) ただし、 w l +w2 + w3= l
なお、 重み w l、 w2、 w3については、 窓形状を考慮するだけではなく、 フレ —ム 1、 2、 3それぞれの線形予測係数の類似度等を考慮に入れても良い。 ま た、 算出する補間線形予測係数は 1つである必要はなく、 重ね合わせ波形を複 数の部分に分割し、 それぞれの部分の対して最適な補間線形予測係数を求めて も良い。 また、 線形予測係数を補間する処理においては、 各線形予測係数を補 間処理に適する L S Pパラメ一夕等に変換し、 変換した L S Pパラメ一夕等に 対して補間処理を行い、 算出後に線形予測係数に再変換することにより性能を 向上させる事が出来る。
(第 6の実施の形態)
第 6の実施の形態にかかる音声再生速度変換装置は、 音声符号化装置と組み 合わせて使用され、 音声符号化装置から出力される音声符号化情報を利用する ことにより、 演算量の削減を行っている。
図 8に、本実施の形態にかかる音声再生速度変換装置の機能プロックを示す。 この音声再生速度変換装置は、 第 5の実施の形態の記憶媒体 1およびフレー ミング部 2に替えて、 第 3の実施の形態で用いた、 音声信号をスペクトル情報 を表わす線形予測係数と、 ピッチ周期情報と、 予測残差を表わす音源情報とに 分離して符号化する音声符号化装置 (デコーダ 4 0 ) が配置されている。
デコーダ 4 0から出力されるフレーム単位の音源信号 4 1はバッファメモリ 3に入力し、線形予測係数 3 3は線形予測係数補間部 6 0に入力される。また、 ピッチ周期情報 4 2は波形切り出し部 4 3に入力され、 波形切り出し部 4 3が 切り出す波形の長さ T cの取る値の範囲が、 ピッチ周期情報 4 2に応じて切り 換えらる。 これにより、切り出す波形の長さ T cの値の範囲が制限されるため、 誤差算出に要する演算量を大幅に削減することができる。 ' このように本実施の形態によれば、 音声信号をスぺクトル情報を表わす線形 予測係数と、 ピッチ周期情報と、 予測残差を表わす音源情報とに分離して符号 化する音声符号化装置と、 本発明の音声再生速度変換装置とを組み合わせるこ とによって、 音声符号化装置から出力される情報を利用して、 音声符号化装置 が符号化した音声信号の再生速度変換を少ない演算量で実現することができる。 (第 7の実施の形態)
本発明の音声再生速度変換装置は、 その処理のアルゴリズムをプログラミン グ言語によって記述し、 ソフトウェアとして実現することができる。 プロダラ ムをフロッピディスク等の記憶媒体に記録しておき、 パーソナルコンピュータ 等の汎用信号処理装置に記憶媒体を接続して、 プログラムを実行させることに より、 本発明の音声符号化装置の機能を実現することができる。
本発明は、 上述した実施の形態に限定されるものではなく、 本発明の要旨を 逸脱しない範囲で変形実施可能である。 産業上の利用可能性
以上のように、 本発明にかかる音声再生速度変換装置は、 記録媒体に記録さ れた音声信号を音声のピッチ (音程) を変化させずに任意の速度で再生するの に有用であり、 出力音声の品質の向上を図るのに適している。

Claims

請 求 の 範 囲
1 . 入力音声信号の音声波形内から隣接していて長さが等しく波形間誤差が 最も小さい 2つの音声波形を選択する波形選択手段と、 前記波形選択手段で選 択された 2つの音声波形を重ね合わせる波形重合手段と、 重ね合わされた音声 波形を前記入力音声の音声波形の一部と置き換え又は挿入して速度変換された 出力音声波形を生成する波形合成手段と、 を具備する音声再生速度変換装置。
2 . 請求項 1記載の音声再生速度変換装置において、
前記波形選択手段は、
前記入力音声信号の音声波形デ一夕が格納されたバッファメモリから隣接 し且つ長さの等しい 2つの音声波形を音声波形の長さを各組毎に異ならせて複 数組切り出す切出し手段と、 前記バッファメモリから切り出された音声波形の 各組から波形間誤差が最も小さい音声波形の組を検出する手段と、 を有する音 声再生速度変換装置。
3 . 請求項 1記載の音声再生速度変換装置において、
前記波形選択手段は、
前記入力音声信号の音声波形データとしてピッチ波形が顕著に現われる予 測残差信号の波形データを用いることを特徴とする音声再生速度変換装置。
4 . 請求項 3記載の音声再生速度変換装置において、
前記入力音声信号のスぺクトル情報を表わす線形予測係数を算出する線形予 測分析手段と、 算出された線形予測係数を利用して前記入力音声信号から前記 予測残差信号を算出する逆フィル夕と、 前記線形予測係数を利用して前記波形 合成手段から出力される合成残差信号から音声信号を合成する合成フィル夕と を具備する音声再生速度変換装置。
5 . 請求項 4記載の音声再生速度変換装置において、
前記線形予測分析手段の算出した前記線形予測係数を前記合成残差信号に 対して最適になるように補間する線形予測係数補間手段を備え、
前記合成フィル夕は、 補間された線形予測係数を利用して出力音声信号を 合成することを特徴とする音声再生速度変換装置。
6 . 請求項 1記載の音声再生速度変換装置において、
音声信号を、 スペクトル情報を表わす線形予測係数、 ピッチ周期情報、 及 び予測残差を表わす音源情報に分離して符号化する音声符号化装置の出力情報 を利用して速度変換処理を行うことを特徴とする音声再生速度変換装置。
7 . 請求項 6記載の音声再生速度変換装置において、
前記波形選択手段は、
前記音源情報が格納されたバッファメモリから隣接し且つ長さの等しい 2 つの音声波形を音声波形の長さを各組毎に異ならせて複数組切り出す一方、 前 記ピッチ周期情報を基に切り出す音声波形の長さの範囲を設定する切出し手段 と、 前記バッファメモリから切り出された音声波形の各組から波形間誤差が最 も小さい音声波形の組を検出する手段と、 を有する音声再生速度変換装置。
8 . 請求項 7記載の音声再生速度変換装置において、
前記波形合成手段から出力される合成残差信号が入力され、 前記線形予測 係数を利用して前記合成残差信号から音声信号を合成する合成フィル夕を備え た音声再生速度変換装置。
9 . 請求項 8記載の音声再生速度変換装置において、
前記音声符号化装置の出力情報に含まれた前記線形予測係数を前記合成残 差信号に対して最適になるように補間する線形予測係数補間手段を備え、 前記合成フィルタは、 補間された線形予測係数を利用して出力音声信号を 合成することを特徴とする音声再生速度変換装置。
1 0 . 請求項 6記載の音声再生速度変換装置において、
前記音声符号化装置の出力情報に含まれている音源情報から前記出力情報 に含まれている線形予測係数を利用して合成音声信号を合成する合成フィル夕 を備え、 前記合成音声信号を前記波形選択手段に供給することを特徴とする音 声再生速度変換装置。
1 1 . 請求項 1 0記載の音声再生速度変換装置において、
前記波形選択手段は、
前記合成音声信号の波形データが格納されたバッファメモリから隣接し且 つ長さの等しい 2つの音声波形を音声波形の長さを各組毎に異ならせて複数組 切り出す一方、 前記ピッチ周期情報を基に切り出す音声波形の長さの範囲を設 定する切出し手段と、 前記バッファメモリから切り出された音声波形の各組か ら波形間誤差が最も小さい音声波形の組を検出する手段と、 を有する音声再生 速度変換装置。
1 2 . 入力音声信号の音声波形内から隣接していて長さが等しく波形間誤差 が最も小さい 2つの音声波形を選択するステツプと、 選択された 2つの音声波 形を重ね合わせるステップと、 重ね合わされた音声波形を前記入力音声の音声 波形の一部と置き換え又は挿入して速度変換された出力音声波形を生成するス テツプと、 を具備する音声再生速度変換方法。
1 3 . 請求項 1 2記載の音声再生速度変換方法において、
前記入力音声信号の音声波形データが格納されたバッファメモリから隣接 し且つ長さの等しい 2つの音声波形を音声波形の長さを各組毎に異ならせて複 数組切り出すステップと、 前記バッファメモリから切り出された音声波形の各 組から波形間誤差が最も小さい音声波形の組を検出するステップと、 を有する 音声再生速度変換方法。
1 4 . コンピュータによる読み取りの可能な媒体と、 入力音声信号の音声波 形内からコンピュータ ·プロセッサに隣接していて長さが等しく波形間誤差が 最も小さい 2つの音声波形を選択させる第 1のプログラム命令手段と、 選択さ れた 2つの音声波形を重ね合わせる処理をコンピュータ ·プロセッサに実行さ せる第 2のプログラム命令手段とを具備し、
各プログラム命令手段が実行可能な形式で前記媒体に記憶されていて、 関 連したプロセッサによる実行の際にコンピュータ ·メモリにロードされてコン ピュー夕を動かすコンピュータ ·プログラム製品。
1 5 . 請求項 1 4記載のコンピュータ ·プログラム製品において、
前記第 1のプログラム命令手段は、
前記入力音声信号の音声波形デ一夕が格納されたバッファメモリから隣接 し且つ長さの等しい 2つの音声波形をコンピュータ ·プロセッサに音声波形の 長さを各組毎に異ならせて複数組切り出させる第 3のプログラム命令手段と、 前記バッファメモリから切り出された音声波形の各組から波形間誤差が最も小 さい音声波形の組をコンピュータ ·プロセッサに検出させる第 4のプログラム 命令手段とを具備するコンピュータ ·プログラム製品。
PCT/JP1997/004077 1996-11-11 1997-11-10 Convertisseur de rapidite de reproduction de sons WO1998021710A1 (fr)

Priority Applications (7)

Application Number Priority Date Filing Date Title
CA002242610A CA2242610C (en) 1996-11-11 1997-11-10 Sound reproducing speed converter
AU48863/97A AU4886397A (en) 1996-11-11 1997-11-10 Sound reproducing speed converter
JP52238098A JP3891309B2 (ja) 1996-11-11 1997-11-10 音声再生速度変換装置
US09/091,823 US6115687A (en) 1996-11-11 1997-11-10 Sound reproducing speed converter
EP97911495A EP0883106B1 (en) 1996-11-11 1997-11-10 Sound reproducing speed converter
DE69736279T DE69736279T2 (de) 1996-11-11 1997-11-10 Tonwiedergabe-geschwindigkeitsumwandler
KR1019980705288A KR100327969B1 (ko) 1996-11-11 1997-11-10 음성재생속도변환장치및음성재생속도변환방법

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
JP8/312593 1996-11-11
JP31259396 1996-11-11

Publications (1)

Publication Number Publication Date
WO1998021710A1 true WO1998021710A1 (fr) 1998-05-22

Family

ID=18031074

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/JP1997/004077 WO1998021710A1 (fr) 1996-11-11 1997-11-10 Convertisseur de rapidite de reproduction de sons

Country Status (10)

Country Link
US (1) US6115687A (ja)
EP (1) EP0883106B1 (ja)
JP (1) JP3891309B2 (ja)
KR (1) KR100327969B1 (ja)
CN (1) CN1163868C (ja)
AU (1) AU4886397A (ja)
CA (1) CA2242610C (ja)
DE (1) DE69736279T2 (ja)
ES (1) ES2267135T3 (ja)
WO (1) WO1998021710A1 (ja)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2006137425A1 (ja) 2005-06-23 2006-12-28 Matsushita Electric Industrial Co., Ltd. オーディオ符号化装置、オーディオ復号化装置およびオーディオ符号化情報伝送装置
KR100750115B1 (ko) * 2004-10-26 2007-08-21 삼성전자주식회사 오디오 신호 부호화 및 복호화 방법 및 그 장치
US8165888B2 (en) 2007-03-16 2012-04-24 The University Of Electro-Communications Reproducing apparatus

Families Citing this family (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP1085504B1 (en) 1996-11-07 2002-05-29 Matsushita Electric Industrial Co., Ltd. CELP-Codec
JP4505899B2 (ja) * 1999-10-26 2010-07-21 ソニー株式会社 再生速度変換装置及び方法
JP3630609B2 (ja) * 2000-03-29 2005-03-16 パイオニア株式会社 音声情報再生方法ならびに装置
AU2001242520A1 (en) 2000-04-06 2001-10-23 Telefonaktiebolaget Lm Ericsson (Publ) Speech rate conversion
DE60025158T2 (de) * 2000-04-06 2006-07-06 Telefonaktiebolaget Lm Ericsson (Publ) Verfahren zur Geschwindigkeitsmodifikation von Sprachsignalen, Verwendung des Verfahrens, und Anordnung zur Durchführung des Verfahrens
JP2005520206A (ja) * 2002-03-12 2005-07-07 ディリチウム ネットワークス ピーティーワイ リミテッド オーディオ・トランスコーダにおける適応コードブック・ピッチ・ラグ計算方法
JP3871657B2 (ja) * 2003-05-27 2007-01-24 株式会社東芝 話速変換装置、方法、及びそのプログラム
ES2642091T3 (es) * 2007-03-02 2017-11-15 Iii Holdings 12, Llc Dispositivo de codificación de audio y dispositivo de decodificación de audio
CN102117613B (zh) * 2009-12-31 2012-12-12 展讯通信(上海)有限公司 数字音频变速处理方法及其设备
CN111583903B (zh) * 2020-04-28 2021-11-05 北京字节跳动网络技术有限公司 语音合成方法、声码器训练方法、装置、介质及电子设备

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH01267700A (ja) * 1988-04-20 1989-10-25 Nec Corp 音声処理装置
JPH07319496A (ja) * 1994-04-14 1995-12-08 At & T Corp 入力音声信号の速度を変更する方法
JPH0822300A (ja) * 1994-07-11 1996-01-23 Olympus Optical Co Ltd 音声復号化装置
JPH08137491A (ja) * 1994-11-14 1996-05-31 Matsushita Electric Ind Co Ltd 再生速度変換装置
JPH08202397A (ja) * 1995-01-30 1996-08-09 Olympus Optical Co Ltd 音声復号化装置
JPH09152889A (ja) * 1995-11-29 1997-06-10 Sanyo Electric Co Ltd 話速変換装置

Family Cites Families (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS5681900A (en) * 1979-12-10 1981-07-04 Nippon Electric Co Voice synthesizer
JPH0754440B2 (ja) * 1986-06-09 1995-06-07 日本電気株式会社 音声分析合成装置
JP3278863B2 (ja) * 1991-06-05 2002-04-30 株式会社日立製作所 音声合成装置
US5765127A (en) * 1992-03-18 1998-06-09 Sony Corp High efficiency encoding method
EP0608833B1 (en) * 1993-01-25 2001-10-17 Matsushita Electric Industrial Co., Ltd. Method of and apparatus for performing time-scale modification of speech signals
JP2957861B2 (ja) * 1993-09-09 1999-10-06 三洋電機株式会社 音声時間軸圧縮伸長装置
JP3528258B2 (ja) * 1994-08-23 2004-05-17 ソニー株式会社 符号化音声信号の復号化方法及び装置
US5991725A (en) * 1995-03-07 1999-11-23 Advanced Micro Devices, Inc. System and method for enhanced speech quality in voice storage and retrieval systems
JP3242331B2 (ja) * 1996-09-20 2001-12-25 松下電器産業株式会社 Vcv波形接続音声のピッチ変換方法及び音声合成装置
JP3619946B2 (ja) * 1997-03-19 2005-02-16 富士通株式会社 話速変換装置、話速変換方法及び記録媒体
JP3317181B2 (ja) * 1997-03-25 2002-08-26 ヤマハ株式会社 カラオケ装置

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH01267700A (ja) * 1988-04-20 1989-10-25 Nec Corp 音声処理装置
JPH07319496A (ja) * 1994-04-14 1995-12-08 At & T Corp 入力音声信号の速度を変更する方法
JPH0822300A (ja) * 1994-07-11 1996-01-23 Olympus Optical Co Ltd 音声復号化装置
JPH08137491A (ja) * 1994-11-14 1996-05-31 Matsushita Electric Ind Co Ltd 再生速度変換装置
JPH08202397A (ja) * 1995-01-30 1996-08-09 Olympus Optical Co Ltd 音声復号化装置
JPH09152889A (ja) * 1995-11-29 1997-06-10 Sanyo Electric Co Ltd 話速変換装置

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
See also references of EP0883106A4 *

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR100750115B1 (ko) * 2004-10-26 2007-08-21 삼성전자주식회사 오디오 신호 부호화 및 복호화 방법 및 그 장치
WO2006137425A1 (ja) 2005-06-23 2006-12-28 Matsushita Electric Industrial Co., Ltd. オーディオ符号化装置、オーディオ復号化装置およびオーディオ符号化情報伝送装置
US7974837B2 (en) 2005-06-23 2011-07-05 Panasonic Corporation Audio encoding apparatus, audio decoding apparatus, and audio encoded information transmitting apparatus
US8165888B2 (en) 2007-03-16 2012-04-24 The University Of Electro-Communications Reproducing apparatus

Also Published As

Publication number Publication date
CN1208490A (zh) 1999-02-17
EP0883106A4 (en) 2000-02-23
EP0883106B1 (en) 2006-07-05
DE69736279T2 (de) 2006-12-07
CA2242610A1 (en) 1998-05-22
US6115687A (en) 2000-09-05
KR100327969B1 (ko) 2002-04-17
CA2242610C (en) 2003-01-28
AU4886397A (en) 1998-06-03
JP3891309B2 (ja) 2007-03-14
KR19990077151A (ko) 1999-10-25
DE69736279D1 (de) 2006-08-17
CN1163868C (zh) 2004-08-25
EP0883106A1 (en) 1998-12-09
ES2267135T3 (es) 2007-03-01

Similar Documents

Publication Publication Date Title
JP4132109B2 (ja) 音声信号の再生方法及び装置、並びに音声復号化方法及び装置、並びに音声合成方法及び装置
US5682502A (en) Syllable-beat-point synchronized rule-based speech synthesis from coded utterance-speed-independent phoneme combination parameters
JP2782147B2 (ja) 波形編集型音声合成装置
WO2003010752A1 (en) Speech bandwidth extension apparatus and speech bandwidth extension method
JPS5936275B2 (ja) 残留励起予測音声符号化方式
US7135636B2 (en) Singing voice synthesizing apparatus, singing voice synthesizing method and program for singing voice synthesizing
WO1998021710A1 (fr) Convertisseur de rapidite de reproduction de sons
JP2001255882A (ja) 音声信号処理装置及びその信号処理方法
JP3618217B2 (ja) 音声のピッチ符号化方法及び音声のピッチ符号化装置並びに音声のピッチ符号化プログラムが記録された記録媒体
JP2600384B2 (ja) 音声合成方法
JP3559485B2 (ja) 音声信号の後処理方法および装置並びにプログラムを記録した記録媒体
JP4438280B2 (ja) トランスコーダ及び符号変換方法
JPS642960B2 (ja)
JP4470122B2 (ja) 音声符号化装置、音声復号化装置、音声符号化プログラムおよび音声復号化プログラム
JP3088204B2 (ja) コード励振線形予測符号化装置及び復号化装置
JPH11311997A (ja) 音声再生速度変換装置及びその方法
JP2007226174A (ja) 歌唱合成装置、歌唱合成方法及び歌唱合成用プログラム
JPH05165500A (ja) 音声符号化方法
JP4826580B2 (ja) 音声信号の再生方法及び装置
JP2709198B2 (ja) 音声合成方法
JP2000099094A (ja) 時系列信号処理装置
JP3092519B2 (ja) コード駆動線形予測音声符号化方式
JP3515216B2 (ja) 音声符号化装置
JP3576794B2 (ja) 音声符号化/復号化方法
JP3561654B2 (ja) 音声合成方法

Legal Events

Date Code Title Description
WWE Wipo information: entry into national phase

Ref document number: 97191663.2

Country of ref document: CN

AK Designated states

Kind code of ref document: A1

Designated state(s): AL AM AT AU AZ BA BB BG BR BY CA CH CN CU CZ DE DK EE ES FI GB GE GH HU IL IS JP KE KG KR KZ LC LK LR LS LT LU LV MD MG MK MN MW MX NO NZ PL PT RO RU SD SE SG SI SK SL TJ TM TR TT UA UG US UZ VN YU ZW AM AZ BY KG KZ MD RU TJ TM

AL Designated countries for regional patents

Kind code of ref document: A1

Designated state(s): GH KE LS MW SD SZ UG ZW AT BE CH DE DK ES FI FR GB GR IE IT LU MC NL PT

WWE Wipo information: entry into national phase

Ref document number: 09091823

Country of ref document: US

ENP Entry into the national phase

Ref document number: 2242610

Country of ref document: CA

Ref document number: 2242610

Country of ref document: CA

Kind code of ref document: A

WWE Wipo information: entry into national phase

Ref document number: 1997911495

Country of ref document: EP

Ref document number: 1019980705288

Country of ref document: KR

121 Ep: the epo has been informed by wipo that ep was designated in this application
WWP Wipo information: published in national office

Ref document number: 1997911495

Country of ref document: EP

REG Reference to national code

Ref country code: DE

Ref legal event code: 8642

WWP Wipo information: published in national office

Ref document number: 1019980705288

Country of ref document: KR

WWR Wipo information: refused in national office

Ref document number: 1019980705288

Country of ref document: KR

WWG Wipo information: grant in national office

Ref document number: 1997911495

Country of ref document: EP