WO2006046761A1 - ピッチ変換装置 - Google Patents

ピッチ変換装置 Download PDF

Info

Publication number
WO2006046761A1
WO2006046761A1 PCT/JP2005/020156 JP2005020156W WO2006046761A1 WO 2006046761 A1 WO2006046761 A1 WO 2006046761A1 JP 2005020156 W JP2005020156 W JP 2005020156W WO 2006046761 A1 WO2006046761 A1 WO 2006046761A1
Authority
WO
WIPO (PCT)
Prior art keywords
frequency
amplitude spectrum
pitch
pitch conversion
spectrum
Prior art date
Application number
PCT/JP2005/020156
Other languages
English (en)
French (fr)
Inventor
Takuya Fujishima
Jordi Bonada
Original Assignee
Yamaha Corporation
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Yamaha Corporation filed Critical Yamaha Corporation
Priority to JP2006542410A priority Critical patent/JP4840141B2/ja
Priority to AT05800146T priority patent/ATE515021T1/de
Priority to EP05800146A priority patent/EP1806740B1/en
Publication of WO2006046761A1 publication Critical patent/WO2006046761A1/ja
Priority to US11/796,009 priority patent/US7490035B2/en

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10HELECTROPHONIC MUSICAL INSTRUMENTS; INSTRUMENTS IN WHICH THE TONES ARE GENERATED BY ELECTROMECHANICAL MEANS OR ELECTRONIC GENERATORS, OR IN WHICH THE TONES ARE SYNTHESISED FROM A DATA STORE
    • G10H7/00Instruments in which the tones are synthesised from a data store, e.g. computer organs
    • G10H7/002Instruments in which the tones are synthesised from a data store, e.g. computer organs using a common processing for different operations or calculations, and a set of microinstructions (programme) to control the sequence thereof
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/003Changing voice quality, e.g. pitch or formants
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/04Time compression or expansion
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10HELECTROPHONIC MUSICAL INSTRUMENTS; INSTRUMENTS IN WHICH THE TONES ARE GENERATED BY ELECTROMECHANICAL MEANS OR ELECTRONIC GENERATORS, OR IN WHICH THE TONES ARE SYNTHESISED FROM A DATA STORE
    • G10H2210/00Aspects or methods of musical processing having intrinsic musical character, i.e. involving musical theory or musical parameters or relying on musical knowledge, as applied in electrophonic musical tools or instruments
    • G10H2210/325Musical pitch modification
    • G10H2210/331Note pitch correction, i.e. modifying a note pitch or replacing it by the closest one in a given scale
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10HELECTROPHONIC MUSICAL INSTRUMENTS; INSTRUMENTS IN WHICH THE TONES ARE GENERATED BY ELECTROMECHANICAL MEANS OR ELECTRONIC GENERATORS, OR IN WHICH THE TONES ARE SYNTHESISED FROM A DATA STORE
    • G10H2250/00Aspects of algorithms or signal processing methods without intrinsic musical character, yet specifically adapted for or used in electrophonic musical processing
    • G10H2250/131Mathematical functions for musical analysis, processing, synthesis or composition
    • G10H2250/215Transforms, i.e. mathematical transforms into domains appropriate for musical signal processing, coding or compression
    • G10H2250/235Fourier transform; Discrete Fourier Transform [DFT]; Fast Fourier Transform [FFT]
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10HELECTROPHONIC MUSICAL INSTRUMENTS; INSTRUMENTS IN WHICH THE TONES ARE GENERATED BY ELECTROMECHANICAL MEANS OR ELECTRONIC GENERATORS, OR IN WHICH THE TONES ARE SYNTHESISED FROM A DATA STORE
    • G10H2250/00Aspects of algorithms or signal processing methods without intrinsic musical character, yet specifically adapted for or used in electrophonic musical processing
    • G10H2250/541Details of musical waveform synthesis, i.e. audio waveshape processing from individual wavetable samples, independently of their origin or of the sound they represent
    • G10H2250/621Waveform interpolation
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/003Changing voice quality, e.g. pitch or formants
    • G10L21/007Changing voice quality, e.g. pitch or formants characterised by the process used
    • G10L21/013Adapting to target pitch

Definitions

  • the present invention relates to a pitch conversion device that converts the pitch of sound data.
  • one of the objects of the present invention is to substantially compress or expand the amplitude spectrum with a non-uniform conversion ratio, while maintaining the characteristics of the input sound (original sound). It is to provide a pitch conversion device that can avoid the generation of a sound that generates unnatural sound.
  • the pitch changing device can input the sound data of the time domain expression to the frequency domain expression.
  • ⁇ ⁇ ⁇ pitch conversion means for converting the pitch of the sound data converted to the pd frequency domain representation to generate the sound data after the pitch conversion
  • And output means for outputting the sound converted into the time domain representation.
  • the pitch conversion means includes:
  • amplitude spectrum that represents the characteristics of the sound data as a selected amplitude spectrum.
  • select an amplitude spectrum that represents the characteristics of the sound data as a selected amplitude spectrum.
  • the selected frequency region which is the predetermined frequency region that includes the selected frequency that is the frequency for the same selected amplitude spectrum, It is configured to compress or expand the spectrum on the frequency axis.
  • the pitch conversion of the sound pattern is performed while maintaining the shape of the amplitude spectrum distribution AMI of the selected frequency area A 1 that appropriately represents the characteristics of the input sound (original sound).
  • the characteristics are maintained even after the pitch conversion.
  • the amplitude spectrum in the region other than the selected frequency region A 1 is reflected in the amplitude spectrum after pitch conversion without being truncated. Therefore, it can be avoided that the sound data after the pitch conversion includes a sound phenomenon that causes an unnatural occurrence.
  • the appearance of the pitch converter according to the present invention is as follows.
  • a time-frequency conversion means for converting the sound data of the input time-domain representation into sound data into the frequency-domain representation
  • a pitch conversion means for generating the sound data after the pitch conversion by compressing or expanding the amplitude vector of the audio data on the frequency axis;
  • a frequency time conversion means for converting the sound data after the pitch conversion from a frequency domain representation to a time domain representation
  • the pitch conversion means includes
  • Select at least one amplitude spectrum that represents the characteristics of the same sound data based on the amplitude spectrum of the data as the selected amplitude spectrum.
  • Each pitch spectrum in the selected frequency range which is the predetermined frequency range where the selected frequency is selected, is calculated by subtracting the B selected frequency from the frequency corresponding to each amplitude spectrum, with the same pitch conversion ratio k.
  • Each amplitude spectrum in the selected frequency region is set to a frequency amplitude spectrum obtained by adding a value multiplied by a local conversion ratio m close to 1 to the selected frequency after the pitch conversion. Compress or expand the spectrum on the frequency axis
  • Each amplitude spectrum outside the selected frequency range is multiplied by “Frequency for each amplitude spectrum” multiplied by “Other hitch conversion ratio according to each amplitude spectrum”.
  • Each amplitude spectrum other than the selected frequency region is configured to be compressed or expanded on the frequency axis so as to be an amplitude spectrum for the obtained frequency.
  • the selected amplitude spectrum P that appropriately represents the characteristics of the input sound
  • a selected frequency region A that is a frequency region including the selected frequency f 1
  • the spectrum distribution AM 1 in the selected frequency domain A 1 representing the characteristics of the input sound is transferred to the data after the pitch conversion while maintaining the distribution shape, so the characteristics of the input sound are maintained after the pitch conversion.
  • each amplitude spectrum other than m selected frequency region A 1 is
  • the amplitude spectrum other than the selected frequency region A 1 is not truncated, but is reflected in the amplitude spectrum after pitch conversion, so the sound data after pitch conversion is unnatural. It will generate a strange sound
  • Other aspects of the pitch conversion device according to the present invention which can avoid the presence of a roaring evening, are similar to the pitch conversion device described above in that the time frequency conversion means, the pitch conversion means, and the frequency time change Conversion means and output means.
  • the frequency for the first and second peak spectrums P 1 and P 1, which are at least two peak spectra in the amplitude spectrum of the day and night The second pixel spectrum P 2 having the second frequency f 2 higher than the first frequency f 1 is selected.
  • the first frequency domain A which is the frequency domain including the first frequency f 1
  • the second pixel level P 2 is set to the second frequency ⁇ 2.
  • each amplitude spectrum in the second frequency domain A2 which is the frequency domain including the second frequency f2, is the value obtained by subtracting the second frequency f2 from the frequency fn for each amplitude spectrum.
  • the spectrum distribution AMI near the first peak spectrum P 1 and the spectrum distribution near the second peak spectrum P 2 that represent the characteristics of the input sound in the pitch-converted signal AM 2 is a pin while maintaining each distribution shape. Since the data is transferred to the post-conversion data, the characteristics of the input sound are maintained even after the pitch conversion.
  • each amplitude spectrum in the intermediate frequency region A 3 between the first frequency region A 1 and the second frequency region A 2 is equal to the frequency fn for each amplitude spectrum. It is compressed or expanded on the frequency axis so that it becomes an amplitude spectrum for the frequency obtained by multiplying the pitch conversion ratio according to the spectrum.
  • the amplitude spectrum in the intermediate frequency region A 3 is reflected in the amplitude spectrum after pitch conversion without being truncated. Therefore, it is possible to avoid the inclusion of sound data that may generate unnatural sound in the sound after the pitch conversion.
  • the pitch converting means is
  • the function T f (X) may be a straight line or a curve.
  • the pitch conversion means includes
  • each amplitude spectrum in the intermediate frequency range is compressed or expanded on the frequency axis, each amplitude spectrum is smaller than the same amplitude spectrum. It is preferable to configure to compress or expand after setting the threshold value.
  • the pitch conversion means may be configured such that the amplitude spectrum for a region where the frequency after BUB compression or expansion has become a frequency equal to or higher than a predetermined high side threshold value.
  • the amplitude spectrum for the region where the frequency after compression or expansion has become a frequency below a predetermined low threshold may be configured. It may be made substantially zero.
  • FIG. 1 is a block diagram showing a configuration of a pitch conversion apparatus according to an embodiment of the present invention.
  • FIG. 2 is a graph for explaining the outline of the pitch conversion method by the pitch conversion apparatus shown in FIG.
  • Fig. 3 is a graph for explaining the outline of the pitch conversion method by the pitch conversion apparatus shown in Fig. 1.
  • FIG. 4 is a graph for explaining a specific example of the pitch conversion method by the pitch conversion apparatus shown in FIG.
  • FIG. 5 is a graph for explaining a specific example of the pitch conversion method by the pitch conversion apparatus shown in FIG.
  • FIG. 6 is a graph for explaining a variation of the pitch conversion method by the pitch conversion apparatus shown in FIG. .
  • FIG. 7 is a graph for explaining another modification of the pitch conversion method by the pitch conversion apparatus shown in FIG. BEST MODE FOR CARRYING OUT THE INVENTION
  • this pitch conversion device 10 includes an input unit 11, a time-frequency conversion unit 12, a pitch conversion processing unit 13, a frequency-time conversion unit 14, an output unit 15, and A control unit 1 6 is provided.
  • the function of each unit is achieved by executing a predetermined program by the CPU (not shown) of the pitch conversion device 10 configured as a computer that actually includes the control unit 16.
  • the input unit 1 1 includes an AZD converter that converts an input analog signal into a digital signal and then outputs it, and converts the input analog sound signal into a digital signal (data) S 1. It has become like this.
  • the data obtained in this way is sound data expressed in the time domain (sound data expressed in the time domain) S 1.
  • the signal input to the input unit 11 may be input to the input unit 11 via a microphone, or may be directly input from another device.
  • the input unit 1 1 converts the input digital signal into a digital signal suitable for the pitch conversion device 1 0.
  • the time-to-frequency converter 1 2 is connected to the input unit 1 1 and receives the sound data S 1 from the input unit 1 1.
  • the time-to-frequency converter 1 2 converts the sound data S 1 from a time domain representation to a frequency domain representation.
  • the time-frequency converter 1 2 divides the input sound data S 1 expressed in the time domain into a series of time frames, and performs frequency analysis by FFT (Fast Fourier Transform) etc. for each frame. To obtain a frequency spectrum (amplitude spectrum and phase spectrum). This frequency spectrum is data expressed in the frequency domain (sound data in the frequency domain expression) S 2.
  • the pitch conversion processing unit 1 3 is connected to the time-to-frequency conversion unit 1 2, and the time-to-frequency conversion is performed. Data S 2 from part 1 2 is received.
  • the pitch conversion processing unit 13 performs a pitch conversion process, which will be described in detail later, on the data S 2 to generate data S 3 after the pitch conversion.
  • Data S 3 is frequency domain frame data (amplitude spectrum data and phase spectrum data).
  • the pitch conversion processing unit 1 3 is based on a signal input from a setting device (not shown). Therefore, parameters necessary for pitch conversion processing such as the knee conversion ratio (k) described later can be changed.
  • the frequency time conversion unit 14 is connected to the pitch renewal processing unit 1 3, and receives the data S 3 of the pict transformation processing unit 1 3 force ⁇ etc.
  • Frequency one time conversion unit 1 4 performs inverse FFT processing on S3 and converts S3, which is expressed in the frequency domain, into data S4, which is expressed in the time domain, and the converted data S4 Will output
  • the output unit 15 includes a D / A 3 converter, and is connected to the frequency / time conversion unit 14.
  • the output unit 15 includes data S input from the frequency temporary conversion unit 14. 4 is output as a DA conversion signal and converted analog signal at the specified evening.
  • the output unit 15 outputs the converted analog signal as an electrical signal. It may be output to the outside, Ding-Evening S 4 may be output as it is, or it may be output to other storage means.
  • the control unit 16 performs processing of each of the above-described parts in a well-known input / output including CPU, ROM, and R A ⁇ .
  • Instructions for each processing such as AD conversion and DA conversion are output to the devices such as the D comparator and the output unit 15 at the D Z A converter.
  • Fig. 2 (A) is a graph showing the amplitude spectrum (amplitude spectrum included in the above-mentioned data S2) before pitch conversion of a frame.
  • amplitude spectrum included in the above-mentioned data S2
  • Local peaks of other amplitude spectra (second Peak spec.) P 2 exists First, pitch conversion processing section
  • 1 3 detects the local peak of, based on the data S 2. Local peaks are detected by a method that detects the peak with the maximum amplitude value for multiple neighboring peaks.
  • the amplitude spectrum that represents the characteristics of the same sound data based on the amplitude spectrum of the sound data converted into the frequency domain representation is selected as the selected amplitude spectrum (first peak spectrum).
  • a small ⁇ 1 (in this case) was selected as the ⁇ 1 and the second peak spectrum P2)
  • the pitch conversion processing unit 13 has a predetermined frequency region (spectrum component) including the frequency (this -3 ⁇ 4 m mouth, the first frequency f 1 and the second frequency f 2) for each detected local peak. Specify (specify) the area.
  • the pitch conversion processing unit 13 specifies a predetermined frequency region including the first frequency f 1 for the first peak spectrum P 1 as the first frequency region A 1.
  • the identification of the frequency domain as described above can be performed by various methods.
  • the pitch conversion processing unit 1 3 uses a frequency ⁇ f obtained by multiplying half of the difference between the first frequency: f 1 and the second frequency f 2 by a positive value less than ⁇ 1 J as the first frequency f 1.
  • the amplitude spectrum for each frequency in the first frequency domain A 1 has an amplitude spectrum distribution AM 1.
  • the pitch conversion processing unit 13 specifies a predetermined frequency region including the second frequency f 2 for the second peak spectrum P 2 as the second frequency region A 2.
  • the amplitude spectrum for each frequency in the second frequency region A 2 has an amplitude spectrum distribution ⁇ 2.
  • each amplitude spectrum in the selected frequency region (first frequency region A 1 or second frequency region A 2), which is a frequency region including the selected frequency (first frequency f 1 or second frequency f 2), is obtained. It is determined.
  • the pitch conversion processing unit 1 3 receives the amplitude spectrum as follows: The pitch is converted by compressing or expanding the signal on the frequency axis. In the examples in Figs. 2 and 3, the amplitude spectrum is expanded on the frequency axis. That is, the pitch conversion ratio k is larger than “1”.
  • the pitch conversion processing unit 1 3 has the first peak spectrum P 1
  • the first peak to be the amplitude spectrum for the first frequency f1 0 (kf1) after pitch conversion, which is the frequency obtained by multiplying the frequency f1 by the predetermined pitch conversion ratio k
  • the size of the first peak spectrum P 1 0 is equal to the size of the first peak spectrum P 1
  • the pitch conversion processing unit 1 3 is configured such that each amplitude spectrum P n in the first frequency region A 1 is 1 port J frequency from the frequency f n for each amplitude spectrum P n.
  • the frequency obtained by multiplying the value obtained by multiplying the local conversion ratio m close to 1 (m Example of compressing or expanding each amplitude spectrum in the first frequency domain A 1 on the frequency axis so that the amplitude spectrum of (fn 1 f 1) + k ⁇ f 1)
  • the value of the local transformation ratio m is
  • M 1 does not change the shape (distribution state), only the pitch is converted.
  • the pinna conversion processing unit 1 3 is the second pixel P
  • the size of P 20 is equal to the size of the second pixel P 2.
  • the amplitude spectrum distribution AM 2 in the second frequency domain A 2 is converted only in pitch without changing the shape (distribution state), and the amplitude spectrum distribution in the second frequency domain A 2 0 after pitch conversion.
  • the pitch conversion processing unit 13 further performs pitch conversion on the amplitude spectrum of the intermediate frequency region A 3 between the first frequency region A 1 and the second frequency region A 2. This pitch conversion will be described with particular reference to Fig. 3.
  • Figure 3 is a graph with the horizontal axis X-axis frequency f a before pitch conversion and the vertical Y-axis frequency f b after pitch conversion.
  • the point on the conversion function T f (X) of the first frequency f l is point Q 1
  • the point on the conversion function T f (X) of the second frequency f 2 is point Q 2.
  • the point on the transformation function T f (x) of the maximum frequency fl max in the first frequency domain A 1 be the point Q 1 U
  • the transformation function T of the minimum frequency f 2 inin in the second frequency domain A 2 Let the point on f (X) be the point Q2L.
  • the amplitude spectrum for the frequency f a of the pitch is pitch-transformed so that the amplitude spectrum of T f (f a) is obtained.
  • the slope of the straight line connecting the point (fa, Tf (fa)) satisfying Eq. (3) and the origin o is the pitch conversion ratio Pfa for the amplitude spectrum of the frequency fa. That is, the pitch conversion ratio P fa for the intermediate frequency region A is different for each amplitude spectrum. Determined according to the frequency of the spectrum
  • pitch conversion ratio k is the slope when the point Q 1 and the point Q 2 are connected by a straight line, or satisfies the relationship expressed by the following equation (4) with the local conversion ratio m:
  • the hitch conversion processing unit 13 instead of compressing (k ⁇ 1) or expanding (k> 1) each pitch-changed pitch on the frequency axis with the pitch conversion ratio k, instead of the peak spectrum, In.pitIn the vicinity of Le P 1 and Lex spectrum P 2
  • the data (the sound data of the first frequency region A 1 and the sound data of the second frequency region A 2) is not qualitatively compressed or stretched. To perform compression or expansion so that only the pitch is converted by the amount of pitch ratio k Pitch processing section
  • 1 3 is the conversion ratio of the sound data in the intermediate frequency region A 3 that is different from the picture conversion ratio, and each amplitude spectrum (each width spectrum wave number.
  • the pitch conversion processing unit 13 performs pitch conversion by compressing or expanding the amplitude spectrum non-linearly with respect to the frequency, so that the input sound (original,
  • the sound to be input is a sound that maintains the characteristics of the input sound.
  • the amplitude spectrum in the intermediate frequency range A3 is not truncated and is reflected in the amplitude spectrum after the pitch conversion. The Therefore, the sound produced based on the sound after the pitch conversion is uncomfortable. The sound becomes less.
  • transformation function T f (X) for the intermediate frequency region A 3 can be various functions.
  • the transformation function T f (X) is represented by the dashed curve T 2 f (X) in Fig. 3. As indicated by point Q 1 U to point
  • the function is such that the slope gradually changes from the local conversion ratio m toward Q 2 L (increases when k> 1 and decreases when k ⁇ l) and then approaches the local conversion ratio m again.
  • transformation function T f (X) for the first frequency domain A 1 and the second frequency domain A 2 is subjected to pitch transformation in each frequency domain while maintaining the spectrum for each frequency domain.
  • the local conversion ratio m does not necessarily have to be constant, and the conversion function T f (X) may be an n-order equation or an arbitrarily defined function.
  • the pitch conversion processing unit 13 naturally corrects the phase spectrum according to the pitch conversion of the amplitude spectrum J.
  • Fig. 4 and Fig. 4 show examples of actual operation of the pitch conversion processing unit 1 3.
  • Fig. 4 is a vertical
  • Fig. 5 shows an example of pitch conversion that extends S 2.
  • (A) shows the amplitude spectrum of pitch conversion ⁇
  • (B) shows the amplitude spectrum after pitch conversion.
  • (A) shows the amplitude spectrum before pitch conversion
  • (B) shows the amplitude spectrum after pitch conversion.
  • the frequency of the first pixel spectrum P 1 is the first frequency gl and the frequency of the second pixel spectrum P 2 is the second frequency gn.
  • the pitch conversion processing unit 13 receives a pitch signal corresponding to a frequency g 2 that is larger by X 1 than the first frequency g 1.
  • the pitch conversion processing unit 13 converts the amplitude spectrum of the pitch conversion rate j j-th order pitch while gradually increasing the frequency X 1 of the first frequency g 1 and the like. Go.
  • the pitch conversion processing unit 1 3 is in the first frequency g 1 force, their frequency 0) in the region where the difference X 1 is larger than X 2 and smaller than y 2 (ie, frequency g 3 to gc)
  • the amplitude spectrum after pitch conversion is set to e as the value C of the amplitude spectrum for the intermediate frequency gc of the pitch conversion input.
  • the amplitude spectrum value of the pitch before conversion to pitch gn-1 is not y ⁇ -1, but the second frequency gn y
  • the value ⁇ ⁇ -1 of the amplitude spectrum of the sound before the pitch conversion for the frequency g ⁇ -1, which is smaller by 10 is used. In this case, y
  • the pitch conversion processing unit 13 sequentially converts the amplitude spectrum before the pitch conversion while gradually increasing the frequency X 10 of the second frequency gr.
  • the frequency difference X 10 from the second frequency gn becomes larger than X 20.
  • X 2 0 is
  • the pitch conversion processing unit 1 3 applies the amplitude spectrum after pitch conversion to the region where the frequency difference from the second frequency gn is larger than x 2 0 and smaller than y 2 (that is, frequency gc to gn-2).
  • pitch conversion is performed by extension between a certain peak spectrum P 1 and a peak spectrum P 2 adjacent to the peak spectrum P 1.
  • the maximum frequency f 1 max of the first frequency region A 1 is the frequency g 3
  • the minimum frequency f 2 ffiin of the second frequency region A 2 is gn ⁇ 2.
  • the pitch conversion processing unit 13 performs the above-described pitch conversion on two adjacent peak spectra.
  • the spectrum distribution AMI in the vicinity of the pixel spectrum P 1 maintains the shape as it is and only the pitch is converted.
  • the spectrum distribution AM 10 Moved to the spectrum distribution AM 10.
  • the spectrum distribution A M 2 in the vicinity of the spectrum spectrum P 2 is shifted to a spectrum distribution A M 2 0 in which only the pitch is converted while maintaining the shape as it is.
  • the vibration I spectrum in the intermediate frequency region (f] L max to f 2 min) is consequently pitch-converted at a predetermined pitch conversion ratio p k.
  • the frequency spectrum is shifted to an amplitude spectrum obtained by multiplying the amplitude spectrum ⁇ ⁇ frequency a of the frequency f a by a pitch conversion ratio ⁇ k (fa) which is a function of the frequency fa. Therefore, the characteristics of the input sound are maintained, and the spectrum distribution after pitch conversion A M 1 0 and A M
  • the hitch conversion processing unit 13 sequentially performs pitch conversion on the amplitude spectrum of the pitch ⁇ while gradually increasing the frequency X 1 from the first frequency g 1.
  • the pitch conversion processing unit 13 is similar to the above.
  • the amplitude spectrum of (gn-0) is not the value of the amplitude spectrum before the pitch conversion for the frequency gn-1, but only y 1 0 from the second frequency gn, not ⁇ n-1
  • the value n-1 of the amplitude spectrum of the sound before the pitch conversion for the small frequency gn-1 ' is adopted. In this case, y
  • the pitch conversion processing unit 13 sequentially performs pitch conversion on the amplitude spectrum before the pitch conversion while gradually increasing the frequency X 10 such as the second frequency s ⁇ .
  • the frequency difference X 10 from the second frequency gn becomes equal to S X c.
  • pitch conversion by compression is performed between a certain peak spectrum P 1 and a peak spectrum P 2 adjacent to the peak spectrum P 1.
  • the maximum frequency flmax in the first frequency region A1 and the minimum frequency f2miii in the second frequency region A2 are both gc.
  • the pitch conversion processing unit 3 performs the above-described pitch conversion on the two adjacent peak spectra, and performs ⁇
  • AM 2 is shifted to the spectrum distribution AM 20 with only the pitch converted while maintaining the shape as it is.Therefore, the characteristics of the input sound can be maintained and a sound that causes a sense of incongruity can be generated. No pitch-converted sound is generated.
  • the above is the actual operation of the pitch conversion processing by the pitch conversion processing unit 13.
  • the characteristics of the input are left and the sense of incongruity
  • the Tsuna conversion processing unit 13 is shown in Fig. 6 (A) as each amplitude spectrum in the intermediate frequency range A3.
  • the width spectrum (the curve shown by the broken line L in Fig. 6 (B)) when each amplitude spectrum is pitch-converted using the above-mentioned method Compression or expansion after setting a small value (ie, by multiplying the width spectrum obtained by pitch-transforming a gain smaller than 1 as the amplitude spectrum after the final pitch conversion) Yes.
  • the pitch conversion processing unit 13 performs pitch conversion by extending the sound data shown in FIG. 7 (A) according to the above-described method, and as a result, the amplitude for a frequency equal to or higher than a predetermined high-side threshold value.
  • a spectrum occurs, as shown in FIG. 7 (B), the amplitude spectrum for the region above the high-side threshold value may be made substantially zero.
  • the high threshold is Similarly, the pitch conversion processing unit 13 compresses the sound data shown in Fig. 7 (A) according to the above-mentioned method. As a result of the hitch conversion, the amplitude spectrum for the frequency below the predetermined low threshold is generated.As shown in Fig.
  • the amplitude spectrum for the region below the low threshold is shown.
  • the low-side threshold is set to a low frequency that does not appear in normal music. According to them, the amplitude spectrum on the frequency axis Even when compression or decompression causes an amplitude spectrum for high or low frequencies that is not possible in normal performances, the amplitude spectrum for such frequencies is deleted. So you can get good sound as m ⁇ Standing is possible
  • the pitch conversion processing unit 13 creates an envelope of each pixel spectrum of the pitch conversion, and the spectrum after the pitch conversion by the compression or expansion of the amplitude spectrum is performed. If the spectrum distribution has an amplitude spectrum that is larger than the envelope curve that has been created, the amplitude spectrum after pitch conversion is adjusted so that the amplitude spectrum follows the envelope curve. Torr (special distribution) may be modified. According to this, it is possible to maintain the characteristics of the input sound more.
  • the method is to cut the frequency axis in half between two adjacent local pixels (first pixel spectrum P1 and second peak spectrum P2), and make each half a local To assign to the region including the target peak or find the valley with the lowest amplitude value between two adjacent local peaks and set the frequency corresponding to the lowest amplitude value as the boundary between adjacent ⁇ ⁇ regions Can be adopted.
  • sound data converted to the frequency domain representation usually has many local peaks (peak spectra) of amplitude spectrum.
  • the pitch conversion method according to the invention may be applied.
  • the frequencies corresponding to multiple peak spectra are f 0 f 1 f 2 f 3 f 4, f 5 and f 6 (f 0 ⁇ fl ⁇ f 2 ⁇ f 3 ⁇ f 4 ⁇ f 5 ⁇ f 6
  • the above N value is set to 3, and the frequency region (low frequency region) including three frequencies (N) f 0, f 1 and f 2, f 4
  • F 5 and f 6 are divided into a frequency region (high frequency region) including three (N) frequencies and.
  • the spectrum for the frequency domain after the pitch transformation corresponding to the low frequency region (f 0 'for f 0, f 1' for f 1)
  • a spectrum having a peak spectrum at f 2 'with respect to f 1 and f 2 is obtained, and a spectrum with respect to the frequency domain after pitch conversion corresponding to the high-side frequency domain (4 with respect to f 4) is obtained.
  • F 5 for f 5, and f 6' for f 6 ' may each have a peak spectrum.

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Quality & Reliability (AREA)
  • Multimedia (AREA)
  • Acoustics & Sound (AREA)
  • Health & Medical Sciences (AREA)
  • Human Computer Interaction (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Signal Processing (AREA)
  • Computational Linguistics (AREA)
  • General Engineering & Computer Science (AREA)
  • Auxiliary Devices For Music (AREA)
  • Electrophonic Musical Instruments (AREA)
  • Stereophonic System (AREA)
  • Measurement Of Mechanical Vibrations Or Ultrasonic Waves (AREA)
  • Investigation Of Foundation Soil And Reinforcement Of Foundation Soil By Compacting Or Drainage (AREA)
  • Superconductors And Manufacturing Methods Therefor (AREA)
  • Working-Up Tar And Pitch (AREA)

Abstract

ピッチ変換装置は、入力音の振幅スペクトルからピークスペクトルP1及びP2を検出する。ピッチ変換装置は、ピークスペクトルP1の第1周波数f1を含む第1周波数領域A1の振幅スペクトル分布AM1を、その形状を維持するピッチ変換比を用いて圧縮又は伸長し、ピッチ変換後第1周波数領域A10の振幅スペクトル分布AM10を得る。ピッチ変換装置は、ピークスペクトルP2近傍の振幅スペクトル分布AM2を同様に圧縮又は伸長し振幅スペクトル分布AM20を得る。ピッチ変換装置は、ピークスペクトルP1とP2の間の中間周波数領域A3の振幅スペクトルを各振幅スペクトルの周波数に応じた所定のピッチ変換比で圧縮又は伸長することによりピッチ変換を行う。

Description

明 細 書
ピッチ変換装置 技 術 分 野
本発明は、 音データのピッチを変換するピッチ変換装置に関する 背 景 技 術
従来から 、 曰声や楽音などの立
曰 丁 夕のピッチを変換する種々の ピッチ変換 置が知られている のうちの つのピッチ亦 は 、 所定の立
曰 丁一夕を時間領域の表現 (時間領域表現 ) から周波数 領域の表現 (周波数領域表現 ) へと変換し、 変換後の立
曰 丁一夕に基 づいて振幅スぺク 卜ノレのピ クスぺク トルを含む周波数領域を特定 し 、 その特定された周波数領域の振幅スぺク 卜ルだけを 律に所定 シフ 卜 だけ周波数軸上でシフ トするよ Ό になつている (例 7Lば 、 米国特許第 6 5 4 9 8 8 4号明細書 (図 3 、 図 4 A乃至図 4 C ) を 参照。 )
ところで、 一般に 、 音データの中には異なる周波数を有するピ クスぺク トルが二つ以上存在し、 当然、 その二つのピークスぺク ル間 (各ピ一クスぺク トルに対応する周波数の間の中間周波数領域
) にも振幅スぺク トルは存在する。 しかしながら、 上記従来の技術 によれば 、 中間周波数領域内の振幅スぺク トルは切り捨てられ 、 ピ ッチ変 後の振幅スぺク トルに反映されない。 この結果、 ピッチ変 換後の曰が不自然な音を含む場合があ り得るという問題があ た 発 明 の 開 示
従つて 、 本発明の目的の一つは、 振幅スぺク トルを不均一な変換 比をもつて実質的に圧縮又は伸長することによ り、 入力音 (原立 曰 ) の特徴を残しながら不自然な音を発生する音デ一夕が生成されてし まう ことを回避できるピッチ変換装置を提供する とにある
この百的を達成するための本発明による ピッチ変 装置は 、 入力された時間領域表現の音データを周波数領域表現への立
曰 丁 夕へと変換する時間周波数変換手段と、
刖 pd周波数領域表現に変換された音デ 夕のピッチを変換してピ ッチ変換後の音デー夕を生成するピッチ変換手段と 、
刖 dピツチ変換後の音データを周波数領域表現から時間領域表現 へと変換する周波数時間変換手段と
前記時間領域表現に変換された音つ—夕を出力する出力手段と を備えている
更に、 前記ピ Vチ変換手段は、
前記周波数領域表現に変換された音デ一夕の振幅スぺク 卜ルに基 づいて同音デ 夕の特徴を表す振幅スぺク トルを選択振幅スぺク ルとして少な < とも一 つ選択し、 同選択振幅スぺク 卜ルに対する周 波数である選択周波数を含む所定の周波数領域である選択周波数領 域の振幅スぺク ル分布の形状を実質的に維持しながら同音デ 夕 の振幅スぺク 卜ルを周波数軸上で圧縮又は伸長するように構成され ている。
これによれば、 入力音 (原音) の特徴を適切に表す選択周波数領 域 A 1 の振幅スぺク トル分布 A M I の形状が維持されながら音テ 夕のピッチ変換が行われるので、 入力音の特徴がピ Vチ変換後に いても維持される。 更に、 選択周波数領域 A 1 以外の領域の振幅ス ぺク トルは切り捨てられることなく ピッチ変換後の振幅スぺク 卜 ルに反映される。 従って、 ピツチ変換後の音データに不自然な立 曰 を 発生してしまうような音デ一夕が含まれてしまう ことを回避する とができる。
本発明によるピッチ変換装置の 目 様は、
入力された時間領域表現の音データを周波数領域表現への音テ 夕へと変換する時間周波数変換手段と
前記周波数領域表現に変換された立
曰デ一夕の振幅スベク トルを周 波数軸上にて圧縮又は伸長することによ り ピッチ変換後の音デ 夕 を生成するピッチ変換手段と
前記ピツチ変換後の音データを周波数領域表現から時間領域表現 へと変換する周波数時間変換手段と
前記時間領域表現に変換された音丁一夕を出力する出力手段と を備えている。
更に、 前記ピッチ変換手段は、
前記周波数領域表現に変換された立
曰データの振幅スベク トルに基 づいて同音データの特徴を表す振幅スぺク トルを選択振幅スぺク 卜 ルとして少なく とも一 つ選択し、
同選択振幅スぺク トルが、 同選択振幅スぺク トルに対する周波数 である選択周波数に所定のピツチ変換比 kを乗じて得られる周波数 であるピッチ変換後選択周波数に対する振幅スぺク 卜ルとなるよつ に、 同選択振幅スぺク 卜ルを周波数軸上で移動し
1口 J 択周波数を今む所定の周波数領域である選択周波数領域の各 振幅スベク トルが 同各振幅スぺク 卜ルに対する周波数から 、B着択 周波数を減じた値に同ピッチ変換比 kよ り も 1 に近い局所変換比 m を乗じた値を同ピヅチ変換後選択周波数に加える とにより得られ る周波数の振幅スぺク 卜ルとなるように、 同選択周波数領域の各振 幅スぺク トルを周波数軸上で圧縮又は伸長し
刖記選択周波数領域以外の各振幅スぺク 卜ルが、 「同各振幅スぺ ク 卜ルに対する周波数 」 に 「同各振幅スぺク トルに応じた他のヒッ チ変換比」 を乗じて得られる周波数に対する振幅スぺク トルとなる よ に 、 同選択周波数領域以外の各振幅スぺク トルを周波数軸上で 圧縮又は伸長するよう に構成されている。
れによれば、 入力音の特徴を適切に表す選択振幅スぺク トル P
1 が 同選択振幅スぺク 卜 Jレに対する周波数 (選択周波数) f 1 に 所定のピツチ変換比 kを乗じて得られるピッチ変換後選択周波数 f
1 0 ( = k · f 1 ) に対する振幅スベク トル P 1 0 となるように、 周波数軸上で移動せしめられる
更に 、 選択周波数 f 1 を含む周波数領域である選択周波数領域 A
1 の各振幅スぺク トルが、 同各振幅スぺク 卜ルに対する周波数 f n から同選択周波数 f 1 を減じた値 ( = f n ― f 1 ) にピッチ変換比 kより も 1 に近い局所変換比 mを乗じた値 ( = m - ( f n - f 1 )
) をピッチ変換後選択周波数 f 1 0 に加えることにより得られ 周 波数 ( m • ( f n - f 1 ) + k · f 1 ) の振幅スぺク 卜リレとなる よ Όに 周波数軸上で圧縮又は伸長せしめら 0
の結果 入力音の特徴を表す選択周波数領域 A 1 のスぺク トル 分布 A M 1 が分布形状を維持しながらピッチ変換後のデータに移行 されるので 入力音の特徴がピッチ変換後において 維持される れに対し m記選択周波数領域 A 1以外の各振幅スぺク トルは
1口]各振幅スぺク トルに対する周波数 f nに同各 幅スぺク 卜ルに 応じたピ Vチ変換比を乗じて得られる周波数に対する振幅スぺク 卜 ルとなるように、 周波数軸上で圧縮又は伸長せしめられ 。
れにより 、 選択周波数領域 A 1以外の振幅スぺク 卜ルは切り捨 てられる となく 、 ピッチ変換後の振幅スぺク トルに反映される 従 て ピ Vチ変換後の音データに不自然な音を発生してしまうよ うな音う 夕が含まれてしまう ことを回避することができる 本発明によるピヅチ変換装置の他の態様は、 上記ピッチ亦換装置 と同様 、 時間周波数変換手段と、 ピッチ変換手段と、 周波数時間変 換手段と、 出力手段と、 を備える。
そして、 こ のピ チ変換装置のピッチ変換手段によれば 、
、 t
刖 周波数領域表現に変換された立
曰デ一夕の振幅スぺク 卜ルの中 から少なく とも 2 のピークスぺク 卜ルである第 1 ピ一クスぺク 卜 ル P 1 及び同第 1 ピ一クスぺク トル P 1 に対する周波数である第 1 周波数 f 1 よ り ち高い第 2周波数 f 2 を有する第 2 ピ ―クスぺク ト ル P 2が選択される
更に 、 第 1 ピ ―クスぺク 卜ル P 1 は 、 第 1 周波数 f 1 に所定のピ ツチ変換比 kを乗じて得られる周波数であるピッチ変換後第 1周波 数 f 1 0 ( = k • f 1 ) に対する振幅スぺク トル P 1 0 となるよう に周波数軸上で移動しせしめられる
また 、 第 1 周波数 f 1 を含む周波数領域である第 1 周波数領域 A
1 の各振幅スぺク 卜ルは 、 同各振幅スぺク トルに対する周波数 f n から同第 1 周波数 f 1 を減じた値 ( : f n - f 1 ) に同ピッチ変換 比 kより も 1 に近い局所変換比 mを乗じた値 ( = m · ( f n一 f 1
) ) を同ピッチ変換後第 1周波数 f 1 0 に加えることによ り得られ る周波数 ( = m • ( f n - f 1 ) + k • f 1 ) の振幅スぺク トルと なるように、 周波数軸上で圧縮又は伸長せしめられる
同様に第 2 ピ一クスぺク 卜ル P 2 は 、 第 2周波数 ί 2 に 、
刖記所定 のピッチ変換比 kを乗じて得られる周波数である ピッチ変換後第 2 周波数 f 2 0 ( = k • f 2 ) に対する振幅スぺク トル P 2 0 となる ように周波数軸上で移動せしめられる。
また、 第 2.周波数 f 2 を含む周波数領域である第 2周波数領域 A 2 の各振幅スぺク トルは、 同各振幅スぺク トルに対する周波数 f n から同第 2周波数 f 2 を減じた値 (= f n— f 2 ) に前記局所変換 比 mを乗じた値 ( = πι · ( f n - f 2 ) ) を同ピッチ変換後第 2周 波数 f 2 0 に加えることによ り得られる周波数 ( = ηι · ( f n - f 2 ) + k - f 2 ) の振幅スペク トルとなるように、 周波数軸上で圧 縮又は伸長せしめられる。
この結果、 ピッチ変換後の信号に入力音の特徴を表す第 1 ピーク スぺク トル P 1近傍のスぺク トル分布 A M I と第 2 ピークスぺク ト ル P 2近傍のスぺク トル分布 A M 2が各分布形状を維持しながらピ ツチ変換後のデータに移行されるので、 入力音の特徴がピッチ変換 後においても維持される。
一方、 第 1 周波数領域 A 1 と第 2周波数領域 A 2 との間の中間周 波数領域 A 3 の各振幅スぺク トルは、 同各振幅スぺク トルに対する 周波数 f nに同各振幅スぺク トルに応じたピッチ変換比を乗じて得 られる周波数に対する振幅スぺク トルとなるように周波数軸上で圧 縮又は伸長せしめられる。
これによ り、 中間周波数領域 A 3 内の振幅スペク トルは切り捨て られることなく、 ピッチ変換後の振幅スペク トルに反映される。 従 つて、 ピッチ変換後の音デ一夕に不自然な音を発生してしまうよう な音データが含まれてしまう ことを回避することができる。
この場合、
前記ピッチ変換手段は、
横軸の X軸にピッチ変換前の周波数、 縦軸の Y軸にピッチ変換後 の周波数をとつたグラフを想定し、 kを前記所定のピッチ変換比、 mを前記局所変換比、 a 1及び a 2 を所定の定数、 前記第 1周波数 を f l 、 前記第 2周波数を f 2、 前記第 1 周波数領域の最大周波数 を f 1 max, 前記第 2周波数領域の最小周波数を f 2 minとするとき 前記第 1 周波数領域においては Y = m · X + a 1 なる関数に基づ いて同第 1 周波数領域内の各振幅スぺク トルを周波数軸上で圧縮又 は伸長し、
前記第 2周波数領域においては Y ==m · X + a 2なる関数に基づ いて同第 2周波数領域内の各振幅スぺク トルを周波数軸上で圧縮又 は伸長し、
¾:は ¾: = ( (m - f 2 + a 2 ) 一 ( m - f 1 + a 1 ) ) / ( f 2 一 f 1 ) の関係を満たし、
前記中間周波数領域においては点 ( f 1 max, ί 1 max + a 1 ) と 点 ( f 2 min、 f 2 rain+ a 2 ) とを結ぶ所定の関数 Y = T f ( X ) に基づいて同中間周波数領域内の各振幅スペク トルを周波数軸上で 圧縮又は伸長するように構成されるこ とが好ましい。 関数 T f ( X ) は、 直線であってもよいし、 曲線であってもよい。
更に、 前記ピッチ変換手段は、
前記中間周波数領域内の各振幅スぺク トルを周波数軸上で圧縮又 は伸長するとき、 各振幅スぺク トルを同各振幅スぺク トルより も小 さい値とした上で圧縮又は伸長するよう に構成されることが好適で ある。
これによれば、 入力音の特徴を表す部分以外の振幅スぺク トルが 小さくなるので、 結果として、 より入力音の特徴が反映されたピッ チ変換後の音データが得られる。
加えて、 前記ピツチ変換手段は、 BU B己 £h縮又は伸長後の周波数が 所定の高側閾値以上の周波数となつた領域についての振幅スぺク 卜
、 ルを実質的に 0 にするよう に構成されてもよく、 或いは、 刖記圧縮 又は伸長後の周波数が所定の低側閾値以下の周波数となつた領域に ついての振幅スぺク 卜ルを実質的に 0 にするょラ に 成されてもよ い。
これによれば 、 周波数軸上での圧縮又は伸長に り、 通常の演奏 などにおいてはあり得ない |¾周波数又は低周波数に対する振幅スぺ ク トルが発生した場合であつても 、 そのような周波数の振幅スぺク ルが削除されるの し 、 6果として 、 良好な立
曰 を得るしとが可能な 立
曰 丁一タ ^:生成することができる 図 面 の 簡 単 な 説 明
図 1 は、 本発明の実施形態に係るピッチ変換装置の構成を示した ブロック図である。
図 2は、 図 1 に示したピッチ変換装置によるピッチ変換方法の概 要を説明するためのグラフである。
図 3 は、 図 1 に示したピッチ変換装置による ピッチ変換方法の概 要を説明するためのグラフである。
図 4は、 図 1 に示したピッチ変換装置によるピッチ変換方法の具 体例を説明するためのグラフである。
図 5 は、 図 1 に示したピッチ変換装置によるピッチ変換方法の具 体例を説明するためのグラフである。
図 6 は、 図 1 に示したピッチ変換装置によるピッチ変換方法の変 形例を説明するためのグラフである。 。
図 7 は、 図 1 に示したピッチ変換装置によるピッチ変換方法の他 の変形例を説明するためのグラフである。 発明を実施するための最良の形態
以下、 本発明によるピッチ変換装置の実施形態について図面を参 照しながら説明する。
(構成)
図 1 に示したよう に、 このピッチ変換装置 1 0 は、 入力部 1 1 、 時間—周波数変換部 1 2、 ピッチ変換処理部 1 3 、 周波数—時間変 換部 1 4、 出力部 1 5及び制御部 1 6 を備えている。 なお、 各部の 機能は、 実際には制御部 1 6 を含んでなるコンピュータとして構成 されたピッチ変換装置 1 0 の C P U (図示省略) が所定のプロダラ ムを実行する ことによ り達成される。
入力部 1 1 は、 入力されるアナログの信号をデジタルの信号に変 換してから出力する AZDコンバータを含んでいて、 入力されたァ ナログの音信号をデジタル信号 (データ) S 1 に変換するよう にな つている。 このようにして得られるデータは、 時間領域で表現され た音データ (時間領域表現の音データ) S 1 である。 入力部 1 1 に 入力される信号は、 マイクロフォンを介して入力部 1 1 に入力され てもよく、 或いは、 他の装置から直接入力されてもよい。 他の装置 から入力部 1 1 にデジタル信号が入力される場合、 入力部 1 1 はそ の入力デジタル信号をピッチ変換装置 1 0 に適合したデジタル信号 に変換する。
時間一周波数変換部 1 2 は入力部 1 1 と接続されていて、 入力部 1 1 からの音データ S 1 を受信するよう になっている。 時間一周波 数変換部 1 2 は、 音データ S 1 を時間領域の表現から周波数領域の 表現へと変換するよう になっている。 即ち、 時間—周波数変換部 1 2 は、 時間領域で表現された入力音デ一タ S 1 を一連の時間フレー ムに区分し、 各フレーム毎に F F T (Fast Fourier Transform) 等 により周波数分析を実行して周波数スペク トル (振幅スペク トル及 び位相スペク トル) を取得する。 この周波数スペク トルが、 周波数 領域で表現されたデータ (周波数領域表現の音データ) S 2である ピッチ変換処理部 1 3 は、 時間一周波数変換部 1 2 と接続されて いて、 時間一周波数変換部 1 2からのデータ S 2 を受信するように なっている。 ピッチ変換処理部 1 3 は、 後に詳述するピッチ変換処 理をデータ S 2 に対して実行してピッチ変換後のデータ S 3 を生成 するようになつている。 データ S 3 は、 周波数領域のフレームデー 夕 (振幅スペク トルデータ及び位相スペク トルデ一夕) である。 ピ ツチ変換処理部 1 3 は、 図示しない設定器から入力される信号に基 づいて、 後述するヒツナ変換比 ( k ) 等のピッチ変換処理に必要な パラメ一タを変更する ことができるよ Ό になつている
周波数 時間 換部 1 4は、 ピッチ久換処理部 1 3 と接続されて いて、 ピクチ変換処理部 1 3力 ^らのァ. タ S 3 を受信するよう にな ている 周波数一時間変換部 1 4は 、 つ 夕 S 3 に逆 F F T処理 を施して周波数領域で表現されている丁一夕 S 3 を時間領域で表現 されたデ ―タ S 4 に変換し 、 その変換したデ一夕 S 4 を出力するよ
Όになつている
出力部 1 5 は D / A 3ンバータを含んで構成されていて、 周波 数一時間変換部 1 4 と接 zされている 出力部 1 5 は 、 周波数一時 間変換部 1 4から入力したデータ S 4 を所定の夕ィ ングにて D A 変換レ 、 換したアナ口グ信号を曰 として出力するようになってい る なお 、 出力部 1 5 は 、 前記変換したァナ口グ信 を電気信号の まま外部に出力したり、 丁 —夕 S 4を丁ジ夕ルデ 夕のまま出力し たり、 或いは、 テ一夕 S 4 を他の記憶手段に Pし ί するよう にしても よい。
制御部 1 6 は、 C P U 、 R O M及び R A Μ等を含む周知の ンピ ュ一夕であ Ό 、 上記各部の処理を行う とともに、 入力部 1 1 の A /
Dコンパ一夕及び出力部 1 5 の D Z Aコンバ一夕等のデバィスに対 して必要な夕ィミ ングで A D変換及び D A変換などの各処理を行わ せる指示を出力するようになつている。
なお、 ピッチ変換処理部 1 3 の本願に関する処理内容を除さ 、 上 記各部の詳細については、 例えば 、 本願の出願人により先に出願さ れた特開 2 0 0 3一 2 5 5 9 9 8号公報に記載されている
(ピッチ変換処理の概要)
次に、 上記ピッチ変換処理部 1 3 によ り達成されるピッチ 換の 概要について図 2及び図 3 を参照しながら説明する。 以下の説明に おいて参照される図面中の周波数は総てリニアプロッ 卜によ Ό表さ れている また、 図 2及び図 3 はピッチを高音側にシフ 卜する例を 示している
図 2 ( A ) は、 あるフレ ムのピッチ変換前の振幅スぺク 卜ル ( 上記のデ ―タ S 2 に含まれる振幅スぺク トル) を示したグラフであ る。 この例においては 、 第 1 周波数 ί 1 に振幅スぺク トルの 所的 ピーク (第 1 ピ一クスぺク 卜ル) Ρ 1 が存在し、 第 1 周波数よ り も 大きい第 2周波数 f 2 に他の振幅スぺク トルの局所的ピーク (第 2 ピークスぺク 卜ル) P 2が存在している 先ず、 ピッチ変換処理部
1 3 は、 デー夕 S 2 に基づいて、 の局所的ピークを検出する。 局 所的ピ一クは 近隣の複数のピ一クについて振幅値が最大のピーク を検知する方法等によ り検出される
以上の処理によ り 、 周波数領域の表現に変換された音データの振 幅スぺク トルに基づいて同音デー夕の特徴を表す振幅スベク トルが 選択振幅スぺク トル (第 1 ピークスぺク 卜ル Ρ 1 及び第 2 ピークス ぺク トル P 2 ) として少な < とち一つ (ここでは つ ) 選択され たことになる
次に、 ピッチ変換処理部 1 3 は 検出した各局所的ピークに対す る周波数 (この - ¾m口 、 第 1 周波数 f 1及び第 2周波数 f 2 ) を含む 所定の周波数領域 (スぺク トル分 領域) を特定 (指定 ) する。 図
2 ( A ) の例においては、 ピッチ亦換処理部 1 3 は、 第 1 ピークス ぺク トル P 1 に対する第 1 周波数 f 1 を含む所定周波数領域を第 1 周波数領域 A 1 として特定する。 のような周波数領域の特定は、 種々の方法によ り成され得る。 例えば 、 ピツチ変換処理部 1 3 は、 第 1周波数: f 1 と第 2周波数 f 2 との差の半分に Γ 1 J 以下の正の 値を乗じて得られる周波数 Δ f を第 1周波数 f 1 に加えて得られた 周波数 ( = f l + A f ) を第 1 周波数領域 A 1 の最大周波数 f l maxとする。 同様に、 ピッチ変換処理部 1 3 は、 第 1 周波数 f 1 か ら前記周波数 Δ ί を減じて得られた周波数 (= f l — A f ) を第 1 周波数領域 A 1 の最小周波数 f l rainとする。 第 1 周波数領域 A 1 の各周波数に対する振幅スぺク トルは振幅スぺク トル分布 AM 1 を 有する。
同様に、 ピッチ変換処理部 1 3 は、 第 2 ピークスペク トル P 2 に 対する第 2周波数 f 2 を含む所定周波数領域を第 2周波数領域 A 2 として特定する。 第 2周波数領域 A 2 の最大周波数及び最小周波数 はそれぞれ f 2 iax (例えば、 f 2 max= f 2 + Δ f ) 及び f 2 min (例えば、 f 2 min= f 2 — Δ ί ) である。 第 2周波数領域 A 2 の 各周波数に対する振幅スぺク トルは振幅スぺク トル分布 ΑΜ 2 を有 する。
以上の処理により、 選択周波数 (第 1 周波数 f 1 又は第 2周波数 f 2 ) を含む周波数領域である選択周波数領域 (第 1 周波数領域 A 1 又は第 2周波数領域 A 2 ) の各振幅スペク トルが決定される。 次いで、 ピッチ変換処理部 1 3 は、 以下のように振幅スペク トル を周波数軸上で圧縮又は伸長することによ り、 ピッチ変換を行う。 なお、 図 2及び図 3 の例においては、 振幅スペク トルは周波数軸上 で伸長される。 即ち、 ピッチ変換比 kは 「 1」 よ り大きい値である
( A ) ピッチ変換処理部 1 3 は 第 1 ピークスぺク トル P 1 が、 第
1 周波数 f 1 に所定のピッチ変換比 kを乗じて得られる周波数であ るピッチ変換後第 1周波数 f 1 0 ( k · f 1 ) に対する振幅スぺ ク トルとなるよう に、 第 1 ピ ―クスぺク 卜ル P 1 を周波数軸上で移 動する れに り得られる変換 第 1 ピークスぺク 卜ル P 1 0 の 大きさは 第 1 ピークスぺク 卜ル P 1 の大きさ と等しい
( B ) ピッチ亦换処理部 1 3 は 第 1周波数領域 A 1 の各振幅スぺ ク トル P nが 1口 J各振幅スぺク hル P n に対する周波数 f nから第
1周波数 f 1 を減じた値 ( f n ― f 1 ) にピッチ変換比 kよ り も
1 に近い局所変換比 mを乗じた値 ( m · ( f n - f 1 ) ) を上記 ピッチ変換後第 1 周波数 f 1 0 ( = k • f 1 ) に加える とにより 得られる周波数 ( = m * ( f n 一 f 1 ) + k · f 1 ) の振幅スぺク トルとなるよ Ό に 、 第 1周波数領域 A 1 の各振幅スぺク 卜ルを周波 数軸上で圧縮又は伸長する の例において、 局所変換比 mの値は
Γ 1 J に 定されている
以上の処理に り、 第 1周波数領域 A 1 の振幅スぺク トル分布 A
M 1 は 形状 (分布状態 ) を変える となく ピッチだけが変換され
、 ピッチ 換後第 1周波数 域 A 1 0 の振幅スぺク トル分布 A M 1
0 となる
( C ) 様に ピッナ変換処理部 1 3 は 第 2 ピ クスぺク 卜ル P
2が、 第 2周波数 f 2 に所定のピッチ変換比 kを乗じて得られる周 波数であるピ チ変換後第 2周波数 f 2 0 ( = k • f 2 ) に対する 振幅スぺク ルとなるように、 第 2 ピ ―クスぺク トル P 2 を周波数 軸上で移動する これによ り得られる変換後第 2 ピークスベク トル
P 2 0 の大きさは 、 第 2 ピ ―クスぺク 卜ル P 2 の大きさと等しい。
( D ) 更に ピッチ変換処理部 1 3 は 第 2周波数 τ¾域 A 2 の各振 幅スぺク 卜ル P nが、 同各振幅スぺク 卜ル P n に対する周波数 f n から第 2周波数 f 2 を減じた値 ( f n 一 f 2 ) にピ Vチ変換比 k より も 1 に近い局所変換比 m ¾乗じた値 ( = m • ( f n ― f 2 ) ) を上記ピッチ変換後第 2周波数 f 2 0 ( = k • f 2 ) に加えること によ り得られる周波数 ( m · ( f n ― f 2 ) + k · f 2 ) の振幅 スペク トルとなるように、 第 2周波数領域 A 2 の各振幅スペク トル を周波数軸上で圧縮又は伸長する。
以上の処理により、 第 2周波数領域 A 2 の振幅スペク トル分布 A M 2 は、 形状 (分布状態) を変える ことなく ピッチだけが変換され 、 ピッチ変換後第 2周波数領域 A 2 0 の振幅スペク トル分布 AM 2 0 となる。
( E ) ピッチ変換処理部 1 3 は、 更に、 第 1周波数領域 A 1 と第 2 周波数領域 A 2 との間の中間周波数領域 A 3 の振幅スぺク トルにつ いてピッチ変換を行う。 このピッチ変換について、 特に、 図 3 を参 照しながら説明する。
図 3 は、 横軸の X軸にピッチ変換前の周波数 f a、 縦軸の Y軸に ピッチ変換後の周波数 f b をとつたグラフである。 以下において、 第 1周波数 f l の変換関数 T f ( X ) 上の点を点 Q 1 とし、 第 2周 波数 f 2 の変換関数 T f ( X ) 上の点を点 Q 2 とする。 同様に、 第 1 周波数領域 A 1 の最大周波数 f l maxの変換関数 T f ( x ) 上の 点を点 Q 1 Uと し、 第 2周波数領域 A 2 の最小周波数 f 2 ininの変 換関数 T f ( X ) 上の点を点 Q 2 L とする。
この場合、 第 1周波数領域 A 1 に対しては、 下記の ( 1 ) 式によ り示される変換関数 T f ( X ) の変数 Xにピッチ変換前の周波数' f a を代入することにより、 ピッチ変換後の周波数 f b ( = y ) が決 定されていることになる。
y = T f ( x ) =m - x + a l = x + a l = x + A S l -- ( 1 ) 同様に、 第 2周波数領域 A 2 に対しては、 下記の ( 2 ) 式によ り 示される変換関数 T f ( X ) の変数 Xにピッチ変換前の周波数 ί a を代入することによ り、 ピッチ変換後の周波数 ί b (= y ) が決定 されていることになる。
y = T f ( x ) =m - x + a 2 = x + a 2 = x + A S 2 -- ( 2 ) 一方、 ピッチ変換処理部 1 3 は、 中間周波数領域 A 3 に対し、 点 Q 1 Uと点 Q 2 L とを直線で結ぶ変換関数 T f ( X ) = T 1 f ( x ) に従ってピッチ変換を行う。 即ち、 点 Q 1 Uの座標は ( f 1 max , f 1 0 max) = ( f 1 max, f 1 max + a 1 ) であ り、 点 Q 2 Lの 座標は ( f 2 min, f 2 0 min) = ( f 2 min, f 2 min+ a 2 ) であ るから、 中間周波数領域 A 3 に対する変換関数 T f ( X ) = T 1 f ( x ) は下記の ( 3 ) 式により表される。 、 f2min - f 1 max + a2 -a1 a1 "f2min - a2-f1 max y=Tf(x) =—— - ~~: 一 x + 一 ■臃■ (3)
f2min一 f1 max f2min一 f1 max ヒッチ変換処理部 1 3 は、 上記 ( 3 ) 変換前の 周波数 aに対する振幅スぺク 卜ルがピッチ変換後 数 f b =
T f ( f a ) の振幅スぺク 卜ルとなるよ に、 ピッ 刖の周波 数 f aに対する振幅スぺク 卜ルをピッチ変換する。 、 上記
( 3 ) 式を満たす点 ( f a , T f ( f a ) ) と原点 oとを結んだ直 線の傾きが、 周波数 f a の振幅スぺク トル 対するピッチ変換比 P f a という ことになる 。 即ち 、 中間周波数領域 A に対するピッチ 変換比 P f aは、 各振幅スぺク トルに対して各振
Figure imgf000014_0001
スぺク トルの周 波数に応じて一 に定められる
なお、 ピッチ変換比 kは点 Q 1 と点 Q 2 とを直線で結んだ場合の 傾きであるか 、 局所変換比 mとの間に下記 ( 4 ) 式によ り表され る関係を満たしている
k = ( ( m • f 2 + a 2 ) ― ( m · f 1 + a 1 ) ) / ( f 2 - f
1 ) … ( 4 )
換言すると 、 、ヒッチ変換処理部 1 3 は ピッチ変 前の各音 タをピッチ変換比 kにより周波数軸上で 律に圧縮 ( k < 1 ) 又は 伸長 ( k > 1 ) する代わり に 、 ピークスぺク ル P 1及び ークス ぺク トル P 2 の近傍の in .„
曰 ァ タ (第 1周波数領 A 1 の音換縮づデのピ k一夕及 び第 2周波数領域 A 2 の音デ一タ) については 質的に圧 及び伸 長をすることなく 、 そのピッチだけがピ Vチ変 比 k く量だ け変換されるような圧縮又は伸長を行う に ピッチ 処理部
1 3 は、 中間周波数領域 A 3 の音データを ピクチ変換比 とは異 なる変換比であって各振幅スぺク トル (各 幅スぺク ドル 波.数
) に応じた変換比によ り周波数軸上で圧縮又は伸長する
このように 、 ピッチ変換処理部 1 3 は振幅スぺク 卜ルを周波数に 関して非線形に圧縮又は伸長してピッチ変換を行う の 、 入 力音 (原立 、
曰 J の特徴をよく表している第 1 周波数領域 A 11 のスぺク 卜ル分布 A M 1 及び第 2周波数領域 A 2 のスぺク ル分布布 A M 2 は
、 その分布を維持した状態でピツチ変換される。 従つて、 ピッチ変 換後の音 夕に基づいて発立
曰 される音は入力音の特徴を維持した 音となる た、 中間周波数領域 A 3内の振幅スぺク トルは切り捨 てられることなく、 ピツチ変換後の振幅スぺク 卜ルに反映される。 従つて、 ピッチ変換後の音デ一夕に基づいて発音される音は違和感 の少ない音となる。
なお、 中間周波数領域 A 3 に対する変換関数 T f ( X ) は、 種々 の関数とすることがでさる 例えば 、 この変換関数 T f ( X ) は、 図 3 に破線の曲線 T 2 f ( X ) にて示したように 、 点 Q 1 Uから点
Q 2 Lに向うにつれて傾さが局所変換比 mから次第に変化 ( k > 1 のときは増大、 k < l のとさは減少 ) し、 その後再び局所変換比 m に近づく ような関数であつてもよい
更に、 第 1周波数領域 A 1及び第 2周波数領域 A 2 に対する変換 関数 T f ( X ) は、 各周波数領域のスぺク トル分 をほぼ維持した 状態にて同各周波数領域のピッチ変換がなされる関数であればよい
。 従って、 例えば、 上記局所変換比 mは必ずしも一定である必要は なく、 また、 変換関数 T f ( X ) は n次式や任意に定めた関数であ つてもよい。 また、 ピッチ変換処理部 1 3 は、 振幅スぺク ト Jレのピ ツチ変換に応じて当然に位相スぺク ルを修正する
(ピッチ変換処理の実際の作動)
次に、 ピッチ変換処理部 1 3 の実ポの作動例について図 4及び図
5 を参照しながら説明する 図 4は立
曰テ一夕 S 2 を伸長するピッチ 変換の例であり、 (A ) はピッチ変換刖の振幅スぺク トル 、 ( B ) はピッチ変換後の振幅スぺク トルを示している 図 5 は音丁一夕 S
2 を圧縮するピッチ変換の例であり 、 ( A ) はピ Vチ変換前の振幅 スペク トル、 ( B ) はピッチ変換後の振幅スぺク ル 示している
。 これらにおいて、 第 1 ピ クスぺク bル P 1 の周波数は第 1周波 数 g l であり、 第 2 ピ一クスぺク ル P 2の周波数は第 2周波数 g nである。 また、 第 1 周波数 1 と第 2周波数 g n との中間の周波 数を中間周波数 g c とし ( g c = ( g 1 + g n ) / 2 ) 、 第 1周波 数 g 1 から中間周波数 g c までの差を y 2又は X c とおく
1 . 入力音データの伸長
先ず、 入力音データを伸長するピッチ亦 ½.の場合について説明す ると、 ピッチ変換処理部 1 3 は、 図 4に したよう に 、 第 1周波数 g l の第 1 ピークスぺク hル P 1 をピッチ変換後第 1周波数 h 1 の スペク トル (ピークスぺク 卜ル P 1 0 ) としてそのまま移動する。 前述したとおり、 h i = k 1である 。 kは 1 よ り大きい
次に、 ピッチ変換処理部 1 3 は 、 第 1 周波数 g 1 より X 1 だけ大 き い周波数 g 2 に対応する ピッチ亦
久換後周波数 h 2 ( = k • g 2 )
、 の振幅スぺク トルとしてゝ 周波数 g 2 に対するピ Vチ変換刖の音デ 一夕の振幅スぺク 卜ルの値 Q! 2ではな < 、 第 1周波数 1 より y 1 だけ大きい周波数 g 2 ' に対応するピッチ変換刖の立
曰つ—タの振幅 スぺク ルの値 ^ 2 を採用する。 この +曰合 、 y 1 は X 1 にピツチ変 換比 kを乗じた値でめり (即ち、 y 1 = k X 1 ) 、 y 1 は X 1 よ り も大さい
この Ό にして、 ピツチ変換処理部 1 3 は 、 第 1 周波数 g 1 カゝら の周波数 X 1 を次第に大きく しながらピヅチ亦久換刖の振幅スぺク 卜 レを j噴次ピッチ変換して行く 。 その結果 、 ピッチ変換の対象となつ ている振幅スぺク 卜ルの周波数が所定の周波数 g 3 ( g 3 = g 1 +
X 2 ) より大きく なると、 第 1 周波数 g 1 からの周波数の差 X 1 は 差 X 2 Ό大きくなる 2 fa 2 をピ Vチ変換比 k倍した値が y 2 (第 1 周波数 g 1 と中間周波数 g c との差 ) となる値である (
X 2 · k y 2 ) ピツチ変換処理部 1 3 は 、 第 1周波数 g 1力、ら の周波数 0)差 X 1 が X 2 よ り大きく y 2 小さい領域 (即ち、 周 波数 g 3 〜 g c ) に対して、 ピッチ変換後の振幅スぺク 卜ルをピッ チ変換刖の中間周波数 g c に対する振幅スぺク 卜ルの値 Cに e 疋 する。
同様に、 ピッナ変換処理部 1 3 は、 第 2周波数 g nの第 2 ピーク スぺク トル P 2 をピッチ変換後第 2周波数 h nのスぺク トル (ピ— クスぺク 卜ル P 2 0 ) としてそのまま移動する。 刖述したとおり、 h n = k · g nである。
次に、 ピッチ変換処理部 1 3 は 、 第 1周波数 g nよ り X 1 0 だけ 小さい周波数 g n - ίに対応する ピッチ変換後周波数 h n - 1 ( = k ·
( g n - 1 ) ) の振幅スぺク トルとして、 周波数 g n - 1に対するピッチ 変換前の音丁一夕の振幅スぺク 卜ルの値 α π - 1ではなく、 第 2周波 数 g nより y 1 0 だけ小さい周波数 g η - 1 , に対するピッチ変換前 の音デ一夕の振幅スぺク 卜ルの値 β η - 1を採用する。 この場合、 y
1 0 は X 1 0 にピツチ変換比 kを乗じた値であり (即ち、 y 1 0 = k · X 1 0 ) 、 y 1 0 は X 1 0 より大きい。
このよう にして 、 ピッチ変換処理部 1 3 は 、 第 2周波数 g riカゝら の周波数 X 1 0 を次第に大きく しながらピッチ変換前の振幅スぺク 卜ルを順次ピッチ変換して行く その 変換対象の振幅スぺク トルの周波数が所定の周波数 g n - 2より小さ くなると、 第 2周波数 g nからの周波数の差 X 1 0が X 2 0 よ り大きくなる。 X 2 0 は、
X 2 0 をピッチ変換比 k倍した値が y 2 となる値である ( X 2 0 · k = y 2 ) 。 ピッチ変換処理部 1 3 は、 第 2周波数 g nからの周波 数の差が x 2 0 よ り大きく y 2 より小さい領域 (即ち、 周波数 g c 〜 g n - 2) に対して、 ピッチ変換後の振幅スペク トルをピッチ変換 前の中間周波数 g c に対する振幅スぺク トルの値 a Cに設定する。
以上のようにして、 あるピークスぺク トル P 1 とピークスぺク ト ル P 1 に隣接するピークスぺク トル P 2 との間の伸長によるピッチ 変換が実行される。 この場合、 第 1 周波数領域 A 1 の最大周波数 f 1 maxは周波数 g 3 であ り、 第 2周波数領域 A 2 の最小周波数 f 2 ffiinは g n - 2である。 実際の音データには、 一般にピークスぺク ト ルが 2以上存在している。 従って、 ピッチ変換処理部 1 3 は、 隣接 する二つのピークスペク トルに対して、 上述したピッチ変換を実行 して行く。
これによれば、 ピッチ変換処理の概要にて説明したよう に、 ピ一 クスぺク トル P 1 の近傍のスぺク トル分布 AM I はそのままの形状 を維持してピッチだけが変換されたスぺク トル分布 A M 1 0 に移行 される。 同様に、 ピ一クスペク トル P 2 の近傍のスペク トル分布 A M 2 はそのままの形状を維持してピッチだけが変換されたスぺク ト ル分布 A M 2 0 に移行される。 また、 中間周波数領域 ( f ] L max ~ f 2 min) の振 Iスペク トルは、 結果的に所定のピッチ変換比 p k にてピッチ変換される。 つまり、 周波数 f aの振幅スぺク 卜 周波数 aを周波数 f aの関数であるピッチ変換比 Ρ k ( f a ) 倍 した周波数の振幅スペク トルへと移行される。 従 て 、 入力音の特 徵を維持し、 且つ 、 ピッチ変換後のスペク トル分布 A M 1 0 と A M
2 0 との間にも振幅スぺク トルが存在するので、 7¾和感が生じる音 を含まないピ Vチ変換後の音データが生成される
2. 入力音デ ~タの圧縮
次に、 入力曰 ァ一夕を圧縮するピッチ変換の場合について説明す ると、 ピッチ変換処理部 1 3 は、 図 5 に示したよ に 、 第 1 周波数 1 の第 1 ピ クスぺク トル P 1 をピッチ変換後第 1 周波数 h 1 の スぺク トル (ピ一クスペク トル P 1 0 ) としてそのまま移動する。 前述したとおり 、 h l = k ' g l である。 kは 1 よ り小さい
次に、 ピッチ変換処理部 1 3 は、 第 1 周波数 g 1 よ Ό X 1 だけ大 きい周波数 g 2 に対応するピッチ変換後周波数 h 2 ( = k · g 2 ) の振幅スぺク 卜ルとして、 周波数 g 2 に対するピ Vチ 目' jの音デ 一夕の振幅スぺク トルの値 α 2ではなく、 ピッチ変換刖の音データ の第 1 周波数 g 1 よ り y 1 だけ大きい周波数 g 2 ' に対するヒッチ 変換前の立
曰 タの振幅スぺク トルの値ァ 2 を採用する しの場合 j ,
、 y 1 は X 1 にピッチ変換比 kを乗じた値であり (即ち 、 y 1 = k
• X 1 ) 、 y 1 は X 1 より も小さい。
このようにして 、 ヒッチ変換処理部 1 3 は 、 第 1周波数 g 1 から の周波数 X 1 を次第に大きく しながらピッチ亦 刖の振幅スぺク 卜 ルを順次ピッチ変換して行く。 その結果、 第 1 周波数 g 1 からの周 波数の差 X 1 が第 1 周波数 g 1から中間周波数 じ までの差 X c と 等しくなる しの場合も上記と同様に、 ピッチ変換処理部 1 3 は、 周波数 g C に対応するピッチ変換後周波数 h c ( = k · g c ) の振 幅スぺク 卜ルとして 、 周波数 g c に対するピ チ変換前の立
曰データ の振幅スぺク 卜ルの値 a Cではなく、 第 1 周波数 g 1 よ り y c ( = k · c ) だけ大さい周波数 g 4に対するピッチ変換前の立
曰データ の振幅スぺク 卜ルの値 Ύ C 1 を採用する。
同様に 、 ピッチ 換処理部 1 3 は、 第 2周波数 g nの第 2 ピーク スぺク ル P 2 をピッチ変換後第 2周波数 h nのスぺク 卜ル (ピー クスぺク 卜ル P 2 0 ) としてそのまま移動する 。 刖述したとおり、 n = k •
g nである
次に 、 ピ Vチ変換処理部 1 3は、 第 2周波数 g nよ り X 1 0 だけ 小さい周波数 g n - 1に対応するピッチ変換後周波数 h n - 1 ( = k ·
( g n - 0 ) の振幅スぺク 卜ルとして、 周波数 g n - 1に対するピッチ 変換前の曰丁 夕の振幅スベク トルの値 α n - 1ではなく 、 第 2周波 数 g nよ り y 1 0 だけ小さい周波数 g n - 1 ' に対する ピッチ変換前 の音デ一夕の振幅スぺク ルの値ァ n - 1を採用する。 この場合、 y
1 0 は X 1 0 にピッチ変換比 kを乗じた値であり (即ち 、 y 1 0 = k · X 1 0 ) 、 y 1 0 は X 1 0 より小さい。
このよ Όにして 、 ピッチ変換処理部 1 3 は 、 第 2周波数 s πカゝら の周波数 X 1 0 を次第に大きく しながら ピッチ変換前の振幅スぺク トルを順次ピッチ変換して行く。 その結果、 第 2周波数 g nからの 周波数の差 X 1 0が S X c と等しく なる。 この場合も上記と同様に
、 ピッチ変換処理部 1 3 は 、 周波数 g c に対 するピッチ変換後周 波数 h c ( = k g c ) の振幅スぺク トルとして、 周波数 g c に対
するピッチ 換 の音デ一夕の振幅スぺク トルの値ひ Cではなく、 第 2周波数 g nよ り y 1 C ( = k · X c ) だけ小さい周波数 g n _3 に対するピ Vチ変換前の音データの振幅スぺク トルの値 r C 2 を採 用する。
以上のよう にして、 あるピークスぺク トル P 1 とピークスぺク 卜 ル P 1 に隣接するピークスぺク トル P 2 との間の圧縮によるピッチ 変換が実行される。 この場合、 第 1周波数領域 A 1 の最大周波数 f l max及び第 2周波数領域 A 2 の最小周波数 f 2 m i iiは共に g c であ る 。 実際の音データの中にはピ クスぺク トルは 2以上存在してい る 。 従つて、 ピッチ変換処理部 3 は、 隣接する二つのピークスぺ ク トルに対して、 上述したピッ 変換を実行して行 <
これによつても、 ピッチ変換 理の概要にて説明したよラに、 ピ
―クスぺク トル P 1 の近傍のス ク 卜ル分布 A M 1 はそのままの形 状を維持してピッチだけが変換換処、チぺ。クさるさピしれたスぺク トル分布 A M 1 0 に移 行される。 |ロ]様に、 ピークスぺ トル P 2 の近傍のスぺク 卜ル分布
A M 2 はそのままの形状を維持 てピッチだけが変換されたスぺク 卜ル分布 A M 2 0 に移行される 従つて、 入力音の特徴を維持し、 且つ、 違和感が生じる音を発生 せることがないピッチ変換後の音 テ一夕が生成される。 以上が、 ッチ変換処理部 1 3 によるピッチ 換処理の実際の作動である。
以上 、 本発明によるピッチ変 の 施形態について説明した このピッチチ変換装置によれば 入力 の特徴を残し且 違和感の
ないピツチ変換後の音を発生す ための ~タを得る とができる なお 、 本発明は上記各実施形態に限定されることはな < 、 本 明 の範囲内に いて種々の変形例を採用することができる
例えば、
Figure imgf000019_0001
ッナ変換処理部 1 3 は 6 ( B ) のピッチ変換後の 中間周波数 域に対する実線 L 1 にて示したよ Ό 、 図 6 ( A ) の 中間周波数 域 A 3 内の各振幅スぺク 卜ルを周波 軸上で圧縮又は 伸長すると 、 各振幅スぺク 卜ルを上述した手法 てピッチ変換し た場合の各 幅スベク トル (図 6 ( B ) の破線 L にて示した曲線 ) よ り も小さい値とした上で (即ち 1 より小さ ゲイ ンをピッチ 変換した 幅スぺク トルに乗じた値を最終的なピ チ変換後の振幅 スぺク トルとする ことによ り) 圧縮又は伸長して よい。
更に、 ピ Vチ変換処理部 1 3 は、 図 7 ( A ) 示した音データを 上述した手法に従つて伸長することによ り ピッチ変換した結果、 所 定の高側閾値以上の周波数に対する振幅スぺク 卜ルが生じた場合、 図 7 ( B ) に示したように、 その高側閾値以上の領域についての振 幅スぺク トルを実質的に 0 にしてもよい。 この 合、 高側閾値は、 通常の楽音では現れる ことのない高音の周波数に 又定されている 同様に、 ピッチ変換処理部 1 3 は 、 図 7 ( A ) に示した音デ一夕 を上述した手法に従つて圧縮することにより ヒッチ変換した結果、 所定の低側閾値以下の周波数に対する振幅スぺク 卜ルが生じた場合 図 7 ( C ) に示したよう に 、 その低側閾値以下の領域についての 振幅スぺク トルを実質的に 0 にしてもよい この場合、 低側閾値は 通常の楽音では現れることのない低音の周波数に設定されている れらによれば、 周波数軸上での振幅スぺク 卜ルの圧縮又は伸長 に り、 通常の演奏などにおいてはあり得ない高周波数又は低周波 数に対する振幅スぺク 卜ルが発生した場合であつても、 そのような 周波数の振幅スぺク ルが削除されるので、 m采として、 良好な音 を得ることが可能な立
曰デ一夕を生成する ことがでさる。
また、 ピッチ変換処理部 1 3 は ピッチ変 ¾¾刖の各ピ一クスぺク 卜ルの包絡線を作成しておき、 振幅スぺク 卜ルの圧縮又は伸長によ る ピツチ変換後のスぺク トル分布が 、 作成しておいた包絡線より も 大さくなるような振幅スぺク トルを有するとさには、 その振幅スぺ ク ルが包絡線に沿 よう にピッチ変換後の振幅スペク トル (スぺ ク 卜ル分布) を修正してもよい。 れによれば、 より入力音の特徴 を維持することがでさる
更に、 第 1周波数 域 A 1及び第 2周波数領域 A 2 を特定 (指定
) する方法としては 隣り合う 2つの局所的ピ ク (第 1 ピ クス ぺク トル P 1及び第 2 ピークスぺク 卜ル P 2 ) 間で周波数軸を半分 に切り、 各半分を近い方の局所的ピ —クを含む領域に割当てる方法 あるいは隣り合う 2 つの局所的ピ —ク間で振幅値が最低の谷を見 出し、 最低の振幅値に対応する周波数を隣り □ Ό領域間の境界とす る方法等を採用する とができる。
また、 周波数領域表現に変換された音デー夕には、 通常、 振幅ス ぺク トルの局所的ピ一ク (ピークスぺク トル) が多数存在している そこで、 このような場合、 周波数領域を、 ピ クスぺク 卜ルを N 個 (複数であって、 Nは、 例えば、 2或いは 3 ) ずつ含む複数の領 域に区分し、 各区分された領域内のスぺク トルに対して本発明によ るピッチ変換手法を適用してもよい
即ち、 例えば、 伸張によ り ピッチを増加する場合において 複数 のピークスぺク トルに対応する周波数が f 0 f 1 f 2 f 3 f 4 、 f 5及び f 6 ( f 0 < f l < f 2 < f 3 < f 4 < f 5 < f 6
;) であるとき、 上記 Nの値を 3 に設定し、 f 0 、 f 1及び f 2 の 3 個 (N個) の周波数を含む周波数領域 (低側周波数領域) と 、 f 4
、 f 5及び f 6 の 3個 ( N個) の周波数を含む周波数領域 (高側周 波数領域) と、 に周波数領域を区分する。
そして、 各領域 (各区間) に本発明を適用するしとによ り 、 記 低側周波数領域に対応するピツチ変換後の周波数領域に対するスぺ ク トル ( f 0 に対する f 0 ' 、 f 1 に対する f 1 、 f 2 に対する f 2 ' にそれぞれピークスぺク トルを有するスぺク トル) を得ると ともに、 前記高側周波数領域に対応するピッチ変換後の周波数領域 に対するスベク トル ( f 4 に対する ί 4 ' 、 f 5 に対する f 5 、 f 6 に対する f 6 ' にそれぞれピークスペク トルを有するスぺク 卜 ル) を得てもよい。
また、 例えば、 上記例において圧縮により ピッチを減少する場合
、 : f 0 、 f 1 及び f 2 の 3個 (N個) の周波数を含む周波数領域 ( 第 1 セクシヨ ン) と、 f 2 、 f 3及び f 4 の 3個 ( N個) の周波数 を含む周波数領域 (第 2セクショ ン) と、 f 4 、 f 5及び f 6 の 3 個 (N個) の周波数を含む周波数領域 (第 3セクシヨ ン) と 、 に周 波数領域を区分する。
そして 、 各領域に本発明を適用することによ り、 第 1 セクシヨ ン に対応するピ Vチ変換後の周波数領域に対するスぺク 卜ル ( f 0 に
対する f 0 , 、 f 1 に対する f 1 ' 、 f 2 に対する f 2 にそれぞ れピークスぺク トルを有するスぺク トル) を得、 第 2セクシヨ ンに 対応するピッチ変換後の周波数領域に対するスぺク 卜ル ( f 2 に対 する f 2 、 f 3 に対する f 3 ' 、 f 4 に対する f 4 にそれぞれ ピークスぺク 卜ルを有するスぺク 卜ル) を得、 更に、 第 3セクショ ンに対応する ピツチ変換後の周波数領域に対するスぺク 卜ル ( f 4 に対する f 4 、 f 5 に対する f 5 ' 、 f 6 に対する f 6 ' にそれ ぞれピ一クスぺク トルを有するスぺク トル) を得ても い 。 但し、 このよ な処理を行う と、 各領域ごとの圧縮又は伸張に伴つて周波 数軸上に重複領域又は欠損領域が発生するので、 これらの領域に対 しては適当な方法により、 違和感の少ない音を生成するスベク トル を得るようにするとよい。

Claims

1 入力された時間領域表現の音デ 夕を周波数領域表現への立 曰 デ ―夕へと変換する時間周波数変換手段と 、
刖記周波数領域表現に変換された音丁一夕の振幅スぺク 卜ルのピ ッチを変換してピッチ変換後の音デー夕を生成するピッチ変換手段 と、
記ピッチ変換後の音 α 一夕を
青テ 周波 i 領域表現から時間領域表現 へと変換する周波数時間 換手段と、
刖記時間領域表現に変換された音デ 夕を出力する出力手段と 、 を備えたピツチ変換装置においのて、
前記ピッチ変換手段は 、
刖記周波数領域表現に変換された音ァ一夕の振幅スベク トルに基 づいて同音ァ一夕の特徴を表す振幅スぺク囲卜ルを選択振幅スぺク 卜 ルとして少 く とも 、
な 一つ m択し、 同選択振幅スぺク 卜ルに対する周 波数である 択周波数を含む所定の周波数領域である選択周波数領 域の振幅スぺク 卜ル分布の形状を実質的に維持しながら同音デ 夕 の振幅スぺク トルを周波数軸上で圧縮又は伸長するように構成され たピツチ変 装置。
2 入力された時間領域表現の音デ一タを周波数領域表現への立 曰 テ一夕へと変換する時間周波数変換手段と 、
前記周波数領域表現に変換された音テ一夕の振幅スぺク ルを周 波数軸上にて圧縮又は伸長することに り ピツチ変換後の立
曰 丁 夕 を生成するピッチ変換手段と 、
ーヽム
刖記ピッチ変換後の音デー夕を周波数領域表現から時間領域表現 へと変換する周波数時間変換手段と、
記時間領域表現に変換された音デ一タを出力する出力手段と 、 を備えたピッチ変換装置において、
刖記ピッチ変換手段は、
前記周波数領域表現に変換された音ァ一夕の振幅スぺク 卜ルに基 づいて同音データの特徴を表す振幅スぺク ルを選択振幅スぺク 卜 ルとして少なく とも一つ選択し、
選択振幅スぺク トルが、 同選択振幅スぺク トルに対する周波数 である選択周波数に所定のピツチ変換比 kを乗じて得られる周波 であるピッチ変換後選択周波数に対する振幅スぺク 卜ルとなるよつ に、 同選択振幅スぺク トルを周波数軸上で移動し 、
同選択周波数を含む所定の周波数領域である選択周波数領域の各 振幅スベク トルが 、 同各振幅スぺク 卜ルに対する周波数から同選択 周波数を減じた値に同ピッチ変換比 kよ り ち 1 に近い局所変換比 m を乗じた値を同ピツチ変換後選択周波数に加える とにより得られ る周波数の振幅スぺク 卜 レとなるよう に、 同選択周波数領域の各振 幅スぺク トルを周波数軸上で圧縮又は伸長し、
—ヽム つ
刖 PB選択周波数領域以外の各振幅スぺク 卜ルが 、 各振幅スぺク トルに対する周波数に同各振幅スぺク トルに応じたピッチ亦換比を 乗じて得られる周波数に対する振幅スぺク 卜ルとなるよ に 、 同選 択周波数領域以外の各振幅スぺク トルを周波数軸上で圧縮又は伸長 するよう に構成されたピッチ変換装置
3 . 入力された時間領域表現の音デ —夕を周波数領域表現への立 曰 データへと変換する時間周波数変換手段と、
前記周波数領域表現に変換された音デ一タの振幅スぺク トルを周 波数軸上にて圧縮又は伸長することによ り ピヅチ変換後の音データ を生成するピッチ変換手段と 、
刖 ύピッチ変換後の音デ一タを周波数領域表現から時間領域表現 へと変換する周波数時間変換手段と、
前記時間領域表現に変換された音デ —タを立
曰 として出力する出力 手段と、
を備えたピッチ変換装置において、
iu sdヒッチ変換手段は、
前記周波数領域表現に変換された音データの振幅スぺク トルの中 から少なく とも 2つのピークスぺク 卜ルである第 1 ピークスぺク ル及び同第 1 ピークスぺク トルに対する周波数である第 1 周波数よ り も高い第 2周波数を有する第 2 ピークスぺク 卜ルを選択し、 同第 1 ピ —クスぺク トルが 、 同第 1 周波数に所定のピッチ変換比 kを乗じて得られる周波数であるピッチ変換後第 1 周波数に対する 振幅スぺク トルとなるように 、 同第 1 ピークスぺク トルを周波数軸 上で移動し 、
同第 1 周波数を含む所定の周波数領域である第 1周波数領域の各 振幅スぺク トルが、 同各振幅スぺク トルに対する周波数から同第 1 周波数を減じた値に同ピツチ変換比 よ り 1 に近い局所変換比 m を乗じた値を同ピ チ変換後 1周波数に加える ことによ り得られ る周波数の振幅スぺク 卜ルとなるように、 第 1周波数 vM.域の各振 幅スぺク 卜ルを周波数軸上で圧縮又は伸長し 、
同第 2 ピ一クスぺク 卜ルが、 第 2周波数に同所定のピッチ変換 比 kを乗じてィ守られる周波数であるピッチ 換後第 2周波数に対す る振幅スぺク 卜ルとなるよ に 、 同第 2 ピ一クスぺク 卜ルを周波数 軸上で移動し 、
同第 2周波数を含む所定の周波数領域である第 2周波数領域の各 振幅スぺク 卜ルが 、 同各振幅スぺク ルに対する周波数から同第 2 周波数を減じた値に同局所変換比 mを乗じた値を同ピッチ変換後
2周波数に加える しとによ り得られる周波数の振幅スぺク ルとな るように、 第 2周波数領域の各振幅スぺク トルを周波数軸上で圧 縮又は伸長し 、
| 1第 1 周波数領域と同第 2周波数 域との間の中間周波数領域の 各振幅スぺク トルが、 同各振幅スぺク 卜ルに対する周波数に同各振 幅スぺク 卜ルに応じたヒッチ変換比を乗じて得られる周波数に対す る振幅スぺク トルとなるように 、 中間周波数領域の各振幅スぺク 卜ルを周波数軸上で圧縮又は伸長するように構成されたピッチ変換 装置
4 . 求の範囲 3 に記載のピッチ変換装 において、
記ピ チ変換手段は、
横軸の X軸にピッチ変換前の周波数、 縦軸の Y軸にピツチ変換後 の周波数をとつたク ラフを想定し 、 kを前記所定のピッチ変換比、 mを HU記局所変換比、 a 1 及び a 2 を所定の定数 、 前記第 1周波数 を f 1 、 m記第 2周波数を f 2 、 刖記第 1周波数領域の最大周波数 を f 1 max、 前記第 2周波数領域の最小周波数を 〕 f 2 m i nとするとき
L第 1 周波数領域においては Y = m • X + a 1 なる関数に基づ いて同第 1周波数領域内の各振幅スぺク ルを周波数軸上で圧縮又 は伸長し 、
刖記第 2周波数領域においては Y : m • X + a 2なる関数に基づ いて 第 2周波数領域内の各振幅スぺク 卜ルを周波数軸上で圧縮又 は伸長し、 kは k = ( (m - f 2 + a 2 ) 一 ( m - f 1 + a 1 ) ) / ( f 2 一 f 1 ) の関係を満たし、
前記中間周波数領域においては点 ( f 1 max, f 1 max+ a 1 ) と 点 ( f 2 min、 f 2 min+ a 2 ) とを結ぶ所定の関数 Y = T f (X) に基づいて同中間周波数領域内の各振幅スぺク トルを周波数軸上で 圧縮又は伸長するよう に構成されたピッチ変換装置。
5. 請求の範囲 3又は請求の範囲 4 に記載のピッチ変換装置にお いて、
前記ピッチ変換手段は、
前記中間周波数領域内の各振幅スぺク トルを周波数軸上で圧縮又 は伸長するとき、 各振幅スぺク トルを同各振幅スぺク トルより も小 さい値とした上で圧縮又は伸長するよう に構成されたピッチ変換装 置。
6. 請求の範囲 2乃至請求の範囲 5 の何れか一項に記載のピッチ 変換装置であって、
前記ピッチ変換手段は、
前記圧縮又は伸長後の周波数が所定の高側閾値以上の周波数とな つた領域についての振幅スぺク トルを実質的に 0 にするように構成 されたピッチ変換装置。
7. 請求の範囲 2乃至請求の範囲 6 の何れか一項に記載のピッチ 変換装置であつて、
前記ピッチ変換手段は、
前記圧縮又は伸長後の周波数が所定の低側閾値以下の周波数とな つた領域についての振幅スぺク トルを実質的に 0 にするように構成 されたピッチ変換装置。
PCT/JP2005/020156 2004-10-27 2005-10-27 ピッチ変換装置 WO2006046761A1 (ja)

Priority Applications (4)

Application Number Priority Date Filing Date Title
JP2006542410A JP4840141B2 (ja) 2004-10-27 2005-10-27 ピッチ変換装置
AT05800146T ATE515021T1 (de) 2004-10-27 2005-10-27 Tonhöhenumsetzungsvorrichtung
EP05800146A EP1806740B1 (en) 2004-10-27 2005-10-27 Pitch converting apparatus
US11/796,009 US7490035B2 (en) 2004-10-27 2007-04-25 Pitch shifting apparatus

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
JP2004311637 2004-10-27
JP2004-311637 2004-10-27

Related Child Applications (1)

Application Number Title Priority Date Filing Date
US11/796,009 Continuation US7490035B2 (en) 2004-10-27 2007-04-25 Pitch shifting apparatus

Publications (1)

Publication Number Publication Date
WO2006046761A1 true WO2006046761A1 (ja) 2006-05-04

Family

ID=36227984

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/JP2005/020156 WO2006046761A1 (ja) 2004-10-27 2005-10-27 ピッチ変換装置

Country Status (5)

Country Link
US (1) US7490035B2 (ja)
EP (1) EP1806740B1 (ja)
JP (1) JP4840141B2 (ja)
AT (1) ATE515021T1 (ja)
WO (1) WO2006046761A1 (ja)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2007240564A (ja) * 2006-03-04 2007-09-20 Yamaha Corp 歌唱合成装置および歌唱合成プログラム
WO2011048815A1 (ja) * 2009-10-21 2011-04-28 パナソニック株式会社 オーディオ符号化装置、復号装置、方法、回路およびプログラム

Families Citing this family (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8093484B2 (en) * 2004-10-29 2012-01-10 Zenph Sound Innovations, Inc. Methods, systems and computer program products for regenerating audio performances
US7598447B2 (en) * 2004-10-29 2009-10-06 Zenph Studios, Inc. Methods, systems and computer program products for detecting musical notes in an audio signal
US8249861B2 (en) * 2005-04-20 2012-08-21 Qnx Software Systems Limited High frequency compression integration
US8086451B2 (en) * 2005-04-20 2011-12-27 Qnx Software Systems Co. System for improving speech intelligibility through high frequency compression
JP5471858B2 (ja) * 2009-07-02 2014-04-16 ヤマハ株式会社 歌唱合成用データベース生成装置、およびピッチカーブ生成装置
WO2012144128A1 (ja) 2011-04-20 2012-10-26 パナソニック株式会社 音声音響符号化装置、音声音響復号装置、およびこれらの方法
GB2522836A (en) * 2013-12-02 2015-08-12 Neul Ltd Interference mitigation
CN111383646B (zh) * 2018-12-28 2020-12-08 广州市百果园信息技术有限公司 一种语音信号变换方法、装置、设备和存储介质

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH01211000A (ja) * 1988-02-18 1989-08-24 Toshiba Corp 音声再生装置
JP2000259164A (ja) * 1999-03-08 2000-09-22 Oki Electric Ind Co Ltd 音声データ作成装置および声質変換方法
JP2001356799A (ja) * 2000-06-12 2001-12-26 Toshiba Corp タイム/ピッチ変換装置及びタイム/ピッチ変換方法
JP2002215198A (ja) * 2001-01-16 2002-07-31 Sharp Corp 声質変換装置および声質変換方法およびプログラム記憶媒体
JP2003255998A (ja) * 2002-02-27 2003-09-10 Yamaha Corp 歌唱合成方法と装置及び記録媒体

Family Cites Families (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP3240908B2 (ja) * 1996-03-05 2001-12-25 日本電信電話株式会社 声質変換方法
US6549884B1 (en) 1999-09-21 2003-04-15 Creative Technology Ltd. Phase-vocoder pitch-shifting
US20010051879A1 (en) * 1999-12-01 2001-12-13 Johnson Robin D. System and method for managing security for a distributed healthcare application
JP4076887B2 (ja) * 2003-03-24 2008-04-16 ローランド株式会社 ボコーダ装置
JP4645241B2 (ja) * 2005-03-10 2011-03-09 ヤマハ株式会社 音声処理装置およびプログラム

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH01211000A (ja) * 1988-02-18 1989-08-24 Toshiba Corp 音声再生装置
JP2000259164A (ja) * 1999-03-08 2000-09-22 Oki Electric Ind Co Ltd 音声データ作成装置および声質変換方法
JP2001356799A (ja) * 2000-06-12 2001-12-26 Toshiba Corp タイム/ピッチ変換装置及びタイム/ピッチ変換方法
JP2002215198A (ja) * 2001-01-16 2002-07-31 Sharp Corp 声質変換装置および声質変換方法およびプログラム記憶媒体
JP2003255998A (ja) * 2002-02-27 2003-09-10 Yamaha Corp 歌唱合成方法と装置及び記録媒体

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
LAROCHE JEAN AND DOLSON MARK.: "New Phase-Vocoder Techniques for Pitch-Shifting, Harmonizing and other Exotic Effects.", PROC 1999 IEEE WORKSHOP ON APPLICATIONS OF SIGNAL PROCESSING TO AUDIO AND ACOUSTICS., 17 October 1999 (1999-10-17) - 20 October 1999 (1999-10-20), pages 91 - 94, XP010365068 *
MEKATA TSUYOSHI ET AL: "Hochoki eno Oyo o Koryo shita Formant Kyocho Hoho no Kento. ( Formant Enhancement Algorithm for a Hearing Aid and its Evaluation)", THE ACOUSTICAL SOCIETY OF JAPAN HEISEI 5 NENDO SHUNKI KENKYU HAPPYOKAI KOEN RONBUNSHU-I-., 17 March 1993 (1993-03-17), pages 285 - 286, XP002996800 *

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2007240564A (ja) * 2006-03-04 2007-09-20 Yamaha Corp 歌唱合成装置および歌唱合成プログラム
WO2011048815A1 (ja) * 2009-10-21 2011-04-28 パナソニック株式会社 オーディオ符号化装置、復号装置、方法、回路およびプログラム
JP5530454B2 (ja) * 2009-10-21 2014-06-25 パナソニック株式会社 オーディオ符号化装置、復号装置、方法、回路およびプログラム
US8886548B2 (en) 2009-10-21 2014-11-11 Panasonic Corporation Audio encoding device, decoding device, method, circuit, and program

Also Published As

Publication number Publication date
EP1806740B1 (en) 2011-06-29
EP1806740A1 (en) 2007-07-11
US20070282602A1 (en) 2007-12-06
ATE515021T1 (de) 2011-07-15
US7490035B2 (en) 2009-02-10
JPWO2006046761A1 (ja) 2008-05-22
EP1806740A4 (en) 2009-12-16
JP4840141B2 (ja) 2011-12-21

Similar Documents

Publication Publication Date Title
WO2006046761A1 (ja) ピッチ変換装置
US11341984B2 (en) Subband block based harmonic transposition
JP4286510B2 (ja) 音響信号処理装置及びその方法
JP4747835B2 (ja) オーディオ再生の効果付加方法およびその装置
JP5598536B2 (ja) 帯域拡張装置および帯域拡張方法
JP4031813B2 (ja) オーディオ信号処理装置、オーディオ信号処理方法およびその方法をコンピュータに実行させるプログラム
JP2006222867A (ja) 音響信号処理装置およびその方法
WO2015079946A1 (ja) 周波数帯域拡大装置および方法、並びにプログラム
JP4311034B2 (ja) 帯域復元装置及び電話機
JP2012163919A (ja) 音声信号処理装置、および音声信号処理方法、並びにプログラム
WO2018003849A1 (ja) 音声合成装置および音声合成方法
JP2009501958A (ja) オーディオ信号修正
US8492639B2 (en) Audio processing apparatus and method
WO2008015732A1 (fr) Dispositif et procédé d&#39;extension de bande
JP2004320516A (ja) 音響信号処理装置及びその方法
JP2008072600A (ja) 音響信号処理装置、音響信号処理プログラム、音響信号処理方法
JP3699912B2 (ja) 音声特徴量抽出方法と装置及びプログラム
WO2008010413A1 (fr) Dispositif, procédé et programme de synthèse audio
JP2014102317A (ja) 雑音除去装置、雑音除去方法、及びプログラム
JP4692606B2 (ja) 帯域復元装置及び電話機
JP5375861B2 (ja) オーディオ再生の効果付加方法およびその装置
CN113396456A (zh) 信号处理装置、方法和程序
JP5321171B2 (ja) 音処理装置およびプログラム
EP2038881B1 (en) Sound frame length adaptation
Ottosen et al. Weighted Thresholding and Nonlinear Approximation

Legal Events

Date Code Title Description
AK Designated states

Kind code of ref document: A1

Designated state(s): AE AG AL AM AT AU AZ BA BB BG BW BY BZ CA CH CN CO CR CU CZ DK DM DZ EC EE EG ES FI GB GD GE GM HR HU ID IL IN IS JP KE KG KM KP KR KZ LC LK LR LS LT LU LV LY MD MG MK MN MW MX MZ NA NG NO NZ OM PG PH PL PT RO RU SC SD SG SK SL SM SY TJ TM TN TR TT TZ UG US UZ VC VN YU ZA ZM

AL Designated countries for regional patents

Kind code of ref document: A1

Designated state(s): GM KE LS MW MZ NA SD SZ TZ UG ZM ZW AM AZ BY KG MD RU TJ TM AT BE BG CH CY DE DK EE ES FI FR GB GR HU IE IS IT LU LV MC NL PL PT RO SE SI SK TR BF BJ CF CG CI CM GA GN GQ GW MR NE SN TD TG

121 Ep: the epo has been informed by wipo that ep was designated in this application
WWE Wipo information: entry into national phase

Ref document number: 2006542410

Country of ref document: JP

WWE Wipo information: entry into national phase

Ref document number: 11796009

Country of ref document: US

NENP Non-entry into the national phase

Ref country code: DE

WWE Wipo information: entry into national phase

Ref document number: 2005800146

Country of ref document: EP

WWP Wipo information: published in national office

Ref document number: 2005800146

Country of ref document: EP

WWP Wipo information: published in national office

Ref document number: 11796009

Country of ref document: US