WO2004040555A1 - 音声強調装置 - Google Patents

音声強調装置 Download PDF

Info

Publication number
WO2004040555A1
WO2004040555A1 PCT/JP2002/011332 JP0211332W WO2004040555A1 WO 2004040555 A1 WO2004040555 A1 WO 2004040555A1 JP 0211332 W JP0211332 W JP 0211332W WO 2004040555 A1 WO2004040555 A1 WO 2004040555A1
Authority
WO
WIPO (PCT)
Prior art keywords
vocal tract
unit
spectrum
formant
characteristic
Prior art date
Application number
PCT/JP2002/011332
Other languages
English (en)
French (fr)
Inventor
Masanao Suzuki
Masakiyo Tanaka
Yasuji Ota
Yoshiteru Tsuchinaga
Original Assignee
Fujitsu Limited
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fujitsu Limited filed Critical Fujitsu Limited
Priority to PCT/JP2002/011332 priority Critical patent/WO2004040555A1/ja
Priority to CNB028295854A priority patent/CN100369111C/zh
Priority to JP2004547997A priority patent/JP4219898B2/ja
Priority to EP02779956.8A priority patent/EP1557827B8/en
Publication of WO2004040555A1 publication Critical patent/WO2004040555A1/ja
Priority to US11/060,188 priority patent/US7152032B2/en

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/06Determination or coding of the spectral characteristics, e.g. of the short-term prediction coefficients
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0316Speech enhancement, e.g. noise reduction or echo cancellation by changing the amplitude
    • G10L21/0364Speech enhancement, e.g. noise reduction or echo cancellation by changing the amplitude for improving intelligibility

Definitions

  • the present invention relates to a voice emphasizing device that makes it easy to hear a received voice of a mobile phone or the like in an environment where there is ambient background noise.
  • the easiest way to make the received voice easier to hear in a noisy environment is to increase the receiving volume according to the noise level.
  • the receiving volume is set too high, the input to the speaker of the mobile phone becomes excessive and the sound is distorted, which may degrade the sound quality.
  • increasing the volume of the received sound increases the burden on the hearing of the listener (user) and is not favorable for health.
  • Figure 1 shows an example of a voice frequency spectrum.
  • Figure 1 shows the case where there are three peaks (formants) in the spectrum.
  • the first formant, second formant, and third formant are called in order from the lowest frequency, and the peak frequency of each formant (1), (2), or (3) is called the formant frequency.
  • amplitude (power) of a speech spectrum tends to decrease as the frequency increases.
  • speech intelligibility is closely related to formants, and emphasis on higher (second and third) formants can improve speech intelligibility. It is known.
  • Fig. 2 shows an example of spectrum enhancement.
  • the solid line in FIG. 2 (a) and the dotted line in FIG. 2 (b) represent the speech spectrum before emphasis.
  • the solid line in FIG. 2 (b) shows the speech spectrum after emphasis.
  • the slope of the entire spectrum is flattened by increasing the amplitude of the higher-order formants, and this can improve the intelligibility of the entire speech.
  • FIG. 3 shows a block diagram of this conventional technique.
  • the spectrum of the input voice is obtained by a spectrum estimating unit 100, and the convex band (peak) and the concave band (valley) determining unit 101 are used to determine the convex band and the concave portion from the obtained spectrum. Find the band, and calculate the amplification factor (or attenuation factor) for the convex band and the concave band.
  • a coefficient for realizing the amplification rate (or attenuation rate) is provided to the filter section 103 by the filter section 102, and the input voice is input to the filter section 103 to obtain a spectrum. Achieve emphasis. .
  • voice enhancement is realized by individually amplifying and attenuating peaks and valleys of the voice spectrum.
  • Figure 4 shows a model for speech generation.
  • the sound source signal generated by the sound source (vocal cord) 110 is input to the articulatory system (vocal tract) 111, and after the vocal tract characteristics are added to the vocal tract 11
  • the speech is output as a speech waveform from the lips 112 (see “Highly efficient speech coding”, pp. 69-71, written by Kazuo Nakata, Morikita Publishing).
  • Figures 5 and 6 show examples.
  • Figure 5 shows the input speech spectrum before emphasis processing.
  • Fig. 6 shows the spectrum when the input speech in Fig. 5 is emphasized by the method using the band division filter.
  • the amplitude of high-frequency components above 2 kHz is amplified while maintaining the general shape of the spectrum.
  • the portion between 500 Hz and 2 kHz is significantly different from the vector in Fig. 5 before emphasis, indicating that the sound source characteristics are broken.
  • the distortion of the sound source characteristic is increased and the sound quality may be deteriorated.
  • Figures 7 and 8 show that higher-order formants are emphasized. However, at around 0.95 seconds and around 1.03 seconds in Fig. 8, there is a discontinuity in the spectrum after enhancement. That is, in the spectrum before emphasis in FIG. 7, the formant frequency changes smoothly, but in FIG. 8, the formant changes discontinuously. This formant discontinuity is perceived as noise when the processed speech is actually heard.
  • An object of the present invention has been devised in view of the above-described problems in the conventional technology.
  • a speech enhancement device that achieves the object of the present invention includes, as a first aspect, a signal separation unit that separates an input speech signal into sound source characteristics and vocal tract characteristics, and a feature that extracts characteristic information from the vocal tract characteristics.
  • An extraction unit a corrected vocal tract characteristic calculation unit that obtains vocal tract characteristic correction information from the vocal tract characteristics and the characteristic information, and a vocal tract characteristic correction unit that corrects the vocal tract characteristics using the vocal tract characteristic correction information.
  • a signal synthesizing unit for synthesizing the modified vocal tract characteristics from the vocal tract characteristic correction unit and the sound source characteristics; It is characterized by force.
  • a speech enhancement device that achieves the above object of the present invention includes, as a second aspect, an autocorrelation calculation unit that obtains an autocorrelation function from input speech of a current frame; and an autocorrelation unit that stores the autocorrelation of the current frame.
  • a buffer unit that outputs a correlation function, an average autocorrelation calculating unit that calculates a weighted average of the autocorrelation of the current frame and the autocorrelation function of the past frame, and calculates an inverse filter coefficient from the weighted average of the autocorrelation function
  • a first filter coefficient calculator an inverse filter configured by the inverse filter coefficient, a spectrum calculator that calculates a frequency spectrum from the inverse filter coefficient, and the calculated frequency spectrum
  • a formant estimator for estimating a formant frequency and a formant amplitude from a vector; the calculated frequency spectrum;
  • An amplification factor calculating unit that obtains an amplification factor from the gain frequency and the formant amplitude; a spectrum emphasis unit that changes the calculated frequency spectrum based on the amplification factor, and obtains a changed frequency spectrum;
  • a second filter coefficient calculating unit that calculates a synthesis filter coefficient from the changed frequency spectrum; and a synthesis filter including the synthesis filter coefficient, and inputs the input voice to the inverse filter
  • a speech enhancement apparatus that achieves the above object of the present invention includes, as a third aspect, a linear prediction coefficient analysis unit that analyzes a linear prediction coefficient of an input speech signal of a current frame to obtain an autocorrelation function and a linear prediction coefficient, An inverse filter composed of coefficients, a first spectrum calculating unit for obtaining a frequency spectrum from the linear prediction coefficients, and storing an autocorrelation of the current frame and outputting an autocorrelation function of a past frame A buffer unit, an average autocorrelation calculating unit for obtaining a weighted average of the autocorrelation function of the current frame and the autocorrelation function of the past frame, and a first filter for calculating an average filter coefficient from the weighted average of the autocorrelation function.
  • Frequency spectrum A spectrum emphasizing unit that obtains a changed frequency spectrum, a second filter coefficient calculating unit that calculates a synthetic filter coefficient from the changed frequency spectrum, and The input signal is input to the inverse filter to obtain a residual signal, and the residual signal is input to the synthetic filter to obtain an output sound.
  • a voice emphasizing apparatus for achieving the above object, comprising: an autocorrelation calculating unit for obtaining an autocorrelation function from an input voice of a current frame; storing an autocorrelation of the current frame; A buffer for outputting a correlation function; an average for calculating a weighted average of the autocorrelation of the current frame and the autocorrelation function of the past frame; and an autocorrelation calculator for calculating an inverse filter coefficient from the weighted average of the autocorrelation function.
  • a first filter coefficient calculating unit to calculate, an inverse filter coefficient configured by the inverse filter coefficient, a spectrum calculating unit to calculate a frequency spectrum from the inverse filter coefficient, and the frequency spectrum
  • a formant estimating unit for estimating a formant frequency and a formant amplitude from a vector, the frequency spectrum, the formant frequency and the formant amplitude
  • a temporary gain calculating unit that calculates a temporary gain of the current frame from the current frame, a difference calculating unit that calculates a differential gain between the temporary gain and the gain of the previous frame, and a difference calculated from a predetermined threshold value.
  • a spectrum emphasizing unit that has an amplification factor determining unit that changes the frequency spectrum based on the amplification factor of the current frame, and obtains a changed frequency spectrum.
  • a second filter coefficient calculator for calculating a composite filter coefficient from the frequency spectrum; a composite filter composed of the composite filter coefficient; and a pitch enhancement calculating a pitch enhancement coefficient from the residual signal. Coefficient calculation And a pitch emphasis filter configured by the pitch emphasis coefficient. The input voice is input to the inverse filter, a residual signal is obtained, and the residual signal is input to the pitch emphasis filter. To obtain a residual signal in which the pitch periodicity is emphasized, and input the pre-emphasized residual signal to the synthesized filter to obtain an output voice.
  • a voice emphasizing apparatus for achieving the above object.
  • An enhancement filter that enhances a part of the frequency band of the signal, a signal separation unit that separates the input audio signal enhanced by the enhancement filter into a sound source characteristic and a vocal tract characteristic, and extracts feature information from the vocal tract characteristic
  • a vocal tract characteristic correction unit for obtaining vocal tract characteristic correction information from the vocal tract characteristic and the characteristic information; and a vocal tract characteristic correction for correcting the vocal tract characteristic using the vocal tract characteristic correction information.
  • a signal synthesizing unit for synthesizing the modified vocal tract characteristics from the vocal tract characteristic correcting unit and the sound source characteristics, and outputs a voice synthesized by the signal synthesizing unit.
  • a voice emphasizing device that achieves the above object is a signal separating unit that separates an input voice signal into a sound source characteristic and a vocal tract characteristic, and a feature that extracts characteristic information from the vocal tract characteristic.
  • a signal synthesizer for combining the modified vocal tract characteristics from the vocal tract characteristic corrector with the sound source characteristics; and a filter for enhancing a partial frequency band of the signal synthesized by the signal synthesizer. It is characterized by the following.
  • FIG. 1 is a diagram illustrating an example of a frequency spectrum of speech.
  • FIG. 2 is a diagram illustrating an example of a frequency spectrum of a voice before and after emphasis.
  • FIG. 3 shows a block diagram of a prior art described in Japanese Patent Application Publication No. 2000-1-177573.
  • FIG. 4 is a diagram showing a speech generation model.
  • FIG. 5 is a diagram illustrating an example of the spectrum of the input voice.
  • FIG. 6 is a diagram illustrating an example of a spectrum when emphasized in a frame unit.
  • FIG. 7 is a diagram showing the spectrum of the input voice (before emphasis).
  • FIG. 8 is a diagram showing an audio spectrum when the spectrum is emphasized in frame units.
  • FIG. 9 is a diagram showing a principle diagram of the present invention.
  • FIG. 10 is a diagram showing a configuration block of the first embodiment of the present invention.
  • FIG. 11 is a flowchart showing the processing of the amplification factor calculating section 6 in the embodiment of FIG.
  • FIG. 12 is a diagram showing a state when the amplitude of the formant E () is adjusted to the reference power Pmv-re / in the embodiment of FIG.
  • FIG. 13 is a diagram for explaining that the amplification factor at the frequency between formants is obtained by an interpolation curve R (,).
  • FIG. 14 is a diagram showing a configuration block of a second embodiment of the present invention.
  • FIG. 15 is a diagram showing a configuration block of a third embodiment of the present invention.
  • FIG. 16 is a diagram showing a configuration block of a fourth embodiment of the present invention.
  • FIG. 17 is a diagram showing a configuration walk of the fifth embodiment of the present invention.
  • FIG. 18 is a diagram showing a configuration block of a sixth embodiment of the present invention.
  • FIG. 19 is a diagram showing a spectrum emphasized according to the present invention.
  • FIG. 20 is a diagram illustrating the principle of the present invention for solving the problem that the sense of noise increases when the amplification factor greatly changes between frames.
  • FIG. 21 is a diagram showing another principle of the present invention, which solves the problem that the sense of noise increases when the transmission rate greatly changes between frames.
  • FIG. 22 is a diagram showing a configuration block of an embodiment of the present invention according to the principle diagram of FIG. BEST MODE FOR CARRYING OUT THE INVENTION
  • FIG. 9 is a diagram showing the principle of the present invention.
  • the separating unit 20 separates an input voice into a sound source characteristic and a vocal tract characteristic, emphasizes the sound source characteristic and the vocal tract characteristic individually, and thereafter,
  • the synthesizing unit 21 synthesizes and outputs. The processing in FIG. 9 is described below.
  • the average spectrum calculation unit 1 of the unit 20 calculates the average spectrum ((0 ⁇ / ⁇ N f )).
  • the average spectrum calculation unit 1 which is a linear prediction circuit first calculates the autocorrelation function of the current frame.
  • an average autocorrelation is obtained by a weighted average of the autocorrelation function of the current frame and the autocorrelation function of the past frame. From the average autocorrelation, the average spectrum (/ ⁇ ) is obtained.
  • N f is the number of data points in the spectrum, and N ⁇ N F.
  • the input speech is input to the inverse filter 3 in the separation unit 20 composed of the obtained inverse filter coefficients ⁇ ), and the residual signal? ( ⁇ ), ( ⁇ w ⁇ N) is determined.
  • the input speech can be separated into a residual signal r (which is a sound source characteristic) and a spectrum ⁇ (/) which is a vocal tract characteristic.
  • the residual signal r (is input to the pitch emphasizing unit 4, where a residual signal whose pitch periodicity is emphasized is obtained.
  • the spectrum s Pl (l) which is a vocal tract characteristic, is input to the formant estimating unit 5 as a feature extracting unit, and the formant frequency or (), (l ⁇ A: ⁇ A: max ) and the formant amplitude flm; Estimate? (:), (l ⁇ : ⁇ A max ).
  • max is the number of formants to be estimated.
  • A: The value of max is arbitrary, but max 4 or 5 for audio with a sampling frequency of 8 kHz.
  • spectrum iota (Ri and formant or frequency () and enter the formant amplitude amplification factor calculating unit 6 calculates the amplification factor (Ri with respect to the scan Bae spectrum iota (Zeta).
  • the spectrum ⁇ (R) and the amplification factor (R are input to the spectrum emphasizing unit 7 to obtain the emphasized vector 2 (R.
  • the enhanced spectrum 2 (R Input to the second filter coefficient calculator 8 for calculating the coefficient of 9 to obtain the combined filter coefficient ⁇ 2 ( ⁇ ⁇ ), (1 ⁇ ⁇ ⁇ ;? 2 ) where 2 is the combined filter 9 This is the order of the filter evening.
  • the residual signal after pitch emphasis by the pitch emphasizing unit 4 is input to the synthesis filter coefficient ⁇ 2 (synthesis filter 9 composed of a filter), and output speech y ("), (0 ⁇ w ⁇ N) is obtained.
  • the emphasized sound source characteristics and the vocal tract characteristics are synthesized.
  • the input speech is separated into the sound source characteristics (residual signal) and the vocal tract characteristics (spectral envelope)
  • enhancement processing suitable for each characteristic can be performed.
  • the voice periodicity can be improved by enhancing the pitch periodicity for the sound source characteristics and the formant for the vocal tract characteristics.
  • FIG. 10 is a block diagram of the configuration of the first embodiment according to the present invention.
  • the average spectrum calculation unit 1 in the separation unit 20 is divided before and after the filter coefficient calculation unit 2, and the input sound of the current frame is input before the filter coefficient calculation unit 2.
  • the signal (, (0 ⁇ « ⁇ N) is input to the autocorrelation calculator 10, and the autocorrelation function c () (), (0 ⁇ ) of the current frame is calculated by equation (1).
  • N is the frame length, is the frame number of the current frame, and is the order of the inverse filter 3 described later.
  • the separation unit 20 outputs the auto-correlation function flc (m-)), (1 ⁇ , 0 ⁇ /) in the L frame immediately before from the buffer unit 11.
  • the autocorrelation calculation unit The autocorrelation function of the current frame obtained in step 10 "c (m)" From the previous autocorrelation, the average autocorrelation calculating section 12 obtains the average autocorrelation c AE (r).
  • the method of obtaining the average autocorrelation i? C AE (i ') is arbitrary.
  • the weighted average of the equation (2) can be used.
  • w is a weight coefficient.
  • the state of the buffer unit 11 is updated as follows. First, the oldest)) in the past autocorrelation function stored in the buffer section 11 is discarded. Next, the calculated in the current frame is stored in the buffer unit 11. Further, in the separating unit 20, the first filter coefficient calculating unit 2 calculates the average autocorrelation fl ⁇ (calculated by the average autocorrelation calculating unit 12 by a known method such as the Levinson algorithm from the inverse filter coefficient ( ), (1 ⁇ ⁇ ).
  • the input voice; c is input to the inverse filter 3 composed of the filter coefficients, and the residual signal r (), ⁇ « ⁇ ) is obtained as a sound source characteristic by the equation (3).
  • R (n) ⁇ ⁇ ) + ⁇ ⁇ (x (n - ⁇ ), (0 ⁇ n ⁇ N) (3)
  • the spectrum calculation section 112 placed downstream of the filter coefficient calculation section 2 converts the coefficient obtained by the filter coefficient calculation section 2) into the following equation (4).
  • Ru asked the LP C scan Bae spectrum ⁇ (Ri as vocal tract characteristics.
  • N f is the number of data points in the spectrum.
  • the sampling frequency is E s
  • the frequency resolution of LPC spectrum is The variable ⁇ is an index of the spectrum and represents the discrete frequency. / Is converted to frequency [Hz] It becomes. Int [x] means that the variable X is converted to an integer (the same applies to the following description).
  • the input voice can be separated into the sound source signal (residual signal r (, (0 ⁇ n ⁇ N)) and the vocal tract characteristic (LPC spectrum ⁇ ( ⁇ )) by the separation unit 20.
  • the spectrum ⁇ ( ⁇ ) is input to the formant estimating unit 5 as an example of the feature extracting unit, and the formant frequency is (), (1 ⁇ ⁇ : max ) and ⁇ formant amplitude " (), (1 ⁇ ⁇ max ) where; max is the number of formants to be estimated.
  • a known method such as a method of obtaining from a root of a higher-order equation having a coefficient of inverse fill coefficient or a peak picking method of estimating formant from a frequency spectrum peak is used. it can. From the lowest formant frequency, or (1), (2), ⁇ , or (: max ).
  • a threshold may be set for the formant bandwidth, and only the frequency at which the bandwidth is equal to or less than the threshold may be set as the formant frequency.
  • the spectrum ( ⁇ ), the discrete formant frequency or / (), and the formant amplitude amp () are input to the amplification factor calculation unit 6, and the amplification factor for the spectrum ( ⁇ ) is calculated.
  • the processing of the amplification factor calculating section 6 includes calculation of the reference power (processing step P1), calculation of the formant amplification factor (processing step P2), and interpolation of the amplification factor (processing step P2). Processing is performed in the order of the process P 3). Hereinafter, each process will be described in order.
  • Processing step P 1 Calculate reference power Pmv—re / from spectrum ⁇ ( ⁇ ).
  • the calculation method is arbitrary, for example, the average power of the entire frequency band or the average power of the low frequency band can be used as the reference power.
  • Pow-re / is expressed by the following equation (5).
  • Processing step P 2 For adjusting the amplitude of the formant () to the reference power re /
  • the amplification factor is calculated by the following equation (6).
  • FIG. 12 shows how the amplitude of the formant E (jt) is adjusted to the reference power-re /. Further, in FIG. 12, the amplification factor) at the frequency between formants is obtained by the interpolation curve R (, /).
  • the shape of the interpolation curve R (, /) is arbitrary, but for example, a linear function or a quadratic function can be used.
  • Fig. 13 shows an example in which a quadratic curve is used as the interpolation curve? (, G. Define the interpolation curve R (Z) as in equation (7). It is a paramete that determines the shape of the curve.
  • the amplification factor between the adjacent formants F () and E (+1) in this interpolation curve Set the minimum point.
  • the setting method of the minimum point is arbitrary.
  • the frequency (or Z (R + // (+ 1)) / 2 can be set to the minimum point and the amplification factor at that time can be set to G ().
  • is a constant, and 0 ⁇ y ⁇ 1.
  • the input voice can be separated into the sound source characteristics and the vocal tract characteristics, and only the vocal tract characteristics can be emphasized.
  • the pitch emphasis unit 4 is omitted in the embodiment of FIG. 10, the pitch emphasis unit 4 is arranged on the output side of the inverse filter 3 according to the principle diagram shown in FIG. It is also possible to perform pitch enhancement processing on r (.
  • FIG. 14 is a block diagram showing the configuration of the second embodiment of the present invention.
  • FIG. 10 shows that the LPC coefficient obtained from the input speech of the current frame is used as the inverse filter coefficient. Different from the first embodiment shown, the rest is the same as the first embodiment.
  • the input signal of the current frame is compared with the case of using the LPC coefficient having the average frequency characteristic as in the first embodiment.
  • the LPC coefficient obtained from the signal as the coefficient of the inverse filter 3 has a higher prediction gain, and the vocal tract characteristics and the sound source characteristics can be accurately separated.
  • the input speech of the current frame is subjected to LPC analysis by the LPC analysis unit 13 and the obtained LPC coefficient (R, (lsi ⁇ A)) is used as a coefficient of the inverse filter 3.
  • the LPC coefficient (the spectrum is calculated from the spectrum by the second spectrum calculator 1-2B).
  • the method of calculating the spectrum ⁇ (R) is the same as that of the equation (4) in the first embodiment.
  • the first spectrum calculating section 1-2 calculates the average spectrum, and calculates the average spectrum.
  • the formant estimator 5 obtains the formant frequency () and the formant amplitude mp (A :).
  • the gain is calculated by the gain calculating unit 6 from the spectrum 3 ⁇ 4 (the formant frequency or () and the formant amplitude ap ()), and the gain is calculated based on the gain.
  • the spectrum emphasis unit 7 performs spectrum emphasis and obtains the emphasized spectrum 2). From the emphasized spectrum 2 ( ⁇ ), the composite filter coefficient 2 (set in the composite filter 9) to be set in the composite filter 9 is obtained, and the residual signal r (is input to the composite filter 9 and the output voice _y (Is obtained.
  • the vocal tract characteristics and the sound source characteristics of the current frame are accurately separated, and based on the average spectrum.
  • the clarity can be improved by smoothly enhancing the vocal tract characteristics.
  • the third embodiment differs from the first embodiment in that an automatic gain control unit (AGC unit) 14 is provided to control the amplitude of the synthesis filter 9); This is the same as the first embodiment.
  • A is set so that the power ratio between the input audio signal (and the final output audio signal z (becomes 1
  • the gain is adjusted by the 0 ⁇ unit 14.
  • the AGC unit 14 any method is possible for the AGC unit 14, for example, the following method can be used.
  • the amplitude ratio is calculated from the input audio signal x (n) and the synthesized output y (n) according to equation (14). Ask for.
  • N is the frame length.
  • the input voice x (n) is determined by the sound source characteristics and the vocal tract. It is possible to separate the vocal tract characteristics from the vocal tract characteristics. As a result, it is possible to suppress spectral distortion that occurs when simultaneously emphasizing the vocal tract characteristics and the sound source characteristics, which are problems in the related art, and to improve clarity.
  • FIG. 16 shows a block diagram of the fourth embodiment of the present invention.
  • the present embodiment differs from the first embodiment in that pitch enhancement processing is performed on the residual signal ro) output from the inverse filter 3 according to the principle diagram of FIG. This is the same as the embodiment of FIG.
  • the method of pitch enhancement by the pitch enhancement filter 4 is arbitrary.
  • a pitch coefficient calculator 4-1 is provided, and the following method can be used.
  • the autocorrelation rscor (i) of the residual signal of the current frame is obtained by equation (17), and the pitch lag ⁇ ⁇ at which the autocorrelation racor (i) is maximized is obtained.
  • the method of calculating the pitch prediction coefficient can be obtained by a known method such as the Levinson algorithm.
  • the inverse fill output r (w) is input to the pitch emphasis fill 4 to obtain a voice: whose pitch periodicity is emphasized.
  • the pitch enhancement filter 4 a filter represented by the transfer function of equation (18) can be used. Here, is a weighting factor.
  • the pitch period component included in the residual signal can be emphasized by adding the pitch emphasis filter 4, and the voice clarity compared with the first embodiment is improved. Can be further improved.
  • FIG. 17 shows a configuration block diagram of a fifth embodiment of the present invention.
  • the second embodiment is different from the first embodiment in that the second buffer unit 15 for holding the amplification factor of the previous frame is provided, and the other configuration is the same as that of the first embodiment.
  • a temporary gain sggi(/) is obtained in the gain calculator 6 from the spectrum ⁇ ( ⁇ ), the formant frequency (), and the amplitude ampij from the spectrum calculator 1-2.
  • the method of calculating the provisional amplification factor is the same as the method of calculating the amplification factor 8 (Ri in the first embodiment.
  • the provisional amplification factor s solicit(Ri and the pre-frame output from the buffer 15 are output.
  • Frame amplification factor S— (Amplification factor of the current frame from the frame) S (Z) is calculated, where: Previous frame width ratio — 0 W (R is the final gain calculated in the previous frame.
  • Previous frame width ratio — 0 W (R is the final gain calculated in the previous frame.
  • the procedure for obtaining the amplification factor is as follows.
  • Provisional amplification factor 8 ⁇ (Ri and previous frame amplification factor jS—oW (Ri difference
  • the gain of the previous frame is the same as that of the first embodiment except for the part for obtaining the amplification factor 3 Description is omitted.
  • the amplification factor in the previous frame is selectively used so that the amplification factor does not change rapidly between frames. This makes it possible to improve clarity while suppressing an increase in noise due to spectral enhancement.
  • FIG. 18 shows a configuration block diagram of a sixth embodiment of the present invention.
  • This embodiment shows a configuration in which the first and third to fifth embodiments are combined. The overlapping part is the same as in the other embodiments, and the description is omitted.
  • FIG. 19 is a diagram showing a speech spectrum emphasized by the above embodiment. The effect of the present invention is clear when the spectrum of FIG. 19 is compared with the input speech spectrum before emphasis shown in FIG. 7 and the spectrum emphasized in frame units shown in FIG.
  • the input voice is separated into the sound source characteristics and the vocal tract characteristics, and the vocal tract characteristics and the sound source characteristics are individually It is possible to emphasize. This makes it possible to suppress the distortion of the spectrum, which has been a problem in the prior art for emphasizing the voice itself, and to improve clarity.
  • FIGS. 20 and 21 the principle configuration of FIGS. 20 and 21 is applied by the present invention.
  • the principle configuration shown in FIGS. 20 and 21 is characterized in that it has a two-stage configuration of dynamic fill I and fixed fill.
  • Fig. 20 shows a principle diagram in which the fixed filter II is placed after the dynamic filter I.
  • the fixed filter II is replaced with the dynamic filter I. It may be placed in the first stage.
  • the parameters used in the dynamic filter I are calculated by analyzing the input speech.
  • the dynamic filter I uses a configuration according to the principle shown in FIG. 9 described above.
  • FIGS. 20 and 21 schematically show the principle configuration shown in FIG.
  • the dynamic filter I is composed of a separation function unit 20 that separates input speech into sound source characteristics and vocal tract characteristics, a feature extraction function unit 5 that extracts formant features from vocal tract characteristics, and a feature extraction function unit 5.
  • Amplification ratio calculation function unit 6 that calculates the amplification factor based on the obtained formant characteristics, a spectrum function unit 7 that emphasizes the spectrum of the vocal tract characteristics according to the calculated amplification factor, and sound source characteristics and spectrum It has a synthesis function unit 21 for synthesizing the emphasized vocal tract characteristics.
  • the fixed filter II has a filter characteristic having a constant pass band in a predetermined range of frequency width.
  • the frequency band to be emphasized by the fixed filter II is arbitrary.
  • a high-frequency band of 2 kHz or more or a band-enhanced filter that emphasizes an intermediate band component of 1 kHz to 3 kHz can be used.
  • the fixed filter II amplifies some frequency bands, and the dynamic filter I enhances the formants. Since the gain of Fixed Fill II is fixed, there is no change in gain between frames. With such a configuration, excessive emphasis by the dynamic filter I can be prevented, and clarity can be improved.
  • FIG. 22 is a block diagram of the configuration of a further embodiment of the present invention based on the principle diagram of FIG. This embodiment uses the configuration of the third embodiment described above as the dynamic filter I. Therefore, the detailed description is omitted.
  • an input voice is separated into a sound source characteristic and a vocal tract characteristic by a dynamic filter I, and only the vocal tract characteristic is emphasized.
  • the vocal tract features It is possible to suppress the spectral distortion that occurs when simultaneously enhancing the characteristics and the sound source characteristics, and improve the clarity. Further, by adjusting the gain by the AGC unit 14 so that the amplitude of the output sound does not become excessively large compared to the input signal due to the spectrum enhancement, it is possible to obtain a smooth and highly natural output sound.
  • the vocal tract characteristics and the sound source characteristics can be individually enhanced by the present invention.
  • the vocal tract characteristics are emphasized, by emphasizing based on the average spectrum, a rapid change in the amplification factor between frames is reduced, so that good sound quality with little noise can be realized.
  • the present invention enables favorable voice communication in a mobile phone, and can contribute to further spread of the mobile phone.

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Human Computer Interaction (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Quality & Reliability (AREA)
  • Telephone Function (AREA)
  • Electrophonic Musical Instruments (AREA)
  • Circuit For Audible Band Transducer (AREA)

Abstract

フレーム間での増幅率の急激な変化が軽減し、雑音感の少ない良好な音質を実現するために、入力音声を音源特性と声道特性とに分離し、音源特性と声道特性を個別に強調し、その後合成して出力する音声強調装置が提供される。前記音声強調装置は、一の特徴として入力音声信号を音源特性と声道特性とに分離する信号分離部と、前記声道特性から特徴情報を抽出する特徴抽出部と、前記声道特性と前記特徴情報から声道特性修正情報を求める修正声道特性算出部と、前記声道特性修正情報を用いて前記声道特性を修正する声道特性修正部と、前記声道特性修正部からの修正声道特性と前記音源特性を合成する信号合成手段を有し、前記信号合成手段により合成した音声を出力する。

Description

m
発明の背景
技術分野
本発明は、 周囲の背景雑音がある環境において、 携帯電話等における受話音声 を聞きやすくする音声強調装置に関する。
従来の技術
近年、 携帯電話が普及し、 様々な場所で使われている。 携帯電話は静かな場所 だけでなく、 空港や駅のホームのように周囲に雑音があるような騒がしい環境で 使用されることが多い。 このため、 周囲の雑音によって携帯電話の受話音声が聞 き取りにくくなるという問題がある。
雑音環境下での受話音声を聞きやすくする最も簡単な方法は、 雑音レベルに応 じて受話音量を大きくすることである。ところが、受話音量を大きくし過ぎると、 携帯電話のスピーカへの入力が過大になり音声が歪んでしまい、 かえって音質が 劣化する場合がある。 また、 受話音量を大きくすると聴取者 (ユーザ) の聴覚へ の負担が大きくなり健康上好ましくないという問題もある。
一般に、周囲雑音が大きくなると音声の明瞭度が不足して聞き取りにくくなる。 そこで、 音声の高域成分を一定の割合で増幅することにより明瞭度を改善する方 法が考えられる。 ところが、 この方法では音声の高域成分だけでなく、 受話音声 に含まれる雑音 (送話側の雑音) 成分も同時に強調してしまうため音質が劣化す るという問題がある。
ここで、 一般に音声の周波数スペクトルには、 ピークが存在し、 これをホルマ ントと呼んでいる。 図 1に音声の周波数スペクトルの例を示す。 図 1はスぺクト ルに 3つのピーク (ホルマント) が存在する場合を示している。 周波数の低い方 から順に第 1ホルマント、 第 2ホルマント、 第 3ホルマントと呼び、 各ホルマン トのピーク周波数か (1),か (2),か (3)をホルマント周波数と呼ぶ。
一般に、 音声のスペクトルは周波数が高くなるにつれて振幅 (電力) が小さく なる性質がある。 更に、 音声の明瞭度はホルマントと密接な関係があり、 高次の (第 2、 第 3の) ホルマントを強調することにより音声の明瞭度を改善できるこ とが知られている。
図 2にスぺクトル強調の例を示す。 図 2 (a)の実線及ぴ図 2 (b)の点線は強調す る前の音声スぺクトルを表す。また、図 2 (b)の実線は強調後の音声スぺクトルを 表す。図 2 (b)では、高次ホルマントの振幅を大きくすることによりスぺクトル全 体の傾きが平坦になっており、 これにより音声全体の明瞭度を改善することでき る。
かかる高次のホルマントを強調することにより明瞭度を改善する方法として、 帯域分割フィル夕を用いる方法 (日本特許出願 公開平 4— 3 2 8 7 9 8号公報) が知られている。 この帯域フィル夕を用いる方法では、 帯域分割フィルタにより 音声を複数の周波数帯域に分割し、 各周波数帯域を個別に増幅 ·減衰させる方法 である。 ところが、 この方法では、 分割された周波数帯域内に音声のホルマント が必ず入るという保証がないため、 ホルマント以外の成分をも強調してしまい、 逆に明瞭度が劣化する恐れがある。
さらに、 上記の帯域フィルタを用いる従来方法における問題点を解決する方法 として、音声スペクトルの凸部と凹部を増幅 ·減衰する方法'(日本特許出願 公開 2 0 0 0 - 1 1 7 5 7 3号公報) がある。 図 3にこの従来技術のプロヅク図を示 す。この方法では、入力音声のスぺクトルをスぺクトル推定部 1 0 0により求め、 求めたスペクトルから凸部帯域 (山) と凹部帯域 (谷) 決定部 1 0 1により、 凸 部帯域と凹部帯域を求め、 凸部帯域と凹部帯域に対する増幅率 (又は減衰率) を 算出する。
次に、 フィル夕構成部 1 0 2により前記増幅率 (又は減衰率) を実現する係数 をフィル夕部 1 0 3に与え、 入力音声を前記フィル夕部 1 0 3に入力することに よりスペクトル強調を実現する。 .
つまり、 帯域フィル夕を用いる従来方法では、 音声スペクトルの山と谷を個別 に増幅 ·減衰することにより音声強調を実現している。
上記の従来技術において、 音量を大きくする方法では、 音量を大きくするとス ピー力への入力が過大となり再生音が歪む場合がある。 また、 受話音量を大きく すると、 聴取者 (ユーザ) の聴覚への負担が増し健康上好ましくない。
また、 高域強調フィル夕を用いる従来方法において、 単なる高域強調では、 音 声以外の雑音の高域が強調されるため雑音感が増すため、 必ずしも明瞭度の改善 には結びつかない。
さらに、 帯域分割フィルタを用いる従来方法では、 分割された周波数帯域内に 音声のホルマントが必ず入るという保証がない。 したがって、 ホルマント以外の 成分を強調してしまい、 逆に明瞭度が劣化する場合がある。 また、 入力音声を音 源特性と声道特性に分離せずに増幅するため、 音源特性の歪が大きくなるという 問題がある。
図 4に音声の生成モデルを示す。 音声の生成過程は、 音源 (声帯) 1 1 0で発 生された音源信号が調音系 (声道) 1 1 1に入力され、 声道 1 1 1において声道 特性が付加された後、最終的に唇 1 1 2から音声波形となって出力される(「音声 の高能率符号化」、 69頁〜 71頁、 中田和男著、 森北出版 参照)。
ここで、 音源特性と声道特性は全く異なった特性であるが、 上記の帯域分割フ ィル夕を用いる従来技術では音声を音源特性と声道特性とに分離せずに音声を直 接増幅する。 このため、 音源特性の歪みが大きくなり雑音感が増し明瞭度が劣化 するという問題がある。 図 5、 図 6に例を示す。 図 5は強調処理をする前の入力 音声スペクトルである。 また、 図 6は帯域分割フィル夕を用いる方法で図 5の入 力音声を強調処理した時のスペクトルである。 図 6において、 2 kHz 以上の高域 成分についてはスぺクトルの概形を保ちつつ振幅が増幅されている。 ところが、 500Hz〜2kHz の部分 (図 6中、 丸で囲った部分) については、 強調前の図 5のス ベクトルと大きく異なり、 音源特性が崩れていることが判る。
このように、 帯域分割フィルタを用いる従来方法では、 音源特性の歪が大きく なり音質が劣化する恐れがある。
また、 上記のスペクトルの凸部 ·凹部を増幅する方法においては、 次のような 問題点が存在する。
第 1に上記の帯域分割フィルタを用いる従来方法と同様に、 音声を音源特性と 声道特性とに分離せずに音声自体を直接強調するため、 音源特性の歪みが大きく なり雑音感が増し、 明瞭度が劣化するという問題がある。
第 2に、 音声信号 (入力信号) から求めた L P C (線形予測係数)スペクトル又 は F F T (周波数フーリエ変換)スペトルに対して直接ホルマント強調を行う。 こ のため、 入力音声をフレーム毎に処理する場合には、 フレーム間で強調の度合い (増幅率 .減衰率) が変化する。 したがって、 フレーム間での増幅率 .減衰率が 急激に変化すると、 スぺクトルの変動により雑音感が増すという問題がある。 かかる現象を鳥瞰スペクトル図で説明する。 図 7に入力音声 (強調前) のスぺ クトルを示す。 また、 図 8にフレーム単位でスペクトルを強調した時の音声スぺ クトルを示す。 特に、 図 7及び図 8は、 時間的に連続するフレームの音声スぺク トルを並べて表示したものである。 図 7、 図 8より、 高次ホルマントが強調され ていることがわかる。 ただし、 図 8の 0.95秒前後および 1.03秒前後において、 強調後のスペクトルに不連続性が生じている。 すなわち、 図 7の強調前スぺクト ルではホルマント周波数は滑らかに変化しているが、 図 8ではホルマントが不連 続に変化している。 このホルマントの不連続性は、 実際に処理音声を聞いた時に は雑音感として感知される。
第 3に、 上記の第 2の問題点である、 不連続性の問題を解決する方法として、 フレーム長を大きくする方法が考えられる。 フレーム長を長くすると時間的に変 動の少ない平均的なスペクトル特性が得られる。 ところが、 フレーム長を長くす ると遅延時間が大きくなるという問題がある。 携帯電話などの通信用途では、 遅 延時間はできるだけ小さくする必要がある。 したがって、 通信用途ではフレーム 長を大きくする方法は望ましくない。 発明の概要
本発明の目的は、 以上のような従来の技術における問題点に鑑みて考案された ものであり、 音声の明瞭度を高めて聞き易くする音声強調方法及びこれを適用す るに音声強調装置を提供することにある。
かかる本発明の目的を達成する音声強調装置は、 第 1の態様として、 入力音声 信号を音源特性と声道特性とに分離する信号分離部と、 前記声道特性から特徴情 報を抽出する特徴抽出部と、 前記声道特性と前記特徴情報から声道特性修正情報 を求める修正声道特性算出部と、 前記声道特性修正情報を用いて前記声道特性を 修正する声道特性修正部と、 前記声道特性修正部からの修正声道特性と前記音源 特性を合成する信号合成手段を有し、 前記信号合成手段により合成した音声を出 力することを特徴とする。
本発明の上記目的を達成する音声強調装置は、 第 2の態様として、 現フレーム の入力音声から自己相関関数を求める自己相関算出部と、 前記現フレームの自己 相関を記憶し、 過去フレームの自己相関関数を出力するバッファ部と、 前記現フ レームの自己相関と前記過去フレームの自己相関関数との加重平均を求める平均 自己相関算出部と、 前記自己相関関数の加重平均から逆フィルタ係数を算出する 第 1のフィル夕係数算出部と、 前記逆フィル夕係数により構成される逆フィルタ と、 前記逆フィル夕係数から周波数スぺクトルを算出するスぺクトル算出部と、 前記算出された周波数スぺクトルからホルマント周波数とホルマント振幅を推定 するホルマント推定部と、 前記算出された周波数スペクトル、 前記推定された前 記ホルマント周波数および前記ホルマント振幅から増幅率を求める増幅率算出部 と、 前記増幅率に基づいて前記算出された周波数スペクトルを変化させ、 変化さ れた周波数スぺクトルを求めるスぺクトル強調部と、 前記変化された周波数スぺ クトルから合成フィルタ係数を算出する第 2のフィル夕係数算出部と、 前記合成 フィル夕係数から構成される合成フィルタを有し、 前記入力音声を前記逆フィル 夕に入力して残差信号を求め、 前記残差信号を前記合成フィル夕に入力して出力 音声を求めることを特徴とする。
本発明の上記目的を達成する音声強調装置は、 第 3の態様として、 現フレーム の入力音声信号を線形予測係数を分析して自己相関関数と線形予測係数を求める 線形予測係数分析部と、 前記係数により構成される逆フィル夕と、 前記線形予測 係数から周波数スぺクトルを求める第 1のスぺクトル算出部と、 前記現フレーム の自己相関を記憶し、 過去フレームの自己相関関数を出力するバッファ部と、 前 記現フレームの自己相関と過去フレームの自己相関関数の加重平均を求める平均 自己相関算出部と、 前記自己相関関数の加重平均から平均フィルタ係数を算出す る第 1のフィル夕係数算出部と、 前記平均フィル夕係数から平均周波数スぺクト ルを求める第 2のスぺクトル算出部と、 前記平均スぺクトルからホルマント周波 数とホルマント振幅を求めるホルマント推定部と、 前記平均スペクトル、 前記ホ ルマント周波数および前記ホルマント振幅から増幅率を求める増幅率算出部と、 前記増幅率に基づいて前記第 1のスぺクトル算出部で算出された周波数スぺクト ルを変化させ、 変化された周波数スペクトルを求めるスペクトル強調部と、 前記 変化された周波数スぺクトルから合成フィル夕係数を算出する第 2のフィル夕係 数算出部と、 前記合成フィル夕係数から構成される合成フィル夕を有し、 前記入 力信号を前記逆フィル夕に入力して残差信号を求め、 前記残差信号を前記合成フ ィル夕に入力して出力音声を求めることを特徴とする。
本発明の上記目的を達成する音声強調装置は、 第 4の態様として、 現フレーム の入力音声から自己相関関数を求める自己相関算出部と、 前記現フレームの自己 相関を記憶し、 過去フレームの自己相関関数を出力するバッファ部と、 前記現フ レームの自己相関と前記過去フレームの自己相関関数との加重平均を求める平均 自己相関算出部と、 前記自己相関関数の加重平均から逆フィル夕係数を算出する 第 1のフィル夕係数算出部と、 前記逆フィル夕係数により構成される逆フィル夕 と、 前記逆フィル夕係数から周波数スぺクトルを算出するスぺクトル算出部と、 前記周波数スぺクトルからホルマント周波数とホルマント振幅を推定するホルマ ント推定部と、 前記周波数スぺクトル、 前記ホルマント周波数および前記ホルマ ント振幅から現フレームの仮増幅率を求める仮増幅率算出部と、 前記仮増幅率ど 前フレームの増幅率との差分増幅率を算出する差分算出部と、 前記差分があらか じめ定めた閾値よりも大きい場合には、 前記閾値と前フレームの増幅率とから決 定される増幅率を現フレームの増幅率とし、 前記差分が前記閾値よりも小さい場 合には、 前記仮増幅率を現フレームの増幅率とする増幅率判定部を有し、 前記現 フレームの増幅率に基づいて前記周波数スペクトルを変化させ、 変化された周波 数スぺクトルを求めるスぺクトル強調部と、 前記変化された周波数スぺクトルか ら合成フィル夕係数を算出する第 2のフィル夕係数算出部と、 前記合成フィル夕 係数から構成される合成フィル夕と、 残差信号からピッチ強調係数を算出するピ ツチ強調係数算出部と、 前記ピッチ強調係数により構成されるピッチ強調フィル 夕を有し、 前記入力音声を前記逆フィル夕に入力して残差信号を求め、 前記残差 信号を前記ピッチ強調フィル夕に入力してピツチ周期性が強調された残差信号を 求め、 前強調された記残差信号を前記合成フィル夕に入力して出力音声を求める ことを特徴とする。
本発明の上記目的を達成する音声強調装置は、 第 5の態様として、 入力音声信 号の一部の周波数帯域を強調する強調フィル夕と、 前記強調フィルタにより強調 された入力音声信号を音源特性と声道特性とに分離する信号分離部と、 前記声道 特性から特徴情報を抽出する特徴抽出部と、 前記声道特性と前記特徴情報から声 道特性修正情報を求める修正声道特性算出部と、 前記声道特性修正情報を用いて 前記声道特性を修正する声道特性修正部と、 前記声道特性修正部からの修正声道 特性と前記音源特性を合成する信号合成手段を有し、 前記信号合成手段により合 成した音声を出力することを特徴とする。
本発明の上記目的を達成する音声強調装置は、 第 6の態様として、 入力音声信 号を音源特性と声道特性とに分離する信号分離部と、 前記声道特性から特徴情報 を抽出する特徴抽出部と、 前記声道特性と前記特徴情報から声道特性修正情報を 求める修正声道特性算出部と、 前記声道特性修正情報を用いて前記声道特性を修 正する声道特性修正部と、 前記声道特性修正部からの修正声道特性と前記音源特 性を合 ^¾する信号合成部と、 前記信号合成手段合成信号の一部の周波数帯域を強 調するフィル夕とを有することを特徴とする。
本発明の更なる特徴は、 以下に図面に従い説明される発明の実施の形態例から 更に明らかになる。 図面の簡単な説明
図 1は、 音声の周波数スペクトルの例を示す図である。
図 2は、 強調前及び強調後の音声の周波数スペク トルの例を示す図である。 図 3は、日本特許出願 公開 2 0 0 0— 1 1 7 5 7 3号公報に記載の従来技術の プロック図を示す。
図 4は、 音声の生成モデルを示す図である。
図 5は、 入力音声のスペク トルの例を示す図である。
図 6は、 フレーム単位で強調した時のスペク トルの例を示す図である。
図 7は、 入力音声 (強調前) のスペクトルを示す図である。
図 8は、 フレーム単位でスぺクトルを強調した時の音声スぺクトルを示す図で ある。
図 9は、 本発明の原理図を示す図である。 図 1 0は、 本発明の第 1の実施例構成ブロックを示す図である。
図 1 1は、 図 1 0の実施例における増幅率算出部 6の処理を示すフロー図であ る。
図 1 2は、 図 1 0の実施例におけるホルマン ト E ( )の振幅を基準電力 Pmv— re/に合わせるときの様子を示す図である。
図 1 3は、 ホルマント間の周波数における増幅率 (りを補間曲線 R ( ,りにより 求めることを説明する図である。
図 1 4は、 本発明の第 2の実施例構成ブロックを示す図である。
図 1 5は、 本発明の第 3の実施例構成ブロックを示す図である。
図 1 6は、 本発明の第 4の実施例構成ブロックを示す図である。
図 1 7は、 本発明の第 5の実施例構成プロヅクを示す図である。
図 1 8は、 本発明の第 6の実施例構成ブロックを示す図である。
図 1 9は、 本発明により強調されたスぺクトルを示す図である。
図 2 0は、 本発明の更にフレーム間で増幅率が大きく変動すると雑音感が増す という問題を解決する原理構成図である。
図 2 1は、 本発明の更にフレーム間で增幅率が大きく変動すると雑音感が増す という問題を解決する別の原理構成図である。
図 2 2は、図 2 0の原理図に従う本 明の実施例構成プロヅクを示す図である。 発明を実施するための最良の形態
以下、 図面に従い本発明の実施例を説明する。
図 9は、 本発明の原理を示す図であり、 本発明は、 分離部 2 0により入力音声 を音源特性と声道特性とに分離し、 音源特性と声道特性を個別に強調し、 その後 合成部 2 1で合成して出力することを特徴とする。 図 9における処理を以下に説 明する。
時間軸領域において、 所定のサンプリング周波数でサンプリングされた振幅値 を有する入力音声信号ぶ (w),(0≤" < N),ここで、 Nはフレーム長であり、 かかる 入力音声信号: から分離部 2 0の平均スぺクトル算出部 1により平均スぺク トル ¾?丄 (り,(0≤ / < Nf )を算出する。 このために、 線形予測回路である平均スペクトル算出部 1において、 先ず現フ レームの自己相関関数を算出する。 次に、 前記現フレームの自己相関関数と過去 フレームの自己相関関数との加重平均により平均自己相関を求める。 この前記平 均自己相関から平均スペクトル り, /く^^)を求める。 また、 Nfはスぺク トルのデータ点数であり、 N≤NFヒする。 尚、 (りを現フレームの入力音声か ら算出される LPCスぺクトル又は FFTスぺクトルと、 過去の入力音声から算出さ れる LPCスぺクトル又は FFTスぺクトルとの加重平均として算出してもよい。 次に、 スぺクトル ι (りを分離部 2 0内の第 1のフィル夕係数算出部 2に入力 して逆フィルタ係数 " り, ! )を求める。ここで、 は逆フィル夕 3のフィ ル夕次数である。
入力音声 を前記求められた逆フィルタ係数《 )で構成される分離部 2 0 内の逆フィルタ 3に入力して残差信号? ·(《),(〇≤w<N)を求める。これにより入力 音声を音源特性である残差信号 r ( と、 声道特性であるスぺクトル ι(/)とに分 離することができる。
残差信号 r ( は、 ピッチ強調部 4に入力され、 そこでピッチ周期性が強調され た残差信号 が求められる。
一方、 特徴抽出部としてのホルマント推定部 5に声道特性であるスぺクトル sPl(l) を入力し、 ホルマント周波数か ( ),(l≤A:≤A:max)およびホルマント振幅 flm;?( :),(l≤ :≤Amax)を推定する。 ここで、 maxは推定するホルマントの個数であ る。 A:maxの値は任意であるが、 サンプリング周波数が 8kHz の音声に対しては max =4又は 5とすることができる。
ついで、 スペクトル ι (り と ホルマント周波数か ( )およびホルマント振幅 を増幅率算出部 6に入力し、 スぺクトル ι(Ζ)に対する増幅率 (りを算出 する。
スペクトル ι (り と増幅率 (りをスペクトル強調部 7へ入力し、強調されたス ベクトル 2 (りを求める。 この強調されたスペクトル 2 (り を、 合成部 2 1を構 成する合成フィル夕 9の係数を求める第 2のフィルタ係数算出部 8へ入力して合 成フィルタ係数 α2(ί·),(1≤ί·≤;?2)を求める。 ここで、 2は合成フィルタ 9のフィ ル夕次数である。 上記のピッチ強調部 4によるピッチ強調後の残差信号 を合成フィルタ係 数《2(りにより構成される合成フィルタ 9へ入力し、 出力音声 y("), (0≤w < N)を 求める。 これにより、 強調処理された音源特性と声道特性が合成される。
上記に説明した通り、 本発明では入力音声を音源特性 (残差信号) と声道特性 (スペクトル包絡) とに分離するため、 それそれの特 f生に適した強調処理を行う ことができる。 すなわち、 音源特性に対してはピッチ周期性を強調し、 声道特性 に対してはホルマントを強調することにより音声の明瞭度を改善できる。
また、 声道特性として音声の長時間特性を用いることにより、 フレーム間での 増幅率の急激な変化が軽減されるため、雑音感の少ない良好な音質を実現できる。 特に、 現フレームの入力信号から算出した自己相関と、 過去フレームの入力信号 から算出した自己相関関数との加重平均を用いることにより、 遅延時間を増加さ せることなく時間変動の少ない平均的なスぺクトル特性を得ることができる。 こ のため、 スペクトル強調に用いる増幅率の急激な変化が抑えられ、 音声強調によ る雑音感を抑えることができる。
次に、図 9に示した本発明の原理を適用する実施例について、以下に説明する。 図 1 0は、 本発明に従う第 1の実施例構成のブロック図である。
図において、 図 9の原理図との比較において、 ピヅチ強調部 4が省略されてい る。
更に、 分離部 2 0の実施例構成として、 分離部 2 0内の平均スペクトル算出部 1をフィル夕係数算出部 2の前後に分割し、 フィルタ係数算出部 2の前段で、 現 フレームの入力音声信号 ( ,(0≤« < N)を自己相関算出部 1 0に入力し、 そこ で現フレームの自己相関関数 c( )( ),(0≤ί≤ )を式(1 )により求める。 ここで、 Nはフレーム長である。 また、 は現フレームのフレーム番号であり、 は後述 する逆フィルタ 3の次数である。
N-1
ac(m)(i) = χ(η) ·χ(η - i), (0≤i≤ ργ) ( 1 )
n=i
更に、 分離部 2 0において、 ノ ヅファ部 1 1から直前の Lフレームにおける自 3相関関数 flc(m - ) ),(1≤ ≤ ,0≤ ≤/ が出力される。 次に自己相関算出部 1 0で求めた現フレームの自己相関関数" c(m) (りと前記バッファ部 1 1からの過 去の自己相関とから、 平均自己相関算出部 1 2により平均自己相関 cAE (りを求 める。
ここで、 平均自己相関 i?cAE(i')の求め方は任意であるが、 例えば式 (2 ) の加 重平均を用いることができる。 ここで、 w:は重み係数である。
1 1
acAVE ( -—― Wj ,ac( 一 ) (り, (0≤i≤ Pl) ( 2 )
+丄 =0
ここで、 バヅファ部 1 1の状態更新を次のように行う。 まず、 バヅファ部 1 1 内に格納されている過去の自己相関関数の中で時間的に最も古い ) ) を 廃棄する。 次に、 現フレームで算出した をバッファ部 1 1に格納する。 更に、 分離部 2 0において、 平均自己相関算出部 1 2により求めた平均自己相 関 fl ^ (りからレビンソン ·アルゴリズム等の公知の方法により第 1のフィルタ 係数算出部 2において、 逆フィルタ係数 (), (1≤ ί≤ )を求める。
入力音声; c ( は、 フィルタ係数 (りで構成される逆フィル夕 3に入力して音 源特性として残差信号 r( ), ≤«< )を(3 )式により求める。 r(n) = χ{ή) + αχ( x(n -ϊ), (0≤n<N) ( 3 )
i=l
一方、 分離部 2 0において、 フィル夕係数算出部 2の後段に置かれるスぺクト ル算出部 1一 2において、 フィル夕係数算出部 2で求められた係数 ) を下記 の(4)式によりフーリエ変換して声道特性として LP Cスぺクトル ι (りを求め る。
Figure imgf000013_0001
ここで、 Nfはスペク トルのデータ点数である。 サンプリング周波数を Esとす ると、 LP Cスぺクトル Ζ)の周波数分解能は となる。変数 Πまスぺクト ルのインデックスであり離散周波数を表す。 /を周波数 [Hz] に換算すると
Figure imgf000013_0002
となる。 また、 int[x]は変数 Xを整数化することを意味する (以 下の説明においても同様である)。 上記の通り、分離部 2 0により入力音声を音源信号(残差信号 r ( , (0≤n<N)) と声道特性 (L P Cスペクトル ι(Ζ)) とに分離することができる。
ついで、 図 9において説明したように、 特徴抽出部の一例としてホルマント推 定部 5にスペクトル ι(Ζ) を入力し、 ホルマント周波数か ( ),(1≤ ≤ :max)およ ぴホルマント振幅" ( ),(1≤ ≤ max)を推定する。 ここで、 ;maxは推定するホル マントの個数である。 maxの値は任意であるが、 サンプリング周波数が 8 kHz の 音声に対しては Amax =4又は 5とすることができる。
ホルマント推定の方法としては、 逆フィル夕係数 り を係数とする高次方程 式の根から求める方法や、 周波数スぺクトルのピークからホルマントを推定する ピークピッキング法などの公知の方法を用いることができる。 ホルマント周波数 の低い方から順にか (1),か (2),Κ,か ( :max)とする。 尚、 ホルマントのバンド幅に閾 値を設け、 バンド幅が閾値以下となる周波数だけをホルマント周波数としてもよ い。
更に、 ホルマント推定部 5において、 ホルマント周波数か ( )を離散ホルマン ト周波数か Z ( ) = int [か () 'Nf/i ] に変換する。 また、 スペクトル (か Z(ん))を ホルマント振幅 amp k、とする。
かかるスぺクトル ζ) と離散ホルマント周波数か /( )およびホルマント振 幅 amp ( )を増幅率算出部 6に入力し、 スぺクトル (りに対する増幅率 5(りを算 出する。
増幅率算出部 6の処理は、図 1 1の処理フローに示すように基準電力の算出(処 理工程 P l)、 ホルマント増幅率の算出 (処理工程 P 2)、 及び増幅率の補間 (処 理工程 P 3) の順に処理を行う。 以下、 各処理について順に説明する。
処理工程 P 1 :スぺクトル ι(Ζ)から基準電力 Pmv— re/を算出する。 算出方法 は任意であるが、 例えば、 全周波数帯域の平均電力や低域周波数の平均電力を基 準電力として用いることができる。 全周波数帯域の平均電力を基準電力として用 いる場合、 Pow— re/は次式 (5 ) で表される。
Pow_ref =— Ψ ( 5 )
N f &
処理工程 P 2 :ホルマント ( )の振幅を基準電力 re/に合わせるための 増幅率 を次式 (6 ) により求める。
G(k、 = Pow_ref /amp(k) (0≤n<NF) ( 6 ) 図 1 2にホルマント E(jt)の振幅を基準電力 — re/に合わせるときの様子が 示されている。更に、図 1 2において、ホルマント間の周波数における増幅率 ) を補間曲線 R ( ,/)により求める。 補間曲線 R ( ,/)の形状は任意であるが、 例えば 一次関数や二次関数などを用いることができる。図 1 3に補間曲線 ? ( ,りとして、 二次曲線を用いた場合の例を示す。 補間曲線 R ( Z)を式(7 )のように定義する。 ここで、 , b,cは補間曲線の形状を決定するパラメ一夕である。
R(k,l) = a'l2 +b'l + c ( 7 ) 図 1 3に示すように、 かかる補間曲線において隣り合うホルマント F ( )と E ( +1)の間に増幅率の極小点を設定する。 ここで、 極小点の設定方法は任意で あるが、 例えば周波数 (か Z (り +か/ ( +1))/2を極小点とし、 その時の増幅率を G ( )と設定することができる。 ここで、 }は定数であり、 0<y <lとする。 補間曲線 ? ( ,りがホルマント E ()と E ( +1)及び極小点を通ると仮定すると 式(8 ),( 9 ),( 1 0 )が成り立つ。
G(k) = a - fpl kf + b - Jpl(k) + c ( 8 ) G(k + l)^a- fpl(k + lf +b- Jpl(k + l) + c ( 9 ) y, = ". (勵 +2 +1))2 + ( ) + c ( 1 0 ) 式( 8 ),( 9 ),( 1 0 )を連立方程式として解くとパラメ一夕 , b,cが求められ、 補間曲線 ? ( ,りが決定される。 ついで、 補間曲線/? ( ,りに基づいて E(Ar)と E(ifc + 1)の間のスぺクトルに対する増幅率) を求める。
更に、 上記の隣接のホルマント間の補間曲線 i? ( ,りを求めることと、 隣接のホ ルマント間のスぺクトルに対する増幅率 j8 )を求める処理を全てのホルマント に対して行う。
尚、 図 1 2において、 第 1ホルマント よりも低い周波数については、 第 1 ホルマントに対する増幅率 G(l)を用いる。 また、 最高次のホルマントよりも高い 周波数については、最高次のホルマントに対する増幅率 G ( max;)を用いる。以上を まとめると式( 1 1 )のようになる。 G(l), (I <か /(1))
β (り ( 1 1 )
G ( ( くり 図 1 0に戻り説明すると、 スペク トル Ζ) と 増幅率 3(りをスペク トル強調 部 7へ入力し、 強調されたスぺクトル 2(/)を式 ( 1 2 ) により求める。
sp2(l) = fi(l)-sPl(l), (0≤1<NF) ( 1 2 ) ついで、強調されたスぺクトル 2 ) を第 2のフィル夕係数算出部 8へ入力す る。 第 2のフィルタ係数算出部 8では、 強調されたスペクトル 2(Ζ)の逆フーリ ェ変換から自己相関関数な c2(りを求め、 c2(りからレビンソン ·アルゴリズム等の 公知の方法により合成フィル夕係数《2(り, (1≤ζ·≤;?2)を求める。 ここで、 /?2は合 成フィル夕次数である。
更に、 逆フィルタ 3の出力である残差信号 r ( を係数 (りにより構成される 合成フィル夕 9へ入力し、 式 ( 1 3 ) に示すように出力音声: w), (0≤"<N)を 求める。 y{ri) = r{ri)一 a2(i) y(n一り, (0≤n<N) ( 1 3 )
ΐ=1
以上説明の通り、 図 1 0の実施例では入力音声を音源特性と声道特性とに分離 し、 声道特性のみを強調することが可能である。 これにより、 従来技術で問題と なっていた声道特性と音源特性を同時に強調する場合に発生するスぺクトル歪を 抑え、 かつ明瞭度を改善することができる。 また、 図 1 0の実施の形態例ではピ ヅチ強調部 4が省略されているが、 図 9に示す原理図に従い、 ピヅチ強調部 4を 逆フィルタ 3の出力側に配置して、 残差信号 r ( に対し、 ピヅチ強調処理を行う ことも可能である。
尚、 本実施例ではスぺクトル ι (りに対する増幅率を 1スぺクトル点数単位で 求めるが、 スペクトルを複数の周波数帯域に分割し、 各帯域別に個別の増幅率を 持つようにしてもよい。
図 1 4に本発明の第 2の実施例の構成ブロック図を示す。 本実施例は、 現フレ ームの入力音声から求めた LP C係数を逆フィルタの係数とする点が、 図 1 0に 示した第 1の実施例と異なり、 その他は第 1の実施例と同じである。
一般に、 現フレームの入力信号 X ( から残差信号 rO)を求める場合には、 第 1 の実施例のように平均的な周波数特性を持った L P C係数を使用する場合よりも、 現フレームの入力信号から求めた L P C係数を逆フィルタ 3の係数として用いた 方が予測利得は高く、 声道特性と音源特性を精度良く分離できる。
そこで、第 2の実施例では、現フレームの入力音声を L P C分析部 1 3により、 L P C分析し、 得られた L P C係数 (り, (l s i^ A)を逆フィル夕 3の係数とし て用いる。
L P C係数 (りから第 2のスぺクトル算出部 1― 2 Bによりスぺクトル ) を求める。 スペクトル ι (りの算出方法は第 1の実施例の式(4 )と同じである。 次に第 1のスぺクトル算出部 1― 2 Αにより平均スぺクトルを求め、 この平均 スぺクトルからホルマント推定部 5において、 ホルマント周波数か ( )及びホル マント振幅 mp(A:)を求める。
次に、 先の実施例と同様であり、 スペクトル ¾^ (りとホルマント周波数か ()及 びホルマント振幅 a p ( )から増幅率算出部 6により増幅率 を求め、この増幅 率を元にスぺクトル強調部 7で、 スぺクトル強調を行い強調されたスぺクトル 2 )を求める。強調されたスぺクトル 2(Ζ)から合成フィル夕 9に設定される合 成フィル夕係数ひ 2 (りを求め、 残差信号 r ( をこの合成フィル夕 9に入力して出 力音声 _y ( が得られる。
以上第 2の実施例について説明した通り、 本実施例においても先の実施例の構 成と同様に、 現フレームの声道特性と音源特性を精度よく分離し、 平均スぺクト ルに基づいて声道特性を滑らかに強調処理することにより明瞭度を改善すること ができる。
次に、 図 1 5により本発明の第 3の実施例を説明する。 第 3の実施例では、 自 動利得制御部 (A G C部) 1 4を設け、 合成フィル夕 9の合成出力); ( の振幅を 制御する点が第 1の実施例と異なり、その他の構成は第 1の実施例と同じである。 入力音声信号 ( と最終的な出力音声信号 z ( の電力比が 1となるように A
0〇部1 4により利得の調整を行う。 A G C部 1 4として任意の方法が可能であ るが、 例えば以下のような方法を用いることができる。 まず、 入力音声信号 x(n)と合成出力 y(n)から式( 1 4 )により振幅比 。を求め る。 ここで、 Nはフレーム長である。
N-1
5 )2
«=0 ―
80 N-1 ( 1 4 )
5 (")2
«=0 次式 (1 5 ) により利得制御値 GW«(w)を求める。 ここで、 λは定数である。
GWw ( = (1— A).G"w("—l) + A'g。 , (0≤".≤N— 1) ( 1 5 ) 最終的な出力音声信号 z(n)は次式 ( 1 6 ) により求められる。
z(n) = Gain{n) ' y{n) , (0≤η≤Ν-ΐ) ( 1 6 ) 以上説明の通り、本実施例においても入力音声 x(n)を音源特性と声道特性とに 分離し、 声道特性のみを強調することが可能である。 これにより、 従来技術で問 題となっていた声道特性と音源特性を同時に強調する場合に発生するスぺクトル 歪を抑え、 かつ明瞭度を改善することができる。
また、 スぺクトル強調によって出力音声の振幅が入力信号に比べて過度に大き くならないように利得調整することにより、 滑らかで自然性の高い出力音声を得 ることができる。
図 1 6は、 本発明の第 4の実施例のブロック図を示す。 本実施例は、 図 9の原 理図に従い、 逆フィルタ 3の出力である残差信号 ro)に対してピッチ強調処理を する点が第 1の実施例とは異なり、 その他の構成は第 1の実施例と同じである。 ピッチ強調フィル夕 4によるピヅチ強調の方法は任意であるが、 例えばピツチ 係数算出部 4- 1を設け、 以下のような方法を用いることができる。
まず、 現フレームの残差信号の自己相関 rscor(i)を式( 1 7 )により求め、 自己 相関 racor(i)が最大となるピッチラグ Γを求める。 ここで、 ag^及び は それそれ、 ピッチラグの下限と上限である。
N-1
rscor(i) - ^ r(n) (Π一 i), ( ag^≤ i≤ Lag ) ( 1 7 )
n=i
次に、 ピッチラグ Γの近傍における残差信号 r«:or(r - 1), rscor(T), rscor(T + 1) から自己相関法によりピヅチ予測係数 (り, (i = -1,0,1)を求める。ピヅチ予測係数 の算出方法は、 レビンソン ·アルゴリズムなどの公知の方法で求めることができ る。 ,
次に、 逆フィル夕出力 r(w)をピッチ強調フィル夕 4に入力し、 ピヅチ周期性が 強調された音声: を求める。 ピヅチ強調フィル夕 4として式 ·( 1 8 )の伝達関数 で表されるフィル夕を用いることができる。 ここで、 は重み係数である。
Q(z) = ( 1 8 ) l+gp pc(i)-z-^ 尚、 ピヅチ強調フィル夕 4としてここでは I I Rフィルタを用いたが、 F I R フィルタなどの任意のフィル夕を用いることができる。
以上説明の通り、 第 4の実施例によればピッチ強調フィルタ 4を付加すること により残差信号に含まれるピッチ周期成分を強調することができ、 第 1の実施例 に比べて音声の明瞭度を更に改善することができる。
図 1 7に本発明の第 5の実施例の構成ブロック図を示す。 前フレームの増幅率 を保持しておく第 2のバッファ部 1 5を備えている点が第 1の実施例と異なり、 その他は第 1の実施例と同じである。
本実施例では、 スペクトル算出部 1 -2のからスペクトル ι(Ζ) とホルマント 周波数か ( )および振幅 ampij から増幅率算出部 6において仮の増幅率 s„ (/) を求める。
仮の増幅率 の算出方法は、第 1の実施例における増幅率 8(りの算出方法 と同じである。 次に、 仮の増幅率 s„ (りとバヅファ部 1 5から出力される前フレ —ム増幅率 S— (りから現フレームの増幅率) S(Z)を求める。 ここで、 前フレー ム增幅率 — 0W (りは前フレームにおいて算出された最終的な増幅率である。 増幅率 を求める手順は以下の通りである。
(1)仮増幅率 8 ^(りと前フレーム増幅率 jS—oW (りとの差分
= βρ∞ (l)-p—o!d(l)を算出する。
(2)差分 があらかじめ定められた閾値 Araよりも大きい場合は、
β(1) = β ) + とする。 (3 )差分 が閾値 A よりも小さい場合は、 )= 5„(/)とする。
(4)最終的に求められた をバッファ部 1 5へ入力し、 前フレーム増幅率 — oW(Z)を更新する。
第 5の実施例において、 前フレーム増幅率 —oW (りを参照して増幅率 3 (りを 求める部分以外は第 1の実施例と同じであるので、 第 5の実施例動作についての 更なる説明を省略する。
以上説明した通り、 本実施例ではスぺクトル強調に使用する増幅率を求める際 に、 前フレームにおける増幅率を選択的に用いることにより、 フレーム間で増幅 率が急激に変化しないようにすることにより、 スぺクトル強調による雑音感の増 加を抑えつつ明瞭度を改善することができる。
図 1 8に本発明の第 6の実施例の構成ブロック図を示す。 本実施例は、 先の第 1及び第 3乃至第 5の実施例を組み合わせた場合の構成を示している。 重複する 部分は他の実施例と同じであるので、 説明を省略する。
図 1 9は、 上記の実施例により強調された音声スペクトルを示す図である。 図 1 9のスペクトルを、 図 7に示す強調前の入力音声スペクトルと、 図 8に示すフ レーム単位で強調したスぺクトルを比較すると本発明の効果が明瞭である。
すなわち、高次ホルマントが強調された図 8において、 0.95秒前後および 1 .03 秒前後において、 強調後のスペクトルに不連続性が生じているが、 図 1 9に示す 音声スペクトルでは、 ピーク変動が抑えられ、 その不連続性が改善されているこ とが分かる。 これによりホルマントの不連続性による、 実際に処理音声を聞いた 時の雑音感は生じないものとなる。
ここで、 図 9の本発明の原理図に基づく、 先の第 1〜第 6の各実施例により、 入力音声を音源特性と声道特性とに分離し、 声道特性と音源特性を個別に強調す ることが可能である。 これにより、 音声自体を強調する従来技術で問題となって いたスペクトルの歪を抑えることができ、 明瞭度を改善することができる。
しかし、 上記各実施例に共通して、 次のような問題が未だ生じる場合がある。 すなわち、 上記各実施例において、 音声のスペクトルを強調する場合、 フレーム 間で増幅率が大きく変動すると雑音感が増すという問題がある。 一方、 雑音感を 抑えるために増幅率の変動を小さくなるように制御すると、 スぺクトル強調の度 合いが不十分となり、 明瞭度の改善が十分でないという問題がある。
従って、 本発明は更にかかる不都合を解消する場合、 本発明により図 2 0, 図 2 1の原理構成が適用される。 図 2 0、 図 2 1に示す原理構成は、 動的フィル夕 Iと固定フィル夕 Πの 2段構成としている点に特徴を有する。
更に、 図 2 0の構成では動的フィル夕 Iの後に固定フィルタ IIを置く場合の原 理図を示しているが、 図 2 1の構成のように固定フィル夕 IIを動的フィル夕 Iの 前段に置いてもよい。 ただし、 図 2 1の構成の場合には、 入力音声を分析するこ とにより動的フィル夕 Iで使用するパラメ一夕を算出する。
動的フィル夕 Iは、 先に説明した図 9に示す原理に従う構成を用いるものであ る。 図 2 0、 図 2 1では、 図 9に示す原理構成の概略を示している。 すなわち、 動的フィル夕 Iは、入力音声を音源特性と、声道特性に分離する分離機能部 2 0、 声道特性からホルマント特徴を抽出する特徴抽出機能部 5、 特徴抽出機能部 5か ら得られるホルマント特徴に基づき増幅率を算出する増幅率算出機能部 6、 算出 された増幅率に対応して声道特性のスぺクトルを強調するスぺクトル機能部 7及 ぴ、 音源特性とスペクトル強調された声道特性を合成する合成機能部 2 1を有し ている。
固定フィルタ IIは、 所定範囲の周波数幅において、 一定の通過帯域を有するフ ィル夕特性を有している。固定フィル夕 IIで強調する周波数帯域は任意であるが、 例えば 2 kHz以上の高域周波数帯域や 1 kHz〜 3 kHzの中間帯域成分を強調する 帯域強調フィル夕を用いることができる。
固定フィル夕 IIにより一部の周波数帯域を増幅し、 動的フィル夕 Iによりホル マントを強調する。 固定フィル夕 IIの増幅率は固定であるため、 フレーム間にお ける増幅率の変動はない。 このような構成にすることにより、 動的フィルタ Iに よる過度の強調を防ぎ、 かつ明瞭度を改善することができる。
図 2 2は、 図 2 0の原理図に基づく本発明の更なる実施例構成のブロック図で ある。 この実施例は、 動的フィル夕 Iとして、 先に説明した第 3の実施例構成を 用いている。 従って、 その再度の詳細説明は省略する。
この実施例では動的フィルタ Iにより入力音声を音源特性と声道特性とに分離 し、 声道特性のみを強調する。 これにより、 従来技術で問題となっていた声道特 性と音源特性を同時に強調する場合に発生するスぺクトル歪を抑え、 かつ明瞭度 を改善することができる。 また、 スペクトル強調によって出力音声の振幅が入力 信号に比べて過度に大きくならないように A G C部 1 4により利得調整すること により、 滑らかで自然性の高い出力音声を得ることができる。
更に、 固定フィル夕 IIにより一部の周波数帯域を一定の割合で増幅することに より、 雑音感が少なく、 明瞭度の高い音声を得ることができる。 産業上の利用可能性
以上図面に従い説明した通り、 本発明により声道特性と音源特性を個別に強調 することが可能である。 これにより、 音声自体を強調する従来技術で問題となつ ていたスぺクトルの歪を抑えることができ、 明瞭度を改善することができる。 また、 声道特性を強調する際に、 平均スペクトルに基づいて強調することによ り、 フレーム間での増幅率の急激な変化が軽減されるため、 雑音感の少ない良好 な音質を実現できる。
かかる点から本発明は、携帯電話における好ましい音声通話を可能できるので、 更なる携帯電話の普及に寄与することが可能である。
なお、 本発明を上記実施例に従い説明したが、 かかる実施例は本発明の理解の ためのものであり、 本発明の保護の範囲は、 これら実施例に限定されるものでは ない。 すなわち、 請求項に記載の要件と均等の範囲にある場合も、 本発明の保護 の範囲に含まれるものである。

Claims

請求の範囲
1 . 入力音声信号を音源特性と声道特性とに分離する信号分離部と、
前記声道特性から特徴情報を抽出する特徴抽出部と、
前記声道特性と前記特徴情報とから前記声道特性を修正する声道特性修正部と、 前記声道特性修正部からの修正声道特性と前記音源特性を合成する信号合成手 段を有し、
前記信号合成手段により合成した音声を出力することを特徴とする音声強調装
2 . 入力音声信号を音源特性と声道特性とに分離する信号分離部と、
俞記声道特性から特徴情報を抽出する特徴抽出部と、
前記声道特性と前記特徴情報から声道特性修正情報を求める修正声道特性算出 部と、
前記声道特性修正情報を用いて前記声道特性を修正する声道特性修正部と、 前記声道特性修正部からの修正声道特性と前記音源特性を合成する信号合成手 段を有し、
前記信号合成手段により合成した音声を出力することを特徴とする音声強調装 置。
3 . 請求項 2において、
前記信号分離手段は、 入力音声を線形予測分析して得られる線形予測 (L P C ) 係数により構成されるフィルタであることを特徴とする音声強調装置。
4 . 請求項 3において、
前記線形予測係数は、 入力音声から算出した自己相関関数の平均から求められ ることを特徴とする音声強調装置。
5 . 請求項 3において、
前記線形予測係数は、 現フレームの入力音声から算出した自己相関関数と、 過 去のフレームの入力音声から算出した自己相関関数との加重平均から求められる ことを特徴とする音声強調装置。
6 . 請求項 3において、
前記線形予測係数は、 現フレームの入力音声から算出した線形予測係数と、 過 去のフレームの入力音声から算出した線形予測係数との加重平均から求められる ことを特徴とする音声強調装置。
7 . 請求項 2において、
前記声道特性は、 前記入力音声を線形予測分析して得られる線形予測係数から 算出される線形予測スぺクトル、 又は入力音声のフーリエ変換から求められるパ ワースぺクトルであることを特徴とする音声強調装置。
8 . 請求項 2において、
前記特徴抽出部は、 前記入力音声を線形予測分析して得られる線形予測係数か ら極配置を求め、 前記極配置からホルマント周波数とホルマント振幅又はホルマ ントのバンド幅を求めることを特徴とする音声強調装置。
9 . 請求項 2において、
前記特徴抽出部は、 線形予測スペクトル又は前記パワースペクトルからホルマ ント周波数とホルマント振幅又はホルマントのバンド幅を求めることを特徴とす る音声強調装置。
1 0 . 請求項 8又は、 9において、
前記声道特性修正部は、 前記ホルマント振幅の平均振幅を求め、 前記平均振幅 に応じて前記ホルマント振幅又はホルマントのバンド幅を変化させることを特徴 とする音声強調装置。
1 1 . 請求項 8又は、 9において、 前記声道特性修正部は、 線形予測スぺクトル又は前記パワースぺクトルの平均 振幅を求め、 前記平均振幅に応じて前記ホルマント振幅又はホルマントのバンド 幅を変化させることを特徴とする音声強調装置。
1 2 . 請求項 2において、
前記合成部からの前記出力音声の振幅は、 自動利得制御部により制御されるこ とを特徴とする音声強調装置。
1 3 . 請求項 2において、
更に、 前記音源特性である残差信号に対してピッチ強調を行うピッチ強調部を 有することを特徴とする音声強調装置。
1 . 請求項 2において、
前記声道特性修正部は、 現フレームにおける仮増幅率を求める計算部を有し、 前フレームの増幅率と現フレームの仮増幅率との差分又は比を求め、 前記差分又 は比があらかじめ定めた閾値よりも大きい場合には、 前記閾値と前フレームの増 幅率とから決定される増幅率を現フレームの増幅率とし、 前記差分又は比が前記 閾値よりも小さい場合には、 前記仮増幅率を現フレームの増幅率とすることを特 徴とする音声強調装置。
1 5 . 現フレームの入力音声から自己相関関数を求める自己相関算出部と、 前記現フレームの自己相関を記憶し、 過去フレームの自己相関関数を出力する バヅファ部と、
前記現フレームの自己相関と前記過去フレームの自己相関関数との加重平均を 求める平均自己相関算出部と、
前記自己相関関数の加重平均から逆フィル夕係数を算出する第 1のフィルタ係 数算出部と、
前記逆フィルタ係数により構成される逆フィル夕と、
前記逆フィルタ係数から周波数スぺクトルを算出するスぺクトル算出部と、 前記算出された周波数スぺクトルからホルマント周波数とホルマント振幅を推 定するホルマント推定部と、
前記算出された周波数スぺクトル、 前記推定された前記ホルマント周波数およ び前記ホルマント振幅から増幅率を求める増幅率算出部と、
前記増幅率に基づいて前記算出された周波数スペクトルを変化させ、 変化され た周波数スぺクトルを求めるスぺクトル強調部と、
前記変化された周波数スぺクトルから合成フィル夕係数を算出する第 2のフィ ル夕係数算出部と、
前記合成フィル夕係数から構成される合成フィルタを有し、
前記入力音声を前記逆フィル夕に入力して残差信号を求め、 前記残差信号を前 記合成フィルタに入力して出力音声を求めることを特徴とする音声強調装置。
1 6 . 現フレームの入力音声信号を線形予測係数を分析して自己相関関数と線形 予測係数を求める線形予測係数分析部と、
前記係数により構成される逆フィル夕と、
前記線形予測係数から周波数スぺクトルを求める第 1のスぺクトル算出部と、 前記現フレームの自己相関を記憶し、過去フレームの自己相関関数を出力するバ ヅファ部と、
前記現フレームの自己相関と過去フレームの自己相関関数の加重平均を求める 平均自己相関算出部と、
前記自己相関関数の加重平均から平均フィル夕係数を算出する第 1のフィル 夕係数算出部と、
前記平均フィル夕係数から平均周波数スぺクトルを求める第 2のスぺクトル算 出部と、
前記平均スぺクトルからホルマント周波数とホルマント振幅を求めるホルマン ト推定部と、
前記平均スぺクトル、 前記ホルマント周波数および前記ホルマント振幅から増 幅率を求める増幅率算出部と、
前記増幅率に基づいて前記第 1のスぺクトル算出部で算出された周波数スぺク トルを変化させ、 変化された周波数スぺクトルを求めるスぺクトル強調部と、 前記変化された周波数スぺクトルから合成フィルタ係数を算出する第 2のフィ ル夕係数算出部と、
前記合成フィル夕係数から構成される合成フィル夕を有し、
前記入力信号を前記逆フィルタに入力し 残差信号を求め、 前記残差信号を前 記合成フィル夕に入力して出力音声を求めることを特徴とする音声強調装置。
1 7 . 請求項 1 5において、
更に、 前記合成フィルタ出力の振幅を制御する自動利得制御部を有し、 前記入 力音声を前記逆フィルタに入力して残差信号を求め、 前記残差信号を前記合成フ ィル夕に入力して再生音声を求め、 前記再生音声を前記自動利得制御部に入力し て出力音声を求めることを特徴とする音声強調装置。
1 8 . 請求項 1 5において、
更に、 前記残差信号からピッチ強調係数を算出するピッチ強調係数算出部と、 前記ピッチ強調係数により構成されるピッチ強調フィル夕を有し、
前記入力音声を前記逆フィルタに入力して求められた残差信号を前記ピッチ強 調フィル夕に入力してピッチ周期性が強調された残差信号を求め、 前記ピッチ周 期性が強調された残差信号を前記合成フィルタに入力して出力音声を求めること を特徴とする音声強調装置。
1 9 . 請求項 1 5において、 前記増幅率算出部は、
スぺクトル算出部で前記逆フィル夕係数から算出された周波数スぺクトル、 前 記ホルマント周波数および前記ホルマント振幅から現フレームの仮増幅率を求め る仮増幅率算出部と、
前記仮増幅率と前フレームの増幅率との差分を算出する差分算出部と、 前記差分があらかじめ定めた閾値よりも大きい場合には、前記閾値と前フレーム の増幅率とから決定される増幅率を現フレームの増幅率とし、前記差分が前記閾値 よりも小さい場合には、前記仮増幅率を現フレームの増幅率とする増幅率判定部を 有することを特徴とする音声強調装置。
2 0 . 現フレームの入力音声から自己相関関数を求める自己相関算出部と、 前記現フレームの自己相関を記憶し、 過去フレームの自己相関関数を出力する バヅファ部と、
前記現フレームの自己相関と前記過去フレームの自己相関関数との加重平均を 求める平均自己相関算出部と、
前記自己相関関数の加重平均から逆フィル夕係数を算出する第 1のフィル夕係 数算出部と、
前記逆フィル夕係数により構成される逆フィル夕と、
前記逆フィルタ係数から周波数スぺク トルを算出するスぺク トル算出部と、 前記周波数スぺクトルからホルマント周波数とホルマント振幅を推定するホル マント推定部と、
前記周波数スぺクトル、 前記ホルマント周波数および前記ホルマント振幅から 現フレームの仮増幅率を求める仮増幅率算出部と、
前記仮増幅率と前フレームの増幅率との差分増幅率を算出する差分算出部と、 前記差分があらかじめ定めた閾値よりも大きい場合には、 前記閾値と前フレー ムの増幅率とから決定される増幅率を現フレームの増幅率とし、 前記差分が前記 閾値よりも小さい場合には、 前記仮増幅率を現フレームの増幅率とする増幅率判 定部を有し、
前記現フレームの増幅率に基づいて前記周波数スぺクトルを変化させ、 変化さ れた周波数スぺクトルを求めるスぺクトル強調部と、
前記変化された周波数スぺクトルから合成フィル夕係数を算出する第 2のフィ ル夕係数算出部と、
前記合成フィルタ係数から構成される合成フィル夕と、
残差信号からピッチ強調係数を算出するピ、ソチ強調係数算出部と、
前記ピッチ強調係数により構成されるピッチ強調フィル夕を有し、
前記入力音声を前記逆フィル夕に入力して残差信号を求め、 前記残差信号を前 記ピッチ強調フィル夕に入力してピッチ周期性が強調された残差信号を求め、 前 強調された記残差信号を前記合成フィル夕に入力して出力音声を求めることを特 徴とする音声強調装置。
2 1 . 入力音声信号の一部の周波数帯域を強調する強調フィル夕と
前記強調フィル夕により強調された入力音声信号を音源特性と声道特性とに分 離する信号分離部と、
前記声道特性から特徴情報を抽出する特徴抽出部と、
前記声道特性と前記特徴情報から声道特性修正情報を求める修正声道特性算出 部と、
前記声道特性修正情報を用いて前記声道特性を修正する声道特性修正部と、 前記声道特性修正部からの修正声道特性と前記音源特性を合成する信号合成手 段を有し、
前記信号合成手段により合成した音声を出力することを特徴とする音声強調装置 2 2 . 入力音声信号を音源特性と声道特性とに分離する信号分離部と、 前記声道特性から特徴情報を抽出する特徴抽出部と、
前記声道特性と前記特徴情報から声道特性修正情報を求める修正声道特性算 出部と、
前記声道特性修正情報を用いて前記声道特性を修正する声道特性修正部と、 前記声道特性修正部からの修正声道特性と前記音源特性を合成する信号合成 部と、
前記信号合成手段合成信号の一部の周波数帯域を強調するフィル夕とを有す ることを特徴とする音声強調装置。
PCT/JP2002/011332 2002-10-31 2002-10-31 音声強調装置 WO2004040555A1 (ja)

Priority Applications (5)

Application Number Priority Date Filing Date Title
PCT/JP2002/011332 WO2004040555A1 (ja) 2002-10-31 2002-10-31 音声強調装置
CNB028295854A CN100369111C (zh) 2002-10-31 2002-10-31 话音增强装置
JP2004547997A JP4219898B2 (ja) 2002-10-31 2002-10-31 音声強調装置
EP02779956.8A EP1557827B8 (en) 2002-10-31 2002-10-31 Voice intensifier
US11/060,188 US7152032B2 (en) 2002-10-31 2005-02-17 Voice enhancement device by separate vocal tract emphasis and source emphasis

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
PCT/JP2002/011332 WO2004040555A1 (ja) 2002-10-31 2002-10-31 音声強調装置

Related Child Applications (1)

Application Number Title Priority Date Filing Date
US11/060,188 Continuation US7152032B2 (en) 2002-10-31 2005-02-17 Voice enhancement device by separate vocal tract emphasis and source emphasis

Publications (1)

Publication Number Publication Date
WO2004040555A1 true WO2004040555A1 (ja) 2004-05-13

Family

ID=32260023

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/JP2002/011332 WO2004040555A1 (ja) 2002-10-31 2002-10-31 音声強調装置

Country Status (5)

Country Link
US (1) US7152032B2 (ja)
EP (1) EP1557827B8 (ja)
JP (1) JP4219898B2 (ja)
CN (1) CN100369111C (ja)
WO (1) WO2004040555A1 (ja)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8255222B2 (en) 2007-08-10 2012-08-28 Panasonic Corporation Speech separating apparatus, speech synthesizing apparatus, and voice quality conversion apparatus
JP2013101255A (ja) * 2011-11-09 2013-05-23 Nippon Telegr & Teleph Corp <Ntt> 音声強調装置とその方法とプログラム
JP2013218147A (ja) * 2012-04-10 2013-10-24 Nippon Telegr & Teleph Corp <Ntt> 音声明瞭度変換装置、音声明瞭度変換方法及びそのプログラム
JP7461192B2 (ja) 2020-03-27 2024-04-03 株式会社トランストロン 基本周波数推定装置、アクティブノイズコントロール装置、基本周波数の推定方法及び基本周波数の推定プログラム

Families Citing this family (36)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP4076887B2 (ja) * 2003-03-24 2008-04-16 ローランド株式会社 ボコーダ装置
EP1619666B1 (en) * 2003-05-01 2009-12-23 Fujitsu Limited Speech decoder, speech decoding method, program, recording medium
US20070011009A1 (en) * 2005-07-08 2007-01-11 Nokia Corporation Supporting a concatenative text-to-speech synthesis
EP1850328A1 (en) * 2006-04-26 2007-10-31 Honda Research Institute Europe GmbH Enhancement and extraction of formants of voice signals
JP4827661B2 (ja) * 2006-08-30 2011-11-30 富士通株式会社 信号処理方法及び装置
US8050434B1 (en) 2006-12-21 2011-11-01 Srs Labs, Inc. Multi-channel audio enhancement system
CN102017402B (zh) 2007-12-21 2015-01-07 Dts有限责任公司 用于调节音频信号的感知响度的系统
US8831936B2 (en) * 2008-05-29 2014-09-09 Qualcomm Incorporated Systems, methods, apparatus, and computer program products for speech signal processing using spectral contrast enhancement
KR101475724B1 (ko) * 2008-06-09 2014-12-30 삼성전자주식회사 오디오 신호 품질 향상 장치 및 방법
US8538749B2 (en) * 2008-07-18 2013-09-17 Qualcomm Incorporated Systems, methods, apparatus, and computer program products for enhanced intelligibility
WO2010035438A1 (ja) * 2008-09-26 2010-04-01 パナソニック株式会社 音声分析装置および音声分析方法
US9202456B2 (en) 2009-04-23 2015-12-01 Qualcomm Incorporated Systems, methods, apparatus, and computer-readable media for automatic control of active noise cancellation
WO2011004579A1 (ja) * 2009-07-06 2011-01-13 パナソニック株式会社 声質変換装置、音高変換装置および声質変換方法
US8538042B2 (en) 2009-08-11 2013-09-17 Dts Llc System for increasing perceived loudness of speakers
US20120150544A1 (en) * 2009-08-25 2012-06-14 Mcloughlin Ian Vince Method and system for reconstructing speech from an input signal comprising whispers
US9031834B2 (en) 2009-09-04 2015-05-12 Nuance Communications, Inc. Speech enhancement techniques on the power spectrum
US8204742B2 (en) 2009-09-14 2012-06-19 Srs Labs, Inc. System for processing an audio signal to enhance speech intelligibility
TWI459828B (zh) * 2010-03-08 2014-11-01 Dolby Lab Licensing Corp 在多頻道音訊中決定語音相關頻道的音量降低比例的方法及系統
US9053697B2 (en) 2010-06-01 2015-06-09 Qualcomm Incorporated Systems, methods, devices, apparatus, and computer program products for audio equalization
EP2610865B1 (en) * 2010-08-23 2014-07-23 Panasonic Corporation Audio signal processing device and audio signal processing method
PL2737479T3 (pl) * 2011-07-29 2017-07-31 Dts Llc Adaptacyjna poprawa zrozumiałości głosu
JP2013073230A (ja) * 2011-09-29 2013-04-22 Renesas Electronics Corp オーディオ符号化装置
CN102595297B (zh) * 2012-02-15 2014-07-16 嘉兴益尔电子科技有限公司 数字式助听器增益控制优化方法
US9312829B2 (en) 2012-04-12 2016-04-12 Dts Llc System for adjusting loudness of audio signals in real time
CN102779527B (zh) * 2012-08-07 2014-05-28 无锡成电科大科技发展有限公司 基于窗函数共振峰增强的语音增强方法
US9805738B2 (en) * 2012-09-04 2017-10-31 Nuance Communications, Inc. Formant dependent speech signal enhancement
CN104464746A (zh) * 2013-09-12 2015-03-25 索尼公司 语音滤波方法、装置以及电子设备
CN104143337B (zh) * 2014-01-08 2015-12-09 腾讯科技(深圳)有限公司 一种提高音频信号音质的方法和装置
CN107851433B (zh) * 2015-12-10 2021-06-29 华侃如 基于谐波模型和声源-声道特征分解的语音分析合成方法
CN106970771B (zh) * 2016-01-14 2020-01-14 腾讯科技(深圳)有限公司 音频数据处理方法和装置
CN109952609B (zh) * 2016-11-07 2023-08-15 雅马哈株式会社 声音合成方法
WO2019063547A1 (en) * 2017-09-26 2019-04-04 Sony Europe Limited METHOD AND ELECTRONIC DEVICE FOR ATTENUATION / AMPLIFICATION OF FORMER
JP6991041B2 (ja) * 2017-11-21 2022-01-12 ヤフー株式会社 生成装置、生成方法、および生成プログラム
JP6962269B2 (ja) * 2018-05-10 2021-11-05 日本電信電話株式会社 ピッチ強調装置、その方法、およびプログラム
CN109346058A (zh) * 2018-11-29 2019-02-15 西安交通大学 一种语音声学特征扩大系统
CN115206142B (zh) * 2022-06-10 2023-12-26 深圳大学 一种基于共振峰的语音训练方法及系统

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH08160992A (ja) * 1994-12-02 1996-06-21 Atr Ningen Joho Tsushin Kenkyusho:Kk 音質改善装置
JPH08248996A (ja) * 1995-03-10 1996-09-27 Nippon Telegr & Teleph Corp <Ntt> ディジタルフィルタのフィルタ係数決定方法
JPH08305397A (ja) * 1995-05-12 1996-11-22 Mitsubishi Electric Corp 音声加工フィルタ及び音声合成装置

Family Cites Families (15)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US4969192A (en) * 1987-04-06 1990-11-06 Voicecraft, Inc. Vector adaptive predictive coder for speech and audio
JP2588004B2 (ja) 1988-09-19 1997-03-05 日本電信電話株式会社 後処理フィルタ
JP2626223B2 (ja) * 1990-09-26 1997-07-02 日本電気株式会社 音声符号化装置
US5233660A (en) * 1991-09-10 1993-08-03 At&T Bell Laboratories Method and apparatus for low-delay celp speech coding and decoding
WO1993018505A1 (en) * 1992-03-02 1993-09-16 The Walt Disney Company Voice transformation system
FR2734389B1 (fr) * 1995-05-17 1997-07-18 Proust Stephane Procede d'adaptation du niveau de masquage du bruit dans un codeur de parole a analyse par synthese utilisant un filtre de ponderation perceptuelle a court terme
US5774837A (en) * 1995-09-13 1998-06-30 Voxware, Inc. Speech coding system and method using voicing probability determination
JPH09160595A (ja) 1995-12-04 1997-06-20 Toshiba Corp 音声合成方法
US6240384B1 (en) * 1995-12-04 2001-05-29 Kabushiki Kaisha Toshiba Speech synthesis method
KR100269255B1 (ko) * 1997-11-28 2000-10-16 정선종 유성음 신호에서 성문 닫힘 구간 신호의 가변에의한 피치 수정방법
US6003000A (en) * 1997-04-29 1999-12-14 Meta-C Corporation Method and system for speech processing with greatly reduced harmonic and intermodulation distortion
US6073092A (en) * 1997-06-26 2000-06-06 Telogy Networks, Inc. Method for speech coding based on a code excited linear prediction (CELP) model
US6098036A (en) * 1998-07-13 2000-08-01 Lockheed Martin Corp. Speech coding system and method including spectral formant enhancer
GB2342829B (en) * 1998-10-13 2003-03-26 Nokia Mobile Phones Ltd Postfilter
US6950799B2 (en) * 2002-02-19 2005-09-27 Qualcomm Inc. Speech converter utilizing preprogrammed voice profiles

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH08160992A (ja) * 1994-12-02 1996-06-21 Atr Ningen Joho Tsushin Kenkyusho:Kk 音質改善装置
JPH08248996A (ja) * 1995-03-10 1996-09-27 Nippon Telegr & Teleph Corp <Ntt> ディジタルフィルタのフィルタ係数決定方法
JPH08305397A (ja) * 1995-05-12 1996-11-22 Mitsubishi Electric Corp 音声加工フィルタ及び音声合成装置

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
See also references of EP1557827A4 *

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8255222B2 (en) 2007-08-10 2012-08-28 Panasonic Corporation Speech separating apparatus, speech synthesizing apparatus, and voice quality conversion apparatus
JP2013101255A (ja) * 2011-11-09 2013-05-23 Nippon Telegr & Teleph Corp <Ntt> 音声強調装置とその方法とプログラム
JP2013218147A (ja) * 2012-04-10 2013-10-24 Nippon Telegr & Teleph Corp <Ntt> 音声明瞭度変換装置、音声明瞭度変換方法及びそのプログラム
JP7461192B2 (ja) 2020-03-27 2024-04-03 株式会社トランストロン 基本周波数推定装置、アクティブノイズコントロール装置、基本周波数の推定方法及び基本周波数の推定プログラム

Also Published As

Publication number Publication date
US7152032B2 (en) 2006-12-19
CN1669074A (zh) 2005-09-14
EP1557827A4 (en) 2008-05-14
JPWO2004040555A1 (ja) 2006-03-02
EP1557827A1 (en) 2005-07-27
JP4219898B2 (ja) 2009-02-04
EP1557827B8 (en) 2015-01-07
CN100369111C (zh) 2008-02-13
EP1557827B1 (en) 2014-10-01
US20050165608A1 (en) 2005-07-28

Similar Documents

Publication Publication Date Title
WO2004040555A1 (ja) 音声強調装置
US7158932B1 (en) Noise suppression apparatus
JP3457293B2 (ja) 雑音抑圧装置及び雑音抑圧方法
US8560308B2 (en) Speech sound enhancement device utilizing ratio of the ambient to background noise
JP4423300B2 (ja) 雑音抑圧装置
JP4018571B2 (ja) 音声強調装置
US8126176B2 (en) Hearing aid
JPH10509256A (ja) ピッチ操作器を使用する音声信号の変換方法
JP2000347688A (ja) 雑音抑圧装置
JPH09204196A (ja) 雑音抑圧器及び移動局並びに雑音抑圧方法
JP2004061617A (ja) 受話音声処理装置
JP6073456B2 (ja) 音声強調装置
US7606702B2 (en) Speech decoder, speech decoding method, program and storage media to improve voice clarity by emphasizing voice tract characteristics using estimated formants
JP4413480B2 (ja) 音声処理装置及び移動通信端末装置
JP2007251354A (ja) マイクロホン、音声生成方法
JP2008309955A (ja) ノイズサプレス装置
Chanda et al. Speech intelligibility enhancement using tunable equalization filter
JP4135242B2 (ja) 受信装置及び方法、通信装置及び方法
RU2589298C1 (ru) Способ повышения разборчивости и информативности звуковых сигналов в шумовой обстановке
JPH09311696A (ja) 自動利得調整装置
JP4227421B2 (ja) 音声強調装置および携帯端末
JP2006201622A (ja) 帯域分割型雑音抑圧装置及び帯域分割型雑音抑圧方法
KR100746680B1 (ko) 음성 강조 장치
JP4135240B2 (ja) 受信装置及び方法、通信装置及び方法
JP2011141540A (ja) 音声信号処理装置、テレビジョン受像機、音声信号処理方法、プログラム、および、記録媒体

Legal Events

Date Code Title Description
AK Designated states

Kind code of ref document: A1

Designated state(s): CN JP KR US

AL Designated countries for regional patents

Kind code of ref document: A1

Designated state(s): AT BE BG CH CY CZ DE DK EE ES FI FR GB GR IE IT LU MC NL PT SE SK TR

121 Ep: the epo has been informed by wipo that ep was designated in this application
WWE Wipo information: entry into national phase

Ref document number: 2004547997

Country of ref document: JP

WWE Wipo information: entry into national phase

Ref document number: 11060188

Country of ref document: US

WWE Wipo information: entry into national phase

Ref document number: 1020057002760

Country of ref document: KR

WWE Wipo information: entry into national phase

Ref document number: 2002779956

Country of ref document: EP

WWE Wipo information: entry into national phase

Ref document number: 20028295854

Country of ref document: CN

WWP Wipo information: published in national office

Ref document number: 1020057002760

Country of ref document: KR

WWP Wipo information: published in national office

Ref document number: 2002779956

Country of ref document: EP