WO2004097798A1 - 音声復号化装置、音声復号化方法、プログラム、記録媒体 - Google Patents

音声復号化装置、音声復号化方法、プログラム、記録媒体 Download PDF

Info

Publication number
WO2004097798A1
WO2004097798A1 PCT/JP2003/005582 JP0305582W WO2004097798A1 WO 2004097798 A1 WO2004097798 A1 WO 2004097798A1 JP 0305582 W JP0305582 W JP 0305582W WO 2004097798 A1 WO2004097798 A1 WO 2004097798A1
Authority
WO
WIPO (PCT)
Prior art keywords
formant
speech
vocal tract
sound source
source signal
Prior art date
Application number
PCT/JP2003/005582
Other languages
English (en)
French (fr)
Inventor
Masakiyo Tanaka
Masanao Suzuki
Yasuji Ota
Yoshiteru Tsuchinaga
Original Assignee
Fujitsu Limited
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fujitsu Limited filed Critical Fujitsu Limited
Priority to PCT/JP2003/005582 priority Critical patent/WO2004097798A1/ja
Priority to JP2004571323A priority patent/JP4786183B2/ja
Priority to DE60330715T priority patent/DE60330715D1/de
Priority to EP03721013A priority patent/EP1619666B1/en
Publication of WO2004097798A1 publication Critical patent/WO2004097798A1/ja
Priority to US11/115,478 priority patent/US7606702B2/en

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/26Pre-filtering or post-filtering
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0316Speech enhancement, e.g. noise reduction or echo cancellation by changing the amplitude
    • G10L21/0364Speech enhancement, e.g. noise reduction or echo cancellation by changing the amplitude for improving intelligibility
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/08Determination or coding of the excitation function; Determination or coding of the long-term prediction parameters
    • G10L19/12Determination or coding of the excitation function; Determination or coding of the long-term prediction parameters the excitation function being a code excitation, e.g. in code excited linear prediction [CELP] vocoders
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/03Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
    • G10L25/15Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being formant information

Definitions

  • Speech decoding device Speech decoding method, program, recording medium
  • the present invention relates to a communication device such as a mobile phone which performs communication by performing a voice encoding process, and particularly relates to a voice decoding device for improving the clarity of voice and making it easier to hear a received voice. Method and so on. Background art
  • a Code Excited Linear Prediction (CELP) method is known as a coding method having excellent voice quality at a low bit rate.
  • CELP Code Excited Linear Prediction
  • Many voice coding standards such as the ITU-T G.729 system and the 3GPP AMR system, adopt a CELP-based coding system.
  • the voice compression method used in, for example, voice over IP (VoIP) and TV conference systems, etc. is mainly based on the CEL algorithm.
  • CELP is a speech coding method announced by MR Schroder and BS Atal in 1985, which extracts parameters from input speech based on a human speech generation model, encodes the parameters, and transmits them. As a result, highly efficient information compression is realized.
  • ' Figure 16 shows a model of speech generation.
  • the sound source signal generated by the sound source (vocal cord) 110 is input to the articulatory system (vocal tract) 111, and after the vocal tract characteristics are added in the vocal tract 111, the final It is output as a speech waveform from the lips 1 and 2 (see Non-Patent Document 1).
  • speech consists of sound source characteristics and vocal tract characteristics.
  • FIG. 17 shows a processing flow of the CELP encoder / decoder.
  • a CELP encoder and a CELP decoder are mounted on a mobile phone or the like, and the CELP decoder 120 of the mobile phone on the receiving side is changed from the CELP encoder 120 of the mobile phone on the transmitting side.
  • a voice signal (voice code) is transmitted via a transmission path (not shown) (wireless line, mobile phone network, etc.).
  • the parameter extraction unit 121 analyzes the input speech based on the above-mentioned speech generation model, and converts the input speech into a linear prediction representing the vocal tract characteristics. Coefficients (Linear Predictor Coefficients: LPC coefficients) and sound source signals are separated.
  • the parameter extracting unit 122 further includes, from the excitation signal, an adaptive codebook (ACB) vector representing a periodic component of the excitation signal, a noise code ⁇ 1 (Stochastic CodeBook: SCB) beta code representing an aperiodic component, And extract the gain of both vectors.
  • ACB adaptive codebook
  • SCB Stochastic CodeBook
  • the encoding unit 122 encodes the LPC coefficient, the ACB vector, the SCB vector, and the gain to generate an LPC code, an ACB code, an SCB code, and a gain code. 23 multiplexes these into a speech code and transmits it to the mobile phone on the receiving side.
  • the code separation unit 1 31 1 S the transmitted speech code, LPC code, AC B code , An SCB code, and a gain code
  • the decoding unit 132 decodes them into an LPC coefficient, an ACB vector, an SCB vector, and a gain.
  • the speech synthesis unit 133 synthesizes speech from each of the decoded parameters.
  • CELP encoder and CELP decoder will be described in more detail.
  • FIG. 18 shows a block diagram of the parameter extraction unit 121 of the CELP encoder.
  • LPC analysis section 141 obtains LPC coefficients from input speech by a known linear prediction analysis (LPC analysis) technique. These LPC coefficients are filter coefficients when the vocal tract characteristics are approximated by an all-pole linear filter.
  • the sound source signal is extracted.
  • the analysis by synthesis (AbS) technique is used.
  • CELP sound is reproduced by inputting a sound source signal to an LPC synthesis filter 142 composed of LPC coefficients. Therefore, a sound source candidate composed of multiple ACB vectors stored in adaptive codebook 144, multiple SCB vectors stored in noise codebook 144, and a combination of the gains of both vectors From this, the error power evaluator 144 searches for a codebook combination that minimizes the error with the input speech when the speech is synthesized by the LPC synthesis filter 142, and the ACB vector, SCB vector, Extract AC B gain and SCB gain.
  • Each parameter extracted by the above operation is encoded by the encoding unit 122 as described above, and an LPC code, an ACB code, an SCB code, and a gain code are obtained.
  • Each obtained code is encoded by the code multiplexing unit 1 2 3 It is multiplexed and transmitted as a speech code to the decoder side.
  • FIG. 19 shows a block diagram of the CELP decoder 130.
  • the code separation unit 1331 separates each parameter from the transmitted speech code, and converts the LPC code, ACB code, SCB code, and gain code. obtain.
  • the LPC coefficient decoding unit 151, the ACB vector decoding unit 152, the SCB vector decoding unit 153, and the gain decoding unit The code, ACB code, SCB code, and gain code are decoded into LPC coefficient, ACB vector, SCB vector, and gain (ACB gain, SCB gain), respectively.
  • the speech synthesis unit 133 generates a sound source signal from the input AC B vector, SCB vector, and gain (ACB gain, SCB gain) according to the illustrated configuration, and decodes the sound source signal as described above. It is input to an LPC synthesis filter 155 composed of LPC coefficients, and the speech is decoded and output by the LPC synthesis filter 155.
  • a TV conference system used indoors usually includes noise generated from electric appliances such as an air conditioner, and background noise such as speech of others around.
  • noise generated from electric appliances such as an air conditioner
  • background noise such as speech of others around.
  • several techniques are known for enhancing the intelligibility of the received voice by enhancing the formants of the voice spectrum with respect to the received voice and making the received voice easier to hear.
  • the formant will be briefly described.
  • FIG. 20 shows an example of a voice frequency spectrum.
  • a speech frequency spectrum has a plurality of peaks (portions having local maxima), and these are called formants.
  • Fig. 20 shows an example in which there are three formants (peaks) in the spectrum, which are referred to as the first formant, the second formant, and the third formant in order of frequency.
  • the frequencies at which these maxima occur that is, the frequencies fp (l), fp (2), and fp (3) of each formant, are called formant frequencies.
  • the amplitude (power) of a voice spectrum tends to decrease as the frequency increases.
  • speech intelligibility is closely related to formants, and it is known that emphasis on higher-order (eg, second and third) formants improves speech intelligibility. You.
  • FIG. 21 shows an example of honoremanto emphasis of a speech spectrum / record.
  • the waveform shown by the solid line in FIG. 21 (a) and the dotted line in FIG. 21 (b) represent the speech spectrum before emphasis. Also, in FIG. 21 (b), the waveform indicated by the solid line in the figure represents the speech style after emphasis. The straight line in the figure represents the slope of the waveform.
  • Fig. 21 (b) by emphasizing the speech spectrum so as to increase the amplitude of the higher-order formants, the slope of the entire spectrum is flattened. It is known that clarity can be improved.
  • Patent Document 1 As a technique of applying formant enhancement to coded speech, For example, a technique described in Patent Document 1 is known.
  • FIG. 22 shows a basic configuration diagram of the invention described in Patent Document 1.
  • Patent Document 1 relates to a method using a band division filter.
  • the spectrum of the input speech is obtained by the spectrum estimating unit 160, and the convex zone (mountain) is obtained from the obtained spectrum.
  • the convex / concave band determining unit 16 1 that determines the HQ band (valley) determines the convex band and the concave band, and calculates the amplification factor (or attenuation rate) for the convex band and the concave band.
  • the filter embodying unit 162 gives the filter unit 163 a coefficient for realizing the above amplification factor (or attenuation factor), and the input sound is input to the filter unit 163, thereby enhancing the spectrum emphasis. Realize.
  • the method using a band division filter does not guarantee that the audio formant always enters the divided frequency band, so that components other than the formant are emphasized, and consequently the clarity may be degraded There was a problem.
  • Patent Document 1 is a method using a band division filter, and realizes voice enhancement by individually amplifying and attenuating peaks and valleys of the voice spectrum. I have.
  • the speech decoding unit uses an ABC vector index, SCB vector index, and gain index.
  • a synthesis filter composed of LPC coefficients decoded by the LPC coefficient index to generate a synthesized signal.
  • the synthesized signal and the LPC coefficient are input to the spectrum emphasis section. Then, the above-mentioned spectral emphasis is realized.
  • Patent Document 2 The invention described in Patent Document 2 is an audio signal processing device applied to a post-filter (boost filter) of a speech synthesis system of a multi-band excitation coding (MBE) speech decoding device, and includes a parameter in a frequency domain. By directly manipulating the amplitude value of each band, the high frequency formant of the frequency spectrum is emphasized.
  • a band including a formant is estimated from an average amplitude of a plurality of frequency bands divided by a pitch frequency, and a band including the formant is estimated. It is a way to emphasize only.
  • Patent Document 3 discloses a technique of “analysis by synthesis” with a reference signal that is a signal in which the noise gain is suppressed, that is, a voice that performs an encoding process using the A—b_S method.
  • An encoding device comprising: means for enhancing a formant of the reference signal; means for dividing an audio part and a noise part of the signal; and means for suppressing the level of the noise part.
  • a linear prediction coefficient is extracted for each frame from the input signal, and the formant enhancement is performed based on the linear prediction coefficient.
  • the invention described in Patent Document 4 is an invention related to a sound source search (multi-pulse search) for multi-pulse speech coding.
  • a sound source search multi-pulse search
  • the sound is emphasized in the form of a line spectrum, and then the sound source search is performed.
  • Patent Document 1 Unexamined Japanese Patent Publication No.
  • Patent Document 2
  • Patent Document 1 the method described in Patent Document 1 has the following problems.
  • Patent Document 1 in accordance with the case where the CELP method is used as in the seventh embodiment shown in FIG. 19, the synthesized signal and the LPC coefficient are input to the spectrum emphasizing unit.
  • the sound source signal and the vocal tract characteristics are completely different characteristics as can be seen from the above-described speech generation model.
  • the synthesized speech is emphasized by the emphasis filter obtained from the vocal tract characteristics. For this reason, the distortion of the sound source signal included in the synthesized speech is increased, and side effects such as an increase in noise and deterioration in clarity may occur.
  • the invention described in Patent Document 2 is an invention for the purpose of improving the reproduced voice quality of the MBE vocoder.
  • the voice compression method used in mobile phone systems, VoIP, video conferencing systems, etc. today is based on the CELP algorithm using linear prediction. What is done is the mainstream. Therefore, when the method described in Patent Document 2 is applied to a system using a compression method based on CELP, it is possible to extract coding parameters for the MBE vocoder from speech that has been compressed and decompressed and has degraded speech quality. However, there is a problem that voice quality may be further deteriorated.
  • Patent Document 3 a simple IIR filter using LPC coefficients is used to enhance the formant.
  • this method may misemphasize the formant. For example, it is known from the Proceedings of the Acoustical Society of Japan, March 2000, pp. 249-250, etc.).
  • the invention of Patent Document 3 relates to a speech encoding device in the first place, and does not relate to a speech decoding device.
  • the invention described in Patent Document 4 aims to increase the compression efficiency by performing a sound source search.Specifically, when searching for sound source information by approximating the sound source information with multi-pulses, the input voice is directly input.
  • An object of the present invention is to suppress side effects such as deterioration of sound quality due to formant emphasis and an increase in noise sensation in a device (a mobile phone or the like) using an analysis-synthesis-based speech coding method, and further enhance the clarity of the restored speech.
  • Another object of the present invention is to provide a voice decoding device, a voice decoding method, a program, a recording medium, and the like for making it easy to hear a received voice. Disclosure of the invention
  • a speech decoding device is a speech decoding device provided in a communication device using an analysis-synthesis-based speech encoding method, wherein the speech decoding device separates a received speech code and restores a vocal tract characteristic and a sound source signal.
  • Separation / decoding means vocal tract characteristic correcting means for correcting the vocal tract characteristics, a modified vocal tract characteristic corrected by the vocal tract characteristic correcting means, and a sound source signal obtained from the speech code are synthesized.
  • Signal synthesizing means for outputting an audio signal.
  • the correction of the vocal tract characteristics refers to, for example, performing formant emphasis processing on the vocal tract characteristics.
  • the speech decoding apparatus when a communication apparatus such as a mobile phone that uses an analysis-synthesis speech coding scheme receives a speech code transmitted after being subjected to speech coding processing, the speech coding apparatus receives the speech code.
  • the vocal tract characteristics and the sound source signal are restored from the speech code, and the restored vocal tract characteristics are subjected to formant emphasis processing and synthesized with the sound source signal. .
  • the vocal tract characteristic is a linear prediction vector calculated from a first linear prediction coefficient decoded from the speech code, and the vocal tract characteristic correcting unit converts the linear prediction vector into a linear prediction vector.
  • the signal synthesis means comprises a modified linear prediction coefficient calculating means for obtaining a second linear prediction coefficient corresponding to the formant-enhanced linear prediction vector, and a second linear prediction coefficient And a synthesis filter configured.
  • the sound source signal is input, and the audio signal is generated and output.
  • the vocal tract characteristic correcting unit includes a formant enhancement for the vocal tract characteristic.
  • An anti-formant attenuation process is performed to generate a vocal tract characteristic in which an amplitude difference between the formant and the anti-formant is emphasized, and the signal synthesizing unit synthesizes with the sound source signal based on the emphasized vocal tract characteristic. May be performed.
  • the formants are further emphasized relatively, and the clarity of the voice can be further increased.
  • the anti-formant by attenuating the anti-formant, it is possible to suppress a sense of noise that is unpleasant in the decoded speech after the speech encoding processing.
  • noise called quantization noise is likely to occur in the anti-formant in speech coded / decoded by a speech coding method such as CELP, which is a type of speech coding method for analysis and synthesis.
  • CELP speech coding method for analysis and synthesis.
  • the anti-formant is attenuated by the above configuration, the above-mentioned quantization noise is reduced, and it is possible to provide an easy-to-hear voice with a small noise feeling.
  • the speech decoding apparatus further includes a pitch emphasis unit that performs pitch emphasis on the sound source signal, wherein the signal synthesizing unit includes the pitch-enhanced sound source signal and the corrected sound source signal.
  • the vocal tract characteristics and may be combined to generate and output an audio signal.
  • the input speech code is separated to restore the sound source characteristics (residual signal) and the vocal tract characteristics, and these are separately subjected to emphasis processing suitable for each characteristic.
  • the program is read out from a computer-readable storage medium storing a program for causing a computer to perform the same control as the function performed by each configuration of the present invention and executed by the computer.
  • the above-mentioned problem can be solved.
  • FIG. 1 is a diagram showing a schematic configuration of a speech decoding device of the present example.
  • FIG. 2 is a basic configuration diagram of the speech decoding device of the present example.
  • FIG. 3 is a configuration block diagram of the speech decoding device 40 according to the first embodiment.
  • FIG. 4 is a processing flowchart of the amplification factor calculation unit.
  • FIG. 5 is a diagram showing how to obtain the formant amplification factor.
  • FIG. 6 is a diagram illustrating an example of an interpolation curve.
  • FIG. 7 is a configuration block diagram of a speech decoding device according to the second embodiment.
  • FIG. 8 is a processing flowchart of the amplification factor calculation unit.
  • FIG. 9 is a diagram showing how to determine the amplification factor of antiformant.
  • FIG. 10 is a configuration block diagram of a speech decoding apparatus according to the third embodiment.
  • FIG. 11 is a hardware configuration diagram of a mobile phone to which one of the applications of the audio decoding apparatus is applied.
  • FIG. 12 is a hardware configuration diagram of a computer to which the speech decoding device is applied.
  • FIG. 13 is a diagram showing an example of a recording medium on which a program is recorded, and download of the program.
  • FIG. 14 is a diagram showing a basic configuration of a speech enhancement device proposed in the prior application.
  • FIG. 15 shows a configuration example in which the speech enhancement device of the prior application is applied to a mobile phone or the like equipped with a CELP decoder.
  • FIG. 16 is a diagram showing a speech generation model.
  • FIG. 17 is a diagram showing a process flow of the CELP encoder / decoder.
  • Figure 18 is a block diagram of the configuration of the parameter extraction unit of the CELP encoder.
  • FIG. 19 is a block diagram of the configuration of the CELP decoder.
  • FIG. 20 is a diagram showing an example of a voice frequency spectrum.
  • FIG. 21 is a diagram showing an example of formant enhancement of a speech spectrum.
  • FIG. 22 is a diagram showing a basic configuration diagram of the invention described in Patent Document 1. BEST MODE FOR CARRYING OUT THE INVENTION
  • FIG. 1 shows a schematic configuration of the speech decoding apparatus according to this example.
  • the speech decoding device 10 has a schematic configuration.
  • a code separation / decoding unit 11 A code separation / decoding unit 11, a vocal tract characteristic correction unit 12, and a signal synthesis unit 13.
  • the code separation / decoding unit 11 restores the vocal tract characteristics s Pl and the sound source signal from the speech code.
  • the CELP encoder (not shown) of the transmitting mobile phone or the like converts the input speech into a linear prediction coefficient (LP). C code) and a sound source signal (residual signal), encode each of them, multiplex them, and transmit them as a speech code to the decoder of the mobile phone etc. on the receiving side. .
  • the decoder that has received the speech code first decodes the vocal tract characteristics s Pl and the sound source signal from the speech code by the code separation / decoding unit 11. Then, the vocal tract characteristic correction unit 12 corrects the vocal tract characteristic s P l and outputs the corrected vocal tract characteristic sp 2 . This, for example, by performing Holman preparative enhancement processing directly to the vocal tract characteristic s P l, produces ⁇ outputs the emphasized vocal tract characteristics sp 2.
  • the signal synthesis unit 13 synthesizes the corrected vocal tract characteristics sp 2 and the sound source signal r x to generate and output an output voice s. For example, it generates and outputs a formant-enhanced output sound s.
  • the restored sound source signal (the output of the adder) is passed through a synthesis filter composed of decoded LPC coefficients to generate a synthesized signal ( (Synthesized speech), and the synthesized speech is emphasized by the emphasis filter obtained from the vocal tract characteristics. For this reason, the distortion of the sound source signal included in the synthesized speech becomes large, which may cause problems such as an increase in noise and deterioration in clarity.
  • the speech decoding apparatus 10 of this example is almost the same up to the point where the sound source signal and the LPC coefficient are restored, but without generating a synthesized signal (synthesized speech), subjected to direct formant strong tone processing on s P l, combines the enhanced vocal tract characteristics sp 2 and the sound source signal (residual signal). Therefore, the above problem is solved, and it is possible to decode the speech into a speech without side effects such as sound quality deterioration due to enhancement and an increase in noise.
  • FIG. 2 shows a basic configuration diagram of the speech decoding apparatus of the present example.
  • CELP Code Excited Linear Prediction
  • the illustrated speech decoding device 20 includes a code separation unit 21, an ACB vector decoding unit 22, a SCB vector decoding unit 23, a gain decoding unit 24, a sound source signal generation unit 25, and an LPC coefficient decoding unit. 26, an LPC spectrum calculation section 27, a spectrum emphasis section 28, a modified LPC coefficient calculation section 29, and a synthesis filter 30.
  • the code separation unit 21, LPC coefficient decoding unit 26, ACB vector decoding unit 22, SCB vector decoding unit 23, and gain decoding unit 24 are the detailed configuration of the code separation Z decoding unit 11.
  • the spectrum emphasis unit 28 is an example of the vocal tract characteristic correction unit 12.
  • the modified LPC coefficient calculation unit 29 and the synthesis filter 30 correspond to an example of the detailed configuration of the signal synthesis unit 13. ,
  • the code separation unit 21 separates the voice code transmitted from the transmission side after being multiplexed from the transmission side into an LPC code, an ACB code, an SCB code, and a gain code, and outputs them.
  • the ACB vector decoding unit 22, the SCB vector decoding unit 23, and the gain decoding unit 24 are respectively based on the ACB code, SCB code, and gain code output from the code separation unit 21. Decode the AC B vector, SCB vector, and AC B gain and SCB gain.
  • the sound source signal generation unit 25 Based on the ACB vector, SCB vector, ACB gain and 'SCB gain, the sound source signal generation unit 25 generates a sound source signal (residual signal) r (n ), (0 ⁇ n ⁇ N).
  • N is the frame length of the encoding method.
  • the LPC coefficient decoding unit 26 decodes the LPC coefficient (i), (l ⁇ i ⁇ NP!) From the LPC code output from the code separation unit 21 and calculates the LPC spectrum. Output to part 27. Where NPi is the order of the PC coefficient.
  • LPC spectrum calculation unit 27 the input LPC coefficient ⁇ ⁇ (i) power, LPC spectrum s Pl (1), which is a parameter representing vocal tract characteristics, (0 1 ⁇ N F ).
  • N F is the spectrum number, and N ⁇ N F.
  • LPC spectrum calculation section 27 outputs the obtained LPC spectrum s Pl (1) to spectrum enhancement section 28.
  • the spectrum emphasizing unit 28 finds the enhanced LPC spectrum sp 2 (1) based on the LPC spectrum s Pl (1), and converts the obtained sp 2 (1) to the modified LPC coefficient calculating unit 29. Output.
  • the modified LPC coefficient calculating section 29 calculates a modified LPC coefficient a 2 (i), (1 ⁇ i ⁇ NP 2 ) based on the emphasized LPC spectrum sp 2 (1).
  • NP 2 is the order of the modified LPC coefficient.
  • Fixed PC coefficient calculator 2 9 the corrected LPC coefficients alpha 2 was determined, and outputs the synthesis filter 3 0. Then, the sound source signal r (n) is input to the synthesis filter 30 composed of the obtained modified LPC coefficients H 2 (i), and the output voice s (n), (0 ⁇ n ⁇ N) is determined.
  • the sound source signal r (n) is input to the synthesis filter 30 composed of the obtained modified LPC coefficients H 2 (i), and the output voice s (n), (0 ⁇ n ⁇ N) is determined.
  • the vocal tract characteristics calculated from the speech code are directly subjected to formant enhancement to enhance the vocal tract characteristics, and then synthesized with the sound source signal.
  • the vocal tract characteristics calculated from the speech code the LPC spectrum obtained from the LPC coefficients
  • FIG. 3 is a configuration block diagram of the speech decoding device 40 according to the first embodiment.
  • the code separation unit 21 separates the speech code transmitted from the transmission side into an LPC code, an ACB code, an SCB code, and a gain code.
  • the ACB vector decoding unit 22 decodes the ACB vector p (n), (0 ⁇ nN) from the ACB code.
  • N is the frame length of the coding scheme.
  • the SCB vector decoding unit 22 decodes the SCB vector c (n), (O ⁇ n N) from the SCB code.
  • the gain decoding section 24 decodes the ACB gain g p and the SCB gain g c from the gain code.
  • the sound source signal generation section 25 calculates the decoded ACB vector p (n), SCB vector c (n), ACB gain g p , and SCB gain g c force, according to the following equation (1). , Sound source signal! ⁇ Find (n), (0 ⁇ n ⁇ N).
  • the LPC spectrum calculation unit 27 obtains an LPC spectrum sPi (1) as a vocal tract characteristic by Fourier transforming the LPC coefficient (i) by the following equation (2).
  • N F is the number of data points spectrum.
  • P 1 is the order of the LPC filter.
  • the sampling frequency is F s
  • the frequency resolution of the LPC space data Torr s Pl (1) becomes F s / N F.
  • Variable 1 is the statistic of the statue and represents the discrete frequency. 1 the frequency (Hz) Convert Then int [1 ⁇ F s / N F] to (H z). Note that int [x] means that the variable x is converted to an integer.
  • the LPC spectrum s Pl (1) obtained by the LPC spectrum calculation unit 27 is sent to the formant estimation unit 41, the amplification factor calculation unit 42, and the spectrum emphasis unit 43. Is entered.
  • formant estimation unit 4 1, the LPC spectrum s Pl (1) human power Then, Holman preparative frequency fp (k), (l ⁇ k ⁇ k max) and its amplitude ampp (k), (l ⁇ k kpmax ) Is estimated.
  • kpmax indicates the number of formants to be estimated.
  • the method of estimating the formant frequency is arbitrary. For example, a known technique such as a peak picking method of estimating the formant from the peak of the frequency spectrum can be used.
  • a threshold may be set for the band width of the formant, and only the frequency at which the band width is equal to or smaller than the threshold may be set as the formant frequency.
  • the amplification factor calculating section 42 calculates the LPC spectrum s Pl (1) and the formant frequency and amplitude ⁇ fp (k), ampp (k) ⁇ estimated by the formant estimating section 41. And calculate the amplification factor / 3 (1) for the LPC spectrum s Pl (1).
  • FIG. 4 is a processing flowchart of the amplification factor calculation unit 42.
  • the processing of the amplification factor calculation unit 42 includes the calculation of the amplification reference power (step S11), the calculation of the formant amplification factor (step S12), and the interpolation of the amplification factor (step S11). Perform processing in the order of 13).
  • step S 1 that is, the process of calculating an amplification reference power Po W _ref from LPC spectrum s Pl (1) will be described.
  • the method of calculating the amplification reference power p ow — ref is arbitrary. For example, there is a method of using the average power in the entire frequency band, and a method of using the largest amplitude among the formant amplitudes ampp (k) and (l ⁇ k ⁇ kpmax) as the reference power.
  • the reference power may be obtained as a function using the frequency and the order of the formant as variables.
  • the amplification reference power Pow-ref is expressed by equation (3).
  • Pow _ ref (3)
  • step S12 the formant amplitude Gp (k) is adjusted so that the formant amplitude ampp (k), (l ⁇ k ⁇ k pmax) is adjusted to the amplification reference power Pow_ref obtained in step S11. ) Is determined.
  • Fig. 5 shows how the formant amplitude ampp (k) is adjusted to the width reference power Pow_ref.
  • Equation (4) is an equation for calculating the amplification factor Gp (k).
  • step S 13 between the adjacent formants (the difference between fp (k) and f P (k + 1)
  • the amplification factor j3 (1) of the frequency band in the middle is determined by the interpolation curve R (k, 1).
  • the shape of the interpolation curve is arbitrary, the following shows an example in which the interpolation curve R (k, 1) is a quadratic curve.
  • R (k, 1) can be expressed as the following equation (5).
  • Gp (k) a-fpilCf + b-fp ⁇ k) + c (6)
  • the interpolation curve R (k, 1) can be obtained by obtaining a, b, and c using equations (6), (7), and (8) as simultaneous equations. Based on this R (k, 1), the amplification factor] 3 (1) is interpolated by calculating the amplification factor for the spectrum during the interval [fp (k), fp (k + l)].
  • steps S11 to S13 described above are performed for all formants, and the amplification factors of all frequency bands are determined.
  • the amplification factor for frequencies lower than the lowest order formant fp (l) is calculated using the amplification factor Gp (l) at fp (l), and the amplification factor for frequencies higher than the highest order formant fp (kpmax).
  • the amplification factor Gp (kpmax) at fp (kpmax) is used.
  • the amplification factor] 3 (1) is expressed by the following equation (9). ⁇ (1), (/ ⁇ (1))
  • the amplification factor ⁇ (1) obtained by the amplification factor calculation unit 42 by the above-described processing and the PC spectrum s Pl (1) are input to the spectrum enhancement unit 43. .
  • the spectrum emphasizing unit 43 obtains the emphasized spectrum sp 2 (1) according to the following equation (10).
  • ⁇ 2 1) ⁇ ⁇ 1) ⁇ (0 ⁇ 1 ⁇ N F ) (10) Equation
  • the emphasized spectrum sp 2 (1) obtained by the spectrum emphasis unit 43 is
  • the modified LPC coefficient calculator 29 is input to the modified LPC coefficient calculator 29.
  • the modified LPC coefficient calculator 29 obtains an autocorrelation function ac 2 (i) from the inverse Fourier transform of the emphasized spectrum sp 2 (1). Next, modified by methods known Levinson 'algorithm or the like from the self-correlation function ac 2 (i) PC factor 2 (i), obtaining the (1 ⁇ i ⁇ NP 2).
  • NP 2 is the order of the modified LPC coefficient.
  • the sound source signal r (n) is input to the synthesis filter 30 composed of the corrected LPC coefficient a 2 (i) obtained by the corrected LPC coefficient calculator 29.
  • the synthesis filter 30 obtains the output voice s (n) by the following equation (11).
  • the emphasized vocal tract characteristics and the sound source characteristics are synthesized.
  • the vocal tract characteristics decoded from the speech code are emphasized and then combined with the sound source signal.
  • the amplification factor is calculated based on the amplification factor of the formant for the frequency components other than the formant, and the emphasis processing is performed, so that the vocal tract characteristics are smoothly enhanced. Can be.
  • the amplification factor for the spectrum s P l (1) in the present embodiment is determined with the 1-spectrum le number units, divides the spectrum into a plurality of frequency bands, the individual for each band You may make it have an amplification factor.
  • FIG. 7 is a configuration block diagram of a speech decoding device 50 according to the second embodiment.
  • the second embodiment is characterized in that, in addition to the enhancement of the formants, the anti-formant whose amplitude takes a minimum value is attenuated to enhance the amplitude difference between the formants and the anti-formants.
  • the anti- The romant is described as being present only between two adjacent formants, but it is not limited to this example, but in other cases, i.e., when the anti-formant is at a lower frequency than the lowest order formant or when the highest order formant is present. It can be applied even if it exists at a frequency higher than the formant.
  • the illustrated speech decoding device 50 includes a formant / anti-formant estimation unit 51 and an amplification factor calculation unit in place of the formant estimation unit 4.1 and the amplification factor calculation unit 42 in the speech decoding device 40 of FIG.
  • the configuration other than the above is substantially the same as the configuration of the audio decoding device 40.
  • the formant / antiformant estimator 51 receives the formant frequencies fp (k), (l ⁇ k ⁇ kpmax) and the Estimate the amplitude p (k), (1 ⁇ k ⁇ kpmax), and in addition to this, the antiformant frequency fv (k), (l ⁇ k ⁇ kvmax) and its amplitude ampv (k), ( 1 ⁇ k ⁇ kvmax).
  • the method of estimating the anti-formant is arbitrary. For example, there is a method of applying a peak picking method to the reciprocal of the spectrum s Pl (1).
  • the obtained antiformants are assumed to be fv (l), fv (2), ⁇ -• fv (kvmax) in ascending order.
  • kvmax is the number of antiformants.
  • the amplitude value at fv (k) is assumed to be ampv (k).
  • the estimation result of the formant / antiformant obtained by the formant / antiformant estimation unit 51 is input to the amplification factor calculation unit 52.
  • FIG. 8 is a processing flowchart of the amplification factor calculation unit 52.
  • the amplification factor calculating section 52 calculates the formant amplification reference power (step S 21), determines the formant amplification factor (step S 22), and performs the anti-formant amplification Power calculation (step S 23), determination of the amplification factor of antiformant (step S 24), and capture of the amplification factor (step S 25) are performed in this order.
  • the processing in steps S21 and S22 is the same as the processing in steps Sll and S12 in the first embodiment, and a description thereof will be omitted.
  • step S23 the calculation processing of the anti-formant amplification reference power in step S23 will be described.
  • the amplification reference power Pow_refv of the formant is obtained from the LPC spectrum s Pi (1).
  • the calculation method is arbitrary.For example, a method using a value obtained by multiplying the formant amplification reference power Pow_ref by a constant less than 1 or the minimum value among the completion formants ampv (k) and (1 ⁇ k ⁇ kvmax) For example, there is a method of using the amplitude taking the value as the reference power.
  • the following formula (12) shows the calculation formula when the product of the formant amplification reference power Pow-ref multiplied by a constant is used as the anti-formant reference power.
  • Pow rep Pow ref (1 2) where ⁇ is any constant that satisfies 0 ⁇ 1.
  • step S24 the process of determining the amplification factor of the anti-formant in step S24 will be described.
  • Figure 9 shows how to determine the amplification factor Gv (k) of the antiformant.
  • Fig. 9 As shown in Fig. 9, the anti-homoremant amplitude i ⁇ ampv (k), (1 ⁇ k ⁇ kvmax) is added to the anti-formant amplification reference power Pow-refv obtained in step S23. Determine the amplification factor Gv (k) of the antiformant in such a way.
  • the following equation (13) shows an equation for calculating the amplification factor Gv (k) of the antiformant.
  • the amplification factor at a frequency between the adjacent formant frequency and anti-formant frequency is obtained from the interpolation curve R i (k, 1).
  • R 2 (k, 1) be the interpolation curve of.
  • the interpolation curve may be obtained by any method.
  • the following shows an example of calculating the interpolation curve R i (k, 1) using a quadratic curve.
  • the shape of the quadratic curve is defined as a quadratic curve that passes through ⁇ fp (k), Gp (k) ⁇ and takes the minimum value at ⁇ fv (k), Gv (k) ⁇ .
  • this quadratic curve can be expressed as in equation (14).
  • ? (/) ⁇ !-Fv ⁇ k) f + Gv (k) (1 4)
  • ⁇ -2 calculates a from equation (1 5), can Mel seek quadratic curve Ri (k, 1).
  • An interpolation curve R 2 (k, 1) between fv (k) and fp (k + l) can be similarly obtained.
  • the amplification factor] 3 (1) is expressed by the above equation (9).
  • the amplification factor calculation unit 52 outputs this amplification factor] 3 (1) to the spectrum emphasizing unit 43, and the spectrum calculation unit 43 uses this to calculate the amplification factor according to the above equation (10). Find the emphasized spectrum sp 2 (1).
  • the anti-formant is attenuated in addition to the amplification of the formant.
  • the formants are further emphasized relatively, and the clarity can be further increased as compared with the first embodiment.
  • the anti-formant by attenuating the anti-formant, it is possible to suppress a sense of noise that is unpleasant in the decoded speech after the speech encoding processing. It is known that noise called quantization noise is likely to occur in the anti-formant in speech encoded and decoded by speech encoding methods used in mobile phones and other devices such as CELP. According to the present invention, since the anti-formant is attenuated, the quantization noise is reduced, so that it is possible to provide an easy-to-hear voice with a small noise level.
  • FIG. 10 is a block diagram of the configuration of the voice decoding device 60 according to the third embodiment.
  • the third embodiment is characterized in that, in addition to the configuration of the first embodiment, a configuration is further provided in which pitch enhancement is applied to a sound source signal. That is, it is characterized in that it has a pitch enhancement filter construction section 62 and a pitch enhancement section 63.
  • the ACB vector decoding unit 61 not only decodes the ACB vector p (n), (0 ⁇ n ⁇ N). From the ACB code, but also obtains the pitch lag integer part T from the ACB code, Output to the emphasis filter construction section 62.
  • the method of pitch enhancement is arbitrary force S, for example, the following method.
  • the pitch enhancement filter construction unit 62 uses the integer part T of the pitch lag output from the ACB vector decoding unit 61 to calculate the autocorrelation function rscor (rscor () of the sound source signal r (n) near T. T-1), rscor (T) rscor (T + 1) is obtained by the following equation (16).
  • the pitch emphasis unit 63 converts the sound source signal! "(N) by a pitch enhancement filter (transfer function is the following equation (17), g p is a weighting coefficient) composed of a pitch prediction coefficient pc (i). Filtered and pitch-enhanced residual signal (sound source Signal) r '(n) is output.
  • the synthesis filter 30 substitutes the sound source signal r '(n) obtained as described above into Expression (11) instead of r (n) to obtain an output voice s (n).
  • a three-tap IR filter is used as the pitch enhancement filter.
  • the tap length may be changed, or an arbitrary filter such as a FIR filter may be used.
  • FIG. 11 is a hardware configuration diagram of a mobile phone PHS which is one of application destinations of the voice decoding device of the present example. Note that a mobile phone can be treated as a type of computer because it can execute arbitrary processing by executing programs and the like.
  • the mobile phone / PHS 70 shown has an antenna 71, a radio section 72, an AD / DA conversion section 73, a DSP (Digital Signal Processor) 74, a CPU 75, a memory 76, a display section 77, and a speaker. 7 8 and microphone 7 9 Have.
  • the DSP 74 executes a predetermined program stored in the memory 76 with respect to the voice code received via the antenna 71, the radio unit 2, and the ADZDA conversion unit 73. Then, the audio decoding process described with reference to FIGS. 1 to 10 is executed, and the output audio is output.
  • the application destination of the voice decoding apparatus of the present invention is not limited to a mobile phone, but may be, for example, a voice over IP (VoIP), a video conference system, or the like.
  • VoIP voice over IP
  • a computer that has a function of performing wireless / wired communication by applying a voice coding method for compressing voice and that can execute the voice decoding process described with reference to FIGS. 1 to 10 above. Anything is fine.
  • FIG. 12 is a diagram showing an example of a schematic hardware configuration of such a computer.
  • the computer 80 shown in the figure has a CPU 81, a memory 82, an input device 83, an output device 84, an external storage device 85, a medium drive device 86, a network connection device 87, etc. These are connected to the bus 88. Configuration shown in the figure is an example, have Na D intended limited thereto
  • the memory 82 is a memory such as a RAM for temporarily storing a program or data stored in the external storage device 85 (or the portable recording medium 89) when executing a program, updating data, or the like. .
  • the CPU 81 executes the program read into the memory 82 to execute the various processes / functions described above (the processes and the like shown in FIGS. 4 and 8 and the processes shown in FIGS. 0).
  • the input device 83 is, for example, a keyboard, a mouse, a touch panel, And so on.
  • the output device 84 is, for example, a display, a speaker, or the like.
  • the external storage device 85 is, for example, a magnetic disk device, an optical disk device, a magneto-optical disk device, or the like, and stores programs / data for realizing various functions as the above-described image coupling device. .
  • the medium driving device 86 reads out programs / data and the like stored in the portable recording medium 89.
  • the portable recording medium 89 is, for example, an FD (flexible disk), a CD-ROM, a DVD, a magneto-optical disk, or the like.
  • the network connection device 87 is configured to be connected to a network to enable transmission / reception of programs / data to / from an external information processing device.
  • FIG. 13 is a diagram showing a recording medium on which the above-mentioned program is recorded, and an example of downloading the program.
  • the program Z for realizing the function of the present invention is read out from a portable recording medium 89 storing a program Z data to the computer 80 and stored in the memory 82, the program is executed.
  • the program / data is stored in the storage unit 2 of the external server 1 via the network 3 (such as the Internet) connected by the network connection device 87. May be downloaded.
  • the present invention is not limited to the apparatus method, and may be configured as a recording medium (portable recording medium 89 or the like) storing the program / data itself, or may be configured as the program itself. You can also.
  • a recording medium portable recording medium 89 or the like
  • JP02 / 1 1332 the prior application (international application number) already filed by the applicant of the present application JP02 / 1 1332).
  • FIG. 14 shows the basic configuration of the speech enhancement device 90 proposed in the prior application.
  • the illustrated voice enhancement device 90 first analyzes the signal analysis / separation unit 91 S and the input voice X, and separates this into a sound source signal r and a vocal tract characteristic s Pl .
  • Is vocal tract characteristic modification unit 9 2 to modify the vocal tract characteristics s P l (e.g. emphasize formant), and outputs the modified (highlighted) has been vocal tract characteristics sp 2.
  • the signal synthesizer 93 re-synthesizes the sound source signal r with the vocal tract characteristic sp 2 thus corrected (emphasized), so that a formant-enhanced voice is output. .
  • the input voice X is separated into the sound source signal 'r and the vocal tract characteristics s P l to emphasize the vocal tract characteristics. No distortion is caused. Therefore, it is possible to perform formant emphasis without increasing noise and clarity.
  • the speech enhancement device described in the prior application When applied to a mobile phone equipped with an ELP decoder, it becomes as shown in Fig.15. Since the speech enhancement device 90 described in the prior application inputs the speech X as described above, as shown in FIG. 15, a decoding processing device 100 is provided in front of the speech enhancement device 90, and Is decoded by the decoding processing device 100, and the decoded voice s is input to the voice emphasis device 90.
  • Decryption equipment 1 0 for example, code from speech coding co de by separation / decoding unit 1 0 1 generates a sound source signal ri and the vocal tract characteristics s P l, combining these by signal combining unit 1 0 2 To generate and output the decoded speech s. At this time, the decoded speech s decoded from the speech code Therefore, the amount of speech information is reduced as compared to the speech before encoding, and the quality is poor.
  • the speech enhancement device 90 that receives the decoded speech s having the deteriorated quality as an input, the speech having the deteriorated quality is re-analyzed and separated into the sound source signal and the vocal tract characteristics.
  • the accuracy of the separation is degraded, and the vocal tract characteristic component may remain in the vocal tract characteristic s P l 'separated from the decoded speech s, or the vocal tract characteristic component may remain in the vocal tract signal r. Therefore, when the vocal tract characteristics are emphasized, the sound source signal components remaining in the vocal tract characteristics may be emphasized, or the vocal tract characteristic components remaining in the sound source signal may not be emphasized. For this reason, there was a possibility that the sound quality of the output speech s, re-synthesized from the sound source signal and the vocal tract characteristics after formant emphasis was degraded.
  • the speech decoding apparatus of the present invention since the vocal tract characteristics decoded from the speech code are used, quality degradation due to re-analysis from the deteriorated speech does not occur. Furthermore, since re-analysis is not required, the processing amount can be reduced. Industrial potential
  • the speech encoding processing is performed in a communication device such as a mobile phone using an analysis / synthesis speech encoding method.
  • the vocal tract characteristics and the sound source signal are restored from the speech code when generating and outputting speech based on the speech code, and the restored vocal tract characteristics are restored.
  • Formant enhancement processing is applied to this, and this is combined with the sound source signal.

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Quality & Reliability (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)

Abstract

符号分離/復号部は、音声符号codeから声道特性sp1 と音源信号r1 を復元する。声道特性修正部は、この声道特性sp1 を修正し、修正後の声道特性sp2 を出力する。これは、例えば、声道特性sp1 に対して直接ホルマント強調処理を施すことで、強調された声道特性sp2 を生成・出力する。信号合成部は、修正(強調)された声道特性sp2 と、音源信号r1 とを合成して、出力音声sを生成・出力する。

Description

明 細 書 音声複号化装置、 音声復号化方法、 プログラム、 記録媒体 技術分野
本発明は、 音声符号化処理を施して通信する携帯電話等の通信装置に係わり 、 特にその音声復号化装置であって音声の明瞭度を高め受話音声を聞き取りや すくする音声復号化装置、 復号方法等に関する。 背景技術
近年、 携帯電話は広く普及している。 携帯電話システムでは、 回線 を有効利用するため、音声を圧縮する音声符号化技術が用いられてい る。 このような音声符号化技術の中で、低ビッ トレートで音声品質が 優れている符号化方式と して、 符号励振線形予測(Code Exc ited Lin ear Predi ct ion: C E L P )方式が知られており、 ITU- T G. 729方式 、 3GPP AMR方式など、 多くの音声符号化規格で、 C E L Pをベースと した符号化方式が採用されている。 また、携帯電話システムに限らず 、 例えば V o I P (vo i ce over IP)、 T V会議システム等で利用され ている音声圧縮方式も、 C E L Ρァルゴリズムをベースと したものが 主流である。
ここで、 C E L Ρについて簡単に説明する。 C E L Pは、 1985年に M. R. Schroder氏と B. S. Atal氏によつて発表された音声符号化方式で あり、人間の音声生成モデルに基づいて入力音声からパラメータを抽 出し、 パラメータを符号化して伝送することにより、 高能率の情報圧 縮を実現している。 ' 図 1 6に、 音声の生成モデルを示す。 音声の生成過程は、 音源(声 帯) 1 1 0で発生された音源信号が調音系(声道) 1 1 1に入力され、 声道 1 1 1において声道特性が付加された後、最終的に唇 1 1 2から 音声波形となって出力される(非特許文献 1参照)。 つまり、 音声は、 音源特性と声道特性より成る。
図 1 7に、 C E L P符号器■復号器の処理の流れを示す。
図 1 7において、例えば携帯電話等に C E L P符号器及び C E L P 復号器が搭載されており、送信側の携帯電話の C E L P符号器 1 2 0 から受信側の携帯電話の C E L P復号器 1 3 0に対して、不図示の伝 送路 (無線回線、 携帯電話網等) を介して、 音声信号 (音声符号 cod e) を伝送する様子を示す。
送信側の携帯電話の C E L P符号器 1 2 0では、前述の音声生成モ デルに基づいてパラメータ抽出部 1 2 1が、 入力音声を分析して、 入 力音声を、 声道特性を表す線形予測係数(Linear Predictor Coeffic ients: L P C係数)と、 音源信号とに分離する。 パラメータ抽出部 1 2 1は、 更に、 音源信号から、 音源信号の周期成分を表す適応符号帳 (Adaptive CodeBook: A C B)ベタ トル、 非周期成分を表す雑音符号 Φ1 (Stochastic CodeBook: S C B)ベタ トノレ、 及び両べク トノレのゲイ ンを抽出する。
次に、 符号化部 1 2 2が、 これら L P C係数、 A C Bベク トル、 S C Bベタ トル、 ゲインを符号化して、 L P C符号、 AC B符号、 S C B符号、 ゲイン符号を生成し、 符号多重化部 1 2 3がこれらを多重化 して音声符号 codeとし、 受信側の携帯電話へ伝送する。
受信側の携帯電話の C E L P復号器 1 3 0では、 まず、 符号分離部 1 3 1力 S、 伝送されてきた音声符号 codeを、 L P C符号、 AC B符号 、 S C B符号、 ゲイン符号に分離して、 これらを復号部 1 3 2が L P C係数、 AC Bベタ トル、 S C Bベタ トル、 及ぴゲインへと復号する 。 そして、 復号された各パラメータから、 音声合成部 1 3 3が音声を 合成する。
以下に、 C E L P符号器、 C E L P復号器について更に詳細に説明 する。
図 1 8に、 C E L P符号器のパラメータ抽出部 1 2 1のブロック図 を示す。
C E L Pでは、入力音声を一定長のフレーム単位で符号化する。 ま ず、 L C P分析部 1 4 1が、公知の線形予測分析(L P C分析)手法に より、 入力音声から L P C係数を求める。 この L P C係数は、 声道特 性を全極型の線形フィルタで近似した際のフィルタ係数である。
次に、 音源信号の抽出を行う。 音源信号の抽出には、 合成による分 析(Analysis by Synthesis : AbS)手法カ 用いられる。 C E L Pでは 、 音源信号を、 L P C係数で構成される L P C合成フィルタ 1 4 2に 入力することで音声を再生する。 従って、 適応符号帳 1 4 3に格納さ れた複数の A C Bベタ トル、雑音符号帳 1 4 4に格納された複数の S C Bベタ トル、及び両べク トルのゲインの組み合わせにより構成され る音源候補から、 L P C合成フィルタ 1 4 2によって音声を合成した 際に入力音声との誤差が最小になる符号帳の組み合わせを、誤差電力 評価部 1 4 5が探索して、 A C Bベタ トル、 S C Bベタ トル、 AC B ゲイン、 S C Bゲインを抽出する。
以上の操作により抽出した各パラメータを、 上記の通り、 符号化部 1 2 2によって符号化し、 L P C符号、 AC B符号、 S C B符号、 及 びゲイン符号を得る。得られた各符号を符号多重化部 1 2 3によって 多重化し、 音声符号 codeと して復号器側へ伝送する。
次に、 C E L P復号器について更に詳細に説明する。
図 1 9に、 C E L P復号器 1 3 0のブロック図を示す。
C E L P復号器 1 3 0では、 上記の通り、 符号分離部 1 3 1が、 伝 送されてきた音声符号 codeから各パラメータを分離し、 L P C符号、 AC B符号、 S C B符号、 及ぴゲイン符号を得る。
次に、 復号部 1 3 2を構成する L P C係数復号部 1 5 1、 A C Bベ ク トル復号部 1 5 2、 S C Bベタ トル復号部 1 5 3、 及びゲイン復号 部 1 5 4の各々によって、 L P C符号、 AC B符号、 S C B符号、 及 びゲイン符号を、 それぞれ、 L P C係数、 AC Bベク トル、 S C Bベ タ トル、 及びゲイン (A C Bゲイン、 S C Bゲイン) へと復号する。 音声合成部 1 3 3は、 入力する AC Bベタ トル、 S C Bベタ トル、 及びゲイン (A C Bゲイン、 S C Bゲイン) から、 図示の構成によつ て音源信号を生成し、この音源信号を上記復号した L P C係数によつ て構成される L P C合成フィルタ 1 5 5に入力して、 L P C合成フィ ルタ 1 5 5によって音声を復号して出力する。
ここで、 携帯電話は静かな場所だけでなく、 空港や駅のホームのよ うに周囲に雑音があるような騒がしい環境で使用されることが多い。 その際、周囲の雑音によって携帯電話の受話音声が聞き取り難くなる という問題がある。 また、 この例に限らず、 例えば室内において使用 する TV会議システム等においても、 通常、 エアコン等の電化製品か ら発生した雑音、 周囲の他者の話し声等の背景雑音が含まれている。 このような問題に対し、 受話音声に対して、 音声スぺク トルのホル マントを強調することより音声の明瞭度を高め、受話音声を聞き取り やすくする技術がいくつか知られている。 ここで、 ホルマン トについて簡単に説明する。
図 2 0に、 音声の周波数スぺク トルの例を示す。
ここで、 一般に、 音声の周波数スぺク トルには複数のピーク (極大 を取る部分) が存在し、 これらをホルマントと呼んでいる。 図 2 0に は、 スぺク トルに 3つのホルマン ト (ピーク) が存在する例を示して おり、 周波数の低い方から順に第 1ホルマント、 第 2ホルマン ト、 第 3ホルマントと呼ぶ。 また、 これら極大値をとる周波数、 すなわち各 ホルマン トの周波数 fp ( l)、 fp (2)、 fp (3)のこ と をホルマン ト周波数 と呼ぶ。 一般に、 音声のスペク トルは、 周波数が高くなるにつれて、 振幅 (電力) が小さくなる性質がある。 更に、 音声の明瞭度は、 ホル マン トと密接な関係があり 、 高次の (例えば第 2、 第 3の) ホルマン トを強調することにより、音声の明瞭度が改善することが知られてい る。
図 2 1に、 音声スぺク ト /レのホノレマント強調の一例を示す。
図 2 1 ( a ) において図中実線で示す波形、 及び図 2 1 ( b ) にお いて図中点線で示す波形が、 強調する前の音声スぺク トルを表す。 ま た、 図 2 1 ( b ) において図中実線で示す波形が、 強調後の音声スぺ タ トルを表す。 また、 図中の直線は、 波形の傾きを表す。
図 2 1 ( b ) に示すように、 高次ホルマン トの振幅を大きくするよ うに音声スぺク トルを強調することにより、スベタ トル全体の傾きが 平坦になっており、これによって音声全体の明瞭度を改善することが できることが知られている。
このよ うなホルマント強調技術として、以下に挙げる技術が公知で ある。
ホルマント強調を符号化された音声に対して適用した技術と して、 例えば特許文献 1に記載の技術が知られている。
図 2 2に、 特許文献 1に記載の発明の基本構成図を示す。
特許文献 1は、 帯域分割フィルタを用いる方法に係わる。 図 2 2か らわかるように、 特許文献 1記載の手法では、入力音声のスぺク トル をスぺク トル推定部 1 6 0により求め、求めたスぺク トルから凸部帯 域 (山) と HQ部帯域 (谷) を決定する凸部 凹部帯域決定部 1 6 1に よって、 凸部帯域と凹部帯域を求め、 凸部帯域と凹部帯域に対する増 幅率 (又は減衰率) を算出する。
次に、 フィルタ構成部 1 6 2により、 上記増幅率 (又は減衰率) を 実現する係数をフィルタ部 1 6 3に与え、入力音声をフィルタ部 1 6 3に入力することにより、 スペク トル強調を実現する。
帯域分割フィルタを用いる方法は、従来では、 分割された周波数帯 域内に音声のホルマントが必ず入るという保証がない為、ホルマント 以外の成分を強調してしまい、逆に明瞭度が劣化する場合があるとい う問題があった。
これに対して、 特許文献 1記載の手法は、 帯域分割フィルタを用い る方法であって、 音声スぺク トルの山と谷を個別に増幅 ·減衰するこ とにより、 音声強調を実現している。
更に、 特許文献 1では、 その図 1 9に示す第 7の実施形態のように 、 C E L Ρ方式を用いる場合に対して、 音声復号部によって、 A B C ベタ トルインデッタス、 S C Bベタ トルインデックス、 ゲインィンデ ックスを用いて、 A B Cベタ トル、 S C Bベタ トル、 ゲインを復号し て音源を生成し、この音源を L P C係数イ ンデックスによって復号し た L P C係数で構成される合成フィルタに通して、合成信号を生成す る。 そして、 この合成信号と L P C係数をスぺク トル強調部に入力さ せ、 上記スぺク トル強調を実現させる。
また、 特許文献 2記載の発明は、 マルチバンド励起符号化 (M B E ) の音声復号装置の音声合成系の後置フィルタ (ボス トフィルタ) に 適用する音声信号処理装置であって、周波数領域のパラメータである 各バン ド毎の振幅値を直接操作することで、周波数スぺク トルの高域 フォルマントを強調することを特徴とする。 特許文献 2のホルマン ト強調方法は、 マルチバン ド励起符号化 (M B E ) 方式において、 ピ ツチ周波数によって分割された複数の周波数帯域の平均振幅から、ホ ルマントを含む帯域を推定し、ホルマントを含む帯域のみを強調する 方法である。
また、 特許文献 3記載の発明は、雑音のゲインを抑制した信号であ る処の参照信号との 「合成による分析法」 、 即ち、 A— b _ S法によ つて符号化処理を行う音声符号化装置であって、この参照信号のホル マントを強調する手段と、信号の音声部と雑音部とを分割する手段と 、 この雑音部のレベルを抑圧する手段とを備える。 その際、 入力信号 からフレーム毎に線形予測係数が抽出され、この線形予測係数に基づ いて、 上記ホルマン ト強調が行われる。
また、 特許文献 4記載の発明は、 マルチパルス音声符号化の音源探 索 (マルチパルス探索) に関する発明である。 つまり、 音源情報をマ ルチパルスで近似して検索する際に、そのまま入力音声を使って音源 探索するのではなく、 音声を線スぺク トル状に強調してから、 音源探 索を行うことにより、圧縮効率を高めることを目的とする発明である
特許文献 1 特開 2 0 0 1— 1 1 7 5 7 3号公報
特許文献 2
特開平 6 - 2 0 2 6 9 5号公報
特許文献 3
特開平 8— 2 7 2 3 9 4号公報 .
特許文献 4
特公平 7— 3 8 1 1 8号公報
非特許文献 1
「音声の高能率符号化」 、 P.69- 71、 中田和男著、 森北出版 上述した各従来技術には、 以下に述べる問題がある。
まず、 特許文献 1記載の手法には以下のような問題点がある。
上記の通り、 特許文献 1では、 その図 1 9に示す第 7の実施形態の ように、 C E L P方式を用いる場合に対応して、 合成信号と L P C係 数をスぺク トル強調部に入力させてスぺク トル強調を実現させる例 を示しているが、 前述した音声生成モデルからわかる通り、 音源信号 と声道特性は全く異なった特性である。 にもかかわらず、 特許文献 1 記載の手法では、合成された音声を声道特性から求めた強調フィルタ により強調する。 このため、 合成音声に含まれる音源信号の歪みが大 きくなり、雑音感の増加や明瞭度の劣化といった副作用が生じる場合 がある。
また、 特許文献 2記載の発明は、 上記の通り、 MB Eボコーダの再 生音声品質を向上させることを目的として発明である。 一方、 今日、 携帯電話システム、 V o I P , TV会議システム等で利用されている 音声圧縮方式は、線形予測を用いた C E L Pァルゴリズムをベースと したものが主流である。 従って、 C E L Pをベースと した圧縮方式を 用いたシステムに、 特許文献 2記載の手法を適用すると、 圧縮■伸張 されて音声品質が劣化した音声から、 M B Eボコーダ用の符号化パラ メータを抽出する為、音声品質が更に劣化するおそれがあるという問 題があった。
また、 特許文献 3記載の発明では、 ホルマントを強調する際に、 L P C係数を用いた単純な I I Rフィルタを用いているが、この方法で は、 ホルマントを誤強調するおそれがあることが、 論文 (例えば、 日 本音響学会講演論文集、 2000年 3月、 第 249〜250頁等) 等によって知 られている。 また、 そもそも、 特許文献 3の発明は音声符号化装置に 係わるものであり、 音声複号化装置に関するものではない。
また、 特許文献 4記載の発明は、 音源探索を行うことにより圧縮効 率を高めることを目的とする発明であり、 詳しくは、 音源情報をマル チパルスで近似して検索する際、そのまま入力音声を使って音源探索 するのではなく、音声を線スぺク トル状に強調してから音源探索を行 うことにより圧縮効率を高めることを目的とする発明であり、そもそ も音声の明瞭度を高めることを目的とするものではない。
本発明の課題は、 分析合成系の音声符号化方式を用いる機器 (携帯 電話等) において、 ホルマント強調による音質劣化や雑音感の増加な どの副作用を抑止し、 復元する音声の明瞭度を更に高め、 受話音声を 聞き取り易くする音声複号化装置、音声複号化方法、 そのプログラム 、 記録媒体等を提供することである。 発明の開示 本発明による音声復号化装置は、分析合成系の音声符号化方式を用 いる通信装置が備える音声複号化装置において、受信した音声符号を 分離して、 声道特性と音源信号を復元する符号分離 復号手段と、 該 声道特性を修正する声道特性修正手段と、前記声道特性修正手段によ つて修正された修正声道特性と、前記音声符号から得られる音源信号 とを合成して音声信号を出力する信号合成手段とを有するように構 成する。
前記声道特性の修正とは、例えば声道特性に対して.ホルマント強調 処理を施すものである。
上記構成の音声複号化装置によれば、分析合成系の音声符号化方式 を用いる携帯電話等の通信装置において、音声符号化処理を施されて 伝送されてきた音声符号を受信すると、この音声符号に基づいて音声 を生成 ·出力する際に、 音声符号から声道特性と音源信号とを復元し 、 復元した声道特性に対してホルマント強調処理を施して、 これを音 源信号と合成する。 このようにすることによって、 従来問題となって いた声道特性と音源信号を同時に強調する場合に発生するスぺク ト ル歪を抑え、 明瞭度を改善することができる。 つまり、 強調による音 質劣化や雑音感の増加などの副作用がない音声に復号することがで き、 音声の明瞭度を更に高めて聞きやすくできる。
例えば、 前記声道特性は、 前記音声符号から復号する第 1の線形予 測係数から算出される線形予測スぺク トルであり、前記声道特性修正 手段は、該線形予測スぺク トルをホルマント強調し、 前記信号合成手 段は、該ホルマント強調された線形予測スぺク トルに対応する第 2の 線形予測係数を求める修正線形予測係数算出手段と、該第 2の線形予 測係数によって構成される合成フィルタとを有し、該合成フィルタに 前記音源信号を入力して、 前記音声信号を生成 ·出力するものである また、 例えば、 上記構成の音声復号化装置において、 前記声道特性 修正手段は、前記声道特性に対してホルマント強調とアンチホルマン トの減衰処理を施し、'ホルマントとアンチホルマントの振幅差を強調 した声道特性を生成し、 前記信号合成手段は、 該強調された声道特性 に基づいて、 前記音源信号との合成を行うようにしてもよい。
上記構成により、 相対的にホルマントが更に強調され、 音声の明瞭 度を更に高めることができる。 また、 アンチホルマントを減衰させる ことにより、音声符号化処理後の復号音声に生じゃすい雑音感を抑え ることができる。 つまり、 分析合成系の音声符号化方式の一種である C E L P等の音声符号化方式で符号化 ·復号化された音声は、 アンチ ホルマントに量子化雑音と呼ばれる雑音が生じやすいことが知られ ている。これに対して本発明では上記構成によりアンチホルマン トを 減衰させるため、 上記量子化雑音を軽減させ、雑音感の小さい聞きや すい音声を提供することができる。
また、 例えば、 上記構成の音声復号化装置において、 前記音源信号 に対してピッチ強調を施すピッチ強調手段を更に有し、前記信号合成 手段は、該ピッチ強調された音源信号と、 前記修正された声道特性と を合成して音声信号を生成 ' 出力するように構成してもよい。
上記構成によって、 入力した音声符号を分離して音源特性 (残差信 号) と声道特性とを復元し、 これらを別々にそれぞれの特性に適した 強調処理を施すこと、すなわち音源特性に対してはピッチ周期性を強 調し、 声道特性に対してはホルマント強調を施すことにより、 出力す る音声の明瞭度を更に改善できるようになる。 なお、 上述した本発明の各構成により行なわれる機能と同様の制御をコンビ ユータに行なわせるプログラムを記憶したコンピュータ読み取り可能な記憶媒 体から、 そのプログラムをコンピュータに読み出させて実行させることによつ ても、 前述した課題を解決することができる。 図面の簡単な説明
本発明は、 後述する詳細な説明を、 下記の添付図面と共に参照すればより明 らかになるであろう。
図 1は、 本例の音声復号化装置の概略的な構成を示す図である。
図 2は、 本例の音声複号化装置の基本構成図である。
図 3は、第 1の実施例による音声復号化装置 4 0の構成プロック図 である。
図 4は、 増幅率算出部の処理フローチャート図である。
図 5は、 ホルマン トの増幅率を求める様子を示す図である。
図 6は、 補間曲線の一例を示す図である。
図 7は、第 2の実施例による音声復号化装置の構成プロック図であ る。
図 8は、 増幅率算出部の処理フローチャート図である。
図 9は、 アンチホルマントの増幅率を求める様子を示す図である。 図 1 0は、第 3の実施例による音声復号化装置の構成プロック図で める。
図 1 1は、音声複号化装置の適用先の 1つである携帯電話のハード ウェア構成図である。
図 1 2は、音声複号化装置の適用先の 1つであるコンピュータのハ 一ドウエア構成図である。 図 1 3は、 プロダラムを記録した記録媒体、 当該プログラムのダウ ンロードの一例を示す図である。
図 1 4は、先出願で提案している音声強調装置の基本構成を示す図 である。
図 1 5は、 先出願の音声強調装置を、 C E L P復号器が搭載された 携帯電話等に適用する場合の構成例である。
図 1 6は、 音声の生成モデルを示す図である。
図 1 7は. C E L P符号器 ·復号器の処理の流れを示す図である。 図 1 8は. C E L P符号器のパラメータ抽出部の構成プロック図で ある。
図 1 9は. C E L P復号器の構成プロック図である。
図 2 0は. 音声の周波数スぺク トルの例を示す図である。
図 2 1は.音声スぺク トルのホルマント強調の一例を示す図である 図 2 2は、 特許文献 1に記載の発明の基本構成図を示す図である。 発明を実施するための最良の形態
以下、 図面を参照して、 本発明の実施の形態について説明する。 本例による音声複号化装置の概略的な構成を図 1に示す。
図 1に示す通り、 音声複号化装置 1 0は、 その概略的な構成として
、 符号分離/復号部 1 1、 声道特性修正部 1 2、 及び信号合成部 1 3 を有する。
符号分離ノ復号部 1 1は、音声符号 codeから声道特性 sP l と音源信 号 を復元する。 上述してあるように、 送信側の携帯電話等が有す る C E L P符号器 (不図示) では、 入力音声を、 線形予測係数(L P C係数)と、 音源信号 (残差信号) とに分離して、 それぞれを符号化 して、これらを多重化して音声符号 co deと して受信側の携帯電話等が 有する復号器へ伝送する。
この音声符号 codeを受け取った復号器は、 上記の通り、 まず、 符号 分離/復号部 1 1によって、 音声符号 codeから、 声道特性 sP l と音源 信号 を復号する。 そして、 声道特性修正部 1 2が、 この声道特 性 sP l を修正し、 修正後の声道特性 sp2 を出力する。 これは、 例えば 、 声道特性 sP l に対して直接ホルマン ト強調処理を施すことで、 強調 された声道特性 sp2 を生成■ 出力する。
最後に、 信号合成部 1 3が、 修正された声道特性 sp2 と、 音源信号 rx とを合成して、 出力音声 sを生成 · 出力する。 例えば、 ホルマン ト強調された出力音声 s を生成 · 出力する。
上述した通り、 特許文献 1等では、 例えば特許文献 1の図 1 9にお いては、 復元した音源信号 (加算器の出力) を、 復号した L P C係数 で構成される合成フィルタを通して、 合成信号 (合成された音声) を 生成しており、この合成された音声を声道特性から求めた強調フィル タにより強調する。 このため、 合成音声に含まれる音源信号の歪みが 大きくなり、雑音感の増加や明瞭度の劣化といった不具合が生じる場 合がある。
これに対して、 本例の音声復号化装置 1 0では、 音源信 と L P C 係数を復元するところまでは略同様であるが、 合成信号 (合成された 音声) を生成することなく、 声道特性 sP l に対して直接ホルマント強 調処理を施し、 強調された声道特性 sp2と音源信号 (残差信号) とを 合成する。 よって、 上記問題が解消され、 強調による音質劣化や雑音 感の増加などの副作用がない音声に復号できる。 図 2に、 本例の音声複号化装置の基本構成図を示す。
尚、 以下の説明では、 音声符号化方式に C E L P (Code Excited L inear Prediction;符号励振線形予測)方式を用いているが、 これに 限るものではなく、分析合成系の符号化方式であれば適用可能である 0
図示の音声復号化装置 2 0は、 符号分離部 2 1、 A C Bベタ トル復 号部 2 2、 S C Bベタ トル復号部 2 3、 ゲイン復号部 2 4、 音源信号 生成部 2 5、 L P C係数復号部 2 6、 L P Cスペク トル算出部 2 7、 スぺク トル強調部 2 8、 修正 L P C係数算出部 2 9、 及び合成フィル タ 3 0を有する。
尚、 符号分離部 2 1、 L P C係数復号部 2 6、 A C Bベタ トル復号 部 2 2、 S C Bベタ トル復号部 2 3、 及びゲイン復号部 2 4が、 上記 符号分離 Z復号部 1 1の詳細構成の一例に相当する。スぺク トル強調 部 2 8が、 上記声道特性修正部 1 2の一例である。 修正 L P C係数算 出部 2 9及び合成フィルタ 3 0力 S、上記信号合成部 1 3の詳細構成の 一例に相当する。 ,
符号分離部 2 1は、送信側から多重化されて送られてきた音声符号 codeを、 L P C符号、 A C B符号、 S C B符号、 及びゲイン符号に分 離して出力する。
A C Bベタ トル復号部 2 2、 S C Bベタ トル復号部 2 3、 ゲイン復 号部 2 4、 は、 それぞれ、 上記符号分離部 2 1から出力される AC B 符号、 S C B符号、 及ぴゲイン符号から、 AC Bベタ トル、 S C Bベ ク トノレ、 及び AC Bゲインと S C Bゲインを復号する。
音源信号生成部 2 5は、 これら AC Bベク トル、 S C Bベク トル、 及び A C Bゲインと ' S C Bゲインを元に、 音源信号 (残差信号) r(n ), (0≤n≤N)を生成する。 なお、 ここで Nは符号化方式のフレーム長 である。
一方、 L P C係数復号部 2 6は、 上記符号分離部 2 1から出力され る L P C符号から、 L P C係数 (i), (l^i^NP! )を復号し、 これ を L P Cスぺク トル算出部 2 7に対して出力する。 ここで、 NPi は P C係数の次数である。
L P Cスぺク トル算出部 2 7において、入力された L P C係数 α χ ( i )力、ら、 声道特性を表すパラメータである L P Cスぺク トル sPl ( 1), (0 1≤NF )を求める。 なお、 ここで NF はスペク トル点数であり 、 N≤NF とする。 L P Cスぺク トル算出部 2 7は、 求めた L P Cスぺ タ トル sPl (1)を、 スペク トル強調部 2 8へ出力する。
スペク トル強調部 2 8は、 L P Cスペク トル sPl (1)に基づいて、 強調された L P Cスペク トル sp2 (1)を求め、 求めた sp2 (1) を修正 L P C係数算出部 2 9に出力する。
修正 L P C係数算出部 2 9は、 強調された L P Cスペク トル sp2 ( 1)に基づいて、 修正 L P C係数 a2 (i), (1≤ i≤NP2 ) を求める。 こ こで、 NP2 は修正 L P C係数の次数である。 修正 P C係数算出部 2 9は、 求めた修正 L P C係数 α2 を、 合成フィルタ 3 0に出力する。 そして、求めた修正 L P C係数ひ 2 (i) で構成される合成フィルタ 3 0に、 上記音源信号 r(n) を入力し、 出力音声 s(n), (0≤n≤N) を 求める。 これにより、 ホルマントが強調されて明瞭度が向上した音声 を得ることができる。
以上説明した通り、 本例では、 音声符号から算出した声道特性(L P C係数から求めた L P Cスぺク トル)に対して直接ホルマント強調 を行って声道特性を強調した後に、 音源信号と合成するため、 従来技 術の問題点であった「声道特性から求めた強調フィルタを用いた強調 による音源信号の歪み」 を生じないようにできる。
図 3は、第 1の実施例による音声復号化装置 4 0の構成プロック図 である。
図示の構成のうち、図 2に示す音声復号化装置 2 0と略同一の構成 には同一符号を付してある。
尚、 本実施例では、 C E L P方式の音声符号化方式を用いた場合に ついて説明するが、その他の分析合成系の符号化方式でも同様に適用 できる。
まず、 符号分離部 2 1は、 送信側から送られてきた音声符号 code を、 L P C符号、 A C B符号、 S C B符号、 及びゲイン符号に分離す る。
AC Bベタ トル復号部 2 2は、 上記 AC B符号から、 AC Bべク ト ル p(n),(0≤n N)を復号する。 ここで、 Nは符号化方式のフレーム長 である。 S C Bベタ トル復号部 2 2は、 上記 S C B符号から、 S C B ベタ トル c(n),(O^n N)を復号する。 ゲイン復号部 2 4は、 上記ゲイ ン符号から、 A C Bゲイン gp 、 及ぴ S C Bゲイン g c を復号する。 音源信号生成部 2 5は、 上記復号された A C Bベク トル p(n)、 S C Bベク トル c(n)、 AC Bゲイン gp 、 及び S C Bゲイン g c 力、ら、 以下の式(1)に従って、 音源信号!■ (n), (0≤n≤N) を求める。 r(n) = gpp(n) + gcc(ri) (0≤n<N) 、丄) 式 一方、 L P C係数復号部 2 6は、 上記符号分離部 2 1によって分離 ' 出力された L P C符号から、 〇係数0;1 (i), (1≤ i^NP! ) を 復号し、 L P Cスぺタ トル算出部 2 7に出力する。 ここで、 は L P c係数の次数である。
L P Cスペク トル算出部 2 7は、 この L P C係数 (i) を以下の 式(2)により フーリェ変換することによって、 声道特性と して L P C スペク トル sPi (1)を求める。
ここで NF はスペク トルのデータ点数である。 P 1 は L P Cのフィ ルタの次数である。 サンプリ ング周波数を Fs とすると、 L P Cスぺ タ トル sPl (1) の周波数分解能は Fs / NF となる。変数 1 はスぺタ ト ルのィンデッタスであり離散周波数を表す。 1 を周波数 (Hz) に換算 すると int[ 1 ■ F s / NF ] (H z ) となる。 尚、 int[x ]は、 変数 xを 整数化することを意味する。
Ψι( = (0≤1<NF) ( 2 ) 式
Figure imgf000020_0001
L P Cスぺク トル算出部 2 7 によって求められた L P Cスぺク ト ル sPl (1)は、 ホルマン ト推定部 4 1、 増幅率算出部 4 2、 及びスぺ ク トル強調部 4 3に入力される。
まず、 ホルマント推定部 4 1は、 L P Cスペク トル sPl (1) を人力 すると、 ホルマン ト周波数 fp(k), (l≤k≤ k max ) とその振幅 ampp(k ), (l≤k kpmax)を推定する。
ここで、 kpmaxは推定するホルマントの個数を示す。 kpmaxの値は任 意であるが、 例えば 8 (kHz) サンプリ ングの音声に対しては、 kpma x= 4または 5程度が適当である。 上記ホルマン ト周波数の推定方法は任意であるが、 例えば、 周波数 スペク トルのピークからホルマン トを推定するピークピッキング法 等の公知の技術を用いることができる。
求めたホルマン ト周波数を、 低次から順に fp(l), fp(2),••■fp(kpmax )とする。 また、 fp(k)での振幅値を ampp(k)とする。
尚、 ホルマン トのバン ド幅に閾値を設け、 バン ド幅が閾値以下とな る周波数だけをホルマント周波数としてもよい。
次に、 増幅率算出部 4 2は、 上記 L P Cスぺク トル sPl (1)と、 ホ ルマント推定部 4 1によって推定されたホルマント周波数及ぴ振幅 { fp(k),ampp(k)} を入力して、 L P Cスペク トル sPl (1)に対する増幅 率 /3 (1) を算出する。
図 4は、 増幅率算出部 4 2の処理フローチャート図である。
図 4に示すように、 増幅率算出部 4 2の処理は、 増幅基準電力の算 出 (ステップ S 1 1 ) 、 ホルマン ト増幅率の算出 (ステップ S 1 2 ) 、 増幅率の補間 (ステップ S 1 3 ) の順に処理を行う。
まず、 ステップ S 1 1の処理、 すなわち L P Cスペク トル sPl (1) から増幅基準電力 PoW_refを算出する処理について説明する。
増幅基準電力 powrefの算出方法は任意である。 例えば、 全周波数 帯域の平均電力にする方法や、 ホルマント振幅 ampp(k), (l≤k≤kpma x) の中で最も大きい振幅を基準電力とする方法などがある。 また、 周波数やホルマン トの次数を変数とする関数と して基準電力を求め ても良い。全周波数帯域の平均電力を基準電力とする場合、増幅基準 電力 Pow—refは式(3)で表される。 Pow_ref = ( 3 ) 式
Figure imgf000022_0001
次に、 ステップ S 1 2において、 ホルマント振幅 ampp(k), (l≤k≤k pmax) を、 ステップ S 1 1で求めた増幅基準電力 Pow_refに合わせる .よ うに、 ホルマントの増幅率 Gp(k) を決定する。 図 5に、 ホルマント 振幅 ampp(k)を增幅基準電力 Pow_refに合わせる様子を示す。このよ う にして得られた増幅率を用いて L P Cスぺク トルを強調することに より、スぺク トル全体の傾きが平坦になり、 これによつて音声全体の 明瞭度を改善することができる。
以下の式(4)は、 増幅率 Gp(k) を求める式である。
Gp(k) = Pow_ref/ampp(k) (\≤k≤kpmaK) ( 4 ) 式 更に、 ステップ S 1 3において、 隣接するホルマント間 (fp(k)と f P(k+1)との間) にある周波数帯域の増幅率 j3 (1) を、 補間曲線 R ( k , 1 ) により求める。 補間曲線の形状は任意であるが、 以下に、 補間 曲線 R ( k, 1 ) を二次曲線とする場合の例を示す。
まず、 補間曲線 R ( k, 1 ) を、 任意の二次曲線と して定義すると 、 R ( k, 1 ) は、 以下の式(5)のよ うに表せる。
R(k,l) ^al2 +M + c ( 5 ) 式 ここで、 a,b,cは任意である。 この補間曲線 R ( k , 1 ) を、 図 6 に示すように、 { f p ( k ) , G p ( k ) } 、 { f p ( k + 1 ) 、 G P ( k + 1 ) } 、 及ぴ { ( f p ( k ) + f p ( k + 1 ) ) / 2、 min ( γ G p ( k ) 、 γ G p ( k + 1 ) ) } を通るものと規定する。 ここ で、 min (x、 y ) は、 xと yのうち最小値を出力する関数であり、 γは 0 γ 1を満たす任意の定数とする。 式(5)にこれらを代入す ると、
Gp(k) = a - fpilCf + b - fp{k) + c ( 6 )
Gp{k + \)^a-jp(k + \)2+b-jp{k + \) + c
Figure imgf000023_0001
式 となる。 よって、 式(6),(7), (8)を連立方程式として、 a , b , cを 求めることにより、 補間曲線 R ( k , 1 ) を求めることができる。 こ の R ( k , 1 ) に基づいて、 区間 [fp(k), fp(k+l)]の間のスペク トル に対する増幅率を求めることで、 増幅率 ]3 (1)を補間する。
上述したステップ S 1 1〜S 1 3までの処理を、全てのホルマン ト について行い、 全周波数帯域の増幅率を決定する。 なお、 最低次のホ ルマン ト fp(l) より低い周波数に対する増幅率については、 fp(l) での増幅率 Gp(l) を用い、 最高次のホルマント fp(kpmax) より高い 周波数に対する増幅率については、 fp(kpmax) での増幅率 Gp (kpmax) を用いる。 以上をまとめると、 増幅率 ]3 ( 1 ) は、 以下の式(9)のよ うになる。 φ(1) ,(/ < ^(1))
Riik ) ,ΟΚ1)≤ /≤ ( max) = 1,2) ( 9 ) 式
Gp kp ,か(¥ <
但し、 上記式 ( 9 ) において、 R i (k, 1)及ぴ i = 1, 2 となって いるのは、 後述する第 2の実施例に対応する場合を示すものであり、 第 1 の実施例においては R i (k,l)を R (k, 1)に置き換え、 且つ i = 1, 2は削除して考えるものとする。
以上説明した処理により増幅率算出部 4 2によって求められた増 幅率 β ( 1 ) と、 上記 P Cスぺク トル sPl (1)とを、 スぺク トノレ強 調部 4 3に入力する。 スぺク トル強調部 4 3は、 これらを用いて、 以 下の式(10)に従って、 強調されたスぺク トル sp2 (1)を求める。
ψ2 1) = β{1)·ψΜ (0≤1<NF) ( 1 0 ) 式 スぺク トル強調部 4 3によって求められた、強調されたスぺク トル sp2 (1)は、 修正 L P C係数算出部 2 9に入力される。
修正 L P C係数算出部 2 9 は、 この強調されたスペク トル sp2 (1) の逆フーリエ変換から自己相関関数 ac2 (i) を求める。 次に、 自己相 関関数 ac2 (i) からレビンソン ' アルゴリ ズム等の公知の方法により 修正 P C係数 2 (i), (1≤ i ≤NP2 )を求める。 ここで、 NP2 は、 修 正 L P C係数の次数である。
そして、上記修正 L P C係数算出部 2 9によつて求めた修正 L P C 係数 a 2 (i)によって構成される合成フィルタ 3 0に、上記音源信号 r (n)を入力する。 合成フィルタ 3 0は、 以下の ( 1 1 ) 式によって出力音声 s (n)を求 める。 これにより、 強調処理された声道特性と、 音源特性とが合成さ れる。
s(n) = r(n) ~Y a2 (i) s{n - i), (0≤ « < N) ( 1 1 ) 式
=1 以上説明した通り、 第 1 の実施例では、 音声符号から復号した声道 特性を強調した後に音源信号と合成する。 これにより、 従来技術で問 題となっていた声道特性と音源信号を同時に強調する場合に発生す るスぺク トル歪を抑え、 かつ明瞭度を改善することができる。 更に、 本例では、 ホルマン ト以外の周波数成分に対しても、 ホルマン トの增 幅率を基準にして増幅率を求め、 強調処理を行っているので、 声道特 性を滑らかに強調することができる。
尚、本実施例ではスぺク トル sP l ( 1 ) に対する増幅率を 1 スぺク ト ル点数単位で求めるが、 スぺク トルを複数の周波数帯域に分割し、 各 帯域別に個別の増幅率を持つようにしてもよい。
図 7は、第 2の実施例による音声復号化装置 5 0の構成プロック図 である。
図示の構成のうち、図 3に示す音声複号化装置 4 0と略同一の構成 には同一符号を付してあり、 以下の説明では、 第 1の実施例と異なる 部分についてのみ説明する。
第 2の実施例では、 ホルマントの強調に加えて、 振幅が極小値をと るアンチホルマン トの減衰を行い、ホルマントとアンチホルマン トの 振幅差を強調することを特徴とする。 なお、 本実施例では、 アンチホ ルマントは 2つの隣り合うホルマン トの間にだけ存在するものと し て説明するが、 この例に限らず、 それ以外、 すなわちアンチホルマン トが最低次ホルマントより低い周波数に存在する場合や、最高次ホル マントより高い周波数に存在する場合でも適応できる。
図示の音声復号化装置 5 0は、図 3の音声複号化装置 4 0における ホルマント推定部 4· 1及び増幅率算出部 4 2に代えて、ホルマント / アンチホルマント推定部 5 1、 増幅率算出部 5 2を有し、 これら以外 の構成は音声複号化装置 4 0の構成と略同様である。
ホルマント /アンチホルマント推定部 5 1は、 L P Cスペク トル s Pl (1) を入力すると、 上記ホルマント推定部 4 1 と同様に、 ホルマ ン卜周波数 fp(k), (l^k^kpmax ) とその振幅卿 p (k) , (1≤ k≤ kpma x)を推定すると共に、 これに加えて、 アンチホルマントの周波数 fv( k), (l≤k≤kvmax ) とその振幅 ampv (k) , (1≤ k≤ kvmax)を推定する。 アンチホルマントの推定方法は任意であるが、 例えば、 スペク トル s Pl (1) の逆数に対してピークピッキング法を適用するなどの方法が ある。 求めたアンチホルマントを、 低次から順に fv(l)、 fv(2), · - • fv (kvmax) とする。 ここで、 kvmaxは、 アンチホルマントの個数で ある。 また、 fv(k)での振幅値を ampv(k)とする。
ホルマン ト/アンチホルマント推定部 5 1 によって求められたホ ルマント /ァンチホルマントの推定結果は、増幅率算出部 5 2に入力 される。
図 8は、 増幅率算出部 5 2の処理フローチヤ一ト図である。
増幅率算出部 5 2の処理は、 図 8に示すように、 ホルマントの増幅 基準電力の算出 (ステップ S 2 1 ) 、 ホルマントの増幅率の決定 (ス テツプ S 2 2 ) 、 アンチホルマントの増幅基準電力の算出 (ステップ S 2 3 ) 、 アンチホルマントの増幅率の決定 (ステップ S 2 4) 、 及 び増幅率の捕間 (ステップ S 2 5 ) の順に行われる。 ステップ S 2 1 、 S 2 2の処理は、 第 1の実施例のステップ S l l、 S 1 2の処理と 同じであるので、 ここでの説明は省略する。
以下に、 ステップ S 2 3以降の処理について説明する。
まず、ステップ S 2 3のアンチホルマントの増幅基準電力の算出処 理について説明する。
ァンチホルマントの増幅基準電力 Pow_refvは、 L P Cスぺク トル s Pi (1) から求める。 求め方は任意であるが、 例えば、 ホルマントの 増幅基準電力 Pow_refに 1未満の定数を乗じたものを用いる方法や、了 ンチホルマン ト ampv (k), (1≤ k≤ kvmax) の中で最小値をとる振幅を 基準電力とするなどの方法がある。
ホルマントの増幅基準電力 Pow— refに定数を乗じたものをアンチホ ルマントの基準電力と した場合の算出式を、 以下の式(12)に示す。
Pow rep = Pow ref ( 1 2 ) 式 ここで、 λは 0 < く 1 を満たす任意の定数である。
続いて、ステップ S 2 4のアンチホルマントの増幅率の決定処理に ついて説明する。
アンチホルマン トの増幅率 Gv(k) を求める様子を図 9に示す。図 9 力 らゎ力、るよ うに、 アンチホノレマン ト振 i畐 ampv (k), (1≤ k≤ kvmax) を、 ステップ S 2 3で求めたアンチホルマントの増幅基準電力 Pow— r efvに合わせるようにして、 アンチホルマントの増幅率 Gv(k) を決定 する。 以下の式(13)は、アンチホルマントの増幅率 Gv(k) を求める式を示 す。
Gv(k) = Pow_refv/ampv(k) (0≤k≤ Avmax) ( 1 3 ) 式 最後に、 ステップ S 2 5の増幅率の捕間処理を行う。
この処理は、隣り合うホルマント周波数とアンチホルマント周波数 の間にある周波数における増幅率を、 補間曲線 R i ( k, 1 ) により 求める。 ここで、 i = l, 2であり、 区間 [fp(k)、 : fv(k)]の補間曲線 を 1^ ( k, 1 ) 、 区間 [fv(k)、 fp(k+l)]の補間曲線を R2 ( k, 1 ) とする。
補間曲線は任意の方法により求めてよい。
以下に、 補間曲線 R i ( k, 1 ) を二次曲線で算出する場合の一例 を示す。
まず、 二次曲線の形状を、 {fp(k)、 Gp(k) } を通り、 {fv(k), Gv( k) } で極小値をとるような二次曲線と規定する。 そうすると、 この二 次曲線は、 式(14)のように表せる。 ?(/) = {!― fv{k)f + Gv(k) ( 1 4 ) 式 ここで、 aは a > 0を満たす任意の定数である。 この式(14)が、 { fp(k)、 Gp(k) } を通ることから、 { 1、 β ( 1 ) } = {fp(k)、 Gp(k )} を代入し、 式を整理すると、 aは以下の ( 1 5 ) 式のように表さ れる。 Gp(k)-Gv(k)_
{ ー 2 ゆえに、 式 ( 1 5 ) から aを算出し、 二次曲線 Ri ( k , 1 ) を求 めることができる。 fv(k)と fp(k+l)の間の補間曲線 R2 (k , 1 ) も 、 同様に求めることができる。
以上をまとめると、 増幅率 ]3 ( 1 ) は、 上式 ( 9 ) で表される。 増幅率算出部 5 2は、 この増幅率 ]3 ( 1 ) を、 スペク トル強調部 4 3に出力し、 スぺク トル算出部 4 3は、 これを用いて、 上式 ( 1 0 ) に従って、 強調されたスぺク トル sp2 (1)を求める。
以上説明した通り、 第 2の実施例では、 ホルマントの増幅に加えて 、 アンチホルマントを減衰する。 これにより、 相対的にホルマントが 更に強調され、 第 1の実施例と比較して、 明瞭度を更に高めることが できる。
また、 アンチホルマントを減衰させることにより、 音声符号化処理 後の復号音声に生じゃすい雑音感を抑えることができる。 C E L Pな ど、携帯電話などで使われている音声符号化方式で符号化 ·復号化さ れた音声は、アンチホルマントに量子化雑音と呼ばれる雑音が生じや すいことが知られている。 本発明では、 アンチホルマン トを減衰させ るため、 前記量子化雑音を軽減させ、雑音感の小さい聞きやすい音声 を提供することができる。
図 1 0は、第 3の実施例による音声複号化装置 6 0の構成プロック 図である。
図示の構成のうち、図 3に示す音声複号化装置 4 0と略同一の構成 には同一符号を付してあり、 以下の説明では、 第 1の実施例と異なる 部分についてのみ説明する。
第 3の実施例では、 第 1の実施例の構成に加えて、 更に、 音源信号 に対してピッチ強調を施す構成を有することを特徴とする。すなわち 、 ピツチ強調フィルタ構成部 6 2、 ピツチ強調部 6 3を有することを 特徴とする。 また、 A C Bベタ トル復号部 6 1は、 A C B符号から A C Bベタ トル p(n),(0≤n≤N).を復号するだけでなく、A C B符号から ピッチラグの整数部 Tを求めて、ピッチ強調フィルタ構成部 6 2に出 力する。
ピッチ強調の方法は任意である力 S、例えば以下のような方法がある 。
まず、 ピツチ強調フィルタ構成部 6 2は、 上記 A C Bベタ トル復号 部 6 1から出力されるピッチラグの整数部 Tを用いて、 Tの近傍にお ける音源信号 r(n)の自己相関関数 rscor (T- 1) 、 rscor (T) rscor (T + 1) を、 以下の式(16)により求める。
rscor = T r(n) -r(n -i), (i = T -Ι,Τ,Τ + ΐ) ( 1 6 ) 式
ピッチ強調フィルタ構成部 6 2は、 続いて、 上記自己相関関数 rsc or (T - 1) 、 rscor (T) 、 rscor (Τ+ 1) から、 レビンソン . アルゴリ ズム等の公知の方法により、 ピッチ予測係数 pc( i ) ( i =— 1、 0 . 1 ) を算出する。
ピツチ強調部 6 3は、ピッチ予測係数 pc ( i )で構成されるピツチ強 調フィルタ (伝達関数は、 以下の式(17)、 g p は重み付け係数) で音 源信号! "(n)をフィルタリングし、 ピッチが強調された残差信号 (音源 信号) r' (n)を出力する。
): ( 1 7 ) 式
合成フィルタ 3 0は、 上記のようにして求めた音源信号 r' (n)を、 r(n)の代わりに式(11)に代入して、 出力音声 s(n)を得る。
尚、 本実施例では、 ピツチ強調フィルタに 3タップの I I Rフィル タを用いたが、 それに限るものではなく、 タップ長を変えてもよいし 、 F I Rフィルタ等の任意のフィルタを用いても良い。
以上説明した通り、 第 3の実施例では、 第 1の実施例の構成に加え て、 更に、 ピツチ強調フィルタを付加することにより音源信号に含ま れるピツチ周期成分を強調するため、第 1の実施例に比べて音声の明 瞭度を更に改善することができる。 つまり、 入力した音声符号を分離 して音源特性 (残差信号) と声道特性とを復元し、 これらを別々にそ れぞれの特性に適した強調処理を施すこと、すなわち音源特性に対し てはピッチ周期性を強調し、声道特性に対してはホルマント強調を施 すことにより、 出力する音声の明瞭度を更に改善できるようになる。 図 1 1は、本例の音声複号化装置の適用先の 1つである携帯電話ノ P H Sのハードウエア構成図である。 尚、 携帯電話は、 プログラム等 を実行して任意の処理を実行できることから、コンピュータの一種と して扱うことができる。
図示の携帯電話/ P H S 7 0は、 アンテナ 7 1、 無線部 7 2、 AD /D A変換部 7 3、 D S P (Digital Signal Processor) 7 4、 C P U 7 5、 メモリ 7 6、 表示部 7 7、 スピーカ 7 8、 及びマイク 7 9を 有する。
アンテナ 7 1、 無線部 Ί 2、 A D ZD A変換部 7 3を介して受信し た音声符号 codeに対して、 D S P 7 4が、 メモリ 7 6に格納されてい る所定のプログラムを実行することにより、上記図 1〜図 1 0を参照 して説明した音声復号化処理が実行され、 出力音声を出力する。 また、 上述してある通り、 本発明の音声複号化装置の適用先ほ、 携 帯電話に限るものではなく、 例えば V o I P (voice over IP)、 TV 会議システム等であってもよい。 つまり、 音声を圧縮する音声符号化 方式を適用して、 無線/有線で、 通信を行なう機能を備え、 上記図 1 〜図 1 0を参照して説明した音声復号化処理を実行できる何らかの コンピュータであれば何でもよい。
図 1 2は、このようなコンピュータの概略的なハードウエア構成の 一例を示す図である。
同図に示すコンピュータ 8 0は、 C P U 8 1、 メモリ 8 2、 入力装 置 8 3、 出力装置 8 4、 外部記憶装置 8 5、 媒体駆動装置 8 6、 ネッ トワーク接続装置 8 7等を有し、これらがバス 8 8に接続された構成 となっている。 同図に示す構成は一例であり、 これに限るものではな い D
メモリ 8 2は、 プログラム実行、 データ更新等の際に、 外部記憶装 置 8 5 (あるいは可搬型記録媒体 8 9 ) に記憶されているプログラム あるいはデータを一時的に格納する RAM等のメモリである。
C P U 8 1は、 メモリ 8 2に読み出したプログラムを実行して、 上 述してある各種処理/機能 (図 4、 図 8等に示す処理等や、 図 1〜図 3、 図 7、 図 1 0に示す各機能部の機能) を実現する。
入力装置 8 3は、 例えばキーボード、 マウス、 タツチパネル、 マイ ク等である。
出力装置 8 4は、 例えばディスプレイ、 スピーカ一等である。
外部記憶装置 8 5は、 例えば磁気ディスク装置、 光ディスク装置、 光磁気ディスク装置等であり、上述してきた画像結合装置と しての各 種機能を実現させる為のプログラム/データ等が格納されている。 媒体駆動装置 8 6は、可搬型記録媒体 8 9に記憶されているプログ ラム/データ等を読み出す。 可搬型記録媒体 8 9は、 例えば、 F D ( フレキシブルディスク) 、 C D— R O M、 その他、 D V D、 光磁気デ イスク等である。
ネッ トワーク接続装置 8 7は、 ネッ トワークに接続して、 外部の情 報処理装置とプログラム/データ等の送受信を可能にする構成であ る。
図 1 3は、 上記プログラムを記録した記録媒体、 当該プログラムの ダウンロードの一例を示す図である。
図示のように、上記本発明の機能を実現するプログラム Zデータが 記憶されている可搬型記録媒体 8 9からコンピュータ 8 0側に読み 出して、 メモリ 8 2に格納し実行するものであってもよいし、 また、 上記プログラム/データは、ネッ トワーク接続装置 8 7により接続し ているネッ トワーク 3 (インターネッ ト等) を介して、 外部のサーバ 1 の記憶部 2に記憶されているプログラム/データをダウンロー ド するものであってもよい。
また、 本発明は、 装置 方法に限らず、 上記プログラム/データを 格納した記録媒体 (可搬型記録媒体 8 9等) 自体と して構成すること もできるし、 上記プログラム自体と して構成することもできる。 最後に、 本出願の出願人が既に出願している先出願 (国際出願番号 ; JP02/ 1 1332) について触れておく。
図 1 4に、先出願で提案している音声強調装置 9 0の基本構成を示 す。
図示の音声強調装置 9 0は、 まず、 信号分析■分離部 9 1力 S、 入力 音声 Xを分析して、 これを音源信号 r と声道特性 sP l とに分離する。 声道特性修正部 9 2が、 この声道特性 sP l を修正 (例えばホルマント を強調) し、 修正 (強調) された声道特性 sp2 を出力する。 最後に、 信号合成部 9 3が、 音源信号 rを、 上記修正 (強調) された声道特性 sp2 と再合成することにより、ホルマントを強調した音声が出力され ることを特徴と している。
このよ うに、 先出願では、 入力音声 Xを、 音源信号' r と声道特性 sP l とに分離して、 声道特性の強調を行うため、 特許文献 1の問題点で あった音源信号の歪みを生じさせることが無い。 従って、雑音感の增 加や明瞭度の低下のないホルマント強調を行うことができる。
ところで、 先出願記載の音声強調装置を、 例えば。 E L P復号器が 搭載された携帯電話等に適用する場合、 図 1 5に示すようになる。 先出願記載の音声強調装置 9 0は、 上記の通り、 音声 Xを入力して いるので、 図 1 5に示すように、 音声強調装置 9 0の前段に復号処理 装置 1 0 0を設け、外部から送られてきた音声符号 codeを、 当該復号 処理装置 1 0 0によって復号して、 この復号音声 sを、 音声強調装置 9 0の入力とする構成となる。
復号処理装置 1 0 0は、例えば符号分離/復号部 1 0 1によって音 声符号 co deから音源信号 r i と声道特性 sP l とを生成し、 これらを信 号合成部 1 0 2によって合成して復号音声 s を生成 ·出力する。 この とき、 音声符号 codeから復号された復号音声 sは、 情報が圧縮されて いるため、 符号化前の音声に比べて音声の情報量が減少し、 品質が劣 ィ匕している。
このため、 品質が劣化した復号音声 sを入力とする音声強調装置 9 0では、品質が劣化した音声を再分析して音源信号と声道特性に分離 することになる。 そのため、 分離の精度が劣化し、 復号音声 sから分 離した声道特性 sP l ' 中に音源信号成分が、 あるいは音源信号 r 中 に声道特性成分が残留する場合がある。 従って、 声道特性を強調した 際、 声道特性中に残留する音源信号成分が強調されてしまう場合、 あ るいは音源信号中に残留する声道特性成分が強調されない場合があ る。 このため、 音源信号とホルマント強調後の声道特性から再合成さ れる出力音声 s , の音質が劣化する可能性があった。
これに対して、 本発明の音声復号化装置では、 音声符号から復号し た声道特性を用いるため、劣化した音声からの再分析による品質劣化 を生じない。 更に、 再分析が不要となるため、 処理量を削減すること ができる。 産業上の利用の可能性
以上詳細に説明 したよ う に、 本発明の音声複号化装置、 復号方法、 そのプログラム等によれば、 分析合成系の音声符号化方式を用いる携帯電話等 の通信装置において、 音声符号化処理を施されて伝送されてきた音声符号を受 信すると、 この音声符号に基づいて音声を生成■出力する際に、 音声符号から 声道特性と音源信号とを復元し、 復元した声道特性に対してホルマント強調処 理を施して、 これを音源信号と合成する。 このようにすることによって、 従来 問題となっていた声道特性と音源信号を同時に強調する場合に発生するスぺク トル歪を抑え、 明瞭度を改善することができる。 つまり、 強調による音質劣化 や雑音感の増加などの副作用がない音声に復号することができ、 音声の明瞭度 を更に高めて聞きやすくなる。

Claims

請 求 の 範 囲
1 . 分析合成系の音声符号化方式を用いる通信装置が備える音声 復号化装置において、
受信した音声符号を分離して、声道特性と音源信号を復元する符号 分離/復号手段と、
該声道特性を修正する声道特性修正手段と、
前記声道特性修正手段によって修正された修正声道特性と、前記音 声符号から得られる音源信号とを合成して音声信号を出力する信号 合成手段と、
を有することを特徴とする音声複号化装置。
2 . 前記声道特性修正手段は、 前記声道特性に対してホルマン ト 強調処理を施し、 該強調された声道特性を生成し、
前記信号合成手段は、該強調された声道特性に基づいて、 前記音源 信号との合成を行うことを特徴とする請求項 1記載の音声復号化装 置。
3 . 前記声道特性は、 前記音声符号から復号する第 1の線形予測 係数から算出される線形予測スぺク トルであり、
前記声道特性修正手段は、該線形予測スぺク トルをホルマント強調 し、 .
前記信号合成手段は、該ホルマント強調された線形予測スぺク トル に対応する第 2の線形予測係数を求める修正線形予測係数算出手段 と、該第 2の線形予測係数によって構成される合成フィルタとを有し 、 該合成フィルタに前記音源信号を入力して、 前記音声信号を生成 - 出力することを特徴とする請求項 1又は 2記載の音声複号化装置。
4 . 前記声道特性修正手段は、 前記声道特性におけるホルマント を推定するホルマント推定手段と、該推定したホルマン トに基づいて 前記声道特性に対する増幅率を算出する増幅率算出手段と、該算出し た増幅率に基づいて前記声道特性を強調する強調手段とを有するこ とを特徴とする請求項 1〜 3の何れかに記載の音声複号化装置。
5 . 前記ホルマント推定手段は、 前記ホルマン トのホルマント周 波数とその振幅を推定し、
前記増幅率算出手段は、前記声道特性から増幅基準電力を算出して 、前記ホルマント振幅を該増幅基準電力に合わせるようにしてホルマ ン トの増幅率を決定し、
前記強調手段は、該ホルマントの増幅率を用いて前記声道特性を強 調することを特徴とする請求項 4記載の音声復号化装置。
6 . 前記増幅率算出手段は、 更に、 前記ホルマン ト間の周波数帯 域の増幅率を、 補間曲線により求め、
前記強調手段は、該補間曲線によって求められた増幅率も用いて前 記声道特性を強調することを特徴とする請求項 5記載の音声復号化 装置。
7 . 前記声道特性修正手段は、 前記声道特性に対してホルマント 強調とアンチホルマン トの減衰処理を施し、ホルマン ト とアンチホル マン トの振幅差を強調した声道特性を生成し、
前記信号合成手段は、 該強調された声道特性に基づいて、 前記音源 信号との合成を行うことを特徴とする請求項 1記載の音声複号化装 置。
8 . 前記声道特性は、 前記音声符号から復号する第 1の線形予測 係数から算出される線形予測スぺク トルであり 、 前記声道特性修正手段は、該線形予測スぺク トルに対して前記ホル マント強調とアンチホルマン トの減衰処理を施し、
前記信号合成手段は、該声道特性修正手段が生成した修正後の線形 予測スぺク トルに対応する第 2の線形予測係数を求める修正線形予 測係数算出手段と、該第 2の線形予測係数によって構成される合成フ ィルタとを有し、該合成フィルタに前記音源信号を入力して、 前記音 声信号を生成 ·出力することを特徴とする請求項 7記載の音声複号化 装置。
9 . 前記声道特性修正手段は、
前記ホルマントの周波数とその振幅を推定すると共に、前記アンチ ホルマン トの周波数とその振幅を推定するホルマント推定手段と、 前記声道特性からホルマントの増幅基準電力を算出して、前記ホル マン ト振幅を該増幅基準電力に合わせるようにしてホルマン トの增 幅率を決定すると共に、前記声道特性からアンチホルマントの增幅基 準電力を算出して、前記アンチホルマント振幅を該増幅基準電力に合 わせるようにしてアンチホルマン トの増幅率を決定する増幅率算出 手段と、
該増幅率算出手段によって決定されたホルマン トの増幅率とアン チホルマン トの増幅率とを用いて前記声道特性を強調 Z減衰する強 調手段と、
を有することを特徴とする請求項 7又は 8記載の音声複号化装置。
1 0 . 前記音源信号に対してピッチ強調を施すピッチ強調手段を 更に有し、
前記信号合成手段は、 該ピッチ強調された音源信号と、 前記修正さ れた声道特性とを合成して音声信号を生成■出力することを特徴とす る請求項 1記載の音声複号化装置。
1 1 . 前記音声符号の一部である A C B符号に基づいて得られる ピッチラグを用いて、該ピッチラグの近傍における音源信号の自己相 関関数を求め、該自己相関関数からピッチ予測係数を算出するピッチ 強調フィルタ構成手段を更に備え、
前記ピツチ強調手段は、前記ピツチ予測係数で構成されるピッチ強 調フィルタによって前記音源信号をフィルタ リ ングすることで、前記 ピッチ強調された音源信号を生成することを特徴とする請求項 1 0 記載の音声複号化装置。
1 2 . 前記音声符号化方式は、符号励振線形予測方式の音声符号 化方式であることを特徴とする請求項 1〜 1 1の何れかに記載の音 声複号化装置。
1 3 . 分析合成系の音声符号化方式を用いる通信装置における音 声複号化方法であって、
受信した音声符号を分離して、 声道特性と音源信号を復元し、 該声道特性を修正し、
該修正された修正声道特性と、前記音声符号から得られる音源信号 とを合成して音声信号を出力することを特徴とする音声複号化方法。
1 4 . 分析合成系の音声符号化方式を用いる通信装置における音 声復号化方法であって、
受信した音声符号を分離して、該音声符号から復号する第 1の線形 予測係数から線形予測スぺク トル.を求めると共に、該音声符号から音 源信号を復元し、
該線形予測スぺク トルをホルマント強調し、
該ホルマン ト強調された線形予測スぺク トルに対応する第 2の線 形予測係数を求め、該第 2の線形予測係数によって構成される合成フ ィルタに前記音源信号を入力して、 前記音声信号を生成 ·出力するこ とを特徴とする音声復号化方法。
1 5 . 前記ホルマント強調に加えて、 アンチホルマントの減衰を 行い、ホルマントとアンチホルマントの振幅差を強調することを特徴 とする請求項 1 4記載の音声復号化方法。
1 6 . 前記音源信号に対してピッチ強調を施し、 該ピッチ強調さ れた音源信号を前記合成フィルタへの入力とすることを特徴とする 請求項 1 4又は 1 5記載の音声複号化方法。
1 7 . コンピュータに、
分析合成系の音声符号化方式によって符号化され伝送されてきた 音声符号を受信すると、 該受信した音声符号を分離して、 声道特性と 音源信号を復元する機能と、
該声道特性を修正する機能と、
該修正された修正声道特性と、前記音声符号から得られる音源信号 とを合成して音声信号を出力する機能と、
を実現させるためのプログラム。
1 8 . コンピュータに、
分析合成系の音声符号化方式によって符号化され伝送されてきた 音声符号を受信すると、 該受信した音声符号を分離して、該音声符号 から復号する第 1の線形予測係数から線形予測スぺク トルを求める と共に、 該音声符号から音源信号を復元する機能と、
該線形予測スぺク トルをホルマント強調する機能と、
該ホルマント強調された線形予測スぺク トルに対応する第 2の線 形予測係数を求め、該第 2の線形予測係数によって構成される合成フ ィルタに前記音源信号を入力して、前記音声信号を生成 ·出力する機 能と、
を実現させるためのプログラム。
1 9 . 前記ホルマント強調に加えて、 アンチホルマントの減衰を 行い、ホルマン ト とアンチホルマントの振幅差を強調することを特徴 とする請求項 1 8記載のプログラム。
2 0 . 前記音源信号に対してピッチ強調を施し、 該ピッチ強調さ れた音源信号を前記合成フィルダへの入力とすることを特徴とする 請求項 1 8又は 1 9記載のプログラム。
2 1 . コンピュータに、
分析合成系の音声符号化方式によつて符号化され伝送されてきた 音声符号を受信すると、 該受信した音声符号を分離して、 声道特性と 音源信号を復元する機能と、
該声道特性を修正する機能と、
該修正された修正声道特性と、前記音声符号から得られる音源信号 とを合成して音声信号を出力する機能と、
を実行させるためのプログラムを格納したコンピュータ読み取り 可能な記録媒体。
2 2 . コンピュータに、
分析合成系の音声符号化方式によって符号化され伝送されてきた 音声符号を受信すると、 該受信した音声符号を分離して、該音声符号 から復号する第 1 の線形予測係数から線形予測スぺク トルを求める と共に、 該音声符号から音源信号を復元する機能と、
該線形予測スぺク トルをホルマント強調する機能と、
該ホルマン ト強調された線形予測スぺク トルに対応する第 2 の線 形予測係数を求め、該第 2の線形予測係数によって構成される合成フ ィルタに前記音源信号を入力して、前記音声信号を生成■出力する機 能と、
を実行させるためのプログラムを格納したコンピュータ読み取り 可能な記録媒体。
2 3 . 前記ホルマント強調に加えて、 アンチホルマン トの減衰を 行い、ホルマントとアンチホルマントの振幅差を強調することを特徴 とする請求項 2 2記載の記録媒体。
2 4 . 前記音源信号に対してピッチ強調を施し、 該ピッチ強調さ れた音源信号を前記合成フィルタへの入力とすることを特徴とする 請求項 2 2又は 2 3記載の記録媒体。
PCT/JP2003/005582 2003-05-01 2003-05-01 音声復号化装置、音声復号化方法、プログラム、記録媒体 WO2004097798A1 (ja)

Priority Applications (5)

Application Number Priority Date Filing Date Title
PCT/JP2003/005582 WO2004097798A1 (ja) 2003-05-01 2003-05-01 音声復号化装置、音声復号化方法、プログラム、記録媒体
JP2004571323A JP4786183B2 (ja) 2003-05-01 2003-05-01 音声復号化装置、音声復号化方法、プログラム、記録媒体
DE60330715T DE60330715D1 (de) 2003-05-01 2003-05-01 Sprachdecodierer, sprachdecodierungsverfahren, programm,aufzeichnungsmedium
EP03721013A EP1619666B1 (en) 2003-05-01 2003-05-01 Speech decoder, speech decoding method, program, recording medium
US11/115,478 US7606702B2 (en) 2003-05-01 2005-04-27 Speech decoder, speech decoding method, program and storage media to improve voice clarity by emphasizing voice tract characteristics using estimated formants

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
PCT/JP2003/005582 WO2004097798A1 (ja) 2003-05-01 2003-05-01 音声復号化装置、音声復号化方法、プログラム、記録媒体

Related Child Applications (1)

Application Number Title Priority Date Filing Date
US11/115,478 Continuation US7606702B2 (en) 2003-05-01 2005-04-27 Speech decoder, speech decoding method, program and storage media to improve voice clarity by emphasizing voice tract characteristics using estimated formants

Publications (1)

Publication Number Publication Date
WO2004097798A1 true WO2004097798A1 (ja) 2004-11-11

Family

ID=33398154

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/JP2003/005582 WO2004097798A1 (ja) 2003-05-01 2003-05-01 音声復号化装置、音声復号化方法、プログラム、記録媒体

Country Status (5)

Country Link
US (1) US7606702B2 (ja)
EP (1) EP1619666B1 (ja)
JP (1) JP4786183B2 (ja)
DE (1) DE60330715D1 (ja)
WO (1) WO2004097798A1 (ja)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2010191302A (ja) * 2009-02-20 2010-09-02 Sharp Corp 音声出力装置
JP2021064009A (ja) * 2014-07-28 2021-04-22 フラウンホーファー−ゲゼルシャフト・ツール・フェルデルング・デル・アンゲヴァンテン・フォルシュング・アインゲトラーゲネル・フェライン 高調波ポストフィルタを使用してオーディオ信号を処理するための装置および方法

Families Citing this family (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2008108082A1 (ja) * 2007-03-02 2008-09-12 Panasonic Corporation 音声復号装置および音声復号方法
US9031834B2 (en) 2009-09-04 2015-05-12 Nuance Communications, Inc. Speech enhancement techniques on the power spectrum
US9536534B2 (en) * 2011-04-20 2017-01-03 Panasonic Intellectual Property Corporation Of America Speech/audio encoding apparatus, speech/audio decoding apparatus, and methods thereof
EP2951814B1 (en) * 2013-01-29 2017-05-10 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Low-frequency emphasis for lpc-based coding in frequency domain
HRP20231248T1 (hr) 2013-03-04 2024-02-02 Voiceage Evs Llc Uređaj i postupak za smanјenјe šuma kvantizacije u dekoderu vremenskog domena
CN107851433B (zh) * 2015-12-10 2021-06-29 华侃如 基于谐波模型和声源-声道特征分解的语音分析合成方法
JP2018159759A (ja) 2017-03-22 2018-10-11 株式会社東芝 音声処理装置、音声処理方法およびプログラム
JP6646001B2 (ja) * 2017-03-22 2020-02-14 株式会社東芝 音声処理装置、音声処理方法およびプログラム

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH08248996A (ja) * 1995-03-10 1996-09-27 Nippon Telegr & Teleph Corp <Ntt> ディジタルフィルタのフィルタ係数決定方法
JPH0981192A (ja) * 1995-09-14 1997-03-28 Toshiba Corp ピッチ強調方法および装置
JP2000099094A (ja) * 1998-09-25 2000-04-07 Matsushita Electric Ind Co Ltd 時系列信号処理装置
JP2001117573A (ja) * 1999-10-20 2001-04-27 Toshiba Corp 音声スペクトル強調方法/装置及び音声復号化装置
JP2001242899A (ja) * 2000-02-29 2001-09-07 Toshiba Corp 音声符号化方法及び装置並びに及び音声復号方法及び装置

Family Cites Families (19)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH0738118B2 (ja) * 1987-02-04 1995-04-26 日本電気株式会社 マルチパルス符号化装置
JPH05323997A (ja) * 1991-04-25 1993-12-07 Matsushita Electric Ind Co Ltd 音声符号化器、音声復号化器、音声符号化装置
WO1993018505A1 (en) * 1992-03-02 1993-09-16 The Walt Disney Company Voice transformation system
JPH0738118A (ja) 1992-12-22 1995-02-07 Korea Electron Telecommun 薄膜トランジスタの製造方法
JPH06202695A (ja) 1993-01-07 1994-07-22 Sony Corp 音声信号処理装置
JP3510643B2 (ja) * 1993-01-07 2004-03-29 株式会社東芝 音声信号のピッチ周期処理方法
JP3360423B2 (ja) * 1994-06-21 2002-12-24 三菱電機株式会社 音声強調装置
JPH08272394A (ja) 1995-03-30 1996-10-18 Olympus Optical Co Ltd 音声符号化装置
JP2993396B2 (ja) * 1995-05-12 1999-12-20 三菱電機株式会社 音声加工フィルタ及び音声合成装置
DE69628103T2 (de) * 1995-09-14 2004-04-01 Kabushiki Kaisha Toshiba, Kawasaki Verfahren und Filter zur Hervorbebung von Formanten
JP3319556B2 (ja) * 1995-09-14 2002-09-03 株式会社東芝 ホルマント強調方法
EP0788091A3 (en) * 1996-01-31 1999-02-24 Kabushiki Kaisha Toshiba Speech encoding and decoding method and apparatus therefor
JP3357795B2 (ja) * 1996-08-16 2002-12-16 株式会社東芝 音声符号化方法および装置
JPH10105200A (ja) * 1996-09-26 1998-04-24 Toshiba Corp 音声符号化/復号化方法
US6003000A (en) * 1997-04-29 1999-12-14 Meta-C Corporation Method and system for speech processing with greatly reduced harmonic and intermodulation distortion
US6098036A (en) * 1998-07-13 2000-08-01 Lockheed Martin Corp. Speech coding system and method including spectral formant enhancer
US6665638B1 (en) * 2000-04-17 2003-12-16 At&T Corp. Adaptive short-term post-filters for speech coders
JP4413480B2 (ja) 2002-08-29 2010-02-10 富士通株式会社 音声処理装置及び移動通信端末装置
CN100369111C (zh) * 2002-10-31 2008-02-13 富士通株式会社 话音增强装置

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH08248996A (ja) * 1995-03-10 1996-09-27 Nippon Telegr & Teleph Corp <Ntt> ディジタルフィルタのフィルタ係数決定方法
JPH0981192A (ja) * 1995-09-14 1997-03-28 Toshiba Corp ピッチ強調方法および装置
JP2000099094A (ja) * 1998-09-25 2000-04-07 Matsushita Electric Ind Co Ltd 時系列信号処理装置
JP2001117573A (ja) * 1999-10-20 2001-04-27 Toshiba Corp 音声スペクトル強調方法/装置及び音声復号化装置
JP2001242899A (ja) * 2000-02-29 2001-09-07 Toshiba Corp 音声符号化方法及び装置並びに及び音声復号方法及び装置

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
See also references of EP1619666A4

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2010191302A (ja) * 2009-02-20 2010-09-02 Sharp Corp 音声出力装置
JP2021064009A (ja) * 2014-07-28 2021-04-22 フラウンホーファー−ゲゼルシャフト・ツール・フェルデルング・デル・アンゲヴァンテン・フォルシュング・アインゲトラーゲネル・フェライン 高調波ポストフィルタを使用してオーディオ信号を処理するための装置および方法
US11694704B2 (en) 2014-07-28 2023-07-04 Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. Apparatus and method for processing an audio signal using a harmonic post-filter
JP7340553B2 (ja) 2014-07-28 2023-09-07 フラウンホーファー-ゲゼルシャフト・ツール・フェルデルング・デル・アンゲヴァンテン・フォルシュング・アインゲトラーゲネル・フェライン 高調波ポストフィルタを使用してオーディオ信号を処理するための装置および方法

Also Published As

Publication number Publication date
JP4786183B2 (ja) 2011-10-05
EP1619666A4 (en) 2007-08-01
US7606702B2 (en) 2009-10-20
EP1619666A1 (en) 2006-01-25
JPWO2004097798A1 (ja) 2006-07-13
DE60330715D1 (de) 2010-02-04
EP1619666B1 (en) 2009-12-23
US20050187762A1 (en) 2005-08-25

Similar Documents

Publication Publication Date Title
JP3881943B2 (ja) 音響符号化装置及び音響符号化方法
JP5226777B2 (ja) 音声信号中に埋め込まれた隠れデータの回復
JP5942358B2 (ja) 符号化装置および方法、復号装置および方法、並びにプログラム
JP3881946B2 (ja) 音響符号化装置及び音響符号化方法
US7606702B2 (en) Speech decoder, speech decoding method, program and storage media to improve voice clarity by emphasizing voice tract characteristics using estimated formants
JPWO2009057327A1 (ja) 符号化装置および復号装置
JP2008519990A (ja) 信号符号化の方法
KR20060135699A (ko) 신호 복호화 장치 및 신호 복호화 방법
WO2005106850A1 (ja) 階層符号化装置および階層符号化方法
JP2004302259A (ja) 音響信号の階層符号化方法および階層復号化方法
JPH1083200A (ja) 符号化,復号化方法及び符号化,復号化装置
JP4373693B2 (ja) 音響信号の階層符号化方法および階層復号化方法
JP4343302B2 (ja) ピッチ強調方法及びその装置
JP3785363B2 (ja) 音声信号符号化装置、音声信号復号装置及び音声信号符号化方法
WO2004040552A1 (ja) トランスコーダ及び符号変換方法
JP2002149198A (ja) 音声符号化装置及び音声復号化装置
JP3770901B2 (ja) 広帯域音声復元方法及び広帯域音声復元装置
JP3748081B2 (ja) 広帯域音声復元方法及び広帯域音声復元装置
JP4447546B2 (ja) 広帯域音声復元方法及び広帯域音声復元装置
JP3560964B2 (ja) 広帯域音声復元装置及び広帯域音声復元方法及び音声伝送システム及び音声伝送方法
JP3770899B2 (ja) 広帯域音声復元方法及び広帯域音声復元装置
JP3748080B2 (ja) 広帯域音声復元方法及び広帯域音声復元装置
JP3770900B2 (ja) 広帯域音声復元方法及び広帯域音声復元装置
JP3598112B2 (ja) 広帯域音声復元方法及び広帯域音声復元装置
JP3773509B2 (ja) 広帯域音声復元装置及び広帯域音声復元方法

Legal Events

Date Code Title Description
AK Designated states

Kind code of ref document: A1

Designated state(s): JP US

AL Designated countries for regional patents

Kind code of ref document: A1

Designated state(s): AT BE BG CH CY CZ DE DK EE ES FI FR GB GR HU IE IT LU MC NL PT RO SE SI SK TR

121 Ep: the epo has been informed by wipo that ep was designated in this application
WWE Wipo information: entry into national phase

Ref document number: 2004571323

Country of ref document: JP

WWE Wipo information: entry into national phase

Ref document number: 11115478

Country of ref document: US

WWE Wipo information: entry into national phase

Ref document number: 2003721013

Country of ref document: EP

WWP Wipo information: published in national office

Ref document number: 2003721013

Country of ref document: EP