WO2002021091A1 - Analyseur de signal de bruit, synthetiseur de signal de bruit, procede d'analyse de signal de bruit et procede de synthese de signal de bruit - Google Patents

Analyseur de signal de bruit, synthetiseur de signal de bruit, procede d'analyse de signal de bruit et procede de synthese de signal de bruit Download PDF

Info

Publication number
WO2002021091A1
WO2002021091A1 PCT/JP2001/007630 JP0107630W WO0221091A1 WO 2002021091 A1 WO2002021091 A1 WO 2002021091A1 JP 0107630 W JP0107630 W JP 0107630W WO 0221091 A1 WO0221091 A1 WO 0221091A1
Authority
WO
WIPO (PCT)
Prior art keywords
spectrum
model
noise signal
noise
signal
Prior art date
Application number
PCT/JP2001/007630
Other languages
English (en)
French (fr)
Inventor
Koji Yoshida
Fumitada Itakura
Original Assignee
Matsushita Communication Industrial Co., Ltd.
Nagoya University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Matsushita Communication Industrial Co., Ltd., Nagoya University filed Critical Matsushita Communication Industrial Co., Ltd.
Priority to US10/129,076 priority Critical patent/US6934650B2/en
Priority to AU2001282616A priority patent/AU2001282616A1/en
Priority to EP01961335A priority patent/EP1258715B1/en
Publication of WO2002021091A1 publication Critical patent/WO2002021091A1/ja

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/012Comfort noise or silence coding
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/48Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use

Definitions

  • Noise signal analyzer noise signal synthesizer, noise signal analysis method, and noise signal synthesis method
  • the present invention relates to a noise signal analysis / synthesis apparatus for analyzing and synthesizing a background noise signal superimposed on an audio signal, and a speech coding apparatus for encoding a speech signal using the analysis / synthesis apparatus.
  • a noise signal analysis / synthesis apparatus for analyzing and synthesizing a background noise signal superimposed on an audio signal
  • a speech coding apparatus for encoding a speech signal using the analysis / synthesis apparatus.
  • FIG. 1 is a block diagram showing a configuration of a conventional coding apparatus that employs a CS—ACELP coding method with DTX control.
  • an input speech signal is inputted to a speech / non-speech discriminator 11, a CS-ACELP speech coder 12, and a silence section coder 13.
  • the voiced Z silence determiner 11 determines whether the input speech signal is a voiced section or a silent section (a section including only background noise).
  • the CS-ACELP speech encoder 12 When the speech / non-speech determiner 11 determines that there is speech, the CS-ACELP speech encoder 12 performs speech encoding on a speech section. The encoded data of the sound section is output to the DTX control and multiplexer 14.
  • the silent section encoder 13 encodes a noise signal for a silent section.
  • This silence section The encoder 13 uses the input speech signal to calculate the same LPC coefficient as that used for encoding a speech section and the LPC prediction residual energy of the input speech signal, and these are the codes of the silent section.
  • the data is output to the DTX control and multiplexer 14 as a whole.
  • the coded data in the silent section is intermittently transmitted in a section where a predetermined change in the characteristics (LPC coefficient and energy) of the input signal is detected.
  • the DTX control and multiplexer 14 uses the outputs of the voiced / silent discriminator 11, CS-ACELP speech coder 12 and silence interval coder 13 to output data to be transmitted as transmission data. After the evening is controlled and multiplexed, it is output as transmission data.
  • the CS-ACELP speech coder is used to encode only the speech section of the input speech signal, and the speech section (noise only section) of the input speech signal is processed.
  • the speech section noise only section
  • the quality of a decoded signal with respect to a noise signal during a silent period is reduced in a receiving device receiving data encoded by a transmitting device due to the following factors. There is a problem of deterioration.
  • the first factor is that the silent section encoder (noise signal analysis / encoding unit) in the transmitting side equipment uses the AR type for each signal model (short section (about 10 to 50 ms)) similar to the speech encoder.
  • the decoded signal is generated by driving the combined filter of the LPC (the LPC combined filter) with the noise signal).
  • the receiving device synthesizes (generates) noise using coded data obtained by intermittently analyzing the input noise signal in the transmitting device.
  • the purpose is to represent the noise signal in a statistical model. Specifically, using a plurality of stationary noise models represented by an amplitude spectrum time series following a certain statistical distribution, and the duration of the amplitude spectrum time series follows another statistical distribution, The noise signal is expressed as a spectrum sequence that statistically transitions between the stationary noise models.
  • Fig. 1 is a block diagram showing the configuration of an encoding device that employs a conventional CS—ACELP encoding system with DTX control.
  • FIG. 2 is a block diagram showing a configuration of the noise signal analyzer according to the first embodiment of the present invention.
  • FIG. 3 is a block diagram showing a configuration of the noise signal synthesizer according to the first embodiment of the present invention.
  • FIG. 4 is a flowchart showing the operation of the noise signal analyzer according to the first embodiment of the present invention.
  • FIG. 5 is a flowchart showing the operation of the noise signal synthesizer according to the first embodiment of the present invention.
  • FIG. 6 is a block diagram illustrating a configuration of a speech encoding device according to a second embodiment of the present invention.
  • FIG. 7 is a block diagram showing a configuration of the speech decoding device according to the second embodiment of the present invention.
  • FIG. 8 is a flowchart showing an operation of the speech coding apparatus according to the second embodiment of the present invention.
  • FIG. 9 is a flowchart showing the operation of the speech decoding apparatus according to the second embodiment of the present invention.
  • FIG. 10 is a block diagram showing the configuration of the noise signal analyzing apparatus according to the third embodiment of the present invention.
  • FIG. 11 is a diagram illustrating a spectral model parameter according to the third embodiment of the present invention.
  • FIG. 12 is a block diagram showing a configuration of the noise signal synthesizing apparatus according to the third embodiment of the present invention.
  • FIG. 13 is a schematic diagram showing the operation of the noise signal analyzer according to the third embodiment of the present invention.
  • FIG. 14 is a flowchart showing the operation of the spectrum model parameter calculation / quantization unit according to the third embodiment of the present invention.
  • FIG. 15 is a schematic diagram showing an operation of the noise signal synthesizer according to the third embodiment of the present invention.
  • FIG. 16 is a block diagram showing a configuration of a speech coding apparatus according to Embodiment 4 of the present invention.
  • FIG. 17 is a block diagram showing a configuration of a speech decoding apparatus according to Embodiment 4 of the present invention.
  • FIG. 18 is a flowchart showing the operation of the speech coding apparatus according to the fourth embodiment of the present invention.
  • FIG. 19 is a flowchart showing an operation of the speech decoding device according to the fourth embodiment of the present invention.
  • the noise signal is represented by a statistical model. That is, using a plurality of stationary noise models that are represented by an amplitude spectrum time series that follows a certain statistical distribution and that have a duration of the amplitude spectrum time series that follow a certain statistical distribution, More specifically, the noise signal is used as a transitioning spectrum sequence.
  • Vector time series ⁇ Si (n) ⁇ (n l,..., Li, i2 1,..., M).
  • Li indicates the duration of each amplitude spectrum time series ⁇ Si (n) ⁇ (here, the number of frames is used as a unit).
  • ⁇ S i (n) ⁇ and Li each follow a statistical distribution represented by a normal distribution.
  • FIG. 2 is a block diagram showing a configuration of the noise signal analyzer according to the first embodiment of the present invention.
  • the windowing unit 101 is configured to receive an input for an m-th frame (BF0, 1, 2,...) Input for each fixed interval (hereinafter referred to as “frame”).
  • the FFT (Fast Fourier Transform) unit 102 converts the windowed input noise signal into a frequency spectrum, and calculates an input amplitude spectrum X (m) of the m-th frame.
  • the spectral model number sequence ⁇ index (m) ⁇ (l ⁇ index (m) ⁇ M corresponding to the amplitude spectrum sequence ⁇ X (m) ⁇ (m 0, l, 2,...) Of the input noise signal , DF0, 1,2,
  • the duration model ⁇ The transition probability calculation unit 105 uses the spectrum model number sequence ⁇ index (m) ⁇ obtained by the spectrum model sequence calculation unit 104 to calculate the number of continuous frames Li for each Si.
  • FIG. 3 is a block diagram showing a configuration of the noise signal combining device according to the first embodiment of the present invention.
  • the transition sequence generation unit 201 includes the model parameters (the average value Lav—i of Li, the standard deviation Ldv_i and the standard deviation value Ld) obtained by the noise signal analyzing device shown in FIG.
  • the transition probability P (i, j) between S i among the transition probabilities p (i, j) between i the transition of the spectrum model S i is given to the given transition probability p (i, j).
  • i index '(l) Is controlled so as to follow a normal distribution with an average value Lav_i and a standard deviation Ldv-i.
  • the spectrum generation unit 205 applies a random number phase to the amplitude spectrum time series of a predetermined time length (the number of frames) generated along the transition sequence ⁇ index '(l) ⁇ by the above method.
  • a spectrum time series is generated.
  • the spectrum generation unit 205 may perform smoothing on the generated amplitude spectrum time series so that the spectrum changes smoothly.
  • An IFFT (Inverse Fast Fourier Transform) unit 206 converts the spectrum time series generated by the spectrum generation unit 205 into a time-domain waveform.
  • the superposition addition unit 207 outputs a final synthesized noise signal by performing superposition addition of signals between frames.
  • FIG. 4 is a flowchart showing an operation of the noise signal analyzer according to the first embodiment of the present invention.
  • FIG. 5 is a flowchart showing an operation of the noise signal synthesizing device according to the first embodiment of the present invention.
  • the input noise signal for the m-th frame (IIF0, 1, 2,8) Is windowed by a windowing unit 101 using a Hanning window or the like.
  • the windowed input noise signal is subjected to FFT (Fast Fourier Transform) by the FFT section 102 and converted into a frequency spectrum. Thereby, the input amplitude spectrum X n) of the m-th frame is calculated.
  • the corresponding spectrum model number series is calculated by finding the number i of the spectrum model S i having the average amplitude Sav- i having the smallest distance from the input amplitude spectrum X (m). This is done by The above processing of ST301 to ST304 is performed in frame units. .
  • the continuation length model ⁇ transition probability calculation section 105 uses the continuation length model / transition probability calculation section 105 to calculate statistical parameters related to the number of continuous frames Li for each S i (The average value Lav-i of Li and the standard deviation value Ldv_i) and the transition probability p (i, j) between Si are calculated.
  • these are output as model parameters for the input noise signal. These model parameters are calculated and transmitted at regular intervals or at arbitrary intervals.
  • the model parameters (the average value Lav—i of Li, the standard deviation Ldv_i, and the transition probability P (i,) between the standard deviation values Ldv_i and S i) obtained by the noise signal analyzer are transformed into the transition sequence generation unit 201. And input to the duration control unit 203.
  • the transition sequence generator 201 uses the transition probability P (i, j) of the input model parameters to transition the spectrum model S i to the given transition probability p.
  • the continuous length control unit 203 uses the statistical model parameters of Li (average value Lav_i, standard deviation Ldv_i) of the number of continuous frames for the spectral model S i in the input model parameters,
  • the continuous length control unit 203 generates a continuous frame number L controlled to follow a normal distribution having an average value Lav_i and a standard deviation Ldv-i with respect to (l).
  • a random number phase is generated by the random number phase generation unit 204.
  • the spectrum generation unit 205 uses i and the standard deviation Sdv-i), the spectrum generation unit 205 generates an amplitude spectrum time series (n) ⁇ for index, (l) shown in Expression (1). Note that the generated amplitude spectrum time series may be smoothed so that the spectrum changes smoothly.
  • the random number phase generated by ST 404 is given to the amplitude spectrum time series of a predetermined time length (the number of frames) generated along the transition sequence ⁇ index '(l) ⁇ .
  • a spectral time series is created.
  • the created spectrum time series is converted into a time-domain waveform by IFFT section 206, and then, in ST 407, the inter-frame Signal superposition and addition are performed.
  • the superimposed and added signal is output as the final synthesized noise signal.
  • the background noise signal is represented by a statistical model. That is, the noise signal analyzer (transmitting device) generates statistical information (statistical model parameters) including the spectrum change of the noise signal spectrum using the noise signal, and generates the generated information. Transmitting to noise signal synthesizer (reception side device).
  • the noise signal synthesizer (reception side device) synthesizes a noise signal using the above information (statistical model parameters) transmitted from the noise signal analyzer (transmission side device).
  • the noise signal synthesizer uses statistical information including the spectrum change of the noise signal spectrum instead of the spectrum of the noise signal analyzed intermittently. Since the noise signal can be synthesized, it is possible to synthesize a noise signal with little perceptual deterioration.
  • the noise signal analyzer-synthesis apparatus having the configuration shown in FIGS. 2 and 3 and the noise signal analysis method'synthesis method shown in FIGS.
  • the statistical model of the spectrum S has been described as being prepared by preliminary learning as the spectrum model information. It is also possible to adopt a form in which learning is performed in advance or quantized by other spectral expression parameters such as LPC coefficients and transmitted to the combining side.
  • the statistical parameters of the spectrum continuation length (average Lav of L, standard deviation Ldv) and the statistical transition parameters between the spectral models S i are patterned in advance, and the appropriate It is also possible to select and transmit the input noise signal during a certain period and to combine based on it.
  • a speech coding apparatus is realized using the noise signal analysis apparatus described in Embodiment 1, and a speech decoding apparatus is realized using the noise signal synthesis apparatus described in Embodiment 1. The case will be described.
  • FIG. 6 is a block diagram showing a configuration of the speech encoding device according to the second embodiment of the present invention.
  • an input voice signal is input to a voiced Z silence determiner 501, a voice encoder 502, and a noise signal encoder 503.
  • the voiced Z silence determiner 501 determines whether the input audio signal is a voiced section or a silent section (a section including only noise) and outputs the determination result.
  • the sound / non-speech determiner 5001 may be an arbitrary one, and generally performs determination using the instantaneous amount or change amount of a plurality of parameters such as the input signal power, spectrum, and pitch cycle. It is.
  • the voice coder 502 When the result of the determination by the voiced / silence determiner 501 is voiced, the voice coder 502 performs voice coding on the input voice signal, and performs DTX control and multiplexing on the coded data. Output to the generator 504.
  • the speech encoder 502 is an encoder for a voiced section, and is an arbitrary encoder that encodes speech with high efficiency.
  • the noise signal encoder 503 encodes the input speech signal when the result of the determination by the voiced / silence determiner 501 is silent, and performs model parameter coding for the input noise signal. Output evening.
  • This noise signal encoder 503 is different from the noise signal analyzer described in Embodiment 1 (see FIG. 2) in that the output model parameter C is added with a configuration to output the encoded parameters over time.
  • the DTX control and multiplexer 504 should transmit as a transmission data using the outputs from the voiced / silence discriminator 501, the voice coder 502 and the noise signal coder 503. It controls information and multiplexes transmission information, and outputs transmission data.
  • FIG. 7 is a block diagram showing a configuration of the speech decoding device according to the second embodiment of the present invention.
  • the transmission data transmitted by the speech coding apparatus shown in FIG. 6 is input to the demultiplexing and DTX controller 61 as received data.
  • the separation and DTX controller 600 separates the received data into speech coded data or noise model coding parameters and a voiced Z silence determination flag required for voice decoding and noise generation.
  • the speech decoder 602 When the speech / non-speech determination flag indicates a speech section, the speech decoder 602 performs speech decoding using the speech coded data and outputs decoded speech.
  • the noise signal decoder 603 generates a noise signal using the noise model coding parameter when the speech / non-speech determination flag indicates a silence section, and outputs a noise signal.
  • This noise signal decoder 603 is different from the noise signal synthesizer (FIG. 2) described in the first embodiment in that the input model coding parameters are decoded in each of the model parameters. It is added.
  • the output switch 604 switches the output of the speech decoder 602 and the output of the noise signal decoder 603 in accordance with the result of the voice / non-voice flag, and outputs the output signal.
  • FIG. 8 is a flowchart showing an operation of the speech coding apparatus according to the second embodiment of the present invention.
  • an audio signal for each frame is input, and ST702 In, it is determined whether the input audio signal is a sound section or a silent section (a section including only noise), and the result of the determination is output.
  • the presence / absence determination of sound Z may be performed by an arbitrary method. Generally, the determination is performed using the instantaneous amount or change amount of a plurality of parameters such as the input signal power, spectrum, and pitch cycle.
  • This speech encoding process is a speech section encoding, and may be any method for encoding speech with high efficiency.
  • noise signal encoding is different from the noise signal analysis method described in the first embodiment in that a step of quantizing and encoding the output model parameters and outputting encoded parameter parameters is output. It is.
  • control of information to be transmitted as transmission data (DTX control) and multiplexing of transmission information using outputs from the voice / non-speech determination result, voice coding and noise signal coding. Is performed, and is output as transmission data in ST706.
  • FIG. 9 is a flowchart showing an operation of the speech decoding device according to the second embodiment of the present invention.
  • transmission data encoded with respect to an input signal on the encoding side is input as reception data.
  • the received data is separated into voice coded data or noise model coding parameters required for voice decoding and noise generation, and a voice / non-voice determination flag.
  • voice decoding is performed using the voice coded data in ST804, and a decoded voice is output.
  • the speech / non-speech determination flag indicates a silent section
  • a noise signal is generated in ST 805 by using the voice model encoding parameter, and the noise signal is generated. Signal is output.
  • This noise signal decoding process is different from the method of synthesizing the noise signal described in Embodiment 1 in that a step of decoding the input model coding parameters into each model parameter is added. .
  • the output of speech decoding in ST804 or the decoding of noise signal in ST805 is output as a decoded signal according to the result of the voice / non-speech determination flag.
  • speech encoding can be performed with high quality in speech sections in speech sections, and noise is reduced in silence sections using a noise signal analysis apparatus and a synthesis apparatus with little perceptual deterioration.
  • signal encoding and decoding By performing signal encoding and decoding, high-quality encoding can be performed even in a background noise environment. Since the statistical characteristics of the noise signal under actual ambient noise are assumed to be constant over a relatively long period (for example, several seconds to several tens of seconds), the transmission cycle of the model parameters over time is Since a long period of the order is sufficient, the amount of information on the model parameters of the noise signal to be transmitted to the decoding side can be reduced, and efficient transmission can be realized.
  • FIG. 10 is a block diagram illustrating a configuration of the noise signal analyzer according to the third embodiment of the present invention.
  • the windowing section 901 is adapted to generate an m-th frame (IFO, 1, 2,...) Input for each fixed section (hereinafter referred to as “frame”).
  • the FFT (Fast Fourier Transform) section 90 2 The input noise signal thus obtained is converted into a frequency spectrum, and an input amplitude spectrum X (m) of the m-th frame is calculated.
  • the spectral model parameter calculation 'quantization unit 903 converts the amplitude spectrum sequence ⁇ X (m) ⁇ (m-0 5 l 3 2 5 ...) Of the input noise signal into a section of a fixed number of frames. , Or an interval consisting of a number of frames adaptively determined by some index, is divided as a unit interval (modeling interval) for modeling, and calculation and quantization of spectral model parameters in the modeling interval are performed.
  • the spectrum model number sequence ⁇ index (m) ⁇ (l ⁇ index) corresponding to the amplitude spectrum sequence ⁇ X (m) ⁇ of the input noise signal (m) ⁇ M, m mk 3 mk + l, mk + 2 5 ..., mk + N ⁇ -1; mk is the first frame number of the modeling section, ⁇ is the number of frames in the modeling section) Is output.
  • Duration modelCalculation of transition probabilitiesQuantizer 904 calculates spectral model parameters overnightSpectral model number sequence of the modeled section obtained by quantizer 903 (index (m ) ⁇ , The statistical parameters for the number of continuation frames Li for each S i (the continuation length model parameters) (the average value Lav-i and the standard deviation Ldv-i of Li) and the difference between Si-Sj Calculate the transition probabilities p (i, j) 'Quantize and output their quantized indexes.
  • the quantization method is arbitrary, each element of Lav-i, Ldv_i, and P (i, j) may be scalar-quantized.
  • the above-described quantization indexes of the spectral model parameters, the continuation length model parameters, and the transition probability parameters are output as the statistical model parameter parameter quantization indexes of the input noise signal in the modeling section.
  • FIG. 11 is a block diagram illustrating a detailed configuration of the spectral model parameter calculation / quantization unit 903 of FIG. 10.
  • the power calculation unit 10 0 uses the power value calculated in 01, the power normalization unit 1002 normalizes the power. Then, the representative vector of the noise spectrum representative vector storage unit 1003 is classified into a class in the class setting unit 104 with respect to the input amplitude spectrum that has been normalized. It performs class evening (vector quantization) with the evening center, and outputs information on which class evening each input spectrum belongs to.
  • class evening vector quantization
  • This number sequence is generated as a number sequence belonging to the top M class evenings based on the sequence of the class evening (representative vector) numbers to which the clustering unit 104 belongs.
  • the number of the above M classes can be determined by any method (for example, re-classification of the previous frame or replacement with the class number of the previous frame).
  • the modeling section average power quantization unit 1006 calculates the power value for each frame calculated by the power calculation unit 1001, It averages over the entire modeling interval, performs quantization on the average power by an arbitrary method such as scalar quantization, and outputs the power index and the average power (quantization value) E of the modeling interval. Then, in the error spectrum 'power correction value quantizing unit 1 0 07, Sav_i is converted into the error vector di from the corresponding representative vector Ci, Ci and the modeled section average power E And the power correction value ei for E for each spectrum model, and di and ei are quantized by any method such as scalar quantization.
  • the M representative vector indexes obtained by the class-based average spectral calculation unit 1005 and the error spectrum obtained by the error spectrum and power correction value quantization unit 1007 are obtained.
  • the vector quantization index, the power correction value quantization index, and the power quantization index obtained by the model interval average power quantization unit 1 ⁇ 06 are output as the quantization index of the spectrum model parameters.
  • the standard deviation value in the class for Ci obtained at the time of learning the noise spectrum representative vector is used as it is. By storing this value in the noise spectrum representative vector storage unit in advance, it is unnecessary to output the quantization index.
  • the average spectral calculation unit 1005 for each class may also calculate the standard deviation within the class and calculate the average when calculating the average spectrum. In this case, the quantization index is output as a part of the quantization index of the spectrum model parameter.
  • FIG. 12 is a block diagram showing a configuration of the noise signal synthesizing device according to the third embodiment of the present invention. In the noise signal synthesizer shown in FIG.
  • transition sequence generator 1101 among the statistical model parameter overnight quantization indices obtained by the noise signal analyzer shown in FIG.
  • the transition probability p (i, j) is decoded using the quantization index of the transition probability p (i,), and the transition of the spectrum model S i becomes the given transition probability p (i, j).
  • Generate the vector model number transition sequence ⁇ index '(l) ⁇ (l ⁇ index' (l) ⁇ M 5 1 0,1,2,).
  • the average amplitude Sav-i and the standard deviation Sdv-i (i l,...), Which are the statistical parameters of the spectrum model S i, are obtained from the quantization index of the spectrum model parameters.
  • the decoding of the average amplitude Sav-i is performed by calculating the spectrum parameter of the encoder and calculating the quantization parameter obtained by the quantization unit 903.
  • Decoding is performed based on the equation (2) using the same noise vector and the representative vector in the noise spectrum representative vector storage unit provided on the encoding side provided in the spectrum model parameter decoding unit 1103.
  • the standard deviation Sdv-i if the encoding device uses the standard deviation value within the class for Ci obtained during the noise spectrum representative vector learning as it is, the corresponding value
  • the noise is decoded by obtaining it from the noise spectrum representative vector storage unit 1003.
  • S index ′ (1) is assumed to follow a normal distribution having an average amplitude Sav_i and a standard deviation Sdv ⁇ i with respect to i ⁇ index ′ (l).
  • Signal average value of Lav_i, standard deviation value Ldv-i
  • Ldv-i index '(l).
  • the spectrum generation unit 1105 generates the amplitude spectrum of the predetermined time length (two frame numbers NFRM in the modeled section) generated along the transition sequence ⁇ index '(l) ⁇ by the above method.
  • the spectrum time series is created by giving the random time phase generated by the random number phase generation unit 111 to the vector time series. Note that the spectrum generation unit 1105 may perform smoothing so that the spectrum changes smoothly with respect to the generated amplitude spectrum time series.
  • the IFFT (Inverse Fast Fourier Transform) unit 1106 converts the spectrum time series created by the spectrum generation unit 111 into time-domain waveforms.
  • the superposition / addition unit 1107 outputs a final synthesized noise signal by performing superposition / addition of signals between frames.
  • a windowing section 91 performs windowing of the input noise signal for the m-th frame (nF0, l, 2,...) With a Hanning window or the like.
  • the FFT unit 902 performs FFT (Fast Fourier Transform) on the windowed input noise signal and converts it into a frequency spectrum.
  • FFT Fast Fourier Transform
  • the input amplitude spectrum X (m) of the m-th frame is calculated.
  • the spectral model parameters are calculated and quantized by the quantizer 903, the amplitude spectrum sequence of the input noise signal ⁇ X (iii) ⁇ (m2 0, 1, 2, .. :) is a unit section (modeling section) for modeling a section of a fixed number of frames or a section consisting of the number of frames adaptively determined by some index.
  • the calculation and quantization of the spectral model parameters in the modeling section are performed, the quantization index of the spectral model parameters is output, and the amplitude spectrum sequence of the input noise signal is output.
  • the spectrum model number sequence corresponding to ⁇ X (m) ⁇ ⁇ index (m) ⁇ (1 ⁇ index (m) ⁇ M, m mk, mk + l, mk + 2, ..., mk + NFR -l; mk is the head frame number of the modeling section, and is the number of frames in the modeling section.
  • the continuation length model, transition probability calculation, and quantization section 904 quantize the spectral model number sequence (index ( m) ⁇ , the statistical parameters related to the number of continuous frames Li for each S i (continuous length model parameters) (mean Lav_i and standard deviation Ldv_i of Li) and the transition probability p between Si-Sj (i, j) is calculated and quantized, and their quantized indexes are output.
  • the quantization method is arbitrary, each element of Lav-i, Ldv_i, and P (i, j) may be scalar-quantized.
  • the above-mentioned quantization index of the spectral model parameter, the duration model parameter, and the transition probability parameter is a statistical model of the input noise signal in the modeling section. Output as parameter quantization index.
  • FIG. 14 is a flowchart showing the detailed operation of the spectrum model parameter calculation-quantization unit 903 in ST122 of FIG.
  • the spectral model parameters are calculated and quantized by the quantizer 903 in the representative interval of the input noise from the representative vector set of the amplitude spectrum representing the noise signal prepared in advance.
  • Classification is performed with the vector at the center of the class, and information on which class each input spectrum belongs to is output. Then, in ST 13 05, a class evening average spectrum calculating section 100 5 assigns a model to the belonging class evening (representative vector) number sequence obtained in the class evening section 104
  • This number sequence is generated as a number sequence belonging to the upper M class classes based on the sequence of the class class (representative vector) numbers to which the class classifying unit 1 ⁇ 04 belongs. In other words, for frames that do not belong to the top M classes, the above M classes can be used in any way (for example, by re-classifying the class again or replacing it with the class number of the previous frame).
  • the frame is associated with the evening number or the frame is deleted from the sequence.
  • the modeling section average power quantization section 1006 averages the per-frame power values calculated by the power calculation section 100 1 over the entire modeling section. , Any average such as scalar quantization
  • the quantization is performed by the method, and the power index and the modeled section average power (quantized value) E are output.
  • the error spectrum from the corresponding representative vector Ci, Ci, as shown in equation (2), is obtained by the error spectrum '
  • the di and ei are quantized by any method such as scalar quantization with respect to Sav-i represented by the modeled section average power E and the power correction value ei of E for each vector model.
  • di in the quantization of the error spectrum di, di may be divided into a plurality of bands, and the average value of each band may be subjected to scalar quantization for each band. Then, in ST 13 08, the M representative vector indexes obtained in ST 13 05, the error spectrum quantization index obtained in ST 13 07, and The ⁇ correction value quantization index and the power quantization index obtained in ST 13 06 are output as the quantization index of the spectrum model parameters.
  • the standard deviation Sdv-i of the spectrum model parameters is the same as the standard deviation value in the class for Ci obtained at the time of learning the noise spectrum representative vector. By storing this value in the noise spectrum representative vector storage unit in advance, it is unnecessary to output the quantization index.
  • the standard deviation within the class may be calculated and quantized when the average spectrum is calculated by the class evening average spectrum calculating unit 1005. In this case, the quantized index is output as a part of the quantized index of the spectral model parameters.
  • the quantization of the error spectrum is described by the scalar quantization for each band.
  • the quantization may be performed by another method such as the vector quantization of the entire band.
  • a configuration was described in which the power information was expressed by the average power of the modeling section and the correction value for the average power of each model. It may be possible to represent a party.
  • the operation of the noise signal synthesizing apparatus according to the present embodiment will be described with reference to FIG. First, in ST 1401, the data obtained by the noise signal analyzer were used. Each quantization index of the obtained statistical model parameters is input.
  • the spectral model parameter overnight decoding unit 1 103 obtains the statistical noise of the spectrum model S i from the quantization index of the spectral model parameter overnight.
  • the decoded values (the average value Lav_i of Li, the standard deviation value Ldv-i) from the quantization index of the statistical model parameters of the number of continuous frames Li for the spectral model S i are used.
  • I inde (1)
  • the continuous frame number L controlled to follow the normal distribution having the average value Lav_i and the standard deviation Ldv_i is generated by the continuous length control unit 1102.
  • a random number phase is generated by the random number phase generation unit 110 4.
  • the model number index ′ (l) obtained in ST 1403 and the spectrum obtained in ST 1402 by spectrum generating section 1105 are obtained.
  • the amplitude A vector time series ⁇ X '(n) ⁇ is generated.
  • the superposition adding unit 1107 in ST 1408 Overlapping addition of signals between frames is performed.
  • the signal obtained by the superposition and addition is output as the final synthesized noise signal.
  • the background noise signal is represented by a statistical model. That is, the noise signal analyzer (transmitting device) generates statistical information (statistical model parameters) including the spectrum change of the noise signal spectrum using the noise signal, and generates the generated information. Transmitting to noise signal synthesizer (reception side device). The noise signal synthesizer (reception side device) synthesizes a noise signal using the above information (statistical model parameters) transmitted from the noise signal analyzer (transmission side device). As a result, the noise signal synthesizer (reception side device) uses statistical information including the spectrum change of the noise signal spectrum instead of the spectrum of the noise signal analyzed intermittently.
  • the noise signal can be synthesized, it is possible to synthesize a noise signal with little perceptual deterioration.
  • the statistical characteristics of the noise signal under actual ambient noise are assumed to be constant over a relatively long period (for example, several seconds to several tens of seconds). Since a long period of time is sufficient, the amount of information of the noise signal to be transmitted to the decoding side in the model parameters can be reduced, and efficient transmission can be realized.
  • a speech coding device is realized using the noise signal analysis device described in Embodiment 3, and a speech decoding device is realized using the noise signal synthesis device described in Embodiment 3. The case will be described.
  • FIG. 16 is a block diagram showing a configuration of the speech coding apparatus according to the fourth embodiment of the present invention.
  • the input audio signal is 5 0 1
  • the speech encoder 1502 and the noise signal encoder 1503 are input.
  • the voice / non-voice determiner 15001 determines whether the input audio signal is a voice section or a silent section (a section including only noise), and outputs the determination result.
  • the sound / non-speech determiner 15001 may be an arbitrary device, and generally uses the instantaneous amount or change amount of a plurality of parameters such as the input signal power and the spectrum pitch period. This is to make a judgment.
  • the speech encoder 1502 When the speech / non-speech determinator 1501 determines that there is speech, the speech encoder 1502 performs speech encoding on the input speech signal, and performs DTX control and encoding on the encoded data. Output to multiplexer 1504.
  • the speech encoder 1502 is an encoder for a sound section, and is an arbitrary encoder that encodes speech with high efficiency.
  • the noise signal encoder 1503 encodes a noise signal for the input speech signal and performs a statistical model for the input noise signal when the result of the speech / silence discrimination unit 1501 is silent.
  • the quantized index of the parameter is output as encoded data.
  • the noise encoder 1503 the noise analysis device (FIG. 10) described in the third embodiment is used.
  • DTX control and multiplexer 1504 transmits as transmission data using output from voiced Z silencer 1501, speech encoder 1502 and noise signal encoder 1503 It controls the information to be transmitted and multiplexes the transmission information, and outputs the transmission data.
  • FIG. 17 is a block diagram showing a configuration of the speech decoding device according to the fourth embodiment of the present invention.
  • transmission data transmitted by the speech coding apparatus shown in FIG. 16 is input to the demultiplexing and DTX controller 1601 as received data.
  • the separation and DTX controller 1601 separates the received data into speech coded data necessary for speech decoding and noise generation, or noise model coding parameters, and a sound / no-speech determination flag.
  • the voice decoder 1602 receives the voice code ⁇ ! Speech decoding is performed using data decoding, and decoded speech is output.
  • the noise signal decoder 1603 generates a noise signal using the noise model coding parameter and outputs a noise signal.
  • the noise signal synthesizer FIG. 12
  • the output switch 164 switches the output of the speech decoder 162 and the output of the noise signal decoder 163 in accordance with the result of the voice / non-voice determination flag, and outputs the output.
  • FIG. 18 is a flowchart showing an operation of the speech coding apparatus according to the fourth embodiment of the present invention.
  • an audio signal for each frame is input in ST1771, and in ST1702, it is determined whether the input audio signal is a voiced section or a silent section (a section including only noise). The result is output.
  • This sound / non-speech determination may be performed by an arbitrary method. In general, the determination is performed using the instantaneous amount or change amount of a plurality of parameters such as the input signal power, spectrum, and pitch cycle.
  • This speech encoding process is a speech section encoding, and may be any method for encoding speech with high efficiency.
  • a noise signal is encoded for the input speech signal in ST 174, and a model parameter for the input noise signal is output.
  • the noise signal encoding the noise signal analysis method described in the third embodiment is used.
  • the voiced Z silence determination result, voice coding and noise signal Control of information to be transmitted as transmission data (DTX control) and multiplexing of transmission information are performed using the output from the signal encoding, and output as transmission data in ST1766.
  • FIG. 19 is a flowchart showing an operation of the speech decoding device according to the fourth embodiment of the present invention.
  • data encoded and transmitted with respect to an input signal on the encoding side is received as received data.
  • the received data is separated into speech encoded data necessary for speech decoding and noise generation, or noise model encoding parameters, and a voiced Z silence determination flag.
  • the speech / non-speech determination flag indicates a speech section
  • speech decoding is performed using the speech coded data in ST 184, and a decoded speech is output.
  • the voiced Z silence determination flag indicates a silence section
  • a noise signal is generated using the noise model coding parameter in ST 185, and the noise signal is generated. Is output.
  • the noise signal decoding process the method of synthesizing the noise signal described in the fourth embodiment is used.
  • the output of speech decoding at ST1804 or the decoding of noise signal decoding at ST1805 is output as a decoded signal according to the result of the voiced Z silence determination flag.
  • the output of the decoded signal is described as being output by switching between the decoded speech signal and the synthesized noise signal in the voiced section and the non-voice section.
  • the noise signal may be added to the decoded speech signal even in the sound period and output.
  • a means for separating an input speech signal containing a noise signal into a noise signal and a speech signal containing no noise on the speech encoding side is provided, and the data obtained by encoding the separated speech signal and the noise signal is used.
  • the noise signal synthesized in the silence section on the decoding side may be added to the decoded speech signal in the speech section as described above and output.
  • a speech signal is encoded with high quality in a sound section.
  • the coding and decoding of noise signals using noise signal analyzers and synthesizers that have less audible deterioration in silent sections can achieve high-quality coding even in background noise environments. I can do it. Since the statistical characteristics of the noise signal under actual ambient noise are assumed to be constant over a relatively long period (for example, several seconds to several tens of seconds), the transmission cycle of the model parameters over time is Since a long period of the order is sufficient, the amount of information on the model parameters of the noise signal to be transmitted to the decoding side can be reduced, and efficient transmission can be realized.
  • the processing performed by the noise signal analyzing device and the noise signal synthesizing device described in the first and third embodiments, and the processing performed by the voice coding device and the voice decoding device described in the second and fourth embodiments The processing is realized by software (program), and this software (program) can be stored in a recording medium that can be read by a computer.
  • this software program
  • this software can be stored in a recording medium that can be read by a computer.
  • the present invention relates to a noise signal analysis / synthesis apparatus for analyzing and synthesizing a background noise signal superimposed on an audio signal, and also relates to speech coding for encoding the audio signal using the analysis / synthesis apparatus. Suitable for the device.

Description

明 細 書 雑音信号分析装置、 雑音信号合成装置、 雑音信号分析方法および雑音信号合成 方法 技術分野
本発明は、 音声信号に重畳されている背景雑音信号の分析および合成を行う 雑音信号の分析 ·合成装置に関し、 また、 この分析 '合成装置を用いて音声信 号の符号化を行う音声符号化装置に関する。 背景技術
移動通信や音声蓄積の分野においては、 電波や記憶媒体の有効利用のために、 音声情報を圧縮して低いビットレ一トで符号化する音声符号化装置が用いら れている。 このような音声符号化装置における従来の技術として、 ITU-T勧告 の G .729 AnnexB ("A silence compression scheme for G.729 optimized for terminals conforming to Recommendation V.70") の D T X (Discontinuous Transmission)制御付きの CS— ACELP符号化方式がある。
図 1は、 従来の D T X制御付き C S— A C E L P符号化方式を採用した符号 化装置の構成を示すプロック図である。 図 1において、 入力音声信号は、 有音 /無音判定器 11、 CS— ACELP音声符号器 12および無音区間符号器 1 3に入力される。 まず、 有音 Z無音判定器 1 1において、 入力音声信号が有音 区間か無音区間 (背景雑音のみの区間) かの判定が行われる。
有音/無音判定器 11により有音と判定された場合には、 CS— ACELP 音声符号器 12では、 有音区間に対する音声符号化が行われる。有音区間の符 号化データは、 DTX制御および多重化器 14に出力される。
一方、 有音/無音判定器 11により無音と判定された場合には、 無音区間符 号器 13では、 無音区間に対する雑音信号の符号ィ匕が行われる。 この無音区間 符号器 1 3においては、 入力音声信号を用いて、 有音区間の符号化におけるも のと同様の L P C係数、 および、 入力音声信号の L P C予測残差エネルギーが 算出され、 これらが無音区間の符号化デ一夕として D T X制御および多重化器 1 4に出力される。 ただし、 無音区間の符号化データは、 入力信号の特性 (L P C係数やエネルギー) に所定の変化が検出された区間において間欠的に送信 されるものである。
D T X制御および多重化器 1 4では、 有音/無音判定器 1 1、 C S - A C E L P音声符号器 1 2および無音区間符号器 1 3の出力を用いて、送信データと して送信すべきデ一夕が、 制御および多重化された後、 送信データとして出力 される。
上記のような従来の音声符号化装置においては、 入力音声信号における有音 区間についてのみ、 C S— A C E L P音声符号器を用いて符号化を行い、 入力 音声信号における無音区間 (雑音のみの区間) については、 専用の無音区間符 号器を用いて音声符号器より少ないビット数でかつ間欠的に符号化を行うこ とにより、 伝送する信号の平均ビットレートを低減できる効果がある。 しかしながら、 上記従来の音声符号化方式においては、 以下に示すような要 因により、 送信側装置により符号化されたデータを受信する受信側装置では、 無音区間中の雑音信号に対する復号信号の品質が劣化するという問題がある。 すなわち、 まず第 1の要因として、 送信側装置における無音区間符号器(雑音 信号の分析 ·符号化部)が、音声符号器と同様な信号モデル(短区間(10〜50ms 程度) 毎に A R型の合成フィル夕 (L P C合成フィル夕) を雑音信号で駆動す ることで復号信号を生成する) により符号化を行っていることが挙げられる。 第 2の要因として、 受信側装置は、 送信側装置において入力雑音信号を間欠 的に分析することにより得られた符号化デ一夕を用いて、 雑音を合成 (生成) していることが挙げられる。
発明の開示
本発明の目的は、 背景雑音信号を聴感的に高い品質で合成できる雑音信号合 成装置を提供することである。
この目的は、 雑音信号を統計的モデルで表現することである。 具体的には、 ある統計的分布に従う振幅スぺクトル時系列で表され、 かつ、 その振幅スぺク トル時系列の継続時間長が別の統計的分布に従う複数の定常雑音モデルを用 いて、 その定常雑音モデル間を統計的に遷移するスペ トル系列として雑音信 号を表現する。
図面の簡単な説明
図 1は、従来の D T X制御付き C S— A C E L P符号化方式を採用した符号 化装置の構成を示すプロック図
図 2は、 本発明の実施の形態 1にかかる雑音信号分析装置の構成を示すプロ ック図、
図 3は、 本発明の実施の形態 1にかかる雑音信号合成装置の構成を示すプロ ヅク図、
図 4は、 本発明の実施の形態 1にかかる雑音信号分析装置の動作を示すフ口 一図、
図 5は、 本発明の実施の形態 1にかかる雑音信号合成装置の動作を示すフ口 一図、
図 6は、 本発明の実施の形態 2にかかる音声符号化装置の構成を示すプロッ ク図、
図 7は、 本発明の実施の形態 2にかかる音声復号装置の構成を示すプロック 図、
図 8は、 本発明の実施の形態 2にかかる音声符号化装置の動作を示すフロー 図、
図 9は、 本発明の実施の形態 2にかかる音声復号装置の動作を示すフロー図、 図 1 0は、 本発明の実施の形態 3にかかる雑音信号分析装置の構成を示すブ ロック図、
図 1 1は、 本発明の実施の形態 3にかかるスペクトルモデルパラメ一夕算 出 ·量子化部の構成を示すブロック図、
図 1 2は、 本発明の実施の形態 3にかかる雑音信号合成装置の構成を示すブ ロック図
図 1 3は、 本発明の実施の形態 3にかかる雑音信号分析装置の動作を示すフ 口一図、
図 1 4は、 本発明の実施の形態 3にかかるスぺクトルモデルパラメ一夕算 出 ·量子化部の動作を示すフロー図、
図 1 5は、 本発明の実施の形態 3にかかる雑音信号合成装置の動作を示すフ 口一図、
図 1 6は、 本発明の実施の形態 4にかかる音声符号化装置の構成を示すプロ ック図、
図 1 7は、 本発明の実施の形態 4にかかる音声復号装置の構成を示すブロッ ク図、
図 1 8は、 本発明の実施の形態 4にかかる音声符号化装置の動作を示すフロ —図、
図 1 9は、 本発明の実施の形態 4にかかる音声復号装置の動作を示すフロー 図である。 発明を実施するための最良の形態
以下、 本発明の実施の形態について、 図面を用いて説明する。
(実施の形態 1 )
本発明においては、 雑音信号を統計的なモデルで表現する。 すなわち、 ある 統計的分布に従う振幅スペクトル時系列で表され、 かつ、 その振幅スペクトル 時系列の継続時間長がある統計的分布に従う複数の定常雑音モデルを用いて、 その定常雑音モデル間を統計的に遷移するスぺクトル系列として雑音信号を より具体的には、 定常雑音スペクトルを、 スペクトルモデル数 Μ個の振幅ス ベクトル時系列 {Si(n)} (n=l,. . . ,Li, i二 1,. . . ,M)で表現する。 ここで、 Liは、 各々の振幅スぺクトル時系列 {Si(n)}の継続時間長 (ここでは、 フレ一 ム数を単位とする) を示す。 また、 { S i (n)}および Liは各々正規分布で表さ れる統計的分布に従うものとする。 そして、 そのスペクトル時系列モデル { S i (n)}間を遷移確率 p(i,j) ( i, =l, . . . ,Μ)で遷移するスペクトル系列とし て背景雑音を表現する。
図 2は、 本発明の実施の形態 1にかかる雑音信号分析装置の構成を示すプロ ック図である。 図 2に示す雑音信号分析装置において、 窓かけ部 1 0 1は、 一 定区間(以下「フレーム」という。)毎に入力された第 mフレーム(BF0, 1,2,. . . ) に対する入力雑音信号 x (j) (j=0,. . . ,N-1; N:分析長) に対して、 ハニン グ窓等による窓かけを行う。 F F T (高速フーリエ変換) 部 1 0 2は、 窓かけ がなされた入力雑音信号を周波数スぺクトルに変換して、 第 mフレームの入力 振幅スぺクトル X(m)を算出する。
スぺクトルモデル系列算出部 1 0 4は、 スぺクトルモデル言 3憶部 1 0 3に蓄 えられているスペクトルモデル S i ( i=l,. . . ,Μ)に関するモデル情報を用 いて、 入力雑音信号の振幅スペクトル系列 {X(m)} (m=0, l,2,. . . )に対応す るスペクトルモデル番号系列 {index(m)} (l≤index(m)≤M, DF0,1,2, . . . ) を算出する。 ここで、 スペクトルモデル S i (i=l,. . . ,Μ)に関するモデル 情報は、 S iの統計パラメ一夕である平均振幅 Sav— iおよび標準偏差 Sdv_iを 含むものである。 これらは、 予め学習により用意しておくことが可能である。 また、対応するスぺクトルモデル番号系列の算出は、入力振幅スぺクトル X(m) からの距離が最も小さい平均振幅 Sav— iを有するスぺクトルモデル S iの番号 iを求めることにより、 なされる。
継続長モデル ·遷移確率算出部 1 0 5は、 スぺクトルモデル系列算出部 1 0 4により得られたスペクトルモデル番号系列 {index(m)}を用いて、 S i各々に 対する継続フレーム数 Liに関する統計パラメ一夕 (Liの平均値 Lav— iおよび 標準偏差値 Ldv_i) および S i間の遷移確率 p( i,j)を算出し、 それらを入力雑 音信号に対するモデルパラメ一夕として出力する。 なお、 これらのモデルパラ メ一夕は、 ある一定期間毎あるいは任意の間隔で算出 '伝送される。
図 3は、 本発明の実施の形態 1にかかる雑音信号合成装置の構成を示すプロ ック図である。 図 3に示す雑音信号合成装置において、 遷移系列生成部 201 は、 図 2に示した雑音信号分析装置により得られたモデルパラメ一夕 (Liの平 均値 Lav— i, 標準偏差値 Ldv_iおよび S i間の遷移確率 p(i,j)) のうち S i間 の遷移確率 P(i,j)を用いて、スぺクトルモデル S iの遷移がその与えられた遷 移確率 p(i,j)となるようなスぺクトルモデル番号遷移系列 {index,(l)} (1≤ index'(l)≤M3 1=0,1,2,. . . ) を生起させる。
スぺクトル生成部 205は、 遷移系列生成部 201により得られたモデル番 号 index'(l)、 および、 スペクトルモデル記憶部 202に保持されているスぺ クトルモデル S i (i=l,. . . ,M)に関するモデル情報(S iの平均振幅 Sav_i および標準偏差 Sdv—i)を用いて、 次式で示される index'(l)に対する振幅スぺ クトル時系列 {X'(n)}を生成する。
{X'(n)} = {S index'(1)(n)}, n二 1,2,. . . ,L 一(1)
ここで、 S i uは、 i=index'(l)に対する平均振幅 Sav_i、 標準偏差 Sdv—i を有する正規分布に従うものとし、 また継続フレーム数 Lは、 継続長制御部 2 03において、 雑音信号分析装置から出力されたスぺクトルモデル S iに対す る継続フレーム数 Liの統計モデルパラメ一夕 (Liの平均値 Lav— i, 標準偏差 値 Ldv_i) を用いて、 i=index'(l)に対する平均値 Lav_i、 標準偏差 Ldv— iを有 する正規分布に従うように制御されたものである。
さらに、スぺクトル生成部 205は、上記の方法により、遷移系列 {index'(l)} に沿って生成した所定の時間長(フレーム数) の振幅スぺクトル時系列に対し て、 乱数位相生成部 204により生成された乱数位相を与えて、 スぺクトル時 系列を作成する。 なお、 スぺクトル生成部 205において、 生成された振幅ス ぺクトル時系列に対してスぺクトルが滑らかに変化するよう平滑化を行って もよい。 I F F T (逆高速フーリエ変換)部 2 0 6は、 スペクトル生成部 2 0 5によ り生成されたスぺクトル時系列を時間領域の波形に変換する。重ね合わせ加算 部 2 0 7は、 フレーム間の信号の重ね合わせ加算を行うことにより、 最終的な 合成雑音信号を出力する。
次いで、 上記構成を有する雑音信号分析装置および雑音信号合成装置の動作 について、 さらに図 4および図 5を参照して説明する。 図 4は、 本発明の実施 の形態 1にかかる雑音信号分析装置の動作を示すフロー図である。 図 5は、 本 発明の実施の形態 1にかかる雑音信号合成装置の動作を示すフロー図である。 まず、 本実施の形態にかかる雑音信号分析装置の動作について、 図 4を参照 して説明する。 まず、 工程 (以下「S T」 という。 ) 3 0 1において、 フレー ム毎の雑音信号 x(j) (j=0,. . . ,Ν-1; Ν:分析長) が、 窓かけ部 1 0 1に入 力される。 S T 3 0 2において、 第 mフレ一ム(IIF0,1,2,. . . )に対する入力 雑音信号に対してハニング窓等による窓かけが、 窓かけ部 1 0 1によりなされ る。 S T 3 0 3において、 窓かけがなされた入力雑音信号は、 F F T部 1 0 2 により、 F F T (高速フーリエ変換) がなされて、 周波数スペクトルに変換さ れる。 これにより、 第 mフレームの入力振幅スペクトル X n)が算出される。
S T 3 0 4において、 スペクトルモデル系列算出部 1 0 4により、 スぺクト ルモデル S i ( i=l,. . . ,M)に関するモデル情報を用いて、 入力雑音信号の 振幅スペクトル系列 {X(m)} (m=0, l,2,. . . )に対応するスペクトルモデル番 号系列 {index(m) } (l≤index(m)≤M5 IIF0,1,2, . . . ) が算出される。 ここで、 スペクトルモデル S i (i=l,. . . ,M)に関するモデル情報は、 S iの統計パラメ一夕である平均振幅 Sav— iおよび標準偏差 Sdv— iを含むもので ある。これらは、予め学習により用意しておくことが可能なものである。また、 対応するスぺクトルモデル番号系列の算出は、入力振幅スぺクトル X(m)からの 距離が最も小さい平均振幅 Sav— iを有するスぺクトルモデル S iの番号 iを求 めることにより、 なされる。 以上の S T 3 0 1〜S T 3 0 4の処理がフレーム 単位で行われる。 . S T 305では、 S T 304で得られたスぺク トルモデル番号系列 {index(m)}を用いて、 継続長モデル ·遷移確率算出部 105により、 S i各々 に対する継続フレーム数 Liに関する統計パラメ一夕 (Liの平均値 Lav— iおよ び標準偏差値 Ldv_i)および S i間の遷移確率 p(i,j)が算出される。 ST30 6において、 これらは、 入力雑音信号に対するモデルパラメ一夕として出力さ れる。 なお、 これらのモデルパラメ一夕は、 ある一定期間毎あるいは任意の間 隔で算出 ·伝送される。
本実施の形態にかかる雑音信号合成装置の動作について、 図 5を参照して説 明する。 まず、 ST401において、 雑音信号分析装置により得られたモデル パラメ一夕 (Liの平均値 Lav— i, 標準偏差値 Ldv_iおよび S i間の遷移確率 P(i, )) が、 遷移系列生成部 201および継続長制御部 203に入力される。
ST 402において、 入力されたモデルパラメ一夕のうち S i間の遷移確率 P(i,j)を用いて、 遷移系列生成部 201により、 スペクトルモデル S iの遷移 がその与えられた遷移確率 p(i,j)となるようなスぺクトルモデル番号遷移系 列 {index'(l)} (l≤index'(l)≤M, 1=0,1,2" . . ) が生起される。
次に、 ST403において、 入力されたモデルパラメ一夕のうちスペクトル モデル S iに対する継続フレーム数 Liの統計モデルパラメ一夕 (Liの平均値 Lav_i,標準偏差値 Ldv_i)を用いて、 i二 index'(l)に対して平均値 Lav_i、標準 偏差 Ldv— iを有する正規分布に従うように制御された継続フレーム数 Lが、 継 続長制御部 203により生成される。 また、 S T 404において、 乱数位相生 成部 204により乱数位相が生成される。
S T 405において、 S T 402で得られたモデル番号 index,(l)および予 め用意されているスペクトルモデル S i (i=l,. . . ,M)に関するモデル情報 (S iの平均振幅 Sav— iおよび標準偏差 Sdv— i) を用いて、 スぺクトル生成部 205により、(1)式で示した index,(l)に対する振幅スぺクトル時系列 (n)} が生成される。 なお、 生成された振幅スぺクトル時系列に対してスぺクトルが 滑らかに変化するよう平滑化を行っても良い。 ここで、 S index'(uは、 i=index'(l)に対する平均振幅 Sav— i、 標準偏差 Sdv— i を有する正規分布に従うものとし、 継続フレーム数 Lは、 S T 4 0 4において 生成されたものである。
さらに、 遷移系列 {index'( l)}に沿って生成した所定の時間長 (フレーム数) の振幅スぺクトル時系列に対して、 S T 4 0 4により生成された乱数位相が与 えられて、 スペクトル時系列が作成される。
S T 4 0 6において、 作成されたスぺクトル時系列は、 I F F T部 2 0 6に より時間領域の波形に変換された後、 S T 4 0 7において、 重ね合わせ加算部 2 0 7によりフレーム間の信号の重ね合わせ加算が行われる。 S T 4 0 8にお いて、 重ね合わせ加算された信号が最終的な合成雑音信号として出力される。 このように、 本実施の形態においては、 背景雑音信号を統計的モデルで表現 している。 すなわち、 雑音信号分析装置 (送信側装置) において、 雑音信号を 用いて、 雑音信号スぺクトルのスぺクトル変化を含めた統計的情報(統計モデ ルパラメ一夕) を生成し、 生成した情報を雑音信号合成装置 (受信側装置) に 送信している。 また、 雑音信号合成装置 (受信側装置) においては、 雑音信号 分析装置 (送信側装置) から送信された上記情報 (統計モデルパラメ一夕) を 用いて、 雑音信号を合成している。 これにより、 雑音信号合成装置 (受信側装 置) においては、 間欠的に分析された雑音信号のスペクトルではなく、 雑音信 号スぺクトルのスぺクトル変化を含めた統計的情報を用いて、 雑音信号を合成 することができるので、 聴感的に劣化の少ない雑音信号を合成することができ る。
なお、 本実施の形態では、 図 2および図 3に示す構成の雑音信号分析装置 - 合成装置、および図 4および図 5に示す雑音信号分析方法'合成方法を用いて、 上記に示した内容で説明したが、 本発明の主旨に逸脱することなく別の実現手 段にて実現することも可能である。 たとえば、 上記実施の形態では、 スぺクト ルモデル情報として、 スペクトル Sの統計モデル (Sの平均と標準偏差) は予 め学習により用意したものとして説明したが、 入力雑音信号に対して実時間的 に学習する、 または L P C係数等別のスぺクトル表現パラメ一夕で量子化して 合成側に伝送する形態にすることもできる。 また、 スペクトル継続長の統計パ ラメ一夕 (Lの平均 Lav,標準偏差 Ldv)やスぺクトルモデル S i間の統計遷移 パラメ一夕を予めパターン化しておき、 その中から適切なものを、 ある一定期 間中の入力雑音信号に対して選択して伝送し、 それに基づき合成することも可 能である。
(実施の形態 2 )
本実施の形態では、 実施の形態 1で説明した雑音信号分析装置を用いて音声 符号化装置を実現し、 また、 実施の形態 1で説明した雑音信号合成装置を用い て音声復号装置を実現する場合について説明する。
まず、 本実施の形態にかかる音声符号化装置について、 図 6を参照して説明 する。 図 6は、 本発明の実施の形態 2にかかる音声符号化装置の構成を示すブ ロック図である。 図 6において、 入力音声信号は、 有音 Z無音判定器 5 0 1、 音声符号器 5 0 2および雑音信号符号器 5 0 3に入力される。
有音 Z無音判定器 5 0 1は、 入力音声信号に対して有音区間か無音区間 (雑 音のみの区間) かを判定しその判定結果を出力する。 有音/無音判定器 5 0 1 は、 任意のものでよく、 一般には、 入力信号のパヮ、 スペクトルやピヅチ周期 などの複数のパラメ一夕の瞬時量または変化量等を用いて判定を行うもので ある。
音声符号器 5 0 2は、 有音 無音判定器 5 0 1による判定結果が有音である 場合に、 入力音声信号に対して音声符号化を行いその符号化デ一夕を、 D T X 制御および多重化器 5 0 4に出力する。 この音声符号器 5 0 2は、 有音区間用 の符号器であり、 音声を高能率に符号化する任意の符号器である。
雑音信号符号器 5 0 3は、 有音/無音判定器 5 0 1による判定結果が無音で ある場合に、 入力音声信号に対して雑音信号の符号化を行い入力雑音信号に対 するモデルパラメ一夕を出力する。 この雑音信号符号器 5 0 3は、 実施の形態 1で説明した雑音信号分析装置 (図 2参照) に対して、 出力モデルパラメ一夕 を量子化 ·符号化した符号化パラメ一夕を出力する構成を付加したものである c
D T X制御および多重化器 5 0 4は、 有音/無音判定器 5 0 1、 音声符号器 5 0 2および雑音信号符号器 5 0 3からの出力を用いて送信デ一夕として送 信すべき情報の制御と送信情報の多重化を行い、 送信デ一夕を出力する。 次に、 本発明の実施の形態 2にかかる音声復号装置について、 図 7を参照し て説明する。 図 7は、 本発明の実施の形態 2にかかる音声復号装置の構成を示 すブロック図である。 図 7において、 図 6に示した音声符号化装置により送信 された送信データは、 受信データとして分離および D T X制御器 6 0 1に入力 される。
分離および D T X制御器 6 0 1は、 受信データを、 音声復号および雑音生成 に必要な、 音声符号化データまたは雑音モデル符号化パラメ一夕および有音 Z 無音判定フラグに分離する。
音声復号器 6 0 2は、 前記有音/無音判定フラグが有音区間を示す場合に、 前記音声符号化デ一夕を用いて音声復号を行い復号音声を出力する。雑音信号 復号器 6 0 3は、 前記有音/無音判定フラグが無音区間を示す場合に、 前記雑 音モデル符号化パラメ一夕を用いて雑音信号の生成を行い、雑音信号を出力す る。 この雑音信号復号器 6 0 3は、 実施の形態 1で説明した雑音信号合成装置 (図 2 ) に対して、 入力されたモデル符号化パラメ一夕を各々のモデルパラメ —夕に復号する構成を付加したものである。
出力切り替え器 6 0 4は、 音声復号器 6 0 2の出力と雑音信号復号器 6 0 3 の出力を、 有音/無音判定フラグの結果に応じて切り替えて出力し、 出力信号 とする。
次に、 上記構成を有する音声符号化装置および音声復号装置の動作について 説明する。 まず、 音声符号化装置の動作について、 図 8を参照して説明する。 図 8は、 本発明の実施の形態 2にかかる音声符号化装置の動作を示すフロー図 である。
まず、 S T 7 0 1において、 フレーム毎の音声信号が入力され、 S T 7 0 2 において、 入力音声信号に対して有音区間か無音区間 (雑音のみの区間) かが 判定されその判定結果が出力される。 この有音 Z無音判定は任意の方法でよく、 一般には、 入力信号のパヮ、 スペクトルやピッチ周期などの複数のパラメ一夕 の瞬時量または変化量等を用いて判定が行われる。
S T 7 0 2における有音 Z無音判定結果が有音である場合には、 S T 7 0 3 において入力音声信号に対する音声符号化が行われ、 その符号化デ一夕が出力 される。 この音声符号化処理は有音区間用の符号化で、 音声を高能率に符号化 する任意の方法でよい。
一方、前記有音/無音判定結果が無音である場合には、 S T 7 0 4において、 入力音声信号に対する雑音信号の符号化が行われ、 入力雑音信号に対するモデ ルパラメ一夕が出力される。 この雑音信号符号化は、 実施の形態 1にて説明し た雑音信号の分析方法に対して、 出力モデルパラメ一夕を量子化 ·符号化した 符号化パラメ一夕を出力する工程を追加したものである。
S T 7 0 5において、 前記有音/無音判定結果、 音声符号化および雑音信号 符号化からの出力を用いて送信デ一夕として送信すべき情報の制御(D T X制 御) と送信情報の多重化が行われ、 S T 7 0 6において送信データとして出力 される。
次に、 音声復号装置の動作について、 図 9を参照して説明する。 図 9は、 本 発明の実施の形態 2にかかる音声復号装置の動作を示すフロー図である。 まず、 S T 8 0 1において、 符号化側で入力信号に対して符号化された送信 データが受信データとして入力される。 S T 8 0 2において、 受信デ一夕は、 音声復号および雑音生成に必要な、 音声符号化データまたは雑音モデル符号化 パラメ一夕および有音/無音判定フラグに分離される。
前記有音/無音判定フラグが有音区間を示す場合には、 S T 8 0 4において 前記音声符号化データを用いて音声復号が行われ、 復号音声が出力される。一 方、 前記有音/無音判定フラグが無音区間を示す場合には、 S T 8 0 5におい て前記維音モデル符号化パラメ一夕を用いて雑音信号の生成が行われ、 雑音信 号が出力される。 この雑音信号復号処理は、 実施の形態 1で説明した雑音信号 の合成方法に対して、 入力されたモデル符号化パラメ一夕を各々のモデルパラ メ一夕に復号する工程を追加したものである。
S T 8 0 6において、 有音/無音判定フラグの結果に応じて S T 8 0 4にお ける音声復号または S T 8 0 5における雑音信号復号の出力が、復号信号とし て出力される。
このように、 本実施の形態によれば、 有音区間では音声信号を高品質で符号 化できる音声符号化で、 無音区間では聴感的に劣化が少ない雑音信号分析装置 および合成装置を用いて雑音信号の符号ィヒおよび復号を行うことにより、 背景 雑音環境下においても高品質な符号化を行える。 また、 実際の周囲騒音下での 雑音信号の統計的な特性は比較的長期間 (例えば数秒〜十数秒) に渡り一定で あることが想定されることから、 モデルパラメ一夕の伝送周期もその程度の長 期間周期で良いため、 復号側に伝送すべき雑音信号のモデルパラメ一夕の情報 量は少なくて済み、 効率的な伝送を実現することができる。
(実施の形態 3 )
図 1 0は、 本発明の実施の形態 3にかかる雑音信号分析装置の構成を示すブ ロック図である。
本実施の形態においても、 実施の形態 1と同様、 定常雑音スペクトルをある 継続時間長 (フレーム数) Liからなる M個の振幅スペクトル時系列 { S i (n) } (n=l,. . . , Li, i=l,. . . ,M)で表現 ({ S i (η) }および Li は各々正規分布 に従うものとする) し、 そのスペクトル時系列モデル { S i (n) }間を遷移確率 p( i, j) ( i,j=l,. . . ,Μ)で遷移するスペクトル系列として背景雑音を表現す る。
図 1 0に示す雑音信号分析装置において、 窓かけ部 9 0 1は、 一定区間 (以 下 「フレーム」 という。 ) 毎に入力された第 mフレーム(IFO , 1, 2,. . . )に対 する入力雑音信号 x(j) (j=05 . . . 3N-1 ; N:分析長) に対して、 ハニング窓 等による窓かけを行う。 F F T (高速フーリエ変換)部 9 0 2は、 窓かけがな された入力雑音信号を周波数スぺクトルに変換して、 第 mフレームの入力振幅 スぺクトル X(m)を算出する。スぺクトルモデルパラメ一夕算出'量子化部 9 0 3は、 入力雑音信号の振幅スペクトル系列 {X(m)} (m-05 l325 . . . ) を一定フ レーム数の区間、 または何らかの指標により適応的に定められたフレーム数か らなる区間を、 モデル化を行う単位区間 (モデル化区間) として区切り、 その モデル化区間におけるスペクトルモデルパラメ一夕の算出および量子化を行 い、 スペクトルモデルパラメ一夕の量子化インデクスを出力すると共に、 入力 雑音信号の振幅スぺクトル系列 {X(m) }に対応するスぺクトルモデル番号系列 {index(m) } (l≤index(m)≤M, m=mk3mk+l,mk+25 . . . ,mk+N丽- 1; mkは当 該モデル化区間の先頭フレーム番号、 ΝΙΈΜはモデル化区間のフレーム数)を出 力する。 ここで、 スペクトルモデルパラメ一夕とは、 スペクトルモデル S i ( i=l,. . . ,M)の統計パラメ一夕である平均振幅 Sav— iおよび標準偏差 Sdv— i を含むものである。 このスぺクトルモデルパラメ一夕算出 ·量子化部 9 0 3の 構成については、 図 1 1により詳細に説明する。
継続長モデル ·遷移確率算出 ·量子化部 9 0 4は、 スぺクトルモデルパラメ 一夕算出 ·量子化部 9 0 3により得られたモデル化区間のスぺクトルモデル番 号系列 {index(m) }を用いて、 S i各々に対する継続フレーム数 Li に関する統 計パラメ一夕 (継続長モデルパラメ一夕) (Liの平均値 Lav— iおよび標準偏差 値 Ldv— i) および Si- Sj間の遷移確率 p( i, j)を算出 '量子化し、 それらの量子 化インデクスを出力する。 量子化方法は任意であるが、 Lav— i、 Ldv_i、 および P( i, j )の各要素を各々スカラ量子化してもよい。
以上の、 スペクトルモデルパラメ一夕、 継続長モデルパラメ一夕および遷移 確率パラメ一夕の量子化ィンデクスを、 モデル化区間の入力雑音信号の統計モ デルパラメ一夕量子化ィンデクスとして出力する。
図 1 1は、 図 1 0のスペクトルモデルパラメ一夕算出 '量子化部 9 0 3の詳 細構成を示すブロック図である。本実施例におけるスぺクトルモデルパラメ一 夕算出 ·量子化部 9 0 3は、 予め用意した雑音信号を表す振幅スぺクトルの代 表べクトル集合の中から、 入力雑音のモデル化区間における入力振幅スぺクト ル時系列を表すのに適切な代表べクトルをモデル数 (=M) 個選択し、 それを ベースにスぺクトルモデルパラメ一夕を算出 ·量子化する。
まず、 モデル化区間内のフレーム単位の入力振幅スペク トル X(m) (m=mk3mk+l,mk+23 . . . ,mk+NFRM- 1)に対して、 パヮ算出部 1 0 0 1で算出さ れたパヮ値を用いて、 パヮ正規化部 1 0 0 2でパヮの正規化を行う。 そして、 そのパヮ正規化された入力振幅スぺクトルに対して、 クラス夕化部 1 0 0 4に おいて、雑音スぺクトル代表べクトル記憶部 1 0 0 3の各代表べクトルをクラ ス夕中心とするクラス夕化 (べクトル量子化) を行い、 各入カスペクトルがど のクラス夕に所属するかの情報を出力する。 ここで、 雑音スペクトル代表べク トル記憶部 1 0 0 3には、代表的な雑音信号の振幅スぺクトルを代表べクトル として予め学習により作成し、 記憶しているもので、 代表ベクトルの数は雑音 モデル数 (M)以上とする。 そして、 クラス夕別平均スぺクトル算出部 1 0 0 5 において、クラス夕化部 1 0 0 4で得られた所属するクラス夕(代表べクトル) 番号の系列に対して、 モデル化区間で所属頻度の高い上位 M個のクラス夕 (対 応する代表べクトルを Ci(i=l,2, ...,M)とする)を選択し、 その各クラス夕に所 属する入力雑音振幅スぺクトルの平均スぺクトルをクラスタ毎に算出し、 それ らをスぺクトルモデルの平均振幅スぺクトル Sav_i( i=l,2,...,M)とする。また、 入力雑音信号の振幅スぺクトル系列 {X(m)}に対するスぺクトルモデル番号系 列 {index(m) } (1≤ index(m)≤M3 nFmk,mk+l 5 mk+2, . . . 3mk+NFRM-l) をあわ せて出力する。 この番号系列は、 クラスタ化部 1 0 0 4で得られた所属するク ラス夕 (代表ベクトル)番号の系列をべ一スに, 上位 M個のクラス夕に属す番 号系列として生成する。 すなわち、 上位 M個のクラス夕に属さないフレームに 対しては、 任意の方法 (例えば、 再度のクラス夕化や前フレームのクラス夕番 号に置換するなど) で上記 M個のクラス夕の番号に対応付けるか、 またはその フレームは系列から削除するなどを行う。 次に、 モデル化区間平均パヮ量子化 部 1 0 0 6において、 パヮ算出部 1 0 0 1で算出されたフレーム毎のパヮ値を、 モデル化区間全体で平均し、 その平均パヮに対してスカラ量子化など任意の方 法で量子化を行い、パワインデクスおよびモデル化区間平均パヮ値(量子化値) Eを出力する。 そして、 誤差スペクトル 'パヮ補正値量子化部 1 0 0 7におい て、 Sav_iを(2)式のように、 対応する代表ベクトル Ci, Ciからの誤差スぺク トル di,モデル化区間平均パヮ Eおよび各スぺクトルモデル別の Eに対するパ ヮ補正値 eiで表し、 di, eiをスカラ量子化等任意の方法で量子化する。
Sav_i = sqrt(E) -ei - (Ci+di ) ( i=l, ... ,M) - (2) ここで、 誤差スペクトル diの量子化は、 diを複数の帯域に分割し、 帯域毎 に各帯域の平均値のスカラ量子化を行う構成としてもよい。 以上、 クラス夕別 平均スぺクトル算出部 1 0 0 5で得られた M個の代表べクトルインデクス、 誤 差スぺクトル ·パヮ補正値量子化部 1 0 0 7で得られた、 誤差スぺクトル量子 化ィンデクスおよびパヮ補正値量子化ィンデクス、 モデル区間平均パヮ量子化 部 1◦ 0 6で得られたパヮ量子化インデクスを、 スぺクトルモデルパラメ一夕 の量子化ィンデクスとして出力する。
なお、 スぺクトルモデルパラメ一夕のうち標準偏差 Sdv—iは、 雑音スぺクト ル代表ベクトル学習時に得られる Ci に対するクラス夕内標準偏差値をそのま ま使用する。 この値に関しては雑音スぺクトル代表べクトル記憶部に予め記憶 させておくことで、 量子化インデクスの出力は不要である。 また、 クラス夕別 平均スぺクトル算出部 1 0 0 5で、 平均スぺクトル算出時に、 クラス夕内の標 準偏差も算出し、 その量子化を行ってもよい。 この場合は、 その量子化インデ クスをスぺクトルモデルパラメ一夕の量子化ィンデクスの一部として出力す る。
なお、 上記実施の形態では、 誤差スペクトルの量子化を帯域別のスカラ量子 化により説明したが、 全帯域のぺクトル量子化等他の方法で量子化することも 可能である。 また、 パヮ情報をモデル化区間の平均パヮとモデル別の平均パヮ に対する補正値により表現した構成を説明したが、 モデル別のパヮのみでの表 現や、 モデル化区間の平均パヮで全モデルのパヮを代表するようにしてもよい。 次に、 図 12は、 本発明の実施の形態 3にかかる雑音信号合成装置の構成を 示すプロック図である。 図 12に示す雑音信号合成装置において、 まず遷移系 列生成部 1 101にて、 図 10に示した雑音信号分析装置により得られた統計 モデルパラメ一夕量子化ィンデクスのうち、 Si-Sj間の遷移確率 p(i, の量子 化インデクスを用いて遷移確率 p(i,j)を復号し、スぺクトルモデル S iの遷移 が与えられた遷移確率 p(i,j)となるようなスぺクトルモデル番号遷移系列 {index'(l)} (l≤index'(l)≤M5 1=0,1,2,. . · ) を生起させる。 次に、 スぺ クトルモデルパラメ一夕復号部 1 103においてスぺクトルモデルパラメ一 夕の量子化ィンデクスからスぺクトルモデル S iの統計パラメ一夕である平 均振幅 Sav— iおよび標準偏差 Sdv— i(i=l,. . . ,Μ)を復号する。 ここで、 平均 振幅 Sav—iの復号は、 符号化装置のスぺクトルパラメ一夕算出 ·量子化部 90 3で得られた量子化インデクスおよび、 スぺクトルモデルパラメ一夕復号部 1 103内に備えられた符号化側と同一の雑音スぺクトル代表べクトル記憶部 内の代表ベクトルを用い、 (2)式に基き復号する。 また、 標準偏差 Sdv—i に関 しては、 符号化装置にて雑音スぺクトル代表べクトル学習時に得られる Ci に 対するクラス夕内標準偏差値をそのまま使用した場合には、 該当する値を雑音 スぺクトル代表べクトル記憶部 1003から得ることで復号する。 そして、 ス ぺクトル生成部 1105は、 遷移系列生成部 1101により得られたモデル番 号 index'(l)、 および、 スぺクトルモデルパラメ一夕復号部 1103で得られ たスペクトルモデル S i (i=l3. . . ,Μ)に関するモデル情報 (S iの平均振 幅 Sav_iおよび標準偏差 Sdv_i) を用いて、次式で示される index'(l)に対する 振幅スぺクトル時系列 {X'(n)}を生成する。
{X'(n)} ={S index'(1)(n)}, n=l,2" . . ,1 -(3)
ここで、 S index'(1)は、 i二 index'(l)に対する平均振幅 Sav_i、 標準偏差 Sdv— i を有する正規分布に従うものとし、 また継続フレーム数 Lは、 継続長制御部 1 102において、 雑音信号分析装置から出力されたスぺクトルモデル S iに対 する継続フレーム数 Liの統計モデルパラメ一夕の量子化インデクスからの復 号値 (Liの平均値 Lav_i, 標準偏差値 Ldv— i) を用いて、 i=index'(l)に対する 平均値 Lav_i、 標準偏差 Ldv— iを有する正規分布に従うように制御されたもの である。
さらに、 スぺクトル生成部 1 1 0 5は、 上記の方法により、 遷移系列 {index'(l)}に沿って生成した所定の時間長(二当該モデル化区間のフレーム数 NFRM) の振幅スぺクトル時系列に対して、 乱数位相生成部 1 1 0 4により生成 された乱数位相を与えて、 スペクトル時系列を作成する。 なお、 スペクトル生 成部 1 1 0 5において、 生成された振幅スぺクトル時系列に対してスぺクトル が滑らかに変化するよう平滑化を行つてもよい。
I F F T (逆高速フーリエ変換) 部 1 1 0 6は、 スぺクトル生成部 1 1 0 5 により作成されたスぺクトル時系列を時間領域の波形に変換する。重ね合わせ 加算部 1 1 0 7は、 フレーム間の信号の重ね合わせ加算を行うことにより、 最 終的な合成雑音信号を出力する。
次いで、 上記構成を有する雑音信号分析装置および雑音信号合成装置の動作 について、 さらに図 1 3〜図 1 5を参照して説明する。
まず、 本実施の形態にかかる雑音信号分析装置の動作について、 図 1 3を参 照して説明する。 まず、 工程 (以下「S T」 という。 ) 1 2 0 1において、 フ レーム毎の雑音信号 x(j) (j=05 . . . ,N- 1; N:分析長) が、 窓かけ部 9 0 1 に入力される。 S T 1 2 0 2において、 第 mフレーム(nF0, l,2, . . . )に対す る入力雑音信号に対してハニング窓等による窓かけが、 窓かけ部 9 0 1により なされる。 次に、 S T 1 2 0 3において、 窓かけがなされた入力雑音信号に対 して、 F F T部 9 0 2により F F T (高速フーリエ変換) がなされて周波数ス ぺクトルに変換される。 これにより第 m フレームの入力振幅スぺクトル X(m) が算出される。 S T 1 2 0 4において、 スペクトルモデルパラメ一夕算出 -量 子化部 9 0 3 によ り、 入力雑音信号の振幅スぺク トル系列 {X(iii)} (m二 0, 1, 2, . . . :)を一定フレーム数の区間、 または何らかの指標により適応的 に定められたフレーム数からなる区間をモデル化を行う単位区間(モデル化区 間) として区切り、 そのモデル化区間におけるスペクトルモデルパラメ一夕の 算出および量子化が行われ、 スぺクトルモデルパラメ一夕の量子化インデクス が出力されると共に、 入力雑音信号の振幅スぺクトル系列 {X(m)}に対応するス ぺク ト ルモデル番号系列 {index(m) } ( 1 ≤ index(m) ≤ M, m= mk,mk+l,mk+2, . . . ,mk+NFR -l; mkは当該モデル化区間の先頭フレーム番号、 はモデル化区間のフレーム数)が出力される。 ここで、 スペクトルモデル パラメ一夕とは、 スペクトルモデル S i ( i=l5 . . . ,Μ)の統計パラメ一夕で ある平均振幅 Sav— iおよび標準偏差 Sdv— iを含むものである。 この S T 1 2 0 4におけるスぺクトルモデルパラメ一夕算出 '量子化部 9 0 3の動作について は、 図 1 4により詳細に説明する。
次に、 S T 1 2 0 5において、 継続長モデル ·遷移確率算出 ·量子化部 9 0 4により、 S T 1 2 0 4にて得られたモデル化区間のスぺクトルモデル番号系 列 {index(m)}を用いて、 S i各々に対する継続フレーム数 Li に関する統計パ ラメ一夕 (継続長モデルパラメ一夕) (Li の平均値 Lav_iおよび標準偏差値 Ldv_i) および Si-Sj間の遷移確率 p( i, j)が算出 ·量子化され、 それらの量子 化インデクスが出力される。 量子化方法は任意であるが、 Lav— i、 Ldv_i およ び P( i, j)の各要素を各々スカラ量子化してもよい。
そして、 S T 1 2 0 6において、 以上の、 スぺクトルモデルパラメ一夕、 継 続長モデルパラメ一夕および遷移確率パラメ一夕の量子化ィンデクスが、 モデ ル化区間の入力雑音信号の統計モデルパラメ一夕量子化ィンデクスとして出 力される。
図 1 4は、 図 1 3の S T 1 2 0 4におけるスぺクトルモデルパラメ一夕算 出 -量子化部 9 0 3の詳細動作を示すフロー図である。 本実施例におけるスぺ クトルモデルパラメ一夕算出 ·量子化部 9 0 3は、 予め用意した雑音信号を表 す振幅スぺクトルの代表べクトル集合の中から、 入力雑音のモデル化区間にお ける入力振幅スぺクトル時系列を表すのに適切な代表べクトルをモデル数 (= M)個選択し、 それをベースにスぺクトルモデルパラメ一夕を算出 ·量子化す る。
まず、 S T 1 3 0 1において、 モデル化区間内のフレーム単位の入力振幅ス ベクトル X(m) (m= mk,mk+l,mk+2,. . . ,mk+NF - 1)が入力される。 そして、 S T 1 3 0 2において、 入力振幅スぺクトルに対して、 パヮ算出部 1 0 0 1に より当該フレームのパヮが算出され、 S T 1 3 0 3において、 パヮ算出部 1 0 0 1で算出されたパヮ値を用いて、 パヮ正規ィ匕部 1 0 0 2によりパヮの正規ィ匕 が行われる。 次に、 S T 1 3 0 4において、 そのパヮ正規化された入力振幅ス ぺクトルに対して、 クラス夕化部 1 0 0 4により、 雑音スペクトル代表べクト ル記憶部 1 0 0 3の各代表べクトルをクラス夕中心とするクラス夕化 (ぺクト ル量子化) が行われ、 各入力スペクトルがどのクラス夕に所属するかの情報が 出力される。 そして、 S T 1 3 0 5において、 クラス夕別平均スペクトル算出 部 1 0 0 5により、 クラス夕化部 1 0 0 4で得られた所属するクラス夕 (代表 ベクトル)番号の系列に対して、 モデル化区間で所属頻度の高い上位 M個のク ラス夕 (対応する代表ベクトルを Ci(i=l,2,...,M)とする)が選択される。その 各クラス夕に所属する入力雑音振幅スぺクトルの平均スぺクトルがクラス夕 毎に算出され、 それらをスぺク トルモデルの平均振幅スぺク トル Sav— i( i=l,2, ...,M)とする。 また、 入力雑音信号の振幅スペクトル系列 {X(m)} に対するスペク トルモデル番号系列 {index(m)} ( 1≤ index(m)≤ M, m= mk,mk+l,mk+25 . . . 3mk+NFRM-l) があわせて出力される。 この番号系列は、 クラス夕化部 1◦ 0 4で得られた所属するクラス夕 (代表ベクトル) 番号の系 列をベースに、 上位 M個のクラス夕に属する番号系列として生成される。 すな わち、 上位 M個のクラス夕に属さないフレームに対しては、 任意の方法 (例え ば、 再度のクラス夕化や前フレームのクラス夕番号に置換するなど) で上記 M 個のクラス夕の番号に対応付けるか、 またはそのフレームは系列から削除する などが行われる。 次に、 S T 1 3 0 6において、 モデル化区間平均パヮ量子ィ匕 部 1 0 0 6により、 パヮ算出部 1 0 0 1で算出されたフレーム毎のパヮ値が、 モデル化区間全体で平均され、 その平均パヮに対してスカラ量子化など任意の 方法で量子化が行われ、 パワインデクスおよびモデル化区間平均パヮ値 (量子 化値) Eが出力される。 そして、 S T 1 3 0 7において、 誤差スぺクトル 'パ ヮ補正値量子化部 1 0 0 7により、 (2)式に示すように、 対応する代表べクト ル Ci, Ciからの誤差スペクトル di、 モデル化区間平均パヮ Eおよび各スぺク トルモデル別の Eに対するパヮ補正値 eiで表された Sav— iに対して、 di, ei がスカラ量子化等任意の方法で量子化される。
ここで、 誤差スペクトル diの量子化は、 diを複数の帯域に分割し、 帯域毎 に各帯域の平均値をスカラ量子化を行うようにしてもよい。 そして、 S T 1 3 0 8において、 上記、 S T 1 3 0 5にて得られた M個の代表べクトルインデク ス、 S T 1 3 0 7にて得られた誤差スぺクトル量子化ィンデクス、 および、 ノ ヮ補正値量子化ィンデクス、 S T 1 3 0 6にて得られたパヮ量子化ィンデクス が、 スぺクトルモデルパラメ一夕の量子化ィンデクスとして出力される。 なお、 スぺクトルモデルパラメ一夕のうち標準偏差 Sdv— iは、 雑音スぺクト ル代表ベクトル学習時に得られる Ci に対するクラス夕内標準偏差値がそのま ま使用される。 この値に関しては雑音スぺクトル代表べクトル記憶部に予め記 憶させておくことで、 量子化インデクスの出力は不要である。 また、 S T 1 3 0 5において、 クラス夕別平均スぺクトル算出部 1 0 0 5による平均スぺクト ル算出時にクラス夕内の標準偏差も算出し、 その量子化を行ってもよい。 この 場合は、 その量子化インデクスが、 スペクトルモデルパラメ一夕の量子化イン デクスの一部として出力される。
なお、 上記実施の形態では、 誤差スペクトルの量子化を帯域別のスカラ量子 化により説明したが、 全帯域のべクトル量子化等他の方法で量子化することも 可能である。 また、 パヮ情報をモデル化区間の平均パヮとモデル別の平均パヮ に対する補正値により表現した構成を説明したが、 モデル別のパヮのみでの表 現や、 モデル化区間の平均パヮで全モデルのパヮを代表するようにしてもよい。 次に、 本実施の形態にかかる雑音信号合成装置の動作について、 図 1 5を参 照して説明する。 まず、 S T 1 4 0 1において、 雑音信号分析装置により得ら れた統計モデルパラメ一夕の各量子化インデクスが入力される。 そして、 S T 1 4 0 2において、 スぺクトルモデルパラメ一夕復号部 1 1 0 3によりスぺク トルモデルパラメ一夕の量子化ィンデクスからスぺクトルモデル S iの統計 ノ ラメ一夕である平均振幅 Sav— iおよび標準偏差 Sdv— i(i=l,. . . ,M)を復号 する。 次に、 S T 1 4 0 3において、 遷移系列生成部 1 1 0 1により、 Si-Sj 間の遷移確率 P(i, の量子化インデクスを用いて遷移確率 P( i,j)が復号され、 スぺクトルモデル S iの遷移が与えられた遷移確率 p( i, となるようなスぺ クトルモデル番号遷移系列 {index,(l)} (l≤index'(l)≤M5 1=0, 1,2,. . . ) が生起される。
次に、 S T 1 4 0 4において、 スペクトルモデル S iに対する継続フレーム 数 Liの統計モデルパラメ一夕の量子化ィンデクスからの復号値 (Liの平均値 Lav_i, 標準偏差値 Ldv— i) を用いて、 i=inde (1)に対して平均値 Lav_i、 標準 偏差 Ldv_iを有する正規分布に従うように制御された継続フレーム数 Lが、 継 続長制御部 1 1 0 2により生成される。 また、 S T 1 4 0 5において、 乱数位 相生成部 1 1 0 4により乱数位相が生成される。
そして、 S T 1 4 0 6において、 スぺクトル生成部 1 1 0 5により、 S T 1 4 0 3において得られたモデル番号 index'(l)、 および、 S T 1 4 0 2におい て得られたスペクトルモデル S i ( i=l,. . . ,Μ)に関するモデル情報 (S i の平均振幅 Sav— iおよび標準偏差 Sdv_i)を用いて、(3)式で示される index'(l) に対する振幅スぺクトル時系列 {X'(n) }が生成される。
ここで、 S index'u)は、 i=index,( l)に対する平均振幅 Sav— i、 標準偏差 Sdv— i を有する正規分布に従うものとし、 また継続フレーム数 Lは、 S T 1 4 0 4に おいて生成されたものである。 なお、 生成された振幅スペクトル時系列に対し てスペクトルが滑らかに変化するよう平滑ィ匕を行ってもよい。 さらに、 遷移系 列 {index'(l)}に沿って生成した所定の時間長(=当該モデル化区間のフレーム 数 NFRM)の振幅スぺクトル時系列に対して、 S T 1 4 0 5において生成された 乱数位相を与えて、 スペクトル時系列を作成する。 S T 1 4 0 7において、 I F F T部 1 1 0 6により、 作成されたスぺクトル 時系列が時間領域の波形に変換された後、 S T 1 4 0 8において、 重ね合わせ 加算部 1 1 0 7によりフレーム間の信号の重ね合わせ加算が行なわれる。 S T 1 4 0 9において、 重ね合わせ加算された信号が最終的な合成雑音信号として 出力される。
このように、 本実施の形態においては、 背景雑音信号を統計的モデルで表現 している。 すなわち、 雑音信号分析装置 (送信側装置) において、 雑音信号を 用いて、 雑音信号スぺクトルのスぺクトル変化を含めた統計的情報(統計モデ ルパラメ一夕) を生成し、 生成した情報を雑音信号合成装置 (受信側装置) に 送信している。 また、 雑音信号合成装置 (受信側装置) においては、 雑音信号 分析装置 (送信側装置) から送信された上記情報 (統計モデルパラメ一夕) を 用いて、 雑音信号を合成している。 これにより、 雑音信号合成装置 (受信側装 置) においては、 間欠的に分析された雑音信号のスペクトルではなく、 雑音信 号スぺクトルのスぺクトル変化を含めた統計的情報を用いて、 雑音信号を合成 することができるので、 聴感的に劣化の少ない雑音信号を合成することができ る。 また、 実際の周囲騒音下での雑音信号の統計的な特性は比較的長期間 (例 えば数秒〜十数秒) に渡り一定であることが想定されることから、 モデルパラ メータの伝送周期もその程度の長期間周期で良いため、 復号側に伝送すべき雑 音信号のモデルパラメ一夕の情報量は少なくて済み、 効率的な伝送を実現でき る。
(実施の形態 4 )
本実施の形態では、 実施の形態 3で説明した雑音信号分析装置を用いて音声 符号化装置を実現し、 また、 実施の形態 3で説明した雑音信号合成装置を用い て音声復号装置を実現する場合について説明する。
まず、 本実施の形態にかかる音声符号化装置について、 図 1 6を参照して説 明する。 図 1 6は、 本発明の実施の形態 4にかかる音声符号化装置の構成を示 すプロック図である。 図 1 6において、 入力音声信号は、 有音/無音判定器 1 5 0 1、 音声符号器 1 5 0 2および雑音信号符号器 1 5 0 3に入力される。 有音/無音判定器 1 5 0 1は、 入力音声信号に対して有音区間か無音区間 (雑音のみの区間) かを判定しその判定結果を出力する。有音/無音判定器 1 5 0 1は、 任意のものでよく、 一般には、 入力信号のパヮ、 スぺクトルゃピヅ チ周期などの複数のパラメ一夕の瞬時量または変化量等を用いて判定を行う ものである。
音声符号器 1 5 0 2は、 有音/無音判定器 1 5 0 1による判定結果が有音で ある場合に、 入力音声信号に対して音声符号化を行い、 その符号化データを D T X制御および多重化器 1 5 0 4に出力する。 この音声符号器 1 5 0 2は、 有 音区間用の符号器であり、 音声を高能率に符号化する任意の符号器である。 雑音信号符号器 1 5 0 3は、 有音/無音判定器 1 5 0 1による判定結果が無 音である場合に、 入力音声信号に対して雑音信号の符号化を行い入力雑音信号 に対する統計モデルパラメ一夕の量子化ィンデクスを符号化データとして出 力する。 この雑音符号器 1 5 0 3として、 実施の形態 3で説明した雑音分析装 置(図 1 0 )を用いる。
D T X制御および多重化器 1 5 0 4は、 有音 Z無音判定器 1 5 0 1、 音声符 号器 1 5 0 2および雑音信号符号器 1 5 0 3からの出力を用いて送信データ として送信すべき情報の制御と送信情報の多重化を行い、 送信データを出力す る。
次に、 本発明の実施の形態 4にかかる音声復号装置について、 図 1 7を参照 して説明する。 図 1 7は、 本発明の実施の形態 4にかかる音声復号装置の構成 を示すプロック図である。 図 1 7において、 図 1 6に示した音声符号化装置に より送信された送信データは、 受信デ一夕として分離および D T X制御器 1 6 0 1に入力される。
分離および D T X制御器 1 6 0 1は、 受信データを音声復号および雑音生成 に必要な音声符号化データ、 または雑音モデル符号化パラメ一夕、 および有音 ノ無音判定フラグに分離する。 音声復号器 1 6 0 2は、 前記有音/無音判定フラグが有音区間を示す場合に、 前記音声符号^!デ一夕を用いて音声復号を行い復号音声を出力する。雑音信号 復号器 1 6 0 3は、 前記有音/無音判定フラグが無音区間を示す場合に、 前記 雑音モデル符号化パラメ一夕を用いて雑音信号の生成を行い、 雑音信号を出力 する。 この雑音信号復号器 1 6 0 3として、 実施の形態 3で説明した雑音信号 合成装置 (図 1 2 ) を用いる。
出力切り替え器 1 6 0 4は、 音声復号器 1 6 0 2の出力と雑音信号復号器 1 6 0 3の出力を、 有音/無音判定フラグの結果に応じて切り替えて出力し、 出 力信号とする。
次に、 上記構成を有する音声符号化装置および音声復号装置の動作について 説明する。まず、音声符号化装置の動作について、図 1 8を参照して説明する。 図 1 8は、 本発明の実施の形態 4にかかる音声符号化装置の動作を示すフロー 図である。
まず、 S T 1 7 0 1において、 フレーム毎の音声信号が入力され、 S T 1 7 0 2、 において、入力音声信号に対して有音区間か無音区間(雑音のみの区間) かが判定されその判定結果が出力される。 この有音/無音判定は任意の方法で よく、 一般には、 入力信号のパヮ、 スペクトルやピッチ周期などの複数のパラ メータの瞬時量または変化量等を用いて判定が行われる。
S T 1 7 0 2における有音 Z無音判定結果が有音である場合には、 S T 1 7 0 3において入力音声信号に対する音声符号化が行われ、 その符号化データが 出力される。 この音声符号化処理は有音区間用の符号化で、 音声を高能率に符 号化する任意の方法でよい。
一方、 前記有音/無音判定結果が無音である場合には、 S T 1 7 0 4におい て、 入力音声信号に対する雑音信号の符号化が行われ、 入力雑音信号に対する モデルパラメ一夕が出力される。 この雑音信号符号化として、 実施の形態 3に て説明した雑音信号の分析方法を用いる。
S T 1 7 0 5において、 前記有音 Z無音判定結果、 音声符号化および雑音信 号符号化からの出力を用いて送信デ一夕として送信すべき情報の制御 ( D T X 制御) と送信情報の多重化が行われ、 S T 1 7 0 6において送信データとして 出力される。
次に、音声復号装置の動作について、図 1 9を参照して説明する。図 1 9は、 本発明の実施の形態 4にかかる音声復号装置の動作を示すフロー図である。 まず、 S T 1 8 0 1において、 符号化側で入力信号に対して符号化され送信 されたデータが受信データとして受信される。 S T 1 8 0 2において、 受信デ 一夕は、 音声復号および雑音生成に必要な音声符号化データ、 または雑音モデ ル符号化パラメ一夕、 および有音 Z無音判定フラグに分離される。
前記有音/無音判定フラグが有音区間を示す場合には、 S T 1 8 0 4におい て前記音声符号化デ一夕を用いて音声復号が行われ、 復号音声が出力される。 —方、 前記有音 Z無音判定フラグが無音区間を示す場合には、 S T 1 8 0 5に おいて前記雑音モデル符号化パラメ一夕を用いて雑音信号の生成が行われ、 雑 音信号が出力される。 この雑音信号復号処理として、 実施の形態 4で説明した 雑音信号の合成方法を用いる。
S T 1 8 0 6において、 有音 Z無音判定フラグの結果に応じて S T 1 8 0 4 における音声復号または S T 1 8 0 5における雑音信号復号の出力が、 復号信 号として出力される。
なお、 上記実施の形態においては、 復号信号の出力を有音区間と無音区間で 復号音声信号と合成雑音信号の切り替えで出力されるものとして説明したが、 別の形態として、 無音区間で合成した雑音信号を有音区間においても復号音声 信号に加算して出力するようにしてもよい。 さらに、 音声符号化側で雑音信号 を含む入力音声信号を、 雑音信号と雑音を含まない音声信号とに分離する手段 を設けて、 分離後の音声信号および雑音信号を符号化したデータを用いて、 復 号側で無音区間で合成した雑音信号を、 上記と同様に有音区間においても復号 音声信号に加算して出力するようにしてもよい。
このように、 本実施の形態によれば、 有音区間では音声信号を高品質で符号 化できる音声符号化を、 無音区間では聴感的に劣化が少ない雑音信号分析装置 および合成装置を用いて雑音信号の符号化および復号を行うことにより、 背景 雑音環境下においても高品質な符号化を行える。 また、 実際の周囲騒音下での 雑音信号の統計的な特性は比較的長期間 (例えば数秒〜十数秒) に渡り一定で あることが想定されることから、 モデルパラメ一夕の伝送周期もその程度の長 期間周期で良いため、 復号側に伝送すべき雑音信号のモデルパラメ一夕の情報 量は少なくて済み、 効率的な伝送を実現できる。
なお、 上記実施の形態 1および 3で説明した雑音信号分析装置および雑音信 号合成装置によりなされる処理、 ならびに、 上記実施の形態 2および 4で説明 した音声符号化装置および音声復号装置によりなされる処理をソフトウエア (プログラム) により実現し、 このソフトウェア (プログラム) を、 コンビュ 一夕により読み取ることが可能な記録媒体に格納することが可能である。 以上の説明から明らかなように、 本発明によれば、 雑音信号を統計的モデル で表現することにより、 聴感的に劣化の少ない雑音信号を合成することができ る。
本明細書は、 2 0 0 0年 9月 6日出願の特願 2 0 0 0— 2 7 0 5 8 8、 2 0 0 1年 3月 1 3日出願の特願 2 0 0 1 - 0 7 0 1 4 8に基づくものである。 こ の内容をここに含めておく。 産業上の利用可能性
本発明は、 音声信号に重畳されている背景雑音信号の分析および合成を行う 雑音信号の分析 ·合成装置に関し、 また、 この分析 ·合成装置を用いて音声信 号の符号化を行う音声符号化装置に好適である。

Claims

請求の範囲
1 . ある統計的分布に従う振幅スペクトル時系列で表され、 かつ、 その振幅ス ぺクトル時系列の継続時間長が別の統計的分布に従う複数の定常雑音モデル を生成する生成手段と、 前記複数の定常雑音モデル間を統計的に遷移するスぺ クトル系列として雑音信号を処理する処理手段と、 を具備する雑音信号分析装
2 . 雑音信号を周波数領域の信号に変換して、 前記雑音信号のスぺクトルを算 出する周波数変換手段と、 定常雑音モデルのスぺクトルに関する複数のモデル 情報を記憶する記憶手段と、 前記複数のモデル情報のうち、 所定の条件に基づ いて、 前記雑音信号のスぺクトルに対応するモデル情報を選択する選択手段と、 選択されたモデル情報の時間的な系列を用いて定常雑音モデルに関する統計 パラメ一夕と複数の定常雑音モデル間を遷移する確率である遷移確率情報を 生成する情報生成手段と、 を具備する雑音信号分析装置。
3 . 請求の範囲 2に記載の雑音信号分析装置により生成された統計パラメ一夕 と遷移確率情報を用いて、 雑音信号を生成する雑音信号生成手段を具備する雑
4 . 複数の定常雑音モデル間を遷移する確率である遷移確率情報を用いて、 定 常雑音モデルの遷移系列に関する情報を生成する遷移系列生成手段と、 定常雑 音モデルに関する統計パラメ一夕を用いて、 定常雑音モデルの継続時間長を算 出する継続時間長算出手段と、 定常雑音モデルのスぺクトルに関するモデル情 報を記憶する記憶手段と、 乱数位相を生成する乱数位相生成手段と、 生成され た前記定常雑音モデルの遷移系列に関する情報、 算出された前記継続時間長、 記憶された前記定常雑音モデルのスペクトルに関するモデル情報、 および、 生 成された乱数位相を用いて、 スぺクトル時系列を生成するスぺクトル生成手段 と、 生成されたスぺクトルを時間領域の信号に変換する逆周波数変換手段と、 を具備する請求の範囲 3に記載の雑音信号合成装置。
5 . 請求の範囲 2に記載の雑音信号分析装置を用いて、 音声信号の無音区間に おける雑音信号の符号化を行う音声符号化装置。
6 . 請求の範囲 3に記載の雑音信号合成装置を用いて、 音声信号の無音区間に おける雑音信号の復号を行う音声復号装置。
7 . 雑音信号を周波数領域の信号に変換して、 前記雑音信号のスぺクトルを算 出する周波数変換手段と、 定常雑音モデルの振幅スぺクトル時系列に関する統 計パラメ一夕であるスぺクトルモデルパラメ一夕の算出と量子化を行い、 量子 化ィンデクスを出力するスぺクトルモデルパラメ一夕算出 ·量子化手段と、 前 記定常雑音モデルの振幅スぺクトル時系列の継続時間長に関する統計パラメ 一夕および複数の定常雑音モデル間を遷移する確率である遷移確率情報の算 出と量子化を行い、 量子化ィンデクスを出力する継続長モデル ·遷移確率算 出 ·量子化手段と、 を具備する雑音信号分析装置。
8 . スぺクトルモデルパラメ一夕算出 ·量子化手段は、 周波数変換手段により 得られた入力雑音信号の振幅スぺクトルに対してパヮの正規化を行うパヮ正 規化手段と、雑音信号を表す振幅スぺクトルの代表べクトルの集合を記憶する 記憶手段と、前記パヮ正規化手段により得られたパヮ正規ィヒ振幅スぺクトルに 対して、前記記憶手段に記憶されている代表べクトル集合を用いてクラス夕化 を行うクラス夕化手段と、 入力雑音信号のモデル化区間単位で選択頻度の高い 上位複数個のクラス夕を選択し、 それらの選択されたクラス夕に属する入力振 幅スぺクトルの平均スぺクトルをクラス夕毎に算出するクラス夕別平均スぺ クトル算出手段と、 入力雑音信号のモデル化区間の平均パヮを算出し、 その量 子化を行うモデル化区間平均パヮ量子化手段と、 前記クラスタ別平均スぺクト ル算出手段により得られたクラス夕別平均スぺクトルおよびモデル化区間平 均パヮ量子化手段により得られた量子化されたモデル化区間平均パヮを用い て、 クラス夕毎の誤差スぺクトルとモデル化区間平均パヮに対するパヮ補正値 の量子化を行う、 誤差スぺクトル ·パヮ補正値量子化手段と、 を具備する請求 の範囲 7に記載の雑音信号分析装置。
9 . 請求の範囲 7に記載の雑音信号分析装置により生成された量子化ィンデク スを用いて、 雑音信号を生成する雑音信号生成手段を具備する雑音信号合成装
1 0 .複数の定常雑音モデル間を遷移する確率である遷移確率情報の量子化ィ ンデクスを用いて、 定常雑音モデルの遷移系列に関する情報を生成する遷移系 列生成手段と、 継続時間長に関する統計パラメ一夕の量子化インデクスを用い て、 定常雑音モデルの継続時間長を算出する継続時間長算出手段と、 スぺクト ルモデルパラメ一夕の量子化ィンデクスを用いて前記スぺクトルモデルパラ メータを復号するスぺクトルモデルパラメ一夕復号手段と、 乱数位相を生成す る乱数位相生成手段と、 生成された前記定常雑音モデルの遷移系列に関する情 報、 算出された前記継続時間長、 前記スぺクトルモデルパラメ一夕、 および、 生成された乱数位相を用いて、 スぺクトル時系列を生成するスぺクトル生成手 段と、生成されたスぺクトルを時間領域の信号に変換する逆周波数変換手段と、 を具備する請求の範囲 9に記載の雑音信号合成装置。
1 1 . 請求の範囲 7に記載の雑音信号分析装置を用いて、 音声信号の無音区間 における雑音信号の符号化を行う音声符号化装置。
1 2 . 請求の範囲 9に記載の雑音信号合成装置を用いて、 音声信号の無音区間 における雑音信号の復号を行う音声復号装置。
1 3 . 雑音信号を周波数領域の信号に変換して、 前記雑音信号のスぺクトルを 算出する周波数変換工程と、 定常雑音モデルのスぺクトルに関する複数のモデ ル情報を記憶する記憶工程と、 前記複数のモデル情報のうち、 所定の条件に基 づいて、 前記雑音信号のスぺクトルに対応するモデル情報を選択する選択工程 と、選択されたモデル情報の時間的な系列を用いて定常雑音モデルに関する統 計パラメ一夕と複数の定常雑音モデル間を遷移する確率である遷移確率情報 を生成する情報生成工程と、 を具備する雑音信号分析方法。
1 4 .請求の範囲 1 3に記載の雑音信号分析方法により生成された複数の定常 雑音モデル間を遷移する確率である遷移確率情報を用いて、 定常雑音モデルの 遷移系列に関する情報を生成する遷移系列生成工程と、 定常雑音モデルに関す る統計パラメ一夕を用いて、 定常雑音モデルの継続時間長を算出する継続時間 長算出工程と、 定常雑音モデルのスぺクトルに関するモデル情報を記憶する記 憶工程と、 乱数位相を生成する乱数位相生成工程と、 生成された前記定常雑音 モデルの遷移系列に関する情報、 算出された前記継続時間長、 記憶された前記 定常雑音モデルのスペクトルに関するモデル情報、 および、 生成された乱数位 相を用いて、 スペクトル時系列を生成するスペクトル生成工程と、 生成された スぺクトルを時間領域の信号に変換する逆周波数変換工程と、 を具備する雑音 信号合成方法。
1 5 . 雑音信号を周波数領域の信号に変換して、 前記雑音信号のスぺクトルを 算出する周波数変換工程と、 定常雑音モデルの振幅スぺクトル時系列に関する 統計パラメ一夕であるスぺクトルモデルパラメ一夕の算出と量子化を行い、 量 子化ィンデクスを出力するスぺクトルモデルパラメ一夕算出 ·量子化工程と、 前記定常雑音モデルの振幅スぺクトル時系列の継続時間長に関する統計パラ メ一夕および複数の定常雑音モデル間を遷移する確率である遷移確率情報の 算出と量子化を行い、 量子化ィンデクスを出力する継続長モデル ·遷移確率算 出 ·量子化工程と、 を具備する雑音信号分析方法。
1 6 . スぺクトルモデルパラメ一夕算出 ·量子化工程は、 周波数変換工程によ り得られた入力雑音信号の振幅スぺクトルに対してパヮの正規ィ匕を行うパヮ 正規化工程と、 雑音信号を表す振幅スぺクトルの代表べクトルの集合を記憶す る記憶工程と、 前記パヮ正規化工程により得られたパヮ正規化振幅スぺクトル に対して、 前記記憶工程により記憶されている代表べクトル集合を用いてクラ ス夕化を行うクラス夕化工程と、 入力雑音信号のモデル化区間単位で選択頻度 の高い上位複数個のクラスタを選択し、 それらの選択されたクラスタに属する 入力振幅スぺクトルの平均スぺクトルをクラス夕毎に算出するクラスタ別平 均スペクトル算出工程と、 入力雑音信号のモデル化区間の平均パヮを算出し、 その量子化を行うモデル化区間平均パヮ量子化工程と、 前記クラス夕別平均ス ぺクトル算出工程により得られたクラスタ別平均スぺクトルおよびモデル化 区間平均パヮ量子化工程により得られた量子化されたモデル化区間平均パヮ を用いて、 クラス夕毎の誤差スぺクトルとモデル化区間平均パヮに対するパヮ 補正値の量子化を行う、 誤差スペクトル ·パヮ補正値量子化工程と、 を具備す る請求の範囲 1 5に記載の、 雑音信号分析方法。
1 7 . 請求の範囲 1 5に記載の雑音信号分析方法により生成された複数の定常 雑音モデル間を遷移する確率である遷移確率情報の量子化ィンデクスを用い て、 定常雑音モデルの遷移系列に関する情報を生成する遷移系列生成工程と、 継続時間長に関する統計パラメ一夕の量子化ィンデクスを用いて、 定常雑音モ デルの,継続時間長を算出する継続時間長算出工程と、 スぺクトルモデルパラメ 一夕の量子化インデクスを用いて前記スぺクトルモデルパラメ一夕を復号す るスぺクトルモデルパラメ一夕復号工程と、 乱数位相を生成する乱数位相生成 工程と、 生成された前記定常雑音モデルの遷移系列に関する情報、 算出された 前記継続時間長、 前記スペクトルモデルパラメ一夕、 および、 生成された乱数 位相を用いて、 スペクトル時系列を生成するスペクトル生成工程と、 生成され たスぺクトルを時間領域の信号に変換する逆周波数変換工程と、 を具備する雑 音信号合成方法。
1 8 . コンピュータを、 雑音信号を周波数領域の信号に変換して、 前記雑音信 号のスぺクトルを算出する周波数変換手段、 定常雑音モデルのスぺクトルに関 する複数のモデル情報を記憶する記憶手段、 前記複数のモデル情報のうち、 所 定の条件に基づいて前記雑音信号のスぺクトルに対応するモデル情報を選択 する選択手段、 選択されたモデル情報の時間的な系列を用いて定常雑音モデル に関する統計パラメ一夕と複数の定常雑音モデル間を遷移する確率である確 率情報を生成する情報生成手段として機能させるためのプログラム。
1 9 . コンピュータを、 複数の定常雑音モデル間を遷移する確率である確率情 報を用いて、 定常雑音モデルの遷移系列に関する情報を生成する遷移系列生成 手段、 定常雑音モデルに関する統計パラメ一夕を用いて、 定常雑音モデルの継 続時間長を算出する継続時間長算出手段、 定常雑音モデルのスぺクトルに関す るモデル情報を記憶する記憶手段、 乱数位相を生成する乱数位相生成手段、 生 成された前記定常雑音モデルの遷移系列に関する情報、 算出された前記継続時 間長、 記憶された前記定常雑音モデルのスぺクトルに関するモデル情報、 およ び、 生成された乱数位相を用いて、 スぺクトル時系列を生成するスぺクトル生 成手段、 生成されたスぺクトルを時間領域の信号に変換する逆周波数変換手段 として機能させるためのプログラム。
PCT/JP2001/007630 2000-09-06 2001-09-04 Analyseur de signal de bruit, synthetiseur de signal de bruit, procede d'analyse de signal de bruit et procede de synthese de signal de bruit WO2002021091A1 (fr)

Priority Applications (3)

Application Number Priority Date Filing Date Title
US10/129,076 US6934650B2 (en) 2000-09-06 2001-09-04 Noise signal analysis apparatus, noise signal synthesis apparatus, noise signal analysis method and noise signal synthesis method
AU2001282616A AU2001282616A1 (en) 2000-09-06 2001-09-04 Noise signal analyzer, noise signal synthesizer, noise signal analyzing method, and noise signal synthesizing method
EP01961335A EP1258715B1 (en) 2000-09-06 2001-09-04 Noise signal analyzer, noise signal synthesizer, noise signal analyzing method, and noise signal synthesizing method

Applications Claiming Priority (4)

Application Number Priority Date Filing Date Title
JP2000270588 2000-09-06
JP2000-270588 2000-09-06
JP2001-70148 2001-03-13
JP2001070148A JP3670217B2 (ja) 2000-09-06 2001-03-13 雑音符号化装置、雑音復号装置、雑音符号化方法および雑音復号方法

Publications (1)

Publication Number Publication Date
WO2002021091A1 true WO2002021091A1 (fr) 2002-03-14

Family

ID=26599385

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/JP2001/007630 WO2002021091A1 (fr) 2000-09-06 2001-09-04 Analyseur de signal de bruit, synthetiseur de signal de bruit, procede d'analyse de signal de bruit et procede de synthese de signal de bruit

Country Status (5)

Country Link
US (1) US6934650B2 (ja)
EP (1) EP1258715B1 (ja)
JP (1) JP3670217B2 (ja)
AU (1) AU2001282616A1 (ja)
WO (1) WO2002021091A1 (ja)

Families Citing this family (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2004029674A (ja) * 2002-06-28 2004-01-29 Matsushita Electric Ind Co Ltd 雑音信号符号化装置及び雑音信号復号化装置
US7171356B2 (en) * 2002-06-28 2007-01-30 Intel Corporation Low-power noise characterization over a distributed speech recognition channel
ES2634511T3 (es) * 2004-07-23 2017-09-28 Iii Holdings 12, Llc Aparato de codificación de audio y procedimiento de codificación de audio
CN1815550A (zh) * 2005-02-01 2006-08-09 松下电器产业株式会社 可识别环境中的语音与非语音的方法及系统
CN1953052B (zh) * 2005-10-20 2010-09-08 株式会社东芝 训练时长预测模型、时长预测和语音合成的方法及装置
KR100785471B1 (ko) 2006-01-06 2007-12-13 와이더댄 주식회사 통신망을 통해 가입자 단말기로 전송되는 오디오 신호의출력 품질 개선을 위한 오디오 신호의 처리 방법 및 상기방법을 채용한 오디오 신호 처리 장치
US20080312916A1 (en) * 2007-06-15 2008-12-18 Mr. Alon Konchitsky Receiver Intelligibility Enhancement System
US8190440B2 (en) * 2008-02-29 2012-05-29 Broadcom Corporation Sub-band codec with native voice activity detection
EP2151821B1 (en) 2008-08-07 2011-12-14 Nuance Communications, Inc. Noise-reduction processing of speech signals
JP6053272B2 (ja) * 2011-10-19 2016-12-27 オリンパス株式会社 顕微鏡装置
US10066962B2 (en) 2013-07-01 2018-09-04 Battelle Energy Alliance, Llc Apparatus, system, and method for sensor authentication
CN113066472A (zh) * 2019-12-13 2021-07-02 科大讯飞股份有限公司 合成语音处理方法及相关装置

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH01502779A (ja) * 1987-04-03 1989-09-21 アメリカン テレフォン アンド テレグラフ カムパニー 適応多変数推定装置
JPH01502853A (ja) * 1987-04-03 1989-09-28 アメリカン テレフォン アンド テレグラフ カムパニー 有声判定装置および有声判定方法
JPH0962299A (ja) * 1995-08-23 1997-03-07 Oki Electric Ind Co Ltd コード励振線形予測符号化装置
JPH09321793A (ja) * 1996-05-21 1997-12-12 Hewlett Packard Co <Hp> ネットワークシステム
JPH1097292A (ja) * 1996-01-29 1998-04-14 Texas Instr Inc <Ti> 音声信号伝送方法および不連続伝送システム
JPH11163744A (ja) * 1997-11-28 1999-06-18 Oki Electric Ind Co Ltd ディジタル通信用音声送受信装置

Family Cites Families (20)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
GB2102254B (en) * 1981-05-11 1985-08-07 Kokusai Denshin Denwa Co Ltd A speech analysis-synthesis system
US4720802A (en) * 1983-07-26 1988-01-19 Lear Siegler Noise compensation arrangement
US4897878A (en) * 1985-08-26 1990-01-30 Itt Corporation Noise compensation in speech recognition apparatus
US4852181A (en) * 1985-09-26 1989-07-25 Oki Electric Industry Co., Ltd. Speech recognition for recognizing the catagory of an input speech pattern
JPH0636158B2 (ja) * 1986-12-04 1994-05-11 沖電気工業株式会社 音声分析合成方法及び装置
US5761639A (en) * 1989-03-13 1998-06-02 Kabushiki Kaisha Toshiba Method and apparatus for time series signal recognition with signal variation proof learning
US5148489A (en) * 1990-02-28 1992-09-15 Sri International Method for spectral estimation to improve noise robustness for speech recognition
US5465317A (en) * 1993-05-18 1995-11-07 International Business Machines Corporation Speech recognition system with improved rejection of words and sounds not in the system vocabulary
WO1995012920A1 (fr) * 1993-11-04 1995-05-11 Sony Corporation Codeur de signaux, decodeur de signaux, support d'enregistrement et procede de codage de signaux
US5774846A (en) * 1994-12-19 1998-06-30 Matsushita Electric Industrial Co., Ltd. Speech coding apparatus, linear prediction coefficient analyzing apparatus and noise reducing apparatus
SE507370C2 (sv) * 1996-09-13 1998-05-18 Ericsson Telefon Ab L M Metod och anordning för att alstra komfortbrus i linjärprediktiv talavkodare
JP4006770B2 (ja) 1996-11-21 2007-11-14 松下電器産業株式会社 ノイズ推定装置、ノイズ削減装置、ノイズ推定方法、及びノイズ削減方法
US5960389A (en) * 1996-11-15 1999-09-28 Nokia Mobile Phones Limited Methods for generating comfort noise during discontinuous transmission
JP3464371B2 (ja) 1996-11-15 2003-11-10 ノキア モービル フォーンズ リミテッド 不連続伝送中に快適雑音を発生させる改善された方法
US5924065A (en) * 1997-06-16 1999-07-13 Digital Equipment Corporation Environmently compensated speech processing
US6144937A (en) * 1997-07-23 2000-11-07 Texas Instruments Incorporated Noise suppression of speech by signal processing including applying a transform to time domain input sequences of digital signals representing audio information
JP4216364B2 (ja) 1997-08-29 2009-01-28 株式会社東芝 音声符号化/復号化方法および音声信号の成分分離方法
US6182033B1 (en) * 1998-01-09 2001-01-30 At&T Corp. Modular approach to speech enhancement with an application to speech coding
US6453285B1 (en) * 1998-08-21 2002-09-17 Polycom, Inc. Speech activity detector for use in noise reduction system, and methods therefor
US20020116196A1 (en) * 1998-11-12 2002-08-22 Tran Bao Q. Speech recognizer

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH01502779A (ja) * 1987-04-03 1989-09-21 アメリカン テレフォン アンド テレグラフ カムパニー 適応多変数推定装置
JPH01502853A (ja) * 1987-04-03 1989-09-28 アメリカン テレフォン アンド テレグラフ カムパニー 有声判定装置および有声判定方法
JPH0962299A (ja) * 1995-08-23 1997-03-07 Oki Electric Ind Co Ltd コード励振線形予測符号化装置
JPH1097292A (ja) * 1996-01-29 1998-04-14 Texas Instr Inc <Ti> 音声信号伝送方法および不連続伝送システム
JPH09321793A (ja) * 1996-05-21 1997-12-12 Hewlett Packard Co <Hp> ネットワークシステム
JPH11163744A (ja) * 1997-11-28 1999-06-18 Oki Electric Ind Co Ltd ディジタル通信用音声送受信装置

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
See also references of EP1258715A4 *

Also Published As

Publication number Publication date
JP2002156999A (ja) 2002-05-31
EP1258715A1 (en) 2002-11-20
AU2001282616A1 (en) 2002-03-22
EP1258715A4 (en) 2005-10-12
US6934650B2 (en) 2005-08-23
JP3670217B2 (ja) 2005-07-13
US20020165681A1 (en) 2002-11-07
EP1258715B1 (en) 2008-01-30

Similar Documents

Publication Publication Date Title
JP5343098B2 (ja) スーパーフレーム構造のlpcハーモニックボコーダ
KR100647336B1 (ko) 적응적 시간/주파수 기반 오디오 부호화/복호화 장치 및방법
KR100566713B1 (ko) 음향 파라미터 부호화, 복호화 방법, 장치 및 프로그램, 음성 부호화, 복호화 방법, 장치 및 프로그램
US7599833B2 (en) Apparatus and method for coding residual signals of audio signals into a frequency domain and apparatus and method for decoding the same
JP4270866B2 (ja) 非音声のスピーチの高性能の低ビット速度コード化方法および装置
US6678655B2 (en) Method and system for low bit rate speech coding with speech recognition features and pitch providing reconstruction of the spectral envelope
JP4445328B2 (ja) 音声・楽音復号化装置および音声・楽音復号化方法
CA2918345A1 (en) Unvoiced/voiced decision for speech processing
WO2002021091A1 (fr) Analyseur de signal de bruit, synthetiseur de signal de bruit, procede d&#39;analyse de signal de bruit et procede de synthese de signal de bruit
WO2000077774A1 (fr) Codeur de signaux de bruit et codeur de signaux vocaux
EP2009623A1 (en) Speech coding
KR20050006883A (ko) 광대역 음성 부호화기 및 그 방법과 광대역 음성 복호화기및 그 방법
JP3353852B2 (ja) 音声の符号化方法
JP4578145B2 (ja) 音声符号化装置、音声復号化装置及びこれらの方法
JP3348759B2 (ja) 変換符号化方法および変換復号化方法
JP3916934B2 (ja) 音響パラメータ符号化、復号化方法、装置及びプログラム、音響信号符号化、復号化方法、装置及びプログラム、音響信号送信装置、音響信号受信装置
JP2797348B2 (ja) 音声符号化・復号化装置
JP2004246038A (ja) 音声楽音信号符号化方法、復号化方法、符号化装置、復号化装置、符号化プログラム、および復号化プログラム
KR101377667B1 (ko) 오디오/스피치 신호의 시간 도메인에서의 부호화 방법
KR20080092823A (ko) 부호화/복호화 장치 및 방법
JP2002073097A (ja) Celp型音声符号化装置とcelp型音声復号化装置及び音声符号化方法と音声復号化方法
JP5724338B2 (ja) 符号化装置および符号化方法、復号装置および復号方法、並びにプログラム
JP2002169595A (ja) 固定音源符号帳及び音声符号化/復号化装置
KR20080034819A (ko) 부호화/복호화 장치 및 방법
JPH11249696A (ja) 音声符号化/復号化方法

Legal Events

Date Code Title Description
AK Designated states

Kind code of ref document: A1

Designated state(s): AE AG AL AM AT AU AZ BA BB BG BR BY BZ CA CH CN CO CR CU CZ DE DK DM DZ EC EE ES FI GB GD GE GH GM HR HU ID IL IN IS KE KG KP KR KZ LC LK LR LS LT LU LV MA MD MG MK MN MW MX MZ NO NZ PH PL PT RO RU SD SE SG SI SK SL TJ TM TR TT TZ UA UG US UZ VN YU ZA ZW

AL Designated countries for regional patents

Kind code of ref document: A1

Designated state(s): GH GM KE LS MW MZ SD SL SZ TZ UG ZW AM AZ BY KG KZ MD RU TJ TM AT BE CH CY DE DK ES FI FR GB GR IE IT LU MC NL PT SE TR BF BJ CF CG CI CM GA GN GQ GW ML MR NE SN TD TG

WWE Wipo information: entry into national phase

Ref document number: 10129076

Country of ref document: US

WWE Wipo information: entry into national phase

Ref document number: 2001961335

Country of ref document: EP

121 Ep: the epo has been informed by wipo that ep was designated in this application
WWP Wipo information: published in national office

Ref document number: 2001961335

Country of ref document: EP

REG Reference to national code

Ref country code: DE

Ref legal event code: 8642

WWG Wipo information: grant in national office

Ref document number: 2001961335

Country of ref document: EP