WO2000077774A1 - Codeur de signaux de bruit et codeur de signaux vocaux - Google Patents

Codeur de signaux de bruit et codeur de signaux vocaux Download PDF

Info

Publication number
WO2000077774A1
WO2000077774A1 PCT/JP2000/003526 JP0003526W WO0077774A1 WO 2000077774 A1 WO2000077774 A1 WO 2000077774A1 JP 0003526 W JP0003526 W JP 0003526W WO 0077774 A1 WO0077774 A1 WO 0077774A1
Authority
WO
WIPO (PCT)
Prior art keywords
signal
noise
voice
speech
input
Prior art date
Application number
PCT/JP2000/003526
Other languages
English (en)
French (fr)
Inventor
Koji Yoshida
Original Assignee
Matsushita Electric Industrial Co., Ltd.
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Matsushita Electric Industrial Co., Ltd. filed Critical Matsushita Electric Industrial Co., Ltd.
Priority to EP00935511A priority Critical patent/EP1120775A4/en
Priority to AU51037/00A priority patent/AU5103700A/en
Publication of WO2000077774A1 publication Critical patent/WO2000077774A1/ja

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/012Comfort noise or silence coding
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • G10L21/0216Noise filtering characterised by the method used for estimating noise
    • G10L2021/02168Noise filtering characterised by the method used for estimating noise the estimation exclusively taking place during speech pauses

Definitions

  • the present invention relates to a low bit rate audio signal encoding device used for applications such as a mobile communication system and an audio recording device that encode and transmit an audio signal.
  • CS-ACELP coding of ITU-T Recommendation G.729 "Coding of speech at 8 kbit / s using conjugate-structure algebraic-code-excited linear-prediction (CS-ACELP)")
  • CS-ACELP encoding with DTX (Discontinuous Transmission) control of the G.729 Annex B "A silence compression scheme for G.729 optimized for terminals conforming to Recommendation V.70" of the ITU-T recommendation
  • FIG. 1 is a block diagram showing the configuration of a conventional CS-ACE LP coding system coding apparatus.
  • an LPC analysis / quantizer 1 performs LPC (linear prediction) analysis and quantization on an input audio signal, and outputs LPC coefficients and an LPC quantization code.
  • the adaptive excitation signal and the fixed excitation signal extracted from the adaptive excitation codebook 2 and the fixed excitation codebook 3 are multiplied by the gain extracted from the gain codebook 4 and added, and the speech is synthesized by the LPC synthesis filter 7.
  • the error signal for the input signal is weighted by the perceptual weighting filter 9, and the adaptive excitation code, fixed excitation code, and gain code that minimize the weighted error are encoded together with the LPC quantization code.
  • reference numeral 5 is a multiplier
  • reference numeral 6 is an adder
  • reference numeral 8 is a subtractor.
  • FIG. 2 is a block diagram showing a configuration of a conventional CS-ACELP coding system with DTX control.
  • the voice / silence determiner 11 determines whether the input signal is a voice section or a silent section (a section including only background noise). Then, when it is determined by the voiced Z silence determiner 11 that there is voice, the CS-ACELP voice coder 12 performs voice coding of a voiced section.
  • the CS-ACELP speech encoder 12 has the configuration shown in FIG.
  • the silent section encoder 13 performs encoding.
  • the silent section encoder 13 calculates LPC coefficients and LPC prediction residual energy of the input signal from the input signal, which are similar to those of the coding of the sound section, and outputs them as encoded data of the silent section.
  • the DTX control and multiplexer 14 controls the data to be transmitted as transmission data from the outputs of the voiced Z silence discriminator 11, CS—ACELP speech encoder 12 and silence section encoder 13, and performs multiplexing. And output as transmission data.
  • the audio encoder performs encoding at a low bit rate of 8 kbps using the inherent redundancy of audio, so that a clean audio signal without background noise is superimposed. If the input signal is a speech signal with surrounding background noise superimposed as the input signal, the decoded signal can be decoded when the background noise signal is encoded. There is a problem that the quality of the signal deteriorates.
  • the conventional CS-ACELP encoder with DTX control described above coding is performed by the CS-ACELP encoder only in the sound interval, and the silent interval (interval of only noise) is encoded in a dedicated silent interval.
  • the average bit rate to be transmitted is reduced by performing encoding at a bit rate smaller than that of the speech encoder in the encoder.
  • the silent section coder uses an AR-type synthesis filter (LPC synthesis filter) with a noise signal for each signal model (short section (about 10 to 50 ms)) similar to the speech coder.
  • LPC synthesis filter AR-type synthesis filter
  • An object of the present invention is to calculate a statistical feature for an input signal in a silent section (a section including only noise), store information about a noise model that can express a statistical feature regarding an input noise signal, and By detecting whether or not the noise model parameter representing the noise signal has changed, and updating the noise model, the degradation of the quality of the decoded signal is small even for speech signals with background noise superimposed, and transmission It is also necessary to reduce the average bit rate required for BRIEF DESCRIPTION OF THE FIGURES
  • FIG. 1 is a block diagram showing the configuration of a conventional speech signal encoding device
  • FIG. 2 is a block diagram showing the configuration of a conventional speech signal encoding device
  • FIG. 3 is a block diagram showing a configuration of a wireless communication system including the audio signal encoding device and the audio signal decoding device according to the embodiment of the present invention
  • FIG. 4 is a block diagram showing a configuration of a speech signal encoding apparatus according to Embodiment 1 of the present invention.
  • FIG. 5 is a block diagram showing a configuration of the noise signal encoding apparatus according to Embodiment 1 of the present invention.
  • FIG. 6 is a block diagram showing a configuration of an audio signal decoding apparatus according to Embodiment 1 of the present invention.
  • FIG. 7 is a diagram illustrating a noise signal in speech signal decoding apparatus according to Embodiment 1 of the present invention. Block diagram showing the configuration of the generator;
  • FIG. 8 is a flowchart showing a processing flow of the audio signal encoding method according to Embodiment 1 of the present invention.
  • FIG. 9 is a flowchart showing a processing flow of the noise signal encoding method according to Embodiment 1 of the present invention.
  • FIG. 10 is a block diagram showing a configuration of a speech signal encoding apparatus according to Embodiment 2 of the present invention.
  • FIG. 11 is a block diagram showing a configuration of an audio signal decoding apparatus according to Embodiment 2 of the present invention.
  • FIG. 12 is a flowchart showing a processing flow of an audio signal encoding method according to Embodiment 2 of the present invention.
  • FIG. 13 is a block diagram showing a configuration of a speech signal encoding apparatus according to Embodiment 3 of the present invention.
  • FIG. 14 is a flowchart showing the flow of processing of the speech signal encoding method according to Embodiment 3 of the present invention.
  • FIG. 3 is a block diagram showing a configuration of a wireless communication device including the speech signal encoding device according to Embodiment 1 of the present invention.
  • sound is converted into an electric analog signal by a sound input device 101 such as a microphone on the transmitting side, and output to the AZD converter 102.
  • the analog audio signal is converted into a digital audio signal by the AZD converter 102 and output to the audio encoding unit 103.
  • the voice coding unit 103 performs voice coding processing on the digital voice signal, and outputs the coded information to the modulation / demodulation unit 104.
  • the modulator / demodulator 104 digitally modulates the encoded audio signal, Send to wireless transmission unit 105.
  • Radio transmission section 105 performs a predetermined radio transmission process on the modulated signal. This signal is transmitted via antenna 106.
  • the received signal received by antenna 107 is subjected to predetermined wireless reception processing by wireless receiving section 108, and sent to modem 104.
  • the modulation and demodulation section 104 performs demodulation processing on the received signal, and outputs the demodulated signal to the speech decoding section 109.
  • Speech decoding section 109 performs decoding processing on the demodulated signal to obtain a digitized decoded speech signal, and outputs the digitized decoded speech signal to DZA converter 110.
  • the D / A converter 110 converts the digitized decoded audio signal output from the audio decoding unit 109 to an analog audio signal and outputs the analog audio signal to an audio output device 111 such as a speaker.
  • the audio output device 111 converts the electrical analog audio signal into audio and outputs it.
  • Speech encoding section 103 shown in FIG. 3 has the configuration shown in FIG.
  • FIG. 4 is a block diagram showing a configuration of the speech encoding unit according to Embodiment 1 of the present invention.
  • the sound / silence determiner 201 determines whether the input audio signal is a sound section or a silent section (noise only section), and outputs the determination result to the DTX control and multiplexer 204. .
  • the sound / no-sound judging unit 201 may be an arbitrary unit, and is generally determined by using the power of an input signal, the instantaneous amount or change amount of a plurality of parameters such as a spectrum and a pitch period, and the like. A determination is made.
  • the voice encoder 202 detects the input voice signal in the voiced section including the voice signal and the noise signal. Then, the encoded data is output to the DTX control and multiplexer 204.
  • the speech encoder 202 is an encoder for a voiced section, and may be any encoder as long as it encodes speech with high efficiency.
  • the noise signal encoder 203 detects the noise signal with respect to the input signal in a silent section including only the noise signal. DTX control and information on the noise model that represents the input noise signal and a flag indicating whether or not to update the noise model.
  • the DTX control and multiplexer 204 uses the outputs from the voiced Z silence determiner 201, speech encoder 202, and noise signal encoder 203 as transmission data. It controls the information to be transmitted and multiplexes the transmission information, and outputs it as transmission data.
  • the noise signal encoder 203 in FIG. 4 has the configuration shown in FIG.
  • FIG. 5 is a block diagram showing a configuration of the noise signal encoder of the speech encoder according to Embodiment 1 of the present invention.
  • the noise signal analyzer 301 performs signal analysis on the noise signal input at certain intervals, and calculates analysis parameters for the noise signal.
  • the analysis parameters to be extracted are parameters necessary to represent the statistical features of the input signal.For example, short-time spectra obtained by FFT (Fast Fourier Transform) for short-term signals, Input power, LPC spectrum parameters, etc.
  • the noise model parameter that should represent the currently input noise signal changes from the noise model parameter stored in the noise model storage unit 302. Detect if it is.
  • the noise model parameter is information on a noise model that can express a statistical feature amount of the input noise signal.
  • the statistical feature amount such as an average spectrum and a variance value of a short-time spectrum is expressed as a noise model parameter. This is information when expressed by a statistical model such as HMM.
  • the noise model change detection unit 303 stores the analysis parameters for the current input signal obtained by the noise signal analysis unit 301 in the noise model stored as a noise model representing the previous input signal. (E.g., in the case of the HMM model, whether or not the output probability of the analysis parameters for the current input signal is greater than or equal to a specified value), and a noise model that should represent the currently input noise signal If it is determined that the parameters have changed from the stored noise model, a flag indicating whether or not to update the noise model and information to be updated (update information) are included in the noise model. Output to the file update unit 304.
  • the external update permission flag is a flag for externally instructing whether or not to allow the noise model update.
  • the external update permission flag is used in a speech encoding unit according to the present invention, which will be described later, during transmission of encoded data in a voiced section. When the transmission of the noise model parameter is not performed, updating of the noise model is not permitted.
  • the noise model update information is stored in the noise model storage unit 302 before or after the updated noise model parameter as noise model update information.
  • the information of only the change from the stored noise model parameter is output, and the noise model storage unit 302 is updated using the output information.
  • the noise model update flag indicates non-update, no update is performed and no update information is output.
  • audio decoding section 109 shown in FIG. 3 has the configuration shown in FIG.
  • FIG. 6 is a block diagram showing a configuration of the speech decoding device according to Embodiment 1 of the present invention.
  • the demultiplexing and DTX controller 401 receives the transmission data coded and transmitted for the input signal on the coding side as reception data, and uses the reception data for voice decoding necessary for voice decoding and noise generation.
  • the data or noise model parameters are separated into a voiced / no-voice determination flag and a noise model update flag.
  • voice decoding is performed from the voice coded data by the voice decoder 402, and the decoded voice is output to the output switch 404. .
  • the voiced / silent determination flag indicates a silent period
  • a noise signal is generated from the noise model parameter and the noise model update flag by the noise signal generator 403, and the noise signal is output.
  • the output switch 404 switches and outputs the output of the speech decoder 402 and the output of the noise signal generator 403 in accordance with the result of the voiced / silent determination flag. , And output signals.
  • the noise signal generator 403 in FIG. 6 has the configuration shown in FIG. Figure 7 shows FIG. 3 is a block diagram showing a configuration of a noise signal generator of the speech decoding device according to Embodiment 1 of the present invention.
  • the noise model update flag and the noise model parameter (in the case of model update) output from the noise signal encoder 203 shown in FIG. 5 are input to the noise model update unit 501.
  • the noise model update unit 501 when the noise model update flag indicates update, using the input noise model parameter and the previous noise model parameter held in the noise model storage unit 502, The noise model is updated, and the updated noise model parameters are newly stored in the noise model storage unit 502.
  • the noise signal generation unit 503 generates and outputs a noise signal based on the information in the noise model storage unit 502.
  • the noise is generated based on the information obtained by modeling the statistical features in a single parameter so that the generated noise signal is an appropriate signal as an output from the model.
  • signal parameters for example, short-time spectrum
  • a noise signal is generated based on the output. ⁇ Output.
  • FIG. 8 is a flowchart showing a flow of processing of the audio signal encoding method according to Embodiment 1.
  • the present process shown in FIG. 8 is repeatedly performed for each frame in a fixed short section (for example, about 10 to 50 ms).
  • step (hereinafter abbreviated as ST) 101 an audio signal is input in frame units.
  • ST102 a sound / no-sound determination is performed on the input signal, and the determination result is output.
  • the voice coding process is performed on the input voice signal by ST 104 and the coded data is output.
  • ST 105 a noise signal encoding process is performed on the input signal by the noise signal encoder, and the input noise is reduced. Outputs information about the noise model representing the sound signal and a flag indicating whether to update the noise model.
  • the encoding process of the noise signal will be described later.
  • control of information to be transmitted as transmission data and multiplexing of transmission information are performed using outputs obtained as a result of the voice / non-speech determination, voice encoding processing, and noise signal encoding processing.
  • ST107 output as transmission data overnight.
  • FIG. 9 is a flowchart showing a flow of processing of the noise signal encoding method in the audio signal encoding method according to the present embodiment. In this method, it is assumed that the processing shown in FIG. 9 is repeatedly performed for each frame in a fixed short section (for example, about 10 to 50 ms).
  • a noise signal in frame units is input.
  • ST202 a signal analysis is performed on the noise signal in units of frames, and an analysis parameter for the noise signal is calculated.
  • ST 203 it is detected whether or not the noise model has changed from the analysis parameter. If it is determined that the noise model has changed, the noise model is updated in ST 205.
  • ST 206 updates the noise model storage unit 302 using the output information.
  • the noise signal is modeled with a noise model that can be expressed by statistical features, so that the background noise signal is degraded audibly. It is possible to generate a small number of decoded signals.
  • faithful encoding of the input signal waveform is not required, and low bit rate is transmitted by transmitting only the section in which the noise model parameter corresponding to the input signal changes.
  • WO 00/77774 ⁇ Q PCT / JPOO / 03526 enables highly efficient encoding.
  • encoding is performed by a speech encoder capable of encoding a speech signal with high quality in a sound section, and highly efficient and audible in a silent section.
  • a speech encoder capable of encoding a speech signal with high quality in a sound section, and highly efficient and audible in a silent section.
  • FIG. 10 is a block diagram showing a configuration of an audio signal encoding unit according to Embodiment 2 of the present invention.
  • the speech Z noise signal separator 801 separates the input speech signal into a speech signal and a background noise signal superimposed on the speech signal.
  • the speech Z noise signal separator 8 0 1 may be any.
  • a method of this separation a method called spectrum subtraction is used to separate the input signal into a noise-suppressed speech signal and a noise signal by reducing the noise spectrum in the frequency domain from the input signal.
  • voice and noise is a method to separate voice and noise from the input signal from the signal input device.
  • the voiced Z silence determiner 802 determines from the separated voice signal obtained from the voice / noise signal separator 801 whether it is a voiced section or a voiceless section (a section including only noise). The result of the determination is output to the speech encoder 803 and the DTX control and multiplexer 805. Note that the configuration may be such that the determination is made using the input signal before separation.
  • the voiced Z silence determiner 802 may be an arbitrary one. This determination is generally made using the power of the input signal, the instantaneous amount or change amount of a plurality of parameters such as the spectrum and the pitch period, and the like.
  • the voice encoder 803 separates the voiced Z noise signal from the voiced Z noise signal separator 801 after the separation.
  • the audio signal is encoded by the audio encoder 803 only for the voiced section of the audio signal, and the encoded data is output to the DTX control and multiplexer 805.
  • This speech encoder 803 is a speech section encoder for encoding speech with high efficiency. Any encoder may be used.
  • the noise signal encoder 804 uses the noise signal coder 804 over the entire interval for the separated noise signal obtained from the speech Z noise signal separator 801 to encode the noise signal. It outputs information about the noise model representing the input noise signal and a flag indicating whether to update the noise model.
  • the speech Z noise signal encoder 801 is the one shown in FIG. 5 described in the first embodiment.
  • the voiced Z silence determination result flag input to the noise signal encoder 804 is not allowed to update the noise model in the noise signal encoder 804. As a flag, do not update the model.
  • the DTX control and multiplexer 805 uses the outputs from the voiced Z silence determiner 802, the voice coder 803 and the noise signal coder 804 as transmission data. It controls the information to be transmitted and multiplexes the transmission information, and outputs it as transmission data.
  • FIG. 11 is a block diagram showing a configuration of an audio signal decoding apparatus according to Embodiment 2.
  • the transmission data encoded and transmitted with respect to the input signal on the encoding side is received as received data, and speech decoding and Separation into speech coded data or noise model parameters necessary for noise generation, voiced Z silence determination flag, and noise model update flag.
  • voice decoding is performed from the coded voice data by the voice decoder 902, and the decoded voice is added to the voice / noise signal adder 90. Output to 4.
  • the noise signal generator 903 generates a noise signal from the noise model parameters and the noise model update flag, and outputs the noise signal to the speech Z noise signal adder 904. Then, the output of the speech decoder 902 and the output of the noise signal generator 903 are added by the speech Z noise signal adder 904, and the output signal I do.
  • an input signal in frame units is input.
  • the input audio signal is separated into an audio signal and a background noise signal superimposed on the audio signal.
  • the input signal or the separated audio signal obtained in ST302 is subjected to voiced / silent determination, and the determination result is output (ST304).
  • the speech encoder performs speech encoding on the separated speech signal obtained in ST 302, and performs the encoding process. Output data.
  • the noise signal after the separation obtained in ST302 is subjected to noise signal encoding processing by the noise signal encoder, and information on the noise model representing the input noise signal is obtained. Outputs a flag indicating whether to update the noise model.
  • encoding is performed by the audio encoder capable of encoding the audio signal with high quality in the voiced section, and the audio signal is highly encoded with respect to the noise signal.
  • the noise signal coder described in Embodiment 1 with high efficiency and little audible deterioration, high quality and high efficiency coding can be performed even in a background noise environment.
  • superimposed background noise is removed from the audio signal input to the audio encoder, and Intervals can be coded with higher quality or with higher efficiency.
  • FIG. 13 is a block diagram showing a configuration of a speech encoding unit according to Embodiment 3 of the present invention.
  • the configuration on the decoding side in the present embodiment is the same as the configuration of the audio signal decoding device shown in FIG.
  • the input signal analyzer 111 analyzes the input signal input for each certain section and calculates an analysis parameter for the input signal.
  • the feature parameters to be extracted are parameters needed to represent the statistical features of the input signal and parameters representing the voice features.
  • the parameters required to represent the statistical features include, for example, short-time spectra obtained by FFT for short-term signals, input power, and LPC spectrum parameters.
  • the parameters representing the speech characteristics include LPC parameters, input power, pitch periodicity information, and the like.
  • the noise model is updated when the input signal is a sound section or a silent section (noise-only section) and a silent section. To determine whether to transmit update information.
  • the voice model storage unit 1102 pre-creates and stores a voice feature pattern.
  • the voice feature pattern include LPC parameters in a voice (voiced) interval.
  • the noise model parameter is information on a noise model that can express a statistical feature amount of an input noise signal. For example, statistical information such as an average spectrum and a variance of a short-time spectrum is used. This is the information when the features are represented by a statistical model such as HMM.
  • the analysis parameters are valid as an output from the noise model stored as a noise model representing the signal in the previous noise interval (for example, in the case of the HMM model, the output probability of the analysis parameter for the current input signal is Is greater than or equal to the specified value), and whether it is in the voice (voiced) section from the parameter that represents the voice characteristics of the input signal.
  • the mode determinator 1104 determines that the time period is a voiced section, the voice coder 1105 performs voice coding on the input signal, and the coded data is transmitted to the DTX control and multiplexer 1107. Output to On the other hand, when the mode determiner 1104 determines that the information is in a silent section and transmits the noise model update information, the noise model is updated by the noise model updater 1106, and the updated noise model is updated. The information is output to DTX control and multiplexer 1107.
  • the DTX control and multiplexer 1107 controls the information to be transmitted as transmission data and multiplexes the transmission information using the output from the speech coder and the noise model updater 1106. And output the transmission data.
  • the process proceeds to next ST 405, where the speech signal obtained by analyzing the input signal is obtained. Judge whether it is a voice (voiced) section from one night of the feature parameter. If it is determined that the voice section is a voice section, the voice coder performs a process in ST406. Performs audio encoding processing, and outputs the encoded data.
  • the noise model is updated in ST407, and information on the updated noise model is output. If it is determined in ST 403 that the current input can be represented by the noise model currently held, the process proceeds to the next step without performing any processing. Then, in ST 408, control of information to be transmitted as transmission data and multiplexing of transmission information are performed using outputs from the speech encoder and the noise model updater. And output the transmission data.
  • the audio signal encoding apparatus by providing the mode determiner, it is possible to make a determination using the change in the statistical feature amount of the input signal and the audio feature pattern. It can be performed. Therefore, more accurate mode determination can be performed, and quality degradation due to a determination error can be suppressed.
  • a noise signal encoding device includes: an analyzer that performs signal analysis on a noise signal of a speech signal including a noise signal; a storage device that stores information about a noise model that represents the noise signal; A detector for detecting a change in information about the stored noise model based on a signal analysis result of the noise signal of the above; and, when a change in information about the noise model is detected, storing the information by an amount corresponding to the change in the change. And an updater for updating the information on the noise model obtained.
  • this configuration it is possible to generate a decoded signal that is less audibly degraded than the background noise signal by modeling the noise signal with a noise model that can be represented by statistical features.
  • this modeling eliminates the need for faithful encoding of the input signal waveform, transmission is performed only in the section in which the noise model parameter corresponding to the input signal changes, resulting in low bit rate and high efficiency. Encoding can be performed.
  • the analyzer extracts a statistical feature amount related to the noise signal, and the storage unit stores information capable of expressing the statistical feature amount as information related to the noise model. It adopts the configuration to do. 1b According to this configuration, a noise signal can be appropriately modeled, and highly efficient encoding can be efficiently performed at a low bit rate.
  • a speech signal encoding apparatus includes: a speech / silence determiner for determining whether an input speech signal is a speech section or a silent section including only a noise signal; and An audio encoder that performs audio encoding on an audio signal; the noise signal encoding device that encodes a noise signal with respect to the input signal when the determination result is silent; And a multiplexer that multiplexes an output from the noise signal encoding device.
  • coding is performed by a voice coder capable of coding a voice signal with high quality in a voiced section, and coding is performed by the above noise signal coding apparatus with high efficiency and little perceptual deterioration in a voiceless section.
  • high quality and high efficiency coding can be performed even in a background noise environment.
  • An audio signal encoding apparatus includes: an audio / noise signal separator for separating an input audio signal into an audio signal and a background noise signal superimposed on the audio signal; and the input audio signal or the audio Z noise.
  • a voiced Z silence determiner for determining from the voice signal obtained by the signal separator whether it is a voiced section or a voiceless section including only a noise signal; and a voice for the input voice signal when the determination result is voiced.
  • a speech encoder for performing encoding, the noise signal encoding apparatus for encoding a background noise signal obtained by the speech Z noise signal separator, the voiced Z silence determiner, the speech encoder, And a multiplexer for multiplexing the output from the noise signal encoding device.
  • the speech signal is encoded by the speech encoder capable of encoding the speech signal with high quality in the voiced section, and the noise signal encoding apparatus is highly efficient with respect to the noise signal and has little audible deterioration.
  • the speech Z noise signal separator it is possible to remove the superimposed background noise from the speech signal input to the speech encoder, and to make the voiced section higher in quality or more efficient. Encoded in can do.
  • An audio signal encoding device stores an analyzer that performs signal analysis on an input audio signal, and a voice characteristic pattern necessary to determine whether the input audio signal is a voiced signal.
  • a noise model storage for storing information on a noise model expressing a noise signal included in the input voice signal, and an output of the analyzer, the voice model storage, and the noise model storage.
  • a mode determiner for determining whether the input voice signal is a voiced section or a silent section including only a noise signal, and determining whether to update a noise model in the case of the silent section; and A speech coder that performs speech coding on an input speech signal when the determiner determines that the section is a voiced section, and a case where the mode determiner determines that the section is a silent section and updates the noise model.
  • the structure comprising a multiplexer for multiplexing the output from the speech coder and noise model updater, the.
  • the determination can be performed using the change in the statistical feature amount of the input signal and the voice feature pattern. Therefore, more accurate mode determination can be performed, and quality degradation due to a determination error can be suppressed.
  • the noise signal generating apparatus includes a noise model for updating a noise model when necessary according to a noise model parameter and a noise model update flag coded for an input noise signal on an encoding side.
  • An updater a noise model storage that stores information about the updated noise model using an output of the noise model updater, and a noise signal generated from the information about the noise model that is stored in the noise model storage.
  • a noise signal generator a noise signal generator.
  • the noise signal generation device of the present invention in the above configuration, wherein the noise model parameters input to the noise model updater and the information stored in the noise model storage are:
  • a configuration is adopted that is information that can represent a statistical feature amount related to a noise signal to be generated. According to this configuration, it is possible to generate a decoded signal that is less audibly degraded than the background noise signal by modeling the noise signal with a noise model that can be represented by statistical features.
  • An audio signal decoding apparatus receives an audio signal encoded on the encoding side, a signal including a noise model parameter, a sound / no-sound determination flag, and a noise model update flag.
  • a decoder, a noise signal generation device that generates a noise signal from the noise model parameter sequence and the noise model update flag when the voiced / silence determination flag indicates a silent section, and the speech decoder.
  • An output switch that switches between the decoded speech output from the device and the noise signal output from the noise signal generation device according to the voiced / silent determination flag and outputs the output as an output signal.
  • a configuration that includes a changing unit, a.
  • An audio signal decoding apparatus receives an audio signal encoded on an encoding side, a signal including a noise model parameter, a sound / no-speech determination flag, and a noise model update flag.
  • a noise model parameter a separator for separating a voiced / silent determination flag and a noise model update flag; and performing voice decoding on the voice data when the voiced / silence determination flag indicates a voiced section.
  • a speech decoder; the noise signal generation device for generating a noise signal from the noise model parameter sequence and the noise model update flag when the speech / silence determination flag indicates a silence section; and the speech decoding.
  • a speech signal / noise signal adder for adding the decoded speech output from the noise generator and the noise signal output from the noise signal generation device.
  • a decoded signal that is less audibly degraded than the background noise signal is obtained. Can be generated.
  • the audio signal and the noise signal superimposed on it are separated on the encoding side, then encoded by an encoder suitable for each signal, and the decoding side adds them to generate a decoded signal. Audio signals can be encoded with higher quality.
  • a speech signal encoding method includes: a speech / silence determination step of determining whether an input speech signal is a speech section or a speech section including only a noise signal; and A voice coding step of performing voice coding on an input voice signal; a noise signal coding step of coding a noise signal on the input signal when the determination result is silent; A decision step, the speech encoding step, and a multiplexing step of multiplexing an output in the noise signal encoding step.
  • the noise signal encoding step comprises: for the noise signal of a speech signal including a noise signal.
  • An analysis step of performing signal analysis on the basis of a signal a storage step of storing information on a noise model representing the noise signal, and a change in information on the stored noise model based on a signal analysis result of the current input noise signal.
  • Inspection Comprising a detection step of, when a change in the information about the noise model is detected, the update step of updating the information about the noise model that only the change amount of the change said stored, the.
  • coding is performed by voice coding means capable of coding a voice signal with high quality in a voiced section, and the noise signal coding of the first mode is highly efficient and has little audible deterioration in a voiceless section.
  • voice coding means capable of coding a voice signal with high quality in a voiced section
  • the noise signal coding of the first mode is highly efficient and has little audible deterioration in a voiceless section.
  • the audio signal encoding method includes: an audio signal for separating an input audio signal into an audio signal and a background noise signal superimposed on the audio signal; a noise signal separating step; A voice / silence determining step of determining from the voice signal obtained in the noise signal separating step whether it is a voiced section or a voiceless section including only a noise signal; and, if the determination result is voiced, voice is input to the input voice signal.
  • coding is performed by voice coding means capable of coding a voice signal with high quality in a voiced section, and the noise signal coding of the first mode is highly efficient and has little audible deterioration in a voiceless section.
  • Performing encoding by the encoding device enables high-quality and high-efficiency encoding even in a background noise environment.
  • the audio Z noise signal separation means it is possible to remove the superimposed background noise from the audio signal input to the audio encoding means, and to make the voiced section higher in quality or higher. Can be efficiently encoded.
  • An audio signal encoding method includes: an analyzing step of performing signal analysis on an input audio signal; and storing an audio feature pattern necessary to determine whether the input audio signal is a voiced signal.
  • the mode determination means by providing the mode determination means, the determination can be performed using the change in the statistical feature amount of the input signal and the feature pattern of the voice. Therefore, more accurate mode determination can be performed, and quality degradation due to a determination error can be suppressed.
  • the recording medium of the present invention comprises: a computer for analyzing a statistical feature of an input noise signal; storing information on a noise model expressing the statistical feature of the input noise signal; A machine-reading program that records a program for executing the procedure for detecting a change in the noise model representing the noise signal, the procedure for updating the noise model if necessary, and outputting information on the updated noise model. It is possible.
  • the noise signal is modeled by a noise model that can be expressed by statistical features, so that the background noise signal can be decoded with less audibility.
  • a signal can be generated.
  • the speech signal is encoded by a speech encoder capable of encoding a speech signal with high quality in a sound section, and the noise is less audible in a silent section with high efficiency.
  • a speech encoder capable of encoding a speech signal with high quality in a sound section, and the noise is less audible in a silent section with high efficiency.
  • the present invention can be applied to a base station device and a communication terminal device in a digital wireless communication system.

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)

Description

明 細 書 雑音信号符号化装置及び音声信号符号化装置 技術分野
本発明は、 音声信号を符号化して伝送する移動通信システムや音声録音装置 等の用途に用いられる低ビットレート音声信号符号化装置に関する。 背景技術
ディジタル移動通信や音声蓄積の分野においては、 電波や記憶媒体の有効利 用のために音声情報を圧縮し、 低いビットレートで符号化する音声符号化装置 が用いられている。 そのような従来の技術として、 I TU— T勧告 G. 729 "Coding of speech at 8kbit/s using conjugate- structure algebraic - code - excited linear-prediction ( CS-ACELP ) " ) の C S 一 ACE LP符号化方式や、同じく I TU— T勧告の G. 729 Annex B(" A silence compression scheme for G.729 optimized for terminals conforming to Recommendation V.70" ) の D T X (Discontinuous Transmission )制御付きの CS—ACELP符号化方式がある。
図 1は、 従来の C S -ACE L P符号化方式の符号化装置の構成を示すプロ ック図である。 図 1において、 入力音声信号に対して LP C分析 ·量子化器 1 で LPC (線形予測) 分析及び量子化を行い、 L PC係数及び LP C量子化符 号を出力する。
そして、 適応音源符号帳 2及び固定音源符号帳 3から取り出された適応音源 信号及び固定音源信号にゲイン符号帳 4から取り出されたゲインを乗じて加 算し、 L PC合成フィル夕 7により音声合成を行い、 入力信号に対する誤差信 号を聴覚重み付けフィル夕 9により重み付けを行い、 重み付け後の誤差が最小 となる適応音源符号、 固定音源符号、 ゲイン符号を LP C量子化符号と共に符 号化データとして出力する。 なお、 図 1において、 参照符号 5は乗算器であり、 参照符号 6は加算器であり、 参照符号 8は減算器である。
図 2は、 従来の D T X制御付き CS— ACELP符号化方式の符号化装置の 構成を示すブロック図である。 まず、 有音/無音判定器 1 1により入力信号が 有音区間か無音区間 (背景雑音のみの区間) かの判定を行う。 そして、 有音 Z 無音判定器 1 1により有音と判定された場合、 CS— ACELP音声符号化器 12により有音区間の音声符号化を行う。 なお、 CS— ACELP音声符号化 器 12は、 図 1に示す構成となっている。
一方、 有音 Z無音判定器 1 1により無音と判定された場合、 無音区間符号化 器 13により符号化を行う。 この無音区間符号化器 13は、 入力信号から有音 区間の符号化と同様な L P C係数と入力信号の L P C予測残差エネルギーを 算出し、 それらを無音区間の符号化データとして出力する。
D T X制御及び多重化器 14は、 有音 Z無音判定器 1 1、 CS— ACELP 音声符号化器 12及び無音区間符号化器 13の出力から、 送信データとして送 信すべきデータを制御し、 多重化して送信データとして出力する。
しかしながら、 上記従来の CS_ ACELP符号化器では、 音声符号化器が 音声特有の冗長性を利用して 8 k b p sという低ビットレートで符号化を行 つているため、 背景雑音が重畳されないクリーンな音声信号が入力された場合 には、 高品質な符号化が可能であるが、 入力信号として周囲の背景雑音が重畳 された音声信号が入力された場合、 背景雑音信号を符号化した際にその復号信 号の品質が劣化するという問題がある。
また、 上記従来の DTX制御付き CS— ACELP符号化器においては、 有 音区間のみ CS— ACELP符号化器により符号化を行い、 無音区間 (雑音の みの区間) は、 専用の無音区間符号化器で音声符号化器より少ないビットレー 卜で符号化を行うことで、 伝送する平均ビットレートを低減する。 しなしなが ら、 無音区間符号化器が音声符号化器と同様な信号モデル (短区間 (10〜5 0ms程度) 毎に AR型の合成フィルタ (LPC合成フィルタ) を雑音信号で 駆動することで復号信号を生成する) で符号化を行っているため、 上記従来の C S - A C E L P符号化器と同様に、 背景雑音が重畳された音声信号に対して は復号信号の品質が劣化するという問題がある。 発明の開示
本発明の目的は、 背景雑音が重畳された音声信号に対しても復号信号の品質 の劣化が少なく、 かつ伝送に必要な平均ビットレートも低減することのできる 音声信号の符号化装置及び復号装置を提供することである。
本発明の主題は、 無音区間 (雑音のみの区間) の入力信号に対する統計的特 徴量を算出し、 入力雑音信号に関する統計的特徴量を表現できるような雑音モ デルに関する情報を記憶し、 入力雑音信号を表す雑音モデルパラメ一夕が変化 したかどうかを検出し、 雑音モデルの更新を行うことにより、 背景雑音が重畳 された音声信号に対しても復号信号の品質の劣化が少なく、 かつ伝送に必要な 平均ビットレートも低減することである。 図面の簡単な説明
図 1は、 従来の音声信号符号化装置の構成を示すブロック図;
図 2は、 従来の音声信号符号化装置の構成を示すブロック図;
図 3は、 本発明の実施の形態に係る音声信号符号化装置及び音声信号複号化 装置を備えた無線通信システムの構成を示すブロック図;
図 4は、 本発明の実施の形態 1に係る音声信号符号化装置の構成を示すプロ ック図;
図 5は、 本発明の実施の形態 1に係る雑音信号符号化装置の構成を示すプロ ック図;
図 6は、 本発明の実施の形態 1に係る音声信号複号化装置の構成を示すプロ ック図;
図 7は、 本発明の実施の形態 1に係る音声信号復号化装置における雑音信号 生成器の構成を示すブロック図;
図 8は、 本発明の実施の形態 1に係る音声信号符号化方法の処理の流れを示 すフローチヤ一ト;
図 9は、 本発明の実施の形態 1に係る雑音信号符号化方法の処理の流れを示 すフローチヤ一ト ;
図 1 0は、 本発明の実施の形態 2に係る音声信号符号化装置の構成を示すブ ロック図;
図 1 1は、 本発明の実施の形態 2に係る音声信号複号化装置の構成を示すブ ロック図;
図 1 2は、 本発明の実施の形態 2に係る音声信号符号化方法の処理の流れを 示すフローチヤ一ト ;
図 1 3は、 本発明の実施の形態 3に係る音声信号符号化装置の構成を示すブ ロック図;並びに
図 1 4は、 本発明の実施の形態 3に係る音声信号符号化方法の処理の流れを 示すフローチャートである。 発明を実施するための最良の形態
以下、 本発明の実施の形態について、 添付図面を参照して詳細に説明する。 (実施の形態 1 )
図 3は、 本発明の実施の形態 1に係る音声信号符号化装置を備えた無線通信 装置の構成を示すブロック図である。
この無線通信装置において、 送信側で音声がマイクなどの音声入力装置 1 0 1によって電気的アナログ信号に変換され、 AZD変換器 1 0 2に出力される。 アナログ音声信号は、 AZD変換器 1 0 2によってディジタル音声信号に変換 され、 音声符号化部 1 0 3に出力される。 音声符号化部 1 0 3は、 ディジタル 音声信号に対して音声符号化処理を行い、 符号化した情報を変復調部 1 0 4に 出力する。 変復調部 1 0 4は、 符号化された音声信号をディジタル変調して、 無線送信部 1 0 5に送る。 無線送信部 1 0 5では、 変調後の信号に所定の無線 送信処理を施す。 この信号は、 アンテナ 1 0 6を介して送信される。
一方、 無線通信装置の受信側では、 アンテナ 1 0 7で受信した受信信号は、 無線受信部 1 0 8で所定の無線受信処理が施され、 変復調部 1 0 4に送られる。 変復調部 1 0 4では、 受信信号に対して復調処理を行い、 復調後の信号を音声 復号化部 1 0 9に出力する。 音声復号化部 1 0 9は、 復調後の信号に復号処理 を行ってディジ夕ル復号音声信号を得て、 そのディジ夕ル復号音声信号を DZ A変換器 1 1 0へ出力する。 D/A変換器 1 1 0は、 音声復号化部 1 0 9から 出力されたディジ夕ル復号音声信号をアナログ音声信号に変換してスピーカ などの音声出力装置 1 1 1に出力する。 最後に音声出力装置 1 1 1が電気的ァ ナログ音声信号を音声に変換して出力する。
図 3に示す音声符号化部 1 0 3は、 図 4に示す構成を有する。 図 4は、 本発 明の実施の形態 1に係る音声符号化部の構成を示すブロック図である。
有音 無音判定器 2 0 1において、 入力音声信号に対して有音区間か無音区 間 (雑音のみの区間) かを判定し、 その判定結果を D T X制御及び多重化器 2 0 4に出力する。 有音ノ無音判定器 2 0 1は任意のものでよく、 一般には、 入 力信号のパワー、 スぺクトルやピッチ周期などの複数のパラメ一夕の瞬時量ま たは変化量等を用いて判定が行われる。
そして、 前記有音 Z無音判定器 2 0 1による判定結果が有音である場合には、 音声符号化器 2 0 2により、 音声信号と雑音信号が含まれる有音区間において 入力音声信号に対して音声符号化を行い、 その符号化データを D T X制御及び 多重化器 2 0 4に出力する。 この音声符号化器 2 0 2は、 有音区間用の符号化 器であり、 音声を高能率に符号化するものであれば任意の符号化器でよい。 一方、 前記有音 Z無音判定器 2 0 1による判定結果が無音である場合には、 雑音信号符号化器 2 0 3により、 雑音信号のみが含まれる無音区間において入 力信号に対して雑音信号の符号化を行い、 入力雑音信号を表現する雑音モデル に関する情報と、 雑音モデルの更新をするかどうかのフラグとを D T X制御及 び多重化器 2 0 4に出力する。 最後に、 D T X制御及び多重化器 2 0 4により、 前記有音 Z無音判定器 2 0 1、 音声符号化器 2 0 2及び雑音信号符号化器 2 0 3からの出力を用いて送信データとして送信すべき情報の制御と送信情報の 多重化を行い、 送信データとして出力する。
図 4における雑音信号符号化器 2 0 3は、 図 5に示す構成を有する。 図 5は、 本発明の実施の形態 1に係る音声符号化部の雑音信号符号化器の構成を示す ブロック図である。
雑音信号分析部 3 0 1により、 ある一定区間毎に入力された雑音信号に対し て信号分析を行い、 雑音信号に対する分析パラメータを算出する。 抽出する分 析パラメ一夕としては、 入力信号に関する統計的特徴量を表すのに必要なパラ メータであり、 例えば、 短区間信号に対して F F T ( Fast Fourier Transform )により求めた短時間スペクトルや、 入力パワー、 L P Cスぺクト ルパラメ一夕等がある。
次に、 雑音モデル変化検出部 3 0 3において、 現在入力された雑音信号を表 すべき雑音モデルパラメ一夕が、 雑音モデル記憶部 3 0 2により保持されてい る雑音モデルパラメ一夕から変化しているかどうかを検出する。
ここで、 雑音モデルパラメ一夕とは、 入力雑音信号に関する統計的特徴量を 表現できるような雑音モデルに関する情報であり、 例えば、 短時間スペクトル の平均スペクトルや分散値、 等の統計的特徴量を、 例えば HMMのような統計 モデルで表現した際の情報である。
そして、 雑音モデル変化検出部 3 0 3は、 雑音信号分析部 3 0 1により得ら れた現入力信号に対する分析パラメ一夕が、 それ以前の入力信号を表す雑音モ デルとして記憶された雑音モデルからの出力として妥当かどうか (例えば、 H MMモデルであれば現入力信号に対する分析パラメ一夕の出力確率が規定値 以上であるか) を判定し、 現在入力された雑音信号を表すべき雑音モデルパラ メータが記憶された雑音モデルから変化していると判定された場合に、 雑音モ デルの更新を行うかどうかのフラグと更新すべき情報 (更新情報) を雑音モデ ル更新部 3 0 4に出力する。
なお、 外部更新許可フラグは、 雑音モデル更新を許可するかどうかを外部か ら指示するフラグで、 後述する本発明における音声符号化部において、 有音区 間中の符号化データを送信する期間中等、 雑音モデルパラメ一夕の送信を行わ ないようにする際には、 雑音モデルの更新を不許可とする。
そして、 雑音モデル更新部 3 0 4において、 雑音モデル更新フラグが更新を 示す場合には、 雑音モデル更新情報として、 更新後の雑音モデルパラメ一夕ま たは以前に雑音モデル記憶部 3 0 2に記憶されている雑音モデルパラメ一夕 からの変化分のみの情報を出力すると共に、 その出力情報を用いて雑音モデル 記憶部 3 0 2の更新を行う。 一方、 雑音モデル更新フラグが非更新を示す場合 には、 更新を行わず、 更新情報を出力しない。
次に、 図 3に示す音声復号化部 1 0 9は、 図 6に示す構成を有する。 図 6は、 本発明の実施の形態 1に係る音声復号化装置の構成を示すプロック図である。 分離及び D T X制御器 4 0 1において、 符号化側で入力信号に対して符号化 され送信された送信データを受信データとして受信し、 この受信データを音声 復号及び雑音生成に必要な、 音声符号化データまたは雑音モデルパラメ一夕、 有音ノ無音判定フラグ及び雑音モデル更新フラグに分離する。
次いで、 前記有音 Z無音判定フラグが有音区間を示す場合には、 音声復号化 器 4 0 2により前記音声符号化データから音声復号を行い復号音声を出力切 替え器 4 0 4に出力する。
一方、 前記有音 無音判定フラグが無音区間を示す場合には、 雑音信号生成 器 4 0 3により前記雑音モデルパラメ一タ及び雑音モデル更新フラグから雑 音信号の生成を行し、 雑音信号を出力切替え器 4 0 4に出力する。 そして、 出 力切り替え器 4 0 4により、 前記音声復号化器 4 0 2の出力と前記雑音信号生 成器 4 0 3の出力を、 有音 Z無音判定フラグの結果に応じて切り替えて出力し、 出力信号とする。
図 6における雑音信号生成器 4 0 3は、 図 7に示す構成を有する。 図 7は、 本発明の実施の形態 1に係る音声複号化装置の雑音信号生成器の構成を示す ブロック図である。
図 5に示す雑音信号符号化器 2 0 3から出力された、 雑音モデル更新フラグ 及び雑音モデルパラメータ (モデル更新の場合) が雑音モデル更新部 5 0 1に 入力される。 雑音モデル更新部 5 0 1においては、 前記雑音モデル更新フラグ が更新を示している場合、 前記入力雑音モデルパラメータ及び雑音モデル記憶 部 5 0 2で保持されている以前の雑音モデルパラメータを用いて、 雑音モデル の更新を行い、 更新後の雑音モデルパラメ一夕を雑音モデル記憶部 5 0 2にて 新たに記憶する。
雑音信号生成部 5 0 3では、 雑音モデル記憶部 5 0 2の情報をもとに、 雑音 信号を生成し出力する。 雑音生成は、 統計的特徴量をパラメ一夕にモデル化さ れた情報をもとに、 生成される雑音信号がそのモデルからの出力として妥当な 信号となるように生成される。 例えば、 統計モデルとして HMMを用いた場合、 その状態遷移確率及びパラメータ出力確率等に従って、 生成に必要な信号パラ メータ (例えば、 短時間スペクトル) を確率的に出力し、 それに基づき雑音信 号を生成 ·出力する。
次に、 上記構成を有する音声符号化部及び音声復号化部の動作について説明 する。 図 8は、 実施の形態 1に係る音声信号の符号化方法の処理の流れを示す フローチャートである。 なお、 本方法では、 図 8に示す本処理を、 一定短区間 (例えば、 1 0〜5 0 m s程度) のフレーム毎に繰り返して行うものとする。 まず、 ステップ (以下 S Tと省略する) 1 0 1において、 フレーム単位の音 声信号を入力する。 次に、 S T 1 0 2にて、 入力信号に対する有音ノ無音判定 を行い、 その判定結果を出力する。 そして、 その判定結果が有音である場合に は、 S T 1 0 4により入力音声信号に対して音声符号化処理を行いその符号化 データを出力する。
一方、 S T 1 0 3における判定結果が無音である場合には、 S T 1 0 5にて、 入力信号に対して雑音信号符号化器による雑音信号符号化処理を行い、 入力雑 音信号を表現する雑音モデルに関する情報と雑音モデルの更新を行うかどう かのフラグを出力する。 なお、 雑音信号の符号化処理については後述する。 そして、 S T 1 0 6において、 前記有音ノ無音判定、 音声符号化処理及び雑 音信号符号化処理の結果得られた出力を用いて送信データとして送信すべき 情報の制御と送信情報の多重化を行い、 最後に S T 1 0 7にて、 送信デ一夕と して出力する。
図 9は、 本実施の形態に係る音声信号の符号化方法における雑音信号符号化 方法の処理の流れを示すフローチャートである。 なお、 本方法では、 図 9に示 す本処理を、 一定短区間 (例えば、 1 0〜5 0 m s程度) のフレーム毎に繰り 返して行うものとする。
S T 2 0 1において、 フレーム単位の雑音信号を入力する。 次に、 S T 2 0 2において、 フレーム単位の雑音信号に対して信号分析を行い、 雑音信号に対 する分析パラメ一夕を算出する。 そして、 S T 2 0 3において、 分析パラメ一 夕から雑音モデルの変化があるかどうかの検出を行い、 雑音モデルが変化した と判定された場合、 S T 2 0 5にて、 雑音モデルの更新をするかどうかのフラ グ (更新あり) と更新すべき情報 (更新情報) を出力すると共に、 S T 2 0 6 にて、 その出力情報を用いて雑音モデル記憶部 3 0 2の更新を行う。
一方、 S T 2 0 4にて、 雑音モデルの変化なしと判定された場合には、 S T 2 0 7にて、 雑音モデルの更新をするかどうかのフラグ (更新なし) のみ出力 する。 なお、 S T 2 0 3において、 外部から別途入力される外部更新許可フラ グが不許可の場合、 モデル変化なしとして雑音モデルパラメ一夕の送信を行わ ないようにする。
このように、 本実施の形態に係る雑音符号化方法によれば、 雑音信号を統計 的特徴量で表現できるような雑音モデルでモデル化することにより、 背景雑音 信号に対して聴感的に劣化の少ない復号信号を生成することができる。 また、 入力信号波形に対する忠実な符号化が不要であると共に、 入力信号に対応する 雑咅モデルパラメ一夕が変化する区間のみ伝送することにより、 低ビットレー WO 00/77774 ^ Q PCT/JPOO/03526 トで高効率な符号化を行うことができる。
また、 本実施の形態に係る音声信号の符号化方法によれば、 有音区間では音 声信号を高品質で符号化できる音声符号化器で符号化を行い、 無音区間では高 効率で聴感的に劣化が少ない雑音信号符号化器で符号化を行うことにより、 背 景雑音環境下においても高品質 ·高効率な符号化を行うことができる。
(実施の形態 2 )
図 1 0は、 本発明の実施の形態 2に係る音声信号の符号化部の構成を示すブ 口ック図である。
この音声符号化部 1 0 3においては、 音声 Z雑音信号分離器 8 0 1で、 入力 音声信号を、 音声信号と音声信号に重畳している背景雑音信号とに分離する。 音声 Z雑音信号分離器 8 0 1は、 任意のものでよい。 この分離方法としては、 スぺクトルサブトラクシヨンと呼ばれる、 入力信号から周波数領域で雑音スぺ クトルを減ずることで、 入力信号を雑音抑圧後の音声信号と雑音信号とに分離 する方法や、 複数の信号入力器からの入力信号から音声と雑音の分離を行う方 法などが考えられる。
次に、 有音 Z無音判定器 8 0 2において、 前記音声/雑音信号分離器 8 0 1 から得られる分離後の音声信号から有音区間か無音区間 (雑音のみの区間) か を判定し、 その判定結果を音声符号化器 8 0 3及び D T X制御及び多重化器 8 0 5に出力する。 なお、 分離前の入力信号を用いて判定を行う構成でもよい。 有音 Z無音判定器 8 0 2は任意のものでよい。 この判定は、 一般には、 入力信 号のパワー、 スぺクトルやピッチ周期などの複数のパラメ一夕の瞬時量または 変化量等を用いて判定が行われる。
そして、 前記有音 Z無音判定器 8 0 2による判定結果が有音である場合には、 音声符号化器 8 0 3により、 前記音声 Z雑音信号分離器 8 0 1から得られる分 離後の音声信号に対して有音区間のみ音声符号化器 8 0 3で音声信号の符号 化を行い、 その符号化データを D T X制御及び多重化器 8 0 5に出力する。 こ の音声符号化器 8 0 3は、 有音区間用の符号化器で、 音声を高能率に符号化す る任意の符号化器でよい。
一方、 雑音信号符号化器 8 0 4により、 前記音声 Z雑音信号分離器 8 0 1か ら得られる分離後の雑音信号に対して全区間にわたって雑音信号符号化器 8 0 4で雑音信号の符号化を行い、 入力雑音信号表現する雑音モデルに関する情 報と雑音モデルの更新をするかどうかのフラグを出力する。 音声 Z雑音信号符 号化器 8 0 1は、 実施の形態 1にて説明した図 5に示すものである。
なお、 有音 Z無音判定結果が有音である場合、 雑音信号符号化器 8 0 4に入 力される有音 Z無音判定結果フラグを雑音信号符号化器 8 0 4における雑音 モデル更新不許可フラグとして、 モデル更新を行わないようにする。
最後に、 D T X制御及び多重化器 8 0 5により、 前記有音 Z無音判定器 8 0 2、 音声符号化器 8 0 3及び雑音信号符号化器 8 0 4からの出力を用いて送信 データとして送信すべき情報の制御と送信情報の多重化を行い、 送信デ一夕と して出力する。
図 1 1は、 実施の形態 2に係る音声信号の復号化装置の構成を示すブロック 図である。
図 1 1に示す復号化装置においては、 分離及び D T X制御器 9 0 1において、 符号化側で入力信号に対して符号化され送信された送信デ一夕を受信データ として受信し、 音声復号及び雑音生成に必要な、 音声符号化データまたは雑音 モデルパラメ一夕、 有音 Z無音判定フラグ及び雑音モデル更新フラグに分離す る。
次に、 前記有音 Z無音判定フラグが有音区間を示す場合には、 音声復号化器 9 0 2により前記音声符号化データから音声復号を行い復号音声を音声/雑 音信号加算器 9 0 4に出力する。
一方、 雑音信号生成器 9 0 3により前記雑音モデルパラメ一夕及び雑音モデ ル更新フラグから雑音信号の生成を行い、 雑音信号を音声 Z雑音信号加算器 9 0 4に出力する。 そして、 音声 Z雑音信号加算器 9 0 4により、 前記音声復号 化器 9 0 2の出力と前記雑音信号生成器 9 0 3の出力とを加算し、 出力信号と する。
次に、 図 1 2を参照して、 実施の形態 2に係る音声信号の符号化方法の処理 の流れを説明する。なお、本方法では、図 1 2に示す本処理を、一定短区間(例 えば、 1 0〜5 0 m s程度) のフレーム毎に繰り返して行うものとする。
まず、 S T 3 0 1において、 フレーム単位の入力信号を入力する。 次いで、 S T 3 0 2にて、 入力音声信号を、 音声信号と音声信号に重畳している背景雑 音信号とに分離する。 そして、 S T 3 0 3において、 入力信号または S T 3 0 2で得られた分離後の音声信号に対して有音 無音判定を行い、 その判定結果 を出力する (S T 3 0 4 ) 。
そして、 判定結果が有音である場合には、 S T 3 0 5において、 S T 3 0 2 で得られた分離後の音声信号に対して音声符号化器による音声符号化処理を 行い、 その符号化データを出力する。 次いで、 S T 3 0 2で得られた分離後の 雑音信号に対して、 S T 3 0 6にて、 雑音信号符号化器による雑音信号符号化 処理を行い、 入力雑音信号表現する雑音モデルに関する情報と雑音モデルの更 新をするかどうかのフラグを出力する。
S T 3 0 3における有音 Z無音判定結果が有音である場合、 S T 3 0 6にて 行う雑音信号符号化処理において、 モデル更新を行わないようにする。 そして、 S T 3 0 7において、 前記有音 Z無音判定、 音声符号化処理及び雑音信号符号 化処理の結果得られた出力を用いて送信データとして送信すべき情報の制御 と送信情報との多重化を行い、 最後に S T 3 0 8にて送信データとして出力す る。
このように、 本実施の形態の音声信号の符号化装置によれば、 有音区間では 音声信号を高品質で符号化できる音声符号化器で符号化を行い、 雑音信号に対 しては高効率で聴感的に劣化が少ない実施の形態 1記載の雑音信号符号化器 で符号化を行うことにより、 背景雑音環境下においても高品質'高効率な符号 化を行うことができ、 さらに音声 Z雑音信号分離器を設けることにより、 前記 音声符号化器に入力される音声信号から重畳された背景雑音が除去され、 有音 区間をより高品質にまたはより高効率に符号化することができる。
(実施の形態 3 )
図 1 3は、 本発明の実施の形態 3に係る音声符号化部の構成を示すブロック 図である。 なお、 本実施の形態における復号側の構成は、 図 6に示す音声信号 の復号装置の構成と同一である。
入力信号分析器 1 1 0 1により、 ある一定区間毎に入力された入力信号に対 して信号分析を行い、 入力信号に対する分析パラメ一夕を算出する。 抽出する 特徴パラメ一夕としては、 入力信号に関する統計的特徴量を表すのに必要なパ ラメ一夕及び音声的な特徴を表すパラメータである。 統計的特徴量を表すのに 必要なパラメ一夕としては、 例えば、 短区間信号に対して F F Tにより求めた 短時間スペクトルや、 入力パワー、 L P Cスペクトルパラメ一夕、 等がある。 また、 音声的な特徴を表すパラメ一夕としては、 L P Cパラメータ、 入力パヮ 一やピッチ周期性情報、 等がある。
次に、 モード判定器 1 1 0 4により、 前記入力信号分析器 1 1 0 1で得られ た分析パラメ一夕に対して、 音声モデル記憶器 1 1 0 2で保持されている音声 的な特徴パターン及び雑音モデル記憶器 1 1 0 3で保持されている雑音モデ ルパラメ一夕を用いて、 入力信号が有音区間か無音区間 (雑音のみの区間) 力 及び無音区間の場合に雑音モデルを更新して更新情報を伝送するかどうかの 判定を行う。
ここで、 音声モデル記憶器 1 1 0 2は、 音声的な特徴パターンを予め作成記 憶しているもので、 音声的な特徴パターンとしては、 例えば、 音声 (有音) 区 間中の L P Cパラメ一夕、 入力信号パヮーゃピッチ周期性情報等の分布などの 情報である。 また、 雑音モデルパラメ一夕とは、 入力雑音信号に関する統計的 特徴量を表現できるような雑音モデルに関する情報であり、 例えば、 短時間ス ぺクトルの平均スぺクトルや分散値、 等の統計的特徴量を、 例えば HMMのよ うな統計モデルで表現した際の情報である。
そして、 入力信号分析器 1 1 0 1により得られた現入力信号に対する統計的 分析パラメータが、 それ以前の雑音区間中の信号を表す雑音モデルとして記憶 された雑音モデルからの出力として妥当かどうか (例えば、 HMMモデルであ れば現入力信号に対する分析パラメ一夕の出力確率が規定値以上であるか) を 判定すると共に、 入力信号に対する音声的特徴を表すパラメ一夕から音声 (有 音) 区間かどうかを判定する。
前記モード判定器 1 104が有音区間であると判定した場合には、 音声符号 化器 1 105により、 入力信号に対して音声符号化を行いその符号化データを DTX制御及び多重化器 1 107に出力する。 一方、 前記モード判定器 1 10 4が無音区間でかつ雑音モデル更新情報を伝送すると判定した場合には、 雑音 モデル更新器 1 106により、 その雑音モデルの更新を行い、 更新後の雑音モ デルに関する情報を DTX制御及び多重化器 1 107に出力する。
最後に、 DTX制御及び多重化器 1 107により、 音声符号化器及び雑音モ デル更新器 1 1 06からの出力を用いて送信デ一夕として送信すべき情報の 制御と送信情報の多重化を行い、 送信データを出力する。
次に、 図 14を参照して、 本実施の形態に係る音声信号の符号化方法の処理 の流れを説明する。なお、本方法では、 図 14に示す本処理を、一定短区間(例 えば、 10〜50ms程度) のフレーム毎に繰り返して行うものとする。
まず、 ST401において、 フレーム単位の入力信号を入力する。 次に、 S T402において、 ある一定区間毎に入力された入力信号に対して信号分析を 行い、 その分析パラメ一夕を算出し出力する。
そして、 ST403において、 現在入力された統計的分析パラメ一夕が、 図 1 1における雑音モデル記憶器 1 103により保持されている雑音モデルか らの出力として妥当かどうかその適合性を判定する (ST404) 。 その結果、 適合しない、 すなわち現入力信号が現時点で保持されている雑音モデルでは表 現できないと判定された場合には、 次の ST405に進み、 入力信号に対して 分析して得られた音声的特徴パラメ一夕から音声 (有音) 区間かどうか判定す る。 そして、 音声区間と判定された場合、 ST406にて、 音声符号化器によ る音声符号化処理を行い、 その符号化データを出力する。
一方、 S T 4 0 5にて、 音声区間ではないと判定された場合、 S T 4 0 7に て、 雑音モデルの更新を行い、 更新後の雑音モデルに関する情報を出力する。 S T 4 0 3にて、 現入力が現時点で保持されている雑音モデルで表現できると 判定された場合は、 何も処理をせず次ステップに進む。 そして、 S T 4 0 8に おいて、 音声符号化器及び雑音モデル更新器からの出力を用いて送信データと して送信すべき情報の制御と送信情報の多重化を行い、 S T 4 0 9にて送信デ 一夕を出力する。
このように、 本実施の形態に係る音声信号の符号化装置によれば、 モード判 定器を設けることにより、 入力信号の統計的特徴量の変化及び音声の特徴パ夕 ーンを用いて判定を行うことができる。 したがって、 より正確なモード判定を 行うことができ、 判定誤りによる品質劣化を抑えることができる。
本発明の雑音信号符号化装置は、 雑音信号を含む音声信号の前記雑音信号に 対して信号分析を行う分析器と、 前記雑音信号を表わす雑音モデルに関する情 報を記憶する記憶器と、 現入力の雑音信号の信号分析結果に基づいて、 記憶さ れた雑音モデルに関する情報の変化を検出する検出器と、 雑音モデルに関する 情報の変化が検出された場合に、 前記変化の変化量分だけ前記記憶された雑音 モデルに関する情報を更新する更新器と、 を具備する構成を採る。
この構成によれば、 雑音信号を統計的特徴量で表現できるような雑音モデル でモデル化することにより、 背景雑音信号に対して聴感的に劣化の少ない復号 信号を生成することができる。 また、 このモデル化により、 入力信号波形に対 する忠実な符号化が不要となるので、 入力信号に対応する雑音モデルパラメ一 夕が変化する区間のみ伝送することにより、 低ビットレートで高効率な符号化 を行うことができる。
本発明の雑音信号符号化装置は、 上記構成において、 分析器が、 雑音信号に 関する統計的特徴量を抽出し、 記憶器は、 前記統計的特徴量を表現できる情報 を雑音モデルに関する情報として記憶する構成を採る。 1 b この構成によれば、 雑音信号を適切にモデル化することができ、 低ビットレ 一卜で高効率な符号化を効率良く行うことができる。
本発明の音声信号符号化装置は、 入力音声信号に対して有音区間か雑音信号 のみを含む無音区間かを判定する有音 z無音判定器と、 判定結果が有音である 場合に前記入力音声信号に対して音声符号化を行う音声符号化器と、 判定結果 が無音である場合に前記入力信号に対して雑音信号の符号化を行う上記雑音 信号符号化装置と、 前記有音 Z無音判定器、 前記音声符号化器、 及び前記雑音 信号符号化装置からの出力を多重化する多重化器と、 を具備する構成を採る。 この構成によれば、 有音区間では音声信号を高品質で符号化できる音声符号 化器で符号化を行い、 無音区間では高効率で聴感的に劣化が少ない上記雑音信 号符号化装置で符号化を行うことにより、 背景雑音環境下においても高品質 · 高効率な符号化を行うことができる。
本発明の音声信号符号化装置は、 入力音声信号を、 音声信号とこの音声信号 に重畳している背景雑音信号とに分離する音声/雑音信号分離器と、 前記入力 音声信号又は前記音声 Z雑音信号分離器により得られる音声信号から有音区 間か雑音信号のみを含む無音区間かを判定する有音 Z無音判定器と、 判定結果 が有音である場合に前記入力音声信号に対して音声符号化を行う音声符号化 器と、 前記音声 Z雑音信号分離器により得られる背景雑音信号の符号化を行う 上記雑音信号符号化装置と、 前記有音 Z無音判定器、 前記音声符号化器、 及び 前記雑音信号符号化装置からの出力を多重化する多重化器と、 を具備する構成 を採る。
この構成によれば、 有音区間では音声信号を高品質で符号化できる音声符号 化器で符号化を行い、 雑音信号に対しては高効率で聴感的に劣化が少ない上記 雑音信号符号化装置で符号化を行うことにより、 背景雑音環境下においても高 品質 '高効率な符号化を行うことができる。 また、 音声 Z雑音信号分離器を設 けることにより、 前記音声符号化器に入力される音声信号から重畳された背景 雑音を除去することができ、 有音区間をより高品質に又はより高効率に符号化 することができる。
本発明の音声信号符号化装置は、 入力音声信号に対して信号分析を行う分析 器と、 前記入力音声信号が有音信号であるかどうかを判定するために必要な音 声の特徴パターンを記憶する音声モデル記憶器と、 前記入力音声信号に含まれ る雑音信号を表現する雑音モデルに関する情報を記憶する雑音モデル記憶器 と、 前記分析器、 音声モデル記憶器及び雑音モデル記憶器の出力を用いて、 前 記入力音声信号が有音区間か雑音信号のみを含む無音区間かを判定すると共 に、 前記無音区間の場合に雑音モデルを更新するかどうかの判定を行うモード 判定器と、 前記モード判定器が有音区間と判定した場合に入力音声信号に対し て音声符号化を行う音声符号化器と、 前記モード判定器が無音区間でかつ雑音 モデルを更新すると判定した場合にその雑音モデルの更新を行う雑音モデル 更新器と、 音声符号化器及び雑音モデル更新器からの出力を多重化する多重化 器と、 を具備する構成を採る。
この構成によれば、 モード判定器を設けることにより、 入力信号の統計的特 徴量の変化及び音声の特徴パターンを用いて判定を行うことができる。 したが つて、 より正確なモード判定を行うことができ、 判定誤りによる品質劣化を抑 えることができる。
本発明の雑音信号生成装置は、 符号化側で入力雑音信号に対して符号化され た雑音モデルパラメ一夕及び雑音モデル更新フラグにしたがつて、 必要な場合 に雑音モデルの更新を行う雑音モデル更新器と、 前記雑音モデル更新器の出力 を用いて更新後の雑音モデルに関する情報を記憶する雑音モデル記憶器と、 前 記雑音モデル記憶器で記憶している雑音モデルに関する情報から雑音信号を 生成する雑音信号生成器と、 を具備する構成を採る。
この構成によれば、 背景雑音信号に対して聴感的に劣化の少ない復号信号を 生成することができる。
本発明の雑音信号生成装置は、 上記構成において、 前記雑音モデル更新器へ 入力する雑音モデルパラメータ及び前記雑音モデル記憶器で記憶する情報が、 生成する雑音信号に関する統計的特徴量を表現できる情報である構成を採る。 この構成によれば、 雑音信号を統計的特徴量で表現できるような雑音モデル でモデル化することにより、 背景雑音信号に対して聴感的に劣化の少ない復号 信号を生成することができる。
本発明の音声信号復号化装置は、 符号化側で符号化された音声データ、 雑音 モデルパラメ一夕、 有音 Ζ無音判定フラグ及び雑音モデル更新フラグを含む信 号を受信し、 前記信号から雑音モデルパラメ一夕、 有音 Ζ無音判定フラグ及び 雑音モデル更新フラグを分離する分離器と、 前記有音 Ζ無音判定フラグが有音 区間を示す場合に、 前記音声データに対して音声復号を行う音声複号化器と、 前記有音 Ζ無音判定フラグが無音区間を示す場合に、 前記雑音モデルパラメ一 夕及び雑音モデル更新フラグから雑音信号の生成を行う雑音信号生成装置と、 前記音声復号化器から出力される復号音声と前記雑音信号生成装置から出力 される雑音信号のいずれかを、 前記有音 Ζ無音判定フラグに応じて切り替えて 出力信号として出力する出力切り替え器と、 を具備する構成を採る。
この構成によれば、 背景雑音信号に対して聴感的に劣化の少ない復号信号を 生成することができる。
本発明の音声信号複号化装置は、 符号化側で符号化された音声データ、 雑音 モデルパラメ一夕、 有音 Ζ無音判定フラグ及び雑音モデル更新フラグを含む信 号を受信し、 前記信号から雑音モデルパラメ一夕、 有音 Ζ無音判定フラグ及び 雑音モデル更新フラグを分離する分離器と、 前記有音 Ζ無音判定フラグが有音 区間を示す場合に、 前記音声データに対して音声復号を行う音声復号化器と、 前記有音 Ζ無音判定フラグが無音区間を示す場合に、 前記雑音モデルパラメ一 夕及び雑音モデル更新フラグから雑音信号の生成を行う上記雑音信号生成装 置と、 前記音声復号化器から出力される復号音声と前記雑音信号生成装置から 出力される雑音信号とを加算する音声 Ζ雑音信号加算器と、 を具備する構成を 採る。
この構成によれば、 背景雑音信号に対して聴感的に劣化の少ない復号信号を 生成することができる。 また、 符号化側で音声信号とそれに重畳する雑音信号 を分離した後に、 それぞれの信号に適した符号器で符号化し、 復号側でそれら を加算して復号信号を生成するので、 有音区間の音声信号をより高品質に符号 化することができる。
本発明の音声信号符号化方法は、 入力音声信号に対して有音区間か雑音信号 のみを含む無音区間かを判定する有音 Ζ無音判定工程と、 判定結果が有音であ る場合に前記入力音声信号に対して音声符号化を行う音声符号化工程と、 判定 結果が無音である場合に前記入力信号に対して雑音信号の符号化を行う雑音 信号符号化工程と、 前記有音 Ζ無音判定工程、 前記音声符号化工程、 及び前記 雑音信号符号化工程における出力を多重化する多重化工程と、 を具備し、 雑音信号符号化工程は、 雑音信号を含む音声信号の前記雑音信号に対して信 号分析を行う分析工程と、 前記雑音信号を表わす雑音モデルに関する情報を記 憶する記憶工程と、 現入力の雑音信号の信号分析結果に基づいて、 記憶された 雑音モデルに関する情報の変化を検出する検出工程と、 雑音モデルに関する情 報の変化が検出された場合に、 前記変化の変化量分だけ前記記憶された雑音モ デルに関する情報を更新する更新工程と、 を含む。
この方法によれば、 有音区間では音声信号を高品質で符号化できる音声符号 化手段で符号化を行い、 無音区間では高効率で聴感的に劣化が少ない第 1の態 様の雑音信号符号化装置で符号化を行うことにより、 背景雑音環境下において も高品質 ·高効率な符号化を行うことができる。
本発明の音声信号符号化方法は、 入力音声信号を、 音声信号とこの音声信号 に重畳している背景雑音信号とに分離する音声 Ζ雑音信号分離工程と、 前記入 力音声信号又は前記音声 ζ雑音信号分離工程において得られる音声信号から 有音区間か雑音信号のみを含む無音区間かを判定する有音/無音判定工程と、 判定結果が有音である場合に前記入力音声信号に対して音声符号化を行う音 声符号化工程と、 判定結果が無音である場合に前記入力信号に対して雑音信号 の符号化を行うと共に、 前記音声 Ζ雑音信号分離工程において得られる背景雑 音信号の符号化を行う雑音信号符号化工程と、 前記有音 Z無音判定工程、 前記 音声符号化工程、 及び前記雑音信号符号化工程における出力を多重化する多重 化工程と、 を具備し、
雑音信号符号化工程は、 雑音信号を含む音声信号の前記雑音信号に対して信 号分析を行う分析工程と、 前記雑音信号を表わす雑音モデルに関する情報を記 憶する記憶工程と、 現入力の雑音信号の信号分析結果に基づいて、 記憶された 雑音モデルに関する情報の変化を検出する検出工程と、 雑音モデルに関する情 報の変化が検出された場合に、 前記変化の変化量分だけ前記記憶された雑音モ デルに関する情報を更新する更新工程と、 を含む。
この方法によれば、 有音区間では音声信号を高品質で符号化できる音声符号 化手段で符号化を行い、 無音区間では高効率で聴感的に劣化が少ない第 1の態 様の雑音信号符号化装置で符号化を行うことにより、 背景雑音環境下において も高品質 ·高効率な符号化を行うことができる。 また、 音声 Z雑音信号分離手 段を設けることにより、 前記音声符号化手段に入力される音声信号から重畳さ れた背景雑音を除去することができ、 有音区間をより高品質に又はより高効率 に符号化することができる。
本発明の音声信号符号化方法は、 入力音声信号に対して信号分析を行う分析 工程と、 前記入力音声信号が有音信号であるかどうかを判定するために必要な 音声の特徴パターンを記憶する音声モデル記憶工程と、 前記入力音声信号に含 まれる雑音信号を表現する雑音モデルに関する情報を記憶する雑音モデル記 憶工程と、 前記分析手段、 音声モデル記憶手段及び雑音モデル記憶手段の出力 を用いて、 前記入力音声信号が有音区間か雑音信号のみを含む無音区間かを判 定すると共に、 前記無音区間の場合に雑音モデルを更新するかどうかの判定を 行うモード判定工程と、 前記モード判定手段が有音区間と判定した場合に入力 音声信号に対して音声符号化を行う音声符号化工程と、 前記モード判定手段が 無音区間でかつ雑音モデルを更新すると判定した場合にその雑音モデルの更 新を行う雑音モデル更新工程と、 音声符号化手段及び雑音モデル更新手段から の出力を多重化する多重化工程と、 を具備する。
この方法によれば、 モード判定手段を設けることにより、 入力信号の統計的 特徴量の変化及び音声の特徴パターンを用いて判定を行うことができる。 した がって、 より正確なモード判定を行うことができ、 判定誤りによる品質劣化を 抑えることができる。
本発明の記録媒体は、 コンピュータに、 入力雑音信号に対して統計的特徴量 の分析を行う手順と、 入力雑音信号に対する統計的特徴量を表現する雑音モデ ルに関する情報を記憶する手順と、 入力雑音信号を表す雑音モデルの変化を検 出する手順と、 必要な場合に雑音モデルの更新を行い更新後の雑音モデルに関 する情報を出力する手順、 を実行させるためのプログラムを記録した機械読み とり可能なものである。
以上説明したように本発明の雑音信号符号化装置では、 雑音信号を統計的特 徴量で表現できるような雑音モデルでモデル化することにより、 背景雑音信号 に対して聴感的に劣化の少ない復号信号を生成することができる。 また、 入力 信号波形に対する忠実な符号化が不要となるので、 入力信号に対応する雑音モ デルパラメ一夕が変化する区間のみ伝送することにより、 低ビットレ一トで高 効率な符号化を行うことができる。
また、 本発明の音声信号符号化装置においては、 有音区間では音声信号を高 品質で符号化できる音声符号化器で符号化を行い、 無音区間では高効率で聴感 的に劣化が少ない前記雑音信号符号化器で符号化を行うことにより、 背景雑音 環境下においても高品質 ·高効率な符号化を行うことができる。
本明細書は、 1 9 9 9年 6月 1 5日出願の特願平 1 1 一 1 6 8 5 4 5号に基 づく。 この内容はすべてここに含めておく。 産業上の利用可能性
本発明は、 ディジ夕ル無線通信システムにおける基地局装置や通信端末装置 に適用することができる。

Claims

請求の範囲
1 . 雑音信号を含む音声信号の前記雑音信号に対して信号分析を行う分析手段 と、 前記雑音信号を表わす雑音モデルに関する情報を記憶する記憶手段と、 現 入力の雑音信号の信号分析結果に基づいて、 記憶された雑音モデルに関する情 報の変化を検出する検出手段と、 雑音モデルに関する情報の変化が検出された 場合に、 前記変化の変化量分だけ前記記憶された雑音モデルに関する情報を更 新する更新手段と、 を具備する雑音信号符号化装置。
2 . 分析手段は、 雑音信号に関する統計的特徴量を抽出し、 記憶手段は、 前記 統計的特徴量を表現できる情報を雑音モデルに関する情報として記憶する請 求項 1記載の雑音信号符号化装置。
3 . 入力音声信号に対して有音区間か雑音信号のみを含む無音区間かを判定す る有音 Z無音判定手段と、 判定結果が有音である場合に前記入力音声信号に対 して音声符号化を行う音声符号化手段と、 判定結果が無音である場合に前記入 力信号に対して雑音信号の符号化を行う請求項 1又は請求項 2記載の雑音信 号符号化装置と、 前記有音 Z無音判定手段、 前記音声符号化手段、 及び前記雑 音信号符号化装置からの出力を多重化する多重化手段と、 を具備する音声信号 符号化装置。
4 . 入力音声信号を、 音声信号とこの音声信号に重畳している背景雑音信号と に分離する音声 Z雑音信号分離手段と、 前記入力音声信号又は前記音声 Z雑音 信号分離手段により得られる音声信号から有音区間か雑音信号のみを含む無 音区間かを判定する有音 Z無音判定手段と、 判定結果が有音である場合に前記 入力音声信号に対して音声符号化を行う音声符号化手段と、 前記音声 Z雑音信 号分離手段により得られる背景雑音信号の符号化を行う請求項 1記載の雑音 信号符号化装置と、 前記有音 Z無音判定手段、 前記音声符号化手段、 及び前記 雑音信号符号化装置からの出力を多重化する多重化手段と、 を具備する音声信 号符号化装置。
5 . 入力音声信号に対して信号分析を行う分析手段と、 前記入力音声信号が有 ム
音信号であるかどうかを判定するために必要な音声の特徴パターンを記憶す る音声モデル記憶手段と、 前記入力音声信号に含まれる雑音信号を表現する雑 音モデルに関する情報を記憶する雑音モデル記憶手段と、 前記分析手段、 音声 モデル記憶手段及び雑音モデル記憶手段の出力を用いて、 前記入力音声信号が 有音区間か雑音信号のみを含む無音区間かを判定すると共に、 前記無音区間の 場合に雑音モデルを更新するかどうかの判定を行うモード判定手段と、 前記モ 一ド判定手段が有音区間と判定した場合に入力音声信号に対して音声符号化 を行う音声符号化手段と、 前記モード判定手段が無音区間でかつ雑音モデルを 更新すると判定した場合にその雑音モデルの更新を行う雑音モデル更新手段 と、 音声符号化手段及び雑音モデル更新手段からの出力を多重化する多重化手 段と、 を具備する音声信号符号化装置。
6 . 音声信号符号化装置を備えた基地局装置であって、 前記音声符号化装置は、 入力音声信号に対して有音区間か雑音信号のみを含む無音区間かを判定する 有音 Ζ無音判定手段と、 判定結果が有音である場合に前記入力音声信号に対し て音声符号化を行う音声符号化手段と、 判定結果が無音である場合に前記入力 信号に対して雑音信号の符号化を行う請求項 1又は請求項 2記載の雑音信号 符号化装置と、 前記有音 Ζ無音判定手段、 前記音声符号化手段、 及び前記雑音 信号符号化装置からの出力を多重化する多重化手段と、 を具備する。
7 . 音声信号符号化装置を備えた通信端末装置であって、 前記音声符号化装置 は、 入力音声信号に対して有音区間か雑音信号のみを含む無音区間かを判定す る有音ノ無音判定手段と、 判定結果が有音である場合に前記入力音声信号に対 して音声符号化を行う音声符号化手段と、 判定結果が無音である場合に前記入 力信号に対して雑音信号の符号化を行う請求項 1又は請求項 2記載の雑音信 号符号化装置と、 前記有音 Ζ無音判定手段、 前記音声符号化手段、 及び前記雑 音信号符号化装置からの出力を多重化する多重化手段と、 を具備する。
8 . 符号化側で入力雑音信号に対して符号化された雑音モデルパラメ一夕及び 雑音モデル更新フラグにしたがって、 必要な場合に雑音モデルの更新を行う雑 音モデル更新手段と、 前記雑音モデル更新手段の出力を用いて更新後の雑音モ デルに関する情報を記憶する雑音モデル記憶手段と、 前記雑音モデル記憶手段 で記憶している雑音モデルに関する情報から雑音信号を生成する雑音信号生 成手段と、 を具備する雑音信号生成装置。
9 . 前記雑音モデル更新手段へ入力する雑音モデルパラメ一夕及び前記雑音モ デル記憶手段で記憶する情報が、 生成する雑音信号に関する統計的特徴量を表 現できる情報である請求項 8記載の雑音信号生成装置。
1 0 . 符号化側で符号化された音声データ、 雑音モデルパラメ一夕、 有音 Z無 音判定フラグ及び雑音モデル更新フラグを含む信号を受信し、 前記信号から雑 音モデルパラメ一夕、 有音 Z無音判定フラグ及び雑音モデル更新フラグを分離 する分離手段と、 前記有音 Z無音判定フラグが有音区間を示す場合に、 前記音 声デー夕に対して音声復号を行う音声複号化手段と、 前記有音 Z無音判定フラ グが無音区間を示す場合に、 前記雑音モデルパラメ一夕及び雑音モデル更新フ ラグから雑音信号の生成を行う請求項 8記載の雑音信号生成装置と、 前記音声 復号化手段から出力される復号音声と前記雑音信号生成装置から出力される 雑音信号のいずれかを、 前記有音 Z無音判定フラグに応じて切り替えて出力信 号として出力する出力切り替え手段と、 を具備する音声信号復号化装置。
1 1 . 符号化側で符号化された音声データ、 雑音モデルパラメ一夕、 有音/無 音判定フラグ及び雑音モデル更新フラグを含む信号を受信し、 前記信号から雑 音モデルパラメ一夕、 有音 Z無音判定フラグ及び雑音モデル更新フラグを分離 する分離手段と、 前記有音ノ無音判定フラグが有音区間を示す場合に、 前記音 声デ一夕に対して音声復号を行う音声復号化手段と、 前記有音 Z無音判定フラ グが無音区間を示す場合に、 前記雑音モデルパラメ一夕及び雑音モデル更新フ ラグから雑音信号の生成を行う請求項 8又は請求項 9記載の雑音信号生成装 置と、 前記音声復号化手段から出力される復号音声と前記雑音信号生成装置か ら出力される雑音信号とを加算する音声 Z雑音信号加算手段と、 を具備する音 声信号復号化装置。
1 2 . 入力音声信号に対して有音区間か雑音信号のみを含む無音区間かを判定 する有音 Z無音判定工程と、 判定結果が有音である場合に前記入力音声信号に 対して音声符号化を行う音声符号化工程と、 判定結果が無音である場合に前記 入力信号に対して雑音信号の符号化を行う雑音信号符号化工程と、 前記有音/ 無音判定工程、 前記音声符号化工程、 及び前記雑音信号符号化工程における出 力を多重化する多重化工程と、 を具備し、
雑音信号符号化工程は、 雑音信号を含む音声信号の前記雑音信号に対して信 号分析を行う分析工程と、 前記雑音信号を表わす雑音モデルに関する情報を記 憶する記憶工程と、 現入力の雑音信号の信号分析結果に基づいて、 記憶された 雑音モデルに関する情報の変化を検出する検出工程と、 雑音モデルに関する情 報の変化が検出された場合に、 前記変化の変化量分だけ前記記憶された雑音モ デルに関する情報を更新する更新工程と、 を含む音声信号符号化方法。
1 3 . 入力音声信号を、 音声信号とこの音声信号に重畳している背景雑音信号 とに分離する音声 Z雑音信号分離工程と、 前記入力音声信号又は前記音声 Z雑 音信号分離工程において得られる音声信号から有音区間か雑音信号のみを含 む無音区間かを判定する有音 Z無音判定工程と、 判定結果が有音である場合に 前記入力音声信号に対して音声符号化を行う音声符号化工程と、 判定結果が無 音である場合に前記入力信号に対して雑音信号の符号化を行うと共に、 前記音 声 Z雑音信号分離工程において得られる背景雑音信号の符号化を行う雑音信 号符号化工程と、 前記有音 Z無音判定工程、 前記音声符号化工程、 及び前記雑 音信号符号化工程における出力を多重化する多重化工程と、 を具備し、 雑音信号符号化工程は、 雑音信号を含む音声信号の前記雑音信号に対して信 号分析を行う分析工程と、 前記雑音信号を表わす雑音モデルに関する情報を記 憶する記憶工程と、 現入力の雑音信号の信号分析結果に基づいて、 記憶された 雑音モデルに関する情報の変化を検出する検出工程と、 雑音モデルに関する情 報の変化が検出された場合に、 前記変化の変化量分だけ前記記憶された雑音モ デルに関する情報を更新する更新工程と、 を含む音声信号符号化方法。 A b
1 4 . 入力音声信号に対して信号分析を行う分析工程と、 前記入力音声信号が 有音信号であるかどうかを判定するために必要な音声の特徴パターンを記憶 する音声モデル記憶工程と、 前記入力音声信号に含まれる雑音信号を表現する 雑音モデルに関する情報を記憶する雑音モデル記憶工程と、 前記分析手段、 音 声モデル記憶手段及び雑音モデル記憶手段の出力を用いて、 前記入力音声信号 が有音区間か雑音信号のみを含む無音区間かを判定すると共に、 前記無音区間 の場合に雑音モデルを更新するかどうかの判定を行うモード判定工程と、 前記 モード判定手段が有音区間と判定した場合に入力音声信号に対して音声符号 化を行う音声符号化工程と、 前記モード判定手段が無音区間でかつ雑音モデル を更新すると判定した場合にその雑音モデルの更新を行う雑音モデル更新ェ 程と、 音声符号化手段及び雑音モデル更新手段からの出力を多重化する多重化 工程と、 を具備する音声信号符号化方法。
1 5 . コンピュータに、 入力雑音信号に対して統計的特徴量の分析を行う手順 と、 入力雑音信号に対する統計的特徴量を表現する雑音モデルに関する情報を 記憶する手順と、 入力雑音信号を表す雑音モデルの変化を検出する手順と、 必 要な場合に雑音モデルの更新を行い更新後の雑音モデルに関する情報を出力 する手順、 を実行させるためのプログラムを記録した機械読みとり可能な記憶 媒体。
PCT/JP2000/003526 1999-06-15 2000-06-01 Codeur de signaux de bruit et codeur de signaux vocaux WO2000077774A1 (fr)

Priority Applications (2)

Application Number Priority Date Filing Date Title
EP00935511A EP1120775A4 (en) 1999-06-15 2000-06-01 NOISE SIGNAL ENCODER AND VOICE SIGNAL ENCODER
AU51037/00A AU5103700A (en) 1999-06-15 2000-06-01 Noise signal encoder and voice signal encoder

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
JP16854599A JP4464484B2 (ja) 1999-06-15 1999-06-15 雑音信号符号化装置および音声信号符号化装置
JP11/168545 1999-06-15

Publications (1)

Publication Number Publication Date
WO2000077774A1 true WO2000077774A1 (fr) 2000-12-21

Family

ID=15870014

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/JP2000/003526 WO2000077774A1 (fr) 1999-06-15 2000-06-01 Codeur de signaux de bruit et codeur de signaux vocaux

Country Status (5)

Country Link
EP (1) EP1120775A4 (ja)
JP (1) JP4464484B2 (ja)
CN (1) CN1313983A (ja)
AU (1) AU5103700A (ja)
WO (1) WO2000077774A1 (ja)

Families Citing this family (17)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP4769121B2 (ja) * 2006-05-15 2011-09-07 日本電信電話株式会社 サーバ・クライアント型音声認識方法、装置およびサーバ・クライアント型音声認識プログラム、記録媒体
EP2164238B1 (en) * 2007-06-27 2013-01-16 NEC Corporation Multi-point connection device, signal analysis and device, method, and program
CN101546557B (zh) * 2008-03-28 2011-03-23 展讯通信(上海)有限公司 用于音频内容识别的分类器参数更新方法
US20120095760A1 (en) * 2008-12-19 2012-04-19 Ojala Pasi S Apparatus, a method and a computer program for coding
AU2012217158B2 (en) 2011-02-14 2014-02-27 Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. Information signal representation using lapped transform
ES2535609T3 (es) * 2011-02-14 2015-05-13 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Codificador de audio con estimación de ruido de fondo durante fases activas
EP4243017A3 (en) 2011-02-14 2023-11-08 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Apparatus and method decoding an audio signal using an aligned look-ahead portion
BR112013020324B8 (pt) 2011-02-14 2022-02-08 Fraunhofer Ges Forschung Aparelho e método para supressão de erro em fala unificada de baixo atraso e codificação de áudio
PL2676268T3 (pl) 2011-02-14 2015-05-29 Fraunhofer Ges Forschung Urządzenie i sposób przetwarzania zdekodowanego sygnału audio w domenie widmowej
TWI488176B (zh) 2011-02-14 2015-06-11 Fraunhofer Ges Forschung 音訊信號音軌脈衝位置之編碼與解碼技術
PL2676266T3 (pl) 2011-02-14 2015-08-31 Fraunhofer Ges Forschung Układ kodowania na bazie predykcji liniowej wykorzystujący kształtowanie szumu w dziedzinie widmowej
CN103493129B (zh) 2011-02-14 2016-08-10 弗劳恩霍夫应用研究促进协会 用于使用瞬态检测及质量结果将音频信号的部分编码的装置与方法
PT2676267T (pt) 2011-02-14 2017-09-26 Fraunhofer Ges Forschung Codificação e descodificação de posições de pulso de faixas de um sinal de áudio
CN104469250B (zh) * 2013-09-23 2019-07-26 联想(北京)有限公司 一种信息处理方法及电子设备
EP3010017A1 (en) * 2014-10-14 2016-04-20 Thomson Licensing Method and apparatus for separating speech data from background data in audio communication
CN106971741B (zh) * 2016-01-14 2020-12-01 芋头科技(杭州)有限公司 实时将语音进行分离的语音降噪的方法及系统
BR112018074203A2 (pt) * 2016-05-30 2019-05-14 Sony Corporation dispositivo e método de processamento audiovisual, e, programa

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH0220938A (ja) * 1988-02-12 1990-01-24 Hitachi Ltd 音声多重化システム
JPH08321811A (ja) * 1995-05-26 1996-12-03 N T T Ido Tsushinmo Kk 背景雑音更新システムおよび方法
JPH0918424A (ja) * 1995-06-30 1997-01-17 Nec Corp 音声復号化装置
JPH1039898A (ja) * 1996-07-22 1998-02-13 Nec Corp 音声信号伝送方法及び音声符号復号化システム
JPH10222195A (ja) * 1996-12-02 1998-08-21 Oki Electric Ind Co Ltd 音声信号の符号化装置、復号化装置、符号化方法および復号化方法
JPH1124700A (ja) * 1997-06-27 1999-01-29 Nec Corp 音声符号化装置
JP2000122698A (ja) * 1998-10-19 2000-04-28 Mitsubishi Electric Corp 音声符号化装置

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH07129195A (ja) * 1993-11-05 1995-05-19 Nec Corp 音声復号化装置
US5960389A (en) * 1996-11-15 1999-09-28 Nokia Mobile Phones Limited Methods for generating comfort noise during discontinuous transmission
CN1145928C (zh) * 1999-06-07 2004-04-14 艾利森公司 用参数噪声模型统计量产生舒适噪声的方法及装置

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH0220938A (ja) * 1988-02-12 1990-01-24 Hitachi Ltd 音声多重化システム
JPH08321811A (ja) * 1995-05-26 1996-12-03 N T T Ido Tsushinmo Kk 背景雑音更新システムおよび方法
JPH0918424A (ja) * 1995-06-30 1997-01-17 Nec Corp 音声復号化装置
JPH1039898A (ja) * 1996-07-22 1998-02-13 Nec Corp 音声信号伝送方法及び音声符号復号化システム
JPH10222195A (ja) * 1996-12-02 1998-08-21 Oki Electric Ind Co Ltd 音声信号の符号化装置、復号化装置、符号化方法および復号化方法
JPH1124700A (ja) * 1997-06-27 1999-01-29 Nec Corp 音声符号化装置
JP2000122698A (ja) * 1998-10-19 2000-04-28 Mitsubishi Electric Corp 音声符号化装置

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
See also references of EP1120775A4 *

Also Published As

Publication number Publication date
EP1120775A4 (en) 2001-09-26
JP4464484B2 (ja) 2010-05-19
JP2000357000A (ja) 2000-12-26
CN1313983A (zh) 2001-09-19
AU5103700A (en) 2001-01-02
EP1120775A1 (en) 2001-08-01

Similar Documents

Publication Publication Date Title
EP0770987B1 (en) Method and apparatus for reproducing speech signals, method and apparatus for decoding the speech, method and apparatus for synthesizing the speech and portable radio terminal apparatus
JP5373217B2 (ja) 可変レートスピーチ符号化
JP4824167B2 (ja) 周期的スピーチコーディング
JP4870313B2 (ja) 可変レート音声符号器におけるフレーム消去補償方法
JP5226777B2 (ja) 音声信号中に埋め込まれた隠れデータの回復
KR100574031B1 (ko) 음성합성방법및장치그리고음성대역확장방법및장치
WO2000077774A1 (fr) Codeur de signaux de bruit et codeur de signaux vocaux
JP2009069856A (ja) 音声コーデックにおける擬似高帯域信号の推定方法
KR100452955B1 (ko) 음성부호화방법, 음성복호화방법, 음성부호화장치, 음성복호화장치, 전화장치, 피치변환방법 및 매체
EP1598811B1 (en) Decoding apparatus and method
EP1222659A1 (en) Lpc-harmonic vocoder with superframe structure
KR100804888B1 (ko) 프레임 에러에 대한 민감도를 감소시키기 위하여 코딩 방식선택 패턴을 사용하는 예측 음성 코더
EP1204968B1 (en) Method and apparatus for subsampling phase spectrum information
JPH10149199A (ja) 音声符号化方法、音声復号化方法、音声符号化装置、音声復号化装置、電話装置、ピッチ変換方法及び媒体
WO2001065542A1 (fr) Dispositif de codage/decodage de la voix et procede associe
WO2002021091A1 (fr) Analyseur de signal de bruit, synthetiseur de signal de bruit, procede d'analyse de signal de bruit et procede de synthese de signal de bruit
JPH1198090A (ja) 音声符号化/復号化装置
US20090018823A1 (en) Speech coding
JP2004302259A (ja) 音響信号の階層符号化方法および階層復号化方法
JP2004301954A (ja) 音響信号の階層符号化方法および階層復号化方法
JP4826580B2 (ja) 音声信号の再生方法及び装置
JP4230550B2 (ja) 音声符号化方法及び装置、並びに音声復号化方法及び装置
KR20080092823A (ko) 부호화/복호화 장치 및 방법
JP2002169595A (ja) 固定音源符号帳及び音声符号化/復号化装置
EP1164577A2 (en) Method and apparatus for reproducing speech signals

Legal Events

Date Code Title Description
WWE Wipo information: entry into national phase

Ref document number: 00801092.7

Country of ref document: CN

AK Designated states

Kind code of ref document: A1

Designated state(s): AE AG AL AM AT AU AZ BA BB BG BR BY CA CH CN CR CU CZ DE DK DM DZ EE ES FI GB GD GE GH GM HR HU ID IL IN IS KE KG KP KR KZ LC LK LR LS LT LU LV MA MD MG MK MN MW MX MZ NO NZ PL PT RO RU SD SE SG SI SK SL TJ TM TR TT TZ UA UG US UZ VN YU ZA ZW

AL Designated countries for regional patents

Kind code of ref document: A1

Designated state(s): GH GM KE LS MW MZ SD SL SZ TZ UG ZW AM AZ BY KG KZ MD RU TJ TM AT BE CH CY DE DK ES FI FR GB GR IE IT LU MC NL PT SE BF BJ CF CG CI CM GA GN GW ML MR NE SN TD TG

WWE Wipo information: entry into national phase

Ref document number: 09762474

Country of ref document: US

WWE Wipo information: entry into national phase

Ref document number: 2000935511

Country of ref document: EP

121 Ep: the epo has been informed by wipo that ep was designated in this application
WWP Wipo information: published in national office

Ref document number: 2000935511

Country of ref document: EP

REG Reference to national code

Ref country code: DE

Ref legal event code: 8642

WWW Wipo information: withdrawn in national office

Ref document number: 2000935511

Country of ref document: EP