WO1999030315A1 - Procede et dispositif de traitement du signal sonore - Google Patents

Procede et dispositif de traitement du signal sonore Download PDF

Info

Publication number
WO1999030315A1
WO1999030315A1 PCT/JP1998/005514 JP9805514W WO9930315A1 WO 1999030315 A1 WO1999030315 A1 WO 1999030315A1 JP 9805514 W JP9805514 W JP 9805514W WO 9930315 A1 WO9930315 A1 WO 9930315A1
Authority
WO
WIPO (PCT)
Prior art keywords
unit
sound signal
signal
spectrum
input
Prior art date
Application number
PCT/JP1998/005514
Other languages
English (en)
French (fr)
Inventor
Hirohisa Tasaki
Original Assignee
Mitsubishi Denki Kabushiki Kaisha
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Mitsubishi Denki Kabushiki Kaisha filed Critical Mitsubishi Denki Kabushiki Kaisha
Priority to KR1020007006191A priority Critical patent/KR100341044B1/ko
Priority to CA002312721A priority patent/CA2312721A1/en
Priority to EP98957198A priority patent/EP1041539A4/en
Priority to IL13563098A priority patent/IL135630A0/xx
Priority to AU13527/99A priority patent/AU730123B2/en
Publication of WO1999030315A1 publication Critical patent/WO1999030315A1/ja
Priority to US09/568,127 priority patent/US6526378B1/en
Priority to NO20002902A priority patent/NO20002902D0/no

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • G10L21/0216Noise filtering characterised by the method used for estimating noise
    • G10L21/0232Processing in the frequency domain
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering

Definitions

  • the present invention removes subjectively unfavorable components such as quantization noise generated by encoding / decoding of speech and musical sounds, and distortion caused by various signal processing such as noise suppression.
  • the present invention relates to a sound signal processing method and a sound signal processing device which are subjectively added to make the sound signal hard to feel. Background art
  • the noise estimation error remains as distortion on the processed signal, which has characteristics that are significantly different from the signal before processing.
  • the subjective evaluation greatly deteriorated It may be done.
  • Japanese Unexamined Patent Publication No. Hei 8—1350 05 13 aims to improve the quality of the background noise section. It is determined whether or not the section is only the background noise, and a dedicated code is used for the section of the background noise only. The decoding or decoding process is performed, and when decoding only the background noise section, the characteristics of the synthesis filter are suppressed, so that an audibly natural reproduced sound is obtained. .
  • Japanese Unexamined Patent Publication No. Hei 8 (1994) -1466998 aims to prevent white noise from becoming an unpleasant timbre by encoding / decoding, and to store white noise or pre-stored white noise in decoded speech. The background noise is added.
  • Japanese Unexamined Patent Publication No. Hei 7-166 096 proposes an audio-visual system based on an index related to spectrum parameters received by a decoded speech or a speech decoding unit in order to reduce quantization noise audibly.
  • the masking threshold is determined, and a filter coefficient reflecting the masking threshold is determined, and this coefficient is used for the boost filter.
  • Japanese Unexamined Patent Application Publication No. 6-326660 describes a system in which code transmission is stopped in a section that does not include voice due to communication power control, etc., when there is no code transmission, pseudo background noise is generated on the decoding side. It is intended to reduce the discomfort between the actual background noise included in the voice section and the pseudo background noise in the silent section, which is generated at this time. The pseudo background noise is also superimposed on the section.
  • Japanese Patent Laid-Open No. Hei 7 — 2487873 aims to reduce the distorted sound generated by noise suppression processing audibly, and the coding side first determines whether the signal is a noise section or a speech section.
  • the noise spectrum is transmitted, in the voice section, the spectrum after noise suppression processing is transmitted, and in the decoding side, the received noise spectrum is used in the noise section.
  • Synthesized sound is generated and output, and in the voice section, the synthesized sound is generated using the received noise-suppressed spectrum, and the synthesized sound is generated using the received noise spectrum in the noise section.
  • the output is obtained by multiplying by the superposition magnification and adding.
  • Literature 1 aims to reduce the distorted sound generated by the noise suppression processing audibly, and smoothes the output sound after the noise suppression processing in the temporally preceding and succeeding sections and in the amplitude spectrum. Then, amplitude suppression processing is performed only in the background noise section.
  • the conventional method described above has the following problems.
  • Japanese Patent Application Laid-Open No. 08-135015 has a problem that characteristics change suddenly at a boundary between a noise section and a speech section because encoding processing and decoding processing are largely switched according to a section determination result. .
  • the noise section which is relatively stationary originally fluctuates in an unstable manner, and may rather deteriorate the noise section.
  • the auditory masking threshold is determined based on the spectral parameters, and the spectral post-filter is simply performed based on the threshold.
  • a masking component is scarcely present in a background noise having a flat target, and no improvement effect can be obtained at all.
  • a major change cannot be given to a main component that is not masked, so that no improvement effect can be obtained for distortion contained in the main component.
  • Japanese Patent Application Laid-Open No. Hei 7—2487873 states that encoding and decoding are largely switched according to the results of section determination, so that if the determination of a noise section or a voice section is incorrect, significant degradation will occur. There are issues to be caused. If a part of the noise section is mistaken for the speech section, the sound quality in the noise section fluctuates discontinuously, making it difficult to hear. Conversely, if the speech section is mistaken for a noise section, the speech component is added to the synthesized sound in the noise section using the average noise spectrum and the synthesized sound using the noise spectrum superimposed in the speech section. There is a problem that sound quality is deteriorated as a whole due to mixing of sound. Furthermore, in order to make the degraded sound in the voice section inaudible, it is necessary to superimpose noise that is not so small.
  • Literature 1 has a problem that a processing delay of a half section (about 10 ms to 20 ms) occurs due to smoothing.
  • a part of the noise section is erroneously determined to be a voice section, there is a problem that the sound quality in the noise section fluctuates discontinuously, making it difficult to hear.
  • the present invention has been made to solve such a problem. Deterioration due to judgment errors is small, there is little dependence on noise types and spectrum shapes, and no large delay time is required. The characteristics of actual background noise can be left, and the background noise level is excessively increased. To provide a sound signal processing method and a sound signal processing device that can be provided without a large size, do not require addition of new transmission information, and can provide a good suppression effect even for a degradation component due to excitation coding or the like. It is an object. Disclosure of the invention
  • the input sound signal is processed to generate a first processed signal, the input sound signal is analyzed to calculate a predetermined evaluation value, and based on the evaluation value, the input sound signal and the first processed signal are calculated. Are weighted and added to obtain a second processed signal, and the second processed signal is used as an output signal.
  • the first processing signal generation method calculates a spectrum component for each frequency by Fourier transforming the input sound signal, and calculates a spectrum component for each frequency calculated by the Fourier transform. It is characterized in that a predetermined deformation is given to the vector component, and the vector component after the deformation is generated by performing an inverse Fourier transform. Further, the method is characterized in that the weighted addition is performed in a spectrum region.
  • weighted addition is controlled independently for each frequency component.
  • the predetermined deformation of the spectrum component for each frequency includes a smoothing process of the amplitude spectrum component.
  • the predetermined deformation of the spectrum component for each frequency includes a process of providing a disturbance of the phase spectrum component.
  • the smoothing strength in the smoothing processing is controlled by the magnitude of the amplitude spectrum component of the input sound signal.
  • the present invention is characterized in that the disturbance imparting strength in the disturbance imparting process is controlled by the magnitude of the amplitude spectrum component of the input sound signal.
  • the smoothing strength in the smoothing process is controlled by the magnitude of the continuity of the spectrum component of the input sound signal in the time direction.
  • the present invention is characterized in that the disturbance imparting strength in the disturbance imparting process is controlled by the magnitude of the temporal continuity of the spectrum component of the input sound signal.
  • an input sound signal weighted by auditory sense is used as the input sound signal.
  • the smoothing strength in the smoothing process is controlled by the magnitude of the time variability of the evaluation value.
  • the present invention is characterized in that the disturbance imparting strength in the disturbance imparting process is controlled by the magnitude of the time variability of the evaluation value. Further, as the predetermined evaluation value, a degree of the background noise likeness calculated by analyzing the input sound signal is used. Further, the method is characterized in that, as the predetermined evaluation value, a degree of fricativeness calculated by analyzing the input sound signal is used.
  • the input A sound signal is defined as a first decoded speech obtained by decoding a speech code generated by the speech encoding process, and a post-filter process is performed on the first decoded speech to produce a second decoded speech.
  • the second decoded voice and the first processed voice are weighted and added based on the evaluation value to calculate a predetermined evaluation value to obtain a second processed voice. It is characterized in that the second processed voice is output as output voice.
  • a sound signal processing device includes: a first processed signal generation unit that processes an input sound signal to generate a first processed signal; and an evaluation value that analyzes the input sound signal to calculate a predetermined evaluation value.
  • a second processing signal generation unit that weights and adds the input sound signal and the first processing signal based on the evaluation value of the evaluation value calculation unit and outputs the result as a second processing signal It is characterized by having.
  • the first processed signal generator calculates a spectrum component for each frequency by performing a Fourier transform on the input sound signal, and calculates the spectrum component for each calculated frequency. Is subjected to a smoothing process of the amplitude spectrum component, and the spectrum component after the smoothing process of the amplitude spectrum component is inverse Fourier transformed to generate a first processed signal. This is the feature. Further, the first processed signal generating unit calculates a spectrum component for each frequency by performing a Fourier transform on the input sound signal, and calculates the spectrum component for each calculated frequency. To the phase spectrum component, and inversely Fourier-transforms the spectrum component after the phase spectrum component has been subjected to the disturbance processing, thereby transforming the first processing signal.
  • Figure 1 is a diagram showing the overall configuration of a speech decoding apparatus applying a speech decoding method according to a first embodiment of the present invention
  • FIG. 2 is a diagram illustrating a control example of weighted addition based on an addition control value in the weighted addition unit 18 according to the first embodiment of the present invention.
  • FIG. 3 shows an example of an actual shape of a cutout window in the Fourier transform unit 8 according to the first embodiment of the present invention, a window for connection in the inverse Fourier transform unit 11, and a time relationship with the decoded voice 5.
  • FIG. 1 is a diagram illustrating a control example of weighted addition based on an addition control value in the weighted addition unit 18 according to the first embodiment of the present invention.
  • FIG. 3 shows an example of an actual shape of a cutout window in the Fourier transform unit 8 according to the first embodiment of the present invention, a window for connection in the inverse Fourier transform unit 11, and a time relationship with the decoded voice 5.
  • FIG. 4 is a diagram illustrating a part of the configuration of a speech decoding apparatus to which the sound signal processing method according to the second embodiment of the present invention is applied in combination with a noise suppression method.
  • FIG. 5 is a diagram showing an overall configuration of a speech decoding apparatus to which the speech decoding method according to Embodiment 3 of the present invention is applied.
  • FIG. 6 is a diagram showing the relationship between the auditory weighting spectrum and the first deformation intensity according to the third embodiment of the present invention.
  • FIG. 7 is a diagram showing an overall configuration of a speech decoding device to which the speech decoding method according to Embodiment 4 of the present invention is applied.
  • FIG. 8 is a diagram showing an overall configuration of a speech decoding apparatus to which the speech decoding method according to Embodiment 5 of the present invention is applied.
  • FIG. 9 is a diagram showing an overall configuration of a speech decoding device to which the speech decoding method according to Embodiment 6 of the present invention is applied.
  • FIG. 10 is a diagram showing an overall configuration of a voice decoding device to which the voice decoding method according to Embodiment 7 of the present invention is applied.
  • FIG. 11 is a diagram showing an overall configuration of a speech decoding device to which a speech decoding method according to Embodiment 8 of the present invention is applied.
  • FIG. 12 shows a decoded speech spectrum 4 to which Embodiment 9 of the present invention is applied.
  • FIG. 3 is a schematic diagram showing an example of a spectrum after multiplying a modified decoded speech spectrum 44 by a weight for each frequency.
  • FIG. 1 shows an overall configuration of a speech decoding method to which the sound signal processing method according to the present embodiment is applied, wherein 1 is a speech decoding device, 2 is a signal processing unit for executing the signal adding method according to the present invention, and 3 Is a voice code, 4 is a voice decoding unit, 5 is a decoded voice, and 6 is an output voice.
  • the signal processing section 2 includes a signal transformation section 7, a signal evaluation section 12, and a weighted addition section 18.
  • the signal transformation unit 7 is composed of a Fourier transform unit 8, an amplitude smoothing unit 9, a phase disturbance unit 10, and an inverse Fourier unit 11.
  • the signal evaluation unit 12 includes an inverse filter unit 13,. It consists of a calculator 14, a background noise likeness calculator 15, an estimated background noise power updater 16, and an estimated noise spectrum updater 17 c
  • the speech code 3 is input to the speech decoding unit 4 in the speech decoding device 1.
  • the voice code 3 is output as a result of separately coding a voice signal by a voice coding unit, and is input to the voice decoding unit 4 via a communication path / storage device.
  • the audio decoding unit 4 performs a decoding process on the audio code 3 in a pair with the audio encoding unit, and obtains a signal having a predetermined length (one frame length) as a decoded audio 5. Output. Then, the decoded speech 5 is input to the signal transformation unit 7, the signal evaluation unit 12, and the weighted addition unit 18 in the signal processing unit 2.
  • the Fourier transform unit 8 in the signal transforming unit 7 performs windowing on the signal obtained by combining the inputted decoded voice 5 of the current frame and, if necessary, the latest portion of the decoded voice 5 of the previous frame, and performs windowing.
  • a spectrum component for each frequency is calculated and output to the amplitude smoothing unit 9.
  • Typical examples of Fourier transform processing include discrete Fourier transform (DFT) and fast Fourier transform (FFT).
  • DFT discrete Fourier transform
  • FFT fast Fourier transform
  • windowing process various types such as trapezoidal windows, rectangular windows, and Hanning windows can be applied.
  • the inclined portions at both ends of the trapezoidal window are each half of the Hayung window. Use a deformed trapezoidal window that has been replaced with each other.
  • the amplitude smoothing unit 9 performs a smoothing process on the amplitude component of the spectrum for each frequency input from the Fourier transform unit 8 and sends the smoothed spectrum to the phase disturbance unit 10. Output. Regardless of the smoothing process used here, either in the frequency axis direction or the time axis direction, the effect of suppressing degraded sound such as quantization noise can be obtained. However, if the smoothing in the frequency axis direction is made too strong, the spectrum will be sluggish, and the characteristic of the original background noise will often be impaired. On the other hand, if the level of smoothing in the time axis is set too high, the same sound will remain for a long time, creating a feeling of reverberation. As a result of making adjustments for various background noises, the output voice is smoothed in the frequency axis direction and the amplitude is smoothed in the logarithmic domain in the time axis direction.
  • the quality of 6 was good.
  • the smoothing method at that time is expressed by the following equation.
  • X i is the logarithmic amplitude spectrum value of the current frame (the i-th frame) before smoothing
  • y is the logarithmic amplitude spectrum of the previous frame (the i-th frame) after the smoothing.
  • is a smoothing coefficient having a value of 0 to 1. The optimum value varies depending on the frame length, the level of the degraded sound to be eliminated, etc., but is approximately 0.5.
  • the phase disturbance unit 10 disturbs the phase component of the smoothed spectrum input from the amplitude smoothing unit 9 and outputs the distorted spectrum to the inverse Fourier transform unit 11 I do.
  • a random number may be used to generate a phase angle in a predetermined range, and this may be added to the original phase angle. If there is no restriction on the range of the phase angle generation, it is sufficient to simply replace each phase component with a phase angle generated by a random number. When deterioration due to encoding is large Does not limit the range of phase angle generation.
  • the inverse Fourier transform unit 11 performs an inverse Fourier transform process on the disturbed spectrum input from the phase disturbance unit 10 to return the signal to the signal domain, and to perform the preceding and following frames.
  • the connection is performed while performing windowing for smooth connection with the signal, and the obtained signal is output to the weighted addition unit 18 as a modified decoded voice 34.
  • the inverse filter unit 13 in the signal evaluation unit 12 uses the estimated noise spectrum parameter stored in the estimated noise spectrum update unit 17 described later to The inverse filtering process is performed on the decoded speech 5 input from, and the inverse filtered decoded speech is output to the power calculation unit 14.
  • the amplitude of the background noise is large, that is, the amplitude of a component that is highly likely to be opposite to the background noise is suppressed.
  • the signal power ratio between the section and the background noise section can be made large.
  • the estimated noise spectrum parameter is selected from the viewpoints of compatibility with speech encoding processing and speech decoding processing, and sharing of software.
  • LSPs line spectrum pairs
  • Similar effects can be obtained by using spectral envelope parameters such as linear prediction coefficient (LPC), cepstrum, or the amplitude spectrum itself in addition to LSP.
  • LPC linear prediction coefficient
  • the update processing in the estimated noise spectrum updating unit 17 described later is simple in configuration using linear interpolation, averaging processing, etc., and even if linear interpolation or averaging processing is performed in the spectral envelope parameters.
  • LSP and cepstrum which can guarantee that the filter is stable, are suitable.
  • the cepstrum is superior in expressing the noise component spectrum, but the LSP is superior in terms of the easiness of the configuration of the inverse filter.
  • the power calculation unit 14 obtains the power of the inverse-filtered decoded speech input from the inverse filter unit 13 and outputs the calculated power value to the background noise likeness calculation unit 15.
  • the background noise likeness calculating unit 15 uses the power input from the power calculating unit 14 and the estimated noise power stored in the estimated noise power updating unit 16 described later to generate the current decoded speech 5.
  • the likelihood of the background noise is calculated, and this is output to the weighted addition unit 18 as the addition control value 35. Further, the calculated likelihood of background noise is output to estimated noise power updating section 16 and estimated noise spectrum updating section 17 described later, and the power input from power calculating section 14 is used to estimate the estimated noise power described later. Output to power update section 16.
  • the background noise likelihood can be calculated most simply by the following equation.
  • V log ( ⁇ N j-l og)
  • p is the power input from the power calculator 14
  • p N is the estimated noise power stored in the estimated noise power updater 16
  • V is the calculated background noise likelihood .
  • V the larger the value of V (the smaller its absolute value if it is a negative value), the more likely it is to be background noise.
  • V the larger the value of V (the smaller its absolute value if it is a negative value), the more likely it is to be background noise.
  • V by calculating the p N Z p, There are various calculation methods.
  • the estimated noise vector updating unit 17 first analyzes the input decoded speech 5 and calculates the spectrum parameter of the current frame.
  • the spectral parameters to be calculated are as described in the inverse filter unit 13 and LSP is used in most cases.
  • the estimated noise spectrum stored inside is updated by using the background noise likelihood input from the background noise likelihood calculator 15 and the spectrum parameter calculated here. For example, when the likelihood of the input background noise is high (the value of V is large), updating is performed by reflecting the calculated spectral parameters in the estimated noise spectrum according to the following equation.
  • X is a spectrum parameter of the current frame
  • x N is estimated miscellaneous Otosupeku Torr (parameter).
  • is an update rate constant taking a value from 0 to 1 and may be set to a value relatively close to 0. The value on the right side of this equation is calculated, and x is updated on the left side as the new estimated noise spectrum (parameter).
  • the weighted addition section 18 performs the decoding based on the addition control value 35 input from the signal evaluation section 12 and the decoded speech 5 input from the speech decoding section 4 and the signal transformation section.
  • the modified decoded speech 34 input from 7 is weighted and added, and the obtained output speech 6 is output.
  • the weighted addition control method As the operation of the weighted addition control method, as the addition control value 35 increases (the likelihood of background noise increases), the weight for the decoded speech 5 decreases, and the weight for the modified decoded speech 34 increases. Control. Conversely, as the addition control value 35 becomes smaller (lower likelihood of background noise), the weight for the decoded speech 5 is increased, and the weight for the modified decoded speech 34 is reduced.
  • FIG. 2 shows a control example of weighting addition based on the addition control value in the weighting addition section 18.
  • FIG. 2A shows a case in which linear control is performed using two threshold values V 1 and V 2 for the addition control value 3 5. If the addition control value 35 is less than V 1 was, 1 weighting coefficient w s for the decoded speech 5, and 0 the weighting coefficient w N to deformation decoded speech 3 4. If the addition control value 35 is V 2 or more, the weighting coefficient w s for decrypt speech 5 0, the weighting with the coefficient w N to deformation decoded speech 3 4 and A N.
  • the addition control value 35 forces V, and when the v less than 2 or more, the weighting coefficient for the decoded speech 5 w s a 1-0, the weighting coefficient w N to deformation decoded speech 3 4 between 0 ⁇ A N It is calculated linearly.
  • the background noise section can be reliably determined (v 2 or more), a value of 1 or less is given as a weighting coefficient value A N by which the modified decoded signal 34 is multiplied. The effect of suppressing the amplitude of the section is obtained. Conversely, if a value of 1 or more is given, an amplitude emphasis effect in the background noise section can be obtained.
  • the amplitude of the background noise section often decreases due to speech coding and decoding.In such a case, the amplitude of the background noise section is enhanced to improve the reproducibility of the background noise. Can be. Whether to perform amplitude suppression or amplitude emphasis depends on the application target, user requirements, and so on.
  • the background noise level is high or the compression ratio in encoding is very high
  • the degraded sound should be made inaudible by adding the modified decoded voice even in the range where the voice section is surely known. Can be.
  • Figure 2 (d) shows the result (P N / P) obtained by dividing the estimated noise power by the current power in the background noise likelihood calculator 15 as the background noise likelihood (addition control value 35).
  • the addition control value 35 indicates the ratio of the background noise included in the decoded speech 5
  • the weighting coefficient is calculated so as to be mixed at a ratio proportional to this value. Specifically, when the addition control value 35 is 1 or more, w N is 1 and w s is 0, and when w s is less than 1, w N is the addition control value 35 itself, w s ⁇ (1- w N ).
  • FIG. 3 is an explanatory diagram illustrating an example of the actual shape of the cutout window in the Fourier transform unit 8, the window for connection in the inverse Fourier transform unit 11, and the time relationship with the decoded speech 5.
  • the decoded voice 5 is output from the voice decoding unit 4 at every predetermined time length (one frame length).
  • this one frame length is N samples.
  • FIG. 3 (a) shows an example of the decoded speech 5, which corresponds to the decoded speech 5 of the current frame in which X (0) to x (N-1) are input.
  • the Fourier transform unit 8 cuts out a signal of length (N + NX) by multiplying the decoded speech 5 shown in FIG. 3A by a modified trapezoidal window shown in FIG. 3B.
  • NX is the length of each section with a value less than 1 at both ends of the deformed trapezoidal window. The interval at both ends is equal to the length (2 NX) of the Hanning window divided into the first half and the second half.
  • the inverse Fourier transform unit 11 multiplies the signal generated by the inverse Fourier transform process by a modified trapezoidal window shown in FIG. 3 (c) (as indicated by a broken line in FIG. 3 (c)).
  • the signal is added while maintaining the time relationship with the same signal obtained in the preceding and succeeding frames, and continuous modified decoded speech 3 4 (Fig. 3 (d)) is generated.
  • the output speech 6 can be generated as in the following equation by allowing the time lag between the decoded speech 5 and the modified decoded speech 34.
  • the transformed trapezoidal window is multiplied before the Fourier transform and after the inverse Fourier transform, which may cause a decrease in the amplitude of the connected portion.
  • This decrease in amplitude is likely to occur when the disturbance in the phase disturbance section 10 is weak. That's it In such a case, the window before the Fourier transform is changed to a square window to suppress the decrease in amplitude.
  • the shape of the first deformed trapezoidal window does not appear in the signal after the inverse Fourier transform, so that the transformed decoded speech 34 A second window will be required for a smooth connection.
  • the processing of the signal transformation unit 7, the signal evaluation unit 12, and the weighting addition unit 18 are all performed for each frame, but the present invention is not limited to this.
  • one frame is divided into a plurality of subframes, the processing of the signal evaluation unit 12 is performed for each subframe, and an addition control value 35 for each subframe is calculated.
  • the weighting in the weighting addition unit 18 Control may be performed for each subframe. Since the Fourier transform is used for the signal transformation processing, if the frame length is too short, the analysis result of the spectrum characteristic becomes unstable, and the transformed decoded voice 34 becomes unstable. On the other hand, since the background noise can be calculated relatively stably even in a short section, the quality can be improved in the rising part of speech by calculating each subframe and finely controlling the weight. .
  • addition control values 35 it is also possible to calculate the small number of addition control values 35 by performing the processing of the signal evaluation unit 12 for each subframe and combining all the addition control values in the frame. If the speech section does not want to be mistaken for background noise, the minimum value (minimum value of the background noise) of all the addition control values is selected and set as the addition control value 35 representing the frame. Output.
  • the frame length of the decoded voice 5 and the processing frame length of the signal transformation unit 7 do not need to be the same. For example, if the frame length of the decoded speech 5 is too short and too short for the spectrum analysis in the signal transformation unit 7, the decoded speech 5 of a plurality of frames is accumulated and the signal transformation processing is performed collectively. I should do it. However, in this case, in order to accumulate the decoded audio 5 of multiple frames, Processing delay will occur.
  • the processing frame length of the entire signal transformation unit 7 and the signal processing unit 2 may be set completely independently of the frame length of the decoded speech 5. In this case, the buffering of the signal becomes complicated, but it is possible to select the optimum processing frame length for the signal processing without depending on the frame lengths of various decoded voices 5, and the signal processing unit 2 This has the effect of improving the quality.
  • the calculation of the likelihood of the background noise is performed by using the inverse filter unit 13.
  • the present invention is not limited to this configuration.
  • a processed signal in which a degraded component included in the input signal is not subjectively noticed by performing a predetermined signal processing process on an input signal (decoded speech), a processed signal in which a degraded component included in the input signal is not subjectively noticed. (Deformed speech) is generated, and the addition weight of the input signal and the processed signal is controlled by a predetermined evaluation value (likelihood of background noise), so that the ratio of the processed signal is centered on the section containing many degraded components. It has the effect of increasing subjective quality.
  • the signal processing is performed in the spectrum area, it is possible to perform the processing of suppressing a fine degradation component in the spectrum area, and it is possible to further improve the subjective quality.
  • the smoothing process of the amplitude spectrum component and the process of imparting the disturbance of the phase spectrum component are performed as the processing, the unstableness of the amplitude spectrum component caused by quantization noise etc. Fluctuations can be suppressed well, and furthermore, the quantization noise, which has a unique correlation between the phase components and is often perceived as characteristic degradation, disturbs the relationship between the phase components. And has the effect of improving subjective quality.
  • the binary section of either the conventional speech section or the background noise section Since the continuous judgment called background noise likeness is calculated and the weighted addition coefficient of the decoded speech and the modified decoded speech is continuously controlled based on this, the quality degradation due to the section judgment error is eliminated. There is an effect that can be avoided.
  • the quantization noise or the degraded sound in the voice section is large, the degraded sound can be made inaudible by adding the modified decoded voice even in the section that is surely known as the voice section. effective.
  • the output speech is generated by processing the decoded speech that contains a lot of background noise information
  • the noise and the shape of the noise and the shape of the spectrum remain unchanged while retaining the characteristics of the actual background noise. It has a stable quality improvement effect that is largely independent, and an improvement effect on degradation components due to excitation coding and the like.
  • the audio decoding unit and the signal processing unit are clearly separated, and there is little exchange of information between the two, so that various audio decoding devices including existing ones are used. It is easy to introduce.
  • FIG. 4 shows a part of the configuration of a sound signal processing apparatus to which the sound signal processing method according to the present embodiment is applied in combination with the noise suppression method.
  • 36 is the input signal
  • 8 is a Fourier transform section
  • 19 is a noise suppression section
  • 39 is a spectrum transformation section
  • 12 is a signal evaluation section
  • 18 is a weighted addition section
  • 11 is an inverse Fourier transform section
  • 40 is an output.
  • the spectrum deformation section 39 is composed of an amplitude smoothing section 9 and a phase disturbance section 10-the operation will be described below with reference to the figure.-First, the input signal 36 is converted to a Fourier signal.
  • the signals are input to the conversion unit 8 and the signal evaluation unit 12.
  • the Fourier transform unit 8 performs windowing on the signal obtained by combining the input signal 36 of the current frame and the latest part of the input signal 36 of the previous frame as necessary, and outputs the signal after the windowing. By performing Fourier transform processing on this, a spectrum component for each frequency is calculated, and this is output to the noise suppression unit 19.
  • c for Fourier transformation and the windowing process is in the form 1 and the like carried
  • the noise suppression unit 19 subtracts the estimated noise spectrum stored inside the noise suppression unit 19 from the spectrum component for each frequency input from the Fourier transform unit 8 and obtains the result.
  • the result is output as a noise suppression spectrum 37 to the weighting and adding section 18 and the amplitude smoothing section 9 in the spectrum deforming section 39.
  • This is a process corresponding to the main part of the so-called spectral subtraction process.
  • the noise suppression unit 19 determines whether or not it is in the background noise section, and in the case of the background noise section, uses the spectral component for each frequency input from the Fourier transform unit 8 to generate the internal noise. Update the estimated noise spectrum of.
  • it is possible to simplify the process by determining whether or not the signal is in the background noise section by diverting the output result of the signal evaluation unit 12 described later.
  • the amplitude smoothing unit 9 in the spectrum deforming unit 39 performs a smoothing process on the amplitude component of the noise suppressing spectrum 37 input from the noise suppressing unit 19, and performs smoothing. Is output to the phase disturbance unit 10. For here Regardless of the smoothing process used in either the frequency axis direction or the time axis direction, the effect of suppressing the degraded sound generated by the noise suppression unit can be obtained. As a specific smoothing method, a method similar to that in Embodiment 1 can be used.
  • the phase disturbance unit 10 in the spectrum deformation unit 39 gives disturbance to the phase component of the noise suppression spectrum after smoothing input from the amplitude smoothing unit 9, and the spectrum after the disturbance is applied.
  • the vector is output to the weighted addition unit 18 as the modified noise suppression vector 38.
  • the signal evaluation unit 12 analyzes the input signal 36 to calculate the likelihood of the background noise, and outputs this as the addition control value 35 to the weighting addition unit 18. Note that the same configuration and the same processing as in the first embodiment can be used in the signal evaluation unit 12.
  • the weighted addition unit 18 is configured to include the noise suppression spectrum 37 input from the noise suppression unit 19 and the spectrum deformation unit based on the addition control value 35 input from the signal evaluation unit 12.
  • the modified noise suppression vector 38 input from 39 is weighted and added, and the obtained vector is output to the inverse Fourier transform unit 11.
  • the operation of the weighted addition control method is as follows. As the addition control value 35 becomes larger (the background noise becomes higher), the weight for the noise suppression vector 37 becomes smaller. In addition, the weight for the deformed noise suppression vector 38 is largely controlled. Conversely, as the addition control value 35 becomes smaller (the lower the likelihood of background noise), the weight for the noise suppression vector 37 becomes larger, and the weight for the modified noise suppression vector 38 becomes smaller. You.
  • the inverse Fourier transform unit 11 performs an inverse Fourier transform process on the spectrum input from the weighted addition unit 18 so as to return the spectrum to the signal domain.
  • Windows for a smooth connection with the frame The output signal is output as an output signal 40.
  • the windowing and connection process for connection are the same as in the first embodiment.
  • the deterioration component is not subjectively noticed.
  • a processing spectrum deformation noise suppression spectrum
  • the weight of addition of the spectrum before processing and the processing spectrum is controlled by a predetermined evaluation value (likeness of background noise).
  • a predetermined evaluation value likeness of background noise
  • the Fourier transform and the inverse Fourier transform for the processing are not required as compared with the first embodiment, and the processing is simplified.
  • the Fourier transform unit 8 and the inverse Fourier transform 11 in the second embodiment are originally necessary configurations for the noise suppressing unit 19.
  • the smoothing process of the amplitude spectrum component and the disturbance imparting process of the phase spectrum component are performed as the processing, so that the amplitude spectrum generated by quantization noise and the like is performed. It is possible to satisfactorily suppress unstable fluctuations of the components, and furthermore, it has a unique correlation between the phase components, and is suitable for quantization noise and degraded components that are often felt as characteristic degradation. As a result, the relationship between the phase components can be disturbed, and the subjective quality can be improved.
  • FIG. 5 in which parts corresponding to those in FIG. 1 are assigned the same reference numerals, shows the overall configuration of a speech decoding apparatus to which the sound signal processing method according to the present embodiment is applied.
  • the deformation intensity control unit 20 outputs information for controlling the following: the deformation intensity control unit 20 includes an auditory weighting unit 21, a Fourier transform unit 22, a level determination unit 23, a continuity determination unit 24, It is composed of a deformation strength calculator 25.
  • the decoded voice 5 output from the voice decoding unit 4 is input to the signal transformation unit 7, the deformation strength control unit 20, the signal evaluation unit 12, and the weighted addition unit 18 in the signal processing unit 2.
  • the auditory weighting unit 21 in the deformation intensity control unit 20 performs an auditory weighting process on the decoded speech 5 input from the speech decoding unit 4, and converts the obtained auditory weighted speech into a Fourier transform unit 22. Output to Here, as the auditory weighting processing, the same processing as that used in the audio encoding processing (which forms a pair with the audio decoding processing performed by the audio decoding unit 4) is performed.
  • Perceptual weighting processing which is often used in encoding processing such as CELP, analyzes the speech to be encoded, calculates a linear prediction coefficient (LPC), and performs constant multiplication on this to obtain two modified LPCs.
  • LPC linear prediction coefficient
  • An ARMA filter using these two modified LPCs as filter coefficients is configured, and auditory weighting is performed by filtering using this filter.
  • the LPC obtained by decoding the received speech code 3 or the LPC calculated by re-analyzing the decoded speech 5 As a starting point, two modified LPCs can be obtained, and these can be used to construct an auditory weighting filter.
  • encoding processing such as CELP
  • encoding is performed so as to minimize distortion in speech after weighting with auditory perception, so that spectral components with large amplitudes in speech after hearing with weighting are superimposed with quantization noise. Is small. Therefore, if a speech close to the auditory weighting speech at the time of encoding can be generated in the decoding unit 1, it is useful as control information of the deformation intensity in the signal deformation unit 7.
  • the speech decoding process in the speech decoding unit 4 includes processing such as a spectrum post filter (which is mostly included in the case of CELP)
  • the original decoding is performed first. Either generate a voice from which the effect of processing such as a spectrum boss filter has been removed from voice 5 or extract the voice immediately before this processing from voice recovery unit 4 to assign an auditory weight to the voice. By doing so, it is close to the auditory weighted speech at the time of encoding. Sound is obtained.
  • the main purpose is to improve the quality of the background noise section, the effect of processing such as the spectrum post filter in this section is small, and there is no significant difference in the effect even if the influence is not removed.
  • the third embodiment has a configuration in which the influence of processing such as a spectrum post filter is not removed.
  • the perceptual weighting unit 21 is unnecessary when the perceptual weighting is not performed in the encoding process or when the effect is small and can be ignored.
  • the output of the Fourier transform unit 8 in the signal transforming unit 7 may be given to the level determination unit 23 and the continuity determination unit 24 described below, so that the Fourier transform unit 22 is not required.
  • the output of the Fourier transform unit 8 in the signal transformation unit 7 is used as the input to the auditory weighting unit 21, and the auditory weighting unit 21 responds to this input in the spectral domain.
  • the Fourier transform unit 22 is omitted, and the weighted auditory weight is output to the level judgment unit 23 and the continuity judgment unit 24 described later. It is also possible.
  • the Fourier transform unit 22 in the deformation intensity control unit 20 is a signal that combines the auditory weighted sound input from the auditory weighting unit 21 and the latest part of the auditory weighted sound of the previous frame as necessary. Window, and perform Fourier transform processing on the signal after windowing to calculate the spectral component for each frequency, and use this as the auditory weighting spectrum to determine the level. Output to section 23 and continuity determination section 24.
  • the Fourier transform process and the windowing process are the same as the Fourier transform unit 8 of the first embodiment.
  • the level judging unit 23 receives the auditory weights input from the Fourier transforming unit 22.
  • the first deformation strength for each frequency is calculated based on the magnitude of each amplitude component of the vibration spectrum, and is output to the deformation strength calculation unit 25.
  • the average value of all amplitude components is calculated, and a predetermined threshold value Th is added to the average value.
  • the first deformation strength may be set to 1 for the component.
  • FIG. 6 shows the relationship between the auditory weighting vector and the first deformation intensity when the threshold value Th is used. Note that the first method of calculating the deformation strength is not limited to this.
  • the continuity determination unit 24 evaluates the continuity of each amplitude component or each phase component of the auditory weighting spectrum input from the Fourier transform unit 22 in the time direction, and based on the evaluation result, The second deformation strength for each frequency is calculated, and this is output to the deformation strength calculation unit 25.
  • Good encoding for frequency components with low continuity in the temporal direction of the amplitude component of the auditory weighting spectrum and low continuity of the phase component (after compensating for phase rotation due to the time transition between frames) Since it is difficult to assume that the deformation has been performed, the second deformation strength is increased.
  • a method of giving 0 or 1 by the determination using a predetermined threshold value can be used most simply.
  • the deformation strength calculation section 25 calculates the final It calculates a typical deformation intensity and outputs it to the amplitude smoothing unit 9 and the phase disturbance unit 10 in the signal deformation unit 7.
  • the final deformation strength a minimum value, a weighted average value, a maximum value, and the like of the first deformation strength and the second deformation strength can be used. This is the end of the description of the operation of the deformation strength control unit 20 newly added in the third embodiment.
  • the amplitude smoothing unit 9 performs a smoothing process on the amplitude component of the spectrum for each frequency input from the Fourier transform unit 8 according to the deformation intensity input from the deformation intensity control unit 20. Then, the spectrum after smoothing is output to the phase disturbance unit 10. In addition, the control is performed so that the smoothing is strengthened as the frequency component with the higher deformation intensity.
  • the simplest method of controlling the strength of the smoothing strength is to perform smoothing only when the input deformation strength is large.
  • Other methods of enhancing the smoothing include reducing the smoothing coefficient ⁇ in the smoothing formula described in the first embodiment, or the spectrum after performing the fixed smoothing. And the spectrum before smoothing are weighted and added to generate a final spectrum, and the weight of the spectrum before smoothing is reduced. Various methods can be used.
  • the phase disturbance unit 10 applies disturbance to the phase component of the smoothed spectrum input from the amplitude smoothing unit 9 according to the deformation intensity input from the deformation intensity control unit 20.
  • the distorted spectrum is output to the inverse Fourier transform unit 11.
  • control is performed so that the phase disturbance becomes larger as the frequency component with the higher deformation intensity.
  • the simplest way to control the magnitude of the disturbance is to apply the disturbance only when the input deformation intensity is high.
  • Various other methods for controlling the disturbance can be used, such as increasing or decreasing the range of the phase angle generated by random numbers.
  • the output results of both the level determination unit 23 and the continuity determination unit 24 have been used here, a configuration is possible in which only one is used and the other is omitted. . Further, a configuration in which only the amplitude smoothing unit 9 and the phase disturbance unit 10 are controlled by the deformation intensity may be employed.
  • the magnitude of the amplitude of each frequency component of the input signal (decoded speech) or the input signal (decoded speech) weighted by the auditory sense, the continuity of the amplitude and the phase of each frequency. Based on the magnitude of, the deformation intensity when generating a processed signal (deformed decoding voice) is controlled for each frequency.
  • the amplitude spectrum component is Focus on components where quantization noise and degradation components are dominant due to small size, and components where quantization noise and degradation components tend to increase due to low continuity of spectral components.
  • the processing is added, so that it is not possible to process to a good component with little quantization noise and degraded components, while maintaining the characteristics of the input signal and the actual background noise relatively well, and Deterioration components can be suppressed subjectively, There is an effect that can improve the quality.
  • FIG. 7 in which parts corresponding to those in FIG. 5 are assigned the same reference numerals, shows the entire configuration of a speech decoding apparatus to which the sound signal processing method according to the present embodiment is applied.
  • the part of the signal transformation unit 7 in FIG. 5 is changed to a Fourier transformation unit 8, a spectrum transformation unit 39, and an inverse Fourier transformation unit 11.
  • the decoded voice 5 output from the voice decoding unit 4 is input to a Fourier transform unit 8, a deformation strength control unit 20, and a signal evaluation unit 12 in the signal processing unit 2.
  • the Fourier transform unit 8 performs windowing on the signal obtained by combining the decoded voice 5 of the input current frame and the latest part of the decoded voice 5 of the previous frame as necessary, as in the second embodiment.
  • a spectrum component for each frequency is calculated, and this is used as a decoded speech spectrum 43 and the weighted addition unit 18 is used as the decoded speech spectrum 43.
  • the spectrum transforming section 39 performs the processing of the amplitude smoothing section 9 and the phase disturbance section 10 on the input decoded speech spectrum 43 in the same manner as in the second embodiment, and obtains the result.
  • the spectrum is output to the weighted adder 18 as a modified decoded speech spectrum 44.
  • the deformation intensity control unit 20 for the input decoded speech 5, the auditory weighting unit 21, Fourier transform unit 22, level determination unit 23, continuity determination unit 2 4.
  • the processing of the deformation strength calculation unit 25 is sequentially performed, and the obtained deformation strength for each frequency is output to the addition control value division unit 41.
  • the auditory weighting unit 21 and the Fourier transform unit 22 are unnecessary.
  • the output of the Fourier transform unit 8 may be provided to the level determination unit 23 and the continuity determination unit 24.
  • the output of the Fourier transform unit 8 is used as an input to the auditory weighting unit 21, and the auditory weighting unit 21 performs auditory weighting on this input in the spectral domain, and the Fourier transform unit 2 It is also possible to omit step 2 and output a spectrum weighted to auditory weight to a level determination unit 23 and a continuity determination unit 24 described below. With such a configuration, the processing can be simplified.
  • the signal evaluation unit 12 obtains the likelihood of background noise from the input decoded speech 5, and uses this as an addition control value 35 as an addition control value division unit 4 1 Output to
  • the newly added addition control value division unit 41 uses the deformation intensity for each frequency input from the deformation intensity control unit 20 and the addition control value 35 input from the signal evaluation unit 12, An addition control value 42 for each frequency is generated and output to the weighted addition unit 18.
  • the value of the addition control value 42 of the frequency is controlled so that the decoded speech
  • the weight of the vector 43 is weakened, and the weight of the modified decoded speech vector 44 is increased.
  • the value of the addition control value 42 of that frequency is controlled, and the weight of the decoded voice spectrum 43 in the weighted adding section 18 is increased, so that the deformed decoded voice spectrum is changed. 4 Decrease the weight of 4. That is, for a frequency having a high deformation strength, the likelihood of background noise is high, so the addition control value 42 of that frequency is increased, and conversely, it is decreased.
  • the weighted adder 18 is connected to the decoded speech spectrum 43 input from the Fourier transformer 8 and the spectrum based on the addition control value 42 for each frequency input from the addition control value divider 41.
  • the modified decoded speech spectrum 44 input from the vector transformation unit 39 is weighted and added, and the obtained spectrum is output to the inverse Fourier transform unit 11.
  • the operation of the weighted addition control method is similar to that described with reference to FIG. 2, in that the addition control value 42 for each frequency is large (the likelihood of background noise is high).
  • the weight for the vector 43 is controlled to be small, and the weight for the modified decoded speech vector 44 is controlled to be large.
  • the weight for the decoded speech spectrum 43 is increased, and the weight for the modified decoded speech spectrum 44 is reduced.
  • the inverse Fourier transform unit 11 performs an inverse Fourier transform process on the spectrum input from the weighted adding unit 18 in the same manner as in the second embodiment. By doing so, the signal is returned to the signal area and connected while performing windowing for smooth connection with the front and rear frames, and the obtained signal is output as output sound 6.
  • the addition control value dividing unit 41 is eliminated, the output of the signal evaluation unit 12 is given to the weighted addition unit 18, and the deformation intensity output from the deformation intensity control unit 20 is used as the amplitude smoothing unit 9. It is also possible to provide a configuration in which the phase disturbance is applied to the phase disturbance unit 10. Something like this Corresponds to a configuration in which the weighted addition processing in the configuration of the third embodiment is performed in the spectrum area.
  • the magnitude of the amplitude of each frequency component of the input signal (decoded speech) or the input signal (decoded speech) weighted perceptually, and the magnitude of the continuity of the amplitude and phase of each frequency Based on this, the weighted addition of the spectrum of the human power signal (decoded speech spectrum) and the processing spectrum (deformed decoded speech spectrum) is controlled independently for each frequency component. Therefore, in addition to the effect of the first embodiment, a component in which the quantization noise and the degraded component are dominant due to the small amplitude spectrum component, and the continuity of the spectrum component is low.
  • the weight of the processing spectrum is increased with emphasis on components that tend to increase the amount of quantization noise and degraded components, and the weight of the processed spectrum is increased on components that have less quantization noise and degraded components. Is lost It has the effect of subjectively suppressing quantization noise and degraded components while maintaining the characteristics of signals and actual background noise relatively well, and has the effect of improving the subjective quality.
  • the transformation processing is changed from two for each frequency to one for one frequency, which has the effect of simplifying the processing.
  • FIG. 8 in which the same reference numerals are assigned to parts corresponding to those in FIG. 5 shows the entire configuration of a speech decoding apparatus to which the sound signal processing method according to the present embodiment is applied.
  • reference numeral 26 denotes background noise likeness (addition control value A variability determination unit that determines the variability in the time direction in 35).
  • the decoded speech 5 output from the speech decoding unit 4 is input to the signal transformation unit 7, the deformation strength control unit 20, the signal evaluation unit 12, and the weighted addition unit 18 in the signal processing unit 2.
  • the signal evaluation unit 12 evaluates the likelihood of background noise with respect to the input decoded speech 5, and sets the evaluation result as an addition control value 35, and determines the variability determination unit 26 and the weighted addition unit 1. Output to 8.
  • the variability determination unit 26 compares the addition control value 35 input from the signal evaluation unit 12 with the past addition control value 35 stored therein, and calculates the variability of the value in the time direction. Is determined, and a third deformation strength is calculated based on the determination result, and this is output to the deformation strength calculation unit 25 in the deformation strength control unit 20. Then, the past addition control value 35 stored therein is updated using the input addition control value 35.
  • the third deformation intensity is set such that when the variability in the time direction of the addition control value 35 is high, the smoothing in the amplitude smoothing unit 9 and the disturbance in the phase disturbance unit 10 are weakened. Set. Note that the same effect can be obtained by using parameters other than the addition control value 35, such as the power of the decoded speech and the spectrum envelope parameter, as long as they represent the characteristics of the frame (or subframe). .
  • the simplest method of determining variability is to compare the absolute value of the difference from the addition control value 35 of the previous frame with a predetermined threshold value, and if the absolute value exceeds the threshold value, the variability is high.
  • the absolute value of the difference between the addition control value 35 of the previous frame and the frame before the previous frame is calculated, and it is determined whether or not one of the absolute values exceeds a predetermined threshold. Is also good.
  • the signal evaluation section 1 2 When calculating the addition control value 35 for each subframe, the absolute value of the difference of the addition control value 35 between the current frame and all subframes in the previous frame as necessary is calculated. The determination can be made based on whether any of them exceeds a predetermined threshold. Then, as a specific processing example, the third deformation intensity is set to 0 if the value exceeds the threshold value, and the third deformation intensity is set to 1 if the value is lower than the threshold value.
  • the deformation intensity control unit 20 for the input decoded speech 5, the auditory weighting unit 21, the Fourier transform unit 22, the level judgment unit 23, and the continuity judgment unit 24 The same processing as in the third embodiment is performed.
  • the deformation strength calculation section 25 includes a first deformation strength input from the level determination section 23, a second deformation strength input from the continuity determination section 24, and a variability determination section 26. Based on the input third deformation intensity, a final deformation intensity for each frequency is calculated and output to the amplitude smoothing unit 9 and the phase disturbance unit 10 in the signal deformation unit 7.
  • the third deformation strength is given as a constant value for all frequencies, and the third deformation strength extended to this frequency for each frequency is defined as the first deformation strength. It is possible to use a method in which a minimum value, a weighted average value, a maximum value, and the like of the deformation strength and the second deformation strength are obtained and used as the final deformation strength.
  • the output results of both the level judgment unit 23 and the continuity judgment unit 24 are used.
  • the object to be controlled by the deformation intensity may be only one of the amplitude smoothing unit 9 and the phase disturbance unit 10, or the third deformation intensity may be controlled by only one of them.
  • Embodiment 3 in addition to the configuration of the third embodiment, is configured to control the degree or the intensity of disturbance by the magnitude of the temporal variability (variability between frames or subframes) of a predetermined evaluation value (likelihood of background noise). In addition to its effects, it also has the effect of suppressing unnecessarily strong processing in sections where the characteristics of the input signal (decoded voice) fluctuate, and preventing the occurrence of dullness and echo (echo).
  • Embodiment 6 is configured to control the degree or the intensity of disturbance by the magnitude of the temporal variability (variability between frames or subframes) of a predetermined evaluation value (likelihood of background noise). In addition to its effects, it also has the effect of suppressing unnecessarily strong processing in sections where the characteristics of the input signal (decoded voice) fluctuate, and preventing the occurrence of dullness and echo (echo).
  • FIG. 9 in which parts corresponding to those in FIG. 5 are assigned the same reference numerals shows the entire configuration of a speech decoding apparatus to which the sound signal processing method according to the present embodiment is applied.
  • 27 is an abrasion-likeness evaluation unit
  • 31 is a background noise-likeness evaluation unit
  • 45 is an addition control value calculation unit.
  • the fricative likelihood evaluating section 27 is composed of a low-frequency cut filter 28, a zero-crossing number counting section 29, and a fricative likelihood calculating section 30.
  • the background noise likeness evaluation section 31 has the same configuration as the signal evaluation section 12 in FIG. 5, and includes an inverse filter section 13, a power calculation section 14, a background noise likeness calculation section 15 and an estimated noise power update section. 16 and an estimated noise spectrum updating unit 17.
  • the signal evaluation unit 12 includes a friction noise likeness evaluation unit 27, a background noise likeness evaluation unit 31 and an addition control value calculation unit 45. The operation will be described below with reference to the drawings.
  • the decoded speech 5 output from the speech decoding unit 4 is transformed into a signal transformation unit 7, a deformation intensity control unit 20 in the signal processing unit 2, a friction noise likeness evaluation unit 27 in the signal evaluation unit 12, and a background noise likeness. It is input to the evaluation unit 31 and the weighted addition unit 18.
  • the background noise likeness evaluation unit 31 in the signal evaluation unit 12 performs an inverse filter unit 13
  • the processing of the power calculation unit 14 and the background noise likeness calculation unit 15 is performed, and the obtained background noise likeness 46 is output to the addition control value calculation unit 45.
  • the processing of the estimated noise power update unit 16 and the estimated noise spectrum update unit 17 is also performed.
  • the estimated noise power and the estimated noise spectrum stored in each are updated.
  • the low-frequency power filter 28 in the fricative soundness evaluation section 27 performs low-frequency cut filter processing on the input decoded speech 5 to suppress low-frequency components, and performs filtering. Is output to the zero-crossing number counting section 29.
  • the purpose of this low-frequency cut filtering is to convert DC components and low-frequency components contained in the decoded speech into offsets, and to count the results of the zero-crossing number counting unit 29 described later. Is to prevent the decrease in Therefore, simply calculating the average value of the decoded speech 5 in the frame and subtracting the average value from each sample of the decoded speech 5 may be used.
  • the zero-crossing number power point unit 29 analyzes the voice input from the low-pass power filter 28, counts the number of included zero-crossings, and determines the obtained number of zero-crossings as a noise. Output to calculation unit 30.
  • the method of counting the number of zero crossings is to compare the sign of the adjacent samples, count them as zero crossings if they are not the same, count the values of the adjacent samples, and calculate the result. If the value is negative or zero, there is a method of counting as if it crosses zero.
  • Friction sound likelihood calculating section 30 compares the number of zero crossings input from zero-crossing number force counting section 29 with a predetermined threshold value, and determines likelihood of friction sound 47 based on the comparison result. This is output to the addition control value calculation unit 45.
  • the likelihood of the fricative sound is set to 1.
  • the likelihood of the fricative sound is set to zero.
  • the configuration of the fricative likelihood evaluation section 27 is only an example.
  • the evaluation is performed based on the analysis result of the vector inclination, the evaluation is performed based on the stationarity of the power and the vector, and the evaluation is performed by combining a plurality of parameters including the number of zero crossings. You can do it.
  • the addition control value calculation unit 45 is based on the background noise likelihood 46 input from the background noise likeness evaluation unit 31 and the fricative sound likeness 47 input from the fricative sound likeness evaluation unit 27.
  • the addition control value 35 is calculated and output to the weighted addition section 18. In both cases of background noise and fricative noise, quantization noise often becomes difficult to hear.Therefore, appropriately add the weight of background noise 46 and fricative noise 4 7 appropriately.
  • the additional control value 35 may be calculated by using.
  • the processed signal when the likelihood of background noise and fricative noise of the input signal (decoded speech) is high, the processed signal (deformed decoded speech) is replaced with a larger processed signal (deformed decoded speech).
  • the fricative sound section where quantization noise and degraded components tend to be generated is emphasized.
  • appropriate processing no processing, low-level processing, etc.
  • a configuration in which the background noise likeness evaluation unit is omitted is also possible.
  • FIG. 10 in which the same reference numerals are assigned to parts corresponding to those in FIG. 1 shows the entire configuration of a speech decoding apparatus to which the signal processing method according to the present embodiment is applied, and 32 in the figure is a post-filter unit. .
  • the speech code 3 is input to the speech decoding unit 4 in the speech decoding device 1.
  • the audio decoding unit 4 performs a decoding process on the input audio code 3, and outputs the obtained decoded audio 5 to the post-filter unit 32, the signal transformation unit 7, and the signal evaluation unit 12.
  • the post-filter unit 32 performs a spectrum emphasis process, a pitch periodicity emphasis process, and the like on the input decoded speech 5, and obtains the obtained result as a post-filter decoded speech 48. Output to weighted adder 18.
  • This boost filter processing is generally used as a post-processing of CELP decoding processing, and is introduced for the purpose of suppressing quantization noise generated by encoding and decoding. -Since the portion with low vector strength contains a lot of quantization noise, the amplitude of this component is suppressed.
  • the pitch periodicity enhancement processing is not performed, and only the spectrum enhancement processing is performed.
  • the post filter processing can be applied to either the one included in the audio decoding unit 4 or the one not present.
  • all or a part of the boss filter processing is independent from the vocal filter processing included in the audio decoding unit 4 as the boss filter unit 32.
  • the signal transformation unit 7 converts the input decoded speech 5 into a Fourier transform unit 8, an amplitude smoothing unit 9, a phase disturbance unit 10, and an inverse Fourier transform unit 11. After processing, the resulting modified decoded speech 3 4 is weighted Output to arithmetic unit 18.
  • the signal evaluation unit 12 evaluates the likelihood of background noise with respect to the input decoded speech 5, and uses the evaluation result as an addition control value 35 as a weighted addition unit 18.
  • the weighted addition section 18 performs the post-filter section 3 2 based on the addition control value 35 input from the signal evaluation section 12 in the same manner as in the first embodiment.
  • the weighted addition is performed on the modified decoded speech 48 input from the filter filter 34 and the modified decoded speech 34 input from the signal transformation unit 7, and the obtained output speech 6 is output.
  • a modified decoded speech is generated based on the decoded speech before processing by the post filter, and the decoded speech before processing by the post filter is analyzed to determine the likelihood of background noise.
  • a modified decoded speech that does not include the deformation of the decoded speech by the post filter can be generated.
  • the decoded voice before the processing by the post filter is used as a starting point to transform the decoded voice.
  • the generated distortion sound becomes smaller.
  • the post filter processing has multiple modes, and if the processing is frequently switched, there is a high risk that the switching will affect the evaluation of the likelihood of background noise. A more stable evaluation result can be obtained by evaluating the likelihood of background noise for the signal speech. Note that, in the configuration of the third embodiment, when the boost filter section is separated in the same manner as in the seventh embodiment, the output result of the auditory weighting section 21 in FIG. As the sound approaches the auditory weighted speech in the processing, the accuracy of specifying components with much quantization noise is increased, better deformation intensity control is obtained, and the effect of further improving the subjective quality is obtained.
  • the boost filter section when the boost filter section is separated in the same manner as in the seventh embodiment, the evaluation accuracy in the friction noise likeness evaluation section 27 in FIG. 9 is increased, and the subjective quality is reduced. The effect of further improvement is obtained.
  • the configuration in which the post filter section is not separated is smaller in connection with the audio decoding section (including the post filter) to only one point of the decoded voice than the separated configuration of the seventh embodiment. It has the advantage that it can be easily realized with independent devices and programs.
  • the seventh embodiment there is a disadvantage that it is not easy to realize an audio decoding unit having a post filter by an independent device or program, but it has various effects described above.
  • FIG. 11 in which parts corresponding to those in FIG. 10 are assigned the same reference numerals shows the overall configuration of a speech decoding apparatus to which the sound signal processing method according to the present embodiment is applied. These are the spectral parameters generated within.
  • the difference from FIG. 10 is that a deformation intensity control unit 20 similar to that of the third embodiment is added, and the spectrum parameter 33 is changed from the speech decoding unit 4 to the signal evaluation unit 12. This is the point that is input to the shape strength control unit 20.
  • the speech code 3 is input to the speech decoding unit 4 in the speech decoding device 1.
  • the audio decoding unit 4 performs a decoding process on the input audio code 3, and converts the obtained decoded audio 5 into a boost filter unit 32, a signal deformation unit 7, a deformation intensity control unit 20, and a signal evaluation. Output to part 1 and 2. It is also generated during the decryption process.
  • the estimated spectrum parameter 33 is output to the estimated noise spectrum updating section 17 in the signal evaluation section 12 and the auditory weighting section 21 in the deformation intensity control section 20.
  • vector parameters 33 linear prediction coefficients (LPC), line spectrum pairs (LSP), and the like are often used in general.
  • the auditory weighting unit 21 in the deformation intensity control unit 20 uses the spectrum parameter 33 also input from the speech decoding unit 4 for the decoded speech 5 input from the speech decoding unit 4. Then, an auditory weighting process is performed, and the obtained auditory weighted speech is output to the Fourier transform unit 22.
  • the spectral parameter 33 is a linear prediction coefficient (LPC)
  • LPC linear prediction coefficient
  • this spectrum parameter 33 is converted to LPC, this LPC is multiplied by a constant to find two modified LPCs, and an ARMA filter that uses these two modified LPCs as filter coefficients.
  • auditory weighting is performed by filtering processing using this filter. Note that it is desirable that this auditory weighting process perform the same process as that used in the voice encoding process (the one that is paired with the voice decoding process performed by the voice decoding unit 4).
  • the deformation intensity control unit 20 following the processing of the auditory weighting unit 21, as in the third embodiment, the Fourier transform unit 22, the level determination unit 23, the continuity determination unit 24, The processing of the deformation strength calculation unit 25 is performed, and the obtained deformation strength is output to the signal deformation unit 7.
  • the signal transformation unit 7 performs a Fourier transformation unit 8, an amplitude smoothing unit 9, a phase disturbance unit 10, and an inverse Fourier transformation on the input decoded speech 5 and the transformed intensity.
  • the processing of the section 11 is performed, and the obtained modified decoded speech 34 is output to the weighted addition section 18.
  • the likelihood of background noise is evaluated by performing the processing of the first calculation unit 14 and the background noise likeness calculation unit 15, and the evaluation result is output to the weighted addition unit 18 as an addition control value 35.
  • the estimated noise power is updated by the processing of the estimated noise bar—updating unit 16.
  • the estimated noise spectrum update unit 17 uses the spectrum parameter 33 input from the speech decoding unit 4 and the background noise input from the background noise likeness calculation unit 15 to generate its internal noise. Update the estimated noise spectrum stored in. For example, when the likelihood of the input background noise is high, the update is performed by reflecting the spectrum parameter 33 in the estimated noise spectrum according to the equation shown in the first embodiment.
  • the auditory weighting process and the update of the estimated noise spectrum are performed by diverting the spectrum parameters generated in the speech decoding process.
  • the estimation accuracy of the estimated noise spectrum used for calculating the likelihood of background noise (in the sense that it is close to the spectrum of the voice input to the voice encoding process) is increased, and as a result, This makes it possible to perform high-accuracy addition weight control based on the stable high-precision background noise, which has the effect of improving subjective quality.
  • the embodiment 8 has a configuration in which the post filter unit 32 is separated from the audio decoding unit 4, the configuration is not limited to this configuration.
  • the signal processing unit 2 can be processed using the spectral parameter 33 output from the audio decoding unit 4. In this case, the same effect as in the eighth embodiment can be obtained.
  • the addition control value dividing unit 41 multiplies the weight for each frequency of the modified decoded speech spectrum 44 added by the weight adding unit 18. It is also possible to control the output deformation intensity so that the approximate shape of the spectrum matches the estimated shape of the quantization noise.
  • FIG. 12 is a schematic diagram showing an example of the decoded speech spectrum 43 and the modified decoded speech spectrum 44 obtained by multiplying the modified decoded speech spectrum 44 by a weight for each frequency.
  • quantization noise having a spectrum shape depending on the encoding method is superimposed.
  • a code search is performed so as to minimize distortion in the speech after the auditory weighting process.
  • the quantization noise has a flat spectrum shape in the speech after the auditory weighting process, and the spectral shape of the final quantized noise is determined by the auditory weighting process. It has a spectrum shape with the opposite characteristic of. Therefore, the spectrum characteristic of the auditory weighting process is determined, the spectrum shape of the inverse characteristic is determined, and the addition control value is adjusted so that the spectrum shape of the modified decoded speech spectrum matches this. It is possible to control the output of the divider 41.
  • the shape of the spectrum of the modified decoded speech component included in the final output speech 6 is made to match the approximate shape of the estimated spectrum of the quantization noise.
  • the addition of the modified power of the minimum required power makes This has the effect of making it difficult to hear the formation noise.
  • the amplitude spectrum after the smoothing is adjusted so as to match the amplitude spectrum shape of the estimated quantization noise. Processing is also possible.
  • the amplitude spectrum shape of the estimated quantization noise may be calculated in the same manner as in Embodiment 9.
  • the effects of the first embodiment, the third to eighth embodiments have In addition to the above, there is the effect that the unpleasant quantization noise in the voice section can be made inaudible by adding the required minimum power of the decoded voice.
  • Embodiment 11 1.
  • the signal processing unit 2 is used for processing the decoded voice 5. However, only the signal processing unit 2 is extracted and the audio signal decoding unit (audio signal decoding unit) is used. It can also be used for other signal processing such as connecting to a stage after the noise suppression processing. However, it is necessary to change and adjust the deformation process in the signal deformation unit and the evaluation method in the signal evaluation unit according to the characteristics of the degraded components to be eliminated.
  • the eleventh embodiment it is possible to process a signal including a degraded component other than the decoded voice so that a component that is not subjectively desirable is hardly perceived.
  • the signal is processed using the signal up to the current frame.
  • a configuration in which the processing delay is allowed to use the signal after the next frame is also possible. It is.
  • the smoothing characteristics of the amplitude spectrum can be improved, the continuity judgment accuracy can be improved, and the evaluation accuracy such as noise likeness can be improved. The effect is obtained.
  • Embodiment 1 3.
  • the spectral components are calculated by the Fourier transform, transformed, and returned to the signal domain by the inverse Fourier transform.
  • the same effect can be obtained even in a configuration not using the Fourier transform.
  • Embodiment 1 4.
  • the configuration is provided with both the amplitude smoothing unit 9 and the phase disturbance unit 10, but the configuration in which one of the amplitude smoothing unit 9 and the phase disturbance unit 10 is omitted Alternatively, a configuration in which another deformed portion is introduced is also possible.
  • Embodiment 14 depending on the characteristics of the quantization noise or degraded sound to be eliminated, there is an effect that the processing can be simplified by omitting a deformed portion having no introduction effect. In addition, by introducing an appropriate deformation unit, an effect of eliminating quantization noise and degraded sound that cannot be eliminated by the amplitude smoothing unit 9 and the phase disturbance unit 10 can be expected.
  • the sound signal processing method and the sound signal processing apparatus of the present invention perform predetermined signal processing on an input signal, so that a deterioration component included in the input signal is not subjectively noticed.
  • Generated processing signal and Since the addition weight of the input signal and the processed signal is controlled based on the evaluation value, the effect of improving the subjective quality can be achieved by increasing the ratio of the processed signal centering on a section containing many degraded components.
  • the conventional binary interval determination is eliminated, and the continuous value evaluation value is calculated. Based on this, the weighted addition coefficient of the input signal and the processed signal can be controlled continuously, so that the quality degradation due to the interval determination error can be reduced. There is an effect that can be avoided.
  • the output signal can be generated by processing the input signal that contains a lot of background noise information, the characteristics of the actual background noise are retained, and the output signal largely depends on the noise type and the spectrum shape. There is an effect that a stable quality improvement effect can be obtained, and an improvement effect can also be obtained for components degraded by excitation coding.
  • processing can be performed using the input signal up to the present time, a particularly large delay time is not required.
  • a delay other than the processing time can be eliminated. There is. If the level of the input signal is lowered when raising the level of the processed signal, it is not necessary to superimpose large pseudo noise to mask the degraded components as in the past, and conversely. Depending on the application, the background noise level can be reduced or even increased. Also, needless to say, it is not necessary to add new transmission information as in the conventional case, even in the case of eliminating the degraded sound due to voice coding / decoding.
  • the sound signal processing method and the sound signal processing device of the present invention perform a predetermined processing process in a spectrum region on an input signal, so that a deterioration component included in the input signal is subjectively considered.
  • a processing signal is generated so as not to be distorted, and the addition weight of the input signal and the processing signal is controlled by a predetermined evaluation value. Effect of suppressing the deteriorating components in the process and improving the subjective quality There is.
  • the input signal and the processed signal are weighted and added in the spectrum area in the sound signal processing method of the present invention.
  • some or all of the Fourier transform processing and inverse Fourier transform processing required by the sound signal processing method are omitted. This has the effect of simplifying the processing.
  • weighting and addition are controlled independently for each frequency component.
  • the dominant components of quantization noise and degraded components are mainly replaced by the processed signal, and it is no longer possible to replace even good components with less quantization noise and degraded components, and the characteristics of the input signal remain good. This has the effect of subjectively suppressing quantization noise and degraded components while improving the subjective quality.
  • the amplitude spectrum component is smoothed as the processing in the sound signal processing method of the present invention.
  • unstable fluctuation of the amplitude spectrum component caused by quantization noise or the like can be suppressed well, and the subjective quality can be improved.
  • the disturbance processing of the phase spectrum component is performed as the processing in the sound signal processing method of the present invention, the effect of the sound signal processing method is provided.
  • the sound signal processing method according to the present invention is a sound signal processing method according to the above invention. —
  • the amplitude or the disturbance imparting intensity is controlled by the magnitude of the amplitude spectrum component of the input signal or the auditory weighted input signal, so that in addition to the effect of the sound signal processing method, the amplitude Processing is focused on components where quantization noise and degraded components are dominant due to small spectral components, and good components with less quantization noise and degraded components are added. This has the effect of subjectively suppressing quantization noise and degraded components while maintaining good input signal characteristics, and has the effect of improving subjective quality.
  • the magnitude of the time direction continuity of the spectrum component of the input signal or the input signal obtained by weighting the auditory weight with the smoothing strength or the disturbance imparting strength in the sound signal processing method of the present invention is provided.
  • the emphasis is placed on components that tend to increase quantization noise and degradation components due to the low continuity of the spectral components. With the added processing, it is no longer necessary to process to a good component with little quantization noise and degraded components, and it is possible to subjectively suppress quantization noise and degraded components while leaving the input signal characteristics good. However, it has the effect of improving subjective quality.
  • the sound signal processing method of the present invention uses the degree of the background noise likeness as the predetermined evaluation value in the sound signal processing method of the present invention.
  • the background noise section where the generation noise and degradation components tend to occur
  • appropriate processing no processing, low-level processing, etc. is selected for that section, which has the effect of improving subjective quality.
  • the sound signal processing method of the present invention uses the degree of fricative likeness as the predetermined evaluation value in the sound signal processing method of the present invention, so that in addition to the effects of the sound signal processing method, Prioritized processing is applied to frictional sound sections where quantization noise and degradation components are likely to be generated, and appropriate processing is applied to sections other than frictional sounds (no processing, low-level processing, etc.) ) Is selected, which has the effect of improving subjective quality c
  • the sound signal processing method is characterized in that a sound code generated by a sound coding process is input, a decoded sound is generated by decoding the sound code, and the decoded sound is input as the sound signal processing method.
  • the processed sound is generated by performing signal processing using the audio signal, and the processed sound is output as output sound. There is an effect that voice decoding is realized.
  • the sound signal processing method is characterized in that a sound code generated by a sound encoding process is input, a decoded sound is generated by decoding the sound code, and a predetermined signal processing process is performed on the decoded sound to process the sound signal. Is generated, a boost filter process is performed on the decoded speech, the decoded speech before or after the boost filter is analyzed to calculate a predetermined evaluation value, and the decoded speech after the post filter is calculated based on the evaluation value. And the processed audio are weighted and output, so that in addition to the effect of realizing the audio decoding with the subjective quality improvement effect and the like of the above audio signal processing method, it is not affected by the post filter.
  • a processed voice can be generated, and highly accurate weighting control can be performed based on a highly accurate evaluation value calculated without being affected by the post filter, thereby further improving the subjective quality. There is a result.

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Quality & Reliability (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)
  • Soundproofing, Sound Blocking, And Sound Damping (AREA)

Description

明 細 書 音信号加工方法および音信号加工装置 技術分野
本発明は、 音声や楽音などの符号化複号化処理によって発生する量子 化雑音や、 雑音抑圧処理などのさまざまな信号加工処理によつて生じる 歪み、 などの主観的に好ま しぐない成分を主観的に感じにく いよ う に加 ェする音信号加工方法および音信号加工装置に関する。 背景技術
音声や楽音などの情報源符号化の圧縮率を高めていく と、 次第に符号 化時の歪みである量子化雑音が増えてく る し、 量子化雑音が変形してき て主観的に耐えられないものになってく る。 一例を挙げて説明する と、 PCM(Pulse Code Modulation)や ADPCM (Advanced Pulse Code Modulation) のよ うな信号自体を忠実に表現しょ う とする音声符号化方式の場合には. 量子化雑音は乱数状であり、 主観的にもあま り気にならないが、 圧縮率 が高ま り 、 符号化方式が複雑になるにつれて、 量子化雑音に符号化方式 固有のスペク トル特性が表れ、 主観的に大きな劣化となる場合がでてく る。 特に背景雑音が支配的な信号区間においては、 高圧縮率の音声符号 化方式が利用している音声モデルが合わないため、 非常に聞き苦しい音 となってしま う。
また、 スぺク トルサブ トラクショ ン法などの雑音抑圧処理を行つた場 合、 雑音の推定誤差が処理後の信号上に歪みと して残り、 これが処理前 の信号と大き く 異なる特性をもっているために、 主観評価を大き く劣化 させるこ とがある。
上記のよ うな量子化雑音や歪みによる主観評価の低下を抑制する従来 の方法と しては、 特開平 8 — 1 3 0 5 1 3号、 特開平 8 — 1 4 6 9 9 8 号、 特開平 7 — 1 6 0 2 9 6号、 特開平 6 — 3 2 6 6 7 0号、 特開平 7 一 2 4 8 7 9 3 号 、 お よ び S. F. Boll 著 ractionSSP-27, No.2, PP. 113-120, April 1979) (以降文献 1 と呼ぶ) に開示されているもの 力 Sある。
特開平 8 — 1 3 0 5 1 3号は、 背景雑音区間の品質改善を目的と した もので、 背景雑音のみの区間であるか否かを判定して、 背景雑音のみの 区間に専用の符号化処理または復号化処理を行う よ う にし、 背景雑音の みの区間の復号化を行う場合に合成フィルタの特性を抑制することで、 聴感的に自然な再生音を得るよ うにしたものである。
特開平 8 — 1 4 6 9 9 8号は、 白色雑音が符号化復号化によって耳障 り な音色になることを抑制することを狙って、 復号音声に対して白色雑 音や予め格納しておいた背景雑音を加えるよ う にしたものである。
特開平 7 — 1 6 0 2 9 6号は、 量子化雑音を聴感的に低減することを 狙って、 復号音声または音声複号化部が受信したスぺク トルパラメータ に関するインデックスを基に、 聴覚マスキング閾値を求め、 これを反映 したフィルタ係数を求めて、 この係数をボス トフィルタに使用するよ う にしたものである。
特開平 6 — 3 2 6 6 7 0号は、 通信電力制御などのために音声を含ま ない区間で符号伝送を停止するシステムでは、 符号伝送の無い時には復 号側で疑似背景雑音を生成して出力するが、 この時に発生する、 音声区 間に含まれる実際の背景雑音と無音区間の疑似背景雑音の間の違和感を 軽減するこ とを狙ったもので、 音声を含まない区間だけでなく 音声区間 にも疑似背景雑音を重畳するよ う にしたものである。 特開平 7 — 2 4 8 7 9 3 号は、 雑音抑圧処理によつて発生する歪み音 を聴感的に軽減することを目的と したもので、 符号化側では、 まず雑音 区間か音声区間か判定し、 雑音区間では雑音スぺク トルを伝送し、 音声 区間では雑音抑圧処理後のスぺク トルを伝送し、 複号化側では、 雑音区 間では受信した雑音スぺク トルを用いて合成音を生成して出力し、 音声 区間では受信した雑音抑圧処理後のスぺク トルを用いて生成した合成音 に、 雑音区間で受信した雑音スぺク トルを用いて生成した合成音に重畳 倍率を乗じて加算して出力するよ うにしたものである。
文献 1 は、 雑音抑圧処理によつて発生する歪み音を聴感的に軽減する ことを狙い、 雑音抑圧処理後の出力音声に対して、 時間的に前後の区間 と振幅スぺク トル上の平滑化を行い、 更に背景雑音区間に限って振幅抑 圧処理を行つている。
上記の従来法には、 以下に述べる課題がある。
特開平 8 — 1 3 0 5 1 3号には、 符号化処理や復号化処理を区間判定 結果に従って大き く切り替えているために、 雑音区間と音声区間の境界 で特性の急変が起こる課題がある。 特に雑音区間を音声区間と誤判定す ることが頻繁に起こった場合、 本来比較的定常である雑音区間が不安定 に変動してしまい、 かえって雑音区間の劣化を起こす場合がある。 雑音 区間判定結果を伝送する場合、 伝送するための情報の追加が必要で、 更 にその情報が伝送路上で誤った場合に、 不必要な劣化を引き起こす課題 がある- また、 合成フィ ルタの特性を抑制するだけでは、 音源符号化の 際に生じる量子化雑音は軽減されないため、 雑音種によっては改善効果 がほとんど得られない課題がある。
特開平 8 — 1 4 6 9 9 8号には、 予め用意してある雑音を加えてして しま うために、 符号化された現在の背景雑音の特性が失われてしま う課 題がある。 劣化音を聞こえにく くするためには劣化音を上回る レベルの 雑音を加える必要があり 、 再生される背景雑音が大き く なつてしま う課 題がある。
特開平 7 — 1 6 0 2 9 6号では、 スぺク トルパラメータに基づいて聴 覚マスキング閾値を求めて、 これに基づいてスぺク トルポス トフィ ルタ を行うだけであるので、 スベク トルが比較的平坦な背景雑音などでは、 マスキングされる成分もほとんどなく 、 全く改善効果が得られない課題 がある。 また、 マスキングされない主要成分については、 大きな変化を 与えるこ とができないので、 主要成分に含まれている歪みについては何 らの改善効果も得られない課題がある。
特開平 6 — 3 2 6 6 7 0号では、 実際の背景雑音に関係なく 疑似背景 雑音を生成しているので、 実際の背景雑音の特性が失われてしま う課題 がある。
特開平 7 — 2 4 8 7 9 3号には、 符号化処理や複号化処理を区間判定 結果に従って大き く切り替えているために、 雑音区間か音声区間かの判 定を誤る と大きな劣化を引き起こす課題がある。 雑音区間の一部を音声 区間と誤った場合には、 雑音区間内の音質が不連続に変動して聞き苦し く なる。 逆に音声区間を雑音区間と誤った場合には、 平均雑音スぺク ト ルを用いた雑音区間の合成音と、 音声区間で重畳される雑音スぺク トル を用いた合成音に音声成分が混入し、 全体的に音質劣化が起こる課題が ある。 更に、 音声区間における劣化音を聞こえなくするためには、 決し て小さ く ない雑音を重畳するこ とが必要である。
文献 1 には、 平滑化のために半区間分 (1 0ms〜20ms 程度) の処理遅 延が発生する課題がある。 また、 雑音区間内の一部を音声区間と誤判定 してしまった場合、 雑音区間内の音質が不連続に変動して聞き苦しく な る課題がある。
この発明は、 かかる課題を解決するためになされたものであり、 区間 判定誤り による劣化が少なく 、 雑音種やスぺク トル形状への依存度が少 なく 、 大きな遅延時間を必要と しない、 実際の背景雑音の特性を残すこ とができ、 背景雑音レベルを過度に大き くすることがなく 、 新たな伝送 情報の追加が不要で、 音源符号化などによる劣化成分についても良好な 抑圧効果を与えるこ とのできる音信号加工方法および音信号加工装置を 提供するこ とを目的と している。 発明の開示
入力音信号を加工して第一の加工信号を生成し、 前記入力音信号を分 折して所定の評価値を算出し、 この評価値に基づいて前記入力音信号と 前記第一の加工信号を重み付け加算して第二の加工信号と し、 この第二 の加工信号を出力信号とするこ とを特徴とする。 また、 更に、 前記第一の加工信号生成方法は、 前記入力音信号をフーリ ェ変換することで周波数毎のスぺク トル成分を算出し、 このフーリエ変換 によ り算出された周波数毎のスぺク トル成分に対して所定の変形を与え、 変形後のスぺク トル成分を逆フーリェ変換して生成することを特徴とする。 また、 更に、 前記重み付け加算をスペク トル領域で行なう よ うにした こ とを特徴とする。
また、 更に、 前記重み付け加算を周波数成分毎に独立に制御するよ う にしたこ とを特徴とする。
また、 更に、 前記周波数毎のスぺク トル成分に対する所定の変形に振 幅スぺク トル成分の平滑化処理を含むことを特徴とする。
また、 更に、 前記周波数毎のスぺク トル成分に対する所定の変形に位 相スぺク トル成分の擾乱付与処理を含むこ とを特徴とする。
また、 更に、 前記平滑化処理における平滑化強度を、 入力音信号の振 幅スペク トル成分の大き さによって制御するよ うにしたことを特徴とす る。
また、 更に、 前記擾乱付与処理における擾乱付与強度を、 入力音信号 の振幅スぺク トル成分の大き さによって制御するよ う にしたこ とを特徴 とする。
また、 更に、 前記平滑化処理における平滑化強度を、 入力音信号のス ぺク トル成分の時間方向の連続性の大き さによって制御するよ う にした こ とを特徴とする。
また、 更に、 前記擾乱付与処理における擾乱付与強度を、 入力音信号 のスぺク トル成分の時間方向の連続性の大き さによって制御するよ う に したこ とを特徴とする。
また、 更に、 前記入力音信号と して、 聴覚重み付した入力音信号を用 いるよ う にしたことを特徴とする。
また、 更に、 前記平滑化処理における平滑化強度を、 前記評価値の時 間変動性の大き さによって制御するよ うにしたこ とを特徴とする。
また、 更に、 前記擾乱付与処理における擾乱付与強度を、 前記評価値 の時間変動性の大き さによって制御するよ うにしたこ とを特徴とする。 また、 更に、 前記所定の評価値と して、 前記入力音信号を分析して算 出した背景雑音らしさの度合を用いるよ うにしたこ とを特徴とする。 また、 更に、 前記所定の評価値と して、 前記入力音信号を分析して算 出した摩擦音ら しさの度合を用いるよ うにしたことを特徴とする。
また、 更に、 前記入力音信号と して、 音声符号化処理によって生成さ れた音声符号を復号した復号音声を用いるよ うにしたこ とを特徴とする ( この発明音信号加工方法は、 前記入力音信号を音声符号化処理によつ て生成された音声符号を復号した第一の復号音声と し、 この第一の復号 音声に対してポス トフィルタ処理を行なつて第二の復号音声を生成し、 前記第一の復号音声を加工して第一の加工音声を生成し、 いずれかの復 号音声を分析して所定の評価値を算出し、 この評価値に基づいて前記第 二の復号音声と前記第一の加工音声を重み付けし加算して第二の加工音 声と し、 この第二の加工音声を出力音声と して出力するこ とを特徴とす る。
この発明の音信号加工装置は、 入力音信号を加工して第一の加工信号 を生成する第一の加工信号生成部と、 前記入力音信号を分析して所定の 評価値を算出する評価値算出部と、 この評価値算出部の評価値に基づい て前記入力音信号と前記第一の加工信号を重み付けして加算し、 第二の 加工信号と して出力する第二の加工信号生成部とを備えたことを特徴と する。
また、 更に、 前記第一の加工信号生成部は、 前記入力音信号をフーリ ヱ変換するこ とで周波数毎のスぺク トル成分を算出し、 この算出された 周波数毎のスぺク トル成分に対して振幅スぺク トル成分の平滑化処理を 与え、 この振幅スぺク トル成分の平滑化処理された後のスぺク トル成分 を逆フーリエ変換して第一の加工信号を生成するこ とを特徴とする。 また、 更に、 前記第一の加工信号生成部は、 前記入力音信号をフーリ ェ変換するこ とで周波数毎のスぺク トル成分を算出し、 この算出された 周波数毎のスぺク トル成分に対して位相スぺク トル成分の擾乱付与処理 を与え、 この位相スぺク トル成分の擾乱付与処理された後のスぺク トル 成分を逆フ一リェ変換して第一の加工信号を生成するこ とを特徴とする: 図面の簡単な説明
図 1 は、 この発明の実施の形態 1 による音声復号方法を適用した音声 復号装置の全体構成を示す図である =
図 2は、 この発明の実施の形態 1 の重み付け加算部 1 8 における加算 制御値に基づく 重み付け加算の制御例を示す図である。 図 3は、 この発明の実施の形態 1 のフ一リェ変換部 8における切り 出 し窓、 逆フーリエ変換部 1 1 における連接のための窓の実際の形状例、 復号音声 5 との時間関係を説明する説明図である。
図 4は、 この発明の実施の形態 2の音信号加工方法を雑音抑圧方法と 組み合わて適用 した音声復号装置の構成の一部を示す図である。
図 5は、 この発明の実施の形態 3 による音声復号方法を適用した音声 復号装置の全体構成を示す図である。
図 6は、 この発明の実施の形態 3 の聴覚重み付けスぺク トルと第一の 変形強度の関係を示す図である。
図 7は、 この発明の実施の形態 4による音声復号方法を適用した音声 復号装置の全体構成を示す図である。
図 8は、 この発明の実施の形態 5 による音声復号方法を適用した音声 復号装置の全体構成を示す図である。
図 9は、 この発明の実施の形態 6による音声復号方法を適用した音声 復号装置の全体構成を示す図である。
図 1 0は、 この発明の実施の形態 7による音声復号方法を適用した音 声復号装置の全体構成を示す図である。
図 1 1 は、 この発明の実施の形態 8による音声復号方法を適用した音 声復号装置の全体構成を示す図である。
図 1 2は、 この発明の実施の形態 9を適用した復号音声スペク トル 4
3 と、 変形復号音声スぺク トル 4 4 に周波数毎の重みを乗じた後のスぺ ク トルの一例を示す模式図である。 発明を実施するための最良の形態
以下図面を参照しながら、 この発明の実施の形態について説明する。 実施の形態 1 . 図 1 は、 本実施の形態による音信号加工方法を適用 した音声復号方法 の全体構成を示し、 図中 1 は音声復号装置、 2はこの発明による信号加 ェ方法を実行する信号加工部、 3は音声符号、 4は音声復号部、 5は復 号音声、 6は出力音声である。 信号加工部 2は、 信号変形部 7、 信号評 価部 1 2、 重み付き加算部 1 8 よ り構成されている。 信号変形部 7は、 フーリエ変換部 8、 振幅平滑化部 9、 位相擾乱部 1 0、 逆フーリエ部 1 1 よ り爭成されている。 信号評価部 1 2は、 逆フィルタ部 1 3、 ノ、。ヮー 算出部 1 4、 背景雑音ら しさ算出部 1 5、 推定背景雑音パワー更新部 1 6 、 推定雑音スぺク トル更新部 1 7 よ り構成されている c
以下、 図に基づいて動作を説明する。
まず音声符号 3が音声復号装置 1 内の音声復号部 4 に入力される。 な お、 この音声符号 3 は、 別途音声符号化部が音声信号を符号化した結果 と して出力され、 通信路ゃ記憶デバイスを介してこの音声復号部 4 に入 力される。
音声復号部 4は、 音声符号 3 に対して、 前記音声符号化部と対を成す 復号処理を行い、 得られた所定の長さ ( 1 フ レーム長) の信号を復号音 声 5 と して出力する。 そして、 この復号音声 5は、 信号加工部 2内の信 号変形部 7、 信号評価部 1 2、 重み付き加算部 1 8に入力される。
信号変形部 7内のフーリエ変換部 8は、 入力された現フ レームの復号 音声 5 と必要に応じ前フ レームの復号音声 5 の最新部分を合わせた信号 に対して、 窓がけを行い、 窓がけ後の信号に対してフーリエ変換処理を 行う ことで周波数毎のスぺク トル成分を算出し、 これを振幅平滑化部 9 に出力する。 なお、 フーリエ変換処理と しては、 離散フーリエ変換 (D F T ) 、 高速フーリエ変換 ( F F T ) などが代表的である。 窓がけ処理 と しては、 台形窓、 方形窓、 ハニング窓など様々なものが適用可能であ るが、 こ こでは、 台形窓の両端の傾斜部分をそれぞれハユング窓の半分 ずつに置換した変形台形窓を使用する。 実際の形状例、 復号音声 5や出 力音声 6 との時間関係については、 図面を用いて後述説明する。
振幅平滑化部 9は、 フーリ エ変換部 8から入力された周波数毎のスぺ ク トルの振幅成分に対して平滑化処理を行い、 平滑化後のスぺク トルを 位相擾乱部 1 0 に出力する。 こ こで用いる平滑化処理と しては、 周波数 軸方向、 時間軸方向の何れを用いても、 量子化雑音などの劣化音の抑制 効果が得られる。 しかし、 周波数軸方向の平滑化をあま り強くする と、 スペク トルの怠けが生じ、 本来の背景雑音の特性を損なってしま う こ と が多い。 一方、 時間軸方向の平滑化についても、 あま り強く していく と、 長時間にわたって同じ音が残るこ とになり、 反響感が発生してしま う。 色々な背景雑音に対して調整を進めた結果、 周波数軸方向の平滑化はな し、 時間軸方向は振幅を対数領域で平滑化する、 と した場合が出力音声
6の品質が良かった。 その時の平滑化方法は、 次式で表わされる。
Y i ― Y j , ! { 1 — ) + Χ ; α · · · 式 1
こ こで、 X i が現在のフ レーム (第 i フ レーム) の平滑化前の対数振 幅スペク トル値、 y が前フ レーム (第 i 一 1 フ レーム) の平滑化後 の対数振幅スペク トル値、 が現在のフ レーム (第 i フ レーム) の平 滑化後の対数振幅スぺク トル値、 αが 0 〜 1 の値を持つ平滑化係数であ る、 平滑化係数ひはフ レーム長、 解消したい劣化音のレベルなどによつ て最適値が異なるが、 概ね 0 . 5程度の値となる。
位相擾乱部 1 0は、 振幅平滑化部 9から入力された平滑化後のスぺク トルの位相成分に擾乱を与え、 擾乱後のスぺク トルを逆フー リ エ変換部 1 1 に出力する。 各位相成分に擾乱を与える方法と しては、 乱数を用い て所定範囲の位相角を生成し、 これを元々の位相角に加算すれば良い。 位相角生成の範囲の制限を設けない場合には、 各位相成分を乱数で生成 した位相角に単に置換すればよい。 符号化などによる劣化が大きい場合 には、 位相角生成の範囲は制限しない。
逆フー リ エ変換部 1 1 は、 位相擾乱部 1 0から入力された擾乱後のス ぺク トルに対して逆フー リ エ変換処理を行う こ とで、 信号領域に戻し、 前後のフ レーム との滑らかな連接のための窓がけを行いつつ連接してい き、 得られた信号を変形復号音声 3 4 と して重み付き加算部 1 8に出力 する。
信号評価部 1 2内の逆フィ ルタ部 1 3は、 後述する推定雑音スぺク ト ル更新部 1 7内に格納されている推定雑音スぺク トルパラメータを用い て、 前記音声復号部 4から入力された復号音声 5に対する逆フィルタ処 理を行い、 逆フィ ルタ された復号音声をパワー算出部 1 4 に出力する。 この逆フィルタ処理によって、 背景雑音の振幅が大きい、 つま り音声と 背景雑音が拮抗している可能性が高い成分の振幅抑圧を行っており、 逆 フィ ルタ処理を行わない場合に比べて、 音声区間と背景雑音区間の信号 パヮ一比が大き く とれるよ う になつている。
なお、 推定雑音スぺク トルパラメータは、 音声符号化処理や音声復号 処理との親和性、 ソフ トウェアの共有化といった観点で選択する。 現状 では多く の場合、 線スぺク トル対 ( L S P ) を使用する。 L S Pの他に も、 線形予測係数 ( L P C ) 、 ケプス トラムなどのスペク トル包絡パラ メータ、 または振幅スぺク トルそのものを用いても類似の効果を得るこ とができる。 後述する推定雑音スペク トル更新部 1 7 における更新処理 と しては線形補間や平均処理などを用いる構成が簡単であり、 スぺク ト ル包絡パラメータの中では線形補間や平均処理を行ってもフィルタが安 定であることが保証できる L S P とケプス トラムが適している。 雑音成 分のスぺク トルに対する表現力と してはケプス トラムが優れているが、 逆フィルタ部の構成の容易さ という点では L S Pが勝る。 振幅スぺク ト ルを用いる場合には、 この振幅スぺク トル特性をもつ L P Cを算出して 15
12
逆フィ ルタ に使用するカ 復号音声 5 をフー リ エ変換した結果 (フ一リ ェ変換部 8 の出力に等しい) に対して振幅変形処理を行って逆フィ ルタ と同様の効果を実現すればよい。
パヮ一算出部 1 4は、 逆フィルタ部 1 3から入力された逆フィルタ さ れた復号音声のパワーを求め、 算出されたパワー値を背景雑音らしさ算 出部 1 5 に出力する。
背景雑音らしさ算出部 1 5は、 パワー算出部 1 4から入力されたパヮ —と、 後述する推定雑音パワー更新部 1 6内に格納されている推定雑音 パワーを用いて、 現在の復号音声 5 の背景雑音ら しさを算出し、 これを 加算制御値 3 5 と して重み付き加算部 1 8に出力する。 また、 算出した 背景雑音らしさを後述する推定雑音パワー更新部 1 6 と推定雑音スぺク トル更新部 1 7に対して出力し、 パワー算出部 1 4から入力されたパヮ —を後述する推定雑音パワー更新部 1 6に対して出力する。 こ こで、 背 景雑音らしさについては、 最も単純には、 次式によって算出できる。
V = l o g ( ρ N j ― l og ) · · · 式 2
こ こで、 p がパワー算出部 1 4から入力されたパワー、 p N が推定雑 音パヮ一更新部 1 6内に格納されている推定雑音パワー、 Vが算出され た背景雑音ら しさである。
この場合、 Vの値が大きい程 (負値であればその絶対値が小さい程) 背景雑音ら しい、 という こ とになる。 この他にも、 p NZ p を計算して V とするなど、 様々な算出方法が考えられる。
推定雑音パワー更新部 1 6は、 背景雑音らしさ算出部 1 5から入力さ れた背景雑音ら しさとパワーを用いて、 その内部に格納してある推定雑 音パワーの更新を行う。 例えば、 入力された背景雑音らしさが高い ( V の値が大きい) 時に、 次式に従い、 入力されたパヮ一を推定雑音パワー に反映させるこ とで更新を行う = log( p ) = ( 1 - iS ) log(p N) + β log(p ) · · · 式 3 こ こで、 /3は 0〜 1 の値を取る更新速度定数で、 比較的 0 に近い値に 設定する と よレ、。 この式の右辺の値を求めて、 左辺の P t を新しい推 定雑音パワーとすることで更新を行う。
なお、 この推定雑音パワーの更新方法については、 更に推定精度を向 上させるためにフ レーム間での変動性を参照したり、 入力された過去の パワーを複数格納しておいて、 統計分析によって雑音パワーの推定を行 つたり 、 pの最低値をそのまま推定雑音パワーと したりするなど様々な 変形、 改良が可能である。
推定雑音スベタ トル更新部 1 7は、 まず入力された復号音声 5 を分析 して、 現在のフ レームのスぺク トルパラメ一タを算出する。 算出するス ぺク トルパラメータについては逆フィルタ部 1 3 にて説明した通りで、 多く の場合 L S Pを使用する。 そして、 背景雑音らしさ算出部 1 5から 入力され背景雑音ら しさとここで算出したスぺク トルパラメ一タを用い て、 内部に格納してある推定雑音スぺク トルを更新する。 例えば、 入力 された背景雑音ら しさが高い ( V の値が大きい) 時に、 次式に従い、 算 出したスぺク トルパラメータを推定雑音スぺク トルに反映させるこ とで 更新を行う。
X N = ^ 1 — ) X N+ 7 X . ♦ . 式 4
ここで、 Xが現在のフレームのスペク トルパラメータ、 x N が推定雑 音スぺク トル (パラメータ) である。 γは 0〜 1 の値を取る更新速度定 数で、 比較的 0 に近い値に設定する と よい。 この式の右辺の値を求めて、 左辺の x を新しい推定雑音スぺク トル (パラメータ) とするこ とで 更新を行う。
なお、 この推定雑音スペク トルの更新方法について も、 上記推定雑音 パワーの更新方法と同様に様々な改良が可能である。 W
14
そして、 最後の処理と して、 重み付き加算部 1 8は、 信号評価部 1 2 から入力された加算制御値 3 5 に基づいて、 音声復号部 4から入力され た復号音声 5 と信号変形部 7から入力された変形復号音声 3 4 を重み付 けして加算し、 得られた出力音声 6を出力する。 重み付け加算の制御方 法の動作と しては、 加算制御値 3 5が大き く (背景雑音らしさが高く) なるにつれて復号音声 5に対する重みを小さ く 、 変形復号音声 3 4に対 する重みを大き く制御する。 逆に加算制御値 3 5が小さ く (背景雑音ら しさが低く) なるにつれて復号音声 5 に対する重みを大き く 、 変形復号 音声 3 4 に対する重みを小ざく制御する。
なお、 フ レーム間での重みの急変に伴う出力音声 6の品質劣化を抑制 するために、 加算制御値 3 5 または重み付け係数をサンプル毎に徐々に 変化するよ う に平滑化を行う ことが望ま しい。
図 2には、 この重み付け加算部 1 8における、 加算制御値に基づく 重 み付け加算の制御例を示す。
図 2 ( a ) では、 加算制御値 3 5 に対する 2つの閾値 V , と V 2を用い て線形制御している場合である。加算制御値 3 5が V 1未満の場合には、 復号音声 5 に対する重み付け係数 w s を 1 、 変形復号音声 3 4 に対する 重み付け係数 w Nを 0 とする。 加算制御値 3 5が V 2以上の場合には、 復 号音声 5 に対する重み付け係数 w s を 0、 変形復号音声 3 4 に対する重 み付け係数 w Nを AN とする。 そして加算制御値 3 5力 V ,以上で v 2未満 の場合には、 復号音声 5 に対する重み付け係数 w s を 1 〜 0 、 変形復号 音声 3 4 に対する重み付け係数 w N を 0 〜 AN の間で線形的に計算して与 えている。
この様に制御するこ とで、 確実に背景雑音区間である と判断できる場 合 ( v .2 以上) には変形復号信号 3 4のみが出力され、 確実に音声区間 である と判断でき る場合 ( V l 未満) には復号音声 5 そのものが出力さ れ、 音声区間か背景雑音区間か判断がつかない場合 ( V l以上 v 2未満) には、 どちらの傾向が強いかに依存した比率で復号音声 5 と変形復号音 声 3 4が混合された結果が出力される。
なお、 ここで確実に背景雑音区間であると判断できる場合 ( v 2以上) に変形復号信号 3 4 に乗じる重み付け係数値 AN と して 1 以下の値を与 えれば、 結果的に背景雑音区間の振幅抑圧効果が得られる。 逆に 1以上 の値を与えれば、 背景雑音区間の振幅強調効果が得られる。 背景雑音区 間は、 音声符号化複号化処理によって振幅低下が起こる場合が多く 、 そ の場合には背景雑音区間の振幅強調を行う こ とによって、 背景雑音の再 現性を向上するこ とができる。 振幅抑圧と振幅強調のどちらを行うかは 適用対象、 使用者の要求などに依存する。
図 2 ( b ) では、 新たな閾値 V 3 を追加し、 V , と V 3間、 V 3 と V 2間 で重み付け係数を線形的に計算して与えた場合である。 閾値 v 3 の位置 における重み付け係数の値を調整することで、 音声区間か背景雑音区間 か判断がつかない場合 ( V l以上 v 2未満) における混合比率を更に細 かく設定するこ とができる。 一般に位相の相関が低い 2つの信号を加算 した場合、 得られる信号のパワーは加算前の 2つの信号のパワーの合計 よ り小さ く なる。 V ,以上 V 2未満の範囲における 2つの重み付け係数の 合計を 1 ないし w N よ り大き くすることで、 このパヮ一低下を抑制する ことができる。 なお、 図 2 ( a ) によって得られた重み付け係数の平方 根をとつて更に定数を乗じた値を新たに重み付け係数とするこ とによつ ても同様の効果をもたらすことができる c
図 2 ( c ) では、 図 2 ( a ) の V 未満の範囲における変形復号音声 3 4に与える重み付け係数 w N と して 0 よ り大きレ、 BN とレ、う値を与え、 これに応じて V ,以上 V 2未満の範囲における w Nも修正した場合である。 背景雑音レベルが高い場合や、 符号化における圧縮率が非常に高い場合 など、 音声区間における量子化雑音や劣化音が大きい場合には、 この様 に確実に音声区間と分かっている範囲においても、 変形復号音声を加算 することで、 劣化音を聞こえにく くすることができる。
図 2 ( d ) は、 背景雑音らしさ算出部 1 5 において、 推定雑音パワー を現在のパワーで除算した結果 ( P N/ P ) を背景雑音ら しさ (加算制 御値 3 5 ) と して出力した場合に対応する制御例である。 この場合、 加 算制御値 3 5は復号音声 5中に含まれる背景雑音の比率を示しているの で、 この値に比例した比率で混合されるよ う に重み付け係数を算出して いる。 具体的には、 加算制御値 3 5が 1以上の場合には w Nが 1 で w sが 0、 1 未満の場合には、 wNが加算制御値 3 5そのもの、 ws ^ ( 1 - w N) となっている。
図 3 には、 フ一リエ変換部 8 における切り 出し窓、 逆フーリエ変換 部 1 1 における連接のための窓の実際の形状例、 復号音声 5 との時間関 係を説明する説明図を示す。
復号音声 5は、 音声復号部 4から所定の時間長 ( 1 フ レーム長) 毎 に出力されてく る。 こ こでこの 1 フレーム長を Nサンプルとする。 図 3 (a) は、 この復号音声 5の一例を示しており、 X ( 0 ) 〜 x (N-1) が 入力された現在のフ レームの復号音声 5 に当たる。 フーリエ変換部 8で は、 図 3 ( a ) に示されるこの復号音声 5に対して図 3 ( b ) に示す変 形台形窓を乗じることで、 長さ (N + NX) の信号を切り出す。 NXは 変形台形窓の両端の 1未満の値を持つ区間のそれぞれの長さである。 こ の両端の区間は長さ ( 2 N X) のハニング窓を前半と後半に 2分割した ものに等しい。 逆フーリエ変換部 1 1 では、 逆フーリエ変換処理によつ て生成した信号に対して、 図 3 ( c ) に示す変形台形窓を乗じ、 (図 3 ( c ) に破線で示すよ う に) 前後のフ レームで得られた同信号と時間関 係を守りつつ信号の加算を行って、 連続する変形復号音声 3 4 (図 3 ( d ) ) を生成する。
次のフ レームの信号との連接のための区間 (長さ N X) については、 現在のフレーム時点では変形復号音声 3 4が確定していなレ、 =すなわち、 新たに確定する変形復号音声 3 4 は、 x ' (— Ν Χ)〜 χ ' ( Ν— N X 一 1 )である。 このため、 現在のフ レームの復号音声 5 に対して得られ る出力音声 6は、 次式の通り となる。
y n ) = x (n + χ ' ( η ) · · · 5
( η = - N X, ···, Ν - Ν Χ - 1 ) ここで、 y (n )が出力音声 6である。 この時、 信号加工部 2 と しての 処理遅延は最低でも N Xだけ必要となる。
この処理遅延 N Xが許容できない適用対象の場合、 復号音声 5 と変形 復号音声 3 4の時間的ズレを許容して、 次式のよ う に出力音声 6を生成 すること もできる。
y ( n ) = x ( n ) + x ' ( n - N X ) · · · 式 6
( n = 0 , ···, N - 1 ) この場合、 復号音声 5 と変形復号音声 3 4の時間関係にズレがあるの で、 位相擾乱部 1 0における擾乱が弱い (つま り復号音声の位相特性が ある程度残っている) 場合や、 フ レーム内でスペク トルやパワーが急変 する場合には劣化を生じる場合がある。 特に重み付き加算部 1 8におけ る重み付け係数が大き く 変化する とき と、 2つの重み付け係数が拮抗し ている場合に劣化を生じ易い。 しかし、 それらの劣化は比較的少なく 、 信号加工部の導入効果の方が十分に大きい。 よって処理遅延 N Xが許容 できない適用対象についても、 この方法を用いるこ とができる。
なお、 この図 3の場合、 フー リ エ変換前と逆フー リ エ変換後に変形台 形窓を乗じており、 連接部分の振幅低下を招く場合がある。 この振幅低 下も、 位相擾乱部 1 0 における擾乱が弱い場合に起こ りやすい。 そのよ うな場合には、 フーリエ変換前の窓を方形窓に変更するこ とで振幅低下 の抑制が得られる。 通常、 位相擾乱部 1 0 によって位相が大き く変形さ れた結果、 逆フーリエ変換後の信号に最初の変形台形窓の形状が現れて こないので、 前後のフ レームの変形復号音声 3 4 とのスムーズな連接の ために 2つ目の窓がけが必要になる。
なお、 こ こでは、 信号変形部 7、 信号評価部 1 2、 重み付け加算部 1 8の処理を全てフレーム毎に行ったが、 これに限ったものではない。 例 えば、 1 フ レームを複数のサブフ レームに分割し、 信号評価部 1 2の処 理をサブフ レーム毎に行ってサブフ レーム毎の加算制御値 3 5 を算出し . 重み付け加算部 1 8 における重み付け制御もサブフ レーム毎に行っても 良い。 信号変形処理にフーリ エ変換を使用しているので、 フ レーム長が あま り短いとスぺク トル特性の分析結果が不安定になり 、 変形復号音声 3 4が安定しにく レ、。 一方、 背景雑音ら しさはもつ と短い区間に対して も比較的安定に算出できるので、 サブフ レーム毎に算出して重み付けを 細かく制御するこ とで音声の立ち上がり部分などにおける品質改善効果 が得られる。
また、 信号評価部 1 2の処理をサブフ レーム毎に行って、 フ レーム内 の全ての加算制御値を組み合わせて、 少数の加算制御値 3 5を算出する こ と もできる。 音声区間を背景雑音らしいと誤りたく ない場合には、 全 ての加算制御値の内の最小値 (背景雑音ら しさの最小値) を選択してフ レームを代表する加算制御値 3 5 と して出力すれば良い。
更に、 復号音声 5 のフ レーム長と信号変形部 7 の処理フ レーム長は同 一である必要はない。 例えば、 復号音声 5のフ レーム長が短く て、 信号 変形部 7内のスぺク トル分析にとって短すぎる場合には、 複数フ レーム の復号音声 5 を蓄積して、 一括して信号変形処理を行う よ う にすれば良 レ、。 但し、 この場合には、 複数フ レームの復号音声 5 を蓄積するために 処理遅延が発生してしま う。 この他、 復号音声 5 のフ レーム長と全く独 立に信号変形部 7や信号加工部 2全体の処理フ レーム長を設定しても構 わない。 この場合、 信号のバッ ファ リ ングが複雑になるが、 様々な復号 音声 5のフ レーム長に依存する こ となく 、 信号加工処理にとって最適の 処理フ レーム長を選択でき、 信号加工部 2 の品質が最も良く なる効果が ある。
また、 ここでは、 背景雑音ら しさの算出に、 逆フィルタ部 1 3 、 ノ、。 ヮー算出部 1 4、 背景雑音ら しさ算出部 1 5、 推定背景雑音レベル更新 部 1 6、 推定雑音スぺク トル更新部 1 7を使用 したが、 背景雑音ら しさ を評価するものであれば、 この構成に限ったものではない。
この実施の形態 1 によれば、 入力信号 (復号音声) に対して所定の信 号加工処理を行う こ とで、 入力信号に含まれる劣化成分を主観的に気に ならないよ う にした加工信号 (変形復号音声) を生成し、 所定の評価値 (背景雑音らしさ) によって入力信号と加工信号の加算重みを制御する よ うにしたので、 劣化成分が多く含まれる区間を中心に加工信号の比率 を増やして、 主観品質を改善できる効果がある。
また、 スぺク トル領域で信号加工処理を行う よ う にしたこ とで、 スぺ ク トル領域での細かい劣化成分の抑圧処理を行う ことができ、 更に主観 品質を改善できる効果がある。
また、 加工処理と して振幅スペク トル成分の平滑化処理と位相スぺク トル成分の擾乱付与処理を行う よ うにしたので、 量子化雑音などによつ て生じる振幅スペク トル成分の不安定な変動を良好に抑圧するこ とがで き、 更に、 位相成分間に独特な相互関係を持ってしまい特徴的な劣化と 感じられることが多い量子化雑音に対して、 位相成分間の関係に擾乱を 与えるこ とができ、 主観品質を改善できる効果がある。
また、 従来の音声区間または背景雑音区間のどちらか、 という 2値区 間判定を廃し、 背景雑音ら しさ という連続量を算出して、 これに基づい て連続的に復号音声と変形復号音声の重み付け加算係数を制御するよ う にしたので、 区間判定誤り による品質劣化を回避できる効果がある。 また、 音声区間における量子化雑音や劣化音が大きい場合には、 確実 に音声区間と分かっている区間においても、 変形復号音声を加算する こ とで、 劣化音を聞こえにく くすることができる効果がある。
また、 背景雑音の情報が多く含まれている復号音声の加工処理によつ て出力音声を生成しているので、 実際の背景雑音の特性を残しつつ、 雑 音種やスぺク トル形状にあま り依存しない安定な品質改善効果が得られ る し、 音源符号化などによる劣化成分に対しても改善効果が得られる効 果がある。
また、 現在までの復号音声を用いて処理を行うので特に大きな遅延時 間は不要で、 復号音声と変形復号音声の加算方法によっては処理時間以 外の遅延を排除するこ と もできる効果がある。 変形復号音声のレベルを 上げる際には復号音声のレベルを下げていく ので、 従来のよ うに量子化 雑音を聞こえなくするために大きな疑似雑音を重畳するこ と も不要で、 逆に適用対象に応じて、 背景雑音レベルを小さ 目にしたり、 大き 目にし たりすることすら可能である。 また、 当然のこ とであるが、 音声復号装 置または信号加工部内に閉じた処理であるので従来のよ うな新たな伝送 情報の追加は不要である ΰ
更に、 この実施の形態 1 では、 音声復号部と信号加工部が明確に分離 されており、 両者の間の情報のやり と り も少ないので、 既存のものも含 めて様々な音声復号装置内に導入することが容易である。
実施の形態 2 .
図 4は、 本実施の形態による音信号加工方法を雑音抑圧方法と組み合 わて適用した音信号加工装置の構成の一部を示す。図中 3 6は入力信号、 8はフー リ ヱ変換部、 1 9は雑音抑圧部、 3 9はスペク トル変形部、 1 2は信号評価部、 1 8は重み付き加算部、 1 1 は逆フーリエ変換部、 4 0は出力信号である。 スぺク トル変形部 3 9は、 振幅平滑化部 9、 位相 擾乱部 1 0 よ り構成されている- 以下、 図に基づいて動作を説明する - まず、 入力信号 3 6が、 フー リ エ変換部 8 と信号評価部 1 2に入力さ れる。
フーリエ変換部 8は、 入力された現フ レームの入力信号 3 6 と必要に 応じ前フ レームの入力信号 3 6 の最新部分を合わせた信号に対して、 窓 がけを行い、 窓がけ後の信号に対してフー リ エ変換処理を行う こ とで周 波数毎のスぺク トル成分を算出し、 これを雑音抑圧部 1 9に出力する。 なお、 フーリエ変換処理および窓がけ処理については実施の形態 1 と同 様である c
雑音抑圧部 1 9は、 フーリエ変換部 8 よ り入力された周波数毎のスぺ ク トル成分から、 雑音抑圧部 1 9内部に格納してある推定雑音スぺク ト ルを減算し、 得られた結果を雑音抑圧スぺク トル 3 7 と して重み付け加 算部 1 8 とスぺク トル変形部 3 9内の振幅平滑化部 9 に出力する。 これ は、 いわゆるスぺク トルサブ トラクショ ン処理の主部に相当する処理で ある。 そして、 雑音抑圧部 1 9は、 背景雑音区間であるか否かの判定を 行い、 背景雑音区間であればフーリエ変換部 8 よ り入力された周波数毎 のスぺク トル成分を用いて、 内部の推定雑音スぺク トルを更新する。 な お、 背景雑音区間であるか否かの判定は、 後述する信号評価部 1 2の出 力結果を流用して行う ことで処理を簡易化するこ と も可能である。
スぺク トル変形部 3 9内の振幅平滑化部 9は、 雑音抑圧部 1 9 よ り入 力された雑音抑圧スぺク トル 3 7 の振幅成分に対して平滑化処理を行い 平滑化後の雑音抑圧スぺク トルを位相擾乱部 1 0 に出力する。 こ こで用 いる平滑化処理と しては、 周波数軸方向、 時間軸方向の何れを用いても、 雑音抑圧部が発生させた劣化音の抑制効果が得られる。 具体的な平滑化 方法については実施の形態 1 と同様のものを用いるこ とができる。
スぺク トル変形部 3 9内の位相擾乱部 1 0は、 振幅平滑化部 9から入 力された平滑化後の雑音抑圧スぺク トルの位相成分に擾乱を与え、 擾乱 後のスぺク トルを変形雑音抑圧スぺク トル 3 8 と して重み付き加算部 1 8に出力する。 各位相成分に擾乱を与える方法については実施の形態 1 と同様のものを用いるこ とができる =
信号評価部 1 2は、入力信号 3 6 を分析して背景雑音ら しさを算出し、 これを加算制御値 3 5 と して重み付け加算部 1 8 に出力する。 なお、 こ の信号評価部 1 2内の構成と各処理については、 実施の形態 1 と同様の ものを用いるこ とができる。
重み付き加算部 1 8は、 信号評価部 1 2から入力された加算制御値 3 5に基づいて、 雑音抑圧部 1 9から入力された雑音抑圧スぺク トル 3 7 とスぺク トル変形部 3 9から入力された変形雑音抑圧スぺク トル 3 8 を重み付けして加算し、 得られたスぺク トルを逆フーリエ変換部 1 1 に 出力する。 重み付け加算の制御方法の動作と しては、 実施の形態 1 と同 様に、 加算制御値 3 5が大き く (背景雑音らしさが高く) なるにつれて 雑音抑圧スぺク トル 3 7に対する重みを小さ く 、 変形雑音抑圧スぺク ト ル 3 8 に対する重みを大き く 制御する。逆に加算制御値 3 5が小さ く (背 景雑音ら しさが低く) なるにつれて雑音抑圧スぺク トル 3 7に対する重 みを大き く 、 変形雑音抑圧スぺク トル 3 8 に対する重みを小さく制御す る。
そして、 最後の処理と して、 逆フーリエ変換部 1 1 は、 重み付き加算 部 1 8から入力されたスぺク トルに対して逆フーリェ変換処理を行う こ とで、 信号領域に戻し、 前後のフ レームとの滑らかな連接のための窓が けを行いつつ連接していき、 得られた信号を出力信号 4 0 と して出力す る。 連接のための窓がけと連接処理については、 実施の形態 1 と同様で ある。
この実施の形態 2によれば、 雑音抑圧処理等によつて劣化したスぺク トルに対して所定の加工処理を行う こ とで、 劣化成分を主観的に気にな らないよ う に した加工スぺク トル (変形雑音抑圧スぺク トル) を生成し、 所定の評価値 (背景雑音らしさ) によって加工前のスペク トルと加エス ぺク トルの加算重みを制御するよ う にしたので、 劣化成分が多く含まれ て主観品質の低下につながつている区間 (背景雑音区間) を中心に加工 スぺク トルの比率を増やして、 主観品質を改善できる効果がある。
また、 スペク トル領域での重み付け加算を行う よ う にしたので、 実施 の形態 1 に比べる と加工処理のためのフーリエ変換と逆フーリエ変換が 不要となり 、 処理が簡易になる効果がある。 なお、 この実施の形態 2に おけるフー リ エ変換部 8 と逆フーリ エ変換 1 1 は、 雑音抑圧部 1 9 のた めに元々必要な構成である。
また、 加工処理と して振幅スぺク トル成分の平滑化処理と位相スぺク トル成分の擾乱付与処理を行う よ う にしたので、 量子化雑音などによつ て生じる振幅スぺク トル成分の不安定な変動を良好に抑圧するこ とがで き、 更に、 位相成分間に独特な相互関係を持ってしまい特徴的な劣化と 感じられるこ とが多い量子化雑音や劣化成分に対して、 位相成分間の関 係に擾乱を与えるこ とができ、 主観品質を改善できる効果がある。
また、 背景雑音区間であるか否かという 2値区間判定ではなく 、 背景 雑音らしさ という連続量を算出して、 これに基づいて連続的に重み付け 加算係数を制御するよ う にしたので、 区間判定誤り による品質劣化を回 避できる効果がある。
また、 背景雑音区間以外における劣化音が大きい場合には、 図 2 ( c ) のよ うな重み付け加算を行う こ とで、 確実に背景雑音区間以外と分かつ ている区間においても変形雑音抑圧スぺク トルを加算し、 劣化音を聞こ えにく くするこ とができる効果がある。
また、 雑音抑圧スぺク トルに対して、 単純な処理を直接施して変形雑 音抑圧スぺク トルを生成しているので、 雑音種やスぺク トル形状にあま り依存しない安定な品質改善効果が得られる効果がある。
また、 現在までの雑音抑圧スぺク トルを用いて処理を行うので、 雑音 抑圧部 1 9 の遅延時間に追加して、 大きな遅延時間がいらない特長を持 つ- 変形雑音抑圧スぺク トルの加算レベルをあげる際には元々の雑音抑 圧スペク トルの加算レベルを下げていく ので、 量子化雑音を聞こえな く するために比較的大きな雑音を重畳すること も不要で、 背景雑音レベル を小さ くするこ とができる効果がある。 また、 当然のことであるが、 こ の処理を音声符号化処理の前処理などと して用いる場合にも、 符号化部 内に閉じた処理となるので従来のよ うな新たな伝送情報の追加は不要で ある。
実施の形態 3 .
図 1 との対応部分に同一符号を付けた図 5は、 本実施の形態による音 信号加工方法を適用した音声復号装置の全体構成を示し、 図中 2 0は信 号変形部 7の変形強度を制御する情報を出力する変形強度制御部である: 変形強度制御部 2 0は、 聴覚重み付け部 2 1 、 フー リ エ変換部 2 2 、 レ ベル判定部 2 3 、 連続性判定部 2 4 、 変形強度算出部 2 5 よ り構成され ている。
以下、 図に基づいて動作を説明する。
音声復号部 4から出力された復号音声 5が、 信号加工部 2内の信号変 形部 7、 変形強度制御部 2 0、 信号評価部 1 2、 重み付き加算部 1 8 に 入力される- 変形強度制御部 2 0内の聴覚重み付け部 2 1 は、 音声復号部 4 よ り 入力された復号音声 5に対して、 聴覚重み付け処理を行い、 得られた聴 覚重み付け音声をフーリエ変換部 2 2に出力する。 こ こで、 聴覚重み付 け処理と しては、 音声符号化処理 (音声復号部 4で行った音声復号処理 と対を成すもの) で使用されているものと同様な処理を行う。
C E L Pなどの符号化処理で良く用いられる聴覚重み付け処理は、 符 号化対象の音声を分析して線形予測係数 ( L P C ) を算出し、 これに定 数乗算を行って 2つの変形 L P Cを求め、 この 2つの変形 L P Cをブイ ルタ係数とする A R M Aフィ ルタを構成し、 このフィルタを用いたフィ ルタ リ ング処理によって聴覚重み付けを行う、 とレ、う ものである。 復号 音声 5に対して符号化処理と同様の聴覚重み付けを行うためには、 受信 した音声符号 3 を復号して得られた L P C、 も しく は復号音声 5 を再分 析して算出した L P Cを出発点と して、 2つの変形 L P Cを求め、 これ を用いて聴覚重み付けフィルタを構成すれば良い。
C E L Pなどの符号化処理では、 聴覚重み付け後の音声上での歪みを 最小化するよ う に符号化を行う ので、 聴覚重み付け後の音声において、 振幅が大きいスペク トル成分は、 量子化雑音の重畳が少ない、 という こ とになる。 従って、 符号化時の聴覚重み付け音声に近い音声を復号化部 1 内で生成できれば、 信号変形部 7における変形強度の制御情報と して 有用である。
なお、 音声復号部 4における音声復号処理にスぺク トルポス トフィ ル タなどの加工処理が含まれている場合 ( C E L Pの場合にはほとんどに 含まれている) には、 本来であればまず復号音声 5からスペク トルボス トフィ ルタなどの加工処理の影響を除去した音声を生成するか、 音声復 号部 4内からこの加工処理直前の音声を抽出するかして、 該音声に対し て聴覚重み付けを行う こ とによって、 符号化時の聴覚重み付け音声に近 い音声が得られる。 しかし、 背景雑音区間の品質改善を主な目的とする 場合には、 この区間におけるスぺク トルポス トフィルタなどの加工処理 の影響は少なく 、 その影響を除去しなく ても効果に大差は出ない。 この 実施の形態 3 は、 スぺク トルポス トフィルタなどの加工処理の影響除去 を行わない構成と している。
なお、 当然のこ とであるが、 符号化処理において聴覚重み付けを行つ ていない場合や、 その効果が小さ く て無視しても良い場合には、 この聴 覚重み付け部 2 1 は不要となる。 その場合、 信号変形部 7内のフーリエ 変換部 8 の出力を、 後述する レベル判定部 2 3 と連続性判定部 2 4 に与 えればよいので、 フーリエ変換部 2 2 も不要とできる。
更に、 スぺク トル領域でも非線型振幅変換処理など聴覚重み付けに近 い効果をもたらす方法があるので、 符号化処理内で使用している聴覚重 み付け方法との誤差を無視して構わない場合には、 信号変形部 7内のフ 一リエ変換部 8 の出力をこの聴覚重み付け部 2 1 への入力と し、 聴覚重 み付け部 2 1 がこの入力に対してスぺク トル領域での聴覚重み付けを行 レ、、 フー リ エ変換部 2 2を省略して、 後述する レベル判定部 2 3 と連続 性判定部 2 4 に聴覚重み付けされたスぺク トルを出力するよ うに構成す ること も可能である。
変形強度制御部 2 0内のフ一 リェ変換部 2 2は、 聴覚重み付け部 2 1 よ り入力された聴覚重み付け音声と必要に応じ前フ レームの聴覚重み付 け音声の最新部分を合わせた信号に対して、 窓がけを行い、 窓がけ後の 信号に対してフーリェ変換処理を行う こ とで周波数毎のスぺク トル成分 を算出し、 これを聴覚重み付けスぺク トルと してレベル判定部 2 3 と連 続性判定部 2 4に出力する。 なお、 フー リ エ変換処理および窓がけ処理 については実施の形態 1 のフーリエ変換部 8 と同様である。
レベル判定部 2 3 は、 フー リ エ変換部 2 2から入力された聴覚重み付 けスぺク トルの各振幅成分の値の大き さに基づいて、 各周波数毎の第一 の変形強度を算出し、 これを変形強度算出部 2 5 に出力する。 聴覚重み 付けスぺク トルの各振幅成分の値が小さい程量子化雑音の比率が大きい ので、 第一の変形強度を強くすればよい。 最も単純には、 全振幅成分の 平均値を求めて、 この平均値に所定の閾値 T hを加算して、 これを上回 る成分に対しては第一の変形強度を 0、 これを下回る成分に対しては第 一の変形強度を 1 とすればよい。 図 6には、 この閾値 T hを用いた場合 の聴覚重み付けスベタ トルと第一の変形強度の関係を示す。 なお、 第一 の変形強度の算出方法はこれに限定されるものではない。
連続性判定部 2 4は、 フー リ エ変換部 2 2から入力された聴覚重み付 けスペク トルの各振幅成分または各位相成分の時間方向の連続性を評価 し、 この評価結果に基づいて、 各周波数毎の第二の変形強度を算出し、 これを変形強度算出部 2 5 に出力する。 聴覚重み付けスぺク トルの振幅 成分の時間方向の連続性、 位相成分の (フ レーム間の時間推移による位 相の回転を補償した後の) 連続性が低い周波数成分については、 良好な 符号化が行われていたとは考えにく いので、第二の変形強度を強くする。 この第二の変形強度の算出についても、 最も単純には所定の閾値を用い た判定によって 0または 1 を与える方法を用いることができる。
変形強度算出部 2 5は、 レベル判定部 2 3 よ り入力された第一の変形 強度と、 連続性判定部 2 4 よ り入力された第二の変形強度に基づいて、 各周波数毎の最終的な変形強度を算出し、 これを信号変形部 7内の振幅 平滑化部 9 と位相擾乱部 1 0 に出力する。 この最終的な変形強度につい ては、 第一の変形強度と第二の変形強度の最小値、 重み付き平均値、 最 大値などを用いることができる。 以上でこの実施の形態 3 にて新たに 加わった変形強度制御部 2 0の動作の説明を終了する。
次に、 この変形強度制御部 2 0 の追加に伴って、 動作に変更がある構 成要素について説明する c
振幅平滑化部 9は、 変形強度制御部 2 0 よ り入力された変形強度に従 レ、、 フーリ エ変換部 8 から入力された周波数毎のスペク トルの振幅成分 に対して平滑化処理を行い、 平滑化後のスぺク トルを位相擾乱部 1 0 に 出力する。 なお、 変形強度が強い周波数成分程、 平滑化を強めるよ う に 制御する。 平滑化強度の強さを制御する最も単純な方法は、 入力された 変形強度が大きいときにのみ平滑化を行う よ う にすればよい。 この他に も平滑化を強める方法と しては、 実施の形態 1 で説明した平滑化の数式 における平滑化係数 αを小さ く したり、 固定的な平滑化を行つた後のス ぺク トルと平滑化前のスぺク トルを重み付き加算して最終的なスぺク ト ルを生成するよ う に構成しておき、 平滑化前のスぺク トルに対する重み を小さ くするなど様々な方法を用いることができる。
位相擾乱部 1 0は、 変形強度制御部 2 0 よ り入力された変形強度に従 レ、、 振幅平滑化部 9から入力された平滑化後のスぺク トルの位相成分に 擾乱を与え、 擾乱後のスぺク トルを逆フーリ エ変換部 1 1 に出力する。 なお、 変形強度が強い周波数成分程、 位相の擾乱を大き く 与えるよ う に 制御する。 擾乱の大き さを制御する最も単純な方法は、 入力された変形 強度が大きいときにのみ擾乱を与えるよ う にすればよい。 この他にも擾 乱を制御する方法と しては、 乱数で生成する位相角の範囲を大小させる など様々な方法を用いることができる。
その他の構成要素については、 実施の形態 1 と同様であるため説明を 省略する。
なお、 ここでは、 レベル判定部 2 3 と連続性判定部 2 4の両方の出力 結果を使用したが、 一方だけを使用するよ うにして、 残るも う一方は省 略する構成も可能である。 また、 変形強度によって制御する対象を、 振 幅平滑化部 9 と位相擾乱部 1 0の一方のみとする構成でも構わない。 この実施の形態 3 によれば、 入力信号 (復号音声) または聴覚重み付 けされた入力信号 (復号音声) の各周波数成分毎の振幅の大き さ、 各周 波数毎の振幅や位相の連続性の大き さに基づいて、 加工信号 (変形復号 音声) を生成する際の変形強度を周波数毎に制御するよ う にしたので、 実施の形態 1 が持つ効果に加えて、 前記振幅スペク トル成分が小さいた めに量子化雑音や劣化成分が支配的になっている成分、 スぺク トル成分 の連続性が低いために量子化雑音や劣化成分が多く なりがちな成分に対 して重点的に加工が加えられ、 量子化雑音や劣化成分が少ない良好な成 分まで加工してしま う こ とがなく なり 、 入力信号や実際の背景雑音の特 性を比較的良好に残しつつ量子化雑音や劣化成分を主観的に抑圧でき、 主観品質を改善できる効果がある。
実施の形態 4 .
図 5 との対応部分に同一符号を付けた図 7は、 本実施の形態による音 信号加工方法を適用した音声復号装置の全体構成を示し、 図中 4 1 は加 算制御値分割部であり、 図 5 における信号変形部 7 の部分は、 フー リ エ 変換部 8 、 スぺク トル変形部 3 9、 逆フーリヱ変換部 1 1 の構成に変更 している。
以下、 図に基づいて動作を説明する。
音声復号部 4から出力された復号音声 5は、 信号加工部 2内のフーリエ 変換部 8、 変形強度制御部 2 0、 信号評価部 1 2に入力される。
フーリエ変換部 8は、 実施の形態 2 と同様にして、 入力された現フレー ムの復号音声 5 と必要に応じ前フレームの復号音声 5の最新部分を合わせ た信号に対して、 窓がけを行い、 窓がけ後の信号に対してフーリエ変換処 理を行う ことで周波数毎のスぺク トル成分を算出し、 これを復号音声スぺ ク トル 4 3 と して重み付き加算部 1 8 とスぺク トル変形部 3 9内の振幅平 滑化部 9に出力する。 スペク トル変形部 3 9は、 実施の形態 2 と同様にして、 入力された復号 音声スペク トル 4 3に対して、 振幅平滑化部 9、 位相擾乱部 1 0の処理を 順に行い、 得られたスぺク トルを変形復号音声スぺク トル 4 4 と して、 重 み付き加算部 1 8に出力する。
変形強度制御部 2 0内では、 実施の形態 3 と同様に、 入力された復号 音声 5に対して、 聴覚重み付け部 2 1 、 フーリエ変換部 2 2、 レベル判定 部 2 3、 連続性判定部 2 4、 変形強度算出部 2 5の処理を順次行い、 得ら れた周波数毎の変形強度を加算制御値分割部 4 1 に出力する。
なお、 実施の形態 3 と同様に、 符号化処理において聴覚重み付けを行つ ていない場合や、 その効果が小さい場合には、 聴覚重み付け部 2 1 とフー リヱ変換部 2 2は不要となる。 その場合、 フーリエ変換部 8の出力を、 レ ベル判定部 2 3 と連続性判定部 2 4に与えればよい。
また、 フ一リェ変換部 8の出力をこの聴覚重み付け部 2 1 への入力と し、 聴覚重み付け部 2 1 がこの入力に対してスぺク トル領域での聴覚重み付け を行い、 フーリエ変換部 2 2を省略して、 後述するレベル判定部 2 3 と連 続性判定部 2 4 に聴覚重み付けされたスぺク トルを出力するよ うに構成す ることも可能である。 この様に構成することで、 処理の簡易化効果が得ら れる。
信号評価部 1 2は、 実施の形態 1 と同様に、 入力された復号音声 5に対 して、 背景雑音らしさを求めて、 これを加算制御値 3 5 と して加算制御値 分割部 4 1 に出力する。
新たに加えられた加算制御値分割部 4 1 は、 変形強度制御部 2 0から入 力された周波数毎の変形強度と、 信号評価部 1 2から入力された加算制御 値 3 5を用いて、 周波数毎の加算制御値 4 2を生成し、 これを重み付き加 算部 1 8に出力する。 変形強度が強い周波数については、 その周波数の加 算制御値 4 2の値を制御して、 重み付き加算部 1 8 における復号音声スぺ ク トル 4 3の重みを弱く 、変形復号音声スぺク トル 4 4の重みを強くする。 逆に変形強度が弱い周波数については、 その周波数の加算制御値 4 2の値 を制御して、 重み付き加算部 1 8における復号音声スペク トル 4 3の重み を強く、 変形復号音声スぺク トル 4 4の重みを弱くする。 つまり、 変形強 度が強い周波数については、 背景雑音らしさが高いわけであるので、 その 周波数の加算制御値 4 2を大きく し、 逆の場合には、 小さくするわけであ る。
重み付き加算部 1 8は、 加算制御値分割部 4 1から入力された周波数毎 の加算制御値 4 2に基づいて、 フー リエ変換部 8から入力された復号音声 スペク トル 4 3 とスぺク トル変形部 3 9から入力された変形復号音声スぺ ク トル 4 4を重み付けして加算し、 得られたスぺク トルを逆フーリエ変換 部 1 1 に出力する。 重み付け加算の制御方法の動作と しては、 図 2にて説 明したのと同様に、 周波数毎の加算制御値 4 2が大きい (背景雑音らしさ が高い) 周波数成分に対しては復号音声スぺク トル 4 3に対する重みを小 さく、 変形復号音声スぺク トル 4 4に対する重みを大きく制御する。 逆に 周波数毎の加算制御値 4 2が小さい (背景雑音らしさが低い) 周波数成分 に対しては復号音声スペク トル 4 3 に対する重みを大きく 、 変形復号音声 スペク トル 4 4に対する重みを小さく制御する。
そして、 最後の処理と して、 逆フーリエ変換部 1 1は、 実施の形態 2 と 同様にして、 重み付き加算部 1 8から入力されたスぺク トルに対して逆フ 一リエ変換処理を行う ことで、 信号領域に戻し、 前後のフ レームとの滑ら かな連接のための窓がけを行いつつ連接していき、 得られた信号を出力音 声 6 と して出力する。
なお、 加算制御値分割部 4 1 を廃して、 信号評価部 1 2の出力を重み付 き加算部 1 8に与え、 変形強度制御部 2 0の出力である変形強度を振幅平 滑化部 9 と位相擾乱部 1 0に与える構成も可能である。 この様にしたもの は、 実施の形態 3の構成における重み付き加算処理をスぺク トル領域で行 う ようにしたものに相当する。
更に、 実施の形態 3の場合と同様に、 レベル判定部 2 3 と連続性判定部 2 4の一方だけを使用するよ うにして、 残るも う一方は省略する構成も可 能である。
この実施の形態 4によれば、 入力信号 (復号音声) または聴覚重み付けさ れた入力信号 (復号音声) の各周波数成分毎の振幅の大きさ、 各周波数毎 の振幅や位相の連続性の大きさに基づいて、 人力信号のスペク トル (復号 音声スぺク トル) と加工スぺク トル (変形復号音声スぺク トル) の重み付 け加算を周波数成分毎に独立に制御するようにしたので、 実施の形態 1 が 持つ効果に加えて、 前記振幅スぺク トル成分が小さいために量子化雑音や 劣化成分が支配的になっている成分、 スぺク トル成分の連続性が低いため に量子化雑音や劣化成分が多く なりがちな成分に対して重点的に加工スぺ ク トルの重みを強め、 量子化雑音や劣化成分が少ない良好な成分まで加工 スペク トルの重みを強めてしまう ことがなく なり、 入力信号や実際の背景 雑音の特性を比較的良好に残しつつ量子化雑音や劣化成分を主観的に抑圧 でき、 主観品質を改善できる効果がある - 実施の形態 3 と比較すると、 平滑化と擾乱という 2つの周波数毎の変形 処理から、 1つの周波数毎の変形処理に変わっており、 処理が簡易化され る効果がある。
実施の形態 5 .
図 5 との対応部分に同一符号を付けた図 8は、 本実施の形態による音信 号加工方法を適用した音声復号装置の全体構成を示し、 図中 2 6は背景雑 音らしさ (加算制御値 3 5 ) の時間方向の変動性を判定する変動性判定部 である。
以下、 図に基づいて動作を説明する。 音声復号部 4から出力された復号音声 5が、 信号加工部 2内の信号変 形部 7、 変形強度制御部 2 0、 信号評価部 1 2、 重み付き加算部 1 8 に 入力される。 信号評価部 1 2は、 入力された復号音声 5 に対して、 背 景雑音ら しさを評価し、 評価結果を加算制御値 3 5 と して、 変動性判定 部 2 6 と重み付き加算部 1 8 に出力する。
変動性判定部 2 6は、 信号評価部 1 2 よ り入力された加算制御値 3 5 を、 その内部に格納している過去の加算制御値 3 5 と比較し、 値の時間 方向の変動性が高いか否かを判定し、 この判定結果に基づいて第三の変 形強度を算出し、 これを変形強度制御部 2 0内の変形強度算出部 2 5 に 出力する。 そして、 入力された加算制御値 3 5 を用いて内部に格納して いる過去の加算制御値 3 5 を更新する。
加算制御値 3 5などのフ レーム (またはサブフ レーム) の特性を表す パラメータの時間方向の変動性が高い場合には、 復号音声 5のスぺク ト ルが時間方向に大き く変化している場合が多く 、 必要以上に強い振幅平 滑化や位相擾乱付与を行う と不自然な反響感が発生してしま う。そこで、 この第三の変形強度は、 加算制御値 3 5の時間方向の変動性が高い場合 には、 振幅平滑化部 9 における平滑化と位相擾乱部 1 0 における擾乱付 与が弱く なるよ うに設定する。 なお、 フ レーム (またはサブフレーム) の特性を表すパラメータであれば、 復号音声のパワー、 スペク トル包絡 パラメータなど、 加算制御値 3 5 以外のパラメータを用いても同様の効 果を得ることができる。
変動性の判定方法と しては、 最も単純には、 前フ レームの加算制御値 3 5 との差分の絶対値を所定の閾値と比較して、 閾値を上回っていれば 変動性が高い、 とすれば良い- この他、 前フ レームおよび前々フ レーム の加算制御値 3 5 との差分の絶対値を各々算出して、 その一方が所定の 閾値を上回っているか否かで判定してもよい。 また、 信号評価部 1 2が サブフ レーム毎に加算制御値 3 5を算出する場合には、 現在のフ レーム 内または必要に応じて前フ レーム内の全サブフ レーム間の加算制御値 3 5の差分の絶対値を求めて、 何れかが所定の閾値を上回っているか否か で判定するこ と もできる。 そして、 具体的な処理例と しては、 閾値を上 回っていれば第三の変形強度を 0、 閾値を下回っていれば第三の変形強 度を 1 とする。
変形強度制御部 2 0内では、 入力された復号音声 5 に対して、 聴覚重 み付け部 2 1 、 フー リ エ変換部 2 2 、 レベル判定部 2 3 、 連続性判定部 2 4までは、 実施の形態 3 と同様な処理を行う。
そして、 変形強度算出部 2 5では、 レベル判定部 2 3 よ り入力された 第一の変形強度、 連続性判定部 2 4 よ り入力された第二の変形強度、 変 動性判定部 2 6 よ り入力された第三の変形強度に基づいて、 各周波数毎 の最終的な変形強度を算出し、 これを信号変形部 7内の振幅平滑化部 9 と位相擾乱部 1 0 に出力する。 この最終的な変形強度の算出方法と して は、 第三の変形強度を全周波数に対して一定値と して与え、 周波数毎に この全周波数に拡張した第三の変形強度、 第一の変形強度、 第二の変形 強度の最小値、 重み付き平均値、 最大値などを求めて最終的な変形強度 とする、 とレ、う方法を用いるこ とができる。
以降の信号変形部 7、 重み付き加算部 1 8の動作は、 実施の形態 3 と 同様であり、 説明を省略する。
なお、 こ こでは、 レベル判定部 2 3 と連続性判定部 2 4の両方の出力 結果を使用 したが、 一方だけを使用するよ う にしたり 、 両方と も使用 し ない構成も可能である。 また、 変形強度によって制御する対象を、 振幅 平滑化部 9 と位相擾乱部 1 0の一方のみと したり 、 第三の変形強度につ いては一方のみを制御対象とする構成でも構わない。
この実施の形態 5 によれば、 実施の形態 3の構成に加えて、 平滑化強 度または擾乱付与強度を、 所定の評価値 (背景雑音ら しさ) の時間変動 性 (フ レームまたはサブフ レーム間の変動性) の大き さによって制御す るよ う にしたので、 実施の形態 3が持つ効果に加えて、 入力信号 (復号 音声) の特性が変動している区間において必要以上に強い加工処理を抑 止でき、 なまけ、 エコー (反響感) の発生を防止できる効果がある。 実施の形態 6 .
図 5 との対応部分に同一符号を付けた図 9は、 本実施の形態による音 信号加工方法を適用した音声復号装置の全体構成を示す。 図中 2 7は摩 擦音らしさ評価部、 3 1 は背景雑音ら しさ評価部、 4 5は加算制御値算 出部である。 摩擦音ら しさ評価部 2 7は、 低域カ ッ トフィルタ 2 8、 零 交差数カウン ト部 2 9、 摩擦音ら しさ算出部 3 0 よ り構成される。 背景 雑音らしさ評価部 3 1 は、 図 5 における信号評価部 1 2 と同じ構成であ り 、 逆フィ ルタ部 1 3 、 パワー算出部 1 4、 背景雑音らしさ算出部 1 5 、 推定雑音パワー更新部 1 6、 推定雑音スぺク トル更新部 1 7 よ り構成さ れる。 信号評価部 1 2は、 図 5 の場合と異なり 、 摩擦音らしさ評価部 2 7、 背景雑音ら しさ評価部 3 1 、 加算制御値算出部 4 5 よ り構成される。 以下、 図に基づいて動作を説明する。
音声復号部 4から出力された復号音声 5が、 信号加工部 2内の信号変 形部 7、 変形強度制御部 2 0、 信号評価部 1 2内の摩擦音らしさ評価部 2 7 と背景雑音ら しさ評価部 3 1 、 そして重み付き加算部 1 8に入力さ れ 。
信号評価部 1 2内の背景雑音ら しさ評価部 3 1 は、 実施の形態 3 にお ける信号評価部 1 2 と同様に、 入力された復号音声 5に対して、 逆フィ ルタ部 1 3 、 パワー算出部 1 4、 背景雑音ら しさ算出部 1 5 の処理を行 つて、得られた背景雑音らしさ 4 6 を加算制御値算出部 4 5に出力する。 また、 推定雑音パワー更新部 1 6 、 推定雑音スぺク トル更新部 1 7 の処 理を行って、 各々に格納してある推定雑音パワーと推定雑音スぺク トル の更新を行う。
摩擦音らしさ評価部 2 7内の低域力ッ トフィ ルタ 2 8は、 入力された 復号音声 5 に対して低周波数成分を抑圧する低域カ ッ トフィルタ リ ング 処理を行い、 フィ ルタ リ ング後の復号音声を零交差数カウン ト部 2 9 に 出力する。 この低域カッ トフィ ルタ リ ング処理の目的は、 復号音声に含 まれる直流成分や低周波数の成分がォッフセ ッ ト となって、 後述する零 交差数力ゥン ト部 2 9 のカウン ト結果が少なく なることを防止するこ と である。 従って、 単純には、 フ レーム内の復号音声 5の平均値を算出し、 これを復号音声 5の各サンプルから減算することでもよレ、。
零交差数力ゥン ト部 2 9は、 低域力ッ トフィルタ 2 8 よ り入力された 音声を分析して、 含まれる零交差数を数え上げ、 得られた零交差数を摩 擦音らしさ算出部 3 0 に出力する。零交差数を数え上げる方法と しては、 隣接サンプルの正負を比較し、 同一でなければ零を交差している、 と し てカウン トする方法、 隣接サンプルの値の積をとつて、 その結果が負ま たは零であれば零を交差している、と してカウン トする方法などがある。 摩擦音ら しさ算出部 3 0は、 零交差数力ゥン ト部 2 9 よ り入力された 零交差数を、 所定の閾値と比較し、 この比較結果に基づいて摩擦音ら し さ 4 7を求めて、 これを加算制御値算出部 4 5に出力する。 例えば、 零 交差数が閾値よ り大きい場合には、 摩擦音ら しいと判定して摩擦音ら し さを 1 に設定する。 逆に零交差数が閾値よ り小さい場合には、 摩擦音ら しく ないと判定して摩擦音ら しさを 0 に設定する。 この他、 閾値を 2つ 以上設けて、 摩擦音らしさを段階的に設定したり、 所定の関数を用意し ておいて、 零交差数から連続的な値の摩擦音らしさを算出するよ う にし ても良い。
なお、 この摩擦音ら しさ評価部 2 7内の構成は、 あく までも一例にす ぎず、 スベク トル傾斜の分析結果に基づいて評価するよ う にしたり 、 パ ヮ—やスベタ トルの定常性に基づいて評価するよ う にしたり 、 零交差数 も含めて複数のパラメータを組み合わせて評価するよ う にしたり しても 構わない。
加算制御値算出部 4 5は、 背景雑音らしさ評価部 3 1 よ り入力された 背景雑音ら しさ 4 6 と、 摩擦音ら しさ評価部 2 7 よ り入力された摩擦音 ら しさ 4 7に基づいて、 加算制御値 3 5を算出し、 これを重み付き加算 部 1 8 に出力する。 背景雑音らしい場合と摩擦音らしい場合のどちらに おいても、 量子化雑音が聞き苦しく なってしま う こ とが多いので、 背景 雑音らしさ 4 6 と摩擦音ら しさ 4 7 を適切に重み付き加算することで加 算制御値 3 5 を算出すればよい。
以降の信号変形部 7、 変形強度制御部 2 0 、 重み付き加算部 1 8の 動作は、 実施の形態 3 と同様であり、 説明を省略する。
この実施の形態 6 によれば、 入力信号 (復号音声) の背景雑音ら しさ と摩擦音ら しさが高い場合に、 入力信号 (復号音声) の代わり に加工信 号 (変形復号音声) をよ り大き く 出力するよ うにしたので、 実施の形態 3が持つ効果に加えて、 量子化雑音や劣化成分が多く発生しがちな摩擦 音区間に対して重点的な加工が加えられ、 摩擦音以外の区間についても その区間に適切な加工 (加工しない、 低レベルの加工を行うなど) が選 択されるので、 主観品質を改善できる効果がある。 なお、 摩擦音ら し さ以外にも、 量子化雑音や劣化成分が多く発生しがちな部分がある程度 特定できる場合には、 その部分ら しさを評価して、 加算制御値に反映さ せるこ とが可能である。 その様に構成すれば、 大きい量子化雑音や劣化 成分を 1 つずつ抑圧していく ことができるので、 主観品質が一層改善で きる効果がある。 また、 当然のことであるが、 背景雑音らしさ評価部 を削除した構成も可能である。 実施の形態 Ί .
図 1 との対応部分に同一符号を付けた図 1 0は、 本実施の形態による 信号加工方法を適用した音声復号装置の全体構成を示し、 図中 3 2はポ ス トフ ィ ルタ部である。
以下、 図に基づいて動作を説明する。
まず音声符号 3 が音声復号装置 1 内の音声復号部 4 に入力される。 音声復号部 4は、 入力された音声符号 3 に対して復号処理を行い、 得 られた復号音声 5 をポス トフ ィ ルタ部 3 2、 信号変形部 7、 信号評価部 1 2に出力する。
ポス トフィルタ部 3 2は、 入力された復号音声 5 に対して、 スぺク ト ル強調処理、 ピッチ周期性強調処理などを行い、 得られた結果をポス ト フィルタ復号音声 4 8 と して重み付き加算部 1 8 に出力する。 このボス トフィ ルタ処理は、 CELP 復号処理の後処理と して一般的に使用されて いるもので、 符号化複号化によつて発生した量子化雑音を抑圧するこ と を目的と して導入されている- スベク トル強度の弱い部分には量子化雑 音が多く含まれているので、 この成分の振幅を抑圧してしま う ものであ る。 なお、 ピッチ周期性強調処理が行われず、 スペク トル強調処理だけ が行われている場合もある。
なお、 実施の形態 1 、 実施の形態 3 ないし 6は、 このポス トフィルタ 処理を音声復号部 4内に含まれるもの、 も しく は存在しないものの何れ にも適用可能なものについて説明したが、 この実施の形態 7では、 音声 復号部 4内にボス トフィルタ処理が含まれるものからボス トフィルタ処 理の全部も しく は一部をボス トフィルタ部 3 2 と して独立させている。 信号変形部 7は、 実施の形態 1 と同様に、 入力された復号音声 5に対 して、 フーリエ変換部 8、 振幅平滑化部 9、 位相擾乱部 1 0、 逆フー リエ変換部 1 1 の処理を行い、 得られた変形復号音声 3 4 を重み付き加 算部 1 8 に出力する。
信号評価部 1 2は、 実施の形態 1 と同様に、 入力された復号音声 5 に 対して、 背景雑音らしさを評価し、 評価結果を加算制御値 3 5 と して重 み付き加算部 1 8 に出力する。
そして、 最後の処理と して、 重み付き加算部 1 8は、 実施の形態 1 と 同様に、 信号評価部 1 2から入力された加算制御値 3 5 に基づいて、 ポ ス トフィ ルタ部 3 2 から入力されたボス ト フィ ルタ復号音声 4 8 と信号 変形部 7から入力された変形復号音声 3 4 を重み付け加算し、 得られた 出力音声 6 を出力する - この実施の形態 7によれば、 ポス トフィルタによる加工前の復号音声 に基づいて変形復号音声を生成し、 更にボス トフィルタによる加工前の 復号音声を分析して背景雑音ら しさを求め、 これに基づいてポス ト フィ ルタ復号音声と変形復号音声の加算時の重みを制御するよ うにしたので、 実施の形態 1 が持つ効果に加えて、 ポス トフィルタによる復号音声の変 形を含まない変形復号音声が生成でき、 ポス ト フィ ルタによる復号音声 の変形に影響されずに算出した精度の高い背景雑音ら しさに基づいて精 度の高い加算重み制御ができるよ う になるので、 更に主観品質が改善す る効果がある。
背景雑音区間においては、 ポス ト フィ ルタによって劣化音までも強調 されて聞き苦しく なつてしまっていることが多く 、 ポス トフィルタによ る加工前の復号音声を出発点と して変形復号音声を生成した方が、 歪み 音は小さ く なる。 また、 ポス トフィルタの処理が複数のモー ドを持って おり 、 しばしば処理を切り替える場合には、 その切り替えが背景雑音ら しさの評価に影響する危険性が高く 、 ポス トフィ ルタによる加工前の復 号音声に対して背景雑音らしさを評価した方が安定な評価結果が得られ る。 なお、 実施の形態 3の構成において、 この実施の形態 7 と同様にボス トフ ィ ルタ部の分離を行った場合には、 図 5の聴覚重み付け部 2 1 の出 力結果が、 よ り符号化処理内の聴覚重み付け音声に近づき、 量子化雑音 の多い成分の特定精度が上がり、 よ り 良い変形強度制御が得られ、 主観 品質が更に改善する効果が得られる。
また、 実施の形態 6の構成において、 この実施の形態 7 と同様にボス トフィルタ部の分離を行った場合には、 図 9の摩擦音ら しさ評価部 2 7 における評価精度が上がり 、 主観品質が更に改善する効果が得られる。 なお、 ポス ト フィルタ部の分離を行わない構成は、 分離したこの実施 の形態 7の構成に比べる と、 音声復号部 (ポス トフィルタを含む) との 接続が復号音声の 1 点だけと少なく 、 独立の装置、 プロ グラムにて実現 が容易である長所がある。 この実施の形態 7では、 ポス ト フィ ルタを有 する音声復号部に対して独立の装置、 プログラムにて実現することが容 易でない短所もあるが、 上記の様々な効果を持つものである。
実施の形態 8 .
図 1 0 との対応部分に同一符号を付けた図 1 1 は、 本実施の形態によ る音信号加工方法を適用した音声復号装置の全体構成を示し、 図中 3 3 は音声復号部 4内で生成されたスぺク トルパラメータである。 図 1 0 と の相違点と しては、 実施の形態 3 と同様の変形強度制御部 2 0が追加さ れ、 スぺク トルパラメータ 3 3が音声復号部 4から信号評価部 1 2 と変 形強度制御部 2 0に入力されている点である。
以下、 図に基づいて動作を説明する。
まず音声符号 3が音声復号装置 1 内の音声復号部 4 に入力される。 音声復号部 4は、 入力された音声符号 3 に対して復号処理を行い、 得 られた復号音声 5 をボス ト フィ ルタ部 3 2、 信号変形部 7、 変形強度制 御部 2 0、 信号評価部 1 2に出力する。 また、 復号処理の過程で生成し たスぺク トルバラメ ータ 3 3 を、 信号評価部 1 2 内の推定雑音スぺク ト ル更新部 1 7 と変形強度制御部 2 0 内の聴覚重み付け部 2 1 に出力する - なお、 スぺク トルパラメータ 3 3 と しては、 線形予測係数 ( L P C ) 、 線スペク トル対 ( L S P ) などが一般的に用いられているこ とが多い。 変形強度制御部 2 0内の聴覚重み付け部 2 1 は、 音声復号部 4 よ り入 力された復号音声 5 に対して、 やはり音声復号部 4から入力されたスぺ ク トルパラメータ 3 3 を用いて聴覚重み付け処'理を行い、 得られた聴覚 重み付け音声をフーリエ変換部 2 2に出力する。具体的な処理と しては、 スぺク トルパラメータ 3 3が線形予測係数 ( L P C ) である場合にはこ れをそのまま用レ、、 スペク トルパラ メ ータ 3 3 が L P C以外のパラメ一 タである場合には、このスぺク トルバラメータ 3 3 を L P Cに変換して、 この L P Cに定数乗算を行って 2つの変形 L P Cを求め、 この 2つの変 形 L P Cをフィ ルタ係数とする A R M Aフィルタを構成し、 このフィル タを用いたフィ ルタ リ ング処理によって聴覚重み付けを行う。 なお、 こ の聴覚重み付け処理は、 音声符号化処理 (音声復号部 4で行った音声復 号処理と対を成すもの) で使用されているものと同様な処理を行う こ と が望ま しい。
変形強度制御部 2 0内では、上記聴覚重み付け部 2 1 の処理に続いて、 実施の形態 3 と同様に、 フー リ エ変換部 2 2 、 レベル判定部 2 3、 連続 性判定部 2 4、 変形強度算出部 2 5 の処理を行い、 得られた変形強度を 信号変形部 7に対して出力する。
信号変形部 7は、 実施の形態 3 と同様に、 入力された復号音声 5 と変 形強度に対して、 フー リ エ変換部 8、 振幅平滑化部 9 、 位相擾乱部 1 0、 逆フーリエ変換部 1 1 の処理を行い、 得られた変形復号音声 3 4 を 重み付き加算部 1 8 に出力する。
信号評価部 1 2内では、 実施の形態 1 と同様に、 入力された復号音声 5 に対して、 まず逆フィ ルタ部 1 3 、 ノ、。ヮ一算出部 1 4 、 背景雑音ら し さ算出部 1 5 の処理を行って背景雑音ら しさを評価し、 評価結果を加算 制御値 3 5 と して重み付き加算部 1 8 に出力する。 また、 推定雑音バヮ —更新部 1 6の処理を行って、 内部の推定雑音パワーを更新する。
そして、 推定雑音スぺク トル更新部 1 7は、 音声復号部 4から入力さ れたスぺク トルバラメータ 3 3 と背景雑音らしさ算出部 1 5から入力さ れ背景雑音を用いて、 その内部に格納してある推定雑音スぺク トルを更 新する。 例えば、 入力された背景雑音ら しさが高い時に、 実施の形態 1 に示した式に従い、 スぺク トルパラメータ 3 3 を推定雑音スぺク トルに 反映させるこ とで更新を行う。
以降のポス トフィルタ部 3 2、 重み付き加算部 1 8の動作については、 実施の形態 7 と同様であるため、 説明を省略する。
この実施の形態 8によれば、 音声復号処理の過程で生成されたスぺク トルパラメータを流用して、 聴覚重み付け処理、 推定雑音スぺク トルの 更新を行う よ う にしたので、 実施の形態 3及び実施の形態 7が持つ効果 に加えて、 処理が簡易化される効果がある。
更に、 符号化処理とまったく 同じ聴覚重み付け処理が実現され、 量子 化雑音の多い成分の特定精度が上がり、よ り良い変形強度制御が得られ、 主観品質が改善する効果が得られる。
また、 背景雑音らしさの算出に用いる推定雑音スぺク トルの (音声符 号化処理に入力された音声のスぺク トルに近いという意味での) 推定精 度が上がり 、 結果と して得られる安定した高精度の背景雑音らしさに基 づいて精度の高い加算重み制御ができるよ う になり、 主観品質が改善す る効果がある。
なお、 この実施の形態 8では、 ポス トフィルタ部 3 2を音声復号部 4 から分離した構成であつたが、 分離していない構成においても、 実施の 形態 8 のよ う に音声復号部 4が出力したスぺク トルバラメータ 3 3 を流 用して信号加工部 2の処理を行う こ とができる。 この場合でも、 上記実 施の形態 8 と同様の効果が得られる。
実施の形態 9 .
上記図 7 に示す実施の形態 4の構成において、 加算制御値分割部 4 1 が、 重み付け加算部 1 8 にて加算される変形復号音声スぺク トル 4 4 の 周波数毎の重みを乗じた後のスぺク トルの概形が、 量子化雑音の推定ス ぺク トル形状に一致するよ うに、 出力する変形強度を制御するこ と も可 能である。
図 1 2は、 この場合の復号音声スぺク トル 4 3 と、 変形復号音声スぺ ク トル 4 4 に周波数毎の重みを乗じた後のスぺク トルの一例を示す模式 図である。
復号音声スぺク トル 4 3 には、 符号化方式に依存したスぺク トル形状 を持つ量子化雑音が重畳している。 C E L P系の音声符号化方式におい ては、 聴覚重み付け処理後の音声における歪みを最小化するよ うに符号 の探索を行う。 このため、 量子化雑音は、 聴覚重み付け処理後の音声に おいては、 平坦なスぺク トル形状を持つことになり 、 最終的な量子化雑 音のスぺク トル形状は、 聴覚重み付け処理の逆特性のスぺク トル形状を 持つことになる。 よって、 聴覚重み付け処理のスぺク トル特性を求め、 この逆特性のスぺク トル形状を求めて、 変形復号音声スぺク トルのスぺ ク トル形状がこれに合う よ うに、 加算制御値分割部 4 1 の出力を制御す ることは可能である。
この実施の形態 9によれば、 最終的な出力音声 6に含まれる変形復号 音声成分のスぺク トル形状を量子化雑音の推定スぺク トルの概形に一致 するよ うにしたので、 実施の形態 4が持つ効果に加えて、 必要最低限の パワーの変形復号音声の加算によって音声区間における聞き苦しい量子 化雑音を聞こえにく くすることができる効果がある。
実施の形態 1 0 .
上記実施の形態 1 、 実施の形態 3 ないし 8の構成において、 振幅平滑 化部 9の処理内で、 平滑化後の振幅スぺク トルが推定量子化雑音の振幅 スペク トル形状に一致するよ うに加工するこ と も可能である。 なお、 推 定量子化雑音の振幅スぺク トル形状の算出は、 実施の形態 9 と同様にし て えばよい
この実施の形態 1 0 によれば、 変形復号音声のスぺク トル形状を量子 化雑音の推定スペク トル形状に一致するよ うにしたので、実施の形態 1 、 実施の形態 3 ないし 8が持つ効果に加えて、 必要最低限のパワーの変形 復号音声の加算によって音声区間における聞き苦しい量子化雑音を聞こ えにく くするこ とができる効果がある。
実施の形態 1 1 .
上記実施の形態 1 、 実施の形態 3 ないし 1 0では、 信号加工部 2を復 号音声 5の加工に使用 しているが、この信号加工部 2のみを取り出して、 音響信号復号部 (音響信号符号化に対する復号部) 、 雑音抑圧処理の後 段に接続するなど、 他の信号加工処理に使用するこ と もできる。 伹し、 解消したい劣化成分の特性に応じて、 信号変形部における変形処理、 信 号評価部における評価方法を変更、 調整するこ とが必要になる。
この実施の形態 1 1 によれば、 復号音声以外の劣化成分を含む信号に 対して、 主観的に好ま しく ない成分を感じにく く加工するこ とが可能で ある。
実施の形態 1 2 .
上記実施の形態 1 ないし 1 1 では、 現在のフ レームまでの信号を用い て該信号の加工を行っているが、 処理遅延の発生を許して次フ レーム以 降の信号も使用する構成も可能である。 この実施の形態 1 2によれば、 次のフ レーム以降の信号を参照できる ので、 振幅スぺク トルの平滑化特性の改善、 連続性判定の精度向上、 雑 音らしさなどの評価精度の向上効果が得られる。
実施の形態 1 3 .
上記実施の形態 1 、 実施の形態 3 、 実施の形態 5ないし 1 2では、 フ 一リエ変換によってスぺク トル成分を算出し、 変形処理を行って、 逆フ 一リエ変換によって信号領域に戻しているが、 フーリエ変換の代わり に バン ドパスフィ ルタ群の各出力に対して、 変形処理を行い、 帯域別信号 の加算によって信号を再構築する構成も可能である。
この実施の形態 1 3 によれば、 フー リ エ変換を使用 しない構成でも同 様の効果が得られる。
実施の形態 1 4 .
上記実施の形態 1 ないし 1 3 では、 振幅平滑化部 9 と位相擾乱部 1 0 の両方を備えた構成であつたが、 振幅平滑化部 9 と位相擾乱部 1 0 の一 方を省略した構成も可能である し、 更に別の変形部を導入した構成も可 能である。
この実施の形態 1 4 によれば、 解消したい量子化雑音や劣化音の特性 によっては、 導入効果がない変形部を省略するこ とで処理が簡易化でき る効果がある。 また、 適切な変形部を導入するこ とで、 振幅平滑化部 9 と位相擾乱部 1 0では解消できない量子化雑音や劣化音を解消できる効 果が期待できる。 産業上の利用可能性
以上説明したよ う に本発明の音信号加工方法および音信号加工装置は 入力信号に対して所定の信号加工処理を行う ことで、 入力信号に含まれ る劣化成分を主観的に気にならないよ うにした加工信号を生成し、 所定 の評価値によつて入力信号と加工信号の加算重みを制御するよ う にした ので、劣化成分が多く含まれる区間を中心に加工信号の比率を増やして、 主観品質を改善できる効果がある。
また、 従来の 2値区間判定を廃し、 連続量の評価値を算出して、 これ に基づいて連続的に入力信号と加工信号の重み付け加算係数を制御でき るので、 区間判定誤り による品質劣化を回避できる効果がある。
また、 背景雑音の情報が多く含まれている入力信号の加工処理によつ て出力信号を生成できるので、 実際の背景雑音の特性を残しつつ、 雑音 種やスぺク トル形状にあま り依存しない安定な品質改善効果が得られる し、 音源符号化などによる劣化成分に対しても改善効果が得られる効果 がある。
また、 現在までの入力信号を用いて処理を行う こ とができるので特に 大きな遅延時間は不要で、 入力信号と加工信号の加算方法によっては処 理時間以外の遅延を排除するこ と もできる効果がある。 加工信号のレべ ルをあげる際には入力信号のレベルを下げていく よ う にすれば、 従来の よ うに劣化成分をマスクするために大きな疑似雑音を重畳すること も不 要で、 逆に適用対象に応じて、 背景雑音レベルを小さ 目にしたり、 大き 目にしたりすることすら可能である。 また、 当然のこ とであるが、 音声 符号化復号化による劣化音を解消する場合でも、 従来のよ うな新たな伝 送情報の追加は不要である。
本発明の音信号加工方法および音信号加工装置は、入力信号に対して、 スぺク トル領域での所定の加工処理を行う こ とで、 入力信号に含まれる 劣化成分を主観的に気にならないよ う にした加工信号を生成し、 所定の 評価値によって入力信号と加工信号の加算重みを制御するよ う にしたの で、 上記信号加工方法が持つ効果に加えて、 スぺク トル領域での細かい 劣化成分の抑圧処理を行う こ とができ、 更に主観品質を改善できる効果 がある。
本発明の音信号加工方法は、 上記発明の音信号加工方法において、 入 力信号と加工信号をスぺク トル領域で重み付け加算するよ うにしたので、 上記音信号加工方法が持つ効果に加えて、 スぺク トル領域での処理を行 う雑音抑圧方法の後段に接続する場合などに、 音信号加工方法が必要と するフー リ エ変換処理、 逆フ一 リェ変換処理を一部または全部省略する こ とができ、 処理が簡易化できる効果がある。
本発明の音信号加工方法は、 上記発明の音信号加工方法において、 重 み付け加算を周波数成分毎に独立に制御するよ う にしたので、 上記音信 号加工方法が持つ効果に加えて、 量子化雑音や劣化成分の支配的な成分 が重点的に加工信号に置換され、 量子化雑音や劣化成分が少ない良好な 成分まで置換してしま う ことがなく なり、 入力信号の特性を良好に残し つつ量子化雑音や劣化成分を主観的に抑圧でき、 主観品質を改善できる 効果がある。
本発明の音信号加工方法は、 上記発明の音信号加工方法における加工 処理と して、 振幅スぺク トル成分の平滑化処理を行う よ うにしたので、 上記音信号加工方法が持つ効果に加えて、 量子化雑音などによって生じ る振幅スぺク トル成分の不安定な変動を良好に抑圧することができ、 主 観品質を改善できる効果がある。
本発明の音信号加工方法は、 上記発明の音信号加工方法における加工 処理と して、位相スぺク トル成分の擾乱付与処理を行う よ うにしたので、 上記音信号加工方法が持つ効果に加えて、 位相成分間に独特な相互関係 を持ってしまい、 特徴的な劣化と感じられるこ とが多い量子化雑音や劣 化成分に対して、 位相成分間の関係に擾乱を与えるこ とができ、 主観品 質を改善できる効果がある。
本発明の音信号加工方法は、 上記発明の音信号加工方法における平滑 —
48
化強度または擾乱付与強度を、 入力信号または聴覚重み付けした入力信 号の振幅スぺク トル成分の大き さによって制御するよ うにしたので、 上 記音信号加工方法が持つ効果に加えて、 前記振幅スぺク トル成分が小さ いために量子化雑音や劣化成分が支配的になっている成分に対して重点 的に加工が加えられ、 量子化雑音や劣化成分が少ない良好な成分まで加 ェしてしま う こ とがなく なり、 入力信号の特性を良好に残しつつ量子化 雑音や劣化成分を主観的に抑圧でき、主観品質を改善できる効果がある。
本発明の音信号加工方法は、 上記発明の音信号加工方法における平滑 化強度または擾乱付与強度を、 入力信号または聴覚重み付けした入力信 号のスぺク トル成分の時間方向の連続性の大き さによって制御するよ う にしたので、 上記音信号加工方法が持つ効果に加えて、 スペク トル成分 の連続性が低いために量子化雑音や劣化成分が多く なりがちな成分に対 して重点的に加工が加えられ、 量子化雑音や劣化成分が少ない良好な成 分まで加工してしま う ことがなく なり、 入力信号の特性を良好に残しつ つ量子化雑音や劣化成分を主観的に抑圧でき、 主観品質を改善できる効 果がある。
本発明の音信号加工方法は、 上記発明の音信号加工方法における平滑 化強度または擾乱付与強度を、 前記評価値の時間変動性の大き さによつ て制御するよ う にしたので、 上記音信号加工方法が持つ効果に加えて、 入力信号の特性が変動している区間において必要以上に強い加工処理を 抑止でき、 特に振幅平滑化によるなまけ、 エコーの発生を防止できる効 果がある。
本発明の音信号加工方法は、 上記発明の音信号加工方法における所定 の評価値と して背景雑音らしさの度合を用いるよ う にしたので、 上記音 信号加工方法が持つ効果に加えて、 量子化雑音や劣化成分が多く発生し がちな背景雑音区間に対して重点的な加工が加えられ、 背景雑音以外の 区間についてもその区間に適切な加工 (加工しない、 低レベルの加工を 行うなど) が選択されるので、 主観品質を改善できる効果がある。
本発明の音信号加工方法は、 上記発明の音信号加工方法における前記 所定の評価値と して摩擦音ら しさの度合を用いるよ う にしたので、 上記 音信号加工方法が持つ効果に加えて、 量子化雑音や劣化成分が多く発生 しがちな摩擦音区間に対して重点的な加工が加えられ、 摩擦音以外の区 間についてもその区間に適切な加工 (加工しない、 低レベルの加工を行 う など) が選択されるので、 主観品質を改善できる効果がある c
本発明の音信号加工方法は、 音声符号化処理によって生成された音声 符号を入力と し、 この音声符号を復号して復号音声を生成し、 この復号 音声を入力と して上記音信号加工方法を用いた信号加工処理を施して加 ェ音声を生成し、 この加工音声を出力音声と して出力するよ うにしたの で、 上記音信号加工方法が持つ主観品質改善効果等をそのまま持った音 声復号が実現される効果がある。
本発明の音信号加工方法は、 音声符号化処理によって生成された音声 符号を入力と し、 この音声符号を復号して復号音声を生成し、 復号音声 に所定の信号加工処理を行って加工音声を生成し、 復号音声にボス トフ ィルタ処理を行い、 更にボス トフィルタ前または後の復号音声を分析し て所定の評価値を算出し、 この評価値に基づいてポス トフィルタ後の復 号音声と加工音声を重み付け加算して出力するよ う にしたので、 上記音 信号加工方法が持つ主観品質改善効果等をそのまま持った音声復号が実 現される効果に加えて、 ポス トフィルタに影響されない加工音声が生成 でき、 ポス トフィルタに影響されずに算出した精度の高い評価値に基づ いて精度の高い加算重み制御ができるよ うになるので、 更に主観品質が 改善する効果がある。

Claims

請求の範囲
1 . 入力音信号を加工して第一の加工信号を生成し、 前記 入力音信号を分析して所定の評価値を算出し、 この評価値に基づいて前 記入力音信号と前記第一の加工信号を重み付け加算して第二の加工信号 と し、 この第二の加工信号を出力信号とするこ とを特徴とする音信号加 ェ方法。
2 . 前記第一の加工信号生成方法は、 前記入力音信号をフ一 リェ変換することで周波数毎のスぺク トル成分を算出し、 このフーリエ変 換によ り算出された周波数毎のスぺク トル成分に対して所定の変形を与え、 変形後のスぺク トル成分を逆フーリェ変換して生成することを特徴とする 請求項 1記載の音信号加工方法。
3 . 前記重み付け加算をスぺク トル領域で行なう よ う にし たことを特徴とする請求項 1記載の音信号加工方法。
4 . 前記重み付け加算を周波数成分毎に独立に制御するよ う にしたことを特徴とする請求項 3記載の音信号加工方法。
5 . 前記周波数毎のスぺク トル成分に対する所定の変形に 振幅スぺク トル成分の平滑化処理を含むことを特徴とする請求項 2記載 の音信号加工方法。
6 . 前記周波数毎のスペク トル成分に対する所定の変形に 位相スぺク 卜ル成分の擾乱付与処理を含むことを特徴とする請求項 2記 載の音信号加工方法。
7 . 前記平滑化処理における平滑化強度を、 入力音信号の 振幅スペク トル成分の大き さによって制御するよ う にしたこ とを特徴と する請求項 5記載の音信号加工方法。
8 . 前記擾乱付与処理における擾乱付与強度を、 入力音信 号の振幅スぺク トル成分の大き さによって制御するよ うにしたことを特 徴とする請求項 6記載の音信号加工方法。
9 . 前記平滑化処理における平滑化強度を、 入力音信号の スぺク トル成分の時間方向の連続性の大き さによつて制御するよ う にし たこ とを特徴とする請求項 5記載の音信号加工方法。
1 0 . 前記擾乱付与処理における擾乱付与強度を、 入力音 信号のスぺク トル成分の時間方向の連続性の大き さによって制御するよ う にしたこ とを特徴とする請求項 6記載の音信号加工方法。
1 1 . 前記入力音信号と して、 聴覚重み付した入力音信号 を用いるよ う にしたことを特徴とする請求項 7ないし請求項 1 0記載の 音信号加工方法。
1 2 . 前記平滑化処理における平滑化強度を、 前記評価値 の時間変動性の大き さによって制御するよ うにしたことを特徴とする請 求項 5記載の音信号加工方法。
1 3 . 前記擾乱付与処理における擾乱付与強度を、 前記評 価値の時間変動性の大き さによって制御するよ う にしたことを特徴とす る請求項 6記載の音信号加工方法。
1 4 . 前記所定の評価値と して、 前記入力音信号を分析し て算出した背景雑音らしさの度合を用いるよ う にしたことを特徴とする 請求項 1 記載の音信号加工方法。
1 5 . 前記所定の評価値と して、 前記入力音信号を分析し て算出した摩擦音らしさの度合を用いるよ う にしたこ とを特徴とする請 求項 1記載の音信号加工方法。
1 6 . 前記入力音信号と して、 音声符号化処理によって生 成された音声符号を復号した復号音声を用いるよ うにしたことを特徴と する請求項 1記載の音信号加工方法。
1 7 . 前記入力音信号を音声符号化処理によって生成され た音声符号を復号した第一の復号音声と し、 この第一の復号音声に対し てボス トフィルタ処理を行なって第二の復号音声を生成し、 前記第一の 復号音声を加工して第一の加工音声を生成し、 いずれかの復号音声を分 祈して所定の評価値を算出し、 この評価値に基づいて前記第二の復号音 声と前記第一の加工音声を重み付けし加算して第二の加工音声と し、 こ の第二の加工音声を出力音声と して出力することを特徴とする音信号加 ェ方法。
1 8 . 入力音信号を加工して第一の加工信号を生成する第 一の加工信号生成部と、 前記入力音信号を分析して所定の評価値を算出 する評価値算出部と、 この評価値算出部の評価値に基づいて前記入力音 信号と前記第一の加工信号を重み付けして加算し、 第二の加工信号と し て出力する第二の加工信号生成部とを備えたこ とを特徴とする音信号加 ェ装置。
1 9 . 前記第一の加工信号生成部は、 前記入力音信号をフ 一リエ変換するこ とで周波数毎のスぺク トル成分を算出し、 この算出さ れた周波数毎のスぺク トル成分に対して振幅スぺク トル成分の平滑化処 理を与え、 この振幅スぺク トル成分の平滑化処理された後のスぺク トル 成分を逆フー リ エ変換して第一の加工信号を生成することを特徴とする 請求項 1 8記載の音信号加工装置。
2 0 . 前記第一の加工信号生成部は、 前記入力音信号をフ —リエ変換するこ とで周波数毎のスぺク トル成分を算出し、 この算出さ れた周波数毎のスぺク トル成分に対して位相スぺク トル成分の擾乱付与 処理を与え、 この位相スぺク トル成分の擾乱付与処理された後のスぺク トル成分を逆フーリエ変換して第一の加工信号を生成するこ とを特徴と する請求項 1 8記載の音信号加工装置。
PCT/JP1998/005514 1997-12-08 1998-12-07 Procede et dispositif de traitement du signal sonore WO1999030315A1 (fr)

Priority Applications (7)

Application Number Priority Date Filing Date Title
KR1020007006191A KR100341044B1 (ko) 1997-12-08 1998-12-07 음성 신호 가공 방법 및 음성 신호 가공 장치
CA002312721A CA2312721A1 (en) 1997-12-08 1998-12-07 Sound signal processing method and sound signal processing device
EP98957198A EP1041539A4 (en) 1997-12-08 1998-12-07 METHOD AND DEVICE FOR PROCESSING THE SOUND SIGNAL
IL13563098A IL135630A0 (en) 1997-12-08 1998-12-07 Method and apparatus for processing sound signal
AU13527/99A AU730123B2 (en) 1997-12-08 1998-12-07 Method and apparatus for processing sound signal
US09/568,127 US6526378B1 (en) 1997-12-08 2000-05-10 Method and apparatus for processing sound signal
NO20002902A NO20002902D0 (no) 1997-12-08 2000-06-07 FremgangsmÕte og apparat for behandling av lydsignal

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
JP33680397 1997-12-08
JP9/336803 1997-12-08

Related Child Applications (1)

Application Number Title Priority Date Filing Date
US09/568,127 Continuation US6526378B1 (en) 1997-12-08 2000-05-10 Method and apparatus for processing sound signal

Publications (1)

Publication Number Publication Date
WO1999030315A1 true WO1999030315A1 (fr) 1999-06-17

Family

ID=18302839

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/JP1998/005514 WO1999030315A1 (fr) 1997-12-08 1998-12-07 Procede et dispositif de traitement du signal sonore

Country Status (10)

Country Link
US (1) US6526378B1 (ja)
EP (1) EP1041539A4 (ja)
JP (3) JP4440332B2 (ja)
KR (1) KR100341044B1 (ja)
CN (1) CN1192358C (ja)
AU (1) AU730123B2 (ja)
CA (1) CA2312721A1 (ja)
IL (1) IL135630A0 (ja)
NO (1) NO20002902D0 (ja)
WO (1) WO1999030315A1 (ja)

Cited By (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2005257748A (ja) * 2004-03-09 2005-09-22 Nippon Telegr & Teleph Corp <Ntt> 収音方法、収音装置、収音プログラム
CN1318678C (zh) * 2000-11-15 2007-05-30 Bsh博施及西门子家用器具有限公司 具有改进噪音印象的家用电器
JP2009075160A (ja) * 2007-09-18 2009-04-09 Nippon Telegr & Teleph Corp <Ntt> コミュニケーション音声処理方法とその装置、及びそのプログラム
JP2010520513A (ja) * 2007-03-05 2010-06-10 テレフオンアクチーボラゲット エル エム エリクソン(パブル) 定常的な背景雑音の平滑化を制御するための方法及び装置
JP2010160496A (ja) * 2010-02-15 2010-07-22 Toshiba Corp 信号処理装置および信号処理方法
JP2011203500A (ja) * 2010-03-25 2011-10-13 Toshiba Corp 音情報判定装置、及び音情報判定方法
WO2012070671A1 (ja) * 2010-11-24 2012-05-31 日本電気株式会社 信号処理装置、信号処理方法、及び信号処理プログラム
WO2014083999A1 (ja) * 2012-11-27 2014-06-05 日本電気株式会社 信号処理装置、信号処理方法、および信号処理プログラム
WO2014084000A1 (ja) * 2012-11-27 2014-06-05 日本電気株式会社 信号処理装置、信号処理方法、および信号処理プログラム
JP2016038551A (ja) * 2014-08-11 2016-03-22 沖電気工業株式会社 雑音抑圧装置、方法及びプログラム
JP2016513812A (ja) * 2013-03-04 2016-05-16 ヴォイスエイジ・コーポレーション 時間領域デコーダにおける量子化雑音を低減するためのデバイスおよび方法

Families Citing this family (37)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
FI116643B (fi) * 1999-11-15 2006-01-13 Nokia Corp Kohinan vaimennus
JP3558031B2 (ja) * 2000-11-06 2004-08-25 日本電気株式会社 音声復号化装置
JP2002287782A (ja) * 2001-03-28 2002-10-04 Ntt Docomo Inc イコライザ装置
JP3568922B2 (ja) 2001-09-20 2004-09-22 三菱電機株式会社 エコー処理装置
DE10148351B4 (de) * 2001-09-29 2007-06-21 Grundig Multimedia B.V. Verfahren und Vorrichtung zur Auswahl eines Klangalgorithmus
US20030135374A1 (en) * 2002-01-16 2003-07-17 Hardwick John C. Speech synthesizer
WO2003063160A1 (en) * 2002-01-25 2003-07-31 Koninklijke Philips Electronics N.V. Method and unit for substracting quantization noise from a pcm signal
US7277537B2 (en) * 2003-09-02 2007-10-02 Texas Instruments Incorporated Tone, modulated tone, and saturated tone detection in a voice activity detection device
AU2003274864A1 (en) * 2003-10-24 2005-05-11 Nokia Corpration Noise-dependent postfiltering
US7454333B2 (en) * 2004-09-13 2008-11-18 Mitsubishi Electric Research Lab, Inc. Separating multiple audio signals recorded as a single mixed signal
WO2006046293A1 (ja) * 2004-10-28 2006-05-04 Fujitsu Limited 雑音抑圧装置
US8520861B2 (en) * 2005-05-17 2013-08-27 Qnx Software Systems Limited Signal processing system for tonal noise robustness
JP4753821B2 (ja) * 2006-09-25 2011-08-24 富士通株式会社 音信号補正方法、音信号補正装置及びコンピュータプログラム
JP5255575B2 (ja) * 2007-03-02 2013-08-07 テレフオンアクチーボラゲット エル エム エリクソン(パブル) レイヤード・コーデックのためのポストフィルタ
TWI467568B (zh) * 2007-07-13 2015-01-01 Dolby Lab Licensing Corp 使用位準時變評估機率密度之時變音訊信號位準
KR101235830B1 (ko) 2007-12-06 2013-02-21 한국전자통신연구원 음성코덱의 품질향상장치 및 그 방법
EP2346032B1 (en) * 2008-10-24 2014-05-07 Mitsubishi Electric Corporation Noise suppressor and voice decoder
JP6070953B2 (ja) * 2011-02-26 2017-02-01 日本電気株式会社 信号処理装置、信号処理方法、及び記憶媒体
JP5898515B2 (ja) * 2012-02-15 2016-04-06 ルネサスエレクトロニクス株式会社 半導体装置及び音声通信装置
JP6109927B2 (ja) 2012-05-04 2017-04-05 カオニックス ラブス リミテッド ライアビリティ カンパニー 源信号分離のためのシステム及び方法
US10497381B2 (en) 2012-05-04 2019-12-03 Xmos Inc. Methods and systems for improved measurement, entity and parameter estimation, and path propagation effect measurement and mitigation in source signal separation
JP6027804B2 (ja) * 2012-07-23 2016-11-16 日本放送協会 雑音抑圧装置およびそのプログラム
WO2014136629A1 (ja) 2013-03-05 2014-09-12 日本電気株式会社 信号処理装置、信号処理方法および信号処理プログラム
WO2014136628A1 (ja) 2013-03-05 2014-09-12 日本電気株式会社 信号処理装置、信号処理方法および信号処理プログラム
JP2014178578A (ja) * 2013-03-15 2014-09-25 Yamaha Corp 音響処理装置
EP3042377B1 (en) 2013-03-15 2023-01-11 Xmos Inc. Method and system for generating advanced feature discrimination vectors for use in speech recognition
US9418671B2 (en) * 2013-08-15 2016-08-16 Huawei Technologies Co., Ltd. Adaptive high-pass post-filter
US10026399B2 (en) * 2015-09-11 2018-07-17 Amazon Technologies, Inc. Arbitration between voice-enabled devices
US11468905B2 (en) * 2016-09-15 2022-10-11 Nippon Telegraph And Telephone Corporation Sample sequence converter, signal encoding apparatus, signal decoding apparatus, sample sequence converting method, signal encoding method, signal decoding method and program
JP6759927B2 (ja) * 2016-09-23 2020-09-23 富士通株式会社 発話評価装置、発話評価方法、および発話評価プログラム
JP7147211B2 (ja) * 2018-03-22 2022-10-05 ヤマハ株式会社 情報処理方法および情報処理装置
CN110660403B (zh) * 2018-06-28 2024-03-08 北京搜狗科技发展有限公司 一种音频数据处理方法、装置、设备及可读存储介质
CN111477237B (zh) * 2019-01-04 2022-01-07 北京京东尚科信息技术有限公司 音频降噪方法、装置和电子设备
CN111866026B (zh) * 2020-08-10 2022-04-12 四川湖山电器股份有限公司 一种用于语音会议的语音数据丢包处理系统及处理方法
BR112023006291A2 (pt) * 2020-10-09 2023-05-09 Fraunhofer Ges Forschung Dispositivo, método ou programa de computador para processar uma cena de áudio codificada usando uma conversão de parâmetro
JP2023549033A (ja) * 2020-10-09 2023-11-22 フラウンホーファー-ゲゼルシャフト・ツール・フェルデルング・デル・アンゲヴァンテン・フォルシュング・アインゲトラーゲネル・フェライン パラメータ平滑化を用いて符号化されたオーディオシーンを処理するための装置、方法、またはコンピュータプログラム
EP4297028A4 (en) * 2021-03-10 2024-03-20 Mitsubishi Electric Corporation NOISE CANCELLATION DEVICE, NOISE CANCELLATION METHOD, AND NOISE CANCELLATION PROGRAM

Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS57184332A (en) * 1981-05-09 1982-11-13 Nippon Gakki Seizo Kk Noise eliminating device
JPS61123898A (ja) * 1984-11-20 1986-06-11 松下電器産業株式会社 音色加工装置
JPH01251000A (ja) * 1987-12-10 1989-10-05 Toshiba Corp 音声信号分析方法
JPH0863196A (ja) * 1994-08-22 1996-03-08 Nec Corp ポストフィルタ
JPH08154179A (ja) * 1994-09-30 1996-06-11 Sanyo Electric Co Ltd 画像処理装置およびその装置を用いた画像通信装置
JPH1049197A (ja) * 1996-08-06 1998-02-20 Denso Corp 音声復元装置及び音声復元方法
JPH10171497A (ja) * 1996-12-12 1998-06-26 Oki Electric Ind Co Ltd 背景雑音除去装置
JPH10254499A (ja) * 1997-03-14 1998-09-25 Nippon Telegr & Teleph Corp <Ntt> 帯域分割型雑音低減方法及び装置

Family Cites Families (23)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS57148429A (en) * 1981-03-10 1982-09-13 Victor Co Of Japan Ltd Noise reduction device
JPS5957539A (ja) * 1982-09-27 1984-04-03 Sony Corp 適応的符号化装置
US4937873A (en) * 1985-03-18 1990-06-26 Massachusetts Institute Of Technology Computationally efficient sine wave synthesis for acoustic waveform processing
JPS6424572A (en) 1987-07-20 1989-01-26 Victor Company Of Japan Noise reducing circuit
JPH01123898A (ja) 1987-11-07 1989-05-16 Yoshitaka Satoda カラーバブルソープ
IL84948A0 (en) * 1987-12-25 1988-06-30 D S P Group Israel Ltd Noise reduction system
US4933973A (en) * 1988-02-29 1990-06-12 Itt Corporation Apparatus and methods for the selective addition of noise to templates employed in automatic speech recognition systems
US5276765A (en) * 1988-03-11 1994-01-04 British Telecommunications Public Limited Company Voice activity detection
JPH02266717A (ja) * 1989-04-07 1990-10-31 Kyocera Corp ディジタルオーディオ信号の符号化復号化装置
US5307441A (en) * 1989-11-29 1994-04-26 Comsat Corporation Wear-toll quality 4.8 kbps speech codec
JP3094522B2 (ja) * 1991-07-19 2000-10-03 株式会社日立製作所 ベクトル量子化方法及びその装置
ES2104842T3 (es) * 1991-10-18 1997-10-16 At & T Corp Metodo y aparato para aplanar formas de ondas de ciclos de frecuencia.
JP2563719B2 (ja) * 1992-03-11 1996-12-18 技術研究組合医療福祉機器研究所 音声加工装置と補聴器
US5517511A (en) * 1992-11-30 1996-05-14 Digital Voice Systems, Inc. Digital transmission of acoustic signals over a noisy communication channel
JPH07184332A (ja) 1993-12-24 1995-07-21 Toshiba Corp 電子機器システム
JP3353994B2 (ja) 1994-03-08 2002-12-09 三菱電機株式会社 雑音抑圧音声分析装置及び雑音抑圧音声合成装置及び音声伝送システム
JPH0863194A (ja) * 1994-08-23 1996-03-08 Hitachi Denshi Ltd 残差駆動形線形予測方式ボコーダ
JP3568255B2 (ja) 1994-10-28 2004-09-22 富士通株式会社 音声符号化装置及びその方法
US5701390A (en) * 1995-02-22 1997-12-23 Digital Voice Systems, Inc. Synthesis of MBE-based coded speech using regenerated phase information
JP3269969B2 (ja) * 1996-05-21 2002-04-02 沖電気工業株式会社 背景雑音消去装置
US6131084A (en) * 1997-03-14 2000-10-10 Digital Voice Systems, Inc. Dual subframe quantization of spectral magnitudes
US6167375A (en) * 1997-03-17 2000-12-26 Kabushiki Kaisha Toshiba Method for encoding and decoding a speech signal including background noise
US6092039A (en) * 1997-10-31 2000-07-18 International Business Machines Corporation Symbiotic automatic speech recognition and vocoder

Patent Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS57184332A (en) * 1981-05-09 1982-11-13 Nippon Gakki Seizo Kk Noise eliminating device
JPS61123898A (ja) * 1984-11-20 1986-06-11 松下電器産業株式会社 音色加工装置
JPH01251000A (ja) * 1987-12-10 1989-10-05 Toshiba Corp 音声信号分析方法
JPH0863196A (ja) * 1994-08-22 1996-03-08 Nec Corp ポストフィルタ
JPH08154179A (ja) * 1994-09-30 1996-06-11 Sanyo Electric Co Ltd 画像処理装置およびその装置を用いた画像通信装置
JPH1049197A (ja) * 1996-08-06 1998-02-20 Denso Corp 音声復元装置及び音声復元方法
JPH10171497A (ja) * 1996-12-12 1998-06-26 Oki Electric Ind Co Ltd 背景雑音除去装置
JPH10254499A (ja) * 1997-03-14 1998-09-25 Nippon Telegr & Teleph Corp <Ntt> 帯域分割型雑音低減方法及び装置

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
See also references of EP1041539A4 *

Cited By (17)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1318678C (zh) * 2000-11-15 2007-05-30 Bsh博施及西门子家用器具有限公司 具有改进噪音印象的家用电器
JP2005257748A (ja) * 2004-03-09 2005-09-22 Nippon Telegr & Teleph Corp <Ntt> 収音方法、収音装置、収音プログラム
JP4518817B2 (ja) * 2004-03-09 2010-08-04 日本電信電話株式会社 収音方法、収音装置、収音プログラム
US9318117B2 (en) 2007-03-05 2016-04-19 Telefonaktiebolaget Lm Ericsson (Publ) Method and arrangement for controlling smoothing of stationary background noise
JP2010520513A (ja) * 2007-03-05 2010-06-10 テレフオンアクチーボラゲット エル エム エリクソン(パブル) 定常的な背景雑音の平滑化を制御するための方法及び装置
US10438601B2 (en) 2007-03-05 2019-10-08 Telefonaktiebolaget Lm Ericsson (Publ) Method and arrangement for controlling smoothing of stationary background noise
US9852739B2 (en) 2007-03-05 2017-12-26 Telefonaktiebolaget Lm Ericsson (Publ) Method and arrangement for controlling smoothing of stationary background noise
JP2009075160A (ja) * 2007-09-18 2009-04-09 Nippon Telegr & Teleph Corp <Ntt> コミュニケーション音声処理方法とその装置、及びそのプログラム
JP2010160496A (ja) * 2010-02-15 2010-07-22 Toshiba Corp 信号処理装置および信号処理方法
JP2011203500A (ja) * 2010-03-25 2011-10-13 Toshiba Corp 音情報判定装置、及び音情報判定方法
US9030240B2 (en) 2010-11-24 2015-05-12 Nec Corporation Signal processing device, signal processing method and computer readable medium
WO2012070671A1 (ja) * 2010-11-24 2012-05-31 日本電気株式会社 信号処理装置、信号処理方法、及び信号処理プログラム
WO2014084000A1 (ja) * 2012-11-27 2014-06-05 日本電気株式会社 信号処理装置、信号処理方法、および信号処理プログラム
WO2014083999A1 (ja) * 2012-11-27 2014-06-05 日本電気株式会社 信号処理装置、信号処理方法、および信号処理プログラム
JP2016513812A (ja) * 2013-03-04 2016-05-16 ヴォイスエイジ・コーポレーション 時間領域デコーダにおける量子化雑音を低減するためのデバイスおよび方法
JP2019053326A (ja) * 2013-03-04 2019-04-04 ヴォイスエイジ・コーポレーション 時間領域デコーダにおける量子化雑音を低減するためのデバイスおよび方法
JP2016038551A (ja) * 2014-08-11 2016-03-22 沖電気工業株式会社 雑音抑圧装置、方法及びプログラム

Also Published As

Publication number Publication date
KR20010032862A (ko) 2001-04-25
EP1041539A1 (en) 2000-10-04
JP4567803B2 (ja) 2010-10-20
JP2009230154A (ja) 2009-10-08
JP4440332B2 (ja) 2010-03-24
US6526378B1 (en) 2003-02-25
JP4684359B2 (ja) 2011-05-18
CN1192358C (zh) 2005-03-09
JP2010237703A (ja) 2010-10-21
AU1352799A (en) 1999-06-28
JP2010033072A (ja) 2010-02-12
KR100341044B1 (ko) 2002-07-13
CA2312721A1 (en) 1999-06-17
AU730123B2 (en) 2001-02-22
NO20002902L (no) 2000-06-07
IL135630A0 (en) 2001-05-20
EP1041539A4 (en) 2001-09-19
CN1281576A (zh) 2001-01-24
NO20002902D0 (no) 2000-06-07

Similar Documents

Publication Publication Date Title
WO1999030315A1 (fr) Procede et dispositif de traitement du signal sonore
US5752222A (en) Speech decoding method and apparatus
US8255222B2 (en) Speech separating apparatus, speech synthesizing apparatus, and voice quality conversion apparatus
JP3481390B2 (ja) 短期知覚重み付けフィルタを使用する合成分析音声コーダに雑音マスキングレベルを適応する方法
US6427135B1 (en) Method for encoding speech wherein pitch periods are changed based upon input speech signal
RU2483364C2 (ru) Схема аудиокодирования/декодирования с переключением байпас
US7379866B2 (en) Simple noise suppression model
JP4132109B2 (ja) 音声信号の再生方法及び装置、並びに音声復号化方法及び装置、並びに音声合成方法及び装置
JP4040126B2 (ja) 音声復号化方法および装置
KR20020052191A (ko) 음성 분류를 이용한 음성의 가변 비트 속도 켈프 코딩 방법
JP2002516420A (ja) 音声コーダ
EP1096476B1 (en) Speech signal decoding
JP4230414B2 (ja) 音信号加工方法及び音信号加工装置
JP4358221B2 (ja) 音信号加工方法及び音信号加工装置
JPH10207491A (ja) 背景音/音声分類方法、有声/無声分類方法および背景音復号方法
EP1619666B1 (en) Speech decoder, speech decoding method, program, recording medium
JP3360423B2 (ja) 音声強調装置
JP3490324B2 (ja) 音響信号符号化装置、復号化装置、これらの方法、及びプログラム記録媒体
JP3510643B2 (ja) 音声信号のピッチ周期処理方法
KR100715014B1 (ko) 트랜스코더 및 부호변환방법
JPH08211895A (ja) ピッチラグを評価するためのシステムおよび方法、ならびに音声符号化装置および方法
KR100421816B1 (ko) 음성복호화방법 및 휴대용 단말장치
JPH09160595A (ja) 音声合成方法
JPH09146598A (ja) 音声符号化における雑音抑圧方法

Legal Events

Date Code Title Description
WWE Wipo information: entry into national phase

Ref document number: 135630

Country of ref document: IL

Ref document number: 98811928.5

Country of ref document: CN

AK Designated states

Kind code of ref document: A1

Designated state(s): AL AM AT AU AZ BA BB BG BR BY CA CH CN CU CZ DE DK EE ES FI GB GE GH GM HU ID IL IN IS JP KE KG KR KZ LC LK LR LS LT LU LV MD MG MK MN MW MX NO NZ PL PT RO RU SD SE SG SI SK SL TJ TM TR TT UA UG US UZ VN YU ZW

AL Designated countries for regional patents

Kind code of ref document: A1

Designated state(s): GH GM KE LS MW SD SZ UG ZW AM AZ BY KG KZ MD RU TJ TM AT BE CH CY DE DK ES FI FR GB GR IE IT LU MC NL PT SE BF BJ CF CG CI CM GA GN GW ML MR NE SN TD TG

DFPE Request for preliminary examination filed prior to expiration of 19th month from priority date (pct application filed before 20040101)
121 Ep: the epo has been informed by wipo that ep was designated in this application
WWE Wipo information: entry into national phase

Ref document number: 13527/99

Country of ref document: AU

WWE Wipo information: entry into national phase

Ref document number: IN/PCT/2000/57/CHE

Country of ref document: IN

WWE Wipo information: entry into national phase

Ref document number: 1998957198

Country of ref document: EP

WWE Wipo information: entry into national phase

Ref document number: 09568127

Country of ref document: US

ENP Entry into the national phase

Ref document number: 2312721

Country of ref document: CA

Ref document number: 2312721

Country of ref document: CA

Kind code of ref document: A

WWE Wipo information: entry into national phase

Ref document number: 1020007006191

Country of ref document: KR

WWP Wipo information: published in national office

Ref document number: 1998957198

Country of ref document: EP

REG Reference to national code

Ref country code: DE

Ref legal event code: 8642

WWP Wipo information: published in national office

Ref document number: 1020007006191

Country of ref document: KR

WWG Wipo information: grant in national office

Ref document number: 13527/99

Country of ref document: AU

WWG Wipo information: grant in national office

Ref document number: 1020007006191

Country of ref document: KR

WWW Wipo information: withdrawn in national office

Ref document number: 1998957198

Country of ref document: EP