WO2014136628A1 - 信号処理装置、信号処理方法および信号処理プログラム - Google Patents

信号処理装置、信号処理方法および信号処理プログラム Download PDF

Info

Publication number
WO2014136628A1
WO2014136628A1 PCT/JP2014/054633 JP2014054633W WO2014136628A1 WO 2014136628 A1 WO2014136628 A1 WO 2014136628A1 JP 2014054633 W JP2014054633 W JP 2014054633W WO 2014136628 A1 WO2014136628 A1 WO 2014136628A1
Authority
WO
WIPO (PCT)
Prior art keywords
signal
linearity
phase
unit
phase component
Prior art date
Application number
PCT/JP2014/054633
Other languages
English (en)
French (fr)
Inventor
昭彦 杉山
光樹 朴
良次 宮原
Original Assignee
日本電気株式会社
ルネサスエレクトロニクス株式会社
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 日本電気株式会社, ルネサスエレクトロニクス株式会社 filed Critical 日本電気株式会社
Priority to US14/773,271 priority Critical patent/US9858946B2/en
Priority to JP2015504257A priority patent/JPWO2014136628A1/ja
Publication of WO2014136628A1 publication Critical patent/WO2014136628A1/ja

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Processing of the speech or voice signal to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • G10L21/0216Noise filtering characterised by the method used for estimating noise
    • G10L21/0232Processing in the frequency domain
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/48Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
    • G10L25/51Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Processing of the speech or voice signal to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • G10L21/0264Noise filtering characterised by the type of parameter measurement, e.g. correlation techniques, zero crossing techniques or predictive techniques
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/03Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
    • G10L25/18Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being spectral information of each sub-band
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/78Detection of presence or absence of voice signals
    • G10L25/87Detection of discrete points within a voice signal

Definitions

  • the present invention relates to a technique for detecting a change in a signal.
  • Patent Document 1 discloses a technique for evaluating the continuity of the phase component in the time direction and smoothing the amplitude component for each frequency (paragraphs 0135 to 0138).
  • Japanese Patent Application Laid-Open No. H10-228707 describes that a sudden frequency change is detected by measuring the amount of phase variation in the time direction.
  • Patent Document 3 in paragraph 0024, “pulses in a strong electric field environment are constantly monitored by monitoring the phase change of the complex vectors of the I and Q signals on the complex plane accompanying the superposition of the pulse noise. ”Is reliably detected. This phase change is a change in the time direction.
  • paragraph 0031 of Patent Document 4 states that “the phase linearization unit 25 corrects the jump of the phase signal ⁇ input from the polar coordinate conversion unit 24 by linearization and detects the phase signal ⁇ ′ as a result of the phase detection. Output to the unit 26 ". Further, paragraph 0051 of Patent Document 4 describes a phase tilt detection means, and paragraph 0040 includes “the input / output signal of the phase detector 26 (phase ⁇ ′ as an input signal, output signal” in FIG. 5). An example of the phase inclination d ⁇ ′) is shown. Patent Document 5 discloses a technique for detecting an impact sound using amplitude.
  • JP 2010-237703 A JP 2011-254122 A JP 2007-251908 A JP 2011-199808 JP WO2008 / 111462
  • Patent Documents 1 and 4 are not techniques for detecting a sudden change in an input signal.
  • Patent Document 2 is intended to detect a sudden change in “frequency”
  • Patent Document 3 is intended to detect pulse noise using a temporal change in the phase of an AM signal.
  • Patent Document 5 is an impact sound detection technique that uses only amplitude, and lacks robustness. That is, the techniques described in these documents cannot effectively detect a sudden change in signal.
  • An object of the present invention is to provide a technique for solving the above-described problems.
  • a signal processing apparatus provides: Conversion means for converting the input signal into a phase component signal and an amplitude component signal in the frequency domain; Linearity calculating means for calculating linearity of the phase component signal in the frequency domain; Determining means for determining the presence of a sudden change in the input signal based on the linearity calculated by the linearity calculating means; Is provided.
  • a signal processing method includes: Convert the input signal into a phase component signal and an amplitude component signal in the frequency domain, Calculate the linearity of the phase component signal in the frequency domain, Determining the presence of a sudden change in the input signal based on the calculated linearity; Includes each step.
  • a signal processing program provides: Convert the input signal into a phase component signal and an amplitude component signal in the frequency domain, Calculate the linearity of the phase component signal in the frequency domain, Determining the presence of a sudden change in the input signal based on the calculated linearity; Cause each step to be executed by a computer.
  • a sudden change in signal can be detected effectively.
  • the “voice signal” is a direct electrical change that occurs in accordance with voice and other sounds, and is used to transmit voice and other sounds, and is not limited to voice.
  • the signal processing device 100 is a device for detecting an input signal sudden change.
  • the signal processing apparatus 100 includes a conversion unit 101, a linearity calculation unit 102, and a signal sudden change determination unit 104.
  • the conversion unit 101 converts the input signal 110 into a phase component signal 120 and an amplitude component signal 130 in the frequency domain.
  • the linearity calculation unit 102 calculates the linearity 140 of the phase component signal 120.
  • the signal sudden change determination unit 104 determines the presence of a sudden change in the input signal based on the linearity 140 calculated by the linearity calculation unit 102.
  • noise suppression apparatus as a second embodiment of the present invention will be described with reference to FIGS.
  • the noise suppression device of the present embodiment can be applied to noise suppression of, for example, a digital camera, a notebook computer, a mobile phone, a keyboard, a game machine controller, and a mobile phone push button. That is, a target signal such as voice, music, and environmental sound can be emphasized with respect to a signal (noise or interference signal) superimposed thereon.
  • the present invention is not limited to this, and can be applied to any signal processing apparatus that is required to determine a signal sudden change from an input signal.
  • a noise suppression device that detects and suppresses an impact sound will be described as an example of a sudden change in signal.
  • the noise suppression apparatus appropriately removes the impact sound generated by the button operation, for example, in a form in which an operation such as button pressing is performed near the microphone. Briefly, a signal including an impact sound is converted into a frequency domain signal, and the linearity of the phase component with respect to the frequency space is calculated. Then, when there are many frequencies with high linearity (slope is constant), it is determined that the impact sound is detected.
  • FIG. 2 is a block diagram showing the overall configuration of the noise suppression apparatus 200.
  • a degradation signal (a signal in which a desired signal and noise are mixed) is supplied to the input terminal 206 as a sample value series.
  • the degradation signal supplied to the input terminal 206 is subjected to transformation such as Fourier transformation in the transformation unit 201 and is divided into a plurality of frequency components. A plurality of frequency components are processed independently for each frequency. Here, the description will be continued focusing on a specific frequency component.
  • the amplitude spectrum (amplitude component) 230 is supplied to the noise suppression unit 205
  • the phase spectrum (phase component) 220 is supplied to the phase control unit 202 and the linearity calculation unit 208.
  • the conversion unit 201 supplies the degradation signal amplitude spectrum 230 to the noise suppression unit 205, but the present invention is not limited to this, and a power spectrum corresponding to the square thereof is supplied to the noise suppression unit 205. You may supply.
  • the noise suppression unit 205 estimates noise using the degraded signal amplitude spectrum 230 supplied from the conversion unit 201, and generates an estimated noise spectrum. Also, the noise suppression unit 205 suppresses noise using the degraded signal amplitude spectrum 230 supplied from the conversion unit 201 and the generated estimated noise spectrum, and the enhanced signal amplitude spectrum as a noise suppression result is used as the amplitude control unit 203. To communicate. Furthermore, the noise suppression unit 205 receives the determination result from the sudden change determination unit 209 and executes noise suppression according to whether or not there is a sudden change in the signal.
  • the phase control unit 202 rotates (shifts) the deteriorated signal phase spectrum 220 supplied from the conversion unit 201 and supplies it to the inverse conversion unit 204 as the enhanced signal phase spectrum 240. Further, the rotation amount (shift amount) of the phase is transmitted to the amplitude control unit 203.
  • the amplitude control unit 203 receives the phase rotation amount (shift amount) from the phase control unit 202, calculates the amplitude correction amount, uses the amplitude correction amount to correct the emphasized signal amplitude spectrum at each frequency, and corrects the corrected amplitude.
  • the spectrum 250 is supplied to the inverse transform unit 204.
  • the inverse conversion unit 204 synthesizes the enhancement signal phase spectrum 240 supplied from the phase control unit 202 and the corrected amplitude spectrum supplied from the amplitude control unit 203, performs inverse conversion, and outputs the result to the output terminal 207 as an enhancement signal. Supply.
  • the linearity calculation unit 208 calculates the linearity in the frequency domain using the phase spectrum 220 supplied from the conversion unit 201.
  • the sudden change determination unit 209 determines whether or not there is a sudden signal change based on the linearity calculated by the linearity calculation unit 208.
  • FIG. 3 is a block diagram illustrating a configuration of the conversion unit 201.
  • the converting unit 201 includes a frame dividing unit 301, a windowing unit 302, and a Fourier transform unit 303.
  • the deteriorated signal samples are supplied to the frame dividing unit 301 and divided into frames for every K / 2 samples.
  • K is an even number.
  • the deteriorated signal samples divided into frames are supplied to the windowing processing unit 302 and multiplied by w (t) which is a window function.
  • w (t) for example, a Hanning window represented by the following equation (3) can be used.
  • various window functions such as a Hamming window and a triangular window are known.
  • the windowed output is supplied to the Fourier transform unit 303 and converted into a degraded signal spectrum Yn (k).
  • the degraded signal spectrum Yn (k) is separated into a phase and an amplitude, the degraded signal phase spectrum arg Yn (k) is sent to the phase control unit 202 and the linearity calculation unit 208, and the degraded signal amplitude spectrum
  • a power spectrum can be used instead of an amplitude spectrum.
  • FIG. 4 is a block diagram showing the configuration of the inverse transform unit 204.
  • the inverse transform unit 204 includes an inverse Fourier transform unit 401, a windowing processing unit 402, and a frame synthesis unit 403.
  • the inverse Fourier transform unit 401 multiplies the enhancement signal amplitude spectrum 250 supplied from the amplitude control unit 203 by the enhancement signal phase spectrum 240 arg Xn (k) supplied from the phase control unit 202 to obtain an enhancement signal (hereinafter, referred to as an enhancement signal).
  • an enhancement signal hereinafter, referred to as an enhancement signal.
  • the left side of equation (4) is obtained.
  • a window may be created by overlapping (overlapping) a part of two consecutive frames.
  • the left side of the following equation is the output of the windowing processing unit 402, and the frame This is transmitted to the synthesis unit 403.
  • the output signal at -1 (the left side of equation (7)) is obtained.
  • the obtained enhancement signal 260 is transmitted from the frame synthesis unit 403 to the output terminal 207.
  • the transformation in the transform unit and the inverse transform unit has been described as Fourier transform, but other transforms such as Hadamard transform, Haar transform, and wavelet transform can be used instead of Fourier transform.
  • the Haar transform does not require multiplication and can reduce the area when the LSI is formed. Since the wavelet transform can change the time resolution depending on the frequency, an improvement in the noise suppression effect can be expected.
  • the noise suppression unit 205 can perform actual suppression after integrating a plurality of frequency components obtained in the conversion unit 201. At that time, high sound quality can be achieved by integrating more frequency components from a low frequency region having a high ability to discriminate auditory characteristics toward a high frequency region having a low ability. As described above, when noise suppression is executed after integrating a plurality of frequency components, the number of frequency components to which noise suppression is applied is reduced, and the overall calculation amount can be reduced.
  • the noise suppression unit 205 estimates noise using the deteriorated signal amplitude spectrum supplied from the conversion unit 201 and generates an estimated noise spectrum. Then, a suppression coefficient is obtained using the deteriorated signal amplitude spectrum from the conversion unit 201 and the generated estimated noise spectrum, is multiplied by the deteriorated signal amplitude spectrum, and is supplied to the amplitude control unit 203 as an enhanced signal amplitude spectrum.
  • the sudden change determination result information on whether or not there is a sudden change in the signal
  • the smaller one of the degraded signal amplitude spectrum and the estimated noise spectrum is selected as the enhancement signal.
  • the amplitude spectrum is supplied to the amplitude control unit 203.
  • Non-Patent Document 2 For estimation of noise, various estimation methods can be used as shown in Non-Patent Document 2.
  • Non-Patent Document 1 discloses a method in which an estimated noise spectrum is an average value of a deteriorated signal amplitude spectrum of a frame in which a target sound is not generated. In this method, it is necessary to detect the generation of the target sound. The section in which the target sound is generated can be determined by the power of the enhancement signal.
  • the enhancement signal is the target sound other than noise. Also, the target sound and noise levels do not change greatly between adjacent frames. For these reasons, the enhancement signal level in the past of one frame is used as an index for determining the noise interval. When the emphasized signal power of one frame in the past is below a certain value, the current frame is determined as a noise section.
  • the noise spectrum can be estimated by averaging the deteriorated signal amplitude spectrum of the frame determined as the noise interval.
  • Non-Patent Document 1 also discloses a method in which the estimated noise spectrum is an average value at the initial stage of estimation when the deteriorated signal amplitude spectrum is supplied. In this case, it is necessary to satisfy the condition that the target sound is not included immediately after the estimation is started. When the condition is satisfied, the degradation signal amplitude spectrum at the initial stage of estimation can be set as the estimated noise spectrum.
  • Non-Patent Document 2 discloses a method for obtaining an estimated noise spectrum from a statistical minimum value of a degraded signal amplitude spectrum.
  • the minimum value of the degradation signal amplitude spectrum in a certain period of time is statistically maintained, and the noise spectrum is estimated from the minimum value. Since the minimum value of the degraded signal amplitude spectrum is similar to the spectrum shape of the noise spectrum, it can be used as an estimated value of the noise spectrum shape. However, the minimum value is smaller than the original noise level. For this reason, a value obtained by appropriately amplifying the minimum value is used as the estimated noise spectrum.
  • the noise suppression unit 205 can perform various types of suppression, but representative examples include SS (Spectrum Subtraction) method and MMSE STSA (Minimum Mean-Square Error Short-Time Spectral Amplitude Estimator: And least square mean error short time amplitude spectrum estimation) method.
  • SS Specific Subtraction
  • MMSE STSA Minimum Mean-Square Error Short-Time Spectral Amplitude Estimator: And least square mean error short time amplitude spectrum estimation
  • FIG. 5 is a block diagram showing the configuration of the phase control unit 202 and the amplitude control unit 203.
  • the phase control unit 202 includes a phase rotation unit 501 and a rotation amount generation unit 502
  • the amplitude control unit 203 includes a correction amount calculation unit 503 and an amplitude correction unit 504.
  • the rotation amount generation unit 502 generates a rotation amount of the deteriorated signal phase spectrum for the frequency component determined by the sudden change determination unit 209 as “a sudden change in the signal”, and sends it to the phase rotation unit 501 and the correction amount calculation unit 503. Supply.
  • the phase rotation unit 501 rotates (shifts) the deteriorated signal phase spectrum 220 supplied from the conversion unit 201 by the supplied rotation amount, and the enhanced signal phase spectrum.
  • 240 is supplied to the inverse transform unit 204.
  • the correction amount calculation unit 503 determines an amplitude correction coefficient based on the rotation amount supplied from the rotation amount generation unit 502 and supplies it to the amplitude correction unit 504.
  • the rotation amount generation unit 502 generates a rotation amount using, for example, a random number.
  • a rotation amount using, for example, a random number.
  • the shape of the deterioration signal phase spectrum 220 changes. This shape change can weaken the characteristics of noise such as impact sound.
  • the random number includes a uniform random number having a uniform occurrence probability, a normal random number having a normal distribution of occurrence probability, and the like.
  • Uniform random numbers can be generated by a linear congruential method or the like.
  • uniform random numbers generated by the linear congruential method are uniformly distributed in the range of 0 to (2 ⁇ M) -1.
  • M is an arbitrary integer
  • represents a power.
  • the phase rotation amount ⁇ needs to be distributed in the range of 0 to 2 ⁇ . Therefore, the generated uniform random number is converted. The conversion is performed by the following equation (8).
  • R is a uniform random number
  • Rmax (2 ⁇ M) ⁇ 1.
  • the value of R can be directly used as the rotation amount. Since it is the amount of rotation, 2 ⁇ represents exactly one rotation.
  • the rotation amount of 2 ⁇ + ⁇ is the same as that when the rotation amount is ⁇ .
  • the rotation amount ⁇ may be obtained by Expression (8).
  • the phase rotation unit 501 receives the rotation amount from the rotation amount generation unit 502 and rotates the deterioration signal phase spectrum. If the degradation signal phase spectrum is expressed by an angle, it can be rotated by adding the value of the rotation amount ⁇ to the angle. When the deteriorated signal phase spectrum is expressed by a complex normal vector, it can be rotated by obtaining a normal vector of the rotation amount ⁇ and multiplying the deteriorated signal phase spectrum.
  • a normal vector of the rotation amount ⁇ is obtained by Expression (9).
  • is a rotation vector
  • j indicates sqrt ( ⁇ 1).
  • sqrt represents the square root.
  • a correction coefficient calculation method by the correction amount calculation unit 503 will be described. First, it will be described with reference to FIGS. 6 and 7 that the output level is lowered due to the rotation of the phase. 6 and 7 show signals when the deteriorated signal is processed by the block diagram shown in FIG. The difference between FIG. 6 and FIG. 7 is the presence or absence of phase rotation. FIG. 6 shows a signal when phase rotation is not performed, and FIG. 7 shows a signal when phase rotation is performed from the frame 3.
  • a signal when the phase is not rotated will be described with reference to FIG. Depicted at the top of FIG. 6 is a degraded signal.
  • the deteriorated signal is divided into frames by the frame dividing unit 301.
  • the second signal from the top divided by the dotted line is a signal after frame division.
  • signals for four consecutive frames are shown.
  • the overlap rate of frames is 50%.
  • the signal divided into frames is windowed by the windowing processing unit 302.
  • the third signal from the top divided by the dotted line is the signal after the windowing process.
  • weighting by a rectangular window is performed in order to clearly show the influence of phase rotation.
  • the signal is converted into a frequency domain signal by the Fourier transform unit 303, but the signal in the frequency domain is omitted in FIG.
  • the signal converted into the time domain by the inverse Fourier transform unit 401 of the inverse transform unit 204 is illustrated.
  • the fourth signal from the top divided by the dotted line is the signal after phase rotation.
  • phase rotation is not performed in FIG. 6, there is no change from the signal after the windowing process.
  • the enhancement signal output from the inverse Fourier transform unit 401 of the inverse transform unit 204 is subjected to the windowing process again.
  • FIG. 6 shows a case where weighting by a rectangular window is performed.
  • the signal subjected to the windowing process is synthesized by the frame synthesis unit 403. At this time, it is necessary to align the time between frames. Since the overlap rate of frames is 50%, the frames overlap by exactly half. When phase rotation is not performed, the input signal and the output signal match as shown in FIG.
  • FIG. 7 shows a signal when the phase rotation is performed from the frame 3. Depicted at the top is the same degraded signal as in FIG. Signals after frame division and windowing processing are the same as in FIG.
  • FIG. 7 illustrates a case where a constant phase rotation is performed from the frame 3. Pay attention to the right-triangulated section shown below the dotted line in the phase rotation process. Due to the phase rotation process, the signals of frames 3 and 4 are shifted in the time direction. The signal subjected to phase rotation is subjected to windowing processing again, and frame synthesis is performed. At this time, a difference occurs in the signals of the frames 2 and 3 in the section ii where the frames 2 and 3 overlap. As a result, the output signal level after frame synthesis decreases in the interval ii. That is, when phase rotation is performed, the output signal level decreases in the section ii in FIG.
  • the decrease in the output signal level due to this phase rotation can be explained by frequency domain vector synthesis by replacing the time domain addition with the frequency domain addition.
  • FIG. 8 shows the deteriorated signals of two consecutive frames after the frame division and windowing process as x1 [n] and x2 [m].
  • the overlap rate is 50%.
  • n represents the discrete time of x1
  • m represents the discrete time of x2.
  • the overlap rate is 50%, the following equation (10) is established.
  • the relationship between x1 and x2 is as shown in the following equation (11).
  • equations for conversion from time domain signals to frequency domain signals and inverse transformation are shown.
  • the frequency domain signal X [k] is expressed by the following equation (12) by Fourier transform of the time domain signal x [n].
  • k represents a discrete frequency
  • L is a frame length.
  • the frequency domain signal X [k] is returned to the time domain signal x [n] by inverse transformation, it is expressed as the following Expression (13).
  • the time domain signals x1 [n] and x2 [m] are converted into frequency domain signals X1 [k] and X2 [k]
  • they are expressed as the following equations (14) and (15). Is done.
  • the frequency domain signals X1 [k] and X2 [k] are returned to the time domain signals x1 [n] and x2 [m] by inverse transformation, respectively, the following formulas (16) and (17) are obtained from the formula (13). ).
  • the inverse transform unit transforms the frequency domain signal into a time domain signal by Fourier transform.
  • Equation (18) is obtained. Furthermore, when Expressions (14) and (15) are substituted into the frequency domain signals X1 [k] and X2 [k] in Expression (18), the following Expression (19) is obtained. Furthermore, when the expression (19) is expanded, it is expressed as the following expression (20). Here, a summation operation included in each term of Expression (20) is considered. An arbitrary integer g is introduced, and the following formula (21) is established. The inverse Fourier transform formula of the delta function ⁇ [g] is expressed by formula (22). Here, the delta function ⁇ [g] is expressed by the following equation (23). From Expression (22), Expression (21) can be transformed into the following Expression (24).
  • the correction amount calculation unit 503 determines the amplitude correction amount of the emphasized signal amplitude spectrum so as to correct the decrease amount of the output signal level.
  • phase rotation amount is determined by a uniform random number
  • a method of calculating the correction amount will be specifically described.
  • each frequency component is normalized to a unit vector by paying attention to the magnitude variation due to phase rotation.
  • ⁇ 2 is expressed by the following equation (37).
  • ⁇ 2) when the phase is not rotated is expressed by the following equation (38) from the equation (33).
  • the ratio of Expression (37) and Expression (38) is taken, the following Expression (39) is established. That is, when the phase is rotated with a uniform random number, the power average value of the output signal is reduced by half compared to the input. Since the amplitude correction unit 504 corrects the amplitude value, the correction amount calculation unit 503 sets the correction coefficient to sqrt (2) and transmits it to the amplitude correction unit 504.
  • the occurrence probability of ⁇ is determined by a normal distribution. Therefore, in order to obtain the expected power value when phase rotation is performed using normal random numbers, it is necessary to perform weighting based on the occurrence probability of ⁇ .
  • a weight function f ( ⁇ ) based on the occurrence probability of ⁇ is introduced.
  • the cos ( ⁇ ) is weighted by the weight function f ( ⁇ ).
  • the expected power value can be obtained by normalizing with the integral value of the weighting function f ( ⁇ ).
  • the expected output power E (S " ⁇ 2) when phase rotation is performed with normal random numbers is the weighted function f ( ⁇ ) and its integral value in equation (35), which is the expected output power of uniform random numbers. It can be expressed as the following formula (40). Since the weight function f ( ⁇ ) can be expressed by a normal distribution, the following equation (41) is established. Here, ⁇ represents the variance and ⁇ represents the average.
  • the correction amount calculation unit 503 transmits the correction coefficient to the amplitude correction unit 504 as sqrt (1 / 0.805) when rotating the phase with a normal random number of the standard normal distribution. Amplitude correction is performed on the frequency at which phase rotation has been performed. Therefore, the correction coefficient for the frequency at which phase rotation is not performed is 1.0. Only the correction coefficient of the frequency subjected to phase rotation is the value derived above.
  • the amplitude control unit 203 calculates the amplitude correction coefficient using the phase rotation amount transmitted from the phase control unit 202, multiplies the enhancement signal amplitude spectrum supplied from the noise suppression unit 205, and the inverse conversion unit 204. To supply. As a result, the degradation of the output signal when the deteriorated signal phase spectrum is rotated to obtain the enhanced signal phase spectrum can be eliminated.
  • FIG. 12 is a diagram for describing the internal configurations of the linearity calculation unit 208 and the sudden change determination unit 209.
  • the linearity calculation unit 208 includes a change amount calculation unit 1201 that calculates a phase change amount in the frequency direction and a flatness calculation unit 1202 that calculates a flatness of the phase change amount.
  • the change amount calculation unit 1201 calculates the change amount using the phase difference between adjacent frequencies
  • the linearity may be determined by differentiation based on the phase frequency. The smaller the variation of the plurality of differential results at the plurality of frequencies, the higher the linearity. Local linearity can be evaluated using local differential results. Flatness (Measure) can be used as an index of variation.
  • the sudden change determination unit 209 determines that the frequency corresponding to the flatness includes an impact sound when the calculated absolute value of the flatness is equal to or less than a certain value. Further, the number of frequencies determined to include the impact sound is compared with a predetermined threshold value, and the presence of impact sound (1) or no impact sound (0) is output as the determination result 1230 of the current frame.
  • FIG. 13 is a graph showing the phase and the amount of change.
  • the amount of phase change changes as shown in the graph 1302 along the frequency axis in the frequency domain. This change leads to a flat frequency 1303 to determine the phase linearity.
  • FIG. 14 is a diagram illustrating a hardware configuration when the noise suppression apparatus 200 according to the present embodiment is realized using software.
  • the noise suppression apparatus 200 includes a processor 1410, a ROM (Read Only Memory) 1420, a RAM (Random Access Memory) 1440, a storage 1450, an input / output interface 1460, an operation unit 1461, an input unit 1462, and an output unit 1463.
  • the noise suppression apparatus 200 may include a camera 1464.
  • the processor 1410 is a central processing unit, and controls the entire noise suppression apparatus 200 by executing various programs.
  • the ROM 1420 stores various parameters in addition to the boot program that the processor 1410 should execute first.
  • the RAM 1440 stores an input signal 210, a phase component signal 220, an amplitude component signal 230, an enhancement signal 260, a phase change amount 1210, a flatness 1220, a sudden change determination result 1230, and the like in addition to a program load region (not shown).
  • the storage 1450 stores a noise suppression program 1451.
  • the noise suppression program 1451 includes a conversion module, a phase control module, an amplitude control module, an inverse conversion module, a noise suppression module, a linearity calculation module, and a sudden change determination module.
  • the storage 1450 may store a noise database.
  • the emphasized speech that is the output of the noise suppression program 1451 executed by the processor 1410 is output from the output unit 1463 via the input / output interface 1460.
  • the operation sound of the operation unit 1461 input from the input unit 1462 can be suppressed.
  • an application method such as detecting that an impact sound is included in the input signal input from the input unit 1462 and starting shooting with the camera 1464 is also possible.
  • FIG. 15 is a flowchart for explaining the flow of processing by the noise suppression program 1451.
  • step S1501 when a signal is input from the input unit 1462, the process proceeds to step S1503.
  • step S1503 the conversion unit 201 converts the input signal into the frequency domain and divides it into amplitude and phase.
  • step S1505 the discrete frequency k is set to 1 and the count value I is set to 0, and processing in the frequency space is started sequentially.
  • step S1507 the phase change at the set frequency is calculated.
  • step S1509 a change in phase change is calculated. The linearity of the phase is determined depending on whether or not the change in phase change is within a certain range.
  • step S1513 if the change in phase does not exceed the predetermined threshold N, it is determined that the phase changes flatly, it is determined that the linearity is high, and I is incremented in step S1513.
  • the change in phase change is equal to or greater than the predetermined threshold N, it is determined that the phase change is not flat, the linearity is determined to be low, and the process proceeds to step S1515 without incrementing I.
  • step S1517 I (frequency with high linearity) is compared with a predetermined threshold value M.
  • the impact sound can be detected more accurately, and the impact sound can be appropriately removed as appropriate.
  • the present invention may be applied to a system composed of a plurality of devices, or may be applied to a single device. Furthermore, the present invention is also applicable to a case where a signal processing program that realizes the functions of the embodiments is supplied directly or remotely to a system or apparatus. Therefore, in order to realize the functions of the present invention on a computer, a program installed on the computer, a medium storing the program, and a WWW (World Wide Web) server that downloads the program are also included in the scope of the present invention. .
  • (Appendix 1) Conversion means for converting the input signal into a phase component signal and an amplitude component signal in the frequency domain;
  • Linearity calculating means for calculating linearity of the phase component signal in the frequency domain;
  • Determining means for determining the presence of a sudden change in the input signal based on the linearity calculated by the linearity calculating means;
  • a signal processing apparatus comprising: (Appendix 2) The signal processing apparatus according to appendix 1, wherein the linearity calculating unit calculates the linearity according to whether or not a change in the phase component signal in a frequency domain is within a certain range.
  • the linearity calculating means calculates the flatness of the differential value of the phase component signal in the frequency domain, The signal processing apparatus according to appendix 1 or 2, wherein the determination unit determines that a sudden change in the input signal exists if the flatness of the differential value is high.
  • the linearity calculating means includes: For each frequency, calculate the phase component difference as the difference between the phase component and the phase component at the adjacent frequency, The signal processing apparatus according to appendix 1, 2, or 3, wherein the linearity is calculated based on the difference between the phase component differences.
  • the linearity calculating means includes: Comparing the difference of the phase component difference with a first threshold value for each frequency; Count the number of frequency components determined to be below the threshold for each frame, and calculate the count value as the linearity,
  • the determination means includes The signal processing device according to attachment 4, wherein if the count value is equal to or greater than a second threshold value, it is determined that there is a sudden change in the input signal.
  • (Appendix 6) Convert the input signal into a phase component signal and an amplitude component signal in the frequency domain, Calculate the linearity of the phase component signal in the frequency domain, Determining the presence of a sudden change in the input signal based on the calculated linearity; A signal processing method including each step.
  • the linearity is As a result of comparing the difference of the phase component difference with the first threshold value for each frequency, the number of frequency components determined to be equal to or less than the first threshold value is calculated as a count value for each frame,
  • the sudden change of the input signal is The signal processing method according to appendix 9, wherein if the count value is greater than or equal to a second threshold value, it is determined that the count value exists.
  • (Appendix 11) Convert the input signal into a phase component signal and an amplitude component signal in the frequency domain, Calculate the linearity of the phase component signal in the frequency domain, Determining the presence of a sudden change in the input signal based on the calculated linearity;
  • a signal processing program for causing a computer to execute each step.

Abstract

周波数領域における位相成分信号が、どの程度、直線的に変化しているかに応じて、入力信号の急変を精度良く検出するため、入力信号を処理する信号処理装置であって、入力信号を、周波数領域における位相成分信号および振幅成分信号に変換する変換手段と、周波数領域における前記位相成分信号の直線性を計算する直線性計算手段と、前記直線性計算手段によって計算された前記直線性に基づいて前記入力信号の急変の存在を判定する判定手段と、を備えた。

Description

信号処理装置、信号処理方法および信号処理プログラム
 本発明は、信号の変化を検出する技術に関する。
 上記技術分野において、特許文献1には、位相成分の時間方向の連続性を評価し、周波数毎の振幅成分を平滑化する技術が開示されている(段落0135~0138)。特許文献2には、位相の時間方向変動量を計測することで、周波数急変を検出する記載がある。特許文献3には、段落0024に、「パルス性ノイズが重畳されたことに伴った複素平面上におけるI、Q信号の複素ベクトルの位相変化を常時監視することによって、強電界環境下でのパルス性ノイズを確実に検出する」と記載されている。この位相変化は、時間方向の変化である。また、特許文献4の段落0031には、「位相直線化部25は、直線化により、極座標変換部24から入力された位相信号θのとびを直して、その結果の位相信号θ'を位相検出部26へ出力する」と記載がある。また、特許文献4の段落0051には、位相傾検出手段について記載があり、段落0040には、「図5には、位相検出部26の入出力信号(入力信号である位相θ'、出力信号である位相傾dθ')の一例を示してある」と記載されている。特許文献5には、振幅を用いた衝撃音の検出技術が開示されている。
特開2010-237703号公報 特開2011-254122号公報 特開2007-251908号公報 特開2011-199808号公報 WO2008/111462
M. Kato, A. Sugiyama, and M. Serizawa, "Noise suppression with high speech quality based on weighted noise estimation and MMSE STSA," IEICE Trans. Fundamentals (Japanese Edition), vol.J87-A, no.7, pp.851-860, July 2004. R. Martin, "Spectral subtraction based on minimum statistics," EUSPICO-94, pp.1182-1185, Sept. 1994 J. L. Flanagan et al., "Speech Coding," IEEE Transactions on Communications, Vol. 27, no. 4, April 1979. 「ディジタル記録媒体のための動画信号および付随する音響信号の1.5 Mbit/s符号化-第3部 音響」、日本工業規格 JIS X 4323、99ページ、1996年11月。
 しかしながら、上述の先行技術文献に記載の技術の中で、特許文献1および4は、入力信号の急変を検出する技術ではない。また、特許文献2は、「周波数」の急変を検出しようとするものであり、特許文献3は、AM信号の位相の時間変化を用いてパルス性ノイズを検出しようとするものである。特許文献5は、振幅のみを用いた衝撃音の検出技術であり、ロバスト性に不足があった。すなわち、これらの文献に記載の技術では、信号の急変を効果的に検出できなかった。
 本発明の目的は、上述の課題を解決する技術を提供することにある。
 上記目的を達成するため、本発明に係る信号処理装置は、
 入力信号を、周波数領域における位相成分信号および振幅成分信号に変換する変換手段と、
 周波数領域における前記位相成分信号の直線性を計算する直線性計算手段と、
 前記直線性計算手段によって計算された前記直線性に基づいて前記入力信号の急変の存在を判定する判定手段と、
 を備える。
 上記目的を達成するため、本発明に係る信号処理方法は、
 入力信号を、周波数領域における位相成分信号および振幅成分信号に変換し、
 周波数領域における前記位相成分信号の直線性を計算し、
 計算された前記直線性に基づいて前記入力信号の急変の存在を判定する、
 各ステップを含む。
 上記目的を達成するため、本発明に係る信号処理プログラムは、
 入力信号を、周波数領域における位相成分信号および振幅成分信号に変換し、
 周波数領域における前記位相成分信号の直線性を計算し、
 計算された前記直線性に基づいて前記入力信号の急変の存在を判定する、
 各ステップをコンピュータに実行させる。
 本発明によれば、信号の急変を効果的に検出できる。
本発明の第1実施形態に係る信号処理装置の構成を示すブロック図である。 本発明の第2実施形態に係る雑音抑圧装置の構成を示すブロック図である。 本発明の第2実施形態に係る変換部の構成を示すブロック図である。 本発明の第2実施形態に係る逆変換部の構成を示すブロック図である。 本発明の第2実施形態に係る位相制御部および振幅制御部の構成を示すブロック図である。 本発明の第2実施形態に係る位相制御部の動作を説明する図である。 本発明の第2実施形態に係る位相制御部の動作を説明する図である。 本発明の第2実施形態に係る位相制御部の動作を説明する図である。 本発明の第2実施形態に係る位相制御部の動作を説明する図である。 本発明の第2実施形態に係る位相制御部の動作を説明する図である。 本発明の第2実施形態に係る位相制御部の動作を説明する図である。 本発明の第2実施形態に係る直線性計算部および急変判定部の構成を説明する図である。 本発明の第2実施形態に係る直線性計算部の処理を説明する図である。 本発明の第2実施形態に係る雑音抑圧装置のハードウェア構成を示すブロック図である。 本発明の第2実施形態に係る雑音抑圧装置の処理の流れを説明するフローチャートである。
 以下に、図面を参照して、本発明の実施の形態について例示的に詳しく説明する。ただし、以下の実施の形態に記載されている構成要素はあくまで例示であり、本発明の技術範囲をそれらのみに限定する趣旨のものではない。なお、以下の説明中における「音声信号」とは、音声その他の音響に従って生ずる直接的の電気的変化であって、音声その他の音響を伝送するためのものをいい、音声に限定されない。
 [第1実施形態]
 本発明の第1実施形態としての信号処理装置100について、図1を用いて説明する。信号処理装置100は、入力信号急変を検出するための装置である。
 図1に示すように、信号処理装置100は、変換部101と直線性計算部102と信号急変判定部104とを含む。変換部101は、入力信号110を、周波数領域における位相成分信号120および振幅成分信号130に変換する。直線性計算部102は、位相成分信号120の直線性140を計算する。また、信号急変判定部104は、直線性計算部102によって計算された直線性140に基づいて入力信号の急変の存在を判定する。
 以上の構成により、周波数領域における位相成分信号がどの程度直線的に変化しているかに応じて、入力信号の急変を精度良く検出することができる。
 [第2実施形態]
 《全体構成》
 本発明の第2実施形態としての雑音抑圧装置について図2乃至図11を用いて説明する。本実施形態の雑音抑圧装置は、例えばデジタルカメラ、ノートパソコン、携帯電話、キーボード、ゲーム機のコントローラ、携帯電話の押しボタンなどの雑音抑圧に適用できる。すなわち、音声、音楽、環境音などの目的とする信号を、これらに重畳された信号(ノイズまたは妨害信号)に対して強調することができる。ただし、本発明はこれに限定されるものではなく、入力信号からの信号急変判定を要求されるあらゆる信号処理装置に適用可能である。なお、本実施形態では、信号の急変の一例として、衝撃音を検出して抑圧する雑音抑圧装置について説明する。本実施形態としての雑音抑圧装置は、例えば、マイクの近くでボタン押下などの操作がなされるような形態において、かかるボタン操作により発生する衝撃音を適切に除去する。簡単に説明すると、衝撃音を含む信号を周波数領域信号に変換し、周波数空間に対する位相成分の直線性を計算する。そして、直線性が高い(傾きが一定となる)周波数が多いときに、衝撃音検出と判定する。
 図2は、雑音抑圧装置200の全体構成を示すブロック図である。入力端子206には、劣化信号(所望信号と雑音の混在する信号)が、サンプル値系列として供給される。入力端子206に供給された劣化信号は、変換部201においてフーリエ変換などの変換を施されて複数の周波数成分に分割される。複数の周波数成分は周波数ごとに独立して処理される。ここでは、特定の周波数成分に注目して説明を続ける。周波数成分のうち振幅スペクトル(振幅成分)230は雑音抑圧部205へ供給され、位相スペクトル(位相成分)220は位相制御部202および直線性計算部208に供給される。なお、ここでは変換部201が雑音抑圧部205に劣化信号振幅スペクトル230を供給しているが、本発明はこれに限定されるものではなく、その二乗に相当するパワースペクトルを雑音抑圧部205に供給してもよい。
 雑音抑圧部205は、変換部201から供給される劣化信号振幅スペクトル230を用いて、雑音を推定し、推定雑音スペクトルを生成する。また、雑音抑圧部205は、変換部201から供給された劣化信号振幅スペクトル230と、生成した推定雑音スペクトルとを用いて雑音を抑圧し、雑音抑圧結果としての強調信号振幅スペクトルを振幅制御部203に伝達する。さらに雑音抑圧部205は、急変判定部209から判定結果を入力し、信号の急変の有無に応じて、雑音抑圧を実行する。
 位相制御部202は、変換部201から供給された劣化信号位相スペクトル220を回転(シフト)させ、強調信号位相スペクトル240として逆変換部204へ供給する。また、位相の回転量(シフト量)を、振幅制御部203へ伝達する。振幅制御部203は、位相制御部202から位相の回転量(シフト量)を受け取って振幅補正量を算出し、その振幅補正量を用いて、強調信号振幅スペクトルを各周波数で補正し、補正振幅スペクトル250を逆変換部204へ供給する。逆変換部204は、位相制御部202から供給された強調信号位相スペクトル240と、振幅制御部203から供給された補正振幅スペクトルとを合成して逆変換を行い、強調信号として、出力端子207に供給する。
 直線性計算部208は、変換部201から供給された位相スペクトル220を用いて、その周波数領域での直線性を計算する。急変判定部209は、直線性計算部208が計算した直線性に基づいて、信号急変の有無を判定する。
 《変換部の構成》
 図3は、変換部201の構成を示すブロック図である。図3に示すように、変換部201はフレーム分割部301、窓がけ処理部(windowing unit)302、およびフーリエ変換部303を含む。劣化信号サンプルは、フレーム分割部301に供給され、K/2サンプル毎のフレームに分割される。ここで、Kは偶数とする。フレームに分割された劣化信号サンプルは、窓がけ処理部302に供給され、窓関数(window function)であるw(t)との乗算が行なわれる。第nフレームの入力信号yn(t) (t=0, 1, ..., K/2-1) に対するw(t)で窓がけ(windowing)された信号は、次式(1)で与えられる。
Figure JPOXMLDOC01-appb-M000001

 また、連続する2フレームの一部を重ね合わせ(オーバラップ)して窓がけしてもよい。オーバラップ長としてフレーム長の50%を仮定すれば、t=0, 1, ..., K/2-1 に対して、以下の式(2)で得られる左辺が、窓がけ処理部302の出力となる。
Figure JPOXMLDOC01-appb-M000002

 実数信号に対しては、左右対称窓関数が用いられる。また、窓関数は、変換部201の出力を逆変換部204に直接供給したときの入力信号と出力信号が計算誤差を除いて一致するように設計される。これは、w(t)+w(t+K/2)=1 となることを意味する。
 以後、連続する2フレームの50%をオーバラップして窓がけする場合を例として説明を続ける。w(t)としては、例えば、次式(3)に示すハニング窓を用いることができる。
Figure JPOXMLDOC01-appb-M000003

 このほかにも、ハミング窓、三角窓など、様々な窓関数が知られている。窓がけされた出力はフーリエ変換部303に供給され、劣化信号スペクトルYn(k)に変換される。劣化信号スペクトルYn(k)は位相と振幅に分離され、劣化信号位相スペクトル arg Yn(k)は、位相制御部202と直線性計算部208に、劣化信号振幅スペクトル|Yn(k)|は、雑音抑圧部205に供給される。既に説明したように、振幅スペクトルの代わりにパワースペクトルを利用することもできる。
 《逆変換部の構成》
 図4は、逆変換部204の構成を示すブロック図である。図4に示すように、逆変換部204は逆フーリエ変換部401、窓がけ処理部402およびフレーム合成部403を含む。逆フーリエ変換部401は、振幅制御部203から供給された強調信号振幅スペクトル250と位相制御部202から供給された強調信号位相スペクトル240 arg Xn(k)とを乗算して、強調信号(以下の式(4)の左辺)を求める。
Figure JPOXMLDOC01-appb-M000004

 得られた強調信号に逆フーリエ変換を施し、1フレームがKサンプルを含む時間領域サンプル値系列xn(t) (t=0, 1, ..., K-1)として、窓がけ処理部402に供給され、窓関数w(t)との乗算が行なわれる。第nフレームの入力信号xn(t) (t=0, 1, ..., K/2-1)に対してw(t)で窓がけされた信号は、次式(5)の左辺で与えられる。
Figure JPOXMLDOC01-appb-M000005

 また、連続する2フレームの一部を重ね合わせ(オーバラップ)して窓がけしてもよい。フレーム長の50%をオーバラップ長として仮定すれば、t=0, 1, ..., K/2-1 に対して、以下の式の左辺が、窓がけ処理部402の出力となり、フレーム合成部403に伝達される。
Figure JPOXMLDOC01-appb-M000006

 フレーム合成部403は、窓がけ処理部402からの隣接する2フレームの出力を、K/2サンプルずつ取り出して重ね合わせ、以下の式(7)によって、t=0, 1, ..., K-1における出力信号(式(7)の左辺)を得る。得られた強調信号260は、フレーム合成部403から出力端子207に伝達される。
Figure JPOXMLDOC01-appb-M000007

 なお、図3と図4において変換部と逆変換部における変換をフーリエ変換として説明したが、フーリエ変換に代えて、アダマール変換、ハール変換、ウェーブレット変換など、他の変換を用いることもできる。ハール変換は、乗算が不要となり、LSI化したときの面積を小さくすることができる。ウェーブレット変換は、周波数によって時間解像度を異なったものに変更できるために、雑音抑圧効果の向上が期待できる。
 また、変換部201において得られる周波数成分を複数統合してから、雑音抑圧部205で実際の抑圧を行うこともできる。その際、聴覚特性の弁別能力が高い低周波領域から、能力が低い高周波領域に向かって、よりたくさんの周波数成分を統合することによって、高い音質を達成することができる。このように、複数の周波数成分を統合してから雑音抑圧を実行すると、雑音抑圧を適用する周波数成分の数が少なくなり、全体の演算量を削減することができる。
 《雑音抑圧部の構成》
 雑音抑圧部205は、変換部201から供給される劣化信号振幅スペクトルを用いて雑音を推定し、推定雑音スペクトルを生成する。そして、変換部201からの劣化信号振幅スペクトルと生成した推定雑音スペクトルとを用いて抑圧係数を求め、劣化信号振幅スペクトルに乗じ、強調信号振幅スペクトルとして、振幅制御部203へ供給する。また、急変判定部209から急変判定結果(信号の急変が存在するか否かの情報)を受けて、急変と判定されたときには、劣化信号振幅スペクトルと推定雑音スペクトルのうち小さい方を、強調信号振幅スペクトルとして、振幅制御部203へ供給する。
 雑音の推定には、非特許文献2に示されるように、様々な推定方法が利用できる。
 例えば、非特許文献1には、推定雑音スペクトルを、目的音が発生していないフレームの劣化信号振幅スペクトルの平均値とする方法が開示されている。この方法では目的音の発生を検出する必要がある。目的音の発生している区間は、強調信号のパワーで判断することができる。
 理想的な動作状態として、強調信号は雑音以外の目的音となっている。また、目的音や雑音のレベルは、隣接フレーム間で大きく変化しない。これらのことから、1フレーム過去の強調信号レベルを雑音区間判定の指標とする。1フレーム過去の強調信号パワーが一定値以下の時には、現フレームを雑音区間と判定する。雑音スペクトルは、雑音区間と判定されたフレームの劣化信号振幅スペクトルを平均化することで推定できる。
 また、非特許文献1には、推定雑音スペクトルを、劣化信号振幅スペクトルが供給され始めた推定初期の平均値とする方法も開示されている。この場合、推定が開始された直後には目的音が含まれないという条件を満たす必要がある。条件が満たされる場合、推定初期の劣化信号振幅スペクトルを推定雑音スペクトルとすることができる。
 さらに、非特許文献2には、推定雑音スペクトルを、統計的な劣化信号振幅スペクトルの最小値から求める方法が開示されている。この方法では、統計的に一定時間における劣化信号振幅スペクトルの最小値を保持し、その最小値から雑音スペクトルを推定する。劣化信号振幅スペクトルの最小値は、雑音スペクトルのスペクトル形状と似ているため、雑音スペクトル形状の推定値として用いることができる。しかし、最小値では、本来の雑音レベルより小さくなる。そのため、最小値を適切に増幅させたものを推定雑音スペクトルとして用いる。
 雑音抑圧部205においては、様々な抑圧を行うことが可能であるが、代表的なものとして、SS(Spectrum Subtraction:スペクトル減算)法とMMSE STSA(Minimum Mean-Square Error Short-Time Spectral Amplitude Estimator:最小二乗平均誤差短時間振幅スペクトル推定)法とが挙げられる。SS法の場合は、変換部201から供給された劣化信号振幅スペクトルから推定雑音スペクトルを減算する。MMSE STSA法の場合は、変換部201から供給された劣化信号振幅スペクトルと生成した推定雑音スペクトルとを用いて、抑圧係数を計算し、この抑圧係数を劣化信号振幅スペクトルに乗算する。この抑圧係数は、強調信号の平均二乗パワーを最小化するように決定される。
 《位相制御部および振幅制御部の構成》
 図5は位相制御部202および振幅制御部203の構成を示すブロック図である。図5に示すように、位相制御部202は位相回転部501と回転量生成部502とを含み、振幅制御部203は、補正量算出部503と振幅補正部504とを含む。
 回転量生成部502は、急変判定部209から「信号の急変が存在する」と判定された周波数成分について、劣化信号位相スペクトルの回転量を生成し、位相回転部501と補正量算出部503に供給する。位相回転部501では、回転量生成部502から回転量が供給されると、変換部201から供給された劣化信号位相スペクトル220を、供給された回転量だけ回転(シフト)させ、強調信号位相スペクトル240として逆変換部204へ供給する。
 補正量算出部503では、回転量生成部502から供給される回転量に基づいて、振幅の補正係数を決定し、振幅補正部504に供給する。
 回転量生成部502は、例えば乱数によって回転量を生成する。乱数により、劣化信号位相スペクトルを各周波数で回転させると、劣化信号位相スペクトル220の形状が変化する。この形状の変化により、衝撃音などの雑音の特徴を弱めることができる。
 乱数には、その発生確率が一様な一様乱数や、発生確率が正規分布を示す正規乱数などがあるが、まず、一様乱数による回転量の生成法を説明する。一様乱数は線形合同法などで発生させることができる。例えば、線形合同法で発生させた一様乱数は、0~(2^M)-1の範囲に一様に分布する。ここで、Mは任意の整数であり、^はべき乗を表している。位相の回転量φは、0~2πの範囲に分布させる必要がある。そこで、発生させた一様乱数を変換する。変換は、以下の式(8)で行う。ここで、Rは一様乱数であり、Rmaxはその一様乱数が発生しうる最大の値である。前述した線形合同法で発生させる場合には、Rmax=(2^M)-1となる。
Figure JPOXMLDOC01-appb-M000008

 計算の簡単化のために、Rの値をそのまま回転量とすることもできる。回転量であるので2πはちょうど一回転を表す。位相を2π回転させた場合は回転させていない場合と同一である。よって、2π+αという回転量は、回転量がαの場合と同じになる。ここでは、線形合同法により一様乱数を発生させた場合を説明したが、それ以外の方法で一様乱数を発生させた場合でも、式(8)により回転量φを求めればよい。急変判定部209の判定結果に応じて、いつどのくらい乱数化を行なうのかを決定してもよい。
 位相回転部501は、回転量生成部502から回転量を受け取り、劣化信号位相スペクトルを回転させる。もし、劣化信号位相スペクトルが角度で表現されている場合には、その角度に回転量φの値を加算することで回転させることができる。劣化信号位相スペクトルが複素数の正規ベクトルで表現されている場合には、回転量φの正規ベクトルを求め、劣化信号位相スペクトルに乗算することで回転させることができる。
 回転量φの正規ベクトルは、式(9)で求められる。ここで、Φは回転ベクトルであり、jはsqrt(-1)を示す。なお、sqrtは二乗根を表している。
Figure JPOXMLDOC01-appb-M000009

 補正量算出部503による、補正係数算出方法について説明する。まず、位相の回転により出力レベルの低下が生じることを、図6および図7を用いて説明する。図6および図7は、劣化信号が図2に示すブロック図で処理された場合の信号を示している。図6と図7の違いは位相回転の有無である。図6は位相回転を行わない場合の信号を、図7は位相回転をフレーム3から行った場合の信号を示している。
 まず、位相を回転しない場合の信号について図6を用いて説明する。図6の最上部に描かれているのは、劣化信号である。劣化信号はフレーム分割部301においてフレーム分割される。点線で区切られた、上から2番目の信号が、フレーム分割後の信号である。ここでは、連続した4フレーム分の信号を図示した。また、フレームのオーバラップ率は50%としている。
 フレームに分割された信号は窓がけ処理部302によって窓がけが行われる。点線で区切られた、上から3番目の信号が窓がけ処理後の信号である。図6では位相回転による影響を明確に示すため、矩形窓による重み付けをしている。
 次に、フーリエ変換部303によって、周波数領域の信号に変換されるが、図6では周波数領域での信号は省略した。位相回転の点線より下部は、逆変換部204の逆フーリエ変換部401により、時間領域へ変換された信号を図示している。点線で区切られた、上から4番目の信号が位相回転後の信号である。ただし、図6では位相回転を行っていないため、窓掛け処理後の信号から変化していない。
 逆変換部204の逆フーリエ変換部401から出力された強調信号は、窓掛け処理を再度実施される。図6では、矩形窓による重み付けを実施した場合を示している。窓掛け処理された信号は、フレーム合成部403において、合成される。この時、フレーム間の時間を揃える必要がある。フレームのオーバラップ率が50%であるので、ちょうど半分ずつフレームが重なる。位相の回転を実施していない場合、図6のように入力信号と出力信号は一致する。
 一方、位相を回転する場合の信号について図7を用いて説明する。図7に示したのは位相回転をフレーム3から実施した場合の信号である。最上部に描かれているのは、図6と同じ劣化信号である。フレーム分割後および窓掛け処理後の信号も図6と同様である。
 図7では、フレーム3から一定の位相回転を実施した場合を描いている。位相回転処理の点線下部に示した右向き三角形の区間に注目する。位相回転処理により、フレーム3および4の信号が時間方向にシフトしている。位相回転を施した信号を再度窓掛け処理し、フレーム合成する。このとき、フレーム2とフレーム3が重なるiiの区間で、フレーム2とフレーム3の信号に違いが生じる。これにより、フレーム合成後の出力信号レベルがiiの区間において小さくなる。つまり、位相の回転を実施する場合、図7のiiの区間で出力信号レベルが低下する。
 この位相回転による出力信号レベルの低下は、時間領域における加算を周波数領域の加算に置き換え、周波数領域のベクトル合成でも説明できる。
 図8に、フレーム分割および窓掛け処理後の連続した2フレームの劣化信号を、x1[n]およびx2[m]として示す。なお、オーバラップ率は50%としている。ここで、nはx1の離散時間を、mはx2の離散時間を表しており、オーバラップ率が50%の場合には、以下の式(10)が成立する。
Figure JPOXMLDOC01-appb-M000010

 また、x1とx2の関係は、以下の式(11)のようになる。
Figure JPOXMLDOC01-appb-M000011

 まず、時間領域信号から周波数領域信号への変換および逆変換の式を示す。周波数領域信号X[k]は、時間領域信号x[n]のフーリエ変換によって、以下の式(12)のように表現される。ここで、kは離散周波数を表し、Lはフレーム長である。
Figure JPOXMLDOC01-appb-M000012

 また、周波数領域信号X[k]を逆変換により、時間領域信号x[n]に戻すと、以下の式(13)のように表現される。
Figure JPOXMLDOC01-appb-M000013

 これに基づいて、時間領域信号x1[n],x2[m]を、周波数領域信号X1[k],X2[k] に変換すると、以下の式(14)、式(15)のように表現される。
Figure JPOXMLDOC01-appb-M000014

Figure JPOXMLDOC01-appb-M000015

 周波数領域信号X1[k],X2[k]を、逆変換によってそれぞれ時間領域信号x1[n],x2[m]に戻すと、式(13)より、以下の式(16)、式(17)のように表現される。
Figure JPOXMLDOC01-appb-M000016

Figure JPOXMLDOC01-appb-M000017

 逆変換部は、フーリエ変換により周波数領域信号を時間領域信号に変換する。その後、フレーム合成部により、前フレームと現フレームの強調音声をオーバラップ加算する。例えば、図示した例のオーバラップ率50%では、離散時間m=L/2~L-1の区間で隣接フレームの加算が行われる。この加算区間m=L/2~L-1を考える。
 時間領域の加算に、式(16)および式(17)を代入すると、以下の式(18)のように表現される。
Figure JPOXMLDOC01-appb-M000018

 さらに、式(18)中の周波数領域信号X1[k],X2[k]に式(14),式(15)を代入すると、以下の式(19)のように表現される。
Figure JPOXMLDOC01-appb-M000019

 さらに、式(19)を展開すると、以下の式(20)のように表現される。
Figure JPOXMLDOC01-appb-M000020

 ここで、式(20)の各項に含まれる総和演算を考える。任意の整数gを導入し、以下の式(21)が成立する。
Figure JPOXMLDOC01-appb-M000021

 デルタ関数δ[g]のフーリエ逆変換式は、式(22)で示される。
Figure JPOXMLDOC01-appb-M000022

ここで、デルタ関数δ[g]は、以下の式(23)で示される。
Figure JPOXMLDOC01-appb-M000023

 式(22)より、式(21)は、以下の式(24)に変形できる。
Figure JPOXMLDOC01-appb-M000024

 式(24)の関係から、式(20)は、以下の式(25)で表わされる。
Figure JPOXMLDOC01-appb-M000025

 よって、式(20)は、以下の式(26)となる。
Figure JPOXMLDOC01-appb-M000026

 さて、ここで周波数領域信号X2[k]に対し、位相回転を行った場合を考える。このときの時間領域信号は、図9のようになる。
 X2[k]の位相スペクトルを、φ[k]回転させたとき、その逆変換は以下の式(27)となる。
Figure JPOXMLDOC01-appb-M000027

 これを、式(18)に代入すると、以下の式(28)が成立する。
Figure JPOXMLDOC01-appb-M000028
これを展開すると、以下の式(29)が成立する。
Figure JPOXMLDOC01-appb-M000029

 ここで、オーバラップ率50%と仮定し、オーバラップ区間のn=L/2~L-1について考える。オーバラップ区間では、式(11)より、以下の式(30)のように展開できる。
Figure JPOXMLDOC01-appb-M000030

 ここで、それぞれの項にある括弧内の
Figure JPOXMLDOC01-appb-M000031
の項は、ベクトル合成であるから、特定の周波数kに注目すると、図10のように描ける。もし、位相回転が行われていないとき、つまりφ[k]=0の場合は、図11のようになる。
 式(31)の絶対値を求めると、以下の式(32)となる。
Figure JPOXMLDOC01-appb-M000032

 よって、式(31)の絶対値が最大になる条件は、φ[k]=0の場合であり、その値は2である。つまり、位相回転が行われると、出力信号の大きさが小さくなることがわかる。この出力信号レベルの低下量を補正するように、補正量算出部503において強調信号振幅スペクトルの振幅補正量を決定する。
 ここでは、位相回転量が一様乱数によって決定されると仮定し、補正量の算出方法を具体的に説明する。ここでは、問題簡単化のため、位相の回転による大きさの変動に着目し、それぞれの周波数成分が単位ベクトルに正規化されているものとする。
 まず、位相回転を行わない場合を考える。連続するフレーム間で位相が同じ場合の合成ベクトルは、図11に示されるSのようになり、そのベクトルの大きさ|S|は、以下の式(33)で表わされる。
Figure JPOXMLDOC01-appb-M000033

 一方、一様乱数により位相回転を行う場合、連続するフレーム間位相差φは、-πから+πまでの範囲に一様に分布する。この連続するフレーム間で位相が異なる場合の合成ベクトルは、図10に示されるベクトルS′のようになる。そのベクトルの大きさ|S′|は、以下の式(34)で表わされる。
Figure JPOXMLDOC01-appb-M000034

 さて、ここで、期待値E(|S′|^2)を求めると、以下の式(35)のようになる。
Figure JPOXMLDOC01-appb-M000035

 ここで、φが-πから+πまで一様分布することから、以下の式(36)のようになる。
Figure JPOXMLDOC01-appb-M000036

 このため、|S'|^2の期待値は、以下の式(37)で表わされる。
Figure JPOXMLDOC01-appb-M000037

 さて、位相の回転をしない場合の、期待値E(|S|^2)は、式(33)より以下の式(38)で表わされる。
Figure JPOXMLDOC01-appb-M000038

 式(37)と式(38)の比を取ると、以下の式(39)が成立する。
Figure JPOXMLDOC01-appb-M000039

 つまり、位相を一様乱数で回転させる場合、出力信号のパワー平均値は入力と比較して、1/2だけ小さくなる。振幅補正部504では振幅値に対し補正を行うので、補正量算出部503は補正係数をsqrt(2)とし、振幅補正部504に伝達する。
 以上、一様乱数による回転量生成の場合を例に挙げて説明したが、正規乱数などでもその分散と平均値が決まれば、補正係数を一意に定めることができる。正規乱数を使う場合の補正係数の導出を以下に説明する。
 正規乱数の場合φの発生確率が正規分布により決定される。そのため、正規乱数による位相回転を実施した場合のパワー期待値を求めるには、φの発生確率に基づいて、重み付けを行う必要がある。
 具体的には、φの発生確率に基づいた、重み関数f(φ)を導入する。その重み関数f(φ)により、cos(φ)を重みづけする。さらに、重み付け関数f(φ)の積分値で正規化することにより、パワー期待値を求めることができる。
 正規乱数による位相回転を行った場合の出力パワー期待値E(S"^2)は、一様乱数の出力パワー期待値である式(35)に、重み付け関数f(φ)およびその積分値を導入し、以下の式(40)のように表現できる。
Figure JPOXMLDOC01-appb-M000040

 重み関数f(φ)は、正規分布により表現できるので、以下の式(41)が成立する。
Figure JPOXMLDOC01-appb-M000041

 ここで、σは分散をμは平均を表している。
 例えば、平均値μ=0,分散σ=1の標準正規分布では、以下の式(42)となるので、となるので、これを式(40)に代入すると、式(43)のようになる。
Figure JPOXMLDOC01-appb-M000042

Figure JPOXMLDOC01-appb-M000043

 ここで、式(43)の右辺、第2項を数値計算すると、式(44)が成立するので、位相の回転をしない場合の、E(|S^2|)との比は、式(45)で表わされる。
Figure JPOXMLDOC01-appb-M000044

Figure JPOXMLDOC01-appb-M000045

 補正量算出部503は、位相を標準正規分布の正規乱数で回転させる場合、振幅補正部504に補正係数をsqrt(1/0.805)として、伝達する。振幅補正は位相回転を行った周波数に対して行う。よって、位相回転を行わない周波数の補正係数は、1.0とする。位相回転を行った周波数の補正係数のみ、上記で導出した値とする。
 このように振幅制御部203では、位相制御部202から伝達された位相の回転量を用いて振幅補正係数を算出し、雑音抑圧部205から供給された強調信号振幅スペクトルに乗じ、逆変換部204に供給する。これにより、劣化信号位相スペクトルを回転させ、強調信号位相スペクトルを得た場合の出力レベル低下を解消することができる。
 《直線性計算部および急変判定部の構成》
 図12は、直線性計算部208および急変判定部209の内部構成について説明するための図である。図12に示すように、直線性計算部208は、周波数方向に位相の変化量を算出する変化量算出部1201と、位相の変化量の平坦度を算出する平坦度算出部1202を含んでいる。変化量算出部1201は、位相成分信号220(p(k)(kは周波数))を入力して、隣接する周波数の位相差Δp(k)=p(k)-p(k-1)を位相の変化量1210(位相の傾き)として求める。
 平坦度算出部1202は、変化量算出部1201で得られた位相変化量Δp(k)=p(k)-p(k-1)の、周波数軸に沿った平坦度(バラツキ)を調べる。隣接する周波数の位相変化量の差Δ2p(k)=Δp(k)-Δp(k-1)を平坦度1220とする。位相変化量が平坦であれば差分は0になる。また、位相の微分値を位相変化量としてさらにその微分値を平坦度1220としてもよい。その場合、位相の二次微分値が0に近ければ(所定値以下であれば)平坦と判定できる。
 ここでは変化量算出部1201は、隣接周波数間の位相の差分を用いて変化量を算出したが、本発明はこれに限定されるものではない。位相の周波数による微分で直線性を判定してもよい。複数の周波数における複数の微分結果のバラツキが小さいほど直線性が高い。局所的な直線性は、局所的な微分結果を用いて評価することができる。バラツキの指標として、平坦度(Flatness Measure)を用いることができる。
 急変判定部209は、算出された平坦度の絶対値が一定以下の場合、その平坦度に対応する周波数は衝撃音を含むと判定する。さらに、衝撃音を含むと判定された周波数の数とあらかじめ定められた閾値を比較して、衝撃音あり(1)または衝撃音無し(0)を現フレームの判定結果1230として出力する。
 図13は、位相およびその変化量をグラフに示したものである。周波数領域において、周波数軸に沿って、グラフ1301のように位相が変化する場合、その位相変化量は、周波数領域において、周波数軸に沿って、グラフ1302に示すように変化する。この変化が平坦な周波数1303を導き出すことにより、位相の直線性を判別する。
 信号の急変部では位相が直線的に変化することが分かっているため、このように位相の直線性を求めてその平坦度を判定することにより、信号の急変の存在を判定することが可能となる。そして、衝撃音など信号の急変が存在するフレームにおいて、位相スペクトルを回転操作することにより、その急変を取り除くことができるため、高品質な強調信号を得ることができる。
 図14は、本実施形態にかかる雑音抑圧装置200をソフトウェアを用いて実現する場合のハードウェア構成について説明する図である。
 雑音抑圧装置200は、プロセッサ1410、ROM(Read Only Memory)1420、RAM(Random Access Memory)1440、ストレージ1450、入出力インタフェース1460、操作部1461、入力部1462、および出力部1463を備えている。雑音抑圧装置200は、カメラ1464を備えていてもよい。プロセッサ1410は中央処理部であって、様々なプログラムを実行することにより雑音抑圧装置200全体を制御する。
 ROM1420は、プロセッサ1410が最初に実行すべきブートプログラムの他、各種パラメータ等を記憶している。RAM1440は、不図示のプログラムロード領域の他に、入力信号210、位相成分信号220、振幅成分信号230、強調信号260、位相変化量1210、平坦度1220および急変判定結果1230等を記憶する領域を有している。また、ストレージ1450は、雑音抑圧プログラム1451を格納している。雑音抑圧プログラム1451は、変換モジュール、位相制御モジュール、振幅制御モジュール、逆変換モジュール、雑音抑圧モジュール、直線性計算モジュール、急変判定モジュールを含んでいる。雑音抑圧プログラム1451に含まれる各モジュールをプロセッサ1410が実行することにより、図2の変換部201、位相制御部202、振幅制御部203、逆変換部204、雑音抑圧部205、直線性計算部208、急変判定部209の各機能を実現できる。なお、ストレージ1450はノイズデータベースを格納してもよい。
 プロセッサ1410が実行した雑音抑圧プログラム1451の出力である強調音声は、入出力インタフェース1460を介して出力部1463から出力される。これにより、例えば、入力部1462から入力した操作部1461の操作音などを抑圧することができる。また、入力部1462から入力した入力信号に衝撃音が含まれたことを検出してカメラ1464による撮影を開始するなどといった適用法も可能である。
 図15は、上記雑音抑圧プログラム1451による処理の流れを説明するためのフローチャートである。まず、ステップS1501において、入力部1462から信号を入力すると、ステップS1503に進む。ステップS1503では、変換部201が入力信号を周波数領域に変換して、振幅・位相に分割する。次に、ステップS1505では、離散周波数kを1に、カウント値Iを0に設定して、順次周波数空間での処理を開始する。ステップS1507に進むと、設定された周波数での位相の変化を算出する。さらにステップS1509では、位相変化の変化を算出する。位相変化の変化が一定範囲内か否かに応じて、位相の直線性を判断する。具体的には位相変化の変化が所定の閾値Nを越えない場合、位相は平坦に変化すると判断し、直線性が高いと判断して、ステップS1513においてIをインクリメントする。一方、位相変化の変化が所定の閾値N以上の場合、位相変化は平坦ではないと判断し、直線性が低いと判断して、IをインクリメントせずにステップS1515に進む。以上のステップS1507~S1513を、k=F(Fはフレーム全体の周波数の数)になるまで繰り返す。最終的には、ステップS1517において、I(直線性の高い周波数)を所定の閾値Mと比較する。IがM以上の場合に衝撃音ありと判定し(S1521)、それ以外を衝撃音なしと判定する(S1523)。、判定結果を、雑音抑圧部205および位相制御部202に供給する(S1525)。
 以上の処理により、衝撃音をより正確に検出することができ、適宜、その衝撃音を適切に除去することが可能となる。
 [他の実施形態]
 以上、実施形態を参照して本願発明を説明したが、本願発明は上記実施形態に限定されるものではない。本願発明の構成や詳細には、本願発明のスコープ内で当業者が理解し得る様々な変更をすることができる。また、それぞれの実施形態に含まれる別々の特徴を如何様に組み合わせたシステムまたは装置も、本発明の範疇に含まれる。
 また、本発明は、複数の機器から構成されるシステムに適用されてもよいし、単体の装置に適用されてもよい。さらに、本発明は、実施形態の機能を実現する信号処理プログラムが、システムあるいは装置に直接あるいは遠隔から供給される場合にも適用可能である。したがって、本発明の機能をコンピュータで実現するために、コンピュータにインストールされるプログラム、あるいはそのプログラムを格納した媒体、そのプログラムをダウンロードさせるWWW(World Wide Web)サーバも、本発明の範疇に含まれる。
 なお、上記の各実施形態においては、以下に示すような信号処理装置、信号処理方法および信号処理プログラムの特徴的構成が示されている(以下のように限定されるわけではない)。
  (付記1)
 入力信号を、周波数領域における位相成分信号および振幅成分信号に変換する変換手段と、
 周波数領域における前記位相成分信号の直線性を計算する直線性計算手段と、
 前記直線性計算手段によって計算された前記直線性に基づいて前記入力信号の急変の存在を判定する判定手段と、
 を備えた信号処理装置。
  (付記2)
 前記直線性計算手段は、周波数領域における前記位相成分信号の変化が一定範囲内か否かに応じて、前記直線性を計算する付記1に記載の信号処理装置。
  (付記3)
 前記直線性計算手段は、周波数領域における前記位相成分信号の微分値の平坦度を計算し、
 前記判定手段は、前記微分値の前記平坦度が高ければ、前記入力信号の急変が存在するものと判定する付記1または2に記載の信号処理装置。
  (付記4)
 前記直線性計算手段は、
 周波数ごとに位相成分と隣接周波数における位相成分の差として位相成分差を算出し、
 前記位相成分差の差に基づいて、前記直線性を計算する付記1、2または3に記載の信号処理装置。
  (付記5)
 前記直線性計算手段は、
 前記位相成分差の差を、周波数ごとに第1閾値と比較し、
 閾値以下と判定された周波数成分の数をフレームごとにカウントしてカウント値を前記直線性として計算し、
 前記判定手段は、
 前記カウント値が第2閾値以上なら、前記入力信号に急変が存在すると判定する付記4に記載の信号処理装置。
  (付記6)
 入力信号を、周波数領域における位相成分信号および振幅成分信号に変換し、
 周波数領域における前記位相成分信号の直線性を計算し、
 計算された前記直線性に基づいて前記入力信号の急変の存在を判定する、
 各ステップを含む信号処理方法。
  (付記7)
 前記直線性は、周波数領域における前記位相成分信号の変化が一定範囲内か否かに応じて計算される付記6に記載の信号処理方法。
  (付記8)
 前記直線性は、周波数領域における前記位相成分信号の微分値の平坦度を計算することで計算され、
 前記入力信号の急変は、前記微分値の前記平坦度が高ければ、存在するものと判定される付記6または7に記載の信号処理方法。
  (付記9)
 前記直線性は、
 周波数ごとに位相成分と隣接周波数における位相成分の差として算出された位相成分差の差に基づいて、計算される付記6、7または8に記載の信号処理方法。
  (付記10)
 前記直線性は、
 前記位相成分差の差を、周波数ごとに第1閾値と比較した結果、当該第1閾値以下と判定された周波数成分の数をフレームごとにカウントしたカウント値として計算され、
 前記入力信号の急変は、
 前記カウント値が第2閾値以上なら、存在すると判定される付記9に記載の信号処理方法。
  (付記11)
 入力信号を、周波数領域における位相成分信号および振幅成分信号に変換し、
 周波数領域における前記位相成分信号の直線性を計算し、
 計算された前記直線性に基づいて前記入力信号の急変の存在を判定する、
 各ステップをコンピュータに実行させる信号処理プログラム。
  (付記12)
 前記直線性は、周波数領域における前記位相成分信号の変化が一定範囲内か否かに応じて計算される付記11に記載の信号処理プログラム。
  (付記13)
 前記直線性は、周波数領域における前記位相成分信号の微分値の平坦度を計算することで計算され、
 前記入力信号の急変は、前記微分値の前記平坦度が高ければ、存在するものと判定される付記11または12に記載の信号処理プログラム。
  (付記14)
 前記直線性は、
 周波数ごとに位相成分と隣接周波数における位相成分の差として算出された位相成分差の差に基づいて、計算される付記11、12または13に記載の信号処理プログラム。
  (付記15)
 前記直線性は、
 前記位相成分差の差を、周波数ごとに第1閾値と比較した結果、当該第1閾値以下と判定された周波数成分の数をフレームごとにカウントしたカウント値として計算され、
 前記入力信号の急変は、
 前記カウント値が第2閾値以上なら、存在すると判定される付記14に記載の信号処理プログラム。
 この出願は、2013年3月5日に出願された日本出願特願2013-042447を基礎とする優先権を主張し、その開示の全てをここに取り込む。

Claims (7)

  1.  入力信号を、周波数領域における位相成分信号および振幅成分信号に変換する変換手段と、
     周波数領域における前記位相成分信号の直線性を計算する直線性計算手段と、
     前記直線性計算手段によって計算された前記直線性に基づいて前記入力信号の急変の存在を判定する判定手段と、
     を備えた信号処理装置。
  2.  前記直線性計算手段は、周波数領域における前記位相成分信号の変化が一定範囲内か否かに応じて、前記直線性を計算する請求項1に記載の信号処理装置。
  3.  前記直線性計算手段は、周波数領域における前記位相成分信号の微分値の平坦度を計算し、
     前記判定手段は、前記微分値の前記平坦度が高ければ、前記入力信号の急変が存在するものと判定する請求項1または2に記載の信号処理装置。
  4.  前記直線性計算手段は、
     周波数ごとに位相成分と隣接周波数における位相成分の差として位相成分差を算出し、
     前記位相成分差の差に基づいて、前記直線性を計算する請求項1、2または3に記載の信号処理装置。
  5.  前記直線性計算手段は、
     前記位相成分差の差を、周波数ごとに第1閾値と比較し、
     閾値以下と判定された周波数成分の数をフレームごとにカウントしてカウント値を前記直線性として計算し、
     前記判定手段は、
     前記カウント値が第2閾値以上なら、前記入力信号に急変が存在すると判定する請求項4に記載の信号処理装置。
  6.  入力信号を、周波数領域における位相成分信号および振幅成分信号に変換し、
     周波数領域における前記位相成分信号の直線性を計算し、
     計算された前記直線性に基づいて前記入力信号の急変の存在を判定する、
     各ステップを含む信号処理方法。
  7.  入力信号を、周波数領域における位相成分信号および振幅成分信号に変換し、
     周波数領域における前記位相成分信号の直線性を計算し、
     計算された前記直線性に基づいて前記入力信号の急変の存在を判定する、
     各ステップをコンピュータに実行させる信号処理プログラム。
PCT/JP2014/054633 2013-03-05 2014-02-26 信号処理装置、信号処理方法および信号処理プログラム WO2014136628A1 (ja)

Priority Applications (2)

Application Number Priority Date Filing Date Title
US14/773,271 US9858946B2 (en) 2013-03-05 2014-02-26 Signal processing apparatus, signal processing method, and signal processing program
JP2015504257A JPWO2014136628A1 (ja) 2013-03-05 2014-02-26 信号処理装置、信号処理方法および信号処理プログラム

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
JP2013042447 2013-03-05
JP2013-042447 2013-03-05

Publications (1)

Publication Number Publication Date
WO2014136628A1 true WO2014136628A1 (ja) 2014-09-12

Family

ID=51491148

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/JP2014/054633 WO2014136628A1 (ja) 2013-03-05 2014-02-26 信号処理装置、信号処理方法および信号処理プログラム

Country Status (3)

Country Link
US (1) US9858946B2 (ja)
JP (1) JPWO2014136628A1 (ja)
WO (1) WO2014136628A1 (ja)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111226278A (zh) * 2017-08-17 2020-06-02 塞伦妮经营公司 低复杂度的浊音语音检测和基音估计
JP2021170273A (ja) * 2020-04-16 2021-10-28 株式会社吉田製作所 医療機器監視システム
WO2022130917A1 (ja) * 2020-12-14 2022-06-23 国立大学法人東海国立大学機構 信号較正装置、信号較正方法およびプログラム

Families Citing this family (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2014136629A1 (ja) * 2013-03-05 2014-09-12 日本電気株式会社 信号処理装置、信号処理方法および信号処理プログラム
EP3616196A4 (en) 2017-04-28 2021-01-20 DTS, Inc. AUDIO ENCODER WINDOW AND TRANSFORMATION IMPLEMENTATIONS
KR102475989B1 (ko) * 2018-02-12 2022-12-12 삼성전자주식회사 오디오 신호의 주파수의 변화에 따른 위상 변화율에 기반하여 노이즈가 감쇠된 오디오 신호를 생성하는 장치 및 방법
CN116257730B (zh) * 2023-05-08 2023-08-01 成都戎星科技有限公司 一种基于fpga实现频偏跟踪的方法

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH0573093A (ja) * 1991-09-17 1993-03-26 Nippon Telegr & Teleph Corp <Ntt> 信号特徴点の抽出方法
JP2006163417A (ja) * 2004-12-08 2006-06-22 Herman Becker Automotive Systems-Wavemakers Inc 雨ノイズを抑制するためのシステム
JP2011514987A (ja) * 2008-03-10 2011-05-12 フラウンホッファー−ゲゼルシャフト ツァ フェルダールング デァ アンゲヴァンテン フォアシュンク エー.ファオ 瞬間的事象を有する音声信号の操作装置および操作方法

Family Cites Families (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CA2312721A1 (en) 1997-12-08 1999-06-17 Mitsubishi Denki Kabushiki Kaisha Sound signal processing method and sound signal processing device
KR100580643B1 (ko) * 2004-02-10 2006-05-16 삼성전자주식회사 충격음 감지 장치, 방법 그리고 이를 이용한 충격음 식별장치 및 방법
WO2007058121A1 (ja) * 2005-11-15 2007-05-24 Nec Corporation 残響抑圧の方法、装置及び残響抑圧用プログラム
JP2007251908A (ja) 2006-02-15 2007-09-27 Sanyo Electric Co Ltd ノイズ検出回路及びそれを用いたam受信機
JP5791092B2 (ja) 2007-03-06 2015-10-07 日本電気株式会社 雑音抑圧の方法、装置、及びプログラム
JP2011254122A (ja) 2009-03-23 2011-12-15 Nec Corp 回路、制御システム、制御方法及びプログラム
JP2011199808A (ja) 2010-03-24 2011-10-06 Hitachi Kokusai Electric Inc 受信装置の等化部

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH0573093A (ja) * 1991-09-17 1993-03-26 Nippon Telegr & Teleph Corp <Ntt> 信号特徴点の抽出方法
JP2006163417A (ja) * 2004-12-08 2006-06-22 Herman Becker Automotive Systems-Wavemakers Inc 雨ノイズを抑制するためのシステム
JP2011514987A (ja) * 2008-03-10 2011-05-12 フラウンホッファー−ゲゼルシャフト ツァ フェルダールング デァ アンゲヴァンテン フォアシュンク エー.ファオ 瞬間的事象を有する音声信号の操作装置および操作方法

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111226278A (zh) * 2017-08-17 2020-06-02 塞伦妮经营公司 低复杂度的浊音语音检测和基音估计
JP2020533619A (ja) * 2017-08-17 2020-11-19 セレンス オペレーティング カンパニー 有音音声検出の複雑性低減およびピッチ推定
US11176957B2 (en) 2017-08-17 2021-11-16 Cerence Operating Company Low complexity detection of voiced speech and pitch estimation
JP7052008B2 (ja) 2017-08-17 2022-04-11 セレンス オペレーティング カンパニー 有声音声検出の複雑性低減およびピッチ推定
CN111226278B (zh) * 2017-08-17 2023-08-25 塞伦妮经营公司 低复杂度的浊音语音检测和基音估计
JP2021170273A (ja) * 2020-04-16 2021-10-28 株式会社吉田製作所 医療機器監視システム
WO2022130917A1 (ja) * 2020-12-14 2022-06-23 国立大学法人東海国立大学機構 信号較正装置、信号較正方法およびプログラム

Also Published As

Publication number Publication date
US20160019913A1 (en) 2016-01-21
US9858946B2 (en) 2018-01-02
JPWO2014136628A1 (ja) 2017-02-09

Similar Documents

Publication Publication Date Title
WO2014136628A1 (ja) 信号処理装置、信号処理方法および信号処理プログラム
JP6406258B2 (ja) 信号処理装置、信号処理方法および信号処理プログラム
JP6528679B2 (ja) 信号処理装置、信号処理方法および信号処理プログラム
JP6079236B2 (ja) 信号処理装置、信号処理方法、及び信号処理プログラム
JP6070953B2 (ja) 信号処理装置、信号処理方法、及び記憶媒体
JP6406257B2 (ja) 信号処理装置、信号処理方法および信号処理プログラム
WO2016167141A1 (ja) 信号処理装置、信号処理方法、およびプログラム
JP6064600B2 (ja) 信号処理装置、信号処理方法、及び信号処理プログラム
JP5788873B2 (ja) 信号処理方法、情報処理装置、及び信号処理プログラム
WO2014084000A1 (ja) 信号処理装置、信号処理方法、および信号処理プログラム
JP6119604B2 (ja) 信号処理装置、信号処理方法、および信号処理プログラム
JP6011536B2 (ja) 信号処理装置、信号処理方法、およびコンピュータ・プログラム
JP6350871B2 (ja) 信号処理装置、信号処理方法、および信号処理プログラム

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 14759549

Country of ref document: EP

Kind code of ref document: A1

ENP Entry into the national phase

Ref document number: 2015504257

Country of ref document: JP

Kind code of ref document: A

WWE Wipo information: entry into national phase

Ref document number: 14773271

Country of ref document: US

NENP Non-entry into the national phase

Ref country code: DE

122 Ep: pct application non-entry in european phase

Ref document number: 14759549

Country of ref document: EP

Kind code of ref document: A1