WO2017119368A1 - 信号処理方法および信号処理装置 - Google Patents

信号処理方法および信号処理装置 Download PDF

Info

Publication number
WO2017119368A1
WO2017119368A1 PCT/JP2016/088935 JP2016088935W WO2017119368A1 WO 2017119368 A1 WO2017119368 A1 WO 2017119368A1 JP 2016088935 W JP2016088935 W JP 2016088935W WO 2017119368 A1 WO2017119368 A1 WO 2017119368A1
Authority
WO
WIPO (PCT)
Prior art keywords
input signal
period
signal
fundamental wave
estimation
Prior art date
Application number
PCT/JP2016/088935
Other languages
English (en)
French (fr)
Inventor
竜之介 大道
Original Assignee
ヤマハ株式会社
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Priority claimed from JP2016061928A external-priority patent/JP2017122908A/ja
Application filed by ヤマハ株式会社 filed Critical ヤマハ株式会社
Publication of WO2017119368A1 publication Critical patent/WO2017119368A1/ja
Priority to US16/028,629 priority Critical patent/US20180315444A1/en

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/90Pitch determination of speech signals

Definitions

  • This disclosure relates to a signal processing technique, and particularly to a signal processing method and a signal processing apparatus suitable for estimating a fundamental frequency of a sound signal.
  • the fundamental frequency is a quantity that is strongly related to the pitch of sound perceived by humans (called pitch), the value itself has high utility value.
  • the fundamental frequency is also used for analysis of intonation in general conversation, analysis of pitch in singing voice (karaoke scoring, etc.), expression of pitch information in speech coding, and the like. Also, in the recent high-quality speech analysis, the fundamental frequency plays an important role as auxiliary information for analysis.
  • Non-Patent Document 1 There is a technique disclosed in Non-Patent Document 1 as a technique for solving this problem.
  • an input signal whose fundamental frequency is unknown is given to a plurality of low-pass filters having different cutoff frequencies.
  • the plurality of low-pass filters serve to attenuate the higher-order harmonic components when the input signal includes higher-order harmonic components having a frequency equal to or higher than each cutoff frequency. Therefore, for the sake of convenience, these low-pass filters are hereinafter referred to as harmonic attenuation filters.
  • the basic period of an input signal is estimated from the output signals of a plurality of harmonic attenuation filters, and the most reliable estimation result is selected from those estimation results. Find the frequency.
  • This disclosure has been made in view of the circumstances as described above, and can reduce the amount of calculation, or can be realized with small-scale hardware, and can estimate the fundamental frequency of the input signal at high speed.
  • the object is to provide technical means for signal processing.
  • the present disclosure includes a plurality of harmonic attenuation filter processing steps each for generating a signal used for estimating a fundamental frequency of the input signal by performing band limitation of the input signal according to different bandpass characteristics,
  • each of the plurality of harmonic attenuation filter processing steps one or a plurality of recursively executing a filtering process including an accumulation process and a comb filter processing process in which an output signal of one process becomes an input signal of the other process,
  • a filtering process including an accumulation process and a comb filter processing process in which an output signal of one process becomes an input signal of the other process
  • the accumulation process an input signal for the accumulation process is accumulated, and in the comb filter process, a signal process for outputting a difference between an input signal for the comb filter process and a signal obtained by delaying the input signal
  • a method for generating a signal used for estimating a fundamental frequency of the input signal by performing band limitation of the input signal according to different bandpass characteristics
  • the present disclosure is based on a state detection process for detecting a detection target state from the input signal while selecting a detection target state from a plurality of types of states related to the input signal in a predetermined order, and the state detection process.
  • a signal processing method including a period estimation process for estimating a period of the input signal based on the detection timing of the state.
  • the present disclosure includes a selection process of receiving fundamental wave information that is an estimation result related to a fundamental wave component of an input signal from a plurality of fundamental wave estimation units, and selecting one fundamental wave information from these fundamental wave information,
  • a cost function having, as an independent variable, a difference between the fundamental wave information that is the preceding selection result and the fundamental wave information received from each of the plurality of fundamental wave estimation units, and the function value with respect to the difference is
  • a signal processing method for selecting the fundamental wave information using a nonlinear cost function is provided.
  • the present disclosure provides a plurality of harmonic attenuation filter processing steps for performing band limitation of an input signal according to different bandpass characteristics and outputting the input signal based on output signals of the plurality of harmonic attenuation filters, respectively. For each period of the fundamental wave estimated by the plurality of fundamental wave estimation processes, based on a plurality of fundamental wave estimation processes for estimating the fundamental wave components of the signal and output signals of the harmonic attenuation filter processing processes, respectively.
  • a plurality of pitch mark estimation processes for estimating each pitch mark, a fundamental wave component estimated by the plurality of fundamental wave estimation processes, and a common harmonic attenuation among the pitch marks estimated by the plurality of pitch mark estimation processes There is provided an information processing method including a selection process of selecting a fundamental wave component and a pitch mark estimated based on an output signal of a filter.
  • a signal that can be used for estimation of the fundamental frequency can be obtained by a small number of harmonic attenuation filters or harmonic attenuation filter processing. Therefore, the calculation amount or hardware for estimating the fundamental frequency can be reduced, and the fundamental frequency can be estimated at high speed.
  • FIG. 1 is a block diagram illustrating a functional configuration of the signal processing apparatus according to the first embodiment of the present disclosure.
  • FIG. 2 is a block diagram illustrating a functional configuration of the harmonic attenuation filter according to the first embodiment.
  • FIG. 3 is a diagram illustrating an example of frequency-amplitude characteristics of the tuning wave attenuation filter.
  • FIG. 4 is a diagram illustrating another example of the frequency-amplitude characteristics of the tuning wave attenuation filter.
  • FIG. 5 is a block diagram illustrating a configuration example of the downsampler according to the first embodiment.
  • FIG. 6 is a block diagram showing a basic configuration of the DC removal filter in the first embodiment.
  • FIG. 7 is a block diagram showing a specific configuration example of the direct current removal filter.
  • FIG. 1 is a block diagram illustrating a functional configuration of the signal processing apparatus according to the first embodiment of the present disclosure.
  • FIG. 2 is a block diagram illustrating a functional configuration of the harmonic attenuation filter according to the first embodiment
  • FIG. 8 is a block diagram illustrating a configuration of the period detection unit in the first embodiment.
  • FIG. 9 is a flowchart showing the processing contents of the same period detection unit.
  • FIG. 10 is a waveform diagram for explaining the processing content of the basic period estimation unit of the same period detection unit.
  • FIG. 11 is a waveform diagram illustrating an operation example of the same period detection unit.
  • FIGS. 12A and 12B are diagrams illustrating examples of audio signals that easily cause erroneous estimation of the fundamental frequency.
  • FIG. 13 is a diagram illustrating the processing content of the selection unit in the first embodiment.
  • FIG. 14 is a diagram illustrating a nonlinear function used in the selection unit.
  • FIGS. 15A to 15C are diagrams illustrating an operation example of the selection unit.
  • FIGS. 16A and 16B are waveform diagrams showing an example of signal processing using pitch marks.
  • FIGS. 17A to 17E are views for explaining a conventional pitch mark estimation method.
  • FIGS. 18A to 18C are waveform diagrams for explaining the reason why consistency between the pitch mark and the basic period is required.
  • FIG. 19 is a block diagram illustrating a functional configuration of a signal processing device according to the second embodiment of the present disclosure.
  • FIG. 20 is a waveform diagram showing a pitch mark estimation method according to the second embodiment.
  • FIG. 21 is a waveform diagram showing another example of the estimation method.
  • FIGS. 22A to 22C are waveform diagrams showing effects of the second embodiment.
  • FIG. 23 is a block diagram illustrating a functional configuration for polarity determination in the second embodiment.
  • FIG. 24 is a waveform diagram showing an example of the same polarity determination.
  • FIG. 1 is a block diagram showing a functional configuration of a signal processing apparatus according to the first embodiment of the present disclosure.
  • the signal processing device according to the present embodiment is a device that estimates the fundamental frequency of a sound signal.
  • the function of this signal processing device is that a down sampler 1, a DC removal filter 2, m (m is an integer of 2 or more) harmonic attenuation filters 3_1 to 3_m, and m periods.
  • the detectors 4_1 to 4_m and the selector 5 can be broadly classified.
  • the down sampler 1 is means for converting a sound signal sample string having a predetermined sampling frequency into a sound signal sample string having a lower sampling frequency. This down sampler 1 is provided in order to reduce the amount of calculation of each part after the DC removal filter 2.
  • the DC removal filter 2 is means for removing a DC component from the sound signal sample sequence output by the down sampler 1 and outputting a sound signal sample sequence from which the DC component has been removed.
  • the harmonic attenuation filters 3_1 to 3_m are low-pass filters each having a different cutoff frequency. These harmonic attenuation filters 3_1 to 3_m are arranged so that their harmonics are higher when the frequency of the second harmonic or higher harmonic component in the sound signal sample sequence output from the DC removal filter 2 is higher than their cutoff frequencies. It is a filter that plays a role of attenuating components.
  • the period detection units 4_1 to 4_m function as a fundamental wave estimation unit that outputs fundamental wave information that is an estimation result regarding the fundamental wave component of each input signal. More specifically, the period detectors 4_1 to 4_m analyze the output signals of the harmonic attenuation filters 3_1 to 3_m, and estimate the fundamental period of each output signal as fundamental wave information regarding the fundamental wave component of each output signal. In addition to outputting basic period information, reliability information that is a measure of the fundamental wave likelihood of each output signal is calculated and output.
  • the selection unit 5 selects and selects the basic period information output by one of the period detection units 4_1 to 4_m based on the basic period information and reliability information that are the fundamental wave information output from the period detection units 4_1 to 4_m, respectively. This is means for outputting a fundamental frequency F0 that is the inverse of the fundamental period information.
  • FIG. 2 is a block diagram illustrating a configuration example of the harmonic attenuation filter 3_1 in the present embodiment. Although FIG. 2 illustrates the configuration of the harmonic attenuation filter 3_1, the other harmonic attenuation filters 3_2 to 3_m have the same configuration as the harmonic attenuation filter 3_1.
  • the harmonic attenuation filter 3_1 is formed by cascading M1 (M1 is an integer of 2 or more) cyclic moving average filters 30_1 to 30_M1 having the same configuration.
  • the cyclic moving average filter 30_1 has a configuration in which an accumulator 30a including an adder 31 and a delay unit 32, a comb filter 30b including a delay unit 33 and a subtractor 34, and a shifter 30c are connected in cascade. ing.
  • the adder 31 adds the sound signal sample output from the DC removal filter 2 and the sound signal sample output from the delay unit 32 and outputs the result.
  • the delay unit 32 delays the sound signal sample output from the adder 31 by one sampling period and supplies the sample to the adder 31.
  • an accumulation process for updating the accumulated value by adding the sound signal sample output from the DC removal filter 2 to the current accumulated value is performed for each sampling period.
  • the delay unit 33 delays the accumulated value output from the accumulator 30a by N sampling periods (N is a power of 2).
  • the subtracter 34 subtracts the output signal of the delay unit 33 from the accumulated value output from the accumulator 30a and outputs the result.
  • one sound signal sample value output from the DC removal filter 2 is added to the accumulated value of the accumulator 30a (specifically, the output signal value of the adder 31) at every sampling period. Then, the subtracter 34 subtracts the accumulated value of the accumulator 30a before N sampling periods from the accumulated value of the accumulator 30a. Therefore, the output signal value of the subtracter 34 is the sum of the sound signal sample values output by the DC removal filter 2 during the N sampling periods up to now.
  • the delay stage number N of the delay unit 33 is a power of two. Therefore, the shifter 30c outputs a signal obtained by reducing the output signal of the comb filter 30b to 1 / N by shifting the output signal of the comb filter 30b to the right by log 2 N bits.
  • the moving average value over the N sampling periods for the sound signal sample sequence output from the DC removal filter 2 is obtained by the cyclic moving average filter 30_1.
  • the other cyclic moving average filters 30_2 to 30_M1 are the same as the cyclic moving average filter 30_1.
  • FIG. 3 and 4 are diagrams showing the frequency-amplitude characteristics of the harmonic attenuation filter according to the present embodiment.
  • FIG. 3 shows the frequency-amplitude characteristics of a harmonic attenuation filter in which the number M1 of cascaded moving average filters is cascaded
  • FIG. 4 is a diagram of the frequency in which the number M1 of cascaded moving average filters is cascaded. The frequency-amplitude characteristic of the wave attenuation filter is shown.
  • a notch occurs at a frequency Fs / N obtained by dividing the sampling frequency Fs of the delay unit 33 by the number N of delay stages.
  • the harmonic attenuation filter is a low-pass filter having a cutoff frequency Fs / N. Become functional.
  • the cutoff frequency is determined by the number of delay stages N of each delay unit 33 of the cyclic moving average filters 30_1 to 30_M1.
  • the harmonic attenuation filter As the number M1 of cascaded moving average filters 30_1 to 30_M1 increases, the amount of attenuation given to frequency components above the cutoff frequency increases.
  • the number M1 of cascaded moving average filters 30_1 to 30_M1 in the harmonic attenuation filter is six, as shown in FIG. 3, the attenuation in the side lobe is 80 dB.
  • the number of cascaded stages M1 of the cyclic moving average filters 30_1 to 30_M1 in the harmonic attenuation filter is set to 8 stages, the amount of attenuation in the side lobe reaches 100 dB as shown in FIG.
  • the frequency-amplitude characteristics of the harmonic attenuation filter according to the present embodiment have a gentle shoulder characteristic.
  • the harmonic attenuation filter includes some higher-order harmonic frequencies in addition to the fundamental frequency of the input signal in the passband, A signal containing a high-order harmonic component is output from the harmonic attenuation filter, and it is difficult to accurately estimate the fundamental frequency from the output signal of the harmonic attenuation filter.
  • a harmonic attenuation filter having a frequency-amplitude characteristic with a gentle shoulder characteristic is used. Therefore, the harmonic attenuation filter moderately attenuates higher-order harmonic components in the input signal.
  • the frequency-amplitude characteristics of the harmonic attenuation filter have a gentle shoulder characteristic, the amount of attenuation given to the higher-order harmonic component of the input signal may be small.
  • the shoulder characteristics of the frequency-amplitude characteristics of the harmonic attenuation filter the higher the frequency, the greater the attenuation with respect to the input signal. Therefore, the higher-order harmonic components in the input signal are more sensitive than the attenuation with respect to the fundamental component.
  • the output signal of the harmonic attenuation filter has a waveform that seems to be a fundamental wave with fewer higher-order harmonic components than the input signal. Therefore, the process of estimating the fundamental period from the output signal of the harmonic attenuation filter is facilitated.
  • the delay stage number N of the delay device 33 of the comb filter 30b is set to a numerical value that can be expressed by a power of 2, so that a log 2 N-bit right shift is performed without using a multiplier.
  • the shifter 30c that performs the process realizes a process equivalent to a 1 / N multiplication process. Accordingly, it is possible to reduce the calculation amount of the arithmetic processing performed by the signal processing device with respect to the harmonic attenuation filter, and to realize a harmonic attenuation filter capable of high-speed operation.
  • FIG. 5 is a block diagram showing a configuration example of the down sampler 1 in the present embodiment.
  • the down sampler 1 is a means necessary for reducing the amount of calculation of each part after the DC removal filter 2.
  • a high-speed and linear-phase downsampler is used as the downsampler 1.
  • the downsampler 1 includes an accumulator 10a composed of an adder 11 and a delay unit 12 cascaded over N1 stages (N1 is an integer that is a power of 2), and a decimator. 10c, a comb filter 10b composed of a delay device 13 and a subtractor 14 is cascaded over N1 stages, and a shifter 10d is cascaded.
  • This downsampler 1 is obtained by adding a downsampling function to the harmonic attenuation filter 3_1 shown in FIG. More specifically, the down sampler 1 is obtained by adding the following changes to the harmonic attenuation filter 3_1 shown in FIG. a.
  • the M1 accumulators 30a in the cyclic moving average filters 30_1 to 30_M1 in FIG. 2 are collected on the front side, and the M1 comb filters 30b in the cyclic moving average filters 30_1 to 30_M1 are collected on the rear side. . b.
  • a decimator 10c is arranged between the M1 accumulators 30a on the front stage side and the M1 comb filters 30b on the rear stage side. c.
  • the number of delay stages of the delay device 33 in the comb filter 30b is changed to one stage.
  • the portion composed of the N1-stage accumulator 10a, the N1-stage comb filter 10b, and the shifter 10d functions as a low-pass filter, similar to the cyclic moving average filters 30_1 to 30_M1 of FIG. .
  • the delay unit 13 in the comb filter 10b operates with a period in which one sample passes through the decimator 10c as a sampling period.
  • the delay device 33 of the comb filter 30b in FIG. 2 operates at the same sampling period as the delay device 32 of the preceding accumulator 30a. Therefore, in order to cause the cyclic moving average filter 30_1 to calculate a moving average of samples over N sampling periods, the delay device 33 of the comb filter 30b needs to be an N-stage delay device. However, in the down sampler 1 shown in FIG.
  • the delay unit 13 in the comb filter 10b operates at a sampling period R times the sampling period of the delay unit 12 of the accumulator 10a. Therefore, in the down sampler 1 shown in FIG. 5, the number of delay stages of the delay device 13 in the comb filter 10b is only one. Therefore, in the down sampler 1, the memory capacity for realizing the delay device 13 can be reduced.
  • FIG. 6 is a block diagram illustrating a configuration example of the DC removal filter 2 in the present embodiment.
  • the direct current removal filter 2 subtracts the output signal of the moving average unit 22 from the output signal of the delay unit 21 and the delay unit 21 and the moving average unit 22 to which the output signal of the downsampler 1 is input, respectively, and removes the direct current component.
  • a subtractor 23 that outputs the signal as a signal.
  • the moving average unit 22 is a circuit that calculates a moving average of an input sample sequence over a D sampling period (D is a predetermined integer).
  • FIG. 7 is a block diagram showing a configuration of a DC removal filter 2a that further embodies the DC removal filter 2 of FIG.
  • the DC removal filter 2a is composed of moving average parts MA1 and MA2 and a subtractor 23.
  • a part of the moving average unit MA1 serves as the delay unit 21 in FIG.
  • the output signal of the down-sampler 1 in the previous stage is sequentially input to the subtractor 223 through a delay unit 221 having a delay stage number of D ⁇ 1 and a delay unit 222 having a delay stage number of 1. .
  • the subtractor 223 subtracts the output signal of the delay unit 222, that is, the signal obtained by delaying the output signal of the downsampler 1 by the D sampling period from the output signal of the preceding downsampler 1, and outputs the result.
  • An accumulator composed of an adder 224 and a delay unit 225 accumulates the output signal of the subtracter 223.
  • Multiplier 226 multiplies the output signal of this accumulator by a coefficient 1 / D.
  • the moving average over the D sampling period for the sample sequence input from the downsampler 1 is output from the multiplier 226.
  • the multiplier 226 may be replaced with a shifter that performs log 2 D-bit right shift.
  • the moving average part MA2 has basically the same configuration as the moving average part MA1.
  • the subtracter 23 subtracts the output signal of the moving average unit MA2 from the signal obtained by delaying the output signal of the downsampler 1 by the D-1 sampling period, and outputs it as a signal from which the DC component has been removed.
  • FIG. 8 is a block diagram illustrating a functional configuration of the period detection unit 4_1 as an example.
  • the other period detectors 4_2 to 4_m have the same configuration as that of the period detector 4_1.
  • the cycle detection unit 4_1 includes a state detection unit 41 and a basic cycle estimation unit 42.
  • the state detection unit 41 includes a state information holding unit 41a.
  • the state detection unit 41 is supplied with the output signal of the previous harmonic attenuation filter 3_1 as an input signal.
  • the state detection unit 41 is means for detecting the state of the detection target from the input signal while selecting a state to be detected from a plurality of types of states related to the input signal in a predetermined order.
  • the state detection unit 41 includes a state STa in which the input signal crosses the zero level in the positive direction, a state STb in which the input signal has a positive peak, and a state STc in which the input signal crosses the zero level in the negative direction. Then, the detection of the state of the input signal is repeated on the assumption that the state STd in which the input signal has a negative peak is repeatedly generated in the order of STa ⁇ STb ⁇ STc ⁇ STd ⁇ STa ⁇ .
  • the state detection unit 41 sets the detection target as the state STb, ignores the other states STa, STc, and STd and outputs the input signal. Wait for state STb to occur.
  • the state detection unit 41 sets the detection target to the state STc, ignores the other states STa, STb, and STd, and generates the state STc in the input signal. Wait.
  • the state detection unit 41 selects a state to be detected in a predetermined order such as STd ⁇ STa ⁇ STb ⁇ STc ⁇ STd ⁇ ..., And detects the selected detection target from the input signal. is there.
  • the amplitude value of the positive peak immediately before that is detected is detected. If the absolute value of the detected amplitude value of the negative peak is extremely small compared to the absolute value of, it is considered that the negative peak has not been detected.
  • the current detection target is the state STb (positive peak) and the period detection unit 4_1 detects that a positive peak has occurred in the input signal, the absolute value of the amplitude value of the negative peak immediately before that is detected. If the absolute value of the detected amplitude value of the positive peak is extremely small compared to, it is considered that the positive peak has not been detected.
  • the state detection unit 41 is provided with a state information holding unit 41a that holds state information indicating the type, detection timing, and detected amplitude value of the states STa to STd detected by the state detection unit 41. ing.
  • the absolute value of the amplitude value of the detected peak is extremely smaller than the preceding peak.
  • the threshold value th is appropriately determined and the ratio r of the absolute value of the detected peak amplitude value to the absolute value of the amplitude value of the preceding peak is less than the threshold th, the absolute value of the detected peak amplitude value is You may make it judge that it is extremely small compared with a preceding peak.
  • the basic period estimation unit 42 is means for estimating the basic period information TF of the input signal based on the detection timing of the states STa, STb, STc, and STd by the state detection unit 41. In addition to estimating and outputting the basic period information TF of the input signal, the basic period estimation unit 42 in the present embodiment calculates and outputs reliability information NF indicating the fundamental wave likeness of the input signal waveform.
  • FIG. 9 is a flowchart showing the processing contents of the cycle detection unit 4_1.
  • the period detection unit 4_1 performs the process shown in FIG. 9 every time a sample of the input signal is taken from the harmonic attenuation filter 3_1.
  • steps Sa1, Sa2, and Sa4 are processes as the state detection unit 41
  • step Sa3 is a process as the basic period estimation unit 42.
  • the period detection unit 4_1 determines whether or not the currently selected detection target state has occurred in the input signal waveform indicated by the sample sequence captured so far. (Step Sa1). Specifically, when the currently selected detection target is the state STb (positive peak), it is determined whether or not a positive peak has appeared in the input signal waveform indicated by the sample sequence acquired up to the present time. When the determination result is “NO”, the period detection unit 4_1 ends the process and waits for a new input signal sample to be supplied from the harmonic attenuation filter 3_1.
  • step Sa2 determines whether or not the state corresponds to the above-described exclusion target (step Sa2). Specifically, for example, when the detection target is a positive peak and a positive peak is detected in step Sa1, the state information holding unit 41a is referred to, and the amplitude value of the positive peak with respect to the absolute value of the amplitude value of the immediately preceding negative peak It is determined whether or not the ratio of absolute values of these is less than a predetermined threshold.
  • the period detection unit 4_1 ends the process and waits for a new input signal sample to be supplied from the harmonic attenuation filter 3_1.
  • step Sa3 when the determination result in step Sa2 is “NO”, the period detection unit 4_1 uses the state information that has not been excluded from the state information that is the determination target in step Sa2 in the state information holding unit 41a. In addition to adding information indicating the fact, the basic period information and the reliability information are calculated with reference to the state information holding unit 41a (step Sa3).
  • FIG. 10 illustrates an example of the input signal waveform indicated by the sample sequence captured by the period detection unit 4_1.
  • the basic cycle estimation unit 42 of the cycle detection unit 4_1 refers to the state information holding unit 41a, and
  • the detection timings of the respective states within the period of about 2.5 cycles of the input signal up to the timing of the state STc, that is, STd, STa, STb, STc, STd, STa, STb, STc are obtained in order from the left.
  • the cycle detection unit 4_1 uses the time Ta between adjacent positive zero crossing timings and the adjacent negative zero crossing timings in the input signal waveform shown in FIG.
  • the time Tb between the adjacent positive peaks, the time Tc between the adjacent positive peaks, and the time Td between the adjacent negative peaks are calculated.
  • the period detector 4_1 calculates the basic period information TF of the input signal according to the following equation.
  • the period detection unit 4_1 calculates reliability information NF indicating the fundamental wave likelihood of the input signal waveform according to the following equation. Note that this equation (2) is an example, and the reliability information NF may be anything that can express variations in the times Ta, Tb, Tc, and Td.
  • the basic period estimation unit 42 of the period detection unit 4_1 holds the basic period information TF and the reliability information NF, which are the calculation results, in the output register. .
  • the selection unit 5 subsequent to the cycle detection unit 4_1 incorporates the basic cycle information TF and the reliability information NF into the output register and uses them for calculation processing for estimating the fundamental frequency.
  • the state detection unit 41 of the cycle detection unit 4_1 updates the detection target (step Sa4). That is, the state detection unit 41 sets the detection target to the state STb when the current detection target is the state STa, sets the detection target to the state STc when the current detection target is the state STb, and sets the current detection target to the state STb. If it is STc, the detection target is the state STd, and if the current detection target is the state STd, the detection target is the state STa. Then, the period detection unit 4_1 ends the process and waits for a new input signal sample to be supplied from the harmonic attenuation filter 3_1. The above is the processing content of the cycle detection unit 4_1.
  • FIG. 11 is a waveform diagram illustrating an operation example of the period detection unit 4_1.
  • FIG. 11 exemplifies an input signal waveform indicated by a sample sequence that the period detection unit 4_1 has taken from the harmonic attenuation filter 3_1.
  • the points S 1 to S 19 correspond to any of the states STa to STd.
  • those indicated by black circle marks are “YES” in step Sa 1 in FIG. 9 and “NO” in step Sa 2
  • those indicated by a cross mark are “NO” in Step Sa 1 or “YES” in Step Sa 2
  • the basic cycle information TF and the reliability are determined. This is a point that was not used for calculation of information NF.
  • point S 3 corresponds to the state STd (negative peak)
  • the point S 2 detects, without going through the detection of the state STc (negative zero crossing) Since it has been detected, it is determined in step Sa1 that it is not a detection target.
  • a point S 4 is corresponding to a state STb (positive peak), since the detected without a detection of the state STa (positive zero crossings), are determined not to be detected in step Sa1.
  • Points S 9 and S 10 are the same as points S 3 and S 4 .
  • Point S16 will be applicable to the state STd (negative peak), the absolute value of the point S 16 is far from the absolute value of S 14 that it is immediately before the state STb (positive peak). Therefore, with respect to the point S 16, the determination in step Sa2 is excluded "YES", the detection target. The points S 17 and S 18 are determined not to be detected in step Sa1 because the detection target is in the state STd (negative peak), but does not fall under it.
  • cycle detection unit 4_1 has been described above as an example, the same processing as that performed by the cycle detection unit 4_1 is performed in the other cycle detection units 4_2 to 4_m.
  • the state of the input signal that prevents the fundamental wave from appearing such as the appearance of a state that does not appear in a predetermined order and the extremely small peak with respect to the preceding peak Can be detected, and various states of the input signal can be detected to calculate the basic period information TF and the reliability information NF. Therefore, the basic period information can be accurately estimated even in a situation where the input signal includes harmonic components and it is difficult to estimate the basic period information.
  • any one of the period detectors 4_1 to 4_m mistakenly recognizes a higher-order harmonic other than the fundamental wave included in the input signal as a fundamental wave, and the input when the cycle of the misrecognized fundamental wave is regarded as a fundamental period.
  • the fundamental wave likelihood of the signal is increased (the basic period information TF calculated by the equation (2) is used and the reliability information NF calculated by the equation (3) is reduced). "May exceed the fundamental wave quality of the input signals of other period detectors. In such a case, an error occurs in the estimation of the fundamental frequency.
  • a fundamental frequency estimation method based on dynamic programming can be considered as one means for preventing such erroneous fundamental frequency estimation.
  • the estimation result of the basic period information TF is selected so that the time continuity of the basic period information TF that is the estimation result is maintained.
  • this method has a problem that erroneous estimation of the fundamental frequency is likely to occur when an input signal of a voice including a lot of subharmonics or a voice mixed with noise is given to the period detection units 4_1 to 4_m.
  • FIG. 12 (a) and 12 (b) are diagrams showing examples of audio signals that are likely to cause erroneous estimation of the fundamental frequency.
  • the horizontal axis represents time
  • the vertical axis represents the frequency of the audio signal.
  • FIG. 12A frequency modulation of the audio signal occurs in the areas Va and Vb.
  • the audio signal in the area Va is frequency-modulated by growl, and the modulation frequency is about 135 Hz.
  • the audio signal in the region Vb is subjected to frequency modulation by vibrato, and the modulation frequency is about 5 Hz.
  • FIG. 12B is an enlarged view of the waveform in the area Va in FIG.
  • the selection unit 5 When such an audio signal subjected to frequency modulation, particularly an audio signal subjected to frequency modulation at a high modulation frequency such as the frequency modulation by Growl, is given as an input signal, the selection unit 5 performs basic processing based on erroneous selection of the basic period. Incorrect frequency estimation is likely to occur.
  • the selection unit 5 using a non-linear cost function is employed as the selection unit 5 that obtains the final fundamental frequency F0 based on the basic period information TF that is the estimation result of the period detection units 4_1 to 4_m. is doing.
  • the selection unit 5 using a non-linear cost function is employed as the selection unit 5 that obtains the final fundamental frequency F0 based on the basic period information TF that is the estimation result of the period detection units 4_1 to 4_m. is doing.
  • the selection unit 5 is a cost function related to the “fundamental frequency” of the input signal waveform processed by the period detection units 4_1 to 4_m (that is, the probability that the estimated basic period is the basic period of the input signal). And a cost function value that includes both a cost function relating to time continuity of the fundamental period and a non-linear cost function, and the fundamental period information TF k output by the period detection unit 4_k that minimizes the cost function value is obtained . Select and calculate the fundamental frequency F0.
  • the cost function value D i, j shown in the following equation is calculated.
  • D i ⁇ 1, k is a cost function value for the selection of the basic period information TF i ⁇ 1, k of the period detection unit 4_k performed in the frame i ⁇ 1 immediately before the frame i.
  • d i, j is a cost function value based on the fundamental wave likeness of the input signal waveform used for estimating the basic period information TF i, j .
  • ⁇ i, j, k is a cost function value related to time continuity of the basic period when the basic period information TF i, j of the period detection unit 4_j is selected in the frame i.
  • FIG. 13 is a diagram schematically illustrating processing performed by the selection unit 5.
  • Cumulative costs D i ⁇ 1, k + ⁇ i, 2, k are respectively calculated for, and the smallest one of the accumulated costs is selected.
  • the accumulated cost D i, 2 when selecting some basic period information TF i , 2 is calculated.
  • the basic period information TF i, j that minimizes the accumulated cost D i, j is selected, and the reciprocal thereof is output as the basic frequency F0.
  • the cost function value d i, j based on the basic wave likeness of the input signal waveform is calculated according to the following equation (4).
  • is a predetermined constant.
  • the cost function value ⁇ i, j, k regarding the time continuity of the basic cycle information TF i, j is calculated according to the following equation (5).
  • FREQ_WT is a predetermined constant.
  • GNL ( ⁇ j, k ) is a nonlinear function value of the transition amount ⁇ j, k from the basic period information TF i ⁇ 1, k to the basic period information TF i, j .
  • the transition amount is, for example, the difference between the logarithm of the basic period information TF i ⁇ 1, k and the logarithm of the basic period information TF i, j .
  • FIG. 14 is a diagram illustrating an example of the nonlinear function gNL ( ⁇ j, k ).
  • the nonlinear function gNL ( ⁇ j, k ) has a small function value in the region where the transition amount ⁇ j, k of the basic period information is within the allowable range, and the transition amount ⁇ of the basic period information. In the region where j and k exceed the allowable range, the function value increases greatly as the transition amount increases.
  • the cost function [delta] i, j with respect to time continuity of the fundamental period, as k such non-linear function GNL (xi] j, k) cost function [delta] i, j including, adopted k Yes.
  • the cost function value ⁇ is limited as long as the fluctuation width of the frequency fluctuation is within an allowable range. i, j, and k do not increase significantly.
  • the present embodiment while maintaining the time continuity of the basic period information TF, it accepts frequency fluctuations within an allowable range of an audio signal subjected to frequency modulation by vibrato or frequency modulation by glow, and the like.
  • the fundamental frequency F0 of the signal can be accurately estimated.
  • FIGS. 15A to 15C are diagrams showing the effects of this embodiment.
  • the horizontal axis is time.
  • the vertical axis in FIGS. 15A and 15C is the frequency, and the vertical axis in FIG. 15B is the reliability information that is a numerical value between 0 and 1.
  • FIG. 15 (a) shows basic frequency information S1 to S4 that are reciprocals of the basic period information TF1 to TF4 output by the period detectors 4_1 to 4_4.
  • FIG. 15B shows reliability information corresponding to each basic period information that is the basis of the basic frequency information S1 to S4.
  • FIG. 15C shows the fundamental frequency information S2 finally output by the selection unit 5.
  • the reliability information corresponding to the fundamental frequency information S2 is temporarily lowered. Therefore, the reliability information corresponding to the fundamental frequency information S4 is basically the same. The reliability information corresponding to the frequency information S2 is exceeded.
  • the basic period information used for calculating the fundamental frequency is selected using the cost function related to the time continuity of the fundamental period, as shown in FIG.
  • the fundamental frequency information S4 is output as an estimation result.
  • the fundamental frequency F0 of the audio signal having the frequency variation within the allowable range is accurately estimated. can do.
  • Signal processing that handles sound signals includes signal processing that uses pitch marks in the sound signal waveform, such as PSOLA (Pitch Synchronous OverLap Add).
  • the pitch mark is a timing set for each period of the fundamental wave in the sound signal.
  • FIGS. 16A and 16B are waveform diagrams showing an example of signal processing based on PSOLA.
  • FIG. 16A shows the waveform of the sound signal Sa over a plurality of basic periods and the pitch mark Mp set for each basic period of the sound signals.
  • window functions W1 to W5 that are maximum values at the pitch mark Mp of the basic period are multiplied for each basic period of the sound signal Sa.
  • FIG. 16 (b) an operation of moving and adding the sound signals of the respective basic periods multiplied by the window function along the time axis is performed.
  • the sound signal Sa multiplied by the window functions W1, W3, W4, and W5 is on the time axis. They are arranged closer than in FIG. 16A and are added. In the example of FIG. 16B, the pitch of the sound signal Sa is lower than that of the original sound signal (FIG. 16A).
  • the pitch mark is an important factor that affects the quality of the signal processing.
  • the sound signal is multiplied by a window function that is maximal at the position of the pitch mark, so that it is not desired to change the waveform by multiplying the window function by a position where the characteristics of the sound tend to appear within the fundamental period of the sound waveform.
  • the position is preferably a pitch mark.
  • GCI Global Closure Instant
  • SEDREAMS Sound Event Detection using Residual Exclusion And Man-Based Signal
  • FIG. 17A illustrates the waveform of the audio signal to be processed. This audio signal is applied to the LPF, and a filtered signal having a band below the fundamental frequency of the audio signal is obtained.
  • FIG. 17B illustrates the waveform of this filtered signal.
  • a linear prediction residual signal of the speech signal is generated.
  • FIG. 17E illustrates the waveform of this linear prediction residual signal.
  • the amount of information is large in the vicinity of the GCI, so that a peak is likely to occur in the linear residual prediction signal.
  • FIG. 17B a period from the negative peak of the filtered signal to the positive zero crossing is defined as a search period for searching for GCI.
  • FIG. 17C shows a waveform indicating this search period.
  • a period in which the waveform shown in FIG. 17C is at the H level is a search period. Then, the positive peak within the search period is selected as the GCI from the linear prediction residual signal.
  • the positive peak marked with an X mark indicates the GCI selected in this way.
  • a positive peak marked with a circle is a positive peak outside the search period.
  • a differential EGG (ElectroGlottoGraph) signal in order to evaluate the performance of SEDREAMS, a differential EGG (ElectroGlottoGraph) signal (see FIG. 17D) indicating the movement of the throat of a person who utters the audio signal of FIG. The correct value is compared with the GCI detected by SDREAMS.
  • This differential EGG is a signal obtained by differentiating the EGG signal obtained by the EGG measuring instrument. 17D and 17E are compared, the GCI detected by SEDREAMS (the x mark in FIG. 17E) agrees well with the correct value (negative peak in FIG. 17D). I understand.
  • this SEDREAMS has the following problems.
  • the fundamental frequency and pitch mark of the signal to be processed are used.
  • SEDREAMS although a pitch mark can be obtained, there is a problem that there is no guarantee that a fundamental frequency that matches the pitch mark can be obtained.
  • SEDREAMS uses a linear prediction residual signal of a speech signal to be processed.
  • This has the following problems.
  • the analysis window width and analysis order settings do not match the nature of the signal being processed, the peak indicating GCI does not appear clearly in the linear prediction residual signal There is.
  • the linear prediction residual signal there are many cases where the peak due to consonant or external noise appears larger than the peak due to vocal cord vibration such as GCI, and it is difficult to detect GCI in those cases. It is.
  • the peak may not appear in the linear prediction residual signal .
  • GCI cannot be obtained.
  • SEDREAMS has a problem that consistency between the basic period of the audio signal to be processed and the estimated pitch mark is not guaranteed. Hereinafter, this problem will be described.
  • the pitch mark has the reciprocal of the interval exactly matching the fundamental frequency.
  • a technique based on peak detection such as SEDREAMS. Since SDREAMS can only select one of the peaks that appear discretely in the linear prediction residual signal on the time axis, it does not necessarily match the more continuous transition of the fundamental frequency.
  • the linear prediction residual signal for such a signal is often as shown in FIG.
  • the peak of this linear prediction residual signal is detected as a pitch mark, it becomes as shown by a black circle in FIG. 18B, for example.
  • the fundamental frequency of this signal is essentially constant, the period T2 between the peaks in the figure is suddenly larger than the periods T0 and T1, and the period T3 is suddenly smaller.
  • the fundamental frequency of the waveform after the operation is disturbed even though the pitch marks are operated at regular intervals. That is, jitter occurs.
  • Such synthesized speech like including noise associated with discontinuities in the fundamental frequency.
  • the second embodiment of the present disclosure has been made in view of the above circumstances, and can stably estimate a pitch mark that matches the fundamental frequency of a sound signal to be processed with a small calculation cost.
  • a signal processing device that can be used.
  • FIG. 19 is a block diagram showing a functional configuration of a signal processing apparatus according to the second embodiment of the present disclosure.
  • the cycle detection units 4_1 to 4_m of the signal processing device (FIG. 1) according to the first embodiment are replaced with the cycle detection units 4_1 ′ to 4_m ′ to which a pitch mark estimation function is added. Yes.
  • pitch mark buffers 6_1 to 6_m and a selection unit 7 are added to the signal processing device according to the present embodiment.
  • FIG. 20 is a waveform diagram showing the contents of pitch mark estimation processing performed by the cycle detection units 4_1 'to 4_m'.
  • FIG. 20 illustrates an output signal waveform of the harmonic attenuation filter 3_j in the previous stage of the period detection unit 4_j ′.
  • the cycle detection unit 4_j ′ estimates the timing between the negative peak of the output signal waveform of the harmonic attenuation filter 3_j and the next positive zero crossing point as a pitch mark.
  • the period detector 4_j ′ obtains times t1 to t4 shown in FIG. 20 when the negative peak shown on the rightmost side of FIG. 19 is detected from the output signal of the harmonic attenuation filter 3_j.
  • the time t4 is a time at which the period T4 between the negative peak and the negative peak one before it is divided into two equal parts.
  • Time t3 is a time at which the period T3 between the negative zero crossing just before the negative peak and the negative zero crossing just before it is divided into two equal parts.
  • the time t2 is a time at which the period T2 between the positive peak immediately before the negative peak and the positive peak immediately before is divided into two equal parts.
  • Time t1 is a time at which the period T1 between the positive zero crossing just before the negative peak and the positive zero crossing just before it is divided into two equal parts. Then, the cycle detection unit 4_j ′ calculates time information of the pitch mark Mp according to the following equation.
  • the pitch mark Mp is located between the negative peak of the output signal waveform of the harmonic attenuation filter 3_j and the subsequent positive zero crossing point.
  • the period detection unit 4_j ′ obtains the above t1 to t4 each time a negative peak occurs in the output signal of the harmonic attenuation filter 3_j, and calculates the pitch mark Mp by performing the calculation of Expression (6).
  • FIG. 21 is a waveform diagram showing another example of pitch mark estimation processing performed by the cycle detection units 4_1 'to 4_m'.
  • the period detection unit 4_j ′ performs a period T between the positive zero crossing and the positive zero crossing just before that.
  • a time 7T / 8 of 7/8 is obtained, and a timing when the time 7T / 8 has elapsed from the immediately previous positive zero crossing is defined as a pitch mark Mp.
  • the period detectors 4_1 ′ to 4_m ′ each estimate the pitch mark Mp from the output signal waveforms of the harmonic attenuation filters 3_1 to 3_m as described above, and information indicating the pitch mark Mp as an estimation result is used as the pitch mark buffer 4_1. Accumulate in ' ⁇ 4_m'.
  • the selection unit 7 reads information on the pitch mark Mp from each of the pitch mark buffers 4_1 ′ to 4_m ′, and selects and outputs information on one pitch mark Mp from them. The selection operation of the selection unit 7 is performed in conjunction with the selection operation of the selection unit 5.
  • the selection unit 5 takes in the basic cycle information TF and the reliability information NF from the cycle detection units 4_1 ′ to 4_m ′ and selects the basic cycle information TF output by one cycle detection unit 4_j ′ from them.
  • the selection unit 7 selects and outputs information on the pitch mark Mp output from the fundamental wave detection unit 4_j ′ and belonging to the basic period indicated by the selected basic period information TF. Accordingly, the pitch mark Mp selected by the selection unit 7 is matched with the fundamental frequency output from the selection unit 5.
  • FIGS. 22A to 22C are diagrams showing the operation of this embodiment.
  • the horizontal axis represents time.
  • FIG. 22A shows the input signal waveform of the signal processing apparatus according to the present embodiment and the pitch mark Mp output from the selection unit 7.
  • FIG. 22B shows the waveform of the differential EGG signal acquired from the throat of the voice speaker corresponding to the input signal of FIG.
  • FIG. 22C shows the waveform of the linear prediction error signal generated from the input signal of FIG. 22 (a) and 22 (b), it can be seen that the timing of the pitch mark Mp estimated in the present embodiment is in good agreement with the timing at which a negative peak occurs in the differential EGG signal.
  • the pitch mark Mp is appropriately estimated even during the period Tu in which the negative peak does not appear in the differential EGG signal.
  • a clear peak does not appear in the linear prediction residual signal during the period from time 0.5 to time 0.64, but in this embodiment, the pitch mark Mp is appropriately estimated even during this period. I understand that.
  • a signal obtained by inverting the polarity of the original input signal may be input to the signal processing apparatus according to the present embodiment.
  • this is the case when a signal that has undergone waveform processing is input to the signal processing device.
  • the signal processing device is provided with a function of determining the polarity of the input signal.
  • FIG. 23 is a block diagram showing a configuration of a signal processing apparatus to which a positive / negative determination function is added.
  • the pitch mark buffers 6_1 to 6_m and the selection unit 7 of FIG. 19 are not shown in order to prevent the drawing from becoming complicated.
  • the polarity of the input signal is determined by examining the amplitude of the original input signal for each positive and negative period of the output signals of the harmonic attenuation filters 3_1 to 3_m. This is based on the empirical fact that the amplitude of the speech waveform takes the maximum value and the minimum value within one period before and after the GCI.
  • the selection unit 5 when the selection unit 5 selects the estimation result of the basic cycle output from the cycle detection units 4_1 'to 4_m', the selection unit 5 supplies the selection result to the candidate selection unit 110.
  • the selection result is an index j indicating the pass band of the harmonic attenuation filter 3_j in the previous stage of the period detection unit 4_j ′ that has selected the estimation result of the fundamental period.
  • the output signals of the harmonic attenuation filters 3_1 to 3_m are supplied to the m additional delay units 101, respectively. These additional delay units 101 delay the output signals of the harmonic attenuation filters 3_1 to 3_m and supply them to the candidate selection unit 110. This delay processing is performed in order to match the delay of the signal of the other band with the signal of the band having the largest group delay among the output signals of the harmonic attenuation filters 3_1 to 3_m.
  • the candidate selection unit 110 selects one of the output signals of the harmonic attenuation filters 3_1 to 3_m that has undergone the delay process according to the selection result from the selection unit 5, and supplies the selected output signal to the positive / negative determination unit 120. More specifically, the candidate selection unit 110 selects the output signal of the harmonic attenuation filter 3_j that has undergone the delay processing of the additional delay unit 101 when the selection result from the selection unit 5 indicates the harmonic attenuation filter 3_j. And supplied to the positive / negative determination unit 120.
  • the positive / negative determination unit 120 sets the positive signal TP to the active level and the negative signal TN to the inactive level during the period when the output signal of the candidate selection unit 110 is positive, and the positive signal during the period when the output signal of the candidate selection unit 110 is negative.
  • TP is set to the inactive level
  • the negative signal TN is set to the active level.
  • the Max-min unit 131 holds the difference max-min between the maximum value max and the minimum value min of the output signal of the DC removal filter 2 within the period in which the positive signal TP is at the active level, and supplies the difference max-min to the comparison unit 140.
  • the Max-min unit 132 holds the difference max-min between the maximum value max and the minimum value min of the output signal of the DC removal filter 2 during the period in which the negative signal TN is at the active level, and supplies the difference max-min to the comparison unit 140.
  • the comparison unit 140 compares the difference max-min of the positive polarity period supplied from the Max-min unit 131 with the difference max-min of the negative polarity period supplied from the Max-min unit 132. If the difference max-min in the negative polarity period is larger than the difference max-min in the positive polarity period, it is determined that the input signal is positive, and the difference max-min in the positive polarity period is the difference in the negative polarity period. If it is greater than max-min, it is determined that the input signal is negative.
  • pitch mark estimation processing is executed according to the determination result of the comparison unit 140. For example, if the period detectors 4_1 ′ to 4_m ′ estimate the pitch mark by the process shown in FIG. 20, when the polarity of the input signal is positive, the output signal of the harmonic attenuation filter 3_j has a negative peak. When an occurrence occurs, arithmetic processing for pitch mark estimation is executed, and when the polarity of the input signal is negative, when a positive peak occurs in the output signal of the harmonic attenuation filter 3_j, pitch mark estimation is performed. Perform arithmetic processing.
  • switching control for determining whether to invert the polarity of the output signal of the DC removal filter 2 may be performed based on the positive / negative determination result.
  • FIG. 24 is a waveform diagram showing an example of processing for positive / negative determination.
  • the horizontal axis represents time
  • the vertical axis represents the signal value of the output signal SS2 of the DC removal filter 2 or the signal value of the output signal SS110 of the candidate selection unit 110.
  • the candidate selection unit 110 is more than the difference max-min between the maximum value and the minimum value of the output signal SS2 of the DC removal filter 2 within the period TP in which the output signal SS110 of the candidate selection unit 110 is positive.
  • the difference max-min between the maximum value and the minimum value of the output signal SS2 of the DC removal filter 2 within the period TN in which the output signal SS110 is negative is larger. For this reason, the comparison unit 140 determines that the input signal is positive.
  • This positive / negative determination is preferably performed on the signal SS2 for several cycles, and positive / negative is determined by majority vote.
  • the reason is as follows. First, the vocal cord vibration itself is unstable during the first few cycles from the start of utterance. This is also because the influence of the immediately preceding consonant (particularly the plosive sound) remains on the vowel audio signal. This is also because there is a possibility that an error in positive / negative determination may occur due to noise or the like.
  • the execution timing of the positive / negative determination is controlled by any of the following processes.
  • Process a Causes the selection unit 5 to determine whether the audio signal to be processed belongs to a voiced section or an unvoiced section. Then, positive / negative determination is performed using several cycles in the section determined to be voiced first, and then the positive / negative determination result is used. That is, based on the result of the positive / negative determination, if necessary, the calculation processing method for pitch mark estimation is switched, or the polarity of the output signal of the DC removal filter 2 is reversed. The determination of whether the audio signal is in a voiced section or an unvoiced section may be made based on reliability information indicating the fundamental frequency of the basic period information selected by the selection unit 5, for example.
  • Process b The selection unit 5 is made to continuously determine whether the processing target audio signal belongs to the voiced section or the unvoiced section. Then, every time it is determined as a voiced section, positive / negative determination is performed using the first several cycles of the voiced section, and based on the positive / negative determination result, if necessary, an arithmetic processing method for pitch mark estimation Switching or inversion of the polarity of the output signal of the DC removal filter 2 is performed.
  • the voiced section always accumulates the positive / negative judgment result of each voiced section. If the polarity of the input signal does not change in the middle, the accumulated amount of the positive / negative determination result increases with time, and the reliability of the majority decision of the positive / negative determination result increases. However, since the polarity switching based on the positive / negative judgment result should not be performed in the middle of the voiced interval, the arithmetic processing method for pitch mark estimation based on the positive / negative judgment result is changed only at the transition from the unvoiced interval to the voiced interval, or The polarity of the output signal of the DC removal filter 2 is inverted.
  • the positive / negative judgment results are accumulated within a certain time, for example, within the past 5 seconds, rather than all the past. Reference may be made to make a positive / negative determination.
  • the signal processing apparatus executes all the arithmetic processes as the down sampler 1, the DC removal filter 2, the harmonic attenuation filters 3_1 to 3_m, the period detection unit 4_m, and the selection unit 5. there were.
  • the signal processing device may cause the other arithmetic device to execute some of these operations and use the execution result.
  • a mode is conceivable in which a coprocessor is caused to execute arithmetic processing of the harmonic attenuation filters 3_1 to 3_m, and the signal processing apparatus executes arithmetic processing other than the harmonic attenuation filters 3_1 to 3_m using this coprocessor.
  • the second embodiment executes all the arithmetic processes as the down sampler 1, the DC removal filter 2, the harmonic attenuation filters 3_1 to 3_m, the period detection unit 4_m, and the selection unit 5.
  • the signal processing device may cause the other arithmetic device to execute some of these operations and use the execution result.
  • a mode is conceivable in which
  • each application program for executing the arithmetic processing of the down sampler 1, the DC removal filter 2, the harmonic attenuation filters 3_1 to 3_m, the period detection unit 4_m, and the selection unit 5 is executed by an ASP (Application Service). (Provider) server, and the user may receive a desired application program from the server and cause the computer to execute it.
  • ASP Application Service
  • the signal processing method of the present disclosure includes a plurality of harmonic attenuation filter processing steps for generating a signal used for estimating a fundamental frequency of the input signal by performing band limitation of the input signal according to different bandpass characteristics.
  • a filtering process comprising an accumulation process and a comb filter processing process in which an output signal of one process becomes an input signal of the other process is performed recursively one or more times.
  • the accumulation process the input signal for the accumulation process is accumulated, and in the comb filter process, the difference between the input signal for the comb filter process and a signal obtained by delaying the input signal is calculated. Output.
  • the signal processing method of the present disclosure includes, for example, a plurality of period detection processes performed after the plurality of harmonic attenuation filter processing processes, and each of the plurality of period detection processes includes a plurality of states related to an input signal.
  • a state detection process for detecting a state of the detection target from the input signal while selecting a state to be detected from a predetermined order, and a period of the input signal is estimated based on the detection timing of the state by the state detection process And a period estimation process.
  • the subsequent peak is detected, and the amplitude of the subsequent peak is detected with respect to the absolute value of the amplitude value of the preceding peak.
  • the absolute value of the value is smaller than a predetermined limit, it is considered that the subsequent peak has not been detected.
  • the signal processing method of the present disclosure receives, for example, output information including at least an estimation result of the basic period of the input signal from the plurality of period detection processes, and selects the basic period of the input signal from the basic period indicated by each output information
  • a cost function having, as an independent variable, a difference between a fundamental period that is a preceding selection result and a fundamental period indicated by output information received from each of the plurality of period detection processes.
  • the basic period is selected using a cost function whose function value is nonlinear with respect to the difference.
  • the signal processing device includes a plurality of harmonic attenuation filters each having different bandpass characteristics, performing band limitation on the input signal, and outputting each signal used for estimating the fundamental frequency of the input signal.
  • Each of the plurality of harmonic attenuation filters includes an accumulator that accumulates an input signal for itself, and a comb filter that outputs a difference between the input signal for itself and a signal obtained by delaying the input signal. Includes a cascaded filter.
  • the harmonic attenuation filter which includes cascaded accumulators and comb filters, functions as a low-pass filter with a gradual shoulder characteristic, and combines the fundamental wave component in the input signal and the appropriately attenuated high-order harmonic component.
  • the output signal of any harmonic attenuation filter has a higher-order harmonic component attenuated than the fundamental wave component compared to the input signal, and is a signal having a waveform that seems to be a fundamental wave rather than the input signal waveform. Therefore, according to this disclosure, a signal that can be used for estimation of the fundamental frequency can be obtained with a small number of harmonic attenuation filters. Therefore, the calculation amount or hardware for estimating the fundamental frequency can be reduced, and the fundamental frequency can be estimated at high speed.
  • the fundamental period estimation means that are robust against erroneous estimation of the fundamental period due to higher order harmonics is required.
  • the signal processing device of the present disclosure includes a state detection unit that detects a state of the detection target from the input signal while selecting a state to be detected from a plurality of types of states related to the input signal in a predetermined order; Period estimation means for estimating the basic period of the input signal based on the detection timing of the state by the state detection means.
  • the signal processing method of the present disclosure includes a state detection process of detecting a state of the detection target from the input signal while selecting a state to be detected from a plurality of types of states related to the input signal in a predetermined order; A period estimation process for estimating the period of the input signal based on the detection timing of the state by the state detection process.
  • the state of the detection target is detected from the input signal while selecting the state to be detected from a plurality of types of states in a predetermined order, the higher-order harmonic component included in the input signal is detected.
  • the higher-order harmonic component included in the input signal is detected.
  • fundamental period estimation means that estimates the fundamental period based on the input signal waveform
  • the higher-order harmonic components are converted to the fundamental component. Is likely to be mistaken.
  • an input signal is supplied to a plurality of harmonic attenuation filters having different bandpass characteristics, and an output signal of each harmonic attenuation filter is supplied to a plurality of fundamental period estimation means, so that the time continuity of the fundamental period is maintained.
  • one basic period is selected from the basic periods estimated by each basic period estimating means.
  • the fundamental period estimated by other fundamental period estimation means is selected so that the temporal continuity of the fundamental period is maintained. Therefore, it is possible to prevent the basic period from being erroneously selected.
  • the fundamental period time continuity is prioritized in spite of the fact that the fundamental period is actually fluctuating.
  • a basic period may be selected.
  • the signal processing apparatus receives fundamental wave information that is an estimation result regarding the fundamental wave component of the input signal from a plurality of fundamental wave estimation units, and selects one fundamental wave information from the fundamental wave information.
  • the selection unit is a cost function having an independent variable as a difference between the fundamental wave information which is a preceding selection result and the fundamental wave information received from each of the plurality of fundamental wave estimation units,
  • the fundamental wave information is selected using a cost function whose function value is nonlinear.
  • the signal processing method of the present disclosure receives fundamental wave information that is an estimation result related to a fundamental wave component of an input signal from a plurality of fundamental wave estimation units, and selects one fundamental wave information from these fundamental wave information And in the selection process, a cost function having an independent variable as a difference between fundamental wave information as a preceding selection result and fundamental wave information received from each of the plurality of fundamental wave estimation units, The fundamental wave information is selected using a cost function whose function value is nonlinear.
  • the fundamental wave information is information indicating a fundamental period or a fundamental frequency, for example. According to this disclosure, it is possible to appropriately select the fundamental frequency information while maintaining the temporal continuity of the fundamental frequency information while allowing the temporal variation of the fundamental frequency information within the allowable range.
  • Signal processing related to sound signals includes signal processing using pitch marks.
  • pitch marks In the signal processing using such a pitch mark, when the basic period of the sound signal continuously changes with time, it is good if the pitch mark used for the signal processing does not match the basic period of the sound signal. There is no signal processing.
  • a pitch mark estimation means that can obtain a pitch mark having good consistency with the fundamental period of a sound signal.
  • the present disclosure has a plurality of harmonic attenuation filters each having a different bandpass characteristic and performing band limitation of the input signal, and the input based on the output signals of the plurality of harmonic attenuation filters.
  • a plurality of fundamental wave estimators for estimating the fundamental component of the signal, and a pitch for each period of the fundamental wave estimated by the plurality of fundamental wave estimators based on the output signals of the plurality of harmonic attenuation filters A plurality of pitch mark estimators for estimating each of the marks, a fundamental wave component estimated by the plurality of fundamental wave estimators, and one common harmonic from the pitch marks estimated by the plurality of pitch mark estimators
  • a signal processing apparatus comprising selection means for selecting a fundamental wave component and a pitch mark estimated based on an output signal of an attenuation filter.
  • the information processing method of the present disclosure is based on a plurality of harmonic attenuation filter processing steps for outputting the band-limited input signal according to different bandpass characteristics and output signals of the plurality of harmonic attenuation filters, respectively. And a plurality of fundamental wave estimation processes for estimating the fundamental wave component of the input signal, and a fundamental wave to be estimated by the plurality of fundamental wave estimation processes based on output signals of the plurality of harmonic attenuation filter processing processes.
  • an intermediate timing between the negative peak of the output signal of the harmonic attenuation filter process and the positive zero crossing is estimated as the pitch mark.
  • the difference between the maximum value and the minimum value of the input signal in the harmonic attenuation filter process in each of the positive period and the negative period of the output signal in the harmonic attenuation filter process is compared.
  • a polarity determination process for determining the polarity of the input signal in the harmonic attenuation filter process is provided, and the pitch mark estimation process estimates the pitch mark based on the determination result of the polarity determination process.
  • a signal that can be used for estimation of the fundamental frequency can be obtained by the harmonic attenuation filter processing. Therefore, the calculation amount or hardware for estimating the fundamental frequency is reduced, and the fundamental frequency can be estimated at high speed, which is useful.

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Noise Elimination (AREA)

Abstract

信号処理装置は、各々異なるカットオフ周波数を有し、入力信号におけるカットオフ周波数を越える帯域の信号を減衰させ、入力信号の基本周波数の推定に用いられる信号を各々出力する複数の調波減衰フィルタ(3_1~3_m)を有する。複数の調波減衰フィルタ(3_1~3_m)の各々は、自身に対する入力信号を累算する累算器(30a)と、自身に対する入力信号とカットオフ周波数に基づいて決定された遅延時間だけ当該入力信号を遅延した信号との差分を出力するコムフィルタ(30b)とからなる巡回型移動平均フィルタを複数段縦続接続した構成を有する。

Description

信号処理方法および信号処理装置
 この開示は、信号処理技術に係り、特に音信号の基本周波数の推定に好適な信号処理方法および信号処理装置に関する。
 基本周波数は、人間が知覚する音の高さ(ピッチと呼ばれる)と強く関係する量であるので、その値自体の利用価値が高い。一般会話におけるイントネーションの分析、歌声における音高の分析(カラオケ採点等)、音声符号化における音高情報の表現等にも基本周波数が用いられる。また、近年の高品質な音声分析においても、基本周波数は、分析のための補助情報として重要な役割を果たす。
 しかし、音の基本周波数を推定するのは一般的に難しい。この基本周波数の推定を難しくしている要因の1つとして、基本周波数成分とともに音に含まれている高次調波成分(倍音成分とも呼ばれる)の存在がある。音の基本周波数を求めるために、ローパスフィルタ等により高次調波成分を音から除去することが考えられる。しかし、基本周波数自体が不明であるため、高次調波成分を除去するためのローパスフィルタのカットオフ周波数を決定することができない。
 この問題を解決するための技術として、非特許文献1に開示された技術がある。この非特許文献1に開示の技術では、カットオフ周波数の異なる複数のローパスフィルタに対し、基本周波数が未知である入力信号を与える。ここで、複数のローパスフィルタは、入力信号が各々のカットオフ周波数以上の周波数の高次調波成分を含む場合にそれらの高次調波成分を減衰させる役割を果たす。従って、以下では便宜上、これらのローパスフィルタを調波減衰フィルタと呼ぶ。非特許文献1に開示の技術では、複数の調波減衰フィルタの出力信号から入力信号の基本周期を推定し、それらの推定結果の中から最も信頼することができる推定結果を選択することにより基本周波数を求める。
森勢将雅、河原英紀、西浦敬信、「基本波検出に基づく高SNRの音声を対象とした高速なF0推定法」、電子情報通信学会論文誌、社団法人電子情報通信学会、2010年2月1日、Vol.J93-D No.2、pp.109-117
DRUGMAN, Thomas; DUTOIT, Thierry. Glottal closure and opening instant detection from speech signals. In: Interspeech. 2009. p. 2891-2894.
 ところで、上述した従来の技術では、入力信号の基本周波数を正確に推定するために、調波減衰フィルタを多数設ける必要がある。従って、基本周波数を推定するための手段を信号処理装置が実行する演算処理により実現する場合には、信号処理装置の演算量が嵩み、入力信号の基本周波数の推定を高速に行うのが困難になるという問題がある。また、基本周波数を推定するための手段を電子回路等のハードウェアにより実現する場合には、ハードウェアが大規模なものとなり、価格が高価になる問題がある。
 この開示は以上のような事情に鑑みてなされたものであり、演算量を低減することができ、あるいは小規模のハードウェアで実現でき、入力信号の基本周波数の推定を高速に行うことができる信号処理のための技術的手段を提供することを目的としている。
 本開示は、各々、異なる帯域通過特性に従って、入力信号の帯域制限を行って、前記入力信号の基本周波数の推定に用いられる信号を各々生成する複数の調波減衰フィルタ処理過程を有し、前記複数の調波減衰フィルタ処理過程の各々では、一方の過程の出力信号が他方の過程の入力信号となる累算過程およびコムフィルタ処理過程からなるフィルタ処理を1または複数回再帰的に実行し、前記累算過程では、当該累算過程に対する入力信号を累算し、前記コムフィルタ処理過程では、当該コムフィルタ処理過程に対する入力信号と当該入力信号を遅延させた信号との差分を出力する信号処理方法を提供する。
 また、本開示は、入力信号に関する複数種類の状態の中から検出対象とする状態を所定の順序で選択しつつ前記入力信号から検出対象の状態を検出する状態検出過程と、前記状態検出過程による前記状態の検出タイミングに基づいて前記入力信号の周期を推定する周期推定過程とを具備する信号処理方法を提供する。
 また、本開示は、複数の基本波推定部から入力信号の基本波成分に関する推定結果である基本波情報を受け取り、これらの基本波情報から1つの基本波情報を選択する選択過程を具備し、前記選択過程では、先行する選択結果である基本波情報と前記複数の基本波推定部から各々受け取る基本波情報との差分を独立変数とするコスト関数であって、前記差分に対して関数値が非線形であるコスト関数を用いて前記基本波情報の選択を行う信号処理方法を提供する。
 また、本開示は、各々、異なる帯域通過特性に従って、入力信号の帯域制限を行って出力する複数の調波減衰フィルタ処理過程と、前記複数の調波減衰フィルタの出力信号に基づいて、前記入力信号の基本波成分を各々推定する複数の基本波推定過程と、前記複数の調波減衰フィルタ処理過程の出力信号に基づいて、前記複数の基本波推定過程により推定させる基本波の1周期毎にピッチマークを各々推定する複数のピッチマーク推定過程と、前記複数の基本波推定過程により推定された基本波成分および前記複数のピッチマーク推定過程により推定されたピッチマークの中から共通の調波減衰フィルタの出力信号に基づいて推定された基本波成分およびピッチマークを選択する選択過程とを具備する情報処理方法を提供する。
 この開示によれば、少ない個数の調波減衰フィルタまたは調波減衰フィルタ処理過程により、基本周波数の推定に利用可能な信号を得ることができる。よって、基本周波数の推定のための演算量あるいはハードウェアを少なくし、基本周波数の推定を高速に行うことができる。
図1は、この開示の第1実施形態である信号処理装置の機能構成を示すブロック図である。 図2は、第1実施形態における調波減衰フィルタの機能構成を例示するブロック図である。 図3は、同調波減衰フィルタの周波数-振幅特性の例を示す図である。 図4は、同調波減衰フィルタの周波数-振幅特性の他の例を示す図である。 図5は、第1実施形態におけるダウンサンプラの構成例を示すブロック図である。 図6は、第1実施形態における直流除去フィルタの基本構成を示すブロック図である。 図7は、同直流除去フィルタの具体的構成例を示すブロック図である。 図8は、第1実施形態における周期検出部の構成を示すブロック図である。 図9は、同周期検出部の処理内容を示すフローチャートである。 図10は、同周期検出部の基本周期推定部の処理内容を説明するための波形図である。 図11は、同周期検出部の動作例を示す波形図である。 図12(a)および(b)は、基本周波数の誤推定を招き易い音声信号の例を示す図である。 図13は、第1実施形態における選択部の処理内容を示す図である。 図14は、同選択部において使用される非線形関数を示す図である。 図15(a)~(c)は、同選択部の動作例を示す図である。 図16(a)および(b)は、ピッチマークを利用した信号処理の例を示す波形図である。 図17(a)~(e)は、従来のピッチマークの推定方法を説明する図である。 図18(a)~(c)は、ピッチマークと基本周期との整合性が要求される理由を説明する波形図である。 図19は、この開示の第2実施形態である信号処理装置の機能構成を示すブロック図である。 図20は、第2実施形態におけるピッチマークの推定方法を示す波形図である。 図21は、同推定方法の他の例を示す波形図である。 図22(a)~(c)は、第2実施形態の効果を示す波形図である。 図23は、第2実施形態における極性判定のための機能構成を示すブロック図である。 図24は、同極性判定の例を示す波形図である。
 以下、図面を参照しつつ本開示の実施の形態について説明する。
[第1実施形態]
<全体構成>
 図1はこの開示の第1実施形態である信号処理装置の機能構成を示すブロック図である。本実施形態による信号処理装置は、音信号の基本周波数を推定する装置である。図1に示すように、この信号処理装置の機能は、ダウンサンプラ1と、直流除去フィルタ2と、m個(mは2以上の整数)の調波減衰フィルタ3_1~3_mと、m個の周期検出部4_1~4_mと、選択部5とに大別することができる。
 ここで、ダウンサンプラ1は、所定のサンプリング周波数の音信号サンプル列をより低いサンプリング周波数の音信号サンプル列に変換する手段である。このダウンサンプラ1は、直流除去フィルタ2以降の各部の演算量を低減するために設けられている。
 直流除去フィルタ2は、ダウンサンプラ1が出力する音信号サンプル列から直流成分を除去し、直流成分の除去された音信号サンプル列を出力する手段である。
 調波減衰フィルタ3_1~3_mは、各々異なるカットオフ周波数を有するローパスフィルタである。これらの調波減衰フィルタ3_1~3_mは、直流除去フィルタ2の出力する音信号サンプル列における第2調波以上の高調波成分の周波数が各々のカットオフ周波数よりも高い場合に、それらの高調波成分を減衰させる役割を果たすフィルタである。
 周期検出部4_1~4_mは、各々の入力信号の基本波成分に関する推定結果である基本波情報を出力する基本波推定部として機能する。さらに詳述すると、周期検出部4_1~4_mは、調波減衰フィルタ3_1~3_mの出力信号を解析し、各出力信号の基本波成分に関する基本波情報として、各出力信号の基本周期を推定して、基本周期情報を出力するとともに、各出力信号の基本波らしさの尺度である信頼度情報を算出して出力する。
 選択部5は、周期検出部4_1~4_mが各々出力する基本波情報である基本周期情報および信頼度情報に基づいて、周期検出部4_1~4_mの1つが出力した基本周期情報を選択し、選択した基本周期情報の逆数である基本周波数F0を出力する手段である。
 以上が本実施形態による信号処理装置の概略である。本実施形態では、以上説明した信号処理装置の性能を高めるため、信号処理装置の各部に様々な改良が施されている。以下、その詳細を説明する。
<調波減衰フィルタ>
 図2は、本実施形態における調波減衰フィルタ3_1の構成例を示すブロック図である。なお、この図2では、調波減衰フィルタ3_1の構成を例示しているが、他の調波減衰フィルタ3_2~3_mも、調波減衰フィルタ3_1と同様な構成を有している。
 調波減衰フィルタ3_1は、同じ構成のM1個(M1は2以上の整数)の巡回型移動平均フィルタ30_1~30_M1を縦続接続してなるものである。ここで、巡回型移動平均フィルタ30_1は、加算器31および遅延器32からなる累算器30aと、遅延器33および減算器34からなるコムフィルタ30bと、シフタ30cとを縦続接続した構成となっている。
 巡回型移動平均フィルタ30_1の累算器30aにおいて、加算器31は、直流除去フィルタ2が出力する音信号サンプルと遅延器32が出力する音信号サンプルを加算して出力する。遅延器32は、加算器31が出力する音信号サンプルを1サンプリング周期遅延させて加算器31に供給する。この累算器30aでは、1サンプリング周期毎に、直流除去フィルタ2が出力する音信号サンプルを現状の累算値に加えて累算値を更新する累算処理が行われる。
 コムフィルタ30bにおいて、遅延器33は、累算器30aが出力する累算値をNサンプリング周期(Nは2の冪乗)遅延させる。減算器34は、累算器30aが出力する累算値からこの遅延器33の出力信号を減算して出力する。
 ここで、累算器30aの累算値(具体的には加算器31の出力信号値)には、1サンプリング周期毎に直流除去フィルタ2から出力された1個の音信号サンプル値が加わる。そして、減算器34は、この累算器30aの累算値からNサンプリング周期前の累算器30aの累算値を減算する。従って、減算器34の出力信号値は、現在までのNサンプリング周期の間に直流除去フィルタ2が出力した音信号サンプル値の総和になる。
 また、本実施形態では、累算器30aの累算値にオーバーフローが発生する可能性がある。しかしながら、本実施形態では、信号処理の対象である信号値が2の補数形式で表現されている。このため、累算器30aの累算値にオーバーフローが発生したとしても、コムフィルタ30bの出力信号は、累算値にオーバーフローが発生しない場合(オーバーフローしないように信号のビット幅を拡大した場合)と同様な正常な信号値となる。
 本実施形態において、遅延器33の遅延段数Nは2の冪乗である。そこで、シフタ30cは、コムフィルタ30bの出力信号をlogNビットだけ右シフトすることにより、コムフィルタ30bの出力信号を1/Nにした信号を出力する。
 このようにして巡回型移動平均フィルタ30_1により直流除去フィルタ2から出力される音信号サンプル列についてのNサンプリング周期に亙る移動平均値が得られる。
 他の巡回型移動平均フィルタ30_2~30_M1も、巡回型移動平均フィルタ30_1と同様である。
 図3および図4は、本実施形態における調波減衰フィルタの周波数-振幅特性を示す図である。ここで、図3は巡回型移動平均フィルタの縦続段数M1が6段である調波減衰フィルタの周波数-振幅特性を示し、図4は巡回型移動平均フィルタの縦続段数M1が8段である調波減衰フィルタの周波数-振幅特性を示している。
 図2に示す巡回型移動平均フィルタ30_1の周波数-振幅特性では、遅延器33のサンプリング周波数Fsを遅延段数Nにより除算した周波数Fs/Nにおいてノッチ(ゲインの局所的な低下)が発生する。そして、巡回型移動平均フィルタ30_1~30_M1の縦続段数M1を増加させるに従って、この周波数Fs/N付近での減衰量が大きくなり、調波減衰フィルタは、カットオフ周波数Fs/Nを有するローパスフィルタとして機能するものになる。この調波減衰フィルタでは、巡回型移動平均フィルタ30_1~30_M1の各々の遅延器33の遅延段数Nによりカットオフ周波数が定まる。
 調波減衰フィルタでは、巡回型移動平均フィルタ30_1~30_M1の縦続段数M1が多くなる程、カットオフ周波数以上の周波数成分に与えられる減衰量が大きくなる。調波減衰フィルタにおける巡回型移動平均フィルタ30_1~30_M1の縦続段数M1を6段にした場合、図3に示すように、サイドローブにおける減衰量は80dBになる。調波減衰フィルタにおける巡回型移動平均フィルタ30_1~30_M1の縦続段数M1を8段にすると、図4に示すように、サイドローブにおける減衰量は100dBに及ぶ。
 また、図3および図4に示すように、本実施形態における調波減衰フィルタの周波数-振幅特性は、肩特性(shoulder characteristic)が緩やかな特性となる。
 仮に肩特性が急峻な調波減衰フィルタを採用したとすると、調波減衰フィルタの通過帯域に入力信号の基本周波数の他、一部の高次調波の周波数が含まれる場合に、それらの高次調波成分が大きな強度で含まれた信号が調波減衰フィルタから出力され、調波減衰フィルタの出力信号から基本周波数を正確に推定するのが困難になる。
 しかしながら、本実施形態では、図3および図4に示すように肩特性が緩やかな周波数-振幅特性を有する調波減衰フィルタが用いられる。従って、調波減衰フィルタにおいて、入力信号中の高次調波成分が適度に減衰される。ここで、調波減衰フィルタの周波数-振幅特性は肩特性が緩やかであるため、入力信号の高次調波成分に与えられる減衰量は少ないかも知れない。しかし、調波減衰フィルタの周波数-振幅特性の肩特性では、周波数が高くなる程、入力信号に対する減衰量が大きくなるので、入力信号中の高次調波成分には基本波成分に対する減衰量よりも大きな減衰量が与えられる。従って、調波減衰フィルタの出力信号は、入力信号よりも高次調波成分が少なくて基本波らしい波形となる。よって、調波減衰フィルタの出力信号から基本周期を推定する処理が容易になる。
 また、本実施形態における調波減衰フィルタでは、コムフィルタ30bの遅延器33の遅延段数Nを2の冪乗で表せる数値とすることで、乗算器を使用せず、logNビットの右シフトを行うシフタ30cにより1/Nの乗算処理と等価な処理を実現している。従って、調波減衰フィルタに関して信号処理装置が実行する演算処理の演算量を各段と低減することができ、高速動作が可能な調波減衰フィルタを実現することができる。
<ダウンサンプラ>
 図5は本実施形態におけるダウンサンプラ1の構成例を示すブロック図である。上述したように、このダウンサンプラ1は、直流除去フィルタ2以降の各部の演算量を減らすために必要な手段である。本実施形態では、ダウンサンプラ1として、高速かつ線形位相のダウンサンプラを採用している。
 図5に示すように、ダウンサンプラ1は、加算器11および遅延器12からなる累算器10aをN1段(N1は2の冪乗である整数)に亙って縦続接続したものと、デシメータ10cと、遅延器13および減算器14からなるコムフィルタ10bをN1段に亙って縦続接続したものと、シフタ10dとを縦続接続した構成となっている。
 このダウンサンプラ1は、図2に示す調波減衰フィルタ3_1にダウンサンプリング機能を付加したものである。さらに詳述すると、ダウンサンプラ1は、図2に示す調波減衰フィルタ3_1に対して次の変更を加えたものである。
a.図2の巡回型移動平均フィルタ30_1~30_M1の中のM1個の累算器30aを前段側に集めるとともに、巡回型移動平均フィルタ30_1~30_M1の中のM1個のコムフィルタ30bを後段側に集める。
b.前段側のM1個の累算器30aと後段側のM1個のコムフィルタ30bの間にデシメータ10cを配置する。
c.コムフィルタ30b内の遅延器33の遅延段数を1段に変更する。
 図2に示す調波減衰フィルタ3_1において、累算器30aやコムフィルタ30bは線形要素であるので、それらの位置を変更しても調波減衰フィルタ3_1の機能は変わらない。従って、図5において、N1段の累算器10aと、N1段のコムフィルタ10bと、シフタ10dとからなる部分は、図2の巡回型移動平均フィルタ30_1~30_M1と同様にローパスフィルタとして機能する。
 デシメータ10cは、R=2個(rは整数)に対して1個の割合で入力サンプルを通過させる間引き処理を行う。コムフィルタ10bにおける遅延器13は、デシメータ10cを1個のサンプルが通過する周期をサンプリング周期として動作する。図2のコムフィルタ30bの遅延器33は、前段の累算器30aの遅延器32と同じサンプリング周期で動作する。従って、巡回型移動平均フィルタ30_1にNサンプリング周期に亙るサンプルの移動平均を算出させるために、コムフィルタ30bの遅延器33をN段の遅延器にする必要があった。しかしながら、図5に示すダウンサンプラ1では、コムフィルタ10bにおける遅延器13は、累算器10aの遅延器12のサンプリング周期のR倍のサンプリング周期で動作する。従って、図5に示すダウンサンプラ1では、コムフィルタ10bにおける遅延器13の遅延段数が1段で済む。従って、ダウンサンプラ1では、遅延器13を実現するためのメモリ容量を削減することができる。
<直流除去フィルタ>
 図6は本実施形態における直流除去フィルタ2の構成例を示すブロック図である。この直流除去フィルタ2は、ダウンサンプラ1の出力信号が各々入力される遅延部21および移動平均部22と、遅延部21の出力信号から移動平均部22の出力信号を減算し、直流成分の除去された信号として出力する減算器23とを有する。ここで、移動平均部22は、Dサンプリング周期(Dは所定の整数)に亙る入力サンプル列の移動平均を算出する回路である。
 図7は図6の直流除去フィルタ2をさらに具体化した直流除去フィルタ2aの構成を示すブロック図である。この直流除去フィルタ2aは、移動平均部MA1およびMA2と減算器23とにより構成されている。そして、この直流除去フィルタ2aでは、移動平均部MA1の一部が図6の遅延部21としての役割を果たしている。
 図7において、前段のダウンサンプラ1の出力信号は、遅延段数がD-1段である遅延器221と、遅延段数が1段である遅延器222を順次通過して減算器223に入力される。減算器223は、前段のダウンサンプラ1の出力信号から遅延器222の出力信号、すなわち、ダウンサンプラ1の出力信号をDサンプリング周期だけ遅延させた信号を減算して出力する。加算器224および遅延器225からなる累算器は、この減算器223の出力信号を累算する。乗算器226は、この累算器の出力信号に係数1/Dを乗算する。これによりダウンサンプラ1から入力されるサンプル列についてのDサンプリング周期に亙る移動平均が乗算器226から出力される。遅延段数Dが2の冪乗で表される数値である場合には、乗算器226をlogDビットの右シフトを行うシフタに置き換えてもよい。
 移動平均部MA2も移動平均部MA1と基本的に同様な構成である。減算器23は、ダウンサンプラ1の出力信号をD-1サンプリング周期だけ遅延させた信号から移動平均部MA2の出力信号を減算し、直流成分の除去された信号として出力する。
<周期検出部>
 本実施形態では、高調波成分に起因した基本周期の推定誤りに対して頑健な周期検出部4_1~4_mが用いられている。図8は一例として周期検出部4_1の機能構成を示すブロック図である。他の周期検出部4_2~4_mも、この周期検出部4_1と同様な構成を有している。
 図8に示すように、周期検出部4_1は、状態検出部41と、基本周期推定部42とを有する。また、状態検出部41は、状態情報保持部41aを含む。
 状態検出部41には、前段の調波減衰フィルタ3_1の出力信号が入力信号として与えられる。状態検出部41は、この入力信号に関する複数種類の状態の中から検出対象とする状態を所定の順序で選択しつつ入力信号から検出対象の状態を検出する手段である。
 さらに詳述すると、状態検出部41は、入力信号が正方向に零レベルと交差する状態STaと、入力信号が正ピークとなる状態STbと、入力信号が負方向に零レベルと交差する状態STcと、入力信号が負ピークとなる状態STdとが、STa→STb→STc→STd→STa→…という順序で繰り返し発生することを前提として入力信号の状態の検出を繰り返す。
 具体的には、状態検出部41は、例えば入力信号に状態STaが発生したことを検出した後は、検出対象を状態STbとし、他の状態STa、STc、STdは無視して、入力信号に状態STbが発生するのを待つ。そして、入力信号に状態STbが発生したことを検出すると、状態検出部41は、検出対象を状態STcとし、他の状態STa、STb、STdは無視して、入力信号に状態STcが発生するのを待つのである。以下、同様であり、状態検出部41は、検出対象とする状態をSTd→STa→STb→STc→STd→…という具合に所定の順序で選択し、選択した検出対象を入力信号から検出するのである。
 この状態検出部41により行われる入力信号の状態の検出には例外がある。すなわち、所定の順序に従って選択した状態が入力信号において発生した場合であっても、一定の条件を満たす場合には、その状態を検出対象から除外する、という例外である。
 具体的には、周期検出部4_1は、現在の検出対象が状態STd(負ピーク)となっており、入力信号に負ピークが発生したことを検出した場合において、その直前の正ピークの振幅値の絶対値に比べて、検出した負ピークの振幅値の絶対値が極端に小さい場合には、当該負ピークを検出しなかったものとみなす。また、周期検出部4_1は、現在の検出対象が状態STb(正ピーク)となっており、入力信号に正ピークが発生したことを検出した場合において、その直前の負ピークの振幅値の絶対値に比べて、検出した正ピークの振幅値の絶対値が極端に小さい場合には、当該正ピークを検出しなかったものとみなす。これは、音信号の基本波の波形では、ピークの振幅値の絶対値が先行ピークに比べて極端に小さくなることは考えにくいという前提に基づくものである。この除外処理を実行するため、状態検出部41により検出された状態STa~STdの種別、検出タイミング、検出した振幅値を示す状態情報を保持する状態情報保持部41aが状態検出部41に設けられている。
 検出したピークの振幅値の絶対値が先行ピークに比べて極端に小さいか否かを判断するための方法には、各種の方法が考えられる。一例として、閾値thを適当に定め、先行ピークの振幅値の絶対値に対する検出したピークの振幅値の絶対値の比rが閾値th未満である場合に、検出したピークの振幅値の絶対値が先行ピークに比べて極端に小さいと判断するようにしてもよい。
 基本周期推定部42は、状態検出部41による状態STa、STb、STc、STdの検出タイミングに基づいて入力信号の基本周期情報TFを推定する手段である。本実施形態における基本周期推定部42は、入力信号の基本周期情報TFを推定して出力することに加えて、入力信号波形の基本波らしさを示す信頼度情報NFを算出して出力する。
 図9は周期検出部4_1の処理内容を示すフローチャートである。周期検出部4_1は、調波減衰フィルタ3_1から入力信号のサンプルを取り込む都度、図9に示す処理を実行する。図9においてステップSa1、Sa2、Sa4は、状態検出部41としての処理であり、ステップSa3は基本周期推定部42としての処理である。
 周期検出部4_1は、調波減衰フィルタ3_1から入力信号のサンプルを取り込むと、現時点までに取り込んだサンプル列が示す入力信号波形に現在選択している検出対象の状態が発生したか否かを判断する(ステップSa1)。具体的には、現在選択している検出対象が状態STb(正ピーク)である場合、現時点までに取り込んだサンプル列が示す入力信号波形に正ピークが出現したか否かを判断する。この判断結果が「NO」である場合、周期検出部4_1は、処理を終了し、調波減衰フィルタ3_1から新たな入力信号のサンプルが供給されるのを待つ。
 一方、ステップSa1の判断結果が「YES」である場合、周期検出部4_1は、ステップSa1において検出した状態の種別、検出タイミング、検出した振幅値を示す状態情報を状態情報保持部41aに保持させ、当該状態が上述した除外対象に当たるか否かを判断する(ステップSa2)。具体的には、例えば検出対象が正ピークであり、ステップSa1において正ピークを検出した場合、状態情報保持部41aを参照し、直前の負ピークの振幅値の絶対値に対する当該正ピークの振幅値の絶対値の比が所定の閾値未満か否かを判断する。そして、この判断結果が「YES」である場合、周期検出部4_1は、処理を終了し、調波減衰フィルタ3_1から新たな入力信号のサンプルが供給されるのを待つ。
 一方、ステップSa2の判断結果が「NO」である場合、周期検出部4_1は、状態情報保持部41aにおいてステップSa2の判断対象となった状態情報に対して、除外対象にならなかった状態情報である旨を示す情報を付加するとともに、状態情報保持部41aを参照し、基本周期情報および信頼度情報の算出を行う(ステップSa3)。
 ここで、図10を参照し、周期検出部4_1により行われる基本周期情報および信頼度情報の算出処理について説明する。図10は、周期検出部4_1により取り込まれたサンプル列が示す入力信号波形を例示している。例えば図10における最も右側の状態STcがステップSa1において検出され、ステップSa2を介してステップSa3に進んだとすると、周期検出部4_1の基本周期推定部42は、状態情報保持部41aを参照して、当該状態STcのタイミングまでの入力信号約2.5周期分の期間内の各状態、すなわち、左から順にSTd、STa、STb、STc、STd、STa、STb、STcの検出タイミングを求める。そして、周期検出部4_1は、この求めた各検出タイミングを用いることにより、図10に示す入力信号波形において、隣り合った正方向零交差タイミング間の時間Taと、隣り合った負方向零交差タイミング間の時間Tbと、隣り合った正ピーク間の時間Tcと、隣り合った負ピーク間の時間Tdを算出する。そして、周期検出部4_1は、次式に従って、入力信号の基本周期情報TFを算出する。
Figure JPOXMLDOC01-appb-M000001
 また、周期検出部4_1は、次式に従って、入力信号波形の基本波らしさを示す信頼度情報NFを算出する。
Figure JPOXMLDOC01-appb-M000002
 なお、この式(2)は例示であり、信頼度情報NFは、時間Ta、Tb、Tc、Tdのばらつきを表現可能なものであればよい。
 このようにして基本周期情報TFおよび信頼度情報NFを算出すると、周期検出部4_1の基本周期推定部42は、その算出結果である基本周期情報TFおよび信頼度情報NFを出力用レジスタに保持する。周期検出部4_1の後段の選択部5は、この出力用レジスタに基本周期情報TFおよび信頼度情報NFを取り込んで基本周波数推定のための演算処理に利用する。
 このステップSa3の処理が終了すると、周期検出部4_1の状態検出部41は、検出対象を更新する(ステップSa4)。すなわち、状態検出部41は、現在の検出対象が状態STaである場合は検出対象を状態STbとし、現在の検出対象が状態STbである場合は検出対象を状態STcとし、現在の検出対象が状態STcである場合は検出対象を状態STdとし、現在の検出対象が状態STdである場合は検出対象を状態STaとする。そして、周期検出部4_1は、処理を終了し、調波減衰フィルタ3_1から新たな入力信号のサンプルが供給されるのを待つ。
 以上が周期検出部4_1の処理内容である。
 図11は周期検出部4_1の動作例を示す波形図である。この図11には、周期検出部4_1が調波減衰フィルタ3_1から取り込んだサンプル列が示す入力信号波形が例示されている。この例において、点S~S19は、状態STa~STdのいずれかに該当している。また、点S~S19のうち黒丸マークが示されたものは、図9のステップSa1の判断結果が「YES」、ステップSa2の判断結果が「NO」となって、基本周期情報TFおよび信頼度情報NFの算出に使用された点である。また、点S~S19のうち×マークが示されたものは、ステップSa1の判断結果が「NO」、あるいはステップSa2の判断結果が「YES」となって、基本周期情報TFおよび信頼度情報NFの算出に使用されなかった点である。
 具体的には、点Sは状態STd(負ピーク)に該当するが、状態STb(正ピーク)である点Sの検出の後、状態STc(負方向零交差)の検出を経ることなく検出されたため、ステップSa1において検出対象でないと判断されている。また、点Sは状態STb(正ピーク)に該当するが、状態STa(正方向零交差)の検出を経ることなく検出されたため、ステップSa1において検出対象でないと判断されている。点SおよびS10も点SおよびSと同様である。
 点S16は、状態STd(負ピーク)に該当するが、この点S16の絶対値は、直前の状態STb(正ピーク)である点S14の絶対値から掛け離れている。このため、点S16に関しては、ステップSa2の判断結果が「YES」となり、検出対象から除外されている。
 点S17およびS18は、検出対象が状態STd(負ピーク)であるのに、それに該当しないため、ステップSa1において検出対象でないと判断されている。
 以上、周期検出部4_1を例に説明したが、他の周期検出部4_2~4_mにおいても周期検出部4_1と同様な処理が行われる。
 本実施形態による周期検出部4_1~4_mによれば、以上説明したように、所定の順序に従って現れない状態の出現、先行ピークに対して極端に小さいピーク等、基本波らしさを妨げる入力信号の状態を検出対象から除外しつつ、入力信号の各種の状態を検出し、基本周期情報TFおよび信頼度情報NFを算出することができる。従って、入力信号が高調波成分を含み、基本周期情報の推定が困難な状況においても正確に基本周期情報を推定することができる。
<選択部>
 選択部5は、所定のフレームレート(例えば1フレーム=数10サンプリング周期)で、周期検出部4_1~4_mの各出力用レジスタから基本周期情報TFおよび信頼度情報NFを取り込んで、基本周波数推定のための演算処理を実行する。ある時刻における最終的な基本周波数推定結果を得るためには、基本的には、周期検出部4_1~4_mのうち該当時刻において最も低い信頼度情報NFを出力している周期検出部(最も基本波らしい入力信号から基本周期を推定した周期検出部)を選択し、その周期検出部が出力した基本周期情報TFに基づいて基本周波数F0を算出すればよい。
 しかし、各周期検出部4_1~4_mのいずれかが、入力信号に含まれる基本波以外の高次調波を基本波と誤認し、この誤認した基本波の周期を基本周期とした場合における当該入力信号の基本波らしさが大きくなり(式(2)で算出した基本周期情報TFを使用し、式(3)で算出した信頼度情報NFが小さくなり)、そのような誤認に基づく「基本波らしさ」が他の周期検出部の入力信号の基本波らしさを上回る場合がある。そのような場合、基本周波数の推定に誤りが生じる。
 このような基本周波数の誤推定を防止するための一手段として、動的計画法に基づく基本周波数の推定方法が考えられる。具体的には、推定結果である基本周期情報TFの時間連続性が保たれるように基本周期情報TFの推定結果を選択するのである。しかしながら、この方法は、サブハーモニックを多く含む音声や雑音が混入した音声の入力信号が周期検出部4_1~4_mに与えられる場合に、却って基本周波数の誤推定を招き易くなる問題がある。
 図12(a)および(b)は、基本周波数の誤推定を招きやすい音声信号の例を示す図である。これらの図において、横軸は時間、縦軸は音声信号の周波数である。図12(a)において領域VaおよびVbでは、音声信号の周波数変調が発生している。領域Va内の音声信号は、グロウルによる周波数変調が掛かっており、その変調周波数は約135Hzである。領域Vb内の音声信号は、ビブラートによる周波数変調が掛かっており、その変調周波数は約5Hzである。図12(b)は、図12(a)における領域Va内の波形の拡大図である。このような周波数変調の掛かった音声信号、特にグロウルによる周波数変調のような高い変調周波数での周波数変調の掛かった音声信号が入力信号として与えられると、選択部5において基本周期の誤選択による基本周波数の誤推定が発生し易い。
 そこで、本実施形態では、周期検出部4_1~4_mの推定結果である基本周期情報TFに基づいて最終的な基本周波数F0を求める選択部5として、非線形なコスト関数を利用した選択部5を採用している。以下、本実施形態による選択部5の詳細を説明する。
 本実施形態による選択部5は、周期検出部4_1~4_mが処理した入力信号波形の「基本波らしさ」(すなわち、推定した基本周期が入力信号の基本周期であることの確からしさ)に関するコスト関数と、基本周期の時間連続性に関するコスト関数であって非線形なコスト関数の両方を含むコスト関数の値を算出し、コスト関数値が最小となる周期検出部4_kが出力した基本周期情報TFを選択して基本周波数F0を算出する。
 具体的には、選択部5は、各フレームiにおいて、周期検出部4_1~4_mから基本周期情報TFi,j(j=1~m)および信頼度情報NFi,j(j=1~4)を受け取る都度、次式に示すコスト関数値Di,jを算出する。
Figure JPOXMLDOC01-appb-M000003
 上記式(3)において、Di,jは、フレームiにおいて周期検出部4_j(j=1~m)が出力した基本周期情報TFi,jを基本周波数F0の算出のために選択することについてのコスト関数値である。Di-1,kは、フレームiの1つ前のフレームi-1において行った周期検出部4_kの基本周期情報TFi-1,kの選択についてのコスト関数値である。di,jは、基本周期情報TFi,jの推定のために用いられた入力信号波形の基本波らしさに基づくコスト関数値である。また、δi,j,kは、フレームiにおいて周期検出部4_jの基本周期情報TFi,jを選択する場合における基本周期の時間連続性に関するコスト関数値である。
 図13は選択部5により行われる処理を模式的に示す図である。図13は、選択部5が、フレームiにおいて、基本周期に関するj=2番目の仮説である基本周期情報TFi,2を選択する場合の累積コストを算出する例を示している。図示のように、選択部5は、フレームiの1つ前のフレームi-1のk番目(k=1~Ii-1)の各仮説からフレームiのj=2番目の仮説までの遷移について累積コストDi-1,k+δi,2,kを各々算出し、それらの累積コストの中で最小のものを選択する。そして、この最小の累積コストに対し、フレームiのj=2番目の仮説の元となった入力信号波形の基本波らしさに基づくコスト関数値di,2を加え、j=2番目の仮説である基本周期情報TFi,2を選択する場合の累積コストDi,2を算出するのである。以上、j=2の場合を例に説明したが、選択部5は、j=2を含む全てのj(=1~I)について式(3)に示す累積コストDi,jを算出し、その中で累積コストDi,jが最小となる基本周期情報TFi,jを選択し、その逆数を基本周波数F0として出力するのである。
 ここで、入力信号波形の基本波らしさに基づくコスト関数値di,jは、下記式(4)に従って算出される。
Figure JPOXMLDOC01-appb-M000004
 この式(4)においてβは所定の定数である。
 また、基本周期情報TFi,jの時間連続性に関するコスト関数値δi,j,kは、下記式(5)に従って算出される。
Figure JPOXMLDOC01-appb-M000005
 この式(5)において、FREQ_WTは所定の定数である。また、gNL(ξj,k)は、基本周期情報TFi-1,kから基本周期情報TFi,jへの遷移量ξj,kの非線形関数値である。遷移量は、例えば基本周期情報TFi-1,kの対数と基本周期情報TFi,jの対数の差分である。
 図14は非線形関数gNL(ξj,k)の例を示す図である。図14に示すように、非線形関数gNL(ξj,k)は、基本周期情報の遷移量ξj,kが許容範囲内である領域では関数値が僅かであり、基本周期情報の遷移量ξj,kが許容範囲を越えた領域では、遷移量の増加に応じて関数値が大きく増加する関数となっている。
 本実施形態によれば、基本周期の時間連続性に関するコスト関数δi,j,kとして、このような非線形関数gNL(ξj,k)を含むコスト関数δi,j,kを採用している。このため、周期検出部4_j(j=1~m)に対して周波数変動の激しい入力信号が与えられる状況であっても、その周波数変動の変動幅が許容範囲内である限り、コスト関数値δi,j,kが著しく増加することはない。従って、本実施形態によれば、基本周期情報TFの時間連続性を維持しつつ、ビブラートによる周波数変調やグロウルによる周波数変調の掛かった音声信号等が有する許容範囲内の周波数変動を受け容れ、音声信号の基本周波数F0を正確に推定することができる。
 図15(a)~(c)は本実施形態の効果を示す図である。これらの図15(a)~(c)には、m=4である場合の本実施形態の効果が示されている。図15(a)~(c)の横軸は時間である。図15(a)および(c)の縦軸は周波数、図15(b)の縦軸は0~1の間の数値となる信頼度情報である。
 図15(a)には、周期検出部4_1~4_4が出力する基本周期情報TF1~TF4の逆数である各基本周波数情報S1~S4が示されている。また、図15(b)には、基本周波数情報S1~S4の元となった各基本周期情報に対応した信頼度情報が示されている。そして、図15(c)には、選択部5によって最終的に出力された基本周波数情報S2が示されている。
 図15(b)に示すように、丸囲みした区間では、基本周波数情報S2に対応した信頼度情報が一時的に低下しており、このため、基本周波数情報S4に対応した信頼度情報が基本周波数情報S2に対応した信頼度情報を上回っている。しかしながら、本実施形態では、基本周期の時間連続性に関するコスト関数を使用して基本周波数の算出に用いる基本周期情報を選択しているので、図15(c)に示すように、全区間に亙って基本周波数情報S4を推定結果として出力している。
 その一方、本実施形態では、基本周期の時間連続性に関して非線形なコスト関数δi,j,kを採用しているので、許容範囲内の周波数変動を有する音声信号の基本周波数F0を正確に推定することができる。
[第2実施形態]
 音信号を取り扱う信号処理の中には、PSOLA(Pitch Synchronous OverLap Add)等、音信号波形中のピッチマークを利用して行う信号処理がある。ここで、ピッチマークとは、音信号における基本波の1周期毎に設定されるタイミングである。
 図16(a)および(b)は、PSOLAに基づく信号処理の例を示す波形図である。図16(a)には、複数基本周期に亙る音信号Saの波形と、この音信号の基本周期毎に設定されたピッチマークMpが示されている。PSOLAでは、図16(a)に示すように、音信号Saの基本周期毎に当該基本周期のピッチマークMpにおいて極大値となる窓関数W1~W5が乗算される。そして、図16(b)に示すように、窓関数の乗算された各基本周期の音信号を時間軸に沿って移動させて加算する操作が行われる。図16(b)の例では、図16(a)において窓関数W2の乗算された音信号Saが省略され、窓関数W1、W3、W4,W5の乗算された音信号Saが時間軸上において図16(a)よりも詰めて配置され、加算されている。この図16(b)の例では、音信号Saのピッチが元の音信号(図16(a))よりも低下している。
 このようなピッチマークを利用した信号処理において、ピッチマークは信号処理の品質を左右する重要な要素である。PSOLA等では、ピッチマークの位置において極大となる窓関数を音信号に乗算するので、音波形の基本周期内において音の特徴が現れやすい位置、すなわち、窓関数の乗算により波形を変化させたくない位置をピッチマークとすることが好ましい。そのようなピッチマークとして、GCI(Glottal Closure Instant;声帯が閉じる瞬間)付近が良いとされている。
 GCIを検出するための技術として非特許文献2に開示されたSEDREAMS(Speach Event Detection using Residual Excitation And Mean-Based Signal)がある。この技術では、次のようにして音信号波形からGCIを検出する。
 図17(a)は処理対象である音声信号の波形を例示している。この音声信号をLPFに与え、音声信号の基本周波数以下の帯域の濾波信号を得る。図17(b)はこの濾波信号の波形を例示している。次に、音声信号の線形予測残差信号を生成する。図17(e)は、この線形予測残差信号の波形を例示している。音声信号において、GCI付近は情報量が多いので線形残差予測信号にピークが発生し易い。次に図17(b)において濾波信号の負ピークから正方向零交差点までの期間をGCIの検索を行う検索期間とする。図17(c)はこの検索期間を示す波形である。この図17(c)に示される波形においてHレベルとなる期間が検索期間である。そして、線形予測残差信号の中から検索期間内の正ピークをGCIとして選択する。図17(e)において×マークを記した正ピークは、このようにして選択されたGCIを示している。なお、○マークを記した正ピークは、検索期間外の正ピークである。非特許文献2では、SEDREAMSの性能を評価するため、図17(a)の音声信号を発声する人の喉の動きを示す微分EGG(ElectroGlottoGraph)信号(図17(d)参照)をGCIの正解値とし、この正解値とSDREAMSにより検出されたGCIとの比較を行っている。この微分EGGは、EGG測定器により得られるEGG信号を微分することにより得られる信号である。図17(d)および(e)を比較すると、SEDREAMSにより検出されるGCI(図17(e)の×マーク)は、正解値(図17(d)の負ピーク)とよく一致していることが分かる。
 ところで、このSEDREAMSには次のような問題がある。まず、図17(b)の濾波信号を得るために、処理対象である音声信号の基本周波数が予め分かっていなければならない。また、PSOLA等の信号処理を行う場合、処理対象である信号の基本周波数とピッチマークを利用する。しかし、SEDREAMSでは、ピッチマークは得られるものの、このピッチマークと整合する基本周波数が得られる保障がないという問題がある。
 また、SEDREAMSでは、処理対象である音声信号の線形予測残差信号を利用する。これには次のような問題がある。まず、線形予測残差信号を生成するためには、少なくとも自己相関関数または自己共分散関数の計算が必要なので計算コストが大きい問題がある。また、音声信号の線形予測分析を行う際、分析窓幅や分析次数の設定が処理対象である信号の性質に合っていないと、線形予測残差信号においてGCIを示すピークが明確に現れないことがある。また、線形予測残差信号では、GCIのような声帯振動に起因したピークよりも、子音や外的雑音に起因したピークが大きく出る場合が少なくなく、それらの場合にGCIを検出するのが困難である。また、やわらかい発声や声帯振動の開始または終了付近の不安定期間の音声信号等、声帯がしっかり閉じていない発声により得られた音声信号の場合、線形予測残差信号にピークが現れないこともある。この場合、GCIを求めることができない。
 また、SEDREAMSは、処理対象である音声信号の基本周期と推定されるピッチマークとの整合性が保障されていないという問題がある。以下、この問題について説明する。
 まず、ピッチマークは、その間隔の逆数が基本波周波数と正確に一致していることが望ましい。しかし、SEDREAMSのようなピーク検出を基礎とする手法では、この要件を満たすことは難しい。SDREAMSでは、時間軸上において線形予測残差信号に離散的に出現するピークのいずれかを選択することしかできないため、より連続的な基本波周波数の推移とは必ずしも一致しないのである。
 仮に基本波周波数がほぼ一定の音声信号を考える。そのような信号に対する線形予測残差信号は、図18(a)のようになることがしばしばある。この線形予測残差信号のピークをピッチマークとして検出すると、それは例えば図18(b)に黒丸で示すようなものとなる。本来、この信号の基本波周波数はほぼ一定であるにも拘わらず、図中のピーク間の期間T2は期間T0や期間T1よりも突然大きくなり、期間T3は突然に小さくなる。さらにこの結果を利用して、PSOLA法によりこの信号を任意の一定の基本波周波数Fm=1/Tmに変更して再合成すると、その結果は図18(c)のようになる。ピッチマークが一定間隔になるように操作したにも拘わらず、操作後の波形の基本波周波数は乱れている。すなわち、ジッタが発生する。このような合成音声は、基本波周波数の不連続性に伴う雑音を含むように聴こえる。
 この開示の第2実施形態は、以上のような事情に鑑みてなされたものであり、少ない計算コストで、処理対象である音信号の基本周波数に整合したピッチマークを安定して推定することができる信号処理装置を提供するものである。
 図19はこの開示の第2実施形態である信号処理装置の機能構成を示すブロック図である。本実施形態による信号処理装置では、上記第1実施形態による信号処理装置(図1)の周期検出部4_1~4_mがピッチマーク推定機能の追加された周期検出部4_1’~4_m’に置き換えられている。また、本実施形態による信号処理装置には、ピッチマークバッファ6_1~6_mと選択部7が追加されている。
 図20は周期検出部4_1’~4_m’が行うピッチマーク推定処理の内容を示す波形図である。図20には、周期検出部4_j’の前段の調波減衰フィルタ3_jの出力信号波形が例示されている。本実施形態において周期検出部4_j’は、調波減衰フィルタ3_jの出力信号波形の負ピークとその次の正方向零交差点との間のタイミングをピッチマークとして推定する。
 具体的には、周期検出部4_j’は、調波減衰フィルタ3_jの出力信号から図19の最も右側に示された負ピークを検出したとき、図20に示す時刻t1~t4を求める。ここで、時刻t4は、当該負ピークとそれよりも1つ前の負ピークとの間の期間T4を2等分する時刻である。また、時刻t3は、当該負ピークの直前の負方向零交差点とそれより1つ前の負方向零交差点との間の期間T3を2等分する時刻である。また、時刻t2は、当該負ピークの直前の正ピークとそれより1つ前の正ピークとの間の期間T2を2等分する時刻である。また、時刻t1は、当該負ピークの直前の正方向零交差点とそれより1つ前の正方向零交差点との間の期間T1を2等分する時刻である。そして、周期検出部4_j’は、次式に従ってピッチマークMpの時刻情報を算出する。
Figure JPOXMLDOC01-appb-M000006
 調波減衰フィルタ3_jの出力信号波形が完全な正弦波である場合、このピッチマークMpは、調波減衰フィルタ3_jの出力信号波形の負ピークとその後の正方向零交差点との間に位置する。周期検出部4_j’は、調波減衰フィルタ3_jの出力信号に負ピークが発生する都度、上記t1~t4を求め、式(6)の演算を行ってピッチマークMpを算出する。
 図21は周期検出部4_1’~4_m’が行うピッチマーク推定処理の他の例を示す波形図である。この例において、周期検出部4_j’は、調波減衰フィルタ3_jの出力信号波形に正方向零交差点が発生する都度、当該正方向零交差点とその直前の正方向零交差点との間の期間Tの7/8の時間7T/8を求め、直前の正方向零交差点から時間7T/8だけ経過したタイミングをピッチマークMpとする。
 周期検出部4_1’~4_m’は、以上のようにして調波減衰フィルタ3_1~3_mの出力信号波形からピッチマークMpを各々推定し、推定結果であるピッチマークMpを示す情報をピッチマークバッファ4_1’~4_m’に蓄積する。選択部7は、ピッチマークバッファ4_1’~4_m’からピッチマークMpの情報を各々読み出し、それらの中から1つのピッチマークMpの情報を選択して出力する。この選択部7の選択動作は、選択部5の選択動作と連動して行われる。すなわち、選択部5が、周期検出部4_1’~4_m’から基本周期情報TFおよび信頼度情報NFを取り込み、それらの中から1つの周期検出部4_j’が出力した基本周期情報TFを選択した場合、選択部7は、基本波検出部4_j’が出力したピッチマークMpの情報であって、選択された基本周期情報TFが示す基本周期に属するピッチマークMpの情報を選択して出力する。従って、選択部7によって選択されるピッチマークMpは、選択部5から出力される基本波周波数に整合したものとなる。
 以上が本実施形態による信号処理装置の詳細である。
 図22(a)~(c)は本実施形態の動作を示す図である。図22(a)~(c)において横軸は時間である。図22(a)には、本実施形態による信号処理装置の入力信号波形と選択部7から出力されるピッチマークMpが示されている。また、図22(b)は、図22(a)の入力信号に対応した音声の発声者の喉から取得した微分EGG信号の波形を示している。また、図22(c)は図22(a)の入力信号から生成された線形予測誤差信号の波形を示している。図22(a)および(b)を見比べると、本実施形態において推定されたピッチマークMpのタイミングは、微分EGG信号に負ピークが発生するタイミングとよく一致していることが分かる。また、本実施形態では、微分EGG信号に負ピークが現れない期間Tuにおいても、適切にピッチマークMpの推定が行われていることが分かる。また、時刻0.5から時刻0.64までの期間は線形予測残差信号に明確なピークが現れないが、本実施形態では、この期間においても適切にピッチマークMpの推定が行われていることが分かる。
 以上のように本実施形態によれば、微分EGG信号を利用することなく、少ない計算コストで、処理対象である音信号の基本周波数に整合したピッチマークを安定して推定することができる。
 ところで、本実施形態による信号処理装置に本来の入力信号を極性反転した信号が入力される場合がある。例えば事前に波形処理された信号が信号処理装置に入力される場合等である。このような場合、例えば図20に示す方法でピッチマークMpの推定を行うとすると、調波減衰フィルタ3_jの出力信号の負ピークではなく、正ピークが発生したタイミングにおいてピッチマークMp推定のための演算を行う必要がある。そこで、好ましい態様では、入力信号の極性判定を行う機能が信号処理装置に設けられる。
 図23は正負判定機能が追加された信号処理装置の構成を示すブロック図である。なお、図23では、図面が煩雑になるのを防止するため、図19のピッチマークバッファ6_1~6_mと選択部7の図示は省略されている。
 この態様では、調波減衰フィルタ3_1~3_mの出力信号の正負各期間毎に元の入力信号の振幅を調べることにより入力信号の極性判定を行う。これは、音声波形の振幅はGCIの前後で1周期内の最大値と最小値をとるという経験的事実に基づくものである。
 この信号処理装置において、選択部5は、周期検出部4_1’~4_m’が出力する基本周期の推定結果を選択した場合、その選択結果を候補選択部110に供給する。ここで、選択結果とは、基本周期の推定結果の選択を行った周期検出部4_j’の前段の調波減衰フィルタ3_jの通過帯域を示すインデックスjである。
 調波減衰フィルタ3_1~3_mの出力信号はm個の追加遅延部101に各々供給される。これらの追加遅延部101は、調波減衰フィルタ3_1~3_mの出力信号を遅延させ、候補選択部110に供給する。この遅延処理は、調波減衰フィルタ3_1~3_mの出力信号のうち最も群遅延が大きい帯域の信号に他の帯域の信号の遅延を合わせるために行われる。
 候補選択部110は、選択部5からの選択結果に従って、遅延処理を経た調波減衰フィルタ3_1~3_mの各出力信号のうちの1つの出力信号を選択して正負判定部120に供給する。さらに詳述すると、候補選択部110は、選択部5からの選択結果が調波減衰フィルタ3_jを示している場合に、追加遅延部101の遅延処理を経た調波減衰フィルタ3_jの出力信号を選択して正負判定部120に供給する。
 正負判定部120は、候補選択部110の出力信号が正である期間、正極信号TPをアクティブレベル、負極信号TNを非アクティブレベルとし、候補選択部110の出力信号が負である期間、正極信号TPを非アクティブレベル、負極信号TNをアクティブレベルとする。
 Max-min部131は、正極信号TPがアクティブレベルである期間内の直流除去フィルタ2の出力信号の最大値maxと最小値minの差分max-minを保持して比較部140に供給する。Max-min部132は、負極信号TNがアクティブレベルである期間内の直流除去フィルタ2の出力信号の最大値maxと最小値minの差分max-minを保持して比較部140に供給する。
 比較部140は、Max-min部131から供給される正極性期間の差分max-minとMax-min部132から供給される負極性期間の差分max-minとを比較する。そして、負極性期間の差分max-minが正極性期間の差分max-minより大きい場合には、入力信号が正極性であると判定し、正極性期間の差分max-minが負極性期間の差分max-minより大きい場合には、入力信号が負極性であると判定する。
 周期検出部4_1’~4_m’では、この比較部140の判定結果に従って、ピッチマークの推定処理を実行する。例えば周期検出部4_1’~4_m’は、図20に示す処理によりピッチマークを推定するものとすると、入力信号の極性が正である場合には、調波減衰フィルタ3_jの出力信号に負ピークが発生したときにピッチマーク推定のための演算処理を実行し、入力信号の極性が負である場合には、調波減衰フィルタ3_jの出力信号に正ピークが発生したときにピッチマーク推定のための演算処理を実行する。あるいは,このようにピッチマーク推定のための演算処理方法を切り換える代わりに、正負判定結果に基づいて、直流除去フィルタ2の出力信号の極性を反転するか否かの切り換え制御を行ってもよい。
 以上が信号処理装置における正負判定のための機能の詳細である。
 図24は正負判定のための処理の例を示す波形図である。この図24において横軸は時間であり、縦軸は直流除去フィルタ2の出力信号SS2の信号値または候補選択部110の出力信号SS110の信号値である。図24に示す例では、候補選択部110の出力信号SS110が正である期間TP内の直流除去フィルタ2の出力信号SS2の最大値と最小値との差分max-minよりも、候補選択部110の出力信号SS110が負である期間TN内の直流除去フィルタ2の出力信号SS2の最大値と最小値との差分max-minの方が大きい。このため、比較部140は、入力信号が正極性であると判定する。
 この正負判定は、数周期分の信号SS2について実施し、多数決により正負を決定することが好ましい。その理由は次の通りである。まず、発声開始から最初の数周期の間は、声帯振動そのものが不安定だからである。また、母音の音声信号に直前の子音(特に破裂音)の影響が残っているからである。また、雑音の混入等が原因で正負判定の誤りが発生する可能性もあるからである。
 さて、正負判定結果が切り換わると、上述したようにピッチマーク推定のための演算処理方法の切り換え、あるいは直流除去フィルタ2の出力信号の極性の反転を行うこととなる。このピッチマーク推定のための演算処理方法の切り換えや直流除去フィルタ2の出力信号の極性の反転が、有声区間の途中で行われるのは好ましくない。そこで、好ましい態様では、次のいずれかの処理により正負判定の実行タイミングを制御する。
処理a:選択部5に処理対象の音声信号が有声区間に属するか無声区間に属するかを判定させる。そして、最初に有声と判定された区間内の数周期を利用して正負判定を行い、以後、その正負判定結果を利用する。すなわち、その正負判定結果に基づいて、必要であればピッチマーク推定のための演算処理方法の切り換え、あるいは直流除去フィルタ2の出力信号の極性の反転を行う。音声信号が有声区間のものであるか無声区間のものであるかの判定は、例えば選択部5が選択した基本周期情報の基本波の周期らしさを示す信頼度情報に基づいて行えばよい。
処理b:選択部5に処理対象の音声信号が有声区間に属するか無声区間に属するかを継続的に判定させる。そして、有声区間と判定される毎に、その有声区間の最初の数周期を利用して正負判定を行い、その正負判定結果に基づいて、必要であればピッチマーク推定のための演算処理方法の切り換え、あるいは直流除去フィルタ2の出力信号の極性の反転を行う。
処理c:有声区間は常に、各有声区間の正負判定結果を蓄積してゆく。入力信号の極性が途中で変化しない場合には、時間の経過につれて正負判定結果の蓄積量が増えるので、正負判定結果の多数決の信頼度が上がってゆく。しかし、正負判定結果に基づく極性の切り換えは有声区間の途中で行うべきではないので、無声区間から有声区間の遷移時にのみ、正負判定結果に基づくピッチマーク推定のための演算処理方法の切り換え、あるいは直流除去フィルタ2の出力信号の極性の反転を実行する。なお、入力信号の極性が途中で変わる可能性も考える場合には、無声区間から有声区間への遷移タイミングにおいて、過去のすべてではなく一定時間内、例えば過去5秒間以内の正負判定結果の蓄積を参照して正負判定を行ってもよい。
 以上説明したように、この態様によれば、入力信号の極性を判定することができるので、入力信号の極性が不明である場合にも、適切にピッチマーク推定を行うことができる。
[他の実施形態]
 以上、この開示の各実施形態について説明したが、この開示には他にも実施形態が考えられる。例えば次の通りである。
(1)上記第1実施形態において信号処理装置は、ダウンサンプラ1、直流除去フィルタ2、調波減衰フィルタ3_1~3_m、周期検出部4_mおよび選択部5としての全ての演算処理を実行するものであった。しかし、信号処理装置は、これらのうちの一部の演算を他の演算装置に実行させ、その実行結果を利用するものであってもよい。例えば調波減衰フィルタ3_1~3_mの演算処理をコプロセッサに実行させ、信号処理装置がこのコプロセッサを利用して調波減衰フィルタ3_1~3_m以外の演算処理を実行する、といった態様が考えられる。上記第2実施形態についても同様である。
(2)上記第1実施形態において、ダウンサンプラ1、直流除去フィルタ2、調波減衰フィルタ3_1~3_m、周期検出部4_mおよび選択部5の各演算処理を実行する各アプリケーションプログラムをASP(Application Service Provider)のサーバに記憶させ、ユーザが所望のアプリケーションプログラムをサーバから受け取ってコンピュータに実行させるようにしてもよい。上記第2実施形態についても同様である。
(3)上記第1実施形態において、周期検出部4_1~4_mに代えて、推定した基本周期情報に基づいて基本周波数情報を算出して出力するm個の基本周波数検出部を設け、選択部5が、これらの基本周波数検出部が出力した基本周波数情報の中から1つの基本周波数情報を選択するようにしてもよい。上記第2実施形態についても同様である。
 ここで、本開示の実施形態を以下のようにまとめる。
 本開示の信号処理方法は、各々、異なる帯域通過特性に従って、入力信号の帯域制限を行って、前記入力信号の基本周波数の推定に用いられる信号を各々生成する複数の調波減衰フィルタ処理過程を有し、前記複数の調波減衰フィルタ処理過程の各々では、一方の過程の出力信号が他方の過程の入力信号となる累算過程およびコムフィルタ処理過程からなるフィルタ処理を1または複数回再帰的に実行し、前記累算過程では、当該累算過程に対する入力信号を累算し、前記コムフィルタ処理過程では、当該コムフィルタ処理過程に対する入力信号と当該入力信号を遅延させた信号との差分を出力する。
 本開示の信号処理方法は、例えば、前記複数の調波減衰フィルタ処理過程の後に行う複数の周期検出過程を具備し、前記複数の周期検出過程の各々は、入力信号に関する複数種類の状態の中から検出対象とする状態を所定の順序で選択しつつ前記入力信号から検出対象の状態を検出する状態検出過程と、前記状態検出過程による前記状態の検出タイミングに基づいて前記入力信号の周期を推定する周期推定過程とを具備する。
 本開示の信号処理方法は、例えば、前記状態検出過程では、前記入力信号から先行ピークを検出した後、後続ピークを検出し、当該先行ピークの振幅値の絶対値に対して当該後続ピークの振幅値の絶対値が所定の限度を越えて小さい場合に、当該後続ピークを検出しなかったものとみなす。
 本開示の信号処理方法は、例えば、前記周期推定過程では、入力信号の基本波らしさを示す信頼度情報を出力する。
 本開示の信号処理方法は、例えば、前記複数の周期検出過程から入力信号の基本周期についての推定結果を少なくとも含む出力情報を受け取り、各出力情報が示す基本周期から前記入力信号の基本周期を選択する選択過程を具備し、前記選択過程では、先行する選択結果である基本周期と前記複数の周期検出過程から各々受け取る出力情報が示す基本周期との差分を独立変数とするコスト関数であって、差分に対して関数値が非線形であるコスト関数を用いて前記基本周期の選択を行う。
 本開示の信号処理装置は、各々、異なる帯域通過特性を有し、入力信号の帯域制限を行って、前記入力信号の基本周波数の推定に用いられる信号を各々出力する複数の調波減衰フィルタを有し、前記複数の調波減衰フィルタの各々が、自身に対する入力信号を累算する累算器と、自身に対する入力信号と当該入力信号を遅延させた信号との差分を出力するコムフィルタとを縦続接続してなるフィルタを含む。
 縦続接続された累算器とコムフィルタとを含む調波減衰フィルタは、緩やかな肩特性を有するローパスフィルタとして機能し、入力信号中の基本波成分と適度に減衰された高次調波成分を含む信号を出力する。いずれの調波減衰フィルタの出力信号も、入力信号に比べれば高次調波成分が基本波成分よりも減衰しており、入力信号波形よりも基本波らしい波形の信号となる。従って、この開示によれば、少ない個数の調波減衰フィルタにより、基本周波数の推定に利用可能な信号を得ることができる。よって、基本周波数の推定のための演算量あるいはハードウェアを少なくし、基本周波数の推定を高速に行うことができる。
 入力信号の基本周波数を推定するための一方法として、その基本周波数に対応した基本周期を入力信号から推定することが考えられる。ここで、基本周期を推定する対象である入力信号が高次調波成分を含む場合、その高次調波成分の影響により基本波成分と関係のないピークが入力信号波形に現れる等の原因により基本周期の推定が困難になる場合がある。そこで、入力信号が高次調波を含む場合には、高次調波に起因した基本周期の誤推定に対して頑健な基本周期の推定手段が必要である。
 そこで、この開示の信号処理装置は、入力信号に関する複数種類の状態の中から検出対象とする状態を所定の順序で選択しつつ前記入力信号から検出対象の状態を検出する状態検出手段と、前記状態検出手段による前記状態の検出タイミングに基づいて前記入力信号の基本周期を推定する周期推定手段とを具備する。
 また、本開示の信号処理方法は、入力信号に関する複数種類の状態の中から検出対象とする状態を所定の順序で選択しつつ前記入力信号から検出対象の状態を検出する状態検出過程と、前記状態検出過程による前記状態の検出タイミングに基づいて前記入力信号の周期を推定する周期推定過程とを具備する。
 この開示によれば、複数種類の状態の中から検出対象とする状態を所定の順序で選択しつつ入力信号から検出対象の状態を検出するので、入力信号中に含まれる高次調波成分の影響を避けて、基本周期の推定に有用な各種の状態の出現タイミングを検出することができる。従って、高次調波に起因した基本周期の誤推定に対して頑健な基本周期推定を実現することができる。
 入力信号波形に基づいて基本周期の推定を行う基本周期推定手段を利用した場合、入力信号に含まれる高次調波成分の強度や雑音の影響が大きくなると、高次調波成分を基本波成分と誤認する可能性が高くなる。この対策として、例えば異なる帯域通過特性を有する複数の調波減衰フィルタに入力信号を与え、各調波減衰フィルタの出力信号を複数の基本周期推定手段に与え、基本周期の時間連続性が維持されるように各基本周期推定手段が推定した基本周期の中から1つの基本周期を選択するという構成を採用することが考えられる。
 この構成によれば、一部の基本周期推定手段において基本周期の誤推定が発生したとしても、基本周期の時間連続性が維持されるように他の基本周期推定手段の推定した基本周期が選択されるので、誤推定による基本周期が選択されるのを防止することができる。
 しかしながら、基本周期の推定対象である入力信号が周波数変動の激しい音声信号であるような場合、実際に基本周期が変動しているにも拘わらず、基本周期の時間連続性が優先され、誤った基本周期が選択される可能性がある。
 そこで、この開示の信号処理装置は、複数の基本波推定部から入力信号の基本波成分に関する推定結果である基本波情報を受け取り、これらの基本波情報から1つの基本波情報を選択する選択部を具備し、前記選択部は、先行する選択結果である基本波情報と前記複数の基本波推定部から各々受け取る基本波情報との差分を独立変数とするコスト関数であって、前記差分に対して関数値が非線形であるコスト関数を用いて前記基本波情報の選択を行う。
 また、本開示の信号処理方法は、複数の基本波推定部から入力信号の基本波成分に関する推定結果である基本波情報を受け取り、これらの基本波情報から1つの基本波情報を選択する選択過程を具備し、前記選択過程では、先行する選択結果である基本波情報と前記複数の基本波推定部から各々受け取る基本波情報との差分を独立変数とするコスト関数であって、前記差分に対して関数値が非線形であるコスト関数を用いて前記基本波情報の選択を行う。
 ここで、基本波情報とは、例えば基本周期または基本周波数を示す情報である。この開示によれば、基本周波数情報の時間連続性を維持しつつ許容範囲内の基本周波数情報の時間変動を許容して、適切に基本周波数情報の選択を行うことができる。
 音信号に関する信号処理の中には、ピッチマークを利用した信号処理がある。このようなピッチマークを利用した信号処理では、音信号の基本周期が連続的に時間変化する場合に、信号処理に用いられるピッチマークが音信号の基本周期と整合するものでないと、質のよい信号処理とならない。しかしながら、これまで音信号の基本周期との整合性がよいピッチマークが得られるピッチマーク推定手段は提供されていなかった。
 そこで、この開示は、各々、異なる帯域通過特性を有し、入力信号の帯域制限を行って出力する複数の調波減衰フィルタと、前記複数の調波減衰フィルタの出力信号に基づいて、前記入力信号の基本波成分を各々推定する複数の基本波推定部と、前記複数の調波減衰フィルタの出力信号に基づいて、前記複数の基本波推定部により推定される基本波の1周期毎にピッチマークを各々推定する複数のピッチマーク推定部と、前記複数の基本波推定部により推定された基本波成分および前記複数のピッチマーク推定部により推定されたピッチマークの中から1つの共通の調波減衰フィルタの出力信号に基づいて推定された基本波成分およびピッチマークを選択する選択手段とを具備することを特徴とする信号処理装置を提供する。
 また、本開示の情報処理方法は、各々、異なる帯域通過特性に従って、入力信号の帯域制限を行って出力する複数の調波減衰フィルタ処理過程と、前記複数の調波減衰フィルタの出力信号に基づいて、前記入力信号の基本波成分を各々推定する複数の基本波推定過程と、前記複数の調波減衰フィルタ処理過程の出力信号に基づいて、前記複数の基本波推定過程により推定させる基本波の1周期毎にピッチマークを各々推定する複数のピッチマーク推定過程と、前記複数の基本波推定過程により推定された基本波成分および前記複数のピッチマーク推定過程により推定されたピッチマークの中から共通の調波減衰フィルタの出力信号に基づいて推定された基本波成分およびピッチマークを選択する選択過程とを具備する。
 本開示の信号処理方法は、例えば、前記ピッチマーク推定過程は、前記調波減衰フィルタ処理過程の出力信号の負ピークと正方向零交差点との中間のタイミングを前記ピッチマークとして推定する。
 本開示の信号処理方法は、例えば、前記調波減衰フィルタ処理過程の出力信号の正期間および負期間の各々における前記調波減衰フィルタ処理過程の入力信号の最大値と最小値の差分を比較することにより前記調波減衰フィルタ処理過程の入力信号の極性を判定する極性判定過程を具備し、前記ピッチマーク推定過程は、前記極性判定過程の判定結果に基づいて前記ピッチマークの推定を行う。
 この開示によれば、入力信号の基本周期が時間変化する場合に、その基本周期との整合性がよいピッチマークが得られる。従って、ピッチマークを利用した信号処理の質を高めることができる。
 本出願は、2016年1月6日に出願された日本特許出願(特願2016-001370)及び2016年3月25日に出願された日本特許出願(特願2016-061928)に基づくものであり、ここに参照として取り込まれる。
 本開示によれば、調波減衰フィルタ処理過程により、基本周波数の推定に利用可能な信号を得ることができる。よって、基本周波数の推定のための演算量あるいはハードウェアを少なくし、基本周波数の推定を高速に行うことができるため有用である。
1……ダウンサンプラ
2……直流除去フィルタ
3_1~3_m……調波減衰フィルタ
4_1~4_m,4_1~4_m’……周期検出部
5,7……選択部
30_1~30_M1……巡回型移動平均フィルタ
30a,10a……累算器
30b,10b……コムフィルタ
31……加算器
34,23,223……減算器
32,33,221,222,225……遅延器
10c……デシメータ
30c,10d……シフタ
21……遅延部
22,MA1,MA2……移動平均部
226……乗算器
41……状態検出部
41a……状態情報保持部
42……基本周期推定部
6_1~6_m……ピッチマークバッファ
101……追加遅延部
110……候補選択部
120……正負判定部
131,132……Max-min部
140……比較部

Claims (14)

  1.  各々、異なる帯域通過特性に従って、入力信号の帯域制限を行って、前記入力信号の基本周波数の推定に用いられる信号を各々生成する複数の調波減衰フィルタ処理過程を有し、
     前記複数の調波減衰フィルタ処理過程の各々では、一方の過程の出力信号が他方の過程の入力信号となる累算過程およびコムフィルタ処理過程からなるフィルタ処理を1または複数回再帰的に実行し、
     前記累算過程では、当該累算過程に対する入力信号を累算し、
     前記コムフィルタ処理過程では、当該コムフィルタ処理過程に対する入力信号と当該入力信号を遅延させた信号との差分を出力することを特徴とする信号処理方法。
  2.  前記複数の調波減衰フィルタ処理過程の後に行う複数の周期検出過程を具備し、
     前記複数の周期検出過程の各々は、
     入力信号に関する複数種類の状態の中から検出対象とする状態を所定の順序で選択しつつ前記入力信号から検出対象の状態を検出する状態検出過程と、
     前記状態検出過程による前記状態の検出タイミングに基づいて前記入力信号の周期を推定する周期推定過程と
     を具備することを特徴とする請求項1に記載の信号処理方法。
  3.  前記状態検出過程では、前記入力信号から先行ピークを検出した後、後続ピークを検出し、当該先行ピークの振幅値の絶対値に対して当該後続ピークの振幅値の絶対値が所定の限度を越えて小さい場合に、当該後続ピークを検出しなかったものとみなすことを特徴とする請求項2に記載の信号処理方法。
  4.  前記周期推定過程では、入力信号の基本波らしさを示す信頼度情報を出力することを特徴とする請求項2または3に記載の信号処理方法。
  5.  前記複数の周期検出過程から入力信号の基本周期についての推定結果を少なくとも含む出力情報を受け取り、各出力情報が示す基本周期から前記入力信号の基本周期を選択する選択過程を具備し、
     前記選択過程では、先行する選択結果である基本周期と前記複数の周期検出過程から各々受け取る出力情報が示す基本周期との差分を独立変数とするコスト関数であって、差分に対して関数値が非線形であるコスト関数を用いて前記基本周期の選択を行うことを特徴とする請求項2~4のいずれか1項に記載の信号処理方法。
  6.  入力信号に関する複数種類の状態の中から検出対象とする状態を所定の順序で選択しつつ前記入力信号から検出対象の状態を検出する状態検出過程と、
     前記状態検出過程による前記状態の検出タイミングに基づいて前記入力信号の周期を推定する周期推定過程と
     を具備することを特徴とする信号処理方法。
  7.  複数の基本波推定部から入力信号の基本波成分に関する推定結果である基本波情報を受け取り、これらの基本波情報から1つの基本波情報を選択する選択過程を具備し、
     前記選択過程では、先行する選択結果である基本波情報と前記複数の基本波推定部から各々受け取る基本波情報との差分を独立変数とするコスト関数であって、前記差分に対して関数値が非線形であるコスト関数を用いて前記基本波情報の選択を行うことを特徴とする信号処理方法。
  8.  各々、異なる帯域通過特性に従って、入力信号の帯域制限を行って出力する複数の調波減衰フィルタ処理過程と、
     前記複数の調波減衰フィルタの出力信号に基づいて、前記入力信号の基本波成分を各々推定する複数の基本波推定過程と、
     前記複数の調波減衰フィルタ処理過程の出力信号に基づいて、前記複数の基本波推定過程により推定させる基本波の1周期毎にピッチマークを各々推定する複数のピッチマーク推定過程と、
     前記複数の基本波推定過程により推定された基本波成分および前記複数のピッチマーク推定過程により推定されたピッチマークの中から共通の調波減衰フィルタの出力信号に基づいて推定された基本波成分およびピッチマークを選択する選択過程と
     を具備することを特徴とする信号処理方法。
  9.  前記ピッチマーク推定過程は、前記調波減衰フィルタ処理過程の出力信号の負ピークと正方向零交差点との中間のタイミングを前記ピッチマークとして推定することを特徴とする請求項8に記載の信号処理方法。
  10.  前記調波減衰フィルタ処理過程の出力信号の正期間および負期間の各々における前記調波減衰フィルタ処理過程の入力信号の最大値と最小値の差分を比較することにより前記調波減衰フィルタ処理過程の入力信号の極性を判定する極性判定過程を具備し、
     前記ピッチマーク推定過程は、前記極性判定過程の判定結果に基づいて前記ピッチマークの推定を行うことを特徴とする請求項8または9に記載の信号処理方法。
  11.  各々、異なる帯域通過特性を有し、入力信号の帯域制限を行って、前記入力信号の基本周波数の推定に用いられる信号を各々出力する複数の調波減衰フィルタを有し、
     前記複数の調波減衰フィルタの各々が、
     自身に対する入力信号を累算する累算器と、
     自身に対する入力信号と当該入力信号を遅延させた信号との差分を出力するコムフィルタと
     を縦続接続してなるフィルタを含むことを特徴とする信号処理装置。
  12.  入力信号に関する複数種類の状態の中から検出対象とする状態を所定の順序で選択しつつ前記入力信号から検出対象の状態を検出する状態検出手段と、
     前記状態検出手段による前記状態の検出タイミングに基づいて前記入力信号の周期を推定する周期推定手段と
     を具備することを特徴とする信号処理装置。
  13.  複数の基本波推定部から入力信号の基本波成分に関する推定結果である基本波情報を受け取り、これらの基本波情報から1つの基本波情報を選択する選択部を具備し、
     前記選択部は、先行する選択結果である基本波情報と前記複数の基本波推定部から各々受け取る基本波情報との差分を独立変数とするコスト関数であって、前記差分に対して関数値が非線形であるコスト関数を用いて前記基本波情報の選択を行うことを特徴とする信号処理装置。
  14.  各々、異なる帯域通過特性を有し、入力信号の帯域制限を行って出力する複数の調波減衰フィルタと、
     前記複数の調波減衰フィルタの出力信号に基づいて、前記入力信号の基本波成分を各々推定する複数の基本波推定部と、
     前記複数の調波減衰フィルタの出力信号に基づいて、前記複数の基本波推定部により推定される基本波の1周期毎にピッチマークを各々推定する複数のピッチマーク推定部と、
     前記複数の基本波推定部により推定された基本波成分および前記複数のピッチマーク推定部により推定されたピッチマークの中から1つの共通の調波減衰フィルタの出力信号に基づいて推定された基本波成分およびピッチマークを選択する選択手段と
     を具備することを特徴とする信号処理装置。
PCT/JP2016/088935 2016-01-06 2016-12-27 信号処理方法および信号処理装置 WO2017119368A1 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
US16/028,629 US20180315444A1 (en) 2016-01-06 2018-07-06 Signal Processing Method and Signal Processing Device

Applications Claiming Priority (4)

Application Number Priority Date Filing Date Title
JP2016001370 2016-01-06
JP2016-001370 2016-01-06
JP2016-061928 2016-03-25
JP2016061928A JP2017122908A (ja) 2016-01-06 2016-03-25 信号処理装置および信号処理方法

Related Child Applications (1)

Application Number Title Priority Date Filing Date
US16/028,629 Continuation US20180315444A1 (en) 2016-01-06 2018-07-06 Signal Processing Method and Signal Processing Device

Publications (1)

Publication Number Publication Date
WO2017119368A1 true WO2017119368A1 (ja) 2017-07-13

Family

ID=59274142

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/JP2016/088935 WO2017119368A1 (ja) 2016-01-06 2016-12-27 信号処理方法および信号処理装置

Country Status (1)

Country Link
WO (1) WO2017119368A1 (ja)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP3508865A1 (en) * 2018-01-08 2019-07-10 Delta Electronics (Thailand) Public Co., Ltd. Method for estimating a signal property
CN113303813A (zh) * 2021-05-12 2021-08-27 西安电子科技大学 一种轻量级心电信号噪声去除及qrs波形检测方法

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH05315893A (ja) * 1992-05-12 1993-11-26 Sony Corp ディジタルフィルタ装置
JPH1188452A (ja) * 1997-09-02 1999-03-30 Uniden Corp 受信装置および受信信号の復調方法

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH05315893A (ja) * 1992-05-12 1993-11-26 Sony Corp ディジタルフィルタ装置
JPH1188452A (ja) * 1997-09-02 1999-03-30 Uniden Corp 受信装置および受信信号の復調方法

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
HIDEYUKI TACHIBANA ET AL.: "MELODY LINE ESTIMATION IN HOMOPHONIC MUSIC AUDIO SIGNALS BASED ON TEMPORAL-VARIABILITY OF MELODIC SOURCE", PROCEEDINGS OF 2010 IEEE INTERNATIONAL CONFERENCE ON ACOUSTICS, SPEECH, AND SIGNAL PROCESSING (ICASSP2010, March 2010 (2010-03-01), pages 425 - 428, XP031697689 *
MASANORI MORISE ET AL.: "Rapid FO Estimation for High-SNR Speech Based on Fundamental Component Extraction", THE IEICE TRANSACTIONS ON INFORMATION AND SYSTEMS, vol. J93-D, no. 2, 1 February 2010 (2010-02-01), pages 109 - 117 *
THOMAS DRUGMAN ET AL.: "Glottal Closure and Opening Instant Detection from Speech Signals", INTERSPEECH, 2009, pages 2891 - 2894, XP055398339 *

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP3508865A1 (en) * 2018-01-08 2019-07-10 Delta Electronics (Thailand) Public Co., Ltd. Method for estimating a signal property
CN110018343A (zh) * 2018-01-08 2019-07-16 泰达电子股份有限公司 用于估计信号性质的方法
US11131696B2 (en) 2018-01-08 2021-09-28 Delta Electronics (Thailand) Public Co., Ltd. Method for estimating a signal property
CN110018343B (zh) * 2018-01-08 2024-02-06 泰达电子股份有限公司 用于估计信号性质的方法
CN113303813A (zh) * 2021-05-12 2021-08-27 西安电子科技大学 一种轻量级心电信号噪声去除及qrs波形检测方法

Similar Documents

Publication Publication Date Title
JP4587160B2 (ja) 信号処理装置および方法
US10854220B2 (en) Pitch detection algorithm based on PWVT of Teager energy operator
US20180315444A1 (en) Signal Processing Method and Signal Processing Device
US9454976B2 (en) Efficient discrimination of voiced and unvoiced sounds
JP3273599B2 (ja) 音声符号化レート選択器と音声符号化装置
WO2017119368A1 (ja) 信号処理方法および信号処理装置
JP2001236085A (ja) 音声区間検出装置、定常雑音区間検出装置、非定常雑音区間検出装置、及び雑音区間検出装置
US8170236B2 (en) Pitch detection apparatus and method
Zhang et al. Fast nonstationary noise tracking based on log-spectral power mmse estimator and temporal recursive averaging
KR20050080649A (ko) 유성음 및 무성음 검출방법 및 장치
JP6284003B2 (ja) 音声強調装置及び方法
Amado et al. Pitch detection algorithms based on zero-cross rate and autocorrelation function for musical notes
JPH05281996A (ja) ピッチ抽出装置
CN1971707B (zh) 一种进行基音周期估计和清浊判决的方法及装置
Böhler et al. Monophonic pitch detection by evaluation of individually parameterized phase locked loops
JP7152112B2 (ja) 信号処理装置、信号処理方法および信号処理プログラム
Chang et al. Pitch estimation of speech signal based on adaptive lattice notch filter
JP6065488B2 (ja) 帯域拡張装置及び方法
Oukherfellah et al. FPGA implementation of voice activity detector for efficient speech enhancement
JP4442239B2 (ja) 音声速度変換装置と音声速度変換方法
Govind et al. Epoch extraction in high pass filtered speech using hilbert envelope
CN115862685B (zh) 一种实时语音活动的检测方法、装置和电子设备
WO2021193637A1 (ja) 基本周波数推定装置、アクティブノイズコントロール装置、基本周波数の推定方法及び基本周波数の推定プログラム
Khonglah et al. Speech/music classification using vocal tract constriction aspect of speech
JP2011070084A (ja) 有音無音判定装置、有音無音判定方法、および、有音無音判定プログラム

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 16883867

Country of ref document: EP

Kind code of ref document: A1

NENP Non-entry into the national phase

Ref country code: DE

122 Ep: pct application non-entry in european phase

Ref document number: 16883867

Country of ref document: EP

Kind code of ref document: A1