WO2004111996A1 - 音響区間検出方法および装置 - Google Patents

音響区間検出方法および装置 Download PDF

Info

Publication number
WO2004111996A1
WO2004111996A1 PCT/JP2004/008051 JP2004008051W WO2004111996A1 WO 2004111996 A1 WO2004111996 A1 WO 2004111996A1 JP 2004008051 W JP2004008051 W JP 2004008051W WO 2004111996 A1 WO2004111996 A1 WO 2004111996A1
Authority
WO
WIPO (PCT)
Prior art keywords
section
harmonic structure
acoustic feature
value
voice
Prior art date
Application number
PCT/JP2004/008051
Other languages
English (en)
French (fr)
Inventor
Tetsu Suzuki
Takeo Kanamori
Takashi Kawamura
Original Assignee
Matsushita Electric Industrial Co., Ltd.
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Matsushita Electric Industrial Co., Ltd. filed Critical Matsushita Electric Industrial Co., Ltd.
Priority to JP2005505039A priority Critical patent/JP3744934B2/ja
Priority to US10/542,931 priority patent/US7567900B2/en
Publication of WO2004111996A1 publication Critical patent/WO2004111996A1/ja

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/78Detection of presence or absence of voice signals
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/93Discriminating between voiced and unvoiced parts of speech signals
    • G10L2025/932Decision in previous or following frames
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/93Discriminating between voiced and unvoiced parts of speech signals
    • G10L2025/937Signal energy in various frequency bands

Definitions

  • the present invention relates to a harmonic structure signal section and a harmonic structure acoustic signal section detection method for detecting a section including speech as a speech section from a signal having a harmonic structure from an input acoustic signal, and in particular, under environmental noise.
  • the present invention relates to a harmonic structure signal and a harmonic structure acoustic signal section detection method.
  • Human voice is formed by the vibration of the vocal cords and the resonance of the vocal organ, and the vocal cords are controlled to change the vibration frequency to distinguish the loudness and the pitch of the voice, and the voice of the nose, tongue, etc. It is known that people utter various sounds by changing the position of organs, that is, the shape of the vocal tract. If the voice generated in this way is captured as an acoustic signal, its feature is that it is a component that changes slowly with the frequency, such as the spectral envelope and the short time period (in the case of a voiced vowel etc. It is known that it is composed of a spectral fine structure, which is a component (in the case of consonants and unvoiced vowels) that changes periodically or aperiodically.
  • the former spectrum envelope component represents the resonance characteristics of the vocal organ, and is used as a feature representing the shape of the throat and mouth of a human being, for example, as a feature of speech recognition.
  • the latter spectral fine structure represents the periodicity of the sound source, and is used as a feature representing the fundamental period (pitch) of the vocal cords and the pitch of the sound.
  • the spectrum of the audio signal is expressed by the product of these two elements. Especially in the vowel part etc., the signal that often leaves the fundamental period of the latter and its harmonic components is It is also called harmonic structure.
  • method 1 A method of identifying them by using amplitude information such as a band power of the input sound signal or a spectrum envelope indicating the outline of the spectrum (hereinafter referred to as “method 1”), and the mouth image as a moving image.
  • a method of detecting the open / close state by image analysis (hereinafter referred to as “method 2”), a voice interval is detected by comparing an acoustic model representing speech or noise with an acoustic feature of an input acoustic signal Method (hereinafter referred to as “method 3 J.”) and the spectral envelope shape formed by the vocal tract shape that is a feature of the speech articulator, and the harmonic structure formed by the vocal cord vibration.
  • method 4 There is a method to decide.
  • Method 1 involves the problem that it is difficult to distinguish speech and noise from amplitude information alone. For this reason, in method 1, assuming the speech section and the noise section, the speech section is detected by relearning the threshold set to distinguish the speech section and the noise section. Therefore, if the amplitude of the noise section increases relative to the amplitude of the voice section in the learning process (that is, the voice-to-noise ratio (hereinafter referred to as "SNR") decreases to about 0 dB), The accuracy of the assumption itself as an interval affects the performance, and the accuracy of threshold learning deteriorates. As a result, there is a problem that the performance of speech segment detection is degraded.
  • SNR voice-to-noise ratio
  • Method 2 for example, if it is made to detect that the mouth is open using only the image without using sound input, it is possible to keep the voice section detection estimation accuracy constant regardless of SNR. It is.
  • image analysis processing has the problems of higher cost compared to analysis processing of audio signals, and that voice segments can not be detected if the mouth is not directed to the camera.
  • Method 3 ensures performance under expected environmental noise Because it is difficult to estimate the noise itself, the environment in which this method can be used is limited.
  • a method for learning the noise environment in the field has also been proposed, but there is also the problem that the performance is degraded depending on the accuracy of the learning method, as in the method using amplitude information (Method 1).
  • Method 4 determines the vocal section by focusing on the spectral envelope shape formed by the vocal tract shape and the harmonic structure formed by vocal cord vibration, which are the features of the articulatory organs of speech. It has been.
  • Methods using the spectral envelope shape include methods to evaluate band power such as cepstral continuity, but when the SNR is lowered, it is difficult to distinguish it from the noise offset component. Performance is degraded.
  • the pitch detection method is one of the methods, such as a method of extracting autocorrelation on the time axis and high-order fragility, a method of performing autocorrelation on the frequency axis, etc. It is done.
  • these methods make it difficult to extract the voice section if the target signal is not a signal with a single pitch (the fundamental frequency of harmonics), and environmental noise is likely to cause extraction errors. There is a problem with
  • the method described in Japanese Patent Application Laid-Open Publication No. 11-140360 is a method utilizing the characteristic characteristic of the melody of music that sounds of the same pitch last for a certain period of time. For this reason, there is a problem that it is difficult to use this method as it is to distinguish between speech and noise. If the purpose is not to separate or remove sound, the amount of processing will be a problem.
  • FIG. 32 is a block diagram showing a schematic configuration of a voice activity determination apparatus using the method proposed in Japanese Patent Application Laid-Open No. 2001/022802.
  • a voice section detection apparatus 10 shown in FIG. 3 2 is an apparatus for determining a voice section in an input signal, and includes an FFT (Fast Fourier Transform) section 1 0 0, a harmonic structure evaluation section 1 0 1, a harmonic A wave structure peak detection unit 102, a pitch candidate detection unit 103, an inter-frame amplitude difference harmonic structure evaluation unit 104, and a speech interval determination unit 105 are provided.
  • FFT Fast Fourier Transform
  • F F T section 100 performs F F T processing on the input signal every frame (for example, 1 frame is 10 ms), performs frequency conversion on the input signal, and performs various analyses.
  • the harmonic structure evaluation unit 101 evaluates whether or not each frame has the harmonic structure based on the frequency analysis result obtained from the FFT unit 100.
  • the harmonic structure peak detection unit 102 converts the harmonic structure extracted by the harmonic structure evaluation unit 101 into a local peak shape, and detects a local peak.
  • the pitch candidate detection unit 103 performs pitch detection by tracking the local peak detected by the harmonic structure peak detection unit 102 in the time axis direction (frame direction).
  • the pitch is the fundamental frequency of the harmonic structure.
  • Inter-frame amplitude difference harmonic structure evaluation unit 104 subtracts the amplitude obtained as a result of the frequency analysis in FFT unit 100 between the frames to obtain a difference value, and focuses on the difference value. It is evaluated whether the frame in question has a harmonic structure.
  • the speech segment determination unit 105 comprehensively determines the pitch detected by the pitch candidate detection unit 103 and the evaluation result of the inter-frame amplitude difference harmonic structure evaluation unit 104, and Decide.
  • the speech zone can be determined not only for an acoustic signal having only a single pitch but also for an acoustic signal having a plurality of pitches.
  • the inter-frame amplitude difference harmonic structure evaluation unit 104 evaluates the presence or absence of the harmonic structure with respect to the inter-frame difference. Since the difference in amplitude is used, not only information in the harmonic structure is lost, but also, for example, when a sudden noise occurs, the acoustic feature value of the sudden noise is evaluated as it is as a difference value. There is a problem of
  • the present invention has been made to solve the above-mentioned problems, and provides a harmonic structural acoustic signal section detection method and apparatus capable of accurately detecting a speech section without depending on the level fluctuation of an input signal.
  • the purpose is to
  • Another object of the present invention is to provide a harmonic structured acoustic signal section detection method and apparatus excellent in real time property. Disclosure of the invention
  • a harmonic structured acoustic signal section detection method is a harmonic structured acoustic signal section detecting a section including speech as a speech section from a signal having a harmonic structure from an input sound signal.
  • a method for detecting a signal section comprising: an acoustic feature amount extraction step of extracting an acoustic feature amount in frame units divided by a predetermined time with respect to the input acoustic signal; evaluating the persistence of the acoustic feature amount And an interval determining step of determining a voice interval according to the evaluation result.
  • the speech segment is determined by evaluating the persistence of the acoustic features. For this reason, it is not necessary to consider the level fluctuation of the input signal, such as the appearance and disappearance of the oral peak as in the conventional method for tracking the oral peak, and the voice section can be determined with high accuracy.
  • the acoustic feature quantity extraction step frequency conversion is performed on the input acoustic signal in frame units, and only the harmonic structure is emphasized based on the result of the frequency transformation, and the acoustic feature quantity is extracted. It features. Harmonic structure can be seen in speech (especially vowels). Therefore, by determining the voice section using the acoustic feature quantity emphasizing the harmonic structure, it is possible to determine the voice section more precisely.
  • a harmonic structure is further extracted from the result of the frequency conversion, and the result of the frequency conversion of a predetermined band including the harmonic structure is It is characterized in that it is an acoustic feature.
  • the persistence is evaluated based on a correlation value between frames of the acoustic feature quantity. I assume.
  • the durability of the harmonic structure is evaluated by the correlation value of the acoustic features between frames. For this reason, it is possible to evaluate the residual information of the harmonic structure, as compared to the conventional method in which the amplitude difference between the frames is taken to evaluate the durability of the harmonic structure. Therefore, even if sudden noise is generated over a short frame, such sudden noise is not detected as a voice section, and the voice section can be determined with high accuracy.
  • the step of determining the section includes: an evaluation step of calculating an evaluation value for evaluating the persistence of the acoustic feature amount; evaluating temporal continuity of the evaluation value; and voice according to the evaluation result. And an audio segment determination step of determining the segment.
  • the processing in the voice segment determination step corresponds to processing for detecting voice segments by connecting voiced segments (voice segments obtained from only evaluation values) continuous in time, as described in the embodiment. In this way, by concatenating voiced sections that are temporally continuous and determining the voice section, it is possible to determine a consonant whose harmonic structure evaluation value is smaller than that of the vowel as the voice section.
  • the music is speech or non-speech by evaluating the section having the harmonic structure in detail.
  • this can be detected by continuously evaluating the number index of the band in which the maximum or minimum harmonic structure value is detected inside the frame.
  • the harmonic structure such as voice or music is sustained using the variance of the evaluation value. It is possible to determine whether it is a transition from the section or a sudden noise with a harmonic structure.
  • a method which determines harmonic structure on a frame basis while inputting sound.
  • the step of determining the interval further includes comparing the evaluation value calculated in the evaluating step over a predetermined number of frames with a first predetermined threshold. Estimating a speech-to-noise ratio of the input acoustic signal; and if the estimated speech-to-noise ratio is greater than or equal to a second predetermined threshold, the evaluation value calculated in the evaluation step is used. And determining the voice interval, wherein the voice interval determining step includes temporal continuity of the evaluation value if the voice-to-noise ratio is less than the second predetermined threshold. It is characterized by evaluating and determining the voice section according to the evaluation result.
  • the present invention can not only be realized as the above harmonic structural acoustic signal section detection method, but is realized as a harmonic structural acoustic signal section detection device using the steps as a means. Or, it can be realized as a program for causing a computer to execute each step of the harmonic structural acoustic signal section detection method. It goes without saying that such a program can be distributed via a recording medium such as CD-ROM or a transmission medium such as the Internet.
  • the harmonic structural acoustic signal section detection method and device As described above, according to the harmonic structural acoustic signal section detection method and device according to the present invention, it is possible to select voice sections and noise sections with high accuracy, and in particular In addition, by applying the present invention as pre-processing of the speech recognition method, the speech recognition rate can be improved, and its practical value is extremely high. In addition, by using it for IC (Integrated Circuit) recorders etc., it is possible to use recording capacity efficiently by recording only the voice section.
  • IC Integrated Circuit
  • FIG. 1 is a block diagram showing the hardware configuration of a voice activity detection apparatus according to Embodiment 1 of the present invention.
  • FIG. 2 is a flowchart of processing executed by the voice activity detection apparatus according to the first embodiment.
  • Figure 3 is a flowchart of harmonic structure extraction processing by the harmonic structure extraction unit.
  • Figs. 4 (a) to 4 (f) are diagrams schematically showing the process of extracting the spectrum component in which only the harmonic structure is left from the spectrum component in each frame.
  • 5 (a) to 5 (f) are diagrams showing the transition of conversion of the input signal according to the present invention.
  • Fig. 6 is a flowchart of the speech segment determination process.
  • FIG. 7 is a block diagram showing a hardware configuration of a voice activity detection apparatus according to Embodiment 2 of the present invention.
  • FIG. 8 is a flowchart of processing performed by the voice activity detection apparatus according to the second embodiment.
  • FIG. 9 is a block diagram showing the hardware configuration of the speech zone detection apparatus according to the third embodiment.
  • FIG. 10 is a flowchart of processing executed by the voice activity detection device.
  • FIG. 11 is a diagram for explaining harmonic structure extraction processing.
  • Figure 12 is a flowchart showing the details of harmonic structure extraction processing.
  • Figure 13 (a) shows the power spectrum of the input signal.
  • Figure 1
  • FIG 3 (b) is a figure which shows harmonic structure value R (i).
  • Figure 13 (c) shows the band number N (i).
  • Figure 13 (d) shows the weighted band number N e (i).
  • Figure 13 (e) shows the corrected harmonic structure value R '(i).
  • Figure 14 (a) shows the power spectrum of the input signal.
  • FIG 4 (b) is a figure which shows harmonic structure value R (i.).
  • Figure 14 (c) shows the band number N (i).
  • Figure 14 (d) shows the weighted band number N e (i).
  • Figure 14 (e) shows the corrected harmonic structure value R '(i).
  • Figure 15 (a) shows the power spectrum of the input signal.
  • FIG 5 (b) is a figure which shows harmonic structure value R (i).
  • Figure 15 (c) shows the band number N (i).
  • Figure 15 (d) shows the weighted band number N e (i).
  • Figure 15 (e) shows the corrected harmonic structure value R '(i).
  • Figure 16 (a) shows the power spectrum of the input signal.
  • FIG. 6 (b) is a figure which shows harmonic structure value R (i).
  • Figure 16 (c) shows the band number N (i).
  • Figure 16 (d) shows the weighted band number N e (i).
  • Figure 16 (e) shows the corrected harmonic structure value R '(i).
  • FIG. 17 is a detailed flowchart of the audio and music segment decision process.
  • Fig. 18 shows hardware of the voice activity detection apparatus according to the fourth embodiment:!
  • FIG. 6 is a block diagram showing a configuration.
  • FIG. 19 is a flowchart of processing executed by the voice activity detection apparatus.
  • Fig. 20 is a flowchart showing the details of harmonic structure extraction processing.
  • Figure 21 is a flowchart showing the details of the speech segment determination process.
  • Figure 2 2 (a) shows the power spectrum of the input signal.
  • Fig. 2 2 (b) shows the harmonic structure value R (i).
  • Fig. 2 2 (c) is a diagram showing the weighted variance V e (i).
  • Figure 22 (d) is a diagram showing the speech segment before connection.
  • Figure 22 (e) is a diagram showing the voiced section after connection.
  • Figure 2 3 (a) shows the power spectrum of the input signal.
  • Figure 2 3 (b) shows the harmonic structure value R (i).
  • FIG. 24 is a flowchart showing another example of harmonic structure extraction processing.
  • Figure 25 (a) shows the input signal.
  • Figure 25 (b) shows the power spectrum of the input signal.
  • Figure 25 (c) shows the harmonic structure value R (i).
  • Figure 25 (d) shows the weighted harmonic structure value R e (i).
  • Figure 25 (e) shows the corrected harmonic structure value R '(i).
  • Figure 26 (a) shows the input signal.
  • Figure 26 (b) shows the power spectrum of the input signal.
  • Figure 26 (c) shows the harmonic structure value R (i).
  • Figure 26 (d) shows the weighted harmonic structure value R e (i).
  • Figure 26 (e) shows the corrected harmonic structure value R '(i).
  • FIG. 27 is a block diagram showing the configuration of a voice activity detection apparatus 60 according to Embodiment 5.
  • FIG. 28 is a flowchart of processing executed by the voice activity detection device.
  • Figures 2 9 (a) to 2 9 (d) are diagrams for explaining the connection of harmonic structure sections.
  • FIG. 30 is a detailed flowchart of the harmonic structure frame provisional determination process.
  • FIG. 3 1 is a detailed flowchart of harmonic structure interval determination processing.
  • FIG. 32 is a diagram showing a schematic hardware configuration of a conventional speech segment determination device. BEST MODE FOR CARRYING OUT THE INVENTION
  • FIG. 1 is a block diagram showing the hardware configuration of a voice activity detection apparatus 20 according to the present embodiment.
  • the voice section detecting device 20 is a device for determining a voice section which is a section in which a human is uttering out of an input sound signal (hereinafter simply referred to as “input signal”). And a harmonic structure extraction unit 2 0 1, a voiced evaluation unit 2 10, and a voice section determination unit 2 0 5.
  • F F T section 200 applies F F T to the input signal to obtain the power spectrum component for each frame.
  • the time per frame is 1 O m s e c, but it is not limited to this time.
  • the harmonic structure extraction unit 201 removes a noise component and the like from the power spectrum component extracted in the FFT section 200 and extracts a power spectrum component in which only the harmonic structure is left.
  • the voiced evaluation unit 210 measures the correlation between frames of the power spectrum component leaving only the harmonic structure extracted by the harmonic structure extraction unit 201, to obtain the vowel sound. It is an apparatus that evaluates whether it is a section and extracts a voiced section, and comprises a feature storage unit 202, a feature amount inter-frame correlation value calculation unit 203, and a difference processing unit 204 .
  • the harmonic structure is a property mainly found in the power spectrum distribution in the vocal section of the vowel, and in the power spectrum distribution in the vocal section of the consonant, the harmonic structure as vowel is seen. I can not.
  • the feature amount storage unit 202 stores power spectra output from the harmonic structure extraction unit 201 by a predetermined number of frames.
  • the feature amount inter-frame correlation value calculation unit 2 0 3 is the power spectrum output from the harmonic structure extraction unit 2 0 1 and the constant frame pre-stored in the feature amount storage unit 2 0 2 Calculate the correlation value with the power spectrum of.
  • the difference processing unit 24 calculates an average value of the correlation values obtained in the feature value inter-frame correlation value calculation unit 2 03 over a certain period, and the feature value inter-frame correlation value calculation unit 2 0 3 The average value is subtracted from the output correlation value to obtain a corrected correlation value by the average difference between the correlation value and the average value.
  • the voice segment determination unit 205 determines the voice segment based on the corrected correlation value by the average difference output from the difference processing unit 24.
  • FIG. 2 is a flowchart of processing executed by the voice activity detection device 20.
  • the FFT section 200 obtains the power spectrum component by applying FFT to the input signal as an acoustic feature used to extract the harmonic structure (S 2). More specifically, the FFT unit 200 samples the input signal at a predetermined sampling frequency F s (for example, 1 1.0 25 k H z), and one frame (for example 1 For every 0 msec, find the FFT spectrum component at a predetermined point (for example, 1 2 8 points per 1 frame). The FFT section 200 obtains the power spectrum component by logarithmically converting the spectrum component obtained at each point.
  • the peak spectrum component will be simply referred to as the spectrum component as appropriate.
  • the harmonic structure extraction unit 201 removes noise components and the like from the power spectrum components extracted by the FFT unit 200, and extracts a spectral component in which only the harmonic structure is left. (S 4).
  • the power spectrum component calculated by the FFT unit 200 includes the spectrum envelope shape formed by the offset due to noise and the vocal tract shape, and each causes time variation. . For this reason, the harmonic structure extraction unit 201 removes these components and extracts the power spectrum component leaving only the harmonic structure formed by vocal cord vibration. As a result, voiced section detection can be performed more effectively.
  • Fig. 3 is a flow chart of harmonic structure extraction processing by the harmonic structure extraction unit 201
  • Fig. 4 is a spectrum in which only the harmonic structure is left from the spectrum components in each frame. It is a figure which shows typically the process of extracting a component.
  • the harmonic structure extraction unit 201 has a peak value H max (f) obtained by peak-holding the maximum value from the spectrum component S (f) of each frame. ) Is calculated (S 2 2), and the minimum value of spectral component S (f) is peaked to calculate the value H min (f) (S 2 4).
  • the harmonic structure extraction unit 201 can generate a spectrum by subtracting the peak hold value H min (f) of the minimum value from the spectrum component S (f).
  • the floor component contained in the toll component S (f) is removed (S 26). This removes the noise offset component and the fluctuation component due to the spectral envelope.
  • the harmonic structure extraction unit 201 has the peak value H max (f) of the maximum value and the peak hold value H min (f) of the minimum value. Calculate the peak fluctuation amount (S 28).
  • the harmonic structure extraction unit 20 1 differentiates the peak fluctuation amount in the frequency direction and calculates the change amount (S 30). This is based on the assumption that the change in peak fluctuation is small in the band having harmonic structure components. The purpose is to detect harmonic structure based on.
  • the harmonic structure extraction unit 201 calculates a weight W (f) that reflects the above assumption (S 32). That is, the harmonic structure extraction unit 201 compares the absolute value of the amount of change in peak fluctuation with a predetermined threshold value, and if the absolute value of the amount of change is less than or equal to the predetermined threshold value 0
  • the weight W (f) is 1, and if it is a predetermined threshold value 0 or more, the inverse of the absolute value of the amount of change is the weight W (f). This makes it possible to reduce the weight of the portion where the change in peak fluctuation is large and to increase the weight of the portion where the change in peak fluctuation is small.
  • the harmonic structure extraction unit 201 multiplies the weight W (f) by the spectral component (S (f) ⁇ H min (f)) from which the floor component has been removed. Together, the spectral component S '(f) is obtained (S34). By this processing, it is possible to remove non-harmonic structure components having a large change in peak fluctuation.
  • the feature value inter-frame correlation value calculation unit 2 0 3 outputs the spectrum output from the harmonic structure extraction unit 2 0 1
  • the correlation value between the component and the spectrum component before the predetermined frame stored in the feature storage unit 202 is calculated (S 6).
  • the correlation value E 1 (j) is obtained according to the following equations (1) to (5). That is, power spectrum components P (i) and P (i-1) at 128 points of i frame and i-1 frame are represented by the following equations (1) and (2), respectively. Also, the correlation function of the power spectrum components P (i) and P (i-1) xcorr (P (j-1), Let the value of P (j)) be expressed by the following equation (3). That is, the value of the correlation function xcorr (P (j-1), P (j)) is a vector quantity consisting of the inner product value at each point.
  • FIG. 5 is a graph representing the signal obtained by processing the input signal.
  • This input signal includes a sudden sound called “force tightness” when the vacuum cleaner is moved to a location of about 500 msec, and the motor of the vacuum cleaner is around 2800 msec. The speed of rotation of the vacuum cleaner is changed from weak to strong, and the level of the vacuum cleaner's sound is increasing.
  • Figure 5 (b) shows the input signal shown in Figure 5 (a)
  • Figure 5 (c) shows the transition of the correlation value found in the correlation value calculation process (S 6).
  • the calculation of the correlation value E 1 (j) is calculated based on the findings as shown below. That is, the correlation value of acoustic features between frames is based on the fact that harmonic structures are continuous in temporally consecutive frames. Therefore, voiced detection is performed by correlating the harmonic structure with frames close in time. The harmonic structure lasts in time mainly in the vowel section. Therefore, it is assumed that the correlation value is large in the vowel section and smaller in the consonant section than in the vowel section. Thus, by focusing on the harmonic structure and taking the correlation value of the power spectrum component between the frames, it is considered that the correlation value becomes smaller in the non-periodic noise section. For this reason, voiced sections can be distinguished more clearly.
  • the duration of the vowel section is said to be 50 to 150 msec (5 to 15 frames) at a typical speech speed, and within that duration, the correlation coefficient between frames.
  • the value of can be assumed to be high even if it is not an adjacent frame. If this assumption is correct, it can be said that the evaluation function is also less susceptible to nonperiodic noise.
  • the correlation value E 1 (j) the sum of the values of the correlation function over several frames is used to eliminate the effect of the noise that occurs suddenly and, if it is a vowel, It is due to the finding that there is a duration of 50 to 150 msec. Therefore, as shown in Fig. 5 (c), the correlation value remains small without reacting to the sudden sound that is produced near 50 frames.
  • the difference processing unit 204 calculates an average value of the correlation values calculated by the feature value inter-frame correlation value calculation unit 203 over a predetermined time, and the average value is calculated from the correlation value in each frame.
  • a corrected correlation value based on the average difference S 8
  • the average value of the correlation value of about 5 seconds is determined, and in FIG. 5 (c), the average value is indicated by a solid line 502. That is, the section in which the correlation value exists above the solid line 502 is the section in which the correction correlation value based on the average difference is positive.
  • the voice interval is determined according to the three interval correction methods of: sorting by correlation value, duration of interval, concatenation of intervals including consonant interval and percussive interval (S 10).
  • FIG. 6 is a flowchart showing the details of the process of determining the speech interval in one utterance unit.
  • the voice section determining unit 205 checks whether the corrected correlation value obtained by the difference processing unit 204 is larger than a predetermined threshold value for the frame being focused (S 4 4) . For example, assuming that the predetermined threshold value is 0, this is equivalent to examining whether the correlation value shown in FIG. 5 (c) is larger than the average value of the correlation values (solid line 5 0 2). .
  • the correction correlation value is larger than a predetermined threshold (YES in S44), it is determined that the target frame is a voice frame (S46), and the correction correlation value is a predetermined threshold. In the following case (NO in S 4 4), it is determined that the frame of interest is a non-voice frame (S 4 8).
  • the above speech judgment processing (S 4 4 to S 4 8) is repeated for all frames for which speech segments are to be detected (S 4 2 to S 50). By the above processing, a graph as shown in Fig. 5 (d) is obtained, and a section in which voice frames continue is regarded as a voiced section. It is detected.
  • the threshold value when the value of the correction correlation value is equal to or less than the threshold value, it is determined that the frame is a non-voice frame.
  • expected correction correlation values differ in the detection section. For this reason, it is possible to appropriately set the threshold for discriminating between speech frames and non-speech (noise) frames through prior experiments.
  • the threshold By making the selection criteria of the signal with harmonic structure stricter by this processing, it can be expected that periodic noise shorter than the time length for which the average difference is obtained, for example, about 500 ms can be used as a non-voice frame.
  • the voice section determining unit 205 determines whether the distance between the focused voiced section and the voiced section adjacent to the voiced section is less than a predetermined number of frames (S 54). For example, here, the predetermined number of frames is assumed to be 3 0 frames. If the distance is less than 30 frames (YES at S 54), two adjacent voiced sections are connected (S 56). The above processing (S 54 to S 56) is performed for all voiced sections (S 52 to S 58). By the above connected processing of voiced sections, a graph as shown in Fig. 5 (e) is obtained, and it can be seen that adjacent voiced sections are connected.
  • the reason for connecting voiced sections is as follows. That is, in a section of a consonant, especially in an unvoiced consonant section such as a plosive sound (Z k Z, / c /, / t /, / p /) or a frictional sound, the correlation value is small because the harmonic structure is hard to appear. It is difficult to detect as a voiced section. However, since vowels exist in the vicinity of consonants, the section in which vowels continue is considered to be a voiced section. This makes it possible to make the consonant part into a voiced section as well. Finally, we will describe the interval duration which is the correction method of the third interval.
  • the voice segment determination unit 2 0 5 determines the duration of the focused voice segment It is checked whether the interval is longer than a predetermined time (S62). For example, it is assumed that the predetermined time is 5 0 msec. If the duration is longer than 50 msec (YES at S62), the voiced section is determined as the voice section (S64), and if the duration is 5 O msec or less (S6 (2: NO) Determine the voiced section as the non-speech section (S66). By performing the above processing (S 62 to S 6 6) for all voiced sections, the voice section is determined (S 60 to S 6 8). By the process described above, a graph as shown in Fig.
  • the voiced section is determined by evaluating the persistence between frames of the spectrum component having the harmonic structure. For this reason, the voice section can be determined with high accuracy as compared with the conventional method of tracking a one-to-one basis.
  • the durability of the harmonic structure is evaluated by the correlation value of the spectrum components between frames. For this reason, it is possible to evaluate the residual information of the harmonic structure, as compared to the conventional method in which the amplitude difference between frames is taken to evaluate the durability of the harmonic structure. Therefore, even if sudden noise occurs over a short frame, the sudden noise is not detected as a voiced section. Also, by connecting voiced sections that are adjacent in time, it is decided to be a voice section. For this reason, it is possible to determine a consonant whose harmonic structure is smaller than that of a vowel as a voice section. In addition, by evaluating the duration of voiced sections, it is possible to remove noise with periodicity. (Embodiment 2)
  • the speech segment is determined based only on the correlation of the spectrum components between the frames when the SNR of the input signal is good. This is different from the voice section detection device concerned.
  • FIG. 7 is a block diagram showing the hardware configuration of the voice activity detection apparatus 30 according to the present embodiment.
  • the same reference numerals as in the voice section detection apparatus 20 according to the first embodiment denote the same constituent elements. Since the names and functions are also the same, the description will be omitted as appropriate. In the following embodiments, the description will be omitted as appropriate.
  • the voice segment detection device 30 is a device that determines a voice segment that is a segment in which a human is uttering from an input signal, and includes an FFT unit 20 0, a harmonic structure extraction unit 20 1, and voiced voice.
  • An evaluation unit 2 1 0, an SNR estimation unit 2 0 6, and a voice segment determination unit 2 0 5 are provided.
  • the voiced evaluation unit 210 is an apparatus for extracting a voiced section, and includes a feature storage unit 20 2, a feature amount interframe correlation value calculation unit 2 0 3, and a difference processing unit 2 0 4.
  • the SNR estimation unit 2 0 6 estimates the SNR of the input signal based on the correction correlation value by the average difference output from the difference processing unit 2 0 4. When it is estimated that the SNR is poor, the SNR estimation unit 2 0 6 outputs the correction correlation value output from the difference processing unit 2 0 4 to the voice section determination unit 2 0 5 and estimates that the SNR is good. In the case where it is determined, the voiced section is determined based on the corrected correlation value output from the difference processing unit 2 0 4 without outputting the corrected correlation value to the voiced section determination unit 2 0 5. This has the property that when the SNR of the input signal is good, the difference between the correlation values of the voice section and the non-voice section is very clear. It is
  • the SNR estimation unit 206 estimates that the SNR is good, and the average value is a predetermined value. If the threshold value is exceeded, it is estimated that the SNR is bad. This is based on the following reasons. That is, when the average of the correlation values is determined over a sufficiently long time (for example, 5 seconds) than the duration of one utterance, the correlation value in the noise section becomes lower in an environment with a good SNR. As it becomes smaller, the average of the correlation values becomes smaller.
  • FIG. 8 is a flow chart of processing executed by the voice activity detection device 30>- ⁇ .
  • the SNR estimation unit 2106 estimates the SNR of the input signal according to the above method (S1 2). If the SNR is estimated to be good (YES in S14), a correction correlation value exceeding a predetermined threshold value is determined as the voice interval (S16). When it is estimated that the SNR is poor (NO in S14), the voice interval determination unit 2 according to the first embodiment described with reference to FIG. 2 and FIG. The same processing as the voice segment determination processing (S 10 in FIG. 2) according to step 5 is performed to determine the voice segment (S 10).
  • the voice segment determination processing based on the continuity and duration of the voiced segment is performed. There is no need to do it. This makes it possible to detect voice segments with excellent real-time capability.
  • the speech zone detection apparatus can not only determine the speech zone having the harmonic structure, but can particularly distinguish music and human speech from the speech zone.
  • FIG. 9 is a block diagram showing the hardware configuration of the voice activity detection apparatus 40 according to the present embodiment.
  • the voice segment detection device 40 is a device that determines a voice segment that is a segment in which a human is uttering from an input signal and a music segment that is a segment of music.
  • a harmonic structure extraction unit 4 0 1 and a voice / music section determination unit 4 0 2 are provided.
  • the harmonic structure extraction unit 4 0 1 is a processing unit that outputs a value indicating harmonic structure based on the power spectrum component extracted by the FFT section 200.
  • the voice / music section determination unit 402 is a processing unit that determines a voice section and a music section based on the value indicating harmonic structure output from the difference processing section 204.
  • Fig. 10 is a flowchart of processing executed by the voice activity detection apparatus 40.
  • the FFT unit 200 obtains the power spectrum component by applying an FFT to the input signal as an acoustic feature used to extract the harmonic structure. (S 2).
  • the harmonic structure extraction unit 401 extracts a value indicating the harmonic structure from the power spectrum component extracted in the FFT section 200 (S 82).
  • the harmonic structure extraction process (S 82) will be described in detail later.
  • the harmonic structure extraction unit 4 0 1 determines the voice section and the music section based on the value indicating the harmonic structure (S 84).
  • the audio and music segment determination process (S84) will be described in detail later.
  • harmonic structure extraction processing when the power spectrum component is divided into multiple bands, correlation between bands is taken to obtain a value indicating the harmonic structure.
  • the reason for determining the harmonic structure value by such a method is as follows. That is, assuming that the harmonic structure is found in the band where the signal influence in the vocal cord vibration that is the source is well left, the correlation of the power spectrum component with the adjacent band is high. The reasoning is that this is true. That is, as shown in FIG.
  • FIG 12 is a flowchart showing the details of the harmonic structure extraction process (S 82).
  • the harmonic structure extraction unit 40 1 calculates the inter-band correlation value C (i, k) between each band as described above for each frame (S 92).
  • the interband correlation value C (i, k) is expressed by the following equation (6).
  • P (i, x: y) represents a vector sequence at frequency components X: y (more than X and less than y) in the power spectrum of frame i.
  • L indicates the bandwidth
  • max (X corr ( ⁇ )) indicates the maximum value of the correlation coefficient between vector columns.
  • the correlation value between adjacent bands is high, so the interband correlation value C (i, k) exhibits a large value.
  • the interband correlation value C (i, k) shows a small value because the correlation with the adjacent band is low.
  • the inter-band correlation value C (i, j) may be obtained by the following equation (7).
  • equation (6) is the power spectrum between adjacent bands in the same frame, such as between band 6 0.8 and band 6 0 6 or between band 6 0 4 and 6 0 2 (7) shows that the power spectrum between adjacent frames and between adjacent bands, such as between band 608 and band 610.
  • the correlation is shown.
  • equation (7) correlation between adjacent frames can be calculated simultaneously with correlation between bands and correlation between frames.
  • inter-band correlation value C (i, k) may be calculated by the following equation (8).
  • Equation (8) shows the correlation of power spectrum between the same band of adjacent frames.
  • R 1 (i) i N 2 (i)] (9)
  • R 2 (i) is expressed as follows.
  • N 1 (i) and N 2 (i) indicate the band number at which C (i, k) is the largest and the band number at the minimum.
  • the harmonic structure value shown in equation (9) can be obtained by subtracting the minimum value from the maximum value of the inter-band correlation value in the same frame. Therefore, the value is large for frames with harmonic structure, and the value is small for frames without harmonic structure. There is also the effect of normalizing the interband correlation value by subtracting the minimum value from the maximum value. For this reason, normalization processing can be performed in one frame without performing difference processing with the average correlation value as in the processing of S 8 in FIG.
  • the harmonic structure extraction unit 401 calculates a corrected band number N d (i) obtained by weighting the band number N (i) with the variance in the past X c frames (S 9 6) o
  • the harmonic structure extraction unit 401 obtains the maximum value Ne (i) in the past Xc frame of the correction band number Nd (i) (S98).
  • the maximum value N e (i) is hereinafter referred to as the weighted band number.
  • Ne Maximum number of past Xc frames of band number Nd corrected by variance
  • the dispersion of band number N (i) becomes large. Therefore, the value of the correction band No. N d (i) becomes small (eg, a negative value), and accordingly, the weighted band No. N e (i) also becomes small. Furthermore, the harmonic structure extraction unit 401 corrects the harmonic structure value R (i) with the weighted band number N e (i) to calculate a corrected harmonic structure value R ′ (i) S
  • the corrected harmonic structure value R '(i) is obtained according to the following equation (14).
  • the harmonic structure value R (i) used here may be the value calculated in S8.
  • force tightness occurred around 4 0 frames
  • rotational speed of the vacuum cleaner motor was weak to strong at around 280 frames. Because of this change, the sound level of the vacuum cleaner is high, and periodic noise is assumed to be emitted. Also, it is assumed that human beings speak speech between about every 80 0 frames and up to every 2 8 0 frames.
  • Figure 13 (a) shows the power spectrum of the input signal
  • Figure 13 (b) shows the harmonic structure value R (i)
  • Figure 13 (c) shows the band number N (N) i) is shown
  • Figure 13 (d) shows the weighted band number N e (i)
  • Fig. 13 (e) shows the corrected harmonic structure value R '(i). Note that the band numbers shown in Fig. 13 (c) multiply the actual band numbers by one to make the figure easier to read, so the frequency is smaller as it approaches 0.
  • the fluctuation of the band number N (i) is large in the part where the sudden sound generation and the periodic noise occur (the part surrounded by the broken line in the drawing). For this reason, as shown in Fig. 13 (d), the weighted band number N e (i) of that portion shows a small value, and accordingly, as shown in Fig. 13 (e), the correction harmonics The structural value is also smaller.
  • Figure 15 shows the experimental results for music without vocals. Music has harmonic structure because chords are output, but it does not have harmonic structure in a section where a beat is cut by a drum.
  • Figure 15 (a) shows the power spectrum of the input signal
  • Figure 15 (b) shows the harmonic structure value R (i)
  • Figure 15 (c) shows the band number N
  • Fig. 15 (d) shows weighted band number N e (i)
  • Fig. 15 (e) shows the corrected harmonic structure value.
  • the band numbers shown in Fig. 15 (c) are smaller in frequency the closer to 0, for the same reason as Fig. 13 (c). In the portion enclosed by the broken line in Fig. 15 (c), harmonic structure is lost due to the beet being cut by the drum.
  • the weighted band number N e (i) is smaller as shown in Fig. 15 (d). Therefore, as shown in Fig. 15 (e), the weighted harmonic structure value R '(i) is also smaller. Also, in the unvoiced section, the harmonic structure value R '(i) is similarly reduced.
  • the harmonic structure value R (i) and the band number N (i) pair [R (i), N (i)] showing the harmonic structure in the frame ⁇ It may be obtained according to the equation (15).
  • R 1 (i) and R 2 (i) are expressed as follows.
  • NSP Number of bands assumed to be voice pitch frequency bands N 1 (i) and N 2 (i) respectively indicate the band number at which C (i, k) is maximum and the band number at minimum.
  • R 1 (i) or R 2 (i) may be used as the harmonic structure value R (i).
  • Figure 16 shows the experimental results of finding the weighted harmonic structure value R '(i) according to the equation (15).
  • the weighted harmonic structure value R ′ (i) of the frame uttered by the human indicates a large value, and in the frame in which the sudden sound and the periodic noise occur, the weight is Harmonic structure value R '(i) is small Is shown.
  • FIG. 17 is a detailed flowchart of the audio and music segment determination process (S84 in Figure 10).
  • the voice 'music segment determination unit 402 checks whether or not the power spectrum P (i) is larger than a predetermined threshold P min in the frame i (S 1 1 2). If it is less than or equal to the predetermined threshold value Pmin (S.sub.12 is NO), it is determined that the frame is a silent frame (S.sub.12.sub.6). If the power spectrum P (i) is larger than the predetermined threshold P min (YES in S 1 1 2), the corrected harmonic structure value R ′ (i) is larger than the predetermined threshold R min It is judged whether or not it is (S1 1 4).
  • the voice 'music section determining unit 402 will set the weighted band number N e ( i) Calculate the unit time average value ave — N e (i) (S 1 16) and determine whether the unit time average value ave _N e (i) is larger than a predetermined threshold N e ⁇ min Examine (S1 1 8).
  • a v e ⁇ N e (i) can be obtained according to the following equation. That is, it shows the average value of N e (i) in d frames including frame i (here, 5 0 frames).
  • ave Ne i) average (Ne (i)); 8)
  • the reason that music and voice are separated from the sound having harmonic structure according to the magnitude of av e-N e (i) is based on the following concept. That is, although both the music and the voice have harmonic structure in the signal itself, the voice is a sound in which voiced speech and unvoiced speech appear repeatedly, so that the harmonic structure value is a portion of voiced speech. In the large, unvoiced parts are small, they are alternately repeated in a short period. On the other hand, in music, since chords are output continuously, the period having harmonic structure continues for a relatively long time, and the state where the harmonic structure value is large is constant. Therefore, it is shown that the harmonic structure value does not change much in music but changes in voice. In other words, the unit time average value a V e _N e (i) of the weighted band number N e (i) is larger in music than in speech.
  • voice and music may be distinguished by focusing on the temporal continuity of harmonic structure values. That is, it may be examined how many frames the harmonic structure value becomes small in a unit time. Therefore, for example, the number of weighted band numbers N e (i) may be negative per unit time. Assuming that the number of frames in which the weighted band number N e (i) becomes negative is N e _ count (i) in a unit time (for example, the past 50 frames including the frame i of interest).
  • S 1 1 6 calculates N e ⁇ count (i) instead of ave one N e (i), and the number of frames N e _ count (i) is larger than a predetermined threshold in S 1 18 It may be used as a voice, and may be used as music if it is small.
  • the power spectrum components in each frame are divided into a plurality of bands, and correlation is taken between the bands. This Therefore, it is possible to extract a band in which the influence of the signal on vocal cord vibration is well left, and to extract the harmonic structure with certainty.
  • FIG. 18 is a block diagram showing the hardware configuration of the voice activity detection apparatus 50 according to the present embodiment.
  • the voice section detecting device 50 is a device for detecting a voice section having harmonic structure in an input signal, and includes an FFT unit 20 0, a harmonic structure extracting unit 5 0 1, and an SNR estimating unit 2 0. 6 and a speech segment determination unit 520.
  • the harmonic structure extraction unit 5 0 1 is a processing unit that outputs a value indicating the harmonic structure based on the power spectrum component output from the F F T unit 200.
  • the voice section determination unit 502 is a processing section that determines the sound section based on the value indicating harmonic structure and the estimated S N R.
  • FIG. 19 is a flowchart of processing performed by the voice activity detection apparatus 50.
  • the FFT section 200 obtains the power spectrum component by applying FFT to the input signal as an acoustic feature used to extract the harmonic structure (S 2).
  • the harmonic structure extraction unit 501 extracts a value indicating the harmonic structure from the power spectrum component extracted by the FFT portion 200 (S 1 40).
  • the harmonic structure processing (S1 4 0) will be described later.
  • the SNR estimation unit 2 0 6 determines whether the input signal Estimate the SNR (S12).
  • the method of estimating the SNR is the same as in the second embodiment. For this reason, the detailed description is not repeated here.
  • the speech segment determination unit 502 determines the speech segment based on the value indicating harmonic structure and the estimated S N R (S 14 2).
  • the speech segment determination process (S 1 42) will be described in detail later.
  • the system for determining the voice section is improved by adding an evaluation to the transition section between the voiced sound and the unvoiced sound.
  • (1) voice segments are connected if the distance between voice segments is less than a predetermined frame (S 52), and (2) duration of voice segment after connection If the time is less than the predetermined time, the section is regarded as the non-speech section (S 60). That is, for unvoiced sound, in the process of (1), without performing any evaluation on the frame between the sections of the voice judged as voiced sound in S42, (2) It is a method that implicitly expects to be linked by processing. Looking at the speech sections in detail, it is considered that they can be classified into the following three groups (A group, B group and C group) based on the transition relation of voiced speech, unvoiced speech and noise (non-voice section).
  • Group A is a group of voiced sounds, and there can be transitions from voiced to voiced, from noise to voiced, and from voiced to noise.
  • the B group is a group of sounds in which voiced speech and unvoiced speech are mixed, and transitions from voiced speech to unvoiced speech and transitions from unvoiced speech to voiced speech can be considered.
  • Group C is a group of non-voiced sounds, and there are possible transitions from unvoiced to unvoiced, unvoiced to noise, noise to unvoiced, and noise to noise.
  • sounds included in the A group only the sounding interval is determined depending on the accuracy of the value indicating harmonic structure.
  • sounds included in the B group we evaluate the transitions of the sounds around the voiced section. If it is possible, it can be expected to extract unvoiced sections as well.
  • sounds included in group C it is considered very difficult to extract only unvoiced sections under noise. This is because the nature of the noise can not be easily defined, or the SNR for unvoiced noise is often poor.
  • the transition between the voiced sound and the unvoiced sound is evaluated to obtain the sound of the B group. Extraction of It is considered that this can improve the determination accuracy of the voice section.
  • the value indicating harmonic structure changes greatly from large to small and small to large in the transition from unvoiced to voiced and the transition from voiced to unvoiced, respectively. it can.
  • the harmonic structure extraction unit 501 calculates an inter-band correlation value C (i, k) for each frame (S1 50).
  • the calculation of the inter-band correlation value C (i, k) is the same as S 92 in FIG. For this reason, the detailed description is not repeated here.
  • the harmonic structure extraction unit 501 calculates the weighted variance Ve (i) according to the following equation using the inter-band correlation value C (i, k) (S15 2).
  • Ve (i) count (if var (C j, k))> th-var-change) (19)
  • k l:
  • L j i-X c: i---
  • the function V a r () is a function that indicates the distribution of the values in parentheses
  • the function c u n t () is a function that counts the number of conditions that satisfy the condition in Katsuko.
  • the harmonic structure extraction unit 5 0 1 calculates the harmonic structure value R (i) (S 15 4). This calculation method is the same as S94 in FIG. For this reason, the detailed description is not repeated here.
  • the speech segment determination unit 502 determines whether R (i) is greater than the threshold Th ⁇ R and Ve (i) is greater than the threshold Th ⁇ V e for frame i (S 18 2) ). If the above condition is satisfied (YES at S 1 82), voice section determining unit 502 determines that frame i is a voice frame, and if it is not satisfied (S 18 2 NO) It is judged as a non-voice frame (S 1 8 6). The speech segment determination unit 502 performs the above processing for all frames (S 18 0 to S 18 8).
  • the speech segment determination unit 520 determines whether the SNR estimated by the SNR estimation unit 206 is bad (S 1 90), and if the estimated SNR is bad, the loop B and loop B may be used. Execute processing of loop C (S52 to S68). The processing of loop B and loop C is similar to that shown in FIG. For this reason, its detailed description will not be repeated here.
  • loop B is omitted. And execute only the processing of loop C (S60 to S68).
  • FIGS. 22 and 23 are diagrams showing the result of the process executed by the voice activity detection apparatus 50.
  • Figure 2 2 (a) shows the power spectrum of the input signal
  • Figure 2 2 (b) shows the harmonic structure value R (i)
  • Figure 2 2 (c) shows the weighted
  • the variance V e (i) is shown
  • Fig. 2 2 (d) shows the speech segment before connection
  • Fig. 2 2 (e) shows the speech segment after connection.
  • the solid line indicates the speech segment obtained by thresholding harmonic structure value R (i) (loop A (S 4 2 to S 5 0) in FIG. 6).
  • the broken line is obtained by thresholding the harmonic structure value R (i) and the weighted variance Ve (i) (loop A (S 18 0 to S 18 8) in Fig. 2 1).
  • the broken line corresponds to the interval concatenation processing (S 19 0 to S 68 in Fig. 21), and the voice segments shown by the broken line in Fig. 22 (d) are connected.
  • the processing result is shown, and the solid line shows the processing result after the voice sections shown by the solid line in FIG. 22 (d) are connected according to the section concatenation processing (S 52 to S 6 8 in FIG. 6) There is.
  • the speech interval can be extracted accurately by using the weighted variance Ve (i).
  • FIG. 22 is a diagram showing experimental results when the same speech as in FIG. 22 is generated.
  • the meaning of the graphs in Figure 2 3 (a) to 2 3 (e) is the same as the meaning of the graphs in Figure 2 2 (a) to 2 (e).
  • Fig.23 comparing Fig.23 (d) before interval connection with Fig.23 (e) after interval connection, the result of S180 shown by the broken line in Fig.23 (d) is Similarly to the solid line in Fig. 2 3 (e), it shows that the speech segments are connected with high accuracy. Therefore, when the estimated SNR is very large, even if the speech segment is determined without performing the processing of S 52 to S 58 by the determination processing of S 190 in FIG. It is possible to maintain the performance.
  • the present embodiment it is possible to extract the sound belonging to the above-mentioned B group by evaluating the transition section between the unvoiced sound and the voiced sound using the weighted variance Ve. It became so. For this reason, when it is judged that S N R is good using estimated S N R, it becomes possible to accurately extract the voice section without performing section connection. In addition, even if the SNR is poor and even if segment connection is required, the number of frames (S 54 in FIG. 21) can be reduced at the time of connection, so the noise segment is used as the voice segment. There were fewer false positives.
  • FIG. 24 is a flowchart showing another example of the harmonic structure extraction process (S 140 in Figure 19).
  • the harmonic structure extraction unit 5 0 1 calculates the interband correlation value C (i, k), the weighted dispersion Ve (i), and the harmonic structure value R (i) (S 1 6 0 to S 1 6 4). Since these calculation methods are the same as in FIG. 20, the detailed description thereof will not be repeated here.
  • the harmonic structure extraction unit 5 0 1 calculates the weighted harmonic structure Calculate the sex value R e (i) (S 1 6 6).
  • the weighted harmonic structure value R e (i) is calculated according to the following equation. The difference between these equations and the equation calculated in S 9 6 ZS 9 8 is to use the harmonic structure value R (i) in frame i calculated in S 9 4 or its band number N (i) The difference is in the use. Both of these equations are indices that emphasize harmonic structure by being corrected by weighted dispersion.
  • Rd (i) median (R (k))-var (R (k)); (20)
  • the function m e d i a n () indicates the median value in parentheses.
  • the harmonic structure extraction unit 5 0 1 calculates the corrected harmonic structure value R ′ (i) (S 1 6 8).
  • the corrected harmonic structure value R '(i) is calculated according to the following equation.
  • Fig. 25 (a) shows the input signal
  • Fig. 25 (b) shows the power spectrum of the input signal
  • Fig. 25 (c) shows the harmonic structure value R (i)
  • Figure 25 (d) shows the weighted harmonic structure value R e (i)
  • Figure 25 (e) shows the corrected harmonic structure value R '(i).
  • Figures 2 6 (a) to 2 6 (e) also show the same graphs as Figure 2 5 (a) to 2 5 (e) respectively.
  • the corrected harmonic structure value R '(i) is calculated based on the dispersion of the harmonic structure value R (i) itself. For this reason, the part having harmonic structure is extracted appropriately using the property that the dispersion is large in the part having harmonic structure and the dispersion is small in the part not having harmonic structure. can do. (Embodiment 5)
  • the speech segment determination devices described in the first to fourth embodiments perform segment determination on speech whose input signal is recorded in a preliminary file or the like. Such a processing method is effective, for example, when processing data that has already been recorded, but it is unsuitable for performing interval determination while inputting speech. Therefore, in the present embodiment, a voice segment determination device that determines a voice segment in real time in synchronization with voice input will be described.
  • FIG. 27 is a block diagram showing the configuration of a voice activity detection apparatus 60 according to an embodiment of the present invention.
  • the voice section detection device 60 is a device for detecting a voice section having a harmonic structure (harmonic structure section) from an input signal, and includes an FFT unit 200, a harmonic structure extraction unit 601, and the like. And a harmonic structure section determining unit 60 2, and a control unit 6 0 3.
  • Fig. 28 shows a flow chart of the processing performed by the voice activity detection device 60.
  • the control unit 603 sets FR, FRS, FRE, RH, RM, CH, CM and CN to 0 (S 200).
  • FR indicates the first frame number of a frame whose harmonic structure value R (i) to be described later is not calculated.
  • FRS is the first frame of the section for which it is undecided whether or not it is a harmonic structural section. Indicates a number.
  • FRE indicates the frame number of the final frame subjected to the harmonic structure frame tentative determination process described later.
  • RH and RM indicate cumulative values of harmonic structure values.
  • CH, CM and CN are counters.
  • F F T section 200 converts F F T from the input frame.
  • the harmonic structure extraction unit 601 extracts the harmonic structure value R (i) based on the power spectrum component extracted in the FFT section 200.
  • the above processing is performed from the start frame F R to the frame F R N of the current time (S 2 0 2 to S 2 10, loop A). Each time loop processing is performed, counter i is incremented one by one, and the value of counter i is substituted for start frame F R (S 2 10).
  • the harmonic structure section determining unit 602 temporarily determines the section having the harmonic structure property based on the harmonic structure value R (i) obtained up to this point.
  • Execute frame tentative judgment processing (S 2 1 2). The harmonic structural frame tentative determination process will be described later.
  • the harmonic structure section determining unit 602 determines whether an adjacent harmonic structure section has been found, that is, whether the non-harmonic structure section length CN is greater than 0. Check if it is not (S2 1 4).
  • the inharmonic structure section length CN is the frame length between the final frame of the harmonic structure section and the start frame of the next harmonic structure section as illustrated in FIG. 2 9 (a).
  • the harmonic structure section determining unit 602 is adjusted as shown in FIG. 2 9 (b). Wave structural sections are connected, and it is tentatively judged that frames from FRS 2 to frame (FRS 2 + CN) are harmonic structural sections (S 2 18).
  • FRS 2 indicates the first frame number tentatively determined to be a non-harmonic structure section. If the inharmonic structure section length CN is greater than a predetermined threshold TH (NO at S 2 16), the harmonic structure sections are not connected as shown in FIG.
  • the harmonic structure section determining unit 602 executes the harmonic structure section determining process described later (S 2 20). After that, the control unit 603 substitutes FRE into FSR, and substitutes 0 into RH, Rm, CH, CM and CN (S 22 2). The harmonic structure section determination process (S 220) will be described later.
  • the control unit 6 At step 0, it is judged whether or not the input of the audio signal is finished (S 2 24). If the input of the audio signal is not completed (NO at S 2 24), the processing after S 2 0 2 is repeated. If the input of the audio signal is completed (YES at S 2 24), the harmonic structure section determining unit 60 2 executes the harmonic structure section determining process (S 2 2 6) and performs the process. finish.
  • the harmonic structure section determination process (S 2 26) will be described later.
  • FIG. 30 is a detailed flowchart of harmonic structure frame tentative decision processing.
  • the harmonic structure interval determiner 60 2 determines whether the harmonic structure value R (i) is larger than a predetermined harmonic structure threshold 1 (S 2 3 2), which is large. In the case (YES in S 22 3), it is temporarily determined that the frame i of interest is a frame having harmonic structure. Then, the harmonic structure value R (i) is added to the cumulative harmonic structure value R H, and the counter C H is decremented by 1 (S 2 34).
  • the harmonic structure interval determination unit 602 determines whether the harmonic structure value R (i) is larger than the harmonic structure threshold 2 (S 2 36), and the case is larger. If (YES at S 2 36), it is tentatively judged that the frame i of interest is a music frame with harmonic structure. And cumulative music harmonic structure value RM Add the harmonic structure value R (i) to and increment one counter CM (S 2 36). The above processing is repeated from frame FRE to frame FRN (S 2 30 to S 2 3 8).
  • the harmonic structure interval determination unit 602 sets the frame FRS 2 to frame FRS, and then the harmonic structure value R (i) of the frame i of interest is the harmonic structure threshold. It is judged whether 1 or more is large (S 2 4 2), and if it is large, FR S 2 is set as frame i (S 2 4 4). The above processing is repeated from frame F R S to frame F R N (S 2 40 to S 2 4 6).
  • the harmonic structure interval determination unit 602 sets the counter CN to 0, and then the harmonic structure value R (i) of the frame i of interest is the harmonic structure threshold 1 It is judged whether or not it is the following (S250), and if it is the harmonic structure threshold 1 or less (YES in S250), frame i is a nonharmonic structure section It is tentatively judged that the counter CN is incremented by one (S 25 2).
  • the above processing is repeated from frame F R S 2 to frame F R N (S 2 4 8 to S 2 5 4).
  • Fig. 3 1 is a detailed flowchart of harmonic structure interval determination processing (S 2 20, S 2 2 6 in Fig. 2 8).
  • the harmonic structure interval determiner 60 2 has a counter CH indicating the number of frames having the harmonic structure value larger than the harmonic structure frame length threshold 1 and the cumulative harmonic structure value RH It is determined whether or not (FRS-FRE) X harmonic structure threshold 3 is greater (S260). If the above condition is satisfied (S 260 for Y E S), it is determined that the frame F R S to the frame F R E are harmonic structure frames (S 26 2).
  • the harmonic structure interval determiner 6 02 has a number of frames having music harmonic structure. Whether the value of the counter CM indicated is larger than the harmonic structural frame length threshold 2 and the accumulated music harmonic structural value RM is larger than (FRS-FRE) x harmonic structural threshold 4 or not Determine the (S 2 6 4). If the above conditions are satisfied (YES at S 2 64), it is determined that the frame FRS to the frame FRE are music harmonic structure frames (S 2 6 6).
  • the judgment of the harmonic structure tentative judgment shall be used, and for making the harmonic judgment more accurately, the result of the harmonic structure section determination shall be used. In some cases, it is possible to select a high degree of freedom, such as switching and using these.
  • the present embodiment it is possible to determine in real time whether or not the input audio signal has harmonic structure. Therefore, it is possible to remove nonharmonic noise with a predetermined frame delay in a cellular phone or the like.
  • communication can be performed by re-encoding the speech part and the music part by different methods in communication using a cellular phone or the like.
  • the speech segment is determined with high accuracy without depending on the level fluctuation of the input signal. be able to.
  • the influence of sudden noise and periodic noise can be removed to accurately detect speech segments.
  • voice segments can be detected in real time.
  • a consonant portion with a small harmonic structure can be accurately detected as a voice section.
  • the spectral envelope component can be removed by applying local filtering to the frequency component of the input signal.
  • the speech section detecting apparatus has been described above based on the first to fifth embodiments, but the present invention is not limited to these embodiments.
  • the FFT spectrum component itself, the autocorrelation function in frame units, or An FFT power spectrum component of linear prediction residual on the time axis may be used.
  • the difference between the maximum value and the minimum value is enlarged by a method such as squaring each spectrum component, and the harmonic structure is generated. May be emphasized.
  • the square root of the FFT spectrum may be obtained and used as the FFT power spectrum.
  • time axis data may be multiplied by a coefficient such as a hamming window for each frame, or a pre-emphasis process (1 Z 1) High-frequency emphasis may be performed by performing.
  • line spectrum frequency LSF
  • a frequency transform operation it is not limited to the FFT, but it is possible to ffl the DFT (Discrete Fourier Transform), the DCT (Discrete Cosine Transform), and the DST (Discrete Sine Transform). (Modification of harmonic structure extraction unit 2 0 1)
  • the spectrum component S (f) may be allowed to pass through the filter.
  • the spectrum component S (f) of each frame is regarded as a waveform arranged in the direction of the frequency axis, the spectral envelope component is a slower variation than the harmonic structure. For this reason, the spectral envelope component can be removed by applying a mouth cut filter to the spectral component.
  • this method is equivalent to removing low frequency components using a power filter on the time axis, it is possible to simultaneously evaluate information such as band power and spectrum envelope and the articulatory structure. In the above, the method of processing on the frequency axis is preferable.
  • the spectrum components calculated using such a low-cut filter include sounds other than voices having a single frequency, such as aperiodic noise and electronic sound, in addition to the fluctuation caused by the articulatory structure. There is a possibility of However, these sounds are removed by the processing of the voiced evaluation unit 210 and the voice section determination unit 205.
  • the method uses the average value of the spectrum components of all frames as the reference value, and uses the average value of the spectrum components in a time sufficiently longer than the duration of one utterance (for example, 5 seconds) as the reference value.
  • a method a method of dividing the spectrum component into several bands in advance, and a standard value for obtaining an average value of the spectrum components for each band.
  • a change in the environment such as a change from a quiet environment to a noisy environment
  • it is better to use the average value of the spectral components of all frames as the reference value.
  • Spectrum of an interval of several seconds including the current frame It is better to use the average value of minutes.
  • the feature value inter-frame correlation value calculation unit 2 0 3 obtains the correlation value E 1 (j) using the following equation (24) instead of the equation (3) as the correlation function.
  • the equation (24) gives two vectors P ( ⁇ -1) when P (i-1) and P (i) are vectors in 1 2 8 dimensional vector space And the cosine of the angle formed by ⁇ (i).
  • the feature amount inter-frame correlation value calculation unit 2 0 3 sets the feature value between frame j and the inter-frame correlation value 4 frames apart, instead of the correlation value E 1 (j).
  • the correlation value E 2 (j) may be determined according to 2 5) and (2 6), or the following equations (2 f) and (2 f) are characterized by using the inter-frame correlation value separated by 8 frames.
  • the correlation value E 3 (j) may be determined according to 2 8). As described above, by obtaining correlation values between distant frames, it is possible to obtain strong correlation values for sudden environmental noise.
  • correlation value E 4 (j) according to the magnitude relationship between correlation value E l (j), correlation value E 2 (j), correlation value E 3 (j)
  • the correlation value E 5 (j) may be obtained by adding the correlation value E 1 (j), the correlation value E 2 (j), and the correlation value E 3 (j) according to the following equation (32) Or the correlation value E 1 (), the correlation value ⁇ 2 (j), or the correlation value E 3 (j) according to the following equation (33).
  • E 6 (j) may be obtained.
  • the correlation values are not limited to the above six E 1 (j) to E 6 (j), and these correlation values may be combined to calculate a new correlation value. It is also good. For example, from the SNR of the input acoustic signal estimated in the past, the correlation value E 1 (j) is used when the SNR is small, and the correlation value E 2 (j) or E 3 ( j) may be used.
  • the processing of the voice segment determination unit 205 described with reference to FIG. 6 includes voiced segment determination processing (S 4 2 to S 5 0) based on correlation values, connection processing of voiced segments (S 5 2 to S
  • FIG. 6 is an example in which the processing is performed in units of one utterance, but for example, the voice interval may be determined and corrected in units of frames by performing only the voiced interval determination processing using a correlation value for each target frame. Furthermore, assuming that real-time performance is required, the speech section based on the correlation value in frame units is output as a preliminary value, and correction is determined separately in a long unit such as one utterance periodically. By outputting the voice section as a definite value, it may be functioned as a voice detector capable of coping with both real-time and detection section performance.
  • the S N R estimation unit 2 0 6 may estimate S N R directly from the input signal. For example, a portion where the correction correlation value calculated by the difference processing unit 204 is a positive portion is the S (signal) portion, the power of the S. portion is obtained, and a portion where the correction correlation value is negative is a N (noise) portion. Find the power of the N part and try to find the SNR.
  • the above-mentioned speech zone detection processing may be used as pre-processing, and the speech segment detection device may be used as a speech recognition device that performs speech recognition only on speech segments.
  • the voice section detection device may be used in a voice recording device such as an IC (Integrated Circuit) recorder that performs recording only in the voice section.
  • IC Integrated Circuit
  • the speech recognition device may be used as a noise suppression device for suppressing noise by cutting an input signal in a period other than the speech period.
  • the audio segment detection process described above may be used to extract an audio segment image from an image captured by a VTR (Video tape recorder) or the like. It can also be applied to the authoring tool etc.
  • VTR Video tape recorder
  • the characteristics of noise can be learned in non-voice sections, and filtering coefficients for noise removal, parameters for noise determination, etc. can be determined. Good. By doing this, an apparatus for noise removal can be created.
  • the voice segment detection device enables accurate selection of voice segments and noise segments, so that the preprocessing device of the voice recognition device, IC recorder for recording only voice segments, voice segments and music segments It is useful for a communication apparatus etc. which encodes by the different encoding method.

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)
  • Measurement Of Mechanical Vibrations Or Ultrasonic Waves (AREA)
  • Electrophonic Musical Instruments (AREA)

Abstract

入力信号のレベル変動に依存せず、リアルタイム性に優れ、耐雑音性のある調波構造性音響信号区間検出装置は、入力信号にFFTを施し、フレームごとにパワースペクトル成分を求めるFFT部(200)と、パワースペクトル成分より調波構造のみを残す調波構造抽出部(201)と、調波構造抽出部(201)で抽出された調波構造のフレーム間での相関性を評価することにより、母音の区間であるか否かを評価し、有声区間を抽出する有声評価部(210)と、有声評価部(210)の出力の連続性および持続性に基づいて音声区間を決定する音声区間決定部(205)とを備える。

Description

明 細 書 音響区間検出方法および装置 技術分野
本発明は、 入力音響信号から調波構造を有する信号と くに音声が含ま れる区間を音声区間として検出する調波構造信号区間および調波構造性 音響信号区間検出方法に関し、 特に、 環境雑音下における調波構造信号 および調波構造性音響信号区間検出方法に関する。 背景技術
人間の音声は、声帯の振動と発声器官の共振によって形成されており、 音の大きさや音の高低を区別するために声帯を制御して振動の周波数を 変化させたり,鼻や舌などの発声器官の位置つまり声道形状を変動させ たりすることで、人はさまざまな音を発声していることが知られている。 このように生成される音声を、 音響信号と して捕えると、 その特徴は、 周波数とともに緩やかに変化する成分である、 スぺク トル包絡と、 短時 間の周期的(有声母音などの場合)にまたは非周期的に変化する成分(子 音や無声母音の場合) である、 スペク トル微細構造から構成されている ことが知られている。 前者のスぺク トル包絡成分が発声器官の共振特性 を表しており、 人間の喉や口の形をあらわす特徴量と して用いられ、 た とえば音声認識の特徴量としても用いられている。 一方、 後者のスぺク トル微細構造は、音源の周期性を表しており、声帯の基本周期(ピッチ)、 音の高低を表す特徴量と して用いられている。音声信号のスぺク トルは、 これら 2つの要素の積で表現されている。 と くに母音部などにおいて、 後者の基本周期およびその高調波成分をよく残している信号は、 音声の 調波構造とも呼ばれている。
従来、 入力音響信号から音声区間を検出する手法は、 様々提案されて いる。 それらを大きく分類すると、 入力音響信号の帯域パワーやスぺク トルの概形を示すスペク トル包絡などの振幅情報を用いて識別する方法 (以下、 「方法 1 」 という。)、 口映像を動画像解析することにより、 その 開閉を検出する方法 (以下、 「方法 2」 という。)、 音声や雑音を表現する 音響モデルと入力音響信号の音響特徴量とを比較することにより音声区 間を検出する方法 (以下、 「方法 3 J という。)、 および音声の調音器官の 特徴である声道形状によって形成されるスペク トル包絡形状や声帯振動 によって形成される調波構造に着目 して音声区間を決定する方法(以下、 「方法 4」 という。) などがある。
しかし、 方法 1 では、 もともと振幅情報だけで音声と雑音とを識別す ることが難しいという問題を含んでいる。 このため、 方法 1 では、 音声 区間と雑音区間とを仮定し、 音声区間と雑音区間とを区別するために設 定したしきい値を再学習することにより、 音声区間の検出を行なってい る。 したがって、 学習過程において雑音区間の振幅が音声区間の振幅に 対して大きくなる (すなわち音声雑音比 (以下、 「 S N R」 という。) が 0 d B程度まで低下する) と、 雑音区間であるか音声区間であるかの仮 定そのものの精度が性能に影響し、 しきい値学習の精度が劣化してしま う。その結果として、音声区間検出の性能が劣化するという問題がある。 また、 方法 2では、 例えば音入力を用いずに画像だけを用いて口が開 いたことを検出するようにすれば、 その音声区間検出推定精度は、 S N Rとは無関係に一定に保つことが可能である。 しかし、 画像解析処理は 音声信号の解析処理に比べて、 コス トが高いことと、 口がカメラの方向 に向いていない場合には音声区間の検出ができないという問題がある。 さらに、 方法 3では、 想定した環境雑音下での性能は確保されるもの の、 雑音を想定することそのものが難しいため、 この方法を使用できる 環境は限定的となってしまう。 その場の雑音環境を学習する手法も提案 されているが、 振幅情報を利用する方法 (方法 1 ) と同様に、 学習方法 の精度に依存して性能が劣化するという問題もある。
一方、 音声の調音器官の特徴である、 声道形状によって形成されるス ベク トル包絡形状や声帯振動によって形成される調波構造に着目 して音 声区間を決定する方法 (方法 4 ) も提案されてきた。
スぺク トル包絡形状を利用した方法には、 帯域パワー例えばケプス ト ラムの連続性を評価する方法などがあるが、 S N Rが低下した状況では 雑音のオフセッ ト成分との区別がつきにく くなるため、性能が劣化する。 調波構造に着目 した方法として、 ピッチ検出法はその手法の一つであ リ、 時間軸上の自己相関や高次ケフレンシ一を抽出する方法、 周波数軸 上の自己相関を行なう方法等が提案されている。 しかし、 これらの方法 は、 対象とする信号が単一のピッチ (高調波の基本周波数) を持つ信号 でない場合には音声区間の抽出が困難であり、 環境雑音によって抽出誤 りが発生し易い等の問題がある。
また、 複数種類の音響信号が混在した音響信号から、 人の音声や特定 の楽器音等の調波構造を持った音響信号を強調したり、 抑圧したり、 分 離抽出したりする技術が知られている。 例えば音声信号に対しては、 雑 音と音声信号とが混在した音響信号から雑音のみを抑圧する雑音抑圧装 置 (たとえば、 特開平 9一 1 5 3 7 6 9号公報参照。) が、 また音楽に対 しては演奏に含まれる旋律の分離方法や除去方法 (たとえば、 特開平 1 1 — 1 4 3 4 6 0号公報参照。) 力《、 それぞれ提案されている。
しかし、 特開平 9一 1 5 3 7 6 9号公報に記載の方法では、 入力信号 の線形予測残差信号を帯域ごとに観察することで音声および非音声の検 出を行っている。 したがって、 線形予測がうまく機能しない低 S N Rの 非定常雑音下では性能が劣化するという問題がある。
また、 特開平 1 1 — 1 4 3 4 6 0号公報に記載の方法は、 同一の音程 の音が一定時間持続するという音楽の旋律特有の性質を利用した方法で ある。 このため、 この方法を、 音声と雑音との区別にそのまま用いるこ とは困難であるという問題がある。 音響の分離や除去を目的と しない場 合には、 その処理量の多さが問題となる。
調波構造を表現する音響特徴量そのものを評価関数に用いる手法 (た とえば、 特開 2 0 0 1 — 2 2 2 2 8 9号公報参照。) も提案されている。 図 3 2は、 特開 2 0 0 1 — 2 2 2 2 8 9号公報で提案されている方法を 用いた音声区間決定装置の概略構成を示すブロ ック図である。
図 3 2に示される音声区間検出装置 1 0は、 入力信号中の音声区間を 決定する装置であり、 F F T (Fast Fourier Transform) 部 1 0 0 と、 調波構造評価部 1 0 1 と、 調波構造ピーク検出部 1 0 2 と、 ピツチ候補 検出部 1 0 3 と、 フ レーム間振幅差分調波構造評価部 1 0 4 と、 音声区 間決定部 1 0 5 とを備える。
F F T部 1 0 0は、 入力信号に対し、 フ レーム (たとえば、 1 フ レー 厶は、 1 0 m s e c ) ごとに F F T処理を行ない、 入力信号を周波数変 換し、 各種の分析を行なう。 調波構造評価部 1 0 1 は、 F F T部 1 0 0 よ り得られた周波数分析結果よ り、 フ レームごとに調波構造を有するか 否かの評価を行なう。 調波構造ピーク検出部 1 0 2は、 調波構造評価部 1 0 1 で抽出された調波構造をローカルピーク形状に変換し、 ローカル ピークを検出する。
ピッチ候補検出部 1 0 3は、 調波構造ピーク検出部 1 0 2で検出され たローカルピーク を時間軸方向 (フ レーム方向) に トラッキングするこ とによ り ピッチ検出を行なう。 ピッチとは、 調波構造の基本周波数のこ とである。 フ レーム間振幅差分調波構造評価部 1 0 4は、 F F T部 1 0 0におけ る周波数分析の結果得られた振幅をフ レーム間で差分し、差分値を求め、 その差分値より着目 しているフ レームが調波構造を有するか否かの評価 を行なう。
音声区間決定部 1 0 5は、 ピッチ候補検出部 1 0 3で検出されたピッ チと、 フ レーム間振幅差分調波構造評価部 1 0 4の評価結果とを総合的 に判断し、 音声区間を決定する。
したがって、 図 3 2に示される音声区間検出装置 1 0では、 単一のピ ツチのみを有する音響信号のみならず、 複数のピッチを有する音響信号 であっても、 音声区間を決定できる。
しかしながら、 ピッチ候補検出部 1 0 3において、 ローカルピークを トラッキングする際には、 ローカルピークの出現や消滅などを考慮しな ければならず、 これらを考慮しつつ、 高精度でピッチを検出するのは困 難である。
また、 ピークという極大値を扱う性質上、 雑音に対する耐性もあまり 期待できない。 さらに、 時間的な変動を評価するために、 フ レーム間振 幅差分調波構造評価部 1 0 4においては、 フ レーム間差分に対して調波 構造の有無を評価しているが、 単に、 振幅の差分を用いているため、 調 波構造の有する情報が失われてしまうだけではなく、 例えば突発雑音が 生じた場合には、 差分値として突発雑音の音響特徴量がそのまま評価さ れてしまうという問題がある。
そこで、 本発明は上述の課題を解決するためになされたものであり、 入力信号のレベル変動に依存せず、 精度良く音声区間を検出可能な調波 構造性音響信号区間検出方法および装置を提供することを目的とする。
また、 リアルタイム性に優れた調波構造性音響信号区間検出方法およ び装置を提供することも目的とする。 発明の開示
本発明のある局面に係る調波構造性音響信号区間検出方法は、 入力音 響信号から調波構造を有する信号と く に音声が含まれる区間を音声区間 と して検出する調波構造性音響信号区間検出方法であって、 前記入力音 響信号に対し、 所定の時間で区切られたフ レーム単位で音響特徴量を抽 出する音響特徴量抽出ステップと、 前記音響特徴量の持続性を評価し、 評価結果に従って音声区間を決定する区間決定ステップとを含むことを 特徴とする。
このように、 音響特徴量の持続性を評価することによ り、 音声区間の 決定を行なっている。 このため、 口一カルピークを トラ ッキングする従 来の方法のように口一カルピークの出現や消滅など、 入力信号のレベル 変動を考慮する必要がなく 、精度よ く音声区間を決定することができる。 好ましく は、 前記音響特徴量抽出ステップでは、 前記入力音響信号に 対しフ レーム単位で周波数変換を行ない、 前記周波数変換の結果よ リ調 波構造のみを強調し、 前記音響特徴量を抽出することを特徴とする。 音声 (特に母音) には、 調波構造が見られる。 このため、 調波構造を 強調した音響特徴量を用いて音声区間を決定することによ り、 さ らに精 度よ く音声区間を決定することができる。
さ らに好ましく は、 前記音響特徴量抽出ステップでは、 さ らに、 前記 周波数変換の結果よ り調波構造を抽出 し、 当該調波構造を含む所定の帯 域の周波数変換の結果を、 前記音響特徴量とすることを特徴とする。 調波構造が保たれている帯域のみからなる音響特徴量を用いて音声区 間を決定することによ り、 さ らに精度よ く音声区間を決定するこ とがで きる。
さ らに好まし く は、 前記区間決定ステップでは、 前記音響特徴量のフ レーム間における相関値に基づいて、 前記持続性を評価すること を特徴 とする。
このよ うに、 調波構造の持続性をフ レーム間の音響特徴量の相関値に よ り評価している。 このため、 フ レーム間での振幅差分を取り調波構造 の持続性を評価する従来方法に比べ、 調波構造の有する情報を残した評 価が可能である。 よって、 短いフ レームにわたる突発雑音が生じたよう な場合であっても、 そのような突発雑音を音声区間と して検出すること がなく なり、 精度よ く音声区間を決定することができる。
さ らに好ま し く は、 前記区間決定ステップは、 前記音響特徴量の持続 性を評価する評価値を算出する評価ステップと、 前記評価値の時間的な 連続性を評価し、 評価結果に従って音声区間を決定する音声区間決定ス テツプとを含むことを特徴とする。
音声区間決定ステップでの処理は、 実施の形態に述べるように、 時間 的に連続する有声区間 (評価値のみから求められた音声区間) を連結し て音声区間を検出す 処理に相当する。 このよ うに、 時間的に連続する 有声区間を連結し、 音声区間を決定することによ り、 母音に比べ調波構 造性評価値が小さい子音をも音声区間と決定することができる。
さ らに、 調波構造を有する区間を、 詳細に評価することによ り、 音声 か非音声である音楽かどうかを判定することが可能である。 調波構造を 有すると判定されたフレームにおいて、 フ レーム内部で最大あるいは最 小の調波構造性値が検出された帯域の番号指数を連続的に評価すること で、 その検出が可能である。
また、 フ レーム間における調波構造持続性評価値を用いて、 調波構造 があるとみなされた区間において、 該評価値の分散を用いて、 音声ある いは音楽など調波構造が持続した区間からの変移なのか、 調波構造を持 つ突発的なノ イズなのかを判別することが可能である。
また、上記調波構造に関する特徴を有する区間以外の区間に対しては、 無音とみなせるほど入力信号が小さい区間あるいは調波構造を有しない 非調波構造の区間を判定することができる。
また、 実施の形態 5で示すように、 音入力しながらフ レーム単位で調 波構造性の判定を行なう方法を開示する。
さ らに好ま し く は、 前記区間決定ステップは、 さ らに、 所定数のフレ ー厶にわたる前記評価ステップにおいて算出される前記評価値と第 1 の 所定しきい値との比較に基づいて、 前記入力音響信号の音声雑音比を推 定するステップと、 推定された前記音声雑音比が第 2の所定しきい値以 上の場合には、 前記評価ステップにおいて算出される前記評価値に基づ いて前記音声区間を決定するステップとを含み、 前記音声区間決定ステ ップでは、 前記音声雑音比が前記第 2の所定しきい値未満の場合に、 前 記評価値の時間的な連続性を評価し、 評価結果に従って前記音声区間を 決定することを特徴とする。
これによ り、 入力音響信号の推定音声雑音比が良好な場合には、 音響 特徴量の持続性を評価する評価値の時間的な連続性を評価し、 前記音声 区間を決定する処理を省略することができる。 このため、 リアルタイム 性に優れた音声区間の検出が可能になる。
なお、 本発明は、 以上のよ うな調波構造性音響信号区間検出方法と し て実現することができるだけでなく 、 そのステップを手段とする調波構 造性音響信号区間検出装置と して実現したり、 調波構造性音響信号区間 検出方法の各ステップをコ ンピュータに実行させるためのプログラムと して実現したりすることもできる。 そのようなプログラムは、 C D— R O M等の記録媒体やイ ンターネッ ト等の伝送媒体を介して配信すること ができるのはいうまでもない。
以上のよ うに、 本発明に係る調波構造性音響信号区間検出方法および 装置によると、 音声区間と雑音区間との精度良い選別が可能となり、 特 に、 音声認識方法の前処理と して本発明を適用することにより、 音声認 識率を向上させることができ、 その実用的価値は極めて高い。 また、 I C ( I ntegr ated C i r cu i t) レコーダなどに使用することにより音声区間 のみを録音したりすることにより、 記録容量の効率利用も可能である。 図面の簡単な説明
図 1 は、 本発明の実施の形態 1 に係る音声区間検出装置のハー ドゥエ ァ構成を示すブロック図である。
図 2は、 実施の形態 1 に係る音声区間検出装置が実行する処理のフロ —チヤ一トである。
図 3は、 調波構造抽出部による調波構造抽出処理のフローチャー卜で ある。
図 4 ( a ) 〜図 4 ( f ) は、 各フレームにおけるスペク トル成分から 調波構造のみを残したスぺク トル成分を抽出する過程を模式的に示す図 である。
図 5 ( a ) 〜図 5 ( f ) は、 本発明による入力信号の変換の遷移を示 す図である。
図 6は、 音声区間決定処理のフローチャー トである。
図 7は、 本発明の実施の形態 2に係る音声区間検出装置のハードゥエ ァ構成を示すブロック図である。
図 8は、 実施の形態 2に係る音声区間検出装置が実行する処理のフロ 一チヤ一トである。
図 9は、 実施の形態 3に係る音声区間検出装置のハードウエア構成を 示すブロック図である。
図 1 0は、音声区間検出装置が実行する処理のフローチャー トである。 図 1 1 は、 調波構造抽出処理を説明するための図である。 図 1 2は、 調波構造抽出処理の詳細を示すフローチャー トである。 図 1 3 ( a ) は、 入力信号のパワースペク トルを示す図である。 図 1
3 ( b ) は、 調波構造性値 R ( i ) を示す図である。 図 1 3 ( c ) は帯 域番号 N ( i ) を示す図である。 図 1 3 ( d ) は重み付き帯域番号 N e ( i ) を示す図である。 図 1 3 ( e ) は補正調波構造性値 R ' ( i ) を示 す図である。
図 1 4 ( a ) は、 入力信号のパワースペク トルを示す図である。 図 1
4 ( b ) は、 調波構造性値 R ( i .) を示す図である。 図 1 4 ( c ) は帯 域番号 N ( i ) を示す図である。 図 1 4 ( d ) は重み付き帯域番号 N e ( i ) を示す図である。 図 1 4 ( e ) は補正調波構造性値 R ' ( i ) を示 す図である。
図 1 5 ( a ) は、 入力信号のパワースペク トルを示す図である。 図 1
5 ( b ) は、 調波構造性値 R ( i ) を示す図である。 図 1 5 ( c ) は帯 域番号 N ( i ) を示す図である。 図 1 5 ( d ) は重み付き帯域番号 N e ( i ) を示す図である。 図 1 5 ( e ) は補正調波構造性値 R ' ( i ) を示 す図である。
図 1 6 ( a ) は、 入力信号のパワースペク トルを示す図である。 図 1
6 ( b ) は、 調波構造性値 R ( i ) を示す図である。 図 1 6 ( c ) は帯 域番号 N ( i ) を示す図である。 図 1 6 ( d ) は重み付き帯域番号 N e ( i ) を示す図である。 図 1 6 ( e ) は補正調波構造性値 R ' ( i ) を示 す図である。
図 1 7は、 音声 · 音楽区間決定処理の詳細なフローチャー トである。 図 1 8は、 実施の形態 4に係る音声区間検出装置のハードウ:!:ァ構成 を示すブロック図である。
図 1 9は、音声区間検出装置が実行する処理のフローチヤ一トである。 図 2 0は、 調波構造抽出処理の詳細を示すフローチャー トである。 図 2 1 は、 音声区間決定処理の詳細を示すフローチャー トである。 図 2 2 ( a ) は入力信号のパワースペク トルを示す図である。 図 2 2 ( b ) は調波構造性値 R ( i ) を示す図である。 図 2 2 ( c ) は、 重み 付き分散 V e ( i ) を示す図である。 図 2 2 ( d ) は連結前の音声区間 を示す図である。 図 2 2 ( e ) は連結後の音声区間を示す図である。 図 2 3 ( a ) は入力信号のパワースペク トルを示す図である。 図 2 3 ( b ) は調波構造性値 R ( i ) を示す図である。 図 2 3 ( c ) は、 重み 付き分散 V e ( i ) を示す図である。 図 2 3 ( d ) は連結前の音声区間 を示す図である。 図 2 3 ( e ) は連結後の音声区間を示す図である。 図 2 4は、調波構造抽出処理の他の一例を示すフローチャートである。 図 2 5 ( a ) は入力信号を示す図である。 図 2 5 ( b ) は入力信号の パワースペク トルを示す図である。 図 2 5 ( c ) は調波構造性値 R ( i ) を示す図である。 図 2 5 ( d ) は重み付き調波構造性値 R e ( i ) を示 す図である。図 2 5 ( e )は補正調波構造性値 R' ( i ) を示す図である。 図 2 6 ( a ) は入力信号を示す図である。 図 2 6 ( b ) は入力信号の パワースペク トルを示す図である。 図 2 6 ( c ) は調波構造性値 R ( i ) を示す図である。 図 2 6 ( d ) は重み付き調波構造性値 R e ( i ) を示 す図である。図 2 6 ( e ) は補正調波構造性値 R' ( i ) を示す図である。 図 2 7は、 実施の形態 5に係る音声区間検出装置 6 0の構成を示すブ ロック図である。
図 2 8は、音声区間検出装置の実行する処理のフローチャートである。 図 2 9 ( a ) 〜図 2 9 ( d ) は、 調波構造性区間の連結を説明するた めの図である。
図 3 0は、 調波構造性フ レーム仮判定処理の詳細なフローチャートで ある。
図 3 1 は、 調波構造性区間確定処理の詳細なフローチャー トである。 図 3 2は、 従来の音声区間決定装置の概略のハードウェア構成を示す 図である。 発明を実施するための最良の形態
(実施の形態 1 )
以下、 図面を参照しながら本発明の実施の形態 1 に係る音声区間検出 装置について説明する。 図 1 は、 本実施の形態に係る音声区間検出装置 2 0のハードウェア構成を示すブロック図である。
音声区間検出装置 2 0は、 入力音響信号 (以下、 単に 「入力信号」 と いう。)の中から人間が発声している区間である音声区間を決定する装置 であり、 F F T部 2 0 0と、 調波構造抽出部 2 0 1 と、 有声評価部 2 1 0と、 音声区間決定部 2 0 5とを備える。
F F T部 2 0 0は、 入力信号に F F Tを施し、 フレームごとにパワー スぺク トル成分を求める。 ここで、 1 フレームあたりの時間は 1 O m s e c とするが、 この時間に限定されるものではない。
調波構造抽出部 2 0 1 は、 F F T部 2 0 0で抽出されたパワースぺク トル成分から雑音成分等を取り除き、 調波構造のみを残したパワースぺ ク トル成分を抽出する。
有声評価部 2 1 0は、 調波構造抽出部 2 0 1 で抽出された調波構造の みを残したパワースぺク トル成分のフ レーム間での相関性を評価するこ とにより、 母音の区間であるか否かを評価し、 有声区間を抽出する装置 であり、 特徴量保存部 2 0 2と、 特徴量フレーム間相関値算出部 2 0 3 と、 差分処理部 2 0 4とを備える。 なお、 調波構造は、 母音の発声区間 内のパワースぺク トル分布において主に見られる性質であり、 子音の発 声区間内のパワースぺク トル分布においては、 母音ほどの調波構造は見 られない。 特徴量保存部 2 0 2は、 調波構造抽出部 2 0 1 よ り出力されるパワー スぺク トルを所定数のフ レーム分保存する。 特徴量フ レーム間相関値算 出部 2 0 3は、 調波構造抽出部 2 0 1 よ り出力されるパワースぺク トル と、 特徴量保存部 2 0 2に保存されている一定フ レーム前のパワースぺ ク トルとの相関値を算出する。 差分処理部 2 0 4は、 特徴量フ レーム間 相関値算出部 2 0 3で求められた相関値のある一定期間における平均値 を求め、 特徴量フ レーム間相関値算出部 2 0 3 よ り出力される相関値か ら平均値を引き、 相関値と平均値との平均差分による補正相関値を求め る。
音声区間決定部 2 0 5は、 差分処理部 2 0 4 よ り出力される平均差分 による補正相関値に基づいて、 音声区間を決定する。
以上のように構成された音声区間検出装置 2 0の動作について以下に 説明する。 図 2は、 音声区間検出装置 2 0が実行する処理のフローチヤ ― トである。
F F T部 2 0 0は、 調波構造を抽出するために使用する音響特徴量と して、 入力信号に F F Tを施すことによ り、 パワースペク トル成分を求 める ( S 2 )。 よ り具体的には、 F F T部 2 0 0は、 入力信号を所定のサ ンプリ ング周波数 F s (たとえば、 1 1 . 0 2 5 k H z ) でサンプリ ン グし、 1 フレーム (たとえば、 1 0 m s e c ) ごとに、 所定のポイ ン ト (たとえば、 1 フ レ一厶あた り 1 2 8ポイ ン ト) で F F Tのスぺク トル 成分を求める。 F F T部 2 0 0は、 各ポイ ン トで求められたスペク トル 成分を対数化することによ りパワースペク トル成分を求める。 以下、 パ ワースぺク トル成分を、 適宜単にスぺク トル成分と表記する。
次に、 調波構造抽出部 2 0 1 は、 F F T部 2 0 0で抽出されたパワー スぺク トル成分から雑音成分等を取り除き、 調波構造のみを残したパヮ 一スペク トル成分を抽出する ( S 4 )。 F F T部 2 0 0で算出されたパワースぺク トル成分には、 雑音による オフセッ トゃ声道形状によって形成されるスぺク トル包絡形状が含まれ ており、 それぞれが時間変動を起こ している。 このため、 調波構造抽出 部 2 0 1 は、 これらの成分を取り除き、 声帯振動によって形成される調 波構造のみを残したパワースペク トル成分をと りだす。 これによ り、 よ リ効果的に有声区間検出が行なわれる。
調波構造抽出部 2 0 1 による処理 ( S 4 ) を図 3および図 4を参照し ながらよ リ詳細に説明する。 図 3は、 調波構造抽出部 2 0 1 による調波 構造抽出処理のフローチヤ一 卜であり、 図 4は、 各フ レームにおけるス ぺク トル成分から調波構造のみを残したスぺク トル成分を抽出する過程 を模式的に示す図である。
図 4 ( a ) に示されるように、 調波構造抽出部 2 0 1 は、 各フ レーム のスぺク トル成分 S ( f ) よ り、 その極大値をピークホール ドした値 H m a x ( f ) を算出 し ( S 2 2 )、 スペク トル成分 S ( f ) の極小値をピ ークホール ドした値 H m i n ( f ) を算出する ( S 2 4 )。
図 4 ( b ) に示されるように、 調波構造抽出部 2 0 1 は、 スペク トル 成分 S ( f ) から極小値のピークホール ド値 H m i n ( f ) を引 く こと によ り、 スペク トル成分 S ( f ) に含まれるフロア成分を除去する ( S 2 6 )。 これによ り、 雑音オフセッ ト成分およびスぺク トル包絡に起因す る変動成分が除去される。
図 4 ( c ) に示されるように、 調波構造抽出部 2 0 1 は、 極大値のピ —クホ一ル ド値 H m a x ( f )と極小値のピークホール ド値 H m i n ( f ) との差分値を求め、 ピーク変動量を算出する ( S 2 8 )。
図 4 ( d ) に示されるように、 調波構造抽出部 2 0 1 は、 ピーク変動 量を周波数方向に微分し、 その変化量を算出する ( S 3 0 )。 これは、 調 波構造成分を有する帯域では、 ピーク変動量の変化が小さいという仮定 に基づいて、 調波構造の検出を行なう ことを目的と している。
図 4 ( e ) に示されるよ うに、 調波構造抽出部 2 0 1 は、 上記仮定が 反映されるような重み W ( f ) を算出する ( S 3 2 )。 すなわち、 調波構 造抽出部 2 0 1 は、 ピーク変動量の変化量の絶対値と所定のしきい値と を比較し、 当該変化量の絶対値が所定のしきい値 0以下であれば重み W ( f ) を 1 と し、 所定のしきい値 0 以上であれば当該変化量の絶対値の 逆数を重み W ( f ) とする。 これによ り、 ピーク変動量の変化が大きい 部分の重みを小さ く し、 ピーク変動量の変化が小さい部分の重みを大き くすることができる。
図 4 ( f ) に示されるよ うに、 調波構造抽出部 2 0 1 は、 フロア成分 が除去されたスペク トル成分 ( S ( f ) - H m i n ( f )) に重み W ( f ) を掛け合わせ、 スペク トル成分 S ' ( f ) を求める ( S 3 4 )。 この処理 によ り、 ピーク変動量の変化の大きい非調波構造成分を除去することが 可能となる。
再度、 図 2に示される音声区間検出装置 2 0の動作説明を続ける。 調 波構造抽出処理 (図 2の S 4、 図 3 ) の後、 特徴量フ レーム間相関値算 出部 2 0 3は、調波構造抽出部 2 0 1 よ り出力されるスぺク トル成分と、 特徴量保存部 2 0 2に保存されている所定フ レーム前のスぺク トル成分 との間の相関値を算出する ( S 6 )。
ここでは、 着目 しているフ レームを j 番目のフ レームと した場合、 隣 接するフ レームのスペク トル成分を用いて相関値 E 1 ( j ) を求める方 法について説明する。 相関値 E 1 ( j ) は、 次式 ( 1 ) 〜 ( 5 ) に従い 求められる。 すなわち、 i フ レームおよび i — 1 フレームの 1 2 8ポィ ン トにおけるパワースペク トル成分 P ( i ) および P ( i - 1 ) を次式 ( 1 ) および ( 2 ) でそれぞれ表すものとする。 また、 パワースぺク ト ル成分 P ( i ) および P ( i — 1 ) の相関関数 x c o r r ( P ( j - 1 ), P ( j )) の値を次式 ( 3 ) で表すものとする。 すなわち、 相関関数 x c o r r ( P ( j - 1 ), P ( j )) の値は、 各ポイン トにおける内積値か らなるベク トル量である。 z 1 ( i ) を次式 ( 4 ) に示されるように X c o r r ( P ( j - 1 ), P ( j )) のベク トルの要素の最大値を求める。 これを j フレームの相関値 E 1 ( j ) と してもよいし、 次式 ( 5 ) で表 されるようにたとえば 3フレーム分加算した値を用いても良い。
P(i) = (pl(i),p2(i),...,pl28(i)) … い ) P(i - 1) = (pl(i - l),p2(i - l),...,pl28(i - 1)) (2) xcorr(P(i-l),P(i)) =
(pl(i - 1) pl(i),p2(i - 1) p2(i),...,pl28(i - 1) x pl28(i))
… ( 3 ) zl(i) = max(xcorr(P(i - l),P(i))) ( 4 ) … )
Figure imgf000018_0001
相関値 E l ( j ) の一例を図 5に示すグラフを用いて説明する。 図 5 は、 入力信号を処理することにより得られる信号を表すグラフである。 図 5 ( a ) は入力信号の波形を示している。 この波形は、 掃除機の雑音 ( S N R = 0. 5 d B ) がある環境において、 約 1 2 0 0〜 3 0 0 0 m s e cの間に 「アールアンドビ一ホテルヒガシ二ホン j と発音している 場合の波形である。 この入力信号には、 約 5 0 0 m s e cの箇所に掃除 機を動かした際の 「力タ ツ」 という突発音が含まれ、 2 8 0 0 m s e c 頃に掃除機のモータの回転速度を弱から強に変更し、 掃除機の音のレべ ルが大きくなつている。 図 5 ( b ) は、 図 5 ( a ) に示される入力信号 に F F Tを施した場合のパワーを示しており、 図 5 ( c ) は、 相関値算 出処理 ( S 6 ) で求められた相関値の遷移を示している。
ここで、 相関値 E 1 ( j ) の算出は、 以下に示すような知見に基づい て算出される。 すなわち、 フ レーム間の音響特徴量の相関値は、 時間的 に連続するフレームにおいて調波構造が連続していることに基づいてい る。 このため、 この調波構造を時間的に近いフ レーム同士で相関をとる ことで、 有声検出が行なわれる。 調波構造が時間的に持続するのは主に 母音区間である。 このため、 母音区間では相関値は大きくなリ、 子音区 間では母音区間よりも相関値は小さくなるものと想定される。 このよう に、 調波構造に着目 しフレーム間でパワースぺク トル成分の相関値をと ることによって、 非周期的な雑音区間においては、 相関値が小さくなる ものと考えられる。このため、有声区間がより際立って識別可能となる。 また、 一般的な発話スピードにおいて母音区間の持続時間は 5 0〜 1 5 0 m s e c ( 5 〜 1 5 フ レーム) と言われており、 その持続時間内で あれば、 フ レーム間の相関係数の値は隣接するフレームでなく とも高く なるものと想定できる。 この仮定が正しければ、 やはり非周期的な雑音 の影響を受けにく い評価関数であるという ことがいえる。 相関値 E 1 ( j ) を算出する際に、 数フ レームにわたる相関関数の値の和を用いて いるのは、突発的に生じる雑音の影響を除去するためと、母音であれば、 上記のように 5 0〜 1 5 0 m s e cの持続時間があるという知見による ものである。 従って、 図 5 ( c ) に示されるように、 5 0 フ レームの近 傍で発声する突発音に対しては反応せずに、相関値は小さいままである。 次に、 差分処理部 2 0 4は、 特徴量フ レーム間相関値算出部 2 0 3で 算出された相関値の一定時間にわたる平均値を求め、 各フ レームにおけ る相関値から当該平均値を減算し、 平均差分による補正相関値を求める ( S 8 )。 なぜならば、 相関値から平均値を引く ことにより、 長時間にわ たり生じている周期性の雑音の影響を取り除く ことができると考えられ るためである。 ここでは、 5秒程度の相関値の平均値を求めており、 図 5 ( c ) では、 平均値を実線 5 0 2で示している。 すなわち、 実線 5 0 2よりも上の部分に相関値が存在する区間が上記平均差分による補正相 関値が正の区間である。
次に、 音声区間決定部 2 0 5は、 主に有音区間を検出する相関値 E 1 ( j ) の差分処理部 2 0 4で算出された平均差分による補正相関値に基 づいて、 後述する、 相関値による選別、 区間の持続長、 子音区間や促音 区間を加味した区間の連結、 の 3つの区間補正方法に従い音声区間を決 定する ( S 1 0 )。
ここで、 音声区間決定部 2 0 5による音声区間決定処理 (図 2の S 1 0 ) についてより詳細に説明する。 図 6は、 一発声単位で音声区間決定 する処理の詳細を示すフローチヤ一トである。
まず、 第一の区間の補正方法である相関値による区間の判定について 述べる。 音声区間決定部 2 0 5は、 着目 しているフ レームについて、 差 分処理部 2 0 4で求められた補正相関値が所定のしきい値よりも大きい か否かを調べる ( S 4 4 )。 たとえば、 所定のしきい値を 0と した場合に は、 図 5 ( c ) に示される相関値が相関値の平均値 (実線 5 0 2 ) より も大きいか否かを調べることと等価である。
補正相関値が所定のしきい値よりも大きい場合には( S 4 4で Y E S ) 当該着目フ レームは音声フ レームであると判断し (S 4 6 )、補正相関値 が所定のしきい値以下の場合には ( S 4 4で N O)、 当該着目フレームは 非音声フ レームであると判断する (S 4 8 )。 以上の音声判断処理 ( S 4 4 ~ S 4 8 ) を音声区間検出対象となっているすべてのフ レームについ て繰返す (S 4 2 ~ S 5 0 )。 以上の処理により、 図 5 ( d ) に示される ようなグラフが得られ、 音声フレームが連続する区間が有声区間と して 検出される。
このように、 補正相関値の値がしきい値以下である場合には、 そのフ レームを非音声フレームであると判断する。 ただし、 騒音のレベルの影 響や、 音響特徴量のさまざまな条件に応じて、 検出区間において期待さ れる補正相関値が異なる。 このため、 音声フレームと非音声 (雑音) フ レームとを区別するためのしきい値は、 事前の実験を通じて適宜定め用 いることも可能である。 この処理により調波構造性を有する信号の選別 基準を厳しくすることにより、 平均差分を求めた時間長より短い、 例え ば 5 0 0 m s程度の周期雑音を非音声フ レームとすることが期待できる c 次に、 第二の区間の補正方法である隣接有声区間の連結法について述 ベる。 音声区間決定部 2 0 5は、 着目 している有声区間と、 当該有声区 間に隣接する有声区間との間の距離が所定フ レーム数未満であるかを調 ベる (S 5 4 )。 たとえば、 ここでは所定フ レーム数を 3 0 フ レームとす る。 当該距離が 3 0 フ レーム未満の場合には (S 5 4で Y E S )、 隣接す る 2つの有声区間を連結する (S 5 6 )。 以上の処理 ( S 5 4〜 S 5 6 ) をすベての有声区間について行なう (S 5 2 ~ S 5 8 )。以上の有声区間 連結処理により、 図 5 ( e ) に示されるようなグラフが得られ、 近接す る有声区間が連結されていることが分かる。
有声区間の連結をするのは、 以下のような理由による。 すなわち、 子 音区間、 特に破裂音 (Z k Z, / c /, / t /, / p /) や摩擦音など の無声子音の区間においては、 調波構造が表れにく いため、 相関値が小 さく、 有声区間として検出されにくい。 しかし、 子音の近傍には母音が 存在するため、 母音が連続する区間は有声区間とみなされるという理由 による。 これにより、 子音部分も有声区間とすることが可能になる。 最後に、 第三の区間の補正方法である区間持続時間について述べる。 音声区間決定部 2 0 5は、 着目している有声区間について、 その持続時 間が所定時間よりも長いか否かを調べる ( S 6 2 )。 たとえば、 所定時間 は、 5 0 m s e cであるとする。 持続時間が 5 0 m s e cよりも長い場 合には( S 6 2で Y E S )、当該有声区間を音声区間と決定し( S 6 4)、 持続時間が 5 O m s e c以下の場合には ( S 6 2で N O )、 当該有声区間 を非音声区間と決定する ( S 6 6 )。 以上の処理 ( S 6 2〜 S 6 6 ) をす ベての有声区間について行なうことにより音声区間が決定される ( S 6 0〜 S 6 8 )。 以上説明した処理により、 図 5 ( f ) に示すようなグラフ が得られ、 1 1 0〜 2 8 0 フ レームあたりに音声区間が検出される。 ま た、 図 5 ( e ) のグラフに存在していた 3 2 5フレームあたりに存在し ていた周期性ノイズに対する有声区間は、 非音声区間と決定されている ことが分かる。 このように、 有声区間の持続時間によリ有声区間を選別 する処理では、 相関値が高い短時間の周期的雑音を取り除く ことができ る。
以上説明したように本実施の形態によれば、 調波構造を有するスぺク トル成分のフレーム間での持続性を評価することにより、 有声区間を決 定している。 このため、 口一カルピ一クを トラッキングする従来の方法 に比べ、 精度よく音声区間を決定することができる。
特に、 調波構造の持続性をフレーム間のスぺク トル成分の相関値によ リ評価している。 このため、 フレーム間での振幅差分を取り調波構造の 持続性を評価する従来方法に比べ、 調波構造の有する情報を残した評価 が可能である。 よって、 短いフ レームにわたる突発雑音が生じたような 場合であっても、 突発雑音を有声区間と して検出することがない。 また、 時間的に隣接する有声区間を連結することにより音声区間と決 定している。 このため、 母音に比べ調波構造が小さい子音をも音声区間 と決定することが可能である。 また、 有声区間の持続時間を評価するこ とにより、 周期性を有する雑音を除去することが可能になる。 (実施の形態 2 )
以下、 図面を参照しながら本発明の実施の形態 2に係る音声区間検出 装置について説明する。 本実施の形態に係る音声区間検出装置では、 入 力信号の S N Rがよい場合には、 フ レーム間でのスぺク トル成分の相関 性のみから音声区間を決定する点が実施の形態 1 に係る音声区間検出装 置とは異なる。
図 7 は、 本実施の形態に係る音声区間検出装置 3 0のハー ドウヱァ構 成を示すブロ ック図である。 実施の形態 1 に係る音声区間検出装置 2 0 と同一の構成要素については、 同一の参照番号を付す。 その名称および 機能も同一であるため、 適宜説明を省略する。 なお、 以下の実施の形態 においても同様に適宜説明を省略する。
音声区間検出装置 3 0は、 入力信号の中から人間が発声している区間 である音声区間を決定する装置であり、 F F T部 2 0 0 と、 調波構造抽 出部 2 0 1 と、 有声評価部 2 1 0 と、 S N R推定部 2 0 6 と、 音声区間 決定部 2 0 5 とを備える。
有声評価部 2 1 0は、 有声区間を抽出する装置であり、 特徴量保存部 2 0 2 と、 特徴量フ レーム間相関値算出部 2 0 3 と、 差分処理部 2 0 4 とを備える。
S N R推定部 2 0 6は、 差分処理部 2 0 4よ り出力される平均差分に よる補正相関値に基づいて、 入力信号の S N Rを推定する。 S N R推定 部 2 0 6は、 S N Rが悪いと推定される場合には、 差分処理部 2 0 4よ リ出力される補正相関値を音声区間決定部 2 0 5に出力 し、 S N Rがよ いと推定される場合には、 音声区間決定部 2 0 5への補正相関値の出力 は行なわずに、 差分処理部 2 0 4よ り出力される補正相関値よ り音声区 間を決定する。 これは、 入力信号の S N Rが良好な場合には、 音声区間 と非音声区間との相関値の差がはっき り と しているという性質があるた めである。
次に、 S N R推定部 2 0 6による入力信号の S N Rの推定方法につい て説明する。 S N R推定部 2 0 6は、 差分処理部 2 0 4で求められる相 関値の平均値が所定のしきい値未満の場合には、 S N Rが良好であると 推定し、 当該平均値が所定のしきい値以上の場合には、 S N Rが悪いと 推定する。 これは、 以下のような理由に基づく。 すなわち、 相関値の平 均値を、 一発声の持続時間よりも十分に長い時間 (たとえば、 5秒間) にわたつて求めると、 S N Rが良好な環境下においては、 雑音区間にお ける相関値が小さ くなるため、 相関値の平均値が小さくなる。 これに対 し、 周期性の雑音を有するような S N Rが悪い環境下においては、 雑音 区間における相関値が大きくなるため、 相関値の平均値が大きくなる。 このように、 相関値の平均値と S N Rとが連動しているという性質を用 いることにより、 既に計算済みの一つのパラメータを評価するだけで簡 単に S N Rを推定することが可能である。
以上のように構成された音声区間検出装置 3 0の動作について以下に 説明する。 図 8は、 音声区間検出装置 3 0が実行する処理のフローチヤ > — 卜である。
F F T部 2 0 0による F F T処理 ( S 2 ) から差分処理部 2 0 4によ る補正相関値算出処理 ( S 8 ) までは、 図 2に示した実施の形態 1 にお ける音声区間検出装置 2 0の動作と同様である。 そのため、 その詳細な 説明はここでは繰返さない。
次に、 S N R推定部 2 0 6は、 上記方法に従い、 入力信号の S N Rを 推定する ( S 1 2 )。 S N Rが良好であると推定される場合には ( S 1 4 で Y E S )、所定のしきい値を超える補正相関値を音声区間と して決定す る ( S 1 6 )。 S N Rが悪いと推定される場合には (S 1 4で N O)、 図 2および図 6を参照して説明した実施の形態 1 に係る音声区間決定部 2 0 5による音声区間決定処理 (図 2の S 1 0 ) と同様の処理を実行し、 音声区間を決定する ( S 1 0 )。
以上説明したように、 本実施の形態によると、 実施の形態 1 に記載の 効果に加え、 入力信号の S N Rが良好な場合には、 有声区間の連続性お よび持続時間による音声区間決定処理を行なう必要がなくなる。 このた め、 リアルタイム性に優れた音声区間の検出が可能になる。
(実施の形態 3 )
以下、 図面を参照しながら本発明の実施の形態 3に係る音声区間検出 装置について説明する。 本実施の形態に係る音声区間検出装置では、 調 波構造性を有する音声区間を決定するのみならず、 音声区間の中から特 に、 音楽と人間の音声とを識別することができる。
図 9は、 本実施の形態に係る音声区間検出装置 4 0のハードウ Iァ構 成を示すブロック図である。 音声区間検出装置 4 0は、 入力信号の中か ら人間が発声している区間である音声区間と、 音楽の区間である音楽区 間とを決定する装置であり、 F F T部 2 0 0と、 調波構造抽出部 4 0 1 と、 音声 · 音楽区間決定部 4 0 2とを備える。
調波構造抽出部 4 0 1 は、 F F T部 2 0 0で抽出されたパワースぺク トル成分に基づいて、 調波構造性を示す値を出力する処理部である。 音 声 · 音楽区間決定部 4 0 2は、 差分処理部 2 0 4より出力された調波構 造性を示す値に基づいて、 音声区間および音楽区間を決定する処理部で ある。
以上のように構成された音声区間検出装置 4 0の動作について以下に 説明する。 図 1 0は、 音声区間検出装置 4 0が実行する処理のフローチ ヤー トである。
F F T部 2 0 0は、 調波構造を抽出するために使用する音響特徴量と して、 入力信号に F F Tを施すことにより、 パワースぺク トル成分を求 める ( S 2 )。
次に、 調波構造抽出部 4 0 1 は、 F F T部 2 0 0で抽出されたパワー スぺク トル成分から、 調波構造性を示す値を抽出する (S 8 2 )。 調波構 造抽出処理 (S 8 2 ) については、 後に詳述する。
調波構造抽出部 4 0 1 は、 調波構造性を示す値に基づいて、 音声区間 および音楽区間を決定する ( S 8 4 )。音声 ·音楽区間決定処理( S 8 4 ) については、 後に詳述する。
次に、 上述した調波構造抽出処理 ( S 8 2 ) について、 詳細に説明す る。 調波構造抽出処理 ( S 8 2 ) では、 パワースペク トル成分を複数の 帯域に分割した際に、 帯域間の相関を取ることにより、 調波構造性を示 す値を求める。このような方法により調波構造性を示す値を求めるのは、 以下のような理由による。 すなわち、 調波構造性は、 その発生源である 声帯振動における信号の影響がよく残されている帯域に見られると仮定 すると、 隣接帯域との間で、 パワースぺク トル成分の相関性が高いとい う推測が成立するからである。 すなわち、 図 1 1 に示すように、 横軸に 示す各フ レームにおいて、 縦軸に示すパワースぺク トル成分を複数の帯 域 (この図において、 帯域数は 8 ) に区切った場合には、 調波構造性を 有する帯域間 (例えば、 帯域 6 0 8と帯域 6 0 6との間) においては、 相関性が高いが、 調波構造性を有しない帯域間 (例えば、 帯域 6 0 2と 帯域 6 0 4との間) においては、 相関性が低い。
図 1 2は、 調波構造抽出処理 ( S 8 2 ) の詳細を示すフローチャー ト である。調波構造抽出部 4 0 1 は、各フレームについて、上述のように、 各帯域間で帯域間相関値 C ( i , k ) を算出する (S 9 2 )。 帯域間相関 値 C ( i , k ) は次式 ( 6 ) で表される。
C(i, k)=max(Xcorr (P ( i , L* (k-1 ) +1: L*k) , P ( i , L*k+1: L* (k+1 ) ) ) )
… ( 6 ) ここで、 P ( i, x : y)はフレーム i のパワースぺク トルにおける周波数成 分 X : y ( X以上、 y以下) での、 ベク トル列を示す。 また、 Lは帯域 幅を示し、 m a x ( X c o r r ( · )) はべク トル列間の相関係数の最大 値を示す。
調波構造性を有する帯域では、 隣接帯域との相関性が高いため、 帯域 間相関値 C ( i , k ) が大きな値を示す。 逆に、 調波構造性を有しない 帯域では、 隣接帯域との相関性が低いため、 帯域間相関値 C ( i , k ) が小さな値を示す。
なお、 帯域間相関値 C ( i , j ) は次式 ( 7 ) により求めてもよい。
C(i, k)=max(Xcorr (P(i, L*(k-1)+1: L*k) , P ( i +1, L*k+1: L*(k+1))))
- ( 7 ) なお、 式 ( 6 ) は、 帯域 6 0.8および帯域 6 0 6間、 または帯域 6 0 4および帯域 6 0 2間のように、 同一フ レーム内の隣接する帯域間での パワースペク トルの相関を示しているのに対し、 式 ( 7 ) は、 帯域 6 0 8および帯域 6 1 0間のように、 隣接するフ レーム間であり、 かつ隣接 する帯域間でのパワースペク トルの相関を示している。 式 ( 7 ) のよう に、 隣接フレーム間でも相関を取ることにより、 帯域間の相関とフレー 厶間の相関とを同時に計算することができる。
さらに、 帯域間相関値 C ( i , k ) は次式 ( 8 ) によリ求めてもよい。
C(i, k)=max(Xcorr (P(i, L*(k-1)+1: L*k) , P ( i , L* (k-1 ) +1: L* (k+1 ) ) ) )
- ( 8 ) 式 ( 8 ) は、 隣接フレームの同一帯域間でのパワースペク トルの相関 を示している。
次に、 フレーム i における調波構造性を示す調波構造性値 R ( i ) お よび帯域番号 N ( i ) の組 [ R ( i ), N ( i )] を求める ( S 9 4 )。 [ R ( i ), N ( i )] は、 次式 ( 9 ) に従い表される。 [ R ( i ), N ( i )] = [ R 1 ( i ) - R 2 ( i ),
N 1 ( i ) 一 N 2 ( i )] … ( 9 ) ただし、 R 1 ( i ). R 2 ( i ) は以下のようにあらわされる。
R1(i) = max(C(i,k)); (10)
k=l,.L-l
R2(i)= km=l.i.しn- 1(C(i,k)); (ID
C: フレーム iの帯域 kにおける帯域調波性尺度
L :帯域数 また、 N 1 ( i ) および N 2 ( i ) は、 C ( i , k ) が最大となる帯 域番号および最小となる帯域番号をそれぞれ示す。 式 ( 9 ) に示される 調波構造性値は、 同一フ レーム内での帯域間相関値の最大値から最小値 を引く ことにより求められる。 このため、 調波構造性のあるフレームで はその値が大きくなリ、 調波構造性の無いフレームではその値が小さく なる。 また、 最大値から最小値を引く ことにより、 帯域間相関値を正規 化している効果もある。 このため、 図 2の S 8の処理のように、 平均相 関値との差分処理を行なうことなく、 1 つのフレームにおいて正規化処 理を行なうことができる。
次に、 調波構造抽出部 4 0 1 は、 帯域番号 N ( i ) をその過去 X cフ レームにおける分散で重み付けした補正帯域番号 N d ( i ) を算出する ( S 9 6 ) o また、 調波構造抽出部 4 0 1 は、 補正帯域番号 N d ( i ) の 過去 X c フ レームにおける最大値 N e ( i ) を求める ( S 9 8 )。 最大値 N e ( i ) を以下では重み付き帯域番号と称する。
補正帯域番号 N d ( i ) および重み付き帯域番号 N e ( i ) は X c = 5と した場合、 以下の式により求められる。 Nd(i) = median(N(k)) - var (N(k)); (12) k=i-Xc:i k=i-Xc:i
Ne(i) = max (Nd(k)); (13)
k=i:i+Xc
Nd:分散で補正した帯域番号
Ne:分散で補正した帯域番号 Ndの過去 Xcフレームの最大値
XC:分散計算フレーム幅
調波構造性のない区間では、 帯域番号 N ( i ) の分散が大きくなる。 このため、 補正帯域番号 N d ( i ) の値が小さな値 (例えば、 負の値) になリ、 これに伴ない、重み付き帯域番号 N e ( i ) も小さな値になる。 さらに、 調波構造抽出部 4 0 1 は、 調波構造性値 R ( i ) を重み付き 帯域番号 N e ( i ) で補正し、補正調波構造性値 R' ( i ) を算出する (S
1 0 0 )。 補正調波構造性値 R' ( i ) は、 次式 ( 1 4 ) に従い求められ る。 なお、 ここで用いる調波構造性値 R ( i ) は、 S 8で算出した値を 用いてもよい。
R' ( i ) = R ( i ) * N e ( i ) ··· ( 1 4 ) 図 1 3〜図 1 5は、 上述の調波構造抽出処理 ( S 8 2 ) の実験結果を 示す図である。
図 1 3は、 掃除機のノイズがある環境下 ( S N R = 1 0 d B) で人間 が音声を発声している場合の実験結果を示す図である。 4 0フ レーム近 傍には、掃除機を動かした際の「力タ ツ」という突発音が発生しており、 およそ 2 8 0フ レーム前後で、 掃除機のモーターの回転速度を弱から強 に変更したために、 掃除機の音のレベルが大きくなリ、 周期性ノイズが 発せられているものとする。 また、 人間は 8 0フレームあたりから 2 8 0 フ レームあたりまでの間に音声を発声しているものとする。
図 1 3 ( a )は入力信号のパワースペク トルを示しており、図 1 3 ( b ) は調波構造性値 R ( i ) を示しており、 図 1 3 ( c ) は帯域番号 N ( i ) を示しており、 図 1 3 ( d ) は重み付き帯域番号 N e ( i ) を示してお リ、 図 1 3 ( e ) は補正調波構造性値 R ' ( i ) を示している。 なお、 図 1 3 ( c ) に示す帯域番号は、 図を見やすくするために実際の帯域番号 に一 1 を掛けているため、 0に近いほど周波数が小さい。
図 1 3 ( c ) に示すように、 突発音や周期性ノイズが発生している部 分 (図中破線で囲った部分) では、 帯域番号 N ( i ) の変動が大きくな つている。 このため、 図 1 3 ( d ) に示すように、 その部分の重み付き 帯域番号 N e ( i ) は小さな値を示し、 それに伴ない、 図 1 3 ( e ) に 示すように、 補正調波構造性値も小さくなっている。
図 1 4は、掃除機のノイズがほとんどない環境下 (S N R = 4 0 d B ) で、 図 1 3と同じ音声を発生した場合の実験結果を示す図である。 この ような環境下においても図 1 3と同様に、 調波構造性のない部分の補正 調波構造性値 R ' ( i ) は小さくなつている (図 1 4 ( e ) )。
図 1 5は、 ボーカルの無い音楽に対する実験結果を示す図である。 音 楽では和音が出力されるため調波構造性を有するが、 ドラムによリ ビー トを刻む区間などでは調波構造性を有しない。 図 1 5 ( a ) は入力信号 のパワースぺク トルを示しており、 図 1 5 ( b ) は調波構造性値 R ( i ) を示しており、 図 1 5 ( c ) は帯域番号 N ( i ) を示しており、 図 1 5 ( d ) は重み付き帯域番号 N e ( i ) を示しており、 図 1 5 ( e ) は補 正調波構造性値を示している。 なお、 図 1 5 ( c ) に示す帯域番号は、 図 1 3 ( c ) と同じ理由により、 0に近いほど周波数が小さい。 図 1 5 ( c ) の破線で囲っている部分では、 ドラムにより ビー トが刻まれるこ とにより、 調波構造性が失われている。 尾のため、 その部分では、 図 1 5 ( d ) に示すように重み付き帯域番号 N e ( i ) が小さ く なつている。 したがって、 図 1 5 ( e ) に示すように重み付き調波構造性値 R ' ( i ) も小さくなつている。 また、無声区間においても同様に調波構造性値 R ' ( i ) が小さくなつている。 なお、 S 9 4の処理において、 フ レーム ί における調波構造性を示す 調波構造性値 R ( i ) および帯域番号 N ( i ) の組 [ R ( i ), N ( i )] を次式 ( 1 5 ) に従い求めてもよい。
[ R ( i ), N ( ί )] = [ R 1 ( i ) - R 2 ( i ),
N 1 ( i ) - N 2 ( i )] ·■■ ( 1 5 ) ただし、 R 1 ( i ), R 2 ( i ) は以下のようにあらわされる。
R,(i)= ∑(C(i,k)) (16) k=l..NSP
R2(i)= ∑(C(i,k)) (17)
k=L-NSP..L-l
C: フレーム iの帯域 kにおける帯域調波性尺度。
L :帯域数
NSP :音声ピッチ周波数帯域と仮定する帯域数 また、 N 1 ( i ) および N 2 ( i ) は、 C ( i , k ) が最大となる帯 域番号および最小となる帯域番号をそれぞれ示す。
なお、 R 1 ( i ) または R 2 ( i ) を調波構造性値 R ( i ) と しても よい。
図 1 6は、 式 ( 1 5 ) に従い重み付き調波構造性値 R' ( i ) を求めた 実験結果である。 図 1 6は、 掃除機のノイズがかなりある環境下 ( S N R = 0 d B ) で人間が音声を発生している場合の実験結果を示す図であ る。 なお、 人間が音声を発生するタイミング、 掃除機の突発音および周 期性ノイズの発生タイ ミングは、 図 1 3に示したものと同じである。 こ こでは、 式 ( 1 5 ) において、 L = 1 6、 N S P = 2と したときの値を 示している。
この場合においても、 人間が発声しているフ レームの重み付き調波構 造性値 R ' ( i ) は大きい値を示し、 突発音および周期性ノイズが発生し ているフ レームにおいては、 重み付き調波構造性値 R ' ( i ) は小さい値 を示している。
次に、 音声 ' 音楽区間決定処理 (図 1 0の S 8 4 ) について詳細に説 明する。 図 1 7は、 音声 · 音楽区間決定処理 (図 1 0の S 8 4 ) の詳細 なフローチャートである。
音声 ' 音楽区間決定部 4 0 2は、 フレーム i について、 パワースぺク トル P ( i ) が所定の閾値 P m i nよりも大きいか否かを調べる (S 1 1 2 )。 所定の閾値 P m i n以下の場合には (S I 1 2で N O)、 そのフ レームは無音のフレームであると判断する (S 1 2 6 )。パワースぺク ト ル P ( i ) が所定の閾値 P m i nよりも大きい場合には ( S 1 1 2で Y E S )、 補正調波構造性値 R ' ( i ) が所定の閾値 R m i nよりも大きい か否かを判断する ( S 1 1 4 )。
補正調波構造性値 R ' ( i ) が所定の閾値 R m i n以下の場合には ( S 1 1 4で N O )、フ レーム i が調波構造性の無い音のフ レームであると判 断する ( S 1 2 4 )。 補正調波構造性値 R' ( i ) が所定の閾値 R m i n よりも大きい場合には ( S 1 1 4で Y E S )、 音声 '音楽区間決定部 4 0 2は、 重み付き帯域番号 N e ( i ) の単位時間平均値 a v e— N e ( i ) を算出し ( S 1 1 6 )、 当該単位時間平均値 a v e _N e ( i ) が所定の 閾値 N e— m i nよりも大きいか否かを調べる ( S 1 1 8 )。 ここで a v e— N e ( i ) は以下の式に従い求められる。 すなわち、 フレーム i を 含む d フ レーム (ここでは 5 0 フ レームと した) における N e ( i ) の 平均値を示している。 ave Ne i) = average (Ne(i)); 8)
k=i- :i
d:単位時間平均値を求 めるフレーム数
a V e _N e ( i ) が所定の閾値 N e _m i nよりも大きい場合には
( S 1 1 8で Y E S )、 音楽と判断し (S 1 2 0 )、 それ以外の場合には ( S 1 1 8で N O )、人間の音声のような調波構造性を有する音であると 判断する ( S 1 2 2 )。 以上の処理 (S I 1 2〜 S 1 2 6 ) をすベてのフ レームについて繰り返す (S 1 1 0 ~ S 1 2 8 )。
なお、 以上のように a v e— N e ( i ) の大きさにより調波構造性を 有する音の中から音楽と音声とを分離したのは以下のような考え方に基 づく。 すなわち、 音楽も音声も信号そのものには調波構造性を有する音 であるが、 音声は、 有声音と無声音とが繰り返し出現される音であるこ とより、 調波構造性値が有声音の部分では大きく、 無声音の部分では小 さくなリ、 それらが短い周期で交互に繰り返される。 一方、 音楽は、 和 音が連続的に出力されるため調波構造性を有する期間が比較的長い時間 連続し、 調波構造性値が大きい状態が一定する。 したがって、 調波構造 性値が音楽ではあまり変動しないものの、 音声では変動することを示し ている。 換言すれば、 重み付き帯域番号 N e ( i ) の単位時間平均値 a V e _N e ( i ) は、 音楽の方が音声よりも大きくなる。
なお、 調波構造性値の時間的連続性に着目 して音声と音楽とを判別す るようにしてもよい。 すなわち、 単位時間内に調波構造性値が小さくな るフレーム数がどの程度あるかを調べるようにしてもよい。 そのため、 例えば、 重み付き帯域番号 N e ( i ) が単位時間あたり負になる個数を 数えるようにしてもよい。 単位時間 (例えば、 着目 しているフレーム i を含む過去 5 0 フ レーム) のうち、 重み付き帯域番号 N e ( i ) が負に なるフ レーム数を N e _ c o u n t ( i ) と した場合に、 S 1 1 6で a v e一 N e ( i ) の代わりに N e— c o u n t ( i ) を算出し、 S 1 1 8でフ レーム数 N e _ c o u n t ( i ) が所定の閾値よりも大きい場合 に音声と し、 小さい場合に音楽とするようにしてもよい。
以上説明したように、 本実施の形態では、 各フレームにおけるパワー スぺク トル成分を複数の帯域に区切り、 帯域間で相関を取っている。 こ のため、 声帯振動における信号の影響が良く残されている帯域を抽出す ることができ、 調波構造を確実に抽出することができる。
また、 調波構造の変動や、 調波構造の連続性に基づいて調波構造を有 する音が音楽であるのか音声であるのかを判定することができる。 (実施の形態 4 )
次に、 図面を参照しながら本発明の実施の形態 4に係る音声区間検出 装置について説明する。 本実施の形態にかかる音声区間検出装置では、 調波構造性値の分散に基づいて調波構造を有する音声区間を決定する。 図 1 8は、 本実施の形態に係る音声区間検出装置 5 0のハードウェア 構成を示すブロック図である。 音声区間検出装置 5 0は、 入力信号の中 から調波構造性を有する音声区間を検出する装置であり、 F F T部 2 0 0と、 調波構造抽出部 5 0 1 と、 S N R推定部 2 0 6と、 音声区間決定 部 5 0 2とを備える。
調波構造抽出部 5 0 1 は、 F F T部 2 0 0よリ出力されたパワースぺ ク トル成分に基づいて、 調波構造性を示す値を出力する処理部である。 音声区間決定部 5 0 2は、 調波構造性を示す値および推定された S N R に基づいて、 音性区間を決定する処理部である。
以上のように構成された音声区間検出装置 5 0の動作について以下に 説明する。 図 1 9は、 音声区間検出装置 5 0が実行する処理のフローチ ヤー卜である。 F F T部 2 0 0は、 調波構造を抽出するために使用する 音響特徴量と して、 入力信号に F F Tを施すことにより、 パワースぺク トル成分を求める ( S 2 )。
次に、 調波構造抽出部 5 0 1 は、 F F T部 2 0 0で抽出されたパワー スぺク トル成分から、 調波構造性を示す値を抽出する (S 1 4 0 )。 調波 構造処理 (S 1 4 0 ) については、 後述する。
S N R推定部 2 0 6は、 調波構造性を示す値に基づいて、 入力信号の S N Rを推定する ( S 1 2 )。 S N Rの推定方法は、 実施の形態 2と同様 である。 このため、 その詳細な説明はここでは繰り返さない。
音声区間決定部 5 0 2は、 調波構造性を示す値および推定された S N Rに基づいて音声区間を決定する ( S 1 4 2 )。 音声区間決定処理 ( S 1 4 2 ) については、 後に詳述する。
本実施の形態では、 有声音と無声音との間の遷移区間に対して評価を 加えることにより、 音声区間決定の制度を向上させる。 図 6に示した音 声区間決定方法では、( 1 ) 音声区間間の距離が所定フレーム未満であれ ば、 音声区間を連結し ( S 5 2 )、 ( 2 ) 連結後の音声区間の持続時間が 所定時間以下であればその区間を非音声区間と していた ( S 6 0 )。すな わち、 無声音に対しては、 ( 1 ) の処理において、 S 4 2において有声音 と判断された音声の区間の間のフ レームに対してなんら評価を行うこと なく、 ( 2 ) の処理により連結されることを暗に期待する方法である。 音声区間を詳細にみると、 有声音、 無声音.および騒音 (非音声区間) の遷移関係から次の 3つのグループ (Aグループ、 Bグループおよび C グループ) に分類できるものと考えられる。
Aグループは有声音のグループであり、 有声音から有声音への遷移、 騒音から有声音への遷移、 有声音から騒音への遷移が考えられる。
Bグループは、 有声音と無声音が混在する音のグループであり、 有声 音から無声音への遷移と、 無声音から有声音への遷移が考えられる。
Cグループは非有声音のグループであり、無声音から無声音への遷移、 無声音から騒音への遷移、 騒音から無声音への遷移、 騒音から騒音への 遷移が考えられる。
Aグループに含まれる音については、 調波構造性を示す値の精度に依 存して有音区間のみが決定されるものである。 これに対して、 B グルー プに含まれる音については、 有声区間の周辺での音の遷移を評価するこ とができれば、 無声音区間をも抽出することが期待できるものと考えら れる。 C グループに含まれる音については、 無声音区間だけを騒音下で 抽出することは非常に難しいと考えられる。 これは、 騒音の性質が簡単 には規定できないため、 または、 無声音の騒音に対する S N Rが悪い場 合が多いためである。
したがって、 本実施の形態では、 Aグループのみを抽出して音声区間 を決定していた図 6の方法に加えて、 有声音と無声音との間の遷移を評 価することにより、 Bグループの音の抽出を行なう。 このことにより、 音声区間の決定精度を向上させることができるものと考える。 また、 無 声音から有声音への遷移区間および有声音から無声音への遷移区間にお いて、 調波構造性を示す値は大から小および小から大へとそれぞれ大き く変化していると仮定できる。 このため、 調波構造性を示す値を用いて 有音区間と判断された区間周辺について、 調波構造性を示す値の分散に 基づく尺度を用いることより、 この調波構造性の値の変化を捉えること ができる。 ここで、 調波構造性を示す値の分散を重み付き分散 V e と呼 次に、 調波構造抽出処理 (図 1 9の S "I 4 0 ) について、 詳細に説明 する。 図 2 0は、 調波構造抽出処理 ( S 1 4 0 ) の詳細を示すフローチ ヤー卜である。
調波構造抽出部 5 0 1 は、各フ レームについて、帯域間相関値 C ( i , k ) を算出する ( S 1 5 0 )。 帯域間相関値 C ( i , k ) の算出は、 図 1 2の S 9 2と同様である。 このため、 その詳細な説明はここでは繰り返 さない。
次に、 調波構造抽出部 5 0 1 は、 帯域間相関値 C ( i , k ) を用いて 重み付き分散 V e ( i ) を次式に従い算出する ( S 1 5 2 )。 Ve(i) = count( if var (C j,k)) > th—var— change) (19) k=l:L j=i-Xc:i ― ―
こ こで、 X c : フ レーム幅 (= 1 6 )
L : 帯域数 (= 1 6 )
t h― v a r― c h a n g e : 間値
である。
また、 関数 V a r () は括弧内の値の分散を示す関数であり、 関数 c o u n t () は、 カツコ内の条件を満たす個数をカウン トする関数であ るものとする。
最後に、 調波構造抽出部 5 0 1 は、 調波構造性値 R ( i ) を算出する ( S 1 5 4 )。この算出方法は、図 1 2の S 9 4と同様である。このため、 その詳細な説明はここでは繰り返さない。
次に、 図 2 1 を参照して、 音声区間決定処理 (図 1 9の S 1 4 2 ) に ついて説明する。 音声区間決定部 5 0 2は、 フレーム i について R ( i ) が閾値 T h— Rより大きくかつ V e ( i ) が閾値 T h— V eより大きい か否かを判断する (S 1 8 2 )。 上述の条件を満たす場合には (S 1 8 2 で Y E S )、音声区間決定部 5 0 2は、 フ レーム i を音声フ レームである と判断し、 満たさない場合には ( S 1 8 2で N O )、 非音声フ レームであ ると判断する (S 1 8 6 )。 音声区間決定部 5 0 2は、 以上の処理をすベ てのフレームについて行なう ( S 1 8 0〜 S 1 8 8 )。 次に、 音声区間決 定部 5 0 2は、 S N R推定部 2 0 6で推定された S N Rが悪いか否かを 判断し ( S 1 9 0 )、 推定 S N Rが悪い場合には、 ループ Bおよびループ Cの処理を実行する (S 5 2〜 S 6 8 )。 ループ Bおよびループ Cの処理 は図 6に示したものと同様である。 このため、 その詳細な説明はここで は繰り返さない。
なお、 推定 S N Rがよい場合には ( S 1 9 0で N O )、 ループ Bを省略 し、 ループ Cの処理 ( S 6 0〜 S 6 8 ) のみを実行する。
図 2 2および図 2 3は、 音声区間検出装置 5 0の実行する処理の結果 を示す図である。 図 2 2は、 掃除機のノイズがある環境下 (S N R = 1 0 d B ) で人間が音声を発声している場合の実験結果を示す図である。
4 0 フ レーム近傍は、 掃除機を動かした際の 「力タ ツ」 という突発音が 発生しており、 およそ 2 8 0フレーム前後で、 掃除機のモータ一の回転 速度を弱から強に変更したために、 掃除機の音のレベルが大きくなリ、 周期性ノイズが発せられているものとする。 また、 人間は 8 0フ レーム あたりから 2 8 0フレームあたりまでの間に音声を発声しているものと する。
図 2 2 ( a )は入力信号のパワースぺク トルを示しており、図 2 2 ( b ) は調波構造性値 R ( i ) を示しており、 図 2 2 ( c ) は、 重み付き分散 V e ( i ) を示しており、 図 2 2 ( d ) は連結前の音声区間を示してお り、 図 2 2 ( e ) は連結後の音声区間を示している。
図 2 2 ( d ) において、 実線は、 調波構造性値 R ( i ) を閾値処理 (図 6のループ A ( S 4 2 ~ S 5 0 ))することにより得られる音声区間を示 しておリ、 破線は、 調波構造性値 R ( i ) および重み付き分散 V e ( i ) を閾値処理 (図 2 1 のループ A ( S 1 8 0〜 S 1 8 8 )) することにより 得られる音声区間を示している。 また、 図 2 2 ( e ) において、 破線は 区間連結処理 (図 2 1 の S 1 9 0〜 S 6 8 ) に従い、 図 2 2 ( d ) の破 線で示した音声区間を連結した後の処理結果を示しておリ、 実線は区間 連結処理 (図 6の S 5 2〜 S 6 8 ) に従い、 図 2 2 ( d ) の実線で示し た音声区間を連結した後の処理結果を示している。 図 2 2 ( e ) に示さ れるように、 重み付き分散 V e ( i ) を用いることにより、 正確に音声 区間を抽出することができている。
図 2 3は、掃除機のノイズがほとんどない環境下 (S N R = 4 0 d B ) で、 図 2 2と同じ音声を発生した場合の実験結果を示す図である。 図 2 3 ( a ) 〜図 2 3 ( e ) のグラフの意味は、 図 2 2 ( a ) 〜図 2 2 ( e ) のグラフの意味と同様である。 図 2 3から、 区間連結前の図 2 3 ( d ) と区間連結後の図 2 3 ( e ) とを比較すると、 図 2 3 ( d ) の破線で示 される S 1 8 0の結果は、 図 2 3 ( e ) の実線と同様に音声区間が精度 良く連結されていることを示している。 したがって、 推定 S N Rが非常 にょい場合には、 図 2 1 の S 1 9 0の判定処理により、 S 5 2〜 S 5 8 の処理を行なわずに、 音声区間が決定されても音声区間の検出性能を維 持することが可能である。
以上説明したように、 本実施の形態によると、 重み付き分散 V eを用 いて無声音と有声音との遷移区間を評価することにより、 上述の Bグル —プに属する音を抽出することができるようになった。 このため、 推定 S N Rを用いて S N Rがよいと判断された場合には区間連結を行わずと も音声区間が正確に抽出できるようになった。 また、 S N Rが悪く、 区 間連結が必要な場合であっても、 連結時の所定フ レーム数 (図 2 1 の S 5 4 ) を小さくすることができるため、 ノイズ区間を音声区間と して誤 検出することが少なくなつた。
なお、 以下に示すように調波構造性値 R ( i ) の代わりに補正調波構 造性値 R' ( i ) を算出し、 重み付き分散 V e ( i ) と補正調波構造性値 R' ( ί ) とから音声区間を検出するようにしてもよい。 図 2 4は、 調波 構造抽出処理 (図 1 9の S 1 4 0 ) の他の一例を示すフロ一チャー トで る。
調波構造抽出部 5 0 1 は、 帯域間相関値 C ( i , k )、 重み付き分散 V e ( i ) および調波構造性値 R ( i ) を算出する (S 1 6 0 ~ S 1 6 4 )。 これらの算出方法は、 図 2 0と同様であるため、 その詳細な説明はここ では繰り返さない。 次に、 調波構造抽出部 5 0 1 は、 重み付き調波構造 性値 R e ( i ) を算出する (S 1 6 6 )。 重み付き調波構造性値 R e ( i ) は、 次式に従い算出される。 これらの式と S 9 6 Z S 9 8において算出 される式との違いは、 S 9 4において算出されるフレーム i における調 波構造性値 R ( i ) を用いるかその帯域番号 N ( i ) を用いるかの違い にある。 これらの式は、 ともに、 重み付き分散により補正されることに より、 調波構造性を強調する指標となる。
Rd(i) = median(R(k)) - var (R(k)); (20)
k=i-Xc:i — k=i-Xc:i
Re(i) = max (Rd(k)); (21)
k=i:i+Xc
Xc:分散計算フレーム幅 ( = 5) ここで、 関数 m e d i a n () は、 括弧内の中央値を示す。
調波構造抽出部 5 0 1 は、 補正調波構造性値 R ' ( i ) を算出する (S 1 6 8 )。 補正調波構造性値 R' ( i ) は以下の式に従い算出される。
R'(i) = Re(i);: if Re(i) > 0; (22) R'(i) = 0; : if Re(i) < 0; (23) 図 2 5および図 2 6は、 図 2 4に示したフローチヤ一卜に従い処理さ れた処理結果を示す図である。 図 2 5は、 掃除機のノイズが無い環境下 ( S N R = 4 0 d B ) で人間が音声を発声している場合の実験結果を示 しておリ、 図 2 6は、 掃除機のノイズがある状況下 ( S N R = 1 0 d B ) で人間が音声を発声している場合の実験結果を示している。 この実験で は、 図 2 3と同じ音声を発生するものと し、 突発音と周期性ノイズの発 生タイ ミングも同じであるものとする。
図 2 5 ( a ) は入力信号を示し、 図 2 5 ( b ) は入力信号のパワース ベク トルを示しており、 図 2 5 ( c ) は調波構造性値 R ( i ) を示して おり、 図 2 5 ( d ) は重み付き調波構造性値 R e ( i ) を示しており、 図 2 5 ( e ) は補正調波構造性値 R ' ( i ) を示している。 図 2 6 ( a ) 〜図 2 6 ( e ) も図 2 5 ( a ) 〜図 2 5 ( e ) とそれぞれ同様のグラフ を示している。
補正調波構造性値 R ' ( i ) は、 調波構造性値 R ( i ) 自身の分散に基 づいて算出されている。 このため、 調波構造性を有する部分には当該分 散が大きく、 調波構造性を有しない部分では当該分散が小さいという性 質を利用して、調波構造性を有する部分を適切に抽出することができる。 (実施の形態 5 )
上述した実施の形態 1 ~ 4に記載の音声区間決定装置では、 入力信号 が予 ファイル等に記録されている音声に対して区間決定を行なうもの である。 このような処理方法は、 例えば、 録音済みのデータに対して処 理を行なう際には、 有効であるが、 音声を入力しながら区間決定を行な ゔには不向きである。 そこで、 本実施の形態においては、 音声の入力に 同期しながら音声区間をリアルタイムで決定する音声区間決定装置につ いて説明する。
図 2 7は、 本発明の実施の形態に係る音声区間検出装置 6 0の構成を 示すブロック図である。 音声区間検出装置 6 0は、 入力信号から調波構 造性を有する音声区間 (調波構造性区間) を検出する装置であり、 F F T部 2 0 0と、 調波構造抽出部 6 0 1 と、 調波構造性区間確定部 6 0 2 と、 制御部 6 0 3とを備えている。
図 2 8は、 音声区間検出装置 6 0の実行する処理のフローチヤ一卜で ある。 制御部 6 0 3は、 F R、 F R S、 F R E、 R H、 R M、 C H、 C Mおよび C Nを 0にセッ トする (S 2 0 0 )。 ここで、 F Rは、 後述する 調波構造性値 R ( i ) を未算出のフ レームの先頭フ レーム番号を示す。 また、 F R Sは、 調波構造性区間か否かが未確定の区間の先頭フ レーム 番号を示す。 F R Eは、 後述する調波構造性フ レーム仮判定処理を行な つた最終フ レームのフ レーム番号を示す。 R Hおよび R Mは調波構造性 値の累積値を示す。 C H、 C Mおよび C Nはカウンタである。
F F T部 2 0 0は、 入力フ レームを F F T変換する。 調波構造抽出部 6 0 1 は、 F F T部 2 0 0で抽出されたパワースペク トル成分に基づい て、 調波構造性値 R ( i ) を抽出する。 以上の処理を開始フレーム F R から現在時刻のフ レーム F R Nまで行なう ( S 2 0 2 ~ S 2 1 0、 ルー プ A )。 ループ処理が 1 回実行されるごとに、 カウンタ i が 1 つずつイン ク リ メ ン トされ、 開始フ レーム F Rにカウンタ i の値が代入される ( S 2 1 0 )。
次に、 調波構造性区間確定部 6 0 2は、 ここまでで求められた調波構 造性値 R ( i ) に基づいて、 調波構造性を有する区間を仮判定する調波 構造性フ レーム仮判定処理を実行する ( S 2 1 2 )。調波構造性フ レーム 仮判定処理については後述する。
調波構造性区間確定部 6 0 2は、 S 2 1 2の処理の後、 隣接する調波 構造性区間が見つかつたか否か、 すなわち非調波構造性区間長 C Nが 0 よ り大きいか否かを調べる ( S 2 1 4 )。 非調波構造性区間長 C Nは、 図 2 9 ( a ) に図示するように、 調波構造性区間の最終フ レームと次の調 波構造性区間の開始フ レームとの間のフ レーム長を示す。
隣接する調波構造性区間が見つかった場合には、 非調波構造性区間長 C Nが所定の閾値よ リ も小さいか否かを調べる ( S 2 1 6 )。 非調波構造 性区間長 C Nが所定の閾値 T Hよ り も小さければ ( S 2 1 6で Y E S )、 調波構造性区間確定部 6 0 2は、 図 2 9 ( b ) に示すように調波構造性 区間を連結し、 フ レーム F R S 2からフ レーム ( F R S 2 + C N ) まで を調波構造性区間であると仮判定する ( S 2 1 8 )。 ここで、 F R S 2 と は、非調波構造性区間であると仮判定された最初のフ レーム番号を示す。 非調波構造性区間長 C Nが所定の閾値 T H以上の場合には ( S 2 1 6 で N O )、 図 2 9 ( c ) に示されるように調波構造性区間は連結されるこ となく 、 調波構造性区間確定部 6 0 2が、 後述する調波構造性区間確定 処理を実行する ( S 2 2 0 )。 その後、 制御部 6 0 3は、 F S Rに F R E を代入し、 R H、 R m、 C H、 C Mおよび C Nに 0 を代入する ( S 2 2 2 )。 調波構造性区間確定処理 ( S 2 2 0 ) については後述する。
隣接する調波構造性区間が見つからなかった場合 ( S 2 1 4で N O、 図 2 9 ( d ))、 S 2 1 8の処理の後、 または S 2 2 2の処理の後、 制御 部 6 0 3は、 音声信号の入力が終了 したか否かを判断する ( S 2 2 4 )。 音声信号の入力が終了 していなければ ( S 2 2 4で N O )、 S 2 0 2以降 の処理が繰り返される。 音声信号の入力が終了 していれば ( S 2 2 4で Y E S )、 調波構造性区間確定部 6 0 2は、 調波構造性区間確定処理 ( S 2 2 6 ) を実行し、 処理を終了する。 調波構造性区間確定処理 ( S 2 2 6 ) については、 後述する。
次に、 調波構造性フ レーム仮判定処理 (図 2 8の S 2 1 2 ) について 説明する。 図 3 0は、 調波構造性フ レーム仮判定処理の詳細なフローチ ヤー 卜である。 調波構造性区間確定部 6 0 2は、 調波構造性値 R ( i ) が予め定められた調波構造性閾値 1 よ リ も大きいか否かを判断し ( S 2 3 2 )、 大きい場合には ( S 2 3 2で Y E S )、 着目 しているフ レーム i を調波構造性を有するフ レームであると仮判断する。 そして、 累積調波 構造性値 R Hに調波構造性値 R ( i ) を加算し、 カウンタ C Hを 1 っィ ンク リ メ ン トする ( S 2 3 4 )。
次に、 調波構造性区間確定部 6 0 2は、 調波構造性値 R ( i ) が調波 構造性閾値 2よ り も大きいか否かを判断し ( S 2 3 6 )、 大きい場合には ( S 2 3 6で Y E S )、着目 しているフ レーム i を調波構造性を有する音 楽のフ レームであると仮判断する。 そして、 累積音楽調波構造性値 R M に調波構造性値 R ( i ) を加算し、 カウンタ C Mを 1 つイ ンク リ メ ン ト する ( S 2 3 6 )。 以上の処理をフ レーム F R Eからフ レーム F R Nまで 繰り返す ( S 2 3 0〜 S 2 3 8 )。
次に、 調波構造性区間確定部 6 0 2は、 フ レーム F R S 2 をフ レーム F R S と した後に、 着目 しているフ レーム i の調波構造性値 R ( i ) が 調波構造性閾値 1 よ リ も大きいか否かを判断し ( S 2 4 2 )、 大きい場合 にはフ レ一厶 F R S 2をフ レーム i とする ( S 2 4 4 )。 以上の処理をフ レーム F R Sからフ レーム F R Nまで繰り返す ( S 2 4 0〜 S 2 4 6 )。 次に、 調波構造性区間確定部 6 0 2は、 カウンタ C Nを 0にセッ ト し た後に、 着目 しているフ レーム i の調波構造性値 R ( i ) が調波構造性 閾値 1 以下であるか否かを判断し ( S 2 5 0 )、 調波構造性閾値 1 以下で ある場合には ( S 2 5 0で Y E S )、 フ レーム i を非調波構造性区間であ ると仮判断し、 カウンタ C Nを 1 つイ ンク リ メ ン トする ( S 2 5 2 )。 以 上の処理をフ レーム F R S 2からフ レーム F R Nまで繰り返す ( S 2 4 8〜 S 2 5 4 )。 以上の処理によ り、 調波構造性を有する区間、 音楽の調 波構造性を有する区間および非調波構造性区間が仮判断される。
次に、 調波構造性区間確定処理 (図 2 8の S 2 2 0、 S 2 2 6 ) につ いて詳細に説明する。 図 3 1 は、 調波構造性区間確定処理 (図 2 8の S 2 2 0、 S 2 2 6 ) の詳細なフローチャー トである。
調波構造性区間確定部 6 0 2は、 調波構造性を有するフ レーム数を示 したカウンタ C Hの値が調波構造性フ レーム長閾値 1 よ り大きく 、 かつ 累積調波構造性値 R Hが ( F R S— F R E ) X調波構造性閾値 3 よ り も 大きいか否かを判断する ( S 2 6 0 )。 上記条件を満たす場合には ( S 2 6 0で Y E S )、フ レーム F R Sからフ レーム F R Eまでを調波構造性フ レームであると判断する ( S 2 6 2 )。
調波構造性区間確定部 6 0 2は、 音楽調波構造性を有するフ レーム数 を示したカウンタ C Mの値が調波構造性フ レーム長閾値 2 よ り大きく 、 かつ累積音楽調波構造性値 R Mが ( F R S— F R E ) x調波構造性閾値 4よ りも大きいか否かを判断する ( S 2 6 4 )。 上記条件を満たす場合に は ( S 2 6 4で Y E S )、 フ レーム F R Sからフ レーム F R Eまでを音楽 調波構造性フ レームであると判断する ( S 2 6 6 )。
S 2 6 0の条件を満たさない場合 ( S 2 6 0で N O)、 または S 2 6 4 で N Oの場合、 音楽調波構造は有しないが、 調波構造を有するフ レーム であると判断できる。 このため、 フレーム F R Sからフ レーム F R Eま でを非調波構造性フ レームと判断し、 カウンタ C Hに 0 を代入し、 カウ ンタ C Nに C N + F R E— F R Sを代入する ( S 2 6 8 )。
フ レームワイズに調波性判断を行なう場合には調波構造性仮判定の判 断を用い、 よ り正確に調波性判断を行なう場合には調波構造性区間決定 の結果を用いることによ り、 場合によ り これらを切り替えて使用するな どの自由度の高い選択が可能である。
上述したような処理を行なう ことによ り、 調波構造性フ レームと、 音 楽調波構造性フ レームと、 非調波構造性フ レームと確定を行なう ことが できる。
以上説明したように、 本実施の形態によると、 入力される音声信号に 対し、 リアルタイムに調波構造性を有するか否かの判断を行なう ことが できる。 このため、 携帯電話などにおいて、 所定フ レーム遅れで非調波 性のノ イズを除去したりすることができる。 また、 音声と音楽とを見分 けることができるため、 携帯電話などを用いた通信において、 音声部分 と音楽部分とを異なる方法によリ符号化して通信を行なつたりすること ができる。
上述の実施の形態によると、 環境雑音下で発声を行なった場合であつ ても、 入力信号のレベル変動に依存せず、 精度よ く音声区間を決定する ことができる。 また、 突発雑音や周期性雑音の影響を取り除き、 精度良 く 音声区間を検出することができる。 さ らに、 リアルタイムで音声区間 を検出することができる。 さ らにまた、 調波構造が小さい子音部分をも 音声区間と して精度良く検出することができる。 また、 入力信号を周波 数変換したスぺク トル成分にローカ ツ トフィルタをかけることによ り、 スぺク トル包絡成分を除去することができる。
以上、 本発明に係る音声区間検出装置について実施の形態 1 ~ 5に基 づいて説明したが、 本発明はこれらの実施の形態に限定されるものでは ない。
( F F T部 2 0 0の変形例)
たとえば、 上述の実施の形態では、 音響特徴量と して F F Tパワース ぺク トル成分を用いる方法について述べたが、 F F Tスぺク トル成分そ のものや、 フ レーム単位での自己相関関数や、 時間軸上での線形予測残 差の F F Tパワースペク トル成分を用いてもよい。 また、 F F Tスぺク トルから F F Tパワースぺク トルを求める前に、 各スぺク トル成分を二 乗するなどの方法によ り、 極大値および極小値の差を拡大させ、 調波構 造を強調させてもよい。 さ らに、 F F Tスペク トルの対数を取り 、 F F Tパワースぺク トルを求める代わり に、 F F Tスぺク トルの平方根を求 め、 F F Tパワースペク トルと してもよい。 さ らにまた、 F F Tスぺク トル成分を求める前に、 時間軸データに対して、 フレームごとにハミ ン グ窓などの係数をかけてもよいし、 プリ エンファシス処理 ( 1 一 Z— 1 ) を行なう ことで、 高域強調を行ってもよい。 また、 音響特徴量と して線 スペク トル周波数 ( L S F) を用いてもよい。 また、 周波数変換演算と し て、 F F T に限 られる も のではな く 、 D F T (Discrete Fourier Transform)、 D C T (Discrete Co sine Transform)、 D S T (Discrete Sine Transform)を fflしゝて も しゝ。 (調波構造抽出部 2 0 1 の変形例)
また、 調波構造抽出部 2 0 1 によるスペク トル成分 S ( f ) に含まれ るフロア成分の除去処理 (図 3の S 2 6 ) の代わりに、 スペク トル成分 S ( f ) に口一カ ッ トフィルタ を通過させるよ うにしてもよい。 各フ レ ームのスぺク トル成分 S ( f )を周波数軸方向に並べた波形とみなすと、 スペク トル包絡成分は、 調波構造に比べゆっ く り した変動である。 この ため、 スペク トル成分に口一カ ッ トフィルタ をかけることによ り、 スぺ ク トル包絡成分を除去することができる。 この手法は時間軸上で口一力 ッ トフィルタ を用いて低周波数成分を取り除く ことに相当するが、 帯域 パワーやスぺク トル包絡などの情報と調音構造とを同時に評価すること ができる点において、 周波数軸上で処理する方法の方が好ましいといえ る。 ただし、 このようなローカッ トフィルタ を用いて算出されたスぺク トル成分は、 調音構造に起因する変動の他に、 非周期雑音や電子音など の単一周波数を有する音声以外の音を含んでいる可能性がある。しかし、 これらの音は、 有声評価部 2 1 0や音声区間決定部 2 0 5の処理によ り 除去される。
その他のフロア成分除去の方法と しては、 各スぺク トル成分のうち、 所定の基準値以下のスペク トル成分は利用しないようにする方法がある, 基準値の算出方法と しては、 全フ レームのスぺク トル成分の平均値を基 準値に用いる方法、一発声の持続時間よ り も十分に長い時間(たとえば、 5秒間) におけるスペク トル成分の平均値を基準値に用いる方法、 スぺ ク トル成分をいく つかの帯域に予め分割しておき、 帯域ごとにスぺク ト ル成分の平均値を求める基準値とする方法などがある。 特に、 静かな環 境からうるさい環境へ変化するなどの環境の変動がある場合には、 基準 値と して、 全フ レームのスペク トル成分の平均値を利用するよ り も、 現 在検出しよう と しているフ レームを含む数秒程度の区間のスぺク トル成 分の平均値を用いるのがよい。
(特徴量フ レーム間相関値算出部 2 0 3の変形例)
また、 特徴量フ レーム間相関値算出部 2 0 3は、 相関関数と して、 式 ( 3 ) の代わりに、 次式 ( 2 4 ) を用いて相関値 E 1 ( j ) を求めるよ うにしてもよい。 ここで、 式 ( 2 4 ) は、 P ( i - 1 ) および P ( i ) を 1 2 8次元べク トル空間中のべク トルとした場合の 2つのべク トル P ( ί — 1 ) および Ρ ( i ) がなす角の余弦を示している。 また、 特徴 量フ レーム間相関値算出部 2 0 3は、 相関値 E 1 ( j ) の代わりにフレ ーム j と 4フ レーム離れたフ レーム間相関値を特徴とさせて、 次式 ( 2 5 ) および ( 2 6 ) に従い相関値 E 2 ( j ) を求めるようにしてもよい し、 8 フ レーム離れたフ レーム間相関値を特徴と して、 次式 ( 2 フ) お よび ( 2 8 ) に従い相関値 E 3 ( j ) を求めるようにしてもよい。 この ように、 離れたフ レーム間で相関値を求めることにより、 突発的な環境 雑音に強い相関値を得ることができるという特徴がある。
さらに、 次式 ( 2 9 ) ~ ( 3 1 ) に従い、 相関値 E l ( j )、 相関値 E 2 ( j )、 相関値 E 3 ( j ) の大小関係に応じた相関値 E 4 ( j ) を求め るようにしてもよいし、 次式 ( 3 2 ) に従い相関値 E 1 ( j )、 相関値 E 2 ( j )、 相関値 E 3 ( j ) を加算した相関値 E 5 ( j ) を求めるように してもよいし、次式( 3 3 )に従い、相関値 E 1 ( 】 )、相関値巳 2 ( j )、 相関値 E 3 ( j ) のうちの最大値を相関値 E 6 ( j ) を求めるようにし てもよい。 xcorr(P(i-l),P(i)) =
|P^(i-i)||P(«i)|
ρ10-1)χρ1ϋ) + p2(j - 1) x p20) + ... + pl28Q - 1) pl28(j)
plO" - 1)2 + p2(j - 1)2 + ... + pl28(j - 1)1 ^pl Y + p2(j)2 + ... + pl28(j)2
- ( 2 4 ) z2(i) = max(xcorr(P(i - 4),P(i))) ( 2 5 )
Figure imgf000049_0001
z3(i) = max(xcorr(P(i - 8),P(i))) ( 2 7 )
Figure imgf000049_0002
E4{j) = zl① ( 2 9 ) if ( z3 ) > 0.5 ) E4(j) = E4(j) + zl(j)/Z3(j) - o o) if(z2G)>0.5) E4(j)=E4(j) + zl(j)/Z2(j) - ( 3 D E5(j) = El(j) + E2(j) + E3(j)
Figure imgf000049_0003
E6(j) = max(ElG),E2(j),E3(j))
= max(∑zl(i),∑z2(i), ∑z3(i)) ( 3 3 )
i=j-2 i=j-2 i=j-2
なお、 相関値は、 上述の E 1 ( j ) 〜 E 6 ( j ) の 6つに限定される わけではなく 、 これらの相関値を組み合わせて、 新たな相関値を算出す るよ うにしてもよい。 たとえば、 過去に推定された入力音響信号の S N Rから、 S N Rが小さい場合には、 相関値 E 1 ( j ) を使用し、 S N R が大きい場合には、 相関値 E 2 ( j ) または E 3 ( j ) を使用するよう にしてもよい。
(音声区間決定部 2 0 5の変形例) 図 6を用いて説明した音声区間決定部 20 5の処理は、 相関値による 有声区間決定処理 (S 4 2 ~ S 5 0 )、 有声区間の連結処理 ( S 5 2 ~ S
5 8 )、 および有声区間の持続時間による音声区間決定処理( S 6 0 ~ S
6 8 ) の 3つの処理に大きく分類されるが、 これら 3つの処理を図 6に 示される順序で実行する必要はなく、 他の順序で実行するようにしても よい。 また、 3つの処理のうち、 1 つまたは 2つの処理のみを実行する ようにしてもよい。 また、 図 6は、 一発声単位で処理を行なう例である が、 たとえば注目フレームごとに相関値による有声区間決定処理のみを 行なうことで、フレーム単位で音声区間を決定補正してもよい。さらに、 リアルタイム性が要求されることを想定して、 フレーム単位の相関値に よる音声区間を速報値と して出力しておき、 別途、 定期的に、 一発声等 長い単位で補正決定された音声区間を確定値と して出力することで、 リ アルタイム性にも、 検出区間性能にも対応可能な、 音声検出器と して作 用させてもよい。
(S N R推定部 2 06の変形例)
また、 S N R推定部 2 0 6は、 入力信号から直接 S N Rを推定するよ うにしてもよい。 たとえば、 差分処理部 204で算出された補正相関値 が正の部分を S (シグナル) 部分と し、 S.部分のパワーを求め、 補正相 関値が負の部分を N (ノイズ) 部分と し、 N部分のパワーを求め、 S N Rを求めるようにする。
(その他の変形例)
さらに、 上述の音声区間検出処理を前処理と し、 音声区間のみについ て音声認識を行なう音声認識装置に音声区間検出装置を使用してもよい また、 上述の音声区間検出処理を前処理と して、 音声区間のみについ て録音を行なう I C ( Integrated Ci rcuit) レコーダなどの音声録音装 置に音声区間検出装置を使用しても良い。 このように、 音声区間のみを 録音することにより、 〖 c レコーダの記憶領域を効率的に利用すること が可能となる。 再生時には、 音声区間のみを抽出し、 話速変換機能を用 いて、 効率的な再生も可能となる。
また、 音声区間以外の区間の入力信号をカツ 卜して雑音を抑制する雑 音抑制装置に音声認識装置を利用してもよい。
さ らにまた、 V T R ( V i deo Tape Reco r de r )等で撮影された映像から、 音声区間の映像を抽出するのに、 上述の音声区間検出処理を用いてもよ く、 映像を編集するォーサリングツールなどにも適用可能である。
また、 図 4 ( f ) に示されるパヮ一スペク トル成分 S ' ( f ) のうち、 調波構造が最もよく保たれている帯域を 1 つ以上抽出し、 その帯域のみ を用いて処理を行なうようにしてもよい。
また、 非音声区間を検出することにより、 非音声区間内でノイズの特 徴を学習し、 ノイズ除去のためのフィルタ リ ング係数、 ノイズ決定のパ ラメ一タ等を決めたりするようにしてもよい。 このようにすることによ リ、 ノイズ除去のための装置を作成することができる。
また、 上述した実施の形態における各種調波構造性値または各種相関 値と、 各種 *声区間決定方法との組み合わせは、 上述した実施の形態に 限定されない。 産業上の利用の可能性
本発明に係る音声区間検出装置は、 音声区間と雑音区間との精度よい 選別が可能となるため、 音声認識装置の前処理装置、 音声区間のみを録 音する I Cレコーダ、 音声区間と音楽区間とを異なる符号化方法で符号 化する通信装置等に有用である。

Claims

請 求 の 範 囲
1 . 入力音響信号から音声が含まれる区間を音声区間と して検出す る調波構造性音響信号区間検出方法であって、
前記入力音響信号に対し、 所定の時間で区切られたフ レーム単位で音 響特徴量を抽出する音響特徴量抽出ステップと、
前記音響特徴量の持続性を評価し、 評価結果に従って音声区間を決定 する区間決定ステップとを含み、
前記音響特徴量抽出ステップでは、 所定の時間で区切られたフ レーム 単位で前記入力音響信号を周波数変換し、 調波構造を尺度化した音響特 徴量を抽出し、
前記区間決定ステップでは、 前記音響特徴量の同一フ レーム内におけ る相関値または前記音響特徴量の異なるフレーム間における相関値に基 づいて、 音声区間を決定する
ことを特徴とする調波構造性音響信号区間検出方法。
2 . 前記音響特徴量抽出ステップでは、 さらに、 前記周波数変換の 結果より調波構造を強調し、 前記音響特徴量を抽出する
ことを特徴とする請求の範囲第 1 項に記載の調波構造性音響信号区間 検出方法。
3 . 前記音響特徴量抽出ステップでは、 さらに、 前記周波数変換の 結果より調波構造を抽出し、 当該調波構造を含む所定帯域の周波数変換 の結果を、 前記音響特徴量とする
ことを特徴とする請求の範囲第 2項に記載の調波構造性音響信号区間 検出方法。
4 . 前記音響特徴量抽出ステップでは、 さらに、 フレーム単位の周 波数変換の結果を所定の周波数帯域幅ごとに分割し、 同一フレーム内の 所定の周波数帯域間で、 前記周波数変換の結果の相関値を算出し、 算出 結果に基づいて前記音響特徴量を抽出する
ことを特徴とする請求の範囲第 1 項に記載の調波構造性音響信号区間 検出方法。
5 . 前記音響特徴量抽出ステップでは、 さらに、 フ レームごとに前 記相関値の最大値と最小値との差を求め、 当該差に基づいて、 前記音響 特徴量を抽出する
ことを特徴とする請求の範囲第 4項に記載の調波構造性音響信号区間 検出方法。
6 . 前記音響特徴量抽出ステップでは、 フ レーム単位の周波数変換 の結果を所定の周波数帯域幅ごとに分割し、 異なるフレーム間、 かつ所 定の周波数帯域間で、 前記周波数変換の結果の相関値を算出し、 算出結 果に基づいて前記音響特徴量を抽出する
ことを特徴とする請求の範囲第 1 項に記載の調波構造性音響信号区間 検出方法。
7 . 前記音響特徴量抽出ステップでは、 さらに、 フ レームごとに前 記相関値の最大値と最小値との差を求め、 前記差に基づいて、 前記音響 特徴量を抽出する
ことを特徴とする請求の範囲第 6項に記載の調波構造性音響信号区間 検出方法。
8 . 前記区間決定ステップでは、 異なるフレーム間における前記音 響特徴量の相関値に基づいて、 前記音響特徴量の持続性を評価し、 評価 結果に従って音声区間を決定する
ことを特徴とする請求の範囲第 1項に記載の調波構造性音響信号区間 検出方法。
9 . 前記区間決定ステップでは、 異なるフ レーム間における前記音 響特徴量の分散に基づいて、 前記音響特徴量の持続性を評価し、 評価結 果に従って音声区間を決定する
ことを特徴とする請求の範囲第 1項に記載の調波構造性音響信号区間 検出方法。
1 0 . 前記音響特徴量の持続性を評価する評価値を算出する評価ス 亍ップと、
前記評価値の時間的な連続性を評価し、 評価結果に従って音声区間を 決定する音声区間決定ステップとを含む
ことを特徴とする請求の範囲第 1 項に記載の調波構造性音響信号区間 検出方法。
1 1 . 前記区間決定ステップは、 さらに、
所定数のフレームにわたる、 音響特徴量抽出ステップにおいて算出さ れる音響特徴量または、 前記評価ステップにおいて算出される前記評価 値と、 第 1 の所定しきい値との比較に基づいて、 前記入力音響信号の音 声雑音比を推定するステップと、
推定された前記音声雑音比が第 2の所定しきい値以上の場合には、 前 記評価ステツプにおいて算出される前記評価値に基づいて前記音声区間 を決定するステップとを含み、
前記音声区間決定ステップでは、 前記音声雑音比が前記第 2の所定し きい値未満の場合に、 前記評価値の時間的な連続性を評価し、 評価結果 に従って前記音声区間を決定する
ことを特徴とする請求の範囲第 1 0項に記載の調波構造性音響信号区 間検出方法。
1 2 . 前記区間決定ステップは、
前記音響特徴量の持続性を評価する評価値を算出する評価ステップと 前記評価値の時間的な連続性を評価し、 評価結果に従って調波構造を 有するが音声ではない非音声調波構造区間を決定する非音声調波構造区 間決定ステップとを含む
こと を特徴とする請求の範囲第 1 項に記載の調波構造音響調波構造性 音響信号区間検出方法。
1 3 . 前記音響特徴量抽出ステップは、
所定の時間で区切られたフ レーム単位で、 前記入力音響信号を周波数 変換する周波数変換ステップと、
フ レーム単位の周波数変換の結果を所定の周波数帯域ごとに分割し、 同一フ レーム内の所定の周波数帯域間で、 前記周波数変換の結果の相関 値を算出する相関値算出ステップと、
同一フ レーム内における相関値の最大値または最小値をとる周波数帯 域の識別子を前記音響特徴量と して抽出する抽出ステップと を含む ことを特徴とする請求の範囲第 1 2項に記載の調波構造性音響信号区 間検出方法。
1 4 . 前記音響特徴量抽出ステップは、
所定の時間で区切られたフ レーム単位で、 前記入力音響信号を周波数 変換する周波数変換ステップと、
所定数離れたフ レーム間で前記周波数変換の結果の相関値を算出する 相関値算出ステップと、
所定数のフ レームごとに前記相関値の分散を算出することにより、 前 記調波構造を尺度化した音響特徴量を抽出する音響特徴量抽出ステップ とを含む
ことを特徴とする請求の範囲第 1項に記載の調波構造音響区間検出方 法。
1 5 . 前記区間決定ステップでは、 2種以上の異なる間隔のフ レー 厶間における複数の相関値に基づいて、 前記持続性を評価する
ことを特徴とする請求の範囲第 1 項に記載の調波構造性音響信号区間 検出方法。
1 6 . 前記区間決定ステップでは、 前記入力音響信号の音声雑音比 に基づいて、 前記 2種以上の異なる間隔のフ レーム間における相関値の いずれかを選択し、 選択された相関値に基づいて前記持続性を評価する ことを特徴とする請求の範囲第 1 5項に記載の調波構造性音響信号区 間検出方法。
1 7 . 前記区間決定ステップでは、 前記音響特徴量のフ レーム間に おける相関値と、 前記相関値を所定フ レーム数にわたり平均した平均値 との補正相関値に基づいて、 前記持続性を評価する
ことを特徴とする請求の範囲第 1 項に記載の調波構造性音響信号区間 検出方法。
1 8 . 前記音響特徴量抽出手段は、 所定の時間で区切られたフ レー ム単位で前記入力音響信号を周波数変換し、 調波構造を尺度化した音響 特徴量を抽出し、
前記区間決定手段は、 前記音響特徴量の同一フ レーム内における相関 値または前記音響特徴量の異なるフ レーム間における相関値に基づいて、 音声区間を決定する
ことを特徴とする請求の範囲第 2 8項に記載の調波構造性音響信号区 間検出装置。
1 9 . 入力音響信号に含まれる音声を認識する音声認識装置であつ て、
前記入力音響信号に対し、 所定の時間で区切られたフレーム単位で音 響特徴量を抽出する音響特徴量抽出手段と、
前記音響特徴量の持続性を評価し、 評価結果に従って音声区間を決定 する区間決定手段と、
前記区間決定手段で決定された音声区間において音声認識を行なう認 識手段とを備え、
前記音響特徴量抽出手段は、 所定の時間で区切られたフレーム単位で 前記入力音響信号を周波数変換し、 調波構造を尺度化した音響特徴量を 抽出し、
前記区間決定手段は、 前記音響特徴量の同一フ レーム内における相関 値または前記音響特徴量の異なるフ レーム間における相関値に基づいて 音声区間を決定する
ことを特徴とする音声認識装置。
2 0 . 入力音響信号に含まれる音声を録音する音声録音装置であつ て、
前記入力音響信号に対し、 所定の時間で区切られたフレーム単位で音 響特徴量を抽出する音響特徴量抽出手段と、
前記音響特徴量の持続性を評価し、 評価結果に従って音声区間を決定 する区間決定手段と、 、 前記区間決定手段で決定された音声区間における入力音響信号を録音 する録音手段とを備え、
前記音響特徴量抽出手段は、 所定の時間で区切られたフ レーム単位で 前記入力音響信号を周波数変換し、 調波構造を尺度化した音響特徴量を 抽 し、
前記区間決定手段は、 前記音響特徴量の同一フ レーム内における相関 値または前記音響特徴量の異なるフ レーム間における相関値に基づぃて , 音声区間を決定する
ことを特徴とする音声録音装置。
2 1 . 入力音響信号に対し、 所定の時間で区切られたフ レーム単位 で音響特徴量を抽出する音響特徴量抽出ステップと、
前記音響特徴量の持続性を評価し、 評価結果に従って音声区間を決定 する区間決定ステップとをコンピュータに実行させ、
前記音響特徴量抽出ステップでは、 所定の時間で区切られたフレーム 単位で前記入力音響信号を周波数変換し、 調波構造を尺度化した音響特 徴量を抽出し、
前記区間決定ステップでは、 前記音響特徴量の同一フ レーム内におけ る相関値または前記音響特徴量の異なるフ レーム間における相関値に基 づいて、 音声区間を決定する を特徴とするプログラム
PCT/JP2004/008051 2003-06-11 2004-06-03 音響区間検出方法および装置 WO2004111996A1 (ja)

Priority Applications (2)

Application Number Priority Date Filing Date Title
JP2005505039A JP3744934B2 (ja) 2003-06-11 2004-06-03 音響区間検出方法および装置
US10/542,931 US7567900B2 (en) 2003-06-11 2004-06-03 Harmonic structure based acoustic speech interval detection method and device

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
JP2003165946 2003-06-11
JP2003-165946 2003-06-11

Publications (1)

Publication Number Publication Date
WO2004111996A1 true WO2004111996A1 (ja) 2004-12-23

Family

ID=33549240

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/JP2004/008051 WO2004111996A1 (ja) 2003-06-11 2004-06-03 音響区間検出方法および装置

Country Status (3)

Country Link
US (1) US7567900B2 (ja)
JP (1) JP3744934B2 (ja)
WO (1) WO2004111996A1 (ja)

Cited By (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2006194959A (ja) * 2005-01-11 2006-07-27 Sony Corp 音声検出装置、自動撮像装置、および音声検出方法
JP2006301134A (ja) * 2005-04-19 2006-11-02 Hitachi Ltd 音楽検出装置、音楽検出方法及び録音再生装置
JP2007219188A (ja) * 2006-02-17 2007-08-30 Kyushu Univ 子音加工装置、音声情報伝達装置及び子音加工方法
JP2007285875A (ja) * 2006-04-17 2007-11-01 Nsk Ltd 異常診断装置及び異常診断方法
JP2008508564A (ja) * 2005-06-15 2008-03-21 キューエヌエックス ソフトウェア システムズ (ウェーブメイカーズ), インコーポレイテッド スピーチエンドポインタ
JP2009210593A (ja) * 2008-02-29 2009-09-17 Toshiba Corp 特徴量抽出装置、方法及びプログラム
WO2011024572A1 (ja) * 2009-08-28 2011-03-03 インターナショナル・ビジネス・マシーンズ・コーポレーション 音声特徴量抽出装置、音声特徴量抽出方法、及び音声特徴量抽出プログラム
JP2011145326A (ja) * 2010-01-12 2011-07-28 Yamaha Corp 信号処理装置
JP2015079122A (ja) * 2013-10-17 2015-04-23 ヤマハ株式会社 音響処理装置
US9460731B2 (en) 2010-08-04 2016-10-04 Fujitsu Limited Noise estimation apparatus, noise estimation method, and noise estimation program
WO2016208000A1 (ja) * 2015-06-24 2016-12-29 Pioneer DJ株式会社 表示制御装置、表示制御方法および表示制御プログラム
US10522170B2 (en) 2015-06-26 2019-12-31 Zte Corporation Voice activity modification frame acquiring method, and voice activity detection method and apparatus

Families Citing this family (41)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP3673507B2 (ja) * 2002-05-16 2005-07-20 独立行政法人科学技術振興機構 音声波形の特徴を高い信頼性で示す部分を決定するための装置およびプログラム、音声信号の特徴を高い信頼性で示す部分を決定するための装置およびプログラム、ならびに擬似音節核抽出装置およびプログラム
JP2006119723A (ja) * 2004-10-19 2006-05-11 Canon Inc 画像処理装置、画像処理方法
US7742111B2 (en) * 2005-05-06 2010-06-22 Mavs Lab. Inc. Highlight detecting circuit and related method for audio feature-based highlight segment detection
US8311819B2 (en) 2005-06-15 2012-11-13 Qnx Software Systems Limited System for detecting speech with background voice estimates and noise estimates
JP2007114413A (ja) * 2005-10-19 2007-05-10 Toshiba Corp 音声非音声判別装置、音声区間検出装置、音声非音声判別方法、音声区間検出方法、音声非音声判別プログラムおよび音声区間検出プログラム
KR100827153B1 (ko) * 2006-04-17 2008-05-02 삼성전자주식회사 음성 신호의 유성음화 비율 검출 장치 및 방법
US7809559B2 (en) * 2006-07-24 2010-10-05 Motorola, Inc. Method and apparatus for removing from an audio signal periodic noise pulses representable as signals combined by convolution
JP4827661B2 (ja) * 2006-08-30 2011-11-30 富士通株式会社 信号処理方法及び装置
JP4757158B2 (ja) * 2006-09-20 2011-08-24 富士通株式会社 音信号処理方法、音信号処理装置及びコンピュータプログラム
JP4282704B2 (ja) * 2006-09-27 2009-06-24 株式会社東芝 音声区間検出装置およびプログラム
KR100930584B1 (ko) * 2007-09-19 2009-12-09 한국전자통신연구원 인간 음성의 유성음 특징을 이용한 음성 판별 방법 및 장치
JP4950930B2 (ja) * 2008-04-03 2012-06-13 株式会社東芝 音声/非音声を判定する装置、方法およびプログラム
US8842843B2 (en) * 2008-11-27 2014-09-23 Nec Corporation Signal correction apparatus equipped with correction function estimation unit
WO2010061505A1 (ja) * 2008-11-27 2010-06-03 日本電気株式会社 発話音声検出装置
KR101022519B1 (ko) * 2009-04-17 2011-03-16 고려대학교 산학협력단 모음 특징을 이용한 음성구간 검출 시스템 및 방법과 이에 사용되는 음향 스펙트럼 유사도 측정 방법
EP2457504B1 (en) * 2009-07-24 2014-07-16 Fujitsu Limited Sleep apnea syndrome examination device and program
ES2371619B1 (es) * 2009-10-08 2012-08-08 Telefónica, S.A. Procedimiento de detección de segmentos de voz.
GB0919672D0 (en) * 2009-11-10 2009-12-23 Skype Ltd Noise suppression
KR101690252B1 (ko) * 2009-12-23 2016-12-27 삼성전자주식회사 신호 처리 방법 및 장치
EP2362375A1 (en) * 2010-02-26 2011-08-31 Fraunhofer-Gesellschaft zur Förderung der Angewandten Forschung e.V. Apparatus and method for modifying an audio signal using harmonic locking
JP5530812B2 (ja) 2010-06-04 2014-06-25 ニュアンス コミュニケーションズ,インコーポレイテッド 音声特徴量を出力するための音声信号処理システム、音声信号処理方法、及び音声信号処理プログラム
JP5605204B2 (ja) * 2010-12-15 2014-10-15 ソニー株式会社 呼吸信号処理装置およびその処理方法ならびにプログラム
KR101251373B1 (ko) 2011-10-27 2013-04-05 한국과학기술연구원 음원 분류 장치 및 그 방법
US20130282373A1 (en) * 2012-04-23 2013-10-24 Qualcomm Incorporated Systems and methods for audio signal processing
JP2014016423A (ja) * 2012-07-06 2014-01-30 Nippon Telegr & Teleph Corp <Ntt> 音楽検出通知装置、方法、及びプログラム
EP2985762A4 (en) * 2013-04-11 2016-11-23 Nec Corp SIGNAL PROCESSING DEVICE, SIGNAL PROCESSING METHOD, AND SIGNAL PROCESSING PROGRAM
US9484044B1 (en) 2013-07-17 2016-11-01 Knuedge Incorporated Voice enhancement and/or speech features extraction on noisy audio signals using successively refined transforms
US9530434B1 (en) * 2013-07-18 2016-12-27 Knuedge Incorporated Reducing octave errors during pitch determination for noisy audio signals
US9208794B1 (en) 2013-08-07 2015-12-08 The Intellisis Corporation Providing sound models of an input signal using continuous and/or linear fitting
US9224402B2 (en) * 2013-09-30 2015-12-29 International Business Machines Corporation Wideband speech parameterization for high quality synthesis, transformation and quantization
JP6160519B2 (ja) * 2014-03-07 2017-07-12 株式会社Jvcケンウッド 雑音低減装置
CN104934032B (zh) * 2014-03-17 2019-04-05 华为技术有限公司 根据频域能量对语音信号进行处理的方法和装置
US9830925B2 (en) * 2014-10-22 2017-11-28 GM Global Technology Operations LLC Selective noise suppression during automatic speech recognition
CN104409081B (zh) * 2014-11-25 2017-12-22 广州酷狗计算机科技有限公司 语音信号处理方法和装置
US9965685B2 (en) 2015-06-12 2018-05-08 Google Llc Method and system for detecting an audio event for smart home devices
JP6759927B2 (ja) * 2016-09-23 2020-09-23 富士通株式会社 発話評価装置、発話評価方法、および発話評価プログラム
CN108447472B (zh) * 2017-02-16 2022-04-05 腾讯科技(深圳)有限公司 语音唤醒方法及装置
CN109239456B (zh) * 2018-08-03 2020-12-25 福州大学 一种基于动态规划时间序列相似性算法的谐波溯源方法
CN109065051B (zh) * 2018-09-30 2021-04-09 珠海格力电器股份有限公司 一种语音识别处理方法及装置
CN111883182B (zh) * 2020-07-24 2024-03-19 平安科技(深圳)有限公司 人声检测方法、装置、设备及存储介质
CN112967738B (zh) * 2021-02-01 2024-06-14 腾讯音乐娱乐科技(深圳)有限公司 人声检测方法、装置及电子设备和计算机可读存储介质

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH09153769A (ja) * 1995-11-28 1997-06-10 Nippon Telegr & Teleph Corp <Ntt> 騒音抑圧装置
JPH11143460A (ja) * 1997-11-12 1999-05-28 Nippon Telegr & Teleph Corp <Ntt> 音楽演奏に含まれる旋律の分離方法、分離抽出方法および分離除去方法
JP2001222289A (ja) * 2000-02-08 2001-08-17 Yamaha Corp 音響信号分析方法及び装置並びに音声信号処理方法及び装置
JP2001236085A (ja) * 2000-02-25 2001-08-31 Matsushita Electric Ind Co Ltd 音声区間検出装置、定常雑音区間検出装置、非定常雑音区間検出装置、及び雑音区間検出装置
JP2002162982A (ja) * 2000-11-24 2002-06-07 Matsushita Electric Ind Co Ltd 有音無音判定装置及び有音無音判定方法

Family Cites Families (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US4277644A (en) * 1979-07-16 1981-07-07 Bell Telephone Laboratories, Incorporated Syntactic continuous speech recognizer
JPS5921039B2 (ja) * 1981-11-04 1984-05-17 日本電信電話株式会社 適応予測符号化方式
JPS60114900A (ja) 1983-11-25 1985-06-21 松下電器産業株式会社 有音・無音判定法
US4628529A (en) * 1985-07-01 1986-12-09 Motorola, Inc. Noise suppression system
JP3141450B2 (ja) * 1991-09-30 2001-03-05 ソニー株式会社 オーディオ信号処理方法
DE19538187A1 (de) * 1995-10-13 1997-04-17 Sel Alcatel Ag Verfahren und Schaltungsanordnung zur Detektion von Sprache eines fernen Sprechers in einem Fernsprechendgerät
US6058359A (en) * 1998-03-04 2000-05-02 Telefonaktiebolaget L M Ericsson Speech coding including soft adaptability feature
JP2000066691A (ja) 1998-08-21 2000-03-03 Kdd Corp オーディオ情報分類装置
JP3435357B2 (ja) 1998-09-07 2003-08-11 日本電信電話株式会社 収音方法、その装置及びプログラム記録媒体
US6272460B1 (en) * 1998-09-10 2001-08-07 Sony Corporation Method for implementing a speech verification system for use in a noisy environment
JP4438144B2 (ja) 1999-11-11 2010-03-24 ソニー株式会社 信号分類方法及び装置、記述子生成方法及び装置、信号検索方法及び装置
US6775629B2 (en) * 2001-06-12 2004-08-10 National Instruments Corporation System and method for estimating one or more tones in an input signal
JP3751001B2 (ja) * 2002-03-06 2006-03-01 株式会社東芝 オーディオ信号再生方法および再生装置

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH09153769A (ja) * 1995-11-28 1997-06-10 Nippon Telegr & Teleph Corp <Ntt> 騒音抑圧装置
JPH11143460A (ja) * 1997-11-12 1999-05-28 Nippon Telegr & Teleph Corp <Ntt> 音楽演奏に含まれる旋律の分離方法、分離抽出方法および分離除去方法
JP2001222289A (ja) * 2000-02-08 2001-08-17 Yamaha Corp 音響信号分析方法及び装置並びに音声信号処理方法及び装置
JP2001236085A (ja) * 2000-02-25 2001-08-31 Matsushita Electric Ind Co Ltd 音声区間検出装置、定常雑音区間検出装置、非定常雑音区間検出装置、及び雑音区間検出装置
JP2002162982A (ja) * 2000-11-24 2002-06-07 Matsushita Electric Ind Co Ltd 有音無音判定装置及び有音無音判定方法

Cited By (17)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2006194959A (ja) * 2005-01-11 2006-07-27 Sony Corp 音声検出装置、自動撮像装置、および音声検出方法
JP2006301134A (ja) * 2005-04-19 2006-11-02 Hitachi Ltd 音楽検出装置、音楽検出方法及び録音再生装置
JP2011107715A (ja) * 2005-06-15 2011-06-02 Qnx Software Systems (Wavemakers) Inc スピーチエンドポインタ
JP2008508564A (ja) * 2005-06-15 2008-03-21 キューエヌエックス ソフトウェア システムズ (ウェーブメイカーズ), インコーポレイテッド スピーチエンドポインタ
JP2007219188A (ja) * 2006-02-17 2007-08-30 Kyushu Univ 子音加工装置、音声情報伝達装置及び子音加工方法
JP2007285875A (ja) * 2006-04-17 2007-11-01 Nsk Ltd 異常診断装置及び異常診断方法
US8073686B2 (en) 2008-02-29 2011-12-06 Kabushiki Kaisha Toshiba Apparatus, method and computer program product for feature extraction
JP2009210593A (ja) * 2008-02-29 2009-09-17 Toshiba Corp 特徴量抽出装置、方法及びプログラム
JP4599420B2 (ja) * 2008-02-29 2010-12-15 株式会社東芝 特徴量抽出装置
GB2485926B (en) * 2009-08-28 2013-06-05 Ibm Speech feature extracting apparatus, speech feature extracting method, and speech feature extracting program
GB2485926A (en) * 2009-08-28 2012-05-30 Ibm Audio feature extracting apparatus, audio feature extracting method, and audio feature extracting program
WO2011024572A1 (ja) * 2009-08-28 2011-03-03 インターナショナル・ビジネス・マシーンズ・コーポレーション 音声特徴量抽出装置、音声特徴量抽出方法、及び音声特徴量抽出プログラム
JP2011145326A (ja) * 2010-01-12 2011-07-28 Yamaha Corp 信号処理装置
US9460731B2 (en) 2010-08-04 2016-10-04 Fujitsu Limited Noise estimation apparatus, noise estimation method, and noise estimation program
JP2015079122A (ja) * 2013-10-17 2015-04-23 ヤマハ株式会社 音響処理装置
WO2016208000A1 (ja) * 2015-06-24 2016-12-29 Pioneer DJ株式会社 表示制御装置、表示制御方法および表示制御プログラム
US10522170B2 (en) 2015-06-26 2019-12-31 Zte Corporation Voice activity modification frame acquiring method, and voice activity detection method and apparatus

Also Published As

Publication number Publication date
JP3744934B2 (ja) 2006-02-15
US7567900B2 (en) 2009-07-28
US20060053003A1 (en) 2006-03-09
JPWO2004111996A1 (ja) 2006-07-20

Similar Documents

Publication Publication Date Title
JP3744934B2 (ja) 音響区間検出方法および装置
Tan et al. rVAD: An unsupervised segment-based robust voice activity detection method
Graf et al. Features for voice activity detection: a comparative analysis
EP1083541B1 (en) A method and apparatus for speech detection
US9020816B2 (en) Hidden markov model for speech processing with training method
WO2011070972A1 (ja) 音声認識システム、音声認識方法および音声認識プログラム
JPH0990974A (ja) 信号処理方法
EP1569200A1 (en) Identification of the presence of speech in digital audio data
JP3451146B2 (ja) スペクトルサブトラクションを用いた雑音除去システムおよび方法
WO2007046267A1 (ja) 音声判別システム、音声判別方法及び音声判別用プログラム
JP3105465B2 (ja) 音声区間検出方法
Zhao et al. A processing method for pitch smoothing based on autocorrelation and cepstral F0 detection approaches
JPS60200300A (ja) 音声の始端・終端検出装置
JP2797861B2 (ja) 音声検出方法および音声検出装置
Sorin et al. The ETSI extended distributed speech recognition (DSR) standards: client side processing and tonal language recognition evaluation
JPS60114900A (ja) 有音・無音判定法
JP4576612B2 (ja) 音声認識方法および音声認識装置
Morales-Cordovilla et al. On the use of asymmetric windows for robust speech recognition
JP4325044B2 (ja) 音声認識システム
JP6599408B2 (ja) 音響信号処理装置、方法及びプログラム
RU2174714C2 (ru) Способ выделения основного тона
Amrous et al. Robust Arabic speech recognition in noisy environments using prosodic features and formant
JPH01255000A (ja) 音声認識システムに使用されるテンプレートに雑音を選択的に付加するための装置及び方法
Joseph et al. Indian accent detection using dynamic time warping
Lee et al. Objective pathological voice quality assessment based on HOS features

Legal Events

Date Code Title Description
WWE Wipo information: entry into national phase

Ref document number: 2005505039

Country of ref document: JP

AK Designated states

Kind code of ref document: A1

Designated state(s): AE AG AL AM AT AU AZ BA BB BG BR BW BY BZ CA CH CN CO CR CU CZ DE DK DM DZ EC EE EG ES FI GB GD GE GH GM HR HU ID IL IN IS JP KE KG KP KR KZ LC LK LR LS LT LU LV MA MD MG MK MN MW MX MZ NA NI NO NZ OM PG PH PL PT RO RU SC SD SE SG SK SL SY TJ TM TN TR TT TZ UA UG US UZ VC VN YU ZA ZM ZW

AL Designated countries for regional patents

Kind code of ref document: A1

Designated state(s): GM KE LS MW MZ NA SD SL SZ TZ UG ZM ZW AM AZ BY KG KZ MD RU TJ TM AT BE BG CH CY CZ DE DK EE ES FI FR GB GR HU IE IT LU MC NL PL PT RO SE SI SK TR BF BJ CF CG CI CM GA GN GQ GW ML MR NE SN TD TG

121 Ep: the epo has been informed by wipo that ep was designated in this application
ENP Entry into the national phase

Ref document number: 2006053003

Country of ref document: US

Kind code of ref document: A1

WWE Wipo information: entry into national phase

Ref document number: 10542931

Country of ref document: US

WWE Wipo information: entry into national phase

Ref document number: 20048085216

Country of ref document: CN

WWP Wipo information: published in national office

Ref document number: 10542931

Country of ref document: US

122 Ep: pct application non-entry in european phase