WO2006120829A1 - 混合音分離装置 - Google Patents

混合音分離装置 Download PDF

Info

Publication number
WO2006120829A1
WO2006120829A1 PCT/JP2006/307673 JP2006307673W WO2006120829A1 WO 2006120829 A1 WO2006120829 A1 WO 2006120829A1 JP 2006307673 W JP2006307673 W JP 2006307673W WO 2006120829 A1 WO2006120829 A1 WO 2006120829A1
Authority
WO
WIPO (PCT)
Prior art keywords
waveform
frequency
local
analysis
frequency information
Prior art date
Application number
PCT/JP2006/307673
Other languages
English (en)
French (fr)
Inventor
Shinichi Yoshizawa
Tetsu Suzuki
Yoshihisa Nakatoh
Original Assignee
Matsushita Electric Industrial Co., Ltd.
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Matsushita Electric Industrial Co., Ltd. filed Critical Matsushita Electric Industrial Co., Ltd.
Priority to DE602006018282T priority Critical patent/DE602006018282D1/de
Priority to EP06731620A priority patent/EP1881489B1/en
Priority to JP2006522162A priority patent/JP4041154B2/ja
Priority to US11/665,265 priority patent/US7974420B2/en
Publication of WO2006120829A1 publication Critical patent/WO2006120829A1/ja

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0272Voice signal separating
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/02Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
    • G10L19/0204Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders using subband decomposition

Definitions

  • the present invention relates to a mixed sound separation device that separates a desired sound from a mixed sound.
  • a mixed sound separation device as a device for separating a desired sound from a mixed sound.
  • frequency analysis is performed on the mixed sound, and a spectrogram is created with the vertical axis representing frequency and the horizontal axis representing time, and the intensity of power at each point is shown in shades.
  • a desired sound is separated from the mixed sound on the spectrogram.
  • Fourier transform is generally used as a method for converting speech power into a spectrogram, that is, a speech frequency analysis method. For this reason, the Fourier transform plays an important role in the mixed sound separation processing.
  • determining the time width of the analysis waveform is equivalent to determining the analysis frame width (time width) in Fourier transform.
  • frequency analysis may be performed by applying a window function with a value to the waveform to be analyzed that is not zero in the analysis target section (the time section in which the analysis waveform exists)!
  • FIG. 1 is a diagram for explaining a method of Fourier transform (discrete Fourier transform).
  • the analysis waveform and the analysis waveform shown in Fig. 1 (c) are Mutual
  • the correlation (convolution) Fig. 1 (b)
  • the frequency information amplitude spectrum and phase spectrum
  • the index k in Equation 1 is an index indicating the frequency to be analyzed.
  • frequency information at a plurality of frequencies to be analyzed is obtained simultaneously. The larger the index value, the higher the analysis result.
  • time resolution is the length of the time interval that is averaged when obtaining the cross-correlation (convolution) between the waveform to be analyzed and the analyzed waveform.
  • Frequency resolution means a frequency bandwidth through which a frequency component of a waveform to be analyzed passes, and the bandwidth exists around the frequency to be analyzed.
  • FIG. 2 is a diagram showing a relationship between an analysis waveform having a predetermined time width and a frequency characteristic when the waveform to be analyzed is subjected to frequency analysis using the analysis waveform.
  • Figure 2 shows the frequency characteristics when frequency analysis is performed using three types of time resolution. From the left column, the analysis has time resolution of one period, two periods, and three periods. This shows the relationship between the analysis waveform and frequency characteristics when frequency analysis is performed using the waveform.
  • the frequency resolution becomes coarse when frequency analysis is performed using the cosine waveform for one cycle as the analysis waveform, and the time resolution is constrained, and the cosine waveform for three cycles (one cycle) is obtained.
  • the frequency analysis is performed with the time resolution coarsened using the analysis waveform with a time width three times that of the cosine waveform of Fig. 2), it can be seen that the frequency resolution becomes more powerful.
  • the time resolution (the length of the time interval that is averaged when obtaining the cross-correlation between the analyzed waveform and the analyzed waveform) and the frequency resolution are in a trade-off relationship.
  • frequency analysis is performed using a cosine waveform having a time width determined from time resolution (spatial resolution) and frequency resolution (an analysis waveform having a zero value in time intervals other than the above time width). Is done.
  • FIG. 3 is a diagram for explaining cosine transform (discrete cosine transform).
  • cosine transform discrete cosine transform
  • a analysis waveform having a zero value in the time interval other than the above time width
  • 3 By obtaining the cross-correlation (convolution) between the analyzed waveform and the analyzed waveform shown in (c) (Fig. 3 (b)), Obtain wave number information (represented by combining amplitude spectrum and phase spectrum).
  • the index k in Equations 5 and 6 is an index indicating the frequency to be analyzed, and in the cosine transformation, frequency information at a plurality of frequencies to be analyzed is obtained simultaneously. The larger the index value, the higher the analysis result at the frequency.
  • the time resolution (the length of the time interval to be averaged when obtaining the cross-correlation between the analyzed waveform and the analyzed waveform), the frequency resolution, Both are automatically determined. This mechanism is the same as in the case of the Fourier transform (Fig.
  • Equation 5 performs frequency analysis using a cross-correlation (convolution) between the analyzed waveform in the form of integration and the analyzed waveform. become.
  • frequency analysis is performed using a wavelet basis function having a time width determined from time resolution (spatial resolution) and frequency resolution.
  • FIG. 4 is a diagram for explaining wavelet transform.
  • a wavelet basis function analysis waveform having a zero value in a time interval other than the above time range
  • an analysis waveform having a predetermined time width as shown in Fig. 4 (a) is used.
  • the cross-correlation convolution
  • the frequency information Obtain the amplitude spectrum and phase spectrum.
  • a is a wavelet basis function.
  • the time resolution (the length of the time interval to be averaged when obtaining the cross-correlation between the analyzed waveform and the analyzed waveform), the frequency resolution, Both are automatically determined.
  • This mechanism is the Fourier transform. The same as in the case of replacement (see Figure 2).
  • time resolution (or frequency resolution) can be set independently for each frequency to be analyzed.
  • all analyzed frequencies have the same time resolution (time width of the time window to be analyzed) and frequency resolution, and these cannot be set independently for each frequency to be analyzed.
  • the frequency resolution (or time resolution) is automatically determined by the time resolution (or frequency resolution).
  • wavelet transform using wavelet basis functions such as force debesy, Meyer, and Gabor described using a Mexican hat as a wavelet basis function.
  • Non-patent document 1 Hironobu Nakano, 2 others, "Signal processing and image processing by wavelet", 199 August 15, 1999, Kyoritsu Publishing Co., pp. 35-39, pp. 49- 52
  • Non-Patent Document 2 Seiichi Nakagawa, “Pattern Information Processing”, March 30, 1999, Maruzen Co., Ltd., pp. 14-19
  • the time resolution (the length of the time interval to be averaged when obtaining the cross-correlation between the analyzed waveform and the analyzed waveform) and the frequency resolution (around the analysis frequency through which the frequency component of the analyzed waveform passes) Frequency bandwidth) interfere with each other. Therefore, if the time width of the analysis waveform is shortened and the time resolution is increased, the frequency resolution becomes coarser, and if the time width of the analysis waveform is increased and the frequency resolution is increased, the time resolution becomes coarser. Therefore, there is a problem that time resolution and frequency resolution cannot be set independently.
  • the present invention has been made in view of such problems, and has a time resolution (the length of a time interval that is averaged when obtaining a cross-correlation between an analyzed waveform and an analyzed waveform).
  • the frequency resolution (frequency bandwidth around the analysis frequency through which the frequency component of the waveform to be analyzed passes) is set at the same time, and the mixing is performed based on the result as if frequency analysis was performed. High certain sound from the sound! It is an object to provide a mixed sound separation device that can be separated with high accuracy.
  • a mixed sound separation device is a mixed sound separation device that separates a specific sound from mixed sound composed of a plurality of sounds, and is a predetermined sound
  • a local frequency information creating means for obtaining a plurality of pieces of local frequency information corresponding to the local analysis waveform including at least one of the phase spectra
  • a specific sound frequency feature that performs pattern matching with a set of wave number information and extracts the plurality of sets of local frequency information based on the result of the pattern matching! / Comprising a Extraction unit, based on the set of the plurality of local frequency information extracted by the specific sound frequency feature extracting unit Te, and a sound signal generation means for generating a signal of the specific sound.
  • the time resolution and the frequency resolution can be set independently, and a plurality of sets of local frequency information each analyzed by a plurality of frequency resolutions (a plurality of time resolutions) are determined in advance.
  • a plurality of sets of local frequency information each analyzed by a plurality of frequency resolutions are determined in advance.
  • the above-described mixed sound separation device further includes, based on the predetermined frequency resolution, An analysis waveform time width determining means for determining the time width of the analysis waveform may be provided!
  • the analysis waveform includes a cosine waveform or a sine waveform
  • the analysis waveform time width determining unit is configured to determine whether the analysis waveform is a cosine waveform or an integer period based on the predetermined frequency resolution.
  • the time width of the analysis waveform is determined so as to include the analysis waveform of the sine waveform for an integer period.
  • the integer period is one period.
  • the above-described mixed sound separation device further includes frequency resolution input receiving means for receiving an input of frequency resolution, and the analysis waveform time width determining means is based on the input frequency resolution. The time width of the analysis waveform may be determined.
  • the frequency resolution can be controlled based on the properties of the waveform to be analyzed, the application specifications, and the like.
  • the mixed sound separation device described above further divides the analysis waveforms so as not to overlap in time based on the predetermined spatiotemporal resolution, and thereby the plurality of local analysis waveforms are divided. It is characterized by having an analysis waveform dividing means to create!
  • the analysis waveform dividing means may generate the plurality of local analysis waveforms by dividing the analysis waveform so as to have a plurality of spatiotemporal resolutions.
  • the mixed sound separation device described above further includes a spatiotemporal resolution input receiving unit that receives an input of a spatiotemporal resolution, and the analysis waveform dividing unit is based on the input spatiotemporal resolution.
  • the analysis waveform may be divided to create the plurality of local analysis waveforms. This makes it possible to control the frequency resolution based on the characteristics of the waveform to be analyzed, application specifications, and the like.
  • a frequency analysis device is a device that performs frequency analysis of a waveform to be analyzed using an analysis waveform for analyzing a predetermined frequency, and includes a part of the analysis waveform.
  • a plurality of local frequency information corresponding to the local analysis waveform including at least one of an amplitude spectrum and a phase spectrum at the predetermined frequency from the plurality of local analysis waveforms configured and having a predetermined spatiotemporal resolution and the waveform to be analyzed;
  • the local frequency information creation means to be obtained and the plurality of local frequency information obtained by the local frequency information creation means are used as a set, and the analysis target is analyzed at a predetermined frequency resolution from the set and the frequency information of the waveform to be analyzed.
  • an analyzed waveform frequency feature quantity extracting means for extracting a frequency feature quantity contained in the waveform.
  • FIG. 5 is a diagram illustrating the overall configuration of the present invention.
  • the time width of the analysis waveform is determined based on a predetermined frequency resolution as shown in FIG. 5 (a). That is, as shown in Fig. 5 (b), the cosine waveform for three cycles is used as the analysis waveform.
  • the frequency resolution it is necessary to set the frequency resolution to be fine, so the time width of the analysis waveform is set so that the frequency resolution is about 15 Hz.
  • the time resolution (the length of the time interval averaged when obtaining the cross-correlation between the analyzed waveform and the analyzed waveform) is The time resolution is determined by the time width of the analysis waveform, and the time resolution becomes the time width of the cosine waveform for three cycles, resulting in coarse time resolution.
  • the fine temporal structure of the waveform to be analyzed (change in frequency information at time intervals smaller than the time width of the cosine waveform for three cycles) cannot be expressed.
  • the analysis waveform is temporally divided based on a desired time resolution.
  • the analysis waveform is divided into time intervals smaller than the length of the fundamental waveform so that the structure of the fundamental waveform of speech can be seen.
  • the analysis waveform is divided into cosine waveforms for one period to create three local analysis waveforms.
  • the time resolution (the length of the time interval that is averaged when obtaining the cross-correlation between the waveform to be analyzed and the analyzed waveform) is the time width of the cosine waveform for one cycle, and the cosine waveform for three cycles. Compared to the time width of In other words, the time resolution is carefully set independently of the frequency resolution (however, the three local analysis waveforms are extracted from the same analysis waveform).
  • three local frequency information is obtained by performing frequency analysis using three local analysis waveforms.
  • the local frequency information is obtained by calculating the cross-correlation (convolution) between the waveform to be analyzed and the local analysis waveform by replacing the analysis waveform with the local analysis waveform in the conventional frequency analysis.
  • the frequency information obtained using the analysis waveform, which is a cosine waveform for three cycles, by the discrete cosine transform, which is the conventional technique, and the cosine waveform for three cycles in the present invention are temporally divided. Let us consider the relationship with the three pieces of local frequency information obtained using the local analysis waveforms. In the case of the example in FIG. 5, the frequency information obtained by the discrete cosine transform, which is the conventional technique, is expressed by Equation 11.
  • Equation 12 Equation 12, Equation 13, and Equation 14.
  • the frequency information obtained by the discrete cosine transform may be equivalent to the sum of the three local frequency information obtained by the present invention.
  • the three pieces of local frequency information obtained by the present invention include frequency information having the frequency resolution obtained by the discrete cosine transform. In other words, if three pieces of local frequency information are considered together, frequency information with fine frequency resolution can be obtained.
  • the time resolution (the length of the time period to be averaged when obtaining the cross-correlation between the analyzed waveform and the analyzed waveform) and It is possible to extract the frequency feature quantity contained in the waveform to be analyzed as if the frequency analysis was performed with both the power and the frequency resolution simultaneously.
  • an analyzed waveform with a time width equivalent to a cosine waveform for three periods is required to obtain three pieces of local frequency information. Therefore, the length of the time interval of the waveform to be analyzed necessary for frequency analysis is the same as the conventional analysis method.
  • FIG. 6 is a diagram illustrating an example in which frequency analysis is performed based on another frequency resolution.
  • the cosine waveform for 4 cycles is used as the analysis waveform.
  • the time resolution (the length of the time interval to be averaged when obtaining the cross-correlation between the analyzed waveform and the analyzed waveform) Becomes the time width of the cosine waveform for 4 cycles, and the time resolution becomes coarse. This makes it impossible to represent the detailed temporal structure of the waveform to be analyzed.
  • the analysis waveform is temporally divided based on a desired time resolution.
  • the analysis waveform is divided into cosine waveforms for two periods to create two local analysis waveforms.
  • the time resolution (the length of the time interval that is averaged when obtaining the cross-correlation between the waveform to be analyzed and the analyzed waveform) is the time width of the cosine waveform for two cycles, and is independent of the frequency resolution.
  • the power is set. (However, the two local analysis waveforms are waveforms in which the same analysis waveform force is also extracted.)
  • frequency analysis is performed using two local analysis waveforms to obtain two pieces of local frequency information.
  • the local frequency information is calculated using the conventional frequency.
  • the analysis waveform is replaced with the local analysis waveform, and the cross-correlation (convolution) between the analyzed waveform and the local analysis waveform is calculated.
  • the frequency information obtained using the analysis waveform, which is a cosine waveform for four cycles, and the cosine waveform for two cycles in the present invention by discrete cosine transform, which is a conventional technique, are obtained by dividing the frequency information.
  • the frequency information obtained by the discrete cosine transform, which is a conventional technique is expressed by Equation 17.
  • Equation 17 Also, the two pieces of local frequency information in the present invention are expressed by Equations 18 and 19.
  • the frequency information obtained by the discrete cosine transform may be equivalent to the sum of the two pieces of local frequency information obtained by the present invention.
  • the two pieces of local frequency information obtained in the present invention are obtained by discrete cosine transform. It can be seen that frequency information having a desired frequency resolution is included. In other words, if two pieces of local frequency information are considered together, frequency information with fine frequency resolution can be obtained.
  • Equation 20 there are a plurality of combinations of local frequency information values (Equations 18 and 19) in the frequency information values (Equation 17) by discrete cosine transform obtained with a desired frequency resolution.
  • Equation 21 there are combinations shown in Equation 21. That is, X
  • two pieces of local frequency information treated as a set of data can be used to resolve frequency information having a desired frequency resolution to a desired fine time resolution.
  • This is a dispersion representation of two local frequency information that has the ability to be added to the frequency information obtained by the conventional discrete cosine transform and further information related to changes in the temporal frequency structure. I know that there is.
  • the time resolution (the length of the time interval to be averaged when obtaining the cross-correlation between the analyzed waveform and the analyzed waveform) and It is possible to extract the frequency feature quantity contained in the waveform to be analyzed as if the frequency analysis was performed with both the power and the frequency resolution simultaneously.
  • an analyzed waveform with a time width equivalent to a cosine waveform for four periods is required to obtain two pieces of local frequency information. Therefore, the length of the time interval of the waveform to be analyzed necessary for frequency analysis is the same as the conventional analysis method.
  • FIG. 7 is a diagram showing an example of creating a local analysis waveform by temporally overlapping and dividing the analysis waveform.
  • Fig. 7 (a) is a diagram showing the frequency resolution in this example, which is the same as the frequency resolution shown in Fig. 6 (a).
  • Fig. 7 (b) The cosine waveform for the same four cycles is used as the analysis waveform.
  • the time resolution (the length of the time interval that is averaged when obtaining the cross-correlation between the analyzed waveform and the analyzed waveform) Becomes the time width of the cosine waveform for 4 cycles, and the time resolution becomes coarse. This makes it impossible to represent the detailed temporal structure of the waveform to be analyzed.
  • the analysis waveform is temporally divided based on a desired time resolution.
  • the analysis waveforms are divided into cosine waveforms for two periods while temporally overlapping to create three local analysis waveforms.
  • the time resolution (the length of the time interval that is averaged when obtaining the cross-correlation between the analyzed waveform and the analyzed waveform) here is the time width of the cosine waveform for two periods (however, Local analysis waveforms are waveforms extracted from the same analysis waveform.)
  • three local frequency information is obtained by performing frequency analysis using three local analysis waveforms.
  • the local frequency information is obtained by calculating the cross-correlation (convolution) between the waveform to be analyzed and the local analysis waveform by replacing the analysis waveform with the local analysis waveform in the conventional frequency analysis.
  • the frequency information obtained using the analysis waveform, which is a cosine waveform for four cycles, and the cosine waveform for two cycles in the present invention are obtained by discrete cosine transform, which is a conventional technique.
  • discrete cosine transform which is a conventional technique.
  • the sum of the three local frequency information gives an approximate value of twice the frequency information obtained by the discrete cosine transform.
  • the three pieces of local frequency information contain frequency information obtained with fine frequency resolution by discrete cosine transform.
  • FIG. 8 is a diagram illustrating an example in which frequency analysis is performed based on another time resolution.
  • Figure 8 (a) shows the frequency resolution in this example, which is the same as the frequency resolution shown in Figure 5 (a).
  • frequency analysis is performed with a finer time resolution than the example of Fig. 5 (the length of the time interval that is averaged when obtaining the cross-correlation between the analyzed waveform and the analyzed waveform).
  • the cosine waveform for the same three cycles as in Fig. 5 is used as the analysis waveform.
  • the time resolution becomes the time width of the cosine waveform for three periods, and the time resolution becomes coarse. Therefore, in the example of Fig. 8, as shown in Fig. 8 (c), the analysis waveform is divided into cosine waveforms for 0.5 cycles to create six local analysis waveforms.
  • the time resolution here is the time width of a cosine waveform for 0.5 period. Then, frequency analysis is performed using six local analysis waveforms to obtain six local frequency information.
  • the relationship between the frequency information obtained by the discrete cosine transform, which is the conventional technique, using the analysis waveform (cosine waveform for three cycles) and the six pieces of local frequency information in the present invention is considered.
  • the frequency information obtained by the discrete cosine transform is obtained from the sum of the six pieces of local frequency information.
  • the six pieces of local frequency information include frequency information obtained by discrete cosine transform obtained with a predetermined frequency resolution.
  • what handled six pieces of local frequency information as a set of data is distributed in a manner that uses frequency information with finer frequency resolution than local frequency information and six pieces of local frequency information with fine temporal resolution as components. It is apparent that this is the frequency information obtained by the conventional discrete cosine transform plus information on changes in the temporal frequency structure.
  • FIG. 9 is a diagram showing the relationship between frequency information based on a cosine waveform for one period and frequency information based on Fourier transform.
  • a cosine waveform for one period corresponding to the frequency to be analyzed is used as a local analysis waveform in the same manner as in the example of Fig. 5.
  • the frequency to be analyzed is expressed as fn when the fundamental frequency is fl as shown in Fig. 9 (c).
  • fn indicates a frequency n times fl. Then, as shown in Fig.
  • the frequency information of the Fourier transform is created by obtaining the sum of the local frequency information that falls within the time window in the Fourier transform, as in the example of Fig. 5. Can do.
  • the number of local frequency information entering the time window in the Fourier transform corresponds to one for the local frequency information corresponding to the frequency fl and to the frequency f2.
  • waveform information can be easily created from frequency information by inverse Fourier transform. This shows that the local frequency information in the present invention can be converted into waveform information.
  • the mixed sound can be subtracted from the mixed sound with a fine frequency resolution and a fine time resolution (the cross-correlation between the analyzed waveform and the analyzed waveform Clear by extracting the local frequency information of the sound extracted with high accuracy using a set of local frequency information for each frequency expressed by the length of the time interval to be averaged when obtaining) Can provide the user with the extracted sound (waveform information of the extracted sound).
  • the analysis time width (corresponding to the time width of the analysis waveform) determined based on the desired frequency resolution.
  • a plurality of analysis waveforms (corresponding to local analysis waveforms) respectively extracted from the same analysis waveform having the predetermined frequency are prepared so as to be within the analysis time width, and the plurality of analysis waveforms (local analysis waveforms) are prepared.
  • This method is characterized in that multiple frequency information (corresponding to local frequency information) is created using (analysis waveform), and these are treated as a set of data to analyze the frequency features of the analyzed waveform. It is.
  • the time resolution (the length of the time interval to be averaged when obtaining the cross-correlation between the analyzed waveform and the analyzed waveform) and the frequency resolution can be set independently.
  • a mixed sound separation device and a frequency analysis device that can perform frequency analysis as if the frequency analysis was performed with the power of both time resolution and frequency resolution at the same time are provided. It can be used as a basic technology in a wide range of fields such as speech recognition, sound recognition, character recognition, face recognition, and iris authentication, and its practical value is extremely high.
  • FIG. 1 is a diagram for explaining a conventional Fourier transform (discrete Fourier transform) method.
  • FIG. 2 is a diagram showing a relationship between an analysis waveform having a predetermined time width and a frequency characteristic when the analyzed waveform is subjected to frequency analysis using the analysis waveform.
  • FIG. 3 is a diagram for explaining cosine transform (discrete cosine transform), which is a conventional technique.
  • FIG. 4 is a diagram for explaining wavelet transform, which is a conventional technique.
  • FIG. 5 is a diagram for explaining the overall configuration of the present invention.
  • FIG. 6 is a diagram illustrating an example in which frequency analysis is performed based on another frequency resolution.
  • FIG. 7 is a diagram showing an example of creating a local analysis waveform by dividing the analysis waveform by overlapping in time.
  • FIG. 8 is a diagram illustrating an example in which frequency analysis is performed based on another time resolution.
  • FIG. 9 is a diagram showing the relationship between frequency information based on a cosine waveform for one period and frequency information based on Fourier transform.
  • FIG. 10 is a block diagram showing the overall configuration of the frequency analyzer according to the embodiment of the present invention.
  • FIG. 11 is a flowchart showing an operation procedure of the mixed sound separation system 100.
  • FIG. 12 shows an example of mixed sound S 100.
  • FIG. 13 shows an analysis waveform and local frequency information.
  • FIG. 14 is a diagram showing local frequency information obtained by experiments.
  • FIG. 15 is a diagram showing an example of a method for extracting the local frequency information of the extracted sound included in the mixed sound S100.
  • FIG. 16 is a diagram comparing the configuration of the conventional method and the method of the present invention for the extraction of frequency feature values!
  • FIG. 17 is a diagram showing a spatial image of local frequency information.
  • FIG. 18 is a diagram showing an example of the local frequency information of the extracted sound included in the mixed sound S100.
  • FIG. 19 is a block diagram showing another example of the overall configuration of the frequency analyzer according to the embodiment of the present invention.
  • FIG. 20 is a diagram for explaining the local frequency information DB created by the local frequency information creating unit.
  • FIG. 21 is a diagram for explaining the local frequency information DB created by the local frequency information creation unit.
  • FIG. 22 is a diagram showing an example of local frequency information DB.
  • FIG. 23 is a diagram showing an example of a frequency feature amount analysis method using the local frequency information DB.
  • FIG. 24 is a diagram showing an example of a frequency feature amount analysis method using the local frequency information DB.
  • FIG. 25 is a diagram for explaining the local frequency information DB created by the local frequency information creating unit.
  • FIG. 26 is a diagram showing an example of local frequency information DB.
  • FIG. 27 is a diagram showing an example of a frequency feature amount analysis method using the local frequency information DB.
  • FIG. 28 is a diagram showing an example of a frequency feature amount analysis method using the local frequency information DB.
  • FIG. 10 is a block diagram showing the overall configuration of the frequency analyzer according to the embodiment of the present invention.
  • the frequency analyzer according to the present invention is incorporated in a mixed sound separation system.
  • the case of separating the voice of one speaker from the mixed sound is analyzed by frequency analysis of the mixed sound composed of the voices of three speakers. An example will be described.
  • the mixed sound separation system 100 is a system that extracts the voice of one speaker from the mixed sound in which the voices of a plurality of speakers are mixed.
  • the microphone 101, the frequency analyzer 102, and the sound conversion unit 107 and a speaker 108 are provided.
  • the frequency analysis device 102 is a processing device that analyzes frequency components included in the mixed sound and extracts frequency feature amounts.
  • the analysis waveform time width determination unit 103, the analysis waveform division unit 104, and the local frequency information creation unit 105 And an analyzed waveform frequency feature quantity extraction unit 106.
  • Microphone 101 takes mixed sound S100 and outputs it to local frequency information creation section 105.
  • the analysis waveform time width determination unit 103 determines the time width of the analysis waveform corresponding to the frequency to be analyzed based on a predetermined frequency resolution.
  • the analysis waveform time division unit 104 is based on a predetermined time resolution (the length of the time interval that is averaged when obtaining the correlation between the waveform to be analyzed and the analysis waveform).
  • the analysis waveform S101 created by 103 is divided by allowing it to overlap in time, and a plurality of local analysis waveforms S102 are created.
  • the local frequency information creation unit 105 includes the local analysis waveform S102 including at least one of the amplitude spectrum and the phase spectrum with the predetermined time resolution. A plurality of local frequency information S103 corresponding to is obtained.
  • the analyzed waveform frequency feature quantity extraction unit 106 uses the plurality of pieces of local frequency information S103 as a group of data, so that the local frequency information of the extracted sound included in the mixed sound S100 can be obtained with the above frequency resolution. And the Fourier coefficient S104 of the extracted sound, which is one of the frequency features included in the mixed sound S100, is extracted by using the local frequency information of the extracted sound to create the Fourier coefficient S104 of the extracted sound. .
  • the sound converter 107 creates an extracted sound (extracted sound waveform) S 105 using the Fourier coefficient S104 of the extracted sound.
  • the speaker 108 outputs the extracted sound S105 to the user.
  • FIG. 11 is a flowchart showing an operation procedure of the mixed sound separation system 100.
  • the mixed sound S100 which also includes the voice power of three speakers, is taken into the local frequency information creation unit 105 of the frequency analyzer 102 (step 200 in FIG. 11).
  • Fig. 12 shows an example of the mixed sound S100.
  • FIG. 12 (a) shows the waveform of the mixed sound S100
  • FIG. 12 (b) shows the spectrum of the mixed sound S100 obtained by Fourier transform, which is a conventional technique.
  • speech can be expressed by repeating the basic waveform.
  • the amplitude of the basic waveform is not large for all times, but there is a time region close to zero.
  • the time resolution is reduced and analyzed, the characteristics of the basic waveform of the speech of three speakers in the mixed sound can be analyzed.
  • the mixed sound waveform in Fig. 12 (a) is displayed with coarse time resolution, so it is difficult to see the characteristics of the basic waveform of the speech of three people. This shows that it is important to improve the time resolution to separate mixed sounds.
  • the spectrogram based on the Fourier transform in Fig. 12 (b) the resolution of both the time resolution and the frequency resolution cannot be intensified at the same time during the Fourier transform. It is difficult to separate the spectral features of the speech.
  • the analysis waveform time width determination unit 103 determines the time width of the analysis waveform corresponding to the frequency to be analyzed based on a predetermined frequency resolution, and creates the analysis waveform S101 (Fig. 11). Step 201).
  • the time width of the analysis waveform S101 is set to the time width (a time window in the Fourier transform) for the fundamental frequency power ⁇ period.
  • 13 (a) and 13 (b) are diagrams for explaining frequency analysis using a cosine waveform
  • FIGS. 13 (c) and 13 (d) are diagrams for explaining frequency analysis using a sine waveform.
  • FIG. FIGS. 13 (a) and 13 (c) show analysis waveforms having the above-described analysis waveforms
  • FIGS. 13 (b) and 13 (d) show FIGS. 13 (a) and 13 (d). 13 shows local frequency information corresponding to the analysis waveforms shown in (c).
  • the analysis waveforms shown in Fig. 13 (a) and Fig. 13 (c) are obtained by combining both the solid and dashed waveforms. It is a waveform (a waveform with only a solid line represents one local analysis waveform).
  • an analysis waveform with the same time width is used for all frequencies to be analyzed.
  • the frequency to be analyzed is different, the number of periods included in the analysis waveform differs depending on the frequency to be analyzed. Specifically, as shown in Fig. 13 (a) and Fig.
  • the analysis waveform whose fundamental frequency fl is the analysis frequency is composed of cosine waveform and sine waveform force for one period, and the frequency to be analyzed
  • the analysis waveform of f2 which is twice the fundamental frequency fl, is composed of cosine waveform and sine waveform for two periods, and the analysis waveform of f3 whose analysis frequency is three times the fundamental waveform fl is cosine waveform and sine of three periods Consists of waveforms.
  • the frequency resolution of the analysis waveform before it is divided into local analysis waveforms is the same as that shown in Fig. 9 (c), and the frequency characteristics of the frequencies fl, f 2 and f 3 to be analyzed are such that the frequency characteristics are orthogonal. It becomes frequency resolution.
  • determining the time width of the analysis waveform is equivalent to determining the analysis frame width in the Fourier transform in a short time.
  • a window function may be applied to the waveform to be analyzed in the Fourier transform in a short time, but in this example, this is equivalent to a rectangular window having the same time width as the analysis waveform being applied to the waveform to be analyzed. It is.
  • frequency analysis may be performed by applying a window function having a non-zero value in the analysis target section (time section in which the analysis waveform exists) to the analyzed waveform.
  • the frequency analyzer 102 can further determine the frequency resolution based on the nature of the waveform S100 to be analyzed and the specifications of the application by further including a frequency resolution input receiving unit.
  • Such frequency resolution may be input from the outside. For example, it is possible to analyze the feature value of sudden sound with coarse frequency resolution (the number of local frequency information to be collected in the same time resolution is reduced), but for musical sounds, the frequency resolution should be sought. Therefore, it is necessary to analyze the features (the number of pieces of local frequency information to be collected in the same time resolution increases). Since the amount of calculation when extracting feature values differs depending on the number of data to be collected, the calculation cost can be reduced by controlling the frequency resolution to be analyzed according to the nature of the input waveform to be analyzed.
  • the analysis waveform dividing unit 104 divides the analysis waveform S101 created by the analysis waveform time width determination unit 103 based on a predetermined time resolution to allow time overlap, and divides a plurality of local waveforms.
  • An analysis waveform S102 is created (step 202 in FIG. 11).
  • the minutes For each frequency to be analyzed the analysis waveform S101 (waveform combining both solid and dashed lines) is divided into a cosine waveform and sine waveform for one period, and the local analysis waveform S102 (the solid line waveform is one local waveform). Create an analysis waveform). Specifically, as shown in FIGS.
  • the local analysis waveform whose analysis frequency is the fundamental frequency fl is the analysis waveform itself, and the analysis frequency is the fundamental frequency fl.
  • the local analysis waveform of f2 that is twice the frequency is composed of two local analysis waveforms consisting of a cosine waveform and a sine waveform force for the frequency of f2, and the frequency to be analyzed is three times the fundamental frequency fl
  • the local analysis waveform of f3 is composed of one period of cosine waveform with frequency of f3 and three local analysis waveforms composed of sine waveform force. Looking at each frequency to be analyzed, it is the same as the local analysis waveform shown in Fig. 5 (c).
  • the time resolution at this time (the length of the time interval that is averaged when obtaining the cross-correlation between the waveform to be analyzed and the analyzed waveform) is the time width of one cycle of the analyzed waveform of the frequency to be analyzed. This shows that the time resolution can be set independently of the frequency resolution.
  • the multiple local analysis waveforms are waveforms in which the same analysis waveform force is also extracted. In this example, the analysis waveform S101 is divided without overlapping in time. Create local analysis waveforms as shown in Fig. 6, Fig. 7 and Fig. 8.
  • the frequency analysis apparatus 102 further includes a spatiotemporal resolution input receiving unit, so that the time resolution can be determined based on the property of the waveform S100 to be analyzed and the specification of the application. Such time resolution may be input from the outside. For example, sudden sound needs to be analyzed with fine temporal resolution. When analyzing a mixed sound in which sudden sounds, voices, musical sounds, etc. appear alternately, it is possible to analyze with high accuracy by controlling the time resolution based on the input waveform to be analyzed.
  • the memory capacity for storing frequency information can also be reduced (the number of local frequency information to be stored can be reduced by coarsening the time resolution when fine time resolution is not required).
  • the local frequency information creation unit 105 performs the above predetermined time resolution (cross-correlation between the waveform to be analyzed and the analysis waveform) based on the cross-correlation (convolution) between the mixed sound S100 and the local analysis waveform S102.
  • Frequency information S 103 is obtained (step 203 in FIG. 11).
  • the local frequency information is obtained by changing the analysis waveform to the local analysis waveform according to the analysis method used in the Fourier transform (see Equation 11, Equation 12, Equation 13, and Equation 14). As shown in the example of Fig.
  • one local frequency information is two local frequencies when the frequency to be analyzed is f2, which is twice the basic frequency.
  • the frequency information to be analyzed is f3, which is three times the basic frequency
  • the frequency information is obtained in each of the analysis of the three local frequency information power cosine waveforms and sine waveforms (see also Fig. 5).
  • the amplitude spectrum and phase spectrum can be obtained. That is, in this example, the local frequency information is frequency information including both an amplitude spectrum and a phase spectrum.
  • Fig. 14 shows the mixed sound sampled at 16KHz, as shown in Fig. 14 (a), using the same cosine waveform for one period as the example in Fig. 5 as the local analysis waveform, as shown in Fig. 5.
  • the local frequency information is obtained for all sampling points while shifting the time for each sampling point.
  • Figure 14 (b) is a graph in which the local frequency information for all sampling points is arranged in time series when the frequency to be analyzed is ⁇ , with the horizontal axis representing time and the vertical axis representing power.
  • Figure 14 (b) shows three drafts when Japanese is spoken. From the top, local frequency information in the female Japanese “e” utterance, male “ It shows the local frequency information in the utterance of "N" and the local frequency information in the mixed sound.
  • Fig. 14 (c) is a graph in which local frequency information is arranged in time series at all sampling points when the frequency to be analyzed is 2KHz, and is different from the graph shown in Fig. 14 (b). Only the frequency to be analyzed is different.
  • the analyzed waveform frequency feature quantity extraction unit 106 uses the plurality of pieces of local frequency information S103 as a set of data, so that the local frequency of the extracted sound included in the mixed sound S100 can be obtained with the above frequency resolution. Extract the information and create the Fourier coefficient S104 of the extracted sound using the local frequency information of the extracted sound, and extract the Fourier coefficient S104 of the extracted sound, which is one of the frequency features included in the mixed sound S100. (Step 204 in Figure 11).
  • Fig. 15 shows an example of a method for extracting the local frequency information of the extracted sound included in the mixed sound S100.
  • FIG. 15A shows an example of the local analysis waveform S102.
  • FIG. 15 (b) is a diagram showing local frequency information for each of the fundamental frequency f1, the double frequency f2 of the fundamental frequency f1, and the triple frequency f3 of the fundamental frequency f1.
  • Fig. 15 (c) is a diagram showing a pattern of local frequency information for a group of sounds to be extracted. Here, two patterns of local frequency information for female speech are shown.
  • Fig. 15 (c) local frequency information (a collection of local frequency information in the Fourier transform time window) of a group of sounds to be extracted in advance is collected.
  • the local frequency information of the extracted sound included in the mixed sound S100 is extracted.
  • the female voice pattern is stored as described above.
  • the error distance (reciprocal of similarity) is minimized by comparing the local frequency information S103 of a group of the mixed sound S100 with the stored local frequency information (female voice pattern) of the group. If the stored voice pattern is selected and the error distance is equal to or less than a predetermined threshold value, the local frequency information of the mixed sound S100 is extracted. Also, if the error distance is larger than the threshold! /, The value of the local frequency information of the woman to be extracted (for example, indicated by Z in FIG. 18 described later) using the voice pattern with the smallest stored error distance. You can create a!! Specifically, the error distance is calculated using Equation 22.
  • the configuration of the conventional method and the method of the present invention will be compared using FIG.
  • the conventional method calculates the error distance for each local frequency information and selects the minimum pattern
  • the method of the present invention uses As shown in Fig. 16 (b), the error distance is calculated using a set of local frequency information as one pattern, and the maximum distance is calculated. A small pattern is selected. For this reason, it is the frequency information at the desired frequency resolution when the error distance of each local frequency information is reduced and multiple pieces of local frequency information are grouped together.
  • FIG. 17 is a diagram showing an image of the space of the local frequency information.
  • Equations 27 and 28 which are frequency information at the desired frequency resolution, indicate the values of intercepts with respect to each axis of the plane, and are pieces of local frequency information.
  • Equation 30 indicate the points on the plane represented by Equation 27 and the plane represented by Equation 28, respectively.
  • the distance between planes having a desired frequency resolution (the cut in FIG. 17).
  • the distance between the points on the plane that expresses the change in the frequency in a minute time interval on the plane with the desired frequency resolution (the point shown in Equation 29 and the equation 30)
  • the frequency feature amount is analyzed in consideration of the distance between the points indicated by (1).
  • the conventional method is to measure the distance between points on the plane!
  • a pattern was created by collecting a group of local frequency information of all the frequencies to be analyzed, but a female voice pattern is stored for each frequency to be analyzed and the frequency to be analyzed is stored.
  • the error distance may be calculated using a piece of local frequency information.
  • Frequency information at a desired frequency resolution when a plurality of pieces of local frequency information are grouped is calculated separately, and the frequency at the desired frequency resolution calculated together with the group of local frequency information is calculated.
  • the error distance may be calculated using the information explicitly.
  • the degree of similarity may be calculated using the ratio of each value of a group of local frequency information instead of Equation 22 as an evaluation formula for calculating the error distance.
  • the Fourier coefficient S 104 of the extracted sound is obtained using the local frequency information of the extracted extracted sound.
  • FIG. 18 (a) shows an example of the local frequency information of the extracted sound included in the mixed sound S100.
  • the Fourier coefficient (Y in Fig. 18) as shown in Fig. 18 (b) is obtained by calculating the sum of the local frequency information (Z in Fig. 18) within the time window in the Fourier transform.
  • the sound conversion unit 107 creates an extracted sound (extracted sound waveform) S105 using the Fourier coefficient S104 of the extracted sound (step 205 in FIG. 11).
  • the extracted sound S 105 is created by inverse Fourier transform.
  • the speaker 108 outputs the extracted sound S105 to the user (step 206 in FIG. 11).
  • time resolution and frequency resolution can be set independently, and by comparing multiple pieces of local frequency information that have been subjected to frequency analysis with multiple frequency resolutions (multiple time resolutions), the force can also be applied to the time resolution and frequency resolution. At the same time, it is possible to obtain results such as force analyzed with frequency. Therefore, it is possible to extract the sound to be extracted with high accuracy from the mixed sound.
  • the frequency analysis device may be incorporated into a force speech recognition system, a sound recognition system, a character recognition system, a face recognition system, or an iris authentication system incorporated in a mixed sound separation system! / .
  • the time waveform is the analyzed waveform.
  • the spatial waveform is the analyzed waveform, so "time resolution” corresponds to "spatial resolution”. Will do.
  • “temporal resolution” and “spatial resolution” are collectively referred to as “spatio-temporal resolution”. “Spatial resolution” refers to the size of the spatial region that is averaged when obtaining the cross-correlation (convolution) between the waveform to be analyzed and the analysis waveform.
  • Frequency analysis apparatus 102 can also be configured as follows.
  • the frequency analyzer 102A creates the local frequency information by creating the local frequency information and creating a database (database).
  • Two device forces can be configured: a frequency feature quantity analysis device 1001 that analyzes the frequency feature quantity S104 using the local frequency information DBS 1000 created by the device 1000.
  • the analysis waveform time width determination unit 103A is based on the finest frequency resolution that the frequency feature amount analysis device 1001 will use when analyzing the frequency feature amount S 104.
  • the analysis waveform S101 is created by determining the time width of the analysis waveform corresponding to the frequency to be analyzed. That is, the upper limit of the frequency resolution at which the frequency feature quantity analyzer 1001 can analyze the frequency feature quantity S104 is determined by the time width of the analysis waveform determined by the analysis waveform time width determination unit 103A.
  • the local frequency information creation unit 105A performs a predetermined time resolution (analyzed waveform) based on the cross-correlation (convolution) between the mixed sound S100 captured from the microphone 101 and the local analysis waveform S102. And obtaining a plurality of local frequency information S103 corresponding to the local analysis waveform S102 including at least one of the amplitude spectrum and the phase spectrum.
  • Local frequency consisting of at least (1) the analyzed frequency, (2) information on the shape of the local analysis waveform, and (3) the local frequency information S103 and the time of the analyzed waveform for which the corresponding local frequency information was obtained.
  • FIG. 20 (a) shows an example of the local frequency information DBS 1000.
  • the local frequency information DBS1000 has (1) the analyzed frequency is ⁇ , and (2) as the information on the local analysis waveform, the analysis of the cosine waveform force for five cycles that the local analysis waveforms do not overlap.
  • the information that the time resolution is lms (the length of one cycle of the analyzed frequency ⁇ , that is, the length of one cycle of the analyzed waveform) and (3) five pieces of local frequency information (five pieces) (A value equivalent to the discrete cosine transform coefficient in the local analysis waveform) and the time of the waveform to be analyzed for which the corresponding local frequency information was obtained.
  • FIG. 20 (b) and FIG. 20 (c) also show an image diagram for explanation.
  • the image shown in Fig. 20 (b) shows that there is no overlap between the local analysis waveforms.
  • FIG. 20 (c) shows that a group of five local frequency information pieces is obtained while shifting the waveform to be analyzed over time. This time shift interval (0.3 ms) can be set independently of the time interval (lms) of the five local analysis waveforms used to obtain the five pieces of local frequency information.
  • the frequency resolution when five pieces of local frequency information are collected is the finest frequency resolution that can be analyzed by the frequency feature quantity analyzer 1001.
  • FIG. 21 (a) shows another example of the local frequency information DBS 1000.
  • This example shows an example of the local frequency information DB obtained from a local analysis waveform with multiple time resolutions.
  • the analyzed frequency is 2KHz, and
  • Information about the local analysis waveform is not limited to 4 cosine waveform forces.
  • the local analysis waveform corresponding to the first cycle of the analysis waveform is 0.5 ms
  • the local analysis waveform corresponding to the second cycle of the analysis waveform is 0.5 ms
  • the third to fourth cycles of the analysis waveform Corresponding data that corresponds to 1.0 ms in the corresponding local analysis waveform and (3) three pieces of local frequency information (equivalent to the discrete cosine transform coefficients in the three local analysis waveforms) and the corresponding The time of the waveform to be analyzed for which local frequency information was obtained, and the like.
  • FIG. 21 (b) and FIG. 21 (c) an image diagram is also shown for explanation.
  • the image shown in Fig. 21 (b) shows that there is no overlap between the local analysis waveforms.
  • Fig. 21 (c) it can be seen that a group of three pieces of local frequency information is obtained while shifting the waveform to be analyzed over time. This time shift interval (0.3 ms) is independent of the time intervals (0.5 ms, 0.5 ms, 1.0 ms) of the three local analysis waveforms used to obtain the three pieces of local frequency information. Can be set.
  • the frequency resolution when the three pieces of local frequency information are collected is the finest frequency resolution that can be analyzed by the frequency feature analyzer 1001.
  • FIG. 22 shows another example of local frequency information DBS 1000.
  • the above-mentioned frequency information (refer to Equation 11, Equation 12, Equation 13, Equation 14, and Equation 15) is also added, which is the sum of the values of multiple pieces of local frequency information that are grouped together. It has been converted into a database.
  • the local frequency information DBS 1000 is created and stored.
  • the analyzed waveform frequency feature quantity extraction unit 106A includes a frequency resolution determination unit 1002.
  • Analyzed waveform frequency Feature quantity extraction unit 106A receives local frequency information DBS1000, and based on the frequency resolution determined by frequency resolution determination unit 1002, local frequency information DBS1000 holds (3) Multiple local frequencies The number of local frequency information to be handled as a set of data is determined from the time of the analyzed waveform for which the corresponding local frequency information is obtained.
  • the local frequency information DBS 1000 may be received using a communication channel, or may be acquired by a recording medium such as a memory force.
  • the frequency resolution determination unit 1002 may be omitted.
  • FIG. 23 shows an example of a frequency feature amount analysis method using the local frequency information DBS1000.
  • frequency feature quantities are analyzed using all (5) local frequency information enclosed in a circle in the figure as a set of data.
  • a specific analysis method of the frequency feature quantity using a piece of local frequency information is performed in the same manner as the analyzed waveform frequency feature quantity extraction unit 106 in FIG. In this example, the frequency resolution determining unit 1002 is not necessary.
  • FIG. 24 shows another example of the frequency feature amount analysis method using the local frequency information DBS1000.
  • the frequency resolution determination unit 1002 calculates the relationship between the number of local frequency information to be collected and the frequency resolution from the frequency ⁇ to be analyzed and the time resolution lms held in the local frequency information DBS1000. Based on the determined frequency resolution, frequency feature quantities are analyzed using the three pieces of local frequency information enclosed in a circle in the figure as a set of data. A specific analysis method of the frequency feature quantity using a piece of local frequency information is performed in the same manner as the analyzed waveform frequency feature quantity extraction unit 106 in FIG. As shown in the example of FIG. 24, by using a part of the local frequency information held in the local frequency information DB, it is possible to analyze the frequency feature quantity with a desired frequency resolution.
  • the frequency feature value may be analyzed using a piece of local frequency information at a time of 1.2 ms. In this case, the frequency feature amount is analyzed using a part of the local frequency information DBS1000.
  • the error function of Formula 22 is used in the operation of the analyzed waveform frequency feature quantity extraction unit 106 in FIG. Instead of using the frequency information of the local frequency information DBS1000 in Fig. 22, which is the frequency information at the desired frequency resolution when a plurality of pieces of local frequency information are collected as a group, using the following Equation 31. To calculate the error distance.
  • W is a weighting factor
  • the error distance may be calculated using the error function of Equation 31 by calculating the “frequency information” by calculating the sum of the values of the local frequency information.
  • local frequency information creation unit 105A local frequency information DBS 1000, frequency to be analyzed
  • Another example of the number feature quantity extraction unit 106A is shown.
  • the local frequency information creation unit 105A obtains a predetermined temporal resolution (correlation between the waveform to be analyzed and the analysis waveform) based on the correlation (convolution) between the mixed sound S100 and the local analysis waveform S102.
  • a predetermined temporal resolution correlation between the waveform to be analyzed and the analysis waveform
  • the correlation convolution
  • FIG. 25 (a) shows an example of the local frequency information DBS 1000.
  • the expression of (3) local frequency information S103 and the time of the analyzed waveform for which the corresponding local frequency information was obtained It is parallel to the direction. That is, the three local frequency information at time 1.0 ms are local frequency information at time 1.0 ms, local frequency information at time 2.0 ms, and local frequency information at time 3.0 ms, and five local frequency information at time 2.0 ms.
  • the frequency information is local frequency information at time 2.0 ms, local frequency information at time 3.0 ms, local frequency information at time 4.0 ms, local frequency information at time 5.0 ms, and local frequency information at time 6.0 ms.
  • the reason for this representation is 1.0 ms for one period of IKHz, which is the frequency to analyze the time resolution capability, and a set of local frequency information of a set of integers is temporally related to the waveform to be analyzed. This is because it is the same as the 1.0 ms interval for shifting to (see Fig. 25 (b) and Fig. 25 (c)).
  • the local frequency information of the second and subsequent periods at the previous time can be expressed by the local frequency information of the first period shifted in time.
  • (1) the analyzed frequency and (2) information on the shape of the local analysis waveform are the same as the example of the local frequency information DB in FIG.
  • FIG. 26 shows another example of local frequency information DB1000.
  • the analyzed frequency unlike the example of the local frequency information DB in Fig. 25, (1) the analyzed frequency, (2) information on the shape of the local analysis waveform, and (3) the local frequency, for a plurality of analyzed frequencies.
  • Information S103 and the time of the waveform to be analyzed for which the corresponding local frequency information is obtained are stored in a database.
  • the station Create a database of frequency information.
  • the local frequency information DBS 1000 is created and stored.
  • the analyzed waveform frequency feature quantity extraction unit 106 A includes a frequency resolution determination unit 1002.
  • the analyzed waveform frequency feature quantity extraction unit 106A receives the local frequency information DBS1000, and based on the frequency resolution determined by the frequency resolution determination unit 1002, the local frequency information DBS1000 holds (3) a plurality of local frequencies and The number of local frequency information to be handled as a set of data is determined from the time of the analyzed waveform for which the corresponding local frequency information was obtained.
  • Fig. 27 shows an example of a frequency feature amount analysis method using the local frequency information DBS1000.
  • the frequency resolution determination unit 1002 calculates the relationship between the frequency frequency resolution and the number of local frequency information to be collected from the frequency ⁇ to be analyzed and the time resolution lms stored in the local frequency information DB. Based on the determined frequency resolution, frequency feature values are analyzed using three pieces of local frequency information as a set of data.
  • the three pieces of local frequency information in this example are: time 0.0 ms, local frequency information at time 0.0 ms, local frequency information at time 1.0 ms, and local information at time 2.0 ms This is frequency information.
  • the local frequency information at time 2.0 ms, the local frequency information at time 3.0 ms, and the local frequency information at time 4.0 ms are enclosed in a broken-line circle in the figure.
  • a set of local frequency information is obtained every 1.0 ms between time shifts.
  • a specific analysis method of the frequency feature amount using a piece of local frequency information is performed in the same manner as the analyzed waveform frequency feature amount extraction unit 106 in FIG.
  • FIG. 28 shows an example of another analysis method of the frequency feature amount using the local frequency information DBS1000.
  • a group of local frequency information is obtained at time shift intervals of 3.0 ms (solid circles and dashed circles in the figure). This time shift interval may be 5.0 ms or 8.0 ms. In this way, the time shift interval can be set freely.
  • a specific analysis method of the frequency feature amount using the local frequency information of the cluster is performed in the same manner as the analyzed waveform frequency feature amount extraction unit 106 in FIG.
  • the frequency feature amount S104 is extracted.
  • Frequency feature analysis apparatus 1001 further includes a frequency resolution input receiving unit, so that the frequency resolution can be determined based on application specifications and the like. Such frequency resolution may be input from the outside.
  • the present invention can be used in systems such as a mixed sound separation system, a speech recognition system, a sound recognition system, a character recognition system, a face recognition system, and an iris authentication system.

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Quality & Reliability (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Measurement Of Mechanical Vibrations Or Ultrasonic Waves (AREA)

Abstract

 混合音(S100)中より特定の音を分離する混合音分離システム(100)は、所定の周波数を分析するための分析波形の一部を構成し所定の時空間分解能を有する複数の局所分析波形(S102)と混合音(S100)の波形である被分析波形とから、所定の周波数における振幅スペクトルおよび位相スペクトルの少なくとも一方を含む局所分析波形(S102)に対応する複数の局所周波数情報(S103)を求める局所周波数情報作成部(105)と、複数の局所周波数情報(S103)を組とし、当該組と予め定められた特定の音に対する周波数情報の組との間のパターンマッチングの結果に基づいて、複数の局所周波数情報(S103)の組を抽出する被分析波形周波数特徴量抽出部(106)と、被分析波形周波数特徴量抽出部(106)で抽出された複数の局所周波数情報(S103)の組に基づいて、特定の音の信号を作成する音信号作成手段とを備える。

Description

明 細 書
混合音分離装置
技術分野
[0001] 本発明は、混合音から所望の音を分離する混合音分離装置に関する。
背景技術
[0002] 混合音から所望の音を分離する装置として混合音分離装置がある。混合音分離処 理では、混合音を周波数分析することにより、縦軸を周波数、横軸を時間とし、それ ぞれの点におけるパワーの強弱を濃淡で示したスペクトログラムを作成する。また、当 該処理では、スペクトログラム上で、混合音から所望の音を分離する。このような処理 により音の分離性能が高くなる。このように音声力もスペクトログラムへの変換方法、 すなわち音声の周波数分析方法としては、フーリエ変換が一般的に用いられる。この ため、フーリエ変換は、混合音分離処理において、重要な役割を担っている。
[0003] 周波数分析を行うための従来技術としては、上述したフーリエ変換 (例えば、非特 許文献 1、非特許文献 2参照)の他に、コサイン変換 (例えば、非特許文献 2参照)お よびウェーブレット変換 (例えば、非特許文献 1参照)などが知られている。これらの従 来技術では、被分析波形と所定の時間幅をもつ分析波形との相互相関 (畳み込み) を用いて、周波数分析が行われる。
[0004] フーリエ変換では、時間分解能 (空間分解能)と周波数分解能とから決定された時 間幅をもつコサイン波形およびサイン波形 (上記時間幅以外の時間区間ではゼロの 値をもつ分析波形)を用いて周波数分析が行われる。
[0005] ここで、分析波形の時間幅を決めることは、フーリエ変換における分析フレーム幅( 時間幅)を決定することと等価である。また、被分析波形に、分析対象区間 (分析波 形が存在する時間区間)ではゼロでな!、値をもつ窓関数をかけて周波数分析を行う ことちある。
[0006] 図 1は、フーリエ変換 (離散フーリエ変換)の方法を説明する図である。図 1 (a)に示 すサンプリングポイントで Nポイントの時間幅をもつコサイン波形およびサイン波形で ある分析波形を用いて、数 1により、図 1 (c)に示す被分析波形と分析波形との相互 相関 (畳み込み)を求めることで (図 1 (b) )、被分析波形の周波数情報 (振幅スぺタト ルおよび位相スペクトル)を求める。ここで数 1のインデックス kは、分析する周波数を 示すインデックスであり、フーリエ変換では、複数の分析する周波数での周波数情報 を同時に求めることになる。インデックスの値が大きいほど高い周波数での分析結果 を示す。
[0007] [数 1]
Figure imgf000004_0001
1,2,..., ここで、
[0008] [数 2]
χη Ο = 1,2,.·"Λ
は、被分析波形をサンプリングした値であり、
[0009] [数 3]
Xk ( = 1,2"··, ) は、被分析波形の周波数情報であり、
[0010] 画
Figure imgf000004_0002
は、 Nポイントの時間幅をもつコサイン波形とサイン波形力 構成される値、すなわち 分析波形の値である。
[0011] フーリエ変換では、分析波形の時間幅の設定により、時間分解能と周波数分解能 との両方の値が自動的に決定される。ここでいう「時間分解能」とは、被分析波形と分 析波形との相互相関(畳み込み)を求めるときに平均化する時間区間の長さのことで ある。「周波数分解能」とは、被分析波形の周波数成分が通過する周波数帯域幅の ことであり、分析する周波数の周辺に当該帯域幅が存在する。
[0012] 図 2は、所定の時間幅をもつ分析波形と、被分析波形を上記分析波形により周波 数分析したときの周波数特性との関係を示した図である。図 2には、 3種類の時間分 解能を用いて周波数分析を行なった場合の周波数特性を示しており、左列より 1周 期分、 2周期分および 3周期分の時間分解能を持つ分析波形を用い周波数分析を 行なった場合の分析波形と周波数特性との関係を示している。
[0013] 図 2より、 1周期分のコサイン波形を分析波形に用いて時間分解能を細力べして周 波数分析を行なったときには周波数分解能が粗くなり、 3周期分のコサイン波形(1周 期分のコサイン波形と比較して時間幅が 3倍になったもの)を分析波形に用いて時間 分解能を粗くして周波数分析を行なったときには周波数分解能が細力べなることがわ かる。このように、従来技術では時間分解能 (被分析波形と分析波形との相互相関を 求めるときに平均化する時間区間の長さ)と周波数分解能とはトレードオフの関係に ある。
[0014] なお、連続値をもつ被分析波形におけるフーリエ変換の場合は、数 1にお 、て∑演 算の代わりに、積分の形をした被分析波形と分析波形との相互相関 (畳み込み)を用 いて周波数分析を行うことになる。
[0015] コサイン変換では、時間分解能 (空間分解能)と周波数分解能とから決定された時 間幅をもつコサイン波形 (上記時間幅以外の時間区間はゼロの値をもつ分析波形) を用いて周波数分析が行われて 、る。
[0016] 図 3は、コサイン変換 (離散コサイン変換)を説明する図である。図 3 (a)に示すサン プリングポイントで Nポイントの時間幅をもつコサイン波形 (上記時間幅以外の時間区 間ではゼロの値をもつ分析波形)を用いて、数 5、数 6により、図 3 (c)に示す被分析 波形と分析波形の相互相関 (畳み込み)を求めることで (図 3 (b) )、被分析波形の周 波数情報 (振幅スペクトルと位相スペクトルとを合わせて表現したもの)を求める。ここ で数 5、数 6のインデックス kは、分析する周波数を示すインデックスであり、コサイン 変換では、複数の分析する周波数での周波数情報を同時に求めることになる。イン デッタスの値が大き 、ほど高 、周波数での分析結果を示す。
[0017] [数 5]
V η Λ _ ¾Γ
Xi (
Figure imgf000006_0001
[0018] [数 6]
Figure imgf000006_0002
ここで、
[0019] [数 7]
は、被分析波形をサンプリングした値であり、
[0020] [数 8]
Xk ( = 1,2 ."A
は、被分析波形の周波数情報である。
[0021] コサイン変換では、分析波形の時間幅の設定により、時間分解能 (被分析波形と分 析波形との相互相関を求めるときに平均化する時間区間の長さ)と周波数分解能と の両方が自動的に決定される。この仕組みは、フーリエ変換の場合と同様である(図
2を参照)。
[0022] なお、連続値をもつ被分析波形におけるコサイン変換の場合は、数 5は、積分の形 をした被分析波形と分析波形との相互相関 (畳み込み)を用いて周波数分析を行うこ とになる。
[0023] ウエーブレット変換では、時間分解能 (空間分解能)と周波数分解能とから決定され た時間幅をもつウェーブレット基底関数を用いて周波数分析が行われている。
[0024] 図 4は、ウェーブレット変換を説明する図である。図 4において、図 4 (a)に示すよう な所定の時間幅をもつ分析波形であるウェーブレット基底関数 (上記時間幅以外の 時間区間ではゼロの値をもつ分析波形)を用いて、図 4 (b)に示す式、すなわち数 9 により、図 4 (c)に示す被分析波形と図 4 (a)に示す分析波形の相互相関 (畳み込み) を計算することにより、被分析波形の周波数情報 (振幅スペクトルおよび位相スぺタト ノレ)を求める。
[0025] [数 9]
(W x)(b,a) =了
Figure imgf000007_0001
ここで、 Xは、被分析波形であり、
[0026] [数 10] - b.
ψ{—— )
a は、ウェーブレット基底関数である。
[0027] ウェーブレット変換では、ウェーブレット基底関数の時間幅を決定することにより、時 間分解能 (被分析波形と分析波形との相互相関を求めるときに平均化する時間区間 の長さ)と周波数分解能との両方が自動的に決定される。この仕組みは、フーリエ変 換の場合と同様である(図 2を参照)。
[0028] なお、ウェーブレット変換では、分析する周波数ごとに、独立に、時間分解能 (また は周波数分解能)を設定することができる。一方、フーリエ変換では、全ての分析す る周波数は、同じ時間分解能 (分析する時間窓の時間幅)および周波数分解能をも つことになり、分析する周波数ごとにこれらを独立に設定することはできない。ただし 、ウェーブレット変換でも、時間分解能 (または周波数分解能)により周波数分解能( または時間分解能)が自動的に決定されることは同じである。
[0029] なお、ここではウェーブレット基底関数としてメキシカンハットを用いて説明した力 ド ベシィ、メイエ、ガボールなどのウェーブレット基底関数を用いたウェーブレット変換も ある。
非特許文献 1 :中野宏毅、外 2名、 "ウェーブレットによる信号処理と画像処理"、 199 9年 8月 15日、共立出版株式会社、 pp. 35— 39、 pp. 49- 52
非特許文献 2 :中川聖一、 "パターン情報処理"、平成 11年 3月 30日、丸善株式会社 、 pp. 14- 19
発明の開示
発明が解決しょうとする課題
[0030] 従来技術では、時間分解能 (被分析波形と分析波形との相互相関を求めるときに 平均化する時間区間の長さ)と周波数分解能 (被分析波形の周波数成分が通過する 分析周波数の周辺の周波数帯域幅)とは、互いに干渉する。このため、分析波形の 時間幅を短くして時間分解能を細力べすると周波数分解能が粗くなり、分析波形の時 間幅を長くして周波数分解能を細力べすると時間分解能が粗くなる。そのため、時間 分解能と周波数分解能とを独立に設定することができないという課題がある。
[0031] 例えば、混合音分離システムにおいて、突発音と楽音とから構成される混合音から 楽音を抽出するには、突発音の分析として時間分解能を細力べして微小時間での波 形の変化を分析する必要があり、楽音の分析として周波数分解能を細力べして微小 周波数帯域での周波数の変化を分析する必要がある。このため、両者が混合した時 間'周波数領域に対しては、時間分解能 (被分析波形と分析波形との相互相関を求 めるときに平均化する時間区間の長さ)と周波数分解能 (被分析波形の周波数成分 が通過する分析周波数の周辺の周波数帯域幅)とを同時に細力べする必要があるが 、トレードオフの関係にある両者を同時に細力べ設定することは従来技術ではできな い。このため、混合音の中から高い精度で抽出したい音を抽出することができない。
[0032] そこで、本発明は、このような問題点に鑑みてなされたものであり、時間分解能 (被 分析波形と分析波形との相互相関を求めるときに平均化する時間区間の長さ)と周 波数分解能 (被分析波形の周波数成分が通過する分析周波数の周辺の周波数帯 域幅)とをあた力も同時に細力べ設定して周波数分析を行なったかのような結果に基 づ ヽて、混合音から特定の音を高!ヽ精度で分離することができる混合音分離装置等 を提供することを目的とする。
課題を解決するための手段
[0033] 上記目的を達成するために、本発明のある局面に係る混合音分離装置は、複数の 音から構成される混合音中より特定の音を分離する混合音分離装置であって、所定 の周波数を分析するための分析波形の一部を構成し所定の時空間分解能を有する 複数の局所分析波形と前記混合音の波形である被分析波形とから、前記所定の周 波数における振幅スペクトルおよび位相スペクトルの少なくとも一方を含む前記局所 分析波形に対応する複数の局所周波数情報を求める局所周波数情報作成手段と、 前記複数の局所周波数情報を組とし、当該組と予め定められた特定の音に対する周 波数情報の組との間のパターンマッチングを行な 、、当該パターンマッチングの結果 に基づ!/、て、前記複数の局所周波数情報の組を抽出する特定音周波数特徴量抽 出手段と、前記特定音周波数特徴量抽出手段で抽出された前記複数の局所周波数 情報の組に基づ 、て、前記特定の音の信号を作成する音信号作成手段とを備える。
[0034] これによつて、時間分解能と周波数分解能を独立に設定することができ、複数の周 波数分解能 (複数の時間分解能)でそれぞれ周波数分析された複数の局所周波数 情報の組と、予め定められた特定の音に対する周波数情報の組とを比較することに より、あた力も時間分解能と周波数分解能を同時に細力べして周波数分析したかのよ うな結果を得ることができる。このため、混合音の中から高い精度で抽出したい音を 取り出すことができる。
[0035] また、上述の混合音分離装置は、さらに、前記所定の周波数分解能に基づいて、 前記分析波形の時間幅を決定する分析波形時間幅決定手段を備えて!/ヽてもよ ヽ。
[0036] 好ましくは、前記分析波形は、コサイン波形またはサイン波形を含み、前記分析波 形時間幅決定手段は、前記所定の周波数分解能に基づいて、前記分析波形が整 数周期分のコサイン波形または整数周期分のサイン波形の分析波形を含むように前 記分析波形の時間幅を決定することを特徴とする。
[0037] これによつて、被分析波形を分析するための周波数帯域通過フィルタの設計が容 易になる。
[0038] さらに好ましくは、前記整数周期は、 1周期であることを特徴とする。
[0039] これによつて、細かい時間分解能で周波数分析できる。
[0040] また、上述の混合音分離装置は、さらに、周波数分解能の入力を受付ける周波数 分解能入力受付手段を備え、前記分析波形時間幅決定手段は、入力された前記周 波数分解能に基づ ヽて、前記分析波形の時間幅を決定することを特徴として ヽても よい。
[0041] これによつて、被分析波形の性質やアプリケーションの仕様などに基づいて、周波 数分解能を制御することができる。
[0042] また、上述の混合音分離装置は、さらに、前記所定の時空間分解能に基づいて、 前記分析波形を、時間的に重なることのないように分割して、前記複数の局所分析 波形を作成する分析波形分割手段を備えることを特徴として!ヽてもよ ヽ。
[0043] これによつて、被分析波形を分析するための周波数帯域通過フィルタの設計が容 易になる。
[0044] また、前記分析波形分割手段は、複数の時空間分解能を有するように前記分析波 形を分割して、前記複数の局所分析波形を作成することを特徴として ヽてもよ ヽ。
[0045] これによつて、被分析波形の時間的性質に対応した複数の時間分解能を設定する ことができる。
[0046] また、上述の混合音分離装置は、さらに、時空間分解能の入力を受付ける時空間 分解能入力受付手段を備え、前記分析波形分割手段は、入力された前記時空間分 解能に基づいて、前記分析波形を分割して、前記複数の局所分析波形を作成する ことを特徴としていてもよい。 [0047] これによつて、被分析波形の性質やアプリケーションの仕様などに基づいて、周波 数分解能を制御することができる。
[0048] 本発明の他の局面に係る周波数分析装置は、所定の周波数を分析するための分 析波形を用いて、被分析波形を周波数分析する装置であって、前記分析波形の一 部を構成し所定の時空間分解能を有する複数の局所分析波形と前記被分析波形と から、前記所定の周波数における振幅スペクトルおよび位相スペクトルの少なくとも 一方を含む前記局所分析波形に対応する複数の局所周波数情報を求める局所周 波数情報作成手段と、前記局所周波数情報作成手段で求められた前記複数の局所 周波数情報を組とし、当該組と前記被分析波形の周波数情報とから、所定の周波数 分解能で前記被分析波形に含まれる周波数特徴量を抽出する被分析波形周波数 特徴量抽出手段とを備えることを特徴とする。
[0049] 図 5〜図 9を用いて、本発明のポイントを説明する。
[0050] 図 5は、本発明の全体構成を説明する図である。図 5の例では、図 5 (a)に示すよう な所定の周波数分解能に基づいて分析波形の時間幅を決定している。すなわち、 図 5 (b)に示すように 3周期分のコサイン波形を分析波形としている。例えば、 3人の 音声から構成される混合音を分離する場合には周波数分解能を細かくする設定する 必要があるため、周波数分解能が約 15Hzになるように分析波形の時間幅を設定す る。
[0051] ここで、従来技術である離散コサイン変換を用いて周波数分析を行った場合、時間 分解能 (被分析波形と分析波形との相互相関を求めるときに平均化する時間区間の 長さ)は分析波形の時間幅により決定され、時間分解能は 3周期分のコサイン波形の 時間幅となり、時間分解能は粗くなつてしまう。そのため、被分析波形の細かい時間 的な構造 (3周期分のコサイン波形の時間幅よりも細かい時間間隔での周波数情報 の変化)が表現できなくなってしまう。
[0052] そこで、本発明では、所望の時間分解能に基づいて分析波形を時間的に分割する 。例えば、音声を分析する場合には、音声の基本波形の構造が見えるように基本波 形の長さよりも細かい時間間隔に分析波形を分割する。図 5の例では、図 5 (c)に示 すように分析波形を 1周期分のコサイン波形に分割して、 3個の局所分析波形を作成 する。ここでの時間分解能 (被分析波形と分析波形との相互相関を求めるときに平均 化する時間区間の長さ)は、 1周期分のコサイン波形の時間幅であり、 3周期分のコ サイン波形の時間幅と比べて細力べなっている。すなわち、時間分解能は、周波数分 解能とは独立に細力べ設定されている (ただし、 3個の局所分析波形は、同一の分析 波形からそれぞれ抽出された波形である。 )
[0053] 次に、図 5 (c)に示すように 3個の局所分析波形を用いて周波数分析を行うことで、 3個の局所周波数情報を求める。局所周波数情報の求め方は、従来技術での周波 数分析において、分析波形を局所分析波形に置き換えて、被分析波形と局所分析 波形との相互相関(畳み込み)を計算することで求める。
[0054] ここで、従来技術である離散コサイン変換により、 3周期分のコサイン波形である分 析波形を用いて求めた周波数情報と、本発明において、 3周期分のコサイン波形を 時間的に分割した局所分析波形を用いて求めた 3個の局所周波数情報との関係を 考える。図 5の例の場合、従来技術である離散コサイン変換により求めた周波数情報 は、数 11により表現される。
[0055] [数 11]
ΛΓ 3周期分の終わり 、ム n— l) kf
X r = / x„c,'
ブ _^ί7=始め " ks cos 2N ―
[0056] また、本発明における 3個の局所周波数情報は、数 12、数 13、数 14により表現さ れる。
[0057] [数 12]
cos ―
Figure imgf000012_0001
[0058] [数 13] 2 — γ2周期分の終わり (2n— l)7ikf
f ~ム" =2周期分の始め " / C0S ^
[0059] [数 14]
3周期分の終わり 2n— V) k f
X ,, COS
3周期分の始め 《 2N
[0060] 局所分析波形の作成方法を考えると、数 15に示すように、離散コサイン変換で求 めた周波数情報は、本発明で求めた 3個の局所周波数情報の総和と等価であること がわカゝる。
[0061] [数 15]
Figure imgf000013_0001
[0062] このことから、本発明で求めた 3個の局所周波数情報には、離散コサイン変換で求 めた周波数分解能をもつ周波数情報が含まれていることがわかる。すなわち、局所 周波数情報を 3個合わせて考えると、細かい周波数分解能をもつ周波数情報が得ら れることがゎカゝる。
[0063] また、数 15より、所望の周波数分解能で求めた離散コサイン変換による周波数情 報の値 (数 11)において、局所周波数情報の値 (数 12、数 13、数 14)の組み合わせ が複数存在することがわかる。例えば、数 16に示す組み合わせが存在する。すなわ ち、 X=5となる (X1, X2, X 3)の組み合わせの一例としてとして、(X1, X2, X3) = ( f f f f f f f
1, 2, 2)が考えられる。それ以外にも (X1, X2, X3) = (2, 1, 2)などが考えられる。
f f f
[0064] [数 16]
( , = 5) = ( }+X^+ 3, =1 + 2 + 2 = 2 + 1 + 2 = 1 + 0 + 3 = 0 + 5 + 0 =10 + (-2) + (-3)) [0065] このことから、図 5 (d)に示すように 3個の局所周波数情報をひとかたまりのデータと して扱ったものは、所望の周波数分解能をもつ周波数情報を、所望の細かい時間分 解能をもつ 3個の局所周波数情報を成分として分散的に表現したものであり、従来の 離散コサイン変換で求めた周波数情報に、さらに時間的な周波数構造の変化に関 する情報を付加したものであることがわかる。
[0066] このように、 3個の局所周波数情報をひとかたまりのデータとして用いることにより、 時間分解能 (被分析波形と分析波形との相互相関を求めるときに平均化する時間区 間の長さ)と周波数分解能との両方をあた力も同時に細力べして周波数分析を行なつ たかのような、被分析波形に含まれる周波数特徴量を抽出することができる。ただし、 周波数特徴量を抽出するときは、時間分解能の概念とは別に、 3個の局所周波数情 報を求めるために 3周期分のコサイン波形に相当する時間幅の被分析波形が必要と なる。そのため、周波数分析に必要な被分析波形の時間区間の長さは従来の分析 方法と同じである。
[0067] 図 6は、別の周波数分解能に基づいて周波数分析を行う例を示す図である。図 6の 例では、図 6 (a)に示すように図 5の例よりも細かい周波数分解能で分析するために、 図 6 (b)に示すように 4周期分のコサイン波形を分析波形として 、る。
[0068] ここで、従来技術の離散コサイン変換を用いて周波数分析を行った場合、時間分 解能 (被分析波形と分析波形との相互相関を求めるときに平均化する時間区間の長 さ)は 4周期分のコサイン波形の時間幅となり、時間分解能は粗くなつてしまう。その ため、被分析波形の細かい時間的な構造が表現できなくなってしまう。
[0069] そこで、本発明では、所望の時間分解能に基づいて分析波形を時間的に分割する 。図 6の例では、図 6 (c)に示すように分析波形を 2周期分のコサイン波形に分割して 、 2個の局所分析波形を作成する。ここでの時間分解能 (被分析波形と分析波形との 相互相関を求めるときに平均化する時間区間の長さ)は、 2周期分のコサイン波形の 時間幅であり、周波数分解能とは独立に細力べ設定している。(ただし、 2個の局所分 析波形は、同一の分析波形力もそれぞれ抽出された波形である。 )
[0070] 次に、図 6 (c)に示すように 2個の局所分析波形を用いて周波数分析を行うことで、 2個の局所周波数情報を求める。局所周波数情報の求め方は、従来技術での周波 数分析において、分析波形を局所分析波形に置き換えて、被分析波形と局所分析 波形との相互相関(畳み込み)を計算することで求める。
[0071] ここで、従来技術である離散コサイン変換により、 4周期分のコサイン波形である分 析波形を用いて求めた周波数情報と、本発明において、 2周期分のコサイン波形に 分割して求めた 2個の局所周波数情報との関係を考える。図 6の例の場合、従来技 術である離散コサイン変換により求めた周波数情報は、数 17により表現される。
[0072] [数 17]
Figure imgf000015_0001
また、本発明における 2個の局所周波数情報は、数 18、数 19により表現される。
[0073] [数 18]
„ι 2周期分の終わり 2 — l) kf
r ~ 7 ,Al ¾ x, k cos ―
[0074] [数 19]
Figure imgf000015_0002
[0075] 局所分析波形の作成方法を考えると、数 20に示すように、離散コサイン変換で求 めた周波数情報は、本発明で求めた 2個の局所周波数情報の総和と等価であること がわカゝる。
[0076] [数 20]
Figure imgf000015_0003
[0077] このことから、本発明で求めた 2個の局所周波数情報には、離散コサイン変換で求 めた周波数分解能をもつ周波数情報が含まれていることがわかる。すなわち、局所 周波数情報を 2個合わせて考えると、細かい周波数分解能をもつ周波数情報が得ら れることがゎカゝる。
[0078] また、数 20より、所望の周波数分解能で求めた離散コサイン変換による周波数情 報の値 (数 17)において、局所周波数情報の値 (数 18、数 19)の組み合わせが複数 存在することがわかる。例えば、数 21に示す組み合わせが存在する。すなわち、 X
f
= 2となる( 1, X 2)の組み合わせの一例としてとして、(X 1, X 2) = (0. 9, 1. 1)が
f f f f
考えられる。それ以外にも (X X 2) = (2. 5, (-0. 5) )などが考えられる。
f f
[0079] [数 21]
(Xf = 2)
Figure imgf000016_0001
2.5 + (-0.5) = 1.0 + 1.0)
[0080] このことから、図 6 (d)に示すように 2個の局所周波数情報をひとかたまりのデータと して扱ったものは、所望の周波数分解能をもつ周波数情報を、所望の細かい時間分 解能をもつ 2個の局所周波数情報を成分として分散的に表現したものであり、従来の 離散コサイン変換で求めた周波数情報に、さらに時間的な周波数構造の変化に関 する情報を付加したものであることがわかる。
[0081] このように、 2個の局所周波数情報をひとかたまりのデータとして用いることにより、 時間分解能 (被分析波形と分析波形との相互相関を求めるときに平均化する時間区 間の長さ)と周波数分解能との両方をあた力も同時に細力べして周波数分析を行なつ たかのような、被分析波形に含まれる周波数特徴量を抽出することができる。ただし、 周波数特徴量を抽出するときは、時間分解能の概念とは別に、 2個の局所周波数情 報を求めるために 4周期分のコサイン波形に相当する時間幅の被分析波形が必要と なる。そのため、周波数分析に必要な被分析波形の時間区間の長さは従来の分析 方法と同じである。
[0082] 図 7は、分析波形を時間的に重ねて分割して局所分析波形を作成する例を示す図 である。図 7 (a)は、この例における周波数分解能を示す図であり、図 6 (a)に示した 周波数分解能と同じであるものとする。図 7の例では、図 7 (b)に示すように図 6の例と 同じ 4周期分のコサイン波形を分析波形として 、る。
[0083] ここで、従来技術の離散コサイン変換を用いて周波数分析を行った場合、時間分 解能 (被分析波形と分析波形との相互相関を求めるときに平均化する時間区間の長 さ)は 4周期分のコサイン波形の時間幅となり、時間分解能は粗くなつてしまう。その ため、被分析波形の細かい時間的な構造が表現できなくなってしまう。
[0084] そこで、本発明では、所望の時間分解能に基づいて分析波形を時間的に分割する 。図 7の例では、図 7 (c)に示すように分析波形を時間的に重ねながら 2周期分のコ サイン波形に分割して、 3個の局所分析波形を作成する。ここでの時間分解能 (被分 析波形と分析波形との相互相関を求めるときに平均化する時間区間の長さ)は、 2周 期分のコサイン波形の時間幅となる(ただし、 3個の局所分析波形は、同一の分析波 形カゝらそれぞれ抽出された波形である。 ) o
[0085] 次に、図 7 (c)に示すように 3個の局所分析波形を用いて周波数分析を行うことで、 3個の局所周波数情報を求める。局所周波数情報の求め方は、従来技術での周波 数分析において、分析波形を局所分析波形に置き換えて、被分析波形と局所分析 波形との相互相関(畳み込み)を計算することで求める。
[0086] ここで、従来技術である離散コサイン変換により、 4周期分のコサイン波形である分 析波形を用いて求めた周波数情報と、本発明において、 2周期分のコサイン波形に 分割して求めた 3個の局所周波数情報との関係を考えると、 3個の局所周波数情報 の総和により、離散コサイン変換で求めた周波数情報の 2倍の値が近似的に求まるこ とがわかる。すなわち、 3個の局所周波数情報には、離散コサイン変換により細かい 周波数分解能で求めた周波数情報が含まれていることがわ力る。
[0087] このことから、図 7 (d)に示すように 3個の局所周波数情報をひとかたまりのデータと して扱ったものは、局所周波数情報よりも細かい周波数分解能をもつ周波数情報を 、細かい時間分解能をもつ 3個の局所周波数情報を成分として分散的に表現したも のであり、従来の離散コサイン変換で求めた周波数情報に、さらに時間的な周波数 構造の変化に関する情報を付加したものであることがわかる。
[0088] このように、 3個の局所周波数情報をひとかたまりのデータとして用いることにより、 時間分解能と周波数分解能の両方をあた力も同時に細力べして周波数分析を行なつ たかのような、被分析波形に含まれる周波数特徴量を抽出することができる。ただし、 周波数特徴量を抽出するときは、時間分解能の概念とは別に、 3個の局所周波数情 報を求めるために 4周期分のコサイン波形に相当する時間幅の被分析波形が必要と なる。そのため、周波数分析に必要な被分析波形の時間区間の長さは従来の分析 方法と同じである。
[0089] 図 8は、別の時間分解能に基づいて周波数分析を行う例を示す図である。図 8 (a) は、この例における周波数分解能を示す図であり、図 5 (a)に示した周波数分解能と 同じであるものとする。図 8の例では、図 5の例よりもさらに細かい時間分解能 (被分 析波形と分析波形との相互相関を求めるときに平均化する時間区間の長さ)で周波 数分析を行う。この例では、図 8 (b)に示すように図 5の例と同じ 3周期分のコサイン波 形を分析波形としている。
[0090] ここで、従来技術の離散コサイン変換を用いて周波数分析を行うと、時間分解能は 3周期分のコサイン波形の時間幅となり、時間分解能は粗くなつてしまう。そこで、図 8 の例では、図 8 (c)に示すように分析波形を 0. 5周期分のコサイン波形に分割して、 6個の局所分析波形を作成する。ここでの時間分解能は、 0. 5周期分のコサイン波 形の時間幅となる。そして 6個の局所分析波形を用いて周波数分析を行うことで、 6 個の局所周波数情報を求める。
[0091] ここで、分析波形 (3周期分のコサイン波形)を用いて従来技術である離散コサイン 変換で求めた周波数情報と、本発明における、 6個の局所周波数情報との関係を考 えると、 6個の局所周波数情報の総和により、離散コサイン変換で求めた周波数情報 が求まることがわかる。すなわち、 6個の局所周波数情報には、所定の周波数分解能 で求めた離散コサイン変換で求めた周波数情報が含まれて 、ることがわ力る。これよ り、 6個の局所周波数情報をひとかたまりのデータとして扱ったものは、局所周波数 情報よりも細かい周波数分解能をもつ周波数情報を、細かい時間分解能をもつ 6個 の局所周波数情報を成分として分散的に表現したものであり、従来の離散コサイン 変換で求めた周波数情報に、さらに時間的な周波数構造の変化に関する情報を付 加したものであることがわ力る。
[0092] そして、図 8 (d)に示すように 6個の局所周波数情報をひとかたまりのデータとして 用いることにより、時間分解能と周波数分解能の両方をあた力も同時に細力べして周 波数分析を行なったかのような、被分析波形に含まれる周波数特徴量を抽出するこ とができる。ただし、周波数特徴量を抽出するときは、時間分解能の概念とは別に、 6 個の局所周波数情報を求めるために 3周期分のコサイン波形に相当する時間幅の 被分析波形が必要となる。そのため、周波数分析に必要な被分析波形の時間区間 の長さは従来の分析方法と同じである。
[0093] 図 9は、 1周期分のコサイン波形による周波数情報と、フーリエ変換による周波数情 報との関係を示した図である。図 9 (a)に示すように、分析する周波数 (fl, f2, f3,… )ごとに、分析する周波数に対応する 1周期分のコサイン波形を局所分析波形として 、図 5の例と同様にして局所周波数情報を求める。なお、分析する周波数は、図 9 (c )に示すように基本周波数を flとした場合に fnで表される。 fnは、 flの n倍の周波数 を示す。そして、図 9 (b)に示すように、図 5の例と同様にして、フーリエ変換における 時間窓の中に入る局所周波数情報の総和を求めることで、フーリエ変換の周波数情 報を作成することができる。なお、図 9の例では、図 9 (b)に示されるようにフーリエ変 換における時間窓に入る局所周波数情報の数は、周波数 flに対応する局所周波数 情報では 1個、周波数 f2に対応する局所周波数情報では 2個、周波数 f3に対応する 局所周波数情報では 3個である。フーリエ変換では、分析する複数の周波数は直交 条件を満たしており、逆フーリエ変換により、周波数情報から波形情報を容易に作成 することができる。このことから、本発明における局所周波数情報から波形情報に変 換できることがわかる。
[0094] 本発明の周波数分析装置を用いれば、例えば、混合音分離システムにおいて、混 合音から、細か!ゝ周波数分解能でかつ細か!ゝ時間分解能 (被分析波形と分析波形 との相互相関を求めるときに平均化する時間区間の長さ)で表現された周波数ごとの 局所周波数情報をひとかたまりにしたデータを用いて、高 、精度で抽出した 、音の 局所周波数情報を抽出することで、クリアな抽出音 (抽出音の波形情報)を利用者に 提供することができる。
[0095] 最後に本発明のポイントを要約すると、所定の周波数を周波数分析するときに、所 望の周波数分解能に基づいて決まる分析時間幅 (分析波形の時間幅に対応)にお いて、上記所定の周波数をもつ同一の分析波形からそれぞれ抽出された分析波形( 局所分析波形に対応)を上記分析時間幅内に収まるように複数個準備して、上記複 数の分析波形 (局所分析波形に対応)を用いて複数の周波数情報 (局所周波数情 報に対応)を作成して、それらをひとかたまりのデータとして扱って被分析波形の周 波数特徴量を分析することを特徴とするものである。
発明の効果
[0096] 以上のように、本発明によると、時間分解能 (被分析波形と分析波形との相互相関 を求めるときに平均化する時間区間の長さ)と周波数分解能とを独立に設定すること 力 Sでき、時間分解能と周波数分解能とをあた力も同時に細力べして周波数分析を行 なったかのように周波数分析を行なうことができる混合音分離装置および周波数分 析装置などが提供され、混合音分離、音声認識、音識別、文字認識、顔認識、虹彩 認証などの幅広い分野での基本技術として利用することができ、その実用的価値は 極めて高い。
図面の簡単な説明
[0097] [図 1]図 1は、従来技術であるフーリエ変換 (離散フーリエ変換)の方法を説明する図 である。
[図 2]図 2は、所定の時間幅をもつ分析波形と、被分析波形を上記分析波形により周 波数分析したときの周波数特性との関係を示した図である。
[図 3]図 3は、従来技術であるコサイン変換 (離散コサイン変換)を説明する図である。
[図 4]図 4は、従来技術であるウェーブレット変換を説明する図である。
[図 5]図 5は、本発明の全体構成を説明する図である。
[図 6]図 6は、別の周波数分解能に基づいて周波数分析を行なう例を示す図である。
[図 7]図 7は、分析波形を時間的に重ねて分割して局所分析波形を作成する例を示 す図である。
[図 8]図 8は、別の時間分解能に基づいて周波数分析を行う例を示す図である。
[図 9]図 9は、 1周期分のコサイン波形による周波数情報と、フーリエ変換による周波 数情報との関係を示した図である。
[図 10]図 10は、本発明の実施の形態における周波数分析装置の全体構成を示すブ ロック図である。
[図 11]図 11は、混合音分離システム 100の動作手順を示すフローチャートである。
[図 12]図 12は、混合音 S 100の一例を示した図である。
圆 13]図 13は、分析波形と局所周波数情報を示した図である。
[図 14]図 14は、実験により求めた局所周波数情報を示した図である。
圆 15]図 15は、混合音 S100に含まれる抽出音の局所周波数情報を抽出する方法 の一例を示した図である。
[図 16]図 16は、周波数特徴量の抽出にお!、て従来の方法と本発明の方法との構成 を比較する図である。
[図 17]図 17は、局所周波数情報の空間のイメージを示した図である。
圆 18]図 18は、混合音 S100に含まれていた抽出音の局所周波数情報の一例を示 した図である。
[図 19]図 19は、本発明の実施の形態における周波数分析装置の全体構成の他の一 例を示すブロック図である。
[図 20]図 20は、局所周波数情報作成部により作成される局所周波数情報 DBについ て説明するための図である。
[図 21]図 21は、局所周波数情報作成部により作成される局所周波数情報 DBについ て説明するための図である。
[図 22]図 22は、局所周波数情報 DBの一例を示す図である。
[図 23]図 23は、局所周波数情報 DBを用いた周波数特徴量の分析方法の一例を示 す図である。
[図 24]図 24は、局所周波数情報 DBを用いた周波数特徴量の分析方法の一例を示 す図である。
[図 25]図 25は、局所周波数情報作成部により作成される局所周波数情報 DBについ て説明するための図である。
[図 26]図 26は、局所周波数情報 DBの一例を示す図である。
[図 27]図 27は、局所周波数情報 DBを用いた周波数特徴量の分析方法の一例を示 す図である。 [図 28]図 28は、局所周波数情報 DBを用いた周波数特徴量の分析方法の一例を示 す図である。
符号の説明
[0098] 100, 100 A 混合音分離システム
101 マイクロホン
102 周波数分析装置
103, 103A 分析波形時間幅決定部
104 分析波形分割部
105, 105A 局所周波数情報作成部
106, 106A 被分析波形周波数特徴量抽出部
107 音変換部
108 スピーカ
1000 周波数情報作成装置
1001 周波数特徴量分析装置
1002 周波数分解能決定部
S100 混合音
S101 分析波形
S102 局所分析波形
S103 局所周波数情報
S104 周波数特徴量 (抽出音のフーリエ係数)
S105 抽出音
S1000 局所周波数情報 DB
発明を実施するための最良の形態
[0099] 以下、本発明の実施の形態について、図面を参照しながら説明する。
[0100] 図 10は、本発明の実施の形態における周波数分析装置の全体構成を示すブロッ ク図である。ここでは、本発明に係る周波数分析装置が混合音分離システムに組み 込まれた例が示されている。本実施の形態では、 3人の話者の音声から構成される 混合音を周波数分析することにより、混合音から 1人の話者の音声を分離する場合を 例にして説明する。
[0101] 混合音分離システム 100は、複数の話者の音声が混合された混合音から 1人の話 者の音声を抽出するシステムであり、マイクロホン 101と、周波数分析装置 102と、音 変換部 107と、スピーカ 108とを備える。周波数分析装置 102は、混合音に含まれる 周波数成分を分析し、周波数特徴量を抽出する処理装置であり、分析波形時間幅 決定部 103と、分析波形分割部 104と、局所周波数情報作成部 105と、被分析波形 周波数特徴量抽出部 106とを備える。
[0102] マイクロホン 101は、混合音 S100を取り込み局所周波数情報作成部 105に出力 する。
[0103] 分析波形時間幅決定部 103は、所定の周波数分解能に基づいて、分析する周波 数に対応する分析波形の時間幅を決定する。
[0104] 分析波形分割部 104は、所定の時間分解能 (被分析波形と分析波形との相互相 関を求めるときに平均化する時間区間の長さ)に基づいて、分析波形時間幅決定部
103が作成した分析波形 S101を、時間的に重なることを許して分割し、複数の局所 分析波形 S 102を作成する。
[0105] 局所周波数情報作成部 105は、混合音 S100と局所分析波形 S102との相互相関 に基づいて、上記所定の時間分解能で、振幅スペクトルおよび位相スペクトルの少な くとも一方を含む局所分析波形 S102に対応した複数の局所周波数情報 S103を求 める。
[0106] 被分析波形周波数特徴量抽出部 106は、上記複数の局所周波数情報 S103をひ とかたまりのデータとして用いることで、上記周波数分解能で、混合音 S100に含まれ る抽出音の局所周波数情報を抽出して、抽出音の局所周波数情報を用いて抽出音 のフーリエ係数 S104を作成することで、混合音 S100に含まれる周波数特徴量の 1 つである抽出音のフーリエ係数 S 104を抽出する。
[0107] 音変換部 107は、抽出音のフーリエ係数 S104を用いて抽出音 (抽出音の波形) S 105を作成する。スピーカ 108は、抽出音 S105を利用者へ出力する。
[0108] 次に、以上のように構成された混合音分離システム 100の動作について説明する。
[0109] 図 11は、混合音分離システム 100の動作手順を示すフローチャートである。 [0110] まず、マイクロホン 101を用いて、 3人の話者の音声力も構成される混合音 S 100を 周波数分析装置 102の局所周波数情報作成部 105に取り込む(図 11のステップ 20 0)。図 12に混合音 S 100の一例を示す。図 12 (a)は、混合音 S 100の波形であり、 図 12 (b)は、従来技術であるフーリエ変換により求めた混合音 S 100のスぺクトロダラ ムである。図 12 (c)に示すように、音声は、基本波形の繰り返しにより表現することが できる。また、基本波形の振幅は全ての時間に対して大きいわけではなくゼロに近い 時間領域が存在する。そのため、時間分解能を細カゝくして分析すると、混合音の中 の 3人の話者の音声の基本波形の特徴を分析することができる。ちなみに、図 12 (a) の混合音の波形では、時間分解能が粗い表示になっているため、 3人の音声の基本 波形の特徴を見ることは困難である。このことは、時間分解能を細力べすることは混合 音を分離するのに重要であることを示している。図 12 (b)のフーリエ変換によるスぺク トログラムでは、フーリエ変換時に時間分解能と周波数分解能との両方の分解能を同 時に細力べすることができないため、混合音の中の 3人の話者の音声のスペクトル形 状の特徴を分離して見ることは困難である。フーリエ変換では、周波数分解能を細か くすることで 3人の音声の周波数特徴であるホルマントの時間平均を分析できるように なるが、逆に時間分解能が粗くなるため、微小時間領域でのホルマントの値が分析 できない。そのため、微小な時間 ·周波数領域では重ならない混合音であっても抽出 したい音を分離することは困難になってしまう。
[0111] 次に、分析波形時間幅決定部 103は、所定の周波数分解能に基づいて、分析す る周波数に対応する分析波形の時間幅を決定して分析波形 S 101を作成する(図 11 のステップ 201)。図 13に示す例では、分析波形 S101の時間幅を、基本周波数お 力 ^周期分入る時間幅 (フーリエ変換における時間窓)とする。図 13 (a)および図 13 ( b)は、コサイン波形による周波数分析を説明するための図であり、図 13 (c)および図 13 (d)は、サイン波形による周波数分析を説明するための図である。また、図 13 (a) および図 13 (c)は、上述の分析波形を有する分析波形を示しており、図 13 (b)およ び図 13 (d)は、図 13 (a)および図 13 (c)に示した分析波形にそれぞれ対応する局 所周波数情報を示している。
[0112] 図 13 (a)および図 13 (c)に示す分析波形は、実線と破線との波形を両方合わせた 波形である(実線だけの波形は 1つの局所分析波形を表す)。ここでは、分析する全 ての周波数に対して同じ時間幅の分析波形を用いる。ただし、分析する周波数の大 きさが異なるので、分析する周波数により分析波形に含まれる周期の数は異なる。具 体的には、図 13 (a)および図 13 (c)に示すように、分析する周波数が基本周波数 fl の分析波形は 1周期分のコサイン波形およびサイン波形力 構成され、分析する周 波数が基本周波数 flの 2倍の f2の分析波形は 2周期分のコサイン波形およびサイン 波形から構成され、分析する周波数が基本波形 flの 3倍の f3の分析波形は 3周期分 のコサイン波形およびサイン波形から構成される。局所分析波形に分割する前の分 析波形の周波数分解能は、図 9 (c)に示したものと同様であり、分析する周波数 fl、 f 2、 f 3の周波数特性が直交するような細力 、周波数分解能となって 、る。
[0113] なお、分析波形の時間幅を決めることは、短時間におけるフーリエ変換での分析フ レーム幅を決定する事と等価である。また、短時間におけるフーリエ変換において被 分析波形に窓関数を力けることがあるが、この例の場合では、被分析波形に分析波 形と同じ時間幅の矩形窓を力 4ナたことと等価である。なお、被分析波形に、分析対象 区間 (分析波形が存在する時間区間)ではゼロでない値をもつ窓関数を力けて周波 数分析を行ってもよい。
[0114] なお、周波数分析装置 102は、周波数分解能入力受付部をさらに備えることにより 、周波数分解能を被分析波形 S 100の性質やアプリケーションの仕様に基づいて決 定することができる。このような周波数分解能は外部より入力されるようにしてもょ 、。 例えば、突発音は周波数分解能を粗くしても(同じ時間分解能ではひとかたまりにす る局所周波数情報の数が少なくなる)特徴量を分析することは可能であるが、楽音は 周波数分解能を細力べして(同じ時間分解能ではひとかたまりにする局所周波数情 報の数が多くなる)特徴量を分析する必要がある。ひとかたまりにするデータ数により 特徴量を抽出するときの計算量が異なるため、入力された被分析波形の性質に応じ て分析する周波数分解能を制御することで、計算コストを削減することができる。
[0115] 次に、分析波形分割部 104は、所定の時間分解能に基づいて、分析波形時間幅 決定部 103が作成した分析波形 S101を、時間的に重なることを許して分割して複数 の局所分析波形 S102を作成する(図 11のステップ 202)。図 13に示す例では、分 析する周波数のそれぞれに対して、 1周期分のコサイン波形およびサイン波形に分 析波形 S101 (実線と破線を両方合わせた波形)を分割して、局所分析波形 S102 ( 実線の波形は 1つの局所分析波形を表す)を作成する。具体的には、図 13 (a)およ び図 13 (c)に示すように、分析する周波数が基本周波数 flの局所分析波形は、分 析波形そのものであり、分析する周波数が基本周波数 flの 2倍の f2の局所分析波形 は、 f2の周波数をもつ 1周期分のコサイン波形およびサイン波形力 構成される 2個 の局所分析波形から構成され、分析する周波数が基本周波数 flの 3倍の f3の局所 分析波形は、 f 3の周波数をもつ 1周期分のコサイン波形およびサイン波形力 構成 される 3個の局所分析波形から構成される。分析する周波数ごとに見れば、図 5 (c) 示した局所分析波形と同様なものとなる。このときの時間分解能 (被分析波形と分析 波形との相互相関を求めるときに平均化する時間区間の長さ)は、分析する周波数 の分析波形の 1周期分の時間幅となる。これより、時間分解能は周波数分解能と独 立に設定できていることがわかる。なお、複数の局所分析波形は、同一の分析波形 力もそれぞれ抽出された波形である。この例では、分析波形 S101を時間的に重なる ことなしに分割した例を示した。なお、図 6、図 7、図 8に示すように局所分析波形を作 成してちょい。
[0116] なお、周波数分析装置 102は、時空間分解能入力受付部をさらに備えることにより 、時間分解能を被分析波形 S 100の性質やアプリケーションの仕様に基づいて決定 することができる。このような時間分解能は外部より入力されるようにしてもよい。例え ば、突発音は時間分解能を細かくして分析する必要がある。突発音、音声、楽音など が交互に現れる混合音を分析する場合は、入力された被分析波形に基づ!ヽて時間 分解能を制御することで高い精度での分析が可能となり、また、局所周波数情報を 記憶するメモリ容量も小さくすることができる(細かい時間分解能を必要としないときに 時間分解能を粗くすることで記憶する局所周波数情報の数を減らすことができる)。
[0117] 次に、局所周波数情報作成部 105は、混合音 S100と局所分析波形 S102との相 互相関 (畳み込み)に基づいて、上記所定の時間分解能 (被分析波形と分析波形と の相互相関を求めるときに平均化する時間区間の長さ)で、振幅スペクトルおよび位 相スペクトルの少なくとも一方を含む上記局所分析波形 S102に対応した複数の局 所周波数情報 S 103を求める(図 11のステップ 203)。ここでは、フーリエ変換で用い る分析方法にぉ ヽて、分析波形を局所分析波形に変更することで局所周波数情報 を求める(数 11、数 12、数 13、数 14を参照)。図 13の例に示すように、分析する周 波数が基本周波数その場合には、 1個の局所周波数情報が、分析する周波数が基 本周波数の 2倍の f2の場合には、 2個の局所周波数情報が、分析する周波数が基 本周波数の 3倍の f3の場合には、 3個の局所周波数情報力 コサイン波形およびサ イン波形の分析のそれぞれにおいて求まる(図 5も参照)。コサイン波形およびサイン 波形の 2種類の周波数分析で求まる局所周波数情報を用いることにより、振幅スぺク トルおよび位相スペクトルを求めることができる。すなわち、この例では、局所周波数 情報は、振幅スペクトルと位相スペクトルとの両方を含む周波数情報である。
[0118] 図 14は、 16KHzでサンプリングされた混合音を、図 14 (a)に示すように図 5の例と 同じ 1周期分のコサイン波形を局所分析波形として用いて、図 5の例とは異なり、 1サ ンプリングポイントごとに時間シフトしながら全てのサンプリングポイントに対して局所 周波数情報を求めたものである。図 14 (b)は、分析する周波数が ΙΚΗζである場合 の、全てのサンプリングポイントに対する局所周波数情報を時系列に並べたグラフで あり、横軸が時間、縦軸がパワーである。図 14 (b)には、日本語を発声したときのダラ フが 3つ示されており、上から、女性の日本語の「え」の発声における局所周波数情 報、男性の日本語の「ん」の発声における局所周波数情報、それらの混合音におけ る局所周波数情報を示して 、る。
[0119] 図 14 (c)は、分析する周波数 2KHzである場合の、全てのサンプリングポイントに局 所周波数情報を時系列に並べたグラフであり、図 14 (b)に示したグラフと異なる点は 、分析する周波数が異なるのみである。
[0120] 分析する周波数 (1ΚΗζ、2ΚΗζ)の 1周期分の時間間隔での局所周波数情報を抽 出して、ひとかたまりのデータとすると、図 5の例と同様な局所周波数情報が得られる 。混合音を分離する場合は時間分解能と周波数分解能の両方を細かくする必要が ある。この実験結果では、時間分解能を細力べしているため、混合音の中の女性と男 性との音声の微小時間での構造を分離して見ることができる。また、後述するように、 複数の局所周波数情報をひとかたまりのデータとして用いることであた力も周波数分 解能を細力べしたかのごとくすることができるので、微小な時間'周波数領域では重な らな 、混合音を高 、精度で分離することができる。
[0121] 次に、被分析波形周波数特徴量抽出部 106は、上記複数の局所周波数情報 S10 3をひとかたまりのデータとして用いることで、上記周波数分解能で、混合音 S100に 含まれる抽出音の局所周波数情報を抽出して、抽出音の局所周波数情報を用いて 抽出音のフーリエ係数 S104を作成することで、混合音 S100に含まれる周波数特徴 量の 1つである抽出音のフーリエ係数 S104を抽出する(図 11のステップ 204)。図 1 5に、混合音 S100に含まれる抽出音の局所周波数情報を抽出する方法の一例を示 す。図 15 (a)は、局所分析波形 S102の一例を示した図である。図 15 (b)は、基本周 波数 f 1、基本周波数 f 1の 2倍周波数 f 2および基本周波数 f 1の 3倍周波数 f 3の各々 に対する局所周波数情報を示した図である。図 15 (c)は、抽出する音のひとかたまり の局所周波数情報のパターンを示した図であり、ここでは、女性の音声に対する局所 周波数情報のパターンが 2つ示されて 、る。
[0122] 図 15の例では、図 15 (c)に示すように、あらかじめ、抽出する音のひとかたまりの局 所周波数情報 (フーリエ変換の時間窓の中にある局所周波数情報をまとめたもの)を 記憶しておいて、図 15 (b)に示されるような混合音 S 100から作成した局所周波数情 報 S103と、図 15 (c)に示されるような記憶された抽出音のひとかたまりの局所周波 数情報とを比較することにより、混合音 S100に含まれる、抽出音の局所周波数情報 を抽出する。図 15の例では、上述したように女性の音声パターンが記憶されている。 この例では、混合音 S100のひとかたまりの局所周波数情報 S103と、記憶されたひ とかたまりの局所周波数情報 (女性の音声パターン)とを比較して、誤差距離 (類似度 の逆数)が最小である記憶された音声パターンを選択して、誤差距離が予め定めら れたしきい値以下であれば、混合音 S100の局所周波数情報を抽出する。また、誤 差距離がしき!/、値よりも大きければ、記憶された誤差距離が最小の音声パターンを 用いて、抽出したい女性の局所周波数情報 (例えば、後述する図 18の Zで示したも の)を作成してもよ!ヽ。具体的には数 22を用いて誤差距離を計算する。
[0123] [数 22] Ε(Χ,Α) = {χ) - Af ] ly + ( 2 - 2)2 + - 2)
+ 、 — /3)— +(Α 3— /3)— + — /3ノ— ここで、 Xは混合音 SIOOのひとかたまりの局所周波数情報 S103であり、 Αは記憶さ れたひとかたまりの局所周波数情報 (女性の音声パターン)である。
[0124] 数 22の
[0125] [数 23]
- )2 + χ2η - Ah)2 + (χ% - Α%) の部分を見ると、
[0126] [数 24]
( 3- 42
[0127] [数 25]
Figure imgf000029_0001
[0128] [数 26]
(^3- 3)2 の全ての項が小さくならな!/ヽと誤差距離は小さくならな!/、。
[0129] ここで、図 16を用いて、従来の方法と本発明の方法との構成を比較する。図 16 (a) に示すように、従来の方法では、 1つ 1つの局所周波数情報に対して誤差距離を計 算して最小のパターンを選択するのに対して、本発明の方法では、図 16(b)に示す ように、ひとかたまりの局所周波数情報を 1つのパターンとして誤差距離を計算して最 小のパターンを選択している。このため、 1つ 1つの局所周波数情報の誤差距離を小 さくすると同時に、複数の局所周波数情報をひとかたまりにしたときの所望の周波数 分解能での周波数情報である
[0130] [数 27]
Figure imgf000030_0001
[0131] [数 28]
Λ 3 = 3 + + との誤差距離の値も小さいパターンを選択することになる。一方、図 16 (a)に示す従 来の方法では、複数の局所周波数情報をひとかたまりにしたときの所望の周波数分 解能での誤差距離は考慮されな!ヽ。
[0132] 図 17は、局所周波数情報の空間のイメージを示した図である。図 17の例では、所 望の周波数分解能での周波数情報である数 27と数 28とは、平面の各軸との切片の 値を示し、ひとかたまりの局所周波数情報である
[0133] [数 29]
Figure imgf000030_0002
[数 30] ,3 ,3 ,3) は、それぞれ、数 27により表される平面と数 28により表される平面における点を示し ている。本発明では、所望の周波数分解能をもつ平面同士の距離(図 17における切 片間の距離)を測るのと同時に、所望の周波数分解能をもつ平面において、微小な 時間区間での周波数の変化を表現した平面上での点同士の距離 (数 29で示される 点と数 30で示される点との間の距離)をも考慮して、周波数特徴量を分析する。従来 の方法では、平面上での点同士の距離を測ると!、う概念はな!/、。
[0135] なお、抽出したい局所周波数情報の作成方法として、誤差距離が最小であった図 15 (c)に示されるような記憶されたパターンをつなぎ合わせることで、混合音を利用 せずに抽出した 、女性の局所周波数情報を作成してもよ!、。
[0136] なお、図 15の例では、全ての分析する周波数のひとかたまりの局所周波数情報を まとめてパターンを作成したが、分析する周波数ごとに女性の音声パターンを記憶し ておいて、分析する周波数ごとにひとかたまりの局所周波数情報を用いて誤差距離 を計算してもよい。
[0137] なお、複数の局所周波数情報をひとかたまりにしたときの所望の周波数分解能で の周波数情報を別途計算しておいて、ひとかたまりの局所周波数情報と合わせて、 計算した所望の周波数分解能での周波数情報を陽に用いて誤差距離を計算しても よい。
[0138] なお、誤差距離を計算する評価式として数 22の変わりに、ひとかたまりの局所周波 数情報の各値の比率を用いて類似度を計算してもよ 、。
[0139] 次に、図 18に示すように、取り出した抽出音の局所周波数情報を用いて抽出音の フーリエ係数 S 104を求める。図 18 (a)には、混合音 S100に含まれていた抽出音の 局所周波数情報の一例が示されている。この例では、フーリエ変換での時間窓の中 にある局所周波数情報(図 18の Z)の総和を求めることで図 18 (b)に示すようなフーリ ェ係数(図 18の Y)が求まる。
[0140] 次に、音変換部 107は、抽出音のフーリエ係数 S104を用いて抽出音 (抽出音の波 形) S105を作成する(図 11のステップ 205)。この例では、逆フーリエ変換により抽出 音 S 105を作成する。
[0141] 最後に、スピーカ 108は、抽出音 S105を利用者へ出力する(図 11のステップ 206
) o
[0142] 以上説明したように、本発明の実施の形態によれば、時間分解能と周波数分解能 を独立に設定することができ、複数の周波数分解能 (複数の時間分解能)でそれぞ れ周波数分析された複数の局所周波数情報のかたまり同士を比較することにより、あ た力も時間分解能と周波数分解能を同時に細力べして周波数分析した力のような結 果を得ることができる。このため、混合音の中から高い精度で抽出したい音を取り出 すことができる。
[0143] なお、本実施の形態では、周波数分析装置を、混合音分離システムに組み込んだ 力 音声認識システム、音識別システム、文字認識システム、顔認識システム、虹彩 認証システムに組み込んでもよ!/、。
[0144] なお、本実施の形態では、時間波形を被分析波形としたが、画像処理を行う場合 などは、空間波形を被分析波形とするため、「時間分解能」は「空間分解能」に対応 することになる。本明細書および特許請求の範囲において「時間分解能」と「空間分 解能」とを併せて、「時空間分解能」と呼ぶこととする。「空間分解能」とは、被分析波 形と分析波形との相互相関 (畳み込み)を求めるときに平均化する空間領域の大きさ のことである。
[0145] なお、本実施の形態に係る周波数分析装置 102を以下のように構成することもでき る。
[0146] 図 19に示すように、周波数分析装置 102Aは、局所周波数情報を作成してデータ ベース化 (DB化)することで局所周波数情報 DBS1000を作成する周波数情報作成 装置 1000と、周波数情報作成装置 1000が作成した局所周波数情報 DBS 1000を 用いて周波数特徴量 S104を分析する周波数特徴量分析装置 1001と、の 2つの装 置力 構成することができる。
[0147] 周波数情報作成装置 1000において、分析波形時間幅決定部 103Aは、周波数特 徴量分析装置 1001が周波数特徴量 S 104を分析するときに用いるであろう最も細か い周波数分解能に基づいて、分析する周波数に対応する分析波形の時間幅を決定 して分析波形 S101を作成する。すなわち、分析波形時間幅決定部 103Aが決定し た分析波形の時間幅により、周波数特徴量分析装置 1001が周波数特徴量 S104を 分析できる周波数分解能の上限が決定される。
[0148] 分析波形分割部 104の動作は図 10のものと同様であるため説明を省略する。 [0149] 次に、局所周波数情報作成部 105Aは、マイクロホン 101から取り込まれた混合音 S 100と局所分析波形 S 102との相互相関(畳み込み)に基づいて、所定の時間分解 能 (被分析波形と分析波形との相互相関を求めるときに平均化する時間区間の長さ) で、振幅スペクトルおよび位相スペクトルの少なくとも一方を含む上記局所分析波形 S102に対応した複数の局所周波数情報 S103を求めて、少なくとも、(1)分析した 周波数、(2)局所分析波形の形状に関する情報、(3)局所周波数情報 S103および 対応する局所周波数情報を求めた被分析波形の時刻、とから構成される局所周波 数情報 DBS 1000を作成して記憶する。
[0150] 図 20 (a)に、局所周波数情報 DBS 1000の一例を示す。この例では、局所周波数 情報 DBS1000は、(1)分析した周波数は ΙΚΗζであり、(2)局所分析波形に関する 情報として、局所分析波形同士の重なりはなぐ 5周期分のコサイン波形力 構成さ れる分析波形において、時間分解能が lms (分析した周波数 ΙΚΗζの 1周期分の長さ 、すなわち分析波形の 1周期分の長さ)であるという情報と、(3) 5個の局所周波数情 報(5個の局所分析波形における離散コサイン変換係数と同等の値)をひとかたまり にしたデータおよび対応する局所周波数情報を求めた被分析波形の時刻、とから構 成されている。
[0151] 図 20 (b)および図 20 (c)に、説明のためのイメージ図を合わせて記載している。図 20 (b)に示すイメージ図により、局所分析波形同士の重なりがないことがわかる。また 、図 20 (c)より 5個でひとかたまりの局所周波数情報のかたまりは、被分析波形を時 間的にシフトしながら複数求められていることがわかる。この時間シフトの間隔(0.3ms )は、ひとかたまりにした 5個の局所周波数情報を求めるために用いた 5個の局所分 析波形の時間間隔(lms)とは独立に設定できる。
[0152] 図 20の例では、 5個の局所周波数情報をひとかたまりにしたときの周波数分解能が 、周波数特徴量分析装置 1001が分析できる最も細かい周波数分解能となる。
[0153] また、図 21 (a)に、局所周波数情報 DBS 1000の別の一例を示す。この例では、複 数の時間分解能をもつ局所分析波形により求められた局所周波数情報 DBの一例を 示しており、(1)分析した周波数は 2KHzであり、(2)局所分析波形に関する情報とし て、局所分析波形同士の重なりはなぐ時間分解能は、 4周期のコサイン波形力も構 成される分析波形において、分析波形の 1周期目に対応する局所分析波形では 0.5 ms、分析波形の 2周期目に対応する局所分析波形では 0.5ms、分析波形の 3周期目 〜4周期目に対応する局所分析波形では 1.0msであるという情報と、 (3) 3個の局所 周波数情報 (3個の局所分析波形における離散コサイン変換係数と同等の値)をひと 力たまりにしたデータおよび対応する局所周波数情報を求めた被分析波形の時刻、 とカゝら構成されている。
[0154] 図 21 (b)および図 21 (c)に、説明のためにイメージ図を合わせて記載している。図 21 (b)に示すイメージ図により、局所分析波形同士の重なりがないことがわかる。また 、図 21 (c)より 3個でひとかたまりの局所周波数情報のかたまりは、被分析波形を時 間的にシフトしながら複数求められていることがわかる。この時間シフトの間隔(0.3ms )は、ひとかたまりにした 3個の局所周波数情報を求めるために用いた 3個の局所分 析波形の時間間隔 (0.5ms、 0.5ms, 1.0ms)とは独立に設定できる。
[0155] この例では、 3個の局所周波数情報をひとかたまりにしたときの周波数分解能が、 周波数特徴量分析装置 1001が分析できる最も細カゝぃ周波数分解能となる。
[0156] また、図 22に、局所周波数情報 DBS 1000の別の一例を示す。この例では、局所 周波数情報とは別に、ひとかたまりにする複数の局所周波数情報の値の総和である 、上述の周波数情報 (数 11、数 12、数 13、数 14、数 15を参照)も合わせてデータべ ース化してある。
[0157] 以上説明したように、局所周波数情報 DBS 1000が作成され記憶される。
[0158] 図 19に示されるように周波数特徴量分析装置 1001において、被分析波形周波数 特徴量抽出部 106Aは、周波数分解能決定部 1002を備える。被分析波形周波数 特徴量抽出部 106Aは、局所周波数情報 DBS1000を入力して、周波数分解能決 定部 1002が決定した周波数分解能に基づいて、局所周波数情報 DBS1000が保 持する(3)複数の局所周波数および対応する局所周波数情報を求めた被分析波形 の時刻、の中から、ひとかたまりのデータとして扱う局所周波数情報の数を決定する。
[0159] なお、局所周波数情報 DBS 1000は、通信路を用いて受信してもよいし、メモリ力 ードなどの記録媒体により取得してもよ 、。
[0160] なお、局所周波数情報 DBS1000が保持する全ての局所周波数情報を用いる場 合には、周波数分解能決定部 1002はなくてもよい。
[0161] 図 23に、局所周波数情報 DBS1000を用いた周波数特徴量の分析方法の一例を 示す。この例では、図中丸枠で囲った全て(5個)の局所周波数情報をひとかたまりの データとして、周波数特徴量を分析する。ひとかたまりの局所周波数情報を用いた周 波数特徴量の具体的な分析方法は、図 10の被分析波形周波数特徴量抽出部 106 と同様な方法で行うため説明を省略する。なお、この例の場合は、周波数分解能決 定部 1002はなくてもよい。
[0162] また、図 24に、局所周波数情報 DBS1000を用いた周波数特徴量の分析方法の 別の一例を示す。この例では、局所周波数情報 DBS1000が保持した、分析する周 波数 ΙΚΗζと時間分解能 lmsとから、ひとかたまりにする局所周波数情報の数と周波 数分解能との関係を計算して、周波数分解能決定部 1002が決定した周波数分解 能に基づいて、図中丸枠で囲った 3個の局所周波数情報をひとかたまりのデータとし て周波数特徴量を分析する。ひとかたまりの局所周波数情報を用いた周波数特徴量 の具体的な分析方法は、図 10の被分析波形周波数特徴量抽出部 106と同様な方 法で行うため説明を省略する。図 24の例のように、局所周波数情報 DBが保持した 一部の局所周波数情報を用いることで、所望の周波数分解能で、周波数特徴量を 分析することができる。
[0163] なお、図 24の例では、時刻 0.0ms、時刻 0.3ms、時刻 0.6msと時間シフトの間隔を 0.3 msとした力 時間シフトの間隔を 0.6msとして、時刻 0.0ms、時刻 0.6ms、時刻 1.2msの ひとかたまりの局所周波数情報を用いて周波数特徴量を分析してもよい。このときは 、局所周波数情報 DBS1000の一部を用いて周波数特徴量を分析することになる。
[0164] また、図 22に示した局所周波数情報 DBS 1000を用いて周波数特徴量の分析を 行う場合には、図 10の被分析波形周波数特徴量抽出部 106の動作において、数 22 の誤差関数に換えて、以下に示す数 31により、複数の局所周波数情報をひとかたま りにしたときの所望の周波数分解能での周波数情報である、図 22の局所周波数情 報 DBS1000の「周波数情報」を用いて誤差距離を計算する。
[0165] [数 31] E(X, A) = 、― , )2 + ff2 - Af ] 2 )2 + {X 2 - Aj2Y 十 3 A) A
Figure imgf000036_0001
L/3 ,3
+ wx (Xf] _ Aハ) 2 +^Xf2 -Af2)2 + i3 -A )2) ここで、
[0166] [数 32] xfl,xf2,xf3 は局所周波数情報 DBS 1000の「周波数情報」であり、
[0167] [数 33]
·> ^fl 5 3 は記憶された、上記「周波数情報」(女性の音声パターン)に対応するものであり、 [0168] [数 34]
W は重み係数である。
[0169] なお、図 23、図 24の例でも、局所周波数情報の値の総和を求めて「周波数情報」 を計算することで、数 31の誤差関数により誤差距離を計算してもよい。
[0170] 音変換部 107、スピーカ 108の動作は図 10のものと同様であるため説明を省略す る。
[0171] 最後に、利用者はスピーカ 108を通じて抽出音 S105を聴くことができる。
[0172] ここで、局所周波数情報作成部 105A、局所周波数情報 DBS 1000、被分析周波 数特徴量抽出部 106A、の別の一例を示す。
[0173] 局所周波数情報作成部 105Aは、混合音 S100と局所分析波形 S102との相互相 関 (畳み込み)に基づいて、所定の時間分解能 (被分析波形と分析波形との相互相 関を求めるときに平均化する時間区間の長さ)で、振幅スペクトルおよび位相スぺタト ルの少なくとも一方を含む上記局所分析波形に対応した複数の局所周波数情報 S1 03を求めて、(1)分析した周波数、(2)局所分析波形の形状に関する情報、(3)局 所周波数情報 S103および対応する局所周波数情報を求めた被分析波形の時刻、 とから構成される局所周波数情報 DBS1000を作成する。
[0174] 図 25 (a)に、局所周波数情報 DBS 1000の一例を示す。この例では、図 20の局所 周波数情報 DBの例とは異なり、 (3)局所周波数情報 S 103および対応する局所周 波数情報を求めた被分析波形の時刻、の表現が、局所周波数情報を時刻方向に並 ベたものになっている。すなわち、時刻 1.0msにおける 3個の局所周波数情報とは、 時刻 1.0msの局所周波数情報、時刻 2.0msの局所周波数情報、時刻 3.0msの局所周 波数情報であり、時刻 2.0msにおける 5個の局所周波数情報とは、時刻 2.0msの局所 周波数情報、時刻 3.0msの局所周波数情報、時刻 4.0msの局所周波数情報、時刻 5. 0msの局所周波数情報、時刻 6.0msの局所周波数情報である。このような表現ができ る理由は、時間分解能力 分析する周波数である IKHzの 1周期分の 1.0msであり、整 数個のひとかたまりの局所周波数情報のかたまりを、被分析波形に対して時間的に シフトする間隔の 1.0msと同じであるからである(図 25 (b)および図 25 (c)を参照)。す なわち、時間シフトした 1周期目の局所周波数情報により、前の時刻における 2周期 目以降の局所周波数情報が表現できるからである。なお、(1)分析した周波数、 (2) 局所分析波形の形状に関する情報、は図 20の局所周波数情報 DBの例と同様であ る。
[0175] 図 26に、局所周波数情報 DB1000の別の一例を示す。この例では、図 25の局所 周波数情報 DBの例とは異なり、複数の分析した周波数に対して、(1)分析した周波 数、(2)局所分析波形の形状に関する情報、(3)局所周波数情報 S103および対応 する局所周波数情報を求めた被分析波形の時刻、をそれぞれデータベース化して いる。このように、図 20、図 21、図 22の例でも、複数の分析した周波数に対して、局 所周波数情報をデータベース化してもょ 、。
[0176] 以上説明したように、局所周波数情報 DBS 1000が作成され記憶される。
[0177] 被分析波形周波数特徴量抽出部 106Aは、周波数分解能決定部 1002を備える。
被分析波形周波数特徴量抽出部 106Aは、局所周波数情報 DBS1000を入力して 、周波数分解能決定部 1002が決定した周波数分解能に基づいて、局所周波数情 報 DBS1000が保持する(3)複数の局所周波数および対応する局所周波数情報を 求めた被分析波形の時刻、の中から、ひとかたまりのデータとして扱う局所周波数情 報の数を決定する。
[0178] 図 27に、局所周波数情報 DBS1000を用いた周波数特徴量の分析方法の一例を 示す。この例では、局所周波数情報 DBが保持した、分析する周波数 ΙΚΗζと時間分 解能 lmsとから、ひとかたまりにする局所周波数情報の数と周波数分解能との関係を 計算して、周波数分解能決定部 1002が決定した周波数分解能に基づいて、 3個の 局所周波数情報をひとかたまりのデータとして周波数特徴量を分析する。この例での 3個の局所周波数情報とは、時刻 0.0msにおいては、図中で実線丸枠で囲った時刻 0 .Omsの局所周波数情報、時刻 1.0msの局所周波数情報および時刻 2.0msの局所周 波数情報であり、時刻 1.0msにおいては、図中で破線丸枠で囲った時刻 1.0msの局 所周波数情報、時刻 2.0msの局所周波数情報および時刻 3.0msの局所周波数情報 であり、時刻 2.0msにおいては、図中で破線丸枠で囲った時刻 2.0msの局所周波数 情報、時刻 3.0msの局所周波数情報および時刻 4.0msの局所周波数情報である。こ こでは、時間シフトの間隔 1.0msごとに、ひとかたまりの局所周波数情報を求めている 。ひとかたまりの局所周波数情報を用いた周波数特徴量の具体的な分析方法は、図 10の被分析波形周波数特徴量抽出部 106と同様な方法で行うため説明を省略する
[0179] なお、 5個の局所周波数情報をひとかたまりのデータとしたい場合には、 5個の連続 した時刻の局所周波数情報をひとかたまりにすればよぐ 10個の局所周波数情報を ひとかたまりのデータとしたい場合には、 10個の連続した時刻の局所周波数情報を ひとかたまりにすればよい。ひとかたまりにする局所周波数情報の数の自由度として は、図 24の例よりも自由度が高い。 [0180] 図 28に、局所周波数情報 DBS1000を用いた周波数特徴量の別の分析方法の一 例を示す。この例では、ひとかたまりの局所周波数情報を、時間シフトの間隔 3.0msご とに求めている(図中の実線丸枠および破線丸枠)。この時間シフトの間隔は 5.0ms でも 8.0msでもよい。このように、時間シフトの間隔を自由に設定することができる。ひ とかたまりの局所周波数情報を用いた周波数特徴量の具体的な分析方法は、図 10 の被分析波形周波数特徴量抽出部 106と同様な方法で行うため説明を省略する。
[0181] 以上説明したように、周波数特徴量 S104が抽出される。
[0182] なお、周波数特徴量分析装置 1001は、周波数分解能入力受付部をさらに備える ことにより、周波数分解能をアプリケーションの仕様などに基づいて決定することがで きる。このような周波数分解能は、外部より入力されるようにしてもよい。
産業上の利用可能性
[0183] 本発明は、混合音分離システム、音声認識システム、音識別システム、文字認識シ ステム、顔認識システム、虹彩認証システム等のシステムに利用することができる。

Claims

請求の範囲
[1] 複数の音から構成される混合音中より特定の音を分離する混合音分離装置であつ て、
所定の周波数を分析するための分析波形の一部を構成し所定の時空間分解能を 有する複数の局所分析波形と前記混合音の波形である被分析波形とから、前記所 定の周波数における振幅スペクトルおよび位相スペクトルの少なくとも一方を含む前 記局所分析波形に対応する複数の局所周波数情報を求める局所周波数情報作成 手段と、
前記複数の局所周波数情報を組とし、当該組と予め定められた特定の音に対する 周波数情報の組との間のパターンマッチングを行な 、、当該パターンマッチングの結 果に基づいて、前記複数の局所周波数情報の組を抽出する特定音周波数特徴量 抽出手段と、
前記特定音周波数特徴量抽出手段で抽出された前記複数の局所周波数情報の 組に基づ 1、て、前記特定の音の信号を作成する音信号作成手段とを備える
ことを特徴とする混合音分離装置。
[2] 前記特定音周波数特徴量抽出手段は、前記複数の局所周波数情報を組とし、当 該組と予め定められた特定の音に対する周波数情報の組との間の距離を算出し、当 該距離が所定の閾値以下の場合に、前記複数の局所周波数情報の組を抽出する ことを特徴とする請求項 1に記載の混合音分離装置。
[3] 前記特定音周波数特徴量抽出手段は、前記複数の局所周波数情報を組とし、当 該組と予め定められた特定の音に対する周波数情報の組との間の類似度を算出し、 当該類似度が所定の閾値以上の場合に、前記複数の局所周波数情報の組を抽出 する
ことを特徴とする請求項 1に記載の混合音分離装置。
[4] さらに、前記所定の周波数分解能に基づいて、前記分析波形の時間幅を決定する 分析波形時間幅決定手段を備える
ことを特徴とする請求項 1に記載の混合音分離装置。
[5] 前記分析波形は、コサイン波形またはサイン波形を含み、 前記分析波形時間幅決定手段は、前記所定の周波数分解能に基づいて、前記分 析波形が整数周期分のコサイン波形または整数周期分のサイン波形の分析波形を 含むように前記分析波形の時間幅を決定する
ことを特徴とする請求項 4に記載の混合音分離装置。
[6] 前記整数周期は、 1周期である
ことを特徴とする請求項 5に記載の混合音分離装置。
[7] さらに、周波数分解能の入力を受付ける周波数分解能入力受付手段を備え、 前記分析波形時間幅決定手段は、入力された前記周波数分解能に基づいて、前 記分析波形の時間幅を決定する
ことを特徴とする請求項 4に記載の混合音分離装置。
[8] さらに、前記所定の時空間分解能に基づいて、前記分析波形を、時間的に重なる ことを許して分割して、前記複数の局所分析波形を作成する分析波形分割手段を備 える
ことを特徴とする請求項 1に記載の混合音分離装置。
[9] 前記分析波形分割手段は、複数の時空間分解能を有するように前記分析波形を 分割して、前記複数の局所分析波形を作成する
ことを特徴とする請求項 8に記載の混合音分離装置。
[10] さらに、時空間分解能の入力を受付ける時空間分解能入力受付手段を備え、 前記分析波形分割手段は、入力された前記時空間分解能に基づいて、前記分析 波形を分割して、前記複数の局所分析波形を作成する
ことを特徴とする請求項 8に記載の混合音分離装置。
[11] さらに、前記所定の時空間分解能に基づいて、前記分析波形を、時間的に重なる ことのな!/ヽように分割して、前記複数の局所分析波形を作成する分析波形分割手段 を備える
ことを特徴とする請求項 1に記載の混合音分離装置。
[12] 所定の周波数を分析するための分析波形を用いて、被分析波形を周波数分析す る装置であって、
前記分析波形の一部を構成し所定の時空間分解能を有する複数の局所分析波形 と前記被分析波形とから、前記所定の周波数における振幅スペクトルおよび位相ス ベクトルの少なくとも一方を含む前記局所分析波形に対応する複数の局所周波数情 報を求める局所周波数情報作成手段と、
前記局所周波数情報作成手段で求められた前記複数の局所周波数情報を組とし 、当該組と前記被分析波形の周波数情報とから、所定の周波数分解能で前記被分 析波形に含まれる周波数特徴量を抽出する被分析波形周波数特徴量抽出手段とを 備える
ことを特徴とする周波数分析装置。
[13] 所定の周波数を分析するための分析波形を用いて、被分析波形を周波数分析す るための周波数情報を作成する局所周波数情報作成装置であって、
前記分析波形の一部を構成し所定の時空間分解能を有する複数の局所分析波形 と前記被分析波形とから、前記所定の周波数における振幅スペクトルおよび位相ス ベクトルの少なくとも一方を含む前記局所分析波形に対応する複数の局所周波数情 報を求める局所周波数情報作成手段と、
前記複数の局所周波数情報を組として、所定の記憶装置に格納する格納手段とを 備える
ことを特徴とする局所周波数情報作成装置。
[14] 所定の周波数を分析するための分析波形を用いて、被分析波形を周波数分析す る装置であって、
前記分析波形の一部を構成し所定の時空間分解能を有する複数の局所分析波形 と前記被分析波形とから、前記所定の周波数における振幅スペクトルおよび位相ス ベクトルの少なくとも一方を含む前記局所分析波形に対応する複数の局所周波数情 報を取得する取得手段と、
前記取得手段が取得した前記複数の局所周波数情報を組とし、当該組と前記被分 析波形の周波数情報とから、所定の周波数分解能で前記被分析波形に含まれる周 波数特徴量を抽出する被分析波形周波数特徴量抽出手段とを備える
ことを特徴とする周波数特徴量分析装置。
[15] さらに、周波数分解能の入力を受付ける周波数分解能入力受付手段を備え、 前記被分析波形周波数特徴量抽出手段は、入力された前記周波数分解能に基づ いて、前記複数の局所周波数情報の組の構成を決定する
ことを特徴とする請求項 14に記載の周波数特徴量分析装置。
[16] 複数の音から構成される混合音中より特定の音を分離する混合音分離方法であつ て、
所定の周波数を分析するための分析波形の一部を構成し所定の時空間分解能を 有する複数の局所分析波形と前記混合音の波形である被分析波形とから、前記所 定の周波数における振幅スペクトルおよび位相スペクトルの少なくとも一方を含む前 記局所分析波形に対応する複数の局所周波数情報を求める局所周波数情報作成 ステップと、
前記複数の局所周波数情報を組とし、当該組と予め定められた特定の音に対する 周波数情報の組との間のパターンマッチングを行な 、、当該パターンマッチングの結 果に基づいて、前記複数の局所周波数情報の組を抽出する特定音周波数特徴量 抽出ステップと、
前記特定音周波数特徴量抽出ステップで抽出された前記複数の局所周波数情報 の組に基づ 、て、前記特定の音の信号を作成する音信号作成ステップとを含む ことを特徴とする混合音分離方法。
[17] 複数の音力 構成される混合音中より特定の音を分離するプログラムであって、 所定の周波数を分析するための分析波形の一部を構成し所定の時空間分解能を 有する複数の局所分析波形と前記混合音の波形である被分析波形とから、前記所 定の周波数における振幅スペクトルおよび位相スペクトルの少なくとも一方を含む前 記局所分析波形に対応する複数の局所周波数情報を求める局所周波数情報作成 ステップと、
前記複数の局所周波数情報を組とし、当該組と予め定められた特定の音に対する 周波数情報の組との間のパターンマッチングを行な 、、当該パターンマッチングの結 果に基づいて、前記複数の局所周波数情報の組を抽出する特定音周波数特徴量 抽出ステップと、
前記特定音周波数特徴量抽出ステップで抽出された前記複数の局所周波数情報 の組に基づ 、て、前記特定の音の信号を作成する音信号作成ステップとをコンビュ ータに実行させる
ことを特徴とするプログラム。
PCT/JP2006/307673 2005-05-13 2006-04-11 混合音分離装置 WO2006120829A1 (ja)

Priority Applications (4)

Application Number Priority Date Filing Date Title
DE602006018282T DE602006018282D1 (de) 2005-05-13 2006-04-11 Vorrichtung zur trennung gemischter audiosignale
EP06731620A EP1881489B1 (en) 2005-05-13 2006-04-11 Mixed audio separation apparatus
JP2006522162A JP4041154B2 (ja) 2005-05-13 2006-04-11 混合音分離装置
US11/665,265 US7974420B2 (en) 2005-05-13 2006-04-11 Mixed audio separation apparatus

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
JP2005-141939 2005-05-13
JP2005141939 2005-05-13

Publications (1)

Publication Number Publication Date
WO2006120829A1 true WO2006120829A1 (ja) 2006-11-16

Family

ID=37396345

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/JP2006/307673 WO2006120829A1 (ja) 2005-05-13 2006-04-11 混合音分離装置

Country Status (6)

Country Link
US (1) US7974420B2 (ja)
EP (1) EP1881489B1 (ja)
JP (1) JP4041154B2 (ja)
CN (1) CN100585701C (ja)
DE (1) DE602006018282D1 (ja)
WO (1) WO2006120829A1 (ja)

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2009270896A (ja) * 2008-05-02 2009-11-19 Tektronix Japan Ltd 信号分析装置及び周波数領域データ表示方法
WO2013005550A1 (ja) * 2011-07-01 2013-01-10 クラリオン株式会社 直接音抽出装置および残響音抽出装置
JP2016161573A (ja) * 2015-02-27 2016-09-05 キーサイト テクノロジーズ, インク. 広帯域位相スペクトル測定における使用に適合した位相勾配基準
WO2018055673A1 (ja) * 2016-09-20 2018-03-29 三菱電機株式会社 干渉識別装置および干渉識別方法
TWI740315B (zh) * 2019-08-23 2021-09-21 大陸商北京市商湯科技開發有限公司 聲音分離方法、電子設備和電腦可讀儲存媒體
WO2022059869A1 (ko) * 2020-09-15 2022-03-24 삼성전자 주식회사 영상의 음질을 향상시키는 디바이스 및 방법
JP2022521244A (ja) * 2019-02-19 2022-04-06 株式会社ソニー・インタラクティブエンタテインメント ハイブリッドスピーカ及びコンバータ

Families Citing this family (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2007080764A1 (ja) * 2006-01-12 2007-07-19 Matsushita Electric Industrial Co., Ltd. 対象音分析装置、対象音分析方法および対象音分析プログラム
US20070299657A1 (en) * 2006-06-21 2007-12-27 Kang George S Method and apparatus for monitoring multichannel voice transmissions
US8219409B2 (en) * 2008-03-31 2012-07-10 Ecole Polytechnique Federale De Lausanne Audio wave field encoding
US8620646B2 (en) * 2011-08-08 2013-12-31 The Intellisis Corporation System and method for tracking sound pitch across an audio signal using harmonic envelope
US8925058B1 (en) * 2012-03-29 2014-12-30 Emc Corporation Authentication involving authentication operations which cross reference authentication factors
US9670492B2 (en) 2013-08-28 2017-06-06 Ionis Pharmaceuticals, Inc. Modulation of prekallikrein (PKK) expression
CN103871417A (zh) * 2014-03-25 2014-06-18 北京工业大学 一种移动手机特定连续语音过滤方法及过滤装置
EP3137091B1 (en) 2014-05-01 2020-12-02 Ionis Pharmaceuticals, Inc. Conjugates of modified antisense oligonucleotides and their use for modulating pkk expression
JP6696221B2 (ja) * 2016-02-26 2020-05-20 セイコーエプソン株式会社 制御装置、受電装置、電子機器及び電力伝送システム
CN106128472A (zh) * 2016-07-12 2016-11-16 乐视控股(北京)有限公司 演唱者声音的处理方法及装置
JP6907859B2 (ja) * 2017-09-25 2021-07-21 富士通株式会社 音声処理プログラム、音声処理方法および音声処理装置
CN109801644B (zh) 2018-12-20 2021-03-09 北京达佳互联信息技术有限公司 混合声音信号的分离方法、装置、电子设备和可读介质

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2004028640A (ja) * 2002-06-21 2004-01-29 Sony Corp スペクトラムアナライザー装置、再生装置、スペクトラム解析方法、プログラム、記録媒体

Family Cites Families (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
DE4121356C2 (de) * 1991-06-28 1995-01-19 Siemens Ag Verfahren und Einrichtung zur Separierung eines Signalgemisches
US6317703B1 (en) * 1996-11-12 2001-11-13 International Business Machines Corporation Separation of a mixture of acoustic sources into its components
SE521024C2 (sv) * 1999-03-08 2003-09-23 Ericsson Telefon Ab L M Metod och anordning för att separera en blandning av källsignaler
EP1887561A3 (en) * 1999-08-26 2008-07-02 Sony Corporation Information retrieving method, information retrieving device, information storing method and information storage device
JP4491700B2 (ja) 1999-08-26 2010-06-30 ソニー株式会社 音響検索処理方法、音響情報検索装置、音響情報蓄積方法、音響情報蓄積装置および音響映像検索処理方法、音響映像情報検索装置、音響映像情報蓄積方法、音響映像情報蓄積装置
US6879952B2 (en) * 2000-04-26 2005-04-12 Microsoft Corporation Sound source separation using convolutional mixing and a priori sound source knowledge
JP2002236494A (ja) 2001-02-09 2002-08-23 Denso Corp 音声区間判別装置、音声認識装置、プログラム及び記録媒体
JP2003061198A (ja) * 2001-08-10 2003-02-28 Pioneer Electronic Corp オーディオ再生装置
JP3931237B2 (ja) * 2003-09-08 2007-06-13 独立行政法人情報通信研究機構 ブラインド信号分離システム、ブラインド信号分離方法、ブラインド信号分離プログラムおよびその記録媒体
US7454333B2 (en) * 2004-09-13 2008-11-18 Mitsubishi Electric Research Lab, Inc. Separating multiple audio signals recorded as a single mixed signal
JP2007034184A (ja) * 2005-07-29 2007-02-08 Kobe Steel Ltd 音源分離装置,音源分離プログラム及び音源分離方法
US8014536B2 (en) * 2005-12-02 2011-09-06 Golden Metallic, Inc. Audio source separation based on flexible pre-trained probabilistic source models
WO2007080764A1 (ja) * 2006-01-12 2007-07-19 Matsushita Electric Industrial Co., Ltd. 対象音分析装置、対象音分析方法および対象音分析プログラム
JP4672611B2 (ja) * 2006-07-28 2011-04-20 株式会社神戸製鋼所 音源分離装置、音源分離方法及び音源分離プログラム

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2004028640A (ja) * 2002-06-21 2004-01-29 Sony Corp スペクトラムアナライザー装置、再生装置、スペクトラム解析方法、プログラム、記録媒体

Non-Patent Citations (5)

* Cited by examiner, † Cited by third party
Title
HIROKI NAKANO; OTHER TWO AUTHORS: "Ueiburetto ni yoru Shingo Shori to Gazo Shori (Signal Processing and Image Processing through Wavelet", 15 August 1999, KYORITSU PRESS, pages: 35 - 39
KAMEOKA H. ET AL.: "Audio Stream Segregation Based on Time-Space Clustering Using Gaussian Kernel 2-Dimensional Model", ACOUSTICS, SPEECH, AND SIGNAL PROCESSING, 2005. PROCEEDINGS. (ICASSP'05). 2005 IEEE INTERNATIONAL CONFERENCE, vol. 3, March 2005 (2005-03-01), pages 5 - 8, XP010792315 *
SEIICHI NAKAGAWA: "Patan Joho Shori (Pattern Image Processing", 30 March 1999, MARUZEN CO. LTD., pages: 14 - 19
SRINIVASAN S.H. AND KANKANHALLI M.: "Harmonicity and dynamics based audio separation", ACOUSTICS, SPEECH, AND SIGNAL PROCESSING, 2003. PROCEEDINGS. (ICASSP'03). 2003 IEEE INTERNATIONAL CONFERENCE, vol. 5, 6 April 2003 (2003-04-06), pages 640 - 643, XP010639353 *
THOMAS F. QUATIERI; RONALD G. DANISEWICZ: "An Approach to Co-Channel Talker Interference Suppression Using a Sinusoidal Model for Speech", IEEE TRANSACTIONS ON ACCOUSTICS, SPEECH AND SIGNAL PROCESSING, vol. 38, no. 1, January 1990 (1990-01-01), pages 56 - 69

Cited By (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2009270896A (ja) * 2008-05-02 2009-11-19 Tektronix Japan Ltd 信号分析装置及び周波数領域データ表示方法
WO2013005550A1 (ja) * 2011-07-01 2013-01-10 クラリオン株式会社 直接音抽出装置および残響音抽出装置
JP2013015606A (ja) * 2011-07-01 2013-01-24 Clarion Co Ltd 直接音抽出装置および残響音抽出装置
CN103503066A (zh) * 2011-07-01 2014-01-08 歌乐株式会社 直达声提取装置和混响声提取装置
JP2016161573A (ja) * 2015-02-27 2016-09-05 キーサイト テクノロジーズ, インク. 広帯域位相スペクトル測定における使用に適合した位相勾配基準
WO2018055673A1 (ja) * 2016-09-20 2018-03-29 三菱電機株式会社 干渉識別装置および干渉識別方法
DE112016007146B4 (de) * 2016-09-20 2019-12-24 Mitsubishi Electric Corporation Störungsidentifizierungsvorrichtung und Störungsidentifizierungsverfahren
JP2022521244A (ja) * 2019-02-19 2022-04-06 株式会社ソニー・インタラクティブエンタテインメント ハイブリッドスピーカ及びコンバータ
JP7271695B2 (ja) 2019-02-19 2023-05-11 株式会社ソニー・インタラクティブエンタテインメント ハイブリッドスピーカ及びコンバータ
US11832071B2 (en) 2019-02-19 2023-11-28 Sony Interactive Entertainment Inc. Hybrid speaker and converter
TWI740315B (zh) * 2019-08-23 2021-09-21 大陸商北京市商湯科技開發有限公司 聲音分離方法、電子設備和電腦可讀儲存媒體
WO2022059869A1 (ko) * 2020-09-15 2022-03-24 삼성전자 주식회사 영상의 음질을 향상시키는 디바이스 및 방법

Also Published As

Publication number Publication date
US20090067647A1 (en) 2009-03-12
EP1881489B1 (en) 2010-11-17
EP1881489A4 (en) 2008-05-28
CN101040324A (zh) 2007-09-19
EP1881489A1 (en) 2008-01-23
CN100585701C (zh) 2010-01-27
DE602006018282D1 (de) 2010-12-30
JP4041154B2 (ja) 2008-01-30
JPWO2006120829A1 (ja) 2008-12-18
US7974420B2 (en) 2011-07-05

Similar Documents

Publication Publication Date Title
WO2006120829A1 (ja) 混合音分離装置
JP4065314B2 (ja) 対象音分析装置、対象音分析方法および対象音分析プログラム
Wang et al. Specaugment++: A hidden space data augmentation method for acoustic scene classification
US20060064299A1 (en) Device and method for analyzing an information signal
US20050228518A1 (en) Filter set for frequency analysis
JP2001184083A (ja) 自動音声認識のための特徴量抽出方法
JP2015138053A (ja) 音響信号処理装置およびその方法
Do et al. Speech Separation in the Frequency Domain with Autoencoder.
Chu et al. A noise-robust FFT-based auditory spectrum with application in audio classification
Dziubinski et al. Estimation of musical sound separation algorithm effectiveness employing neural networks
JP4119112B2 (ja) 混合音の分離装置
Agcaer et al. Optimization of amplitude modulation features for low-resource acoustic scene classification
JP3699912B2 (ja) 音声特徴量抽出方法と装置及びプログラム
Muhsina et al. Signal enhancement of source separation techniques
Olivero et al. Sound morphing strategies based on alterations of time-frequency representations by Gabor multipliers
Dang et al. THLNet: two-stage heterogeneous lightweight network for monaural speech enhancement
Zhang et al. Improving Design of Input Condition Invariant Speech Enhancement
Jiang et al. A Complex Neural Network Adaptive Beamforming for Multi-channel Speech Enhancement in Time Domain
Fitzgerald et al. On inpainting the adress algorithm
Becker et al. Adaptive weights for NMF with additional priors
Lee et al. Adversarial audio synthesis using a harmonic-percussive discriminator
EP2840570A1 (en) Enhanced estimation of at least one target signal
Ragano et al. Exploring a Perceptually-Weighted DNN-based Fusion Model for Speech Separation.
JP3223564B2 (ja) ピッチ抽出方法
Sharma et al. Time-varying sinusoidal demodulation for non-stationary modeling of speech

Legal Events

Date Code Title Description
WWE Wipo information: entry into national phase

Ref document number: 2006522162

Country of ref document: JP

121 Ep: the epo has been informed by wipo that ep was designated in this application
WWE Wipo information: entry into national phase

Ref document number: 11665265

Country of ref document: US

Ref document number: 2006731620

Country of ref document: EP

Ref document number: 200680001027.6

Country of ref document: CN

NENP Non-entry into the national phase

Ref country code: DE

NENP Non-entry into the national phase

Ref country code: RU

WWP Wipo information: published in national office

Ref document number: 2006731620

Country of ref document: EP