WO2007083814A1 - 音源分離装置及び音源分離方法 - Google Patents

音源分離装置及び音源分離方法 Download PDF

Info

Publication number
WO2007083814A1
WO2007083814A1 PCT/JP2007/051009 JP2007051009W WO2007083814A1 WO 2007083814 A1 WO2007083814 A1 WO 2007083814A1 JP 2007051009 W JP2007051009 W JP 2007051009W WO 2007083814 A1 WO2007083814 A1 WO 2007083814A1
Authority
WO
WIPO (PCT)
Prior art keywords
signal
sound source
signals
separation
source separation
Prior art date
Application number
PCT/JP2007/051009
Other languages
English (en)
French (fr)
Inventor
Takashi Hiekata
Takashi Morita
Hiroshi Saruwatari
Yoshimitsu Mori
Original Assignee
Kabushiki Kaisha Kobe Seiko Sho
Nara Institute Of Science And Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Kabushiki Kaisha Kobe Seiko Sho, Nara Institute Of Science And Technology filed Critical Kabushiki Kaisha Kobe Seiko Sho
Priority to US12/223,069 priority Critical patent/US20090306973A1/en
Publication of WO2007083814A1 publication Critical patent/WO2007083814A1/ja

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0272Voice signal separating
    • G10L21/028Voice signal separating using properties of sound source

Definitions

  • sound source signals For each of the plurality of sound sources for each of the plurality of microphones. Is acquired as an audio signal (hereinafter referred to as a mixed audio signal).
  • the sound source separation processing method for identifying (separating) each of the sound source signals based only on the plurality of mixed sound signals acquired (input) in this way is a blind sound source separation method (hereinafter referred to as BSS method). Called).
  • sound source separation processing sound source separation processing by binaural signal processing (decomposition) is also known.
  • This is a sound source separation process that performs sound source separation by applying time-varying gain adjustment to a plurality of input speech signals based on a human auditory model, and can be realized with a relatively low computational load.
  • sound source separation processing by binaural signal processing has a problem that sound source separation performance is generally inferior, such as simple processing and low calculation load, but poor robustness to the position of the sound source.
  • a sound source separation device comprising: a second sound source separation means for obtaining a corresponding separation signal; Provided.
  • the sound source separation means may further comprise intermediate processing parameter setting means for setting parameters used for the predetermined intermediate processing by a predetermined operation input!
  • the intermediate processing execution means may perform a process of selecting a signal having the maximum signal level for each frequency component from the corrected plurality of specific signals.
  • the first sound source separation means performs separation processing based on a predetermined separation matrix for each section signal for each section signal obtained by dividing the plurality of mixed audio signals input in time series at a predetermined period. You can generate the SIMO signal by executing it sequentially. Based on the SIMO signal corresponding to the entire time zone of the section signal generated by the separation processing, sequential calculation for obtaining the predetermined separation matrix to be used later may be performed. The number of sequential calculations may be limited to the number that can be executed within the predetermined period.
  • the first sound source separation means determines the plurality of mixed sound signals input in time series in advance.
  • the SIMO signal may be generated by sequentially executing separation processing based on a predetermined separation matrix for the section signal.
  • the sequential calculation for obtaining the predetermined separation matrix to be used later is based on the SIMO signal corresponding to a part of the time zone on the head side of the time zone of the section signal generated by the separation processing. It can be executed within the period of the specified cycle.
  • a sound source separation method in which a plurality of mixed speech signals on which sound source signals of a plurality of sound source powers are superimposed are input and a blind sound source based on an independent component analysis method is input.
  • the sound source separation process of the separation method separates and extracts SIMO signals corresponding to at least one sound source signal from the plurality of mixed sound signals, and adds a plurality of specific signals that are at least a part of the SIMO signal to a plurality of specific signals.
  • a plurality of intermediate post-processing signals are obtained by performing predetermined intermediate processing including performing either selection processing or synthesis processing for each of the divided frequency components, and the plurality of intermediate post-processing signals are obtained.
  • a sound source separation method for obtaining a separated signal corresponding to the sound source signal by subjecting the plurality of intermediate processed signals and a part of the SIMO signal to a noinary masking process.
  • the effect of noise is obtained by performing a two-stage process in which the sound source separation process based on the binary masking process is added to the sound source separation process of the blind sound source separation method based on the independent component analysis method.
  • High sound source separation performance can be obtained even in various environments such as.
  • the intermediate processing based on the SIMO signal obtained by the sound source separation processing of the blind sound source separation method based on the independent component analysis method is executed, and the binary masking processing is performed on the signal after the intermediate processing .
  • a sound source separation process that particularly increases sound source separation performance is realized, or a sound source separation process that particularly improves the sound quality of the separated audio signal is realized.
  • a sound source separation process of a blind sound source separation method based on the frequency domain SIMO independent component analysis method, or the frequency domain independent component analysis is performed.
  • the sound source separation process of the blind sound source separation method based on the time domain SIMO independent component analysis method by performing the sound source separation process of the blind sound source separation method based on the connection method of the method and the inverse projection method. The load can be greatly reduced.
  • the number of sequential computations of the separation matrix in the first sound source separation process may be limited.
  • FIG. 1 is a block diagram showing a schematic configuration of a sound source separation device X according to an embodiment of the present invention.
  • FIG. 2 is a block diagram showing a schematic configuration of a sound source separation device XI according to the first embodiment of the present invention.
  • FIG. 3 is a block diagram showing a schematic configuration of a related sound source separation apparatus Z1 that performs BSS sound source separation processing based on the TDICA method.
  • FIG. 4 is a block diagram showing a schematic configuration of a related sound source separation device Z2 that performs sound source separation processing based on the TD-SIMO-ICA method.
  • FIG. 5 is a block diagram showing a schematic configuration of a related sound source separation device Z3 that performs sound source separation processing based on the FDICA method.
  • FIG. 6 is a block diagram showing a schematic configuration of a sound source separation device Z4 that performs sound source separation processing based on the FD-SIMO-ICA method.
  • FIG. 7 is a block diagram showing a schematic configuration of a related sound source separation device Z5 that performs sound source separation processing based on the FDICA-PB method.
  • FIG. 8 is a diagram for explaining a nounary masking process.
  • FIG. 9 A diagram schematically showing the first example of signal level distribution for each frequency component in the signal before and after the binary masking process is applied to the SIMO signal (when there is no overlap in the frequency components of each sound source signal). .
  • FIG. 10 A diagram schematically showing a second example of the signal level distribution for each frequency component in the signal before and after the binary masking process is applied to the SIMO signal (when the frequency components of each sound source signal overlap). .
  • FIG. 10 is a diagram schematically showing a third example of signal level distribution for each minute (when the level of the target sound source signal is relatively small).
  • FIG. 12 is a diagram schematically showing the contents of a first example of sound source separation processing for a SIMO signal in the sound source separation device XI.
  • FIG. 13 is a diagram schematically showing the contents of a second example of the sound source separation process for the SIMO signal in the sound source separation device XI.
  • FIG. 14 is a diagram showing experimental conditions for sound source separation performance evaluation using a sound source separation device XI.
  • FIG. 15 is a graph showing sound source separation performance and sound quality evaluation values when sound source separation is performed under predetermined experimental conditions by each of the related sound source separation device and the sound source separation device according to the present invention. .
  • FIG. 16 is a time chart for explaining a first example of separation matrix calculation in sound source separation apparatus X.
  • FIG. 17 is a time chart for explaining a second example of separation matrix calculation in the sound source separation apparatus X.
  • FIG. 18 is a diagram schematically showing the contents of a third example of the sound source separation process for the SIMO signal in the sound source separation device XI.
  • any of the following sound source separation processes or apparatuses for performing the processes is input through each of the microphones in a state where a plurality of sound sources and a plurality of microphones (voice input devices) exist in a predetermined acoustic space.
  • a sound source separation process for generating a separated signal obtained by separating (identifying) one or more sound source signals from a plurality of mixed sound signals on which individual sound signals from each of the sound sources (hereinafter referred to as sound source signals) are superimposed. It relates to equipment that performs processing.
  • the sound source separation device Z receives sound source signals Sl (t) and S2 (t) (sound signals for each sound source) from two sound sources 1 and 2 through two microphones 111 and 112 by the separation filter processing unit 11. Two-channel (number of microphones) mixed sound signals xl (t) and x2 (t) are filtered by the separation matrix W (z) to perform sound source separation.
  • the sound source signals Sl (t) and S2 (t) (individual audio signals) from the two sound sources 1 and 2 are input to the two microphones 111 and 112, and the two channels (number of microphones)
  • the two channels number of microphones
  • sound source separation is performed based on mixed audio signals xl (t) and x2 (t)
  • the same applies to two or more channels.
  • sound source separation by the BSS method based on the IC A method (number of input mixed audio signal channels n (ie, number of microphones)) ⁇ (sound source A few m).
  • the sound source signals from a plurality of sound sources are superimposed on each of the mixed sound signals xl (t) and x2 (t) collected by the plurality of microphones 111 and 112, respectively.
  • the mixed audio signals xl (t) and x2 (t) are generically expressed as x (t).
  • the mixed sound signal x (t) is expressed as a temporal and spatial convolution signal of the sound source signal S (t) and is expressed as the following equation (1).
  • ⁇ ( ⁇ ) is a spatial matrix when the sound source force is also input to the microphone.
  • alpha update coefficient, [j] is the number of updates, ingredients -.> T represents the average time.
  • off-diag X represents an operation that replaces all diagonal elements of matrix X with D.
  • ⁇ ( ⁇ ) represents an appropriate nonlinear vector power having elements such as sigmoid functions.
  • a related sound source separation device Z3 that performs sound source separation processing based on the FDICA method (Frequency-Domain ICA), which is a type of ICA method, will be described using the block diagram shown in FIG.
  • FDICA Frequency-Domain ICA
  • ST-DFT short-time discrete Fourier transform
  • the update expression of the separation filter W (f) can be expressed as, for example, the following expression (7).
  • off-diag X represents an operation that changes all diagonal elements of matrix X to zero.
  • ⁇ ( '-') is e representing a suitable nonlinear base vector function with a sigmoid function or the like to the elements
  • FDSIMO-ICA method the frequency domain SIMO independent component analysis method
  • FD-SIMO-ICA method the frequency domain SIMO independent component analysis method
  • Fidelity Controll2 uses each signal obtained by performing ST-DFT processing on each mixed audio signal xi (t).
  • the separation filter W (f) is updated (sequential calculation).
  • separation processing filtering processing based on a predetermined separation matrix W (f) is performed on the plurality of mixed audio signals xl (f) and x2 (f) in the transformed frequency domain by the separation filter processing unit 1 If. ) To generate first separated signals yll (f) and y22 (f) corresponding to one of the sound source signals Sl (t) and S2 (t) for each of the mixed audio signals.
  • a separation matrix calculation unit (not shown) performs sequential calculation based on both the first separation signals yll (f) and x2 (f) and the second separation signals yl2 (f) and y21 (f). And the separation matrix W (f) used in the separation filter processing unit 1 If is calculated.
  • the separation matrix calculation unit is configured to generate a separation filter (separation matrix) W (f) represented by the following equation (8) based on the first separation signal and the second separation signal.
  • the separation matrix W (f) is calculated by an update formula. [Equation 8]
  • is the update coefficient
  • i is the number of updates
  • ⁇ ⁇ is the time average
  • // is Hermitian roll g.
  • off-diag X represents an operation that replaces all diagonal searches in matrix X with zeros.
  • «? ( ⁇ ) represents an appropriate nonlinear vector function having a Ngmoidal function or the like as an element.
  • a final separation signal (a sound source signal identification signal) is obtained by performing arithmetic processing on the inverse matrix Wl (f) of the separation matrix W (f) by the calculation unit 14.
  • the remaining signal components other than the separated signals yi (f) are set as 0 (zero) inputs.
  • the sound source separation device X is a state in which a plurality of sound sources 1 and 2 and a plurality of microphones 111 and 11 2 exist in a certain acoustic space, and the sound sources 1 and 2 input through the microphones 111 and 112, respectively.
  • a separated signal (identification signal) y is obtained by separating (identifying) one or more sound source signals (individual audio signals) from a plurality of mixed audio signals Xi (t) on which sound source signals (individual audio signals) are superimposed. It will be generated.
  • the feature of the sound source separation device X is that it includes the following components (1) to (3).
  • SI independent component analysis
  • BSS blind sound source separation
  • SIMO-IC A processing unit 10 that separates and generates the identified SI MO signal (a plurality of separated signals corresponding to one sound source signal).
  • a predetermined intermediate process including performing a selection process or a synthesis process for each of the divided frequency components
  • the frequency component is divided into, for example, an equal division with a predetermined frequency width.
  • Each of the intermediate processing execution units 41 and 42 illustrated in FIG. 1 performs the intermediate processing based on three separated signals (an example of a specific signal) out of SIMO signals composed of four separated signals.
  • One intermediate post-process signal ydl (f), yd2 (f) is output.
  • the process in which the SIMO-ICA processing unit 10 performs the sound source separation process is an example of the first sound source separation process, and the intermediate process execution units 41 and 42 have the process power to perform the intermediate process.
  • the process in which the binaural signal processing units 21 and 22 perform the binary masking process is an example of the second sound source separation process.
  • the SIMO signal input to one binaural signal processing unit 21 is a SIMO signal that is a target of intermediate processing by the corresponding intermediate processing execution unit 41. is there.
  • the SIMO signal input to the other normal signal processing unit 22 is also a SIMO signal for which the corresponding intermediate processing execution unit 42 is the target of the intermediate processing.
  • the example shown in FIG. 2 is merely an example, and the intermediate processing execution units 41 and 42 receive the SIMO signal (y 11 (f) in FIG. 2) input to the binaural signal processing units 21 and 22. Or y22 (f)) may be input as the intermediate processing target.
  • the sound source separation device Z2 that performs sound source separation processing based on the TD-SIMO-ICA method shown in FIG. 4 or the FD-SIMO-ICA method shown in FIG.
  • the sound source separation device Z2 based on the TD-SIMO-ICA method is adopted as the SIMO-ICA processing unit 10, or the signal after the sound source separation processing based on the FD-SIMO-ICA method or the FDICA-PB method Is converted to a time domain signal by IDFT processing (Inverse Discrete Fourier Transform processing), the separated signal (identification signal) obtained by the SIMO-ICA processing unit 10 (sound source separation device Z2, etc.) is binary.
  • a device for performing a discrete Fourier transform process DFT process
  • the input signals to the binaural signal processing units 21 and 22 and the intermediate processing execution units 41 and 42 are converted from the time domain discrete signals to the frequency domain discrete signals.
  • the sound source separation device X converts the output signal (frequency domain separation signal) of the above-mentioned ⁇ inural signal processing unit 21 into a time domain signal (inverse discrete Fourier transform). It also includes an IDFT processing unit that performs conversion processing.
  • Fig. 1 shows a configuration example in which sound source separation processing is performed by binary masking processing for each SIMO signal generated for the number of channels (number of microphones).
  • SIMO signals corresponding to some channels or SIMO signals corresponding to some microphones or some decoded speech signals xi (t)
  • the comparison unit 31 detects the signal level (amplitude) distributions AL and AR for each frequency component for each of the input signals (in the present invention, the SIMO signal), and the same. The magnitude relationship of the signal level in the frequency component is determined.
  • the same number of separation signals (identification signals) CL and CR as the input signals are obtained.
  • One of the separated signals CL and CR corresponds to the sound source signal that is the target of identification of the input signal (separated signal (identification signal) by the SIMO-ICA processing unit 10), and the other is the input signal. This is equivalent to noise mixed in the sound source (sound source signals other than the sound source signal to be identified). Therefore, the two-stage processing (serial processing) by the SIMO-ICA processing unit 10 and the binaural signal processing units 21 and 22 provides high sound source separation performance even under various environments such as noise. It is done.
  • FIG. 9 shows an example in which there is no overlap in the frequency components of the sound source signals
  • FIG. 10 shows an example in which there is an overlap in the same frequency components
  • FIG. 11 shows that the frequency components of the sound source signals do not overlap, and the signal level of the target sound source signal Sl (t) is relatively low with respect to the signal level of the non-target sound source signal S2 (t).
  • An example in the case of (the amplitude is small! /) Is shown.
  • Fig. 9 (a), Fig. 10 (a) and Fig. 11 (a) show the input signal to binaural signal processing unit 21or22 as a combination of separated signals yl l (f) and yl2 (f) (SIMO signal).
  • attern a and! ⁇ ⁇
  • the bar graph of the portion corresponding to the frequency component of the target sound source signal Sl (t) is shaded to show the portion of the bar graph corresponding to the frequency component of the non-target sound source signal Sl (t).
  • Each graph is represented by a diagonal pattern.
  • the input signal to the binaural signal processing unit 21or22 is dominated by the noise source component that is the object of identification, but in addition to the noise, As a result, other sound source signal components are also mixed!
  • both input signals to the binaural signal processing unit 21or22 are separated (identified) from the same sound source signal based on audio signals recorded by different microphones. These signal levels have a level difference corresponding to the distance from the sound source to be identified to the microphone. Therefore, in the noisy masking process, signals are easily separated reliably due to the level difference. This is considered to be the reason why “pattern a” provides high separation performance even if there is an overlap in the frequency components of the sound source signals.
  • Fig. 12 schematically shows the contents of the first example of sound source separation processing for the SIMO signal in the sound source separation device XI (including the signal level distribution for each frequency component by the SIMO signal and the signal after binary masking processing).
  • FIG. 12 only the binaural signal processing unit 21 and the intermediate processing execution unit 41 corresponding to the binaural signal processing unit 21 are picked up.
  • the intermediate processing execution unit 41 outputs to the binaural signal processing unit 21 the intermediate post-processing signal ydl (f) obtained by this intermediate processing (a signal in which the signal level having the maximum for each frequency component is combined).
  • a2 0 and l ⁇ al> a3.
  • the SIMO signal shown in Fig. 12 is the same as the SIMO signal shown in Fig. 10. It is.
  • the sound source separation device XI uses the signal having the maximum signal level for each frequency component among the signals after weight correction so that al> a3, as the input signal for the binary masking process. It operates as follows.
  • the binaural signal component yl2 (f) is output with a signal level in the range of al 'yl2 (f) ⁇ a3' y22 (f) with respect to the separated signal y22 (f).
  • the separation signal yl l (f) and the separation signal yl2 (f) are input to the signal processing unit 21, a good signal separation situation as shown in Fig. 9 (a) and Fig. 10 (a) is obtained. Conceivable.
  • the separated signal yl2 (f) is a frequency component that falls to a signal level in the range of al 'yl2 (f) ⁇ a3' y22 (f) with respect to the separated signal y22 (f). Therefore, the binaural signal processing unit 21 is input with the separated signal yl l (f) and the signal obtained by reducing the separated signal y22 (f) by (a3) times, as shown in FIG. 11 It is considered that a good signal separation situation as shown in (b) can be obtained.
  • Figure 18 schematically shows the contents of the third example of sound source separation processing for SIMO signals in the sound source separation device XI (including the signal level distribution for each frequency component by the SIMO signal and the signal after binary masking processing).
  • FIG. 18 schematically shows the contents of the third example of sound source separation processing for SIMO signals in the sound source separation device XI (including the signal level distribution for each frequency component by the SIMO signal and the signal after binary masking processing).
  • the third example shown in FIG. 18 differs from the second example shown in FIG. 13 in that the processing executed by the intermediate processing execution units 41 and 42 and the processing executed by the binaural signal processing units 21 and 22 are less.
  • the sound source separation device XI that executes substantially the same processing as the second example (see FIG. 13) as a whole is different.
  • the intermediate processing execution unit 41 outputs the post-intermediate signal ydl (f) obtained by this intermediate processing (a signal in which a signal having the maximum signal level for each frequency component is combined) to the binaural signal processing unit. Output to 21.
  • the intermediate processing execution unit 42 first equalizes the four separated signals yll (f), yl2 (f), y21 (f), y22 (f) (an example of a specific signal) with a predetermined frequency width. By multiplying the frequency component signal for each frequency component by a predetermined weighting factor (bl, b2, b3, 1) Then, the signal level is corrected, and further, intermediate processing (in the figure, Max [bl 'yll (f), b2-yl2 (f), b3 -y21 (f), y22 (f)]).
  • the intermediate processing execution unit 42 uses the binaural signal processing unit 22 to output the post-intermediate processing signal yd2 (f) obtained by this intermediate processing (a signal obtained by combining signals having the maximum signal level for each frequency component). Output to. For example, 1 ⁇ bl>b2> b3 ⁇ 0.
  • the SIMO signal shown in FIG. 18 is the same as the SIMO signal shown in FIG.
  • the binaural signal processing unit 21 in the third example performs the following processing for each frequency component on the signals input thereto (the separated signal yll (f) and the intermediate processed signal ydl (f)). Execute.
  • the binaural signal processing unit 21 determines that the signal level of the intermediate post-process signal ydl (f) is equal to the signal level of the separated signal yl 1 (f) for each frequency component (in the case of the same signal). ) Adopts the component of the post-intermediate signal ydl (f) or the separated signal yll (f) as the signal component of the output signal Yl 1 (f), otherwise a predetermined constant value (here Is used as the signal component of the output signal Yll (f).
  • the binaural signal processing unit 22 in the third example performs the separation signal for each frequency component of the signals (separation signal y22 (f) and the intermediate post-processing signal yd2 (f)) input thereto.
  • the signal level of y22 (f) and the signal level of the intermediate processed signal yd2 (f) are equal (when they are the same signal)
  • the separated signal y22 (f) or the intermediate processed signal yd2 (f ) Is used as the signal component of the output signal Y22 (f).
  • a predetermined constant value here, 0 value
  • the general binary masking process means that the separated signal yl 1 (f) is used as a signal component of the output signal Yl 1 (f) depending on whether or not “yll (f) ⁇ ydl (f)”. Alternatively, it is a process for switching whether to adopt a component of the signal ydl (f) after the intermediate process or a constant value (0 value).
  • the same operational effects as described in the first example are obtained.
  • FIG. 14 is a diagram for explaining the experimental conditions for evaluating the sound source separation performance using the sound source separation device XI.
  • the experiment for evaluating the sound source separation performance was performed using two speakers at two predetermined locations in a room with a width of 4.8m (width) X 5. Om (depth).
  • the sound signal (speaker's voice) from each sound source (speaker) is input with two microphones 111 and 112 directed in opposite directions.
  • This is an experimental condition for evaluating the ability to separate a speaker's voice signal (sound source signal).
  • the sound source speakers were tested under 12 conditions, which are permutations of 2 people selected from 2 males and 2 females (4 people in total). Even if the speaker is a sound source, the conditions for the sound source separation were evaluated based on the average of the evaluation values under each combination.
  • the reverberation time is 200 ms
  • the distance from the sound source (speaker) to the nearest microphone is 1. Om
  • the two microphones 111 and 112 are 5.8 cm. Arranged at intervals.
  • the microphone model is ECMDS70P manufactured by SONY.
  • the reference direction R0 and one sound source S1 are defined when the reference direction R0 is a direction perpendicular to the directions of the microphones 111 and 112 directed in opposite directions as viewed from above.
  • the angle between the midpoint O of both microphones 111 and 112 and the directional force direction R1 is 0 1.
  • the angle ⁇ 2 formed by the reference direction R0 and the direction of the force R2 from the other sound source S2 (speaker) to the intermediate point O is defined as ⁇ 2.
  • FIGS. 15 (a) and 15 (b) show the sound source separation performance when sound source separation is performed under the above-described experimental conditions by each of the related sound source separation device and the sound source separation device according to the present invention.
  • 4 is a graph showing the evaluation result of the sound quality of the separated voice.
  • NRR No Ise Reduction Rate
  • CD Cepstral distortion
  • This CD is an index that represents the degree of sound quality, and its unit is (dB).
  • This CD represents the spectral distortion of the audio signal and represents the distance of the spectral envelope between the original sound source signal to be separated and the separated signal obtained by separating the sound source signal from the mixed audio signal.
  • the smaller the CD value S, the better the sound quality. Note that the result of the sound quality evaluation shown in FIG. 15 (b) is only when ( ⁇ 1, 0 2) ( ⁇ 40 °, 30 °).
  • PI (BM) indicates the result of binary masking.
  • P2 (ICA) indicates the result when sound source separation processing based on the FD-SIMO-ICA method shown in Fig. 6 is performed.
  • P3 (ICA + BM) is based on the FD-SIMO ICA method shown in Fig. 6. This shows the result when binary masking is applied to the SIMO signal obtained by the sound source separation processing (sound source separation processing device Z4). In other words, this corresponds to the result of performing the sound source separation processing with the configuration shown in FIGS.
  • P4 to P6 indicate the results of sound source separation processing by the sound source separation processing device XI shown in Fig. 2.
  • the conditions for correction coefficients P4, P5, and P6 are referred to as correction pattern P4, correction pattern P5, and correction pattern P6.
  • the binary masking process and the BSS sound source separation process based on the IC A method are performed independently (Pl, P2), or the binary masking process is applied to the SIMO signal obtained (P3 ),
  • the intermediate processing is performed based on the SIMO signal obtained by the BSS sound source separation processing based on the ICA method !, and the sound source separation processing is performed by using the signal after the intermediate processing to perform binary masking processing.
  • the sound source separation processing (P4 to P6) according to the present invention is superior in sound source separation performance with a large NRR value.
  • the sound source separation processing (P4 to P6) according to the present invention is superior to the sound source separation processing of P1 to P3 in that the separated sound signal having a small CD value is of higher sound quality.
  • the sound source separation processing (P4 to P6) according to the present invention, when the correction patterns P4 and P5 are set, the balance between the sound source separation performance improvement and the sound quality performance improvement is balanced. This is because the occurrence of the inconvenient phenomenon described with reference to Figs. 10 and 11 is small, and the sound source separation performance and sound quality performance are considered to have increased.
  • the sound source separation device XI when the sound source separation device XI is applied to a speech recognition device used in a robot, a car navigation system, etc., in order to prioritize noise removal, the weight coefficients al to a3, Set bl ⁇ b3.
  • the intermediate processing is not limited to this.
  • the intermediate processing execution unit 41 obtains the intermediate processed signal ydl (f ) (Synthesized signal weighted for each frequency component) is output to binaural signal processing unit 21.
  • the sound source separation processing by the BSS method based on the ICA method requires a large amount of computation in order to improve the sound source separation performance, and is not suitable for real-time processing.
  • sound source separation by binaural signal processing generally has a small amount of computation and is suitable for real-time processing, but sound source separation performance is inferior to sound source separation processing by the BSS method based on the ICA method.
  • the sound source separation processing of the SIMO-ICA processing unit 10 all of the mixed audio signals that are sequentially input are processed for every predetermined time length (for example, 3 seconds) frame signal (hereinafter referred to as Frame).
  • the learning calculation is performed using.
  • the number of sequential computations of the separation matrix in the sound source separation processing of the SIMO-ICA processing unit 10 is limited.
  • the SIMO-ICA processing unit 10 is based on the learning calculation of the separation matrix and the separation matrix.
  • the process of generating (identifying) the separated signal by filter processing (matrix operation) is executed using different frames.
  • the SIMO-ICA processing unit 10 uses the frame G) corresponding to all the mixed audio signals input during the period of time Ti to Ti + 1 (period: Ti + 1-Ti). Matrix calculation (learning) is performed, and using the separation matrix obtained thereby, it corresponds to all the mixed audio signals input during the period of time (Ti + 1 + Td) to (Ti + 2 + Td) Execute FrameG + l) 'and execute separation processing (filter processing).
  • Td is the time required to learn the separation matrix using one frame.
  • separation processing identification processing of the mixed speech signal of the next one period shifted by Frame time length + learning time is performed.
  • the SIMO-ICA processing unit 10 that calculates the separation matrix in accordance with the time chart shown in FIG. 16 (first example), the mixed speech signal input in time series is obtained at a predetermined cycle.
  • the SIMO signal is generated by sequentially executing separation processing based on a predetermined separation matrix for the frame, and generated by the separation processing.
  • the SIMO-ICA processing unit 10 in this first example performs the sequential calculation of the separation matrix.
  • the number is limited to the number of times that can be executed in the time Td within the range of the frame (interval signal) time (predetermined period). This speeds up the convergence of learning calculations and enables real-time processing.
  • FIG. 17 is a time chart showing a second example of the classification of the mixed audio signal used for each of the calculation of the separation matrix W (f) and the sound source separation processing.

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Quality & Reliability (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Circuit For Audible Band Transducer (AREA)

Abstract

 音源分離装置であって、複数の音源からの音源信号が重畳した複数の混合音声信号が入力される複数の音声入力手段と、独立成分分析法に基づくブラインド音源分離方式の音源分離処理により、該複数の混合音声信号から少なくとも1つの該音源信号に対応するSIMO信号を分離抽出する第1の音源分離手段と、該SIMO信号の少なくとも一部である複数の特定信号に複数に区分された周波数成分ごとに選択処理と合成処理のどちらか一方を行うことを含む所定の中間処理を行うことにより複数の中間処理後信号を得る中間処理実行手段と、そして該複数の中間処理後信号に、又は該複数の中間処理後信号及び該SIMO信号の一部に、バイナリーマスキング処理を施すことにより該音源信号に対応する分離信号を得る第2の音源分離手段と、を具備してなる。

Description

音源分離装置及び音源分離方法
技術分野
[0001] 本発明は、所定の音響空間に複数の音源と複数の音声入力手段とが存在する状 態で、その音声入力手段各々を通じて入力される前記音源各々からの個別音声信 号が重畳された複数の混合音声信号から、 1以上の前記個別音声信号を同定 (分離
)する音源分離装置及び音源分離方法に関するものである。
背景技術
[0002] 所定の音響空間に複数の音源と複数のマイク (音声入力手段)とが存在する場合、 その複数のマイクごとに、複数の音源各々力もの個別音声信号 (以下、音源信号とい う)が重畳された音声信号 (以下、混合音声信号という)が取得される。このようにして 取得 (入力)された複数の前記混合音声信号のみに基づ!、て、前記音源信号各々を 同定 (分離)する音源分離処理の方式は、ブラインド音源分離方式 (以下、 BSS方式 という)と呼ばれる。
さらに、 BSS方式の音源分離処理の 1つに、独立成分分析法 (以下、 ICA法という) に基づく BSS方式の音源分離処理がある。この ICA法に基づく BSS方式は、複数の マイクを通じて入力される複数の前記混合音声信号 (時系列の音声信号)において、 前記音源信号どうしが統計的に独立であることを利用して所定の逆混合行列を最適 化し、入力された複数の前記混合音声信号に対して最適化された逆混合行列による フィルタ処理を施すことによって前記音源信号の同定 (音源分離)を行う処理方式で ある。
一方、音源分離処理としては、バイノーラル信号処理 (分解)による音源分離処理も 知られている。これは、人間の聴覚モデルに基づいて複数の入力音声信号に時変の ゲイン調節を施して音源分離を行うものであり、比較的低い演算負荷で実現できる音 源分離処理である。
発明の開示
発明が解決しょうとする課題 [0003] しかしながら、前記音源信号 (個別音声信号)の独立性に着目した ICA法に基づく BSS方式による音源分離処理は、これを実環境で用いた場合、音声信号の伝達特 性や背景ノイズ等の影響により、統計量を高精度で推定できず (即ち、前記逆混合行 列が十分に最適化されず)、十分な音源分離性能 (前記音源信号の同定性能)が得 られな 、場合があると 、う問題点があった。
また、バイノーラル信号処理による音源分離処理は、処理が簡易で演算負荷が低 い反面、音源の位置に対しての頑健性が悪い等、一般に音源分離性能は劣るという 問題点があった。
一方、音源分離処理は、その適用対象によっては、分離後の音声信号に特定の音 源以外の他の音源からの音声信号が極力含まれて 、な 、こと (音源分離性能が高 ヽ こと)が特に重視される場合や、また、分離後の音声信号の音質が良い (スぺ外ル歪 みが小さい)ことが特に重視される場合がある。しかしながら、関連の音源分離装置 は、そのように重視される目的に応じた音源分離を行うことができないという問題点も めつに。
従って、本発明の目的は、ノイズの影響がある等の多様な環境下においても高い 音源分離性能が得られるとともに、重視される目的 (音源分離性能又は音質)に応じ た音源分離処理が可能な音源分離装置及び音源分離方法を提供することにある。 課題を解決するための手段
[0004] 上記の目的を達成するために、本発明によると、音源分離装置であって、複数の音 源力 の音源信号が重畳した複数の混合音声信号が入力される複数の音声入力手 段と、独立成分分析法に基づくブラインド音源分離方式の音源分離処理により、該 複数の混合音声信号力 少なくとも 1つの該音源信号に対応する SIMO信号を分離 抽出する第 1の音源分離手段と、該 SIMO信号の少なくとも一部である複数の特定 信号に複数に区分された周波数成分ごとに選択処理と合成処理のどちらか一方を 行うことを含む所定の中間処理を行うことにより複数の中間処理後信号を得る中間処 理実行手段と、そして該複数の中間処理後信号に、又は該複数の中間処理後信号 及び該 SIMO信号の一部に、ノイナリーマスキング処理を施すことにより該音源信号 に対応する分離信号を得る第 2の音源分離手段と、を具備してなる音源分離装置が 提供される。
該音源分離手段は更に、該所定の中間処理に用いるパラメータを、所定の操作入 力によって設定する中間処理パラメータ設定手段を具備してもよ!、。
該中間処理実行手段が、該複数の特定信号に、該周波数成分ごとに信号レベル を各々所定の重み付けにより補正し、補正された該複数の特定信号に、該周波数成 分ごとに該選択処理と該合成処理のどちらか一方を行ってもよい。
該中間処理実行手段が、補正された該複数の特定信号の中から、該周波数成分 ごとに信号レベルが最大のものを選択する処理を行ってもよい。
該音源分離装置は更に、時間領域における該複数の混合音声信号に短時間離散 フーリエ変換処理を施して周波数領域における複数の混合音声信号へ変換する短 時間離散フーリエ変換手段と、該周波数領域における複数の混合音声信号に所定 の分離行列に基づく分離処理を施すことにより該周波数領域における複数の混合音 声信号ごとに該音源信号にそれぞれ対応した第 1の分離信号を生成する FDICA音 源分離手段と、該周波数領域における複数の混合音声信号各々から、該第 1の分離 信号を減算して第 2の分離信号を生成する減算手段と、そして、該第 1の分離信号及 び該第 2の分離信号に基づく逐次計算により該 FDICA音源分離手段における該所 定の分離行列を計算する分離行列計算手段と、を具備してもよい。該第 1の音源分 離手段が、周波数領域 SIMO独立成分分析法に基づくブラインド音源分離方式の 音源分離処理を行ってもょ ヽ。
該第 1の音源分離手段が、周波数領域独立成分分析法と逆射影法との連結手法 に基づくブラインド音源分離方式の音源分離処理を行ってもよい。
前記第 1の音源分離手段が、時系列に入力される該複数の混合音声信号が予め 定められた周期で区分された区間信号ごとに、該区間信号に対し所定の分離行列 に基づく分離処理を順次実行して該 SIMO信号を生成しともよ ヽ。該分離処理により 生成した該区間信号の全時間帯に対応する該 SIMO信号に基づいて、以降に用い る該所定の分離行列を求める逐次計算を行ってもよい。そして、該逐次計算の回数 は、該予め定められた周期の時間内で実行可能な回数に制限されてもよい。
該第 1の音源分離手段が、時系列に入力される該複数の混合音声信号が予め定 められた周期で区分された区間信号ごとに、該区間信号に対し所定の分離行列に 基づく分離処理を順次実行して該 SIMO信号を生成してもよ 1ゝ。該分離処理により 生成した該区間信号の時間帯のうちの先頭側の一部の時間帯に対応する該 SIMO 信号に基づいて以降に用いる該所定の分離行列を求める逐次計算を該予め定めら れた周期の時間内で実行してもよ ヽ。
上記の目的を達成するために、本発明によると、音源分離方法であって、複数の音 源力 の音源信号が重畳した複数の混合音声信号を入力し、独立成分分析法に基 づくブラインド音源分離方式の音源分離処理により該複数の混合音声信号から少な くとも 1つの該音源信号に対応する SIMO信号を分離抽出し、該 SIMO信号の少なく とも一部である複数の特定信号に、複数に区分された周波数成分ごとに選択処理と 合成処理のどちらか一方を行うことを含む所定の中間処理を行うことにより複数の中 間処理後信号を得て、そして、該複数の中間処理後信号に、又は該複数の中間処 理後信号及び該 SIMO信号の一部に、ノイナリーマスキング処理を施すことにより該 音源信号に対応する分離信号を得る音源分離方法も提供される。
発明の効果
本発明によれば、前記独立成分分析法に基づくブラインド音源分離方式の音源分 離処理に、比較的簡易な前記バイナリーマスキング処理による音源分離処理を加え た 2段階処理を行うことにより、ノイズの影響がある等の多様な環境下においても高い 音源分離性能が得られる。
さらに、本発明では、前記独立成分分析法に基づくブラインド音源分離方式の音 源分離処理によって得られる前記 SIMO信号に基づく前記中間処理を実行し、その 中間処理後の信号について前記バイナリーマスキング処理を施す。これにより、前記 中間処理の内容に応じて、音源分離性能が特に高まるような音源分離処理を実現し たり、或いは分離後の音声信号の音質が特に高まるような音源分離処理を実現した りすることができる。その結果、重視する目的 (音源分離性能又は音質)に応じて柔軟 に対応できる音源分離処理が可能となる。
また、前記第 1の音源分離処理として、前記周波数領域 SIMO独立成分分析法に 基づくブラインド音源分離方式の音源分離処理や、前記周波数領域独立成分分析 法と前記逆射影法との連結手法に基づく前記ブラインド音源分離方式の音源分離処 理を行うことにより、前記時間領域 SIMO独立成分分析法に基づくブラインド音源分 離方式の音源分離処理に比べ、処理負荷を大幅に軽減できる。
また、前記第 1の音源分離処理における前記分離行列の逐次計算回数を制限したり
、その逐次計算に用いる前記 SIMO信号のサンプル数を減らすことにより、音源分離 性能を確保しつつリアルタイム処理が可能となる。
図面の簡単な説明
[図 1]本発明の実施形態に係る音源分離装置 Xの概略構成を表すブロック図である。
[図 2]本発明の第 1実施例に係る音源分離装置 XIの概略構成を表すブロック図であ る。
[図 3]TDICA法に基づく BSS方式の音源分離処理を行う関連の音源分離装置 Z1の 概略構成を表すブロック図である。
[図 4]TD-SIMO-ICA法に基づく音源分離処理を行う関連の音源分離装置 Z2の概 略構成を表すブロック図である。
[図 5]FDICA法に基づく音源分離処理を行う関連の音源分離装置 Z3の概略構成を 表すブロック図である。
[図 6]FD-SIMO-ICA法に基づく音源分離処理を行う音源分離装置 Z4の概略構成 を表すブロック図である。
[図 7]FDICA-PB法に基づく音源分離処理を行う関連の音源分離装置 Z5の概略構 成を表すブロック図である。
[図 8]ノイナリーマスキング処理を説明するための図である。
[図 9]SIMO信号にバイナリーマスキング処理を施す前後の信号における周波数成 分ごとの信号レベル分布の第 1例 (音源信号各々の周波数成分に重複がない場合) を模式的に表した図である。
[図 10]SIMO信号にバイナリーマスキング処理を施す前後の信号における周波数成 分ごとの信号レベル分布の第 2例 (音源信号各々の周波数成分に重複がある場合) を模式的に表した図である。
[図 ll]SIMO信号にバイナリーマスキング処理を施す前後の信号における周波数成 分ごとの信号レベル分布の第 3例(目的音源信号のレベルが比較的小さ!ヽ場合)を 模式的に表した図である。
[図 12]音源分離装置 XIにおける SIMO信号に対する音源分離処理の第 1例の内容 を模式的に表した図である。
[図 13]音源分離装置 XIにおける SIMO信号に対する音源分離処理の第 2例の内容 を模式的に表した図である。
[図 14]音源分離装置 XIを用いた音源分離性能評価の実験条件を表す図である。
[図 15]関連の音源分離装置と本発明に係る音源分離装置との各々により所定の実 験条件の下で音源分離を行ったときの音源分離性能及び音質の評価値を表すダラ フである。
[図 16]音源分離装置 Xにおける分離行列計算の第 1例を説明するためのタイムチヤ ートである。
[図 17]音源分離装置 Xにおける分離行列計算の第 2例を説明するためのタイムチヤ ートである。
[図 18]音源分離装置 XIにおける SIMO信号に対する音源分離処理の第 3例の内容 を模式的に表した図である。
符号の説明
X…本発明の実施形態に係る音源分離装置
XI…本発明の第 1実施例に係る音源分離装置
I、 2· ··音源
10· · 'SIMO- ICA処理部
I I、 1 If…分離フィルタ処理部
12· -Fidelity Controller
13- ST- DFT処理咅
14· ··逆行列演算部
15- IDFT処理咅
21、 22· ··バイノーラル信号処理部
31 · · 'バイナリーマスキング処理における比較部 32· ··バイナリーマスキング処理における分離部
41、 42…中間処理実行部
111、 112· ··マイクロホン
発明を実施するための最良の形態
[0008] 以下添付図面を参照しながら、本発明の実施の形態について説明し、本発明の理 解に供する。尚、以下の実施の形態は、本発明を具体ィ匕した一例であって、本発明 の技術的範囲を限定する性格のものではな 、。
[0009] まず、本発明の実施形態について説明する前に、図 3〜図 7に示すブロック図を参 照しつつ、各種の ICA法に基づくブラインド音源分離方式 (ICA法に基づく BSS方 式)の音源分離装置について説明する。
なお、以下に示す音源分離処理或いはその処理を行う装置等は、いずれも所定の 音響空間に複数の音源と複数のマイクロホン (音声入力装置)とが存在する状態で、 そのマイクロホン各々を通じて入力される前記音源各々からの個別の音声信号 (以 下、音源信号という)が重畳された複数の混合音声信号から、 1以上の音源信号を分 離(同定)した分離信号を生成する音源分離処理或いはその処理を行う装置等に関 するものである。
[0010] 図 3は、 ICA法の一種である時間領域独立成分分析法 (TDICA法と 、う)に基づく BSS方式の音源分離処理を行う関連の音源分離装置 Z1の概略構成を表すブロック 図である。
前記音源分離装置 Zは、分離フィルタ処理部 11により、 2つの音源 1、 2からの音源 信号 Sl(t)、 S2(t) (音源ごとの音声信号)を 2つのマイクロホン 111、 112で入力した 2 チャンネル(マイクロホンの数)の混合音声信号 xl(t)、 x2(t)について、分離行列 W(z )によりフィルタ処理を施すことによって音源分離を行う。
図 3には、 2つの音源 1、 2からの音源信号 Sl(t)、 S2(t) (個別音声信号)を 2つの前 記マイクロホン 111、 112で入力した 2チャンネル(マイクロホンの数)の前記混合音 声信号 xl(t)、 x2(t)に基づいて音源分離を行う例について示しているが、 2チャンネ ル以上であっても同様である。前記 IC A法に基づく BSS方式による音源分離の場合 、(入力される混合音声信号のチャンネル数 n (即ち、マイクロホンの数))≥ (音源の 数 m)であればよい。
複数の前記マイクロホン 111、 112各々で集音された前記混合音声信号 xl(t)、 x2( t)それぞれには、複数音源からの前記音源信号が重畳されている。以下、前記混合 音声信号 xl(t)、 x2(t)を総称して x(t)と表す。この混合音声信号 x(t)は前記音源信号 S(t)の時間的空間的な畳み込み信号として表現され、次の(1)式のように表される。
[数 1]
Figure imgf000010_0001
ここで、 Α(ζ)は音源力もマイクに入力される際の空間行列である。
前記 TDICA法による音源分離の理論は、前記音源信号 S(t)のそれぞれの音源同 士が統計的に独立であることを利用すると、 x(t)がわかれば S(t)を推測することができ
、従って、音源を分離することができるという発想に基づく理論である。
ここで、当該音源分離処理に用いる前記分離行列を W(z)とすれば、前記分離信号
(即ち、同定信号) y(t)は、次の(2)式で表される。
[数 2]
Figure imgf000010_0002
ここで、 W(z)は、出力 y(t)力も逐次計算により求められる。また、前記分離信号は、チ ヤンネルの数だけ得られる。
なお、音源合成処理はこの W(z)に関する情報により、逆演算処理に相当する行列 を形成し、これを用いて逆演算を行えばよい。
このような ICA法に基づく BSS方式による音源分離を行うことにより、例えば、人の 歌声とギター等の楽器の音とが混合した複数チャンネル分の混合音声信号から、歌 声の音源信号と楽器の音源信号とが分離 (同定)される。 ここで、(2)式は、次の(3)式のように書き換えて表現できる
[数 3]
Figure imgf000011_0001
但し, Dは分離フィルタ w ( のタップ数。 そして、(3)式における分離フィルタ (分離行列) W(n)は、次の (4)式により逐次計 算される。即ち、前回 (j)の出力 y(t)を (4)式に逐次適用することより、今回 (j + 1)の W(n)を求める。
w 1] (") = w [ゾ】 („) - a ,ff - diag(<p(yU] (t))y[J](t— w +め Γ〉, }' wiy] (d) … ( 4〕 伹し, aは更新係数, 〔j]は更新回数, く… > tは時間平均を表す。
off-diag X は行列 Xの全ての対角要素をゼロに置き換える演算処理を表す。
(一)はシグモイド関数等を要素にもつ適当な非線形べク トル閱数を表す。 次に、図 4に示すブロック図を用いて、 TDICA法の一種である時間領域 SIMO独 立成分分析法 (以下、 TD-SIMO-ICA法という)に基づく音源分離処理を行う関連 の音源分離装置 Z2の構成について説明する。なお、図 4は、 2チャンネル (マイクロ ホンの数)の混合音声信号 xl(t)、 x2(t)に基づいて音源分離を行う例について示し ているが、 3チャンネル以上であっても同様である。
TD- SIMO- ICA法による音源分離の特徴は、図 4中に示す Fidelity Controller 12 により、マイクロホン入力信号である各混合音声信号 xi(t)から、前記分離フィルタ処 理部 11による音源分離処理 (TDICA法に基づく音源分離処理)によって分離(同定 )された分離信号 (同定信号)を減算し、その減算により得られる信号成分の統計的 独立性も評価することによって分離フィルタ W(Z)の更新 (逐次計算)を行う点である。 ここで、混合音声信号 xi(t)各々から減算する分離信号 (同定信号)は、各々異なる 1 つの分離信号 (当該混合音声信号に基づく音源分離処理により得られた分離信号) を除く残り全ての分離信号である。これにより、チャンネル (マイクロホン)ごとに 2つの 分離信号 (同定信号)が得られることになり、また、音源信号 Si(t)ごとに 2つの分離信 号が得られること〖こなる。図 4の例では、分離信号 yll(t)と yl2(t)、分離信号 y22 (t)と y21(t)が、各々同一の音源信号に対応する分離信号 (同定信号)である。なお、分離 信号 yの添字 (数字)において、前段の数字は音源の識別番号を、後段の数字はマ イク口ホン (即ち、チャンネル)の識別番号を表して 、る(以下同様)。
このように、ある音響空間に複数の音源と複数のマイクロホンとが存在する状態で、 そのマイクロホン各々を通じて入力される音源各々力 の音源信号 (個別音声信号) が重畳された複数の混合音声信号から、 1以上の音源信号を分離 (同定)した場合 に、音源信号ごとに得られる複数の分離信号(同定信号)群を SIMO (single-input m ultiple- output)信号という。図 4の例では、分離信号 yll(t)と yl2(t)の組合せ、分離信 号 y22 (t)と y21(t)の組合せの各々が SIMO信号である。
ここで、分離フィルタ (分離行列) W(Z)を表現し直した W(n)の更新式は、次の(5)式 で表される。
(") (t - n + d)
Figure imgf000012_0001
i (
( D
off - diag x\ t -∑0 _ " +
、 I 2 "+
Figure imgf000012_0002
但し, αは更新係数, [j]は更新回数, ぐ. -〉tは時間平均を表す。
off-diag X は行列 Xの全ての対角要素をゼ Dに置き換える演算処理を表す。
Ρ(· · ·)はシグモイ ド関数等を要素にもつ適当な非線形べクトル閱数を表す。
Wおよび yの添宇 「ICA1」 は SIH0-ICA部內の ] (エル)番自の ICA成分を表す。 この(5)式は、前述の(4)式に対して第 3項目が加わったものであり、この第 3項は、 Fidelity Controllerl2により生成される信号の成分の独立性を評価して 、る部分であ る。
次に、図 5に示すブロック図を用いて、 ICA法の一種である FDICA法(Frequency- Domain ICA)に基づく音源分離処理を行う関連の音源分離装置 Z3について説明す る。 FDICA法では、まず、入力された混合音声信号 x(t)について、 ST-DFT処理部 1 3によって所定の周期ごとに区分された信号であるフレーム毎に短時間離散フーリエ 変換 (以下、 ST-DFT処理という)を行い、観測信号の短時間分析を行う。そして、そ の ST-DFT処理後の各チャンネルの信号 (各周波数成分の信号)について、分離フ ィルタ処理部 l lfにより分離行列 W(f)に基づく分離フィルタ処理を施すことによって 音源分離 (音源信号の同定)を行う。ここで fを周波数ビン、 mを分析フレーム番号と すると、分離信号(同定信号) y(f、 m)は、次の (6)式のように表すことができる。
[数 6]
Y(/, ) = W( X(f9m) ..· ( 6 )
ここで、分離フィルタ W(f)の更新式は、例えば次の(7)式のように表すことができ る。
[数 7]
Figure imgf000013_0001
•· < 7 ) 伹し, は更新係数, iは更新回数, <"■>は時間平均, はエルミート転置を表す。
off-diag X は行列 Xの全ての対角要素をゼロに ϋき換える演算処理を表す。
ρ('-')はシグモイド関数等を要素にもつ適当な非線形べクトル関数を表す e
この FDICA法によれば、音源分離処理が各狭帯域における瞬時混合問題として 取り扱われ、比較的簡単かつ安定に分離フィルタ (分離行列) W(f)を更新することが できる。
次に、図 6に示すブロック図を用いて、 FDICA法の一種である周波数領域 SIMO 独立成分分析法 (以下、 FDSIMO-ICA法という)に基づく音源分離処理を行う音源 分離装置 Z4について説明する。 FD- SIMO- ICA法では、前述の TD- SIMO- ICA法(図 4)と同様に、 Fidelity Con trollerl2により、各混合音声信号 xi(t)に対して ST-DFT処理を施した信号各々から 、 FDICA法 (図 5)に基づく音源分離処理によって分離 (同定)された分離信号 (同定 信号)を減算し、その減算により得られる信号成分の統計的独立性も評価することに よって分離フィルタ W(f)の更新 (逐次計算)を行うものである。
この FD- SIMO-ICA法に基づく音源分離装置 Z4では、時間領域における複数の 前記混合音声信号 xl(t)、x2(t)に対して前記 ST-DFT処理部 13により短時間離散 フーリエ変換処理を施して、周波数領域における複数の混合音声信号 xl(f)、 x2(f) へ変換する。
次に、変換後の周波数領域における複数の混合音声信号 xl(f)、 x2(f)に対し、前 記分離フィルタ処理部 1 Ifによって所定の分離行列 W(f)に基づく分離処理 (フィルタ 処理)を施すことにより、前記混合音声信号ごとに前記音源信号 Sl(t)、 S2(t)のいず れかに対応した第 1の分離信号 yll(f)、y22(f)を生成する。
さらに、前記周波数領域における複数の混合音声信号 xl(f)、 x2(f)各々力 当該混 合音声信号に基づき前記分離フィルタ処理部 l lfにより分離された前記第 1の分離 信号 (xl(f)に基づき分離された yll(f)、 x2(f)に基づき分離された y22(f))を除く残りの 前記第 1の分離信号を、前記 Fidelity Contr0llerl2により減算した第 2の分離信号 yl 2(f), y21(f)を生成する。
一方、不図示の分離行列計算部により、前記第 1の分離信号 yll(f)、 x2(f)及び前 記第 2の分離信号 yl2(f)、 y21(f)の両方に基づく逐次計算を行い、前記分離フィルタ 処理部 1 Ifで用いられる前記分離行列 W(f)を計算する。
これにより、チャンネル (マイクロホン)ごとに 2つの分離信号(同定信号)が得られる ことになり、また、音源信号 Si(t)ごとに 2つ以上の分離信号 (SIMO信号)が得られる こと〖こなる。図 6の例では、分離信号 yll(f)と yl2(f)の組合せ、及び分離信号 y22(f)と y21(f)の組合せの各々が SIMO信号である。
ここで、前記分離行列計算部は、前記第 1の分離信号及び前記第 2の分離信号に 基づ 、て、次の(8)式で表される分離フィルタ (分離行列) W(f)の更新式により前記 分離行列 W(f)を計算する。 [数 8]
Figure imgf000015_0001
∑ ( 8 ) 徂し, は更新係数, iは更新回数. <■· は時間平均, //はエルミート転 gを表す。
off- diag X は行列 Xの全ての対角要索をゼロに置き換える演算 »理を表す。
«?(··■)は、ングモイド関数等を要素にもつ適当な非線形べク トル関数を表す。
[0014] 次に、図 7に示すブロック図を用いて、 FDICA法の一種である周波数領域独立成 分分析法と逆射影法との連結手法 (以下、 FDICA-PB法という)に基づく音源分離 処理を行う関連の音源分離装置 Z5について説明する。
FDICA-PB法では、各混合音声信号 xi(t)カゝら前述の FDICA法に基づく音源分 離処理 (図 5)により得られた分離信号 (同定信号) yi(f)各々について、逆行列演算部 14によって分離行列 W(f)の逆行列 W-l (f)の演算処理を施すことにより、最終的な 分離信号 (音源信号の同定信号)を得るものである。ここで、逆行列 W-l (f)による処 理対象の信号のうち、各分離信号 yi(f)以外の残りの信号成分は、 0 (ゼロ)入力として 設定する。
これにより、音源信号 Si(t)各々に対応したチャンネル数分 (複数)の分離信号 (同 定信号)である SIMO信号が得られる。図 7において、分離信号 yll(f)と yl2(f)、分離 信号 y21(f)と y22(f)が、各々同一の音源信号に対応する分離信号 (同定信号)であり 、各逆行列 W-l (f)による処理後の信号である分離信号 yl 1(f)と yl2(f)の組合せ、分 離信号 y21(f)と y22(f)の組合せの各々が SIMO信号である。
[0015] 以下、図 1に示すブロック図を用いて、本発明の実施形態に係る音源分離装置 Xに ついて説明する。
音源分離装置 Xは、ある音響空間に複数の音源 1、 2と複数のマイクロホン 111、 11 2とが存在する状態で、そのマイクロホン 111、 112各々を通じて入力される音源 1、 2 各々からの音源信号 (個別の音声信号)が重畳された複数の混合音声信号 Xi(t)から 、 1以上の音源信号 (個別音声信号)を分離 (同定)した分離信号 (同定信号) yを生 成するものである。
そして、音源分離装置 Xの特徴は、以下の(1)〜(3)の構成要素を備える点にある
(1)複数の混合音声信号 Xi(t)カゝら独立成分分析 (ICA)法に基づくブラインド音源分 離 (BSS)方式の音源分離処理により、 1以上の音源信号 Si(t)を分離(同定)した SI MO信号 (1つの音源信号に対応する複数の分離信号)を分離生成する SIMO-IC A処理部 10。
(2) SIMO-ICA処理部 10により生成された SIMO信号のうちの一部である複数の 信号について、複数に区分された周波数成分ごとに選択処理若しくは合成処理を行 うことを含む所定の中間処理を行 、、この中間処理により得られる中間処理後信号 y dl(f)、 yd2(f)を出力する 2つの中間処理実行部 41、 42。ここで、周波数成分の区分 は、例えば、予め定められた周波数幅での均等な区分とすることが考えられる。
なお、図 1に例示した中間処理実行部 41、 42各々は、 4つの分離信号からなる SI MO信号のうち、 3つの分離信号 (特定信号の一例)に基づいて前記中間処理を行 い、それぞれ 1つの中間処理後信号 ydl(f)、 yd2(f)を出力するものである。
(3)中間処理実行部 41、 42により得られた(出力された)前記中間処理後信号 ydl(f ), yd2(f)と、 SIMO-ICA処理部 10により分離生成された SIMO信号の一部の信号と の各々を入力信号とし、その入力信号にバイナリーマスキング処理を施して得られる 信号を、 1以上の音源信号について分離 (同定)した分離信号として生成する 2つの バイノーラル信号処理部 21、 22。
なお、 SIMO-ICA処理部 10が音源分離処理を行う工程が、第 1の音源分離工程 の一例であり、中間処理実行部 41、42が前記中間処理を行う工程力 中間処理実 行工程の一例であり、さらに、バイノーラル信号処理部 21、 22がバイナリーマスキン グ処理を行う工程が、第 2の音源分離工程の一例である。
図 2に示す例では、一方のバイノーラル信号処理部 21に入力される SIMO信号は 、これに対応する中間処理実行部 41が中間処理の対象として ヽな ヽ SIMO信号で ある。同様に、他方のノイノーラル信号処理部 22に入力される SIMO信号も、これに 対応する中間処理実行部 42が中間処理の対象として 、な 、SIMO信号である。伹 し、図 2に示す例はあくまで一例であり、前記中間処理実行部 41、 42が、前記バイノ 一ラル信号処理部 21、 22に入力される前記 SIMO信号(図 2における y 11 (f )や y22(f )など)を前記中間処理の対象として入力する構成も考えられる。
ここで、 SIMO-ICA処理部 10としては、図 4に示した TD- SIMO-ICA法に基づく 音源分離処理を行う前記音源分離装置 Z2や、図 6に示した FD-SIMO-ICA法に基 づく音源分離処理を行う FD-SIMO-ICA法に基づく音源分離処理を行う前記音源 分離装置 Z4、或いは図 7に示した FDICA-PB法に基づく音源分離処理を行う前記 音源分離装置 Z5等を採用することが考えられる。
但し、 SIMO-ICA処理部 10として、前記 TD- SIMO-ICA法に基づく前記音源分 離装置 Z2を採用する場合や、 FD- SIMO- ICA法若しくは FDICA- PB法に基づく 音源分離処理後の信号が IDFT処理 (逆離散フーリエ変換処理)により時間領域の 信号に変換されている場合には、その SIMO-ICA処理部 10 (音源分離装置 Z2等) により得られる分離信号(同定信号)について、バイナリーマスキング処理を施す前に 、離散フーリエ変換処理 (DFT処理)を施す装置を設ける。これにより、前記バイノー ラル信号処理部 21、 22や中間処理実行部 41、 42への入力信号を、時間領域の離 散信号から周波数領域の離散信号へ変換する。
さら〖こ、図 1には示されていないが、音源分離装置 Xは、前記ノ《イノーラル信号処理 部 21の出力信号 (周波数領域の分離信号)を時間領域の信号に変換する (逆離散 フーリエ変換処理を施す) IDFT処理部も備えて 、る。
また、図 1には、チャンネル数 (マイクロホンの数)の分だけ生成される SIMO信号各 々について、バイナリーマスキング処理による音源分離処理を施す構成例を示して いるが、一部の音源信号の分離(同定)を行うことを目的とする場合は、一部のチャン ネルに対応する SIMO信号 (或 、は、一部のマイクロホン若しくは一部の復号音声信 号 xi(t)に対応する SIMO信号ともいえる)についてのみ、ノイナリーマスキング処理 を施す構成も考えられる。
さらに、図 1には、チャンネル数が 2つ(マイクロホンの数が 2つ)である例について 示したが、(入力される混合音声信号のチャンネル数 n (即ち、マイクロホンの数))≥ ( 音源の数 m)であれば、 3チャンネル以上であっても同様の構成により実現できる。 ここで、各構成要素 10、 21、 22、 41、 42は、それぞれ DSP (Digital Signal Process or)又は CPU及びその周辺装置 (ROM、 RAM等)と、その DSP若しくは CPUにより 実行されるプログラムとにより構成されたものや、或いは、 1つの CPU及びその周辺 装置を有するコンピュータにより、各構成要素 10、 21、 22、 41、 42が行う処理に対 応するプログラムモジュールを実行するよう構成されたもの等が考えられる。また、所 定のコンピュータに各構成要素 10、 21、 22、 41、 42の処理を実行させる音源分離 プログラムとして提供することも考免られる。
一方、前記バイノーラル信号処理部 21、 22における信号分離処理は、前述したよ うに、人間の聴覚モデルに基づ 、て前記混合音声信号に時変のゲイン調節を施して 音源分離を行うものである。
図 8は、バイノーラル信号処理の考え方を起源とする信号処理の一例であって、比 較的処理がシンプルなノイナリーマスキング処理を説明するための図である。
ノイナリーマスキング処理を実行する装置やプログラムは、複数の入力信号 (本発 明においては SIMO信号を構成する複数の音声信号)の比較処理を行う比較部 31 と、その比較部 31による比較処理の結果に基づいて入力信号にゲイン調節を施して 信号分離 (音源分離)を行う分離部 32とを有して ヽる。
ノイナリーマスキング処理では、まず、前記比較部 31において、入力信号 (本発明 にお 、ては SIMO信号)各々につ 、て周波数成分ごとの信号レベル (振幅)分布 AL 、 ARを検出し、同じ周波数成分における信号レベルの大小関係を判別する。
図 8において、 BL、 BRは、入力信号各々における周波数成分ごとの信号レベル分 布と、その信号レベルごとに他方の対応する信号レベルに対する大小関係(〇、 X ) とを表した図である。図中、「〇」印は、前記比較部 31による判別の結果、他方の対 応する信号レベルよりも当該信号の信号レベルの方が大き力つたことを表し、「 X」印 は同じく当該信号レベルの方が小さ力つたことを表して!/、る。
次に、前記分離部 32により、前記比較部 31による信号比較の結果 (大小判別の結 果)に基づいて、入力信号各々にゲイン乗算 (ゲイン調節)を施すことにより分離信号 (同定信号)を生成する。この分離部 32における最も簡単な処理の例としては、入力 信号について、周波数成分ごとに、信号レベルが最も大きいと判別された入力信号 の周波数成分にゲイン 1を乗算し、その他の入力信号全ての同じ周波数成分にゲイ ン 0 (ゼロ)を乗算すること等が考えられる。
これにより、入力信号と同数の分離信号(同定信号) CL、 CRが得られる。この分離 信号 CL、 CRのうち、一方は、入力信号 (前記 SIMO-ICA処理部 10による分離信号 (同定信号))の同定の対象となった音源信号に相当するものとなり、他方は入力信 号に混在するノイズ (同定対象の音源信号以外の音源信号)に相当するものとなる。 従って、前記 SIMO-ICA処理部 10と前記バイノーラル信号処理部 21、 22とによる 2 段処理 (直列的処理)によって、ノイズの影響がある等の多様な環境下においても高 い音源分離性能が得られる。
なお、図 8には、 2つの入力信号に基づくバイナリーマスキング処理の例を示すが、 3つ以上の入力信号に基づく処理であっても同様である。
例えば、まず、複数チャンネル分の入力信号各々について、複数に区分された周 波数成分ごとに信号レベルを比較し、最大のものにゲイン 1を乗算するとともに、その 他のものにゲイン 0を乗算し、その乗算により得られた信号を全てのチャンネルにつ いて加算する。そして、この加算により得られる周波数成分ごとの信号を、全ての周 波数成分について算出し、それらを組合せた信号を出力信号とすればよい。これに より、 3チャンネル分以上の入力信号に対しても、図 8に示したのと同様にバイナリー マスキング処理を行うことができる。
(第 1実施例)
前記音源分離装置 Xにおける前記 SIMO-ICA処理部 10として、図 6に示した FD- SIMO-ICA法に基づく音源分離処理を行う FD- SIMO-ICA法に基づく音源分離 処理を行う前記音源分離装置 Z4、或いは図 7に示した FDICA-PB法に基づく音源 分離処理を行う前記音源分離装置 Z5を採用したものを、以下、第 1実施例とする。な お、図 2は、そのような本発明の第 1実施例に係る音源分離装置 XIの概略構成を表 すブロック図であり、前記音源分離装置 Xにおける前記 SIMO-ICA処理部 10として 、図 6に示した FD-SIMO-ICA法に基づく音源分離処理を行う前記音源分離装置 Z 4を採用した場合の例を示して 、る。
この音源分離装置 XIの構成により、畳み込み演算が必要なために演算負荷が高 い TD- SIMO-ICA法に基づく音源分離処理(図 4)を採用した構成よりも、比較的演 算負荷が抑えられる。
また、本第 1実施例に係る音源分離装置 XIでは、前記 SIMO-ICA処理部 10で用 いる分離行列 W(f)の初期値は、予め定められた値が設定される。
また、音源分離装置 XIのバイノーラル信号処理部 21、 22は、バイナリーマスキン グ処理を行う。
図 2に示す音源分離装置 XIでは、前記 SIMO-ICA処理部 10により、 2つの入力 チャンネル (マイクロホン)ごとに 2つの分離信号、即ち、合計 4つの分離信号が得ら れ、この 4つの分離信号が SIMO信号である。
また、一方の中間処理実行部 41は、 SIMO信号の一部である分離信号 yl2(f)、 y2 Kf), y22(f) (特定信号の一例)を入力し、これらの信号に基づいて前記中間処理を 実行する。同様に、他方の中間処理実行部 42は、 SIMO信号の一部である分離信 号 yll(f)、 yl2(f)、 y21(f) (特定信号の一例)を入力し、これらの信号に基づいて前記 中間処理を実行する。中間処理の具体的内容につ!、ては後述する。
また、一方のバイノーラル信号処理部 21は、これに対応する中間処理実行部 41に より出力される前記中間処理後信号 ydl(f)と、その中間処理実行部 41が中間処理の 対象として!/ヽな 、分離信号 yl 1(f) (SIMO信号の一部)とを入力し、その入力信号に 対してバイナリーマスキング処理を行い、最終的な分離信号 Yl 1(f)及び Y12(f)を出 力する。また、これら周波数領域の分離信号 Yll(f)及び Y12(f)は、逆離散フーリエ変 換処理を実行する IDFT処理部 15によって時間小域の分離信号 y 1 l(t)、 y 12(t)に変 換される。
同様に、他方のバイノーラル信号処理部 22は、これに対応する中間処理実行部 4 2により出力される前記中間処理後信号 yd2(f)と、その中間処理実行部 42が中間処 理の対象として ヽな 、分離信号 y22(f) (SIMO信号の一部)とを入力し、その入力信 号に対してバイナリーマスキング処理を行 ヽ、最終的な分離信号 Y21(f)及び Y22(f) を出力する。また、これら周波数領域の分離信号 Y21(f)及び Y22(f)は、前記 IDFT処 理部 15によって時間小域の分離信号 y21(t)、 y22(t)に変換される。
なお、バイノーラル信号処理部 21、 22は、必ずしも 2チャンネル分の信号分離処理 を行うものに限らず、 3チャンネル分以上のバイナリーマスキング処理を行うものを採 用することち考免られる。
[0021] 次に、図 9〜図 11を参照しつつ、 SIMO-ICA処理部 10により得られる SIMO信号 をバイノーラル信号処理部 21or22への入力信号とする場合における、バイノーラル 信号処理部 21or22への入力信号の組合せと、バイノーラル信号処理部 21or22〖こ よる信号分離性能及び分離信号の音質との関係について説明する。ここで、図 9〜 図 11は、 SIMO信号にノイナリーマスキング処理を施す前後の信号における周波数 成分ごとの信号レベル (振幅)の分布の一例 (第 1例〜第 3例)をバーグラフにより模 式的に表したものである。なお、バイノーラル処理部 21or22は、バイナリーマスキン グ処理を行うものであるとする。
また、以下に示す例では、一方のマイクロホン 111に近い方の音源 1の音声信号 S l(t)を、最終的に分離信号として得たい信号であるものとし、その音源信号 Sl(t)及び その音を、目的音源信号及び目的音と称する。そして、その他の音源 2の音声信号 S 2(t)及びその音を、非目的音源信号及び非目的音と称する。
ところで、 4つの分離信号 yll(f)、 yl2(f)、 y21(f)、 y22(f)力らなる SIMO信号を 2入 力のバイナリーマスク処理の入力信号とする場合、バイナリーマスク処理への入力信 号の組合せは 6パターン考えられる。その中で、主として目的音源信号 Sl(t)に対応 する分離信号 yl 1(f)を含む組合せは 3パターン考えられる力 SIMO-ICA法に基づ く音源分離処理の性質上、 yll(f)及び y22(f)との組合せと、 yll(f)及び y21(f)との組 合せとは、定性的には同じ傾向の性質を有する。よって、図 9〜図 11は、 yll(f)及び yl2(f)との組合せと、 yll(f)及び y22(f)との組合せとの各々について、バイナリーマス キング処理を行う場合の例につ 、て示して!/、る。
[0022] また、図 9は音源信号各々の周波数成分に重複がない場合、図 10は同周波数成 分に重複がある場合の例を表す。一方、図 11は、音源信号各々の周波数成分に重 複がなぐかつ、目的音源信号 Sl(t)の信号レベルが非目的音源信号 S2(t)の信号レ ベルに対して相対的に低 ヽ(振幅が小さ!/、)場合の例を表す。 さらに、図 9 (a)、図 10 (a)及び図 11 (a)は、バイノーラル信号処理部 21or22への 入力信号を、分離信号 yl l(f)と yl2(f)の組合せ (SIMO信号)とした場合 (以下、「パ ターン a」と!ヽぅ)の例を表す。
一方、図 9 (b)、図 10 (b)及び図 11 (b)は、バイノーラル信号処理部 21or22への 入力信号を、分離信号 y 11(f)と y22(f)の組合せとした場合 (以下、「パターン b」という) の例を表す。
また、図 9〜図 11において、目的音源信号 Sl(t)の周波数成分に対応する部分の バーグラフは網掛け模様により、非目的音源信号 Sl(t)の周波数成分に対応する部 分のバーグラフは斜線模様により各々表している。
[0023] 図 9及び図 10に示すように、バイノーラル信号処理部 21or22への入力信号には、 その同定の対象となった音源信号の成分が支配的ではあるものの、それ以外に、ノ ィズとして他の音源信号の成分も若干混在して!/ヽる。
このようなノイズを含む入力信号 (分離信号)に対してバイナリーマスキング処理を 施した場合、図 9 (a)、 9 (b)の出力信号のレベル分布 (右側のバーグラフ)に示すよう に、音源信号各々の周波数成分に重複がない場合には、入力信号の組合せにかか わらず、前記第 1音源信号と前記第 2音源信号とが良好に分離された分離信号 (Y11 (f)と Y12(f)、及び Yl l(f)と Y22(f))が得られる。
このように各音源信号の周波数成分に重複がな 、場合、バイノーラル信号処理部 2 lor22への両入力信号各々において、同定の対象となった音源信号の周波数成分 における信号レベルが高ぐその他の音源信号の周波数成分における信号レベルが 低くなるというレベル差が明確となり、周波数成分ごとの信号レベルに応じて信号分 離を行うバイナリーマスキング処理によって信号が確実に分離されやす 、。その結果 、入力信号の組合せにかかわらず、高い分離性能が得られる。
[0024] しかしながら、一般に、現実の音響空間 (音環境)では、同定対象とする目的音源 信号とその他の非目的音源信号との間で、周波数成分 (周波数帯域)が全く重ならな いということはほとんどなぐ複数の音源信号間で多少なりとも周波数成分が重複する ここで、音源信号各々の周波数成分に重複がある場合であっても、図 10 (a)の出 力信号 Yll(f)、 Y12(f)のレベル分布 (右側のバーグラフ)に示すように、前記「パター ン&」では、音源信号各々で重複する周波数成分にぉ 、て若干のノイズ信号(同定対 象以外の音源信号の成分)が残るものの、その他の周波数成分においてはノイズ信 号が確実に分離される。
この図 10 (a)に示す「パターン a」では、バイノーラル信号処理部 21or22への両入 力信号は、同一の音源信号を、各々異なるマイクロホンにより収録された音声信号に 基づいて分離(同定)した信号であり、それらの信号レベルは、同定対象の音源から マイクロホンまでの距離に応じたレベル差を有している。そのため、ノイナリーマスキ ング処理において、そのレベル差により信号が確実に分離されやすい。このことが、「 パターン a」では、音源信号各々の周波数成分に重複があっても高!、分離性能が得 られる理由として考えられる。
さらに、図 10 (a)に示す「パターン a」では、両入力信号ともに同一の音源信号(目 的音源信号 Sl(t))の成分が支配的である (即ち、混在する他の音源信号の成分のレ ベルは小さ 、)ため、比較的信号レベルの低い同定対象外の音源信号の成分 (ノィ ズ成分)が信号分離に悪影響を及ぼしにくいことも、高い分離性能が得られる理由の 1つと考えられる。
[0025] 一方、音源信号各々の周波数成分に重複がある場合、図 10 (b)に示すように、前 記「パターン b」では、音源信号各々で重複する周波数成分において、出力信号 (分 離信号) Yll(f)において本来出力されるべき信号成分 (同定対象の音源信号の成分 )が欠損するという不都合な現象が生じる(図 10 (b)における破線で囲んだ部分)。 このような欠損は、その周波数成分について、同定対象の目的音源信号 Sl(t)のマ イク口ホン 112への入力レベルよりも、非目的音源信号 S2(t)のマイクロホン 112への レベルの方が高 、ために生じる現象である。このような欠損が生じると音質が悪ィ匕す る。
従って、一般的には、前記「パターン a」を採用すれば、良好な分離性能が得られる 場合が多いと言える。
[0026] しかしながら、実際の音響環境では、各音源信号の信号レベルは変化し、状況によ つては、図 11に示すように、目的音源信号 Sl(t)の信号レベルが非目的音源信号 S2 (t)の信号レベルに対して相対的に低くなることもある。
このような場合、 SIMO-ICA処理部 10で十分な音源分離がなされなかった結果、 マイクロホン 111に対応する分離信号 yll(f)及び y12(f)に残留する非目的音源信号 S2(t)の成分が相対的に大きくなる。このため、図 11 (a)に示す「パターン a」を採用す ると、図 11 (a)において矢印で示すように、目的音源信号 Sl(t)に対応するものとして 出力される分離信号 Yll(f)に、非目的音源信号 Sl(t)の成分が残存するといぅ不都 合な減少が生じてしまう。この現象が発生すると、音源分離性能が悪化する。
これに対し、図 11 (b)に示す「パターン b」を採用すると、具体的な信号レベルにも よるが、出力信号 Yll(f)に図 11 (a)の矢印で示したような非目的音源信号 Sl(t)の成 分が残存することを回避できる可能性が高 、。
次に、図 12及び図 13を参照しつつ、音源分離装置 XIにより音源分離処理を行つ た場合の効果について説明する。
図 12は、音源分離装置 XIにおける SIMO信号に対する音源分離処理の第 1例の 内容(SIMO信号及びバイナリーマスキング処理後の信号にっ 、ての周波数成分ご との信号レベル分布を含む)を模式的に表した図である。なお、図 12には、バイノー ラル信号処理部 21及びこれに対応する中間処理実行部 41のみをピックアップして Ik己して ヽる。
図 12に示す例では、中間処理実行部 41は、まず、 3つの分離信号 yl2(f)、 y21(f)、 y22(f) (特定信号の一例)を、所定の周波数幅で均等に区分された周波数成分ごと に、その周波数成分の信号に所定の重み係数 al、 a2、 a3を乗算することによって信 号レベルを補正 (即ち、重み付けにより補正)し、さらに、その補正後の信号の中から 、前記周波数成分ごとに信号レベルが最大のものを選択する中間処理を行う。この 中間処理を、 Max[al -yl2(f), a2-y21(f), a3 'y22(f)]と表すものとする。
さらに、中間処理実行部 41は、この中間処理により得られた中間処理後信号 ydl(f) (周波数成分ごとに信号レベルが最大のものが組み合わされた信号)をバイノーラル 信号処理部 21へ出力する。ここで、 a2 = 0力つ l≥al >a3である。例えば、 al = l. 0、 a3 = 0. 5である。なお、 a2 = 0であるため、分離信号 y21(f)の周波数分布の表記 は省略している。また、図 12に示す SIMO信号は、図 10に示した SIMO信号と同じ である。
このように、 al >a3となるように重み付け補正をした後の信号のうち、周波数成分ご とに信号レベルが最大のものをバイナリーマスキング処理の入力信号とすることにより 、音源分離装置 XIは、以下のように動作する。
即ち、分離信号 yl2(f)が、分離信号 y22(f)に対して al 'yl2(f)≥a3 'y22(f)となる範 囲の信号レベルで出力されている周波数成分については、バイノーラル信号処理部 21には分離信号 yl l(f)と分離信号 yl2(f)とが入力され、図 9 (a)や図 10 (a)に示した ような良好な信号分離状況が得られると考えられる。
一方、分離信号 yl2(f)が、分離信号 y22(f)に対して al 'yl2(f)< a3 'y22(f)となる範 囲の信号レベルまで低下して ヽる周波数成分にっ ヽては、バイノーラル信号処理部 21には、分離信号 yl l(f)と、分離信号 y22(f)が (a3)倍に減縮補正された信号とが入 力され、図 9 (a)や図 11 (b)に示したような良好な信号分離状況が得られると考えら れる。
図 13は、音源分離装置 XIにおける SIMO信号に対する音源分離処理の第 2例の 内容(SIMO信号及びバイナリーマスキング処理後の信号にっ 、ての周波数成分ご との信号レベル分布を含む)を模式的に表した図である。
図 13に示す例も、図 12に示した例と同様に、中間処理実行部 41は、まず、 3つの 分離信号 yl2(f)、 y21(f)、 y22(f) (特定信号の一例)を、所定の周波数幅で均等に区 分された周波数成分ごとに、その周波数成分の信号に所定の重み係数 al、 a2、 a3 を乗算することによって信号レベルを補正 (即ち、重み付けして補正)し、さらに、その 補正後の信号の中から、前記周波数成分ごとに信号レベルが最大のものを選択する 中間処理(図中、 Max[al -yl2(f), a2 -y21(f), a3 'y22(f)]と表記)を行う。さらに、中 間処理実行部 41は、この中間処理により得られた中間処理後信号 ydl(f) (周波数成 分ごとに信号レベルが最大のものが組み合わされた信号)をバイノーラル信号処理 部 21へ出力する。例えば、 I≥al >a2 >a3≥0である。
同様に、中間処理実行部 42は、まず、 3つの分離信号 yl l(f)、 yl2(f)、 y21(f) (特定 信号の一例)を、所定の周波数幅で均等に区分された周波数成分ごとに、その周波 数成分の信号に所定の重み係数 bl、 b2、 b3を乗算することによって信号レベルを 補正し、さらに、その補正後の信号の中から、前記周波数成分ごとに信号レベルが 最大のものを選択する中間処理(図中、 Max[bl 'yll(f), b2-yl2(f), b3 'y21(f)]と 表記)を行う。さらに、中間処理実行部 42は、この中間処理により得られた中間処理 後信号 yd2(f) (周波数成分ごとに信号レベルが最大のものが組み合わされた信号)を バイノーラル信号処理部 22へ出力する。例えば、 I≥bl >b2>b3≥0である。なお 、図 13に示す SIMO信号は、図 10に示した SIMO信号と同じである。
このような第 2例においても、前記第 1例(図 12参照)で説明したのと同様の作用効 果を奏する。
図 18は、音源分離装置 XIにおける SIMO信号に対する音源分離処理の第 3例の 内容(SIMO信号及びバイナリーマスキング処理後の信号にっ 、ての周波数成分ご との信号レベル分布を含む)を模式的に表した図である。
図 18に示す第 3例は、図 13に示した前記第 2例に対して前記中間処理実行部 41 、 42が実行する処理と、前記バイノーラル信号処理部 21、 22が実行する処理とが若 干異なるが、全体として前記第 2例(図 13参照)と実質的に同じ処理を実行する音源 分離装置 XIを表す。
即ち、図 18に示す第 3例においては、前記中間処理実行部 41は、まず、 4つの分 離信号 yll(f)、 yl2(f)、 y21(f)、 y22(f) (特定信号の一例)を、所定の周波数幅で均等 に区分された周波数成分ごとに、その周波数成分の信号に所定の重み係数(1、 al 、 a2、 a3)を乗算することによって信号レベルを補正 (即ち、重み付けして補正)し、さ らに、その補正後の信号の中から、前記周波数成分ごとに信号レベルが最大のもの を選択する中間処理(図中、 Max[yll, al -yl2(f), a2-y21(f), a3 'y22(f)]と表記) を行う。さらに、前記中間処理実行部 41は、この中間処理により得られた前記中間処 理後信号 ydl (f) (周波数成分ごとに信号レベルが最大のものが組み合わされた信号 )を前記バイノーラル信号処理部 21へ出力する。例えば、 I≥al >a2 >a3≥0であ る。
同様に、前記中間処理実行部 42は、まず、 4つの分離信号 yll(f)、 yl2(f)、 y21(f)、 y22(f) (特定信号の一例)を、所定の周波数幅で均等に区分された周波数成分ごと に、その周波数成分の信号に所定の重み係数 (bl、 b2、 b3、 1)を乗算することによ つて信号レベルを補正し、さらに、その補正後の信号の中から、前記周波数成分ごと に信号レベルが最大のものを選択する中間処理(図中、 Max[bl 'yll(f), b2-yl2(f) , b3 -y21(f), y22(f)]と表記)を行う。さらに、前記中間処理実行部 42は、この中間処 理により得られた前記中間処理後信号 yd2(f) (周波数成分ごとに信号レベルが最大 のものが組み合わされた信号)をバイノーラル信号処理部 22へ出力する。例えば、 1 ≥bl >b2>b3≥0である。なお、図 18に示す SIMO信号は、図 10に示した SIMO 信号と同じである。
ここで、この第 3例における前記バイノーラル信号処理部 21は、これに入力される 信号 (分離信号 yll(f)及び前記中間処理後信号 ydl(f))について、周波数成分ごと に以下の処理を実行する。
即ち、前記バイノーラル信号処理部 21は、周波数成分ごとに、前記中間処理後信 号 ydl(f)の信号レベルが前記分離信号 yl 1(f)の信号レベルと等 ヽ場合 (同じ信号 である場合)にはその中間処理後信号 ydl(f)又は分離信号 yll(f)の成分を出力信号 Yl 1(f)の信号成分として採用し、そうでない場合には予め定められた定数値 (ここで は、 0値)を出力信号 Yll(f)の信号成分として採用する。
同様に、この第 3例における前記バイノーラル信号処理部 22は、これに入力される 信号 (分離信号 y22(f)及び前記中間処理後信号 yd2(f))について、周波数成分ごと に、前記分離信号 y22(f)の信号レベルと前記中間処理後信号 yd2(f)の信号レベルと が等しい場合(同じ信号である場合)には、その分離信号 y22(f)又はその中間処理後 信号 yd2 (f)の成分を出力信号 Y22(f)の信号成分として採用し、そうでない場合には 予め定められた定数値 (ここでは、 0値)を出力信号 Y22(f)の信号成分として採用す る。
ここで、前記バイノーラル信号処理部 21は、一般的なバイナリーマスキング処理を 実行する場合、周波数成分ごとに、前記分離信号 yll(f)の信号レベルが前記中間処 理後信号 ydl(f)の信号レベル以上である場合 (yll(f)≥ydl(f))には、その分離信号 yll(f)の成分を出力信号 Yll(f)の信号成分として採用し、そうでない場合には予め 定められた定数値 (ここでは、 0値)を出力信号 Yl 1(f)の信号成分として採用する。 し力しながら、前記中間処理実行部 41において、バイナリーマスキング処理の対象 となる (重み係数「1」が乗算される)前記分離信号 y 11(f)と、重み係数 al〜a3が乗算 されるその他の前記分離信号 yl2(f)、 y21(f)、 y22(f)とについて、周波数成分ごとにレ ベルが最大のものが選択された信号が前記中間処理後信号 ydl(f)とされる。このた め、前述したように、前記バイノーラル信号処理部 21が、「yll(f)=ydl(f)」である場 合に、前記分離信号 yll(f)又は前記中間処理後信号 ydl(f)の成分を出力信号 Yll( f)の信号成分として採用するものであっても、そのバイノーラル信号処理部 21は、実 質的に一般的なバイナリーマスキング処理を実行するものと実質的に同じ (等価)で ある。このことは、前記バイノーラル信号処理部 22についても同様である。
ここで、一般的なバイナリーマスキング処理とは、「yll(f)≥ydl(f)」である力否かに より、出力信号 Yl 1(f)の信号成分として前記分離信号 yl 1(f)又は前記中間処理後信 号 ydl(f)の成分を採用するカゝ、定数値 (0値)を採用するかを切り替える処理である。 以上に示した第 3例においても、前記第 1例(図 12参照)で説明したのと同様の作 用効果を奏する。
次に、前記音源分離装置 XIを用いた音源分離性能評価の実験結果について説 明する。
図 14は、音源分離装置 XIを用いた音源分離性能評価の実験条件を説明するた めの図である。
図 14に示すように、音源分離性能評価の実験は、 4. 8m (幅) X 5. Om (奥行き)の 広さの居室内において、所定の 2箇所に存在する 2名の話者を音源とし、その音源( 話者)各々からの音声信号 (話者の声)を相互に反対方向に向けた 2つのマイクロホ ン 111、 112で入力し、入力された 2チャンネルの混合音声信号から、各話者の音声 信号 (音源信号)を分離する性能を評価する実験条件である。ここで、音源となる話 者は、 2名の男性及び 2名の女性 (計 4名)の中から選択した 2名の順列である 12通り の条件下で実験を行 ヽ(同じ 2名の話者を音源とする場合でも、その 2名の配置が入 れ替われば異なる条件であるとした)、音源分離性能評価は各組合せの下での評価 値の平均値により行った。
また、いずれの実験条件においても、残響時間は 200ms、音源 (話者)から最寄り のマイクロホンまでの距離は 1. Omとし、 2つのマイクロホン 111、 112は、 5. 8cmの 間隔を隔てて配置した。なお、マイクロホンの機種は、 SONY社製の ECMDS70P である。
ここで、上方から見て、相互に反対方向に向けられた両マイクロホン 111、 112の向 きに対する直角方向を基準方向 R0としたときに、この基準方向 R0と一方の音源 S1 ( 話者)から両マイクロホン 111、 112の中間点 Oに向力 方向 R1とのなす角度を 0 1と する。また、前記基準方向 R0と他方の音源 S2 (話者)から前記中間点 Oに向力 方 向 R2とのなす角度 Θ 2とする。このとき、 0 1と 0 2との組合せを、 3パターンの条件( Θ 1、 0 2) = (-40° 、30° )、(-40。 、 10。 )、(-10。 、 10。 )となるように設定 (機 器配置)し、その各々の条件下で実験を行った。
[0032] 図 15 (a)、(b)は、関連の音源分離装置と本発明に係る音源分離装置との各々に より、前述の実験条件の下で音源分離を行ったときの音源分離性能及び分離後の音 声の音質の評価結果を表すグラフである。
ここで、図 15 (a)に示す音源分離性能の評価値 (グラフの縦軸)としては、 NRR(No ise Reduction Rate)を用いた。この NRRは、雑音除去の程度を表す指標であり、単 位は(dB)である。この NRR値が大き 、ほど音源分離性能が高 、と 、える。
また、図 15 (b)に示す音質の評価値(グラフの縦軸)としては、 CD(Cepstral distorti on)を用いた。この CDは、音質の程度を表す指標であり単位は (dB)である。この CD は、音声信号のスペクトル歪みを表し、分離対象となる元の音源信号と、その音源信 号を混合音声信号から分離した分離信号とのスペクトル包絡の距離を表す。 CD値 力 S小さいほど音質が良いといえる。なお、図 15 (b)に示す音質評価の結果は、 ( θ 1 、 0 2) = (-40° 、30° )である場合のもののみである。
[0033] また、各バーグラフに対応する図中の表記 P1〜P6は、以下の場合の処理結果を 表す。
PI (BM)と表記しているものは、バイナリーマスキング処理を行った場合の結果を 表す。
P2 (ICA)と表記しているものは、図 6に示した FD- SIMO-ICA法に基づく音源分 離処理を行った場合の結果を表す。
P3 (ICA+BM)と表記しているものは、図 6に示した FD- SIMO ICA法に基づく 音源分離処理 (音源分離処理装置 Z4)により得られた SIMO信号にバイナリーマス キング処理を施した場合の結果を表す。即ち、図 9〜図 11に示した構成により音源 分離処理を行った結果に相当する。
P4〜P6 (SIMO-ICA+SIMO- BM)と表記しているものは、図 2に示した音源分 離処理装置 XIにより音源分離処理を行った結果を表す。ここで、 P4は、補正係数 [a 1, a2, a3] = [l. 0, 0, 0]である場合、 P5は補正係数 [al, a2, a3] = [l, 0, 0. 1 ]である場合、 P6は補正係数 [al, a2, a3] = [l. 0, 0, 0. 7]である場合を表す。以 下、 P4、 P5、 P6の各補正係数の条件を、補正パターン P4、補正パターン P5、補正 パターン P6という。
図 15に示すグラフから、バイナリーマスキング処理や IC A法に基づく BSS方式の 音源分離処理を単独で行う場合 (Pl、 P2)や、これにより得られる SIMO信号にバイ ナリーマスキング処理を施す場合 (P3)よりも、 ICA法に基づく BSS方式の音源分離 処理で得られる SIMO信号に基づ 、て前記中間処理を行!、、その中間処理後の信 号を用いてバイナリーマスキング処理を施す音源分離処理である本発明に係る音源 分離処理 (P4〜P6)の方が、 NRR値が大きぐ音源分離性能が優れていることがわ かる。
同様に、 P1〜P3の音源分離処理よりも、本発明に係る音源分離処理 (P4〜P6) の方が、 CD値が小さぐ分離後の音声信号が高音質であることがわ力る。
また、本発明に係る音源分離処理 (P4〜P6)の中では、補正パターン P4及び P5 に設定した場合、音源分離性能向上と音質性能向上とのバランスがとれている。これ は、図 10及び図 11を用いて説明した不都合な現象の発生が少ないため、音源分離 性能及び音質性能が高まったものと考えられる。
一方、補正パターン P6では、補正パターン P4及び P5よりも、さらに高い音源分離 性能が得られて 、る (NRR値が高 、)反面、音質性能が若干犠牲になって 、る (CD 値がやや高い)。これは、補正パターン P4及び P5の場合よりも、図 11を用いて説明 した不都合な現象の発生頻度がより抑えられたことにより、音源分離性能がさらに向 上する一方、図 10を用いて説明した不都合な現象の発生頻度が若干増え、その結 果、音質性能がやや犠牲になって ヽるものと考えられる。 [0035] 以上に示したように、音源分離装置 XIでは、中間処理実行部 41、 42における前 記中間処理に用ぃられるパラメータ(重み係数&1〜&3、1)1〜1)3)を調節するだけで 、重視する目的 (音源分離性能又は音質性能)に応じた音源分離処理が可能となる 従って、音源分離装置 XIが、調節ツマミゃ、数値入力用操作キー等の操作入力部 を備え、さらに、前記中間処理実行部 41、 42が、その操作入力部を通じて入力され た情報に従って、中間処理実行部 41、 42における前記中間処理に用いられるパラメ ータ(ここでは、重み係数 al〜a3、 bl〜b3)を設定 (調節)する機能を備えたもので あれば、重視する目的に応じた装置の調整が容易となる。
例えば、音源分離装置 XIが、ロボットやカーナビゲーシヨンシステム等で用いられ る音声認識装置に適用される場合、雑音除去を優先するために、 NRR値が高くなる 方向に、重み係数 al〜a3、 bl〜b3を設定すればよい。
一方、音源分離装置 XIが、携帯電話機やハンズフリー電話機等の音声通話装置 に適用される場合、音質が良くなるように、 CD値が高くなる方向に、重み係数 al〜a 3、 bl〜b3を設定すればよい。
より具体的には、重み係数 al、 blの値に対する重み係数 a2、 a3、 b2、 b3の値の比 力 より大きくなるように設定すれば、音源分離性能を重視するという目的に沿い、そ の比が、より小さくなるように設定すれば、音質性能を重視するという目的に沿うこと になる。
[0036] また、以上に示した実施例では、中間処理実行部 41、 42により、 Max[al -yl2(f), a2 -y21(f), a3 'y22(f)]或いは、 Max[bl 'yl l(f), b2 -yl2(f), b3 'y21(f)]という中間 処理を行う例を示した。
し力しながら、前記中間処理は、これに限るものではない。
中間処理実行部 41、 42により実行される前記中間処理としては、以下のような例も 考えられる。
即ち、まず、中間処理実行部 41が、 3つの分離信号 yl2(f)、 y21(f)、 y22(f) (特定信 号の一例)を、所定の周波数幅で均等に区分された周波数成分ごとに、その周波数 成分の信号に所定の重み係数 al、 a2、 a3を乗算することによって信号レベルを補正 (即ち、重み付けして補正)する。さらに、その補正後の信号を、前記周波数成分ごと に合成 (加算)する。即ち、 al 'yl2(f) + a2'y21(f) + a3 'y22(f)という中間処理を行う さらに、中間処理実行部 41は、この中間処理により得られた中間処理後信号 ydl(f) (周波数成分ごとに重み付け補正がなされた信号を合成した)をバイノーラル信号処 理部 21へ出力する。
このような中間処理を採用しても、前述した実施例と同様の作用効果が得られる。も ちろん、このような 2種類の中間処理に限られず、他の中間処理を採用することも考 えられる。また、チャンネル数を、 3チャンネル以上に拡張した構成も考えられる。
[0037] 前述したように、 ICA法に基づく BSS方式による音源分離処理は、音源分離性能 を向上させるためには多大な演算が必要となり、リアルタイム処理には適さない。 一方、バイノーラル信号処理による音源分離は、一般に演算量は少なくリアルタイ ム処理に適して ヽる反面、音源分離性能は ICA法に基づく BSS方式による音源分 離処理に比べて劣る。
これに対し、 SIMO-ICA処理部 10力 例えば以下に示す要領で分離行列 W(f)の 学習を行うように構成すれば、音源信号の分離性能を確保しつつリアルタイム処理が 可能な音源分離処理装置を実現できる。
[0038] 次に、図 16及び図 17に示すタイムチャートを用いて、分離行列 W(f)の学習に用い られる混合音声信号と、その学習により得られる分離行列 W(f)を用いて音源分離処 理が施される混合音声信号との対応関係の第 1例(図 16)及び第 2例(図 17)につい て説明する。
ここで、図 16は、分離行列 W(f)の計算と、音源分離処理との各々に用いる混合音 声信号の区分の第 1例をタイムチャート的に表したものである。
この第 1例は、 SIMO-ICA処理部 10の音源分離処理において、逐次入力される 混合音声信号を、所定時間長 (例えば 3秒)分のフレーム信号 (以下、 Frameという)ご とにその全てを用いて学習計算を行う。その一方で、 SIMO-ICA処理部 10の音源 分離処理における分離行列の逐次計算回数を制限するものである。また、図 1に示 す例では、 SIMO-ICA処理部 10は、分離行列の学習計算と、その分離行列に基づ くフィルタ処理 (行列演算)により分離信号を生成(同定)する処理とを、異なる Frame を用いて実行する。
図 16に示すように、 SIMO- ICA処理部 10は、時刻 Ti〜Ti+lの期間(周期: Ti+1- Ti)に入力された前記混合音声信号全てに相当する FrameG)を用いて分離行列の計 算(学習)を行 、、それにより求められた分離行列を用いて時刻 (Ti+1 +Td)〜(Ti+2 +Td)の期間に入力された前記混合音声信号全てに相当する FrameG+l) 'につ ヽて 分離処理(フィルタ処理)を実行する。ここで、 Tdは 1つの Frameを用いた分離行列の 学習に要する時間である。即ち、ある 1期間の混合音声信号に基づき計算された分 離行列を用 、て、 Frame時間長 +学習時間だけずれた次の 1期間の混合音声信号 の分離処理(同定処理)を行う。このとき、ある 1期間の FrameG)を用いて計算 (学習) された分離行列を、次の 1期間の FrameG+l)'を用いて分離行列を計算 (逐次計算) する際の初期値 (初期分離行列)として用いる。さらに、 SIMO-ICA処理部 10は、分 離行列の逐次計算 (学習計算)の繰り返し回数を、 1フレーム分の時間長 (周期)の範 囲内の時間 Tdで実行可能な回数に制限する。
以上示したように,図 16 (第 1例)に示すタイムチャートに従って分離行列の計算を 行う SIMO-ICA処理部 10は、時系列に入力される前記混合音声信号を予め定めら れた周期で区分された Frame (区間信号の一例)ごとに、その Frameに対し所定の分 離行列に基づく分離処理を順次実行して前記 SIMO信号を生成するものであり、ま た、その分離処理により生成した全ての時間帯 (Frame (区間信号)の時間帯に対応 する全ての時間帯)の前記 SIMO信号に基づいて、以降に用いる前記分離行列を 求めるための逐次計算 (学習計算)を行うものである。
このように、 1つの Frameの時間長以内に、 1つの Frame全体に基づく分離行列の学 習計算を完了させることができれば、全ての混合音声信号を学習計算に反映させな 力 リアルタイムでの音源分離処理が可能となる。
し力しながら、学習計算を複数のプロセッサで分担して並行処理した場合でも、 1つ の Frameの時間範囲内 (Ti〜Ti+l)に、十分な音源分離性能を確保できるだけの十 分な学習計算 (逐次計算処理)を常には完了させられないことも考え得る。
そこで、この第 1例における SIMO-ICA処理部 10は、分離行列の逐次計算の回 数を、 Frame (区間信号)の時間(予め定められた周期)の範囲に収まる時間 Tdで実 行可能な回数に制限する。これにより、学習計算の収束が早まり、リアルタイム処理 が可能となる。
[0040] 一方、図 17に示す第 2例は、逐次入力される混合音声信号を所定時間長 (例えば 3秒)分のフレーム信号 (Frame)ごとに、そのフレーム信号の先頭側の一部を用いて 学習計算を行う例、即ち、分離行列の逐次計算に用いる混合音声信号のサンプル 数を通常よりも減らす (間引く)例である。
これにより、学習計算の演算量が抑えられるので、より短周期で分離行列の学習を 行うことが可能となる。
図 17も、図 16と同様に、分離行列 W(f)の計算と、音源分離処理との各々に用いる 混合音声信号の区分の第 2例をタイムチャート的に表したものである。
また、図 17に示す第 2例も、分離行列の学習計算と、その分離行列に基づくフィル タ処理 (行列演算)により分離信号を生成(同定)する処理とを、異なる Frameを用い て実行する例である。
この第 2例では、図 17に示すように、時刻 Ti〜Ti+lの期間(周期: Ti+1-Ti)に入力 された前記混合音声信号 (Frame)である FrameG)のうち、先頭側の一部(例えば、先 頭から所定時間分)の信号 (以下、 Sub- FrameG)と!、う)を用いて分離行列の計算 (学 習)を行い、それにより求められた分離行列を用いて時刻 Ti+l〜Ti+2の期間に入力 された前記混合音声信号全てに相当する Frame(i+1)について分離処理 (フィルタ処 理)を実行する。即ち、ある 1期間の混合音声信号の先頭側の一部に基づき計算さ れた分離行列を用いて次の 1期間の混合音声信号の分離処理(同定処理)を行う。こ のとき、ある 1期間の FrameG)の先頭側の一部を用いて計算 (学習)された分離行列を 、次の 1期間の FrameG+1)を用いて分離行列を計算 (逐次計算)する際の初期値 (初 期分離行列)として用いる。これにより、逐次計算(学習)の収束が早まり好適である。
[0041] 以上示したように,図 17 (第 2例)に示すタイムチャートに従って分離行列の計算を 行う SIMO-ICA処理部 10も、時系列に入力される前記混合音声信号を予め定めら れた周期で区分された Frame (区間信号の一例)ごとに、その Frameに対し所定の分 離行列に基づく分離処理を順次実行して前記 SIMO信号を生成するものであり、ま た、その分離処理により生成した全ての時間帯 (Frame (区間信号)の時間帯に対応 する全ての時間帯)の前記 SIMO信号に基づいて、以降に用いる前記分離行列を 求める逐次計算 (学習計算)を行うものである。
さらに、この第 2例に対応する SIMO-ICA処理部 10は、分離行列を求める学習計 算に用いる混合音声信号を、フレーム信号ごとにその先頭側の一部の時間帯の信 号に限定する。これにより、より短周期での学習計算が可能となり、その結果、リアル タイム処理が可能となる。
産業上の利用可能性
本発明は、音源分離装置への利用が可能である。

Claims

請求の範囲
[1] 音源分離装置であって、
複数の音源からの音源信号が重畳した複数の混合音声信号が入力される複数の 音声入力手段と、
独立成分分析法に基づくブラインド音源分離方式の音源分離処理により、該複数 の混合音声信号力 少なくとも 1つの該音源信号に対応する SIMO信号を分離抽出 する第 1の音源分離手段と、
該 SIMO信号の少なくとも一部である複数の特定信号に複数に区分された周波数 成分ごとに選択処理と合成処理のどちらか一方を行うことを含む所定の中間処理を 行うことにより複数の中間処理後信号を得る中間処理実行手段と、そして
該複数の中間処理後信号に、又は該複数の中間処理後信号及び該 SIMO信号 の一部に、バイナリーマスキング処理を施すことにより該音源信号に対応する分離信 号を得る第 2の音源分離手段と、
を具備してなる。
[2] 請求項 1に記載の音源分離手段は更に、
該所定の中間処理に用いるパラメータを、所定の操作入力によって設定する中間 処理パラメータ設定手段
を具備してなる。
[3] 請求項 1又は 2のいずれかに記載の音源分離装置であって、
該中間処理実行手段が、該複数の特定信号に、該周波数成分ごとに信号レベル を各々所定の重み付けにより補正し、補正された該複数の特定信号に、該周波数成 分ごとに該選択処理と該合成処理のどちらか一方を行う。
[4] 請求項 3に記載の音源分離装置であって、
該中間処理実行手段が、補正された該複数の特定信号の中から、該周波数成分 ごとに信号レベルが最大のものを選択する処理を行う。
[5] 請求項 1〜4のいずれかに記載の音源分離装置は更に、
時間領域における該複数の混合音声信号に短時間離散フーリエ変換処理を施し て周波数領域における複数の混合音声信号へ変換する短時間離散フーリエ変換手 段と、
該周波数領域における複数の混合音声信号に所定の分離行列に基づく分離処理 を施すことにより該周波数領域における複数の混合音声信号ごとに該音源信号にそ れぞれ対応した第 1の分離信号を生成する FDICA音源分離手段と、
該周波数領域における複数の混合音声信号各々から、該第 1の分離信号を減算し て第 2の分離信号を生成する減算手段と、そして
該第 1の分離信号及び該第 2の分離信号に基づく逐次計算により該 FDICA音源分 離手段における該所定の分離行列を計算する分離行列計算手段と、
を具備してなり、
該第 1の音源分離手段が、周波数領域 SIMO独立成分分析法に基づくブラインド 音源分離方式の音源分離処理を行う。
[6] 請求項 1〜4のいずれかに記載の音源分離装置であって、
該第 1の音源分離手段が、周波数領域独立成分分析法と逆射影法との連結手法 に基づくブラインド音源分離方式の音源分離処理を行う。
[7] 請求項 1〜6のいずれかに記載の音源分離装置であって、
前記第 1の音源分離手段が、時系列に入力される該複数の混合音声信号が予め 定められた周期で区分された区間信号ごとに、該区間信号に対し所定の分離行列 に基づく分離処理を順次実行して該 SIMO信号を生成し、該分離処理により生成し た該区間信号の全時間帯に対応する該 SIMO信号に基づいて、以降に用いる該所 定の分離行列を求める逐次計算を行い、そして
該逐次計算の回数は、該予め定められた周期の時間内で実行可能な回数に制限 される。
[8] 請求項 1〜6のいずれかに記載の音源分離装置であって、
該第 1の音源分離手段が、時系列に入力される該複数の混合音声信号が予め定 められた周期で区分された区間信号ごとに、該区間信号に対し所定の分離行列に 基づく分離処理を順次実行して該 SIMO信号を生成し、該分離処理により生成した 該区間信号の時間帯のうちの先頭側の一部の時間帯に対応する該 SIMO信号に基 づいて以降に用いる該所定の分離行列を求める逐次計算を該予め定められた周期 の時間内で実行する。
音源分離方法であって、
複数の音源力ゝらの音源信号が重畳した複数の混合音声信号を入力し、 独立成分分析法に基づくブラインド音源分離方式の音源分離処理により該複数の 混合音声信号力 少なくとも 1つの該音源信号に対応する SIMO信号を分離抽出し 該 SIMO信号の少なくとも一部である複数の特定信号に、複数に区分された周波 数成分ごとに選択処理と合成処理のどちらか一方を行うことを含む所定の中間処理 を行うことにより複数の中間処理後信号を得て、そして
該複数の中間処理後信号に、又は該複数の中間処理後信号及び該 SIMO信号 の一部に、バイナリーマスキング処理を施すことにより該音源信号に対応する分離信 号を得る。
PCT/JP2007/051009 2006-01-23 2007-01-23 音源分離装置及び音源分離方法 WO2007083814A1 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
US12/223,069 US20090306973A1 (en) 2006-01-23 2007-01-23 Sound Source Separation Apparatus and Sound Source Separation Method

Applications Claiming Priority (4)

Application Number Priority Date Filing Date Title
JP2006014419 2006-01-23
JP2006-014419 2006-01-23
JP2006-241861 2006-09-06
JP2006241861A JP4496186B2 (ja) 2006-01-23 2006-09-06 音源分離装置、音源分離プログラム及び音源分離方法

Publications (1)

Publication Number Publication Date
WO2007083814A1 true WO2007083814A1 (ja) 2007-07-26

Family

ID=38287756

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/JP2007/051009 WO2007083814A1 (ja) 2006-01-23 2007-01-23 音源分離装置及び音源分離方法

Country Status (3)

Country Link
US (1) US20090306973A1 (ja)
JP (1) JP4496186B2 (ja)
WO (1) WO2007083814A1 (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107316650A (zh) * 2016-04-26 2017-11-03 诺基亚技术有限公司 关于与分离的音频信号相关联的特征的修改的方法、装置和计算机程序

Families Citing this family (20)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR100942143B1 (ko) * 2007-09-07 2010-02-16 한국전자통신연구원 기존 오디오 포맷의 오디오 장면 정보를 유지하는 wfs재생 방법 및 그 장치
ATE467316T1 (de) * 2008-03-20 2010-05-15 Dirac Res Ab Räumlich robuste audiovorkompensierung
US8194885B2 (en) 2008-03-20 2012-06-05 Dirac Research Ab Spatially robust audio precompensation
JP5195652B2 (ja) 2008-06-11 2013-05-08 ソニー株式会社 信号処理装置、および信号処理方法、並びにプログラム
JP5229053B2 (ja) * 2009-03-30 2013-07-03 ソニー株式会社 信号処理装置、および信号処理方法、並びにプログラム
JP5375400B2 (ja) * 2009-07-22 2013-12-25 ソニー株式会社 音声処理装置、音声処理方法およびプログラム
CN101996639B (zh) * 2009-08-12 2012-06-06 财团法人交大思源基金会 音频信号分离装置及其操作方法
US9966088B2 (en) * 2011-09-23 2018-05-08 Adobe Systems Incorporated Online source separation
JP6005443B2 (ja) * 2012-08-23 2016-10-12 株式会社東芝 信号処理装置、方法及びプログラム
US9544687B2 (en) * 2014-01-09 2017-01-10 Qualcomm Technologies International, Ltd. Audio distortion compensation method and acoustic channel estimation method for use with same
DE102014214052A1 (de) * 2014-07-18 2016-01-21 Bayerische Motoren Werke Aktiengesellschaft Virtuelle Verdeckungsmethoden
US11234072B2 (en) 2016-02-18 2022-01-25 Dolby Laboratories Licensing Corporation Processing of microphone signals for spatial playback
US10410641B2 (en) 2016-04-08 2019-09-10 Dolby Laboratories Licensing Corporation Audio source separation
CN106024005B (zh) * 2016-07-01 2018-09-25 腾讯科技(深圳)有限公司 一种音频数据的处理方法及装置
JP6729186B2 (ja) 2016-08-30 2020-07-22 富士通株式会社 音声処理プログラム、音声処理方法及び音声処理装置
US10349196B2 (en) 2016-10-03 2019-07-09 Nokia Technologies Oy Method of editing audio signals using separated objects and associated apparatus
CN108769874B (zh) * 2018-06-13 2020-10-20 广州国音科技有限公司 一种实时分离音频的方法和装置
CN111128221B (zh) * 2019-12-17 2022-09-02 北京小米智能科技有限公司 一种音频信号处理方法、装置、终端及存储介质
EP3849202B1 (en) 2020-01-10 2023-02-08 Nokia Technologies Oy Audio and video processing
KR20220061467A (ko) * 2020-11-06 2022-05-13 삼성전자주식회사 전자 장치 및 이의 오디오 신호 처리 방법

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2005031169A (ja) * 2003-07-08 2005-02-03 Kobe Steel Ltd 音声信号処理装置,その方法,そのプログラム
WO2005024788A1 (ja) * 2003-09-02 2005-03-17 Nippon Telegraph And Telephone Corporation 信号分離方法、信号分離装置、信号分離プログラム及び記録媒体
JP2005091560A (ja) * 2003-09-16 2005-04-07 Nissan Motor Co Ltd 信号分離方法および信号分離装置

Family Cites Families (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6343268B1 (en) * 1998-12-01 2002-01-29 Siemens Corporation Research, Inc. Estimator of independent sources from degenerate mixtures
US6321200B1 (en) * 1999-07-02 2001-11-20 Mitsubish Electric Research Laboratories, Inc Method for extracting features from a mixture of signals
US6424960B1 (en) * 1999-10-14 2002-07-23 The Salk Institute For Biological Studies Unsupervised adaptation and classification of multiple classes and sources in blind signal separation
US6879952B2 (en) * 2000-04-26 2005-04-12 Microsoft Corporation Sound source separation using convolutional mixing and a priori sound source knowledge
AU2002248164A1 (en) * 2000-11-09 2002-08-06 Hrl Laboratories, Llc Blind decomposition using fourier and wavelet transforms
US6622117B2 (en) * 2001-05-14 2003-09-16 International Business Machines Corporation EM algorithm for convolutive independent component analysis (CICA)
US7099821B2 (en) * 2003-09-12 2006-08-29 Softmax, Inc. Separation of target acoustic signals in a multi-transducer arrangement
FR2862173B1 (fr) * 2003-11-07 2006-01-06 Thales Sa Procede de demodulation aveugle aux ordres superieurs d'un emetteur de forme d'onde lineaire
JP4157581B2 (ja) * 2004-12-03 2008-10-01 本田技研工業株式会社 音声認識装置

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2005031169A (ja) * 2003-07-08 2005-02-03 Kobe Steel Ltd 音声信号処理装置,その方法,そのプログラム
WO2005024788A1 (ja) * 2003-09-02 2005-03-17 Nippon Telegraph And Telephone Corporation 信号分離方法、信号分離装置、信号分離プログラム及び記録媒体
JP2005091560A (ja) * 2003-09-16 2005-04-07 Nissan Motor Co Ltd 信号分離方法および信号分離装置

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
MORI Y. ET AL.: "SIMO Model ni motozuku ICA to Binary Mask Processing o Kumiawaseta Blind Ongen Bunri (Blind Source Separation Combining SIMO-Model-Based ICA and Binary Mask Processing)", IEICE TECHNICAL REPORT, EA2004-115, December 2004 (2004-12-01), pages 71 - 76, XP003015491 *
MORI Y. ET AL.: "SIMO-ICA to Binary Mask Processing o Kumiawaseta 2 Dangata Real Time Blind Ongen Bunri", THE JAPANESE SOCIETY FOR ARTIFICIAL INTELLIGENCE KENKYUKAI SHIRYO, SIG-CHALLENGE-0522-4, October 2005 (2005-10-01), pages 23 - 28, XP003015492 *

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107316650A (zh) * 2016-04-26 2017-11-03 诺基亚技术有限公司 关于与分离的音频信号相关联的特征的修改的方法、装置和计算机程序
CN107316650B (zh) * 2016-04-26 2020-12-18 诺基亚技术有限公司 关于与分离的音频信号相关联的特征的修改的方法、装置

Also Published As

Publication number Publication date
US20090306973A1 (en) 2009-12-10
JP2007219479A (ja) 2007-08-30
JP4496186B2 (ja) 2010-07-07

Similar Documents

Publication Publication Date Title
WO2007083814A1 (ja) 音源分離装置及び音源分離方法
JP4897519B2 (ja) 音源分離装置,音源分離プログラム及び音源分離方法
CN107454538B (zh) 包括含有平滑单元的波束形成器滤波单元的助听器
JP5444472B2 (ja) 音源分離装置、音源分離方法、及び、プログラム
CN101510426B (zh) 一种噪声消除方法及系统
CN103874002B (zh) 包括非自然信号减少的音频处理装置
US20070025556A1 (en) Sound source separation apparatus and sound source separation method
JP5375400B2 (ja) 音声処理装置、音声処理方法およびプログラム
CN102739886B (zh) 基于回声频谱估计和语音存在概率的立体声回声抵消方法
EP3175445B1 (en) Apparatus and method for enhancing an audio signal, sound enhancing system
JP5659298B2 (ja) 補聴器システムにおける信号処理方法および補聴器システム
EP3899936B1 (en) Source separation using an estimation and control of sound quality
JP4462617B2 (ja) 音源分離装置,音源分離プログラム及び音源分離方法
Marquardt et al. Interaural coherence preservation for binaural noise reduction using partial noise estimation and spectral postfiltering
Marquardt et al. Binaural cue preservation for hearing aids using multi-channel Wiener filter with instantaneous ITF preservation
Pandey et al. Multichannel speech enhancement without beamforming
JP4493690B2 (ja) 目的音抽出装置,目的音抽出プログラム,目的音抽出方法
Kociński et al. Evaluation of Blind Source Separation for different algorithms based on second order statistics and different spatial configurations of directional microphones
Westhausen et al. Low bit rate binaural link for improved ultra low-latency low-complexity multichannel speech enhancement in Hearing Aids
Çolak et al. A novel voice activity detection for multi-channel noise reduction
Miyazaki et al. Theoretical analysis of parametric blind spatial subtraction array and its application to speech recognition performance prediction
Westhausen et al. Binaural multichannel blind speaker separation with a causal low-latency and low-complexity approach
CN113257270A (zh) 一种基于参考麦克风优化的多通道语音增强方法
Kavalekalam et al. Model based binaural enhancement of voiced and unvoiced speech
Tammen et al. Combining binaural LCMP beamforming and deep multi-frame filtering for joint dereverberation and interferer reduction in the Clarity-2021 challenge

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application
WWE Wipo information: entry into national phase

Ref document number: 12223069

Country of ref document: US

NENP Non-entry into the national phase

Ref country code: DE

122 Ep: pct application non-entry in european phase

Ref document number: 07707260

Country of ref document: EP

Kind code of ref document: A1