WO2018047643A1 - 音源分離装置および方法、並びにプログラム - Google Patents

音源分離装置および方法、並びにプログラム Download PDF

Info

Publication number
WO2018047643A1
WO2018047643A1 PCT/JP2017/030631 JP2017030631W WO2018047643A1 WO 2018047643 A1 WO2018047643 A1 WO 2018047643A1 JP 2017030631 W JP2017030631 W JP 2017030631W WO 2018047643 A1 WO2018047643 A1 WO 2018047643A1
Authority
WO
WIPO (PCT)
Prior art keywords
sound source
signal
source separation
sound
unit
Prior art date
Application number
PCT/JP2017/030631
Other languages
English (en)
French (fr)
Inventor
高橋 直也
祐基 光藤
シュテファン ユーリッヒ
ミハエル エネンケル
トーマス ケンプ
Original Assignee
ソニー株式会社
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by ソニー株式会社 filed Critical ソニー株式会社
Priority to CN201780053674.XA priority Critical patent/CN109661705B/zh
Priority to EP17848584.3A priority patent/EP3511937B1/en
Priority to JP2018538355A priority patent/JP6981417B2/ja
Priority to US16/325,219 priority patent/US10924849B2/en
Publication of WO2018047643A1 publication Critical patent/WO2018047643A1/ja

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0272Voice signal separating
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R3/00Circuits for transducers, loudspeakers or microphones
    • H04R3/005Circuits for transducers, loudspeakers or microphones for combining the signals of two or more microphones
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/048Activation functions
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R5/00Stereophonic arrangements
    • H04R5/04Circuit arrangements, e.g. for selective connection of amplifier inputs/outputs to loudspeakers, for loudspeaker detection, or for adaptation of settings to personal preferences or hearing impairments

Definitions

  • the present technology relates to a sound source separation device, method, and program, and more particularly, to a sound source separation device, method, and program capable of obtaining higher separation performance.
  • a multi-channel Wiener filter (MWF) based sound source separation method using DNN (Deep Neural Network) has been proposed (for example, see Non-Patent Document 1). .
  • MMF Wiener filter
  • the amplitude spectrum estimation by DNN is performed on the mixed sound signal to obtain the estimated value of the amplitude spectrum of each sound source, and the target value is obtained from the estimated value and the mixed sound signal by the least mean square error method.
  • the source signal of the sound source to be played is required.
  • the sound source separation performance increases as the DNN output error decreases.
  • learning of DNN is generally difficult due to limited learning data and complicated problems, and the amplitude spectrum obtained as the output of DNN contains errors, which contributes to poor separation performance. It has become.
  • the present technology has been made in view of such a situation, and enables higher separation performance to be obtained.
  • a sound source separation device includes a first sound source separation signal of a predetermined sound source separated from a mixed sound signal by the first sound source separation method, and separation from the first sound source separation method in a predetermined time unit.
  • a coupling unit that couples the second sound source separation signal of the sound source separated from the mixed sound signal by a second sound source separation method having different performances and outputs the sound source separation signal obtained by the combination.
  • the coupling unit may linearly couple the first sound source separation signal and the second sound source separation signal based on a coupling parameter.
  • the sound source separation device is based on the certainty that is the signal of the sound source obtained for the first sound source separation signal and the certainty that is the signal of the sound source obtained for the second sound source separation signal.
  • a combination parameter determining unit for determining the combination parameter may be further provided.
  • the separation performance can be SIR, SAR, SDR, or ISR.
  • the magnitude relationship between the separation performance of the first sound source separation method and the separation performance of the second sound source separation method can be changed with time.
  • the first sound source separation method and the second sound source separation method can be the same sound source separation method.
  • the first sound source separation method can be any of FNN, RNN, and NMF
  • the second sound source separation method can be any of FNN, RNN, and NMF.
  • a sound source separation method or program includes a first sound source separation signal of a predetermined sound source separated from a mixed sound signal by the first sound source separation method, the first sound source separation method, and a predetermined time unit. And a second sound source separation signal of the sound source separated from the mixed sound signal by a second sound source separation method having different separation performance, and outputting a sound source separation signal obtained by the combination.
  • the first sound source separation signal of the predetermined sound source separated from the mixed sound signal by the first sound source separation method is different from the first sound source separation method in separation performance by a predetermined time unit.
  • the second sound source separation signal of the sound source separated from the mixed sound signal by the second sound source separation method is combined, and the sound source separation signal obtained by the combination is output.
  • each sound source is generally separated as shown in FIG.
  • the sound source separator 12 When the I-channel mixed sound signal x obtained in this way is input to the sound source separator 12, the sound source separator 12 performs sound source separation on the input mixed sound signal x.
  • source signals ⁇ circumflex over (s) ⁇ 1 through source signals ⁇ circumflex over (s) ⁇ J are obtained as estimation results of the sound signals of the respective sound sources s 1 through s J.
  • the source signal ⁇ circumflex over (s) ⁇ 1 is an I channel signal (I-dimensional vector) composed of the sound signal of the sound source s 1 obtained for each of the I channels.
  • an MWF-based sound source separation method using DNN is known.
  • each signal is expressed in STFT (Short-Term-Fourier-Transform) domain.
  • the frequency bin is k
  • the time frame is m
  • the I-channel mixed sound signal is denoted as x (k, m)
  • the j (where 1 ⁇ j ⁇ J) sound source s of the J sound sources and it marks the source signal is a signal j sound s j (k, m) and.
  • Both the mixed sound signal x (k, m) and the source signal s j (k, m) are signals composed of complex spectra for each of I channels.
  • the signal model is assumed by MWF as shown in the following equation (1).
  • Equation (1) z (k, m) represents complex Gaussian noise, ⁇ j (k, m) represents power spectral density, and R j (k, m) represents a spatial correlation matrix. Is shown. N C (0, ⁇ j (k, m) R j (k, m)) represents a complex Gaussian probability density distribution.
  • the sum of source signals s j ′ (k, m) of other sound sources other than the intended j-th sound source s j is complex Gaussian noise z (k, m).
  • the mixed sound signal x (k, m) is represented by the sum of the source signal s j (k, m) of the target sound source s j and the complex Gaussian noise z (k, m).
  • the source signal s j (k, m) of the sound source s j intended for mixing sound signals It can be estimated from x (k, m).
  • the estimated value of the least mean square error ⁇ s j, MWF (k, m) that is, the estimated value of the source signal s j (k, m) by the least mean square error method is calculated by the following equation (2). Is required. Note that s j, MWF (k, m) is a signal composed of a complex spectrum for each of I channels.
  • Equation (2) The calculation of equation (2) is the operation of MWF, and the source signal ⁇ s j, MWF (k, m) , which is an estimated value of the actual source signal s j (k, m), is obtained by equation (2). Therefore, it is necessary to obtain the power spectral density ⁇ j (k, m) and the spatial correlation matrix R j (k, m) for each of the J sound sources.
  • the spatial correlation matrix R j (k, m) is time-invariant, that is, the position of each sound source does not change with time
  • the power spectral density of these by DNN ⁇ j (k, m) and a spatial correlation matrix R j (k, m) are obtained.
  • the output of DNN is ⁇ s 1 (k, m), ..., ⁇ s J (k, m) ⁇
  • the power spectral density ⁇ j (k, m) and the spatial correlation matrix R j ( k, m) is obtained by the following equations (3) and (4), respectively.
  • Equation (3) ⁇ ⁇ j (k, m) indicates an estimated value of power spectral density ⁇ j (k, m), and in Equation (4), ⁇ R j (k) is a spatial correlation.
  • the estimated value of the matrix R j (k, m) is shown.
  • the spatial correlation matrix R j (k, m) is assumed to be constant regardless of the frame m, the spatial correlation matrix obtained by estimation omits the index m and R j (k) It is written.
  • DNs output ⁇ s j (k, m) is a signal composed of an amplitude spectrum for each of I channels, and the amplitude of sound from sound source s j It is an estimate of the spectrum.
  • the source signal ⁇ s j, MWF (k, m) of the target sound source is obtained as described above.
  • the estimation error decreases as the amplitude spectrum ⁇ circumflex over (s) ⁇ j (k, m), which is the output of the DNN, is closer to the original source signal s j (k, m).
  • DNN learning is generally difficult due to limited learning data and complicated problems, and the amplitude spectrum obtained as the DNN output contains errors, which deteriorates the separation performance of sound source separation. It is one of the causes.
  • DNN can be replaced with LSTM (Long Short Short Term Memory), and an estimation result with a different property from that in DNN can be obtained as an estimation result of the amplitude spectrum.
  • LSTM learning is still difficult, and the amplitude spectrum obtained as an estimation result includes an error, so that it is difficult to obtain sufficiently high separation performance.
  • the temporal characteristics of the output differ from the estimation result of the sound source signal by the sound source separation method, more specifically, for example, the level (intensity) of interference, the level of artifact, the noise level
  • the separation performance such as level differs from time to time.
  • a plurality of sound source separation methods combined in the present technology are as follows, for example.
  • each sound source separation method differs in sound source separation performance in a predetermined time unit such as a frame unit. That is, separation performance such as interference level (intensity), artifact level, noise level, etc. in a predetermined time unit. Change. More specifically, as sound source separation performance, for example, SIR (Source-to-Interference-Ratio), SAR (Sources-to-Artifacts-Ratio), SDR (Signal-to-Distortion-Ratio), ISR (source-to-Image-to-Spatial-distortion-Ratio), etc. Can be used.
  • SIR Source-to-Interference-Ratio
  • SAR Sources-to-Artifacts-Ratio
  • SDR Signal-to-Distortion-Ratio
  • ISR source-to-Image-to-Spatial-distortion-Ratio
  • the plurality of sound source separation methods to be combined are different from each other in sound source separation performance in a predetermined time unit such as a frame unit. That is, the separation performance differs between a certain sound source separation method and another sound source separation method, and the relationship between the separation performances of these sound source separation methods changes (is different) by a predetermined time unit.
  • a plurality of sound source separation methods to be combined is a sound source separation method in which the magnitude relation of the separation performance changes with time when viewed in a predetermined time unit.
  • the separation performance changes in units of a predetermined time when sound source separation is performed on any mixed sound signal.
  • the first sound source separation method has higher separation performance than the second sound source separation method, but at other times, the second sound source separation method is separated from the first sound source separation method.
  • the performance is high, which sound source separation system has the higher separation performance depends on the time (time). That is, the magnitude relationship between the separation performances of the first sound source separation method and the second sound source separation method differs depending on the frame or the like.
  • FIG. 2 shows a configuration example of a sound source separation device to which the present technology is applied.
  • the 2 includes an amplitude spectrum estimation unit 51-1 to an amplitude spectrum estimation unit 51-N, a coupling unit 52, and a separated signal generation unit 53.
  • the mixed sound signal x (k, m) is supplied to the amplitude spectrum estimation unit 51-1 to the amplitude spectrum estimation unit 51-N and the separated signal generation unit 53.
  • the amplitude spectrum estimators 51-1 to 51-N perform amplitude spectrum ⁇ s j (k) from the mixed sound signal x (k, m) according to different amplitude spectrum estimation algorithms, that is, different sound source separation methods. , m) is obtained by estimation and supplied to the combining unit 52. In other words, the amplitude spectrum ⁇ s j (k, m) is separated from the mixed sound signal x (k, m) as the sound source separation signal of each sound source.
  • the amplitude spectrum estimation unit 51-1 to the amplitude spectrum estimation unit 51-N are also simply referred to as the amplitude spectrum estimation unit 51 when it is not necessary to distinguish them.
  • These amplitude spectrum estimators 51 are amplitude spectrum estimators.
  • the combiner 52 combines the amplitude spectra ⁇ s j (k, m) supplied from the N amplitude spectrum estimators 51 into one final amplitude spectrum ⁇ s j (k, m), and the separated signal Supply (output) to the generation unit 53.
  • the separated signal generator 53 determines the amplitude spectrum of the target sound source.
  • the estimated value of the source signal of the target sound source is calculated and output by performing the process of adding the phase to ⁇ s j (k, m).
  • a feed forward neural network including CNN (Convolutinal Neural Network), ResNet (Residual Network), a recursive neural network, or the like.
  • RNN Recurrent Neural Network
  • DenseNet DenseNet (Densely connected convolutional Networks)
  • NMF Non-negative Matrix Factrization
  • amplitude spectrum estimation algorithm in the amplitude spectrum estimation unit 51 for example, as shown in FIG. 3, a different algorithm or network for each frequency band can be adopted.
  • the amplitude spectrum estimation unit 51 includes a band source spectrum estimation unit 71-1 to a band source spectrum estimation unit 71-3, and a full band source spectrum estimation unit 72.
  • the band source spectrum estimator 71-1 to band source spectrum estimator 71-3 receive signals of a part of the mixed sound spectrum or the entire band of the mixed sound signal x (k, m) of each frequency bin k. Supplied.
  • Band source spectrum estimation unit 71-1 through band source spectrum estimation unit 71-3 receives a signal of a partial band or the entire band of the mixed sound spectrum as input, and the amplitude of each frequency bin k according to different band source spectrum estimation algorithms. A signal in a part or all of the band of the source spectrum consisting of the spectrum ⁇ s j (k, m) is estimated.
  • band source spectrum estimation unit 71-1 to band source spectrum estimation unit 71-3 different bands of the mixed sound spectrum are input, and signals in different bands of the source spectrum are estimated.
  • the band source spectrum estimation unit 71-1 to band source spectrum estimation unit 71-3 supply a partial band of the source spectrum or a signal of the entire band obtained by the estimation to the full band source spectrum estimation unit 72 as a band spectrum. To do.
  • band source spectrum estimation unit 71-1 to the band source spectrum estimation unit 71-3 are also simply referred to as a band source spectrum estimation unit 71 when it is not necessary to distinguish them.
  • the all-band source spectrum estimation unit 72 generates each frequency bin k based on the supplied mixed sound spectrum and the band spectrum supplied from each of the band source spectrum estimation unit 71-1 to the band source spectrum estimation unit 71-3. Generate an amplitude spectrum ⁇ s j (k, m). That is, the full-band source spectrum estimation unit 72 integrates the band spectra supplied from the respective band source spectrum estimation units 71 according to the full-band source spectrum estimation algorithm, and each frequency bin is obtained as a full-band source spectrum obtained by the integration. Output the amplitude spectrum ⁇ s j (k, m) of k.
  • DNN can be adopted as the band source spectrum estimation algorithm in each band source spectrum estimation unit 71 and the full band source spectrum estimation algorithm in the full band source spectrum estimation unit 72.
  • the spectrum pattern varies depending on the band.
  • the sound has a relatively long duration in the low range and many tonal sounds, while in the high range, a noise sound that quickly decays and has no tonality can occur more frequently. Therefore, in order to capture such different characteristics for each band, it may be easier to estimate the source spectrum for each band.
  • high performance and efficiency can be achieved by selecting an optimal model size and algorithm for each band.
  • the amplitude spectrum estimation unit 51 estimates the source spectrum for each band and integrates the estimation results into a final source spectrum so that the source spectrum can be estimated more efficiently and with high accuracy. Has been.
  • each amplitude spectrum estimation unit 51 when learning models are different from each other, for example, DNNs may be combined. In other words, even when the same sound source separation method (amplitude spectrum estimation algorithm) such as DNNs is used, if the learning models are different and outputs different properties, the separation performance can be improved by combining these sound source separation methods. Can be made.
  • the estimation of the amplitude spectrum by DNN is excellent in suppressing sounds other than the target sound source, that is, non-target sound, but tends to have a large artifact.
  • LSTM which is a type of recurrent neural network (RNN) having a connection in the time direction
  • RNN recurrent neural network
  • the sound source separation device 41 shown in FIG. 2 is configured as shown in FIG. In FIG. 4, portions corresponding to those in FIG. 2 are denoted with the same reference numerals, and description thereof will be omitted as appropriate.
  • the DNN unit 81 and the LSTM unit 82 correspond to the amplitude spectrum estimation unit 51 shown in FIG.
  • the DNN unit 81 is an amplitude spectrum estimator based on DNN obtained by learning in advance, performs amplitude spectrum estimation based on the supplied mixed sound signal x (k, m), and obtains the amplitude spectrum ⁇ s j (k, m) is supplied to the coupling unit 52.
  • the amplitude spectrum ⁇ s j (k, m) obtained by the DNN unit 81 will be referred to as the amplitude spectrum ⁇ s j, DNN (k, m).
  • the LSTM unit 82 is an LSTM amplitude spectrum estimator obtained by learning in advance, performs amplitude spectrum estimation based on the supplied mixed sound signal x (k, m), and obtains the resulting amplitude spectrum ⁇ s j (k, m) is supplied to the coupling section 52.
  • the amplitude spectrum ⁇ s j (k, m) obtained by the LSTM unit 82 will be referred to as the amplitude spectrum ⁇ s j, LSTM (k, m).
  • the combining unit 52 combines the amplitude spectrum ⁇ s j, DNN (k, m) supplied from the DNN unit 81 and the amplitude spectrum ⁇ s j, LSTM (k, m) supplied from the LSTM unit 82.
  • One final amplitude spectrum ⁇ circumflex over (s) ⁇ j (k, m) is supplied to the separated signal generator 53.
  • the method for combining the amplitude spectra may be any method such as linear combination or connection using an artificial neural network (ANN (Artificial Neural Network)).
  • ANN Artificial Neural Network
  • ANN Artificial Neural Network
  • the combining unit 52 calculates the following equation (5) to obtain the amplitude spectrum ⁇ s j (k, m) as a combined result.
  • represents a coupling parameter.
  • the coupling parameter ⁇ is a predetermined fixed value and indicates the weight of the amplitude spectrum ⁇ s j, LSTM (k, m) at the time of linear combination.
  • the separated signal generation unit 53 estimates the target sound source by estimation. Calculate and output the source signal.
  • the separated signal generation unit 53 calculates the above-described Expressions (3) and (4) based on the amplitude spectrum ⁇ s j (k, m), so that the power spectrum density ⁇ ⁇ j for each of the J sound sources. Find (k, m) and the spatial correlation matrix R j (k).
  • the separated signal generation unit 53 calculates the above-described equation based on the power spectral density ⁇ ⁇ j (k, m) and the spatial correlation matrix ⁇ R j (k) and the mixed sound signal x (k, m). (2) is calculated, and the source signal ⁇ s j, MWF (k, m) which is the estimated separated sound spectrum of the target sound source is calculated by the MWF.
  • the power spectral density ⁇ ⁇ j (k, m) and the spatial correlation matrix ⁇ R j (k) are changed into the power spectral density ⁇ j (k, m) and the spatial correlation matrix R j ( k, m) is substituted into equation (2).
  • the calculation of equation (2) is a calculation for obtaining a complex spectrum having a phase by adding a phase to the amplitude spectrum ⁇ s j (k, m) having no phase. At this time, the added phase is determined so that the mean square error is minimized.
  • the separated signal generator 53 uses the mixed sound signal x (k, m) and the amplitude spectrum ⁇ s j (k , m), the source signal of the target sound source may be obtained by DNN or the like.
  • the sound signal including the sounds of Vocals, Drums, Other, and Bass is used as a mixed sound signal to perform sound source separation.
  • Curves L11 to L14 indicate the magnitudes of SDR when the coupling parameter ⁇ is each value from 0 to 1 and each of the signals of Vocals, Drums, Other, and Bass is extracted as the source signal.
  • a curve L15 indicates an average value of the curves L11 to L14.
  • the DNN to obtain the source sound source amplitude spectrum ⁇ s j, DNN (k, m) from the mixed sound signal x (k, m), or the source sound source amplitude spectrum from the mixed sound signal x (k, m) An LSTM learning method for obtaining ⁇ s j, LSTM (k, m) will be described.
  • the network input is the amplitude spectrum of the mixed sound signal
  • the teacher data is the amplitude spectrum of the source sound, that is, the sound of the target sound source
  • the nonlinear function by the network is f (, ⁇ )
  • the network parameter ⁇ is obtained so that the square error between the nonlinear function and the amplitude spectrum of the source sound is minimized.
  • the objective function L to be minimized is as shown in the following equation (6).
  • , ⁇ ) obtained in this way is used as the mixed sound signal x (k, m), more specifically, the mixed sound signal.
  • the amplitude spectrum of x (k, m) the amplitude spectrum ⁇ s j, DNN (k, m) and the amplitude spectrum ⁇ s j, LSTM (k, m) are obtained.
  • step S11 the DNN unit 81 estimates an amplitude spectrum by DNN based on the supplied mixed sound signal x (k, m), and obtains the obtained amplitude spectrum ⁇ s j, DNN (k, m). It supplies to the coupling
  • step S11 the mixed sound signal x (k, m) is substituted into the nonlinear function f (
  • step S12 the LSTM unit 82 estimates an amplitude spectrum by LSTM based on the supplied mixed sound signal x (k, m), and obtains the obtained amplitude spectrum ⁇ s j, LSTM (k, m). It supplies to the coupling
  • FIG. 1 the LSTM unit 82 estimates an amplitude spectrum by LSTM based on the supplied mixed sound signal x (k, m), and obtains the obtained amplitude spectrum ⁇ s j, LSTM (k, m). It supplies to the coupling
  • step S12 the mixed sound signal x (k, m) is substituted into the nonlinear function f (
  • step S ⁇ b> 13 the combining unit 52 includes the amplitude spectrum ⁇ s j, DNN (k, m) supplied from the DNN unit 81 and the amplitude spectrum ⁇ s j, LSTM (k, m) supplied from the LSTM unit 82. And the resulting amplitude spectrum ⁇ s j (k, m) is supplied to the separated signal generator 53.
  • step S13 the above-described equation (5) is calculated, and the amplitude spectrum ⁇ s j (k, m) is calculated by linear combination.
  • step S ⁇ b> 14 the separated signal generation unit 53 performs estimation based on the supplied mixed sound signal x (k, m) and the amplitude spectrum ⁇ s j (k, m) supplied from the combining unit 52.
  • the source signal ⁇ s j, MWF (k, m) of the sound source is calculated and output, and the sound source separation process ends.
  • equations (3) and (4) are calculated from the amplitude spectrum ⁇ s j (k, m), and the equation (3) and equation (4) are calculated from the mixed sound signal x (k, m).
  • the calculation of 2) is performed, and the source signal ⁇ s j, MWF (k, m) is calculated.
  • the sound source separation device 41 estimates the amplitude spectrum by the sound source separation methods of different properties such as DNN and LSTM, and based on the amplitude spectrum obtained by combining these estimation results, The source signal of is calculated.
  • a high separation performance can be obtained by combining a plurality of amplitude spectrum estimation algorithms with low calculation costs.
  • the amplitude spectrum coupled by the coupling unit 52 can be dynamically changed, so that the robustness is achieved. Sound source separation can be performed.
  • the coupling parameter ⁇ is set so that a larger weight is applied to the amplitude spectrum obtained by LSTM at the time of coupling. Great value. By doing so, the estimation accuracy of the amplitude spectrum can be further improved, and as a result, the sound source separation performance can be improved.
  • the sound source separation device 41 is configured as shown in FIG. 7, for example.
  • portions corresponding to those in FIG. 4 are denoted by the same reference numerals, and description thereof is omitted as appropriate.
  • the configuration of the sound source separation device 41 shown in FIG. 7 is different from the configuration of the sound source separation device 41 shown in FIG. 4 in that a coupling parameter determination unit 111 is newly provided, and the sound source separation shown in FIG.
  • the configuration is the same as that of the device 41.
  • the sound source separation device 41 shown in FIG. 7 includes a DNN unit 81, an LSTM unit 82, a coupling parameter determination unit 111, a coupling unit 52, and a separated signal generation unit 53.
  • the DNN unit 81 uses the separation performance evaluation function D DNN (y), which is a discriminator obtained by learning in advance, to evaluate the estimation performance of the amplitude spectrum by the DNN unit 81, that is, the separation performance of the target sound source signal.
  • D DNN separation performance evaluation function
  • the value D DNN is calculated and supplied to the combination parameter determination unit 111.
  • the LSTM unit 82 uses the separation performance evaluation function D LSTM (y), which is a discriminator obtained by learning in advance, to evaluate the estimation performance of the amplitude spectrum by the LSTM unit 82, that is, the separation performance of the target sound source signal.
  • D LSTM is calculated and supplied to the combination parameter determination unit 111.
  • the coupling parameter determination unit 111 determines the coupling parameter ⁇ based on the evaluation value D DNN supplied from the DNN unit 81 and the evaluation value D LSTM supplied from the LSTM unit 82, and supplies it to the combining unit 52.
  • separation performance evaluation function D DNN (y) and the separation performance evaluation function D LSTM (y) are also simply referred to as a separation performance evaluation function D (y) when there is no need to distinguish them.
  • the coupling unit 52 uses the coupling parameter ⁇ supplied from the coupling parameter determination unit 111 and the amplitude spectrum ⁇ s j, DNN (k, m) supplied from the DNN unit 81 and the amplitude supplied from the LSTM unit 82.
  • the spectrum ⁇ circumflex over (s) ⁇ j, LSTM (k, m) is combined, and the obtained amplitude spectrum ⁇ circumflex over (s) ⁇ (k, m) is supplied to the separated signal generator 53.
  • a separation performance evaluation function D (y) which is a function for evaluating separation performance in each sound source separation method, that is, each amplitude spectrum estimation algorithm, is obtained in advance by learning such as DNN. Held in the part 81 and the LSTM part 82. Then, the coupling parameter determination unit 111 performs control so that a larger weight is given to the amplitude spectrum estimation algorithm with higher separation performance.
  • the separation performance evaluation function D (y) is set to 1 when the actual sound source signal s j (k, m) is substituted as the argument y into the separation performance evaluation function D (y).
  • Discriminator that outputs 0 as the argument y and the amplitude spectrum after sound source separation, that is, the estimated value of the source signal s j (k, m), is substituted into the separation performance evaluation function D (y) Can be learned as.
  • ⁇ s j represents an estimated value of the amplitude spectrum of the source signal s j (k, m). Therefore, for example, if the separation performance evaluation function D (y) is the separation performance evaluation function D DNN (y), ⁇ s j in the equation (7) becomes the amplitude spectrum ⁇ s j, DNN (k, m). For example, if the separation performance evaluation function D (y) is the separation performance evaluation function D LSTM (y), ⁇ s j in the equation (7) becomes the amplitude spectrum ⁇ s j, LSTM (k, m).
  • the separation performance evaluation function D (y) is DNN
  • the final output layer is represented by the sigmoid function shown in the following equation (8).
  • a in the equation (8) indicates an input to the final output layer, that is, an output of the previous layer.
  • the separation performance evaluation function D (y) takes a value between (0, 1), that is, from 0 to 1, and the argument y represents the posterior probability that it is the amplitude spectrum of the source signal s j (k, m). ing.
  • the evaluation value D DNN and the evaluation value D LSTM which are the outputs of the separation performance evaluation function D (y) are input amplitude spectrum ⁇ s j, DNN (k, m) and amplitude spectrum ⁇ s j, LSTM
  • the probability that (k, m) is the amplitude spectrum of the source signal s j (k, m) is shown.
  • the evaluation value D DNN indicates the probability of being the target sound source signal obtained for the amplitude spectrum ⁇ s j, DNN (k, m), and the evaluation value D LSTM is the amplitude spectrum ⁇ s j Therefore, the probability of being the signal of the target sound source obtained for LSTM (k, m) is shown.
  • the DNN unit 81 and the LSTM unit 82 hold the separation performance evaluation function D DNN (y) and the separation performance evaluation function D LSTM (y) learned in advance as described above.
  • the coupling parameter determination unit 111 calculates, for example, the following equation (9) from the evaluation value D DNN obtained by the DNN unit 81 and the evaluation value D LSTM obtained by the LSTM unit 82, thereby obtaining a coupling parameter. ⁇ is calculated.
  • the coupling parameter ⁇ may be calculated by the calculation of Equation (9), or the coupling parameter ⁇ may be determined using threshold processing and the magnitude relationship of evaluation values. Also good.
  • the weight of the amplitude spectrum corresponding to the evaluation value equal to or higher than the threshold value is set to 1. If not, the coupling parameter ⁇ may be determined by equation (9).
  • the coupling parameter ⁇ 0 is set, and the amplitude spectrum ⁇ s j, DNN (k , m) is directly used as the amplitude spectrum ⁇ s j (k, m).
  • the weight of the amplitude spectrum corresponding to the one evaluation value is set to 1. Otherwise, the coupling parameter ⁇ may be determined by equation (9).
  • the coupling parameter ⁇ is obtained based on the evaluation value D DNN and the evaluation value D LSTM as described above, the estimation accuracy of the amplitude spectrum can be improved and the sound source separation performance can be further improved.
  • sound source separation can be performed robustly because there is no need to manually redefine the coupling parameter ⁇ even when one of the DNN and LSTM amplitude spectrum estimation algorithms is defective.
  • the method of calculating the evaluation value for each amplitude spectrum estimation algorithm and calculating the coupling parameter ⁇ from the evaluation value can be applied to the case of combining three or more amplitude spectrum estimation algorithms.
  • step S41 is the same as the process in step S11 in FIG.
  • step S42 the DNN unit 81 substitutes the amplitude spectrum ⁇ s j, DNN (k, m) obtained in step S41 for the separation performance evaluation function D DNN (y), thereby estimating the amplitude spectrum in DNN.
  • An evaluation value D DNN is calculated and supplied to the coupling parameter determination unit 111.
  • step S43 After the evaluation value D DNN is calculated, the process of step S43 is performed thereafter, but the process of step S43 is the same as the process of step S12 of FIG.
  • step S44 the LSTM unit 82 substitutes the amplitude spectrum ⁇ s j, LSTM (k, m) obtained in step S43 into the separation performance evaluation function D LSTM (y), thereby performing amplitude spectrum estimation in the LSTM.
  • the evaluation value D LSTM is calculated and supplied to the coupling parameter determination unit 111.
  • step S45 the coupling parameter determination unit 111 determines the coupling parameter ⁇ based on the evaluation value D DNN supplied from the DNN unit 81 and the evaluation value D LSTM supplied from the LSTM unit 82, and the separated signal generation unit 53.
  • the coupling parameter determination unit 111 calculates the coupling parameter ⁇ by calculating the above equation (9).
  • step S46 and step S47 are performed thereafter, and the sound source separation processing ends.
  • these processing are the same as the processing of step S13 and step S14 in FIG. The description is omitted.
  • the sound source separation device 41 estimates the amplitude spectrum by using sound source separation methods having different properties such as DNN and LSTM, and determines the coupling parameter based on the evaluation values of the estimation results. Further, the sound source separation device 41 combines the amplitude spectra obtained by estimation based on the obtained coupling parameters, and calculates the source signal of the target sound source. Thereby, higher separation performance can be obtained.
  • ⁇ Third Embodiment> ⁇ Configuration example of sound source separation device> Furthermore, in the above, an example in which a source signal is obtained after combining a plurality of amplitude spectra has been described. However, a source signal is obtained for each of a plurality of amplitude spectrum estimation algorithms, and these source signals are combined to obtain a final signal. It may be a source signal.
  • the sound source separation device is configured as shown in FIG. 9, for example. 9, parts corresponding to those in FIG. 2 are denoted by the same reference numerals, and description thereof is omitted as appropriate.
  • the sound source separation device 141 shown in FIG. 9 includes an amplitude spectrum estimation unit 51-1 through amplitude spectrum estimation unit 51-N, a separation signal generation unit 151-1 through separation signal generation unit 151-N, and a combination unit 152. Yes.
  • the separated signal generation unit 151-1 to the separated signal generation unit 151-N include the amplitude spectrum supplied from the amplitude spectrum estimation unit 51-1 to the amplitude spectrum estimation unit 51-N and the supplied mixed sound signal x (k, m) and an estimated value of the source signal of the target sound source is calculated and supplied to the combining unit 152
  • the combining unit 152 combines the source signals supplied from the separated signal generating unit 151-1 to the separated signal generating unit 151-N, and outputs the obtained source signal as a final source signal.
  • the source signals may be combined by linear combination, that is, by obtaining a linear sum, or may be combined by other methods such as combining source signals by ANN.
  • the combination parameter may be dynamically determined as in the case of the second embodiment described above.
  • a source signal is generated for each amplitude spectrum estimation algorithm, that is, for each sound source separation method, and these source signals are combined to form a final source signal, similarly to the sound source separation device 41 described above. High separation performance can be obtained.
  • ⁇ Fourth embodiment> ⁇ Configuration example of sound source separation device>
  • the method for estimating the source signal is not limited to the MWF-based sound source separation method, and any other method may be used.
  • a plurality of sound source separation methods for obtaining a source signal by estimation directly from the mixed sound signal x (k, m) may be combined.
  • the sound source separation device is configured as shown in FIG. 10, for example.
  • FIG. 10 the same reference numerals are given to the portions corresponding to those in FIG. 9, and the description thereof will be omitted as appropriate.
  • 10 includes a source spectrum estimation unit 191-1 through source spectrum estimation unit 191-N, and a combining unit 152.
  • the source spectrum estimation unit 191-1 to source spectrum estimation unit 191-N perform the source signal s j from the supplied mixed sound signal x (k, m) according to different complex spectrum estimation algorithms, that is, by different sound source separation methods.
  • An estimated value of (k, m) is calculated and supplied to the combining unit 152.
  • the estimated value of the source signal s j (k, m) is separated from the mixed sound signal x (k, m) as the sound source separation signal of each sound source.
  • the source signal output from each of the source spectrum estimation unit 191-1 to the source spectrum estimation unit 191-N is an estimated value of the source signal s j (k, m) composed of a complex spectrum for each of I channels.
  • the source spectrum estimation unit 191-1 to the source spectrum estimation unit 191-N are also simply referred to as a source spectrum estimation unit 191 when it is not necessary to distinguish them.
  • Each source spectrum estimation unit 191 holds, for example, DNNs and LSTMs learned to estimate the source signal s j (k, m) from the mixed sound signal x (k, m). Is used to estimate the source signal.
  • the estimated value of the source signal s j (k, m) is obtained by substituting the mixed sound signal x (k, m) into the nonlinear function obtained by learning. It is done.
  • the source signal estimation method performed by each of the plurality of source spectrum estimation units 191, that is, the combination of the sound source separation methods is not limited to DNN and LSTM, but may be CNN, ResNet, NMF, or the like.
  • the combination parameter may be dynamically determined as in the case of the second embodiment.
  • the above-described series of processing can be executed by hardware or can be executed by software.
  • a program constituting the software is installed in the computer.
  • the computer includes, for example, a general-purpose computer capable of executing various functions by installing a computer incorporated in dedicated hardware and various programs.
  • FIG. 11 is a block diagram showing an example of a hardware configuration of a computer that executes the above-described series of processing by a program.
  • a CPU Central Processing Unit
  • ROM Read Only Memory
  • RAM Random Access Memory
  • An input / output interface 505 is further connected to the bus 504.
  • An input unit 506, an output unit 507, a recording unit 508, a communication unit 509, and a drive 510 are connected to the input / output interface 505.
  • the input unit 506 includes a keyboard, a mouse, a microphone, an image sensor, and the like.
  • the output unit 507 includes a display, a speaker, and the like.
  • the recording unit 508 includes a hard disk, a nonvolatile memory, and the like.
  • the communication unit 509 includes a network interface or the like.
  • the drive 510 drives a removable recording medium 511 such as a magnetic disk, an optical disk, a magneto-optical disk, or a semiconductor memory.
  • the CPU 501 loads the program recorded in the recording unit 508 to the RAM 503 via the input / output interface 505 and the bus 504 and executes the program, for example. Is performed.
  • the program executed by the computer (CPU 501) can be provided by being recorded in a removable recording medium 511 as a package medium or the like, for example.
  • the program can be provided via a wired or wireless transmission medium such as a local area network, the Internet, or digital satellite broadcasting.
  • the program can be installed in the recording unit 508 via the input / output interface 505 by attaching the removable recording medium 511 to the drive 510. Further, the program can be received by the communication unit 509 via a wired or wireless transmission medium and installed in the recording unit 508. In addition, the program can be installed in advance in the ROM 502 or the recording unit 508.
  • the program executed by the computer may be a program that is processed in time series in the order described in this specification, or in parallel or at a necessary timing such as when a call is made. It may be a program for processing.
  • the present technology can take a cloud computing configuration in which one function is shared by a plurality of devices via a network and is jointly processed.
  • each step described in the above flowchart can be executed by one device or can be shared by a plurality of devices.
  • the plurality of processes included in the one step can be executed by being shared by a plurality of apparatuses in addition to being executed by one apparatus.
  • the present technology can be configured as follows.
  • a sound source separation apparatus comprising: a combining unit that combines a second sound source separation signal of the sound source separated from a mixed sound signal and outputs a sound source separation signal obtained by the combination.
  • the sound source separation device further including: (4) The sound separation device according to any one of (1) to (3), wherein the separation performance is SIR, SAR, SDR, or ISR. (5) The sound source separation device according to any one of (1) to (4), wherein a magnitude relationship between the separation performance of the first sound source separation method and the separation performance of the second sound source separation method varies with time. (6) The sound source separation device according to any one of (1) to (5), wherein the first sound source separation method and the second sound source separation method are the same sound source separation method. (7) The first sound source separation method is any one of FNN, RNN, and NMF, and the second sound source separation method is any one of FNN, RNN, and NMF.
  • the sound source separation device Any one of (1) to (5) The sound source separation device according to item.
  • a sound source separation method including a step of combining a second sound source separation signal of the sound source separated from a mixed sound signal and outputting a sound source separation signal obtained by the combination.
  • a program that causes a computer to execute processing including a step of combining a second sound source separation signal of the sound source separated from a mixed sound signal and outputting a sound source separation signal obtained by the combination.

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Signal Processing (AREA)
  • Acoustics & Sound (AREA)
  • Computational Linguistics (AREA)
  • Theoretical Computer Science (AREA)
  • General Health & Medical Sciences (AREA)
  • Quality & Reliability (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Multimedia (AREA)
  • Human Computer Interaction (AREA)
  • Biophysics (AREA)
  • Biomedical Technology (AREA)
  • General Physics & Mathematics (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Evolutionary Computation (AREA)
  • Data Mining & Analysis (AREA)
  • General Engineering & Computer Science (AREA)
  • Artificial Intelligence (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Computing Systems (AREA)
  • Molecular Biology (AREA)
  • Otolaryngology (AREA)
  • Circuit For Audible Band Transducer (AREA)
  • Measurement Of Mechanical Vibrations Or Ultrasonic Waves (AREA)
  • Soundproofing, Sound Blocking, And Sound Damping (AREA)

Abstract

本技術は、より高い分離性能を得ることができるようにする音源分離装置および方法、並びにプログラムに関する。 音源分離装置は、第1の音源分離方式により混合音信号から分離された所定の音源の第1の音源分離信号と、第1の音源分離方式と所定時間単位で分離性能が異なる第2の音源分離方式により混合音信号から分離された音源の第2の音源分離信号とを結合し、結合により得られた音源分離信号を出力する結合部を備える。本技術は音源分離装置に適用することができる。

Description

音源分離装置および方法、並びにプログラム
 本技術は音源分離装置および方法、並びにプログラムに関し、特に、より高い分離性能を得ることができるようにした音源分離装置および方法、並びにプログラムに関する。
 従来、複数の音源からの音が含まれる混合音信号から、目的とする音源の音の信号を抽出する音源分離技術が知られている。
 そのような音源分離技術として、例えばDNN(Deep Neural Network)を用いたマルチチャネルウィナーフィルタ(MWF(Multi Channel Wiener Filter))ベースの音源分離手法が提案されている(例えば、非特許文献1参照)。
 この音源分離手法では、混合音信号に対してDNNによる振幅スペクトル推定が行われて各音源の振幅スペクトルの推定値が求められ、それらの推定値と混合音信号から最小二乗平均誤差法によって目的とする音源のソース信号が求められる。
A. A. Nugraha, A. Liutkus, and E. Vincent. "Multichannel music separation with deep neural networks." European Signal Processing Conference (EUSIPCO). 2016.
 しかしながら、上述した技術では十分に高い分離性能で混合音信号から目的とする音源のソース信号を分離させることが困難であった。
 例えばDNNを用いたMWFベースの音源分離手法では、DNNの出力の誤差が少ないほど音源の分離性能は高くなる。ところが、学習データが限られていることや問題が複雑であることからDNNの学習は一般的に難しく、DNNの出力として得られる振幅スペクトルは誤差を含み、このことが分離性能を悪化させる一因となっている。
 本技術は、このような状況に鑑みてなされたものであり、より高い分離性能を得ることができるようにするものである。
 本技術の一側面の音源分離装置は、第1の音源分離方式により混合音信号から分離された所定の音源の第1の音源分離信号と、前記第1の音源分離方式と所定時間単位で分離性能が異なる第2の音源分離方式により前記混合音信号から分離された前記音源の第2の音源分離信号とを結合し、前記結合により得られた音源分離信号を出力する結合部を備える。
 前記結合部には、結合パラメータに基づいて前記第1の音源分離信号と前記第2の音源分離信号とを線型結合させることができる。
 音源分離装置には、前記第1の音源分離信号について得られた前記音源の信号である確からしさと、前記第2の音源分離信号について得られた前記音源の信号である確からしさとに基づいて、前記結合パラメータを決定する結合パラメータ決定部をさらに設けることができる。
 前記分離性能をSIR、SAR、SDR、またはISRとすることができる。
 前記第1の音源分離方式の分離性能と前記第2の音源分離方式の分離性能との大小関係が時間によって変化するようにすることができる。
 前記第1の音源分離方式と前記第2の音源分離方式を同じ音源分離方式とすることができる。
 前記第1の音源分離方式をFNN、RNN、およびNMFの何れかとし、前記第2の音源分離方式をFNN、RNN、およびNMFの何れかとすることができる。
 本技術の一側面の音源分離方法またはプログラムは、第1の音源分離方式により混合音信号から分離された所定の音源の第1の音源分離信号と、前記第1の音源分離方式と所定時間単位で分離性能が異なる第2の音源分離方式により前記混合音信号から分離された前記音源の第2の音源分離信号とを結合し、前記結合により得られた音源分離信号を出力するステップを含む。
 本技術の一側面においては、第1の音源分離方式により混合音信号から分離された所定の音源の第1の音源分離信号と、前記第1の音源分離方式と所定時間単位で分離性能が異なる第2の音源分離方式により前記混合音信号から分離された前記音源の第2の音源分離信号とが結合され、前記結合により得られた音源分離信号が出力される。
 本技術の一側面によれば、より高い分離性能を得ることができる。
 なお、ここに記載された効果は必ずしも限定されるものではなく、本開示中に記載された何れかの効果であってもよい。
音源分離について説明する図である。 音源分離装置の構成例を示す図である。 振幅スペクトル推定部の構成例を示す図である。 音源分離装置の構成例を示す図である。 結合パラメータと分離性能について説明する図である。 音源分離処理を説明するフローチャートである。 音源分離装置の構成例を示す図である。 音源分離処理を説明するフローチャートである。 音源分離装置の構成例を示す図である。 音源分離装置の構成例を示す図である。 コンピュータの構成例を示す図である。
 以下、図面を参照して、本技術を適用した実施の形態について説明する。
〈第1の実施の形態〉
〈本技術について〉
 例えば、音源分離では一般的に図1に示すようにして各音源が分離される。
 この例では、収音空間には音源s1乃至音源sJのJ個の音源が存在している。このようなJ個の各音源からの音をI個のマイクロフォンからなるマイクアレイ11で収音すると、I個のマイクロフォンごと、つまりI個のチャネルごとの収音信号x1乃至収音信号xIからなるIチャネル(I次元)の混合音信号xが得られる。
 このようにして得られたIチャネルの混合音信号xが音源分離器12に入力されると、音源分離器12は、入力された混合音信号xに対して音源分離を行う。
 すると、音源s1乃至音源sJの各音源の音の信号の推定結果としてソース信号^s1乃至ソース信号^sJが得られる。例えばソース信号^s1は、I個の各チャネルについて得られた音源s1の音の信号からなるIチャネルの信号(I次元のベクトル)である。
 音源分離器12で行われる音源分離の手法として、例えばDNNを用いたMWFベースの音源分離手法が知られている。
 ここで、DNNを用いたMWFベースの音源分離手法について説明する。なお、以下では各信号はSTFT(Short Term Fourier Transform)ドメインで表記することとする。
 例えば周波数ビンをkとし、時間のフレームをmとしてIチャネルの混合音信号をx(k,m)と記し、J個の音源のうちのj(但し、1≦j≦J)番目の音源sjの音の信号であるソース信号をsj(k,m)と記すこととする。混合音信号x(k,m)およびソース信号sj(k,m)は、ともにI個のチャネルごとの複素スペクトルからなる信号である。
 このような場合、MWFでは信号モデルが次式(1)のように仮定される。
Figure JPOXMLDOC01-appb-M000001
 なお、式(1)において、z(k,m)は複素ガウシアンノイズを示しており、νj(k,m)はパワースペクトル密度を示しており、Rj(k,m)は空間相関行列を示している。また、NC(0,νj(k,m)Rj(k,m))は複素数のガウシアン確率密度分布を示している。
 式(1)では、目的とするj番目の音源sj以外の他の音源のソース信号sj'(k,m)の和が複素ガウシアンノイズz(k,m)となっている。このような式(1)から混合音信号x(k,m)は、目的とする音源sjのソース信号sj(k,m)と複素ガウシアンノイズz(k,m)の和で表されることが分かる。
 さらに、各ソース信号sj(k,m)が互いに独立であると仮定することで、最小二乗平均誤差法により、目的とする音源sjのソース信号sj(k,m)を混合音信号x(k,m)から推定することができる。ここで、最小二乗平均誤差の推定値^sj,MWF(k,m)、つまり最小二乗平均誤差法によるソース信号sj(k,m)の推定値は、次式(2)に示す計算により求められる。なお、^sj,MWF(k,m)はI個のチャネルごとの複素スペクトルからなる信号である。
Figure JPOXMLDOC01-appb-M000002
 この式(2)の計算がMWFの演算となるが、実際のソース信号sj(k,m)の推定値であるソース信号^sj,MWF(k,m)を式(2)により求めるためには、J個の各音源についてパワースペクトル密度νj(k,m)および空間相関行列Rj(k,m)を求める必要がある。
 DNNを用いたMWFベースの音源分離手法では、空間相関行列Rj(k,m)が時不変である、つまり各音源の位置が時間によって変化しないと仮定して、DNNによりこれらのパワースペクトル密度νj(k,m)および空間相関行列Rj(k,m)が求められている。
 具体的には、DNNの出力を{^s1(k,m),…,^sJ(k,m)}とすると、パワースペクトル密度νj(k,m)および空間相関行列Rj(k,m)は、それぞれ以下の式(3)および式(4)により求められる。
Figure JPOXMLDOC01-appb-M000003
Figure JPOXMLDOC01-appb-M000004
 なお、式(3)において^νj(k,m)は、パワースペクトル密度νj(k,m)の推定値を示しており、式(4)において^Rj(k)は、空間相関行列Rj(k,m)の推定値を示している。特に、ここでは空間相関行列Rj(k,m)はフレームmによらず一定であると仮定されているので、推定により得られる空間相関行列はインデックスmが省略されて^Rj(k)と記されている。
 また、式(3)および式(4)において、DNNの出力である^sj(k,m)は、I個のチャネルごとの振幅スペクトルからなる信号であり、音源sjからの音の振幅スペクトルの推定値である。
 DNNを用いたMWFベースの音源分離手法では、以上のようにして目的とする音源のソース信号^sj,MWF(k,m)が求められる。
 このとき、DNNの出力である振幅スペクトル^sj(k,m)が元のソース信号sj(k,m)に近いほど推定誤差は少なくなる。しかしながら、学習データが限られていることや問題が複雑であることからDNNの学習は一般的に難しく、DNNの出力として得られる振幅スペクトルは誤差を含み、このことが音源分離の分離性能を悪化させる一因となっている。
 上述したMWFベースの音源分離手法において、DNNをLSTM(Long Short Term Memory)に置き換えることも可能であり、振幅スペクトルの推定結果としてDNNにおける場合と異なる性質の推定結果を得ることができる。しかし、依然としてLSTMの学習は難しく、推定結果として得られる振幅スペクトルは誤差を含むため、十分に高い分離性能を得ることは困難である。
 そこで、本技術では、時間的な性質の異なる出力をもつ同程度の分離性能の音源分離器、つまり音源分離方式を組み合わせることで各々の分離性能よりも高い分離性能を得ることができるようにした。
 ここで、出力の時間的な性質が異なるとは、音源分離方式による音源の信号の推定結果、より具体的には例えばinterference(インターフェランス)のレベル(強度)や、アーティファクトのレベル、ノイズのレベルなどの分離性能が時刻ごと異なることをいう。
 特に、本技術で組み合わせる複数の音源分離方式は例えば以下のようなものとされる。
 すなわち、個々の音源分離方式ではフレーム単位などの所定の時間単位で音源の分離性能が異なる、つまり所定の時間単位でinterferenceのレベル(強度)や、アーティファクトのレベル、ノイズのレベルなどの分離性能が変化する。なお、より具体的には音源の分離性能としては、例えばSIR(Source to Interference Ratio)、SAR(Sources to Artifacts Ratio)、SDR(Signal to Distortion Ratio)、ISR(source Image to Spatial distortion Ratio)などを用いることができる。
 組み合わせられる複数の音源分離方式は、フレーム単位などの所定の時間単位で音源の分離性能が互いに異なる方式とされる。すなわち、ある音源分離方式と他の音源分離方式とで分離性能が異なり、しかも、それらの音源分離方式の分離性能の関係が所定時間単位で変化する(異なる)。
 より詳細には、例えば組み合わせられる複数の音源分離方式は、所定の時間単位でみたときに分離性能の大小関係が時間とともに変化する音源分離方式である。
 具体的には、例えば第1の音源分離方式と第2の音源分離方式を組み合わせるとする。この場合、第1の音源分離方式と第2の音源分離方式では、それぞれ任意の混合音信号に対する音源分離を行ったときに所定時間単位で分離性能が変化する。そして、ある時刻では第1の音源分離方式の方が第2の音源分離方式よりも分離性能が高いが、他の時刻では第1の音源分離方式よりも第2の音源分離方式の方が分離性能が高いといったように、どちらの音源分離方式の分離性能がより高いかが時間(時刻)によって異なる。つまり、フレーム等によって第1の音源分離方式と第2の音源分離方式の分離性能の大小関係が異なる。
〈音源分離装置の構成例〉
 図2に本技術を適用した音源分離装置の構成例を示す。
 図2に示される音源分離装置41は、振幅スペクトル推定部51-1乃至振幅スペクトル推定部51-N、結合部52、および分離信号生成部53を有している。音源分離装置41では、振幅スペクトル推定部51-1乃至振幅スペクトル推定部51-Nおよび分離信号生成部53に、混合音信号x(k,m)が供給される。
 振幅スペクトル推定部51-1乃至振幅スペクトル推定部51-Nは、互いに異なる振幅スペクトル推定アルゴリズムに従って、すなわち互いに異なる音源分離方式により、混合音信号x(k,m)から振幅スペクトル^sj(k,m)を推定により求め、結合部52に供給する。換言すれば、混合音信号x(k,m)から各音源の音源分離信号として振幅スペクトル^sj(k,m)を分離させる。
 なお、以下、振幅スペクトル推定部51-1乃至振幅スペクトル推定部51-Nを特に区別する必要のない場合、単に振幅スペクトル推定部51とも称する。これらの振幅スペクトル推定部51は、振幅スペクトル推定器である。
 結合部52は、N個の振幅スペクトル推定部51から供給された振幅スペクトル^sj(k,m)を結合して最終的な1つの振幅スペクトル^sj(k,m)とし、分離信号生成部53に供給(出力)する。
 分離信号生成部53は、供給された混合音信号x(k,m)と、結合部52から供給された振幅スペクトル^sj(k,m)とに基づいて、目的とする音源の振幅スペクトル^sj(k,m)に位相を加える処理を行うことで、目的とする音源のソース信号の推定値を算出し、出力する。
 ここで、振幅スペクトル推定部51における振幅スペクトル推定アルゴリズムとしては、例えばCNN(Convolutinal Neural Network)、ResNet(Residual Network)を含むフィードフォワード型ニューラルネットワーク(FNN(Feedforward Neural Network))や、リカーレント型ニューラルネットワーク(RNN(Recurrent Neural Network))、DenseNet (Densely connected convolutional Networks)、NMF(Non-negative Matrix Factrization)などを採用することができる。また、前述のネットワークはバイナリネットを含む任意の精度で実現されるようにしてもよい。
 また、振幅スペクトル推定部51における振幅スペクトル推定アルゴリズムとしては、例えば図3に示すように、周波数帯域ごとに異なるアルゴリズムやネットワークを採用することができる。
 図3に示す例では、振幅スペクトル推定部51は、帯域ソーススペクトル推定部71-1乃至帯域ソーススペクトル推定部71-3、および全帯域ソーススペクトル推定部72を有している。
 帯域ソーススペクトル推定部71-1乃至帯域ソーススペクトル推定部71-3には、各周波数ビンkの混合音信号x(k,m)からなる混合音スペクトルの一部の帯域または全帯域の信号が供給される。
 帯域ソーススペクトル推定部71-1乃至帯域ソーススペクトル推定部71-3は、混合音スペクトルの一部の帯域または全帯域の信号を入力とし、互いに異なる帯域ソーススペクトル推定アルゴリズムに従って各周波数ビンkの振幅スペクトル^sj(k,m)からなるソーススペクトルの一部の帯域または全帯域の信号を推定する。
 例えば帯域ソーススペクトル推定部71-1乃至帯域ソーススペクトル推定部71-3のそれぞれでは、混合音スペクトルの互いに異なる帯域が入力とされ、ソーススペクトルの互いに異なる帯域の信号が推定される。
 帯域ソーススペクトル推定部71-1乃至帯域ソーススペクトル推定部71-3は、推定により得られた、ソーススペクトルの一部の帯域または全帯域の信号を帯域スペクトルとして全帯域ソーススペクトル推定部72に供給する。
 なお、以下、帯域ソーススペクトル推定部71-1乃至帯域ソーススペクトル推定部71-3を特に区別する必要のない場合、単に帯域ソーススペクトル推定部71とも称することとする。
 全帯域ソーススペクトル推定部72は、供給された混合音スペクトルと、帯域ソーススペクトル推定部71-1乃至帯域ソーススペクトル推定部71-3のそれぞれから供給された帯域スペクトルに基づいて、各周波数ビンkの振幅スペクトル^sj(k,m)を生成する。すなわち、全帯域ソーススペクトル推定部72は、全帯域ソーススペクトル推定アルゴリズムに従って、各帯域ソーススペクトル推定部71から供給された帯域スペクトルを統合し、統合により得られた全帯域のソーススペクトルとして各周波数ビンkの振幅スペクトル^sj(k,m)を出力する。
 なお、各帯域ソーススペクトル推定部71における帯域ソーススペクトル推定アルゴリズムや、全帯域ソーススペクトル推定部72における全帯域ソーススペクトル推定アルゴリズムとして、例えばDNNを採用することができる。
 一般的にスペクトルのパターンは帯域によって異なる。例えば低域では音は比較的長い継続長を持ち、調性のある音も多い一方で、高域では減衰が早く調性のないノイズ音がより高頻度で発生し得る。そのため、このような帯域ごとの異なる特性をとらえるためには帯域ごとにソーススペクトルを推定した方が容易である可能性がある。また、帯域ごとに最適なモデルサイズやアルゴリズムを選ぶことで高性能化や効率化を図ることができる。
 そこで、振幅スペクトル推定部51では、帯域ごとにソーススペクトルの推定を行い、それらの推定結果を統合して最終的なソーススペクトルとすることで、より効率的かつ高精度にソーススペクトルを推定できるようにされている。
 なお、各振幅スペクトル推定部51における振幅スペクトル推定アルゴリズムについて、互いに学習モデルが異なる場合には、例えばDNN同士を組み合わせるなどしてもよい。すなわち、例えばDNN同士など、同じ音源分離方式(振幅スペクトル推定アルゴリズム)でも、それらの学習モデルが異なり、互いに異なる性質の出力をする場合には、それらの音源分離方式を組み合わせても分離性能を向上させることができる。
 互いに異なる振幅スペクトル推定アルゴリズムの組み合わせ、つまり音源分離方式の組み合わせの一例として、例えばDNNとLSTMを組み合わせることが考えられる。
 DNNによる振幅スペクトルの推定は、目的とする音源以外の音、つまり非目的音の抑圧に優れるがアーティファクトが大きい傾向にある。
 これに対して、時間方向に結合をもつリカーレント型ニューラルネットワーク(RNN)の一種であるLSTMによる振幅スペクトルの推定は、時間的に安定した性能を示すが非目的音の漏れが大きい傾向にある。
 このようにDNNとLSTMという時間的に異なる性質の出力をもつ音源分離方式を組み合わせて音源分離を行うことで、より高精度に振幅スペクトルを推定し、音源の分離性能を向上させることができる。つまり、互いに異なる振幅スペクトル推定器を結合することで、より高精度に振幅スペクトルを推定し、これにより、より高精度に目的とする音源の信号を得ることができる。
 例えば、分離された信号におけるinterferenceのレベルなど、振幅スペクトル推定アルゴリズムの性質が異なるものを組み合わせると、一方の振幅スペクトル推定アルゴリズムでは十分な分離性能を得ることができないフレームでも、他方の振幅スペクトル推定アルゴリズムでは十分な分離性能が得られることがある。そのため、それらの振幅スペクトル推定アルゴリズムを組み合わせると、結果として全体的に音源の分離性能を向上させることができる。
 これに対して、例えば、どの時刻においてもinterferenceのレベル等の分離性能の大小関係が変化しない複数の振幅スペクトル推定アルゴリズムを組み合わせても分離性能の改善を見込むことは困難である。
 以下では、時間的に異なる性質の出力をもつ複数の音源分離方式として、DNNとLSTMを組み合わせる場合を具体的な例として説明を続ける。
 音源分離方式としてDNNとLSTMを組み合わせた場合、図2に示した音源分離装置41は、図4に示すように構成される。なお、図4において図2における場合と対応する部分には同一の符号を付してあり、その説明は適宜省略する。
 図4に示す音源分離装置41は、DNN部81、LSTM部82、結合部52、および分離信号生成部53を有している。この例では、DNN部81およびLSTM部82は、図2に示した振幅スペクトル推定部51に対応している。
 すなわち、DNN部81は予め学習により得られたDNNによる振幅スペクトル推定器であり、供給された混合音信号x(k,m)に基づいて振幅スペクトル推定を行い、その結果得られた振幅スペクトル^sj(k,m)を結合部52に供給する。
 以下では、特にDNN部81で得られた振幅スペクトル^sj(k,m)を、振幅スペクトル^sj,DNN(k,m)とも記すこととする。
 LSTM部82は予め学習により得られたLSTMによる振幅スペクトル推定器であり、供給された混合音信号x(k,m)に基づいて振幅スペクトル推定を行い、その結果得られた振幅スペクトル^sj(k,m)を結合部52に供給する。
 以下では、特にLSTM部82で得られた振幅スペクトル^sj(k,m)を、振幅スペクトル^sj,LSTM(k,m)とも記すこととする。
 結合部52は、DNN部81から供給された振幅スペクトル^sj,DNN(k,m)と、LSTM部82から供給された振幅スペクトル^sj,LSTM(k,m)とを結合して最終的な1つの振幅スペクトル^sj(k,m)とし、分離信号生成部53に供給する。
 なお、振幅スペクトルの結合方法は、例えば線形結合やアーティフィシャルニューラルネットワーク(ANN(Artificial Neural Network))による結合など、どのような方法であってもよい。例えばANNにより結合を行う場合、ANNのパラメータ学習時には結合用のANNのみを学習してもよいし、下層のDNNおよびLSTMを含めて学習を行うようにしてもよい。
 以下では、結合部52において、振幅スペクトルが線形結合されるものとして説明を続ける。振幅スペクトルを線型結合する場合、例えば結合部52は次式(5)を計算することにより、結合結果としての振幅スペクトル^sj(k,m)を求める。
Figure JPOXMLDOC01-appb-M000005
 なお、式(5)においてλは結合パラメータを示している。この結合パラメータλは、予め定められた固定値であり、線形結合の際の振幅スペクトル^sj,LSTM(k,m)の重みを示している。
 分離信号生成部53は、供給された混合音信号x(k,m)と、結合部52から供給された振幅スペクトル^sj(k,m)とに基づいて、推定により目的とする音源のソース信号を算出し、出力する。
 例えば分離信号生成部53は、振幅スペクトル^sj(k,m)に基づいて上述した式(3)および式(4)を計算することで、J個の各音源についてパワースペクトル密度^νj(k,m)および空間相関行列^Rj(k)を求める。
 そして、分離信号生成部53は、それらのパワースペクトル密度^νj(k,m)および空間相関行列^Rj(k)と、混合音信号x(k,m)とに基づいて上述した式(2)を計算し、MWFにより目的とする音源の推定分離音スペクトルであるソース信号^sj,MWF(k,m)を算出する。
 なお、式(2)の計算時には、パワースペクトル密度^νj(k,m)および空間相関行列^Rj(k)が、パワースペクトル密度νj(k,m)および空間相関行列Rj(k,m)として式(2)に代入される。
 このような式(2)の計算は、位相のない振幅スペクトル^sj(k,m)に対して位相を加えて、位相のある複素スペクトルを求める計算となっている。その際、付加される位相は、二乗平均誤差が最小となるように定められる。
 また、ここではMWFによりソース信号^sj,MWF(k,m)を算出する例について説明するが、分離信号生成部53では混合音信号x(k,m)と振幅スペクトル^sj(k,m)とに基づいて、DNN等により目的とする音源のソース信号を求めるようにしてもよい。
 以上のようにしてDNNとLSTMとにより振幅スペクトルを推定し、それらの推定結果を線型結合してMWFによりソース信号^sj,MWF(k,m)を算出する場合、例えば図5に示すように高い分離性能が得られることが確認された。なお、図5において縦軸はSDR(Signal to Distortion Ratio)を示しており、横軸は結合パラメータλの値を示している。
 図5に示す例ではVocals、Drums、Other、およびBassのそれぞれの音が含まれる音響信号が混合音信号とされて音源分離が行われている。
 曲線L11乃至曲線L14は、結合パラメータλを0から1までの各値とし、ソース信号としてVocals、Drums、Other、およびBassのそれぞれの信号を抽出したときのSDRの大きさを示している。また、曲線L15は、曲線L11乃至曲線L14の平均値を示している。
 これらの曲線L11乃至曲線L15から分かるように、結合パラメータλ=0、つまりDNNのみを用いた場合や、結合パラメータλ=1、つまりLSTMのみを用いた場合よりも、結合パラメータλ=0.5、つまりDNNとLSTMの出力を同レベルで混合した場合など、結合を行った場合の方がより大きいSDRが得られていることが分かる。すなわち、より高い分離性能が得られていることが分かる。
 ここで、混合音信号x(k,m)からソース音源の振幅スペクトル^sj,DNN(k,m)を得るためのDNNや、混合音信号x(k,m)からソース音源の振幅スペクトル^sj,LSTM(k,m)を得るためのLSTMの学習方法について説明する。
 DNNやLSTMの学習では、ネットワークの入力は混合音信号の振幅スペクトル|x(k,m)|とされ、教師データはソース音、つまり目的とする音源の音の振幅スペクトル|sj(k,m)|とされる。
 ネットワークによる非線形関数をf(,θ)とすると、ネットワークパラメータθは非線形関数とソース音の振幅スペクトルとの二乗誤差が最小化されるように求められる。ここで、最小化すべき目的関数Lは、次式(6)に示すようになる。
Figure JPOXMLDOC01-appb-M000006
 DNNやLSTMによる振幅スペクトルの推定時には、このようにして得られた非線形関数f(|x(k,m)|,θ)に混合音信号x(k,m)、より詳細には混合音信号x(k,m)の振幅スペクトルを代入することにより、振幅スペクトル^sj,DNN(k,m)や振幅スペクトル^sj,LSTM(k,m)が求められる。
〈音源分離処理の説明〉
 次に、図4に示した音源分離装置41の動作について説明する。
 すなわち、以下、図6のフローチャートを参照して、音源分離装置41による音源分離処理について説明する。
 ステップS11において、DNN部81は、供給された混合音信号x(k,m)に基づいてDNNにより振幅スペクトルを推定し、その結果得られた振幅スペクトル^sj,DNN(k,m)を結合部52に供給する。
 例えばステップS11では、DNNの学習により得られた非線形関数f(|x(k,m)|,θ)に混合音信号x(k,m)が代入されて、振幅スペクトル^sj,DNN(k,m)が算出される。
 ステップS12において、LSTM部82は、供給された混合音信号x(k,m)に基づいてLSTMにより振幅スペクトルを推定し、その結果得られた振幅スペクトル^sj,LSTM(k,m)を結合部52に供給する。
 例えばステップS12では、LSTMの学習により得られた非線形関数f(|x(k,m)|,θ)に混合音信号x(k,m)が代入されて、振幅スペクトル^sj,LSTM(k,m)が算出される。
 ステップS13において、結合部52は、DNN部81から供給された振幅スペクトル^sj,DNN(k,m)と、LSTM部82から供給された振幅スペクトル^sj,LSTM(k,m)とを結合し、その結果得られた振幅スペクトル^sj(k,m)を分離信号生成部53に供給する。例えばステップS13では、上述した式(5)の計算が行われ、線形結合により振幅スペクトル^sj(k,m)が算出される。
 ステップS14において、分離信号生成部53は、供給された混合音信号x(k,m)と、結合部52から供給された振幅スペクトル^sj(k,m)とに基づいて、推定により目的とする音源のソース信号^sj,MWF(k,m)を算出して出力し、音源分離処理は終了する。
 例えばステップS14では、振幅スペクトル^sj(k,m)から式(3)および式(4)の計算が行われるとともに、それらの計算結果と混合音信号x(k,m)とから式(2)の計算が行われ、ソース信号^sj,MWF(k,m)が算出される。
 以上のようにして音源分離装置41は、DNNおよびLSTMという互いに性質の異なる音源分離方式により振幅スペクトルを推定し、それらの推定結果を結合して得られた振幅スペクトルに基づいて、目的とする音源のソース信号を算出する。
 これにより、音源の性質によらず、安定して高い分離性能を得ることができる。すなわち、ノイズや、非目的音の漏れ、アーティファクトなどを低減させ、より高い分離性能を得ることができる。特に、音源分離装置41によれば、計算コストが低い振幅スペクトル推定アルゴリズムを複数組み合わせて高い分離性能を得ることができる。
 また、例えばDNN部81やLSTM部82など、一部の振幅スペクトル推定部51に不具合が生じたときでも、動的に結合部52で結合する振幅スペクトルを変化させるようにすることもできるので頑健に音源分離を行うことができる。
〈第2の実施の形態〉
〈音源分離装置の構成例〉
 ところで、以上においては結合部52において予め定められた結合パラメータλを用いて振幅スペクトルを線形結合する場合について説明したが、結合パラメータλが動的に定められるようにしてもよい。
 そのような場合、例えばLSTMが得意とする混合音信号x(k,m)が入力された場合には、結合時にLSTMで得られる振幅スペクトルに対してより大きな重みがかかるように結合パラメータλが大きな値とされる。このようにするとで、振幅スペクトルの推定精度をさらに向上させ、その結果、音源の分離性能を向上させることができる。
 このように結合パラメータλを動的に決定する場合、音源分離装置41は、例えば図7に示すように構成される。なお、図7において図4における場合と対応する部分には同一の符号を付してあり、その説明は適宜省略する。
 図7に示す音源分離装置41の構成は、新たに結合パラメータ決定部111が設けられた点で図4に示した音源分離装置41の構成と異なり、その他の点では図4に示した音源分離装置41と同じ構成となっている。
 すなわち、図7に示す音源分離装置41は、DNN部81、LSTM部82、結合パラメータ決定部111、結合部52、および分離信号生成部53を有している。
 DNN部81は、予め学習により得られた識別器である分離性能評価関数DDNN(y)を用いて、DNN部81による振幅スペクトルの推定性能、すなわち目的とする音源の信号の分離性能の評価値DDNNを算出し、結合パラメータ決定部111に供給する。
 LSTM部82は、予め学習により得られた識別器である分離性能評価関数DLSTM(y)を用いて、LSTM部82による振幅スペクトルの推定性能、すなわち目的とする音源の信号の分離性能の評価値DLSTMを算出し、結合パラメータ決定部111に供給する。
 結合パラメータ決定部111は、DNN部81から供給された評価値DDNNと、LSTM部82から供給された評価値DLSTMとに基づいて結合パラメータλを決定し、結合部52に供給する。
 なお、以下、分離性能評価関数DDNN(y)および分離性能評価関数DLSTM(y)を特に区別する必要のない場合、単に分離性能評価関数D(y)とも称することとする。
 結合部52は、結合パラメータ決定部111から供給された結合パラメータλを用いて、DNN部81から供給された振幅スペクトル^sj,DNN(k,m)と、LSTM部82から供給された振幅スペクトル^sj,LSTM(k,m)とを結合し、得られた振幅スペクトル^sj(k,m)を分離信号生成部53に供給する。
 図7に示す音源分離装置41では、予め各音源分離方式、つまり各振幅スペクトル推定アルゴリズムでの分離性能を評価する関数である分離性能評価関数D(y)がDNNなどの学習により求められ、DNN部81やLSTM部82に保持されている。そして、結合パラメータ決定部111では、より分離性能が高い振幅スペクトル推定アルゴリズムに、より大きな重みが与えられるように制御される。
 ここで、分離性能評価関数D(y)をDNNで構成する場合の例について説明する。
 この場合、例えば分離性能評価関数D(y)は、引数yとして実際の音源の音のソース信号sj(k,m)が分離性能評価関数D(y)に代入された場合には1を出力し、引数yとして音源分離後の振幅スペクトル、つまりソース信号sj(k,m)の推定値が分離性能評価関数D(y)に代入された場合には0を出力するような識別器として学習させることができる。
 このような分離性能評価関数D(y)のコスト関数Lは次式(7)のようになる。
Figure JPOXMLDOC01-appb-M000007
 なお、式(7)において^sjは、ソース信号sj(k,m)の振幅スペクトルの推定値を示している。したがって、例えば分離性能評価関数D(y)が分離性能評価関数DDNN(y)であれば、式(7)の^sjは振幅スペクトル^sj,DNN(k,m)となる。また、例えば分離性能評価関数D(y)が分離性能評価関数DLSTM(y)であれば、式(7)の^sjは振幅スペクトル^sj,LSTM(k,m)となる。
 また、この例では分離性能評価関数D(y)はDNNであり、その最終出力層は次式(8)に示すシグモイド関数で表される。
Figure JPOXMLDOC01-appb-M000008
 なお、式(8)におけるaは最終出力層への入力、つまり1つ前のレイヤの出力を示している。
 定義から分離性能評価関数D(y)は(0,1)、すなわち0から1までの間の値を取り、引数yがソース信号sj(k,m)の振幅スペクトルである事後確率を表している。
 換言すれば、分離性能評価関数D(y)の出力である評価値DDNNや評価値DLSTMは、入力された振幅スペクトル^sj,DNN(k,m)や振幅スペクトル^sj,LSTM(k,m)がソース信号sj(k,m)の振幅スペクトルである確からしさを示している。
 すなわち、評価値DDNNは、振幅スペクトル^sj,DNN(k,m)について得られた目的とする音源の信号である確からしさを示しており、評価値DLSTMは、振幅スペクトル^sj,LSTM(k,m)について得られた目的とする音源の信号である確からしさを示している。
 したがって、分離性能評価関数D(y)の出力である評価値が高いほど振幅スペクトルの推定精度が高く、推定誤差が少ないことになる。
 DNN部81およびLSTM部82には、以上のようにして予め学習された分離性能評価関数DDNN(y)および分離性能評価関数DLSTM(y)が保持されている。
 そして、結合パラメータ決定部111では、DNN部81で得られた評価値DDNNと、LSTM部82で得られた評価値DLSTMとから、例えば次式(9)を計算することで、結合パラメータλを算出する。
Figure JPOXMLDOC01-appb-M000009
 なお、結合パラメータλを決定するにあたっては、式(9)の計算により結合パラメータλを算出してもよいし、閾値処理や評価値の大小関係を利用して結合パラメータλを決定するようにしてもよい。
 例えば評価値DDNNと評価値DLSTMのうち、より大きい方の値が予め定めた閾値以上であれば、その閾値以上の評価値に対応する振幅スペクトルの重みが1となるようにし、そうでなければ式(9)により結合パラメータλが決定されるようにしてもよい。
 したがって、この場合、例えば評価値DDNNが評価値DLSTMよりも大きく、かつ評価値DDNNが閾値以上である場合には、結合パラメータλ=0とされ、振幅スペクトル^sj,DNN(k,m)がそのまま振幅スペクトル^sj(k,m)とされる。
 また、例えば予め定められた数のフレームの間、継続して一方の評価値が他方の評価値よりも大きい場合には、その一方の評価値に対応する振幅スペクトルの重みが1となるようにし、そうでなければ式(9)により結合パラメータλが決定されるようにしてもよい。
 以上のようにして評価値DDNNおよび評価値DLSTMに基づいて結合パラメータλを求めるようにすれば、振幅スペクトルの推定精度を向上させ、音源の分離性能をさらに向上させることができる。
 特に、この実施の形態では、DNNとLSTMのうちの一方の振幅スペクトル推定アルゴリズムに不具合が生じたときでも結合パラメータλを手動で定め直す必要がないため、頑健に音源分離を行うことができる。
 また、振幅スペクトル推定アルゴリズムごとに評価値を算出し、それらの評価値から結合パラメータλを算出する手法は、3以上の振幅スペクトル推定アルゴリズムを組み合わせる場合にも適用可能である。
〈音源分離処理の説明〉
 続いて、図8のフローチャートを参照して、図7に示した音源分離装置41による音源分離処理について説明する。なお、ステップS41の処理は図6のステップS11の処理と同様であるので、その説明は省略する。
 ステップS42において、DNN部81は、ステップS41で得られた振幅スペクトル^sj,DNN(k,m)を分離性能評価関数DDNN(y)に代入することで、DNNでの振幅スペクトル推定の評価値DDNNを算出し、結合パラメータ決定部111に供給する。
 評価値DDNNが算出されると、その後、ステップS43の処理が行われるが、ステップS43の処理は図6のステップS12の処理と同様であるので、その説明は省略する。
 ステップS44において、LSTM部82は、ステップS43で得られた振幅スペクトル^sj,LSTM(k,m)を分離性能評価関数DLSTM(y)に代入することで、LSTMでの振幅スペクトル推定の評価値DLSTMを算出し、結合パラメータ決定部111に供給する。
 ステップS45において、結合パラメータ決定部111は、DNN部81から供給された評価値DDNNと、LSTM部82から供給された評価値DLSTMとに基づいて結合パラメータλを決定し、分離信号生成部53に供給する。
 例えば結合パラメータ決定部111は、上述した式(9)を計算することで、結合パラメータλを算出する。
 結合パラメータλが算出されると、その後、ステップS46およびステップS47の処理が行われて音源分離処理は終了するが、これらの処理は図6のステップS13およびステップS14の処理と同様であるので、その説明は省略する。
 以上のようにして音源分離装置41は、DNNおよびLSTMという互いに性質の異なる音源分離方式により振幅スペクトルを推定するとともに、それらの推定結果の評価値に基づいて結合パラメータを決定する。また、音源分離装置41は、得られた結合パラメータに基づいて推定により得られた振幅スペクトルを結合し、目的とする音源のソース信号を算出する。これにより、より高い分離性能を得ることができる。
〈第3の実施の形態〉
〈音源分離装置の構成例〉
 さらに、以上においては、複数の振幅スペクトルを結合してからソース信号を求める例について説明したが、複数の振幅スペクトル推定アルゴリズムごとにソース信号を求め、それらのソース信号を結合して、最終的なソース信号としてもよい。
 そのような場合、音源分離装置は、例えば図9に示すように構成される。なお、図9において図2における場合と対応する部分には同一の符号を付してあり、その説明は適宜省略する。
 図9に示す音源分離装置141は、振幅スペクトル推定部51-1乃至振幅スペクトル推定部51-N、分離信号生成部151-1乃至分離信号生成部151-N、および結合部152を有している。
 分離信号生成部151-1乃至分離信号生成部151-Nは、振幅スペクトル推定部51-1乃至振幅スペクトル推定部51-Nから供給された振幅スペクトルと、供給された混合音信号x(k,m)とに基づいて目的とする音源のソース信号の推定値を算出し、結合部152に供給する。
 例えば分離信号生成部151-1乃至分離信号生成部151-Nのそれぞれでは、上述した式(2)乃至式(4)の計算が行われてソース信号^sj,MWF(k,m)が算出される。
 結合部152は、分離信号生成部151-1乃至分離信号生成部151-Nから供給されたソース信号を結合し、得られたソース信号を最終的なソース信号として出力する。
 例えば結合部152では、線形結合により、すなわち線形和を求めることによりソース信号を結合するようにしてもよいし、ANNによりソース信号を結合するなど、他の方法により結合を行うようにしてもよい。なお、線形結合が行われる場合には、上述した第2の実施の形態における場合と同様に、結合パラメータが動的に決定されてもよい。
 以上のように、振幅スペクトル推定アルゴリズムごとに、つまり音源分離方式ごとにソース信号を生成し、それらのソース信号を結合して最終的なソース信号とすることでも、上述した音源分離装置41と同様に高い分離性能を得ることができる。
〈第4の実施の形態〉
〈音源分離装置の構成例〉
 また、ソース信号を推定する方法は、MWFベースの音源分離手法に限らず、他のどのような手法であってもよい。
 例えば、混合音信号x(k,m)から直接、ソース信号を推定により求める音源分離方式を複数組み合わせるようにしてもよい。そのような場合、音源分離装置は、例えば図10に示すように構成される。なお、図10において、図9における場合と対応する部分には同一の符号を付してあり、その説明は適宜省略する。
 図10に示す音源分離装置181は、ソーススペクトル推定部191-1乃至ソーススペクトル推定部191-N、および結合部152を有している。
 ソーススペクトル推定部191-1乃至ソーススペクトル推定部191-Nは、互いに異なる複素スペクトル推定アルゴリズムに従って、すなわち互いに異なる音源分離方式により、供給された混合音信号x(k,m)からソース信号sj(k,m)の推定値を算出し、結合部152に供給する。換言すれば、混合音信号x(k,m)から各音源の音源分離信号としてソース信号sj(k,m)の推定値を分離させる。ソーススペクトル推定部191-1乃至ソーススペクトル推定部191-Nのそれぞれから出力されるソース信号は、I個のチャネルごとの複素スペクトルからなるソース信号sj(k,m)の推定値である。
 なお、以下、ソーススペクトル推定部191-1乃至ソーススペクトル推定部191-Nを特に区別する必要のない場合、単にソーススペクトル推定部191とも称する。
 各ソーススペクトル推定部191では、例えば混合音信号x(k,m)からソース信号sj(k,m)を推定するように学習されたDNNやLSTMが保持されており、それらのDNNやLSTMが用いられてソース信号の推定が行われる。
 したがって、例えばDNNやLSTMによるソース信号の推定時には、学習により得られた非線形関数に混合音信号x(k,m)を代入することにより、ソース信号sj(k,m)の推定値が求められる。
 なお、複数の各ソーススペクトル推定部191で行われるソース信号の推定手法、つまり音源分離方式の組み合わせは、DNNとLSTMに限らず、CNN、ResNet、NMFなどを組み合わせるようにしてもよい。また、結合部152で線形結合が行われる場合には、第2の実施の形態における場合と同様に、結合パラメータが動的に決定されてもよい。
〈コンピュータの構成例〉
 ところで、上述した一連の処理は、ハードウェアにより実行することもできるし、ソフトウェアにより実行することもできる。一連の処理をソフトウェアにより実行する場合には、そのソフトウェアを構成するプログラムが、コンピュータにインストールされる。ここで、コンピュータには、専用のハードウェアに組み込まれているコンピュータや、各種のプログラムをインストールすることで、各種の機能を実行することが可能な、例えば汎用のコンピュータなどが含まれる。
 図11は、上述した一連の処理をプログラムにより実行するコンピュータのハードウェアの構成例を示すブロック図である。
 コンピュータにおいて、CPU(Central Processing Unit)501,ROM(Read Only Memory)502,RAM(Random Access Memory)503は、バス504により相互に接続されている。
 バス504には、さらに、入出力インターフェース505が接続されている。入出力インターフェース505には、入力部506、出力部507、記録部508、通信部509、及びドライブ510が接続されている。
 入力部506は、キーボード、マウス、マイクロフォン、撮像素子などよりなる。出力部507は、ディスプレイ、スピーカなどよりなる。記録部508は、ハードディスクや不揮発性のメモリなどよりなる。通信部509は、ネットワークインターフェースなどよりなる。ドライブ510は、磁気ディスク、光ディスク、光磁気ディスク、又は半導体メモリなどのリムーバブル記録媒体511を駆動する。
 以上のように構成されるコンピュータでは、CPU501が、例えば、記録部508に記録されているプログラムを、入出力インターフェース505及びバス504を介して、RAM503にロードして実行することにより、上述した一連の処理が行われる。
 コンピュータ(CPU501)が実行するプログラムは、例えば、パッケージメディア等としてのリムーバブル記録媒体511に記録して提供することができる。また、プログラムは、ローカルエリアネットワーク、インターネット、デジタル衛星放送といった、有線または無線の伝送媒体を介して提供することができる。
 コンピュータでは、プログラムは、リムーバブル記録媒体511をドライブ510に装着することにより、入出力インターフェース505を介して、記録部508にインストールすることができる。また、プログラムは、有線または無線の伝送媒体を介して、通信部509で受信し、記録部508にインストールすることができる。その他、プログラムは、ROM502や記録部508に、あらかじめインストールしておくことができる。
 なお、コンピュータが実行するプログラムは、本明細書で説明する順序に沿って時系列に処理が行われるプログラムであっても良いし、並列に、あるいは呼び出しが行われたとき等の必要なタイミングで処理が行われるプログラムであっても良い。
 また、本技術の実施の形態は、上述した実施の形態に限定されるものではなく、本技術の要旨を逸脱しない範囲において種々の変更が可能である。
 例えば、本技術は、1つの機能をネットワークを介して複数の装置で分担、共同して処理するクラウドコンピューティングの構成をとることができる。
 また、上述のフローチャートで説明した各ステップは、1つの装置で実行する他、複数の装置で分担して実行することができる。
 さらに、1つのステップに複数の処理が含まれる場合には、その1つのステップに含まれる複数の処理は、1つの装置で実行する他、複数の装置で分担して実行することができる。
 また、本明細書中に記載された効果はあくまで例示であって限定されるものではなく、他の効果があってもよい。
 さらに、本技術は、以下の構成とすることも可能である。
(1)
 第1の音源分離方式により混合音信号から分離された所定の音源の第1の音源分離信号と、前記第1の音源分離方式と所定時間単位で分離性能が異なる第2の音源分離方式により前記混合音信号から分離された前記音源の第2の音源分離信号とを結合し、前記結合により得られた音源分離信号を出力する結合部を備える
 音源分離装置。
(2)
 前記結合部は、結合パラメータに基づいて前記第1の音源分離信号と前記第2の音源分離信号とを線型結合する
 (1)に記載の音源分離装置。
(3)
 前記第1の音源分離信号について得られた前記音源の信号である確からしさと、前記第2の音源分離信号について得られた前記音源の信号である確からしさとに基づいて、前記結合パラメータを決定する結合パラメータ決定部をさらに備える
 (2)に記載の音源分離装置。
(4)
 前記分離性能はSIR、SAR、SDR、またはISRである
 (1)乃至(3)の何れか一項に記載の音源分離装置。
(5)
 前記第1の音源分離方式の分離性能と前記第2の音源分離方式の分離性能との大小関係が時間によって変化する
 (1)乃至(4)の何れか一項に記載の音源分離装置。
(6)
 前記第1の音源分離方式と前記第2の音源分離方式は同じ音源分離方式である
 (1)乃至(5)の何れか一項に記載の音源分離装置。
(7)
 前記第1の音源分離方式はFNN、RNN、およびNMFの何れかであり、前記第2の音源分離方式はFNN、RNN、およびNMFの何れかである
 (1)乃至(5)の何れか一項に記載の音源分離装置。
(8)
 第1の音源分離方式により混合音信号から分離された所定の音源の第1の音源分離信号と、前記第1の音源分離方式と所定時間単位で分離性能が異なる第2の音源分離方式により前記混合音信号から分離された前記音源の第2の音源分離信号とを結合し、前記結合により得られた音源分離信号を出力する
 ステップを含む音源分離方法。
(9)
 第1の音源分離方式により混合音信号から分離された所定の音源の第1の音源分離信号と、前記第1の音源分離方式と所定時間単位で分離性能が異なる第2の音源分離方式により前記混合音信号から分離された前記音源の第2の音源分離信号とを結合し、前記結合により得られた音源分離信号を出力する
 ステップを含む処理をコンピュータに実行させるプログラム。
 41 音源分離装置, 51-1乃至51-N,51 振幅スペクトル推定部, 52 結合部, 53 分離信号生成部, 81 DNN部, 82 LSTM部, 111 結合パラメータ決定部

Claims (9)

  1.  第1の音源分離方式により混合音信号から分離された所定の音源の第1の音源分離信号と、前記第1の音源分離方式と所定時間単位で分離性能が異なる第2の音源分離方式により前記混合音信号から分離された前記音源の第2の音源分離信号とを結合し、前記結合により得られた音源分離信号を出力する結合部を備える
     音源分離装置。
  2.  前記結合部は、結合パラメータに基づいて前記第1の音源分離信号と前記第2の音源分離信号とを線型結合する
     請求項1に記載の音源分離装置。
  3.  前記第1の音源分離信号について得られた前記音源の信号である確からしさと、前記第2の音源分離信号について得られた前記音源の信号である確からしさとに基づいて、前記結合パラメータを決定する結合パラメータ決定部をさらに備える
     請求項2に記載の音源分離装置。
  4.  前記分離性能はSIR、SAR、SDR、またはISRである
     請求項1に記載の音源分離装置。
  5.  前記第1の音源分離方式の分離性能と前記第2の音源分離方式の分離性能との大小関係が時間によって変化する
     請求項1に記載の音源分離装置。
  6.  前記第1の音源分離方式と前記第2の音源分離方式は同じ音源分離方式である
     請求項1に記載の音源分離装置。
  7.  前記第1の音源分離方式はFNN、RNN、およびNMFの何れかであり、前記第2の音源分離方式はFNN、RNN、およびNMFの何れかである
     請求項1に記載の音源分離装置。
  8.  第1の音源分離方式により混合音信号から分離された所定の音源の第1の音源分離信号と、前記第1の音源分離方式と所定時間単位で分離性能が異なる第2の音源分離方式により前記混合音信号から分離された前記音源の第2の音源分離信号とを結合し、前記結合により得られた音源分離信号を出力する
     ステップを含む音源分離方法。
  9.  第1の音源分離方式により混合音信号から分離された所定の音源の第1の音源分離信号と、前記第1の音源分離方式と所定時間単位で分離性能が異なる第2の音源分離方式により前記混合音信号から分離された前記音源の第2の音源分離信号とを結合し、前記結合により得られた音源分離信号を出力する
     ステップを含む処理をコンピュータに実行させるプログラム。
PCT/JP2017/030631 2016-09-09 2017-08-25 音源分離装置および方法、並びにプログラム WO2018047643A1 (ja)

Priority Applications (4)

Application Number Priority Date Filing Date Title
CN201780053674.XA CN109661705B (zh) 2016-09-09 2017-08-25 声源分离装置和方法以及程序
EP17848584.3A EP3511937B1 (en) 2016-09-09 2017-08-25 Device and method for sound source separation, and program
JP2018538355A JP6981417B2 (ja) 2016-09-09 2017-08-25 音源分離装置および方法、並びにプログラム
US16/325,219 US10924849B2 (en) 2016-09-09 2017-08-25 Sound source separation device and method

Applications Claiming Priority (4)

Application Number Priority Date Filing Date Title
JP2016176215 2016-09-09
JP2016-176215 2016-09-09
JP2017-080700 2017-04-14
JP2017080700 2017-04-14

Publications (1)

Publication Number Publication Date
WO2018047643A1 true WO2018047643A1 (ja) 2018-03-15

Family

ID=61562395

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/JP2017/030631 WO2018047643A1 (ja) 2016-09-09 2017-08-25 音源分離装置および方法、並びにプログラム

Country Status (5)

Country Link
US (1) US10924849B2 (ja)
EP (1) EP3511937B1 (ja)
JP (1) JP6981417B2 (ja)
CN (1) CN109661705B (ja)
WO (1) WO2018047643A1 (ja)

Cited By (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2021033222A1 (ja) * 2019-08-16 2021-02-25 日本電信電話株式会社 音声信号処理装置、音声信号処理方法、音声信号処理プログラム、学習装置、学習方法及び学習プログラム
CN112866896A (zh) * 2021-01-27 2021-05-28 西安时代拓灵科技有限公司 一种沉浸式音频上混方法及系统
TWI740315B (zh) * 2019-08-23 2021-09-21 大陸商北京市商湯科技開發有限公司 聲音分離方法、電子設備和電腦可讀儲存媒體
JP2021526334A (ja) * 2018-06-01 2021-09-30 ソニーグループ株式会社 オーディオコンテンツの適応的なリミキシング
US11315585B2 (en) 2019-05-22 2022-04-26 Spotify Ab Determining musical style using a variational autoencoder
US11355137B2 (en) 2019-10-08 2022-06-07 Spotify Ab Systems and methods for jointly estimating sound sources and frequencies from audio
US11366851B2 (en) 2019-12-18 2022-06-21 Spotify Ab Karaoke query processing system
DE112020004506T5 (de) 2019-09-24 2022-08-11 Sony Group Corporation Signalverarbeitungseinrichtung, signalverarbeitungsverfahren und programm
WO2023276235A1 (ja) 2021-06-29 2023-01-05 ソニーグループ株式会社 プログラム、情報処理方法、記録媒体および情報処理装置
WO2023053480A1 (ja) 2021-09-28 2023-04-06 ソニーグループ株式会社 情報処理装置、情報処理方法およびプログラム
WO2024075978A1 (ko) * 2022-10-07 2024-04-11 삼성전자 주식회사 음원 편집 기능 제공 방법 및 이를 지원하는 전자 장치

Families Citing this family (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20190206417A1 (en) * 2017-12-28 2019-07-04 Knowles Electronics, Llc Content-based audio stream separation
US11579598B2 (en) * 2019-10-17 2023-02-14 Mitsubishi Electric Research Laboratories, Inc. Manufacturing automation using acoustic separation neural network
CN112201276B (zh) * 2020-11-11 2022-04-29 东南大学 基于TC-ResNet网络的麦克风阵列语音分离方法
CN114220454B (zh) * 2022-01-25 2022-12-09 北京荣耀终端有限公司 一种音频降噪方法、介质和电子设备
CN114495974B (zh) * 2022-02-18 2024-02-23 腾讯科技(深圳)有限公司 音频信号处理方法

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2007033825A (ja) * 2005-07-26 2007-02-08 Kobe Steel Ltd 音源分離装置,音源分離プログラム及び音源分離方法
JP2008278406A (ja) * 2007-05-07 2008-11-13 Kobe Steel Ltd 音源分離装置,音源分離プログラム及び音源分離方法
JP2012178679A (ja) * 2011-02-25 2012-09-13 Yamaha Corp 音響処理装置
JP2014052630A (ja) * 2012-09-05 2014-03-20 Honda Motor Co Ltd 音響処理装置、音響処理方法、及び音響処理プログラム
JP2015138053A (ja) * 2014-01-20 2015-07-30 キヤノン株式会社 音響信号処理装置およびその方法

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2007033825A (ja) * 2005-07-26 2007-02-08 Kobe Steel Ltd 音源分離装置,音源分離プログラム及び音源分離方法
JP2008278406A (ja) * 2007-05-07 2008-11-13 Kobe Steel Ltd 音源分離装置,音源分離プログラム及び音源分離方法
JP2012178679A (ja) * 2011-02-25 2012-09-13 Yamaha Corp 音響処理装置
JP2014052630A (ja) * 2012-09-05 2014-03-20 Honda Motor Co Ltd 音響処理装置、音響処理方法、及び音響処理プログラム
JP2015138053A (ja) * 2014-01-20 2015-07-30 キヤノン株式会社 音響信号処理装置およびその方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
A. A. NUGRAHA; A. LIUTKUS; E. VINCENT: "Multichannel music separation with deep neural networks", EUROPEAN SIGNAL PROCESSING CONFERENCE (EUSIPCO, 2016

Cited By (18)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2021526334A (ja) * 2018-06-01 2021-09-30 ソニーグループ株式会社 オーディオコンテンツの適応的なリミキシング
JP7036234B2 (ja) 2018-06-01 2022-03-15 ソニーグループ株式会社 オーディオコンテンツの適応的なリミキシング
US11887613B2 (en) 2019-05-22 2024-01-30 Spotify Ab Determining musical style using a variational autoencoder
US11315585B2 (en) 2019-05-22 2022-04-26 Spotify Ab Determining musical style using a variational autoencoder
WO2021033587A1 (ja) * 2019-08-16 2021-02-25 日本電信電話株式会社 音声信号処理装置、音声信号処理方法、音声信号処理プログラム、学習装置、学習方法及び学習プログラム
JPWO2021033587A1 (ja) * 2019-08-16 2021-02-25
WO2021033222A1 (ja) * 2019-08-16 2021-02-25 日本電信電話株式会社 音声信号処理装置、音声信号処理方法、音声信号処理プログラム、学習装置、学習方法及び学習プログラム
JP7205635B2 (ja) 2019-08-16 2023-01-17 日本電信電話株式会社 音声信号処理装置、音声信号処理方法、音声信号処理プログラム、学習装置、学習方法及び学習プログラム
TWI740315B (zh) * 2019-08-23 2021-09-21 大陸商北京市商湯科技開發有限公司 聲音分離方法、電子設備和電腦可讀儲存媒體
DE112020004506T5 (de) 2019-09-24 2022-08-11 Sony Group Corporation Signalverarbeitungseinrichtung, signalverarbeitungsverfahren und programm
US11355137B2 (en) 2019-10-08 2022-06-07 Spotify Ab Systems and methods for jointly estimating sound sources and frequencies from audio
US11862187B2 (en) 2019-10-08 2024-01-02 Spotify Ab Systems and methods for jointly estimating sound sources and frequencies from audio
US11366851B2 (en) 2019-12-18 2022-06-21 Spotify Ab Karaoke query processing system
CN112866896B (zh) * 2021-01-27 2022-07-15 北京拓灵新声科技有限公司 一种沉浸式音频上混方法及系统
CN112866896A (zh) * 2021-01-27 2021-05-28 西安时代拓灵科技有限公司 一种沉浸式音频上混方法及系统
WO2023276235A1 (ja) 2021-06-29 2023-01-05 ソニーグループ株式会社 プログラム、情報処理方法、記録媒体および情報処理装置
WO2023053480A1 (ja) 2021-09-28 2023-04-06 ソニーグループ株式会社 情報処理装置、情報処理方法およびプログラム
WO2024075978A1 (ko) * 2022-10-07 2024-04-11 삼성전자 주식회사 음원 편집 기능 제공 방법 및 이를 지원하는 전자 장치

Also Published As

Publication number Publication date
EP3511937A4 (en) 2019-09-18
JPWO2018047643A1 (ja) 2019-06-24
JP6981417B2 (ja) 2021-12-15
CN109661705B (zh) 2023-06-16
EP3511937A1 (en) 2019-07-17
US20190208320A1 (en) 2019-07-04
CN109661705A (zh) 2019-04-19
US10924849B2 (en) 2021-02-16
EP3511937B1 (en) 2023-08-23

Similar Documents

Publication Publication Date Title
WO2018047643A1 (ja) 音源分離装置および方法、並びにプログラム
US20210089967A1 (en) Data training in multi-sensor setups
JP4897519B2 (ja) 音源分離装置,音源分離プログラム及び音源分離方法
Li et al. Embedding and beamforming: All-neural causal beamformer for multichannel speech enhancement
US9008329B1 (en) Noise reduction using multi-feature cluster tracker
KR101670313B1 (ko) 음원 분리를 위해 자동적으로 문턱치를 선택하는 신호 분리 시스템 및 방법
KR101452537B1 (ko) 신호처리장치
JP6485711B2 (ja) 音場再現装置および方法、並びにプログラム
JP2013527727A (ja) 音響処理システム及び方法
JP2008546012A (ja) オーディオ信号の分解および修正のためのシステムおよび方法
CN111866665B (zh) 麦克风阵列波束形成方法及装置
WO2015129760A1 (ja) 信号処理装置、方法及びプログラム
JP2019515323A (ja) スペクトログラムに対する構造テンソルを用いた調波打楽器残差音声分離装置および方法
US20110311060A1 (en) Method and system for separating unified sound source
Muñoz-Montoro et al. Ambisonics domain singing voice separation combining deep neural network and direction aware multichannel NMF
Grais et al. Referenceless performance evaluation of audio source separation using deep neural networks
US20230040657A1 (en) Method and system for instrument separating and reproducing for mixture audio source
JP6233625B2 (ja) 音声処理装置および方法、並びにプログラム
JP2020012980A (ja) 信号処理装置、信号処理プログラム、信号処理方法、及び収音装置
WO2021200260A1 (ja) 信号処理装置および方法、並びにプログラム
Li et al. TaylorBeamixer: Learning Taylor-Inspired All-Neural Multi-Channel Speech Enhancement from Beam-Space Dictionary Perspective
JP2010152107A (ja) 目的音抽出装置及び目的音抽出プログラム
Kuang et al. Three-stage hybrid neural beamformer for multi-channel speech enhancement
Chang et al. Plug-and-Play MVDR Beamforming for Speech Separation
Tanabe et al. Music source separation with generative adversarial network and waveform averaging

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 17848584

Country of ref document: EP

Kind code of ref document: A1

ENP Entry into the national phase

Ref document number: 2018538355

Country of ref document: JP

Kind code of ref document: A

NENP Non-entry into the national phase

Ref country code: DE

ENP Entry into the national phase

Ref document number: 2017848584

Country of ref document: EP

Effective date: 20190409