WO2021171406A1 - 信号処理装置、信号処理方法、およびプログラム - Google Patents

信号処理装置、信号処理方法、およびプログラム Download PDF

Info

Publication number
WO2021171406A1
WO2021171406A1 PCT/JP2020/007643 JP2020007643W WO2021171406A1 WO 2021171406 A1 WO2021171406 A1 WO 2021171406A1 JP 2020007643 W JP2020007643 W JP 2020007643W WO 2021171406 A1 WO2021171406 A1 WO 2021171406A1
Authority
WO
WIPO (PCT)
Prior art keywords
signal
separation filter
mixed acoustic
acoustic signal
convolution
Prior art date
Application number
PCT/JP2020/007643
Other languages
English (en)
French (fr)
Inventor
林太郎 池下
中谷 智広
荒木 章子
Original Assignee
日本電信電話株式会社
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 日本電信電話株式会社 filed Critical 日本電信電話株式会社
Priority to PCT/JP2020/007643 priority Critical patent/WO2021171406A1/ja
Priority to JP2022502647A priority patent/JP7351401B2/ja
Priority to US17/802,090 priority patent/US20230087982A1/en
Publication of WO2021171406A1 publication Critical patent/WO2021171406A1/ja

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0272Voice signal separating
    • G10L21/028Voice signal separating using properties of sound source
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • G10L21/0216Noise filtering characterised by the method used for estimating noise
    • G10L21/0224Processing in the time domain
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/03Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
    • G10L25/21Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being power information
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R1/00Details of transducers, loudspeakers or microphones
    • H04R1/20Arrangements for obtaining desired frequency or directional characteristics
    • H04R1/32Arrangements for obtaining desired frequency or directional characteristics for obtaining desired directional characteristic only
    • H04R1/40Arrangements for obtaining desired frequency or directional characteristics for obtaining desired directional characteristic only by combining a number of identical transducers
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R3/00Circuits for transducers, loudspeakers or microphones
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • G10L2021/02082Noise filtering the noise being echo, reverberation of the speech

Definitions

  • the present invention relates to a sound source extraction technique.
  • the sound source extraction technology that estimates the source signal of each sound source that suppresses noise and reverberation by using the observed mixed audio signal as an input is a technology that is widely used for preprocessing of voice recognition.
  • Independent vector analysis which is a multivariate extension of independent component analysis, is known as a method for extracting a sound source using mixed acoustic signals observed using a plurality of microphones.
  • IVA When IVA is used in a real environment, it is known that the performance deteriorates due to the influence of background noise and reverberation. Of these, with regard to background noise, the robustness of IVA can be improved by increasing the number of microphones M larger than the number of target sound sources K, but there is a problem that the processing time increases. As a method of suppressing an increase in processing speed and performing sound source extraction at high speed even when the number of microphones M is larger than the number of sound sources K, superior determination IVA (see OverIVA, for example, Non-Patent Document 1) is known. There is.
  • the present invention has been made in view of such a point, and an object of the present invention is to provide a signal processing technique for performing sound source extraction robust to reverberation in addition to noise at high speed.
  • a rear reverberation removal filter that suppresses the rear reverberation component from the mixed sound signal obtained by converting the observed mixed sound signal obtained by observing the source signal into the time frequency region, and a component corresponding to each source signal from the mixed sound signal.
  • a convolutional separation filter which is a filter that integrates a sound source separation filter to be emphasized, is applied to a mixed acoustic signal sequence including a mixed acoustic signal and a delay signal of the mixed acoustic signal, so that the rear reverberation component is suppressed and the source signal is suppressed.
  • the model parameters of the model that obtains the information corresponding to each signal in which each target signal emitted from each target sound source is emphasized are estimated.
  • the convolution separation filter is a filter that integrates the rear reverberation removal filter and the sound source separation filter, in the present invention, it is possible to perform sound source extraction that is robust not only to noise but also to reverberation at high speed.
  • FIG. 1 is a block diagram illustrating a functional configuration of the signal processing device of the embodiment.
  • FIG. 2 is a block diagram illustrating the functional configuration of the convolution separation filter estimation unit of the first embodiment.
  • FIG. 3 is a flow chart for exemplifying the signal processing method of the embodiment.
  • FIG. 4 is a flow chart for exemplifying the process of step S13 of FIG.
  • FIG. 5 is a block diagram illustrating the functional configuration of the convolution separation filter estimation unit of the second embodiment.
  • FIG. 6 is a flow chart for exemplifying the process of step S23 of FIG.
  • FIG. 7 is a block diagram illustrating a configuration when the signal processing device of the embodiment is used for signal extraction.
  • FIG. 8 is a block diagram illustrating a hardware configuration of the signal processing device of the embodiment.
  • the blind sound source extraction problem is defined.
  • the target signals for example, audio signals
  • the noise signals emitted from MK noise sources are mixed by propagating in the air.
  • the signal obtained by observing the source signals emitted from the M sound sources (target sound source and noise source) with the M microphones will be referred to as an observation mixed acoustic signal.
  • These source signals include target signals emitted from K target sound sources and noise signals emitted from MK noise sources.
  • M is an integer of 2 or more
  • K is an integer of 1 or more
  • 1 ⁇ K ⁇ M-1 It is also assumed that the target signal is unsteady and the noise signal is stationary Gaussian noise.
  • the kth (k ⁇ ⁇ 1) , ..., K ⁇ ) of the corresponding component in the target signal is expressed as x k (f, t) ⁇ C M of.
  • C represents the entire set of complex numbers
  • C ⁇ represents the entire set of ⁇ -dimensional vectors consisting of complex elements
  • ⁇ ⁇ ⁇ represents that ⁇ belongs to ⁇ . That is, components corresponding to the target signal of the mixed sound signals of M dimensions, x 1 (f, t) , ..., a x K (f, t) ⁇ C M.
  • z-th z ⁇ ⁇ K + 1, ... , M ⁇
  • a mixed acoustic signal component corresponding to the target signal is expressed as x z (f, t) ⁇ C M of.
  • the M-dimensional mixed acoustic signal is expressed by the following equation (1).
  • f ⁇ ⁇ 1, ..., F ⁇ and t ⁇ ⁇ 1, ..., T ⁇ are frequency bin and time frame indexes (discrete frequency and discrete time indexes), respectively.
  • F and T are positive integers.
  • ⁇ : ⁇ means that ⁇ is defined as ⁇ .
  • d i (f, t) follows the following space model.
  • x i (f, t) d i (f, t) + r i (f, t), i ⁇ ⁇ 1,..., K, z ⁇ (2)
  • d k (f, t) a k (f) s k (f, t) ⁇ C M , k ⁇ ⁇ 1,..., K ⁇ (3)
  • d z (f, t) A z (f) z (f, t) ⁇ C M (4) a k (f) ⁇ C M , s k (f, t) ⁇ C, k ⁇ ⁇ 1,..., K ⁇ (5)
  • a k (f) and sk (f, t) are the transfer function and the source signal (target signal) of the target sound source k, respectively, and A z (f) and z (f, t) are, respectively. It is a matrix display of the transfer functions and source signals of MK noise sources.
  • the problem of estimating x 1 (f, t), ..., X K (f, t) from only the observed signals under the assumption that the sound sources are independent of each other is known as a blind sound source separation problem.
  • the blind sound source extraction problem dealt with in the present embodiment is defined as a problem of estimating d 1 (f, t), ..., D K (f, t) in which reverberation is removed in addition to sound source separation. ..
  • the target number of sound sources K is known.
  • ⁇ Probability model of IVEconv> The sum of the sound source signals after removing the rear reverberation component from the mixed acoustic signal x (f, t) is set as in Eq. (7).
  • the probability model of IVEconv is defined below using the hyperparameter ⁇ N. However, N represents the set of all natural numbers, and ⁇ ⁇ ⁇ represents that ⁇ is a subset of ⁇ .
  • ⁇ T is the translocation of ⁇
  • ⁇ H is the hermit translocation of ⁇
  • ⁇ k (t) is the power spectrum of sk (t)
  • CN ( ⁇ , ⁇ ) is the average vector ⁇ .
  • I ⁇ is a unit matrix of ⁇ ⁇ ⁇
  • 0 ⁇ is an ⁇ -dimensional vector with all elements
  • ⁇ to CN ( ⁇ , ⁇ ) are ⁇ .
  • p ( ⁇ ) is the probability of ⁇ .
  • w k (f) is a sound source separation filter that emphasizes the component corresponding to the target signal emitted from the k-th target sound source
  • W z (f) corresponds to the noise signal emitted from the z-th noise source. This is a sound source separation filter that emphasizes the components.
  • the model parameters of this IVEconv probabilistic model are the following four.
  • Rear reverberation filter Q ⁇ (f) ⁇ C M ⁇ M , ⁇ ⁇ ⁇ Sound source separation filter for target signal: w k (f) ⁇ C M Power spectrum of target signal: ⁇ k (t) ⁇ R ⁇ 0
  • Noise signal source separation filter W z (f) ⁇ C M ⁇ (MK)
  • R ⁇ 0 means a set of all real numbers of 0 or more.
  • the probabilistic model of IVEconv is rewritten into a simple model by converting the reverberation removal filter and the sound source separation filter, which are the model parameters of the probabilistic model of IVEconv, into one filter in which both filters are combined.
  • is a positive integer representing the number of elements of the hyperparameter ⁇ . It is also defined as follows.
  • Q ⁇ (f) is the rear reverberation removal filter, and x ⁇ (f, t) is referred to as a mixed acoustic signal sequence.
  • the superscript " ⁇ " of x ⁇ (f, t) should be written directly above "x", but due to the limitation of the description notation, it is like x ⁇ (f, t). It may be described in the upper right of "x”.
  • Q (f) and W (f) [w 1 (f) ,. .. ..
  • p k (f) Q (f) w k (f) is a convolution separation filter component corresponding to the target signal emitted from the kth target sound source.
  • P z (f) Q (f) W z (f) is a convolution separation filter component corresponding to the noise signal emitted from the z-th noise source.
  • the filter P (f) that simultaneously achieves rear reverberation removal and sound source separation is referred to as a convolution separation filter. That is, the convolution separation filter includes a rear reverberation removing filter Q (f) that suppresses the rear reverberation component from the mixed sound signal x (f, t), and a component corresponding to each source signal from the mixed sound signal x (f, t). This is a filter that integrates the sound source separation filter W (f) that emphasizes. With this conversion, Eqs. (8)-(10) are converted as Eqs. (18) and (19) below.
  • This probabilistic model is a rear reverberation removal filter Q ⁇
  • the convolutional separation filter P (f) which is a filter that integrates f) and the sound source separation filter W (f) that emphasizes the components corresponding to each source signal from the mixed acoustic signal x (f, t), is used for mixed sound.
  • Mixed acoustic signal sequence x ⁇ (f, t) including signal x (f, t) and delayed signal x (f, t- ⁇ 1 ), ..., X (f, t- ⁇
  • ⁇ Optimized IVEconv probabilistic model The model parameters of the simplified IVEconv probabilistic model can be estimated by the maximum likelihood method. This is achieved by minimizing the objective function J, which is the negative log-likelihood expressed by the following equation (20).
  • is the absolute value of ⁇
  • is the norm of ⁇
  • det ( ⁇ ) is the determinant of ⁇ , and “const.” Is a parameter-independent constant. ..
  • the convolution separation filter P (f) and the power spectrum ⁇ k (t) of the target signal sk (f, t) are optimized alternately.
  • the convolutional separation filter P (f) is fixed, the global optimum solution of the power spectrum ⁇ k (t) is as follows. Therefore, in the power spectrum estimation, the power spectrum ⁇ k (t) of each target signal sk (f, t) is estimated according to the equation (21) with the convolution separation filter P (f) fixed.
  • the convolution separation filter P (f) is optimized so as to optimize (minimize) the above negative objective function J.
  • the problem to be optimized can be divided into F problems that minimize the objective function J for the convolution separation filters P (1), ..., P (F) of each frequency bin.
  • the problem of minimizing the objective function J for the convolution separation filter P (f) is expressed as follows. However, the following is satisfied.
  • tr ( ⁇ ) is the diagonal sum of ⁇ .
  • G z is a covariance matrix of the mixed acoustic signal sequence x ⁇ (f, t), and G k is regarded as a noise covariance matrix when signals other than the target signal sk (f, t) are regarded as noise signals.
  • the objective function JP (f) for the mixed acoustic signal at each frequency is fixed under the power spectrum ⁇ k (t) of each objective signal sk (f, t).
  • the convolution separation filter P (f) that optimizes the above is estimated for each frequency.
  • the above power spectrum estimation process and convolution separation filter estimation process are alternately executed until a predetermined condition is satisfied.
  • the signal processing device 1 of the first embodiment includes an initial setting unit 11, a power spectrum estimation unit 12, a convolution separation filter estimation unit 13, and a control unit 14.
  • the signal processing device 1 executes each process under the control of the control unit 14.
  • the convolution separation filter estimation unit 13 of the first embodiment includes a q k (f) calculation unit 131, a pk (f) calculation unit 132, a P z (f) calculation unit 134, and a control. It has a portion 133.
  • the convolution separation filter estimation unit 13 executes each process under the control of the control unit 133.
  • the signal processing device 1 suppresses the rear reverberation component from the mixed acoustic signal x (f, t) obtained by converting the observed mixed acoustic signal obtained by observing the source signal into the time frequency region.
  • a convolutional separation filter P (a filter that integrates a reverberation removal filter Q ⁇ (f) and a sound source separation filter W (f) that emphasizes the components corresponding to each source signal from the mixed acoustic signal x (f, t).
  • f) is a mixed acoustic signal sequence x including a mixed acoustic signal x (f, t) and a delay signal x (f, t- ⁇ 1 ), ..., X (f, t- ⁇
  • ⁇ (f, t) it corresponds to each signal in which the rear reverberation component is suppressed and each target signal sk (f, t) emitted from each target sound source among the source signals is emphasized.
  • Step S11 Processing of Initial Setting Unit 11 (Step S11)
  • the initial setting unit 11 of the signal processing device 1 has a mixed acoustic signal x (f, t) (f ⁇ ⁇ 1, ..., F ⁇ , t ⁇ ⁇ 1, ..., T ⁇ ). Is entered.
  • OM ⁇ L ] T. However, L:
  • the initial setting unit 11 calculates G z (f) for all f according to the equation (24). Further, the initialization unit 11 calculates G z (f) -1 ⁇ C (M + L) ⁇ (M + L) for all f according to the equation (24). The initial setting unit 11 outputs x ⁇ (f, t), P (f) to the power spectrum estimation unit 12, and convolves x ⁇ (f, t), P (f), G z (f) -1. Output to the separation filter estimation unit 13 (step S11).
  • the power spectrum ⁇ k (t) of the signal sk (f, t) is obtained. That is, the power spectrum estimation unit 12 estimates the power spectrum ⁇ k (t) of each target signal sk (f, t) with the convolution separation filter P (f) fixed.
  • the power spectrum estimation unit 12 outputs the power spectrum ⁇ k (t) to the convolution separation filter estimation unit 13 (step S12).
  • Step S13 Processing of Convolution Separation Filter Estimator 13 (Step S13) >> Convolution separation filter estimator 13, a Moto fixing the power spectrum lambda k (t) of the target signal s k (f, t), each frequency (f ⁇ ⁇ 1, ..., F ⁇ ) mixed acoustic signals
  • the convolution separation filter estimation unit 13 updates P (f) for all f, as illustrated in FIG.
  • the updated P (f) is output to the power spectrum estimation unit 12.
  • ek is an M-dimensional unit vector having a k-th component of 1
  • ⁇ ⁇ H is a Hermitian transpose of the inverse matrix of ⁇ (step S131).
  • the p k (f) calculation unit 132 takes q k (f), x ⁇ (f, t), and ⁇ k (t) as inputs, and for all f, p k (f) according to equations (23) and (26). ) Is obtained and output (step S132).
  • the convolution separation filter estimation unit 13 solves the problem of the equation (22) as shown in FIG. 4, and outputs the optimized convolution separation filter P (f).
  • the convolution separation filter P z instead of strictly optimizing the convolution separation filter P z for the noise signal, the linear space Im (P z ) stretched by P z is optimized.
  • a high-speed sound source extraction method is realized by adopting the method of optimizing.
  • Step S14 The control unit 14 determines whether or not the predetermined condition is satisfied.
  • a predetermined condition is that the number of repetitions of the processing of the power spectrum estimation (step S12) and the convolution separation filter estimation (step S13) has reached a predetermined number of repetitions, or the update amount of each model parameter is predetermined. It is below the threshold value of. If the predetermined condition is not satisfied here, the control unit 14 returns the process to step S12. On the other hand, when a predetermined condition is satisfied, the control unit 14 advances the process to step S15. That is, the control unit 14 alternately executes the processing of the power spectrum estimation unit 12 and the processing of the convolution separation filter estimation unit 13 until a predetermined condition is satisfied (step S14).
  • step S15 the power spectrum estimation unit 12 outputs the target signal sk (f, t) (step S12) optimized as described above for all f and k, and the convolution separation filter estimation unit 13 describes the above.
  • the convolution separation filter P (f) optimized as described above is output (step S15).
  • the second embodiment When the target sound source number K is 1, the convolution separation filter can be optimized at a higher speed. In the second embodiment, this method will be described.
  • the signal processing device 2 of the second embodiment includes an initial setting unit 21, a power spectrum estimation unit 12, a convolution separation filter estimation unit 23, and a control unit 14.
  • the signal processing device 2 executes each process under the control of the control unit 14.
  • the convolution separation filter estimation unit 23 of the second embodiment includes the convolution separation filter estimation unit 13, the equation solving unit 231 and the eigenvalue problem solving unit 232, the p 1 (f) calculation unit 234, and the control. It has a part 233.
  • the convolution separation filter estimation unit 23 executes each process under the control of the control unit 233.
  • the convolution separation filter P (f) is used with the mixed acoustic signal x (f, t) and the delayed signal x (f, t- ⁇ 1 ) of the mixed acoustic signal, ..., X (f, t- ⁇
  • the rear reverberation component is suppressed, and each target signal sk (f, t) emitted from each target sound source among the source signals.
  • Estimates the model parameters of the model which obtains the information corresponding to each signal emphasized.
  • Step S21 Processing of Initial Setting Unit 21 (Step S21) >> As illustrated in FIG. 3, the initial setting unit 21 of the signal processing device 2 has a mixed acoustic signal x (f, t) (f ⁇ ⁇ 1, ..., F ⁇ , t ⁇ ⁇ 1, ..., T ⁇ ). Is entered. The initial setting unit 21 sets an arbitrary initial value in the separation filter P (f) for all f. Further, the initial setting unit 21 calculates x ⁇ (f, t) according to the equation (14b). Further, the initial setting unit 21 calculates G z (f) for all f according to the equation (24).
  • the initialization unit 21 calculates G z (f) -1 ⁇ C (M + L) ⁇ (M + L) for all f according to the equation (24). Further, the initial setting unit 21 extracts the M ⁇ M submatrix V z (f) at the head of G z (f) -1. The initial setting unit 21 outputs x ⁇ (f, t), P (f) to the power spectrum estimation unit 12, and x ⁇ (f, t), P (f), G z (f) -1 , V. z (f) is output to the convolution separation filter estimation unit 13 (step S21).
  • Step S12 Processing of Power Spectrum Estimator 12
  • the power spectrum estimation unit 12 sets the power spectrum ⁇ k (t) of each target signal sk (f, t) under the fixed convolution separation filter P (f). presume.
  • the power spectrum estimation unit 12 outputs the power spectrum ⁇ k (t) to the convolution separation filter estimation unit 23 (step S12).
  • Step S23 Processing of convolution separation filter estimation unit 23 (step S23) >> Convolution separation filter estimator 23, a Moto fixing the power spectrum lambda k (t) of the target signal s k (f, t), each frequency (f ⁇ ⁇ 1, ..., F ⁇ ) mixed acoustic signals
  • the convolution separation filter P (f) that optimizes (minimizes ) the objective function JP (f) (Equation (22)) for x k (f, t) is estimated for each frequency.
  • the convolution separation filter estimation unit 23 updates P (f) for all f, as illustrated in FIG.
  • the updated P (f) is output to the power spectrum estimation unit 12.
  • Update process of P (f) (FIG. 6):
  • the equation solver 231 uses x ⁇ (f, t) and ⁇ 1 (t) to obtain G 1 (f) for all fs according to equation (23), and the equation solver 231 uses all fs.
  • the M ⁇ M matrix V 1 (f) ⁇ C M ⁇ M and the L ⁇ M matrix C (f) ⁇ C L ⁇ M that satisfy the equation of Eq. (28) are calculated and output.
  • the M ⁇ M matrix V 1 (f) is output to the eigenvalue problem solving unit 232 and the p 1 (t) calculation unit 234, and the L ⁇ M matrix C (f) is output to the p 1 (t) calculation unit 234 ( Step S231).
  • the p 1 (t) calculation unit 234 takes V 1 (f), a 1 (f), and C (f) as inputs, and calculates the target signal p 1 (f) for all f according to the equation (29). And output (step S234). (29)
  • Step S14 Processing of Control Unit 14 (Step S14) >> The control unit 14 determines whether or not the predetermined condition is satisfied. If the predetermined condition is not satisfied here, the control unit 14 returns the process to step S12. On the other hand, when a predetermined condition is satisfied, the control unit 14 advances the process to step S25.
  • step S25 first, the convolution separation filter estimation unit 13 of the convolution separation filter estimation unit 23 obtains and outputs P z (f) for all f as described in the first embodiment. Further, for all f and k, the power spectrum estimation unit 12 outputs the target signal sk (f, t) (step S12) optimized as described above, and the convolution separation filter estimation unit 23 outputs the target signal sk (f, t) (step S12) as described above.
  • the optimized convolution separation filter P (f) [p 1 (f), P z (f)] is output (step S25).
  • inverse matrix V z -1 and V 1 -1 of V z and V 1 was, respectively, since it can be considered that the covariance matrix of the mixed acoustic signal sequence and the noise signal sequence after removing the effects of reverberation.
  • the process according to equation (32) can be regarded as steering vector estimation based on MaxSNR.
  • step S234 corresponds to the calculation of the convolution beam former. From this, it can be said that the IVE conv by the convolution separation filter estimation unit 23 corresponds to the repetition of the steering vector estimation based on MaxSNR and the sound source extraction by the convolution beamformer.
  • the optimized target signal s k (f, t) in the modification of the first and second or second embodiment and the convolution separating filter P (f), the target signal s k (f , T) The sum of the direct sound component and the initial reflection component d k (f, t) is obtained and output.
  • the system of the third embodiment includes a signal processing device 1 (2) and a signal extraction device 3 of a modification of the first, second embodiment or the second embodiment.
  • the signal processing device 1 (2) receives the mixed acoustic signal x (f, t) as an input, and the target signal sk (f, t) optimized as described above and the convolution separation filter P ( f) is output.
  • the signal extraction device 3 takes the optimized target signal sk (f, t) and the convolution separation filter P (f) as inputs, and for all k, f, t, d k (31) according to the following equation (31). f, t) is obtained and output. After that, the obtained d k (f, t) may be used for other processing in the time domain or may be converted into the time domain.
  • (c) is the alternate optimization of WPE and IVA, which is a method for accelerating the alternate optimization of WPE and ICA (IVA) proposed in Reference 3.
  • the experimental conditions are as shown in Table 2.
  • RTF represents the processing speed.
  • K out of M (> K) outputs, K with high power was selected as the sound source extraction result, and SDR / SIR was measured. From Table 1, the effectiveness of the method of this embodiment was confirmed.
  • the signal processing devices 1 and 2 and the signal extraction device 3 in each embodiment are, for example, a processor (hardware processor) such as a CPU (central processing unit), a RAM (random-access memory), or a ROM (read-only memory). It is a device configured by executing a predetermined program by a general-purpose or dedicated computer having a memory or the like.
  • This computer may have one processor and memory, or may have a plurality of processors and memory.
  • This program may be installed in a computer or may be recorded in a ROM or the like in advance.
  • a part or all of the processing units may be configured by using an electronic circuit that realizes a processing function independently, instead of an electronic circuit (circuitry) that realizes a function configuration by reading a program like a CPU. ..
  • the electronic circuit constituting one device may include a plurality of CPUs.
  • FIG. 8 is a block diagram illustrating the hardware configurations of the signal processing devices 1 and 2 and the signal extraction device 3 in each embodiment.
  • the signal processing units 1 and 2 of this example include a CPU (Central Processing Unit) 10a, an input unit 10b, an output unit 10c, a RAM (RandomAccessMemory) 10d, and a ROM (ReadOnlyMemory) 10e. , Auxiliary storage device 10f and bus 10g.
  • the CPU 10a of this example has a control unit 10aa, a calculation unit 10ab, and a register 10ac, and executes various arithmetic processes according to various programs read into the register 10ac.
  • the input unit 10b is an input terminal, a keyboard, a mouse, a touch panel, or the like into which data is input.
  • the output unit 10c is an output terminal from which data is output, a display, a LAN card controlled by a CPU 10a that has read a predetermined program, and the like.
  • the RAM 10d is a SRAM (Static Random Access Memory), a DRAM (Dynamic Random Access Memory), or the like, and has a program area 10da in which a predetermined program is stored and a data area 10db in which various data are stored.
  • the auxiliary storage device 10f is, for example, a hard disk, MO (Magneto-Optical disc), a semiconductor memory, or the like, and has a program area 10fa for storing a predetermined program and a data area 10fb for storing various data.
  • the bus 10g connects the CPU 10a, the input unit 10b, the output unit 10c, the RAM 10d, the ROM 10e, and the auxiliary storage device 10f so that information can be exchanged.
  • the CPU 10a writes the program stored in the program area 10fa of the auxiliary storage device 10f to the program area 10da of the RAM 10d according to the read OS (Operating System) program.
  • OS Operating System
  • the CPU 10a writes various data stored in the data area 10fb of the auxiliary storage device 10f to the data area 10db of the RAM 10d. Then, the address on the RAM 10d in which this program or data is written is stored in the register 10ac of the CPU 10a.
  • the control unit 10aa of the CPU 10a sequentially reads out these addresses stored in the register 10ac, reads a program or data from the area on the RAM 10d indicated by the read address, and causes the arithmetic unit 10ab to sequentially execute the operations indicated by the program.
  • the calculation result is stored in the register 10ac.
  • the above program can be recorded on a computer-readable recording medium.
  • a computer-readable recording medium is a non-transitory recording medium. Examples of such a recording medium are a magnetic recording device, an optical disk, an optical magnetic recording medium, a semiconductor memory, and the like.
  • the distribution of this program is carried out, for example, by selling, transferring, renting, etc. a portable recording medium such as a DVD or CD-ROM on which the program is recorded.
  • the program may be stored in the storage device of the server computer, and the program may be distributed by transferring the program from the server computer to another computer via a network.
  • the computer that executes such a program first temporarily stores, for example, the program recorded on the portable recording medium or the program transferred from the server computer in its own storage device. Then, when the process is executed, the computer reads the program stored in its own storage device and executes the process according to the read program.
  • a computer may read the program directly from a portable recording medium and execute processing according to the program, and further, the program is transferred from the server computer to this computer. It is also possible to execute the process according to the received program one by one each time.
  • the above processing is executed by a so-called ASP (Application Service Provider) type service that realizes the processing function only by the execution instruction and result acquisition without transferring the program from the server computer to this computer. May be.
  • the program in this embodiment includes information to be used for processing by a computer and equivalent to the program (data that is not a direct command to the computer but has a property of defining the processing of the computer, etc.).
  • the present device is configured by executing a predetermined program on a computer, but at least a part of these processing contents may be realized by hardware.

Landscapes

  • Engineering & Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Signal Processing (AREA)
  • Computational Linguistics (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Multimedia (AREA)
  • Quality & Reliability (AREA)
  • Otolaryngology (AREA)
  • Circuit For Audible Band Transducer (AREA)

Abstract

源信号を観測して得られる観測混合音響信号を時間周波数領域に変換して得られる混合音響信号から後部残響成分を抑圧する後部残響除去フィルタと、混合音響信号から各源信号に対応する成分を強調する音源分離フィルタと、を統合したフィルタである畳み込み分離フィルタを、混合音響信号および混合音響信号の遅延信号を含む混合音響信号列に適用して、後部残響成分が抑圧され、かつ、源信号のうち各目的音源から発せられた各目的信号が強調された各信号に対応する情報を得るモデル、のモデルパラメータを推定する。

Description

信号処理装置、信号処理方法、およびプログラム
 本発明は、音源抽出技術に関する。
 観測された混合音響信号を入力として、雑音や残響も抑圧した各音源の源信号を推定する音源抽出技術は、音声認識の前処理等に広く利用される技術である。複数のマイクロホンを用いて観測された混合音響信号を用いて音源抽出を行う手法として、独立成分分析の多変量拡張にあたる独立ベクトル分析(IVA)が知られている。
 実環境でIVAを用いる場合、背景雑音や残響の影響で性能が劣化することが知られている。このうち背景雑音については、目的音源数Kよりもマイク数Mを大きくすることで、IVAの頑健性を高めることができるが、処理時間が増大するという問題がある。音源数Kよりもマイク数Mが大きい場合であっても処理速度の増大を抑え、高速に音源抽出を行う手法として、優決定IVA(OverIVA、例えば、非特許文献1等参照)が知られている。
Robin Scheibler and Nobutaka Ono, "Independent vector analysis with more microphones than sources," in Proc. WASPAA, 2019.
 OverIVAによれば背景雑音に頑健な音源抽出を行うことができる。しかし、OverIVAでは残響が考慮されていないため、残響に伴う性能劣化の問題は依然として存在する。
 本発明はこのような点に鑑みてなされたものであり、雑音に加えて残響にも頑健な音源抽出を高速で行うための信号処理技術を提供することを目的とする。
 源信号を観測して得られる観測混合音響信号を時間周波数領域に変換して得られる混合音響信号から後部残響成分を抑圧する後部残響除去フィルタと、混合音響信号から各源信号に対応する成分を強調する音源分離フィルタと、を統合したフィルタである畳み込み分離フィルタを、混合音響信号および混合音響信号の遅延信号を含む混合音響信号列に適用して、後部残響成分が抑圧され、かつ、源信号のうち各目的音源から発せられた各目的信号が強調された各信号に対応する情報を得るモデル、のモデルパラメータを推定する。
 畳み込み分離フィルタは後部残響除去フィルタと音源分離フィルタとを統合したフィルタであるため、本発明では、雑音に加えて残響にも頑健な音源抽出を高速で行うことが可能である。
図1は、実施形態の信号処理装置の機能構成を例示したブロック図である。 図2は、第1実施形態の畳み込み分離フィルタ推定部の機能構成を例示したブロック図である。 図3は、実施形態の信号処理方法を例示するためのフロー図である。 図4は、図3のステップS13の処理を例示するためのフロー図である。 図5は、第2実施形態の畳み込み分離フィルタ推定部の機能構成を例示したブロック図である。 図6は、図3のステップS23の処理を例示するためのフロー図である。 図7は、実施形態の信号処理装置を信号抽出に用いた場合の構成を例示したブロック図である。 図8は、実施形態の信号処理装置のハードウェア構成を例示したブロック図である。
 以下、本発明の実施形態を説明する。
 [原理]
 まず、原理を説明する。
 <ブラインド音源抽出問題>
 まず、ブラインド音源抽出問題を定義する。K個の目的音源から発せられた目的信号(例えば、音声信号など)とM-K個の雑音源から発せられた雑音信号が空気中を伝搬して混合された状態で、M個のマイクロホンで観測されるとする。このM個の音源(目的音源および雑音源)から発せられた源信号をM個のマイクロホンで観測して得られる信号を観測混合音響信号と呼ぶことにする。これらの源信号はK個の目的音源から発せられた目的信号と、M-K個の雑音源から発せられた雑音信号を含む。ただし、Mが2以上の整数であり、Kが1以上の整数であり、1≦K≦M-1とする。また目的信号は非定常であり、雑音信号は定常なガウス性雑音と仮定する。M個のマイクロホンで観測された観測混合音響信号を時間周波数(TF)領域に変換(例えば、短時間フーリエ変換など)して得られるM次元の混合音響信号のうち、k番目(k∈{1,…,K})の目的信号に対応する成分をx(f,t)∈Cと表現する。ただし、Cは複素数全体の集合を表し、Cαは複素数要素からなるα次元ベクトルの集合全体を表し、α∈βはαがβに属することを表す。すなわち、M次元の混合音響信号のうち目的信号に対応する成分は、x(f,t),…,x(f,t)∈Cである。また、M次元の混合音響信号のうち、z番目(z∈{K+1,…,M})の目的信号に対応する混合音響信号成分をx(f,t)∈Cと表現する。すると、M次元の混合音響信号は以下の式(1)のように表される。
Figure JPOXMLDOC01-appb-M000016

ここでf∈{1,…,F}とt∈{1,…,T}は、それぞれ周波数ビンと時間フレームのインデックス(離散周波数と離散時間のインデックス)である。FおよびTは正整数である。また、α:=βはαをβと定義することを意味する。
 以下では、残響の影響を考慮に入れて、各音源i∈{1,…,K,z}の混合音響信号成分x(f,t)は、直接音成分と初期反射成分の和d(f,t)∈Cと、後部残響成分r(f,t)∈Cとに分解できるとする。ここで、各d(f,t)は以下の空間モデルに従うと仮定する。
xi(f,t)=di(f,t)+ri(f,t), i∈{1,…,K,z} (2)
dk(f,t)=ak(f)sk(f,t)∈CM, k∈{1,…,K}  (3)
dz(f,t)=Az(f)z(f,t)∈CM    (4)
ak(f)∈CM, sk(f,t)∈C, k∈{1,…,K}  (5)
Az(f)∈CM×(M-K), z(f,t)∈CM-K.  (6)
ここで、a(f)とs(f,t)は、それぞれ目的音源kの伝達関数と源信号(目的信号)であり、A(f)とz(f,t)は、それぞれM-K個の雑音源の伝達関数と源信号を行列表示したものである。音源が互いに独立であるという仮定のもとで、観測信号のみからx(f,t),…,x(f,t)を推定する問題はブラインド音源分離問題として知られている。これに対し、本実施形態で扱うブラインド音源抽出問題は、音源分離に加えて残響除去も施したd(f,t),…,d(f,t)を推定する問題として定義される。ただし、目的音源数Kは既知とする。
 <IVEconvの確率モデル>
 混合音響信号x(f,t)から後部残響成分を除去した後の音源信号の和を式(7)のようにおく。
Figure JPOXMLDOC01-appb-M000017

IVEconvの確率モデルは、ハイパーパラメータΔ⊂Nを用いて,以下で定義される。ただし、Nは自然数全体の集合を表し、α⊂βはαがβの部分集合であることを表す。
Figure JPOXMLDOC01-appb-M000018

sk(f,t)=wk(f)Hd(f,t)∈C, k∈{1,..,K}   (9)
z(f,t)=Wz(f)Hd(f,t)∈CM-K    (10)
sk(t):=[sk(1,t),...,sk(F,t)]T∈CF   (11)
sk(t)~CN(0Fk(t)IF), k∈{1,..,K}   (12)
z(f,t)~CN(0M-K,IM-K)   (13)
Figure JPOXMLDOC01-appb-M000019

ここで、αはαの転置であり、αはαのエルミート転置であり、λ(t)はs(t)のパワースペクトルであり、CN(μ,Σ)は平均ベクトルμで分散共分散行列Σの複素正規分布であり、Iαはα×αの単位行列であり、0αがすべての要素が0のα次元ベクトルであり、β~CN(μ,Σ)が、βが複素正規分布CN(μ,Σ)に従っていることを表し、p(α)はαの確率である。w(f)がk番目の目的音源から発せられた目的信号に対応する成分を強調する音源分離フィルタであり、W(f)がz番目の雑音源から発せられた雑音信号に対応する成分を強調する音源分離フィルタである。
 このIVEconvの確率モデルのモデルパラメータは次の4つである。
後部残響除去フィルタ:Qδ(f)∈CM×M,δ∈Δ
目的信号の音源分離フィルタ:wk(f)∈CM
目的信号のパワースペクトル:λk(t)∈R≧0
雑音信号の音源分離フィルタ:Wz(f)∈CM×(M-K)
 ここでR≧0は0以上の実数全体の集合を意味する。
 <IVEconvの確率モデルの単純化>
 上記のモデルにおいて、残響除去フィルタと音源分離フィルタは一般に交互に最適化することになるため、最適化の結果が局所解に陥りやすい恐れがある。そのため、本実施形態では、IVEconvの確率モデルのモデルパラメータである残響除去フィルタと音源分離フィルタを、両フィルタを結合したひとつのフィルタに変換することでIVEconvの確率モデルを単純なモデルに書き換える。いま、ハイパーパラメータΔの要素をΔ={τ,…,τ|Δ|}で表す。ただし、Δ∈{τ,…,τ|Δ|}であり、|Δ|がハイパーパラメータΔの要素数を表す正整数である。また、以下のように定義する。
Figure JPOXMLDOC01-appb-M000020

Figure JPOXMLDOC01-appb-M000021

ただし、Qδ(f)が後部残響除去フィルタであり、x^(f,t)を混合音響信号列と呼ぶことにする。なお、x^(f,t)の上付き添え字「^」は、本来「x」の真上に記載すべきであるが、記載表記の制約上、x^(f,t)のように「x」の右上に記載する場合がある。このとき,以下の式(15)および(16)によって,Q(f)とW(f)=[w(f),...,w(f),W(f)]との組を、以下の式(17)に一対一変換する。
pk(f)=Q(f)wk(f)∈CM(|Δ|+1)   (15)
Pz(f)=Q(f)Wz(f)∈CM(|Δ|+1)×(M-K)   (16)
P(f)=[p1(f),...,pK(f),Pz(f)]   (17)
ただし、Cα×βは複素数要素からなるα×β行列の集合全体を表す。p(f)=Q(f)w(f)はk番目の目的音源から発せられた目的信号に対応する畳み込み分離フィルタ成分である。またP(f)=Q(f)W(f)はz番目の雑音源から発せられた雑音信号に対応する畳み込み分離フィルタ成分である。
 本実施形態では、後部残響除去と音源分離を同時に達成するフィルタP(f)のことを、畳み込み分離フィルタと呼ぶことにする。すなわち、畳み込み分離フィルタは、混合音響信号x(f,t)から後部残響成分を抑圧する後部残響除去フィルタQ(f)と、混合音響信号x(f,t)から各源信号に対応する成分を強調する音源分離フィルタW(f)と、を統合したフィルタである。この変換に伴い、式(8)-(10)は以下の式(18)および(19)のように変換される。
Figure JPOXMLDOC01-appb-M000022

Figure JPOXMLDOC01-appb-M000023
 以上より、IVEconvの確率モデルは、式(11)-(14), (18)-(19)としてまとめられる。この確率モデルは、源信号を観測して得られる観測混合音響信号を時間周波数領域に変換して得られる混合音響信号x(f,t)から後部残響成分を抑圧する後部残響除去フィルタQδ(f)と、混合音響信号x(f,t)から各源信号に対応する成分を強調する音源分離フィルタW(f)と、を統合したフィルタである畳み込み分離フィルタP(f)を、混合音響信号x(f,t)および混合音響信号の遅延信号x(f,t-τ),…,x(f,t-τ|Δ|)を含む混合音響信号列x^(f,t)に適用して、後部残響成分が抑圧され、かつ、源信号のうち各目的音源から発せられた各目的信号s(f,t)が強調された各信号に対応する情報を得るモデルである。また、このモデルのモデルパラメータは、式(17)の畳み込み分離フィルタP(f)と、式(12)の目的信号のパワースペクトルλ(t)である。
 <単純化されたIVEconvの確率モデルの最適化>
 単純化されたIVEconvの確率モデルのモデルパラメータは、最尤法により推定できる。これは、次の式(20)で表される負の対数尤度である目的関数Jを最小化することで達成される。
Figure JPOXMLDOC01-appb-M000024

ここで、|α|はαの絶対値であり、||α||はαのノルムであり、det(α)はαの行列式であり、「const.」はパラメータに依存しない定数である。畳み込み分離フィルタP(f)の最初のM行成分がW(f)=[w(f),...,w(f),W(f)]である。
 本実施形態では、畳み込み分離フィルタP(f)と目的信号s(f,t)のパワースペクトルλ(t)とを交互に最適化する。畳込分離フィルタP(f)を固定すると、パワースペクトルλ(t)の大域最適解は以下のようになる。
Figure JPOXMLDOC01-appb-M000025

 よって、パワースペクトル推定では、畳み込み分離フィルタP(f)を固定したもとで、式(21)に従って各目的信号s(f,t)のパワースペクトルλ(t)を推定する。
 また目的信号s(f,t)のパワースペクトルλ(t)を固定した場合に、上記の負の目的関数Jを最適化(最小化)するように畳み込み分離フィルタP(f)を最適化する問題は、各周波数ビンの畳み込み分離フィルタP(1),…,P(F)について目的関数Jを最小化するF個の問題に分割できる。畳み込み分離フィルタP(f)について目的関数Jを最小化する問題は次のように表される。
Figure JPOXMLDOC01-appb-M000026

ただし、以下を満たす。
Figure JPOXMLDOC01-appb-M000027

ここでtr(α)はαの対角和である。
Figure JPOXMLDOC01-appb-M000028

Figure JPOXMLDOC01-appb-M000029

 Gは混合音響信号列x^(f,t)の共分散行列であり、Gは目的信号s(f,t)以外の信号を雑音信号とみなしたときの雑音共分散行列と捉えることができる。以上のように、畳み込み分離フィルタ推定では、各目的信号s(f,t)のパワースペクトルλ(t)を固定したもとで、各周波数で混合音響信号に対する目的関数JP(f)を最適化する畳み込み分離フィルタP(f)を周波数ごとに推定する。
 所定の条件を満たすまで、上記のパワースペクトル推定の処理と畳み込み分離フィルタ推定の処理とが交互に実行させる。
 [第1実施形態]
 次に、図面を用いて第1実施形態を説明する。
 [構成]
 図1に例示するように、第1実施形態の信号処理装置1は、初期設定部11、パワースペクトル推定部12、畳み込み分離フィルタ推定部13、および制御部14を有する。信号処理装置1は制御部14の制御の下で各処理を実行する。図2に例示するように、第1実施形態の畳み込み分離フィルタ推定部13は、q(f)演算部131、p(f)演算部132、P(f)演算部134、および制御部133を有する。畳み込み分離フィルタ推定部13は、制御部133の制御の下で各処理を実行する。
 <処理>
 前述のように、信号処理装置1は、源信号を観測して得られる観測混合音響信号を時間周波数領域に変換して得られる混合音響信号x(f,t)から後部残響成分を抑圧する後部残響除去フィルタQδ(f)と、混合音響信号x(f,t)から各源信号に対応する成分を強調する音源分離フィルタW(f)と、を統合したフィルタである畳み込み分離フィルタP(f)を、混合音響信号x(f,t)および混合音響信号の遅延信号x(f,t-τ),…,x(f,t-τ|Δ|)を含む混合音響信号列x^(f,t)に適用して、後部残響成分が抑圧され、かつ、源信号のうち各目的音源から発せられた各目的信号s(f,t)が強調された各信号に対応する情報を得るモデル、のモデルパラメータを推定する。以下、詳細に説明する。
 ≪初期設定部11の処理(ステップS11)≫
 図3に例示するように、信号処理装置1の初期設定部11には、混合音響信号x(f,t)(f∈{1,…,F},t∈{1,…,T})が入力される。初期設定部11は、すべてのfについて、分離フィルタP(f)に任意の初期値を設定する。例えば、初期設定部11は、P(f)=[I|OM×Lに設定する。ただしL:=|Δ|Mである。また初期設定部11は、式(14b)に従ってx^(f,t)を計算する。さらに初期設定部11は、すべてのfについて式(24)に従ってG(f)を計算する。さらに初期設定部11は、式(24)に従ってすべてのfについてG(f)-1∈C(M+L)×(M+L)を計算する。初期設定部11は、x^(f,t),P(f)をパワースペクトル推定部12に出力し、x^(f,t),P(f),G(f)-1を畳み込み分離フィルタ推定部13に出力する(ステップS11)。
 ≪パワースペクトル推定部12の処理(ステップS12)≫
 パワースペクトル推定部12は、x^(f,t)およびP(f)=[p(f),...,p(f),P(f)]を用い、すべてのf,tについて、式(18)に従って目的信号s(f,t)を得、さらに式(11)(21)に従って目的信号s(f,t)のパワースペクトルλ(t)を得る。すなわち、パワースペクトル推定部12は、畳み込み分離フィルタP(f)を固定したもとで、各目的信号s(f,t)のパワースペクトルλ(t)を推定する。パワースペクトル推定部12は、パワースペクトルλ(t)を畳み込み分離フィルタ推定部13に出力する(ステップS12)。
 ≪畳み込み分離フィルタ推定部13の処理(ステップS13)≫
 畳み込み分離フィルタ推定部13は、各目的信号s(f,t)のパワースペクトルλ(t)を固定したもとで、各周波数(f∈{1,…,F})で混合音響信号x(f,t)に対する目的関数JP(f)(式(22))を最適化(最小化)する畳み込み分離フィルタP(f)を周波数ごとに推定する。これは目的関数Jを各周波数ビンf=1,…,Fにおける畳み込み分離フィルタP(f)について最小化する問題を解くことに相当する。例えば、畳み込み分離フィルタ推定部13は、図4に例示するように、すべてのfについてP(f)を更新する。更新されたP(f)はパワースペクトル推定部12に出力される。
 P(f)の更新処理(図4):
 まず、制御部133はk=1に設定する(ステップS133a)。
 次にq(f)演算部は、P(f),G(f)-1を入力とし、すべてのfについて、式(25)に従ってq(f)を得て出力する。
Figure JPOXMLDOC01-appb-M000030

ここで、前述のようにP(f)の最初のM行成分がW(f)=[w(f),...,w(f),W(f)]である。eはk番目の成分が1のM次元単位ベクトルであり、α-Hはαの逆行列のエルミート転置である(ステップS131)。
 p(f)演算部132は、q(f)、x^(f,t),λ(t)を入力とし、すべてのfについて、式(23)(26)に従ってp(f)を得て出力する(ステップS132)。
Figure JPOXMLDOC01-appb-M000031
 制御部133はk=Kであるか否かを判定する(ステップS133)。ここでk=Kでない場合、制御部133はk+1を新たなkに設定し(ステップS133c)、ステップS131に戻す。一方、k=Kである場合、P(f)演算部134は、G(f)-1,p(f)を入力とし、すべてのfについて、式(27)に従ってPz(f)を得て出力する。
Figure JPOXMLDOC01-appb-M000032

ここで、ekがk番目の成分が1のM次元単位ベクトルであり、E:=[eK+1,...,e]∈CM×(M-K)であり、E:=[e,...,e]∈CM×Kであり、W(f):=[w(f),...,w(f)]∈CM×Kであり、0α×βがすべての要素が0のα×β行列である。前述のようにP(f)の最初のM行成分がW(f)=[w(f),...,w(f),W(f)]である(ステップS134)。
 p(f)演算部132は、すべてのk,fについてp(f)を出力し、P(f)演算部134は、すべてのz,fについてPz(f)を出力する。すなわち、畳み込み分離フィルタ推定部13は最適化された畳み込み分離フィルタP(f)=[p(f),...,p(f),P(f)]を出力する。さらに畳み込み分離フィルタ推定部13は、更新後のP(f)を以下のように正規化し、正規化後のP(f)を出力してもよい。
Figure JPOXMLDOC01-appb-M000033

Figure JPOXMLDOC01-appb-M000034

Figure JPOXMLDOC01-appb-M000035

これにより、数値的安定性を向上させることができる。ただし、この正規化は必須ではなく、これらの正規化が行われなくてもよい(ステップS135)。
 以上のように、畳み込み分離フィルタ推定部13は、式(22)の問題を図4のように解き、最適化された畳み込み分離フィルタP(f)を出力する。このとき、雑音信号は分離・抽出する必要がないため、図4では、雑音信号に対する畳み込み分離フィルタPを厳密に最適化する代わりに、Pが張る線形空間Im(P)までを最適化する方法を採用することで高速な音源抽出手法を実現している。
 ≪制御部14の処理(ステップS14)≫
 制御部14は、所定の条件が充足されたかを判定する。所定の条件の例は、パワースペクトル推定(ステップS12)と畳み込み分離フィルタ推定(ステップS13)との処理の繰り返し回数が予め定めた繰り返し回数に到達したこと、あるいは、各モデルパラメータの更新量が所定の閾値以下となったこと等である。ここで所定の条件が充足されていない場合、制御部14は処理をステップS12に戻す。一方、所定の条件が充足された場合、制御部14は処理をステップS15に進める。すなわち制御部14は、所定の条件を満たすまで、パワースペクトル推定部12の処理と畳み込み分離フィルタ推定部13の処理とを交互に実行させる(ステップS14)。
 ステップS15では、すべてのf,kについて、パワースペクトル推定部12が上述のように最適化した目的信号s(f,t)(ステップS12)を出力し、畳み込み分離フィルタ推定部13が上述のように最適化された畳み込み分離フィルタP(f)を出力する(ステップS15)。
 <本実施形態の特徴>
 本実施形態では、後部残響除去フィルタと音源分離フィルタとを統合した畳み込み分離フィルタを用いたモデルを用いるため、雑音に加えて残響にも頑健な音源抽出を高速で行うことが可能である。また、上述の処理はリアルタイム処理によって実行可能である。
 [第2実施形態]
 次に、第2実施形態を説明する。目的音源数Kが1の場合、畳み込み分離フィルタをより高速に最適化することができる。第2実施形態ではこの方式について説明する。第2実施形態の第1実施形態からの相違点は、K=1に限定される点および畳み込み分離フィルタの最適化手順である。以下では、これまで説明した事項との相違点を中心に説明し、既に説明した事項については同じ参照番号を引用して処理を簡略化する。
 [構成]
 図1に例示するように、第2実施形態の信号処理装置2は、初期設定部21、パワースペクトル推定部12、畳み込み分離フィルタ推定部23、および制御部14を有する。信号処理装置2は制御部14の制御の下で各処理を実行する。図5に例示するように、第2実施形態の畳み込み分離フィルタ推定部23は、畳み込み分離フィルタ推定部13、方程式求解部231、固有値問題求解部232、p(f)演算部234、および制御部233を有する。畳み込み分離フィルタ推定部23は、制御部233の制御の下で各処理を実行する。
 <処理>
 本実施形態でも、畳み込み分離フィルタP(f)を、混合音響信号x(f,t)および混合音響信号の遅延信号x(f,t-τ),…,x(f,t-τ|Δ|)を含む混合音響信号列x^(f,t)に適用して、後部残響成分が抑圧され、かつ、源信号のうち各目的音源から発せられた各目的信号s(f,t)が強調された各信号に対応する情報を得るモデル、のモデルパラメータを推定する。以下、詳細に説明する。
 ≪初期設定部21の処理(ステップS21)≫
 図3に例示するように、信号処理装置2の初期設定部21には、混合音響信号x(f,t)(f∈{1,…,F},t∈{1,…,T})が入力される。初期設定部21は、すべてのfについて、分離フィルタP(f)に任意の初期値を設定する。また初期設定部21は、式(14b)に従ってx^(f,t)を計算する。さらに初期設定部21は、すべてのfについて式(24)に従ってG(f)を計算する。さらに初期設定部21は、式(24)に従ってすべてのfについてG(f)-1∈C(M+L)×(M+L)を計算する。また初期設定部21は、G(f)-1の先頭のM×Mの小行列V(f)を抽出する。初期設定部21は、x^(f,t),P(f)をパワースペクトル推定部12に出力し、x^(f,t),P(f),G(f)-1,V(f)を畳み込み分離フィルタ推定部13に出力する(ステップS21)。
 ≪パワースペクトル推定部12の処理(ステップS12)≫
 パワースペクトル推定部12は、第1実施形態で説明した通りに、畳み込み分離フィルタP(f)を固定したもとで、各目的信号s(f,t)のパワースペクトルλ(t)を推定する。パワースペクトル推定部12は、パワースペクトルλ(t)を畳み込み分離フィルタ推定部23に出力する(ステップS12)。
 ≪畳み込み分離フィルタ推定部23の処理(ステップS23)≫
 畳み込み分離フィルタ推定部23は、各目的信号s(f,t)のパワースペクトルλ(t)を固定したもとで、各周波数(f∈{1,…,F})で混合音響信号x(f,t)に対する目的関数JP(f)(式(22))を最適化(最小化)する畳み込み分離フィルタP(f)を周波数ごとに推定する。例えば、畳み込み分離フィルタ推定部23は、図6に例示するように、すべてのfについてP(f)を更新する。更新されたP(f)はパワースペクトル推定部12に出力される。
 P(f)の更新処理(図6):
 方程式求解部231は、x^(f,t)およびλ1(t)を用い、すべてのfについて、式(23)に従ってG(f)を得、さらに方程式求解部231は、すべてのfについて、式(28)の方程式を満たすM×M行列V(f)∈CM×MおよびL×M行列C(f)∈CL×Mを算出して出力する。
Figure JPOXMLDOC01-appb-M000036

 M×M行列V(f)は固有値問題求解部232およびp(t)演算部234に出力され、L×M行列C(f)はp(t)演算部234に出力される(ステップS231)。
 固有値問題求解部232は、V(f),V(f)を入力とし、すべてのfについて一般化固有値問題V(f)q=λV(f)qを解いて最大固有値λに対応する固有ベクトルq=a(f)を得て出力する。固有ベクトルq=a(f)はp(t)演算部234に出力される(ステップS232)。
 p(t)演算部234は、V(f),a(f),C(f)を入力とし、すべてのfについて、式(29)に従って目的信号p(f)を算出して出力する(ステップS234)。
Figure JPOXMLDOC01-appb-M000037
  (29)
 ≪制御部14の処理(ステップS14)≫
 制御部14は、所定の条件が充足されたかを判定する。ここで所定の条件が充足されていない場合、制御部14は処理をステップS12に戻す。一方、所定の条件が充足された場合、制御部14は処理をステップS25に進める。
 ステップS25では、まず、畳み込み分離フィルタ推定部23の畳み込み分離フィルタ推定部13が、すべてのfについて第1実施形態で説明したようにP(f)を得て出力する。さらに、すべてのf,kについて、パワースペクトル推定部12が上述のように最適化した目的信号s(f,t)(ステップS12)を出力し、畳み込み分離フィルタ推定部23が上述のように最適化された畳み込み分離フィルタP(f)=[p(f),P(f)]を出力する(ステップS25)。
 [第2実施形態の変形例]
 固有値問題求解部232は、以下の式(30)によって、ステップS232の最大固有値λに対応する固有ベクトルq=a(f)を得てもよい。
Figure JPOXMLDOC01-appb-M000038

ここでVとVの逆行列V -1とV -1は、それぞれ、残響の影響を取り除いた後の混合音響信号列と雑音信号列の共分散行列と考えることができるので、式(32)による処理はMaxSNRに基づくステアリングベクトル推定と捉えることができる。また、ステップS234は、畳み込みビームフォーマの計算に相当する。このことから畳み込み分離フィルタ推定部23によるIVEconvは、MaxSNRに基づくステアリングベクトル推定と畳み込みビームフォーマによる音源抽出との繰り返しに相当すると言える。
 [第3実施形態]
 第3実施形態では、第1,2実施形態または第2実施形態の変形例で最適化された目的信号s(f,t)および畳み込み分離フィルタP(f)から、目的信号s(f,t)の直接音成分と初期反射成分の和d(f,t)を得て出力する。
 図7に例示するように、第3実施形態のシステムは、第1,2実施形態または第2実施形態の変形例の信号処理装置1(2)および信号抽出装置3を有する。前述のように、信号処理装置1(2)は、混合音響信号x(f,t)を入力とし、前述のように最適化された目的信号s(f,t)および畳み込み分離フィルタP(f)を出力する。
 信号抽出装置3は、最適化された目的信号s(f,t)および畳み込み分離フィルタP(f)を入力とし、すべてのk,f,tについて、以下の式(31)に従ってd(f,t)を得て出力する。
Figure JPOXMLDOC01-appb-M000039

その後、得られたd(f,t)は時間周波数領域で他の処理に用いられてもよいし、時間領域に変換されてもよい。
 [実験]
 実験では表1に書かれた4手法の性能評価を行った。ここで(a)は「N. Ono, Proc. WASPAA, pp. 189-192, 2011.」(参考文献1)に記載された従来法であり、(b)は「R. Scheibler and N. Ono, arXiv preprint arXiv:1910.10654, 2019.」(参考文献2)に記載された従来法であり、(c)は「T. Yoshioka and T. Nakatani, IEEE Trans. ASLP, vol. 20, no. 10, pp. 2707-2720, 2012.」(参考文献3)に基づく従来法である。ただし、(c)はWPEとIVAの交互最適化であり、参考文献3で提案されたWPEとICA(IVA)の交互最適化を高速化した手法である。実験条件は表2のとおりである。なお、RTFは処理速度を表す。(a)と(c)ではM(>K)個の出力のうち、パワーの大きいK個を音源抽出結果として選びSDR/SIRを計測した。表1より本実施形態の手法の有効性が確認できた。
Figure JPOXMLDOC01-appb-T000040
Figure JPOXMLDOC01-appb-T000041
 [ハードウェア構成]
 各実施形態における信号処理装置1,2および信号抽出装置3は、例えば、CPU(central processing unit)等のプロセッサ(ハードウェア・プロセッサ)やRAM(random-access memory)・ROM(read-only memory)等のメモリ等を備える汎用または専用のコンピュータが所定のプログラムを実行することで構成される装置である。このコンピュータは1個のプロセッサやメモリを備えていてもよいし、複数個のプロセッサやメモリを備えていてもよい。このプログラムはコンピュータにインストールされてもよいし、予めROM等に記録されていてもよい。また、CPUのようにプログラムが読み込まれることで機能構成を実現する電子回路(circuitry)ではなく、単独で処理機能を実現する電子回路を用いて一部またはすべての処理部が構成されてもよい。また、1個の装置を構成する電子回路が複数のCPUを含んでいてもよい。
 図8は、各実施形態における信号処理装置1,2および信号抽出装置3のハードウェア構成を例示したブロック図である。図8に例示するように、この例の信号処理装置1,2は、CPU(Central Processing Unit)10a、入力部10b、出力部10c、RAM(Random Access Memory)10d、ROM(Read Only Memory)10e、補助記憶装置10f及びバス10gを有している。この例のCPU10aは、制御部10aa、演算部10ab及びレジスタ10acを有し、レジスタ10acに読み込まれた各種プログラムに従って様々な演算処理を実行する。また、入力部10bは、データが入力される入力端子、キーボード、マウス、タッチパネル等である。また、出力部10cは、データが出力される出力端子、ディスプレイ、所定のプログラムを読み込んだCPU10aによって制御されるLANカード等である。また、RAM10dは、SRAM (Static Random Access Memory)、DRAM (Dynamic Random Access Memory)等であり、所定のプログラムが格納されるプログラム領域10da及び各種データが格納されるデータ領域10dbを有している。また、補助記憶装置10fは、例えば、ハードディスク、MO(Magneto-Optical disc)、半導体メモリ等であり、所定のプログラムが格納されるプログラム領域10fa及び各種データが格納されるデータ領域10fbを有している。また、バス10gは、CPU10a、入力部10b、出力部10c、RAM10d、ROM10e及び補助記憶装置10fを、情報のやり取りが可能なように接続する。CPU10aは、読み込まれたOS(Operating System)プログラムに従い、補助記憶装置10fのプログラム領域10faに格納されているプログラムをRAM10dのプログラム領域10daに書き込む。同様にCPU10aは、補助記憶装置10fのデータ領域10fbに格納されている各種データを、RAM10dのデータ領域10dbに書き込む。そして、このプログラムやデータが書き込まれたRAM10d上のアドレスがCPU10aのレジスタ10acに格納される。CPU10aの制御部10aaは、レジスタ10acに格納されたこれらのアドレスを順次読み出し、読み出したアドレスが示すRAM10d上の領域からプログラムやデータを読み出し、そのプログラムが示す演算を演算部10abに順次実行させ、その演算結果をレジスタ10acに格納していく。このような構成により、信号処理装置1,2および信号抽出装置3の機能構成が実現される。
 上述のプログラムは、コンピュータで読み取り可能な記録媒体に記録しておくことができる。コンピュータで読み取り可能な記録媒体の例は非一時的な(non-transitory)記録媒体である。このような記録媒体の例は、磁気記録装置、光ディスク、光磁気記録媒体、半導体メモリ等である。
 このプログラムの流通は、例えば、そのプログラムを記録したDVD、CD-ROM等の可搬型記録媒体を販売、譲渡、貸与等することによって行う。さらに、このプログラムをサーバコンピュータの記憶装置に格納しておき、ネットワークを介して、サーバコンピュータから他のコンピュータにそのプログラムを転送することにより、このプログラムを流通させる構成としてもよい。上述のように、このようなプログラムを実行するコンピュータは、例えば、まず、可搬型記録媒体に記録されたプログラムもしくはサーバコンピュータから転送されたプログラムを、一旦、自己の記憶装置に格納する。そして、処理の実行時、このコンピュータは、自己の記憶装置に格納されたプログラムを読み取り、読み取ったプログラムに従った処理を実行する。また、このプログラムの別の実行形態として、コンピュータが可搬型記録媒体から直接プログラムを読み取り、そのプログラムに従った処理を実行することとしてもよく、さらに、このコンピュータにサーバコンピュータからプログラムが転送されるたびに、逐次、受け取ったプログラムに従った処理を実行することとしてもよい。また、サーバコンピュータから、このコンピュータへのプログラムの転送は行わず、その実行指示と結果取得のみによって処理機能を実現する、いわゆるASP(Application Service Provider)型のサービスによって、上述の処理を実行する構成としてもよい。なお、本形態におけるプログラムには、電子計算機による処理の用に供する情報であってプログラムに準ずるもの(コンピュータに対する直接の指令ではないがコンピュータの処理を規定する性質を有するデータ等)を含むものとする。
 各実施形態では、コンピュータ上で所定のプログラムを実行させることにより、本装置を構成することとしたが、これらの処理内容の少なくとも一部をハードウェア的に実現することとしてもよい。
 なお、本発明は上述の実施形態に限定されるものではない。例えば、上述の各種の処理は、記載に従って時系列に実行されるのみならず、処理を実行する装置の処理能力あるいは必要に応じて並列的にあるいは個別に実行されてもよい。その他、本発明の趣旨を逸脱しない範囲で適宜変更が可能であることはいうまでもない。
1,2 信号処理装置

Claims (10)

  1.  源信号を観測して得られる観測混合音響信号を時間周波数領域に変換して得られる混合音響信号から後部残響成分を抑圧する後部残響除去フィルタと、前記混合音響信号から各前記源信号に対応する成分を強調する音源分離フィルタと、を統合したフィルタである畳み込み分離フィルタを、前記混合音響信号および前記混合音響信号の遅延信号を含む混合音響信号列に適用して、前記後部残響成分が抑圧され、かつ、前記源信号のうち各目的音源から発せられた各目的信号が強調された各信号に対応する情報を得るモデル、のモデルパラメータを推定する、信号処理装置。
  2.  請求項1の信号処理装置であって、
     前記観測混合音響信号はM個の音源から発せられた前記源信号をM個のマイクロホンで観測して得られ、
     前記源信号はK個の目的音源から発せられた目的信号を含み、
     Mが2以上の整数であり、Kが1以上の整数であり、1≦K≦M-1であり、
     前記混合音響信号がx(f,t)であり、
     fが離散周波数のインデックスであり、f∈{1,…,F}であり、Fが正整数であり、
     tが離散時間のインデックスであり、t∈{1,…,T}であり、Tが正整数であり、
     前記畳み込み分離フィルタがp(f),...,p(f)を含み、
     p(f)=Q(f)w(f)がk番目の目的音源から発せられた目的信号に対応する畳み込み分離フィルタ成分であり、k∈{1,…,K}であり、w(f)がk番目の目的音源から発せられた目的信号に対応する成分を強調する前記音源分離フィルタであり、
    Figure JPOXMLDOC01-appb-M000001

    であり、Iαがα×αの単位行列であり、Qδ(f)が前記後部残響除去フィルタであり、δ∈Δであり、Δ∈{τ,…,τ|Δ|}であり、|Δ|が正整数であり、
     前記混合音響信号列が
    Figure JPOXMLDOC01-appb-M000002

    であり、
     各前記目的信号が
    Figure JPOXMLDOC01-appb-M000003

    を含み、αがαのエルミート転置である、信号処理装置。
  3.  請求項2の信号処理装置であって、
     前記源信号はさらにM-K個の雑音源から発せられた雑音信号を含み、
     前記畳み込み分離フィルタがさらにP(f)を含み、
     P(f)=Q(f)W(f)が雑音源から発せられた雑音信号に対応する畳み込み分離フィルタ成分であり、W(f)が雑音源から発せられた雑音信号に対応する成分を強調する前記音源分離フィルタであり、
     各前記雑音信号に対応する情報が
    Figure JPOXMLDOC01-appb-M000004

    であり、
     s(t)~CN(0,λ(t)I
     z(f,t)~CN(0M-K,IM-K
    であり、
     s(t):=[s(1,t),…,s(F,t)]であり、λ(t)がs(t)のパワースペクトルであり、αがαの転置であり、CN(μ,Σ)が平均ベクトルμで分散共分散行列Σの複素正規分布であり、0αがすべての要素が0のα次元ベクトルであり、β~CN(μ,Σ)が、βが前記複素正規分布CN(μ,Σ)に従っていることを表し、
    Figure JPOXMLDOC01-appb-M000005

    であり、p(α)がαの生じる確率である、信号処理装置。
  4.  請求項3の信号処理装置であって、
     前記畳み込み分離フィルタP(f)=[p(f),...,p(f),P(f)]を固定したもとで、s(t)のパワースペクトル
    Figure JPOXMLDOC01-appb-M000006

    を得るパワースペクトル推定部と、
     各前記目的信号のパワースペクトルλ(t)を固定したもとで、fに対応する各周波数で前記混合音響信号x(f,t)に対する目的関数
    Figure JPOXMLDOC01-appb-M000007

    を最小化する前記畳み込み分離フィルタP(f)を前記周波数ごとに得る畳み込み分離フィルタ推定部と、
     所定の条件を満たすまで、前記パワースペクトル推定部の処理と前記畳み込み分離フィルタ推定部の処理とを交互に実行させる制御部と、
    を有し、
    Figure JPOXMLDOC01-appb-M000008

    であり、
    Figure JPOXMLDOC01-appb-M000009

    であり、
     前記畳み込み分離フィルタP(f)の最初のM行成分がW(f):=[w(f),...,w(f),W(f)]であり、
     tr(α)がαの対角和であり、det(α)がαの行列式である、信号処理装置。
  5.  請求項4の信号処理装置であって、
     α-Hがαの逆行列のエルミート転置であり、ekがk番目の成分が1のM次元単位ベクトルであり、E:=[eK+1,...,e]であり、E:=[e,...,e]であり、W(f):=[w(f),...,w(f)]であり、0α×βがすべての要素が0のα×β行列であり、
     前記畳み込み分離フィルタ推定部は、
     k=1,…,Kについて、
    Figure JPOXMLDOC01-appb-M000010

    および
    Figure JPOXMLDOC01-appb-M000011

    を得、
    Figure JPOXMLDOC01-appb-M000012

    を得る、信号処理装置。
  6.  請求項4の信号処理装置であって、
     K=1であり、
     0L×Mがすべての要素が0のL×M行列であり、
     V(f)がG(f)-1の先頭のM×Mの小行列であり、
     V(f)がG(f)-1の先頭のM×Mの小行列であり、
     前記畳み込み分離フィルタ推定部は、
    Figure JPOXMLDOC01-appb-M000013

    を満たすM×M行列V(f)およびL×M行列C(f)を得、
     固有値問題V(f)q=λV(f)qを解いて最大固有値λに対応する固有ベクトルq=a(f)を得、
    Figure JPOXMLDOC01-appb-M000014

    を得る、信号処理装置。
  7.  請求項6の信号処理装置であって、
     前記畳み込み分離フィルタ推定部は、
    Figure JPOXMLDOC01-appb-M000015

    によって前記固有ベクトルq=a(f)を得る、信号処理装置。
  8.  請求項1の信号処理装置であって、
     前記モデルパラメータは、各前記目的信号のパワースペクトル、および、前記畳み込み分離フィルタを含み、
     前記畳み込み分離フィルタを固定したもとで、各前記目的信号の前記パワースペクトルを推定するパワースペクトル推定部と、
     各前記目的信号の前記パワースペクトルを固定したもとで、各周波数で前記混合音響信号に対する目的関数を最適化する前記畳み込み分離フィルタを周波数ごとに推定する畳み込み分離フィルタ推定部と、
     所定の条件を満たすまで、前記パワースペクトル推定部の処理と前記畳み込み分離フィルタ推定部の処理とを交互に実行させる制御部と、
    を有する信号処理装置。
  9.  源信号を観測して得られる観測混合音響信号を時間周波数領域に変換して得られる混合音響信号から後部残響成分を抑圧する後部残響除去フィルタと、前記混合音響信号から各前記源信号に対応する成分を強調する音源分離フィルタと、を統合したフィルタである畳み込み分離フィルタを、前記混合音響信号および前記混合音響信号の遅延信号を含む混合音響信号列に適用して、前記後部残響成分が抑圧され、かつ、前記源信号のうち各目的音源から発せられた各目的信号が強調された各信号に対応する情報を得るモデル、のモデルパラメータを推定する、信号処理方法。
  10.  請求項1から8の何れかの信号処理装置としてコンピュータを機能させるためのプログラム。
PCT/JP2020/007643 2020-02-26 2020-02-26 信号処理装置、信号処理方法、およびプログラム WO2021171406A1 (ja)

Priority Applications (3)

Application Number Priority Date Filing Date Title
PCT/JP2020/007643 WO2021171406A1 (ja) 2020-02-26 2020-02-26 信号処理装置、信号処理方法、およびプログラム
JP2022502647A JP7351401B2 (ja) 2020-02-26 2020-02-26 信号処理装置、信号処理方法、およびプログラム
US17/802,090 US20230087982A1 (en) 2020-02-26 2020-02-26 Signal processing apparatus, signal processing method, and program

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
PCT/JP2020/007643 WO2021171406A1 (ja) 2020-02-26 2020-02-26 信号処理装置、信号処理方法、およびプログラム

Publications (1)

Publication Number Publication Date
WO2021171406A1 true WO2021171406A1 (ja) 2021-09-02

Family

ID=77490797

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/JP2020/007643 WO2021171406A1 (ja) 2020-02-26 2020-02-26 信号処理装置、信号処理方法、およびプログラム

Country Status (3)

Country Link
US (1) US20230087982A1 (ja)
JP (1) JP7351401B2 (ja)
WO (1) WO2021171406A1 (ja)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117688515B (zh) * 2024-02-04 2024-05-17 潍柴动力股份有限公司 空压机的声品质评价方法、装置、存储介质与电子设备

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2009110578A1 (ja) * 2008-03-03 2009-09-11 日本電信電話株式会社 残響除去装置、残響除去方法、残響除去プログラム、および記録媒体
JP2010054728A (ja) * 2008-08-27 2010-03-11 Hitachi Ltd 音源抽出装置
JP2015070321A (ja) * 2013-09-26 2015-04-13 本田技研工業株式会社 音声処理装置、音声処理方法、及び音声処理プログラム
JP2018028620A (ja) * 2016-08-18 2018-02-22 株式会社日立製作所 音源分離方法、装置およびプログラム
JP2019144320A (ja) * 2018-02-16 2019-08-29 日本電信電話株式会社 信号解析装置、方法、及びプログラム

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2009110578A1 (ja) * 2008-03-03 2009-09-11 日本電信電話株式会社 残響除去装置、残響除去方法、残響除去プログラム、および記録媒体
JP2010054728A (ja) * 2008-08-27 2010-03-11 Hitachi Ltd 音源抽出装置
JP2015070321A (ja) * 2013-09-26 2015-04-13 本田技研工業株式会社 音声処理装置、音声処理方法、及び音声処理プログラム
JP2018028620A (ja) * 2016-08-18 2018-02-22 株式会社日立製作所 音源分離方法、装置およびプログラム
JP2019144320A (ja) * 2018-02-16 2019-08-29 日本電信電話株式会社 信号解析装置、方法、及びプログラム

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
SCHEIBLER ROBIN ET AL.: "Independent Vector Analysis with More Microphones Than Souces", IEEE XPLORE, 20 October 2019 (2019-10-20), pages 185 - 189, XP033677283, DOI: 10.1109/WASPAA.2019.8937080 *

Also Published As

Publication number Publication date
JPWO2021171406A1 (ja) 2021-09-02
JP7351401B2 (ja) 2023-09-27
US20230087982A1 (en) 2023-03-23

Similar Documents

Publication Publication Date Title
WO2020121590A1 (ja) 信号処理装置、信号処理方法、およびプログラム
WO2015065682A1 (en) Selective audio source enhancement
WO2015129760A1 (ja) 信号処理装置、方法及びプログラム
WO2021171406A1 (ja) 信号処理装置、信号処理方法、およびプログラム
JP7167746B2 (ja) 非負値行列分解最適化装置、非負値行列分解最適化方法、プログラム
JP6815956B2 (ja) フィルタ係数算出装置、その方法、及びプログラム
JP6711765B2 (ja) 形成装置、形成方法および形成プログラム
WO2021205494A1 (ja) 信号処理装置、信号処理方法、およびプログラム
WO2021007902A1 (zh) 语音滤波方法、装置、介质和电子设备
JP7156064B2 (ja) 潜在変数最適化装置、フィルタ係数最適化装置、潜在変数最適化方法、フィルタ係数最適化方法、プログラム
WO2022172441A1 (ja) 音源分離装置、音源分離方法、およびプログラム
US20220284885A1 (en) All deep learning minimum variance distortionless response beamformer for speech separation and enhancement
Wang et al. Low-latency real-time independent vector analysis using convolutive transfer function
WO2021255925A1 (ja) 目的音信号生成装置、目的音信号生成方法、プログラム
JP7222277B2 (ja) 雑音抑圧装置、その方法、およびプログラム
JP7173355B2 (ja) Psd最適化装置、psd最適化方法、プログラム
WO2024038522A1 (ja) 信号処理装置、信号処理方法、プログラム
WO2020184210A1 (ja) 雑音空間共分散行列推定装置、雑音空間共分散行列推定方法、およびプログラム
JP7173356B2 (ja) Psd最適化装置、psd最適化方法、プログラム
WO2023276170A1 (ja) 音響信号強調装置、音響信号強調方法、プログラム
US20240127841A1 (en) Acoustic signal enhancement apparatus, method and program
WO2021144934A1 (ja) 音声強調装置、学習装置、それらの方法、およびプログラム
WO2022130445A1 (ja) 音源信号生成装置、音源信号生成方法、プログラム
WO2021100215A1 (ja) 音源信号推定装置、音源信号推定方法、プログラム
JP5498452B2 (ja) 背景音抑圧装置、背景音抑圧方法、およびプログラム

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 20922176

Country of ref document: EP

Kind code of ref document: A1

ENP Entry into the national phase

Ref document number: 2022502647

Country of ref document: JP

Kind code of ref document: A

NENP Non-entry into the national phase

Ref country code: DE

122 Ep: pct application non-entry in european phase

Ref document number: 20922176

Country of ref document: EP

Kind code of ref document: A1