WO2021112066A1 - 音響解析装置、音響解析方法及び音響解析プログラム - Google Patents

音響解析装置、音響解析方法及び音響解析プログラム Download PDF

Info

Publication number
WO2021112066A1
WO2021112066A1 PCT/JP2020/044629 JP2020044629W WO2021112066A1 WO 2021112066 A1 WO2021112066 A1 WO 2021112066A1 JP 2020044629 W JP2020044629 W JP 2020044629W WO 2021112066 A1 WO2021112066 A1 WO 2021112066A1
Authority
WO
WIPO (PCT)
Prior art keywords
parameter
frequency
matrix
acoustic
time
Prior art date
Application number
PCT/JP2020/044629
Other languages
English (en)
French (fr)
Inventor
洋 猿渡
優騎 久保
典玄 ▲高▼宗
大地 北村
Original Assignee
国立大学法人東京大学
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 国立大学法人東京大学 filed Critical 国立大学法人東京大学
Priority to US17/782,546 priority Critical patent/US20230018030A1/en
Publication of WO2021112066A1 publication Critical patent/WO2021112066A1/ja

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • G10L21/0216Noise filtering characterised by the method used for estimating noise
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0272Voice signal separating
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0272Voice signal separating
    • G10L21/0308Voice signal separating characterised by the type of parameter measurement, e.g. correlation techniques, zero crossing techniques or predictive techniques

Definitions

  • the present invention relates to an acoustic analysis device, an acoustic analysis method, and an acoustic analysis program.
  • Non-Patent Documents 1 and 2 are known.
  • the methods described in Non-Patent Documents 1 and 2 are abbreviated as ILRMA (Independent Low-Rank Matrix Analysis), and can stably separate signals with relatively high accuracy.
  • ILRMA can separate acoustic signals emitted from different directions. However, when the acoustic signal emitted from one target sound source and the noise signal emitted from all directions are mixed, the ILRMA separates the signal obtained by mixing the acoustic signal of the target sound source and the noise signal in that direction. It is not possible to separate only the acoustic signal of the target sound source.
  • the present invention provides an acoustic analysis device, an acoustic analysis method, and an acoustic analysis program capable of separating the acoustic signal of the target sound source at a higher speed.
  • the acoustic analysis device calculates an acquisition unit that acquires acoustic signals measured by a plurality of microphones and a separation matrix that separates the acoustic signals into estimated values of acoustic signals emitted from a plurality of sound sources.
  • a first generation that generates an acoustic signal of diffuse noise by a first model, which is determined by a first calculation unit and a separation matrix and includes a spatial correlation matrix for frequency, a first parameter for frequency, and a second parameter for frequency and time.
  • a second generator that generates an acoustic signal emitted from a target sound source by a second model that is determined by a part and a separation matrix and includes a steering vector related to frequency and a third parameter related to frequency and time, a first parameter, and a first. It comprises a determination unit that determines the two parameters and the third parameter so as to maximize the likelihood of the first parameter, the second parameter, and the third parameter, and the determination unit is the inverse of the frequency and time matrix. , The first parameter, the second parameter and the third parameter are determined so as to maximize the likelihood by decomposing into the inverse of the frequency matrix.
  • the amount of calculation can be reduced and the acoustic signal of the target sound source can be separated at higher speed.
  • the acoustic analysis method is to acquire an acoustic signal measured by a plurality of microphones by a processor provided in the acoustic analyzer, and to obtain an acoustic signal from a plurality of sound sources.
  • the acoustics of diffuse noise by calculating a separation matrix to separate into estimates and by a first model defined by the separation matrix, which includes a spatial correlation matrix for frequency, a first parameter for frequency, and a second parameter for frequency and time.
  • the second and third parameters are determined to maximize the likelihood of the first, second and third parameters, including the inverse of the frequency and time matrix, the frequency matrix.
  • An acoustic analysis method in which the first parameter, the second parameter, and the third parameter are determined so as to maximize the likelihood by decomposing into the inverse matrix of.
  • the amount of calculation can be reduced and the acoustic signal of the target sound source can be separated at higher speed.
  • a processor provided in the acoustic analyzer is used as an acquisition unit for acquiring acoustic signals measured by a plurality of microphones, and an acoustic signal is obtained from an acoustic signal emitted from a plurality of sound sources. Diffuse noise by the first calculation unit, which calculates the separation matrix to be separated into estimated values, the first model, which is determined by the separation matrix and includes the spatial correlation matrix for frequency, the first parameter for frequency, and the second parameter for frequency and time.
  • the second generation that generates the acoustic signal emitted from the target sound source by the first generation part that generates the acoustic signal of the above, the second model that is determined by the separation matrix and includes the steering vector related to the frequency and the third parameter related to the frequency and time.
  • the unit and the first parameter, the second parameter, and the third parameter function as a determination unit that determines to maximize the likelihood of the first parameter, the second parameter, and the third parameter, and the determination unit functions as a frequency.
  • an acoustic analysis program that decomposes the inverse of the matrix with respect to time into the inverse of the matrix with respect to frequency and determines the first, second and third parameters so as to maximize the likelihood.
  • the amount of calculation can be reduced and the acoustic signal of the target sound source can be separated at higher speed.
  • an acoustic analysis device an acoustic analysis method, and an acoustic analysis program capable of separating acoustic signals of a target sound source at a higher speed.
  • FIG. 1 is a diagram showing a functional block of the acoustic analysis device 10 according to the embodiment of the present invention.
  • the acoustic analysis device 10 includes an acquisition unit 11, a first calculation unit 12, a first generation unit 13, a second generation unit 14, and a determination unit 15.
  • the acquisition unit 11 acquires the acoustic signal measured by the plurality of microphones 20.
  • the acquisition unit 11 may acquire the acoustic signal measured by the plurality of microphones 20 and stored in the storage unit from the storage unit, or may acquire the acoustic signal measured by the plurality of microphones 20 in real time. May be good.
  • the first calculation unit 12 calculates a separation matrix that separates acoustic signals into estimated values of acoustic signals emitted from a plurality of sound sources.
  • the separation matrix will be described with reference to FIG.
  • the first generation unit 13 generates an acoustic signal of diffuse noise by a first model 13a, which is defined by a separation matrix and includes a spatial correlation matrix related to frequency, a first parameter related to frequency, and a second parameter related to frequency and time.
  • a first model 13a which is defined by a separation matrix and includes a spatial correlation matrix related to frequency, a first parameter related to frequency, and a second parameter related to frequency and time.
  • the second generation unit 14 generates an acoustic signal emitted from a target sound source by a second model defined by a separation matrix and including a steering vector related to frequency and a third parameter related to frequency and time. The process of generating the acoustic signal emitted from the target sound source by the second model 14a will be described in detail later.
  • the first generation unit 13 generates an acoustic signal uij of diffusive noise
  • the second generation unit 14 generates an acoustic signal hij emitted from a target sound source.
  • the two parameters and the third parameter included in the second model 14a are determined.
  • the determination unit 15 determines the first parameter, the second parameter, and the third parameter so as to maximize the likelihood of the first parameter, the second parameter, and the third parameter.
  • the determination unit 15 decomposes the inverse matrix of the matrix related to frequency and time into the inverse matrix of the matrix related to frequency, and sets the first parameter, the second parameter, and the third parameter so as to maximize the likelihood. decide. The details of the processing by the determination unit 15 will be described later.
  • the amount of calculation can be reduced and the acoustic signal of the target sound source can be separated at higher speed.
  • the determination unit 15 decomposes the inverse matrix of the frequency matrix into a pseudo-inverse matrix of the frequency matrix, and determines the first parameter, the second parameter, and the third parameter so as to maximize the likelihood. ..
  • the amount of calculation can be further reduced and the acoustic signal of the target sound source can be separated at a higher speed.
  • FIG. 2 is a diagram showing a physical configuration of the acoustic analysis device 10 according to the present embodiment.
  • the acoustic analysis device 10 includes a CPU (Central Processing Unit) 10a corresponding to a calculation unit, a RAM (Random Access Memory) 10b corresponding to a storage unit, a ROM (Read only Memory) 10c corresponding to a storage unit, and a communication unit. It has 10d, an input unit 10e, and an audio output unit 10f. Each of these configurations is connected to each other via a bus so that data can be transmitted and received.
  • the acoustic analysis device 10 is composed of one computer will be described, but the acoustic analysis device 10 may be realized by combining a plurality of computers.
  • the configuration shown in FIG. 2 is an example, and the acoustic analysis device 10 may have configurations other than these, or may not have a part of these configurations.
  • the CPU 10a is a control unit that controls execution of a program stored in the RAM 10b or ROM 10c, calculates data, and processes data.
  • the CPU 10a is a calculation unit that executes a program (acoustic analysis program) that separates the acoustic signals of the target sound source from the acoustic signals measured by a plurality of microphones.
  • the CPU 10a receives various data from the input unit 10e and the communication unit 10d, outputs the calculation result of the data in the voice output unit 10f, or stores the data in the RAM 10b.
  • the RAM 10b is a storage unit in which data can be rewritten, and may be composed of, for example, a semiconductor storage element.
  • the RAM 10b may store data such as a program executed by the CPU 10a and an acoustic signal. It should be noted that these are examples, and data other than these may be stored in the RAM 10b, or a part of these may not be stored.
  • the ROM 10c is a storage unit capable of reading data, and may be composed of, for example, a semiconductor storage element.
  • the ROM 10c may store, for example, an acoustic analysis program or data that is not rewritten.
  • the communication unit 10d is an interface for connecting the acoustic analysis device 10 to another device.
  • the communication unit 10d may be connected to a communication network such as the Internet.
  • the input unit 10e receives data input from the user, and may include, for example, a keyboard and a touch panel.
  • the voice output unit 10f outputs the voice analysis result obtained by the calculation by the CPU 10a, and may be configured by, for example, a speaker.
  • the audio output unit 10f may output an acoustic signal of a target sound source separated from the acoustic signals measured by a plurality of microphones.
  • the audio output unit 10f may output an acoustic signal to another computer.
  • the acoustic analysis program may be stored in a storage medium readable by a computer such as RAM 10b or ROM 10c and provided, or may be provided via a communication network connected by the communication unit 10d.
  • the CPU 10a executes the acoustic analysis program to realize various operations described with reference to FIG. It should be noted that these physical configurations are examples and do not necessarily have to be independent configurations.
  • the acoustic analysis device 10 may include an LSI (Large-Scale Integration) in which the CPU 10a and the RAM 10b or ROM 10c are integrated.
  • FIG. 3 is a diagram showing an outline of a separation matrix calculated by the acoustic analysis device 10 according to the present embodiment.
  • the acoustic signals (sound source signals) emitted from the plurality of sound sources are mixed by a mixing system determined according to the surrounding environment and the arrangement of the microphones 20.
  • the complex time frequency component of the acoustic signal emitted from a plurality of sound sources is represented by an N-dimensional vector as s ij, and the microphone.
  • x ij a i s ij.
  • N is the number of sound sources.
  • Ai ( ai, 1 , ai, 2 , ..., Ai, N ) is called a mixed matrix, which is a complex matrix of M ⁇ N.
  • a i and n are called steering vectors and are M-dimensional vectors.
  • M is the number of microphones 20.
  • the first calculation unit 12 uses the ILRMA, may calculate the separation matrix W i.
  • the first generation unit 13 When expressed as (u) , the first generation unit 13 generates an acoustic signal uij of diffusive noise by the first model 13a represented by the following mathematical formula (1).
  • the second generation is generated.
  • the part 14 generates the acoustic signal hij emitted from the target sound source by the second model 14a represented by the following mathematical formula (2).
  • the first parameter before update is represented by ⁇ i with tilde
  • the second parameter before update is represented by r ij (u) with tilde
  • the third parameter before update is represented by r ij (h) with tilde.
  • the determination unit 15 sufficiently calculates the statistics rij (h) and Rij (u) by the following mathematical formula (3).
  • the mathematical formula (3) corresponds to the E step when the first parameter, the second parameter, and the third parameter are calculated by the EM (expectation-maximization) method.
  • the determination unit 15 updates the first parameter ⁇ i , the second parameter r ij (u), and the third parameter r ij (h) by the following mathematical formula (4).
  • the mathematical formula (4) corresponds to the M step when the first parameter, the second parameter, and the third parameter are calculated by the EM method.
  • the determination unit 15 decomposes the inverse matrix of the matrix R ij (x) relating to frequency and time into the inverse matrix of the matrix R i (u) relating to frequency by the following mathematical formula (5). ..
  • R ij (x) has a component related to time j, but the right-hand side of the equation (5) contains only the inverse matrix of R i (u) , has only a component related to frequency, and has no component related to time j. ..
  • the amount of calculation is reduced from O (IJM 3 ) to O (IM 3 + IJM 2 ).
  • Determining unit 15 decomposes when updating, by the following equation (6), an inverse matrix of the matrix for the frequency R i (u), the pseudo-inverse matrix of the matrix related to the frequency (R 'i (u)) in the + ..
  • R 'i (u), the first parameter lambda i is an amount that is independent of the second parameter r ij (u) and the third parameter r ij (h), calculating a spatial correlation matrix W i by ILRMA It is an amount that is determined by doing. Further, an amount determined by b i also ILRMA the orthogonal complement vectors of R 'i (u). Therefore, the calculation of the mathematical formula (6) can be performed at high speed by using the amount determined by the ILRMA calculated at the first time. As a result, the amount of calculation is reduced to O (IJ).
  • the normal distribution is used as the first model 13a and the second model 14a, but as a model for generating the acoustic signal x ij measured by the microphone 20, for example, a multivariate complex generalized Gaussian distribution is used. May be good.
  • the EM method is used as the algorithm for maximizing the likelihood of the parameters, but the ME (majorization-equalization) method or the MM (majorization-minimization) method may be used. ..
  • FIG. 4 is a diagram showing a configuration of an experiment in which an acoustic signal emitted from a target sound source is separated by the acoustic analysis device 10 according to the present embodiment.
  • a plurality of speakers 50 that generate noise signals are arranged at intervals of 10 ° on a circumference with a radius of 1.5 m centered on the microphone 20, and the speakers 51 that generate the acoustic signal of the target sound source are arranged by the microphone.
  • four microphones 20 are arranged at equal intervals in a range of 6.45 cm.
  • the target sound source in this experiment is a human voice, and the noise is also a human voice.
  • This experiment is a task to reproduce the so-called cocktail party effect, in which the voice of a specific person is selectively listened to in a situation where many people are speaking.
  • FIG. 5 is a diagram showing the separation performance when the acoustic signal emitted from the target sound source is separated by the acoustic analysis device 10 according to the present embodiment.
  • the SDR source-to-distortion ratio
  • the SDR is shown on the vertical axis as an evaluation index
  • the elapsed time is shown on a logarithmic scale on the horizontal axis. The higher the SDR, the better the audio separation.
  • the graph G0 when ILRMA is used the graph G1 when the acoustic analysis device 10 according to the present embodiment is used, and the case where only the inverse matrix factorization is performed by the acoustic analysis device 10 according to the present embodiment.
  • the graph G2 of (when the decomposition of the pseudo-inverse matrix is not performed) and the graph G3 of the case where neither the decomposition of the inverse matrix nor the decomposition of the pseudo-inverse matrix is performed in the acoustic analysis apparatus 10 according to the present embodiment are shown. ..
  • the acoustic analysis device 10 according to the present embodiment is able to achieve the maximum SDR faster than in any of the other cases.
  • the time required to achieve the maximum value of SDR by the acoustic analysis apparatus 10 according to the present embodiment is only slightly longer than the execution time of ILRMA, and is based on the EM method of the first parameter, the second parameter, and the third parameter. It can be read that the calculation is immediately converged. Since the graph G2 and the graph G3 do not perform the decomposition of the pseudo-inverse matrix, or do not perform the decomposition of the inverse matrix and the decomposition of the pseudo-inverse matrix, it takes time to calculate, but the acoustic according to the present embodiment. An SDR equivalent to that of the analyzer 10 can be achieved.
  • the target sound source can be separated at a higher speed and with higher accuracy than the conventional method.
  • FIG. 6 is a diagram showing a calculation time when an acoustic signal emitted from a target sound source is separated by the acoustic analysis device 10 according to the present embodiment.
  • the present embodiment decomposition of the inverse matrix
  • the present embodiment decomposition of the inverse matrix and the pseudo-inverse matrix
  • the calculation time when separated is shown.
  • the first comparative example is FastMNMF, and the calculation time is about 0.7 seconds.
  • the second comparative example is a case where the acoustic analysis apparatus 10 according to the present embodiment does not perform the decomposition of the inverse matrix or the decomposition of the pseudo-inverse matrix, and the calculation time is about 5 seconds.
  • the calculation time is about 0.8 seconds, and the inverse matrix factorization and the pseudo-inverse matrix are performed in the acoustic analysis device 10 according to the present embodiment.
  • the calculation time is about 0.06 seconds.
  • the calculation amount is O (IJM 3 ), and when only the inverse matrix factorization is performed, the calculation amount is O (IM). 3 + IJM 2 ), and when the inverse matrix factorization and the pseudo-inverse matrix factorization are performed, the amount of calculation is O (IJ).
  • the target sound source can be separated at high speed. Specifically, the acoustic analysis device 10 according to the present embodiment can separate the target sound source about 12 times faster than the FastMNMF, and its accuracy is also higher than that of the FastMNMF.
  • FIG. 7 is a flowchart of the acoustic separation process executed by the acoustic analysis device 10 according to the present embodiment.
  • the acoustic analysis device 10 acquires acoustic signals measured by a plurality of microphones 20 (S10).
  • the acoustic analysis apparatus 10 calculates the separation matrix by ILRMA (S11), and calculates the spatial correlation matrix of rank M-1 and the orthogonal complement space vector based on the separation matrix (S12). Further, the acoustic analysis device 10 generates an acoustic signal of diffusive noise by the first model including the spatial correlation matrix, the orthogonal complement space vector, the first parameter and the second parameter (S13), and the steering vector and the third parameter.
  • the acoustic signal emitted from the target sound source is generated by the second model including (S14).
  • the acoustic analyzer 10 decomposes the inverse matrix of the matrix related to frequency and time into the inverse matrix of the matrix related to frequency, decomposes it into a pseudo-inverse matrix, and sufficiently calculates the statistic (S15). This process corresponds to the E step of the EM method.
  • the acoustic analysis device 10 updates the first parameter, the second parameter, and the third parameter so as to maximize the likelihood (S16). This process corresponds to the M step of the EM method.
  • the acoustic analysis device 10 executes the processes S15 and S16 again. Convergence may be determined by whether the difference in likelihood before and after updating the parameter is less than or equal to a predetermined value.
  • the acoustic analyzer 10 When the first parameter, the second parameter, and the third parameter have converged (S17: YES), the acoustic analyzer 10 generates an acoustic signal emitted from the target sound source by the second model (S18), and finally. Audio output.
  • 10 ... Acoustic analyzer 10a ... CPU, 10b ... RAM, 10c ... ROM, 10d ... Communication unit, 10e ... Input unit, 10f ... Audio output unit, 11 ... Acquisition unit, 12 ... First calculation unit, 13 ... First Generation unit, 13a ... 1st model, 14 ... 2nd generation unit, 14a ... 2nd model, 15 ... determination unit, 20 ... microphone, 50, 51 ... speaker

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Quality & Reliability (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Measurement Of Mechanical Vibrations Or Ultrasonic Waves (AREA)
  • Circuit For Audible Band Transducer (AREA)

Abstract

目的音源の音響信号をより高速に分離することができる音響解析装置等を提供する。音響解析装置は、音響信号を取得する取得部と、周波数に関する空間相関行列、周波数に関する第1パラメータ並びに周波数及び時間に関する第2パラメータを含む第1モデルによって、拡散性雑音の音響信号を生成する第1生成部と、周波数に関するステアリングベクトル並びに周波数及び時間に関する第3パラメータを含む第2モデルによって、目的音源から発せられた音響信号を生成する第2生成部と、第1パラメータ、第2パラメータ及び第3パラメータを、第1パラメータ、第2パラメータ及び第3パラメータの尤度を最大化するように決定する決定部と、を備え、決定部は、周波数及び時間に関する行列の逆行列を、周波数に関する行列の逆行列に分解して、尤度を最大化するように、第1パラメータ、第2パラメータ及び第3パラメータを決定する。

Description

音響解析装置、音響解析方法及び音響解析プログラム 関連出願の相互参照
 本出願は、2019年12月5日に出願された特願2019-220584号に基づくもので、ここにその記載内容を援用する。
 本発明は、音響解析装置、音響解析方法及び音響解析プログラムに関する。
 従来、複数の音源から発せられ混合した音響信号を、複数のマイクロホンにより測定した場合に、音源や混合系の事前情報なしに元の信号へ分離する「ブラインド音源分離」が研究されている。ブラインド音源分離の手法の一つとして、非特許文献1及び2に記載の手法が知られている。
 非特許文献1及び2に記載の手法は、ILRMA(Independent Low-Rank Matrix Analysis)と略称され、比較的高い精度で、安定的に信号を分離することができる。
D. Kitamura, N. Ono, H. Sawada, H. Kameoka, and H. Saruwatari, "Determined blind source separation unifying independent vector analysis and nonnegative matrix factorization," IEEE/ACM Trans. ASLP, vol. 24, no. 9, pp. 1626-1641, 2016. D. Kitamura, N. Ono, H. Sawada, H. Kameoka, and H. Saruwatari, "Determined blind source separation with independent low-rank matrix analysis," in Audio Source Separation, S. Makino, Ed. Cham: Springer, 2018, pp. 125-155.
 ILRMAは、異なる方角から発せられる音響信号を分離することができる。しかしながら、1つの目的音源から発せられる音響信号と、全方位から発せられる雑音信号とが混合する場合、ILRMAでは、目的音源の音響信号と、その方位の雑音信号とが混合した信号が分離されるにとどまり、目的音源の音響信号のみを分離することはできない。
 そこで、本発明は、目的音源の音響信号をより高速に分離することができる音響解析装置、音響解析方法及び音響解析プログラムを提供する。
 本発明の一態様に係る音響解析装置は、複数のマイクにより測定した音響信号を取得する取得部と、音響信号を、複数の音源から発せられる音響信号の推定値に分離する分離行列を算出する第1算出部と、分離行列により定められ、周波数に関する空間相関行列、周波数に関する第1パラメータ並びに周波数及び時間に関する第2パラメータを含む第1モデルによって、拡散性雑音の音響信号を生成する第1生成部と、分離行列により定められ、周波数に関するステアリングベクトル並びに周波数及び時間に関する第3パラメータを含む第2モデルによって、目的音源から発せられた音響信号を生成する第2生成部と、第1パラメータ、第2パラメータ及び第3パラメータを、第1パラメータ、第2パラメータ及び第3パラメータの尤度を最大化するように決定する決定部と、を備え、決定部は、周波数及び時間に関する行列の逆行列を、周波数に関する行列の逆行列に分解して、尤度を最大化するように、第1パラメータ、第2パラメータ及び第3パラメータを決定する。
 この態様によれば、周波数及び時間に関する行列の逆行列を、周波数に関する行列の逆行列に分解することで、演算量を削減して、目的音源の音響信号をより高速に分離することができる。
 本発明の他の態様に係る音響解析方法は、音響解析装置に備えられたプロセッサによって、複数のマイクにより測定した音響信号を取得することと、音響信号を、複数の音源から発せられる音響信号の推定値に分離する分離行列を算出することと、分離行列により定められ、周波数に関する空間相関行列、周波数に関する第1パラメータ並びに周波数及び時間に関する第2パラメータを含む第1モデルによって、拡散性雑音の音響信号を生成することと、分離行列により定められ、周波数に関するステアリングベクトル並びに周波数及び時間に関する第3パラメータを含む第2モデルによって、目的音源から発せられた音響信号を生成することと、第1パラメータ、第2パラメータ及び第3パラメータを、第1パラメータ、第2パラメータ及び第3パラメータの尤度を最大化するように決定することと、を含み、周波数及び時間に関する行列の逆行列を、周波数に関する行列の逆行列に分解して、尤度を最大化するように、第1パラメータ、第2パラメータ及び第3パラメータを決定する、音響解析方法。
 この態様によれば、周波数及び時間に関する行列の逆行列を、周波数に関する行列の逆行列に分解することで、演算量を削減して、目的音源の音響信号をより高速に分離することができる。
 本発明の他の態様に係る音響解析プログラムは、音響解析装置に備えられたプロセッサを、複数のマイクにより測定した音響信号を取得する取得部、音響信号を、複数の音源から発せられる音響信号の推定値に分離する分離行列を算出する第1算出部、分離行列により定められ、周波数に関する空間相関行列、周波数に関する第1パラメータ並びに周波数及び時間に関する第2パラメータを含む第1モデルによって、拡散性雑音の音響信号を生成する第1生成部、分離行列により定められ、周波数に関するステアリングベクトル並びに周波数及び時間に関する第3パラメータを含む第2モデルによって、目的音源から発せられた音響信号を生成する第2生成部、及び第1パラメータ、第2パラメータ及び第3パラメータを、第1パラメータ、第2パラメータ及び第3パラメータの尤度を最大化するように決定する決定部、として機能させ、決定部は、周波数及び時間に関する行列の逆行列を、周波数に関する行列の逆行列に分解して、尤度を最大化するように、第1パラメータ、第2パラメータ及び第3パラメータを決定する、音響解析プログラム。
 この態様によれば、周波数及び時間に関する行列の逆行列を、周波数に関する行列の逆行列に分解することで、演算量を削減して、目的音源の音響信号をより高速に分離することができる。
 本発明によれば、目的音源の音響信号をより高速に分離することができる音響解析装置、音響解析方法及び音響解析プログラムを提供することができる。
本発明の実施形態に係る音響解析装置の機能ブロックを示す図である。 本実施形態に係る音響解析装置の物理的構成を示す図である。 本実施形態に係る音響解析装置により算出される分離行列の概要を示す図である。 本実施形態に係る音響解析装置により目的音源から発せられる音響信号を分離する実験の構成を示す図である。 本実施形態に係る音響解析装置により目的音源から発せられる音響信号を分離した場合の分離性能を示す図である。 本実施形態に係る音響解析装置により目的音源から発せられる音響信号を分離した場合の演算時間を示す図である。 本実施形態に係る音響解析装置により実行される音響分離処理のフローチャートである。
 添付図面を参照して、本発明の実施形態について説明する。なお、各図において、同一の符号を付したものは、同一又は同様の構成を有する。
 図1は、本発明の実施形態に係る音響解析装置10の機能ブロックを示す図である。音響解析装置10は、取得部11と、第1算出部12と、第1生成部13と、第2生成部14と、決定部15とを備える。
 取得部11は、複数のマイク20により測定した音響信号を取得する。取得部11は、複数のマイク20により測定され、記憶部に記憶された音響信号を、記憶部から取得してもよいし、複数のマイク20により測定している音響信号をリアルタイムで取得してもよい。
 第1算出部12は、音響信号を、複数の音源から発せられる音響信号の推定値に分離する分離行列を算出する。分離行列については、図3を用いて説明する。
 第1生成部13は、分離行列により定められ、周波数に関する空間相関行列、周波数に関する第1パラメータ並びに周波数及び時間に関する第2パラメータを含む第1モデル13aによって、拡散性雑音の音響信号を生成する。第1モデル13aによって、拡散性雑音の音響信号を生成する処理については、後に詳細に説明する。
 第2生成部14は、分離行列により定められ、周波数に関するステアリングベクトル並びに周波数及び時間に関する第3パラメータを含む第2モデルによって、目的音源から発せられた音響信号を生成する。第2モデル14aによって、目的音源から発せられた音響信号を生成する処理については、後に詳細に説明する。
 第1生成部13は、拡散性雑音の音響信号uijを生成し、第2生成部14は、目的音源から発せられた音響信号hijを生成する。音響解析装置10は、マイク20で測定された音響信号xijと、生成した音響信号との関係がxij=hij+uijとなるように、第1モデル13aに含まれる第1パラメータ及び第2パラメータと、第2モデル14aに含まれる第3パラメータとを決定する。
 決定部15は、第1パラメータ、第2パラメータ及び第3パラメータを、第1パラメータ、第2パラメータ及び第3パラメータの尤度を最大化するように決定する。ここで、決定部15は、周波数及び時間に関する行列の逆行列を、周波数に関する行列の逆行列に分解して、尤度を最大化するように、第1パラメータ、第2パラメータ及び第3パラメータを決定する。決定部15による処理の詳細は、後に説明する。
 このように、周波数及び時間に関する行列の逆行列を、周波数に関する行列の逆行列に分解することで、演算量を削減して、目的音源の音響信号をより高速に分離することができる。
 また、決定部15は、周波数に関する行列の逆行列を、周波数に関する行列の疑似逆行列に分解して、尤度を最大化するように、第1パラメータ、第2パラメータ及び第3パラメータを決定する。このように、周波数に関する行列の逆行列を、周波数に関する行列の疑似逆行列に分解することで、演算量をさらに削減して、目的音源の音響信号をさらに高速に分離することができる。
 図2は、本実施形態に係る音響解析装置10の物理的構成を示す図である。音響解析装置10は、演算部に相当するCPU(Central Processing Unit)10aと、記憶部に相当するRAM(Random Access Memory)10bと、記憶部に相当するROM(Read only Memory)10cと、通信部10dと、入力部10eと、音声出力部10fと、を有する。これらの各構成は、バスを介して相互にデータ送受信可能に接続される。なお、本例では音響解析装置10が一台のコンピュータで構成される場合について説明するが、音響解析装置10は、複数のコンピュータが組み合わされて実現されてもよい。また、図2で示す構成は一例であり、音響解析装置10はこれら以外の構成を有してもよいし、これらの構成のうち一部を有さなくてもよい。
 CPU10aは、RAM10b又はROM10cに記憶されたプログラムの実行に関する制御やデータの演算、加工を行う制御部である。CPU10aは、複数のマイクで測定した音響信号から、対象音源の音響信号を分離するプログラム(音響解析プログラム)を実行する演算部である。CPU10aは、入力部10eや通信部10dから種々のデータを受け取り、データの演算結果を音声出力部10fで出力したり、RAM10bに格納したりする。
 RAM10bは、記憶部のうちデータの書き換えが可能なものであり、例えば半導体記憶素子で構成されてよい。RAM10bは、CPU10aが実行するプログラム、音響信号といったデータを記憶してよい。なお、これらは例示であって、RAM10bには、これら以外のデータが記憶されていてもよいし、これらの一部が記憶されていなくてもよい。
 ROM10cは、記憶部のうちデータの読み出しが可能なものであり、例えば半導体記憶素子で構成されてよい。ROM10cは、例えば音響解析プログラムや、書き換えが行われないデータを記憶してよい。
 通信部10dは、音響解析装置10を他の機器に接続するインターフェースである。通信部10dは、インターネット等の通信ネットワークに接続されてよい。
 入力部10eは、ユーザからデータの入力を受け付けるものであり、例えば、キーボード及びタッチパネルを含んでよい。
 音声出力部10fは、CPU10aによる演算で得られた音声解析結果を出力するものであり、例えば、スピーカにより構成されてよい。音声出力部10fは、複数のマイクで測定された音響信号から分離された目的音源の音響信号を出力してよい。音声出力部10fは、他のコンピュータに音響信号を出力してもよい。
 音響解析プログラムは、RAM10bやROM10c等のコンピュータによって読み取り可能な記憶媒体に記憶されて提供されてもよいし、通信部10dにより接続される通信ネットワークを介して提供されてもよい。音響解析装置10では、CPU10aが音響解析プログラムを実行することにより、図1を用いて説明した様々な動作が実現される。なお、これらの物理的な構成は例示であって、必ずしも独立した構成でなくてもよい。例えば、音響解析装置10は、CPU10aとRAM10bやROM10cが一体化したLSI(Large-Scale Integration)を備えていてもよい。
 図3は、本実施形態に係る音響解析装置10により算出される分離行列の概要を示す図である。複数の音源から発せられた音響信号(音源信号)は、周囲の環境やマイク20の配置に応じて定まる混合系によって混合される。周波数をi(i=1~I)と表し、時間をj(j=1~J)と表し、複数の音源から発せられる音響信号の複素時間周波数成分をN次元ベクトルでsijと表し、マイク20で測定される音響信号(観測信号)の複素時間周波数成分をM次元ベクトルでxijと表すとき、xij=Aijと表される。ここで、Nは音源の数である。また、A=(ai,1,ai,2,…,ai,N)は混合行列と呼ばれ、M×Nの複素行列である。ai,nはステアリングベクトルと呼ばれ、M次元のベクトルである。ここで、Mはマイク20の数である。
 第1算出部12は、xijが与えられた場合に、分離行列W=A -1を推定する。ここで、推定信号は、yij=Wijであり、yijによってsijを再現する。
 第1算出部12は、ILRMAを用いて、分離行列Wを算出してよい。ILRMAでは、M=NかつAが正則であることが条件となる。本実施形態に係る音響解析装置10では、M=NかつAが正則であることを前提とする。
 ランクM-1の空間相関行列をR′ (u)と表し、R′ (u)の直交補空間ベクトルをbと表し、第1パラメータをλと表し、第2パラメータをrij (u)と表すとき、第1生成部13は、以下の数式(1)により表される第1モデル13aによって、拡散性雑音の音響信号uijを生成する。
Figure JPOXMLDOC01-appb-M000007
 また、ステアリングベクトルをa (h)と表し、第3パラメータをrij (h)と表し、ハイパーパラメータα及びβで定められる逆ガンマ分布をIg(α,β)と表すとき、第2生成部14は、以下の数式(2)により表される第2モデル14aによって、目的音源から発せられた音響信号hijを生成する。ここで、ハイパーパラメータα,βは、例えば、α=1.1、β=10-16としてよい。
Figure JPOXMLDOC01-appb-M000008
 更新前の第1パラメータをチルダ付きのλで表し、更新前の第2パラメータをチルダ付きのrij (u)で表し、更新前の第3パラメータをチルダ付きのrij (h)で表すとき、決定部15は、以下の数式(3)により、十分統計量rij (h)及びRij (u)を算出する。数式(3)は、第1パラメータ、第2パラメータ及び第3パラメータをEM(expectation-maximization)法で算出する場合のEステップに相当する。
Figure JPOXMLDOC01-appb-M000009
 そして、決定部15は、以下の数式(4)により、第1パラメータλ、第2パラメータrij (u)及び第3パラメータrij (h)を更新する。数式(4)は、第1パラメータ、第2パラメータ及び第3パラメータをEM法で算出する場合のMステップに相当する。
Figure JPOXMLDOC01-appb-M000010
 ここで、決定部15は、更新の際に、以下の数式(5)によって、周波数及び時間に関する行列Rij (x)の逆行列を、周波数に関する行列R (u)の逆行列に分解する。
Figure JPOXMLDOC01-appb-M000011
 Rij (x)は、時間jに関する成分を有するが、数式(5)の右辺は、R (u)の逆行列だけを含み、周波数に関する成分のみ有し、時間jに関する成分を有さない。これにより、演算量がO(IJM)からO(IM+IJM)に削減される。
 決定部15は、更新の際に、以下の数式(6)によって、周波数に関する行列R (u)の逆行列を、周波数に関する行列の疑似逆行列(R′ (u)に分解する。
Figure JPOXMLDOC01-appb-M000012
 ここで、R′ (u)は、第1パラメータλ、第2パラメータrij (u)及び第3パラメータrij (h)に依存しない量であり、ILRMAによって空間相関行列Wを算出することで定まる量である。また、R′ (u)の直交補空間ベクトルをbもILRMAによって定まる量である。そのため、数式(6)の演算は、初回に計算したILRMAによって定まる量を用いることで高速に行うことができる。これにより、演算量がO(IJ)まで削減される。
 本実施形態では、第1モデル13a及び第2モデル14aとして正規分布を用いているが、マイク20で測定された音響信号xijを生成するモデルとして、例えば多変量複素一般化ガウス分布を用いてもよい。また、本実施形態では、パラメータの尤度を最大化するアルゴリズムとしてEM法を用いているが、ME(majorization-equalization)法を用いたり、MM(majorization-minimization)法を用いたりしてもよい。
 図4は、本実施形態に係る音響解析装置10により目的音源から発せられる音響信号を分離する実験の構成を示す図である。本実験では、雑音信号を発生させる複数のスピーカ50を、マイク20を中心とした半径1.5mの円周上に10°間隔で配置し、対象音源の音響信号を発生させるスピーカ51を、マイク20から1.0の距離に所定の方位で配置する。本本実験では、4つのマイク20を6.45cmの範囲に等間隔に配置している。なお、本実験における対象音源は、人の話し声であり、雑音も同様に人の話し声である。本実験は、多くの人が話している状況で特定の人の話し声を選択に聴取する、いわゆるカクテルパーティー効果を再現するタスクである。
 図5は、本実施形態に係る音響解析装置10により目的音源から発せられる音響信号を分離した場合の分離性能を示す図である。同図では、E. Vincent, R. Gribonval, and C. Fevotte, “Performance measurement in blind audio source separation,” IEEE Trans. ASLP, vol. 14, no. 4, pp. 1462-1469, 2006.により提案されたSDR(source-to-distortion ratio)を評価指標として縦軸に示し、横軸に経過時間を対数スケールで示している。SDRが高いほど、音声がより良く分離されていることを表す。
 同図では、ILRMAを用いた場合のグラフG0と、本実施形態に係る音響解析装置10を用いた場合のグラフG1と、本実施形態に係る音響解析装置10において逆行列の分解のみ行った場合(疑似逆行列の分解は行わなかった場合)のグラフG2と、本実施形態に係る音響解析装置10において逆行列の分解も疑似逆行列の分解も行わなかった場合のグラフG3とを示している。また、同図では、K. Sekiguchi, A. A. Nugraha, Y. Bando, and K. Yoshii, “Fast multichannel source separation based on jointly diagonalizable spatial covariance matrices,” CoRR, vol. abs/1903.03237, 2019.で提案されたFastMNMFと呼ばれる手法及びILRMAを用いた場合のグラフG4と、FastMNMFのみ用いた場合のグラフG5とを示している。また、「ILRMA initialization」と記載された区間は、ILRMAのアルゴリズムの実行時間を示している。
 グラフG1によれば、本実施形態に係る音響解析装置10は、他のいずれの場合よりも早く最大のSDRを達成することができている。本実施形態に係る音響解析装置10によってSDRの最大値を達成するまでの時間は、ILRMAの実行時間よりも僅かに長いだけであり、第1パラメータ、第2パラメータ及び第3パラメータのEM法による算出は、すぐに収束していることが読み取れる。なお、グラフG2及びグラフG3は、疑似逆行列の分解を行わなかったり、逆行列の分解及び疑似逆行列の分解を行わなかったりする場合なので、計算に時間を要するが、本実施形態に係る音響解析装置10と同等のSDRを達成することができる。
 一方、FastMNMFを用いた場合を示すグラフG4及びグラフG5は、SDRの上昇に比較的長時間を要し、その最大値は本実施形態に係る音響解析装置10場合よりも低い。
 このように、本実施形態に係る音響解析装置10によれば、従来法よりも高速かつ高精度で対象音源を分離することができる。
 図6は、本実施形態に係る音響解析装置10により目的音源から発せられる音響信号を分離した場合の演算時間を示す図である。同図では、第1比較例、第2比較例、本実施形態(逆行列の分解)及び本実施形態(逆行列の分解及び疑似逆行列)の場合について、それぞれ目的音源から発せられる音響信号を分離した場合の演算時間を示している。
 第1比較例は、FastMNMFであり、演算時間は0.7秒程度である。また、第2比較例は、本実施形態に係る音響解析装置10において逆行列の分解も疑似逆行列の分解も行わない場合であり、演算時間は5秒程度である。
 一方、本実施形態に係る音響解析装置10において逆行列の分解のみ行う場合、演算時間は0.8秒程度であり、本実施形態に係る音響解析装置10において逆行列の分解及び疑似逆行列の分解を行う場合、演算時間は0.06秒程度となる。
 本実施形態に係る音響解析装置10において逆行列の分解も疑似逆行列の分解も行わない場合、演算量はO(IJM)であり、逆行列の分解のみ行う場合、演算量はO(IM+IJM)であり、逆行列の分解及び疑似逆行列の分解を行う場合、演算量はO(IJ)となる。このように、本実施形態に係る音響解析装置10によれば、演算量をO(IJ)まで削減して音源の数(M=N)に依存しない量とすることができ、従来法よりも高速に対象音源を分離することができる。具体的には、本実施形態に係る音響解析装置10は、FastMNMFよりも約12倍高速に対象音源を分離することができ、その精度もFastMNMFより高い。
 図7は、本実施形態に係る音響解析装置10により実行される音響分離処理のフローチャートである。はじめに、音響解析装置10は、複数のマイク20により測定した音響信号を取得する(S10)。
 次に、音響解析装置10は、ILRMAにより、分離行列を算出し(S11)、分離行列に基づき、ランクM-1の空間相関行列及び直交補空間ベクトルを算出する(S12)。また、音響解析装置10は、空間相関行列、直交補空間ベクトル、第1パラメータ及び第2パラメータを含む第1モデルによって、拡散性雑音の音響信号を生成し(S13)、ステアリングベクトル及び第3パラメータを含む第2モデルによって、目的音源から発せられた音響信号を生成する(S14)。
 さらに、音響解析装置10は、周波数及び時間に関する行列の逆行列を、周波数に関する行列の逆行列に分解し、疑似逆行列に分解して、十分統計量を算出する(S15)。この処理は、EM法のEステップに相当する。
 また、音響解析装置10は、尤度を最大化するように、第1パラメータ、第2パラメータ及び第3パラメータを更新する(S16)。この処理は、EM法のMステップに相当する。
 第1パラメータ、第2パラメータ及び第3パラメータが収束していない場合(S17:NO)、音響解析装置10は、処理S15及びS16を再び実行する。収束は、パラメータを更新する前後における尤度の差が所定値以下であるかどうかによって判定してよい。
 第1パラメータ、第2パラメータ及び第3パラメータが収束した場合(S17:YES)、音響解析装置10は、第2モデルによって、目的音源から発せられた音響信号を生成し(S18)、最終的な音声出力とする。
 以上説明した実施形態は、本発明の理解を容易にするためのものであり、本発明を限定して解釈するためのものではない。実施形態が備える各要素並びにその配置、材料、条件、形状及びサイズ等は、例示したものに限定されるわけではなく適宜変更することができる。また、異なる実施形態で示した構成同士を部分的に置換し又は組み合わせることが可能である。
 10…音響解析装置、10a…CPU、10b…RAM、10c…ROM、10d…通信部、10e…入力部、10f…音声出力部、11…取得部、12…第1算出部、13…第1生成部、13a…第1モデル、14…第2生成部、14a…第2モデル、15…決定部、20…マイク、50,51…スピーカ
 

Claims (8)

  1.  複数のマイクにより測定した音響信号を取得する取得部と、
     前記音響信号を、複数の音源から発せられる音響信号の推定値に分離する分離行列を算出する第1算出部と、
     前記分離行列により定められ、周波数に関する空間相関行列、前記周波数に関する第1パラメータ並びに前記周波数及び時間に関する第2パラメータを含む第1モデルによって、拡散性雑音の音響信号を生成する第1生成部と、
     前記分離行列により定められ、前記周波数に関するステアリングベクトル並びに前記周波数及び前記時間に関する第3パラメータを含む第2モデルによって、目的音源から発せられた音響信号を生成する第2生成部と、
     前記第1パラメータ、前記第2パラメータ及び前記第3パラメータを、前記第1パラメータ、前記第2パラメータ及び前記第3パラメータの尤度を最大化するように決定する決定部と、を備え、
     前記決定部は、前記周波数及び前記時間に関する行列の逆行列を、前記周波数に関する行列の逆行列に分解して、前記尤度を最大化するように、前記第1パラメータ、前記第2パラメータ及び前記第3パラメータを決定する、
     音響解析装置。
  2.  前記決定部は、前記周波数に関する行列の逆行列を、前記周波数に関する行列の疑似逆行列に分解して、前記尤度を最大化するように、前記第1パラメータ、前記第2パラメータ及び前記第3パラメータを決定する、
     請求項1に記載の音響解析装置。
  3.  前記周波数をiと表し、前記時間をjと表し、前記音響信号をxijと表し、前記分離行列をWと表し、ランクM-1の前記空間相関行列をR′ (u)と表し、前記R′ (u)の直交補空間ベクトルをbと表し、前記第1パラメータをλと表し、前記第2パラメータをrij (u)と表すとき、
     前記第1生成部は、以下の数式(1)により表される前記第1モデルによって、前記拡散性雑音の音響信号uijを生成する、
    Figure JPOXMLDOC01-appb-M000001
     請求項1又は2に記載の音響解析装置。
  4.  前記周波数をiと表し、前記時間をjと表し、前記ステアリングベクトルをa (h)と表し、前記第3パラメータをrij (h)と表し、ハイパーパラメータα及びβで定められる逆ガンマ分布をIg(α,β)と表すとき、
     前記第2生成部は、以下の数式(2)により表される前記第2モデルによって、前記目的音源から発せられた音響信号hijを生成する、
    Figure JPOXMLDOC01-appb-M000002
     請求項1から3のいずれか一項に記載の音響解析装置。
  5.  前記決定部は、更新前の前記第1パラメータをチルダ付きのλで表し、更新前の前記第2パラメータをチルダ付きのrij (u)で表し、更新前の前記第3パラメータをチルダ付きのrij (h)で表すとき、以下の数式(3)により、十分統計量rij (h)及びRij (u)を算出し、
    Figure JPOXMLDOC01-appb-M000003
     以下の数式(4)により、前記第1パラメータλ、前記第2パラメータrij (u)及び前記第3パラメータrij (h)を更新し、
    Figure JPOXMLDOC01-appb-M000004
     更新の際に、以下の数式(5)によって、前記周波数及び前記時間に関する行列Rij (x)の逆行列を、前記周波数に関する行列R (u)の逆行列に分解する、
    Figure JPOXMLDOC01-appb-M000005
     請求項3又は4に記載の音響解析装置。
  6.  前記決定部は、更新の際に、以下の数式(6)によって、前記周波数に関する行列R (u)の逆行列を、前記周波数に関する行列の疑似逆行列(R′ (u)に分解する、
    Figure JPOXMLDOC01-appb-M000006
     請求項5に記載の音響解析装置。
  7.  音響解析装置に備えられたプロセッサによって、
     複数のマイクにより測定した音響信号を取得することと、
     前記音響信号を、複数の音源から発せられる音響信号の推定値に分離する分離行列を算出することと、
     前記分離行列により定められ、周波数に関する空間相関行列、前記周波数に関する第1パラメータ並びに前記周波数及び時間に関する第2パラメータを含む第1モデルによって、拡散性雑音の音響信号を生成することと、
     前記分離行列により定められ、前記周波数に関するステアリングベクトル並びに前記周波数及び前記時間に関する第3パラメータを含む第2モデルによって、目的音源から発せられた音響信号を生成することと、
     前記第1パラメータ、前記第2パラメータ及び前記第3パラメータを、前記第1パラメータ、前記第2パラメータ及び前記第3パラメータの尤度を最大化するように決定することと、を含み、
     前記周波数及び前記時間に関する行列の逆行列を、前記周波数に関する行列の逆行列に分解して、前記尤度を最大化するように、前記第1パラメータ、前記第2パラメータ及び前記第3パラメータを決定する、
     音響解析方法。
  8.  音響解析装置に備えられたプロセッサを、
     複数のマイクにより測定した音響信号を取得する取得部、
     前記音響信号を、複数の音源から発せられる音響信号の推定値に分離する分離行列を算出する第1算出部、
     前記分離行列により定められ、周波数に関する空間相関行列、前記周波数に関する第1パラメータ並びに前記周波数及び時間に関する第2パラメータを含む第1モデルによって、拡散性雑音の音響信号を生成する第1生成部、
     前記分離行列により定められ、前記周波数に関するステアリングベクトル並びに前記周波数及び前記時間に関する第3パラメータを含む第2モデルによって、目的音源から発せられた音響信号を生成する第2生成部、及び
     前記第1パラメータ、前記第2パラメータ及び前記第3パラメータを、前記第1パラメータ、前記第2パラメータ及び前記第3パラメータの尤度を最大化するように決定する決定部、として機能させ、
     前記決定部は、前記周波数及び前記時間に関する行列の逆行列を、前記周波数に関する行列の逆行列に分解して、前記尤度を最大化するように、前記第1パラメータ、前記第2パラメータ及び前記第3パラメータを決定する、
     音響解析プログラム。
PCT/JP2020/044629 2019-12-05 2020-12-01 音響解析装置、音響解析方法及び音響解析プログラム WO2021112066A1 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
US17/782,546 US20230018030A1 (en) 2019-12-05 2020-12-01 Acoustic analysis device, acoustic analysis method, and acoustic analysis program

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
JP2019-220584 2019-12-05
JP2019220584A JP7450911B2 (ja) 2019-12-05 2019-12-05 音響解析装置、音響解析方法及び音響解析プログラム

Publications (1)

Publication Number Publication Date
WO2021112066A1 true WO2021112066A1 (ja) 2021-06-10

Family

ID=76220044

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/JP2020/044629 WO2021112066A1 (ja) 2019-12-05 2020-12-01 音響解析装置、音響解析方法及び音響解析プログラム

Country Status (3)

Country Link
US (1) US20230018030A1 (ja)
JP (1) JP7450911B2 (ja)
WO (1) WO2021112066A1 (ja)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117935835B (zh) * 2024-03-22 2024-06-07 浙江华创视讯科技有限公司 音频降噪方法、电子设备以及存储介质

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2015135437A (ja) * 2014-01-17 2015-07-27 日本電信電話株式会社 モデル推定装置、雑音抑圧装置、音声強調装置、これらの方法及びプログラム
JP2017151226A (ja) * 2016-02-23 2017-08-31 日本電信電話株式会社 信号解析装置、方法、及びプログラム
JP2017152825A (ja) * 2016-02-23 2017-08-31 日本電信電話株式会社 音響信号解析装置、音響信号解析方法、及びプログラム
JP2018036332A (ja) * 2016-08-29 2018-03-08 国立大学法人 筑波大学 音響処理装置、音響処理システム及び音響処理方法

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2015135437A (ja) * 2014-01-17 2015-07-27 日本電信電話株式会社 モデル推定装置、雑音抑圧装置、音声強調装置、これらの方法及びプログラム
JP2017151226A (ja) * 2016-02-23 2017-08-31 日本電信電話株式会社 信号解析装置、方法、及びプログラム
JP2017152825A (ja) * 2016-02-23 2017-08-31 日本電信電話株式会社 音響信号解析装置、音響信号解析方法、及びプログラム
JP2018036332A (ja) * 2016-08-29 2018-03-08 国立大学法人 筑波大学 音響処理装置、音響処理システム及び音響処理方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
KITAMURA, DAICHI ET AL.: "Blind Source Separation Based on Independent Low-Rank Matrix Analysis", IEICE TECHNICAL REPORT, vol. 117, no. 255, October 2017 (2017-10-01), pages 73 - 80 *
KUBO, YUKI ET AL.: "Speeding up by the expansion of inverse matrix of rank- constrained spatial covariance model estimation method", LECTURE PROCEEDINGS OF 2019 AUTUMN MEETING OF THE ACOUSTICAL SOCIETY OF JAPAN, September 2019 (2019-09-01), pages 287 - 290 *

Also Published As

Publication number Publication date
US20230018030A1 (en) 2023-01-19
JP2021089388A (ja) 2021-06-10
JP7450911B2 (ja) 2024-03-18

Similar Documents

Publication Publication Date Title
Kitamura et al. Determined blind source separation unifying independent vector analysis and nonnegative matrix factorization
Kitamura et al. Determined blind source separation with independent low-rank matrix analysis
EP3259755B1 (en) Separating audio sources
Grais et al. Two-stage single-channel audio source separation using deep neural networks
JP5942420B2 (ja) 音響処理装置および音響処理方法
JP6400218B2 (ja) オーディオ源の分離
EP1752969A1 (en) Signal separation device, signal separation method, signal separation program, and recording medium
US10373628B2 (en) Signal processing system, signal processing method, and computer program product
US20160073198A1 (en) Spatial audio apparatus
WO2005024788A1 (ja) 信号分離方法、信号分離装置、信号分離プログラム及び記録媒体
US20140078867A1 (en) Sound direction estimation device, sound direction estimation method, and sound direction estimation program
JP6724905B2 (ja) 信号処理装置、信号処理方法、およびプログラム
WO2021112066A1 (ja) 音響解析装置、音響解析方法及び音響解析プログラム
JP6538624B2 (ja) 信号処理装置、信号処理方法および信号処理プログラム
WO2019106758A1 (ja) 言語処理装置、言語処理システムおよび言語処理方法
JP6711765B2 (ja) 形成装置、形成方法および形成プログラム
US10473628B2 (en) Signal source separation partially based on non-sensor information
JP6448567B2 (ja) 音響信号解析装置、音響信号解析方法、及びプログラム
JP5387442B2 (ja) 信号処理装置
JP4946330B2 (ja) 信号分離装置及び方法
US20210105571A1 (en) Sound image reproduction device, sound image reproduction method, and sound image reproduction program
JP2020034870A (ja) 信号解析装置、方法、及びプログラム
JP2017151228A (ja) 信号処理方法および音信号処理装置
CN113241090A (zh) 一种基于最小体积约束的多通道盲声源分离方法
JP2014215544A (ja) 音響処理装置

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 20897495

Country of ref document: EP

Kind code of ref document: A1

NENP Non-entry into the national phase

Ref country code: DE

122 Ep: pct application non-entry in european phase

Ref document number: 20897495

Country of ref document: EP

Kind code of ref document: A1