WO2019163736A1 - マスク推定装置、モデル学習装置、音源分離装置、マスク推定方法、モデル学習方法、音源分離方法及びプログラム - Google Patents

マスク推定装置、モデル学習装置、音源分離装置、マスク推定方法、モデル学習方法、音源分離方法及びプログラム Download PDF

Info

Publication number
WO2019163736A1
WO2019163736A1 PCT/JP2019/005976 JP2019005976W WO2019163736A1 WO 2019163736 A1 WO2019163736 A1 WO 2019163736A1 JP 2019005976 W JP2019005976 W JP 2019005976W WO 2019163736 A1 WO2019163736 A1 WO 2019163736A1
Authority
WO
WIPO (PCT)
Prior art keywords
mask
sound source
acoustic signal
mask information
input acoustic
Prior art date
Application number
PCT/JP2019/005976
Other languages
English (en)
French (fr)
Inventor
卓哉 樋口
中谷 智広
慶介 木下
Original Assignee
日本電信電話株式会社
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 日本電信電話株式会社 filed Critical 日本電信電話株式会社
Priority to US16/971,656 priority Critical patent/US11562765B2/en
Publication of WO2019163736A1 publication Critical patent/WO2019163736A1/ja

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/48Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
    • G10L25/51Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/044Recurrent networks, e.g. Hopfield networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N7/00Computing arrangements based on specific mathematical models
    • G06N7/01Probabilistic graphical models, e.g. probabilistic networks
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0272Voice signal separating
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0272Voice signal separating
    • G10L21/028Voice signal separating using properties of sound source
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/03Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/27Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique
    • G10L25/30Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique using neural networks

Definitions

  • the present invention relates to a sound source separation technique for separating an acoustic signal in which sounds from a plurality of sound sources are mixed into signals for each sound source.
  • Sound source separation technology that separates sound signals mixed with sound from multiple sound sources into signals for each sound source includes sound source separation technology for sounds collected by multiple microphones and a single microphone. There is a sound source separation technique for the sound that is produced. In the latter case, since information on the position of the microphone cannot be used, it is more difficult than the former case.
  • Non-Patent Document 1 is known as a technique for performing sound source separation based on information of an input acoustic signal without using information on a microphone position.
  • Non-Patent Document 1 the input acoustic signal is converted into an embedded vector by bi-directional short-term memory (BLSTM), and then the embedded vector is clustered into clusters for each sound source by the k-means method. Thus, a mask for extracting sound sources belonging to each cluster is estimated. In learning the BLSTM parameters, the BLSTM parameters are updated so as to minimize the distance between a pre-given teacher mask (correct mask) and the estimated mask. During operation, the input acoustic signal is converted into an embedded vector using BLSTM with parameter learning, and the result is clustered by the k-means method to obtain a mask estimation result.
  • BLSTM bi-directional short-term memory
  • Non-Patent Document 1 the mask is estimated from the embedded vector using the Softmax function during learning, whereas the mask is estimated by applying the k-means method to the embedded vector and performing clustering during operation. Done.
  • BLSTM parameter learning is not optimal for the input acoustic signal during operation, and the accuracy of sound source separation during operation decreases. there is a possibility.
  • An object of the present invention is to improve the accuracy of sound source separation during operation by estimating a mask using the same method during learning and during operation.
  • a mask estimation apparatus for estimating mask information for specifying a mask used for extracting a signal of a specific sound source from an input acoustic signal, Using a learned neural network model, a conversion unit that converts the input acoustic signal into an embedded vector of a predetermined dimension; A mask calculator for calculating the mask information by fitting the embedded vector to a mixed Gaussian model; It is characterized by having.
  • a model learning device for learning a neural network model used for estimating mask information for specifying a mask used for extracting a signal of a specific sound source from an input acoustic signal, Using the neural network model, a conversion unit that converts an input acoustic signal for learning whose mask information is known in advance into an embedded vector of a predetermined dimension; A mask calculation unit for calculating an estimation result of mask information by fitting the embedded vector to a mixed Gaussian model; A parameter updating unit that updates parameters of the neural network model until a comparison result between the estimation result of the mask information and the previously known mask information satisfies a predetermined criterion; It is characterized by having.
  • a sound source separation device that extracts a signal of a specific sound source from an input acoustic signal, Using a learned neural network model, a conversion unit that converts the input acoustic signal into an embedded vector of a predetermined dimension; A mask calculator for calculating mask information for specifying a mask used for extracting a signal of a specific sound source from the input acoustic signal by fitting the embedded vector to a mixed Gaussian model; A sound source separation unit that extracts a signal of a specific sound source from the input acoustic signal using the mask information; It is characterized by having.
  • a mask estimation method includes: A mask estimation method executed by a mask estimation device that estimates mask information for identifying a mask used for extracting a signal of a specific sound source from an input acoustic signal, Using a learned neural network model to convert the input acoustic signal into a predetermined dimension embedded vector; Calculating the mask information by fitting the embedded vector to a mixed Gaussian model; It is characterized by having.
  • a model learning method includes: A model learning method executed by a model learning device that learns a neural network model used to estimate mask information for specifying a mask used to extract a signal of a specific sound source from an input acoustic signal. , Using the neural network model, converting an input acoustic signal for learning whose mask information is known in advance into an embedding vector of a predetermined dimension; Calculating a mask information estimation result by fitting the embedded vector to a mixed Gaussian model; Updating the parameters of the neural network model until a comparison result between the estimation result of the mask information and the previously known mask information satisfies a predetermined criterion; It is characterized by having.
  • a sound source separation method includes: A sound source separation method executed by a sound source separation device that extracts a signal of a specific sound source from an input sound signal, Using a learned neural network model to convert the input acoustic signal into a predetermined dimension embedded vector; Calculating mask information for identifying a mask used to extract a signal of a specific sound source from the input acoustic signal by fitting the embedded vector to a mixed Gaussian model; Extracting a specific sound source from the input acoustic signal using the mask information; It is characterized by having.
  • a program according to an aspect of the present invention is characterized by causing a computer to function as each unit of the above-described device.
  • FIG. 1 is a diagram showing a system configuration example in an embodiment of the present invention.
  • a microphone M can pick up sounds from a plurality of sound sources that can be clustered into C classes S1 to SC.
  • the microphone M outputs the collected sound to the sound source separation device 30 as an acoustic signal.
  • the sound source separation device 30 according to the present embodiment is not limited to the case where the sound collected by the microphone is directly input to the sound source separation device 30.
  • the sound collected by the microphone or the like may be a medium or a hard disk. Etc., and may be executed by reading the stored acoustic signal into the sound source separation device 30.
  • the sound source separation device 30 is a device that receives an acoustic signal as an input and outputs a signal of a specific sound source.
  • the sound source separation device 30 can output only a signal of a specific sound source, and can output a signal for each sound source.
  • the sound source separation device 30 uses a mask to extract a signal of a specific sound source from the input sound signal.
  • the sound source separation device 30 uses a neural network model in order to estimate mask information for specifying a mask. Note that the mask information includes not only the mask itself but also parameters for determining the mask.
  • the sound source separation device 30 learns a neural network model using a learning input acoustic signal prepared in advance (mask information is known in advance). In operation, the sound source separation device 30 calculates mask information using a neural network model (parameter set neural network) learned at the time of learning.
  • learning of the neural network model and calculation of mask information in the sound source separation device 30 may be performed by another device or the same device.
  • description will be made assuming that the operations are performed by different apparatuses, that is, a model learning apparatus and a mask estimation apparatus, respectively.
  • Mask estimation apparatus In the first embodiment, an input acoustic signal that is a mixed acoustic signal in which sounds from a plurality of sound sources are mixed is input, and mask information for specifying a mask used for extracting a specific sound source from the input acoustic signal; Or the mask estimation apparatus which outputs the mask information for specifying the mask used in order to isolate
  • FIG. 1 shows a functional configuration of the mask estimation apparatus 10 according to the first embodiment of the present invention.
  • the mask estimation apparatus 10 includes a conversion unit 110 and a mask calculation unit 120.
  • the conversion unit 110 is a neural network that receives an input acoustic signal and outputs a vector (embedded vector) of a predetermined dimension.
  • the type of the neural network is not particularly limited.
  • the bidirectional long-term memory (BLSTM) described in Non-Patent Document 1 may be used. In the following description, BLSTM will be described as an example.
  • the conversion unit 110 converts the input acoustic signal into an embedded vector as follows using the learned neural network.
  • the conversion unit 110 performs time-frequency analysis of the input acoustic signal, inputs a feature amount for each time-frequency point to the neural network, and embeds the vector corresponding to the index n of the time-frequency point.
  • n ⁇ ⁇ 1,..., N ⁇ is an index of time frequency points
  • D is the order of the embedding vector output from the neural network.
  • the mask calculation unit 120 is a processing unit that receives the embedding vector output from the conversion unit 110 and outputs mask information.
  • the mask calculation unit 120 fits an embedded vector to a mixed Gaussian model in order to calculate mask information.
  • the mean ⁇ c and covariance matrix ⁇ that are parameters of the mixed Gaussian distribution that can more appropriately represent the embedding vector Estimate c .
  • C ⁇ is a cluster index corresponding to each sound source
  • C is the total number of sound source clusters.
  • ⁇ c represents an average of the Gaussian distribution corresponding to the cluster c
  • ⁇ c represents a covariance matrix of the Gaussian distribution corresponding to the cluster c.
  • An estimated value of the mask is obtained from the estimated mixed Gaussian distribution parameters ⁇ c and ⁇ c by the following equation.
  • the mask information may be the mask itself or a mixed Gaussian distribution parameter.
  • the estimated values of the mixed Gaussian distribution parameters ⁇ c and ⁇ c calculated by the mask calculation unit 120 are denoted as ⁇ ⁇ c and ⁇ ⁇ c .
  • is a symbol displayed on the symbol ( ⁇ or ⁇ ) immediately after it.
  • the mask calculation unit 120 obtains a parameter of each Gaussian distribution so as to maximize the likelihood of the parameter of the mixed Gaussian distribution with respect to the embedded vector for fitting to the mixed Gaussian model. Specifically, the parameters ⁇ ⁇ c and ⁇ ⁇ c of each Gaussian distribution are set so as to maximize the following log likelihood function based on the embedding vectors for all the time frequency points obtained by the transform unit 110. Update repeatedly.
  • FIG. 3 shows a functional configuration of the mask calculation unit 120 when the EM algorithm is used.
  • the mask calculation unit 120 includes a first update unit 121, a second update unit 122, a determination unit 123, and a storage unit 124.
  • the storage unit 124 is a storage device that stores initial values or update values of parameters used in the processing of the first update unit 121, the second update unit 122, and the determination unit 123. First, the storage unit 124 stores initial values of the parameters ⁇ ⁇ c and ⁇ ⁇ c of the mixed Gaussian distribution. The initial value can be arbitrarily determined.
  • the first update unit 121 is a processing unit that receives the embedded vector output from the conversion unit 110 and outputs an estimated value of the mask.
  • the first updating unit 121 performs processing corresponding to the E-step of the EM algorithm. Specifically, the first updating unit 121 calculates an estimated value of a mask that is a posterior probability by the following equation.
  • the second updating unit 122 receives the estimated mask value obtained by the first updating unit 121 and the embedding vector output from the converting unit 110, and outputs parameter estimated values ⁇ ⁇ c and ⁇ ⁇ c. Part.
  • the second updating unit 122 performs processing corresponding to the M-step of the EM algorithm. Specifically, the second updating unit 122 updates ⁇ ⁇ c and ⁇ ⁇ c by the following formula.
  • the determination unit 123 performs a process of repeatedly updating the mask information by repeatedly executing the first update unit and the second update unit until a predetermined criterion is satisfied. Then, when a predetermined criterion is satisfied, the value of each parameter of the Gaussian distribution stored in the storage unit 124 at that time is output, and the process is terminated.
  • the predetermined criterion is, for example, by maximizing the log likelihood calculated based on the estimated value of the Gaussian distribution parameter obtained by the second updating unit 122 and the embedding vector output from the conversion unit 110. is there.
  • the logarithmic likelihood can be thought of as an evaluation value of the likelihood when the embedded vector is clustered based on the estimated value of the parameter of the current Gaussian distribution, and the parameter of the Gaussian distribution so that it can be clustered more likely.
  • the estimated value is repeatedly updated.
  • the log likelihood of the above equation (2) is obtained based on the estimated value of the Gaussian distribution parameter obtained by the second updating unit 122 and the embedded vector.
  • the parameters ⁇ c and ⁇ c in Equation (2) are replaced with their estimated values ⁇ ⁇ c and ⁇ ⁇ c .
  • the log likelihood calculated in the immediately preceding determination unit 123 is smaller, it is determined that the criterion is satisfied, and the Gaussian distribution parameter stored in the storage unit 124 or the Gaussian distribution parameter is obtained.
  • the mask estimated value is output as mask information, and the process ends. If not (does not meet the criteria), the process may be repeated by returning to the first updating unit 121.
  • the criterion is satisfied, and otherwise, the criterion may not be satisfied. Good.
  • the number of repetitive processes may be counted, and it may be determined that a predetermined criterion is satisfied when the predetermined number of times is reached.
  • Model learning apparatus> a model learning apparatus that learns the neural network model of the first embodiment, specifically, the parameters of the neural network that constitutes the conversion unit 110 when performing the estimation of the first embodiment will be described.
  • FIG. 4 shows a functional configuration of the model learning device 20 according to the second embodiment of the present invention.
  • the model learning device 20 includes a conversion unit 210, a mask calculation unit 220, and a parameter update unit 230.
  • the conversion unit 210 is a neural network that receives a learning input acoustic signal that is a mixed acoustic signal prepared in advance for learning and outputs a vector (embedded vector) of a predetermined dimension. However, it is assumed that the learning input acoustic signal is prepared in advance for learning, and mask information (teacher mask information) that is a correct answer is known in advance. As in the first embodiment, the conversion unit 210 converts the learning input acoustic signal into an embedded vector using a neural network (for example, BLSTM).
  • a neural network for example, BLSTM
  • a predetermined initial value is used first, but when the parameter is updated in a parameter updating unit 230 described later, an updated value of the parameter is used.
  • the mask calculation unit 220 is a processing unit that receives the embedded vector output from the conversion unit 210 and outputs a mask information estimation result (estimated mask information).
  • the mask calculation unit 120 fits the embedded vector to the mixed Gaussian model in the same manner as in the first embodiment in order to calculate the estimated mask information.
  • the mask calculation unit 220 obtains estimated mask information by fitting to a mixed Gaussian model, but the fitting of the mixed Gaussian model does not use the EM algorithm, but a covariance matrix ⁇ c given in advance. And the average ⁇ c obtained from the teacher mask M n, c is used.
  • I is a unit matrix
  • is a scalar variable that can be set to any value.
  • the estimated mask information can be obtained by the following equation.
  • the parameter update unit 230 is a processing unit that receives in advance teacher mask information and the estimated mask information output from the mask calculation unit 220 and updates each parameter of the neural network.
  • the parameter update unit 230 sets each parameter of the neural network so that the mask information obtained by performing the processing of the conversion unit and the mask calculation unit is close to the correct mask information prepared in advance. Update repeatedly. For example, each parameter of the neural network is repeatedly updated until the comparison result between the estimated mask information and the teacher mask information satisfies a predetermined criterion. For example, a cost function representing the distance between the estimation mask and the teacher mask may be defined to update each parameter of the neural network, and the distance between the signal calculated using the estimation mask and the learning input acoustic signal may be calculated. A cost function to be expressed may be defined to update each parameter of the neural network. This is the same as the learning process normally performed in a neural network, and may be performed by an error propagation learning method or the like. For example, the estimated mask
  • Each parameter ⁇ of the neural network may be updated on the basis of the cross entropy between and the teacher mask M n, c .
  • Example 3 Sound source separation device>
  • the sound source separation device 30 can extract only the signal of a specific sound source from the input sound signal, and can also separate the input sound signal into a signal for each sound source and output it.
  • FIG. 5 shows a functional configuration of the sound source separation device 30 according to the third embodiment of the present invention.
  • the sound source separation device 30 includes a sound source separation unit 310 in addition to the mask estimation device 10.
  • the sound source separation unit 310 is a processing unit that receives the input acoustic signal and the mask information output from the mask estimation apparatus 10 and outputs a specific sound source signal or a signal for each sound source.
  • the sound source separation unit 310 obtains and outputs a signal estimation result for each sound source by applying a mask configured based on the mask information estimated by the mask estimation device 10 to the input acoustic signal. If you want to output only the signal from a specific sound source, the information c specifying the sound source is further received as an input, and a mask is formed from the mask information corresponding to the information specifying the input sound source c in the mask information, and the input The estimated value of the signal of the sound source may be obtained by applying to the acoustic signal.
  • FIG. 6 shows a hardware configuration example of each device (mask estimation device 10, model learning device 20, and sound source separation device 30) in the embodiment of the present invention.
  • Each device may be a computer including a processor such as a CPU (Central Processing Unit) 151, a memory device 152 such as a RAM (Random Access Memory) and a ROM (Read Only Memory), a storage device 153 such as a hard disk, and the like.
  • the functions and processes of each device are realized by the CPU 151 executing data and programs stored in the storage device 153 or the memory device 152.
  • information necessary for each device may be input from the input / output interface device 154, and a result obtained in each device may be output from the input / output interface device 154.
  • the mask estimation apparatus, the model learning apparatus, and the sound source separation apparatus have been described using functional block diagrams.
  • the mask estimation apparatus and model learning according to the embodiment of the present invention have been described.
  • the device and the sound source separation device may be realized by hardware, software, or a combination thereof.
  • an embodiment of the present invention is a program for realizing the functions of a mask estimation device, a model learning device, and a sound source separation device according to an embodiment of the present invention for a computer, and a method according to the embodiment of the present invention for a computer. It may be realized by a program or the like that executes each procedure.
  • the functional units may be used in combination as necessary.
  • the method according to the embodiment of the present invention may be performed in an order different from the order shown in the embodiment.

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Evolutionary Computation (AREA)
  • Artificial Intelligence (AREA)
  • General Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Acoustics & Sound (AREA)
  • Human Computer Interaction (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Signal Processing (AREA)
  • Data Mining & Analysis (AREA)
  • Computing Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • General Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • Probability & Statistics with Applications (AREA)
  • Quality & Reliability (AREA)
  • Algebra (AREA)
  • Pure & Applied Mathematics (AREA)
  • Mathematical Optimization (AREA)
  • Mathematical Analysis (AREA)
  • Computational Mathematics (AREA)
  • Circuit For Audible Band Transducer (AREA)

Abstract

入力音響信号から特定の音源の信号を抽出するために用いられるマスクを特定するためのマスク情報を推定するマスク推定装置は、学習済みニューラルネットワークモデルを用いて、前記入力音響信号を所定次元の埋め込みベクトルに変換する変換部と、前記埋め込みベクトルを混合ガウスモデルにフィッティングさせることにより、前記マスク情報を計算するマスク計算部とを有する。

Description

マスク推定装置、モデル学習装置、音源分離装置、マスク推定方法、モデル学習方法、音源分離方法及びプログラム
 本発明は、複数の音源からの音が混合された音響信号を、音源毎の信号に分離する音源分離技術に関する。
 複数の音源からの音が混合された音響信号を、音源毎の信号に分離する音源分離技術には、複数のマイクで収音された音を対象とした音源分離技術と、1つのマイクで収音された音を対象とした音源分離技術がある。後者の場合はマイクの位置に関する情報を利用することができないため、前者の場合よりも難しいとされている。
 後者の問題のように、マイクの位置の情報を使わず、入力音響信号の情報に基づいて音源分離を行う技術として、非特許文献1が知られている。
 非特許文献1では、入力音響信号を双方向長短期記憶(BLSTM: bi-directional long short-term memory)により埋め込みベクトルに変換した後、埋め込みベクトルをk-means法により音源毎のクラスタにクラスタリングして、各クラスタに属する音源を抽出するためのマスクを推定する。BLSTMのパラメータの学習においては、予め与えられた教師マスク(正解のマスク)と推定されたマスクとの距離を最小化するように、BLSTMのパラメータを更新する。運用時には、パラメータ学習済みのBLSTMを用いて入力音響信号を埋め込みベクトルに変換し、その結果をk-means法によりクラスタリングして、マスク推定結果を得る。
Zhuo Chen, Yi Luo, and Nima Mesgarani, "Deep attractor network for single-microphone speaker separation," arXiv preprint arXiv:1611.08930v2, 2017.
 非特許文献1では、学習時はSoftmax関数を用いて埋め込みベクトルからマスクを推定しているのに対して、運用時には埋め込みベクトルに対してk-means法を適用しクラスタリングすることでマスクの推定が行われる。つまり、学習時と運用時でマスク推定の基準が同一ではないため、運用時の入力音響信号にとって最適なBLSTMのパラメータ学習がなされているとはいえず、運用時における音源分離の精度が低下する可能性がある。
 本発明は、学習時と運用時で同様の手法でマスクを推定することにより、運用時における音源分離の精度を向上させることを目的とする。
 本発明の一形態に係るマスク推定装置は、
 入力音響信号から特定の音源の信号を抽出するために用いられるマスクを特定するためのマスク情報を推定するマスク推定装置であって、
 学習済みニューラルネットワークモデルを用いて、前記入力音響信号を所定次元の埋め込みベクトルに変換する変換部と、
 前記埋め込みベクトルを混合ガウスモデルにフィッティングさせることにより、前記マスク情報を計算するマスク計算部と、
 を有することを特徴とする。
 また、本発明の一形態に係るモデル学習装置は、
 入力音響信号から特定の音源の信号を抽出するために用いられるマスクを特定するためのマスク情報を推定するために利用されるニューラルネットワークモデルを学習するモデル学習装置であって、
 前記ニューラルネットワークモデルを用いて、マスク情報が予め知られている学習用の入力音響信号を所定次元の埋め込みベクトルに変換する変換部と、
 前記埋め込みベクトルを混合ガウスモデルにフィッティングさせることにより、マスク情報の推定結果を計算するマスク計算部と、
 前記マスク情報の推定結果と、前記予め知られているマスク情報との比較結果が所定の基準を満たすまで、前記ニューラルネットワークモデルのパラメータを更新するパラメータ更新部と、
 を有することを特徴とする。
 また、本発明の一形態に係る音源分離装置は、
 入力音響信号から特定の音源の信号を抽出する音源分離装置であって、
 学習済みニューラルネットワークモデルを用いて、前記入力音響信号を所定次元の埋め込みベクトルに変換する変換部と、
 前記埋め込みベクトルを混合ガウスモデルにフィッティングさせることにより、前記入力音響信号から特定の音源の信号を抽出するために用いられるマスクを特定するためのマスク情報を計算するマスク計算部と、
 前記マスク情報を用いて前記入力音響信号から特定の音源の信号を抽出する音源分離部と、
 を有することを特徴とする。
 また、本発明の一形態に係るマスク推定方法は、
 入力音響信号から特定の音源の信号を抽出するために用いられるマスクを特定するためのマスク情報を推定するマスク推定装置が実行するマスク推定方法であって、
 学習済みニューラルネットワークモデルを用いて、前記入力音響信号を所定次元の埋め込みベクトルに変換するステップと、
 前記埋め込みベクトルを混合ガウスモデルにフィッティングさせることにより、前記マスク情報を計算するステップと、
 を有することを特徴とする。
 また、本発明の一形態に係るモデル学習方法は、
 入力音響信号から特定の音源の信号を抽出するために用いられるマスクを特定するためのマスク情報を推定するために利用されるニューラルネットワークモデルを学習するモデル学習装置が実行するモデル学習方法であって、
 前記ニューラルネットワークモデルを用いて、マスク情報が予め知られている学習用の入力音響信号を所定次元の埋め込みベクトルに変換するステップと、
 前記埋め込みベクトルを混合ガウスモデルにフィッティングさせることにより、マスク情報の推定結果を計算するステップと、
 前記マスク情報の推定結果と、前記予め知られているマスク情報との比較結果が所定の基準を満たすまで、前記ニューラルネットワークモデルのパラメータを更新するステップと、
 を有することを特徴とする。
 また、本発明の一形態に係る音源分離方法は、
 入力音響信号から特定の音源の信号を抽出する音源分離装置が実行する音源分離方法であって、
 学習済みニューラルネットワークモデルを用いて、前記入力音響信号を所定次元の埋め込みベクトルに変換するステップと、
 前記埋め込みベクトルを混合ガウスモデルにフィッティングさせることにより、前記入力音響信号から特定の音源の信号を抽出するために用いられるマスクを特定するためのマスク情報を計算するステップと、
 前記マスク情報を用いて前記入力音響信号から特定の音源を抽出するステップと、
 を有することを特徴とする。
 また、本発明の一形態に係るプログラムは、上記の装置の各部としてコンピュータを機能させることを特徴とする。
 本発明によれば、学習時と運用時で同様の手法でマスクを推定することにより、運用時における音源分離の精度を向上させることが可能になる。
本発明の実施例におけるシステム構成例を示す図である。 本発明の実施例1におけるマスク推定装置の機能構成を示す図である。 本発明の実施例1におけるマスク推定装置のマスク計算部の機能構成を示す図である。 本発明の実施例2におけるモデル学習装置の機能構成を示す図である。 本発明の実施例3における音源分離装置の機能構成を示す図である。 各装置のハードウェア構成例を示す図である。
 以下、図面を参照して本発明の実施例について説明する。
 図1は、本発明の実施例におけるシステム構成例を示す図である。図1において、マイクMは、C個のクラスS1~SCにクラスタリングされ得る複数の音源からの音を収音することができる。マイクMは、収音された音を音響信号として音源分離装置30に出力する。ただし、本実施例の音源分離装置30は、マイクで収音した音を直接、音源分離装置30に入力する場合に限定されるものではなく、例えば、マイク等により収音した音がメディアやハードディスク等に記憶されており、その記憶された音響信号を音源分離装置30に読み込むことで実行される形式であっても良い。
 音源分離装置30は、音響信号を入力として受け取り、特定の音源の信号を出力する装置である。音源分離装置30は、特定の音源の信号のみを出力することも可能であり、音源毎の信号を出力することも可能である。音源分離装置30は、入力音響信号から特定の音源の信号を抽出するためにマスクを用いる。音源分離装置30は、マスクを特定するためのマスク情報を推定するために、ニューラルネットワークモデルを利用する。なお、マスク情報には、マスクそのものだけでなく、マスクを決定するためのパラメータも含まれる。音源分離装置30は、学習時には、予め用意された学習用入力音響信号(マスク情報が予め知られているものとする)を用いて、ニューラルネットワークモデルを学習する。音源分離装置30は、運用時には、学習時に学習されたニューラルネットワークモデル(パラメータ設定済みのニューラルネットワーク)を用いて、マスク情報を計算する。
 なお、音源分離装置30におけるニューラルネットワークモデルの学習及びマスク情報の計算は別の装置で行われても、同じ装置で行われてもよい。以下の実施例では、それぞれモデル学習装置及びマスク推定装置という別の装置で行われるものとして説明する。
 <実施例1:マスク推定装置>
 実施例1では、複数の音源からの音が混合された混合音響信号である入力音響信号が入力され、入力音響信号から特定の音源を抽出するために用いられるマスクを特定するためのマスク情報、又は入力音響信号から音源毎の信号に分離するために用いられるマスクを特定するためのマスク情報を出力するマスク推定装置について説明する。
 図1に、本発明の実施例1におけるマスク推定装置10の機能構成を示す。マスク推定装置10は、変換部110と、マスク計算部120とを有する。
 (変換部)
 変換部110は、入力音響信号を入力とし、所定次元のベクトル(埋め込みベクトル)を出力するニューラルネットワークである。ニューラルネットワークの種類は特に限定されるものではないが、例えば、非特許文献1に記載の双方向長短期記憶(BLSTM)が用いられてもよい。以下の説明では、BLSTMを例に挙げて説明する。
 ニューラルネットワークモデル(この例ではBLSTMの各パラメータ)は、後述のモデル学習装置により予め学習済みであるものとする。変換部110は、学習済みのニューラルネットワークにより、以下の通り、入力音響信号を埋め込みベクトルに変換する。
 まず、変換部110は、入力音響信号を時間周波数解析し、時間周波数点ごとの特徴量をニューラルネットワークに入力し、時間周波数点のインデックスnに対応する埋め込みベクトル
Figure JPOXMLDOC01-appb-M000001
を得る。ここで、n∈{1,...,N}は時間周波数点のインデックスであり、Dはニューラルネットワークが出力する埋め込みベクトルの次数である。
 (マスク計算部)
 マスク計算部120は、変換部110から出力された埋め込みベクトルを入力とし、マスク情報を出力する処理部である。マスク計算部120は、マスク情報を計算するために、埋め込みベクトルを混合ガウスモデルにフィッティングさせる。
 具体的には、埋め込みベクトルがC個のガウス分布で構成された混合ガウス分布に従うものと仮定して、埋め込みベクトルをより適切に表現できる混合ガウス分布のパラメータである平均μc及び共分散行列Σcを推定する。ここで、c∈{1,...,C}は各音源に対応するクラスタのインデックスであり、Cは音源のクラスタの総数である。また、μcはクラスタcに対応するガウス分布の平均、Σcはクラスタcに対応するガウス分布の共分散行列を表す。マスクの推定値は、推定された混合ガウス分布のパラメータμc及びΣcから下記式により得られる。
Figure JPOXMLDOC01-appb-M000002
ここで、
Figure JPOXMLDOC01-appb-M000003
は平均μ及び共分散行列Σのときのガウス分布の確率密度関数である。
 このように、マスク
Figure JPOXMLDOC01-appb-M000004
は推定された混合ガウス分布のパラメータμc及びΣcから特定できるので、マスク情報はマスクそのものであってもよいし、混合ガウス分布のパラメータであってもよい。以下、マスク計算部120で計算される混合ガウス分布のパラメータμc及びΣcの推定値を^μc及び^Σcと表記することとする。なお、^は直後の記号(μやΣ)の上に表示される記号である。
 マスク計算部120は、混合ガウスモデルへのフィッティングのために、埋め込みベクトルに対する混合ガウス分布のパラメータの尤度を最大化するように、各ガウス分布のパラメータを求める。具体的には、変換部110により得られた全ての時間周波数点についての埋め込みベクトルに基づいて、以下の対数尤度関数を最大化するように、各ガウス分布のパラメータ^μc及び^Σcを繰り返し更新する。
Figure JPOXMLDOC01-appb-M000005
 パラメータの更新は、例えば、EM(expectation-maximization)アルゴリズムを用いて行う。図3に、EMアルゴリズムを用いるときのマスク計算部120の機能構成を示す。マスク計算部120は、第1更新部121と、第2更新部122と、判定部123と、記憶部124とを有する。
 記憶部124は、第1更新部121、第2更新部122及び判定部123の処理で用いられるパラメータの初期値又は更新値を格納する記憶装置である。最初に、記憶部124には、混合ガウス分布のパラメータ^μc及び^Σcの初期値が格納されている。初期値は任意に決めることができる。
 (第1更新部)
 第1更新部121は、変換部110から出力された埋め込みベクトルを入力とし、マスクの推定値を出力する処理部である。第1更新部121は、EMアルゴリズムのE-stepに相当する処理を行う。具体的には、第1更新部121は、下記式により、事後確率であるマスクの推定値を計算する。
Figure JPOXMLDOC01-appb-M000006
ここで、
Figure JPOXMLDOC01-appb-M000007
は、記憶部124に記憶されたパラメータである。
 (第2更新部)
 第2更新部122は、第1更新部121で求めたマスクの推定値と、変換部110から出力された埋め込みベクトルとを入力とし、パラメータの推定値^μc及び^Σcを出力する処理部である。第2更新部122は、EMアルゴリズムのM-stepに相当する処理を行う。具体的には、第2更新部122は、下記式により^μc及び^Σcを更新する。
Figure JPOXMLDOC01-appb-M000008
 (判定部)
 判定部123は、所定の基準を満たすまで、第1更新部と第2更新部を繰り返し実行させることで、マスク情報を繰り返し更新させる処理を行う。そして、所定の基準を満たしたら、その時点で記憶部124に記憶されているガウス分布の各パラメータの値を出力して処理を終了する。
 所定の基準とは、例えば、第2更新部122で求めたガウス分布のパラメータの推定値と、変換部110から出力された埋め込みベクトルとに基づいて計算される対数尤度を最大化することである。対数尤度は、埋め込みベクトルを今のガウス分布のパラメータの推定値に基づいてクラスタリングしたときの尤もらしさの評価値のようなものと考えることができ、より尤もらしくクラスタリングできるようにガウス分布のパラメータの推定値を繰り返し更新するのである。
 具体的には、第2更新部122で求めたガウス分布のパラメータの推定値と埋め込みベクトルに基づいて上記式(2)の対数尤度を求める。ここで、式(2)におけるパラメータμc及びΣcは、その推定値^μc及び^Σcに置き換えるものとする。そして、直前の判定部123の処理で算出した対数尤度のほうが小さければ、基準を満たしたと判定して記憶部124に記憶されているガウス分布のパラメータ、若しくは、当該ガウス分布のパラメータから求めたマスク推定値をマスク情報として出力し、処理を終了する。そうでない(基準を満たしていない)場合は、第1更新部121に戻って処理を繰り返すようにすればよい。あるいは、今回算出した対数尤度から直前の判定部123の処理で算出した対数尤度を差し引いた値が所定の閾値を下回れば基準を満たしたと判定し、そうでない場合は基準を満たさないとしてもよい。あるいは、繰り返し処理の回数をカウントしておき、所定の回数に達したら所定の基準を満たしたと判定してもよい。
 <実施例2:モデル学習装置>
 実施例2では、実施例1のニューラルネットワークモデル、具体的には、実施例1の推定を行う際の変換部110を構成するニューラルネットワークのパラメータを学習するモデル学習装置について説明する。
 図4に、本発明の実施例2におけるモデル学習装置20の機能構成を示す。モデル学習装置20は、変換部210と、マスク計算部220と、パラメータ更新部230とを有する。
 (変換部)
 変換部210は、学習用に予め用意された混合音響信号である学習用入力音響信号を入力とし、所定次元のベクトル(埋め込みベクトル)を出力するニューラルネットワークである。ただし、学習用入力音響信号は学習用に予め用意されたものであり、正解となるマスク情報(教師マスク情報)が予め知られているとする。変換部210は、実施例1と同様に、ニューラルネットワーク(例えばBLSTM)を用いて、学習用入力音響信号を埋め込みベクトルに変換する。ここで、ニューラルネットワークの各パラメータとしては、予め決められた初期値が最初に用いられるが、後述のパラメータ更新部230においてパラメータが更新された場合には、パラメータの更新値が用いられる。
 (マスク計算部)
 マスク計算部220は、変換部210から出力された埋め込みベクトルを入力とし、マスク情報の推定結果(推定マスク情報)を出力する処理部である。マスク計算部120は、推定マスク情報を計算するために、実施例1と同様の手法で、埋め込みベクトルを混合ガウスモデルにフィッティングさせる。このように、学習時と運用時で同様の手法でマスクを推定することにより、運用時に入力音響信号にとって最適なニューラルネットワークの各パラメータの学習が実現できる。
 具体的には、マスク計算部220は、混合ガウスモデルにフィッティングさせることで、推定マスク情報を求めるが、混合ガウスモデルのフィッティングはEMアルゴリズムを用いるのではなく、予め与えられた共分散行列Σcと教師マスクMn,cから求めた平均μcを用いる。
 共分散行列Σcはc∈{1,...,C}の全てにおいて共通であり、Σc=σIとする。ここでIは単位行列であり、σはスカラ変数で任意の値を設定できるものとする。平均μc
Figure JPOXMLDOC01-appb-M000009
により教師マスクMn,cから計算する。
 よって、推定マスク情報は下記式により求めることができる。
Figure JPOXMLDOC01-appb-M000010
 (パラメータ更新部)
 パラメータ更新部230は、予め知られている教師マスク情報と、マスク計算部220から出力された推定マスク情報とを入力とし、ニューラルネットワークの各パラメータを更新する処理部である。
 具体的には、パラメータ更新部230は、前記変換部と前記マスク計算部の処理を行って得たマスク情報と、予め用意された正解のマスク情報とが近づくように、ニューラルネットワークの各パラメータを繰り返し更新する。
 例えば、推定マスク情報と教師マスク情報の比較結果が所定の基準を満たすまで、ニューラルネットワークの各パラメータを繰り返し更新する。例えば、推定マスクと教師マスクとの距離を表すコスト関数を定義して、ニューラルネットワークの各パラメータを更新してもよく、推定マスクを用いて計算された信号と学習用入力音響信号との距離を表すコスト関数を定義して、ニューラルネットワークの各パラメータを更新してもよい。これは、ニューラルネットワークで通常行われる学習処理と同じであり、誤差伝播学習法等により行えばよい。例えば、下記式により推定マスク
Figure JPOXMLDOC01-appb-M000011
と教師マスクMn,cとの交差エントロピーに基づいて、ニューラルネットワークの各パラメータΘの更新を行えばよい。
Figure JPOXMLDOC01-appb-M000012
 <実施例3:音源分離装置>
 実施例3では、実施例1のマスク推定装置10を用いて、入力音響信号から特定の音源の信号を抽出する音源分離装置30について説明する。音源分離装置30は、入力音響信号から特定の音源の信号のみを抽出することもでき、入力音響信号を音源毎の信号に分離して出力することもできる。
 図5に、本発明の実施例3における音源分離装置30の機能構成を示す。音源分離装置30は、マスク推定装置10に加えて、音源分離部310を有する。
 <音源分離部>
 音源分離部310は、入力音響信号と、マスク推定装置10から出力されたマスク情報とを入力とし、特定の音源の信号又は音源毎の信号を出力する処理部である。
 具体的には、音源分離部310は、入力音響信号にマスク推定装置10で推定したマスク情報に基づいて構成したマスクをかけることにより、音源毎の信号の推定結果を得て出力する。特定の音源からの信号のみ出力したい場合には、音源を特定する情報cをさらに入力として受け取り、マスク情報のうち入力された音源cを特定する情報に対応するマスク情報からマスクを構成し、入力音響信号に適用することで、当該音源の信号の推定値を得ればよい。
 <ハードウェア構成例>
 図6に、本発明の実施例における各装置(マスク推定装置10、モデル学習装置20、音源分離装置30)のハードウェア構成例を示す。各装置は、CPU(Central Processing Unit)151等のプロセッサ、RAM(Random Access Memory)やROM(Read Only Memory)等のメモリ装置152、ハードディスク等の記憶装置153等から構成されたコンピュータでもよい。例えば、各装置の機能および処理は、記憶装置153又はメモリ装置152に格納されているデータやプログラムをCPU151が実行することによって実現される。また、各装置に必要な情報は、入出力インタフェース装置154から入力され、各装置において求められた結果は、入出力インタフェース装置154から出力されてもよい。
 <補足>
 説明の便宜上、本発明の実施例に係るマスク推定装置、モデル学習装置及び音源分離装置は機能的なブロック図を用いて説明しているが、本発明の実施例に係るマスク推定装置、モデル学習装置及び音源分離装置は、ハードウェア、ソフトウェア又はそれらの組み合わせで実現されてもよい。例えば、本発明の実施例は、コンピュータに対して本発明の実施例に係るマスク推定装置、モデル学習装置及び音源分離装置の機能を実現させるプログラム、コンピュータに対して本発明の実施例に係る方法の各手順を実行させるプログラム等により、実現されてもよい。また、各機能部が必要に応じて組み合わせて使用されてもよい。また、本発明の実施例に係る方法は、実施例に示す順序と異なる順序で実施されてもよい。
 以上、学習時と運用時で同様の手法でマスクを推定することにより、運用時における音源分離の精度を向上させるための手法について説明したが、本発明は、上記の実施例に限定されることなく、特許請求の範囲内において、種々の変更・応用が可能である。
 10  マスク推定装置
 110 変換部
 120 マスク計算部
 121 第1更新部
 122 第2更新部
 123 判定部
 124 記憶部
 20  モデル学習装置
 210 変換部
 220 マスク計算部
 230 パラメータ更新部
 30  音源分離装置
 310 音源分離部
 151 CPU
 152 メモリ
 153 記憶装置
 154 入出力インタフェース装置

Claims (9)

  1.  入力音響信号から特定の音源の信号を抽出するために用いられるマスクを特定するためのマスク情報を推定するマスク推定装置であって、
     学習済みニューラルネットワークモデルを用いて、前記入力音響信号を所定次元の埋め込みベクトルに変換する変換部と、
     前記埋め込みベクトルを混合ガウスモデルにフィッティングさせることにより、前記マスク情報を計算するマスク計算部と、
     を有するマスク推定装置。
  2.  前記マスク計算部は、前記埋め込みベクトルに対する混合ガウス分布のパラメータの尤度を最大化するように、前記マスク情報の計算を行う、請求項1に記載のマスク推定装置。
  3.  前記学習済みニューラルネットワークモデルは、
     予め用意された学習用の入力音響信号に対して、前記変換部と前記マスク計算部の処理を行って得たマスク情報と、予め用意された正解のマスク情報とが近づくように学習されたものである、請求項1または2記載のマスク推定装置。
  4.  入力音響信号から特定の音源の信号を抽出するために用いられるマスクを特定するためのマスク情報を推定するために利用されるニューラルネットワークモデルを学習するモデル学習装置であって、
     前記ニューラルネットワークモデルを用いて、マスク情報が予め知られている学習用の入力音響信号を所定次元の埋め込みベクトルに変換する変換部と、
     前記埋め込みベクトルを混合ガウスモデルにフィッティングさせることにより、マスク情報の推定結果を計算するマスク計算部と、
     前記マスク情報の推定結果と、前記予め知られているマスク情報との比較結果が所定の基準を満たすまで、前記ニューラルネットワークモデルのパラメータを更新するパラメータ更新部と、
     を有するモデル学習装置。
  5.  入力音響信号から特定の音源の信号を抽出する音源分離装置であって、
     学習済みニューラルネットワークモデルを用いて、前記入力音響信号を所定次元の埋め込みベクトルに変換する変換部と、
     前記埋め込みベクトルを混合ガウスモデルにフィッティングさせることにより、前記入力音響信号から特定の音源の信号を抽出するために用いられるマスクを特定するためのマスク情報を計算するマスク計算部と、
     前記マスク情報を用いて前記入力音響信号から特定の音源の信号を抽出する音源分離部と、
     を有する音源分離装置。
  6.  入力音響信号から特定の音源の信号を抽出するために用いられるマスクを特定するためのマスク情報を推定するマスク推定装置が実行するマスク推定方法であって、
     学習済みニューラルネットワークモデルを用いて、前記入力音響信号を所定次元の埋め込みベクトルに変換するステップと、
     前記埋め込みベクトルを混合ガウスモデルにフィッティングさせることにより、前記マスク情報を計算するステップと、
     を有するマスク推定方法。
  7.  入力音響信号から特定の音源の信号を抽出するために用いられるマスクを特定するためのマスク情報を推定するために利用されるニューラルネットワークモデルを学習するモデル学習装置が実行するモデル学習方法であって、
     前記ニューラルネットワークモデルを用いて、マスク情報が予め知られている学習用の入力音響信号を所定次元の埋め込みベクトルに変換するステップと、
     前記埋め込みベクトルを混合ガウスモデルにフィッティングさせることにより、マスク情報の推定結果を計算するステップと、
     前記マスク情報の推定結果と、前記予め知られているマスク情報との比較結果が所定の基準を満たすまで、前記ニューラルネットワークモデルのパラメータを更新するステップと、
     を有するモデル学習方法。
  8.  入力音響信号から特定の音源の信号を抽出する音源分離装置が実行する音源分離方法であって、
     学習済みニューラルネットワークモデルを用いて、前記入力音響信号を所定次元の埋め込みベクトルに変換するステップと、
     前記埋め込みベクトルを混合ガウスモデルにフィッティングさせることにより、前記入力音響信号から特定の音源の信号を抽出するために用いられるマスクを特定するためのマスク情報を計算するステップと、
     前記マスク情報を用いて前記入力音響信号から特定の音源を抽出するステップと、
     を有する音源分離方法。
  9.  請求項1乃至5のうちいずれか1項に記載の装置の各部としてコンピュータを機能させるためのプログラム。
PCT/JP2019/005976 2018-02-22 2019-02-19 マスク推定装置、モデル学習装置、音源分離装置、マスク推定方法、モデル学習方法、音源分離方法及びプログラム WO2019163736A1 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
US16/971,656 US11562765B2 (en) 2018-02-22 2019-02-19 Mask estimation apparatus, model learning apparatus, sound source separation apparatus, mask estimation method, model learning method, sound source separation method, and program

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
JP2018029969A JP6821615B2 (ja) 2018-02-22 2018-02-22 マスク推定装置、モデル学習装置、音源分離装置、マスク推定方法、モデル学習方法、音源分離方法及びプログラム
JP2018-029969 2018-02-22

Publications (1)

Publication Number Publication Date
WO2019163736A1 true WO2019163736A1 (ja) 2019-08-29

Family

ID=67686764

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/JP2019/005976 WO2019163736A1 (ja) 2018-02-22 2019-02-19 マスク推定装置、モデル学習装置、音源分離装置、マスク推定方法、モデル学習方法、音源分離方法及びプログラム

Country Status (3)

Country Link
US (1) US11562765B2 (ja)
JP (1) JP6821615B2 (ja)
WO (1) WO2019163736A1 (ja)

Families Citing this family (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20220169242A (ko) * 2021-06-18 2022-12-27 삼성전자주식회사 전자 장치 및 전자 장치의 개인화된 음성 처리 방법
CN113408702B (zh) * 2021-06-23 2022-12-27 腾讯音乐娱乐科技(深圳)有限公司 音乐神经网络模型预训练方法及电子设备和存储介质
CN113377331B (zh) * 2021-07-05 2023-04-07 腾讯音乐娱乐科技(深圳)有限公司 一种音频数据处理方法、装置、设备及存储介质
WO2023127057A1 (ja) * 2021-12-27 2023-07-06 日本電信電話株式会社 信号フィルタリング装置、信号フィルタリング方法及びプログラム

Family Cites Families (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11456003B2 (en) * 2018-04-12 2022-09-27 Nippon Telegraph And Telephone Corporation Estimation device, learning device, estimation method, learning method, and recording medium
US10529349B2 (en) * 2018-04-16 2020-01-07 Mitsubishi Electric Research Laboratories, Inc. Methods and systems for end-to-end speech separation with unfolded iterative phase reconstruction
US10991385B2 (en) * 2018-08-06 2021-04-27 Spotify Ab Singing voice separation with deep U-Net convolutional networks
CN111863015A (zh) * 2019-04-26 2020-10-30 北京嘀嘀无限科技发展有限公司 一种音频处理方法、装置、电子设备和可读存储介质
KR20200132613A (ko) * 2019-05-16 2020-11-25 삼성전자주식회사 웨이크 언 보이스(Wake on Voice, WoV) 기술을 이용한 음성 인식 수행 방법 및 장치

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
CHEN, ZHUO: "DEEP ATTRACTOR NETWORK FOR SINGLE-MICROPHONE SPEAKER SEPARATION", PROCEEDINGS OF 2017 IEEE INTERNATIONAL CONFERENCE ON ACOUSTICS, SPEECH, AND SIGNAL PROCESSING, March 2017 (2017-03-01), XP081362980 *
HERSHEY, JOHN R.: "DEEP CLUSTERING: DISCRIMINATIVE EMBEDDINGS FOR SEGMENTATION AND SEPARATION", PROCEEDINGS OF 2016 IEEE INTERNATIONAL CONFERENCE ON ACOUSTICS, SPEECH, AND SIGNAL PROCESSING, March 2016 (2016-03-01), XP032900557 *

Also Published As

Publication number Publication date
JP6821615B2 (ja) 2021-01-27
JP2019144467A (ja) 2019-08-29
US20200395037A1 (en) 2020-12-17
US11562765B2 (en) 2023-01-24

Similar Documents

Publication Publication Date Title
WO2019163736A1 (ja) マスク推定装置、モデル学習装置、音源分離装置、マスク推定方法、モデル学習方法、音源分離方法及びプログラム
JP2021516369A (ja) 混合音声の認識方法、装置及びコンピュータ可読記憶媒体
CN107564513B (zh) 语音识别方法及装置
CN109360572B (zh) 通话分离方法、装置、计算机设备及存储介质
JP5423670B2 (ja) 音響モデル学習装置および音声認識装置
JP6927419B2 (ja) 推定装置、学習装置、推定方法、学習方法及びプログラム
JP2017228160A (ja) 対話行為推定方法、対話行為推定装置及びプログラム
US11798574B2 (en) Voice separation device, voice separation method, voice separation program, and voice separation system
CN109410956B (zh) 一种音频数据的对象识别方法、装置、设备及存储介质
WO2014029099A1 (en) I-vector based clustering training data in speech recognition
CN111599346B (zh) 一种说话人聚类方法、装置、设备及存储介质
JP6195548B2 (ja) 信号解析装置、方法、及びプログラム
JP7176627B2 (ja) 信号抽出システム、信号抽出学習方法および信号抽出学習プログラム
JP6620882B2 (ja) ドメイン適応を用いたパターン認識装置、方法およびプログラム
JP2014026455A (ja) メディアデータ解析装置、方法、及びプログラム
CN112949708A (zh) 情绪识别方法、装置、计算机设备和存储介质
WO2020170907A1 (ja) 信号処理装置、学習装置、信号処理方法、学習方法及びプログラム
JP5994639B2 (ja) 有音区間検出装置、有音区間検出方法、及び有音区間検出プログラム
JP6910002B2 (ja) 対話行為推定方法、対話行為推定装置及びプログラム
JP5726790B2 (ja) 音源分離装置、音源分離方法、およびプログラム
WO2018151124A1 (ja) パラメタ算出装置、パラメタ算出方法、及び、パラメタ算出プログラムが記録された記録媒体
JP6973254B2 (ja) 信号分析装置、信号分析方法および信号分析プログラム
JP2014092705A (ja) 音響信号強調装置、音響信号強調方法、およびプログラム
JP6930408B2 (ja) 推定装置、推定方法および推定プログラム
JP6734237B2 (ja) 目的音源推定装置、目的音源推定方法及び目的音源推定プログラム

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 19758082

Country of ref document: EP

Kind code of ref document: A1

NENP Non-entry into the national phase

Ref country code: DE

122 Ep: pct application non-entry in european phase

Ref document number: 19758082

Country of ref document: EP

Kind code of ref document: A1