JPWO2019017403A1 - マスク計算装置、クラスタ重み学習装置、マスク計算ニューラルネットワーク学習装置、マスク計算方法、クラスタ重み学習方法及びマスク計算ニューラルネットワーク学習方法 - Google Patents

マスク計算装置、クラスタ重み学習装置、マスク計算ニューラルネットワーク学習装置、マスク計算方法、クラスタ重み学習方法及びマスク計算ニューラルネットワーク学習方法 Download PDF

Info

Publication number
JPWO2019017403A1
JPWO2019017403A1 JP2019530576A JP2019530576A JPWO2019017403A1 JP WO2019017403 A1 JPWO2019017403 A1 JP WO2019017403A1 JP 2019530576 A JP2019530576 A JP 2019530576A JP 2019530576 A JP2019530576 A JP 2019530576A JP WO2019017403 A1 JPWO2019017403 A1 JP WO2019017403A1
Authority
JP
Japan
Prior art keywords
neural network
mask
calculation
parameter
cluster weight
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2019530576A
Other languages
English (en)
Other versions
JP6764028B2 (ja
Inventor
マーク デルクロア
慶介 木下
厚徳 小川
卓哉 樋口
智広 中谷
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nippon Telegraph and Telephone Corp
Original Assignee
Nippon Telegraph and Telephone Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nippon Telegraph and Telephone Corp filed Critical Nippon Telegraph and Telephone Corp
Publication of JPWO2019017403A1 publication Critical patent/JPWO2019017403A1/ja
Application granted granted Critical
Publication of JP6764028B2 publication Critical patent/JP6764028B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/27Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique
    • G10L25/30Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique using neural networks
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0272Voice signal separating
    • G10L21/0308Voice signal separating characterised by the type of parameter measurement, e.g. correlation techniques, zero crossing techniques or predictive techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/048Activation functions
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/084Backpropagation, e.g. using gradient descent
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/02Feature extraction for speech recognition; Selection of recognition unit
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/16Speech classification or search using artificial neural networks
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0272Voice signal separating
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/044Recurrent networks, e.g. Hopfield networks

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Theoretical Computer Science (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Computation (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Computing Systems (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Data Mining & Analysis (AREA)
  • General Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • Software Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Mathematical Physics (AREA)
  • Signal Processing (AREA)
  • Quality & Reliability (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Image Analysis (AREA)
  • Circuit For Audible Band Transducer (AREA)

Abstract

クラスタ重み計算部(322)は、少なくともいずれかの層が複数のクラスタに分解されたマスク計算NNの、複数のクラスタのそれぞれに対応する重みを、特定の話者の音声の信号を基に、クラスタ重み計算NNを用いて計算する。マスク計算部(302)は、1人以上の話者の音声の観測信号の特徴量から特定の話者の音声の特徴量を抽出するマスクを、1人以上の話者の音声の観測信号の特徴量を基に、クラスタ重み計算部(322)によって計算された重みで重み付けされたマスク計算NNを用いて計算する。

Description

本発明は、マスク計算装置、クラスタ重み学習装置、マスク計算ニューラルネットワーク学習装置、マスク計算方法、クラスタ重み学習方法及びマスク計算ニューラルネットワーク学習方法に関する。
話者の音声を収録する際に、話者の音声と同時に周囲の雑音が収録されてしまう場合がある。このような場合、収録された音声から話者の音声だけを聞き取ることが難しくなる。これに対し、従来、雑音を含んだ音声の音声データから、目的の話者の音声を取り出す技術が知られている(例えば、非特許文献1又は非特許文献2を参照)。
例えば、非特許文献1には、目的の話者の音声の信号が強く表れている時間周波数ビンにおける信号を観測信号から抽出するためのマスクを計算する技術が記載されている。また、例えば、非特許文献2には、ニューラルネットワークを用いてマスクの計算を行う技術が記載されている。
Y Wang, A Narayanan, DL Wang, "On training targets for supervised speech separation",IEEE/ACM Transactions on Audio, Speech and Language processing, 2014 J Heymann, L Drude, R Haeb-Umbach, "Neural network based spectral mask estimation for acoustic beamforming", Acoustics, Speech and Signal Processing (ICASSP), 2016
しかしながら、従来の技術には、観測した音声に複数の話者の音声が含まれる場合、目的の話者の音声を取り出すことが困難であるという問題がある。例えば、従来の技術では、目的の話者の音声以外の音声を雑音とみなし、話者の音声と雑音とでは特徴が異なることを仮定している。一方で、観測した音声に複数の話者の音声が含まれる場合、各話者の音声の特徴は似ているため、従来の技術では、目的の話者以外の話者の音声を雑音と認識することができないため、目的の話者の音声のみを取り出すことは難しい。
本発明のマスク計算装置は、目的話者を含む1人以上の話者の音声を少なくとも含んだ音声の観測信号から特徴量を抽出する特徴量抽出部と、前記観測信号の特徴量及び目的話者の音声の信号である適応用目的話者信号に基づいて、前記観測信号から前記目的話者の音声を抽出するマスクを計算するマスク計算部と、前記マスクに基づいて、前記観測信号から前記目的話者の音声の信号を計算する目的信号計算部と、を有することを特徴とする。
本発明のクラスタ重み学習装置は、少なくともいずれかの層が複数のクラスタに分解された第1のニューラルネットワークの、前記複数のクラスタのそれぞれに対応する重みを、特定の話者の音声の信号を基に、第2のニューラルネットワークを用いて計算するクラスタ重み計算部と、前記特定の話者を含む1人以上の話者の音声の観測信号の特徴量から前記特定の話者の音声の特徴量を抽出するマスクを、前記1人以上の話者の音声の観測信号の特徴量を基に、前記クラスタ重み計算部によって計算された重みで重み付けされた前記第1のニューラルネットワークを用いて計算するマスク計算部と、前記第1のニューラルネットワークと前記第2のニューラルネットワークを結合されたニューラルネットワークとみなし、当該結合されたニューラルネットワークに対し誤差逆伝搬を行うことで、前記重みの微分値を計算するクラスタ重み微分値計算部と、前記クラスタ重み微分値計算部によって計算された前記クラスタ重みの微分値を基に、前記クラスタ重みを更新するクラスタ重み更新部と、を有することを特徴とする。
本発明のマスク計算ニューラルネットワーク学習装置は、少なくともいずれかの層が複数のクラスタに分解された第1のニューラルネットワークの、前記複数のクラスタのそれぞれに対応する重みを、特定の話者の音声の信号を基に、第2のニューラルネットワークを用いて計算するクラスタ重み計算部と、前記特定の話者を含む1人以上の話者の音声の観測信号の特徴量から前記特定の話者の音声の特徴量を抽出するマスクを、前記1人以上の話者の音声の観測信号の特徴量を基に、前記クラスタ重み計算部によって計算された重みで重み付けされた前記第1のニューラルネットワークを用いて計算するマスク計算部と、前記第1のニューラルネットワークと前記第2のニューラルネットワークを結合されたニューラルネットワークとみなし、当該結合されたニューラルネットワークに対し誤差逆伝搬を行うことで、前記第1のニューラルネットワークのパラメータの微分値を計算する第1のパラメータ微分値計算部と、前記第1のパラメータ微分値計算部によって計算されたパラメータの微分値を基に、前記第1のニューラルネットワークのパラメータを更新する第1のパラメータ更新部と、前記結合されたニューラルネットワークに対し誤差逆伝搬を行うことで、前記第2のニューラルネットワークのパラメータの微分値を計算する第2のパラメータ微分値計算部と、前記第2のパラメータ微分値計算部によって計算された前記第2のパラメータの微分値を基に、前記第2のニューラルネットワークのパラメータを更新する第2のパラメータ更新部と、を有することを特徴とする。
本発明によれば、観測した音声に複数の話者の音声が含まれる場合であっても、目的の話者の音声を取り出すことができる。
図1は、従来の目的話者抽出装置の構成の一例を示す図である。 図2は、従来の目的話者抽出装置の処理の流れを示すフローチャートである。 図3は、第1の実施形態に係るマスク計算装置の構成の一例を示す図である。 図4は、第1の実施形態に係るマスク計算装置の処理の流れを示すフローチャートである。 図5は、第1の実施形態に係るマスク計算ニューラルネットワーク学習装置の構成の一例を示す図である。 図6は、第1の実施形態に係るマスク計算ニューラルネットワーク学習装置の処理の流れを示すフローチャートである。 図7は、第2の実施形態に係るマスク計算装置の構成の一例を示す図である。 図8は、第2の実施形態に係るマスク計算装置の処理の流れを示すフローチャートである。 図9は、第3の実施形態に係るクラスタ重み学習装置の構成の一例を示す図である。 図10は、第3の実施形態に係るクラスタ重み学習装置の処理の流れを示すフローチャートである。 図11は、プログラムを実行するコンピュータの一例を示す図である。
以下に、本願に係るマスク計算装置、クラスタ重み学習装置、マスク計算ニューラルネットワーク学習装置、マスク計算方法、クラスタ重み学習方法及びマスク計算ニューラルネットワーク学習方法の実施形態を図面に基づいて詳細に説明する。なお、本発明は、以下に説明する実施形態により限定されるものではない。
なお、以下では、例えばAがベクトルである場合には“ベクトルA”と表記し、例えばAが行列である場合には“行列A”と表記し、例えばAがスカラーである場合には単に“A”と表記する。また、例えばAが集合である場合には、“集合A”と表記する。また、例えばベクトルAの関数fは、f(ベクトルA)と表記する。また、ベクトル、行列又はスカラーであるAに対し、“^A”と記載する場合は「“A”の直上に“^”が記された記号」と同等であるとする。また、ベクトル、行列又はスカラーであるAに対し、“−A”と記載する場合は「“A”の直上に“−”が記された記号」と同等であるとする。また、ベクトル、行列又はスカラーであるAに対し、“~A”と記載する場合は「“A”の直上に“~”が記された記号」と同等であるとする。また、ベクトル又は行列であるAに対し、AはAの転置を表す。
<従来の目的音声抽出装置>
まず、図1を用いて、従来の目的話者抽出装置の構成について説明する。図1は、従来の目的話者抽出装置の構成の一例を示す図である。図1に示すように、目的話者抽出装置10aは、特徴量抽出部101a、マスク計算部102a、目的信号計算部103a及び記憶部140aを有する。
記憶部140aは、マスクを計算するための計算モデルの、学習済みのパラメータを記憶する。例えば、ニューラルネットワーク(以下、NN)に基づいてマスクの計算が行われる場合、記憶部140aは、各NNのパラメータを記憶する。NNのパラメータは、各隠れ層に関する重み行列、バイアスベクトル、アクティベーション関数のパラメータ等である。例えば、NNの各隠れ層の処理は以下の式(1)のように定義される。
Figure 2019017403
ただし、tは時間フレームのインデックスである。また、lは隠れ層のインデックスである。x (l−1)とx (l)は、それぞれ隠れ層の入力と出力である。σ(l)(・)は、アクティベーション関数である。アクティベーション関数は、例えばsigmoid関数及びRelu関数等である。F(l)(・;θ(l))は変換関数である。変換関数は、例えば線形変換及び畳み込み等である。θ(l)は、変換関数のパラメータである。例えば従来のNNにおいては、F(l)(・;θ(l))は式(2)のようになる。
Figure 2019017403
ただし、W(l)とb(l)は、それぞれ線形変換の行列とバイアスベクトルである。式(2)の場合、θ(l)={W(l),b(l)}である。また、NN全体のパラメータをθ={θ(1),…,θ(L)}とする。この場合、NN全体の隠れ層の総数はL−1である。また、NNのパラメータは、畳み込み層、LSTM/BLSTM等のリカレントの層でも同様に定義できる。
特徴量抽出部101aは、入力信号の波形からSTFT(Short Time Fourier Transform)を計算する。STFT領域では、観測信号は式(3)で表される。
Figure 2019017403
ただし、i=1,…,Iはマイクロホンのインデックスである。また、t=1,…,Tは時間のインデックスである。また、f=1,…,Fは周波数のインデックスである。Y(t,f)、S(t,f)、N(t,f)は、それぞれ観測信号、目的音声、雑音のSTFT信号である。特徴量ベクトルは、y(i,t)=[|Y(t,1)|,…,|Y(t,F)|]である。なお、|・|は振幅である。さらに、時系列の特徴量ベクトルである特徴量ベクトル系列Yは式(4)で表される。
Figure 2019017403
つまり、Yは、1フレーム目からTフレーム目までのF次元特徴量ベクトルで表現されるデータである。例えば、分析フレーム幅は30ms程度、分析フレームシフト幅は10ms程度で分析が実行される。
マスク計算部102aは、時間周波数マスクを計算する。時間周波数マスクは、各時間周波数ビン(t,f)に対する、目的信号が優位であるか雑音が優位であるかを表すマスクである。時間周波数マスクを利用することにより、目的信号計算部103aは、目的音声を式(5)のように抽出することができる。以下、時間周波数マスクを単にマスクと呼ぶ場合がある。
Figure 2019017403
ただし、M(t,f)は目的信号を抽出するためのマスクである。
また、マスク計算部102aは、式(6−1)のようにNNを用いてマスクを計算することができる。
Figure 2019017403
ただし、式(6−2)は、各周波数に対するマスクの値のベクトルである。また、g(・,θ)はNNを表す。また、NNの入力は、特徴量抽出部101aによって抽出された特徴量yi,tである。なお、マスク計算NNパラメータΘは記憶部140aに記憶される。
図示しない学習装置がマスク計算部102aで用いられるNNのパラメータΘの学習を行う場合、音声と雑音のデータが必要になる。なお、学習装置は、目的話者抽出装置10aの各機能を利用するものであってよい。学習装置は、音声と雑音のデータからNNの学習に必要なラベルを作成する。例えば、学習装置は、音声と雑音のデータから正解のマスクを計算する。学習装置は、正解のマスクをラベルとして利用することで、Cross Entropy基準によってNNを最適化する。学習装置は、誤差逆伝搬(Error backpropagation)によって最適化を行う。学習装置は、正解のマスクを式(7−1)のように計算することができる。
Figure 2019017403
ただし、式(7−2)は正解のマスクである。また、式(7−3)は信号対雑音比(SN比)である。またεはSN比の閾値である。
目的信号計算部103aは、マスク計算部102aによって計算されたマスクと特徴量抽出部101aによって計算された観測信号のSTFTに基づいて、目的音声を計算する。マイクロホンが1つ(I=1)の場合、目的信号計算部103aは、式(8)のように目的音声の信号を計算する。
Figure 2019017403
マイクロホンが複数(I>1)の場合、目的信号計算部103aは、各マイクロホンの信号からマスクを推定し、式(9)のように統合したマスク(統合マスク)を計算する。
Figure 2019017403
ただし、M(t,f)は統合したマスクである。また、median(・)はメディアンを計算するための関数である。目的信号計算部103aは、統合マスクを用いて、式(10)のように目的音声の空間相関行列を計算できる。
Figure 2019017403
ただし、Φss(f)は目的音声の空間相関行列である。また、Y(t,f)=[Y(t,f),…,Y(t,f)]は各マイクロホンの信号の集合ベクトルである。また、・は、エルミート転置(Hermitian transpose)である。同様に、目的信号計算部103aは、統合マスクを用いて、式(11)のように雑音の空間相関行列を計算できる。
Figure 2019017403
ただし、ΦNN(f)は雑音信号の空間相関行列である。また、M(t,f)は、雑音信号を抽出するためのマスクである。なお、1−M(t,f)をM(t,f)として用いてもよいし、マスク計算部102aを構成するNNを、観測信号の特徴量ベクトル系列を入力として、目的信号を抽出するためのマスクM(t,f)に加えて雑音信号を抽出するためのマスクM (t,f)も出力するよう構成しておき、NNの出力として得られるM (t,f)を統合したマスクをM(t,f)としてもよい。
目的信号計算部103aは、各空間相関行列に基づいてビームフォーマを計算することができる。例えば、目的信号計算部103aは、ビームフォーマとして使われることが多いMVDRビームフォーマやMaxSNRビームフォーマ等を、空間相関行列に基づいて計算できる。
例えば、目的信号計算部103aは、MaxSNRビームフォーマのフィルターを式(12−1)のように計算する。また、計算したフィルターは、式(12−2)のように表される。なお、式(12−3)に示すように、ΦYY(f)は、観測信号の空間相関行列である。
Figure 2019017403
目的信号計算部103aは、ビームフォーマのフィルターを用いて、目的音声の信号を式(13)のように計算する。
Figure 2019017403
なお、マイクロホンが1つの場合及びマイクロホンが複数の場合のいずれであっても、目的信号計算部103aは、目的音声の波形信号を計算するために、例えば、逆FFTとOverlapp Add方法によってSTFT領域の信号を計算することができる。
図2は、従来の目的話者抽出装置の処理の流れを示すフローチャートである。図2に示すように、まず、特徴量抽出部101aは、観測信号を読み込む(ステップS101a)。このとき、マスク計算部102aは、記憶部140aからマスク計算NNパラメータを読み込んでおく(ステップS102a)。次に、特徴量抽出部101aは、観測信号から特徴量を抽出する(ステップS103a)。
ここで、マスク計算部102aは、特徴量及びマスク計算NNパラメータを基にマスクを計算する(ステップS104a)。そして、目的信号計算部103aは、マスクを用いて観測信号から目的音声の信号を計算する(ステップS105a)。その後、目的信号計算部103aは、計算した目的音声の信号を出力する(ステップS106a)。
<本発明の実施形態で用いられるNNの構造>
ここで、本発明の実施形態でマスクの計算に用いられるNNについて説明する。本実施形態では、式(14)で表されるような、少なくともいずれかの層が複数のクラスタに分解されたNNがマスクの計算に用いられる(参考文献:M. Delcroix, K. Kinoshita, C. Yu, A. Ogawa, T. Yoshioka, T. Nakatani,“Context adaptive deep neural networks for fast acoustic model adaptation in noisy conditions”, in Proc. IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP), 2016 .)。
Figure 2019017403
ただし、k=1,…,Kは、クラスタのインデックスである。また、Kはクラスタの数である。また、F (l)(・;θ (l))は、k番目の話者クラスタの変換関数である。αは、k番目のクラスタの重みである。また、クラスタの重みは、ベクトルα=[α,…,α]である。このような少なくともいずれかの層が複数のクラスタに分解されたニューラルネットワークには、話者依存NN、話者依存層を用いるNN、話者適応型層を用いるNNが含まれる。
(話者依存NN)
話者依存NNは、全ての層が複数のクラスタに分解されたNNである。話者依存NNにおいては、Kが学習データの話者の数と同じである。また、話者依存NNにおいて、ベクトルαは、話者IDを表す1 hotベクトルである。なお、1 hotベクトルとは、1つの要素の値が1、かつ他の要素の値が0であるようなベクトルである。また、話者依存NNでは、話者ごとにNNが用意されているといえる。また、話者依存NNの学習時と、当該話者依存NNを使った目的音声の抽出時とにおいては、同じ話者の音声が用いられる。言い換えれば、話者依存NNでは、抽出したい目的音声の話者を含む少なくとも1人以上の話者について学習用に用意された音声信号に基づいてNNのパラメータが学習されていることを前提とする。
(話者依存層を用いるNN)
話者依存層を用いるNNは、少なくとも1つの層が複数のクラスタに分解されたNNである。話者依存層を用いるNNにおいては、Kが学習データの話者の数と同じである。また、話者依存層を用いるNNにおいて、ベクトルαは、話者IDを表す1 hotベクトルである。また、話者依存層を用いるNNでは、話者ごとに隠れ層のクラスタが用意されているといえる。また、話者依存層を用いるNNの学習時と、当該話者依存層を用いるNNを使った目的音声の抽出時とにおいては、同じ話者の音声が用いられる。言い換えれば、話者依存層を用いるNNでは、抽出したい目的音声の話者を含む少なくとも1人以上の話者について学習用に用意された音声信号に基づいてNNのパラメータが学習されていることを前提とする。
(話者適応型層を用いるNN)
話者適応型層を用いるNNは、少なくとも1つの層が複数のクラスタに分解されたNNである。話者適応型層を用いるNNにおいては、Kが学習データの話者の数以下の数であればよい。また、話者適応型層を用いるNNにおいて、ベクトルαは、1 hotベクトルでなくてもよい。また、話者適応型層を用いるNNの学習時と、当該話者適応型層を用いるNNを使った目的音声の抽出時とにおいては、同じ話者の音声が用いられなくてもよい。このため、話者適応型層を用いるNNは汎用性が高い。
<第1の実施形態>
ここで、第1の実施形態に係るマスク計算装置及びマスク計算ニューラルネットワーク学習装置について説明する。マスク計算装置及びマスク計算ニューラルネットワーク学習装置は、それぞれ異なるコンピュータによって実現されてもよいし、1つのコンピュータの機能として実現されてもよい。
<第1の実施形態に係るマスク計算装置>
まず、図3を用いて、第1の実施形態に係るマスク計算装置の構成について説明する。図3は、第1の実施形態に係るマスク計算装置の構成の一例を示す図である。図3に示すように、マスク計算装置10は、特徴量抽出部101、マスク計算部102、目的信号計算部103、目的話者特徴量抽出部121、クラスタ重み計算部122及び記憶部140を有する。
記憶部140は、目的話者特徴量抽出部121で用いられる所定の計算モデルのパラメータである話者特徴量抽出モデルパラメータ、クラスタ重み計算部122で用いられるNNのパラメータであるクラスタ重み計算NNパラメータ、及びマスク計算部102で用いられるNNのパラメータであるマスク計算NNパラメータを記憶する。なお、クラスタ重み計算部122で用いられるNNをクラスタ重み計算NNと呼ぶ。また、マスク計算部102で用いられるNNをマスク計算NNと呼ぶ。また、話者特徴量抽出モデルパラメータとマスク計算NNパラメータの集合をΘ、クラスタ重み計算パラメータの集合をλとする。
特徴量抽出部101は、従来の目的話者抽出装置10aの特徴量抽出部101aと同様の処理を行う。つまり、特徴量抽出部101は、観測信号から、1フレーム目からTフレーム目までのF次元特徴量ベクトルを抽出する。言い換えれば、特徴量抽出部101は、観測信号から、フレームごとに所定次数(F次元)の特徴量ベクトルを抽出する。特徴量抽出部101は、目的話者を含む1人以上の話者の音声を少なくとも含んだ音声の観測信号から観測信号の特徴量を抽出する。なお、観測信号に含まれる音声の話者が1人の場合には、雑音等の音声以外の音が含まれることを前提とする。観測信号に含まれる音声の話者が2以上の場合は、雑音が含まれていても、含まれていなくてもよい。
目的話者特徴量抽出部121は、目的話者の音声の信号である適応用目的話者信号から目的話者特徴量を抽出する。目的話者特徴量抽出部121は、適応用目的話者信号を入力とし、記憶部140に記憶されている目的話者特徴量を抽出するための話者特徴量抽出モデルパラメータθ(l)により特定される所定の計算モデルを用いて目的話者特徴量a(s)を出力する。
ここで、目的話者特徴量抽出部121によって用いられる計算モデルとしては、ivector(参考文献:N. Dehak, P. Kenny, R. Dehak, P. Dumouchel, and P. Ouellet, “Front-end factor analysis for speaker verification”, IEEE Trans. Audio, Speech, Language Process., vol. 19, no. 4, pp. 788-798, 2011.)、Bottleneck特徴量、話者の事後確率を用いたもの等がある。また、話者のIDが既知である場合や、目的の話者が学習データに含まれる話者の場合は、目的話者特徴量抽出部121は、話者のIDを表す1 hotベクトルを計算に用いてもよい。
クラスタ重み計算部122は、少なくともいずれかの層が複数のクラスタに分解されたマスク計算NN(第1のニューラルネットワーク)の、複数のクラスタのそれぞれに対応する重みを、適応用目的話者信号を基に、クラスタ重み計算NN(第2のニューラルネットワーク)を用いて計算する。クラスタ重み計算部122は、目的話者特徴量を入力とし、記憶部140に記憶されているクラスタ重み計算NNパラメータλに基づいてクラスタ重みを出力する。クラスタ重み計算部122は、式(15)のようにクラスタ重みのベクトルαを計算する。なお、h(・,λ)は音声の特徴量からクラスタ重みを計算するためのNNを表す関数である。つまり、クラスタ重み計算部122は、クラスタ重み計算NNパラメータλが設定されたNN(第2のニューラルネットワーク)に目的話者特徴量を入力することで、クラスタ重みのベクトルαを得て出力する。
Figure 2019017403
マスク計算部102は、観測信号の特徴量及び目的話者特徴量に基づいて、観測信号から目的話者の音声を抽出するマスクを計算する。マスク計算部102は、観測信号の特徴量を基に、クラスタ重み計算部122によって計算された重みで重み付けされたマスク計算NN(第1のニューラルネットワーク)を用いてマスクを計算する。マスク計算部102は、式(14)によってマスクを計算する。
なお、式(14)はニューラルネットワークのl番目の層における計算を表す。F (l)は、複数のクラスタに分解された隠れ層のうち、k番目の隠れ層における計算を表す関数である。x (l−1)は、(l−1)番目の層の出力であり、x (0)はニューラルネットワークへの入力、すなわち観測信号の特徴量Y(t,f)である。つまり、式(14)は、複数のクラスタに分解された層からの出力(中間状態)x (l)が、分解された隠れ層の各々に(l−1)番目の層の出力を入力して得られる各隠れ層の出力(中間状態)を、クラスタ重み計算部122で求めた各クラスタに対応する重みで重み付けした重み付け和に基づいて決定されることを示している。
l番目の層の後段に、さらに分解されていない隠れ層がある場合には、当該分解されていない隠れ層でさらに計算が行われる。例えば、(l+1)番目の層では、x (l)を入力として、変換関数F(l+1)に応じた変換が行われ、x(l+1)が計算される。マスク計算NNの層の数だけこの計算が繰り返されることで、最終的にマスクが出力されるのである。最後の層をLとすれば、x(L)がマスクとなる。
以上のように、マスク計算部102は、マスク計算NN(第1のニューラルネットワーク)に観測信号の特徴量を入力することで得られる、NN内の複数のクラスタの各々の出力である中間状態を、クラスタ重み計算部122で計算した複数のクラスタの各々に対応する重みで重み付けした中間状態を用いて、マスクを計算する。
目的信号計算部103は、従来の目的話者抽出装置10aの目的信号計算部103aと同様の処理を行う。つまり、目的信号計算部103は、マスクに基づいて、観測信号から目的話者の音声の信号を計算する。例えば、目的信号計算部103は、マスク計算部102によって計算されたマスクと特徴量抽出部101によって計算された観測信号のSTFTに基づいて、目的音声の信号を計算する。
図4は、第1の実施形態に係るマスク計算装置の処理の流れを示すフローチャートである。図4に示すように、まず、特徴量抽出部101は、観測信号を読み込む(ステップS101)。また、目的話者特徴量抽出部121は、適応用目的話者信号を読み込む(ステップS102)。
このとき、目的話者特徴量抽出部121は、記憶部140から話者特徴量抽出モデルパラメータを読み込んでおく(ステップS103)。また、クラスタ重み計算部122は、記憶部140からクラスタ重み計算NNパラメータを読み込んでおく(ステップS104)。また、マスク計算部102は、記憶部140からマスク計算NNパラメータを読み込んでおく(ステップS105)。
次に、特徴量抽出部101は、観測信号から特徴量を抽出する(ステップS106)。また、目的話者特徴量抽出部121は、適応用目的話者信号から目的話者特徴量を抽出する(ステップS107)。
ここで、クラスタ重み計算部122は、クラスタ重み計算NNパラメータ及び目的話者特徴量を基にクラスタ重みを計算する(ステップS108)。また、マスク計算部102は、特徴量及びマスク計算NNパラメータを基にマスクを計算する(ステップS109)。そして、目的信号計算部103は、マスクを用いて観測信号から目的音声の信号を計算する(ステップS110)。その後、目的信号計算部103は、計算した目的音声の信号を出力する(ステップS111)。
<第1の実施形態に係るマスク計算ニューラルネットワーク学習装置>
次に、図5を用いて、第1の実施形態に係るマスク計算ニューラルネットワーク学習装置の構成について説明する。図5は、第1の実施形態に係るマスク計算ニューラルネットワーク学習装置の構成の一例を示す図である。図5に示すように、マスク計算ニューラルネットワーク学習装置20は、特徴量抽出部201、マスク計算部202、エラー計算部203、マスク計算NNパラメータ微分値計算部204、マスク計算NNパラメータ更新部205、収束判定部206、目的話者特徴量抽出部221、クラスタ重み計算部222、クラスタ重み計算NNパラメータ微分値計算部223、クラスタ重み計算NNパラメータ更新部224及び記憶部240を有する。
特徴量抽出部201、マスク計算部202、目的話者特徴量抽出部221、クラスタ重み計算部222は、それぞれマスク計算装置10の特徴量抽出部101、マスク計算部102、目的話者特徴量抽出部121、クラスタ重み計算部122と同様の処理を行う。
つまり、クラスタ重み計算部222は、少なくともいずれかの層が複数のクラスタに分解されたマスク計算NNの、複数のクラスタのそれぞれに対応する重みを、特定の話者の音声の信号を基に、クラスタ重み計算NNを用いて計算する。なお、特定の話者は、例えば目的話者である。また、マスク計算部202は、特定の話者を含む1人以上の話者の音声の観測信号の特徴量から特定の話者の音声の特徴量を抽出するマスクを、1人以上の話者の音声の観測信号の特徴量を基に、クラスタ重み計算部222によって計算された重みで重み付けされたマスク計算NNを用いて計算する。なお、マスク計算NNは、第1のニューラルネットワークの一例である。また、クラスタ重み計算NNは、第2のニューラルネットワークの一例である。
記憶部240は、目的話者特徴量抽出部221で用いられる話者特徴量抽出モデルパラメータ、クラスタ重み計算部222で用いられるクラスタ重み計算NNパラメータ、及びマスク計算部202で用いられるマスク計算NNパラメータを記憶する。ただし、学習開始時点においては、話者特徴量抽出モデルパラメータ、クラスタ重み計算NNパラメータ、マスク計算NNパラメータの各々に適当な初期値(ランダムな初期値)が設定されているものとする。
マスク計算ニューラルネットワーク学習装置20は、例えば、マスク計算装置10で用いられるマスク計算NNパラメータ及びクラスタ重み計算NNパラメータの学習を行う。マスク計算ニューラルネットワーク学習装置20は、学習用観測信号及び適応用目的信号及び正解マスクを用いて学習を行う。
マスク計算ニューラルネットワーク学習装置20は、誤差逆伝搬とSGD(Stochastic Gradient Descent)を用いて学習を行う(参考文献:S. Haykin, Neural Networks, “A Comprehensive Foundation,” Prentice Hall PTR, Upper Saddle River, NJ, USA, 2nd edition, 1999.)。まず、エラー計算部203は、マスク計算装置10で計算されたマスクM(t)と正解マスク^M(t)に基づいて、式(16)のようにエラーδを計算する。
Figure 2019017403
なお、マスク計算ニューラルネットワーク学習装置20は、正解マスクを用いることなく、計算した目的音声の歪及び距離の最小化基準や、音声認識の基準により学習を行ってもよい。また、マスク計算ニューラルネットワーク学習装置20が学習を行う際の手法はSGDに限られない。マスク計算ニューラルネットワーク学習装置20は、例えばAdam及びAdagrad等を用いて学習を行ってもよい。
マスク計算NNパラメータ微分値計算部204は、マスク計算NNとクラスタ重み計算NNを結合されたNNとみなし、当該結合されたNNに対し誤差逆伝搬を行うことで、マスク計算NNのパラメータの微分値を計算する。また、マスク計算NNパラメータ更新部205は、マスク計算NNパラメータ微分値計算部204によって計算されたパラメータの微分値を基に、マスク計算NNのパラメータを更新する。つまり、マスク計算NNパラメータ更新部205は、記憶部240に記憶されているマスク計算NNのパラメータの値を更新後の値に更新する。
マスク計算NNパラメータ更新部205は、式(17)のようにマスク計算NNパラメータ^θ(l)の更新を行う。
Figure 2019017403
ただし、^θ(l)は、更新後のマスク計算NNパラメータである。また、θ(l)は、更新前のマスク計算NNパラメータである。また、η(δJ/δθ(l))(式(17)の右辺の第2項)は、マスク計算NNパラメータ微分値計算部204によって計算されるマスク計算NNのパラメータの微分値である。また、Jは最適化基準(例えばCross Entropy)を表す。また、ηは、ラーニングレートのパラメータであり、例えば0.1〜0.0001程度の小さい値を取る。
クラスタ重み計算NNパラメータ微分値計算部223は、結合されたNNに対し誤差逆伝搬を行うことで、クラスタ重み計算NNのパラメータの微分値を計算する。また、クラスタ重み計算NNパラメータ更新部224は、クラスタ重み計算NNパラメータ微分値計算部223によって計算されたクラスタ重み計算NNパラメータの微分値を基に、クラスタ重み計算NNのパラメータを更新する。つまり、クラスタ重み計算NNパラメータ更新部224は、記憶部240に記憶されているクラスタ重み計算NNのパラメータの値を更新後の値に更新する。
クラスタ重み計算NNパラメータ更新部224は、式(18)のようにクラスタ重み計算NNパラメータ^λの更新を行う。つまり、クラスタ重み計算NNパラメータ更新部224は、記憶部240に記憶されているクラスタ重み計算NNパラメータの値を更新後の値に更新する。
Figure 2019017403
ただし、^λは、更新後のクラスタ重み計算NNパラメータである。また、λは、更新前のクラスタ重み計算NNパラメータである。また、η´(δJ/δλ)(式(18)の右辺の第2項)は、クラスタ重み計算NNパラメータ微分値計算部223によって計算されるクラスタ重み計算NNのパラメータの微分値である。また、Jは最適化基準(例えばCross Entropy)を表す。また、η´は、ラーニングレートのパラメータであり、例えば0.1〜0.0001程度の小さい値を取る。
収束判定部206は、モデルパラメータ群を受け取り、各モデルパラメータの学習が収束したか否かを判定する。収束判定部206は、収束したと判定した場合、収束時の各モデルパラメータをマスク計算ニューラルネットワーク学習装置20の出力値として出力する。モデルパラメータには、マスク計算NNパラメータ及びクラスタ重み計算NNパラメータが含まれる。
一方、収束判定部206は、収束していないと判定した場合、収束判定部206は、クラスタ重み計算部222、マスク計算部202、エラー計算部203、マスク計算NNパラメータ微分値計算部204、マスク計算NNパラメータ更新部205、クラスタ重み計算NNパラメータ微分値計算部223、クラスタ重み計算NNパラメータ更新部224に処理を繰り返すように制御信号を出力する。
また、収束判定部206は、例えば、更新前後のパラメータの差分が閾値以下になった場合、繰り返し回数が所定回数以上になった場合、学習用音声の一部を用いてモデルの性能を評価した際に性能が悪化した場合等に収束したと判定する。要するに、収束判定部206は、記憶部240モデルパラメータに基づきNNで計算されたマスクが所定の基準を満たすまで、クラスタ重み計算部222に戻って、マスクの推定とNNのパラメータの更新処理を繰り返すよう制御する。所定の条件を満たしたら、マスク計算ニューラルネットワーク学習装置20は学習処理を終了する。このとき記憶部240に記憶されているNNのパラメータの値が、学習後のNNのパラメータである。
図6は、第1の実施形態に係るマスク計算ニューラルネットワーク学習装置の処理の流れを示すフローチャートである。図6に示すように、まず、特徴量抽出部201は、観測信号を読み込む(ステップS201)。また、目的話者特徴量抽出部221は、適応用目的話者信号を読み込む(ステップS202)。
このとき、目的話者特徴量抽出部221は、記憶部240から話者特徴量抽出モデルパラメータを読み込んでおく(ステップS203)。また、クラスタ重み計算部222は、記憶部240からクラスタ重み計算NNパラメータを読み込んでおく(ステップS204)。また、マスク計算部202は、記憶部240からマスク計算NNパラメータを読み込んでおく(ステップS205)。
次に、特徴量抽出部201は、観測信号から特徴量を抽出する(ステップS206)。また、目的話者特徴量抽出部221は、適応用目的話者信号から目的話者特徴量を抽出する(ステップS207)。
ここで、クラスタ重み計算部222は、クラスタ重み計算NNパラメータ及び目的話者特徴量を基にクラスタ重みを計算する(ステップS208)。また、マスク計算部202は、特徴量及びマスク計算NNパラメータを基にマスクを計算する(ステップS209)。エラー計算部203は、マスク計算部202によって計算されたマスクと正解マスクとに基づいてエラーを計算する(ステップS210)。
マスク計算NNパラメータ微分値計算部204は、マスク計算NNパラメータの微分値を計算する(ステップS211)。そして、マスク計算NNパラメータ更新部205は、マスク計算NNパラメータを更新する(ステップS212)。
クラスタ重み計算NNパラメータ微分値計算部223は、クラスタ重みNNパラメータの微分値を計算する(ステップS213)。そして、クラスタ重み計算NNパラメータ更新部224は、クラスタ重みNNパラメータを更新する(ステップS214)。
収束判定部206は、モデルパラメータが収束したか否かを判定する(ステップS215)。収束判定部206は、モデルパラメータが収束していないと判定した場合(ステップS215、No)、各処理部にステップS208〜S214をさらに実行させる。一方、収束判定部206は、モデルパラメータが収束したと判定した場合(ステップS215、Yes)、モデルパラメータを出力する(ステップS216)。
[第1の実施形態の効果]
特徴量抽出部101は、目的話者を含む1人以上の話者の音声を少なくとも含んだ音声の観測信号から特徴量を抽出する。また、目的話者特徴量抽出部121は、目的話者の音声の信号である適応用目的話者信号から目的話者特徴量を抽出する。また、マスク計算部102は、観測信号の特徴量及び目的話者特徴量に基づいて、観測信号から目的話者の音声を抽出するマスクを計算する。また、目的信号計算部103は、マスクに基づいて、観測信号から目的話者の音声の信号を計算する。このように、本実施形態では、目的話者特徴量から計算されたマスクを用いている。このため、観測した音声に複数の話者の音声が含まれる場合であっても、目的の話者の音声を取り出すことが可能となる。
目的話者特徴量抽出部121は、特定の話者の音声の信号から、特定の話者の音声の特徴量を抽出する。また、クラスタ重み計算部122は、少なくともいずれかの層が複数のクラスタに分解されたマスク計算NNの、複数のクラスタのそれぞれに対応する重みを、目的話者特徴量抽出部121によって抽出された特徴量をクラスタ重み計算NNに入力し計算する。また、マスク計算部102は、特定の話者を含む1人以上の話者の音声の観測信号の特徴量から特定の話者の音声の特徴量を抽出するマスクを、1人以上の話者の音声の観測信号の特徴量を基に、クラスタ重み計算部によって計算された重みで重み付けされたマスク計算NNを用いて計算する。このように、本実施形態では、マスク計算に用いられるNNの層のうち、複数のクラスタに分解された層の、目的話者の音声に対応したクラスタに重み付けがされるため、観測した音声に複数の話者の音声が含まれる場合であっても、目的の話者の音声を取り出すことが可能となる。
クラスタ重み計算部222は、少なくともいずれかの層が複数のクラスタに分解されたマスク計算NNの、複数のクラスタのそれぞれに対応する重みを、特定の話者の音声の信号を基に、クラスタ重み計算NNを用いて計算する。また、マスク計算部202は、特定の話者を含む1人以上の話者の音声の観測信号の特徴量から特定の話者の音声の特徴量を抽出するマスクを、1人以上の話者の音声の観測信号の特徴量を基に、クラスタ重み計算部222によって計算された重みで重み付けされたマスク計算NNを用いて計算する。マスク計算NNパラメータ微分値計算部204は、マスク計算NNとクラスタ重み計算NNを結合されたNNとみなし、当該結合されたNNに対し誤差逆伝搬を行うことで、マスク計算NNのパラメータの微分値を計算する。また、マスク計算NNパラメータ更新部205は、マスク計算NNパラメータ微分値計算部204によって計算されたパラメータの微分値を基に、マスク計算NNのパラメータを更新する。また、クラスタ重み計算NNパラメータ微分値計算部223は、結合されたNNに対し誤差逆伝搬を行うことで、クラスタ重み計算NNのパラメータの微分値を計算する。また、クラスタ重み計算NNパラメータ更新部224は、クラスタ重み計算NNパラメータ微分値計算部223によって計算されたクラスタ重み計算NNパラメータの微分値を基に、クラスタ重み計算NNのパラメータを更新する。このように、マスク計算に用いられるNNとクラスタ重み計算に用いられるNNを結合することで、パラメータの同時最適化が可能となる。
[第2の実施形態]
ここで、第2の実施形態に係るマスク計算装置について説明する。図3に示すように、第1の実施形態では、クラスタ重みは、適応用目的話者信号から抽出された目的話者特徴量を基に計算される。一方、第2の実施形態では、クラスタ重みは、適応用目的話者信号から直接計算される。
<第2の実施形態に係るマスク計算装置>
図7を用いて、第2の実施形態に係るマスク計算装置の構成について説明する。図7は、第2の実施形態に係るマスク計算装置の構成の一例を示す図である。図7に示すように、マスク計算装置30は、特徴量抽出部301、マスク計算部302、目的信号計算部303、クラスタ重み計算部322及び記憶部340を有する。
特徴量抽出部301、マスク計算部302及び目的信号計算部303は、それぞれマスク計算装置10の特徴量抽出部101、マスク計算部102及び目的信号計算部103と同様の処理を行う。つまり、マスク計算部302は、特定の話者を含む1人以上の話者の音声の観測信号の特徴量から特定の話者の音声の特徴量を抽出するマスクを、1人以上の話者の音声の観測信号の特徴量を基に、クラスタ重み計算部322によって計算された重みで重み付けされたマスク計算NNを用いて計算する。
ここで、特徴量抽出部301は、特徴量として、MFCC(Mel Frequency Cepstral Coefficient)、LMFC(log Mel Filterbank coefficients)、ΔMFCC(MFCCの1回微分)、ΔΔMFCC(MFCCの2回微分)、対数パワー、Δ対数パワー(対数パワーの1回微分)等を抽出することができる。また、特徴量抽出部301は、複数の特徴量を組み合わせたものを特徴量として抽出してもよい。
ここで、マスク計算装置10のクラスタ重み計算部122が目的話者特徴量を基にクラスタ重みを計算するのに対し、クラスタ重み計算部322は、適応用目的話者信号を基にクラスタ重みを計算する。つまり、クラスタ重み計算部322は、少なくともいずれかの層が複数のクラスタに分解されたマスク計算NNの、複数のクラスタのそれぞれに対応する重みを、特定の話者の音声の信号を基に、クラスタ重み計算NNを用いて計算する。
クラスタ重み計算部322は、適応用目的話者信号S (s)を入力とし、クラスタ重み計算NNパラメータμが設定されたNNによりクラスタ重みを計算して出力する。クラスタ重み計算部322は、式(19)のようにクラスタ重みのベクトルαを計算する。なお、l(・,μ)は音声信号からクラスタ重みを計算するためのNNである。
Figure 2019017403
また、適応用目的話者信号S (s)は、目的話者の音声だけが収録された音声データの音声特徴量の集合とすることができる。ここでは、クラスタ重み計算部322は、出力の時間平均をクラスタの重みベクトルαとしている。
また、記憶部340は、クラスタ重み計算部322で用いられるクラスタ重み計算NNパラメータ、及びマスク計算部302で用いられるマスク計算NNパラメータを記憶する。
図8は、第2の実施形態に係るマスク計算装置の処理の流れを示すフローチャートである。図8に示すように、まず、特徴量抽出部301は、観測信号を読み込む(ステップS301)。また、クラスタ重み計算部322は、適応用目的話者信号を読み込む(ステップS302)。
このとき、クラスタ重み計算部322は、記憶部340からクラスタ重み計算NNパラメータを読み込んでおく(ステップS303)。また、マスク計算部302は、記憶部340からマスク計算NNパラメータを読み込んでおく(ステップS304)。
次に、特徴量抽出部301は、観測信号から特徴量を抽出する(ステップS305)。ここで、クラスタ重み計算部322は、クラスタ重み計算NNパラメータ及び適応用目的話者信号を基にクラスタ重みを計算する(ステップS306)。また、マスク計算部302は、特徴量及びマスク計算NNパラメータを基にマスクを計算する(ステップS307)。そして、目的信号計算部303は、マスクを用いて観測信号から目的音声の信号を計算する(ステップS308)。その後、目的信号計算部303は、計算した目的音声の信号を出力する(ステップS309)。
[第2の実施形態の効果]
クラスタ重み計算部322は、少なくともいずれかの層が複数のクラスタに分解されたマスク計算NNの、複数のクラスタのそれぞれに対応する重みを、特定の話者の音声の信号を基に、クラスタ重み計算NNを用いて計算する。また、マスク計算部302は、特定の話者を含む1人以上の話者の音声の観測信号の特徴量から特定の話者の音声の特徴量を抽出するマスクを、1人以上の話者の音声の観測信号の特徴量を基に、クラスタ重み計算部322によって計算された重みで重み付けされたマスク計算NNを用いて計算する。本実施形態では、目的話者特徴量抽出のためのパラメータを用意する必要がなく、また、目的話者特徴量抽出のための計算を行う必要がないため、マスク計算を容易に行うことができる。
[第3の実施形態]
ここで、第3の実施形態に係るクラスタ重み学習装置について説明する。ここで、第1の実施形態のマスク計算ニューラルネットワーク学習装置20は、クラスタ重み計算NNパラメータ及びマスク計算NNパラメータの学習を行う。一方、第3の実施形態のクラスタ重み学習装置は、マスク計算ニューラルネットワーク学習装置20による学習と同様の方法で、クラスタ重みの再推定を行う。
例えば、目的話者の特徴と学習データの話者の特徴とが大幅に異なっている場合、第1の実施形態のクラスタ重み計算部122によって計算されるクラスタ重みでは、目的音声を精度良く抽出可能なマスクを計算することができない場合がある。このような場合、第3の実施形態のクラスタ重み学習装置を用いることで、クラスタ重みを再推定し、音声抽出の精度を向上させることができる。
<第3の実施形態に係るクラスタ重み学習装置>
図9を用いて、第1の実施形態に係るクラスタ重み学習装置の構成について説明する。図9は、第3の実施形態に係るクラスタ重み学習装置の構成の一例を示す図である。図9に示すように、クラスタ重み学習装置40は、特徴量抽出部401、マスク計算部402、エラー計算部403、クラスタ重み微分値計算部404、クラスタ重み更新部405、収束判定部406、目的話者特徴量抽出部421、クラスタ重み計算部422及び記憶部440を有する。
特徴量抽出部401、マスク計算部402、エラー計算部403、目的話者特徴量抽出部421、クラスタ重み計算部422は、それぞれマスク計算ニューラルネットワーク学習装置20の特徴量抽出部201、マスク計算部202、エラー計算部203、目的話者特徴量抽出部221及びクラスタ重み計算部222と同様の処理を行う。
つまり、クラスタ重み計算部422は、少なくともいずれかの層が複数のクラスタに分解されたマスク計算NNの、複数のクラスタのそれぞれに対応する重みを、特定の話者の音声の信号を基に、クラスタ重み計算NNを用いて計算する。
また、マスク計算部402は、特定の話者を含む1人以上の話者の音声の観測信号の特徴量から特定の話者の音声の特徴量を抽出するマスクを、1人以上の話者の音声の観測信号の特徴量を基に、クラスタ重み計算部422によって計算された重みで重み付けされたマスク計算NNを用いて計算する。
記憶部440は、目的話者特徴量抽出部421で用いられる話者特徴量抽出モデルパラメータ、クラスタ重み計算部422で用いられるクラスタ重み計算NNパラメータ、及びマスク計算部402で用いられるマスク計算NNパラメータを記憶する。
クラスタ重み学習装置40は、例えば、マスク計算ニューラルネットワーク学習装置20におけるマスク計算NNパラメータを学習する方法と同様の方法で、クラスタ重みの再推定を行う。このとき、クラスタ重み学習装置40は、目的話者の音声と他の話者の音声とを混ぜて作成された音声データから、目的話者の音声を抽出可能なマスクを正解マスクとすることができる。ここで、目的話者の音声と他の話者の音声とを混ぜて作成された観測信号を、適応用観測信号と呼ぶ。
クラスタ重み微分値計算部404は、マスク計算NNとクラスタ重み計算NNを結合されたNNとみなし、当該結合されたNNに対し誤差逆伝搬を行うことで、重みの微分値を計算する。また、クラスタ重み更新部405は、クラスタ重み微分値計算部404によって計算されたクラスタ重みの微分値を基に、クラスタ重みを更新する。
収束判定部406は、クラスタ重みが収束したか否かを判定する。収束判定部406は、収束したと判定した場合、収束時のクラスタ重みをクラスタ重み学習装置40の出力値として出力する。
一方、収束判定部406は、収束していないと判定した場合、更新後のクラスタ重みをマスク計算部402に出力する。そして、収束判定部406は、マスク計算部402、エラー計算部403、クラスタ重み微分値計算部404及びクラスタ重み更新部405に処理を繰り返すように制御信号を出力する。
図10は、第3の実施形態に係るクラスタ重み学習装置の処理の流れを示すフローチャートである。図10に示すように、まず、特徴量抽出部401は、適応用観測信号を読み込む(ステップS401)。また、目的話者特徴量抽出部421は、適応用目的話者信号を読み込む(ステップS402)。
このとき、目的話者特徴量抽出部421は、記憶部440から話者特徴量抽出モデルパラメータを読み込んでおく(ステップS403)。また、クラスタ重み計算部422は、記憶部440からクラスタ重み計算NNパラメータを読み込んでおく(ステップS404)。また、マスク計算部402は、記憶部440からマスク計算NNパラメータを読み込んでおく(ステップS405)。
次に、特徴量抽出部401は、観測信号から特徴量を抽出する(ステップS406)。また、目的話者特徴量抽出部421は、適応用目的話者信号から目的話者特徴量を抽出する(ステップS407)。
ここで、クラスタ重み計算部422は、クラスタ重み計算NNパラメータ及び目的話者特徴量を基にクラスタ重みを計算する(ステップS408)。また、マスク計算部402は、特徴量及びマスク計算NNパラメータを基にマスクを計算する(ステップS409)。エラー計算部403は、マスク計算部402によって計算されたマスクと正解マスクとに基づいてエラーを計算する(ステップS410)。
クラスタ重み微分値計算部404は、クラスタ重みの微分値を計算する(ステップS411)。そして、クラスタ重み更新部405は、クラスタ重みを更新する(ステップS412)。
収束判定部406は、クラスタ重みが収束したか否かを判定する(ステップS413)。収束判定部406は、モデルパラメータが収束していないと判定した場合(ステップS413、No)、各処理部にステップS409〜S412をさらに実行させる。一方、収束判定部406は、モデルパラメータが収束したと判定した場合(ステップS413、Yes)、モデルパラメータを出力する(ステップS414)。
[第3の実施形態の効果]
クラスタ重み計算部422は、少なくともいずれかの層が複数のクラスタに分解されたマスク計算NNの、複数のクラスタのそれぞれに対応する重みを、特定の話者の音声の信号を基に、クラスタ重み計算NNを用いて計算する。また、マスク計算部402は、特定の話者を含む1人以上の話者の音声の観測信号の特徴量から特定の話者の音声の特徴量を抽出するマスクを、1人以上の話者の音声の観測信号の特徴量を基に、クラスタ重み計算部422によって計算された重みで重み付けされたマスク計算NNを用いて計算する。また、クラスタ重み微分値計算部404は、マスク計算NNとクラスタ重み計算NNを結合されたNNとみなし、当該結合されたNNに対し誤差逆伝搬を行うことで、重みの微分値を計算する。また、クラスタ重み更新部405は、クラスタ重み微分値計算部404によって計算されたクラスタ重みの微分値を基に、クラスタ重みを更新する。これにより、1回の計算では、精度の良いマスクを計算することができない場合であっても、クラスタ重みを再推定することで、マスクの精度を向上させていくことができる。
[本発明と従来技術との比較]
表1に、本発明の各実施形態及び従来技術を用いて音声抽出を行った場合の実験結果を示す。表1のケプストラル距離(dB)は、抽出した目的音声の信号と実際の目的音声の信号のケプストラル距離である。また、音声抽出精度が高いほど、ケプストラル距離は小さくなる。
Figure 2019017403
本実験は、2人の話者が混ざった観測信号から目的話者の音声のみを抽出するものである。本実験では、8個のマイクロホンで音声を観測し、ビームフォーマによって出力する目的音声の信号を計算する。また、本実験では、マスク計算NNは、BLSTM層と、Relu関数をアクティベーション関数として持つ2つの全結合層と、sigmoid数をアクティベーション関数として持つ全結合層と、を有する。
表1の「観測音声」は、音声抽出を行わなかった場合の結果である。表1に示すように、音声抽出を行わなかった場合のケプストラル距離は5.23であった。また、表1の「Baseline」は、従来の目的話者抽出装置10aを用いて音声抽出を行った場合の結果である。表1に示すように、「Baseline」のケプストラル距離は5.86であった。このように、従来の従来の目的話者抽出装置10aでは、観測信号と比べてケプストラル距離が改善されていない。
表1の「本発明(ivector)」は、本発明の第1の実施形態において、ivectorを用いて目的話者特徴量の抽出を行い、音声抽出を行った場合の結果である。表1に示すように、「本発明(ivector)」のケプストラル距離は3.91であった。
表1の「本発明(話者の事後確率)」は、本発明の第1の実施形態において、話者の事後確率を用いて目的話者特徴量の抽出を行い、音声抽出を行った場合の結果である。表1に示すように、「本発明(話者の事後確率)」のケプストラル距離は4.11であった。
表1の「本発明(adaptation)」は、本発明の第1の実施形態のマスク計算装置10を用いてクラスタ重みを計算し、さらに、本発明の第3の実施形態のクラスタ重み学習装置40を用いてクラスタ重みの再推定を行った上で、音声抽出を行った場合の結果である。表1に示すように、「本発明(adaptation)」のケプストラル距離は3.86であった。
表1の「本発明(sequence summary)」は、本発明の第2の実施形態のマスク計算装置30を用いて音声抽出を行った場合の結果である。表1に示すように、「本発明(sequence summary)」のケプストラル距離は3.67であった。
表1に示すように、従来の目的話者抽出装置10aでは、観測信号と比べてケプストラル距離が改善されなかったのに対し、本実施形態の各手法を用いた場合はケプストラル距離が改善された。これより、本発明の各実施形態は、目的音声抽出の精度向上に有効であることがいえる。
[システム構成等]
また、図示した各装置の各構成要素は機能概念的なものであり、必ずしも物理的に図示のように構成されていることを要しない。すなわち、各装置の分散・統合の具体的形態は図示のものに限られず、その全部又は一部を、各種の負荷や使用状況等に応じて、任意の単位で機能的又は物理的に分散・統合して構成することができる。さらに、各装置にて行われる各処理機能は、その全部又は任意の一部が、CPU及び当該CPUにて解析実行されるプログラムにて実現され、あるいは、ワイヤードロジックによるハードウェアとして実現され得る。
また、本実施形態において説明した各処理のうち、自動的に行われるものとして説明した処理の全部又は一部を手動的に行うこともでき、あるいは、手動的に行われるものとして説明した処理の全部又は一部を公知の方法で自動的に行うこともできる。この他、上記文書中や図面中で示した処理手順、制御手順、具体的名称、各種のデータやパラメータを含む情報については、特記する場合を除いて任意に変更することができる。
[プログラム]
一実施形態として、マスク計算装置10は、パッケージソフトウェアやオンラインソフトウェアとして上記のマスクの計算を実行するマスク計算プログラムを所望のコンピュータにインストールさせることによって実装できる。例えば、上記のマスク計算プログラムを情報処理装置に実行させることにより、情報処理装置をマスク計算装置10として機能させることができる。ここで言う情報処理装置には、デスクトップ型又はノート型のパーソナルコンピュータが含まれる。また、その他にも、情報処理装置にはスマートフォン、携帯電話機やPHS(Personal Handyphone System)等の移動体通信端末、さらには、PDA(Personal Digital Assistant)等のスレート端末等がその範疇に含まれる。
また、マスク計算装置10は、ユーザが使用する端末装置をクライアントとし、当該クライアントに上記のマスク計算に関するサービスを提供するマスク計算サーバ装置として実装することもできる。例えば、マスク計算サーバ装置は、観測信号及び適応用目的話者信号を入力とし、目的音声の信号を抽出するためのマスクを出力とするマスク計算サービスを提供するサーバ装置として実装される。この場合、マスク計算サーバ装置は、Webサーバとして実装することとしてもよいし、アウトソーシングによって上記のマスク計算に関するサービスを提供するクラウドとして実装することとしてもかまわない。
図11は、プログラムを実行するコンピュータの一例を示す図である。コンピュータ1000は、例えば、メモリ1010、CPU1020を有する。また、コンピュータ1000は、ハードディスクドライブインタフェース1030、ディスクドライブインタフェース1040、シリアルポートインタフェース1050、ビデオアダプタ1060、ネットワークインタフェース1070を有する。これらの各部は、バス1080によって接続される。
メモリ1010は、ROM(Read Only Memory)1011及びRAM1012を含む。ROM1011は、例えば、BIOS(Basic Input Output System)等のブートプログラムを記憶する。ハードディスクドライブインタフェース1030は、ハードディスクドライブ1090に接続される。ディスクドライブインタフェース1040は、ディスクドライブ1100に接続される。例えば磁気ディスクや光ディスク等の着脱可能な記憶媒体が、ディスクドライブ1100に挿入される。シリアルポートインタフェース1050は、例えばマウス1110、キーボード1120に接続される。ビデオアダプタ1060は、例えばディスプレイ1130に接続される。
ハードディスクドライブ1090は、例えば、OS1091、アプリケーションプログラム1092、プログラムモジュール1093、プログラムデータ1094を記憶する。すなわち、マスク計算装置10の各処理を規定するプログラムは、コンピュータにより実行可能なコードが記述されたプログラムモジュール1093として実装される。プログラムモジュール1093は、例えばハードディスクドライブ1090に記憶される。例えば、マスク計算装置10における機能構成と同様の処理を実行するためのプログラムモジュール1093が、ハードディスクドライブ1090に記憶される。なお、ハードディスクドライブ1090は、SSDにより代替されてもよい。
また、上述した実施形態の処理で用いられる設定データは、プログラムデータ1094として、例えばメモリ1010やハードディスクドライブ1090に記憶される。そして、CPU1020が、メモリ1010やハードディスクドライブ1090に記憶されたプログラムモジュール1093やプログラムデータ1094を必要に応じてRAM1012に読み出して実行する。
なお、プログラムモジュール1093やプログラムデータ1094は、ハードディスクドライブ1090に記憶される場合に限らず、例えば着脱可能な記憶媒体に記憶され、ディスクドライブ1100等を介してCPU1020によって読み出されてもよい。あるいは、プログラムモジュール1093及びプログラムデータ1094は、ネットワーク(LAN(Local Area Network)、WAN(Wide Area Network)等)を介して接続された他のコンピュータに記憶されてもよい。そして、プログラムモジュール1093及びプログラムデータ1094は、他のコンピュータから、ネットワークインタフェース1070を介してCPU1020によって読み出されてもよい。
プログラムモジュール1093は、マスク計算装置10、マスク計算ニューラルネットワーク学習装置20、マスク計算装置30、又はクラスタ重み学習装置40のうちの少なくとも1つの各処理を規定するプログラムとすることができる。
10、30 マスク計算装置
20 マスク計算ニューラルネットワーク学習装置
40 クラスタ重み学習装置
101、201、301、401 特徴量抽出部
102、202、302、402 マスク計算部
103、303 目的信号計算部
121、221、421 目的話者特徴量抽出部
122、222、322、422 クラスタ重み計算部
140、240、340、440 記憶部
203、403 エラー計算部
204 マスク計算NNパラメータ微分値計算部
205 マスク計算NNパラメータ更新部
206、406 収束判定部
223 クラスタ重み計算NNパラメータ微分値計算部
224 クラスタ重み計算NNパラメータ更新部
404 クラスタ重み微分値計算部
405 クラスタ重み更新部

Claims (8)

  1. 目的話者を含む1人以上の話者の音声を少なくとも含んだ音声の観測信号から特徴量を抽出する特徴量抽出部と、
    前記観測信号の特徴量及び目的話者の音声の信号である適応用目的話者信号に基づいて、前記観測信号から前記目的話者の音声を抽出するマスクを計算するマスク計算部と、
    前記マスクに基づいて、前記観測信号から前記目的話者の音声の信号を計算する目的信号計算部と、
    を有することを特徴とするマスク計算装置。
  2. 少なくともいずれかの層が複数のクラスタに分解された第1のニューラルネットワークの、前記複数のクラスタのそれぞれに対応する重みを、前記適応用目的話者信号を基に、第2のニューラルネットワークを用いて計算するクラスタ重み計算部をさらに有し、
    前記マスク計算部は、前記マスクを、前記観測信号の特徴量を基に、前記クラスタ重み計算部によって計算された重みで重み付けされた前記第1のニューラルネットワークを用いて計算することを特徴とする請求項1に記載のマスク計算装置。
  3. 前記マスク計算部は、前記第1のニューラルネットワークに前記観測信号の特徴量を入力することで得られる、前記複数のクラスタの各々の出力である中間状態を、前記クラスタ重み計算部で計算した前記複数のクラスタの各々に対応する重みで重み付けした中間状態を用いて、前記マスクを計算することを特徴とする請求項2に記載のマスク計算装置。
  4. 少なくともいずれかの層が複数のクラスタに分解された第1のニューラルネットワークの、前記複数のクラスタのそれぞれに対応する重みを、特定の話者の音声の信号を基に、第2のニューラルネットワークを用いて計算するクラスタ重み計算部と、
    前記特定の話者を含む1人以上の話者の音声の観測信号の特徴量から前記特定の話者の音声の特徴量を抽出するマスクを、前記1人以上の話者の音声の観測信号の特徴量を基に、前記クラスタ重み計算部によって計算された重みで重み付けされた前記第1のニューラルネットワークを用いて計算するマスク計算部と、
    前記第1のニューラルネットワークと前記第2のニューラルネットワークを結合されたニューラルネットワークとみなし、当該結合されたニューラルネットワークに対し誤差逆伝搬を行うことで、前記重みの微分値を計算するクラスタ重み微分値計算部と、
    前記クラスタ重み微分値計算部によって計算された前記クラスタ重みの微分値を基に、前記クラスタ重みを更新するクラスタ重み更新部と、
    を有することを特徴とするクラスタ重み学習装置。
  5. 少なくともいずれかの層が複数のクラスタに分解された第1のニューラルネットワークの、前記複数のクラスタのそれぞれに対応する重みを、特定の話者の音声の信号を基に、第2のニューラルネットワークを用いて計算するクラスタ重み計算部と、
    前記特定の話者を含む1人以上の話者の音声の観測信号の特徴量から前記特定の話者の音声の特徴量を抽出するマスクを、前記1人以上の話者の音声の観測信号の特徴量を基に、前記クラスタ重み計算部によって計算された重みで重み付けされた前記第1のニューラルネットワークを用いて計算するマスク計算部と、
    前記第1のニューラルネットワークと前記第2のニューラルネットワークを結合されたニューラルネットワークとみなし、当該結合されたニューラルネットワークに対し誤差逆伝搬を行うことで、前記第1のニューラルネットワークのパラメータの微分値を計算する第1のパラメータ微分値計算部と、
    前記第1のパラメータ微分値計算部によって計算されたパラメータの微分値を基に、前記第1のニューラルネットワークのパラメータを更新する第1のパラメータ更新部と、
    前記結合されたニューラルネットワークに対し誤差逆伝搬を行うことで、前記第2のニューラルネットワークのパラメータの微分値を計算する第2のパラメータ微分値計算部と、
    前記第2のパラメータ微分値計算部によって計算された前記第2のパラメータの微分値を基に、前記第2のニューラルネットワークのパラメータを更新する第2のパラメータ更新部と、
    を有することを特徴とするマスク計算ニューラルネットワーク学習装置。
  6. コンピュータによって実行されるマスク計算方法であって、
    目的話者を含む1人以上の話者の音声を少なくとも含んだ音声の観測信号から特徴量を抽出する特徴量抽出工程と、
    前記観測信号の特徴量及び目的話者の音声の信号である適応用目的話者信号に基づいて、前記観測信号から前記目的話者の音声を抽出するマスクを計算するマスク計算工程と、
    前記マスクに基づいて、前記観測信号から前記目的話者の音声の信号を計算する目的信号計算工程と、
    を含んだことを特徴とするマスク計算方法。
  7. コンピュータによって実行されるクラスタ重み学習方法であって、
    少なくともいずれかの層が複数のクラスタに分解された第1のニューラルネットワークの、前記複数のクラスタのそれぞれに対応する重みを、特定の話者の音声の信号を基に、第2のニューラルネットワークを用いて計算するクラスタ重み計算工程と、
    前記特定の話者を含む1人以上の話者の音声の観測信号の特徴量から前記特定の話者の音声の特徴量を抽出するマスクを、前記1人以上の話者の音声の観測信号の特徴量を基に、前記クラスタ重み計算工程によって計算された重みで重み付けされた前記第1のニューラルネットワークを用いて計算するマスク計算工程と、
    前記第1のニューラルネットワークと前記第2のニューラルネットワークを結合されたニューラルネットワークとみなし、当該結合されたニューラルネットワークに対し誤差逆伝搬を行うことで、前記重みの微分値を計算するクラスタ重み微分値計算工程と、
    前記クラスタ重み微分値計算工程によって計算された前記クラスタ重みの微分値を基に、前記クラスタ重みを更新するクラスタ重み更新工程と、
    を含んだことを特徴とするクラスタ重み学習方法。
  8. コンピュータによって実行されるマスク計算ニューラルネットワーク学習方法であって、
    少なくともいずれかの層が複数のクラスタに分解された第1のニューラルネットワークの、前記複数のクラスタのそれぞれに対応する重みを、特定の話者の音声の信号を基に、第2のニューラルネットワークを用いて計算するクラスタ重み計算工程と、
    前記特定の話者を含む1人以上の話者の音声の観測信号の特徴量から前記特定の話者の音声の特徴量を抽出するマスクを、前記1人以上の話者の音声の観測信号の特徴量を基に、前記クラスタ重み計算工程によって計算された重みで重み付けされた前記第1のニューラルネットワークを用いて計算するマスク計算工程と、
    前記第1のニューラルネットワークと前記第2のニューラルネットワークを結合されたニューラルネットワークとみなし、当該結合されたニューラルネットワークに対し誤差逆伝搬を行うことで、前記第1のニューラルネットワークのパラメータの微分値を計算する第1のパラメータ微分値計算工程と、
    前記第1のパラメータ微分値計算工程によって計算されたパラメータの微分値を基に、前記第1のニューラルネットワークのパラメータを更新する第1のパラメータ更新工程と、
    前記結合されたニューラルネットワークに対し誤差逆伝搬を行うことで、前記第2のニューラルネットワークのパラメータの微分値を計算する第2のパラメータ微分値計算工程と、
    前記第2のパラメータ微分値計算工程によって計算された前記第2のパラメータの微分値を基に、前記第2のニューラルネットワークのパラメータを更新する第2のパラメータ更新工程と、
    を含んだことを特徴とするマスク計算ニューラルネットワーク学習方法。
JP2019530576A 2017-07-19 2018-07-18 マスク計算装置、クラスタ重み学習装置、マスク計算ニューラルネットワーク学習装置、マスク計算方法、クラスタ重み学習方法及びマスク計算ニューラルネットワーク学習方法 Active JP6764028B2 (ja)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
JP2017140225 2017-07-19
JP2017140225 2017-07-19
PCT/JP2018/026960 WO2019017403A1 (ja) 2017-07-19 2018-07-18 マスク計算装置、クラスタ重み学習装置、マスク計算ニューラルネットワーク学習装置、マスク計算方法、クラスタ重み学習方法及びマスク計算ニューラルネットワーク学習方法

Publications (2)

Publication Number Publication Date
JPWO2019017403A1 true JPWO2019017403A1 (ja) 2019-11-21
JP6764028B2 JP6764028B2 (ja) 2020-09-30

Family

ID=65015161

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2019530576A Active JP6764028B2 (ja) 2017-07-19 2018-07-18 マスク計算装置、クラスタ重み学習装置、マスク計算ニューラルネットワーク学習装置、マスク計算方法、クラスタ重み学習方法及びマスク計算ニューラルネットワーク学習方法

Country Status (4)

Country Link
US (1) US11763834B2 (ja)
JP (1) JP6764028B2 (ja)
CN (1) CN110914899B (ja)
WO (1) WO2019017403A1 (ja)

Families Citing this family (46)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8977255B2 (en) 2007-04-03 2015-03-10 Apple Inc. Method and system for operating a multi-function portable electronic device using voice-activation
US8676904B2 (en) 2008-10-02 2014-03-18 Apple Inc. Electronic devices with voice command and contextual data processing capabilities
KR102103057B1 (ko) 2013-02-07 2020-04-21 애플 인크. 디지털 어시스턴트를 위한 음성 트리거
US10170123B2 (en) 2014-05-30 2019-01-01 Apple Inc. Intelligent assistant for home automation
US9338493B2 (en) 2014-06-30 2016-05-10 Apple Inc. Intelligent automated assistant for TV user interactions
US10747498B2 (en) 2015-09-08 2020-08-18 Apple Inc. Zero latency digital assistant
US10691473B2 (en) 2015-11-06 2020-06-23 Apple Inc. Intelligent automated assistant in a messaging environment
DK201670540A1 (en) 2016-06-11 2018-01-08 Apple Inc Application integration with a digital assistant
DK180048B1 (en) 2017-05-11 2020-02-04 Apple Inc. MAINTAINING THE DATA PROTECTION OF PERSONAL INFORMATION
DK201770429A1 (en) 2017-05-12 2018-12-14 Apple Inc. LOW-LATENCY INTELLIGENT AUTOMATED ASSISTANT
DK179496B1 (en) 2017-05-12 2019-01-15 Apple Inc. USER-SPECIFIC Acoustic Models
US10928918B2 (en) 2018-05-07 2021-02-23 Apple Inc. Raise to speak
DK180639B1 (en) 2018-06-01 2021-11-04 Apple Inc DISABILITY OF ATTENTION-ATTENTIVE VIRTUAL ASSISTANT
US11462215B2 (en) 2018-09-28 2022-10-04 Apple Inc. Multi-modal inputs for voice commands
US11475898B2 (en) * 2018-10-26 2022-10-18 Apple Inc. Low-latency multi-speaker speech recognition
JP7112348B2 (ja) * 2019-02-13 2022-08-03 日本電信電話株式会社 信号処理装置、信号処理方法及び信号処理プログラム
JP7131424B2 (ja) * 2019-02-18 2022-09-06 日本電信電話株式会社 信号処理装置、学習装置、信号処理方法、学習方法及びプログラム
WO2020183845A1 (ja) * 2019-03-08 2020-09-17 日本電気株式会社 音響処理方法
JP7027365B2 (ja) * 2019-03-13 2022-03-01 株式会社東芝 信号処理装置、信号処理方法およびプログラム
US11348573B2 (en) 2019-03-18 2022-05-31 Apple Inc. Multimodality in digital assistant systems
WO2020208926A1 (ja) * 2019-04-08 2020-10-15 ソニー株式会社 信号処理装置、信号処理方法及びプログラム
WO2020207593A1 (en) * 2019-04-11 2020-10-15 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Audio decoder, apparatus for determining a set of values defining characteristics of a filter, methods for providing a decoded audio representation, methods for determining a set of values defining characteristics of a filter and computer program
DK201970509A1 (en) 2019-05-06 2021-01-15 Apple Inc Spoken notifications
US11307752B2 (en) 2019-05-06 2022-04-19 Apple Inc. User configurable task triggers
US11140099B2 (en) 2019-05-21 2021-10-05 Apple Inc. Providing message response suggestions
JP7176627B2 (ja) * 2019-05-28 2022-11-22 日本電気株式会社 信号抽出システム、信号抽出学習方法および信号抽出学習プログラム
US11227599B2 (en) 2019-06-01 2022-01-18 Apple Inc. Methods and user interfaces for voice-based control of electronic devices
CN110164470A (zh) * 2019-06-12 2019-08-23 成都嗨翻屋科技有限公司 人声分离方法、装置、用户终端及存储介质
CN110136737A (zh) * 2019-06-18 2019-08-16 北京拙河科技有限公司 一种语音降噪方法及装置
WO2021033222A1 (ja) * 2019-08-16 2021-02-25 日本電信電話株式会社 音声信号処理装置、音声信号処理方法、音声信号処理プログラム、学習装置、学習方法及び学習プログラム
US11158329B2 (en) * 2019-09-11 2021-10-26 Artificial Intelligence Foundation, Inc. Identification of fake audio content
KR20210032105A (ko) * 2019-09-16 2021-03-24 한국전자통신연구원 랭킹 기반 네트워크 임베딩을 이용한 군집화 방법 및 장치
US20230080876A1 (en) 2020-03-12 2023-03-16 Nec Carporation Image processing apparatus, image recognition system, and image processing method
US11061543B1 (en) 2020-05-11 2021-07-13 Apple Inc. Providing relevant data items based on context
JP7376895B2 (ja) * 2020-05-27 2023-11-09 日本電信電話株式会社 学習装置、学習方法、学習プログラム、生成装置、生成方法及び生成プログラム
JP7376896B2 (ja) * 2020-05-27 2023-11-09 日本電信電話株式会社 学習装置、学習方法、学習プログラム、生成装置、生成方法及び生成プログラム
WO2021252912A1 (en) * 2020-06-11 2021-12-16 Dolby Laboratories Licensing Corporation Separation of panned sources from generalized stereo backgrounds using minimal training
CN111817767B (zh) * 2020-06-30 2022-07-26 山西省信息产业技术研究院有限公司 一种基于动态优化策略的mvdr波束成形方法
US11490204B2 (en) 2020-07-20 2022-11-01 Apple Inc. Multi-device audio adjustment coordination
US11438683B2 (en) 2020-07-21 2022-09-06 Apple Inc. User identification using headphones
CA3193267A1 (en) * 2020-09-14 2022-03-17 Pindrop Security, Inc. Speaker specific speech enhancement
JP6942900B1 (ja) * 2021-04-12 2021-09-29 望 窪田 情報処理装置、情報処理方法及びプログラム
CN113921030B (zh) * 2021-12-07 2022-06-07 江苏清微智能科技有限公司 一种基于加权语音损失的语音增强神经网络训练方法及装置
WO2023127057A1 (ja) * 2021-12-27 2023-07-06 日本電信電話株式会社 信号フィルタリング装置、信号フィルタリング方法及びプログラム
JPWO2023223529A1 (ja) * 2022-05-20 2023-11-23
CN115273883A (zh) * 2022-09-27 2022-11-01 成都启英泰伦科技有限公司 卷积循环神经网络、语音增强方法及装置

Family Cites Families (25)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5155801A (en) 1990-10-09 1992-10-13 Hughes Aircraft Company Clustered neural networks
JPH0566795A (ja) 1991-09-06 1993-03-19 Gijutsu Kenkyu Kumiai Iryo Fukushi Kiki Kenkyusho 雑音抑圧装置とその調整装置
AU720511B2 (en) * 1995-08-24 2000-06-01 British Telecommunications Public Limited Company Pattern recognition
JP3754614B2 (ja) * 2000-12-19 2006-03-15 シャープ株式会社 話者特徴抽出装置および話者特徴抽出方法、音声認識装置、音声合成装置、並びに、プログラム記録媒体
JP4301896B2 (ja) * 2003-08-22 2009-07-22 シャープ株式会社 信号分析装置、音声認識装置、プログラム、記録媒体、並びに電子機器
CN100463049C (zh) * 2003-09-02 2009-02-18 日本电信电话株式会社 信号分离方法以及信号分离装置
US20080010065A1 (en) * 2006-06-05 2008-01-10 Harry Bratt Method and apparatus for speaker recognition
JP2010066478A (ja) * 2008-09-10 2010-03-25 Toyota Motor Corp 雑音抑制装置及び雑音抑制方法
US8498863B2 (en) * 2009-09-04 2013-07-30 Massachusetts Institute Of Technology Method and apparatus for audio source separation
EP2499637A1 (en) * 2009-11-12 2012-09-19 Agnitio S.L. Speaker recognition from telephone calls
JP2011203414A (ja) * 2010-03-25 2011-10-13 Toyota Motor Corp 雑音及び残響抑圧装置及びその方法
JP5568530B2 (ja) * 2011-09-06 2014-08-06 日本電信電話株式会社 音源分離装置とその方法とプログラム
US9746916B2 (en) * 2012-05-11 2017-08-29 Qualcomm Incorporated Audio user interaction recognition and application interface
US9401153B2 (en) * 2012-10-15 2016-07-26 Digimarc Corporation Multi-mode audio recognition and auxiliary data encoding and decoding
WO2014125736A1 (ja) * 2013-02-14 2014-08-21 ソニー株式会社 音声認識装置、および音声認識方法、並びにプログラム
US9401148B2 (en) * 2013-11-04 2016-07-26 Google Inc. Speaker verification using neural networks
US9858919B2 (en) * 2013-11-27 2018-01-02 International Business Machines Corporation Speaker adaptation of neural network acoustic models using I-vectors
US10360901B2 (en) * 2013-12-06 2019-07-23 Nuance Communications, Inc. Learning front-end speech recognition parameters within neural network training
US9390712B2 (en) * 2014-03-24 2016-07-12 Microsoft Technology Licensing, Llc. Mixed speech recognition
CN104008751A (zh) * 2014-06-18 2014-08-27 周婷婷 一种基于bp神经网络的说话人识别方法
US20160189730A1 (en) * 2014-12-30 2016-06-30 Iflytek Co., Ltd. Speech separation method and system
US9818431B2 (en) * 2015-12-21 2017-11-14 Microsoft Technoloogy Licensing, LLC Multi-speaker speech separation
US9584946B1 (en) * 2016-06-10 2017-02-28 Philip Scott Lyren Audio diarization system that segments audio input
CN106951512A (zh) * 2017-03-17 2017-07-14 深圳市唯特视科技有限公司 一种基于混合编码网络的端到端对话控制方法
US10468032B2 (en) * 2017-04-10 2019-11-05 Intel Corporation Method and system of speaker recognition using context aware confidence modeling

Also Published As

Publication number Publication date
CN110914899B (zh) 2023-10-24
CN110914899A (zh) 2020-03-24
JP6764028B2 (ja) 2020-09-30
WO2019017403A1 (ja) 2019-01-24
US20200143819A1 (en) 2020-05-07
US11763834B2 (en) 2023-09-19

Similar Documents

Publication Publication Date Title
JP6764028B2 (ja) マスク計算装置、クラスタ重み学習装置、マスク計算ニューラルネットワーク学習装置、マスク計算方法、クラスタ重み学習方法及びマスク計算ニューラルネットワーク学習方法
JP6637078B2 (ja) 音響モデル学習装置、音響モデル学習方法及びプログラム
US10347241B1 (en) Speaker-invariant training via adversarial learning
JP6434657B2 (ja) 空間相関行列推定装置、空間相関行列推定方法および空間相関行列推定プログラム
JP6350148B2 (ja) 話者インデキシング装置、話者インデキシング方法及び話者インデキシング用コンピュータプログラム
JP6517760B2 (ja) マスク推定用パラメータ推定装置、マスク推定用パラメータ推定方法およびマスク推定用パラメータ推定プログラム
JPWO2009133719A1 (ja) 音響モデル学習装置および音声認識装置
JP6992709B2 (ja) マスク推定装置、マスク推定方法及びマスク推定プログラム
JP6538624B2 (ja) 信号処理装置、信号処理方法および信号処理プログラム
WO2020170907A1 (ja) 信号処理装置、学習装置、信号処理方法、学習方法及びプログラム
JP6711765B2 (ja) 形成装置、形成方法および形成プログラム
JP7423056B2 (ja) 推論器および推論器の学習方法
JP7112348B2 (ja) 信号処理装置、信号処理方法及び信号処理プログラム
WO2019194300A1 (ja) 信号分析装置、信号分析方法および信号分析プログラム
JP6636973B2 (ja) マスク推定装置、マスク推定方法およびマスク推定プログラム
US11996086B2 (en) Estimation device, estimation method, and estimation program
JP2018031812A (ja) 音声データ処理装置、音声データ処理方法および音声データ処理プログラム
JP6612796B2 (ja) 音響モデル学習装置、音声認識装置、音響モデル学習方法、音声認識方法、音響モデル学習プログラム及び音声認識プログラム
Tran et al. Factorized Linear Input Network for Acoustic Model Adaptation in Noisy Conditions.
JP7424587B2 (ja) 学習装置、学習方法、推定装置、推定方法及びプログラム
Ito et al. Maximum-likelihood online speaker diarization in noisy meetings based on categorical mixture model and probabilistic spatial dictionary
JP2021167850A (ja) 信号処理装置、信号処理方法、信号処理プログラム、学習装置、学習方法及び学習プログラム
Abdel-Hamid et al. 2014 Index IEEE/ACM Transactions on Audio, Speech, and Language Processing Vol. 22

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20190724

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20200908

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20200910

R150 Certificate of patent or registration of utility model

Ref document number: 6764028

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150