WO2022101967A1

WO2022101967A1 - 音声信号変換モデル学習装置、音声信号変換装置、音声信号変換モデル学習方法及びプログラム

Info

Publication number: WO2022101967A1
Application number: PCT/JP2020/041881
Authority: WO
Inventors: 弘和亀岡
Original assignee: 日本電信電話株式会社
Priority date: 2020-11-10
Filing date: 2020-11-10
Publication date: 2022-05-19
Also published as: JP7498408B2; JPWO2022101967A1; US20230419977A1

Abstract

入力された音声信号である学習用入力データを取得する学習用データ取得部と、学習用入力データを学習段階変換先データに変換する変換学習モデルを実行する変換学習モデル実行部と、変換学習モデルを学習により更新する更新部と、を備え、音声特徴量の系列を表すベクトル空間上の関数あって所定の属性を有する音声信号である目標音声信号の音声特徴量の系列の分布を表す確率密度関数を目標特徴量分布関数とし、ベクトル空間の点であって前記学習用入力データの特徴量の系列を表す点を初期値点とし、ベクトル空間の点ｘを独立変数とする関数であって点ｘから目標特徴量分布関数上の停留点であって初期値点の最近接の停留点まで向かう経路の勾配を示す関数をスコア関数として、変換学習モデル実行部はスコア関数に基づき学習用入力データを変換し、更新部は変換学習モデルの更新においてスコア関数を更新する、音声信号変換モデル学習装置。

Description

音声信号変換モデル学習装置、音声信号変換装置、音声信号変換モデル学習方法及びプログラム

　本発明は、音声信号変換モデル学習装置、音声信号変換装置、音声信号変換モデル学習方法及びプログラムに関する。

　入力された音声の言語情報（発話文）を保持したまま非言語・パラ言語（話者性や発話様式など）のみを変換する技術を声質変換といい、テキスト音声合成の話者性変換、発声支援、音声強調、発音変換などへの応用が期待されている。声質変換の技術の１つとして、例えば機械学習を用いることが提案されている（非特許文献１及び２）。

C.-C. Hsu, H.-T. Hwang, Y.-C. Wu, Y. Tsao, and H.-M. Wang, "Voice conversion from non-parallel corpora using variational auto-encoder," in Proc. APSIPA, 2016. H. Kameoka, T. Kaneko, K. Tanaka, and N. Hojo, "StarGAN-VC: Non-parallel many-to-many voice conversion using star generative adversarial networks," in Proc. SLT, 2018, pp. 266-273

　しかしながら、これまで提案されてきた機械学習を用いる場合、変換元の音声信号のサンプルと正解データの音声信号のサンプルとの組を学習データとして用意する必要があった。さらに、その学習データが有する２つの音声信号のサンプルは、同一文が読み上げられたものである必要があった。例えば、変換元の音声信号のサンプルが「おはよう」という文が読み上げられた結果であれば、対応する正解データの音声信号のサンプルも「おはよう」という文が読み上げられたものでなければならなかった。このように、従来の技術では、用意すべき学習データに関して、変換元の音声信号のサンプルと正解データの音声信号のサンプルとはどちらも同一文が読み上げられたものでなければならないという制約があった。目標音声は、例えばユーザーが指示する属性等の予め定められた所定の属性を有する音声である。

　上記事情に鑑み、本発明は、機械学習を用いた声質変換の技術において学習に用いられるデータに課せられる制約を緩和する技術を提供することを目的としている。

　本発明の一態様は、入力された音声信号である学習用入力データを取得する学習用データ取得部と、前記学習用入力データを変換先の音声信号である学習段階変換先データに変換する機械学習のモデルである変換学習モデルを実行する変換学習モデル実行部と、前記変換学習モデルを学習により更新する更新部と、を備え、音声信号から得られる特徴量である音声特徴量の系列を表すベクトル空間上の関数あって所定の属性を有する音声信号である目標音声信号の音声特徴量の系列の分布を表す確率密度関数を目標特徴量分布関数とし、前記ベクトル空間の点であって前記学習用入力データの特徴量の系列を表す点を初期値点とし、前記ベクトル空間の点ｘを独立変数とする関数であり、前記点ｘから前記目標特徴量分布関数上の停留点であって、前記初期値点の最近接の停留点である最近接停留点まで向かう経路の勾配を示す関数をスコア関数として、前記変換学習モデル実行部は、前記スコア関数に基づき前記学習用入力データを前記学習段階変換先データに変換し、前記更新部は、前記変換学習モデルの更新において前記スコア関数を更新する、音声信号変換モデル学習装置である。

　本発明により、機械学習を用いた声質変換の技術において学習に用いられるデータに課せられる制約を緩和する技術を提供することが可能となる。

実施形態の音声信号変換システム１００の概要を説明する説明図。実施形態における変換学習モデルを説明する第１の説明図。実施形態におけるサンプリングの処理の一例を示す図。実施形態における音声信号変換モデル学習装置１のハードウェア構成の一例を示す図。実施形態における制御部１１の機能構成の一例を示す図。実施形態における変換学習モデル実行部１１２が実行する処理の流れの一例を示す図。実施形態における音声信号変換モデル学習装置１が実行する処理の流れの一例を示すフローチャート。実施形態における音声信号変換装置２のハードウェア構成の一例を示す図。実施形態における制御部２１の機能構成の一例を示す図。実施形態における音声信号変換装置２が実行する処理の流れの一例を示すフローチャート。実施形態の実験において用いられたスコア近似器のネットワーク構成を示す図。実施形態における既知話者条件の下でのＭＣＤの比較結果の一例を示す図。実施形態における未知話者条件の下でのＭＣＤの比較結果の一例を示す図。実施形態における音質のＭＯＳ評価結果の一例を示す図。実施形態における話者類似性のＭＯＳ評価結果の一例を示す図。

（実施形態）
　図１は、実施形態の音声信号変換システム１００の概要を説明する説明図である。音声信号変換システム１００は、変換元音声信号を、音属性が目標音声信号の有する音属性である音声信号に変換する。音声信号は音声を表す信号である。変換元音声信号は、音声信号変換システム１００による変換対象の音声信号である。音属性は、音に関する属性である。音属性は、例えば話者の性別である。音属性は、例えば話者を識別する識別子であってもよい。

　目標音声信号は、予め定められた所定の音属性を有する音声信号である。所定の音属性は例えばユーザー指示する音属性である。以下、目標音声信号が有する音属性を目標音属性という。以下、音声信号変換システム１００による変換元音声信号の変換先の音声信号を変換先音声信号という。そのため、変換先音声信号の音属性は変換元音声信号の音属性よりも目標音属性に近い。

　音声信号変換システム１００は、例えば目標音属性は女性が発した音という属性である場合であって変換元音属性は男性が発した音という属性である場合、男性の声の音声信号を女性の声の音声信号に変換する。変換元音属性とは、変換元音声信号の音属性である。

　以下、目標音属性を有する音声信号に変換元音声信号を変換する処理を、音声信号変換処理という。音声信号変換処理は、具体的には、音声信号変換モデルを実行する処理である。音声信号変換モデルは、予め学習済みの機械学習のモデルであって変換元音声信号を、目標音属性を有する音声信号に変換する機械学習のモデルである。そのため、音声信号変換モデルは、機械学習によって得られた結果であり、機械学習による学習結果である。

　音声信号変換システム１００は、音声信号変換モデル学習装置１及び音声信号変換装置２を備える。音声信号変換モデル学習装置１は、所定の機械学習のモデルを所定の終了条件が満たされるまで機械学習によって更新する。所定の終了条件が満たされた時点の所定の機械学習のモデルが音声信号変換モデルである。そのため、音声信号変換モデル学習装置１は、所定の終了条件が満たされるまで所定の機械学習のモデルを機械学習によって更新することで、音声信号変換モデルを取得する。音声信号変換装置２は、音声信号変換モデル学習装置１が得た音声信号変換モデルを用いて音声信号変換処理を実行する。

　以下説明の簡単のため、機械学習を行うことを学習ともいう。また、機械学習のモデル（以下「機械学習モデル」という。）を機械学習によって更新するとは、機械学習モデルにおけるパラメータの値を好適に調整することを意味する。以下の説明において、Ａであるように学習するとは、機械学習モデルにおけるパラメータの値がＡを満たすように調整されることを意味する。Ａは条件を表す。また、以下、学習用とは、機械学習モデルの更新に用いられることを意味する。なお、機械学習のモデルとは、実行される条件と順番とが予め定められた１又は複数の処理を含む集合である。

　音声信号変換モデル学習装置１が更新する所定の機械学習のモデル（以下「変換学習モデル」という。）は、入力された音声信号を変換する機械学習のモデルである。変換学習モデルには、学習用の音声信号であって変換対象の音声信号（以下「学習用入力データ」という。）が入力される。また、変換学習モデルには、学習用の音声信号であって変換学習モデルによる変換後の学習用入力データとの比較に用いられる音声信号（以下「学習用参照データ」という。）が入力される。すなわち、学習用参照データは、機械学習におけるいわゆる正解データである。以下、少なくとも１つの学習用入力データと１つの学習用参照データとの対を含むデータを学習用データという。すなわち、学習用データは、学習用入力データと学習用参照データの組を少なくとも含むデータであり、いわゆる学習データの一例である。

　変換学習モデルは、入力された学習用入力データを学習段階変換先データに変換する。学習段階変換先データは、有する音属性について、学習用入力データよりも目標音属性に近い音声信号である。音声信号変換モデル学習装置１は、学習段階変換先データと学習用参照データとの違い（以下「損失」という。）に基づき、変換学習モデルを更新する。

　なお、学習済みの変換学習モデルが音声信号変換モデルである。すなわち、所定の終了条件が満たされた時点における変換学習モデルが音声信号変換モデルである。

　図２は、実施形態における変換学習モデルを説明する説明図である。変換学習モデルは、学習用データを用いた学習によりスコア関数の更新の処理（以下「スコア関数更新処理」という。）を含む。なお、変換学習モデルは例えばニューラルネットワークで表される。ニューラルネットワークとは、電子回路、電気回路、光回路、集積回路等の回路であって機械学習モデルを表現する回路である。ニューラルネットワークのパラメータは、損失に基づいて好適に調整される、ネットワークのパラメータは、表現する機械学習モデルのパラメータである。またネットワークのパラメータは、ネットワークを構成する回路のパラメータである。

　スコア関数の更新とはスコア関数を表すニューラルネットワークのパラメータ（以下「スコアパラメータ」という。）を更新することを意味する。スコアパラメータの初期値は予め与えられた形である。スコア関数は、空間点ｘを独立変数とする関数であり、空間点ｘから目標特徴量分布関数上の停留点であって初期値点の最近接の停留点である最近接停留点まで向かう経路の空間点ｘにおける勾配を示す関数である。したがって、スコア関数の値は、空間点ｘにおけるスコア関数の値である。

　空間点ｘは、音声特徴量空間内の点である。音声特徴量空間は、バナッハ空間やソボレフ空間等のベクトル空間であって音声信号から得られる特徴量（以下「音声特徴量」という。）の系列（以下「音声特徴量系列」という。）を表すベクトル空間である。そのため、音声特徴量空間はいわゆる特徴量空間の１種である。そのため、空間点ｘとは、音声特徴量空間内の位置であり音声特徴量空間内の位置ｘとして表現されるデータでもある。音声特徴量空間の位置ｘとして表現されるデータとは、具体的には音声特徴量系列である。

　目標特徴量分布関数は、音声特徴量空間上の関数であって目標音声信号の特徴量の系列の分布を表す確率密度関数である。変換先の音声信号の特徴量の系列の分布とは、変換先の音声信号の音声特徴量系列の分布である。目標特徴量分布関数は、連続で微分可能である。

　初期値点は、音声特徴量空間内の点（すなわち空間点）であって入力された学習用入力データの音声特徴量系列を表す点である。停留点は、例えば極大点である。

　スコア関数は、目標特徴量分布関数の定義域上では、目標特徴量分布関数の勾配を示す値である。スコア関数は、目標特徴量分布関数の対数の１回微分の値である。

　音声特徴量は、音声信号を構成するのに充分なものであればどのようなものであってもよく、例えばボコーダパラメータであってもよい。音声特徴量は、例えばメルケプストラムボコーダであってもよい。音声特徴量のその他の例は変形例にて説明する。

　変換学習モデルは、目標特徴量分布関数上の停留点であって初期値点の最近接の停留点をスコア関数に基づいて推定する処理（以下「最近接停留点推定処理」という。）を有する機械学習モデルであればどのような機械学習モデルであってもよい。

　最近接停留点推定処理は、最近接停留点を、スコア関数を用いて推定可能な方法であればどのような方法であってもよい。最近接停留点は、例えばＤＳＭ（Ｄｅｎｏｉｓｉｎｇ　Ｓｃｏｒｅ　Ｍａｔｃｈｉｎｇ；　ＤＳＭ）や重み付きＤＳＭ等のスコア関数推定処理と、ランジュバン動力学や焼きなまし版ランジュバン動力学等の空間点更新処理とを順番に繰り返し実行することにより、推定される。すなわち、最近接停留点推定処理は、例えばスコア関数推定処置と空間点更新処理とを順番に繰り返し実行し停留点を推定する処理である。スコア関数推定処理は、空間点ｘにおけるスコア関数を推定する処理である。空間点更新処理は、空間点ｘを更新する処理である。なおＤＳＭは、雑音除去スコアマッチングとも呼称される。

（ランジュバン動力学、ＤＳＭ、重み付きＤＳＭ、焼きなまし版ランジュバン動力学について）
　ここでランジュバン動力学、ＤＳＭ、重み付きＤＳＭ及び焼きなまし版ランジュバン動力学を説明する。ランジュバン動力学は、例えば参考文献１に詳細が記載されている方法である。ＤＳＭは、例えば参考文献２に詳細が記載されている方法である。重み付きＤＳＭは、例えば参考文献３に詳細が記載されている方法である。焼きなまし版ランジュバン動力学は、例えば参考文献３に詳細が記載されている方法である。

　参考文献１：M. Welling and Y. W. Teh, “Bayesian Learning via Stochastic Gradient Langevin Dynamics,” in Proc. ICML, pp. 681-688, 2011.
　参考文献２：P. Vincent, “A Connection Between Score Matching and Denoising Autoencoders,” Neural Computation, Vol 23, No. 7, pp. 1661-1674, 2011.
　参考文献３：Y. Song and S. Ermon, “Generative modeling by estimating gradients of the data distribution,” in Advances in Neural Information Processing Systems 32, 2019, pp. 11918-11930

　詳細は上述の参考文献に記載されているため、ここでは簡単にランジュバン動力学、ＤＳＭ及び重み付きＤＳＭ及び焼きなましランジュバン動力学を説明する。

　まずランジュバン動力学について説明する。ランジュバン動力学は、ノイズ項に依存する更新則を実行する処理であって、例えば以下の式（１）で表される更新則を、ｌｏｇ　ｐ（ｘ）を大きくするように、繰り返し実行する処理である。式（１）が含む各項のうち式（２）の項がノイズ項である。

　このように、式（１）で表されるランジュバン動力学は、式（１）で表される更新則にしたがって空間点ｘを逐次的に決定していく処理である。ｘ^（ｔ）は、ｔ回目のステップにおける空間点ｘを意味する。ｘ^（０）は、初期値点であり、学習用入力データである。なお、学習用入力データの数は必ずしも１つである必要は無く複数であってもよい。以下、学習用入力データの集合を学習サンプルχという。そのため、学習用入力データをＮ個（Ｎは１以上の整数）含む学習サンプルχは、以下の式（３）で表される。

　αは正のステップサイズパラメータを意味する。Ｔは反復回数を表す。ｚ^（ｔ）は、平均が０で分散が１のガウス白色ノイズを表す。ｐ（ｘ）は、目標特徴量分布関数の輪郭を表す。式（１）に含まれる以下の式（４）がスコア関数の一例である。

　式（１）は、Ｔが十分大きくαが十分小さいという条件が満たされる場合に所定の正則性条件の下でｘ^（Ｔ）の系列が含む各サンプル（すなわちｘ^（Ｔ））がｐ（ｘ）に従うことを示す。このように、たとえｐ（ｘ）が推定できない場合であってもスコア関数さえ推定可能であればｐ（ｘ）に従うサンプルは推定可能である。すなわち、スコア関数さえ推定可能であればランジュバン動力学によって最近接停留点の推定が可能である。なお、スコア関数を推定するとは、具体的には各空間点ｘにおけるスコア関数の値を推定することを意味する。

　ただし、ランジュバン動力学そのものはスコア関数を推定する方法ではない。そのため、ランジュバン動力学を用いて最近接停留点を判定するには、各空間点ｘにおけるスコア関数の値が他の方法によって推定される必要がある。

　ＤＳＭの方法は、スコア関数を推定する方法の一例である。ＤＳＭは、音声特徴量空間全体にデータが存在することを前提として、音声特徴量空間の各空間点ｘでスコア関数の値を取得する。そのため、ランジュバン動力学とＤＳＭとを用いることで、ＤＳＭによって得られたスコア関数を用いてランジュバン動力学によって更新先の空間点ｘを推定するという処理が実行可能である。

　ところで、画像等の実世界のデータの多くは高次元空間中の低次元多様体に局在する傾向が有る。このような場合、ＤＳＭよりも適切にスコア関数の値を推定可能な方法として重み付きＤＳＭがある。

　ＤＳＭと重み付きＤＳＭとについて目的関数を説明する。そこで、まずはＤＳＭや重み付きＤＳＭ等を含むスコアマッチングと呼称される方法で共通に用いられるスコア近似器について説明する。

　スコア近似器は、パラメータθを含む関数であってパラメータθを更新する所定の最適化の処理の結果がスコア関数に略同一である関数を表すニューラルネットワークである。ラメータθを含む関数であってパラメータθを更新する所定の最適化の処理の結果がスコア関数に略同一である関数は、スコア近似器が表す機械学習のモデルである。

　所定の最適化の処理は、例えば、スコア近似関数ｓ_Θ（ｘ）とスコア関数との間の二乗誤差の期待値を最小化する処理である。スコア近似関数ｓ_Θ（ｘ）は、スコア近似器が表す関数である。すなわち、スコア近似関数ｓ_Θ（ｘ）は、スコア近似器が表す機械学習のモデルである。スコア近似関数ｓ_Θ（ｘ）とスコア関数との間の二乗誤差の期待値を表す関数が目的関数の一例である。すなわち目的関数の値が損失である。以下の式（５）は、スコア近似関数ｓ_Θ（ｘ）とスコア関数との間の二乗誤差の期待値の一例を表す。

　Ｅ_{ｘ～ｐ（ｘ）}［・］は、［・］の期待値を意味する。Ｅ_{ｘ～ｐ（ｘ）}［・］はχが含むサンプル（すなわち学習用入力データ）の数が十分大きければ、χに関するサンプル平均に略同一である。

　式（５）の目的関数を用いた最適化の処理は、目標値∇_ｘｌｏｇｐ（ｘ）は何かしらの方法により観測可能であるということが暗に想定された処理である。一方でｐ（ｘ）の具体形を仮定せずともスコア関数を推定可能な方法も存在する。その１つが参考文献４に記載の陰スコアマッチングと呼称される方法である。

　参考文献４：A. Hyv “arinen, “Estimation of non-normalized statistical models usingscore matching,”Journal of Machine Learning Research, vol. 6, pp.695-709, 2005.

　陰スコアマッチングでは、式（５）が定数項を除き、以下の式（６）と等しくなる、という事実を利用する方法である。

　式（６）において、∇_ｘｓ_Θ（ｘ）はｓ_Θ（ｘ）のヤコビ行列を表す。ｔｒ（・）は行列のトレースを表す。この方法では、目的関数の中から∇_ｘｌｏｇｐ（ｘ）の項を除くことができる。

　上述したようにスコア近似器は、具体的にはニューラルネットワークによって形成される。

　スコア近似器のニューラルネットワークのネットワーク構造は、入力と出力が同形であればどのようなニューラルネットワークであってもよい。スコア近似器は、例えば正規化層と非線形活性化層とを備えるニューラルネットワークである。このような場合、正規化層は、バッチ正規化層であってもよいし、条件付バッチ正規化層であってもよいし、インスタンス正規化層であってもよいし、条件付インスタンス正規化層であってもよい。非線形活性化層は、正規化線形層であってもよいし、ゲート付き線形層であってもよい。

　それでは、ＤＳＭにおける目的関数について説明する。ＤＳＭは、空間点ｘのデータに所定の分布ｑ_σ（ｘ＾チルダ｜ｘ）にしたがうノイズをくわえた後、ノイズ込みのデータの分布ｑ_σ（ｘ＾チルダ）のスコア関数を推定する、という方法である。以下、ｑ_σ（ｘ＾チルダ｜ｘ）をノイズ分布という。なお、ｘ＾チルダは、ノイズが付与された後の空間点ｘのデータを表す。なお、ｘ＾チルダは、ｘにアクセント記号としてチルダが付与された記号を表し、具体的には以下の式（７）で表される記号を意味する。

　σはノイズ分布ｑ_σ（ｘ＾チルダ｜ｘ）の分散を示す。以下、ノイズ分布の分散をノイズ分散という。ｑ_σ（ｘ＾チルダ）は以下の式（８）で表される。そのため、ｑ_σ（ｘ）は、ｐ（ｘ）のパルツェン窓推定量と見なすことができる量である。

　ノイズ分布ｑ_σ（ｘ＾チルダ｜ｘ）が以下の式（９）に示すガウス分布である場合、ＤＳＭにおいては目的関数として、式（５）の目的関数や式（５）と式（６）とを用いた目的関数に代えて以下の式（１０）で表される関数が用いられる。そのため、ＤＳＭでは式（１０）で表される目的関数の値を最小化するように、スコア近似関数ｓ_Θ（ｘ）を表すスコア近似器の学習が行われる。

　以下、説明の簡単のため、スコア近似関数ｓ_Θ（ｘ）を表すスコア近似器のことをスコア近似器ｓ_Θ（ｘ）という。スコア近似関数ｓ_Θ（ｘ）を表すスコア近似器の学習とは、スコア近似器ｓ_Θ（ｘ）が表す機械学習のモデルが学習により更新されることを意味する。そのため、スコア近似器ｓ_Θ（ｘ）の学習とは、スコア近似器ｓ_Θ（ｘ）が表す機械学習のモデルが学習により更新されることを意味する。

　スコア近似器ｓ_Θ（ｘ）の学習では学習のたびに式（１０）のｓ_Θ（ｘ＾チルダ）が更新される。そして、スコア近似器ｓ_Θ（ｘ）の学習の結果得られる式（１０）のｓ_Θ（ｘ＾チルダ）が、スコア近似器ｓ_Θ（ｘ）の出力するスコア関数の推定結果ある。

　式（１０）を最小化するｓ_Θ（ｘ＾チルダ）はスコア関数にほとんど確実に一致することが知られている（参考文献２参照）。例えば、ノイズ分布の分散σの二乗が十分小さくｑ_σ（ｘ）とｐ（ｘ）とが略同一である場合、式（１０）を最小化するｓ_Θ（ｘ＾チルダ）は∇_ｘｌｏｇ（ｘ）にも略同一である。このことは、直観的には、対数分布の勾配の方向は、点ｘ＾チルダにおいてノイズの付与前のｘに向かう方向と一致する、ということを意味する。

　重み付きＤＳＭの目的関数について説明する。重み付きＤＳＭでは、まず、以下の式（１１）が表す複数のノイズ分散を用いてスコア近似器ｓ_Θ（ｘ）が学習される。式（１１）におけるＬは１以上の整数である。そのため、式（１１）は、Ｌ個のノイズ分散の集合を表す。したがってｌは、ノイズ分散を識別する識別子である。

　重み付きＤＳＭでは次に、データの分布ｑ_σｌ（ｘ）が音声特徴量空間の全空間を覆うという初期条件の下で反復計算を実行する。重み付きＤＳＭの反復計算では、データの分布ｑ_σｌ（ｘ）を真の分布ｐ（ｘ）に近づけるように１回の計算ごとにノイズ分散σ_ｌがより小さい値に更新される。

　重み付きＤＳＭでは、ノイズ分散σ_ｌごとにスコア近似器ｓ_Θ（ｘ、ｌ）が存在するため、スコア近似器ｓ_Θ（ｘ、ｌ）の集合はノイズ分散の大小に応じて異なる振る舞いを学習可能である。

　重み付きＤＳＭにおける目的関数は、例えば以下の式（１２）で表される関数である。

　式（１２）は、ノイズ分散σ_ｌごとに定義された式（１０）の目的関数の重み付き線形和である。なお、λ_ｌは正の値である。

　重み付きＤＳＭにおける目的関数は、例えば以下の式（１３）で表される関数であってもよい。

　式（１３）は、式（１２）の重みλ_ｌをσ_ｌ ^２に置き換えた関数である。

　なお、ノイズ分散σ_ｌの集合は（σ_２／σ_１）＝・・・＝（σ_Ｌ／σ_{（Ｌ－１）}）＝ｒ（ｒは０以上１以下の実数）等の等比数列の関係を満たすことが望ましい。

　このように、重み付きＤＳＭでは、ノイズ分散σの異なる複数の目的関数を用いる。各目的関数のｓ_Θ（ｘ、ｌ）の項は、ノイズ分散σに応じた値であり、必ずしも同一では無い。重み付きＤＳＭでは、複数の目的関数を用いてスコア近似器ｓ_Θ（ｘ、ｌ）を所定の終了条件が満たされるまで学習した後に複数の目的関数全ての分散σを小さくする。重み付きＤＳＭでは直前の学習時よりも小さな分散σを有する目的関数を用いて、スコア近似器ｓ_Θ（ｘ、ｌ）の学習を所定の終了条件が満たされるまで行う。重み付きＤＳＭでは、このように、スコア近似器ｓ_Θ（ｘ、ｌ）の学習と分散σの縮小とを繰り返すことで、スコア近似器の推定結果の精度を上げる。

　なお、所定の終了条件が満たされるまで実行される反復計算において、ｑ_σｌ（ｘ）の分散の初期値は、ｑ_σｌ（ｘ）が音声特徴量空間の全空間を覆う分散である。ｑ_σｌ（ｘ）は反復計算が進むごとに真の分布ｐ（ｘ）に近づくように更新される。具体的には、ｑ_σｌ（ｘ）は、学習が進むにつれてノイズ分散の大きさが小さくなるように更新される。

　このようにしてスコア近似器ｓ_Θ（ｘ、ｌ）が学習された後にはスコア関数の推定が可能であるため、ランジュバン動力学等の空間点ｘの更新則を用いて更新先の空間点ｘを推定することができる。すなわち、このようにしてスコア近似器ｓ_Θ（ｘ、ｌ）が学習された後には、ｑ_σＬにしたがうサンプルのサンプリングが可能である。

　最後に焼きなまし版ランジュバン動力学について説明する。焼きなまし版ランジュバン動力学は、空間点更新処理の一例である。焼きなまし版ランジュバン動力学によるサンプリングの処理は、具体的には以下の図３に示すアルゴリズムを実行する処理である。

　図３は、実施形態におけるサンプリングの処理の一例を示す図である。図３のアルゴリズムはＰｙｔｈｏｎのコンピュータ言語で記載されたアルゴリズムである。図３のα_ｌは、ノイズ分散に応じて適応的に変化するステップサイズである。εは、α_ｌのスケールパラメータである。

　ここまでの変換学習モデルの説明では、目標音属性が１つの場合を例にして説明がおこなわれた。目標音属性が１つの場合、学習済みの変換学習モデルは、入力された音声信号を学習時の目標音属性の音声信号にしか変換できない。しかしながら、学習時から目標音属性を示す情報（以下「目標音属性情報」という。）とともに複数の目標音属性について学習が行われれば、変換済み変換学習モデルは、ユーザーの指定する目標音属性の音声信号に変換元音声信号を変換可能である。

　そこで、学習時に複数の目標音属性について学習が行われる場合について、学習の方法の一例を、重み付きＤＳＭと焼きなましランジュバン動力学とを例に説明する。

　変換学習モデルを複数の目標音属性について学習させる方法の１つは、目標音属性ごとに用意された複数のスコア近似器を用いる方法である。このような場合であって、ノイズ分布がガウス分布である場合には、以下の式（１４）で表される関数が目的関数として用いられる。

　ｋは、目標音属性を示す指標（以下「目標音属性指標」という。）である。すなわち異なるｋは異なる目標音属性を示す。Ｋは１以上の整数であって変換学習モデルに学習させる目標音属性の数である。スコア近似器ｓ_Θ（ｘ、ｌ）は、目標音属性ごとに存在するため、各スコア近似器は式（１４）において目標音属性指標によって互いに区別される。そのため、式（１４）においてスコア近似器はｓ_Θｋ（ｘ、ｌ）と表現される。

　ｘ_ｋ、ｎを目標音属性がｋで示される音声信号の第ｎ発話の音声特徴量系列として、Ｅｋ、ｘ［・］は、各目標音属性についてＮ発話からなる学習データχ＝｛ｘ_ｋ、ｎ｝に関するサンプル平均に略同一の値である。学習データχの要素のｘ_ｋ、ｎは、Ｄ×Ｍ_ｋ、ｎの実行列である。Ｄは音声特徴量の次元を表し、Ｍ_ｋ、ｎは音声特徴量系列の長さを表す。学習データχの要素のｘ_ｋ、ｎにおけるｋは１以上Ｋ以下の整数であり、ｎは１以上Ｎ以下の整数である。Ｅ_{ｘ＾チルダ}［・］はモンテカルロ近似により算出される。

　このように、式（１４）は、スコア近似器ごとの違いであってノイズを付与された空間点ｘのデータとノイズが付与される前の空間点ｘのデータとの差とスコア関数の空間点ｘにおける値との違いの合計を表す。

　変換学習モデルを複数の目標音属性について学習させる方法の他の１つは、単一のスコア近似器を用い、複数の目標音属性についてスコア関数を推定可能になるようにその１つのスコア近似器を学習させる方法である。このような場合であって、ノイズ分布がガウス分布である場合には、以下の式（１５）で表される関数が目的関数として用いられる。

　式（１５）においてｓ_Θ（ｘ、ｌ、ｋ）はスコア近似器を表す。式（１５）においても、ｘ_ｋ、ｎを目標音属性がｋで示される音声信号の第ｎ発話の音声特徴量系列として、Ｅ_ｋ、ｘ［・］は、各目標音属性についてＮ発話からなる学習データχ＝｛ｘ_ｋ、ｎ｝に関するサンプル平均に略同一の値である。また、式（１５）においても、学習データχの要素のｘ_ｋ、ｎは、Ｄ×Ｍ_ｋ、ｎの実行列であり、学習データχの要素のｘ_ｋ、ｎにおけるｋは１以上Ｋ以下の整数であり、ｎは１以上Ｎ以下の整数である。式（１５）においてもＥ_{ｘ＾チルダ}［・］はモンテカルロ近似により算出される。

　このように、式（１５）は、単一のスコア近似器が有する複数の違いであってノイズを付与された空間点ｘのデータとノイズが付与される前の空間点ｘのデータとの差とスコア関数の空間点ｘにおける値との違いの合計を表す。

　また、このように式（１４）と式（１５）とはどちらも、ノイズを付与された空間点ｘのデータとノイズが付与される前の空間点ｘのデータとの差とスコア関数の空間点ｘにおける値との違いの合計を表す。式（１４）と式（１５）との違いは、複数の目標音属性について学習をさせたい場合に、１つのスコア近似器のみを用いるのか、目標音属性ごとにスコア近似器を用いるのか、の違いである。

　なお、重み付きＤＳＭの場合、ＤＳＭと異なり、複数のノイズ分散が用いられ、少なくとも１つのノイズ分散は他のノイズ分散と異なる。例えば、式（１５）に表現されるように、１つのスコア近似器を用いる重み付きＤＳＭでは、１つのスコア近似器がノイズ分散の異なる複数のノイズ分布を用いる。また式（１４）に表現されているように、複数のスコア近似器を用いる重み付きＤＳＭにおいても複数のノイズ分布が用いられる。複数のスコア近似器を用いる重み付きＤＳＭにおいても、各ノイズ分布のノイズ分散は識別子ｌごとに異なる。

　このように、スコア関数推定処理の一例は、ノイズの分布を用いてスコア関数を推定する処理である。また、ノイズの分布を用いてスコア関数を推定する処理の一例は、少なくとも１つが他と異なる分散を有する複数のノイズの分布を用いてスコア関数を推定する処理である。少なくとも１つが他と異なる分散を有する複数のノイズの分布を用いてスコア関数を推定する処理の一例は、重み付きＤＳＭである。

　スコア近似器ｓ_Θｋ（ｘ、ｌ）又はｓ_Θ（ｘ、ｌ、ｋ）が学習できれば、入力された音声信号の音声特徴量系列を初期値点ｘ^（０）として修正アルゴリズムが実行されることで、入力された音声信号は音属性がｋの音声信号に変換される。修正アルゴリズムは、ｓ_Θ（ｘ、ｌ）をｓ_Θｋ（ｘ、ｌ）又はｓ_Θ（ｘ、ｌ、ｋ）に置き換えた上で図３のアルゴリズムである。以下説明の簡単のため修正アルゴリズムも図３のアルゴリズムという。

　なお、空間点更新処理は、式（１）の更新則に限らず、以下の式（１６）の更新則を実行する処理であってもよい。

　以下、変換学習モデルの学習時の目標音属性が複数の場合（すなわちＫが２以上の整数の場合）を例に音声信号変換システム１００を説明する。そのため、以下の説明では、学習用データが目標音属性情報を含む場合を例に音声信号変換システム１００を説明する。変換学習モデルの学習時の目標音属性が１つの場合（すなわちＫが１の場合）には、以下の説明における目標音属性情報は必ずしも必要ない。

　図４は、実施形態における音声信号変換モデル学習装置１のハードウェア構成の一例を示す図である。音声信号変換モデル学習装置１は、バスで接続されたＣＰＵ等のプロセッサ９１とメモリ９２とを備える制御部１１を備え、プログラムを実行する。音声信号変換モデル学習装置１は、プログラムの実行によって制御部１１、入力部１２、通信部１３、記憶部１４及び出力部１５を備える装置として機能する。

　より具体的には、プロセッサ９１が記憶部１４に記憶されているプログラムを読み出し、読み出したプログラムをメモリ９２に記憶させる。プロセッサ９１が、メモリ９２に記憶させたプログラムを実行することによって、音声信号変換モデル学習装置１は、制御部１１、入力部１２、通信部１３、記憶部１４及び出力部１５を備える装置として機能する。

　制御部１１は、音声信号変換モデル学習装置１が備える各種機能部の動作を制御する。制御部１１は、変換学習モデルを実行する。変換学習モデルを実行するとは変換学習モデルが含む処理を実行し、学習用入力データを学習段階変換先データに変換することを意味する。制御部１１は、例えば出力部１５の動作を制御し、出力部１５に変換学習モデルの実行結果を出力させる。制御部１１は、例えば変換学習モデルの実行により生じた各種情報を記憶部１４に記録する。記憶部１４が記憶する各種情報は、例えば変換学習モデルの学習結果を含む。制御部１１は変換学習モデルの実行結果に基づき変換学習モデルを更新する。

　入力部１２は、マウスやキーボード、タッチパネル等の入力装置を含んで構成される。入力部１２は、これらの入力装置を音声信号変換モデル学習装置１に接続するインタフェースとして構成されてもよい。入力部１２は、音声信号変換モデル学習装置１に対する各種情報の入力を受け付ける。入力部１２には、例えば学習用データが入力される。

　通信部１３は、音声信号変換モデル学習装置１を外部装置に接続するための通信インタフェースを含んで構成される。通信部１３は、有線又は無線を介して外部装置と通信する。外部装置は、例えば学習用データの送信元の装置である。

　記憶部１４は、磁気ハードディスク装置や半導体記憶装置などの非一時的コンピュータ読み出し可能な記憶媒体装置を用いて構成される。記憶部１４は音声信号変換モデル学習装置１に関する各種情報を記憶する。記憶部１４は、例えば入力部１２又は通信部１３を介して入力された情報を記憶する。記憶部１４は、例えば変換学習モデルを記憶する。記憶部１４は、例えば変換学習モデルの実行により生じた各種情報を記憶する。

　なお、学習用データは、必ずしも入力部１２だけに入力される必要もないし、通信部１３だけに入力される必要もない。学習用データは、入力部１２と通信部１３とのどちらから入力されてもよい。例えば学習用参照データは入力部１２に入力され、入力部１２に入力された学習用参照データに対応する学習用入力データは通信部１３に入力されてもよい。また、学習用データは必ずしも入力部１２又は通信部１３から取得される必要はなく、予め記憶部１４が記憶済みであってもよい。

　出力部１５は、各種情報を出力する。出力部１５は、例えばＣＲＴ（Ｃａｔｈｏｄｅ　Ｒａｙ　Ｔｕｂｅ）ディスプレイや液晶ディスプレイ、有機ＥＬ（Ｅｌｅｃｔｒｏ－Ｌｕｍｉｎｅｓｃｅｎｃｅ）ディスプレイ等の表示装置を含んで構成される。出力部１５は、これらの表示装置を音声信号変換モデル学習装置１に接続するインタフェースとして構成されてもよい。出力部１５は、例えば入力部１２に入力された情報を出力する。出力部１５は、例えば入力部１２又は通信部１３に入力された学習用データを表示してもよい。出力部１５は、例えば変換学習モデルの実行結果を表示してもよい。

　図５は、実施形態における制御部１１の機能構成の一例を示す図である。制御部１１は学習用データ取得部１１１、変換学習モデル実行部１１２、損失取得部１１３、更新部１１４、記録部１１５、出力制御部１１６及び終了判定部１１７を備える。

　学習用データ取得部１１１は、入力部１２又は通信部１３に入力された学習用データを取得する。学習用データ取得部１１１は、予め記憶部１４に学習用データが記録済みの場合には、記憶部１４から学習用データを読み出してもよい。

　変換学習モデル実行部１１２は、変換学習モデルを実行することで、学習用入力データを学習段階変換先データに変換する。変換学習モデル実行部１１２は、変換学習モデルを実行することで、学習用入力データを学習段階変換先データに変換可能であればどのようなものであってもよい。変換学習モデル実行部１１２は、例えば学習変換モデルを表すニューラルネットワークである。変換学習モデル実行部１１２は、例えばスコア近似器を含み学習変換モデルを表すニューラルネットワークである。変換学習モデル実行部１１２は、音声特徴量取得部１２１、スコア関数推定部１２２、空間点更新部１２３、停留点判定部１２４及び信号変換部１２５を備える。

　音声特徴量取得部１２１は、学習用データ取得部１１１が取得した学習用入力データの音声特徴量系列を取得する。スコア関数推定部１２２は、スコア関数推定処理を実行する。空間点更新部１２３は、空間点更新処理を実行する。停留点判定部１２４は、空間点ｘが目標特徴量分布関数上の停留点か否かを判定する。信号変換部１２５は、信号変換処理を実行する。

　信号変換処理は、停留点と判定された空間点ｘが表す音声特徴量系列（以下「推定系列」という。）に基づき、音声特徴量系列を音声信号に変換する処理である。信号変換処理は、具体的には、音声特徴量系列からボコーダなどを用いて音声信号を合成する処理である。

　なお、ニューラルネットワークの層のうち推定系列を出力する層のサイズと、学習用入力データの音声特徴量系列が入力される層のサイズとは、同一である。

　図６は、実施形態における変換学習モデル実行部１１２が実行する処理の流れの一例を示す図である。音声特徴量取得部１２１が、学習用入力データの音声特徴量系列を取得する（ステップＳ１０１）。次にスコア関数推定部１２２が、取得した音声特徴量系列を示す空間点を初期値点ｘ^（０）として、目標音属性情報を用いるスコア関数推定処理の実行により、初期値点ｘ^（０）におけるスコア関数を推定する（ステップＳ１０２）。目標音属性情報を用いるスコア関数推定処理とは、目標音属性情報が示す目標音属性について実行されるスコア関数推定処理であって、例えば式（１４）又は式（１５）に記載の目的関数を用いるスコア関数推定処理である。

　次に、空間点更新部１２３が直前の処理で推定されたスコア関数に基づき、目標音属性情報を用いる空間点更新処理を実行することで、空間点ｘを更新する（ステップＳ１０３）。目標音属性情報を用いる空間点更新処理とは、目標音属性情報が示す目標音属性について実行される空間点更新処理であって、例えば焼きなましランジュバン動力学である。

　次に、停留点判定部１２４が、ステップＳ１０３の処理による更新後の空間点ｘの位置が目標特徴量分布関数上の停留点か否かを判定する（ステップＳ１０４）。停留点ではない場合（ステップＳ１０４：ＮＯ）、スコア関数推定部１２２が、目標音属性情報を用いるスコア関数推定処理の実行により、ステップＳ１０３の処理による更新後の空間点ｘの位置におけるスコア関数を推定する（ステップＳ１０５）。

　一方、停留点である場合（ステップＳ１０４：ＹＥＳ）、信号変換部１２５が、信号変換処理を実行する。信号変換処理の実行により、学習用入力データが学習段階変換先データに変換される（ステップＳ１０６）。

　図５の説明に戻る。損失取得部１１３は、変換学習モデルの実行により得られた学習段階変換先データと学習用参照データとに基づいて損失を取得する。

　更新部１１４は、損失に基づいて変換学習モデルを更新する。損失に基づく変換学習モデルの更新は、具体的には、損失に基づき所定の規則にしたがって学習変換モデルを表すニューラルネットワークのパラメータの値を更新する処理である。学習変換モデルを表すニューラルネットワークのパラメータの値の更新とは、より具体的には、例えばスコア近似器のパラメータθの値の更新である。例えば更新部１１４は、損失を小さくするように学習変換モデルを表すニューラルネットワークのパラメータの値を更新する。

　変換学習モデル実行部１１２と損失取得部１１３とは、お互いが協働することで変換学習モデルの実行と更新とが可能であれば、どのようなものであってもよい。例えば変換学習モデル実行部１１２と損失取得部１１３とは、協働して動作することで変換学習モデルの実行と更新を実行するニューラルネットワークを形成する回路であってもよい。

　記録部１１５は各種情報を記憶部１４に記録する。出力制御部１１６は出力部１５の動作を制御する。終了判定部１１７は、所定の終了条件が満たされたか否かを判定する。所定の終了条件が満たされた時点の変換学習モデルが学習済みの変換学習モデルであり、音声信号変換モデルである。

　図７は、実施形態における音声信号変換モデル学習装置１が実行する処理の流れの一例を示すフローチャートである。
　学習用データ取得部１１１が学習用データを取得する（ステップＳ２０１）。次に変換学習モデル実行部１１２が図６に示す処理を実行することで、学習用入力データを学習段階変換先データに変換する（ステップＳ２０２）。次に損失取得部１１３が、学習段階変換先データとステップＳ２０１で得られた学習用参照データとに基づき損失を取得する（ステップＳ２０３）。

　次に、損失取得部１１３が、損失に基づき、変換学習モデルを更新する（ステップＳ２０４）。次に、終了判定部１１７は、所定の終了条件が満たされたか否かを判定する（ステップＳ２０５）。所定の終了条件が満たされない場合（ステップＳ２０５：ＮＯ）、ステップＳ２０１の処理に戻る。一方、所定の終了条件が満たされる場合（ステップＳ２０５：ＹＥＳ）、処理が終了する。

　図８は、実施形態における音声信号変換装置２のハードウェア構成の一例を示す図である。音声信号変換装置２は、バスで接続されたＣＰＵ等のプロセッサ９３とメモリ９４とを備える制御部２１を備え、プログラムを実行する。音声信号変換装置２は、プログラムの実行によって制御部２１、入力部２２、通信部２３、記憶部２４及び出力部２５を備える装置として機能する。

　より具体的には、プロセッサ９３が記憶部２４に記憶されているプログラムを読み出し、読み出したプログラムをメモリ９４に記憶させる。プロセッサ９３が、メモリ９４に記憶させたプログラムを実行することによって、音声信号変換装置２は、制御部２１、入力部２２、通信部２３、記憶部２４及び出力部２５を備える装置として機能する。

　制御部２１は、音声信号変換装置２が備える各種機能部の動作を制御する。制御部２１は、例えば音声信号変換モデル学習装置１が得た学習済みの変換学習モデル（すなわち音声信号変換モデル）を用いて、変換元音声信号をと目標音属性情報が示す目標音属性を有する変換先音声信号に変換する。

　入力部２２は、マウスやキーボード、タッチパネル等の入力装置を含んで構成される。入力部２２は、これらの入力装置を自装置に接続するインタフェースとして構成されてもよい。入力部２２は、自装置に対する各種情報の入力を受け付ける。入力部２２は、例えば変換元音声信号を変換先音声信号に変換する処理の開始を指示する入力を受け付ける。入力部２２は、例えば変換元音声信号の入力を受け付ける。入力部２２は、例えば目標音属性情報の入力を受け付ける。

　通信部２３は、自装置を外部装置に接続するための通信インタフェースを含んで構成される。通信部２３は、有線又は無線を介して外部装置と通信する。外部装置は、例えば変換先音声信号の出力先である。このような場合、通信部２３は、外部装置との通信によって外部装置に変換先音声信号を出力する。変換先音声信号の出力の際の外部装置は、例えばスピーカー等の音声出力装置である。

　通信部２３の通信先の外部装置は、例えば音声信号変換モデル学習装置１である。このような場合、通信部２３は、例えば音声信号変換モデル学習装置１が得た学習済みの変換学習モデルを取得する。

　通信部２３の通信先の外部装置は、例えば音声信号変換モデルを記憶したＵＳＢメモリ等の記憶装置であってもよい。外部装置が例えば音声信号変換モデルを記憶しており音声信号変換モデルを出力する場合、通信部２３は外部装置との通信によって音声信号変換モデルを取得する。

　通信部２３の通信先の外部装置は、例えば変換元音声信号の出力元である。このような場合、通信部２３は、外部装置との通信によって外部装置から変換元音声信号を取得する。

　なお、変換元音声信号及び目標音属性情報は、変換元音声信号及び目標音属性情報の送信元の外部装置との通信によって通信部２３が取得してもよい。

　記憶部２４は、磁気ハードディスク装置や半導体記憶装置などの非一時的コンピュータ読み出し可能な記憶媒体装置を用いて構成される。記憶部２４は音声信号変換装置２に関する各種情報を記憶する。記憶部２４は、例えば通信部２３を介して取得した音声信号変換モデルを記憶する。記憶部２４は、例えば入力部２２に入力された目標音属性情報を記憶する。

　出力部２５は、各種情報を出力する。出力部２５は、例えばＣＲＴディスプレイや液晶ディスプレイ、有機ＥＬディスプレイ等の表示装置を含んで構成される。出力部２５は、これらの表示装置を自装置に接続するインタフェースとして構成されてもよい。出力部２５は、例えば入力部２２に入力された情報を出力する。

　図９は、実施形態における制御部２１の機能構成の一例を示す図である。制御部２１は、変換対象取得部２１１、変換部２１２及び音声信号出力制御部２１３を備える。

　変換対象取得部２１１は、変換対象となる変換元音声信号及び目標音属性情報を取得する。変換対象取得部２１１は、例えば入力部２２に入力された変換元音声信号及び目標音属性情報を取得する。変換対象取得部２１１は、例えば通信部２３に入力された変換元音声信号及び目標音属性情報を取得する。

　変換部２１２は、変換対象取得部２１１が取得した変換対象を、音声信号変換モデルを用いて目標音属性情報が示す音属性を有する変換先音声信号に変換する。得られた変換先音声信号は音声信号出力制御部２１３に出力される。

　音声信号出力制御部２１３は、通信部２３の動作を制御する。音声信号出力制御部２１３は、通信部２３の動作を制御することで通信部２３に変換先音声信号を出力させる。

　図１０は、実施形態における音声信号変換装置２が実行する処理の流れの一例を示すフローチャートである。変換対象取得部２１１が変換元音声信号及び目標音属性情報を取得する（ステップＳ２０１）。次に、変換部２１２が音声信号変換モデルを用いて変換元音声信号を目標音属性情報が示す音属性を有する変換先音声信号に変換する（ステップＳ２０２）。次に、音声信号出力制御部２１３が通信部２３の動作を制御することで通信部２３に変換先音声信号を出力させる（ステップＳ２０３）。

　なお上述したように、変換学習モデルの学習時の目標音属性が１つの場合には必ずしも音声信号変換装置２に目標音属性情報が入力される必要はない。

（実験結果）
　実施形態の音声信号変換システム１００を用いた音声信号の変換の実験結果の一例を説明する。実験において音属性は話者であった。そこで以下、実験における目標音属性を示す指標を話者インデックスという。

　実験では、ＣＭＵ　ＡＲＣＴＩＣ　ｄａｔａｂａｓｅの６話者の音声データが用いられた。具体的には、学習用及び既知話者を想定したテスト用に４話者の音声データが用いられ、未知話者を想定したテスト専用に２話者の音声データが用いられた。学習用及び既知話者を想定したテスト用の４話者は、女性話者ｃｌｂ、男性話者ｂｄｌ、女性話者ｓｌｔ及び男性話者ｒｍｓであった。未知話者を想定したテスト専用の２話者は、男性話者ｋｓｐ及び女性話者ｌｎｈであった。

　このように、実験において学習に用いた話者数は４だったため、話者インデックスを表すｏｎｅ－ｈｏｔベクトルの次元は４であった。ＣＭＵ　ＡＲＣＴＩＣ　ｄａｔａｂａｓｅは、複数の話者の音声サンプルのデータベースであって、各音声サンプルは話者によらず同一の１１３２文を話者が発話した音声の音声サンプルである。

　実験では、話者の発話した１１３２文の後半の１３２文の各話者の音声サンプルをテスト用のデータとした。また実験では、非パラレル学習の状況をシミュレートするため、話者間で同一の文章のサンプルを用いないように前半１０００文をさらに４等分し、話者ｃｌｂ、ｂｄｌ、ｓｌｔ、ｒｍｓの学習用の音声サンプルとした。すなわち、前半１０００文が４等分された結果の各グループを第１グループ、第２グループ、第３グループ、第４グループとして、話者ｃｌｂ、ｂｄｌ、ｓｌｔ、ｒｍｓの学習用の音声サンプルは、順に第１グループの文、第２グループの文、第３グループの文、第４グループの文であった。なお、学習用の音声サンプルとは、学習用データの一例である。

　実験において、全ての音声信号のサンプリング周波数は１６０００Ｈｚであった。実験において、音声特徴量はメルケプストラム係数であった。メルケプストラム係数は、各発話に対し、ＷＯＲＬＤ分析により８ｍｓ間隔でスペクトル包絡、基本周波数（Ｆ０）及び非周期性指標の抽出を行った後、抽出したスペクトル包絡系列に対し２８次のメルケプストラム分析を行うことで得られた。よってＤ＝２８であった。

　Ｆ０に関しては、まず、目標音声の学習データから有声区間における対数Ｆ０の平均ｍ_ｓｒｃ及び標準偏差σ_ｓｒｃと、変換元音声の学習データから有声区間における対数Ｆ０の平均ｍ_ｔｒｇと標準偏差σ_ｓｒｃとが算出された。次に、入力音声の対数Ｆ０パターンｙ（０）・・・ｙ（Ｎ－１）に対して以下の式（１７）が表す変換が行われた。なお、目標音声は、音声信号が目標音声信の音声である。変換元音声は、音声信号が変換元音声信号の音声である。

　図１１は、実施形態の実験において用いられたスコア近似器のネットワーク構成を示す図である。すなわち図１１のネットワーク構成はスコア近似器のネットワーク構成の一例である。図１１において、“ｈｗｃ”の“ｈ”、“ｗ”、“ｃ”はそれぞれ、各層の入出力を画像と見なした際の高さ、幅、チャネル数を表す。図１１において、“Ｃｏｎｖ２ｄ”、“ＢａｔｃｈＮｏｒｍ”、“ＧＬＵ”、“Ｄｅｃｏｎｖ２ｄ”はそれぞれ、２次元畳み込み層、正規化層、非線形活性化層及び２次元転置畳み込み層を表す。図１１において、“ｋｃｓ”の“ｋ”、“ｃ”、“ｓ”はそれぞれ、畳み込み層のカーネルサイズ、出力チャネル数、トライド幅を表す。ノイズ分散と話者インデックスは、それぞれｏｎｅ－ｈｏｔ　ベクトルで表され、各畳み込み層における入力を画像と見なしたときの入力の各ピクセルにチャネル方向に連結する構成である。図１１のネットワーク構成において、“Ｉｎｐｕｔ”と“Ｏｕｔｐｕｔ“とは同形である。

　実験においてハイパーパラメータは以下の通りだった。まず、ニューラルネットワークの学習にはＡｄａｍが用いられた。学習率は０．００１であった。ノイズ分散σ_ｌ～σ_Ｌ（Ｌ１以上の整数）は、（σ_２／σ_１）＝・・・＝（σ_Ｌ／σ_{（Ｌ－１）}）＝１０^－０．２～０．６３であり、Ｌ＝１１、σ_１＝１：０、σ_Ｌ＝０．０１であった。実験では図３のアルゴリズムが用いられた。実験における図３のアルゴリズムの使用に際して、ε＝１０^－５であり、Ｔ＝１２０であった。実験ではｌ＝４を図３のアルゴリズムにおけるノイズ分散の初期値として用いた。

　変分自己符号化器（Ｖａｒｉａｔｉｏｎａｌ　Ａｕｔｏｅｎｃｏｄｅｒ；ＶＡＥ）ベースの方法（以下「ＶＡＥ－ＶＣ」という。）と敵対的生成ネットワーク（Ｇｅｎｅｒａｔｉｖｅ　Ａｄｖｅｒｓａｒｉａｌ　Ｎｅｔｗｏｒｋ；ＧＡＮ）の変種であるＳｔａｒＧＡＮ　をベースにした方法（以下「ＳｔａｒＧＡＮ－ＶＣ」という。）とは、従来の方法の中では非パラレル学習かつ任意話者の音声入力を許容する方法である。そこで、実験においては、ＶＡＥ－ＶＣとＳｔａｒＧＡＮ－ＶＣとを比較対象のベースラインとして用いた。

　ＳｔａｒＧＡＮ－ＶＣは目的関数に応じていくつかの種類がある。実験では、クロスエントロピー規準を用いたＳｔａｒＧＡＮ－ＶＣ（以下「ＳｔａｒＧＡＮ－ＶＣ（Ｃ）」という。）と、ワッサースタイン距離及び勾配ペナルティロスを用いたＳｔａｒＧＡＮ－ＶＣ（以下「ＳｔａｒＧＡＮ－ＶＣ（Ｗ）」という。）とをベースラインに用いた。

　テストセットは、各話者が同一文を発話した音声サンプルからなるので、変換音声の品質は、同一文を発話した目標話者の音声と比較することにより評価することができる。変換音声は、音声信号変換システム１００によって変換された音声信号である。すなわち、変換音声は、音声信号が変換先音声信号の音声、又は、音声信号が学習段階変換先データの音声である。目標話者は、目標音声の話者である。

　以下の式（１８）及び（１９）で表される２組のメルケプストラムが与えられたときのメルケプストラム歪み（Ｍｅｌ－Ｃｅｐｓｔｒａｌ　Ｄｉｓｔｏｒｔｉｏｎ；ＭＣＤ）は、以下の式（２０）で表される。ＭＣＤは、式（１８）及び（１９）で表される２組のメルケプストラムの違いを表す。

　変換音声と目標音声は必ずしも音素が同一時刻で対応しているとは限らない。そのため実験では、発話ごとにＭＣＳ規準で動的時間伸縮（Ｄｙｎａｍｉｃ　Ｔｉｍｅ　Ｗａｒｐｉｎｇ；ＤＴＷ）により時間軸が合わせられた上で平均ＭＣＤが算出された。

　実験では、客観評価実験が行われた。図１２及び図１３に客観評価実験の結果の一例を示す。具体的には、図１２は既知話者条件の下でのＭＣＤの比較結果の一例であり、図１３は、未知話者条件の下でのＭＣＤの比較結果との一例である。既知話者条件は、音声信号変換装置２に入力される音声信号の話者が学習用データに含まれていたという条件である。未知話者条件は、音声信号変換装置２に入力される音声信号の話者が学習用データに含まれていなかったという条件である。

　図１２は、実施形態における既知話者条件の下でのＭＣＤの比較結果の一例を示す図である。図１２において“ＶｏｉｃｅＧｒａｄ”は、音声信号変換システム１００を用いた音声信号の変換を表す。図１２は、既知話者条件において、音声信号変換システム１００を用いた音声信号の変換の方法が、ＶＡＥ－ＶＣとＳｔａｒＧＡＮ－ＶＣ（Ｃ）よりも高い性能を有することを示す。

　図１３は、実施形態における未知話者条件の下でのＭＣＤの比較結果の一例を示す図である。図１３において“ＶｏｉｃｅＧｒａｄ”は、音声信号変換システム１００を用いた音声信号の変換を表す。図１３は、未知話者条件において、音声信号変換システム１００を用いた音声信号の変換の方法が比較対象の全てのベースラインの方法よりも高い性能を有することを示す。

　実験では、音質と話者類似性の平均オピニオン評点（Ｍｅａｎ　Ｏｐｎｉｏｎ　Ｓｃｏｒｅ；ＭＯＳ）評価による主観評価実験も行われた。主観評価実験は、未知話者条件の変換音声のサンプルに対してのみ行われた。主観評価実験の参加者はいずれも２４名であった。

　主観評価実験における音質の評価では、非ボコーダ音声のサンプルとボコーダ音声のサンプルとの中から無作為に選択されたサンプルを参加者に聞いてもらい、音質の高さを５段階で評価してもらうことが行われた。非ボコーダ音声は、ＶＡＥ－ＶＣ、ＳｔａｒＧＡＮ－ＶＣ（Ｃ）、ＳｔａｒＧＡＮ－ＶＣ（Ｗ）及びＶｏｉｃｅＧｒａｄを用いて生成された変換音声である。ボコーダ音声は、ボコーダで実音声を分析合成した合成音声である。ボコーダ音声の品質は、ボコーダを用いた制約の中での上限の品質である。

　また実験では、話者類似性評価の実験も行われた。話者類似性評価の実験では、非ボコーダ音声のサンプルとボコーダ音声のサンプルとの中から無作為に選択されたサンプルと、目標話者の実音声サンプルとを、参加者に続けて聞いてもらった。そして参加者に、両音声が同一話者の発したものらしいか否かを５段階で評価してもらった。

　図１４は、実施形態における音質のＭＯＳ評価結果の一例を示す図である。図１４において、縦軸の１～５の数字はＭＯＳであり、数字が大きいほど音質が良いと評価されたことを表す。より具体的には、５がＥｘｃｅｌｌｅｎｔであり、４がＧｏｏｄであり、３がＦａｉｒであり、２がＰｏｏｒであり、１がＢａｄである。図１４において“ＶｏｉｃｅＧｒａｄ”は、音声信号変換システム１００を用いた音声信号の変換を表す。図１４は、音声信号変換システム１００を用いた音声信号の変換の方法が比較対象の全てのベースラインの方法よりも音質について高い評価を得られたことを示す。

　図１５は、実施形態における話者類似性のＭＯＳ評価結果の一例を示す図である。図１５において、縦軸の１～５の数字はＭＯＳであり、数字が大きいほど音質が良いと評価されたことを表す。より具体的には、５がＤｅｎｉｔｅｌｙであり、４がＬｉｋｅｌｙであり、３がＦａｉｒであり、２がＮｏｔ　ｖｅｒｙ　ｌｉｋｅｌｙであり、１がＵｎｌｉｋｅｌｙである。図１５において“ＶｏｉｃｅＧｒａｄ”は、音声信号変換システム１００を用いた音声信号の変換を表す。図１５は、音声信号変換システム１００を用いた音声信号の変換の方法が比較対象の全てのベースラインの方法よりも話者類似性について高い評価を得られたことを示す。

　このように構成された実施形態の音声信号変換モデル学習装置１は、空間点ｘのスコア関数の値を推定し、推定したスコア関数の値に基づいて最近接停留点を推定する。このように音声信号変換モデル学習装置１は、学習に際して必ずしも目標特徴量分布関数ｐ（ｘ）の形を予め事前情報として取得しておく必要は無い。そのため、音声信号変換モデル学習装置１は機械学習を用いた声質変換の技術において学習に用いられるデータに課せられる制約を緩和することができる。

　また、以上の方法は、目標特徴量系列分布の停留点が入力音声の特徴量系列分布に依らないため、理論的には、任意話者による入力音声に対しても適用可能である。

　また、このように構成された実施形態の音声信号変換システム１００は、音声信号変換モデル学習装置１を備える。そのため、音声信号変換モデル学習装置１は機械学習を用いた声質変換の技術において学習に用いられるデータに課せられる制約を緩和することができる。

　（変形例）
　音声特徴量はとしてメルケプストラムボコーダが用いられる場合、短区間ごとのメルケプストラム係数、基本周波（Ｆ０）値、非周期性指標から音声信号を合成することができる。そのため、これらを組にしたベクトルを音声特徴量としてもよい。また、Ｆ０値の系列であるＦ０パターンを変換する方法については、対数Ｆ０値の平均と分散が目標話者のものと一致するようにシフトとスケーリングとを実行する方法であってもよい。また非周期性指標については入力音声のものを変換せずそのまま用いることも可能であるので、音声特徴量はメルケプストラム係数のみであってもよい。なお、上述の実験では、メルケプストラム係数を要素にしたベクトルが音声特徴量として用いられた。

　また音声特徴量は、ＷａｖｅＮｅｔ等の高品質ニューラルボコーダを利用することを想定した特徴量であってもよい。ＷａｖｅＮｅｔ等の高品質ニューラルボコーダでは、短区間ごとのメルスペクトルを特徴量としている。そのため、高品質ニューラルボコーダを想定した特徴量は、例えばメルスペクトルである。

　メルケプストラム係数を音声特徴量として用いる場合，第ｄ次元の短時間フレームｍにおけるメルケプストラム係数をｘ_ｄ、ｍと表現すれば学習およびテストにおいて、以下の式（２１）により正規化したものを入力として用いることができる。以下、正規化されたメルケプストラム係数を正規化メルケプストラム係数という。

　ψ_ｄは、有声区間における第d次元のメルケプストラム係数の平均を表す。ξ_ｄは、有声区間における第d次元のメルケプストラム係数の標準偏差を表す。このような正規化メルケプストラム係数を用いる場合、テストにおいては、適当なシフトおよびスケーリングを用いて、図３のアルゴリズムで最終的に生成された特徴量系列の平均及び標準偏差を目標話者のものと一致するように調整することが行われる。なお、テストとは、学習済みの機械学習モデルを用いることを意味する。

　なお、変換学習モデルを複数の目標音属性について学習させる方法の１つであって目標音属性ごとに用意された複数のスコア近似器を用いる方法では、必ずしもノイズ分布がガウス分布である必要はなく、ラプラス分布等の他の分布であってもよい。また、変換学習モデルを複数の目標音属性について学習させる方法であって上述した他の１つの方法についても、必ずしもノイズ分布がガウス分布である必要はなく、ラプラス分布等の他の分布であってもよい。なお、上述した他の１つの方法とは、単一のスコア近似器を用い、複数の目標音属性についてスコア関数を推定可能になるようにその１つのスコア近似器を学習させる方法である。

　なお、スコア関数を推定する方法は、ＤＳＭよりも重み付きＤＳＭを用いた方が、推定の精度は高い。なぜなら、ＤＳＭでは単一の分散の分布を用いて推定を行うが、重み付きＤＳＭは分散の異なる複数の分布を用いて推定を行うからである。すなわち、重み付きＤＳＭはノイズ分散σの異なる複数のノイズ分布を用いるため、単一のノイズ分布を用いるＤＳＭよりも、スコア関数の推定の精度が高い。

　音声信号変換モデル学習装置１は、ネットワークを介して通信可能に接続された複数台の情報処理装置を用いて実装されてもよい。この場合、音声信号変換モデル学習装置１が備える各機能部は、複数の情報処理装置に分散して実装されてもよい。

　音声信号変換装置２は、ネットワークを介して通信可能に接続された複数台の情報処理装置を用いて実装されてもよい。この場合、音声信号変換装置２が備える各機能部は、複数の情報処理装置に分散して実装されてもよい。

　なお、音声信号変換システム１００の各機能の全て又は一部は、ＡＳＩＣ（Ａｐｐｌｉｃａｔｉｏｎ　Ｓｐｅｃｉｆｉｃ　Ｉｎｔｅｇｒａｔｅｄ　Ｃｉｒｃｕｉｔ）やＰＬＤ（Ｐｒｏｇｒａｍｍａｂｌｅ　Ｌｏｇｉｃ　Ｄｅｖｉｃｅ）やＦＰＧＡ（Ｆｉｅｌｄ　Ｐｒｏｇｒａｍｍａｂｌｅ　Ｇａｔｅ　Ａｒｒａｙ）等のハードウェアを用いて実現されてもよい。プログラムは、コンピュータ読み取り可能な記録媒体に記録されてもよい。コンピュータ読み取り可能な記録媒体とは、例えばフレキシブルディスク、光磁気ディスク、ＲＯＭ、ＣＤ－ＲＯＭ等の可搬媒体、コンピュータシステムに内蔵されるハードディスク等の記憶装置である。プログラムは、電気通信回線を介して送信されてもよい。

　以上、この発明の実施形態について図面を参照して詳述してきたが、具体的な構成はこの実施形態に限られるものではなく、この発明の要旨を逸脱しない範囲の設計等も含まれる。

　１００…音声信号変換システム、　１…音声信号変換モデル学習装置、　２…音声信号変換装置、　１１…制御部、　１２…入力部、　１３…通信部、　１４…記憶部、　１５…出力部、　１１１…学習用データ取得部、　１１２…変換学習モデル実行部、　１２１…音声特徴量取得部、　１２２…スコア関数推定部、　１２３…空間点更新部、　１２４…停留点判定部、　１２５…信号変換部、　１１３…損失取得部、　１１４…更新部、　１１５…記録部、　１１６…出力制御部、　１１７…終了判定部、　２１…制御部、　２２…入力部、　２３…通信部、　２４…記憶部、　２５…出力部、　２１１…変換対象取得部、　２１２…変換部、　２１３…音声信号出力制御部、　９１…プロセッサ、　９２…メモリ、　９３…プロセッサ、　９４…メモリ

Claims

　入力された音声信号である学習用入力データを取得する学習用データ取得部と、
　前記学習用入力データを変換先の音声信号である学習段階変換先データに変換する機械学習のモデルである変換学習モデルを実行する変換学習モデル実行部と、
　前記変換学習モデルを学習により更新する更新部と、
　を備え、
　音声信号から得られる特徴量である音声特徴量の系列を表すベクトル空間上の関数あって所定の属性を有する音声信号である目標音声信号の音声特徴量の系列の分布を表す確率密度関数を目標特徴量分布関数とし、
　前記ベクトル空間の点であって前記学習用入力データの特徴量の系列を表す点を初期値点とし、
　前記ベクトル空間の点ｘを独立変数とする関数であり、前記点ｘから前記目標特徴量分布関数上の停留点であって、前記初期値点の最近接の停留点である最近接停留点まで向かう経路の勾配を示す関数をスコア関数として、
　前記変換学習モデル実行部は、前記スコア関数に基づき前記学習用入力データを前記学習段階変換先データに変換し、
　前記更新部は、前記変換学習モデルの更新において前記スコア関数を更新する、
　音声信号変換モデル学習装置。
　パラメータθを含む関数であってパラメータθを更新する所定の最適化の処理の結果がスコア関数に略同一である関数を表すニューラルネットワークをスコア近似器として、
　前記変換学習モデルを表すニューラルネットワークは複数の前記スコア近似器を備え、
　前記更新部は、前記スコア近似器ごとの違いであってノイズを付与された前記点ｘのデータとノイズが付与される前の空間点ｘのデータとの差とスコア関数の値との違い、の合計に基づいて、前記スコア関数を更新する、
　請求項１に記載の音声信号変換モデル学習装置。
　前記合計に基づいてスコア関数を更新する方法は、重み付きＤＳＭ（Ｄｅｎｏｉｓｉｎｇ　Ｓｃｏｒｅ　Ｍａｔｃｈｉｎｇ）である、
　請求項２に記載の音声信号変換モデル学習装置。
　パラメータθを含む関数であってパラメータθを更新する所定の最適化の処理の結果がスコア関数に略同一である関数を表すニューラルネットワークをスコア近似器として、
　前記変換学習モデルを表すニューラルネットワークは単一の前記スコア近似器を備え、
　前記更新部は、前記スコア近似器が備える複数の違いであってノイズを付与された前記点ｘのデータとノイズが付与される前の空間点ｘのデータとの差とスコア関数の値との違い、の合計に基づいて、前記スコア関数を更新する、
　請求項１に記載の音声信号変換モデル学習装置。
　変換対象の音声信号を取得する変換対象取得部と、
　入力された音声信号である学習用入力データを取得する学習用データ取得部と、前記学習用入力データを変換先の音声信号である学習段階変換先データに変換する機械学習のモデルである変換学習モデルを実行する変換学習モデル実行部と、前記変換学習モデルを学習により更新する更新部と、を備え、音声信号から得られる特徴量である音声特徴量の系列を表すベクトル空間上の関数あって所定の属性を有する音声信号である目標音声信号の音声特徴量の系列の分布を表す確率密度関数を目標特徴量分布関数とし、前記ベクトル空間の点であって前記学習用入力データの特徴量の系列を表す点を初期値点とし、前記ベクトル空間の点ｘを独立変数とする関数であり、前記点ｘから前記目標特徴量分布関数上の停留点であって、前記初期値点の最近接の停留点である最近接停留点まで向かう経路の勾配を示す関数をスコア関数として、前記変換学習モデル実行部は、前記スコア関数に基づき前記学習用入力データを前記学習段階変換先データに変換し、前記更新部は、前記変換学習モデルの更新において前記スコア関数を更新する、音声信号変換モデル学習装置によって得られた学習済みの変換学習モデル、を用いて前記変換対象を変換する変換部と、
　を備える音声信号変換装置。
　入力された音声信号である学習用入力データを取得する学習用データ取得ステップと、
　前記学習用入力データを変換先の音声信号である学習段階変換先データに変換する機械学習のモデルである変換学習モデルを実行する変換学習モデル実行ステップと、
　前記変換学習モデルを学習により更新する更新ステップと、
　を有し、
　音声信号から得られる特徴量である音声特徴量の系列を表すベクトル空間上の関数あって所定の属性を有する音声信号である目標音声信号の音声特徴量の系列の分布を表す確率密度関数を目標特徴量分布関数とし、
　前記ベクトル空間の点であって前記学習用入力データの特徴量の系列を表す点を初期値点とし、
　前記ベクトル空間の点ｘを独立変数とする関数であり、前記点ｘから前記目標特徴量分布関数上の停留点であって、前記初期値点の最近接の停留点である最近接停留点まで向かう経路の勾配を示す関数をスコア関数として、
　前記変換学習モデル実行ステップにおいては、前記スコア関数に基づき前記学習用入力データが前記学習段階変換先データに変換され、
　前記更新ステップにおいては、前記変換学習モデルの更新において前記スコア関数が更新される、
　音声信号変換モデル学習方法。
　請求項１から４のいずれか一項に記載の音声信号変換モデル学習装置としてコンピュータを機能させるためのプログラム。