WO2022085197A1

WO2022085197A1 - 音声信号変換モデル学習装置、音声信号変換装置、音声信号変換モデル学習方法及びプログラム

Info

Publication number: WO2022085197A1
Application number: PCT/JP2020/039975
Authority: WO
Inventors: 卓弘金子; 弘和亀岡; 宏田中; 伸克北条
Original assignee: 日本電信電話株式会社
Priority date: 2020-10-23
Filing date: 2020-10-23
Publication date: 2022-04-28
Also published as: US20230386489A1; JPWO2022085197A1

Abstract

入力された音声信号である学習用入力データを取得する学習用データ取得部と、前記学習用入力データを変換先の音声信号である学習段階変換先データに変換する学習段階変換処理を含む機械学習のモデルである変換学習モデルを実行する学習段階変換部と、を備え、前記学習段階変換処理は、処理対象のデータである処理対象入力データに基づき、処理対象入力データを母集合とする処理対象入力データの部分集合である学習用入力側部分集合ごとに特徴量を取得する、局所特徴量取得処理を含み、前記変換学習モデルは、前記特徴量の分布の統計値を調整するパラメータの値である調整パラメータ値を前記学習用入力データに基づき取得する調整パラメータ値取得処理、をさらに含み、前記学習段階変換処理は、前記調整パラメータ値に基づく所定の演算の結果を用いて前記学習用入力データを前記学習段階変換先データに変換する、音声信号変換モデル学習装置。

Description

音声信号変換モデル学習装置、音声信号変換装置、音声信号変換モデル学習方法及びプログラム

　本発明は、音声信号変換モデル学習装置、音声信号変換装置、音声信号変換モデル学習方法及びプログラムに関する。

　入力された音声の言語情報（発話文）を保持したまま非言語・パラ言語（話者性や発話様式など）のみを変換する技術を声質変換といい、テキスト音声合成の話者性変換、発声支援、音声強調、発音変換などへの応用が期待されている。声質変換の技術の１つとして、例えば機械学習を用いることが提案されている（特許文献１～４）。

特開２０１９－０３５９０２号公報特開２０１９－１４４４０２号公報特開２０１９－１０１３９１号公報特開２０２０－１４０２４４号公報

　しかしながら、これまで提案されてきた機械学習を用いる場合、変換対象の音声信号の特徴量を抽出する過程で、抽出前の音声信号が有する情報の一部が失われる場合があった。例えば、畳み込みニューラルネットワークであれば、入力されたデータの一部から特徴量を抽出する処理がフィルタを用いて繰り返し実行される。この処理はフィルタを用いた縮約の処理であるため、縮約により情報の一部が失われる。特に、入力されたデータの一部と他の一部との間の相関の情報等の入力されたデータの構造を示す情報が失われる。

　例えば「おはよう」と発せられた音声に対して適用された場合に、出力の音声では「おはうう」等のように音の一部が欠落してしまう場合があった。これは、入力されたデータでの一部である「よ」が前後の「は」と「う」の間にあるという順序の情報が失われてしまったために生じた現象である。

　このように、従来の技術では、変換に際して入力されたデータの情報の一部が失われてしまうために、学習が適切に行われず声質変換が適切に行われない場合があった。

　上記事情に鑑み、本発明は、機械学習を用いた声質変換の技術において変換対象の音声信号の情報が失われることを軽減する技術を提供することを目的としている。

　本発明の一態様は、入力された音声信号である学習用入力データを取得する学習用データ取得部と、前記学習用入力データを変換先の音声信号である学習段階変換先データに変換する学習段階変換処理を含む機械学習のモデルである変換学習モデルを実行する学習段階変換部と、を備え、前記学習段階変換処理は、処理対象のデータである処理対象入力データに基づき、処理対象入力データを母集合とする処理対象入力データの部分集合である学習用入力側部分集合ごとに特徴量を取得する、局所特徴量取得処理を含み、前記変換学習モデルは、前記特徴量の分布の統計値を調整するパラメータの値である調整パラメータ値を前記学習用入力データに基づき取得する調整パラメータ値取得処理、をさらに含み、前記学習段階変換処理は、前記調整パラメータ値に基づく所定の演算の結果を用いて前記学習用入力データを前記学習段階変換先データに変換する、音声信号変換モデル学習装置である。

　本発明により、機械学習を用いた声質変換の技術において変換対象の音声信号の情報が失われることを軽減する技術を提供することが可能となる。

実施形態の音声信号変換システム１００の概要を説明する説明図。実施形態における変換学習モデルを説明する第１の説明図。実施形態における変換学習モデルを説明する第２の説明図。実施形態における音声信号変換モデル学習装置１のハードウェア構成の一例を示す図。実施形態における制御部１１の機能構成の一例を示す図。実施形態における音声信号変換モデル学習装置１が実行する処理の流れの一例を示すフローチャート。実施形態における音声信号変換装置２のハードウェア構成の一例を示す図。実施形態における制御部２１の機能構成の一例を示す図。実施形態における音声信号変換装置２が実行する処理の流れの一例を示すフローチャート。実施形態における実験結果の一例を示す第１の図。実施形態における実験結果の一例を示す第２の図。従来技術における変換器Ｇ及び変換器Ｆのニューラルネットワークの構成の一例を説明する説明図。

（実施形態）
　図１は、実施形態の音声信号変換システム１００の概要を説明する説明図である。音声信号変換システム１００は、変換先音属性情報に基づき、変換先音属性情報が示す音属性を有する音声信号に変換元音声信号を変換する。音声信号は音声を表す信号である。変換元音声信号は、音声信号変換システム１００による変換対象の音声信号である。以下、音声信号変換システム１００による変換元音声信号の変換先の音声信号を変換先音声信号という。変換先音属性情報は、変換先の音声信号が有する音属性（以下「変換先音属性」という。）を示す情報である。音属性は、音に関する属性である。音属性は、例えば話者の性別である。音属性は、例えば話者を識別する識別子であってもよい。

　そのため音声信号変換システム１００は、例えば変換先音属性は女性が発した音という属性である場合であって変換元音属性は男性が発した音という属性である場合、男性の声の音声信号を女性の声の音声信号に変換する。変換元音属性とは、変換元音声信号の音属性である。

　以下、変換先音属性情報に基づき、変換先音属性情報が示す音属性を有する音声信号に変換元音声信号を変換する処理を、音声信号変換処理という。音声信号変換処理は、具体的には、音声信号変換モデルを実行する処理である。音声信号変換モデルは、予め学習済みの機械学習のモデルであって変換先音属性情報に基づき変換先音属性情報が示す音属性を有する音声信号に変換元音声信号を変換する機械学習のモデルである。そのため、音声信号変換モデルは、機械学習によって得られた結果であり、機械学習による学習結果である。

　音声信号変換システム１００は、音声信号変換モデル学習装置１及び音声信号変換装置２を備える。音声信号変換モデル学習装置１は、所定の機械学習のモデルを所定の終了条件が満たされるまで機械学習によって更新する。所定の終了条件が満たされた時点の所定の機械学習のモデルが音声信号変換モデルである。そのため、音声信号変換モデル学習装置１は、所定の終了条件が満たされるまで所定の機械学習のモデルを機械学習によって更新することで、音声信号変換モデルを取得する。

　以下説明の簡単のため、機械学習を行うことを学習ともいう。また、機械学習のモデル（以下「機械学習モデル」という。）を機械学習によって更新するとは、機械学習モデルにおけるパラメータの値を好適に調整することを意味する。以下の説明において、Ａであるように学習するとは、機械学習モデルにおけるパラメータの値がＡを満たすように調整されることを意味する。Ａは条件を表す。また、以下、学習用とは、機械学習モデルの更新に用いられることを意味する。なお、機械学習のモデルとは、実行される条件と順番とが予め定められた１又は複数の処理を含む集合である。

　所定の機械学習のモデル（以下「変換学習モデル」という。）は、入力された音声信号を変換する。変換学習モデルには、学習用の音声信号であって変換対象の音声信号（以下「学習用入力データ」という。）が入力される。また、変換学習モデルには、学習用の音声信号であって変換学習モデルによる変換後の学習用入力データとの比較に用いられる音声信号（以下「学習用参照データ」という。）が入力される。すなわち、学習用参照データは、機械学習におけるいわゆる正解データである。なお、以下学習用入力データと学習用参照データとを区別しない場合、それらを学習用データという。

　変換学習モデルは、変換先音属性情報に基づき、入力された学習用入力データを学習段階変換先データに変換する。学習段階変換先データは、音属性が変換先音属性情報の示す音属性に学習用入力データよりも近い音声信号である。音声信号変換モデル学習装置１は、学習段階変換先データと学習用参照データとの違い（以下「損失」という。）に基づき、変換学習モデルを更新する。

　なお、学習済みの変換学習モデルが音声信号変換モデルである。すなわち、所定の終了条件が満たされた時点における変換学習モデルが音声信号変換モデルである。

　図２は、実施形態における変換学習モデルを説明する第１の説明図である。
　変換学習モデルは、モデル条件を満たす機械学習モデルであればどのような機械学習モデルであってもよい。モデル条件は第１ネットワーク条件、第２ネットワーク条件及び第３ネットワーク条件の少なくとも３つの条件を含む。

　第１ネットワーク条件は、処理対象のデータであって入力されたデータ（以下「処理対象入力データ」という。）に基づき、学習用入力側部分集合ごとに特徴量（以下「局所特徴量」という。）を取得する処理を含む、という条件である。学習用入力側部分集合は、処理対象入力データを母集合とする処理対象入力データの部分集合である。なお、学習用入力側部分集合は、処理対象入力データの真部分集合であることが望ましい。以下、処理対象入力データに基づき各学習用入力側部分集合について局所特徴量を取得する処理を局所特徴量取得処理という。

　局所特徴量は、より具体的には、学習用入力側部分集合ごとに得られる値であって各学習用入力側部分集合の特徴量である。１つの局所特徴量は、例えば畳み込みニューラルネットワークの出力値を表すテンソルの１つの要素の値である。局所特徴量は、例えば音響特徴量である。音響特徴量は、メルケプストラム係数やパワースペクトルやメルスペクトル等の音声に関する特徴量である。

　処理対象入力データは、例えば学習用入力データである。処理対象入力データは、例えば学習用入力データに対する局所特徴量取得処理の実行により得られた局所特徴量の集合（以下「局所特徴量集合」という。）であってもよい。処理対象入力データは、例えば局所特徴量集合に対する局所特徴量取得処理の実行により得られた局所特徴量集合であってもよい。このように、処理対象入力データは、学習用入力データに基づいて得られた量の集合であればどのような量であってもよい。なお、図２において学習用入力データはＸと表されている。学習用入力データは後述する式（１）におけるＸである。

　局所特徴量取得処理は、変換学習モデルにおいて１回だけ実行されてもよいし複数回実行されてもよい。

　第２ネットワーク条件は、調整パラメータの値（以下「調整パラメータ値」という。）を取得する処理（以下「調整パラメータ値取得処理」という。）を含む、という条件である。調整パラメータは、局所特徴量の分布の統計値（以下「大域的統計値」という。）を調整するパラメータである。大域的統計値は例えば平均であってもよいし、中央値であってもよいし、分布の半値全幅であってもよい。調整パラメータ値取得処理は学習用入力データに対して実行される処理である。

　調整パラメータ値取得処理は、例えば畳み込みニューラルネットワーク（Ｃｏｎｖｏｌｕｔｉｏｎａｌ　Ｎｅｕｒａｌ　Ｎｅｔｗｏｒｋ；ＣＮＮ）が実行する処理である。このような場合、調整パラメータ値は、学習用入力データがＣＮＮに入力された結果、ＣＮＮが出力する値である。このような調整パラメータ値を出力するＣＮＮは、調整パラメータ値を出力しないＣＮＮと比較して入力データの変換範囲が限定されていて、入力データの大域的な構造を保持することが可能であるという点で異なる。このような違いがあるために、調整パラメータ値を出力するＣＮＮは、調整パラメータ値を出力しないＣＮＮと異なり、調整パラメータ値を出力することができる。このことはＣＮＮに限らず他のニューラルネットワークについても同様である。すなわち、上述の違いを有するために調整パラメータ値を出力することができるニューラルネットワークと調整パラメータ値を出力できないニューラルネットワークとが存在する。

　なお調整とは、四則演算を用いて、対象となるデータの大きさ、または、基準値からのずれ、などの統計量を変換する処理を意味する。

　調整パラメータは例えば式（１）のβ（Ｘ）とγ（Ｘ）とである。そのため、例えば、後述する式（１）のＸに対する調整パラメータ値取得処理の実行により、式（１）のβ（Ｘ）とγ（Ｘ）との値が取得される。

　第３ネットワーク条件は、調整パラメータ値に基づく所定の演算の結果を用いて学習用入力データを学習段階変換先データに変換する、という条件である。第３ネットワーク条件は、具体的には例えば、変換学習モデルにおいて実行される局所特徴量取得処理の実行結果のうち所定の段階で実行される局所特徴量取得処理の結果に対して調整パラメータ値に応じた写像による変換が実行される、という条件である。

　より具体的には、第３ネットワーク条件は、変換学習モデルの実行により得られる局所特徴量集合のうち所定の段階で得られる局所特徴量集合の各局所特徴量に対して調整パラメータ値に応じた写像による変換が実行される、という条件である。以下、対象集合の各局所特徴量に対して実行される処理で、調整パラメータ値に応じた写像（以下「特徴量変換写像」という。）による変換を写像変換処理という。

　対象集合は、変換学習モデルの実行により得られる局所特徴量集合のうち変換学習モデルの実行中の所定の段階の処理で得られる局所特徴量集合である。対象集合は、より具体的には学習段階変換処理の実行によって得られる局所特徴量集合であって対象段階処理によって得られる局所特徴量集合である。対象段階処理は、学習段階変換処理が含む各処理のうち対象集合を得る所定の処理である。

　学習段階変換処理は、変換学習モデルが表す処理のうち、調整パラメータ値取得処理と写像変換処理との２種類の処理以外の処理である。すなわち、学習段階変換処理は、学習用入力データを入力とし学習段階変換先データを出力とする処理である。

　学習段階変換処理は、局所特徴量取得処理を含んでいればどのような処理であってもよい。学習段階変換処理は、例えば、ダウンサンプリング処理を含んでもよいし、アップサンプリング処理を含んでもよいし、特徴量のテンソルを入れ替える処理を含んでもよい。また、学習段階変換処理は、例えば、畳み込みの処理をスキップした時の値と畳み込みの処理の適用後の値を加算する処理を含んでもよい。

　なお、局所特徴量はテンソルで表される量であり、局所特徴量に対する特徴量変換写像による変換は局所特徴量の要素毎に実行されることが望ましい。要素毎に実行されることで、要素ごとに異なる統計量の値の差異への対応を可能にするという効果を奏する。例えば、無声区間では、信号の変動は小さく、有声区間では、信号の変動は大きいが、そのような変動の差異に対応が可能である。

　特徴量変換写像は、例えばアフィン変換である。アフィン変換は例えば式（１）で表される。より具体的には式（１）のアフィン変換は処理対象の入力データが畳み込み層の出力結果である場合に用いられる特徴量変換写像の一例である。すなわち、式（１）のアフィン変換は対象段階処理が畳み込み層の処理である場合に用いられる特徴量変換写像の一例である。

　式（１）で表されるアフィン変換においてＸは処理対象の入力データである。Ｘは、要素が実数のテンソルであって少なくとも３階のテンソルである。式（１）におけるＨは写像変換処理の対象となる特徴量を表す。式（１）におけるＨは、要素が実数のテンソルであって少なくとも３階のテンソルである。式（１）におけるＨは、例えばｑ×ｔ×ｃの３階のテンソルである。ｑは特徴量次元数を表し、ｔは系列長をあらわし、ｃはチャネル数を表す。特徴量次元数とは、特徴量Ｈの周波数方向の次元数を意味する。式（１）において“・”は要素積を表し、“＋”は要素和を表す。式（１）におけるＨ´は式（１）の右辺の変換によって式（１）におけるＨが変換された結果である。

　γは調整パラメータであり、アフィン変換におけるスケールパラメータである。γは、要素が実数のテンソルであってｑ×ｔ×ｃの３階のテンソルである。βは調整パラメータであり、アフィン変換におけるバイアスパラメータである。βは、要素が実数のテンソルであってｑ×ｔ×ｃの３階のテンソルである。スケールパラメータγとバイアスパラメータβとは、調整パラメータの一例である。

　写像変換処理において実行される処理は、例えば式（１）により特徴量Ｈを特徴量Ｈ´に変換する処理である。そのため、式（１）における特徴量Ｈを元にもつ集合が対象集合の一例である。

　変換学習モデルでは損失に基づき、学習段階変換処理を実行するニューラルネットワークのパラメータと、調整パラメータ値取得処理を実行するニューラルネットワークのパラメータとが好適に調整される。以下、学習段階変換処理を実行するニューラルネットワークを学習段階変換処理ネットワークという。以下、調整パラメータ値取得処理を実行するニューラルネットワークを調整パラメータ値取得ネットワークという。

　なお、ニューラルネットワークとは、電子回路、電気回路、光回路、集積回路等の回路であって機械学習モデルを表現する回路である。なお、損失に基づいて好適に調整される、ネットワークのパラメータは、表現する機械学習モデルのパラメータである。またネットワークのパラメータは、ネットワークを構成する回路のパラメータである。

　学習段階変換処理ネットワークは、学習段階変換処理を実行するニューラルネットワークであればどのようなニューラルネットワークであってもよい。学習段階変換処理ネットワークは、例えば全結合ニューラルネットワークであってもよいし、畳み込みニューラルネットワーク（Ｃｏｎｖｏｌｕｔｉｏｎａｌ　Ｎｅｕｒａｌ　Ｎｅｔｗｏｒｋ；ＣＮＮ）であってもよいし、オートエンコーダであってもよい。

　なお、学習段階変換処理の実行中の所定の段階で得られる局所特徴量集合とは、学習段階変換処理ネットワークが有する所定の層が出力する局所特徴量集合を意味する。すなわち段階とはニューラルネットワークの層を意味する。

　調整パラメータ値取得ネットワークは、調整パラメータ値取得処理を実行するニューラルネットワークであればどのようなニューラルネットワークであってもよい。調整パラメータ値取得ニューラルネットワークは、例えばＣＮＮであってもよい。

　なお、調整パラメータ値取得処理の結果のデータのサイズは、学習用入力データのサイズに依存したサイズであってもよい。特に、調整パラメータ値取得処理の結果のデータのサイズは、写像変換処理の対象の局所特徴量のサイズに同一ことが望ましい。例えば、調整パラメータβと調整パラメータγとは、式（１）に示すように、写像変換処理の対象となる特徴量Ｈと要素ごとに掛け合わされる。そのため、調整パラメータ値取得処理の結果のデータのサイズは、写像変換処理の対象の局所特徴量のサイズと同じサイズであることが望ましい。なお、データのサイズとは、データがチャネル数の軸、高さの軸、幅の軸の直交する３軸で張られる３次元空間において表現されるデータである場合、データのチャネル数、高さ及び幅を意味する。

　なお、学習段階変換処理ネットワークと調整パラメータ値取得ネットワークとは必ずしも異なるニューラルネットワークによって構成される必要は無く、学習段階変換処理ネットワークと調整パラメータ値取得ネットワークとは一部を共有するニューラルネットワークとして構成されてもよい。

　学習段階変換処理ネットワークと調整パラメータ値取得ネットワークとは、複数の調整パラメータ値を取得する場合、それぞれの値を取得するニューラルネットワークの一部の層を共有するニューラルネットワークであってもよい。例えば、スケールパラメータを算出するニューラルネットワークとバイアスパラメータを算出するニューラルネットワークとは一部の層を共有するニューラルネットワークであってもよい。以下説明の簡単のため学習段階変換処理ネットワークと調整パラメータ値取得ネットワークとが異なるニューラルネットワークとして構成される場合を例に音声信号変換システム１００を説明する。

　音声信号変換装置２は、音声信号変換処理を実行する。

　図３は、実施形態における変換学習モデルを説明する第２の説明図である。より具体的には、図３は、図２で説明した変換学習モデルを表すニューラルネットワーク（以下「説明ネットワーク」という。）の一例を説明する説明図である。説明ネットワークは、ニューラルネットワークＷ１と、ニューラルネットワークＷ２と、ニューラルネットワークＷ３とを備える。

　ニューラルネットワークＷ１は、学習用入力データＸが入力されると、学習用入力データＸに基づき式（１）のβ（Ｘ）とγ（Ｘ）とを出力する処理を実行するニューラルネットワークである。

　ニューラルネットワークＷ１は、Ｑｘ×Ｔｘ×１サイズの学習用入力データをＱｆ×Ｔｆ×１サイズのデータに変換するサイズの変換の処理を実行する。次にニューラルネットワークＷ１は、２次元の畳み込みと活性化関数ＲｅＬＵを用いた非線形処理とをＮ回実行する処理を、Ｑｆ×Ｔｆ×Ｃｆサイズのデータに対して実行する。次にニューラルネットワークＷ１は、２次元の畳み込みと活性化関数ＲｅＬＵを用いた非線形処理とをＮ回実行する処理の結果に対して２次元の畳み込みの処理を実行する。その結果、ニューラルネットワークＷ１は、調整パラメータβと調整パラメータγとの値を得る。

　ニューラルネットワークＷ２は、学習用入力データＸが入力されると、学習用入力データＸに基づき式（１）の特徴量Ｈを取得する処理を実行するニューラルネットワークである。

　ニューラルネットワークＷ３は、ニューラルネットワークＷ２によって取得された特徴量ＨをニューラルネットワークＷ１によって取得された調整パラメータβ及びγを用いて、式（１）における特徴量Ｈ´に変換する。

　ニューラルネットワークＷ３は、特徴量Ｈを正規化する処理を実行する。正規化する処理は、具体的には以下の式（２）で表される処理である。

　式（２）においてμ（Ｈ）は、Ｈのチャネル毎の平均値を表す。式（２）においてσ（Ｈ）はチャネル毎の標準偏差を表す。式（２）で表される処理は、特徴量Ｈの分布の標準偏差と平均値の調整である。正規化の処理の結果として出力されるデータは、Ｑｆ×Ｔｆ×Ｃｆのサイズのデータである。

　ニューラルネットワークＷ３は次に、ニューラルネットワークＷ１が取得した調整パラメータγを用いて正規化後のＨの要素積を算出する。ニューラルネットワークＷ３は次に、ニューラルネットワークＷ１が取得した調整パラメータβを用いて、算出された要素積に調整パラメータβを足し算する。足し算の結果が、特徴量Ｈ´である。このようにしてニューラルネットワークＷ３は、特徴量Ｈに基づき特徴量Ｈ´を取得する。ニューラルネットワークＷ３が実行した処理、まとめると、は以下の式（３）で表現される。

　なお、βを足し算する処理は特徴量Ｈの分布の平均の位置を調整する処理である。このように、特徴量Ｈをμ（Ｈ）とσ（Ｈ）とを使って正規化した後にβとγとを適用することで変換後の特徴量Ｈ´の平均と標準偏差とをそれぞれβの値とγの値とに変換することが可能である。このような特徴量Ｈの分布の統計値を変換する処理の実行により特徴量Ｈの値を特徴量Ｈ´等の他の値に変換する処理が調整の一例である。

　なお、上記では、３階のテンソルに２次元のＣＮＮを適用する例を説明したが、任意のＭ階のテンソルに（Ｍ－１）次元のＣＮＮを適用してもよい。例えば、２階のテンソルに１次元のＣＮＮを適用してもよい。

　図４は、実施形態における音声信号変換モデル学習装置１のハードウェア構成の一例を示す図である。音声信号変換モデル学習装置１は、バスで接続されたＣＰＵ等のプロセッサ９１とメモリ９２とを備える制御部１１を備え、プログラムを実行する。音声信号変換モデル学習装置１は、プログラムの実行によって制御部１１、入力部１２、通信部１３、記憶部１４及び出力部１５を備える装置として機能する。

　より具体的には、プロセッサ９１が記憶部１４に記憶されているプログラムを読み出し、読み出したプログラムをメモリ９２に記憶させる。プロセッサ９１が、メモリ９２に記憶させたプログラムを実行することによって、音声信号変換モデル学習装置１は、制御部１１、入力部１２、通信部１３、記憶部１４及び出力部１５を備える装置として機能する。

　制御部１１は、音声信号変換モデル学習装置１が備える各種機能部の動作を制御する。制御部１１は、変換学習モデルを実行する。変換学習モデルを実行するとは学習段階変換処理、調整パラメータ値取得処理及び写像変換処理を実行することを意味する。制御部１１は、例えば出力部１５の動作を制御し、出力部１５に変換学習モデルの実行結果を出力させる。制御部１１は、例えば変換学習モデルの実行により生じた各種情報を記憶部１４に記録する。記憶部１４が記憶する各種情報は、例えば変換学習モデルの学習結果を含む。

　入力部１２は、マウスやキーボード、タッチパネル等の入力装置を含んで構成される。入力部１２は、これらの入力装置を音声信号変換モデル学習装置１に接続するインタフェースとして構成されてもよい。入力部１２は、音声信号変換モデル学習装置１に対する各種情報の入力を受け付ける。入力部１２には、例えば学習用データが入力される。

　通信部１３は、音声信号変換モデル学習装置１を外部装置に接続するための通信インタフェースを含んで構成される。通信部１３は、有線又は無線を介して外部装置と通信する。外部装置は、例えば学習用データの送信元の装置である。

　記憶部１４は、磁気ハードディスク装置や半導体記憶装置などの非一時的コンピュータ読み出し可能な記憶媒体装置を用いて構成される。記憶部１４は音声信号変換モデル学習装置１に関する各種情報を記憶する。記憶部１４は、例えば入力部１２又は通信部１３を介して入力された情報を記憶する。記憶部１４は、例えば変換学習モデルを記憶する。記憶部１４は、例えば変換学習モデルの実行により生じた各種情報を記憶する。

　なお、学習用データは、必ずしも入力部１２だけに入力される必要もないし、通信部１３だけに入力される必要もない。学習用データは、入力部１２と通信部１３とのどちらから入力されてもよい。例えば学習用参照データは入力部１２に入力され、入力部１２に入力された学習用参照データに対応する学習用入力データは通信部１３に入力されてもよい。また、学習用データは必ずしも入力部１２又は通信部１３から取得される必要はなく、予め記憶部１４が記憶済みであってもよい。

　出力部１５は、各種情報を出力する。出力部１５は、例えばＣＲＴ（Ｃａｔｈｏｄｅ　Ｒａｙ　Ｔｕｂｅ）ディスプレイや液晶ディスプレイ、有機ＥＬ（Ｅｌｅｃｔｒｏ－Ｌｕｍｉｎｅｓｃｅｎｃｅ）ディスプレイ等の表示装置を含んで構成される。出力部１５は、これらの表示装置を音声信号変換モデル学習装置１に接続するインタフェースとして構成されてもよい。出力部１５は、例えば入力部１２に入力された情報を出力する。出力部１５は、例えば入力部１２又は通信部１３に入力された学習用データを表示してもよい。出力部１５は、例えば変換学習モデルの実行結果を表示してもよい。

　図５は、実施形態における制御部１１の機能構成の一例を示す図である。制御部１１は学習用データ取得部１１１、学習段階変換部１１２、記録部１１３、出力制御部１１４及び終了判定部１１５を備える。

　学習用データ取得部１１１は、入力部１２又は通信部１３に入力された学習用データを取得する。学習用データ取得部１１１は、予め記憶部１４に学習用データが記録済みの場合には、記憶部１４から学習用データを読み出してもよい。

　学習段階変換部１１２は、変換学習モデルの実行と変換学習モデルの実行結果に基づいて得られた損失に基づき変換学習モデルの学習を行う処理とを実行する。学習段階変換部１１２は、学習段階変換処理実行部１２１、調整パラメータ値取得部１２２、写像変換部１２３及び損失取得部１２４を備える。

　学習段階変換処理実行部１２１は、学習段階変換処理を実行する。そのため、学習段階変換処理実行部１２１は、例えば学習段階変換処理ネットワークである。学習段階変換処理実行部１２１を形成するニューラルネットワークは、例えば図３におけるニューラルネットワークＷ２を含む。

　調整パラメータ値取得部１２２は、調整パラメータ値取得処理を実行する。そのため調整パラメータ値取得部１２２は、例えば調整パラメータ値取得ネットワークである。調整パラメータ値取得部１２２は、例えば図３におけるニューラルネットワークＷ１である。

　写像変換部１２３は、学習段階変換処理の実行により得られる局所特徴量集合のうちの対象集合の各局所特徴量に対して、調整パラメータ値取得処理の実行により得られた調整パラメータ値に応じた特徴量変換写像による写像変換処理を実行する。写像変換部１２３は、例えば図３におけるニューラルネットワークＷ３である。

　損失取得部１２４は、学習段階変換処理の実行により得られた学習段階変換先データと学習用参照データとに基づいて損失を取得する。損失取得部１２４は、損失に基づいて変換学習モデルを更新する。損失に基づく変換学習モデルの更新は、具体的には、損失取得部１２４が損失に基づき所定の規則にしたがって学習段階変換処理ネットワーク及び調整パラメータ値取得ネットワークのパラメータの値を更新する処理である。例えば損失取得部１２４は、損失を小さくするように学習段階変換処理ネットワーク及び調整パラメータ値取得ネットワークのパラメータの値を更新する。

　学習段階変換処理実行部１２１と調整パラメータ値取得部１２２と写像変換部１２３と損失取得部１２４とは、お互いが協働することで変換学習モデルの実行と更新とが可能なニューラルネットワークを形成可能であれば、どのようなものであってもよい。

　例えば学習段階変換処理実行部１２１と損失取得部１２４とは、協働して動作することでＧＡＮ（Ｇｅｎｅｒａ　ｔｉｖｅ　Ａｄｖｅｒｓａｒｉａｌ　Ｎｅｔｗｏｒｋｓ）として動作するニューラルネットワークを形成する回路であってもよい。このような場合、調整パラメータ値取得部１２２は調整パラメータ値を取得し、写像変換部１２３がＧＡＮの対象段階処理により得られた対象集合の各局所特徴量に対して写像変換処理を実行する。ＧＡＮは、写像変換処理の結果を用いて対象段階処理の次の段階の処理を実行する。対象段階処理の次の段階の処理とは、ニューラルネットワークにおける対象段階処理が実行される層の次の層で実行される処理を意味する。

　例えば学習段階変換処理実行部１２１と損失取得部１２４とは、協働して動作することでＣｙｃｌｅＧＡＮとして動作するニューラルネットワークを形成する回路であってもよい。このような場合、このような場合、調整パラメータ値取得部１２２は調整パラメータ値を取得し、写像変換部１２３がＣｙｃｌｅＧＡＮの対象段階処理により得られた対象集合の各局所特徴量に対して写像変換処理を実行する。ＣｙｃｌｅＧＡＮは、写像変換処理の結果を用いて対象段階処理の次の段階の処理を実行する。

　例えば学習段階変換処理実行部１２１と損失取得部１２４とは、協働して動作することで条件付変分自己符号化器（Ｃｏｎｄｉｔｉｏｎａｌ　Ｖａｒｉａｔｉｏｎａｌ　Ａｕｔｏｅｎｃｏｄｅｒ；ＣＶＡＥ）として動作するニューラルネットワークを形成する回路であってもよい。

　例えば学習段階変換処理実行部１２１と損失取得部１２４とは、協働して動作することで、例えばパラレル声質変換を行うニューラルネットワークを形成する回路であってもよい。

　記録部１１３は各種情報を記憶部１４に記録する。出力制御部１１４は出力部１５の動作を制御する。終了判定部１１５は、所定の終了条件が満たされたか否かを判定する。所定の終了条件が満たされた時点の変換学習モデルが学習済みの変換学習モデルであり、音声信号変換モデルである。

　図６は、実施形態における音声信号変換モデル学習装置１が実行する処理の流れの一例を示すフローチャートである。以下、説明の簡単のため学習段階変換処理の含む対象段階処理が１つの場合を例に音声信号変換モデル学習装置１が実行する処理の流れの一例を説明する。なお、対象段階処理が複数存在する場合には、対象段階処理ごとに調整パラメータ値取得処理と写像変換処理が実行される。

　学習用データ取得部１１１が学習用データを取得する（ステップＳ１０１）。次に学習段階変換処理実行部１２１が、対象段階処理までの処理を実行する（ステップＳ１０２）。次に、調整パラメータ値取得部１２２が調整パラメータ値を取得する（ステップＳ１０３）。次に、写像変換部１２３が、ステップＳ１０２の処理により得られた局所特徴量集合（すなわち対象集合）の各局所特徴量に対して、ステップＳ１０３で得られた調整パラメータ値に応じた写像変換処理を実行する（ステップＳ１０４）。

　次に、学習段階変換処理実行部１２１がステップＳ１０４の処理により得られた変換後の局所特徴量を用いて対象段階処理の次の処理から学習段階変換処理の最後の処理まで実行する（ステップＳ１０５）。ステップＳ１０５の処理により、学習段階変換先データが得られる。ステップＳ１０５の次に、損失取得部１２４が、学習段階変換先データと学習用参照データとに基づき損失を取得する（ステップＳ１０６）。次に、損失取得部１２４が、損失に基づき、変換学習モデルを更新する（ステップＳ１０７）。次に、終了判定部１１５は、所定の終了条件が満たされたか否かを判定する（ステップＳ１０８）。所定の終了条件が満たされない場合（ステップＳ１０８：ＮＯ）、ステップＳ１０１の処理に戻る。一方、所定の終了条件が満たされる場合（ステップＳ１０８：ＹＥＳ）、処理が終了する。

　図７は、実施形態における音声信号変換装置２のハードウェア構成の一例を示す図である。音声信号変換装置２は、バスで接続されたＣＰＵ等のプロセッサ９３とメモリ９４とを備える制御部２１を備え、プログラムを実行する。音声信号変換装置２は、プログラムの実行によって制御部２１、入力部２２、通信部２３、記憶部２４及び出力部２５を備える装置として機能する。

　より具体的には、プロセッサ９３が記憶部２４に記憶されているプログラムを読み出し、読み出したプログラムをメモリ９４に記憶させる。プロセッサ９３が、メモリ９４に記憶させたプログラムを実行することによって、音声信号変換装置２は、制御部２１、入力部２２、通信部２３、記憶部２４及び出力部２５を備える装置として機能する。

　制御部２１は、音声信号変換装置２が備える各種機能部の動作を制御する。制御部２１は、例えば音声信号変換モデル学習装置１が得た学習済みの変換学習モデル（すなわち音声信号変換モデル）を用いて、変換元音声信号を変換先音声信号に変換する。

　入力部２２は、マウスやキーボード、タッチパネル等の入力装置を含んで構成される。入力部２２は、これらの入力装置を自装置に接続するインタフェースとして構成されてもよい。入力部２２は、自装置に対する各種情報の入力を受け付ける。入力部２２は、例えば変換元音声信号を変換先音声信号に変換する処理の開始を指示する入力を受け付ける。入力部２２は、例えば変換元音声信号の入力を受け付ける。

　通信部２３は、自装置を外部装置に接続するための通信インタフェースを含んで構成される。通信部２３は、有線又は無線を介して外部装置と通信する。外部装置は、例えば変換先音声信号の出力先である。このような場合、通信部２３は、外部装置との通信によって外部装置に変換先音声信号を出力する。変換先音声信号の出力の際の外部装置は、例えばスピーカー等の音声出力装置である。

　通信部２３の通信先の外部装置は、例えば音声信号変換モデル学習装置１である。このような場合、通信部２３は、例えば音声信号変換モデル学習装置１が得た学習済みの変換学習モデルを取得する。

　通信部２３の通信先の外部装置は、例えば音声信号変換モデルを記憶したＵＳＢメモリ等の記憶装置であってもよい。外部装置が例えば音声信号変換モデルを記憶しており音声信号変換モデルを出力する場合、通信部２３は外部装置との通信によって音声信号変換モデルを取得する。

　通信部２３の通信先の外部装置は、例えば変換元音声信号の出力元である。このような場合、通信部２３は、外部装置との通信によって外部装置から変換元音声信号を取得する。

　記憶部２４は、磁気ハードディスク装置や半導体記憶装置などの非一時的コンピュータ読み出し可能な記憶媒体装置を用いて構成される。記憶部２４は音声信号変換装置２に関する各種情報を記憶する。記憶部２４は、例えば通信部２３を介して取得した音声信号変換モデルを記憶する。

　出力部２５は、各種情報を出力する。出力部２５は、例えばＣＲＴディスプレイや液晶ディスプレイ、有機ＥＬディスプレイ等の表示装置を含んで構成される。出力部２５は、これらの表示装置を自装置に接続するインタフェースとして構成されてもよい。出力部２５は、例えば入力部２２に入力された情報を出力する。

　図８は、実施形態における制御部２１の機能構成の一例を示す図である。制御部２１は、変換対象取得部２１１、変換部２１２及び音声信号出力制御部２１３を備える。

　変換対象取得部２１１は、変換対象となる変換元音声信号を取得する。変換対象取得部２１１は、例えば入力部２２に入力された変換元音声信号を取得する。変換対象取得部２１１は、例えば通信部２３に入力された変換元音声信号を取得する。

　変換部２１２は、変換対象取得部２１１が取得した変換対象を、音声信号変換モデルを用いて変換先音声信号に変換する。得られた変換先音声信号は音声信号出力制御部２１３に出力される。

　音声信号出力制御部２１３は、通信部２３の動作を制御する。音声信号出力制御部２１３は、通信部２３の動作を制御することで通信部２３に変換先音声信号を出力させる。

　図９は、実施形態における音声信号変換装置２が実行する処理の流れの一例を示すフローチャートである。変換対象取得部２１１が変換元音声信号を取得する（ステップＳ２０１）。次に、変換部２１２が音声信号変換モデルを用いて変換元音声信号を変換先音声信号に変換する（ステップＳ２０２）。次に、音声信号出力制御部２１３が通信部２３の動作を制御することで通信部２３に変換先音声信号を出力させる（ステップＳ２０３）。

（実験結果）
　実施形態の音声信号変換システム１００を用いた音声信号の変換の実験結果の一例を説明する。実験では、Ｖｏｉｃｅ　Ｃｏｎｖｅｒｓｉｏｎ　Ｃｈａｌｌｅｎｇｅ（ＶＣＣ）２０１８の４話者の音声データが用いられた。具体的には、実験では、女性話者ＶＣＣ２ＳＦ３（ＳＦ）、男性話者ＶＣＣ２ＳＭ３（ＳＭ）、女性話者ＶＣＣ２ＴＦ１（ＴＦ）及び男性話者ＶＣＣ２ＴＭ１（ＴＭ））が用いられた。

　実験は、話者性変換であった。実験においてＳＦとＳＭとは変換元音声信号が表す音声（以下「変換元音声」という。）として用いられた。実験では、ＴＦとＴＭとは変換先音声信号の比較対象の音声信号が表す音声（以下「変換目標音声」という。）として用いられた。実験では、変換元音声と変換目標音声との組それぞれについて実験が行われた。すなわち、実験では４組について実験が行われた。４組とは具体的には、ＳＦとＴＦとの組と、ＳＭとＴＭとの組と、ＳＦとＴＭとの組と、ＳＭとＴＦとの組との合計４組である。

　実験では、各話者につき８１文が学習データとして用いられ３５文がテストデータとして用いられた。実験において、全音声信号のサンプリング周波数は２２０５０Ｈｚであった。学習データにおいて、変換元音声と変換目標音声との間に同一発話音声は存在しなかった。そのため、実験は、非パラレル設定での評価が可能な実験であった。

　実験では、各発話に対し、窓長が１０２４サンプルであってホップ長が２５６サンプルである短時間フーリエ変換が行われた。実験では次に、８０次元のメルスペクトログラムの抽出が行われた。実験では、このメルスペクトログラムが音響特徴量系列として用いられ、メルスペクトログラムの変換器の学習が行われた。変換器は、具体的には学習段階変換部１１２である。なお、音響特徴量系列とは、上述のｘに対応する量である。すなわち、音響特徴量系列とは、処理対象入力データの局所特徴量である。実験において、メルスペクトログラムから波形（すなわち音声）を生成する際は、ニューラルネットワークで構成された波形生成器が用いられた。

　実験において、比較対象の技術として後述する従来変換技術であって参考文献１に記載のＣｙｃｌｅＧＡＮ－ＶＣ２が用いられた。具体的には、比較対象の技術では、後述する従来変換技術における式（４）と式（５）とを組み合わせた基準が学習基準として用いられた。

　参考文献１：T. Kaneko, H. Kameoka, K. Tanaka, and N. Hojo, “CycleGAN-VC2: Improved CycleGAN-Based Non-Parallel Voice Conversion,” in Proc. ICASSP, 2019.

　変換器ＧとＦと、識別器Ｄｘ、Ｄｙ、Ｄ´ｘ、及びＤ´ｙとは、ＣＮＮによってモデル化された。より具体的には、変換器Ｇ及びＦは、以下の第１処理部から第７処理部までの７つの処理部を有するニューラルネットワークであった。第１処理部は、２Ｄ　ＣＮＮによる入力処理部であって畳み込みブロック１つで構成される。なお２Ｄは、２次元を意味する。第２処理部は、２Ｄ　ＣＮＮによるダウンサンプリング処理部であって畳み込みブロック２つで構成される。第３処理部は、２Ｄから１Ｄへの変換処理部であって畳み込みブロック１つで構成される。なお１Ｄは、１次元を意味する。

　第４処理部は、１Ｄ　ＣＮＮによる差分変換処理部であって畳み込みブロック２つを含む差分変換ブロック６つで構成される。第５処理部は、１Ｄから２Ｄへの変換処理部であって畳み込みブロック１つで構成される。第６処理部は、２Ｄ　ＣＮＮによるアップサンプリング処理部であって畳み込みブロック２つで構成される。第７処理部は、２Ｄ　ＣＮＮによる出力処理部であって畳み込みブロック１つで構成される。このようなニューラルネットワークが実験で用いられた従来変換技術であった。

　実験において音声信号変換システム１００は、音声信号変換モデル学習装置１の変換学習モデルが、第１処理部、第２処理部、第３処理部、第４処理部、第７処理部と、第５´処理部と第６´処理部とを有するニューラルネットワークで表現された。第５´処理部は、第５処理部に写像変換処理を実行するニューラルネットワークが接続されたニューラルネットワークである。第６´処理部は、第６処理部に写像変換処理を実行するニューラルネットワークが接続されたニューラルネットワークである。第５´処理部及び第６´処理部が実行する写像変換処理は、具体的には式（１）に示すアフィン変換による変換であった。

　実験は、具体的には音声変換の音質と変換効果の評価とを主観評価実験にて行う実験であった。音質の評価については、音声の自然性に関するＭＯＳ（Ｍｅａｎ　Ｏｐｉｎｉｏｎ　Ｓｃｏｒｅ）テストが行われた。

　図１０は、実施形態における実験結果の一例を示す第１の図である。図１０において、“従来手法”の行は、上述したＣｙｃｌｅＧＡＮ－ＶＣ２による変換の結果を示す。図１０において、“本発明手法”は、音声信号変換システム１００による変換の結果を示す。図１０において“ＳＦ－ＴＦ”は、ＳＦとＴＦとの組を示す。図１０において“ＳＭ－ＴＭ”は、ＳＭとＴＭとの組を示す。図１０において“ＳＦ－ＴＭ”は、ＳＦとＴＭとの組を示す。図１０において“ＳＦ－ＴＦ”は、ＳＭとＴＦとの組を示す。なお、ＭＯＳでは、“５”が最高評価を表し、“１”が最低評価を表す。

　図１０は、全ての変換パターンにおいて、音声信号変換システム１００を用いて変換した音声が従来変換技術を用いて変換した音声より高い自然性を有することを示す。なお、全てのパターンにおいてとは、ＳＦとＴＦとの組と、ＳＭとＴＭとの組と、ＳＦとＴＭとの組と、ＳＭとＴＦとの組との合計４組全てについて、という意味である。

　実験では、変換効果の評価については、話者性の類似度に関するＭＯＳテストが行われた。変換効果の評価のＭＯＳテストでは、具体的には、変換目標音声と変換された音声との比較が行われ、同一話者から発声された音声かどうかが５段階で評価された。

　図１１は、実施形態における実験結果の一例を示す第２の図である。図１１において、“従来手法”の行は、上述したＣｙｃｌｅＧＡＮ－ＶＣ２による変換の結果を示す。図１１において、“本発明手法”は、音声信号変換システム１００による変換の結果を示す。図１１において“ＳＦ－ＴＦ”は、ＳＦとＴＦとの組を示す。図１１において“ＳＭ－ＴＭ”は、ＳＭとＴＭとの組を示す。図１１において“ＳＦ－ＴＭ”は、ＳＦとＴＭとの組を示す。図１１において“ＳＦ－ＴＦ”は、ＳＭとＴＦとの組を示す。なお、ＭＯＳでは、“５”が最高評価を表し、“１”が最低評価を表す。

　図１１は、全ての変換パターンにおいて、音声信号変換システム１００を用いて変換した音声が従来変換技術を用いて変換した音声より高い話者類似度又は匹敵話者類似度を有することを示す。匹敵話者類似度とは、匹敵する話者類似度を意味する。匹敵するとは、話者類似度の評価結果が同等であることを意味する。

　このように構成された実施形態の音声信号変換モデル学習装置１は、機械学習の技術を用いる装置であって、学習段階変換部１１２を備える装置である。学習段階変換部１１２は、調整パラメータ値取得処理を実行することで調整パラメータ値を取得し、取得した調整パラメータ値を用いて変換学習モデルの学習を行う。調整パラメータ値は、局所特徴量の分布の統計値であるため、入力されたデータ（すなわち調整パラメータ値取得処理の処理対象のデータ）の構造を示す情報である。そのため、音声信号変換モデル学習装置１は、機械学習を用いた声質変換の技術において変換対象の音声信号の情報が失われることを軽減することができる。

　また、このように構成された実施形態の音声信号変換システム１００は、音声信号変換モデル学習装置１を備える。そのため、機械学習を用いた声質変換の技術において変換対象の音声信号の情報が失われることを軽減することができる。

　（変形例）
　音声信号変換モデル学習装置１は、ネットワークを介して通信可能に接続された複数台の情報処理装置を用いて実装されてもよい。この場合、音声信号変換モデル学習装置１が備える各機能部は、複数の情報処理装置に分散して実装されてもよい。

　音声信号変換装置２は、ネットワークを介して通信可能に接続された複数台の情報処理装置を用いて実装されてもよい。この場合、音声信号変換装置２が備える各機能部は、複数の情報処理装置に分散して実装されてもよい。

　なお、音声信号変換システム１００の各機能の全て又は一部は、ＡＳＩＣ（Ａｐｐｌｉｃａｔｉｏｎ　Ｓｐｅｃｉｆｉｃ　Ｉｎｔｅｇｒａｔｅｄ　Ｃｉｒｃｕｉｔ）やＰＬＤ（Ｐｒｏｇｒａｍｍａｂｌｅ　Ｌｏｇｉｃ　Ｄｅｖｉｃｅ）やＦＰＧＡ（Ｆｉｅｌｄ　Ｐｒｏｇｒａｍｍａｂｌｅ　Ｇａｔｅ　Ａｒｒａｙ）等のハードウェアを用いて実現されてもよい。プログラムは、コンピュータ読み取り可能な記録媒体に記録されてもよい。コンピュータ読み取り可能な記録媒体とは、例えばフレキシブルディスク、光磁気ディスク、ＲＯＭ、ＣＤ－ＲＯＭ等の可搬媒体、コンピュータシステムに内蔵されるハードディスク等の記憶装置である。プログラムは、電気通信回線を介して送信されてもよい。

（従来変換技術の説明）
　ここで、従来変換技術を説明する。従来変換技術は、具体的にはＣｙＣｌｅＧＡＮを用いた非パラレル声質変換の技術である。

　要素が実数でありＱ×Ｎの２階のテンソルｘと、要素が実数でありＱ×Ｍの２階のテンソルをｙとする。ｘは、属性ｃの音声の音響特徴量系列を表すテンソルである。ｙは、属性ｃ´の音声の音響特徴量系列を表すテンソルである。なお、音響特徴量系列とは、音響特徴量の系列である。

　Ｑは、音響特徴量の次元数を表し、ＮとＭとはそれぞれｘとｙの系列長を表す。従来変換技術では、非パラレル学習サンプルｘ及びｙを用いて、ｘを属性ｃ´に変換する変換器Ｇと、ｙを属性ｃに変換する変換器Ｆとを学習することが目的である。

　変換器Ｇは、具体的には、要素が実数のテンソルであってＱ×Ｎの２階のテンソルを要素が実数のテンソルであってＱ×Ｎの２階のテンソルに変換する。変換器Ｆは、具体的には、要素が実数のテンソルであってＱ×Ｍの２階のテンソルを要素が実数のテンソルであってＱ×Ｍの２階のテンソルに変換する。

　従来変換技術では、入力された音声が属性ｃの実音声かそうでないかを識別する識別器Ｄｘと、入力された音声が属性ｃ´の実音声かそうでないかを識別する識別器Ｄｙと、が用いられる。従来変換技術では、式（４）で定義される敵対的学習基準Ｌ_ａｄｖに基づいて、変換器Ｇ、変換器Ｆ、識別器Ｄｘ及び識別器Ｄｙを学習することが行われる。

　式（４）においてＥは、下付きで表される分布に対する期待値を表す。ｘ～ｐｘ（ｘ）とｙ～ｐｙ（ｙ）とは、学習データ群から学習サンプルをサンプリングする処理を表す。

　Ｌ_ａｄｖは、Ｄｘが正しくｘを実音声と識別しＦ（ｙ）を合成音声と識別できている場合と、Ｄｙが正しくｙを実音声と識別子Ｇ（ｘ）を合成音声と識別できている場合と、に大きい値をとる。

　識別器Ｄｘと識別器Ｄｙとについては、Ｌ_ａｄｖが大きくなるよう学習が行われ、変換器Ｇと変換器ＦとについてはＬ_ａｄｖが小さくなるよう学習が行われる。このように学習が行われることで，変換器Ｇと変換器Ｆとによって変換された音響特徴量が、識別器Ｄｘと識別器Ｄｙとによって実音声であると識別される確率を下げることができる。このような学習の方法が従来変換技術において品質の高い変換音声を得るための鍵の１つである。

　従来変換技術では、さらに、式（５）で定義される循環無矛盾性基準Ｌ_ｃｙｃを用いて学習が行われてもよいし、式（６）で定義される恒等変換基準Ｌ_ｉｄを用いて学習が行われてもよい。

　Ｌ_ｃｙｃは、ｘをＧで変換した後にさらにＦで変換したものが元通りｘと一致する場合と、ｙをＦで変換した後にさらにＧで変換したものが元通りｙと一致する場合と、に最小である。一方Ｌ_ｉｄは、ｙをＧの入力とした場合の出力がｙから変化がない場合と、ｘをＦの入力とした場合の出力がｘから変化がない場合と、に最小である。ＧとＦとをこれらが小さくなるように学習することで，ＧとＦがいずれも一対一変換となるように、変換器Ｇ及び変換器Ｆを学習させることができる。このことは、非パラレル声質変換法を実現する上での鍵の１つである。

　式（５）及び式（６）の基準も用いられる場合、従来変換技術においてＧ、Ｆ、Ｄｘ及びＤｙの学習に用いられる基準は、例えば以下の式（７）で表される基準である。

　Ｌ_ｆｕｌｌが小さくなるようにＧ及びＦのパラメータを反復更新し、Ｌ_ｆｕｌｌが大きくなるようにＤｘ及びＤｙのパラメータを反復更新することで、属性ｃの音声の音響特徴量と続ｃ´の音声の音響特徴量とを相互変換する変換器Ｇと変換器Ｆとが得られる。

　従来変換技術では、式（７）にくわえてさらに式（８）で表される第２種敵対的学習基準Ｌ_ａｄｖ２が用いられてもよい。

　識別器Ｄ´ｘは入力された音声が属性ｃの実音声か否かを識別する。識別器Ｄ´ｙは入力された音声が属性ｃ´の実音声か否かを識別する。

　Ｌ_ａｄｖ２は、Ｄ´ｘが正しくｘを実音声と識別しＦ（Ｇ（ｘ））を合成音声と識別できている場合と、Ｄ´ｙが正しくｙを実音声と識別子、Ｇ（Ｆ（ｙ））を合成音声と識別できている場合とに値が大きい。

　従来変換技術では、Ｄ´ｘとＤ´ｙとについてＬ_ａｄｖ２が大きくなるように学習が行われ、Ｇ及びＦについてＬ_ａｄｖ２が小さくなるように学習が行われる。これにより、Ｇ及びＦによって循環変換された音響特徴量が、Ｄ´ｘとＤ´ｙとによって実音声であると識別される確率を下げることができる。

　なお、式（４）及び式（８）では、実音声と合成音声とを識別する際の基準としてクロスエントロピーを用いる例を説明した。しかしながら、実音声と合成音声とを識別する際の基準としては、ワッサーステイン距離やＬ２距離などの任意の距離基準が用いられてもよい。

　また、式（４）及び式（５）では、実音声と合成音声とを識別する際の基準としてＬ１距離を用いる例を説明した。しかしながら、実音声と合成音声とを識別する際の基準としては、ワッサーステイン距離やＬ２距離などの任意の距離基準が用いられてもよい。

　従来変換技術において、変換器Ｇ、変換器Ｆ、識別器Ｄｘ、識別器Ｄｙ、識別器Ｄ´ｘ及び識別器Ｄ´ｙはニューラルネットワークでモデル化される。具体的なニューラルネットワークとしては、ＣＮＮが用いられる。より具体的には、変換器Ｇ及び変換器Ｆの一例は、例えば図１２に記載するニューラルネットワークである。

　図１２は、従来変換技術における変換器Ｇ及び変換器Ｆのニューラルネットワークの構成の一例を説明する説明図である。変換器Ｇ及び変換器Ｆは、畳み込み層（Ｃｏｎｖｏｌｕｔｉｏｎ）、正規化層（Ｎｏｒｍａｌｉｚａｔｉｏｎ）、活性化層（Ａｃｔｉｖａｔｉｏｎ）の３層で構成される畳み込みブロック（ＣｏｎｖＢｌｏｃｋ）を多層にもつニューラルネットワークである。例えばｘからｙの変換器Ｇでは、変換元音声の音響特徴量（Ｓｏｕｒｃｅ；ｘ）が入力として与えられた時、畳み込みブロックが多層にわたって適用されることで音響特徴量（Ｔａｒｇｅｔ；ｙ）を出力できるように学習が行われる。

　なお、畳み込みブロックが実行する処理としては、ダウンサンプリング処理が用いられることもあるし、アップサンプリング処理が用いられることもある。畳み込みブロックが実行する処理としては、特徴量のテンソルの入れ替え処理や、畳み込みブロックをスキップした時の値と畳み込みブロックの適用後の値を加算する処理が用いられることもある。
畳み込みブロックとしては、畳み込み層、正規化層又は活性化層のいずれか一つ以上が除いたものである場合もある。また、畳み込みブロックでは、畳み込み層、正規化層及び活性化層の処理の順番を入れ替えた処理が実行される場合もある。

　このような従来変換技術では、変換元音声の音響特徴量が各層で逐次変換されてしまうため、後段の層では、変換元音声の音響特徴量の元々の情報は失われていく。そのため、従来変換技術では、変換前後で本来保持すべき情報を保てないことがあった。

　特に、声質変換では、変換元音声の言語情報を保持しながら非言語・パラ言語を変換することが重要である。つまり、保持すべき情報と変換すべき情報の取捨選択が重要である。しかしながら、上述したように従来変換技術では、二つの情報は共通するニューラルネットワーク内で同時に逐次変換されてしまう。そのため従来変換技術では、非言語・パラ言語を変換する過程で言語情報が毀損したり、言語情報の保持を強めようとした結果、非言語・パラ言語の変換が難しくなったりする。

　ここまでニューラルネットワークとしてＣＮＮが用いられる場合を例に従来変換技術を説明したが、従来変換技術では、他のニューラルネットワークが用いられることもある。例えば、ＣＮＮに代えてＦＮＮ（Ｆｅｅｄｆｏｒｗａｒｄ　Ｎｅｕｒａｌ　Ｎｅｔｗｏｒｋ）やＲＮＮ（Ｒｅｃｕｒｒｅｎｔ　Ｎｅｕｒａｌ　Ｎｅｔｗｏｒｋ）が用いられることがある。しかしながら、いずれのニューラルネットワークが用いられても従来変換技術ではＣＮＮの場合と同様の問題が生じる。

　なお、このような従来変換技術の１つは参考文献１に記載のＣｙｃｌｅＧＡＮ－ＶＣ２である。ここまでで従来変換技術の説明を終了する。

　以上、この発明の実施形態について図面を参照して詳述してきたが、具体的な構成はこの実施形態に限られるものではなく、この発明の要旨を逸脱しない範囲の設計等も含まれる。

　１００…音声信号変換システム、　１…音声信号変換モデル学習装置、　２…音声信号変換装置、　１１…制御部、　１２…入力部、　１３…通信部、　１４…記憶部、　１５…出力部、　１１１…学習用データ取得部、　１１２…学習段階変換部、　１２１…学習段階変換処理実行部、　１２２…調整パラメータ値取得部、　１２３…写像変換部、　１２４…損失取得部、　１１３…記録部、　１１４…出力制御部、　１１５…終了判定部、　２１…制御部、　２２…入力部、　２３…通信部、　２４…記憶部、　２５…出力部、　２１１…変換対象取得部、　２１２…変換部、　２１３…音声信号出力制御部、　９１…プロセッサ、　９２…メモリ、　９３…プロセッサ、　９４…メモリ

Claims

　入力された音声信号である学習用入力データを取得する学習用データ取得部と、
　前記学習用入力データを変換先の音声信号である学習段階変換先データに変換する学習段階変換処理を含む機械学習のモデルである変換学習モデルを実行する学習段階変換部と、
　を備え、
　前記学習段階変換処理は、処理対象のデータである処理対象入力データに基づき、処理対象入力データを母集合とする処理対象入力データの部分集合である学習用入力側部分集合ごとに特徴量を取得する、局所特徴量取得処理を含み、
　前記変換学習モデルは、前記特徴量の分布の統計値を調整するパラメータの値である調整パラメータ値を前記学習用入力データに基づき取得する調整パラメータ値取得処理、をさらに含み、
　前記学習段階変換処理は、前記調整パラメータ値に基づく所定の演算の結果を用いて前記学習用入力データを前記学習段階変換先データに変換する、
　音声信号変換モデル学習装置。
　前記所定の演算は、前記調整パラメータ値に応じた写像により前記特徴量を変換する処理である、
　請求項１に記載の音声信号変換モデル学習装置。
　前記特徴量を変換する処理は、前記特徴量の要素毎に実行される、
　請求項２に記載の音声信号変換モデル学習装置。
　前記特徴量を変換する処理は、アフィン変換である、
　請求項２に記載の音声信号変換モデル学習装置。
　変換対象の音声信号を取得する変換対象取得部と、
　入力された音声信号である学習用入力データを取得する学習用データ取得部と、前記学習用入力データを変換先の音声信号である学習段階変換先データに変換する学習段階変換処理を含む機械学習のモデルである変換学習モデルを実行する学習段階変換部と、を備え、前記学習段階変換処理は、処理対象のデータである処理対象入力データに基づき、処理対象入力データを母集合とする処理対象入力データの部分集合である学習用入力側部分集合ごとに特徴量を取得する、局所特徴量取得処理を含み、前記変換学習モデルは、前記特徴量の分布の統計値を調整するパラメータの値である調整パラメータ値を前記学習用入力データに基づき取得する調整パラメータ値取得処理、をさらに含み、前記学習段階変換処理は、前記調整パラメータ値に基づく所定の演算の結果を用いて前記学習用入力データを前記学習段階変換先データに変換する、音声信号変換モデル学習装置によって得られた学習済みの変換学習モデル、を用いて前記変換対象を変換する変換部と、
　を備える音声信号変換装置。
　入力された音声信号である学習用入力データを取得する学習用データ取得ステップと、
　前記学習用入力データを変換先の音声信号である学習段階変換先データに変換する学習段階変換処理を含む機械学習のモデルである変換学習モデルを実行する学習段階変換ステップと、
　を有し、
　前記学習段階変換処理は、処理対象のデータである処理対象入力データに基づき、処理対象入力データを母集合とする処理対象入力データの部分集合である学習用入力側部分集合ごとに特徴量を取得する、局所特徴量取得処理を含み、
　前記変換学習モデルは、前記特徴量の分布の統計値を調整するパラメータの値である調整パラメータ値を前記学習用入力データに基づき取得する調整パラメータ値取得処理、をさらに含み、
　前記学習段階変換処理は、前記調整パラメータ値に基づく所定の演算の結果を用いて前記学習用入力データを前記学習段階変換先データに変換する、
　音声信号変換モデル学習方法。
　請求項１から４のいずれか一項に記載の音声信号変換モデル学習装置としてコンピュータを機能させるためのプログラム。