JPWO2018159612A1

JPWO2018159612A1 - 声質変換装置、声質変換方法およびプログラム

Info

Publication number: JPWO2018159612A1
Application number: JP2019503021A
Authority: JP
Inventors: 亘中鹿
Original assignee: THE UNIVERSITY OF ELECTRO-COMUNICATINS
Current assignee: THE UNIVERSITY OF ELECTRO-COMUNICATINS
Priority date: 2017-02-28
Filing date: 2018-02-27
Publication date: 2020-01-09
Anticipated expiration: 2038-02-27
Also published as: JP7018659B2; WO2018159612A1; US20190385628A1

Abstract

パラメータ学習ユニットとパラメータ記憶ユニットと声質変換処理ユニットとを備える。パラメータ学習ユニットは、入力データを表現する可視素子と、潜在的な情報を表現した隠れ素子との間に結合重みが存在すると仮定した制限ボルツマンマシンによる確率モデルを用意する。その確率モデルとして、固有の適応行列を持つ複数個の話者クラスタを定義し、それぞれの話者について、複数個の話者クラスタへの重みを推定して、パラメータを決定する。パラメータ記憶ユニットは、パラメータを記憶する。声質変換処理ユニットは、パラメータ記憶ユニットが記憶したパラメータと目標話者の話者情報とに基づいて、入力話者の音声に基づく音声情報の声質変換処理を行う。

Description

本発明は任意話者声質変換を可能とする声質変換装置、声質変換方法およびプログラムに関する。

従来、入力話者音声の音韻情報を保存したまま、話者性に関する情報のみを出力話者のものへ変換させる技術である声質変換の分野では、モデルの学習時において、入力話者と出力話者の同一発話内容による音声対であるパラレルデータを使用するパラレル声質変換が主流であった。
パラレル声質変換としては、ＧＭＭ（Gaussian Mixture Model）に基づく手法、ＮＭＦ（Non-negative Matrix Factrization）に基づく手法、ＤＮＮ（Deep Neural Network）に基づく手法など、様々な統計的アプローチが提案されている（特許文献１参照）。パラレル声質変換では、パラレル制約のおかげで比較的高い精度が得られる反面、学習データとしては入力話者と出力話者の発話内容を一致させる必要があるため、利便性が損なわれてしまうという問題があった。

これに対して、モデルの学習時に上述のパラレルデータを使用しない非パラレル声質変換が注目を浴びている。非パラレル声質変換は、パラレル声質変換に比べて精度面で劣るものの自由発話を用いて学習を行うことができるため利便性や実用性は高い。非特許文献１には、入力話者の音声と出力話者の音声を用いて事前に個々のパラメータを学習しておくことで、学習データに含まれる話者を入力話者または目標話者とする声質変換を可能とする技術が記載されている。

特開２００８−５８６９６号公報

T. Nakashika, T. Takiguchi, and Y. Ariki: "Parallel-Data-Free, Many-To-Many Voice Conversion Using an Adaptive Restricted Boltzmann Machine," Proceedings of Machine Learning in Spoken Language Processing (MLSLP) 2015, 6 pages, 2015.

非特許文献１に記載の技術は、統計的な非パラレル声質変換アプローチとして、制限ボルツマンマシン（Restricted Boltzmann Machine：以下ＲＢＭと称する）を適用した、適応型ＲＢＭ（ＡＲＢＭ）に基づく声質変換に基づく声質変換を行う。このアプローチでは、複数の話者による音声データから自動的にそれぞれの話者固有の適応行列と、音響特徴量（メルケプストラム）から話者に依存しない潜在特徴（以下、これらを潜在的な音韻または単に音韻と呼ぶ）への射影行列を同時に推定する。これにより、入力話者の音声および入力話者の適応行列から計算した潜在的な音韻と、目標話者の適応行列を用いて音響特徴量を計算することで目標話者に近い音声を得るようにしている。

一度学習によって潜在的な音韻を得るための射影行列が推定されれば、新たな入力話者・目標話者に対してそれぞれの適応行列のみを推定（このステップを適応と呼ぶ）することで変換が可能となる。しかし、話者固有の適応行列は音響特徴量の二乗個のパラメータを含むため、音響特徴量の次元数や話者数が増えるほどパラメータ数が膨大となり、学習コストが掛かってしまう。そして、適応時に必要となるデータ数が多くなり、事前に学習していない話者のその場での変換が困難となってしまうといった問題が発生する。また、声質変換を利用する場面では、その場で音声を収録し、即座に変換を行いたいケースが考えられるが、従来の技術では、即座に変換することは困難であった。

本発明はかかる点に鑑み、各話者の発話について少ないデータ数で簡単に声質変換が可能な声質変換装置、声質変換方法およびプログラムを提供することを目的とする。

上記課題を解決するため、本発明の声質変換装置は、入力話者の音声を目標話者の音声に声質変換する声質変換装置であって、パラメータ学習ユニットとパラメータ記憶ユニットと声質変換処理ユニットとを備える。
パラメータ学習ユニットは、学習用の音声に基づく音声情報およびその音声情報に対応する話者情報から、声質変換のためのパラメータを決定する。
パラメータ記憶ユニットは、パラメータ学習ユニットが決定したパラメータを記憶する。
声質変換処理ユニットは、パラメータ記憶ユニットが記憶したパラメータと目標話者の話者情報とに基づいて、入力話者の音声に基づく音声情報の声質変換処理を行う。
ここで、パラメータ学習ユニットは、音声に基づく音声情報、音声情報に対応する話者情報および音声中の音韻を表す音韻情報のそれぞれを変数とすることで、音声情報、話者情報および音韻情報のそれぞれの間の結合エネルギーの関係性をパラメータによって表す確率モデルを取得し、確率モデルとして、固有の適応行列を持つ複数個の話者クラスタを定義するようにした。

また、本発明の声質変換方法は、入力話者の音声を目標話者の音声に声質変換する方法であって、パラメータ学習ステップと声質変換処理ステップとを含む。
パラメータ学習ステップは、音声に基づく音声情報、音声情報に対応する話者情報および音声中の音韻を表す音韻情報のそれぞれを変数とすることで、音声情報、話者情報および音韻情報のそれぞれの間の結合エネルギーの関係性をパラメータによって表す確率モデルを用意する。そして、その確率モデルとして、固有の適応行列を持つ複数個の話者クラスタを定義し、それぞれの話者について、複数個の話者クラスタへの重みを推定して、学習用の音声についてのパラメータを決定する。
声質変換処理ステップは、パラメータ学習ステップで得られたパラメータ、又は当該パラメータを入力話者の音声に適応した適応後のパラメータと、目標話者の話者情報とに基づいて、入力話者の音声に基づく音声情報の声質変換処理を行う。

また本発明のプログラムは、上述した声質変換方法のパラメータ学習ステップと声質変換処理ステップとをコンピュータに実行させるものである。

本発明によれば、話者クラスタにより目標話者を設定することができるため、従来よりも非常に少ないデータ数で、入力話者音声を目標話者音声に声質変換できるようになる。

本発明の一実施の形態例に係る声質変換装置の構成例（例１）を示すブロック図である。本発明の一実施の形態例に係る声質変換装置の構成例（例２）を示すブロック図である。声質変換装置のハードウェア構成例を示すブロック図である。従来の確率モデルを模式的に示す説明図である。声質変換装置のパラメータ推定部が備える確率モデルを模式的に示す説明図である。本発明の一実施の形態例に係る処理全体の流れを示すフローチャートである。図６のステップＳ３の学習の詳細例を示すフローチャートである。図６のステップＳ４の適応の詳細例を示すフローチャートである。図６のステップＳ８の声質変換の詳細例を示すフローチャートである。本発明の一実施形態によるクラスタの重み分布の例を示す説明図である。声質変換装置のパラメータ推定部が備える確率モデルの別の例を示す説明図である。

以下、本発明の好適な一実施形態例について説明する。

［１．構成］
図１は、本発明の一実施形態例にかかる声質変換装置の構成例（例１）を示す図である。図１においてＰＣ等により構成される声質変換装置１は、事前に、学習用音声信号と学習用音声信号に対応する話者の情報（対応話者情報）に基づいて学習を行っておくことで、任意の話者による変換用音声信号（適応話者音声信号）を、目標話者の声質に変換し、変換済み音声信号として出力する。
学習用音声信号は、予め記録された音声データに基づく音声信号でもよく、また、マイクロフォン等により話者が話す音声（音波）を直接電気信号に変換したものでもよい。また、対応話者情報は、ある学習用音声信号と他の学習用音声信号とが同じ話者による音声信号か異なる話者による音声信号かを区別できるものであればよい。

声質変換装置１は、パラメータ学習ユニット１１と声質変換処理ユニット１２とパラメータ記憶ユニット１３とを備える。パラメータ学習ユニット１１は、学習用音声信号と対応話者情報とに基づいた学習処理により声質変換のためのパラメータを決定する。パラメータ学習ユニット１１が決定したパラメータは、パラメータ記憶ユニット１３に記憶される。パラメータ記憶ユニット１３に記憶されたパラメータは、適応処理によって、パラメータ学習ユニット１１が入力話者の適応後のパラメータに変換する。声質変換処理ユニット１２は、上述の学習処理および適応処理によりパラメータが決定された後、決定されたパラメータと目標とする話者の情報（目標話者情報）とに基づいて変換用音声信号の声質を目標話者の声質に変換し、変換済み音声信号として出力する。なお、パラメータ学習ユニット１１が学習処理と適応処理の双方を行うのは一例であり、後述する図２に示すように、パラメータ学習ユニット１１と別に適応ユニット１４を備えるようにしてもよい。

パラメータ学習ユニット１１は、音声信号取得部１１１と前処理部１１２と話者情報取得部１１３とパラメータ推定部１１４を備える。音声信号取得部１１１は、前処理部１１２に接続され、前処理部１１２および話者情報取得部１１３は、それぞれパラメータ推定部１１４に接続される。

音声信号取得部１１１は、接続された外部機器から学習用音声信号を取得するものであり、例えば、マウスやキーボード等の図示しない入力部からのユーザの操作に基づいて学習用音声信号が取得される。また、音声信号取得部１１１は、接続される不図示のマイクロフォンから、話者の発話をリアルタイムに取り込むようにしてもよい。なお、以下の説明では、パラメータ学習ユニット１１が学習用音声信号を取得してパラメータを得る処理を述べるが、パラメータ学習ユニット１１が適応話者音声信号に適応したパラメータを得る適応処理時にも、各処理部は同様の処理が行われる。適応処理の詳細については後述するが、適応処理時には、学習処理でパラメータ記憶ユニット１３に記憶されたパラメータを、適応話者音声信号に適応したパラメータとする適応化処理が行われる。
前処理部１１２は、音声信号取得部１１１で取得された学習用音声信号を単位時間ごと（以下、フレームという）に切り出し、ＭＦＣＣ（Mel-Frequency Cepstrum Coefficients：メル周波数ケプストラム係数）やメルケプストラム特徴量などのフレームごとの音声信号のスペクトル特徴量を計算した後、正規化を行うことで学習用音声情報を生成する。

対応話者情報取得部１１３は、音声信号取得部１１１による学習用音声信号の取得に紐付けられた対応話者情報を取得する。対応話者情報は、ある学習用音声信号の話者と他の学習用音声信号の話者とを区別できるものであればよく、例えば、図示しない入力部からのユーザの入力によって取得される。また、複数の学習用音声信号のそれぞれについて互いに話者が異なることが明らかであれば、学習用音声信号の取得に際して対応話者情報取得部１１３が自動で対応話者情報を付与してもよい。例えば、パラメータ学習ユニット１１が１０人の話し声の学習を行うと仮定すると、対応話者情報取得部１１３は、音声信号取得部１１１に入力中の学習用音声信号が１０人の内のどの話者の話し声の音声信号であるかを区別する情報（対応話者情報）を、自動的にまたはユーザからの入力により取得する。なお、ここで話し声の学習を行う人数を１０人としたのは、あくまでも一例である。パラメータ学習ユニット１１は、最低でも２人の音声が入力されれば学習が可能であるが、人数が多い方がより精度の高い学習ができることになる。

パラメータ推定部１１４は、音声情報推定部１１４１と話者情報推定部１１４２と音韻情報推定部１１４３とによって構成されるＲＢＭ（制限ボルツマンマシン）を適用した、適応型ＲＢＭ（ＡＲＢＭ）の確率モデルを持ち、学習用音声信号に基づいてパラメータの推定を行う。パラメータ推定部１１４が学習処理によって推定したパラメータは、パラメータ記憶ユニット１３に記憶される。この学習処理で得たパラメータは、適応話者の音声信号がパラメータ学習ユニット１１に入力されたとき、パラメータ記憶ユニット１３からパラメータ学習ユニット１１に読み出され、そのときの適応話者の音声信号に適応したパラメータとされる。

パラメータ推定部１１４がパラメータを推定する際に適用される本実施形態例の確率モデルでは、各推定部１１４１，１１４２，１１４３が持つ音声情報、話者情報、および音韻情報の他に、話者の特徴から得た複数の話者クラスタの情報を持つ。すなわち、パラメータ推定部１１４は、この話者クラスタを計算する話者クラスタ計算部１１４４を有する。さらに、本実施形態例の確率モデルでは、各情報のそれぞれの間の結合エネルギーの関係性を表すパラメータを持つ。なお、以下の説明では、本実施形態例の確率モデルを、話者クラスタ適応型ＲＢＭと称する。話者クラスタ適応型ＲＢＭの詳細については後述する。

音声情報推定部１１４１は、音韻情報および話者情報ならびに各種パラメータを用いて音声情報を取得する。ここで、音声情報とは、それぞれの話者の音声信号の音響ベクトル（スペクトル特徴量やケプストラム特徴量など）を意味する。

話者情報推定部１１４２は、音声情報および音韻情報ならびに各種パラメータを用いて話者情報を推定する。ここで、話者情報とは、話者を特定するための情報であり、それぞれの話者の音声が持つ音響ベクトル情報である。すなわち、この話者情報（話者ベクトル）は、同じ話者の音声信号に対しては全て共通であり、異なる話者の音声信号に対しては互いに異なるような、音声信号の発話者を特定させるベクトルを意味している。

音韻情報推定部１１４３は、音声情報および話者情報ならびに各種パラメータにより音韻情報を推定する。ここで音韻情報とは、音声情報に含まれる情報の中から、学習を行う全ての話者に共通となる情報である。例えば、入力した学習用音声信号が、「こんにちは」と発話した音声の信号であるとき、この音声信号から得られる音韻情報は、その「こんにちは」と発話した言葉の情報に相当する。但し、本実施の形態例での音韻情報は、言葉に相当する情報であっても、いわゆるテキストの情報ではなく、言語の種類に限定されない音韻の情報であり、どのような言語で話者が話した場合にも共通となる、音声信号の中で潜在的に含まれる、話者情報以外の情報を表すベクトルである。

話者クラスタ計算部１１４４は、入力中の学習用音声信号から得た話者情報に対応したクラスタを計算する。すなわち、パラメータ推定部１１４が備える話者クラスタ適応型ＲＢＭは、話者情報を示すクラスタを複数持ち、話者クラスタ計算部１１４４は、入力中の学習用音声信号から得た話者情報に対応するクラスタを計算する。

また、パラメータ推定部１１４が備える話者クラスタ適応型ＲＢＭは、音声情報、話者情報、音韻情報および話者クラスタの情報を持つだけでなく、各情報のそれぞれの間の結合エネルギーの関係性をパラメータによって表すようにしている。

声質変換処理ユニット１２は、音声信号取得部１２１と前処理部１２２と話者情報設定部１２３と声質変換部１２４と後処理部１２５と音声信号出力部１２６とを備える。音声信号入力１２１、前処理部１２２、声質変換部１２４、後処理部１２５および音声信号出力部１２６は順次接続され、声質変換部１２４には、更にパラメータ学習ユニット１１のパラメータ推定部１１４が接続される。

音声信号取得部１２１は、変換用音声信号を取得し、前処理部１２２は、変換用音声信号に基づき変換用音声情報を生成する。本実施の形態例では、音声信号取得部１２１が取得する変換用音声信号は、任意の話者による変換用音声信号でよい。
音声信号取得部１２１および前処理部１２２は、上述したパラメータ学習ユニット１１の音声信号取得部１１１および前処理部１１２の構成と同じであり、別途設置することなくこれらを兼用してもよい。

話者情報設定部１２３は、声質変換先である目標話者を設定し目標話者情報を出力する。話者情報設定部１２３で設定される目標話者は、ここでは、パラメータ学習ユニット１１のパラメータ推定部１１４が事前に学習処理して話者情報を取得した話者の中から選ばれる。話者情報設定部１２３は、例えば、図示しないディスプレイ等に表示された複数の目標話者の選択肢（パラメータ推定部１１４が事前に学習処理した話者の一覧など）からユーザが図示しない入力部によって１つの目標話者を選択するものであってもよく、また、その際に、図示しないスピーカにより目標話者の音声を確認できるようにしてもよい。

声質変換部１２４は、目標話者情報に基づいて変換用音声情報に声質変換を施し、変換済み音声情報を出力する。声質変換部１２４は、音声情報設定部１２４１、話者情報設定部１２４２、音韻情報設定部１２４３、および話者クラスタ計算部１２４４を持つ。この音声情報設定部１２４１、話者情報設定部１２４２、音韻情報設定部１２４３、および話者クラスタ計算部１２４４は、上述のパラメータ推定部１１４において、話者クラスタ適応型ＲＢＭの確率モデルが持つ音声情報推定部１１４１、話者情報推定部１１４２、音韻情報推定部１１４３、および話者クラスタ計算部１１４４と同等の機能を持つ。

すなわち、音声情報設定部１２４１、話者情報設定部１２４２および音韻情報設定部１２４３には、それぞれ音声情報、話者情報および音韻情報が設定されるが、音韻情報設定部１２４３に設定される音韻情報は、前処理部１２２から供給される音声情報に基づいて得た情報である。一方、話者情報設定部１２４２に設定される話者情報は、パラメータ学習ユニット１１内の話者情報推定部１１４２での推定結果から取得した目標話者についての話者情報（話者ベクトル）である。音声情報設定部１２４１に設定される音声情報は、これら話者情報設定部１２４２および音韻情報設定部１２４３に設定された話者情報および音韻情報と各種パラメータとから得られる。話者クラスタ計算部１２４４は、目標話者の話者クラスタ情報を計算する。
なお、図１では声質変換部１２４を設ける構成を示したが、声質変換部１２４を別途設置することなく、パラメータ推定部１１４の各種パラメータを固定することで、パラメータ推定部１１４が声質変換の処理を実行する構成としてもよい。

後処理部１２５は、声質変換部１２４で得られた変換済み音声情報に逆正規化処理を施し、更に逆ＦＦＴ処理することでスペクトル情報をフレームごとの音声信号へ戻した後に結合し、変換済み音声信号を生成する。
音声信号出力部１２６は、接続される外部機器に対して変換済み音声信号を出力する。接続される外部機器としては、例えば、スピーカなどが挙げられる。

図２は、本発明の一実施形態例にかかる声質変換装置の別の構成例（例２）を示す図である。
図２に示す声質変換装置１は、適応話者音声信号によりパラメータの適応処理を行う適応ユニット１４を備える点が、図１に示す声質変換装置１と異なる。すなわち、図１に示す声質変換装置１では、パラメータ学習ユニット１１が、学習処理と適応処理の双方を行うようにしたのに対して、図２に示す声質変換装置１では、適応ユニット１４が適応処理を行うようにした点が異なる。

適応ユニット１４は、音声信号取得部１４１と前処理部１４２と適応話者情報取得部１４３とパラメータ推定部１４４を備える。音声信号取得部１４１は、適応話者音声信号を取得し、取得した音声信号を前処理部１４２に出力する。前処理部１４２は、音声信号の前処理を行って適応用音声情報を得、得られた適応用音声情報をパラメータ推定部１４４に供給する。適応話者情報取得部１４３は、適応話者についての話者情報を取得し、取得した適応話者情報をパラメータ推定部１４４に供給する。
パラメータ推定部１４４は、音声情報推定部１４４１と話者情報推定部１４４２と音韻情報推定部１４４３と話者クラスタ計算部１４４４を有し、音声情報、話者情報、音韻情報、および話者クラスタの情報を持つ。

適応ユニット１４で得られた適用後のパラメータは、パラメータ記憶ユニット１３に記憶した後、声質変換処理ユニット１２に供給される。あるいは、適応ユニット１４で得られた適用後のパラメータを、直接、声質変換処理ユニット１２に供給するようにしてもよい。
図２に示す声質変換装置１のその他の部分については、図１に示す声質変換装置１と同様に構成する。

図３は、声質変換装置１のハードウェア構成例を示す図である。ここでは、声質変換装置１をコンピュータ（ＰＣ）で構成した例を示す。
図３に示すように、声質変換装置１は、バス１０７を介して相互に接続されたＣＰＵ（中央制御ユニット：Central Processing Unit）１０１、ＲＯＭ（Read Only Memory）１０２、ＲＡＭ（Random Access Memory）１０３、ＨＤＤ（Hard Disk Drive）／ＳＳＤ（Solid State Drive）１０４、接続Ｉ／Ｆ（Interface）１０５、通信Ｉ／Ｆ１０６を備える。ＣＰＵ１０１は、ＲＡＭ１０３をワークエリアとしてＲＯＭ１０２またはＨＤＤ／ＳＳＤ１０４等に格納されたプログラムを実行することで、声質変換装置１の動作を統括的に制御する。接続Ｉ／Ｆ１０５は、声質変換装置１に接続される機器とのインターフェースである。通信Ｉ／Ｆは、ネットワークを介して他の情報処理機器と通信を行うためのインターフェースである。

学習用音声信号、変換用音声信号、および変換済み音声信号の入出力および設定は、接続Ｉ／Ｆ１０５または通信Ｉ／Ｆ１０６を介して行われる。パラメータ記憶ユニット１３でのパラメータの記憶は、ＲＡＭ１０３またはＨＤＤ／ＳＳＤ１０４により行われる。図１で説明した声質変換装置１の機能は、ＣＰＵ１０１において所定のプログラムが実行されることで実現される。プログラムは、記録媒体を経由して取得してもよく、ネットワークを経由して取得してもよく、ＲＯＭに組み込んで使用してもよい。また、一般的なコンピュータとプログラムの組合せでなく、ＡＳＩＣ（Application Specific Integrated Circuit）やＦＰＧＡ（Field Programmable Gate Array）などの論理回路を組むことで、声質変換装置１の構成を実現するためのハードウェア構成にしてもよい。

［２．話者クラスタ適応型ＲＢＭの定義］
次に、パラメータ推定部１１３および符号化部１２３が持つ確率モデルである、話者クラスタ適応型ＲＢＭについて説明する。
まず、本発明に適用される話者クラスタ適応型ＲＢＭを説明する前に、既に提案した確率モデルである、適応型ＲＢＭについて説明する。
図４は、適応型ＲＢＭのグラフ構造を模式的に示す図である。
適応型ＲＢＭの確率モデルは、音声情報ｖ、話者情報ｓおよび音韻情報ｈと、それぞれの情報の結合エネルギーの関係性を示すパラメータを持つ。ここでは、音響（メルケプストラム）情報の特徴量ｖ＝［ｖ_１，・・・，ｖ_Ｉ］∈Ｒ^Ｉと、音韻情報の特徴量ｈ＝［ｈ_１，・・・，ｈ_Ｊ］∈｛０，１｝^Ｊ，Σ_ｊｈ_ｊ＝１との間に、話者特徴量ｓ＝［ｓ１，・・・，ｓＲ］∈｛０，１｝Ｒ，Σｒｓｒ＝１に依存した双方向な結合重みＷ∈Ｒ^Ｉ×Ｊが存在すると仮定したとき、適応型ＲＢＭの確率モデルは、次の［数１］式〜［数３］式で示される条件付き確率密度関数で示される。

但し、σ∈Ｒ^Ｉは音響特徴量の偏差を表すパラメータであり、ｂ∈Ｒ^Ｉおよびｄ∈Ｒ^Ｊはそれぞれ話者特徴量ｓに依存した音響特徴量、音韻特徴量のバイアスを表す。式の中の記号の上に付けられた「~」は、該当する情報が話者に依存した情報であることを示す。なお、明細書の中では、表記上の制約のため、「~」を記号の上に付与できないので、例えばＷ(~)のように、記号の後に括弧で示す。「^」などの、記号の上に付与して示す他の記号についても、同様に表記する。
また、［数２］式の右辺の括線および「・^２」は、それぞれ要素ごとの除算、要素ごとの二乗を表す。話者依存の項Ｗ(~),ｂ(~)，ｄ(~)は、話者非依存パラメータと話者依存パラメータを用いて、下記の［数４］式〜［数６］式のように定義される。

ここで、Ｗ∈Ｒ^Ｉ×Ｊ，ｂ∈Ｒ^Ｉ，ｄ∈Ｒ^Ｊは話者非依存パラメータを表し、Ａ_ｒ∈Ｒ^Ｉ×Ｉ（Ａ＝｛Ａ_ｒ｝_ｒ＝１ ^Ｒ），ｂ_ｒ∈Ｒ^Ｉ（Ｂ＝［ｂ_１，・・・，ｂ_Ｒ］），ｄ_ｒ∈Ｒ^Ｊ（Ｄ＝［ｄ_１，・・・，ｄ_Ｒ］）は、話者ｒに依存したパラメータを表す。また、○_ｉ ^ｊは左テンソルのモードｉ、右テンソルのモードｊに沿った内積演算を表す。

ここでは、音響特徴量はクリーン音声のメルケプストラムとし、発話者の違いによるパラメータ変動は、話者特徴量ｓによって規定される話者依存項（［数４］式，［数５］式，［数６］式）で吸収する。したがって、音韻特徴量は話者に依存しないいずれかの要素のみがアクティブとなる観測不可能な特徴量である、音韻の情報が含まれることになる。

このように、適応型ＲＢＭによって音響特徴量と音韻特徴量を得ることができるが、適応型ＲＢＭでは、話者依存パラメータの数は（Ｉ^２Ｒ）に比例し、音響特徴量の二乗（Ｉ^２）が比較的大きいため、話者数が増加するほど推定するパラメータ数が膨大となり、計算に要するコストが増加してしまう。また、ある話者ｒの適応時においても、推定すべきパラメータ数が（Ｉ^２＋Ｉ＋Ｊ）となり、過学習を避けるために相応に多くのデータを必要とする問題があった。

ここで、本発明では、これらの問題を解決するために、話者クラスタ適応型ＲＢＭを適用する。
図５は、話者クラスタ適応型ＲＢＭのグラフ構造を模式的に示す図である。
話者クラスタ適応型ＲＢＭの確率モデルは、音声情報ｖ、話者情報ｓおよび音韻情報ｈと、それぞれの情報の結合エネルギーの関係性を示すパラメータの他に、話者クラスタｃ∈Ｒ^Ｋを持つ。話者クラスタｃは、次の［数７］式と恒等的に表現される。

但し、Ｌ∈Ｒ^Ｋ×Ｒ＝［λ^１・・・λ^Ｒ］の各列ベクトルλ_ｒは、それぞれの話者クラスタへの重みを表す非負パラメータであり、||λ_ｒ||_１＝１，∀ｒの制約を課す。
先に説明した適応型ＲＢＭ（図４）では、話者ごとに適応行列を用意したが、本発明の話者クラスタ適応型ＲＢＭではクラスタごとに適応行列を用意する。また、音響特徴量、音韻特徴量のバイアスは、話者非依存項、クラスタ依存項、話者依存項の加算で表現される。すなわち、話者依存の項Ｗ(~),ｂ(~)，ｄ(~)は、下記の［数８］式〜［数１０］式のように定義される。

ここで、音響情報の特徴量のクラスタ依存項のバイアスパラメータをＵ∈Ｒ^Ｉ×Ｋ、音韻情報の特徴量のクラスタ依存項のバイアスパラメータをＶ∈Ｒ^Ｊ×Ｋとする。
［数８］式で示されるＡ＝｛Ａｋ｝_ｋ＝１ ^Ｋと、先に説明した適応型ＲＢＭでの［数４］式におけるＡを比較すると、適応型ＲＢＭでは（Ｉ^２Ｒ）個のパラメータが含まれていたのに対して、話者クラスタ適応型ＲＢＭでは（Ｉ^２Ｋ）個となり、大幅にパラメータ数を削減することができる。例えば、一例としては、Ｒ＝５８、Ｉ＝３２、Ｋ＝８に設定した場合、先に説明した適応型ＲＢＭではパラメータ数５９３９２個になるが、話者クラスタ適応型ＲＢＭでは８１９２個になり、大幅にパラメータ数を削減できる。

また、先に説明した適応型ＲＢＭでは、話者一人につきＩ^２＋Ｉ＋Ｊ（＝１０７２）個のパラメータ（Ｈ＝１６の場合）であったのに対して、話者クラスタ適応型ＲＢＭでは、話者一人につきＫ＋Ｉ＋Ｊ（＝５６）個のパラメータでよい。したがって、話者クラスタ適応型ＲＢＭによると、大幅にパラメータ数を削減することができ、少ないデータで適応が可能になる。

話者クラスタ適応型ＲＢＭにおいても、条件付き確率ｐ（ｖ，ｈ｜ｓ）を、先に説明した［数１］式〜［数３］式で定義する。このとき、条件付き確率ｐ（ｖ｜ｈ，ｓ），ｐ（ｈ｜ｖ，ｓ）は、それぞれ次の［数１１］式および［数１２］式に示すようになる。

但し、［数１１］式の右辺のＮ（・）は次元独立の多変量正規分布、［数１２］式の右辺のＢ（・）は多次元ベルヌーイ分布、ｆ（・）は要素ごとのsoftmax関数を表す。
音韻特徴量ｈは既知であり、ある話者ｒの音響特徴量の平均ベクトルμ_ｒを考えると、［数１１］式より、平均ベクトルは［数１３］式に示すようになる。

但し、λ_ｒ′＝［λ_ｒ ^Ｔ１］^Ｔは、λｒの拡張ベクトルであり、Ｍ＝［μ_１，・・・，μ_Ｋ＋１］の各列ベクトルは、［数１４］式で定義される。

本発明の一実施形態例による話者クラスタ適応型ＲＢＭでは、話者依存項ｂ_ｒが存在し、話者非依存平均ベクトルμ_ｋが［数１４］式のように構造化される特徴を持つ。また、潜在的な音韻特徴量を陽に確率変数として定義している。

また、本発明の一実施形態例による話者クラスタ適応型ＲＢＭでは、話者非依存パラメータと話者クラスタ重みを同時に推定することができる。すなわち、Ｒ人の話者によるＮフレームの音声データ｛ｖ_ｎ|ｓ_ｎ｝_ｎ＝１ ^Ｎに対する対数尤度（［数１５］式）を最大化するように、確率的勾配法を用いて全てのパラメータΘ＝｛Ｗ，Ｕ，Ｖ，Ａ，Ｌ，Ｂ，Ｄ，ｂ，ｄ，σ｝を同時に更新し推定することが可能である。ここでは、それぞれのパラメータの勾配は省略する。

各勾配には計算困難なモデルに対する期待値が出現するが、通常のＲＢＭの確率モデルと同様に、ＣＤ法（Contrastive Divergence法）を用いることで、効率よく近似することができる。
また、クラスタ重みの非負条件を満たすために、λ_ｒ＝ｅ^ｚｒと置き換えて、ｚ_ｒでパラメータ更新を行う。クラスタ重みはパラメータ更新後、||λ_ｒ||_１＝１を満たすように正則化する。
さらに、モデルの学習が行われれば、音韻特徴量およびクラスタの形成が完了したとみなし、新たな話者ｒ′について、Θ_ｒ′＝｛λ_ｒ′，ｂ_ｒ′，ｄ_ｒ′｝のみを更新し推定し、他のパラメータは固定する。

この話者クラスタ適応型ＲＢＭを声質変換に適用する際には、ある入力話者の音声の音響特徴量ｖ^（ｉ）および話者特徴量ｓ^（ｉ）、目標話者の話者特徴量ｓ^（ｏ）が与えられたとき、最も確率の高い音響特徴量ｖ^（ｏ）が目標話者の音響特徴量であるとして、［数１６］式に示すように定式化される。

但し、ｈ（^）は、入力話者の音響特徴量および話者特徴量が与えられたときのｈの条件付き期待値であり、［数１７］式で表される。

［３．声質変換動作］
図６は、本発明の実施形態例による声質変換処理動作を示すフローチャートである。図６に示すように、パラメータ学習処理として、声質変換装置１のパラメータ学習ユニット１１の音声信号取得部１１１と話者情報取得部１１３とは、図示しない入力部によるユーザの指示に基づいて学習用音声信号とその対応話者情報とをそれぞれ取得する（ステップＳ１）。
前処理部１１２は、音声信号取得部１１１が取得した学習用音声信号からパラメータ推定部１１４に供給する学習用音声情報を生成する（ステップＳ２）。ここでは、例えば学習用音声信号をフレームごと（例えば、５ｍｓｅｃごと）に切り出し、切り出された学習用音声信号にＦＦＴ処理などを施すことでスペクトル特徴量（例えば、ＭＦＣＣやメルケプストラム特徴量）を算出する。そして、算出したスペクトル特徴量の正規化処理（例えば、各次元の平均と分散を用いて正規化）を行うことで学習用音声情報ｖを生成する。
生成された学習用音声情報ｖは、話者情報取得部１１３によって取得された対応話者情報ｓとともにパラメータ推定部１１４へ出力される。

パラメータ推定部１１４は、話者クラスタ適応型ＲＢＭの学習処理を行う（ステップＳ３）。ここでは、学習用話者情報ｓに対応した話者クラスタｃと、学習用音声情報ｖを用いて各種パラメータの推定のための学習を行う。

次に、ステップＳ３の詳細について、図７を参照して説明する。まず、図７に示すように、話者クラスタ適応型ＲＢＭの確率モデルにおいて、全パラメータに任意の値を入力し（ステップＳ１１）、音声情報推定部１１４１に取得した学習用音声情報ｖを入力し、話者情報推定部１１４２に取得した対応話者情報ｓを入力する（ステップＳ１２）。
そして、話者情報推定部１１４２が取得した対応話者情報ｓから、話者クラスタ計算部１１４４が話者クラスタｃを計算し、その計算した話者クラスタｃと、音声情報推定部１１４１に取得した学習用音声情報ｖを入力とする（ステップＳ１３）。

次に、ステップＳ１３で入力された話者クラスタｃと学習用音声情報ｖとを用いて音韻情報ｈの条件付き確率密度関数を決定し、その確率密度関数に基づいて音韻情報ｈをサンプルする（ステップＳ１４）。ここで「サンプルする」とは、条件付き確率密度関数に従うデータをランダムに１つ生成することをいい、以下、同じ意味で用いる。

さらに、ステップＳ１４でサンプルされた音韻情報ｈと話者クラスタｃとを用いて音声情報ｖの条件付き確率密度関数を決定し、その確率密度関数に基づいて学習用音声情報ｖをサンプルする（ステップＳ１５）。

次に、ステップＳ１４でサンプルされた音韻情報ｈと、ステップＳ１５でサンプルされた学習用音声情報ｖとを用いて音韻情報ｈの条件付き確率密度関数を決定し、その確率密度関数に基づいて音韻情報ｈを再サンプルする（ステップＳ１６）。

そして、上述の［数１５］式で示される対数尤度Ｌをそれぞれのパラメータで偏微分し、勾配法により全パラメータを更新する（ステップＳ１７）。具体的には、確率的勾配法が用いられ、サンプルされた学習用音声情報ｖ、音韻情報ｈ、および対応話者情報ｓを用いてモデルに対する期待値を近似計算することができる。

全パラメータを更新した後、所定の終了条件を満たしていれば（ステップＳ１８のＹＥＳ）、次のステップに進み、満たしていなければ（ステップＳ１８のＮＯ）ステップＳ１１に戻り、以降の各ステップを繰り返す（ステップＳ１８）。なお、所定の終了条件としては、例えば、これら一連のステップの繰り返し数が挙げられる。

再び、図６に戻り、説明を続ける。パラメータ推定部１１４は、上述の一連のステップにより推定されたパラメータを学習により決定されたパラメータとして、パラメータ記憶ユニット１３に記憶する。そして、その記憶したパラメータを、入力した適応話者音声信号に基づいて、適応後のパラメータとする適用処理を行う。この適応処理で得られた適応後のパラメータを、声質変換ユニット１２の声質変換部１２４へ引き渡す（ステップＳ４）。

次に、ステップＳ４での適応処理の詳細について、図８を参照して説明する。まず、図８に示すように、話者固有パラメータとして任意の値を入力し（ステップＳ２１）、音声情報推定部１４４１に取得した適応話者音声情報ｖを入力し、話者情報推定部１４４２に取得した適応話者情報ｓを入力する（ステップＳ２２）。
そして、話者情報推定部１４４２が取得した適応話者情報ｓから、話者クラスタ計算部１４４４が話者クラスタｃを計算し、その計算した話者クラスタｃと、音声情報推定部１４４１に取得した適応話者音声情報ｖを入力とする（ステップＳ２３）。

次に、ステップＳ２３で入力された話者クラスタｃと適応話者音声情報ｖとを用いて音韻情報ｈの条件付き確率密度関数を決定し、その確率密度関数に基づいて音韻情報ｈをサンプルする（ステップＳ２４）。
さらに、ステップＳ２４でサンプルされた音韻情報ｈと話者クラスタｃとを用いて音声情報ｖの条件付き確率密度関数を決定し、その確率密度関数に基づいて適応話者音声情報ｖをサンプルする（ステップＳ２５）。

次に、ステップＳ２４でサンプルされた音韻情報ｈと、ステップＳ２５でサンプルされた適応話者音声情報ｖとを用いて音韻情報ｈの条件付き確率密度関数を決定し、その確率密度関数に基づいて音韻情報ｈを再サンプルする（ステップＳ２６）。

そして、上述の［数１５］式で示される対数尤度Ｌをそれぞれのパラメータで偏微分し、勾配法により適応話者に固有のパラメータを更新する（ステップＳ２７）。

適応話者に固有のパラメータを更新した後、所定の終了条件を満たしていれば（ステップＳ２８のＹＥＳ）、次のステップに進み、満たしていなければ（ステップＳ２８のＮＯ）ステップＳ２１に戻り、以降の各ステップを繰り返す（ステップＳ２８）。

再び、図６に戻り、説明を続ける。
声質変換処理として、ユーザは、図示しない入力部を操作して声質変換ユニット１２の話者情報設定部１２３において声質変換の目標となる目標話者の情報ｓ（ｏ）を設定する（ステップＳ５）。そして、音声信号取得部１２１により変換用音声信号を取得する（ステップＳ６）。
前処理部１２２は、パラメータ学習処理の場合と同じく変換用音声信号に基づいて音声情報を生成し、話者情報取得部１２３によって取得された対応話者情報ｓとともに声質変換部１２４へ出力される（ステップＳ７）。
声質変換部１２４は、話者クラスタ適応型ＲＢＭを適用して、適応話者の音声を目標話者の音声に変換する声質変換を行う（ステップＳ８）。

次に、ステップＳ８の詳細について、図９を参照して説明する。まず、図９に示すように、話者クラスタ適応型ＲＢＭの確率モデルにおいて、決定された全パラメータを入力し（ステップＳ３１）、音声情報設定部１２４１に音声情報ｖを入力し、話者情報設定部１２４２に入力話者情報ｓを入力し、話者クラスタ計算部１２４４が入力話者の話者クラスタｃを計算する（ステップＳ３２）。
そして、ステップＳ３２で計算された話者クラスタｃと音声情報ｖとを用いて、音韻情報ｈを推定する（ステップＳ３３）。

次に、声質変換部１２４は、パラメータ学習処理で学習済みの目標話者の話者情報ｓを取得し、話者クラスタ計算部１２４４が目標話者の話者クラスタｃを計算する（ステップＳ３４）。そして、ステップＳ３４で計算された目標話者の話者クラスタｃとステップＳ３３で推定した音韻情報ｈとを用いて、音声情報設定部１２４１が変換済み音声情報ｖを推定する（ステップＳ３５）。推定された変換済み音声情報ｖ（ｏ）は、後処理部１２５へ出力される。

再び、図６に戻り、説明を続ける。後処理部１２５は、変換済み音声情報ｖを用いて変換済み音声信号を生成する（ステップＳ９）。具体的には、正規化されている変換済み音声信号ｖに非正規化処理（ステップＳ２で説明した正規化処理に用いる関数の逆関数を施す処理）を施し、非正規化処理のなされたスペクトル特徴量を逆変換することでフレームごとの変換済み音声信号を生成し、これらフレームごとの変換済み音声信号を時刻順に結合することで変換済み音声信号を生成する。
後処理部１２５により生成された変換済み音声信号は、音声信号出力部１２６より外部へ出力される（ステップＳ１０）。変換済み音声信号を外部に接続されたスピーカで再生することにより、目標話者の音声に変換された入力音声を聞くことができる。

［４．評価実験例］
次に、本発明による話者クラスタ適応型ＲＢＭの効果を実証するため、声質変換実験を行った例について説明する。
確率モデルの学習には日本音響学会研究用連続音声データベース（ASJ-JIPDEC）の中からランダムにＲ＝８；１６；５８名の話者を選び、４０センテンスの音声データを用いた。学習話者の評価には、男性１名（ECL0001）を入力話者、女性１名（ECL1003）を目標話者とし、学習データとは別の１０センテンスの音声データを用いた。確率モデルの適応には、学習時に含まれない女性話者（ECL1004）、男性話者（ECL0002）をそれぞれ入力話者、目標話者とし、適応データのセンテンス数を０．２から４０まで変えて評価を行った。適応話者の評価についても適応データに含まれない１０センテンスの音声データを用いた。分析合成ツール（WORLD：URL http://ml.cs.yamanashi.ac.jp/world/index.html）によって得られたスペクトルから計算した３２次元のメルケプストラムを入力特徴量に用いた（Ｉ＝３２）。また、潜在音韻特徴量の数をＪ＝８；１６；２４、クラスタの数をＫ＝２；３；４；６；８とし、最も高い精度となるものを採用した。学習率０：０１、モーメント係数０：９、バッチサイズ１００×Ｒ、繰り返し回数１００の確率的勾配法を用いて確率モデルを学習した。
声質変換の精度を測る指標として、以下の［数１８］式で定義されるＭＤＩＲ(mel-cepstral distortion improvement ratio)の平均値を用いた。

ここで、ｖ_ｏ、ｖ_i、ｖ_ｏ（＾）は、それぞれ、入力話者とアライメントをとった目標話者音声のメルケプストラム特徴量、同アライメントをとった入力話者音声のメルケプストラム特徴量、ｖ_iに対して声質変換を施した音声のメルケプストラム特徴量を示す。ＭＤＩＲは改善率を表し、値が大きいほど高い変換精度を示す。
まず、Ｋ＝２；Ｒ＝８およびＫ＝３；Ｒ＝１６としたとき、推定された各話者のクラスタ重みλ_ｒの分布を図１０Ａおよび図１０Ｂに示す。図１０Ａの例は、Ｋ＝２であり、男性のクラスタ(Cluster 1)と女性のクラスタ(Cluster 2)との２つのクラスタが自動的に形成されている。図１０Ｂの例は、Ｋ＝３であり、男性のクラスタ(Cluster 1)と女性のクラスタ(Cluster 2)の他に、さらに男女が混ざった別のクラスタ（Cluster 3）が自動的に形成されている。この図１０Ａおよび図１０Ｂにおいて、各学習者の話者クラスタの位置Ｒ１１〜Ｒ１８およびＲ２１〜Ｒ３０を示し、○印で示す音声は男性の音声であり、×印で示す音声は女性の音声である。

図１０Ａおよび図１０Ｂから分かるように、○印で示す男性の音声は、(Cluster 1)に近い位置（クラスタ重み）になり、×印で示す女性の音声は、(Cluster 2)に近い位置に学習されており、性別の教師を与えていないにも関わらず、男性のクラスタ(Cluster 1)と女性のクラスタ(Cluster 2)が自動的に形成されていることが分かる。また、図１０Ａおよび図１０Ｂに示すように、学習データでは、二つのクラスタが最も離れるように学習されている。すなわち、互いに最も離れている話者ペアが、それぞれのクラスタ(Cluster 1及びCluster 2)と重なる位置に設定されている。そして、各クラスタが最も離れるように学習した複数のクラスタの間で、話者クラスタへの重みの位置を設定する。このように複数のクラスタが最も離れるように学習する性質は、各クラスタ（代表話者）を内分する点を自由に調節することで任意の声へ変換する際、調節の幅が広くなり好ましい。

次に、本発明による話者クラスタ適応型ＲＢＭによる確率モデル（ＣＡＢと示す）と、従来の非パラレル声質変換手法である適応型ＲＢＭ（ＡＲＢＭと示す）の学習話者の変換精度を比較した例を、［表１］に示す。ここでは、学習人数が８人、１６人、５８人の例を示し、値が高いほど精度が高いことを示す。

従来の適応型ＲＢＭ（ＡＲＢＭ）では、話者数の少ない場合では高い精度を示すが、話者数を増加させると精度が低下することが分かる。一方、話者ごとのパラメータ数を抑えた話者クラスタ適応型ＲＢＭによる確率モデル（ＣＡＢ）では、話者数を増加させても精度に変化はあまり見られない。
［表２］は、本発明による話者クラスタ適応型ＲＢＭによる確率モデルと、従来の適応型ＲＢＭ（ＡＲＢＭ）による確率モデルとの、センテンス数による変換精度を比較した例である。

［表２］から明らかなように、適応に用いるセンテンス数が１以下のとき、従来モデルでは精度の低下が見られるが、話者クラスタ適応型ＲＢＭによる確率モデル（ＣＡＢ）では、０．５センテンス程度で、１０センテンス以上の場合と同等のパフォーマンスが得られる。

以上、本発明によれば、話者情報から話者クラスタを取得して、その話者クラスタを使って確率モデルを得るようにしたので、従来よりも非常に少ないデータ数で、入力話者音声を目標話者音声に声質変換できるようになる。

［５．変形例］
なお、ここまで説明した実施形態例では、目標話者の音声情報ｖと音韻情報ｎとを得る処理として、図５の話者クラスタ適応型ＲＢＭのグラフ構造に示すように、話者クラスタｃが持つパラメータＡ，Ｖ，Ｕから、演算で目標話者の音声情報ｖと音韻情報ｎを得るようにした。
これに対して、図１１に示すように、話者クラスタｃが持つパラメータＡ，Ｖ，Ｕから、目標話者の話者情報ｓを得、得られた話者情報ｓを使って、話者に依存したパラメータＤ，Ａ，Ｂを得た後、これらのパラメータＤ，Ａ，Ｂから、目標話者の音声情報ｖと音韻情報ｎを得るようにしてもよい。話者に依存したパラメータＤ，Ａ，Ｂから、目標話者の音声情報ｖと音韻情報ｎを得る処理については、例えば図４の適応型ＲＢＭのグラフ構造で説明した処理が適用可能である。
この図１１に示すように、話者クラスタｃを使って目標話者の話者情報ｓを得た後、目標話者の音声情報ｖと音韻情報ｎを得るようにすることでも、図５の例と同様に、適切な目標話者の音声情報ｖと音韻情報ｎを得ることができる。この図１１に示す処理を行う場合には、目標話者の音声情報ｖと音韻情報ｎが、目標話者の話者情報ｓから得られるため、それぞれの情報の精度が向上する効果を有する。但し、データ量については、図５の例よりも増加する。

また、ここまで説明した実施形態例では、学習用の音声信号による学習で、声質変換のためのパラメータを学習処理した後、適応話者音声信号の入力で、パラメータを適応話者音声信号に適応した後、適応されたパラメータを使って、目標話者の音声信号に声質変換するようにした。このようにすることで、事前に学習されていない音声信号（適応話者音声信号）を、目標話者の音声信号に声質変換することができる。これに対して、適応話者音声信号の入力を省略して、学習用の音声信号で得たパラメータを使って、学習用の音声信号を目標話者の音声信号に声質変換してもよい。
この場合には、声質変換装置１は、例えば図１に示す構成として、パラメータ学習ユニット１１での学習で得られたパラメータをパラメータ記憶ユニット１３が記憶し、声質変換処理ユニット１２は、パラメータ記憶ユニット１３が記憶したパラメータを適用して、入力音声を目標話者の音声に変換処理すればよい。

また、ここまで説明した実施形態例では、学習を行う入力音声（入力話者の音声）や適応を行う入力音声として、人間の話し声の音声を処理する例について説明したが、実施形態例で説明した各情報を得る学習が可能であれば、学習用や適応を行う音声信号（入力信号）として、人間の話し声以外の様々な音とし、その音声信号を学習又は適応するようにしてもよい。例えば、サイレンの音や動物の鳴き声などのような音を学習又は適応するようにしてもよい。

１・・・声質変換装置、１１・・・パラメータ学習ユニット、１２・・・声質変換処理ユニット、１３・・・パラメータ記憶ユニット、１４・・・適応ユニット、１０１・・・ＣＰＵ、１０２・・・ＲＯＭ、１０３・・・ＲＡＭ、１０４・・・ＨＤＤ／ＳＤＤ、１０５・・・接続Ｉ／Ｆ、１０６・・・通信Ｉ／Ｆ、１１１，１２１，１４１・・・音声信号取得部、１１２，１２２，１４２・・・前処理部、１１３・・・対応話者情報取得部、１１４，１４４・・・パラメータ推定部、１１４１，１４４１・・・音声情報推定部、１１４２，１４４２・・・話者情報推定部、１１４３，１４４３・・・音韻情報推定部、１１４４，１４４４・・・話者クラスタ計算部、１２３・・・話者情報設定部、１２４・・・声質変換部、１２４１・・・音声情報設定部、１２４２・・・話者情報設定部、１２４３・・・音韻情報設定部、１２４４・・・話者クラスタ計算部、１２５・・・後処理部、１２５・・・音声信号出力部

【０００３】
声質変換が可能な声質変換装置、声質変換方法およびプログラムを提供することを目的とする。
課題を解決するための手段
［０００９］
上記課題を解決するため、本発明の声質変換装置は、入力話者の音声を目標話者の音声に声質変換する声質変換装置であって、パラメータ学習ユニットとパラメータ記憶ユニットと声質変換処理ユニットとを備える。
パラメータ学習ユニットは、学習用の音声に基づく音声情報およびその音声情報に対応する話者情報から、声質変換のためのパラメータを決定する。
パラメータ記憶ユニットは、パラメータ学習ユニットが決定したパラメータを記憶する。
声質変換処理ユニットは、パラメータ記憶ユニットが記憶したパラメータと目標話者の話者情報とに基づいて、入力話者の音声に基づく音声情報の声質変換処理を行う。
ここで、パラメータ学習ユニットは、音声に基づく音声情報、音声情報に対応する話者情報および音声中の音韻を表す音韻情報のぞれぞれを変数とすることで、音声情報、話者情報および音韻情報のそれぞれの間の結合エネルギーの関係性をパラメータによって表す確率モデルを取得し、確率モデルとして、固有の適応行列を持つ複数個の話者クラスタを定義するようにし、声質変換処理ユニットは、パラメータから目標話者の話者情報を得、得られた話者情報から目標話者の音声情報を得るようにした。
［００１０］
また、本発明の声質変換方法は、入力話者の音声を目標話者の音声に声質変換する方法であって、パラメータ学習ステップと声質変換処理ステップとを含む。
パラメータ学習ステップは、音声に基づく音声情報、音声情報に対応する話者情報および音声中の音韻を表す音韻情報のそれぞれを変数とすることで、音声情報、話者情報および音韻情報のそれぞれの間の結合エネルギーの関係性をパラメータによって表す確率モデルを用意する。そして、その確率モデ

【０００４】
ルとして、固有の適応行列を持つ複数個の話者クラスタを定義し、それぞれの話者について、複数個の話者クラスタへの重みを推定して、学習用の音声についてのパラメータを決定する。
声質変換処理ステップは、パラメータ学習ステップで得られたパラメータ、又は当該パラメータを入力話者の音声に適応した適応後のパラメータと、目標話者の話者情報とに基づいて、入力話者の音声に基づく音声情報の声質変換処理を行う。声質変換処理ステップでの声質変換処理では、パラメータから目標話者の話者情報を得、得られた話者情報から目標話者の音声情報を得るようにした。
［００１１］
また本発明のプログラムは、上述した声質変換方法のパラメータ学習ステップと声質変換処理ステップとをコンピュータに実行させるものである。
［００１２］
本発明によれば、話者クラスタにより目標話者を設定することができるため、従来よりも非常に少ないデータ数で、入力話者音声を目標話者音声に声質変換できるようになる。
図面の簡単な説明
［００１３］
［図１］本発明の一実施の形態例に係る声質変換装置の構成例（例１）を示すブロック図である。
［図２］本発明の一実施の形態例に係る声質変換装置の構成例（例２）を示すブロック図である。
［図３］声質変換装置のハードウェア構成例を示すブロック図である。
［図４］従来の確率モデルを模式的に示す説明図である。
［図５］声質変換装置のパラメータ推定部が備える確率モデルを模式的に示す説明図である。
［図６］本発明の一実施の形態例に係る処理全体の流れを示すフローチャートである。
［図７］図６のステップＳ３の学習の詳細例を示すフローチャートである。
［図８］図６のステップＳ４の適応の詳細例を示すフローチャートである。
［図９］図６のステップＳ８の声質変換の詳細例を示すフローチャートである。
［図１０］本発明の一実施形態によるクラスタの重み分布の例を示す説明図である。
［図１１］声質変換装置のパラメータ推定部が備える確率モデルの別の例を示す説明図である。
発明を実施するための形態

Claims

入力話者の音声を目標話者の音声に声質変換する声質変換装置であって、
学習用の音声に基づく音声情報およびその音声情報に対応する話者情報から、声質変換のためのパラメータを決定するパラメータ学習ユニットと、
前記パラメータ学習ユニットが決定したパラメータを記憶するパラメータ記憶ユニットと、
前記パラメータ記憶ユニットが記憶したパラメータと前記目標話者の話者情報とに基づいて、前記入力話者の音声に基づく前記音声情報の声質変換処理を行う声質変換処理ユニットとを備え、
前記パラメータ学習ユニットは、音声に基づく音声情報、音声情報に対応する話者情報および音声中の音韻を表す音韻情報のそれぞれを変数とすることで、前記音声情報、前記話者情報および前記音韻情報のそれぞれの間の結合エネルギーの関係性を前記パラメータによって表す確率モデルを取得し、前記確率モデルとして、固有の適応行列を持つ複数個の話者クラスタを定義するようにした
声質変換装置。
さらに、前記パラメータ記憶ユニットが記憶したパラメータを前記入力話者の音声に適応して、適応後のパラメータを得る適応ユニットを備え、
前記パラメータ記憶ユニットは、前記適応ユニットで適応後のパラメータを記憶し、前記声質変換処理ユニットは、適応後のパラメータと前記目標話者の話者情報とに基づいて、前記入力話者の音声に基づく前記音声情報の声質変換処理を行う
請求項１に記載の声質変換装置。
前記パラメータ学習ユニットと前記適応ユニットは共通の演算処理部で構成され、
前記学習用の音声に基づいてパラメータを決定する処理と、前記入力話者の音声に基づいて適応後のパラメータを得る処理を、前記共通の演算処理部で行うようにした
請求項２に記載の声質変換装置。
前記パラメータ学習ユニットが学習する際には、複数のクラスタが最も離れるように学習し、学習した複数のクラスタの間で、話者クラスタへの重みの位置を設定する
請求項１に記載の声質変換装置。
前記声質変換処理ユニットは、前記パラメータから前記目標話者の話者情報を得、得られた話者情報から前記目標話者の音声情報を得るようにした
請求項１に記載の声質変換装置。
音声情報の特徴量ｖ＝[ｖ_１，・・・，ｖ_Ｉ]∈Ｒ^Ｉと、音韻情報の特徴量ｈ＝[ｈ_１，・・・，ｈ_Ｊ]∈｛０，１｝^Ｊ，Σ_ｊｈ_ｊ＝１との間に、話者情報の特徴量ｓ＝［ｓ_１，・・・，ｓ_Ｒ］∈｛０，１｝^Ｒ，Σ_ｒｓ_ｒ＝１に依存した双方な結合重みＷ∈Ｒ^Ｉ×Ｊが存在すると仮定したとき、前記話者クラスタとして、話者クラスタｃ∈Ｒ^Ｋを導入し、話者クラスタｃを、

（但し、Ｌ∈Ｒ^Ｋ×Ｒ＝［λ_１・・・λ_Ｒ］の各列ベクトルλ_ｒは、それぞれの話者クラスタへの重みを表す非負パラメータであり、||λ_ｒ||_１＝１，∀_ｒの制約を課す）と表現し、音響情報の特徴量のクラスタ依存項のバイアスパラメータをＵ∈Ｒ^Ｉ×Ｋ、音韻情報の特徴量のクラスタ依存項のバイアスパラメータをＶ∈Ｒ^Ｊ×Ｋ、として、話者非依存項、クラスタ依存項、および話者依存項のそれぞれを、

として示す
請求項１に記載の声質変換装置。
入力話者の音声を目標話者の音声に声質変換する声質変換方法であって、
音声に基づく音声情報、音声情報に対応する話者情報および音声中の音韻を表す音韻情報のそれぞれを変数とすることで、前記音声情報、前記話者情報および前記音韻情報のそれぞれの間の結合エネルギーの関係性をパラメータによって表す確率モデルを用意し、その確率モデルとして、固有の適応行列を持つ複数個の話者クラスタを定義し、それぞれの話者について、前記複数個の話者クラスタへの重みを推定して、学習用の音声についての前記パラメータを決定するパラメータ学習ステップと、
前記パラメータ学習ステップで得られたパラメータ、又は当該パラメータを前記入力話者の音声に適応した適応後のパラメータと、前記目標話者の前記話者情報とに基づいて、前記入力話者の音声に基づく前記音声情報の声質変換処理を行う声質変換処理ステップと
を含む、声質変換方法。
音声に基づく音声情報、音声情報に対応する話者情報および音声中の音韻を表す音韻情報のそれぞれを変数とすることで、前記音声情報、前記話者情報および前記音韻情報のそれぞれの間の結合エネルギーの関係性をパラメータによって表す確率モデルを用意し、その確率モデルとして、固有の適応行列を持つ複数個の話者クラスタを定義し、それぞれの話者について、前記複数個の話者クラスタへの重みを推定して、学習用の音声についての前記パラメータを決定して記憶するパラメータ学習ステップと、
前記パラメータ学習ステップで得られたパラメータ、又は当該パラメータを入力話者の音声に適応した適応後のパラメータと、目標話者の前記話者情報とに基づいて、前記入力話者の音声に基づく前記音声情報の声質変換処理を行う声質変換処理ステップと、
をコンピュータに実行させるプログラム。