WO2023248398A1

WO2023248398A1 - 学習装置、学習方法、学習プログラム及び音声合成装置

Info

Publication number: WO2023248398A1
Application number: PCT/JP2022/024985
Authority: WO
Inventors: 直輝牧島; 亮増村
Original assignee: 日本電信電話株式会社
Priority date: 2022-06-22
Filing date: 2022-06-22
Publication date: 2023-12-28

Abstract

第４の学習装置（４０）は、音声合成モデルを用いて、話者の発話の特徴を表す第１の埋め込みデータと第１のテキストデータとから、合成音声に関するデータを生成する。第４の学習装置（４０）は、音声合成モデルを用いて、合成音声に関するデータから第２のテキストデータを生成する。第４の学習装置（４０）は、第１の埋め込みデータと、合成音声の発話の特徴を表す第２の埋め込みデータとが類似し、かつ第１のテキストデータと第２のテキストデータが類似するように、音声合成モデルのパラメータ及び音声合成モデルのパラメータを更新する。

Description

学習装置、学習方法、学習プログラム及び音声合成装置

　本発明は、学習装置、学習方法、学習プログラム及び音声合成装置に関する。

　従来、音声認識（ＡＳＲ：automatic　speech　recognition）モデルと音声合成（ＴＴＳ：text　to　speech）モデルの協調学習を行う技術が知られている。

　音声認識モデルは、音声を入力としてその発話内容を出力するモデルである。音声合成モデルは、テキストと参照音声を入力として参照音声の話者でテキストを読み上げた音声を出力するモデルである。モデルは、例えばニューラルネットワークである。

　音声認識モデル及び音声合成モデルの学習をそれぞれ単独で行う場合には、音声とテキストのペアデータが大量に用意されていること、すなわち教師あり条件が満たされていることが必要である。

　一方で、音声認識モデルと音声合成モデルの協調学習を行う場合には、音声とテキストの少量のペアデータと大量のテキストのみのデータ（以降、テキストデータと記載する）が用意されていればよい。すなわち、音声認識モデルと音声合成モデルの協調学習を行う場合には、半教師あり条件が満たされていればよい。

　例えば、非特許文献１には、協調学習を行うための手法として、音声合成と音声認識のパイプライン（TTS-ASR　pipeline）を形成し，当該パイプラインを再構成誤差で学習する手法が記載されている。

M.　K.　Baskar,　L.　Burget,　S.　Watanabe,　R.　F.　Astudillo,　and　J.　H.　Cernocky,　"Eat:　Enhanced　ASR-TTS　for　self-supervised　speech　recognition,"　in　Proc.　ICASSP,　2021,　pp.　6753-6757.

　しかしながら、従来の技術には、品質の良い合成音声が得られない場合があるという問題がある。

　例えば、非特許文献１に記載された手法で音声認識モデルと音声合成モデルの協調学習を行う場合、音声合成モデルは、音声認識モデルによって認識されやすい不自然な音声を出力するようになる傾向がある。

　例えば、人間が話しているような自然な合成音声が求められている場合、不自然な音声は品質の良い音声と認められないことがある。

　上述した課題を解決し、目的を達成するために、学習装置は、第１のモデルを用いて、話者の特徴を表す第１の埋め込みデータと第１のテキストデータとから、合成音声に関するデータを生成する合成部と、第２のモデルを用いて、前記合成音声に関するデータから第２のテキストデータを生成する認識部と、前記第１の埋め込みデータと、前記合成音声の話者の特徴を表す第２の埋め込みデータとが類似し、かつ前記第１のテキストデータと前記第２のテキストデータが類似するように、前記第１のモデルのパラメータ及び前記第２のモデルのパラメータを更新する更新部と、を有することを特徴とする。

　上述した課題を解決し、目的を達成するために、音声合成装置は、第１のモデルを用いて、話者の発話の特徴を表す第１の埋め込みデータと第１のテキストデータとから、合成音声に関するデータを生成し、第２のモデルを用いて、前記合成音声に関するデータから第２のテキストデータを生成し、前記第１の埋め込みデータと、前記合成音声の発話の特徴を表す第２の埋め込みデータとが類似し、かつ前記第１のテキストデータと前記第２のテキストデータが類似するように、前記第１のモデルのパラメータ及び前記第２のモデルのパラメータを更新する処理によってパラメータが更新済みの前記第１のモデルを用いて、話者の発話の特徴を表す第３の埋め込みデータと第３のテキストデータとから、合成音声に関するデータを生成する合成部を有することを特徴とする。

　本発明によれば、品質の良い合成音声を得ることができる。

図１は、第１の実施形態に係る学習処理の概要を説明する図である。図２は、学習装置の構成例を示す図である。図３は、第１の学習装置の処理内容を説明する図である。図４は、第２の学習装置の処理内容を説明する図である。図５は、第３の学習装置の処理内容を説明する図である。図６は、第４の学習装置の処理内容を説明する図である。図７は、第１の実施形態に係る学習処理の流れを示すフローチャートである。図８は、音声認識装置の処理内容を説明する図である。図９は、音声合成装置の処理内容を説明する図である。図１０は、第２の実施形態に係る第４の学習装置の処理内容を説明する図である。図１１は、第３の実施形態に係る第５の学習装置及び第６の学習装置の処理内容を説明する図である。図１２は、実験結果を示す図である。図１３は、学習プログラムを実行するコンピュータの一例を示す図である。

　以下に、本願に係る学習装置、学習方法、学習プログラム及び音声合成装置の実施形態を図面に基づいて詳細に説明する。なお、本発明は、以下に説明する実施形態により限定されるものではない。

［第１の実施形態］
　まず、図１を用いて、第１の実施形態の概要を説明する。図１は、第１の実施形態に係る学習処理の概要を説明する図である。

　図１に示すように、本実施形態では、第１の学習装置１０、第２の学習装置２０、第３の学習装置３０及び第４の学習装置４０により、学習済みの各モデルのパラメータが出力される。なお、図１では、学習処理全体の概要を説明する。各学習装置における処理の詳細については後述する。

　ここでいうモデルには、音声認識モデルと音声合成モデルが含まれる。音声認識モデル及び音声合成モデルは、それぞれが異なるニューラルネットワークを含む。

　音声認識モデルは、音声データを入力として、テキストデータを出力するモデルである。音声データは、音声の特徴量であり、例えば、音声認識モデルには、入力された音声データが示す音声を書き起こしたようなテキストデータを出力することが望まれる。

　音声合成モデルは、テキストデータ及び参照音声データを入力として、合成音声又は合成音声の特徴量である合成音声データを出力するモデルである。本実施形態では、音声合成モデルは合成音声データを出力するものとする。また、合成音声データは適宜合成音声に変換可能であるものとする。

　参照音声データは、単独又は複数の話者の音声の特徴量である。例えば、音声合成モデルには、参照音声データに対応する話者が、テキストデータを読み上げているような合成音声を生成することが望まれる。

　ここで、教師あり音声データ及び教師ありテキストデータはペアになったデータである。例えば、教師ありテキストデータを実際に人間が読み上げることにより、教師あり音声データが得られる。

　一方で、教師なしテキストデータとペアとなる音声データは存在していなくてもよい。このため、教師なしテキストデータを大量に用意することは、音声データ及び教師ありテキストデータを大量に用意することに比べて容易である。

　つまり、モデルの学習において、教師なし条件は、教師あり条件に比べて容易に満たすことができる。

　本実施形態では、十分な量の教師あり音声データ及び教師ありテキストデータのペアデータを学習データとして用いた機械学習を教師あり学習と呼ぶ。また、少量のペアデータと教師なしテキストデータを学習データとして用いた機械学習を半教師あり学習と呼ぶ。半教師あり学習には、学習データにペアデータが全く含まれない場合も含まれる。

　本実施形態では、学習処理の一部が教師あり学習により行われ、他の部分は半教師あり学習により行われる。

　図１に示すように、第１の学習装置１０は、教師あり音声データと教師ありテキストデータの入力を受け付け、音声認識モデルの学習を独立して行う。言い換えると、第１の学習装置１０は、音声認識モデルについて教師あり学習を行う。第１の学習装置１０は、学習済みの音声認識モデルのパラメータを出力する。

　第２の学習装置２０は、教師あり音声データ、教師ありテキストデータ及び参照音声データの入力を受け付け、音声合成モデルの学習を独立して行う。言い換えると、第２の学習装置２０は、音声合成モデルについて教師あり学習を行う。第２の学習装置２０は、学習済みの音声合成モデルのパラメータを出力する。

　第２の学習装置２０は、参照音声データから埋め込みデータを取得する。音声合成モデルは、埋め込みデータを利用して合成音声データを話者に適応させる。

　第３の学習装置３０は、学習済みの音声認識モデルのパラメータ、学習済みの音声合成モデルのパラメータ、教師なしテキストデータ及び参照音声データの入力を受け付ける。そして、第３の学習装置３０は、入力されたデータを基に、合成音声データを使った音声認識モデルの学習を行う。第３の学習装置３０は、第２の学習装置２０と同様に、参照音声データから埋め込みデータを取得する。

　第３の学習装置３０では、教師なしテキストデータとともに、少量のペアデータが用いられてもよい。すなわち、第３の学習装置３０は、音声合成モデルについて半教師あり学習を行う。

　第３の学習装置３０は、学習済みの音声合成モデルのパラメータから構築された音声合成モデルに教師なしテキストデータ及び参照音声データを入力することにより合成音声データを得る。

　また、第３の学習装置３０は、学習済みの音声合成モデルのパラメータをさらに更新する。一方で、第３の学習装置３０は、学習済みの音声合成モデルのパラメータを更新しない。

　このため、第３の学習装置３０によれば、音声合成モデルが、音声認識モデルに認識されやすい不自然な音声を出力するようになることを防止できる。さらに、第３の学習装置３０によれば、音声認識モデルによる合成音声データに対する認識精度を向上させることができる。

　第４の学習装置４０は、学習済みの音声認識モデルのパラメータ、学習済みの音声合成モデルのパラメータ、教師なしテキストデータ及び参照音声データの入力を受け付ける。そして、第４の学習装置４０は、入力されたデータを基に、合成音声データの認識結果（テキストデータ）と、合成音声から得られる埋め込みデータと、を使って、音声認識モデルと音声合成モデルの両方の学習を実行する。

　第４の学習装置４０では、教師なしテキストデータとともに、少量のペアデータが用いられてもよい。すなわち、第４の学習装置４０は、音声認識モデルと音声合成モデルの両方について半教師あり学習を行う。

　第４の学習装置４０は、学習済みの音声合成モデルのパラメータから構築された音声合成モデルに教師なしテキストデータ及び参照音声データを入力することにより合成音声データを得る。

　さらに、第４の学習装置４０は、合成音声データから埋め込みデータを取得する。

　そして、第４の学習装置４０は、学習済みの音声認識モデルのパラメータから構築された音声認識モデルに合成音声データを入力して得られた認識結果（テキストデータ）と、合成音声データから取得された埋め込みデータを基に、音声合成モデルと音声認識モデルの両方のパラメータを更新する。

　これにより、第４の学習装置４０によれば、音声合成モデルが、音声認識モデルに認識されやすい不自然な音声を出力するようになることを防止できる。さらに、第４の学習装置４０によれば、音声認識モデルによる合成音声に対する認識精度を向上させることができる。

　また、第３の学習装置３０及び第４の学習装置４０によれば、合成音声データが音声認識モデルに過適合することで音声認識モデルの認識精度が低下することを抑止できる。

　図１の第１の学習装置１０、第２の学習装置２０、第３の学習装置３０及び第４の学習装置４０は、それぞれ異なる装置により実現されてもよい。一方で、第１の学習装置１０、第２の学習装置２０、第３の学習装置３０及び第４の学習装置４０は、図２に示すような１つの学習装置により実現されてもよい。図２は、学習装置の構成例を示す図である。

　例えば、図１の第１の学習装置１０、第２の学習装置２０、第３の学習装置３０及び第４の学習装置４０は、それぞれ第１の学習ステップ、第２の学習ステップ、第３の学習ステップ及び第４の学習ステップと置き換えられてもよい。この場合、図２に示す学習装置５が、第１の学習ステップ、第２の学習ステップ、第３の学習ステップ及び第４の学習ステップを実行する。

　図２に示すように、学習装置５は、通信部５１、記憶部５２及び制御部５３を有する。

　通信部５１は、他の装置との間でデータ通信を行う。例えば、通信部５１はＮＩＣ（Network　Interface　Card）である。また、通信部５１は、入力装置（例えばマウス及びキーボード）及び出力装置（例えばディスプレイ）との間でデータの入出力を行うためのインタフェースであってもよい。

　記憶部５２は、ＨＤＤ（Hard　Disk　Drive）、ＳＳＤ（Solid　State　Drive）、光ディスク等の記憶装置である。なお、記憶部５２は、ＲＡＭ（Random　Access　Memory）、フラッシュメモリ、ＮＶＳＲＡＭ（Non　Volatile　Static　Random　Access　Memory）等のデータを書き換え可能な半導体メモリであってもよい。記憶部５２は、学習装置５で実行されるＯＳ（Operating　System）や各種プログラムを記憶する。

　記憶部５２は、音声認識モデルパラメータ５２１及び音声合成モデルパラメータ５２２を記憶する。音声認識モデルパラメータ５２１及び音声合成モデルパラメータ５２２は、各学習ステップにおいて適宜更新される。

　制御部５３は、学習装置５全体を制御する。例えば、制御部５３は、ＣＰＵ（Central　Processing　Unit）、ＭＰＵ（Micro　Processing　Unit）、ＧＰＵ（Graphics　Processing　Unit）、ＡＳＩＣ（Application　Specific　Integrated　Circuit）、ＦＰＧＡ（Field　Programmable　Gate　Array）といった電子回路又は集積回路により実現される。

　また、制御部５３は、各種の処理手順を規定したプログラム及び制御データを格納するための内部メモリを有し、内部メモリを用いて各処理を実行する。また、制御部５３は、各種のプログラムが動作することにより各種の処理部として機能する。例えば、制御部５３は、埋め込み部５３１、合成部５３２、認識部５３３及び更新部５３４を有する。

　埋め込み部５３１は、音声データから埋め込みデータを取得する。

　合成部５３２は、テキストデータと埋め込みデータから合成音声データを生成する。合成部５３２は、音声合成モデルにテキストデータと埋め込みデータを入力し、合成音声データを出力させる。

　認識部５３３は、音声データの認識を行う。認識部５３３は、音声データを音声認識モデルに入力し、テキストデータを出力させる。

　更新部５３４は、音声認識モデル及び音声合成モデルのパラメータを更新する。例えば、更新部５３４は、音声認識モデル及び音声合成モデルの少なくともいずれかの出力を基に作成された誤差関数が最適化されるように、各モデルのパラメータを更新する。

　図１に示した各学習装置（学習ステップ）の詳細を説明する。以降の説明では、埋め込み部、合成部、認識部及び更新部は、付された符号にかかわらず、学習装置５の埋め込み部５３１、合成部５３２、認識部５３３及び更新部５３４と同様の処理を実行可能であるものとする。

　ただし、各部に入力されるデータは、学習装置（学習ステップ）ごとに異なる。例えば、認識部に入力される音声データは、教師あり音声データであってもよいし、教師なし音声データであってもよいし、教師あり音声データと教師なし音声データの両方であってもよい。

　また、更新部については、各学習装置（学習ステップ）において、音声認識モデル、音声合成モデル又はその両方のパラメータを更新するという点で共通する一方で、パラメータの更新のために作成される誤差関数はそれぞれ異なる場合がある。

　また、音声認識モデルと音声合成モデルについては、学習装置（学習ステップ）ごとに適宜パラメータが更新されていく。

　一例として、本実施形態では、各学習装置（学習ステップ）による段階的な(step-wise)モデルの最適化を行うことにより、合成音声の品質向上、及び合成音声の過適合の防止、音声認識の精度の向上といった目的が達成される。

［第１の学習装置］
　図３は、第１の学習装置の処理内容を説明する図である。図３に示すように、第１の学習装置１０は、認識部１０１及び更新部１０２を有する。第１の学習装置１０は、音声認識モデルの教師あり学習を行う。

　第１の学習装置１０には、教師あり音声データＸ及び教師ありテキストデータＹが入力される。

　教師あり音声データＸは（ｘ_１，…，ｘ_Ｔ）のように表される。ただし、教師あり音声データＸの要素ｘ_ｔは長さＴのフレームのうちの第ｔフレームの特徴量であり、所定の次元数のデータである。

　音声の特徴量は、例えば対数メルフィルタバンク（FBANK：log　Mel　filterbank　coefficients）である。また、音声の特徴量は対数メルフィルタバンに限られず、ＭＦＣＣ（Mel　frequency　cepstral　coefficient）、ΔＭＦＣＣ（MFCCの１階微分）、ΔΔＭＦＣＣ（MFCCの２階微分）、対数パワー、Δ対数パワー（対数パワーの１階微分）等であってもよい。

　認識部１０１は、音声認識モデルに教師あり音声データＸを入力し、テキストデータｙを出力させる。この時点での音声認識モデルは、例えば任意のパラメータが設定された初期状態のものであってよいし、ある程度学習が行われたものであってもよい。テキストデータｙは、音声認識モデルによって推論されたテキストデータということができる。

　テキストデータｙは（ｙ_１，…，ｙ_Ｌ）のように表される。ただし、テキストデータｙの要素ｙ_ｌは、トークン化されたテキストの第ｌトークンである。Ｌはトークンの系列の長さである。例えば、テキストは音素ごとにトークン化される。

　更新部１０２は、（１）式の事後確率が最大化されるように、音声認識モデルのパラメータを更新する。

　ここで、本実施形態の音声認識モデルは、エンコーダ及びデコーダを備えた、トランスフォーマ型のニューラルネットワークであるものとする（例えば参考文献１を参照）。Θ_ａｓｒは、ニューラルネットワークの重み及びバイアス等のパラメータである。
　参考文献１：　L.　Dong,　S.　Xu,　and　B.　Xu,　“Speech-transformer:　A　norecurrencesequence-to-sequence　model　for　speech　recognition,”　in　Proc.　ICASSP,　2018,　pp.　5884-5888.

　（１）式の事後確率は、（２）式、（３）式及び（４）式によって得られる。

　ただし、TransformerEnc（・）は、音声認識モデルのエンコーダに相当する部分である。ただし、エンコーダは、自己注意機構を備える。θ^ｅｎｃ _ａｓｒは、音声認識モデルのエンコーダのパラメータである。

　また、TransformerDec（・）は、音声認識モデルのデコーダに相当する部分である。ただし、デコーダは、埋め込み層及びエンコーダとデコーダとの間の注意機構を備える。θ^ｄｅｃ _ａｓｒは、音声認識モデルのデコーダのパラメータである。

　softmax（・）は、線形変換層を持ったソフトマックス層である。θ^{ｌｉｎｅａｒ} _ａｓｒは、ソフトマックス層のパラメータである。

　［ｙ_ｌ］は、教師ありテキストデータＹの要素ｙ_ｌに対応する確率である。学習においては、音声認識モデルが、ｙ_１からｙ_ｌ－１までの要素の系列から、次の要素としてｙｌを予測する確率が最大化される。

　また、Θ_ａｓｒは、θ^ｅｎｃ _ａｓｒ、θ^ｄｅｃ _ａｓｒ及びθ^{ｌｉｎｅａｒ} _ａｓｒを合わせたものである。更新部１０２は、（５）式の誤差関数（クロスエントロピー）Ｌ_ＣＥが最小化されるようにΘ_ａｓｒを更新する。例えば、更新部１０２は、誤差逆伝播法によりニューラルネットワークのパラメータを更新する。

　第１の学習装置１０は、更新されたパラメータを、音声認識モデルパラメータ１ａとして出力する。

［第２の学習装置］
　図４は、第２の学習装置の処理内容を説明する図である。図４に示すように、第２の学習装置２０は、埋め込み部２０１、合成部２０２及び更新部２０３を有する。第２の学習装置２０は、音声合成モデルの教師あり学習を行う。

　第２の学習装置２０には、教師あり音声データＸ、教師ありテキストデータＹ及び参照音声データ~Ｘ（Ｘの直上に~）が入力される。

　参照音声データ~Ｘは、話者の発する音声の特徴を示すデータであり、教師あり音声データＸと同様の形式で表される。例えば、教師あり音声データＸと参照音声データ~Ｘの各要素の次元数は等しい。ただし、参照音声データ~Ｘの要素数（フレームの長さ）は教師あり音声データＸと異なっていてもよい。

　埋め込み部２０１は、参照音声データ~Ｘから埋め込みデータを取得する。埋め込みデータは、人手等によりあらかじめ１以上の次元数が設定されたベクトルである。埋め込みデータの各要素は連続値を取る。

　埋め込み部２０１は、例えばリカレントニューラルネットワーク等の任意の関数により参照音声データを埋め込みデータに変換することができる。埋め込み部２０１は、（６）式のように埋め込みデータ~sを計算する。

　ただし、SpeakerModel（・）は埋め込みデータを取得するための学習済みのモデルである。また、θ_{ｓｐｅａｋｅｒ}は、SpeakerModel（・）のパラメータである。なお、本実施形態ではパラメータθ_{ｓｐｅａｋｅｒ}の更新は行われない。

　合成部２０２は、教師ありテキストデータ及び埋め込みデータを音声合成モデルに入力し、合成音声データを出力させる。例えば、合成音声モデルは、トランスフォーマ型のニューラルネットワークである「FastSpeech　2」と呼ばれる手法（例えば、参考文献２を参照）に基づき、合成音声データを出力する。
　参考文献２：　Y.　Ren,　C.　Hu,　X.　Tan,　T.　Qin,　S.　Zhao,　Z.　Zhao,　and　T.　Liu,“FastSpeech　2:　Fast　and　high-quality　end-to-end　text　to　speech,”in　Proc.　ICLR,　2021.

　音声合成モデルは、（７）式、（８）式、（９）式及び（１０）式により合成音声データ＾Ｘ（Ｘの直上に＾）を出力する。

　ただし、FastSpeech2Enc（・）は、音声合成モデルのエンコーダに相当する部分である。ただし、エンコーダは、自己注意機構を備える。θ^ｅｎｃ _ｔｔｓは、音声合成モデルのエンコーダのパラメータである。

　VarianceAdaptor（・）は、音声合成モデルの一部であって、埋め込みデータから話者の特徴を表すパラメータを抽出する部分である。VarianceAdaptor（・）は、音声のピッチ（ｐ）エネルギー（ｅ）、継続時間（ｄ）に関するパラメータを抽出する。θ^ｖａ _ｔｔｓは、VarianceAdaptor（・）のパラメータである。

　また、FastSpeech2Dec（・）は、音声合成モデルの一部であって、音声合成モデルのデコーダに相当する部分である。ただし、デコーダは、自己注意機構を備える。θ^ｄｅｃ _ｔｔｓは、音声合成モデルのデコーダのパラメータである。

　デコーダでは、VarianceAdaptor（・）によって抽出されたパラメータが用いられる。これにより、合成音声データは話者に適合する。

　また、PostNet（・）は、音声合成モデルにおいて、デコーダからの出力をさらに変換する部分である。θ^ｐｏｓｔ _ｔｔｓは、PostNet（・）のパラメータである。

　また、Θ_ｔｔｓは、θ^ｅｎｃ _ｔｔｓ、θ^ｖａ _ｔｔｓ、θ^ｄｅｃ _ｔｔｓ及びθ^ｐｏｓｔ _ｔｔｓを合わせたものである。更新部２０３は、（１１）式の誤差関数Ｌ_ＴＴＳが最小化されるようにΘ_ｔｔｓを更新する。例えば、更新部２０３は、誤差逆伝播法によりニューラルネットワークのパラメータを更新する。||・||_１は、Ｌ１ノルムである。||・||_２は、Ｌ２ノルムである。なお、＾が付かないｐ、ｅ、ｄは、あらかじめ定められた各パラメータの正解データを意味する。

　第２の学習装置２０は、更新されたパラメータを、音声合成モデルパラメータ１ｂとして出力する。

［第３の学習装置］
　図５は、第３の学習装置の処理内容を説明する図である。図５に示すように、第３の学習装置３０は、埋め込み部３０１、合成部３０２、認識部３０３及び更新部３０４を有する。第３の学習装置３０は、音声認識モデルの半教師あり学習を行う。

　第３の学習装置３０には、教師なしテキストデータＹｕ及び参照音声データ~Ｘが入力される。また、第３の学習装置３０には、音声認識モデルパラメータ１ａ及び音声合成モデルパラメータ１ｂを参照してモデルを構築する。

　また、第３の学習装置３０は、音声認識モデルパラメータ１ａを更新し、音声認識モデルパラメータ２ａとして出力する。一方で、第３の学習装置３０は、音声合成モデルパラメータ１ｂを更新しない。

　埋め込み部３０１は、埋め込み部２０１と同様に、参照音声データ~Ｘから埋め込みデータを取得する。

　合成部３０２は、合成部２０２と同様に、テキストデータ及び埋め込みデータを音声合成モデルに入力し、合成音声データを出力させる。ただし、合成部３０２は、合成部２０２と異なり、教師ありテキストデータを音声合成モデルに入力する。

　認識部３０３は、認識部１０１と同様に、音声認識モデルに音声データを入力し、テキストデータを出力させる。ただし、認識部３０３は、認識部１０１と異なり、合成部３０２によって出力された合成音声データを音声認識モデルに入力する。

　更新部３０４は、（１２）式の誤差関数（クロスエントロピー）Ｌ_{ｃｙｃｌｅ}が最小化されるようにΘ_ａｓｒを更新する。この場合、更新部３０４は、音声認識モデルパラメータ１ａを音声認識モデルパラメータ２ａに更新する。

　（５）式では教師あり音声データＸが用いられているのに対し、（１２）式では合成音声データ＾Ｘが用いられている。

　なお、埋め込み部３０１及び合成部３０２は、（１３）式のように、参照音声データ~Ｘ及び教師なしテキストデータＹｕ（（１３）式のｙ）から、合成音声データ＾Ｘを得る。ただし、ＴＴＳ（・）は埋め込みデータを取得するためのモデルと音声合成モデルを合わせたものであり、（６）式、（７）式、（８）式、（９）式及び（１０）式を合わせたものに相当する。

　第３の学習装置３０は、更新されたパラメータを、音声認識モデルパラメータ２ａとして出力する。

［第４の学習装置］
　図６は、第４の学習装置の処理内容を説明する図である。図６に示すように、第４の学習装置４０は、埋め込み部４０１、合成部４０２、認識部４０３、埋め込み部４０４及び更新部４０５を有する。第４の学習装置４０は、音声認識モデルと音声合成モデルの半教師あり学習を行う。

　第４の学習装置４０には、教師なしテキストデータＹｕ及び参照音声データ~Ｘが入力される。また、第４の学習装置４０には、音声認識モデルパラメータ２ａ及び音声合成モデルパラメータ１ｂを参照してモデルを構築する。

　また、第４の学習装置４０は、音声認識モデルパラメータ２ａを更新し、音声認識モデルパラメータ３ａとして出力する。また、第４の学習装置４０は、音声合成モデルパラメータ１ｂを更新し、音声合成モデルパラメータ２ｂとして出力する。

　埋め込み部４０１は、埋め込み部３０１と同様に、参照音声データ~Ｘから埋め込みデータ~ｓを取得する。

　合成部４０２は、合成部３０２と同様に、教師なしテキストデータＹｕ及び埋め込みデータ~Ｘを音声合成モデルに入力し、合成音声データを出力させる。

　認識部４０３は、認識部３０３と同様に、音声認識モデルに、合成部４０２によって出力された合成音声データを入力し、テキストデータを出力させる。このとき得られるテキストデータは、再構成テキストデータと呼ばれる。

　埋め込み部４０４は、（１４）式に示すように、合成部４０２によって出力された合成音声データ＾Ｘから埋め込みデータ＾ｓを取得する。

　更新部４０５は、音声合成モデルパラメータ１ｂと音声認識モデルパラメータ２ａを更新する。その際、更新部４０５は、音声合成モデルに関する誤差関数Ｌ_ＳＣを、（１５）式のように作成する。

　誤差関数Ｌ_ＳＣは、埋め込み部４０１によって取得された埋め込みデータ~ｓと、埋め込み部４０４によって取得された埋め込みデータ＾ｓとが類似しているほど小さくなる。誤差関数Ｌ_ＳＣは、埋め込みデータ~ｓと、埋め込みデータ＾ｓとがかい離しているほど大きくなる。

　このように、誤差関数Ｌ_ＳＣは、音声合成の前後における話者性の一貫性を表している。なお、参考文献３には、音声合成モデルの学習を単独で行う際に、コサイン類似度が話者性を保存する役割で用いられることが記載されている。また、誤差関数Ｌ_ＳＣは、コサイン類似度に限らず、距離ユークリッド距離等のデータ間の類似度を表す任意の指標により定義されていればよい。
　参考文献３：Z.　Cai,　C.　Zhang,　and　M.　Li,　“From　speaker　verification　to　multispeaker　speech　synthesis,　deep　transfer　with　feedback　constraint,”　in　Proc.　INTERSPEECH,　2020,　pp.　3974-3978.

　さらに、（１６）式に示すように、更新部４０５は、誤差関数Ｌｃｙｃｌｅ（（１２）式）及び誤差関数Ｌ_ＳＣ（（１５）式）から、誤差関数Ｌ_ｐｒｏｐを作成する。αは任意に定められる重みである。

　更新部４０５は、（１６）式の誤差関数Ｌ_ｐｒｏｐが最小化されるようにΘ_ａｓｒ及びΘ_ｔｔｓを更新する。この場合、更新部４０５は、音声認識モデルパラメータ２ａを音声認識モデルパラメータ３ａに更新する。また、更新部４０５は、音声合成モデルパラメータ１ｂを音声合成モデルパラメータ２ｂに更新する。

　また、誤差関数Ｌ_ＳＣは、いずれもベクトルである埋め込みデータ~ｓと埋め込みデータ＾ｓとのコサイン類似度にマイナスの符号を付けたものである。そのため、更新部４０５は、ベクトルである埋め込みデータ~ｓと、ベクトルである埋め込みデータ＾ｓとのコサイン類似度が大きくなるように、音声合成モデルのパラメータ及び音声認識モデルのパラメータを更新するということができる。

　第４の学習装置４０は、更新されたパラメータを、音声認識モデルパラメータ３ａ及び音声合成モデルパラメータ２ｂとして出力する。

　第４の学習装置４０は、音声合成モデルを用いて、話者の発話の特徴を表す埋め込みデータと教師なしテキストデータとから、合成音声データ（合成音声に関するデータの一例）を生成する。第４の学習装置４０は、音声認識モデルを用いて、合成音声データからテキストデータ（音声認識モデルの認識結果）を生成する。更新部５３４は、合成音声の生成に用いられた埋め込みデータ（埋め込み部４０１の出力）と、合成音声の発話の特徴を表す埋め込みデータ（埋め込み部４０４の出力）とが類似し、かつ教師なしテキストデータと合成音声から生成されたテキストデータが類似するように、音声合成モデルのパラメータ及び音声認識モデルのパラメータを更新する。

　また、第４の学習装置４０による処理を第２の段階の処理とすると、第３の学習装置３０による処理は第１の段階の処理に相当する。

［第１の実施形態の処理］
　図７を用いて、第１の実施形態の学習処理の流れを説明する。ここでは、学習装置５が各処理を実行するものとする。

　図７示すように、まず、学習装置５は、音声認識モデルの教師あり学習を実行する（ステップＳ１０１）。次に、学習装置５は、音声合成モデルの教師あり学習を実行する（ステップＳ１０２）。

　ステップＳ１０１及びＳ１０２は、他の装置により事前に行われていてもよい。その場合、更新済みの音声認識モデル及び音声合成モデルのパラメータが学習装置５に受け渡される。

　続いて、学習装置５は、合成音声データを使って、音声認識モデルの半教師あり学習を実行する（ステップＳ１０３）。ここでは、学習装置５は、ステップＳ１０２で学習済みの音声合成モデルを使って、教師なしテキストデータから合成音声データを得ることができる。

　また、ステップＳ１０３において、学習装置５は、教師なしテキストデータに比べて少量の教師あり音声データと教師ありテキストデータを使って、音声認識モデルの教師あり学習を同時に行ってもよい。

　そして、学習装置５は、合成音声データと合成音声データの埋め込みデータを使って、音声認識モデルと音声合成モデルの半教師あり学習を実行する（ステップＳ１０４）。ここでは、学習装置５は、ステップＳ１０２で学習済みの音声合成モデルを使って、教師なしテキストデータから合成音声データを得ることができる。また、学習装置５は、ステップＳ１０３で学習済みの音声認識モデルを使って、合成音声データの認識結果（再構成テキストデータ）を得ることができる。

　また、ステップＳ１０４において、学習装置５は、教師なしテキストデータに比べて少量の教師あり音声データと教師ありテキストデータを使って、音声認識モデルと音声合成モデルの教師あり学習を同時に行ってもよい。

　このように、ステップＳ１０３では、学習装置５は、音声合成モデルが固定した上で、協調学習の手法を用いて、音声認識モデルについてのみ学習を行う。そして、ステップＳ１０４では、学習装置５は、音声合成モデルの固定を解除し、協調学習の手法を用いて、音声認識モデルと音声合成モデルの両方について学習を行う。

［推論フェーズ］
　これまで音声認識モデル及び音声合成モデルの学習フェーズについて説明してきた。学習済みの各モデルは、図８及び図９に示す態様により実際に推論フェーズにおいて利用される。図８は、音声認識装置の処理内容を説明する図である。図９は、音声合成装置の処理内容を説明する図である。

　図８に示すように、音声認識装置８０は、認識部８０１を有する。認識部８０１は、音声認識モデルパラメータ３ａから構築した音声認識モデルを用いて、音声モデルからテキストデータを生成する。音声認識モデルパラメータ３ａは、第４の学習装置４０によって更新済みである。また、音声データのペアとなるテキストデータは未知であってよい。

　図９に示すように、音声合成装置９０は、埋め込み部９０１及び合成部９０２を有する。埋め込み部９０１は、参照音声データから埋め込みデータを取得する。合成部９０２は、音声合成モデルパラメータ２ｂを用いて、埋め込みデータ及びテキストデータから音声データを生成する。音声合成モデルパラメータ２ｂは、第４の学習装置４０によって更新済みである。また、テキストデータのペアとなる音声データは未知であってよい。

　音声合成装置９０に入力される参照音声データ、及び当該参照音声データから取得される埋め込みデータは、学習時の参照音声データ及び埋め込みデータ、すなわち、図４、図５、図６に示す参照音声データ及び埋め込みデータ（埋め込み部の出力）と同じであってもよいし、異なっていてもよい。

　なお、音声認識装置８０及び音声合成装置９０は、学習装置５の１つの機能として実現されてもよいし、それぞれ独立した装置として実現されてもよい。

［第１の実施形態の効果］
　学習装置５がこれまでに説明してきた学習処理を行うものとして、第１の実施形態の効果を説明する。なお、学習装置５の機能が第１の学習装置１０、第２の学習装置２０、第３の学習装置３０、第４の学習装置４０に分散している場合であっても、同様の効果が得られる。

　これまで説明してきたように、合成部５３２は、第１のモデルを用いて、話者の発話の特徴を表す第１の埋め込みデータと第１のテキストデータとから、合成音声に関するデータを生成する。認識部５３３は、第２のモデルを用いて、合成音声に関するデータから第２のテキストデータを生成する。更新部５３４は、第１の埋め込みデータと、合成音声の発話の特徴を表す第２の埋め込みデータとが類似し、かつ第１のテキストデータと第２のテキストデータが類似するように、第１のモデルのパラメータ及び第２のモデルのパラメータを更新する。なお、この構成は第４の学習装置４０に相当する。

　このように、学習装置５は、参照音声データから得らえる話者の特徴（第１の埋め込みデータ）と合成音声データから得られる発話の特徴（第２の埋め込みデータ）が近づくように音声認識モデル（第２のモデル）と音声合成モデル（第１のモデル）の両方のパラメータを更新する。その結果、音声合成モデルが音声認識モデルによって認識されやすい不自然な音声を合成することを抑止し、合成音声の品質を向上させることができる。

　また、第１の段階において、合成部５３２は、第１のモデルを用いて、話者の発話の特徴を表す第３の埋め込みデータと第３のテキストデータとから、合成音声に関するデータを生成する。第１の段階において、認識部５３３は、第２のモデルを用いて、合成音声に関するデータから第４のテキストデータを生成する。第１の段階において、更新部５３４は、第３のテキストデータと第４のテキストデータが類似するように、第１のモデルのパラメータを更新する。第１の段階より後の第２の段階において、合成部５３２は、第１の段階でパラメータが更新された第１のモデルを用いて、話者の発話の特徴を表す第１の埋め込みデータと第１のテキストデータとから、合成音声に関するデータを生成する。第２の段階において、認識部５３３は、第２のモデルを用いて、合成音声に関するデータから第２のテキストデータを生成する。第２の段階において、更新部５３４は、第１の埋め込みデータと、合成音声の発話の特徴を表す第２の埋め込みデータとが類似し、かつ第１のテキストデータと第２のテキストデータが類似するように、第１のモデルのパラメータ及び第２のモデルのパラメータを更新する。なお、第１の段階の構成は、第３の学習装置３０に相当する。また、第２の段階の構成は、第４の学習装置４０に相当する。

　このように、第１の段階で音声合成モデルを固定し、音声認識モデルについてのみ学習を行うことで、音声認識モデルの精度の低下及び音声合成モデルの過学習を抑止できる。

　なお、第３の学習装置３０及び第４の学習装置４０のいずれからも、合成音声の品質向上、及び音声合成モデルの過学習の抑止といった効果は一定量得られる。

　更新部５３４は、ベクトルである第１の埋め込みデータと、ベクトルである第２の埋め込みデータとの類似度が大きくなるように、第１のモデルのパラメータ及び第２のモデルのパラメータを更新する。

　これにより、音声合成モデルに、話者性（話者の発話の特徴）を保持させることが可能になる。なお、類似度は、データ間（ベクトル間）の近さを表す指標であればよく、コサイン類似度に限らず、ユークリッド距離等であってもよい。

　本実施形態は、自然な話し言葉又は方言の合成音声を生成する音声合成モデルの生成に利用可能である。この場合、例えば話し言葉又は方言で記述された教師なしテキストデータが用いられる。

　また、本実施形態は、特に品質が低下しやすい多話者の音声合成において効果を生じさせやすいが、単話者の音声合成においても埋め込みデータが使用されるため、一定量の効果を生じさせる。

　また、合成部５３２は、更新部５３４によってパラメータが更新された第１のモデルを用いて、話者の発話の特徴を表す第４の埋め込みデータと第５のテキストデータとから、合成音声に関するデータを生成する。

　このように、本実施形態により学習が行われた音声合成モデルを用いることで、推論フェーズにおいて実際に高品質な合成音声を得ることができる。

　第１の実施の形態に係る学習装置は、非特許文献１に記載のような従来の機械学習手法に対して特定の改善を提供するものであり、機械学習モデルによる音声認識及び音声合成に係る技術分野の向上を示すものである。
［第２の実施形態］
　図１０は、第２の実施形態に係る第４の学習装置の処理内容を説明する図である。第２の実施形態では、第３の学習装置３０による処理が省略される。

　図６の例では、第４の学習装置４０は音声認識モデルパラメータ１ａから音声認識モデルを構築していたのに対し、図１０の例では、音声認識モデルパラメータ１ａから音声認識モデルを構築する。

　第２の実施形態では、第４の学習装置４０は、第１の学習装置１０から音声認識モデルパラメータ１ａを受け取る。

　そして、第４の学習装置４０は、音声認識モデルパラメータ１ａを更新した音声認識モデルパラメータ４ａ、及び音声合成モデルパラメータ１ｂを更新した音声合成モデルパラメータ３ｂを出力する。

　第２の実施形態では、簡易な構成で合成音声の品質を向上させることができる。

　第２の実施の形態に係る学習装置は、非特許文献１に記載のような従来の機械学習手法に対して特定の改善を提供するものであり、機械学習モデルによる音声認識及び音声合成に係る技術分野の向上を示すものである。

［第３の実施形態］
　図１１は、第３の実施形態に係る第５の学習装置及び第６の学習装置の処理内容を説明する図である。第３の実施形態では、第４の学習装置４０による処理が省略され、第３の学習装置３０と同等の処理が、第５の学習装置５０と第６の学習装置６０による２段階学習により実現される。また、第３の実施形態では、参照音声データ及び埋め込みデータは利用されない。

　図１１に示すように、第５の学習装置５０は、合成部５０１、認識部５０２、及び更新部５０３を有する。また、第６の学習装置６０は、合成部６０１、認識部６０２及び更新部６０３を有する。

　第５の学習装置５０は、音声認識モデルパラメータ１ａから音声認識モデルを構築し、音声合成モデルパラメータ１ｂから音声合成モデルを構築する。第５の学習装置５０は、音声認識モデルパラメータ１ａを更新した音声認識モデルパラメータ５ａを第６の学習装置６０に受け渡す。

　第５の学習装置５０は、音声合成モデルパラメータ１ｂを更新しない。これにより、第１の実施形態と同様に、段階的な学習による効果が得られる。

　第６の学習装置６０は、音声認識モデルパラメータ５ａから音声認識モデルを構築し、音声合成モデルパラメータ１ｂから音声合成モデルを構築する。第５の学習装置５０は、音声認識モデルパラメータ５ａを更新した音声認識モデルパラメータ６ａ、及び、音声合成モデルパラメータ１ｂを更新した音声合成モデルパラメータ６ｂを出力する。

　第３の実施形態では、埋め込みデータが不要かつ簡易な構成で音声合成モデルの過学習を抑止することができる。

　第３の実施の形態に係る学習装置は、非特許文献１に記載のような従来の機械学習手法に対して特定の改善を提供するものであり、機械学習モデルによる音声認識及び音声合成に係る技術分野の向上を示すものである。

［実験］
　図１２に、実施形態と従来の技術とを比較する実験を行った結果を図１２に示す。図１２は、実験結果を示す図である。

　図１２の従来の技術は、教師あり学習により（５）式に示す誤差関数Ｌ_ＣＥに基づき音声認識モデルのパラメータの更新を行い、教師あり学習により（１１）式に示す誤差関数Ｌ_ＴＴＳに基づき音声認合成モデルのパラメータの更新を行い、半教師あり学習により（１２）式に示す誤差関数Ｌ_{ｃｙｃｌｅ}に基づき音声認認識モデル及び音声認合成モデルの両方のパラメータの更新を行う方法である。

　図１２の実施形態は、教師あり学習により（５）式に示す誤差関数Ｌ_ＣＥに基づき音声認識モデルのパラメータの更新を行い、教師あり学習により（１１）式に示す誤差関数Ｌ_ＴＴＳに基づき音声認合成モデルのパラメータの更新を行い、半教師あり学習により（１６）式に示す誤差関数Ｌ_ｐｒｏｐに基づき音声認認識モデル及び音声認合成モデルの両方のパラメータの更新を行う方法である。

　実験に用いられたデータは下記の通りである。
　教師ありデータ：LibriTTSデータセットの「train-clean-100」セット
　教師なしデータ：LibriTTSデータセットの「train-clean-360」セット
　評価用データ：LibriTTSデータセットの「dev-clean」セットと「　test-clean-100」セット
　また、埋め込みデータを取得するためのモデルの事前学習には、VoxCeleb2データセットの「dev」セットが用いられた。

　VoxCeleb2については、参考文献４に記載されている。また、LibriTTSについては参考文献５に記載されている。
　参考文献４：J.　S.　Chung,　A.　Nagrani,　and　A.　Zisserman,　“VoxCeleb2:　Deepspeaker　recognition,”　in　Proc.　INTERSPEECH,　2018,　pp.　1086-1090.
　参考文献５：H.　Zen,　V.　Dang,　R.　Clark,　Y.　Zhang,　R.　J.　Weiss,　Y.　Jia,　Z.　Chen,and　Y.Wu,　“LibriTTS:　A　corpus　derived　from　librispeech　for　textto-speech,”　in　Proc.　INTERSPEECH,　2019,　pp.　1526-1530.

　図１２に示すように、実施形態と従来の技術との比較は、ＰＥＲ（phoneme　error　rate）、ＭＣＤ（mel-cepstral　distortion）、Ｆ０　ＲＭＳＥ（root　mean　square　error　of　fundamental　frequency）という３つの指標によって行われた。

　ＰＥＲは音声認識モデルの精度を示す指標である。ＭＣＤとＦ０　ＲＭＳＥは音声合成モデルの精度を示す指標である。いずれの指標も小さいほど精度が高いことを意味する。

　図１２に示すように、ＰＥＲ、ＭＣＤ、Ｆ０　ＲＭＳＥのいずれについても、実施形態の方が従来の技術より良い結果が出た。

　特に、ＭＣＤとＦ０　ＲＭＳＥについては、損失関数において話者の一貫性を考慮したことにより実施形態の結果が良くなったものと考えられる。また、ＰＥＲについては、段階的なパラメータの更新により実施形態の結果が良くなったものと考えられる。

［システム構成等］
　また、図示した各装置の各構成要素は機能概念的なものであり、必ずしも物理的に図示のように構成されていることを要しない。すなわち、各装置の分散及び統合の具体的形態は図示のものに限られず、その全部又は一部を、各種の負荷や使用状況等に応じて、任意の単位で機能的又は物理的に分散又は統合して構成することができる。さらに、各装置にて行われる各処理機能は、その全部又は任意の一部が、ＣＰＵ（Central　Processing　Unit）及び当該ＣＰＵにて解析実行されるプログラムにて実現され、あるいは、ワイヤードロジックによるハードウェアとして実現され得る。なお、プログラムは、ＣＰＵだけでなく、ＧＰＵ等の他のプロセッサによって実行されてもよい。

　また、本実施形態において説明した各処理のうち、自動的に行われるものとして説明した処理の全部又は一部を手動的に行うこともでき、あるいは、手動的に行われるものとして説明した処理の全部又は一部を公知の方法で自動的に行うこともできる。この他、上記文書中や図面中で示した処理手順、制御手順、具体的名称、各種のデータやパラメータを含む情報については、特記する場合を除いて任意に変更することができる。

［プログラム］
　一実施形態として、学習装置５は、パッケージソフトウェアやオンラインソフトウェアとして上記の学習処理を実行する学習プログラムを所望のコンピュータにインストールさせることによって実装できる。例えば、上記の学習プログラムを情報処理装置に実行させることにより、情報処理装置を学習装置５として機能させることができる。ここで言う情報処理装置には、デスクトップ型又はノート型のパーソナルコンピュータが含まれる。また、その他にも、情報処理装置にはスマートフォン、携帯電話機やＰＨＳ（Personal　Handyphone　System）等の移動体通信端末、さらには、ＰＤＡ（Personal　Digital　Assistant）等のスレート端末等がその範疇に含まれる。

　また、学習装置５は、ユーザが使用する端末装置をクライアントとし、当該クライアントに上記の学習処理に関するサービスを提供する学習サーバ装置として実装することもできる。例えば、学習サーバ装置は、学習用のデータを入力とし、学習済みのモデルのパラメータを出力とする学習サービスを提供するサーバ装置として実装される。この場合、学習サーバ装置は、Ｗｅｂサーバとして実装することとしてもよいし、アウトソーシングによって上記の学習処理に関するサービスを提供するクラウドとして実装することとしてもかまわない。

　図１３は、学習プログラムを実行するコンピュータの一例を示す図である。コンピュータ１０００は、例えば、メモリ１０１０、ＣＰＵ１０２０を有する。また、コンピュータ１０００は、ハードディスクドライブインタフェース１０３０、ディスクドライブインタフェース１０４０、シリアルポートインタフェース１０５０、ビデオアダプタ１０６０、ネットワークインタフェース１０７０を有する。これらの各部は、バス１０８０によって接続される。

　メモリ１０１０は、ＲＯＭ（Read　Only　Memory）１０１１及びＲＡＭ（Random　Access　Memory）１０１２を含む。ＲＯＭ１０１１は、例えば、ＢＩＯＳ（Basic　Input　Output　System）等のブートプログラムを記憶する。ハードディスクドライブインタフェース１０３０は、ハードディスクドライブ１０９０に接続される。ディスクドライブインタフェース１０４０は、ディスクドライブ１１００に接続される。例えば磁気ディスクや光ディスク等の着脱可能な記憶媒体が、ディスクドライブ１１００に挿入される。シリアルポートインタフェース１０５０は、例えばマウス１１１０、キーボード１１２０に接続される。ビデオアダプタ１０６０は、例えばディスプレイ１１３０に接続される。

　ハードディスクドライブ１０９０は、例えば、ＯＳ１０９１、アプリケーションプログラム１０９２、プログラムモジュール１０９３、プログラムデータ１０９４を記憶する。すなわち、学習装置５の各処理を規定するプログラムは、コンピュータにより実行可能なコードが記述されたプログラムモジュール１０９３として実装される。プログラムモジュール１０９３は、例えばハードディスクドライブ１０９０に記憶される。例えば、学習装置５における機能構成と同様の処理を実行するためのプログラムモジュール１０９３が、ハードディスクドライブ１０９０に記憶される。なお、ハードディスクドライブ１０９０は、ＳＳＤ（Solid　State　Drive）により代替されてもよい。

　また、上述した実施形態の処理で用いられる設定データは、プログラムデータ１０９４として、例えばメモリ１０１０やハードディスクドライブ１０９０に記憶される。そして、ＣＰＵ１０２０は、メモリ１０１０やハードディスクドライブ１０９０に記憶されたプログラムモジュール１０９３やプログラムデータ１０９４を必要に応じてＲＡＭ１０１２に読み出して、上述した実施形態の処理を実行する。

　なお、プログラムモジュール１０９３やプログラムデータ１０９４は、ハードディスクドライブ１０９０に記憶される場合に限らず、例えば着脱可能な記憶媒体に記憶され、ディスクドライブ１１００等を介してＣＰＵ１０２０によって読み出されてもよい。あるいは、プログラムモジュール１０９３及びプログラムデータ１０９４は、ネットワーク（ＬＡＮ（Local　Area　Network）、ＷＡＮ（Wide　Area　Network）等）を介して接続された他のコンピュータに記憶されてもよい。そして、プログラムモジュール１０９３及びプログラムデータ１０９４は、他のコンピュータから、ネットワークインタフェース１０７０を介してＣＰＵ１０２０によって読み出されてもよい。

　以上の実施形態に関し、更に以下の付記を開示する。

　（付記項１）
　メモリと、
　前記メモリに接続された少なくとも１つのプロセッサと、
　を含み、
　前記プロセッサは、
　第１のモデルを用いて、話者の発話の特徴を表す第１の埋め込みデータと第１のテキストデータとから、合成音声に関するデータを生成し、
　第２のモデルを用いて、前記合成音声に関するデータから第２のテキストデータを生成し、
　前記第１の埋め込みデータと、前記合成音声の発話の特徴を表す第２の埋め込みデータとが類似し、かつ前記第１のテキストデータと前記第２のテキストデータが類似するように、前記第１のモデルのパラメータ及び前記第２のモデルのパラメータを更新する
　学習装置。

　（付記項２）
　学習処理を実行するようにコンピュータによって実行可能なプログラムを記憶した非一時的記憶媒体であって、
　前記学習処理は、
　第１のモデルを用いて、話者の発話の特徴を表す第１の埋め込みデータと第１のテキストデータとから、合成音声に関するデータを生成し、
　第２のモデルを用いて、前記合成音声に関するデータから第２のテキストデータを生成し、
　前記第１の埋め込みデータと、前記合成音声の発話の特徴を表す第２の埋め込みデータとが類似し、かつ前記第１のテキストデータと前記第２のテキストデータが類似するように、前記第１のモデルのパラメータ及び前記第２のモデルのパラメータを更新する
　非一時的記憶媒体。

　（付記項３）
　メモリと、
　前記メモリに接続された少なくとも１つのプロセッサと、
　を含み、
　前記プロセッサは、
　第１の段階において、前記第１のモデルを用いて、話者の発話の特徴を表す第３の埋め込みデータと第３のテキストデータとから、合成音声に関するデータを生成し、
　前記第１の段階において、前記第２のモデルを用いて、前記合成音声に関するデータから第４のテキストデータを生成し、
　前記第１の段階において、前記第３のテキストデータと前記第４のテキストデータが類似するように、前記第１のモデルのパラメータを更新し、
　前記第１の段階より後の第２の段階において、前記第１の段階でパラメータが更新された前記第１のモデルを用いて、話者の発話の特徴を表す第１の埋め込みデータと第１のテキストデータとから、合成音声に関するデータを生成し、
　前記第２の段階において、前記第２のモデルを用いて、前記合成音声に関するデータから前記第２のテキストデータを生成し、
　前記第２の段階において、前記第１の埋め込みデータと、前記合成音声の発話の特徴を表す第２の埋め込みデータとが類似し、かつ前記第１のテキストデータと前記第２のテキストデータが類似するように、前記第１のモデルのパラメータ及び前記第２のモデルのパラメータを更新する
　学習装置。

　（付記項４）
　学習処理を実行するようにコンピュータによって実行可能なプログラムを記憶した非一時的記憶媒体であって、
　前記学習処理は、
　第１の段階において、前記第１のモデルを用いて、話者の発話の特徴を表す第３の埋め込みデータと第３のテキストデータとから、合成音声に関するデータを生成し、
　前記第１の段階において、前記第２のモデルを用いて、前記合成音声に関するデータから第４のテキストデータを生成し、
　前記第１の段階において、前記第３のテキストデータと前記第４のテキストデータが類似するように、前記第１のモデルのパラメータを更新し、
　前記第１の段階より後の第２の段階において、前記第１の段階でパラメータが更新された前記第１のモデルを用いて、話者の発話の特徴を表す第１の埋め込みデータと第１のテキストデータとから、合成音声に関するデータを生成し、
　前記第２の段階において、前記第２のモデルを用いて、前記合成音声に関するデータから前記第２のテキストデータを生成し、
　前記第２の段階において、前記第１の埋め込みデータと、前記合成音声の発話の特徴を表す第２の埋め込みデータとが類似し、かつ前記第１のテキストデータと前記第２のテキストデータが類似するように、前記第１のモデルのパラメータ及び前記第２のモデルのパラメータを更新する
　非一時的記憶媒体。

　（付記項５）
　付記項１に記載の学習装置であって、前記プロセッサは、
　ベクトルである前記第１の埋め込みデータと、ベクトルである前記第２の埋め込みデータとの類似度が大きくなるように、前記第１のモデルのパラメータ及び前記第２のモデルのパラメータを更新する
　学習装置。

　（付記項６）
　付記項２に記載の非一時的記憶媒体であって、前記学習処理は、
　ベクトルである前記第１の埋め込みデータと、ベクトルである前記第２の埋め込みデータとの類似度が大きくなるように、前記第１のモデルのパラメータ及び前記第２のモデルのパラメータを更新する
　非一時的記憶媒体。

　（付記項７）
　付記項１に記載の学習装置であって、前記プロセッサは、
　パラメータが更新された前記第１のモデルを用いて、話者の発話の特徴を表す第４の埋め込みデータと第５のテキストデータとから、合成音声に関するデータを生成する
　学習装置。

　（付記項８）
　付記項２に記載の非一時的記憶媒体であって、前記学習処理は、
　パラメータが更新された前記第１のモデルを用いて、話者の発話の特徴を表す第４の埋め込みデータと第５のテキストデータとから、合成音声に関するデータを生成する
　非一時的記憶媒体。

　（付記項９）
　第１のモデルを用いて、話者の発話の特徴を表す第１の埋め込みデータと第１のテキストデータとから、合成音声に関するデータを生成し、第２のモデルを用いて、前記合成音声に関するデータから第２のテキストデータを生成し、前記第１の埋め込みデータと、前記合成音声の発話の特徴を表す第２の埋め込みデータとが類似し、かつ前記第１のテキストデータと前記第２のテキストデータが類似するように、前記第１のモデルのパラメータ及び前記第２のモデルのパラメータを更新する処理によってパラメータが更新済みの前記第１のモデルを用いて、
　話者の発話の特徴を表す第４の埋め込みデータと第５のテキストデータとから、合成音声に関するデータを生成する合成部を有することを特徴とする音声合成装置。

　（付記項１０）
　音声合成装置によって実行される音声合成方法であって、第１のモデルを用いて、話者の発話の特徴を表す第１の埋め込みデータと第１のテキストデータとから、合成音声に関するデータを生成し、第２のモデルを用いて、前記合成音声に関するデータから第２のテキストデータを生成し、前記第１の埋め込みデータと、前記合成音声の発話の特徴を表す第２の埋め込みデータとが類似し、かつ前記第１のテキストデータと前記第２のテキストデータが類似するように、前記第１のモデルのパラメータ及び前記第２のモデルのパラメータを更新する処理によってパラメータが更新済みの前記第１のモデルを用いて、
　話者の発話の特徴を表す第４の埋め込みデータと第５のテキストデータとから、合成音声に関するデータを生成する合成工程を含むことを特徴とする音声合成方法。

　（付記項１１）
　音声合成装置によって実行される音声合成方法であって、第１のモデルを用いて、話者の発話の特徴を表す第１の埋め込みデータと第１のテキストデータとから、合成音声に関するデータを生成し、第２のモデルを用いて、前記合成音声に関するデータから第２のテキストデータを生成し、前記第１の埋め込みデータと、前記合成音声の発話の特徴を表す第２の埋め込みデータとが類似し、かつ前記第１のテキストデータと前記第２のテキストデータが類似するように、前記第１のモデルのパラメータ及び前記第２のモデルのパラメータを更新する処理によってパラメータが更新済みの前記第１のモデルを用いて、
　話者の発話の特徴を表す第４の埋め込みデータと第５のテキストデータとから、合成音声に関するデータを生成する合成ステップをコンピュータに実行させることを特徴とする音声合成方法。

　５　学習装置
　５１　通信部
　５２　記憶部
　５３　制御部
　１ａ、２ａ、３ａ、４ａ、５ａ、６ａ、５２１　音声認識モデルパラメータ
　１ｂ、２ｂ、３ｂ、６ｂ、５２２　音声合成モデルパラメータ
　２０１、３０１、４０１、４０４、５３１、９０１　埋め込み部
　２０２、３０２、４０２、５３２、９０２　合成部
　１０１、３０３、４０３、５３３、８０１　認識部
　１０２、２０３、３０４、４０５、５３４　更新部

Claims

　第１のモデルを用いて、話者の発話の特徴を表す第１の埋め込みデータと第１のテキストデータとから、合成音声に関するデータを生成する合成部と、
　第２のモデルを用いて、前記合成音声に関するデータから第２のテキストデータを生成する認識部と、
　前記第１の埋め込みデータと、前記合成音声の発話の特徴を表す第２の埋め込みデータとが類似し、かつ前記第１のテキストデータと前記第２のテキストデータが類似するように、前記第１のモデルのパラメータ及び前記第２のモデルのパラメータを更新する更新部と、
　を有することを特徴とする学習装置。
　第１の段階において、前記合成部は、前記第１のモデルを用いて、話者の発話の特徴を表す第３の埋め込みデータと第３のテキストデータとから、合成音声に関するデータを生成し、
　前記第１の段階において、前記認識部は、前記第２のモデルを用いて、前記合成音声に関するデータから第４のテキストデータを生成し、
　前記第１の段階において、前記更新部は、前記第３のテキストデータと前記第４のテキストデータが類似するように、前記第１のモデルのパラメータを更新し、
　前記第１の段階より後の第２の段階において、前記合成部は、前記第１の段階でパラメータが更新された前記第１のモデルを用いて、話者の発話の特徴を表す第１の埋め込みデータと第１のテキストデータとから、合成音声に関するデータを生成し、
　前記第２の段階において、前記認識部は、前記第２のモデルを用いて、前記合成音声に関するデータから前記第２のテキストデータを生成し、
　前記第２の段階において、前記更新部は、前記第１の埋め込みデータと、前記合成音声の発話の特徴を表す第２の埋め込みデータとが類似し、かつ前記第１のテキストデータと前記第２のテキストデータが類似するように、前記第１のモデルのパラメータ及び前記第２のモデルのパラメータを更新することを特徴とする請求項１に記載の学習装置。
　前記更新部は、ベクトルである前記第１の埋め込みデータと、ベクトルである前記第２の埋め込みデータとの類似度が大きくなるように、前記第１のモデルのパラメータ及び前記第２のモデルのパラメータを更新することを特徴とする請求項１に記載の学習装置。
　学習装置によって実行される学習方法であって、
　第１のモデルを用いて、話者の発話の特徴を表す第１の埋め込みデータと第１のテキストデータとから、合成音声に関するデータを生成する合成工程と、
　第２のモデルを用いて、前記合成音声に関するデータから第２のテキストデータを生成する認識工程と、
　前記第１の埋め込みデータと、前記合成音声の発話の特徴を表す第２の埋め込みデータとが類似し、かつ前記第１のテキストデータと前記第２のテキストデータが類似するように、前記第１のモデルのパラメータ及び前記第２のモデルのパラメータを更新する更新工程と、
　を含むことを特徴とする学習方法。
　第１のモデルを用いて、話者の発話の特徴を表す第１の埋め込みデータと第１のテキストデータとから、合成音声に関するデータを生成する合成ステップと、
　第２のモデルを用いて、前記合成音声に関するデータから第２のテキストデータを生成する認識ステップと、
　前記第１の埋め込みデータと、前記合成音声の発話の特徴を表す第２の埋め込みデータとが類似し、かつ前記第１のテキストデータと前記第２のテキストデータが類似するように、前記第１のモデルのパラメータ及び前記第２のモデルのパラメータを更新する更新ステップと、
　をコンピュータに実行させることを特徴とする学習プログラム。
　第１のモデルを用いて、話者の発話の特徴を表す第１の埋め込みデータと第１のテキストデータとから、合成音声に関するデータを生成し、第２のモデルを用いて、前記合成音声に関するデータから第２のテキストデータを生成し、前記第１の埋め込みデータと、前記合成音声の発話の特徴を表す第２の埋め込みデータとが類似し、かつ前記第１のテキストデータと前記第２のテキストデータが類似するように、前記第１のモデルのパラメータ及び前記第２のモデルのパラメータを更新する処理によってパラメータが更新済みの前記第１のモデルを用いて、
　話者の発話の特徴を表す第３の埋め込みデータと第３のテキストデータとから、合成音声に関するデータを生成する合成部を有することを特徴とする音声合成装置。