WO2014061230A1 - 韻律モデル学習装置、韻律モデル学習方法、音声合成システム、および韻律モデル学習プログラム - Google Patents

韻律モデル学習装置、韻律モデル学習方法、音声合成システム、および韻律モデル学習プログラム Download PDF

Info

Publication number
WO2014061230A1
WO2014061230A1 PCT/JP2013/005981 JP2013005981W WO2014061230A1 WO 2014061230 A1 WO2014061230 A1 WO 2014061230A1 JP 2013005981 W JP2013005981 W JP 2013005981W WO 2014061230 A1 WO2014061230 A1 WO 2014061230A1
Authority
WO
WIPO (PCT)
Prior art keywords
clustering
prosody
learning
condition set
unit
Prior art date
Application number
PCT/JP2013/005981
Other languages
English (en)
French (fr)
Inventor
康行 三井
玲史 近藤
Original Assignee
日本電気株式会社
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 日本電気株式会社 filed Critical 日本電気株式会社
Priority to JP2014541930A priority Critical patent/JP6314828B2/ja
Publication of WO2014061230A1 publication Critical patent/WO2014061230A1/ja

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • G10L13/08Text analysis or generation of parameters for speech synthesis out of text, e.g. grapheme to phoneme translation, prosody generation or stress or intonation determination
    • G10L13/10Prosody rules derived from text; Stress or intonation

Abstract

[課題]統計的手法において安定性の高い韻律を生成する、韻律モデル学習装置、韻律モデル学習方法、音声合成システム、および韻律モデル学習プログラムが提供される。 [解決手段]本発明の韻律モデル学習装置は、データを分割する条件であり、韻律の生成に与える影響が大きい条件を1以上含む第一の条件集合を用いて、前記データのクラスタリングを行う第一のクラスタリング手段と、前記第一のクラスタリング手段によるクラスタリング結果と、前記第一の条件集合に含まれる条件とは異なる条件を1以上含む第二の条件集合とを用いて、前記データのクラスタリングを行う第二のクラスタリング手段と、前記第二のクラスタリング手段によるクラスタリング結果に基づいて、韻律モデルを学習する学習手段とを有する。

Description

韻律モデル学習装置、韻律モデル学習方法、音声合成システム、および韻律モデル学習プログラム
 本発明は、韻律モデル学習装置、韻律モデル学習方法、音声合成システム、および韻律モデル学習プログラムに関する。
 一般的なテキスト音声合成システムは、以下のように音声を合成する。テキスト音声合成システムは、まず、形態素解析等により、入力されたテキストの言語構造を解析する言語解析処理を行う。次に、テキスト音声合成システムは、その結果に基づいて、アクセント等が付与された音韻情報を生成する。さらに、テキスト音声合成システムは、発音情報に基づいて基本周波数(F0)パタンや音素継続時間長を推定することで韻律情報を生成する韻律生成処理を行う。そして、テキスト音声合成システムは、生成された韻律情報と音韻情報に基づいて音声波形を生成する波形生成処理を行う。
 韻律情報を生成する方法の一例が、非特許文献1に記されているような、統計的手法として隠れマルコフモデル(HMM)を用いた音声合成方式である。統計的手法を用いた音声合成システムは、大量の学習用データを用いて学習(生成)した韻律モデルおよび音声合成単位(パラメータ)モデルを使って、音声を生成する。
 ここで、韻律モデルを学習する手法の一例が、学習用データをクラスタリングして、クラスタごとに韻律モデルを学習する手法である。クラスタごとの韻律モデル(代表パタン)を生成し、前記代表パタンに基づいて韻律を生成する方法が、特許文献1および特許文献2に開示されている。
特開平11-95783 特開2006-189723
徳田恵一 「隠れマルコフモデルの音声合成への応用」電気通信学会技術研究報告 SP99-61 pp.47-54、1999
 学習用データをクラスタリングして代表パタンを生成する統計的手法では、学習用データ量が少ないと学習用データの不足や偏りが起こる。これは、データスパースネス問題と呼ばれる。よって、安定性の高い韻律を生成できないという課題がある。
 [発明の目的]
 本発明の目的の一つは、上記の課題に鑑みてなされたものであり、統計的手法において安定性の高い韻律を生成する、韻律モデル学習装置、韻律モデル学習方法、音声合成システム、およびプログラムを提供することである。
 本発明の韻律モデル学習装置は、データを分割する条件であり、韻律の生成に与える影響が大きい条件を1以上含む第一の条件集合を用いて、前記データのクラスタリングを行う第一のクラスタリング手段と、前記第一のクラスタリング手段によるクラスタリング結果と、前記第一の条件集合に含まれる条件とは異なる条件を1以上含む第二の条件集合とを用いて、前記データのクラスタリングを行う第二のクラスタリング手段と、前記第二のクラスタリング手段によるクラスタリング結果に基づいて、韻律モデルを学習する学習手段とを有する。
 本発明の韻律モデル学習方法は、データを分割する条件であり、韻律の生成に与える影響が大きい条件を1以上含む第一の条件集合を用いて、前記データに対して第一のクラスタリングを行い、前記第一のクラスタリングの結果と、前記第一の条件集合に含まれる条件とは異なる条件を1以上含む第二の条件集合とを用いて、前記データに対して第二のクラスタリングを行い、前記第二のクラスタリングの結果を用いて、韻律モデルを学習する。
 本発明の韻律モデル学習プログラムは、データを分割する条件であり、韻律の生成に与える影響が大きい条件を1以上含む第一の条件集合を用いて、前記データのクラスタリングを行う第一のクラスタリングステップと、前記第一のクラスタリング手段によるクラスタリング結果と、前記第一の条件集合に含まれる条件とは異なる条件を1以上含む第二の条件集合とを用いて、前記データのクラスタリングを行う第二のクラスタリングステップと、前記第二のクラスタリング手段によるクラスタリング結果を用いて、韻律モデルを学習する学習ステップとをコンピュータに実行させる。
 本発明の音声合成システムは、データを分割する条件であり、韻律の生成に与える影響が大きい条件である第一の条件を1以上含む第一の条件集合を用いて、前記データのクラスタリングを行う第一のクラスタリング手段と、前記第一のクラスタリング手段によるクラスタリング結果と、前記第一の条件集合に含まれる条件とは異なる条件を1以上含む第二の条件集合とを用いて、前記データのクラスタリングを行う第二のクラスタリング手段と、前記第二のクラスタリング手段によるクラスタリング結果を用いて、韻律モデルの学習を行う学習手段と、前記学習手段で学習された韻律モデルに基づいて、入力されたテキストに対応する合成音声の波形を生成する合成手段とを有する。
 本発明は、係る韻律モデル学習プログラムが格納された、コンピュータ読み取り可能な不揮発性の記録媒体によっても実現可能である。
 本発明によれば、安定性の高い韻律を生成可能な韻律モデルを生成できるという効果がある。
図1は、本発明の各実施形態に係るハードウェア構成の一例を表す図である。 図2は、本発明の第1の実施形態に係るブロック図である。 図3は、本発明の第1の実施形態に係るフローチャートである。 図4は、本発明の第2の実施形態に係るブロック図である。 図5は、本発明の第2の実施形態に係るフローチャートである。 図6は、本発明の第3の実施形態に係るブロック図である。 図7は、本発明の第3の実施形態に係るフローチャートである。 図8は、本発明の第4の実施形態に係るブロック図である。 図9は、本発明の第4の実施形態を説明するための第一の図である。 図10は、本発明の第4の実施形態を説明するための第二の図である。 図11は、本発明の第1の実施形態に係る第二のブロック図である。 図12は、本発明の第2の実施形態に係る第二のブロック図である。 図13は、本発明の第4の実施形態を説明するための第三の図である。
 次に、本発明の実施形態について図面を参照して詳細に説明する。なお、各実施形態について、同様な構成要素には同じ符号を付し、適宜説明を省略する。
 (第1の実施形態)
 図1は、本発明の第1の実施形態に係る韻律モデル学習装置1を実現する、コンピュータのハードウェア構成の一例を表す図である。
 図1に示すように、韻律モデル学習装置1を実現可能なコンピュータ1000は、CPU(Central Processing Unit)2、メモリ3、記憶装置4、通信IF(Interface)5、表示装置6および入力装置7を有する。記憶装置4は、例えば、HDD(Hard Disk Drive)である。通信IF5は、図示しないネットワークを介してデータの通信を行う。表示装置6は、ディスプレイ装置などである。入力装置7は、キーボードやマウス等のポインティングデバイスを含む。これらの構成要素は、バス8を通して互いに接続されており、互いにデータの入出力を行う。なお、韻律モデル学習装置1のハードウェア構成は、この構成に制限されず、適宜変更することができる。
 また、後述される、第1の実施形態に係る韻律モデル学習装置1B、第2の実施形態に係る韻律モデル学習装置1A及び韻律モデル学習装置1C、第3の実施形態に係る音声合成システム100、及び第4の実施形態に係る音声合成システム101も同様に、図1に示すハードウェア構成を備えるコンピュータ1000により実現できる。なお、各実施形態に係る韻律モデル学習装置及び音声合成システムは、図2、図4、図6、図8、図11、図12のうち、その韻律モデル学習装置又は音声合成システムに該当する図に示す機能を有する専用装置によっても実現できる。
 図2は、本発明の第1の実施形態に係る韻律モデル学習装置1の機能構成の例を表すブロック図である。
 図2を参照すると、本実施形態に係る韻律モデル学習装置1は、第一のクラスタリング部110と、第二のクラスタリング部120と、第一の学習部130とを有する。
 第一のクラスタリング部110は、第一の条件集合の少なくとも一部の条件を用いて、データのクラスタリングを行う。ここで、データとは、学習用データまたは暫定的に作成された韻律モデルのことである。韻律モデルは、第2の実施形態の説明において後述される。本実施の形態における第一のクラスタリング部110は、学習用データのクラスタリングを行う。
 ここで、第一の条件集合は、データを分割するための条件を、1以上含む条件集合である。以下の説明において、第一の条件集合が含むデータを分割するための条件は、第一の条件と表記される。第一の条件は、重要度が高い、すなわち、韻律の生成に与える影響が大きい条件である。第一の条件は、言語的あるいは音響的に重要な特徴に関する条件である。第一の条件は、例えば、アクセント位置に関する条件である。
 第一のクラスタリング部110は、第一の条件集合の少なくとも一部の条件を用いてもよい。また、第一のクラスタリング部110は、第一の条件集合の全ての条件を用いてもよい。全ての条件を用いる場合、重要度が高い条件が全てクラスタリングに用いられる。よって、後述する第一の学習部130は、より安定性が高い韻律モデルを学習することができる。
 クラスタリングの手法には、例えば、木構造クラスタリングがある。その場合、第一のクラスタリング部110は、第一の条件集合に含まれる条件を各ノードにもつ木構造を構築する。クラスタリングの手法として、K-means法(K-平均法)、ウォード法などの、その他の手法が用いられてもよい。また、第一のクラスタリング部110によるクラスタリングの手法には、数量化I類等の数量化理論も適用できる。
 第二のクラスタリング部120は、第一のクラスタリング部110によるクラスタリング結果と、第一の条件集合に含まれる条件とは異なる条件を含む第二の条件集合を用いて、学習用データのクラスタリングを行う。なお、第二の条件集合は、第一の条件集合に含まれる条件の全てまたは一部を、含んでもよい。
 第二のクラスタリング部120は、クラスタリング構造において、第一の条件集合が第二の条件集合に対して優位となるようにクラスタリングを行う。優位であるとは、クラスタリングによる分割条件の序列が上位であることである。例えば、木構造の場合には、その条件が上位構造に位置することである。
 例えば、木構造クラスタリングが用いられる場合、第二のクラスタリング部120は、第一のクラスタリング部110が構築した木構造を保ったまま、下位構造に、第二の条件集合の条件によるノードを追加していく。
 または、第二のクラスタリング部120は、第一のクラスタリング部110が構築した木構造のノードの間に、第二の条件集合の条件によるノードを追加してもよい。この場合でも、第一の条件集合が第二の条件集合に対して優位なクラスタリング構造になるように、ノードを追加することが望ましい。
 第一の学習部130は、第二のクラスタリング部120によるクラスタリング結果に基づいて、学習を行うことにより韻律モデルを生成する。例えば、第一の学習部130は、クラスタごとに、クラスタに属する学習用データから韻律モデルを生成する。
 なお、以上で説明した構成において、第一のクラスタリング部110および第二のクラスタリング部120は異なる部であるが、韻律モデル学習装置1の構成はこの構成に限られない。例えば、1つのクラスタリング部が、第一の条件集合が第二の条件集合に対してクラスタリング構造において優位となるようなクラスタリング構造を構築し、その構造に基づいてクラスタリングを行ってもよい。
 以上で説明した、本実施形態における韻律モデル学習装置1は、第一のクラスタリング部110および第二のクラスタリング部120によって、二段階のクラスタリングを行う。本実施形態における韻律モデル学習装置1は、二段階ではなく、三段階以上のクラスタリングを行ってもよい。韻律モデル学習装置1が行うクラスタリングの段階数をNと表記すると、N段階のクラスタリングにおいて、例えば、第一のクラスタリング部、第二のクラスタリング部、…、第Nのクラスタリング部が、順にクラスタリングを行う。クラスタリング部の、使用される、データを分割する条件の重要度の高さの順番は、重要度が高い方から、第一のクラスタリング部、第二のクラスタリング部、…、第Nのクラスタリング部である。
 また、第一の条件集合および第二の条件集合は、記憶部に格納されている。図2において、その記憶部は図示されていない。第一のクラスタリング部110および第二のクラスタリング部120は、記憶部に格納された第一の条件集合または第二の条件集合を参照して、クラスタリングを行う。
 図11は、上述の記憶部が図示された、本実施形態に係る韻律モデル学習装置1Bの構成を表すブロック図である。図11において、条件集合記憶部150が、第一の条件集合および第二の条件集合が格納される上述の記憶部である。韻律モデル学習装置1Bは、条件集合記憶部150が図示されていることを除き、図2に示す韻律モデル学習装置1と同じである。
 次に、本発明の第1の実施形態の動作について詳細に説明する。
 図3は、第1の実施形態の韻律モデル学習装置1の動作の一例を示すフローチャートである。
 第一のクラスタリング部110は、第一の条件集合の少なくとも一部の条件を用いて、学習用データのクラスタリングを行う(ステップS101)。第二のクラスタリング部120は、第一のクラスタリング部110のクラスタリング結果と、第一の条件集合に含まれる条件とは異なる条件で構成される第二の条件集合を用いて、学習用データのクラスタリングを行う(ステップS102)。第一の学習部130は、第二のクラスタリング部120のクラスタリング結果に基づいて、韻律モデルを学習する(ステップS103)。
 本実施形態の韻律モデル学習装置1は、安定性の高い韻律を生成可能な韻律モデルを生成できる。統計的手法におけるクラスタリングでは、データを分割するための条件が重要であるほどクラスタリング構造の上位に位置する。しかし、重要な条件が上位に位置するためには、データが十分存在する必要がある。しかし、本実施形態によれば、データが少ない場合でも、重要な条件が上位となるクラスタリング構造に基づいてクラスタリングできる。
 また、統計的手法におけるクラスタリングでは、原則的に、統計量に基づいて、クラスタリングの構造が決定される。よって、言語的あるいは音響的に重要な特徴に関する条件が使用されない恐れがあった。例えば、日本語のように声の高低(ピッチ)によってアクセントが表現される言語の場合、ピッチパタンの形状によって、発声される音声のアクセントがほぼ決定される。つまり、ピッチパタン形状が不自然だと、合成音声は訛ったような音声となってしまう。したがって、ピッチパタンや状態継続長等で表される韻律情報を生成する場合には、ピッチパタンの概形に関する条件が非常に重要である。これに関する条件が使われないと、正しいアクセントを表現するピッチパタンが生成されないことがある。
 本実施形態の韻律モデル学習装置1は、ピッチパタンの概形などの、言語的あるいは音響的に重要な特徴に関する条件を、優先的にクラスタリングに利用する。よって、本実施形態の韻律モデル学習装置1は、より安定性の高い韻律を生成可能なモデルを、生成できる。
 (第2の実施形態)
 図4は、本発明の第2の実施形態に係る韻律モデル学習装置1Aの構成例を示すブロック図である。
 図4を参照すると、本実施形態に係る韻律モデル学習装置1Aは、第一の実施形態における第一のクラスタリング部110、第二のクラスタリング部120、第一の学習部130、が、各々、第一のクラスタリング部111、第二のクラスタリング部121、第一の学習部131に置き換えられている。さらに、本実施形態に係るモデル学習装置は、第二の学習部140を有する。
 第二の学習部140は、学習用データから、暫定的に、韻律モデルを作成する。
 第一のクラスタリング部111と、第二のクラスタリング部121は、韻律モデルのクラスタリングを行う。また、第一の学習部131は、第二のクラスタリング部120のクラスタリングの結果に基づいて、韻律モデルを再学習する。第一のクラスタリング部111と、第二のクラスタリング部121と、第一の学習部131の動作は、第一の実施形態における第一のクラスタリング部110、第二のクラスタリング部120、第一の学習部130、と各々同様であるため、説明を省略する。
 さらに、本実施形態に係る韻律モデル学習装置1Aは、第1の実施形態に係る韻律モデル学習装置1と同様に、条件集合記憶部150を含んでいる。ただし、図4において、第一の条件集合および第二の条件集合を記憶する条件集合記憶部150は図示されていない。
 図12は、上述の記憶部が図示された、本実施形態に係る韻律モデル学習装置1Cの構成を表すブロック図である。図12において、条件集合記憶部150が、第一の条件集合および第二の条件集合が格納される上述の記憶部である。韻律モデル学習装置1Cは、条件集合記憶部150が図示されていることを除き、図4に示す韻律モデル学習装置1Aと同じである。
 次に、本発明の第2の実施形態の動作について詳細に説明する。
 図5は、第2の実施形態の韻律モデル学習装置1Aの動作の一例を示すフローチャートである。
 第二の学習部140は、学習用データから、韻律モデルを作成する(ステップS114)。第一のクラスタリング部110は、第一の条件集合の少なくとも一部の条件を用いて、韻律モデルのクラスタリングを行う(ステップS111)。第二のクラスタリング部120は、第二の条件集合の少なくとも一部の条件を用いて、韻律モデルのクラスタリングを行う(ステップS112)。第一の学習部130は、第二のクラスタリング部120のクラスタリング結果に基づいて、韻律モデルを再学習する(ステップS113)。
 本実施形態の韻律モデル学習装置1Aは、より安定性の高い韻律を生成可能なモデルを生成できる。韻律モデルを再学習することで、モデルを学習する精度が向上するためである。
 (第3の実施形態)
 図6は、本発明の第3の実施形態に係る音声合成システム100の構成例を示すブロック図である。図6を参照すると、本実施形態に係る音声合成システム100は、学習部10と音声合成部20によって構成されている。学習部10は、第一のクラスタリング部110と、第二のクラスタリング部120と、第一の学習部130と、韻律モデル記憶部310とを有する。音声合成部20は、言語解析部210と、韻律生成部220と、波形生成部230とを有する。
 韻律モデル記憶部310は、第一の学習部130が生成した韻律モデルを記憶する。
 音声合成部20は、入力されたテキストに対応する合成音声の波形を生成する。
 言語解析部210は、入力されたテキストを言語解析して、音韻情報を出力する。
 韻律生成部220は、韻律モデル記憶部310に記憶された韻律モデルに含まれるクラスタリング構造の情報を参照して、音韻情報が属するクラスタを判断する。さらに、韻律生成部220は、そのクラスタの韻律モデルに基づいて、韻律情報を生成する。
 波形生成部230は、生成された韻律情報に基づいて、合成音声の波形を生成する。波形生成方式には、例えば、波形接続方式、波形編集方式あるいはパラメトリック方式がある。
 本実施形態の学習部10は、図2に示す第1の実施形態の韻律モデル学習装置1に、さらに韻律モデル記憶部310が含まれた韻律モデル学習装置である。本実施形態の学習部10は、第1の実施形態の韻律モデル学習装置1と、韻律モデル記憶部310により実現されていてもよい。さらに、第1の実施形態の韻律モデル学習装置1と同様に、学習部10は、図6において図示されない、前述の条件集合記憶部150を含む。すなわち、本実施形態の学習部10は、図11に示す、第1の実施形態の韻律モデル学習装置1Bに、さらに韻律モデル記憶部310が含まれた韻律モデル学習装置である。
 本実施形態の音声合成部20は、言語解析部210と韻律生成部220と波形生成部230を有する音声合成装置によって実現されていてもよい。その音声合成装置は、韻律モデル記憶部310に格納されている韻律モデルを取得可能であればよい。例えば、その音声合成装置は、韻律モデル記憶部310を含む上述の韻律モデル学習装置に接続され、韻律モデル記憶部310に格納されている韻律モデルをその韻律モデル学習装置から受信することができればよい。
 次に、本発明の第3の実施形態の動作について詳細に説明する。
 図7は、第3の実施形態の音声合成システム100の動作の一例を示すフローチャートである。
 ステップS101~ステップS103は、第1の実施形態と同じであるため、説明を省略する。
 言語解析部210は、入力されたテキストを言語解析して、音韻情報を出力する(ステップS201)。韻律生成部220は、音韻情報が属するクラスタを判断し、韻律情報を生成する(ステップS202)。波形生成部230は、生成された韻律情報に基づいて、合成音声の波形を生成する(ステップS203)。
 以上のように、本実施形態の音声合成システム100は、安定性の高い韻律を有する合成音声波形を生成することができる。
 (第4の実施形態)
 続いて、本発明の第4の実施形態について説明する。図8は、本発明の第4の実施形態に係る音声合成システム101の構成例を示すブロック図である。
 本実施形態に係る音声合成システム101は、学習部11と音声合成部20を有する。学習部11は、第二の学習部140と、第一のクラスタリング部111と、第二のクラスタリング部121と、第一の学習部131とを有する。音声合成部20は、言語解析部210と、韻律生成部220と、波形生成部230とを有する。音声合成システム101は、さらに、韻律モデル記憶部310を有する。
 なお、本実施形態における音声合成システム101は、コンテクスト情報に依存したHMM(Hidden Markov Model)モデルを用いるものとする。本実施形態における音声合成システム101は、left-to-right型の連続分布HMMを、音素毎に1つあるいは複数の状態で連結する事によりモデル化する。コンテクスト情報とは、スペクトル、ピッチ、継続長等、音響的なパラメータに影響を与えると考えられる情報(すなわち変動要因)である。
 本実施形態における音声合成システム101は、日本語の音声を合成する。日本語は、声の高低によりアクセントを表現するピッチアクセント言語である。よって、アクセントは、主にピッチパタンと音素時間継続長が支配的となる。そこで、本実施形態では、韻律情報は、ピッチパタンと音素時間継続長の特徴量に関する情報とする。さらに、韻律情報は、パワー等を含んでもよい。また、本実施形態において、クラスタリング手法として、二分木の木構造クラスタリングが用いられる。そのため、データを分割する条件は、ノードを二分する質問となる。
 学習用データは、予め用意されている。学習用データは、音声合成で再現したい話者の音声を収録した音声波形データを少なくとも含む。さらに、学習用データは、音声波形データを分析して生成された付加情報を含む。付加情報は、発声内容のテキスト情報、音声波形データにおける各音素のコンテクスト情報、音声波形データにおける各音素の継続時間長、等間隔ごとの基本周波数情報(ピッチパタン情報)、等間隔ごとのケプストラム情報(音声波形データのスペクトル情報)、を含む。また、コンテクスト情報は、少なくともアクセント句のピッチパタン概形に関する情報を含み、先行/当該/後続の音素に関する情報、文/アクセント句/呼気段落のモーラ数に関する情報、アクセント位置に関する情報、疑問文か否かの情報等を含む。 
 第二の学習部140は、学習用データを用いて、韻律モデルを作成するための学習を行う。韻律モデルは、クラスタリングや再学習を行うために作成する暫定的なモデルである。モデルの精度は、低くなることが多い。
 第一のクラスタリング部111は、第一の条件集合を用いて、韻律モデルのクラスタリングを行う。第一の条件集合は、アクセント句におけるピッチパタンの概形に関する質問のみで構成される。クラスタリングは、音声波形データを構成する各音素のコンテクスト情報に基づいて行われる。よって、アクセント句におけるピッチパタンの概形に関する質問は、例えば「3型アクセント句の2番目の音節か?」「平板アクセント句の3番目以降の音節か?」というような質問である。
 第一のクラスタリング部111は、アクセント句におけるピッチパタンの概形に関する質問のみをノードに持つ木構造(第一段木構造)を構築する。第一の条件集合は、後述する第二の条件集合と比べて小規模な集合となっている。よって、最終的に構築される木構造に比べると、第一段木構造は小規模な構造となる。図9に、第一段木構造の例を示す。
 第二のクラスタリング部121は、第二の条件集合を用いて、第一段木構造をさらに詳細化するためのクラスタリングを行う。具体的には、第二のクラスタリング部112は、第一段木構造を保ったまま、第二の条件集合の質問によってノードを追加していく。第二の条件集合には、例えば「当該音素が“a”?」「5モーラ目の音節?」といった当該音素に関する質問や、「先行音素が無声音?」「後続音素がポーズ?」といった、先行および後続環境に関する質問が含まれる。
 このようにして、第二のクラスタリング部121は、詳細な木構造(第二段木構造)を構築する。図10に、第二段木構造の例を示す。図10に示すように、第二段木構造は、第一段木構造で構築された終端ノードに対してさらに枝分かれした構造となる。
 なお、図10において、第一段木構造の部分は省略されている。図13は、図10において省略されている第一段木構造の部分を表す図である。
 このように、第一のクラスタリング部111および第二のクラスタリング部121は、アクセント句におけるピッチパタンの形状に関する質問が上位構造にある、木構造を構築する。
 第一の学習部131は、第二のクラスタリング部121のクラスタリング結果を用いて、韻律モデルの再学習をクラスタごとに行う。韻律モデルは、木構造クラスタリングの構造情報も含む。
 第一の学習部131は、再学習によって生成された韻律モデルを、韻律モデル記憶部310に格納する。
 音声合成部20は、入力されたテキストに基づいて、合成音声の波形を生成する。言語解析部210は、入力されたテキストを言語解析し、入力されたテキストの音韻情報を生成する。韻律生成部220は、この音韻情報から、韻律モデル内に含まれる木構造の情報に基づいて各音韻情報が属するクラスタを判断する。さらに、韻律生成部220は、音韻情報が属するクラスタの韻律モデルを用いて韻律情報(例えば、ピッチパタン、音素の時間継続長)を生成する。波形生成部230は、生成された韻律情報に基づいて、合成音声の波形を生成する。
 以上の説明において、本実施形態では、第一の条件集合は、アクセント句概形に関する質問のみを含んでいる。しかし、第一の条件集合は、それに限られない。例えば、第一の条件集合は、少なくとも「当該音素が有声音?」という質問を含んでもよい。有声音か無声音であるかは、韻律を生成する際に、重要な条件である。無声音はピッチ周波数が存在しないために無声音に対してピッチを生成する必要がないが、有声音に対してピッチを生成する必要がある。
 以上の説明において、本実施形態では、ピッチアクセント言語である日本語が対象であるため、韻律情報は、ピッチパタンと音素時間継続長である。英語を代表とした、声の強弱をアクセントとするストレスアクセント言語の場合は、韻律情報は、パワーと音素継続時間長であればよい。もちろん、ピッチアクセント言語かストレスアクセント言語に関わらず、韻律情報は、ピッチパタン、音素時間継続長、パワーおよびその他の特徴量を全て含んでもよい。
 韻律モデル記憶部310が記憶している韻律モデルは、クラスタ内の実際のデータであってもよい。韻律生成部220は、クラスタ内の実際のデータを選択することによって韻律情報を生成する。例えば、韻律モデル記憶部310は、クラスタごとに、アクセント句ごとのピッチパタンの複数のデータを記憶する。各クラスタの代表ピッチパタンは、セントロイド(すなわち、重心)に最も近いデータとする。韻律生成部220は、クラスタの代表ピッチパタンに基づいて、韻律情報を生成する。
 なお、第一の学習部131が生成した韻律モデルに対して、第一のクラスタリング部111および第二のクラスタリング部121が、再度クラスタリングを行ってもよい。このように、複数回の学習とクラスタリングを繰り返すことにより、モデルを学習する精度が向上する。よって、より安定性の高い韻律を生成可能なモデルが生成される。
 本実施形態の学習部11は、図4に示す、第2の実施形態に係る韻律モデル学習装置1Aである。本実施形態の学習部11は、さらに、韻律モデル記憶部310を含んでいてもよい。その場合、本実施形態の学習部11は、第2の実施形態に係る韻律モデル学習装置1Aに、さらに音律モデル記憶部310が含まれた音律モデル学習装置である。また、第2の実施形態に係る韻律モデル学習装置1Aと同様に、本実施形態の学習部11は、図8においては図示されない、前述の条件集合記憶部150を含む。すなわち、本実施形態の学習部11は、図12に示す、第2の実施形態に係る韻律モデル学習装置1Cに、さらに音律モデル記憶部310が含まれた音律モデル学習装置である。
 本実施形態の音声合成部20は、言語解析部210と、韻律生成部220と、波形生成部230とを含む音声合成装置であってもよい。その音声合成装置は、韻律モデル記憶部310に格納されている韻律モデルを取得可能であればよい。
 以上、実施形態を参照して本願発明を説明したが、本願発明は上記実施形態に限定されるものではない。
 本願発明の構成や詳細には、例えば統計的手法の種類、クラスタリングの種類、韻律生成方式および音声合成方式等に関して、本願発明のスコープ内で当業者が理解し得る様々な変更をすることができる。
 また、上述の説明で用いた複数のフローチャートでは、複数の処理が順番に記載されているが、各実施形態で実行される処理の実行順序は、その記載の順番に制限されない。各実施形態では、図示される工程の順番を内容的に支障のない範囲で変更することができる。また、上述の各実施形態及び第4の実施形態は、内容が相反しない範囲で組み合わせることができる。
 また、韻律モデル学習装置1、韻律モデル学習装置1A、韻律モデル学習装置1B、韻律モデル学習装置1C、音声合成システム100、音声合成システム101、学習部10、学習部11、及び音声合成部20は、それぞれ、コンピュータ及びコンピュータを制御するプログラム、専用のハードウェア、又は、コンピュータ及びコンピュータを制御するプログラムと専用のハードウェアの組合せにより実現することができる。
 上で言及したように、図1は、韻律モデル学習装置1、韻律モデル学習装置1A、韻律モデル学習装置1B、韻律モデル学習装置1C、音声合成システム100、音声合成システム101、学習部10、学習部11、及び音声合成部20を実現するために使用される、コンピュータ1000のハードウェア構成の一例を表す図である。図1を参照すると、コンピュータ1000は、さらに、記録媒体9にアクセスすることができる。メモリ3と記憶装置4は、例えば、RAM(Random Access Memory)、ハードディスクなどの記憶装置である。記録媒体9は、例えば、RAM、ハードディスクなどの記憶装置、ROM(Read Only Memory)、可搬記録媒体である。記憶装置4が記録媒体9であってもよい。CPU2は、メモリ3と、記憶装置4に対して、データやプログラムの読み出しと書き込みを行うことができる。CPU2は、通信IF5を介して、例えば、学習用データを入力する装置、入力テキストを入力する装置、韻律モデルを出力する装置、及び音声波形を出力する装置にアクセスすることができる。CPU2は、記録媒体9にアクセスすることができる。記録媒体には、コンピュータ1000を韻律モデル学習装置1、韻律モデル学習装置1A、韻律モデル学習装置1B、韻律モデル学習装置1C、音声合成システム100、音声合成システム101、学習部10、学習部11、又は音声合成部20として動作させるプログラムが格納されている。
 CPU2は、記録媒体9に格納されている、コンピュータ1000を韻律モデル学習装置1、韻律モデル学習装置1A、韻律モデル学習装置1B、韻律モデル学習装置1C、音声合成システム100、音声合成システム101、学習部10、学習部11、又は音声合成部20として動作させるプログラムを、メモリ3にロードする。そして、CPU2が、メモリ3にロードされたプログラムを実行することにより、コンピュータ1000は韻律モデル学習装置1、韻律モデル学習装置1A、韻律モデル学習装置1B、韻律モデル学習装置1C、音声合成システム100、音声合成システム101、学習部10、学習部11、又は音声合成部20として動作する。
 第一のクラスタリング部110、第一のクラスタリング部111、第二のクラスタリング部120、第二のクラスタリング部121、第一の学習部130、第一の学習部131、第二の学習部140、言語解析部210、韻律生成部220、波形生成部230は、例えば、プログラムを記憶する記録媒体9からメモリ3に読み込まれた、各部の機能を実現するための専用のプログラムと、そのプログラムを実行するCPU2により実現することができる。また、条件集合記憶部150、韻律モデル記憶部310は、コンピュータが含むメモリ3やハードディスク装置等の記憶装置4により実現することができる。あるいは、第一のクラスタリング部110、第一のクラスタリング部111、第二のクラスタリング部120、第二のクラスタリング部121、第一の学習部130、第一の学習部131、第二の学習部140、条件集合記憶部150、言語解析部210、韻律生成部220、波形生成部230、韻律モデル記憶部310の一部又は全部を、各部の機能を実現する専用の回路によって実現することもできる。
 また、上記の実施形態の一部又は全部は、以下の付記のようにも記載されうるが、以下には限られない。
 (付記1)
 データを分割する条件であり、韻律の生成に与える影響が大きい条件を1以上含む第一の条件集合を用いて、前記データのクラスタリングを行う第一のクラスタリング手段と、
 前記第一のクラスタリング手段によるクラスタリング結果と、前記第一の条件集合に含まれる条件とは異なる条件を1以上含む第二の条件集合とを用いて、前記データのクラスタリングを行う第二のクラスタリング手段と、
 前記第二のクラスタリング手段によるクラスタリング結果に基づいて、韻律モデルを学習する学習手段と
 を有する韻律モデル学習装置。
 (付記2)
 付記1に記載の韻律モデル学習装置において、
 前記第一のクラスタリング手段は、前記第一の条件集合に含まれる全ての条件を用いてクラスタリングを行う
 韻律モデル学習装置。
 (付記3)
 付記1または2に記載の韻律モデル学習装置において、
 前記第一の条件集合は、少なくとも、アクセント位置に関する条件を含む
 韻律モデル学習装置。
 (付記4)
 付記1乃至3のいずれかに記載の韻律モデル学習装置において、
 前記第二のクラスタリング手段は、前記第一のクラスタリング手段のクラスタリング結果を上位構造とし、前記第二の条件集合を用いて下位構造をクラスタリングする
 韻律モデル学習装置。
 (付記5)
 付記1乃至4のいずれかに記載の韻律モデル学習装置において、
 前記第一の条件集合は、少なくとも、当該音素が有声音であるか否かに関する質問を含む
 韻律モデル学習装置。
 (付記6)
 データを分割する条件であり、韻律の生成に与える影響が大きい条件を1以上含む第一の条件集合を用いて、前記データに対して第一のクラスタリングを行い、
 前記第一のクラスタリングの結果と、前記第一の条件集合に含まれる条件とは異なる条件を1以上含む第二の条件集合とを用いて、前記データに対して第二のクラスタリングを行い、
 前記第二のクラスタリングの結果を用いて、韻律モデルを学習する
 韻律モデル学習方法。
 (付記7)
 データを分割する条件であり、韻律の生成に与える影響が大きい条件を1以上含む第一の条件集合を用いて、前記データのクラスタリングを行う第一のクラスタリングステップと、
 前記第一のクラスタリングステップによるクラスタリング結果と、前記第一の条件集合に含まれる条件とは異なる条件を1以上含む第二の条件集合とを用いて、前記データのクラスタリングを行う第二のクラスタリングステップと、
 前記第二のクラスタリングステップによるクラスタリング結果を用いて、韻律モデルを学習する学習ステップと
 をコンピュータに実行させる韻律モデル学習プログラム。
 (付記8)
 データを分割する条件であり、韻律の生成に与える影響が大きい条件である第一の条件を1以上含む第一の条件集合を用いて、前記データのクラスタリングを行う第一のクラスタリング手段と、
 前記第一のクラスタリング手段によるクラスタリング結果と、前記第一の条件集合に含まれる条件とは異なる条件を1以上含む第二の条件集合とを用いて、前記データのクラスタリングを行う第二のクラスタリング手段と、
 前記第二のクラスタリング手段によるクラスタリング結果を用いて、韻律モデルの学習を行う学習手段と、
 前記学習手段で学習された韻律モデルに基づいて、入力されたテキストに対応する合成音声の波形を生成する合成手段と
 を有する音声合成システム。
 この出願は、2012年10月16日に出願された日本出願特願2012-228663を基礎とする優先権を主張し、その開示の全てをここに取り込む。
 1、1A、1B、1C  韻律モデル学習装置
 2  CPU
 3  メモリ
 4  HDD
 5  通信IF
 6  表示装置
 7  入力装置
 8  バス
 10、11  学習部
 20  音声合成部
 100、101  音声合成システム
 110、111  第一のクラスタリング部
 120、121  第二のクラスタリング部
 130、131  第一の学習部
 140  第二の学習部
 160  条件集合記憶部
 210  言語解析部
 220  韻律生成部
 230  波形生成部
 310  韻律モデル記憶部
 1000  コンピュータ

Claims (8)

  1.  データを分割する条件であり、韻律の生成に与える影響が大きい条件を1以上含む第一の条件集合を用いて、前記データのクラスタリングを行う第一のクラスタリング手段と、
     前記第一のクラスタリング手段によるクラスタリング結果と、前記第一の条件集合に含まれる条件とは異なる条件を1以上含む第二の条件集合とを用いて、前記データのクラスタリングを行う第二のクラスタリング手段と、
     前記第二のクラスタリング手段によるクラスタリング結果に基づいて、韻律モデルを学習する学習手段と
     を有する韻律モデル学習装置。
  2.  前記第一のクラスタリング手段は、前記第一の条件集合に含まれる全ての条件を用いてクラスタリングを行う
     請求項1に記載の韻律モデル学習装置。
  3.  前記第一の条件集合は、少なくとも、アクセント位置に関する条件を含む
     請求項1または2に記載の韻律モデル学習装置。
  4.  前記第二のクラスタリング手段は、前記第一のクラスタリング手段のクラスタリング結果を上位構造とし、前記第二の条件集合を用いて下位構造をクラスタリングする
     請求項1乃至3のいずれかに記載の韻律モデル学習装置。
  5.  前記第一の条件集合は、少なくとも、当該音素が有声音であるか否かに関する質問を含む
     請求項1乃至4のいずれかに記載の韻律モデル学習装置。
  6.  データを分割する条件であり、韻律の生成に与える影響が大きい条件を1以上含む第一の条件集合を用いて、前記データに対して第一のクラスタリングを行い、
     前記第一のクラスタリングの結果と、前記第一の条件集合に含まれる条件とは異なる条件を1以上含む第二の条件集合とを用いて、前記データに対して第二のクラスタリングを行い、
     前記第二のクラスタリングの結果を用いて、韻律モデルを学習する
     韻律モデル学習方法。
  7.  データを分割する条件であり、韻律の生成に与える影響が大きい条件を1以上含む第一の条件集合を用いて、前記データのクラスタリングを行う第一のクラスタリングステップと、
     前記第一のクラスタリングステップによるクラスタリング結果と、前記第一の条件集合に含まれる条件とは異なる条件を1以上含む第二の条件集合とを用いて、前記データのクラスタリングを行う第二のクラスタリングステップと、
     前記第二のクラスタリングステップによるクラスタリング結果を用いて、韻律モデルを学習する学習ステップと
     をコンピュータに実行させる韻律モデル学習プログラム。
  8.  データを分割する条件であり、韻律の生成に与える影響が大きい条件である第一の条件を1以上含む第一の条件集合を用いて、前記データのクラスタリングを行う第一のクラスタリング手段と、
     前記第一のクラスタリング手段によるクラスタリング結果と、前記第一の条件集合に含まれる条件とは異なる条件を1以上含む第二の条件集合とを用いて、前記データのクラスタリングを行う第二のクラスタリング手段と、
     前記第二のクラスタリング手段によるクラスタリング結果を用いて、韻律モデルの学習を行う学習手段と、
     前記学習手段で学習された韻律モデルに基づいて、入力されたテキストに対応する合成音声の波形を生成する合成手段と
     を有する音声合成システム。
PCT/JP2013/005981 2012-10-16 2013-10-08 韻律モデル学習装置、韻律モデル学習方法、音声合成システム、および韻律モデル学習プログラム WO2014061230A1 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2014541930A JP6314828B2 (ja) 2012-10-16 2013-10-08 韻律モデル学習装置、韻律モデル学習方法、音声合成システム、および韻律モデル学習プログラム

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
JP2012228663 2012-10-16
JP2012-228663 2012-10-16

Publications (1)

Publication Number Publication Date
WO2014061230A1 true WO2014061230A1 (ja) 2014-04-24

Family

ID=50487810

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/JP2013/005981 WO2014061230A1 (ja) 2012-10-16 2013-10-08 韻律モデル学習装置、韻律モデル学習方法、音声合成システム、および韻律モデル学習プログラム

Country Status (2)

Country Link
JP (1) JP6314828B2 (ja)
WO (1) WO2014061230A1 (ja)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104867490A (zh) * 2015-06-12 2015-08-26 百度在线网络技术(北京)有限公司 韵律结构预测方法和装置
CN116978354A (zh) * 2023-08-01 2023-10-31 支付宝(杭州)信息技术有限公司 韵律预测模型的训练方法及装置、语音合成方法及装置

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2007233216A (ja) * 2006-03-03 2007-09-13 Advanced Telecommunication Research Institute International 素片接続型音声合成装置及びコンピュータプログラム
JP2009069179A (ja) * 2007-09-10 2009-04-02 Toshiba Corp 基本周波数パターン生成装置、基本周波数パターン生成方法及びプログラム
JP2010237323A (ja) * 2009-03-30 2010-10-21 Toshiba Corp 音声モデル生成装置、音声合成装置、音声モデル生成プログラム、音声合成プログラム、音声モデル生成方法および音声合成方法

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH0968993A (ja) * 1995-08-31 1997-03-11 Meidensha Corp 音声合成における韻律制御方法
CN1156819C (zh) * 2001-04-06 2004-07-07 国际商业机器公司 由文本生成个性化语音的方法
JP4705535B2 (ja) * 2006-08-31 2011-06-22 日本放送協会 音響モデル作成装置及び音声認識装置並びに音響モデル作成プログラム
GB2478314B (en) * 2010-03-02 2012-09-12 Toshiba Res Europ Ltd A speech processor, a speech processing method and a method of training a speech processor

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2007233216A (ja) * 2006-03-03 2007-09-13 Advanced Telecommunication Research Institute International 素片接続型音声合成装置及びコンピュータプログラム
JP2009069179A (ja) * 2007-09-10 2009-04-02 Toshiba Corp 基本周波数パターン生成装置、基本周波数パターン生成方法及びプログラム
JP2010237323A (ja) * 2009-03-30 2010-10-21 Toshiba Corp 音声モデル生成装置、音声合成装置、音声モデル生成プログラム、音声合成プログラム、音声モデル生成方法および音声合成方法

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
JUNICHI YAMAGISHI ET AL.: "Modeling of Various Speaking Styles and Emotions for HMM-Based Speech Synthesis", PROC. EUROSPEECH 2003, 1 September 2003 (2003-09-01), pages 2461 - 2464 *
MATTHEW GIBSON: "Two-Pass Decision Tree Construction for Unsupervised Adaptation of HMM-Based Synthesis Models", PROC. INTERSPEECH 2009, 6 September 2009 (2009-09-06), pages 1791 - 1794 *
YASUYUKI MITSUI ET AL.: "Prosody Generation based on HMM using Tow-stage Clustering", IEICE TECHNICAL REPORT, vol. 112, no. 281, 8 November 2012 (2012-11-08), pages 49 - 54 *

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104867490A (zh) * 2015-06-12 2015-08-26 百度在线网络技术(北京)有限公司 韵律结构预测方法和装置
CN104867490B (zh) * 2015-06-12 2017-03-22 百度在线网络技术(北京)有限公司 韵律结构预测方法和装置
CN116978354A (zh) * 2023-08-01 2023-10-31 支付宝(杭州)信息技术有限公司 韵律预测模型的训练方法及装置、语音合成方法及装置
CN116978354B (zh) * 2023-08-01 2024-04-30 支付宝(杭州)信息技术有限公司 韵律预测模型的训练方法及装置、语音合成方法及装置

Also Published As

Publication number Publication date
JPWO2014061230A1 (ja) 2016-09-05
JP6314828B2 (ja) 2018-04-25

Similar Documents

Publication Publication Date Title
JP4328698B2 (ja) 素片セット作成方法および装置
Tokuda et al. An HMM-based speech synthesis system applied to English
US8571871B1 (en) Methods and systems for adaptation of synthetic speech in an environment
US9495954B2 (en) System and method of synthetic voice generation and modification
JP4455610B2 (ja) 韻律パタン生成装置、音声合成装置、プログラムおよび韻律パタン生成方法
JP6342428B2 (ja) 音声合成装置、音声合成方法およびプログラム
US8380508B2 (en) Local and remote feedback loop for speech synthesis
JP2007249212A (ja) テキスト音声合成のための方法、コンピュータプログラム及びプロセッサ
JP2011013454A (ja) 歌唱合成用データベース生成装置、およびピッチカーブ生成装置
Qian et al. Improved prosody generation by maximizing joint probability of state and longer units
Kayte et al. Hidden Markov model based speech synthesis: A review
King A beginners’ guide to statistical parametric speech synthesis
JP5929909B2 (ja) 韻律生成装置、音声合成装置、韻律生成方法および韻律生成プログラム
JPWO2006134736A1 (ja) 音声合成装置、音声合成方法およびプログラム
Lorenzo-Trueba et al. Simple4all proposals for the albayzin evaluations in speech synthesis
JP6314828B2 (ja) 韻律モデル学習装置、韻律モデル学習方法、音声合成システム、および韻律モデル学習プログラム
JP6669081B2 (ja) 音声処理装置、音声処理方法、およびプログラム
JP2013164609A (ja) 歌唱合成用データベース生成装置、およびピッチカーブ生成装置
JP4829605B2 (ja) 音声合成装置および音声合成プログラム
JP2008191477A (ja) ハイブリッド型音声合成方法、及びその装置とそのプログラムと、その記憶媒体
Yeh et al. A consistency analysis on an acoustic module for Mandarin text-to-speech
Astrinaki et al. sHTS: A streaming architecture for statistical parametric speech synthesis
JPWO2009044596A1 (ja) 音声合成装置、音声合成方法および音声合成プログラム
Ogbureke et al. Explicit duration modelling in HMM-based speech synthesis using a hybrid hidden Markov model-Multilayer Perceptron
Klabbers Text-to-Speech Synthesis

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 13846689

Country of ref document: EP

Kind code of ref document: A1

ENP Entry into the national phase

Ref document number: 2014541930

Country of ref document: JP

Kind code of ref document: A

NENP Non-entry into the national phase

Ref country code: DE

122 Ep: pct application non-entry in european phase

Ref document number: 13846689

Country of ref document: EP

Kind code of ref document: A1