JPWO2012164835A1

JPWO2012164835A1 - 韻律生成装置、音声合成装置、韻律生成方法および韻律生成プログラム

Info

Publication number: JPWO2012164835A1
Application number: JP2013517837A
Authority: JP
Inventors: 康行三井; 玲史近藤; 正徳加藤
Original assignee: NEC Corp
Current assignee: NEC Corp
Priority date: 2011-05-30
Filing date: 2012-05-10
Publication date: 2015-02-23
Anticipated expiration: 2032-05-10
Also published as: US20140012584A1; JP5929909B2; US9324316B2; WO2012164835A1

Abstract

不要に大量の学習データを収集することなく、自然性の高い音声合成を実現する韻律情報を生成する韻律生成装置を提供する。データ分割手段８１は、音声波形の特徴量を示す学習データの集合である学習用データベースのデータ空間を分割する。疎密情報抽出手段８２は、データ分割手段８１によって分割された各部分空間における学習データの情報量の疎密状態を示す疎密情報を抽出する。韻律情報生成方式選択手段８３は、疎密情報に基づいて、韻律情報生成方式として、統計的手法により韻律情報を生成する第１の方式と、経験則に基づいた規則により韻律情報を生成する第２の方式のいずれかを選択する。

Description

本発明は、音声合成処理に用いる韻律情報を生成する韻律生成装置、韻律生成方法、韻律生成プログラム、および、音声波形を生成する音声合成装置、音声合成方法、音声合成プログラムに関する。

近年、テキスト音声合成技術（Text-to-Speech：ＴＴＳ）の進歩により、人間らしさを備えた合成音声を用いたサービスや製品が数多くみられるようになってきた。一般的に、ＴＴＳでは、まず入力されたテキストの言語構造等が形態素解析等により解析される（言語解析処理）。そして、その結果を元にアクセント等が付与された音韻情報が生成される。さらに、発音情報に基づいて基本周波数パタンや音素継続時間長が推定され（韻律生成処理）、生成された韻律情報と音韻情報に基づいて最終的に波形が生成される（波形生成処理）。以下、基本周波数をＦ０と記し、基本周波数パタンをＦ０パタンと記す。韻律生成処理で生成される韻律情報は、合成音声の声の高さやテンポを指定する情報であり、例えば、Ｆ０パタンと、各音素の継続時間長の情報を含む。

前述の韻律生成処理の方法として、Ｆ０パタンを単純なルールで表現できるようにモデル化し、そのルールを用いて韻律情報を生成する方法が知られている（例えば、非特許文献１参照）。非特許文献１に記載された方法のようにルールを用いる韻律情報の生成方法は、単純なモデルでＦ０パタンを生成できるため広く使われてきた。

また、近年では統計的手法を用いた音声合成方法が注目されている。その代表的な手法が、統計的手法として隠れマルコフモデル（Hidden Markov Model ：ＨＭＭ）を用いたＨＭＭ音声合成である（例えば、非特許文献２参照）。ＨＭＭ音声合成では、大量の学習データを用いてモデル化した韻律モデルおよび音声合成単位（パラメータ）モデルを使って音声を生成する。ＨＭＭ音声合成では、実際の人間が発声した音声を学習データとしているため、非特許文献１に記載されたルールを用いた韻律情報の生成方法に比べて、より人間らしい韻律情報を生成できる。

藤崎博也、須藤寛、「日本語単語アクセントの基本周波数パタンとその生成機構のモデル」、社団法人日本音響学会、日本音響学会誌、２７巻、９号、ｐｐ．４４５−４５２、１９７１年徳田恵一、「隠れマルコフモデルの音声合成への応用」、社団法人電子情報通信学会、電子情報通信学会技術研究報告、ＳＰ９９−６１、ｐｐ．４７−５４、１９９９年

非特許文献１に記載された方法のようにルールを用いた韻律情報の生成方法では、単純なモデルでＦ０パタンを生成できる。しかし、韻律が不自然で、合成音声が機械的になってしまうという問題があった。

これに対し、非特許文献２に記載された方法のように、統計的手法を用いた韻律生成処理では、実際の人間が発声した音声を学習データとするため、より人間らしい韻律情報を生成できる。

しかし、統計的手法を用いた韻律生成処理では、主に学習データの情報量を基準として学習データ空間を分割（クラスタリング）する。そのため、学習データ空間内に情報量の疎な部分と密な部分とが生じ、学習データ空間内の疎な部分（換言すれば、学習データが少ない部分）では、正しいＦ０パタンが生成されないという問題がある。例えば、日本語における「人（hi to ）」（２モーラ）、日本語における「単語（ta n go ）」（３モーラ）、日本語における「音声（o n se i）」（４モーラ）といった数モーラ程度の学習データについては十分な量があるため、正しいＦ０パタンが生成される。一方、日本語における「アルバートアインシュタイン医科大学（a ru ba- to a i n syu ta i n i ka da i ga ku）」（18モーラ）のような学習データは極端に数が少ないか、あるいは存在しないおそれがある。そのため、このような単語を含むテキストが入力された場合、Ｆ０パタンが乱れてしまい、アクセント位置がずれる等の問題が発生する。

この問題を解決する方法の１つとして、さらに大量のデータでモデル学習するという方法が考えられる。しかし、大量の学習データを収集することは困難であり、また、どのくらいのデータ量を収集すれば十分であるかが不明であるため、現実的ではない。

そこで、本発明は、不要に大量の学習データを収集することなく、自然性の高い音声合成を実現する韻律情報を生成する韻律生成装置、韻律生成方法、韻律生成プログラム、音声合成装置、音声合成方法および音声合成プログラムを提供することを目的とする。

本発明による韻律生成装置は、音声波形の特徴量を示す学習データの集合である学習用データベースのデータ空間を分割するデータ分割手段と、データ分割手段によって分割された各部分空間における学習データの情報量の疎密状態を示す疎密情報を抽出する疎密情報抽出手段と、その疎密情報に基づいて、韻律情報生成方式として、統計的手法により韻律情報を生成する第１の方式と、経験則に基づいた規則により韻律情報を生成する第２の方式のいずれかを選択する韻律情報生成方式選択手段とを備えることを特徴とする。

また、本発明による音声合成装置は、音声波形の特徴量を示す学習データの集合である学習用データベースのデータ空間を分割するデータ分割手段と、データ分割手段によって分割された各部分空間における学習データの情報量の疎密状態を示す疎密情報を抽出する疎密情報抽出手段と、その疎密情報に基づいて、韻律情報生成方式として、統計的手法により韻律情報を生成する第１の方式と、経験則に基づいた規則により韻律情報を生成する第２の方式のいずれかを選択する韻律情報生成方式選択手段と、韻律情報生成方式選択手段に選択された韻律情報生成方式で韻律情報を生成する韻律生成手段と、その韻律情報を用いて音声波形を生成する波形生成手段とを備えることを特徴とする。

また、本発明による韻律生成方法は、音声波形の特徴量を示す学習データの集合である学習用データベースのデータ空間を分割し、分割により得られた各部分空間における学習データの情報量の疎密状態を示す疎密情報を抽出し、その疎密情報に基づいて、韻律情報生成方式として、統計的手法により韻律情報を生成する第１の方式と、経験則に基づいた規則により韻律情報を生成する第２の方式のいずれかを選択することを特徴とする。

また、本発明による音声合成方法は、音声波形の特徴量を示す学習データの集合である学習用データベースのデータ空間を分割し、分割により得られた各部分空間における学習データの情報量の疎密状態を示す疎密情報を抽出し、その疎密情報に基づいて、韻律情報生成方式として、統計的手法により韻律情報を生成する第１の方式と、経験則に基づいた規則により韻律情報を生成する第２の方式のいずれかを選択し、選択した韻律情報生成方式で韻律情報を生成し、その韻律情報を用いて音声波形を生成することを特徴とする。

また、本発明による韻律生成プログラムは、コンピュータに、音声波形の特徴量を示す学習データの集合である学習用データベースのデータ空間を分割するデータ分割処理、データ分割処理で分割された各部分空間における学習データの情報量の疎密状態を示す疎密情報を抽出する疎密情報抽出処理、および、その疎密情報に基づいて、韻律情報生成方式として、統計的手法により韻律情報を生成する第１の方式と、経験則に基づいた規則により韻律情報を生成する第２の方式のいずれかを選択する韻律情報生成方式選択処理を実行させることを特徴とする。

また、本発明による音声合成プログラムは、コンピュータに、音声波形の特徴量を示す学習データの集合である学習用データベースのデータ空間を分割するデータ分割処理、データ分割処理で分割された各部分空間における学習データの情報量の疎密状態を示す疎密情報を抽出する疎密情報抽出処理、その疎密情報に基づいて、韻律情報生成方式として、統計的手法により韻律情報を生成する第１の方式と、経験則に基づいた規則により韻律情報を生成する第２の方式のいずれかを選択する韻律情報生成方式選択処理、韻律情報生成方式選択処理で選択された韻律情報生成方式で韻律情報を生成する韻律生成処理、および、その韻律情報を用いて音声波形を生成する波形生成処理を実行させることを特徴とする。

本発明によれば、不要に大量の学習データを収集することなく、自然性の高い音声合成を実現する韻律情報を生成することができる。

本発明の第１の実施形態の韻律生成装置の主要部を示すブロック図である。本発明の第１の実施形態の韻律生成装置をより具体的に示すブロック図である。本発明の第１の実施形態の動作の例を示すフローチャートである。本発明の第２の実施形態の韻律生成装置の例を示すブロック図である。本発明の第２の実施形態の動作の例を示すフローチャートである。第１の実施例の音声合成装置を示すブロック図である。二分木構造クラスタリングで作成された決定木構造の例を示す模式図である。クラスタリングされた学習データ空間の例を示す模式図である。第２の実施例の音声合成装置を示すブロック図である。本発明の韻律生成装置の最小構成の例を示すブロック図である。本発明の音声合成装置の最小構成の例を示すブロック図である。

以下、本発明の実施形態を図面を参照して説明する。

実施形態１．
図１は、本発明の第１の実施形態の韻律生成装置の主要部を示すブロック図である。また、図２は、本発明の第１の実施形態の韻律生成装置をより具体的に示すブロック図である。本発明の第１の実施形態の韻律生成装置は、データ空間分割部１と、疎密情報抽出部２と、韻律生成方式選択部３とを備える。より具体的には、本実施形態の韻律生成装置は、図１に示す主要部に加え、さらに、韻律学習部９と、韻律生成部６とを備える（図２参照。）。

データ空間分割部１は、学習用データベース２１の特徴量空間を分割する。

学習用データベース２１は、音声波形データから抽出された特徴量である学習データの集合である。この特徴量は、音声特徴および言語特徴を示す数値あるいは文字列で表現される情報であり、少なくとも、音声波形におけるＦ０（基本周波数）の時間変化（すなわち、Ｆ０パタン）の情報を含む。さらに、学習用データベース２１は、特徴量として、スペクトル情報、音素セグメンテーション情報、音声データの発生内容を示す言語情報を含むことが好ましい。

データ空間分割部１は、例えば、情報量を基準とした二分木構造クラスタリング等の方法によって、学習用データベース２１の特徴量空間を分割すればよい。

疎密情報抽出部２は、データ空間分割部１によって分割された各部分空間における学習データの情報量の疎密状態を示す情報（疎密の程度を示す情報）を抽出する。以下、この情報を疎密情報と記す。疎密情報として、例えば、分割により得られた部分空間に属する学習データ群の特徴量ベクトルの平均値や分散値を用いることができる。疎密情報抽出部２は、特徴量としてアクセント句のモーラ数やアクセント核の相対位置を用いて、疎密情報を抽出してもよい。

学習用データベース２１は、疎密情報を生成するために用いられる。また、本実施形態の韻律生成装置は、疎密情報を生成するために用いる学習用データベース２１とは別に、韻律生成モデル２３（図２参照。）を生成するための学習用データベース２２（以下、韻律学習用データベース２２と記す。図２参照。）も保持する。なお、韻律生成装置は、学習用データベース２１を記憶した記憶手段（図示略）や、韻律学習用データベース２２を記憶した記憶手段（図示略）を備えることにより、学習用データベース２１や韻律学習用データベース２２を保持すればよい。

韻律学習部９（図２参照。）は、韻律学習用データベース２２を用いて、韻律生成モデル２３を生成する。韻律生成モデル２３は、韻律情報を生成するために用いられる統計モデルであり、音声と韻律情報との関係を表す。例えば、韻律生成モデル２３は、統計的学習の結果として、「このような音声は、概ねこのような韻律情報を持つ」という音声と韻律情報との関係を表す。韻律学習部９は、韻律学習用データベース２２を統計的手法で機械学習することによって、韻律生成モデル２３を生成する。

韻律生成方式選択部３は、疎密情報抽出部２で抽出された疎密情報に基づいて、音声合成に用いる韻律情報の生成方式を選択する。既に説明したように、韻律情報は、合成音声の声の高さやテンポを指定する情報である。韻律情報は、韻律を表現する特徴量として、少なくとも、基本周波数の時間変化（すなわち、Ｆ０パタン）を含む。韻律生成方式選択部３によって選択される選択候補となる韻律情報の生成方式は、ＨＭＭに代表される統計的手法により韻律情報を生成する方式（以下、統計モデルベース方式と記す。）と、経験則に基づいた規則により韻律情報を生成する方式（以下、ルールベース方式と記す。）である。韻律生成方式選択部３は、例えば、生成しようとする合成音声の韻律情報が、学習データの少ない部分空間（学習データの疎な部分空間）に属する特徴量で表現される場合には、ルールベース方式を選択し、その他の場合には、統計モデルベース方式を選択すればよい。この場合、通常、統計モデルベース方式を選択し、生成しようとする合成音声の韻律情報が学習データの疎な部分空間に属する特徴量で表現されるという条件が満たされたときにルールベース方式を選択すればよい。

韻律生成部６（図２参照）は、韻律生成方式選択部３によって選択された韻律情報選択方式で、韻律情報を生成する。具体的には、韻律生成部６は、統計モデルベース方式が選択された場合には、韻律生成モデル２３を用いて韻律情報を生成し、ルールベース方式が選択された場合には、韻律情報を生成するためのルールが記述された韻律生成規則辞書８を用いて韻律情報を生成する。韻律生成装置は、韻律生成規則辞書８を記憶した記憶手段（図示略）を備えることにより、韻律生成規則辞書８を保持すればよい。

データ空間分割部１、疎密情報抽出部２、韻律生成方式選択部３、韻律学習部９および韻律生成部６は、例えば、韻律生成プログラムに従って動作するコンピュータのＣＰＵによって実現される。この場合、例えば、コンピュータのプログラム記憶装置（図示略）が韻律生成プログラムを記憶し、ＣＰＵがそのプログラムを読み込み、そのプログラムに従って、データ空間分割部１、疎密情報抽出部２、韻律生成方式選択部３、韻律学習部９および韻律生成部６として動作すればよい。また、データ空間分割部１、疎密情報抽出部２、韻律生成方式選択部３、韻律学習部９および韻律生成部６が別々のハードウェアで実現されていてもよい。

図３は、本発明の第１の実施形態の動作の例を示すフローチャートである。第１の実施形態では、まず、データ空間分割部１が、学習用データベース２１の特徴量空間を分割する（ステップＳ１）。次に、疎密情報抽出部２は、ステップＳ１で分割された各部分空間における学習データの情報量の疎密状態を示す疎密情報を抽出する（ステップＳ２）。疎密情報抽出部２は、特徴量の平均値や分散値を疎密情報として求めてよい。また、特徴量として、アクセント句のモーラ数やアクセント核の相対位置を用いてもよい。

次に、韻律生成方式選択部３は、疎密情報に基づいて、音声合成に用いる韻律情報の生成方式を選択する（ステップＳ３）。そして、韻律生成部６（図２参照）は、ステップＳ３で韻律生成方式選択部３によって選択された韻律情報選択方式で、韻律情報を生成する（ステップＳ４）。ステップＳ３で統計モデルベース方式が選択された場合には、韻律生成部６は、韻律生成モデル２３を用いて統計モデルベース方式で韻律情報を生成する。また、ステップＳ３でルールベース方式が選択された場合には、韻律生成部６は、韻律生成規則辞書８を用いてルールベース方式で韻律情報を生成する。なお、図３に示すフローチャートでは図示を省略しているが、韻律学習部９は、ステップＳ４よりも前に韻律生成モデル２３を生成しておけばよい。

本実施形態によれば、疎な部分空間に属するような韻律情報においてはルールベース方式が選択されるため、疎な部分空間に関して統計モデルベース方式を用いない。従って、疎な部分空間に対応するために大量の学習データを収集する必要はなく、学習データ不足を要因とした音声合成の不安定性を回避することができる。また、通常は、統計モデルベース方式により韻律情報を生成するので、自然性の高い合成音声を生成することが可能となる。

なお、図２に示す要素に加えて、韻律生成部６で生成された韻律情報を用いて音声波形を生成する波形生成部をさらに備えていてもよい。このように、波形生成部をさらに備えた構成とした場合、本実施形態における韻律生成装置を音声合成装置と称することもできる。また、上記の波形生成部も、例えば、プログラムに従って動作するコンピュータのＣＰＵによって実現される。すなわち、コンピュータのＣＰＵが、プログラムに従って、データ空間分割部１、疎密情報抽出部２、韻律生成方式選択部３、韻律学習部９、韻律生成部６および上記の波形生成部として動作してもよい。このプログラムは、音声合成プログラムと称することができる。

実施形態２．
図４は、本発明の第２の実施形態の韻律生成装置の例を示すブロック図である。第１の実施形態と同様の要素に関しては、図１、図２に示す要素と同一の符号を付し、説明を省略する。本発明の第２の実施形態の韻律生成装置は、データ空間分割部１と、疎密情報抽出部２と、韻律生成方式選択部３と、韻律学習部４と、韻律生成部６とを備える。

韻律学習部４は、データ空間分割部１に分割された学習用データベース空間内で、韻律生成モデルを学習する。

本実施形態では、韻律学習部４は、疎密情報を生成するために用いる学習用データベース２１を用いて、韻律生成モデル２３を生成する。学習用データベース２１とは別個に保持された韻律学習用データベース２２から韻律生成モデル２３を生成する第１の実施形態の韻律学習部９とは、この点で異なる。韻律生成モデル２３は、韻律生成方式選択部３によって統計モデルベース方式が選択され、韻律生成部６が統計モデルベース方式で韻律情報を生成する際に用いられる。

データ空間分割部１、疎密情報抽出部２、韻律生成方式選択部３および韻律生成部６は、第１の実施形態と同様である。

データ空間分割部１、疎密情報抽出部２、韻律生成方式選択部３、韻律学習部４および韻律生成部６は、例えば、韻律生成プログラムに従って動作するコンピュータのＣＰＵによって実現される。この場合、ＣＰＵが韻律生成プログラムに従ってデータ空間分割部１、疎密情報抽出部２、韻律生成方式選択部３、韻律学習部４および韻律生成部６として動作すればよい。また、これらの各要素が別々のハードウェアで実現されていてもよい。

図５は、本発明の第２の実施形態の動作の例を示すフローチャートである。ステップＳ１〜Ｓ４の動作は、第１の実施形態と同様であり、詳細な説明を省略する。

第２の実施形態では、ステップＳ１の後、韻律学習部４は、データ空間分割部１に分割された学習用データベース空間内で、韻律生成モデル２３を学習する（ステップＳ５）。韻律生成部６は、韻律生成方式選択部３によって選択された韻律情報選択方式で韻律情報を生成する（ステップＳ４）。このとき、ステップＳ３で統計モデルベース方式が選択された場合には、韻律生成部６は、ステップＳ５で生成された韻律生成モデル２３を用いて統計モデルベース方式で韻律情報を生成する。また、ステップＳ３でルールベース方式が選択された場合には、韻律生成部６は、韻律生成規則辞書８を用いてルールベース方式で韻律情報を生成する。

本実施形態によれば、韻律生成モデル２３を生成するために用いる学習用データベースと、韻律情報生成方式の選択のために用いる学習用データベースとを同一にすることにより、韻律生成モデル内で疎な部分空間については韻律情報生成方式がルールベース方式に変更される。そのため、学習データ不足を要因としたＦ０パタンの乱れを回避することができ、自然性の高い音声合成を生成することが可能となる。

また、韻律生成モデル２３を生成するために用いる学習用データベースと、疎密情報を生成するために用いる学習用データベースとを同一にしているので、独特の発声スタイルや癖といった話者の特徴を表現することが可能となる。

なお、第２の実施形態におけるデータ空間分割部１、疎密情報抽出部２、韻律生成方式選択部３、韻律学習部４および韻律生成部６に加えて、韻律生成部６で生成された韻律情報を用いて音声波形を生成する波形生成部をさらに備えていてもよい。このように、波形生成部をさらに備えた構成とした場合、本実施形態における韻律生成装置を音声合成装置と称することもできる。また、上記の波形生成部も、例えば、プログラムに従って動作するコンピュータのＣＰＵによって実現される。すなわち、コンピュータのＣＰＵが、プログラムに従って、データ空間分割部１、疎密情報抽出部２、韻律生成方式選択部３、韻律学習部４、韻律生成部６および上記の波形生成部として動作してもよい。このプログラムは、音声合成プログラムと称することができる。

以下、本発明の音声合成装置の実施例を説明する。図６は、第１の実施例の音声合成装置を示すブロック図である。既に説明した要素と同様の要素に関しては、図１、図２、図４と同一の符号を付す。

予め、学習用データベース２１が用意されているものとする。学習用データベース２１は、多量の音声波形データから抽出した特徴量の集合である。本例では、学習用データベース２１が、音声データの発声内容を示す音素列およびアクセント位置等の言語情報と、Ｆ０の時間変化情報であるＦ０パタンと、各音素の時間長情報であるセグメンテーション情報と、音声波形を高速フーリエ変換（Fast Fourier Transform：ＦＦＴ）して求められるスペクトル情報とを、音声波形データの特徴量として含んでいるものとし、これらが学習データとして用いられる。また、学習データは１人の話者の音声から収集したものであるとする。

本実施例の音声合成装置の動作は、大きく分けて、ＨＭＭ学習により韻律生成モデルを作成する準備段階と、実際に音声合成処理を行う音声合成段階の２段階に分けられる。それぞれについて、順を追って説明する。

まず、データ空間分割部１および韻律学習部４が、学習用データベース２１を用いて統計的手法による学習を行う。本実施例では、統計的手法としてＨＭＭを用い、データ空間分割として二分木構造クラスタリングを用いるものとする。なお、ＨＭＭを用いる場合は、クラスタリングと学習とを交互に行うことが一般的であるので、説明を簡単にするために、本実施例ではデータ空間分割部１と韻律学習部４を併せてＨＭＭ学習部３１とし、明示的に分割された構成を取らないものとする。ただし、ＨＭＭ以外の統計的手法を用いる場合は、この限りではない。なお、疎密情報抽出部２もＨＭＭ学習部３１に含まれるものとする。

ＨＭＭ学習部３１が学習した結果の例を図７に示す。図７は、二分木構造クラスタリングで作成された決定木構造の模式図である。二分木構造クラスタリングでは、各ノードに配置された質問により各ノードがさらに２つのノードに分かれ、最終的に分割された各クラスタの情報量が均等になるように学習データ空間がクラスタリングされる。クラスタリングされた学習データ空間の模式図を図８に示す。図８では、各クラスタに属する学習データ数が４である場合を示している。図８に示すように、１０モーラ以上８型以上クラスタのような学習データ量が疎である空間では大きなクラスタが生成される。従って、このようなクラスタは、クラスタの大きさに対して学習データが非常に少ない疎なクラスタとなる。

次に、疎密情報抽出部２は、各クラスタの疎密情報を抽出する。本例では、疎密状態を判断する特徴量として、アクセント句のモーラ数、アクセント核の相対位置、疑問文か否かといった言語情報を用い、疎密情報抽出部２は、これらに関する分散値を用いて疎密情報を抽出する。このとき、例えば３モーラ１型クラスタでは、全データが３モーラ１型クラスタなので分散値は０となる。また、６〜８モーラ３型クラスタの分散値をσ_Ａと仮定し、１０モーラ以上８型以上クラスタの分散値をσ_Ｂと仮定する。なお、疎密情報抽出部２は、ＨＭＭの学習結果から疎密情報を抽出してもよい。抽出された疎密情報は、韻律生成モデル２３に組み込まれ、各クラスタに対応付けられる。また、韻律生成モデルとは別に、疎密情報のみを持ったデータベースを用意し、対応表等を使って疎密情報とクラスタとを対応付けてもよい。

以上が、ＨＭＭ学習部３１が韻律生成モデルを生成する準備段階である。続いて、音声合成段階の処理について説明する。本実施例の音声合成装置が備える音声合成部３２は、発音情報生成部５と、韻律生成方式選択部３と、韻律生成部６と、波形生成部７とを備える。また、音声合成部３２は、発音情報生成用辞書２４と、韻律生成規則辞書８とを保持する。例えば、発音情報生成用辞書２４を記憶する記憶手段（図示略）や、韻律生成規則辞書８を記憶する記憶手段（図示略）が設けられていればよい。

まず、発音情報生成部５に、合成対象となるテキスト４１が入力され、発音情報生成部５は、発音情報生成用辞書２４を用いて発音情報４２を生成する。具体的には、発音情報生成部５は、入力テキスト４１に対して、例えば形態素解析等の言語解析処理を行い、言語解析結果に対して、アクセント位置やアクセント句区切り等の音声合成のための付加的情報を付与したり、変更を加えたりする処理を行う。発音情報生成部５は、これらの処理により、発音情報を生成する。また、発音情報生成用辞書２４は、形態素解析用の辞書と、言語解析結果に対して付加的情報を付与するための辞書とを含んでいる。発音情報生成部５は、例えば、入力テキスト４１として日本語における「アルバートアインシュタイン医科大学（a ru ba- to a i n syu ta i n i ka da i ga ku）」という単語が入力された場合、発音情報４２として「a ru ba- to a i N syu ta i N i ka da @ i ga ku 」という文字列を出力する。“@”は、アクセント位置を示している。

次に、韻律生成方式選択部３は、各クラスタの疎密情報を元に韻律生成方式を選択する。本例では、韻律生成方式選択部３は、韻律情報生成方式の選択を、アクセント句毎に行い、「通常は統計モデルベース方式を選択し、疎なクラスタに属するアクセント句のみルールベース方式を選択する」という方針で韻律情報生成方式を選択するものとする。具体的には、分散値の閾値を予め設定しておく。そして、韻律生成方式選択部３は、分散値が閾値以上であるクラスタに属するアクセント句に関して、ルールベース方式を選択する。すなわち、分散値が閾値以上であることにより、疎なクラスタであることを判定する。また、分散値が閾値未満であるクラスタに属するアクセント句に関して、韻律生成方式選択部３は、統計モデルベース方式を選択する。例えば、本例では、分散値の閾値がσ_Ｔであり、σ_Ｔ＞σ_Ａ、σ_Ｔ＜σ_Ｂであると仮定する。３モーラ１型クラスタは分散値が０なので、日本語における「僕は（bo ku wa）」「枕（ma ku ra）」等の３モーラ１型のアクセント句については、韻律生成方式選択部３は、統計モデルベース方式を選択する。同様に、σ_Ｔ＞σ_Ａであるので、日本語における「核開発（ka ku ka i ha tsu ）（６モーラ）」等の６〜８モーラ３型クラスタに属するアクセント句についても、韻律生成方式選択部３は、統計モデルベース方式を選択する。一方、σ_Ｔ＜σ_Ｂであるので、日本語における「アルバートアインシュタイン医科大学（a ru ba- to a i n syu ta i n i ka da i ga ku）（１８モーラ１５型）」等の１０モーラ以上８型以上クラスタに属するアクセント句については、韻律生成方式選択部３は、ルールベース方式を選択する。

日本語における「私は去年からアルバートアインシュタイン医科大学に留学している（wa ta shi wa kyo ne n ka ra a ru ba- to a i n syu ta i n i ka da i ga ku ni ryu ga ku shi te i ru）。」という文の音声を合成する場合を想定して、具体的な韻律情報生成方式の選択方法を説明する。発音情報生成部５に生成された発音情報が、「wa ta shi wa | kyo @ ne N ka ra | a ru ba- to a i N syu ta i N i ka da @ i ga ku ni | ryu- ga ku shi te i ru」であったとする。ここで、“|”はアクセント句境界を意味する。この場合、第１番目、第２番目、および第４番目のアクセント句は、それぞれ４モーラ０型、５モーラ１型、８モーラ０型であるため、韻律生成方式選択部３は、統計モデルベース方式を選択する。一方、第３番目のアクセント句は１９モーラ１５型であり、σ_Ｔ＜σ_Ｂであるため、韻律生成方式選択部３は、ルールベース方式を選択する。

また、ＨＭＭ学習部３１は、データ空間の分割とともに韻律生成モデルの学習も行い、韻律生成モデルを作成する。韻律生成部６は、韻律生成方式選択部３に選択された韻律情報生成方式で、韻律情報を生成する。このとき、韻律生成部６は、統計モデルベース方式が選択された場合、韻律生成モデル２３を用いて韻律情報を生成し、ルールベース方式が選択された場合、韻律生成規則辞書８を用いて韻律情報を生成する。疎なクラスタに属するアクセント句の韻律情報を統計モデルベース方式で生成した場合、データ量が不十分なため、韻律が乱れるおそれがある。これに対し、韻律生成モデルにも前述と同一のクラスタリング結果を用い、疎なクラスタに属するアクセント句については、韻律生成方式選択部３がルールベース方式を選択するため、乱れの少ない韻律情報が生成される。

最後に、波形生成部７は、生成された韻律情報と発音情報を元に音声波形を生成する。換言すれば、合成音声４３を生成する。

本実施例では、韻律生成方式選択部３が韻律情報生成方式を選択する際に、疎密情報を直接用いることを想定したが、疎密情報に基づいて自動あるいは手動で作成された条件に従って、韻律情報生成方式を選択してもよい。

また、本実施例のように、疎密情報を判断する特徴量としてアクセント句のモーラ数やアクセント核の相対位置等の言語情報を用いる場合、これらの情報は直感的に判読し易いという利点がある。従って、疎密情報抽出部２が抽出した疎密情報そのものではなく、疎密情報に基づいて手動で作成された条件を用いて韻律生成方式選択部３が韻律情報生成方式を判定する場合に、そのような条件の作成が容易となるという効果をもたらす。

また、本実施例では、学習用データベース２１として、１人の話者の音声から収集したものを想定したが、複数の話者の音声から収集したものを学習用データベース２１としてもよい。単独の話者から作成した学習用データベース２１を用いた場合は、話者の癖等の話者の特性を再現した合成音声を生成できるという効果が得られ、複数の話者から作成した学習用データベース２１を用いた場合は、汎用的な合成音声を生成できるという効果が得られることが期待できる。

また、本実施例では、韻律生成モデルのクラスタ毎に疎密情報を対応付けることを想定したが、韻律生成モデルのクラスタとは独立に疎密情報から設定した基準に従って韻律情報生成方式を切り替えてもよい。例えば、疎密情報から１２モーラ以上のアクセント句に関しては概ね学習データが疎であることが判明したとする。この場合、韻律生成方式選択部３は、「１２モーラ以上は全てルールベース方式とする」という基準に従って、１２モーラ以上のアクセント句に関してはルールベース方式を選択し、１２モーラ未満のアクセント句に関して統計モデルベース方式を選択してもよい。

図９は、第２の実施例の音声合成装置を示すブロック図である。第１の実施例と同様の要素については、図６と同一の符号を付し、説明を省略する。本実施例では、ＨＭＭ学習部３１が、データ空間分割部１、疎密情報抽出部２、韻律学習部４に加え、さらに、波形特徴量学習部５１も含む。

本実施例では、ＨＭＭ学習部３１が、学習用データベース２１を用いて、韻律生成モデル２３と波形生成モデル２７とを生成する。具体的には、波形生成モデル２７は、波形特徴量学習部５１が生成する。

波形生成モデルとは、学習用データベース２１内の波形のスペクトル特徴量をモデル化したものである。具体的には、この特徴量として、ケプストラム等の特徴量が挙げられる。なお、ここでは波形生成のためのデータとして、ＨＭＭにより生成した統計モデルを用いたが、別の音声合成方式（例えば、波形接続方式）を用いてもよい。その場合、ＨＭＭで学習されるのは韻律生成モデル２３のみであるが、波形生成に用いる単位波形は、学習用データベース２１から生成されることが望ましい。

本実施例によれば、疎であるクラスタに属する波形生成モデルで波形生成部７が波形を生成した場合、その部分の音質劣化を防止できる。また、話者ごとの癖等の特徴を忠実に再現できるという効果も期待できる。なお、波形生成にHMMを用いない波形接続方式などにおいても、学習データが疎であるクラスタに属するデータに関して、対応する単位波形のデータ量も不足している。そのため、疎なクラスタに属するデータを使用しないという点で、音質劣化を回避する効果が期待できる。

次に、本発明の最小構成について説明する。図１０は、本発明の韻律生成装置の最小構成の例を示すブロック図である。本発明の韻律生成装置は、データ分割手段８１と、疎密情報抽出手段８２と、韻律情報生成方式選択手段８３とを備える。

データ分割手段８１（例えば、データ空間分割部１）は、音声波形の特徴量を示す学習データの集合である学習用データベース（例えば、学習用データベース２１）のデータ空間を分割する。

疎密情報抽出手段８２（例えば、疎密情報抽出部２）は、データ分割手段８１によって分割された各部分空間における学習データの情報量の疎密状態を示す疎密情報を抽出する。

韻律情報生成方式選択手段８３（例えば、韻律生成方式選択部３）は、疎密情報に基づいて、韻律情報生成方式として、統計的手法により韻律情報を生成する第１の方式（例えば、統計モデルベース方式）と、経験則に基づいた規則により韻律情報を生成する第２の方式（例えば、ルールベース方式）のいずれかを選択する。

以上のような構成により、不要に大量の学習データを収集することなく、自然性の高い音声合成を実現する韻律情報を生成することができる。

図１１は、本発明の音声合成装置の最小構成の例を示すブロック図である。本発明の音声合成装置は、データ分割手段８１と、疎密情報抽出手段８２と、韻律情報生成方式選択手段８３と、韻律生成手段８４と、波形生成手段８５とを備える。データ分割手段８１、疎密情報抽出手段８２および韻律情報生成方式選択手段８３に関しては、図１０に示すそれらの要素と同様であり、説明を省略する。

韻律生成手段８４（例えば、韻律生成部６）は、韻律情報生成方式選択手段８３に選択された韻律情報生成方式で韻律情報を生成する。

波形生成手段８５（例えば、波形生成部７）は、韻律情報を用いて音声波形を生成する。

以上のような構成により、図１０に示す韻律生成装置と同様の効果が得られる。

上記の実施形態や実施例の一部または全部は、以下の付記のようにも記載されうるが、以下には限定されない。

（付記１）音声波形の特徴量を示す学習データの集合である学習用データベースのデータ空間を分割するデータ分割手段と、データ分割手段によって分割された各部分空間における学習データの情報量の疎密状態を示す疎密情報を抽出する疎密情報抽出手段と、前記疎密情報に基づいて、韻律情報生成方式として、統計的手法により韻律情報を生成する第１の方式と、経験則に基づいた規則により韻律情報を生成する第２の方式のいずれかを選択する韻律情報生成方式選択手段とを備えることを特徴とする韻律生成装置。

（付記２）疎密情報を生成するために用いられる学習用データベースを用いて、音声と韻律情報との関係を表す韻律生成モデルを作成する韻律生成モデル作成手段を備える付記１に記載の韻律生成装置。

（付記３）韻律情報生成方式選択手段は、疎密情報に基づいて作成された条件に従って、第１の方式または第２の方式を選択する付記１または付記２に記載の韻律生成装置。

（付記４）疎密情報抽出手段は、アクセント句のモーラ数またはアクセント位置を特徴量として用いて疎密情報を抽出する付記１から付記３のうちのいずれかに記載の韻律生成装置。

（付記５）疎密情報抽出手段は、疎密情報として、学習データが示す特徴量の分散を求める付記１から付記４のうちのいずれかに記載の韻律生成装置。

（付記６）音声波形の特徴量を示す学習データの集合である学習用データベースのデータ空間を分割するデータ分割手段と、データ分割手段によって分割された各部分空間における学習データの情報量の疎密状態を示す疎密情報を抽出する疎密情報抽出手段と、前記疎密情報に基づいて、韻律情報生成方式として、統計的手法により韻律情報を生成する第１の方式と、経験則に基づいた規則により韻律情報を生成する第２の方式のいずれかを選択する韻律情報生成方式選択手段と、韻律情報生成方式選択手段に選択された韻律情報生成方式で韻律情報を生成する韻律生成手段と、前記韻律情報を用いて音声波形を生成する波形生成手段とを備えることを特徴とする音声合成装置。

（付記７）音声波形の特徴量を示す学習データの集合である学習用データベースのデータ空間を分割し、分割により得られた各部分空間における学習データの情報量の疎密状態を示す疎密情報を抽出し、前記疎密情報に基づいて、韻律情報生成方式として、統計的手法により韻律情報を生成する第１の方式と、経験則に基づいた規則により韻律情報を生成する第２の方式のいずれかを選択することを特徴とする韻律生成方法。

（付記８）音声波形の特徴量を示す学習データの集合である学習用データベースのデータ空間を分割し、分割により得られた各部分空間における学習データの情報量の疎密状態を示す疎密情報を抽出し、前記疎密情報に基づいて、韻律情報生成方式として、統計的手法により韻律情報を生成する第１の方式と、経験則に基づいた規則により韻律情報を生成する第２の方式のいずれかを選択し、選択した韻律情報生成方式で韻律情報を生成し、前記韻律情報を用いて音声波形を生成することを特徴とする音声合成方法。

（付記９）コンピュータに、音声波形の特徴量を示す学習データの集合である学習用データベースのデータ空間を分割するデータ分割処理、データ分割処理で分割された各部分空間における学習データの情報量の疎密状態を示す疎密情報を抽出する疎密情報抽出処理、および、前記疎密情報に基づいて、韻律情報生成方式として、統計的手法により韻律情報を生成する第１の方式と、経験則に基づいた規則により韻律情報を生成する第２の方式のいずれかを選択する韻律情報生成方式選択処理を実行させるための韻律生成プログラム。

（付記１０）コンピュータに、音声波形の特徴量を示す学習データの集合である学習用データベースのデータ空間を分割するデータ分割処理、データ分割処理で分割された各部分空間における学習データの情報量の疎密状態を示す疎密情報を抽出する疎密情報抽出処理、前記疎密情報に基づいて、韻律情報生成方式として、統計的手法により韻律情報を生成する第１の方式と、経験則に基づいた規則により韻律情報を生成する第２の方式のいずれかを選択する韻律情報生成方式選択処理、韻律情報生成方式選択処理で選択された韻律情報生成方式で韻律情報を生成する韻律生成処理、および、前記韻律情報を用いて音声波形を生成する波形生成処理を実行させるための音声合成プログラム。

（付記１１）音声波形の特徴量を示す学習データの集合である学習用データベースのデータ空間を分割するデータ分割部と、データ分割部によって分割された各部分空間における学習データの情報量の疎密状態を示す疎密情報を抽出する疎密情報抽出部と、前記疎密情報に基づいて、韻律情報生成方式として、統計的手法により韻律情報を生成する第１の方式と、経験則に基づいた規則により韻律情報を生成する第２の方式のいずれかを選択する韻律情報生成方式選択部とを備えることを特徴とする韻律生成装置。

（付記１２）疎密情報を生成するために用いられる学習用データベースを用いて、音声と韻律情報との関係を表す韻律生成モデルを作成する韻律生成モデル作成部を備える付記１１に記載の韻律生成装置。

（付記１３）韻律情報生成方式選択部は、疎密情報に基づいて作成された条件に従って、第１の方式または第２の方式を選択する付記１１または付記１２に記載の韻律生成装置。

（付記１４）疎密情報抽出部は、アクセント句のモーラ数またはアクセント位置を特徴量として用いて疎密情報を抽出する付記１１から付記１３のうちのいずれかに記載の韻律生成装置。

（付記１５）疎密情報抽出部は、疎密情報として、学習データが示す特徴量の分散を求める付記１１から付記１４のうちのいずれかに記載の韻律生成装置。

（付記１６）音声波形の特徴量を示す学習データの集合である学習用データベースのデータ空間を分割するデータ分割部と、データ分割部によって分割された各部分空間における学習データの情報量の疎密状態を示す疎密情報を抽出する疎密情報抽出部と、前記疎密情報に基づいて、韻律情報生成方式として、統計的手法により韻律情報を生成する第１の方式と、経験則に基づいた規則により韻律情報を生成する第２の方式のいずれかを選択する韻律情報生成方式選択部と、韻律情報生成方式選択部に選択された韻律情報生成方式で韻律情報を生成する韻律生成部と、前記韻律情報を用いて音声波形を生成する波形生成部とを備えることを特徴とする音声合成装置。

この出願は、２０１１年５月３０日に出願された日本特許出願２０１１−１２０４９９を基礎とする優先権を主張し、その開示の全てをここに取り込む。

以上、実施形態を参照して本願発明を説明したが、本願発明は上記の実施形態に限定されるものではない。本願発明の構成や詳細には、本願発明のスコープ内で当業者が理解し得る様々な変更をすることができる。

産業上の利用の可能性

本発明は、例えば、情報量が限定された学習データを用いた音声合成装置等に好適に適用可能である。例えば、ニュース記事や自動応答文等のテキスト全般の読み上げを行う音声合成装置等に好適に適用可能である。

１データ空間分割部
２疎密情報抽出部
３韻律生成方式選択部
４韻律学習部
６韻律生成部
７波形生成部

Claims

音声波形の特徴量を示す学習データの集合である学習用データベースのデータ空間を分割するデータ分割手段と、
データ分割手段によって分割された各部分空間における学習データの情報量の疎密状態を示す疎密情報を抽出する疎密情報抽出手段と、
前記疎密情報に基づいて、韻律情報生成方式として、統計的手法により韻律情報を生成する第１の方式と、経験則に基づいた規則により韻律情報を生成する第２の方式のいずれかを選択する韻律情報生成方式選択手段とを備える
ことを特徴とする韻律生成装置。
疎密情報を生成するために用いられる学習用データベースを用いて、音声と韻律情報との関係を表す韻律生成モデルを作成する韻律生成モデル作成手段を備える
請求項１に記載の韻律生成装置。
韻律情報生成方式選択手段は、疎密情報に基づいて作成された条件に従って、第１の方式または第２の方式を選択する
請求項１または請求項２に記載の韻律生成装置。
疎密情報抽出手段は、アクセント句のモーラ数またはアクセント位置を特徴量として用いて疎密情報を抽出する
請求項１から請求項３のうちのいずれか１項に記載の韻律生成装置。
疎密情報抽出手段は、疎密情報として、学習データが示す特徴量の分散を求める
請求項１から請求項４のうちのいずれか１項に記載の韻律生成装置。
音声波形の特徴量を示す学習データの集合である学習用データベースのデータ空間を分割するデータ分割手段と、
データ分割手段によって分割された各部分空間における学習データの情報量の疎密状態を示す疎密情報を抽出する疎密情報抽出手段と、
前記疎密情報に基づいて、韻律情報生成方式として、統計的手法により韻律情報を生成する第１の方式と、経験則に基づいた規則により韻律情報を生成する第２の方式のいずれかを選択する韻律情報生成方式選択手段と、
韻律情報生成方式選択手段に選択された韻律情報生成方式で韻律情報を生成する韻律生成手段と、
前記韻律情報を用いて音声波形を生成する波形生成手段とを備える
ことを特徴とする音声合成装置。
音声波形の特徴量を示す学習データの集合である学習用データベースのデータ空間を分割し、
分割により得られた各部分空間における学習データの情報量の疎密状態を示す疎密情報を抽出し、
前記疎密情報に基づいて、韻律情報生成方式として、統計的手法により韻律情報を生成する第１の方式と、経験則に基づいた規則により韻律情報を生成する第２の方式のいずれかを選択する
ことを特徴とする韻律生成方法。
音声波形の特徴量を示す学習データの集合である学習用データベースのデータ空間を分割し、
分割により得られた各部分空間における学習データの情報量の疎密状態を示す疎密情報を抽出し、
前記疎密情報に基づいて、韻律情報生成方式として、統計的手法により韻律情報を生成する第１の方式と、経験則に基づいた規則により韻律情報を生成する第２の方式のいずれかを選択し、
選択した韻律情報生成方式で韻律情報を生成し、
前記韻律情報を用いて音声波形を生成する
ことを特徴とする音声合成方法。
コンピュータに、
音声波形の特徴量を示す学習データの集合である学習用データベースのデータ空間を分割するデータ分割処理、
データ分割処理で分割された各部分空間における学習データの情報量の疎密状態を示す疎密情報を抽出する疎密情報抽出処理、および、
前記疎密情報に基づいて、韻律情報生成方式として、統計的手法により韻律情報を生成する第１の方式と、経験則に基づいた規則により韻律情報を生成する第２の方式のいずれかを選択する韻律情報生成方式選択処理
を実行させるための韻律生成プログラム。
コンピュータに、
音声波形の特徴量を示す学習データの集合である学習用データベースのデータ空間を分割するデータ分割処理、
データ分割処理で分割された各部分空間における学習データの情報量の疎密状態を示す疎密情報を抽出する疎密情報抽出処理、
前記疎密情報に基づいて、韻律情報生成方式として、統計的手法により韻律情報を生成する第１の方式と、経験則に基づいた規則により韻律情報を生成する第２の方式のいずれかを選択する韻律情報生成方式選択処理、
韻律情報生成方式選択処理で選択された韻律情報生成方式で韻律情報を生成する韻律生成処理、および、
前記韻律情報を用いて音声波形を生成する波形生成処理
を実行させるための音声合成プログラム。