WO2013008384A1

WO2013008384A1 - 音声合成装置、音声合成方法および音声合成プログラム

Info

Publication number: WO2013008384A1
Application number: PCT/JP2012/003760
Authority: WO
Inventors: 康行三井; 正徳加藤; 玲史近藤
Original assignee: 日本電気株式会社
Priority date: 2011-07-11
Filing date: 2012-06-08
Publication date: 2013-01-17
Also published as: JP5979146B2; JPWO2013008384A1; US20140149116A1; US9520125B2

Abstract

　統計的手法によりモデル化された場合の継続時間長よりも短い継続時間長で音素を表現できる音声合成装置、音声合成方法および音声合成プログラムを提供する。本発明による音声合成装置８０は、統計的手法によりモデル化された音素を表現する各状態の有声らしさの度合いを示す指標である有声性指標を用いて、その音素に隣接する他の音素との境界である音素境界位置を更新する音素境界更新手段８１を備えている。

Description

音声合成装置、音声合成方法および音声合成プログラム

　本発明は、統計的手法によって生成される音素継続時間長情報を用いて音声合成における波形生成を行う音声合成装置、音声合成方法および音声合成プログラムに関する。

　統計的手法を用いた音声合成方法として、隠れマルコフモデル（Hidden Markov Model ：ＨＭＭ）を用いたＨＭＭ音声合成が知られている。ＨＭＭ音声合成により生成される韻律は、特定の数の状態を用いて表現される。

　また、有声音と無声音のピッチパタンを同時にモデル化する方法として、ＭＳＤ－ＨＭＭ（Multi-Space Probability Distribution HMM）が知られている（非特許文献１参照。）。ＭＳＤ－ＨＭＭに基づく音声合成では、波形を生成する際、有声らしさの度合いを示す指標（以下、有声性指標と記す。）に基づいて、波形を有声として生成するか無声として生成するかが判断される。

宮崎、外３名、「多空間上の確率分布に基づいたＨＭＭとピッチパタンモデルへの応用」、電子情報通信学会技術研究報告、社団法人電子情報通信学会、１９９８年４月２４日、pp.19-26

　音素の継続時間長（以下、音素継続時間長と記す。）は、各状態を表すフレームの長さの和になる。そのため、ターゲットとする音素の継続時間長は、分析フレーム数×状態数よりも短くすることはできない。例えば、１フレームの長さが５ｍｓｅｃであり、状態数が５であるとする。この場合、最短の音素継続時間長は、５ｍｓｅｃ×５状態＝２５ｍｓｅｃになり、この長さよりも短くすることはできない。

　分析の解像度を上げる（すなわち、フレーム幅を短くする）ことで、最短の音素継続時間長を短くすることは可能である。しかし、単純に分析の解像度を上げてしまうと、計算量が増大してしまうという問題がある。

　また、音素によっては、非常に音素継続時間が短い学習データしか存在しない可能性がある。例えば、早口の人の発声から学習データを作成している場合、各音素の音素継続時間長が短くなる可能性がある。このようなデータを使用して音声合成を行う場合、音素継続時間長を再現することは困難である。

　そこで、本発明は、統計的手法によりモデル化された場合の継続時間長よりも短い継続時間長で音素を表現できる音声合成装置、音声合成方法および音声合成プログラムを提供することを目的とする。

　本発明による音声合成装置は、統計的手法によりモデル化された音素を表現する各状態の有声らしさの度合いを示す指標である有声性指標を用いて、その音素に隣接する他の音素との境界である音素境界位置を更新する音素境界更新手段を備えたことを特徴とする。

　本発明による音声合成方法は、統計的手法によりモデル化された音素を表現する各状態の有声らしさの度合いを示す指標である有声性指標を用いて、その音素に隣接する他の音素との境界である音素境界位置を更新することを特徴とする。

　本発明による音声合成プログラムは、コンピュータに、統計的手法によりモデル化された音素を表現する各状態の有声らしさの度合いを示す指標である有声性指標を用いて、その音素に隣接する他の音素との境界である音素境界位置を更新する音素境界更新処理を実行させることを特徴とする。

　本発明によれば、統計的手法によりモデル化された場合の継続時間長よりも短い継続時間長で音素を表現できる。

本発明による音声合成装置の第１の実施形態の構成例を示すブロック図である。音素境界位置を移動させる方向を決定する処理の例を示すフローチャートである。有声性判定情報と音素境界位置の移動方向との対応関係の例を示す説明図である。音素境界位置を変更する方法の例を示す説明図である。境界を決定する方法の例を示す説明図である。第１の実施形態における音声合成装置の動作の例を示すフローチャートである。音素境界位置を変更した結果の例を示す説明図である。不適切な有声性指標の例を示す説明図である。本発明による音声合成装置の第２の実施形態の構成例を示すブロック図である。音素境界位置を判断する処理の例を示す説明図である。第２の実施形態における音声合成装置の動作の例を示すフローチャートである。本発明による音声合成装置の最小構成の例を示すブロック図である。

　以下、本発明の実施形態を図面を参照して説明する。

実施形態１．
　図１は、本発明による音声合成装置の第１の実施形態の構成例を示すブロック図である。本実施形態における音声合成装置は、言語解析部１１と、状態継続長生成部１２と、ピッチパタン生成部１３と、有声性指標抽出部１４と、音素境界移動方向決定部１５と、音素継続時間長生成部１６と、波形生成部１７と、韻律モデル記憶部１８と、音声素片データベース（以下、音声素片ＤＢと記す。）記憶部１９とを備えている。

　韻律モデル記憶部１８は、統計的手法で生成された韻律モデルを記憶する。ここでは、韻律モデルは、ＭＳＤ－ＨＭＭにより作成されたモデルを示す。有声性指標２２は、上述するように、有声らしさの度合いを示す指標であり、統計的手法で学習した際に韻律モデルから状態ごとに導出される情報である。韻律モデル記憶部１８は、各状態に設定される有声性指標２２そのものを記憶していてもよい。また、韻律モデル記憶部１８が有声性指標２２そのものを記憶せず、後述する有声性指標抽出部１４が、韻律モデルから有声性指標を導出するようにしてもよい。

　上述するように、有声性指標とは、ＨＭＭで表現される各状態が有声音の特徴を持つか、無声音（無音を含む）の特徴を持つかを示す指標である。有声性指標が大きいほど、有声音としての特徴が強いと判断される。有声性指標を導出する方法の具体例として、例えば、非特許文献１の式（２７）で表されるように、ガウシアン混合モデル（Gaussian mixture model : GMM）の混合係数を有声性指標として用いる方法が挙げられる。

　また、一般に無声音は、高域（周波数的に高い）部分のエネルギーが大きい性質を有する。さらに、スペクトルの形状は、低域よりも高域の方が大きいという性質を有する。そこで、フーリエ変換（ＦＦＴ）等を用いてスペクトル成分を分析した結果を有声性指標として用いてもよい。また、線形予測係数や、零交叉率、波形のパワーなど、数値を用いる有声／無声判定手法を用いて求めた結果を有声性指標として用いてもよい。

　また、本実施形態では、状態ごとに有声性指標が設定される場合を例に説明するが、フレームの単位ごとに有声性指標が設定されていてもよい。

　音声素片ＤＢ記憶部１９は、音声を作成する単位（素片）ごとの属性を記憶する。この属性には、各音素の波形や、母音／子音を示す情報、有声／無声を示す情報などが含まれる。これらの情報は、予め音声素片ＤＢ記憶部１９に記憶される。なお、有声／無声を示す情報を音声素片ＤＢ記憶部１９に記憶せず、後述する音素境界移動方向決定部１５が、音素を示す情報に基づいて、有声か無声かを判断してもよい。ただし、音声素片ＤＢ記憶部１９が有声／無声を示す情報を記憶しておくことで、音素境界移動方向決定部１５は上述する判断処理を行う必要がなくなる。そのため、有声／無声を示す情報を予め音声素片ＤＢ記憶部１９に記憶するほうが、処理速度を上げる観点からより好ましい。

　韻律モデル記憶部１８、及び音声素片ＤＢ記憶部１９は、例えば、磁気ディスク等により実現される。

　言語解析部１１は、入力テキスト２１に対して、例えば形態素解析等の言語解析処理を行う。また、言語解析部１１は、言語解析結果に対して、アクセント位置やアクセント句区切りなど、音声合成に必要な付加的情報を付与したり、変更を加えたりする処理を行う。ただし、言語解析部１１が行う言語解析処理は、上記内容に限定されない。言語解析部１１は、他にも、入力テキスト２１に含まれる文字の読みを解析する処理などを行う。

　状態継続長生成部１２は、言語解析部１１による解析結果および韻律モデルに基づいて、状態継続長を計算する。なお、音素継続時間長は、後述する音素継続時間長生成部１６で生成される。以下の説明では、１音素が５状態で表現される場合を例に説明する。また、ピッチパタン生成部１３は、状態継続長生成部１２による計算結果および韻律モデルに基づいてピッチパタンを生成する。

　有声性指標抽出部１４は、韻律モデル記憶部１８から各状態に対応する有声性指標を抽出する。例えば、韻律モデル記憶部１８が各状態に設定された有声性指標２２を記憶している場合、有声性指標抽出部１４は、各状態に対応する有声性指標２２を韻律モデル記憶部１８から抽出してもよい。また、有声性指標抽出部１４は、韻律モデル記憶部１８から韻律モデルを読み込み、その韻律モデルから各状態の有声性指標を導出してもよい。この場合、韻律モデルにはスペクトル情報が含まれていることが望ましい。

　音素境界移動方向決定部１５は、統計的手法によりモデル化された音素を表現する各状態の有声性指標を用いて、その音素に隣接する他の音素との境界（以下、音素境界位置と記す。）を更新する。

　まず、音素境界移動方向決定部１５は、音素を表現する各状態が有声状態を示すか無声状態を示すか特定する。具体的には、音素境界移動方向決定部１５は、状態ごとの有声性指標が、予め定めた閾値を超えるか否か判断する。有声性指標が閾値を超えている場合、音素境界移動方向決定部１５は、その状態が有声状態を示すと特定する。一方、有声性指標が閾値を超えていない場合、音素境界移動方向決定部１５は、その状態が無声状態を示すと特定する。音素境界移動方向決定部１５は、各状態が有声状態または無声状態を示すことを特定したあと、各状態に対してフラグを設定してもよい。音素境界移動方向決定部１５は、例えば、有声状態を示す場合にはフラグ「Ｈ」を、無声状態を示す場合にはフラグ「Ｌ」を各状態に対して設定してもよい。

　以下の説明では、有声性指標に基づいて有声状態か無声状態かが判定された結果（ここでは、フラグ「Ｈ」およびフラグ「Ｌ」）のことを有声性判定情報と記す。

　次に、音素境界移動方向決定部１５は、音素境界前後の音素が無声音か有声音か、また、音素境界前後の状態が有声状態か無声状態かによって、音素境界位置を移動させる方向を決定する。以下、音素が無声音（ポーズなどの無音も含む）の場合の種別を「Ｕ」と記し、音素が有声音の場合の種別を「Ｖ」と記す。また、このように定めた種別のことをＵＶ種別と記す。すなわち、ＵＶ種別とは、各音素が無声音か有声音かを識別する情報であると言える。具体的には、音素境界移動方向決定部１５は、各音素に対応する素片音素情報２３を音声素片ＤＢ記憶部１９から抽出し、各音素が無声音か有声音かを判断する。

　図２は、音素境界位置を移動させる方向を決定する処理の例を示すフローチャートである。まず、音素境界移動方向決定部１５は、隣接する音素（すなわち、音素境界前後の音素）同士が、同じＵＶ種別か否かを判断する（ステップＳ１１）。ＵＶ種別が同じ場合（ステップＳ１１におけるＹｅｓ）、音素境界移動方向決定部１５は、処理を終了する。一方、ＵＶ種別が異なる場合（ステップＳ１１におけるＮｏ）、音素境界移動方向決定部１５は、音素境界前後の状態それぞれが示す有声性判定情報の関係を判断する（ステップＳ１２）。具体的には、音素境界移動方向決定部１５は、予め定めた対応関係に基づいて、音素境界位置の移動方向を決定する。

　図３は、有声性判定情報と音素境界位置の移動方向との対応関係の例を示す説明図である。図３に例示する表は、無声音（Ｕ）、有声音（Ｖ）それぞれの場合における各状態の有声性判定情報（ＬまたはＨ）の内容に応じて音素境界位置を移動する方向を定義した表である。例えば、隣接する音素が無声音（Ｕ）、有声音（Ｖ）の順に並んでいる場合に、無声音の有声性判定情報が「Ｌ」であり、有声音の有声性判定情報が「Ｈ」である場合、この表からは、音素境界を変更しない（すなわち、音素境界を移動させない）ことが導かれる。

　隣接する状態が示す有声性判定情報の両方が「Ｌ」の場合（ステップＳ１２におけるＬＬ）、音素境界移動方向決定部１５は、音素境界位置をＶ側に移動させる（ステップＳ１３）。また、隣接する状態が示す有声性判定情報の両方が「Ｈ」の場合（ステップＳ１２におけるＨＨ）、音素境界移動方向決定部１５は、音素境界位置をＵ側に移動させる（ステップＳ１４）。一方、隣接する状態が示す有声性判定情報の内容が異なっている場合（ステップＳ１２における「その他」）、音素境界移動方向決定部１５は、音素境界位置を移動させず、処理を終了する。

　音素境界を移動させる処理について、図４を用いてさらに説明する。図４は、音素境界を変更する方法の例を示す説明図である。図４に示す例では、無声音と有声音の音素境界（以下、Ｕ－Ｖ境界と記す。）を、隣接する状態が示す有声性判定情報に応じて移動していることを示す。ここで、図４に例示する各音素は５状態で表わされ、１マスが１状態を表している。なお、ここでは、音素「ａ」を無声音、音素「ｂ」を有声音とする。

　音素境界で隣接する状態が示す有声性判定情報が、いずれも「Ｌ」の場合（図４（ａ）参照。）、音素境界移動方向決定部１５は、音素境界をＶ側（すなわち、有声音側）に１状態分の幅だけ移動する。また、音素境界で隣接する状態が示す有声性判定情報が、いずれも「Ｈ」の場合（図４（ｂ）参照。）、音素境界移動方向決定部１５は、音素境界をＶ側（すなわち、有声音側）に１状態分の幅だけ移動する。音素境界移動方向決定部１５は、音素境界位置を移動させた後、その音素境界で隣接する状態が示す有声性判定情報を検証し、同様の処理を繰り返す。一方、音素境界で隣接する状態が示す有声性判定情報が、それぞれ「Ｈ」と「Ｌ」、または、「Ｌ」と「Ｈ」の場合、音素境界移動方向決定部１５は、音素境界位置を移動させない（図４（ｃ），（ｄ）参照。）。

　音素境界の位置を移動させる際、音素境界移動方向決定部１５は、各状態の幅に相当する長さだけ音素境界位置を移動させる。例えば、１状態１フレームである場合、１フレームが５ｍｓｅｃであれば、音素境界移動方向決定部１５は、５ｍｓｅｃ分音素境界位置を移動させる。

　上記説明では、音素境界移動方向決定部１５が、状態ごとの有声性指標が予め定めた閾値を超えるか否かで有声性判定情報を設定して、音素境界位置を更新する方法を説明した。ただし、音素境界移動方向決定部１５が音素境界位置を更新する方法は、上記方法に限定されない。音素境界移動方向決定部１５は、例えば、隣接する状態間の有声性指標の差分に基づいて、音素境界位置を更新してもよい。この場合、各状態が有声状態を示すか無声状態を示すか特定する必要はない。

　以下、有声状態か無声状態かを特定せずに境界を決定する方法を、具体例を用いて説明する。ここで、Ｕ－Ｖ境界を挟んだ２つの音素の総状態数をＭ、有声性指標をｖ_ｉ（０≦ｖ_ｉ≦１，ｉ∈Ｍ）とすると、隣接する有声性指標の差分は、Δｖ_ｉ＝ｖ_ｉ－ｖ_ｉ－１で表される。境界を決定する際、音素境界移動方向決定部１５は、有声性指標の差分Δｖ_ｉを順番に計算する。そして、音素境界移動方向決定部１５は、Δｖ_ｉが予め設定した閾値を超えた時点で、ｉ－１番目の状態とｉ番目の状態との間を境界と決定する。

　図５は、有声状態／無声状態を特定せずに境界を決定する方法の例を示す説明図である。ここでは、閾値を０．８とする。図５（Ａ）に示す例では、ｉ＝１から順番にΔｖ_ｉを求めていくと、ｉ＝７のときΔｖ_７＝０．８１になり、ｖ_ｉが閾値を超える。そこで、音素境界移動方向決定部１５は、ｉ＝６のフレームとｉ＝７のフレームとの間をＵ－Ｖ境界と決定する。

　同様に、図５（Ｂ）に示す例では、ｉ＝１から順番にΔｖ_ｉを求めていくと、ｉ＝４のときΔｖ_４＝０．８１になり、Δｖ_ｉが閾値を超える。そこで、音素境界移動方向決定部１５は、ｉ＝３のフレームとｉ＝４のフレームとの間をＵ－Ｖ境界と決定する。また、図５（Ｃ）に示す例では、ｉ＝１から順番にΔｖ_ｉを求めていくと、ｉ＝６のときΔｖ_６＝０．８１になり、Δｖ_ｉが閾値を超える。そこで、音素境界移動方向決定部１５は、ｉ＝５のフレームとｉ＝６のフレームとの間をＵ－Ｖ境界と決定する。すなわち、この場合、境界の変更は行われないことになる。

　なお、図５に示す例では、音素境界移動方向決定部１５が有声性指標の差分Δｖ_ｉと閾値とを用いて境界を決定する場合について説明した。他にも、音素境界移動方向決定部１５は、差分Δｖ_ｉの推移により境界を決定してもよい。また、音素境界移動方向決定部１５は、Δｖ_ｉの差分（２階差分）であるΔ^２ｖ_ｉを用いて境界を決定してもよい。

　音素継続時間長生成部１６は、音素境界移動方向決定部１５が移動させた音素境界位置に基づいて、各音素の継続時間長を計算する。音素境界移動方向決定部１５が、例えば、対象とする音素を短くする方向に音素境界位置を移動させ、その移動させた幅が１フレームであり、１フレームが５ｍｓｅｃであるとする。この場合、音素継続時間長生成部１６は、その音素の継続時間長を５ｍｓｅｃ分減少させた時間を音素継続時間長としてもよい。ただし、音素継続時間長生成部１６が音素継続時間長を計算する方法は、上記方法に限定されない。

　波形生成部１７は、音素継続時間長生成部１６が計算した音素継続時間長とピッチパタン生成部１３が生成したピッチパタンとに基づいて、音声波形を生成する。言い換えると、波形生成部１７は、これらの情報に基づいて合成音声を生成する。

　言語解析部１１と、状態継続長生成部１２と、ピッチパタン生成部１３と、有声性指標抽出部１４と、音素境界移動方向決定部１５と、音素継続時間長生成部１６と、波形生成部１７とは、プログラム（音声合成プログラム）に従って動作するコンピュータのＣＰＵによって実現される。例えば、プログラムは、音声合成装置の記憶部（図示せず）に記憶され、ＣＰＵは、そのプログラムを読み込み、プログラムに従って、言語解析部１１、状態継続長生成部１２、ピッチパタン生成部１３、有声性指標抽出部１４、音素境界移動方向決定部１５、音素継続時間長生成部１６、及び波形生成部１７として動作してもよい。また、言語解析部１１と、状態継続長生成部１２と、ピッチパタン生成部１３と、有声性指標抽出部１４と、音素境界移動方向決定部１５と、音素継続時間長生成部１６と、波形生成部１７とは、それぞれが専用のハードウェアで実現されていてもよい。

　次に、本実施形態における音声合成装置の動作を説明する。図６は、本実施形態における音声合成装置の動作の例を示すフローチャートである。音声合成装置に入力テキスト２１が入力されると、言語解析部１１は、形態素解析等の言語解析処理を行う（ステップＳ２１）。そして、状態継続長生成部１２は、言語解析部１１による解析結果および韻律モデル記憶部１８に記憶された韻律モデルに基づいて状態継続長を計算する（ステップＳ２２）。

　ピッチパタン生成部１３は、状態継続長生成部１２による計算結果および韻律モデルに基づいて、ピッチパタンを生成する（ステップＳ２３）。一方、有声性指標抽出部１４は、韻律モデル記憶部１８から各状態の有声性指標２２を抽出する（ステップＳ２４）。その後、音素境界移動方向決定部１５は、ＨＭＭによりモデル化された音素を表現する各状態の有声性指標を用いて、音素境界位置を更新する（ステップＳ２５）。このとき、音素境界移動方向決定部１５は、有声性判定情報に基づいて音素境界位置を移動させる方向を決定してもよい。また、音素境界移動方向決定部１５は、隣接する状態間の有声性指標の差分に基づいて、音素境界位置を移動させる方向を決定してもよい。

　音素継続時間長生成部１６は、音素境界移動方向決定部１５が移動させた音素境界位置に基づいて、各音素の継続時間長を計算する（ステップＳ２６）。そして、波形生成部１７は、音素継続時間長生成部１６が計算した音素継続時間長とピッチパタン生成部１３が生成したピッチパタンとに基づいて、音声波形を生成する（ステップＳ２７）。

　以上のように、本実施形態によれば、音素境界移動方向決定部１５が、統計的手法（例えば、ＭＳＤ－ＨＭＭ）によりモデル化された音素を表現する各状態の有声性指標を用いて、その音素に隣接する他の音素との音素境界位置を更新する。よって、統計的手法によりモデル化された場合の継続時間長よりも短い継続時間長で音素を表現できる。

　図７は、音素境界位置を変更した結果の例を示す説明図である。例えば、１音素が５状態で表現される場合（図７（Ａ）参照）、一般的な方法を用いた場合、音素継続時間長は、最短でも分析フレーム数×状態数になる。そのため、図７（Ｂ）に例示するように、例えば、ポーズ直後のｄの音素継続時間長は、２５ｍｓｅｃを下回るにも関わらず、５状態で表現する必要があった。しかし、本実施形態では、有声性指標を用いて音素境界位置を更新する。そのため、例えば、ポーズ直後のｄの状態を３状態とすることにより、短い継続時間長で音素を表現することが可能になる（図７（Ｃ）参照）。

実施形態２．
　次に、本発明の第２の実施形態を説明する。本実施形態では、有声性指標に不適切な値が含まれる可能性があることを想定する。すなわち、有声性指標は、各種の計算（本実施形態では、統計的手法）により導出される値である。そのため、必ずしも適切な数値が得られるとは限らない。有声性指標が不適切であると、第１の実施形態において、有声／無声の境界を適切に決定することが困難になる。

　有声性指標が不適切な場合として、大きく分けて２つの場合が考えられる。１つ目は、対象とする音素内の各状態における有声性判定情報が２回以上切り替わる場合である。２つ目は、全ての状態（フレーム）が対象とする音素の素片音素情報と逆の有声状態または無声状態を示している場合である。

　図８は、不適切な有声性指標の例を示す説明図である。図８に示す例では、図８（Ａ）および図８（Ｃ）に例示する場合が、上述した１つ目の場合に該当する。例えば、図８（Ａ）に示す例では、有声音素における中央の状態のみ、有声性判定情報が「Ｌ」になっている。このような場合、音素境界位置の候補である有声性判定情報「Ｈ」と「Ｌ」との切り替わり箇所が複数あるため、境界を確定することは困難である。図８（Ｃ）に示す例は、上述した２つ目の場合に該当する。この場合も境界の候補が複数存在するため、同様に境界を確定することは困難である。

　また、図８（Ｂ）に例示する場合が、２つ目の場合に該当する。図８（Ｂ）に示す例では、有声音素の全ての状態（フレーム）が無声状態を示している。この場合、有声性判定情報「Ｈ」と「Ｌ」との切り替わり箇所が存在せず、境界の候補が存在しないため、境界を確定することが困難である。本実施形態では、このように有声性指標に不適切な値が含まれる場合であっても、音素境界位置を適切に決定する方法を説明する。

　図９は、本発明による音声合成装置の第２の実施形態の構成例を示すブロック図である。なお、第１の実施形態と同様の構成については、図１と同一の符号を付し、説明を省略する。本実施形態における音声合成装置は、言語解析部１１と、状態継続長生成部１２と、ピッチパタン生成部１３と、有声性指標抽出部１４と、音素境界移動方向決定部１５と、音素継続時間長生成部１６と、波形生成部１７と、韻律モデル記憶部１８と、音声素片ＤＢ記憶部１９と、有声性指標判定部２０とを備えている。すなわち、本実施形態における音声合成装置は、有声性指標判定部２０をさらに備えている点において、第１の実施形態における音声合成装置と異なる。

　有声性指標判定部２０は、各状態の有声性指標が適切か否かを判定し、不適切な有声性指標を適切な値に変更する。上述するように、有声性指標判定部２０は、有声性判定情報が１音素内において２回以上切り替わっている場合に、有声性指標が不適切であると判定してもよい。また、有声性指標判定部２０は、対象とする音素の有声性判定情報（有声状態／無声情報）が素片情報とは異なる情報（例えば、逆の情報）を示している場合に、有声性指標が不適切であると判定してもよい。このように、有声性指標判定部２０は、音素境界位置について「候補が複数ある」または「候補が存在しない」場合に不適切と判定する。

　そして、有声性指標が不適切であると判定された場合、有声性指標判定部２０は、不適切な有声性指標を適切な値に変更する。有声性指標判定部２０は、例えば、音声素片ＤＢ記憶部１９に記憶されている該当音素の素片音素情報２３に基づいて、有声性判定情報を変更してもよい。

　具体的には、該当音素の素片音素情報が有声であることを示す場合、有声性指標判定部２０は、その音素に属するフレームが全て有声である（すなわち、有声性判定情報が「Ｈ」である）と判断する。一方、該当音素の素片音素情報が無声であることを示す場合、有声性指標判定部２０は、その音素に属するフレームが全て無声である（すなわち、有声性判定情報が「Ｌ」である）と判断する。そして、有声性指標判定部２０は、判断した有声性判定情報で、もとの音素の有声性判定情報を変更する。

　また、有声と無声が切り替わる位置が複数存在する場合、有声性指標判定部２０は、音声素片ＤＢ記憶部１９に記憶されている該当音素の素片音素情報を用いずに、その切り替わる位置の１つを音素境界位置と判断してもよい。有声性指標判定部２０は、例えば、もとの音素境界位置に最も近い切り替わり箇所を音素境界位置と判断してもよい。ここで、切り替わり箇所の候補が元の境界と一致する場合、有声性指標判定部２０は、元の境界をそのまま有声と無声との境界と判断すればよい。

　図１０は、音素境界位置を判断する処理の例を示す説明図である。図１０（１）に示す例は、有声性判定情報の初期状態を示す。また、この初期状態では、有声音素（Ｖ）の有声性判定情報が、「ＬＨＬＨＬ」の順に並んでいることを示す。また、有声音素（Ｖ）内の各フレームをＦ１～Ｆ５で示す。また、有声音素（Ｖ）の前に位置する無声音素（Ｕ_１）の最後のフレームをＦ０とし、有声音素（Ｖ）の後に位置する無声音素（Ｕ_２）の最初のフレームをＦ６とする。

　まず、有声性指標判定部２０は、無声音素と有声音素との境界（すなわち、フレームＦ０とフレームＦ１）に着目する。フレームＦ０とフレームＦ１の有声性判定情報は、いずれも「Ｌ」である。そこで、有声性指標判定部２０は、その近傍のフレーム間の有声性判定情報に着目する。ここで、フレームＦ１の有声性判定情報は「Ｌ」であり、フレームＦ２の有声性判定情報は「Ｈ」である。そこで、有声性指標判定部２０は、フレームＦ１とフレームＦ２との境界をもとの音素境界位置に最も近い切り替わり箇所と判断する。そして、有声性指標判定部２０は、その切り替わり箇所に音素境界位置を移動させる（図１０（２）参照）。

　次に、有声音素と無声音素との境界（すなわち、フレームＦ５とフレームＦ６）近傍のフレームに着目する。ここで、フレームＦ４の有声性判定情報は「Ｌ」であり、フレームＦ５の有声性判定情報は「Ｈ」である。そこで、有声性指標判定部２０は、フレームＦ４とフレームＦ５との境界をもとの音素境界位置（すなわち、フレームＦ５とフレームＦ６の境界）に最も近い切り替わり箇所と判断する。そして、有声性指標判定部２０は、その切り替わり箇所に音素境界位置を移動させる（図１０（３）参照）。なお、図１０に示す例では、中央の無声状態を持つフレームＦ３は、無視されることになる。

　なお、上記説明では、各フレームの有声性判定情報を用いて有声音素と無声音素の境界を決定する場合について説明した。ただし、離散値である有声性判定情報を用いずに、連続値である有声性指標を直接用いてもよい。この場合、有声性指標判定部２０は、例えば、予め定めた閾値を超える点のうち、最大の差分を示す点を音素境界位置と判断してもよい。また、有声と無声との切り替わり点が存在しない場合、閾値を超える有声性指標を持つ状態は存在しない。この場合、有声性指標判定部２０は、例えば、最大の差分を示す点を音素境界位置と判断してもよい。この場合、閾値を超える有声性指標を持つ状態が存在しなくても、音素境界位置を確定することが可能になる。

　次に、本実施形態における音声合成装置の動作を説明する。図１１は、本実施形態における音声合成装置の動作の例を示すフローチャートである。なお、入力テキスト２１の言語解析処理を行い、韻律モデルに基づいて継続時間長およびピッチパタンを生成し、有声性指標２２を抽出するまでの処理は、図６に示すステップＳ２１～ステップＳ２４までの処理と同様である。

　その後、有声性指標判定部２０は、各状態の有声性指標が適切か否かを判定する（ステップＳ３１）。有声性指標が不適切である場合（ステップＳ３１におけるＮｏ）、有声性指標判定部２０は、もとの音素の有声性判定情報を適切な有声性指標に変更する（ステップＳ３２）。

　有声性指標が適切であった場合（ステップＳ３１におけるＹｅｓ）、または、有声性指標の変更後、音素境界移動方向決定部１５は、音素境界位置を更新する（ステップＳ２５）。以降、音素継続時間長生成部１６が音素境界位置に基づいて各音素の継続時間長を計算し、波形生成部１７が音素継続時間長とピッチパタンとに基づいて、音声波形を生成するまでの処理は、図６に示すステップＳ２６～ステップＳ２７までの処理と同様である。

　以上のように、本実施形態によれば、有声性指標判定部２０が各状態の有声性指標が適切か否かを判定し、不適切と判定した有声性指標を適切な値に変更する。そのため、第１の実施形態の効果に加え、各状態の有声性指標が適切な値に修正されることにより、境界の判定に誤りが発生することを防止できる。

　次に、本発明の最小構成の例を説明する。図１２は、本発明による音声合成装置の最小構成の例を示すブロック図である。本発明による音声合成装置８０は、統計的手法（例えば、ＭＳＤ－ＨＭＭ）によりモデル化された音素を表現する各状態の有声らしさの度合いを示す指標である有声性指標（例えば、韻律モデルから状態ごとに導出される情報）を用いて、その音素に隣接する他の音素との境界である音素境界位置を更新する音素境界更新手段８１（例えば、音素境界移動方向決定部１５）を備えている。そのため、統計的手法によりモデル化された場合の継続時間長よりも短い継続時間長で音素を表現できる。

　音素境界更新手段８１は、音素を表現する各状態が有声状態（例えば、フラグ「Ｈ」を設定した状態）を示すか無声状態（例えば、フラグ「Ｌ」を設定した状態）を示すか（例えば、有声性判定情報）を特定し、隣接する音素の一方が無声音（例えば、ＵＶ種別における「Ｕ」）を示し他方の音素が有声音（例えば、ＵＶ種別における「Ｖ」）を示す場合、有声状態と無声状態との関係に基づいて予め定められた規則（例えば、図３に例示する対応関係）に応じて、音素境界位置の移動方向を決定してもよい。

　このとき、音素境界更新手段８１は、有声性指標が予め定められた閾値を超える場合に音素を表現する状態を有声状態と特定し、有声性指標が予め定められた閾値以下の場合に音素を表現する状態を無声状態と特定してもよい。

　また、音素境界更新手段８１は、隣接する状態間の有声性指標の差分（例えば、Δｖ_ｉ）に基づいて、音素境界位置を更新してもよい。具体的には、音素境界更新手段８１は、音素境界更新手段は、隣接する一方の状態の有声性指標と他方の状態の有声性指標との差分が予め定められた閾値を超えた場合、その一方の状態と他方の状態との間の位置を音素境界位置と決定してもよい。

　また、音声合成装置８０は、更新された音素境界位置に基づいて音素の継続時間長を計算する音素継続長計算手段（例えば、音素継続時間長生成部１６）を備えていてもよい。

　また、音素境界更新手段８１は、状態の幅（例えば、フレーム長）に対応する長さの単位で音素境界位置を更新してもよい。

　また、音声合成装置８０は、各状態の有声性指標が適切か否かを判定し、不適切と判定した有声性指標を適切な値に変更する有声性指標判定手段（例えば、有声性指標判定部２０）を備えていてもよい。そのような構成により、各状態の有声性指標が適切な値に修正されるため、境界の判定に誤りが発生することを防止できる。

　また、有声性指標判定手段は、有声性指標に基づいて有声状態か無声状態かが判定された結果である有声性判定情報が１音素内において２回以上切り替わっている場合、または、対象とする音素の有声性判定情報が、音素の性質を示す情報として予め定められた情報である素片情報とは異なる情報を示している場合（例えば、素片音素情報と逆の有声状態または無声状態を示している場合）に、有声性指標が不適切であると判定してもよい。

　以上、実施形態及び実施例を参照して本願発明を説明したが、本願発明は上記実施形態および実施例に限定されるものではない。本願発明の構成や詳細には、本願発明のスコープ内で当業者が理解し得る様々な変更をすることができる。

　この出願は、２０１１年７月１１日に出願された日本特許出願２０１１－１５２８４９を基礎とする優先権を主張し、その開示の全てをここに取り込む。

　本発明は、統計的手法によって生成される音素継続時間長情報を用いる音声合成装置に好適に適用される。

　１１　言語解析部
　１２　状態継続長生成部
　１３　ピッチパタン生成部
　１４　有声性指標抽出部
　１５　音素境界移動方向決定部
　１６　音素継続時間長生成部
　１７　波形生成部
　１８　韻律モデル記憶部
　１９　音声素片データベース記憶部
　２０　有声性指標判定部

Claims

　統計的手法によりモデル化された音素を表現する各状態の有声らしさの度合いを示す指標である有声性指標を用いて、当該音素に隣接する他の音素との境界である音素境界位置を更新する音素境界更新手段を備えた
　ことを特徴とする音声合成装置。
　音素境界更新手段は、音素を表現する各状態が有声状態を示すか無声状態を示すかを特定し、隣接する音素の一方が無声音を示し他方の音素が有声音を示す場合、前記有声状態と無声状態との関係に基づいて予め定められた規則に応じて、音素境界位置の移動方向を決定する
　請求項１記載の音声合成装置。
　音素境界更新手段は、有声性指標が予め定められた閾値を超える場合に音素を表現する状態を有声状態と特定し、有声性指標が予め定められた閾値以下の場合に音素を表現する状態を無声状態と特定する
　請求項２記載の音声合成装置。
　音素境界更新手段は、隣接する状態間の有声性指標の差分に基づいて、音素境界位置を更新する
　請求項１記載の音声合成装置。
　音素境界更新手段は、隣接する一方の状態の有声性指標と他方の状態の有声性指標との差分が予め定められた閾値を超えた場合、当該一方の状態と他方の状態との間の位置を音素境界位置と決定する
　請求項４記載の音声合成装置。
　更新された音素境界位置に基づいて音素の継続時間長を計算する音素継続長計算手段を備えた
　請求項１から請求項５のうちのいずれか１項に記載の音声合成装置。
　音素境界更新手段は、状態の幅に対応する長さの単位で音素境界位置を更新する
　請求項１から請求項６のうちのいずれか１項に記載の音声合成装置。
　各状態の有声性指標が適切か否かを判定し、不適切と判定した有声性指標を適切な値に変更する有声性指標判定手段を備えた
　請求項１から請求項７のうちのいずれか１項に記載の音声合成装置。
　有声性指標判定手段は、有声性指標に基づいて有声状態か無声状態かが判定された結果である有声性判定情報が１音素内において２回以上切り替わっている場合、または、対象とする音素の前記有声性判定情報が、音素の性質を示す情報として予め定められた情報である素片情報とは異なる情報を示している場合に、有声性指標が不適切であると判定する
　請求項８記載の音声合成装置。
　統計的手法によりモデル化された音素を表現する各状態の有声らしさの度合いを示す指標である有声性指標を用いて、当該音素に隣接する他の音素との境界である音素境界位置を更新する
　ことを特徴とする音声合成方法。
　音素を表現する各状態が有声状態を示すか無声状態を示すかを特定し、隣接する音素の一方が無声音を示し他方の音素が有声音を示す場合、前記有声状態と無声状態との関係に基づいて予め定められた規則に応じて、音素境界位置の移動方向を決定する
　請求項１０記載の音声合成方法。
　隣接する状態間の有声性指標の差分に基づいて、音素境界位置を更新する
　請求項１０記載の音声合成方法。
　コンピュータに、
　統計的手法によりモデル化された音素を表現する各状態の有声らしさの度合いを示す指標である有声性指標を用いて、当該音素に隣接する他の音素との境界である音素境界位置を更新する音素境界更新処理
　を実行させるための音声合成プログラム。
　コンピュータに、
　音素境界更新処理で、音素を表現する各状態が有声状態を示すか無声状態を示すかを特定させ、隣接する音素の一方が無声音を示し他方の音素が有声音を示す場合、前記有声状態と無声状態との関係に基づいて予め定められた規則に応じて、音素境界位置の移動方向を決定させる
　請求項１３記載の音声合成プログラム。
　コンピュータに、
　音素境界更新処理で、隣接する状態間の有声性指標の差分に基づいて、音素境界位置を更新させる
　請求項１３記載の音声合成プログラム。