WO2018003849A1

WO2018003849A1 - 音声合成装置および音声合成方法

Info

Publication number: WO2018003849A1
Application number: PCT/JP2017/023739
Authority: WO
Inventors: 久湊　裕司; 竜之介大道; 慶二郎才野; ジョルディボナダ; メルレインブラアウ
Original assignee: ヤマハ株式会社
Priority date: 2016-06-30
Filing date: 2017-06-28
Publication date: 2018-01-04
Also published as: EP3480810A1; US11289066B2; JP6821970B2; EP3480810A4; CN109416911A; CN109416911B; US20190130893A1; JP2018004870A

Abstract

音声合成方法は、音声の合成指示に応じた複数の音声素片を順次に取得する取得ステップと、合成指示に応じた統計スペクトル包絡を統計モデルにより生成する生成ステップと、順次に取得された複数の音声素片を相互に接続し、かつ、生成された統計スペクトル包絡に応じて各音声素片の周波数スペクトル包絡を変更し、変更された周波数スペクトルを有する接続された音声素片に基づいて音声信号を合成する合成ステップとを具備する。

Description

音声合成装置および音声合成方法

　本発明は、音声を合成する技術に関する。

　任意の音韻（発音内容）の音声を合成する音声合成の技術が従来から提案されている。例えば特許文献１には、複数の音声素片のうち目標の音韻に応じて選択された音声素片を相互に接続することで合成音声を生成する素片接続型の音声合成が開示されている。また、特許文献２には、声道特性を表現するスペクトルパラメータの系列をＨＭＭ（Hidden Markov Model）により生成してスペクトルパラメータに応じた周波数特性の合成フィルタにより励振信号を処理することで、合成音声を生成する統計モデル型の音声合成が開示されている。

特開２００７－２４０５６４号公報特開２００２－２６８６６０号公報

　ところで、標準的な声質の音声だけでなく、例えば強目に発音した音声または穏やかに発音した音声など、多様な声質の音声を合成することが要求される。素片接続型の音声合成において多様な声質の音声を合成するためには、多数の音声素片の集合（音声合成用ライブラリ）を声質毎に個別に用意する必要がある。したがって、音声素片を保持するために充分な記憶容量が必要である。他方、統計モデル型の音声合成において統計モデルで推定されるスペクトルは、学習過程において多数のスペクトルを平均したスペクトルであり、素片接続型の音声素片と比較して時間分解能および周波数分解能が低い。したがって、高品質な合成音声の生成は困難である。以上の事情を考慮して、本発明は、音声合成に必要な記憶容量を削減しながら所望の声質の高品質な合成音声を生成することを目的とする。

　以上の課題を解決するために、本発明の好適な態様に係る音声合成方法は、音声の合成指示に応じた複数の音声素片を順次に取得する取得ステップと、前記合成指示に応じた統計スペクトル包絡を統計モデルにより生成する生成ステップと、前記順次に取得された複数の音声素片を相互に接続し、かつ、前記生成された統計スペクトル包絡に応じて各音声素片の周波数スペクトル包絡を変更し、前記変更された周波数スペクトルを有する前記接続された音声素片に基づいて音声信号を合成する合成ステップとを具備する。
　本発明の好適な態様に係る音声合成装置は、音声の合成指示に応じた複数の音声素片を順次に取得する素片取得部と、前記合成指示に応じた統計スペクトル包絡を統計モデルにより生成する包絡生成部と、前記順次に取得された複数の音声素片を相互に接続し、かつ、前記生成された統計スペクトル包絡に応じて当該各音声素片の周波数スペクトル包絡を変更し、前記変更された周波数スペクトルを有する前記接続された音声素片に基づいて音声信号を合成する音声合成部とを具備する。

第１実施形態における音声合成装置のブロック図である。音声合成装置の動作の説明図である。音声合成装置の機能的なブロック図である。特性調整処理のフローチャートである。音声合成処理のフローチャートである。第２実施形態における音声合成装置の機能的なブロック図である。変形例における音声合成部のブロック図である。変形例における音声合成部のブロック図である。

＜第１実施形態＞
　図１は、本発明の第１実施形態に係る音声合成装置１００のブロック図である。第１実施形態の音声合成装置１００は、所望の音韻（発音内容）の音声を合成する信号処理装置であり、制御装置１２と記憶装置１４と入力装置１６と放音装置１８とを具備するコンピュータシステムで実現される。例えば携帯電話機またはスマートフォン等の可搬型の端末装置、あるいはパーソナルコンピュータ等の可搬型または据置型の端末装置が、音声合成装置１００として利用され得る。第１実施形態の音声合成装置１００は、特定の楽曲（以下「楽曲Ａ」という）を歌唱した音声の音響信号Ｖを生成する。なお、音声合成装置１００は、単体の装置として実現されるほか、相互に別体で構成された複数の装置の集合（すなわちコンピュータシステム）でも実現される。

　制御装置１２は、例えばＣＰＵ（Central Processing Unit）等の処理回路を含んで構成され、音声合成装置１００の各要素を統括的に制御する。入力装置１６は、利用者からの指示を受付ける操作機器である。例えば利用者が操作可能な操作子、または、表示装置（図示略）の表示面に対する接触を検知するタッチパネルが入力装置１６として好適に利用される。放音装置１８（例えばスピーカまたはヘッドホン）は、音声合成装置１００が生成した音響信号Ｖに応じた音声を再生する。なお、音響信号Ｖをデジタルからアナログに変換するＤ/Ａ変換器の図示は便宜的に省略した。

　記憶装置１４は、制御装置１２が実行するプログラムと制御装置１２が使用する各種のデータとを記憶する。例えば半導体記録媒体または磁気記録媒体等の公知の記録媒体、あるいは複数種の記録媒体の組合せが、記憶装置１４として任意に採用され得る。なお、音声合成装置１００とは別体で記憶装置１４（例えばクラウドストレージ）を設置し、移動通信網またはインターネット等の通信網を介して制御装置１２が記憶装置１４に対する読出または書込を実行することも可能である。すなわち、記憶装置１４は音声合成装置１００から省略され得る。

　第１実施形態の記憶装置１４は、図１に例示される通り、音声素片群Ｌと合成情報Ｄと統計モデルＭとを記憶する。音声素片群Ｌは、特定の発声者（以下「発声者Ｂ」という）が発音した音声から事前に収録された複数の音声素片ＰAの各々を表す素片データの集合（音声合成用ライブラリ）である。第１実施形態の各音声素片ＰAは、発声者Ｂが標準的な声質（以下「第１声質」という）で発音した音声から採取される。各音声素片ＰAは、例えば母音または子音等の音素単体、あるいは、複数の音素を連結した音素連鎖（例えばダイフォンまたはトライフォン）である。時間分解能または周波数分解能が充分に高い音声素片ＰAが音声素片群Ｌには収録される。

　任意の１個の音声素片ＰAの素片データは、図２に例示される通り、当該音声素片ＰAを時間軸上で区分した単位区間（フレーム）毎に、周波数スペクトルＱAとスペクトル包絡（以下「素片スペクトル包絡」という）Ｘとを表す。周波数スペクトルＱAは、例えば音声素片ＰAの複素スペクトル（またはその極形式表現）である。素片スペクトル包絡Ｘは、周波数スペクトルＱAの概形を表す包絡線（エンベロープ）である。なお、周波数スペクトルＱAから素片スペクトル包絡Ｘを算定することが可能であるから、素片スペクトル包絡Ｘを素片データに含ませない構成も原理的には採用し得る。しかし、周波数スペクトルＱAから好適な素片スペクトル包絡Ｘを一意に算定することは必ずしも容易ではないから、実際には、周波数スペクトルＱAを表すデータとともに素片スペクトル包絡Ｘを表すデータを素片データに含ませた構成が好適である。

　素片スペクトル包絡Ｘは、時間的及び／又は周波数的な変動が緩慢である平滑成分Ｘ1と、平滑成分Ｘ1と比較して速く変動する微細な変動成分Ｘ2とを含有する。ここで、平滑成分Ｘ1は、周波数スペクトルＱAを周波数軸方向に所定の平滑度で平滑化して得たスペクトル包絡Ｘ0に、さらに、より高い平滑度での周波数軸方向の平滑化、所定の平滑度での時間軸方向の平滑化、または、それら両方の平滑化を施して得られる。また、変動成分Ｘ2は、スペクトル包絡Ｘ0から変動成分Ｘ1を減算して得られる。平滑成分Ｘ1および変動成分Ｘ2は、例えば線スペクトル対係数または周波数毎の振幅値等の任意の特徴量で表現され得る。具体的には、例えば平滑成分Ｘ1は線スペクトル対係数で好適に表現され、変動成分Ｘ2は、周波数毎の振幅値で好適に表現される。

　図１の合成情報Ｄは、音声合成装置１００による合成内容を指示するデータ（音声の合成指示）である。具体的には、合成情報Ｄは、楽曲Ａを構成する複数の音符の各々について音高ＤAと音韻ＤBとを指定する。音高ＤAは、例えばＭＩＤＩ（Musical Instrument Digital Interface）のノート番号である。音韻ＤBは、合成音声による発音内容（すなわち楽曲Ａの歌詞）であり、例えば書記素または音声記号で記述される。合成情報Ｄは、入力装置１６に対する利用者からの指示に応じて生成および変更される。また、配信サーバ装置から通信網を介して配信された合成情報Ｄを記憶装置１４に格納することも可能である。

　統計モデルＭは、音声素片ＰAとは声質が異なる音声のスペクトル包絡（以下「統計スペクトル包絡」という）Ｙの時間変化を合成情報Ｄに応じて統計的に推定するための数理モデルである。第１実施形態の統計モデルＭは、合成情報Ｄに応じて特定される属性（コンテキスト）毎に遷移モデルを含むコンテキスト依存モデルである。ここで特定される属性は、例えば、ピッチ、音量、音韻の何れか１、何れか２乃至全部である。遷移モデルは、複数の状態で記述されたＨＭＭ（Hidden Markov Model）である。遷移モデルの複数の状態の各々には、統計スペクトル包絡Ｙの生起確率の確率分布（occurrence probability distribution）を規定する統計値（具体的には平均ベクトルおよび共分散行列）が設定される。この統計値は、状態の時間的な遷移を規定する統計値であってもよい。そして、各遷移モデルの状態毎の統計値が、統計モデルＭとして記憶装置１４に記憶される。遷移モデルの属性には、各時点の音素の情報（ピッチ、音量、音韻等）に加え、さらに、その音素の直前または直後の音素の情報が含まれていてもよい。

　統計モデルＭは、発声者Ｂがある声質で発音した多数の音声のスペクトル包絡を学習データとして利用した機械学習で事前に生成される。例えば、ある声質の統計モデルＭのうち、任意の１個の属性に対応する遷移モデルは、発声者Ｂがその声質で発音した多数の音声のうち、当該属性に分類される音声のスペクトル包絡を学習データとした機械学習で生成される。ここで、統計モデルＭの機械学習に学習データとして利用される音声は、音声素片ＰAの第１声質とは異なる声質（以下「第２声質」という）で発声者Ｂが発音した音声である。第２声質として、具体的には、第１声質と比較して発声者Ｂが強目に発音した音声、より穏やかに発音した音声、より明るく発音した音声、より曖昧に発音した音声等の何れかが、統計モデルＭの機械学習に利用される。すなわち、何れか１の第２声質で発音された音声のスペクトル包絡の統計的な傾向が、統計モデルＭにより属性毎の統計値としてモデル化される。したがって、この統計モデルを用いれば、その第２声質の音声の統計スペクトル包絡Ｙが推定される。統計モデルＭは、音声素片群Ｌと比較してデータ量が充分に小さい。なお、統計モデルＭは、例えば標準的な第１声質の音声素片群Ｌに対する付加的なデータとして、音声素片群Ｌとは別個に提供される。

　図３は、第１実施形態における制御装置１２の機能に着目したブロック図である。図３に例示される通り、制御装置１２は、記憶装置１４に記憶されたプログラムを実行することで、合成情報Ｄに応じた合成音声の音響信号Ｖを生成するための複数の機能（素片取得部２０，包絡生成部３０および音声合成部４０）を実現する。なお、制御装置１２の機能を複数の装置が実現する構成、または、制御装置１２の一部の機能を専用の電子回路が分担する構成も採用され得る。

　素片取得部２０は、合成情報Ｄに応じた音声素片ＰBを順次に取得する。具体的には、素片取得部２０は、合成情報Ｄが指定する音韻ＤBに対応する音声素片ＰAを、合成情報Ｄが指定する音高ＤAに調整することで音声素片ＰBを生成する。図３に例示される通り、第１実施形態の素片取得部２０は、素片選択部２２と素片加工部２４とを含んで構成される。

　素片選択部２２は、合成情報Ｄが音符毎に指定する音韻ＤBに対応した音声素片ＰAを記憶装置１４の音声素片群Ｌから順次に選択する。なお、音高が相違する複数の音声素片ＰAを音声素片群Ｌに登録することも可能である。合成情報Ｄが指定する音韻ＤBに対応する相異なる音高の複数の音声素片ＰAのうち、合成情報Ｄが指定する音高ＤAに近い音高の音声素片ＰAを素片選択部２２は選択する。

　素片加工部２４は、素片選択部２２が選択した音声素片ＰAの音高を、合成情報Ｄで指定される音高ＤAに調整する。音声素片ＰAの音高の調整には、例えば特許文献１に記載された技術が好適に利用される。具体的には、素片加工部２４は、図２に例示される通り、音声素片ＰAの周波数スペクトルＱAを周波数軸の方向に伸縮することで音高ＤAに調整し、調整後の周波数スペクトルのピークが素片スペクトル包絡Ｘの線上に位置するように強度を調整することで周波数スペクトルＱBを生成する。したがって、素片取得部２０が取得する音声素片ＰBは、周波数スペクトルＱBと素片スペクトル包絡Ｘとで表現される。なお、素片加工部２４が実行する処理の内容は音声素片ＰAの音高の調整に限定されない。例えば、相前後する各音声素片ＰAの間の補間を素片加工部２４が実行することも可能である。

　図３の包絡生成部３０は、合成情報Ｄに応じた統計スペクトル包絡Ｙを統計モデルＭにより生成する。具体的には、包絡生成部３０は、合成情報Ｄに応じた属性（コンテキスト）の遷移モデルを統計モデルＭから順次に検索して、検索された統計モデルを相互に連結し、複数の遷移モデルの時系列から統計スペクトル包絡Ｙを単位区間毎に順次に生成する。すなわち、合成情報Ｄで指定される音韻ＤBを第２声質で発音した音声のスペクトル包絡が統計スペクトル包絡Ｙとして包絡生成部３０により順次に生成される。

　なお、統計スペクトル包絡Ｙは、線スペクトル対係数または低次ケプストラム係数等の任意の種類の特徴量で表現され得る。低次ケプストラム係数は、信号のパワースペクトルの対数のフーリエ変換であるケプストラム係数のうち、声道等の調音器官の共鳴特性に由来する低次側の所定個の係数である。なお、統計スペクトル包絡Ｙを線スペクトル対係数で表現した場合、線スペクトル対係数の低次側から高次側にかけて係数値が順番に増加する関係を維持することが必要である。しかし、統計モデルＭにより統計スペクトル包絡Ｙを生成する過程では、線スペクトル対係数の平均等の統計的な演算により以上の関係が崩れる可能性（統計スペクトル包絡Ｙを適正に表現できない可能性）がある。したがって、統計スペクトル包絡Ｙを表現する特徴量としては、線スペクトル対係数よりも低次ケプストラム係数が好適である。

　図３の音声合成部４０は、素片取得部２０が取得した音声素片ＰBと包絡生成部３０が生成した統計スペクトル包絡Ｙとを利用して合成音声の音響信号Ｖを生成する。具体的には、音声合成部４０は、各音声素片ＰBを相互に接続した音声であって、統計スペクトル包絡Ｙに応じて各音声素片ＰBが調整された合成音声を表す音響信号Ｖを生成する。図３に例示される通り、第１実施形態の音声合成部４０は、特性調整部４２と素片接続部４４とを含んで構成される。

　特性調整部４２は、素片取得部２０が取得した各音声素片ＰBの周波数スペクトルＱBの包絡（素片スペクトル包絡Ｘ）を、包絡生成部３０が生成した統計スペクトル包絡Ｙに近付けることで音声素片ＰCの周波数スペクトルＱCを生成する。素片接続部４４は、特性調整部４２による調整後の各音声素片ＰCを相互に接続することで音響信号Ｖを生成する。具体的には、音声素片ＰCの各フレームにおける周波数スペクトルＱCを例えば短時間逆フーリエ変換等の演算で時間領域の波形信号（時間軸方向の窓関数が掛け合わされた信号）に変換し、相前後するフレームの波形信号を、先の波形信号の後部と後の波形信号の前部とを時間的に重複させたうえで加算することで、一連のフレームに対応する音響信号Ｖが生成される。なお、音声素片ＰCの位相スペクトルとしては、例えば音声素片ＰAの位相スペクトル、または、最小位相条件により算定された位相スペクトルが好適に利用される。

　図４は、特性調整部４２が音声素片ＰBの周波数スペクトルＱBから音声素片ＰCの周波数スペクトルＱCを生成する処理（以下「特性調整処理」という）ＳC1のフローチャートである。図４に例示される通り、特性調整部４２は、係数αおよび係数βを設定する（ＳC11）。係数（補関係数の例示）αおよび係数βは、例えば入力装置１６に対する利用者からの指示に応じて可変に設定される１以下の非負値（０≦α≦１，０≦β≦１）である。

　特性調整部４２は、素片取得部２０が取得した音声素片ＰBの素片スペクトル包絡Ｘと、包絡生成部３０が生成した統計スペクトル包絡Ｙとを係数αにより補間することでスペクトル包絡（以下「補間スペクトル包絡」という）Ｚを生成する（ＳC12）。補間スペクトル包絡Ｚは、図２に例示される通り、素片スペクトル包絡Ｘと統計スペクトル包絡Ｙとの中間的な特性のスペクトル包絡である。具体的には、補間スペクトル包絡Ｚは、以下に例示する数式(1)および数式(2)で表現される。
Ｚ＝Ｆ(Ｃ)　……(1)
Ｃ＝α・ｃY＋(１－α)・ｃX1＋β・ｃX2　……(2)
　数式(2)の記号ｃX1は、素片スペクトル包絡Ｘの平滑成分Ｘ1を表す特徴量であり、記号ｃX2は、素片スペクトル包絡Ｘの変動成分Ｘ2を表す特徴量である。また、記号ｃYは、統計スペクトル包絡Ｙを表す特徴量である。数式(2)では、特徴量ｃX1と特徴量ｃYとが同種の特徴量（例えば線スペクトル対係数）である場合を想定した。数式(1)の記号Ｆ(Ｃ)は、数式(2)で算定された特徴量Ｃをスペクトル包絡（すなわち周波数毎の数値の系列）に変換する変換関数である。

　数式(1)および数式(2)から理解される通り、特性調整部４２は、統計スペクトル包絡Ｙと素片スペクトル包絡Ｘの平滑成分Ｘ1との補間（α・ｃY＋(１－α)・ｃX1）に対して、素片スペクトル包絡Ｘの変動成分Ｘ2を係数βに応じた度合で加算することで、補間スペクトル包絡Ｚを算定する。数式(2)から理解される通り、係数αが大きいほど、統計スペクトル包絡Ｙを優勢に反映した補間スペクトル包絡Ｚが生成され、係数αが小さいほど、素片スペクトル包絡Ｘを優勢に反映した補間スペクトル包絡Ｚが生成される。すなわち、係数αが大きい（最大値１に近い）ほど、第２声質に近い合成音声の音響信号Ｖが生成され、係数αが小さい（最小値０に近い）ほど、第１声質に近い合成音声の音響信号Ｖが生成される。また、係数αが最大値１に設定された場合（Ｃ＝ｃY＋β・ｃX2）、合成情報Ｄが指定する音韻ＤBを第２声質で発音した合成音声の音響信号Ｖが生成される。他方、係数αが最小値０に設定された場合（Ｃ＝ｃX1＋β・ｃX2）、合成情報Ｄが指定する音韻ＤBを第１声質で発音した合成音声の音響信号Ｖが生成される。以上の説明から理解される通り、補間スペクトル包絡Ｚは、素片スペクトル包絡Ｘと統計スペクトル包絡Ｙとから生成され、第１声質および第２声質の一方を他方に近付けた音声のスペクトル包絡（すなわち、素片スペクトル包絡Ｘおよび統計スペクトル包絡Ｙの一方を他方に近付けたスペクトル包絡）に相当する。また、補間スペクトル包絡Ｚは、素片スペクトル包絡Ｘおよび統計スペクトル包絡Ｙの双方の特性を含むスペクトル包絡、または、素片スペクトル包絡Ｘおよび統計スペクトル包絡Ｙの双方の特性を結合したスペクトル包絡とも換言され得る。

　なお、前述の通り、素片スペクトル包絡Ｘの平滑成分Ｘ1と統計スペクトル包絡Ｙとを相異なる種類の特徴量で表現することも可能である。例えば、素片スペクトル包絡Ｘの平滑成分Ｘ1を表す特徴量ｃX1が線スペクトル対係数であり、統計スペクトル包絡Ｙを表す特徴量ｃYが低次ケプストラム係数である場合を想定すると、前述の数式(2)は以下の数式(2a)に置換される。
Ｃ＝α・Ｇ(ｃY)＋(１－α)・ｃX1＋β・ｃX2　……(2a)
　数式(2a)の記号Ｇ(ｃY)は、低次ケプストラム係数である特徴量ｃYを、特徴量ｃX1と同種の線スペクトル対係数に変換するための変換関数である。

　特性調整部４２は、素片取得部２０が取得した各音声素片ＰBの周波数スペクトルＱBを、以上の手順（ＳC11およびＳC12）で生成した補間スペクトル包絡Ｚに近付けることで、音声素片ＰCの周波数スペクトルＱCを生成する（ＳC13）。具体的には、特性調整部４２は、図２に例示される通り、周波数スペクトルＱBの各ピークが補間スペクトル包絡Ｚの線上に位置するように周波数スペクトルＱBの強度を調整することで周波数スペクトルＱCを生成する。特性調整部４２が音声素片ＰBから音声素片ＰCを生成する処理の具体例は以上の通りである。

　図５は、合成情報Ｄに応じた合成音声の音響信号Ｖを生成する処理（以下「音声合成処理」という）Ｓのフローチャートである。入力装置１６に対する利用者からの操作で音声合成の開始が指示された場合に図５の音声合成処理Ｓが開始される。

　音声合成処理Ｓを開始すると、素片取得部２０は、合成情報Ｄに応じた音声素片ＰBを順次に取得する（ＳA）。具体的には、素片選択部２２は、合成情報Ｄが指定する音韻ＤBに対応した音声素片ＰAを音声素片群Ｌから選択する（ＳA1）。素片加工部２４は、素片選択部２２が選択した音声素片ＰAの音高を、合成情報Ｄで指定される音高ＤAに調整することで音声素片ＰBを生成する（ＳA2）。他方、包絡生成部３０は、合成情報Ｄに応じた統計スペクトル包絡Ｙを統計モデルＭにより生成する（ＳB）。なお、素片取得部２０による音声素片ＰBの取得（ＳA）と包絡生成部３０による統計スペクトル包絡Ｙの生成（ＳB）との順序は任意であり、統計スペクトル包絡Ｙの生成（ＳB）後に音声素片ＰBを取得（ＳA）することも可能である。

　音声合成部４０は、素片取得部２０が取得した音声素片ＰBと包絡生成部３０が生成した統計スペクトル包絡Ｙとに応じた合成音声の音響信号Ｖを生成する（ＳC）。具体的には、特性調整部４２は、図４に例示した特性調整処理ＳC1により、素片取得部２０が取得した各音声素片ＰBの周波数スペクトルＱBを、その包絡（素片スペクトル包絡Ｘ）が統計スペクトル包絡Ｙに近付くように変更した周波数スペクトルＱCを生成する。素片接続部４４は、特性調整部４２による調整後の各音声素片ＰCを相互に接続することで音響信号Ｖを生成する（ＳC2）。音声合成部４０（素片接続部４４）が生成した音響信号Ｖは放音装置１８に供給される。

　音声合成処理Ｓを終了すべき時点が到来するまで（ＳD：NO）、音声素片ＰBの取得（ＳA）と統計スペクトル包絡Ｙの生成（ＳB）と音響信号Ｖの生成（ＳC）とが反復される。例えば利用者が入力装置１６に対する操作で音声合成処理Ｓの終了を指示した場合、または、楽曲Ａの全体にわたり音声合成が完了した場合（ＳD：YES）に、音声合成処理Ｓは終了する。

　以上に例示した通り、第１実施形態では、音声素片ＰBを相互に接続した音声であって、統計モデルＭにより生成された統計スペクトル包絡Ｙに応じて各音声素片ＰBを調整した合成音声の音響信号Ｖが生成される。すなわち、第２声質に近い合成音声を生成することが可能である。したがって、声質毎に音声素片ＰAを用意する構成と比較して、所望の声質の合成音声を生成するために必要な記憶装置１４の記憶容量が削減される。また、統計モデルＭにより合成音声を生成する構成と比較して、時間分解能または周波数分解能が高い音声素片ＰAを利用した高品位な合成音声を生成することが可能である。

　また、第１実施形態では、音声素片ＰBの素片スペクトル包絡Ｘ（元の周波数スペクトル）と統計スペクトル包絡Ｙとの間を可変の係数αに基づいて補間して補間スペクトル包絡Ｚを求め、当該音声素片ＰBの周波数スペクトルＱBを、その包絡がその補間スペクトルＺとなるよう加工している。以上の構成では、素片スペクトル包絡Ｘと統計スペクトル包絡Ｙとの補間に適用される係数（加重値）αが可変に設定されるから、音声素片ＰBの周波数スペクトルＱBを統計スペクトル包絡Ｙに近付ける度合（声質の調整の度合）を変化させることが可能である。

　第１実施形態では、素片スペクトル包絡Ｘ（元の周波数スペクトル包絡）は、時間的な変動が緩慢である平滑成分Ｘ1と、平滑成分Ｘ1と比較して微細に変動する変動成分Ｘ2とを含み、特性調整部４２は、統計スペクトル包絡Ｙと平滑成分Ｘ1との間を補間して得たスペクトル包絡に変動成分Ｘ2を加算することで補間スペクトル包絡Ｚを算定する。以上の態様では、前記補間で得られる滑らかなスペクトル包絡に変動成分Ｘ2を加算することで補間スペクトル包絡Ｚが算定されるから、変動成分Ｘ2を適切に反映した補間スペクトル包絡Ｚを算定することが可能である。

　また、素片スペクトル包絡Ｘの平滑成分Ｘ1は線スペクトル対係数で表現され、素片スペクトル包絡Ｘの変動成分Ｘ2は周波数毎の振幅値で表現され、統計スペクトル包絡Ｙは低次ケプストラム係数で表現される。以上の態様では、素片スペクトル包絡Ｘと統計スペクトル包絡Ｙとが相異なる種類の特徴量で表現されるから、素片スペクトル包絡Ｘおよび統計スペクトル包絡Ｙの各々にとって適切な特徴量を利用できるという利点がある。例えば、統計スペクトル包絡Ｙを線スペクトル対係数で表現した構成では、統計モデルＭを利用した統計スペクトル包絡Ｙの生成の過程において、線スペクトル対係数の低次側から高次側にかけて係数値が順番に増加するという関係が崩れる可能性がある。以上の事情を考慮すると、統計スペクトル包絡Ｙを低次ケプストラム係数で表現した構成は格別に好適である。

＜第２実施形態＞
　本発明の第２実施形態を説明する。なお、以下に例示する各形態において作用または機能が第１実施形態と同様である要素については、第１実施形態の説明で使用した符号を流用して各々の詳細な説明を適宜に省略する。

　図６は、第２実施形態の音声合成装置１００の機能に着目したブロック図である。図６に例示される通り、第２実施形態の音声合成装置１００の記憶装置１４は、第１実施形態と同様の音声素片群Ｌおよび合成情報Ｄのほか、発声者Ｂの相異なる複数の第２声質に対応する複数（Ｋ個）の統計モデルＭ[1]～Ｍ[K]を記憶する。例えば、発声者Ｂが強目に発音した音声の統計モデル、穏やかに発音した音声の統計モデル、明るく発音した音声の統計モデル、曖昧に発音した音声の統計モデル等を含む複数の統計モデルＭ[1]～Ｍ[K]が記憶装置１４に記憶される。任意の１個の統計モデルＭ[k]（ｋ＝１～Ｋ）は、相異なるＫ種類の第２声質のうち第ｋ番目の第２声質で発声者Ｂが発音した音声を学習データとして利用した機械学習により事前に生成される。したがって、Ｋ種類の第２声質のうち第ｋ番目の第２声質の音声の統計スペクトル包絡Ｙが統計モデルＭ[k]により推定される。Ｋ個の統計モデルＭ[1]～Ｍ[K]の合計のデータ量は音声素片群Ｌのデータ量を下回る。

　第２実施形態の包絡生成部３０は、記憶装置１４に記憶されたＫ個の統計モデルＭ[1]～Ｍ[K]の何れかを選択的に利用して統計スペクトル包絡Ｙを生成する。例えば、包絡生成部３０は、入力装置１６に対する操作で利用者が選択した第２声質の統計モデルＭ[k]を利用して統計スペクトル包絡Ｙを生成する。統計モデルＭ[k]を利用して包絡生成部３０が統計スペクトル包絡Ｙを生成する動作は第１実施形態と同様である。また、素片取得部２０が合成情報Ｄに応じた音声素片ＰBを取得する構成、および、素片取得部２０が取得した音声素片ＰBと包絡生成部３０が生成した統計スペクトル包絡Ｙとに応じて音声合成部４０が音響信号Ｖを生成する構成も、第１実施形態と同様である。

　第２実施形態においても第１実施形態と同様の効果が実現される。また、第２実施形態では、Ｋ個の統計モデルＭ[1]～Ｍ[K]の何れかが統計スペクトル包絡Ｙの生成に選択的に利用されるから、１個の統計モデルＭのみを利用する構成と比較して、多様な声質の合成音声を生成できるという利点がある。第２実施形態では特に、入力装置１６に対する操作で利用者が選択した第２声質の統計モデルＭ[k]が統計スペクトル包絡Ｙの生成に利用されるから、利用者の意図または嗜好に沿った声質の合成音声を生成できるという利点もある。

＜変形例＞
　以上に例示した各形態は多様に変形され得る。具体的な変形の態様を以下に例示する。以下の例示から任意に選択された２以上の態様は適宜に併合され得る。

（１）前述の各形態では、各音声素片ＰBの周波数スペクトルＱBを統計スペクトル包絡Ｙに近付けてから時間領域で相互に接続したが、音声素片ＰBと統計スペクトル包絡Ｙとに応じた音響信号Ｖを生成するための構成および方法は以上の例示に限定されない。

　例えば、図７に例示された構成の音声合成部４０を採用することも可能である。図７の音声合成部４０は、素片接続部４６と特性調整部４８とを具備する。素片接続部４６は、素片取得部２０が取得した各音声素片ＰBを相互に接続することで音響信号Ｖ0を生成する。具体的には、素片接続部４６は、音声素片ＰBの各フレームにおける周波数スペクトルＱBを時間領域の信号に変換し、相前後するフレームの信号を相互に重複させながら加算することで一連のフレームに対応する音響信号Ｖ0を生成する。音響信号Ｖ0は、第１声質の合成音声を表す時間領域の信号である。図７の特性調整部４８は、統計スペクトル包絡Ｙの周波数特性を時間領域で音響信号Ｖ0に付与することで音響信号Ｖを生成する。例えば、統計スペクトル包絡Ｙと平滑成分Ｘ1との差分の周波数スペクトル包絡に応じて周波数レスポンスが可変に設定されるフィルタが特性調整部４８として好適に利用される。図７の音声合成部４０を利用した構成でも、前述の各形態と同様に、第２声質の合成音声を表す音響信号Ｖが生成される。

　また、図８に例示された構成の音声合成部４０を採用することも可能である。図８の音声合成部４０は、素片補間部５２と特性調整部５４と波形合成部５６とを具備する。素片補間部５２は、素片取得部２０が取得した各音声素片ＰBについて補間処理を実行する。具体的には、相前後する各音声素片ＰBの相互間において、周波数スペクトルＱBの補間処理と素片スペクトル包絡Ｘの補間処理とが周波数領域で実行される。周波数スペクトルＱBの補間処理は、時間的に相前後する２個の音声素片ＰBの接続部分において周波数スペクトルが連続的に変化するように、２個の音声素片ＰBの間で周波数スペクトルＱBを補間（例えばクロスフェード）する処理である。また、素片スペクトル包絡Ｘの補間処理は、相前後する２個の音声素片ＰBの接続部分においてスペクトル包絡が連続的に変化するように、２個の音声素片ＰBの間で素片スペクトル包絡Ｘの平滑成分Ｘ1および変動成分Ｘ2の各々を補間（例えばクロスフェード）する処理である。素片補間部５２は、相前後する各音声素片ＰBを周波数領域で相互に接続する処理とも換言され得る。

　図８の特性調整部５４は、素片補間部５２による補間処理後の各周波数スペクトルを統計スペクトル包絡Ｙに近付けることで周波数スペクトルＱCを生成する。特性調整部５４による周波数スペクトルＱCの生成には、図４を参照して説明した特性調整処理ＳC1が好適に利用される。図８の波形合成部５６は、特性調整部５４が生成した複数の周波数スペクトルＱCの時系列から時間領域の音響信号Ｖを生成する。

　以上の例示から理解される通り、音声合成部４０は、素片取得部２０が取得した各音声素片ＰBを相互に接続した音声であって統計スペクトル包絡Ｙに応じて当該各音声素片ＰBが調整された合成音声の音響信号Ｖを生成する要素として包括的に表現される。つまり、音声合成部４０は、素片取得部２０により順次に取得された音声素片ＰBを相互に接続し、かつ、統計スペクトル包絡Ｙに応じて各音声素片ＰBの周波数スペクトル包絡（素片スペクトル包絡Ｘ）を変更し、変更された周波数スペクトルを有する接続された音声素片に基づいて音声信号を合成する要素として包括的に表現される。すなわち、音声合成部４０は、例えば、
［Ａ］統計スペクトル包絡Ｙに応じて音声素片ＰBを調整してから調整後の音声素片ＰCを時間領域で相互に接続する要素（図３）
であってもよいし、
［Ｂ］各音声素片ＰBを時間領域で相互に接続してから統計スペクトル包絡Ｙに応じた周波数特性を付与する要素（図７）
であってもよいし、あるいは、
［Ｃ］周波数領域で複数の音声素片ＰBを接続（具体的には補間）したうえで統計スペクトル包絡Ｙに応じて調整してから時間領域に変換する要素（図８）
であってもよい。

　例えば［Ａ］のように、音声素片ＰBは、統計スペクトル包絡Ｙに応じて周波数領域で調整された後に、時間領域で接続されてよい。また例えば［Ｂ］のように、音声素片ＰBは、統計スペクトル包絡Ｙに応じた周波数特性が時間領域で付与される前に、時間領域で接続されてよい。また例えば［Ｃ］のように、音声素片ＰBは、統計スペクトル包絡Ｙに応じて周波数領域で調整される前に、周波数領域で接続（補間）されてよい。

　例えば［Ａ］のように、各音声素片ＰBは、時間領域で接続される前に、周波数スペクトル包絡が変更されてよい。また例えば［Ｂ］のように、各音声素片ＰBは、時間領域で接続された後に、統計スペクトル包絡Ｙに応じた周波数特性が時間領域で付与されることで、周波数スペクトル包絡が変更されてよい。また例えば［Ｃ］のように、各音声素片ＰBは、周波数領域で接続（補間）された後に、周波数スペクトル包絡が変更されてよい。

（２）前述の各形態では、音声素片ＰAの発声者と統計モデルＭの学習用の音声の発声者とを同一人Ｂとした場合を例示したが、統計モデルＭの学習用の音声として、音声素片ＰAの発声者Ｂとは別人Ｅの音声を利用することも可能である。また、前述の実施形態では、発声者Ｂの音声を学習データとして利用した機械学習で統計モデルＭを生成したが、統計モデルＭの生成方法は以上の例示に限定されない。例えば、発声者Ｂ以外の発声者Ｅの音声のスペクトル包絡を学習データとした機械学習で生成された統計モデルを利用して、発声者Ｂの少数の学習データを利用した統計モデルを適応的に補正することで、発声者Ｂの統計モデルＭを生成することも可能である。

（３）前述の各形態では、属性毎に分類された発声者Ｂの音声のスペクトル包絡を学習データとする機械学習で統計モデルＭを生成したが、統計モデルＭ以外の方法で統計スペクトル包絡Ｙを生成することも可能である。例えば、相異なる属性に対応する複数の統計スペクトル包絡Ｙを事前に記憶装置１４に記憶させた構成（以下「変形構成」という）も採用され得る。任意の１個の属性の統計スペクトル包絡Ｙは、例えば、発声者Ｂがある声質で発音した多数の音声のうち当該属性に分類された複数の音声にわたるスペクトル包絡の平均である。包絡生成部３０は、合成情報Ｄに応じた属性の統計スペクトル包絡Ｙを記憶装置１４から順次に選択し、音声合成部４０は、第１実施形態と同様に当該統計スペクトル包絡Ｙと音声素片ＰBとに応じた音響信号Ｖを生成する。変形構成によれば、統計モデルＭを利用した統計スペクトル包絡Ｙの生成が不要である。他方、変形構成では、複数の音声にわたりスペクトル包絡が平均されるから、統計スペクトル包絡Ｙが、時間軸および周波数軸の方向に平滑化された特性となり得る。この変形構成と比較すると、前述の統計モデルＭを利用して統計スペクトル包絡Ｙが生成する各形態には、時間軸および周波数軸の方向における微細な構造が維持された（すなわち平滑化が抑制された）統計スペクトル包絡Ｙを生成できるという利点がある。

（４）前述の各形態では、合成情報Ｄが音符毎に音高ＤAと音韻ＤBとを指定する構成を例示したが、合成情報Ｄの内容は以上の例示に限定されない。例えば、音高ＤAおよび音韻ＤBに加えて音量（ダイナミクス）を合成情報Ｄで指定することも可能である。素片加工部２４は、素片選択部２２が選択した音声素片ＰAの音量を、合成情報Ｄで指定される音量に調整する。また、音韻は共通するけれども音量は相違する複数の音声素片ＰAを音声素片群Ｌに収録し、合成情報Ｄが指定する音韻ＤBに対応する複数の音声素片ＰAのうち、合成情報Ｄが指定する音量に近い音量の音声素片ＰAを素片選択部２２が選択してもよい。

（５）前述の各形態では、楽曲Ａの全区間にわたり各音声素片ＰBを統計スペクトル包絡Ｙに応じて調整したが、統計スペクトル包絡Ｙを利用した音声素片ＰBの調整を、楽曲Ａ内の一部の区間（以下「調整区間」という）について選択的に実行することも可能である。調整区間は、例えば、楽曲Ａのうち入力装置１６に対する操作で利用者が指定した区間、または、楽曲Ａのうち合成情報Ｄで始点および終点が指定された区間である。特性調整部（４２，４８または５４）は、統計スペクトル包絡Ｙを利用した調整を調整区間内の各音声素片ＰBに対して実行する。調整区間以外の区間については、複数の音声素片ＰBを相互に連結した音響信号Ｖ（すなわち統計スペクトル包絡Ｙが反映されていない音響信号Ｖ）が音声合成部４０から出力される。以上の構成によれば、調整区間外が第１声質で発音され、調整区間内は第２声質で発音されるから、多様な合成音声の音響信号Ｖを生成することが可能である。

　なお、楽曲Ａ内の相異なる複数の調整区間の各々について、統計スペクトル包絡Ｙを利用した音声素片ＰBの調整を実行する構成も想定される。また、発声者Ｂの相異なる第２声質に対応する複数の統計モデルＭ[1]～Ｍ[K]が記憶装置１４に記憶された構成（例えば第２実施形態）では、楽曲Ａ内の調整区間毎に、音声素片ＰBの調整に適用される統計モデルＭ[k]を相違させることも可能である。複数の調整区間の各々の始点および終点と各調整区間に適用される統計モデルＭ[k]とは、例えば合成情報Ｄにより指定される。以上の構成によれば、調整区間毎に声質（例えば歌唱音声の表情（articulation））が変化する多様な合成音声の音響信号Ｖを生成できるという格別の利点がある。

（６）素片スペクトル包絡Ｘおよび統計スペクトル包絡Ｙを表現する特徴量は前述の各形態での例示（線スペクトル対係数または低次ケプストラム係数）に限定されない。例えば、周波数毎の振幅値の系列により素片スペクトル包絡Ｘまたは統計スペクトル包絡Ｙは表現され得る。また、声帯の振動特性と調音器官の共鳴特性とを近似するＥｐＲ（Excitation plus Resonance）パラメータで素片スペクトル包絡Ｘまたは統計スペクトル包絡Ｙを表現することも可能である。なお、ＥｐＲパラメータについては、例えば特許第３７１１８８０号公報または特開２００７－２２６１７４号公報に開示されている。あるいは、複数の正規分布の加重和（すなわちガウス混合モデル）で素片スペクトル包絡Ｘまたは統計スペクトル包絡Ｙを表現してもよい。

（７）移動体通信網またはインターネット等の通信網を介して端末装置（例えば携帯電話機またはスマートフォン）と通信するサーバ装置により音声合成装置１００を実現してもよい。例えば、音声合成装置１００は、端末装置から受信した合成情報Ｄを適用した音声合成処理Ｓで音響信号Ｖを生成し、当該音響信号Ｖを要求元の端末装置に送信する。

（８）前述の各形態で例示した音声合成装置１００は、前述の通り、制御装置１２とプログラムとの協働で実現され得る。前述の各形態で例示したプログラムは、合成内容を指示する合成情報Ｄに応じた音声素片ＰBを順次に取得する素片取得部２０、合成情報Ｄに応じた統計スペクトル包絡Ｙを統計モデルＭにより生成する包絡生成部３０、および、素片取得部２０が取得した各音声素片ＰBを相互に接続した音声であって、包絡生成部３０が生成した統計スペクトル包絡Ｙに応じて当該各音声素片ＰBが調整された合成音声の音響信号Ｖを生成する音声合成部４０、としてコンピュータ（例えば制御装置１２）を機能させる。

　以上に例示したプログラムは、コンピュータが読取可能な記録媒体に格納された形態で提供されてコンピュータにインストールされ得る。記録媒体は、例えば非一過性（non-transitory）の記録媒体であり、ＣＤ-ＲＯＭ等の光学式記録媒体（光ディスク）が好例であるが、半導体記録媒体または磁気記録媒体等の公知の任意の形式の記録媒体を包含し得る。なお、非一過性の記録媒体とは、一過性の伝搬信号（transitory, propagating signal）を除く任意の記録媒体を含み、揮発性の記録媒体を除外するものではない。また、通信網を介した配信の形態でプログラムをコンピュータに提供してもよい。

（９）本発明の好適な態様は、前述の各形態に係る音声合成装置１００の動作方法（音声合成方法）としても特定され得る。好適な態様に係る音声合成方法は、コンピュータシステム（単体または複数のコンピュータ）が、合成内容を指示する合成情報Ｄに応じた音声素片ＰBを順次に取得し、合成情報Ｄに応じた統計スペクトル包絡Ｙを統計モデルＭにより生成し、取得した各音声素片ＰBを相互に接続した音声であって、統計スペクトル包絡Ｙに応じて当該各音声素片ＰBを調整した合成音声の音響信号Ｖを生成する。

（１０）以上に例示した形態から、例えば以下の構成が把握される。
＜態様１＞
　本発明の好適な態様（態様１）に係る音声合成方法は、音声の合成指示に応じた複数の音声素片を順次に取得する取得ステップと、前記合成指示に応じた統計スペクトル包絡を統計モデルにより生成する生成ステップと、前記順次に取得された複数の音声素片を相互に接続し、かつ、前記生成された統計スペクトル包絡に応じて各音声素片の周波数スペクトル包絡（frequency spectral envelope）を変更（modify）し、前記変更された周波数スペクトルを有する前記接続された音声素片に基づいて音声信号を合成する合成ステップとを具備する。以上の態様では、音声素片を相互に接続した音声であって統計モデルにより生成された統計スペクトル包絡に応じて各音声素片を調整した合成音声（例えば統計モデルでモデル化された声質に近い合成音声）の音響信号が生成される。したがって、声質毎に音声素片を用意する構成と比較して、所望の声質の合成音声を生成するために必要な記憶容量が削減される。また、音声素片を利用せずに統計モデルで合成音声を生成する構成と比較して、時間分解能または周波数分解能が高い音声素片を利用した高品位な合成音声を生成することが可能である。
＜態様２＞
　態様１の好適例（態様２）において、前記合成ステップは、前記各各音声素片の周波数スペクトル包絡を、前記統計スペクトル包絡に近付くように変更（modify）する変更ステップと、前記変更された複数の音声素片を接続する接続ステップとを含む。
＜態様３＞
　態様２の好適例（態様３）において、前記変更ステップは、前記各音声素片の元の周波数スペクトル包絡と、前記統計スペクトル包絡との間を可変の補間係数に基づいて補間して補間スペクトル包絡を求め、前記求めた補間スペクトル包絡に基づいて当該各音声素片の元の周波数スペクトル包絡を変更する。以上の態様では、元の周波数スペクトル包絡（素片スペクトル包絡）と統計スペクトル包絡との補間に適用される補間係数（加重値）が可変に設定されるから、音声素片の周波数スペクトルを統計スペクトル包絡に近付ける度合（声質の調整の度合）を変化させることが可能である。
＜態様４＞
　態様３の好適例（態様４）において、前記元の周波数スペクトル包絡は、時間的な変動が緩慢である平滑成分と、前記平滑成分と比較して速く変動する微細な変動成分とを含み、前記変更ステップは、前記統計スペクトル包絡と前記平滑成分との間を補間して得たスペクトル包絡に前記変動成分を加算することで前記補間スペクトル包絡を算定する。以上の態様では、統計スペクトル包絡と元の周波数スペクトル包絡（素片スペクトル包絡）の平滑成分との補間に変動成分を加算することで補間スペクトル包絡が算定されるから、平滑成分と変動成分とを適切に含有する補間スペクトル包絡を算定することが可能である。
＜態様５＞
　態様１の好適例（態様５）において、前記合成ステップは、前記順次に取得された複数の音声素片を時間領域で接続する接続ステップと、前記時間領域で接続された音声素片に、前記統計スペクトル包絡の周波数特性を時間領域で付与することで、前記周波数スペクトル包絡を変更する変更ステップとを含む。
＜態様６＞
　態様１の好適例（態様６）において、前記合成ステップは、前記順次に取得された複数の音声素片について、時間的に相前後する音声素片を周波数領域で補間して接続する接続ステップと、前記接続された音声素片の周波数スペクトル包絡を、前記統計スペクトル包絡に近付くよう変更する変更ステップとを含む。
＜態様７＞
　態様１から態様６の何れかの好適例（態様７）において、前記周波数スペクトル包絡と前記統計スペクトル包絡とは、相異なる特徴量で表現される。周波数スペクトル包絡（素片スペクトル包絡）の表現には、周波数軸方向のパラメータを含む特徴量が好適に採用される。具体的には、素片スペクトル包絡の平滑成分は、例えば線スペクトル対係数、ＥｐＲ（Excitation plus Resonance）パラメータ、または複数の正規分布の加重和（すなわちガウス混合モデル）等の特徴量で好適に表現され、素片スペクトル包絡の変動成分は、例えば周波数毎の振幅値等の特徴量で表現される。他方、統計スペクトル包絡の表現には、例えば統計的な演算に好適な特徴量が採用される。具体的には、統計スペクトル包絡は、例えば低次ケプストラム係数または周波数毎の振幅値等の特徴量で表現される。以上の態様では、周波数スペクトル包絡（素片スペクトル包絡）と統計スペクトル包絡とが相異なる特徴量で表現されるから、素片スペクトル包絡および統計スペクトル包絡の各々にとって適切な特徴量を利用できるという利点がある。
＜態様８＞
　態様１から態様７の何れかの好適例（態様８）において、前記生成ステップは、相異なる声質に対応する複数の統計モデルの何れかを選択的に利用して前記統計スペクトル包絡を生成する。以上の態様では、統計スペクトル包絡の生成に複数の統計モデルの何れかが選択的に利用されるから、１個の統計モデルのみを利用する構成と比較して多様な声質の合成音声を生成できるという利点がある。
＜態様９＞
　本発明の好適な態様（態様９）に係る音声合成装置は、音声の合成指示に応じた複数の音声素片を順次に取得する素片取得部と、前記合成指示に応じた統計スペクトル包絡を統計モデルにより生成する包絡生成部と、前記順次に取得された複数の音声素片を相互に接続し、かつ、前記生成された統計スペクトル包絡に応じて各音声素片の周波数スペクトル包絡を変更し、前記変更された周波数スペクトルを有する前記接続された音声素片に基づいて音声信号を合成する音声合成部とを具備する。

１００…音声合成装置、１２…制御装置、１４…記憶装置、１６…入力装置、１８…放音装置、２０…素片取得部、２２…素片選択部、２４…素片加工部、３０…包絡生成部、４０…音声合成部、４２，４８，５４…特性調整部、４４，４６…素片接続部、Ｌ…音声素片群、Ｄ…合成情報、Ｍ…統計モデル。

Claims

　音声の合成指示に応じた複数の音声素片を順次に取得する取得ステップと、
　前記合成指示に応じた統計スペクトル包絡を統計モデルにより生成する生成ステップと、
　前記順次に取得された複数の音声素片を相互に接続し、かつ、前記生成された統計スペクトル包絡に応じて各音声素片の周波数スペクトル包絡を変更し、前記変更された周波数スペクトルを有する前記接続された音声素片に基づいて音声信号を合成する合成ステップと
　を具備する音声合成方法。
　前記合成ステップは、
　前記各音声素片の周波数スペクトル包絡を、前記統計スペクトル包絡に近付くように変更する変更ステップと、
　前記変更された複数の音声素片を接続する接続ステップとを含む
　請求項１の音声合成方法。
　前記変更ステップは、前記各音声素片の元の周波数スペクトル包絡と、前記統計スペクトル包絡との間を可変の補間係数に基づいて補間して補間スペクトル包絡を求め、前記求めた補間スペクトル包絡に基づいて当該各音声素片の元の周波数スペクトル包絡を変更する
　請求項２の音声合成方法。
　前記元の周波数スペクトル包絡は、時間的な変動が緩慢である平滑成分と、前記平滑成分と比較して速く変動する微細な変動成分とを含み、
　前記変更ステップは、前記統計スペクトル包絡と前記平滑成分との間を補間して得たスペクトル包絡に前記変動成分を加算することで前記補間スペクトル包絡を算定する
　請求項３の音声合成方法。
　前記合成ステップは、
　前記順次に取得された複数の音声素片を時間領域で接続する接続ステップと、
　前記時間領域で接続された音声素片に、前記統計スペクトル包絡の周波数特性を時間領域で付与することで、前記周波数スペクトル包絡を変更する変更ステップとを含む
　請求項１の音声合成方法。
　前記合成ステップは、
　前記順次に取得された複数の音声素片について、時間的に相前後する音声素片を周波数領域で補間して接続する接続ステップと、
　前記接続された音声素片の周波数スペクトル包絡を、前記統計スペクトル包絡に近付くよう変更する変更ステップとを含む
　請求項１の音声合成方法。
　前記周波数スペクトル包絡と前記統計スペクトル包絡とは、相異なる特徴量で表現される
　請求項１から請求項６の何れかの音声合成方法。
　前記生成ステップは、相異なる声質に対応する複数の統計モデルの何れかを選択的に利用して前記統計スペクトル包絡を生成する
　請求項１から請求項７の何れかの音声合成方法。
　音声の合成指示に応じた複数の音声素片を順次に取得する素片取得部と、
　前記合成指示に応じた統計スペクトル包絡を統計モデルにより生成する包絡生成部と、
　前記順次に取得された複数の音声素片を相互に接続し、かつ、前記生成された統計スペクトル包絡に応じて各音声素片の周波数スペクトル包絡を変更し、前記変更された周波数スペクトルを有する前記接続された音声素片に基づいて音声信号を合成する音声合成部と
　を具備する音声合成装置。