WO2016043322A1

WO2016043322A1 - 音声合成方法、プログラム及び装置

Info

Publication number: WO2016043322A1
Application number: PCT/JP2015/076743
Authority: WO
Inventors: 勉兼安; 清志多田
Original assignee: 株式会社コティレドン・テクノロジー; 勉兼安; 清志多田
Priority date: 2014-09-19
Filing date: 2015-09-18
Publication date: 2016-03-24

Abstract

　対象者の合成音声を生成するための音声合成パラメータ生成方法に関する。当該方法は、対象者音響特徴量及び／又は対象者韻律特徴量を算出し対象者音声データベースとして保存する対象者音声データベース保存ステップと、前記対象者音響特徴量及び／又は対象者韻律特徴量のうち、異常な音響特徴量及び／又は韻律特徴量を有する対象者音声部分を異常音声部として検出する異常音声検出ステップと、対象者音声データベースのうち前記異常音声検出ステップで検出された前記異常音声部に対応する音響特徴量及び／又は対象者韻律特徴量の補正を受け付ける手動補正処理受付ステップと、前記補正後の音響特徴量及び／又は韻律特徴量を有する音声データベースを手動補正データベースとして保存する手動補正データベース保存ステップと、前記対象者音声データベースと前記手動補正データベースとを所定の混合比で混合する混合ステップと、前記混合ステップにて混合されたデータベースに基づいて、前記対象者の音声合成を行うための音声合成パラメータを生成する音声合成パラメータ生成ステップとを備える。

Description

音声合成方法、プログラム及び装置

　本発明は、音声合成方法、プログラム及び装置に関する。

　近年、福祉等を目的として、特定の個人の音声に関するデータベースを予め作成しておき、当該データベースに基づいて任意のテキストについて音声合成を行おうとする試みがなされている。このような音声合成技術にあっては、どのようなテキストが入力された場合であっても当該特定の個人の自然な音声を再現できることが望ましい。

　音声合成技術により生成される音声の自然性を向上させる手法として、一般に、音声合成の基礎となるデータベースの規模を大きくすること、すなわちサンプル音声数を多くすることが試みられる。このようなデータベースの大規模化によれば多様な音声合成パターンの出力に対応出来るようになり、それにより合成音声の自然性が改善されるものである。このようなデータベース大規模化による合成音声の品質改良効果は波形素片接続型音声合成やＨＭＭ（隠れマルコフモデル）による音声合成など合成音声の品質が基礎となるデータベースの規模に依存するアルゴリズムにおいて特に顕著となる。

　しかしながら、十分な品質の合成音声を生成可能な大規模な音声データベースを構築しようとすれば、特定の個人を長時間拘束して様々なパターンの音声を収録しなければならず非常な手間となるばかりか、場合によっては、非現実的な時間がかかり実質的にそのようなデータベース構築は困難な場合もある。これらを背景として、少量のサンプル音声データに基づいて音声合成を行おうとする研究も種々行われているものの（例として、特許文献１）、未だ十分な合成音声品質が得られているとは言い難い。

特開２００９－１２２３８１号公報

　以上より、本発明の目的は、特定の個人の音声に基づく少量の音声データから、当該特定の個人の自然な音声を合成する音声合成パラメータ生成方法、プログラム及び装置を提供することにある。

　本発明は、対象者の合成音声を生成するための音声合成パラメータ生成方法である。音声合成パラメータ生成方法は、複数のサンプルテキストに関する対象者音声の音響特徴量及び／又は韻律特徴量である対象者音響特徴量及び／又は対象者韻律特徴量を算出し、対象者音声データベースとして保存する対象者音声データベース保存ステップと、前記対象者音響特徴量及び／又は対象者韻律特徴量のうち、異常な音響特徴量及び／又は韻律特徴量を有する対象者音声部分を異常音声部として検出する異常音声検出ステップと、対象者音声データベースのうち前記異常音声検出ステップで検出された前記異常音声部に対応する音響特徴量及び／又は対象者韻律特徴量の補正を受け付ける手動補正処理受付ステップと、前記補正後の音響特徴量及び／又は韻律特徴量を有する音声データベースを手動補正データベースとして保存する手動補正データベース保存ステップと、前記対象者音声データベースと前記手動補正データベースとを所定の混合比で混合する混合ステップと、前記混合ステップにて混合されたデータベースに基づいて、前記対象者の音声合成を行うための音声合成パラメータを生成する音声合成パラメータ生成ステップと、を備えることを特徴とする。

　このような構成によれば、自動算出された対象者の特徴量を利用しつつ、異常音声である可能性が高い部分についてのみ手動で特徴量を補正することができるので、データベース作成者に対して過剰な負担を強いることがない。また、異常音声である可能性が高い部分について予め補正処理を行うことができるので音声合成パラメータ生成の基礎となるデータベースの品質を向上させることができ最終的な音声合成の品質を向上させることができるのと同時に、少量のサンプルデータであっても十分な品質の音声合成を行うことができる。

　上記発明において、前記混合ステップにおける前記混合比は互いに異なる複数の混合比であり、前記音声合成パラメータ生成ステップにおいて前記複数の混合比に基づいて複数の音声合成パラメータを生成し、前記音声合成パラメータ生成方法は、さらに、音声品質比較ステップを備え、前記音声品質比較ステップは、前記複数の音声合成パラメータにより生成される音声と対象者自身の音声にて成る基準音声との比較を行い、前記基準音声との類似度の高い音声を生成した音声合成データベースを高品質音声合成データベースとして選択することが好ましい。

　このような構成によれば、上記手動による補正処理による合成音声の高品質化作用に加えて、複数の混合比率で混合された複数のデータベースの中から対象者本人による音声と最も類似する音声を選別することとなるので、最も対象者本人らしい音声を選択できそれにより合成音声の自然性を向上させることができる。

　上記発明において、前記音響特徴量は、音のパワースペクトルであり、前記韻律特徴量は、音のピッチ及び音韻の継続時間であることが望ましい。

　このような構成によれば、音声の周波数や話者の喋り方の特徴の観点から、異常音声部を検出することができ、ひいては音声合成パラメータ算出の基礎として高品質な音声データベースを生成することができる。

　上記発明において、前記対象者音声データベース保存ステップにおいて、前記対象者韻律特徴量である音韻の継続時間は、複数人のサンプル音声データに基づいて得られた音響モデルに基づいて生成されることが好ましい。

　このような構成によれば、複数の不特定人の発話音声により生成された汎用的な音響モデルに基づいて、高精度に音韻の継続時間の算出を行うことができる。

　また、上記発明は音声合成パラメータ生成のためのコンピュータプログラムとして実現されてもよい。すなわち、当該コンピュータプログラムは、コンピュータに、複数のサンプルテキストに関する対象者音声の音響特徴量及び／又は韻律特徴量である対象者音響特徴量及び／又は対象者韻律特徴量を算出し、対象者音声データベースとして保存する対象者音声データベース保存ステップと、前記対象者音響特徴量及び／又は対象者韻律特徴量のうち、異常な音響特徴量及び／又は韻律特徴量を有する対象者音声部分を異常音声部として検出する異常音声検出ステップと、対象者音声データベースのうち前記異常音声検出ステップで検出された前記異常音声部に対応する音響特徴量及び／又は対象者韻律特徴量の補正を受け付ける手動補正処理受付ステップと、前記補正後の音響特徴量及び／又は韻律特徴量を有する音声データベースを手動補正データベースとして保存する手動補正データベース保存ステップと、前記対象者音声データベースと前記手動補正データベースとを所定の混合比で混合する混合ステップと、前記混合ステップにて混合されたデータベースに基づいて、前記対象者の音声合成を行うための音声合成パラメータを生成する音声合成パラメータ生成ステップと、を実行させることを特徴とする。

　さらに、上記発明は音声合成パラメータ生成装置として実現されてもよい。すなわち、当該装置は、複数のサンプルテキストに関する対象者音声の音響特徴量及び／又は韻律特徴量である対象者音響特徴量及び／又は対象者韻律特徴量を算出し、対象者音声データベースとして保存する対象者音声データベース保存部と、前記対象者音響特徴量及び／又は対象者韻律特徴量のうち、異常な音響特徴量及び／又は韻律特徴量を有する対象者音声部分を異常音声部として検出する異常音声検出部と、対象者音声データベースのうち前記異常音声検出ステップで検出された前記異常音声部に対応する音響特徴量及び／又は対象者韻律特徴量の補正を受け付ける手動補正処理受付部と、前記補正後の音響特徴量及び／又は韻律特徴量を有する音声データベースを手動補正データベースとして保存する手動補正データベース保存部と、前記対象者音声データベースと前記手動補正データベースとを所定の混合比で混合する混合部と、前記混合ステップにて混合されたデータベースに基づいて、前記対象者の音声合成を行うための音声合成パラメータを生成する音声合成パラメータ生成部と、を備えることを特徴とする。なお、このとき、当該装置はサーバを含む概念であり、その場合、ＬＡＮやインターネット等を介してクライアント装置との間で入出力処理を行うものである。

　なお、ここに記載していない本願発明のその他の技術的特徴は、以下の発明を実施するための形態及び添付図面の記載中で明らかにされるものである。

　本発明に係る音声合成方法、プログラム、装置によれば、特定の個人の発話音声に基づく少量の音声データから、当該特定の個人の自然な音声を合成することができる音声合成パラメータを生成することができる。

図１は、本発明に係るハードウエア構成を示す図である。図２は、本発明に係る機能ブロック図である。図３は、本発明に係る音声合成のジェネラルフローチャートを示す図ある。図４は、本発明に係る音響モデルの生成フローチャートを示す図である。図５は、本発明に係る対象者音声データベース生成フローチャートを示す図である。図６は、本発明に係る異常音声検出フローチャートを示す図ある。図７は、本発明に係る手動補正データベース生成フローチャートを示す図である。図８は、本発明に係る混合データベース生成フローチャートを示す図である。図９は、本発明に係る高品質データベースの選択処理のフローチャートを示す図である。図１０は、本発明に係る音声出力処理のフローチャートを示す図である。図１１は、本発明に係る実験の評価テキスト例（その１）を示す図である。図１２は、本発明に係る実験の評価テキスト例（その２）を示す図である。図１３は、本発明に係る実験の実験結果について示す図である。

　　以下では、添付の図面を参照しつつ、本発明の実施形態について説明する。
<１．ハードウエア構成>
　図１を参照しつつ、本発明に係る音声合成ソフトウエアが実行されるハードウエア構成について説明する。本発明に係る音声合成ソフトウエアを実行するハードウエアとしては一般的なパーソナルコンピュータ１００が採用される。当該パーソナルコンピュータ１００は、後述の音声合成ソフトウエアを含む各種プログラムを実行するＣＰＵから成る制御部１０、後述の音声合成ソフトウエア等を含む各種プログラムが記憶されるメモリやＨＤＤその他の記憶装置である記憶部２０、キーボード（図示せず）等からの入力を受けて文字情報を処理する文字入力部３０、マイクロフォン（図示せず）等から入力された音声を処理する音声入力部４０、制御部１０からの指令に基づきスピーカー（図示せず）等へと出力される音声を処理する音声出力部５０、ディスプレイ（図示せず）への表示処理を行う表示処理部６０、ストレージ等の外部記憶媒体等との接続や機能拡張等を可能とする入出力インタフェース７０等を備える。なお、本実施形態におけるハードウエアとして汎用装置としてのパーソナルコンピュータ１００を想定したが音声合成のための専用装置として実現してもよいことは勿論である。
<２．音声合成ソフトウエアによる音声合成データベースの生成>
　以下では、本実施形態に係る音声合成ソフトウエアを用いて特定の個人の音声合成データベース乃至パラメータを生成するまでの装置の動作について、図２乃至９を参照しつつ説明する。
<２．１　音声合成データベース生成の概要>
　図２は、図１の制御部１０と記憶部２０の備える機能について説明する機能ブロック図である。制御部１０は後述の各機能ブロックで示される処理を行った結果を記憶部２０へと書き込み、或いは記憶部２０へと記憶された内容を読出すことにより各機能ブロックで示される処理を行う。制御部１０は、後述するように音声データから音響特徴量や韻律特徴量を算出する特徴量算出部１１、音声データ中の異常音声に相当する部分を検出する異常音声検出部１２、異常な音声に相当する部分を手動補正することをユーザに許容する手動補正処理部１３、所定の混合比に基づいて対象者の音声データベースに係るテキストと手動補正データベースに係るテキストとの混合を行う混合データベース生成部１４、所定の音声合成データベースに基づいて合成音声出力用のパラメータを生成する音声合成パラメータ生成部１５、複数の音声データから最も品質の良い音声を選択する音声品質比較部１６、及び入力されたテキストと生成された高音質の音声合成データベースとに基づいて音声出力を行う音声出力処理部１７とを備えている。

　同図において、記憶部２０は、制御部１０の処理の結果算出されたデータ又は予め記憶されたデータを記憶する。具体的には、複数の不特定人の発話音声に基づいて特徴量算出部１１にて算出されたデータを記憶する音響モデル記憶部２１、データベース作成対象者の音声データに基づいて特徴量算出部１１にて算出されたデータを保存する対象者音声データベース２２、手動補正処理部にて手動補正がなされた後の音声データを保存する手動補正データベース２３、混合データベース生成部１４にて用いられる複数の混合比を保存する混合比保持部２４、複数の混合比で混合されたデータベースに基づいて生成された複数の音声合成パラメータを保存する混合データベース２５、複数の音声合成パラメータのうち最も品質の良い音声合成パラメータを保存する高品質音声データベース２６とを備えている。なお、ここでは代表的なデータベース等を列挙したものの記憶部２０に記憶されているデータはこれらに限定されず、後述する種々のデータ、すなわち、音声データベース生成対象者以外のＮ人の不特定の話者により複数のサンプルテキスト毎に読み上げられた発話音声データ、音声データベース生成対象者による発話音声データ、特徴量毎に設けられた異常音声部フラグ、基準音声データ等も含まれる。

　次に、図２及び３を参照しつつ、本発明に係る音声合成データベース作成ソフトウエアの動作の概要について説明する。

　図３は、データベース作成対象者の音声データから高品質の音声データベースを生成する方法について示したジェネラルフローである。同図において、まず、特徴量算出部１１を用いて複数の不特定人によって発話された音声データからＨＭＭ（隠れマルコフモデル）等を用いて音響モデルを生成する（Ｓ１００）。その後、対象者の音声データに基づいて種々の特徴量を算出し、対象者音声データベース２２を生成する（Ｓ２００）。

　次に、異常音声検出部１２にて対象者音声のデータベース２２に関して所定の条件判定処理を行い、異常音声部を検出する（Ｓ３００）。異常音声部の検出処理後、その検出結果に基づき、手動補正処理部１３にて対象者音声データの異常音声部を手動補正し、手動補正音声データベース２３を生成する（Ｓ４００）。手動補正音声データベース２３の生成後、混合データベース生成部１４にて手動補正音声データベース２３と対象者音声データベース２２とを混合比保持部２４に記憶された複数の混合比を用いて混合し、音声合成パラメータ生成部１５にて複数の音声合成パラメータを生成し、混合データベース２５を生成する（Ｓ５００）。その後、音声品質比較部１６にて混合データベース２５に記憶された複数の音声合成パラメータから複数の音声を生成しそれらと所定の音声データとを比較することで、高品質の音声データベースを選択し、高品質音声合成データベース２６として保存する（Ｓ６００）。

　以上のようにして、音声合成対象者の音声データから高品質の音声合成データベースを生成する。以下では上記各ステップ（Ｓ１００～Ｓ６００）について詳述する。
<２．２　音響モデルの生成>
　図４は、音響モデルの生成ステップ（Ｓ１００）の詳細について説明するフローチャートである。処理が開始すると、音声データベース生成対象者以外のＮ人の不特定の話者により複数のサンプルテキスト毎に読み上げられた音声データが記憶部２０より読み出される（Ｓ１０１）。この読み出し処理はＮ人分のすべてのデータを読み出すまで繰り返される（Ｓ１０２ＮＯ）。なお、本実施形態においてはＮ人の不特定の話者による音声データは記憶部２０に予め記憶されているものであるが、都度マイク等から音声入力部４０を介して入力してもよい。サンプルテキストは短文から成り、複数のサンプルテキストはそのような短文が数十から数百程度集合することで成る。

　Ｎ人分のデータの読み出し処理が完了すると（Ｓ１０２ＹＥＳ）、当該Ｎ人分の発話音声データに基づいて音響モデルの生成処理が行われる（Ｓ１０３）。ここで、音響モデルの生成処理は具体的には、当該発話音声に基づくＨＭＭ（隠れマルコフモデル）の学習処理であり、この学習処理の結果、当該モデルにより各音韻の音韻継続時間の算出が可能となる。ここで、音韻とは例えば「こんにちは（ＫＯ－Ｎ－ＮＩ－ＣＨＩ－ＷＡ）」という一連の音声における「Ｋ」、「Ｏ」、「Ｎ」、「Ｎ」、「Ｉ」、「ＣＨＩ」、「Ｗ」、「Ａ」という各分解された音素を意味し、その継続時間とはそれぞれの音素の継続時間を意味する。その後、生成された音響モデルは音響モデル記憶部２１へと記憶される（Ｓ１０４）。
<２．３　対象者音声データベースの生成>
　図５は、音声合成データベースを生成しようとする対象者の音声データベース生成ステップ（Ｓ２００）の詳細について説明するフローチャートである。処理が開始すると、まず、複数のサンプルテキスト毎に対象者により読み上げられた発話音声データが読み出される（Ｓ２０１）。本実施形態においてはデータベース作成対象者による発話音声データは記憶部２０に予め記憶されているものであるが、都度マイク等から音声入力部４０を介して入力してもよい。サンプルテキストは短文から成り、複数のサンプルテキストはそのような短文が数十から数百程度集合することで成る。

　次に、読みだされた音声データのそれぞれについて音響特徴量と韻律特徴量とが算出される（Ｓ２０２）。ここで、音響特徴量とは音声データを周波数領域で解析することにより得られる音の特徴量であり、具体的には音のパワースペクトル、ケプストラム等を含む。一方、韻律特徴量とは、声の高さ、イントネーション、リズム、ポーズ等を含む話者の喋り方の特徴を表す特徴量で、具体的には、音韻の継続時間、音のピッチを含む。

　本実施形態においては、音響特徴量として５［ｍｓｅｃ］区間毎に解析した音のパワースペクトルを算出する。このとき、音のパワースペクトルの算出にあたっては既知の種々の手法が適用可能であるが、例えばフーリエ変換を用いたパワースペクトルの抽出手法が好適である。また、韻律特徴量として５［ｍｓｅｃ］区間毎に解析した音のピッチと各音韻の継続時間（［ｍｓｅｃ］）とが算出される。音のピッチの算出にあたっては既知の種々の手法が適用可能であるが、例えば自己相関法を用いた抽出手法が好適である。なお、本実施形態ではパワースペクトル及び音のピッチの解析区間を例示的に５［ｍｓｅｃ］としたが、解析のサンプル区間は適宜変更可能である。

　また、音韻の継続時間は音響モデルの生成ステップ（Ｓ１００）にて生成され音響モデル記憶部２１に記憶された音響モデルを用いて算出する。具体的には、音響モデルの生成ステップ（Ｓ１００）にて得られたＨＭＭに対して対象者の音声データを入力することにより音韻の継続時間の算出を行う。なお、ここでは音響モデルに対して対象者の音声データを単に入力するものとしたが、対象者の音声データも含めて再度音響モデルの学習処理を行った後に、上記の音声データのＨＭＭへの入力処理、すなわち音韻の継続時間の算出を行ってもよい。

　各特徴量はその算出後、対象者音声データベース２２へと保存される（Ｓ２０３）。

　上述のように音響特徴量としてパワースペクトル、韻律特徴量として音のピッチ及び音韻の継続時間を選択する構成によれば音声の周波数や話者の喋り方の特徴の観点から後述する異常音声部の検出を行うことができる。

　また、複数の不特定人の発話音声により生成された汎用的な音響モデルに基づいて音韻の継続時間を算出していることから、高精度に音韻の継続時間の算出を行うことができる。
<２．４　異常音声の検出処理>
　図６は、対象者音声データベース２２に基づいて、対象者音声データの異常音声部を検出するステップ（Ｓ３００）について詳細に説明するフローチャートである。処理が開始すると、まず、対象者音声データベース２２から音響特徴量及び韻律特徴量に関するデータが読み出される（Ｓ３０１）。

　次に、読み出された各音響特徴量及び韻律特徴量について異常判定処理が行われ（Ｓ３０２）、当該各特徴量が所定の異常判定条件を満たさない場合には（Ｓ３０３ＮＯ）、異常音声部には該当しないものとして次の特徴量についての処理を開始する（Ｓ３０５ＮＯ）。一方、当該各特徴量が所定の異常判定条件を満たす場合には（Ｓ３０３ＹＥＳ）、異常音声部として異常音声部フラグを「真」とし（Ｓ３０４）、次の特徴量について処理を開始する（Ｓ３０５ＮＯ）。なお、異常音声部フラグは各特徴量毎に設定され、初期状態においてはすべて「偽」に設定されている。

　本実施形態においては、音響特徴量としてパワースペクトル、韻律特徴量としてピッチ及び音韻の継続時間を採用したことから、以下特徴量毎に判定処理の詳細について説明する。

　パワースペクトルの異常判定処理（Ｓ３０２）は、前後の音声区間におけるパワースペクトルとの比較を行い、当該パワースペクトル間に所定の差分が認められる場合に異常音声部として判定し、パワースペクトルに関する異常音声部フラグを「真」とすることにより行われる（Ｓ３０４）。また、ピッチの異常判定処理は（Ｓ３０２）は、前後の音声区間におけるピッチとの比較を行い、当該ピッチ間に所定の差分が存在する場合に異常音声部として判定し、ピッチに関する異常音声部フラグを「真」とすることにより行われる（Ｓ３０４）。なお、ここでは前後の音声区間における特徴量との比較を行うこととしたが、明らかな異常値を排除できればよいので、例えば各特徴量の時間方向の移動平均値との比較により異常判定を行ってもよい。

　さらに、音韻の継続時間の異常判定処理（Ｓ３０２）については、母音長、閉鎖区間（Ｃｌ）長及び特定子音（ｋ，ｔ）長の観点から判定を行う。このようなパラメータに着目したのは所定の音韻の検出アルゴリズムに基づいて自動的に音韻検出を行っていくと音声合成を行うにあたって好ましくない後述の問題が生じてしまうことによるものである。すなわち、所定の母音（例えば、「ａ，ｉ，ｕ，ｅ，ｏ，ｎ」など）が連続する場合、本来は２つの母音として認識すべき個所を音韻間の境界を誤り１つの母音として検出してしまうことがある。このような境界認識の誤りは文字に対するラベリングの誤りとなり音声データベースを生成する上で好ましくない。また、閉鎖区間（Ｃｌ）とは、所謂音声の発生にあたって生じる無音区間であり、例えば「ぷ（ｐｕ）」という文字を発音するにあたり「ｐ」の前に生じる無音区間が該当する。このように、無音区間が含む音声が音声合成データベース作成の基礎となると発生音声に所定のポーズが生じるなどして自然な音声合成の妨げとなり好ましくない。さらに、子音「ｋ」及び「ｔ」は、音声合成を行う際に音韻長が実際よりも長くなりやすく、その結果音声合成を行った際に聴取者にテンポの悪さを感じさせることがある。

　具体的には以下のような方法で音韻継続時間に関する判定を行う。母音長については以下の判定条件を満たすか否かを判定し、当該数式を満たさない場合、すなわち、母音長が所定の期間以上短かったり長かったりする場合に当該母音部を異常音声部として検出し、音韻の継続時間に関する異常音声フラグを「真」とする（Ｓ３０４）。なお、ここで、ｌとは異常として抽出する範囲（異常音声部の抽出個数）を調整するための非負の整数である。

　また、閉鎖区間（Ｃｌ）長に関しては、以下の判定条件を満たすか否かを判定し、当該数式を満たす場合、すなわち閉鎖区間が所定の期間以上長い場合に当該部分を異常音声部として検出し、音韻の継続時間に関する異常音声フラグを「真」とする（Ｓ３０４）。なお、ここで、ｍとは異常として抽出する範囲（異常音声部の抽出個数）を調整するための非負の整数である。

　さらに、子音「ｋ」及び「ｔ」の音韻長に関しては、以下の判定条件を満たすか否かを判定し、当該数式を満たす場合、すなわち、ｋ、ｔに関する子音長が所定の期間以上長い場合に当該部分を異常音声部として検出し、音韻の継続時間に関する異常音声フラグを「真」とする（Ｓ３０４）。

　以上の各特徴量の異常判定に関する処理（Ｓ３０２～Ｓ３０５ＮＯ）を繰り返すことで各テキスト毎に異常音声部フラグに関する真偽判定処理が行われ、そのような処理がすべてのテキストについて行われる（Ｓ３０５ＹＥＳ、Ｓ３０６ＹＥＳ）。すなわち、あるテキストのすべての各特徴量について真偽判定処理が終了すると、すべてのサンプルテキストについて判定処理を行ったかが判定される（Ｓ３０６）。すべてのサンプルテキストについて処理が終了していないと判断されると次のサンプルテキストについて上記処理が繰り返される（Ｓ３０６ＮＯ）。すべてのサンプルテキストについて異常判定処理が行われると（Ｓ３０６ＹＥＳ）、処理は終了する。なお、特徴量毎の異常音声部フラグに関する情報は算出後記憶部２０に記憶される。
<２．５　手動補正データベースの生成>
　図７は、手動補正データベース２３を生成するステップ（Ｓ４００）の詳細について説明するフローチャートである。処理が開始されると、まず、対象者音声データベース２２及び異常音声部フラグに関する情報が記憶部２０より読み出される（Ｓ４０１）。

　各情報が読み出されると、対象者音声データベース２２に保存された音声について各テキストのはじめの異常音声部フラグから真偽の確認が開始する（Ｓ４０２）。異常音声部フラグが真の場合（Ｓ４０２ＹＥＳ）、当該異常音声部フラグに対応する特徴量の手動補正の受付処理（Ｓ４０３～Ｓ４０５）を行った後に、次の特徴量の処理を開始する（Ｓ４０６ＮＯ）。一方、異常音声部フラグが偽である場合（Ｓ４０２ＮＯ）、当該異常音声部フラグに対応する特徴量について特徴量の手動補正の受付処理を行わずに次の特徴量の処理を開始する（Ｓ４０６ＮＯ）。

　特徴量の手動補正の受付処理についてさらに詳細に説明する。異常音声部フラグが「真」である場合（Ｓ４０２ＹＥＳ）、当該異常音声部フラグに対応する特徴量に関連する情報がそれぞれ音声出力部５０及び表示処理部６０を介してディスプレイ（図示せず）及びスピーカ（図示せず）に対して出力又は提示される（Ｓ４０３）。具体的には、特徴量が音響特徴量である音のパワースペクトルである場合、ディスプレイ上には対象者音声のパワースペクトル分布が表示されるとともに、スピーカには当該特徴量に対応する対象者音声が出力される。特徴量が韻律特徴量である音のピッチである場合、ディスプレイ上には音の周波数［Ｈｚ］が表示され、かつスピーカに当該特徴量に対応する対象者音声が出力される。さらに、特徴量が韻律特徴量である音韻の継続時間である場合、ディスプレイ上には音韻の継続時間が表示されると共にスピーカには当該特徴量に対応する対象者音声が出力される。このようなディスプレイ及びスピーカへの出力或いは提示により、後述する特徴量の補正が容易となる。なお、ディスプレイ及びスピーカへの出力は上記に限定されず、補正を視覚的或いは聴覚的観点から容易とするようなものであれば他の構成であってもよい。

　特徴量に関する情報がディスプレイ又はスピーカに提示されると、当該特徴量の補正受付処理が開始される（Ｓ４０４）。補正受付処理とは、異常音声部フラグが「真」とされたことにより異常音声部とみなされた音声部分の特徴量に関してデータベース作成者等による補正入力を受け付ける処理である。当該補正処理としては、本実施形態においては、異常音声部フラグが「真」とされた部分に係る音声をディスプレイ表示やスピーカ出力を確認しつつキーボードやマウス等を介して補正し、当該音声部分を補正した特徴量に係る音声と置換すること、又は当該異常音声部フラグが真とされた部分に係る音声を後の混合データベース２５の作成基礎から除外するように設定することを含む。

　特徴量が音響特徴量である音のパワースペクトルである場合、ディスプレイ上に表示された対象者音声のパワースペクトル及びスピーカからの音声出力を確認しつつ、手動で周波数毎にそのパワーを増減させることができる。また、特徴量が韻律特徴量である音のピッチである場合、ディスプレイ表示及びスピーカからの音声出力を確認しつつ、手動によりその周波数を調整することができる。さらに、特徴量が韻律特徴量である音韻の継続時間である場合、ディスプレイ表示及びスピーカからの音声出力を確認しつつ、手動により各音韻の継続時間を増減させることができる。以上のようにして、データベース作成者等は視覚的或いは聴覚的に音声情報を確認しながら、手動で異常音声部のみについて補正を行うことができる。なお、補正受付処理は補正終了指令が入力されるまで繰り返され（Ｓ４０５ＮＯ）、補正の度に補正後の特徴量に係るディスプレイ表示又は音声出力が提示される。

　特徴量の手動補正受付処理が終了し、データベース作成者等により補正終了指令がなされると（Ｓ４０５ＹＥＳ）、次の特徴量に関して同様の処理が開始し、このような処理は全ての特徴量に至るまで繰り返される（Ｓ４０６ＮＯ）。一のテキスト中のすべての異常音声部分についてフラグ判定又は補正処理が行われた場合には次のテキストについて同様の処理が行われる（Ｓ４０７ＮＯ）。このような処理はすべてのテキストについて完了するまで繰り返される（Ｓ４０７ＮＯ）。すべてのテキストについて処理が完了すると（Ｓ４０７ＹＥＳ）、手動補正処理が行われた特徴量を含むデータは手動補正データベース２３として記憶部２０に保存される（Ｓ４０８）。

　以上の構成によれば、特徴量算出部にて自動算出された対象者の特徴量を利用しつつ、異常音声である可能性が高い部分についてのみ手動で特徴量を補正することができるので、データベース作成者に対して過剰な負担を強いることがない。また、異常音声である可能性が高い部分について予め補正処理を行うことができるので音声合成パラメータ生成の基礎となるデータベースの品質を向上させることができ最終的な音声合成の品質を向上させることができるのと同時に、少量のサンプルデータであっても十分な品質の音声合成を行うことができる。

　なお、本実施形態においては、音響特徴量として音のパワースペクトル、韻律特徴量として音のピッチ及び音韻の継続時間を採用して、対象者音声データベース２２の生成（Ｓ２００）、異常音声検出（Ｓ３００）及び手動補正処理（Ｓ３００）を行った。しかしながら、音響特徴量又は韻律特徴量のいずれか一方のみを特徴量として利用してもよく、又他の音響特徴量若しくは韻律特徴量を用いてもよい。
<２．６　混合データベースの生成>
　図８は、混合データベース２５の生成ステップ（Ｓ５００）の詳細について説明するフローチャートである。処理が開始すると、混合データベース生成部１４は、まず手動補正データベース２３と対象者音声データベース２２とを読み出した後（Ｓ５０１）、記憶部２０の混合比保持部２４から複数の混合比を読み出す（Ｓ５０２）。ここで、この混合比は手動補正データベース２３に係るテキスト数と対象者音声データベース２２に係るテキスト数の混合比率を表すものであり、例えば９：１、８：２、７：３、６：４、５：５、４：６、３：７、２：８又は１：９等である。

　次に、混合データベース生成部１４は、読み出した複数の混合比に基づいて手動補正データベース２３からランダムに選択したテキストと、対象者音声データベース２２からランダムに選択したテキストとを混合し、複数のデータベースを生成する（Ｓ５０３）。なお、このときいずれか一方のデータベースのみ（１０：０又は０：１０の混合比のデータベース）、すなわち混合を伴わないデータベースは生成しない。これは後述の実験結果からも明らかな通り、手動補正データベースと対象者音声データベースとを一定程度混合した方が最終的な合成音声の品質が良いためである。

　続いて、この複数のデータベースに基づいて、音声合成パラメータ生成部１５にて、データベース毎に音声合成パラメータを生成する（Ｓ５０４）。この音声合成パラメータは音声合成出力を行う際のパラメータ（又は係数）であり、その算出にあたっては既知の種々の手法が適用可能であるが、例えば音声データベースに基づいて学習を行うＨＭＭ（隠れマルコフモデル）や、波形素片接続型音声合成技術等を用いることが好適である。これらの音声合成パラメータを混合データベース２５として記憶部２０に保存する（Ｓ５０５）。
<２．７　高品質データベースの選択処理>
　図９は、高品質音声合成データベースの選択処理ステップ（Ｓ６００）の詳細について説明するフローチャートである。処理が開始すると、音声品質比較部１６は、記憶部２０から複数の音声合成パラメータと所定のサンプルテキストとを読み出す（Ｓ６０１）。

　次に、読み出した複数の音声合成パラメータとサンプルテキストに基づいて、音声合成パラメータ毎にサンプルテキストに対応する合成音声を生成する（Ｓ６０２）。このとき用いられる音声合成アルゴリズムは音声合成パラメータを生成した際のアルゴリズムと同様であり、例えばＨＭＭや波形接続型音声合成技術等である。

　複数の合成音声が生成された後、同様のサンプルテキストについて音声合成対象者により実際に読まれた音声（肉声）を１又は複数基準音声データとして読み出す（Ｓ６０３）。この基準音声データは対象者音声データベース２２から読み出してもよいし、予め別途記憶部に保存しておいてもよい。読み出された基準音声データで用いられたサンプルテキストと同様のサンプルテキストについて生成された複数の合成音声と基準音声とを比較し各音声データ間の音響的類似度を算出する（Ｓ６０４）。この類似度算出の結果、基準音声データとの類似度が最も大きい合成音声を生成した音声合成パラメータを特定し、当該音声合成パラメータを高品質音声合成データベース２６として選択し記憶部２０へと保存する（Ｓ６０４）。

　ここで、基準音声と各音声データとの間の類似度算出方法の詳細について説明する。類似度算出にあたっては、まず、上記基準音声及び複数の合成音声のそれぞれについて特徴量、すなわち本実施形態においてはパワースペクトル、ピッチ及び音韻の継続時間を特徴量算出部１１により算出し、又は既に算出している場合には記憶部２０より読み出す。次に、当該算出された又は読み出された基準音声に係る各特徴量と各合成音声に係る各特徴量との間で差分演算を行い、各差分演算結果を加算することで特徴量毎の総差分を算出し、特徴量毎に総差分が最も小さい、換言すれば基準音声データの特徴量に近い特徴量を有するデータから順にランク付けを行う。ランク付けはパワースペクトル、ピッチ及び音韻の継続時間のそれぞれに関して行われ、最も総差分が小さい１位が１０ポイント、２位が２０ポイント、３位が３０ポイント・・・のようにランクが高い程付与されるポイントが小さくなるよう設定する。

　各特徴量についてランク付けによるポイント付与を行った後、続いて、各特徴量のポイントを互いに加算し、合成音声毎に総合ポイントを算出する。なお、この各特徴量に係るポイント同士の加算を行う際、特徴量に応じて重み付けを行ってもよい。例えば、パワースペクトルに関するポイントを５０％の割合、ピッチに関するポイントを２５％の割合、音韻の継続時間に関するポイントを２５％の割合で足し合わせるよう係数を掛けてもよい。

　以上の演算の結果、最小のポイントの合成音声に係る音声パラメータを最も類似度の高い音声合成パラメータとして特定し、高品音声合成パラメータとして選択する。なお、本実施形態では類似度算出方法として特徴量間の差分に基づく手法を説明したが、類似度算出方法はこのような方法に限定されない。すなわち類似度算出にあたっては音声データ間の音響的類似度を算出する既知のいずれの手法を採用してもよい。

　上記の品質選択処理によれば、上記手動による補正処理による合成音声の高品質化作用に加えて、複数の混合比率で混合された複数のデータベースの中から対象者本人による音声と最も類似する音声を選別することとなるので最も対象者本人らしい音声合成が可能となり、それにより合成音声の自然性を向上させることができる。

　なお、本実施形態に係る混合データベース生成処理では、複数の混合比を用いて複数の音声合成パラメータを生成し（Ｓ５０１～５０５）、その中から最も品質のよい音声合成パラメータを選択した（Ｓ６０１～６０４）。しかしながら、合成音声の品質を追求しない場合や予め所定の混合比による混合を行いたい場合には、１つの混合比を用いて１つの音声合成パラメータを生成し、それを音声合成に用いる最終的な合成音声パラメータとして保存してもよい。
<３．生成された音声合成データベースを用いた音声出力>
　次に、高品質音声合成データベース２６と外部からのテキスト入力に基づいて、高品質の合成音声を生成する処理について説明する。

　図９は、具体的な音声出力処理の流れについて説明するフローチャートである。処理が開始すると、音声合成出力処理部１７は、キーボード入力等を介して得られた文字情報を処理する文字入力部３０と協働してテキスト入力受付処理を開始する（Ｓ７０１）。このようなテキスト入力受付処理は音声合成指令が入力されるまで繰り返され（Ｓ７０２ＮＯ）、入力テキストは記憶部２０へと逐次記憶される。

　次に、キーボードの改行キーが押される等して音声合成指令が入力されると（Ｓ７０２ＹＥＳ）、音声合成処理（Ｓ７０３～Ｓ７０５）が開始される。音声合成処理が開始されると、まず音声合成出力処理部１７は、高品質音声合成データベース２６から記憶部２０に保存されている音声合成パラメータを読み出し（Ｓ７０３）、その後、テキスト入力処理（Ｓ７０１～Ｓ７０２ＮＯ）を通じて入力された一連のテキストを読み出す（Ｓ７０４）。

　そして、音声合成出力処理部１７は、読み出された音声合成パラメータと一連のテキストとに基づいてＨＭＭにより音声合成を行い、音声出力部５０を介して当該合成結果を音声出力する（Ｓ７０５）。このような構成によれば、任意の入力テキストに対応して高品質の合成音声を出力することができる。
<４．合成音声の聴取実験>
　発明者らは対象者音声データベース２２と手動補正データベース２３とを混合することにより合成音声の品質が向上することを検証するため聴取実験を行った。
<４．１　実験方法>　
　実験では、まず、対象者音声データベース２２のみに基づいて生成された音声合成パラメータ（以下では、ＡＬパラメータと呼ぶ）と、対象者音声データベース２２に係るテキストと手動補正データベース２３に係るテキストとを７：３の割合で混合したデータベースに基づいて生成した音声合成パラメータ（以下では、ＨＨＬパラメータと呼ぶ）と、手動補正データベース２３のみに基づいて生成された音声合成パラメータ（以下では、ＨＬパラメータと呼ぶ）とを予め算出した。なお、音響モデルは７人の話者のデータに基づいて生成した。次に、上記ＡＬパラメータ、ＨＨＬパラメータ、ＨＬパラメータのそれぞれに基づいて、図１１及び１２に示す評価テキストに関する合成音声、すなわちＡＬ合成音声、ＨＨＬ合成音声、ＨＬ合成音声の生成を行った。なお、図１１及び１２に示す文章は様々な場面で使用されそうな短文であり、具体的には日常生活で使用しそうな短文２０文、ニュース原稿の短文１０文、会議で使用しそうな短文１０文、転職コンサルタントの使用しそうな短文１０文の計５０文で構成した。

　４名の被験者は、音声データの話者に関する情報は一切与えられることなく、ＡＬ合成音声、ＨＨＬ合成音声、ＨＬ合成音声をそれぞれランダムに聴取し、その合成音声の自然性に関して、１～５の５段階（１：よくない、２：もう少し、３：ふつう、４：よい、５：最良）の感覚評価を行った。
<４．２　実験結果>
　図１３は、被験者４名の５段階の評価結果をまとめたグラフである。同グラフにおいて、横軸は左からＡＬ合成音声、ＨＨＬ合成音声、ＨＬ合成音声を表し、縦軸は１～５の５段階の評価結果を表す。同グラフ中の各プロットは評価結果の平均値を表し垂直方向の線分はその偏差を表す。同図より、ＡＬパラメータのみに基づく音声合成、ＨＬパラメータのみに基づく音声合成よりもＨＨＬパラメータに基づく音声合成の方が良好な評価結果となっていることが看取される。すなわち、本実験により、手動補正データベースと対象者音声データベースとを一定程度混合した方が最終的な音声出力の品質が良いことが確認された。
<５．その他の実施形態について>
　なお、本願発明は上記一実施形態に限定されるものではなく、発明の要旨を変更しない範囲で種々変形可能である。例えば、上記実施形態においては、スタンドアロン型の装置にて実行される音声合成ソフトウエア（プログラム）について説明した。しかしながら、当該音声合成ソフトウエアは必ずしもスタンドアロン型の装置にて実行する必要はなく、当該音声合成ソフトウエアをサーバ上で実行しクライアント機からＬＡＮ又はインターネットを介して当該サーバにアクセスし音声合成機能を使用するネットワークシステムとして実現してもよい。すなわち、その場合の装置はサーバを意味する。また、上記実施形態は１つの装置内にてすべての処理がなされるとしたが各機能を分散してもよい。例えば、記憶部は必ずしもサーバ内に構成される必要はなく外部ストレージなどサーバとは別個に設けられてもよい。

　また、上記では日本語音声の音声合成例のみを説明したが、本発明はこれに限定されない。従って、本発明を日本語以外の他の言語に適用することも可能である。

　本発明によれば、音声データベースに基づいて高品質の音声合成を行うことができる音声合成方法、プログラム、装置及びサーバを提供することができ、それにより福祉、娯楽その他ビジネス等の産業に寄与することができる。

　１０　　制御部
　２０　　記憶部
　３０　　文字入力部
　４０　　音声入力部
　５０　　音声出力部
　６０　　表示処理部
　７０　　入出力Ｉ／Ｆ
　１００　　パーソナルコンピュータ

Claims

　対象者の合成音声を生成するための音声合成パラメータ生成方法であって、
　複数のサンプルテキストに関する対象者音声の音響特徴量及び／又は韻律特徴量である対象者音響特徴量及び／又は対象者韻律特徴量を算出し、対象者音声データベースとして保存する対象者音声データベース保存ステップと、
　前記対象者音響特徴量及び／又は対象者韻律特徴量のうち、異常な音響特徴量及び／又は韻律特徴量を有する対象者音声部分を異常音声部として検出する異常音声検出ステップと、
　対象者音声データベースのうち前記異常音声検出ステップで検出された前記異常音声部に対応する音響特徴量及び／又は対象者韻律特徴量の補正を受け付ける手動補正処理受付ステップと、
　前記補正後の音響特徴量及び／又は韻律特徴量を有する音声データベースを手動補正データベースとして保存する手動補正データベース保存ステップと、
　前記対象者音声データベースと前記手動補正データベースとを所定の混合比で混合する混合ステップと、
　前記混合ステップにて混合されたデータベースに基づいて、前記対象者の音声合成を行うための音声合成パラメータを生成する音声合成パラメータ生成ステップと、
を備える音声合成パラメータ生成方法。
　請求項１記載の音声合成パラメータ生成方法において、
　前記混合ステップにおいて、前記混合比は互いに異なる複数の混合比であり、
　前記音声合成パラメータ生成ステップにおいて、前記複数の混合比に基づいて複数の音声合成パラメータを生成し、
　前記音声合成パラメータ生成方法は、さらに、音声品質比較ステップを備え、
　前記音声品質比較ステップは、前記複数の音声合成パラメータにより生成される音声と対象者自身の音声にて成る基準音声との比較を行い、前記基準音声との類似度の高い音声を生成した音声合成データベースを高品質音声合成データベースとして選択する、
音声合成パラメータ生成方法。
　請求項２記載の音声合成パラメータ生成方法において、
　前記音響特徴量は、音のパワースペクトルであり、
　前記韻律特徴量は、音のピッチ及び音韻の継続時間である、
音声合成パラメータ生成方法。
　請求項３記載の音声合成パラメータ生成方法において、
　前記対象者音声データベース保存ステップにおいて、前記対象者韻律特徴量である音韻の継続時間は、複数人のサンプル音声データに基づいて得られた音響モデルに基づいて生成される、
音声合成パラメータ生成方法。
　対象者の合成音声を生成するための音声合成パラメータ生成プログラムであって、
　コンピュータに、
　複数のサンプルテキストに関する対象者音声の音響特徴量及び／又は韻律特徴量である対象者音響特徴量及び／又は対象者韻律特徴量を算出し、対象者音声データベースとして保存する対象者音声データベース保存ステップと、
　前記対象者音響特徴量及び／又は対象者韻律特徴量のうち、異常な音響特徴量及び／又は韻律特徴量を有する対象者音声部分を異常音声部として検出する異常音声検出ステップと、
　対象者音声データベースのうち前記異常音声検出ステップで検出された前記異常音声部に対応する音響特徴量及び／又は対象者韻律特徴量の補正を受け付ける手動補正処理受付ステップと、
　前記補正後の音響特徴量及び／又は韻律特徴量を有する音声データベースを手動補正データベースとして保存する手動補正データベース保存ステップと、
　前記対象者音声データベースと前記手動補正データベースとを所定の混合比で混合する混合ステップと、
　前記混合ステップにて混合されたデータベースに基づいて、前記対象者の音声合成を行うための音声合成パラメータを生成する音声合成パラメータ生成ステップと、
を実行させる音声合成パラメータ生成プログラム。
　対象者の合成音声を生成するための音声合成パラメータ生成装置であって、
　複数のサンプルテキストに関する対象者音声の音響特徴量及び／又は韻律特徴量である対象者音響特徴量及び／又は対象者韻律特徴量を算出し、対象者音声データベースとして保存する対象者音声データベース保存部と、
　前記対象者音響特徴量及び／又は対象者韻律特徴量のうち、異常な音響特徴量及び／又は韻律特徴量を有する対象者音声部分を異常音声部として検出する異常音声検出部と、
　対象者音声データベースのうち前記異常音声検出ステップで検出された前記異常音声部に対応する音響特徴量及び／又は対象者韻律特徴量の補正を受け付ける手動補正処理受付部と、
　前記補正後の音響特徴量及び／又は韻律特徴量を有する音声データベースを手動補正データベースとして保存する手動補正データベース保存部と、
　前記対象者音声データベースと前記手動補正データベースとを所定の混合比で混合する混合部と、
　前記混合ステップにて混合されたデータベースに基づいて、前記対象者の音声合成を行うための音声合成パラメータを生成する音声合成パラメータ生成部と、
を備える音声合成パラメータ生成装置。