WO2007141993A1

WO2007141993A1 - 音声合成装置

Info

Publication number: WO2007141993A1
Application number: PCT/JP2007/059765
Authority: WO
Inventors: Yoshifumi Hirose; Yumiko Kato; Takahiro Kamai
Original assignee: Panasonic Corporation
Priority date: 2006-06-05
Filing date: 2007-05-11
Publication date: 2007-12-13
Also published as: JPWO2007141993A1; JP4246790B2; CN101490740B; US20090254349A1; CN101490740A

Abstract

　音声コンテンツの編集を高速に実行することを可能とし、音声コンテンツを手軽に作成ができる音声合成装置は、小規模音声素片ＤＢ（１０１）と、小規模音声素片選択部（１０２）と、小規模音声素片接続部（１０３）と韻律修正部（１０４）と、大規模音声素片ＤＢ（１０５）と、小規模音声素片ＤＢ（１０１）と大規模音声素片ＤＢ（１０５）を対応付ける対応ＤＢ（１０６）と、音声素片候補取得部（１０７）と大規模音声素片選択部（１０８）と大規模音声素片接続部（１０９）とで構成され、小規模音声素片ＤＢ（１０１）を用いて合成音を編集し、編集結果に基づいて大規模音声素片ＤＢ（１０５）を用いて高音質化することにより、携帯端末上で容易に音声コンテンツを作成することが可能となる。

Description

明細書

音声合成装置

技術分野

[0001] 本発明は、音声合成技術に基づく音声コンテンツ編集，生成方法に関するものである。

背景技術

[0002] 近年、音声合成技術の発達により、非常に高音質な合成音を作成することが可能となってきた。

[0003] し力しながら、従来の合成音の用途は-ユース文をアナウンサー調で読み上げる等の画一的な用途が中心であった。

[0004] 一方で、携帯電話のサービスなどでは、着信音の代わりに有名人の音声メッセージを用いるとヽつたサービスが提供されるなど、特徴のある音声 (個人再現性の高ヽ合成音や、女子高校生風や関西弁風などの特徴的な韻律 ·声質をもつ合成音)がーつのコンテンツとして流通しはじめている。このように、個人間のコミュニケーションにおける楽しみを増やすために、特徴的な音声を作って相手に聞かせることに対する要求が高まることが考えられる。

[0005] 以上のようなことから、従来のような単調な読み上げ調としてだけではなぐ様々な声質や韻律を持った音声コンテンツを編集'作成して利用したいというニーズが高まりつつある。

[0006] 「音声コンテンツの編集 '作成」とは、上記のような音声コンテンツ作成という観点から見ると、例えば、女子高校生風や関西弁風などの特徴のある抑揚をつけたり、作成者の感情が伝わるように韻律や声質を変更したり、語尾を強調したりといったように、編集者自身の好みに合わせて合成音をカスタマイズすることに相当する。このようなカスタマイズは 1回の処理で行なうよりも、むしろ編集と試聴とを繰り返すことによって、ユーザが望むコンテンツを作成することが可能となる。

[0007] 上述の音声コンテンツの編集.作成を手軽に行なうための環境としては、以下の要件が必要である。 [0008] (1)携帯端末などの小規模なハードウェアリソースでも作成できる。

[0009] (2)合成音の編集を高速に行なうことが可能である。

[0010] (3)編集途中の合成音を簡単に試聴することができる。

[0011] 従来、高音質な合成音を作成する方法として、例えば、再生時の合計時間が数時間から数百時間という大規模な音声を記録した音声データベースから、最適な音声素片系列を選択して接続することにより、高音質に合成音を作成するものが提案されている（例えば、特許文献 1参照。 ) o図 1は、特許文献 1に記載された従来の音声合成装置の構成を示すブロック図である。

[0012] 従来の音声合成装置は、合成目標となるテキストを分析した結果得られる合成器指令 002を入力として受け、音声素片 DB (データベース) 001に含まれる拡張された音声素片から適切な音声素片を選択し接続して合成音声波形 019を出力する音声合成装置である。

[0013] 音声合成装置は、多段予備選択部 003と、素片選択部 004と、接続部 005とを含む。

[0014] 多段予備選択部 003は、合成器指令 002を受け、合成器指令 002により指定された音声素片のうちで、後述するように多段の予備選択を行なって予備選択候補群 01 8を選択する。

[0015] 素片選択部 004は、合成器指令 002を受け、予備選択候補群 018から全サブコストを用いて計算したコストの最も小さな素片を選択する。

[0016] 接続部 005は、素片選択部 004により選択された音声素片を接続して合成音声波形 019を出力する。

[0017] なお、予備選択候補群 018は素片の選択のみに用いられるので、コスト計算に必要な特徴量のみを含み、音声素片データそのものは含まない。接続部 005は、素片選択部 004により選択された素片の音声素片データを、音声素片 DB001を参照して得ること〖こなる。

[0018] 従来の音声合成装置で使用されるサブコストは、基本周波数誤差、継続時間長誤差、 MFCC (Mel Frequency Cepstrum Coefficient)誤差、 FO (基本周波数）不連続誤差、 MFCC不連続誤差、音素環境誤差にそれぞれ対応する 6種類のサブコストを含む。これらのうち、前 3者はターゲットコストに属し、後 3者は接続コストに属する。

[0019] 従来の音声合成装置に係る素片選択部 004によるコスト計算では、コストはサブコストから計算される。

[0020] 多段予備選択部 003は、 4つの予備選択部 006、 009、 012および 015を含む。

[0021] 第 1の予備選択部 006は、合成器指令 002を受け、音声素片 DB001中の音声素片候補力各時刻における F0誤差、継続時間長誤差による予備選択をして第 1の候補群 007を出力する。

[0022] 第 2の予備選択部 009は、第 1の候補群 007中の素片から、各時刻における F0誤差、継続時間長誤差、 MFCC誤差による予備選択をして第 2の候補群 010を出力する。

[0023] 以下同様に第 3の予備選択部 012および第 4の予備選択部 015もサブコストの一部を使用して予備選択を行なう。

[0024] このように予備選択を行なうことにより、音声素片 DB001から最適な音声素片を選択する計算量を削減して、る。

特許文献 1 :特開 2005— 265895号公報（図 1)

発明の開示

発明が解決しょうとする課題

[0025] 上述のように本発明の目的は、音声コンテンツの作成であり、そのためには合成音を編集するという手段が必要である。し力しながら、特許文献 1の技術を用いて合成音すなわち音声コンテンツを編集する場合には、以下の問題が存在する。

[0026] すなわち、特許文献 1に記載の音声合成装置は、素片を選択する際に予備選択部を導入することによりトータルの計算コストを削減することはできる。しかし、結果として合成音を得るためには、第 1の予備選択部 006において全ての音声素片からの予備選択を行なう必要がある。また、接続部 005が最終的に最適な音声素片を音声素片 DB001から毎回選択する必要がある。さらに、高音質な合成音を生成するためには、音声素片 DB001には、数多くの音声素片を記憶しておかなければならず、通常、再生時の合計時間が数時間から数百時間という大規模なデータベースとなる。

[0027] したがって、合成音を編集する際に毎回大規模な音声素片 DB001から音声素片を選択した場合には、結局目的の合成音を得るまでに、毎回大規模な音声素片 DB 001を探索する必要がある。このため、編集時の計算コストが大きくなるという課題がある。

[0028] 本発明は、前記従来の課題を解決するもので、音声コンテンツの編集を高速に実行することができ、音声コンテンツを手軽に作成できる音声合成装置を提供することを目的とする。

課題を解決するための手段

[0029] 本発明のある局面に係る音声合成装置は、音声記号および韻律情報に適合する合成音を生成する音声合成装置であって、合成音を生成するために用いられる合成音生成用データを保持している小規模データベースと、前記小規模データベースに保持されている前記合成音生成用データよりも多くの数の音声素片を保持している大規模データベースと、生成される合成音が音声記号および韻律情報に適合する合成音生成用データを前記小規模データベースより選択する合成音生成用データ選択手段と、前記合成音生成用データ選択手段で選択された前記合成音生成用データに対応する音声素片を、前記大規模データベースの中から選択する適合音声素片選択手段と、前記適合音声素片選択手段で選択された前記音声素片を接続することにより合成音を生成する音声素片接続手段とを備えることを特徴とする。

[0030] この構成によると、合成音生成用データ選択手段が、小規模データベースより合成音生成用データを選択する。また、適合音声素片選択手段が、大規模データベースより、選択された合成音生成用データに対応する高品質な音声素片を選択する。このように、 2段階で音声素片を選択するようにすることにより、高音質の音声素片を高速に選択することができる。

[0031] また、前記大規模データベースは、コンピュータネットワークを介して前記音声合成装置と接続されたサーバに設けられており、前記適合音声素片選択手段は、前記サーバに設けられた前記大規模データベースの中力前記音声素片を選択するようにしてちよい。

[0032] 大規模データベースをサーバに置くことにより、端末は、無駄な記憶容量を必要とせずに、最小な構成で音声合成装置を構成することができる。 [0033] また、上述の音声合成装置は、さらに、前記合成音生成用データ選択手段で選択された音声素片を接続することにより、簡易合成音を生成する小規模音声素片接続手段と、前記簡易合成音の韻律情報を修正するための情報を受け付け、当該情報に基づいて前記韻律情報を修正する韻律情報修正手段とを備える。そして、前記合成音生成用データ選択手段は、前記簡易合成音の韻律情報が修正された場合に、生成される合成音が音声記号および修正後の前記韻律情報に適合する合成音生成用データを前記小規模データベースより再選択して、前記小規模音声素片接続手段に前記再選択した合成音声生成用データを出力する。そして、前記適合音声素片選択手段は、前記修正と前記再選択とで決定された前記合成音生成用データを受け取り、当該合成音生成用データに対応する音声素片を前記大規模データべ一スの中力も選択するようにしてもよ!、。

[0034] 韻律情報を修正することにより合成音生成用データが再選択される。このような、韻律情報の修正および合成音生成用データの再選択を繰返しながら、ユーザが所望する合成音生成用データを選択する。また、大規模データベース力の音声素片の選択は、最後に 1度だけ行えばよい。このため、高音質な合成音を効率的に作成することがでさる。

[0035] なお、本発明は、このような特徴的な手段を備える音声合成装置として実現することができるだけでなぐ音声合成装置に含まれる特徴的な手段をステップとする音声合成方法として実現したり、音声合成方法に含まれる特徴的なステップをコンピュータに実行させるプログラムとして実現したりすることもできる。そして、そのようなプロダラムは、 CD— ROM (Compact Disc -Read Only Memory)等の記録媒体ゃィンターネット等の通信ネットワークを介して流通させることができるのは言うまでもない

発明の効果

[0036] 本発明によると、音声コンテンツの編集を高速に実行することを可能とし、音声コンテンッを手軽に作成ができる音声合成装置を提供することができる。

[0037] 本発明の音声合成装置によれば、合成音の編集処理としては、端末のみで小規模データベースを用いて合成音を作成できる。また韻律修正手段により、ユーザによる合成音の編集処理が可能となる。これにより、携帯端末など比較的小規模なリソースの端末においても音声コンテンツの編集を可能とすることができる。また、端末側で、小規模データベースを用いて合成音を作成できるので、編集した合成音を、端末のみで再生し、ユーザは、再生された合成音を試聴することができる。

[0038] また、ユーザは、編集作業が完了した後、サーバに保持されている大規模データべースを用いて高音質ィ匕処理が可能となる。このとき、対応データベースにおいて、既に決定されている小規模音声素片系列と大規模データベースの候補とが対応付けられている。このため、大規模音声素片選択部による素片の選択は、改めて素片を再選択する場合と比較して、限定された探索空間を探索するのみでよ!/、ので計算量を大幅に削減することができる。例えば大規模音声素片の例としては数 GB以上のシステムがあり、これに対し小規模音声素片の例としては 0. 5MB程度のものもある。

[0039] さらに、大規模データベースに記憶されている素片取得のための端末とサーバとの間の通信は、高品質ィ匕処理を行なう際の 1度だけ行なえばよい。このため、通信に伴う時間的ロスを低減できる。すなわち、編集作業と、高音質化処理とを分離することにより、音声コンテンツの編集作業に要するレスポンスを向上させることができる。図面の簡単な説明

[0040] [図 1]図 1は、従来の多段素片選択型音声合成装置の構成図である。

[図 2]図 2は、本発明の実施の形態 1における多重品質音声合成装置の構成図である。

[図 3]図 3は、本発明の実施の形態 1の対応 DBの例である。

[図 4]図 4は、本発明の実施の形態 1における多重品質音声合成装置をシステムとして実現した場合の概念図である。

[図 5]図 5は、本発明の実施の形態 1における多重品質音声合成装置の動作を示すフローチャートである。

[図 6]図 6は、本発明の実施の形態 1の高音質ィ匕処理の動作例を示す図である。

[図 7]図 7は、大規模音声素片 DBに保持されている音声素片群に対して階層的クラスタリングを行った場合の概念図である。

[図 8]図 8は、本発明の実施の形態 1の変形例 1における多重品質音声合成処理のフローチャートである。

[図 9]図 9は、本発明の実施の形態 1の変形例 2における多重品質音声合成処理のフローチャートである。

[図 10]図 10は、本発明の実施の形態 1の変形例 3における多重品質音声合成処理のフローチャートである。

[図 11]図 11は、本発明の実施の形態 1の変形例 4における多重品質音声合成処理のフローチャートである。

[図 12]図 12は、統計モデルによる音声合成方式の一つである HMM音声合成方法を用いたテキスト音声合成装置の構成図である。

[図 13]図 13は、本発明の実施の形態 2における多重品質音声合成装置の構成図である。

[図 14]図 14は、本発明の実施の形態 2における多重品質音声合成装置の動作を示すフローチャートである。

[図 15]図 15は、本発明の実施の形態 2の高音質ィ匕処理の動作例を示す図である。

[図 16]図 16は、大規模音声素片 DBに保持されている音声素片群に対してコンテキストクラスタリングを行なった場合の概念図である。

[図 17]図 17は、本発明の実施の形態 2の対応 DBの例である。

[図 18]図 18は、本発明の実施の形態 2の高音質化処理において、素片単位に複数の状態の HMMが割り当てられてヽる場合の動作例を示す図である。

[図 19]図 19は、本発明の実施の形態 3に係る多重品質音声合成システムの構成を示すブロック図である。

[図 20]図 20は、実施の形態 3に係る多重品質音声合成システムによる処理の流れを示すフローチャートである。

[図 21]図 21は、実施の形態 3に係る多重品質音声合成システムによる処理の流れを示すフローチャートである。符号の説明

101 小規模音声素片 DB

102 小規模音声素片選択部 103 小規模音声素片接続部

104 韻律修正部

105 大規模音声素片 DB

106、 506 対応 DB

107 音声素片候補取得部

108 大規模音声素片選択部

109 大規模音声素片接続部

501 HMMモデル

502 HMM音声合成部

503 合成部

発明を実施するための最良の形態

[0042] 以下、本発明の実施の形態について、図面を参照しながら説明する。

[0043] (実施の形態 1)

本発明の実施の形態 1では、音声素片 DBを小規模音声素片 DBと大規模音声素片 DBとに階層化することにより、音声コンテンツの編集作業を効率ィ匕することを特徴とする。

[0044] 図 2は、本発明の実施の形態 1における多重品質音声合成装置の構成図である。

[0045] 多重品質音声合成装置は、複数の品質の音声を合成する装置であり、小規模音声素片 DB101と、小規模音声素片選択部 102と、小規模音声素片接続部 103と、韻律修正部 104と、大規模音声素片 DB105と、対応 DB106と、音声素片候補取得部 107と、大規模音声素片選択部 108と、大規模音声素片接続部 109とを含む。

[0046] 小規模音声素片 DB101は、小規模な音声素片を保持するデータベースである。

小規模音声素片 DB101に記憶されている音声素片のことを、本明細書中では、特に「小規模音声素片」という。

[0047] 小規模音声素片選択部 102は、作成する合成音の目標となる音韻情報と韻律情報とを入力として受け、小規模音声素片 DB101に保持されている音声素片の中から最適な音声素片系列を選択する処理部である。

[0048] 小規模音声素片接続部 103は、小規模音声素片選択部 102により選択された音声素片系列を接続して合成音を生成する処理部である。

[0049] 韻律修正部 104は、韻律情報を修正するための情報のユーザによる入力を受け付け、多重品質音声合成装置が作成する合成音の目標となる韻律情報を修正する処理部である。

[0050] 大規模音声素片 DB105は、大規模な音声素片を保持するデータベースである。

大規模音声素片 DB105に記憶されている音声素片のことを、本明細書中では、特に「大規模音声素片」という。

[0051] 対応 DB106は、小規模音声素片 DB101に保持されている音声素片と大規模音声素片 DB105に保持されている音声素片の対応関係を示す情報を保持するデータベースである。

[0052] 音声素片候補取得部 107は、小規模音声素片選択部 102により選択された音声素片系列を入力として受け、対応 DB106に記憶されている音声素片の対応関係を示す情報に基づいて、入力された音声素片系列の各音声素片に対応する音声素片候補を、ネットワーク 113などを介して大規模音声素片 DB105から取得する処理部である。

[0053] 大規模音声素片選択部 108は、合成音の目標となる、小規模音声素片選択部 10 2が入力として受けた音韻情報と小規模音声素片選択部 102が入力として受けた韻律情報または韻律修正部 104により修正された韻律情報とを入力として受け、音声素片候補取得部 107により選択された音声素片候補の中から最適な音声素片系列を選択する処理部である。

[0054] 大規模音声素片接続部 109は、大規模音声素片選択部 108により選択された音声素片系列を接続して合成音を生成する処理部である。

[0055] 図 3は、対応 DB106に記憶されている、小規模音声素片 DB101に保持されている音声素片と大規模音声素片 DB105に保持されている音声素片の対応関係を示す情報の一例を示す図である。

[0056] 同図に示されるように、対応 DB106の対応関係を示す情報には、「小規模音声素片番号」と「大規模音声素片番号」とが対応付けられて記憶されてヽる。「小規模音声素片番号」とは、小規模音声素片 DB101に記憶されている音声素片を識別するための音声素片番号であり、「大規模音声素片番号」とは、大規模音声素片 DB105 に記憶されている音声素片を識別するための音声素片番号である。例えば、小規模音声素片番号「2」の音声素片には、大規模音声素片番号「1」および「2」の音声素片が対応付けられている。

[0057] なお、番号が同一の音声素片は同一の音声素片を示すものとする。すなわち、小規模音声素片番号「2」の音声素片と大規模音声素片番号「2」の音声素片とは同一の音声素片を示す。

[0058] 図 4は、本実施の形態に係る多重品質音声合成装置をシステムとして実現した場合の概念図である。

[0059] 多重品質音声合成システムは、ネットワーク 113を介して相互に接続された端末 11 1とサーバ 112とを備えており、端末 111とサーバ 112との協調動作により、多重品質音声合成装置を実現する。

[0060] 端末 111は、小規模音声素片 DB101と、小規模音声素片選択部 102と、小規模音声素片接続部 103と、韻律修正部 104と、対応 DB106と、音声素片候補取得部 1 07と、大規模音声素片選択部 108と、大規模音声素片接続部 109とで構成される。サーバ 112は、大規模音声素片 DB105で構成される。

[0061] このように多重品質音声合成システムを構成することにより、端末 111に要求される記憶容量は大きくなくて良い。また大規模音声素片 DB105は、端末 111に設ける必要はなぐサーバ 112が集中して保持しておけばよい。

[0062] 次に、本実施の形態に係る多重品質音声合成装置の動作を図 5に示すフローチヤートを用いて説明する。多重品質音声合成装置の動作は、合成音の編集処理と、編集された合成音の高音質化処理とに大きく分けられる。以下、合成音の編集処理と、高音質化処理とに分けて順に説明を行う。

[0063] <編集処理 >

まず、合成音の編集処理について説明する。前処理として、ユーザにより入力されたテキスト情報が解析され、音韻系列とアクセント記号を元に韻律情報が生成される ( ステップ S001)。韻律情報の生成の方法は特に限定されるものではなぐ例えば、テンプレートを参照して生成するようにしてもよ!、し、数量化 I類を用いて推定するようにしても良い。また、韻律情報は外部から直接入力されても良い。

[0064] 例えば、「あらゆる」というテキストデータ (音素情報）が取得され、その音素情報に含まれる各音素と各韻律とを含む韻律情報群が出力される。この韻律情報群は、音素 "a"およびこれに対応する韻律を示す韻律情報 tと、音素" r"およびこれに対応す

1

る韻律を示す韻律情報 tと、音素 "a"およびこれに対応する韻律を示す韻律情報 tと

2 3

、音素" y"およびこれに対応する韻律を示す韻律情報 tと、以下同様に" u", "r", "u

4

"にそれぞれ対応する韻律情報 t〜tとを少なくとも含む。

5 7

[0065] 小規模音声素片選択部 102は、ステップ S001により得られた韻律情報 t〜tに基

1 7 づいて、小規模音声素片 DB101からターゲット韻律 (t〜t )との距離 (ターゲットコス

1 7

ト (Ct) )と、音声素片の接続性 (接続コスト (Cc) )とを考慮して、最適な音声素片系列 (U=u , u , · · ·, u )を選択する (ステップ S002)。具体的には次式（1)に示すコスト

1 2 n

が最小となる音声素片系列をビタビアルゴリズムにより探索する。ターゲットコストと接続コストの算出法は特に限定するものではないが、例えば、ターゲットコストは、韻律情報 (基本周波数 '継続時間長'パワー)の差分の重み付け和で計算するようにすればよい。また、接続コストは、 U の終端と Uの始端のケプストラム距離を用いて計算す i-1 i

るようにすればよい。

[0066] [数 1]

U ) + Cc(w ₅w )}

また、

[0067] [数 2]

argmin口

U

は、 U=u , u , · · ·, uを変化させた時に、括弧内の値が最小となる Uの系列を示す。 [0068] 小規模音声素片接続部 103は、小規模音声素片選択部 102により選択された音声素片系列を用いて音声波形を合成し、合成音を出力することによりユーザに提示する (ステップ S003)。音声波形を合成する方法は特に限定されるものではない。

[0069] 韻律修正部 104は、ユーザが合成音に満足している力否かの入力を受け付ける（ステップ S004)。ユーザが合成音に満足して、る場合には（ステップ S004で YES) 、編集処理が終了し、ステップ S006以降の処理が実行される。

[0070] ユーザが合成音に満足して、な、場合には (ステップ S004で NO)、韻律修正部 1 04は、韻律情報を修正するための情報のユーザによる入力を受け付け、ターゲットとなる韻律情報を修正する (ステップ S005)。「韻律情報の修正」は、例えば、ァクセント位置の変更、基本周波数の変更、継続時間長の変更などを含む。これにより、ユーザは、現状の合成音の韻律で満足できない箇所を修正することができ、編集された韻律情報 Τ' =ΐΤ , t , · · ·, t を作成することができる。修正が終了すると、ステップ

1 2 n

S002に戻る。ステップ S002力らステップ S005までの処理を繰り返すことにより、ュ一ザは自分が望む韻律の合成音を作成することが可能である。このようにして選択された音声素片系列を S = s , s , · ··, sとする。

1 2 n

[0071] なお、韻律修正部 104のインタフェースは特に限定するものではない。例えば、スライダーのようなもので韻律情報を修正するようにしてもよいし、女子高校生風、または関西弁風などのように直感的に表現された韻律情報をユーザが指定するようにしても良い。さらに、ユーザが音声により韻律情報を入力するようにしても良い。

[0072] <高音質化処理 >

次に高音質ィ匕の処理の流れを説明する。

[0073] 音声素片候補取得部 107は、編集処理で最後に確定した音声素片系列（S = s , s

1

, · ··, s )を元に、大規模音声素片 DB105から音声素片候補を取得する (ステップ S

2 n

006)。すなわち、音声素片候補取得部 107は、小規模音声素片 DB101に保持されている音声素片と大規模音声素片 DB105に保持されている音声素片との対応関係を示す情報を保持する対応 DB106を用いて、音声素片系列 (S = s , s , · ··, s )

1 2 n を構成する各音声素片に対応する音声素片候補を大規模音声素片 DB105から取得する。なお、対応 DB106の作成方法については後述する。 [0074] 図 6を用いて、音声素片候補取得部 107による音声素片候補取得処理 (ステップ S

006)について具体的に説明する。図 6の破線枠 601で囲った部分は、「arayuru」という音素列に対して、編集処理 (ステップ S001〜S005)で確定された小規模音声素片 DB101の音声素片系列（S = s , s , · ··, s )を示している。また、図 6は、対応 DB

1 2 7

106に基づいて、各小規模音声素片（s )に対応する大規模音声素片 DB105の音声素片候補群を取得する様子を示している。例えば、図 6の例では、音素「a」として編集処理で決定された小規模音声素片 sは、対応 DB106を用いることにより大規模

1

音声素片群 h , h , h , h に展開することができる。すなわち、大規模音声素片群

11 12 13 14

h , h , h , h は、小規模音声素片 sに音響的に類似した複数の実音声波形 (また

11 12 13 14 1

は実音声波形に基づく分析パラメータ)である。

[0075] 音素「r」に対応する小規模音声素片 sにつ、ても、対応 DB106を用いることにより

2

、大規模音声素片群 h , h , h に展開することができる。以下同様に、 s , · ··, sに

21 22 23 3 7 対しても対応 DB106に基づいて音声素片候補を取得することができる。すなわち、同図に示す大規模音声素片候補群系列 602は、小規模音声素片系列 Sに対応する大規模音声素片候補群の系列を示してヽる。

[0076] 大規模音声素片選択部 108は、ユーザにより編集された韻律情報に最適な音声素片系列を、上述の大規模音声素片候補群系列 602の中から選択する (ステップ SOO

7)。選択の方法は、ステップ S002と同一の方法でよいので説明を省略する。図 6の例では、 H=h , h , h , h , h , h , h が大規模音声素片候補群系列 602から

13 22 33 43 54 61 74

選択されたものとしている。

[0077] 結果として、 H = h , h , h , h , h , h , h は、大規模音声素片 DB105に保持

13 22 33 43 54 61 74

されている音声素片群からユーザにより編集された韻律情報を実現する最適な音声素片系列として選択されることになる。

[0078] 大規模音声素片接続部 109は、ステップ S007で選択された大規模音声素片 DB1

05に保持されている音声素片系列 Hを接続し、合成音を生成する (ステップ S008)

。接続の方法は特に限定しない。

[0079] なお、素片の接続の際には各素片を適宜変形して接続するようにしても良い。

[0080] 以上の処理により、編集処理で編集した簡易版の合成音に韻律'声質が類似し、かつ高音質な合成音を生成することが可能になる。

[0081] <対応 DBの作成方法 >

次に対応 DB106について詳しく説明する。

[0082] 対応 DB106は、上述したように、小規模音声素片 DB101に保持されて、る音声素片と大規模音声素片 DB105に保持されている音声素片との対応関係を示す情報を保持するデータベースである。

[0083] 具体的には、高音質化処理を行なう際に、編集処理で作成した簡易合成音に類似している音声素片を大規模音声素片 DB105から選択するために用いられる。

[0084] 小規模音声素片 DB101は、大規模音声素片 DB105が保持する素片群の部分集合であり、以下の関係を満たすことが本発明の特徴である。

[0085] まず、小規模音声素片 DB101に保持されている音声素片は、大規模音声素片 D Bに保持されている 1以上の音声素片に対応付けられている。さらに、対応 DB106 によって対応付けられた大規模音声素片 DB105の音声素片は、小規模音声素片 D Bの音声素片と音響的に類似している。類似の基準としては、韻律情報 (基本周波数、パワー情報、継続時間長など)および声道情報 (フォルマント、ケプストラム係数など )がある。

[0086] これによつて、小規模音声素片 DB101に保持された音声素片系列を用いて合成された簡易合成音と比較して、韻律および声質が近い音声素片を、高音質化処理の際に選択することができる。また、大規模音声素片 DB105は、豊富な候補の中から最適な音声素片候補を選択することが可能である。したがって、上述の大規模音声素片選択部 108で音声素片を選択する際のコストを小さくすることができる。これによつて、合成音の音質を向上させることができると、う効果を得ることができる。

[0087] なぜならば、小規模音声素片 DB101が保持している音声素片は限定されている。

このため、ターゲット韻律に近い合成音を生成することは可能であるが、音声素片間の接続性が高いことは保証できない。一方、大規模音声素片 DB105は、大量のデータを保持することが可能である。このため、大規模音声素片選択部 108は、大規模音声素片 DB105から音声素片間の接続性の高い音声素片系列を選択することが可能である（例えば、特許文献 1記載の方法を用いることにより実現可能である)。 [0088] 上記の対応付けを行なうために、クラスタリングの技術を用いる。「クラスタリング」とは複数の特性によって決定された個体間の類似性の指標をもとに、個体をいくつかの集合に分類するための手法である。

[0089] クラスタリングの方法は大きく分けて、類似した個体を併合していくつかの集合にまとめて行く階層的クラスタリング（hierarchical clustering method)と、類似した個体が結果的に同じ集合に入るように元の集合を分割する非階層的クラスタリング (non-hie rarchical clustering method)とに大別できる。本実施の形態では、具体的にクラスタリングの手法を限定するものではなぐ結果として類似した音声素片を同じ集合にまとめることができればよい。例えば、階層的クラスタリングでは、『ヒープを用いた階層的クラスタリング』という手法が知られている。また、非階層的クラスタリングでは『k— me ans法』と呼ばれる手法が知られて!/、る。

[0090] まず、階層的クラスタリングを用いて音声素片をいくつかの集合にまとめる方法について説明する。図 7は、大規模音声素片 DB105に保持されている音声素片群に対し、階層的クラスタリングを行った場合の概念図を表すものである。

[0091] 初期階層 301は、大規模音声素片 DB105に保持されている音声素片それぞれから構成される。同図の例において、大規模音声素片 DB105に保持されている音声素片は四角形で示されている。また、四角形に付与された数字は、音声素片を識別するための識別子、すなわち音声素片番号である。

[0092] 第 1の階層のクラスタ群 302は、階層的クラスタリングにより第 1の階層としてクラスタリングされたクラスタの集合であり、各クラスタは円形で示されている。クラスタ 303は、第 1の階層としてクラスタリングされたクラスタの 1つであり、具体的には、音声素片番号「1」および「2」の音声素片により構成されている。各クラスタに示されている数字は、クラスタを代表する音声素片の識別子である。例えば、クラスタ 303を代表する音声素片は、音声素片番号「2」の音声素片である。このとき、各クラスタにおいて、クラスタを代表する代表音声素片を決定する必要があるが、代表音声素片の決定方法としては、クラスタに属する音声素片群のセントロイドを用いる方法がある。すなわち、クラスタに属する音声素片群のセントロイドに最も近い音声素片をクラスタの代表とする。図の例では、クラスタ 303を代表する音声素片は音声素片番号「2」の音声素片となる。同様に他のクラスタについても、代表音声素片を決定することができる。

[0093] なお、クラスタに属する音声素片群のセントロイドの求め方としては、音声素片群に含まれる各音声素片の韻律情報および声道情報を要素とするベクトルを考えた場合に、複数のベクトルのベクトル空間中における重心をクラスタのセントロイドとして求める。

[0094] また、代表音声素片の求め方としては、上述の音声素片群に含まれる各音声素片のベクトルとクラスタのセントロイドのベクトルとの間で類似度を求め、類似度が最大となる音声素片を代表素片として求める。なお、クラスタのセントロイドのベクトルと各音声素片のベクトルとの間で距離 (例えば、ユークリッド距離)を求め、距離が最小となる音声素片を代表素片として求めてもょ、。

[0095] 第 2の階層のクラスタ群 304は、第 1の階層のクラスタ群 302に属するクラスタを、さらに上述の類似度に基づいてクラスタリングしたものである。したがってクラスタの数は第 1の階層のクラスタ群 302のクラスタ数よりも少ない。このとき、第 2の階層のクラスタ 305についても同様に代表音声素片を決定することができる。同図の例の場合、素片番号「2」の音声素片がクラスタ 305を代表する音声素片である。

[0096] このように階層的クラスタリングを行なうことによって、大規模音声素片 DB105は、第 1の階層のクラスタ群 302や、第 2の階層のクラスタ群 304のように分割することができる。

[0097] その際、第 1の階層のクラスタ群 302の各クラスタの代表音声素片のみ力もなる素片群を小規模音声素片 DB101として利用することができる。同図の例では、素片番号が 2, 3, 6, 8, 9, 12, 14, 15の音声素片を小規模音声素片 DB101として利用することができる。また、同様に第 2の階層のクラスタ群の各クラスタの代表音声素片のみ力もなる音声素片群を小規模音声素片 DB101として利用することもできる。同図の例では、素片番号が 2, 8, 12, 15の音声素片を小規模音声素片 DB101として禾 IJ用することがでさる。

[0098] すなわち、この関係を利用すると図 3に示す対応 DB106を構築することが可能となる。

[0099] 同図の例では、第 1の階層のクラスタ群 302を小規模音声素片として利用した場合を示している。小規模音声素片番号「2」の音声素片は、大規模音声素片 DB105の大規模音声素片番号「1」および「2」の音声素片に対応付けられている。また、小規模音声素片番号「3」の音声素片は、大規模音声素片 DB105の大規模音声素片番号「3」および「4」の音声素片に対応付けられる。以下同様に全ての第 1の階層のクラスタ群 302の代表音声素片と大規模音声素片 DB105の大規模音声素片番号とを対応付けることができる。また、このように小規模音声素片番号と大規模音声素片番号との関係を予め対応付けてテーブルとして保持することにより、対応 DB106の参照を非常に高速に行なうことが可能である。

[0100] なお、このように階層的クラスタリングを行なうことにより、小規模音声素片 DB101の規模をスケーラブルに変更することが可能となる。すなわち、小規模音声素片 DB10 1として、第 1の階層のクラスタ群 302の代表音声素片を用いたり、第 2の構成のクラスタ群 304の代表音声素片を用いたりすることができる。したがって、端末 111の記憶容量に応じた小規模音声素片 DB101を構成することが可能である。

[0101] このとき、小規模音声素片 DB101と大規模音声素片 DB0105とは、上述の関係を満たしている。すなわち、小規模音声素片 DB101として、第 1の階層のクラスタ群 30 2の代表音声素片を用いた場合、例えば、小規模音声素片 DB101に保持されている音声素片番号「2」の音声素片は、大規模音声素片 DB105の音声素片番号「1」および「2」の音声素片に対応する。また、音声素片番号「1」および「2」の音声素片は、上記基準によりクラスタ 303の音声素片番号「2」の代表音声素片に類似している。

[0102] 例えば、小規模音声素片選択部 102が、小規模音声素片 DB101より音声素片番号「2」の音声素片を選択した場合、音声素片候補取得部 107は、対応 DB106を用いて、素片番号「1」および「2」の音声素片を取得する。大規模音声素片選択部 108 は、取得した音声素片候補の中力も上述の式（1)が最小になる候補、すなわち、タ一ゲット韻律に近ぐかつ前後素片との接続性が良い音声素片を選択することになる

[0103] これによつて、大規模音声素片選択部 108により選択された音声素片系列のコスト値は、小規模音声素片選択部 102によって選択された音声素片系列のコスト値以下になることが保証できる。なぜならば、音声素片候補取得部 107が取得する音声素片候補には、小規模音声素片選択部 102により選択された音声素片を含み、かつ、その音声素片に類似した複数の音声素片が候補として追加されている力もである。

[0104] なお、上述の説明では、階層型クラスタリングを用いて対応 DB106を構成したが、非階層的クラスタリングを用いて対応 DB 106を構成するようにしてもょ、。

[0105] 例えば、 k means法を用いればよい。 k means法はあらかじめ設定されたクラスタ数 (k)になるように、要素群 (ここでは音声素片群)を分割する非階層的クラスタリングである。 k— means法を用いることにより、端末 111で必要とされる小規模音声素片 DB101のサイズを設計時に計算することが可能である。また、 k個に分割された各クラスタで代表音声素片を決定し、小規模音声素片 DB101として利用することにより階層的クラスタリングの場合と同様の効果を得ることができる。

[0106] なお、上記のクラスタリング処理は、あら力じめ音声素片の単位 (例えば、音素や音節、モーラ、 CV (C :子音、 V：母音）、 VCV)で分けてクラスタリングを行なうことにより効率的にクラスタリングすることができる。

[0107] 力かる構成によれば、端末 111は、小規模音声素片 DB101と、小規模音声素片選択部 102と、小規模音声素片接続部 103と、韻律修正部 104と、対応 DB106と、音声素片候補取得部 107と、大規模音声素片選択部 108と、大規模音声素片接続部 109とを具備し、サーバ 112は、大規模音声素片 DB105を具備するような構成とすることにより、端末 111に要求される記憶容量は大きくなくて良い。また大規模音声素片 DB105は、サーバ 112に集中して保持しておけばよいので、端末 111が複数存在する場合においても、大規模音声素片 DB105は、サーバ 112に 1つ保持しておくだけでよい。

[0108] このとき、編集処理としては、端末 111のみで、小規模音声素片 DB101を用いて合成音を作成できる。また韻律修正部 104により、ユーザによる合成音の編集処理が可能となる。

[0109] さらに、編集作業が完了した後、サーバ 112に保持されている大規模音声素片 DB 105を用いて高音質ィ匕処理が可能となる力このとき、対応 DB106により、既に決定されている小規模音声素片系列と大規模音声素片 DB105の候補とが対応付けられている。このため、大規模音声素片選択部 108による音声素片の選択は、改めて音声素片を再選択する場合と比較して、限定された探索空間を探索するのみでよ、ので計算量を大幅に削減することができる。

[0110] また、端末 111とサーバ 112との間の通信は、高品質化処理を行なう際に 1度だけ行なえばよい。このため、通信に伴う時間的ロスを低減できる。すなわち、編集作業と高音質ィ匕処理とを分離することにより、音声コンテンツの編集作業に要するレスボンスを向上させることが可能である。なお、高音質ィ匕処理をサーバ 112で行い、高音質化した結果を、ネットワーク 113を介して端末 111に送信するようにしても良!、。

[0111] なお、本実施の形態では、小規模音声素片 DB101を大規模音声素片 DB105の部分集合となるように構築したが、大規模音声素片 DB105の情報量を圧縮して小規模音声素片 DB101を作成するようにしても良い。具体的には、サンプリング周波数を小さくしたり、量子化ビット数を小さくしたり、分析する際の分析次数を低くするなどにより圧縮するようにしても良い。その場合、対応 DB106は、小規模音声素片 DB10 1と大規模音声素片 DB105とを一対一で対応付けるようにすれば良い。

[0112] 本実施の形態の各構成要素を、端末とサーバでどのように分担するかにより、それぞれの負荷が異なる。また、それに伴う端末とサーバ間で通信する情報も異なり、したがって通信量も異なる。以下に構成要素の組み合わせとその効果について説明する。

[0113] (変形例 1)

本変形例では、端末 111は、小規模音声素片 DB101、小規模音声素片選択部 1 02、小規模音声素片接続部 103および韻律修正部 104を具備する。サーバ 112は、大規模音声素片 DB105、対応 DB106、音声素片候補取得部 107、大規模音声素片選択部 108および大規模音声素片接続部 109を具備する。

[0114] 本変形例の動作を図 8のフローチャートを用いて説明する。個々のステップは既に説明しているので詳細な説明は省略する。

[0115] 端末 111を用いて編集処理を行なう。具体的には、韻律情報が生成される (ステツプ S001)。次に、小規模音声素片選択部 102は、小規模音声素片 DB101から小規模音声素片系列を選択する (ステップ S002)。小規模音声素片接続部 103は、小規模音声素片を接続して簡易版合成音を生成する (ステップ S003)。ユーザは生成された合成音を聞いて満足するかどうかの判断を行なう (ステップ S004)。満足しなかつた場合は (ステップ S004で NO)、韻律修正部 104は、韻律情報を修正する (ステップ S005)。ステップ S002力らステップ S005までの処理を繰り返すことにより目的の合成音が生成される。

[0116] ユーザが簡易版合成音に満足した場合は (ステップ S004で YES)、端末 111は、サーバ 112に対して、ステップ S002で選択した小規模音声素片系列の識別子および確定された韻律情報をサーバに送信する (ステップ S010)。

[0117] 次にサーバ側の動作を説明する。音声素片候補取得部 107は、端末 111から取得した小規模音声素片系列の識別子に基づいて、対応 DB106を参照し、大規模音声素片 DB105から選択候補となる音声素片群を取得する (ステップ S006)。大規模音声素片選択部 108が、取得された音声素片候補群から、端末 111から受信した韻律情報に基づ!、て最適な大規模音声素片系列を選択する (ステップ S007)。大規模音声素片接続部 109が、選択された大規模音声素片系列を接続して高音質版合成音を生成する (ステップ S008)。

[0118] サーバ 112は、以上のようにして作成された高音質版合成音を端末 111に送信する。以上の処理により高音質な合成音を作成することができる。

[0119] 以上のように端末 111およびサーバ 112を構成することにより、端末 111は、小規模音声素片 DB101と、小規模音声素片選択部 102と、小規模音声素片接続部 103 と、韻律修正部 105とだけで構成することができるため、必要なメモリ容量を小さくできる。また、端末 111では、小規模音声素片のみを用いて合成音を生成するので、計算量も小さくできる。また、端末 111からサーバ 112への通信は、韻律情報と小規模音声素片系列の識別子のみであり、通信量も非常に小さくできる。また、サーバ 112 力も端末 111への通信は、高音質化された合成音声を 1度送信するだけでよぐ通信量を小さくすることが可能である。

[0120] (変形例 2)

本変形例では、端末 111は、小規模音声素片 DB101、小規模音声素片選択部 1 02、小規模音声素片接続部 103、韻律修正部 104、対応 DB106および音声素片候補取得部 107を具備する。サーバ 112は、大規模音声素片 DB105、大規模音声素片選択部 108および大規模音声素片接続部 109を具備する。

[0121] 本変形例と変形例 1との違いは、対応 DB106を端末 111に具備する点である。

[0122] 本変形例の動作を図 9のフローチャートを用いて説明する。個々のステップは既に説明しているので詳細な説明は省略する。

[0123] 端末 111を用いて編集処理を行なう。具体的には、韻律情報が生成される (ステツプ S001)。次に、小規模音声素片選択部 102は、小規模音声素片 DB101から小規模音声素片系列を選択する (ステップ S002)。小規模音声素片接続部 103は、小規模音声素片を接続して簡易版合成音を生成する (ステップ S003)。ユーザは生成された合成音を聞いて満足するかどうかの判断を行なう (ステップ S004)。満足しなかつた場合は (ステップ S004で NO)、韻律修正部 104は、韻律情報を修正する (ステップ S005)。ステップ S002力らステップ S005までの処理を繰り返すことにより目的の合成音が生成される。

[0124] ユーザが簡易版合成音に満足した場合は (ステップ S004で YES)、音声素片候補取得部 107は、対応 DB106を用いて、対応する大規模音声素片 DB105の候補となる素片識別子を取得する (ステップ S006)、端末 111は、大規模音声素片の選択候補群の識別子および確定された韻律情報をサーバ 112に送信する (ステップ S01 D o

[0125] 次にサーバ側の動作を説明する。大規模音声素片選択部 108が、取得された音声素片候補群から、端末 111から受信した韻律情報に基づ、て最適な大規模音声素片系列を選択する (ステップ S007)。大規模音声素片接続部 109が、選択された大規模音声素片系列を接続して高音質版合成音を生成する (ステップ S008)。

[0126] サーバ 112は、以上のようにして作成された高音質版合成音を端末 111に送信する。以上の処理により高音質な合成音を作成する。

[0127] 以上のように端末 111およびサーバ 112を構成することにより、端末 111は、小規模音声素片 DB101と、小規模音声素片選択部 102と、小規模音声素片接続部 103 と、韻律修正部 104と、対応 DB106とだけで構成することができるため、必要なメモリ容量を小さくできる。また、端末 111では、小規模音声素片のみを用いて合成音を生成するので、計算量も小さくできる。対応 DB106を端末 111側で具備することにより、サーバ 112の処理を軽減することが可能である。また、端末 111からサーバ 112への通信は、韻律情報と音声素片候補群の識別子のみである。素片候補群に関しても識別子のみの送信でよいため、通信量も非常に小さくできる。また、サーバ 112は、音声素片候補を取得する処理を行なわなくてもよいため、サーバ 112に対する処理負荷を軽減することができる。また、端末 111への通信は、高音質化された合成音声を 1度送信するだけでよぐ通信量を小さくすることが可能である。

[0128] (変形例 3)

本変形例では、端末 111は、小規模音声素片 DB101、小規模音声素片選択部 1 02、小規模音声素片接続部 103、韻律修正部 104、対応 DB106、音声素片候補取得部 107、大規模音声素片選択部 108および大規模音声素片接続部 109を具備する。サーバ 112は、大規模音声素片 DB105を具備する。

[0129] 本変形例と変形例 2との違いは、大規模音声素片選択部 108および大規模音声素片接続部 109を端末 111に具備する点である。

[0130] 本変形例の動作を図 10のフローチャートを用いて説明する。個々のステップは既に説明して、るので詳細な説明は省略する。

[0131] 端末 111を用いて編集処理を行なう。具体的には、韻律情報が生成される (ステツプ S001)。次に、小規模音声素片選択部 102は、小規模音声素片 DB101から小規模音声素片系列を選択する (ステップ S002)。小規模音声素片接続部 103は、小規模音声素片を接続して簡易版合成音を生成する (ステップ S003)。ユーザは生成された合成音を聞いて満足するかどうかの判断を行なう (ステップ S004)。満足しなかつた場合は (ステップ S004で NO)、韻律修正部 104は、韻律情報を修正する (ステップ S005)。ステップ S002力らステップ S005までの処理を繰り返すことにより目的の合成音が生成される。

[0132] ユーザが簡易版合成音に満足した場合は (ステップ S004で YES)、端末 111は、対応 DB106を用いて、対応する大規模音声素片 DB105の候補となる素片識別子を取得し、大規模音声素片の選択候補群の識別子をサーバに送信する (ステップ SO 09)。

[0133] 次にサーバ側の動作を説明する。サーバ 112は、受信した選択候補群の識別子に基づ、て大規模音声素片 DB105から音声素片候補群を選択し、端末 111に送信する（ステップ S006)。

[0134] 次に端末 111では、大規模音声素片選択部 108が、取得した音声素片候補群力、既に確定した韻律情報に基づいて最適な大規模音声素片系列を算出する (ステツプ S007)。

[0135] 大規模音声素片接続部 109が、選択された大規模音声素片系列を接続して高音質版合成音を生成する (ステップ S008)。

[0136] 以上のように端末 111およびサーバ 112を構成することにより、サーバ 112は、端末 111から送信された音声素片候補群の識別子に基づ!ヽて、素片候補を端末 111 に送信するだけでよいので、サーバ 112の計算負荷を大幅に削減することが可能である。また、端末 111では、対応 DB106により、小規模音声素片に対応する限定的な音声素片候補群から最適音声素片系列を選択すればよ!、ので、計算量はそれほど大きくなく選択することが可能である。

[0137] (変形例 4)

本変形例では、端末 111は、小規模音声素片 DB101、小規模音声素片選択部 1 02、小規模音声素片接続部 103、韻律修正部 104、大規模音声素片選択部 108および大規模音声素片接続部 109を具備する。サーバ 112は、大規模音声素片 DB1 05、対応 DB106および音声素片候補取得部 107を具備する。

[0138] 本変形例と変形例 3との違いは、対応 DB106をサーバ 112に具備する点である。

[0139] 本変形例の動作を図 11のフローチャートを用いて説明する。個々のステップは既に説明して、るので詳細な説明は省略する。

[0140] 端末 111を用いて編集処理を行なう。具体的には、韻律情報が生成される (ステツプ S001)。次に、小規模音声素片選択部 102は、小規模音声素片 DB101から小規模音声素片系列を選択する (ステップ S002)。小規模音声素片接続部 103は、小規模音声素片を接続して簡易版合成音を生成する (ステップ S003)。ユーザは生成された合成音を聞いて満足するかどうかの判断を行なう (ステップ S004)。満足しなかつた場合は (ステップ S004で NO)、韻律修正部 104は、韻律情報を修正する (ステップ S005)。ステップ S002力らステップ S005までを繰り返すことにより目的の合成音が生成される。

[0141] ユーザが簡易版合成音に満足した場合は (ステップ S004で YES)、サーバ 112側に処理の制御が移される。

[0142] サーバ 112は、対応 DB106を用いて、対応する大規模音声素片 DB105の候補となる音声素片群を取得し、端末 111に対して、大規模音声素片の選択候補群を送信する（ステップ S006)。

[0143] 選択候補群を受信した端末 111では、大規模音声素片選択部 108が取得された音声素片候補群から、既に確定した韻律情報に基づいて最適な大規模音声素片系列を算出する (ステップ S007)。

[0144] 大規模音声素片接続部 109が、選択された大規模音声素片系列を接続して高音質版合成音を生成する (ステップ S008)。

[0145] 以上のように端末 111およびサーバ 112を構成することにより、サーバ 112は、小規模音声素片系列の識別子を受信し、大規模音声素片 DB105から対応 DB106を用いて対応する音声素片候補群を端末 111に送信するだけでよく、サーバ 111の計算負荷を大幅に削減することができる。また、変形例 3と比較すると端末 111からサーノ 112への通信は、小規模音声素片系列の識別子だけでよいので通信量も削減することが可能である。

[0146] (実施の形態 2)

次に、本発明の実施の形態 2に係る多重品質音声合成装置について説明する。

[0147] 実施の形態 1では、編集処理で合成音を作成する方法として、音声素片系列を接続して合成音を生成しているのに対し、本実施の形態では、 HMM (隠れマルコフモデル)音声合成方法を用いて合成音を生成する点が異なる。 HMM音声合成方法は、統計モデルに基づく音声合成法であり、統計モデルの容量がコンパクトで、かつ安定した音質の合成音を生成できるという特徴がある。 HMM音声合成方法は、公知の技術であるため、その詳細な説明は繰り返さない。

[0148] 図 12は、統計モデルによる音声合成方式の一つである HMM音声合成方法を用 Vヽたテキスト音声合成装置の構成図である（参考文献：特開 2002— 268660号公報

) o [0149] テキスト音声合成装置は、学習部 030と音声合成部 031とを備えている。

[0150] 学習部 030は、音声 DB (データベース) 032と、励振源パラメータ抽出部 033と、スベクトルパラメータ抽出部 034と、 HMMの学習部 035とを備えている。また、音声合成部 031は、コンテキスト依存 HMMファイル 036と、テキスト解析部 037と、パラメ一タ生成部 038と、励振源生成部 039と、合成フィルタ 040とを備えている。

[0151] 学習部 030は、音声 DB032に格納されている音声情報を用いてコンテキスト依存 HMMファイル 036を学習させる機能をもつ。音声 DB032には、あらかじめサンプルとして用意された多数の音声情報が格納されている。音声情報は、音声信号に、波形の各音素等の部分を識別するラベル情報 (amyuruや nuuyooku)を付加したものである。

[0152] 励振源パラメータ抽出部 033とスペクトルパラメータ抽出部 034とは、それぞれ音声 DB032から取り出した音声信号ごとに、励振源パラメータ列とスペクトルパラメータ列とを抽出する。 HMMの学習部 035は、抽出された励振源パラメータ列とスペクトルノメータ列とについて、音声 DB032から音声信号とともに取り出したラベル情報および時間情報を用いて、 HMMの学習処理を行なう。学習された HMMは、コンテキスト依存 HMMファイル 036に格納される。

[0153] 励振源モデルのパラメータは、多空間分布 HMMを用いて学習される。多空間分布 HMMは、パラメータベクトルの次元力毎回、異なることを許すように拡張された HMMであり、有声 Z無声フラグを含んだピッチは、このような次元が変化するパラメータ列の例である。すなわち、有声時には 1次元、無声時には 0次元のパラメータべタトルとなる。学習部 030では、この多空間分布 HMMによる学習を行っている。「ラベル情報」とは、具体的には、例えば、以下のようなものを指し、各 HMMは、これらを属性名（コンテキスト）として持つ。

· {先行，当該，後続 }音素

•当該音素のアクセント句内でのモーラ位置

· {先行，当該，後続 }の品詞，活用形，活用型

· {先行，当該，後続 }アクセント句のモーラ長，アクセント型

•当該アクセント句の位置，前後のポーズの有無 · {先行，当該，後続 }呼気段落のモーラ長

•当該呼気段落の位置

'文のモーラ長

このような HMMは、コンテキスト依存 HMMと呼ばれる。

[0154] 音声合成部 031は、任意の電子的なテキストから読み上げ形式の音声信号列を生成する機能をもつ。テキスト解析部 037は、入力されたテキストを解析して、音素の配列であるラベル情報に変換する。パラメータ生成部 038は、ラベル情報に基づいてコンテキスト依存 HMMファイル 036を検索し、得られたコンテキスト依存 HMMを接続し、文 HMMを構成する。パラメータ生成部 038は、得られた文 HMMから、さらにパラメータ生成アルゴリズムにより、励振源パラメータ、およびスペクトルパラメータの列を生成する。励振源生成部 039および合成フィルタ 040は、励振源パラメータおよびスペクトルパラメータの列に基づいて、合成音を生成する。

[0155] 以上のようにテキスト音声合成装置を構成することによって、 HMM音声合成処理では、統計モデルによる安定した合成音を生成することが可能である。

[0156] 図 13は、本発明の実施の形態 2における多重品質音声合成装置の構成図である。

図 13において、図 2と同じ構成要素については同じ符号を用い、説明を省略する。

[0157] 多重品質音声合成装置は、複数の品質の音声を合成する装置であり、 HMMモデル DB501と、 HMMモデル選択部 502と、合成部 503と、韻律修正部 104と、大規模音声素片 DB105と、対応 DB506と、音声素片候補取得部 107と、大規模音声素片選択部 108と、大規模音声素片接続部 109とを含む。

[0158] HMMモデル DB501は、音声データに基づいて学習された HMMモデルを保持するデータベースである。

[0159] HMMモデル選択部 502は、少なくとも音韻情報と韻律情報とを入力として受け、

HMMモデル DB501から最適な HMMモデルを選択する処理部である。

[0160] 合成部 503は、 HMMモデル選択部 502により選択された HMMモデルを用いて合成音を生成する処理部である。

[0161] 対応 DB506は、 HMMモデル DB501に保持されて!、る HMMモデルと大規模音声素片 DB105に保持されている音声素片とを関連付けるデータベースである。 [0162] 本実施の形態も実施の形態 1と同様に図 4のような多重品質音声合成システムとして実装することができる。端末 111は、 HMMモデル DB501と、 HMMモデル選択部 502と、合成部 503と、韻律修正部 104と、対応 DB106と、音声素片候補取得部 107と、大規模音声素片選択部 108と、大規模音声素片接続部 109とで構成される。サーバ 112は、大規模音声素片 DB105で構成される。

[0163] このように多重品質音声合成システムを構成することにより、 HMMモデルのフアイルはモデルベースであるため、端末 111に要求される記憶容量を小さくすることができる (数 Mバイト程度)。また大規模音声素片 DB105 (数百力も数 Gバイト）はサーバ 112に集中して保持しておけばよ!/ヽ。

[0164] 次に本発明の実施の形態 2に係る多重品質音声合成装置の処理の流れを、図 14 に示すフローチャートを用いて説明する。本実施の形態に係る多重品質音声合成装置の動作も、実施の形態 1に係る多重品質音声合成装置の動作と同様に、合成音の編集処理と、編集された合成音の高音質化処理に分けられる。以下、合成音の編集処理と、高音質化処理とに分けて順に説明を行う。

[0165] <編集処理 >

まず、合成音の編集について説明する。前処理として、ユーザにより入力されたテキスト情報が解析され、音韻系列とアクセント記号を元に韻律情報が生成される（S1 01)。韻律情報の生成の方法は特に限定されるものではなぐ例えば、テンプレートを参照して生成するようにしてもよ!、し、数量化 I類を用いて推定するようにしても良ヽ。また、韻律情報は外部力直接入力されても良い。

[0166] HMMモデル選択部 502は、ステップ S101により得られた音韻情報および韻律情報に基づいて HMM音声合成を行なう（ステップ S102)。具体的には、 HMMモデル選択部 502が、入力された音韻情報および韻律情報に基づ!、て HMMモデル D B501から最適な HMMモデルを選択し、選択された HMMモデルから合成パラメ一タを生成する。その詳細については既に説明したのでここでは省略する。

[0167] 合成部 503は、 HMMモデル選択部 502によって生成された合成パラメータに基づき音声波形を合成する (ステップ S103)。合成する方法は特に限定するものではない。 [0168] 合成部 503は、ステップ S103により作成された合成音を出力することによりユーザに提示する（ステップ S 104)。

[0169] 韻律修正部 104は、ユーザが合成音に満足している力否かの入力を受け付け、ュ一ザが満足している場合には (ステップ S004で YES)、編集処理を終了し、ステップ S 106以降の処理が実行される。

[0170] ユーザが合成音に満足していない場合には (ステップ S004で NO)、韻律修正部 1 04は、韻律情報を修正するための情報のユーザによる入力を受け付け、ターゲットとなる韻律情報を修正する (ステップ S005)。「韻律情報の修正」とは、例えば、ァクセント位置の変更、基本周波数の変更、継続時間長の変更などを含む。これにより、ュ一ザは、現状の合成音の韻律で満足できない箇所を修正することができる。修正が終了すると、ステップ S002に戻る。ステップ S002からステップ S005までの処理を繰り返すことにより、ユーザは自分が望む韻律の合成音を作成することが可能である。以上のステップにより、ユーザは、 HMM合成に基づく音声コンテンツを作成することができる。

[0171] <高音質化処理 >

次に高音質ィ匕の処理の流れを説明する。図 15は、高音質化処理の動作例を示した図である。

[0172] 音声素片候補取得部 107は、編集処理で最後に確定した HMMモデル系列（M

=m , m , · ··, m )を元に、大規模音声素片 DB105から音声素片候補を取得する（

1 2 n

ステップ S106)。すなわち、音声素片候補取得部 107は、 HMMモデル DB501に保持されている HMMモデルと大規模音声素片 DB105の素片との対応関係を示す情報を保持する対応 DB506を用いて、ステップ S 102の処理により選択された HM Mモデル DB501内の HMMモデルに関連する大規模音声素片候補を、大規模音声素片 DB105から取得する。

[0173] 図 15の例では、音声素片候補取得部 107は、音素「7&7」を合成するために選択された HMMモデル (ml)に対応した大規模音声素片（h , h , h , h )を、対応 D

11 12 13 14

B506を参照して、大規模音声素片 DB105より選択する。同様に、音声素片候補取得部 107は、 HMMモデル m2, · ··, mnに対しても対応 DB506を参照することにより、大規模音声素片 DB105より大規模音声素片候補を取得することができる。対応 D B506の作成方法にっヽては後述する。

[0174] 大規模音声素片選択部 108は、ステップ S006で取得された大規模音声素片候補から、ユーザにより編集された韻律情報に最適な音声素片系列を選択する (ステップ S007)。選択の方法は、実施の形態 1と同一の方法でよいので説明を省略する。図 15の例では、結果として H=h , h , h , h , h , h , h の大規模音声素片系列

13 22 33 42 53 63 73

を得ることができる。

[0175] 大規模音声素片接続部 109は、ステップ S007で選択された大規模音声素片 DB1 05に保持されている音声素片系列 (H=h , h , h , h , h , h , h )を接続し、

13 22 33 42 53 63 73

合成音を生成する (ステップ S008)。接続の方法は実施の形態 1と同一の方法でよいので説明を省略する。

[0176] 以上の処理により、編集処理で編集した簡易版の合成音に韻律'声質が類似し、かつ大規模音声素片 DB105に格納された大規模音声素片を用いた高音質な合成音を生成することが可能になる。

[0177] <対応 DBの作成方法 >

次に、対応 DB106について詳しく説明する。

[0178] 対応 DB106作成時には、 HMMモデル DB501に保持されている HMMモデルと大規模音声素片 DB105に保持されている音声素片とを対応付けるために、 HMM モデルの学習行程が利用される。

[0179] まず、 HMMモデル DB501に保持されて!、る HMMモデルの学習方法につ!、て説明する。 HMM音声合成において、 HMMモデルは、通常、先行音素、当該音素、後続音素などのコンテキストの組合せカゝらなる「コンテキスト依存モデル」と呼ばれるモデルを使用する。しかし、音素種類だけでも数十種類あるため、組合せによりコンテキスト依存モデルの総数は膨大なものになる。それに伴って、コンテキスト依存モデルのモデル当たりの学習データが小さくなるという問題がある。そこで通常は、コンテキストのクラスタリングが行なわれる。コンテキストのクラスタリング処理は公知の技術であるため、その詳細な説明は繰り返さな、。

[0180] 本実施の形態では、大規模音声素片 DB105を用いてこの HMMモデルを学習する。このときの大規模音声素片 DB105に保持されている音声素片群に対してコンテキストクラスタリングを行なった結果の例を図 16に示す。大規模音声素片 DB105の音声素片群 702の各音声素片は四角形で表され、数字は音声素片識別子を表す。コンテキストクラスタリングでは、音声サンプルをコンテキスト (例えば、先行音素が有声音であるか等）により分類していく。このとき、図 16に示す決定木のように段階的に、音声素片をクラスタリングしていく。

[0181] この際、決定木のリーフノード 703〖こは、同一のコンテキストを持つ音声素片が分類されることとなる。図の例では、先行音素が有声音であり、先行音素が母音であり、かつ先行音素が ZaZである音声素片 (音声素片番号 1および音声素片番号 2の音声素片）がリーフノード 703に分類される。リーフノード 703については、音声素片番号 1および音声素片番号 2の音声素片を学習データとして、 HMMモデルを学習し、モデル番号「A」と!、う HMMモデルが作成される。

[0182] すなわち、同図において、モデル番号「A」の HMMモデルは、大規模音声素片 D B105の音声素片番号 1および 2の音声素片力も学習されることになる。なお、同図は概念図であり、実際にはさらに大量の音声素片力 HMMモデルが学習される。

[0183] この関係を利用して、モデル番号「A」の HMMモデルと、当該 HMMモデルを学習する際に利用された音声素片 (音声素片番号 1および音声素片番号 2の音声素片 )との対応関係を示す情報が対応 DB506に保持される。

[0184] 以上の対応関係を用いることにより、例えば、図 17に示すような対応 DB506を作成することができる。この例では、モデル番号「A」の HMMモデルは、大規模音声素片 DB105の音声素片番号「1」および「2」の音声素片に対応付けられていることが示されている。また、モデル番号「B」の HMMモデルは、大規模音声素片 DB105の音声素片番号「3」および「4」の音声素片に対応付けられて、ることが示されて!/、る。以下同様に、全てのリーフノード群の HMMモデルのモデル番号と大規模音声素片 DB105の大規模音声素片番号との対応関係をテーブルとして保持することができる。また、このように、当該対応関係をテーブルとして保持することにより、 HMMモデルと大規模音声素片との関連を高速に参照することが可能である。

[0185] このように対応 DB506を構成することにより、編集処理で編集され、完成した合成音を生成するのに使用した HMMモデルと、その HMMモデルを学習するために用 V、られた大規模音声素片 DB105の音声素片とが対応付けられて、る。したがって、音声素片候補取得部 107が選択した大規模音声素片 DB105の音声素片候補は、 HMMモデル選択部 502が HMMモデル DB501から選択された HMMモデルの学習サンプルの実波形である。また、当該音声素片候補と当該 HMMモデルとの韻律情報および声質情報は当然類似している。また、 HMMモデルは、統計処理を行うことにより作成されている。このため、 HMMモデルの学習に用いられた音声素片と比ベ、再生時になまりが生じる。すなわち、学習サンプルの平均などの統計処理により本来波形が持つべき微細構造が失われている。しかし、大規模音声素片 DB105内の音声素片は、統計処理されていないので、微細な構造をそのまま保持している。そのため、音質という観点では、 HMMモデルを利用して合成部 503が出力する合成音と比べて、高音質な合成音を得ることができるようになる。

[0186] すなわち、統計モデルとその学習データとの関係から韻律 ·声質の類似性が確保でき、かつ、統計処理を行なわず、音声の微細構造を現している音声素片をも保存して、ることから、高音質な合成音を生成できると、う効果がある。

[0187] なお、上記の説明では、 HMMモデルが音素単位で学習されることを前提としてヽたが、学習の単位は音素でなくとも良い。例えば、図 18に示すように 1音素に対して、 HMMモデルにおける複数の状態を保持し、各状態で個別に統計量を学習するようにしても良い。同図は、「ZaZ」という音素に対して 3つの状態で HMMモデルを構成した場合の例を示している。この場合、対応 DB506は、 HMMモデルにおける各状態と大規模音声素片 DB105に格納されている音声素片とを対応付けるための情報を記憶している。

[0188] 同図の例では、対応 DB506を用いることにより、最初の状態「ml l」を、学習に使用された大規模音声素片 DB105の音声素片 (音声素片番号 1, 2, 3)に展開することができることを示している。また、 2番目の状態「ml2」を、大規模音声素片 DB105 の音声素片 (音声素片番号 1, 2, 3, 4, 5)に、対応 DB506を用いて展開することができる。同様に、最終状態「ml3」も、大規模音声素片 DB105の音声素片 (音声素片番号 1, 3, 4, 6)に、対応 DB506を用いて展開することができる。 [0189] そして音声素片候補取得部 107は、以下の 3つの基準で音声素片候補を選択することができる。

[0190] (l) HMMの各状態に対応付けられた大規模音声素片の和集合を音声素片候補とする。図 18の例では、音声素片番号 { 1, 2, 3, 4, 5, 6}の大規模音声素片を選択候補として選択する。

[0191] (2) HMMの各状態に対応付けられた大規模音声素片の積集合を音声素片候補とする。図 18の例では、音声素片番号 { 1, 3}の大規模音声素片を選択候補として選択する。

[0192] (3) HMMの各状態に対応付けられた大規模音声素片の集合で、所定の閾値以上の集合に属する音声素片を音声素片候補とする。所定の閾値を「2」とした場合、図 18の例では、例えば、音声素片番号 { 1, 2, 3, 4}の大規模音声素片を選択候補として選択する。

[0193] なお、各基準は組み合わせて用いても良い。例えば、音声素片候補取得部 107が選択する音声素片候補が一定数に満たな力た場合は、異なる基準で音声素片候補を選択するように設計しても良ヽ。

[0194] 力かる構成によれば、端末 111に HMMモデル DB501と、 HMMモデル選択部 5 02と、合成部 503と、韻律修正部 104と、対応 DB106と、音声素片候補取得部 107 と、大規模音声素片選択部 108と、大規模音声素片接続部 109とを具備し、サーバ 112は、大規模音声素片 DB105を具備するような構成とすることにより、端末 111に要求される記憶容量は大きくなくて良い。また、大規模音声素片 DB105は、サーバ 112に集中して保持しておけばょ、ので、端末 111が複数存在する場合にぉヽても、大規模音声素片 DB105は、サーバ 112に 1つ保持しておくだけでよい。

[0195] このとき、編集処理としては、端末 111のみで、 HMM音声合成を用いて合成音を作成できる。また、韻律修正部 104により、ユーザによる合成音の編集処理が可能となる。このとき、 HMM音声合成は、大規模音声素片 DB105を探索して合成する場合と比較して、非常に高速に合成音を生成することができる。このため、合成音の編集時の計算コストを削減でき、複数回の編集を行なう場合においても、レスポンス良く合成音編集することが可能となる。 [0196] さらに、編集作業が完了した後、サーバ 112に保持されている大規模音声素片 DB 105を用いて高音質ィ匕処理が可能となる力このとき、対応 DB106により、編集処理によって既に決定されている HMMモデルのモデル番号と大規模音声素片 DB105 の音声素片候補の音声素片番号とが対応付けられているため、大規模音声素片選択部 108による音声素片の選択は、改めて音声素片を再選択する場合と比較して、限定された探索空間を探索するのみでよいので計算量を大幅に削減することができる。

[0197] また、端末 111とサーバ 112との間の通信は、高品質化処理を行なう際に 1度だけ通信を行なえばよいので、通信に伴う時間的ロスを低減できる。すなわち、編集作業と、高音質化処理とを分離することにより、音声コンテンツの編集作業に要するレスポンスを向上させることが可能である。

[0198] さらに、実施の形態 1では、小規模ではあるが音声波形そのものを保持しなければならないことと比較して、本実施の形態では、端末側では、 HMMモデルのファイルのみを保持しておけばよいので、端末に要求される記憶容量をさらに削減することができる。

[0199] なお、本実施の形態では、実施の形態 1の変形例 1〜4に示したと同様に、端末とサーバとで各構成要素を分担させてもよい。この場合、小規模音声素片 DB101、小規模音声素片選択部 102、小規模音声素片接続部 103および対応 DB106が、 H MMモデル DB501、 HMMモデル選択部 502、合成部 503および対応 DB506にそれぞれ対応する。

[0200] (実施の形態 3)

上述のように音声合成の作成を、音声コンテンツの作成 (編集)と考えた場合、作成した音声コンテンツを第三者に提供するスタイルが考えられる。すなわち、コンテンツ作成者とコンテンツ利用者とが異なる場合である。音声コンテンツを第三者に提供する例として、携帯電話などを用いて音声コンテンツを作成する場合に、音声コンテンッの作成者がネットワークなどを通じて作成した音声コンテンツを送信し、受信者が音声コンテンツを受け取るといったような音声コンテンツの流通形態が考えられる。具体的には、電子メール等を用いた音声メッセージの送受信を考えた場合、作成者が作成した音声コンテンツを相手に送信するといつたサービスが考えられる。

[0201] その際には、どのような情報を通信するかが重要になってくる。さらに、送信者および受信者が同じ小規模音声素片 DB101や HMMモデル DB501を共有する場合には、流通に必要な情報を削減することができる。

[0202] また、音声コンテンツの編集処理を作成者が行、、受信者は、受信した音声コンテンッを試聴し、気に入った場合には高音質ィ匕処理を行なうなどといった利用方法が考えられる。

[0203] 本発明の実施の形態 3は、作成した音声コンテンツの通信方法と、高音質化処理の方法に関する。

[0204] 図 19は、本発明の実施の形態 3に係る多重品質音声合成システムの構成を示すブロック図である。本実施の形態は、編集処理を音声コンテンツ作成者が行い、高音質化処理を音声コンテンツ受信者が行なうものであり、作成者が使用する端末と受信者が使用する端末との間に通信手段を設けている点が実施の形態 1および 2と異なる。

[0205] 多重品質音声合成システムは、作成端末 121と、受信端末 122と、サーバ 123とを備えている。作成端末 121と、受信端末 122と、サーバ 123とはネットワーク 113を介して相互に接続されている。

[0206] 作成端末 121は、音声コンテンツ作成者が音声コンテンツを編集するために利用する装置である。受信端末 122は、作成端末 121により作成された音声端末を受信する装置である。作成端末 121は、音声コンテンツ受信者が利用する。サーバ 123 は、大規模音声素片 DB105を保持し、音声コンテンツの高音質化処理を行なう装置である。

[0207] 作成端末 121、受信端末 122およびサーバ 123が有する機能について、実施の形態 1の構成を元に説明する。作成端末 121は、小規模音声素片 DB101と、対応 DB 106と、小規模音声素片選択部 102と、小規模音声素片接続部 103と、韻律修正部 104とにより構成される。受信端末 122は、音声素片候補取得部 107と、大規模音声素片選択部 108と、大規模音声素片接続部 109とにより構成される。サーバ 123は、大規模音声素片 DB105により構成される。 [0208] 図 20および図 21は、実施の形態 3に係る多重品質音声合成システムによる処理の流れを示すフローチャートである。

[0209] 多重品質音声合成システムによる処理は、編集処理、通信処理、確認処理および高音質化処理の 4つの処理に分かれる。以下、それぞれの処理について説明する。

[0210] <編集処理 >

編集処理は、作成端末 121上で実行される。処理内容は実施の形態 1と同一でよい。簡単に説明すると、前処理として、ユーザにより入力されたテキスト情報が解析され、音韻系列とアクセント記号とを元に韻律情報が生成される (ステップ S001)。

[0211] 小規模音声素片選択部 102は、ステップ S001により得られた韻律情報に基づいて

、小規模音声素片 DB101からターゲット韻律との距離 (ターゲットコスト (Ct) )と、音声素片の接続性 (接続コスト (Cc) )とを考慮して、最適な音声素片系列を選択する（ステップ S002)。具体的には上述の式（1)に示すコストが最小となる音声素片系列をビタビアルゴリズムにより探索する。

[0212] 小規模音声素片接続部 103は、小規模音声素片選択部 102により選択された音声素片系列を用いて音声波形を合成し、合成音を出力することによりユーザに提示する（ステップ S003)。

[0213] 韻律修正部 104は、ユーザが合成音に満足している力否かの入力を受け付け、ュ一ザが合成音に満足している場合には (ステップ S004で YES)、編集処理が終了し、ステップ S201以降の処理が実行される。

[0214] ユーザが合成音に満足して、な、場合には (ステップ S004で NO)、韻律修正部 1 04は、韻律情報を修正するための情報のユーザによる入力を受け付け、ターゲットとなる韻律情報を修正する (ステップ S005)。修正が終了すると、ステップ S002に戻る。ステップ S002からステップ S005までの処理を繰り返すことにより、ユーザは自分が望む韻律の合成音を作成することが可能である。

[0215] <通信処理 >

次に通信処理について説明する。

[0216] 作成端末 121は、作成端末 121上での編集処理によって確定された小規模音声素片系列および韻律情報をインターネットなどのネットワークを通じて、受信端末 122 に送信する (ステップ S201)。通信の方法は特に限定するものではない。

[0217] 受信端末 122は、ステップ S201で送信された韻律情報および小規模音声素片系列を受信する (ステップ S202)。

[0218] 以上の通信処理により、受信端末 122は、作成端末 121で作成された音声コンテンッを再構成可能な最小限の情報を得ることができる。

[0219] <確認処理 >

次に確認処理について説明する。

[0220] 受信端末 122は、小規模音声素片 DB101からステップ S202により受信した小規模音声素片系列の音声素片を取得し、小規模音声素片接続部 103により受信した韻律情報に合わせた合成音を作成する (ステップ S 203)。合成音の作成処理は、ステツプ S003と同様である。

[0221] 受信者は、ステップ S203により作成された簡易合成音を確認し、受信端末 122は

、受信者の判断結果を受け付ける (ステップ S204)。このとき、受信者が簡易版の合成音のままでよいと判断した場合には (ステップ S204で NO)、受信端末 122は、簡易合成音を音声コンテンツとして採用する。一方、確認により、受信者が高音質化を要求した場合には (ステップ S 204で YES)、ステップ S006以降の高音質化処理が行なわれる。

[0222] <高音質化処理 >

次に高音質ィ匕処理について説明する。

[0223] 受信端末 122の音声素片候補取得部 107は、小規模音声素片系列をサーバ 123 に送信し、サーバ 123は、受信端末 122の対応 DB106を参照して、大規模音声素片 DB105から音声素片候補を取得する (ステップ S006)。

[0224] 大規模音声素片選択部 108は、ステップ S006で取得された韻律情報と音声素片候補とから上述の式（1)を満たす大規模音声素片系列を選択する (ステップ S007)

[0225] 大規模音声素片接続部 109は、ステップ S007で選択された大規模音声素片系列を接続し、高音質合成音を生成する (ステップ S008)。

[0226] 以上の構成により、作成端末 121で作成した音声コンテンツを受信端末 122に送信する際に、韻律情報および小規模音声素片系列のみを送信するだけでよいので、作成端末 121と受信端末 122との間の通信量を、合成音を送信する場合と比較して小さくすることが可能である。

[0227] また、作成端末 121では、小規模音声素片系列のみで合成音を編集できるため、サーバ 123を介して高音質合成音を必ずしも作成する必要がなぐ音声コンテンツ作成を簡略ィ匕することが可能となる。

[0228] また、受信端末 122では、韻律情報と小規模音声素片系列とに基づいて合成音を作成し、高音質ィ匕処理を行なう前に合成音を試聴することにより確認することができる。これにより、サーバ 123にアクセスすることなく音声コンテンツを試聴することができる。さらに試聴した音声コンテンツを高音質ィ匕したい場合にのみサーバ 123にァクセスし高音質ィ匕することができるため、受信者は、簡易版および高音質版の音声コンテンッを自由に選択できる。

[0229] さらに大規模音声素片 DB105を用いた素片選択処理では、対応 DB106を用いることにより、小規模音声素片系列に対応付けられた音声素片のみを候補とすることができるため、受信端末 122とサーバ 123との間の通信量を削減でき、高音質化処理を効率的に行なえるという効果がある。

[0230] なお、上記の説明では、受信端末 122が、対応 DB106と、音声素片候補取得部 1 07と、大規模音声素片選択部 108と、大規模音声素片接続部 109とを保持し、サーバ 123が、大規模音声素片 DB105を保持していた力サーバ 123に、大規模音声素片 DB105と、音声素片候補取得部 107と、大規模音声素片選択部 108と、大規模音声素片接続部 109とを持たせるようにしても良い。

[0231] その場合は、受信端末での処理量を削減できるという効果と、受信端末とサーバとの間の通信を削減できるという効果がある。

[0232] なお、上記の説明では、実施の形態 1の構成を元に説明したが、実施の形態 2の構成をもとに、作成端末 121、受信端末 122およびサーバ 123が有する機能を構成するようにしてもよい。その場合は、作成端末 121は、 HMMモデル DB501と、 HMM モデル選択部 502と合成部 503と、韻律修正部 104とで構成し、受信端末 122は、対応 DB106と、音声素片候補取得部 107と、大規模音声素片選択部 108と、大規模音声素片接続部 109とで構成される。サーバ 123は、大規模音声素片 DB105により構成するようにすればよい。

産業上の利用可能性

本発明は、音声合成装置に適用でき、特に、携帯電話等で利用される音声コンテンッを作成する際に利用される音声合成装置等に適用できる。

Claims

請求の範囲

[1] 音声記号および韻律情報に適合する合成音を生成する音声合成システムであって前記音声合成システムは、コンピュータネットワークを介して相互に接続された作成端末と、サーバと、受信端末とを備え、

前記作成端末は、

合成音を生成するために用いられる合成音生成用データを保持して!/ヽる小規模データベースと、

生成される合成音が音声記号および韻律情報に最も適合する合成音生成用データを前記小規模データベースより選択する合成音生成用データ選択手段とを有し、前記サーバは、

前記小規模データベースに保持されている前記合成音生成用データよりも、生成する合成音が詳細に韻律情報を表すことが可能であり、かつ多くの数の音声素片を保持して!/ヽる大規模データベースを有し、

前記受信端末は、

前記合成音生成用データ選択手段で選択された前記合成音生成用データに対応し、かつ生成される合成音が前記音声記号および前記韻律情報に最も適合する音声素片を、前記大規模データベースの中から選択する適合音声素片選択手段と、前記適合音声素片選択手段で選択された前記音声素片を接続することにより合成音を生成する音声素片接続手段とを有する

ことを特徴とする音声合成システム。

[2] 音声記号および韻律情報に適合する簡易合成音を生成する作成端末であって、前記合成音を生成するために用いられる音声素片を保持して！/ヽる小規模データべースと、

生成される合成音が音声記号および韻律情報に適合する合成音生成用データを前記小規模データベースより選択する合成音生成用データ選択手段と、

前記合成音声生成用データを送信する送信手段とを備え、

前記送信手段が、前記小規模データベースに保持されている前記音声素片よりも、多くの数の音声素片を保持している大規模データベースを有するサーバに、前記大規模データベースの音声素片と対応付けるための前記合成音声生成用データを送信する

ことを特徴とする作成端末。

[3] さらに、前記合成音生成用データ選択手段で選択された音声素片を接続することにより、簡易合成音を生成する小規模音声素片接続手段と、

前記簡易合成音の韻律情報を修正するための情報を受け付け、当該情報に基づいて前記韻律情報を修正する韻律情報修正手段とを備え、

前記合成音生成用データ選択手段は、前記簡易合成音の韻律情報が修正された場合に、生成される合成音が音声記号および修正後の前記韻律情報に適合する合成音生成用データを前記小規模データベースより再選択して、前記小規模音声素片接続手段に前記再選択した前記合成音声生成用データを出力し、

前記送信手段は、前記修正と前記再選択とで決定された前記合成音用データを送信する

ことを特徴とする請求項 2に記載の作成端末。

[4] 音声記号および韻律情報に適合する合成音を生成するサーバであって、

作成端末が生成した合成音声生成用データを受信する受信手段と、

前記小規模データベースに保持されている前記合成音生成用データよりも、多くの数の音声素片を保持して、る大規模データベースと、

前記小規模データベースに保持されている前記合成音生成用データの各々と、当該合成音生成用データに対応する少なくとも 1つの前記音声素片との対応関係を示す情報である対応関係情報を保持している対応データベースとを備える

ことを特徴とするサーバ。

[5] 音声記号および韻律情報に適合する合成音を生成する音声合成装置であって、合成音を生成するために用いられる合成音生成用データを保持して!/ヽる小規模データベースと、前記小規模データベースに保持されている前記合成音生成用データよりも多くの数の音声素片を保持して、る大規模データベースと、生成される合成音が音声記号および韻律情報に適合する合成音生成用データを前記小規模データベースより選択する合成音生成用データ選択手段と、

前記合成音生成用データ選択手段で選択された前記合成音生成用データに対応する音声素片を、前記大規模データベースの中から選択する適合音声素片選択手段と、

前記適合音声素片選択手段で選択された前記音声素片を接続することにより合成音を生成する音声素片接続手段とを備える

ことを特徴とする音声合成装置。

[6] さらに、前記合成音生成用データ選択手段で選択された音声素片を接続することにより、簡易合成音を生成する小規模音声素片接続手段と、

前記合成音生成用データ選択手段は、前記簡易合成音の韻律情報が修正された場合に、生成される合成音が音声記号および修正後の前記韻律情報に適合する合成音生成用データを前記小規模データベースより再選択して、前記小規模音声素片接続手段に前記再選択した合成音声生成用データを出力し、

前記適合音声素片選択手段は、前記修正と前記再選択とで決定された前記合成音生成用データを受け取り、当該合成音生成用データに対応する音声素片を前記大規模データベースの中から選択する

ことを特徴とする請求項 5に記載の音声合成装置。

[7] さらに、前記小規模データベースに保持されている前記合成音生成用データの各々と、当該合成音生成用データに対応する少なくとも 1つの前記音声素片との対応関係を示す情報である対応関係情報を保持している対応データベースを備え、前記適合音声素片選択手段は、

前記対応データベースに保持されている前記対応関係情報を用いて、前記合成音生成用データ選択手段で選択された前記合成音生成用データに対応する音声素片の候補を特定し、特定された前記音声素片の候補を前記大規模データベースより取得する音声素片取得部と、前記音声素片取得部で取得された前記音声素片の候補の中から、生成される合成音が前記音声記号および前記韻律情報に最も適合する音声素片を選択する音声素片選択部とを有し、

前記音声素片接続手段は、前記音声素片選択部で選択された前記音声素片を接続することにより合成音を生成する

ことを特徴とする請求項 5に記載の音声合成装置。

[8] 前記大規模データベースは、コンピュータネットワークを介して前記音声合成装置と接続されたサーバに設けられており、

前記適合音声素片選択手段は、前記サーバに設けられた前記大規模データべ一スの中から前記音声素片を選択する

ことを特徴とする請求項 5に記載の音声合成装置。

[9] 前記小規模データベースは、前記大規模データベースに保持されている音声素片をクラスタリングした際の、各クラスタを代表する音声素片を保持している

ことを特徴とする請求項 5に記載の音声合成装置。

[10] 前記小規模データベースは、前記大規模データベースに保持されている音声素片を、当該音声素片の基本周波数、継続時間長、パワー情報、フォルマントパラメータ

、ケプストラム係数の少なくとも 1つ以上に基づいてクラスタリングした際の、各クラスタを代表する音声素片を保持してヽる

ことを特徴とする請求項 9に記載の音声合成装置。

[11] 前記小規模データベースは、 HMM (隠れマルコフ）モデルを保持しており、

前記大規模データベースは、前記小規模データベースに保持されて、る前記 HM

Mモデルを生成する際の学習サンプルである音声素片を保持している

ことを特徴とする請求項 5に記載の音声合成装置。

[12] 音声記号および韻律情報に適合する合成音を生成する音声合成方法であって、生成される合成音が音声記号および韻律情報に最も適合する合成音生成用データを、合成音を生成するために用いられる合成音生成用データを保持して!/ヽる小規模データベースより選択する合成音生成用データ選択ステップと、前記合成音生成用データ選択ステップで選択された前記合成音生成用データに対応し、かつ生成される合成音が前記音声記号および前記韻律情報に最も適合する音声素片を、前記小規模データベースに保持されている前記合成音生成用データよりも、生成する合成音が詳細に韻律情報を表すことが可能であり、かつ多くの数の音声素片を保持して、る大規模データベースの中から選択する適合音声素片選択ステップと、

前記適合音声素片選択ステップで選択された前記音声素片を接続することにより合成音を生成する音声素片接続ステップとを含む

ことを特徴とする音声合成方法。

音声記号および韻律情報に適合する合成音を生成するプログラムであって、生成される合成音が音声記号および韻律情報に最も適合する合成音生成用データを、合成音を生成するために用いられる合成音生成用データを保持して!/ヽる小規模データベースより選択する合成音生成用データ選択ステップと、前記合成音生成用データ選択ステップで選択された前記合成音生成用データに対応し、かつ生成される合成音が前記音声記号および前記韻律情報に最も適合する音声素片を、前記小規模データベースに保持されている前記合成音生成用データよりも、生成する合成音が詳細に韻律情報を表すことが可能であり、かつ多くの数の音声素片を保持して、る大規模データベースの中から選択する適合音声素片選択ステップと、

前記適合音声素片選択ステップで選択された前記音声素片を接続することにより合成音を生成する音声素片接続ステップとをコンピュータに実行させる

ことを特徴とするプログラム。