WO2004097792A1

WO2004097792A1 - 音声合成システム

Info

Publication number: WO2004097792A1
Application number: PCT/JP2003/005492
Authority: WO
Inventors: Nobuyuki Katae
Original assignee: Fujitsu Limited
Priority date: 2003-04-28
Filing date: 2003-04-28
Publication date: 2004-11-11
Also published as: JP4130190B2; US20050149330A1; US7143038B2; JPWO2004097792A1

Abstract

本発明では、合成音声単位列に対して最適な音声素片データの組み合わせを選択することで、音質を向上させることが可能な音声合成システムの提供を目的とする。このような目的を解決するために、音声合成システムは、音声素片データを格納する素片蓄積部と、任意の音声単位列に対し、素片蓄積部に蓄積された音声素片データを用いて構成される音声素片データの組み合わせおよびその適否情報を含む素片選択情報を格納する素片選択情報蓄積部と、素片選択情報蓄積に格納されている素片選択情報に基づいて、合成パラメータに対して最適となる音声素片データの組み合わせを素片蓄積部から選択する素片選択部と、素片選択部で選択された音声素片データの組み合わせに基づいて音声波形データを生成する波形生成部とを備える。

Description

明細書音声合成システム (技術分野）

本発明は、蓄積された音声素片データから合成するパラメータに基づいて最適な音声素片データの組み合わせを検索し、これを連結することによって音声波形を生成する音声合成システムに関する。

(背景技術）

音声合成技術は、音声ポ一タルサ一ビスやカーナビゲ一ションシステムなどの分野で実用化が進んでいる。音声合成技術では、音声波形やこれをパラメータ化した音声素片データと呼ばれるデータを蓄積しておき、これらを適宜連結して加ェし所望の合成音声を取得するようにしているのが一般的である。この連結を行う単位を合成単位と呼び、古くからの音声合成技術では、この合成単位として固定長の合成単位を使用する方法が主である。

たとえば、音節を合成単位とする場合には、「山と」という合成文に対する合成単位は、「ャ」、「マ」、「卜」となる。また、母音一子音一母音の連続（一般に VCVと略す）を合成単位とする場合には、母音中心部で連結することを想定しており、「山と（yamato)」にする合成単位は、「Q_ya」、「_ama」、「_ato」、「oQj となる。ただし、「Q」は無音であることを示す。

これに対して現在では、人が発音した文章や単語などの音声デ一タを多数蓄積しておき、合成する入力文章に応じてできるだけ長い区間が一致する音声素片デ —タ、また連結したときに不連続が生じ難い音声素片データを検索して、これを連結する方法が主流となっている（たとえば、特許文献 1参照)。この場合、合成単位は入力文章と蓄積された音声データに応じて、適切なものが動的に決定されることとなる。このような方式は総称してコーパスベース方式と呼ばれている。同じ音節であっても、前後の音によってその音響的な性質が異なってくるため、ある音を合成する際に、より広い範囲で前後の音が一致する音声素片データを使用する方が、より自然な合成音声を生成することができる。また、合成単位間の連結を滑らかに接続するために補間区間を設けるのが一般的であるが、このような補間区間では、本来存在しない音声素片データを人工的に作成することから、音質劣化が生じることとなる。合成単位を長くすれば、より適切な音声素片を使用できるようになリ、音質劣化の原因となる補間区間を縮小することができ、合成音声の音質向上を図ることが可能となる。しかしながら、長い合成単位のものを全て用意することはデーダ数が膨大になることから合成単位を固定長にすることは困難であり、前述したようなコ一パスベース方式が用いられることが一般的である。

図 1に従来例の構成を示す。

素片蓄積部 1 3には、人間が発声した文章や単語などの音声データが、音声波形あるいはこれをパラメータ化した形式の音声素片データとして多数格納されている。また、素片蓄積部 1 3には、蓄積されている音声素片データを検索するためのインデックス情報も格納されている。

テキス卜データなどの文字情報を解析した結果得られる音声単位列（合成音素列）、ピッチ周波数パターン、各音声単位の時間長（音素時間長)、パワー変動パターンなどの合成パラメータが、素片選択部 1 1に入力される。素片選択部 1 1 では、入力される合成パラメータに基づいて、素片蓄積部 1 3から最適となる音声素片データの組み合わせを選択する。音声合成部 1 2では、素片選択部 1 1で選択された音声素片データの組み合わせを使用して合成パラメ一タに対応する音声波形を生成，出力する。

〔特許文献 1〕

特開平 9-123822号公報前述したようなコーパスベース方式においては、素片蓄積部 1 3に格納されている音声素片データから最適な音声素片データの組み合わせを選択するための評価関数を設定している。

たとえば、合成音素列「山と（y_amato) j に対して、これを満足する音声素片データの組み合わせとして、以下の 2種類のものが選択することをできたと仮定する。

① ryama」 + 「to」

②「yaj + 「_matoJ

この 2種類の音声素片データの組み合わせにおいて、 ①は 4音素 + 2音素の組み合わせであり、 ②は 2音素 + 4音素の組み合わせとなっており、合成単位の長さという点では同等である。しかし、 ①の場合、合成単位同士の接続点は、 [a] - Ct] 間であり、 ②の場合、合成単位同士の接続点は、 [a] - [m] 間である。無声破裂音である [t] には無音部分が存在し、このような無声破裂音を接続点にすると、合成音声の不連続感が生じ難くなる。したがって、この場合、合成単位の接続点に [t] が存在する①の組み合わせが適していることとなる。

①の「yama」 + 「_to」の音声素片の組み合わせを選択するとき、素片蓄積部 1 3に複数個の「to」の音声素片が存在する場合、直前に「a」の音声素片が存在するようなものを選択する方が合成する音素列に適している。

選択された各音声素片データは、入力された合成パラメータに基づいたピッチ周波数パターン、音素時間長を実現する必要がある。ピッチ周波数変換や音素時間長変換を行う場合、一般的にその変換量が大きいほど音質劣化を生じることから、素片蓄積部 1 3から選択される音声素片データは、ターゲットとするピッチ周波数や音素時間長に近い音声素片データを選択することが好ましい。

このように、選択される音声素片データの長さや音素の性質、前後の音素環境、ピッチ周波数、音素時間長など複数の要素を加味して評価関数は作成されている。しかしながら、すべての合成文字列に適した評価関数を作成することは困難であリ、その結果、複数個存在する音声素片データの組み合わせの候補から、必ずしも最適なものが選択されない場合が生じ、合成音声の音質劣化の原因となっている。

本発明では、合成音声単位列に対して最適な音声素片データの組み合わせを選択することで、音質を向上させることが可能な音声合成システムの提供を目的とする。 (発明の開示）

本発明の請求項 1に係る音声合成システムは、音声合成に必要となる合成パラメータを入力として、蓄積された音声素片データから合成パラメータに応じた音声素片データの組み合わせを選択して合成することによって、合成パラメ一夕に対する音声波形を生成■出力する音声合成システムであって、音声素片データを格納する素片蓄積部と、任意の音声単位列に対し、素片蓄積部に蓄積された音声素片データを用いて構成される音声素片データの組み合わせおよびその適否情報を含む素片選択情報を格納する素片選択情報蓄積部と、素片選択情報蓄積部に格納されている素片選択情報に基づいて、合成パラメータに対して最適となる音声素片データの組み合わせを素片蓄積部から選択する素片選択部と、素片選択部で選択された音声素片データの組み合わせに基づいて音声波形データを生成■出力する音声合成部とを備える。

この場合、合成音声単位列ごとに最適となる音声素片データの組み合わせを素片選択情報として蓄積することにより、素片蓄積部に格納される音声素片データのデータ量を大きくすることなく、音質の良好な合成音声を生成することが可能となる。

本発明の請求項 2に係る音声合成システムは請求項 1に記載の音声合成システムであって、素片選択部は、入力される合成パラメータに含まれる合成音声単位列と一致する音声単位列であってその音声素片データの組み合わせが最適であるような素片選択情報が素片選択情報蓄積部に含まれている場合、該当する音声素片データの組み合わせを選択し、入力される合成パラメータに含まれる合成音声単位列と一致しかつ最適な音声素片データの組み合わせとなる素片選択情報が素片選択情報蓄積部に含まれていない場合、所定の選択手段を用いて素片蓄積部から音声素片データの組み合わせの候補を作成する。

この場合、素片選択情報蓄積部に格納された素片選択情報に基づいて選択される音声素片データの組み合わせにより、該当する合成音声単位列に対して音質の良好な合成音声を生成することが可能になり、素片選択情報蓄積部に格納されていない合成音声単位列に対しては、音声素片データの組み合わせの候補を作成してユーザに最適なものを選択させるように構成できる。本発明の請求項 3に係る音声合成システムは請求項 2に記載の音声合成システムであって、素片選択部で作成された音声素片データの組み合わせの候補に対するユーザの適否判定を受け付ける合否判定受付部と、合否判定受付部で受け付けたユーザからの適否判定に基づいて素片選択部で作成された音声素片データの組み合わせとその適否情報とを含む素片選択情報を素片選択情報蓄積部に格納する素片選択情報編集部とをさらに備える。

この場合、素片選択部で生成された音声素片データの組み合わせの候補に対してユーザが適切であるか否かの判定を行うように構成することが可能となリ、ュ一ザの好みに応じた合成音声を生成することが可能となる。

本発明の請求項 4に係る音声合成方法は、音声合成に必要となる合成パラメ一タを入力として、蓄積された音声素片データから合成パラメータに応じた音声素片データの組み合わせを選択して合成することによって、合成パラメータに対する音声波形を生成する音声合成方法であって、音声素片データを格納する段階と、任意の音声単位列に対し、蓄積された音声素片データを用いて構成される音声素片データの組み合わせおよびその適否情報を含む素片選択情報を格納する段階と、素片選択情報に基づいて、合成パラメータに対して最適となる音声素片データの組み合わせを、蓄積された音声素片データから選択する段階と、音声素片データの組み合わせに基づいて音声波形データを生成する段階とを備える。

この場合、音声単位列ごとに最適となる音声素片デ一タの組み合わせを素片選択情報として蓄積することにより、格納されている音声素片データのデータ量を大きくすることなく、音質の良好な合成音声を生成することが可能となる。

本発明の請求項 5に係る音声合成方法は請求項 4に記載の音声合成方法であつて、任意の音声単位列に対し、蓄積された音声素片データを用いて構成される音声素片データの組み合わせの候補を作成する段階と、作成された音声素片データの組み合わせに対してユーザの適否判定を受け付ける段階と、ユーザの適否判定に基づいて音声素片データの組み合わせおよびその適否情報を素片選択情報として格納する段階とをさらに備える。

この場合、格納されている素片選択情報に基づいて選択される音声素片データの組み合わせにより、該当する合成音声単位列に対して音質の良好な合成音声を生成することが可能になり、格納されていない音声単位列に対しては、音声素片データの組み合わせの候補を作成してユーザに最適なものを選択させるように構成できる。

本発明の請求項 6に係るプログラムは、音声合成に必要となる合成パラメータを入力として、蓄積された音声素片データから合成パラメータに応じた音声素片データの組み合わせを選択して合成することによって、合成パラメータに対する音声波形を生成する音声合成方法のプログラムであって、音声素片データを格納するステップと、任意の音声単位列に対し、蓄積された音声素片データを用いて構成される音声素片データの組み合わせおよびその適否情報を含む素片選択情報を格納するステップと、素片選択情報に基づいて、合成パラメータに対して最適となる音声素片データの組み合わせを、蓄積された音声素片データから選択するステップと、音声素片データの組み合わせに基づいて音声波形データを生成するステップとを備える。

この場合、音声単位列ごとに最適となる音声素片データの組み合わせを素片選択情報として蓄積することにより、格納されている音声素片データのデータ量を大きくすることなく、音質の良好な合成音声を生成することが可能となり、このプログラムを用いて通常のパーソナルコンピュータやその他のコンピュータシステムを音声合成システムとして機能させることが可能となる。

(図面の簡単な説明）

図 1は、従来例の概略構成を示す簡略ブロック図である。

図 2は、本発明の第 1の原理を示す概略構成図である。

図 3は、本発明の第 2の原理を示す概略構成図である。

図 4は、本発明の 1実施形態が採用される音声合成システムの制御ブロック図である。

図 5は、蓄積された音声素片データと素片選択情報の関係を示す説明図である図 6は、素片選択情報の 1例を示す説明図である。図 7は、本発明の 1実施形態の制御フローチヤ一トである。

図 8は、本発明のプログラムを格納する記録媒体の説明図である。

(発明を実施するための最良の形態）

〈概要構成〉

①本発明の第 1の原理に基づく概略構成図を図 2に示す。

ここでは、人間が発声した文章や単語などの音声データに基づいて音声波形あるいはこれをパラメータ化した形式の音声素片データが多数格納された素片蓄積部 1 3と、入力される合成パラメータに基づいて素片蓄積部 1 3から音声素片データの組み合わせを選択する素片選択部 2 1と、素片選択部 2 1で選択された音声素片データの組み合わせを使用して合成パラメータに対応する音声波形を生成 ■出力する音声合成部 1 2とを備えている。

また、任意の音素列に対し、素片蓄積部 1 3に格納されている音声素片データの組み合わせとその適否情報とを含む素片選択情報を格納する素片選択情報蓄積部 2 4を備えている。

下記は適切な素片選択情報のみ存在する場合の説明である。

素片選択部 2 1は、入力される合成パラメータに含まれる合成音素列に基づいて、素片選択情報蓄積部 2 4に同一の音素列の素片選択情報が存在するか否かの検索を実行し、同一の音素列の素片選択情報がある場合にはその音声素片データの組み合わせを選択する。素片選択情報蓄積部 2 4に同一の合成音素列の素片選択情報が含まれていない場合には、従来通りに素片蓄積部 1 3から評価関数を用いて最適となる音声素片データの組み合わせを選択する。不適切な素片選択情報がある場合には、評価関数で不適切でない音声素片の組み合わせの中から最適なものを選択する。

入力された合成パラメータに含まれる合成音素列と一部が一致する音素列の素片選択情報が素片選択情報蓄積部 2 4に格納されている場合には、素片選択部 2 1はその一致する部分についてのみ素片選択情報として格納されている音声素片データの組み合わせを使用し、その他の部分については、従来通りに素片蓄積部 1 3から所定の選択手段を用いて最適な音声素片データの組み合わせを選択する。所定の選択手段には、評価関数や評価テーブルなどが考えられるが、特に限定するものではない。

素片選択情報蓄積部 24に格納されている素片選択情報は、たとえば図 5に示すような構成となっている。

図 5上部は、素片蓄積部 1 3に蓄積されている音声素片データを示しており、 X (行）が文章番号、 Y (列）が音素番号を示すものとする。たとえば、文章番号 1 (X=1 ) は、「山梨と静岡 ' ■ ■」という文章の音声であることを示し、それを構成する音素列 rQy_amanashitoQshizu' ' - J を先頭から順に Y = 1〜nで示している。ここで、「(¾」は、無音を表している。

素片選択情報蓄積部 24に格納されている素片選択情報は、図 5下部に示されるように、任意の合成音素列に対して最適となる音声素片データの組み合わせを、素片蓄積部 1 3に蓄積されている音声素片データの XYの値を用いて示している。たとえば、 1行目には、「QyamatoQ (山と）」という合成音素列を構成するための音声素片データの組み合わせとして、素片蓄積部 1 3中の [X=1,Y=2 ] [Χ=1,Υ=3] [Χ=1,Υ=4] [Χ=1,Υ=5] [Χ=3,Υ=15] [Χ=3,Υ=16] を用いることが最適であることを示している。また、 2行目には、 rQyamatowAQ (山とは)」という合成音素列を構成するための音声素片データの組み合わせとして、素片蓄積部 1 3中の [X=1,Y=2] [Χ=1,Υ=3] [Χ=1,Υ=4] [Χ=1,Υ=5] [Χ=2，Υ=8] [ Χ=2,Υ=9] [Χ=2,Υ=10] [Χ=2,Υ=11] を使用するのが最適であること—を示している。

図 5に示す 1行目および 2行目の合成音素列については、「wA (は）」の有無が異なるだけであるが、素片蓄積部 1 3の文章番号 2中には rt_owa (とは)」という連続する音素列が存在することから、「to (と）」の部分についても最適とされる音声素片データが変化していることがわかる。

また、.素片選択情報として、合成音素列に対して不適切であるような音声素片データの組み合わせを登録しておき、他の音声素片データの組み合わせを選択すべきであることを示すように構成することができる。たとえば、図 5の 3行目に示すように、 rQy_amatowAQ (山とは）」という合成音素列を構成するための音声素片データの組み合わせとして、素片蓄積部 1 3中の [X=1,Y=2] [ X=1,Y=3] [X=1,Y=4] [Χ=1,Υ=5] [Χ=3,Υ=15] [Χ=3,Υ=16] [Χ=2,Υ=10] [ Χ=2,Υ=11] を使用することが不適切であることを登録しておく。

合成音素列の他に、平均ピッチ周波数、平均音節時間長、平均パワーなどの条件を素片選択情報として登録しておき、入力された合成パラメータがこの条件に合致する場合にその音声素片データの組み合わせを用いるように構成することができる。たとえば、図 6に示すように、「Q y _{a m a} t o Q (山と）」という合成音素列であって、平均ピッチ周波数が 200Hz、平均音節時間長が 120msec、平均パヮ一が- 20dBであるような合成パラメータに対しては、素片蓄積部 1 3中の [ Χ=1,Υ=2] [Χ=1,Υ=3] [Χ=1,Υ=4] [Χ=1,Υ=5] [Χ=3，Υ=15] [Χ=3,Υ=16] という音声素片データの組み合わせを用いることが最適であることを素片選択情報蓄積部 2 4に登録しておく。この場合、入力された合成パラメータが素片選択情報のこれらの条件に完全に一致していなくても、多少の相違であれば音質劣化も許容範囲であることから、所定のしきい値を設定して、著しい隔たりがある場合についてのみこの音声素片データの組み合わせを使用しないように設定することも可能である。

ある合成音素列に対して最適な音声素片データが選択されるように評価関数をチューニングする場合、他の合成音素列に対する音声素片データを選択する際に悪影響を及ぼすおそれがあるが、本発明では、特定の合成音素列に対してのみ有効な素片選択情報を登録しているため、他の合成音素列に対する音声素片データの組み合わせを選択する際の影響がない。

②本発明の第 2の原理に基づく概略構成図を図 3に示す。

第 1の原理に基づく概略構成図である図 2と比較すると、音声合成部 1 2から出力された合成音声に対するユーザの適否判定を受け付ける合否判定入力部 2 7 と、合否判定入力部 2 7で受け付けたユーザの適否判定に基づいて音声素片データの組み合わせについての素片選択情報を素片選択情報蓄積部 2 4に格納する素片選択情報鐲集部 2 6とがさらに加わっている。

たとえば、入力された合成パラメータに基づいて音声素片データの組み合わせを選択する際に、合成パラメータ中に含まれる合成音素列と一致する素片選択情報がない場合には、素片選択部 2 1では、素片蓄積部 1 3内の音声素片データから組み合わせの候補を作成する。ユーザは、音声合成部 1 2を介して出力される合成音声を聞いて、合否判定入力部 2 7を介して適切であるか否かの適否判定を入力する。素片選択情報編集部 2 6では、合否判定入力部 2 7から入力されたュ一ザによる適否判定に基づいて、素片選択情報蓄積部 2 4内の素片選択情報を追加する。

このような構成とすることによって、素片選択部 2 1で選択される音声素片デ一夕の組み合わせが、ユーザの設定に適合させることができ、より音質の良好な合成音声システムを構築することが可能となる。

〔音声合成システム例〕

本発明の 1実施形態が採用される音声合成システムの制御ブロック図を図 4に示す。

この音声合成システムはパーソナルコンピュータ、その他のコンピュータシステム上で具現化されるものであり、 CPU、 ROM, RAM, 各種インターフェイスなどを含む制御部 3 1により各機能部の制御が行われる。

多数の音声素片データが格納される素片蓄積部 1 3および素片選択情報が格納される素片選択情報蓄積部 2 4は、コンピュータシステムに内蔵または外付けで構成されるハードディスク（HDD)、光磁気ディスク（MO)、その他記録媒体、ネットワークを介して接続される他のサーバが管理する記録媒体などの所定の領域に設定することができる。

言語解析部 3 3、韻律生成部 3 4、素片選択部 2 1、素片選択情報編集部 2 6 などは、コンピュータのメモリ上で展開されるアプリケーションソフトにより各機能部として実現することができる。

また、ユーザインターフェイス部 4 0として、合成文字列入力部 3 2、音声合成部 1 2、合否判定入力部 2 7を備えている。合成文字列入力部 3 2は、文字列情報の入力を受け付けるものであり、たとえば、キーボード、 OCR (Optical Character Reader), その他の入力デバイスから入力されるテキス卜データや記録媒体上に記録されているテキストデータの入力を受け付けるものである。音声合成部 1 2は、生成された音声波形を出力するものであり、種々のスピーカおよび音声出力用のソフトウエアによる構成を想定することができる。合否判定入力部 2 7は、音声素片データの組み合わせに対するユーザの適否判定入力を受け付けるものであり、モニタ上に適否選択項目を表示し、キーボード、マウス、その他のポインティングデバイスにより選択される適否情報を取得するように構成でぎる。

言語解析部 3 3は、合成文字列入力部 3 2から入力された漢字かなテキス卜に対して、読みやアクセントを付与する処理を実行するものであり、形態素解析や係り受け解析などにより合成する音声単位列（合成音素列）を生成する。

韻律生成部 3 4は、合成音素列に対して合成音声を生成する際のイントネーシヨンやリズムを生成するものであり、たとえば、ピッチ周波数パターン、各音声単位の時間長、.パワー変動パターンなどを作成する。

素片選択部 2 1は、前述の概略構成でも説明したように、合成音素列、ピッチ周波数パターン、各音声単位時間長、パワー変動パターンなどの合成パラメータに適した音声素片データを素片蓄積部 1 3から選択する。このとき、合成パラメータに適した音声素片データの組み合わせが素片選択情報蓄積部 2 4に格納されている場合に、この音声素片データの組み合わせを優先して選択するように構成される。合成音素列に対応する適切な素片選択情報が素片選択情報蓄積部 2 4に格納されていない場合には、素片選択部 2 1は、評価関数によって動的に最適と思われる音声素片データの組み合わせを選択する。ただし、ここでは、素片選択情報蓄積部 2 4に不適切な素片選択情報が登録されていない場合を想定している。

音声合成部 1 2では、素片選択部 2 1で選択された音声素片データの組み合わせに基づいて音声波形を生成し出力を行う。

素片選択部 2 1が評価関数に基づいて選択した音声素片データの組み合わせの候補が複数ある場合には、それぞれの音声波形を音声合成部 1 2を介して出力し、合否判定入力部 2 7を介してユーザの適否判定を受け付けるように構成する。合否判定入力部 2 7を介して受け付けたユーザによる適否情報は、素片選択情報編集部 2 6を介して素片選択情報蓄積部 2 4に蓄積された素片選択情報に反映される。

この音声合成システムの動作を図 7に示す制御フローチヤ一卜に基づいて。素片選択情報蓄積部 2 4に音声素片データの適切な組み合わせのみが登録されている場合いついて説明する。

ステップ S 1 1では、合成文字列入力部 3 2を介して入力されるテキストデ一タを受け付ける。

ステップ S 1 2では、入力されたテキストデータを言語解析部 3 3により解析し、合成音素列を生成する。

ステップ S 1 3では、生成された合成音素列に対して、韻律生成部 3 4においてピッチ周波数パターン、各音声単位時間長、パワー変動パターンなどの韻律情報を生成する。

ステップ S 1 4では、合成音素列に一致する音素列の素片選択情報が素片選択情報蓄積部 2 4に格納されているか否かを判別する。合成音素列に一致する音素列の素片選択情報が存在すると判断した場合にはステップ S 1 6に移行し、そうでないと判断した場合にはステップ S 1 5に移行する。

ステップ S 1 6では、素片選択情報蓄積部 2 4に格納されている素片選択情報に基づいて、素片蓄積部 1 3に格納されている音声素片データの組み合わせを選択し、ステップ S 2 8に移行する。

ステップ S 1 5では、合成音素列の一部に一致する音素列の素片選択情報が素片選択情報蓄積部 2 4に格納されているか否かを判別する。合成音素列の一部に一致する音素列の素片選択情報が存在すると判断した場合にはステップ S 1 フに移行し、そうでないと判断した場合にはステップ S 1 8に移行する。

ステップ S 1 7では、合成音素列の一部を含む音素列の素片選択情報から、音声素片データの組み合わせの候補を n個選択し、ステップ S 1 9に移行する。ステップ S 1 8では、合成音素列を生成するための音声素片データの組み合わせの候補を評価関数（波形辞書）に基づいて n個選択し、ステップ S 1 9に移行する。 —

ステップ S 1 9では、選択した音声素片データの組み合わせに対して適否判定を行う際の変数 iを初期値 1に設定する。

ステップ S 2 0では、音声素片デ一タの第 i番目の組み合わせによる音声波形を生成する。ステップ S 2 1では、生成された音声波形による合成音声を音声合成部 1 2を介して出力する。

ステップ S 2 2では、音声合成部 1 2を介して出力した合成音声の適否判定をユーザから受け付ける。合否判定入力部 2 7を介してユーザが入力する適否判定情報が「適切」である場合にはステップ S 2 3に移行し、そうでない場合にはステツプ S 2 4に移行する。

ステップ S 2 3では、現在選択されている第 i番目の音声素片データの組み合わせを「最適」として、ステップ S 2 7に移行する。

ステップ S 2 4では、変数！をインクリメントする。

ステップ S 2 5では、変数 iの値が nを超えたか否かを判断する。変数 iの値が n以下であればステップ S 2 0に移行して同様の動作を繰り返し、変数 iの値が nを超えたと判断した場合にはステップ S 2 6に移行する。

ステップ S 2 6では、 n個の候補のうちから最良のものを選択する。ここでは、モニタ上に n個の候補を表示しユーザに選択させるように構成することも可能であり、評価関数やその他のパラメータに基づいて最適となる音声素片データの組み合わせを選択するように構成することも可能である。

ステップ S 2 7では、最適と判断された音声素片データの組み合わせをその合成音素列の素片選択情^として素片選択情報蓄積部 2 4に格納する。

ステップ S 2 8では、選択された音声素片データの組み合わせに基づいて音声波形を生成する。

ステップ S 2 9では、合成文字列が終了したか否かを判別する。合成文字列の入力が終了していないと判断した場合にはステップ S 1 1に移行して、同様の動作を繰り返し実行し、そうでない場合にはこのルーチンを終了する。

なお、本発明の実施形態に係る音声合成システムおよび音声合成方法を実現するプログラムは、図 8に示すように、 CD-ROM 5 2やフレキシブルディスク 5 3 などの可搬型記録媒体 5 1、通信回線の先に備えられる他の記録装置 5 5、コンピュータ 5 0のハードディスクや RAMなどの記録媒体 5 4のいずれに記録されるものであってもよく、プログラム実行時にはコンピュータ 5 0の主メモリ上に口ードされて実行される。また、本発明に係る音声合成システムにより生成された各種データについても、図 8に示すように、 CD-ROM 5 2やフレキシブルディスク 5 3などの可搬型記録媒体 5 1だけでなく、通信回線の先に備えられた他の記録装置 5 5、コンビュータ 5 0のハードディスクや RAMなどの記録媒体 5 4のいずれに記憶されるものであってもよく、本発明の音声合成システムを利用する際にコンピュータ 5 0によって読みとられて利用される。

(産業上の利用可能性）

本発明によれば、人間が発声した文章や単語の音声データから音声素片データを選択し、これを接続する方式の音声合成システムにおいて、音声素片データのデータ量の拡大を抑制し、合成音声の品質向上を図ることができる。

また、ユーザがシステムを使用しながら最適の合成音声を作成する枠組みを提供することができ、システム開発者にとっても、あらゆる場合にあてはまるような評価関数のチューニングを検討する必要がなくなり、開発やメンテナンスの省力化を図ることができる。

Claims

請求の範囲

1 .

.音声合成に必要となる合成パラメータを入力として、蓄積された音声素片デ一タから前記合成パラメータに応じた音声素片データの組み合わせを選択して合成することによって、前記合成パラメータに対する音声波形を生成■出力する音声合成システムであって、

前記音声素片データを格納する素片蓄積部と、

任意の音声単位列に対し、前記素片蓄積部に蓄積された音声素片データを用いて構成される音声素片データの組み合わせおよびその適否情報を含む素片選択情報を格納する素片選択情報蓄積部と、

前記素片選択情報蓄積部に格納されている素片選択情報に基づいて、前記合成パラメータに対して最適となる音声素片データの組み合わせを前記素片蓄積部から選択する素片選択部と、

前記素片選択部で選択された音声素片データの組み合わせに基づいて音声波形データを生成■出力する音声合成部と、

を備える音声合成システム。

2.

前記素片選択部は、入力される合成パラメータに含まれる合成音声単位列と一致する音声単位列であってその音声素片データの組み合わせが最適であるような素片選択情報が前記素片選択情報蓄積部に含まれている場合、該当する音声素片データの組み合わせを選択し、入力される合成パラメータに含まれる合成音声単位列と一致しかつ最適な音声素片データの組み合わせとなる素片選択情報が前記素片選択情報蓄積部に含まれていない場合、所定の選択手段を用いて前記素片蓄積部から音声素片データの組み合わせの候補を作成する、請求項 1に記載の音声合成システム。

3 . 前記素片選択部で作成された音声素片データの組み合わせの候補に対するユーザの適否判定を受け付ける合否判定受付部と、

前記合否判定受付部で受け付けたユーザからの適否判定に基づいて前記素片選択部で作成された音声素片データの組み合わせとその適否情報とを含む素片選択情報を前記素片選択情報蓄積部に格納する素片選択情報編集部と、

をさらに備える、請求項 2に記載の音声合成システム。

4.

音声合成に必要となる合成パラメータを入力として、蓄積された音声素片データから前記合成パラメータに応じた音声素片データの組み合わせを選択して合成することによって、前記合成パラメータに対する音声波形を生成する音声合成方法であって、

音声素片データを格納する段階と、

任意の音声単位列に対し、前記蓄積された音声素片データを用いて構成される音声素片データの組み合わせおよびその適否情報を含む素片選択情報を格納する段階と、

前記素片選択情報に基づいて、前記合成パラメータに対して最適となる音声素片データの組み合わせを、前記蓄積された音声素片データから選択する段階と、前記音声素片データの組み合わせに基づいて音声波形データを生成する段階と、を備える音声合成方法。

5.

任意の合成音声単位列に対し、蓄積された音声素片データを用いて構成される音声素片データの組み合わせの候補を作成する段階と、

前記作成された音声素片データの組み合わせに対してユーザの適否判定を受け付ける段階と、

前記ユーザの適否判定に基づいて前記音声素片データの組み合わせおよびその適否情報を素片選択情報として格納する段階と、

をさらに備える請求項 4に記載の音声合成方法。

6 .

音声合成に必要となる合成パラメータを入力として、蓄積された音声素片データから前記合成パラメータに応じた音声素片データの組み合わせを選択して合成することによって、前記合成パラメータに対する音声波形を生成する音声合成方法のプログラムであって、

音声素片データを格納するステップと、

任意の音声単位列に対し、前記蓄積された音声素片データを用いて構成される音声素片データの組み合わせおよびその適否情報を含む素片選択情報を格納するステップと、

前記素片選択情報に基づいて、前記合成パラメータに対して最適となる音声素片データの組み合わせを、前言己蓄積された音声素片データから選択するステップ前記音声素片データの組み合わせに基づいて音声波形データを生成するス亍ップと、

を備える音声合成方法をコンピュータに実行させるためのプログラム。