WO2005093713A1

WO2005093713A1 - 音声合成装置

Info

Publication number: WO2005093713A1
Application number: PCT/JP2005/005815
Authority: WO
Inventors: Daisuke Yoshida
Original assignee: Ai, Inc.
Priority date: 2004-03-29
Filing date: 2005-03-29
Publication date: 2005-10-06
Also published as: JPWO2005093713A1; JP4884212B2; US20070203703A1

Abstract

　テキストデータ中の任意の文章を解析し対応する表音記号データを生成するテキスト解析部と、アクセントと抑揚について事前に設定された韻律知識ベースに従い、表音記号データのそれぞれに対応するアクセントと抑揚を示す韻律パラメータを生成する韻律予測部と、音声合成装置の用途に応じた所要の音声単位のみを有するよう事前に選択収録された所定の音声データのみを複数蓄積する音声データベースに基づき、韻律パラメータのそれぞれに最も近い音声単位部分を有した音声データのそれぞれから、所定の音声単位部分の音声素片波形データの全てを抽出する音声単位抽出部と、これら音声素片波形データ群を音声波形が連続となるよう順次波形接続することで合成音声データを生成する波形接続部と、データ入力部、音声変換処理部及び話速変換部も含め前記各機能部を使用用途及び装置の規模に応じて適宜具備又は切離すコーパスベース音声合成装置。

Description

明細書

音声合成装置

技術分野

[0001] 本発明は、音声合成装置に関し、詳しくは、事前に収録された所定文章の音声データを所定の音声単位で複数蓄積した音声データベースを搭載し、任意のテキストデータに対して前記音声データベースに基づきコーパスベース音声合成を行うための、他の機器に組込み搭載される組込みマイコンカゝらなる音声合成装置に係わる。背景技術

[0002] 従来、音声合成技術として、駅の案内放送等に利用されるような、予め、使用される所定の単語やフレーズを音源として収録しておき、これらを組み合わせることで、機械による文章の音声出力を行う録音編集方式と、電話の自動案内等に利用されるような、事前に一文字ずつ音声波形に近い音データを蓄積し、これらの音データを信号処理により単音接続し、肉声の音声波形に近い音として出力する規則合成方式がめつに。

[0003] ここで、録音編集方式では、事前に収録された決められたフレーズによる録音データの組み合わせのみが可能であることから、合成可能な文章数が限定されてしまい、また、新たな文章を追加して合成させたいときには、この追加文章に使用される単語やフレーズの音源の再録音が必要となるために、再録音のための費用がかかるという問題があり、随時様々な文章を読上げさせるには、読上げ対応能力の低いものとなつていた。

[0004] 一方、規則合成方式では、文脈や単語の差異を無視して、信号処理による音データを一文字ずつ対応させた繋ぎ合わせによって、それぞれ単音を順次連続されることで、肉声の音声波形に近い音を合成するようにしているために、出力される音は、機械的な音となってしまい、音質の低下は避けられず、その機械的な音は、自然な発声とは程遠、ために聞ヽて、て違和感の残るものとなって、た。

[0005] そこで、近年、人の肉声を文章として数多く収録したものが事前にデータベース化されて、これら膨大な音声データのデータベース (コーノス)を音源として音声を合成する、例えば、以下に示す特許文献 1及び 2に開示されたコーパスベース音声合成技術が知られている。

[0006] 特許文献 1：特許第 2894447号公報

特許文献 2：特許第 2975586号公報

[0007] これら特許文献 1及び 2に開示されたコーパスベース音声合成技術では、データべース中に収録された多くの文章力必要な音素を抽出し、それら音素の組み合わせにより数多くの文章の合成が可能であることから、出力可能な合成文章数は膨大なものとなり、また、人間の肉声を音源に採用しているため、機械音による合成音声と比ベて、より人間の肉声に近い自然な音声を出力することができる。

[0008] さらに、これら特許文献 1あるいは特許文献 2に開示されたコーパスベース音声合成技術によれば、新たに文章を追加して合成させる場合においても、既に収録されて、る音源中の音素を利用して合成が可能なために、データベースの追加録音も不要であり、したがって、追加コストは力からないことから、現在、コールセンター等への導入が進められている。

発明の開示

発明が解決しょうとする課題

[0009] し力しながら、従来のコーパスベース音声合成技術では、任意の文章の合成に対応させるために、多数の音素を含む文章を収録するそのデータベースは膨大なものとなってしまい、装置の大型化が避けられず、例えば、コールセンター等に導入される場合には、業務内容対応用や、カタログ請求対応用、担当部署対応用等の、応対内容ごとのそれぞれ専用のデータベースを構築する必要があった。

[0010] また、装置が大型なものとなるために、小型製品の、例えば、聴覚障害者用の福祉関連機器や、玩具、家電等に内蔵することは困難なものであり、その用途は、例えば、コールセンター等に限定されてしまい、その導入は大規模な設備を備えた企業等のみに限定されたものとなっていた。

[0011] ここにおいて、本発明の解決すべき主要な目的は、次のとおりである。

[0012] 即ち、本発明の第 1の目的は、コーパスベース音声合成を行う装置を小型化して、他の機器に組込み搭載可能な音声合成装置を提供せんとするものである。 [0013] 本発明の第 2の目的は、コーパスベース音声合成に採用される音声データベースを、用途ごとに選択収録された音声データを収録してそれぞれ着脱可能な音声合成装置を提供せんとするものである。

[0014] 本発明の他の目的は、明細書、図面、特に、特許請求の範囲の各請求項の記載から、自ずと明らかになろう。

課題を解決するための手段

[0015] 本発明装置においては、他の機器に組込み搭載される組込みマイコンカゝらなる音声合成装置であって、テキストデータ中の任意の文章を解析し、当該文章に対応する表音記号データを生成するテキスト解析部と、アクセントと抑揚にっ、て事前に設定された韻律知識ベースに従!ヽ、当該テキスト解析部で解析した文章の表音記号データのそれぞれに対応するアクセントと抑揚を示す韻律パラメータを生成する韻律予測部と、当該音声合成装置の用途に応じた所要の音声単位のみを有するよう事前に選択収録された所定の音声データのみを複数蓄積する音声データベースに基づき、当該韻律予測部にて生成した韻律パラメータのそれぞれに最も近い所定の音声単位部分を有した音声データのそれぞれから、該当する当該所定の音声単位部分の音声素片波形データの全てを抽出する音声単位抽出部と、当該音声単位抽出部にて抽出した音声素片波形データ群を、文章順に、当該音声素片波形データ群の示す音声波形が連続となるよう順次波形接続することで合成音声データを生成する波形接続部と、を具備させる、という特徴的構成手段を講じる。

[0016] さらに、具体的詳細に述べると、当該課題の解決では、本発明が次に列挙する上位概念カゝら下位概念に亙る新規な特徴的構成手段を採用することにより、前記目的を達成するよう為される。

[0017] 即ち、本発明装置の第 1の特徴は、事前に収録された所定文章の音声データを所定の音声単位毎に音声素片波形データとして抽出可能に複数蓄積した音声データベースを搭載し、任意のテキストデータに対して前記音声データベースに基づきコーパスベース音声合成を行うための音声合成装置であって、シリアルデータ力テキストデータを取得するデータ入力部と、当該テキストデータ中の前記任意の文章に対応する音を母音と子音で示す表音記号を表音記号データとして生成処理するテキスト解析部と、アクセントと抑揚について事前に設定された韻律知識ベースに従い、事前に解析された前記テキストデータ中の任意の文章に対応する前記表音記号データのそれぞれに対応する前記アクセントと前記抑揚を示す韻律パラメータを生成する韻律予測部と、当該音声合成装置の用途に応じた所要の前記音声単位のみを有するよう事前に選択収録された所定の前記音声データのみを複数蓄積する前記音声データベースに基づき、当該韻律予測部にて生成した前記韻昝パラメータのそれぞれに最も近い前記所定の音声単位部分を有した前記音声データのそれぞれから、該当する当該所定の音声単位部分の前記音声素片波形データの全てを抽出する音声単位抽出部と、当該音声単位抽出部にて抽出した前記音声素片波形データ群を、前記文章順に、当該音声素片波形データ群の示す音声波形が連続となるよう順次波形接続することで合成音声データを生成する波形接続部と、当該合成音声データをアナログ音声に変換出力する音声変換処理部と、を具備してなる、音声合成装置の構成採用にある。

[0018] 本発明装置の第 2の特徴は、上記本発明装置の第 1の特徴における前記音声データベースが、前記音声合成装置に着脱可能なメモリカード上に構築されて、当該音声合成装置に当該メモリカードが装着されたときに、前記音声単位抽出部力読み取り可能に構成されてなる、音声合成装置の構成採用にある。

[0019] 本発明装置の第 3の特徴は、上記本発明装置の第 1の特徴における前記データ入力部が、当該音声合成装置が組込み搭載された他の機器と接続されて、当該機器力もシリアルデータを受信してなる、音声合成装置の構成採用にある。

[0020] 本発明装置の第 4の特徴は、上記本発明装置の第 1の特徴における前記音声合成装置が、前記データ入力部により前記任意文章とともに取得した速度パラメータを前記波形接続部より生成された前記合成音声データに反映させ、当該合成音声データの読み上げ速度を調整する話速変換部を前記音声変換処理部に前置してなる、音声合成装置の構成採用にある。

[0021] 本発明装置の第 5の特徴は、上記本発明装置の第 1の特徴における前記データ入力部と前記テキスト解析部と前記韻律予測部と前記音声データベースと前記音声単位抽出部と前記波形接続部と前記音声変換処理部が、一個のケース内に一体装備されてなる、音声合成装置の構成採用にある。

[0022] 本発明装置の第 6の特徴は、上記本発明装置の第 1の特徴における前記データ入力部と前記波形接続部と前記音声変換処理部が、他の機器に組込み搭載される組込みマイコンに一体装備し、前記データ入力部と前記テキスト解析部と前記韻律予測部と前記音声データベースと前記音声単位抽出部力センター内パーソナルコンピュータに装備され、前記組込みマイコンと当該センター内パーソナルコンピュータは、同一ネットワーク上に別途設置され、当該センター内パーソナルコンピューター内で前記データ入力部、前記テキスト解析部、前記韻律予測部、前記音声データべースに直結した前記音声単位抽出部を経て前記テキストデータから変換された前記音声素片波形データを、前記ネットワークを介して前記組込みマイコンの前記波形接続部に送信可能とし、当該組込みマイコンの前記音声変換処理部へ当該波形接続部から合成音声を受渡しするシステムに構築されてなる、音声合成装置の構成採用にある。

[0023] 本発明装置の第 7の特徴は、上記本発明装置の第 1の特徴における前記音声合成装置力別途配置された任意のパーソナルコンピュータに前記データ入力部が接続されて、前記テキスト解析部にて解析する前記テキストデータを当該パーソナルコンピュータカ取得可能に構成される一方、前記音声変換処理部として別途配置された任意のスピーカに接続されて、前記波形接続部にて生成した前記合成音声データを当該スピーカにて音声出力可能に構成されてなる、音声合成装置の構成採用にある。

[0024] 本発明装置の第 8の特徴は、上記本発明装置の第 1の特徴における前記所定の音声単位が、音素、単語、フレーズ、シラブルのうちの 1以上である、音声合成装置の構成採用にある。

[0025] 本発明装置の第 9の特徴は、上記本発明装置の第 1の特徴における前記データ入力部と前記テキスト解析部が、初期設定時のみ使用のパーソナルコンピュータに装備してシリアルデータを入力し表音記号データを出力する初期設定機能をそれぞれ有し、前記韻律予測部と前記音声データベースと前記音声単位抽出部と前記波形接続部と前記音声変換処理部が、その他の機器に組込み搭載される組込みマイコンに装備し、前記パーソナルコンピュータを当該組込みマイコンに初期設定時のみ接続して、当該パーソナルコンピュータから出力した前記表音記号データを当該組込みマイコンの前記韻律予測部に入力するとともに、前記音声データベースに予め設定記録しておき、当該組込みマイコンに入力したシリアルデータを当該韻律予測部と当該音声データベースに直結する前記音声単位抽出部と前記波形接続部と前記音声変換処理部を順次経てアナログ出力する機能を有してなる、音声合成装置の構成採用にある。

[0026] 本発明装置の第 10の特徴は、上記本発明装置の第 1の特徴における前記データ入力部と前記波形接続部と前記音声変換処理部が、緊急警報用又は、案内、連絡用出力端末に組込みマイコンとして組込まれるとともに、前記データ入力部と前記テキスト解析部と前記韻律予測部と前記音声データベースと前記音声単位抽出部は、これら等を内蔵装備したセンター内パーソナルコンピュータとして、前記組込みマイコンとネットワークを介し一方向送信可能にシステム構築してなる、音声合成装置の構成採用にある。

[0027] 本発明装置の第 11の特徴は、上記本発明装置の第 1の特徴における前記韻律予測部と前記音声データベースと前記音声単位抽出部と前記波形接続部と前記音声変換処理部が、前記データ入力部及び前記テキスト解析部と初期設定後切り離して玩具やその他の機器に組込みマイコンとして組み込まれてなる、音声合成装置の構成採用にある。

発明の効果

[0028] 本発明によれば、従来、大型化が避けられな力つたコーパスベース音声技術を採用した音声合成装置を組込みマイコンにて構成し、従来と比較して大幅に小型化することが可能となり、他の機器に組込み可能となることから、例えば、福祉関連機器に組み込まれることで音声伝達を可能とするコミュニケーションツールとして活用することができ、キャラクターの声を出力可能な人形等の玩具や、音声による情報伝達が可能な家電等、さまざまな製品に活用することが可能となる。

[0029] また、音声データベースを着脱可能なメモリカード上に構築し用途に応じて交換可能にしたことで、音声合成装置の小型化が可能となると共に、用途に合った音声データを収録することで、音声合成の読み正解率やアクセント正解率の向上させてより自然な音声を出力させることが可能になり、また、出力する声質をユーザの好みのものに切り替えることが可能となる。

[0030] さらに、ネットワークを利用して音声合成を行う場合、従来音声の送信には中高速回線を利用していたが、本発明では、テキストデータを受信側装置で受信して音声に変換すればよいため、低速回線を利用した音声放送が可能となり、また、プッシュ型のサービスに適用された場合、テキストデータのみを配信することで受信側装置にて音声として出力させることができ、省力化や、防災無線等の緊急を要する場合にも迅速なサービスの提供が可能となる。

図面の簡単な説明

[0031] [図 1]本発明の一形態例に係る音声合成装置の機能構成図である。

[図 2]同上した音声合成装置に話速変換部を機能追加した音声合成装置の機能構成図である。

[図 3]同上した音声合成装置のハードウア構成例を示す模式図である。

[図 4]同上した音声合成装置のデータ構成を説明するための図であり、同図 (a)はテキストデータを、同図（b)は表音記号データを、同図（c)は韻律知識ベースを、同図（ d)は韻律パラメータを、同図（e)は音声データベースを説明するための図である。

[図 5]本発明の機能構成例 2に係る音声合成装置の機能構成図である。

[図 6]本発明の機能構成例 3に係る音声合成装置の機能構成図である。

[図 7]本発明の形態例に係る音声合成装置をパーソナルコンピュータに搭載させたハードウェア構成例を示す模式図である。

符号の説明

[0032] α、 α 1…音声合成装置

α 2、 α 3…組込みマイコン

13、 β 2、 j8 3…パーソナルコンピュータ

γ…音声合成システム

1…音声データベース

2· · ·テキスト解析部 3…韻律予測部

3A…韻律知識ベース

4…音声単位抽出部

5…波形接続部

6…データ入力部

7…音声変換処理部

8…話速変換部

11- --CPU

12- --ROM

13- --RAM

14· ··メモリカード

15· ··シリアルインタフェース

16 .DZAコンバータ

21· ··入力手段

22· "スピーカ

発明を実施するための最良の形態

[0033] 以下、本発明の実施の形態につき、添付図面を参照しつつ、音声合成装置の形態例を説明する。

[0034] (形態例）

まず、図 1は、本発明の一形態例に係る音声合成装置の機能構成図である。

[0035] 同図に示すように、本形態例にかかる音声合成装置 exは、事前に収録された所定文章の音声データを、例えば、音素や単語、フレーズ、シラブル等の所定の音声単位毎に音声素片波形データとして抽出可能に複数蓄積した音声データベース 1を搭載し、任意のテキストデータに対して音声データベース 1に基づきコーパスベース音声合成を行うための装置であり、少なくともテキスト解析部 2と、韻律予測部 3と、音声単位抽出部 4と、波形接続部 5からなり、必要に応じ他の機器に組込み搭載される組込みマイコンとして構成する。

[0036] なお、上記機能部全てをマイコンが具備するよう限定される必要はなぐ使用用途及びその規模に応じて複数の所定機能部をマイコンに具備させ、その他の各機能部をパーソナルコンピュータに実行させるなどして構成することもできる。

[0037] ここで、音声データベース 1は、コーパスベース音声合成を行うためのコーパスであつて、音声合成装置 OCの用途に応じた所定の音声単位のみを有するように事前に選択収録された所定の音声データのみを複数蓄積し、音声合成装置 αの用途に応じて細分化されて構築される。

[0038] 一方、テキスト解析部 2は、入力されたテキストデータ中の任意の文章を解析し、この文章に対応する表音記号データを生成可能に構成されて、韻律予測部 3は内部に、表音記号データのアクセントと抑揚についての認識規則について事前に設定された韻律知識ベース 3Αを搭載し、この韻律知識ベース 3Αに従い、テキスト解析部 2 が生成した表音記号データのそれぞれに対応するアクセントと抑揚を示す韻律パラメータを生成するよう構成される。

[0039] 他方、音声単位抽出部 4は、韻律予測部 3にて生成された韻律パラメータのそれぞれに最も近いアクセントと抑揚を備えた音素を含む音声データを、例えば、人間の聴覚特性に近づけた評価関数等を用いて、音声データベース 1から抽出し、ここで抽出した音声データのそれぞれから、この韻律パラメータに該当する音素等の所定の音声単位の音声素片波形データのみを抽出するよう構成される。

[0040] さらに、波形接続部 5は、音声単位抽出部 4にて抽出した複数の音声素片波形データ群を、文章順に、この音声素片波形データ群の音声波形が滑らかで自然な音声となるよう、連続させて順次波形接続を行うことで、自然な韻律の合成音声データを生成するよう構成される。

[0041] なお、音声合成装置 aの組込みマイコン上に、さらに、音声合成装置 aが組込み搭載される他の機器と接続されて、この機器中の、例えば、キーボードやマウス等の入力手段や、ネットワークを介して送受信されたデータを記録する記録媒体等力シリアルデータを受信し、このシリアルデータ力テキストデータを取得してテキスト解析部 2に入力可能に構成されたデータ入力部 6を具備するようにしても構わない。

[0042] このデータ入力部 6を具備することにより、音声合成装置 exは、事前に設定されたテキストデータの音声合成のみならず、例えば、音声合成装置 αのユーザにより入力された任意の文章の音声合成が可能となり、ユーザ力もの任意のテキストデータの入力に対応可能となるとともに、所望の文章を随時受付けて即座に合成音声として出力する等のリアルタイム性を確保することが可能となる。

[0043] また、音声合成装置 exの組込みマイコン上に、波形接続部 5にて生成した合成音声データをアナログ変換し、このアナログ変換した合成音声データを別途接続されたスピーカ等にアナログ出力することで、合成音声データを音声出力する音声変換処理部 7を具備するようにしても構わな、。

[0044] なお、音声合成装置 exが組み込まれる他の機器に、データ入力部 6と音声変換処理部 7とに代わる同様の機能を備えたインタフェースやコンバータ等が搭載された場合、音声合成装置 αは、音声合成装置 α内にデータ入力部 6と音声変換処理部 7とを搭載させずに、テキストデータを取得可能とするとともに、合成音声データを音声出力することが可能となるようにしても構わな!/、。

[0045] さらに、図 2は図 1の音声合成装置 ocに合成音声の読み上げ速度の調節機能を加えた構成図である。

[0046] 同図に示すように、音声合成装置 ex 1が組込み搭載される他の機器カゝらテキストデータとともに入力された速度パラメータを、波形接続部 5により生成された合成音声データに反映させ、合成音声の読み上げ速度を調節する話速変換部 8を音声合成装置ひ 1のマイコン上に具備してもよい。

[0047] 次に、図 3は、本形態例に示した音声合成装置 exのハードウェア構成例を示す模式図である。

[0048] 同図に示すように、音声合成装置 exは、音声合成装置 exにおける各機能部をそれぞれ一連に制御する CPU (Central Processing Unit) 11と、 CPU11からアクセス可能な ROM (Read Only Memory) 12と、 RAM (Randam Access

Memory) 13とを搭載して構成されて、例えば、 ROM12にリアルタイム OS (Operating System)と、テキスト解析部 2、韻律予測部 3、音声単位抽出部 4、波形接続部 5の各機能を音声合成装置 aの CPU11に実行させるための処理プログラム等が記録されるとよ、。

[0049] さらに、音声合成装置 ocは、例えば、フラッシュメモリ等で構成されて音声合成装置 aに着脱可能なメモリカード 14を着脱可能に構成されて、このメモリカード 14に音声データベース 1を構築することにより、音声合成装置 _aが組み込まれる機器の用途や

、音声合成装置 αを利用するユーザの好みにより、所要のメモリカード 14への差換えが可能になり、装着されたメモリカード 14内の音声データベース 1に基づき音声単位抽出部 4が機能するように構成されるとよい。

[0050] また、データ入力部 6として機能するシリアルインタフェース 15や、音声変換処理部 7として機能する DZAコンバータ 16 (D/A : Digital to Analog)を搭載するようにしても構わない。

[0051] 続いて、図 4は、本形態例に示した音声合成装置 exのデータ構成を説明するための図であり、同図（a)はテキストデータを、同図（b)は表音記号データを、同図（c)は韻律知識ベースを、同図（d)は韻律パラメータを、同図（e)は音声データベースを説明するための図であり、アクセントや抑揚については説明のために模式的に示している。

[0052] 同図（a)に示すように、テキスト解析部 2に入力されるテキストデータは、例えば、データ入力部 6にて取得したシリアルデータ中の「橋を渡る」のような任意の文章であり、ここで、このテキストデータは、かな.漢字等の混合であっても構わず、音声にすることが可能なものであれば、そのテキストデータに使用される文字は限定されるものではない。

[0053] なお、テキストデータは、テキスト形式のデータファイルに限らず、 HTML (Hyper

Text Markup Language)形式のデータファイルから HTMLタグを取り除いて抽出されたものでも構わず、インターネット上のホームページや、電子メール、あるいは、キーボードやマウス等の入力手段によってユーザ力も直接入力されて生成されたテキストデータであっても構わな!/、。

[0054] 一方、同図（b)に示すように、テキスト解析部 2で生成する表音記号データは、例えば、テキストデータの音を母音と子音で示すような表音記号を採用して、同図（a)にて示したテキストデータに基づき生成される表音記号データは、例えば、「ha shi wo wa ta ru」となる。

[0055] また、韻律知識ベース 3Aは、表音記号データのアクセントや抑揚等を決定するために韻律予測部 3にて利用される予め設定された規則であって、例えば、同図（b)に示した表音記号データの「ha shi」について、日本語の「橋」、「端」、「箸」、…のいずれに対応するものであるかを文脈力決定し、これら表音記号データのアクセントや抑揚につ!、て決定可能なアルゴリズムを備える。

[0056] そこで、韻律予測部 3は、例えば、韻律知識ベース 3Aに基づき「橋」に対応する表音記号データ中の「ha shijについて所定の音声単位毎の、ここでは、「11&」と「31^」に対してそれぞれ韻律パラメータを生成可能に構成されて、韻律知識ベース 3Aに従い、表音記号データの全てについて、アクセントや抑揚、さらには、音声と音声との間、音声のリズム、スピード等を決定することができる。

[0057] なお、ここでは、アクセントと抑揚を説明のために模式的に、表音記号に重ねて下線や上線等で示して説明するものの、音声合成装置 α内にてアクセントや抑揚等の音声に必要な情報を識別可能に記録されれば、どのような形態であっても構わない。

[0058] 他方、同図（d)に示すように、韻律予測部 3にて同図（c)で説明した韻律知識べ一ス 3Aに従、生成される韻律パラメータは、各表音記号に対応させてテキストデータの文脈に合った、例えば、アクセント、抑揚及び音声間の間についてそれぞれパラメータとして示すものであり、図に示した「wo」と「wa」のアクセントを示す下線間の切れ目は、その表音記号間に所定間隔の間を示すものである。

[0059] 続いて、同図（e)に示すように、音声単位抽出部 4からアクセスされる音声データべース 1は、予め複数の所定文章の肉声がそのアクセントと抑揚等の韻律知識ベース 3 Aに対応させた音声データとともに、例えば、音素等の所定の音声単位毎に音声素片波形データとして抽出可能に蓄積されて、ここでは、「春が来た」，「使用する」，「映画を見る」，「私は」，…等の音声データが蓄積されていることを示している。

[0060] したがって、音声単位抽出部 4は、韻律予測部 3から同図（d)に示すような韻律パラメータを受信したときには、この韻律パラメータが示すそれぞれ固有のアクセントと抑揚を有した「ha」，「shi」，「wo」，「wa」，「ta」，「ru」のそれぞれと、表音記号が対応するとともに最も近いアクセントと抑揚を有した音声データを音声データベース 1から検索する。

[0061] 引続き、音声単位抽出部 4は、ここで抽出した「春が来た」，「使用する」，「映画を見る」，「私は」，…等の音声データから、韻律パラメータに合致する「ha」, 「shi」，「wo」, 「wa」， r_taj , 「ru」の音声素片波形データのみを切り取り、抽出するようにすることで、波形接続部 5にてこの音声素片波形データを滑らかに接続して、合成音声データを生成することが可能となる。

[0062] なお、ここでは、所定の音声単位の一例として音素を採用した場合について説明したが、入力されたテキストデータ中に事前に音声データベース 1中に蓄積された単語やフレーズを含む場合には、所定の音声単位をこの単語やフレーズとすることで、音声単位抽出部 4において、音声データベース 1中に蓄積された単語やフレーズ等を分割せずにそのまま抽出することが可能であり、この単語あるいはフレーズをそのまま、あるいは、組み合わせて出力することで、より自然な音声を合成することが可能となる。

実施例

[0063] 続いて、実施例として図 1、 2の機能構成図及び図 5、 6に示す本発明における合成音声装置 Oの実施構成図を用いて機能構成例を説明する。

[0064] (構成例 1)

まず、構成例 1としては上記形態例にて説明した、図 1の機能構成図に示す各機能部 1〜7全てをマイコンに組込んだ音声合成装置 ocを機能構成例 1とする。

[0065] この場合、全機能部 1〜7は一個のケース内に一体装備され、他の設備、機器等に機能を分散しなくても単体のみで音声の合成が実行可能な音声合成装置 Oであり、シリアルデータ入力からアナログ出力までの一連の機能部 1〜7を一個体のケースで実行させることを可能とする。

[0066] また、上記全機能部がケース単体で実行可能であればその機能構成は限定されず、例えば、同一ケース内に音声変換出力部 7、データ入力部 6として図示しないスピー力やデータ入力装置等を組込み搭載してもよ、。

[0067] (構成例 2)

さらに、構成例 1の音声合成装置 αに合成音声の読み上げ速度調節機能である話速変換部 8を付加し、構成例 1と同様に図 2に記載される全機能部 1〜8を一個のケースに一体装備した音声合成装置 α 2を機能構成例 2とする。 [0068] ここで話速変換部 8は、合成音声データに速度パラメータを反映させることにより合成音声の速度調節を行う。この場合、データ入力部にはシリアルデータとして、テキストデータとともに速度パラメータを入力する。

[0069] 速度パラメータはデータ入力部 6から波形接続部 5までの機能部を各変換データ及びパラメータに付加された状態で受け渡され、話速変換部 8ではじめて認識される。話速変換部 8は、波形接続部 5から速度パラメータとともに受け取った合成音声データに対し速度パラメータの値をあてはめ、合成音声の読み上げ速度の変更を行う。

[0070] 構成例 2は話速変換を行うことにより、利用状況に応じて速度の変更を行い利用者に対し正確に合成音声を伝達することを目的としており、例えば、読み上げ速度を通常よりも遅く設定することにより、聞き取り易くして緊急時など冷静な判断能力が欠如しがちな状態において効果的である。

[0071] (構成例 3)

次に図 5は、図 1に示す音声合成装置 αにおける波形接続部 5、音声変換処理部 7を抽出選択し組込みマイコンひ 2に搭載し、他の各機能部を別途設置したパーソナルコンピュータに組み込むことにより一連の音声合成処理を実行する音声合成システム _Ίの構成例を示す機能構成図である。

[0072] 同図に示すように、本構成例 3にかかる音声合成システム γは、組込みマイコンひ 2として火災、地震などの災害時等に入力されたテキストデータを合成音声に変換し緊急警報として使用する場合に用いられる出力端末を目的とする音声合成システムの一例である。

[0073] 図 5に示すように、音声合成システム γは、波形接続部 5、音声変換処理部 7を具備する組込みマイコン α 2と、図 1に図示する上記以外の各機能部である音声データベース 1とデータ入力部 6から音声単位抽出部 4までの各機能部を具備したパーソナルコンピュータ等のマシンとをネットワーク接続して使用する。

[0074] 組込みマイコン α 2は単体としてネットワークに接続する力又は、他の機器に組込みマイコン _α 2を組込み搭載して利用するとよい。

[0075] 上記ネットワークの接続方法は、一般的に家庭内や小規模な設備などでも容易に接続可能なインターネット回線や電話回線などが候補として挙げられる力他に無線、専用回線など、別途設置してある設備とのデータの通信が可能なものであれば、その接続手段は限定されない。

[0076] 図 1に示す音声合成装置 exに記載される各機能部の中で、負荷が高くデータ処理時間を要するデータ入力部 6から音声単位抽出部 4までの機能を、別途設置する高速処理可能な大容量のパーソナルコンピュータ j8 2のマシンに実行させ、ネットヮークを介して組込みマイコン (X 2がパーソナルコンピュータ 13 2から受信した音声素片波形データを合成音声データへの変換処理のみを実行することにより、緊急を要する状態においても高速な音声合成処理が可能となるという優れた効果を奏する。

[0077] 本構成例 2は緊急警報用ばカゝりでなく案内、連絡用として利用してもよぐまた構成例 2で示す話速変換部 8を本構成例に具備させることにより、状況に応じて読み上げ速度の変更を行うことも可能である。

[0078] (構成例 4)

次に、図 6は、図 5と同様に図 1に示す音声合成装置 αの機能部 1と 3〜5、 7を一部抽出選択した組込みマイコン ex 3の機能構成図である。

[0079] 同図に示すように、本構成例 4にかかる組込みマイコン α 3は、データ入力部 6及びテキスト解析部 2を組み込んだ任意のパーソナルコンピュータ /3 3にから表音記号データを取得可能な構成にし、音声データベース 1と、合成音声として出力する韻律予測部 3から音声変換処理部 7までの一連の機能部とを組み込んだマイコンである。なお、パーソナルコンピュータ β 3は初期設定後は切り離される。

[0080] 組込みマイコン a 3は、玩具のような小型の装置等その他の機器に搭載されることを目的とし、搭載する装置の例としては、玩具、携帯電話、補聴器等の福祉関連機器その他が挙げられる。

[0081] これらの装置は、利用者に対し合成音声の提供を実現するものであるが、入力されるシリアルデータの内容はある程度定まっているため、予めテキスト解析を行うことにより処理効率の向上を図ることができる。

[0082] また、これらは上述したような小型装置のみに限定されず、例えば自動販売機や、カーナビゲーシヨンシステム、無人受付設備など、出力される合成音声の内容が限定されている装置に利用すれば、新たに大きな設備を設置することなぐ組込みマイコン oc 3を追加搭載させるだけで合成音声機能をこれらの装置に組み込むことが可能となる。

[0083] 続いて、図 7は、本形態例に示した音声合成装置 exを、他の機器としてのパーソナルコンピュータ βに搭載させたノヽードウエア構成例を示す模式図である。

[0084] 同図に示すように、音声合成装置 exは、別途配置された任意のパーソナルコンビュータ βに搭載されて接続された場合、例えば、パーソナルコンピュータ βに搭載された入力手段 21からデータ入力部 6にてシリアルデータを受信可能に構成される一方、音声合成装置 αにてシリアルデータに基づき生成した合成音声データを、音声変換処理部 7から別途パーソナルコンピュータ /3に内蔵された音声出力可能なスピー力 22にアナログ出力することで、このスピーカ 22にて音声出力させることが可能となる。

[0085] このとき、音声合成装置 exは、この音声合成装置 ex内に、事前に音声データべ一ス 1を記録するメモリカード 14が装着されるとよぐメモリカード 14は、音声合成装置 aに事前に固定的かつ専用に搭載されたものであっても、パーソナルコンピュータを利用するユーザにより任意に他のメモリカード 14と差換え可能とするようにしても構わない。

[0086] 以上、本発明の実施の形態につき、その音声合成装置 exの一形態例及び機能構成例を挙げて説明したが、本発明は、必ずしも上述した手段にのみ限定されるものではなぐ前述した効果を有する範囲内において、適宜、変更実施することが可能なものである。

[0087] また、音声合成装置 aを、別途構成された他の音声認識装置と接続することにより、自然な発声の対話を可能とする対話型の音声合成装置を構築することも可能である。

Claims

請求の範囲

[1] 事前に収録された所定文章の音声データを所定の音声単位毎に音声素片波形データとして抽出可能に複数蓄積した音声データベースを搭載し、任意のテキストデータに対して前記音声データベースに基づきコーパスベース音声合成を行うための音声合成装置であって、

シリアルデータ力テキストデータを取得するデータ入力部と、

当該テキストデータ中の前記任意の文章に対応する音を母音と子音で示す表音記号を表音記号データとして生成処理するテキスト解析部と、

アクセントと抑揚にっ、て事前に設定された韻律知識ベースに従、、事前に解析された前記テキストデータ中の任意の文章に対応する前記表音記号データのそれぞれに対応する前記アクセントと前記抑揚を示す韻律パラメータを生成する韻律予測部と、

当該音声合成装置の用途に応じた所要の前記音声単位のみを有するよう事前に選択収録された所定の前記音声データのみを複数蓄積する前記音声データベースに基づき、当該韻律予測部にて生成した前記韻律パラメータのそれぞれに最も近い前記所定の音声単位部分を有した前記音声データのそれぞれから、該当する当該所定の音声単位部分の前記音声素片波形データの全てを抽出する音声単位抽出部と、

当該音声単位抽出部にて抽出した前記音声素片波形データ群を、前記文章順に、当該音声素片波形データ群の示す音声波形が連続となるよう順次波形接続することで合成音声データを生成する波形接続部と、

当該合成音声データをアナログ音声に変換出力する音声変換処理部と、を具備する、

ことを特徴とする音声合成装置。

[2] 前記音声データベースは、

前記音声合成装置に着脱可能なメモリカード上に構築されて、

当該音声合成装置に当該メモリカードが装着されたときに、前記音声単位抽出部力読み取り可能に構成される、ことを特徴とする請求項 1に記載の音声合成装置。

[3] 前記データ入力部は、

当該音声合成装置が組込み搭載された他の機器と接続されて、当該機器カゝらシリアルデータを受信する、

ことを特徴とする請求項 1に記載の音声合成装置。

[4] 前記音声合成装置は、

前記データ入力部により前記任意文章とともに取得した速度パラメータを前記波形接続部より生成された前記合成音声データに反映させ、当該合成音声データの読み上げ速度を調整する話速変換部を前記音声変換処理部に前置する、

ことを特徴とする請求項 1に記載の音声合成装置。

[5] 前記データ入力部と前記テキスト解析部と前記韻律予測部と前記音声データべ一スと前記音声単位抽出部と前記波形接続部と前記音声変換処理部は、

一個のケース内に一体装備される、

ことを特徴とする請求項 1に記載の音声合成装置。

[6] 前記波形接続部と前記音声変換処理部は、

他の機器に組込み搭載される組込みマイコンに一体装備し、

前記データ入力部と前記テキスト解析部と前記韻律予測部と前記音声データべ一スと前記音声単位抽出部は、

センター内パーソナルコンピュータに装備され、

前記組込みマイコンと当該センター内パーソナルコンピュータは、

同一ネットワーク上に別途設置され、

当該センター内パーソナルコンピューター内で前記データ入力部、前記テキスト解析部、前記韻律予測部、前記音声データベースに直結した前記音声単位抽出部を経て前記テキストデータ力変換された前記音声素片波形データを、前記ネットヮークを介して前記組込みマイコンの前記波形接続部に送信可能とし、当該組込みマイコンの前記音声変換処理部へ当該波形接続部から合成音声を受渡しするシステムに構築される、

ことを特徴とする請求項 1に記載の音声合成装置。

[7] 前記音声合成装置は、

別途配置された任意のパーソナルコンピュータに前記データ入力部が接続されて、前記テキスト解析部にて解析する前記テキストデータを当該パーソナルコンビユータカ取得可能に構成される一方、

前記音声変換処理部として別途配置された任意のスピーカに接続されて、前記波形接続部にて生成した前記合成音声データを当該スピーカにて音声出力可能に構成される、

ことを特徴とする請求項 1に記載の音声合成装置。

[8] 前記所定の音声単位は、

音素、単語、フレーズ、シラブルのうちの 1以上である、

ことを特徴とする請求項 1に記載の音声合成装置。

[9] 前記データ入力部と前記テキスト解析部は、

初期設定時のみ使用のパーソナルコンピュータに装備してシリアルデータを入力し表音記号データを出力する初期設定機能をそれぞれ有し、

前記韻律予測部と前記音声データベースと前記音声単位抽出部と前記波形接続部と前記音声変換処理部は、

その他の機器に組込み搭載される組込みマイコンに装備し、

前記パーソナルコンピュータを当該組込みマイコンに初期設定時のみ接続して、当該パーソナルコンピュータから出力した前記表音記号データを当該組込みマイコンの前記韻律予測部に入力するとともに、前記音声データベースに予め設定記録しておき、当該組込みマイコンに入力したシリアルデータを当該韻律予測部と当該音声データベースに直結する前記音声単位抽出部と前記波形接続部と前記音声変換処理部を順次経てアナログ出力する機能を有する、

ことを特徴とする請求項 1に記載の音声合成装置。

[10] 前記波形接続部と前記音声変換処理部は、

緊急警報用又は、案内、連絡用出力端末に組込みマイコンとして組込まれるとともに、

これら等を内蔵装備したセンター内パーソナルコンピュータとして、前記組込みマイコンとネットワークを介し一方向送信可能にシステム構築してなる、

ことを特徴とする請求項 1に記載の音声合成装置。

前記データ入力部及び前記テキスト解析部と初期設定後切り離して玩具やその他の機器に組込みマイコンとして組み込まれてなる、

ことを特徴とする請求項 1に記載の音声合成装置。