JPS6331800B2

JPS6331800B2 -

Info

Publication number: JPS6331800B2
Application number: JP55148768A
Authority: JP
Inventors: Ichiro Fujitaka
Original assignee: Nippon Electric Co Ltd
Current assignee: NEC Corp
Priority date: 1980-10-23
Filing date: 1980-10-23
Publication date: 1988-06-27
Also published as: JPS5772200A

Description

【発明の詳細な説明】本発明は、半導体素子を用いて音声を合成する
音声合成装置に関するものである。

音声波形を所定の時間間隔でサンプリングし
て、そのサンプリング点での振幅値をデイジタル
化して記憶する方式としては、PCM方式が周知
である。

この場合、一般に電話回線と同等のＳ／Ｎ比
（信号対雑音比）を得るには、各サンプリング点
での振幅をデイジタル化するには、そのデイジタ
ル情報として８ビツトで量子化されたデータが必
要である。しかしながら、この様なPCM方式で
は、音声データの記憶のために膨大なメモリ容量
を要するため、装置が高価になり汎用性に乏し
い。そこで、記憶データ量を少なくする（以下、
データの圧縮という）方式が提案されている。こ
れは合成すべき音声波形をPCMでコード化した
音声データ列を適当な時間幅（一般に数ms〜数
十ms）で分割（フレーム分割）し、各分割区分
毎にその区間内でのPCM量子化データのうち最
大値を求め、この最大値をフルスケールとする低
量子化ビツト数（３〜５ビツト）のデイジタルデ
ータに変換して、データ量を圧縮する方法であ
る。これは、一般に準瞬時圧伸方式と言われてい
る。

この方式の具体的方法を第１図及び第２図に基
づいて説明する。

第１図は合成すべき音声波形図である。一般の
PCMでは、例えばこの音声波形を所定の時間間
隔（数ms〜数十ms）でサンプリングして、各サ
ンプリング点での振巾値を８ビツトで量子化した
データ列に変換していた。従つて、サンプリング
数×８ビツト分のメモリ容量が音声波形用データ
として必要であつた。これに対して、準瞬時圧伸
方式では図中の縦線で示すように、波形全体を等
間隔の時間幅でフレーム分割するものである。下
付番号は分割した各フレームの番号である。この
中で第10フレーム（区間）の拡大図を第２図に示
す。図中縦線はデイジタル化のためのサンプリン
グ周期を示しており、ここでは１フレームを32分
割している。更に、このフレーム内の各サンプリ
ング点における音声波形（図中曲線）の振幅を３
ビツトでデイジタル量子化する。この場合、フレ
ーム内の振幅最大点Ａの値に着目して、それが３
ビツトでフルスケール（例えば「111」）となるよ
うに量子化幅：Ｄを設定する。そして、この量子
化幅：Ｄを基準として各サンプリング点での振幅
を量子化すれば、この第10フレームは正負の符号
を１ビツトとしても、各サンプリング点をわずか
４ビツトのデータ量で量子化できる。即ちPCM
方式に比べると約半分のメモリ容量でよいことが
わかる。

しかしながら、第１図の全音声波形を第２図に
示した第10フレームを基準とした量子化幅でデイ
ジタル化した場合、第１図中の第３フレームには
４ビツトで符号化できるフルスケールより振幅値
の大きい波形が存在しており、波形に忠実な符号
化ができなくなる危険性がある。又、第13，14フ
レームの様に波形振幅の変化の小さい部分では、
量子化幅が大きすぎるために振幅の変化がなくな
り、Ｓ／Ｎ比が極めて悪くなる。この結果満足の
いく音声の合成ができなくなり、著しい場合は音
の飛びが生じたりする欠点があつた。

準瞬時圧伸方式では、この欠点を除去するため
各フレーム毎にそのフレーム内での入力信号の最
大値を求め、各フレーム毎の最大値を基にして量
子化幅：Ｄを別々に設定していた。しかしなが
ら、この方式のデータ圧縮では、音声波形そのも
のの振幅値をデイジタル化したデータ列の他に、
各フレーム毎の量子化幅の大きさを指定するデー
タ列を用意しておかなければならなかつた。これ
は、合成装置でこの量子化幅指定データに基づい
て、各フレームの波形符号を復号するためであ
る。

従来、この種の準瞬時圧伸方式では各フレーム
の周期を等しく定めていた。これによつて、合成
装置では決つたタイミングで量子化幅：Ｄのデー
タを読み取ることができた。しかしながら、複数
の文章の音声データを同時に記憶しておき、任意
にいずれかを指定して再生する様な装置において
は、内容や、話し手、話す速さの変化によつて、
フレーム時間長が比較的長くても音質の劣化が少
ない文章と、短く設定しないと劣化が目立つ文章
とが混在する場合がある。この様な場合には、フ
レーム時間長を短かく設計すれば音質上の問題は
ないが、すべての文章を短いフレーム時間長でコ
ード化すると、フレームの数が著しく増加し、量
子化幅を指定するデータ量が大幅に増加するため
圧縮率が低下するという欠点を生じてしまう。更
に、フレームによつてはサンプリング数を少なく
しても良質の音声を合成できるものもあるが、従
来の音声合成装置はサンプリング数の変化を認識
することができないため、合成すべき音声データ
は最もサンプリング数の多いフレームで一義的に
固定されてしまい、無駄なデータ量を費さなけれ
ばならなかつた。

本発明の目的は、少ないメモリ容量で音質の優
れた音声を合成する装置を提供することである。

本発明の他の目的は、フレーム周期の異なる音
声データ、換言すれば各量子化幅データで規定さ
れる音声波形の振幅値データの数（サンプリング
数）が異なる音声データをもとにして、円滑にか
つ容易に音声を合成する装置を提供することであ
る。

本発明の更に他の目的は、準瞬時圧伸方式でコ
ード化される音声データの量を減少できる音声合
成装置を提供することである。

本発明の音声合成装置は、合成すべき音声波形
を複数のブロツクに分割して、各ブロツク化され
た音声波形の振幅を任意の時間間隔でサンプリン
グし、サンプリングされた振幅値を複数の倍率で
量子化した第１のデータと、前記複数の倍率を示
す第２のデータと、前記サンプリングの数もしく
は前記各ブロツクの時間長を規定する第３のデー
タとを含む記憶部と、この記憶部から前記第３の
データを読み出して、該第３のデータで規定され
た時間もしくはサンプリング数の間、前記第２の
データの１つと前記第１のデータとを乗算して音
声信号を発生する音声合成部とを有することを特
徴とする。

この発明によれば記憶部に設定された第３のデ
ータ、即ち各ブロツク内のサンプリング数もしく
は時間長データを音声合成部において認識でき
る。そのため、ブロツク内のサンプリング数もし
くはその時間長が変化するような音声波形データ
であつても、それに応じて第２のデータと第１の
データとの乗算を行なうことができる。従つて、
サンプリング数もしくは時間長の異なる音声波形
の振幅データを任意の倍率（量子化幅）でメモリ
内に設定しておいても、正確に音声信号を発生す
ることができる。この結果、合成すべき音声に応
じて任意にその音声波形のサンプリング周期を選
択でき、最小限のデータ容量で波形変化の大きい
音声も小さい音声も自由に合成することが可能と
なる。

尚、第３のデータは文章単位、文節単位、単語
単位、あるいは音節（音素）単位等のうちどの単
位毎に用意してもよい。換言すれば、第１のデー
タ（振幅値量子化データ）と第２のデータ（量子
化幅データ）との組み合わせ（乗算）は文章単
位、文節単位、単語単位、あるいは音節単位のう
ちどの単位ででも行なうことができる。又、第１
のデータとしては各サンプリング点での振幅値を
そのまま量子化したデータ（PCMデータ）でも
よいが、前のデータもしくは所定のデータと現在
のデータとの差を示すデータ（DPCMデータ）
であつてもよい。

以下に、図面を参照して本発明の好適な一実施
例を詳細に説明する。

第３図は本発明の一実施例を示す音声合成装置
のブロツク図である。この装置は、後に詳述する
ように第４図〜第６図に示す音成合成用データ列
が各アドレス値に用意されているメモリ（これは
一般のROMでよい）３と、合成すべき音声（文
章、文節、単語、音節等）を指定する入力部１
と、メモリ３のアドレスを指定するアドレス指定
部４と、メモリ３内に設定されている音声波形の
各サンプリング点での振幅値量子化データの倍率
（量子化幅データ）が設定される量子化幅指定部
１１と、この量子化幅データと振幅値量子化デー
タとの乗算を行ないデイジタル音声信号を合成す
る演算部と、その合成出力をアナログ値に変換す
るデイジタル―アナログ変換器１３と、その出力
に基づいて合成された音声を発生する音声出力部
と、演算部１２において乗算される振幅値量子化
データと量子化幅データとの乗算回数を指定する
データ（前記第３のデータ）を保持するフレーム
情報保持部５と、そのデータを計数する計数部６
とを含む。

この合成装置の動作は以下の様になる。尚、こ
こでは文章の合成について述べる。入力部１から
制御部（例えばマイクロプロセツサ等）２に合成
すべき文章の指定が行なわれると、制御部２は指
定された文章のデータ列が格納されているメモリ
３の先頭番地を、内部バス７を通してアドレス指
定部４（これはプログラマブルカウンタでもよ
い）にセツトする。セツトされたアドレスはアド
レスバス８へ送られ、メモリ３から該アドレスに
記憶されているデータがデータバス９に出力され
る。この時のデータは以下に詳述するフレーム時
間長データであつて、制御部２はデータバス９上
のこのデータをフレーム情報保持部５（これは通
常のレジスタでよい）にセツトする。更に制御部
２はフレーム情報保持部５のデータを計数部６
（これは減算もしくは加算カウンタでよいが、フ
レーム時間長データで指定された時間経過後、そ
の指示信号（ボローもしくはキヤリー信号）を制
御部２に転送できればよい）にセツトする。

以後、文章データの音声合成作業が制御部２か
ら送り出されるクロツク１０により順次進められ
る。クロツク１０によつてアドレス指定部４のア
ドレス内容が＋１インクリメントされ、メモリ３
からは次のアドレスに記憶されているデータ（前
記第２のデータであり、これは量子化幅データ）
が読出され、量子化幅指定部１１のレジスタにセ
ツトされる。更に以下のクロツク１０でメモリ３
から波形データを示す振幅値量子化データが順次
読み出される。これらのデータは、演算部１２で
量子化幅データと乗算されて、各サンプリング点
でのデイジタル音声信号が合成され、Ｄ／Ａコン
バータ１３でアナログ音声出力に変換されて音声
出力部１４に送られる。

ここで、メモリ３に記憶すべき音声合成用デー
タ列を第４図を参照して以下に説明する。メモリ
３内に記憶させるべきデータとして必要なもの
は、前述した様に１つの文章区域内での音声波形
が所定の時間間隔で分割（フレーム分割）され、
各フレーム内でサンプリングされた音声波形の振
幅値量子化データ（第１のデータ）と、各フレー
ム毎にそのフレーム内で量子化された振幅値デー
タの倍率（量子化幅）を示すデータ（第２のデー
タ）、それに各フレーム内でのサンプリング点数
もしくは時間長を指示するフレーム情報データ
（第３のデータ）である。このうち、第１及び第
２のデータは第２図に示すような従来の波形解析
から得られるデータでよい。これらのデータは第
４図に示すようにメモリ３のあるアドレス空間
A₀，A₁…，A_oに設定される。第４図では、アド
レスA₀〜A_oの空間に２つの文章S₁，S₂が設定さ
れている。第１の文章S₁はその波形がｍ個のフレ
ームf₁〜f_nに分割され、かつ各フレーム内の波形
データはｎ回のサンプリング点数（W₁₀〜W_1o，
W₂₀〜W_2o，…，W_n0〜W_no）で振幅値がサンプ
リングされている。又、各フレーム内での波形デ
ータ（第１のデータ）の前にはその量子化幅デー
タD₁₀，D₂₀，…，D_n0が設定されており、この量
子化幅データと波形データ（振幅値量子化デー
タ）とで１フレームを構成している。更に、注目
すべきは、この文章S₁の先頭アドレスA₀には各
フレーム内でのアドレス数（これはフレームの時
間長もしくは１フレーム内に記憶されるデータ
（第１のデータ＋第２のデータ）の数を示す）が、
データF₁₀として設定されていることである。加
えて、文章S₁の終了にはそれを示す終了データ
E₁₀が設定される。勿論、量子化幅データＤは各
フレーム毎に異なつていてもよい。又、フレーム
数及びサンプリング数は文章の種類によつて異な
つてもよい。一例として挙げると、フレーム周期
を4ms〜40ms，サンプリング数を10〜数100個と
すればほぼ自然音に近い音声を合成するのに十分
なデータが得られた。一方、文章S₂は前記の文章
S₁に比べて各フレーム内でのアドレス数（サンプ
リング数）が少ない文章を示している。従つて、
文章S₁とS₂とでは、量子化幅データＤの読み出さ
れる周期が違つている。これは、文章S₂は文章S₁
に比べてフレーム内でのサンプリング数が少なく
ても良質の音声を合成できる文章であることを示
している。例えば波形の変化率が小さく比較的単
調な音声はS₂のようなデータ列でよい。

以上のようなデータ列をメモリ３に設定すれ
ば、文章S₁の音声を合成する時、入力部１からの
最初の指定で読み出されるフレーム長データF₁₀
はフレーム情報指定部５に設定され、その数値デ
ータが計数部６にセツトされ、アドレス指定部
（カウンタ）４をカウントアツプするクロツク１
０で同時にカウントされ、オーバーフロー（もし
くはボロー）が生じると、オーバーフロー信号
（もしくはボロー信号）が制御部２に送られる。
この信号が出力されるまでは、第１のフレームf₁
の量子化幅データD₁₀と波形データW₁₀〜W_1oが
順次読み出されて、各波形データW₁₀〜W_1oと量
子化幅データD₁₀とが演算部１２で乗算される。
この結果は、順次音声信号としてＤ／Ａコンバー
タ１３を介して音声出力部１４へ取り出される。
今、オーバーフロ信号（もしくはキヤリー信号）
が出力されると、制御部２はこの信号によつて、
設定されたフレーム時間長の終了を知り、フレー
ム情報保持部５に保持されているデータF₁₀を計
数部６に再セツトして次のフレームf₂の復号処理
へ進む。この様にして、文章S₁の最後フレームf_n
までの音声合成処理が完了すると、終了データ
E₁₀が読み出され、フレーム情報保持部５内のデ
ータF₁₀はリセツトされ、次の文章の音声合成指
示を待つ。この後、入力部１から文章S₂を指示す
る信号が入力されると、前述と同様の動作で、音
声合成が実行される。ここでは、フレーム長が前
記と異なるが、これは計数部６で正確に制御され
るので、各フレームf′₁〜f′_nでの量子化幅データ
D₂₀₀〜D_n00は所定のタイミング（計数部６からの
オーバーフロー信号に応答する）で量子化幅指定
部１１に取り込まれる。尚、乗算演算としては例
えばシフトレジスタ機能を持たせて、量子化幅デ
ータに応じて波形データ（振幅値量子化データ）
を桁上げすればよい。

以上説明したように本実施例によれば、音声デ
ータメモリ３の内部に各文章毎にフレーム時間長
Ｆを決定するパラメータを格納しておく事によつ
て、複数の文章を最適のフレーム数及びフレーム
内サンプリング数で量子化することができる。こ
の結果、必要な音質を得るためのデータ量が不必
要に増加する事を防止できるとともに、単にメモ
リを差し換えるだけで様々な音声を合成すること
が可能となり汎用性及び量産性が大幅に向上す
る。

又、以上の説明では音声波形そのもののデータ
を準瞬時圧伸方式に従つて波形解析して記憶する
ことを述べたが、現音声波形データとその近接デ
ータとの差分値を用いた、DPCMと呼ばれる音
声記憶方式を採用しても全く同様の効果が得られ
ることは明らかである。

更に、メモリ３へのデータ格納方式は、第５図
〜第６図に示すようなデータ列であつてもよい。
即ち、第５図はフレーム長データF₁〜F_o、量子
化幅データD₁〜D_o、フレーム毎の波形データ
（振幅値量子化データ）W₁₀〜E₁₀，W₂₀〜E₂₀，…
を夫々まとまつたアドレス空間（テーブル）T₁，
T₂，T₃に設定しておいてもよい。この場合には、
所謂テーブル参照命令を使用することができ、ソ
フトウエア制御が非常に簡単になる。特に、プロ
グラムの組み方次第で、任意に各テーブル内のデ
ータ同志の選択が可能となり楽器音等の音声出力
の高さや大きさ等を自由に変化させることができ
る。更に、第６図に示すようにフレーム長データ
F₁〜F_oだけを量子化幅データＤと波形データと
のアドレス空間から分離させてもよい。ここで、
S₁₀，S₂₀は夫々異なる文章の列を示す。尚、量子
化幅データＤだけを別のテーブルに設定しておい
ても勿論差し支えない。この様に、各データをテ
ーブルで分類するようにすれば、異なる波形デー
タ、即ち異なるフレームで同一の量子化幅データ
やフレーム長データを共用させて、データ容量を
更に縮減することもできる。更に、第３図におい
て示したフレーム情報保持部５と計数部６とはハ
ードウエアで構成してもよいが、加算もしくは減
算機能をもつ論理演算部とRAMとを用いたソフ
トウエアカウンタで代用することもできる。又、
PCM符号化合成、DPCM符号化合成の外、LPC
（線型予測符号化）方式、ADM（適合デルタ変
調）方式等を用いて解析された音声データに対し
ても、それらのデータ列を上述の如くメモリ３に
設定することにより音声を合成することは、本発
明の応用として可能である。

【図面の簡単な説明】

第１図はフレーム分割された音声波形図、第２
図は第１図中の１つのフレーム内のデータを準瞬
時圧伸方式にて量子化した特性図、第３図は本発
明の一実施例を示すブロツク図、第４図〜第６図
は夫々データ記憶部に設定されたデータ列を示す
メモリの状態図である。１……入力部、２……制御部、３……メモリ、
４……アドレス指定部、５……フレーム情報保持
部、６……計数部、７……内部バス、８……アド
レスバス、９……データバス、１０……クロツ
ク、１１……量子化幅指定部、１２……演算回
路、１３……Ｄ／Ａコンバータ、１４……音声出
力部。

Claims

【特許請求の範囲】

１合成すべき音声波形をブロツク化し、各ブロ
ツク内での振幅値を所定の倍率で量子化した第１
のデータ群と、前記倍率を示す情報をコード化し
た第２のデータ群とを有する記憶部と、該記憶部
に格納されている前記第１のデータ群および第２
のデータ群を読み出して、これらを乗算すること
により音声情報を作成する音声合成部とを有する
音声合成装置において、前記記憶部に第３のデー
タとしてフレーム情報を記憶せしめ、該フレーム
情報によつて規定される期間前記記憶部から読み
出された複数のデータを前記第１のデータ群内の
データであると判定し、これらのデータすべてと
前記第２のデータ群内の選択された１つのデータ
とを順次乗算して指定されたフレーム内での音声
合成を行い、前記フレーム情報を変更することに
よつてフレーム期間を変化できるようにしたこと
を特徴とする音声合成装置。