JPS6331800B2 - - Google Patents
Info
- Publication number
- JPS6331800B2 JPS6331800B2 JP55148768A JP14876880A JPS6331800B2 JP S6331800 B2 JPS6331800 B2 JP S6331800B2 JP 55148768 A JP55148768 A JP 55148768A JP 14876880 A JP14876880 A JP 14876880A JP S6331800 B2 JPS6331800 B2 JP S6331800B2
- Authority
- JP
- Japan
- Prior art keywords
- data
- frame
- waveform
- audio
- quantization width
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired
Links
- 230000015572 biosynthetic process Effects 0.000 claims description 20
- 238000003786 synthesis reaction Methods 0.000 claims description 20
- 238000013139 quantization Methods 0.000 description 35
- 238000005070 sampling Methods 0.000 description 26
- 238000000034 method Methods 0.000 description 22
- 238000010586 diagram Methods 0.000 description 6
- 230000005236 sound signal Effects 0.000 description 5
- 230000002194 synthesizing effect Effects 0.000 description 3
- 238000004364 calculation method Methods 0.000 description 2
- 238000013144 data compression Methods 0.000 description 2
- 238000013500 data storage Methods 0.000 description 2
- 230000006866 deterioration Effects 0.000 description 2
- 230000006870 function Effects 0.000 description 2
- 239000000203 mixture Substances 0.000 description 2
- 230000003044 adaptive effect Effects 0.000 description 1
- 238000007906 compression Methods 0.000 description 1
- 230000006835 compression Effects 0.000 description 1
- 238000007796 conventional method Methods 0.000 description 1
- 230000007423 decrease Effects 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 230000004044 response Effects 0.000 description 1
- 230000000717 retained effect Effects 0.000 description 1
- 239000004065 semiconductor Substances 0.000 description 1
Description
【発明の詳細な説明】
本発明は、半導体素子を用いて音声を合成する
音声合成装置に関するものである。
音声合成装置に関するものである。
音声波形を所定の時間間隔でサンプリングし
て、そのサンプリング点での振幅値をデイジタル
化して記憶する方式としては、PCM方式が周知
である。
て、そのサンプリング点での振幅値をデイジタル
化して記憶する方式としては、PCM方式が周知
である。
この場合、一般に電話回線と同等のS/N比
(信号対雑音比)を得るには、各サンプリング点
での振幅をデイジタル化するには、そのデイジタ
ル情報として8ビツトで量子化されたデータが必
要である。しかしながら、この様なPCM方式で
は、音声データの記憶のために膨大なメモリ容量
を要するため、装置が高価になり汎用性に乏し
い。そこで、記憶データ量を少なくする(以下、
データの圧縮という)方式が提案されている。こ
れは合成すべき音声波形をPCMでコード化した
音声データ列を適当な時間幅(一般に数ms〜数
十ms)で分割(フレーム分割)し、各分割区分
毎にその区間内でのPCM量子化データのうち最
大値を求め、この最大値をフルスケールとする低
量子化ビツト数(3〜5ビツト)のデイジタルデ
ータに変換して、データ量を圧縮する方法であ
る。これは、一般に準瞬時圧伸方式と言われてい
る。
(信号対雑音比)を得るには、各サンプリング点
での振幅をデイジタル化するには、そのデイジタ
ル情報として8ビツトで量子化されたデータが必
要である。しかしながら、この様なPCM方式で
は、音声データの記憶のために膨大なメモリ容量
を要するため、装置が高価になり汎用性に乏し
い。そこで、記憶データ量を少なくする(以下、
データの圧縮という)方式が提案されている。こ
れは合成すべき音声波形をPCMでコード化した
音声データ列を適当な時間幅(一般に数ms〜数
十ms)で分割(フレーム分割)し、各分割区分
毎にその区間内でのPCM量子化データのうち最
大値を求め、この最大値をフルスケールとする低
量子化ビツト数(3〜5ビツト)のデイジタルデ
ータに変換して、データ量を圧縮する方法であ
る。これは、一般に準瞬時圧伸方式と言われてい
る。
この方式の具体的方法を第1図及び第2図に基
づいて説明する。
づいて説明する。
第1図は合成すべき音声波形図である。一般の
PCMでは、例えばこの音声波形を所定の時間間
隔(数ms〜数十ms)でサンプリングして、各サ
ンプリング点での振巾値を8ビツトで量子化した
データ列に変換していた。従つて、サンプリング
数×8ビツト分のメモリ容量が音声波形用データ
として必要であつた。これに対して、準瞬時圧伸
方式では図中の縦線で示すように、波形全体を等
間隔の時間幅でフレーム分割するものである。下
付番号は分割した各フレームの番号である。この
中で第10フレーム(区間)の拡大図を第2図に示
す。図中縦線はデイジタル化のためのサンプリン
グ周期を示しており、ここでは1フレームを32分
割している。更に、このフレーム内の各サンプリ
ング点における音声波形(図中曲線)の振幅を3
ビツトでデイジタル量子化する。この場合、フレ
ーム内の振幅最大点Aの値に着目して、それが3
ビツトでフルスケール(例えば「111」)となるよ
うに量子化幅:Dを設定する。そして、この量子
化幅:Dを基準として各サンプリング点での振幅
を量子化すれば、この第10フレームは正負の符号
を1ビツトとしても、各サンプリング点をわずか
4ビツトのデータ量で量子化できる。即ちPCM
方式に比べると約半分のメモリ容量でよいことが
わかる。
PCMでは、例えばこの音声波形を所定の時間間
隔(数ms〜数十ms)でサンプリングして、各サ
ンプリング点での振巾値を8ビツトで量子化した
データ列に変換していた。従つて、サンプリング
数×8ビツト分のメモリ容量が音声波形用データ
として必要であつた。これに対して、準瞬時圧伸
方式では図中の縦線で示すように、波形全体を等
間隔の時間幅でフレーム分割するものである。下
付番号は分割した各フレームの番号である。この
中で第10フレーム(区間)の拡大図を第2図に示
す。図中縦線はデイジタル化のためのサンプリン
グ周期を示しており、ここでは1フレームを32分
割している。更に、このフレーム内の各サンプリ
ング点における音声波形(図中曲線)の振幅を3
ビツトでデイジタル量子化する。この場合、フレ
ーム内の振幅最大点Aの値に着目して、それが3
ビツトでフルスケール(例えば「111」)となるよ
うに量子化幅:Dを設定する。そして、この量子
化幅:Dを基準として各サンプリング点での振幅
を量子化すれば、この第10フレームは正負の符号
を1ビツトとしても、各サンプリング点をわずか
4ビツトのデータ量で量子化できる。即ちPCM
方式に比べると約半分のメモリ容量でよいことが
わかる。
しかしながら、第1図の全音声波形を第2図に
示した第10フレームを基準とした量子化幅でデイ
ジタル化した場合、第1図中の第3フレームには
4ビツトで符号化できるフルスケールより振幅値
の大きい波形が存在しており、波形に忠実な符号
化ができなくなる危険性がある。又、第13,14フ
レームの様に波形振幅の変化の小さい部分では、
量子化幅が大きすぎるために振幅の変化がなくな
り、S/N比が極めて悪くなる。この結果満足の
いく音声の合成ができなくなり、著しい場合は音
の飛びが生じたりする欠点があつた。
示した第10フレームを基準とした量子化幅でデイ
ジタル化した場合、第1図中の第3フレームには
4ビツトで符号化できるフルスケールより振幅値
の大きい波形が存在しており、波形に忠実な符号
化ができなくなる危険性がある。又、第13,14フ
レームの様に波形振幅の変化の小さい部分では、
量子化幅が大きすぎるために振幅の変化がなくな
り、S/N比が極めて悪くなる。この結果満足の
いく音声の合成ができなくなり、著しい場合は音
の飛びが生じたりする欠点があつた。
準瞬時圧伸方式では、この欠点を除去するため
各フレーム毎にそのフレーム内での入力信号の最
大値を求め、各フレーム毎の最大値を基にして量
子化幅:Dを別々に設定していた。しかしなが
ら、この方式のデータ圧縮では、音声波形そのも
のの振幅値をデイジタル化したデータ列の他に、
各フレーム毎の量子化幅の大きさを指定するデー
タ列を用意しておかなければならなかつた。これ
は、合成装置でこの量子化幅指定データに基づい
て、各フレームの波形符号を復号するためであ
る。
各フレーム毎にそのフレーム内での入力信号の最
大値を求め、各フレーム毎の最大値を基にして量
子化幅:Dを別々に設定していた。しかしなが
ら、この方式のデータ圧縮では、音声波形そのも
のの振幅値をデイジタル化したデータ列の他に、
各フレーム毎の量子化幅の大きさを指定するデー
タ列を用意しておかなければならなかつた。これ
は、合成装置でこの量子化幅指定データに基づい
て、各フレームの波形符号を復号するためであ
る。
従来、この種の準瞬時圧伸方式では各フレーム
の周期を等しく定めていた。これによつて、合成
装置では決つたタイミングで量子化幅:Dのデー
タを読み取ることができた。しかしながら、複数
の文章の音声データを同時に記憶しておき、任意
にいずれかを指定して再生する様な装置において
は、内容や、話し手、話す速さの変化によつて、
フレーム時間長が比較的長くても音質の劣化が少
ない文章と、短く設定しないと劣化が目立つ文章
とが混在する場合がある。この様な場合には、フ
レーム時間長を短かく設計すれば音質上の問題は
ないが、すべての文章を短いフレーム時間長でコ
ード化すると、フレームの数が著しく増加し、量
子化幅を指定するデータ量が大幅に増加するため
圧縮率が低下するという欠点を生じてしまう。更
に、フレームによつてはサンプリング数を少なく
しても良質の音声を合成できるものもあるが、従
来の音声合成装置はサンプリング数の変化を認識
することができないため、合成すべき音声データ
は最もサンプリング数の多いフレームで一義的に
固定されてしまい、無駄なデータ量を費さなけれ
ばならなかつた。
の周期を等しく定めていた。これによつて、合成
装置では決つたタイミングで量子化幅:Dのデー
タを読み取ることができた。しかしながら、複数
の文章の音声データを同時に記憶しておき、任意
にいずれかを指定して再生する様な装置において
は、内容や、話し手、話す速さの変化によつて、
フレーム時間長が比較的長くても音質の劣化が少
ない文章と、短く設定しないと劣化が目立つ文章
とが混在する場合がある。この様な場合には、フ
レーム時間長を短かく設計すれば音質上の問題は
ないが、すべての文章を短いフレーム時間長でコ
ード化すると、フレームの数が著しく増加し、量
子化幅を指定するデータ量が大幅に増加するため
圧縮率が低下するという欠点を生じてしまう。更
に、フレームによつてはサンプリング数を少なく
しても良質の音声を合成できるものもあるが、従
来の音声合成装置はサンプリング数の変化を認識
することができないため、合成すべき音声データ
は最もサンプリング数の多いフレームで一義的に
固定されてしまい、無駄なデータ量を費さなけれ
ばならなかつた。
本発明の目的は、少ないメモリ容量で音質の優
れた音声を合成する装置を提供することである。
れた音声を合成する装置を提供することである。
本発明の他の目的は、フレーム周期の異なる音
声データ、換言すれば各量子化幅データで規定さ
れる音声波形の振幅値データの数(サンプリング
数)が異なる音声データをもとにして、円滑にか
つ容易に音声を合成する装置を提供することであ
る。
声データ、換言すれば各量子化幅データで規定さ
れる音声波形の振幅値データの数(サンプリング
数)が異なる音声データをもとにして、円滑にか
つ容易に音声を合成する装置を提供することであ
る。
本発明の更に他の目的は、準瞬時圧伸方式でコ
ード化される音声データの量を減少できる音声合
成装置を提供することである。
ード化される音声データの量を減少できる音声合
成装置を提供することである。
本発明の音声合成装置は、合成すべき音声波形
を複数のブロツクに分割して、各ブロツク化され
た音声波形の振幅を任意の時間間隔でサンプリン
グし、サンプリングされた振幅値を複数の倍率で
量子化した第1のデータと、前記複数の倍率を示
す第2のデータと、前記サンプリングの数もしく
は前記各ブロツクの時間長を規定する第3のデー
タとを含む記憶部と、この記憶部から前記第3の
データを読み出して、該第3のデータで規定され
た時間もしくはサンプリング数の間、前記第2の
データの1つと前記第1のデータとを乗算して音
声信号を発生する音声合成部とを有することを特
徴とする。
を複数のブロツクに分割して、各ブロツク化され
た音声波形の振幅を任意の時間間隔でサンプリン
グし、サンプリングされた振幅値を複数の倍率で
量子化した第1のデータと、前記複数の倍率を示
す第2のデータと、前記サンプリングの数もしく
は前記各ブロツクの時間長を規定する第3のデー
タとを含む記憶部と、この記憶部から前記第3の
データを読み出して、該第3のデータで規定され
た時間もしくはサンプリング数の間、前記第2の
データの1つと前記第1のデータとを乗算して音
声信号を発生する音声合成部とを有することを特
徴とする。
この発明によれば記憶部に設定された第3のデ
ータ、即ち各ブロツク内のサンプリング数もしく
は時間長データを音声合成部において認識でき
る。そのため、ブロツク内のサンプリング数もし
くはその時間長が変化するような音声波形データ
であつても、それに応じて第2のデータと第1の
データとの乗算を行なうことができる。従つて、
サンプリング数もしくは時間長の異なる音声波形
の振幅データを任意の倍率(量子化幅)でメモリ
内に設定しておいても、正確に音声信号を発生す
ることができる。この結果、合成すべき音声に応
じて任意にその音声波形のサンプリング周期を選
択でき、最小限のデータ容量で波形変化の大きい
音声も小さい音声も自由に合成することが可能と
なる。
ータ、即ち各ブロツク内のサンプリング数もしく
は時間長データを音声合成部において認識でき
る。そのため、ブロツク内のサンプリング数もし
くはその時間長が変化するような音声波形データ
であつても、それに応じて第2のデータと第1の
データとの乗算を行なうことができる。従つて、
サンプリング数もしくは時間長の異なる音声波形
の振幅データを任意の倍率(量子化幅)でメモリ
内に設定しておいても、正確に音声信号を発生す
ることができる。この結果、合成すべき音声に応
じて任意にその音声波形のサンプリング周期を選
択でき、最小限のデータ容量で波形変化の大きい
音声も小さい音声も自由に合成することが可能と
なる。
尚、第3のデータは文章単位、文節単位、単語
単位、あるいは音節(音素)単位等のうちどの単
位毎に用意してもよい。換言すれば、第1のデー
タ(振幅値量子化データ)と第2のデータ(量子
化幅データ)との組み合わせ(乗算)は文章単
位、文節単位、単語単位、あるいは音節単位のう
ちどの単位ででも行なうことができる。又、第1
のデータとしては各サンプリング点での振幅値を
そのまま量子化したデータ(PCMデータ)でも
よいが、前のデータもしくは所定のデータと現在
のデータとの差を示すデータ(DPCMデータ)
であつてもよい。
単位、あるいは音節(音素)単位等のうちどの単
位毎に用意してもよい。換言すれば、第1のデー
タ(振幅値量子化データ)と第2のデータ(量子
化幅データ)との組み合わせ(乗算)は文章単
位、文節単位、単語単位、あるいは音節単位のう
ちどの単位ででも行なうことができる。又、第1
のデータとしては各サンプリング点での振幅値を
そのまま量子化したデータ(PCMデータ)でも
よいが、前のデータもしくは所定のデータと現在
のデータとの差を示すデータ(DPCMデータ)
であつてもよい。
以下に、図面を参照して本発明の好適な一実施
例を詳細に説明する。
例を詳細に説明する。
第3図は本発明の一実施例を示す音声合成装置
のブロツク図である。この装置は、後に詳述する
ように第4図〜第6図に示す音成合成用データ列
が各アドレス値に用意されているメモリ(これは
一般のROMでよい)3と、合成すべき音声(文
章、文節、単語、音節等)を指定する入力部1
と、メモリ3のアドレスを指定するアドレス指定
部4と、メモリ3内に設定されている音声波形の
各サンプリング点での振幅値量子化データの倍率
(量子化幅データ)が設定される量子化幅指定部
11と、この量子化幅データと振幅値量子化デー
タとの乗算を行ないデイジタル音声信号を合成す
る演算部と、その合成出力をアナログ値に変換す
るデイジタル―アナログ変換器13と、その出力
に基づいて合成された音声を発生する音声出力部
と、演算部12において乗算される振幅値量子化
データと量子化幅データとの乗算回数を指定する
データ(前記第3のデータ)を保持するフレーム
情報保持部5と、そのデータを計数する計数部6
とを含む。
のブロツク図である。この装置は、後に詳述する
ように第4図〜第6図に示す音成合成用データ列
が各アドレス値に用意されているメモリ(これは
一般のROMでよい)3と、合成すべき音声(文
章、文節、単語、音節等)を指定する入力部1
と、メモリ3のアドレスを指定するアドレス指定
部4と、メモリ3内に設定されている音声波形の
各サンプリング点での振幅値量子化データの倍率
(量子化幅データ)が設定される量子化幅指定部
11と、この量子化幅データと振幅値量子化デー
タとの乗算を行ないデイジタル音声信号を合成す
る演算部と、その合成出力をアナログ値に変換す
るデイジタル―アナログ変換器13と、その出力
に基づいて合成された音声を発生する音声出力部
と、演算部12において乗算される振幅値量子化
データと量子化幅データとの乗算回数を指定する
データ(前記第3のデータ)を保持するフレーム
情報保持部5と、そのデータを計数する計数部6
とを含む。
この合成装置の動作は以下の様になる。尚、こ
こでは文章の合成について述べる。入力部1から
制御部(例えばマイクロプロセツサ等)2に合成
すべき文章の指定が行なわれると、制御部2は指
定された文章のデータ列が格納されているメモリ
3の先頭番地を、内部バス7を通してアドレス指
定部4(これはプログラマブルカウンタでもよ
い)にセツトする。セツトされたアドレスはアド
レスバス8へ送られ、メモリ3から該アドレスに
記憶されているデータがデータバス9に出力され
る。この時のデータは以下に詳述するフレーム時
間長データであつて、制御部2はデータバス9上
のこのデータをフレーム情報保持部5(これは通
常のレジスタでよい)にセツトする。更に制御部
2はフレーム情報保持部5のデータを計数部6
(これは減算もしくは加算カウンタでよいが、フ
レーム時間長データで指定された時間経過後、そ
の指示信号(ボローもしくはキヤリー信号)を制
御部2に転送できればよい)にセツトする。
こでは文章の合成について述べる。入力部1から
制御部(例えばマイクロプロセツサ等)2に合成
すべき文章の指定が行なわれると、制御部2は指
定された文章のデータ列が格納されているメモリ
3の先頭番地を、内部バス7を通してアドレス指
定部4(これはプログラマブルカウンタでもよ
い)にセツトする。セツトされたアドレスはアド
レスバス8へ送られ、メモリ3から該アドレスに
記憶されているデータがデータバス9に出力され
る。この時のデータは以下に詳述するフレーム時
間長データであつて、制御部2はデータバス9上
のこのデータをフレーム情報保持部5(これは通
常のレジスタでよい)にセツトする。更に制御部
2はフレーム情報保持部5のデータを計数部6
(これは減算もしくは加算カウンタでよいが、フ
レーム時間長データで指定された時間経過後、そ
の指示信号(ボローもしくはキヤリー信号)を制
御部2に転送できればよい)にセツトする。
以後、文章データの音声合成作業が制御部2か
ら送り出されるクロツク10により順次進められ
る。クロツク10によつてアドレス指定部4のア
ドレス内容が+1インクリメントされ、メモリ3
からは次のアドレスに記憶されているデータ(前
記第2のデータであり、これは量子化幅データ)
が読出され、量子化幅指定部11のレジスタにセ
ツトされる。更に以下のクロツク10でメモリ3
から波形データを示す振幅値量子化データが順次
読み出される。これらのデータは、演算部12で
量子化幅データと乗算されて、各サンプリング点
でのデイジタル音声信号が合成され、D/Aコン
バータ13でアナログ音声出力に変換されて音声
出力部14に送られる。
ら送り出されるクロツク10により順次進められ
る。クロツク10によつてアドレス指定部4のア
ドレス内容が+1インクリメントされ、メモリ3
からは次のアドレスに記憶されているデータ(前
記第2のデータであり、これは量子化幅データ)
が読出され、量子化幅指定部11のレジスタにセ
ツトされる。更に以下のクロツク10でメモリ3
から波形データを示す振幅値量子化データが順次
読み出される。これらのデータは、演算部12で
量子化幅データと乗算されて、各サンプリング点
でのデイジタル音声信号が合成され、D/Aコン
バータ13でアナログ音声出力に変換されて音声
出力部14に送られる。
ここで、メモリ3に記憶すべき音声合成用デー
タ列を第4図を参照して以下に説明する。メモリ
3内に記憶させるべきデータとして必要なもの
は、前述した様に1つの文章区域内での音声波形
が所定の時間間隔で分割(フレーム分割)され、
各フレーム内でサンプリングされた音声波形の振
幅値量子化データ(第1のデータ)と、各フレー
ム毎にそのフレーム内で量子化された振幅値デー
タの倍率(量子化幅)を示すデータ(第2のデー
タ)、それに各フレーム内でのサンプリング点数
もしくは時間長を指示するフレーム情報データ
(第3のデータ)である。このうち、第1及び第
2のデータは第2図に示すような従来の波形解析
から得られるデータでよい。これらのデータは第
4図に示すようにメモリ3のあるアドレス空間
A0,A1…,Aoに設定される。第4図では、アド
レスA0〜Aoの空間に2つの文章S1,S2が設定さ
れている。第1の文章S1はその波形がm個のフレ
ームf1〜fnに分割され、かつ各フレーム内の波形
データはn回のサンプリング点数(W10〜W1o,
W20〜W2o,…,Wn0〜Wno)で振幅値がサンプ
リングされている。又、各フレーム内での波形デ
ータ(第1のデータ)の前にはその量子化幅デー
タD10,D20,…,Dn0が設定されており、この量
子化幅データと波形データ(振幅値量子化デー
タ)とで1フレームを構成している。更に、注目
すべきは、この文章S1の先頭アドレスA0には各
フレーム内でのアドレス数(これはフレームの時
間長もしくは1フレーム内に記憶されるデータ
(第1のデータ+第2のデータ)の数を示す)が、
データF10として設定されていることである。加
えて、文章S1の終了にはそれを示す終了データ
E10が設定される。勿論、量子化幅データDは各
フレーム毎に異なつていてもよい。又、フレーム
数及びサンプリング数は文章の種類によつて異な
つてもよい。一例として挙げると、フレーム周期
を4ms〜40ms,サンプリング数を10〜数100個と
すればほぼ自然音に近い音声を合成するのに十分
なデータが得られた。一方、文章S2は前記の文章
S1に比べて各フレーム内でのアドレス数(サンプ
リング数)が少ない文章を示している。従つて、
文章S1とS2とでは、量子化幅データDの読み出さ
れる周期が違つている。これは、文章S2は文章S1
に比べてフレーム内でのサンプリング数が少なく
ても良質の音声を合成できる文章であることを示
している。例えば波形の変化率が小さく比較的単
調な音声はS2のようなデータ列でよい。
タ列を第4図を参照して以下に説明する。メモリ
3内に記憶させるべきデータとして必要なもの
は、前述した様に1つの文章区域内での音声波形
が所定の時間間隔で分割(フレーム分割)され、
各フレーム内でサンプリングされた音声波形の振
幅値量子化データ(第1のデータ)と、各フレー
ム毎にそのフレーム内で量子化された振幅値デー
タの倍率(量子化幅)を示すデータ(第2のデー
タ)、それに各フレーム内でのサンプリング点数
もしくは時間長を指示するフレーム情報データ
(第3のデータ)である。このうち、第1及び第
2のデータは第2図に示すような従来の波形解析
から得られるデータでよい。これらのデータは第
4図に示すようにメモリ3のあるアドレス空間
A0,A1…,Aoに設定される。第4図では、アド
レスA0〜Aoの空間に2つの文章S1,S2が設定さ
れている。第1の文章S1はその波形がm個のフレ
ームf1〜fnに分割され、かつ各フレーム内の波形
データはn回のサンプリング点数(W10〜W1o,
W20〜W2o,…,Wn0〜Wno)で振幅値がサンプ
リングされている。又、各フレーム内での波形デ
ータ(第1のデータ)の前にはその量子化幅デー
タD10,D20,…,Dn0が設定されており、この量
子化幅データと波形データ(振幅値量子化デー
タ)とで1フレームを構成している。更に、注目
すべきは、この文章S1の先頭アドレスA0には各
フレーム内でのアドレス数(これはフレームの時
間長もしくは1フレーム内に記憶されるデータ
(第1のデータ+第2のデータ)の数を示す)が、
データF10として設定されていることである。加
えて、文章S1の終了にはそれを示す終了データ
E10が設定される。勿論、量子化幅データDは各
フレーム毎に異なつていてもよい。又、フレーム
数及びサンプリング数は文章の種類によつて異な
つてもよい。一例として挙げると、フレーム周期
を4ms〜40ms,サンプリング数を10〜数100個と
すればほぼ自然音に近い音声を合成するのに十分
なデータが得られた。一方、文章S2は前記の文章
S1に比べて各フレーム内でのアドレス数(サンプ
リング数)が少ない文章を示している。従つて、
文章S1とS2とでは、量子化幅データDの読み出さ
れる周期が違つている。これは、文章S2は文章S1
に比べてフレーム内でのサンプリング数が少なく
ても良質の音声を合成できる文章であることを示
している。例えば波形の変化率が小さく比較的単
調な音声はS2のようなデータ列でよい。
以上のようなデータ列をメモリ3に設定すれ
ば、文章S1の音声を合成する時、入力部1からの
最初の指定で読み出されるフレーム長データF10
はフレーム情報指定部5に設定され、その数値デ
ータが計数部6にセツトされ、アドレス指定部
(カウンタ)4をカウントアツプするクロツク1
0で同時にカウントされ、オーバーフロー(もし
くはボロー)が生じると、オーバーフロー信号
(もしくはボロー信号)が制御部2に送られる。
この信号が出力されるまでは、第1のフレームf1
の量子化幅データD10と波形データW10〜W1oが
順次読み出されて、各波形データW10〜W1oと量
子化幅データD10とが演算部12で乗算される。
この結果は、順次音声信号としてD/Aコンバー
タ13を介して音声出力部14へ取り出される。
今、オーバーフロ信号(もしくはキヤリー信号)
が出力されると、制御部2はこの信号によつて、
設定されたフレーム時間長の終了を知り、フレー
ム情報保持部5に保持されているデータF10を計
数部6に再セツトして次のフレームf2の復号処理
へ進む。この様にして、文章S1の最後フレームfn
までの音声合成処理が完了すると、終了データ
E10が読み出され、フレーム情報保持部5内のデ
ータF10はリセツトされ、次の文章の音声合成指
示を待つ。この後、入力部1から文章S2を指示す
る信号が入力されると、前述と同様の動作で、音
声合成が実行される。ここでは、フレーム長が前
記と異なるが、これは計数部6で正確に制御され
るので、各フレームf′1〜f′nでの量子化幅データ
D200〜Dn00は所定のタイミング(計数部6からの
オーバーフロー信号に応答する)で量子化幅指定
部11に取り込まれる。尚、乗算演算としては例
えばシフトレジスタ機能を持たせて、量子化幅デ
ータに応じて波形データ(振幅値量子化データ)
を桁上げすればよい。
ば、文章S1の音声を合成する時、入力部1からの
最初の指定で読み出されるフレーム長データF10
はフレーム情報指定部5に設定され、その数値デ
ータが計数部6にセツトされ、アドレス指定部
(カウンタ)4をカウントアツプするクロツク1
0で同時にカウントされ、オーバーフロー(もし
くはボロー)が生じると、オーバーフロー信号
(もしくはボロー信号)が制御部2に送られる。
この信号が出力されるまでは、第1のフレームf1
の量子化幅データD10と波形データW10〜W1oが
順次読み出されて、各波形データW10〜W1oと量
子化幅データD10とが演算部12で乗算される。
この結果は、順次音声信号としてD/Aコンバー
タ13を介して音声出力部14へ取り出される。
今、オーバーフロ信号(もしくはキヤリー信号)
が出力されると、制御部2はこの信号によつて、
設定されたフレーム時間長の終了を知り、フレー
ム情報保持部5に保持されているデータF10を計
数部6に再セツトして次のフレームf2の復号処理
へ進む。この様にして、文章S1の最後フレームfn
までの音声合成処理が完了すると、終了データ
E10が読み出され、フレーム情報保持部5内のデ
ータF10はリセツトされ、次の文章の音声合成指
示を待つ。この後、入力部1から文章S2を指示す
る信号が入力されると、前述と同様の動作で、音
声合成が実行される。ここでは、フレーム長が前
記と異なるが、これは計数部6で正確に制御され
るので、各フレームf′1〜f′nでの量子化幅データ
D200〜Dn00は所定のタイミング(計数部6からの
オーバーフロー信号に応答する)で量子化幅指定
部11に取り込まれる。尚、乗算演算としては例
えばシフトレジスタ機能を持たせて、量子化幅デ
ータに応じて波形データ(振幅値量子化データ)
を桁上げすればよい。
以上説明したように本実施例によれば、音声デ
ータメモリ3の内部に各文章毎にフレーム時間長
Fを決定するパラメータを格納しておく事によつ
て、複数の文章を最適のフレーム数及びフレーム
内サンプリング数で量子化することができる。こ
の結果、必要な音質を得るためのデータ量が不必
要に増加する事を防止できるとともに、単にメモ
リを差し換えるだけで様々な音声を合成すること
が可能となり汎用性及び量産性が大幅に向上す
る。
ータメモリ3の内部に各文章毎にフレーム時間長
Fを決定するパラメータを格納しておく事によつ
て、複数の文章を最適のフレーム数及びフレーム
内サンプリング数で量子化することができる。こ
の結果、必要な音質を得るためのデータ量が不必
要に増加する事を防止できるとともに、単にメモ
リを差し換えるだけで様々な音声を合成すること
が可能となり汎用性及び量産性が大幅に向上す
る。
又、以上の説明では音声波形そのもののデータ
を準瞬時圧伸方式に従つて波形解析して記憶する
ことを述べたが、現音声波形データとその近接デ
ータとの差分値を用いた、DPCMと呼ばれる音
声記憶方式を採用しても全く同様の効果が得られ
ることは明らかである。
を準瞬時圧伸方式に従つて波形解析して記憶する
ことを述べたが、現音声波形データとその近接デ
ータとの差分値を用いた、DPCMと呼ばれる音
声記憶方式を採用しても全く同様の効果が得られ
ることは明らかである。
更に、メモリ3へのデータ格納方式は、第5図
〜第6図に示すようなデータ列であつてもよい。
即ち、第5図はフレーム長データF1〜Fo、量子
化幅データD1〜Do、フレーム毎の波形データ
(振幅値量子化データ)W10〜E10,W20〜E20,…
を夫々まとまつたアドレス空間(テーブル)T1,
T2,T3に設定しておいてもよい。この場合には、
所謂テーブル参照命令を使用することができ、ソ
フトウエア制御が非常に簡単になる。特に、プロ
グラムの組み方次第で、任意に各テーブル内のデ
ータ同志の選択が可能となり楽器音等の音声出力
の高さや大きさ等を自由に変化させることができ
る。更に、第6図に示すようにフレーム長データ
F1〜Foだけを量子化幅データDと波形データと
のアドレス空間から分離させてもよい。ここで、
S10,S20は夫々異なる文章の列を示す。尚、量子
化幅データDだけを別のテーブルに設定しておい
ても勿論差し支えない。この様に、各データをテ
ーブルで分類するようにすれば、異なる波形デー
タ、即ち異なるフレームで同一の量子化幅データ
やフレーム長データを共用させて、データ容量を
更に縮減することもできる。更に、第3図におい
て示したフレーム情報保持部5と計数部6とはハ
ードウエアで構成してもよいが、加算もしくは減
算機能をもつ論理演算部とRAMとを用いたソフ
トウエアカウンタで代用することもできる。又、
PCM符号化合成、DPCM符号化合成の外、LPC
(線型予測符号化)方式、ADM(適合デルタ変
調)方式等を用いて解析された音声データに対し
ても、それらのデータ列を上述の如くメモリ3に
設定することにより音声を合成することは、本発
明の応用として可能である。
〜第6図に示すようなデータ列であつてもよい。
即ち、第5図はフレーム長データF1〜Fo、量子
化幅データD1〜Do、フレーム毎の波形データ
(振幅値量子化データ)W10〜E10,W20〜E20,…
を夫々まとまつたアドレス空間(テーブル)T1,
T2,T3に設定しておいてもよい。この場合には、
所謂テーブル参照命令を使用することができ、ソ
フトウエア制御が非常に簡単になる。特に、プロ
グラムの組み方次第で、任意に各テーブル内のデ
ータ同志の選択が可能となり楽器音等の音声出力
の高さや大きさ等を自由に変化させることができ
る。更に、第6図に示すようにフレーム長データ
F1〜Foだけを量子化幅データDと波形データと
のアドレス空間から分離させてもよい。ここで、
S10,S20は夫々異なる文章の列を示す。尚、量子
化幅データDだけを別のテーブルに設定しておい
ても勿論差し支えない。この様に、各データをテ
ーブルで分類するようにすれば、異なる波形デー
タ、即ち異なるフレームで同一の量子化幅データ
やフレーム長データを共用させて、データ容量を
更に縮減することもできる。更に、第3図におい
て示したフレーム情報保持部5と計数部6とはハ
ードウエアで構成してもよいが、加算もしくは減
算機能をもつ論理演算部とRAMとを用いたソフ
トウエアカウンタで代用することもできる。又、
PCM符号化合成、DPCM符号化合成の外、LPC
(線型予測符号化)方式、ADM(適合デルタ変
調)方式等を用いて解析された音声データに対し
ても、それらのデータ列を上述の如くメモリ3に
設定することにより音声を合成することは、本発
明の応用として可能である。
第1図はフレーム分割された音声波形図、第2
図は第1図中の1つのフレーム内のデータを準瞬
時圧伸方式にて量子化した特性図、第3図は本発
明の一実施例を示すブロツク図、第4図〜第6図
は夫々データ記憶部に設定されたデータ列を示す
メモリの状態図である。 1……入力部、2……制御部、3……メモリ、
4……アドレス指定部、5……フレーム情報保持
部、6……計数部、7……内部バス、8……アド
レスバス、9……データバス、10……クロツ
ク、11……量子化幅指定部、12……演算回
路、13……D/Aコンバータ、14……音声出
力部。
図は第1図中の1つのフレーム内のデータを準瞬
時圧伸方式にて量子化した特性図、第3図は本発
明の一実施例を示すブロツク図、第4図〜第6図
は夫々データ記憶部に設定されたデータ列を示す
メモリの状態図である。 1……入力部、2……制御部、3……メモリ、
4……アドレス指定部、5……フレーム情報保持
部、6……計数部、7……内部バス、8……アド
レスバス、9……データバス、10……クロツ
ク、11……量子化幅指定部、12……演算回
路、13……D/Aコンバータ、14……音声出
力部。
Claims (1)
- 1 合成すべき音声波形をブロツク化し、各ブロ
ツク内での振幅値を所定の倍率で量子化した第1
のデータ群と、前記倍率を示す情報をコード化し
た第2のデータ群とを有する記憶部と、該記憶部
に格納されている前記第1のデータ群および第2
のデータ群を読み出して、これらを乗算すること
により音声情報を作成する音声合成部とを有する
音声合成装置において、前記記憶部に第3のデー
タとしてフレーム情報を記憶せしめ、該フレーム
情報によつて規定される期間前記記憶部から読み
出された複数のデータを前記第1のデータ群内の
データであると判定し、これらのデータすべてと
前記第2のデータ群内の選択された1つのデータ
とを順次乗算して指定されたフレーム内での音声
合成を行い、前記フレーム情報を変更することに
よつてフレーム期間を変化できるようにしたこと
を特徴とする音声合成装置。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP55148768A JPS5772200A (en) | 1980-10-23 | 1980-10-23 | Voice synthesizer |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP55148768A JPS5772200A (en) | 1980-10-23 | 1980-10-23 | Voice synthesizer |
Publications (2)
Publication Number | Publication Date |
---|---|
JPS5772200A JPS5772200A (en) | 1982-05-06 |
JPS6331800B2 true JPS6331800B2 (ja) | 1988-06-27 |
Family
ID=15460214
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP55148768A Granted JPS5772200A (en) | 1980-10-23 | 1980-10-23 | Voice synthesizer |
Country Status (1)
Country | Link |
---|---|
JP (1) | JPS5772200A (ja) |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPS5977494A (ja) * | 1982-10-25 | 1984-05-02 | 富士通株式会社 | 音声特徴パラメ−タの圧縮方式 |
-
1980
- 1980-10-23 JP JP55148768A patent/JPS5772200A/ja active Granted
Also Published As
Publication number | Publication date |
---|---|
JPS5772200A (en) | 1982-05-06 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US4852179A (en) | Variable frame rate, fixed bit rate vocoding method | |
US4912768A (en) | Speech encoding process combining written and spoken message codes | |
US4852168A (en) | Compression of stored waveforms for artificial speech | |
US5752223A (en) | Code-excited linear predictive coder and decoder with conversion filter for converting stochastic and impulsive excitation signals | |
US4435832A (en) | Speech synthesizer having speech time stretch and compression functions | |
US5682502A (en) | Syllable-beat-point synchronized rule-based speech synthesis from coded utterance-speed-independent phoneme combination parameters | |
US4700393A (en) | Speech synthesizer with variable speed of speech | |
US4716591A (en) | Speech synthesis method and device | |
US4601052A (en) | Voice analysis composing method | |
JPS6331800B2 (ja) | ||
WO2004109660A1 (ja) | 音声データを選択するための装置、方法およびプログラム | |
JP2674161B2 (ja) | 音源データ圧縮符号化方法 | |
JPH0422275B2 (ja) | ||
WO2004072952A1 (ja) | 音声合成処理システム | |
JP4107085B2 (ja) | 波形データ圧縮方法 | |
JP4007194B2 (ja) | 音源装置 | |
KR0144157B1 (ko) | 휴지기 길이 조절을 이용한 발음속도 조절 방법 | |
JPH0833742B2 (ja) | 音声合成方式 | |
JPS5842099A (ja) | 音声合成方式 | |
JPS63118800A (ja) | 波形合成方式 | |
JPH01239599A (ja) | 音声合成方式 | |
KR920005508B1 (ko) | 선형예측부호화를 이용한 코러스 합성회로 | |
JPH0414813B2 (ja) | ||
JPS5946693A (ja) | 音声分析合成方法およびその装置 | |
JPS5848100A (ja) | 音声分析合成装置 |