JPS61278900A

JPS61278900A - 音声合成装置

Info

Publication number: JPS61278900A
Application number: JP60121704A
Authority: JP
Inventors: 高森　和男
Original assignee: Toshiba Corp
Current assignee: Toshiba Corp
Priority date: 1985-06-05
Filing date: 1985-06-05
Publication date: 1986-12-09
Also published as: EP0205298A1; KR870000673A

Abstract

(57)【要約】本公報は電子出願前の出願データであるた
め要約のデータは記録されません。

Description

【発明の詳細な説明】［発明の技術分野］この発明はパコール方式による音声分析により生成され
る分析データを記憶装置で記憶し、その後、この記憶装
置から分析データを読み出して音声合成処理を行なうパ
コール方式の音声合成装置に関する。

［発明の技術的背景とその問題点］従来、パコール方式の音声合成装置では、合成しようと
する音声の原音波形に対して、１０ミリ秒もしくは２０
ミリ秒を１フレームとして音声波形を区切り、各フレー
ム毎に音声分析を行なって振幅データ、周波数データお
よびにパラメータデータと称される複数のパコール係数
を生成してこれらのデータをフレームデータとして記憶
装置に記憶し、音声合成の際にはこの記憶装置から上記
各データを読み出し、分析の際に使用したものと同じフ
レーム長で音声合成処理を行なうようにしている。

ところで、種々の方式を用いた音声合成装置では合成音
の音質を損わずにデータ量（ビットレート）をいかに少
なくするかが大きな課題となっている。このような課題
に対してパコール方式の音声合成装置でも様々な方法が
試みられており、その中でもフレーム長を２０ミリ秒に
設定する方法が一般化している。このフレーム長を２ｏ
ミリ秒に設定する方法ではフレーム長を１０ミリ秒に設
定したときに比較してデータは半分に圧縮される。

しかし、このフレーム長を２０ミリ秒に設定する方法で
は原音に含まれる子音や破裂音等は分析時にデータとし
て抽出できず、従って、合成時にはこのような子音や破
裂音等が表現できないという欠点がある。

他方、このような子音や破裂音等は１０ミリ秒のフレー
ム長ではデータとして抽出することができるが、この場
合には上記したようにデータ量が多くなりデータの圧縮
化が損われるという欠点がある。

［発明の目的］この発明は上記のような事情を考慮してなされたもので
ありその目的は、子音や破裂音等、短いフレーム長でし
か表現できない音声を合成することができ、かつ大幅な
データ圧縮化が達成できる音声合成装置を提供すること
にある。

［発明の概要］上記目的を達成するためこの発明にあっては、原音に含
まれる子音や破裂音等、フレーム長が１０ミリ秒でしか
表現ではない音声に対してはフレーム長１０ミリ秒で分
析を行ない、通常の音声に対してはフレーム長２０ミリ
秒で分析を行ない、分析により生成されたフレームデー
タに対し各フレーム毎に分析時に使用したフレーム長を
表わすデータを可変フレームビットデ・−夕として付加
して記憶装置に記憶し、音声合成の際にはこの可変フレ
ームごットデータに応じて、音声合成回路で音声合成を
行なう際に使用するフレーム長を決定するようにしてい
る。

このようにすれば、従来の２０ミリ秒のフレーム長で合
成することができない子音や破裂音等は１０ミリ秒のフ
レーム長で合成することができる。

また発生音に含まれる子音や破裂音等の割合いは少なく
、全体として２０ミリ秒のフレーム長で合成される音声
データと同程度で音声の合成が可能となり、大幅なデー
タの圧縮を行なうことができる。

［発明の実施例］以下、図面を参照してこの発明の一実施例を説明する。

第１図はこの発明に係る音声合成装置の構成を示すブロ
ック図である。第１図において１０はデータメモリであ
る。このデータメモリ１０にはパコール音声分析法によ
って生成された各フレーム毎の分析データであるフレー
ムデータおよび各フレームでの分析の際に使用されたフ
レーム長に応じたデータである可変フレームビットデー
タとが記憶される。このデータメモリ１０はアドレスカ
ウンタ１１の出力によりアドレス指定され、アドレス指
定された複数ビットの記憶領域に予め記憶されているデ
ータが並列に読み出される。上記データメモリ１０から
読み出されたデータは並列直列変換回路１２に与えられ
る。この並列直列変換回路１２は上記データメモリ１０
から並列に読み出されたデータを直列データに変換して
出力するものあり、後述する制御回路から出力される制
御信号に基づき次のフレームデータを所定時間後に出力
する。この直列データは直列並列変換回路１３に与えら
れる。直列並列変換回路１３は上記並列直列変換回路１
２から出力される直列データを格納し、格納したデータ
を所定のタイミングで並列に出力する。この直列並列変
換回路１３から出力される並列データは制御回路１４お
よびパコール音声合成回路１５に与えられる。

上記パコール音声合成回路１５には上記直列並列変換回
路１３から出力される並列データを一時的に記憶する入
力データ一時記憶回路１６が設けられ、パコール音声合
成回路１５はこの記憶回路１６に記憶されたデータを用
いて、かつ少なくとも２種類のフレーム長のいずれかを
選択してパコール音声合成処理を順次行なう。

上記制御回路１４は上記アドレスカウンタ１１を歩進さ
せるための歩道信号を出力するデータ読みだし制＠機能
、上記直列並列変換回路１３を通じて与えられる前記可
変フレームビットデータの内容を判定する可変フレーム
ごットデータ判定機能、このデータ判定機能による判定
結果に応じて前記並列直列変換回路１２から次のフレー
ムデータを出力させる間隔を制御するための前記制御信
号を出力する出力制御機能、上記パコール音声合成回路
１５内の入力データ一時記憶回路１６におけるタイミン
グ制御およびデータ判定機能による判定結果に応じて上
記パコール音声合成回路１５における音声合成の際のフ
レーム長の選択動作を制御するフレーム長選択制＠機能
をそれぞれ持っている。

第２図はｒＰＡＪという破裂音を持つ音声の波形図であ
り、第３図はこの第２図のような波形を持つ音声をパコ
ール音声分析法により分析した結果を記憶した前記デー
タメモリ１０におけるデータ記憶状態の一例を示す図で
ある。第２図の原音声は複数のフレームｔｉ（ｉ−４，
２・・・）に区切られている。そしてパコール音声分析
法による分析の際には各フレーム毎にフレーム長は１０
ミリ秒および２０ミリ秒のいずれかが選択的に使用され
る。この原音声ｒＰＡＪのように音声の立ち上がり時に
破裂音が存在し、フレーム長２０ミリ秒では合成ができ
ない音声区間がある場合には、最初のフレームｔ１とｔ
２とではフレーム長として１０ミリ秒が選択され、ｔ３
以降のフレームではフレーム長として２０ミリ秒が選択
されて分析が行なわれる。

このようにして各フレーム毎に分析され、生成されたフ
レームデータが前記データメモリ１０に記憶される。ま
た、分析により生成されたフレームデータに加えて、分
析時に各フレームで使用されたフレーム長が１０ミリ秒
か２０ミリ秒であるかを示す可変フレームごットデータ
も合せてデータメモリ１０に記憶される。

第３図においてＶＦＢは分析時に使用されたフレーム長
が１０ミリ秒か２ｏミリ秒であるかを示す可変フレーム
ごットデータであり、１０ミリ秒を選択した最初のフレ
ームｔ１とｔ２とではこの内容が「１」にされ、２０ミ
リ秒を選択するｔ３以降のフレームではこの内容が「０
」にされる。

前記フレームデータは振幅データ　（ＡＭＰデータ）、
周波数データ（ＰＩＴＣＨデータ）およびパコール係数
である複数のにパラメータデータからなり、ＡＭＰデー
タのデータ量は１ビツトであり、ＰＭＴＣＨデータのデ
ータ量はｍビット、Ｋパラメータデータのデータ農はｎ
ｘｊビットであるとする。

なお、上記データメモリ１０は１ワード（１バイト）が
例えば８ビツト構成であり、フレームｔ１の分析データ
については第１バイト目に可変フレームビットデータＶ
ＦＢとＡＭＰデータおよびＰＩＴＣ）（データの一部の
計８ビットが格納され、第２バイト目にＰＩＴＣＨデー
タの残りとにパラメータの一部の計８ビットが格納され
、第３バイト目ににパラメータの残りが格納される。

次に動作を説明する。まず、制御回路１４はアドレスカ
ウンタ１１に対して歩道信号を与える。これにより、デ
ータメモリ１０では発生音に対応するアドレス指定がな
されて最初の８ビツトの記憶領域からデータが読み出さ
れ、並列直列変換回路１２に供給される。次に制御回路
１４から並列直列変換回路１２に制御信号が供給される
と、並列直列変換回路１２はこの制御信号の供給タイミ
ングに基づき、上記８ビツトのデータを直列並列変換回
路１３に直列に出力する。制御回路１４は上記直列並列
変換回路１３を介して可変フレームごットデータＶＦＢ
が入力すると、このデータの内容を判定する。そしてこ
の判定の結果、ＶＦＢ−１であれば、その次のフレーム
データを並列直列変換回路１２から１０ミリ秒後に出力
させるように前記制御信号の出力タイミングを制御し、
かつパコール音声合成回路１５に対しては音声合成の際
に使用するフレーム長を１０ミリ秒に選択するための制
御信号を出力する。他方、制御回路１４における可変フ
レームビットデータＶＦＢの判定の結果、ＶＦＢ−０で
あれば、次のフレームデータを並列直列変換回路１２か
ら２０ミリ秒後に出力させるように前記制御信号の出力
タイミングを制御し、かつパコール音声合成回路１５に
対し音声合成の際に使用するフレーム長を２０ミリ秒に
選択寸、る′だめの制御信号を出力する。

パコール音声合成回路１５は、次の１０ミリ秒後もしく
は２０ミリ秒模までの期間に、選択した１０ミリ秒もし
くは２０ミリ秒のフレーム長で音声合成を行なう。

このように、上記実施例回路では、原音に含まれる子音
や破裂音等、フレーム長が１０ミリ秒でしか表現ではな
い音声に対してはフレーム長１０ミリ秒で分析を行ない
、通常の音声に対してはフレーム長２０ミリ秒で分析を
行ない、分析により生成されたフレームデータに対し各
フレーム毎に分析時に使用したフレーム長を表わすデー
タを可変フレームビットデータとして付加してデータメ
モリ１０に記憶し、音声合成の際にはこの可変フレーム
ビットデータに応じて、音声合成回路１５で音声合成を
行なう際に使用するフレーム長を決定するようにしてい
るので、子音や破裂音等、短いフレーム長でしか表現で
きない音声を合成することができる。また、発生音に含
まれる子音や破裂音等の割合いは少ないので、全体とし
て２０ミリ秒のフレーム長で合成される音声データと同
程度で音声の合成が可能となり、大幅なデータの圧縮を
行なうことができる。

第４図の波形ａは前記第２図の原音声を全て２０ミリ秒
のフレーム長で分析し、合成した後の合成音波形であり
、波形すは同様に全て１０ミリ秒のフレーム長で分析し
、合成した後の合成音波形であり、波形Ｃは上記実施例
回路による可変フレーム長により分析し、合成した後の
合成音波形である。波形Ｃでは波形ａで表現できない特
徴を持っており、また、波形ａとｂとで差異の見られな
い立ち上がり後の音声の特徴も充分に表現されているこ
とがわかる。

［発明の効果］以上説明したようにこの発明によれば、子音や破裂音等
、短いフレーム長でしか表現できない音声を合成するこ
とができ、かつ大幅なデータ圧縮化が達成できる音声合
成装置を提供することができる。

【図面の簡単な説明】

第１図はこの発明の一実施例の構成を示すブロック図、
第２図は上記実施例を説明するための波形図、第３図は
上記実施例回路のデータメモリのデータ記憶状態の一例
を示す図、第４図は上記実施例回路を説明するための波
形図である。１０・・・データメモリ、１１・・・アドレスカウンタ
、１２・・・並列直列変換回路、１３・・・直列並列変
換回路、１４・・・制御回路、１５・・・パコール音声
合成回路、１６・・・入力データ一時記憶回路。出願人代理人　弁理士　鈴江武彦第１図ｔｓ２図ＩＩ３ｗＩＩ！ｊ４　図

Claims

【特許請求の範囲】

パコール音声分析法により、異なる２種のフレーム長を
選択して音声分析を行なうことにより生成される振幅デ
ータ、周波数データおよびパコール係数からなるフレー
ムデータとこれら各フレームデータ生成の際に選択され
たフレーム長を表わす可変フレームビットデータとを記
憶するデータメモリと、上記データメモリから読み出さ
れるフレームデータを用いてパコール音声合成処理を行
なう音声合成回路と、上記データメモリから読み出され
るデータのうち可変フレームビットデータの内容を判定
する判定手段と、上記判定手段による判定結果に応じて
上記音声合成回路における音声合成の際に選択されるフ
レーム長を決定する制御手段とを具備したことを特徴と
する音声合成装置。