JPS6136800A

JPS6136800A - 可変長フレ−ム音声分析合成方式

Info

Publication number: JPS6136800A
Application number: JP15984684A
Authority: JP
Inventors: 哲田口
Original assignee: NEC Corp
Current assignee: NEC Corp
Priority date: 1984-07-30
Filing date: 1984-07-30
Publication date: 1986-02-21
Anticipated expiration: 2009-06-08
Also published as: JPH0644199B2

Abstract

(57)【要約】本公報は電子出願前の出願データであるた
め要約のデータは記録されません。

Description

【発明の詳細な説明】（技術分野）本発明は可変長フレーム音声分析合成方式、とくに、例
えば１０秒程度の比較的長い音声信号を全体として最適
な可変長フレーム処理を行なうようにした可変長フレー
ム音声分析合成方式に関するものである。

（従来技術）例えばｌＯ秒程度を単位とする音声信号の分析合成には
、ボイスメール、パブリックアドレス等の種種の利用分
野が考えられる。このような音声信号の分析合成に可変
長フレーム処理を適用して情報量の圧縮等を図る場合は
、一般に、下記のように行なわれる。

すなわち、例えば１０秒の区間を５０等分して。

２００ｍ５ＥＣ程度の区分を作プ、この各区分ととに独
立に可変長フレーム処理を行なうという方式％式％しかしながらこの方式によると、２００ｍ５ＥＣの各区
分ととＫは最適の可変長フレーム処理を行なうことがで
きるが、１０秒を全体として見た場合には必らずしもま
だ最適化が達成されていないという欠点を有している。

一方、はじめからｌＯ秒全全体一単位として、ダイナミ
ックプログラミング（ＤＰ）を用いた可変長フレーム処
理により最適化を行うことも理論的には可能であるが、
こうするとＤＰを行なうための演算量が美大なものとな
り、また分析合成装置では遅延が大とな夛、伝送路エラ
ーに対して復元性に欠ける等の問題が生じ現実的でない
。

（発明の目的）本発明の目的は、１０秒程度Ｏ比較的長い単位の音声信
号を全体として可変長フレーム処理による最適化を行危
い情報量のより効率的な圧縮を可能にする現実的な可変
長フレーム音声分析合成方式を提供するにある。

（発明の構成）本発明の方式Ｖｉ、予め定めた一定の分析周期ごとに周
期的に入力音声信号を分析して特徴パラメータベクトル
を抽出する音声分析手段と、予め定めた複数個の相連続
する前記分析周期からなる各区分ごとに各区分中の前記
特徴パラメータベクトルから任意の数の代表パラメータ
ベクトルを選出して各区分を区分的最適関数近似を行な
った場合に得られる各区分ごとの前記代表パラメータベ
クトルの構成とこの場合の各区分ごとの最適近似による
残留歪とを演算する区分的最適関数近似手段と、予め定
めた複数個の相連続する前記区分からなる大区間におい
て前記区分的最適関数近似手段により演算された各区分
ごとの前記残留歪を比較して残留歪の最も大きい区分の
前記代表パラメータベクトルの構成をより多くの前記代
表パラメータベクトルを含む前記代表パラメータベクト
ルの構成に置換えるという処理ステップを繰返すととＫ
よシ前記大区間を最適近似する予め定めた数のすべての
代表パラメータベクトルを選出するようにした総合最適
フレーム選択手段とを有する。

（実施例）次に図面を参照して本発明の詳細な説明する。

第１図は本発明の一実施例を示すブロック図である。

本実施例は音声分析側１と音声合成側２とよシなる。

分析側１はさらに、低域Ｆ波器およびＡ／Ｄ変換器（Ｌ
ＰＦ！Ａ／Ｄ）ｌｏｔ　、窓関数処理器１０２、Ｌ８Ｆ
分析器１０３、区分的最適関数近似器１０４、総合最適
フレーム選択器１０５．量子化器１０６．音源情報分析
器１０７．コーダ１０８、およびメモリ１０９を含み、
また、合成側２は、メモリ２０１、デコーダ２０２、パ
ルス発振器２０３、雑音発生器２０４　、Ｖ／ＵＶ切替
器２０５、電力制御器２０６　、ＬＡＰ合成フィルタ２
０７　、Ｄ／Ａ変換器および低域Ｐ波器ＣＤ／Ａ＆ＬＰ
Ｆ）２０Ｂ　、および補間器２０９を含んでいる。

本実施例の動作は下記の通りである。

ライン１ｏｏｏから入力した音声信号は、低域Ｆ波器お
よびＡ／Ｄ変換器（ＬＰＦ４Ａ／Ｄ）１０１において１
周波数帯域が例えば１４ｋＨｚＫ制限された後、８ｋＨ
ｚのサンプリング周波数でサンプルされ、量子化されて
ディジタルデータに変換され。

こうして得られたデータは窓関数処理器１０２　Ｋ供給
される。

窓関数処理器１０２は供給されたデータの１ブロック分
（例えば２４０ｆンプル）を一時的に記憶し、これに予
め定まっている窓関数による荷重乗算を織こし、この処
理結果のデータｔ−ＬＳＰ分析器１０３および音源情報
分析器１０７に供給する。窓関数処理器１０２によるこ
のような処理は例えばｌｏｍｓＥｃごとの周期で繰返さ
れる。従って、ＬＳＦ分析器１０３および音源情報分析
器１０７は１６ｍ５ＥＣの周期で１ブロック分の窓関数
処理されたデータの供給を受ける。

さてＬＳＰ分析器１０３は供給された１ブロック分のデ
ータを用いて公知の手法によるＬＳＰ（線スペクトル対
）分析を行ない、ＬＳＰパラメータベクトルを決定する
。このＬＳＰパラメータベクトルは、Ｓ（偶数）個の成
分をもつＳ次元のベクトル ’Ｆ＝　（ＰＩ　、　Ｐｚ　、　−−−、Ｐａ　）で、
この各成分Ｐｉ、Ｆｉｌは、このｌブロック分の音声を
発声するときの声道の形態に関する情報を共振周波数の
組の形で抽出したデータである。上述のように、このよ
うｆｉＬｓＰパラメータベクトルＰの生成は１０ｍ５Ｅ
Ｃの基本分析周期ごとに行なわれ、かくして得られ九ベ
クトルＰの各成分は、次の区分的最適関数近似器ＬＯ４
に各基本分析周期のｌｏｍｓＥｃ（以後これを基本フレ
ームと呼ぶ）ごとに供給される。

さて１区分的最適関数近似器１０４は、こうしてつぎつ
ぎに連続して供給されるパラメータベクトルのに個ずつ
を一つにまとめて取扱う。

すなわち、各基本フレームはそれぞれこの基本フレーム
に楓するパラメータベクトルによって代表されているが
、この相連続するに個の基本フレームを一つにまとめて
、これを−区分とし、この各区分ごとＫ、以下に示すよ
うな区分的最適関数近似の処理を行なう。ここではこの
区分的最適関数近似に用いる関数として矩形近似を行な
う場合について説明する。また１区分中の基本７レーム
数を２０個（つますに＝２０）、したがって１区分の時
間長を２００ｍ５ＥＣと仮定する。

さて、区分的最適関数近似器１０４による処理は以下の
ようなものである。

すなわち、１区分中の２０個の基本フレームの中から１
個（’　”　１＋　　２＋　・・・、２０）の代表フレ
ームを選び、この代表フレームに属するパラメータベク
トルを用いて、この区分中の他の基本フレームに属する
パラメータベクトルをも代表（近似）させ、これＫよっ
て矩形近似を行なう。こうして、この近似による歪が最
小になるように、前述の１個の代表フレーム（代表ベク
トル）を選出する。

またこのときの１個の代表フレームで近似したときく遅
し得られる歪の最小値Ｅ１　　も同時に求める。

なお、この場合の矩形近似による歪は以下のようにして
演算される。

例えば今、ｉ＝２として、２個の代表フレームのパラメ
ータベクトルを用いて矩形近似を行なう場合について説
明すると、第１の代表フレームとして第４番目の基本フ
レームが選択され、この代表フレームに属するパラメー
タベクトルｙ　ｆｉｌを第１の代表ベクトルとして第１
番目の基本フレームから第９番目の基本フレームまでの
９個の区間を近似し、次に第２の代表フレームとして、
第１３番目の基本フレームが選択され、この代表フレー
ムに属するパラメータベクトル′Ｆ（〜第２の代表ベク
トルとして残シの第１０番目の基本フレームから第２０
番目の基本フレームまでの１１個の区間を近似した場合
における矩形近似による歪は以下に示すようＫして求め
られる。

ｋ−１１−１ｋ−Ｉｏｔ−１但り、Ｗｔ（ｅ　＝　１．　２．　−８　）は、パラメ
ータベクトルの各成分のスペクトル位置における差によ
って歪に与えΣ影響が異なってくるのを補正するための
予め定めた荷重係数である。

例えば１＝２と与え死場合の最適矩形近似とは。

このようＫして求められる歪が最小になるような、２個
の代表ベクトルを含む代表パラメータベクトルの構成を
決定すること、つｔカ２個の代表フレームと、各代表フ
レームに属するパラメータベクトルが代表すべき２個の
基本フレーム区間とを決定することである。これととも
Ｋこの決定された代表パラメータベクトルの構成により
達し得られた残留歪の値をもデータとして求めておく。

以上に述べた演算はダイナミックプログラミング（ＤＰ
）を用いて容易に行なうことができる。

今、区分の最初からａ個の基本フレームでできる区間を
、最後の基本フレーム（第３番目の基本フレーム）を含
むｂ個の代表フレームで近似した場合に達し得られる最
小の歪（残留歪）をＧ（ｂ。

ａ）と定義すると、ｂ＝ｌ、つまシ代表ベクトルの数が
１個の場合には、代表パラメータベクトルの構成はν３
０が第１番目から第８番目までの基本フレームの区間を
代表するので残留歪Ｇ（１，ａ）は。

となりｓ””１〜２０に対して一義的に定まる。

但しｄ、、ａは第に番目の基本フレームのパラメータベ
クトルを第８番目の基本フレーム（代表フレーム）のパ
ラメータベクトル（代表ベクトル）で代表した場合の歪
である。

次に、第Ｘ番目の基本フレームから第７番目の基本フレ
ームの区間（但しｙ　）　ｘとする）を両端を代表フレ
ームとして近似する場合（っまシこの区間を代表ベクト
ルＹ８１と戸を用いて近似する場合）に達し得られる最
小の歪をＤ　ｘ、　ｙで表わすとＤ貢、　ｙ　はで容易に求めることができる。このＤｌ、Ｆは、代表ベ
クトルフ０）の代表する区間を最初は第Ｘ番目の基本フ
レームだけ、次には第Ｘ番目と第Ｘ十１番目の基本フレ
ームの区間、さらにつぎには第Ｘ番目、　館Ｘ＋　１番
目および第Ｘ＋２番の基本フレームの区間というように
火成に増してゆき、残シの区間をｙ（ｙ）で代表させた
場合の歪をそれぞれ求めてその中の最小の歪を選出した
ものである。

さて以上に求めたＧ（１，ａ）とＤ　ｚ　、　ｙとを用
いて、代表フレーム数を２個とした場合のＧ（２゜ａ）
を下記のようにして容易に求めることができる。

すなわち、第１の代表フレームとして、第ａ　−１番目
の基本フレームを選んだ場合（勿論第２の代表フレーム
は第８番目の基本フレームである）の歪は明らかに上式
右辺の第１番目に示すＧ（１゜ａ−１）である。

次に第１の代表フレームを−クだけ前に進めて第ａ−２
番目に選んだ場合には達し得られる歪の最小値は、上式
右辺の第２番目に示すＧ（１，ａ−２）＋Ｄａ−２．ａ
となる。すなわち、Ｇ（１゜ａ−２）は第１番目から第
ａ−２番目までの区間を第ａ　−２番目の基本フレーム
による代表フレーム（代表ベクトルν（ａ−２））で代
表した場合の歪を表わしＤａ−３ａは第ａ−２番目から
第８番目までの区間をその両端の第ａ−’１番目と第８
番目の基本フレームによる代表フレーム（代表ベクトル
Ｆ（ａ−２）と戸で代表した場合に達し得られる最小の
歪を表わしていてこの場合の最小の歪は両者の和になる
ことは明らかである（第ａ　−’１番目の基本フレーム
の歪はＯになるのでｏ（ｉ、　　ａ−２）とＤ　ａ　−
２との代表する区間はこの基本フレームでダプッてもよ
い）。

同様にして第１の代表フレームを一つずつ前に進め、こ
のときに達し得られる最小歪を火成に一求める。

第１の代表フレームを最も前に進めて、第１番目の基本
フレームに選んだ場合には、達し得られる最小歪として
上式右辺の最も下に示すＧ（１゜１）＋Ｄｘ、ａになる
ことは明らかである。勿論Ｇ（１，１）＝０である。

以上よシ、第１番目から第８番目までの区間を。

２個の代表フレーム（但しその中の一つは第８番目の基
本フレームを代表フレームとする）で代表した場合に達
し得られる最小歪（残留歪）　Ｇ　（２゜ａ）は以上に
得られたすべての歪の中の最小の歪を選出することによ
って求められこれは上式によって示される。こうして残
留歪Ｇ（２，ａ）が求められるが、これとともにこの残
留歪を与える場合の代表パラメータベクトルの構成、つ
まり二つの代表ベクトルｐへｐ″ゝおよびそれぞれの代
表ベクトルが代表する区間幅Ｂｘ、　ａ　　Ｂｌとが定
まる。こうしてＧ（２，ａ）およびそれに対応する代表
パラメータベクトルの構成もａ＝ｌ〜２０に対してすべ
て求められる。

さらに代表フレーム数を一個増した場合のＧ（３、ａ）
は、上に求めたＧ（２，ａ）とＤｘ、　、を用いてＧ（
２，ａ）と全く同様にして下式により求められる。

こうしてＧ（３，ａ）がａ＝３〜２０に対して求められ
ると、次に代表フレーム数をさらに一個増したＧ（４，
ａ）が全く同様にしてａ＝４〜２０に対して求められる
。

このようにして、ＤＰを用いることにより代表フレーム
数を火成に増して達し得られる歪の最小値を求めてゆく
ことＫよシ、任意の１．ｊ（但しｊ＝１．　２．・・・
２０　：　ｉ＜ｊ　）に対するＱ（ｉ。

］）および、そのときの代代表パラメータペクトの構成
つまり、１個の代表ベクトルｐと各代表ベクトルが代表
する基本フレームの区間幅の組を、すべて決定すること
ができる。

こうして求められたＧ（ｉ、２０）は、基本フレーム２
０個からなる前述の一つの区分を１個の代表フレームで
近似する場合に達し得られる歪の最小値を表わしている
が、前述したようにｉ個の代表フレームの中の１個は第
２０番目の基本フレームを用いるという抱束条件が入っ
ている。

この抱束条件を除いて、基本フレーム２０個からなる一
区分の中に任意の１個の代表フレームを選んで最適近似
をする場合に達し得られる歪の最小値（残留歪）をＥｌ
とすると、ＥＩは、上に求め九〇（ｉ、ｊ）を用いて以
下のようＫして求められる。

今、第に番目の基本フレームから第２０番目の基本フレ
ームまでの区間を第に番目の基本フレームを代表フレー
ムとして用いて（つまり￥　（ｋｌを用いて）近似する
場合の歪をＤｋで表わすと、として容易に求められる。

このＩ５ｋを用いると、例えばＥｌは、として求められ
、また任意のｉ（但しｔ＝ｔ、　　２゜・・・２０）に
対するＥｉはとして求めることができる。こうしてＥｉが求まると、
前述のように、この残留歪を与える代表ノくラメータベ
クトルの構成つまりｉ個の代表ベクトルの組と、これら
の１個の各代表ベクトルが代表する基本フレームの区間
幅を表わす１個の数の組とが決定される。

さて、区分的最適関数近似５１０４は、基本フレーム２
０個分（時間長２００ｍ５ＥＣ）からなる各区分ごとに
、上述の演算を行なって、任意の１個の代表ベクトルを
含む代表パラメータベクトルの構成と、この構成をとる
場合の残留歪とを決定する。つまり、区分的最適関数近
似器１０４は、各区分ととＫ、上述の演算を行なってＥ
ｉ（但しｉ＝ｌ〜２０のすべて）の組（ＥＪおよび、各
Ｅ１に対応するｉ個の代表ベクトルＶの組（Ｖ）および
これらの代表ベクトルの代表するｉ個の区間の幅Ｂの組
（Ｂ）を決定し、これらのデータを次の総合最適フレー
ム選択器１０５に供給する。

総合最適フレーム選択器１０５は、以上に述べた基本フ
レーム２０個分よシなる１区分をさらに例えば５０個分
集めてなる大区間（例えば時間長１０８Ｅｃ）Ｋ対する
最適フレーム選択の処理を行なう処理器である。

選択器１０５は上述のようにして供給された、各区分毎
のデータ（Ｅｌ、（Ｆ）および（Ｂ）をそれぞれ少くも
１大区間分（５０区分分）だけ貯わ見られるメモリを有
し、一つの大区間分の上述のデータの供給が終了すると
、これらのデータを用いて以下に説明するような総合最
適フレーム選択処理を開始する。

さて、各区分ごとの（Ｅ）は選択器１０５のメモリのワ
ークエリヤに１第２図に示すよう表マトリクス状のテー
ブルとして格納される。但しＥｌの上方のサフィックス
の（ｊ）はこれが第ｊ番目の区分の歪であることを示し
、下方のサフィックスのｉは、この区分をｉ個の代表フ
レーム（ｉ個の代表ベクトル）で最適矩形近似を行なっ
た場合に遅し得られる歪の最小値（残留歪）であること
を表わしている。従って同じ（幻の値に対しては（同じ
縦列内においては゛）ｉが大きくなる程Ｅ（Ｈ）が小さ
くなることは明らかである。

本実施例においては、上述の如く、区分的最適関数近似
器１０４は、区分的最適関数近似により、各区分毎に、
任意のｉ個を代表フレームとして選んだ場合における最
適近似の残留歪Ｅｉ’ｉ−すべて求めてこれに関係する
データを供給しているが、実際に各区分毎の代表パラメ
ータベクトル構成としてこれらの中からいかにその一つ
を選択すべきかＫついてはこれを決定していない。

これに対して総合最適フレーム選択器１０５は、各大区
間を代表する代表フレーム（代表ベクトル）の総数を、
予めＮ個と固定した場合に、できるかぎ夛この大区間に
おける全体の歪が、各区分ごとにバランスして小さくな
るように１　この大区間における代表フレーム構成を選
択決定する機能を有している。

この大区間における代表フレーム（代表ベクトル）の総
数Ｎとしては、各区分毎の代表７レーム数の平均値を、
例えば５個とするとＮ＝５Ｘ５０＝２５０となる。

総合最適フレーム選択処理は、上述の第２図に示すテー
ブルを用いて以下に示すアルゴリズムに従って行なわれ
る。

（ＡＯ）：最初に、各区分ごとに代表フレームを１個ず
つ選出するものとして、Ｎ＝５０と設定する。この場合
には、上述のマトリクスの第１の横列Ｅ甲（但しｊ＝ｔ
〜５０）の内容が各区分の歪を表わしている。勿論各区
分内においては１個の代表フレーム（代表ベクトル）を
用いた場合の最適近似が行なわれている。

（Ａｔ　）　：上述の第１の横列ＥｆＨ）（Ｊ＝１〜５
０）の内容を比較して、この中の最大値をとるＥ甲を選
出する。すなわち上述のような大区間の代表フレーム構
成をとった場合において最大の歪゛　　　を生ずる区分
を選出する。

（Ａ２）：上で選出された最大値をＥ、とする。

すなわち、第ｍ番目の縦列（第ｍ番目の区分）に属する
歪が選出されたとすると、その縦列のすべてのＥ２　ｔ
”−個分だけ上方にシフトする。すなわち、Ｅ？をＥ２
＋ｔ：ｃおきかえる（但し、ｔ＝ｔ、２゜・・・、　１
９）。

明らかに＊　Ｅ２Ｇは（ハの値如何にかかわらず常に０
であるので、このような上方シフトを行なうことによっ
て、シフトされた縦列の後尾にはＯが一つだけ増すこと
になる。

以上の（ＡＩ）、（Ａ２）による処理は、この大区間の
代表フレーム構成において最大の歪を発生する区分を見
出し、この区分の代表フレーム数だけを１個増して、こ
の区分をより高度の近似に更新するという処理になって
いる。

（Ａ３）：上述の（Ａ２）の処理により大区間の代表フ
レーム数が１個増したことに対応してＮの値を１だけ増
加する。この結果Ｎの値が予め定めた大区間における代
表フレームの総数２５０に達した場合には、次の（Ａ４
）の処理を行ない、これに達しない場合には、再び（Ａ
ｔ）の処理に戻り、この大区間の代表フレーム構成にお
いて最大歪を発生する区分を見出し、この区分の代表フ
レーム数だけを１個増加して最適近似の更新を行なうと
いう処理を繰返す。

（Ａ４）：以上の処理により、前述のＥ甲テーブルの第
１番目の横列には、この大区間を２５０代表フレームを
用いて最適近似を行なった場合の各区分に対する残留歪
が示されている。またこのテーブルの各ｊ（ｊ＝１〜５
０）Ｋ対する縦列の後尾に含まれる０の数をＭｊとする
と、前述のような理由から、この数Ｍｊは、恰度この大
区間に対する近似が行なわれた場合の、各ｊ番目の区分
に対する代表フレームの数を表わすことＫなる。

以上の処理により、大区間を２５０代表フレームを用い
て最適近似を行なった場合の、各区分における代表ベク
トルの数、各代表ベクトルの成分の値、および各代表ベ
クトルが代表する区間幅の構成が決定されたので、選択
器１０５は、これらの各区分の代表ベクトルの成分の値
、およびこの代表ベクトルが代表する各区間幅（基本フ
レーム数）の値を貯えられているメモリ領域から読出し
て、各代表ベクトルの成分の値をつぎつぎに、量子化器
１０６　Ｋ供給するとともに、この各代表ベクトルが代
表する区間幅（基本フレーム数）の値を、このベクトル
の各基本フレームごとの繰返しを指定する数としてコー
グ１０８に供給する。

量子化器１０６は、供給された各代表ベクトルの成分を
、伝送路および伝送品質の要求より定まる粗さで再量子
化した後、コーグ１０８に供給する。

一方、音源情報分析器１０７は窓関数処理器１０２から
供給された音声データより、ピッチ情報、有声音／無声
音情報（Ｖ／ＵＶ）、音量情報等を公知の手段を用いて
抽出し、これらの情報をコーグｌＯ８に供給する。

コーグ１０８は、以上のようＫして供給された各情報を
、伝送に適する形に合成符号化してメモリ１０９に供給
する。

メモリ１０９は、供給されたデータを音声の蓄積伝送を
行々うために一時記隠し、伝送路１２００の空き状態に
応じて合成側２に送出する。

さて、合成側２においては、伝送路１２００を介して伝
送されたデータは、いったん、メモ’Ｊ２０１に貯えら
れ、音声発生の必要に応じてこのメモリ２０１から流出
され、以下の処理によって音声が再現される。

すなわち、メモリ２０１から続出されたデータは、デコ
ーダ２０２によってデコードされ、これにより分析側１
のコーグ１０８の入力側に供給されたデータが復元され
る。

復元されたデータ中の、音源情報分析器１０７からのピ
ッチ情報は、パルス発振器２０３に供給され、この発振
周波数がピッチの基本周波数になるように制御する。ま
た、有声／無声情報（Ｖ／ＵＶ）は、Ｖ／ＵＶ切替器２
０５の切替制御信号として供給され、これが有声音（Ｖ
）を指定する場合には、切替器２０５がパルス発振器２
０３の出力側を選択し、無声音（ＵＶ）を指定する場合
には、切替器２０５が雑音発生器２０４の出力側を選択
するように制御するさらにまた、音量情報は、電力制御器２０６の制御情報
として供給され、これによ）電力制御器２０６が、切替
器２０５の選択比、力を可変増幅してその出力が指定さ
れた電力量になるように制御する。

こうして得られた電力制御器２０６の出力は、ＬＳＰ合
成フィルタを階動する音源信号としてＬＳＰ合成フィル
タ２０７に供給される。

一方、デコーダ２０２からデコードされた、各代表ベク
トルの各成分、および各代表ベクトルが代表する各区間
幅の情報は、補間器２０９を介してＬＳＰ合成フィルタ
２０７に供給される。

補間器２０９は供給された各代表ベクトルの各成分を、
これらの各代表ベクトルが代表する区間幅分だけ各基本
フレームごとに繰返し再生することにより矩形近似に対
する補間を行ない、各基本フレーム毎のＬＳＰパラメー
タベクトルの各成分を生成してこれをＬＳＦ合成フィル
タ２０７に供給する。

ＬＳＰ合成フィルタ２０７は、こうして供給されたＬＳ
Ｐパラメータベクトルの各成分と音源信号とを用いて公
知の手段により音声信号を合成しこれを、Ｄ／Ａ変換器
および低域Ｆ波器２０８に出力する。

かくして、合成されたディジタル音声信号は、アナログ
音声信号に変換され、不要な周波数成分が除かれて出力
ライン２０００から出力される。

以上のように本実施例によると、伝送される音声情報は
、２００ｍ５ＥＣ程度の各区分毎に、この区分に割当て
られた代表フレーム数に対する最適近似罠なっているば
か９でなく、これらの区分の５０個程度からなるｌ０８
ＥＣにおよぶ大区間においても、各区分に対する歪がよ
くバランスされた形の最適近似釦なっている。

すなわち、音声情報の激しく変化する区分においては、
よシ多くの代表フレームを用いることＫよシ、より高度
の最適近似を行ない、一方音声情報の変化の少ない区分
に対しては少ない数の代表フレームによる粗い近似を行
なっていて、伝送すべき全情報量を一定に制限した場合
に、できるだけ各区分に対する歪がバランスして小さく
なるような最適近似が行なわれていることになる。これ
により各区分の代表フレーム数を一定に固定した場合に
較べて、大区間内の各区分ごとの音声情報量のゆらぎを
一層忠実に追随することができるため、よシ効率的な情
報量の圧縮または、よシ高品質の音声の再現が達成され
る。

しかも、例えば基本分析フレームを１０００個も含む１
０秒もの大区間を、区分的最適近似で述べたような手法
により直接この大区間全体に対して最適近似を行なおう
とすると、美大な計算量となってしまって、その実現は
殆んど不可能になる。

本実施例においては、この大区間を、２００ｍ５ＥＣ程
度の通常広く用いられている区分に分割し、この各区分
に対する区分的最適関数近似により、まず各区分に任意
の数の代表フレームを割当てた場合の各区分に対する最
適近似を行ないそれ等の場合の６歪を求めておき、これ
を巧に利用することＫよって大区間に対する最適近似を
実現可能なものとしている。

なお、以上は本発明の一実施例を示したもので本発明は
以上の実施例に限定されるものでないことは明らかであ
る。

例えば、以上の実施例においては、基本フレーム長とし
てｌ０ｍ５ＥＣ，１区分の基本フレーム数２０個（従っ
て１区分数５０個ｍ５ＥＣ）、大区間における区分数５
０個（従って大区間の時間長１０８Ｅｃ、またその中に
含まれる基本フレーム数ｔｏｏｏ個）および大区間中に
おける代表フレーム数２５０個等と、特定の値を用いて
説明したが、勿論これらは一例を示したのみで何もこれ
らの値に限定される必要はない。

また区分的最適関数近似を行なうためのダイナミックプ
ログラミングの方法も一例を示したもので勿論これに限
定される必要はない。

さらにまた、音声の特徴パラメータベクトルとしてＬＳ
Ｐ（線スペクト対）を用いる方法について説明したが、
これもＬＡＦパラメータベクトルに限定される必要はな
く、例えばＬＰＣパラメータベクトルその他の特徴パラ
メータベクトルを用いて実施できることも明らかである
。

さらに、本実施例においては、区分的最適関数近似に用
いる関数として矩形近似を用いたが、この代わりに、線
形近似または台形近似を用いることもできる。

線形近似とは、選出されたつぎつぎの各代表ベクトルの
先端を直線で結び、これにより、代表される各基本フレ
ームのベクトルを直線補間にょシ決定してこれをこれら
の代表される基本フレームの実際のパラメータベクトル
のかわシに用いるもので、このような近似を行なった場
合における歪も、実際の各基本フレームのパラメータベ
クトルと、かわりに用いるベクトルとの各成分の差から
前述と同様圧して容易に求められるので、本実施例に用
いた手法を殆んどそのまま適用して、区分的最適関数近
似および総合最適フレーム選択を行なうことができる。

すなわち、区分的最適関数近似器により、各区分の代表
ベクトル数（代表フレーム数）を必要な範囲内で任意に
変えて最適線形近似を行なった場合の６歪をすべて求め
ておき、総合最適フレーム選択器においてこの結果を利
用して上述と全く同様な総合最適フレーム選択を行なう
。

つまシ、大区間中の各区分に対し、最初に同数の最小の
代表ベクトル数を与えるように仮想設定する。次にこの
設定において最大の歪を発生する区分を上述の結果を用
いて見出し、この区分の代表ベクトル数を一つ増し歪を
低減する。次にこうして更新された設定に対し再び最大
の歪を発生する区分を見出しこの区分の代表ベクトル数
を一つ増し、さらに歪を低減する。こうして各設定のス
テップにおいて最大の歪を発生する区分を見出し。

この区分の代表ベクトル数を増すことＫよシ、大区間全
体の代表ベクトル数を一つずつ増し、これが予め定めた
数になるまで以上のステップを繰返して総合最適フレー
ム選択を行なう。

なお、直線近似を行なった場合には合成側２の補間器２
０９は、デコーダ２０２から供給される吹矢の代辰パラ
メータベクトルとこれらのパラメータベクトル間の基本
フレーム数とを用いて直線補間を行なって各基本フレー
ムに対するパラメータベクトルを生成しこれを合成フィ
ルタ２０７に供給する。

また台形近似とは、音声情報の特徴として、音声情報の
激しく変化する過渡部分は、はぼ一定の約２０ｍ５ＥＣ
程度の時間長を有することを利用して、変化部分の時間
長を予め定めた一定の時間長（例えば２基本フレーム分
）とする台形関数を用いて最適近似を行なうもので音声
の特徴パラメータベクトルの最適近似にはとくに有効で
ある。このような台形近似を用いることによりパラメー
タベクトルの急激な変化に伴なう反響音等の悪影響を軽
減することができる。

このような台形近似を用いる場合についても、近似によ
る歪を求めることは本実施例に述べたのとほぼ同様に行
なうことができ、従って、上に述べた区分的最適関数近
似とこの結果を用いる総合最適フレーム選択とによる本
発明の方式はそのまま適用できることは明らかである。

また本実施例においては、分析側１においてメモ１Ｊ１
０９を設け、これにより、伝送路に送出するのに適する
形に整えられた音声情報を蓄積しておき、伝送路の都合
のよい時間を利用してこれを合成１１１２に伝送し、合
成側２においては、伝送された音声情報をそのままメモ
リ２０″１に蓄積し、使用者の都合のよいときにこれを
再生させるボイスメール等のいわゆる音声蓄積伝送装置
に本発明の方式を適用する例を示したが、これ以外のボ
コーダ等のような通常の音声分析合成装置に適用できる
ことは明らかである。この場合には、本実施例に示した
分析側のメモ１Ｊ１０９．および合成側のメモリ２０１
を省略することもできる。

さらにまた、予め蓄積している各種の短音声素片を指定
に応じて組合せて発生させる例えばパブリンクアドレス
装置等にも本方式を適用できる。

つまりこのような音声合成器に用いる各音声素片を生成
する場合に本方式を適用して情報量の圧縮および／また
は音質の改善を図ることができる。

本発明の方式によると、例えばｌ０８ＥＣ程度にも及ぶ
大区間に対する最適近似が行なわれているにもかかわら
ず、合成側においては音声を再現するに当って、区分時
間幅（２０ｍＳＥＣ程度）以上の時間遅れを必要としな
いという特徴を有している。これはボイスメール、パブ
リックアドレス等の装置に適用した場合に、使用者の要
求に応じて遅滞なく音声再現を可能にするという点で特
に有効である。

（発明の効果）以上述べたように本発明によると、基本フレームを１０
００個のオーダーで含むような音声ブロックに対してこ
の美大な数の基本フレームを含む音声ブロックを全体と
して可変長フレームによる最適近似を行なえるような可
変長フレーム音声分析合成方式を実現できる。

これによって、より効果的な音声情報量の圧縮および／
または音質の向上を達成でき、音声分析合成装置、音声
蓄積伝送装置および音声合成装置の性能向上を達成でき
る。

【図面の簡単な説明】

第１図は本発明の一実施例を示すブロック図および第２
図は前記実施例の総合最適フレーム選択器中のメモリの
ワークエリヤの内容を説明するための図である。図において、ｌ・・・・・・音声分析側、２・・・・・
・音声合成側、１０１・・・・・・低域Ｆ波器およびＡ
／Ｄ変換器ＣＬＰＦＩ！Ａ／Ｄ）、１０２・・・・・・
窓関数処理器、１０３・・・・・・ＬＳＰ分析器、１０
４・・・・・・区分的最適関数近似器、１０５・・・・
・・総合最適フレーム選択器、１０６・・・・・・量子
化器、１０９・・・・・・メモＩＪ、２０１・・・・・
・メモＩＪ、２０２・・・・・・デコーダ、２０３・・
・・・・パルス発振器、２０４・・・・・・雑音発生器
、２０５・・・・・・Ｖ／ＵＶ切替器、２０６・・・・
・・電力制御器、２０８・・・・・・Ｄ／Ａ変換器およ
び低域Ｆ波器（Ｄ／Ａ４ＬＰＦ）、２０９・・・・・・
補間器。ヌげ番号Ｉ＝（３）　　Ｅ’、”、　　、　　ン１：（：）、ｍ
ＥＴノＩ萼′Ｅ（ン　、　Ｅ（：）、、　Ｆ／アＴ＝：１３ノ　
　　Ｅ（ｄ）、　　、　　Ｅ（１）　０．７ｆ（，１１
）ノヨ′ン　　Ｅ二）、、　ｆｔ、）・　・Ｅｔａ）−
っ　Ｆ２．・・Ｆ、・・Ｆ／ＩＭ）第２図

Claims

【特許請求の範囲】予め定めた一定の分析周期ごとに周期的に入力音声信号
を分析して特徴パラメータベクトルを抽出する音声分析
手段と、予め定めた複数個の相連続する前記分析周期からなる各
区分ごとに各区分中の前記特徴パラメータベクトルから
任意の数の代表パラメータベクトルを選出して各区分を
区分的最適関数近似を行なった場合に得られる各区分ご
との前記代表パラメータベクトルの構成とこの場合の各
区分ごとの最適近似による残留歪とを演算する区分的最
適関数近似手段と、予め定めた複数個の相連続する前記区分からなる大区間
において前記区分的最適関数近似手段により演算された
各区分ごとの前記残留歪を比較して残留歪の最も大きい
区分の前記代表パラメータベクトルの構成をより多くの
前記代表パラメータベクトルを含む前記代表パラメータ
ベクトルの構成に置換えるという処理ステップを繰返す
ことにより前記大区間を最適近似する予め定めた数のす
べての代表パラメータベクトルを選出するようにした総
合最適フレーム選択手段と、を有することを特徴とする可変長フレーム音声分析合成
方式。