JPS6136800A - 可変長フレ−ム音声分析合成方式 - Google Patents

可変長フレ−ム音声分析合成方式

Info

Publication number
JPS6136800A
JPS6136800A JP15984684A JP15984684A JPS6136800A JP S6136800 A JPS6136800 A JP S6136800A JP 15984684 A JP15984684 A JP 15984684A JP 15984684 A JP15984684 A JP 15984684A JP S6136800 A JPS6136800 A JP S6136800A
Authority
JP
Japan
Prior art keywords
representative
frame
section
approximation
optimal
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP15984684A
Other languages
English (en)
Other versions
JPH0644199B2 (ja
Inventor
哲 田口
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
NEC Corp
Original Assignee
NEC Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by NEC Corp filed Critical NEC Corp
Priority to JP59159846A priority Critical patent/JPH0644199B2/ja
Publication of JPS6136800A publication Critical patent/JPS6136800A/ja
Publication of JPH0644199B2 publication Critical patent/JPH0644199B2/ja
Anticipated expiration legal-status Critical
Expired - Lifetime legal-status Critical Current

Links

Abstract

(57)【要約】本公報は電子出願前の出願データであるた
め要約のデータは記録されません。

Description

【発明の詳細な説明】 (技術分野) 本発明は可変長フレーム音声分析合成方式、とくに、例
えば10秒程度の比較的長い音声信号を全体として最適
な可変長フレーム処理を行なうようにした可変長フレー
ム音声分析合成方式に関するものである。
(従来技術) 例えばlO秒程度を単位とする音声信号の分析合成には
、ボイスメール、パブリックアドレス等の種種の利用分
野が考えられる。このような音声信号の分析合成に可変
長フレーム処理を適用して情報量の圧縮等を図る場合は
、一般に、下記のように行なわれる。
すなわち、例えば10秒の区間を50等分して。
200m5EC程度の区分を作プ、この各区分ととに独
立に可変長フレーム処理を行なうという方式%式% しかしながらこの方式によると、200m5ECの各区
分ととKは最適の可変長フレーム処理を行なうことがで
きるが、10秒を全体として見た場合には必らずしもま
だ最適化が達成されていないという欠点を有している。
一方、はじめからlO秒全全体一単位として、ダイナミ
ックプログラミング(DP)を用いた可変長フレーム処
理により最適化を行うことも理論的には可能であるが、
こうするとDPを行なうための演算量が美大なものとな
り、また分析合成装置では遅延が大とな夛、伝送路エラ
ーに対して復元性に欠ける等の問題が生じ現実的でない
(発明の目的) 本発明の目的は、10秒程度O比較的長い単位の音声信
号を全体として可変長フレーム処理による最適化を行危
い情報量のより効率的な圧縮を可能にする現実的な可変
長フレーム音声分析合成方式を提供するにある。
(発明の構成) 本発明の方式Vi、予め定めた一定の分析周期ごとに周
期的に入力音声信号を分析して特徴パラメータベクトル
を抽出する音声分析手段と、予め定めた複数個の相連続
する前記分析周期からなる各区分ごとに各区分中の前記
特徴パラメータベクトルから任意の数の代表パラメータ
ベクトルを選出して各区分を区分的最適関数近似を行な
った場合に得られる各区分ごとの前記代表パラメータベ
クトルの構成とこの場合の各区分ごとの最適近似による
残留歪とを演算する区分的最適関数近似手段と、予め定
めた複数個の相連続する前記区分からなる大区間におい
て前記区分的最適関数近似手段により演算された各区分
ごとの前記残留歪を比較して残留歪の最も大きい区分の
前記代表パラメータベクトルの構成をより多くの前記代
表パラメータベクトルを含む前記代表パラメータベクト
ルの構成に置換えるという処理ステップを繰返すととK
よシ前記大区間を最適近似する予め定めた数のすべての
代表パラメータベクトルを選出するようにした総合最適
フレーム選択手段とを有する。
(実施例) 次に図面を参照して本発明の詳細な説明する。
第1図は本発明の一実施例を示すブロック図である。
本実施例は音声分析側1と音声合成側2とよシなる。
分析側1はさらに、低域F波器およびA/D変換器(L
PF!A/D)lot 、窓関数処理器102、L8F
分析器103、区分的最適関数近似器104、総合最適
フレーム選択器105.量子化器106.音源情報分析
器107.コーダ108、およびメモリ109を含み、
また、合成側2は、メモリ201、デコーダ202、パ
ルス発振器203、雑音発生器204 、V/UV切替
器205、電力制御器206 、LAP合成フィルタ2
07 、D/A変換器および低域P波器CD/A&LP
F)20B 、および補間器209を含んでいる。
本実施例の動作は下記の通りである。
ライン1oooから入力した音声信号は、低域F波器お
よびA/D変換器(LPF4A/D)101において1
周波数帯域が例えば14kHzK制限された後、8kH
zのサンプリング周波数でサンプルされ、量子化されて
ディジタルデータに変換され。
こうして得られたデータは窓関数処理器102 K供給
される。
窓関数処理器102は供給されたデータの1ブロック分
(例えば240fンプル)を一時的に記憶し、これに予
め定まっている窓関数による荷重乗算を織こし、この処
理結果のデータt−LSP分析器103および音源情報
分析器107に供給する。窓関数処理器102によるこ
のような処理は例えばlomsEcごとの周期で繰返さ
れる。従って、LSF分析器103および音源情報分析
器107は16m5ECの周期で1ブロック分の窓関数
処理されたデータの供給を受ける。
さてLSP分析器103は供給された1ブロック分のデ
ータを用いて公知の手法によるLSP(線スペクトル対
)分析を行ない、LSPパラメータベクトルを決定する
。このLSPパラメータベクトルは、S(偶数)個の成
分をもつS次元のベクトル ’F= (PI 、 Pz 、 −−−、Pa )で、
この各成分Pi、Filは、このlブロック分の音声を
発声するときの声道の形態に関する情報を共振周波数の
組の形で抽出したデータである。上述のように、このよ
うfiLsPパラメータベクトルPの生成は10m5E
Cの基本分析周期ごとに行なわれ、かくして得られ九ベ
クトルPの各成分は、次の区分的最適関数近似器LO4
に各基本分析周期のlomsEc(以後これを基本フレ
ームと呼ぶ)ごとに供給される。
さて1区分的最適関数近似器104は、こうしてつぎつ
ぎに連続して供給されるパラメータベクトルのに個ずつ
を一つにまとめて取扱う。
すなわち、各基本フレームはそれぞれこの基本フレーム
に楓するパラメータベクトルによって代表されているが
、この相連続するに個の基本フレームを一つにまとめて
、これを−区分とし、この各区分ごとK、以下に示すよ
うな区分的最適関数近似の処理を行なう。ここではこの
区分的最適関数近似に用いる関数として矩形近似を行な
う場合について説明する。また1区分中の基本7レーム
数を20個(つますに=20)、したがって1区分の時
間長を200m5ECと仮定する。
さて、区分的最適関数近似器104による処理は以下の
ようなものである。
すなわち、1区分中の20個の基本フレームの中から1
個(’ ” 1+  2+ ・・・、20)の代表フレ
ームを選び、この代表フレームに属するパラメータベク
トルを用いて、この区分中の他の基本フレームに属する
パラメータベクトルをも代表(近似)させ、これKよっ
て矩形近似を行なう。こうして、この近似による歪が最
小になるように、前述の1個の代表フレーム(代表ベク
トル)を選出する。
またこのときの1個の代表フレームで近似したときく遅
し得られる歪の最小値E1  も同時に求める。
なお、この場合の矩形近似による歪は以下のようにして
演算される。
例えば今、i=2として、2個の代表フレームのパラメ
ータベクトルを用いて矩形近似を行なう場合について説
明すると、第1の代表フレームとして第4番目の基本フ
レームが選択され、この代表フレームに属するパラメー
タベクトルy filを第1の代表ベクトルとして第1
番目の基本フレームから第9番目の基本フレームまでの
9個の区間を近似し、次に第2の代表フレームとして、
第13番目の基本フレームが選択され、この代表フレー
ムに属するパラメータベクトル′F(〜第2の代表ベク
トルとして残シの第10番目の基本フレームから第20
番目の基本フレームまでの11個の区間を近似した場合
における矩形近似による歪は以下に示すようKして求め
られる。
k−11−1k−Iot−1 但り、Wt(e = 1. 2. −8 )は、パラメ
ータベクトルの各成分のスペクトル位置における差によ
って歪に与えΣ影響が異なってくるのを補正するための
予め定めた荷重係数である。
例えば1=2と与え死場合の最適矩形近似とは。
このようKして求められる歪が最小になるような、2個
の代表ベクトルを含む代表パラメータベクトルの構成を
決定すること、つtカ2個の代表フレームと、各代表フ
レームに属するパラメータベクトルが代表すべき2個の
基本フレーム区間とを決定することである。これととも
Kこの決定された代表パラメータベクトルの構成により
達し得られた残留歪の値をもデータとして求めておく。
以上に述べた演算はダイナミックプログラミング(DP
)を用いて容易に行なうことができる。
今、区分の最初からa個の基本フレームでできる区間を
、最後の基本フレーム(第3番目の基本フレーム)を含
むb個の代表フレームで近似した場合に達し得られる最
小の歪(残留歪)をG(b。
a)と定義すると、b=l、つまシ代表ベクトルの数が
1個の場合には、代表パラメータベクトルの構成はν3
0が第1番目から第8番目までの基本フレームの区間を
代表するので残留歪G(1,a)は。
となりs””1〜20に対して一義的に定まる。
但しd、、aは第に番目の基本フレームのパラメータベ
クトルを第8番目の基本フレーム(代表フレーム)のパ
ラメータベクトル(代表ベクトル)で代表した場合の歪
である。
次に、第X番目の基本フレームから第7番目の基本フレ
ームの区間(但しy ) xとする)を両端を代表フレ
ームとして近似する場合(っまシこの区間を代表ベクト
ルY81と戸を用いて近似する場合)に達し得られる最
小の歪をD x、 yで表わすとD貢、 y は で容易に求めることができる。このDl、Fは、代表ベ
クトルフ0)の代表する区間を最初は第X番目の基本フ
レームだけ、次には第X番目と第X十1番目の基本フレ
ームの区間、さらにつぎには第X番目、 館X+ 1番
目および第X+2番の基本フレームの区間というように
火成に増してゆき、残シの区間をy(y)で代表させた
場合の歪をそれぞれ求めてその中の最小の歪を選出した
ものである。
さて以上に求めたG(1,a)とD z 、 yとを用
いて、代表フレーム数を2個とした場合のG(2゜a)
を下記のようにして容易に求めることができる。
すなわち、第1の代表フレームとして、第a −1番目
の基本フレームを選んだ場合(勿論第2の代表フレーム
は第8番目の基本フレームである)の歪は明らかに上式
右辺の第1番目に示すG(1゜a−1)である。
次に第1の代表フレームを−クだけ前に進めて第a−2
番目に選んだ場合には達し得られる歪の最小値は、上式
右辺の第2番目に示すG(1,a−2)+Da−2.a
となる。すなわち、G(1゜a−2)は第1番目から第
a−2番目までの区間を第a −2番目の基本フレーム
による代表フレーム(代表ベクトルν(a−2))で代
表した場合の歪を表わしDa−3aは第a−2番目から
第8番目までの区間をその両端の第a−’1番目と第8
番目の基本フレームによる代表フレーム(代表ベクトル
F(a−2)と戸で代表した場合に達し得られる最小の
歪を表わしていてこの場合の最小の歪は両者の和になる
ことは明らかである(第a −’1番目の基本フレーム
の歪はOになるのでo(i、  a−2)とD a −
2との代表する区間はこの基本フレームでダプッてもよ
い)。
同様にして第1の代表フレームを一つずつ前に進め、こ
のときに達し得られる最小歪を火成に一求める。
第1の代表フレームを最も前に進めて、第1番目の基本
フレームに選んだ場合には、達し得られる最小歪として
上式右辺の最も下に示すG(1゜1)+Dx、aになる
ことは明らかである。勿論G(1,1)=0である。
以上よシ、第1番目から第8番目までの区間を。
2個の代表フレーム(但しその中の一つは第8番目の基
本フレームを代表フレームとする)で代表した場合に達
し得られる最小歪(残留歪) G (2゜a)は以上に
得られたすべての歪の中の最小の歪を選出することによ
って求められこれは上式によって示される。こうして残
留歪G(2,a)が求められるが、これとともにこの残
留歪を与える場合の代表パラメータベクトルの構成、つ
まり二つの代表ベクトルpへp″ゝおよびそれぞれの代
表ベクトルが代表する区間幅Bx、 a  Blとが定
まる。こうしてG(2,a)およびそれに対応する代表
パラメータベクトルの構成もa=l〜20に対してすべ
て求められる。
さらに代表フレーム数を一個増した場合のG(3、a)
は、上に求めたG(2,a)とDx、 、を用いてG(
2,a)と全く同様にして下式により求められる。
こうしてG(3,a)がa=3〜20に対して求められ
ると、次に代表フレーム数をさらに一個増したG(4,
a)が全く同様にしてa=4〜20に対して求められる
このようにして、DPを用いることにより代表フレーム
数を火成に増して達し得られる歪の最小値を求めてゆく
ことKよシ、任意の1.j(但しj=1. 2.・・・
20 : i<j )に対するQ(i。
])および、そのときの代代表パラメータペクトの構成
つまり、1個の代表ベクトルpと各代表ベクトルが代表
する基本フレームの区間幅の組を、すべて決定すること
ができる。
こうして求められたG(i、20)は、基本フレーム2
0個からなる前述の一つの区分を1個の代表フレームで
近似する場合に達し得られる歪の最小値を表わしている
が、前述したようにi個の代表フレームの中の1個は第
20番目の基本フレームを用いるという抱束条件が入っ
ている。
この抱束条件を除いて、基本フレーム20個からなる一
区分の中に任意の1個の代表フレームを選んで最適近似
をする場合に達し得られる歪の最小値(残留歪)をEl
とすると、EIは、上に求め九〇(i、j)を用いて以
下のようKして求められる。
今、第に番目の基本フレームから第20番目の基本フレ
ームまでの区間を第に番目の基本フレームを代表フレー
ムとして用いて(つまり¥ (klを用いて)近似する
場合の歪をDkで表わすと、として容易に求められる。
このI5kを用いると、例えばElは、として求められ
、また任意のi(但しt=t、  2゜・・・20)に
対するEiは として求めることができる。こうしてEiが求まると、
前述のように、この残留歪を与える代表ノくラメータベ
クトルの構成つまりi個の代表ベクトルの組と、これら
の1個の各代表ベクトルが代表する基本フレームの区間
幅を表わす1個の数の組とが決定される。
さて、区分的最適関数近似5104は、基本フレーム2
0個分(時間長200m5EC)からなる各区分ごとに
、上述の演算を行なって、任意の1個の代表ベクトルを
含む代表パラメータベクトルの構成と、この構成をとる
場合の残留歪とを決定する。つまり、区分的最適関数近
似器104は、各区分ととK、上述の演算を行なってE
i(但しi=l〜20のすべて)の組(EJおよび、各
E1に対応するi個の代表ベクトルVの組(V)および
これらの代表ベクトルの代表するi個の区間の幅Bの組
(B)を決定し、これらのデータを次の総合最適フレー
ム選択器105に供給する。
総合最適フレーム選択器105は、以上に述べた基本フ
レーム20個分よシなる1区分をさらに例えば50個分
集めてなる大区間(例えば時間長108Ec)K対する
最適フレーム選択の処理を行なう処理器である。
選択器105は上述のようにして供給された、各区分毎
のデータ(El、(F)および(B)をそれぞれ少くも
1大区間分(50区分分)だけ貯わ見られるメモリを有
し、一つの大区間分の上述のデータの供給が終了すると
、これらのデータを用いて以下に説明するような総合最
適フレーム選択処理を開始する。
さて、各区分ごとの(E)は選択器105のメモリのワ
ークエリヤに1第2図に示すよう表マトリクス状のテー
ブルとして格納される。但しElの上方のサフィックス
の(j)はこれが第j番目の区分の歪であることを示し
、下方のサフィックスのiは、この区分をi個の代表フ
レーム(i個の代表ベクトル)で最適矩形近似を行なっ
た場合に遅し得られる歪の最小値(残留歪)であること
を表わしている。従って同じ(幻の値に対しては(同じ
縦列内においては゛)iが大きくなる程E(H)が小さ
くなることは明らかである。
本実施例においては、上述の如く、区分的最適関数近似
器104は、区分的最適関数近似により、各区分毎に、
任意のi個を代表フレームとして選んだ場合における最
適近似の残留歪Ei’i−すべて求めてこれに関係する
データを供給しているが、実際に各区分毎の代表パラメ
ータベクトル構成としてこれらの中からいかにその一つ
を選択すべきかKついてはこれを決定していない。
これに対して総合最適フレーム選択器105は、各大区
間を代表する代表フレーム(代表ベクトル)の総数を、
予めN個と固定した場合に、できるかぎ夛この大区間に
おける全体の歪が、各区分ごとにバランスして小さくな
るように1 この大区間における代表フレーム構成を選
択決定する機能を有している。
この大区間における代表フレーム(代表ベクトル)の総
数Nとしては、各区分毎の代表7レーム数の平均値を、
例えば5個とするとN=5X50=250となる。
総合最適フレーム選択処理は、上述の第2図に示すテー
ブルを用いて以下に示すアルゴリズムに従って行なわれ
る。
(AO):最初に、各区分ごとに代表フレームを1個ず
つ選出するものとして、N=50と設定する。この場合
には、上述のマトリクスの第1の横列E甲(但しj=t
〜50)の内容が各区分の歪を表わしている。勿論各区
分内においては1個の代表フレーム(代表ベクトル)を
用いた場合の最適近似が行なわれている。
(At ) :上述の第1の横列EfH)(J=1〜5
0)の内容を比較して、この中の最大値をとるE甲を選
出する。すなわち上述のような大区間の代表フレーム構
成をとった場合において最大の歪゛   を生ずる区分
を選出する。
(A2):上で選出された最大値をE、とする。
すなわち、第m番目の縦列(第m番目の区分)に属する
歪が選出されたとすると、その縦列のすべてのE2 t
”−個分だけ上方にシフトする。すなわち、E?をE2
+t:cおきかえる(但し、t=t、2゜・・・、 1
9)。
明らかに* E2Gは(ハの値如何にかかわらず常に0
であるので、このような上方シフトを行なうことによっ
て、シフトされた縦列の後尾にはOが一つだけ増すこと
になる。
以上の(AI)、(A2)による処理は、この大区間の
代表フレーム構成において最大の歪を発生する区分を見
出し、この区分の代表フレーム数だけを1個増して、こ
の区分をより高度の近似に更新するという処理になって
いる。
(A3):上述の(A2)の処理により大区間の代表フ
レーム数が1個増したことに対応してNの値を1だけ増
加する。この結果Nの値が予め定めた大区間における代
表フレームの総数250に達した場合には、次の(A4
)の処理を行ない、これに達しない場合には、再び(A
t)の処理に戻り、この大区間の代表フレーム構成にお
いて最大歪を発生する区分を見出し、この区分の代表フ
レーム数だけを1個増加して最適近似の更新を行なうと
いう処理を繰返す。
(A4):以上の処理により、前述のE甲テーブルの第
1番目の横列には、この大区間を250代表フレームを
用いて最適近似を行なった場合の各区分に対する残留歪
が示されている。またこのテーブルの各j(j=1〜5
0)K対する縦列の後尾に含まれる0の数をMjとする
と、前述のような理由から、この数Mjは、恰度この大
区間に対する近似が行なわれた場合の、各j番目の区分
に対する代表フレームの数を表わすことKなる。
以上の処理により、大区間を250代表フレームを用い
て最適近似を行なった場合の、各区分における代表ベク
トルの数、各代表ベクトルの成分の値、および各代表ベ
クトルが代表する区間幅の構成が決定されたので、選択
器105は、これらの各区分の代表ベクトルの成分の値
、およびこの代表ベクトルが代表する各区間幅(基本フ
レーム数)の値を貯えられているメモリ領域から読出し
て、各代表ベクトルの成分の値をつぎつぎに、量子化器
106 K供給するとともに、この各代表ベクトルが代
表する区間幅(基本フレーム数)の値を、このベクトル
の各基本フレームごとの繰返しを指定する数としてコー
グ108に供給する。
量子化器106は、供給された各代表ベクトルの成分を
、伝送路および伝送品質の要求より定まる粗さで再量子
化した後、コーグ108に供給する。
一方、音源情報分析器107は窓関数処理器102から
供給された音声データより、ピッチ情報、有声音/無声
音情報(V/UV)、音量情報等を公知の手段を用いて
抽出し、これらの情報をコーグlO8に供給する。
コーグ108は、以上のようKして供給された各情報を
、伝送に適する形に合成符号化してメモリ109に供給
する。
メモリ109は、供給されたデータを音声の蓄積伝送を
行々うために一時記隠し、伝送路1200の空き状態に
応じて合成側2に送出する。
さて、合成側2においては、伝送路1200を介して伝
送されたデータは、いったん、メモ’J201に貯えら
れ、音声発生の必要に応じてこのメモリ201から流出
され、以下の処理によって音声が再現される。
すなわち、メモリ201から続出されたデータは、デコ
ーダ202によってデコードされ、これにより分析側1
のコーグ108の入力側に供給されたデータが復元され
る。
復元されたデータ中の、音源情報分析器107からのピ
ッチ情報は、パルス発振器203に供給され、この発振
周波数がピッチの基本周波数になるように制御する。ま
た、有声/無声情報(V/UV)は、V/UV切替器2
05の切替制御信号として供給され、これが有声音(V
)を指定する場合には、切替器205がパルス発振器2
03の出力側を選択し、無声音(UV)を指定する場合
には、切替器205が雑音発生器204の出力側を選択
するように制御する さらにまた、音量情報は、電力制御器206の制御情報
として供給され、これによ)電力制御器206が、切替
器205の選択比、力を可変増幅してその出力が指定さ
れた電力量になるように制御する。
こうして得られた電力制御器206の出力は、LSP合
成フィルタを階動する音源信号としてLSP合成フィル
タ207に供給される。
一方、デコーダ202からデコードされた、各代表ベク
トルの各成分、および各代表ベクトルが代表する各区間
幅の情報は、補間器209を介してLSP合成フィルタ
207に供給される。
補間器209は供給された各代表ベクトルの各成分を、
これらの各代表ベクトルが代表する区間幅分だけ各基本
フレームごとに繰返し再生することにより矩形近似に対
する補間を行ない、各基本フレーム毎のLSPパラメー
タベクトルの各成分を生成してこれをLSF合成フィル
タ207に供給する。
LSP合成フィルタ207は、こうして供給されたLS
Pパラメータベクトルの各成分と音源信号とを用いて公
知の手段により音声信号を合成しこれを、D/A変換器
および低域F波器208に出力する。
かくして、合成されたディジタル音声信号は、アナログ
音声信号に変換され、不要な周波数成分が除かれて出力
ライン2000から出力される。
以上のように本実施例によると、伝送される音声情報は
、200m5EC程度の各区分毎に、この区分に割当て
られた代表フレーム数に対する最適近似罠なっているば
か9でなく、これらの区分の50個程度からなるl08
ECにおよぶ大区間においても、各区分に対する歪がよ
くバランスされた形の最適近似釦なっている。
すなわち、音声情報の激しく変化する区分においては、
よシ多くの代表フレームを用いることKよシ、より高度
の最適近似を行ない、一方音声情報の変化の少ない区分
に対しては少ない数の代表フレームによる粗い近似を行
なっていて、伝送すべき全情報量を一定に制限した場合
に、できるだけ各区分に対する歪がバランスして小さく
なるような最適近似が行なわれていることになる。これ
により各区分の代表フレーム数を一定に固定した場合に
較べて、大区間内の各区分ごとの音声情報量のゆらぎを
一層忠実に追随することができるため、よシ効率的な情
報量の圧縮または、よシ高品質の音声の再現が達成され
る。
しかも、例えば基本分析フレームを1000個も含む1
0秒もの大区間を、区分的最適近似で述べたような手法
により直接この大区間全体に対して最適近似を行なおう
とすると、美大な計算量となってしまって、その実現は
殆んど不可能になる。
本実施例においては、この大区間を、200m5EC程
度の通常広く用いられている区分に分割し、この各区分
に対する区分的最適関数近似により、まず各区分に任意
の数の代表フレームを割当てた場合の各区分に対する最
適近似を行ないそれ等の場合の6歪を求めておき、これ
を巧に利用することKよって大区間に対する最適近似を
実現可能なものとしている。
なお、以上は本発明の一実施例を示したもので本発明は
以上の実施例に限定されるものでないことは明らかであ
る。
例えば、以上の実施例においては、基本フレーム長とし
てl0m5EC,1区分の基本フレーム数20個(従っ
て1区分数50個m5EC)、大区間における区分数5
0個(従って大区間の時間長108Ec、またその中に
含まれる基本フレーム数tooo個)および大区間中に
おける代表フレーム数250個等と、特定の値を用いて
説明したが、勿論これらは一例を示したのみで何もこれ
らの値に限定される必要はない。
また区分的最適関数近似を行なうためのダイナミックプ
ログラミングの方法も一例を示したもので勿論これに限
定される必要はない。
さらにまた、音声の特徴パラメータベクトルとしてLS
P(線スペクト対)を用いる方法について説明したが、
これもLAFパラメータベクトルに限定される必要はな
く、例えばLPCパラメータベクトルその他の特徴パラ
メータベクトルを用いて実施できることも明らかである
さらに、本実施例においては、区分的最適関数近似に用
いる関数として矩形近似を用いたが、この代わりに、線
形近似または台形近似を用いることもできる。
線形近似とは、選出されたつぎつぎの各代表ベクトルの
先端を直線で結び、これにより、代表される各基本フレ
ームのベクトルを直線補間にょシ決定してこれをこれら
の代表される基本フレームの実際のパラメータベクトル
のかわシに用いるもので、このような近似を行なった場
合における歪も、実際の各基本フレームのパラメータベ
クトルと、かわりに用いるベクトルとの各成分の差から
前述と同様圧して容易に求められるので、本実施例に用
いた手法を殆んどそのまま適用して、区分的最適関数近
似および総合最適フレーム選択を行なうことができる。
すなわち、区分的最適関数近似器により、各区分の代表
ベクトル数(代表フレーム数)を必要な範囲内で任意に
変えて最適線形近似を行なった場合の6歪をすべて求め
ておき、総合最適フレーム選択器においてこの結果を利
用して上述と全く同様な総合最適フレーム選択を行なう
つまシ、大区間中の各区分に対し、最初に同数の最小の
代表ベクトル数を与えるように仮想設定する。次にこの
設定において最大の歪を発生する区分を上述の結果を用
いて見出し、この区分の代表ベクトル数を一つ増し歪を
低減する。次にこうして更新された設定に対し再び最大
の歪を発生する区分を見出しこの区分の代表ベクトル数
を一つ増し、さらに歪を低減する。こうして各設定のス
テップにおいて最大の歪を発生する区分を見出し。
この区分の代表ベクトル数を増すことKよシ、大区間全
体の代表ベクトル数を一つずつ増し、これが予め定めた
数になるまで以上のステップを繰返して総合最適フレー
ム選択を行なう。
なお、直線近似を行なった場合には合成側2の補間器2
09は、デコーダ202から供給される吹矢の代辰パラ
メータベクトルとこれらのパラメータベクトル間の基本
フレーム数とを用いて直線補間を行なって各基本フレー
ムに対するパラメータベクトルを生成しこれを合成フィ
ルタ207に供給する。
また台形近似とは、音声情報の特徴として、音声情報の
激しく変化する過渡部分は、はぼ一定の約20m5EC
程度の時間長を有することを利用して、変化部分の時間
長を予め定めた一定の時間長(例えば2基本フレーム分
)とする台形関数を用いて最適近似を行なうもので音声
の特徴パラメータベクトルの最適近似にはとくに有効で
ある。このような台形近似を用いることによりパラメー
タベクトルの急激な変化に伴なう反響音等の悪影響を軽
減することができる。
このような台形近似を用いる場合についても、近似によ
る歪を求めることは本実施例に述べたのとほぼ同様に行
なうことができ、従って、上に述べた区分的最適関数近
似とこの結果を用いる総合最適フレーム選択とによる本
発明の方式はそのまま適用できることは明らかである。
また本実施例においては、分析側1においてメモ1J1
09を設け、これにより、伝送路に送出するのに適する
形に整えられた音声情報を蓄積しておき、伝送路の都合
のよい時間を利用してこれを合成1112に伝送し、合
成側2においては、伝送された音声情報をそのままメモ
リ20″1に蓄積し、使用者の都合のよいときにこれを
再生させるボイスメール等のいわゆる音声蓄積伝送装置
に本発明の方式を適用する例を示したが、これ以外のボ
コーダ等のような通常の音声分析合成装置に適用できる
ことは明らかである。この場合には、本実施例に示した
分析側のメモ1J109.および合成側のメモリ201
を省略することもできる。
さらにまた、予め蓄積している各種の短音声素片を指定
に応じて組合せて発生させる例えばパブリンクアドレス
装置等にも本方式を適用できる。
つまりこのような音声合成器に用いる各音声素片を生成
する場合に本方式を適用して情報量の圧縮および/また
は音質の改善を図ることができる。
本発明の方式によると、例えばl08EC程度にも及ぶ
大区間に対する最適近似が行なわれているにもかかわら
ず、合成側においては音声を再現するに当って、区分時
間幅(20mSEC程度)以上の時間遅れを必要としな
いという特徴を有している。これはボイスメール、パブ
リックアドレス等の装置に適用した場合に、使用者の要
求に応じて遅滞なく音声再現を可能にするという点で特
に有効である。
(発明の効果) 以上述べたように本発明によると、基本フレームを10
00個のオーダーで含むような音声ブロックに対してこ
の美大な数の基本フレームを含む音声ブロックを全体と
して可変長フレームによる最適近似を行なえるような可
変長フレーム音声分析合成方式を実現できる。
これによって、より効果的な音声情報量の圧縮および/
または音質の向上を達成でき、音声分析合成装置、音声
蓄積伝送装置および音声合成装置の性能向上を達成でき
る。
【図面の簡単な説明】
第1図は本発明の一実施例を示すブロック図および第2
図は前記実施例の総合最適フレーム選択器中のメモリの
ワークエリヤの内容を説明するための図である。 図において、l・・・・・・音声分析側、2・・・・・
・音声合成側、101・・・・・・低域F波器およびA
/D変換器CLPFI!A/D)、102・・・・・・
窓関数処理器、103・・・・・・LSP分析器、10
4・・・・・・区分的最適関数近似器、105・・・・
・・総合最適フレーム選択器、106・・・・・・量子
化器、109・・・・・・メモIJ、201・・・・・
・メモIJ、202・・・・・・デコーダ、203・・
・・・・パルス発振器、204・・・・・・雑音発生器
、205・・・・・・V/UV切替器、206・・・・
・・電力制御器、208・・・・・・D/A変換器およ
び低域F波器(D/A4LPF)、209・・・・・・
補間器。 ヌげ番号 I=(3)  E’、”、  、  ン1:(:)、m
ETノI 萼′E(ン 、 E(:)、、 F/アT=:13ノ 
  E(d)、  、  E(1) 0.7f(,11
)ノヨ′ン  E二)、、 ft、)・ ・Eta)−
っ F2.・・F、・・F/IM) 第2図

Claims (1)

  1. 【特許請求の範囲】 予め定めた一定の分析周期ごとに周期的に入力音声信号
    を分析して特徴パラメータベクトルを抽出する音声分析
    手段と、 予め定めた複数個の相連続する前記分析周期からなる各
    区分ごとに各区分中の前記特徴パラメータベクトルから
    任意の数の代表パラメータベクトルを選出して各区分を
    区分的最適関数近似を行なった場合に得られる各区分ご
    との前記代表パラメータベクトルの構成とこの場合の各
    区分ごとの最適近似による残留歪とを演算する区分的最
    適関数近似手段と、 予め定めた複数個の相連続する前記区分からなる大区間
    において前記区分的最適関数近似手段により演算された
    各区分ごとの前記残留歪を比較して残留歪の最も大きい
    区分の前記代表パラメータベクトルの構成をより多くの
    前記代表パラメータベクトルを含む前記代表パラメータ
    ベクトルの構成に置換えるという処理ステップを繰返す
    ことにより前記大区間を最適近似する予め定めた数のす
    べての代表パラメータベクトルを選出するようにした総
    合最適フレーム選択手段と、 を有することを特徴とする可変長フレーム音声分析合成
    方式。
JP59159846A 1984-07-30 1984-07-30 可変長フレ−ム音声分析合成方式 Expired - Lifetime JPH0644199B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP59159846A JPH0644199B2 (ja) 1984-07-30 1984-07-30 可変長フレ−ム音声分析合成方式

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP59159846A JPH0644199B2 (ja) 1984-07-30 1984-07-30 可変長フレ−ム音声分析合成方式

Publications (2)

Publication Number Publication Date
JPS6136800A true JPS6136800A (ja) 1986-02-21
JPH0644199B2 JPH0644199B2 (ja) 1994-06-08

Family

ID=15702512

Family Applications (1)

Application Number Title Priority Date Filing Date
JP59159846A Expired - Lifetime JPH0644199B2 (ja) 1984-07-30 1984-07-30 可変長フレ−ム音声分析合成方式

Country Status (1)

Country Link
JP (1) JPH0644199B2 (ja)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH02282300A (ja) * 1989-01-25 1990-11-19 Nec Corp 可変長フレーム型ボコーダ
JPH04101200A (ja) * 1990-08-21 1992-04-02 Nec Corp 音声分析合成装置

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH02282300A (ja) * 1989-01-25 1990-11-19 Nec Corp 可変長フレーム型ボコーダ
JPH04101200A (ja) * 1990-08-21 1992-04-02 Nec Corp 音声分析合成装置

Also Published As

Publication number Publication date
JPH0644199B2 (ja) 1994-06-08

Similar Documents

Publication Publication Date Title
US6298322B1 (en) Encoding and synthesis of tonal audio signals using dominant sinusoids and a vector-quantized residual tonal signal
JP3481251B2 (ja) 代数的符号励振線形予測音声符号化方法
JP4005359B2 (ja) 音声符号化及び音声復号化装置
US5682502A (en) Syllable-beat-point synchronized rule-based speech synthesis from coded utterance-speed-independent phoneme combination parameters
JPH06222797A (ja) 音声符号化方式
JPH10307599A (ja) スプラインを使用する波形補間音声コーディング
JPS62159199A (ja) 音声メツセ−ジ処理装置と方法
US4542524A (en) Model and filter circuit for modeling an acoustic sound channel, uses of the model, and speech synthesizer applying the model
JP3064947B2 (ja) 音声・楽音符号化及び復号化装置
JP2000155597A (ja) デジタル音声符号器において使用するための音声符号化方法
JP4359949B2 (ja) 信号符号化装置及び方法、並びに信号復号装置及び方法
KR100422261B1 (ko) 음성코딩방법및음성재생장치
US5799271A (en) Method for reducing pitch search time for vocoder
JP2000132193A (ja) 信号符号化装置及び方法、並びに信号復号装置及び方法
JP2600384B2 (ja) 音声合成方法
JPS6136800A (ja) 可変長フレ−ム音声分析合成方式
JP3268750B2 (ja) 音声合成方法及びシステム
JP3916934B2 (ja) 音響パラメータ符号化、復号化方法、装置及びプログラム、音響信号符号化、復号化方法、装置及びプログラム、音響信号送信装置、音響信号受信装置
JP2796408B2 (ja) 音声情報圧縮装置
JP3731575B2 (ja) 符号化装置及び復号装置
KR920008259B1 (ko) 포만트의 선형전이구간 분할에 의한 한국어 합성방법
JPH08234795A (ja) 音声符号化装置
JP2539351B2 (ja) 音声合成方法
JPH10111700A (ja) 音声圧縮符号化方法および音声圧縮符号化装置
JP3112462B2 (ja) 音声符号化装置