JPS63500681A

JPS63500681A - マルチレベル・フィルタ励起を用いる音声合成

Info

Publication number: JPS63500681A
Application number: JP61504055A
Authority: JP
Inventors: プレザス，デミトリオス　パノス; トムソン，ディヴィッド　リン
Original assignee: アメリカンテレフオンアンドテレグラフカムパニ−
Priority date: 1985-08-28
Filing date: 1986-07-24
Publication date: 1988-03-10
Anticipated expiration: 2013-04-08
Also published as: JP2738533B2; CA1258316A; WO1987001500A1; KR880700388A; EP0235180B1; EP0235180A1; KR970001167B1; US4890328A

Abstract

(57)【要約】本公報は電子出願前の出願データであるため要約のデータは記録されません。

Description

【発明の詳細な説明】マルチレベル・フィルタ励起を用いる音声合成茨五分互本発明は圧縮して記ｔαまたは伝送し、その後に合成するための人間の音声信号のディジクル符号化に係り、特に人間の音声の再生物を発生するべく合成フィルタを励起する合成器中で使用される信号の型の関する。

尖里■宣量音声を低ビツト速度で記憶または伝送するために音声を表わすのに要求される１秒当りのビット数を最小化するように人間の音声をディジタル化し、次いで符号化する方法が知られている。アナログ音声サンプルは通常幅が２０ミリ秒のオーダの離散的な時間長を有するセグメント即ちフレームに分割される。サンプリングは典型例では８ｋＨｚの速度で実行され、各サンプルはマルチビットのディジタル数値Ｇこ符号化される。相続く符号化されたサンプルは更に人間の声道をモデル化する適当なフィルタの係数／パラメータを決定する線形予測符号器（ＬＰＧ）で処理される。フィルタのパラメータは予め定められた数の以前のサンプル値の重み付けられた和に基づいて各信号サンプルの現在の値を推定するのに使用することが出来る。フィルタのパラメータは声道の伝達関数のフォルマント構造をモデル化する。音声信号は解析的には励起信号とフォルマント伝達関数より成るものと見做される。励起成分は喉頭より生し、フォルマント成分は声道の残りの部分に対し励起成分を作用させることより生じる。励起成分は更に声帯により空気流に分与された基本周波数が存在するか否かに依存して有声または無声に分類される。声帯により空気流に分与された基本周波数が存在する場合には、励起成分は有声と分類される。

励起が無声であると、励起成分は従来技術にあっては単に白色雑音と分類される。音声を低ビツト速度で伝送するべ（符号化するためには、音声のセグメントに対するＬＰＧ係数を決定し、音声を再生する復号回路にこれらの係数を転送する必要がある。更に、励起成分を決定し、この成分を復号回路、即ち合成器に転送する必要がある。

合成器で使用される励起を決定する１つの方法として米国特許第４，４７２，８３２号中で述べられているマルチパルス励起モデルがある。この方法では各フレームに対してパルスの数を決定し、該パルスはフォルマント・フィルタを励起するべく合成器によって使用される。これらパルスは前出の特許で述べられている合成による分析法によって決定される。このマルチ・パルス励起モデルは９、６　ｋｂｓのビット速度では良好に動作するがより低いピント速度では音声合成の品質は劣化し始める。更に、音声の有声領域期間′中、合成された音声は多少粗くなり、元の音声と異って来る。マルチ・パルス励起モデルの他の問題点はパルスの計算は多数の複雑な数学的操作を必要とするため各フレームに対しパルスを決定するのに多大の計算を必要とすることである。

ＬＰＧ合成音声に対する励起を決定するのに使用される他の方法は音声領域期間中に喉頭によって発生されるピンチ、即ち基本周波数を決定することである。合成器はピッチを受信すると相応する周波数を発生してフォルマント・フィルタを励起する。音声が無声であると考えられる期間中、その事実が合成器に伝送され、合成器は白色雑音を使用してフォルマント・フィルタを励起する。

この方法の問題点は白色雑音励起は破裂性子音、有声と無声の音声フレーム系列の変位点および無声であると誤って判定された有声フレームに対しては不十分な励起であることである。この問題点の結果、合成された音声は元の音声と同じ音には聞えないことになる。

前述のことより、音声の有声および無声領域の両方を正確にモデル化出来、無声および有声フレーム系列の間の転移領域を適正に取扱い、かつ破裂性子音も再生するような励起モデルの必要性が存在する。

又尻立旦！前述の問題点は本発明に従い図示の実施例により解決された。

この実施例では声道をモデル化するフィルタを励起するのに使用する励起として音声の有声セグメント期間中は基本周波数を使用し、音声の雑音セグメント期間中は白色雑音励起を使用し、有声でも無声でもないセグメント期間中は経済的に効率的な方法で計算されたパルスを使用している。励起モデルは整流された残差信号の平均振幅に関する音声サンプルの残差信号の分散と関連した闇値に基づいていつ雑音またはパルス励起を使用するかを決定する。

図示の実施例は人間の音声に応動して音声をディジタル化および量子化して複数個の音声フレームにするサンプルおよび量子化回路を含んでいる。パラメータ・ユニットは各々の音声フレームに対する声道を定義する音声パラメータの組を計算するのに使用され、他のユニットはフレームの内どれが有声であり、どれが無声であるかを指示するのに使用される。各フレームに対し、ピッチ検出ユニットはフレームの各々に対するピッチを決定し、他の励起ユニットは複数個の他の型の励起情報を発生する。チャネル符号器／組合せユニットは有声と指示されたフレームに応動してピンチ情報を音声パラメータの組と組合わせて伝送し、無声と指示されたフレームに応動して他の型の励起情報の１つを音声パラメータの組と組合わせて伝送する。

他の励起ユニットはパルス型励起を発生するかあるいは雑音型励起を合成器で使用すべきことを指示する。パルス型励起は各フレームに対する音声サンプルから残差サンプルを計算し、これら残差サンプルから最大パルスの部分集合を決定することにより発生される。このパルスの部分集合は励起の１つの型としてチャネル符号器により伝送されるパルス型励起を表わす。

本システムは各フレームに対し残差サンプルの分散および整流された残差サンプルの平均振幅を計算することにより雑音型励起を使用するのか、あるいはパルス型励起を使用するのかを選択する。次に残差の分散と整流された残差の平均振幅の二乗の比較が行なわれる。分散と平均振幅の二乗の比較の結果、予め定められた闇値より大である場合にはパルス型励起情報を選択すべきことが指示される。

また、音声パラメータの組はフレームの各々に対し線形予測符号化パラメータの組を計算することにより得られる。更に、各フレームに対するピンチは複数個の同一のピッチ検出器により発生される。この場合各々のピッチ検出器は各フレームに対する音声サンプルの個々の予め定められた部分に応動して個々のピンチ値を推定する。選定ユニットは各々のピッチ検出器からの個々の推定されたピッチ値に応動して各々のフレームに対する最終のピンチ値を決定する。

図示の実施例は各フレームに対する伝送された励起情報および音声パラメータを受信するユニットを存する合成器サブシステムを含んでいる。合成器サブシステムはピッチ情報を含んでいる各フレームに応動してピッチ情報を使用して該フレームに対する音声パラメータに基づいて合成フィルタを励起する。励起情報がパルス型励起であると、音声バラメークと共に伝送されたパルスは合成フィルタを励起するのに使用される。雑音型励起が指示されると、雑音発生器は雑音型励起を発生して合成フィルタを駆動する合成サブシステム内において使用される。

先に詳述した機能はプログラム・インストラクションの組を実行するディジタル信号プロセッサによって実行され得る。この場合プログラム・インストラクションの組は更にディジタル信号プロセッサの実行を制御するインストラクションの部分集合およびグループに細分割されている。

図示の方法はアナログ音声をディジタル・サンプルのフレームに変換する量子化装置およびディジタイザを有するシステム中で機能し、該方法は各々が予め定められた数のディジタル・サンプルを有する複数個の音声フレームを記憶し、各フレームに対する声道を定義する音声パラメータの組を計算し、各フレームを有声または無声と指示し、各フレームに対しピッチ型励起情報を発生し、各フレームに対し複数個の他の型の励起情報を発生し、フレームが有声と指示されたときはピッチ励起情報を音声パラメータと組合せ、フレームが無声であると指示されたときは音声パランまた、他の型の励起情報を発生するステップは、ディジタル音声サンプルから各フレームに対する残差サンプルを計算し、残差サンプルからパルス型励起情報であるパルスを決定するステップを実行することによりパルス型励起情報を発生することを含んでいる。更に、パルスは、残差サンプルから最大振幅を有する各フレームに対する残差サンプル内のパルスの部分集合の位置を定めることにより決定される。

組合わせを行うステップは各フレームに対する残差サンプルの分散および整流された残差サンプルの平均振幅を計算し、計算された分散と計算された平均振幅の二乗を比較し、比較の結果、予め定められた闇値より大であるとパルス型励起を選択することにより他の型の励起の１つを選択することを含んでいる。

図面の眸度免匪所第１図は本発明に従う音声分析器のブロック図；第２図は本発明に従う音声合成器のブロック図；第３図は有声音声を模写する情報を含むパケットを示す図；第４図は雑音励起を使用する無声音声を模写する情報を含むパケットを示す図；第５図はパルス励起を使用する無声音声を模写する情報を含むパケットを示す図；第６図は第１図のピッチ検出器１０９のブロック図；第７図は音声フレームの候補サンプルの図式表現図：第８図は第１図のピッチ選出器１１１のブロック図；第９図は第１および２図のディジタル信号プロセッサの使用法を示す図；第１０〜１４図は第１図の分析回路を実現する第９図のディジタル信号プロセッサの実行を制御するプログラムのフローチャート；第１５〜１７図は第２図の合成器を実現する第９図のディジタル信号プロセッサの実行を制御するプログラムのフローチャートである。

詳末μ弓先吸第１および２回は本発明の焦点である音声分析器および音声合成器を夫々示す図である。第１図の音声分析器は導線１１３を介して受信されたアナログ音声信号に応動してこれらの信号を低ビツト速度で符号化してチャネル１４０を介して第２図の合成器２００に伝送する。チャネル１４０は通信伝送路であっても良いし、後の時点において合成された音声を要求する種々の応用用途に対して音声合成を提供し得るような記憶装置であってもよい。

そのような応用用途の１例としてディジタル計算機からの音声出力がある。第１図に示す分析器はブロック１．００．１１２および１０１を使用してアナログ音声情報をディジタル化し、量子化する。ブロック１０２は量子化され、ディジクル化されたサンプルに応動して、人間の声道をモデル化する線形予測符号化（■ 、ＰＣ）係数を発生ずる。これらの係数の形成は米国特許第３，７４０，４７６号中で述べられている装置または当業者にあって周知の任意の他の装置に従って実行される。チャネル符号器１２９を除く第１図の残りの素子はＬＰＧフィルタ係数によって定義されたモデルを励起する第２図の合成器２００で使用される励起信号を決定するのに使用される。チャネル符号器１２９はＬＰＧ係数および励起を規定する情報に応動してこの情報を第３〜５図に示すようにパケットの形態で合成器２００に伝送する。第３〜５図はパケットの形態で伝送される情報を示しているが、当業者にあってはこの情報をメモリ中に記憶して合成器が後で使用出来るようにすること、あるいはこの情報を合成器に並列に伝送し得ることは明らかである。ＬＰＧ係数および励起成分の伝送はフレーム毎に実行される。

ここで１フレームは１６０サンプルより成る。励起成分は喉頭により音声に付与された基本周波数を規定するピッチ、合成器が白色雑音発生器を使用するという指示、あるいはピッチ検出器１０９および／または１１０によって決定された残差サンプルの絹であって良い。

どの型の励起を伝送するかの決定は以下に示すような仕方でブロック１１１．１２５および１２６によって実行される。ピッチ検出器１０９および１１０はブロック１０２からの残差信号ｅ（ｎ）に応動してピッチ選出器１１１に対し信号が有声であるか無声であるかを指示し；ブロック１０７および１０８はディジクル化された音声サンプルｘ（ｎ）に応動して、これら信号が有声であるか無声であるかを決定する。ピッチ選出器１１１はフレームが有声であるか無声であるかの最終決定を行う。ピッチ選出器１１１がフレームは有声であると決定すると、この事実を指示する信号が信号路１３１を介してチャネル符号器１２９に伝送される。チャネル符号器１２９はこの指示に応動して第３図に示すパケ７）を形成する。このパケットはＬＰＧ係数、フレームは有声であるとの指示、ピンチ選出器１１１からのピッチ情報、利得計算器１３６からの利得情報、および有声系列の最初のフレームがピッチ選出器１１１から信号路１３２を介して処理されている場合には第１のパルスの位置を含んでいる。

ピッチ選出Ｈ１ｌｌがフレームは無声であると決定すると、該ピッチ選出器１１１はこのことを知らせるために信号路１３１を介して素子１２６およびチャネル符号器１２９に信号を伝送する。

第１図の分析器は合成器が白色雑音を使用するという指示を送信すべきか否か、あるいはピッチ検出器１０９または１１０によって決定されたパルスを合成器に送信すべきか否かを決定しなければならない。後者の決定は次のようにして実行される。即ちおよびとするときなる条件が満されると、合成器における励起は白色雑音となる。

上記の条件が満されない場合には、パルス励起が合成器２００に伝送される。式（１）は次のように書き直される：この式において、Ｎはフレーム当りのサンプル数である１６０で／あり、Ｔは約１．８なる値を有している。式（２）の右辺は第１図のブロック１２０〜１２２によって計算され、左辺はブロック１２３および１２４によって計算される。比較器１２５は乗算器１２２および１２４の出力に応動して式（２）を評価する。比較器１２５からのこの評価値は信号路１３３を介してチャネル符号器１２９および判定回路１２６に送信される。比較器１２５が乗算器１２４の出力は乗算器１２２の出力より小さいか等しいことを指示すると比較器１２５は合成器において白色雑音励起が使用されるべきことを指示する信号を信号路１３３を介して送信する。

チャネル符号器１２９はこの信号に応動して第４図に示すパケットを形成する。

このパケットは無声フレームを指示する“０”にセントされたＶ／ｖビットと、白色雑音励起を使用すべきことを指示する１０′にセントされたパルス状ビットと、利得ブロック１３６からの利得と、ブロック１０２からのＬＰＧ係数とを有している。

比較器１２５は乗算器１２４の出力が乗算器１２２の出力より大であると決定すると、比較器１２５は励起にパルスを使用すべきことを指示する信号を信号路１３３を介して送信する。現在のフレームに対し、この信号に応動して判定回路１２６はピッチ検出器１０９および１１０からずべての候補パルスを送信すべきなのか、またはこれらパルスの１つの組のみを送信すべきなのかを決定する。両方のピッチ検出器からの候補パルスの総数が７以下であると、判定回路１２６は信号路１３８を介してチャネル符号器１２９に′１”を送信する。チャネル符号器１２９は比較器１２５からの信号および判定回路１２６からの“１′に応動して信号路１３４および１３５を介して伝送されるすべての候補パルスをすべて使用して第５図に示すパケットを形成する。ピッチ検出器１０９および１１０からの最大パルスの総数が７より大であると、判定回路１２６は信号路１３８を介してチャネル符号器１２９に“０”を送信し、信号路１３９を介してチャネル符号器１２９に該チャネル符号器が信号路１３４または１３５上のパルスを利用しようとしているかを指示する。この決定はどのピッチ検出器が現在のフレームに対して最大のパルスを有しているかに基づいて行なわれる。ピッチ検出器１０９が最大のパルスを発生すると、判定回路１２６は“ｌ”をチャネル符号器１２９に送信する。しかしピッチ検出器１１０が最大のパルスを発生すると、判定回路１２６は“０”をチャネル符号器１２９に送信する。チャネル符号器１２９は信号路１３８を介して受信されたｏ”および信号路１３９を介して受信された信号に応動して信号路１３３または１３４から指示されたパルスの組を選択し、第５図に示すパケットを形成する。このパケットは無声フレームであることを指示する“ ０”にセントされたＶ／ｖピント、パルス励起が使用されることを指示する“１ ″にセントされたパルス・ビア　ｈ、パルスの位置と振幅およびＬＰＧ係数を有している。

第２図に示す合成器２００はチャネル１４．０を介して受信された声道モデルおよび励起情報に応動して第１図の分析器によって符号化された元のアナログ音声を再生する０合成器２００は以下のように機能する。第３図に示すように有声情報パケットを受信すると、チャネル復号器２０１はＬＰＧ係数を信号路２１６を介して合成フィルタ２０７に転送し、とッチ情和を信号路２１２を介して、電力レベルを信号路２１１を介してピンチ発生器２０２に転送する。更に、それが有声系列の最初の有声フレームであると、チャネル復号器は第１のパルスの開始位置を信号路２１３を介してピッチ発生器２０２に送信する。Ｖ／νビントが有声フレームを指示する“１”に等しいと、チャネル復号器はセレクタ２０６にピッチ発生器２０２の出力を選択させ、このピンチ発生器２０２からの情報を信号路２１７を介して合成フィルタ２０７に加える。

ピッチ発生器２０２は信号路２１１〜２１３を介して受信された情報に応動して実際の音声の期間中に喉頭により発生された基本周波数を再生する。合成フィルタ２０７は声道モデルを規定するＬＰＧ係数およびピッチ発生器２０２から受信された励起に応動して音声を表わすディジタル・サンプルを発生する。ディジタル・アナログ変換器２０日はフィルタ２０７によって発生されたこれらディジタル・サンプルに応動して導線２１８上に音声のアナログ表現を発生させる。

チャネル復号器２０１は第４図に示すような雑音励起を存する無声パケットを受信し、チャネル復号器２０１は信号路２１４を介して信号を送信し、セレクタ２０５に白色雑音発生器２０３の出力を選択させ、チャネル復号器２０１は信号路２１４を介して信号を送信し、セレクタ２０６にセレクタ２０５の出力を選択させる。更に、チャネル復号器２０１は電力ファクタを白色雑音発生器２０３に送信する。合成フィルタ２０７は信号路２１６を介してチャネル復号器２０１から受信された１、、　Ｐ　Ｃ係数およびセレクタ２０５および２０６を介して受信された白色雑音発生器２０３の出力に応動して音声のディジタル・サンプルを発生ずる。

チャネル復号器２０１がチャネル１４０から第５図に示すようなパルス励起を有する無声フレームを受信すると、該復号器２０１は信号路２１０を介してパルス発生器２０４に最大パルスの振幅に対するパルスの位置と相対振幅を送信し、信号路２１】を介して最大パルスの振幅を送信する。更に、チャネル復号器２０１はセレクタ２０５および２０６を信号路２１４および２１５を夫々介してパルス発生器２０４の出力を選択させ、その出力を合成フィルタ２０７に転送させる。

次に合成フィルタ２０７およびディジタル・アナログ変ｔＩＡ器２０８は音声を再生する。変換器２０８はその出力に独立した低域フィルタを有している。更にチャネル復号器２０１は信号路２１６を介してＬＰＧ係数を米国特許第３．７４０．４７６号で述べられているかまたは当業者にあっては周知の合成フィルタ２０７に送信する。

次に第１図に示すピッチ検出サブシステム１５０によって実行されるピンチ検出機能について更に詳細に考察する。クリッパ１０３〜１０６は信号路１１５および１１６上の到来するＸおよびｅなるディジクル化された信号を正に向う波形および９、に向う波形に変換する。これらの信号を形成する目的は混合波形は明らかな周期性を示さないかも知れないのに対し、クリップされた信号は明らかな周期性を示し得ることによる。従って周期性の検出がより容易となる。クリッパ１０３および１０５はＸおよびｅ信号を夫々正に向う信号に変換し、クリッパ１０４および１０６はＸおよびｅ信号を夫々負に向う信号に変換する。

ピンチ検出器１０７および１１０は各々それ自身の個々の入力信号に応動して到来信号の周期性を決定する。ピッチ検出器の出力はこれら信号を受信した２フレーム後に得られる。ここで各フレームはこの例では１６０のサンプル点から成っていることに注意されたい。ピッチ選出器１１１は４つのピンチ検出器の出力に応動して最終ピンチを決定する。ピンチ選出器１１１の出力は信号路１１４を介して伝送される。

第６図はピッチ検出器１０９のブロック回である。他のピッチ検出器も類似の設計である。最大値位置検出器（ロケータ）６０１は各フレームのディジクル化された信号に応動して周期性の検査を実行するパルスを検出する。最大値ロケータ６０１の出力は２組の数値である。即ち候補サンプルである最大振幅を表わす数値Ｍｉと、これら振幅のフレーム内の位置を表わす数ｊｌＴｉＤｉとである。これら２組の数値はまたピッチ選出器１１１が現在のフレームは無声であると決定すると、励起パルスとして使用するべく遅延回路１４５に転送される。距離検出器６０２はこれら２組の数値に応動して周期的を候補パルスの部分集合を決定する。この部分集合は距離検出器６０２のこのフレームに対する周期性に関する決定を表わす。距離検出器６０２の出力はピッチ追尾装置６０３に転送される。ピッチ追尾装置６０３０目的はディジタル化された信号の相続くフレーム間のピッチ検出器のピッチに関する決定を制約することである。この機能を実行するために、ピンチ追尾装置６０３は以前の２つのフレームに対して決定されたピッチを使用する。

次に最大値ロケータ６０１によって実行される動作について詳細に考察する。最大値ロケータ６０１はまずフレームからのサンプルの中でそのフレーム中の大局的最大振幅Ｍ０とその位置Ｄ０を同定する。周期性チェックのために選択された他の点は以下のすべての条件を満さねばならない。まず第１にパルスは局部最大値を有するものでなければならない。即ち取り出される次のパルスは既に取り出されるかあるいは除去されたすべてのパルスを除くフレーム中の最大振幅を有するものでなければならない。何故ならばピンチ・パルスは通常フレーム中の他のサンプルより大きな振幅を有していると仮定しているのでこの条件が適用される。

第２に選択されたパルスの振幅は大局的最大値のあるパーセントより大きいか等しくなければならない。即ちｇを闇値振幅パーセント（例えば２５％）としてＭｉ＞ｇＭ、でなければならない。

第３に、パルスは既に位置が同定されたすべてのパルスから少くとも１８サンプルは離れていなければならない。この条件は人間の音声で生しる最大のピンチは約４４４ｔｌｚであり、これを８ｋｌＬｚのサンプル速度でサンプルすると１８サンプルになるという仮定に基づいている。

距離検出器６０２は再帰的動作をし、フレームの大局的最大値Ｍ０から最も近隣の候補パルス′への距離を考察することより開始する。この距離は候補距離ｄｃと呼ばれ、次式で与えられる。

ｄｃ＝ｌＤｏ　ＤｉｌここでＤｉは最も近隣の候補パルスのフレーム内の位置である。

フレーム中のこのようなパルスの部分集合がこの距離から息継ぎ間隔Ｂを加減したものだけ隔っていないならば、この候補距離は棄却され、新らしい候補距離を用いて次の近隣候補パルスに対して再び同様な操作が開始される。Ｂは４から７の間の値を有している。この新らしい候補距離は次に隣接するパルスと大局的最大値パルスの距離である。

ピッチ検出器６０２が距離ｄｃ±Ｂだけ隔った候補パルスの部分集合を一度決定すると、内挿振幅テストが適用される。内挿振幅テストＭ０と次に隣接する候補パルスの各々の間の線形内挿を実行し、Ｍｏに直接隣接する候補パルスの振幅がこれら内挿値の少くともｑ％であることを要求する。内挿振幅闇値ｑ％は７５％である。第７図に示す候補パルスによって示される例を考察する。

ｄｃが正当な候補距離であるためには次式が成立しなければならない。

ｄｃ＝ｌ　Ｄｏ−Ｄ＋　ｌ　＞　１８であり、前述の如く次式が成立する。

旧〉ｇＭ。　ｉ＝１．２，３．４．５ピッチ追尾装置６０３は距離検出器６０２の出力に応動してピッチの周波数と関連するピッチ距離推定値を評価する。ここでピッチ距離はピッチの周期を表わしていることに注意されたい。ピッチ追尾装置６０３の機能は、必要な場合には４つのテストを実行することによってピッチ検出器から受信された初期ピッチ距離推定値を修正することによってフレーム間でピッチ距離の推定値が矛盾を生じないように制約を加えることである。ここで４つのテストとは音声セグメント・スタートアップ・テスト、最大息継ぎおよびピッチ倍化テスト、制限テストおよび急激変更テストである。これらのテストの内の第１のテストである音声セグメント・スタートアップ・テストは有声領域の開始時点におけるピッチ距離の無矛盾性を保証するために実行される。このテストは有声領域の開始とのみ関係しているので、このテストは現在のフレームはＯでないピンチ周期を有しているものと仮定している。この仮定は先行するフレームおよび現在のフレームが有声領域中の第１および第２の音声フレームであるということに等しい。ピッチ距離の推定値がＴ（ｉ）　（ここでｉは距離検出器６０２からの現在のピンチ距離の推定値を表わす）であるとすると、ピッチ検出器６０３は（各検出器を通ると２フレ一ム分の遅延を与えるので）Ｔ”（＋−２）を出力する。テストはＴ（ｉ−３）および　Ｔ（を−２）が０であるかまたはＴ　（ｉ−２）がＯでなくてＴ　（ｉ− ３）およびＴ（ｉ−４）が０であるときのみ（これはフレームｉ−２およびｉ− １が有声領域中の夫々第１および第２の有声フレームであることを意味する）実行される。音声セグメント・スタートアップ・テストは２つの無矛盾性テストを実行する。即ち一方は第１の有声フレームＴ（ｉ−２）に対するテストであり、他方は第２の有声フレームＴ　（ｉ−１）に対するテストである。これら２つのテストは相続くフレーム期間中に実行される。音声セグメント・テストの目的は、有声領域が実際には開始されていないときに有声領域の開始を定義する確率を減少させることである。音声領域に対する他の無矛盾性テストが最大息継ぎおよびピッチ倍化テストにおいて実行され、そこではただ１つの無矛盾性条件が要求されるので前記２つのテストは重要な意味を有している。第１の無矛盾性テストはＴ（ｉ−２）中の右の候補サンプルとＴ（ｉ−１）およびＴ（ｉ−２）中の最も左の候補サンプルの距離がピッチ閾値Ｂ＋２内にあることを保証するために実行される。

第１の無矛盾性テストに合格すると、次のフレーム期間中に第２の無矛盾性テストが実行され、第１の無矛盾性テストが確認した結果と同じ結果がフレーム系列を右に１つシフトしても得られることがＲｉ＝される。第２の無矛盾性テストに合格しないと、Ｔ（ｉ−１）はＯにセントされ、（Ｔ（ｉ−２）がＯにセントされていなかったとすると）フレームｉ−１は第２の有声フレームとはなり得ないことを表わす。しかし、両方の無矛盾性テストに合格すると、フレーム】−２およびｉ−１は有声領域の開始を定義する。Ｔ（ｉ−１）が０にセットされ、Ｔ　（ｉ−２）は０でないと決定され、Ｔ（ｉ−３）は０であると（これはフレームｉ−２が２つの無声フレームの間の有声フレームであることを指示する）、急激変化テストがこの状況を認知するが、この特殊なテストについては後述する。

最大息継ぎおよびピッチ倍化テストは有声領域中の２つの隣接した有声フレームにわたるピッチの無矛盾性を保証する。従ってこのテストはＴ　（ｉ−３）　、Ｔ　（ｉ−２）およびＴ（ｉ−１＞が０でないときにのみ実行される。最大息継ぎおよびピッチ倍化テストはまた距離検出器６０２によって生じたピッチ倍化誤差をチェックし、補正する。チェックのピッチ倍化部はＴ　（＋−２）およびＴ（ｉ−１）が無矛盾であるかどうか、またはＴ（ｉ−２）がＴ（ｉ−１）の２倍と無矛盾（これはピッチ倍化誤りを意味する）であるかどうかをチェックする。

このテストはまず、Ａが１０なる値を有するものとしてｌ　Ｔ（ｉ−２）　−Ｔ（ｉ−１）　ｌ　＜Ａなる式によって実行されるテストの最大息継ぎ部の条件を満すがどうかをチェックする。削代が満されると、Ｔ　（ｉ−１）はピッチ距離の良好な推定値であり、修正する必要はない。しかし、テストの最大息継ぎ部の条件を満さないと、テストのビ、千倍化部の条件を満すかどうかを決定するテストを実行しなければならない。テストの第１の部分は、Ｔロー３）を０でないものとするとき、なる式で定義されるピンチ闇値内にＴ（ｉ−２）とＴ（ｉ−１）の２倍の差があるかどうかをチェックする。この条件が満されると、Ｔ　（ｉ＝ｌ）はＴ　（＋ −２）にセットされる。この条件が満されないと、Ｔ　（ｉ−１）は０にセットされる。このテストの第２の部分はＴ（ｉ−３）がＯに等しい場合に実行される。

ｌ　Ｔ（ｉ−２）　−２Ｔ（ｉ−１）　ｔ　＜Ｂおよびｌ　Ｔ（ｉ−］）〜Ｔ（ｉ）　ｌ　＞ＡであるとＴ（ｉ−１）　＝Ｔ（ｉ−２）である。この条件が満されないとＴ（＋−１）はＯにセットされる。

Ｔ（ｉ−１）に対して実行される制限テストは計算されたピッチが５０Ｈｚ〜４００Ｈｚという人間の音声の範囲内にあることを保証する。計算されたピッチがこの範囲内に入らない場合には、Ｔ（ｉ−１）はＯにセントされ、フレームｉ− １は計算されたピッチを有する有声フレームではあり得ないことを指示する。

急激変化テストは前述の３つのテストが実行された後に実行され、その目的は他のテストが無声領域の中間にある有声フレームあるいは有声領域の中間にある無声フレームと判定したと決定することである。人間は通常このような音声フレーム系列を発生し得ないから、急激変化テストは有声−無声−有声あるいは無声− 存声一無声なる系列を除去することによって有声または無声区間は少くとも２フレーム長を有することを保証する。急激変化テストは各々が前述の２つの系列を検出するよう設計された２つの別個の手順より成る。ピッチ追尾装置６０３が前述の４つのテストを一度実行すると、該装置６０３は第１図のピッチ・フィルタ１１１にＴ”（ｉ２）を出力する。ピンチ追尾装置６０３は距離検出器６０２から次に受信されるピンチ距離に対する計算を実行するために他のピッチ距離を保持する。

第８図は第１図のピンチ・フィルタ１１１を更に詳細に示している。ピッチ値推定器８０１はピンチ検出器１０７〜１１０の出力に応動して２フレーム前のピッチの初期推定値Ｐ　（＋−２）を形成し、ピッチ値追尾装置８０２はピンチ値推定器８０１の出力に応動して３フレーム前の最終ピッチ値Ｐ　（ｉ−３）をフレームの進行に応じて矛盾がないに制約する。ピッチ値の決定および送出に力■えて、ピッチ・フィルタ１１１はＶノμ信号と有声領域の開始点における最初のパルスの位置を発生し、送出する。

次にピッチ値推定器８０１が実行する機能について更に詳細に考察する。一般に、ピンチ値推定器８０１によって受信された４つのピンチ距離の推定値がすべて非Ｏ（これはを声フレームを指示）であると、最大および最小の推定値は棄却され、Ｐ　（ｉ−２）は残りの２つの推定値の算術平均にセットされる。同様に、ピッチ距離の推定値の内の３つが非０であると、最大および最小の推定値が棄却され、ピッチ値推定器８０１はＰ　（ｉ−２）を残りの非０の推定値に等しくセットする。推定値の内２つだけが非０であると、ピンチ値推定器８０１は２つの値の差がピッチの闇値Ａ内にあるときのみ２つのピッチ距離の推定値の算術平均に等しくセントする。２つの値の差がピッチの闇値Ａ内にない場合には、ピッチ値推定器８０１はＰ（ｉ−２）をＯに等しくセントする。

この決定は、幾つかの個々の検出器は誤っである周期性を検出したが、フレームｉ−２は無声であることを指示している。４つのピッチ距離推定値の内１つだけが非０であると、ピッチ値推定器８０１はＰ　（ｉ−２）をその非０の値に等しくセットする。この場合、このピッチ距離の推定値の妥当性をチェックして以前のピッチの推定値と矛盾がないようにするのがピッチ値追尾装置８０２の役目である。ピッチ距離の推定値がすべてＯに等しいと、ピッチ値推定２５８０１はＰ（ｉ−２）を０に等しくセントする。

次にピッチ値追尾装置８０２について詳細に考察する。ピッチ値追尾装置８０２はピッチ値推定器８０１の出力に応動して３フレーム前のピッチ値の推定値Ｐ” （ｉ−３）を発生するが、この推定はＰ（ｉ−２）およびＰ　（ｉ−４）に基づいて行なわれる。

ピッチ値Ｐ”（ｉ−３）はフレームからフレームへの変化に応じて矛盾が生じないように選ばれる。

最初にチェックされることは有声−無声−有声、無声−有声−無声、あるいは有声−有声−無声なる形を有するフレームの系列である。Ｐ（ｉ−４）およびＰ　（ｉ−２）が非０で、Ｐ　（＋−３）がＯであることによって示される第１の系列が生じると、最終ピッチ値Ｐ”（ｔ−３）はピッチ値追尾装置８０２によってＰ（ｉ−４）およびＰ（ｉ−２）の算術平均に等しくセットされる。第２の系列が生起すると、最終ピンチ値Ｐ”（ｉ−３）は０にセントされる。第３の系列に関しては、ピッチ値追尾装置はＰ　（＋−３）およびＰ（ｉ−４）の差がピッチの闇値Ａ以内であるときＰ（ｉ−４）およびＰ　（ｉ−３＞が非Ｏであり、Ｐ（ｉ−２）がＯであることに応動してＰ”（ｉ−３）をＰ　（ｉ−３）およびＰ（ｉ−４）の算術平均にセットする。即ちピッチ値追尾装置８０２はＩ　Ｐ（ｉ−４）　Ｐ（ｉ−３）　ｌ　＜：Ａなることに応動して次の操作を実行する。

Ｐ　（ｉ−３）およびＰ　（ｉ−４）が前述の条件を満さない（即ち、両者の差がピンチ闇値Ａ内にない）とピンチ値追尾装置８０２が決定すると、該ピッチ値追尾装置８０２はＰ”（ｉ−３）をＰ（＋−４）の値に等しくセントする。

前述の操作に加えて、ピンチ値追尾装置８０２はまたある型のを声−有声−有声フレーム系列に対してピンチ値の推定値を平滑する操作を実行する。この平滑化操作が実行される３つの型のフレーム系列が生起する。第１の系列は次の条件が成立するときである。

Ｉ　Ｐ（ｉ−４）　−Ｐ（＋−２）　ｌ　＜ＡおよびＩ　Ｐ（＋−４）　−Ｐ（ｉ−３）　Ｉ　＞＾この条件が成立すると、ピッチ値追尾装置８０２はとセットすることにより平滑化操作を実行する。

第２の条件の組は次の関係が成立するときである。

Ｉ　Ｐ（ｉ−４）　−Ｐ（ｉ−２）　ｌ　＞ＡおよびＩ　Ｐ（ｉ−４）　−Ｐ（ｉ−３）　ｌ≦Ａこの第２の条件の組が成立すると、ピッチ値追尾装置１Ｚ８０２は次のようにセットする。

第３（最後）の条件の組は次式で定義される。

Ｉ　Ｐ（ｉ−４）−Ｐ（ｉ−２）　ｌ　＞ＡおよびＩ　Ｐ（＋−４）　−Ｐ（ｉ−３）　ｌ　＞Ａこの最後の条件が成立すると、ピッチ値追尾装置８０２は次のようにセットする。

ピ（ｉ−３）　＝Ｐ（ｉ−４）第９図はディジタル信号プロセッサを用いて実現した第１および２図の分析器および合成器の実施例である。第１および第２図に示す機能を実現するため、第１０および１５図にフローチャートとして示すプログラムが第９０のＰＲＯＭ　９０１中に記憶されている。第９図の分析器／合成器の組合せはチャネル９０６を介して類似のユニットに接続されており、音声会話はこれら２つの分析器／合成器ユニットを用いて通信される。ＲＡＭ　９０２は第１図に示す各々のピッチ検出器に対する個々のパラメータの記憶を含む種々の型の情報を記憶するのに使用される。ピッチ検出器はＦＲＯＭ９０１中に記憶されたプログラムの命令を用いて実現される。

第９図の分析器／合成器はアナログ・ディジタル変換器９０４を用いて到来音声をディジタル化し、ディジタル・アナログ変換器９０５を用いてチャネル９０６を介して受信されたディジタル信号のアナログ表現を出力する。

第１０図はディジタル信号プロセッサ９０３によって実行する第１図のＬＰＧ符号器およびフィルタ１０２のソフトウェア的実現法を示している。第１０図のフローチャートとして示すプログラムはブロック１００１〜１０１２を実行することによりバーブ（Ｂｕｒｇ）のアルゴリズムを実現している。このアルゴリズムは各フレームに対するＬＰＧ係数および残差ｅ　（ｎ）を計算する。残差ｅ　（ｎ）が決定された後、各フレームに対する電力がブロック１０１３．１０】４および１０１５によって残差サンプルから計算される。

次に、第１図のピッチ検出器１０７〜１１０は第１１図のブロック１１０１によって実現される。ブロック１１０１は各々が第９図のＲＡＭ　９０２中に別個の記憶パラメータを有するプログラム命令の共通の組を使用することによって正および負の音声サンプルならびに正および負の残差サンプルに対してピッチ検出が実行される。残差サンプルに対し、ピンチ検出期間中に決定された候補パルスは後でパルス励起として使用するために保存される。ピッチ検出が実行された後、第１図のピッチ選出器１１１の機能はブロック１１０２および１１０３によって実現される。Ｖ／ａピントはブロック１１０２によりセットされる。後者のビットは判定ブロック１１０４により検定される。Ｖ／ｕビットが“１”にセ・７トされていて音声フレームが有声フレームであることを指示すると、第１４図のブロック１４０１〜１４０４および１４０６および１４０７が実行される。ブロック１４０１および１４０２はピッチおよび電力情報をチャネル符号器に夫々送信する。判定ブロック１４０３はその有声フレームが一連の有声フレーム中の最初のフレームであるかどうかを決定する。最初のフレームであると、ブロック１４０４はチャネル符号器に第１のピンチ・パルスの位置を送信する。この情報は合成器がピッチ情報を適正に使用するのに使われる。次に、ブロック１４０６および１４０７はＬＰＣ係数に、をチャネル符号器に送出する。次にチャネル符号器は周知の技法を用いたバイト形態でチャネルを介して合成器に受信した情報を送信する。

Ｖ／ＬＬビットが“０”にセントされていると、判定ブロック１１０４は制御をブロック１１０５〜１２０１に切換える。このブロック１１０５〜１２０１は式（２）の左辺および右辺を決定するのに必要な計算を実行する。これらの計算が実行されると、パルス励起を用いるか雑音励起を用いるかに関する決定が式（２）の最終ステップを実現する判定ブロック１２０２により実行される。雑音励起を使用すべきとの決定がなされると、制御は第１２図のブロック１２０３および第１４図のブロック１４０５〜１４０７にわたされる。これらのブロックは合成器が雑音励起を使用するためにチャネル符号器に対する情報を準備し転送する。

パルス励起を使用するとの判定がなされると、判定ブロック１２０２は制御を第１２図のブロック１２０４および１２０５にわたす。ブロック１２０４を実行すると１”がチャネル符号器に送信され、パルス励起を実行すべきことを指示し、ブロック１２０５を実行すると最大候補パルスの振幅がチャネル符号器に送信される。最大候補パルスは第１１図のブロック１１０１によって実現されたピッチ検出器により決定される。この情報がチャネル符号器に転送された後、第１３図の判定ブロック１３０１が実行される。判定ブロック１３０１の目的は第１１図のブロック１１０１によって見出された候補パルスの内どれを合成器に転送すべきかを決定することである。残差ピッチ検出器によって見出された候補パルスの総数が７以下であると、すべての候補パルスが転送される。見出された候補パルスの数が７より大であると、最大振幅の候補パルスを有していたピッチ検出器からの候補パルスがチャネルに転送される。パルスの総数が７より大であると、最大振幅の候補パルスが負マたは正の残差サンプルのいずれのサンプル中に存在していたかを決定する判定ブロック１３０２が実行される。最大パルス振幅が負の残差サンプル中に存在するならば、ブロック１３０３および１３０４が実行され、候補パルスが負の残差サンプルからチャネル符号器に転送される。最大振幅候補パルスが正の残差サンプル中に存在するという決定が判定ブロック１３０２によって行なわれると、ブロック１３０９および１３１０が実行され、候補パルスが正の残差サンプルからチャネル符号器に送信される。ブロック１３０４により転送された情報は各候補パルスの振幅と位置である。振幅情報はブロック１２０５によりチャネル符号器に転送された最大振幅の候補パルスの振幅に対する相対振幅である。

負および正の残差サンプル中の候補パルスの総数が７以下であると判定ブロック１３０１により決定されると、ブロック１３０５．１３０６．１３０７および１３０８が実行され、正および負の残差サンプルに対するすべての候補パルスがチャネル符号器に転送される。

前述の動作が実行された後、ブロック１３１１が実行され、チャネル符号器に対しすべてのパルスが伝送されたことを指示する。

ブロック１３１１の実行後、第１４図のブロック１４０６および１４０７が実行され、ＬＰＧ係数がチャネル符号器に転送される。

ピッチ、雑音またはパルス励起情報がＬＰＧ係数および電力情報と共にチャネル符号器に転送されると、次のフレームに対して同様な操作が繰返される。

第２図の合成器を実現する第９図のディジタル信号プロセッサ９０３のプログラムが第１５．１６および１７図に示されている。

第１５図のフローチャート中に示されているプログラム・ステップは合成フィルタ２０７を実現するプログラム命令を駆動するのに使用される励起の型を決定する。第１５図に示すプログラム・ステップはフレームの型を決定し、ある種のパラメータを読み出す、ブロック１５０１はまずチャネル復号器からν／Ｖビットを得、第２図のセレクタを実現する判定ブロック１５０２はＶ／ａビットが夫々有声または無声音声情報を指示する°１”または“Ｏ”のいずれであるかを決定する。有声情報であると指示されると、ブロック１５０３および１５０４が実行され、チャネル復号器からピッチおよび電力情報が得られる。この情報を得た後、判定ブロック１５０５の実行によってこれが有声領域の最初のフレームであるか否かを決定するチェックが行なわれる。有声領域の最初のフレームである場合には、ブロック１５０６が実行され、有声フレーム内の最初のピッチ・パルスの位置が得られる。

情報が無声であると決定されると、ブロック１５０７が実行される。このブロックはチャネル復号器からパルス・ビットを得る。

パルス・ビットが“１”であるか“０゛であるかに基づいて判定を行うブロック１５０８はパルス励起または雑音励起を夫々使用するプログラム命令を実行し、第２図のセレクタ２０５の役割を実行する。パルス・ビットが“Ｏ”で雑音励起を指示する場合、電力はブロック１５１２によってチャネル復号器から得られる。

パルス・ビットが“１”でパルス励起を指示する場合、ブロック１５０９〜１５１１が実行され、パルス励起に使用される候補パルスの最初のパルス位置が得られる。

第１のフレーム型パルスが決定されると、第１６および１７図のフローチャート中に示すプログラム・ステップが実行される。

ブロック１６０３〜１６１０は励起に使用されるパルスを決定し、ブロック１７０１〜１７０７は合成フィルタを実現している。判定ブロック１６０３は音声のフレームが完全に合成された時点を決定する。判定ブロック１６０４は再びフレームが有声であるか無声であるかを決定する。有声フレームであると、ブロック１６１０が実行され、ピンチ励起のための次のパルスが決定され、合成フィルタのプログラムされた命令はその後に実行される。

フレームが無声であると、判定ブロック１６０５が実行され、雑音励起とパルス励起のいずれを使用するかが決定される。雑音励起が使用される場合には、判定ブロック１６０６が使用され、合成フィルタのプログラムされた命令によって使用されるパルスが得られる。パルス励起が使用される場合には、プロ、り１６０７〜１６０９が実行され、使用される適正なパルス励起パルスが決定される。

合成フィルタは周知のＬＰＧ合成技法を使用してブロック１７０１〜１７０７により実現される。音声のフレーム全体が合成された後、第１６〜１７図に示すプログラムされた命令は音声の次のフレームに対して繰返される。

前述の実施例は本発明の原理を単に例示するものであり、当業者にあっては本発明の精神および範囲を逸脱することなく他の装置を考案し得ることを理解されたい。

ＦＩＧ、７ＦＩＧ、８ゴロツク／σＯθへ　Ｆ／σ〃△ ＦＩ０．　１１ θＣ／ｚ八ＦＩＧ、１２Ｆ／（、ＢへＦＩＧ、１３１て／４八ＦＩＧ、１４ＦＩＧ、１５ＦＩＧ、１Ｇ、ｔ４（１７へＦＩＧ、１７ μ１５へ泉３国際調査報告ＡＮＮＥＸ　Ｔｏ　ＴＫＥ　ＩＮＴＥＲＨＡＴＸＯＮＡＬ　５ＥＡＦｉＣＨ！’ ｔＥＰＯＲＴ　ＯＮ

Claims

【特許請求の範囲】

１．人間の音声を分析および合成する処理システムであって、該システムは：各々が予定められた数の前記音声の瞬時振幅の等間隔サンプルを有する複数個の音声フレームを記憶する手段と；各々の音声フレームに対する声道を定義する音声パラメータ信号の組を計算する手段と；フレームを有声および無声と命名する手段と；前記フレームの各々に対しピッチ型励起情報を発生する手段と；前記フレームの各々に対し複数個の他の型の励起情報を発生する手段と；有声であると命名された前記フレームの各々に応動して前記ピッチ型励起情報と前記音声パラメータ信号の前記の組を組合わせる手段とを含み；該組合わせる手段は更に無声であると命名された各フレームに応動して前記音声パラメータ信号の組と組合わされる前記他の型の励起の１つを選択する手段を含むことを特徴とするシステム。
２．第１項記載のシステムにおいて、前記発生手段はパルス型励起を提供するために前記フレームの各々に対し前記音声サンプルからパルスを決定する手段を含むことを特徴とするシステム。
３．第２項記載のシステムにおいて、前記決定手段は前記フレームの各々に対する前記音声サンプルから残差サンプルを計算する手段と；前記フレームの各々に対し最大振幅を有する前記残差サンプルのパルスの部分集合の位置を決定する手段とを含むことを特徴とするシステム。
４．第３項記載のシステムにおいて、前記選択手段は前記フレームの各々に対し残差サンプルの分散を計算する手段と；前記フレームの各々中の整流された残差サンプルの平均振幅の二乗を計算する手段と；前記フレームの各々に対し、残差の計算された分散と整流された残差の平均振幅の計算された二乗値を比較する手段と；比較の結果予め定められた閾値より大きいとき、前記パルス型励起情報を選択する手段とを含むことを特徴とするシステム。
５．第３項記載のシステムにおいて、前記選択手段は前記フレームの各々の各残差サンプルを二乗する手段と；前記フレームの各々に対する二乗された残差サンプルをすべて加算する手段と；前記フレームの各々に対し値を発生するために二乗された残差サンプルの和を介してフレーム中のサンプルの総数を乗ずる手段と；前記フレームの各々の中の前記残差サンプルの各々に対する絶対値を得る手段と；前記フレームの各々に対し残差サンプルの絶対値をすべて加算する手段と；他の値を発生するために前記フレームの各々に対し残差サンプルの絶対値を加算したものを二乗する手段と；前記フレームの各々に対し前記値と前記他の値を比較する手段と；前記比較の結果、予め定められた閾値よりも大であると、前記パルス型励起情報を選択する手段とを含むことを特徴とするシステム。
６．第５項記載のシステムにおいて、前記音声パラメータ信号の組を計算する前記手段は前記フレームの各々に対する線形予測符号化されたパラメータの組を計算する手段を含むことを特徴とするシステム。
７．第６項記載のシステムにおいて、前記ピッチ型励起情報を発生する前記手段は：各々が前記フレームの各々の前記音声サンプルの個々の予め定められた部分に応動して前記フレームの各々に対するピッチ値を推定する複数個の同一の手段と；前記推定手段の各々からの個々の推定されたピッチ値に応動して前記フレームの各々に対する最終ピッチ値を決定する手段とを含むことを特徴とするシステム。
８．第７項記載のシステムにおいて、前記決定手段は：前記フレームの各々に対し前記推定されたピッチ値の内の前記のものに対する前記最終ピッチ値を計算する手段と；前記最終ピッチ値を制約して、前記フレームの各々に対する計算されたピッチ値が前記フレームの内の以前のフレームから計算されたピッチ値と一致するようにする手段とを含むことを特徴とするシステム。
９．第５項記載のシステムであって更に、前記フレームの各々に対する前記送信された組合わされた励起情報と音声パラメータ信号の前記の組を受信する手段と；前記ピッチ励起情報が送信されたとき、音声パラメータ信号の前記組と前記ピッチ励起情報を使用して音声の各フレームを合成する手段とを含み；前記合成手段は更に前記他の型の励起情報が送信されたとき、音声パラメータ信号の前記組および前記複数個の他の型の励起情報の１つに応動して、前記他の型の励起情報の内の前記１つを使用して音声の各フレームを合成することを特徴とするシステム。
１０．第９項記載のシステムにおいて、前記合成手段は前記他の型の励起情報が雑音型励起情報であるとき、雑音型信号を発生する手段と；前記パルス型励起情報が送信されたときパルス型信号を発生する手段と；前記雑音型信号に応動して前記雑音型励起情報を発注する手段と；前記パルス型信号に応動して前記パルス型励起情報を選択する手段とを含むことを特徴とするシステム。
１１．人間の音声の分析および合成を行う処理システムであって、該システムは：各々が予め定められた数の前記音声の瞬時振幅の等間隔サンプルを有する複数個の音声フレームを記憶する手段と；各々の音声フレームに対する声道を定義する音声パラメータ信号の組を記算する手段と；基本周波数を含むフレームに対しフレームのピッチから各フレームに対する励起情報を形成する手段と；人間の喉頭中の雑音の如き信号源から発生されるフレームの音声に対し雑音の使用を指示するべく励起情報を形成する手段と；基本周波数および雑音の如き信号源が存在しないとき、他の励起源から励起情報を形成する手段と；形成された励起情報と各フレームのパラメータ信号の組を送信するべく組合わせる手段とを含むことを特徴とするシステム。
１２．第１１項記載のシステムにおいて、前記ピッチから前記情報を形成する手段は：前記フレームのサンプル中の前記基本周波数の存在を検出する手段と；前記フレームの各々中の前記ピッチを計算する手段と；前記検出手段が前記基本周波数の存在を決定するとき前記計算されたピッチを前記励起情報中に形成する手段とを含むことを特徴とするシステム。
１３．第１２項記載のシステムにおいて、前記他の励起源から前記励起情報を形成する前記手段は前記他の励起源からの励起情報を提供するために前記フレームの各々に対する前記音声サンプルからパルスを決定する手段を含むことを特徴とするシステム。
１４．第１３項記載のシステムにおいて、前記パルスを決定する手段は前記フレームの各々に対する前記音声サンプルから残差サンプルを計算する手段と；前記フレームの各々に対し最大振幅を有する前記残差サンプルのパルスの部分集合の位置を決定する手段を含むことを特徴とするシステム。
１５．第１４項記載のシステムにおいて、前記他の励起源から前記励起情報を形成する前記手段は更に前記フレームの各々に対し前記残差サンプルの分散を計算する手段と；各フレーム中の整流された残差サンプルの平均振幅の二乗を計算する手段と；残差の計算された分散と前記フレームの端々に対する整流された残差の平均振幅の二乗の計算値を比較する手段と；比較の結果予め定められた閾値より大であるとき、前記他の励起源からの前記励起情報を選択すべき前記パルス型情報であると指示する手段とを含むことを特徴とするシステム。
１６．第１１項記載のシステムにおいて、音声パラメータ信号の前記組を計算する前記手段は前記フレームの各々に対する線形予測符号化されたパラメータの組を計算する手段を含むことを特徴とするシステム。
１７．第１５項記載のシステムにおいて、前記フレームの各々中の前記ピッチを計算する前記手段は：各々が前記フレームの各々に対するピッチ値を推定するために前記フレームの各々の前記音声サンプルの個々の予め定められた部分に応動する複数個の同一の手段と；前記推定手段の各々からの個々の推定されたピッチ値に応動して前記フレームの各々に対する最終ピッチ値を決定する手段とを含むことを特徴とするシステム。
１８．第１７項記載のシステムにおいて、前記ピッチ値を決定する前記手段は：前記フレームの各々に対し前記推定されたピッチ値の前記最終ピッチ値を計算する手段と；前記フレームの各々に対する計算されたピッチ値が前記フレームの内の以前のフレームから計算されたピッチ値と一致するように前記最終ピッチ値を制約する手段とを含むことを特徴とするシステム。
１９．第１１項記載のシステムにおいて、更に前記フレームの各々に対する前記組合わされた励起情報と音声パラメータ信号の組とを受信する手段と；前記ピッチ励起情報が伝送されると前記音声パラメータの組および前記ピッチ励起情報を使用して音声の各フレームを合成する手段とを含み；前記合成手段は更に前記音声パラメータ信号の組および前記複数個の他の型の励起情報に応動して前記他の型の励起情報が伝送されたとき前記他の型の励起情報の内の前記１つを使用して音声の各フレームを合成することを特徴とするシステム。
２０．第１９項記載のシステムにおいて、前記合成手段は前記雑音型励起情報が伝送されたとき雑音型信号を発生する手段と；前記パルス型励起情報が伝送されたときパルス型信号を発生する手段と；前記雑音型信号に応動して前記雑音型励起情報を選択する手段と；前記パルス型信号に応動して前記パルス型励起情報を選択する手段とを含むことを特徴とするシステム。
２１．人間の音声を分析・合成する処理システムであって、該システムは：前記人間の音声をディジタル的にサンプルしてディジタル化された音声サンプルのフレームとする手段と；プログラム・インストラクションの第１に応動して複数個の前記音声フレームを記憶する処理手段とを含み；前記処理手段はインストラクションの第２の組に更に応動して各音声フレームに対する声道を定義する音声パラメータ信号の組を計算し；前記処理手段はプログラム・インストラクションの第３の組に更に応動して前記フレームの各々を有声および無声と指示し；前記処理手段はプログラム・インストラクションの第４の組に更に応動して前記フレームの各々に対しピッチ励起情報を発注し；前記処理手段はプログラム・インストラクションの第５の組に更に応動して前記フレームの各々に対し複数個の他の型の励起情報を発生し；前記処理手段はプログラム・インストラクションの第６の組および有声であると指示された前記フレームの各々に更に応動して前記ピッチ型励起情報および音声パラメータ信号の前記組を組合わせ；前記処理手段はプログラム・インストラクションの第７の組および無声であると指示された各々のフレームに更に応動して前記音声パラメータ信号の組と組合わされる前記他の型の励起の１つを選択し；前記処理手段はプログラム・インストラクションの第８の組に応動して前記フレームの各々に対し組合わされた励起情報と前記音声パラメータ信号の組を伝送することを特徴とする処理システム。
２２．第２１項記載のシステムにおいて、前記プログラム・インストラクションの第５の組はプログラム・インストラクションの第１および第２の部分集合より成り、前記処理手段はプログラム・インストラクションの前記第１の部分集合および前記音声サンプルに応動して前記サンプルの各々に対し残差サンプルを計算し；前記処理手段はプログラム・インストラクションの前記第２の部分集合に更に応動して前記フレームの各々に対し前記残差サンプルからパルスを決定してパルス型励起を提供することを特徴とするシステム。
２３．第２２項記載のシステムにおいて、前記プログラム・インストラクションの第２の部分集合は更にインストラクションの第１のクループを含み、前記処理手段はプログラム・インストラクションの前記第１のグループに応動して前記フレームの各々に対し最大振幅を有する前記残差サンプルのパルスの部分集合の位置を決定することを特徴とするシステム。
２４．第２２項記載のシステムにおいて、前記プログラム・インストラクションの第７の組はプログラム・インストラクションの第３，第４，第５および第６の部分集合を含み、前記処理手段は更に前記プログラム・インストラクションの第３の部分集合に更に応動して前記フレームの各々に対する残差サンプルの分散を計算し；前記処理手段は前記プログラム・インストラクションの第４の部分集合に更に応動して前記フレームの各々中の整流された残差サンプルの平均振幅の二乗を計算し；前記処理手段は前記プログラム・インストラクションの第５の部分集合に更に応動して残差の計算された分散と前記フレームの各々に対する整流された残差の平均振幅の二乗の計算値を比較し；前記処理手段は前記プログラム・インストラクションの第６の部分集合に応動して比較の結果予め定められた閾値より大であると前記パルス型情報を選択すべきであると指示することを特徴とするシステム。
２５．第２２項記載のシステムにおいて、前記プログラム・インストラクションの第７の組はプログラム・インストラクションの第２，第３，第４，第５，第６，第７および第９のグループを含み、前記処理手段は前記プログラム・インストラクションの第２のグループに更に応動して前記フレームの各々に対する各々の残差サンプルを二乗し；前記処理手段は前記プログラム・インストラクションの第３のグループに応動して前記フレームの各々に対しすべての二乗された残差サンプルを加算し；前記処理手段は前記プログラム・インストラクションの第４のグループに更に応動して１つのフレーム中のすべてのサンプルに前記フレームの各々に対する二乗された残差サンプルの和を乗じてある数値を発生させ；前記処理手段は前記プログラム・インストラクションの第５のグループに更に応動して前記フレームの各々中の前記残差サンプルの各々に対する絶対値を求め；前記処理手段は前記プログラム・インストラクションの第６のグループに更に応動して前記フレームの各々に対し残差サンプルの絶対値をすべて加算し；前記処理手段は前記プログラム・インストラクションの第７のグループに更に応動して前記フレームの各々に対する加算された残差サンプルの絶対値を二乗して他の数値を発生し；前記処理手段は前記インストラクションの第８のグループに更に応動して前記数値と前記他の数値を比較し；前記処理手段は前記インストラクションの第９のグループに更に応動して比較の結果予め定められた閾値より大であるとき前記パルス型励起情報を選択すべきものと指示することを特徴とするシステム。
２６．第２４項記載のシステムにおいて、前記プログラム・インストラクションの第２の組はプログラム・インストラクションの第２のグループを含み、前記処理手段は前記プログラム・インストラクションの第２のグループに更に応動して前記フレームの各々に対する線形予測符号化パラメータの組を計算して前記フレームの各々に対し音声パラメータ信号の前記組を与えることを特徴とするシステム。
２７．第２４項記載のシステムにおいて更にプログラム・インストラクションの第９，第１０，第１１の組を含み、他の処理手段は前記プログラム・インストラクションの第９の組に応動して前記フレームの各々に対し前記伝送された組合わされた励起情報と音声パラメータ信号の前記の組を受信し；前記他の処理手段は前記プログラム・インストラクションの第１０の組に更に応動して前記ピッチ励起情報が伝送されたとき前記音声パラメータ信号の組と前記ピッチ励起情報を使用して音声の各フレームを合成し；前記他の処理手段は前記プログラム・インストラクションの第７の組および前記音声パラメータ信号の組および前記複数個の他の型の励起情報の１つに更に応動して前記他の型の励起情報が伝送されたとき前記他の型の励起情報の内の前記１つを使用して音声の各フレームを合成することを特徴とするシステム。
２８．第２７項記載のシステムにおいて、前記プログラム・インストラクションの第１１の組はプログラム・インストラクションの第１，第２，第３および第４の部分集合を含み、前記他の処理手段は前記プログラム・インストラクションの第１の部分集合に更に応動して前記他の型の励起情報の前記１つが雑音型励起情報であるとき雑音型信号を発生し；前記他の処理手段は前記プログラム・インストラクションの前記第２の部分集合に更に応動して前記パルス型励起情報が伝送されたときパルス型信号を発生し；前記他の処理手段は前記雑音型信号に更に応動して前記雑音型励起情報を選択し；前記他の処理手段は前記プログラム・インストラクションの第４の部分集合および前記パルス型信号に更に応動して前記パルス型励起情報を選択することを特徴とするシステム。
２９．音声をディジタル・サンプルのフレームに変換する量子化装置を、音声を分析し合成するべく複数個のプログラム・インストラクションに応動するディジタル信号プロセッサとを含むシステムで人間の音声を分析・合成する方法であって、該方法は：各々が前記音声の瞬時振幅の等間隔サンプルを予め定められた数だけ有する複数個の音声フレームを記憶し；各音声フレームに対し声道を規定する音声パラメータ信号の組を計算し；フレームを有声および無声と指示し；前記フレームの各々に対しピッチ型励起情報を発生し；前記フレームの各々に対し複数個の他の型の励起情報を発生し；有声であると指示された前記フレームの各々に対し前記ピッチ型励起情報と前記音声パラメータ信号の組を組合わせ；無声であると指示された各フレームに対し前記音声パラメータ信号の組と組合わされる前記他の型の励起の１つを選択し；前記フレームの各々に対し組合わされた励起情報および前記音声パラメータ信号の組を伝送するステップを含むことを特徴とする方法。
３０．第２９項記載の方法において、前記複数個の他の型の励起情報を発生するステップは前記フレームの各々に対し前記音声サンプルから残差サンプルを計算するステップと；前記フレームの各々に対する前記残差サンプルからパルスを決定してパルス型励起を提供するステップとを含むことを特徴とする方法。
３１．第３０項記載の方法において、前記パルスと決定するステップは前記フレームの各々に対する最大振幅を有する前記残差サンプルのパルスの部分集合の位置を決定するステップを含むことを特徴とする方法。
３２．第３１項記載の方法において、前記他の型の励起の１つを選択するステップは前記フレームの各々に対する残差サンプルの分散を計算するステップと；前記各フレームの中の整流された残差サンプルの平均振幅の二乗を計算するステップと；前記フレームの各々に対し計算された分散と平均振幅の二乗の計算を比較するステップと；比較の結果、予め定められた閾値より大であると前記パルス型情報を選択すべきであると指示するステップを含むことを特徴とする方法。