JPS63500681A - マルチレベル・フィルタ励起を用いる音声合成 - Google Patents

マルチレベル・フィルタ励起を用いる音声合成

Info

Publication number
JPS63500681A
JPS63500681A JP61504055A JP50405586A JPS63500681A JP S63500681 A JPS63500681 A JP S63500681A JP 61504055 A JP61504055 A JP 61504055A JP 50405586 A JP50405586 A JP 50405586A JP S63500681 A JPS63500681 A JP S63500681A
Authority
JP
Japan
Prior art keywords
frames
pitch
excitation
audio
program instructions
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP61504055A
Other languages
English (en)
Other versions
JP2738533B2 (ja
Inventor
プレザス,デミトリオス パノス
トムソン,ディヴィッド リン
Original Assignee
アメリカン テレフオン アンド テレグラフ カムパニ−
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by アメリカン テレフオン アンド テレグラフ カムパニ− filed Critical アメリカン テレフオン アンド テレグラフ カムパニ−
Publication of JPS63500681A publication Critical patent/JPS63500681A/ja
Application granted granted Critical
Publication of JP2738533B2 publication Critical patent/JP2738533B2/ja
Anticipated expiration legal-status Critical
Expired - Lifetime legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/08Determination or coding of the excitation function; Determination or coding of the long-term prediction parameters

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Signal Processing (AREA)
  • Transmission Systems Not Characterized By The Medium Used For Transmission (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)

Abstract

(57)【要約】本公報は電子出願前の出願データであるため要約のデータは記録されません。

Description

【発明の詳細な説明】 マルチレベル・フィルタ励起を用いる音声合成茨五分互 本発明は圧縮して記tαまたは伝送し、その後に合成するための人間の音声信号 のディジクル符号化に係り、特に人間の音声の再生物を発生するべく合成フィル タを励起する合成器中で使用される信号の型の関する。
尖里■宣量 音声を低ビツト速度で記憶または伝送するために音声を表わすのに要求される1 秒当りのビット数を最小化するように人間の音声をディジタル化し、次いで符号 化する方法が知られている。アナログ音声サンプルは通常幅が20ミリ秒のオー ダの離散的な時間長を有するセグメント即ちフレームに分割される。サンプリン グは典型例では8kHzの速度で実行され、各サンプルはマルチビットのディジ タル数値Gこ符号化される。相続く符号化されたサンプルは更に人間の声道をモ デル化する適当なフィルタの係数/パラメータを決定する線形予測符号器(LP G)で処理される。フィルタのパラメータは予め定められた数の以前のサンプル 値の重み付けられた和に基づいて各信号サンプルの現在の値を推定するのに使用 することが出来る。フィルタのパラメータは声道の伝達関数のフォルマント構造 をモデル化する。音声信号は解析的には励起信号とフォルマント伝達関数より成 るものと見做される。励起成分は喉頭より生し、フォルマント成分は声道の残り の部分に対し励起成分を作用させることより生じる。励起成分は更に声帯により 空気流に分与された基本周波数が存在するか否かに依存して有声または無声に分 類される。声帯により空気流に分与された基本周波数が存在する場合には、励起 成分は有声と分類される。
励起が無声であると、励起成分は従来技術にあっては単に白色雑音と分類される 。音声を低ビツト速度で伝送するべ(符号化するためには、音声のセグメントに 対するLPG係数を決定し、音声を再生する復号回路にこれらの係数を転送する 必要がある。更に、励起成分を決定し、この成分を復号回路、即ち合成器に転送 する必要がある。
合成器で使用される励起を決定する1つの方法として米国特許第4,472,8 32号中で述べられているマルチパルス励起モデルがある。この方法では各フレ ームに対してパルスの数を決定し、該パルスはフォルマント・フィルタを励起す るべく合成器によって使用される。これらパルスは前出の特許で述べられている 合成による分析法によって決定される。このマルチ・パルス励起モデルは9、6  kbsのビット速度では良好に動作するがより低いピント速度では音声合成の 品質は劣化し始める。更に、音声の有声領域期間′中、合成された音声は多少粗 くなり、元の音声と異って来る。マルチ・パルス励起モデルの他の問題点はパル スの計算は多数の複雑な数学的操作を必要とするため各フレームに対しパルスを 決定するのに多大の計算を必要とすることである。
LPG合成音声に対する励起を決定するのに使用される他の方法は音声領域期間 中に喉頭によって発生されるピンチ、即ち基本周波数を決定することである。合 成器はピッチを受信すると相応する周波数を発生してフォルマント・フィルタを 励起する。音声が無声であると考えられる期間中、その事実が合成器に伝送され 、合成器は白色雑音を使用してフォルマント・フィルタを励起する。
この方法の問題点は白色雑音励起は破裂性子音、有声と無声の音声フレーム系列 の変位点および無声であると誤って判定された有声フレームに対しては不十分な 励起であることである。この問題点の結果、合成された音声は元の音声と同じ音 には聞えないことになる。
前述のことより、音声の有声および無声領域の両方を正確にモデル化出来、無声 および有声フレーム系列の間の転移領域を適正に取扱い、かつ破裂性子音も再生 するような励起モデルの必要性が存在する。
又尻立旦! 前述の問題点は本発明に従い図示の実施例により解決された。
この実施例では声道をモデル化するフィルタを励起するのに使用する励起として 音声の有声セグメント期間中は基本周波数を使用し、音声の雑音セグメント期間 中は白色雑音励起を使用し、有声でも無声でもないセグメント期間中は経済的に 効率的な方法で計算されたパルスを使用している。励起モデルは整流された残差 信号の平均振幅に関する音声サンプルの残差信号の分散と関連した闇値に基づい ていつ雑音またはパルス励起を使用するかを決定する。
図示の実施例は人間の音声に応動して音声をディジタル化および量子化して複数 個の音声フレームにするサンプルおよび量子化回路を含んでいる。パラメータ・ ユニットは各々の音声フレームに対する声道を定義する音声パラメータの組を計 算するのに使用され、他のユニットはフレームの内どれが有声であり、どれが無 声であるかを指示するのに使用される。各フレームに対し、ピッチ検出ユニット はフレームの各々に対するピッチを決定し、他の励起ユニットは複数個の他の型 の励起情報を発生する。チャネル符号器/組合せユニットは有声と指示されたフ レームに応動してピンチ情報を音声パラメータの組と組合わせて伝送し、無声と 指示されたフレームに応動して他の型の励起情報の1つを音声パラメータの組と 組合わせて伝送する。
他の励起ユニットはパルス型励起を発生するかあるいは雑音型励起を合成器で使 用すべきことを指示する。パルス型励起は各フレームに対する音声サンプルから 残差サンプルを計算し、これら残差サンプルから最大パルスの部分集合を決定す ることにより発生される。このパルスの部分集合は励起の1つの型としてチャネ ル符号器により伝送されるパルス型励起を表わす。
本システムは各フレームに対し残差サンプルの分散および整流された残差サンプ ルの平均振幅を計算することにより雑音型励起を使用するのか、あるいはパルス 型励起を使用するのかを選択する。次に残差の分散と整流された残差の平均振幅 の二乗の比較が行なわれる。分散と平均振幅の二乗の比較の結果、予め定められ た闇値より大である場合にはパルス型励起情報を選択すべきことが指示される。
また、音声パラメータの組はフレームの各々に対し線形予測符号化パラメータの 組を計算することにより得られる。更に、各フレームに対するピンチは複数個の 同一のピッチ検出器により発生される。この場合各々のピッチ検出器は各フレー ムに対する音声サンプルの個々の予め定められた部分に応動して個々のピンチ値 を推定する。選定ユニットは各々のピッチ検出器からの個々の推定されたピッチ 値に応動して各々のフレームに対する最終のピンチ値を決定する。
図示の実施例は各フレームに対する伝送された励起情報および音声パラメータを 受信するユニットを存する合成器サブシステムを含んでいる。合成器サブシステ ムはピッチ情報を含んでいる各フレームに応動してピッチ情報を使用して該フレ ームに対する音声パラメータに基づいて合成フィルタを励起する。励起情報がパ ルス型励起であると、音声バラメークと共に伝送されたパルスは合成フィルタを 励起するのに使用される。雑音型励起が指示されると、雑音発生器は雑音型励起 を発生して合成フィルタを駆動する合成サブシステム内において使用される。
先に詳述した機能はプログラム・インストラクションの組を実行するディジタル 信号プロセッサによって実行され得る。この場合プログラム・インストラクショ ンの組は更にディジタル信号プロセッサの実行を制御するインストラクションの 部分集合およびグループに細分割されている。
図示の方法はアナログ音声をディジタル・サンプルのフレームに変換する量子化 装置およびディジタイザを有するシステム中で機能し、該方法は各々が予め定め られた数のディジタル・サンプルを有する複数個の音声フレームを記憶し、各フ レームに対する声道を定義する音声パラメータの組を計算し、各フレームを有声 または無声と指示し、各フレームに対しピッチ型励起情報を発生し、各フレーム に対し複数個の他の型の励起情報を発生し、フレームが有声と指示されたときは ピッチ励起情報を音声パラメータと組合せ、フレームが無声であると指示された ときは音声パランまた、他の型の励起情報を発生するステップは、ディジタル音 声サンプルから各フレームに対する残差サンプルを計算し、残差サンプルからパ ルス型励起情報であるパルスを決定するステップを実行することによりパルス型 励起情報を発生することを含んでいる。更に、パルスは、残差サンプルから最大 振幅を有する各フレームに対する残差サンプル内のパルスの部分集合の位置を定 めることにより決定される。
組合わせを行うステップは各フレームに対する残差サンプルの分散および整流さ れた残差サンプルの平均振幅を計算し、計算された分散と計算された平均振幅の 二乗を比較し、比較の結果、予め定められた闇値より大であるとパルス型励起を 選択することにより他の型の励起の1つを選択することを含んでいる。
図面の眸度免匪所 第1図は本発明に従う音声分析器のブロック図;第2図は本発明に従う音声合成 器のブロック図;第3図は有声音声を模写する情報を含むパケットを示す図;第 4図は雑音励起を使用する無声音声を模写する情報を含むパケットを示す図; 第5図はパルス励起を使用する無声音声を模写する情報を含むパケットを示す図 ; 第6図は第1図のピッチ検出器109のブロック図;第7図は音声フレームの候 補サンプルの図式表現図:第8図は第1図のピッチ選出器111のブロック図; 第9図は第1および2図のディジタル信号プロセッサの使用法を示す図; 第10〜14図は第1図の分析回路を実現する第9図のディジタル信号プロセッ サの実行を制御するプログラムのフローチャート; 第15〜17図は第2図の合成器を実現する第9図のディジタル信号プロセッサ の実行を制御するプログラムのフローチャートである。
詳末μ弓先吸 第1および2回は本発明の焦点である音声分析器および音声合成器を夫々示す図 である。第1図の音声分析器は導線113を介して受信されたアナログ音声信号 に応動してこれらの信号を低ビツト速度で符号化してチャネル140を介して第 2図の合成器200に伝送する。チャネル140は通信伝送路であっても良いし 、後の時点において合成された音声を要求する種々の応用用途に対して音声合成 を提供し得るような記憶装置であってもよい。
そのような応用用途の1例としてディジタル計算機からの音声出力がある。第1 図に示す分析器はブロック1.00.112および101を使用してアナログ音 声情報をディジタル化し、量子化する。ブロック102は量子化され、ディジク ル化されたサンプルに応動して、人間の声道をモデル化する線形予測符号化(■ 、PC)係数を発生ずる。これらの係数の形成は米国特許第3,740,476 号中で述べられている装置または当業者にあって周知の任意の他の装置に従って 実行される。チャネル符号器129を除く第1図の残りの素子はLPGフィルタ 係数によって定義されたモデルを励起する第2図の合成器200で使用される励 起信号を決定するのに使用される。チャネル符号器129はLPG係数および励 起を規定する情報に応動してこの情報を第3〜5図に示すようにパケットの形態 で合成器200に伝送する。第3〜5図はパケットの形態で伝送される情報を示 しているが、当業者にあってはこの情報をメモリ中に記憶して合成器が後で使用 出来るようにすること、あるいはこの情報を合成器に並列に伝送し得ることは明 らかである。LPG係数および励起成分の伝送はフレーム毎に実行される。
ここで1フレームは160サンプルより成る。励起成分は喉頭により音声に付与 された基本周波数を規定するピッチ、合成器が白色雑音発生器を使用するという 指示、あるいはピッチ検出器109および/または110によって決定された残 差サンプルの絹であって良い。
どの型の励起を伝送するかの決定は以下に示すような仕方でブロック111.1 25および126によって実行される。ピッチ検出器109および110はブロ ック102からの残差信号e(n)に応動してピッチ選出器111に対し信号が 有声であるか無声であるかを指示し;ブロック107および108はディジクル 化された音声サンプルx(n)に応動して、これら信号が有声であるか無声であ るかを決定する。ピッチ選出器111はフレームが有声であるか無声であるかの 最終決定を行う。ピッチ選出器111がフレームは有声であると決定すると、こ の事実を指示する信号が信号路131を介してチャネル符号器129に伝送され る。チャネル符号器129はこの指示に応動して第3図に示すパケ7)を形成す る。このパケットはLPG係数、フレームは有声であるとの指示、ピンチ選出器 111からのピッチ情報、利得計算器136からの利得情報、および有声系列の 最初のフレームがピッチ選出器111から信号路132を介して処理されている 場合には第1のパルスの位置を含んでいる。
ピッチ選出H1llがフレームは無声であると決定すると、該ピッチ選出器11 1はこのことを知らせるために信号路131を介して素子126およびチャネル 符号器129に信号を伝送する。
第1図の分析器は合成器が白色雑音を使用するという指示を送信すべきか否か、 あるいはピッチ検出器109または110によって決定されたパルスを合成器に 送信すべきか否かを決定しなければならない。後者の決定は次のようにして実行 される。即ちおよび とするとき なる条件が満されると、合成器における励起は白色雑音となる。
上記の条件が満されない場合には、パルス励起が合成器200に伝送される。式 (1)は次のように書き直される:この式において、Nはフレーム当りのサンプ ル数である160で/あり、Tは約1.8なる値を有している。式(2)の右辺 は第1図のブロック120〜122によって計算され、左辺はブロック123お よび124によって計算される。比較器125は乗算器122および124の出 力に応動して式(2)を評価する。比較器125からのこの評価値は信号路13 3を介してチャネル符号器129および判定回路126に送信される。比較器1 25が乗算器124の出力は乗算器122の出力より小さいか等しいことを指示 すると比較器125は合成器において白色雑音励起が使用されるべきことを指示 する信号を信号路133を介して送信する。
チャネル符号器129はこの信号に応動して第4図に示すパケットを形成する。
このパケットは無声フレームを指示する“0”にセントされたV/vビットと、 白色雑音励起を使用すべきことを指示する10′にセントされたパルス状ビット と、利得ブロック136からの利得と、ブロック102からのLPG係数とを有 している。
比較器125は乗算器124の出力が乗算器122の出力より大であると決定す ると、比較器125は励起にパルスを使用すべきことを指示する信号を信号路1 33を介して送信する。現在のフレームに対し、この信号に応動して判定回路1 26はピッチ検出器109および110からずべての候補パルスを送信すべきな のか、またはこれらパルスの1つの組のみを送信すべきなのかを決定する。両方 のピッチ検出器からの候補パルスの総数が7以下であると、判定回路126は信 号路138を介してチャネル符号器129に′1”を送信する。チャネル符号器 129は比較器125からの信号および判定回路126からの“1′に応動して 信号路134および135を介して伝送されるすべての候補パルスをすべて使用 して第5図に示すパケットを形成する。ピッチ検出器109および110からの 最大パルスの総数が7より大であると、判定回路126は信号路138を介して チャネル符号器129に“0”を送信し、信号路139を介してチャネル符号器 129に該チャネル符号器が信号路134または135上のパルスを利用しよう としているかを指示する。この決定はどのピッチ検出器が現在のフレームに対し て最大のパルスを有しているかに基づいて行なわれる。ピッチ検出器109が最 大のパルスを発生すると、判定回路126は“l”をチャネル符号器129に送 信する。しかしピッチ検出器110が最大のパルスを発生すると、判定回路12 6は“0”をチャネル符号器129に送信する。チャネル符号器129は信号路 138を介して受信されたo”および信号路139を介して受信された信号に応 動して信号路133または134から指示されたパルスの組を選択し、第5図に 示すパケットを形成する。このパケットは無声フレームであることを指示する“ 0”にセントされたV/vピント、パルス励起が使用されることを指示する“1 ″にセントされたパルス・ビア h、パルスの位置と振幅およびLPG係数を有 している。
第2図に示す合成器200はチャネル14.0を介して受信された声道モデルお よび励起情報に応動して第1図の分析器によって符号化された元のアナログ音声 を再生する0合成器200は以下のように機能する。第3図に示すように有声情 報パケットを受信すると、チャネル復号器201はLPG係数を信号路216を 介して合成フィルタ207に転送し、とッチ情和を信号路212を介して、電力 レベルを信号路211を介してピンチ発生器202に転送する。更に、それが有 声系列の最初の有声フレームであると、チャネル復号器は第1のパルスの開始位 置を信号路213を介してピッチ発生器202に送信する。V/νビントが有声 フレームを指示する“1”に等しいと、チャネル復号器はセレクタ206にピッ チ発生器202の出力を選択させ、このピンチ発生器202からの情報を信号路 217を介して合成フィルタ207に加える。
ピッチ発生器202は信号路211〜213を介して受信された情報に応動して 実際の音声の期間中に喉頭により発生された基本周波数を再生する。合成フィル タ207は声道モデルを規定するLPG係数およびピッチ発生器202から受信 された励起に応動して音声を表わすディジタル・サンプルを発生する。ディジタ ル・アナログ変換器20日はフィルタ207によって発生されたこれらディジタ ル・サンプルに応動して導線218上に音声のアナログ表現を発生させる。
チャネル復号器201は第4図に示すような雑音励起を存する無声パケットを受 信し、チャネル復号器201は信号路214を介して信号を送信し、セレクタ2 05に白色雑音発生器203の出力を選択させ、チャネル復号器201は信号路 214を介して信号を送信し、セレクタ206にセレクタ205の出力を選択さ せる。更に、チャネル復号器201は電力ファクタを白色雑音発生器203に送 信する。合成フィルタ207は信号路216を介してチャネル復号器201から 受信された1、、 P C係数およびセレクタ205および206を介して受信 された白色雑音発生器203の出力に応動して音声のディジタル・サンプルを発 生ずる。
チャネル復号器201がチャネル140から第5図に示すようなパルス励起を有 する無声フレームを受信すると、該復号器201は信号路210を介してパルス 発生器204に最大パルスの振幅に対するパルスの位置と相対振幅を送信し、信 号路21】を介して最大パルスの振幅を送信する。更に、チャネル復号器201 はセレクタ205および206を信号路214および215を夫々介してパルス 発生器204の出力を選択させ、その出力を合成フィルタ207に転送させる。
次に合成フィルタ207およびディジタル・アナログ変tIA器208は音声を 再生する。変換器208はその出力に独立した低域フィルタを有している。更に チャネル復号器201は信号路216を介してLPG係数を米国特許第3.74 0.476号で述べられているかまたは当業者にあっては周知の合成フィルタ2 07に送信する。
次に第1図に示すピッチ検出サブシステム150によって実行されるピンチ検出 機能について更に詳細に考察する。クリッパ103〜106は信号路115およ び116上の到来するXおよびeなるディジクル化された信号を正に向う波形お よび9、に向う波形に変換する。これらの信号を形成する目的は混合波形は明ら かな周期性を示さないかも知れないのに対し、クリップされた信号は明らかな周 期性を示し得ることによる。従って周期性の検出がより容易となる。クリッパ1 03および105はXおよびe信号を夫々正に向う信号に変換し、クリッパ10 4および106はXおよびe信号を夫々負に向う信号に変換する。
ピンチ検出器107および110は各々それ自身の個々の入力信号に応動して到 来信号の周期性を決定する。ピッチ検出器の出力はこれら信号を受信した2フレ ーム後に得られる。ここで各フレームはこの例では160のサンプル点から成っ ていることに注意されたい。ピッチ選出器111は4つのピンチ検出器の出力に 応動して最終ピンチを決定する。ピンチ選出器111の出力は信号路114を介 して伝送される。
第6図はピッチ検出器109のブロック回である。他のピッチ検出器も類似の設 計である。最大値位置検出器(ロケータ)601は各フレームのディジクル化さ れた信号に応動して周期性の検査を実行するパルスを検出する。最大値ロケータ 601の出力は2組の数値である。即ち候補サンプルである最大振幅を表わす数 値Miと、これら振幅のフレーム内の位置を表わす数jlTiDiとである。こ れら2組の数値はまたピッチ選出器111が現在のフレームは無声であると決定 すると、励起パルスとして使用するべく遅延回路145に転送される。距離検出 器602はこれら2組の数値に応動して周期的を候補パルスの部分集合を決定す る。この部分集合は距離検出器602のこのフレームに対する周期性に関する決 定を表わす。距離検出器602の出力はピッチ追尾装置603に転送される。ピ ッチ追尾装置6030目的はディジタル化された信号の相続くフレーム間のピッ チ検出器のピッチに関する決定を制約することである。この機能を実行するため に、ピンチ追尾装置603は以前の2つのフレームに対して決定されたピッチを 使用する。
次に最大値ロケータ601によって実行される動作について詳細に考察する。最 大値ロケータ601はまずフレームからのサンプルの中でそのフレーム中の大局 的最大振幅M0とその位置D0を同定する。周期性チェックのために選択された 他の点は以下のすべての条件を満さねばならない。まず第1にパルスは局部最大 値を有するものでなければならない。即ち取り出される次のパルスは既に取り出 されるかあるいは除去されたすべてのパルスを除くフレーム中の最大振幅を有す るものでなければならない。何故ならばピンチ・パルスは通常フレーム中の他の サンプルより大きな振幅を有していると仮定しているのでこの条件が適用される 。
第2に選択されたパルスの振幅は大局的最大値のあるパーセントより大きいか等 しくなければならない。即ちgを闇値振幅パーセント(例えば25%)としてM i>gM、でなければならない。
第3に、パルスは既に位置が同定されたすべてのパルスから少くとも18サンプ ルは離れていなければならない。この条件は人間の音声で生しる最大のピンチは 約444tlzであり、これを8klLzのサンプル速度でサンプルすると18 サンプルになるという仮定に基づいている。
距離検出器602は再帰的動作をし、フレームの大局的最大値M0から最も近隣 の候補パルス′への距離を考察することより開始する。この距離は候補距離dc と呼ばれ、次式で与えられる。
dc=lDo Dil ここでDiは最も近隣の候補パルスのフレーム内の位置である。
フレーム中のこのようなパルスの部分集合がこの距離から息継ぎ間隔Bを加減し たものだけ隔っていないならば、この候補距離は棄却され、新らしい候補距離を 用いて次の近隣候補パルスに対して再び同様な操作が開始される。Bは4から7 の間の値を有している。この新らしい候補距離は次に隣接するパルスと大局的最 大値パルスの距離である。
ピッチ検出器602が距離dc±Bだけ隔った候補パルスの部分集合を一度決定 すると、内挿振幅テストが適用される。内挿振幅テストM0と次に隣接する候補 パルスの各々の間の線形内挿を実行し、Moに直接隣接する候補パルスの振幅が これら内挿値の少くともq%であることを要求する。内挿振幅闇値q%は75% である。第7図に示す候補パルスによって示される例を考察する。
dcが正当な候補距離であるためには次式が成立しなければならない。
dc=l Do−D+ l > 18 であり、前述の如く次式が成立する。
旧〉gM。 i=1.2,3.4.5 ピッチ追尾装置603は距離検出器602の出力に応動してピッチの周波数と関 連するピッチ距離推定値を評価する。ここでピッチ距離はピッチの周期を表わし ていることに注意されたい。ピッチ追尾装置603の機能は、必要な場合には4 つのテストを実行することによってピッチ検出器から受信された初期ピッチ距離 推定値を修正することによってフレーム間でピッチ距離の推定値が矛盾を生じな いように制約を加えることである。ここで4つのテストとは音声セグメント・ス タートアップ・テスト、最大息継ぎおよびピッチ倍化テスト、制限テストおよび 急激変更テストである。これらのテストの内の第1のテストである音声セグメン ト・スタートアップ・テストは有声領域の開始時点におけるピッチ距離の無矛盾 性を保証するために実行される。このテストは有声領域の開始とのみ関係してい るので、このテストは現在のフレームはOでないピンチ周期を有しているものと 仮定している。この仮定は先行するフレームおよび現在のフレームが有声領域中 の第1および第2の音声フレームであるということに等しい。ピッチ距離の推定 値がT(i) (ここでiは距離検出器602からの現在のピンチ距離の推定値 を表わす)であるとすると、ピッチ検出器603は(各検出器を通ると2フレ一 ム分の遅延を与えるので)T”(+−2)を出力する。テストはT(i−3)お よび T(を−2)が0であるかまたはT (i−2)がOでなくてT (i− 3)およびT(i−4)が0であるときのみ(これはフレームi−2およびi− 1が有声領域中の夫々第1および第2の有声フレームであることを意味する)実 行される。音声セグメント・スタートアップ・テストは2つの無矛盾性テストを 実行する。即ち一方は第1の有声フレームT(i−2)に対するテストであり、 他方は第2の有声フレームT (i−1)に対するテストである。これら2つの テストは相続くフレーム期間中に実行される。音声セグメント・テストの目的は 、有声領域が実際には開始されていないときに有声領域の開始を定義する確率を 減少させることである。音声領域に対する他の無矛盾性テストが最大息継ぎおよ びピッチ倍化テストにおいて実行され、そこではただ1つの無矛盾性条件が要求 されるので前記2つのテストは重要な意味を有している。第1の無矛盾性テスト はT(i−2)中の右の候補サンプルとT(i−1)およびT(i−2)中の最 も左の候補サンプルの距離がピッチ閾値B+2内にあることを保証するために実 行される。
第1の無矛盾性テストに合格すると、次のフレーム期間中に第2の無矛盾性テス トが実行され、第1の無矛盾性テストが確認した結果と同じ結果がフレーム系列 を右に1つシフトしても得られることがRi=される。第2の無矛盾性テストに 合格しないと、T(i−1)はOにセントされ、(T(i−2)がOにセントさ れていなかったとすると)フレームi−1は第2の有声フレームとはなり得ない ことを表わす。しかし、両方の無矛盾性テストに合格すると、フレーム】−2お よびi−1は有声領域の開始を定義する。T(i−1)が0にセットされ、T  (i−2)は0でないと決定され、T(i−3)は0であると(これはフレーム i−2が2つの無声フレームの間の有声フレームであることを指示する)、急激 変化テストがこの状況を認知するが、この特殊なテストについては後述する。
最大息継ぎおよびピッチ倍化テストは有声領域中の2つの隣接した有声フレーム にわたるピッチの無矛盾性を保証する。従ってこのテストはT (i−3) 、 T (i−2)およびT(i−1>が0でないときにのみ実行される。最大息継 ぎおよびピッチ倍化テストはまた距離検出器602によって生じたピッチ倍化誤 差をチェックし、補正する。チェックのピッチ倍化部はT (+−2)およびT (i−1)が無矛盾であるかどうか、またはT(i−2)がT(i−1)の2倍 と無矛盾(これはピッチ倍化誤りを意味する)であるかどうかをチェックする。
このテストはまず、Aが10なる値を有するものとして l T(i−2) −T(i−1) l <Aなる式によって実行されるテスト の最大息継ぎ部の条件を満すがどうかをチェックする。削代が満されると、T  (i−1)はピッチ距離の良好な推定値であり、修正する必要はない。しかし、 テストの最大息継ぎ部の条件を満さないと、テストのビ、千倍化部の条件を満す かどうかを決定するテストを実行しなければならない。テストの第1の部分は、 Tロー3)を0でないものとするとき、 なる式で定義されるピンチ闇値内にT(i−2)とT(i−1)の2倍の差があ るかどうかをチェックする。この条件が満されると、T (i=l)はT (+ −2)にセットされる。この条件が満されないと、T (i−1)は0にセット される。このテストの第2の部分はT(i−3)がOに等しい場合に実行される 。
l T(i−2) −2T(i−1) t <Bおよび l T(i−])〜T(i) l >Aであると T(i−1) =T(i−2) である。この条件が満されないとT(+−1)はOにセットされる。
T(i−1)に対して実行される制限テストは計算されたピッチが50Hz〜4 00Hzという人間の音声の範囲内にあることを保証する。計算されたピッチが この範囲内に入らない場合には、T(i−1)はOにセントされ、フレームi− 1は計算されたピッチを有する有声フレームではあり得ないことを指示する。
急激変化テストは前述の3つのテストが実行された後に実行され、その目的は他 のテストが無声領域の中間にある有声フレームあるいは有声領域の中間にある無 声フレームと判定したと決定することである。人間は通常このような音声フレー ム系列を発生し得ないから、急激変化テストは有声−無声−有声あるいは無声− 存声一無声なる系列を除去することによって有声または無声区間は少くとも2フ レーム長を有することを保証する。急激変化テストは各々が前述の2つの系列を 検出するよう設計された2つの別個の手順より成る。ピッチ追尾装置603が前 述の4つのテストを一度実行すると、該装置603は第1図のピッチ・フィルタ 111にT”(i2)を出力する。ピンチ追尾装置603は距離検出器602か ら次に受信されるピンチ距離に対する計算を実行するために他のピッチ距離を保 持する。
第8図は第1図のピンチ・フィルタ111を更に詳細に示している。ピッチ値推 定器801はピンチ検出器107〜110の出力に応動して2フレーム前のピッ チの初期推定値P (+−2)を形成し、ピッチ値追尾装置802はピンチ値推 定器801の出力に応動して3フレーム前の最終ピッチ値P (i−3)をフレ ームの進行に応じて矛盾がないに制約する。ピッチ値の決定および送出に力■え て、ピッチ・フィルタ111はVノμ信号と有声領域の開始点における最初のパ ルスの位置を発生し、送出する。
次にピッチ値推定器801が実行する機能について更に詳細に考察する。一般に 、ピンチ値推定器801によって受信された4つのピンチ距離の推定値がすべて 非O(これはを声フレームを指示)であると、最大および最小の推定値は棄却さ れ、P (i−2)は残りの2つの推定値の算術平均にセットされる。同様に、 ピッチ距離の推定値の内の3つが非0であると、最大および最小の推定値が棄却 され、ピッチ値推定器801はP (i−2)を残りの非0の推定値に等しくセ ットする。推定値の内2つだけが非0であると、ピンチ値推定器801は2つの 値の差がピッチの闇値A内にあるときのみ2つのピッチ距離の推定値の算術平均 に等しくセントする。2つの値の差がピッチの闇値A内にない場合には、ピッチ 値推定器801はP(i−2)をOに等しくセントする。
この決定は、幾つかの個々の検出器は誤っである周期性を検出したが、フレーム i−2は無声であることを指示している。4つのピッチ距離推定値の内1つだけ が非0であると、ピッチ値推定器801はP (i−2)をその非0の値に等し くセットする。この場合、このピッチ距離の推定値の妥当性をチェックして以前 のピッチの推定値と矛盾がないようにするのがピッチ値追尾装置802の役目で ある。ピッチ距離の推定値がすべてOに等しいと、ピッチ値推定25801はP (i−2)を0に等しくセントする。
次にピッチ値追尾装置802について詳細に考察する。ピッチ値追尾装置802 はピッチ値推定器801の出力に応動して3フレーム前のピッチ値の推定値P” (i−3)を発生するが、この推定はP(i−2)およびP (i−4)に基づ いて行なわれる。
ピッチ値P”(i−3)はフレームからフレームへの変化に応じて矛盾が生じな いように選ばれる。
最初にチェックされることは有声−無声−有声、無声−有声−無声、あるいは有 声−有声−無声なる形を有するフレームの系列である。P(i−4)およびP  (i−2)が非0で、P (+−3)がOであることによって示される第1の系 列が生じると、最終ピッチ値P”(t−3)はピッチ値追尾装置802によって P(i−4)およびP(i−2)の算術平均に等しくセットされる。第2の系列 が生起すると、最終ピンチ値P”(i−3)は0にセントされる。第3の系列に 関しては、ピッチ値追尾装置はP (+−3)およびP(i−4)の差がピッチ の闇値A以内であるときP(i−4)およびP (i−3>が非Oであり、P( i−2)がOであることに応動してP”(i−3)をP (i−3)およびP( i−4)の算術平均にセットする。即ちピッチ値追尾装置802は I P(i−4) P(i−3) l <:Aなることに応動して次の操作を実 行する。
P (i−3)およびP (i−4)が前述の条件を満さない(即ち、両者の差 がピンチ闇値A内にない)とピンチ値追尾装置802が決定すると、該ピッチ値 追尾装置802はP”(i−3)をP(+−4)の値に等しくセントする。
前述の操作に加えて、ピンチ値追尾装置802はまたある型のを声−有声−有声 フレーム系列に対してピンチ値の推定値を平滑する操作を実行する。この平滑化 操作が実行される3つの型のフレーム系列が生起する。第1の系列は次の条件が 成立するときである。
I P(i−4) −P(+−2) l <Aおよび I P(+−4) −P(i−3) I >^この条件が成立すると、ピッチ値 追尾装置802はとセットすることにより平滑化操作を実行する。
第2の条件の組は次の関係が成立するときである。
I P(i−4) −P(i−2) l >Aおよび I P(i−4) −P(i−3) l≦Aこの第2の条件の組が成立すると、 ピッチ値追尾装置1Z802は次のようにセットする。
第3(最後)の条件の組は次式で定義される。
I P(i−4)−P(i−2) l >Aおよび I P(+−4) −P(i−3) l >Aこの最後の条件が成立すると、ピ ッチ値追尾装置802は次のようにセットする。
ピ(i−3) =P(i−4) 第9図はディジタル信号プロセッサを用いて実現した第1および2図の分析器お よび合成器の実施例である。第1および第2図に示す機能を実現するため、第1 0および15図にフローチャートとして示すプログラムが第90のPROM 9 01中に記憶されている。第9図の分析器/合成器の組合せはチャネル906を 介して類似のユニットに接続されており、音声会話はこれら2つの分析器/合成 器ユニットを用いて通信される。RAM 902は第1図に示す各々のピッチ検 出器に対する個々のパラメータの記憶を含む種々の型の情報を記憶するのに使用 される。ピッチ検出器はFROM901中に記憶されたプログラムの命令を用い て実現される。
第9図の分析器/合成器はアナログ・ディジタル変換器904を用いて到来音声 をディジタル化し、ディジタル・アナログ変換器905を用いてチャネル906 を介して受信されたディジタル信号のアナログ表現を出力する。
第10図はディジタル信号プロセッサ903によって実行する第1図のLPG符 号器およびフィルタ102のソフトウェア的実現法を示している。第10図のフ ローチャートとして示すプログラムはブロック1001〜1012を実行するこ とによりバーブ(Burg)のアルゴリズムを実現している。このアルゴリズム は各フレームに対するLPG係数および残差e (n)を計算する。残差e ( n)が決定された後、各フレームに対する電力がブロック1013.10】4お よび1015によって残差サンプルから計算される。
次に、第1図のピッチ検出器107〜110は第11図のブロック1101によ って実現される。ブロック1101は各々が第9図のRAM 902中に別個の 記憶パラメータを有するプログラム命令の共通の組を使用することによって正お よび負の音声サンプルならびに正および負の残差サンプルに対してピッチ検出が 実行される。残差サンプルに対し、ピンチ検出期間中に決定された候補パルスは 後でパルス励起として使用するために保存される。ピッチ検出が実行された後、 第1図のピッチ選出器111の機能はブロック1102および1103によって 実現される。V/aピントはブロック1102によりセットされる。後者のビッ トは判定ブロック1104により検定される。V/uビットが“1”にセ・7ト されていて音声フレームが有声フレームであることを指示すると、第14図のブ ロック1401〜1404および1406および1407が実行される。ブロッ ク1401および1402はピッチおよび電力情報をチャネル符号器に夫々送信 する。判定ブロック1403はその有声フレームが一連の有声フレーム中の最初 のフレームであるかどうかを決定する。最初のフレームであると、ブロック14 04はチャネル符号器に第1のピンチ・パルスの位置を送信する。この情報は合 成器がピッチ情報を適正に使用するのに使われる。次に、ブロック1406およ び1407はLPC係数に、をチャネル符号器に送出する。次にチャネル符号器 は周知の技法を用いたバイト形態でチャネルを介して合成器に受信した情報を送 信する。
V/LLビットが“0”にセントされていると、判定ブロック1104は制御を ブロック1105〜1201に切換える。このブロック1105〜1201は式 (2)の左辺および右辺を決定するのに必要な計算を実行する。これらの計算が 実行されると、パルス励起を用いるか雑音励起を用いるかに関する決定が式(2 )の最終ステップを実現する判定ブロック1202により実行される。雑音励起 を使用すべきとの決定がなされると、制御は第12図のブロック1203および 第14図のブロック1405〜1407にわたされる。これらのブロックは合成 器が雑音励起を使用するためにチャネル符号器に対する情報を準備し転送する。
パルス励起を使用するとの判定がなされると、判定ブロック1202は制御を第 12図のブロック1204および1205にわたす。ブロック1204を実行す ると1”がチャネル符号器に送信され、パルス励起を実行すべきことを指示し、 ブロック1205を実行すると最大候補パルスの振幅がチャネル符号器に送信さ れる。最大候補パルスは第11図のブロック1101によって実現されたピッチ 検出器により決定される。この情報がチャネル符号器に転送された後、第13図 の判定ブロック1301が実行される。判定ブロック1301の目的は第11図 のブロック1101によって見出された候補パルスの内どれを合成器に転送すべ きかを決定することである。残差ピッチ検出器によって見出された候補パルスの 総数が7以下であると、すべての候補パルスが転送される。見出された候補パル スの数が7より大であると、最大振幅の候補パルスを有していたピッチ検出器か らの候補パルスがチャネルに転送される。パルスの総数が7より大であると、最 大振幅の候補パルスが負マたは正の残差サンプルのいずれのサンプル中に存在し ていたかを決定する判定ブロック1302が実行される。最大パルス振幅が負の 残差サンプル中に存在するならば、ブロック1303および1304が実行され 、候補パルスが負の残差サンプルからチャネル符号器に転送される。最大振幅候 補パルスが正の残差サンプル中に存在するという決定が判定ブロック1302に よって行なわれると、ブロック1309および1310が実行され、候補パルス が正の残差サンプルからチャネル符号器に送信される。ブロック1304により 転送された情報は各候補パルスの振幅と位置である。振幅情報はブロック120 5によりチャネル符号器に転送された最大振幅の候補パルスの振幅に対する相対 振幅である。
負および正の残差サンプル中の候補パルスの総数が7以下であると判定ブロック 1301により決定されると、ブロック1305.1306.1307および1 308が実行され、正および負の残差サンプルに対するすべての候補パルスがチ ャネル符号器に転送される。
前述の動作が実行された後、ブロック1311が実行され、チャネル符号器に対 しすべてのパルスが伝送されたことを指示する。
ブロック1311の実行後、第14図のブロック1406および1407が実行 され、LPG係数がチャネル符号器に転送される。
ピッチ、雑音またはパルス励起情報がLPG係数および電力情報と共にチャネル 符号器に転送されると、次のフレームに対して同様な操作が繰返される。
第2図の合成器を実現する第9図のディジタル信号プロセッサ903のプログラ ムが第15.16および17図に示されている。
第15図のフローチャート中に示されているプログラム・ステップは合成フィル タ207を実現するプログラム命令を駆動するのに使用される励起の型を決定す る。第15図に示すプログラム・ステップはフレームの型を決定し、ある種のパ ラメータを読み出す、ブロック1501はまずチャネル復号器からν/Vビット を得、第2図のセレクタを実現する判定ブロック1502はV/aビットが夫々 有声または無声音声情報を指示する°1”または“O”のいずれであるかを決定 する。有声情報であると指示されると、ブロック1503および1504が実行 され、チャネル復号器からピッチおよび電力情報が得られる。この情報を得た後 、判定ブロック1505の実行によってこれが有声領域の最初のフレームである か否かを決定するチェックが行なわれる。有声領域の最初のフレームである場合 には、ブロック1506が実行され、有声フレーム内の最初のピッチ・パルスの 位置が得られる。
情報が無声であると決定されると、ブロック1507が実行される。このブロッ クはチャネル復号器からパルス・ビットを得る。
パルス・ビットが“1”であるか“0゛であるかに基づいて判定を行うブロック 1508はパルス励起または雑音励起を夫々使用するプログラム命令を実行し、 第2図のセレクタ205の役割を実行する。パルス・ビットが“O”で雑音励起 を指示する場合、電力はブロック1512によってチャネル復号器から得られる 。
パルス・ビットが“1”でパルス励起を指示する場合、ブロック1509〜15 11が実行され、パルス励起に使用される候補パルスの最初のパルス位置が得ら れる。
第1のフレーム型パルスが決定されると、第16および17図のフローチャート 中に示すプログラム・ステップが実行される。
ブロック1603〜1610は励起に使用されるパルスを決定し、ブロック17 01〜1707は合成フィルタを実現している。判定ブロック1603は音声の フレームが完全に合成された時点を決定する。判定ブロック1604は再びフレ ームが有声であるか無声であるかを決定する。有声フレームであると、ブロック 1610が実行され、ピンチ励起のための次のパルスが決定され、合成フィルタ のプログラムされた命令はその後に実行される。
フレームが無声であると、判定ブロック1605が実行され、雑音励起とパルス 励起のいずれを使用するかが決定される。雑音励起が使用される場合には、判定 ブロック1606が使用され、合成フィルタのプログラムされた命令によって使 用されるパルスが得られる。パルス励起が使用される場合には、プロ、り160 7〜1609が実行され、使用される適正なパルス励起パルスが決定される。
合成フィルタは周知のLPG合成技法を使用してブロック1701〜1707に より実現される。音声のフレーム全体が合成された後、第16〜17図に示すプ ログラムされた命令は音声の次のフレームに対して繰返される。
前述の実施例は本発明の原理を単に例示するものであり、当業者にあっては本発 明の精神および範囲を逸脱することなく他の装置を考案し得ることを理解された い。
FIG、7 FIG、8 ゴロツク/σOθへ F/σ〃△ FI0. 11 θC/z八 FIG、12 F/(、Bへ FIG、13 1て/4八 FIG、14 FIG、15 FIG、1G 、t4(17へ FIG、17 μ15へ泉3 国際調査報告 ANNEX To TKE INTERHATXONAL 5EAFiCH!’ tEPORT ON

Claims (32)

    【特許請求の範囲】
  1. 1.人間の音声を分析および合成する処理システムであって、該システムは: 各々が予定められた数の前記音声の瞬時振幅の等間隔サンプルを有する複数個の 音声フレームを記憶する手段と;各々の音声フレームに対する声道を定義する音 声パラメータ信号の組を計算する手段と; フレームを有声および無声と命名する手段と;前記フレームの各々に対しピッチ 型励起情報を発生する手段と;前記フレームの各々に対し複数個の他の型の励起 情報を発生する手段と; 有声であると命名された前記フレームの各々に応動して前記ピッチ型励起情報と 前記音声パラメータ信号の前記の組を組合わせる手段とを含み; 該組合わせる手段は更に無声であると命名された各フレームに応動して前記音声 パラメータ信号の組と組合わされる前記他の型の励起の1つを選択する手段を含 むことを特徴とするシステム。
  2. 2.第1項記載のシステムにおいて、前記発生手段はパルス型励起を提供するた めに前記フレームの各々に対し前記音声サンプルからパルスを決定する手段を含 むことを特徴とするシステム。
  3. 3.第2項記載のシステムにおいて、前記決定手段は前記フレームの各々に対す る前記音声サンプルから残差サンプルを計算する手段と; 前記フレームの各々に対し最大振幅を有する前記残差サンプルのパルスの部分集 合の位置を決定する手段とを含むことを特徴とするシステム。
  4. 4.第3項記載のシステムにおいて、前記選択手段は前記フレームの各々に対し 残差サンプルの分散を計算する手段と;前記フレームの各々中の整流された残差 サンプルの平均振幅の二乗を計算する手段と; 前記フレームの各々に対し、残差の計算された分散と整流された残差の平均振幅 の計算された二乗値を比較する手段と;比較の結果予め定められた閾値より大き いとき、前記パルス型励起情報を選択する手段とを含むことを特徴とするシステ ム。
  5. 5.第3項記載のシステムにおいて、前記選択手段は前記フレームの各々の各残 差サンプルを二乗する手段と;前記フレームの各々に対する二乗された残差サン プルをすべて加算する手段と; 前記フレームの各々に対し値を発生するために二乗された残差サンプルの和を介 してフレーム中のサンプルの総数を乗ずる手段と; 前記フレームの各々の中の前記残差サンプルの各々に対する絶対値を得る手段と ; 前記フレームの各々に対し残差サンプルの絶対値をすべて加算する手段と; 他の値を発生するために前記フレームの各々に対し残差サンプルの絶対値を加算 したものを二乗する手段と;前記フレームの各々に対し前記値と前記他の値を比 較する手段と; 前記比較の結果、予め定められた閾値よりも大であると、前記パルス型励起情報 を選択する手段とを含むことを特徴とするシステム。
  6. 6.第5項記載のシステムにおいて、前記音声パラメータ信号の組を計算する前 記手段は前記フレームの各々に対する線形予測符号化されたパラメータの組を計 算する手段を含むことを特徴とするシステム。
  7. 7.第6項記載のシステムにおいて、前記ピッチ型励起情報を発生する前記手段 は: 各々が前記フレームの各々の前記音声サンプルの個々の予め定められた部分に応 動して前記フレームの各々に対するピッチ値を推定する複数個の同一の手段と; 前記推定手段の各々からの個々の推定されたピッチ値に応動して前記フレームの 各々に対する最終ピッチ値を決定する手段とを含むことを特徴とするシステム。
  8. 8.第7項記載のシステムにおいて、前記決定手段は:前記フレームの各々に対 し前記推定されたピッチ値の内の前記のものに対する前記最終ピッチ値を計算す る手段と;前記最終ピッチ値を制約して、前記フレームの各々に対する計算され たピッチ値が前記フレームの内の以前のフレームから計算されたピッチ値と一致 するようにする手段とを含むことを特徴とするシステム。
  9. 9.第5項記載のシステムであって更に、前記フレームの各々に対する前記送信 された組合わされた励起情報と音声パラメータ信号の前記の組を受信する手段と ; 前記ピッチ励起情報が送信されたとき、音声パラメータ信号の前記組と前記ピッ チ励起情報を使用して音声の各フレームを合成する手段とを含み; 前記合成手段は更に前記他の型の励起情報が送信されたとき、音声パラメータ信 号の前記組および前記複数個の他の型の励起情報の1つに応動して、前記他の型 の励起情報の内の前記1つを使用して音声の各フレームを合成することを特徴と するシステム。
  10. 10.第9項記載のシステムにおいて、前記合成手段は前記他の型の励起情報が 雑音型励起情報であるとき、雑音型信号を発生する手段と; 前記パルス型励起情報が送信されたときパルス型信号を発生する手段と; 前記雑音型信号に応動して前記雑音型励起情報を発注する手段と; 前記パルス型信号に応動して前記パルス型励起情報を選択する手段とを含むこと を特徴とするシステム。
  11. 11.人間の音声の分析および合成を行う処理システムであって、該システムは : 各々が予め定められた数の前記音声の瞬時振幅の等間隔サンプルを有する複数個 の音声フレームを記憶する手段と;各々の音声フレームに対する声道を定義する 音声パラメータ信号の組を記算する手段と; 基本周波数を含むフレームに対しフレームのピッチから各フレームに対する励起 情報を形成する手段と;人間の喉頭中の雑音の如き信号源から発生されるフレー ムの音声に対し雑音の使用を指示するべく励起情報を形成する手段と;基本周波 数および雑音の如き信号源が存在しないとき、他の励起源から励起情報を形成す る手段と; 形成された励起情報と各フレームのパラメータ信号の組を送信するべく組合わせ る手段とを含むことを特徴とするシステム。
  12. 12.第11項記載のシステムにおいて、前記ピッチから前記情報を形成する手 段は: 前記フレームのサンプル中の前記基本周波数の存在を検出する手段と; 前記フレームの各々中の前記ピッチを計算する手段と;前記検出手段が前記基本 周波数の存在を決定するとき前記計算されたピッチを前記励起情報中に形成する 手段とを含むことを特徴とするシステム。
  13. 13.第12項記載のシステムにおいて、前記他の励起源から前記励起情報を形 成する前記手段は前記他の励起源からの励起情報を提供するために前記フレーム の各々に対する前記音声サンプルからパルスを決定する手段を含むことを特徴と するシステム。
  14. 14.第13項記載のシステムにおいて、前記パルスを決定する手段は前記フレ ームの各々に対する前記音声サンプルから残差サンプルを計算する手段と; 前記フレームの各々に対し最大振幅を有する前記残差サンプルのパルスの部分集 合の位置を決定する手段を含むことを特徴とするシステム。
  15. 15.第14項記載のシステムにおいて、前記他の励起源から前記励起情報を形 成する前記手段は更に前記フレームの各々に対し前記残差サンプルの分散を計算 する手段と;各フレーム中の整流された残差サンプルの平均振幅の二乗を計算す る手段と; 残差の計算された分散と前記フレームの端々に対する整流された残差の平均振幅 の二乗の計算値を比較する手段と;比較の結果予め定められた閾値より大である とき、前記他の励起源からの前記励起情報を選択すべき前記パルス型情報である と指示する手段とを含むことを特徴とするシステム。
  16. 16.第11項記載のシステムにおいて、音声パラメータ信号の前記組を計算す る前記手段は前記フレームの各々に対する線形予測符号化されたパラメータの組 を計算する手段を含むことを特徴とするシステム。
  17. 17.第15項記載のシステムにおいて、前記フレームの各々中の前記ピッチを 計算する前記手段は: 各々が前記フレームの各々に対するピッチ値を推定するために前記フレームの各 々の前記音声サンプルの個々の予め定められた部分に応動する複数個の同一の手 段と;前記推定手段の各々からの個々の推定されたピッチ値に応動して前記フレ ームの各々に対する最終ピッチ値を決定する手段とを含むことを特徴とするシス テム。
  18. 18.第17項記載のシステムにおいて、前記ピッチ値を決定する前記手段は: 前記フレームの各々に対し前記推定されたピッチ値の前記最終ピッチ値を計算す る手段と; 前記フレームの各々に対する計算されたピッチ値が前記フレームの内の以前のフ レームから計算されたピッチ値と一致するように前記最終ピッチ値を制約する手 段とを含むことを特徴とするシステム。
  19. 19.第11項記載のシステムにおいて、更に前記フレームの各々に対する前記 組合わされた励起情報と音声パラメータ信号の組とを受信する手段と; 前記ピッチ励起情報が伝送されると前記音声パラメータの組および前記ピッチ励 起情報を使用して音声の各フレームを合成する手段とを含み; 前記合成手段は更に前記音声パラメータ信号の組および前記複数個の他の型の励 起情報に応動して前記他の型の励起情報が伝送されたとき前記他の型の励起情報 の内の前記1つを使用して音声の各フレームを合成することを特徴とするシステ ム。
  20. 20.第19項記載のシステムにおいて、前記合成手段は前記雑音型励起情報が 伝送されたとき雑音型信号を発生する手段と;前記パルス型励起情報が伝送され たときパルス型信号を発生する手段と; 前記雑音型信号に応動して前記雑音型励起情報を選択する手段と; 前記パルス型信号に応動して前記パルス型励起情報を選択する手段とを含むこと を特徴とするシステム。
  21. 21.人間の音声を分析・合成する処理システムであって、該システムは: 前記人間の音声をディジタル的にサンプルしてディジタル化された音声サンプル のフレームとする手段と;プログラム・インストラクションの第1に応動して複 数個の前記音声フレームを記憶する処理手段とを含み;前記処理手段はインスト ラクションの第2の組に更に応動して各音声フレームに対する声道を定義する音 声パラメータ信号の組を計算し; 前記処理手段はプログラム・インストラクションの第3の組に更に応動して前記 フレームの各々を有声および無声と指示し;前記処理手段はプログラム・インス トラクションの第4の組に更に応動して前記フレームの各々に対しピッチ励起情 報を発注し;前記処理手段はプログラム・インストラクションの第5の組に更に 応動して前記フレームの各々に対し複数個の他の型の励起情報を発生し; 前記処理手段はプログラム・インストラクションの第6の組および有声であると 指示された前記フレームの各々に更に応動して前記ピッチ型励起情報および音声 パラメータ信号の前記組を組合わせ; 前記処理手段はプログラム・インストラクションの第7の組および無声であると 指示された各々のフレームに更に応動して前記音声パラメータ信号の組と組合わ される前記他の型の励起の1つを選択し; 前記処理手段はプログラム・インストラクションの第8の組に応動して前記フレ ームの各々に対し組合わされた励起情報と前記音声パラメータ信号の組を伝送す ることを特徴とする処理システム。
  22. 22.第21項記載のシステムにおいて、前記プログラム・インストラクション の第5の組はプログラム・インストラクションの第1および第2の部分集合より 成り、前記処理手段はプログラム・インストラクションの前記第1の部分集合お よび前記音声サンプルに応動して前記サンプルの各々に対し残差サンプルを計算 し;前記処理手段はプログラム・インストラクションの前記第2の部分集合に更 に応動して前記フレームの各々に対し前記残差サンプルからパルスを決定してパ ルス型励起を提供することを特徴とするシステム。
  23. 23.第22項記載のシステムにおいて、前記プログラム・インストラクション の第2の部分集合は更にインストラクションの第1のクループを含み、前記処理 手段はプログラム・インストラクションの前記第1のグループに応動して前記フ レームの各々に対し最大振幅を有する前記残差サンプルのパルスの部分集合の位 置を決定することを特徴とするシステム。
  24. 24.第22項記載のシステムにおいて、前記プログラム・インストラクション の第7の組はプログラム・インストラクションの第3,第4,第5および第6の 部分集合を含み、前記処理手段は更に前記プログラム・インストラクションの第 3の部分集合に更に応動して前記フレームの各々に対する残差サンプルの分散を 計算し; 前記処理手段は前記プログラム・インストラクションの第4の部分集合に更に応 動して前記フレームの各々中の整流された残差サンプルの平均振幅の二乗を計算 し; 前記処理手段は前記プログラム・インストラクションの第5の部分集合に更に応 動して残差の計算された分散と前記フレームの各々に対する整流された残差の平 均振幅の二乗の計算値を比較し;前記処理手段は前記プログラム・インストラク ションの第6の部分集合に応動して比較の結果予め定められた閾値より大である と前記パルス型情報を選択すべきであると指示することを特徴とするシステム。
  25. 25.第22項記載のシステムにおいて、前記プログラム・インストラクション の第7の組はプログラム・インストラクションの第2,第3,第4,第5,第6 ,第7および第9のグループを含み、前記処理手段は前記プログラム・インスト ラクションの第2のグループに更に応動して前記フレームの各々に対する各々の 残差サンプルを二乗し; 前記処理手段は前記プログラム・インストラクションの第3のグループに応動し て前記フレームの各々に対しすべての二乗された残差サンプルを加算し; 前記処理手段は前記プログラム・インストラクションの第4のグループに更に応 動して1つのフレーム中のすべてのサンプルに前記フレームの各々に対する二乗 された残差サンプルの和を乗じてある数値を発生させ; 前記処理手段は前記プログラム・インストラクションの第5のグループに更に応 動して前記フレームの各々中の前記残差サンプルの各々に対する絶対値を求め; 前記処理手段は前記プログラム・インストラクションの第6のグループに更に応 動して前記フレームの各々に対し残差サンプルの絶対値をすべて加算し; 前記処理手段は前記プログラム・インストラクションの第7のグループに更に応 動して前記フレームの各々に対する加算された残差サンプルの絶対値を二乗して 他の数値を発生し;前記処理手段は前記インストラクションの第8のグループに 更に応動して前記数値と前記他の数値を比較し;前記処理手段は前記インストラ クションの第9のグループに更に応動して比較の結果予め定められた閾値より大 であるとき前記パルス型励起情報を選択すべきものと指示することを特徴とする システム。
  26. 26.第24項記載のシステムにおいて、前記プログラム・インストラクション の第2の組はプログラム・インストラクションの第2のグループを含み、前記処 理手段は前記プログラム・インストラクションの第2のグループに更に応動して 前記フレームの各々に対する線形予測符号化パラメータの組を計算して前記フレ ームの各々に対し音声パラメータ信号の前記組を与えることを特徴とするシステ ム。
  27. 27.第24項記載のシステムにおいて更にプログラム・インストラクションの 第9,第10,第11の組を含み、他の処理手段は前記プログラム・インストラ クションの第9の組に応動して前記フレームの各々に対し前記伝送された組合わ された励起情報と音声パラメータ信号の前記の組を受信し;前記他の処理手段は 前記プログラム・インストラクションの第10の組に更に応動して前記ピッチ励 起情報が伝送されたとき前記音声パラメータ信号の組と前記ピッチ励起情報を使 用して音声の各フレームを合成し; 前記他の処理手段は前記プログラム・インストラクションの第7の組および前記 音声パラメータ信号の組および前記複数個の他の型の励起情報の1つに更に応動 して前記他の型の励起情報が伝送されたとき前記他の型の励起情報の内の前記1 つを使用して音声の各フレームを合成することを特徴とするシステム。
  28. 28.第27項記載のシステムにおいて、前記プログラム・インストラクション の第11の組はプログラム・インストラクションの第1,第2,第3および第4 の部分集合を含み、前記他の処理手段は前記プログラム・インストラクションの 第1の部分集合に更に応動して前記他の型の励起情報の前記1つが雑音型励起情 報であるとき雑音型信号を発生し; 前記他の処理手段は前記プログラム・インストラクションの前記第2の部分集合 に更に応動して前記パルス型励起情報が伝送されたときパルス型信号を発生し; 前記他の処理手段は前記雑音型信号に更に応動して前記雑音型励起情報を選択し ; 前記他の処理手段は前記プログラム・インストラクションの第4の部分集合およ び前記パルス型信号に更に応動して前記パルス型励起情報を選択することを特徴 とするシステム。
  29. 29.音声をディジタル・サンプルのフレームに変換する量子化装置を、音声を 分析し合成するべく複数個のプログラム・インストラクションに応動するディジ タル信号プロセッサとを含むシステムで人間の音声を分析・合成する方法であっ て、該方法は:各々が前記音声の瞬時振幅の等間隔サンプルを予め定められた数 だけ有する複数個の音声フレームを記憶し;各音声フレームに対し声道を規定す る音声パラメータ信号の組を計算し; フレームを有声および無声と指示し; 前記フレームの各々に対しピッチ型励起情報を発生し;前記フレームの各々に対 し複数個の他の型の励起情報を発生し;有声であると指示された前記フレームの 各々に対し前記ピッチ型励起情報と前記音声パラメータ信号の組を組合わせ;無 声であると指示された各フレームに対し前記音声パラメータ信号の組と組合わさ れる前記他の型の励起の1つを選択し;前記フレームの各々に対し組合わされた 励起情報および前記音声パラメータ信号の組を伝送するステップを含むことを特 徴とする方法。
  30. 30.第29項記載の方法において、前記複数個の他の型の励起情報を発生する ステップは前記フレームの各々に対し前記音声サンプルから残差サンプルを計算 するステップと;前記フレームの各々に対する前記残差サンプルからパルスを決 定してパルス型励起を提供するステップとを含むことを特徴とする方法。
  31. 31.第30項記載の方法において、前記パルスと決定するステップは前記フレ ームの各々に対する最大振幅を有する前記残差サンプルのパルスの部分集合の位 置を決定するステップを含むことを特徴とする方法。
  32. 32.第31項記載の方法において、前記他の型の励起の1つを選択するステッ プは前記フレームの各々に対する残差サンプルの分散を計算するステップと; 前記各フレームの中の整流された残差サンプルの平均振幅の二乗を計算するステ ップと; 前記フレームの各々に対し計算された分散と平均振幅の二乗の計算を比較するス テップと; 比較の結果、予め定められた閾値より大であると前記パルス型情報を選択すべき であると指示するステップを含むことを特徴とする方法。
JP61504055A 1985-08-28 1986-07-24 マルチレベル・フィルタ励起を用いる音声合成 Expired - Lifetime JP2738533B2 (ja)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
US06/770,631 US4890328A (en) 1985-08-28 1985-08-28 Voice synthesis utilizing multi-level filter excitation
US770631 1985-08-28

Publications (2)

Publication Number Publication Date
JPS63500681A true JPS63500681A (ja) 1988-03-10
JP2738533B2 JP2738533B2 (ja) 1998-04-08

Family

ID=25089219

Family Applications (1)

Application Number Title Priority Date Filing Date
JP61504055A Expired - Lifetime JP2738533B2 (ja) 1985-08-28 1986-07-24 マルチレベル・フィルタ励起を用いる音声合成

Country Status (6)

Country Link
US (1) US4890328A (ja)
EP (1) EP0235180B1 (ja)
JP (1) JP2738533B2 (ja)
KR (1) KR970001167B1 (ja)
CA (1) CA1258316A (ja)
WO (1) WO1987001500A1 (ja)

Families Citing this family (16)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5060269A (en) * 1989-05-18 1991-10-22 General Electric Company Hybrid switched multi-pulse/stochastic speech coding technique
US5105464A (en) * 1989-05-18 1992-04-14 General Electric Company Means for improving the speech quality in multi-pulse excited linear predictive coding
IT1264766B1 (it) * 1993-04-09 1996-10-04 Sip Codificatore della voce utilizzante tecniche di analisi con un'eccitazione a impulsi.
GB2312360B (en) * 1996-04-12 2001-01-24 Olympus Optical Co Voice signal coding apparatus
US6047254A (en) * 1996-05-15 2000-04-04 Advanced Micro Devices, Inc. System and method for determining a first formant analysis filter and prefiltering a speech signal for improved pitch estimation
US5937374A (en) * 1996-05-15 1999-08-10 Advanced Micro Devices, Inc. System and method for improved pitch estimation which performs first formant energy removal for a frame using coefficients from a prior frame
JP4040126B2 (ja) * 1996-09-20 2008-01-30 ソニー株式会社 音声復号化方法および装置
US6154499A (en) * 1996-10-21 2000-11-28 Comsat Corporation Communication systems using nested coder and compatible channel coding
FI964975A (fi) * 1996-12-12 1998-06-13 Nokia Mobile Phones Ltd Menetelmä ja laite puheen koodaamiseksi
GB2322778B (en) * 1997-03-01 2001-10-10 Motorola Ltd Noise output for a decoded speech signal
US20030135374A1 (en) * 2002-01-16 2003-07-17 Hardwick John C. Speech synthesizer
US7698132B2 (en) * 2002-12-17 2010-04-13 Qualcomm Incorporated Sub-sampled excitation waveform codebooks
EP2830062B1 (en) * 2012-03-21 2019-11-20 Samsung Electronics Co., Ltd. Method and apparatus for high-frequency encoding/decoding for bandwidth extension
JP6860901B2 (ja) * 2017-02-28 2021-04-21 国立研究開発法人情報通信研究機構 学習装置、音声合成システムおよび音声合成方法
CN107600708B (zh) * 2017-08-28 2019-05-07 珠海格力电器股份有限公司 一种吸尘器的包装结构及包装方法
CN115273913A (zh) * 2022-07-27 2022-11-01 歌尔科技有限公司 语音端点检测方法、装置、设备及计算机可读存储介质

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS56147200A (en) * 1980-04-18 1981-11-14 Matsushita Electric Ind Co Ltd Voice synthesizing system
JPS576898A (en) * 1980-06-13 1982-01-13 Nippon Electric Co Voice synthesizer
JPS5812000A (ja) * 1981-07-15 1983-01-22 松下電工株式会社 無声破裂音源付きの音声合成装置
JPS6087400A (ja) * 1983-10-19 1985-05-17 日本電気株式会社 マルチパルス型音声符号復号化装置

Family Cites Families (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US3624302A (en) * 1969-10-29 1971-11-30 Bell Telephone Labor Inc Speech analysis and synthesis by the use of the linear prediction of a speech wave
FR2206889A5 (ja) * 1972-11-16 1974-06-07 Rhone Poulenc Sa
US3916105A (en) * 1972-12-04 1975-10-28 Ibm Pitch peak detection using linear prediction
US3903366A (en) * 1974-04-23 1975-09-02 Us Navy Application of simultaneous voice/unvoice excitation in a channel vocoder
US3979557A (en) * 1974-07-03 1976-09-07 International Telephone And Telegraph Corporation Speech processor system for pitch period extraction using prediction filters
US4058676A (en) * 1975-07-07 1977-11-15 International Communication Sciences Speech analysis and synthesis system
US4301329A (en) * 1978-01-09 1981-11-17 Nippon Electric Co., Ltd. Speech analysis and synthesis apparatus
CA1123955A (en) * 1978-03-30 1982-05-18 Tetsu Taguchi Speech analysis and synthesis apparatus
ATE15415T1 (de) * 1981-09-24 1985-09-15 Gretag Ag Verfahren und vorrichtung zur redundanzvermindernden digitalen sprachverarbeitung.
US4472832A (en) * 1981-12-01 1984-09-18 At&T Bell Laboratories Digital speech coder
US4561102A (en) * 1982-09-20 1985-12-24 At&T Bell Laboratories Pitch detector for speech analysis
US4696038A (en) * 1983-04-13 1987-09-22 Texas Instruments Incorporated Voice messaging system with unified pitch and voice tracking
US4669120A (en) * 1983-07-08 1987-05-26 Nec Corporation Low bit-rate speech coding with decision of a location of each exciting pulse of a train concurrently with optimum amplitudes of pulses
US4701954A (en) * 1984-03-16 1987-10-20 American Telephone And Telegraph Company, At&T Bell Laboratories Multipulse LPC speech processing arrangement

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS56147200A (en) * 1980-04-18 1981-11-14 Matsushita Electric Ind Co Ltd Voice synthesizing system
JPS576898A (en) * 1980-06-13 1982-01-13 Nippon Electric Co Voice synthesizer
JPS5812000A (ja) * 1981-07-15 1983-01-22 松下電工株式会社 無声破裂音源付きの音声合成装置
JPS6087400A (ja) * 1983-10-19 1985-05-17 日本電気株式会社 マルチパルス型音声符号復号化装置

Also Published As

Publication number Publication date
JP2738533B2 (ja) 1998-04-08
CA1258316A (en) 1989-08-08
WO1987001500A1 (en) 1987-03-12
KR880700388A (ko) 1988-03-15
EP0235180B1 (en) 1991-05-29
EP0235180A1 (en) 1987-09-09
KR970001167B1 (ko) 1997-01-29
US4890328A (en) 1989-12-26

Similar Documents

Publication Publication Date Title
JPS63500681A (ja) マルチレベル・フィルタ励起を用いる音声合成
JP2738534B2 (ja) 異なる型の励起情報を有するディジタル音声符号器
US4731846A (en) Voice messaging system with pitch tracking based on adaptively filtered LPC residual signal
KR960002388B1 (ko) 언어 엔코딩 처리 시스템 및 음성 합성방법
EP0127729B1 (en) Voice messaging system with unified pitch and voice tracking
EP0259950B1 (en) Digital speech sinusoidal vocoder with transmission of only a subset of harmonics
EP0235181B1 (en) A parallel processing pitch detector
US6349277B1 (en) Method and system for analyzing voices
EP0459363B1 (en) Voice signal coding system
US6535847B1 (en) Audio signal processing
JPH10143199A (ja) 音声符号化方法および復号化方法
KR20020084199A (ko) 파라메트릭 엔코딩에서 신호 성분들의 링킹
JP3296411B2 (ja) 音声符号化方法および復号化方法
JP2000267686A (ja) 信号伝送方式及び復号化装置
JPH08211895A (ja) ピッチラグを評価するためのシステムおよび方法、ならびに音声符号化装置および方法
JPH0736119B2 (ja) 区分的最適関数近似方法
JPH0754438B2 (ja) 音声処理装置
JPS62194300A (ja) ピッチ抽出方法
JPH05507796A (ja) 音声の低スループット符号化の方法と装置
EP0226590A1 (en) Analyzer for speech in noise prone environments
JPH1055193A (ja) 音声分析方法

Legal Events

Date Code Title Description
R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

EXPY Cancellation because of completion of term