WO2000063878A1

WO2000063878A1 - Codeur de parole, processeur de parole et procede de traitement de la parole

Info

Publication number: WO2000063878A1
Application number: PCT/JP1999/002089
Authority: WO
Inventors: Masanao Suzuki; Yasuji Ota; Yoshiteru Tsuchinaga
Original assignee: Fujitsu Limited
Priority date: 1999-04-19
Filing date: 1999-04-19
Publication date: 2000-10-26
Also published as: EP1187337A4; EP1187337B1; JP3905706B2; DE69937907T2; EP1187337A1; DE69937907D1; US6470312B1

Description

明細書音声符号化装置、音声処理装置及び音声処理方法技術分野

本発明は音声符号化装置、音声処理装置及び音声処理方法に関し、特に低ビットレート（具体的には、 4 k b Z s 以下）で A— b — S (Analysis- by- Synthesis ：合成による分析）型ベクトル量子化を用いて一定長の区間に複数周期の信号を含んでいる音声信号に対し、音声の生成モデルを仮定して音声符号化を行う音声符号化装置、 A— b— S型べクトル量子化を用いて音声の生成モデルを仮定して音声分析合成を行う音声処理装置及び A— b— S型べクトル量子化を用いて音声の生成モデルを仮定して音声分析合成を行う音声処理方法に関する。背景技術

音声符号化方式として、電話帯域（ 0. 3〜 3. 4 k H z ) の音声を 4〜 1 6 k b Z s 程度の伝送レートで符号化する C E L P (Code Excited Linear Prediction ：符号駆動線形予測符号化）方式が知られており、ディジタル移動体通信や企業内通信システムなどの分野で広く用いられている。

C E L Pは、人間の声道特性を表す線形予測（ L P C ： L i near Predictive Coding) 係数と、音声のピッチ周期成分と雑音成分からなる励起信号（音源情報）を表すパラメ一夕と、を伝送する。

C E L Pでは、人間の声道を式（ 1 ) で表した L P C合成フィル夕 H ( z ) であるとし、この L P C合成フィル夕への入力（音源信号）が音声の周期性を表すピッチ周期成分とランダム性を表す雑音成分とに分離できると仮定する。

1

H(z)= 一 (1)

1- i =1 そして、 L P C合成フィル夕のフィル夕係数と、励起信号のピッチ周期成分及び雑音成分とを抽出し、これらを量子化した結果（量子化インデックス）を伝送することで情報圧縮を実現している。

図 1 8は C E L Pの符号化アルゴリズムを示す図である。入力音声信号 S nが L P C分析手段 2 1に入力される。 L P C分析手段 2 1は、人間の声道を式（ 1 ) で表される全極型フィル夕と見なし、このフィル夕の係数ひ i ( i = l， ...， p) を求める。ここで、 pはフィル夕次数である。一般に電話帯域音声の場合は p = 1 0〜 1 2、広帯域音声の場合は p = 1 6〜 2 0の値をとる。

そして、 L P Cフィル夕係数は、スカラ量子化やベクトル量子化などにより量子化された後（量子化部は図示せず）、その量子化インデックスが復号器側へ伝送される。

次に励起信号の量子化を行う。ピッチ周期成分の量子化のため、過去の音源信号系列を格納した適応符号帳 B aを用意する。また、雑音成分の量子化のため、種々の雑音信号系列パターンを格納した雑音符号帳 B nを用意する。

そして、各符号帳 B a、 B nを用いて A— b— sによるベクトル量子化を行う。すなわち、まず各符号帳に格納されている符号ベクトルに対して、乗算器 2 2 a、 2 2 bを用いて、ゲインを可変して乗じた値を算出する。

加算器 2 3は乗算器 2 2 a、 2 2 bからの出力値を加算し、加算結果を L P Cフィル夕係数により構成される L P C合成フィル夕 2 4へ入力する。 L P C合成フィル夕 2 4は、フィル夕処理を行って、再生信号 S を求める。その後、演算器 2 6で入力音声信号 S nと再生信号 S n * との誤差 e nを求める。

さらに、誤差電力評価手段 2 3は、符号帳 B a、 B n内のすべてのパターンについて、スィッチ S W a 、 S W bを制御して、誤差評価を行つて誤差 e nが最も小さくなる符号べクトルを最適符号べクトルと決定する。

また、その時に選択された最適符号べクトルに対するゲインを最適ゲインとする。そして、最適符号ベクトルと最適ゲインを量子化し（量子化部は図示せず）、量子化インデックスを求める。

したがって、符号器からは L P Cフィル夕係数の量子化ィンデックス、最適符号ベクトルの量子化インデックス（実際には、適応符号帳 B aから最適なベクトルを取り出す際の、後述する "遅れ" の値と、雑音符号帳 B nの符号ベクトルを量子化した量子化インデックス）及び最適ゲインの量子化ィンデックスが復号器側へ伝送されることになる。

一方、復号器側では、符号器側と同じ符号帳 B a、 B nを持ち、符号器から伝送された伝送情報から L P Cフィルタ係数、最適符号べクトル、最適ゲインを復号し、符号器側と同様に L P C合成フィル夕により、音声信号を再生する。

このように、 C E L Pは、音声の生成過程をモデル化し、そのモデルの特徴パラメ一夕を量子化して伝送することにより、音声圧縮を実現している。

また、人間の音声の性質は 5 〜 1 0 m s e c程度の短区間ではそれほど変化しないことから、 C E L Pでは 5〜； L 0 m s e cの一定長の小区間（フレーム）毎に声道情報、音源情報を更新している。これにより、 C E L Pでは 5 〜 6 k b / s程度までビットレ一トを削減しても、劣化のない符号化音声を得ることができる。

しかし、上記のような従来の音声符号化では、ビットレートを 4 k b / s以下にするためにはフレームの長さを 1 0 m s e c以上にしなければならない。すると、 1フレーム中に複数周期の入力信号が含まれることが多くなり、これが符号化音声の品質劣化につながるといった問題があつ/こ。

すなわち、従来の C E L Pでは、適応符号帳 B aからの出力信号の周期性が単一のフレームの成分のみに限定されるため、周期性の表現力が弱い。このため、入力信号の 1フレーム内に複数の周期が含まれるような場合では、高精度に周期性を表現できないため、符号化効率が悪化してしまう。発明の開示

本発明はこのような点に鑑みてなされたものであり、入力音声に応じて最適な音声符号化を行う音声符号化装置を提供することを目的とする, また、本発明の他の目的は、入力音声に応じて最適な音声処理を行い、高品質な音声を再現する音声処理装置を提供することである。

さらに、本発明の他の目的は、入力音声に応じて最適な音声処理を行い、高品質な音声を再現する音声処理方法を提供することである。

本発明では上記課題を解決するために、図 1に示すような、音声信号 S nを一定長の区間に分割し、音声の生成モデルを仮定して音声符号化を行う音声符号化装置 1 0において、過去の音声信号の信号べクトル系列を格納した適応符号帳 B aと、適応符号帳 B aの始点 Oから一定の遅れ L間隔ずれた位置に格納されている信号ベクトルと、信号ベクトルの近傍に格納されている近傍べクトルとを抽出するべクトル抽出手段 1 1 と、音声信号 S nの周期性に関する長期予測分析合成を、信号ベクトルと近傍ベクトルとに対して行って、長期予測音声信号 S n a— 1 を生成する高次の長期予測合成フィル夕 1 2 と、長期予測合成フィル夕 1 2のフィル夕係数を算出するフィル夕係数算出手段 1 3 と、声道特性を表す線形予測分析合成によって推定した線形予測合成フィル夕 1 4 aと、線形予測合成フィル夕 1 4 aの前段または後段に接続して、聴覚特性の重み付け処理を行う第 1の聴覚重み付けフィル夕 1 4 bと、音声信号 S n に聴覚重み付け処理を行う第 2の聴覚重み付けフィル夕 1 4 b— 1 と、から構成され、長期予測音声信号 S n a - 1から再生符号化音声信号 S n aを生成する聴覚重み付け合成フィル夕 1 4と、聴覚重み付き音声信号 S nと、再生符号化音声信号 S n aと、の誤差 E nを算出する誤差算出手段 1 5 と、遅れ Lを変化させて誤差算出手段 1 5が繰り返し算出した誤差の中から、最小誤差を検出する最小誤差検出手段 1 6と、最小誤差を検出した時のフィル夕係数である最適フィル夕係数 i3 aと、最小誤差を検出した時の遅れである最適遅れ L aと、を最適値として送信する最適値送信手段 1 7 と、を有することを特徴とする音声符号化装置 1 0 が提供される。

ここで、適応符号帳 B aは、過去の音声信号の信号ベクトル系列を格納する。ベクトル抽出手段 1 1は、適応符号帳 B aの始点 Oから一定の遅れ L間隔ずれた位置に格納されている信号ベクトルと、信号ベクトルの近傍に格納されている近傍べクトルとを抽出する。高次の長期予測合成フィル夕 1 2は、音声信号 S nの周期性に関する長期予測分析合成を、信号べクトルと近傍べクトルとに対して行って、長期予測音声信号 S n a— 1 を生成する。フィル夕係数算出手段 1 3は、長期予測合成フィル夕 1 2のフィル夕係数を算出する。聴覚重み付け合成フィル夕 1 4は、声道特性を表す線形予測分析合成によって推定した線形予測合成フィル夕 1 4 aと、線形予測合成フィル夕 1 4 aの前段または後段に接続して、聴覚特性の重み付け処理を行う第 1の聴覚重み付けフィル夕 1 4 bと、音声信号 S nに聴覚重み付け処理を行う第 2の聴覚重み付けフィル夕と. から構成され、長期予測音声信号 S n a— 1から再生符号化音声信号 S n aを生成する。誤差算出手段 1 5は、聴覚重み付き音声信号 S n ' と、再生符号化音声信号 S n aと、の誤差 E nを算出する。最小誤差検出手段 1 6は、遅れ Lを変化させて誤差算出手段 1 5が繰り返し算出した誤差の中から、最小誤差を検出する。最適値送信手段 1 7は、最小誤差を検出した時のフィル夕係数である最適フィル夕係数 3 a と、最小誤差を検出した時の遅れである最適遅れ L aと、を最適値として送信する。

また、図 5に示すような、音声の生成モデルを仮定して音声分析合成を行う音声処理装置 1 0 0において、音声信号を一定長の処理区間に分割した際に複数周期が含まれない場合に対し、音声信号を符号化し、符号化情報を生成する第 1の音声符号化手段 2 0と、音声信号を一定長の処理区間に分割した際に複数周期が含まれる場合に対し、過去の音声信号の信号べクトル系列を格納する適応符号帳と、適応符号帳の始点から一定の遅れ間隔ずれた位置に格納されている信号べクトルと、信号べクトルの近傍に格納されている近傍べクトルとを抽出するべクトル抽出手段と、音声信号の周期性に関する長期予測分析合成を、信号ベクトルと近傍ベクトルとに対して行って、長期予測音声信号を生成する高次の長期予測合成フィル夕と、長期予測合成フィル夕のフィル夕係数を算出するフィル夕係数算出手段と、声道特性を表す線形予測分析合成によって推定した線形予測合成フィル夕と、線形予測合成フィル夕の前段または後段に接続して、聴覚特性の重み付け処理を行う第 1の聴覚重み付けフィル夕と、音声信号に聴覚重み付け処理を行う第 2の聴覚重み付けフィル夕と、から構成され、長期予測音声信号から再生符号化音声信号を生成する聴覚重み付け合成フィルタと、聴覚重み付き音声信号と、再生符号化音声信号と、の誤差を算出する誤差算出手段と、遅れを変化させて誤差算出手段が繰り返し算出した誤差の中から、最小誤差を検出する最小誤差検出手段と、最小誤差を検出した時のフィル夕係数である最適フィル夕係数と、最小誤差を検出した時の遅れである最適遅れと、を最適値として送信する最適値送信手段と、を含む第 2の音声符号化手段 1 0 と、から構成される音声符号化処理装置 1 と、符号化情報を復号化して音声を再現する第 1の音声復号化手段 1 2 0と、最適値を復号化して音声を再現する第 2の音声復号化手段 1 1 0と、から構成される音声復号化処理装置 2と、を有することを特徴とする音声処理装置が提供される。

ここで、第 1の音声符号化手段 2 0は、音声信号を一定長の処理区間に分割した際に複数周期が含まれない場合に対し、音声信号を符号化し、符号化情報を生成する。第 1 の音声復号化手段 1 2 0は、符号化情報を復号化して音声を再現する。第 2の音声復号化手段 1 1 0は、最適値を復号化して音声を再現する。

さらに、図 1 7に示すような、音声の生成モデルを仮定して音声分析合成を行う音声処理方法において、過去の音声信号の信号べクトル系列を格納した適応符号帳を生成し、音声信号を一定長の処理区間に分割した際に複数周期が含まれない場合に対し、音声信号を符号化して符号化情報を生成し、音声信号を一定長の処理区間に分割した際に複数周期が含まれる場合に対し、適応符号帳の始点から一定の遅れ間隔ずれた位置に格納されている信号べクトルと、信号べクトルの近傍に格納されている近傍べクトルとを抽出し、音声信号の周期性に関する長期予測分析合成を、信号べクトルと近傍べクトルとに対して高次の長期予測合成フィル夕を用いて行って、長期予測音声信号を生成し、長期予測合成フィル夕のフィルタ係数を算出し、声道特性を表す線形予測分析合成によって 7

8 推定した線形予測合成フィル夕と聴覚特性の重み付け処理を行う聴覚重み付けフィル夕とを用いて、長期予測音声信号から再生符号化音声信号を生成し、聴覚重み付き音声信号と、再生符号化音声信号と、の誤差を算出し、遅れを変化させて繰り返し算出した誤差の中から、最小誤差を検出し、最小誤差を検出した時のフィル夕係数である最適フィル夕係数と、最小誤差を検出した時の遅れである最適遅れと、を最適値として送信し、符号化情報または最適値を復号化して、音声を再現することを特徴とする音声処理方法が提供される。

ここで、一定長の処理区間に分割した際に複数周期が含まれない場合に対しては、音声信号を符号化して符号化情報を生成し、一定長の処理区間に分割した際に複数周期が含まれる場合に対しては、長期予測分析合成によって推定した高次の長期予測合成フィル夕と、線形予測分析合成によって推定した線形予測合成フィル夕とを用いて音声符号化を行つて最適値を生成し、復号側では符号化情報と最適値を復号化する。本発明の上記および他の目的，特徴および利点は本発明の例として好ましい実施の形態を表す添付の図面と関連した以下の説明により明らかになるであろう。図面の簡単な説明

図 1は本発明の音声符号化装置の原理図である。

図 2は L T P合成フィル夕の次数を説明するための図である。

図 3は L T P合成フィル夕の次数を説明するための図である。

図 4は最適 L T Pフィル夕係数と最適ラグを探索する際の処理手順を示すフローチヤ一トである。

図 5は音声処理装置の原理図である。

図 6は第 1の実施の形態の構成を示す図である。図 7はラグの値を変化させる場合の動作を示す図である。図 8は適応符号帳の状態更新を示す図である。

図 9は音声符号化処理装置が送信する情報を示す図である。

図 1 0は第 2の実施の形態の構成を示す図である。

図 1 1はフィル夕が安定な場合の極の配置例を示す図である。

図 1 2はフィル夕が不安定な場合の極の配置例を示す図である。

図 1 3は第 3の実施の形態の構成を示す図である。

図 1 4は第 4の実施の形態の構成を示す図である。

図 1 5は音声復号化処理装置の構成を示す図である。

図 1 6は音声復号化処理装置の構成を示す図である。

図 1 7は音声処理方法の処理手順を示すフローチヤ一トである。

図 1 8は C E L Pの符号化ァルゴリズムを示す図である。発明を実施するための最良の形態

以下、本発明の実施の形態を図面を参照して説明する。図 1は本発明の音声符号化装置の原理図である。音声符号化装置 1 0は、音声信号 S nを一定長の区間（ビットレートが 4 k b Z s以下とした場合のフレーム）に分割した際に複数周期が含まれる場合に対して、音声の生成モデルを仮定して音声符号化を行う。

適応符号帳 B aは、過去の音声信号 S nの信号ベクトル（符号べクトル）系列をフレーム毎に格納する。ベクトル抽出手段 1 1は、適応符号帳 B aの始点〇から一定の遅れ Lの間隔ずれた位置に格納されている信号べクトルと、その信号べクトルの近傍に格納されている近傍べクトルを抽出する。

図では、信号ベクトル C Lの上下の位置にある 2つの近傍ベクトル C _L_, 、 C _{U I} を適応符号帳 B aから抽出しているが、 2つ以上抽出してもよい。また、信号べクトル CLの上の位置にある信号べクトルのみを、適応符号帳 B aから近傍べクトルとして抽出してもよいし、下の位置にある信号べクトルのみを、適応符号帳 B aから近傍べクトルとして抽出してもよい。

高次の次数を持つ長期予測合成フィル夕 1 2は、音声信号 S nの周期性に関する長期予測分析合成（L T P ： Long Term Prediction) を、抽出した信号べクトルと近傍べクトルに対して行って、長期予測音声信号 S n a - 1を生成する。

フィル夕係数算出手段 1 3は、長期予測合成フィル夕 1 2のフィル夕係数を算出する。

聴覚重み付け合成フィルタ 1 4は、声道特性を表す線形予測（L P C) 分析合成によって推定した線形予測合成フィルタ 1 4 a (以下、 L P C 合成フィル夕 1 4 aと呼ぶ）と、 L P C合成フィル夕 1 4 aの前段または後段に接続して、聴覚特性の重み付け処理を行う第 1の聴覚重み付けフィル夕 1 4 bと、から構成され、長期予測音声信号 S n a— 1から再生符号化音声信号 S n aを生成する。

第 2の聴覚重み付けフィル夕 1 4 b— 1は、音声信号 S nに聴覚重み付け処理を行う。

誤差算出手段 1 5は、聴覚重み付き音声信号 S n ' と、再生符号化音声信号 S n aと、の誤差 E nを算出する。

最小誤差検出手段 1 6は、遅れ Lを変化させて誤差算出手段 1 5が繰り返し算出した誤差の中から、最小誤差を検出する。

最適値送信手段 1 7は、最小誤差を検出した時のフィルタ係数である最適フィル夕係数) 3 aと、最小誤差を検出した時の遅れである最適遅れ L aと、を最適値として送信する。なお、最適値送信手段 1 7は、最適フィル夕係数) 3 aは量子化して、量子化した値を送信する。次に長期予測合成フィル夕 1 2について説明する。なお、以降では長期予測合成フィル夕 1 2を L T P合成フィル夕 1 2、 L T P合成フィル夕 1 2のフィルタ係数を L T Pフィル夕係数、遅れをラグと呼ぶ。式（ 2 ) は L T P合成フィル夕 1 2の伝達関数 P ( z ) を示す式である。

P(z)= ； . · · (2)

J 2

1- ∑ 3 - z (し-

^{I =}"^J1 ' 信号べクトル C L の両側にある近傍べクトルの位置の一方の側の値を

Jい他方の側の値を J ₂ 、遅延を表す演算子を z、整数を i 、 L T Pフィル夕係数を ]3 i ( i =— J , ， ···， J ₂ ) 、ラグの値を Lとしている。また、 L T P合成フィル夕 1 2の次数を pとすると、 p = J ,+ J ₂+ l である。

図 2は L T P合成フィル夕 1 2の次数を説明するための図である。ラグ Lの位置に信号ベクトル C Lがあり、その左方向を J , 、右方向を J ₂ とする。

図のように、 J の方向へ近傍ベクトル Cい, 、 Cい ₂ 、 C_L_₃ をとり、 J ₂ の方向へ近傍ベクトル Cい , 、 Cい ₂ をとれば、 J ,= 3 、 J ₂= 2 と表せる。したがって、この場合の次数は p = 3 + 2 + 1 = 6 となる。

すなわち、適応符号帳 B aからラグ Lの位置にある信号べクトル C_L の近傍ベクトルとして、ラグ Lの位置から上方向に近傍ベクトル、 Cい ₂ 、 C_L_₃ , ラグ Lの位置から下方向に近傍ベクトル C_L+I 、 C_L+2を抽出したことになる。

一方、 L T P合成フィル夕 1 2 として、式（ 3 ) で示す伝達関数 P a ( z ) を用いてもよい。 Pa(z) = (3)

J

3

1- ∑ ノ Z — し

i =1 ¹ 信号ベクトルの片側にある近傍ベクトルの位置の値を J ₃ 、遅延を表す演算子を z、整数を i 、 L T Pフィル夕係数を 3 i ( i = 1 ， ···, J 3 ) > ラグの値を Lとしている。また、この場合の L T Pフィル夕 1 2の次数 pは、 p = l + J ₃である。

図 3は L T P合成フィル夕 1 2の次数を説明するための図である。ラグ Lの位置に信号べクトル C Lがあり、その右方向を J ₃とする。

図のように、 J ₃の方向へ近傍ベクトル C_L+1 、 C_L+2 、 C_U3をとれば、 J ₃= 3 と表せる。したがって、この場合の次数は p = 1 + 3 = 4となる _c すなわち、適応符号帳 B aからラグ Lの位置にある信号べクトル C_L の近傍ベクトルとして、ラグ Lの位置から下方向に近傍ベクトル C_L+1 、 C_L+2 、 C_U3 を抽出したことになる。なお、以降では P ( z ) を用いた場合について説明するが、 P a ( z ) についても同様である。

次に音声符号化装置 1 0では、式（ 4 ) の誤差評価式を最小にするような L T Pフィル夕係数 /3 iとラグ Lを求める。

Xを目標信号べクトル（誤差を算出する際に入力された入力音声信号のベクトル）、 Hを L P C合成フィル夕 1 4 aのインパルス応答べクトル、ラグ Lの位置にある Ctを適応符号帳 B aから抽出した信号べクトルとする。なお、 I A I は、 Aの絶対値を表す。

J 2

2 2

X- > β - - C

L-i (4)

i=一 J. ここでは、簡単のため、 p = 3 (信号ベクトル C_L 、近傍ベクトル C C_{L + 1} ) とすると、式（4) は式（ 5 ) のようになる

X-8 H C -β H · C -β · H · C

L-1 0 +1 L+1

• · · (5) 式（ 5 ) を 3 , で偏微分することにより、式（ 6 ) を得る。なお、 A' は Aの転置行列を表す。

ここで、式（ 6 ) の左辺 3 X 3行列を Rとし、左辺の 1 X 3行列を；3 右辺の行列を r とすると式（ 7 ) になる。

R β= r · · · (7)

したがって、式（8 ) から L Τ Ρ係数ベクトル /3が求められる。こで、 R—¹は Rの逆行列を表す。

-1

β R (8) ここでは、 L T Pフィル夕係数の次数 ρを 3として説明した力 ρの値は任意の正数でよく、上記の説明も同様に成り立つ。

次に最適フィルタ係数（最適 L Τ Ρフィル夕係数） i3 aと最適ラグ L 00/6 7

14 aを探索する際の処理手順についてフローチヤ一トを用いて説明する。図 4は最適 L T Pフィル夕係数 /3 aと最適ラグ L aを探索する際の処理手順を示すフ口一チャートである。

〔S 1〕ラグ Lに初期値を設定する。

C S 2 ] 適応符号帳 B aのラグ Lの位置に格納されている信号ベクトル及びその信号ベクトルの近傍にある近傍ベクトルとして、。い， ( i = - J , , …， J ₂ ) を抽出する。

〔S 3〕 C_L_iを重み付き合成処理して、 H ' C を算出する。

〔S 4〕 11 ' じぃ，とから式（ 8 ) を解き、 L T Pフィル夕係数べクトリレ 3を求める。

〔S 5〕ステップ S 4で求めた /3を式（4) に代入して、ラグ Lの時の誤差 Eを算出する。

[ S 6 ラグ Lの値を変える。 Lの値をすベて変化させた場合はステツプ S 7へ、そうでなければステップ S 2へ戻り、変化させたラグ Lの値を用いて、誤差及び L T Pフィルタ係数 ;3を繰り返し算出する。

(S 7 ] 算出したすべての誤差 Eの中から、最小誤差を検出する。

〔S 8〕最小誤差を算出した際の L T Pフィルタ係数とラグ Lをそれぞれ、最適 L T Pフィルタ係数 /3 a及び最適ラグ L aとする。

ここで、ラグ Lの探索範囲は任意であるが、入力信号のサンプリング周波数が 8 kH zの場合にはラグ Lの範囲を 2 0〜 1 4 7の範囲としてよい。

なお、ここでは L T P合成フィル夕 1 2への入力を適応符号帳 B aからのベクトルとした力これ以外の任意のベクトルを用いてもよい。例えば、白色性の雑音ベクトル、パルス性のベクトルまたはあらかじめ学習された雑音べクトル等を用いてもよい。

以上説明したように、本発明の音声符号化装置 1 0は、 L T P合成及 W 00

15 び L P C合成を行って音声符号化を行う構成とした。

従来のような C E L Pでは、音声信号の伝送レートを 4〜 1 6 k bノ s を対象にした、 5〜 1 O m s e c以内の短いフレーム長のフレームに対して音声符号化を行えばよいので、適応符号帳 B aから単一の信号べクトルのみを抽出して、 L P C合成処理を行えば、音声の品質を保つことができた。

すなわち、複数周期の信号が存在しない短フレームの処理なので、適応符号帳 B aから 1つの信号べクトルを使用するだけで、周期性を十分表現（再現）できていた。

一方、音声信号の伝送レートを 4 k bZ s以下にした場合には、フレ —ム長は 1 0m s e c以上の長いフレーム長となり、この 1フレームには、複数周期の信号が含まれる可能性が高い。

したがって、従来の C E L Pのように、適応符号帳 B aから 1つの信号ベクトルのみを使用して、 L P C合成処理を行うだけでは、周期性を十分に表現することが困難であり、符号化精度を悪化させることになる。

したがって、本発明の音声符号化装置 1 0では、 1フレーム内に複数周期の信号が含まれている場合には、適応符号帳 B aから信号べクトルだけでなく、信号べクトルの近傍の位置にある近傍べクトルも適応符号帳 B aから抽出し、これらのベクトルに対して L T Pフィル夕 1 2を用いて長期予測合成を行い、その後に L T P合成処理をして、音声の符号化を行う構成とした。

これにより、複数周期の信号が含まれるような長いフレーム長のフレームに対しても、音声の周期性を良好に表現でき、符号化精度の向上を図ることが可能になる。

次に本発明の音声処理装置について説明する。図 5は音声処理装置の原理図である。音声処理装置 1 0 0は、音声符号化処理装置 1 と音声復号化処理装置 2から構成される。

音声符号化処理装置 1 は、第 1 の音声符号化手段 2 0 と、第 2の音声符号化手段 1 0から構成される。

第 1 の音声符号化手段 2 0は、音声信号を一定長の処理区間（フレーム）に分割した際に複数周期が含まれない場合に対し、音声信号を符号化し、符号化情報を生成する。

また、第 1 の音声符号化手段 2 0は、実際には C E L Pに該当するため、第 1 の音声符号化手段 2 0を用いて音声符号化処理を行う場合を、以降では C E L Pモードと呼ぶ。

第 2の音声符号化手段 1 0は、音声信号を一定長の処理区間（フレーム）に分割した際に、複数周期が含まれる場合の音声符号化処理を行う。第 2の音声符号化手段 1 0は、上述した音声符号化装置 1 0に該当するので詳細な説明は省略する。なお、第 2の音声符号化手段 1 0を用いて音声符号化処理を行う場合を、以降では L T Pモードと呼ぶ。

音声複号化処理装置 2は、第 1の音声復号化手段 1 2 0 と第 2の音声復号化手段 1 1 0から構成される。第 1の音声復号化手段 1 2 0は、符号化情報を復号化して音声を再現する。すなわち、符号化側が C E L P モードで符号化した場合に対応した復号化処理を行う。

また、第 2の音声復号化手段 1 1 0は、第 2の音声符号化手段 1 0で生成された最適値を復号化して音声を再現する。すなわち、符号化側が L T Pモードで符号化した場合に対応した復号化処理を行う。なお、音声復号化処理装置 2は、図 1 5 、 1 6で後述する。

次に音声符号化処理装置 1 の第 1 の実施の形態について説明する。図 6は第 1 の実施の形態の構成を示す図である。

第 1の実施の形態の音声符号化処理装置 1 aは、主に図 1 8で示した C E L P (第 1の音声符号化手段 2 0 ) と、図 1で示した音声符号化装置 1 0 (第 2の音声符号化手段 1 0 ) とから構成される。なお、すでに上述した構成要素に対しては、同符号を付けて説明は省略する。

入力音声信号 X (n) は、一定長のフレームに分割され、フレーム単位で符号化処理が行われる。フレーム長を Nとする。まず、 C E L Pモードと L T Pモードで共通して用いられる L P C分析手段 2 1、 L P C フィル夕係数量子化手段 1 9 a及び L P Cフィル夕係数逆量子化手段 1 9 bについて説明する。

L P C分析手段 2 1は、入力音声信号 X ( n ) (n = 0〜N— 1 ) を L P C分析して、 m次の L P C係数 α _; ( i = 1〜m) を算出する。

L P Cフィルタ係数量子化手段 1 9 aは、 a iを量子化して、量子化ィンデックス Index Lpcを求める。

L P Cフィル夕係数逆量子化手段 1 9 bは、量子化インデックス Index Lpcを逆量子化して、逆量子化値 a q _;を求める。

このように、符号器側でも復号器側で得られるのと同じ L P Cフィル夕係数を生成しておく。また、逆量子化値ひ q iは、 L P C合成フィル夕 1 4 a、聴覚重み付けフィル夕 1 4 b、 1 4 b— 1へ与えられる。一方、 L P C合成フィルタ 1 4 aの伝達関数 H ( z ) は式（ 9 ) で表される。

H(z)= ~" · . · (9)

1- . a q i · z ¹

i =1 また、聴覚重み付けフィル夕 1 4 b、 1 4 b— 1 としては、任意のものが使用可能であるが、例えば式（ 1 0 ) を用いることができる。ァ , 、ァ，は、重み付けパラメ一夕である。

w(z)= ~ — 一 , · ■ do)

1-∑ T · θί · ζ— ¹ したがって、聴覚重み付け合成フィル夕 1 4は、 Η ( ζ ) と W ( ζ ) の従属接続なので Η ( ζ ) - W ( ζ ) と表すことができる。

C E L Ρモードで用いられるゲイン量子化手段 3 2では、適応符号帳 B aと雑音符号帳 B nの探索で決定された最適ゲインを量子化する。量子化形式は任意であり、スカラ量子化やべクトル量子化などを用いて行

Ό。

符号化情報送信手段 1 8は、 C E L Pモードの時の最適ゲイン等の符号化情報を音声復号化処理装置 2へ送信する（図 9で後述）。

次に音声符号化処理装置 1 aの L T Pモードについて説明する。 L T Pモードでは、高次の L T P合成フィル夕と、 L P C合成フィル夕と、により入力信号を符号化する点に特徴がある。また、図の L T P処理手段 3 0は、べクトル抽出手段 1 1、 L T P合成フィル夕 1 2、フィル夕係数算出手段 1 3を含んでいる。

なお、ここで用いる L T P合成フィル夕 1 2の伝達関数 P ( z ) は、式（ 2 ) に示したものと同一である。

まず、適応符号帳 B aからラグ Lに対応する信号べクトル（^を取り出す。この C_tと聴覚重み付け合成フィルタ 1 4のインパルス応答 h (n) (n = 0 , …， I - 1 ) に対して式（ 8) を適用することにより、 L T P合成フィル夕係数 ( i = 1 , …， ) を得る。ここで、 I はインパルス応答の打ち切り次数である。

なお、 L T P合成フィル夕 1 2のフィル夕次数 pを大きくすると、それにつれて符号化音声品質も向上するが、次数が増加する分だけ量子化に要するビット数（量子化ビット数）も増加するので、音声品質とビットレートのトレードオフを考慮して、 pの値を決定する必要がある。

β iで構成される L T P合成フィル夕 1 2に、 C Lの値を入力して音源信号（図 1で説明した長期予測音声信号 S n a— 1 ) を求め、この音源信号を聴覚重み付け合成フィル夕 1 4に入力して、再生音声ベクトル（図 1で説明した再生符号化音声信号 S n a ) を生成する。

そして、誤差算出制御手段 1 5 aは、再生音声べクトルと、入力音声信号との重み付け自乗誤差 Eを式（4 ) から求める（誤差算出制御手段 1 5 aは、 C E L Pモードの場合には、 C E L Pモード用の誤差評価式を用いて誤差を算出する）。

最小誤差検出手段 1 6は、所定のラグ範囲（例えば、 2 0≤ L 1 4 7 ) について、このような処理を繰り返し、最も Eが小さくなるような最小誤差を検出する。最適値送信手段 1 7は、最小誤差を算出した際の最適ラグ L aと最適 L T Pフィル夕係数 /3 aを音声復号化処理装置 2へ出力する。

一方、モード選択手段 3 1 は、 C E L Pモード及び L T Pモードの切り替え制御を行う。例えば、入力音声信号の周期性に応じて、 C E L P モードまたは L T Pモードの切り替えを行ってもよいし、 C E L Pモードまたは L T Pモ一ドの両方で音声符号化を行った後に、それぞれの符号出力を比較して、符号化品質の高い方のモードを選択してもよい。図では、 C E L Pモードに切り替える場合は、モード選択手段 3 1内のスィツチ端子 c を端子 aに接続し、 L T Pモードに切り替える場合は、スィツチ端子 c を端子 bに接続させる。

なお、第 1 の実施の形態では、簡単のため総モード数を 2つとした力 3つ以上の複数モードを用意し、その中の 1つを L T Pモードとしてもよい。なお、入力音声信号の周期性に応じてモードを切り替える場合の処理については後述する。また、図中の状態更新手段 3 3についても図 8で後述する。

以上説明したように、第 1の実施の形態では、 C E L Pモード及び L T Pモードの両方を有し、入力音声信号に応じてモード切替えを行って、音声符号化を行う構成とした。

また、本発明の L T Pモードでは、音声の周期性に対して寄与度の低い雑音符号帳 B nを使用せず、 C E L Pモードで雑音符号帳 B nに害り当てていたすベての量子化ビッ卜を L T P合成フィルタ 1 2に割り当てる。これにより、入力信号の周期性に特化した符号化処理が可能になる。このように、本発明の L T Pモードを用いれば、従来では十分に符号化できなかつ信号に対しても、十分な符号化能力を発揮でき、さらに、 1フレームに複数周期を含まない信号に対しては、 C E L Pモードに切り替えることにより、入力音声信号に応じた、柔軟度の高い符号化を効率よく行うことが可能になる。

次にラグ Lの値を変化させる場合の動作について説明する。上記で説明したように、最小誤差を検出する場合は、ラグ Lを変化させて、変化させた値それぞれに対応して算出した複数の誤差の中から、最小誤差を検出する。なお、説明を簡単にするため、適応符号帳 B aから 1つの信号べクトルを抽出する際の動作について説明する。

図 7はラグ Lの値を変化させる場合の動作を示す図である。適応符号帳 B aに図のような時間軸を設定する。時間軸に対して、左へ行くほど古く、右へ行くほど新しい信号べクトルが格納される。

〔S 1 0〕適応符号帳 B aの始点 Oからラグ Lずれた位置からフレーム長の信号（信号ベクトル）を取り出す。

〔 S 1 1〕ステップ S 1 0で取り出した信号べクトルを L T P処理手段 3 0で L T P処理を行った後、聴覚重み付け合成フィル夕 1 4へ入力する。

〔S 1 2〕誤差算出制御手段 1 5 aは、聴覚重み付け合成フィル夕 1 4 からの出力信号と入力音声信号との誤差を算出する。

〔S 1 3〕最小誤差検出手段 1 6は、 L T P処理手段 3 0内のベクトル抽出手段 1 1 に対して、 L = L + 1 と設定指示する。

〔 S 1 4〕ベクトル抽出手段 1 1は、適応符号帳 B aの始点 Oからラグ L ( = L + 1 ) ずれた位置からフレーム長の信号を取り出す。

そして、ステップ S 1 1からの処理をすベての Lに対して繰り返し行つて、最小誤差を検出する。なお、ラグ Lを、 Lから L + 1 にして変化させる処理については雑音符号帳 B nに対しても同様である。

次に状態更新手段 3 3について説明する。図 8は適応符号帳 B aの状態更新を示す図である。

適応符号帳 B aには、 L _max個の過去の音源信号（信号ベクトル）が格納されている。また、図中の Nは符号化の単位となるフレーム長を表す。状態更新手段 3 3は、適応符号帳 B a内の時間的に最も古い Nサンプルを捨てて、残りの信号を全体へ左へ（時間的に古い方へ）シフトし、現在のフレームで求めた音源信号（適応符号帳 B a出力と雑音符号帳 B n出力の線形結合）をシフトで開いた部分にコピーする。したがって、適応符号帳 B a内の右側（時間的に新しい方）には常に最新の音源信号が格納される。

また、状態更新手段 3 3は、フレーム毎の符号化情報の生成または最適値の量子化処理を終了した時点で、このような状態更新処理を行う。次に最適値送信手段 1 7 と符号化情報送信手段 1 8について説明する, 図 9は音声符号化処理装置 1 aが送信する情報を示す図である。

表 Tの項目には、モード情報、ラグ、雑音符号帳インデックス、ゲインインデックス、 L P Cフィル夕係数インデックス、 L T Pフィル夕係数インデックスがる。

モード情報は、 C E L Pモードか L T Pモードなのかを示す情報である（MOD E) 。ラグ情報は、適応符号帳 B aの始点〇からの位置を示す情報である（L) 。雑音符号帳インデックスは、雑音符号帳 B nから抽出した符号ベクトルを量子化した際のインデックスである（Index cl) 。ゲインインデックスは、最適ゲインを量子化した際のインデックスである（Index Gain) 。

L P Cフィル夕係数ィンデックスは、 L P Cフィル夕係数を量子化した際のインデックスである（Index Lpc) 。 L T Pフィル夕係数インデックスは、 L T Pフィル夕係数を量子化した際のインデックスである (Index L tp 。

符号化情報送信手段 1 8は、 C E L Pモードの時の表 Tに示される情報を送信する。また、最適値送信手段 1 7は、 L T Pモードの時の表 T に示される情報を送信する。

次に音声符号化処理装置 1の第 2の実施の形態について説明する。なお、上述した第 1の実施の形態の音声符号化処理装置 1 aを音声符号化処理部 l aとして、以降では簡略化した図を用いて説明する。図 1 0は第 2の実施の形態の構成を示す図である。

第 2の実施の形態の音声符号化処理装置 1 bは、音声符号化処理部 1 aに対して、さらに安定性判別手段 4 1を有している。

安定性判別手段 4 1は、 L T Pモードの最適 L T Pフィルタ係数 /3 a と最適ラグ L aの探索中に、 L T P合成フィル夕 1 2の安定性判別を行う。そして、不安定と判別した場合には、その時の L T Pフィルタ係数及びラグ Lを最適値を選択する際の候補から除外するものである。

ここで、 L T P合成フィル夕 1 2の安定性に対し、 L T Pフィル夕係数を算出する際に用いる式（ 8 ) の行列 Rが共分散行列となるため、式 ( 8 ) から求めた L T Pフィル夕係数で構成される L T P合成フィル夕 1 2の安定性は必ずしも保証されない。

また、 L T Pフィル夕係数の次数を高くしていくにつれて、不安定なフィル夕係数が多く求まることを実験によって確認した。

一方、 L T P合成フィルタ 1 2が安定であれば、そのフィル夕を構成する L T Pフィル夕係数から得られる kパラメ一夕（PAR C O R係数）の絶対値は 1を越えないことが知られている。

ところが、フィル夕の安定性が保証されない場合の kパラメ一夕の存在範囲は、フィル夕が安定な場合よりもさらに広くなつてしまうので、この場合、量子化の効率が悪くなる。

このように、再生音声の品質を向上させるために、 L T P合成フィル夕 1 2の次数を高くすると不安定な係数が求まる確率が高くなり、かえつて量子化効率を悪化させてしまう可能性がある。

したがって、第 2の実施の形態の音声符号化処理装置 1 bでは、最適 L T Pフィル夕係数 /3 a及び最適ラグ L aの探索中に求めた L T Pフィル夕係数で構成される L T P合成フィル夕 1 2の安定性を判別し、フィル夕が不安定な場合にはその L T Pフィル夕係数及びラグを選択候補から除外することにする。

安定性判別の方法としては、任意の方法を用いることが可能であるが、 L T Pフィル夕係数を kパラメ一夕に変換した時の kパラメ一夕の絶対値による判定方法、 L T Pフィル夕係数から極の位置を直接求める方法などを用いることができる。ここでは後者の方法について説明する。後者の方法では式（ 1 1 ) に示す p次の代数方程式を解き、根 z ( i = 1， ···, p ) を求める。ここで、 i3 i は L T Pフィル夕係数であり、 pは L T P次数である。

! + z"¹ + 3₂z "² + · - · + 3_p z"^p = 0 · · · i3 iは実係数であるから式（ 1 1 ) の根は、実根（重解）または複素共役根となり、 z ,= R e { z , } + j I m { z _t ] と表せる。ここで、 R e { z , } はの実部であり、 I m { z , } は ζ , の虚部である。 R e { Z i } と I m { z i } により、 z平面上における極の配置がわかる。図 1 1はフィル夕が安定な場合の極の配置例を示す図である。図 1 2 はフィル夕が不安定な場合の極の配置例を示す図である。いずれも縦軸に I m { z , } 、横軸に R e { z _t } をとる。

図 1 1の場合は、 z ,として得られたすべての極が z平面上の単位円内にあるのでフィル夕は安定である。

これに対し、図 1 2の場合は z ,は単位円内にあるものの、 z ₂ 、 z ₃が単位円の外にあるのでフィル夕としては不安定である。

以上説明したように、安定性判別手段 4 1により、フィル夕の安定性を判別することが可能になり、不安定と判定された場合には L T P合成フィル夕 1 2のフィル夕係数及びラグを選択候補から除外することにした。これにより、安定なパラメ一夕のみを抽出できる。

なお、上記の説明では、 L T Pモードの探索処理中に安定判別を行う方法を説明したが、別の実現方法として探索処理中に安定判別を行わずに、 L T Pモードの探索処理で決定された最終的な最適 L T Pフィル夕係数 /3 aについて安定判別を行ってもよい。

そして、この場合は、最終的な最適 L T Pフィル夕係数 i3 aで構成される L T P合成フィル夕 1 2が不安定であると判別された場合には、 L T Pモードは選ばれず C E L Pモードを選択するようにする。

次に音声符号化処理装置 1の第 3の実施の形態について説明する。図 1 3は第 3の実施の形態の構成を示す図である。第 3の実施の形態の音声符号化処理装置 l cは、音声符号化処理部 1 aに対して、さらに安定性判別手段 4 1及び安定化処理手段 4 2を有している。 2δ 安定化処理手段 4 2は、安定性判別手段 4 1が L T P合成フィル夕 1 2の安定性判別を行って、不安定と判別した場合には、その時の L T P フィル夕係数及びラグ Lを安定化させるものである。

上述した第 2の実施の形態では、 L T P合成フィル夕 1 2の安定性を判別し、不安定な場合にはそのフィル夕係数及び対応するラグを候補から除外することで安定なフィル夕係数を得ていた。

ところカ^ L T Pフィル夕係数の次数を高くしていくと、それにつれて不安定な係数が求まる確率も高くなる傾向があるため、上記のように L T P合成フィル夕 1 2が不安定な場合に候補をその度に除外すると、探索候補であるラグ、 L T Pフィル夕係数の候補数自体が少なくなり、十分な符号化性能を得られない可能性がある。

したがって、第 3の実施の形態では、探索処理中に各ラグに対応する L T Pフィルタ係数を求め、第 2の実施の形態と同様な方法でフィルタの安定性判別を行い、 L T P合成フィル夕 1 2が不安定と判別された場合には、 L T P合成フィル夕 1 2の安定化処理を行って、 L T Pフィル夕係数を修正する構成とした。また、 L T P合成フィル夕 1 2が安定と判別された場合には、 L T Pフィル夕係数の修正は行わない。

L T P合成フィル夕 1 2の安定化処理の方法としては、任意の方法を用いることが可能であるが、フィル夕係数から z平面における極の位置を求め、極の位置を単位円上の内側へ移動する（以下、極移動法と呼ぶ）手法を用いることができる。ここでは極移動法について説明する。

極移動法では、まず、式（ 1 1 ) を第 2の実施の形態で説明したのと同様に解き、根 z ,を求める。ここで /3 iは L T Pフィル夕係数であり、は Z i= R e { z , } + j I m { z , } と表せる。上述したように、 R e { z i } は z i の実部であり、 I m { z _t } は Z i の虚部である。 R e { Z j } と I m { z , } より、 z平面上における極の配置がわかる。安定性判別手段 4 1では、根 z ,を算出し、極が単位円の中にあればそのフィル夕は安定であると判別し、極が 1つでも単位円の外にあれば、そのフィル夕は不安定であると判定する。

そして、安定性判別手段 4 1からの判別結果（安定/不安定）と、 L

T Pフィル夕係数とが安定化処理手段 4 2に入力される。 L T P合成フィル夕 1 2が安定な場合には、 3 , をそのまま） 3 i aとして出力する。また、フィル夕が不安定な場合には以下の式（ 1 2 ) の処理を行う。

， *

a = (i = 1, · ■ ■， P) · · ■ (12)

2 ここで z i は式（ 1 1 ) から求めた安定化する前の根であり、 z i aは安定化された根である、ここで z は z iの複素共役根である。

式（ 1 2 ) の変換により、元の L T Pフィル夕係数により構成される L T P合成フィル夕 1 2の周波数特性を保存したままフィル夕を安定化することが可能になる。

式（ 1 2 ) で安定化された根 z j aは、式（ 1 3 ) の関係を用いて安定化された L T Pフィルタ係数 β i aに変換される。

1-∑ 8j a · ζ-' ₌ Π ( 1 - z a · z"¹ ) · · · (13)

i=1 i=1 ¹

したがって、 L T Pモードでの探索処理中の誤差評価では、 L T P係数として 3 _{i a}を用いる。以上説明したように、不安定な L T P合成フィルタ 1 2を安定化することにより、不安定な L T P合成フィル夕 1 2による符号化音声品質の劣化を防ぐことができる。

また、 L T P合成フィル夕 1 2が不安定な場合でも、 L T Pフィル夕係数及びラグを探索候補から除外する必要がないため、 L T Pフィル夕係数の次数を高くすることにより、不安定なフィル夕係数が求まる場合が多くなつても、符号化音声品質の劣化を防ぐことができる。

次に第 4の実施の形態について説明する。図 1 4は第 4の実施の形態の構成を示す図である。第 4の実施の形態の音声符号化処理装置 1 dは、音声符号化処理部 1 aに対して、パラメ一夕変換制御手段 5 0をさらに有している。

パラメ一夕変換制御手段 5 0は、パラメ一夕変換手段 5 1、パラメ一夕量子化手段 5 2、パラメ一夕逆変換手段 5 3及びパラメ一夕逆量子化手段 5 4から構成される。

パラメ一夕変換手段 5 1は、 L P C分析手段 2 1の出力ひ iをパラメ一夕 kiに変換する。パラメ一夕量子化手段 5 2は、パラメ一夕 k ,を量子化して Index Lpc を生成する。パラメ一夕逆変換手段 5 3は、 Index Lpc を逆変換して、 k Q iを生成する。パラメ一夕逆量子化手段 54は、 k Q iを逆量子化して a q iを生成する。

また、最適値送信手段 1 7は、パラメ一夕変換手段 5 1 a、パラメ一夕量子化手段 5 2 aを含んでいる。なお、図ではパラメ一夕変換制御手段 5 0の周辺部のみ示し、その他の構成要素は音声符号化装置 1 aと同様であるため省略する。

L T P合成フィルタ 1 2は、出力から入力へのフィードバック路を持つ全極型共振回路であるため係数感度が高い。このため、 L T Pフィルタ係数を量子化した時に量子化誤差が大きい場合、量子化誤差が大きい

L T Pフィル夕係数を復号側では受信することになる。すると、復号側の L T P合成フィル夕 1 2が発振したり、スぺクトル歪みが増大して、再生音声品質を大きく劣化させてしまう可能性がある。

したがって、第 4の実施の形態では、 L T Pフィル夕係数を等価な別のパラメ一夕に変換してから量子化する。 L T Pフィル夕係数と等価な別パラメ一夕としては、例えば、 kパラメ一夕（P AR C OR係数）や L S P (線スペクトル対）などを用いることができる。

元々、 kパラメ一夕は入力信号を L P C分析して得られる L P Cフィル夕係数と等価なパラメ一夕として知られており、 L P Cフィル夕係数から kパラメータへの変換式、 kパラメ一夕から L P C係数への変換式が知られている。

また、 L S Pも L P Cフィル夕係数と等価なパラメ一夕であり、 L P Cフィル夕係数から L S Pへの変換式と、 L S Pから L P C係数への変換式が知られている。

これら kパラメ一夕、 L S Pはその量子化特性が L P Cフィル夕係数よりも優れていることから、通常の C E L P符号化では L P Cフィル夕係数を kパラメ一夕または L S Pに変換してから量子化している。

第 4の実施の形態では、上述した L P Cフィル夕係数と kパラメータ (または L S P) の関係式を、 L T Pフィル夕係数に対しても適用するものである。

以下では L T Pフィル夕係数から kパラメ一夕に変換する方法（ステップダウン過程）について説明するが、 L S Pについても同様である。

L T Pフィル夕係数を kパラメータに変換する方法は、ステツプダウン過程とも呼ばれ、式（ 1 4 ) 、 ( 1 5) で表される。

(i)

k = (14)

(i) 丄 (i) (i)

(i-l) i-j

a, (1≤j≤i-l) (15)

2

1一

ここで、 i は pから p— 1 , '··, 1 と減少し、また、最初は式（ 1 6 ) のように、 (P) (1≤j≤p) (16)

j j

と設定しておく。ここで、 α ,は L T Pフィル夕係数であり、 pはフィル夕次数である。上記の変換処理により、 kパラメ一夕 k iが求まる。また. kパラメ一夕は式（ 1 7 ) 、 ( 1 8 ) に示すステップアップ過程により L T Pフィル夕係数に変換することが可能である。

(i)

= k • · · (17)

(i) (i-1) ,

, = — k

J j i i-j (i≤j≤i-1) · · ■ (18)

これらの式を i = ] 2， pについて解き、最終の係数集合から式（ 1 9 ) のように、

(P)

a j = j (i≤j≤i-1) · · · (19)

とおいて、 L Τ Pフィル夕係数 a jが得られる。

以上説明したように、 L T Pモードの符号化において、 L T Pフィルタ係数を直接量子化するのではなく、 L T Pフィル夕係数を kパラメ一夕または L S P等の等価なパラメ一夕に変換してから量子化することにより、少ない量子化ビット数で高品質な符号化音声品質を実現することが可能になる。

次にモ一ド選択手段 3 1が入力音声信号を周期性の強弱に応じて切り替える場合の処理について説明する。

モード選択手段 3 1は、入力音声の性質を判定し、その判定結果に応じて C E L Pモードまたは L T Pモードを選択する。

ここでは、入力音声のピッチ周期性を表すパラメ一夕として、各フレームの入力信号から求めたピツチ予測利得を利用する方法を説明する。

まず、入力音声信号 X ( n ) ( i = 0， ···， N— 1 ) から式（ 2 0 ) 、 ( 2 1 ) により、自己相関 R_cc (L ) 、相互相関 R„ (L ) を求める。ここで、 Lは時間遅れを表すパラメ一夕であり、 Lの範囲は L,≤L≤L₂ とする。

N-1

R_CC(L) = ∑ x(n-L) · x(n-L) · · , (20)

i=0

N-1

R_cx (し) = ∑ x(n) · x(n-L) ■ · · (21)

i=0

Lの値を L ,から L₂まで変えながら、 R_cc (L) と R„ (L) を求め、式（ 2 2 ) からピッチ予測利得 G (L) を求める。

L ,〜L₂のすベての Lについて、ピッチ予測利得 G (L ) を計算し、 G (L) の最大値 G (L) _maxを決定する。

次に G (L) _maxとあらかじめ決めた閾値 T hとを比較し、 G (L) _max が T よりも大きければ周期が強いと判断して、 L T Pモードを選択する。

また、 G (L) _fflaxが T hよりも小さければ周期が弱いと判断して、 C E L Pモードを選択する。なお、上記の説明では、モード判定のためのパラメ一夕として入力音声信号のピッチ予測利得を用いたが、他の特徴パラメ一タを用いてもよい。また、複数の特徴パラメ一夕の組合せにより、モード判定を行ってもよい。

以上説明したように、モード選択手段 3 1でモード判定をすることにより、入力音声信号の性質に応じて、最適な符号化モードを選ぶことが可能になり、符号化音声の品質を向上させることができる。

次に音声復号化処理装置 2について説明する。図 1 5は音声復号化処理装置の構成を示す図である。音声復号化処理装置 2 aは、 C E L Pモ —ドと L T Pモードの 2つのモ一ドから構成される音声符号化処理装置 1が出力した情報から、音声を復号するための復号器である。

図 9で示した情報が各モードに対応して、音声復号化処理装置 2 aに入力される。

L P Cフィル夕係数の量子化インデックス Index Lpc が、 L P C係数逆量子化手段 1 0 1に入力され、 L P Cフィル夕係数 a , ( i = l， …， m) が出力される。

L P C合成フィル夕 1 0 3はにより構成され、 C E L Pモード、 L T Pモードの両モードで用いられる。

モード情報 M〇 D Eにより、モード選択手段 1 0 6が C E L Pモードを選択した場合は以下の復号化処理を行う。

まず、適応符号帳 B aよりラグ Lに対応する出力 C。 (n) (n = 0， ···, N— 1 ) を取り出す。ここで、 Nはフレーム長である。

次に雑音符号帳 B nから雑音符号帳ィンデックス Index clに対応する信号 C, ( n ) (n = 0 , …， N— 1 ) が出力される。また、ゲインインデックス Index Gainがゲイン逆量子化手段 1 0 5へ入力され、適応符号帳用ゲイン g_e、雑音符号帳用ゲイン g, が、乗算器 1 0 7 a、 1 0 7 b に対してそれぞれ与えられる。

乗算器 1 0 7 aは、適応符号帳 B aから抽出した符号ベクトル C。（n) にゲイン g。を乗算して、 g。 ' （：。（n) を生成する。

乗算器 1 0 7 bは、雑音符号帳 B nから抽出した符号べクトル（^(n) にゲインを乗算して、 g, · C, (n) を生成する。

加算器 1 0 8は、 g。 ' C。（n) と gi ' C' n) を加算して、音源信号 y (n) (n = 0〜N— 1 ) を生成する。音源信号 y (n) は式（ 2 3 ) のようになる。 y(n) = g_o - C_o(n)+g_i- C_i(n)

(n=0, · · ·， N-1) · ■ · (23) そして、 y ( n ) を L P C合成フィル夕 1 0 3に入力することにより、再生信号 s (n) (n = 0 , …， N - 1 ) が得られる。また、現在のフレームで得られた音源信号 y (n) を適応符号帳 B aに帰還させることにより、適応符号帳 B aの状態更新を行う。帰還の方法は任意であるが、例えば式（ 2 4 ) 、 ( 2 5 ) の方法を用いることができる。

aclun) = acb (n+N)

(0≤n≤L_max -N-1) (24) acb(L_max -N+n) = y(n)

(0≤n≤N-1) , , · (25)

ここで、 a c b (n) (n = 0， ···， L_max - 1 ) は適応符号帳の格納位置であり、 L_maxは適応符号帳サイズ（ラグの最大値）である。

一方、モード情報により L T Pモードが選択された場合は、以下の復号処理を行う。量子化ィンデックス Index Lpc を L T Pフィル夕係数逆量子化手段 1 0 4に入力して、 L T P合成フィル夕係数 3 iを出力する。次に C E L Pモードと同様に、ラグ Lに対応する適応符号べクトル C。

(n) を適応符号帳 B aから取り出し、 C_Q (n ) を L T P合成フィル夕 1 0 2に入力して音源信号 y a (n) を求める。

さらに、 y a ( n ) を L P C合成フィル夕 1 0 3に入力することにより、再生信号 s (n) を得る。また、現在のフレームで作成した音源信号 y a (n ) を適応符号帳 B aに帰還させることにより、適応符号帳 B aの状態更新を行う。帰還の方法は任意であるが、上述した C E L P方式の場合と同じ方法を用いることができる。以上説明したように、音声復号化処理装置 2 aは、音声符号化処理装置 1から符号化された情報から高品質な音声を再生（復号）することが可能になる。

次に図 1 4で説明した音声符号化処理装置 1 dで符号化された情報を復号化する場合の音声'復号化処理装置について説明する。図 1 6は音声復号化処理装置の構成を示す図である。

音声復号化処理装置 2 bは、第 4の実施の形態で説明したような、 C E L Pモードと L T Pモードの 2つのモードを持ち、 L T P合成フィル夕係数を kパラメ一夕または L S P等の L T P係数と等価なパラメ一夕に変換してから量子化する音声符号化処理装置 1 dにより符号化された情報から、音声を復号するための復号器である。

なお、音声復号化処理装置 2 bは、 L T Pフィル夕係数の生成方法が音声復号化処理装置 2 aと異なるだけで他は同一なので、ここでは L T Pモードが選択された場合の動作のみを説明する。

モード情報により、 L T Pモードが選択された場合には以下の復号処理を行う。量子化ィンデックス Index Lpc をパラメ一夕逆量子化手段 1 0 4 aに入力して kパラメ一夕 k j ( i = l， …， p ) を生成する。

ここで、 pは L T P合成フィル夕 1 0 2の次数である。次に k ,をパラメータ変換手段 1 0 4 bに入力して、 L T P合成フィル夕係数 3 i ( i = 1 , ···, ρ) を出力する。パラメ一夕変換手段 1 0 4 bでは、第 4の実施の形態で説明した式（ 1 7 ) のステップアップ過程により変換処理を行う。

L T P合成フィルタ 1 0 2は、ラグ Lと 3 ,により構成される。次にラグ Lに対応する出力（：。（n) を適応符号帳 B aから取り出し、 C_Q (n) を L T P合成フィル夕 1 0 2に入力して音源信号 y a (n) を生成する。さらに y a (n) を L P C合成フィル夕 1 0 3へ入力して再生信号 s ( n ) を作成する。

また、現在のフレームで作成した音源信号 y a ( n ) を適応符号帳 B aに帰還させることにより、適応符号帳 B aの状態更新を行う。帰還の方法は任意であり、例えば式（ 2 4 ) 、（ 2 5 ) の方法を用いることができる。

以上説明したように、音声復号化処理装置 2 bは、音声符号化処理装置 1 dからで符号化された情報から高品質な音声を再生（復号）することが可能になる。

次に本発明の音声処理方法について説明する。図 1 7は音声処理方法の処理手順を示すフローチヤ一卜である。

( S 2 0〕過去の音声信号の信号べクトル系列を格納した適応符号帳を生成する。

C S 2 1 音声信号を一定長の処理区間に分割した際に複数周期が含まれない場合に対し、音声信号を符号化して符号化情報を生成する。

[ S 2 2 ) 音声信号を一定長の処理区間に分割した際に複数周期が含まれる場合に対し、適応符号帳の始点から一定の遅れ間隔ずれた位置に格納されている信号べクトルと、信号べクトルの近傍に格納されている近傍べクトルとを抽出する。

C S 2 3 ] 長期予測合成フィル夕のフィル夕係数を算出する。

C S 2 4 ) 音声信号の周期性に関する長期予測分析合成を、信号べクトルと近傍べクトルとに対して高次の長期予測合成フィル夕を用いて行つて、長期予測音声信号を生成する。

〔S 2 5〕声道特性を表す線形予測分析合成によって推定した線形予測合成フィル夕と聴覚特性の重み付け処理を行う聴覚重み付けフィル夕とを用いて、長期予測音声信号から再生符号化音声信号を生成する。

C S 2 6 ] 音声信号と、再生符号化音声信号との誤差を算出する。 7 P

35

〔S 2 7〕遅れを変化させて繰り返し算出した誤差の中から、最小誤差を検出する。

〔S 2 8〕最小誤差を検出した時のフィル夕係数である最適フィル夕係数と、最小誤差を検出した時の遅れである最適遅れと、を最適値として送信する。

〔S 2 9〕符号化情報または最適値に復号化を行って音声を再生する。以上説明したように、本発明の音声処理装置 1 0 0及び音声処理方法は、音声信号を一定長の区間に分割した際に複数周期の信号が含まれない場合に対しては、音声信号を符号化して符号化情報を生成し、一定長の区間に複数周期の信号を含んでいる場合に対しては、長期予測分析合成によって推定した高次の長期予測合成フィル夕を用いて音声符号化を行って最適値を生成し、復号化側では符号化情報と最適値を復号化する構成とした。

これにより、入力音声に応じて最適な音声符号化を行うことができ、高品質な音声を再現することが可能になる。

なお。上記の説明では、第 1音声符号化手段 2 0が行う符号化処理を C E L Pとして説明したが、 C E L P以外の音声符号化処理を行っても構わない。

以上説明したように、本発明の音声符号化装置は、音声信号を一定長の区間に分割した際に複数周期の信号を含んでいる場合に対して、長期予測分析合成によって推定した高次の長期予測合成フィル夕を用いて音声符号化を行う構成とした。これにより、入力音声に応じて最適な音声符号化を行うことが可能になる。

また、本発明の音声処理装置は、音声信号を一定長の区間に分割した際に複数周期の信号が含まれない場合に対しては、音声信号を符号化して符号化情報を生成し、一定長の区間に複数周期の信号を含んでいる場合に対しては、長期予測分析合成によって推定した高次の長期予測合成フィル夕を用いて音声符号化を行って最適値を生成し、復号化側では符号化情報と最適値を復号化する構成とした。これにより、入力音声に応じて最適な音声符号化を行うことができ、高品質な音声を再現することが可能になる。

さらに、本発明の音声処理方法は、音声信号を一定長の区間に分割した際に複数周期の信号が含まれない場合に対しては、音声信号を符号化して符号化情報を生成し、一定長の区間に複数周期の信号を含んでいる場合に対しては、長期予測分析合成によって推定した高次の長期予測合成フィル夕を用いて音声符号化を行って最適値を生成し、復号化側では符号化情報と最適値を復号化することとした。これにより、入力音声に応じて最適な音声符号化を行うことができ、高品質な音声を再現することが可能になる。

上記については単に本発明の原理を示すものである。さらに、多数の変形、変更が当業者にとって可能であり、本発明は上記に示し、説明した正確な構成および応用例に限定されるものではなく、対応するすべての変形例および均等物は、添付の請求項およびその均等物による本発明の範囲とみなされる。

Claims

請求の範囲

1 . 音声信号を一定長の処理区間に分割した、音声の生成モデルを仮定して音声符号化を行う音声符号化装置において、

過去の音声信号の信号べクトル系列を格納する適応符号帳と、前記適応符号帳の始点から一定の遅れ間隔ずれた位置に格納されている信号べクトルと、前記信号べクトルの近傍に格納されている近傍べクトルとを抽出するべクトル抽出手段と、

前記音声信号の周期性に関する長期予測分析合成を、前記信号べクトルと前記近傍ベクトルとに対して行って、長期予測音声信号を生成する高次の長期予測合成フィル夕と、

前記長期予測合成フィル夕のフィル夕係数を算出するフィルタ係数算出手段と、

声道特性を表す線形予測分析合成によって推定した線形予測合成フィル夕と、前記線形予測合成フィル夕の前段または後段に接続して、聴覚特性の重み付け処理を行う第 1の聴覚重み付けフィル夕と、から構成され、前記長期予測音声信号から再生符号化音声信号を生成する聴覚重み付け合成フィルタと、

前記音声信号から聴覚重み付き音声信号を生成する第 2の聴覚重み付けフィル夕と、

前記聴覚重み付き音声信号と、前記再生符号化音声信号との誤差を算出する誤差算出手段と、

前記遅れを変化させて前記誤差算出手段が繰り返し算出した前記誤差の中から、最小誤差を検出する最小誤差検出手段と、

前記最小誤差を検出した時のフィル夕係数である最適フィル夕係数と. 前記最小誤差を検出した時の遅れである最適遅れと、を最適値として送信する最適値送信手段と、

を有することを特徴とする音声符号化装置。

2 . 前記最適フィル夕係数と前記最適遅れとの探索中に、前記長期予測合成フィル夕の安定性判別を行い、不安定と判別した場合のフィル夕係数及び遅れは、前記最適値を選択する際の候補から除外する安定性判別手段をさらに有することを特徴とする請求項 1記載の音声符号化装置。

3 . 前記安定性判別手段によって、不安定と判別された場合の前記フィル夕係数及び前記遅れを安定化させる安定化処理手段をさらに有することを特徴とする請求項 2記載の音声符号化装置。

4 . 前記最適値送信手段は、前記最適フィル夕係数を量子化して、量子化した値を送信することを特徴する請求項 1記載の音声符号化装置。

5 . 前記最適値送信手段は、前記最適フィル夕係数を等価な別のパラメ一夕に変換し、前記パラメ一夕に対して量子化して、量子化した値を送信することを特徴とする請求項 1記載の音声符号化装置。

6 . 前記長期予測合成フィル夕は、前記信号ベクトルの両側にある近傍ベクトルの位置の一方の側の値を Jい他方の側の値を J ₂、遅延を表す演算子を z、整数を i 、前記フィルタ係数を ]3い前記遅れの値を Lとした場合に、以下の伝達関数 P ( z ) 、

P ( z ) = 1 / ( 1 一 (∑ /3 i · z - (L- i ) ) ( i = - J …， J ₂) で表せることを特徴とする請求項 1記載の音声符号化装置。

7 . 前記長期予測合成フィルタは、前記信号ベクトルの片側にある近傍べクトルの位置の値を J ₃、遅延を表す演算子を z、整数を i 、前記フィル夕係数を 3ぃ前記遅れの値を Lとした場合に、以下の伝達関数 P a ( z ) 、

P a ( z ) = 1 Z ( 1 — (∑ /3 , · z - i - L) ) ( i = 1 ， ···， J ₃) で表せることを特徴とする請求項 1記載の音声符号化装置。

8 . 前記誤差算出手段は、前記信号ベクトルの両側にある近傍ベクトルの位置の一方の側の値を Jい他方の側の値を J ₂、前記誤差を E、目標信号ベクトルを X、前記線形予測合成フィル夕のィンパルス応答べク卜ルを H、前記遅れを L、前記 Lに相当する前記適応符号帳の前記信号べクトルを C とした場合に、以下の式、

E ² = I Χ -∑ 3 , · Η · C L- i | 2 ( i = - J , , …， J ₂)

を誤差評価式とし、前記誤差評価式を用いて前記誤差を算出することを特徴とする請求項 1記載の音声符号化装置。

9 . 音声の生成モデルを仮定して音声分析合成を行う音声処理装置において、

音声信号を一定長の処理区間に分割した際に複数周期が含まれない場合に対し、前記音声信号を符号化し、符号化情報を生成する第 1の音声符号化手段と、音声信号を一定長の処理区間に分割した際に複数周期が含まれる場合に対し、過去の音声信号の信号べクトル系列を格納する適応符号帳と、前記適応符号帳の始点から一定の遅れ間隔ずれた位置に格納されている信号べクトルと、前記信号べクトルの近傍に格納されている近傍べクトルとを抽出するべクトル抽出手段と、前記音声信号の周期性に関する長期予測分析合成を、前記信号べクトルと前記近傍べクトルとに対して行って、長期予測音声信号を生成する高次の長期予測合成フィル夕と、前記長期予測合成フィル夕のフィル夕係数を算出するフィル夕係数算出手段と、声道特性を表す線形予測分析合成によって推定した線形予測合成フィル夕と、前記線形予測合成フィル夕の前段または後段に接続して、聴覚特性の重み付け処理を行う第 1 の聴覚重み付けフィル夕と、前記音声信号から聴覚重み付き音声信号を生成する第 2の聴覚重み付けフィル夕と、から構成され、前記長期予測音声信号から再生符号化音声信号を生成する聴覚重み付け合成フィル夕と、前記聴覚重み付き音声信号と、前記再生符号化音声信号との誤差を算出する誤差算出手段と、前記遅れを変化させて前記誤差算出手段が繰り返し算出した前記誤差の中から、最小誤差を検出する最小誤差検出手段と、前記最小誤差を検出した時のフィル夕係数である最適フィルタ係数と、前記最小誤差を検出した時の遅れである最適遅れと、を最適値として送信する最適値送信手段と、を含む第 2の音声符号化手段と、から構成される音声符号化処理装置と、

前記符号化情報を復号化して音声を再現する第 1の音声復号化手段と. 前記最適値を復号化して音声を再現する第 2の音声復号化手段と、から構成される音声復号化処理装置と、

を有することを特徴とする音声処理装置。

1 0 . 入力した音声信号の周期性に応じて、前記第 1の音声符号化手段及び前記第 2の音声符号化手段の切り替えを行うモード選択手段をさらに有することを特徴とする請求項 9記載の音声処理装置。

1 1 . 前記第 1の音声符号化手段から生成された符号化音声信号と、前記第 2の音声符号化手段から生成された前記再生符号化音声信号とを比較して、符号化品質の高い方を選択するモード選択手段をさらに有することを特徴とする請求項 9記載の音声処理装置。

1 2 . 前記第 1の音声符号化手段は、一定長の区間に複数周期の信号が含まれない前記音声信号に対して、符号駆動線形予測符号化を行うことを特徴とする請求項 9記載の音声処理装置。

1 3 . 前記音声復号化処理装置は、前記線形予測合成フィル夕と、前記長期予測合成フィルタを有することを特徴とする請求項 9記載の音声処理装置。

1 4 . 前記最適値送信手段は、前記最適フィルタ係数を量子化して、量子化した値を送信することを特徴する請求項 9記載の音声処理装置。

1 5 . 前記最適値送信手段は、前記最適フィル夕係数を等価な別のパラメータに変換し、前記パラメ一夕に対して量子化して、量子化した値を送信することを特徴とする請求項 9記載の音声処理装置。

1 6 . 前記音声復号化処理装置は、前記第 2の音声復号化手段で、前記最適値から前記パラメ一夕を抽出し、前記パラメ一夕から前記最適フィルタ係数へ変換して復号化することを特徴とする請求項 1 5記載の音声処理装置。

1 7 . 音声の生成モデルを仮定して音声符号化処理を行う音声符号化処理装置において、

音声信号を一定長の処理区間に分割した際に複数周期が含まれない場合に対し、前記音声信号を符号化し、第 1の符号化情報を生成する第 1 の音声符号化手段と、

音声信号を一定長の処理区間に分割した際に複数周期が含まれる場合に対し、過去の音声信号の信号べクトル系列を格納する適応符号帳と、前記適応符号帳の始点から一定の遅れ間隔ずれた位置に格納されている信号べクトルと、前記信号べクトルの近傍に格納されている近傍べクトルとを抽出するべクトル抽出手段と、前記音声信号の周期性に関する長期予測分析合成を、前記信号べクトルと前記近傍べクトルとに対して行つて、長期予測音声信号を生成する高次の長期予測合成フィル夕と、前記長期予測合成フィル夕のフィルタ係数を算出するフィルタ係数算出手段と、声道特性を表す線形予測分析合成によって推定した線形予測合成フィル夕と、前記線形予測合成フィル夕の前段または後段に接続して、聴覚特性の重み付け処理を行う第 1の聴覚重み付けフィル夕と、から構成され、前記長期予測音声信号から再生符号化音声信号を生成する聴覚重み付け合成フィルタと、前記音声信号から聴覚重み付き音声信号を生成する第 2の聴覚重み付けフィル夕と、前記聴覚重み付き音声信号と、前記再生符号化音声信号と、の誤差を算出する誤差算出手段と、前記遅れを変化させて前記誤差算出手段が繰り返し算出した前記誤差の中から. 最小誤差を検出する最小誤差検出手段と、前記最小誤差を検出した時のフィル夕係数である最適フィル夕係数と、前記最小誤差を検出した時の遅れである最適遅れと、を最適値として送信する最適値送信手段と、を含む第 2の音声符号化手段と、

を有することを特徴とする音声符号化処理装置。

1 8 . 音声の生成モデルを仮定して音声復号化処理を行う音声復号化処理装置において、

音声信号を一定長の処理区間に分割した際に複数周期が含まれない場合に対し、前記音声信号を符号化して生成された符号化情報を復号化する第 1の音声復号化手段と、

音声信号を一定長の処理区間に分割した際に複数周期が含まれる場合に対し、前記音声信号を符号化して生成された最適値を復号化する第 2 の音声復号化手段と、

を有することを特徴とする音声復号化処理装置。

1 9 . 音声の生成モデルを仮定して音声分析合成を行う音声処理方法において、

過去の音声信号の信号べクトル系列を格納した適応符号帳を生成し、音声信号を一定長の処理区間に分割した際に複数周期が含まれない場合に対し、前記音声信号を符号化して符号化情報を生成し、

音声信号を一定長の処理区間に分割した際に複数周期が含まれる場合に対し、前記適応符号帳の始点から一定の遅れ間隔ずれた位置に格納されている信号べクトルと、前記信号べクトルの近傍に格納されている近傍べクトルとを抽出し、

前記音声信号の周期性に関する長期予測分析合成を、前記信号べクトルと前記近傍べクトルとに対して高次の長期予測合成フィル夕を用いて行って、長期予測音声信号を生成し、

前記長期予測合成フィル夕のフィル夕係数を算出し、

声道特性を表す線形予測分析合成によって推定した線形予測合成フィル夕と聴覚特性の重み付け処理を行う聴覚重み付けフィル夕とを用いて. 前記長期予測音声信号から再生符号化音声信号を生成し、

前記音声信号と、前記再生符号化音声信号と、の誤差を算出し、前記遅れを変化させて繰り返し算出した前記誤差の中から、最小誤差を検出し、

前記最小誤差を検出した時のフィル夕係数である最適フィル夕係数と. 前記最小誤差を検出した時の遅れである最適遅れと、を最適値として送信し、

前記符号化情報または前記最適値を復号化して、音声を再現することを特徴とする音声処理方法。