WO2001052241A1

WO2001052241A1 - Multi-mode voice encoding device and decoding device

Info

Publication number: WO2001052241A1
Application number: PCT/JP2001/000062
Authority: WO
Inventors: Hiroyuki Ehara
Original assignee: Matsushita Electric Industrial Co., Ltd.
Priority date: 2000-01-11
Filing date: 2001-01-10
Publication date: 2001-07-19
Also published as: US20070088543A1; CN1187735C; AU2547201A; US7167828B2; EP1164580B1; EP1164580A1; CN1358301A; US7577567B2; EP1164580A4; US20020173951A1

Description

明細書マルチモード音声符号化装置及び復号化装置技術分野

本発明は、音声信号を符号化して伝送する移動通信システムなどにおける低ビットレート音声符号化装置、特に音声信号を声道情報と音源情報とに分離して表現するような CE LP (Code Excited Linear Prediction) 型音声符号化装置などに関する。背景技術

ディジ夕ル移動通信や音声蓄積の分野においては、電波や記憶媒体の有効利用のために音声情報を圧縮し、高能率で符号化するための音声符号化装置が用いられている。中でも CELP (Code Excited Linear Prediction：符号励振線形予測符号化）方式をベースにした方式が中 ·低ビットレートにおいて広く実用化されている。 CE LPの技術については、 M.R.Schroeder and B. S .Atal： "Code-Excited Linear Prediction (CELP)： Hiah-quality Speech at Very Low Bit Rates" , Proc . ICASSP-85, 25.1.1, pp.937-940, 1985" に示されている。

CE LP型音声符号化方式は、音声をある一定のフレーム長（ 5ms〜50 ms程度）に区切り、各フレーム毎に音声の線形予測を行い、フレーム毎の線形予測による予測残差（励振信号）を既知の波形からなる適応符号ベクトルと雑音符号べクトルを用いて符号化するものである。適応符号べクトルは過去に生成した駆動音源べクトルを格納している適応符号帳から、雑音符号べクトルは予め用意された定められた数の定められた形状を有するべクトルを格納している雑音符号帳から選択されて使用される。雑音符号帳に格納される雑音符号べクトルには、ランダムな雑音系列のべクトルや何本かのパルスを異なる位置に配置することによって生成されるべクトルなどが用いられる。

従来の C E L P符号化装置では、入力されたディジ夕ル信号を用いて L P C の分析 ·量子化とピッチ探索と雑音符号帳探索とゲイン符号帳探索とが行われ、量子化 L P C符号（L ) とピッチ周期（P ) と雑音符号帳インデックス（S ) とゲイン符号帳インデックス（G) とが復号器に伝送される。

しかしながら、上記従来の音声符号化装置においては、 1種類の雑音符号帳で有声音声や無声音声さらには背景雑音などについても対応しなければならず、これら全ての入力信号を高品質で符号化することは困難である。発明の開示

本発明の目的は、モード情報を新たに伝送することなしに音源符号化のマルチモード化を図ることができ、特に有声区間 Z無声区間の判定に加えて音声区間ノ非音声区間の判定を行うことも可能で、マルチモード化による符号化 Z復号化性能の改善度をより高めることを可能としたマルチモード音声符号化装置及び音声復号化装置を提供することである。

本発明の主題は、スぺクトル特性を表す量子化パラメ一夕の静的/動的特徴を用いたモード判定を行い、音声区間 Z非音声区間、有声区間/無声区間を示すモード判定結果に基づいて音源構成の切り替え及び後処理を行うことである。図面の簡単な説明

図 1は、本発明の実施の形態 1における音声符号化装置の構成を示すプロック図；

図 2は、本発明の実施の形態 2における音声復号化装置の構成を示すプロック図；

図 3は、本発明の実施の形態 1における音声符号化処理の流れを示すフローチヤ一ト；図 4は、本発明の実施の形態 2における音声復号化処理の流れを示すフローチャート；

図 5 Aは、本発明の実施の形態 3における音声信号送信装置の構成を示すブロック図；

図 5 Bは、本発明の実施の形態 3における音声信号受信装置の構成を示すブロック図；

図 6は、本発明の実施の形態 4におけるモード選択器の構成を示すプロック図；

図 7は、本発明の実施の形態 4におけるモード選択器の構成を示すプロック図；

図 8は、本発明の実施の形態 4における前段のモード選択処理の流れを示すフローチヤ一ト；

図 9は、本発明の実施の形態 5におけるビツチ探索の構成を示すプロック図；

図 1 0は、本発明の実施の形態 5におけるピッチ探索の探索範囲を示す図；図 1 1は、本発明の実施の形態 5におけるピッチ周期化ゲインの切り替え制御を行う構成を示す図；

図 1 2は、本発明の実施の形態 5におけるピッチ周期化ゲインの切り替え制御を行う構成を示す図；

図 1 3は、本発明の実施の形態 6における重みづけ処理を行う構成を示すブロック図；

図 1 4は、上記実施の形態において、ピッチ周期候補選択で重みづけ処理を行う場合のフローチヤ一ト；

図 1 5は、上記実施の形態において、ピッチ周期候補選択で重みづけ処理を行わない場合のフローチャート；

図 1 6は、本発明の実施の形態 7における音声符号化装置の構成を示すプロック図；図 1 7は、本発明の実施の形態 7における音声復号化装置の構成を示すプロック図；

図 1 8は、本発明の実施の形態 8における音声復号化装置の構成を示すプロック図；並びに

図 1 9は、上記実施の形態における音声復号化装置のモード判定器の構成を示すブロック図である。発明を実施するための最良の形態

以下、本発明の実施の形態について、添付図面を参照して詳細に説明する。 (実施の形態 1 )

図 1は、本発明の実施の形態 1に係る音声符号化装置の構成を示すプロック図である。ディジ夕ル化された音声信号などからなる入力データが前処理器 1 0 1に入力される。前処理器 1 0 1は、ハイパスフィル夕やバンドパスフィル夕などを用いて直流成分のカットや入力デー夕の帯域制限などを行って L P C分析器 1 0 2と加算器 1 0 6とに出力する。なお、この前処理器 1 0 1において何も処理を行わなくても後続する符号化処理は可能であるが、前述したような処理を行った方が符号化性能は向上する。なお、主観的な品質を劣化させずに、符号化し易い波形などに変換すること、例えばピッチ周期の操作ゃピッチ波形の補間処理など、も前処理として有効である。

L P C分析器 1 0 2は、線形予測分析を行って線形予測係数（ L P C ) を算出して L P C量子化器 1 0 3へ出力する。

L P C量子化器 1 0 3は、入力した L P Cを量子化し、量子化後の L P Cを合成フィルタ 1 0 4とモード選択器 1 0 5に、また、量子化 L P Cを表現する符号 Lを復号器に夫々出力する。なお、 L P Cの量子化は補間特性の良い L S P (Line Spectrum Pair：線スぺクトル対）に変換して行うのが一般的である。 L S P ¾ L S F (Line Spectrum Frequency：線スぺク卜ノレ周波数）で表されるのが一般的である。合成フィル夕 1 0 4は、入力した量子化 L P Cを用いて L P C合成フィル夕を構築する。この合成フィル夕に対して加算器 1 1 4から出力される駆動音源信号を入力としてフィル夕処理を行って合成信号を加算器 1 0 6に出力する。モード選択器 1 0 5は、 L P C量子化器 1 0 3から入力した量子化 L P Cを用いて雑音符号帳 1 0 9のモードを決定する。

ここで、モード選択器 1 0 5は、過去に入力した量子化 L P Cの情報も蓄積しており、フレーム間における量子化 L P Cの変動の特徴と現フレームにおける量子化 L P Cの特徴の双方を用いてモードの選択を行う。このモードは少なくとも 2種類以上あり、例えば有声音声部に対応するモ一ドと無声音声部及び定常雑音部などに対応するモードから成る。また、モードの選択に用いる情報は量子化 L P Cそのものである必要はなく、量子化 L S Pや反射係数や線形予測残差パヮなどのパラメ一夕に変換したものを用いた方が効果的である。 L P C量子化器 1 0 3が L S P量子化器を構成要素として持っている場合（L P C を L S Pに変換して量子化を行う場合）は、量子化 L S Pをモード選択器 1 0 5の入力パラメ一夕の一つとしても良い。

加算器 1 0 6は、前処理器 1 0 1から入力される前処理後の入力データと合成信号との誤差を算出し、聴覚重みづけフィル夕 1 0 7へ出力する。

聴覚重み付けフィル夕 1 0 7は、加算器 1 0 6において算出された誤差に対して聴覚的な重み付けを行って誤差最小化器 1 0 8へ出力する。

誤差最小化器 1 0 8は、雑音符号帳インデックスと適応符号帳インデックス (ピッチ周期）とゲイン符号帳ィンデックスとを調整しながら夫々雑音符号帳 1 0 9と適応符号帳 1 1 0とゲイン符号帳 1 1 1とに出力し、聴覚重み付けフィル夕 1 0 7から入力される聴覚的重み付けされた誤差が最小となるように雑音符号帳 1 0 9と適応符号帳 1 1 0とゲイン符号帳 1 1 1とが生成する雑音符号べクトルと適応符号べクトルと雑音符号帳ゲイン及び適応符号帳ゲインとを夫々決定し、雑音符号べクトルを表現する符号 Sと適応符号べクトルを表現する Pとゲイン情報を表現する符号 Gを夫々復号器に出力する。雑音符号帳 1 0 9は、予め定められた個数の形状の異なる雑音符号べクトルが格納されており、誤差最小化器 1 0 8から入力される雑音符号べクトルのィンデックス S iによって指定される雑音符号ベクトルを出力する。また、この雑音符号帳 1 0 9は少なくとも 2種類以上のモードを有しており、例えば有声音声部に対応するモードではよりパルス的な雑音符号べクトルを生成し、無声音声部や定常雑音部などに対応するモードではより雑音的な雑音符号べクトルを生成するような構造となっている。雑音符号帳 1 0 9から出力される雑音符号べクトルは前記 2種類以上のモードのうちモード選択器 1 0 5で選択された 1つのモードから生成され、乗算器 1 1 2で雑音符号帳ゲインが乗じられた後に加算器 1 1 4に出力される。

適応符号帳 1 1 0は、過去に生成した駆動音源信号を逐次更新しながらバッファリングしており、誤差最小化器 1 0 8から入力される適応符号帳インデックス（ピッチ周期（ピッチラグ）） P iを用いて適応符号ベクトルを生成する。適応符号帳 1 1 0にて生成された適応符号べクトルは乗算器 1 1 3で適応符号帳ゲインが乗じられた後に加算器 1 1 4に出力される。

ゲイン符号帳 1 1 1は、適応符号帳ゲインと雑音符号帳ゲインのセット（ゲインべクトル）を予め定められた個数だけ格納しており、誤差最小化器 1 0 8 から入力されるゲイン符号帳ィンデックス G iによって指定されるゲインべクトルの適応符号帳ゲイン成分を乗算器 1 1 3に、雑音符号帳ゲイン成分を乗算器 1 1 2に夫々出力する。なお、ゲイン符号帳は多段構成とすればゲイン符号帳に要するメモリ量やゲイン符号帳探索に要する演算量の削減が可能である。また、ゲイン符号帳に割り当てられるビット数が十分であれば、適応符号帳ゲインと雑音符号帳ゲインとを独立してスカラ量子化することもできる。また、複数のサブフレームの適応符号帳ゲインゃ雑音符号帳ゲインをまとめてベクトル量子化したりマトリックス量子化することも考えられる。

加算器 1 1 4は、乗算器 1 1 2及び 1 1 3から入力される雑音符号べクトルと適応符号べクトルの加算を行って駆動音源信号を生成し、合成フィル夕 1 0 4及び適応符号帳 1 1 0に出力する。

なお、本実施の形態においては、マルチモード化されているのは雑音符号帳 1 0 9のみであるが、適応符号帳 1 1 0及びゲイン符号帳 1 1 1をマルチモード化することによってさらに品質改善を行うことも可能である。

次に、図 3を参照して上記実施の形態における音声符号化方法の処理の流れを示す。本説明においては、音声符号化処理を予め定められた時間長の処理単位（フレーム：時間長にして数十ミリ秒、程度）毎に処理を行い、 1フレームをさらに整数個の短い処理単位（サブフレーム）毎に処理を行う例を示す。ステップ（以下、 S Tと省略する） 3 0 1において、適応符号帳の内容、合成フィル夕メモリ、入力バッファなどの全てのメモリをクリアする。

次に、 S T 3 0 2においてディジタル化された音声信号などの入力デ一夕を 1フレーム分入力し、ハイパスフィル夕またはバンドバスフィル夕などをかけることによって入力データのオフセット除去や帯域制限を行う。前処理後の入カデ一夕は入力バッファにバッファリングされ、以降の符号化処理に用いられる。

次に、 S T 3 0 3において、 L P C分析（線形予測分析）が行われ、 L P C 係数（線形予測係数）が算出される。

次に、 S T 3 0 4において、 S T 3 0 3にて算出された L P C係数の量子化が行われる。 L P C係数の量子化方法は種々提案されているが、補間特性の良い L S Pパラメ一夕に変換して多段べクトル量子化やフレーム間相関を利用した予測量子化を適用すると効率的に量子化できる。また、例えば 1フレームが 2つのサブフレームに分割されて処理される場合には、第 2サブフレームの L P C係数を量子化して、第 1サブフレームの L P C係数は直前フレームにおける第 2サブフレームの量子化 L P C係数と現フレームにおける第 2サブフレームの量子化 L P C係数とを用いて補間処理によって決定する。

次に、 S T 3 0 5において、前処理後の入力データに聴覚重みづけを行う聴覚重みづけフィル夕を構築する。次に、 S T 3 0 6において、駆動音源信号から聴覚重み付け領域の合成信号を生成する聴覚重み付け合成フィル夕を構築する。このフィル夕は、合成フィル夕と聴覚重み付けフィル夕とを従属接続したフィル夕であり、合成フィル夕は S T 3 0 4にて量子化された量子化 L P C係数を用いて構築され、聴覚重み付けフィル夕は S T 3 0 3において算出された L P C係数を用いて構築される o

次に、 S T 3 0 7において、モードの選択が行われる。モードの選択は S T 3 0 4において量子化された量子化 L P C係数の動的及び静的特徴を用いて行われる。具体的には、量子化 L S Pの変動や量子化 L P C係数から算出される反射係数や予測残差パヮなどを用いる。本ステップにおいて選択されたモ一ドに従って雑音符号帳の探索が行われる。本ステップにおいて選択されるモードは少なくとも 2種類以上あり、例えば有声音声モードと無声音声及び定常雑音モードの 2モード構成などが考えられる。

次に、 S T 3 0 8において、適応符号帳の探索が行われる。適応符号帳の探索は、前処理後の入力デ一夕に聴覚重みづけを行った波形に最も近くなるような聴覚重みづけ合成波形が生成される適応符号べクトルを探索することであり、前処理後の入力データを S T 3 0 5で構築された聴覚重み付けフィル夕でフィル夕リングした信号と適応符号帳から切り出した適応符号べクトルを駆動音源信号として S T 3 0 6で構築された聴覚重み付け合成フィル夕でフィル夕リングした信号との誤差が最小となるように、適応符号ベクトルを切り出す位置を決定する。

次に、 S T 3 0 9において、雑音符号帳の探索が行われる。雑音符号帳の探索は、前処理後の入力データに聴覚重みづけを行った波形に最も近くなるような聴覚重みづけ合成波形が生成される駆動音源信号を生成する雑音符号べクトルを選択することであり、駆動音源信号が適応符号べクトルと雑音符号べクトルとを加算して生成されることを考慮した探索が行われる。したがって、既に S T 3 0 8にて決定された適応符号べクトルと雑音符号帳に格納されている雑音符号べクトルとを加算して駆動音源信号を生成し、生成された駆動音源信号を S T 3 0 6で構築された聴覚重みづけ合成フィル夕でフィル夕リングした信号と前処理後の入力データを S T 3 0 5で構築された聴覚重みづけフィル夕でフィル夕リングした信号との誤差が最小となるように、雑音符号帳の中から雑音符号べクトルを選択する。

なお、雑音符号ベクトルに対してピッチ周期化などの処理を行う場合は、その処理も考慮した探索が行われる。また、この雑音符号帳は少なくとも 2種類以上のモードを有しており、例えば有声音声部に対応するモードではよりノレス的な雑音符号べクトルを格納している雑音符号帳を用いて探索が行われ、無声音声部や定常雑音部などに対応するモードではより雑音的な雑音符号べクトルを格納している雑音符号帳を用いて探索が行われる。探索時にどのモ一ドの雑音符号帳を用いるかは、 S T 3 0 7にて選択される。

次に、 S Τ 3 1 0において、ゲイン符号帳の探索が行われる。ゲイン符号帳の探索は、既に S Τ 3 0 8にて決定された適応符号ぺクトルと S Τ 3 0 9にて決定された雑音符号べクトルのそれそれに対して乗じる適応符号帳ゲインと雑音符号帳ゲインの組をゲイン符号帳の中から選択することであり、適応符号帳ゲイン乗算後の適応符号べクトルと雑音符号ゲイン乗算後の雑音符号べクトルとを加算して駆動音源信号を生成し、生成した駆動音源信号を S T 3 0 6 にて構築された聴覚重みづけ合成フィル夕でフィル夕リングした信号と前処理後の入力データを S T 3 0 5で構築された聴覚重みづけフィル夕でフィル夕リングした信号との誤差が最小となるような適応符号帳ゲインと雑音符号帳ゲインの組をゲイン符号帳の中から選択する。

次に、 S T 3 1 1において、駆動音源信号が生成される。駆動音源信号は、

S Τ 3 0 8にて選択された適応符号べクトルに S Τ 3 1 0にて選択された適応符号帳ゲインを乗じたベクトルと、 S T 3 0 9にて選択された雑音符号べクトルに S T 3 1 0において選択された雑音符号帳ゲインを乗じたべクトルと、を加算して生成される。次に、 ST312において、サブフレーム処理のループで用いられるメモリの更新が行われる。具体的には、適応符号帳の更新や聴覚重みづけフィル夕及び聴覚重みづけ合成フィル夕の状態更新などが行われる。

なお、適応符号帳ゲインと固定符号帳ゲインとを別々に量子化する場合は、 S T 308の直後に適応符号帳ゲインの量子化を行い、 S T 309の直後に雑音符号帳ゲインの量子化を行うのが一般的である。

上記 ST 305〜312はサブフレーム単位の処理である。

次に、 ST 313において、フレーム処理のループで用いられるメモリの更新が行われる。具体的には、前処理器で用いられるフィル夕の状態更新や量子ィ匕 L P C係数バッファの更新や入力デ一夕バッファの更新などが行われる。次に、 ST314において、符号化デ一夕の出力が行われる。符号化データは伝送される形態に応じてビットストリーム化や多重化処理などが行われて伝送路に送出される。

上記 ST 302〜304及び 313〜314がフレーム単位の処理である。また、フレーム単位及びサブフレーム単位の処理は入力デ一夕がなくなるまで繰り返し行われる。

(実施の形態 2)

図 2に本発明の実施の形態 2にかかる音声復号化装置の構成を示す。

符号器から伝送された、量子化 LP Cを表現する符号 Lと雑音符号べクトルを表現する符号 Sと適応符号べクトルを表現する符号 Pとゲイン情報を表現する符号 Gとが、それそれ LP C復号器 201と雑音符号帳 203と適応符号帳 204とゲイン符号帳 205とに入力される。

L PC復号器 201は、符号 Lから量子化 LP Cを復号し、モード選択器 2

02と合成フィル夕 209に夫々出力する。

モード選択器 202は、 LPC復号器 201から入力した量子化 LPCを用いて雑音符号帳 203及び後処理器 2 1 1のモードを決定し、モード情報 Mを雑音符号帳 203及び後処理器 21 1とに夫々出力する。また、モード選択器 2◦ 2は、 L P C復号器 2 0 1から出力された量子化 L S Pパラメ一夕を用いて定常雑音区間の平均的 L S P ( L S P n ) を求め、この L S P nを後処理器 2 1 1に対して出力する。なお、モード選択器 2 0 2は過去に入力した量子化 L P Cの情報も蓄積しており、フレーム間における量子化 L P Cの変動の特徴と現フレームにおける量子化 L P Cの特徴の双方を用いてモードの選択を行う。このモードは少なくとも 2種類以上あり、例えば有声音声部に対応するモ一ドと無声音声部に対応するモードと定常雑音部などに対応するモードから成る。また、モードの選択に用いる情報は量子化 L P Cそのものである必要はなく、量子化 L S Pや反射係数や線形予測残差パヮなどのパラメ一夕に変換したものを用いた方が効果的である。 L P C復号器 2 0 1が L S P復号器を構成要素として持っている場合（ L P Cを L S Pに変換して量子化が行なわれている場合）は、復号 L S Pをモード選択器 1 0 5の入力パラメ一夕の一つとしても良い。

雑音符号帳 2 0 3は、予め定められた個数の、形状の異なる雑音符号べクトルが格納されており、入力した符号 Sを復号して得られる雑音符号帳インデックスによって指定される雑音符号ベクトルを出力する。また、この雑音符号帳 2 0 3は少なくとも 2種類以上のモードを有しており、例えば有声音声部に対応するモードではよりパルス的な雑音符号べクトルを生成し、無声音声部ゃ定常雑音部などに対応するモードではより雑音的な雑音符号べクトルを生成するような構造となっている。雑音符号帳 2 0 3から出力される雑音符号べクトルは前記 2種類以上のモードのうちモード選択器 2 0 2で選択された 1つのモードから生成され、乗算器 2 0 6で雑音符号帳ゲイン G sが乗じられた後に加算器 2 0 8に出力される。

適応符号帳 2 0 4は、過去に生成した駆動音源信号を逐次更新しながらバッファリングしており、入力した符号 Pを復号して得られる適応符号帳インデックス（ピッチ周期（ピッチラグ））を用いて適応符号ベクトルを生成する。適応符号帳 2 0 4にて生成された適応符号べクトルは乗算器 2 0 7で適応符号帳ゲイン Gaが乗じられた後に加算器 2 0 8に出力される。

ゲイン符号帳 2 0 5は、適応符号帳ゲインと雑音符号帳ゲインのセット（ゲインベクトル）を予め定められた個数だけ格納しており、入力した符号 Gを復号して得られるゲイン符号帳ィンデックスによって指定されるゲインべクトルの適応符号帳ゲイン成分を乗算器 2 0 7に、雑音符号帳ゲイン成分を乗算器 2 0 6に夫々出力する。

加算器 2 0 8は、乗算器 2 0 6及び 2 0 7から入力される雑音符号べクトルと適応符号べクトルの加算を行って駆動音源信号を生成し、合成フィル夕 2 0 9及び適応符号帳 2 0 4に出力する。

合成フィル夕 2 0 9は、入力した量子化 L P Cを用いて L P C合成フィル夕を構築する。この合成フィル夕に対して加算器 2 0 8から出力される駆動音源信号を入力としてフィル夕処理を行って合成信号をボストフィル夕 2 1 0に出力する。

ボストフィル夕 2 1 0は、合成フィル夕 2 0 9から入力した合成信号に対して、ピッチ強調、ホルマント強調、スペクトル傾斜補正、ゲイン調整などの音声信号の主観的品質を改善させるための処理を行い、後処理器 2 1 1に出力する。

後処理器 2 1 1は、ポストフィル夕 2 1 0から入力した信号に対して、擬似的に定常雑音を生成して重畳することにより、主観品質を改善する。この処理は、モード選択器 2 0 2から入力されるモ一ド情報 M及び雑音区間の平均的 L S P ( L S P n ) を利用して適応的に行う。具体的な後処理については後述する。

なお、本実施の形態においては、モード選択器 2 0 2から出力されるモード情報 Mは、雑音符号帳 2 0 3のモード切替と後処理器 2 1 1の双方で用いられる構成としたが、どちらか一方のみに用いても効果が得られる。

次に、図 4を参照して上記実施の形態における音声復号化方法の処理の流れを示す。本説明においては、音声符号化処理を予め定められた時間長の処理単位（フレーム：時間長にして数十ミリ秒程度）毎に処理を行い、 1フレームをさら整数個の短い処理単位（サブフレーム）毎に処理を行う例を示す。

S T 4 0 1において、適応符号帳の内容、合成フィル夕メモリ、出力バッファなどの全てのメモリをクリァする。

次に、 S T 4 0 2において、符号化データが復号される。具体的には、多重化されている受信信号の分離化ゃビットストリーム化されている受信信号を量子化 L P C係数と適応符号べクトルと雑音符号べクトルとゲイン情報とを夫々表現する符号に夫々変換する。

次に、 S T 4 0 3において、 L P C係数を復号する。 L P C係数は、 S T 4 0 2にて得られた量子化 L P C係数を表現する符号から、実施の形態 1に示した L P C係数の量子化方法の逆の手順によって復号される。

次に、 S T 4 0 4において、 S T 4 0 3にて復号された L P C係数を用いて合成フィル夕が構築される。

次に、 S T 4 0 5において、 S T 4 0 3にて復号された L P C係数の静的及び動的特徴を用いて、雑音符号帳及び後処理のモード選択が行われる。具体的には、量子化 L S Pの変動や量子化 L P C係数から算出される反射係数や予測残差パヮなどを用いる。本ステップにおいて選択されたモ一ドに従って雑音符号帳の復号及び後処理が行われる。このモードは少なくとも 2種類以上あり、例えば有声音声部に対応するモードと無声音声部に対応するモードと定常雑音部などに対応するモードとから成る。

次に、 S T 4 0 6において、適応符号べクトルが復号される。適応符号べクトルは、適応符号べクトルを表現する符号から適応符号べクトルを適応符号帳から切り出す位置を復号してその位置から適応符号べクトルを切り出すことによって、復号される。

次に、 S T 4 0 7において、雑音符号べクトルが復号される。雑音符号べクトルは、雑音符号べクトルを表現する符号から雑音符号帳インデックスを復号してそのィンデックスに対応する雑音符号べクトルを雑音符号帳から取り出すことによって、復号される。雑音符号べクトルのピッチ周期化などを適用する際は、さらにピッチ周期化などを行った後のものが復号雑音符号べクトルとなる。また、この雑音符号帳は少なくとも 2種類以上のモードを有しており、例えば有声音声部に対応するモードではよりパルス的な雑音符号べクトルを生成し、無声音声部や定常雑音部などに対応するモードではより雑音的な雑音符号べクトルを生成するようになっている。

次に、 S T 4 0 8において、適応符号帳ゲインと雑音符号帳ゲインが復号される。ゲイン情報を表す符号からゲイン符号帳ィンデックスを復号してこのィンデックスで示される適応符号帳ゲインと雑音符号帳ゲインの組をゲイン符号帳の中から取り出すことによって、ゲイン情報が復号される。

次に、 S T 4 0 9において、駆動音源信号が生成される。駆動音源信号は、 S T 4 0 6にて選択された適応符号べクトルに S T 4 0 8にて選択された適応符号帳ゲインを乗じたべクトルと、 S T 4 0 7にて選択された雑音符号べクトルに S T 4 0 8において選択された雑音符号帳ゲインを乗じたべクトルと、を加算して生成される。

次に、 S T 4 1 0において、復号信号が合成される。 S T 4 0 9にて生成された駆動音源信号を、 S T 4 0 4にて構築された合成フィル夕でフィル夕リングすることによって、復号信号が合成される。

次に、 S T 4 1 1において、復号信号に対してポストフィル夕処理が行われる。ポストフィル夕処理は、ピッチ強調処理やホルマント強調処理ゃスぺクトル傾斜補正処理やゲイン調整処理などの復号信号特に復号音声信号の主観的品質を改善するための処理から成っている。

次に、 S T 4 1 2において、ポストフィル夕処理後の復号信号に対して最終的な後処理が行われる。この後処理については、 S T 4 0 5にて選択されたモードに対応したものであり、詳細については後述する。本ステップで生成される信号が出力データとなる。

次に、 S T 4 1 3において、サブフレーム処理のループで用いられるメモリの更新が行われる。具体的には、適応符号帳の更新やポストフィル夕処理に含まれる各フィル夕の状態更新などが行われる。

上記 S T 4 0 4〜4 1 3はサブフレーム単位の処理である。

次に、 S T 4 1 4において、フレーム処理のループで用いられるメモリの更新が行われる。具体的には、量子化（復号） L P C係数バッファの更新や出力デ—夕バッファの更新などが行われる。

上記 S T 4 0 2〜4 0 3及び 4 1 4はフレーム単位の処理である。また、フレーム単位の処理は符号化データがなくなるまで繰り返し行われる。

(実施の形態 3 )

図 5は実施の形態 1の音声符号化装置または実施の形態 2の音声復号化装置を備えた音声信号送信機及び受信機を示したプロック図である。図 5 Aは送信機、図 5 Bは受信機を示す。

図 5 Aの音声信号送信機では、音声が音声入力装置 5 0 1によって電気的ァナログ信号に変換され、 AZD変換器 5 0 2に出力される。アナログ音声信号は A/D変換器 5 0 2によってディジ夕ル音声信号に変換され、音声符号化器 5 0 3に出力される。音声符号化器 5 0 3は音声符号化処理を行い、符号化した情報を R F変調器 5 0 4に出力する。 R F変調器は符号化された音声信号の情報を変調 ·増幅 ·符号拡散などの電波として送出するための操作を行い、送信アンテナ 5 0 5に出力する。最後に送信アンテナ 5 0 5から電波（R F信号） 5 0 6が送出される。

一方、図 5 Bの受信機においては、電波（R F信号） 5 0 6を受信アンテナ 5 0 7で受信し、受信信号は R F復調器 5 0 8に送られる。 R F復調器 5 0 8 は符号逆拡散 ·復調など電波信号を符号化情報に変換するための処理を行い、符号化情報を音声復号化器 5 0 9に出力する。音声復号化器 5 0 9は、符号化情報の復号処理を行ってディジ夕ル復号音声信号を D /A変換器 5 1 0へ出力する。 D/A変換器 5 1 0は音声復号化器 5 0 9から出力されたディジタル復号音声信号をアナログ復号音声信号に変換して音声出力装置 5 1 1に出力する。最後に音声出力装置 51 1が電気的アナログ復号音声信号を復号音声に変換して出力する。

上記送信装置及び受信装置は携帯電話などの移動通信機器の移動機または基地局装置として利用することが可能である。なお、情報を伝送する媒体は本実施の形態に示したような電波に限らず、光信号などを利用することも可能であり、さらには有線の伝送路を使用することも可能である。

なお、上記実施の形態 1に示した音声符号化装置及び上記実施の形態 2に示した音声復号化装置及び上記実施の形態 3に示した送信装置及び送受信装置は、磁気ディスク、光磁気ディスク、 ROMカートリッジなどの記録媒体にソフトウェアとして記録して実現することも可能であり、その記録媒体を使用することにより、このような記録媒体を使用するパーソナルコンピュータなどにより音声符号化装置ノ復号化装置及び送信装置 Z受信装置を実現するとができる。

(実施の形態 4)

実施の形態 4は、上述した実施の形態 1、 2におけるモード選択器 105、 202の構成例を示した例である。

図 6に実施の形態 4にかかるモード選択器の構成を示す。

本実施の形態にかかるモード選択器では、平滑化部 601に現在の量子化 L SPパラメ一夕を入力して平滑化処理を行う。平滑化部 601では、処理単位時間毎に入力される各次の量子化 L S Pパラメ一夕を時系列デ一夕として式 ( 1) に示す平滑化処理を行う。

L s [i] = (l-a) xL s [i] + crxL[i], Ϊ=1,2,··',Μ、 0<ひ <1

… （ 1)

L s [i]_: i次の平滑化量子化 LSPパラメ一夕

L [i] ： i次の量子化 L SPパラメ一夕

a：平滑化係数

M： LSP分析次数なお、式（ 1) において、ひの値は 0. 7程度に設定し、それほど強い平滑化にならないようにする。上記式（ 1) で求めた平滑化した量子化 LSPパラメータは、遅延部 602を経由して加算器 6 1 1へ入力されると共に、直接加算器 61 1へ入力される。遅延部 602は、入力した平滑化した量子化 LSP パラメ一夕を 1処理単位時間だけ遅延させて加算器 6 1 1に出力する。

加算器 6 1 1には、現在の処理単位時間における平滑化された量子化 LSP パラメ一夕と 1つ前の処理単位時間における平滑化された量子化 L S Pパラメータとが入力される。この加算器 6 1 1において、現在の処理単位時間における平滑化量子化 L S Pパラメ一夕と 1つ前の処理単位時間における平滑化量子化 L S Pパラメ一夕との差を算出する。この差は L S Pパラメ一夕の各次数毎に算出される。加算器 606による算出結果は自乗和算出部 603に出力する。

自乗和算出部 603は、現在の処理単位時間における平滑化された量子化 L

5 Pパラメ一夕と 1つ前の処理単位時間における平滑化された量子化 L S P パラメ一夕との次数毎の差の自乗和を計算する。これにより、第 1の動的パラメ一夕（Para 1) が得られる。この第 1の動的パラメ一夕をしきい値判定することにより音声区間であるかどうかを識別することができる。すなわち、第 1の動的パラメ一夕がしきい値 Th 1よりも大きい場合には音声区間と判定される。この判定は、後述するモード決定器 607において行う。

平均 L SP算出器 609は、平滑化部 60 1と同様に式（ 1 ) に基づいて雑音区間における平均的 LSPパラメ一夕を算出し、遅延器 612を介してカロ算器 610に出力する。ただし、式（ 1) におけるひは平均 L SP算出器制御器

608によって制御される。なお、ひの値は、 0. 05程度〜 0とし、極めて強い平滑化処理を行うことによって、平均的な LSPパラメ一夕を算出する。具体的には、音声区間ではひの値を 0として、音声区間以外の区間でのみ平均をとる（平滑化を行う）ようにすることなどが考えられる。

加算器 6 10は、現在の処理単位時間における量子化 LSPパラメ一夕と、平均 L S P算出器 6 0 9によって直前の処理単位時間において算出された雑音区間における平均的量子化 L S Pパラメ一夕との差を各次数毎に算出し、自乗値算出器 6 0 4に出力する。すなわち、後述するようにモード決定がなされた後、平均 L S P算出器 6 0 9で雑音区間の平均 L S Pが計算され、その雑音区間の平均 L S Pパラメ一夕が遅延器 6 1 2を介して 1処理単位時間遅延されて加算器 6 1 0で次の処理単位に用いられる。

自乗値算出器 6 0 4は、加算器 6 1 0から出力された量子化 L S Pパラメ一夕の差分情報を入力し、各次数の自乗値を算出して、総和算出器 6 0 5に出力すると共に、最大値算出器 6 0 6に出力する。

自乗和算出器 6 0 5では、各次数の自乗値を用いて自乗和を算出する。この自乗和が第 2の動的パラメ一夕（Para 2 ) となる。この第 2の動的パラメ一夕をしきい値判定することにより音声区間であるかどうかを識別することができる。すなわち、第 2の動的パラメ一夕がしきい値 T h 2よりも大きい場合には音声区間と判定される。この判定は、後述するモード決定器 6 0 7において行う。

また、最大値算出器 6 0 6では、各次の自乗値のうち最大値を選択する。この最大値が第 3の動的パラメ一夕（Para 3 ) となる。この第 3の動的パラメ一夕をしきい値判定することにより音声区間であるかどうかを識別することができる。すなわち、第 3の動的パラメ一夕がしきい値 T h 3よりも大きい場合には音声区間と判定される。この判定は、後述するモード決定器 6 0 7において行う。この第 3のパラメ一夕を用いたしきい値判定は、全次数の自乗誤差を平均化することにより埋もれてしまう変化を検出してより正確に音声区間であるかどうかを判定するために行う。

例えば、複数の自乗和の結果のうち、ほとんどの結果がしきい値を超えなく、 1つや 2つの結果がしきい値を超える場合、平均化した結果についてしきい値判定を行うと、平均化した結果がしきい値を超えなくなってしまい、音声区間と判定されなくなってしまうことがある。上記のように第 3の動的パラメ一夕を用いてしきい値判定を行うことにより、ほとんどの結果がしきい値を超えなく、 1つや 2つの結果がしきい値を超える場合においても、最大値でしきい値判定を行うので、より正確に音声区間と判定することができる。

上述した第 1から第 3の動的パラメ一夕は、モード決定器 607に送られ、上記しきい値判定により、音声モードが決定され、モード情報として出力される。また、このモード情報は、平均 LSP算出器制御器 608に送られる。平均 LSP算出器制御器 608では、モード情報にしたがって、平均 LSP算出器 609を制御する。

具体的に、平均 LSP算出器 609を制御する場合、式（ 1) のひの値を 0 〜0. 05程度の範囲で切換えて、平滑化の強さを切換える。最も簡単な例では、音声モードではひ =0として平滑化処理を OFFとし、非音声（定常雑音）モードでは《=0. 05程度として強い平滑化処理によって定常雑音区間の平均 LSPの算出が行われるようにする。なお、 L SPの各次数毎にひの値を制御することも考えられ、この場合は音声モードにおいても一部（例えば特定の周波数帯域に含まれる次数）の LSPを更新すること等が考えられる。

図 7は、上記構成を含むモード判定器の構成を示すブロック図である。

このモード判定器は、量子化 L S Pパラメ一夕の動的特徴を抽出する動的特徴抽出部 701と、量子化 LSPパラメ一夕の静的特徴を抽出する静的特徴抽出部 702とを備える。動的特徴抽出部 701は、図 6において、平滑化部 6 01から遅延器 612までの部分によって構成される。

静的特徴量抽出部 702は、正規化予測残差パヮ算出部 704において量子化 LSPパラメ一夕から予測残差パヮを算出する。この予測残差パヮは、モード決定器 607に与えられる。

また、隣接 LSP間隔算出部 705において、式（2) に示すように量子化 LSPパラメ一夕の隣接する次数毎に間隔を算出する。

Ld[i]=L[i+l]-L[i] , ί=1,2,···Μ-1 … ( 2 )

LTi] ： i次の量子化 L SPパラメ一夕隣接 LSP間隔算出部 705の算出値はモード決定器 607へ与えられる。スぺクトル傾斜算出部 703は、量子化 L SPパラメ一夕を用いてスぺクトル傾斜情報を算出する。具体的に、スペクトル傾斜を表すパラメ一夕としては、 1次の反射係数が利用可能である。反射係数と線形予測係数（LPC) との間には Levinson-Durbin のアルゴリズムを用いれば互いに変換可能な関係があるので、量子化 LP Cから 1次の反射係数を求めることができ、これをスぺクトル傾斜情報として用いる。なお、正規化予測残差パヮ算出部 704においても量子化 LP Cから Levinson- Durbin のアルゴリズムを用いて正規化予測残差パヮを算出する。すなわち、反射係数も正規化予測残差パヮも同じアルゴリズムを用いて量子化 LP Cから同時に求められる。このスペクトル傾斜情報は、モード決定器 607に与えられる。

以上のスぺクトル傾斜算出部 703〜隣接 LSP間隔算出部 705の要素によって、量子化 LSPパラメ一夕の静的特徴量算出部 702が構成される。動的特徴量算出部 701及び静的特徴量算出部 702の出力は、モード決定器 607へ与えられる。自乗和算出器 603から平滑化量子化 L SPパラメ一夕の変動量を入力し、自乗和算出器 605から雑音区間の平均的量子化 LSP パラメ一夕と現在の量子化 L SPパラメ一夕との距離を入力し、最大値算出器 606から雑音区間の量子化 L S Pパラメ一夕と現在の量子化 L S Pパラメ —夕との距離の最大値を入力し、正規化予測残差パヮ算出部 704から量子化予測残差パヮを入力し、隣接 LSP間隔算出部 705から隣接 LSP間隔デー夕のスぺクトル傾斜情報を入力し、スぺクトル傾斜算出部 703から分散情報を入力するする。そして、これらの情報を用いて、現在の処理単位時間における入力信号（又は復号信号）が音声区間であるか否かのモードを決定する。より具体的な音声区間か否かの判定方法は、図 8を用いて後述する。

次に、図 8を参照して、上記実施の形態における音声区間判定方法の詳細について説明する。

まず、 ST801において、第 1の動的パラメ一夕（Paral) を算出する。第 1の動的パラメ一夕の具体的内容は、処理単位時間毎の量子化 L SPパラメ一夕の変動量であり、式（3) に示される。

2

0( = ^ (LSi(t)-LSi(t-l))

(3)

S/ ：時刻（サフ 'フレーム） /(こおける平滑化量子化厶

ST 802において、第 1の動的パラメ一夕が予め定めてある閾値 Th 1より大きいかどうかをチェックする。閾値 Th 1を越えている場合は、量子化 L SPパラメ一夕の変動量が大きいので、音声区間であると判定する。一方、閾値 T h i以下の場合は、量子化 LSPパラメ一夕の変動量が小さいので、 ST 803に進み、さらに別のパラメ一夕を用いた判定処理のステップに進んでゆく。

ST 802において、第 1の動的パラメ一夕が閾値 Th 1以下の場合は、 S T 803に進んで、過去にどれだけ定常雑音区間と判定されたかを示すカウン夕一の数をチェックする。カウン夕一は初期値が 0で、本モード判定方法によつて定常雑音区間であると判定された処理単位時間毎に 1ずつインクリメン卜される。 ST 803において、カウン夕一の数が、予め設定されている閾値 ThC以下の場合は、 ST 804に進み、静的パラメ一夕を用いて音声区間か否かの判定を行う。一方、閾値 ThCを越えている場合は、 ST 806に進み、第 2の動的パラメ一夕を用いて音声区間か否かの判定を行う。

ST 804では 2種類のパラメ一夕を算出する。一つは量子化 LSPパラメ —夕から算出される線形予測残差パヮであり（Para4) 、もう一つは量子化 L SPパラメ一夕の隣接次数の差分情報の分散である（Para5) 。

線形予測残差パヮは、量子化 L S Pパラメ一夕を線形予測係数に変換し、 Levinson-Durbinのアルゴリズムにある関係式を用いることにより、求めることができる。線形予測残差パヮは有声部より無声部の方が大きくなる傾向が知られているので、有声/無声の判定基準として利用できる。量子化 LSPパラメ一夕の隣接次数の差分情報は式（2) に示したもので、これらのデータの分散を求める。ただし、雑音の種類や帯域制限のかけかたによっては、低域にスぺクトルの山（ピーク）が存在し易くなるので、低域端の隣接次数の差分情報（式（2) において、 i= 1) は用いずに、式（2) において、 i = 2から M— 1 (Mは分析次数）までのデ一夕を用いて分散を求めた方が雑音区間と音声区間とを分類し易くなる。音声信号においては、電話帯域（200 Hz〜3. 4 kHz) 内に 3つ程度のホルマントを持っため、 LSPの間隔が狭い部分と広い部分がいくつかあり、間隔のデータの分散が大きくなる傾向がある。

一方、定常ノイズでは、ホルマント構造を持たないため、 LSPは比較的等間隔になりやすく、前記分散は小さくなる傾向がある。この性質を利用して、音声区間か否かの判定を行うことが可能である。ただし、前述のように雑音の種類や伝送路の周波数特性などによっては、低域にスペクトルの山（ピーク）をもつ場合があり、この様な場合は最も低域側の L S P間隔が狭くなるので、全ての隣接 LSP差分データを用いて分散を求めると、ホルマント構造の有無による差が小さくなり、判定精度が低くなる。

したがって、低域端の隣接 LSP差分情報を除いて分散を求めることによつて、この様な精度劣化を回避する。ただし、この様な静的パラメ一夕は、動的パラメ一夕に比べると判定能力が低いので、補助的な情報として用いるのが良い。 ST 804にて算出された 2種類のパラメ一夕は ST 805で用いられる。次に、 ST 805において、 ST 804にて算出された 2種類のパラメ一夕を用いた閾値処理が行われる。具体的には線形予測残差パヮ（Para4) が閾値 Th4より小さく、かつ、隣接 LSP間隔データの分散（Para5) が閾値 Th 5より大きい場合に、音声区間と判定する。それ以外の場合は、定常雑音区間 (非音声区間）と判定する。定常雑音区間と判定された場合は、カウンターの値を 1インクリメントする。

ST 806においては、第 2の動的パラメ一夕（Para2) が算出される。第 2の動的パラメ一夕は過去の定常雑音区間における平均的な量子化 L S Pパラメ一夕と現在の処理単位時間における量子化 LSPパラメ一夕との類似度を示すパラメ一夕であり、具体的には式（4) に示したように、前記 2種類の量子化 L SPパラメ一夕を用いて各次数毎に差分値を求め、自乗和を求めたものである。求められた第 2の動的パラメ一夕は、 ST 807にて閾値処理に用いられる。

(4) ム /丫：時刻（サフ 'フレ-ム） ί(こおける量子化 /:雑音区間の平均量子化

次に、 ST 807において、第 2の動的パラメ一夕が閾値 Th 2を越えているかどうかの判定が行われる。閾値 Th 2を越えていれば、過去の定常雑音区間における平均的な量子化 L SPパラメ一夕との類似度が低いので、音声区間と判定し、閾値 Th 2以下であれば、過去の定常雑音区間における平均的な量子化 LSPパラメ一夕との類似度が高いので、定常雑音区間と判定する。定常雑音区間と判定された場合は、カウン夕一の値をインクリメントする。

ST 808においては、第 3の動的パラメ一夕（Para3) が算出される。第 3の動的パラメ一夕は、第 2の動的パラメ一夕を用いた判定では判定しにくい、すなわち量子化 L S Pの差の自乗和だけでは判定されないが、平均的量子化 L SPに対して有意な差を持つ次数を検出するためのパラメ一夕であり、具体的には式（5) に示したように、各次数の量子化 L SPパラメ一夕の最大値を求めたものである。求められた第 3の動的パラメ一夕は、 ST 808にて閾値処理に用いられる。 2

E(t) =max [ ( Li( -LAi) } i=1. 2....... M

(5) ム /' ノ:時刻（サフ 'フレーム) tにおける量子化/ 雑音区間の平均量子化

ただし、 MiLSPi^PCの分析次数

次に、 S T 8 0 8において、第 3の動的パラメ一夕が閾値 T h 3を越えているかどうかの判定が行われる。閾値 T h 3を越えていれば、過去の定常雑音区間における平均的な量子化 L S Pパラメ一夕との類似度が低いので、音声区間と判定し、閾値 T h 3以下であれば、過去の定常雑音区間における平均的な量子化 L S Pパラメ一夕との類似度が高いので、定常雑音区間と判定する。定常雑音区間と判定された場合は、カウン夕一の値をインクリメントする。

本発明者は、第 1及び第 2の動的パラメ一夕を用いた判定だけではモード判定誤りが生じることについて、モード判定誤りの原因が、雑音区間の平均的量子化 L S Pと当該部所における量子化 L S Pとが非常に近い値を示しており、かつ当該部所における量子化 L S Pの変動が非常に小さかったことを見出した。ただし、ある特定の次数における量子化 L S Pに着目すると、雑音区間の平均的量子化 L S Pと当該部所における量子化 L S Pとで有意な差があったことから、上述したように、第 3の動的パラメ一夕を用いて、全次数の量子化 L S Pの差（雑音区間の平均的量子化 L S Pと当該サブフレームにおける量子化 L S Pとの差）の自乗和だけでなく、各次数毎の量子化 L S Pの差を求め、 1つの次数においてだけでも差が大きいものが認められた場合は音声区間と判定するようにしている。

これにより、雑音区間の平均的量子化 L S Pと当該部所における量子化 L S Pとが非常に近い値を示しており、かつ当該部所における量子化 L S Pの変動が非常に小さい場合でも、より正確にモード判定を行うことができる。

本実施の形態においては、モ一ド判定の際に第 1から第 3の動的パラメ一夕をすベて用いてモード判定を行う場合について説明しているが、本発明においては、第 1の動的パラメ一夕と第 3の動的パラメ一夕を用いてモード判定を行うようにしても良い。

なお、符号器側で別途雑音区間を判定するアルゴリズムを備え、雑音区間と判定された区間では L S P量子化器の夕一ゲットとなる L S Pの平滑化を行うことにより、量子化 L S Pの変動が非常に小さくなるようにする構成と組み合わせて用いれば、本モード判定の精度をさらに改善することも可能である。

(実施の形態 5 )

本実施の形態では、モードに応じて適応符号帳探索範囲を設定する場合について説明する。

図 9は、本実施の形態に係るピッチ探索を行う構成を示すブロック図である c この構成においては、モード情報に応じて探索範囲を決定する探索範囲決定部 9 0 1と、決定された探索範囲において夕一ゲットべクトルを用いてピッチ探索を行うピッチ探索部 9 0 2と、探索されたピッチを用いて適応符号帳 9 0 3 から適応符号べクトルを生成する適応符号べクトル生成部 9 0 5と、適応符号べクトルと夕ーゲットべクトルとピッチ情報とを用いて雑音符号帳を探索する雑音符号帳探索部 9 0 6と、探索された雑音符号帳べクトルとピッチ情報とを用いて雑音適応符号帳 9 0 4から雑音符号べクトルを生成する雑音符号べクトル生成部 9 0 7とを含む。

次に、この構成を用いてピッチ探索を行う場合について説明する。まず、実施の形態 4に記載したようにしてモード判定が行われた後、モード情報が探索範囲決定部 9 0 1に入力される。探索範囲決定部 9 0 1では、モード情報に基づいてピッチ探索の範囲を決定する。

具体的には、定常雑音モード（又は定常雑音モードと無声モード）では、ピツチ探索範囲をサブフレーム長以上（すなわち、サブフレーム以上過去に溯るよう）に設定し、それ以外のモードでは、ピッチ探索範囲をサブフレーム長以下も含むようにする。これにより、定常雑音区間におけるサブフレーム内で周期化が起こることを防止する。本発明者は、以下の理由によりモード情報に基づくピッチ探索範囲を限定することが雑音符号帳の構成において好ましいことを見出した。

常に固定のピッチ周期化を適用する雑音符号帳を構成する際、ランダム符号帳（雑音的な符号帳）率を 1 0 0 %に上げても swirling あるいは water falling歪みと呼ばれる類の符号化歪みが強く残ることが確認された。この swirling 歪みについては、 1 ^えば T . Wigren ら： " Improvements of Background Sound Coding in Linear Predictive Speech Coders " , IEEE Proc . ICASSP ' 95 , pp25-28 など (こ示されてレヽるよう（こ、短期スぺクトル（合成フィル夕の周波数特性）の変動が原因であることが知られている。しかしながら、ピッチ周期化のモデルは周期性を持たない雑音信号を表現するのには適さないことは明らかであり、周期化による特有の歪みを生じている可能性が考えられる。このため、雑音符号帳の構成においてピッチ周期化の影響があるかどうかを調べた。雑音符号べクトルに対するピッチ周期化をなくした場合、適応符号ベクトルをオール 0にした場合、のそれぞれについて試聴した結果、どちらの場合も swirling歪みのような歪みが残ることが確認された。また、適応符号ベクトルをオール 0にし、かつ雑音符号ベクトルに対するピッチ周期化処理を外すと、前記歪みがかなり軽減されることが確認された。これらのことから、 1サブフレーム内でのビッチ周期化が少なからず前記歪みの原因になっていることが確認できた。

そこで、本発明者は、まず、雑音モードにおいては、適応符号ベクトルの生成において、ピッチ周期の探索範囲をサブフレーム長以上の部分のみに限定するようにした。これにより、 1サブフレーム内における周期性強調を避けることができる。

なお、このようなモード情報に応じて適応符号帳の一部のみを使用する制御、すなわち、定常雑音モードでピッチ周期の探索範囲を限定する制御を行うと、デコーダ側で定常雑音モードでピッチ周期が短いことを検出して、誤りを検出することも可能である。

図 1 0 ( a ) を用いて説明すると、モード情報が定常雑音モードである場合には、探索範囲はサブフレーム長（L ) 以上に限定した探索範囲②となり、モ一ド情報が定常雑音モード以外のモードである場合には、探索範囲はサブフレーム長未満範囲を含む探索範囲①となる（なお、図において、探索範囲の下限 (最も短いピッチラグ）は 0として図示されているが、 8 k H zサンプリングで 0〜2 0サンプル程度の範囲はピッチ周期としては短すぎるため一般的には探索せず、 1 5〜2 0サンプル以上の範囲を探索範囲①とする）。この探索範囲の切り替えは、探索範囲決定部 9 0 1において行う。

ピッチ探索部 9 0 2では、探索範囲決定部 9 0 1で決定した探索範囲において、入力された夕ーゲットべクトルを用いてピッチ探索を行う。具体的には、決定されたピッチ探索範囲において、適応符号帳 9 0 3の中から取り出した適応符号べクトルにィンパルス応答を畳み込むことにより、適応符号帳成分を算出し、この値と夕ーゲットべクトルとの誤差を最小とする適応符号べクトルを生成するピッチを抽出する。適応符号べクトル生成部 9 0 5では、求められたピッチによって適応符号べクトルが生成される。

雑音符号帳探索部 9 0 6では、生成した適応符号べクトル及び夕一ゲットべクトルを用い、求められたピッチで雑音符号帳を探索する。具体的には、雑音符号帳探索部 9 0 6は、雑音符号帳 9 0 4の中から取り出した雑音符号べクトルにインパルス応答を畳み込むことにより、雑音符号帳成分を算出し、この値と夕ーゲットべクトルとの誤差を最小とする雑音符号べクトルを選び出す。このように、本実施の形態では、定常雑音モード（又は定常雑音モードと無声モード）において、探索範囲をサブフレーム長以上に限定することにより、雑音符号べクトルに対するピッチ周期性を抑制することができ、雑音符号帳構成の際のピッチ周期化に起因する特有の歪みの発生を防止することができる。その結果、合成される定常雑音信号の自然性を高めることができる。

次に、ピッチ周期性を抑制する観点から考えると、定常雑音モード（又は定常雑音モードと無声モード）で、ピッチ周期化ゲインを制御して、すなわち、定常雑音モードでは、適応符号ベクトル生成において、ピッチ周期化ゲインを 0又は 1未満に下げることにより、適応符号べクトルに対するピッチ周期化 (適応符号ベクトルのピッチ周期性）を抑制することができる。例えば、定常雑音モードにおいては、図 1 0 ( b ) に示すように、ピッチ周期化ゲインを 0 としたり、図 1 0 ( c ) に示すように、ピッチ周期化ゲインを 1未満に下げる c なお、図 1 0 ( d ) は一般的な適応符号べクトル生成法である。図中の T Oはピッチ周期を示す。

また、雑音符号ベクトル生成についても同様の制御を行う。このような制御は、図 1 1に示すような構成により実現することができる。この構成においては、雑音符号帳 1 1 0 3から雑音符号べクトルを周期化フィル夕 1 1 0 2に入力し、周期化ゲイン制御器 1 1 0 1でモード情報に応じて周期化フィル夕 1 1 0 2におけるピッチ周期化ゲインを制御する。

また、さらに、一部の雑音符号帳に対してはビツチ周期化を弱くし、残りの雑音符号帳に対してはピッチ周期化を強くする構成も有効である。

このような制御は、図 1 2に示すような構成により実現することができる。この構成においては、雑音符号帳 1 2 0 3から雑音符号べクトルを周期化フィル夕 1 2 0 1に入力し、雑音符号帳 1 2 0 4から雑音符号べクトルを周期化フィル夕 1 2 0 2に入力し、周期化ゲイン制御器 1 2 0 6でモード情報に応じて周期化フィル夕 1 2 0 1， 1 2 0 2におけるピッチ周期化ゲインを制御する。例えば、雑音符号帳 1 2 0 3が代数符号帳であり、雑音符号帳 1 2 0 4がランダム符号帳（例えば、ガウス符号帳などが挙げられる）である場合には、代数符号帳用の周期化フィル夕 1 2 0 1のピッチ周期化ゲインを 1又は 1に近い値とし、ランダム符号帳用の周期化フィル夕 1 2 0 2のピッチ周期化ゲインはそれより低めの値にする。どちらか一方の雑音符号帳の出力が雑音符号帳全体の出力としてスィツチ 1 2 0 5によって選択される。

上記のように、定常雑音モード（又は定常雑音モードと無声モード）において、探索範囲をサブフレーム長以上に限定することにより、雑音符号ベクトルに対するピッチ周期性を抑制することができ、雑音符号帳構成の際のピッチ周期化による歪みの発生を防止することができる。その結果、周期性を持たない雑音信号のような入力信号に対する符号化性能を改善することができる。また、ピッチ周期化ゲインを切り替える場合、適応符号帳に対しても 2周期目以降の周期化ゲインも同様とする構成や、適応符号帳の 2周期目以降はォール 0とするして周期化しないようにしても良い。この場合、現サブフレームのバッファに用いる信号をオール 0にするか、周期化ゲインに対応するように信号振幅を減衰させた現サブフレームの線形予測残差信号をコピーするなどすることにより、従来のピッチ探索法そのままでピッチ探索を行うことが可能である。

(実施の形態 6 )

本実施の形態では、モードによりピッチ重み付けを切り替える場合について説明する。

ピッチ探索時においては、一般的に倍ピッチ誤り（ピッチ周期の整数倍のピツチを選択する誤り）を防止する手法が用いられる。しかしながら、周期性の無い信号に対しては、この手法が品質劣化を招く要因となる場合がある。本実施の形態では、この倍ピッチ誤りを防止する手法をモードによって 0 N/ 0 F F切換えすることにより、このような劣化を回避する。

図 1 3は、本実施の形態に係る重み付け処理部の構成を示す図である。この構成においては、ピッチ候補の選択を行う場合に、自己相関関数算出器 1 3 0 1からの出力を、上記実施の形態で選択されたモード情報にしたがって切り替えて、重みづけ処理器 1 3 0 2を介して又は直接最大化ピッチ選択器 1 3 0 3 に入力する。すなわち、モード情報が定常雑音モードでない場合には、短いピツチが選択されるように、自己相関関数算出器 1 3 0 1からの出力を重みづけ処理器 1 3 0 2に入力し、重みづけ処理器 1 3 0 2において後述する重みづけ処理を行って、この出力を最大化ピッチ選択器 1 3 0 3に入力する。図 1 3において、参照符号 1 3 0 4， 1 3 0 5は、モード情報にしたがって自己相関関数算出器 1 3 0 1からの出力先を切り替えるスィツチである。図 1 4は、上記モード情報にしたがって重みづけ処理を行う場合のフロー図である。自己相関関数算出器 1 3 0 1において、残差信号の正規化自己相関関数（ピッチ周期）を計算する（S T 1 40 1 ) 。すなわち、比較を始めるサンプル時点を設定し（n = Pmax) 、その時点における自己相関関数の結果を求める（S T 1 40 2) 。なお、この比較を始めるサンプルの時点は、最も時間的に後ろの時点である。

次いで、このサンプル時点における自己相関関数の結果に重みづけしたもの (n c o r_ma ) と、このサンプルより手前のサンプル時点における自己相関関数の結果（n c o r [n— 1 ]) とを比較する（S T 1 403) 。この場合、重みづけは、手前のサンプル時点が大きくなるように設定される（ひぐ 1 ) 。

そして、（nc o r [n— 1 ]) が（n c o r一 max xひ）よりも大きければ、その時点における最大値（n c o r_max) を n c o r [ n— 1 ]とし、ピッチを n— 1とする（S T 1 404)。そして、重みづけの値ひに係数ァ（ここでは例えば 0. 9 94) を乗算し、 nの値を手前のサンプル時点（n— 1 ) に設定し（S T 1405)、 nが最小値（Pmi n) であるかどうかを判断する（S T 1 40 6) 。一方、（n c o r [n— 1 ]) が（nc o r_max x α) よりも大きくなければ、重みづけの値ひに係数ァ（0<ァ≤ 1. 0、ここでは例えば 0. 9 94) を乗算し、 ηの値を手前のサンプル時点（η— 1 ) に設定し（S Τ 140 5)、 ηが最小値 (Pmi n) であるかどうかを判断する（S T 1 4 0 6) 。この判断は、最大化ピッチ選択器 1 303において行う。

nが Pmi nであれば、比較を終了してフレームピッチ周期候補（p i t ) を出力する。 nが Pmi nでなければ、 S T 1 40 3にもどり、一連の処理を繰り返す。

このような重みづけを行うことにより、すなわちサンプル時点を手前にシフ卜するにしたがって重みづけ係数（ひ）を小さくすることにより、手前のサンプル時点の自己相関関数に対する閾値が小さくなるので、短い周期が選ばれ易くなり、倍ピッチ誤りを回避できる。

図 15は、重みづけ処理を行なわないでピッチ候補の選択を行う場合のフロ —図である。自己相関関数算出器 1301において、残差信号の正規化自己相関関数（ピッチ周期）を計算する（ST 1501) 。すなわち、比較を始めるサンプル時点を設定し（n二 Pmax) 、その時点における自己相関関数の結果を求める（ST 1502) 。なお、この比較を始めるサンプルの時点は、最も時間的に後ろの時点である。

次いで、このサンプル時点における自己相関関数の結果（nc 0 r_max) と、このサンプルより手前のサンプル時点における自己相関関数の結果（nc o r [n— 1 ]) とを比較する（ST 1503) 。

そして、（nc o r[n— 1 ]) が（nc o r一 max) よりも大きければ、その時点における最大値（nc o r_max) を nc o r [ n- 1 ]とし、ピッチを n— 1とする（S T 1504)。そして、 ηの値を手前のサンプル時点（ η - 1 ) に設定し（ST 1505)、 ηがサブフレーム（N— sub f rame) であるかどうかを判断する（ST 1506) 。一方、（nc o r[n— 1 ]) が (nc o r— max)よりも大きくなければ、 nの値を手前のサンプル時点（n - 1) に設定し（ST 1505)、 nがサブフレーム（N— subf rame) であるかどうかを判断する（ST 1506) 。この判断は、最大化ピッチ選択器 1303において行う。

nがサブフレーム（N_sub f rame) であれば、比較を終了してフレームピッチ周期候補（p i t) を出力する。 nがサブフレーム（N— subf r ame) でなければ、サンプル時点を手前にずらした上で S T 1503にもどり、一連の処理を繰り返す。

このように、サブフレーム内でのピッチ周期化が起こらない範囲でピッチ探索を行うことおよび短いピツチに優先度を持たせないようにすることにより、定常雑音モードにおける品質劣化を抑えることが可能となる。上記ピッチ周期候補の選択においては、すべてのサンプル時点について比較を行って最大値を選択するようにしているが、本発明においては、サンプル時点を少なくとも 2 つのレンジに分割し、そのレンジにおいてそれそれ最大値を求めた後に、その最大値間で比較を行うようにしても良い。また、ピッチの探索順序はピッチ周期の短い方から順にしても良い。

(実施の形態 7 )

本実施の形態においては、上記実施の形態において選択したモード情報にしたがって適応符号帳の使用の有無を切り替える場合について説明する。すなわち、モード情報が定常雑音モード（又は定常雑音モードと無声モード）では、適応符号帳を使用しないように切り替える。

図 1 6は、本実施の形態に係る音声符号化装置の構成を示すプロック図である。図 1 6において、図 1に示す部分と同じ部分については、図 1と同一の符号を付してその詳細な説明は省略する。

図 1 6に示す音声符号化装置は、定常雑音モードの際に使用する雑音符号帳

1 6 0 2と、この雑音符号帳 1 6 0 2に対するゲイン符号帳 1 6 0 1と、雑音符号帳 1 6 0 2からの雑音符号べクトルにゲインを乗算する乗算器 1 6 0 3 と、モード選択器 1 0 5からのモード情報にしたがって符号帳の切り替えを行うスィッチ 1 6 0 4と、符号を多重化して多重化符号を出力する多重化装置 1

6 0 5とを有する。

上記構成を有する音声符号化装置においては、モード選択器 1 0 5からのモード情報にしたがってスィッチ 1 6 0 4が適応符号帳 1 1 0及び雑音符号帳 1 0 9の組み合わせと、雑音符号帳 1 6 0 2とを切り替える。すなわち、雑音符号帳 1 0 9用の符号 S 1，適応符号帳 1 1 0用の符号 P , 及びゲイン符号帳 1 1 1用の符号 G 1の組み合わせと、雑音符号帳 1 6 0 2用の符号 S 2及びゲイン符号帳 1 6 0 1用の符号 G 2の組み合わせとをモード選択器 1 0 5から出力されたモード情報 Mにより切り替える。

モード選択器 1 0 5で定常雑音モード（定常雑音モ一ドと無声モード）の情報が出力された時には、スィッチ 1 6 0 4は、雑音符号帳 1 6 0 2に切り替え、適応符号帳を使用しない。一方、モード選択器 1 0 5で定常雑音モード（定常雑音モードと無声モード）以外のモードの情報が出力された時には、スィッチ

1 6 0 4は、雑音符号帳 1 0 9及び適応符号帳 1 1 0に切り替える。

雑音符号帳 1 0 9用の符号 S 1 , 適応符号帳 1 1 0用の符号 P , ゲイン符号帳 1 1 1用の符号，雑音符号帳 1 6 0 2用の符号 S 2及びゲイン符号帳 1 6 0 1用の符号 G 2は、一旦多重化装置 1 6 0 5に入力される。多重化装置 1 6 0 5は、上述したようにモード情報 Mにより上述したいずれかの組み合わせを選択して、選択された組み合わせの符号を多重した多重化符号 Cを出力する。図 1 7は、本実施の形態に係る音声復号化装置の構成を示すブロック図である。図 1 7において、図 2に示す部分と同じ部分については、図 2と同一の符号を付してその詳細な説明は省略する。

図 1 7に示す音声復号化装置は、定常雑音モードの際に使用する雑音符号帳

1 7 0 2と、この雑音符号帳 1 7 0 2に対するゲイン符号帳 1 7 0 1と、雑音符号帳 1 Ί 0 2からの雑音符号べクトルにゲインを乗算する乗算器 1 7 0 3 と、モード選択器 2 0 2からのモード情報にしたがって符号帳の切り替えを行ぅスィツチ 1 7 0 4と、多重化符号を分離する多重分離装置 1 7 0 5とを有する。

上記構成を有する音声復号化装置においては、モード選択器 2 0 2からのモ一ド情報にしたがってスィツチ 1 7 0 4が適応符号帳 2 0 4及び雑音符号帳 2 0 3の組み合わせと、雑音符号帳 1 7 0 2とを切り替える。すなわち、多重化符号 Cが多重分離装置 1 7 0 5に入力され、最初にモード情報が分離 ·復号され、復号されたモード情報にしたがって、 G l， P , S Iの符号セット又は G 2 , S 2の符号セットのいずれかが分離 ·復号される。符号 G 1はゲイン符号帳 2 0 5に出力され、符号 Pは適応符号帳 2 0 4に出力され、符号 S 1は雑音符号帳 2 0 3に出力される。また、符号 S 2は雑音符号帳 1 7 0 2に出力され、符号 G 2はゲイン符号帳 1 Ί 0 1に出力される。

モード選択器 2 0 2で定常雑音モード（定常雑音モードと無声モード）の情報が出力された時には、スィツチ 1 7 0 4は、雑音符号帳 1 Ί 0 2に切り替え、適応符号帳を使用しない。一方、モード選択器 2 0 2で定常雑音モード（定常雑音モードと無声モード）以外のモードの情報が出力された時には、スィッチ 1 7 0 4は、雑音符号帳 2 0 3及び適応符号帳 2 0 4に切り替える。

これらのように、モード情報にしたがって、適応符号帳の使用の有無を切り替えることにより、入力（音声）信号の状態に応じて適切な音源モデルが選択されるので、復号信号の品質を改善することができる。

(実施の形態 8 )

本実施の形態においては、モード情報にしたがって擬似定常雑音生成器を用いる場合について説明する。

定常雑音の音源としては、できるだけ白色ガウス雑音のような音源を用いることが望ましいが、音源としてパルス音源を用いる場合には、合成フィル夕を通すと望ましい定常雑音を得ることができない。そこで、本実施の形態では、白色ガウス雑音のような音源を生成する音源生成部と、定常雑音のスぺクトル包絡を表す L S P合成フィル夕とで構成される定常雑音生成器を提供する。この定常雑音生成器で生成される定常雑音は、 C E L Pの構成では表すことができないので、上記構成の定常雑音生成器をモデル化して音声復号化装置に備えるようにする。そして、この定常雑音生成器で生成された定常雑音信号を音声区間 Z非音声区間に拘わらず復号信号に重畳する。

なお、この定常雑音信号を復号信号に重畳する場合において、常に固定の聴覚重み付けがなされているときは、雑音区間について雑音レベルが小さくなる傾向があるので、この定常雑音信号を復号信号に重畳しても雑音レベルが大きくなりすぎない様に調整することが可能である。

また、本実施の形態では、 C E L P型復号化装置の構成要素となっている雑音符号帳から、ランダムにベクトルを選択してくることによって雑音駆動音源ベクトルを生成し、生成した雑音駆動音源ベクトルを駆動信号として、定常雑音区間の平均 L S Pによって特定される L P C合成フィル夕で定常雑音信号を生成する。生成された定常雑音信号は、定常雑音区間の平均的パヮを定数倍 (0. 5倍前後）したパヮにスケーリングされて、復号信号（ポストフィルタ出力信号）に加算される。定常雑音加算後の信号パヮを定常雑音加算前の信号パヮに合わせるために、加算後の信号に対してスケ一リング処理を行っても良い。

図 18は、本実施の形態に係る音声復号化装置の構成を示すブロック図である。ここで、定常雑音生成器 1801は、雑音区間の平均 LSPを LP Cに変換する LP C変換器 1812と、雑音符号帳 1804におけるランダム符号帳 1804 aからのランダム信号を入力して雑音を生成する雑音生成器 18 1 4と、生成した雑音信号で駆動される合成フィル夕 1813と、モード判定器 1802で判定されたモードに基づいて定常雑音のパヮを算出する定常雑音パヮ算出器 1815と、合成フィル夕 1813で合成された雑音信号に定常雑音のパヮを乗算してスケーリングを行う乗算器 1816とを有する。

このような擬似定常雑音生成器を備えた音声復号化装置においては、符号器から伝送された L SP符号 Lと雑音符号べクトルを表現する符号帳ィンデックス Sと適応符号べクトルを表現する符号帳ィンデックス Aとゲイン情報を表現する符号帳インデックス Gとが、それそれ LPC復号器 1803と雑音符号帳 1804と適応符号帳 1805とゲイン符号帳とに入力される。

!^3 復号器1803は、 L SP符号 Lから量子化 L SPを復号し、モード判定器 1802と LP C変換器 1809に夫々出力する。

モード判定器 1802は、図 19に示す構成を有しており、モード決定器 1 901では、 L SP復号器 1803から入力した量子化 L SPを用いてモードを決定し、そのモード情報を雑音符号帳 1804及び LP C変換器 1809に送る。また、平均 LSP算出器制御器 1902において、モード決定器 190 1で決定されたモード情報に基づいて平均 L SP算出器 1903を制御する。すなわち、平均 LSP算出器制御器 1902は、定常雑音モードにおいて、現在の量子化 L S P及び過去の量子化 L S Pから雑音区間の平均 L S Pを算出するように平均 L S P算出器 1 9 0 2を制御する。この雑音区間の平均 L S P は、 L P C変換器 1 8 1 2に出力されると共に、モード決定器 1 9 0 1に出力される。

雑音符号帳 1 8 0 4は、予め定められた個数の形状の異なる雑音符号べクトルが格納されており、入力した符号 Sを復号して得られる雑音符号帳インデックスによって指定される雑音符号ベクトルを出力する。また、この雑音符号帳 1 8 0 4は、ランダム符号帳 1 8 0 4 aと代数符号帳である部分的代数符号帳 1 8 0 4 bとを有しており、例えば有声音声部に対応するモードでは、部分的代数符号帳 1 8 0 4 bから、よりパルス的な雑音符号ベクトルを生成し、無声音声部や定常雑音部などに対応するモードでは、ランダム符号帳 1 8 0 4 aから、より雑音的な雑音符号べクトルを生成するような構造となっている。モード判定器 1 8 0 2の判定結果により、ランダム符号帳 1 8 0 4 aのェントリ数と部分的代数符号帳 1 8 0 4 bのェントリ数との比率が切換えられる。雑音符号帳 1 8 0 4から出力される雑音符号べクトルは、前記 2種類以上のモ —ドのエントリの中から最適なものが選択され、乗算器 1 8 0 6で雑音符号帳ゲイン Gが乗じられた後に加算器 1 8 0 8に出力される。

適応符号帳 1 8 0 5は、過去に生成した駆動音源信号を逐次更新しながらバッファリングしており、入力した符号 Pを復号して得られる適応符号帳インデックス（ピッチ周期（ピッチラグ））を用いて適応符号ベクトルを生成する。適応符号帳 1 8 0 5にて生成された適応符号べクトルは、乗算器 1 8 0 7で適応符号帳ゲイン Gが乗じられた後に加算器 1 8 0 8に出力される。

加算器 1 8 0 8は、乗算器 1 8 0 6及び 1 8 0 7から入力される雑音符号べクトルと適応符号べクトルの加算を行って駆動音源信号を生成し、合成フィル夕 1 8 1 0に出力する。

合成フィル夕 1 8 1 0は、入力した量子化 L P Cを用いて L P C合成フィル夕を構築する。この合成フィル夕に対して加算器 1 8 0 8から出力される駆動音源信号を入力としてフィルタ処理を行って合成信号をボストフィル夕 1 8 1 1に出力する。

ポストフィル夕 1 8 1 1は、合成フィル夕 1 8 1 0から入力した合成信号に対して、ピッチ強調、ホルマント強調、スペクトル傾斜補正、ゲイン調整などの音声信号の主観的品質を改善させるための処理を行う。

一方、モード判定器 1 8 0 2から出力された雑音区間の平均 L S Pは、定常雑音生成器 1 8 0 1の L P C変換器 1 8 1 2に入力され、そこで L P Cに変換される。この L P Cは、合成フィル夕 1 8 1 3に入力される。

雑音生成器 1 8 1 4は、ランダム符号帳 1 8 0 4 aからランダムにランダムべクトルを選択し、選択したべクトルを用いて雑音信号を生成する。合成フィル夕 1 8 1 3は、雑音生成器 1 8 1 4で生成された雑音信号により駆動される c 合成された雑音信号は、乗算器 1 8 1 6に出力される。

定常雑音パヮ算出器 1 8 1 5は、モード判定器 1 8 0 2から出力されるモード情報と、ポストフィル夕 1 8 1 1から出力される信号のパヮ変化の情報を用いて、確実な定常雑音区間を判定する。確実な定常雑音区間とは、前記モード情報が非音声区間（定常雑音区間）を示していて、かつ、前記パヮ変化が少ない区間のことである。前記モード情報が定常雑音区間を示していても、前記パヮ変化が大きく上昇する場合は音声の立ち上がり部である可能性があるため音声区間として扱う。そして、定常雑音区間と判定された区間の平均的パヮを算出する。さらに、復号音声信号に重畳する定常雑音信号のパヮが大きくなりすぎないように、前記平均的パヮに一定の係数を乗じたパヮが得られるように、乗算器 1 8 1 6において合成フィル夕 1 8 1 3からの出力信号に乗ずべきスケ一リング係数を求める。乗算器 1 8 1 6では、定常雑音パヮ算出器 1 8 1 5 から出力されるスケーリング係数により、合成フィル夕 1 8 1 3から出力された雑音信号がスケーリングされる。このスケーリングされた雑音信号は、加算器 1 8 1 7に出力される。加算器 1 8 1 7では、上述したボストフィルタ 1 8 1 1からの出力にスケーリングされた雑音信号が重畳され、復号音声が得られる。上記構成の音声復号化装置では、音源をランダムに生成するフィル夕駆動型の擬似定常雑音生成器 1 8 0 1を用いているので、同じ合成フィル夕、同じパヮ情報を繰り返して使用しても、セグメント間の不連続性に起因するブザー音的なノイズが発生せず、自然なノイズを生成することが可能である。

本発明は上記実施の形態 1から 8に限定されず、種々変更して実施することが可能である。例えば、上記実施の形態 1から 8は適宜組み合わせて実施することが可能である。また、本発明の定常雑音生成器はいかなるタイプの復号器に対しても適用可能であり、必要に応じて、雑音区間の平均 L S Pを供給する手段と、雑音区間（モード情報）を判定する手段と、適当な雑音生成器（または適当なランダム符号帳）と、雑音区間の平均パヮ（平均エネルギー）を供給

(算出）する手段と、を設ければ良い。

本発明のマルチモード音声符号化装置は、音声信号に含まれる声道情報を表す少なくとも 1種類以上のパラメ一夕を符号化する第 1符号化部と、前記音声信号に含まれる音源情報を表す少なくとも 1種類以上のパラメ一夕を幾つかのモードで符号化可能な第 2符号化部と、前記第 1符号化部で符号化された特定パラメ一夕の動的特徴に基づいて前記第 2符号化部のモードを判定するモード判定部と、前記第 1及び第 2符号化部によって符号化された複数種類のパラメ一夕情報によって入力音声信号を合成する合成部と、を具備し、

前記モード切替部は、量子化 L S Pパラメ一夕のフレーム間変化を算出する算出部と、量子化 L S Pパラメ一夕が定常的であるフレームにおける平均的量子化 L S Pパラメ一夕を算出する算出部と、前記平均的量子化 L S Pパラメ一夕と現在の量子化 L S Pパラメ一夕との距離を算出し、特定の次数の量子化 L S Pパラメ一夕と前記平均的量子化 L S Pパラメ一夕との間の所定量の差を検出する検出部と、を有する構成を採る。

この構成によれば、特定の次数の量子化 L S Pパラメ一夕と平均的量子化 L S Pパラメ一夕との間の所定量の差を検出するので、平均化した結果について判定した場合に音声区間と判定されなくなってしまうときでも、正確に音声区間と判定することができる。これにより、雑音区間の平均的量子化 L S Pと当該部所における量子化 L S Pとが非常に近い値を示しており、かつ当該部所における量子化 L S Pの変動が非常に小さい場合でも、正確にモ一ド判定を行うことができる。

本発明のマルチモード音声符号化装置は、上記構成において、モードが定常雑音モードである場合に、ピッチ周期の探索範囲をサブフレーム長以上のみに限定する探索範囲決定手段を具備する構成を採る。

この構成によれば、定常雑音モード（又は定常雑音モードと無声モード）において、探索範囲をサブフレーム長以上に限定することにより、雑音符号べクトルに対するピッチ周期性を抑制することができ、復号音声信号に生じるピッチ周期化モデルに起因する符号化歪みを防止することができる。

本発明のマルチモード音声符号化装置は、上記構成において、符号帳を用いてピッチ周期を決定する際に、モードに応じてビッチ周期化利得を制御するピッチ周期化利得制御部を具備する構成を採る。

この構成によれば、 1サブフレーム内における周期性強調を避けることができる。これにより、適応符号ベクトル生成の際に生じるピッチ周期化モデルに起因する符号化歪みを防止することができる。

本発明のマルチモード音声符号化装置は、上記構成において、ピッチ周期化利得制御部が、雑音符号帳毎に利得を制御する構成を採る。

この構成によれば、定常雑音モード（又は定常雑音モードと無声モード）において、雑音符号帳毎に利得を変えることにより、雑音符号ベクトルに対するピッチ周期性を抑制することができ、雑音符号べクトル生成の際に生じるピッチ周期化モデルに起因する符号化歪みを防止することができる。

本発明のマルチモード音声符号化装置は、上記構成において、ピッチ周期化利得制御部が、モードが定常雑音モードである場合に、ピッチ周期化利得を下げる構成を採る。

本発明のマルチモード音声符号化装置は、上記構成において、ピッチ周期の探索時において、入力音声の残差信号の自己相関関数を求める自己相関関数算出部と、自己相関関数の結果に対してモードに応じて重みづけ処理を行う重みづけ処理部と、重みづけ処理された自己相関関数の結果を用いてピッチ候補を選択する選択部と、を具備する構成を採る。

この構成によれば、ピッチ構造を持たない信号に対する復号音声信号の品質劣化を回避することができる。

本発明のマルチモード音声復号化装置は、音声信号に含まれる声道情報を表す少なくとも 1種類以上のパラメ一夕を復号化する第 1復号化部と、前記音声信号に含まれる音源情報を表す少なくとも 1種類以上のパラメ一夕を幾つかの符号化モードで復号化可能な第 2復号化部と、前記第 1復号化部で復号化された特定パラメ一夕の動的特徴に基づいて前記第 2復号化部のモードの判定を行うモード判定部と、前記第 1及び第 2復号化部によつて復号化された複数種類のパラメ一夕情報によって音声信号を復号する合成部と、を具備し、前記モード切替部は、量子化 L S Pパラメ一夕のフレーム間変化を算出する算出部と、量子化 L S Pパラメ一夕が定常的であるフレームにおける平均的量子化 L S Pパラメ一夕を算出する算出部と、前記平均的量子化 L S Pパラメ一夕と現在の量子化 L S Pパラメ一夕との距離を算出し、特定の次数の量子化 L S Pパラメ一夕と前記平均的量子化 L S Pパラメ一夕との間の所定量の差を検出する検出部と、を有する構成を採る。

この構成によれば、特定の次数の量子化 L S Pパラメ一夕と平均的量子化 L S Pパラメ一夕との間の所定量の差を検出するので、平均化した結果について判定した場合に音声区間と判定されなくなってしまうときでも、正確に音声区間と判定することができる。これにより、雑音区間の平均的量子化 L S Pと当該部所における量子化 L S Pとが非常に近い値を示しており、かつ当該部所における量子化 L S Pの変動が非常に小さい場合でも、正確にモード判定を行うことができる。

本発明のマルチモード音声復号化装置は、上記構成において、モード判定部で判定されたモードが定常雑音モードである場合に、雑音区間の平均 L S Pパラメ一夕を出力し、かつ、前記平均 LSPパラメ一夕から求められた LP Cパラメ一夕で構築された合成フィル夕を雑音符号帳から取得したランダム信号で駆動させることにより定常雑音を生成する定常雑音生成部を具備する構成を採る。

この構成によれば、音源をランダムに生成するフィル夕駆動型の擬似定常雑音生成器 1801を用いているので、同じ合成フィル夕、同じパヮ情報を繰り返して使用しても、セグメント間の不連続性に起因するブザー音的なノイズが発生せず、自然なノイズを生成することが可能である。

以上説明したように、本発明によれば、モード判定において、第 3の動的パラメ一夕を用いて最大値でしきい値判定を行うので、ほとんどの結果がしきい値を超えなく、 1つや 2つの結果がしきい値を超える場合においても、正確に音声区間と判定することができる。

本明細書は、 2000年 1月 1 1日出願の特願 2000— 002874に基づく。この内容はすべてここに含めておく。また、本発明は、 LSPのフレーム間変化と、求められた LSPと過去の雑音区間（定常区間）における平均 L S Pとの間の距離と、を用いて定常雑音区間を判定するモード判定器を基本構成としている。この内容は、 1998年 8月 2 1日出願の特願平 10— 236 147号及び 1 998年 9月 21日出願の特願平 10— 266883号に基づく。これらの内容もすベてここに含めておく。産業上の利用可能性

本発明は、ディジタル移動通信システムなどにおける低ビットレート音声符号化装置、特に音声信号を声道情報と音源情報とに分離して表現するような C ELP型音声符号化装置などに適用することができる。

Claims

請求の範囲

1 . 音声信号に含まれる声道情報を表す少なくとも 1種類以上のパラメ一夕を復号化する第 1復号化手段と、前記音声信号に含まれる音源倩報を表す少なくとも 1種類以上のパラメ一夕を幾つかの符号化モードで復号化可能な第 2復号化手段と、前記第 1復号化手段で復号化された特定パラメ一夕の動的特徴に基づいてモードの判定を行うモード判定手段と、前記第 1及び第 2復号化手段によって復号化された複数種類のパラメ一夕情報によって音声信号を復号する合成手段と、を具備し、

前記モード判定手段は、量子化 L S Pパラメ一夕のフレーム間変化を算出する手段と、量子化 L S Pパラメ一夕が定常的であるフレームにおける平均的量子化 L S Pパラメ一夕を算出する手段と、前記平均的量子化 L S Pパラメ一夕と現在の量子化 L S Pパラメ一夕との距離を算出し、特定の次数の量子化 L S Pパラメ一夕と前記平均的量子化 L S Pパラメ一夕との間の所定量の差を検出する手段と、を有するマルチモード音声復号化装置。

2 . モード判定手段においてモードが定常雑音モードである場合に、雑音区間の平均 L S Pパラメ一夕を出力し、かつ、前記平均 L S Pパラメ一夕から求められた L P Cパラメ一夕で構築された合成フィル夕を雑音符号帳から取得したランダム信号で駆動させることにより定常雑音を生成する定常雑音生成手段を具備する請求項 1記載のマルチモード音声復号化装置。

3 . 音声信号に含まれる声道情報を表す少なくとも 1種類以上のパラメ一夕を復号化する第 1復号化手段と、前記音声信号に含まれる音源情報を表す少なくとも 1種類以上のパラメ一夕を幾つかの符号化モードで復号化可能な第 2復号化手段と、前記第 1復号化手段で復号化された特定パラメ一夕の動的特徴に基づいてモードの判定を行うモード判定手段と、を具備するモ一ド判定装置。

4 . 量子化 L S Pパラメ一夕のフレーム間変化を算出する手段と、量子化 L S Pパラメ一夕が定常的であるフレームにおける平均的量子化 L S Pパラメ一夕を算出する手段と、前記平均的量子化 L S Pパラメ一夕と現在の量子化 L S Pパラメ一夕との距離を算出し、特定の次数の量子化 L S Pパラメ一夕と前記平均的量子化 L S Pパラメ一夕との間の所定量の差を検出する手段と、を有する請求項 3記載のモード判定装置。

5 . 雑音音源を生成する音源生成手段と、定常雑音のスペクトル包絡を表す L S P合成フィル夕と、を具備し、請求項 4記載のモード判定装置で判定されたモード情報を用いる定常雑音生成装置。

6 . 音源生成手段は、雑音符号帳からランダムに選択したベクトルから雑音駆動音源べクトルを生成する請求項 5記載の定常雑音生成装置。

7 . 音声信号に含まれる声道情報を表す少なくとも 1種類以上のパラメ一夕を符号化する第 1符号化手段と、前記音声信号に含まれる音源情報を表す少なくとも 1種類以上のパラメ一夕を幾つかのモードで符号化可能な第 2符号化手段と、前記第 1符号化手段で符号化された特定パラメ一夕の動的特徴に基づいて前記第 2符号化手段のモードを判定するモード判定手段と、前記第 1及び第 2符号化手段によって符号化された複数種類のパラメ一夕情報によって入力音声信号を合成する合成手段と、を具備し、

前記モードの切り替え手段は、量子化 L S Pパラメ一夕のフレーム間変化を算出する手段と、量子化 L S Pパラメ一夕が定常的であるフレームにおける平均的量子化 L S Pパラメ一夕を算出する手段と、前記平均的量子化 L S Pパラメ一夕と現在の量子化 L S Pパラメ一夕との距離を算出し、特定の次数の量子化 L S Pパラメ一夕と前記平均的量子化 L S Pパラメ一夕との間の所定量の差を検出する手段と、を有するマルチモード音声符号化装置。

8 . モードが定常雑音モードである場合に、ピッチ周期の探索範囲をサブフレーム長以上の範囲に設定する探索範囲決定手段を具備する請求項 7記載の音声符号化装置。

9 . 符号帳を用いてピッチ周期を決定する際において、モードに応じてピッチ周期化利得を制御するピツチ周期化利得制御手段を具備する請求項 7記載の音声符号化装置。

1 0 . ピッチ周期化利得制御手段は、符号帳毎に利得を制御する請求項 9記載の音声符号化装置。

1 1 . ピッチ周期化利得制御手段は、モードが定常雑音モードである場合に、ピッチ周期化利得を下げる請求項 9記載の音声符号化装置。

1 2 . ピッチ周期の探索時において、入力音声の残差信号の自己相関関数を求める自己相関関数算出手段と、自己相関関数の結果に対してモードに応じて重みづけ処理を行う重みづけ処理手段と、重みづけ処理された自己相関関数の結果を用いてピッチ候補を選択する選択手段と、を具備する請求項 7記載の音声符号化装置。