WO2006009074A1

WO2006009074A1 - 音声復号化装置および補償フレーム生成方法

Info

Publication number: WO2006009074A1
Application number: PCT/JP2005/013051
Authority: WO
Inventors: Hiroyuki Ehara
Original assignee: Matsushita Electric Industrial Co., Ltd.
Priority date: 2004-07-20
Filing date: 2005-07-14
Publication date: 2006-01-26
Also published as: JPWO2006009074A1; JP4698593B2; EP1775717A1; EP1775717B1; CN1989548B; US8725501B2; CN1989548A; EP1775717A4; US20080071530A1

Abstract

　消失補償処理において、過去の信号のエネルギ変化を考慮して復号信号の音質を向上させることができる音声復号化装置を開示する。この装置において、エネルギ変化算出部（１４３）は、適応符号帳（１０６）より出力されるＡＣＢベクトルの末尾から１ピッチ周期分の音源信号の平均エネルギを算出する。また、エネルギ変化算出部（１４３）は、現サブフレームと直前サブフレームの平均エネルギの比を計算し、ＡＣＢ利得生成部（１３５）へ出力する。ＡＣＢ利得生成部（１３５）は、過去に復号されたＡＣＢ利得、またはエネルギ変化算出部（１４３）から出力されるエネルギ変化率情報、のいずれかによって定義される隠蔽処理用ＡＣＢ利得を乗算器（１３２）へ出力する。

Description

音声復号化装置および補償フレーム生成方法

技術分野

[0001] 本発明は、音声復号化装置および補償フレーム生成方法に関する。

背景技術

[0002] インターネット等において行われるパケット通信では、伝送路においてパケットを消失する等して復号ィ匕装置で符号ィ匕情報を受信できな力つた場合、このパケットの消失補償 (隠蔽)処理を行うのが一般的である。

[0003] 例えば、音声符号化の分野では、 ITU— T勧告 G. 729において、（1)合成フィルタ係数を繰り返し使用し、 (2)ピッチ利得および固定符号帳利得 (FCB利得)を徐々に減衰させ、（3) FCB利得予測器の内部状態を徐々に減衰させ、（4)直前の正常フレームにおける有声モード Z無声モードの判定結果に基づき、適応符号帳もしくは固定符号帳のいずれか一方を用いて音源信号を生成するフレーム消失隠蔽処理が規定されている (例えば、特許文献 1参照)。

[0004] この方式では、ポストフィルタで行われるピッチ分析結果を用いて、ピッチ予測利得の大小で有声モード Z無声モードを判定し、例えば、直前の正常フレームが有声モードの場合、適応符号帳を用いて合成フィルタの音源ベクトルを生成する。 ACB (適応符号帳)ベクトルは、フレーム消失補償処理用に生成されたピッチラグに基づ、て適応符号帳から生成され、フレーム消失補償処理用に生成されるピッチゲインを乗じて音源ベクトルとなる。フレーム消失補償処理用のピッチラグには、直前に用いた復号ピッチラグをインクリメントしたものが使用される。フレーム消失補償処理用ピッチゲインには、直前に用いた復号ピッチゲインを定数倍して減衰させたものが使用される特許文献 1：特開平 9 - 120298号公報

発明の開示

発明が解決しょうとする課題

[0005] し力しながら、従来の音声復号化装置は、過去のピッチゲインに基づ、てフレーム消失補償処理用のピッチゲインを決定している。ところが、ピッチゲインは必ずしも信号のエネルギ変化を反映したパラメータではない。そのため、生成されたフレーム消失補償処理用のピッチゲインは過去の信号のエネルギ変化を考慮したものにならない。さらに、一定の比率でピッチゲインを減衰させているため、過去の信号のェネルギ変化と関係なくフレーム消失補償処理用のピッチゲインが減衰する。すなわち、過去の信号のエネルギ変化が考慮されず、かつ、一定の割合でピッチゲインが減衰されるため、補償したフレームは過去の信号力ゝらのエネルギの連続性が保たれ難ぐ音切れ感を生じ易い。よって、復号信号の音質が劣化する。

[0006] よって、本発明の目的は、消失補償処理にお!、て、過去の信号のエネルギ変化を考慮して復号信号の音質を向上させることができる音声復号化装置および補償フレーム生成方法を提供することである。

課題を解決するための手段

[0007] 本発明の音声復号化装置は、音源信号を生成する適応符号帳と、前記音源信号のサブフレーム間のエネルギ変化を算出する算出手段と、前記エネルギ変化に基づ V、て前記適応符号帳の利得を決定する決定手段と、前記適応符号帳の利得を用いて消失フレームに対する補償フレームを生成する生成手段と、を具備する構成を採る。

発明の効果

[0008] 本発明によれば、消失補償処理にお!、て、過去の信号のエネルギ変化を考慮することができ、復号信号の音質を向上させることができる。

図面の簡単な説明

[0009] [図 1]実施の形態 1に係る補償フレーム生成部の主要な構成を示すブロック図

[図 2]実施の形態 1に係る雑音性付加部内部の主要な構成を示すブロック図

[図 3]実施の形態 2に係る音声復号ィ匕装置の主要な構成を示すブロック図

[図 4]適応符号帳および固定符号帳の双方を用いて補償フレームを生成する例 [図 5]適応符号帳で生成される音源のうち、一部の周波数帯域のみを固定符号帳で生成される雑音的な信号で置換する例

[図 6]実施の形態 3に係る補償フレーム生成部の主要な構成を示すブロック図 [図 7]実施の形態 3に係る雑音性付加部内部の主要な構成を示すブロック図

[図 8]実施の形態 3に係る ACB成分生成部内部の主要な構成を示すブロック図 [図 9]実施の形態 3に係る FCB成分生成部内部の主要な構成を示すブロック図 [図 10]実施の形態 3に係る消失フレーム隠蔽処理部の主要な構成を示すブロック図 [図 11]実施の形態 3に係るモード判定部内部の主要な構成を示すブロック図

[図 12]実施の形態 4に係る無線送信装置および無線受信装置の主要な構成を示すブロック図発明を実施するための最良の形態

[0010] 以下、本発明の実施の形態について、添付図面を参照して詳細に説明する。

[0011] (実施の形態 1)

本発明の実施の形態 1に係る音声符号化装置は、適応符号帳にバッファリングされて、る過去に生成した音源信号のエネルギ変化を調べ、エネルギの連続性が保たれるように適応符号帳のピッチゲイン、すなわち、適応符号帳利得 (ACB利得)を生成する。これにより、消失フレームの補償フレーム用に生成される音源ベクトルの過去の信号力のエネルギ連続性が改善されると共に、適応符号帳に保存される信号のエネルギ連続性が保たれる。

[0012] 図 1は、本発明の実施の形態 1に係る音声復号ィ匕装置内部の補償フレーム生成部

100の主要な構成を示すブロック図である。

[0013] この補償フレーム生成部 100は、適応符号帳 106、ベクトル生成部 115、雑音性付加部 116、乗算器 132、 ACB利得生成部 135、およびエネルギ変化算出部 143を備える。

[0014] エネルギ変化算出部 143は、適応符号帳 106より出力される ACB (適応符号帳）ベクトルの末尾から 1ピッチ周期分の音源信号の平均エネルギを算出する。一方、ェネルギ変化算出部 143の内部メモリには、直前サブフレームにお、て同様に算出された 1ピッチ周期分の音源信号の平均エネルギが保持されている。そこで、エネルギ変化算出部 143は、現サブフレームと直前サブフレームの 1ピッチ周期分の音源信号の平均エネルギの比を計算する。なお、この平均エネルギは、音源信号のェネルギの平方根でも対数でも良い。エネルギ変化算出部 143は、計算された比をさらにサブフレーム間において平滑ィ匕処理し、平滑ィ匕された比を ACB利得生成部 135へ出力する。

[0015] エネルギ変化算出部 143は、直前サブフレームにおいて算出された 1ピッチ周期分の音源信号のエネルギを現サブフレームで算出された 1ピッチ周期分の音源信号のエネルギで更新する。例えば、以下の（式 1)に従って Ecを計算する。

Ec = ( (∑ (ACB[Lacb-i])²) /Pc) …（式 1)

(ここで、 ACB[0 :Lacb- l]：適応符号帳バッファ、

Lacb：適応符号帳バッファ長、

Pc：現サブフレームにおけるピッチ周期、

Ec：現サブフレームにおける過去 1ピッチ周期の音源信号の平均振幅

(エネルギの平方根）、

i= l, 2, · ··, Pc)

次に、エネルギ変化算出部 143は、直前サブフレームで計算した Ecを Epとして保持しておき、エネルギ変化率 Reを Re = Ec/Epとして算出する。そして、エネルギ変ィ匕算出咅は、 Reを 0. 98でクリッピングして、 Sre = 0. 7 X Sre + 0. 3 XReのような式で平滑ィ匕し、平滑ィ匕エネルギ変化率 Sreを ACB利得生成部 135へ出力する。エネルギ変化算出部 143は、最後に Ep=Ecとして、 Epを更新する。

[0016] このように、エネルギ変化を算出して ACB利得を決定することにより、エネルギ連続性が保持される。そして、決定された ACB利得を用いて適応符号帳のみカゝら音源生成を行えば、エネルギ連続性が保持された音源ベクトルを生成できる。

[0017] ACB利得生成部 135は、過去に復号された ACB利得を用いて定義される隠蔽処理用 ACB利得、または、エネルギ変化算出部 143から出力されるエネルギ変化率情報によって定義される隠蔽処理用 ACB利得、のいずれか一方を選択し、最終的な隠蔽処理用 ACB利得を乗算器 132へ出力する。

[0018] ここで、エネルギ変化率情報とは、直前サブフレームの末尾 1ピッチ周期力求めた平均振幅 A (— 1)と、 2サブフレーム前の末尾 1ピッチ周期から求めた平均振幅 A ( 2)との比、すなわち A (— 1) ZA (— 2)をサブフレーム間で平滑化したものであり、過去の復号信号のパヮ変化を表すものであり、これを基本的に ACB利得とする。ただし、過去に復号された ACB利得を用いて定義された隠蔽処理用 ACB利得の方が上記のエネルギ変化率情報より大きヽ場合は、過去に復号された ACB利得を用いて定義された隠蔽処理用 ACB利得を最終的な隠蔽処理用 ACB利得として選択するようにしても良い。また、上記の A (— 1) ZA (— 2)の比が上限値を超える場合は、上限値でクリッピングする。上限値としては例えば 0. 98を用いる。

[0019] ベクトル生成部 115は、適応符号帳 106から、対応する ACBベクトルを生成する。

[0020] ところで、上記の補償フレーム生成部 100は、有声性の強弱に関係なぐ過去の信号のエネルギ変化のみで ACB利得を決定している。よって、音切れ感は解消されるものの、有声性が弱いのに ACB利得が高くなることがあり、この場合強いブザー音を生成してしまう。

[0021] そこで、本実施の形態では、自然な音質を目指すために、適応符号帳 106から生成されたベクトルに雑音性を付加するための雑音性付加部 116を、適応符号帳 106 へのフィードバックループとは別系統として備える。

[0022] 雑音性付加部 116における音源ベクトルの雑音化は、適応符号帳 106から生成された音源ベクトルの特定の周波数帯域成分を雑音化することによって行う。より具体的には、適応符号帳 106から生成された音源ベクトルに低域通過フィルタをかけて高域成分を取り除き、取り除かれた高域成分の信号エネルギと同じエネルギを有する雑音信号を加算する。この雑音信号は固定符号帳から生成された音源ベクトルに高域通過フィルタをかけて低域成分を取り除ヽて生成される。低域通過フィルタと高域通過フィルタは、その阻止域と通過域とが相互に反対になってヽる完全再構成フィルタバンク力、それに準ずるものを用いる。

[0023] 上記の構成により、最後に正常受信した音源波形の特徴を適応符号帳 106に保存したまま、任意に雑音性を付加し、生成される音源ベクトルの特徴を任意に加工できる。また、音源べ外ルに対して雑音性を付加しても、雑音性が付加される前の音源ベクトルのエネルギは保存されるので、エネルギ連続性を損なうことがな、。

[0024] 図 2は、雑音性付加部 116内部の主要な構成を示すブロック図である。

[0025] この雑音性付加部 116は、乗算器 110、 111、 ACB成分生成部 134、 FCB利得生成部 139、 FCB成分生成部 141、固定符号帳 145、ベクトル生成部 146、およびカロ算器 147を備える。

[0026] ACB成分生成部 134は、ベクトル生成部 115から出力された ACBベクトルを低域通過フィルタに通し、ベクトル生成部 115から出力された ACBベクトルのうち雑音を付加しない帯域の成分を生成し、この成分を ACB成分として出力する。低域通過フィルタを通過した後の ACBベクトル Aは、乗算器 110および FCB利得生成部 139に出力される。

[0027] FCB成分生成部 141は、ベクトル生成部 146から出力された FCB (固定符号帳）ベクトルを高域通過フィルタに通し、ベクトル生成部 146から出力された FCBのうち雑音を付加する帯域の成分を生成し、この成分を FCB成分として出力する。高域通過フィルタを通過した後の FCBベクトル Fは、乗算器 111および FCB利得生成部 13 9に出力される。

[0028] なお、上記の低域通過フィルタおよび高域通過フィルタは、直線位相 FIRフィルタである。

[0029] FCB利得生成部 139は、 ACB利得生成部 135から出力される隠蔽処理用 ACB 利得と、 ACB成分生成部 134から出力される隠蔽処理用 ACBベクトル Aと、 ACB成分生成部 134へ入力される ACB成分生成部 134での処理を行う前の ACBベクトルと、 FCB成分生成部 141から出力される FCBベクトル Fとから、以下のようにして隠蔽処理用 FCB利得を算出する。

[0030] FCB利得生成部 139は、 ACB成分生成部 134における処理前と処理後の ACB ベクトルの差ベクトル Dのエネルギ Ed (ベクトル Dの各要素の二乗和）を算出する。次に、 FCB利得生成部 139は、 FCBベクトル Fのエネルギ Ef (ベクトル Fの各要素の二乗和）を算出する。次に、 FCB利得生成部 139は、 ACB成分生成部 134から入力された ACBベクトル Aと、 FCB成分生成部 141から入力された FCBベクトル Fとの相互相関 Raf (ベクトル Aと Fとの内積)を算出する。次に、 FCB利得生成部 139は、 ACB 成分生成部 134から入力された ACBベクトル Aと上記の差ベクトル Dとの相互相関 R ad (ベクトル Aと Dとの内積)を算出する。次に、 FCB利得生成部 139は、以下の（式 2)により、利得を算出する。

(-Raf+ " (Raf X Raf + Ef X Ed + 2 X Ef X Rad) ) /Ef …(式 2)

ただし、解が虚数や負の数になる場合は、 (EdZEf)を利得とする。最後に FCB 利得生成部 139は、上記の（式 2)で求めた利得に ACB利得生成部 135で生成された隠蔽処理用 ACB利得を乗じて隠蔽処理用 FCB利得を得る。

[0031] 上記の記載は、以下の 2つのベクトルのエネルギが等しくなるように隠蔽処理用 FC B利得を算出する方法の一例である。ここで、 2つのベクトルとは、 1つは、 ACB成分生成部 134へ入力された元々の ACBベクトルに隠蔽処理用 ACB利得を乗じたベタトルであり、もう 1つは、 ACBベクトル Aに隠蔽処理用 ACB利得を乗じたベクトルと、 F CBベクトル Fに隠蔽処理用 FCB利得 (未知であり、ここで算出する対象である）を乗じたベクトルとの和ベクトルである。

[0032] 加算器 147は、 ACB利得生成部 135で決定された八じ8利得を八じ成分生成部1 34で生成された ACBベクトル A (音源ベクトルの ACB成分）に乗じたものと、 FCB利得生成部 139で決定された FCB利得を FCB成分生成部 141で生成された FCBベタトル F (音源ベクトルの FCB成分）に乗じたものと、の和ベクトルを最終的な音源べクトルとして合成フィルタへ出力する。また、 ACB成分生成部 134へ入力される (低域通過フィルタ処理前の） ACBベクトルに隠蔽処理用 ACB利得を乗じたベクトル、を適応符号帳 106にフィードバックして適応符号帳 106を ACBベクトルのみで更新し、加算器 147によって得られたベクトルを合成フィルタの駆動音源とする。

[0033] なお、合成フィルタの駆動音源には、位相拡散処理やピッチ周期性強化を図る処理を加えても良い。

[0034] このように、本実施の形態によれば、過去の復号音声信号のエネルギ変化率で AC B利得を決定し、その利得で生成される ACBベクトルのエネルギに等し!/、音源べタトルを生成するようにして、るため、消失フレームの前後にお、て復号音声のエネルギ変化が滑らかとなり、音切れ感を生じに《することができる。

[0035] また、以上の構成において、適応符号帳 106の更新を適応符号ベクトルでのみ行うため、例えば、ランダムに雑音化された音源ベクトルで適応符号帳 106を更新する場合に生じる後続フレームの雑音感を抑えることができる。

[0036] また、以上の構成にぉ、て、音声信号の有声定常部での隠蔽処理は、主として高域 (例えば、 3kHz以上）にのみ雑音を付加するので、従来の全域に雑音を付加する方式に比べて雑音感を生じ難くすることができる。

[0037] (実施の形態 2)

実施の形態 1では、本発明に係る補償フレーム生成部の構成の一例として、補償フレーム生成部を単独で採り上げて詳細に説明した。本発明の実施の形態 2では、本発明に係る補償フレーム生成部を音声符号ィ匕装置に搭載する場合の音声符号ィ匕装置の構成の一例を示す。なお、実施の形態 1と同一の構成要素には同一の符号を付し、その説明を省略する。

[0038] 図 3は、本発明の実施の形態 2に係る音声復号化装置の主要な構成を示すブロック図である。

[0039] 本実施の形態に係る音声復号化装置は、入力フレームが正常フレームであった場合、通常の復号化処理を行い、入力フレームが正常フレームでなかった（フレームを消失した)場合には、この消失フレームに対する隠蔽処理を行う。切替えスィッチ 121 〜127は、入力フレームが正常フレームであるか否かを示す BFI (Bad Frame Indicat or)に従って切り替わり、上記の 2つの処理を可能とする。

[0040] まず、通常の復号化処理における本実施の形態に係る音声復号化装置の動作について説明する。図 3に示したスィッチの状態は、通常の復号ィ匕処理におけるスイツチの位置を示したものである。

[0041] 多重化分離部 101は、符号ィ匕ビットストリームを各パラメータ (LPC符号、ピッチ符号、ピッチ利得符号、 FCB符号、および FCB利得符号）に分離して、それぞれを対応する復号部に供給する。 LPC復号部 102は、多重化分離部 101から供給された L PC符号力 LPCパラメータを復号する。ピッチ周期復号部 103は、多重化分離部 1 01から供給されたピッチ符号力もピッチ周期を復号する。 ACB利得復号部 104は、多重化分離部 101から供給された ACB符号から ACB利得を復号する。 FCB利得復号部 105は、多重化分離部 101から供給された FCB利得符号から FCB利得を復号する。

[0042] 適応符号帳 106は、ピッチ周期復号部 103から出力されたピッチ周期を用いて、 A CBベクトルを生成し、乗算部 110に出力する。乗算部 110は、 ACB利得復号部 10 4から出力された ACB利得を、適応符号帳 106から出力された ACBベクトルに乗じ、ゲイン調整後の ACBベクトルを音源生成部 108へ供給する。一方、固定符号帳 10 7は、多重化分離部 101から出力された固定符号帳符号力も FCBベクトルを生成し、乗算部 111に出力する。乗算部 111は、 FCB利得復号部 105から出力された FCB 利得を、固定符号帳 107から出力された FCBベクトルに乗じ、ゲイン調整後の FCB ベクトルを音源生成部 108へ供給する。音源生成部 108は、乗算部 110、 111から出力された 2つのベクトルを加算して音源ベクトルを生成し、これを適応符号帳 106 へフィードバックすると共に、合成フィルタ 109へ出力する。

[0043] 音源生成部 108は、乗算器 110から隠蔽処理用 ACB利得乗算後の ACBベクトルを、乗算器 111から隠蔽処理用 FCB利得乗算後の FCBベクトルを、それぞれ取得し、両者を加算したものを音源ベクトルとする。誤りなしの場合は、音源生成部 108は、この加算したベクトルを音源信号として適応符号帳 106にフィードバックすると共に、合成フィルタ 109へ出力する。

[0044] 合成フィルタ 109は、スィッチ 124を介して入力される線形予測係数 (LPC)で構成される線形予測フィルタであり、音源生成部 108から出力された駆動音源ベクトルを入力してフィルタ処理を行って、復号音声信号を出力する。

[0045] 出力された復号音声信号は、ポストフィルタなどの後処理の後、音声復号化装置の最終出力となる。また、消失フレーム隠蔽処理部 112内の零交差率算出部（図示せず）にも出力される。

[0046] 次に、隠蔽処理における本実施の形態に係る音声復号化装置の動作について説明する。この処理は、主に消失フレーム隠蔽処理部 112が司る。

[0047] 通常の復号ィ匕処理においても、 LPC復号部 102、ピッチ周期復号部 103、 ACB利得復号部 104、および FCB利得復号部 105で得られる各復号パラメータ (LPCパラメータ、ピッチ周期、 ACB利得、および FCB利得）は、消失フレーム隠蔽処理部 112 に供給されている。消失フレーム隠蔽処理部 112には、これらの 4種類の復号パラメータと、前フレームの復号音声 (合成フィルタ 109の出力）と、適応符号帳 106に保持されて、る過去の生成音源信号と、現フレーム（消失フレーム）用に生成された ACB ベクトルと、現フレーム（消失フレーム）用に生成された FCBベクトルと、が入力される。消失フレーム隠蔽処理部 112は、これらのパラメータを用いて後述の消失フレームの隠蔽処理を行い、得られる LPCパラメータ、ピッチ周期、 ACB利得、固定符号帳符号、 FCB利得、 ACBベクトル、および FCBベクトルを出力する。

[0048] 隠蔽処理用 ACBベクトル、隠蔽処理用 ACB利得、隠蔽処理用 FCBベクトル、および隠蔽処理用 FCB利得が生成され、隠蔽処理用 ACBベクトルは乗算器 110へ、隠蔽処理用 ACB利得は乗算器 110へ、隠蔽処理用 FCBベクトルは切替えスィッチ 12 5を介して乗算器 111へ、隠蔽処理用 FCB利得は切替えスィッチ 126を介して乗算器 111へ、それぞれ出力される。

[0049] 音源生成部 108は、隠蔽処理時に、 ACB成分生成部 134へ入力される（LPF処理前の） ACBベクトルに隠蔽処理用 ACB利得を乗じたベクトルを適応符号帳 106にフィードバックし (適応符号帳 106は ACBベクトルのみで更新する）、上記の加算処理によって得られたベクトルを合成フィルタの駆動音源とする。なお、誤りなしの場合と同様、合成フィルタの駆動音源には位相拡散処理やピッチ周期性強化を図る処理を加えても良い。

[0050] なお、上記の説明において、消失フレーム隠蔽処理部 112および音源生成部 108 が実施の形態 1における補償フレーム生成部に相当する。また、雑音性付加の処理において使用される固定符号帳 (実施の形態 1では固定符号帳 145)は、音声復号化装置の固定符号帳 107で代用されている。

[0051] このように、本実施の形態によれば、本発明に係る補償フレーム生成部を音声復号化装置に搭載することができる。

[0052] なお、 AMR方式では、後述の FCB符号生成部 140に相当する処理は、 1フレームの復号処理を開始する前に 1フレーム分のビット列をランダムに生成することによって行われており、必ずしも FCB符号のみを個別に生成する手段を備える必要はない。

[0053] また、合成フィルタ 109に出力される音源信号と、適応符号帳 106へフィードバックされる音源信号とは必ずしも同じものである必要はない。例えば、合成フィルタ 109 へ出力される音源信号の生成時には、 AMR方式のように、 FCBベクトルに対して位相拡散処理を適用したり、ピッチ周期性強化を図る処理を加えたりしても良い。このとき、適応符号帳 106へ出力される信号の生成方法は、エンコーダ側の構成と一致させる。これにより、主観的品質をより改善できる場合がある。

[0054] また、本実施の形態では、消失フレーム隠蔽処理部 112に FCB利得復号部 105から FCB利得が入力されている力これは必ずしも必要ない。上述した方法で隠蔽処理用 FCB利得を算出する前に仮の隠蔽処理用 FCB利得が必要な場合のために、仮の隠蔽処理用 FCB利得を求めるような場合に必要となる。あるいは、有限語長の固定小数点演算の場合に、ダイナミックレンジを狭めて演算精度の劣化を防ぐために、上記 FCBベクトル Fにこの仮の隠蔽処理用 FCB利得を予め乗算しておく場合にも必要となる。

[0055] (実施の形態 3)

有声と無声の間の中間的な性質を有する消失フレームに対しては、図 4に示すように、適応符号帳および固定符号帳の双方を用いて、これらの符号帳から生成される音源ベクトルをミキシングして補償フレームを生成することが望ましい。しかし、例えば、こういう中間的な信号は、雑音性を有するため有声性が低くなつている場合もあれば、パヮが変化しているため有声性が低くなつている場合、または過渡部 ·立ち上がり付近'語尾付近であるために有声性が低くなつている場合等、様々なケースがあり、ランダムに生成した固定符号帳を固定的に使用して音源信号を生成するという構成を採ると、復号音声に雑音感を生じて主観品質が劣化する。

[0056] 一方、 CELP方式の音声復号化は、過去に生成した音源信号を適応符号帳に記憶しておいて、この音源信号を用いて現在の入力信号に対する音源信号を表すモデルを生成する。すなわち、適応符号帳に記憶された音源信号を再帰的に用いることとなる。よって、一旦音源信号が雑音的なものとなると、後続のフレームにおいても影響が伝播して雑音的になるという問題がある。

[0057] そこで、本実施の形態では、図 5に示すように、適応符号帳で生成される音源のうち、一部の周波数帯域のみを固定符号帳で生成される雑音的な信号で置換することにより、雑音が主観品質に与える影響を極力少なくする。より具体的には、適応符号帳で生成される音源の高域のみを固定符号帳で生成される雑音的な信号で置換する。高域成分が雑音的であることは実際の音声信号において観察されることであり、全帯域を均一的に雑音化するよりも自然な主観品質を得やすいからである。 [0058] また、本実施の形態では、雑音性を付加するにあたり、モード判定部を新たに備え、判定された音声モードに基づいて雑音性付加部において雑音を付加する信号帯域を切り替え、付加する雑音性に強弱を付ける。

[0059] なお、帯域制限した適応符号帳および固定符号帳から生成される音源ベクトルを用いて音源信号を合成すると、うことは、正常フレームである前フレームにおヽて求まって、る ACB利得および FCB利得をそのまま使用できなヽと、うことを意味して!/ヽる。帯域制限しない適応符号帳および固定符号帳から生成される音源ベクトルの合成ベクトルの利得は、帯域制限した適応符号帳および固定符号帳から生成される音源ベクトルの利得とは異なるからである。そこで、フレーム間のエネルギが不連続となることを防止するためには、実施の形態 1で示した補償フレーム生成部が必要となる

[0060] また、固定符号帳によって生成される音源ベクトルをミキシングするに際し、実施の形態 1で示した雑音性付加部を転用することができる。

[0061] これにより、音声信号の特徴 (音声モード)に応じて復号音源信号の雑音化を行う信号帯域を切り替えることができる。例えば、周期性が低く雑音性が高いモードでは雑音を付加する信号帯域を広くし、周期性が強く有声性が高いモードでは雑音を付加する信号帯域を狭くすることで、復号合成音声信号の主観的な品質をより自然性の高、ものにすることができる。

[0062] 図 6は、本発明の実施の形態 3に係る補償フレーム生成部 100aの主要な構成を示すブロック図である。なお、この補償フレーム生成部 100aは、実施の形態 1に示した補償フレーム生成部 100と同様の基本的構成を有しており、同一の構成要素には同一の符号を付し、その説明を省略する。

[0063] モード判定部 138は、過去の復号ピッチ周期の履歴と、過去の復号合成音声信号の零交差率と、過去の平滑化復号 ACB利得と、過去の復号音源信号のエネルギ変化率と、連続消失フレーム数と、を用いて復号音声信号のモード判定を行う。雑音性付加部 116aは、モード判定部 138で判定されたモードに基づいて、雑音を付加する信号帯域を切り替える。

[0064] 図 7は、雑音性付加部 116a内部の主要な構成を示すブロック図である。なお、この雑音性付加部 116aは、実施の形態 1に示した雑音性付加部 116と同様の基本的構成を有しており、同一の構成要素には同一の符号を付し、その説明を省略する。

[0065] フィルタ遮断周波数切替え部 137は、モード判定部 138から出力されるモード判定結果に基づいてフィルタ遮断周波数を決定し、 ACB成分生成部 134および FCB成分生成部 141に対応するフィルタ係数を出力する。

[0066] 図 8は、上記の ACB成分生成部 134内部の主要な構成を示すブロック図である。

[0067] ACB成分生成部 134は、ベクトル生成部 115から出力された ACBベクトルを、 BFI が消失フレームを示す場合に LPF (低域通過フィルタ） 161を通過させることで雑音を付カ卩しない帯域の成分を ACB成分として生成する。この LPF161は、フィルタ遮断周波数切替え部 137から出力されるフィルタ係数によって構成される直線位相 FIRフィルタである。フィルタ遮断周波数切替え部 137は、複数種類の遮断周波数に対応したフィルタ係数セットを格納しており、モード判定部 138から出力されたモード判定結果に対応するフィルタ係数を選んで LPF 161に出力する。

[0068] フィルタの遮断周波数と音声モードとの対応関係は、例えば以下のようなものである。これは、電話帯域音声で音声モードが 3モード構成の例である。

有声モード：遮断周波数 = 3kHz

雑音モード：遮断周波数 = OHz (全帯域遮断 = ACBベクトルはゼロベクトル）その他モード:遮断周波数 = lkHz

[0069] 図 9は、上記の FCB成分生成部 141内部の主要な構成を示すブロック図である。

[0070] ベクトル生成部 146から出力された FCBベクトルは、 BFIが消失フレームを示す場合に高域通過フィルタ（HPF) 171に入力される。 HPF171は、フィルタ遮断周波数切替え部 137から出力されるフィルタ係数によって構成される直線位相 FIRフィルタである。フィルタ遮断周波数切替え部 137は、複数種類の遮断周波数に対応したフィルタ係数セットを格納しており、モード判定部 138から出力されたモード判定結果に対応するフィルタ係数を選んで HPF 171に出力する。

[0071] フィルタの遮断周波数と音声モードとの対応関係は、例えば以下のようなものである。ここでも、電話帯域音声で音声モードが 3モード構成の例である。

有声モード：遮断周波数 = 3kHz 雑音モード：遮断周波数 = OHz (全帯域通過 =入力した FCBベクトルをそのまま出力）

その他モード:遮断周波数 = lkHz

[0072] このとき、最終的な FCBベクトルは、以下の（式 3)で示されるようなピッチ周期化処理によって周期性を強調したものとすると周期性を有する信号を生成する場合に効果的である。

c(n) = c(n)+ j8 c(n-T) [n=T, T+ l, · ··, L— 1] …（式 3)

(ただし、 c(n)は FCBベクトル、 /3はピッチ周期ィ匕利得係数、 Tはピッチ周期、 Lはサブフレーム長）

[0073] 本実施の形態に係る補償フレーム生成部を実施の形態 2で示した音声復号化装置に搭載すると次のようになる。図 10は、本実施の形態に係る音声復号化装置内部の消失フレーム隠蔽処理部 112の主要な構成を示すブロック図である。なお、既に説明したブロック図については、同じ符号を付し、その説明を基本的に省略する。

[0074] LPC生成部 136は、過去に入力された復号 LPC情報に基づいて隠蔽処理用 LPC パラメータを生成し、これを切替えスィッチ 124を介して合成フィルタ 109へ出力する。例えば、隠蔽処理用 LPCパラメータの生成方法は、例えば、 AMR方式では直前の LSPパラメータを平均的な LSPパラメータに近づけたものを隠蔽処理用 LSPパラメータとし、これを LPCパラメータに変換したものを隠蔽処理用 LPCパラメータとする。なお、フレーム消失が長時間（例えば、 20msフレームで 3フレーム以上）続く場合は、 LPCパラメータに重みづけを行い、合成フィルタの帯域幅の拡張を行って白色化を行っても良い。この重みづけは、 LPC合成フィルタの伝達関数を lZA(z)とすれば、 ΙΖΑ(ΖΖ Ύ )で表され、 0の値は 0. 99-0. 97程度の値か、その値を初期値として徐々に下げていくものとする。なお、 lZA(z)は、以下の（式 4)に従う。

l/A(z) = l/ (l +∑a (i) z^_i) …（式 4)

(ただし、 i= l, · ··, p (pは LPC分析次数)）

[0075] ピッチ周期生成部 131は、モード判定部 138におけるモード判定の後、ピッチ周期を生成する。具体的には、 AMR方式の 12. 2kbpsモードの場合、直前の正常サブフレームの復号ピッチ周期 (整数精度)を消失フレームにおけるピッチ周期として出力する。すなわち、ピッチ周期生成部 131は、復号ピッチを保持するメモリを備え、サブフレーム毎にその値を更新し、誤り時にそのノッファの値を隠蔽処理時のピッチ周期として出力する。なお、適応符号帳 106は、ピッチ周期生成部 131から出力されたこのピッチ周期から、対応する ACBベクトルを生成する。

[0076] FCB符号生成部 140は、生成した FCB符号を切替えスィッチ 127を介して固定符号帳 107に出力する。

[0077] 固定符号帳 107は、 FCB符号に対応する FCBベクトルを FCB成分生成部 141〖こ出力する。

[0078] 零交差率算出部 142は、合成フィルタから出力された合成信号を入力し、零交差率を計算してモード判定部 138に出力する。ここで、零交差率は、直前 1ピッチ周期の信号の特徴を抽出するため（一番時間的に近、部分での特徴を反映させるため）に、直前 1ピッチ周期を用いて算出するのが良い。

[0079] 上記のように生成された各パラメータ、具体的には、隠蔽処理用 ACBベクトルは切替えスィッチ 123を介して乗算器 110へ、隠蔽処理用 ACB利得は切替えスィッチ 12 2を介して乗算器 110へ、隠蔽処理用 FCBベクトルは切替えスィッチ 125を介して乗算器 111へ、隠蔽処理用 FCB利得は切替えスィッチ 126を介して乗算器 111へ、それぞれ出力される。

[0080] 図 11は、モード判定部 138内部の主要な構成を示すブロック図である。

[0081] モード判定部 138は、ピッチ履歴分析の結果と、平滑化ピッチ利得と、エネルギ変化情報と、零交差率情報と、消失フレームの連続数と、を用いてモード判定を行う。本発明のモード判定は、フレーム消失隠蔽処理用のものであるので、フレームで 1回 (正常フレームの復号処理が終わってから、最初にモード情報が使われる隠蔽処理を行うまでの間）行えば良ぐ本実施の形態では第 1サブフレームの音源復号処理の冒頭で行う。

[0082] ピッチ履歴分析部 182は、過去複数サブフレーム分の復号ピッチ周期情報をバッファに保持しており、過去のピッチ周期の変動が大きいか小さいかによつて有声定常性を判定する。より具体的には、ノッファ内の最大ピッチ周期と最小ピッチ周期との差が所定の閾値 (例えば、最大ピッチ周期の 15%または 10サンプル (8kHzサンプリング時)の、ずれか小さ、方）以内におさまってヽれば有声定常性が高、と判定する

。ピッチ周期のバッファ更新は、 1フレーム分のピッチ周期情報をバッファリングしているのであれば 1フレームに 1回（一般的にはフレーム処理の最後で)行えば良いし、そうでない場合はサブフレームに 1回（一般的にはサブフレーム処理の最後で)行えば良い。保持するピッチ周期の数は直前 4サブフレーム（20ms)程度とする。ピッチ変化の大きさだけで判定する事により、倍ピッチ誤り（ピッチ周期を半分に誤る)ゃ半ピツチ誤り (ピッチ周期を 2倍に誤る）時は有声定常とは判定されず、倍ピッチや半ピッチの情報を用いて隠蔽処理を行った場合に生じる「声が裏返る」ようなことがなくなる

[0083] 平滑化 ACB利得算出部 183は、復号 ACB利得のサブフレーム間変動をある程度抑えるためのサブフレーム間平滑ィ匕処理を行う。例えば、次式で表される程度の平滑化処理とする。

(平滑化 ACB利得） =0. 7 X (平滑化 ACB利得） +0. 3 X (復号 ACB利得）算出された平滑化 ACB利得が閾値 (例えば 0. 7)を超える場合は有声性が高いと判定する。

[0084] 判定部 184は、上記のパラメータに加え、さらに、エネルギ変化情報と零交差率情報を用いてモード判定を行う。具体的には、ピッチ履歴分析結果で有声定常性が高ぐかつ、平滑化 ACB利得の閾値処理の結果有声性が高ぐかつ、エネルギ変化が閾値以下 (例えば 2未満)で、かつ、零交差率が閾値以下 (例えば 0. 7未満)の場合に有声 (有声定常)モードと判定し、零交差率が閾値以上 (例えば 0. 7以上)の場合は雑音 (雑音性信号)モードと判定し、それ以外の場合はその他 (立ち上がり '過渡）モードと判定する。

[0085] モード判定部 138は、モード判定を行った後、現フレームが連続何フレーム目の消失フレームかにより最終モード判定結果を決定する。具体的には、連続 2フレーム目までは上記モード判定結果を最終モード判定結果とし、連続 3フレーム目では上記モード判定結果が有声モードであった場合はその他モードに変更して最終モード判定結果とし、連続 4フレーム目以降は雑音モードとする。このような最終モード判定により、バーストフレーム消失時（3フレーム以上フレーム消失が続いた場合）にブザー音が発生することを防ぎ、あわせて時間と共に自然に復号信号が雑音化されるようにして、主観的な違和感を和らげることができる。連続何フレーム目の消失フレームかは、現フレームが正常フレームだったらカウンタを 0クリアし、そうでない場合にカウンタを 1ずつ増やすような連続消失フレーム数カウンタを備えれば、そのカウンタの値を参照することで判断できる。なお、 AMR方式の場合は、ステートマシンを備えているのでステートマシンのステートを参照すれば良！、。

[0086] このように、本実施の形態によれば、有声部の隠蔽処理時に雑音感の発生を防止し、直前サブフレームの利得が偶然小さい値になっているような場合でも、隠蔽処理時に音切れが生じることを防止することができる。

[0087] また、以上の構成にぉ、て、モード判定部 138は、デコーダ側でピッチ分析を行わずにモード判定を行うことができるので、デコーダでのピッチ分析を行わな、コーデックへの適用時に演算量の増加を少なくすることができる。

[0088] また、以上の構成において、消失フレームの連続数によって付加する雑音の帯域を変化させるので、隠蔽処理によるブザー音の発生を抑える事ができる。

[0089] (実施の形態 4)

図 12は、本発明に係る音声復号ィ匕装置を無線通信システムに適用した場合の、無線送信装置 300およびこれに対応する無線受信装置 310の主要な構成を示すプロック図である。

[0090] 無線送信装置 300は、入力装置 301、 AZD変換装置 302、音声符号化装置 303 、信号処理装置 304、 RF変調装置 305、送信装置 306、およびアンテナ 307を有している。

[0091] AZD変換装置 302の入力端子は、入力装置 301の出力端子に接続されている。

音声符号化装置 303の入力端子は、 AZD変換装置 302の出力端子に接続されている。信号処理装置 304の入力端子は、音声符号化装置 303の出力端子に接続されている。 RF変調装置 305の入力端子は、信号処理装置 304の出力端子に接続されている。送信装置 306の入力端子は、 RF変調装置 305の出力端子に接続されている。アンテナ 307は、送信装置 306の出力端子に接続されている。

[0092] 入力装置 301は、音声信号を受けてこれを電気信号であるアナログ音声信号に変換し、 AZD変換装置 302に与える。 AZD変換装置 302は、入力装置 301からのァナログの音声信号をディジタル音声信号に変換し、これを音声符号化装置 303へ与える。音声符号化装置 303は、 AZD変換装置 302からのディジタル音声信号を符号ィ匕して音声符号ィ匕ビット列を生成し信号処理装置 304に与える。信号処理装置 30 4は、音声符号ィ匕装置 303からの音声符号ィ匕ビット列にチャネル符号ィ匕処理ゃパケットイ匕処理及び送信バッファ処理等を行った後、その音声符号ィ匕ビット列を RF変調装置 305に与える。 RF変調装置 305は、信号処理装置 304からのチャネル符号ィ匕処理等が行われた音声符号ィ匕ビット列の信号を変調して送信装置 306に与える。送信装置 306は、 RF変調装置 305からの変調された音声符号ィ匕信号を、アンテナ 30 7を介して電波 (RF信号）として送出する。

[0093] 無線送信装置 300においては、 AZD変換装置 302を介して得られるディジタル音声信号に対して数十 msのフレーム単位で処理が行われる。システムを構成するネットワークがパケット網である場合には、 1フレーム又は数フレームの符号ィ匕データを 1 つのパケットに入れこのパケットをパケット網に送出する。なお、前記ネットワークが回線交換網の場合には、パケットィ匕処理や送信バッファ処理は不要である。

[0094] 無線受信装置 310は、アンテナ 311、受信装置 312、 RF復調装置 313、信号処理装置 314、音声復号化装置 315、 DZA変換装置 316、および出力装置 317を有している。なお、音声復号化装置 315に、本実施の形態に係る音声復号化装置が使用されている。

[0095] 受信装置 312の入力端子は、アンテナ 311に接続されている。 RF復調装置 313の入力端子は、受信装置 312の出力端子に接続されている。信号処理装置 314の入力端子は、 RF復調装置 313の出力端子に接続されている。音声復号化装置 315の入力端子は、信号処理装置 314の出力端子に接続されている。 DZA変器案装置 3 16の入力端子は、音声復号ィ匕装置 315の出力端子に接続されている。出力装置 31 7の入力端子は、 DZA変換装置 316の出力端子に接続されている。

[0096] 受信装置 312は、アンテナ 311を介して音声符号ィ匕情報を含んでいる電波 (RF信号)を受けてアナログの電気信号である受信音声符号ィ匕信号を生成し、これを RF復調装置 313に与える。アンテナ 311を介して受けた電波 (RF信号）は、伝送路において信号の減衰や雑音の重畳がなければ、音声信号送信装置 300において送出された電波 (RF信号）と全く同じものになる。 RF復調装置 313は、受信装置 312からの受信音声符号化信号を復調し信号処理装置 314に与える。信号処理装置 314は、 RF 復調装置 313からの受信音声符号ィ匕信号のジッタ吸収バッファリング処理、パケット組みたて処理およびチャネル復号化処理等を行!ヽ、受信音声符号化ビット列を音声復号ィ匕装置 315に与える。音声復号化装置 315は、信号処理装置 314からの受信音声符号ィ匕ビット列の復号ィ匕処理を行って復号音声信号を生成し DZA変換装置 3 16へ与える。 DZA変換装置 316は、音声復号化装置 315からのディジタル復号音声信号をアナログ復号音声信号に変換して出力装置 317に与える。出力装置 317 は、 DZA変換装置 316からのアナログ復号音声信号を空気の振動に変換し音波として人間の耳に聞こえる様に出力する。

[0097] このように、本実施の形態に係る音声復号化装置は、無線通信システムに適用することができる。なお、本実施の形態に係る音声復号化装置は、無線通信システムに限らず、例えば、有線通信システムにも適用できることは言うまでもない。

[0098] 以上、本発明の各実施の形態について説明した。

[0099] 本発明に係る音声復号化装置および補償フレーム生成方法は、上記の実施の形態 1〜4に限定されず、種々変更して実施することが可能である。

[0100] また、本発明に係る、音声復号化装置、無線送信装置、無線受信装置、および補償フレーム生成方法は、移動体通信システムにおける通信端末装置および基地局装置に搭載することが可能であり、これにより上記と同様の作用効果を有する通信端末装置、基地局装置、および移動体通信システムを提供することができる。

[0101] また、本発明に係る音声復号化装置は、有線通信システムにおいても利用可能であり、これにより、上記と同様の作用効果を有する有線通信システムを提供することができる。

[0102] なお、ここでは、本発明をノヽードウエアで構成する場合を例にとって説明したが、本発明はソフトウェアで実現することも可能である。例えば、本発明に係る補償フレーム生成方法のアルゴリズムをプログラミング言語によって記述し、このプログラムをメモリに記憶しておいて情報処理手段によって実行させることにより、本発明に係る音声復号ィ匕装置と同様の機能を実現することができる。

[0103] また、上記各実施の形態の説明に用いた各機能ブロックは、典型的には集積回路である LSIとして実現される。これらは個別に 1チップ化されても良いし、一部または全てを含むように 1チップィ匕されても良い。

[0104] また、ここでは LSIとした力集積度の違いによって、 IC、システム LSI、スーパー L

SI、ウノレ卜ラ LSI等と呼称されることちある。

[0105] また、集積回路化の手法は LSIに限るものではなぐ専用回路または汎用プロセッサで実現しても良い。 LSI製造後に、プログラム化することが可能な FPGA (Field Pro grammable Gate Array)や、 LSI内部の回路セルの接続もしくは設定を再構成可能なリコンフィギユラブル ·プロセッサを利用しても良、。

[0106] さらに、半導体技術の進歩または派生する別技術により、 LSIに置き換わる集積回路化の技術が登場すれば、当然、その技術を用いて機能ブロックの集積ィ匕を行っても良い。バイオ技術の適応等が可能性としてあり得る。

[0107] 本明細書は、 2004年 7月 20日出願の特願 2004— 212180に基づく。この内容はすべてここに含めておく。

産業上の利用可能性

[0108] 本発明に係る音声復号化装置および補償フレーム生成方法は、移動体通信システム等の用途に適用できる。

Claims

請求の範囲

[1] 音源信号を生成する適応符号帳と、

前記音源信号のサブフレーム間のエネルギ変化を算出する算出手段と、前記エネルギ変化に基づいて前記適応符号帳の利得を決定する決定手段と、前記適応符号帳の利得を用いて消失フレームに対する補償フレームを生成する生成手段と、

を具備する音声復号化装置。

[2] 前記補償フレームの一部の周波数帯域を雑音化する雑音化手段、

をさらに具備する請求項 1記載の音声復号化装置。

[3] 前記雑音化手段は、

前記補償フレームの高周波数帯域を雑音化する、

請求項 2記載の音声復号化装置。

[4] 前記雑音化手段は、

前記消失フレームより過去のフレームの音声モードに従、、雑音化する前記一部の周波数帯域を決定する、

請求項 2記載の音声復号化装置。

[5] 前記雑音化手段は、

消失フレームの連続数に従い、雑音化する前記一部の周波数帯域を広げる、請求項 2記載の音声復号化装置。

[6] 請求項 1記載の音声復号化装置を具備する通信端末装置。

[7] 請求項 1記載の音声復号化装置を具備する基地局装置。

[8] 適応符号帳で生成される音源信号のサブフレーム間のエネルギ変化を算出する算出ステップと、

前記エネルギ変化に基づいて前記適応符号帳の利得を決定する決定ステップと、前記適応符号帳の利得を用いて消失フレームに対する補償フレームを生成する生成ステップと、

を具備する補償フレーム生成方法。