JPWO2007000988A1

JPWO2007000988A1 - スケーラブル復号装置および消失データ補間方法

Info

Publication number: JPWO2007000988A1
Application number: JP2007523948A
Authority: JP
Inventors: 河嶋　拓也; 拓也河嶋; 江原　宏幸; 宏幸江原
Original assignee: Panasonic Corp; Matsushita Electric Industrial Co Ltd
Current assignee: Panasonic Corp; Panasonic Holdings Corp
Priority date: 2005-06-29
Filing date: 2006-06-27
Publication date: 2009-01-22
Anticipated expiration: 2026-06-27
Also published as: EP1898397B1; US8150684B2; EP1898397A1; US20090141790A1; EP1898397A4; JP5100380B2; CN101213590B; CN101213590A; WO2007000988A1; DE602006009931D1

Abstract

帯域スケーラブル符号化における消失データ補間処理において、復号信号の品質劣化を防止することができるスケーラブル復号装置を開示する。この装置において、コアレイヤ復号部（１０１）は、復号によって、コアレイヤ復号信号および狭帯域スペクトル情報を得る。狭帯域スペクトル傾き算出部（１０３）は、狭帯域スペクトル情報に基づいて、狭帯域スペクトルの減衰直線の傾きを算出する。拡張レイヤ消失検出部（１０４）は、拡張レイヤ符号化データに消失があるか否かを検出する。拡張レイヤ復号部（１０５）は、通常は、拡張レイヤ符号化データを復号し、拡張レイヤ消失時は、復号に必要なパラメータを補間し、補間したパラメータによって補間復号信号を合成する。ここで、補間データのゲインは、狭帯域スペクトル傾き算出部（１０３）の算出結果に従って制御される。

Description

本発明は、スケーラブル復号装置および消失データ補間方法に関する。

スケーラブル音声符号化は、階層的に音声信号を符号化するので、ある階層（レイヤ）の符号化データ（符号化情報）が失われても、他の階層の符号化データから音声信号を復号できるという特徴を有する。スケーラブル音声符号化の中でも狭帯域音声信号と広帯域音声信号とを階層的に符号化するものを、帯域スケーラブル音声符号化と呼ぶ。

一般に帯域スケーラブル音声符号化では、最も基本となる階層では狭帯域信号を扱い、階層を重ねる毎に下位階層以上の広帯域信号を対象としていく。そこで、本明細書においては、最も基本（コア）となる符号化／復号化処理層をコアレイヤと呼び、コアレイヤからさらに高品質化および広帯域化を行う符号化／復号化処理層を拡張レイヤと呼ぶこととする。

そして、スケーラブル符号化に用いられる音声コーデックは、一部のレイヤの符号化データが失われても復号できるという特徴から、ＩＰ網のようなパケット通信路を用いて音声信号をデータとしてやりとりするＶｏＩＰ（ＶｏｉｃｅｏｖｅｒＩＰ）用の符号化として適している。

しかし、ベストエフォート型のパケット通信では、一般に伝送帯域は保証されず、一部のパケットが消失したり遅延したりすることによって符号化データの一部が欠落する可能性がある。例えば、輻輳等によって通信路のトラヒックが飽和すると、パケット破棄によって符号化データが伝送路途中で失われる。このような符号化データの欠落により、復号装置においては、全く復号を行うことができなかったり、コアレイヤの符号化情報のみを受信したり、拡張レイヤまでの情報を全て受信したり、という種々の状況が発生する。しかも、これらの状況は、時間経過に伴って入れ替わり立ち替わりで発生するので、例えば、コアレイヤの符号化情報のみを受信するフレームと、拡張レイヤまでの符号化情報まで含めて受信するフレームとを、時間的に切り替えて交互に復号しなければならない状況も起こり得る。かかる場合、レイヤの切替えが発生することで、音の大きさや、帯域の広がり感が不連続になり、復号信号の音質劣化につながる。

例えば、非特許文献１には、単層のＣＥＬＰを用いた音声コーデックにおけるフレーム消失補償処理において、フレーム消失時、信号合成に必要な各パラメータを過去の情報に基づいて補間する技術が開示されている。この消失データ補間技術において、特にゲインについては、過去の正常受信されたフレームに基づくゲインに基づき、このゲインに対して単調減少の関数を用いることによって、補間データに対して使用するゲインを表している。また、フレーム消失時から符号化データ受信時までにおけるゲイン制御については、ピッチゲインについては復号したピッチゲインを使用し、コードゲインに関しては消失期間中の補間した補間コードゲインと復号した現コードゲインとを比較し、値のより小さい方のコードゲインを使用している。
"ＡＭＲＳｐｅｅｃｈＣｏｄｅｃ；ＥｒｒｏｒＣｏｎｃｅａｌｍｅｎｔｏｆｌｏｓｔｆｒａｍｅｓ"ＴＳ２６．０９１

非特許文献１に開示の技術は、一般的なＣＥＬＰにおける消失データの補間に関する技術であり、データ消失期間中では、過去の情報だけに基づき補間ゲインを基本的に減少させている。これは補間期間が長引けば長引く程、復号補間音声が本来の復号音声とかけ離れていくため、異音の発生を防ぐために必要な動作である。

しかしながら、非特許文献１の技術をスケーラブル音声コーデックの拡張レイヤの消失データ補間処理に適用することを検討すると、拡張レイヤのデータが消失している期間中において、コアレイヤの復号音声パワー変動や拡張レイヤのゲイン減衰量の状況に応じて、補間データが、正常に復号しているコアレイヤの復号音声の品質に悪影響を与え、受聴者に異音感や変動感を与える可能性がある。すなわち、拡張レイヤ消失時にコアレイヤの復号音声パワーが急激に減少し、かつ拡張レイヤの補間ゲインの減衰が緩やかであった場合、補間を行うことによって却って拡張レイヤの復号信号の品質が劣化することがある。このとき、劣化した拡張レイヤの復号音声が目立てば、受聴者に異音感を与える結果となる。また、コアレイヤの復号音声パワーがあまり変動していない状態において、拡張レイヤの補間ゲインの減衰量を大きくしておくと、拡張レイヤの復号音声が急激に減衰するため、受聴者に変動感を与える結果となる。

よって、本発明の目的は、帯域スケーラブル符号化における消失データ補間処理において、復号信号の品質劣化を防止し、受聴者に異音感や変動感を与えることのないスケーラブル復号装置および消失データ補間方法を提供することである。

本発明のスケーラブル復号装置は、狭帯域信号の符号化データを復号する狭帯域復号手段と、広帯域信号の符号化データを復号する一方、当該符号化データが存在しない場合、代わりの補間データを生成する広帯域復号手段と、前記狭帯域信号の符号化データに基づいて、前記狭帯域信号のスペクトルの周波数方向の減衰具合を算出する算出手段と、前記減衰具合に応じて前記補間データのゲインを制御する制御手段と、を具備する構成を採る。

本発明によれば、帯域スケーラブル符号化における消失データ補間処理において、復号信号の品質劣化を防止し、受聴者に異音感や変動感を与えることを防止することができる。

実施の形態１に係るスケーラブル復号装置の主要な構成を示すブロック図狭帯域スペクトルの傾きの算出処理を説明するための図狭帯域スペクトルの傾きの算出処理を説明するための図実施の形態１に係る狭帯域スペクトル傾き算出部内部の主要な構成を示すブロック図実施の形態１に係る拡張レイヤ復号部内部の主要な構成を示すブロック図実施の形態１に係る拡張レイヤゲイン復号部内部の主要な構成を示すブロック図スペクトルパワーの偏りを説明するためのイメージ図復号された拡張レイヤの音源信号のパワーの推移を示す図復号された拡張レイヤの音源信号のパワーの推移を示す図

以下、本発明の実施の形態について、添付図面を参照して詳細に説明する。なお、本明細書においては、２つのレイヤからなる階層構造を例にとって説明を行うが、本発明は２つのレイヤに限定されるものではない。

（実施の形態１）
図１は、本発明の実施の形態１に係るスケーラブル復号装置の主要な構成を示すブロック図である。ここでは、拡張レイヤにおいて、コアレイヤよりも広帯域の信号に対し、ＣＥＬＰ（ＣｏｄｅＥｘｃｉｔｅｄＬｉｎｅａｒＰｒｅｄｉｃｔｉｏｎ）方式をベースとした音声符号化を施す場合を例にとって説明する。

本実施の形態に係るスケーラブル復号装置は、コアレイヤ復号部１０１、アップサンプリング／位相調整部１０２、狭帯域スペクトル傾き算出部１０３、拡張レイヤ消失検出部１０４、拡張レイヤ復号部１０５、および復号信号加算部１０６を備え、エンコーダ（図示せず）から送信されたコアレイヤ符号化データおよび拡張レイヤ符号化データを復号する。

本実施の形態に係るスケーラブル復号装置の各部は、以下の動作を行う。

コアレイヤ復号部１０１は、受信したコアレイヤ符号化データを復号し、得られる狭帯域信号であるコアレイヤ復号信号を、コアレイヤ復号信号分析部（図示せず）およびアップサンプリング／位相調整部１０２に出力する。また、コアレイヤ復号部１０１は、上記コアレイヤ符号化データに含まれる狭帯域スペクトル情報（狭帯域スペクトルの包絡、エネルギー分布等に関する情報）を狭帯域スペクトル傾き算出部１０３に出力する。

アップサンプリング／位相調整部１０２は、コアレイヤ復号信号と拡張レイヤ復号信号と間のサンプリングレート、遅延、および位相のずれを合わせる（補正する）処理を行う。ここでは、コアレイヤ復号信号を拡張レイヤ復号信号に合わせて変換する。ただし、コアレイヤ復号信号および拡張レイヤ復号信号のサンプリングレート、位相等が同一であるならば、ずれを補正する必要はなく、コアレイヤ復号信号を必要に応じて定数倍し出力する。出力信号は復号信号加算部１０６に出力される。

狭帯域スペクトル傾き算出部１０３は、コアレイヤ復号部１０１から出力される狭帯域スペクトル情報に基づいて、狭帯域スペクトルの周波数方向の減衰直線の傾きを算出し、この算出結果を拡張レイヤ復号部１０５に出力する。算出された狭帯域スペクトルの減衰直線の傾きは、拡張レイヤの消失データに対する補間データのゲイン（拡張レイヤ補間ゲイン）を制御する際に使用される。

拡張レイヤ消失検出部１０４は、拡張レイヤ符号化データに消失があるか否か、すなわち、拡張レイヤ符号化データを復号可能か否かを、符号化データと別個に送信された誤り情報に基づいて検出する。得られた拡張レイヤのフレーム誤り検出結果（拡張レイヤ消失情報）は、拡張レイヤ復号部１０５に出力される。なお、データ消失の検出方法としては、符号化データに付加されたＣＲＣ等の誤り検査符号の検査を行ったり、復号を開始する時間までに符号化データが未着であるか否かを判断したり、パケットロスやパケット未着を検出したりしても良い。また、拡張レイヤ復号部１０５で受信される符号化データの復号過程において、拡張レイヤ符号化データ内に含まれる誤り検出符号等により重大な誤りを検出した場合に、拡張レイヤ復号部１０５から拡張レイヤ消失検出部１０４にその誤り情報が入力されるようにしても良い。

拡張レイヤ復号部１０５は、通常は、受信した拡張レイヤ符号化データを復号し、得られる拡張レイヤ復号信号を復号信号加算部１０６に出力する。また、拡張レイヤ復号部１０５は、拡張レイヤ消失検出部１０４から拡張レイヤ消失情報（フレーム誤り）を通知された場合、すなわち、拡張レイヤのデータ消失時には、復号に必要なパラメータを補間し、補間したパラメータによって補間復号信号を合成し、これを拡張レイヤ復号信号として復号信号加算部１０６に出力する。ここで、補間データのゲインは、狭帯域スペクトル傾き算出部１０３の算出結果に従って制御される。

復号信号加算部１０６は、アップサンプリング／位相調整部１０２から出力されるコアレイヤ復号信号と、拡張レイヤ復号部１０５から出力される拡張レイヤ復号信号とを加算し、得られる復号信号を出力する。

図２および図３は、狭帯域スペクトル傾き算出部１０３で行われる狭帯域スペクトルの傾きの算出処理を説明するための図である。狭帯域スペクトル傾き算出部１０３は、線形予測係数の一種であるＬＳＰ（ＬｉｎｅＳｐｅｃｔｒｕｍＰａｉｒ）係数を用いて、以下に示すように、近似的に狭帯域スペクトルの減衰直線の傾きを算出する。

図２および図３の上段のスペクトルは、狭帯域スペクトルおよび広帯域スペクトルの例を示している。これらの図で、横軸は周波数、縦軸はパワーを表し、コアレイヤとして４ｋＨｚ以下の狭帯域信号を扱い、拡張レイヤとして８ｋＨｚ以下の広帯域信号を扱う場合を例にとっている。これらの図において、破線で示される曲線Ｓ１、Ｓ４が広帯域信号の周波数包絡であり、実線で示される曲線Ｓ２、Ｓ５が狭帯域信号の周波数包絡である。通常、ナイキスト周波数付近の狭帯域信号は広帯域信号と乖離するが、ナイキスト周波数以下の帯域における周波数パワー分布は近似する。また、実線で示される直線Ｓ３、Ｓ６が、狭帯域スペクトルの周波数方向の減衰直線である。この減衰直線は、狭帯域スペクトルの減衰具合を示した特性曲線であり、例えば、各サンプル点の回帰直線を求めることによって得られる。

図２の上段のスペクトルは、狭帯域スペクトルの減衰直線の傾き（以下、単に狭帯域スペクトルの傾きと呼ぶ）が緩やかな場合、図３の上段のスペクトルは狭帯域スペクトルの傾きが急峻な場合の例を示している。また、図２および図３の下段の信号は、図２および図３の上段に示された狭帯域スペクトルのＬＳＰ係数（分析次数Ｍを１０次とした場合）を示すものである。

ＬＳＰ係数の各次数成分は、一般的に、ホルマントのようにスペクトルパワーが集中する箇所においては、隣り合う次数成分どうしが互いに接近して配置され（ＬＳＰ係数の各次数成分が密集し）、エネルギーが集中していないホルマント間の谷の部分においては、隣り合う次数成分どうしが距離を空けて配置される傾向にある。ここで、ＬＳＰ係数の隣り合う次数とは、例えば次数ｉに対し次数ｉ＋１のように、連続する次数のことを意味する。

そして、実際、図２および図３の例においても、周波数ｆ０、ｆ１、ｆ２、ｆ３、ｆ４、ｆ５の近傍では、ＬＳＰ係数の各次数成分が密集し、特に、パワーが最も集中する第１ホルマント付近ではＬＳＰ係数の各次数成分間の距離が最も小さくなる傾向が見てとれる。しかも、図２の例では、広帯域信号は高帯域まで存在し、中帯域にもホルマントが見られる。かかる場合、ｆ１やｆ２付近のＬＳＰ係数の各次数成分間の距離も近くなる。一方、図３の例では、広帯域信号においても高帯域信号の強度が弱く、中帯域にもはっきりとしたホルマントが見られない。かかる場合、ｆ４やｆ５付近のＬＳＰ係数の各次数成分間の距離はｆ１やｆ２に比べて大きくなる。よって、逆に言えば、ＬＳＰ係数の各次数成分間の距離が小さい場合には、その箇所により高いエネルギーが存在している可能性が高い。

そこで、狭帯域スペクトル傾き算出部１０３は、ＬＳＰ係数の上記特徴に基づき、ＬＳＰ係数の隣り合う次数成分間の距離の２乗の逆数の和を、パワーの大小を判断する際の指標とする。そして、狭帯域全体（狭帯域ＬＳＰ係数の全次数成分）の疑似パワーと、狭帯域の高域部（以後、中帯域と呼ぶ）の疑似パワーとを求め、狭帯域全体の疑似パワーに対する中帯域の疑似パワーの比を、狭帯域スペクトルの減衰具合を示すパラメータと捉える。算出される比は、具体的には狭帯域スペクトルの傾きに相当していると考えることができ、この傾きが大きいときは、狭帯域スペクトルが急激に減衰しているということができる。

図４は、上記処理を実現する狭帯域スペクトル傾き算出部１０３内部の主要な構成を示すブロック図である。

狭帯域スペクトル傾き算出部１０３は、狭帯域全域パワー算出部１２１、中帯域パワー算出部１２２、および除算部１２３を備え、コアレイヤスペクトル包絡情報を表すＭ次のＬＳＰ係数が入力され、これを用いて狭帯域スペクトルの傾きを算出し、出力する。

狭帯域全域パワー算出部１２１は、入力される狭帯域ＬＳＰ係数Ｎｌｓｐ［ｔ］から、以下の式（１）に基づいて狭帯域全域の疑似パワーＮＬＳＰｐｏｗＡＬＬ［ｔ］を算出し、除算部１２３に出力する。

ここで、ｔはフレーム番号、Ｍは狭帯域ＬＳＰ係数の分析次数、ｉはＬＳＰ係数の次数（１≦ｉ≦Ｍ）を表す。

中帯域パワー算出部１２２は、狭帯域ＬＳＰ係数を入力とし、中帯域の疑似パワーを算出し、除算部１２３に出力する。ここで、中帯域の疑似パワーを算出するために、狭帯域ＬＳＰ係数の高域部の係数のみを使って疑似パワーを算出する。中帯域パワーＮＬＳＰｐｏｗＭＩＤ［ｔ］は、以下の式（２）に基づいて算出する。

除算部１２３は、以下の式（３）に従って中帯域パワーを狭帯域全域パワーで除算し、狭帯域スペクトルの傾きＮｔｉｌｔ［ｔ］を算出する。

算出された狭帯域スペクトルの傾きは、後述する拡張レイヤゲイン復号部１１２に出力される。

このように、狭帯域ＬＳＰ係数の特徴を使うことにより、狭帯域スペクトルの傾きを算出することができる。

なお、狭帯域スペクトルの分布によってＬＳＰ係数の位置が変わり、これに伴い中帯域の帯域も変わるため、狭帯域スペクトルの傾きの精度が低下することがある。しかし、この精度低下が、拡張レイヤの補間ゲインの減衰速度の聴感的な品質に影響を与えることはほとんどない。

図５は、拡張レイヤ復号部１０５内部の主要な構成を示すブロック図である。

符号化データ分離部１１１は、エンコーダ（図示せず）から送信された拡張レイヤ符号化データを入力とし、各符号帳別に符号化データを分離する。分離された符号化データは、拡張レイヤゲイン復号部１１２、拡張レイヤ適応符号帳復号部１１３、拡張レイヤ雑音符号帳復号部１１４、および拡張レイヤＬＰＣ復号部１１５に出力される。

拡張レイヤゲイン復号部１１２は、ピッチゲイン増幅部１１６およびコードゲイン増幅部１１７に与えるゲイン量を復号する。具体的には、拡張レイヤゲイン復号部１１２は、符号化データを復号して得られるゲインを、拡張レイヤ消失情報および狭帯域スペクトル傾き情報に基づいて制御する。得られたゲイン量は、ピッチゲイン増幅部１１６およびコードゲイン増幅部１１７にそれぞれ出力される。なお、符号化データが受信できなかった場合、過去の復号情報やコアレイヤ復号信号分析情報を用いて消失データが補間される。

拡張レイヤ適応符号帳復号部１１３には、過去の拡張レイヤ音源信号が拡張レイヤ適応符号帳に格納されており、エンコーダから送信された符号化データによりラグが特定され、このラグに相当するピッチ周期分の信号が切り出される。出力信号は、ピッチゲイン増幅部１１６に出力される。なお、符号化データが受信できなかった場合、過去のラグやコアレイヤの情報を用いて消失データが補間される。

拡張レイヤ雑音符号帳復号部１１４は、上記の拡張レイヤ適応符号帳によっては表現しきれない、すなわち周期成分には該当しない雑音的な信号成分を表現するための信号を生成する。この信号は、近年のコーデックにおいては、代数的に表現されることが多い。出力信号は、コードゲイン増幅部１１７に出力される。なお、符号化データが受信できなかった場合、拡張レイヤの過去の復号情報やコアレイヤの復号情報、もしくは乱数値等を用いて消失データが補間される。

拡張レイヤＬＰＣ復号部１１５は、エンコーダから送信された符号化データを復号し、得られる線形予測係数を合成フィルタのフィルタ係数用に拡張レイヤ合成フィルタ１１９に出力する。なお、符号化データが受信できなかった場合、過去に受信した符号化データを用いて消失データの補間を行ったり、コアレイヤのＬＰＣ情報をさらに用いて消失データの復号を行う。この際、コアレイヤと拡張レイヤとで線形予測の分析次数が異なる場合、コアレイヤのＬＰＣを次数拡張してから補間に使用する。

ピッチゲイン増幅部１１６は、拡張レイヤ適応符号帳復号部１１３の出力信号に対し、拡張レイヤゲイン復号部１１２から出力されるピッチゲインを乗じて増幅し、音源加算部１１８に出力する。

コードゲイン増幅部１１７は、拡張レイヤ雑音符号帳復号部１１４の出力信号に対し、拡張レイヤゲイン復号部１１２から出力されるコードゲインを乗じて増幅し、音源加算部１１８に出力する。

音源加算部１１８は、ピッチゲイン増幅部１１６およびコードゲイン増幅部１１７から出力される信号を加算することにより拡張レイヤ音源信号を生成し、これを拡張レイヤ合成フィルタ１１９に出力する。

拡張レイヤ合成フィルタ１１９は、拡張レイヤＬＰＣ復号部１１５から出力されたＬＰＣ係数によって合成フィルタを形成し、音源加算部１１８から出力された拡張レイヤ音源信号を入力として駆動することにより、拡張レイヤ復号信号を得る。この拡張レイヤ復号信号は、復号信号加算部１０６に出力される。なお、この拡張レイヤ復号信号に対し、さらにポストフィルタリング処理を行っても良い。

図６は、拡張レイヤゲイン復号部１１２内部の主要な構成を示すブロック図である。

拡張レイヤゲイン復号部１１２は、拡張レイヤゲイン符号帳復号部１３１、ゲイン選択部１３２、ゲイン減衰部１３４、過去ゲイン蓄積部１３５、およびゲイン減衰率算出部１３３を備え、拡張レイヤのデータ消失時に、過去の拡張レイヤのゲイン値と、狭帯域スペクトルの傾きの情報とによって、拡張レイヤの補間ゲインの制御を行う。具体的には、符号化データ、拡張レイヤ消失情報、および狭帯域スペクトルの傾きが入力され、ピッチゲインＧｅｐ［ｔ］およびコードゲインＧｅｃ［ｔ］の２種のゲインを出力する。

拡張レイヤゲイン符号帳復号部１３１は、符号化データを受け取ると、これを復号して、得られる復号ゲインＤＧｅｐ［ｔ］、ＤＧｅｃ［ｔ］を、ゲイン選択部１３２に出力する。

ゲイン選択部１３２には、拡張レイヤ消失情報と、復号ゲイン（ＤＧｅｐ［ｔ］、ＤＧｅｃ［ｔ］）と、過去ゲイン蓄積部１３５から出力される過去ゲインとが入力される。ゲイン選択部１３２は、拡張レイヤ消失情報によって、復号ゲインを用いるか、または過去ゲインを用いるかを選択し、選択したゲインをゲイン減衰部１３４に出力する。具体的には、符号化データを受信しているときには復号ゲインを出力し、データ消失時は過去ゲインを出力する。

ゲイン減衰率算出部１３３は、拡張レイヤ消失情報と狭帯域スペクトルの傾き情報とから、ゲイン減衰率を算出し、ゲイン減衰部１３４に出力する。

ゲイン減衰部１３４は、ゲイン減衰率算出部１３３で算出されたゲイン減衰率を、ゲイン選択部１３２からの出力に乗じることによって、減衰後のゲインを求め、これを出力する。

過去ゲイン蓄積部１３５は、ゲイン減衰部１３４によって減衰されたゲインを過去ゲインとして蓄積しておく。蓄積された過去ゲインは、ゲイン選択部１３２に出力される。

次に、本実施の形態に係るゲイン制御方法について、数式を交えて具体的に説明する。

ゲイン減衰率算出部１３３は、狭帯域スペクトルの傾きが緩やかな場合はゲイン減衰率を弱めに設定し、ゲインが緩やかに減衰するようにする。また、狭帯域スペクトルの傾きが大きい場合はゲイン減衰率を強めに設定し、ゲインが大きく減衰するようにする。ゲイン減衰率は、以下の式（４）を用いて算出される。

ここで、Ｇａｔｔ［ｔ］はゲイン減衰率、βは傾きを補正する係数で０．０より大きい正数、αは減衰率の幅を制御する係数で０．０＜α＜１．０の値をとる。ピッチゲインとコードゲインとで各係数を変更しても良い。

ゲイン減衰部１３４は、以下の式（５）、（６）に従って、ピッチゲインＧｅｐ［ｔ］およびコードゲインＧｅｃ［ｔ］を減衰させる。

次いで、本実施の形態に係るスケーラブル復号装置によって復号された拡張レイヤの音源信号について、具体例を交えながら説明する。

図７は、音声信号のスペクトルパワーの偏りの一例を示す図である。横軸が時間、縦軸が周波数を表す。斜線で示した帯域にパワーが集中していることを表している。

まず、話頭で子音成分の大部分が約４ｋＨｚ以上の高域に分布する。その後、およそＴ１以降は母音成分が続き、その母音成分は高域に高調波成分も伴って、Ｔ３付近までは高調波が存在する。一方、Ｔ３からＴ４の間では、約４ｋＨｚ以下の低域のうち、基本周波数に近い約２ｋＨｚ以下の高調波成分があまり減衰しないにも関わらず、中帯域（３ｋＨｚ付近）以上の高調波が急激に減衰し、高調波が存在しなくなる。この図に示した状況下では、拡張レイヤ音源パワーも急激に減少することになる。

図８および図９は、図７のスペクトルパワー分布を示す音声信号に対して音源補間処理をした際の、復号された拡張レイヤの音源信号のパワーの推移を示す図である。横軸は時間、縦軸はパワーを表し、拡張レイヤの音源信号のパワーＳ１２と共に、コアレイヤ復号信号のパワーＳ１１も示している。なお、Ｓ１２、Ｓ１１は、正常受信時のパワーを示している。

また、これらの図において、拡張レイヤ消失情報（受信／非受信情報）も併せて示している。図８の例では、時刻Ｔ１まで正常受信状態、Ｔ１からＴ２までデータ消失によって受信不可状態（非受信状態）、Ｔ２以降が正常受信状態である。また、図９の例では、Ｔ３まで正常受信状態、Ｔ３からＴ４まで非受信状態、Ｔ４以降が正常受信状態である。

図８の例は、本実施の形態に係るスケーラブル復号装置によって、ゲインの減衰速度が緩められる場合を示している（Ｌ２が該当）。この例では、Ｔ１に拡張レイヤを消失し、拡張レイヤでは音源の補間を始める。例えば、ゲインを定率で減衰させるような方法では、弱い減衰による帯域感の維持と強い減衰による異音の発生の回避という２つ相反する要求に対して、バランスをとれるような１つの値が設定される（Ｌ１が該当）。

一方、図８の例では、高調波が高域まで存在し、コアレイヤの中帯域にも高調波が存在するため、ホルマントが存在する可能性が非常に高い。かかる場合、狭帯域スペクトルの傾きは緩やかとなるため、本実施の形態に係るスケーラブル復号装置は、拡張レイヤゲインの減衰係数を弱めに設定する（Ｌ２）。これにより、高域の音源は過去や狭帯域信号との相関性が強くなるため、外挿し易くなり、自然な補間が可能となる。

図９の例は、本実施の形態に係るスケーラブル復号装置によって、ゲインの減衰速度が強められた場合を示している（Ｌ４が該当）。この例では、Ｔ３に拡張レイヤを消失し、拡張レイヤでは音源の補間を始める。例えば、ゲインを定率で減衰させるような方法では、図８の例と同様に、本来の拡張レイヤの音源パワーレベル（Ｓ１４）を上回るゲインにしか減衰しきれないため（Ｌ３）、本来であれば信号が無い帯域の信号をも過強調することになり、異音発生の原因となる。一方、本実施の形態に係るスケーラブル復号装置は、拡張レイヤゲインの減衰係数を強めに設定する（Ｌ４）。これにより、本来の拡張レイヤの音源パワーレベル（Ｓ１４）を下回るゲインに減衰することができ、より自然な補間が可能となる。

図９の例（Ｔ４付近）では、中帯域以上の高域側で高調波が存在せず、信号パワーが低域に大きく偏っている。かかる場合、本実施の形態に係るスケーラブル復号装置によれば、狭帯域スペクトルの傾きが急になっているため、拡張レイヤ補間ゲインの減衰速度を強めに設定する。そのため、本来信号が存在しない高域に対して過強調することを避けることができるため、異音の発生を回避することができる。

このように、本実施の形態によれば、拡張レイヤの符号化データ消失時に、狭帯域音声スペクトルの傾きを用いて拡張レイヤの補間データのゲインを適切に推定することにより、自然な補間音声を生成する。すなわち、拡張レイヤ消失時に、狭帯域スペクトル傾き算出部１０３で得られる狭帯域スペクトル傾きの結果に基づき、その傾きに応じて拡張レイヤの補間ゲインの減衰速度を制御する。具体的には、狭帯域スペクトルが高域側に向かって緩やかに減少している場合、拡張レイヤ補間ゲインの減衰を弱めることで帯域感を維持する。一方、狭帯域スペクトルが高域側に向かって急速に減少している場合には、拡張レイヤ補間ゲインの減衰を強めることでゲインの過大推定を防ぎ、異音の発生を防止する。

より詳細には、下位レイヤである狭帯域音声の周波数情報（包絡情報）から、狭帯域信号のスペクトルの傾きを算出し、この傾きが大きい場合、すなわち、高域側に対してパワー減少が大きい場合には、拡張レイヤの補間ゲインを抑圧し、上記傾きが小さい場合は拡張レイヤの補間ゲインの減衰を緩くする。

一般に狭帯域の信号から、より高域の信号を正確に推測にするのは困難であるため、拡張レイヤの消失が長くなるにつれて補間された広帯域信号は不正確になり音質劣化の原因となり得る。そのため、拡張レイヤ消失期間が長くなるにつれ拡張レイヤ補間信号を減衰し、帯域感が無いながらも（正常に受信しているため）正確な復号信号である狭帯域信号へと切替えていくことが望ましいと考えられる。そこで、本実施の形態では、上記を実現するための拡張レイヤのゲイン推定に、以下に示す音声、特に母音等の有声音の周波数的特徴を用いる。

すなわち、第１の特徴として、コアレイヤの帯域（狭帯域）のスペクトル分布（具体的には傾き）と、拡張レイヤまで含む帯域（広帯域）のスペクトル分布には相関性がある。換言すると、傾きが高域に向かって緩やかに減少している場合は、基本周波数の高調波が高域にも引き続き存在する可能性があり、従って高域側の信号にもパワーがあると考えられる。一方、傾きが高域に向かって急に減少している場合は、高調波が高域に存在する可能性が低く、従って高域側の信号にはパワーが小さいと考えられる。

第２の特徴として、コアレイヤ帯域の傾きが緩やかな信号は、過去の信号との相関性がある。母音等の有声音である場合は、高調波が高域まで存在するため傾きが緩やかになる。高調波は狭帯域の信号から推測しやすく、かつ低域側の信号と同様に緩やかに変化すると考えられるため過去の信号との相関性も高い。一方、コアレイヤ帯域の傾きが急に減少するような場合は、高域側に高調波が存在する可能性が低く高域側に信号がほとんどなかったり、過去の信号とは相関性の低い信号が存在すると考えられる。

以上の音声の特徴により、コアレイヤ帯域の傾きが緩やかな場合は、高帯域側の信号もパワー変動が緩やかであり過去の信号との相関性も高いため、拡張レイヤゲインの減衰を弱めに設定することで、自然な補償音声を得ることができる。一方、コアレイヤ帯域の傾きが急である場合は、高域側にパワーがもともと存在しない、もしくは過去とは相関性が低い信号が存在すると考えられ、拡張レイヤゲインの減衰を強めに設定することで、異音の発生を防ぐことができる。

すなわち、本実施の形態に係るスケーラブル復号装置により、拡張レイヤゲインを適切に推定することによって、拡張レイヤ復号信号の帯域感を維持しつつ異音の発生を抑えることができる。よって、拡張レイヤ消失に伴う異音感を抑制することができ、かつ帯域感を維持することができる。

なお、本実施の形態では、フレーム消失時に、狭帯域スペクトルの傾きに応じて拡張レイヤゲインの減衰速度を制御する場合を例にとって説明したが、拡張レイヤゲインをコアレイヤ復号信号のパワーもしくはコアレイヤのゲインに対する相対値で表し、この相対値を狭帯域スペクトル傾きに応じて制御しても良い。

また、本実施の形態では、補間の処理単位を、音声符号化の処理単位（フレーム）とした場合、すなわち各フレームごとに補間を行う場合を例にとって説明したが、フレームよりも短い、例えばサブフレーム等の一定時間を、補間の処理単位としても良い。

さらに、本実施の形態では、狭帯域スペクトルの傾き算出をする際に、狭帯域信号の符号化データを復号して得られるスペクトル情報を用いる場合を例にとって説明したが、狭帯域信号のスペクトル情報の代わりに、コアレイヤで得られる復号信号を用いても良い。すなわち、このコアレイヤ復号信号をＦＦＴ（高速フーリエ変換）により周波数変換し、その周波数分布に基づいて、狭帯域スペクトルの傾きを算出することが可能であるし、線形予測係数もしくは同等の周波数包絡情報を伝送している場合には、これらのパラメータから周波数包絡情報を得、これを用いて狭帯域スペクトルの傾きを算出しても良い。

以上、本発明の実施の形態について説明した。

本発明に係るスケーラブル復号装置および消失データ補間方法は、上記実施の形態に限定されず、種々変更して実施することが可能である。

本発明に係るスケーラブル復号装置は、移動体通信システムにおける通信端末装置および基地局装置に搭載することが可能であり、これにより上記と同様の作用効果を有する通信端末装置、基地局装置、および移動体通信システムを提供することができる。

なお、ここでは、本発明をハードウェアで構成する場合を例にとって説明したが、本発明をソフトウェアで実現することも可能である。例えば、本発明に係る消失データ補間方法のアルゴリズムをプログラミング言語によって記述し、このプログラムをメモリに記憶しておいて情報処理手段によって実行させることにより、本発明に係るスケーラブル復号装置と同様の機能を実現することができる。

また、上記各実施の形態の説明に用いた各機能ブロックは、典型的には集積回路であるＬＳＩとして実現される。これらは個別に１チップ化されても良いし、一部または全てを含むように１チップ化されても良い。

また、ここではＬＳＩとしたが、集積度の違いによって、ＩＣ、システムＬＳＩ、スーパーＬＳＩ、ウルトラＬＳＩ等と呼称されることもある。

また、集積回路化の手法はＬＳＩに限るものではなく、専用回路または汎用プロセッサで実現しても良い。ＬＳＩ製造後に、プログラム化することが可能なＦＰＧＡ（ＦｉｅｌｄＰｒｏｇｒａｍｍａｂｌｅＧａｔｅＡｒｒａｙ）や、ＬＳＩ内部の回路セルの接続もしくは設定を再構成可能なリコンフィギュラブル・プロセッサを利用しても良い。

さらに、半導体技術の進歩または派生する別技術により、ＬＳＩに置き換わる集積回路化の技術が登場すれば、当然、その技術を用いて機能ブロックの集積化を行っても良い。バイオ技術の適応等が可能性としてあり得る。

本明細書は、２００５年６月２９日出願の特願２００５−１８９５３２に基づく。この内容はすべてここに含めておく。

本発明に係るスケーラブル復号装置および消失データ補間方法は、移動体通信システムにおける通信端末装置、基地局装置等の用途に適用することができる。

そして、スケーラブル符号化に用いられる音声コーデックは、一部のレイヤの符号化データが失われても復号できるという特徴から、ＩＰ網のようなパケット通信路を用いて音声信号をデータとしてやりとりするＶｏＩＰ（Voice over IP）用の符号化として適している。

例えば、非特許文献１には、単層のＣＥＬＰを用いた音声コーデックにおけるフレーム消失補償処理において、フレーム消失時、信号合成に必要な各パラメータを過去の情報に基づいて補間する技術が開示されている。この消失データ補間技術において、特にゲインについては、過去の正常受信されたフレームに基づくゲインに基づき、このゲインに対して単調減少の関数を用いることによって、補間データに対して使用するゲインを表している。また、フレーム消失時から符号化データ受信時までにおけるゲイン制御については、ピッチゲインについては復号したピッチゲインを使用し、コードゲインに関しては消失期間中の補間した補間コードゲインと復号した現コードゲインとを比較し、値のより小さい方のコードゲインを使用している。
"AMR Speech Codec; Error Concealment of lost frames" ＴＳ２６．０９１

非特許文献１に開示の技術は、一般的なＣＥＬＰにおける消失データの補間に関する技
術であり、データ消失期間中では、過去の情報だけに基づき補間ゲインを基本的に減少させている。これは補間期間が長引けば長引く程、復号補間音声が本来の復号音声とかけ離れていくため、異音の発生を防ぐために必要な動作である。

（実施の形態１）
図１は、本発明の実施の形態１に係るスケーラブル復号装置の主要な構成を示すブロック図である。ここでは、拡張レイヤにおいて、コアレイヤよりも広帯域の信号に対し、ＣＥＬＰ（Code Excited Linear Prediction）方式をベースとした音声符号化を施す場合を例にとって説明する。

拡張レイヤ復号部１０５は、通常は、受信した拡張レイヤ符号化データを復号し、得られる拡張レイヤ復号信号を復号信号加算部１０６に出力する。また、拡張レイヤ復号部１０５は、拡張レイヤ消失検出部１０４から拡張レイヤ消失情報（フレーム誤り）を通知された場合、すなわち、拡張レイヤのデータ消失時には、復号に必要なパラメータを補間し、補間したパラメータによって補間復号信号を合成し、これを拡張レイヤ復号信号として
復号信号加算部１０６に出力する。ここで、補間データのゲインは、狭帯域スペクトル傾き算出部１０３の算出結果に従って制御される。

図２および図３は、狭帯域スペクトル傾き算出部１０３で行われる狭帯域スペクトルの傾きの算出処理を説明するための図である。狭帯域スペクトル傾き算出部１０３は、線形予測係数の一種であるＬＳＰ（Line Spectrum Pair）係数を用いて、以下に示すように、近似的に狭帯域スペクトルの減衰直線の傾きを算出する。

そこで、狭帯域スペクトル傾き算出部１０３は、ＬＳＰ係数の上記特徴に基づき、ＬＳＰ係数の隣り合う次数成分間の距離の２乗の逆数の和を、パワーの大小を判断する際の指標とする。そして、狭帯域全体（狭帯域ＬＳＰ係数の全次数成分）の疑似パワーと、狭帯
域の高域部（以後、中帯域と呼ぶ）の疑似パワーとを求め、狭帯域全体の疑似パワーに対する中帯域の疑似パワーの比を、狭帯域スペクトルの減衰具合を示すパラメータと捉える。算出される比は、具体的には狭帯域スペクトルの傾きに相当していると考えることができ、この傾きが大きいときは、狭帯域スペクトルが急激に減衰しているということができる。

音源加算部１１８は、ピッチゲイン増幅部１１６およびコードゲイン増幅部１１７から出力される信号を加算することにより拡張レイヤ音源信号を生成し、これを拡張レイヤ合
成フィルタ１１９に出力する。

一方、図８の例では、高調波が高域まで存在し、コアレイヤの中帯域にも高調波が存在するため、ホルマントが存在する可能性が非常に高い。かかる場合、狭帯域スペクトルの
傾きは緩やかとなるため、本実施の形態に係るスケーラブル復号装置は、拡張レイヤゲインの減衰係数を弱めに設定する（Ｌ２）。これにより、高域の音源は過去や狭帯域信号との相関性が強くなるため、外挿し易くなり、自然な補間が可能となる。

すなわち、第１の特徴として、コアレイヤの帯域（狭帯域）のスペクトル分布(具体的には傾き)と、拡張レイヤまで含む帯域(広帯域)のスペクトル分布には相関性がある。換言すると、傾きが高域に向かって緩やかに減少している場合は、基本周波数の高調波が高域にも引き続き存在する可能性があり、従って高域側の信号にもパワーがあると考えられる。一方、傾きが高域に向かって急に減少している場合は、高調波が高域に存在する可能性が低く、従って高域側の信号にはパワーが小さいと考えられる。

第２の特徴として、コアレイヤ帯域の傾きが緩やかな信号は、過去の信号との相関性が
ある。母音等の有声音である場合は、高調波が高域まで存在するため傾きが緩やかになる。高調波は狭帯域の信号から推測しやすく、かつ低域側の信号と同様に緩やかに変化すると考えられるため過去の信号との相関性も高い。一方、コアレイヤ帯域の傾きが急に減少するような場合は、高域側に高調波が存在する可能性が低く高域側に信号がほとんどなかったり、過去の信号とは相関性の低い信号が存在すると考えられる。

以上、本発明の実施の形態について説明した。

また、集積回路化の手法はＬＳＩに限るものではなく、専用回路または汎用プロセッサで実現しても良い。ＬＳＩ製造後に、プログラム化することが可能なＦＰＧＡ（Field Programmable Gate Array）や、ＬＳＩ内部の回路セルの接続もしくは設定を再構成可能なリコンフィギュラブル・プロセッサを利用しても良い。

Claims

狭帯域信号の符号化データを復号する狭帯域復号手段と、
広帯域信号の符号化データを復号する一方、当該符号化データが存在しない場合、代わりの補間データを生成する広帯域復号手段と、
前記狭帯域信号の符号化データに基づいて、前記狭帯域信号のスペクトルの周波数方向の減衰具合を算出する算出手段と、
前記減衰具合に応じて前記補間データのゲインを制御する制御手段と、
を具備するスケーラブル復号装置。
前記制御手段は、
前記減衰具合に応じて前記ゲインの減衰速度を制御する、
請求項１記載のスケーラブル復号装置。
前記減衰具合は、前記狭帯域信号のスペクトルの減衰直線の傾きである、
請求項１記載のスケーラブル復号装置。
前記制御手段は、
前記傾きが急なほど前記ゲインの減衰速度を早くする、
請求項３記載のスケーラブル復号装置。
前記狭帯域信号の符号化データは、前記狭帯域信号のスペクトル情報の符号化データを含む、
請求項１記載のスケーラブル復号装置。
前記算出手段は、
前記狭帯域信号の符号化データを復号して前記狭帯域信号のスペクトルを得、当該スペクトルから前記減衰具合を算出する、
請求項１記載のスケーラブル復号装置。
請求項１記載のスケーラブル復号装置を具備する通信端末装置。
請求項１記載のスケーラブル復号装置を具備する基地局装置。
狭帯域信号の符号化データを復号するステップと、
広帯域信号の符号化データを復号するステップと、
前記広帯域信号の符号化データが存在しない場合、代わりの補間データを生成するステップと、
前記狭帯域信号の符号化データに基づいて、前記狭帯域信号のスペクトルの周波数方向の減衰具合を算出するステップと、
前記減衰具合に応じて前記補間データのゲインを制御するステップと、
を具備する消失データ補間方法。