本発明は、音声信号等を階層化して符号化するスケーラブル符号化装置等に関する。
従来、移動体通信システムでは、電波資源等の有効利用のために、音声信号を低ビットレートで圧縮することが要求されている。その一方で、通話音声の品質向上や臨場感の高い通話サービスの実現も望まれており、その実現には、音声信号の高品質化のみならず、より帯域の広いオーディオ信号等の音声成分以外の信号成分も高品質に符号化する必要がある。
このような相反する要求を共に満たす手段として、複数の符号化技術を階層的に統合するアプローチが有望視されている。具体的には、音声信号に特化したモデルで音声成分を低ビットレートで符号化する第1レイヤ符号化部と、音声成分以外の信号成分をより汎用的なモデルで符号化する第2レイヤ符号化部と、を組み合わせるアプローチが検討されている。このような階層的符号化方式は、符号化されたビットストリームがスケーラビリティ性(ビットストリームの一部の情報からでも復号信号が得られる特性)を有するため、スケーラブル符号化方式と呼ばれる。
スケーラブル符号化方式は、その性質から、ビットレートの異なるネットワーク間の通信に柔軟に対応できる。この特徴は、IPプロトコルで多様なネットワークが統合されていく今後のネットワーク環境に適したものであると言える。
スケーラブル符号化の実現手段として、MPEG−4(Moving Picture Experts Group phase−4)で規格化された技術を用いる手段が知られている(例えば非特許文献1参照)。非特許文献1に記載の技術では、音声信号に特化した代表的な符号化方式であるCELP(Code Excited Linear Prediction:符号励信線形予測)方式を第1レイヤに適用し、原信号から第1レイヤ復号信号を減じた残差信号に対してより汎用的な符号化モデルであるAAC(Advanced Audio Coder)方式又はTwinVQ(Transform Domain Weighted Interleave Vector Quantization:周波数領域重み付きインターリーブベクトル量子化)方式を第2レイヤに適用する。この第2レイヤに適用される2つの方式は、異なる方式であるものの、基本的にはMDCT(Modified Discrete Cosine Transform;変形離散コサイン変換)係数の量子化を行う際にスペクトルの大まかな形状を表すスペクトル概形情報と、残りの細かなスペクトル形状を表すスペクトル微細情報と、に分離し、それぞれ符号化する点で共通する。
三木弼一編著、「MPEG−4のすべて」、初版、(株)工業調査会、1998年9月30日、p.126−127
しかしながら、非特許文献1に記載の技術では、第2レイヤにおいて、入力信号である原信号からその第1レイヤ復号信号を減じて得られる残差信号に対して符号化が行われることになる。このような残差信号の特性は、第1レイヤ部を介することにより原信号に含まれる主要な情報が取り除かれるため、雑音系列に近い特性となる。このため、非特許文献1に記載の技術では、第2レイヤでの符号化効率が低下すると共に、第2レイヤでの符号化信号を用いて原信号を復号しても、その原信号の品質が向上し難いという問題がある。
よって、本発明の目的は、第2レイヤでの符号化効率を改善すると共に、第2レイヤでの符号化信号を用いて復号した原信号の品質を向上させるスケーラブル符号化装置等を提供することである。
本発明に係るスケーラブル符号化装置は、入力信号を符号化して下位レイヤ符号化パラメータを生成する下位レイヤ符号化手段と、前記下位レイヤ符号化パラメータを復号して下位レイヤ復号信号を生成する下位レイヤ復号化手段と、前記入力信号に基づいて前記入力信号のスペクトル概形を算出する第1スペクトル概形算出手段と、前記下位レイヤ復号信号に基づいて前記下位レイヤ復号信号のスペクトル概形を算出する第2スペクトル概形算出手段と、前記下位レイヤ復号信号のスペクトル概形から前記入力信号のスペクトル概形を予測することにより予測情報を得、この予測情報を符号化して上位レイヤ符号化パラメータを生成する予測情報符号化手段と、前記下位レイヤ符号化パラメータと前記上位レイヤ符号化パラメータとを出力する出力手段と、を具備する構成を採る。
本発明に係るスケーラブル復号装置は、入力信号をスケーラブル符号化するスケーラブル符号化装置によって生成された符号化パラメータを復号するスケーラブル復号装置であって、前記符号化パラメータを復号して下位レイヤ復号信号を生成する下位レイヤ復号化手段と、前記符号化パラメータを復号することにより、前記入力信号のスペクトル概形を予測させる予測情報を生成する予測情報復号化手段と、前記下位レイヤ復号信号と前記予測情報とに基づいて前記入力信号のスペクトル概形を生成するスペクトル生成手段と、を具備する構成を採る。
本発明によれば、予測情報符号化手段が、下位レイヤ復号信号のスペクトル概形から入力信号のスペクトル概形を予測させる予測情報を生成して符号化し、符号化された予測情報を上位レイヤ符号化パラメータとして出力するため、この上位レイヤ符号化パラメータの符号化効率を改善できると共に、この上位レイヤ符号化パラメータを用いて復号した入力信号の品質を高めることができる。
実施の形態1に係るスケーラブル符号化装置の主要な構成を示すブロック図
実施の形態1における第2レイヤ符号化部の主要な構成を示すブロック図
実施の形態1における予測係数符号化部の主要な構成を示すブロック図
実施の形態1においてスペクトルとスペクトル概形との関係を説明する図
実施の形態1に係るスケーラブル復号装置の主要な構成を示すブロック図
実施の形態1における第2レイヤ復号化部の主要な構成を示すブロック図
実施の形態1における予測係数符号化部の応用例を示すブロック図
実施の形態1における予測係数符号化部の応用例を示すブロック図
実施の形態2において正弦波の符号化方式と生成されたスペクトルとの関係を説明する図
実施の形態2において正弦波の符号化方式と生成されたスペクトルとの関係を説明する図
実施の形態2において正弦波の符号化方式と生成されたスペクトルとの関係を説明する図
実施の形態2における第2レイヤ符号化部の主要な構成を示すブロック図
実施の形態2におけるスペクトル平滑部の主要な構成を示すブロック図
実施の形態2に係るスケーラブル復号装置の主要な構成を示すブロック図
実施の形態2においてMDCTによるスペクトルを平滑化する前後の態様を示す図
実施の形態3における第2レイヤ符号化部の主要な構成を示すブロック図
参考例に係る音声符号化装置における主要な構成要素の構成を示すブロック図
参考例に係る音声復号装置における主要な構成要素の構成を示すブロック図
実施の形態2におけるスケールファクタの量子化性能を計算機シミュレーションにより算出した結果の一例を示す図
本発明は、スケーラブル符号化の第2レイヤ符号化部において、入力信号である原信号のスペクトル形状を所定の周波数帯域毎に大まかに捉えたスペクトル概形と、第1レイヤ復号信号のスペクトル概形と、の間に強い相関があることを利用して、第1レイヤ復号信号のスペクトル概形を用いて原信号のスペクトル概形を予測し、その予測情報を符号化することにより、入力信号の第2レイヤ符号化パラメータを低ビットレート化するものである。
以下、本発明の実施の形態について、図を参照しつつ詳細に説明する。なお、各実施の形態では、以下の前提条件の下で、入力信号がスケーラブル符号化されるものとする。
(1)第1レイヤ(下位レイヤ)と第2レイヤ(上位レイヤ)との2階層。
(2)第2レイヤの符号化では、周波数領域で符号化を行う(変換符号化)。
(3)第2レイヤの符号化における変換方式には、MDCTを使用する。
(4)第2レイヤの符号化では、入力信号帯域を複数のサブバンド(周波数帯域)に分割し、各々のサブバンド単位で符号化する。
(5)第2レイヤの符号化では、各サブバンドに含まれるMDCT係数は、スペクトル概形を表す情報と、スペクトル概形で表しきれないサブバンド内の細かなMDCT係数の形状を表すスペクトル微細情報と、に分離して符号化される。
(6)第2レイヤの符号化では、スペクトル概形を表す情報としてサブバンド毎の平均振幅を用いる。なお、このサブバンド平均振幅のことをスケールファクタと称する。
(7)第2レイヤの符号化では、サブバンド分割は、臨界帯域に対応付けて行われ、Barkスケールで等間隔に分割される。
(実施の形態1)
図1は、本発明の実施の形態1に係るスケーラブル符号化装置100の主要な構成を示すブロック図である。スケーラブル符号化装置100は、第1レイヤ符号化部101、遅延部102、第1レイヤ復号化部103、第2レイヤ符号化部104及び多重化部105を具備する。
第1レイヤ符号化部101は、図示しないマイクロフォン等から入力されてくる音声信号の原信号を符号化して第1レイヤ符号化パラメータを生成し、生成した第1レイヤ符号化パラメータを第1レイヤ復号化部103及び多重化部105にそれぞれ入力する。
遅延部102は、第1レイヤ符号化部101と第1レイヤ復号化部103との間で生じる時間遅れを補正するため、入力された原信号に所定の長さの遅延を与え、遅延させた原信号を第2レイヤ符号化部104に入力する。
第1レイヤ復号化部103は、第1レイヤ符号化部101から入力されてくる第1レイヤ符号化パラメータを復号して第1レイヤ復号信号を生成し、生成した第1レイヤ復号信号を第2レイヤ符号化部104に入力する。
第2レイヤ符号化部104は、第1レイヤ復号化部103から入力されてくる第1レイヤ復号信号と、遅延部102から入力されてくる所定時間遅延させた原信号と、に基づいて、第1レイヤ復号信号のスペクトル概形から原信号のスペクトル概形を予測するために必要な予測係数を決定して符号化し、またこれらのスペクトル概形では表せないスペクトル形状を表すために必要なスペクトル微細情報を生成して符号化し、これらの符号化パラメータを多重化部105に入力する。なお、第2レイヤ符号化部104におけるこれらの符号化パラメータの具体的な生成態様については後述する。
多重化部105は、第1レイヤ符号化部101から入力されてくる第1レイヤ符号化パラメータと、第2レイヤ符号化部104から入力されてくる符号化パラメータと、を多重してビットストリームとしてスケーラブル符号化装置100の外部に出力する。従って、多重化部105は、本発明における出力手段として機能する。
図2は、スケーラブル符号化装置100における第2レイヤ符号化部104の主要な構成を示すブロック図である。第2レイヤ符号化部104は、MDCT分析部201、203、スケールファクタ算出部202、204、予測係数符号化部205、予測係数復号化部206及びスペクトル微細情報符号化部208を具備する。
MDCT分析部201は、第1レイヤ復号化部103から入力されてくる第1レイヤ復号信号のMDCT係数を算出し、算出した第1レイヤ復号信号のMDCT係数をスケールファクタ算出部202とスペクトル微細情報符号化部208とにそれぞれ入力する。
スケールファクタ算出部202は、MDCT分析部201から入力されてくる第1レイヤ復号信号のMDCT係数に基づいて第1レイヤ復号信号における各サブバンドのスケールファクタを算出する。そして、スケールファクタ算出部202は、算出した第1レイヤ復号信号のスケールファクタを予測係数符号化部205に入力する。なお、このスケールファクタは、各サブバンドに含まれるMDCT係数の平均振幅を表し、復号信号の音質を左右する重要なパラメータである。また、本実施の形態において、スペクトル概形とは、各サブバンドのスケールファクタを周波数方向に連結したときの形状である。
MDCT分析部203は、遅延部102から入力されてくる原信号のMDCT係数を算出し、算出した原信号のMDCT係数をスケールファクタ算出部204とスペクトル微細情報符号化部208とにそれぞれ入力する。
スケールファクタ算出部204は、MDCT分析部203から入力されてくる原信号のMDCT係数に基づいて原信号の各サブバンドのスケールファクタを算出し、算出した原信号のスケールファクタを予測係数符号化部205に入力する。
予測係数符号化部205は、予測係数の候補が記録された予測係数符号帳を具備し、この予測係数符号帳を探索して、スケールファクタ算出部202から入力されてくる第1レイヤ復号信号のスケールファクタに乗じることにより、その乗算結果をスケールファクタ算出部204から入力されてくる原信号のスケールファクタに最も近似させる予測係数を決定し、決定した予測係数を符号化して、その符号化パラメータを多重化部105と予測係数復号化部206とにそれぞれ入力する。なお、予測係数符号化部205における予測係数の具体的な決定態様については後述する。
予測係数復号化部206は、予測係数符号化部205から入力されてくる符号化パラメータを用いて予測係数を復号し、復号した予測係数をスペクトル微細情報符号化部208に入力する。
スペクトル微細情報符号化部208は、MDCT分析部201から入力されてくる第1レイヤ復号信号のMDCT係数と、MDCT分析部203から入力されてくる原信号のMDCT係数と、予測係数復号化部206から入力されてくる復号予測係数と、を用いて、サブバンド内の細かなMDCT係数の形状を表すスペクトル微細情報を生成して符号化し、その符号化パラメータを多重化部105に入力する。なお、MDCT分析部201から入力されてくる第1レイヤ復号信号のMDCT係数に、予測係数復号化部206から入力されてくる復号予測係数を乗じることにより、原信号のスペクトル概形とほぼ同一のスペクトル形状が生成されるため、スペクトル微細情報符号化部208は、この生成したスペクトル形状とMDCT分析部203から入力されてくる原信号のMDCT係数とを比較することにより、スペクトル微細情報を生成することができる。
図3は、本実施の形態に係るスケーラブル符号化装置100における予測係数符号化部205の主要な構成を示すブロック図である。予測係数符号化部205は、乗算器301、加算器302、探索部303及び予測係数符号帳304を具備する。
乗算器301は、スケールファクタ算出部202から入力されてくる第1レイヤ復号信号のスケールファクタに予測係数符号帳304から入力されてくる予測係数を乗じた後に、その乗算結果を加算器302に入力する。
加算器302は、スケールファクタ算出部204から入力されてくる原信号のスケールファクタから、乗算器301から入力されてくる予測係数を乗じられた第1レイヤ復号信号のスケールファクタを減じることにより、誤差信号を生成し、生成した誤差信号を探索部303に入力する。
探索部303は、予測係数符号帳304に対して、その保有する全ての予測係数の候補を順に乗算器301に入力するように指示する。そして、探索部303は、乗算器301から入力されてくる誤差信号を観察して、その誤差が最小となる予測係数を決定し、決定した予測係数を符号化して、その符号化パラメータを多重化部105に入力する。
予測係数符号帳304は、予測係数の候補を保有しており、探索部303からの指示に従って予測係数を順に乗算器301に入力する。
ここで、原信号のスケールファクタの推定値即ち第1レイヤ復号信号のスケールファクタに予測係数を乗じた値を「X’(m)」、第1レイヤ復号信号のスケールファクタを「Y(m)」、予測係数を「α(m)」、サブバンド番号を「m」と表記すると、原信号のスケールファクタの推定値X’(m)は、次の「式1」で算出される。
X’(m)=α(m)×Y(m) ・・・(式1)
そして、式1で算出された原信号のスケールファクタの推定値X’(m)を用いて、探索部303は、次の「式2」で表される誤差Eが最小となる予測係数α(m)を決定し、決定した予測係数を符号化して、その符号化パラメータを多重化部105に出力する。なお、式2では、原信号のスケールファクタを「X(m)」と表記する。
E=(X(m)−X’(m))2 ・・・(式2)
図4に、原信号のスペクトル及び原信号のスケールファクタ(a)と、第1レイヤ復号信号のスペクトル及び第1レイヤ復号信号のスケールファクタ(b)と、の関係の一例を示す。図4から明らかなように、原信号のスペクトルと第1レイヤ復号信号のスペクトルとは微細な部分で相違するものの、これらをスケールファクタで比較すると、ほぼ同様の形状を持つことから、これらのスケールファクタ同士では相関が強いと言える。つまり、スケールファクタに代表されるスペクトル概形情報に着目して予測を行えば、スペクトル微細情報に着目して予測を行うよりも、符号化効率の改善効果が高い。よって、第1レイヤ復号信号のスケールファクタと予測係数とを用いれば、原信号のスケールファクタを高精度で生成できることが判る。なお、図4に記載の原信号のスペクトルと第1レイヤ復号信号のスペクトルとは、MDCT係数のスペクトル振幅を算出してプロットしたものである。
図5は、本実施の形態に係るスケーラブル復号装置500の主要な構成を示すブロック図である。スケーラブル復号装置500は、分離部501、第1レイヤ復号化部502及び第2レイヤ復号化部503を具備する。
分離部501は、スケーラブル符号化装置100から送信されてくるビットストリームを分離して、第1レイヤ符号化パラメータを第1レイヤ復号化部502に入力し、一方で予測係数の符号化パラメータとスペクトル微細情報の符号化パラメータとを第2レイヤ復号化部503に入力する。
第1レイヤ復号化部502は、分離部501から入力されてくる第1レイヤ符号化パラメータから第1レイヤ復号信号を生成し、この第1レイヤ復号信号を第2レイヤ復号化部503に入力する。また、この第1レイヤ復号信号は、直接スケーラブル復号装置500の外部にも出力される。これにより、第1レイヤ復号化部502で生成される第1レイヤ復号信号を出力する必要が生じた場合には、この出力を利用することができる。
第2レイヤ復号化部503は、分離部501から入力されてくる符号化パラメータと第1レイヤ復号化部502から入力されてくる第1レイヤ復号信号とに対して、後述する復号化処理を施し、第2レイヤ復号信号を生成して出力する。なお、第1レイヤ復号信号によって再生音声の最低限の品質が担保され、第2レイヤ復号信号によって再生音声の品質を高めることができる。また、第2レイヤ復号信号が用いられるか否かは、アプリケーションの設定等に依存する。
図6は、本実施の形態に係るスケーラブル復号装置500における第2レイヤ復号化部503の主要な構成を示すブロック図である。第2レイヤ復号化部503は、予測係数復号化部601、MDCT分析部602、スペクトル微細情報復号化部605、復号スペクトル生成部606及び時間領域変換部607を具備する。
予測係数復号化部601は、分離部501から入力されてくる符号化パラメータを予測係数に復号し、復号した予測係数を復号スペクトル生成部606に入力する。
MDCT分析部602は、第1レイヤ復号化部502から入力されてくる時間領域信号である第1レイヤ復号信号に対して変形離散コサイン変換(MDCT)による周波数変換を施してMDCT係数を算出し、算出した第1レイヤ復号信号のMDCT係数を復号スペクトル生成部606に入力する。
スペクトル微細情報復号化部605は、分離部501から入力されてくる符号化パラメータを復号してスペクトル微細情報を生成し、生成したスペクトル微細情報を復号スペクトル生成部606に入力する。
復号スペクトル生成部606は、予測係数復号化部601から入力されてくる復号した予測係数と、スペクトル微細情報復号化部605から入力されてくるスペクトル微細情報と、MDCT分析部602から入力されてくる第1レイヤ復号信号のMDCT係数と、から原信号の復号スペクトルを生成し、生成した原信号の復号スペクトルを時間領域変換部607に入力する。例えば、復号スペクトル生成部606は、原信号の復号スペクトルU(k)を次の「式3」を用いて算出する。
ここで、式3において、「C(k)」はスペクトル微細情報、「α’(m)」は第mサブバンドの復号した予測係数、「B(k)」は第1レイヤ復号信号のMDCT係数を表し、「k」は第mサブバンドに含まれる周波数を表す。
時間領域変換部607は、復号スペクトル生成部606から入力されてくる復号スペクトルを時間領域の信号に変換した後、変換後の信号に対して必要に応じて適切な窓掛けや重ね合わせ加算等の処理を施してフレーム間に生じる不連続を解消することにより、最終的に第2レイヤ復号信号を生成して出力する。
このように、原信号のスケールファクタと第1レイヤ復号信号のスケールファクタとの間には強い相関があり、また第1レイヤ復号信号のスケールファクタに予測係数を乗じれば、原信号のスケールファクタを高い精度で生成することができる。さらに、この予測係数の符号化パラメータのデータ量は、従来技術における原信号から第1レイヤ復号信号を減じることによって生成した誤差信号の符号化パラメータのデータ量に比べて著しく少ない。
そこで、本実施の形態では、スケーラブル符号化装置100が、第1レイヤ符号化パラメータと共に、この第1レイヤ符号化パラメータに由来する予測係数の符号化パラメータをスケーラブル復号装置500に送信するようにした。
従って、本実施の形態によれば、スケーラブル符号化装置100が音声信号をスケーラブル符号化してスケーラブル復号装置500に送信する場合に、この音声信号の送信に要求なビットレートを削減することができる。換言すれば、本実施の形態によれば、音声信号のスケーラブル符号化において、第2レイヤの符号化効率を高めることができる。さらに、本実施の形態によれば、スケーラブル復号装置500によって再生される音声の品質を高めることができる。
なお、本実施の形態に係るスケーラブル符号化装置100又はスケーラブル復号装置500について、以下のように変形したり応用したりしてもよい。
本実施の形態では、予測係数符号化部205が、式2で表される誤差Eが最小となる予測係数α(m)の符号化パラメータを多重化部105に出力する場合について説明したが、本発明はこの場合に限定されるものではなく、例えば予測係数符号化部205が、原信号のスケールファクタX(m)と第1レイヤ復号信号のスケールファクタY(m)を用いて理想係数αopt(m)を算出し、この理想係数αopt(m)を量子化するようにしてもよい。ここで、理想係数αopt(m)は、次の「式4」で表される。
αopt(m)=X(m)/Y(m) ・・・(式4)
図7は、この応用例において、予測係数符号化部205の代わりに用いられる予測係数符号化部705の主要な構成を示すブロック図である。予測係数符号化部705は、探索部303、予測係数符号帳304、理想係数算出部711及び加算器712を具備する。理想係数算出部711は、スケールファクタ算出部202から入力されてくる第1レイヤ復号信号のスケールファクタY(m)と、MDCT分析部203から入力されてくる原信号のスケールファクタX(m)と、から式4により理想係数αopt(m)を算出し、算出した理想係数αopt(m)を加算器712に入力する。加算器712は、理想係数算出部711から入力されてくる理想係数αopt(m)と、予測係数符号帳304から入力されてくる予測係数と、の差分を示す誤差信号を生成し、この誤差信号を探索部303に入力する。そして、予測係数符号化部705は、加算器712によって生成される誤差信号の示す差分が最小となる予測係数の符号化パラメータを多重化部105に入力する。なお、探索部303及び予測係数符号帳304は、予測係数符号化部205における対応構成要素と同一の動作を行う構成要素であるため、その説明を省略する。
また、図8に、本実施の形態における図7に示す応用例とは異なる応用例を示す。図8は、予測係数符号化部205の代わりに用いられる予測係数符号化部805の主要な構成を示すブロック図である。予測係数符号化部805は、乗算器301、加算器302、815、探索部303、予測係数符号帳304及び残差成分符号帳814を具備する。残差成分符号帳814は、残差成分を示す符号帳を保有しており、探索部303からの指示に従い、保有する残差成分を順に加算器815に入力する。加算器815は、乗算器301から入力されてくる予測係数を乗じられた第1レイヤ復号信号のスケールファクタに、残差成分符号帳814から入力されてくる残差成分を加算して、その加算結果を加算器302に入力する。そして、予測係数符号化部805は、加算器302において生成される誤差信号の示す差分が最小となる予測係数と残差成分との組み合わせを決定し、それらの符号化パラメータを多重化部105に入力する。なお、この応用例について、原信号のスケールファクタの推定値X’(m)は、第1レイヤ復号信号のスケールファクタY(m)、予測係数α(m)及び残差成分e(m)を用いて、次の「式5」で算出される。
X’(m)=α(m)×Y(m)+e(m) ・・・(式5)
このように、図8に示す応用例であれば、誤差信号用の符号が別途必要になりビットレートが増加するものの、その一方で原信号のスケールファクタの推定精度が改善される。
また、さらに別の応用例として、複数のサブバンドの予測係数α(m)を一つのベクトルとみなし、このベクトルに対して、予測係数ベクトル符号帳に含まれる候補の中で最も適当な候補を探索により決定するようにしてもよい。このようにすれば、複数のサブバンドの予測係数α(m)が一つの符号化パラメータで表されるようになり、予測係数α(m)の符号化パラメータのデータ量が削減され、ビットレートを低下させることができる。
また、本実施の形態では、スケーラブル符号化装置100が、音声信号の第1レイヤ符号化パラメータと第2レイヤ符号化パラメータとをビットストリームとして出力する場合について説明したが、本発明はこの場合に限定されるものではなく、例えばスケーラブル符号化装置100が、音声信号の第1レイヤ符号化パラメータと第2レイヤ符号化パラメータとを図示しないデータ保存部等に蓄積し保存するようにしてもよい。
また、本実施の形態では、探索部303が、式2に表される誤差Eが最小となる予測係数α(m)を決定する場合について説明したが、本発明はこの場合に限定されるものではなく、例えば探索部303が次の「式6」に表されるように対数領域で予測係数α(m)を探索するようにしてもよい。
また、本実施の形態では、探索部303が、予測係数符号帳304の保有する予測係数α(m)の全候補を探索する場合について説明したが、本発明はこの場合に限定されるものではなく、例えば探索部303が予測係数符号帳304の保有する一部の候補に限定して探索するようにしてもよい。
(実施の形態2)
図9A〜Cに、正弦波信号を高速フーリエ変換(Fast Fourier Transform:FFT)処理又はMDCT処理を用いてスペクトル分析を行う際に、その分析位置を変えたとき各処理によって得られるスペクトル振幅の差異を示す。
ここで、音声信号は、図9Aに示すように正弦波であるので、そのスペクトルは1本の線スペクトルとして表されるはずである。実際に、音声信号をFFT変換してスペクトル分析した場合には、図9Bに示すように、その分析位置に関わらず、1本の線スペクトルとして表されることになる。ところが、MDCTを用いたスペクトル分析では、図9Cに示すように、算出されるスペクトルが分析位置に依存して変化する。つまり、MDCTを用いたスペクトル分析で算出されるスペクトルは、その波形の位相に影響されることになる。そのため、実施の形態1で示したように、スケールファクタ算出部202、204がMDCT分析部201、203から入力されてくる第1レイヤ復号信号のMDCT係数に基づいてスケールファクタ(スペクトル概形)を生成する場合には、生成されたスケールファクタは、その基となったスペクトルを忠実に反映していないおそれがある。
さらに、実施の形態1に示すスケーラブル符号化では、第1レイヤ符号化パラメータ及び第1レイヤ復号信号の生成において量子化が行われるため、この第1レイヤ符号化パラメータ又は信号には量子化歪が潜在することになる。従って、実施の形態1に示すスケーラブル符号化では、第2レイヤ符号化部104に入力される原信号と第1レイヤ復号信号との位相が同期していないおそれがあり、これは換言すれば、原信号のスペクトル概形と第1レイヤ復号信号のスペクトル概形との相関を高める余地が残されている、ということである。特に、第1レイヤにCELP方式のような高能率符号化法が適用された場合には、このような傾向が強くなる。
そこで、本発明に係る実施の形態2では、第1レイヤにCELP方式のような高能率符号化法が適用された場合でも、原信号のスペクトル概形と第1レイヤ復号信号のスペクトル概形との相関をより高めることのできる手段を講ずる。
図10は、本実施の形態に係るスケーラブル符号化装置における第2レイヤ符号化部1004の主要な構成を示すブロック図である。第2レイヤ符号化部1004は、スケーラブル符号化装置100において、第2レイヤ符号化部104の代わりに使用されるものであって、第2レイヤ符号化部104におけるMDCT分析部201とスケールファクタ算出部202との間にスペクトル平滑部1011をさらに具備するものである。従って、第2レイヤ符号化部1004は第2レイヤ符号化部104の構成要素と同一の機能を有する構成要素を多く具備するため、このような同一の機能を有する構成要素については、重複を避けるため、その説明を省略する。
スペクトル平滑部1011は、MDCT分析部201から入力されてくる第1レイヤ復号信号のMDCT係数即ちスペクトルを、分析位置の近傍のスペクトルを用いて平滑化し、平滑化したスペクトルをスケールファクタ算出部202に入力する。なお、本実施の形態では、スケールファクタ算出部202からスペクトル微細情報符号化部208に平滑化された第1レイヤ復号信号のスケールファクタが入力されるが、この平滑化された第1レイヤ復号信号のスケールファクタは参照用に入力されるものであり、スペクトル微細情報符号化部208の機能は、実施の形態1におけるそれとほぼ同様である。
図11は、スペクトル平滑部1011の主要な構成を示すブロック図である。スペクトル平滑部1011は、平滑処理部1121及びエネルギー調整部1122を具備する。なお、スペクトル平滑部1011の動作については、後述する。
図12は、本実施の形態に係るスケーラブル復号装置における第2レイヤ復号化部1203の主要な構成を示すブロック図である。第2レイヤ復号化部1203は、スケーラブル復号装置500において、第2レイヤ復号化部503の代わりに使用されるものであって、さらに第2レイヤ復号化部503において、復号スペクトル生成部606の代わりに復号スペクトル生成部1216を具備し、またMDCT分析部602と復号スペクトル生成部606との間にスペクトル平滑部1212及びスケールファクタ算出部1213を新たに具備するものである。また、スペクトル平滑部1212は、スペクトル平滑部1011と同様に、図11に示す平滑処理部1121とエネルギー調整部1122とを具備する。従って、第2レイヤ復号化部1203は第2レイヤ復号化部503やスペクトル平滑部1011の構成要素と同一の機能を有する構成要素を多く具備するため、このような同一の機能を有する構成要素については、重複を避けるため、その説明を省略する。
スペクトル平滑部1011、1212は、MDCT分析部201又はMDCT分析部602から入力されてくる第1レイヤ復号信号のスペクトルを平滑化する際に、着目のスペクトルとその近傍のスペクトルの重み付き平均値を算出する。例えば、スペクトル平滑部1011、1212における平滑処理部1121は、次の「式7」に従ってスペクトルの平滑化を行う。
ここで、S(k)は平滑化前のMDCTスペクトル、S’(k)は平滑化後のMDCTスペクトル、β(i)は重み係数、Lは平均を求める範囲を表す。
或いは、スペクトル平滑部1011、1212は、MDCT分析部201又はMDCT分析部602から入力されてくる第1レイヤ復号信号のスペクトルを平滑化する際に、着目のスペクトルと、その近傍のスペクトルとの差の平均を算出する。例えば、スペクトル平滑部1011、1212における平滑処理部1121は、次の「式8」に従ってスペクトルの平滑化を行う。
ここで、γ1、γ2は、重み係数を表す。
そして、スペクトル平滑部1011、1212におけるエネルギー調整部1122は、平滑処理部1121によって平滑化された第1レイヤ復号信号のスペクトルを、その平滑化の前後でスペクトルエネルギーが一致するように、調整する。
スケールファクタ算出部1213は、スケールファクタ算出部202と同様に機能して、スペクトル平滑部1212から入力されてくる平滑化された第1レイヤ復号信号のMDCT係数に基づいて第1レイヤ復号信号における各サブバンドのスケールファクタを算出する。そして、スケールファクタ算出部1213は、算出した第1レイヤ復号信号のスケールファクタを復号スペクトル生成部1216に入力する。
復号スペクトル生成部1216は、予測係数復号化部601から入力されてくる復号された予測係数と、MDCT分析部602から入力されてくる第1レイヤ復号信号のMDCT係数と、スケールファクタ算出部1213から入力されてくる第1レイヤ復号信号のスケールファクタと、スペクトル微細情報復号化部605から入力されてくるスペクトル微細情報と、から原信号の復号スペクトルを生成し、生成した原信号の復号スペクトルを時間領域変換部607に入力する。例えば、復号スペクトル生成部1216は、原信号の復号スペクトルU(k)を次の「式9」を用いて算出する。
ここで、式9において、「C(k)」はスペクトル微細情報、「α’(m)」は第mサブバンドの復号した予測係数、「B(k)」は第1レイヤ復号信号のMDCT係数を表し、「k」は第mサブバンドに含まれる周波数を表す。また、「Y(m)」は第mサブバンドにおける第1レイヤ復号信号のスケールファクタ、「Z(m)」は第mサブバンドにおける平滑化後の第1レイヤ復号信号のスケールファクタを表す。
図13の左枠(A)に、図9に示す正弦波を4つの分析位置ph0、ph1、ph2、ph3でMDCTを用いたスペクトル分析を行ったときのスペクトルを概念的に示す。図13の左枠(A)に示すスペクトルに対して、スペクトル平滑部1011又はスペクトル平滑部1212が式7又は式8に従う平滑化処理を行うことにより、図13の右枠(B)に示すスペクトルが算出される。元々、MDCTを用いるスペクトル分析によって算出されるスペクトルには、図13の左枠(A)に示すようにばらつきが生じている。これに対し、スペクトル平滑部1011又はスペクトル平滑部1212によって平滑化された後のスペクトルでは、図13の右枠(B)に示すように、このばらつきが少なくなる。MDCTを用いるスペクトル分析によって算出されるスペクトルのばらつきが少なくなれば、その平滑化されたスペクトルについては、原信号のスペクトルから大きく乖離してしまう場合が減り、大局的に見れば原信号のスペクトルがより正確に反映されることになる。
このように、本実施の形態によれば、スペクトル平滑部1011又はスペクトル平滑部1212が、第1レイヤ復号信号のスペクトルに対してスペクトル平滑化処理を施すため、平滑化後のスペクトルから算出されるスペクトル概形と、スケールファクタ算出部204によって算出される原信号のスペクトル概形と、の相関が一層強くなる。その結果、本実施の形態によれば、予測係数符号化部205での符号化効率が一層向上する。
参考として、図17に、スケールファクタの量子化性能を計算機シミュレーションにより算出した結果の一例を示す。図17に示す例では、各サブバンドのスケールファクタの予測係数α(m)は、4bitのスカラー量子化器を用いて量子化される。また、図17に示す例では、量子化前の原信号のスケールファクタX(m)に対する量子化後のスケールファクタX
q(m)を用いて次の「式10」に従いSNR(Signal−to−Noise Ratio)を算出する。
図17に示すように、平滑化処理のある場合と無い場合とを比較すると、平滑化処理のある場合ではクリーン音声で僅かにSNRが低下しているものの、オーディオや車内雑音音声ではSNRが大きく改善している。従って全体的にみると、スペクトル平滑化による効果は大きいと言える。
(実施の形態3)
人間の聴覚特性には、ある信号が聞こえているときに、その信号と周波数の近い音が耳に入ってきても聞こえ難い、という聴覚マスキング特性がある。そこで、本実施の形態では、この聴覚マスキング特性を利用して、第2レイヤ符号化パラメータの構成要素である予測係数とスペクトル微細情報との符号化効率の向上を図る。
図14は、本発明の実施の形態3に係るスケーラブル符号化装置における第2レイヤ符号化部1404の主要な構成を示すブロック図である。第2レイヤ符号化部1404は、実施の形態2における第2レイヤ符号化部1004において、予測係数符号化部205の代わりに予測係数符号化部1405を、またスペクトル微細情報符号化部208の代わりにスペクトル微細情報符号化部1408を、そして新たに聴覚マスキング算出部1411を具備するものである。従って、第2レイヤ符号化部1404は第2レイヤ符号化部104、1004の構成要素と同一の機能を有する構成要素を多く具備するため、このような同一の機能を有する構成要素については、重複を避けるため、その説明を省略する。
聴覚マスキング算出部1411は、遅延部102から入力されてくる原信号について、そのサブバンド毎に予め規定されている聴覚マスキングT(m)を、予測係数符号化部1405とスペクトル微細情報符号化部1408とにそれぞれ通知する。
予測係数符号化部1405は、聴覚マスキング算出部1411から通知される聴覚マスキングT(m)と誤差スケールファクタE(m)との大きさをサブバンド毎に比較し、誤差スケールファクタE(m)が聴覚マスキングT(m)を超える場合には、そのサブバンドで生じている量子化歪が人間の聴覚で知覚されうると判定して、そのサブバンドについて予測係数を決定して符号化し、その符号化パラメータを多重化部105に入力する。なお、誤差スケールファクタE(m)は、原信号のスケールファクタと第1レイヤ復号信号のスケールファクタとの差として算出される。また、予測係数符号化部1405は、サブバンド毎に予測係数を符号化したか否かを示す情報を符号化し、その符号化した情報を多重化部105に入力して、スケーラブル復号装置500に送信することが好ましい。
スペクトル微細情報符号化部1408も、予測係数符号化部1405と同様にして、誤差スケールファクタE(m)が聴覚マスキングT(m)を超える場合に限り、そのサブバンドで生じている量子化歪が人間の聴覚で知覚されうると判定して、そのサブバンドについてスペクトル微細情報を符号化して多重化部105に入力する。また、スペクトル微細情報符号化部1408は、サブバンド毎にスペクトル微細情報を符号化したか否かを示す情報を符号化し、その符号化した情報を多重化部105に入力して、スケーラブル復号装置500に送信することが好ましい。
このように、本実施の形態によれば、第2レイヤ符号化部1404が、原信号のサブバンド毎に聴覚マスキング効果が有効に奏される状態か判定し、聴覚マスキング効果が有効に奏される状態のサブバンドについては、予測係数とスペクトル微細情報との符号化を行なわないため、音声信号の第2レイヤ符号化パラメータの符号化効率を改善することができる。その結果、本実施の形態によれば、音声信号のより一層の低ビットレート化と高音質化とを両立できる。
なお、本実施の形態において、予測係数符号化部1405又はスペクトル微細情報符号化部1408が、聴覚マスキングT(m)と誤差スケールファクタE(m)をサブバンド毎に比較して、誤差スケールファクタE(m)が聴覚マスキングT(m)を超える程度に応じて、予測係数又はスペクトル微細情報を符号化する際のビット数を増やして、そのサブバンドの誤差スケールファクタE(m)を小さくするようにしてもよい。また、このようにする場合も、予測係数符号化部1405又はスペクトル微細情報符号化部1408は、サブバンド毎に予測係数又はスペクトル微細情報に配分したビット数を示す情報を、スケーラブル復号装置500に送信することが好ましい。
なお、本発明に係るスケーラブル符号化装置について、以下のように変形したり応用したりしてもよい。
本発明に係る各実施の形態では、音声信号を第1レイヤ(下位レイヤ)と第2レイヤ(上位レイヤ)との2階層でスケーラブル符号化を行う場合について説明したが、本発明はこの場合に限定されるものではなく、例えば3階層以上でスケーラブル符号化を行うようにしてもよい。
また、本発明において、第nレイヤにおける信号のサンプリングレートをFs(n)と表して、Fs(n)≦Fs(n+1)の関係が成り立つように、各レイヤのサンプリングレートを調節してもよい。つまり、第1レイヤ符号化部101又は第1レイヤ復号化部502におけるサンプリングレートを、第2レイヤ符号化部104又は第2レイヤ復号化部503におけるサンプリングレートよりも低く設定してもよい。このようにすれば、帯域スケーラブルを実現できることから、ネットワークの状況が良いときやユーザの使用している機器の能力が高いときには、復号信号によって形成される臨場感を一層高めることができる。
また、本発明の各実施の形態では、MDCTを用いてスペクトル分析を行う場合について説明したが、本発明はこの場合に限定されるものではなく、他の方式、例えばDFT、コサイン変換又はWavelet変換等を用いてスペクトル分析を行うようにしてもよい。
(参考例)
この参考例では、音声信号のスケーラブル符号化は行わないものの、過去のフレームのスケールファクタを使って現フレームのスケールファクタを予測する際に、本発明の実施の形態2で用いたように、スペクトル平滑化処理を用いてスケールファクタの予測を行う。
図15は、この参考例に係る音声符号化装置1504の主要な構成を示すブロック図である。音声符号化装置1504は、第2レイヤ符号化部1004におけるMDCT分析部203、スケールファクタ算出部204、予測係数符号化部205、予測係数復号化部206及びスペクトル微細情報符号化部208と同一の機能を有する構成要素を具備し、さらにスペクトル微細情報復号化部1511、復号スペクトル生成部1512、バッファ1513、スペクトル平滑部1514及びスケールファクタ算出部1515を新たに具備する。また、スペクトル微細情報復号化部1511は、第2レイヤ復号化部1203におけるスペクトル微細情報復号化部605と同様に機能し、復号スペクトル生成部1512は復号スペクトル生成部1216と、スペクトル平滑部1514は第2レイヤ符号化部1004におけるスペクトル平滑部1011と、スケールファクタ算出部1515はスケールファクタ算出部202と、同様に機能する。以下、音声符号化装置1504について説明するが、第2レイヤ符号化部1004及び第2レイヤ復号化部1203の構成要素と同様の機能を有する構成要素については、重複を避けるため、その説明を省略する。
バッファ1513は、復号スペクトル生成部1512から入力されてくる復号スペクトルを1フレーム分格納して、新たな復号スペクトルが入力されてくると、格納している前フレームの復号スペクトルをスペクトル平滑部1514、スペクトル微細情報符号化部208及び復号スペクトル生成部1512に入力する。
従って、音声符号化装置1504では、バッファ1513に格納されている前フレームの復号スペクトルに対してスペクトル平滑化が施されてスケールファクタが算出されることになり、その結果、予測係数符号化部205では、この前フレームに係るスケールファクタに基づいて現フレームの予測係数が算出されることになる。また、スペクトル微細情報符号化部208と復号スペクトル生成部1512とでは、前フレームの復号スペクトルを用いて、スペクトル微細情報の符号化と復号スペクトルの生成とがそれぞれ行われる。
図16は、この参考例に係る音声復号装置1603の主要な構成を示すブロック図である。音声復号装置1603は、第2レイヤ復号化部1203における予測係数復号化部601、スペクトル微細情報復号化部605、復号スペクトル生成部1216及び時間領域変換部607と同一の機能を有する構成要素を具備し、さらにバッファ1611、スペクトル平滑部1612及びスケールファクタ算出部1613を新たに具備する。また、スペクトル平滑部1612は第2レイヤ復号化部1203におけるスペクトル平滑部1212と、スケールファクタ算出部1613はスケールファクタ算出部1213と、同様に機能する。以下、音声復号装置1603について説明するが、第2レイヤ復号化部1203の構成要素と同様の機能を有する構成要素については、重複を避けるため、その説明を省略する。
バッファ1611は、復号スペクトル生成部1216から入力されてくる復号スペクトルを1フレーム分格納して、新たな復号スペクトルが入力されてくると、格納している前フレームの復号スペクトルをスペクトル平滑部1612及び復号スペクトル生成部1216に入力する。
従って、音声復号装置1603では、バッファ1611に格納されている前フレームの復号スペクトルに対してスペクトル平滑化が施されてスケールファクタが算出されることになり、その結果、復号スペクトル生成部1216では、この前フレームに係るスケールファクタに基づいて現フレームのスケールファクタが予測され、このスケールファクタを使用して復号することになる。
ちなみに、復号スペクトル生成部1216は、原信号の復号スペクトルU(k)を次の「式11」を用いて算出する。
ここで、式11において、「C(k)」はスペクトル微細情報、「α’(m)」は第mサブバンドの復号した予測係数、「Bprv(k)」は前フレームのMDCT係数を表し、「k」は第mサブバンドに含まれる周波数を表す。また、「Yprv(m)」は第mサブバンドにおける前フレームのスケールファクタ、「Zprv(m)」は第mサブバンドにおける平滑化後の前フレームのスケールファクタを表す。
このように、この参考例の構成によれば、スペクトル概形の時間的な相関を利用して、スペクトル概形の予測を行うため、スケールファクタの符号化を効率的に行えると共に、その低ビットレート化を図ることができる。
以上、本発明の各実施の形態について説明した。
本発明に係るスケーラブル符号化装置等は、上記各実施の形態に限定されず、種々変更して実施することが可能である。例えば、各実施の形態は、適宜組み合わせて実施することが可能である。
本発明に係るスケーラブル符号化装置およびスケーラブル復号装置は、移動体通信システムにおける通信端末装置および基地局装置に搭載することが可能であり、これにより上記と同様の作用効果を有する通信端末装置、基地局装置、および移動体通信システムを提供することができる。
なお、ここでは、本発明をハードウェアで構成する場合を例にとって説明したが、本発明をソフトウェアで実現することも可能である。例えば、本発明に係るスケーラブル符号化方法のアルゴリズムをプログラミング言語によって記述し、このプログラムをメモリに記憶しておいて情報処理手段によって実行させることにより、本発明に係るスケーラブル符号化装置と同様の機能を実現することができる。
また、上記各実施の形態の説明に用いた各機能ブロックは、典型的には集積回路であるLSIとして実現される。これらは個別に1チップ化されても良いし、一部又は全てを含むように1チップ化されても良い。
ここでは、LSIとしたが、集積度の違いにより、IC、システムLSI、スーパーLSI、ウルトラLSIと呼称されることもある。
また、集積回路化の手法はLSIに限るものではなく、専用回路又は汎用プロセッサで実現しても良い。LSI製造後に、プログラムすることが可能なFPGA(Field Programmable Gate Array)や、LSI内部の回路セルの接続や設定を再構成可能なリコンフィギュラブル・プロセッサーを利用しても良い。
さらには、半導体技術の進歩又は派生する別技術によりLSIに置き換わる集積回路化の技術が登場すれば、当然、その技術を用いて機能ブロックの集積化を行っても良い。バイオ技術の適応等が可能性としてありえる。
本明細書は、2004年10月13日出願の特願2004−298942に基づく。この内容はすべてここに含めておく。
本発明に係るスケーラブル符号化装置は、第2レイヤでの符号化効率を改善すると共に、第2レイヤでの符号化パラメータを用いて復号した原信号の品質を向上させるという効果を有し、低ビットレートで、かつ、高い再生音質が要求される移動体通信システム等に有用である。
本発明は、音声信号等を階層化して符号化するスケーラブル符号化装置等に関する。
従来、移動体通信システムでは、電波資源等の有効利用のために、音声信号を低ビットレートで圧縮することが要求されている。その一方で、通話音声の品質向上や臨場感の高い通話サービスの実現も望まれており、その実現には、音声信号の高品質化のみならず、より帯域の広いオーディオ信号等の音声成分以外の信号成分も高品質に符号化する必要がある。
このような相反する要求を共に満たす手段として、複数の符号化技術を階層的に統合するアプローチが有望視されている。具体的には、音声信号に特化したモデルで音声成分を低ビットレートで符号化する第1レイヤ符号化部と、音声成分以外の信号成分をより汎用的なモデルで符号化する第2レイヤ符号化部と、を組み合わせるアプローチが検討されている。このような階層的符号化方式は、符号化されたビットストリームがスケーラビリティ性(ビットストリームの一部の情報からでも復号信号が得られる特性)を有するため、スケーラブル符号化方式と呼ばれる。
スケーラブル符号化方式は、その性質から、ビットレートの異なるネットワーク間の通信に柔軟に対応できる。この特徴は、IPプロトコルで多様なネットワークが統合されていく今後のネットワーク環境に適したものであると言える。
スケーラブル符号化の実現手段として、MPEG−4(Moving Picture Experts Group phase-4)で規格化された技術を用いる手段が知られている(例えば非特許文献1参照)。非特許文献1に記載の技術では、音声信号に特化した代表的な符号化方式であるCELP(Code Excited Linear Prediction:符号励信線形予測)方式を第1レイヤに適用し、原信号から第1レイヤ復号信号を減じた残差信号に対してより汎用的な符号化モデルであるAAC(Advanced Audio Coder)方式又はTwinVQ(Transform Domain Weighted Interleave Vector Quantization:周波数領域重み付きインターリーブベクトル量子化)方式を第2レイヤに適用する。この第2レイヤに適用される2つの方式は、異なる方式であるものの、基本的にはMDCT(Modified Discrete Cosine Transform;変形離散コサイン変換)係数の量子化を行う際にスペクトルの大まかな形状を表すスペクトル概形情報と、残りの細かなスペクトル形状を表すスペクトル微細情報と、に分離し、それぞれ符号化する点で共通する。
三木弼一編著、「MPEG−4のすべて」、初版、(株)工業調査会、1998年9月30日、p.126−127
しかしながら、非特許文献1に記載の技術では、第2レイヤにおいて、入力信号である原信号からその第1レイヤ復号信号を減じて得られる残差信号に対して符号化が行われることになる。このような残差信号の特性は、第1レイヤ部を介することにより原信号に含まれる主要な情報が取り除かれるため、雑音系列に近い特性となる。このため、非特許文献1に記載の技術では、第2レイヤでの符号化効率が低下すると共に、第2レイヤでの符号化信号を用いて原信号を復号しても、その原信号の品質が向上し難いという問題がある。
よって、本発明の目的は、第2レイヤでの符号化効率を改善すると共に、第2レイヤでの符号化信号を用いて復号した原信号の品質を向上させるスケーラブル符号化装置等を提供することである。
本発明に係るスケーラブル符号化装置は、入力信号を符号化して下位レイヤ符号化パラメータを生成する下位レイヤ符号化手段と、前記下位レイヤ符号化パラメータを復号して下位レイヤ復号信号を生成する下位レイヤ復号化手段と、前記入力信号に基づいて前記入力信号のスペクトル概形を算出する第1スペクトル概形算出手段と、前記下位レイヤ復号信号に基づいて前記下位レイヤ復号信号のスペクトル概形を算出する第2スペクトル概形算出手段と、前記下位レイヤ復号信号のスペクトル概形から前記入力信号のスペクトル概形を予測することにより予測情報を得、この予測情報を符号化して上位レイヤ符号化パラメータを生成する予測情報符号化手段と、前記下位レイヤ符号化パラメータと前記上位レイヤ符号化パラメータとを出力する出力手段と、を具備する構成を採る。
本発明に係るスケーラブル復号装置は、入力信号をスケーラブル符号化するスケーラブル符号化装置によって生成された符号化パラメータを復号するスケーラブル復号装置であって、前記符号化パラメータを復号して下位レイヤ復号信号を生成する下位レイヤ復号化手段と、前記符号化パラメータを復号することにより、前記入力信号のスペクトル概形を予測させる予測情報を生成する予測情報復号化手段と、前記下位レイヤ復号信号と前記予測情報とに基づいて前記入力信号のスペクトル概形を生成するスペクトル生成手段と、を具備する構成を採る。
本発明によれば、予測情報符号化手段が、下位レイヤ復号信号のスペクトル概形から入力信号のスペクトル概形を予測させる予測情報を生成して符号化し、符号化された予測情報を上位レイヤ符号化パラメータとして出力するため、この上位レイヤ符号化パラメータの符号化効率を改善できると共に、この上位レイヤ符号化パラメータを用いて復号した入力信号の品質を高めることができる。
本発明は、スケーラブル符号化の第2レイヤ符号化部において、入力信号である原信号のスペクトル形状を所定の周波数帯域毎に大まかに捉えたスペクトル概形と、第1レイヤ復号信号のスペクトル概形と、の間に強い相関があることを利用して、第1レイヤ復号信号のスペクトル概形を用いて原信号のスペクトル概形を予測し、その予測情報を符号化することにより、入力信号の第2レイヤ符号化パラメータを低ビットレート化するものである。
以下、本発明の実施の形態について、図を参照しつつ詳細に説明する。なお、各実施の形態では、以下の前提条件の下で、入力信号がスケーラブル符号化されるものとする。
(1)第1レイヤ(下位レイヤ)と第2レイヤ(上位レイヤ)との2階層。
(2)第2レイヤの符号化では、周波数領域で符号化を行う(変換符号化)。
(3)第2レイヤの符号化における変換方式には、MDCTを使用する。
(4)第2レイヤの符号化では、入力信号帯域を複数のサブバンド(周波数帯域)に分割し、各々のサブバンド単位で符号化する。
(5)第2レイヤの符号化では、各サブバンドに含まれるMDCT係数は、スペクトル概形を表す情報と、スペクトル概形で表しきれないサブバンド内の細かなMDCT係数の形状を表すスペクトル微細情報と、に分離して符号化される。
(6)第2レイヤの符号化では、スペクトル概形を表す情報としてサブバンド毎の平均振幅を用いる。なお、このサブバンド平均振幅のことをスケールファクタと称する。
(7)第2レイヤの符号化では、サブバンド分割は、臨界帯域に対応付けて行われ、Barkスケールで等間隔に分割される。
(実施の形態1)
図1は、本発明の実施の形態1に係るスケーラブル符号化装置100の主要な構成を示すブロック図である。スケーラブル符号化装置100は、第1レイヤ符号化部101、遅延部102、第1レイヤ復号化部103、第2レイヤ符号化部104及び多重化部105を具備する。
第1レイヤ符号化部101は、図示しないマイクロフォン等から入力されてくる音声信号の原信号を符号化して第1レイヤ符号化パラメータを生成し、生成した第1レイヤ符号化パラメータを第1レイヤ復号化部103及び多重化部105にそれぞれ入力する。
遅延部102は、第1レイヤ符号化部101と第1レイヤ復号化部103との間で生じる時間遅れを補正するため、入力された原信号に所定の長さの遅延を与え、遅延させた原信号を第2レイヤ符号化部104に入力する。
第1レイヤ復号化部103は、第1レイヤ符号化部101から入力されてくる第1レイヤ符号化パラメータを復号して第1レイヤ復号信号を生成し、生成した第1レイヤ復号信号を第2レイヤ符号化部104に入力する。
第2レイヤ符号化部104は、第1レイヤ復号化部103から入力されてくる第1レイヤ復号信号と、遅延部102から入力されてくる所定時間遅延させた原信号と、に基づいて、第1レイヤ復号信号のスペクトル概形から原信号のスペクトル概形を予測するために必要な予測係数を決定して符号化し、またこれらのスペクトル概形では表せないスペクトル形状を表すために必要なスペクトル微細情報を生成して符号化し、これらの符号化パラメータを多重化部105に入力する。なお、第2レイヤ符号化部104におけるこれらの符号化パラメータの具体的な生成態様については後述する。
多重化部105は、第1レイヤ符号化部101から入力されてくる第1レイヤ符号化パラメータと、第2レイヤ符号化部104から入力されてくる符号化パラメータと、を多重してビットストリームとしてスケーラブル符号化装置100の外部に出力する。従って、多重化部105は、本発明における出力手段として機能する。
図2は、スケーラブル符号化装置100における第2レイヤ符号化部104の主要な構成を示すブロック図である。第2レイヤ符号化部104は、MDCT分析部201、203、スケールファクタ算出部202、204、予測係数符号化部205、予測係数復号化部206及びスペクトル微細情報符号化部208を具備する。
MDCT分析部201は、第1レイヤ復号化部103から入力されてくる第1レイヤ復号信号のMDCT係数を算出し、算出した第1レイヤ復号信号のMDCT係数をスケールファクタ算出部202とスペクトル微細情報符号化部208とにそれぞれ入力する。
スケールファクタ算出部202は、MDCT分析部201から入力されてくる第1レイヤ復号信号のMDCT係数に基づいて第1レイヤ復号信号における各サブバンドのスケールファクタを算出する。そして、スケールファクタ算出部202は、算出した第1レイヤ復号信号のスケールファクタを予測係数符号化部205に入力する。なお、このスケールファクタは、各サブバンドに含まれるMDCT係数の平均振幅を表し、復号信号の音質を左右する重要なパラメータである。また、本実施の形態において、スペクトル概形とは、各サブバンドのスケールファクタを周波数方向に連結したときの形状である。
MDCT分析部203は、遅延部102から入力されてくる原信号のMDCT係数を算出し、算出した原信号のMDCT係数をスケールファクタ算出部204とスペクトル微細情報符号化部208とにそれぞれ入力する。
スケールファクタ算出部204は、MDCT分析部203から入力されてくる原信号のMDCT係数に基づいて原信号の各サブバンドのスケールファクタを算出し、算出した原信号のスケールファクタを予測係数符号化部205に入力する。
予測係数符号化部205は、予測係数の候補が記録された予測係数符号帳を具備し、この予測係数符号帳を探索して、スケールファクタ算出部202から入力されてくる第1レイヤ復号信号のスケールファクタに乗じることにより、その乗算結果をスケールファクタ算出部204から入力されてくる原信号のスケールファクタに最も近似させる予測係数を決定し、決定した予測係数を符号化して、その符号化パラメータを多重化部105と予測係数復号化部206とにそれぞれ入力する。なお、予測係数符号化部205における予測係数の具体的な決定態様については後述する。
予測係数復号化部206は、予測係数符号化部205から入力されてくる符号化パラメータを用いて予測係数を復号し、復号した予測係数をスペクトル微細情報符号化部208に入力する。
スペクトル微細情報符号化部208は、MDCT分析部201から入力されてくる第1レイヤ復号信号のMDCT係数と、MDCT分析部203から入力されてくる原信号のMDCT係数と、予測係数復号化部206から入力されてくる復号予測係数と、を用いて、サブバンド内の細かなMDCT係数の形状を表すスペクトル微細情報を生成して符号化し、その符号化パラメータを多重化部105に入力する。なお、MDCT分析部201から入力されてくる第1レイヤ復号信号のMDCT係数に、予測係数復号化部206から入力されてくる復号予測係数を乗じることにより、原信号のスペクトル概形とほぼ同一のスペクトル形状が生成されるため、スペクトル微細情報符号化部208は、この生成したスペクトル形状とMDCT分析部203から入力されてくる原信号のMDCT係数とを比較することにより、スペクトル微細情報を生成することができる。
図3は、本実施の形態に係るスケーラブル符号化装置100における予測係数符号化部205の主要な構成を示すブロック図である。予測係数符号化部205は、乗算器301、加算器302、探索部303及び予測係数符号帳304を具備する。
乗算器301は、スケールファクタ算出部202から入力されてくる第1レイヤ復号信号のスケールファクタに予測係数符号帳304から入力されてくる予測係数を乗じた後に、その乗算結果を加算器302に入力する。
加算器302は、スケールファクタ算出部204から入力されてくる原信号のスケールファクタから、乗算器301から入力されてくる予測係数を乗じられた第1レイヤ復号信号のスケールファクタを減じることにより、誤差信号を生成し、生成した誤差信号を探索部303に入力する。
探索部303は、予測係数符号帳304に対して、その保有する全ての予測係数の候補を順に乗算器301に入力するように指示する。そして、探索部303は、乗算器301から入力されてくる誤差信号を観察して、その誤差が最小となる予測係数を決定し、決定した予測係数を符号化して、その符号化パラメータを多重化部105に入力する。
予測係数符号帳304は、予測係数の候補を保有しており、探索部303からの指示に従って予測係数を順に乗算器301に入力する。
ここで、原信号のスケールファクタの推定値即ち第1レイヤ復号信号のスケールファクタに予測係数を乗じた値を「X’(m)」、第1レイヤ復号信号のスケールファクタを「Y(m)」、予測係数を「α(m)」、サブバンド番号を「m」と表記すると、原信号のスケールファクタの推定値X’(m)は、次の「式1」で算出される。
X’(m)=α(m)×Y(m) ・・・(式1)
そして、式1で算出された原信号のスケールファクタの推定値X’(m)を用いて、探索部303は、次の「式2」で表される誤差Eが最小となる予測係数α(m)を決定し、決定した予測係数を符号化して、その符号化パラメータを多重化部105に出力する。なお、式2では、原信号のスケールファクタを「X(m)」と表記する。
E=(X(m)−X’(m))2 ・・・(式2)
図4に、原信号のスペクトル及び原信号のスケールファクタ(a)と、第1レイヤ復号信号のスペクトル及び第1レイヤ復号信号のスケールファクタ(b)と、の関係の一例を示す。図4から明らかなように、原信号のスペクトルと第1レイヤ復号信号のスペクトルとは微細な部分で相違するものの、これらをスケールファクタで比較すると、ほぼ同様の形状を持つことから、これらのスケールファクタ同士では相関が強いと言える。つまり、スケールファクタに代表されるスペクトル概形情報に着目して予測を行えば、スペクトル微細情報に着目して予測を行うよりも、符号化効率の改善効果が高い。よって、第1レイヤ復号信号のスケールファクタと予測係数とを用いれば、原信号のスケールファクタを高精度で生成できることが判る。なお、図4に記載の原信号のスペクトルと第1レイヤ復号信号のスペクトルとは、MDCT係数のスペクトル振幅を算出してプロットしたものである。
図5は、本実施の形態に係るスケーラブル復号装置500の主要な構成を示すブロック図である。スケーラブル復号装置500は、分離部501、第1レイヤ復号化部502及び第2レイヤ復号化部503を具備する。
分離部501は、スケーラブル符号化装置100から送信されてくるビットストリームを分離して、第1レイヤ符号化パラメータを第1レイヤ復号化部502に入力し、一方で予測係数の符号化パラメータとスペクトル微細情報の符号化パラメータとを第2レイヤ復号化部503に入力する。
第1レイヤ復号化部502は、分離部501から入力されてくる第1レイヤ符号化パラメータから第1レイヤ復号信号を生成し、この第1レイヤ復号信号を第2レイヤ復号化部503に入力する。また、この第1レイヤ復号信号は、直接スケーラブル復号装置500の外部にも出力される。これにより、第1レイヤ復号化部502で生成される第1レイヤ復号信号を出力する必要が生じた場合には、この出力を利用することができる。
第2レイヤ復号化部503は、分離部501から入力されてくる符号化パラメータと第1レイヤ復号化部502から入力されてくる第1レイヤ復号信号とに対して、後述する復号化処理を施し、第2レイヤ復号信号を生成して出力する。なお、第1レイヤ復号信号によって再生音声の最低限の品質が担保され、第2レイヤ復号信号によって再生音声の品質を高めることができる。また、第2レイヤ復号信号が用いられるか否かは、アプリケーションの設定等に依存する。
図6は、本実施の形態に係るスケーラブル復号装置500における第2レイヤ復号化部503の主要な構成を示すブロック図である。第2レイヤ復号化部503は、予測係数復号化部601、MDCT分析部602、スペクトル微細情報復号化部605、復号スペクトル生成部606及び時間領域変換部607を具備する。
予測係数復号化部601は、分離部501から入力されてくる符号化パラメータを予測係数に復号し、復号した予測係数を復号スペクトル生成部606に入力する。
MDCT分析部602は、第1レイヤ復号化部502から入力されてくる時間領域信号である第1レイヤ復号信号に対して変形離散コサイン変換(MDCT)による周波数変換を施してMDCT係数を算出し、算出した第1レイヤ復号信号のMDCT係数を復号スペクトル生成部606に入力する。
スペクトル微細情報復号化部605は、分離部501から入力されてくる符号化パラメータを復号してスペクトル微細情報を生成し、生成したスペクトル微細情報を復号スペクトル生成部606に入力する。
復号スペクトル生成部606は、予測係数復号化部601から入力されてくる復号した予測係数と、スペクトル微細情報復号化部605から入力されてくるスペクトル微細情報と、MDCT分析部602から入力されてくる第1レイヤ復号信号のMDCT係数と、から原信号の復号スペクトルを生成し、生成した原信号の復号スペクトルを時間領域変換部607に入力する。例えば、復号スペクトル生成部606は、原信号の復号スペクトルU(k)を次の「式3」を用いて算出する。
ここで、式3において、「C(k)」はスペクトル微細情報、「α’(m)」は第mサブバンドの復号した予測係数、「B(k)」は第1レイヤ復号信号のMDCT係数を表し、「k」は第mサブバンドに含まれる周波数を表す。
時間領域変換部607は、復号スペクトル生成部606から入力されてくる復号スペクトルを時間領域の信号に変換した後、変換後の信号に対して必要に応じて適切な窓掛けや重ね合わせ加算等の処理を施してフレーム間に生じる不連続を解消することにより、最終的に第2レイヤ復号信号を生成して出力する。
このように、原信号のスケールファクタと第1レイヤ復号信号のスケールファクタとの間には強い相関があり、また第1レイヤ復号信号のスケールファクタに予測係数を乗じれば、原信号のスケールファクタを高い精度で生成することができる。さらに、この予測係数の符号化パラメータのデータ量は、従来技術における原信号から第1レイヤ復号信号を減じることによって生成した誤差信号の符号化パラメータのデータ量に比べて著しく少ない。
そこで、本実施の形態では、スケーラブル符号化装置100が、第1レイヤ符号化パラメータと共に、この第1レイヤ符号化パラメータに由来する予測係数の符号化パラメータをスケーラブル復号装置500に送信するようにした。
従って、本実施の形態によれば、スケーラブル符号化装置100が音声信号をスケーラブル符号化してスケーラブル復号装置500に送信する場合に、この音声信号の送信に要求なビットレートを削減することができる。換言すれば、本実施の形態によれば、音声信号のスケーラブル符号化において、第2レイヤの符号化効率を高めることができる。さらに、本実施の形態によれば、スケーラブル復号装置500によって再生される音声の品質を高めることができる。
なお、本実施の形態に係るスケーラブル符号化装置100又はスケーラブル復号装置500について、以下のように変形したり応用したりしてもよい。
本実施の形態では、予測係数符号化部205が、式2で表される誤差Eが最小となる予測係数α(m)の符号化パラメータを多重化部105に出力する場合について説明したが、本発明はこの場合に限定されるものではなく、例えば予測係数符号化部205が、原信号のスケールファクタX(m)と第1レイヤ復号信号のスケールファクタY(m)を用いて理想係数αopt(m)を算出し、この理想係数αopt(m)を量子化するようにしてもよい。ここで、理想係数αopt(m)は、次の「式4」で表される。
αopt(m)=X(m)/Y(m) ・・・(式4)
図7は、この応用例において、予測係数符号化部205の代わりに用いられる予測係数符号化部705の主要な構成を示すブロック図である。予測係数符号化部705は、探索部303、予測係数符号帳304、理想係数算出部711及び加算器712を具備する。理想係数算出部711は、スケールファクタ算出部202から入力されてくる第1レイヤ復号信号のスケールファクタY(m)と、MDCT分析部203から入力されてくる原信号のスケールファクタX(m)と、から式4により理想係数αopt(m)を算出し、算出した理想係数αopt(m)を加算器712に入力する。加算器712は、理想係数算出部711から入力されてくる理想係数αopt(m)と、予測係数符号帳304から入力されてくる予測係数と、の差分を示す誤差信号を生成し、この誤差信号を探索部303に入力する。そして、予測係数符号化部705は、加算器712によって生成される誤差信号の示す差分が最小となる予測係数の符号化パラメータを多重化部105に入力する。なお、探索部303及び予測係数符号帳304は、予測係数符号化部205における対応構成要素と同一の動作を行う構成要素であるため、その説明を省略する。
また、図8に、本実施の形態における図7に示す応用例とは異なる応用例を示す。図8は、予測係数符号化部205の代わりに用いられる予測係数符号化部805の主要な構成を示すブロック図である。予測係数符号化部805は、乗算器301、加算器302、815、探索部303、予測係数符号帳304及び残差成分符号帳814を具備する。残差成分符号帳814は、残差成分を示す符号帳を保有しており、探索部303からの指示に従い、保有する残差成分を順に加算器815に入力する。加算器815は、乗算器301から入力されてくる予測係数を乗じられた第1レイヤ復号信号のスケールファクタに、残差成分符号帳814から入力されてくる残差成分を加算して、その加算結果を加算器302に入力する。そして、予測係数符号化部805は、加算器302において生成される誤差信号の示す差分が最小となる予測係数と残差成分との組み合わせを決定し、それらの符号化パラメータを多重化部105に入力する。なお、この応用例について、原信号のスケールファクタの推定値X’(m)は、第1レイヤ復号信号のスケールファクタY(m)、予測係数α(m)及び残差成分e(m)を用いて、次の「式5」で算出される。
X’(m)=α(m)×Y(m)+e(m) ・・・(式5)
このように、図8に示す応用例であれば、誤差信号用の符号が別途必要になりビットレートが増加するものの、その一方で原信号のスケールファクタの推定精度が改善される。
また、さらに別の応用例として、複数のサブバンドの予測係数α(m)を一つのベクトルとみなし、このベクトルに対して、予測係数ベクトル符号帳に含まれる候補の中で最も適当な候補を探索により決定するようにしてもよい。このようにすれば、複数のサブバンドの予測係数α(m)が一つの符号化パラメータで表されるようになり、予測係数α(m)の符号化パラメータのデータ量が削減され、ビットレートを低下させることができる。
また、本実施の形態では、スケーラブル符号化装置100が、音声信号の第1レイヤ符号化パラメータと第2レイヤ符号化パラメータとをビットストリームとして出力する場合について説明したが、本発明はこの場合に限定されるものではなく、例えばスケーラブル符号化装置100が、音声信号の第1レイヤ符号化パラメータと第2レイヤ符号化パラメータとを図示しないデータ保存部等に蓄積し保存するようにしてもよい。
また、本実施の形態では、探索部303が、式2に表される誤差Eが最小となる予測係数α(m)を決定する場合について説明したが、本発明はこの場合に限定されるものではなく、例えば探索部303が次の「式6」に表されるように対数領域で予測係数α(m)を探索するようにしてもよい。
また、本実施の形態では、探索部303が、予測係数符号帳304の保有する予測係数α(m)の全候補を探索する場合について説明したが、本発明はこの場合に限定されるものではなく、例えば探索部303が予測係数符号帳304の保有する一部の候補に限定して探索するようにしてもよい。
(実施の形態2)
図9A〜Cに、正弦波信号を高速フーリエ変換(Fast Fourier Transform:FFT)処理又はMDCT処理を用いてスペクトル分析を行う際に、その分析位置を変えたとき各処理によって得られるスペクトル振幅の差異を示す。
ここで、音声信号は、図9Aに示すように正弦波であるので、そのスペクトルは1本の線スペクトルとして表されるはずである。実際に、音声信号をFFT変換してスペクトル分析した場合には、図9Bに示すように、その分析位置に関わらず、1本の線スペクトルとして表されることになる。ところが、MDCTを用いたスペクトル分析では、図9Cに示すように、算出されるスペクトルが分析位置に依存して変化する。つまり、MDCTを用いたスペクトル分析で算出されるスペクトルは、その波形の位相に影響されることになる。そのため、実施の形態1で示したように、スケールファクタ算出部202、204がMDCT分析部201、203から入力されてくる第1レイヤ復号信号のMDCT係数に基づいてスケールファクタ(スペクトル概形)を生成する場合には、生成されたスケールファクタは、その基となったスペクトルを忠実に反映していないおそれがある。
さらに、実施の形態1に示すスケーラブル符号化では、第1レイヤ符号化パラメータ及び第1レイヤ復号信号の生成において量子化が行われるため、この第1レイヤ符号化パラメータ又は信号には量子化歪が潜在することになる。従って、実施の形態1に示すスケーラブル符号化では、第2レイヤ符号化部104に入力される原信号と第1レイヤ復号信号との位相が同期していないおそれがあり、これは換言すれば、原信号のスペクトル概形と第1レイヤ復号信号のスペクトル概形との相関を高める余地が残されている、ということである。特に、第1レイヤにCELP方式のような高能率符号化法が適用された場合には、このような傾向が強くなる。
そこで、本発明に係る実施の形態2では、第1レイヤにCELP方式のような高能率符号化法が適用された場合でも、原信号のスペクトル概形と第1レイヤ復号信号のスペクトル概形との相関をより高めることのできる手段を講ずる。
図10は、本実施の形態に係るスケーラブル符号化装置における第2レイヤ符号化部1004の主要な構成を示すブロック図である。第2レイヤ符号化部1004は、スケーラブル符号化装置100において、第2レイヤ符号化部104の代わりに使用されるものであって、第2レイヤ符号化部104におけるMDCT分析部201とスケールファクタ算出部202との間にスペクトル平滑部1011をさらに具備するものである。従って、第2レイヤ符号化部1004は第2レイヤ符号化部104の構成要素と同一の機能を有する構成要素を多く具備するため、このような同一の機能を有する構成要素については、重複を避けるため、その説明を省略する。
スペクトル平滑部1011は、MDCT分析部201から入力されてくる第1レイヤ復号信号のMDCT係数即ちスペクトルを、分析位置の近傍のスペクトルを用いて平滑化し、平滑化したスペクトルをスケールファクタ算出部202に入力する。なお、本実施の形態では、スケールファクタ算出部202からスペクトル微細情報符号化部208に平滑化された第1レイヤ復号信号のスケールファクタが入力されるが、この平滑化された第1レイヤ復号信号のスケールファクタは参照用に入力されるものであり、スペクトル微細情報符号化部208の機能は、実施の形態1におけるそれとほぼ同様である。
図11は、スペクトル平滑部1011の主要な構成を示すブロック図である。スペクトル平滑部1011は、平滑処理部1121及びエネルギー調整部1122を具備する。なお、スペクトル平滑部1011の動作については、後述する。
図12は、本実施の形態に係るスケーラブル復号装置における第2レイヤ復号化部1203の主要な構成を示すブロック図である。第2レイヤ復号化部1203は、スケーラブル復号装置500において、第2レイヤ復号化部503の代わりに使用されるものであって、さらに第2レイヤ復号化部503において、復号スペクトル生成部606の代わりに復号スペクトル生成部1216を具備し、またMDCT分析部602と復号スペクトル生成部606との間にスペクトル平滑部1212及びスケールファクタ算出部1213を新たに具備するものである。また、スペクトル平滑部1212は、スペクトル平滑部1011と同様に、図11に示す平滑処理部1121とエネルギー調整部1122とを具備する。従って、第2レイヤ復号化部1203は第2レイヤ復号化部503やスペクトル平滑部1011の構成要素と同一の機能を有する構成要素を多く具備するため、このような同一の機能を有する構成要素については、重複を避けるため、その説明を省略する。
スペクトル平滑部1011、1212は、MDCT分析部201又はMDCT分析部602から入力されてくる第1レイヤ復号信号のスペクトルを平滑化する際に、着目のスペクトルとその近傍のスペクトルの重み付き平均値を算出する。例えば、スペクトル平滑部1011、1212における平滑処理部1121は、次の「式7」に従ってスペクトルの平滑化を行う。
ここで、S(k)は平滑化前のMDCTスペクトル、S’(k)は平滑化後のMDCTスペクトル、β(i)は重み係数、Lは平均を求める範囲を表す。
或いは、スペクトル平滑部1011、1212は、MDCT分析部201又はMDCT分析部602から入力されてくる第1レイヤ復号信号のスペクトルを平滑化する際に、着目のスペクトルと、その近傍のスペクトルとの差の平均を算出する。例えば、スペクトル平滑部1011、1212における平滑処理部1121は、次の「式8」に従ってスペクトルの平滑化を行う。
ここで、γ1、γ2は、重み係数を表す。
そして、スペクトル平滑部1011、1212におけるエネルギー調整部1122は、平滑処理部1121によって平滑化された第1レイヤ復号信号のスペクトルを、その平滑化の前後でスペクトルエネルギーが一致するように、調整する。
スケールファクタ算出部1213は、スケールファクタ算出部202と同様に機能して、スペクトル平滑部1212から入力されてくる平滑化された第1レイヤ復号信号のMDCT係数に基づいて第1レイヤ復号信号における各サブバンドのスケールファクタを算出する。そして、スケールファクタ算出部1213は、算出した第1レイヤ復号信号のスケールファクタを復号スペクトル生成部1216に入力する。
復号スペクトル生成部1216は、予測係数復号化部601から入力されてくる復号された予測係数と、MDCT分析部602から入力されてくる第1レイヤ復号信号のMDCT係数と、スケールファクタ算出部1213から入力されてくる第1レイヤ復号信号のスケールファクタと、スペクトル微細情報復号化部605から入力されてくるスペクトル微細情報と、から原信号の復号スペクトルを生成し、生成した原信号の復号スペクトルを時間領域変換部607に入力する。例えば、復号スペクトル生成部1216は、原信号の復号スペクトルU(k)を次の「式9」を用いて算出する。
ここで、式9において、「C(k)」はスペクトル微細情報、「α’(m)」は第mサブバンドの復号した予測係数、「B(k)」は第1レイヤ復号信号のMDCT係数を表し、「k」は第mサブバンドに含まれる周波数を表す。また、「Y(m)」は第mサブバンドにおける第1レイヤ復号信号のスケールファクタ、「Z(m)」は第mサブバンドにおける平滑化後の第1レイヤ復号信号のスケールファクタを表す。
図13の左枠(A)に、図9に示す正弦波を4つの分析位置ph0、ph1、ph2、ph3でMDCTを用いたスペクトル分析を行ったときのスペクトルを概念的に示す。図13の左枠(A)に示すスペクトルに対して、スペクトル平滑部1011又はスペクトル平滑部1212が式7又は式8に従う平滑化処理を行うことにより、図13の右枠(B)に示すスペクトルが算出される。元々、MDCTを用いるスペクトル分析によって算出されるスペクトルには、図13の左枠(A)に示すようにばらつきが生じている。これに対し、スペクトル平滑部1011又はスペクトル平滑部1212によって平滑化された後のスペクトルでは、図13の右枠(B)に示すように、このばらつきが少なくなる。MDCTを用いるスペクトル分析によって算出されるスペクトルのばらつきが少なくなれば、その平滑化されたスペクトルについては、原信号のスペクトルから大きく乖離してしまう場合が減り、大局的に見れば原信号のスペクトルがより正確に反映されることになる。
このように、本実施の形態によれば、スペクトル平滑部1011又はスペクトル平滑部1212が、第1レイヤ復号信号のスペクトルに対してスペクトル平滑化処理を施すため、平滑化後のスペクトルから算出されるスペクトル概形と、スケールファクタ算出部204によって算出される原信号のスペクトル概形と、の相関が一層強くなる。その結果、本実施の形態によれば、予測係数符号化部205での符号化効率が一層向上する。
参考として、図17に、スケールファクタの量子化性能を計算機シミュレーションにより算出した結果の一例を示す。図17に示す例では、各サブバンドのスケールファクタの予測係数α(m)は、4bitのスカラー量子化器を用いて量子化される。また、図17に示す例では、量子化前の原信号のスケールファクタX(m)に対する量子化後のスケールファクタX
q(m)を用いて次の「式10」に従いSNR(Signal-to-Noise Ratio)を算出する。
図17に示すように、平滑化処理のある場合と無い場合とを比較すると、平滑化処理のある場合ではクリーン音声で僅かにSNRが低下しているものの、オーディオや車内雑音音声ではSNRが大きく改善している。従って全体的にみると、スペクトル平滑化による効果は大きいと言える。
(実施の形態3)
人間の聴覚特性には、ある信号が聞こえているときに、その信号と周波数の近い音が耳に入ってきても聞こえ難い、という聴覚マスキング特性がある。そこで、本実施の形態では、この聴覚マスキング特性を利用して、第2レイヤ符号化パラメータの構成要素である予測係数とスペクトル微細情報との符号化効率の向上を図る。
図14は、本発明の実施の形態3に係るスケーラブル符号化装置における第2レイヤ符号化部1404の主要な構成を示すブロック図である。第2レイヤ符号化部1404は、実施の形態2における第2レイヤ符号化部1004において、予測係数符号化部205の代わりに予測係数符号化部1405を、またスペクトル微細情報符号化部208の代わりにスペクトル微細情報符号化部1408を、そして新たに聴覚マスキング算出部1411を具備するものである。従って、第2レイヤ符号化部1404は第2レイヤ符号化部104、1004の構成要素と同一の機能を有する構成要素を多く具備するため、このような同一の機能を有する構成要素については、重複を避けるため、その説明を省略する。
聴覚マスキング算出部1411は、遅延部102から入力されてくる原信号について、そのサブバンド毎に予め規定されている聴覚マスキングT(m)を、予測係数符号化部1405とスペクトル微細情報符号化部1408とにそれぞれ通知する。
予測係数符号化部1405は、聴覚マスキング算出部1411から通知される聴覚マスキングT(m)と誤差スケールファクタE(m)との大きさをサブバンド毎に比較し、誤差スケールファクタE(m)が聴覚マスキングT(m)を超える場合には、そのサブバンドで生じている量子化歪が人間の聴覚で知覚されうると判定して、そのサブバンドについて予測係数を決定して符号化し、その符号化パラメータを多重化部105に入力する。なお、誤差スケールファクタE(m)は、原信号のスケールファクタと第1レイヤ復号信号のスケールファクタとの差として算出される。また、予測係数符号化部1405は、サブバンド毎に予測係数を符号化したか否かを示す情報を符号化し、その符号化した情報を多重化部105に入力して、スケーラブル復号装置500に送信することが好ましい。
スペクトル微細情報符号化部1408も、予測係数符号化部1405と同様にして、誤差スケールファクタE(m)が聴覚マスキングT(m)を超える場合に限り、そのサブバンドで生じている量子化歪が人間の聴覚で知覚されうると判定して、そのサブバンドについてスペクトル微細情報を符号化して多重化部105に入力する。また、スペクトル微細情報符号化部1408は、サブバンド毎にスペクトル微細情報を符号化したか否かを示す情報を符号化し、その符号化した情報を多重化部105に入力して、スケーラブル復号装置500に送信することが好ましい。
このように、本実施の形態によれば、第2レイヤ符号化部1404が、原信号のサブバンド毎に聴覚マスキング効果が有効に奏される状態か判定し、聴覚マスキング効果が有効に奏される状態のサブバンドについては、予測係数とスペクトル微細情報との符号化を行なわないため、音声信号の第2レイヤ符号化パラメータの符号化効率を改善することができる。その結果、本実施の形態によれば、音声信号のより一層の低ビットレート化と高音質化とを両立できる。
なお、本実施の形態において、予測係数符号化部1405又はスペクトル微細情報符号化部1408が、聴覚マスキングT(m)と誤差スケールファクタE(m)をサブバンド毎に比較して、誤差スケールファクタE(m)が聴覚マスキングT(m)を超える程度に応じて、予測係数又はスペクトル微細情報を符号化する際のビット数を増やして、そのサブバンドの誤差スケールファクタE(m)を小さくするようにしてもよい。また、このようにする場合も、予測係数符号化部1405又はスペクトル微細情報符号化部1408は、サブバンド毎に予測係数又はスペクトル微細情報に配分したビット数を示す情報を、スケーラブル復号装置500に送信することが好ましい。
なお、本発明に係るスケーラブル符号化装置について、以下のように変形したり応用したりしてもよい。
本発明に係る各実施の形態では、音声信号を第1レイヤ(下位レイヤ)と第2レイヤ(上位レイヤ)との2階層でスケーラブル符号化を行う場合について説明したが、本発明はこの場合に限定されるものではなく、例えば3階層以上でスケーラブル符号化を行うようにしてもよい。
また、本発明において、第nレイヤにおける信号のサンプリングレートをFs(n)と表して、Fs(n)≦Fs(n+1)の関係が成り立つように、各レイヤのサンプリングレートを調節してもよい。つまり、第1レイヤ符号化部101又は第1レイヤ復号化部502におけるサンプリングレートを、第2レイヤ符号化部104又は第2レイヤ復号化部503におけるサンプリングレートよりも低く設定してもよい。このようにすれば、帯域スケーラブルを実現できることから、ネットワークの状況が良いときやユーザの使用している機器の能力が高いときには、復号信号によって形成される臨場感を一層高めることができる。
また、本発明の各実施の形態では、MDCTを用いてスペクトル分析を行う場合について説明したが、本発明はこの場合に限定されるものではなく、他の方式、例えばDFT、コサイン変換又はWavelet変換等を用いてスペクトル分析を行うようにしてもよい。
(参考例)
この参考例では、音声信号のスケーラブル符号化は行わないものの、過去のフレームのスケールファクタを使って現フレームのスケールファクタを予測する際に、本発明の実施の形態2で用いたように、スペクトル平滑化処理を用いてスケールファクタの予測を行う。
図15は、この参考例に係る音声符号化装置1504の主要な構成を示すブロック図である。音声符号化装置1504は、第2レイヤ符号化部1004におけるMDCT分析部203、スケールファクタ算出部204、予測係数符号化部205、予測係数復号化部206及びスペクトル微細情報符号化部208と同一の機能を有する構成要素を具備し、さらにスペクトル微細情報復号化部1511、復号スペクトル生成部1512、バッファ1513、スペクトル平滑部1514及びスケールファクタ算出部1515を新たに具備する。また、スペクトル微細情報復号化部1511は、第2レイヤ復号化部1203におけるスペクトル微細情報復号化部605と同様に機能し、復号スペクトル生成部1512は復号スペクトル生成部1216と、スペクトル平滑部1514は第2レイヤ符号化部1004におけるスペクトル平滑部1011と、スケールファクタ算出部1515はスケールファクタ算出部202と、同様に機能する。以下、音声符号化装置1504について説明するが、第2レイヤ符号化部1004及び第2レイヤ復号化部1203の構成要素と同様の機能を有する構成要素については、重複を避けるため、その説明を省略する。
バッファ1513は、復号スペクトル生成部1512から入力されてくる復号スペクトルを1フレーム分格納して、新たな復号スペクトルが入力されてくると、格納している前フレームの復号スペクトルをスペクトル平滑部1514、スペクトル微細情報符号化部208及び復号スペクトル生成部1512に入力する。
従って、音声符号化装置1504では、バッファ1513に格納されている前フレームの復号スペクトルに対してスペクトル平滑化が施されてスケールファクタが算出されることになり、その結果、予測係数符号化部205では、この前フレームに係るスケールファクタに基づいて現フレームの予測係数が算出されることになる。また、スペクトル微細情報符号化部208と復号スペクトル生成部1512とでは、前フレームの復号スペクトルを用いて、スペクトル微細情報の符号化と復号スペクトルの生成とがそれぞれ行われる。
図16は、この参考例に係る音声復号装置1603の主要な構成を示すブロック図である。音声復号装置1603は、第2レイヤ復号化部1203における予測係数復号化部601、スペクトル微細情報復号化部605、復号スペクトル生成部1216及び時間領域変換部607と同一の機能を有する構成要素を具備し、さらにバッファ1611、スペクトル平滑部1612及びスケールファクタ算出部1613を新たに具備する。また、スペクトル平滑部1612は第2レイヤ復号化部1203におけるスペクトル平滑部1212と、スケールファクタ算出部1613はスケールファクタ算出部1213と、同様に機能する。以下、音声復号装置1603について説明するが、第2レイヤ復号化部1203の構成要素と同様の機能を有する構成要素については、重複を避けるため、その説明を省略する。
バッファ1611は、復号スペクトル生成部1216から入力されてくる復号スペクトルを1フレーム分格納して、新たな復号スペクトルが入力されてくると、格納している前フレームの復号スペクトルをスペクトル平滑部1612及び復号スペクトル生成部1216に入力する。
従って、音声復号装置1603では、バッファ1611に格納されている前フレームの復号スペクトルに対してスペクトル平滑化が施されてスケールファクタが算出されることになり、その結果、復号スペクトル生成部1216では、この前フレームに係るスケールファクタに基づいて現フレームのスケールファクタが予測され、このスケールファクタを使用して復号することになる。
ちなみに、復号スペクトル生成部1216は、原信号の復号スペクトルU(k)を次の「式11」を用いて算出する。
ここで、式11において、「C(k)」はスペクトル微細情報、「α’(m)」は第mサブバンドの復号した予測係数、「Bprv(k)」は前フレームのMDCT係数を表し、「k」は第mサブバンドに含まれる周波数を表す。また、「Yprv(m)」は第mサブバンドにおける前フレームのスケールファクタ、「Zprv(m)」は第mサブバンドにおける平滑化後の前フレームのスケールファクタを表す。
このように、この参考例の構成によれば、スペクトル概形の時間的な相関を利用して、スペクトル概形の予測を行うため、スケールファクタの符号化を効率的に行えると共に、その低ビットレート化を図ることができる。
以上、本発明の各実施の形態について説明した。
本発明に係るスケーラブル符号化装置等は、上記各実施の形態に限定されず、種々変更して実施することが可能である。例えば、各実施の形態は、適宜組み合わせて実施することが可能である。
本発明に係るスケーラブル符号化装置およびスケーラブル復号装置は、移動体通信システムにおける通信端末装置および基地局装置に搭載することが可能であり、これにより上記と同様の作用効果を有する通信端末装置、基地局装置、および移動体通信システムを提供することができる。
なお、ここでは、本発明をハードウェアで構成する場合を例にとって説明したが、本発明をソフトウェアで実現することも可能である。例えば、本発明に係るスケーラブル符号化方法のアルゴリズムをプログラミング言語によって記述し、このプログラムをメモリに記憶しておいて情報処理手段によって実行させることにより、本発明に係るスケーラブル符号化装置と同様の機能を実現することができる。
また、上記各実施の形態の説明に用いた各機能ブロックは、典型的には集積回路であるLSIとして実現される。これらは個別に1チップ化されても良いし、一部又は全てを含むように1チップ化されても良い。
ここでは、LSIとしたが、集積度の違いにより、IC、システムLSI、スーパーLSI、ウルトラLSIと呼称されることもある。
また、集積回路化の手法はLSIに限るものではなく、専用回路又は汎用プロセッサで実現しても良い。LSI製造後に、プログラムすることが可能なFPGA(Field Programmable Gate Array)や、LSI内部の回路セルの接続や設定を再構成可能なリコンフィギュラブル・プロセッサーを利用しても良い。
さらには、半導体技術の進歩又は派生する別技術によりLSIに置き換わる集積回路化の技術が登場すれば、当然、その技術を用いて機能ブロックの集積化を行っても良い。バイオ技術の適応等が可能性としてありえる。
本明細書は、2004年10月13日出願の特願2004−298942に基づく。この内容はすべてここに含めておく。
本発明に係るスケーラブル符号化装置は、第2レイヤでの符号化効率を改善すると共に、第2レイヤでの符号化パラメータを用いて復号した原信号の品質を向上させるという効果を有し、低ビットレートで、かつ、高い再生音質が要求される移動体通信システム等に有用である。
実施の形態1に係るスケーラブル符号化装置の主要な構成を示すブロック図
実施の形態1における第2レイヤ符号化部の主要な構成を示すブロック図
実施の形態1における予測係数符号化部の主要な構成を示すブロック図
実施の形態1においてスペクトルとスペクトル概形との関係を説明する図
実施の形態1に係るスケーラブル復号装置の主要な構成を示すブロック図
実施の形態1における第2レイヤ復号化部の主要な構成を示すブロック図
実施の形態1における予測係数符号化部の応用例を示すブロック図
実施の形態1における予測係数符号化部の応用例を示すブロック図
実施の形態2において正弦波の符号化方式と生成されたスペクトルとの関係を説明する図
実施の形態2において正弦波の符号化方式と生成されたスペクトルとの関係を説明する図
実施の形態2において正弦波の符号化方式と生成されたスペクトルとの関係を説明する図
実施の形態2における第2レイヤ符号化部の主要な構成を示すブロック図
実施の形態2におけるスペクトル平滑部の主要な構成を示すブロック図
実施の形態2に係るスケーラブル復号装置の主要な構成を示すブロック図
実施の形態2においてMDCTによるスペクトルを平滑化する前後の態様を示す図
実施の形態3における第2レイヤ符号化部の主要な構成を示すブロック図
参考例に係る音声符号化装置における主要な構成要素の構成を示すブロック図
参考例に係る音声復号装置における主要な構成要素の構成を示すブロック図
実施の形態2におけるスケールファクタの量子化性能を計算機シミュレーションにより算出した結果の一例を示す図