以下、本発明の実施の形態について、添付図面を参照して詳細に説明する。
(実施の形態1)
図3は、本発明の実施の形態1に係る階層符号化装置100の主要な構成を示すブロック図である。ここでは、符号化情報が複数のレイヤからなる階層構造を有する場合、すなわち、階層符号化(スケーラブル符号化)を行う場合を例にとって説明する。
階層符号化装置100の各部は、信号の入力に伴い以下の動作を行う。
ダウンサンプリング部101は、入力信号からサンプリングレートの低い信号を生成し第1レイヤ符号化部102に与える。第1レイヤ符号化部102は、ダウンサンプリング部101から出力された信号を符号化する。第1レイヤ符号化部102で得られた符号化コードは、多重化部103に与えられると共に、第1レイヤ復号化部104に与えられる。第1レイヤ復号化部104は、第1レイヤ符号化部102から出力された符号化コードから第1レイヤの復号信号S1を生成する。
一方、遅延部105は、入力信号に所定の長さの遅延を与える。この遅延は、ダウンサンプリング部101、第1レイヤ符号化部102、および第1レイヤ復号化部104で生じる時間遅れを補正するためのものである。スペクトル符号化部106は、第1レイヤ復号化部104で生成された第1レイヤ復号信号S1を用いて、遅延部105から出力された所定時間遅延された入力信号S2のスペクトル符号化を行い、生成された符号化コードを多重化部103に出力する。
多重化部103は、第1レイヤ符号化部102で求められる符号化コードとスペクトル符号化部106で求められる符号化コードとを多重化し、これを出力符号化コードとして符号化装置100の外部に出力する。
図4は、上記のスペクトル符号化部106内部の主要な構成を示すブロック図である。
このスペクトル符号化部106は、周波数領域変換部111、スペクトル変形部112、周波数領域変換部113、拡張帯域スペクトル符号化部114、および多重化部115から主に構成される。
スペクトル符号化部106には、第1レイヤ復号化部104から有効信号帯域が0≦k<FL(kは各サブバンドの周波数)の第1信号S1が入力され、また、遅延部105から有効信号帯域が0≦k<FH(ただし、FL<FH)の第2信号S2が入力される。スペクトル符号化部106は、第1信号S1の帯域0≦k<FLのスペクトルを利用して、第2信号S2の帯域FL≦k<FHのスペクトルを推定し、この推定情報を符号化して出力する。
周波数領域変換部111は、入力される第1信号S1に周波数変換を行い、低域スペクトルである第1スペクトルS1(k)を算出する。一方、周波数領域変換部113は、入力される第2信号S2に周波数変換を行い、広帯域の第2スペクトルS2(k)を算出する。ここで周波数変換の方法は、離散フーリエ変換(DFT)、離散コサイン変換(DCT)、変形離散コサイン変換(MDCT)等を適用する。また、S1(k)は、第1スペクトルの周波数kのサブバンドのスペクトルであり、S2(k)は、第2スペクトルの周波数kのサブバンドのスペクトルである。
スペクトル変形部112は、第1スペクトルS1(k)を様々に変形させることにより第1スペクトルのダイナミックレンジを変化させ、適切なダイナミックレンジとなる変形の仕方について調べる。そして、この変形に関する情報(変形情報)を符号化して多重化部115に与える。このスペクトル変形処理の詳細については後ほど詳述する。また、スペクトル変形部112は、適切なダイナミックレンジとなった第1スペクトルS1(k)を拡張帯域スペクトル符号化部114に出力する。
拡張帯域スペクトル符号化部114は、第2スペクトルS2(k)を参照信号として、第1スペクトルS1(k)の高域(FL≦k<FH)に含めるべきスペクトル(拡張帯域スペクトル)を推定し、この推定スペクトルに関する情報(推定情報)を符号化して多重化部115に与える。ここで、拡張帯域スペクトルの推定は、変形後の第1スペクトルS1’(k)に基づいて行われる。
多重化部115は、スペクトル変形部112から出力された変形情報の符号化コードと、拡張帯域スペクトル符号化部114から出力された拡張帯域スペクトルに関する推定情報の符号化コードと、を多重化して出力する。
図5は、上記のスペクトル変形部112内部の主要な構成を示すブロック図である。
スペクトル変形部112は、第1スペクトルS1(k)のダイナミックレンジが第2スペクトルS2(k)の高域スペクトル(FL≦k<FH)のダイナミックレンジに最も近付くような変形を第1スペクトルS1(k)に加える。そして、このときの変形情報を符号化して出力する。
バッファ121は、入力された第1スペクトルS1(k)を一時保存し、必要に応じ第1スペクトルS1(k)を変形部122に与える。
変形部122は、下記の手順に従い、第1スペクトルS1(k)を様々に変形して変形第1スペクトルS1’(j,k)を生成し、これをサブバンドエネルギー算出部123に与える。ここで、jは各変形処理を識別するためのインデックスである。
サブバンドエネルギー算出部123は、変形第1スペクトルS’(j,k)の周波数帯域を複数のサブバンドに分割し、所定の範囲のサブバンドのエネルギー(サブバンドエネルギー)を求める。例えば、サブバンドエネルギーを求める範囲をF1L≦k<F1Hと定めたとき、この帯域幅をN分割したときのサブバンド幅BWSは次の(式1)のように表される。
BWS=(F1H−F1L+1)/N ・・・(式1)
よって、第nサブバンドの最小周波数F1L(n)および最大周波数F1H(n)は、それぞれ(式2)(式3)と表される。
F1L(n)=F1L+n・BWS ・・・(式2)
F1H(n)=F1L+(n+1)・BWS−1 ・・・(式3)
ここでnは0〜N−1の値をとる。このとき、サブバンドエネルギーP1(j,n)は次の(式4)のように算出される。
または、次の(式5)のようにサブバンドに含まれるスペクトルの平均値として求めてもよい。
このようにして求められたサブバンドエネルギーP1(j,n)が分散算出部124に与えられる。
分散算出部124は、サブバンドエネルギーP1(j,n)のばらつきの程度を表すために、分散σ1
2(j)を次の(式6)に従い算出する。
ここで、P1mean(j)はサブバンドエネルギーP1(j,n)の平均値を表し、次の(式7)のように算出される。
このようにして算出された、変形情報jにおけるサブバンドエネルギーのばらつきの度合いを表す分散σ1
2(j)は探索部125に与えられる。
サブバンドエネルギー算出部126および分散算出部127は、上記のサブバンドエネルギー算出部123および分散算出部124で行われる一連の処理と同様に、入力される第2スペクトルS2(k)に対して、サブバンドエネルギーのばらつきの度合いを表す分散σ22を算出する。ただし、サブバンドエネルギー算出部126および分散算出部127の処理は、以下の点で上記と異なる。すなわち、第2スペクトルS2(k)のサブバンドエネルギーを算出する所定の範囲を、F2L≦k<F2Hと定める。ここで、第1スペクトルのダイナミックレンジを第2スペクトルの高域スペクトルのダイナミックレンジに近づける必要があることから、FL≦F2L<F2Hの条件を満足するF2Lを設定する。また、第2スペクトルに対するサブバンド数は、第1スペクトルのサブバンド数Nと一致させる必要はない。ただし、第1スペクトルのサブバンド幅と第2スペクトルのサブバンド幅とがほぼ一致するように、第2スペクトルのサブバンド数は設定される。
探索部125は、第1スペクトルのサブバンドの分散σ12(j)と第2スペクトルのサブバンドの分散σ22とが最も近付く際の第1スペクトルのサブバンドの分散σ12(j)を探索により決定する。具体的には、探索部125は、全ての変形候補0≦j<Jに対して第1スペクトルのサブバンドの分散σ12(j)を算出し、この算出値と第2スペクトルのサブバンドの分散σ22とを比較し、両者が最も近付く際のjの値(最適変形情報jopt)を決定し、このjoptをスペクトル変形部112の外部および変形部128に出力する。
変形部128は、この最適変形情報joptに対応する変形第1スペクトルS’(jopt,k)を生成し、スペクトル変形部112の外部に出力する。なお、最適変形情報joptは多重化部115に、変形第1スペクトルS1’(jopt,k)は拡張帯域スペクトル符号化部114に送られる。
図6は、上記の変形部122内部の主要な構成を示すブロック図である。なお、変形部128内部の構成も基本的に変形部122と同様である。
正号/負号抽出部131は、第1スペクトルの各サブバンドの符号情報sign(k)を求め、正号/負号付与部134に出力する。
絶対値算出部132は、第1スペクトルの各サブバンドに対し、振幅の絶対値を算出し、この値を指数値算出部133に与える。
指数変数テーブル135は、第1スペクトルの変形に用いられる指数変数α(j)を記録している。このテーブルに含まれる変数のうちjに対応する値が、指数変数テーブル135から出力される。具体的には、指数変数テーブル135には、例えば、指数変数α(j)={1.0,0.8,0.6,0.4}の4つからなる指数変数の候補が記録されており、探索部125から指定されたインデックスjに基づき1つの指数変数α(j)が選択され、指数値算出部133に与えられる。
指数値算出部133は、指数変数テーブル135から出力された指数変数を用いて、絶対値算出部132から出力されるスペクトル(絶対値)の指数値、すなわち、各サブバンドの振幅の絶対値をα(j)でべき乗した値を算出する。
正号/負号付与部134は、指数値算出部133から出力される指数値に対し、正号/負号抽出部131で先に求めておいた符号情報sign(k)を付与し、変形第1スペクトルS1’(j,k)として出力する。
よって変形部122から出力される変形第1スペクトルS1’(j,k)は、次の(式8)のように表される。
図7は、上記の変形部122(または変形部128)によって得られる変形スペクトルの例を示す図である。
なお、ここでは、指数変数α(j)={1.0,0.6,0.2}の場合を例にとって説明している。また、ここでは、各スペクトルの比較が容易となるように、α(j)=1.0の場合のスペクトルS71を上方に40dB、α(j)=0.6の場合のスペクトルS72を上方に20dBだけシフトさせて表示をしている。この図から、指数変数α(j)によって、スペクトルのダイナミックレンジを変化させることが可能であることがわかる。
以上説明したように、本実施の形態に係る符号化装置(スペクトル符号化部106)によれば、第1信号(0≦k<FL)から求められる第1スペクトルを使って、第2信号(0≦k<FH)から求められる第2スペクトルの高域部(FL≦k<FH)を推定し、推定情報を符号化する際に、第1スペクトルをそのまま用いずに、第1スペクトルに変形を加えた後に上記推定を行うようにする。このとき、どのように変形したかを表す情報(変形情報)も併せて符号化し、復号化側に伝送する。
第1スペクトルに加える変形の具体的な方法は、第1スペクトルをサブバンドに分割し、各サブバンド内に含まれるスペクトルの絶対振幅の平均(サブバンド平均振幅)をサブバンド毎に求め,これらサブバンド平均振幅を統計処理して求められる分散が、第2スペクトルの高域部のスペクトルから同様にして求められるサブバンド平均振幅の分散に最も近付くように、第1スペクトルを変形する。すなわち、第1スペクトルの絶対振幅の平均的な振れ幅と、第2スペクトルの高域スペクトルの絶対振幅の平均的な振れ幅とが同等の値となるように第1スペクトルを変形する。また、この具体的な変形方法を示す変形情報を符号化する。なお、サブバンド平均振幅の代わりに、各サブバンドに含まれるスペクトルのエネルギーを用いても良い。
上記の具体的な変形方法のさらに詳細は、第1スペクトルのスペクトルをα乗(0≦α≦1)することで、サブバンド内のスペクトルの絶対振幅のばらつき(振れ)を制御する。そして、使用されたαに関する情報を復号化側へ伝送する。
上記の構成を採ることにより、第1スペクトルのダイナミックレンジと第2スペクトルの高域部のダイナミックレンジとが大きく異なる場合でも、推定スペクトルのダイナミックレンジを適切に調整することができ、復号信号の主観品質を向上させることができる。
また、以上の構成において、第1スペクトル全体をα乗(0≦α≦1)することにより、スペクトルの振幅に対し一様な制限を加えている。これにより、鋭敏(急峻)なピークを鈍化させることができる。また、例えば、ただ単に所定値以上のピークをピークカットする変形を行った場合、スペクトルが不連続となり異音が発生するおそれがあるが、上記の構成を採ることにより、スペクトルは滑らかなままであり異音の発生を防止することができる。
なお、本実施の形態では、スペクトルの絶対振幅のばらつきの度合い(振れ幅)を表す指標として分散を用いる場合を例にとって説明したが、これに限らず、例えば標準偏差等の別の指標を適用しても良い。
また、本実施の形態では、符号化装置100内の変形部122(または変形部128)において、指数関数を使用する場合を例にとって説明したが、以下に示すような方法を用いても良い。
図8は、変形部の別のバリエーション(変形部122a)の構成を示すブロック図である。なお、変形部122(または変形部128)と同一の構成要素には同一の符号を付し、その説明を省略する。
上記の変形部122(または変形部128)では、指数関数を使用しているために演算量が大きくなる傾向にある。そこで、指数関数を使用せずにスペクトルのダイナミックレンジを変化させるようにすることで演算量の増大を回避する。
絶対値算出部132は、入力された第1スペクトルS1(k)の各スペクトルの絶対値を算出し、平均値算出部142および変形スペクトル算出部143に出力する。平均値算出部142は、次の(式9)に従いスペクトルの絶対値の平均値S1meanを算出する。
乗数テーブル144には、変形スペクトル算出部143で使用される乗数の候補が記録されており、探索部125から指定されたインデックスに基づいて1つの乗数が選択され、変形スペクトル算出部143に出力される。ここでは、乗数テーブルに、乗数g(j)={1.0,0.9,0.8,0.7}の4候補が記録されているものとする。
変形スペクトル算出部143は、絶対値算出部132から出力された第1スペクトルの絶対値と、乗数テーブル144から出力された乗数g(j)とを用いて、変形スペクトルS1’(k)の絶対値を次の(式10)に従い算出し、正号/負号付与部134に出力する。
正号/負号付与部134は、変形スペクトル算出部143から出力された変形スペクトルS1’(k)の絶対値に、正号/負号抽出部131で得られた符号情報sign(k)を付与し、次の(式11)で表される最終的な変形スペクトルS1’(k)を生成し、出力する。
また、本実施の形態では、変形部が、正号/負号抽出部、絶対値算出部、正号/負号付与部を備える場合を例にとって説明したが、入力されるスペクトルが常に正である場合には、これらの構成は必要ない。
次いで、上記の階層符号化装置100で生成された符号化コードを復号化することができる階層復号化装置150の構成について以下詳細に説明する。
図9は、本実施の形態に係る階層復号化装置150の主要な構成を示すブロック図である。
分離部151は、入力された符号化コードに分離処理を施し、第1レイヤ復号化部152用の符号化コードS51と、スペクトル復号化部153用の符号化コードS52とを生成する。第1レイヤ復号化部152は、分離部151で得られた符号化コードを用いて信号帯域0≦k<FLの復号信号を復号し、この復号信号S53をスペクトル復号化部153に与える。また、第1レイヤ復号化部152の出力は、復号化装置150の出力端子にも接続されている。これにより、第1レイヤ復号化部152で生成される第1レイヤ復号信号を出力する必要が生じた場合には、この出力端子を介し出力させることができる。
スペクトル復号化部153には、分離部151で分離された符号化コードS52と第1レイヤ復号化部152から出力される第1レイヤ復号信号S53とが与えられる。スペクトル復号化部153は、後述のスペクトル復号化を行い、信号帯域0≦k<FHの広帯域の復号信号を生成し、これを出力する。スペクトル復号化部153では、第1レイヤ復号化部152から与えられる第1レイヤ復号信号353を第1信号とみなして処理を行うことになる。
図10は、上記のスペクトル復号化部153内部の主要な構成を示すブロック図である。
このスペクトル復号化部153には、符号化コードS52および第1レイヤ復号信号S53(有効周波数帯域が0≦k<FLの第1信号)が入力される。
分離部161は、入力された符号化コードS52から、上記の符号化側のスペクトル変形部112で生成された変形情報と、拡張帯域スペクトル符号化情報とを分離し、変形情報は変形部162に、拡張帯域スペクトル符号化情報は拡張帯域スペクトル生成部163に出力する。
周波数領域変換部164は、入力された時間領域信号である第1レイヤ復号信号S53に対し周波数変換を施し、第1スペクトルS1(k)を算出する。この周波数変換法は、離散フーリエ変換(DFT)、離散コサイン変換(DCT)、変形離散コサイン変換(MDCT)等を使用する。
変形部162は、分離部161から与えられる変形情報に基づいて、周波数領域変換部164から与えられる第1スペクトルS1(k)に変形を加え、変形第1スペクトルS1’(k)を生成する。なお、この変形部162内部の構成は、既に説明した符号化側の変形部122(図6参照)と同様なので、説明を省略する。
拡張帯域スペクトル生成部163は、変形後の第1スペクトルS1’(k)を用いて、第1スペクトルS1(k)の拡張帯域FL≦k<FHに含めるべき第2スペクトルの推定値S2”(k)を生成し、この第2スペクトルの推定値S2”(k)をスペクトル構成部165に与える。
スペクトル構成部165は、周波数領域変換部164から与えられる第1スペクトルS1(k)と、拡張帯域スペクトル生成部163から与えられる第2スペクトルの推定値S2”(k)とを結合し、復号スペクトルS3(k)を生成する。この復号スペクトルS3(k)は次の(式12)のように表される。
この復号スペクトルS3(k)は、時間領域変換部166へ与えられる。
時間領域変換部166は、復号スペクトルS3(k)を時間領域の信号に変換した後、必要に応じて適切な窓掛けおよび重ね合わせ加算等の処理を行ってフレーム間に生じる不連続を回避し、最終的な復号信号を出力する。
このように、本実施の形態に係る復号化装置(スペクトル復号化部153)によれば、本実施の形態に係る符号化装置で符号化された信号を復号化することができる。
(実施の形態2)
本発明の実施の形態2では、第1スペクトルを内部状態として持つピッチフィルタを用いて第2スペクトルを推定し、このピッチフィルタの特性を符号化する。
本実施の形態に係る階層符号化装置の構成は、実施の形態1に示した階層符号化装置と同様であるので、異なる構成であるスペクトル符号化部201を図11のブロック図を用いて説明する。なお、実施の形態1に示したスペクトル符号化部106(図4参照)と同一の構成要素には同一の符号を付し、その説明を省略する。
内部状態設定部203は、スペクトル変形部112にて生成された変形第1スペクトルS1’(k)を使ってフィルタリング部204で用いられるフィルタの内部状態S(k)を設定する。
フィルタリング部204は、内部状態設定部203で設定されたフィルタの内部状態S(k)と、ラグ係数設定部206から与えられるラグ係数Tとに基づいてフィルタリングを行い、第2スペクトルの推定値S2”(k)を算出する。なお、本実施の形態では、フィルタを次の(式13)で表されるものを使用した場合について説明する。
ここで、Tは、ラグ係数設定部206から与えられる係数を表す。また、ここではM=1とする。フィルタリング部204におけるフィルタリング処理は、次の(式14)に示すように、周波数の低い方から順に、周波数Tだけ低いスペクトルを中心に対応する係数β
iを乗じて加算することにより推定値を算出する。
この式に従う処理を、FL≦k<FHの間に行う。ここでS(k)は、フィルタの内部状態を表す。このとき算出されるS(k)(ただし、FL≦k<FH)が、第2スペクトルの推定値S2”(k)として利用される。
探索部205は、周波数領域変換部113から与えられる第2スペクトルS2(k)と、フィルタリング部204から与えられる第2スペクトルの推定値S2”(k)との類似度を算出する。
なお、この類似度には様々な定義が存在するが、本実施の形態では、まずフィルタ係数β
−1およびβ
1を0とみなして最小2乗誤差に基づき定義される次の(式15)に従い算出される類似度を使用する。
この方法では、最適なラグ係数Tを算出した後にフィルタ係数β
iを決定することになる。ここで、EはS2(k)とS2”(k)間の2乗誤差を表す。また、上記(式15)の右辺第1項は、ラグ係数Tに関わらず固定値となるので、(式15)の右辺第2項を最大とするS2”(k)を生成するラグ係数Tが探索されることになる。本実施の形態では、(式15)の右辺第2項を類似度と呼ぶことにする。
ラグ係数設定部206は、予め定められた探索範囲TMIN〜TMAXに含まれるラグ係数Tを順次フィルタリング部204に出力する。そのため、フィルタリング部204では、ラグ係数設定部206からラグ係数Tが与えられる度に、FL≦k<FHの範囲のS(k)をゼロクリアした後のフィルタリングが行われ、探索部205では、その度に類似度が算出される。探索部205は、算出される類似度が最大となるときの係数TmaxをTMIN〜TMAXの間から決定し、その係数Tmaxをフィルタ係数算出部207、スペクトル概形符号化部208,および多重化部115に与える。
フィルタ係数算出部207は、探索部205から与えられる係数Tmaxを用いてフィルタ係数β
iを求める。ここで、フィルタ係数β
iは、次の(式16)に従う2乗歪Eを最小にするように求められる。
フィルタ係数算出部207は、複数個のβ
iの組合せを予めテーブルとして有しており、上記(式16)の2乗歪Eを最小とするβ
iの組合せを決定し、そのコードを多重化部115に出力すると共に、フィルタ係数β
iをスペクトル概形符号化部208に与える。
スペクトル概形符号化部208は、内部状態設定部203から与えられる内部状態S(k)と、探索部205から与えられるラグ係数Tmaxと、フィルタ係数算出部207から与えられるフィルタ係数βiとを用いてフィルタリングを行い、帯域FL≦k<FHの第2スペクトルの推定値S2”(k)を求める。そして、スペクトル概形符号化部208は、第2スペクトルの推定値S2”(k)と第2スペクトルS2(k)とを用いてスペクトル概形の調整係数の符号化を行う。
なお、本実施の形態では、このスペクトル概形情報をサブバンド毎のスペクトルパワで表す場合について説明する。このとき、第jサブバンドのスペクトルパワは次の(式17)で表される。
ここで、BL(j)は第jサブバンドの最小周波数、BH(j)は第jサブバンドの最大周波数を表す。このようにして求められた第2スペクトルのサブバンドのスペクトルパワを第2スペクトルのスペクトル概形情報とみなす。
同様に、スペクトル概形符号化部208は、第2スペクトルの推定値S2”(k)のサブバンドのスペクトルパワB”(j)を次の(式18)に従い算出し、サブバンド毎の変動量V(j)を次の(式19)に従い算出する。
次に、スペクトル概形符号化部208は、変動量V(j)を符号化してそのコードを多重化部115に送る。
多重化部115は、スペクトル変形部112から得られる変形情報と、探索部205から得られる最適ラグ係数Tmaxの情報と、フィルタ係数算出部207から得られるフィルタ係数の情報と、スペクトル概形符号化部208から得られるスペクトル概形調整係数の情報とを多重化して出力する。
このように、本実施の形態によれば、第1スペクトルを内部状態として持つピッチフィルタを用いて第2スペクトルを推定するので、このピッチフィルタの特性のみを符号化すれば良く、低ビットレート化が可能となる。
なお、本実施の形態では、周波数領域変換部を備える場合を説明したが、これらは時間領域信号を入力とする場合に必要な構成要素であり、直接スペクトルが入力される場合には周波数領域変換部は必要ない。
また、本実施の形態では、上記(式13)においてM=1の場合を例にとって説明したが、Mの値は1に限定されることはなく、0以上の整数を用いることが可能である。
また、本実施の形態では、ピッチフィルタが上記(式13)のフィルタ関数(伝達関数)を用いる場合を例にとって説明したが、ピッチフィルタは1次のピッチフィルタであっても良い。
図12は、本実施の形態に係るスペクトル符号化部201の別のバリエーション(スペクトル符号化部201a)の構成を示すブロック図である。なお、スペクトル符号化部201と同一の構成要素には同一の符号を付し、その説明を省略する。
フィルタリング部204で用いられるフィルタは、次の(式20)のように簡略化したものを用いる。
この式は、上記(式13)において、M=0、β
0=1とした場合のフィルタ関数となっている。
このフィルタにより生成される第2スペクトルの推定値S2”(k)は、以下の(式21)を用いて、Tだけ離れた内部状態S(k)の低域スペクトルを順次コピーすることにより求めることができる。
また、探索部205は、既に述べたのと同様に、最適な係数Tmaxを上記(式15)を最小とするラグ係数Tを探索して決定する。このようにして求められた係数Tmaxは多重化部115に与えられる。
上記の構成を採ることにより、フィルタリング部204で用いるフィルタの構成が簡易なため、フィルタ係数算出部207が不要となり、少ない演算量で第2スペクトルの推定を行うことができる。すなわち、この構成によれば、符号化装置の構成が簡易となり、符号化処理の演算量を削減することができる。
次いで、上記のスペクトル符号化部201(またはスペクトル符号化部201a)で生成された符号化コードを復号化することができる復号側のスペクトル復号化部251の構成について以下詳細に説明する。
図13は、本実施の形態に係るスペクトル復号化部251の主要な構成を示すブロック図である。なお、このスペクトル復号化部251は、実施の形態1に示したスペクトル復号化部153(図10参照)と同様の基本的構成を有しており、同一の構成要素には同一の符号を付し、その説明を省略する。異なるのは拡張帯域スペクトル生成部163aの内部構成である。
内部状態設定部252は、変形部162から出力される変形後の第1スペクトルS1’(k)を使ってフィルタリング部253で用いられるフィルタの内部状態S(k)を設定する。
フィルタリング部253は、符号化側のスペクトル符号化部201(201a)で生成された符号化コードから、分離部161を介してフィルタに関する情報を得る。具体的には、スペクトル符号化部201の場合は、ラグ係数Tmaxおよびフィルタ係数βiが得られ、スペクトル符号化部201aの場合には、ラグ係数Tmaxのみが得られる。そして、フィルタリング部253は、変形部162で生成された変形第1スペクトルS1’(k)をフィルタの内部状態S(k)として、取得したフィルタ情報に基づいてフィルタリングを行い、復号スペクトルS”(k)を算出する。このフィルタリング方法は、符号化側のスペクトル符号化部201(201a)で用いられたフィルタ関数に依存し、スペクトル符号化部201の場合は、復号側でも上記(式13)に従ってフィルタリングが行われ、スペクトル符号化部201aの場合には、復号側でも上記(式20)に従ってフィルタリングが行われる。
スペクトル概形復号化部254は、分離部161から与えられたスペクトル概形情報に基づいてスペクトル概形情報を復号する。本実施の形態では、サブバンド毎の変動量の量子化値Vq(j)を用いる場合を例にとって説明を行う。
スペクトル調整部255は、フィルタリング部253から得られるスペクトルS”(k)に、スペクトル概形復号化部254から得られるサブバンド毎の変動量の量子化値Vq(j)を次の(式22)に従って乗じることにより、スペクトルS”(k)の周波数帯域FL≦k<FHのスペクトル形状を調整し、第2スペクトルの推定値S2”(k)を生成する。
ここで、BL(j)およびBH(j)は、それぞれ第jサブバンドの最小周波数、最大周波数を表す。上記(式22)に従って算出された第2スペクトルの推定値S2”(k)は、スペクトル構成部165に与えられる。
スペクトル構成部165は、実施の形態1で前述したように、第1スペクトルS1(k)と第2スペクトルの推定値S2”(k)とを結合して復号スペクトルS3(k)を生成し、時間領域変換部166に与える。
このように、本実施の形態に係る復号化装置(スペクトル復号化部251)によれば、本実施の形態に係る符号化装置で符号化された信号を復号化することができる。
(実施の形態3)
図14は、本発明の実施の形態3に係るスペクトル符号化部の主要な構成を示すブロック図である。図14において、図4と同一名称および同一符号を付したブロックは同一機能を有するので説明を省略する。本実施の形態3では、符号化側、復号化側で共通な情報を基にスペクトルのダイナミックレンジを調整する。これにより、スペクトルのダイナミックレンジを調整するダイナミックレンジ調整係数を表す符号化コードを出力する必要がない。ダイナミックレンジ調整係数を表す符号化コードを出力する必要がないために、ビットレートを低減することができる。
図14におけるスペクトル符号化部301は、周波数領域変換部111と拡張帯域スペクトル符号化部114との間に、図4におけるスペクトル変形部112の代わりに、ダイナミックレンジ算出部302、変形情報推定部303、および変形部304を有する。実施の形態1におけるスペクトル変形部112は、第1スペクトルS1(k)を様々に変形させることにより第1スペクトルのダイナミックレンジを変化させ、適切なダイナミックレンジとなる変形の仕方(変形情報)について調べ、この変形情報を符号化して出力する。一方、本実施の形態3では、符号化側および復号化側で共通な情報に基づきこの変形情報の推定を行い、推定変形情報に従い第1スペクトルS1(k)の変形を行う。
したがって本実施の形態3では、スペクトル変形部112の代わりに、ダイナミックレンジ算出部302と、変形情報推定部303と、その推定変形情報に基づき第1スペクトルを変形する変形部304とを有する。なお、変形情報はスペクトル符号化部及び後述するスペクトル復号化部のそれぞれ内部にて推定により求められるため、スペクトル符号化部301から変形情報を符号化コードとして出力する必要がなく、このため図4のスペクトル符号化部106に配置されている多重化部115は必要としない。
周波数領域変換部111より第1スペクトルS1(k)が出力され、ダイナミックレンジ算出部302と変形部304とに与えられる。ダイナミックレンジ算出部302は、第1スペクトルS1(k)のダイナミックレンジを定量化し、その結果をダイナミックレンジ情報として出力する。ダイナミックレンジの定量化の手法としては、実施の形態1と同様に、第1スペクトルの周波数帯域を複数のサブバンドに分割し、所定の範囲のサブバンドのエネルギー(サブバンドエネルギー)を求め、当該サブバンドエネルギーの分散値を算出し、この分散値をダイナミックレンジ情報として出力する。
次に、図15を用いて変形情報推定部303の説明を行う。変形情報推定部303には、ダイナミックレンジ算出部302よりダイナミックレンジ情報が入力され、切替部305に与えられる。切替部305は、前記ダイナミックレンジ情報を基に変形情報テーブル306内に記録されている推定変形情報の候補の中から1つの推定変形情報を選択し、出力する。変形情報テーブル306には0〜1の間の値をとる複数の推定変形情報の候補が記録されており、この候補はダイナミックレンジ情報と対応するようにあらかじめ学習によって決めておく。
図16は変形部304の主要な構成を示すブロック図である。図6と同一名称および同一符号を付したブロックは同一の機能を有するので説明を省略する。図16の変形部304における指数値算出部307は、変形情報推定部303より与えられる推定変形情報(0〜1の間をとる)に従い、絶対値算出部132から出力されるスペクトルの絶対振幅の指数値、すなわち、推定変形情報でべき乗した値を、正号/負号付与部134に出力する。正号/負号付与部134は、指数値算出部307から出力される指数値に対し、正号/負号抽出部131で先に求めておいた符号情報を付与し、変形第1スペクトルとして出力する。
以上説明したように、本実施の形態に係る符号化装置(スペクトル符号化部301)によれば、第1信号から求められる第1スペクトル(0≦k<FL)を使って、第2信号から求められる第2スペクトル(0≦k<FH)の高域部(FL≦k<FH)を推定し、推定情報を符号化する際に、第1スペクトルをそのまま用いずに、第1スペクトルに変形を加えた後に上記推定を行うようにすることで、推定スペクトルのダイナミックレンジを適切に調整することができ、復号信号の主観品質を向上させることができる。このとき、どのように変形したかを表す情報(変形情報)は、符号化側、復号化側で共通な情報(本実施の形態3では第1スペクトル)を基に変形情報を確定するために、変形情報に関する符号化コードを復号化部に伝送する必要がなく、ビットレートを低減させることが可能となる。
なお、変形情報推定部303において、変形情報テーブル306を用いた、第1スペクトルのダイナミックレンジ情報と推定変形情報との対応づけを行う代わりに、第1スペクトルのダイナミックレンジ情報を入力値、推定変形情報を出力値とするマッピング関数を用いても良い。この場合、関数の出力値である推定変形情報は0〜1の間の値をとるように制限される。
図17は、本実施の形態3に係るスペクトル復号化部353の主要な構成を示すブロック図である。この構成において、図10と同一名称および同一符号を付したブロックは同一の機能を有するため説明を省略する。周波数領域変換部164と拡張帯域スペクトル生成部163との間に、ダイナミックレンジ算出部361、変形情報推定部362、および変形部363を有する。図10における変形部162は、符号化側のスペクトル変形部112で生成された変形情報を入力し、この変形情報に基づいて、周波数領域変換部164から与えられる第1スペクトルS1(k)に変形を施す。これに対し本実施の形態3は、上記スペクトル符号化部301と同様に、符号化側および復号化側で共通な情報に基づきこの変形情報の推定を行い、推定変形情報にしたがって第1スペクトルS1(k)の変形を行う。
したがって本実施の形態3では、ダイナミックレンジ算出部361、変形情報推定部362、および変形部363を有する。なお、上記スペクトル符号化部301と同様に、変形情報は、スペクトル復号化部の内部にて推定により求められるため、入力される符号化コードには変形情報が含まれていないため、図10のスペクトル復号化部153に配置されている分離部161は必要としない。
周波数領域変換部164より第1スペクトルS1(k)が出力され、ダイナミックレンジ算出部361と変形部363とに与えられる。以降、ダイナミックレンジ算出部361、変形情報推定部362、および変形部363の動作については、既に説明した符号化側のスペクトル符号化部301(図14参照)内のダイナミックレンジ算出部302、変形情報推定部303、および変形部304と同様なので説明を省略する。なお、変形情報推定部362内の変形情報テーブルは、スペクトル符号化部301における変形情報推定部303内の変形情報テーブル306と同じ推定変形情報の候補が記録されている。
また、拡張帯域スペクトル生成部163、スペクトル構成部165、時間領域変換部166の動作は、実施の形態1の図10に記載のものと同様なので、説明を省略する。
このように、本実施の形態に係る復号化装置(スペクトル復号化部353)によれば、本実施の形態に係る符号化装置で符号化された信号を復号化することで、推定スペクトルのダイナミックレンジを適切に調整することができ、復号信号の主観品質を向上させることができる。
なお、本実施の形態では、変形情報推定部303において推定変形情報が求められるが、この推定変形情報を実施の形態1の図4記載のスペクトル符号化部106に適用してスペクトル変形部112に当該推定変形情報を与え、スペクトル変形部112では変形情報推定部303より与えられる推定変形情報を基準にその近傍の変形情報を指数変数テーブル135から選択し、その限定された変形情報の中から最も適切な変形情報を探索部125にて決定する。この構成では、最終的に選択された変形情報の符号化コードは、前記基準となる推定変形情報からの相対値として表される。このように正確な変形情報を符号化して復号化部へ伝送することができるため、復号信号の主観品質を維持しながら、変形情報を表すビット数を少なくすることができるという効果が得られる。
(実施の形態4)
本発明の実施の形態4では、第1レイヤ符号化部より与えられるピッチゲインに基づきスペクトル符号化部内の変形部に出力される推定変形情報を決定する。
図18は、本実施の形態に係る階層符号化装置400の主要な構成を示すブロック図である。図18において図3と同一名称および同一符号を付したブロックは、同一機能を有するため説明を省略する。
本実施の形態4における階層符号化装置400では、第1レイヤ符号化部402で求められたピッチゲインをスペクトル符号化部406に与える。具体的には、第1レイヤ符号化部402において、第1レイヤ符号化部402に内在する適応符号帳(図示せず)から出力される適応コードベクトルに乗じられる適応コードベクトルゲインが、ピッチゲインとして出力され、スペクトル符号化部406に入力される。この適応コードベクトルゲインは、入力信号の周期性が強い場合に大きな値をとり、入力信号の周期性が弱い場合に小さな値をとるという特徴がある。
図19は、本実施の形態4に係るスペクトル符号化部406の主要な構成を示すブロック図である。図19において図14と同一名称および同一符号を付したブロックは、同一機能を有するので説明を省略する。変形情報推定部411は第1レイヤ符号化部402より与えられるピッチゲインを使って推定変形情報を出力する。変形情報推定部411は前述した図15の変形情報推定部303と同様の構成となる。ただし、変形情報テーブルはピッチゲインに対して設計されたものを適用する。また、本実施の形態においても、変形情報テーブルを用いる構成の代わりにマッピング関数を用いる構成であっても良い。
このように、本実施の形態に係る符号化装置(スペクトル符号化部406)によれば、入力信号の周期性をも考慮して推定スペクトルのダイナミックレンジを適切に調整することができ、復号信号の主観品質を向上させることができる。
次に、上記階層符号化装置400で生成された符号化コードを復号化することができる階層復号化装置450の構成について、以下に説明する。
図20は、本実施の形態に係る階層復号化装置450の主要な構成を示すブロック図である。図20において、第1レイヤ復号化部452より出力されるピッチゲインがスペクトル復号化部453に与えられている。第1レイヤ復号化部452において、第1レイヤ復号化部452に内在する適応符号帳(図示せず)から出力される適応コードベクトルに乗じられる適応コードベクトルゲインが、ピッチゲインとして出力され、スペクトル復号化部453に入力される。
図21は、本実施の形態4に係るスペクトル復号化部453の主要な構成を示すブロック図である。変形情報推定部461は第1レイヤ復号化部452より与えられるピッチゲインを使って推定変形情報を出力する。変形情報推定部461は前述した図15の変形情報推定部303と同様の構成となる。ただし、変形情報テーブルは変形情報推定部411内のものと同様のもので、ピッチゲインに対して設計されたものを適用する。また、本実施の形態においても、変形情報テーブルを用いる構成の代わりにマッピング関数を用いる構成であっても良い。
このように、本実施の形態に係る復号化装置(スペクトル復号化部453)によれば、本実施の形態に係る符号化装置で符号化された信号を復号化することで、入力信号の周期性をも考慮して推定スペクトルのダイナミックレンジを適切に調整することができ、復号信号の主観品質を向上させることができる。
なお、ピッチゲインと共にピッチ周期(第1レイヤ符号化部402に内在する適応符号帳探索の結果得られるラグのこと)を用いて変形情報を推定する構成であっても良い。この場合、ピッチ周期を利用することで、ピッチ周期の短い音声(例えば女声)とピッチ周期の長い音声(例えば男声)にそれぞれ適した変形情報の推定を行うことができ、推定精度を向上させることができる。
また、本実施の形態では、変形情報推定部411において推定変形情報が求められるが、実施の形態3と同様に、この推定変形情報を実施の形態1の図4記載のスペクトル符号化部106に適用してスペクトル変形部112に当該推定変形情報を与え、スペクトル変形部112では変形情報推定部411より与えられる推定変形情報を基準にその近傍の変形情報を指数変数テーブル135から選択し、その限定された変形情報の中から最も適切な変形情報を探索部125にて決定する。この構成では、最終的に選択された変形情報の符号化コードは、前記基準となる推定変形情報からの相対値として表される。このように正確な変形情報を符号化して復号化部へ伝送することができるため、復号信号の主観品質を維持しながら、変形情報を表すビット数を少なくすることができるという効果が得られる。
(実施の形態5)
本発明の実施の形態5では、第1レイヤ符号化部より与えられるLPC係数に基づきスペクトル符号化部内の変形部に出力される推定変形情報を決定する。
本実施の形態5における階層符号化装置の構成は前述した図18と同様となる。ただし、第1レイヤ符号化部402からスペクトル符号化部406に対して出力されるパラメータは、ピッチゲインではなくLPC係数である。
本実施の形態に係るスペクトル符号化部406の主要な構成は、図22に示すものとなる。前述した図19との違いは、変形情報推定部511に与えられるパラメータがピッチゲインではなくLPC係数であることと、変形情報推定部511内の構成である。
図23は、本実施の形態に係る変形情報推定部511の主要な構成を示すブロック図である。変形情報推定部511は、判定テーブル512、類似度判定部513、変形情報テーブル514、および切替部515より構成される。変形情報テーブル514は、図15における変形情報テーブル306と同様に推定変形情報の候補が記録されている。ただし、この推定変形情報の候補は、LPC係数に対して設計されたものを適用する。判定テーブル512にはLPC係数の候補が格納されており、判定テーブル512と変形情報テーブル514とは対応付けが為されている。すなわち、判定テーブル512から第j番目のLPC係数の候補が選ばれたとき、そのLPC係数候補に適した推定変形情報は変形情報テーブル514の第j番目に格納されている。LPC係数はスペクトルの概形(スペクトル包絡)を少ないパラメータで精度良く表現できるという特徴があり、このスペクトル概形とダイナミックレンジを制御する推定変形情報を対応付けることができる。本実施の形態は、この特徴を利用して構成したものである。
類似度判定部513は、第1レイヤ符号化部402より与えられるLPC係数と最も類似するLPC係数を判定テーブル512の中から求める。この類似性の判定には、LPC係数同士の距離(歪)、またはLPC係数をLSP(Line Spectrum Pair)係数などの別のパラメータに変換した後の両者の歪を求め、その歪が最小となるときのLPC係数を判定テーブル512より求める。
歪を最小(つまり最も類似度が高い)とするときの判定テーブル512内のLPC係数の候補を表すインデックスが類似度判定部513より出力され、切替部515に与えられる。切替部515は、このインデックスが表す推定変形情報の候補を選択し、変形情報推定部511より出力される。
このように、本実施の形態に係る符号化装置(スペクトル符号化部406)によれば、入力信号のスペクトル概形をも考慮して推定スペクトルのダイナミックレンジを適切に調整することができ、復号信号の主観品質を向上させることができる。
次に、本実施の形態5における階層符号化装置で生成された符号化コードを復号化することができる階層復号化装置の構成について、以下説明する。
本実施の形態5における階層復号化装置の構成は前述した図20と同様となる。ただし、第1レイヤ復号化部452からスペクトル復号化部453に対して出力されるパラメータは、ピッチゲインではなくLPC係数である。
本実施の形態に係るスペクトル復号化部453の主要な構成は、図24に示すものとなる。前述した図21との違いは、変形情報推定部561に与えられるパラメータがピッチゲインではなくLPC係数であることと、変形情報推定部561内の構成である。
変形情報推定部561内の構成は、図22におけるスペクトル符号化部406内の変形情報推定部511、すなわち図23に記載のものと同様となり、判定テーブル512及び変形情報テーブル514に記録された情報も、符号化側と復号化側とで共通のものである。
このように、本実施の形態に係る復号化装置(スペクトル復号化部453)によれば、本実施の形態に係る符号化装置で符号化された信号を復号化することで、入力信号のスペクトル概形をも考慮して推定スペクトルのダイナミックレンジを適切に調整することができ、復号信号の主観品質を向上させることができる。
なお、本実施の形態では、変形情報推定部511において推定変形情報が求められるが、実施の形態4と同様に、この推定変形情報を実施の形態1の図4記載のスペクトル符号化部106に適用してスペクトル変形部112に当該推定変形情報を与え、スペクトル変形部112では変形情報推定部511より与えられる推定変形情報を基準にその近傍の変形情報を指数変数テーブル135から選択し、その限定された変形情報の中から最も適切な変形情報を探索部125にて決定する。この構成では、最終的に選択された変形情報の符号化コードは、前記基準となる推定変形情報からの相対値として表される。このように正確な変形情報を符号化して復号化部へ伝送することができるため、復号信号の主観品質を維持しながら、変形情報を表すビット数を少なくすることができるという効果が得られる。
(実施の形態6)
本発明の実施の形態6に係る階層符号化装置の基本的構成は、実施の形態1に示した階層符号化装置と同様であるので、その説明を省略し、スペクトル変形部112と異なる構成であるスペクトル変形部612について以下説明する。
スペクトル変形部612は、第1スペクトルS1(k)[0≦k<FL]のダイナミックレンジが、第2スペクトルS2(k)の高域部[FL≦k<FH]のダイナミックレンジに近づくように、第1スペクトルS1(k)に以下の変形を加える。スペクトル変形部612は、この変形に関する変形情報を符号化して出力する。
図25は、本実施の形態に係るスペクトル変形方法を説明するための図である。
この図は、第1スペクトルS1(k)の振幅の分布を示している。第1スペクトルS1(k)は、周波数k[0≦k<FL]の値によって異なる振幅を示す。そこで、横軸に振幅をとり、縦軸にその振幅における出現確率をとると、振幅の平均値m1を中心として図に示すような正規分布に近い分布が現れる。
本実施の形態では、まず、この分布を、平均値m1に近いグループ(図中の領域B)と、平均値m1から遠いグループ(図中の領域A)とに大きく分ける。次に、これら2つのグループの振幅の代表値、具体的には、領域Aに含まれるスペクトルの振幅の平均値と、領域Bに含まれるスペクトルの振幅の平均値とを求める。ここで、振幅は、平均値m1を零と換算し直した(各値から平均値m1を減じた)場合の振幅の絶対値を用いる。例えば、領域Aは、平均値m1よりも振幅の大きい領域と、平均値m1よりも振幅の小さな領域との2つの領域から成るが、平均値m1を零と換算し直すことにより、2つの領域に含まれるスペクトルの振幅の絶対値は、同じ様な値を有することになる。よって、例えば領域Aの平均値であれば、第1スペクトルのうちで換算後の振幅(絶対値)が比較的大きなスペクトルを1つのグループとし、このグループの振幅の代表値を求めたことに相当し、領域Bの平均値であれば、第1スペクトルのうちで換算後の振幅が比較的小さなスペクトルを1つのグループとし、このグループの振幅の代表値を求めたことに相当している。よって、これら2つの代表値は、第1スペクトルのダイナミックレンジを概略的に表現したパラメータとなる。
次に、本実施の形態では、第2スペクトルに対し、第1スペクトルで行ったのと同様の処理を行い、第2スペクトルの各グループに対応する代表値を求める。そして、領域Aにおける第1スペクトルの代表値と第2スペクトルの代表値との比(具体的には、第2スペクトルの代表値の第1スペクトルの代表値に対する比)、および領域Bにおける第1スペクトルの代表値と第2スペクトルの代表値との比を求める。よって、第1スペクトルのダイナミックレンジと第2スペクトルのダイナミックレンジとの比を概算的に求めることができる。本実施の形態に係るスペクトル変形部は、この比をスペクトルの変形情報として符号化し、出力する。
図26は、スペクトル変形部612内部の主要な構成を示すブロック図である。
スペクトル変形部612は、第1スペクトルの上記各グループに対する代表値を算出する系統と、第2スペクトルの上記各グループに対する代表値を算出する系統と、これら2つの系統で算出された代表値に基づいて変形情報を決定する変形情報決定部626と、この変形情報に基づいて変形スペクトルを生成する変形スペクトル生成部627とに大別される。
第1スペクトルの代表値を算出する系統は、具体的には、ばらつき度算出部621−1と、第1閾値設定部622−1と、第2閾値設定部623−1と、第1平均スペクトル算出部624−1と、第2平均スペクトル算出部625−1とからなる。第2スペクトルの代表値を算出する系統も、基本的には、第1スペクトルの代表値を算出する系統と同様の構成からなり、図中において同一の構成に対しては同一の符号を付し、符号の後に続く枝番により処理系統の違いを表す。そして、同一の構成要素については、その説明を省略する。
ばらつき度算出部621−1は、入力される第1スペクトルS1(k)の振幅の分布から、第1スペクトルの平均値m1からの「ばらつき度」を算出し、第1閾値設定部622−1および第2閾値設定部623−1に出力する。「ばらつき度」とは、具体的には、第1スペクトルの振幅分布の標準偏差σ1のことである。
第1閾値設定部622−1は、ばらつき度算出部621−1で求まった第1スペクトルの標準偏差σ1を用いて第1閾値TH1を求める。ここで、第1閾値TH1とは、第1スペクトルのうち、上記領域Aに含まれる比較的絶対振幅の大きなスペクトルを特定するための閾値であり、標準偏差σ1に所定の定数aを乗じた値が使用される。
第2閾値設定部623−1の動作も、第1閾値設定部622−1の動作と同様であるが、求める第2閾値TH2は、第1スペクトルのうちの領域Bに含まれる比較的絶対振幅の小さなスペクトルを特定するための閾値であり、標準偏差σ1に所定の定数b(<a)を乗じた値が使用される。
第1平均スペクトル算出部624−1は、第1閾値TH1よりも外側に位置するスペクトル、すなわち、領域Aに含まれるスペクトルの振幅の平均値(以下、第1平均値という)を求め、変形情報決定部626に出力する。
具体的には、第1平均スペクトル算出部624−1は、第1スペクトルの各サブバンドのスペクトルの振幅(ただし、換算前の値)を、第1スペクトルの平均値m1に第1閾値TH1を加えた値(m1+TH1)と比較し、この値よりも大きな振幅を有するスペクトルを特定する(ステップ1)。次に、第1平均スペクトル算出部624−1は、第1スペクトルの各サブバンドのスペクトルの振幅値を、第1スペクトルの平均値m1から第1閾値TH1を減じた値(m1−TH1)と比較し、この値よりも小さな振幅を有するスペクトルを特定する(ステップ2)。そして、ステップ1およびステップ2の双方で求まったスペクトルの振幅に対し、上記の平均値m1をゼロとする換算を行い、得られた換算値の絶対値の平均値を求め、変形情報決定部626に出力する。
第2平均スペクトル算出部は、第2閾値TH2よりも内側に位置するスペクトル、すなわち、領域Bに含まれるスペクトルの振幅の平均値(以下、第2平均値という)を求め、変形情報決定部626に出力する。具体的な動作は、第1平均スペクトル算出部624−1と同様である。
上記処理で求まった第1平均値および第2平均値が、第1スペクトルの領域Aおよび領域Bに対する代表値である。
第2スペクトルの代表値を求める処理も基本的には上記と同様である。ただし、第1スペクトルと第2スペクトルとは異なるスペクトルであるので、第1閾値TH1に準ずる第3閾値TH3は、第2スペクトルの標準偏差σ2に所定の定数cを乗じた値が使用され、第2閾値TH2に準ずる第4閾値TH4は、第2スペクトルの標準偏差σ2に所定の定数d(<c)を乗じた値が使用される。
変形情報決定部626は、第1平均スペクトル算出部624−1で得られる第1平均値、第2平均スペクトル算出部625−1で得られる第2平均値、第3平均スペクトル算出部624−2で得られる第3平均値、および第4平均スペクトル算出部625−2で得られる第4平均値を用いて、以下のように変形情報を決定する。
すなわち、変形情報決定部626は、第1平均値と第3平均値との比(以下、第1ゲインと呼ぶ)、および第2平均値と第4平均値との比(以下、第2ゲインと呼ぶ)を算出する。そして、変形情報決定部626は、変形情報の複数の符号化候補が予め記憶されたデータテーブルを内部に備えているので、第1ゲインおよび第2ゲインをこれらの符号化候補と比較し、最も類似した符号化候補を選択して、この符号化候補を表すインデックスを変形情報として出力する。また、このインデックスは、変形スペクトル生成部627にも送られる。
変形スペクトル生成部627は、入力信号である第1スペクトル、第1閾値設定部622−1で得られる第1閾値TH1、第2閾値設定部623−1で得られる第2閾値TH2、および変形情報決定部626から出力される変形情報、を用いて、第1スペクトルの変形を行い、生成された変形スペクトルを出力する。
図27、図28は、変形スペクトルの生成方法を説明するための図である。
変形スペクトル生成部627は、変形情報を用いて第1平均値と第3平均値との比の復号値(以下、復号第1ゲインと呼ぶ)、および第2平均値と第4平均値との比の復号値(以下、復号第2ゲインと呼ぶ)を生成する。これらの対応関係は、図27に示す通りである。
次に、変形スペクトル生成部627は、第1スペクトルの振幅値と第1閾値TH1とを比較することにより、領域Aに属するスペクトルを特定し、これらのスペクトルに復号第1ゲインを乗じる。同様に、変形スペクトル生成部627は、第1スペクトルの振幅値と第2閾値TH2とを比較することにより、領域Bに属するスペクトルを特定し、これらのスペクトルに復号第2ゲインを乗じる。
一方、図28に示す通り、第1スペクトルのうち、第1閾値TH1と第2閾値TH2とに挟まれる領域(以下、領域C)に属するスペクトルに対しては、符号化情報が存在しない。そこで、変形スペクトル生成部627は、復号第1ゲインと復号第2ゲインの中間的な値を有するゲインを使用する。例えば、図28に示されるような、復号第1ゲインと、復号第2ゲインと、第1閾値TH1と、第2閾値TH2とに基づく特性曲線から、ある振幅xに対応する復号ゲインyを求め、このゲインを第1スペクトルの振幅に乗じれば良い。すなわち、復号ゲインyは、復号第1ゲインおよび復号第2ゲインの線形補間値となっている。
図29は、復号化装置で使用されるスペクトル変形部662内部の主要な構成を示したブロック図である。なお、このスペクトル変形部662は、実施の形態1で示した変形部162に対応するものである。
基本的動作は上記のスペクトル変形部612と同様なので、詳細な説明は省略するが、このスペクトル変形部662は、第1スペクトルのみを処理対象とするので、処理系統が1つとなっている。
このように、本実施の形態によれば、第1スペクトルの振幅の分布および第2スペクトルの振幅の分布をそれぞれ把握し、比較的絶対振幅の大きなグループと比較的絶対振幅の小さなグループとに分けて、各グループの振幅の代表値を求める。そして、第1スペクトルと第2スペクトルの各グループの振幅の代表値の比をとることにより、第1スペクトルおよび第2スペクトル間のダイナミックレンジの比、すなわちスペクトルの変形情報を得て、これを符号化する。これにより、指数関数のような演算量の多い関数を用いることなく、変形情報を求めることができる。
また、本実施の形態によれば、第1スペクトルおよび第2スペクトルの振幅の分布から標準偏差を求め、この標準偏差に基づいて第1閾値〜第4閾値を求める。よって、実際のスペクトルに基づいた閾値が設定されるので、変形情報の符号化精度を向上させることができる。
また、本実施の形態によれば、復号第1ゲインおよび復号第2ゲインを用いて第1スペクトルのゲイン調整を行うことにより、第1スペクトルのダイナミックレンジを制御する。そして、復号第1ゲインおよび復号第2ゲインは、第1スペクトルが第2スペクトルの高域部に近づくように決定される。よって、第1スペクトルのダイナミックレンジは、第2スペクトルの高域部のダイナミックレンジに近づく。さらに、復号第1ゲインおよび復号第2ゲインの算出には、指数関数のような演算量の多い関数を使用する必要がない。
なお、本実施の形態では、復号第1ゲインが復号第2ゲインよりも大きい場合を例にとって説明したが、音声信号の性質によっては、復号第1ゲインよりも復号第2ゲインの方が大きい場合がある。すなわち、第1スペクトルのダイナミックレンジよりも第2スペクトルの高域部のダイナミックレンジの方が大きい場合がある。このような現象は、入力音声信号が摩擦音のような音の場合に生じることが多い。かかる場合にも本実施の形態に係るスペクトル変形方法は適用することができる。
また、本実施の形態では、スペクトルを絶対振幅の比較的大きなグループと比較的小さなグループとの2つのグループに分ける場合を例にとって説明したが、ダイナミックレンジの再現性を高めるために、より多くのグループに分けるようにしても良い。
また、本実施の形態では、平均値を基準として振幅を換算し、この換算後の振幅に基づいて、スペクトルを振幅の比較的大きなグループと比較的小さなグループとに分ける場合を例にとって説明したが、元の振幅値をそのまま用いて、この振幅に基づいてスペクトルのグルーピングを行っても良い。
また、本実施の形態では、スペクトルの絶対振幅のばらつき度を算出するのに標準偏差を用いる場合を例にとって説明したが、これに限定されず、例えば、標準偏差と同様の統計的パラメータとして分散を用いることができる。
また、本実施の形態では、各グループのスペクトル振幅の代表値として、各グループにおけるスペクトルの絶対振幅の平均値を用いる場合を例にとって説明したが、これに限定されず、例えば、各グループにおけるスペクトルの絶対振幅の中央値等を用いても良い。
また、本実施の形態では、ダイナミックレンジの調整に各スペクトルの振幅値を用いる場合を例にとって説明したが、振幅値の代わりにスペクトルのエネルギー値を用いても良い。
また、各グループに対応する代表値を求める際に、例えばMDCT係数のように、最初からスペクトルの振幅に正または負の符号を持つ場合には、平均値を零と換算する必要はなく、単にスペクトルの振幅の絶対値を用いて各グループに対応する代表値を求めれば良い。
以上、本発明の各実施の形態について説明した。
本発明に係る符号化装置および復号化装置は、上記各実施の形態に限定されず、種々変更して実施することが可能である。
本発明に係る符号化装置および復号化装置は、移動体通信システムにおける通信端末装置および基地局装置に搭載することも可能であり、これにより上記と同様の作用効果を有する通信端末装置および基地局装置を提供することができる。
なお、ここでは、本発明をスケーラブル符号化方式に適用する場合を例にとって説明したが、本発明は別の符号化方式にも適用可能である。
また、ここでは、本発明をハードウェアで構成する場合を例にとって説明したが、本発明はソフトウェアで実現することも可能である。例えば、本発明に係る符号化方法(復号化方法)のアルゴリズムをプログラミング言語によって記述し、このプログラムをメモリに記憶しておいて情報処理手段によって実行させることにより、本発明に係る符号化装置(復号化装置)と同様の機能を実現することができる。
また、上記各実施の形態の説明に用いた各機能ブロックは、典型的には集積回路であるLSIとして実現される。これらは個別に1チップ化されていても良いし、一部または全てを含むように1チップ化されていても良い。
また、ここではLSIとしたが、集積度の違いによって、IC、システムLSI、スーパーLSI、ウルトラLSI等と呼称されることもある。
また、集積回路化の手法はLSIに限るものではなく、専用回路または汎用プロセッサで実現しても良い。LSI製造後に、プログラム化することが可能なFPGA(Field Programmable Gate Array)や、LSI内部の回路セルの接続もしくは設定を再構成可能なリコンフィギュラブル・プロセッサを利用しても良い。
さらに、半導体技術の進歩または派生する別技術により、LSIに置き換わる集積回路化の技術が登場すれば、当然、その技術を用いて機能ブロックの集積化を行っても良い。バイオ技術の適応等が可能性としてあり得る。
本明細書は、2004年5月14日出願の特願2004−145425、2004年11月5日出願の特願2004−322953、および2005年4月28日出願の特願2005−133729に基づく。これらの内容はすべてここに含めておく。
以下、本発明の実施の形態について、添付図面を参照して詳細に説明する。
(実施の形態1)
図3は、本発明の実施の形態1に係る階層符号化装置100の主要な構成を示すブロック図である。ここでは、符号化情報が複数のレイヤからなる階層構造を有する場合、すなわち、階層符号化(スケーラブル符号化)を行う場合を例にとって説明する。
階層符号化装置100の各部は、信号の入力に伴い以下の動作を行う。
ダウンサンプリング部101は、入力信号からサンプリングレートの低い信号を生成し第1レイヤ符号化部102に与える。第1レイヤ符号化部102は、ダウンサンプリング部101から出力された信号を符号化する。第1レイヤ符号化部102で得られた符号化コードは、多重化部103に与えられると共に、第1レイヤ復号化部104に与えられる。第1レイヤ復号化部104は、第1レイヤ符号化部102から出力された符号化コードから第1レイヤの復号信号S1を生成する。
一方、遅延部105は、入力信号に所定の長さの遅延を与える。この遅延は、ダウンサンプリング部101、第1レイヤ符号化部102、および第1レイヤ復号化部104で生じる時間遅れを補正するためのものである。スペクトル符号化部106は、第1レイヤ復号化部104で生成された第1レイヤ復号信号S1を用いて、遅延部105から出力された所定時間遅延された入力信号S2のスペクトル符号化を行い、生成された符号化コードを多重化部103に出力する。
多重化部103は、第1レイヤ符号化部102で求められる符号化コードとスペクトル符号化部106で求められる符号化コードとを多重化し、これを出力符号化コードとして符号化装置100の外部に出力する。
図4は、上記のスペクトル符号化部106内部の主要な構成を示すブロック図である。
このスペクトル符号化部106は、周波数領域変換部111、スペクトル変形部112、周波数領域変換部113、拡張帯域スペクトル符号化部114、および多重化部115から主に構成される。
スペクトル符号化部106には、第1レイヤ復号化部104から有効信号帯域が0≦k<FL(kは各サブバンドの周波数)の第1信号S1が入力され、また、遅延部105から有効信号帯域が0≦k<FH(ただし、FL<FH)の第2信号S2が入力される。スペクトル符号化部106は、第1信号S1の帯域0≦k<FLのスペクトルを利用して、第2信号S2の帯域FL≦k<FHのスペクトルを推定し、この推定情報を符号化して出力する。
周波数領域変換部111は、入力される第1信号S1に周波数変換を行い、低域スペクトルである第1スペクトルS1(k)を算出する。一方、周波数領域変換部113は、入力される第2信号S2に周波数変換を行い、広帯域の第2スペクトルS2(k)を算出する。ここで周波数変換の方法は、離散フーリエ変換(DFT)、離散コサイン変換(DCT)、変形離散コサイン変換(MDCT)等を適用する。また、S1(k)は、第1スペクトル
の周波数kのサブバンドのスペクトルであり、S2(k)は、第2スペクトルの周波数kのサブバンドのスペクトルである。
スペクトル変形部112は、第1スペクトルS1(k)を様々に変形させることにより第1スペクトルのダイナミックレンジを変化させ、適切なダイナミックレンジとなる変形の仕方について調べる。そして、この変形に関する情報(変形情報)を符号化して多重化部115に与える。このスペクトル変形処理の詳細については後ほど詳述する。また、スペクトル変形部112は、適切なダイナミックレンジとなった第1スペクトルS1(k)を拡張帯域スペクトル符号化部114に出力する。
拡張帯域スペクトル符号化部114は、第2スペクトルS2(k)を参照信号として、第1スペクトルS1(k)の高域(FL≦k<FH)に含めるべきスペクトル(拡張帯域スペクトル)を推定し、この推定スペクトルに関する情報(推定情報)を符号化して多重化部115に与える。ここで、拡張帯域スペクトルの推定は、変形後の第1スペクトルS1'(k)に基づいて行われる。
多重化部115は、スペクトル変形部112から出力された変形情報の符号化コードと、拡張帯域スペクトル符号化部114から出力された拡張帯域スペクトルに関する推定情報の符号化コードと、を多重化して出力する。
図5は、上記のスペクトル変形部112内部の主要な構成を示すブロック図である。
スペクトル変形部112は、第1スペクトルS1(k)のダイナミックレンジが第2スペクトルS2(k)の高域スペクトル(FL≦k<FH)のダイナミックレンジに最も近付くような変形を第1スペクトルS1(k)に加える。そして、このときの変形情報を符号化して出力する。
バッファ121は、入力された第1スペクトルS1(k)を一時保存し、必要に応じ第1スペクトルS1(k)を変形部122に与える。
変形部122は、下記の手順に従い、第1スペクトルS1(k)を様々に変形して変形第1スペクトルS1'(j,k)を生成し、これをサブバンドエネルギー算出部123に与える。ここで、jは各変形処理を識別するためのインデックスである。
サブバンドエネルギー算出部123は、変形第1スペクトルS'(j,k)の周波数帯域を複数のサブバンドに分割し、所定の範囲のサブバンドのエネルギー(サブバンドエネルギー)を求める。例えば、サブバンドエネルギーを求める範囲をF1L≦k<F1Hと定めたとき、この帯域幅をN分割したときのサブバンド幅BWSは次の(式1)のように表される。
BWS=(F1H−F1L+1)/N ・・・(式1)
よって、第nサブバンドの最小周波数F1L(n)および最大周波数F1H(n)は、それぞれ(式2)(式3)と表される。
F1L(n) = F1L + n・BWS ・・・(式2)
F1H(n) = F1L + (n+1)・BWS−1 ・・・(式3)
ここでnは0〜N−1の値をとる。このとき、サブバンドエネルギーP1(j,n)は次の(式4)のように算出される。
または、次の(式5)のようにサブバンドに含まれるスペクトルの平均値として求めてもよい。
このようにして求められたサブバンドエネルギーP1(j,n)が分散算出部124に与えられる。
分散算出部124は、サブバンドエネルギーP1(j,n)のばらつきの程度を表すために、分散σ1
2(j)を次の(式6)に従い算出する。
ここで、P1mean(j)はサブバンドエネルギーP1(j,n)の平均値を表し、次の(式7)のように算出される。
このようにして算出された、変形情報jにおけるサブバンドエネルギーのばらつきの度合いを表す分散σ1
2(j)は探索部125に与えられる。
サブバンドエネルギー算出部126および分散算出部127は、上記のサブバンドエネルギー算出部123および分散算出部124で行われる一連の処理と同様に、入力される第2スペクトルS2(k)に対して、サブバンドエネルギーのばらつきの度合いを表す分散σ22を算出する。ただし、サブバンドエネルギー算出部126および分散算出部127の処理は、以下の点で上記と異なる。すなわち、第2スペクトルS2(k)のサブバンドエネルギーを算出する所定の範囲を、F2L≦k<F2Hと定める。ここで、第1スペクトルのダイナミックレンジを第2スペクトルの高域スペクトルのダイナミックレンジに近づける必要があることから、FL≦F2L<F2Hの条件を満足するF2Lを設定する。また、第2スペクトルに対するサブバンド数は、第1スペクトルのサブバンド数Nと一致させる必要はない。ただし、第1スペクトルのサブバンド幅と第2スペクトルのサブバンド幅とがほぼ一致するように、第2スペクトルのサブバンド数は設定される。
探索部125は、第1スペクトルのサブバンドの分散σ12(j)と第2スペクトルのサブバンドの分散σ22とが最も近付く際の第1スペクトルのサブバンドの分散σ12(j)を探索により決定する。具体的には、探索部125は、全ての変形候補0≦j<Jに対して第1スペクトルのサブバンドの分散σ12(j)を算出し、この算出値と第2スペクトルのサブバンドの分散σ22とを比較し、両者が最も近付く際のjの値(最適変形情報jopt)を決定し、このjoptをスペクトル変形部112の外部および変形部128に出力する。
変形部128は、この最適変形情報joptに対応する変形第1スペクトルS'(jopt,k)を生成し、スペクトル変形部112の外部に出力する。なお、最適変形情報joptは多重化部115に、変形第1スペクトルS1'(jopt,k)は拡張帯域スペクトル符号化部114に送られる。
図6は、上記の変形部122内部の主要な構成を示すブロック図である。なお、変形部128内部の構成も基本的に変形部122と同様である。
正号/負号抽出部131は、第1スペクトルの各サブバンドの符号情報sign(k)を求め、正号/負号付与部134に出力する。
絶対値算出部132は、第1スペクトルの各サブバンドに対し、振幅の絶対値を算出し、この値を指数値算出部133に与える。
指数変数テーブル135は、第1スペクトルの変形に用いられる指数変数α(j)を記録している。このテーブルに含まれる変数のうちjに対応する値が、指数変数テーブル135から出力される。具体的には、指数変数テーブル135には、例えば、指数変数α(j)
={1.0, 0.8, 0.6, 0.4}の4つからなる指数変数の候補が記録されており、探索部125から指定されたインデックスjに基づき1つの指数変数α(j)が選択され、指数値算出部133に与えられる。
指数値算出部133は、指数変数テーブル135から出力された指数変数を用いて、絶対値算出部132から出力されるスペクトル(絶対値)の指数値、すなわち、各サブバンドの振幅の絶対値をα(j)でべき乗した値を算出する。
正号/負号付与部134は、指数値算出部133から出力される指数値に対し、正号/負号抽出部131で先に求めておいた符号情報sign(k)を付与し、変形第1スペクトルS1'(j,k)として出力する。
よって変形部122から出力される変形第1スペクトルS1'(j,k)は、次の(式8)のように表される。
図7は、上記の変形部122(または変形部128)によって得られる変形スペクトルの例を示す図である。
なお、ここでは、指数変数α(j) ={1.0, 0.6, 0.2}の場合を例にとって説明している。また、ここでは、各スペクトルの比較が容易となるように、α(j) = 1.0 の場合のスペクトルS71を上方に40dB、α(j) = 0.6 の場合のスペクトルS72を上方に20dBだけシフトさせて表示をしている。この図から、指数変数α(j)によって、スペクトルのダイナミックレンジを変化させることが可能であることがわかる。
以上説明したように、本実施の形態に係る符号化装置(スペクトル符号化部106)によれば、第1信号(0≦k<FL)から求められる第1スペクトルを使って、第2信号(0≦k<FH)から求められる第2スペクトルの高域部(FL≦k<FH)を推定し、推定情報を符号化する際に、第1スペクトルをそのまま用いずに、第1スペクトルに変形を加えた後に上記推定を行うようにする。このとき、どのように変形したかを表す情報(変
形情報)も併せて符号化し、復号化側に伝送する。
第1スペクトルに加える変形の具体的な方法は、第1スペクトルをサブバンドに分割し、各サブバンド内に含まれるスペクトルの絶対振幅の平均(サブバンド平均振幅)をサブバンド毎に求め,これらサブバンド平均振幅を統計処理して求められる分散が、第2スペクトルの高域部のスペクトルから同様にして求められるサブバンド平均振幅の分散に最も近付くように、第1スペクトルを変形する。すなわち、第1スペクトルの絶対振幅の平均的な振れ幅と、第2スペクトルの高域スペクトルの絶対振幅の平均的な振れ幅とが同等の値となるように第1スペクトルを変形する。また、この具体的な変形方法を示す変形情報を符号化する。なお、サブバンド平均振幅の代わりに、各サブバンドに含まれるスペクトルのエネルギーを用いても良い。
上記の具体的な変形方法のさらに詳細は、第1スペクトルのスペクトルをα乗(0≦α≦1)することで、サブバンド内のスペクトルの絶対振幅のばらつき(振れ)を制御する。そして、使用されたαに関する情報を復号化側へ伝送する。
上記の構成を採ることにより、第1スペクトルのダイナミックレンジと第2スペクトルの高域部のダイナミックレンジとが大きく異なる場合でも、推定スペクトルのダイナミックレンジを適切に調整することができ、復号信号の主観品質を向上させることができる。
また、以上の構成において、第1スペクトル全体をα乗(0≦α≦1)することにより、スペクトルの振幅に対し一様な制限を加えている。これにより、鋭敏(急峻)なピークを鈍化させることができる。また、例えば、ただ単に所定値以上のピークをピークカットする変形を行った場合、スペクトルが不連続となり異音が発生するおそれがあるが、上記の構成を採ることにより、スペクトルは滑らかなままであり異音の発生を防止することができる。
なお、本実施の形態では、スペクトルの絶対振幅のばらつきの度合い(振れ幅)を表す指標として分散を用いる場合を例にとって説明したが、これに限らず、例えば標準偏差等の別の指標を適用しても良い。
また、本実施の形態では、符号化装置100内の変形部122(または変形部128)において、指数関数を使用する場合を例にとって説明したが、以下に示すような方法を用いても良い。
図8は、変形部の別のバリエーション(変形部122a)の構成を示すブロック図である。なお、変形部122(または変形部128)と同一の構成要素には同一の符号を付し、その説明を省略する。
上記の変形部122(または変形部128)では、指数関数を使用しているために演算量が大きくなる傾向にある。そこで、指数関数を使用せずにスペクトルのダイナミックレンジを変化させるようにすることで演算量の増大を回避する。
絶対値算出部132は、入力された第1スペクトルS1(k)の各スペクトルの絶対値を算出し、平均値算出部142および変形スペクトル算出部143に出力する。平均値算出部142は、次の(式9)に従いスペクトルの絶対値の平均値S1meanを算出する。
乗数テーブル144には、変形スペクトル算出部143で使用される乗数の候補が記録されており、探索部125から指定されたインデックスに基づいて1つの乗数が選択され、変形スペクトル算出部143に出力される。ここでは、乗数テーブルに、乗数g(j) ={1.0, 0.9, 0.8, 0.7}の4候補が記録されているものとする。
変形スペクトル算出部143は、絶対値算出部132から出力された第1スペクトルの絶対値と、乗数テーブル144から出力された乗数g(j)とを用いて、変形スペクトルS1'(k)の絶対値を次の(式10)に従い算出し、正号/負号付与部134に出力する。
正号/負号付与部134は、変形スペクトル算出部143から出力された変形スペクトルS1'(k)の絶対値に、正号/負号抽出部131で得られた符号情報sign(k)を付与し、次の(式11)で表される最終的な変形スペクトルS1'(k)を生成し、出力する。
また、本実施の形態では、変形部が、正号/負号抽出部、絶対値算出部、正号/負号付与部を備える場合を例にとって説明したが、入力されるスペクトルが常に正である場合には、これらの構成は必要ない。
次いで、上記の階層符号化装置100で生成された符号化コードを復号化することができる階層復号化装置150の構成について以下詳細に説明する。
図9は、本実施の形態に係る階層復号化装置150の主要な構成を示すブロック図である。
分離部151は、入力された符号化コードに分離処理を施し、第1レイヤ復号化部152用の符号化コードS51と、スペクトル復号化部153用の符号化コードS52とを生成する。第1レイヤ復号化部152は、分離部151で得られた符号化コードを用いて信号帯域0≦k<FLの復号信号を復号し、この復号信号S53をスペクトル復号化部153に与える。また、第1レイヤ復号化部152の出力は、復号化装置150の出力端子にも接続されている。これにより、第1レイヤ復号化部152で生成される第1レイヤ復号信号を出力する必要が生じた場合には、この出力端子を介し出力させることができる。
スペクトル復号化部153には、分離部151で分離された符号化コードS52と第1レイヤ復号化部152から出力される第1レイヤ復号信号S53とが与えられる。スペクトル復号化部153は、後述のスペクトル復号化を行い、信号帯域0≦k<FHの広帯域の復号信号を生成し、これを出力する。スペクトル復号化部153では、第1レイヤ復号化部152から与えられる第1レイヤ復号信号S53を第1信号とみなして処理を行うことになる。
図10は、上記のスペクトル復号化部153内部の主要な構成を示すブロック図である。
このスペクトル復号化部153には、符号化コードS52および第1レイヤ復号信号S53(有効周波数帯域が0≦k<FLの第1信号)が入力される。
分離部161は、入力された符号化コードS52から、上記の符号化側のスペクトル変形部112で生成された変形情報と、拡張帯域スペクトル符号化情報とを分離し、変形情報は変形部162に、拡張帯域スペクトル符号化情報は拡張帯域スペクトル生成部163に出力する。
周波数領域変換部164は、入力された時間領域信号である第1レイヤ復号信号S53に対し周波数変換を施し、第1スペクトルS1(k)を算出する。この周波数変換法は、離散フーリエ変換(DFT)、離散コサイン変換(DCT)、変形離散コサイン変換(MDCT)等を使用する。
変形部162は、分離部161から与えられる変形情報に基づいて、周波数領域変換部164から与えられる第1スペクトルS1(k)に変形を加え、変形第1スペクトルS1'(k)を生成する。なお、この変形部162内部の構成は、既に説明した符号化側の変形部122(図6参照)と同様なので、説明を省略する。
拡張帯域スペクトル生成部163は、変形後の第1スペクトルS1'(k)を用いて、第1スペクトルS1(k)の拡張帯域FL≦k<FHに含めるべき第2スペクトルの推定値S2”(k)を生成し、この第2スペクトルの推定値S2”(k)をスペクトル構成部165に与える。
スペクトル構成部165は、周波数領域変換部164から与えられる第1スペクトルS1(k)と、拡張帯域スペクトル生成部163から与えられる第2スペクトルの推定値S2”(k)とを結合し、復号スペクトルS3(k)を生成する。この復号スペクトルS3(k)は次の(式12)のように表される。
この復号スペクトルS3(k)は、時間領域変換部166へ与えられる。
時間領域変換部166は、復号スペクトルS3(k)を時間領域の信号に変換した後、必要に応じて適切な窓掛けおよび重ね合わせ加算等の処理を行ってフレーム間に生じる不連続を回避し、最終的な復号信号を出力する。
このように、本実施の形態に係る復号化装置(スペクトル復号化部153)によれば、本実施の形態に係る符号化装置で符号化された信号を復号化することができる。
(実施の形態2)
本発明の実施の形態2では、第1スペクトルを内部状態として持つピッチフィルタを用いて第2スペクトルを推定し、このピッチフィルタの特性を符号化する。
本実施の形態に係る階層符号化装置の構成は、実施の形態1に示した階層符号化装置と同様であるので、異なる構成であるスペクトル符号化部201を図11のブロック図を用いて説明する。なお、実施の形態1に示したスペクトル符号化部106(図4参照)と同一の構成要素には同一の符号を付し、その説明を省略する。
内部状態設定部203は、スペクトル変形部112にて生成された変形第1スペクトル
S1'(k)を使ってフィルタリング部204で用いられるフィルタの内部状態S(k)を設定する。
フィルタリング部204は、内部状態設定部203で設定されたフィルタの内部状態S(k)と、ラグ係数設定部206から与えられるラグ係数Tとに基づいてフィルタリングを行い、第2スペクトルの推定値S2”(k)を算出する。なお、本実施の形態では、フィルタを次の(式13)で表されるものを使用した場合について説明する。
ここで、Tは、ラグ係数設定部206から与えられる係数を表す。また、ここではM=1とする。フィルタリング部204におけるフィルタリング処理は、次の(式14)に示すように、周波数の低い方から順に、周波数Tだけ低いスペクトルを中心に対応する係数β
iを乗じて加算することにより推定値を算出する。
この式に従う処理を、FL≦k<FHの間に行う。ここでS(k)は、フィルタの内部状態を表す。このとき算出されるS(k)(ただし、FL≦k<FH)が、第2スペクトルの推定値S2”(k)として利用される。
探索部205は、周波数領域変換部113から与えられる第2スペクトルS2(k)と、フィルタリング部204から与えられる第2スペクトルの推定値S2”(k)との類似度を算出する。
なお、この類似度には様々な定義が存在するが、本実施の形態では、まずフィルタ係数β
−1およびβ
1を0とみなして最小2乗誤差に基づき定義される次の(式15)に従い算出される類似度を使用する。
この方法では、最適なラグ係数Tを算出した後にフィルタ係数β
iを決定することになる。ここで、EはS2(k)とS2”(k)間の2乗誤差を表す。また、上記(式15)の右辺第1項は、ラグ係数Tに関わらず固定値となるので、(式15)の右辺第2項を最大とするS2”(k)を生成するラグ係数Tが探索されることになる。本実施の形態では、(式15)の右辺第2項を類似度と呼ぶことにする。
ラグ係数設定部206は、予め定められた探索範囲TMIN〜TMAXに含まれるラグ係数Tを順次フィルタリング部204に出力する。そのため、フィルタリング部204では、ラグ係数設定部206からラグ係数Tが与えられる度に、FL≦k<FHの範囲のS(k)をゼロクリアした後のフィルタリングが行われ、探索部205では、その度に類似度が算出される。探索部205は、算出される類似度が最大となるときの係数TmaxをTMIN〜TMAXの間から決定し、その係数Tmaxをフィルタ係数算出部207、ス
ペクトル概形符号化部208,および多重化部115に与える。
フィルタ係数算出部207は、探索部205から与えられる係数Tmaxを用いてフィルタ係数β
iを求める。ここで、フィルタ係数β
iは、次の(式16)に従う2乗歪Eを最小にするように求められる。
フィルタ係数算出部207は、複数個のβ
iの組合せを予めテーブルとして有しており、上記(式16)の2乗歪Eを最小とするβ
iの組合せを決定し、そのコードを多重化部115に出力すると共に、フィルタ係数β
iをスペクトル概形符号化部208に与える。
スペクトル概形符号化部208は、内部状態設定部203から与えられる内部状態S(k)と、探索部205から与えられるラグ係数Tmaxと、フィルタ係数算出部207から与えられるフィルタ係数βiとを用いてフィルタリングを行い、帯域FL≦k<FHの第2スペクトルの推定値S2”(k)を求める。そして、スペクトル概形符号化部208は、第2スペクトルの推定値S2”(k)と第2スペクトルS2(k)とを用いてスペクトル概形の調整係数の符号化を行う。
なお、本実施の形態では、このスペクトル概形情報をサブバンド毎のスペクトルパワで表す場合について説明する。このとき、第jサブバンドのスペクトルパワは次の(式17)で表される。
ここで、BL(j)は第jサブバンドの最小周波数、BH(j)は第jサブバンドの最大周波数を表す。このようにして求められた第2スペクトルのサブバンドのスペクトルパワを第2スペクトルのスペクトル概形情報とみなす。
同様に、スペクトル概形符号化部208は、第2スペクトルの推定値S2”(k)のサブバンドのスペクトルパワB”(j)を次の(式18)に従い算出し、サブバンド毎の変動量V(j)を次の(式19)に従い算出する。
次に、スペクトル概形符号化部208は、変動量V(j)を符号化してそのコードを多重化部115に送る。
多重化部115は、スペクトル変形部112から得られる変形情報と、探索部205から得られる最適ラグ係数Tmaxの情報と、フィルタ係数算出部207から得られるフィルタ係数の情報と、スペクトル概形符号化部208から得られるスペクトル概形調整係数の情報とを多重化して出力する。
このように、本実施の形態によれば、第1スペクトルを内部状態として持つピッチフィルタを用いて第2スペクトルを推定するので、このピッチフィルタの特性のみを符号化すれば良く、低ビットレート化が可能となる。
なお、本実施の形態では、周波数領域変換部を備える場合を説明したが、これらは時間領域信号を入力とする場合に必要な構成要素であり、直接スペクトルが入力される場合には周波数領域変換部は必要ない。
また、本実施の形態では、上記(式13)においてM=1の場合を例にとって説明したが、Mの値は1に限定されることはなく、0以上の整数を用いることが可能である。
また、本実施の形態では、ピッチフィルタが上記(式13)のフィルタ関数(伝達関数)を用いる場合を例にとって説明したが、ピッチフィルタは1次のピッチフィルタであっても良い。
図12は、本実施の形態に係るスペクトル符号化部201の別のバリエーション(スペクトル符号化部201a)の構成を示すブロック図である。なお、スペクトル符号化部201と同一の構成要素には同一の符号を付し、その説明を省略する。
フィルタリング部204で用いられるフィルタは、次の(式20)のように簡略化したものを用いる。
この式は、上記(式13)において、M=0、β
0=1とした場合のフィルタ関数となっている。
このフィルタにより生成される第2スペクトルの推定値S2”(k)は、以下の(式21)を用いて、Tだけ離れた内部状態S(k)の低域スペクトルを順次コピーすることにより求めることができる。
また、探索部205は、既に述べたのと同様に、最適な係数Tmaxを上記(式15)を最小とするラグ係数Tを探索して決定する。このようにして求められた係数Tmaxは多重化部115に与えられる。
上記の構成を採ることにより、フィルタリング部204で用いるフィルタの構成が簡易なため、フィルタ係数算出部207が不要となり、少ない演算量で第2スペクトルの推定を行うことができる。すなわち、この構成によれば、符号化装置の構成が簡易となり、符号化処理の演算量を削減することができる。
次いで、上記のスペクトル符号化部201(またはスペクトル符号化部201a)で生成された符号化コードを復号化することができる復号側のスペクトル復号化部251の構成について以下詳細に説明する。
図13は、本実施の形態に係るスペクトル復号化部251の主要な構成を示すブロック図である。なお、このスペクトル復号化部251は、実施の形態1に示したスペクトル復号化部153(図10参照)と同様の基本的構成を有しており、同一の構成要素には同一
の符号を付し、その説明を省略する。異なるのは拡張帯域スペクトル生成部163aの内部構成である。
内部状態設定部252は、変形部162から出力される変形後の第1スペクトルS1'(k)を使ってフィルタリング部253で用いられるフィルタの内部状態S(k)を設定する。
フィルタリング部253は、符号化側のスペクトル符号化部201(201a)で生成された符号化コードから、分離部161を介してフィルタに関する情報を得る。具体的には、スペクトル符号化部201の場合は、ラグ係数Tmaxおよびフィルタ係数βiが得られ、スペクトル符号化部201aの場合には、ラグ係数Tmaxのみが得られる。そして、フィルタリング部253は、変形部162で生成された変形第1スペクトルS1'(k)をフィルタの内部状態S(k)として、取得したフィルタ情報に基づいてフィルタリングを行い、復号スペクトルS”(k)を算出する。このフィルタリング方法は、符号化側のスペクトル符号化部201(201a)で用いられたフィルタ関数に依存し、スペクトル符号化部201の場合は、復号側でも上記(式13)に従ってフィルタリングが行われ、スペクトル符号化部201aの場合には、復号側でも上記(式20)に従ってフィルタリングが行われる。
スペクトル概形復号化部254は、分離部161から与えられたスペクトル概形情報に基づいてスペクトル概形情報を復号する。本実施の形態では、サブバンド毎の変動量の量子化値Vq(j)を用いる場合を例にとって説明を行う。
スペクトル調整部255は、フィルタリング部253から得られるスペクトルS”(k)に、スペクトル概形復号化部254から得られるサブバンド毎の変動量の量子化値Vq(j)を次の(式22)に従って乗じることにより、スペクトルS”(k)の周波数帯域FL≦k<FHのスペクトル形状を調整し、第2スペクトルの推定値S2”(k)を生成する。
ここで、BL(j)およびBH(j)は、それぞれ第jサブバンドの最小周波数、最大周波数を表す。上記(式22)に従って算出された第2スペクトルの推定値S2”(k)は、スペクトル構成部165に与えられる。
スペクトル構成部165は、実施の形態1で前述したように、第1スペクトルS1(k)と第2スペクトルの推定値S2”(k)とを結合して復号スペクトルS3(k)を生成し、時間領域変換部166に与える。
このように、本実施の形態に係る復号化装置(スペクトル復号化部251)によれば、本実施の形態に係る符号化装置で符号化された信号を復号化することができる。
(実施の形態3)
図14は、本発明の実施の形態3に係るスペクトル符号化部の主要な構成を示すブロック図である。図14において、図4と同一名称および同一符号を付したブロックは同一機能を有するので説明を省略する。本実施の形態3では、符号化側、復号化側で共通な情報を基にスペクトルのダイナミックレンジを調整する。これにより、スペクトルのダイナミックレンジを調整するダイナミックレンジ調整係数を表す符号化コードを出力する必要がない。ダイナミックレンジ調整係数を表す符号化コードを出力する必要がないために、ビットレートを低減することができる。
図14におけるスペクトル符号化部301は、周波数領域変換部111と拡張帯域スペクトル符号化部114との間に、図4におけるスペクトル変形部112の代わりに、ダイナミックレンジ算出部302、変形情報推定部303、および変形部304を有する。実施の形態1におけるスペクトル変形部112は、第1スペクトルS1(k)を様々に変形させることにより第1スペクトルのダイナミックレンジを変化させ、適切なダイナミックレンジとなる変形の仕方(変形情報)について調べ、この変形情報を符号化して出力する。一方、本実施の形態3では、符号化側および復号化側で共通な情報に基づきこの変形情報の推定を行い、推定変形情報に従い第1スペクトルS1(k)の変形を行う。
したがって本実施の形態3では、スペクトル変形部112の代わりに、ダイナミックレンジ算出部302と、変形情報推定部303と、その推定変形情報に基づき第1スペクトルを変形する変形部304とを有する。なお、変形情報はスペクトル符号化部及び後述するスペクトル復号化部のそれぞれ内部にて推定により求められるため、スペクトル符号化部301から変形情報を符号化コードとして出力する必要がなく、このため図4のスペクトル符号化部106に配置されている多重化部115は必要としない。
周波数領域変換部111より第1スペクトルS1(k)が出力され、ダイナミックレンジ算出部302と変形部304とに与えられる。ダイナミックレンジ算出部302は、第1スペクトルS1(k)のダイナミックレンジを定量化し、その結果をダイナミックレンジ情報として出力する。ダイナミックレンジの定量化の手法としては、実施の形態1と同様に、第1スペクトルの周波数帯域を複数のサブバンドに分割し、所定の範囲のサブバンドのエネルギー(サブバンドエネルギー)を求め、当該サブバンドエネルギーの分散値を算出し、この分散値をダイナミックレンジ情報として出力する。
次に、図15を用いて変形情報推定部303の説明を行う。変形情報推定部303には、ダイナミックレンジ算出部302よりダイナミックレンジ情報が入力され、切替部305に与えられる。切替部305は、前記ダイナミックレンジ情報を基に変形情報テーブル306内に記録されている推定変形情報の候補の中から1つの推定変形情報を選択し、出力する。変形情報テーブル306には0〜1の間の値をとる複数の推定変形情報の候補が記録されており、この候補はダイナミックレンジ情報と対応するようにあらかじめ学習によって決めておく。
図16は変形部304の主要な構成を示すブロック図である。図6と同一名称および同一符号を付したブロックは同一の機能を有するので説明を省略する。図16の変形部304における指数値算出部307は、変形情報推定部303より与えられる推定変形情報(0〜1の間をとる)に従い、絶対値算出部132から出力されるスペクトルの絶対振幅の指数値、すなわち、推定変形情報でべき乗した値を、正号/負号付与部134に出力する。正号/負号付与部134は、指数値算出部307から出力される指数値に対し、正号/負号抽出部131で先に求めておいた符号情報を付与し、変形第1スペクトルとして出力する。
以上説明したように、本実施の形態に係る符号化装置(スペクトル符号化部301)によれば、第1信号から求められる第1スペクトル(0≦k<FL)を使って、第2信号から求められる第2スペクトル(0≦k<FH)の高域部(FL≦k<FH)を推定し、推定情報を符号化する際に、第1スペクトルをそのまま用いずに、第1スペクトルに変形を加えた後に上記推定を行うようにすることで、推定スペクトルのダイナミックレンジを適切に調整することができ、復号信号の主観品質を向上させることができる。このとき、どのように変形したかを表す情報(変形情報)は、符号化側、復号化側で共通な情報(本実施の形態3では第1スペクトル)を基に変形情報を確定するために、変形情報に関する符号化コードを復号化部に伝送する必要がなく、ビットレートを低減させることが可能とな
る。
なお、変形情報推定部303において、変形情報テーブル306を用いた、第1スペクトルのダイナミックレンジ情報と推定変形情報との対応づけを行う代わりに、第1スペクトルのダイナミックレンジ情報を入力値、推定変形情報を出力値とするマッピング関数を用いても良い。この場合、関数の出力値である推定変形情報は0〜1の間の値をとるように制限される。
図17は、本実施の形態3に係るスペクトル復号化部353の主要な構成を示すブロック図である。この構成において、図10と同一名称および同一符号を付したブロックは同一の機能を有するため説明を省略する。周波数領域変換部164と拡張帯域スペクトル生成部163との間に、ダイナミックレンジ算出部361、変形情報推定部362、および変形部363を有する。図10における変形部162は、符号化側のスペクトル変形部112で生成された変形情報を入力し、この変形情報に基づいて、周波数領域変換部164から与えられる第1スペクトルS1(k)に変形を施す。これに対し本実施の形態3は、上記スペクトル符号化部301と同様に、符号化側および復号化側で共通な情報に基づきこの変形情報の推定を行い、推定変形情報にしたがって第1スペクトルS1(k)の変形を行う。
したがって本実施の形態3では、ダイナミックレンジ算出部361、変形情報推定部362、および変形部363を有する。なお、上記スペクトル符号化部301と同様に、変形情報は、スペクトル復号化部の内部にて推定により求められるため、入力される符号化コードには変形情報が含まれていないため、図10のスペクトル復号化部153に配置されている分離部161は必要としない。
周波数領域変換部164より第1スペクトルS1(k)が出力され、ダイナミックレンジ算出部361と変形部363とに与えられる。以降、ダイナミックレンジ算出部361、変形情報推定部362、および変形部363の動作については、既に説明した符号化側のスペクトル符号化部301(図14参照)内のダイナミックレンジ算出部302、変形情報推定部303、および変形部304と同様なので説明を省略する。なお、変形情報推定部362内の変形情報テーブルは、スペクトル符号化部301における変形情報推定部303内の変形情報テーブル306と同じ推定変形情報の候補が記録されている。
また、拡張帯域スペクトル生成部163、スペクトル構成部165、時間領域変換部166の動作は、実施の形態1の図10に記載のものと同様なので、説明を省略する。
このように、本実施の形態に係る復号化装置(スペクトル復号化部353)によれば、本実施の形態に係る符号化装置で符号化された信号を復号化することで、推定スペクトルのダイナミックレンジを適切に調整することができ、復号信号の主観品質を向上させることができる。
なお、本実施の形態では、変形情報推定部303において推定変形情報が求められるが、この推定変形情報を実施の形態1の図4記載のスペクトル符号化部106に適用してスペクトル変形部112に当該推定変形情報を与え、スペクトル変形部112では変形情報推定部303より与えられる推定変形情報を基準にその近傍の変形情報を指数変数テーブル135から選択し、その限定された変形情報の中から最も適切な変形情報を探索部125にて決定する。この構成では、最終的に選択された変形情報の符号化コードは、前記基準となる推定変形情報からの相対値として表される。このように正確な変形情報を符号化して復号化部へ伝送することができるため、復号信号の主観品質を維持しながら、変形情報を表すビット数を少なくすることができるという効果が得られる。
(実施の形態4)
本発明の実施の形態4では、第1レイヤ符号化部より与えられるピッチゲインに基づきスペクトル符号化部内の変形部に出力される推定変形情報を決定する。
図18は、本実施の形態に係る階層符号化装置400の主要な構成を示すブロック図である。図18において図3と同一名称および同一符号を付したブロックは、同一機能を有するため説明を省略する。
本実施の形態4における階層符号化装置400では、第1レイヤ符号化部402で求められたピッチゲインをスペクトル符号化部406に与える。具体的には、第1レイヤ符号化部402において、第1レイヤ符号化部402に内在する適応符号帳(図示せず)から出力される適応コードベクトルに乗じられる適応コードベクトルゲインが、ピッチゲインとして出力され、スペクトル符号化部406に入力される。この適応コードベクトルゲインは、入力信号の周期性が強い場合に大きな値をとり、入力信号の周期性が弱い場合に小さな値をとるという特徴がある。
図19は、本実施の形態4に係るスペクトル符号化部406の主要な構成を示すブロック図である。図19において図14と同一名称および同一符号を付したブロックは、同一機能を有するので説明を省略する。変形情報推定部411は第1レイヤ符号化部402より与えられるピッチゲインを使って推定変形情報を出力する。変形情報推定部411は前述した図15の変形情報推定部303と同様の構成となる。ただし、変形情報テーブルはピッチゲインに対して設計されたものを適用する。また、本実施の形態においても、変形情報テーブルを用いる構成の代わりにマッピング関数を用いる構成であっても良い。
このように、本実施の形態に係る符号化装置(スペクトル符号化部406)によれば、入力信号の周期性をも考慮して推定スペクトルのダイナミックレンジを適切に調整することができ、復号信号の主観品質を向上させることができる。
次に、上記階層符号化装置400で生成された符号化コードを復号化することができる階層復号化装置450の構成について、以下に説明する。
図20は、本実施の形態に係る階層復号化装置450の主要な構成を示すブロック図である。図20において、第1レイヤ復号化部452より出力されるピッチゲインがスペクトル復号化部453に与えられている。第1レイヤ復号化部452において、第1レイヤ復号化部452に内在する適応符号帳(図示せず)から出力される適応コードベクトルに乗じられる適応コードベクトルゲインが、ピッチゲインとして出力され、スペクトル復号化部453に入力される。
図21は、本実施の形態4に係るスペクトル復号化部453の主要な構成を示すブロック図である。変形情報推定部461は第1レイヤ復号化部452より与えられるピッチゲインを使って推定変形情報を出力する。変形情報推定部461は前述した図15の変形情報推定部303と同様の構成となる。ただし、変形情報テーブルは変形情報推定部411内のものと同様のもので、ピッチゲインに対して設計されたものを適用する。また、本実施の形態においても、変形情報テーブルを用いる構成の代わりにマッピング関数を用いる構成であっても良い。
このように、本実施の形態に係る復号化装置(スペクトル復号化部453)によれば、本実施の形態に係る符号化装置で符号化された信号を復号化することで、入力信号の周期性をも考慮して推定スペクトルのダイナミックレンジを適切に調整することができ、復号
信号の主観品質を向上させることができる。
なお、ピッチゲインと共にピッチ周期(第1レイヤ符号化部402に内在する適応符号帳探索の結果得られるラグのこと)を用いて変形情報を推定する構成であっても良い。この場合、ピッチ周期を利用することで、ピッチ周期の短い音声(例えば女声)とピッチ周期の長い音声(例えば男声)にそれぞれ適した変形情報の推定を行うことができ、推定精度を向上させることができる。
また、本実施の形態では、変形情報推定部411において推定変形情報が求められるが、実施の形態3と同様に、この推定変形情報を実施の形態1の図4記載のスペクトル符号化部106に適用してスペクトル変形部112に当該推定変形情報を与え、スペクトル変形部112では変形情報推定部411より与えられる推定変形情報を基準にその近傍の変形情報を指数変数テーブル135から選択し、その限定された変形情報の中から最も適切な変形情報を探索部125にて決定する。この構成では、最終的に選択された変形情報の符号化コードは、前記基準となる推定変形情報からの相対値として表される。このように正確な変形情報を符号化して復号化部へ伝送することができるため、復号信号の主観品質を維持しながら、変形情報を表すビット数を少なくすることができるという効果が得られる。
(実施の形態5)
本発明の実施の形態5では、第1レイヤ符号化部より与えられるLPC係数に基づきスペクトル符号化部内の変形部に出力される推定変形情報を決定する。
本実施の形態5における階層符号化装置の構成は前述した図18と同様となる。ただし、第1レイヤ符号化部402からスペクトル符号化部406に対して出力されるパラメータは、ピッチゲインではなくLPC係数である。
本実施の形態に係るスペクトル符号化部406の主要な構成は、図22に示すものとなる。前述した図19との違いは、変形情報推定部511に与えられるパラメータがピッチゲインではなくLPC係数であることと、変形情報推定部511内の構成である。
図23は、本実施の形態に係る変形情報推定部511の主要な構成を示すブロック図である。変形情報推定部511は、判定テーブル512、類似度判定部513、変形情報テーブル514、および切替部515より構成される。変形情報テーブル514は、図15における変形情報テーブル306と同様に推定変形情報の候補が記録されている。ただし、この推定変形情報の候補は、LPC係数に対して設計されたものを適用する。判定テーブル512にはLPC係数の候補が格納されており、判定テーブル512と変形情報テーブル514とは対応付けが為されている。すなわち、判定テーブル512から第j番目のLPC係数の候補が選ばれたとき、そのLPC係数候補に適した推定変形情報は変形情報テーブル514の第j番目に格納されている。LPC係数はスペクトルの概形(スペクトル包絡)を少ないパラメータで精度良く表現できるという特徴があり、このスペクトル概形とダイナミックレンジを制御する推定変形情報を対応付けることができる。本実施の形態は、この特徴を利用して構成したものである。
類似度判定部513は、第1レイヤ符号化部402より与えられるLPC係数と最も類似するLPC係数を判定テーブル512の中から求める。この類似性の判定には、LPC係数同士の距離(歪)、またはLPC係数をLSP(Line Spectrum Pair)係数などの別のパラメータに変換した後の両者の歪を求め、その歪が最小となるときのLPC係数を判定テーブル512より求める。
歪を最小(つまり最も類似度が高い)とするときの判定テーブル512内のLPC係数の候補を表すインデックスが類似度判定部513より出力され、切替部515に与えられる。切替部515は、このインデックスが表す推定変形情報の候補を選択し、変形情報推定部511より出力される。
このように、本実施の形態に係る符号化装置(スペクトル符号化部406)によれば、入力信号のスペクトル概形をも考慮して推定スペクトルのダイナミックレンジを適切に調整することができ、復号信号の主観品質を向上させることができる。
次に、本実施の形態5における階層符号化装置で生成された符号化コードを復号化することができる階層復号化装置の構成について、以下説明する。
本実施の形態5における階層復号化装置の構成は前述した図20と同様となる。ただし、第1レイヤ復号化部452からスペクトル復号化部453に対して出力されるパラメータは、ピッチゲインではなくLPC係数である。
本実施の形態に係るスペクトル復号化部453の主要な構成は、図24に示すものとなる。前述した図21との違いは、変形情報推定部561に与えられるパラメータがピッチゲインではなくLPC係数であることと、変形情報推定部561内の構成である。
変形情報推定部561内の構成は、図22におけるスペクトル符号化部406内の変形情報推定部511、すなわち図23に記載のものと同様となり、判定テーブル512及び変形情報テーブル514に記録された情報も、符号化側と復号化側とで共通のものである。
このように、本実施の形態に係る復号化装置(スペクトル復号化部453)によれば、本実施の形態に係る符号化装置で符号化された信号を復号化することで、入力信号のスペクトル概形をも考慮して推定スペクトルのダイナミックレンジを適切に調整することができ、復号信号の主観品質を向上させることができる。
なお、本実施の形態では、変形情報推定部511において推定変形情報が求められるが、実施の形態4と同様に、この推定変形情報を実施の形態1の図4記載のスペクトル符号化部106に適用してスペクトル変形部112に当該推定変形情報を与え、スペクトル変形部112では変形情報推定部511より与えられる推定変形情報を基準にその近傍の変形情報を指数変数テーブル135から選択し、その限定された変形情報の中から最も適切な変形情報を探索部125にて決定する。この構成では、最終的に選択された変形情報の符号化コードは、前記基準となる推定変形情報からの相対値として表される。このように正確な変形情報を符号化して復号化部へ伝送することができるため、復号信号の主観品質を維持しながら、変形情報を表すビット数を少なくすることができるという効果が得られる。
(実施の形態6)
本発明の実施の形態6に係る階層符号化装置の基本的構成は、実施の形態1に示した階層符号化装置と同様であるので、その説明を省略し、スペクトル変形部112と異なる構成であるスペクトル変形部612について以下説明する。
スペクトル変形部612は、第1スペクトルS1(k)[0≦k<FL]のダイナミックレンジが、第2スペクトルS2(k)の高域部[FL≦k<FH]のダイナミックレンジに近づくように、第1スペクトルS1(k)に以下の変形を加える。スペクトル変形部612は、この変形に関する変形情報を符号化して出力する。
図25は、本実施の形態に係るスペクトル変形方法を説明するための図である。
この図は、第1スペクトルS1(k)の振幅の分布を示している。第1スペクトルS1(k)は、周波数k[0≦k<FL]の値によって異なる振幅を示す。そこで、横軸に振幅をとり、縦軸にその振幅における出現確率をとると、振幅の平均値m1を中心として図に示すような正規分布に近い分布が現れる。
本実施の形態では、まず、この分布を、平均値m1に近いグループ(図中の領域B)と、平均値m1から遠いグループ(図中の領域A)とに大きく分ける。次に、これら2つのグループの振幅の代表値、具体的には、領域Aに含まれるスペクトルの振幅の平均値と、領域Bに含まれるスペクトルの振幅の平均値とを求める。ここで、振幅は、平均値m1を零と換算し直した(各値から平均値m1を減じた)場合の振幅の絶対値を用いる。例えば、領域Aは、平均値m1よりも振幅の大きい領域と、平均値m1よりも振幅の小さな領域との2つの領域から成るが、平均値m1を零と換算し直すことにより、2つの領域に含まれるスペクトルの振幅の絶対値は、同じ様な値を有することになる。よって、例えば領域Aの平均値であれば、第1スペクトルのうちで換算後の振幅(絶対値)が比較的大きなスペクトルを1つのグループとし、このグループの振幅の代表値を求めたことに相当し、領域Bの平均値であれば、第1スペクトルのうちで換算後の振幅が比較的小さなスペクトルを1つのグループとし、このグループの振幅の代表値を求めたことに相当している。よって、これら2つの代表値は、第1スペクトルのダイナミックレンジを概略的に表現したパラメータとなる。
次に、本実施の形態では、第2スペクトルに対し、第1スペクトルで行ったのと同様の処理を行い、第2スペクトルの各グループに対応する代表値を求める。そして、領域Aにおける第1スペクトルの代表値と第2スペクトルの代表値との比(具体的には、第2スペクトルの代表値の第1スペクトルの代表値に対する比)、および領域Bにおける第1スペクトルの代表値と第2スペクトルの代表値との比を求める。よって、第1スペクトルのダイナミックレンジと第2スペクトルのダイナミックレンジとの比を概算的に求めることができる。本実施の形態に係るスペクトル変形部は、この比をスペクトルの変形情報として符号化し、出力する。
図26は、スペクトル変形部612内部の主要な構成を示すブロック図である。
スペクトル変形部612は、第1スペクトルの上記各グループに対する代表値を算出する系統と、第2スペクトルの上記各グループに対する代表値を算出する系統と、これら2つの系統で算出された代表値に基づいて変形情報を決定する変形情報決定部626と、この変形情報に基づいて変形スペクトルを生成する変形スペクトル生成部627とに大別される。
第1スペクトルの代表値を算出する系統は、具体的には、ばらつき度算出部621−1と、第1閾値設定部622−1と、第2閾値設定部623−1と、第1平均スペクトル算出部624−1と、第2平均スペクトル算出部625−1とからなる。第2スペクトルの代表値を算出する系統も、基本的には、第1スペクトルの代表値を算出する系統と同様の構成からなり、図中において同一の構成に対しては同一の符号を付し、符号の後に続く枝番により処理系統の違いを表す。そして、同一の構成要素については、その説明を省略する。
ばらつき度算出部621−1は、入力される第1スペクトルS1(k)の振幅の分布から、第1スペクトルの平均値m1からの「ばらつき度」を算出し、第1閾値設定部622
−1および第2閾値設定部623−1に出力する。「ばらつき度」とは、具体的には、第1スペクトルの振幅分布の標準偏差σ1のことである。
第1閾値設定部622−1は、ばらつき度算出部621−1で求まった第1スペクトルの標準偏差σ1を用いて第1閾値TH1を求める。ここで、第1閾値TH1とは、第1スペクトルのうち、上記領域Aに含まれる比較的絶対振幅の大きなスペクトルを特定するための閾値であり、標準偏差σ1に所定の定数aを乗じた値が使用される。
第2閾値設定部623−1の動作も、第1閾値設定部622−1の動作と同様であるが、求める第2閾値TH2は、第1スペクトルのうちの領域Bに含まれる比較的絶対振幅の小さなスペクトルを特定するための閾値であり、標準偏差σ1に所定の定数b(<a)を乗じた値が使用される。
第1平均スペクトル算出部624−1は、第1閾値TH1よりも外側に位置するスペクトル、すなわち、領域Aに含まれるスペクトルの振幅の平均値(以下、第1平均値という)を求め、変形情報決定部626に出力する。
具体的には、第1平均スペクトル算出部624−1は、第1スペクトルの各サブバンドのスペクトルの振幅(ただし、換算前の値)を、第1スペクトルの平均値m1に第1閾値TH1を加えた値(m1+TH1)と比較し、この値よりも大きな振幅を有するスペクトルを特定する(ステップ1)。次に、第1平均スペクトル算出部624−1は、第1スペクトルの各サブバンドのスペクトルの振幅値を、第1スペクトルの平均値m1から第1閾値TH1を減じた値(m1−TH1)と比較し、この値よりも小さな振幅を有するスペクトルを特定する(ステップ2)。そして、ステップ1およびステップ2の双方で求まったスペクトルの振幅に対し、上記の平均値m1をゼロとする換算を行い、得られた換算値の絶対値の平均値を求め、変形情報決定部626に出力する。
第2平均スペクトル算出部は、第2閾値TH2よりも内側に位置するスペクトル、すなわち、領域Bに含まれるスペクトルの振幅の平均値(以下、第2平均値という)を求め、変形情報決定部626に出力する。具体的な動作は、第1平均スペクトル算出部624−1と同様である。
上記処理で求まった第1平均値および第2平均値が、第1スペクトルの領域Aおよび領域Bに対する代表値である。
第2スペクトルの代表値を求める処理も基本的には上記と同様である。ただし、第1スペクトルと第2スペクトルとは異なるスペクトルであるので、第1閾値TH1に準ずる第3閾値TH3は、第2スペクトルの標準偏差σ2に所定の定数cを乗じた値が使用され、第2閾値TH2に準ずる第4閾値TH4は、第2スペクトルの標準偏差σ2に所定の定数d(<c)を乗じた値が使用される。
変形情報決定部626は、第1平均スペクトル算出部624−1で得られる第1平均値、第2平均スペクトル算出部625−1で得られる第2平均値、第3平均スペクトル算出部624−2で得られる第3平均値、および第4平均スペクトル算出部625−2で得られる第4平均値を用いて、以下のように変形情報を決定する。
すなわち、変形情報決定部626は、第1平均値と第3平均値との比(以下、第1ゲインと呼ぶ)、および第2平均値と第4平均値との比(以下、第2ゲインと呼ぶ)を算出する。そして、変形情報決定部626は、変形情報の複数の符号化候補が予め記憶されたデータテーブルを内部に備えているので、第1ゲインおよび第2ゲインをこれらの符号化候
補と比較し、最も類似した符号化候補を選択して、この符号化候補を表すインデックスを変形情報として出力する。また、このインデックスは、変形スペクトル生成部627にも送られる。
変形スペクトル生成部627は、入力信号である第1スペクトル、第1閾値設定部622−1で得られる第1閾値TH1、第2閾値設定部623−1で得られる第2閾値TH2、および変形情報決定部626から出力される変形情報、を用いて、第1スペクトルの変形を行い、生成された変形スペクトルを出力する。
図27、図28は、変形スペクトルの生成方法を説明するための図である。
変形スペクトル生成部627は、変形情報を用いて第1平均値と第3平均値との比の復号値(以下、復号第1ゲインと呼ぶ)、および第2平均値と第4平均値との比の復号値(以下、復号第2ゲインと呼ぶ)を生成する。これらの対応関係は、図27に示す通りである。
次に、変形スペクトル生成部627は、第1スペクトルの振幅値と第1閾値TH1とを比較することにより、領域Aに属するスペクトルを特定し、これらのスペクトルに復号第1ゲインを乗じる。同様に、変形スペクトル生成部627は、第1スペクトルの振幅値と第2閾値TH2とを比較することにより、領域Bに属するスペクトルを特定し、これらのスペクトルに復号第2ゲインを乗じる。
一方、図28に示す通り、第1スペクトルのうち、第1閾値TH1と第2閾値TH2とに挟まれる領域(以下、領域C)に属するスペクトルに対しては、符号化情報が存在しない。そこで、変形スペクトル生成部627は、復号第1ゲインと復号第2ゲインの中間的な値を有するゲインを使用する。例えば、図28に示されるような、復号第1ゲインと、復号第2ゲインと、第1閾値TH1と、第2閾値TH2とに基づく特性曲線から、ある振幅xに対応する復号ゲインyを求め、このゲインを第1スペクトルの振幅に乗じれば良い。すなわち、復号ゲインyは、復号第1ゲインおよび復号第2ゲインの線形補間値となっている。
図29は、復号化装置で使用されるスペクトル変形部662内部の主要な構成を示したブロック図である。なお、このスペクトル変形部662は、実施の形態1で示した変形部162に対応するものである。
基本的動作は上記のスペクトル変形部612と同様なので、詳細な説明は省略するが、このスペクトル変形部662は、第1スペクトルのみを処理対象とするので、処理系統が1つとなっている。
このように、本実施の形態によれば、第1スペクトルの振幅の分布および第2スペクトルの振幅の分布をそれぞれ把握し、比較的絶対振幅の大きなグループと比較的絶対振幅の小さなグループとに分けて、各グループの振幅の代表値を求める。そして、第1スペクトルと第2スペクトルの各グループの振幅の代表値の比をとることにより、第1スペクトルおよび第2スペクトル間のダイナミックレンジの比、すなわちスペクトルの変形情報を得て、これを符号化する。これにより、指数関数のような演算量の多い関数を用いることなく、変形情報を求めることができる。
また、本実施の形態によれば、第1スペクトルおよび第2スペクトルの振幅の分布から標準偏差を求め、この標準偏差に基づいて第1閾値〜第4閾値を求める。よって、実際のスペクトルに基づいた閾値が設定されるので、変形情報の符号化精度を向上させることが
できる。
また、本実施の形態によれば、復号第1ゲインおよび復号第2ゲインを用いて第1スペクトルのゲイン調整を行うことにより、第1スペクトルのダイナミックレンジを制御する。そして、復号第1ゲインおよび復号第2ゲインは、第1スペクトルが第2スペクトルの高域部に近づくように決定される。よって、第1スペクトルのダイナミックレンジは、第2スペクトルの高域部のダイナミックレンジに近づく。さらに、復号第1ゲインおよび復号第2ゲインの算出には、指数関数のような演算量の多い関数を使用する必要がない。
なお、本実施の形態では、復号第1ゲインが復号第2ゲインよりも大きい場合を例にとって説明したが、音声信号の性質によっては、復号第1ゲインよりも復号第2ゲインの方が大きい場合がある。すなわち、第1スペクトルのダイナミックレンジよりも第2スペクトルの高域部のダイナミックレンジの方が大きい場合がある。このような現象は、入力音声信号が摩擦音のような音の場合に生じることが多い。かかる場合にも本実施の形態に係るスペクトル変形方法は適用することができる。
また、本実施の形態では、スペクトルを絶対振幅の比較的大きなグループと比較的小さなグループとの2つのグループに分ける場合を例にとって説明したが、ダイナミックレンジの再現性を高めるために、より多くのグループに分けるようにしても良い。
また、本実施の形態では、平均値を基準として振幅を換算し、この換算後の振幅に基づいて、スペクトルを振幅の比較的大きなグループと比較的小さなグループとに分ける場合を例にとって説明したが、元の振幅値をそのまま用いて、この振幅に基づいてスペクトルのグルーピングを行っても良い。
また、本実施の形態では、スペクトルの絶対振幅のばらつき度を算出するのに標準偏差を用いる場合を例にとって説明したが、これに限定されず、例えば、標準偏差と同様の統計的パラメータとして分散を用いることができる。
また、本実施の形態では、各グループのスペクトル振幅の代表値として、各グループにおけるスペクトルの絶対振幅の平均値を用いる場合を例にとって説明したが、これに限定されず、例えば、各グループにおけるスペクトルの絶対振幅の中央値等を用いても良い。
また、本実施の形態では、ダイナミックレンジの調整に各スペクトルの振幅値を用いる場合を例にとって説明したが、振幅値の代わりにスペクトルのエネルギー値を用いても良い。
また、各グループに対応する代表値を求める際に、例えばMDCT係数のように、最初からスペクトルの振幅に正または負の符号を持つ場合には、平均値を零と換算する必要はなく、単にスペクトルの振幅の絶対値を用いて各グループに対応する代表値を求めれば良い。
以上、本発明の各実施の形態について説明した。
本発明に係る符号化装置および復号化装置は、上記各実施の形態に限定されず、種々変更して実施することが可能である。
本発明に係る符号化装置および復号化装置は、移動体通信システムにおける通信端末装置および基地局装置に搭載することも可能であり、これにより上記と同様の作用効果を有する通信端末装置および基地局装置を提供することができる。
なお、ここでは、本発明をスケーラブル符号化方式に適用する場合を例にとって説明したが、本発明は別の符号化方式にも適用可能である。
また、ここでは、本発明をハードウェアで構成する場合を例にとって説明したが、本発明はソフトウェアで実現することも可能である。例えば、本発明に係る符号化方法(復号化方法)のアルゴリズムをプログラミング言語によって記述し、このプログラムをメモリに記憶しておいて情報処理手段によって実行させることにより、本発明に係る符号化装置(復号化装置)と同様の機能を実現することができる。
また、上記各実施の形態の説明に用いた各機能ブロックは、典型的には集積回路であるLSIとして実現される。これらは個別に1チップ化されていても良いし、一部または全てを含むように1チップ化されていても良い。
また、ここではLSIとしたが、集積度の違いによって、IC、システムLSI、スーパーLSI、ウルトラLSI等と呼称されることもある。
また、集積回路化の手法はLSIに限るものではなく、専用回路または汎用プロセッサで実現しても良い。LSI製造後に、プログラム化することが可能なFPGA(Field Programmable Gate Array)や、LSI内部の回路セルの接続もしくは設定を再構成可能なリコンフィギュラブル・プロセッサを利用しても良い。
さらに、半導体技術の進歩または派生する別技術により、LSIに置き換わる集積回路化の技術が登場すれば、当然、その技術を用いて機能ブロックの集積化を行っても良い。バイオ技術の適応等が可能性としてあり得る。
本明細書は、2004年5月14日出願の特願2004−145425、2004年11月5日出願の特願2004−322953、および2005年4月28日出願の特願2005−133729に基づく。これらの内容はすべてここに含めておく。