本発明は、移動体通信システムやインターネットプロトコルを用いたパケット通信システム等において、音声通信を行う際に用いられるスケーラブル符号化装置、スケーラブル復号化装置、スケーラブル符号化方法、およびスケーラブル復号化方法に関する。
VoIP(Voice over IP)等のようにパケットを用いた音声通信においては、音声データの符号化にフレーム消失耐性のある符号化方式が望まれている。インターネット通信に代表されるパケット通信においては、輻輳等により伝送路上でパケットが破棄されることがあるからである。
フレーム消失耐性を高める方法の一つとして、伝送情報の一部が消失しても他の一部から復号処理を行うようにすることでフレーム消失の影響をできるだけ少なくするアプローチがある(例えば、特許文献1参照)。特許文献1には、スケーラブル符号化を用いてコアレイヤ符号化情報と拡張レイヤの符号化情報とを別々のパケットに詰めて伝送する方法が開示されている。また、パケット通信のアプリケーションとして、太い回線(ブロードバンド回線)と細い回線(伝送レートの低い回線)とが混在するネットワークを用いたマルチキャスト通信(一対多の通信)が挙げられる。このような不均一なネットワーク上で多地点間通信を行う場合にも、それぞれのネットワークに対応して符号化情報が階層化されていれば、ネットワークごとに異なる符号化情報を送る必要がないため、スケーラブル符号化が有効である。
例えば、音声信号の高能率な符号化を可能とするCELP方式をベースとして、信号帯域幅に、すなわち周波数軸方向にスケーラビリティを有する帯域スケーラブル符号化技術として、特許文献2に開示されている技術がある。特許文献2では、音声信号のスペクトル包絡情報をLSP(線スペクトル対)パラメータで表現するCELP方式の例が示されている。ここでは、狭帯域音声用の符号化部(コアレイヤ)で得られた量子化LSPパラメータ(狭帯域符号化LSP)を以下の(式1)を用いて広帯域音声符号化用のLSPパラメータに変換し、変換したLSPパラメータを広帯域音声用の符号化部(拡張レイヤ)で用いることにより、帯域スケーラブルなLSP符号化方法を実現している。
fw(i)=0.5×fn(i)[ただし、i=0,…,Pn−1]
=0.0 [ただし、i=Pn,…,Pw−1]・・・(式1)
なお、fw(i)は広帯域信号におけるi次のLSPパラメータ、fn(i)は狭帯域信号におけるi次のLSPパラメータ、Pnは狭帯域信号のLSP分析次数、Pwは広帯域信号のLSP分析次数をそれぞれ示している。
しかし、特許文献2においては、狭帯域信号としてサンプリング周波数が8kHz、広帯域信号としてサンプリング周波数が16kHz、広帯域LSP分析次数が狭帯LSP分析次数の2倍である場合を例にとって説明しているため、狭帯域LSPから広帯域LSPへの変換が(式1)で表されるような単純な式で行われ得る。ところが、広帯域LSPの低次側のPn次のLSPパラメータの存在する位置は、高次側の(Pw−Pn)次を含めた広帯域信号全体に対して決定されるため、必ずしも狭帯域LSPのPn次のLSPパラメータに対応するわけではない。このため、(式1)で表される変換では高い変換効率(狭帯域LSPから広帯域LSPを予測すると見た場合、予測精度と言う事も可能)は得られず、(式1)に基づいて設計された広帯域LSP符号化器には、符号化性能を改善する余地が残されている。
例えば、非特許文献1には、(式1)のi次の狭帯域LSPパラメータに乗じる変換係数を0.5とする代わりに、以下の(式2)に示すように、変換係数の最適化アルゴリズムを用いて次数毎に最適な変換係数β(i)を求める方法が開示されている。
fw_n(i)=α(i)×L(i)+β(i)×fn_n(i)・・・(式2)
ただし、fw_n(i)は第nフレームにおけるi次の広帯域量子化LSPパラメータ、α(i)×L(i)は予測誤差信号を量子化したベクトルのi次の要素(α(i)はi次の重み係数)、L(i)はLSP予測残差ベクトル、β(i)は予測広帯域LSPへの重み係数、fn_n(i)は第nフレームにおける狭帯域LSPパラメータである。このような変換係数の最適化により、特許文献2と同じ構成のLSP符号化器でありながら、より高い符号化性能を実現している。
特開2003−241799号公報 特開平11−30997号公報 K.Koishida et al,"Enhancing MPEG−4 CELP by jointly optimized inter/intra−frame LSP predictors,"IEEE Speech Coding Workshop 2000,Proceeding,pp.90−92,2000
しかしながら、広帯域LSPの低次側のPn次のLSPパラメータの位置は広帯域信号全体に対して決定されるため、個々のLSPパラメータ(分析フレームごとのLSPパラメータ)について着目すれば、時間経過に伴い(フレームによって)最適な変換係数β(i)の値は変化する。よって、特許文献2に開示された技術には以下の問題がある。
図1は、広帯域信号に帯域制限をかけた信号、すなわち広帯域信号を一旦ダウンサンプルしてからアップサンプルして元のサンプリング周波数に戻したものを、Pw=18でLSP分析して得られる狭帯域のLSPパラメータの例を示した図である。
また、図2は、図1に示した狭帯域LSPパラメータに対応する広帯域信号を、Pw=18でLSP分析して得られる広帯域のLSPパラメータの例を示した図である。これらの図において、横軸は時間(分析フレーム番号)であり、縦軸は正規化周波数(1.0をナイキスト周波数とし、図の例では8kHz)である。
これらの図に示されるように、信号の周波数帯域が異なる以外は条件を全て同じにして得られるLSPパラメータ、すなわち同じサンプリング周波数(16kHz)で同じ分析次数のLSP分析を行って得られるLSPパラメータでも、狭帯域に帯域制限された信号から得られる低次側の(Pw/2)次のLSPパラメータと、広帯域信号から得られる低次側の(Pw/2)次のLSPパラメータとの対応関係が時間的に変化していることが分かる。この変化は、狭帯域信号には含まれず、広帯域信号に含まれる周波数成分(主として高域成分)の違いによって生ずるものである。
図3は、図1および図2に示したLSPデータを用いて、次数毎に求めた狭帯域LSPを広帯域LSPに変換する場合の理想的な変換係数を示した図である。ここで、変換係数は、広帯域LSPを狭帯域LSPで除した値であり、横軸は時間(分析フレーム番号)であり、次数が、0次、4次、8次の場合を例にとって示している。
この図からも明らかなように、理想的な変換係数の値は時間的に変動している。すなわち、狭帯域LSPを広帯域LSPに変換する際の変換係数、別の表現をするならば、狭帯域LSPから広帯域LSPを予測する際の変換係数の理想値は時間的に変動するので、非特許文献1に示される設計手法によって得られる変換係数を用いても、変換係数が固定値であれば、時間的に変動する理想的な変換係数を正確に表すことはできない。
なお、ここでは、LSP分析の条件を揃えるために、サンプリング周波数および分析次数が同じで信号の帯域だけが異なる場合を例にとって示したが、ダウンサンプルした信号を用いて広帯域LSPよりも低い次数でLSP分析を行った場合においても同様のことが言える。このことは、この分野の技術者であれば容易に理解できることである。ただし、LSP分析の条件が異なることとなるため、狭帯域LSPと広帯域LSPとの対応関係は上記の例よりも悪くなる。
よって、本発明の目的は、狭帯域LSPから広帯域LSPへの変換性能、すなわち狭帯域LSPから広帯域LSPを予測する際の予測精度を高め、高性能な帯域スケーラブルLSP符号化を実現することができるスケーラブル符号化装置、スケーラブル復号化装置、スケーラブル符号化方法、およびスケーラブル復号化方法を提供することである。
本発明のスケーラブル符号化装置は、入力信号から、周波数軸方向にスケーラビリティを有する狭帯域および広帯域の量子化LSPパラメータを生成するスケーラブル符号化装置であって、狭帯域の入力信号のLSPパラメータを符号化して、狭帯域の第1の量子化LSPパラメータを生成する狭帯域符号化手段と、前記第1の量子化LSPパラメータの周波数帯域を広帯域に変換する変換手段と、広帯域に変換後の前記第1の量子化LSPパラメータを用いて広帯域の入力信号のLSPパラメータの符号化を行い、広帯域の第2の量子化LSPパラメータを生成する広帯域符号化手段と、過去に生成された前記第1および第2の量子化LSPパラメータ間の関係に基づいて、前記変換手段で使用される変換係数を算出する算出手段と、を具備する構成を採る。
本発明によれば、狭帯域LSPから広帯域LSPへの変換性能を高め、高性能な帯域スケーラブルLSP符号化を実現することができる。
狭帯域のLSPパラメータの例を示した図
広帯域のLSPパラメータの例を示した図
理想的な変換係数を示した図
実施の形態1に係るスケーラブル符号化装置の主要な構成を示すブロック図
実施の形態1に係る広帯域LSP符号化部内部の主要な構成を示すブロック図
実施の形態1に係る変換係数算出部内部の主要な構成を示すブロック図
実施の形態1に係るスケーラブル復号化装置の主要な構成を示すブロック図
実施の形態1に係る広帯域LSP復号化部内部の主要な構成を示すブロック図
実施の形態2に係る変換係数算出部内部の主要な構成を示すブロック図
実施の形態2に係る広帯域LSP符号化部内部の主要な構成を示すブロック図
実施の形態2に係る広帯域LSP復号化部内部の主要な構成を示すブロック図
実施の形態3に係るスケーラブル符号化装置の主要な構成を示すブロック図
実施の形態3に係る変換係数算出部内部の主要な構成を示すブロック図
実施の形態3に係るスケーラブル復号化装置の主要な構成を示すブロック図
実施の形態4に係るスケーラブル符号化装置の主要な構成を示すブロック図
実施の形態4に係るスケーラブル復号化装置の主要な構成を示すブロック図
実施の形態5に係る広帯域LSP符号化部の主要な構成を示すブロック図
実施の形態5に係る変換係数算出部の主要な構成を示すブロック図
実施の形態5に係るスケーラブル符号化装置の主要な構成を示すブロック図
実施の形態6に係る広帯域LSP符号化部の主要な構成を示すブロック図
実施の形態6に係る変換係数算出部の主要な構成を示すブロック図
実施の形態7に係る広帯域LSP符号化部の主要な構成を示すブロック図
以下、本発明の実施の形態について、添付図面を参照して詳細に説明する。
(実施の形態1)
図4は、本発明の実施の形態1に係るスケーラブル符号化装置の主要な構成を示すブロック図である。
本実施の形態に係るスケーラブル符号化装置は、ダウンサンプル部101、LSP分析部(狭帯域用)102、狭帯域LSP符号化部103、音源符号化部(狭帯域用)104、位相補正部105、LSP分析部(広帯域用)106、広帯域LSP符号化部107、音源符号化部(広帯域用)108、変換係数算出部109、アップサンプル部110、加算器111、および多重化部112を備える。
本実施の形態に係るスケーラブル符号化装置の各部は以下の動作を行う。
ダウンサンプル部101は、入力音声信号に対しダウンサンプリング処理を行って狭帯域信号をLSP分析部(狭帯域用)102および音源符号化部(狭帯域用)104に出力する。なお、入力音声信号は、デジタル化された信号であり、必要に応じてHPFや背景雑音抑圧処理等の前処理が施されている。
LSP分析部(狭帯域用)102は、ダウンサンプル部101から入力された狭帯域信号に対してLSP(線スペクトル対)パラメータを算出し、狭帯域LSP符号化部103へ出力する。
狭帯域LSP符号化部103は、LSP分析部(狭帯域用)102から入力された狭帯域LSPパラメータを符号化し、量子化された狭帯域LSPパラメータを広帯域LSP符号化部107、変換係数算出部109、および音源符号化部(狭帯域用)104へ出力する。また、狭帯域LSP符号化部103は、符号化データを多重化部112へ出力する。
音源符号化部(狭帯域用)104は、狭帯域LSP符号化部103から入力された、量子化された狭帯域LSPパラメータを線形予測係数に変換し、得られた線形予測係数を用いて線形予測合成フィルタを構築する。音源符号化部104は、この線形予測合成フィルタを用いて合成される合成信号と別途ダウンサンプル部101から入力された狭帯域入力信号との間の聴覚的重みづき誤差を求め、この聴覚的重みづき誤差を最小とする音源パラメータの符号化を行う。得られた符号化情報は多重化部112へ出力される。また、音源符号化部104は、狭帯域復号音声信号を生成してアップサンプル部110へ出力する。
なお、狭帯域LSP符号化部103または音源符号化部(狭帯域用)104については、LSPパラメータを利用するCELP型音声符号化装置で一般的に用いられている回路を適用でき、例えば、特許文献2またはITU−T勧告G.729等に記載されている技術を利用できる。
アップサンプル部110は、音源符号化部104で合成された狭帯域復号音声信号が入力され、アップサンプル処理を施し加算器111へ出力する。
加算器111は、位相補正部105から位相補正後の入力信号、アップサンプル部110からアップサンプルされた狭帯域復号音声信号、がそれぞれ入力され、両信号の差分信号を求めて音源符号化部(広帯域用)108へ出力する。
位相補正部105は、ダウンサンプル部101およびアップサンプル部110で生じる位相のずれ(遅延)を補正するためのものであり、ダウンサンプル処理およびアップサンプル処理が直線位相低域通過フィルタとサンプル間引き/零点挿入によって行なわれる場合は、直線位相低域通過フィルタによって生じる遅延の分だけ入力信号を遅延させる処理を行い、LSP分析部(広帯域用)106および加算器111に出力する。
LSP分析部(広帯域用)106は、位相補正部105から出力される広帯域信号を入力して公知のLSP分析を行い得られた広帯域LSPパラメータを広帯域LSP符号化部107へ出力する。
変換係数算出部109は、狭帯域LSP符号化部103から過去に出力された狭帯域の量子化LSPと、広帯域LSP符号化部107から過去に出力された広帯域の量子化LSPと、を用いて変換係数を求めて広帯域LSP符号化部107へ出力する。
広帯域LSP符号化部107は、狭帯域LSP符号化部103から入力される狭帯域の量子化LSPに、変換係数算出部109から入力される変換係数を乗じて広帯域LSPに変換し、この広帯域LSPに重み係数を乗じて予測広帯域LSPを求める。そして、LSP分析部(広帯域用)106から入力された広帯域LSPと求まった予測広帯域LSPとの誤差信号を、ベクトル量子化などの手法を用いて符号化し、得られる広帯域の量子化LSPを音源符号化部(広帯域用)108へ出力する。ここで、量子化LSPは、以下の(式3)のように表される。
fw_n(i)=α(i)×L(i)+β(i)×
{fw_n−1(i)/fn_n−1(i)}×fn_n(i)・・・(式3)
ただし、fw_n(i)は第nフレームにおけるi次の広帯域量子化LSPパラメータ、α(i)×L(i)は予測誤差信号を量子化したベクトルのi次の要素(α(i)はi次の重み係数)、L(i)はLSP予測残差ベクトル、β(i)は予測広帯域LSPへの重み係数、fw_n−1(i)は第(n−1)フレームにおける広帯域量子化LSPパラメータ、fn_n−1(i)は第(n−1)フレームにおける狭帯域量子化LSPパラメータ、fn_n(i)は第nフレームにおける狭帯域LSPパラメータである。
一方、広帯域LSP符号化部107は、得られる符号情報を多重化部112へ出力する。なお、上記のLSP予測残差ベクトルに乗じる重み係数α(i)は、1.0の固定値としても良いし、別途学習によって得られた定数でもよいし、別途学習によって得られた複数の係数をコードブックとして備えてその中から一つを選ぶようにしても良い。
音源符号化部(広帯域用)108は、広帯域LSP符号化部107から入力された、量子化された広帯域LSPパラメータを線形予測係数に変換し、得られた線形予測係数を用いて線形予測合成フィルタを構築する。そして、この線形予測合成フィルタを用いて合成される合成信号と位相補正された入力信号との間の聴覚的重みづき誤差を求め、この聴覚的重みづき誤差を最小とする音源パラメータを決定する。より詳細には、音源符号化部108には、広帯域入力信号とアップサンプル後の狭帯域復号信号との誤差信号が別途加算器111より入力され、この誤差信号と音源符号化部108で生成される復号信号との間の誤差が求められ、この誤差に聴覚的重みづけが施されたものが最小となるように音源パラメータが決定される。求まった音源パラメータの符号情報は、多重化部112へ出力される。この音源符号化については、例えば、「K.Koishida et al,“A 16−kbit/s bandwidth scalable audio coder based on the G.729 standard,”IEEE Proc.ICASSP 2000,pp.1149−1152,2000」に開示されている。
多重化部112には、狭帯域LSP符号化部103から狭帯域LSPの符号化情報が、音源符号化部(狭帯域用)104からは狭帯域信号の音源符号化情報が、広帯域LSP符号化部107からは広帯域LSPの符号化情報が、そして、音源符号化部(広帯域用)108からは広帯域信号の音源符号化情報が入力される。多重化部112は、これらの情報を多重化してビットストリームとして伝送路に送出する。なお、ビットストリームは、伝送路の仕様に応じて、伝送チャネルフレームにフレーム化されたり、パケット化されたりする。また、伝送路誤りに対する耐性を高めるために、誤り保護や誤り検出符号を付加したり、インタリーブ処理等を適用したりする。
図5は、上記の広帯域LSP符号化部107内部の主要な構成を示すブロック図である。
この広帯域LSP符号化部107は、誤差最小化部121、LSP符号帳122、重み係数符号帳123、増幅器124〜126、および加算器127、128を備える。
加算器127は、LSP分析部106から入力された、量子化ターゲットとなるLSPパラメータと、加算器128から入力される量子化LSPパラメータ候補と、の誤差を計算し、求まった誤差を誤差最小化部121へ出力する。なお、この誤差計算は、入力されたLSPベクトル間の二乗誤差で良い。また、入力されたLSPベクトルの特徴に応じて重み付けを行なうようにすれば、さらに聴感上の品質を良くすることができる。例えば、ITU−T勧告G.729では、3.2.4章(Quantization of the LSP coefficients)の(21)式の重み付け二乗誤差(重み付けユークリッド距離)を用いて誤差最小化を行なう。
誤差最小化部121は、加算器127から出力される誤差を最小とするLSPベクトルおよび重み係数ベクトルを、LSP符号帳122および重み係数符号帳123のそれぞれの中から選択し、対応するインデックスを符号化し、多重化部112に出力する(S11)。
LSP符号帳122は、格納しているLSPベクトルを増幅器124へ出力する。ここで、LSP符号帳122が格納しているLSPベクトルは、増幅器125から出力される狭帯域量子化LSPに基づいて予測された広帯域LSPの(LSP分析部106から入力される広帯域LSPに対する)予測残差ベクトルである。
重み係数符号帳123は、格納している重み係数セットの中から1セットを選び、選択された重み係数セットの中から増幅器124用の係数と増幅器125用の係数とを増幅器124および125に出力する。なお、この重み係数セットは、増幅器124および125のそれぞれに対してLSPの次数毎に用意された重み係数からなる。
増幅器124は、LSP符号帳122から入力されたLSPベクトルに、重み係数符号帳123から出力された増幅器124用の重み係数を乗じて加算器128へ出力する。
増幅器125は、増幅器126から入力される広帯域LSPのベクトル、すなわち、量子化後の狭帯域LSPを変換して得られる広帯域LSPのベクトルに、重み係数符号帳123から出力される増幅器125用の重み係数を乗じて加算器128へ出力する。
加算器128は、増幅器124と増幅器125とから出力されたLSPベクトルの和を計算し、加算器127へ出力する。また、誤差最小化部121で誤差が最小になると判断されたLSPベクトルの和が広帯域の量子化LSPパラメータとして音源符号化部108および変換係数算出部109に出力される。なお、広帯域の量子化LSPパラメータとして出力されるLSPパラメータが安定条件(第n次のLSPは第0次〜第(n−1)次のいずれのLSPより大きい場合、すなわち、LSPは次数の順番に値が大きくなる)を満たしていない場合は、加算器128は、LSPの安定条件を満たすように操作を加える。なお、隣接する量子化LSPの間隔が所定の間隔より狭い場合も、所定の間隔以上になるように操作するのが一般的である。
増幅器126は、狭帯域LSP符号化部103から入力されたLSPパラメータに、変換係数算出部109から入力された係数を乗じて、増幅器125へ出力する。なお、狭帯域LSP符号化部103から増幅器126に入力されるLSPパラメータは、狭帯域LSP符号化部103の量子化結果そのままでも良いが、アップサンプルして広帯域信号のサンプリング周波数に合わせると共に、広帯域LSPの次数に合わせると尚良い。このアップサンプルの方法としては、狭帯域LSPから得られるLPC合成フィルタのインパルス応答をアップサンプルし、アップサンプルしたインパルス応答から自己相関を求め(例えば、特許文献2参照)、求めた自己相関係数を周知の方法によって所望の次数のLSPに変換する方法等が挙げられるが、これに限定されるものではない。
図6は、図4に示した変換係数算出部109内部の主要な構成を示すブロック図である。
この変換係数算出部109は、遅延器131、132、除算器133、リミッタ134、および平滑化部135を備える。
遅延器131は、狭帯域LSP符号化部103から入力された狭帯域LSPパラメータを1処理単位時間(LSPパラメータの更新周期)だけ遅延させ、除算器133へ出力する。なお、前述したように、狭帯域LSP符号化部103から入力される狭帯域LSPは、パラメータ狭帯域LSPそのままでも良いが、アップサンプルして次数を揃えると尚良い。
遅延器132は、広帯域LSP符号化部107から入力された広帯域LSPパラメータを1処理単位時間(LSPパラメータの更新周期)だけ遅延させ、除算器133へ出力する。
除算器133は、遅延器132から入力された1処理単位時間前に量子化された広帯域LSPパラメータを、遅延器131から入力された1処理単位時間前に量子化された狭帯域LSPパラメータで除算し、除算結果をリミッタ134に出力する。遅延器131から出力される狭帯域LSPパラメータの次数と遅延器132から出力される広帯域LSPパラメータの次数とが異なる場合は、少ない方の次数(通常、狭帯域LSPパラメータの次数)分だけ除算を行い、出力する。
リミッタ134は、除算器133から入力された除算結果を、予め設定した上限値と下限値とでクリッピング(上限値を超えたらこの上限値に設定し直し、下限値を下回ったらこの下限値に設定し直す処理)し、平滑化部135へ出力する。なお、上限値および下限値は、全次数で同一のものであっても良いが、次数毎に最適なものを設定すると尚良い。
平滑化部135は、リミッタ134から入力されたクリッピング後の除算結果を時間的に平滑化して、変換係数として広帯域LSP符号化部107へ出力する。この平滑化処理は、例えば、以下の(式4)を用いることにより実現できる。
Xn(i)=K×Xn−1(i)+(1−K)×γ(i)・・・(式4)
ここで、Xn(i)は、第n番目の処理単位時間におけるi次の狭帯域LSPパラメータに適用される変換係数であり、Kは、平滑化係数で0≦K<1の値を採り、γ(i)は、リミッタ134から出力されるi次のLSPパラメータに対する除算結果である。
以上、本実施の形態に係るスケーラブル符号化装置について詳細に説明した。
図7は、上記のスケーラブル符号化装置で符号化された符号化情報を復号化するスケーラブル復号化装置の主要な構成を示すブロック図である。
このスケーラブル復号化装置は、多重分離部151、音源復号化部(狭帯域用)152、狭帯域LSP復号化部153、音源復号化部(広帯域用)154、変換係数算出部155、広帯域LSP復号化部156、音声合成部(狭帯域用)157、音声合成部(広帯域用)158、アップサンプル部159、および加算器160を備える。
多重分離部151は、上記のスケーラブル符号化装置で符号化された符号化情報を受け取り、各パラメータの符号化情報に分離し、狭帯域音源符号化情報を音源復号化部(狭帯域用)152に、狭帯域LSP符号化情報を狭帯域LSP復号化部153に、広帯域音源符号化情報を音源復号化部(広帯域用)154に、広帯域LSP符号化情報を広帯域LSP復号化部156に、それぞれ出力する。
音源復号化部(狭帯域用)152は、多重分離部151から入力された狭帯域音源信号の符号化情報を、上記のスケーラブル符号化装置の音源符号化部(狭帯域用)104で行われた処理と逆の処理を用いて復号し、量子化された狭帯域音源信号を音声合成部(狭帯域用)157へ出力する。
狭帯域LSP復号化部153は、多重分離部151から入力された狭帯域LSPの符号化情報を、上記のスケーラブル符号化装置の狭帯域LSP符号化部103で行われた処理と逆の処理によって復号し、得られた狭帯域の量子化LSPを音声合成部(狭帯域用)157、変換係数算出部155、および広帯域LSP復号化部156へ出力する。
音声合成部(狭帯域用)157は、狭帯域LSP復号化部153から入力された、量子化された狭帯域LSPパラメータを線形予測係数に変換し、得られた線形予測係数を用いて線形予測合成フィルタを構築する。音声合成部(狭帯域用)157は、この線形予測合成フィルタを音源復号化部(狭帯域用)152から入力される狭帯域の量子化音源信号で駆動して復号音声信号を合成し、狭帯域復号音声信号として出力する。この狭帯域復号音声信号は、広帯域復号音声信号を得るためにアップサンプル部159へ出力される。なお、この狭帯域復号音声信号は、そのまま最終出力として用いられても良い。狭帯域復号音声信号をそのまま最終出力とする場合は、ポストフィルタなど主観的な品質を改善するための後処理を行なってから出力するのが一般的である。
アップサンプル部159は、音声合成部(狭帯域用)157から入力された狭帯域音声信号のアップサンプル処理を行って加算器160へ出力する。
音源復号化部(広帯域用)154は、多重分離部151から入力された広帯域音源信号の符号化情報を、上記のスケーラブル符号化装置の音源符号化部(広帯域用)108で行われた処理と逆の処理によって復号し、得られた広帯域量子化音源信号を音声合成部(広帯域用)158へ出力する。
変換係数算出部155は、狭帯域LSP復号化部153から過去に入力された狭帯域の量子化LSPと、広帯域LSP復号化部156から過去に入力された広帯域の量子化LSPと、を用いて変換係数を求めて広帯域LSP復号化部156へ出力する。
広帯域LSP復号化部156は、狭帯域LSP復号化部153から入力される狭帯域の量子化LSPに、変換係数算出部155から入力される変換係数を乗じて広帯域LSPに変換し、この広帯域LSPに重み係数を乗じて予測広帯域LSPを求める。なお、この重み係数は、上記のスケーラブル符号化装置の広帯域LSP符号化部107で使用される重み係数と同じ値を用いる。また、広帯域LSP復号化部156は、多重分離部151から入力された広帯域LSP符号化情報から、量子化された広帯域LSP予測残差(符号化側の入力広帯域LSPと前記の予測広帯域LSPとの誤差)を復号する。そして、広帯域LSP復号化部156は、この量子化された広帯域LSP予測残差と上記において既に求まっている予測広帯域LSPとを加算し、広帯域の量子化LSPを復号する。得られた広帯域の量子化LSPパラメータは、音声合成部(広帯域用)158および変換係数算出部155に出力される。
音声合成部(広帯域用)158は、広帯域LSP復号化部156から入力された量子化された広帯域LSPパラメータを線形予測係数に変換し、得られた線形予測係数を用いて線形予測合成フィルタを構築する。音声合成部(広帯域用)158は、この線形予測合成フィルタを音源復号化部(広帯域用)154から入力される広帯域の量子化音源信号で駆動して広帯域復号音声信号(主として高域成分)を合成し、加算器160へ出力する。
加算器160は、アップサンプル部159から入力されるアップサンプル後の狭帯域復号音声信号と、音声合成部(広帯域用)158から入力される広帯域復号音声信号(主として高域成分)と、を加算し、最終的な広帯域復号音声信号を出力する。
図8は、上記の広帯域LSP復号化部156内部の主要な構成を示すブロック図である。
この広帯域LSP復号化部156は、インデックス復号部161、LSP符号帳162、重み係数符号帳163、増幅器164〜166、および加算器167を備える。
インデックス復号部161は、多重分離部151から広帯域LSPの符号化情報を取得し、LSP符号帳162用と重み係数符号帳163用のインデックス情報を復号し、各インデックス情報をそれぞれの符号帳に出力する。
LSP符号帳162は、インデックス復号部161からLSP符号帳インデックスを取得し、このインデックスで指定されるLSPベクトルを符号帳から取り出し、増幅器164に出力する。なお、符号帳がスプリット型や他段構成になっている場合は、複数のサブコードブックから指定されたベクトルを取り出してLSPベクトルを生成する。
重み係数符号帳163は、インデックス復号部161から重み係数符号帳インデックスを取得し、このインデックスで指定される重み係数セットを符号帳から取り出し、取り出した係数セットから、増幅器164用(LSP符号帳用)の係数サブセット(LSPベクトルの各次数に乗じる係数からなる)を増幅器164に、増幅器165用(狭帯域LSP用)の係数サブセット(予測広帯域LSPベクトルの各次数に乗じる係数からなる)を増幅器165に、それぞれ出力する。
増幅器164は、LSP符号帳162から入力されたLSPベクトルに、重み係数符号帳163から入力された増幅器164用の重み係数を乗じて加算器167へ出力する。
増幅器165は、増幅器166から入力される、量子化された狭帯域LSPから変換された広帯域LSPのベクトルに、重み係数符号帳163から入力された増幅器165用の重み係数を乗じて加算器167へ出力する。
加算器167は、増幅器164および増幅器165から入力されたLSPベクトルの和を計算し、量子化(復号)広帯域LSPパラメータとして音声合成部(広帯域用)158および変換係数算出部155へ出力する。なお、広帯域の量子化LSPパラメータとして出力されるLSPパラメータが、安定条件を満たしていない場合、すなわち、第n次のLSPが第0次〜第(n−1)次のいずれかのLSPよりも小さい場合(LSPが次数の順に値が大きくなっていない場合)は、LSPの安定条件を満たすように操作を加える。なお、隣接する量子化LSPの間隔が所定の間隔よりも狭い場合も所定の間隔以上になるように操作する。
なお、図7に示した変換係数算出部155の内部構成は、図6に示した変換係数算出部109と基本的に同様である。よって詳細な説明は省略するが、この変換係数算出部155内の遅延器131への入力は狭帯域LSP復号化部153から、遅延器132への入力は広帯域LSP復号化部156から、平滑化部135の出力は広帯域LSP復号化部156へとされる点は、図6に示した変換係数算出部109と異なる。
以上、本実施の形態に係るスケーラブル復号化装置について詳細に説明した。
このように、本実施の形態によれば、変換係数算出部109は、過去のフレーム(例えば、直前のフレーム等)において符号化された狭帯域および広帯域の量子化LSPパラメータを用いて、過去のフレームにおける理想的な変換係数の近似値を求め、この近似値に基づいて現フレームにおける狭帯域の量子化LSPから広帯域LSPへの変換係数を決定する。具体的には、理想的な変換係数の近似値は、過去のフレームの広帯域の量子化LSPを同じフレームの狭帯域の量子化LSPで除算することによって求められる。換言すると、狭帯域LSPパラメータから広帯域LSPパラメータに変換係数Xn(i)を乗じて推定する際、過去の狭帯域LSPパラメータと広帯域LSPパラメータとの関係を利用して適応的にフレームごとに変換係数を決定する。よって、変換係数は、時間経過と共に変化する。この構成を採ることにより、狭帯域LSPから広帯域LSPを予測する際の予測精度を高めることができる。
また、以上の構成において、上記の変換係数は、過去のフレームにおける狭帯域および広帯域の量子化LSPパラメータのみから算出可能であるので、例えば、復号化側において符号化側から情報を別途取得する必要がない。すなわち、通信の伝送レートを増加させることなしに広帯域LSPパラメータの符号化性能を改善することができる。
また、以上の構成において、上記の変換係数は、過去のフレームにおける狭帯域および広帯域のLSPパラメータから所定の演算によって直接求めることができるので、予め複数の変換係数のセットをデータテーブル等に保持しておく必要がない。
また、以上の構成において、変換係数算出部109内のリミッタ134は、算出された変換係数が極端な値とならないように、変換係数に、例えば、平均値の上下10%程度内に収まるような制限を加える。例えば、音声モードが、有声モードから無声モードへ、または無声モードから有声モードへ切り替わる等の場合には、LSPパラメータが大きく変動するため、算出される変換係数も変動して妥当な値とはならないことがある。変換係数が短時間のうちに大きく変動する場合は、前フレームの広帯域/狭帯域のLSP比を用いた予測が効かなくなり、むしろ誤差を大きくする方向に働く。するとLSP符号帳の方でそのように大きくなった誤差を修正しようとすることになるが、そのように誤差の大きいベクトルを符号帳に備えることは、予測誤差が小さい場合の誤差を増大させることになる。つまり、変換係数とLSP符号帳との間の関係が一種の発振状態に陥るので、このようにならぬ様、両者のバランスをうまくとれるような構成にする必要がある。
そこで、本実施の形態では、まず、全てのフレームに対し上記の演算式に従って変換係数を求めるが、変換係数には上限および下限を設けておいて、算出された変換係数がこの範囲内に入っていない場合には変換係数をこの範囲内に収める修正を行う。これにより、変換に実際に使用される変換係数を一定範囲内の値とすることができるので、変換係数の定常性(もしくは準定常性)が保証され、発振状態になることがなくなる。これにより、変換係数による予測能力が制限され、予測誤差が大きくなることもあるが、変換係数を固定値とする場合の「固定値」の近傍に範囲限定すれば、予測誤差が変換係数を固定値とする場合を大きく上回るようなことはなく、変換係数を固定値とする場合と同様にLSP符号帳側で対応することが可能である。変換係数の近似値は、直前フレームの広帯域量子化LSPを直前フレームの狭帯域の量子化LSPで除算することによって求められ、現フレームで用いられる変換係数は、近似値を平均的な変換係数の近傍(例えば前後10%程度の範囲または変換係数の標準偏差程度の範囲)に限定することによって得られる。
また、以上の構成において、上記の変換係数は、時間的に緩やかに変動するように分析フレーム間で(前後のフレーム間で)平滑化処理が施される。このため、変換係数は、LSPパラメータの変動に対し緩やかに推移し、伝送路誤りに対して過剰にセンシティブとなることを防止できる。また、変換係数の値が安定するため、対応するLSPコードベクトル符号帳の設計が容易となる。量子化LSPの予測値は、変換係数とLSPコードベクトルとの積で表されているため、一方のパラメータが暴れると他方のパラメータも暴れ、お互いの関係が発散状態(前述した発振状態)に陥り、性能の良い符号帳を設計できなくなるためである。上記の構成とすることで、例えばSD性能を0.05dB改善することができる。なお、この改善幅は、量子化ビット数やフレーム長によって変わってくる。
なお、本実施の形態では、MA予測型LSP符号化器を使用しない例を示したが、MA予測器を用いた場合にも本発明は適用可能である。かかる場合、MA予測係数は重み係数符号帳163に格納され、重み係数ベクトルの次元数がMA予測次数の分だけ増えることになる。
また、本実施の形態では、変換係数算出部109が、リミッタ134および平滑化部135の双方を備える場合を例にとって説明したが、これらは一方のみを備えるような構成であっても良い。
(実施の形態2)
実施の形態1では、算出される変換係数が大きく変動する場合に、変換係数を一定範囲内に収める修正を行うことにより、狭帯域LSPから広帯域LSPを予測する際の予測が安定して行なわれるようにした。本実施の形態では、量子化LSPパラメータに着目し、この量子化LSPパラメータの変化を観測することにより、LSPパラメータが変動しているかいないかを判断し、変換に使用する変換係数を切り替える。
具体的には、符号化側の狭帯域LSP符号化部または復号化側の狭帯域LSP復号化部で得られる狭帯域の量子化LSPパラメータに着目し、この狭帯域の量子化LSPパラメータが変動していない場合には定常モードと、狭帯域の量子化LSPパラメータが変動している場合には非定常モードと判定し、このモードの判定結果に従い、LSP符号帳と重み係数符号帳とを切り替えて使用する。すなわち、定常モードでは、変換係数をフレームごとに上記の演算式(式2)に従って算出することにより適応的な制御を行い、一方、非定常モードでは、上記の(式3)を用いて、変換係数を固定値または準固定値に設定する。ここで準固定値とは、予め複数の変換係数を設定しておいて、音声信号の符号化結果(音質)に応じて変換係数を切り替えることを意味している。すなわち、固定値の変換係数セットを複数種類持っていて、量子化時に最適なものを1つ選んで使用する。
以下、本実施の形態について、添付図面を参照して具体的に説明する。
本発明の実施の形態2に係るスケーラブル符号化装置の基本的構成は、実施の形態1に係るスケーラブル符号化装置と同様である。よって、本実施の形態に係るスケーラブル符号化装置の詳細な説明は省略し、異なる構成である変換係数算出部109aおよび広帯域LSP符号化部107aについて以下詳細に説明する。なお、同一の構成要素には同一の符号を付し、その説明を省略する。
図9は、変換係数算出部109a内部の主要な構成を示すブロック図である。
この変換係数算出部109aは、リミッタ134の代わりに、モード判定部201、係数テーブル202、および切り替えスイッチ203を備える。変換係数算出部109aは、算出した変換係数と係数テーブルに予め保存してある変換係数とを、モード判定部201のモード判定結果によって切り替えて使用する。
モード判定部201は、狭帯域LSP符号化部103から入力された狭帯域の量子化LSPと、遅延器131の出力である1処理単位時間だけ前に量子化された狭帯域LSPとの距離(変化量)を計算し、計算した距離に基づいて、定常モードか非定常モードかを判定する。例えば、計算した距離が予め設定した閾値以下である場合は定常モード、閾値を越えた場合は非定常モードと判定する。判定結果は、広帯域LSP符号化部107aおよび切り替えスイッチ203に出力される。なお、計算した距離は、そのまま閾値判定に用いても、フレーム間で平滑化してから閾値判定に用いても良い。
切り替えスイッチ203は、モード判定部201の判定結果が定常モードであった場合、平滑化部135から出力される変換係数を広帯域LSP符号化部107aに出力し、一方、モード判定部201の判定結果が非定常モードであった場合、係数テーブルに格納されている変換係数を広帯域LSP符号化部107aに出力するように切り替えられる。
LSPパラメータが定常的な値を示す場合は、現フレームの広帯域/狭帯域のLSPパラメータ比と前フレームの広帯域/狭帯域の量子化LSPパラメータの比とが近くなるので、(式2)を用いた量子化を適用することで、狭帯域LSPパラメータから広帯域LSPパラメータを予測する際の予測精度を向上させ、量子化性能を改善させる。
図10は、上記の広帯域LSP符号化部107a内部の主要な構成を示すブロック図である。
LSP符号帳と重み係数符号帳とがそれぞれモード数分(ここでは2つ)のサブ符号帳から構成されていて(LSP符号帳222−1、222−2、重み係数符号帳223−1、223−2)、モード判定部201から入力されるモード情報に基づいて、切り替えスイッチ224、225がそれぞれサブ符号帳の1つを選択する構成となっている。
本発明の実施の形態2に係るスケーラブル復号化装置の基本的構成も、実施の形態1に係るスケーラブル復号化装置と同様である。よって、詳細な説明は省略し、異なる構成である変換係数算出部155aおよび広帯域LSP復号化部156aについて以下説明する。なお、同一の構成要素には同一の符号を付し、その説明を省略する。
変換係数算出部155aの内部構成は、図9に示した変換係数算出部109aと基本的に同様である。よって詳細な説明は省略するが、遅延器131への入力は狭帯域LSP復号化部153から、遅延器132への入力は広帯域LSP復号化部156aから、平滑化部135の出力は広帯域LSP復号化部156aへとされる点は、図9に示した変換係数算出部109aと異なる。また、モード判定部の付番は、符号化側のモード判定部201と区別するため、便宜上251とする。
図11は、上記の広帯域LSP復号化部156a内部の主要な構成を示すブロック図である。
LSP符号帳と重み係数符号帳とがそれぞれモード数分(ここでは2つ)のサブ符号帳から構成されていて(LSP符号帳262−1、262−2、重み係数符号帳263−1、263−2)、モード判定部251から入力されるモード情報に基づいて、切り替えスイッチ264、265がそれぞれサブ符号帳の1つを選択する構成となっている。
このように、本実施の形態によれば、入力された未量子化の広帯域LSPまたは現フレームで量子化された狭帯域LSPの定常性を判定し、定常的である(フレーム間の変動が小さい)と判定された場合のみ選択的に前記算出された変換係数を用い、非定常(フレーム間の変動が大きい)と判定された場合には別途テーブルに格納された変換係数を用いる。換言すると、算出された変換係数と予め設計してテーブルに格納しておいた変換係数とを、LSPパラメータの定常性に基づいて切り替える。
上記の構成を採ることにより、狭帯域LSPから広帯域LSPを予測する際の予測精度を向上させることができる。また、LSPパラメータの変動を符号化後の量子化LSPパラメータを用いて判断するので、復号側は、符号化側からモード情報を送信されなくともLSPパラメータの変動を判断することができる。符号化側からモード情報を送信する必要もなくなるので、通信システムのリソースを消費することもない。
(実施の形態3)
実施の形態2では、狭帯域の量子化LSPパラメータの変化を観測し、LSPパラメータの変動の有無を判断(モード判定)している。しかし、狭帯域の量子化LSPパラメータが変動状態にない場合でも、広帯域の量子化LSPパラメータの方は変動している場合がある。
また、復号化側では、過去のモード判定結果に基づいて現フレームの復号化を行うので、実施の形態2の方法では、過去のモード判定が誤っていると、その誤りが後の処理に伝播する。
そこで、本実施の形態では、符号化側は、広帯域LSPパラメータを用いてモード判定を行うモード判定部を新たに設置し、得られるモード判定結果を復号化側に送信する。復号化側は、このモード判定結果を復号化するモード復号部を新たに設置する。
以下、本実施の形態について、添付図面を参照して具体的に説明する。
図12は、本発明の実施の形態3に係るスケーラブル符号化装置の主要な構成を示すブロック図である。なお、このスケーラブル符号化装置は、実施の形態1に示したスケーラブル符号化装置(図4参照)と同様の基本的構成を有しており、同一の構成要素には同一の符号を付し、その説明を省略する。
モード判定部301は、基本的には、実施の形態2に示したモード判定部201(251)と同様の動作をする。すなわち、1処理単位時間遅延されたLSPパラメータと現在のLSPパラメータとの距離計算を行い、この距離が予め設定しておいた閾値以下の場合は定常モードと、閾値を越えた場合は非定常モードと判定する。しかし、入力情報として用いるものは、LSP分析部(広帯域用)106から出力される広帯域LSPパラメータである点が実施の形態2と異なる。モード判定部301の判定結果は、変換係数算出部109bと広帯域LSP符号化部107aに出力され、モード情報の符号化情報は多重化部112に出力される。なお、広帯域LSP符号化部107aは、実施の形態2で既に説明したものである。
このように、モード判定部301は、符号化済みの情報(量子化LSPパラメータ)でなく、広帯域LSPパラメータを用いて定常/非定常を判定するので、広帯域信号の高域部のみに変動が大きい信号にも対応可能となる。
また、モード判定部301は、得られるモード結果を他の符号化パラメータと共に多重化して復号化側に送信している。このように、モード情報を復号化側に伝送するので、復号化側でモード情報の判定を一度誤っても、後続フレームでは、次のモード情報が送信されてくるので、前フレームの判定誤りの影響が伝播せず、伝送路誤り耐性が改善する。
図13は、変換係数算出部109b内部の主要な構成を示すブロック図である。なお、この変換係数算出部109bは、実施の形態2の図9に示した変換係数算出部109aと同様の基本的構成を有しており、異なる点のみを以下説明する。
変換係数算出部109bは、モード判定部を内部に備えず、モード判定結果のみを外部から入力する。そして、変換係数算出部109bは、入力されるモード判定結果に従って切り替えスイッチを切り替える。具体的には、定常モードの時は、平滑化部135から出力される変換係数が広帯域LSP符号化部107aへ出力されるように切り替えスイッチ203が切り替えられる。非定常モードのときは、予めオフラインの学習等によって設計された変換係数を係数テーブル202から広帯域LSP符号化部107aへ出力されるように切り替えスイッチ203が切り替えられる。
図14は、本発明の実施の形態3に係るスケーラブル復号化装置の主要な構成を示すブロック図である。
このスケーラブル復号化装置も、実施の形態1に示したスケーラブル復号化装置(図7参照)と同様の基本的構成を有しており、同一の構成要素には同一の符号を付し、その説明を省略する。実施の形態1に示したスケーラブル復号化装置と異なる点は、モード復号部351を新たに有し、本実施の形態に係るスケーラブル符号化装置のモード判定部301の出力情報を復号して、復号情報を変換係数算出部155bおよび広帯域LSP復号化部156aへ出力することである。なお、変換係数算出部155bも符号化側の変換係数算出部109b(図13参照)と同様の基本的構成を有している。
なお、本実施の形態では、LSPパラメータの時間的変化に基づいてモード判定を行う場合を説明したが、変換係数の変換利得に基づいてモード判定を行っても良い。この変換係数の変換利得は、前フレームの「広帯域量子化LSP/狭帯域量子化LSP」比と現フレームの「入力広帯域LSP/狭帯域量子化LSP」比がどれだけ近いかを表している。
(実施の形態4)
本実施の形態の特徴は、モード情報を符号化側が復号化側に送信せずに、モード判定を符号化側の狭帯域LSP符号化部または復号側の狭帯域LSP符号化部の内部で行うことである。
図15は、本発明の実施の形態4に係るスケーラブル符号化装置の主要な構成を示すブロック図である。なお、このスケーラブル符号化装置は、実施の形態3に示したスケーラブル符号化装置(図12参照)と同様の基本的構成を有しており、同一の構成要素には同一の符号を付し、その説明を省略する。
本実施の形態に係るスケーラブル符号化装置は、狭帯域LSP符号化部103cがマルチモード符号化を行っており、そのモード情報(S41)を利用して変換係数算出部109bのモード切り替え、および広帯域LSP符号化部107aのモード切り替えが行われる。
狭帯域LSP符号化部がLSPの定常性でモード切替を行なう技術としては、例えばT.Eriksson,J.Linden,and J.Skoglund,“Exploiting interframe correlation in spectral quantization−A study of different memory VQ schemes,”Proc.IEEE ICASSP−96,pp.765−768,1996等に記載がある。この文献では、フレーム間相関の強い(定常性の高い)フレームとそうでないフレームとの双方に対応するために、フレーム間予測を用いるモードとそうでないモードとを切り替える「Safty−net VQ」という手法を提案している。このような量子化器を狭帯域LSP符号化部に用いれば、そのモード情報を広帯域LSP符号化部・変換係数算出部のモード切り替え情報として利用することが可能である。
図16は、本発明の実施の形態4に係るスケーラブル復号化装置の主要な構成を示すブロック図である。なお、このスケーラブル復号化装置も、実施の形態3に示したスケーラブル復号化装置(図14参照)と同様の基本的構成を有しており、同一の構成要素には同一の符号を付し、その説明を省略する。
本実施の形態に係るスケーラブル復号化装置では、狭帯域LSP復号化部153cにモード情報復号機能が備えられている。すなわち、狭帯域LSP復号化部153cが、マルチモードの復号化を行なっており、そのモード情報(S42)を変換係数算出部155bおよび広帯域LSP復号化部156aへ出力する。変換係数算出部155bおよび広帯域LSP復号化部156aでは、狭帯域LSP復号化部153cから入力されたモード情報(S42)を用いて、モード切替を行なう。
このように、本実施の形態によれば、狭帯域LSP符号化情報のモード情報を用いて広帯域LSP符号化のモードを切り替えるので、追加のビットなしに、広帯域LSP符号化部、広帯域LSP復号化部、または変換係数部のモード切り替えを行うことができる。また、モード情報が伝送されるため、伝送路誤りがあった場合でも誤りの影響が後続フレームに伝播することを防止できる。
(実施の形態5)
実施の形態3では、モード判定は、LSPの量子化に先立って行なわれ、このモード判定結果に基づいて探索する符号帳を切り替えている。すなわち、モード判定は量子化前に開ループで行なわれるため、必ずしも量子化誤差を最小にするモードが選択されるとは限らない。例えば、実施の形態3のモード判定は、量子化前のLSPパラメータに基づいて行われているが、量子化前のLSPパラメータが変動しているからと言って、必ずしも、量子化後のLSPパラメータも変動するとは限らないし、量子化前のLSPパラメータが定常的であるからと言って、必ずしも、量子化後のLSPパラメータが定常的であるとも限らない。また、一部の次数のLSPパラメータが定常であっても、残りの次数のLSPパラメータが非定常であれば、全次数で変化を見た場合には定常と判定されることもある。このように、開ループでモード判定を行なう場合は、確実に量子化誤差を最小とするモードを選択することが難しい。
そこで、本実施の形態では、開ループでモードを判定するのではなく、閉ループでモード判定を行う。すなわち、定常モード/非定常モードについて、2以上のモードがある場合は全モードについて符号帳探索を実際に行ってみて、この結果に基づいて量子化誤差(量子化歪み)を最小とするモードを選択する。さらに換言すると、広帯域LSP符号化部において、変換係数を求めて広帯域LSPを量子化するモードと、予め定めておいた固定の変換係数を用いて広帯域LSPを量子化するモードと、の双方のモードを用いて量子化を実際に行い、量子化誤差の小さくなる方のモードで量子化した結果を最終的な量子化結果として選択する。
以下、本実施の形態について、添付図面を参照して具体的に説明する。
図17は、本発明の実施の形態5に係る広帯域LSP符号化部107dの主要な構成を示すブロック図である。なお、この広帯域LSP符号化部107dは、実施の形態2に示した広帯域LSP符号化部107a(図10参照)と同様の基本的構成を有しており、同一の構成要素には同一の符号を付し、その説明を省略する。
誤差最小化部121dは、全モードの符号帳探索を行い、全てのモードの符号帳の中から量子化誤差を最小とするLSPベクトルおよび重み係数ベクトルを、LSP符号帳222−1、222−2、重み係数符号帳223−1、223−2のそれぞれの中から選択し、対応するインデックスを符号化して多重化部112に出力する(S11)。このとき、選択されたLSPベクトル、および重み係数ベクトルが生成されるモード情報(どのモードの符号帳から選択されたかを示す情報)S51も多重化部112に出力される。
図18は、本発明の実施の形態5に係る変換係数算出部109dの主要な構成を示すブロック図である。なお、この変換係数算出部109dは、実施の形態2に示した変換係数算出部109a(図9参照)と同様の基本的構成を有しており、同一の構成要素には同一の符号を付し、その説明を省略する。
変換係数算出部109dは、広帯域LSP符号化部107d内の誤差最小化部121dから出力される制御信号C51によって、使用する予測係数を切り替える。すなわち、変換係数算出部109dは、制御信号C51によって量子化LSPを(式2)で表すか(式3)で表すかを切り替える。
このように、変換係数算出部109dは、実際に量子化を行なってみて、この量子化結果に基づいて、(式3)を用いた量子化を行なうか否かを決定する。よって、(式3)の量子化によって確実に性能が良くなることが期待されるフレームに対してだけ(式3)を用いるモードが選択されるので、高い予測性能を得ることができる。
また、本実施の形態によれば、前フレームの広帯域/狭帯域の量子化LSPパラメータ比と、現フレームの広帯域/狭帯域のLSPパラメータ比とが近いフレームに対してのみ、(式3)による量子化が行なわれることとなる。すなわち、広帯域/狭帯域LSPパラメータが定常と判断されるフレームに対してではなく、広帯域/狭帯域LSPパラメータ比が定常と判断されるフレームに対して(式3)による量子化が行なわれる。よって、誤り耐性を向上させることができる。何故なら、本実施の形態によれば、(式3)による量子化モードが選択され続ける区間においては、広帯域/狭帯域の量子化LSPパラメータ比が定常であることがほぼ保障される。よって、例えば、直前のフレームが誤った場合、2フレーム前、もしくはさらにもっと前のフレームの広帯域/狭帯域の量子化LSPパラメータ比を用いて近似を行うことが可能だからである。一方、LSPパラメータが定常であるか否かによってモード判定を行う場合、LSPパラメータが定常であっても必ずしも広帯域/狭帯域の量子化LSPパラメータ比が定常であるとは限らない。よって、直前のフレームが誤った場合、このフレームの代わりに、定常ではない可能性のある2フレーム前の広帯域/狭帯域の量子化LSPパラメータ比を近似値として用いてしまうおそれがある。このとき、誤りがない場合の復号結果とは大きく異なる復号結果を得てしまうこととなる。
また、本実施の形態によれば、直前のフレームが誤った場合、(式2)によるモードが選択されることになる。よって、この段階で予測符号化がリセットされることとなるので、誤りが後続フレームに伝播することを防止でき、誤り耐性がより高まる。
図19は、上記の広帯域LSP符号化部107dおよび変換係数算出部109dを備えた、本発明の実施の形態5に係るスケーラブル符号化装置の主要な構成を示すブロック図である。広帯域LSP符号化部107dから出力される信号(S11、S51)が実施の形態1〜4で示したスケーラブル符号化装置と異なっている。
本実施の形態に係るスケーラブル復号化装置の構成は、実施の形態3に示したスケーラブル復号化装置(図14参照)と同様であるので、説明を省略する。
以上、本実施の形態に係るスケーラブル符号化装置およびスケーラブル復号化装置について説明した。
(実施の形態6)
実施の形態1〜5に係る発明は、前フレームの量子化結果を積極的に利用して現フレームの予測を行うため、量子化性能を高くできる。よって、伝送路誤りのない、またはほとんどないアプリケーションに特に有効である。しかし、実施の形態1〜5では、伝送路誤りが発生すると、後続フレームに誤りが比較的長時間伝播する可能性がある。具体的には、実施の形態1〜5では、過去の狭帯域量子化LSPと広帯域量子化LSPとの関係を利用して現在の狭帯域量子化LSPから広帯域量子化LSPを予測するため、伝送路誤りが発生した場合、符号化装置と復号化装置とで異なる量子化結果が生成する可能性がある。かかる場合、復号化装置では、後続フレームにおける予測が正しく行われなくなるため、後続フレームに誤りが伝播する。ただし、実施の形態2〜5においてこのような誤り伝播が生じるのは、過去の量子化LSPを利用した予測を用いるモードが連続し、かつ、この連続するフレームにおいて伝送路誤りが発生した場合に限定される。
このような場合の改善手法として、過去の量子化結果に依存する予測に「忘却要素」を組み込む手法が知られている(例えば、Allen Gersho,Robert M.Gray著、古井,田崎,小寺,渡辺共訳、「ベクトル量子化と情報圧縮」、第16章、698頁〜、小節「利得適応VQにおける伝送誤り」、コロナ社、1998年11月10日発行を参照)。この忘却要素を組み込む手法によれば、過去の量子化結果に依存する予測(適応予測モード成分)と過去の量子化結果に依存しない予測(固定予測モード成分)との和を用いて現在の狭帯域量子化LSPから現在の広帯域量子化LSPを予測する。よって、適応予測モード成分と固定予測モード成分との比率を最適化することにより、互いにトルードオフの関係にある、適応予測モード成分に由来する量子化性能改善効果と、固定予測モード成分に由来する誤り耐性劣化抑制効果との調和を図ることができる。
本発明の実施の形態6では、実施の形態5において前記忘却要素を組み込む手法を適用することにより、伝送路誤りが発生した場合でも、伝送路誤りの影響を軽減する。すなわち、現フレームの広帯域量子化LSPの算出において、前フレームの量子化結果を利用した適応予測モード成分と、過去のフレームの量子化結果を利用しない固定予測モード成分(固定値)とを組み合わせて用いる。これにより、適応予測モードのフレームで伝送路誤りが発生した場合でも、固定値の使用によって適応予測成分を時間の経過とともに忘却させ、符号化装置と復号化装置との内部状態が時間の経過とともに近づくようにすることができ、伝送路誤りの影響が軽減する。さらに、本実施の形態では、固定予測だけを行うモードを備えるので、固定予測モードに切り替わったフレームにおいて符号化装置および復号化装置の内部状態が共にリセットされ、伝送路誤りの影響の後続フレームへの伝播が回避され、誤り耐性が改善される。
図20は、本実施の形態に係る広帯域LSP符号化部107eの主要な構成を示すブロック図である。また、図21は、本実施の形態に係る変換係数算出部109eの主要な構成を示すブロック図である。なお、この広帯域LSP符号化部107eおよび変換係数算出部109eは、実施の形態5において、広帯域LSP符号化部107d(図17参照)および変換係数算出部109d(図18参照)の代わりに使用されるものである。従って、本実施の形態では、スケーラブル符号化装置およびスケーラブル復号化装置について、広帯域LSP符号化部107eと変換係数算出部109eとに限り説明する。さらに、本実施の形態では、広帯域LSP符号化部107eおよび変換係数算出部109eの構成要素について、広帯域LSP符号化部107dおよび変換係数算出部109dの構成要素と同様の機能を発揮する構成要素には同一の符号を付して、その説明を省略する。
広帯域LSP符号化部107eにおいて、増幅器126−1は、狭帯域LSP符号化部103から入力されたLSPパラメータに、変換係数算出部109eにおける係数テーブル202−2から入力された変換係数を乗じて、その乗算結果を増幅器125−1へ出力する。一方で、増幅器126−2は、狭帯域LSP符号化部103から入力されたLSPパラメータに対して、定常モード(適応予測モード)の場合には変換係数算出部109eにおける平滑化部135から出力される変換係数を乗じて、また非定常モード(固定予測モード)の場合には係数テーブル202−1に格納されている変換係数を乗じて、その乗算結果を増幅器125−2へ出力する。従って、増幅器126−1、126−2が、本発明における乗算手段を構成することになる。
また、広帯域LSP符号化部107eにおいて、増幅器125−1、125−2はそれぞれ、増幅器126−1、126−2から入力されてくる広帯域LSPのベクトル、すなわち狭帯域量子化LSPを変換して得られる広帯域LSPのベクトルに対して、重み係数符号帳223−1、223−2から出力される既定の重み係数を乗じて、その乗算結果を加算器128へ出力する。そして、加算器128は、増幅器124と増幅器125−1、125−2とから出力されたLSPベクトルの和を計算し、その加算結果を加算器127へ出力する。
このように、本実施の形態では、増幅器126−1および増幅器125−1、125−2が現フレームの狭帯域量子化LSPに対して固定変換係数を常に乗じることになる。すなわち、増幅器126−1、125−1を介して加算器128へ入力される信号は、狭帯域LSP符号化部103から入力される狭帯域量子化LSPが、過去に発生した伝送路誤りの影響を受けない限り、過去に発生した伝送路誤りの影響を受けない。また、固定予測モードでの予測では、増幅器126−2も固定変換係数を前記狭帯域量子化LSPに乗じるので、前後フレームとの間で情報のやり取りが行われず、過去に発生した伝送路誤りの影響が後続フレームに伝播しない。これらの結果、本実施の形態によれば、伝送路誤りが発生した場合でも、その誤りの影響が後続フレームに伝播することを抑制し、誤り耐性を改善することができる。
なお、本実施の形態では、変換係数算出部109eに2つの係数テーブル202−1、202−2を配置し、これに対応させて広帯域LSP符号化部107eに2つの増幅器126−1、126−2を配置する場合について説明したが、本発明はこの場合に限定されるものではなく、さらに多くの係数テーブル202および増幅器126を配置するようにしても良い。
また、本実施の形態では、変換係数算出部109eにおける係数テーブル202−1、202−2がそれぞれ別個である場合について説明したが、本発明はこの場合に限定されるものではなく、例えば変換係数算出部109eにおいて係数テーブル202が1つしか配置されず、この係数テーブル202から同一の変換係数が広帯域LSP符号化部107eにおける2つの増幅器126−1、126−2にそれぞれ入力されるようにしても良い。
また、本実施の形態では、変換係数算出部109eが平滑化部135を必要とする場合について説明したが、本発明はこの場合に限定されるものではなく、例えば平滑化部135を配置せず、除算器133の出力をそのまま切替スイッチ203へ接続する構成としても良い。このような構成にすれば、切替スイッチ203が一旦係数テーブル202−1側に切り替わると、伝送路誤りの伝播を完全にリセットすることができる。
なお、変換係数算出部109eが平滑化部135を備える場合であっても、直前フレームが固定予測モードである(すなわち、切替スイッチ203が係数テーブル202−1側に接続される)場合は、(式4)におけるKを0にして、換言すればXn(i)=γ(i)として、現フレームの狭帯域量子化LSPに適用される変換係数を求めるようにすれば、同様に伝送路誤りの伝播を完全にリセットすることができる。
また、図21に示した変換係数算出部109eは、実施の形態3に示したスケーラブル復号化装置(図14参照)における変換係数算出部155bの代わりに使用することもできる。
ちなみに、音声信号の主要成分はその低域に集まる傾向があるため、音声信号の低域成分について広帯域量子化LSPを予測する場合は、適応予測モード成分の構成比率が低くなるように(例えば50%以下となるように)重み係数を設計し、一方で音声信号の高域成分について広帯域量子化LSPを予測する場合には、適応予測モード成分の構成比率が高くなるように(例えば50%以上となるように)重み係数を設計すれば、主観的な品質における誤り耐性と量子化性能との調和を図ることができる。
(実施の形態7)
本発明の実施の形態7では、実施の形態6において、狭帯域量子化LSPの誤り感度に基づいて、広帯域量子化LSPの予測における固定予測モード成分と適応予測モード成分との比率をフレーム毎に適応的に決定する。すなわち、実施の形態6では、重み係数符号帳223−1、223−2から出力される重み係数が既定値であったが、本実施の形態では、定常モードである場合に選択される重み係数符号帳223−1を、現フレームの狭帯域量子化LSPから算出される重み係数で逐次更新する。
ここで、LSPの量子化においては、スペクトルの山の部分にあるLSPと谷の部分にあるLSPとで主観的に許容される量子化雑音のレベルが異なることを利用するために、量子化誤差を算出するときに「重み」を乗じた重み付きユークリッド距離で量子化誤差を評価する手法が知られている。この「重み」を誤り感度に対応する尺度として用いれば、フレーム毎に狭帯域量子化LSPから「重み」を算出し、算出した「重み」に応じて適応的に広帯域量子化LSPの予測における固定予測モード成分と適応予測モード成分との比率を変化させることができる。その結果、トレードオフの関係にある誤り耐性と量子化性能との調節をフレーム毎に図れるようになる。
図22は、本実施の形態に係る広帯域LSP符号化部107fの主要な構成を示すブロック図である。なお、この広帯域LSP符号化部107fは、実施の形態6において、広帯域LSP符号化部107e(図20参照)の代わりに使用されるものである。従って、本実施の形態では、スケーラブル符号化装置について、広帯域LSP符号化部107fに限り説明する。さらに、本実施の形態では、広帯域LSP符号化部107fの構成要素について、広帯域LSP符号化部107eの構成要素と同様の機能を発揮する構成要素には同一の符号を付して、その説明を省略する。
広帯域LSP符号化部107fは、実施の形態6で示した広帯域LSP符号化部107eにおいて、重み係数算出器2201をさらに具備するものである。重み係数算出器2201は、「誤り感度に応じた重み付け」をフレーム毎に行うものであり、狭帯域LSP符号化部103から入力された狭帯域量子化LSPに基づいて、例えば「R.Salami et al,“Design and Description of CS−ACELP:A Toll Quality 8 kb/s Speech Coder,”IEEE Trans.on Speech and Audio Process.,vol.6,no.2,pp.116−130,March 1998.」の(9)式や「K.K.Paliwal and B.S.Atal,“Efficient Vector Quantization of LPC Parameters at 24 Bits/Frame,”IEEE Trans.on Speech and Audio Process.,vol.1,no.1,pp.3−14,January 1993.」の(9)式に記載された重みを算出し、算出した重みを用いて重み係数符号帳223−1用の重み係数を算出する。そして、重み係数算出器2201は、フレーム毎に算出した重み係数で重み係数符号帳223−1の重み係数符号帳の内容を逐次更新する。また、本実施の形態では、重み係数算出器2201は、算出した重みが大きいほど(誤り感度が大きいほど)、広帯域量子化LSPの予測における固定予測モード成分の比率を高く設定し(例えば固定予測モード成分の比率を50%以上に設定し)、一方でその重みが小さいほど、量子化性能が良くなるように学習を行う。そして、この学習によって得られる最適構成比(一般に適応予測モード成分の比率が高くなる)に近づくように、重み係数算出器2201は、重み係数符号帳223−1の内容を更新する。
このように、本実施の形態によれば、重み係数算出器2201が現フレームの狭帯域量子化LSPの誤り感度に基づいて定常モードで選択される重み係数符号帳223−1の内容を逐次更新するため、現フレームの広帯域量子化LSPの予測における固定予測モード成分と適応予測モード成分との比率を最適化することにより、誤り耐性の劣化を抑えつつ量子化性能を最大化することができる。例えば、重み係数算出器2201が、広帯域量子化LSPの予測において固定予測モード成分の比率を100%とすれば、すなわち狭帯域量子化LSPに固定変換係数を乗じる増幅器126−1に連結された増幅器125−1の重みの比率を100%とし、かつ、増幅器125−2の比率を0%とすれば、誤り耐性を改善することができる。一方、重み係数算出器2201が、適応予測モード成分の比率を100%とすれば、誤り耐性が劣化する代わりに量子化性能を改善することができる。また、重み係数算出器2201が、固定予測モード成分と適応予測モード成分との比率を例えば50%、50%とすれば、適応予測モード成分に由来する量子化性能改善効果が生じ、この効果と共に、固定予測モード成分によって伝送路誤りの影響が広帯域LSP符号化部107fにおける計算回数に応じて希薄化するため、その伝送路誤りの影響を後続フレームに伝播し難くすることができる。
また、本実施の形態によれば、重み係数符号帳223−1の内容が重み係数算出器2201によってフレーム毎に逐次更新されるため、狭帯域量子化LSPの誤り感度がフレーム毎に遷移する場合でも、互いにトレードオフの関係にある適応予測モード成分に由来する量子化性能改善効果と固定予測モード成分に由来する誤り耐性劣化抑制効果との調和を適応的に図ることができる。
ちなみに、音声信号の場合には、その高域成分についてLSPパラメータを誤っても主観品質への影響が比較的小さいことから、重み係数算出器2201は、その低域成分について固定予測モード成分の比率が高くなるように、一方でその高域成分について適応予測モード成分の比率が高くなるように、重み係数を決定することが好ましい。
なお、本実施の形態では、重み係数乗算器2201が狭帯域量子化LSPの誤り感度に基づいて重み係数符号帳223−1用の重み係数を算出する場合について説明したが、本発明はこの場合に限定されるものではなく、例えば重み係数乗算器2201がオフラインでの学習データから重み係数符号帳223−1用の重み係数を算出するようにしても良い。
以上、本発明の各実施の形態について説明した。
本発明に係るスケーラブル符号化装置およびスケーラブル復号化装置は、上記各実施の形態に限定されず、種々変更して実施することが可能である。例えば、各実施の形態は、適宜組み合わせて実施することが可能である。
本発明に係るスケーラブル符号化装置およびスケーラブル復号化装置は、移動体通信システムにおける通信端末装置および基地局装置に搭載することも可能であり、これにより上記と同様の作用効果を有する通信端末装置および基地局装置を提供することができる。
なお、ここでは、LSPパラメータを符号化/復号化する場合について説明したが、ISP(Immittance Spectrum Pairs)パラメータについても本発明は適用可能である。
また、LSPの余弦をとったもの、すなわち、LSPをL(i)とした場合のcos(L(i))を特にLSF(Line Spectral Frequency)と呼び、LSPと区別する場合もあるが、本明細書では、LSFはLSPの一形態であり、LSPにLSFは含まれるものとしてLSPという用語を用いている。すなわち、LSPをLSFと読み替えても良い。
また、ここでは、1フレーム前の広帯域/狭帯域の量子化LSPパラメータの比を現フレームにおける狭帯域−広帯域変換係数としたが、さらに過去のフレームの広帯域/狭帯域の量子化LSPパラメータの比を時系列的に用いて、現フレームの広帯域/狭帯域の量子化LSPパラメータの比を予測あるいは外挿的に求め、求められた値を現フレームの狭帯域−広帯域変換係数として用いても良い。
また、ここでは、モードが定常モード/非定常モードの2つのモードからなる場合を例にとって説明したが、モードは3つ以上であっても良い。
また、ここでは、帯域スケーラブル符号化のレイヤが2つである場合、すなわち、狭帯域および広帯域の2つの周波数帯域からなる帯域スケーラブル符号化または帯域スケーラブル復号化を例にとって説明したが、本発明は、3つ以上の周波数帯域(レイヤ)からなる帯域スケーラブル符号化または帯域スケーラブル復号化においても適用できる。
また、ここでは、本発明をハードウェアで構成する場合を例にとって説明したが、本発明はソフトウェアで実現することも可能である。例えば、本発明に係るスケーラブル符号化方法またはスケーラブル復号化方法のアルゴリズムをプログラミング言語によって記述し、このプログラムをメモリに記憶しておいて情報処理手段によって実行させることにより、本発明のスケーラブル符号化装置またはスケーラブル復号化装置と同様の機能を実現することができる。
また、上記各実施の形態の説明に用いた各機能ブロックは、典型的には集積回路であるLSIとして実現される。これらは個別に1チップ化されてもよいし、一部または全てを含むように1チップ化されても良い。
また、ここでは、LSIとしたが、集積度の違いによって、IC、システムLSI、スーパーLSI、ウルトラLSIと呼称されることもある。
また、集積回路化の手法はLSIに限るものではなく、専用回路または汎用プロセッサで実現しても良い。LSI製造後に、プログラムすることが可能なFPGA(Field Programmable Gate Array)や、LSI内部の回路セルの接続もしくは設定を再構成可能なリコンフィギュラブル・プロセッサーを利用しても良い。
さらには、半導体技術の進歩または派生する別技術により、LSIに置き換わる集積回路化の技術が登場すれば、当然、その技術を用いて機能ブロックの集積化を行っても良い。バイオ技術の適応等が可能性としてあり得る。
本明細書は、2004年4月27日出願の特願2004−132113および2004年9月6日出願の特願2004−259036に基づく。これらの内容はすべてここに含めておく。
本発明に係るスケーラブル符号化装置、スケーラブル復号化装置、スケーラブル符号化方法、およびスケーラブル復号化方法は、移動体通信システムやインターネットプロトコルを用いたパケット通信システム等における通信装置の用途に適用できる。
本発明は、移動体通信システムやインターネットプロトコルを用いたパケット通信システム等において、音声通信を行う際に用いられるスケーラブル符号化装置、スケーラブル復号化装置、スケーラブル符号化方法、およびスケーラブル復号化方法に関する。
VoIP(Voice over IP)等のようにパケットを用いた音声通信においては、音声データの符号化にフレーム消失耐性のある符号化方式が望まれている。インターネット通信に代表されるパケット通信においては、輻輳等により伝送路上でパケットが破棄されることがあるからである。
フレーム消失耐性を高める方法の一つとして、伝送情報の一部が消失しても他の一部から復号処理を行うようにすることでフレーム消失の影響をできるだけ少なくするアプローチがある(例えば、特許文献1参照)。特許文献1には、スケーラブル符号化を用いてコアレイヤ符号化情報と拡張レイヤの符号化情報とを別々のパケットに詰めて伝送する方法が開示されている。また、パケット通信のアプリケーションとして、太い回線(ブロードバンド回線)と細い回線(伝送レートの低い回線)とが混在するネットワークを用いたマルチキャスト通信(一対多の通信)が挙げられる。このような不均一なネットワーク上で多地点間通信を行う場合にも、それぞれのネットワークに対応して符号化情報が階層化されていれば、ネットワークごとに異なる符号化情報を送る必要がないため、スケーラブル符号化が有効である。
例えば、音声信号の高能率な符号化を可能とするCELP方式をベースとして、信号帯域幅に、すなわち周波数軸方向にスケーラビリティを有する帯域スケーラブル符号化技術として、特許文献2に開示されている技術がある。特許文献2では、音声信号のスペクトル包絡情報をLSP(線スペクトル対)パラメータで表現するCELP方式の例が示されている。ここでは、狭帯域音声用の符号化部(コアレイヤ)で得られた量子化LSPパラメータ(狭帯域符号化LSP)を以下の(式1)を用いて広帯域音声符号化用のLSPパラメータに変換し、変換したLSPパラメータを広帯域音声用の符号化部(拡張レイヤ)で用いることにより、帯域スケーラブルなLSP符号化方法を実現している。
fw(i)=0.5×fn(i) [ただし、i=0,…,Pn−1]
=0.0 [ただし、i=Pn,…,Pw−1] ・・・(式1)
なお、fw(i)は広帯域信号におけるi次のLSPパラメータ、fn(i)は狭帯域信号におけるi次のLSPパラメータ、Pnは狭帯域信号のLSP分析次数、Pwは広帯域信号のLSP分析次数をそれぞれ示している。
しかし、特許文献2においては、狭帯域信号としてサンプリング周波数が8kHz、広帯域信号としてサンプリング周波数が16kHz、広帯域LSP分析次数が狭帯LSP分析次数の2倍である場合を例にとって説明しているため、狭帯域LSPから広帯域LSPへの変換が(式1)で表されるような単純な式で行われ得る。ところが、広帯域LSPの低次側のPn次のLSPパラメータの存在する位置は、高次側の(Pw−Pn)次を含めた広帯域信号全体に対して決定されるため、必ずしも狭帯域LSPのPn次のLSPパラメータに対応するわけではない。このため、(式1)で表される変換では高い変換効率(狭帯域LSPから広帯域LSPを予測すると見た場合、予測精度と言う事も可能)は得られず、(式1)に基づいて設計された広帯域LSP符号化器には、符号化性能を改善する余地が残されている。
例えば、非特許文献1には、(式1)のi次の狭帯域LSPパラメータに乗じる変換係数を0.5とする代わりに、以下の(式2)に示すように、変換係数の最適化アルゴリズムを用いて次数毎に最適な変換係数β(i)を求める方法が開示されている。
fw_n(i)=α(i)×L(i)+β(i)×fn_n(i) ・・・(式2)
ただし、fw_n(i)は第nフレームにおけるi次の広帯域量子化LSPパラメータ、α(i)×L(i)は予測誤差信号を量子化したベクトルのi次の要素(α(i)はi次の重み係数)、L(i)はLSP予測残差ベクトル、β(i)は予測広帯域LSPへの重み係数、fn_n(i)は第nフレームにおける狭帯域LSPパラメータである。このような変換係数の最適化により、特許文献2と同じ構成のLSP符号化器でありながら、より高い符号化性能を実現している。
特開2003−241799号公報
特開平11−30997号公報
K. Koishida et al, "Enhancing MPEG-4 CELP by jointly optimized inter/intra-frame LSP predictors," IEEE Speech Coding Workshop 2000, Proceeding, pp.90-92, 2000
しかしながら、広帯域LSPの低次側のPn次のLSPパラメータの位置は広帯域信号全体に対して決定されるため、個々のLSPパラメータ(分析フレームごとのLSPパラメータ)について着目すれば、時間経過に伴い(フレームによって)最適な変換係数β(i)の値は変化する。よって、特許文献2に開示された技術には以下の問題がある。
図1は、広帯域信号に帯域制限をかけた信号、すなわち広帯域信号を一旦ダウンサンプルしてからアップサンプルして元のサンプリング周波数に戻したものを、Pw=18でLSP分析して得られる狭帯域のLSPパラメータの例を示した図である。
また、図2は、図1に示した狭帯域LSPパラメータに対応する広帯域信号を、Pw=18でLSP分析して得られる広帯域のLSPパラメータの例を示した図である。これらの図において、横軸は時間(分析フレーム番号)であり、縦軸は正規化周波数(1.0をナイキスト周波数とし、図の例では8kHz)である。
これらの図に示されるように、信号の周波数帯域が異なる以外は条件を全て同じにして得られるLSPパラメータ、すなわち同じサンプリング周波数(16kHz)で同じ分析次数のLSP分析を行って得られるLSPパラメータでも、狭帯域に帯域制限された信号から得られる低次側の(Pw/2)次のLSPパラメータと、広帯域信号から得られる低次側の(Pw/2)次のLSPパラメータとの対応関係が時間的に変化していることが分かる。この変化は、狭帯域信号には含まれず、広帯域信号に含まれる周波数成分(主として高域成分)の違いによって生ずるものである。
図3は、図1および図2に示したLSPデータを用いて、次数毎に求めた狭帯域LSPを広帯域LSPに変換する場合の理想的な変換係数を示した図である。ここで、変換係数は、広帯域LSPを狭帯域LSPで除した値であり、横軸は時間(分析フレーム番号)であり、次数が、0次、4次、8次の場合を例にとって示している。
この図からも明らかなように、理想的な変換係数の値は時間的に変動している。すなわち、狭帯域LSPを広帯域LSPに変換する際の変換係数、別の表現をするならば、狭帯域LSPから広帯域LSPを予測する際の変換係数の理想値は時間的に変動するので、非特許文献1に示される設計手法によって得られる変換係数を用いても、変換係数が固定値
であれば、時間的に変動する理想的な変換係数を正確に表すことはできない。
なお、ここでは、LSP分析の条件を揃えるために、サンプリング周波数および分析次数が同じで信号の帯域だけが異なる場合を例にとって示したが、ダウンサンプルした信号を用いて広帯域LSPよりも低い次数でLSP分析を行った場合においても同様のことが言える。このことは、この分野の技術者であれば容易に理解できることである。ただし、LSP分析の条件が異なることとなるため、狭帯域LSPと広帯域LSPとの対応関係は上記の例よりも悪くなる。
よって、本発明の目的は、狭帯域LSPから広帯域LSPへの変換性能、すなわち狭帯域LSPから広帯域LSPを予測する際の予測精度を高め、高性能な帯域スケーラブルLSP符号化を実現することができるスケーラブル符号化装置、スケーラブル復号化装置、スケーラブル符号化方法、およびスケーラブル復号化方法を提供することである。
本発明のスケーラブル符号化装置は、入力信号から、周波数軸方向にスケーラビリティを有する狭帯域および広帯域の量子化LSPパラメータを生成するスケーラブル符号化装置であって、狭帯域の入力信号のLSPパラメータを符号化して、狭帯域の第1の量子化LSPパラメータを生成する狭帯域符号化手段と、前記第1の量子化LSPパラメータの周波数帯域を広帯域に変換する変換手段と、広帯域に変換後の前記第1の量子化LSPパラメータを用いて広帯域の入力信号のLSPパラメータの符号化を行い、広帯域の第2の量子化LSPパラメータを生成する広帯域符号化手段と、過去に生成された前記第1および第2の量子化LSPパラメータ間の関係に基づいて、前記変換手段で使用される変換係数を算出する算出手段と、を具備する構成を採る。
本発明によれば、狭帯域LSPから広帯域LSPへの変換性能を高め、高性能な帯域スケーラブルLSP符号化を実現することができる。
以下、本発明の実施の形態について、添付図面を参照して詳細に説明する。
(実施の形態1)
図4は、本発明の実施の形態1に係るスケーラブル符号化装置の主要な構成を示すブロック図である。
本実施の形態に係るスケーラブル符号化装置は、ダウンサンプル部101、LSP分析部(狭帯域用)102、狭帯域LSP符号化部103、音源符号化部(狭帯域用)104、位相補正部105、LSP分析部(広帯域用)106、広帯域LSP符号化部107、音源符号化部(広帯域用)108、変換係数算出部109、アップサンプル部110、加算器111、および多重化部112を備える。
本実施の形態に係るスケーラブル符号化装置の各部は以下の動作を行う。
ダウンサンプル部101は、入力音声信号に対しダウンサンプリング処理を行って狭帯域信号をLSP分析部(狭帯域用)102および音源符号化部(狭帯域用)104に出力する。なお、入力音声信号は、デジタル化された信号であり、必要に応じてHPFや背景雑音抑圧処理等の前処理が施されている。
LSP分析部(狭帯域用)102は、ダウンサンプル部101から入力された狭帯域信号に対してLSP(線スペクトル対)パラメータを算出し、狭帯域LSP符号化部103へ出力する。
狭帯域LSP符号化部103は、LSP分析部(狭帯域用)102から入力された狭帯域LSPパラメータを符号化し、量子化された狭帯域LSPパラメータを広帯域LSP符号化部107、変換係数算出部109、および音源符号化部(狭帯域用)104へ出力する。また、狭帯域LSP符号化部103は、符号化データを多重化部112へ出力する。
音源符号化部(狭帯域用)104は、狭帯域LSP符号化部103から入力された、量子化された狭帯域LSPパラメータを線形予測係数に変換し、得られた線形予測係数を用いて線形予測合成フィルタを構築する。音源符号化部104は、この線形予測合成フィルタを用いて合成される合成信号と別途ダウンサンプル部101から入力された狭帯域入力信号との間の聴覚的重みづき誤差を求め、この聴覚的重みづき誤差を最小とする音源パラメータの符号化を行う。得られた符号化情報は多重化部112へ出力される。また、音源符号化部104は、狭帯域復号音声信号を生成してアップサンプル部110へ出力する。
なお、狭帯域LSP符号化部103または音源符号化部(狭帯域用)104については、LSPパラメータを利用するCELP型音声符号化装置で一般的に用いられている回路を適用でき、例えば、特許文献2またはITU−T勧告G.729等に記載されている技術を利用できる。
アップサンプル部110は、音源符号化部104で合成された狭帯域復号音声信号が入力され、アップサンプル処理を施し加算器111へ出力する。
加算器111は、位相補正部105から位相補正後の入力信号、アップサンプル部110からアップサンプルされた狭帯域復号音声信号、がそれぞれ入力され、両信号の差分信
号を求めて音源符号化部(広帯域用)108へ出力する。
位相補正部105は、ダウンサンプル部101およびアップサンプル部110で生じる位相のずれ(遅延)を補正するためのものであり、ダウンサンプル処理およびアップサンプル処理が直線位相低域通過フィルタとサンプル間引き/零点挿入によって行なわれる場合は、直線位相低域通過フィルタによって生じる遅延の分だけ入力信号を遅延させる処理を行い、LSP分析部(広帯域用)106および加算器111に出力する。
LSP分析部(広帯域用)106は、位相補正部105から出力される広帯域信号を入力して公知のLSP分析を行い得られた広帯域LSPパラメータを広帯域LSP符号化部107へ出力する。
変換係数算出部109は、狭帯域LSP符号化部103から過去に出力された狭帯域の量子化LSPと、広帯域LSP符号化部107から過去に出力された広帯域の量子化LSPと、を用いて変換係数を求めて広帯域LSP符号化部107へ出力する。
広帯域LSP符号化部107は、狭帯域LSP符号化部103から入力される狭帯域の量子化LSPに、変換係数算出部109から入力される変換係数を乗じて広帯域LSPに変換し、この広帯域LSPに重み係数を乗じて予測広帯域LSPを求める。そして、LSP分析部(広帯域用)106から入力された広帯域LSPと求まった予測広帯域LSPとの誤差信号を、ベクトル量子化などの手法を用いて符号化し、得られる広帯域の量子化LSPを音源符号化部(広帯域用)108へ出力する。ここで、量子化LSPは、以下の(式3)のように表される。
fw_n(i)=α(i)×L(i)+β(i)×
{fw_n−1(i)/fn_n−1(i)}×fn_n(i) ・・・(式3)
ただし、fw_n(i)は第nフレームにおけるi次の広帯域量子化LSPパラメータ、α(i)×L(i)は予測誤差信号を量子化したベクトルのi次の要素(α(i)はi次の重み係数)、L(i)はLSP予測残差ベクトル、β(i)は予測広帯域LSPへの重み係数、fw_n−1(i)は第(n−1)フレームにおける広帯域量子化LSPパラメータ、fn_n−1(i)は第(n−1)フレームにおける狭帯域量子化LSPパラメータ、fn_n(i)は第nフレームにおける狭帯域LSPパラメータである。
一方、広帯域LSP符号化部107は、得られる符号情報を多重化部112へ出力する。なお、上記のLSP予測残差ベクトルに乗じる重み係数α(i)は、1.0の固定値としても良いし、別途学習によって得られた定数でもよいし、別途学習によって得られた複数の係数をコードブックとして備えてその中から一つを選ぶようにしても良い。
音源符号化部(広帯域用)108は、広帯域LSP符号化部107から入力された、量子化された広帯域LSPパラメータを線形予測係数に変換し、得られた線形予測係数を用いて線形予測合成フィルタを構築する。そして、この線形予測合成フィルタを用いて合成される合成信号と位相補正された入力信号との間の聴覚的重みづき誤差を求め、この聴覚的重みづき誤差を最小とする音源パラメータを決定する。より詳細には、音源符号化部108には、広帯域入力信号とアップサンプル後の狭帯域復号信号との誤差信号が別途加算器111より入力され、この誤差信号と音源符号化部108で生成される復号信号との間の誤差が求められ、この誤差に聴覚的重みづけが施されたものが最小となるように音源パラメータが決定される。求まった音源パラメータの符号情報は、多重化部112へ出力される。この音源符号化については、例えば、「K. Koishida et al, “A 16-kbit/s bandwidth scalable audio coder based on the G.729 standard,” IEEE Proc. ICASSP 2000,
pp.1149-1152, 2000」に開示されている。
多重化部112には、狭帯域LSP符号化部103から狭帯域LSPの符号化情報が、音源符号化部(狭帯域用)104からは狭帯域信号の音源符号化情報が、広帯域LSP符号化部107からは広帯域LSPの符号化情報が、そして、音源符号化部(広帯域用)108からは広帯域信号の音源符号化情報が入力される。多重化部112は、これらの情報を多重化してビットストリームとして伝送路に送出する。なお、ビットストリームは、伝送路の仕様に応じて、伝送チャネルフレームにフレーム化されたり、パケット化されたりする。また、伝送路誤りに対する耐性を高めるために、誤り保護や誤り検出符号を付加したり、インタリーブ処理等を適用したりする。
図5は、上記の広帯域LSP符号化部107内部の主要な構成を示すブロック図である。
この広帯域LSP符号化部107は、誤差最小化部121、LSP符号帳122、重み係数符号帳123、増幅器124〜126、および加算器127、128を備える。
加算器127は、LSP分析部106から入力された、量子化ターゲットとなるLSPパラメータと、加算器128から入力される量子化LSPパラメータ候補と、の誤差を計算し、求まった誤差を誤差最小化部121へ出力する。なお、この誤差計算は、入力されたLSPベクトル間の二乗誤差で良い。また、入力されたLSPベクトルの特徴に応じて重み付けを行なうようにすれば、さらに聴感上の品質を良くすることができる。例えば、ITU−T勧告G.729では、3.2.4章(Quantization of the LSP coefficients)の(21)式の重み付け二乗誤差(重み付けユークリッド距離)を用いて誤差最小化を行なう。
誤差最小化部121は、加算器127から出力される誤差を最小とするLSPベクトルおよび重み係数ベクトルを、LSP符号帳122および重み係数符号帳123のそれぞれの中から選択し、対応するインデックスを符号化し、多重化部112に出力する(S11)。
LSP符号帳122は、格納しているLSPベクトルを増幅器124へ出力する。ここで、LSP符号帳122が格納しているLSPベクトルは、増幅器125から出力される狭帯域量子化LSPに基づいて予測された広帯域LSPの(LSP分析部106から入力される広帯域LSPに対する)予測残差ベクトルである。
重み係数符号帳123は、格納している重み係数セットの中から1セットを選び、選択された重み係数セットの中から増幅器124用の係数と増幅器125用の係数とを増幅器124および125に出力する。なお、この重み係数セットは、増幅器124および125のそれぞれに対してLSPの次数毎に用意された重み係数からなる。
増幅器124は、LSP符号帳122から入力されたLSPベクトルに、重み係数符号帳123から出力された増幅器124用の重み係数を乗じて加算器128へ出力する。
増幅器125は、増幅器126から入力される広帯域LSPのベクトル、すなわち、量子化後の狭帯域LSPを変換して得られる広帯域LSPのベクトルに、重み係数符号帳123から出力される増幅器125用の重み係数を乗じて加算器128へ出力する。
加算器128は、増幅器124と増幅器125とから出力されたLSPベクトルの和を計算し、加算器127へ出力する。また、誤差最小化部121で誤差が最小になると判断されたLSPベクトルの和が広帯域の量子化LSPパラメータとして音源符号化部108および変換係数算出部109に出力される。なお、広帯域の量子化LSPパラメータとし
て出力されるLSPパラメータが安定条件(第n次のLSPは第0次〜第(n−1)次のいずれのLSPより大きい場合、すなわち、LSPは次数の順番に値が大きくなる)を満たしていない場合は、加算器128は、LSPの安定条件を満たすように操作を加える。なお、隣接する量子化LSPの間隔が所定の間隔より狭い場合も、所定の間隔以上になるように操作するのが一般的である。
増幅器126は、狭帯域LSP符号化部103から入力されたLSPパラメータに、変換係数算出部109から入力された係数を乗じて、増幅器125へ出力する。なお、狭帯域LSP符号化部103から増幅器126に入力されるLSPパラメータは、狭帯域LSP符号化部103の量子化結果そのままでも良いが、アップサンプルして広帯域信号のサンプリング周波数に合わせると共に、広帯域LSPの次数に合わせると尚良い。このアップサンプルの方法としては、狭帯域LSPから得られるLPC合成フィルタのインパルス応答をアップサンプルし、アップサンプルしたインパルス応答から自己相関を求め(例えば、特許文献2参照)、求めた自己相関係数を周知の方法によって所望の次数のLSPに変換する方法等が挙げられるが、これに限定されるものではない。
図6は、図4に示した変換係数算出部109内部の主要な構成を示すブロック図である。
この変換係数算出部109は、遅延器131、132、除算器133、リミッタ134、および平滑化部135を備える。
遅延器131は、狭帯域LSP符号化部103から入力された狭帯域LSPパラメータを1処理単位時間(LSPパラメータの更新周期)だけ遅延させ、除算器133へ出力する。なお、前述したように、狭帯域LSP符号化部103から入力される狭帯域LSPは、パラメータ狭帯域LSPそのままでも良いが、アップサンプルして次数を揃えると尚良い。
遅延器132は、広帯域LSP符号化部107から入力された広帯域LSPパラメータを1処理単位時間(LSPパラメータの更新周期)だけ遅延させ、除算器133へ出力する。
除算器133は、遅延器132から入力された1処理単位時間前に量子化された広帯域LSPパラメータを、遅延器131から入力された1処理単位時間前に量子化された狭帯域LSPパラメータで除算し、除算結果をリミッタ134に出力する。遅延器131から出力される狭帯域LSPパラメータの次数と遅延器132から出力される広帯域LSPパラメータの次数とが異なる場合は、少ない方の次数(通常、狭帯域LSPパラメータの次数)分だけ除算を行い、出力する。
リミッタ134は、除算器133から入力された除算結果を、予め設定した上限値と下限値とでクリッピング(上限値を超えたらこの上限値に設定し直し、下限値を下回ったらこの下限値に設定し直す処理)し、平滑化部135へ出力する。なお、上限値および下限値は、全次数で同一のものであっても良いが、次数毎に最適なものを設定すると尚良い。
平滑化部135は、リミッタ134から入力されたクリッピング後の除算結果を時間的に平滑化して、変換係数として広帯域LSP符号化部107へ出力する。この平滑化処理は、例えば、以下の(式4)を用いることにより実現できる。
Xn(i) = K×Xn−1(i) +(1−K)× γ(i) ・・・(式4)
ここで、Xn(i)は、第n番目の処理単位時間におけるi次の狭帯域LSPパラメータに適用される変換係数であり、Kは、平滑化係数で0≦K<1の値を採り、γ(i)は、
リミッタ134から出力されるi次のLSPパラメータに対する除算結果である。
以上、本実施の形態に係るスケーラブル符号化装置について詳細に説明した。
図7は、上記のスケーラブル符号化装置で符号化された符号化情報を復号化するスケーラブル復号化装置の主要な構成を示すブロック図である。
このスケーラブル復号化装置は、多重分離部151、音源復号化部(狭帯域用)152、狭帯域LSP復号化部153、音源復号化部(広帯域用)154、変換係数算出部155、広帯域LSP復号化部156、音声合成部(狭帯域用)157、音声合成部(広帯域用)158、アップサンプル部159、および加算器160を備える。
多重分離部151は、上記のスケーラブル符号化装置で符号化された符号化情報を受け取り、各パラメータの符号化情報に分離し、狭帯域音源符号化情報を音源復号化部(狭帯域用)152に、狭帯域LSP符号化情報を狭帯域LSP復号化部153に、広帯域音源符号化情報を音源復号化部(広帯域用)154に、広帯域LSP符号化情報を広帯域LSP復号化部156に、それぞれ出力する。
音源復号化部(狭帯域用)152は、多重分離部151から入力された狭帯域音源信号の符号化情報を、上記のスケーラブル符号化装置の音源符号化部(狭帯域用)104で行われた処理と逆の処理を用いて復号し、量子化された狭帯域音源信号を音声合成部(狭帯域用)157へ出力する。
狭帯域LSP復号化部153は、多重分離部151から入力された狭帯域LSPの符号化情報を、上記のスケーラブル符号化装置の狭帯域LSP符号化部103で行われた処理と逆の処理によって復号し、得られた狭帯域の量子化LSPを音声合成部(狭帯域用)157、変換係数算出部155、および広帯域LSP復号化部156へ出力する。
音声合成部(狭帯域用)157は、狭帯域LSP復号化部153から入力された、量子化された狭帯域LSPパラメータを線形予測係数に変換し、得られた線形予測係数を用いて線形予測合成フィルタを構築する。音声合成部(狭帯域用)157は、この線形予測合成フィルタを音源復号化部(狭帯域用)152から入力される狭帯域の量子化音源信号で駆動して復号音声信号を合成し、狭帯域復号音声信号として出力する。この狭帯域復号音声信号は、広帯域復号音声信号を得るためにアップサンプル部159へ出力される。なお、この狭帯域復号音声信号は、そのまま最終出力として用いられても良い。狭帯域復号音声信号をそのまま最終出力とする場合は、ポストフィルタなど主観的な品質を改善するための後処理を行なってから出力するのが一般的である。
アップサンプル部159は、音声合成部(狭帯域用)157から入力された狭帯域音声信号のアップサンプル処理を行って加算器160へ出力する。
音源復号化部(広帯域用)154は、多重分離部151から入力された広帯域音源信号の符号化情報を、上記のスケーラブル符号化装置の音源符号化部(広帯域用)108で行われた処理と逆の処理によって復号し、得られた広帯域量子化音源信号を音声合成部(広帯域用)158へ出力する。
変換係数算出部155は、狭帯域LSP復号化部153から過去に入力された狭帯域の量子化LSPと、広帯域LSP復号化部156から過去に入力された広帯域の量子化LSPと、を用いて変換係数を求めて広帯域LSP復号化部156へ出力する。
広帯域LSP復号化部156は、狭帯域LSP復号化部153から入力される狭帯域の量子化LSPに、変換係数算出部155から入力される変換係数を乗じて広帯域LSPに変換し、この広帯域LSPに重み係数を乗じて予測広帯域LSPを求める。なお、この重み係数は、上記のスケーラブル符号化装置の広帯域LSP符号化部107で使用される重み係数と同じ値を用いる。また、広帯域LSP復号化部156は、多重分離部151から入力された広帯域LSP符号化情報から、量子化された広帯域LSP予測残差(符号化側の入力広帯域LSPと前記の予測広帯域LSPとの誤差)を復号する。そして、広帯域LSP復号化部156は、この量子化された広帯域LSP予測残差と上記において既に求まっている予測広帯域LSPとを加算し、広帯域の量子化LSPを復号する。得られた広帯域の量子化LSPパラメータは、音声合成部(広帯域用)158および変換係数算出部155に出力される。
音声合成部(広帯域用)158は、広帯域LSP復号化部156から入力された量子化された広帯域LSPパラメータを線形予測係数に変換し、得られた線形予測係数を用いて線形予測合成フィルタを構築する。音声合成部(広帯域用)158は、この線形予測合成フィルタを音源復号化部(広帯域用)154から入力される広帯域の量子化音源信号で駆動して広帯域復号音声信号(主として高域成分)を合成し、加算器160へ出力する。
加算器160は、アップサンプル部159から入力されるアップサンプル後の狭帯域復号音声信号と、音声合成部(広帯域用)158から入力される広帯域復号音声信号(主として高域成分)と、を加算し、最終的な広帯域復号音声信号を出力する。
図8は、上記の広帯域LSP復号化部156内部の主要な構成を示すブロック図である。
この広帯域LSP復号化部156は、インデックス復号部161、LSP符号帳162、重み係数符号帳163、増幅器164〜166、および加算器167を備える。
インデックス復号部161は、多重分離部151から広帯域LSPの符号化情報を取得し、LSP符号帳162用と重み係数符号帳163用のインデックス情報を復号し、各インデックス情報をそれぞれの符号帳に出力する。
LSP符号帳162は、インデックス復号部161からLSP符号帳インデックスを取得し、このインデックスで指定されるLSPベクトルを符号帳から取り出し、増幅器164に出力する。なお、符号帳がスプリット型や他段構成になっている場合は、複数のサブコードブックから指定されたベクトルを取り出してLSPベクトルを生成する。
重み係数符号帳163は、インデックス復号部161から重み係数符号帳インデックスを取得し、このインデックスで指定される重み係数セットを符号帳から取り出し、取り出した係数セットから、増幅器164用(LSP符号帳用)の係数サブセット(LSPベクトルの各次数に乗じる係数からなる)を増幅器164に、増幅器165用(狭帯域LSP用)の係数サブセット(予測広帯域LSPベクトルの各次数に乗じる係数からなる)を増幅器165に、それぞれ出力する。
増幅器164は、LSP符号帳162から入力されたLSPベクトルに、重み係数符号帳163から入力された増幅器164用の重み係数を乗じて加算器167へ出力する。
増幅器165は、増幅器166から入力される、量子化された狭帯域LSPから変換された広帯域LSPのベクトルに、重み係数符号帳163から入力された増幅器165用の重み係数を乗じて加算器167へ出力する。
加算器167は、増幅器164および増幅器165から入力されたLSPベクトルの和を計算し、量子化(復号)広帯域LSPパラメータとして音声合成部(広帯域用)158および変換係数算出部155へ出力する。なお、広帯域の量子化LSPパラメータとして出力されるLSPパラメータが、安定条件を満たしていない場合、すなわち、第n次のLSPが第0次〜第(n−1)次のいずれかのLSPよりも小さい場合(LSPが次数の順に値が大きくなっていない場合)は、LSPの安定条件を満たすように操作を加える。なお、隣接する量子化LSPの間隔が所定の間隔よりも狭い場合も所定の間隔以上になるように操作する。
なお、図7に示した変換係数算出部155の内部構成は、図6に示した変換係数算出部109と基本的に同様である。よって詳細な説明は省略するが、この変換係数算出部155内の遅延器131への入力は狭帯域LSP復号化部153から、遅延器132への入力は広帯域LSP復号化部156から、平滑化部135の出力は広帯域LSP復号化部156へとされる点は、図6に示した変換係数算出部109と異なる。
以上、本実施の形態に係るスケーラブル復号化装置について詳細に説明した。
このように、本実施の形態によれば、変換係数算出部109は、過去のフレーム(例えば、直前のフレーム等)において符号化された狭帯域および広帯域の量子化LSPパラメータを用いて、過去のフレームにおける理想的な変換係数の近似値を求め、この近似値に基づいて現フレームにおける狭帯域の量子化LSPから広帯域LSPへの変換係数を決定する。具体的には、理想的な変換係数の近似値は、過去のフレームの広帯域の量子化LSPを同じフレームの狭帯域の量子化LSPで除算することによって求められる。換言すると、狭帯域LSPパラメータから広帯域LSPパラメータに変換係数Xn(i)を乗じて推定する際、過去の狭帯域LSPパラメータと広帯域LSPパラメータとの関係を利用して適応的にフレームごとに変換係数を決定する。よって、変換係数は、時間経過と共に変化する。この構成を採ることにより、狭帯域LSPから広帯域LSPを予測する際の予測精度を高めることができる。
また、以上の構成において、上記の変換係数は、過去のフレームにおける狭帯域および広帯域の量子化LSPパラメータのみから算出可能であるので、例えば、復号化側において符号化側から情報を別途取得する必要がない。すなわち、通信の伝送レートを増加させることなしに広帯域LSPパラメータの符号化性能を改善することができる。
また、以上の構成において、上記の変換係数は、過去のフレームにおける狭帯域および広帯域のLSPパラメータから所定の演算によって直接求めることができるので、予め複数の変換係数のセットをデータテーブル等に保持しておく必要がない。
また、以上の構成において、変換係数算出部109内のリミッタ134は、算出された変換係数が極端な値とならないように、変換係数に、例えば、平均値の上下10%程度内に収まるような制限を加える。例えば、音声モードが、有声モードから無声モードへ、または無声モードから有声モードへ切り替わる等の場合には、LSPパラメータが大きく変動するため、算出される変換係数も変動して妥当な値とはならないことがある。変換係数が短時間のうちに大きく変動する場合は、前フレームの広帯域/狭帯域のLSP比を用いた予測が効かなくなり、むしろ誤差を大きくする方向に働く。するとLSP符号帳の方でそのように大きくなった誤差を修正しようとすることになるが、そのように誤差の大きいベクトルを符号帳に備えることは、予測誤差が小さい場合の誤差を増大させることになる。つまり、変換係数とLSP符号帳との間の関係が一種の発振状態に陥るので、このようにならぬ様、両者のバランスをうまくとれるような構成にする必要がある。
そこで、本実施の形態では、まず、全てのフレームに対し上記の演算式に従って変換係数を求めるが、変換係数には上限および下限を設けておいて、算出された変換係数がこの範囲内に入っていない場合には変換係数をこの範囲内に収める修正を行う。これにより、変換に実際に使用される変換係数を一定範囲内の値とすることができるので、変換係数の定常性(もしくは準定常性)が保証され、発振状態になることがなくなる。これにより、変換係数による予測能力が制限され、予測誤差が大きくなることもあるが、変換係数を固定値とする場合の「固定値」の近傍に範囲限定すれば、予測誤差が変換係数を固定値とする場合を大きく上回るようなことはなく、変換係数を固定値とする場合と同様にLSP符号帳側で対応することが可能である。変換係数の近似値は、直前フレームの広帯域量子化LSPを直前フレームの狭帯域の量子化LSPで除算することによって求められ、現フレームで用いられる変換係数は、近似値を平均的な変換係数の近傍(例えば前後10%程度の範囲または変換係数の標準偏差程度の範囲)に限定することによって得られる。
また、以上の構成において、上記の変換係数は、時間的に緩やかに変動するように分析フレーム間で(前後のフレーム間で)平滑化処理が施される。このため、変換係数は、LSPパラメータの変動に対し緩やかに推移し、伝送路誤りに対して過剰にセンシティブとなることを防止できる。また、変換係数の値が安定するため、対応するLSPコードベクトル符号帳の設計が容易となる。量子化LSPの予測値は、変換係数とLSPコードベクトルとの積で表されているため、一方のパラメータが暴れると他方のパラメータも暴れ、お互いの関係が発散状態(前述した発振状態)に陥り、性能の良い符号帳を設計できなくなるためである。上記の構成とすることで、例えばSD性能を0.05dB改善することができる。なお、この改善幅は、量子化ビット数やフレーム長によって変わってくる。
なお、本実施の形態では、MA予測型LSP符号化器を使用しない例を示したが、MA予測器を用いた場合にも本発明は適用可能である。かかる場合、MA予測係数は重み係数符号帳163に格納され、重み係数ベクトルの次元数がMA予測次数の分だけ増えることになる。
また、本実施の形態では、変換係数算出部109が、リミッタ134および平滑化部135の双方を備える場合を例にとって説明したが、これらは一方のみを備えるような構成であっても良い。
(実施の形態2)
実施の形態1では、算出される変換係数が大きく変動する場合に、変換係数を一定範囲内に収める修正を行うことにより、狭帯域LSPから広帯域LSPを予測する際の予測が安定して行なわれるようにした。本実施の形態では、量子化LSPパラメータに着目し、この量子化LSPパラメータの変化を観測することにより、LSPパラメータが変動しているかいないかを判断し、変換に使用する変換係数を切り替える。
具体的には、符号化側の狭帯域LSP符号化部または復号化側の狭帯域LSP復号化部で得られる狭帯域の量子化LSPパラメータに着目し、この狭帯域の量子化LSPパラメータが変動していない場合には定常モードと、狭帯域の量子化LSPパラメータが変動している場合には非定常モードと判定し、このモードの判定結果に従い、LSP符号帳と重み係数符号帳とを切り替えて使用する。すなわち、定常モードでは、変換係数をフレームごとに上記の演算式(式2)に従って算出することにより適応的な制御を行い、一方、非定常モードでは、上記の(式3)を用いて、変換係数を固定値または準固定値に設定する。ここで準固定値とは、予め複数の変換係数を設定しておいて、音声信号の符号化結果(音質)に応じて変換係数を切り替えることを意味している。すなわち、固定値の変換係数セットを複数種類持っていて、量子化時に最適なものを1つ選んで使用する。
以下、本実施の形態について、添付図面を参照して具体的に説明する。
本発明の実施の形態2に係るスケーラブル符号化装置の基本的構成は、実施の形態1に係るスケーラブル符号化装置と同様である。よって、本実施の形態に係るスケーラブル符号化装置の詳細な説明は省略し、異なる構成である変換係数算出部109aおよび広帯域LSP符号化部107aについて以下詳細に説明する。なお、同一の構成要素には同一の符号を付し、その説明を省略する。
図9は、変換係数算出部109a内部の主要な構成を示すブロック図である。
この変換係数算出部109aは、リミッタ134の代わりに、モード判定部201、係数テーブル202、および切り替えスイッチ203を備える。変換係数算出部109aは、算出した変換係数と係数テーブルに予め保存してある変換係数とを、モード判定部201のモード判定結果によって切り替えて使用する。
モード判定部201は、狭帯域LSP符号化部103から入力された狭帯域の量子化LSPと、遅延器131の出力である1処理単位時間だけ前に量子化された狭帯域LSPとの距離(変化量)を計算し、計算した距離に基づいて、定常モードか非定常モードかを判定する。例えば、計算した距離が予め設定した閾値以下である場合は定常モード、閾値を越えた場合は非定常モードと判定する。判定結果は、広帯域LSP符号化部107aおよび切り替えスイッチ203に出力される。なお、計算した距離は、そのまま閾値判定に用いても、フレーム間で平滑化してから閾値判定に用いても良い。
切り替えスイッチ203は、モード判定部201の判定結果が定常モードであった場合、平滑化部135から出力される変換係数を広帯域LSP符号化部107aに出力し、一方、モード判定部201の判定結果が非定常モードであった場合、係数テーブルに格納されている変換係数を広帯域LSP符号化部107aに出力するように切り替えられる。
LSPパラメータが定常的な値を示す場合は、現フレームの広帯域/狭帯域のLSPパラメータ比と前フレームの広帯域/狭帯域の量子化LSPパラメータの比とが近くなるので、(式2)を用いた量子化を適用することで、狭帯域LSPパラメータから広帯域LSPパラメータを予測する際の予測精度を向上させ、量子化性能を改善させる。
図10は、上記の広帯域LSP符号化部107a内部の主要な構成を示すブロック図である。
LSP符号帳と重み係数符号帳とがそれぞれモード数分(ここでは2つ)のサブ符号帳から構成されていて(LSP符号帳222−1、222−2、重み係数符号帳223−1、223−2)、モード判定部201から入力されるモード情報に基づいて、切り替えスイッチ224、225がそれぞれサブ符号帳の1つを選択する構成となっている。
本発明の実施の形態2に係るスケーラブル復号化装置の基本的構成も、実施の形態1に係るスケーラブル復号化装置と同様である。よって、詳細な説明は省略し、異なる構成である変換係数算出部155aおよび広帯域LSP復号化部156aについて以下説明する。なお、同一の構成要素には同一の符号を付し、その説明を省略する。
変換係数算出部155aの内部構成は、図9に示した変換係数算出部109aと基本的に同様である。よって詳細な説明は省略するが、遅延器131への入力は狭帯域LSP復号化部153から、遅延器132への入力は広帯域LSP復号化部156aから、平滑化
部135の出力は広帯域LSP復号化部156aへとされる点は、図9に示した変換係数算出部109aと異なる。また、モード判定部の付番は、符号化側のモード判定部201と区別するため、便宜上251とする。
図11は、上記の広帯域LSP復号化部156a内部の主要な構成を示すブロック図である。
LSP符号帳と重み係数符号帳とがそれぞれモード数分(ここでは2つ)のサブ符号帳から構成されていて(LSP符号帳262−1、262−2、重み係数符号帳263−1、263−2)、モード判定部251から入力されるモード情報に基づいて、切り替えスイッチ264、265がそれぞれサブ符号帳の1つを選択する構成となっている。
このように、本実施の形態によれば、入力された未量子化の広帯域LSPまたは現フレームで量子化された狭帯域LSPの定常性を判定し、定常的である(フレーム間の変動が小さい)と判定された場合のみ選択的に前記算出された変換係数を用い、非定常(フレーム間の変動が大きい)と判定された場合には別途テーブルに格納された変換係数を用いる。換言すると、算出された変換係数と予め設計してテーブルに格納しておいた変換係数とを、LSPパラメータの定常性に基づいて切り替える。
上記の構成を採ることにより、狭帯域LSPから広帯域LSPを予測する際の予測精度を向上させることができる。また、LSPパラメータの変動を符号化後の量子化LSPパラメータを用いて判断するので、復号側は、符号化側からモード情報を送信されなくともLSPパラメータの変動を判断することができる。符号化側からモード情報を送信する必要もなくなるので、通信システムのリソースを消費することもない。
(実施の形態3)
実施の形態2では、狭帯域の量子化LSPパラメータの変化を観測し、LSPパラメータの変動の有無を判断(モード判定)している。しかし、狭帯域の量子化LSPパラメータが変動状態にない場合でも、広帯域の量子化LSPパラメータの方は変動している場合がある。
また、復号化側では、過去のモード判定結果に基づいて現フレームの復号化を行うので、実施の形態2の方法では、過去のモード判定が誤っていると、その誤りが後の処理に伝播する。
そこで、本実施の形態では、符号化側は、広帯域LSPパラメータを用いてモード判定を行うモード判定部を新たに設置し、得られるモード判定結果を復号化側に送信する。復号化側は、このモード判定結果を復号化するモード復号部を新たに設置する。
以下、本実施の形態について、添付図面を参照して具体的に説明する。
図12は、本発明の実施の形態3に係るスケーラブル符号化装置の主要な構成を示すブロック図である。なお、このスケーラブル符号化装置は、実施の形態1に示したスケーラブル符号化装置(図4参照)と同様の基本的構成を有しており、同一の構成要素には同一の符号を付し、その説明を省略する。
モード判定部301は、基本的には、実施の形態2に示したモード判定部201(251)と同様の動作をする。すなわち、1処理単位時間遅延されたLSPパラメータと現在のLSPパラメータとの距離計算を行い、この距離が予め設定しておいた閾値以下の場合は定常モードと、閾値を越えた場合は非定常モードと判定する。しかし、入力情報として
用いるものは、LSP分析部(広帯域用)106から出力される広帯域LSPパラメータである点が実施の形態2と異なる。モード判定部301の判定結果は、変換係数算出部109bと広帯域LSP符号化部107aに出力され、モード情報の符号化情報は多重化部112に出力される。なお、広帯域LSP符号化部107aは、実施の形態2で既に説明したものである。
このように、モード判定部301は、符号化済みの情報(量子化LSPパラメータ)でなく、広帯域LSPパラメータを用いて定常/非定常を判定するので、広帯域信号の高域部のみに変動が大きい信号にも対応可能となる。
また、モード判定部301は、得られるモード結果を他の符号化パラメータと共に多重化して復号化側に送信している。このように、モード情報を復号化側に伝送するので、復号化側でモード情報の判定を一度誤っても、後続フレームでは、次のモード情報が送信されてくるので、前フレームの判定誤りの影響が伝播せず、伝送路誤り耐性が改善する。
図13は、変換係数算出部109b内部の主要な構成を示すブロック図である。なお、この変換係数算出部109bは、実施の形態2の図9に示した変換係数算出部109aと同様の基本的構成を有しており、異なる点のみを以下説明する。
変換係数算出部109bは、モード判定部を内部に備えず、モード判定結果のみを外部から入力する。そして、変換係数算出部109bは、入力されるモード判定結果に従って切り替えスイッチを切り替える。具体的には、定常モードの時は、平滑化部135から出力される変換係数が広帯域LSP符号化部107aへ出力されるように切り替えスイッチ203が切り替えられる。非定常モードのときは、予めオフラインの学習等によって設計された変換係数を係数テーブル202から広帯域LSP符号化部107aへ出力されるように切り替えスイッチ203が切り替えられる。
図14は、本発明の実施の形態3に係るスケーラブル復号化装置の主要な構成を示すブロック図である。
このスケーラブル復号化装置も、実施の形態1に示したスケーラブル復号化装置(図7参照)と同様の基本的構成を有しており、同一の構成要素には同一の符号を付し、その説明を省略する。実施の形態1に示したスケーラブル復号化装置と異なる点は、モード復号部351を新たに有し、本実施の形態に係るスケーラブル符号化装置のモード判定部301の出力情報を復号して、復号情報を変換係数算出部155bおよび広帯域LSP復号化部156aへ出力することである。なお、変換係数算出部155bも符号化側の変換係数算出部109b(図13参照)と同様の基本的構成を有している。
なお、本実施の形態では、LSPパラメータの時間的変化に基づいてモード判定を行う場合を説明したが、変換係数の変換利得に基づいてモード判定を行っても良い。この変換係数の変換利得は、前フレームの「広帯域量子化LSP/狭帯域量子化LSP」比と現フレームの「入力広帯域LSP/狭帯域量子化LSP」比がどれだけ近いかを表している。
(実施の形態4)
本実施の形態の特徴は、モード情報を符号化側が復号化側に送信せずに、モード判定を符号化側の狭帯域LSP符号化部または復号側の狭帯域LSP符号化部の内部で行うことである。
図15は、本発明の実施の形態4に係るスケーラブル符号化装置の主要な構成を示すブロック図である。なお、このスケーラブル符号化装置は、実施の形態3に示したスケーラ
ブル符号化装置(図12参照)と同様の基本的構成を有しており、同一の構成要素には同一の符号を付し、その説明を省略する。
本実施の形態に係るスケーラブル符号化装置は、狭帯域LSP符号化部103cがマルチモード符号化を行っており、そのモード情報(S41)を利用して変換係数算出部109bのモード切り替え、および広帯域LSP符号化部107aのモード切り替えが行われる。
狭帯域LSP符号化部がLSPの定常性でモード切替を行なう技術としては、例えば T. Eriksson, J. Linden, and J. Skoglund, “Exploiting interframe correlation in spectral quantization - A study of different memory VQ schemes,” Proc. IEEE ICASSP-96, pp.765-768, 1996 等に記載がある。この文献では、フレーム間相関の強い(定常性の高い)フレームとそうでないフレームとの双方に対応するために、フレーム間予測を用いるモードとそうでないモードとを切り替える「Safty-net VQ」という手法を提案している。このような量子化器を狭帯域LSP符号化部に用いれば、そのモード情報を広帯域LSP符号化部・変換係数算出部のモード切り替え情報として利用することが可能である。
図16は、本発明の実施の形態4に係るスケーラブル復号化装置の主要な構成を示すブロック図である。なお、このスケーラブル復号化装置も、実施の形態3に示したスケーラブル復号化装置(図14参照)と同様の基本的構成を有しており、同一の構成要素には同一の符号を付し、その説明を省略する。
本実施の形態に係るスケーラブル復号化装置では、狭帯域LSP復号化部153cにモード情報復号機能が備えられている。すなわち、狭帯域LSP復号化部153cが、マルチモードの復号化を行なっており、そのモード情報(S42)を変換係数算出部155bおよび広帯域LSP復号化部156aへ出力する。変換係数算出部155bおよび広帯域LSP復号化部156aでは、狭帯域LSP復号化部153cから入力されたモード情報(S42)を用いて、モード切替を行なう。
このように、本実施の形態によれば、狭帯域LSP符号化情報のモード情報を用いて広帯域LSP符号化のモードを切り替えるので、追加のビットなしに、広帯域LSP符号化部、広帯域LSP復号化部、または変換係数部のモード切り替えを行うことができる。また、モード情報が伝送されるため、伝送路誤りがあった場合でも誤りの影響が後続フレームに伝播することを防止できる。
(実施の形態5)
実施の形態3では、モード判定は、LSPの量子化に先立って行なわれ、このモード判定結果に基づいて探索する符号帳を切り替えている。すなわち、モード判定は量子化前に開ループで行なわれるため、必ずしも量子化誤差を最小にするモードが選択されるとは限らない。例えば、実施の形態3のモード判定は、量子化前のLSPパラメータに基づいて行われているが、量子化前のLSPパラメータが変動しているからと言って、必ずしも、量子化後のLSPパラメータも変動するとは限らないし、量子化前のLSPパラメータが定常的であるからと言って、必ずしも、量子化後のLSPパラメータが定常的であるとも限らない。また、一部の次数のLSPパラメータが定常であっても、残りの次数のLSPパラメータが非定常であれば、全次数で変化を見た場合には定常と判定されることもある。このように、開ループでモード判定を行なう場合は、確実に量子化誤差を最小とするモードを選択することが難しい。
そこで、本実施の形態では、開ループでモードを判定するのではなく、閉ループでモー
ド判定を行う。すなわち、定常モード/非定常モードについて、2以上のモードがある場合は全モードについて符号帳探索を実際に行ってみて、この結果に基づいて量子化誤差(量子化歪み)を最小とするモードを選択する。さらに換言すると、広帯域LSP符号化部において、変換係数を求めて広帯域LSPを量子化するモードと、予め定めておいた固定の変換係数を用いて広帯域LSPを量子化するモードと、の双方のモードを用いて量子化を実際に行い、量子化誤差の小さくなる方のモードで量子化した結果を最終的な量子化結果として選択する。
以下、本実施の形態について、添付図面を参照して具体的に説明する。
図17は、本発明の実施の形態5に係る広帯域LSP符号化部107dの主要な構成を示すブロック図である。なお、この広帯域LSP符号化部107dは、実施の形態2に示した広帯域LSP符号化部107a(図10参照)と同様の基本的構成を有しており、同一の構成要素には同一の符号を付し、その説明を省略する。
誤差最小化部121dは、全モードの符号帳探索を行い、全てのモードの符号帳の中から量子化誤差を最小とするLSPベクトルおよび重み係数ベクトルを、LSP符号帳222−1、222−2、重み係数符号帳223−1、223−2のそれぞれの中から選択し、対応するインデックスを符号化して多重化部112に出力する(S11)。このとき、選択されたLSPベクトル、および重み係数ベクトルが生成されるモード情報(どのモードの符号帳から選択されたかを示す情報)S51も多重化部112に出力される。
図18は、本発明の実施の形態5に係る変換係数算出部109dの主要な構成を示すブロック図である。なお、この変換係数算出部109dは、実施の形態2に示した変換係数算出部109a(図9参照)と同様の基本的構成を有しており、同一の構成要素には同一の符号を付し、その説明を省略する。
変換係数算出部109dは、広帯域LSP符号化部107d内の誤差最小化部121dから出力される制御信号C51によって、使用する予測係数を切り替える。すなわち、変換係数算出部109dは、制御信号C51によって量子化LSPを(式2)で表すか(式3)で表すかを切り替える。
このように、変換係数算出部109dは、実際に量子化を行なってみて、この量子化結果に基づいて、(式3)を用いた量子化を行なうか否かを決定する。よって、(式3)の量子化によって確実に性能が良くなることが期待されるフレームに対してだけ(式3)を用いるモードが選択されるので、高い予測性能を得ることができる。
また、本実施の形態によれば、前フレームの広帯域/狭帯域の量子化LSPパラメータ比と、現フレームの広帯域/狭帯域のLSPパラメータ比とが近いフレームに対してのみ、(式3)による量子化が行なわれることとなる。すなわち、広帯域/狭帯域LSPパラメータが定常と判断されるフレームに対してではなく、広帯域/狭帯域LSPパラメータ比が定常と判断されるフレームに対して(式3)による量子化が行なわれる。よって、誤り耐性を向上させることができる。何故なら、本実施の形態によれば、(式3)による量子化モードが選択され続ける区間においては、広帯域/狭帯域の量子化LSPパラメータ比が定常であることがほぼ保障される。よって、例えば、直前のフレームが誤った場合、2フレーム前、もしくはさらにもっと前のフレームの広帯域/狭帯域の量子化LSPパラメータ比を用いて近似を行うことが可能だからである。一方、LSPパラメータが定常であるか否かによってモード判定を行う場合、LSPパラメータが定常であっても必ずしも広帯域/狭帯域の量子化LSPパラメータ比が定常であるとは限らない。よって、直前のフレームが誤った場合、このフレームの代わりに、定常ではない可能性のある2フレーム
前の広帯域/狭帯域の量子化LSPパラメータ比を近似値として用いてしまうおそれがある。このとき、誤りがない場合の復号結果とは大きく異なる復号結果を得てしまうこととなる。
また、本実施の形態によれば、直前のフレームが誤った場合、(式2)によるモードが選択されることになる。よって、この段階で予測符号化がリセットされることとなるので、誤りが後続フレームに伝播することを防止でき、誤り耐性がより高まる。
図19は、上記の広帯域LSP符号化部107dおよび変換係数算出部109dを備えた、本発明の実施の形態5に係るスケーラブル符号化装置の主要な構成を示すブロック図である。広帯域LSP符号化部107dから出力される信号(S11、S51)が実施の形態1〜4で示したスケーラブル符号化装置と異なっている。
本実施の形態に係るスケーラブル復号化装置の構成は、実施の形態3に示したスケーラブル復号化装置(図14参照)と同様であるので、説明を省略する。
以上、本実施の形態に係るスケーラブル符号化装置およびスケーラブル復号化装置について説明した。
(実施の形態6)
実施の形態1〜5に係る発明は、前フレームの量子化結果を積極的に利用して現フレームの予測を行うため、量子化性能を高くできる。よって、伝送路誤りのない、またはほとんどないアプリケーションに特に有効である。しかし、実施の形態1〜5では、伝送路誤りが発生すると、後続フレームに誤りが比較的長時間伝播する可能性がある。具体的には、実施の形態1〜5では、過去の狭帯域量子化LSPと広帯域量子化LSPとの関係を利用して現在の狭帯域量子化LSPから広帯域量子化LSPを予測するため、伝送路誤りが発生した場合、符号化装置と復号化装置とで異なる量子化結果が生成する可能性がある。かかる場合、復号化装置では、後続フレームにおける予測が正しく行われなくなるため、後続フレームに誤りが伝播する。ただし、実施の形態2〜5においてこのような誤り伝播が生じるのは、過去の量子化LSPを利用した予測を用いるモードが連続し、かつ、この連続するフレームにおいて伝送路誤りが発生した場合に限定される。
このような場合の改善手法として、過去の量子化結果に依存する予測に「忘却要素」を組み込む手法が知られている(例えば、Allen Gersho, Robert M. Gray著、古井,田崎,小寺,渡辺共訳、「ベクトル量子化と情報圧縮」、第16章、698頁〜、小節「利得適応VQにおける伝送誤り」、コロナ社、1998年11月10日発行を参照)。この忘却要素を組み込む手法によれば、過去の量子化結果に依存する予測(適応予測モード成分)と過去の量子化結果に依存しない予測(固定予測モード成分)との和を用いて現在の狭帯域量子化LSPから現在の広帯域量子化LSPを予測する。よって、適応予測モード成分と固定予測モード成分との比率を最適化することにより、互いにトレードオフの関係にある、適応予測モード成分に由来する量子化性能改善効果と、固定予測モード成分に由来する誤り耐性劣化抑制効果との調和を図ることができる。
本発明の実施の形態6では、実施の形態5において前記忘却要素を組み込む手法を適用することにより、伝送路誤りが発生した場合でも、伝送路誤りの影響を軽減する。すなわち、現フレームの広帯域量子化LSPの算出において、前フレームの量子化結果を利用した適応予測モード成分と、過去のフレームの量子化結果を利用しない固定予測モード成分(固定値)とを組み合わせて用いる。これにより、適応予測モードのフレームで伝送路誤りが発生した場合でも、固定値の使用によって適応予測成分を時間の経過とともに忘却させ、符号化装置と復号化装置との内部状態が時間の経過とともに近づくようにすることが
でき、伝送路誤りの影響が軽減する。さらに、本実施の形態では、固定予測だけを行うモードを備えるので、固定予測モードに切り替わったフレームにおいて符号化装置および復号化装置の内部状態が共にリセットされ、伝送路誤りの影響の後続フレームへの伝播が回避され、誤り耐性が改善される。
図20は、本実施の形態に係る広帯域LSP符号化部107eの主要な構成を示すブロック図である。また、図21は、本実施の形態に係る変換係数算出部109eの主要な構成を示すブロック図である。なお、この広帯域LSP符号化部107eおよび変換係数算出部109eは、実施の形態5において、広帯域LSP符号化部107d(図17参照)および変換係数算出部109d(図18参照)の代わりに使用されるものである。従って、本実施の形態では、スケーラブル符号化装置およびスケーラブル復号化装置について、広帯域LSP符号化部107eと変換係数算出部109eとに限り説明する。さらに、本実施の形態では、広帯域LSP符号化部107eおよび変換係数算出部109eの構成要素について、広帯域LSP符号化部107dおよび変換係数算出部109dの構成要素と同様の機能を発揮する構成要素には同一の符号を付して、その説明を省略する。
広帯域LSP符号化部107eにおいて、増幅器126−1は、狭帯域LSP符号化部103から入力されたLSPパラメータに、変換係数算出部109eにおける係数テーブル202−2から入力された変換係数を乗じて、その乗算結果を増幅器125−1へ出力する。一方で、増幅器126−2は、狭帯域LSP符号化部103から入力されたLSPパラメータに対して、定常モード(適応予測モード)の場合には変換係数算出部109eにおける平滑化部135から出力される変換係数を乗じて、また非定常モード(固定予測モード)の場合には係数テーブル202−1に格納されている変換係数を乗じて、その乗算結果を増幅器125−2へ出力する。従って、増幅器126−1、126−2が、本発明における乗算手段を構成することになる。
また、広帯域LSP符号化部107eにおいて、増幅器125−1、125−2はそれぞれ、増幅器126−1、126−2から入力されてくる広帯域LSPのベクトル、すなわち狭帯域量子化LSPを変換して得られる広帯域LSPのベクトルに対して、重み係数符号帳223−1、223−2から出力される既定の重み係数を乗じて、その乗算結果を加算器128へ出力する。そして、加算器128は、増幅器124と増幅器125−1、125−2とから出力されたLSPベクトルの和を計算し、その加算結果を加算器127へ出力する。
このように、本実施の形態では、増幅器126−1および増幅器125−1、125−2が現フレームの狭帯域量子化LSPに対して固定変換係数を常に乗じることになる。すなわち、増幅器126−1、125−1を介して加算器128へ入力される信号は、狭帯域LSP符号化部103から入力される狭帯域量子化LSPが、過去に発生した伝送路誤りの影響を受けない限り、過去に発生した伝送路誤りの影響を受けない。また、固定予測モードでの予測では、増幅器126−2も固定変換係数を前記狭帯域量子化LSPに乗じるので、前後フレームとの間で情報のやり取りが行われず、過去に発生した伝送路誤りの影響が後続フレームに伝播しない。これらの結果、本実施の形態によれば、伝送路誤りが発生した場合でも、その誤りの影響が後続フレームに伝播することを抑制し、誤り耐性を改善することができる。
なお、本実施の形態では、変換係数算出部109eに2つの係数テーブル202−1、202−2を配置し、これに対応させて広帯域LSP符号化部107eに2つの増幅器126−1、126−2を配置する場合について説明したが、本発明はこの場合に限定されるものではなく、さらに多くの係数テーブル202および増幅器126を配置するようにしても良い。
また、本実施の形態では、変換係数算出部109eにおける係数テーブル202−1、202−2がそれぞれ別個である場合について説明したが、本発明はこの場合に限定されるものではなく、例えば変換係数算出部109eにおいて係数テーブル202が1つしか配置されず、この係数テーブル202から同一の変換係数が広帯域LSP符号化部107eにおける2つの増幅器126−1、126−2にそれぞれ入力されるようにしても良い。
また、本実施の形態では、変換係数算出部109eが平滑化部135を必要とする場合について説明したが、本発明はこの場合に限定されるものではなく、例えば平滑化部135を配置せず、除算器133の出力をそのまま切替スイッチ203へ接続する構成としても良い。このような構成にすれば、切替スイッチ203が一旦係数テーブル202−1側に切り替わると、伝送路誤りの伝播を完全にリセットすることができる。
なお、変換係数算出部109eが平滑化部135を備える場合であっても、直前フレームが固定予測モードである(すなわち、切替スイッチ203が係数テーブル202−1側に接続される)場合は、(式4)におけるKを0にして、換言すれば Xn(i) = γ(i)として、現フレームの狭帯域量子化LSPに適用される変換係数を求めるようにすれば、同様に伝送路誤りの伝播を完全にリセットすることができる。
また、図21に示した変換係数算出部109eは、実施の形態3に示したスケーラブル復号化装置(図14参照)における変換係数算出部155bの代わりに使用することもできる。
ちなみに、音声信号の主要成分はその低域に集まる傾向があるため、音声信号の低域成分について広帯域量子化LSPを予測する場合は、適応予測モード成分の構成比率が低くなるように(例えば50%以下となるように)重み係数を設計し、一方で音声信号の高域成分について広帯域量子化LSPを予測する場合には、適応予測モード成分の構成比率が高くなるように(例えば50%以上となるように)重み係数を設計すれば、主観的な品質における誤り耐性と量子化性能との調和を図ることができる。
(実施の形態7)
本発明の実施の形態7では、実施の形態6において、狭帯域量子化LSPの誤り感度に基づいて、広帯域量子化LSPの予測における固定予測モード成分と適応予測モード成分との比率をフレーム毎に適応的に決定する。すなわち、実施の形態6では、重み係数符号帳223−1、223−2から出力される重み係数が既定値であったが、本実施の形態では、定常モードである場合に選択される重み係数符号帳223−1を、現フレームの狭帯域量子化LSPから算出される重み係数で逐次更新する。
ここで、LSPの量子化においては、スペクトルの山の部分にあるLSPと谷の部分にあるLSPとで主観的に許容される量子化雑音のレベルが異なることを利用するために、量子化誤差を算出するときに「重み」を乗じた重み付きユークリッド距離で量子化誤差を評価する手法が知られている。この「重み」を誤り感度に対応する尺度として用いれば、フレーム毎に狭帯域量子化LSPから「重み」を算出し、算出した「重み」に応じて適応的に広帯域量子化LSPの予測における固定予測モード成分と適応予測モード成分との比率を変化させることができる。その結果、トレードオフの関係にある誤り耐性と量子化性能との調節をフレーム毎に図れるようになる。
図22は、本実施の形態に係る広帯域LSP符号化部107fの主要な構成を示すブロック図である。なお、この広帯域LSP符号化部107fは、実施の形態6において、広
帯域LSP符号化部107e(図20参照)の代わりに使用されるものである。従って、本実施の形態では、スケーラブル符号化装置について、広帯域LSP符号化部107fに限り説明する。さらに、本実施の形態では、広帯域LSP符号化部107fの構成要素について、広帯域LSP符号化部107eの構成要素と同様の機能を発揮する構成要素には同一の符号を付して、その説明を省略する。
広帯域LSP符号化部107fは、実施の形態6で示した広帯域LSP符号化部107eにおいて、重み係数算出器2201をさらに具備するものである。重み係数算出器2201は、「誤り感度に応じた重み付け」をフレーム毎に行うものであり、狭帯域LSP符号化部103から入力された狭帯域量子化LSPに基づいて、例えば「R. Salami et al,
“Design and Description of CS-ACELP: A Toll Quality 8 kb/s Speech Coder,” IEEE Trans. on Speech and Audio Process., vol. 6, no. 2, pp.116-130, March 1998.」の(9)式や「K. K. Paliwal and B. S. Atal, “Efficient Vector Quantization of LPC Parameters at 24 Bits/Frame,” IEEE Trans. on Speech and Audio Process., vol.
1, no. 1, pp.3-14, January 1993.」の(9)式に記載された重みを算出し、算出した重みを用いて重み係数符号帳223−1用の重み係数を算出する。そして、重み係数算出器2201は、フレーム毎に算出した重み係数で重み係数符号帳223−1の重み係数符号帳の内容を逐次更新する。また、本実施の形態では、重み係数算出器2201は、算出した重みが大きいほど(誤り感度が大きいほど)、広帯域量子化LSPの予測における固定予測モード成分の比率を高く設定し(例えば固定予測モード成分の比率を50%以上に設定し)、一方でその重みが小さいほど、量子化性能が良くなるように学習を行う。そして、この学習によって得られる最適構成比(一般に適応予測モード成分の比率が高くなる)に近づくように、重み係数算出器2201は、重み係数符号帳223−1の内容を更新する。
このように、本実施の形態によれば、重み係数算出器2201が現フレームの狭帯域量子化LSPの誤り感度に基づいて定常モードで選択される重み係数符号帳223−1の内容を逐次更新するため、現フレームの広帯域量子化LSPの予測における固定予測モード成分と適応予測モード成分との比率を最適化することにより、誤り耐性の劣化を抑えつつ量子化性能を最大化することができる。例えば、重み係数算出器2201が、広帯域量子化LSPの予測において固定予測モード成分の比率を100%とすれば、すなわち狭帯域量子化LSPに固定変換係数を乗じる増幅器126−1に連結された増幅器125−1の重みの比率を100%とし、かつ、増幅器125−2の比率を0%とすれば、誤り耐性を改善することができる。一方、重み係数算出器2201が、適応予測モード成分の比率を100%とすれば、誤り耐性が劣化する代わりに量子化性能を改善することができる。また、重み係数算出器2201が、固定予測モード成分と適応予測モード成分との比率を例えば50%、50%とすれば、適応予測モード成分に由来する量子化性能改善効果が生じ、この効果と共に、固定予測モード成分によって伝送路誤りの影響が広帯域LSP符号化部107fにおける計算回数に応じて希薄化するため、その伝送路誤りの影響を後続フレームに伝播し難くすることができる。
また、本実施の形態によれば、重み係数符号帳223−1の内容が重み係数算出器2201によってフレーム毎に逐次更新されるため、狭帯域量子化LSPの誤り感度がフレーム毎に遷移する場合でも、互いにトレードオフの関係にある適応予測モード成分に由来する量子化性能改善効果と固定予測モード成分に由来する誤り耐性劣化抑制効果との調和を適応的に図ることができる。
ちなみに、音声信号の場合には、その高域成分についてLSPパラメータを誤っても主観品質への影響が比較的小さいことから、重み係数算出器2201は、その低域成分について固定予測モード成分の比率が高くなるように、一方でその高域成分について適応予測
モード成分の比率が高くなるように、重み係数を決定することが好ましい。
なお、本実施の形態では、重み係数乗算器2201が狭帯域量子化LSPの誤り感度に基づいて重み係数符号帳223−1用の重み係数を算出する場合について説明したが、本発明はこの場合に限定されるものではなく、例えば重み係数乗算器2201がオフラインでの学習データから重み係数符号帳223−1用の重み係数を算出するようにしても良い。
以上、本発明の各実施の形態について説明した。
本発明に係るスケーラブル符号化装置およびスケーラブル復号化装置は、上記各実施の形態に限定されず、種々変更して実施することが可能である。例えば、各実施の形態は、適宜組み合わせて実施することが可能である。
本発明に係るスケーラブル符号化装置およびスケーラブル復号化装置は、移動体通信システムにおける通信端末装置および基地局装置に搭載することも可能であり、これにより上記と同様の作用効果を有する通信端末装置および基地局装置を提供することができる。
なお、ここでは、LSPパラメータを符号化/復号化する場合について説明したが、ISP(Immittance Spectrum Pairs)パラメータについても本発明は適用可能である。
また、LSPの余弦をとったもの、すなわち、LSPをL(i)とした場合のcos(L(i))を特にLSF(Line Spectral Frequency)と呼び、LSPと区別する場合もあるが、本明細書では、LSFはLSPの一形態であり、LSPにLSFは含まれるものとしてLSPという用語を用いている。すなわち、LSPをLSFと読み替えても良い。
また、ここでは、1フレーム前の広帯域/狭帯域の量子化LSPパラメータの比を現フレームにおける狭帯域−広帯域変換係数としたが、さらに過去のフレームの広帯域/狭帯域の量子化LSPパラメータの比を時系列的に用いて、現フレームの広帯域/狭帯域の量子化LSPパラメータの比を予測あるいは外挿的に求め、求められた値を現フレームの狭帯域−広帯域変換係数として用いても良い。
また、ここでは、モードが定常モード/非定常モードの2つのモードからなる場合を例にとって説明したが、モードは3つ以上であっても良い。
また、ここでは、帯域スケーラブル符号化のレイヤが2つである場合、すなわち、狭帯域および広帯域の2つの周波数帯域からなる帯域スケーラブル符号化または帯域スケーラブル復号化を例にとって説明したが、本発明は、3つ以上の周波数帯域(レイヤ)からなる帯域スケーラブル符号化または帯域スケーラブル復号化においても適用できる。
また、ここでは、本発明をハードウェアで構成する場合を例にとって説明したが、本発明はソフトウェアで実現することも可能である。例えば、本発明に係るスケーラブル符号化方法またはスケーラブル復号化方法のアルゴリズムをプログラミング言語によって記述し、このプログラムをメモリに記憶しておいて情報処理手段によって実行させることにより、本発明のスケーラブル符号化装置またはスケーラブル復号化装置と同様の機能を実現することができる。
また、上記各実施の形態の説明に用いた各機能ブロックは、典型的には集積回路であるLSIとして実現される。これらは個別に1チップ化されてもよいし、一部または全てを含むように1チップ化されても良い。
また、ここでは、LSIとしたが、集積度の違いによって、IC、システムLSI、スーパーLSI、ウルトラLSIと呼称されることもある。
また、集積回路化の手法はLSIに限るものではなく、専用回路または汎用プロセッサで実現しても良い。LSI製造後に、プログラムすることが可能なFPGA(Field Programmable Gate Array)や、LSI内部の回路セルの接続もしくは設定を再構成可能なリコンフィギュラブル・プロセッサーを利用しても良い。
さらには、半導体技術の進歩または派生する別技術により、LSIに置き換わる集積回路化の技術が登場すれば、当然、その技術を用いて機能ブロックの集積化を行っても良い。バイオ技術の適応等が可能性としてあり得る。
本明細書は、2004年4月27日出願の特願2004−132113および2004年9月6日出願の特願2004−259036に基づく。これらの内容はすべてここに含めておく。
本発明に係るスケーラブル符号化装置、スケーラブル復号化装置、スケーラブル符号化方法、およびスケーラブル復号化方法は、移動体通信システムやインターネットプロトコルを用いたパケット通信システム等における通信装置の用途に適用できる。
狭帯域のLSPパラメータの例を示した図
広帯域のLSPパラメータの例を示した図
理想的な変換係数を示した図
実施の形態1に係るスケーラブル符号化装置の主要な構成を示すブロック図
実施の形態1に係る広帯域LSP符号化部内部の主要な構成を示すブロック図
実施の形態1に係る変換係数算出部内部の主要な構成を示すブロック図
実施の形態1に係るスケーラブル復号化装置の主要な構成を示すブロック図
実施の形態1に係る広帯域LSP復号化部内部の主要な構成を示すブロック図
実施の形態2に係る変換係数算出部内部の主要な構成を示すブロック図
実施の形態2に係る広帯域LSP符号化部内部の主要な構成を示すブロック図
実施の形態2に係る広帯域LSP復号化部内部の主要な構成を示すブロック図
実施の形態3に係るスケーラブル符号化装置の主要な構成を示すブロック図
実施の形態3に係る変換係数算出部内部の主要な構成を示すブロック図
実施の形態3に係るスケーラブル復号化装置の主要な構成を示すブロック図
実施の形態4に係るスケーラブル符号化装置の主要な構成を示すブロック図
実施の形態4に係るスケーラブル復号化装置の主要な構成を示すブロック図
実施の形態5に係る広帯域LSP符号化部の主要な構成を示すブロック図
実施の形態5に係る変換係数算出部の主要な構成を示すブロック図
実施の形態5に係るスケーラブル符号化装置の主要な構成を示すブロック図
実施の形態6に係る広帯域LSP符号化部の主要な構成を示すブロック図
実施の形態6に係る変換係数算出部の主要な構成を示すブロック図
実施の形態7に係る広帯域LSP符号化部の主要な構成を示すブロック図