本発明は、符号化装置および復号装置に関し、特に音響オブジェクト信号を符号化および復号する符号化装置および復号装置に関する。
音響信号を符号化する方法としては、例えば音響信号を時間的に所定のサンプルで時分割を行ってフレーム処理をすることにより音響信号を符号化する典型的な方法が知られている。また、このように符号化されて伝送された音響信号は、その後、復号され、復号された音響信号は、例えば、イヤホンやスピーカなどの音響再生システムや再生装置で再生される。
近年では、例えば復号後の音響信号を外部の音響信号とミキシングしたり、復号した音響信号を上下左右の任意の位置から再生するようにレンダリングしたりすることにより再生装置を使うユーザーの利便性を向上させる技術が開発されている。この技術では、例えば、ネットワーク網を介して行う遠隔会議の場合に、ある拠点での会議参加者は、他の拠点の参加者が発する音の空間的な配置を個別に調整したり、またはその音量を個別に調整したりできる。また例えば、音楽愛好家が自分の好きな楽曲のボーカルや様々なインスツルメンツ成分を様々に制御することで、音楽トラックのリミックス信号をインタラクティブに生成して音楽を楽しむことができる。
このような応用例を実現する技術として、パラメトリック音響オブジェクト符号化技術がある(例えば、特許文献1、非特許文献1参照)。例えば、近年規格化が進行中のMPEG−SAOC(Moving Picture Experts Group Spatial Audio Object Coding)規格は、非特許文献1に記載されているように開発されている。
ここで、例えば非特許文献2に開示されているMPEGサラウンドに代表されるパラメトリックマルチチャンネル符号化技術(SAC:Spectral Audio Coding)を元に、音響オブジェクト信号を効率的に符号化し、また低演算量で処理することを目標に開発されているSACに類似する符号化技術がある。このSACに類似する符号化技術では、例えば信号間の位相差またはレベル比など複数の音響信号間の統計的な関連性を算出して、量子化及び符号化する。それにより、複数の音響信号を独立に符号化する方式に比べて高効率に符号化することが可能である。そして、このSACに類似する符号化技術を音響オブジェクト信号に対して適用できるように拡張したものが、上記非特許文献1記載のMPEG−SAOC技術である。
例えばMPEG−SAOC技術などのパラメトリック音響オブジェクト符号化技術が用いられている再生装置(パラメトリック音響オブジェクト復号装置)の音響空間が、5.1chのマルチチャンネルサラウンド再生を可能とする音響空間であるとする。このとき、パラメトリック音響オブジェクト復号装置では、音響オブジェクト信号間の統計量に基づいた符号化パラメータを、音響空間パラメータ(HRTF係数)を用いて、トランスコーダーと呼ばれる装置によって変換する。それにより、音響信号を、受聴者の意図に即した音響空間配置で再生することが可能になる。
図1は、一般的なパラメトリックの音響オブジェクト符号化装置100の構成を示すブロック図である。図1に示す音響オブジェクト符号化装置100は、オブジェクトダウンミックス回路101と、T−F変換回路102と、オブジェクトパラメータ抽出回路103と、ダウンミックス信号符号化回路104とを備える。
オブジェクトダウンミックス回路101は、複数の音響オブジェクト信号が入力され、入力された複数の音響オブジェクト信号をモノラルまたはステレオのダウンミックス信号にダウンミックスする。
ダウンミックス信号符号化回路104は、オブジェクトダウンミックス回路101によりダウンミックスされたダウンミックス信号が入力される。ダウンミックス信号符号化回路104は、入力されたダウンミックス信号を符号化してダウンミックスビットストリームを生成する。ここで、MPEG−SAOC技術では、ダウンミックス符号化方式としては、MPEG−AAC方式が用いられる。
T−F変換回路102は、複数の音響オブジェクト信号が入力され、入力された複数の音響オブジェクト信号を、時間・周波数の両方によって規定されるスペクトラム信号へと分離する。
オブジェクトパラメータ抽出回路103は、T−F変換回路102によりスペクトラム信号に分離された複数の音響オブジェクト信号が入力され、入力されたスペクトラム信号に分離された複数の音響オブジェクト信号から、オブジェクトパラメータを算出する。ここで、MPEG−SAOC技術では、オブジェクトパラメータ(拡張情報)として、例えばオブジェクトレベル差(OLD)、オブジェクト相互相関係数(IOC)、ダウンミックスチャンネルレベル差(DCLD)、オブジェクトエネルギー(NRG)などがある。
多重化回路105は、オブジェクトパラメータ抽出回路103により算出したオブジェクトパラメータと、ダウンミックス信号符号化回路104により生成されたダウンミックスビットストリームとが入力される。多重化回路105は、入力されたダウンミックスビットストリームとオブジェクトパラメータとを一つのオーディオビットストリームに重畳して出力する。
以上のように音響オブジェクト符号化装置100は構成される。
図2は、典型的な音響オブジェクト復号装置200の構成を示すブロック図である。図2に示す音響オブジェクト復号装置200は、オブジェクトパラメータ変換回路203およびパラメトリックマルチチャンネル復号回路206を備える。
図2では、音響オブジェクト復号装置200が5.1chのスピーカを備える場合を示している。そのため、音響オブジェクト復号装置200は、2つの復号回路を直列に接続した構成となっている。具体的には、オブジェクトパラメータ変換回路203と、パラメトリックマルチチャンネル復号回路206とを直列に接続した構成となっている。また、図2に示すように、音響オブジェクト復号装置200の前段には、分離回路201と、ダウンミックス信号復号回路210とが設けられている。
分離回路201は、オブジェクトストリームすなわち音響オブジェクト符号化信号が入力され、入力された音響オブジェクト符号化信号を、ダウンミックス符号化信号と、オブジェクトパラメータ(拡張情報)とに分離する。分離回路201は、ダウンミックス符号化信号を、ダウンミックス信号復号回路210に出力し、オブジェクトパラメータ(拡張情報)をオブジェクトパラメータ変換回路203に出力する。
ダウンミックス信号復号回路210は、入力されたダウンミックス符号化信号を、ダウンミックス復号信号に復号し、オブジェクトパラメータ変換回路203に出力する。
オブジェクトパラメータ変換回路203は、ダウンミックス信号プリプロセス回路204とオブジェクトパラメータ演算回路205とを備える。
ダウンミックス信号プリプロセス回路204は、MPEGサラウンド符号化情報に含まれる空間予測パラメータの特性に基づいて、新しいダウンミックス信号を生成する役割を担っている。具体的には、ダウンミックス信号復号回路210によりオブジェクトパラメータ変換回路203に出力されたダウンミックス復号信号が入力される。ダウンミックス信号プリプロセス回路204は、入力されたウンミックス復号信号から、プリプロセスダウンミックス信号を生成する。その際、ダウンミックス信号プリプロセス回路204は、最終的に分離した音響オブジェクト信号の配置情報(レンダリング情報)とオブジェクトパラメータに含まれる情報とに従って、プリプロセスダウンミックス信号を生成する。そして、ダウンミックス信号プリプロセス回路204は、生成したプリプロセスダウンミックス信号をパラメトリックマルチチャンネル復号回路206に出力する。
オブジェクトパラメータ演算回路205は、オブジェクトパラメータを空間パラメータ(MPEGサラウンド方式のSpatialCueに相当)に変換する。具体的には、オブジェクトパラメータ演算回路205は、分離回路201によりオブジェクトパラメータ変換回路203に出力されたオブジェクトパラメータ(拡張情報)が入力される。オブジェクトパラメータ演算回路205は、入力されたオブジェクトパラメータを、音響空間パラメータに変換し、パラメトリックマルチチャンネル復号回路206に出力する。ここで、音響空間パラメータは、上記のSAC符号化方式の音響空間パラメータに相当する。
パラメトリックマルチチャンネル復号回路206は、プリプロセスダウンミックス信号と音響空間パラメータとが入力されて、プリプロセスダウンミックス信号と音響空間パラメータとから複数の音響信号を生成する。
パラメトリックマルチチャンネル復号回路206は、ドメイン変換回路207と、マルチチャンネル信号合成回路208と、F−T変換回路209とを備える。
ドメイン変換回路207は、パラメトリックマルチチャンネル復号回路206に入力されたプリプロセスダウンミックス信号を合成空間信号に変換する。
マルチチャンネル信号合成回路208は、ドメイン変換回路207により変換された合成空間信号を、オブジェクトパラメータ演算回路205により入力された音響空間パラメータに基づいて、複数チャンネルのスペクトル信号に変換する。
F−T変換回路209は、マルチチャンネル信号合成回路208により変換された複数チャンネルのスペクトル信号を、複数チャンネルの時間領域の音響信号に変換して、出力する。
以上のように音響オブジェクト復号装置200は構成される。
なお、上述した音響オブジェクト符号化方法は次の2つの機能を示している。一つは、伝送するオブジェクト数をすべて独立に符号化せず、ダウンミックス信号と小さなオブジェクトパラメータを伝送することで高い圧縮効率を実現する機能である。もう一つは、オブジェクトパラメータをレンダリング情報に基づいてリアルタイムに処理することで再生側の音響空間をリアルタイムに変更できる再合成性の機能である。
また、上記の音響オブジェクト符号化方法では、オブジェクトパラメータ(拡張情報)は、時間−周波数で区切られた升目毎(この升目の幅を時間粒度、周波数粒度という)に算出される。オブジェクトパラメータを算出する時間区分は、オブジェクトパラメータの伝送粒度に応じて適応的に決定される。そして、低ビットレートでは高ビットレート時に比べ、前記オブジェクトパラメータが、周波数分解能と時間分解能とのバランスを考慮しながらより効率的に符号化される必要がある。
また、音響オブジェクト符号化技術で用いる周波数分解能は、人間の聴覚特性の知見に基づいた区分けがなされている。一方、音響オブジェクト符号化技術で用いる時間分解能は、各フレームにおいてオブジェクトパラメータの姿態が大きく変化したことを検出して決定される。例えば各時間区切りの標準的なものとしては、フレームの区切り毎に一つの時間区切りを設けるものがある。そして、この標準的なものを用いると、当該フレームでは当該フレーム時間長で同一のオブジェクトパラメータを伝送することになる。
このように、音響オブジェクト符号化の符号化装置側で高い符号化効率を実現するために、各オブジェクトパラメータの時間分解能及び周波数分解能は適応的に制御されることが多い。これらの適応制御は、ダウンミックス信号の音響信号的複雑さや、各オブジェクト信号の特性、要求ビットレートに応じて随時変えることが一般的である。その一例を図3に示す。
図3は、時間区切りとサブバンド・パラメータセット・パラメータバンドの関係を示す図である。この図3に示すように、一つのフレームに含まれるスペクトル信号は、N個の時間区分、K個の周波数区分に区切られる。
ところで、上記非特許文献1に記載されているMPEG−SAOC技術においては、規格上各フレームが最大8個の時間区切りで構成される。また、時間区切りや周波数区切りを細かくすると当然符号化音質や各オブジェクト信号の分離感が向上するが、その分伝送する情報量が増大し、ビットレートが上昇してしまう。このように、ビットレートと音質とはトレードオフの関係にある。
そこで、実験的に示されている時間区切りの方法がある。すなわち、オブジェクトパラメータに適切なビットレートを割り当てるために、一つのフレームが1または2つの領域に分割されるように、少なくとも一つの追加時間区切りを設定する。このような限定は、オブジェクトパラメータに割り当てるビットレートと音質のちょうど良いバランスを実現することができる。例えば、0または1つの追加区切りに関しては、オブジェクトパラメータへの要求ビットレートはオブジェクトあたり約3kbpsであり、1シーン毎に3kbpsの追加オーバーヘッドが生じる。したがって、オブジェクト数の増加に比例して、従来の一般的なオブジェクト符号化よりもパラメトリックオブジェクト符号化方式の方がより効率的な符号化方式であることは明らかである。
このように、上記のような時間区切りを用いると、ビット効率の良いオブジェクト符号化によって良い音質を達成することができる。しかし、すべての必須アプリケーションに対して、常に十分な符号化音質を提供できるわけではない。そこで、パラメトリックオブジェクト符号化の音質と、トランスペアレントな音質との間に存在するギャップを埋めるために、パラメトリック符号化技術に、残差符号化手法が導入されている。
一般的な残差符号化手法において、残差信号は、ほとんどの場合、ダウンミックス信号の主要な部分でないところに関連している。ここで、簡潔にするために、残差信号は、2つのダウンミックス信号間の差分で構成しているとする。また、ビットレートを低くするために、残差信号の低い周波数成分が伝送されるとする。このような場合、残差信号の周波数帯域は、符号化装置側で設定され、消費ビットレートと再生品質とのトレードオフが調整される。
それに対して、MPEG−SAOC技術では、有益な残差信号としては2kHzの周波数帯域を保持していればよく、一残差信号あたり8kbps程度で符号化することによって、明確に音質向上が出現する。そこで、高音質が必要なオブジェクト信号に対しては、オブジェクトパラメータに割り当てるビットレートを、1オブジェクトあたり3+8=11kbps割り当てる。それにより、高品質なマルチオブジェクトが必要なアプリケーションであれば、要求ビットレートは、余裕を持って非常に高いものになると考えられる。
このように、高い符号化効率とオブジェクト信号の分離感などを向上させて音場再現性をより向上させるために、音響オブジェクト符号化手法が多くのアプリケーションシナリオで用いられている。
しかしながら、オブジェクトの音質に高いレベルが求められる際に、上記従来の構成の残差符号化方式では、ビットレートが極端に増加してしまう場合がある。
そこで、本発明は、上記課題を解決するためになされたもので、ビットレートの極端な増加を抑制する符号化装置および復号装置を提供することを目的とする。
前記従来の課題を解決するために、本発明の一態様に係る符号化装置は、入力された複数の音響信号を、前記入力された複数の音響信号の信号数よりも少ない数のチャンネルにダウンミックスして符号化するダウンミックス符号化部と、前記入力された複数の音響信号から、当該複数の音響信号間の関連性を示すパラメータを抽出するパラメータ抽出部と、前記パラメータ抽出部により抽出された前記パラメータと、前記ダウンミックス符号化部により生成されたダウンミックス符号化信号とを多重化する多重化回路とを備え、前記パラメータ抽出部は、前記入力された複数の音響信号のそれぞれを、当該複数の音響信号が有する音響特性に基づいて、予め定められた複数の種類に分類する分類部と、前記分類部により分類された音響信号のそれぞれから、前記複数の種類のそれぞれに対応して定められた時間粒度及び周波数粒度を用いて、前記パラメータを抽出する抽出部を有する。
この構成により、ビットレートの極端な増加を抑制する符号化装置を実現することができる。
また、前記分類部は、前記入力された複数の音響信号が有する過渡特性を表す過渡情報と、前記入力された複数の音響信号が有するトーン成分の強さを示すトナリティ情報とにより、当該複数の音響信号が有する音響特性を決定するとしてもよい。
また、前記分類部は、前記入力された複数の音響信号の少なくとも1つを、予め定められた時間粒度及び周波数粒度として第1の時間区切り及び第1の周波数区切りを有する第1の種類に分類するとしてもよい。
また、前記分類部は、前記入力された複数の音響信号が有する過渡特性を表す過渡情報を、前記第1の種類に属する音響信号が有する過渡情報と比較することにより、前記入力された複数の音響信号を、前記第1の種類と前記第1の種類と異なる複数の種類に分類するとしてもよい。
また、前記分類部は、前記入力された複数の音響信号のそれぞれを、当該複数の音響信号の音響特性に応じて、前記第1の種類と、前記第1の種類よりも1つ以上多い時間区切りまたは周波数区切りを有する第2の種類と、前記第1の種類と同じ時間区切り数を有するが異なる時間区切り位置を有する第3の種類と、前記第1の種類は1つの時間区切りを有するものの、前記入力された複数の音響信号は時間区切りを有さないまたは前記第1の種類は1つの時間区切りも有さないが前記入力された複数の音響信号は2つの時間区切りを有する第4の種類とのいずれかに分類するとしてもよい。
また、前記パラメータ抽出部は、前記抽出部により抽出された前記パラメータを符号化し、前記多重化回路は、前記パラメータ抽出部により符号化された当該パラメータをダウンミックス符号化信号と多重化し、前記パラメータ抽出部は、さらに、前記分類部により同一の種類で分類された複数の音響信号から抽出されたパラメータが共通の区切りの数を有する場合、当該複数の音響信号から抽出されたパラメータの1つのみを前記同一の種類で分類された複数の音響信号の共通の区切りの数として符号化するとしてもよい。
また、前記分類部は、前記音響特性として前記入力された複数の音響信号が有するトーン成分の強さを示すトナリティ情報に基づいて、前記入力された複数の音響信号のそれぞれの区切り位置を決定し、決定した当該区切り位置に応じて、前記入力された複数の音響信号のそれぞれを、予め定められた複数の種類に分類するとしてもよい。
また、前記従来の課題を解決するために、本発明の一態様に係る復号装置は、パラメトリックマルチチャンネル復号を行う復号装置であって、複数の音響信号がダウンミックスされて符号化されたダウンミックス符号化情報と、当該複数の音響信号間の関連性を示すパラメータとから構成される音響符号化信号を受信し、当該音響符号化信号を、前記ダウンミックス符号化情報と前記パラメータとに分離する分離部と、前記分離部によって分離された前記ダウンミックス符号化情報から、複数の音響ダウンミックス信号を復号するダウンミックス復号部と、前記分離部によって分離された前記パラメータを、複数の音響ダウンミックス信号を複数の音響信号に分離するための空間パラメータに変換するオブジェクト復号部と、前記オブジェクト復号部で変換された空間パラメータを用いて、前記複数の音響ダウンミックス信号を前記複数の音響信号にパラメトリックマルチチャンネル復号する復号部とを備え、オブジェクト復号部は、前記分離部によって分離された前記パラメータを、予め定められた複数の種類に分類する分類部と、前記分類部により分類された前記パラメータのそれぞれを、前記複数の種類に分類された前記空間パラメータに変換する演算部とを有する。
この構成により、ビットレートの極端な増加を抑制する復号装置を実現することができる
また、前記復号装置は、さらに、前記復号部の前段に、前記ダウンミックス符号化情報をプリプロセスするプリプロセス部を備え、前記演算部は、前記分類部により分類された前記パラメータのそれぞれを、前記予め定められた複数の種類に基づき分類された空間配置情報に基づいて、前記複数の種類に分類された空間パラメータに変換し、前記プリプロセス部は、前記分類された前記パラメータのそれぞれと、前記分類された空間配置情報とに基づいて、前記ダウンミックス符号化情報をプリプロセスするとしてもよい。
また、前記空間配置情報は、前記複数の音響信号の空間配置に関する情報を示し、前記複数の音響信号に関連付けられており、前記予め定められた複数の種類に基づき分類された空間配置情報は、前記予め定められた複数の種類に分類された記複数の音響信号に関連付けられているとしてもよい。
また、前記復号部は、前記複数の音響ダウンミックス信号を、前記複数の種類に分類された空間パラメータに従って、前記複数の種類に分類された複数のスペクトル信号列に合成する合成部と、前記分類された複数のスペクトル信号を一つのスペクトル信号列に合算する合算部と、前記合算したスペクトル信号列を複数の音響信号に変換する変換部とを備えるとしてもよい。
また、前記復号装置は、さらに、入力された前記複数の音響ダウンミックス信号からマルチチャンネルの出力スペクトルを合成する音響信号合成部を備え、前記音響信号合成部は、前記入力された複数の音響ダウンミックス信号のゲインファクターを修正するプリプロセス行列演算部と、前記複数の種類に分類された空間パラメータを線形補間して、前記プリプロセス行列演算部に出力するプリプロセス乗算部と、前記プリプロセス行列演算部によりゲインファクターが修正された前記複数の音響ダウンミックス信号のうちの一部に対して残響信号付加処理を行う残響発生部と、前記残響発生部より残響信号付加処理が行われた前記修正された複数の音響ダウンミックス信号のうちの一部と、前記プリプロセス行列演算部より出力された前記修正された複数の音響ダウンミックス信号のうちの残部とから、所定の行列を用いてマルチチャンネルの出力スペクトルを生成するポストプロセス行列演算部とを有するとしてもよい。
なお、本発明は、装置として実現するだけでなく、このような装置が備える処理手段を備える集積回路として実現したり、その装置を構成する処理手段をステップとする方法として実現したり、それらステップをコンピュータに実行させるプログラムとして実現したり、そのプログラムを示す情報、データまたは信号として実現したりすることもできる。そして、それらプログラム、情報、データおよび信号は、CD−ROM等の記録媒体やインターネット等の通信媒体を介して配信してもよい。
本発明によれば、ビットレートの極端な増加を抑制する符号化装置および復号装置を実現することができる。例えば、符号化装置によって生成される符号化情報のビット効率を向上させつつ、復号装置によって復号される復号信号の音質を向上することができる。
図1は、従来の一般的な音響オブジェクト符号化装置の構成を示すブロック図である。
図2は、従来の典型的な音響オブジェクト復号装置の構成を示すブロック図である。
図3は、時間区切りとサブバンド・パラメータセット・パラメータバンドの関係を示す図である。
図4は、本発明の音響オブジェクト符号化装置の構成の1例を示すブロック図である。
図5は、オブジェクトパラメータ抽出回路308の詳細構成の一例を示す図である。
図6は、音響オブジェクト信号を分類する処理を説明するためのフローチャートである。
図7Aは、分類A(クラスA)を示す時間区切りの位置および周波数区切りの位置を示している。
図7Bは、分類B(クラスB)を示す時間区切りの位置および周波数区切りの位置を示している。
図7Cは、分類C(クラスC)を示す時間区切りの位置および周波数区切りの位置を示している。
図7Dは、分類D(クラスD)を示す時間区切りの位置および周波数区切りの位置を示している。
図8は、本発明の音響オブジェクト復号装置の1例の構成を示すブロック図である。
図9Aは、レンダリング情報をクラス分類する方法を示す図である。
図9Bは、レンダリング情報をクラス分類する方法を示す図である。
図10は、本発明の音響オブジェクト復号装置の別の1例の構成を示すブロック図である。
図11は、一般的な音響オブジェクト復号装置を示す図である。
図12は、本実施の形態における音響オブジェクト復号装置の1例の構成を示すブロック図である。
図13は、ステレオダウンミックス信号に対する本発明のコアオブジェクト復号装置の例を示す図である。
以下の実施の形態は、本発明の実施の形態の一例であって、これに限定するものではない。更に、本実施の形態は、最新の音響オブジェクト符号化(MPEG−SAOC)技術をベースにしているが、これに限ったものではなく、一般のパラメトリック音響オブジェクト符号化技術の音質向上に奏功する発明である。
一般的に、音響オブジェクト信号を符号化する時間区切りは、例えばオブジェクト数が増加しつつあったり、またはオブジェクト信号が急激に立ち上がったり、または音響特性の急激な変化が発生したりする過渡的な変動をきっかけに適応的に変化させる。また、符号化するオブジェクト信号が例えばボーカルと背景音楽との信号である場合のように、音響特性が異なる複数の音響オブジェクト信号は、異なった時間区切りにて符号化される場合が多い。そのため、MPEG−SAOCなどのパラメトリックオブジェクト符号化技術において、複数の音響オブジェクト信号を符号化する際に、従来のように通常の時間区切り数を0またはそれに1加えた程度では、すべての音響オブジェクト信号特性を反映する高音質なオブジェクト符号化を行うことは困難である。一方、もし複数の(多数の)時間区切りを設定して、すべての音響オブジェクト信号を取り込む場合、オブジェクトパラメータ情報に割り当てるビットレートがかなり増えてしまう。
これらの事実を考慮して、ビットレートと音質のちょうど良いバランスを取ることが非常に重要になる。
そこで、本発明では、符号化対象の音響オブジェクト信号を信号特性(音響特性)に応じて予め定めたいくつかのクラス(種類)に分類することで符号化効率を向上させる。具体的には、音響オブジェクト符号化する際の時間区切りを、入力された複数の音響信号の音響特性に応じて適応的に変化させる。つまり、音響オブジェクト符号化のオブジェクトパラメータ(拡張情報)を算出する時間区切り(時間解像度)が、入力された複数の音響オブジェクト信号の特性(音響特性)に応じて選択される。
以上の詳細について、以下の本発明の実施の形態において説明する。
(実施の形態1)
まず初めに、符号化装置側の説明を行う。
図4は、本発明の音響オブジェクト符号化装置の構成の1例を示すブロック図である。
図4に示す音響オブジェクト符号化装置300は、ダウンミックス符号化部301と、T−F変換回路303と、オブジェクトパラメータ抽出部304とを備える。また、音響オブジェクト符号化装置300は、後段に多重化回路309を備える。
ダウンミックス符号化部301は、オブジェクトダウンミックス回路302と、ダウンミックス信号符号化回路310とを備え、入力された複数の音響オブジェクト信号を、入力された複数の音響オブジェクト信号の信号数よりも少ない数のチャンネルにダウンミックスして符号化する。
具体的には、オブジェクトダウンミックス回路302は、複数の音響オブジェクト信号が入力され、入力された複数の音響オブジェクト信号を、例えばモノラルまたはステレオのように入力された音響オブジェクト信号の数よりも少ない数のチャネルのダウンミックス信号にダウンミックスする。ダウンミックス信号符号化回路310は、オブジェクトダウンミックス回路302によりダウンミックスされたダウンミックス信号が入力される。ダウンミックス信号符号化回路310は、入力されたダウンミックス信号を符号化してダウンミックスビットストリームを生成する。ここで、ダウンミックス符号化方式としては、例えばMPEG−AAC方式が用いられる。
T−F変換回路303は、複数の音響オブジェクト信号が入力され、入力された複数の音響オブジェクト信号を、時間・周波数の両方によって規定されるスペクトラム信号へと変換する。例えば、T−F変換回路303は、入力された複数の音響オブジェクト信号を、QMFフィルタバンクなどを用いて時間・周波数ドメインに変換する。そして、T−F変換回路303は、スペクトラム信号に分離された複数の音響オブジェクト信号をオブジェクトパラメータ抽出部304に出力する。
オブジェクトパラメータ抽出部304は、オブジェクト分類部305と、オブジェクトパラメータ抽出回路308とを備え、入力された複数の音響オブジェクト信号から、当該複数の音響オブジェクト信号間の音響的関連性を示すパラメータを抽出する。具体的には、オブジェクトパラメータ抽出部304は、T−F変換回路303により入力されたスペクトラム信号に変換した複数の音響オブジェクト信号から、複数の音響オブジェクト信号間の関連性を示すオブジェクトパラメータ(拡張情報)を算出(抽出)する。
より具体的には、オブジェクト分類部305は、オブジェクト区切り算出回路306と、オブジェクト分類回路307とを備え、入力された複数の音響オブジェクト信号のそれぞれを、当該複数の音響オブジェクト信号が有する音響特性に基づいて、予め定められた複数の種類に分類する。
さらに具体的には、オブジェクト区切り算出回路306は、当該複数の音響オブジェクト信号が有する音響特性に基づいて、複数の音響信号のそれぞれの区切り位置を示すオブジェクト区切り情報を算出する。なお、オブジェクト区切り算出回路306は、入力された複数の音響オブジェクト信号が有する過渡特性を表す過渡情報と、入力された複数の音響オブジェクト信号が有するトーン成分の強さを示すトナリティ情報とにより、当該複数の音響オブジェクト信号が有する音響特性を判定してオブジェクト区切り情報を決定してもよい。また、オブジェクト区切り算出回路306は、前記音響特性として、入力された複数の音響オブジェクト信号が有するトーン成分の強さを示すトナリティ情報に基づいて、入力された複数の音響オブジェクト信号のそれぞれの区切り位置を決定するとしてもよい。
オブジェクト分類回路307は、オブジェクト区切り算出回路306により決定(算出)された区切り位置に応じて、入力された複数の音響オブジェクト信号のそれぞれを、予め定められた複数の種類に分類する。例えば、オブジェクト分類回路307は、入力された複数の音響オブジェクト信号の少なくとも1つを、予め定められた時間粒度及び周波数粒度として第1の時間区切り及び第1の周波数区切りを有する第1の種類に分類する。また例えば、オブジェクト分類回路307は、入力された複数の音響オブジェクト信号が有する過渡特性を表す過渡情報を、前記第1の種類に属する音響オブジェクト信号が有する過渡情報と比較することにより、前記入力された複数の音響オブジェクト信号を、前記第1の種類と前記第1の種類と異なる複数の種類に分類する。また例えば、オブジェクト分類回路307は、入力された複数の音響オブジェクト信号のそれぞれを、当該複数の音響オブジェクト信号の音響特性に応じて、前記第1の種類と、前記第1の種類よりも1つ以上多い時間区切りまたは周波数区切りを有する第2の種類と、前記第1の種類と同じ区切り数を有するが異なる区切り位置である第3の種類と、前記第1の種類と異なり、入力された複数の音響オブジェクト信号が区切りを有さないまたは2つの区切りを有する第4の種類とのいずれかに分類する。
オブジェクトパラメータ抽出回路308は、オブジェクト分類部305により分類された音響オブジェクト信号のそれぞれから、複数の種類のそれぞれに対応して定められた時間粒度及び周波数粒度を用いて、オブジェクトパラメータ(拡張情報)を抽出する。
また、オブジェクトパラメータ抽出回路308は、前記抽出部により抽出された前記パラメータを符号化する。例えば、オブジェクトパラメータ抽出回路308は、オブジェクト分類部305により同一の種類で分類された複数の音響オブジェクト信号から抽出されたパラメータが共通の区切りの数を有する場合(例えば、複数の音響オブジェクト信号が似たような過渡応答を有する場合)、当該複数の音響オブジェクト信号から抽出されたパラメータの1つのみを同一の種類で分類された複数の音響オブジェクト信号の共通の区切りの数として符号化する。このように、時間区切り(時間解像度)を複数の時間区切り単位で共有して、オブジェクトパラメータの符号量を低減することもできる。
なお、オブジェクトパラメータ抽出回路308は、図5に示すように、複数のクラスのそれぞれに対応して設けられる抽出回路3081〜3084を備えているとしてもよい。ここで、図5は、オブジェクトパラメータ抽出回路308の詳細構成の一例を示す図である。図5では、複数のクラスが例えばクラスA〜クラスDからなる場合の例を示している。具体的には、オブジェクトパラメータ抽出回路308は、クラスAに対応する抽出回路3081と、クラスBに対応する抽出回路3082、クラスCに対応する抽出回路3083およびクラスDに対応する抽出回路3084を備える場合の例が示されている。
抽出回路3081〜3084にはそれぞれ、分類情報に基づいて、それぞれクラスA、クラスB、クラスCおよびクラスDに属するスペクトラム信号が入力される。抽出回路3081〜3084はそれぞれ、入力されたオスペクトラム信号から、オブジェクトパラメータを抽出し、抽出したオブジェクトパラメータを符号化して出力する。
多重化回路309は、前記パラメータ抽出部により抽出された前記パラメータと、前記ダウンミックス符号化部により符号化されたダウンミックス符号化信号とを多重化する。具体的には、多重化回路309は、オブジェクトパラメータ抽出部304によりオブジェクトパラメータが入力され、ダウンミックス符号化部301によりダウンミックスビットストリームが入力される。多重化回路105は、入力されたダウンミックスビットストリームとオブジェクトパラメータとを一つのオーディオビットストリームに重畳して出力する。
以上のように音響オブジェクト符号化装置300は構成される。
このように、図4に示す音響オブジェクト符号化装置300では、符号化対象の音響オブジェクト信号を信号特性(音響特性)に応じて予め定めたいくつかのクラス(種類)に分類するクラス分類機能を実現するオブジェクト分類部305を備えている。
次に、オブジェクト区切り算出回路306によるオブジェクト区切り情報の算出(決定)方法の詳細について説明する。
本実施の形態では、上述したように、音響特性に基づいて複数の音響信号のそれぞれの区切り位置を示すオブジェクト区切り情報を算出する。
具体的には、オブジェクト区切り算出回路306は、複数の音響オブジェクト信号がT−F変換回路303により時間・周波数ドメインに変換されたオブジェクト信号を元に複数の音響オブジェクト信号が有する個別のオブジェクトパラメータ(拡張情報)を抽出し、オブジェクト区切り情報を算出(決定)する。
例えば、オブジェクト区切り算出回路306は、音響オブジェクト信号が過渡状態になることに連動して、そのオブジェクト区切り情報を決める(算出する)。ここで、音響オブジェクト信号が過渡状態になることは、一般的な過渡状態検出方法を用いて算出することができる。すなわち、オブジェクト区切り算出回路306は、一般的な過渡状態検出方法として例えば、次に示す4ステップを実行することにより、オブジェクト区切り情報を決定(算出)することができる。
以下、それについて説明する。
ここで、時間・周波数ドメインに変換されたi番目の音響オブジェクト信号のスペクトルをMi(n、k)とする。また、時間区切りのインデックスnとしては(式1)を満たし、周波数サブバンドのインデックスkとしては(式2)、音響オブジェクト信号のインデックスiとしては(式3)を満たすものとする。
1)まず、各時間区切りにおいて、(式4)を用いて音響オブジェクト信号のエネルギーを計算する。ここで、演算子*は複素共役を示す。
2)次に、(式4)を用いて算出された過去の時間区切りにおけるエネルギーを元にして、(式5)を用いて当該時間区切りにおけるエネルギーを平滑化する。
ここで、αはスムージングパラメータであり、0〜1の間の実数である。また、(式6)は、直前のオーディオフレーム内の最も当該フレームに近い時間区切りにおけるi番目の音響オブジェクト信号のエネルギーを示している。
3)次に、当該時間区切りにおけるエネルギー値と、スムージングしたエネルギー値の比を(式7)を用いて計算する。
4)次に、上記エネルギー比が予め設定していた閾値Tよりも大きい場合に、当該時間区切り区間は過渡状態と判断し、過渡状態であるか否かを示す変数Tr(n)を(式8)のように決定する。
なお、閾値Tとしては、2.0が最良の値であるが、もちろんこれに限ったものではない。最終的に、バイノーラルキューの急激な変化は人間の聴覚システムでは検知できないと言う聴覚心理の知見を考慮して、人間が聴覚的に知覚しにくいようにする。すなわち、一つのフレームにおける過渡状態の時間区切りの数を2に制限する。そして、前記エネルギー比Ri(n)を降順にならべて、最も目立つ過渡状態の時間区切りのうちの2つ(ni1、ni2)を次の(式9)および(式10)の条件を満たすように抽出する。
その結果、前記Tri(n)の有効なサイズNtrは下記の(式11)ように制限される。
このように、オブジェクト区切り算出回路306は、音響オブジェクト信号が過渡状態であるかを検出する。
そして、この音響オブジェクト信号が過渡状態であるかを示す過渡情報(音響信号が有する音響特性)に基づいて、音響オブジェクト信号を予め定められた複数の種類(クラス)に分類する。例えば、この予め定められた複数の種類(クラス)が、標準クラスと複数のクラスであるとすると、上述した過渡情報に基づいて、音響オブジェクト信号は、標準クラスと複数のクラスとに分類される。
ここで、標準クラスは、標準の時間区切りと時間区切りの位置情報とを保持している。この標準クラスの標準の時間区切りと区切り位置情報とはオブジェクト区切り算出回路306により次のように決定される。
まず、標準の時間区切りを決定する。その際、上記のNi trに基づいて算出する。そして、必要であれば、標準の時間区切りの位置情報を音響オブジェクト信号のトナリティ情報に従って決定する。
次に、各々のオブジェクト信号を、各々の過渡応答セットのサイズに従って、例えば2つにグループ化する。そして、その2つのグループ内のオブジェクト数をそれぞれカウントする。すなわち、下記UおよびVの値を(式12)を用いて計算する。
次に、標準区切り数Nを(式13)から計算する。
なお、(式14)の場合、明らかなように、標準の時間区切りの位置情報を算出する必要がない。一方で、同一の時間区切りを持つすべての音響オブジェクト信号に対しては、標準の区切りの位置情報は各々のトナリティによって決定することができる。
ここで、トナリティは、入力される信号に含まれるトーン成分の強さを示す。そのため、トナリティは、入力される信号の信号成分がトーン信号か非トーン信号かを計測することで判定する。
なお、トナリティの計算方法は、各種文献に様々なバリエーションが開示されている。その一例として、トナリティ予測手法として、以下のアルゴリズムを説明する。
周波数ドメインに変換したi番目の音響オブジェクト信号をMi(n、k)とする。ここで、(式15)として、音響オブジェクト信号のトナリティは以下のようにして算出する。
1)まず、当該フレームの両端のフレーム間の相互相関を(式16)を用いて計算する。
2)次に、各サブバンドの調和エネルギーを(式17)を用いて計算する。
3)次に、各パラメータバンドのトナリティを(式18)を用いて計算する。
4)次に、音響オブジェクト信号のトナリティを(式19)を用いて算出する。
このようにして、音響オブジェクト信号のトナリティを予測する。
さらに、本発明では、高いトナリティを保持する音響オブジェクト信号が重要である。従って、トナリティが最も高いオブジェクト信号が、時間区切りの決定に最も大きな影響を与える。
そのため、標準の時間区切りは、最も高いトナリティを持つ音響オブジェクト信号の時間区切りと同じとする。また、同一のトナリティを持つ複数のオブジェクト信号の場合には、標準の区切りは、最も小さい時間区切りインデックスが選択される。従って、(式20)のようになる。
以上のようにして、オブジェクト区切り算出回路306により標準クラスの標準の時間区切りと区切り位置情報とが決定される。なお、標準的な周波数区切りを決定する場合も同様であるのでその説明は省略する。
次に、オブジェクト区切り算出回路306とオブジェクト分類回路307とによる音響オブジェクト信号を分類する処理について説明する。
図6は、音響オブジェクト信号を分類する処理を説明するためのフローチャートである。
まず、複数の音響オブジェクト信号がT−F変換回路303に入力され、T−F変換回路303により周波数ドメインに変換された複数のオブジェクト信号(例えばobj0〜objQ−1)がオブジェクト区切り算出回路306に入力される(S100)。
次に、オブジェクト区切り算出回路306は、入力された複数の音響信号が有する音響特性として各音響オブジェクト信号のトナリティ(例えば、Ton0〜TonQ−1)を、上述で説明したように計算する(S101)。次いで、オブジェクト区切り算出回路306は、各音響オブジェクト信号のトナリティ(例えば、Ton0〜TonQ−1)に基づいて、上述した標準の時間区切りを決定する手法と同様の手法にて、例えば標準クラスとその他の複数のクラスの時間区切りを決定する(S102)。
一方、オブジェクト区切り算出回路306は、入力された複数の音響信号が有する音響特性として各音響オブジェクト信号が過渡状態(Ntr 0〜Ntr Q−1、Ttr 0〜Ttr Q−1)であるかを示す過渡情報を上述で説明したように検出する(S103)。次いで、オブジェクト区切り算出回路306は、その過渡情報に基づいて、上述した標準の時間区切りを決定する手法と同様の手法にて、例えば標準クラスとその他の複数のクラスの時間区切りを決定し(S102)、かつ、それらクラスの区切り数を決定する(S104)。
次に、オブジェクト区切り算出回路306は、入力された複数の音響信号が有する音響特性に基づいて、複数の音響信号のそれぞれの区切り位置を示すオブジェクト区切り情報を算出する。次いで、オブジェクト分類回路307は、オブジェクト区切り算出回路306により決定(算出)されたオブジェクト区切り情報から、入力された複数の音響信号のそれぞれを、例えば標準クラスとその他のクラスなどの予め定められた複数の種類に分類する(S105)。
以上のように、オブジェクト区切り算出回路306と、オブジェクト分類回路307とは、入力された複数の音響信号のそれぞれを、当該複数の音響信号が有する音響特性に基づいて、予め定められた複数の種類に分類する。
なお、オブジェクト区切り算出回路306は、入力された複数の音響信号が有する音響特性として過渡情報とトナリティとを用いて、上記クラスの時間区切りを決定したが、それに限らない。オブジェクト区切り算出回路306は、その音響特性として各音響オブジェクト信号が有する過渡情報のみを用いてもよく、トナリティのみを用いてもよい。なお、オブジェクト区切り算出回路306は、入力された複数の音響信号が有する音響特性として過渡情報とトナリティとを用いて、上記クラスの時間区切りを決定する場合、過渡情報を用いて決定する方が支配的である。
以上、実施の形態1によれば、ビットレートの極端な増加を抑制する符号化装置を実現することができる。具体的には、実施の形態1の符号化装置によれば、最小限のビットレート上昇のみで、オブジェクト符号化の音質を向上させることができる。そのため、各オブジェクト信号の分離度を向上させることができる。
このように、音響オブジェクト符号化装置300では、MPEG−SAOCに代表される音響オブジェクト符号化と同様に、入力される音響オブジェクト信号を、ダウンミックス符号化部301とオブジェクトパラメータ抽出部304との二つの経路で演算する。すなわち、一つは、ダウンミックス符号化部301によって、複数の音響オブジェクト信号から例えばモノラルまたはステレオのダウンミックス信号が生成され、符号化される経路である。なお、MPEG−SAOC技術では、生成したダウンミックス信号をMPEG−AAC方式で符号化する。もう一つは、QMFフィルタバンクなどを用いて時間・周波数ドメインに変換された音響オブジェクト信号から、オブジェクトパラメータ抽出部304によって、オブジェクトパラメータが抽出されて符号化される経路である。なお、抽出する方法の詳細に関しては、非特許文献1に記載されている。
また、図1と図4とを比較すると、音響オブジェクト符号化装置300におけるオブジェクトパラメータ抽出部304の構成が異なり、特に、オブジェクト分類部305すなわちオブジェクト区切り算出回路306およびオブジェクト分類回路307を備える点で異なっている。そして、オブジェクトパラメータ抽出回路308では、オブジェクト分類部305により分類されたクラス(予め定められた複数の種類)に基づき、音響オブジェクト符号化する際の時間区切りを変更している。つまり、従来の過渡的な変動をきっかけに時間区切りが適応的に変化させる場合に比べると、オブジェクト分類部305により分類されたクラスの数に基づく時間区切りの数は、抑制できるので符号化効率がよい。それだけでなく、従来の時間区切り数を0またはそれに1加えた程度に比べて、オブジェクト分類部305により分類されたクラスの数に基づく時間区切りの数は多い。そのため、音響オブジェクト信号特性をより反映でき、高音質なオブジェクト符号化を実現できる。
(実施の形態2)
本実施の形態では、実施の形態1と同様に、音響オブジェクト信号を複数の種類のクラスに分類することは同じである。それ以外の差異に関して記載する。
本実施の形態では、標準クラスパターンに基づいて、周波数ドメインの音響オブジェクト信号を元に音響オブジェクト信号が有するオブジェクトパラメータ(拡張情報)を抽出する。そして、入力されるすべての音響オブジェクト信号はいくつかのクラスに分類される。ここでは、2種類の時間区切りを許容することで、すべての音響オブジェクト信号を、4種類のクラス(標準クラスも含む)に分類する。ここで、(表1)は、音響オブジェクト信号iを分類するときの基準を表している。
ここで、表1における各分類A〜Dに対する時間区切りの位置は、上記クラス分類内容にひも付けされた音響オブジェクト信号のトナリティ情報によって決定する。なお、同じ手順は、標準時間区切り位置を選択する際に用いている。
例えば、各分類A〜Dに対する時間区切りの位置および周波数区切りの位置は、図7A〜図7Dのように表すことができる。図7Aは、分類A(クラスA)を示す時間区切りの位置および周波数区切りの位置を示しており、図7Bは、分類B(クラスB)を示す時間区切りの位置および周波数区切りの位置を示している。図7Cは、分類C(クラスC)を示す時間区切りの位置および周波数区切りの位置を示しており、図7Dは、分類D(クラスD)を示す時間区切りの位置および周波数区切りの位置を示している。
そして、一旦クラスすなわち分類A〜Dが決定すれば、音響オブジェクト信号は同じ区切り数(区切り番号)と区切り位置との情報を共有する。これは、オブジェクトパラメータ(拡張情報)の抽出モジュールの後で実行される。そして、共通の時間区切り及び周波数区切りは、同じクラスに分類された音響オブジェクト信号間で共有する。
もし、すべてのオブジェクトが同一クラスに分類された場合、本発明のオブジェクト符号化技術は、既存のオブジェクト符号化と後方互換性を保持することは言うまでもない。一般的なオブジェクトパラメータ抽出手法と異なって、本発明での抽出方法は、分類されたクラスに基づいて実施する。
また、MPEG−SAOCで定義されているオブジェクトパラメータ(拡張情報)は様々な種類が存在する。以下、本願で考案した拡張型オブジェクト符号化手法で改良したオブジェクトパラメータについて述べる。なお、以下では、特に、OLD、IOC、NRGパラメータに関して説明する。
MPEG−SAOCのOLDパラメータは、入力される音響オブジェクト信号の時間区切りおよび周波数区切り毎のオブジェクトパワー比として次の(式21)のように定義されている。
分類されたクラスに基づいたオブジェクトパラメータ抽出方法では、音響オブジェクト信号iがクラスAに属するのであれば、OLDは、クラスAの入力オブジェクト信号の時間区切り・周波数区切りに対して、以下の(式22)のように計算する。
他のクラスに対しても同様に定義する。
次に、MPEG−SAOCのNRGパラメータについて説明する。最も大きなオブジェクトエネルギーを持つオブジェクトに対してNRGを計算するとき、MPEG−SAOCでは(式23)を用いて算出する。
分類されたクラスに基づいたオブジェクトパラメータ抽出方法では、(式24)を用いて複数のNRGパラメータの組を算出する。
ここで、Sは、表1のクラスA、クラスB、クラスCおよび、クラスDを示す。
次に、MPEG−SAOCのIOCパラメータについて説明する。元のIOCパラメータは、入力される音響オブジェクト信号の時間区切り・周波数区切りに対して(式25)を用いて算出する。
ここで、(式26)とする。
分類されたクラスに基づいたオブジェクトパラメータ抽出方法では、複数のIOCパラメータは、同一クラスからの入力オブジェクト信号の時間区切り・周波数区切りに対して同様に算出する。すなわち、(式27)を用いて算出する。
ここで、(式28)であり、Sは表1のクラスA、クラスB、クラスC、クラスDを示す。
以上のIOCの算出過程から、一つの音響オブジェクト信号のみが分類されているいずれかのクラスに対して、IOCパラメータを計算する必要はないのがわかる。一方で、同一クラスに分類されたステレオあるいはマルチチャンネルの音響オブジェクト信号に対しては、それらの信号のIOCパラメータを計算する必要がある。なお、異なる種類のクラスに分類されたいずれかの音響オブジェクト信号の組に対しては、クラス間のIOCパラメータは標準状態ではゼロとする。こうすることで、既存のオブジェクト符号化手法と互換性を保つことができる。
次に、上記のように音響オブジェクト信号を複数の種類のクラスに分類(以下クラス分類とも記載)するクラス分類手法を用いたオブジェクト復号方法について述べる。
以下、ダウンミックス信号の状態に応じて二つの場合すなわちダウンミックス信号がモノラル信号である場合とダウンミックス信号がステレオ信号である場合について説明する。
まず、ダウンミックス信号がモノラル信号である場合を説明する。
図8は、本発明の音響オブジェクト復号装置の1例の構成を示すブロック図である。なお、図8は、モノラルダウンミックス信号に対する音響オブジェクト復号装置の構成例を示している。図8に示す音響オブジェクト復号装置は、分離回路401と、オブジェクト復号回路402と、ダウンミックス信号復号回路405とを備える。
分離回路401は、オブジェクトストリームすなわち音響オブジェクト符号化信号が入力され、入力された音響オブジェクト符号化信号を、ダウンミックス符号化信号と、オブジェクトパラメータ(拡張情報)とに分離する。分離回路401は、ダウンミックス符号化信号を、ダウンミックス信号復号回路405に出力し、オブジェクトパラメータ(拡張情報)をオブジェクト復号回路402に出力する。
ダウンミックス信号復号回路405は、入力されたダウンミックス符号化信号を、ダウンミックス復号信号に復号する。
オブジェクト復号回路402は、オブジェクトパラメータ分類回路403と、複数のオブジェクトパラメータ演算回路404とを備える。
オブジェクトパラメータ分類回路403は、分離回路401により分離されたオブジェクトパラメータ(拡張情報)が入力され、入力されたオブジェクトパラメータを例えばクラスA〜クラスDのように複数のクラスに分類する。オブジェクトパラメータ分類回路403は、オブジェクトパラメータそれぞれに関連づけられたクラス特性に基づいてオブジェクトパラメータを分離し、対応するオブジェクトパラメータ演算回路404に出力する。
ここで、図8に示すように、オブジェクトパラメータ演算回路404は、本実施の形態では4つのプロセッサから構成されている。すなわち、複数のクラスがクラスA〜クラスDである場合、オブジェクトパラメータ演算回路404は、それぞれクラスA、クラスB、クラスCおよびクラスDに対応して設けられ、それぞれクラスA、クラスB、クラスCおよびクラスDに属するオブジェクトパラメータが入力される。そして、オブジェクトパラメータ演算回路404は、クラス分類され入力されたオブジェクトパラメータを、クラス分類されたレンダリング情報に応じて修正した空間パラメータへと変換する。
なお、これを実現するために、元々のレンダリング情報がクラス毎に分離される必要がある。そうすることで、あるクラスに割り当てられたクラス情報が一意性を保持しているため、クラスに分類された情報を元にして、前記空間パラメータへの変換が容易になる。ここで、図9Aおよび図9Bは、レンダリング情報をクラス分類する方法を示す図である。図9Aは、元々のレンダリング情報を、8つにクラス分類(クラスはA〜Dの4種類)されたレンダリング情報を示しており、図9Bは、元々のレンダリング情報をA〜Dのクラス毎に分離して出力するときのレンダリングマトリックス(レンダリング情報)を示している。ここでは、マトリックス要素ri、jは、オブジェクトi番目、出力j番目のレンダリング係数を示している。
オブジェクト復号回路402は、オブジェクトパラメータを空間パラメータ(MPEGサラウンド方式のSpatialCueに相当)に変換する図2のオブジェクトパラメータ演算回路205を拡張する構成からなる。
次に、ダウンミックス信号がステレオ信号である場合を説明する。
図10は、本発明の音響オブジェクト復号装置の別の1例の構成を示すブロック図である。なお、図10は、ステレオダウンミックス信号に対する音響オブジェクト復号装置の構成例を示している。図10に示す音響オブジェクト復号装置は、分離回路601と、クラス分類に基づいたオブジェクト復号回路602と、ダウンミックス信号復号回路606とを備える。また、オブジェクト復号回路602は、オブジェクトパラメータ分類回路603と、複数のオブジェクトパラメータ演算回路604と、複数のダウンミックス信号プリプロセス回路605とを備える。
分離回路601は、オブジェクトストリームすなわち音響オブジェクト符号化信号が入力され、入力された音響オブジェクト符号化信号を、ダウンミックス符号化信号と、オブジェクトパラメータ(拡張情報)とに分離する。分離回路601は、ダウンミックス符号化信号を、ダウンミックス信号復号回路606に出力し、オブジェクトパラメータ(拡張情報)をオブジェクト復号回路602に出力する。
ダウンミックス信号復号回路606は、入力されたダウンミックス符号化信号を、ダウンミックス復号信号に復号する。
オブジェクトパラメータ分類回路603は、分離回路601により分離されたオブジェクトパラメータ(拡張情報)が入力され、入力されたオブジェクトパラメータを例えばクラスA〜クラスDのように複数のクラスに分類する。そして、オブジェクトパラメータ分類回路603は、オブジェクトパラメータそれぞれに関連づけられたクラス特性に基づいて分類(分離した)オブジェクトパラメータを、対応するオブジェクトパラメータ演算回路404に出力する。
ここで、ダウンミックス信号がステレオ信号である場合、図10に示すように、オブジェクトパラメータ演算回路604とダウンミックス信号プリプロセス回路605との両方はそれぞれ、各クラスに対応して設けられている。そして、オブジェクトパラメータ演算回路604とダウンミックス信号プリプロセス回路605との両方はそれぞれ、対応するクラスに分類され入力されたオブジェクトパラメータと、対応するクラスに分類され入力されたレンダリング情報に基づいて処理を行う。結果として、オブジェクト復号回路602は、プリプロセスしたダウンミックス信号と空間パラメータの組とを4つ生成して出力する。
以上、実施の形態2によれば、ビットレートの極端な増加を抑制する符号化装置および復号装置を実現することができる。
(実施の形態3)
次に、実施の形態3では、クラス分類されたパラメトリックオブジェクト符号化方法によって生成されたビットストリームを復号する復号装置の別の態様について説明する。
まず、比較のために、一般的なマルチチャンネルデコーダ(スペーシャルデコーダ)について説明する。図11は、一般的な音響オブジェクト復号装置を示す図である。
図11に示す音響オブジェクト復号装置は、パラメトリックマルチチャンネル復号回路700を備えている。ここで、パラメトリックマルチチャンネル復号回路700は、図2に示すマルチチャンネル信号合成回路208の中核モジュールが一般化されたモジュールである。
パラメトリックマルチチャンネル復号回路700は、プリプロセスマトリックス演算回路702と、ポストマトリックス演算回路703と、プリプロセスマトリックス生成回路704と、ポストプロセスマトリックス生成回路705と、線形補間回路706および707と、残響成分生成回路708とを備える。
プリプロセスマトリックス演算回路702は、ダウンミックス信号(プリプロセスダウンミックス信号、合成空間信号でも同様)が入力される。ここで、プリプロセスマトリックス演算回路702は、各チャンネルのエネルギー値の変化を補償するように、ゲインファクターを修正する役割を果たす。そして、プリプロセスマトリックス演算回路702は、プリマトリックス(Mpre)のいくつかの出力を、デコラレーターである残響成分生成回路708(図中のD)に入力する。
デコラレーターである残響成分生成回路708は、一つまたは複数個からなり、それぞれ独立したデコラレーション(残響信号付加処理)を行う。なお、デコラレーターである残響成分生成回路708は、入力信号とは相関のない出力信号を生成する。
ポストマトリックス演算回路703は、プリプロセスマトリックス演算回路702によりゲインファクターが修正された複数の音響ダウンミックス信号の一部が残響発生回路708により残響信号付加処理が行われて入力され、かつ、プリプロセスマトリックス演算回路702によりゲインファクターが修正された残りの複数の音響ダウンミックス信号が入力される。ポストマトリックス演算回路703は、残響発生回路708より残響信号付加処理が行われた一部の複数の音響ダウンミックス信号と、プリプロセスマトリックス演算回路702より入力された残りの複数の音響ダウンミックス信号とから、所定の行列を用いてマルチチャンネルの出力スペクトルを生成する。具体的には、ポストマトリックス演算回路703は、ポストプロセスマトリックス(Mpost)を用いてマルチチャンネルの出力スペクトルを生成する。この際、チャンネル間相関値(MPEGサラウンドで言うICCパラメータ)によって残響処理した信号によって、エネルギー補償した信号を合成することで、前記出力スペクトルを生成する。
なお、プリプロセスマトリックス演算回路702と、ポストマトリックス演算回路703と、残響成分生成回路708とは、合成部701を構成している。
また、プリプロセスマトリックス(Mpre)とポストプロセスマトリックス(Mpost)とは、伝送されてきた空間パラメータから算出される。具体的には、プリプロセスマトリックス(Mpre)は、プリプロセスマトリックス生成回路704と線形補間回路706とにより複数の種類(クラス)に分類された空間パラメータを線形補間して算出され、ポストプロセスマトリックス(Mpost)は、ポストプロセスマトリックス生成回路705と線形補間回路707とにより複数の種類(クラス)に分類された空間パラメータ空間パラメータを線形補間して算出される。
次に、プリプロセスマトリックス(Mpre)とポストプロセスマトリックス(Mpost)とが算出される方法を説明する。
まず、信号のスペクトル上で、マトリックスMpreとMpostを合成するために、すべての時間区切りnおよびすべての周波数サブバンドkに対して(式29)および(式30)に示すようにマトリックスMn,k preおよびMn,k postを定義する。
また、伝送されてきた空間パラメータは、すべての時間区切りlおよびすべてのパラメータバンドmに対して定義される。
次に、スペーシャルデコーダである図11に示す音響オブジェクト復号装置では、再定義した合成マトリックスを算出するために、伝送された空間パラメータに基づいて、プリプロセスマトリックス生成回路704およびポストプロセスマトリックス生成回路705から、合成マトリックスRl,mpreおよびRl,mpostを計算する。
次に、パラメータセット(l,m)からサブバンド区切り(n,k)へと線形補間回路706、線形補間回路707にて線形補間を行う。
なお、この合成マトリックスの線形補間は、サブバンド値の各々の時間区切りスロットを、メモリ内ですべてのフレームのサブバンド値を保持することなく、一つ一つ復号することができる利点がある。また、フレームを基準にした合成方法に比べて顕著なメモリ削減効果が生じる。
例えば、MPEGサラウンドなどのSAC技術では、Mn,kpreは次の(式31)のように線形補間する。
ここで、(式32)、(式33)は、l番目の時間区切りスロットインデックスであり、(式34)で示される。
なお、SACデコーダでは、前述したサブバンドkは、不等分の周波数分解能(低周波数では高周波数に比べ細かい解像度を持っている)を保持しており、ハイブリッドバンドと呼ばれる。そして、本発明のクラス分離を用いたオブジェクト復号装置では、この不等分の周波数分解能を用いる。
以下、本発明の音響オブジェクト復号装置について説明する。図12は、本実施の形態における音響オブジェクト復号装置の1例の構成を示すブロック図である。
図12に示す音響オブジェクト復号装置800は、MPEG−SAOC技術を利用した場合の例を示している。この音響オブジェクト復号装置800は、トランスコーダ803と、MPS復号回路801とを備える。
トランスコーダ803は、入力されたダウンミックス符号化信号を、プリプロセスダウンミックス信号に復号し、MPS復号回路801に出力するダウンミックスプリプロプロセッサ804と、入力されたSAOC方式のオブジェクトパラメータをMPEGサラウンド方式のオブジェクトパラメータに変換してMPS復号回路801に出力するSAOCパラメータプロセス回路805とを備える。
MPS復号回路801は、ハイブリッド変換回路806と、MPS合成回路807と、逆ハイブリッド変換回路808と、クラス分類に基づきプリマトリックスを生成するクラス分類プリマトリクス生成回路809と、クラス分類に基づき線形補間する線形補間回路810と、クラス分類に基づきポストマトリックスを生成するクラス分類ポストマトリクス生成回路811と、クラス分類に基づき線形補間する線形補間回路812とを備える。
ハイブリッド変換回路806は、不等分の周波数分解能を用いて、プリプロセスダウンミックス信号をダウンミックス信号に変換し、MPS合成回路807に出力する。
逆ハイブリッド変換回路808は、不等分の周波数分解能を用いて、MPS合成回路807より出力されたマルチチャンネルの出力スペクトルを、複数チャンネルの時間領域の音響信号に変換して出力する。
MPS復号回路801は、入力されたダウンミックス信号をマルチチャンネルの出力スペクトルに合成して逆ハイブリッド変換回路808に出力する。なお、MPS復号回路801は、図11に示す合成部701に相当するため、詳細な説明は省略する。
以上のように、本発明の音響オブジェクト復号装置800は構成される。
このように、本発明のオブジェクト復号装置では、モノラルまたはステレオダウンミックス信号とともにクラス分類オブジェクト符号化したオブジェクトパラメータを復号できるようにするために、次の処理を行う。すなわち、クラス分類に基づいたプリマトリックスおよびポストマトリックスの生成、クラス分類に基づいたマトリックス(プリマトリックスおよびポストマトリックス)の線形補間、ダウンミックス信号に対してクラス分類に基づいたプリプロセス処理(ステレオ信号に対してのみ行う)、クラス分類に基づいた空間信号合成、最終的に複数のスペクトル信号を組み合わせる処理をそれぞれ実行する。
例えば、クラス分類に基づいたマトリックスの線形補間は次の(式35)のように計算する。
ここで、(式36)、(式37)はクラスSのl番目の時間区切りを示す。そして、(式38)のように表される。
そして、クラス分類に基づいたプレマトリックスMS preおよびポストマトリックスMS postは、図13に示すようにそれぞれクラス分類に基づいた空間合成手法が適用される。なお、図13は、ステレオダウンミックス信号に対する本発明のコアオブジェクト復号装置の例を示す図である。ここでは、xA(n、k)〜xD(n、k)は、モノラル信号の場合には同一のダウンミックス信号を示し、ステレオ信号の場合にはクラス分類されたプリプロセス処理後のダウンミックス信号を示している。また、空間合成器であるパラメトリックマルチチャンネル信号合成回路901はそれぞれ、図11に示すパラメトリックマルチチャンネル復号回路700に対応する。
そして、このパラメトリックマルチチャンネル信号合成回路901によりそれぞれ出力されたクラス分類に基づいたダウンミックス信号は、マルチチャンネルのスペクトル信号へと次の(式39)および(式40)のようにしてアップミックスされる。
合成スペクトル信号は、これらのクラス分類に基づいたスペクトル信号を次の(式41)のように合成することで取得される。
以上のようにして、クラス分類に基づくオブジェクト符号化およびオブジェクト復号を行うことができる。
なお、本実施の形態では、クラス分類に基づいたオブジェクト符号化信号を復号するために、本発明の音響オブジェクト復号装置では、A〜Dのクラス分類に対応して空間合成器を4つ用いている。これは、本発明のオブジェクト復号装置がMPEG−SAOC復号装置に比べて若干ながら演算量が増加することを示唆する。しかしながら、従来のオブジェクト復号装置において、演算量が必要な主要な構成要素は、T−F変換およびF−T変換部分である。その点を考慮すると、本発明のオブジェクト復号装置は、MPEG−SAOC復号装置と比べても、T−F変換部およびF−T変換部の数は理想的には変わらない。従って、本発明のオブジェクト復号装置の全体の演算量は、従来のMPEG−SAOC復号装置とほぼ同等となりうるのである。
以上、本発明によれば、ビットレートの極端な増加を抑制する符号化装置および復号装置を実現することができる。具体的には、最小限のビットレート上昇のみで、オブジェクト符号化の音質を向上させることができる。そのため、各オブジェクト信号の分離度を向上させることができるので、本発明のオブジェクト符号化方法を用いた場合、会議システムなどの臨場感を向上させることができる。また、本発明のオブジェクト符号化方法を用いた場合、インタラクティブリミックスシステムの音質を向上させることができる。
なお、本発明のオブジェクト符号化装置およびオブジェクト復号装置は、従来のMPEG−SAOC技術を用いるオブジェクト符号化装置およびオブジェクト復号装置と比べて、顕著に音質向上することが可能である。特に、非常に多くの過渡状態をもつ音響オブジェクト信号に対しては、適切なビットレートと演算量の元で符号化及び復号が可能となる。これは、ビットレートと音質の高度な両立が必須の多くのアプリケーションに対して非常に有益である。
(その他変形例)
なお、本発明のオブジェクト符号化装置およびオブジェクト復号装置について、上記実施の形態に基づいて説明してきたが、上記の実施の形態に限定されないのはもちろんである。以下のような場合も本発明に含まれる。
(1)上記の各装置は、具体的には、マイクロプロセッサ、ROM、RAM、ハードディスクユニット、ディスプレイユニット、キーボードおよびマウスなどから構成されるコンピュータシステムである。RAMまたはハードディスクユニットには、コンピュータプログラムが記憶されている。マイクロプロセッサが、上記コンピュータプログラムにしたがって動作することにより、各装置は、その機能を達成する。ここでコンピュータプログラムは、所定の機能を達成するために、コンピュータに対する指令を示す命令コードが複数個組み合わされて構成されたものである。
(2)上記の各装置を構成する構成要素の一部または全部は、1個のシステムLSI(Large Scale Integration:大規模集積回路)から構成されているとしてもよい。システムLSIは、複数の構成部を1個のチップ上に集積して製造された超多機能LSIであり、具体的には、マイクロプロセッサ、ROM、RAMなどを含んで構成されるコンピュータシステムである。上記RAMには、コンピュータプログラムが記憶されている。前記マイクロプロセッサが、上記コンピュータプログラムに従って動作することにより、システムLSIは、その機能を達成する。
(3)上記の各装置を構成する構成要素の一部または全部は、各装置に脱着可能なICカードまたは単体のモジュールから構成されているとしてもよい。上記ICカードまたは前記モジュールは、マイクロプロセッサ、ROM、RAMなどから構成されるコンピュータシステムである。上記ICカードまたは上記モジュールは、上記の超多機能LSIを含むとしてもよい。マイクロプロセッサが、コンピュータプログラムに従って動作することにより、上記ICカードまたは上記モジュールは、その機能を達成する。このICカードまたはこのモジュールは、耐タンパ性を有するとしてもよい。
(4)また、本発明は、上記に示す方法であるとしてもよい。また、これらの方法をコンピュータにより実現するコンピュータプログラムであるとしてもよいし、前記コンピュータプログラムからなるデジタル信号であるとしてもよい。
また、本発明は、前記コンピュータプログラムまたは前記デジタル信号をコンピュータ読み取り可能な記録媒体、例えば、フレキシブルディスク、ハードディスク、CD−ROM、MO、DVD、DVD−ROM、DVD−RAM、BD(Blu−ray Disc)、半導体メモリなどに記録したものとしてもよい。また、これらの記録媒体に記録されている前記デジタル信号であるとしてもよい。
また、本発明は、前記コンピュータプログラムまたは前記デジタル信号を、電気通信回線、無線または有線通信回線、インターネットを代表とするネットワーク、データ放送等を経由して伝送するものとしてもよい。
また、本発明は、マイクロプロセッサとメモリを備えたコンピュータシステムであって、前記メモリは、上記コンピュータプログラムを記憶しており、前記マイクロプロセッサは、前記コンピュータプログラムにしたがって動作するとしてもよい。
また、前記プログラムまたは前記デジタル信号を前記記録媒体に記録して移送することにより、または前記プログラムまたは前記デジタル信号を、前記ネットワーク等を経由して移送することにより、独立した他のコンピュータシステムにより実施するとしてもよい。
(5)上記実施の形態および上記変形例をそれぞれ組み合わせるとしてもよい。
本発明は、音響オブジェクト信号を符号化・復号する符号化装置および復号装置に利用でき、特に、インタラクティブ音源リミックスシステムやゲーム装置、あるいは多人数・他拠点を接続する会議システムなどの分野に適用される符号化装置および復号装置に利用することができる。
100、300 音響オブジェクト符号化装置
101、302 オブジェクトダウンミックス回路
102、303 T−F変換回路
103、308 オブジェクトパラメータ抽出回路
104 ダウンミックス信号符号化回路
105、309 多重化回路
200、800 音響オブジェクト復号装置
201、401、601 分離回路
203 オブジェクトパラメータ変換回路
204、605 ダウンミックス信号プリプロセス回路
205 オブジェクトパラメータ演算回路
206 パラメトリックマルチチャンネル復号回路
207 ドメイン変換回路
208 マルチチャンネル信号合成回路
209 F−T変換回路
210 ダウンミックス信号復号回路
301 ダウンミックス符号化部
304 オブジェクトパラメータ抽出部
305 オブジェクト分類部
306 オブジェクト区切り算出回路
307 オブジェクト分類回路
310 ダウンミックス信号符号化回路
402 オブジェクト復号回路
403、603 オブジェクトパラメータ分類回路
404、604 オブジェクトパラメータ演算回路
405、606 ダウンミックス信号復号回路
602 オブジェクト復号回路
700 パラメトリックマルチチャンネル復号回路
701 合成部
702 プリプロセスマトリックス演算回路
703 ポストマトリックス演算回路
704 プリプロセスマトリックス生成回路
705 ポストプロセスマトリックス生成回路
706、707、810、812 線形補間回路
708 残響成分生成回路
801 MPS復号回路
803 トランスコーダ
804 ダウンミックスプリプロプロセッサ
805 SAOCパラメータプロセス回路
806 ハイブリッド変換回路
807 MPS合成回路
808 逆ハイブリッド変換回路
809 クラス分類プリマトリクス生成回路
811 クラス分類ポストマトリクス生成回路
901 パラメトリックマルチチャンネル信号合成回路
3081、3082、3083、3084 抽出回路
本発明は、符号化装置および復号装置に関し、特に音響オブジェクト信号を符号化および復号する符号化装置および復号装置に関する。
音響信号を符号化する方法としては、例えば音響信号を時間的に所定のサンプルで時分割を行ってフレーム処理をすることにより音響信号を符号化する典型的な方法が知られている。また、このように符号化されて伝送された音響信号は、その後、復号され、復号された音響信号は、例えば、イヤホンやスピーカなどの音響再生システムや再生装置で再生される。
近年では、例えば復号後の音響信号を外部の音響信号とミキシングしたり、復号した音響信号を上下左右の任意の位置から再生するようにレンダリングしたりすることにより再生装置を使うユーザーの利便性を向上させる技術が開発されている。この技術では、例えば、ネットワーク網を介して行う遠隔会議の場合に、ある拠点での会議参加者は、他の拠点の参加者が発する音の空間的な配置を個別に調整したり、またはその音量を個別に調整したりできる。また例えば、音楽愛好家が自分の好きな楽曲のボーカルや様々なインスツルメンツ成分を様々に制御することで、音楽トラックのリミックス信号をインタラクティブに生成して音楽を楽しむことができる。
このような応用例を実現する技術として、パラメトリック音響オブジェクト符号化技術がある(例えば、特許文献1、非特許文献1参照)。例えば、近年規格化が進行中のMPEG−SAOC(Moving Picture Experts Group Spatial Audio Object Coding)規格は、非特許文献1に記載されているように開発されている。
ここで、例えば非特許文献2に開示されているMPEGサラウンドに代表されるパラメトリックマルチチャンネル符号化技術(SAC:Spectral Audio Coding)を元に、音響オブジェクト信号を効率的に符号化し、また低演算量で処理することを目標に開発されているSACに類似する符号化技術がある。このSACに類似する符号化技術では、例えば信号間の位相差またはレベル比など複数の音響信号間の統計的な関連性を算出して、量子化及び符号化する。それにより、複数の音響信号を独立に符号化する方式に比べて高効率に符号化することが可能である。そして、このSACに類似する符号化技術を音響オブジェクト信号に対して適用できるように拡張したものが、上記非特許文献1記載のMPEG−SAOC技術である。
例えばMPEG−SAOC技術などのパラメトリック音響オブジェクト符号化技術が用いられている再生装置(パラメトリック音響オブジェクト復号装置)の音響空間が、5.1chのマルチチャンネルサラウンド再生を可能とする音響空間であるとする。このとき、パラメトリック音響オブジェクト復号装置では、音響オブジェクト信号間の統計量に基づいた符号化パラメータを、音響空間パラメータ(HRTF係数)を用いて、トランスコーダーと呼ばれる装置によって変換する。それにより、音響信号を、受聴者の意図に即した音響空間配置で再生することが可能になる。
図1は、一般的なパラメトリックの音響オブジェクト符号化装置100の構成を示すブロック図である。図1に示す音響オブジェクト符号化装置100は、オブジェクトダウンミックス回路101と、T−F変換回路102と、オブジェクトパラメータ抽出回路103と、ダウンミックス信号符号化回路104とを備える。
オブジェクトダウンミックス回路101は、複数の音響オブジェクト信号が入力され、入力された複数の音響オブジェクト信号をモノラルまたはステレオのダウンミックス信号にダウンミックスする。
ダウンミックス信号符号化回路104は、オブジェクトダウンミックス回路101によりダウンミックスされたダウンミックス信号が入力される。ダウンミックス信号符号化回路104は、入力されたダウンミックス信号を符号化してダウンミックスビットストリームを生成する。ここで、MPEG−SAOC技術では、ダウンミックス符号化方式としては、MPEG−AAC方式が用いられる。
T−F変換回路102は、複数の音響オブジェクト信号が入力され、入力された複数の音響オブジェクト信号を、時間・周波数の両方によって規定されるスペクトラム信号へと分離する。
オブジェクトパラメータ抽出回路103は、T−F変換回路102によりスペクトラム信号に分離された複数の音響オブジェクト信号が入力され、入力されたスペクトラム信号に分離された複数の音響オブジェクト信号から、オブジェクトパラメータを算出する。ここで、MPEG−SAOC技術では、オブジェクトパラメータ(拡張情報)として、例えばオブジェクトレベル差(OLD)、オブジェクト相互相関係数(IOC)、ダウンミックスチャンネルレベル差(DCLD)、オブジェクトエネルギー(NRG)などがある。
多重化回路105は、オブジェクトパラメータ抽出回路103により算出したオブジェクトパラメータと、ダウンミックス信号符号化回路104により生成されたダウンミックスビットストリームとが入力される。多重化回路105は、入力されたダウンミックスビットストリームとオブジェクトパラメータとを一つのオーディオビットストリームに重畳して出力する。
以上のように音響オブジェクト符号化装置100は構成される。
図2は、典型的な音響オブジェクト復号装置200の構成を示すブロック図である。図2に示す音響オブジェクト復号装置200は、オブジェクトパラメータ変換回路203およびパラメトリックマルチチャンネル復号回路206を備える。
図2では、音響オブジェクト復号装置200が5.1chのスピーカを備える場合を示している。そのため、音響オブジェクト復号装置200は、2つの復号回路を直列に接続した構成となっている。具体的には、オブジェクトパラメータ変換回路203と、パラメトリックマルチチャンネル復号回路206とを直列に接続した構成となっている。また、図2に示すように、音響オブジェクト復号装置200の前段には、分離回路201と、ダウンミックス信号復号回路210とが設けられている。
分離回路201は、オブジェクトストリームすなわち音響オブジェクト符号化信号が入力され、入力された音響オブジェクト符号化信号を、ダウンミックス符号化信号と、オブジェクトパラメータ(拡張情報)とに分離する。分離回路201は、ダウンミックス符号化信号を、ダウンミックス信号復号回路210に出力し、オブジェクトパラメータ(拡張情報)をオブジェクトパラメータ変換回路203に出力する。
ダウンミックス信号復号回路210は、入力されたダウンミックス符号化信号を、ダウンミックス復号信号に復号し、オブジェクトパラメータ変換回路203に出力する。
オブジェクトパラメータ変換回路203は、ダウンミックス信号プリプロセス回路204とオブジェクトパラメータ演算回路205とを備える。
ダウンミックス信号プリプロセス回路204は、MPEGサラウンド符号化情報に含まれる空間予測パラメータの特性に基づいて、新しいダウンミックス信号を生成する役割を担っている。具体的には、ダウンミックス信号復号回路210によりオブジェクトパラメータ変換回路203に出力されたダウンミックス復号信号が入力される。ダウンミックス信号プリプロセス回路204は、入力されたウンミックス復号信号から、プリプロセスダウンミックス信号を生成する。その際、ダウンミックス信号プリプロセス回路204は、最終的に分離した音響オブジェクト信号の配置情報(レンダリング情報)とオブジェクトパラメータに含まれる情報とに従って、プリプロセスダウンミックス信号を生成する。そして、ダウンミックス信号プリプロセス回路204は、生成したプリプロセスダウンミックス信号をパラメトリックマルチチャンネル復号回路206に出力する。
オブジェクトパラメータ演算回路205は、オブジェクトパラメータを空間パラメータ(MPEGサラウンド方式のSpatialCueに相当)に変換する。具体的には、オブジェクトパラメータ演算回路205は、分離回路201によりオブジェクトパラメータ変換回路203に出力されたオブジェクトパラメータ(拡張情報)が入力される。オブジェクトパラメータ演算回路205は、入力されたオブジェクトパラメータを、音響空間パラメータに変換し、パラメトリックマルチチャンネル復号回路206に出力する。ここで、音響空間パラメータは、上記のSAC符号化方式の音響空間パラメータに相当する。
パラメトリックマルチチャンネル復号回路206は、プリプロセスダウンミックス信号と音響空間パラメータとが入力されて、プリプロセスダウンミックス信号と音響空間パラメータとから複数の音響信号を生成する。
パラメトリックマルチチャンネル復号回路206は、ドメイン変換回路207と、マルチチャンネル信号合成回路208と、F−T変換回路209とを備える。
ドメイン変換回路207は、パラメトリックマルチチャンネル復号回路206に入力されたプリプロセスダウンミックス信号を合成空間信号に変換する。
マルチチャンネル信号合成回路208は、ドメイン変換回路207により変換された合成空間信号を、オブジェクトパラメータ演算回路205により入力された音響空間パラメータに基づいて、複数チャンネルのスペクトル信号に変換する。
F−T変換回路209は、マルチチャンネル信号合成回路208により変換された複数チャンネルのスペクトル信号を、複数チャンネルの時間領域の音響信号に変換して、出力する。
以上のように音響オブジェクト復号装置200は構成される。
なお、上述した音響オブジェクト符号化方法は次の2つの機能を示している。一つは、伝送するオブジェクト数をすべて独立に符号化せず、ダウンミックス信号と小さなオブジェクトパラメータを伝送することで高い圧縮効率を実現する機能である。もう一つは、オブジェクトパラメータをレンダリング情報に基づいてリアルタイムに処理することで再生側の音響空間をリアルタイムに変更できる再合成性の機能である。
また、上記の音響オブジェクト符号化方法では、オブジェクトパラメータ(拡張情報)は、時間−周波数で区切られた升目毎(この升目の幅を時間粒度、周波数粒度という)に算出される。オブジェクトパラメータを算出する時間区分は、オブジェクトパラメータの伝送粒度に応じて適応的に決定される。そして、低ビットレートでは高ビットレート時に比べ、前記オブジェクトパラメータが、周波数分解能と時間分解能とのバランスを考慮しながらより効率的に符号化される必要がある。
また、音響オブジェクト符号化技術で用いる周波数分解能は、人間の聴覚特性の知見に基づいた区分けがなされている。一方、音響オブジェクト符号化技術で用いる時間分解能は、各フレームにおいてオブジェクトパラメータの姿態が大きく変化したことを検出して決定される。例えば各時間区切りの標準的なものとしては、フレームの区切り毎に一つの時間区切りを設けるものがある。そして、この標準的なものを用いると、当該フレームでは当該フレーム時間長で同一のオブジェクトパラメータを伝送することになる。
このように、音響オブジェクト符号化の符号化装置側で高い符号化効率を実現するために、各オブジェクトパラメータの時間分解能及び周波数分解能は適応的に制御されることが多い。これらの適応制御は、ダウンミックス信号の音響信号的複雑さや、各オブジェクト信号の特性、要求ビットレートに応じて随時変えることが一般的である。その一例を図3に示す。
図3は、時間区切りとサブバンド・パラメータセット・パラメータバンドの関係を示す図である。この図3に示すように、一つのフレームに含まれるスペクトル信号は、N個の時間区分、K個の周波数区分に区切られる。
ところで、上記非特許文献1に記載されているMPEG−SAOC技術においては、規格上各フレームが最大8個の時間区切りで構成される。また、時間区切りや周波数区切りを細かくすると当然符号化音質や各オブジェクト信号の分離感が向上するが、その分伝送する情報量が増大し、ビットレートが上昇してしまう。このように、ビットレートと音質とはトレードオフの関係にある。
そこで、実験的に示されている時間区切りの方法がある。すなわち、オブジェクトパラメータに適切なビットレートを割り当てるために、一つのフレームが1または2つの領域に分割されるように、少なくとも一つの追加時間区切りを設定する。このような限定は、オブジェクトパラメータに割り当てるビットレートと音質のちょうど良いバランスを実現することができる。例えば、0または1つの追加区切りに関しては、オブジェクトパラメータへの要求ビットレートはオブジェクトあたり約3kbpsであり、1シーン毎に3kbpsの追加オーバーヘッドが生じる。したがって、オブジェクト数の増加に比例して、従来の一般的なオブジェクト符号化よりもパラメトリックオブジェクト符号化方式の方がより効率的な符号化方式であることは明らかである。
このように、上記のような時間区切りを用いると、ビット効率の良いオブジェクト符号化によって良い音質を達成することができる。しかし、すべての必須アプリケーションに対して、常に十分な符号化音質を提供できるわけではない。そこで、パラメトリックオブジェクト符号化の音質と、トランスペアレントな音質との間に存在するギャップを埋めるために、パラメトリック符号化技術に、残差符号化手法が導入されている。
一般的な残差符号化手法において、残差信号は、ほとんどの場合、ダウンミックス信号の主要な部分でないところに関連している。ここで、簡潔にするために、残差信号は、2つのダウンミックス信号間の差分で構成しているとする。また、ビットレートを低くするために、残差信号の低い周波数成分が伝送されるとする。このような場合、残差信号の周波数帯域は、符号化装置側で設定され、消費ビットレートと再生品質とのトレードオフが調整される。
それに対して、MPEG−SAOC技術では、有益な残差信号としては2kHzの周波数帯域を保持していればよく、一残差信号あたり8kbps程度で符号化することによって、明確に音質向上が出現する。そこで、高音質が必要なオブジェクト信号に対しては、オブジェクトパラメータに割り当てるビットレートを、1オブジェクトあたり3+8=11kbps割り当てる。それにより、高品質なマルチオブジェクトが必要なアプリケーションであれば、要求ビットレートは、余裕を持って非常に高いものになると考えられる。
このように、高い符号化効率とオブジェクト信号の分離感などを向上させて音場再現性をより向上させるために、音響オブジェクト符号化手法が多くのアプリケーションシナリオで用いられている。
しかしながら、オブジェクトの音質に高いレベルが求められる際に、上記従来の構成の残差符号化方式では、ビットレートが極端に増加してしまう場合がある。
そこで、本発明は、上記課題を解決するためになされたもので、ビットレートの極端な増加を抑制する符号化装置および復号装置を提供することを目的とする。
前記従来の課題を解決するために、本発明の一態様に係る符号化装置は、入力された複数の音響信号を、前記入力された複数の音響信号の信号数よりも少ない数のチャンネルにダウンミックスして符号化するダウンミックス符号化部と、前記入力された複数の音響信号から、当該複数の音響信号間の関連性を示すパラメータを抽出するパラメータ抽出部と、前記パラメータ抽出部により抽出された前記パラメータと、前記ダウンミックス符号化部により生成されたダウンミックス符号化信号とを多重化する多重化回路とを備え、前記パラメータ抽出部は、前記入力された複数の音響信号のそれぞれを、当該複数の音響信号が有する音響特性に基づいて、予め定められた複数の種類に分類する分類部と、前記分類部により分類された音響信号のそれぞれから、前記複数の種類のそれぞれに対応して定められた時間粒度及び周波数粒度を用いて、前記パラメータを抽出する抽出部を有する。
この構成により、ビットレートの極端な増加を抑制する符号化装置を実現することができる。
また、前記分類部は、前記入力された複数の音響信号が有する過渡特性を表す過渡情報と、前記入力された複数の音響信号が有するトーン成分の強さを示すトナリティ情報とにより、当該複数の音響信号が有する音響特性を決定するとしてもよい。
また、前記分類部は、前記入力された複数の音響信号の少なくとも1つを、予め定められた時間粒度及び周波数粒度として第1の時間区切り及び第1の周波数区切りを有する第1の種類に分類するとしてもよい。
また、前記分類部は、前記入力された複数の音響信号が有する過渡特性を表す過渡情報を、前記第1の種類に属する音響信号が有する過渡情報と比較することにより、前記入力された複数の音響信号を、前記第1の種類と前記第1の種類と異なる複数の種類に分類するとしてもよい。
また、前記分類部は、前記入力された複数の音響信号のそれぞれを、当該複数の音響信号の音響特性に応じて、前記第1の種類と、前記第1の種類よりも1つ以上多い時間区切りまたは周波数区切りを有する第2の種類と、前記第1の種類と同じ時間区切り数を有するが異なる時間区切り位置を有する第3の種類と、前記第1の種類は1つの時間区切りを有するものの、前記入力された複数の音響信号は時間区切りを有さないまたは前記第1の種類は1つの時間区切りも有さないが前記入力された複数の音響信号は2つの時間区切りを有する第4の種類とのいずれかに分類するとしてもよい。
また、前記パラメータ抽出部は、前記抽出部により抽出された前記パラメータを符号化し、前記多重化回路は、前記パラメータ抽出部により符号化された当該パラメータをダウンミックス符号化信号と多重化し、前記パラメータ抽出部は、さらに、前記分類部により同一の種類で分類された複数の音響信号から抽出されたパラメータが共通の区切りの数を有する場合、当該複数の音響信号から抽出されたパラメータの1つのみを前記同一の種類で分類された複数の音響信号の共通の区切りの数として符号化するとしてもよい。
また、前記分類部は、前記音響特性として前記入力された複数の音響信号が有するトーン成分の強さを示すトナリティ情報に基づいて、前記入力された複数の音響信号のそれぞれの区切り位置を決定し、決定した当該区切り位置に応じて、前記入力された複数の音響信号のそれぞれを、予め定められた複数の種類に分類するとしてもよい。
また、前記従来の課題を解決するために、本発明の一態様に係る復号装置は、パラメトリックマルチチャンネル復号を行う復号装置であって、複数の音響信号がダウンミックスされて符号化されたダウンミックス符号化情報と、当該複数の音響信号間の関連性を示すパラメータとから構成される音響符号化信号を受信し、当該音響符号化信号を、前記ダウンミックス符号化情報と前記パラメータとに分離する分離部と、前記分離部によって分離された前記ダウンミックス符号化情報から、複数の音響ダウンミックス信号を復号するダウンミックス復号部と、前記分離部によって分離された前記パラメータを、複数の音響ダウンミックス信号を複数の音響信号に分離するための空間パラメータに変換するオブジェクト復号部と、前記オブジェクト復号部で変換された空間パラメータを用いて、前記複数の音響ダウンミックス信号を前記複数の音響信号にパラメトリックマルチチャンネル復号する復号部とを備え、オブジェクト復号部は、前記分離部によって分離された前記パラメータを、予め定められた複数の種類に分類する分類部と、前記分類部により分類された前記パラメータのそれぞれを、前記複数の種類に分類された前記空間パラメータに変換する演算部とを有する。
この構成により、ビットレートの極端な増加を抑制する復号装置を実現することができる。
また、前記復号装置は、さらに、前記復号部の前段に、前記ダウンミックス符号化情報をプリプロセスするプリプロセス部を備え、前記演算部は、前記分類部により分類された前記パラメータのそれぞれを、前記予め定められた複数の種類に基づき分類された空間配置情報に基づいて、前記複数の種類に分類された空間パラメータに変換し、前記プリプロセス部は、前記分類された前記パラメータのそれぞれと、前記分類された空間配置情報とに基づいて、前記ダウンミックス符号化情報をプリプロセスするとしてもよい。
また、前記空間配置情報は、前記複数の音響信号の空間配置に関する情報を示し、前記複数の音響信号に関連付けられており、前記予め定められた複数の種類に基づき分類された空間配置情報は、前記予め定められた複数の種類に分類された記複数の音響信号に関連付けられているとしてもよい。
また、前記復号部は、前記複数の音響ダウンミックス信号を、前記複数の種類に分類された空間パラメータに従って、前記複数の種類に分類された複数のスペクトル信号列に合成する合成部と、前記分類された複数のスペクトル信号を一つのスペクトル信号列に合算する合算部と、前記合算したスペクトル信号列を複数の音響信号に変換する変換部とを備えるとしてもよい。
また、前記復号装置は、さらに、入力された前記複数の音響ダウンミックス信号からマルチチャンネルの出力スペクトルを合成する音響信号合成部を備え、前記音響信号合成部は、前記入力された複数の音響ダウンミックス信号のゲインファクターを修正するプリプロセス行列演算部と、前記複数の種類に分類された空間パラメータを線形補間して、前記プリプロセス行列演算部に出力するプリプロセス乗算部と、前記プリプロセス行列演算部によりゲインファクターが修正された前記複数の音響ダウンミックス信号のうちの一部に対して残響信号付加処理を行う残響発生部と、前記残響発生部より残響信号付加処理が行われた前記修正された複数の音響ダウンミックス信号のうちの一部と、前記プリプロセス行列演算部より出力された前記修正された複数の音響ダウンミックス信号のうちの残部とから、所定の行列を用いてマルチチャンネルの出力スペクトルを生成するポストプロセス行列演算部とを有するとしてもよい。
なお、本発明は、装置として実現するだけでなく、このような装置が備える処理手段を備える集積回路として実現したり、その装置を構成する処理手段をステップとする方法として実現したり、それらステップをコンピュータに実行させるプログラムとして実現したり、そのプログラムを示す情報、データまたは信号として実現したりすることもできる。そして、それらプログラム、情報、データおよび信号は、CD−ROM等の記録媒体やインターネット等の通信媒体を介して配信してもよい。
本発明によれば、ビットレートの極端な増加を抑制する符号化装置および復号装置を実現することができる。例えば、符号化装置によって生成される符号化情報のビット効率を向上させつつ、復号装置によって復号される復号信号の音質を向上することができる。
図1は、従来の一般的な音響オブジェクト符号化装置の構成を示すブロック図である。
図2は、従来の典型的な音響オブジェクト復号装置の構成を示すブロック図である。
図3は、時間区切りとサブバンド・パラメータセット・パラメータバンドの関係を示す図である。
図4は、本発明の音響オブジェクト符号化装置の構成の1例を示すブロック図である。
図5は、オブジェクトパラメータ抽出回路308の詳細構成の一例を示す図である。
図6は、音響オブジェクト信号を分類する処理を説明するためのフローチャートである。
図7Aは、分類A(クラスA)を示す時間区切りの位置および周波数区切りの位置を示している。
図7Bは、分類B(クラスB)を示す時間区切りの位置および周波数区切りの位置を示している。
図7Cは、分類C(クラスC)を示す時間区切りの位置および周波数区切りの位置を示している。
図7Dは、分類D(クラスD)を示す時間区切りの位置および周波数区切りの位置を示している。
図8は、本発明の音響オブジェクト復号装置の1例の構成を示すブロック図である。
図9Aは、レンダリング情報をクラス分類する方法を示す図である。
図9Bは、レンダリング情報をクラス分類する方法を示す図である。
図10は、本発明の音響オブジェクト復号装置の別の1例の構成を示すブロック図である。
図11は、一般的な音響オブジェクト復号装置を示す図である。
図12は、本実施の形態における音響オブジェクト復号装置の1例の構成を示すブロック図である。
図13は、ステレオダウンミックス信号に対する本発明のコアオブジェクト復号装置の例を示す図である。
以下の実施の形態は、本発明の実施の形態の一例であって、これに限定するものではない。更に、本実施の形態は、最新の音響オブジェクト符号化(MPEG−SAOC)技術をベースにしているが、これに限ったものではなく、一般のパラメトリック音響オブジェクト符号化技術の音質向上に奏功する発明である。
一般的に、音響オブジェクト信号を符号化する時間区切りは、例えばオブジェクト数が増加しつつあったり、またはオブジェクト信号が急激に立ち上がったり、または音響特性の急激な変化が発生したりする過渡的な変動をきっかけに適応的に変化させる。また、符号化するオブジェクト信号が例えばボーカルと背景音楽との信号である場合のように、音響特性が異なる複数の音響オブジェクト信号は、異なった時間区切りにて符号化される場合が多い。そのため、MPEG−SAOCなどのパラメトリックオブジェクト符号化技術において、複数の音響オブジェクト信号を符号化する際に、従来のように通常の時間区切り数を0またはそれに1加えた程度では、すべての音響オブジェクト信号特性を反映する高音質なオブジェクト符号化を行うことは困難である。一方、もし複数の(多数の)時間区切りを設定して、すべての音響オブジェクト信号を取り込む場合、オブジェクトパラメータ情報に割り当てるビットレートがかなり増えてしまう。
これらの事実を考慮して、ビットレートと音質のちょうど良いバランスを取ることが非常に重要になる。
そこで、本発明では、符号化対象の音響オブジェクト信号を信号特性(音響特性)に応じて予め定めたいくつかのクラス(種類)に分類することで符号化効率を向上させる。具体的には、音響オブジェクト符号化する際の時間区切りを、入力された複数の音響信号の音響特性に応じて適応的に変化させる。つまり、音響オブジェクト符号化のオブジェクトパラメータ(拡張情報)を算出する時間区切り(時間解像度)が、入力された複数の音響オブジェクト信号の特性(音響特性)に応じて選択される。
以上の詳細について、以下の本発明の実施の形態において説明する。
(実施の形態1)
まず初めに、符号化装置側の説明を行う。
図4は、本発明の音響オブジェクト符号化装置の構成の1例を示すブロック図である。
図4に示す音響オブジェクト符号化装置300は、ダウンミックス符号化部301と、T−F変換回路303と、オブジェクトパラメータ抽出部304とを備える。また、音響オブジェクト符号化装置300は、後段に多重化回路309を備える。
ダウンミックス符号化部301は、オブジェクトダウンミックス回路302と、ダウンミックス信号符号化回路310とを備え、入力された複数の音響オブジェクト信号を、入力された複数の音響オブジェクト信号の信号数よりも少ない数のチャンネルにダウンミックスして符号化する。
具体的には、オブジェクトダウンミックス回路302は、複数の音響オブジェクト信号が入力され、入力された複数の音響オブジェクト信号を、例えばモノラルまたはステレオのように入力された音響オブジェクト信号の数よりも少ない数のチャネルのダウンミックス信号にダウンミックスする。ダウンミックス信号符号化回路310は、オブジェクトダウンミックス回路302によりダウンミックスされたダウンミックス信号が入力される。ダウンミックス信号符号化回路310は、入力されたダウンミックス信号を符号化してダウンミックスビットストリームを生成する。ここで、ダウンミックス符号化方式としては、例えばMPEG−AAC方式が用いられる。
T−F変換回路303は、複数の音響オブジェクト信号が入力され、入力された複数の音響オブジェクト信号を、時間・周波数の両方によって規定されるスペクトラム信号へと変換する。例えば、T−F変換回路303は、入力された複数の音響オブジェクト信号を、QMFフィルタバンクなどを用いて時間・周波数ドメインに変換する。そして、T−F変換回路303は、スペクトラム信号に分離された複数の音響オブジェクト信号をオブジェクトパラメータ抽出部304に出力する。
オブジェクトパラメータ抽出部304は、オブジェクト分類部305と、オブジェクトパラメータ抽出回路308とを備え、入力された複数の音響オブジェクト信号から、当該複数の音響オブジェクト信号間の音響的関連性を示すパラメータを抽出する。具体的には、オブジェクトパラメータ抽出部304は、T−F変換回路303により入力されたスペクトラム信号に変換した複数の音響オブジェクト信号から、複数の音響オブジェクト信号間の関連性を示すオブジェクトパラメータ(拡張情報)を算出(抽出)する。
より具体的には、オブジェクト分類部305は、オブジェクト区切り算出回路306と、オブジェクト分類回路307とを備え、入力された複数の音響オブジェクト信号のそれぞれを、当該複数の音響オブジェクト信号が有する音響特性に基づいて、予め定められた複数の種類に分類する。
さらに具体的には、オブジェクト区切り算出回路306は、当該複数の音響オブジェクト信号が有する音響特性に基づいて、複数の音響信号のそれぞれの区切り位置を示すオブジェクト区切り情報を算出する。なお、オブジェクト区切り算出回路306は、入力された複数の音響オブジェクト信号が有する過渡特性を表す過渡情報と、入力された複数の音響オブジェクト信号が有するトーン成分の強さを示すトナリティ情報とにより、当該複数の音響オブジェクト信号が有する音響特性を判定してオブジェクト区切り情報を決定してもよい。また、オブジェクト区切り算出回路306は、前記音響特性として、入力された複数の音響オブジェクト信号が有するトーン成分の強さを示すトナリティ情報に基づいて、入力された複数の音響オブジェクト信号のそれぞれの区切り位置を決定するとしてもよい。
オブジェクト分類回路307は、オブジェクト区切り算出回路306により決定(算出)された区切り位置に応じて、入力された複数の音響オブジェクト信号のそれぞれを、予め定められた複数の種類に分類する。例えば、オブジェクト分類回路307は、入力された複数の音響オブジェクト信号の少なくとも1つを、予め定められた時間粒度及び周波数粒度として第1の時間区切り及び第1の周波数区切りを有する第1の種類に分類する。また例えば、オブジェクト分類回路307は、入力された複数の音響オブジェクト信号が有する過渡特性を表す過渡情報を、前記第1の種類に属する音響オブジェクト信号が有する過渡情報と比較することにより、前記入力された複数の音響オブジェクト信号を、前記第1の種類と前記第1の種類と異なる複数の種類に分類する。また例えば、オブジェクト分類回路307は、入力された複数の音響オブジェクト信号のそれぞれを、当該複数の音響オブジェクト信号の音響特性に応じて、前記第1の種類と、前記第1の種類よりも1つ以上多い時間区切りまたは周波数区切りを有する第2の種類と、前記第1の種類と同じ区切り数を有するが異なる区切り位置である第3の種類と、前記第1の種類と異なり、入力された複数の音響オブジェクト信号が区切りを有さないまたは2つの区切りを有する第4の種類とのいずれかに分類する。
オブジェクトパラメータ抽出回路308は、オブジェクト分類部305により分類された音響オブジェクト信号のそれぞれから、複数の種類のそれぞれに対応して定められた時間粒度及び周波数粒度を用いて、オブジェクトパラメータ(拡張情報)を抽出する。
また、オブジェクトパラメータ抽出回路308は、前記抽出部により抽出された前記パラメータを符号化する。例えば、オブジェクトパラメータ抽出回路308は、オブジェクト分類部305により同一の種類で分類された複数の音響オブジェクト信号から抽出されたパラメータが共通の区切りの数を有する場合(例えば、複数の音響オブジェクト信号が似たような過渡応答を有する場合)、当該複数の音響オブジェクト信号から抽出されたパラメータの1つのみを同一の種類で分類された複数の音響オブジェクト信号の共通の区切りの数として符号化する。このように、時間区切り(時間解像度)を複数の時間区切り単位で共有して、オブジェクトパラメータの符号量を低減することもできる。
なお、オブジェクトパラメータ抽出回路308は、図5に示すように、複数のクラスのそれぞれに対応して設けられる抽出回路3081〜3084を備えているとしてもよい。ここで、図5は、オブジェクトパラメータ抽出回路308の詳細構成の一例を示す図である。図5では、複数のクラスが例えばクラスA〜クラスDからなる場合の例を示している。具体的には、オブジェクトパラメータ抽出回路308は、クラスAに対応する抽出回路3081と、クラスBに対応する抽出回路3082、クラスCに対応する抽出回路3083およびクラスDに対応する抽出回路3084を備える場合の例が示されている。
抽出回路3081〜3084にはそれぞれ、分類情報に基づいて、それぞれクラスA、クラスB、クラスCおよびクラスDに属するスペクトラム信号が入力される。抽出回路3081〜3084はそれぞれ、入力されたオスペクトラム信号から、オブジェクトパラメータを抽出し、抽出したオブジェクトパラメータを符号化して出力する。
多重化回路309は、前記パラメータ抽出部により抽出された前記パラメータと、前記ダウンミックス符号化部により符号化されたダウンミックス符号化信号とを多重化する。具体的には、多重化回路309は、オブジェクトパラメータ抽出部304によりオブジェクトパラメータが入力され、ダウンミックス符号化部301によりダウンミックスビットストリームが入力される。多重化回路105は、入力されたダウンミックスビットストリームとオブジェクトパラメータとを一つのオーディオビットストリームに重畳して出力する。
以上のように音響オブジェクト符号化装置300は構成される。
このように、図4に示す音響オブジェクト符号化装置300では、符号化対象の音響オブジェクト信号を信号特性(音響特性)に応じて予め定めたいくつかのクラス(種類)に分類するクラス分類機能を実現するオブジェクト分類部305を備えている。
次に、オブジェクト区切り算出回路306によるオブジェクト区切り情報の算出(決定)方法の詳細について説明する。
本実施の形態では、上述したように、音響特性に基づいて複数の音響信号のそれぞれの区切り位置を示すオブジェクト区切り情報を算出する。
具体的には、オブジェクト区切り算出回路306は、複数の音響オブジェクト信号がT−F変換回路303により時間・周波数ドメインに変換されたオブジェクト信号を元に複数の音響オブジェクト信号が有する個別のオブジェクトパラメータ(拡張情報)を抽出し、オブジェクト区切り情報を算出(決定)する。
例えば、オブジェクト区切り算出回路306は、音響オブジェクト信号が過渡状態になることに連動して、そのオブジェクト区切り情報を決める(算出する)。ここで、音響オブジェクト信号が過渡状態になることは、一般的な過渡状態検出方法を用いて算出することができる。すなわち、オブジェクト区切り算出回路306は、一般的な過渡状態検出方法として例えば、次に示す4ステップを実行することにより、オブジェクト区切り情報を決定(算出)することができる。
以下、それについて説明する。
ここで、時間・周波数ドメインに変換されたi番目の音響オブジェクト信号のスペクトルをMi(n、k)とする。また、時間区切りのインデックスnとしては(式1)を満たし、周波数サブバンドのインデックスkとしては(式2)、音響オブジェクト信号のインデックスiとしては(式3)を満たすものとする。
1)まず、各時間区切りにおいて、(式4)を用いて音響オブジェクト信号のエネルギーを計算する。ここで、演算子*は複素共役を示す。
2)次に、(式4)を用いて算出された過去の時間区切りにおけるエネルギーを元にして、(式5)を用いて当該時間区切りにおけるエネルギーを平滑化する。
ここで、αはスムージングパラメータであり、0〜1の間の実数である。また、(式6)は、直前のオーディオフレーム内の最も当該フレームに近い時間区切りにおけるi番目の音響オブジェクト信号のエネルギーを示している。
3)次に、当該時間区切りにおけるエネルギー値と、スムージングしたエネルギー値の比を(式7)を用いて計算する。
4)次に、上記エネルギー比が予め設定していた閾値Tよりも大きい場合に、当該時間区切り区間は過渡状態と判断し、過渡状態であるか否かを示す変数Tr(n)を(式8)のように決定する。
なお、閾値Tとしては、2.0が最良の値であるが、もちろんこれに限ったものではない。最終的に、バイノーラルキューの急激な変化は人間の聴覚システムでは検知できないと言う聴覚心理の知見を考慮して、人間が聴覚的に知覚しにくいようにする。すなわち、一つのフレームにおける過渡状態の時間区切りの数を2に制限する。そして、前記エネルギー比Ri(n)を降順にならべて、最も目立つ過渡状態の時間区切りのうちの2つ(ni1、ni2)を次の(式9)および(式10)の条件を満たすように抽出する。
その結果、前記Tri(n)の有効なサイズNtrは下記の(式11)ように制限される。
このように、オブジェクト区切り算出回路306は、音響オブジェクト信号が過渡状態であるかを検出する。
そして、この音響オブジェクト信号が過渡状態であるかを示す過渡情報(音響信号が有する音響特性)に基づいて、音響オブジェクト信号を予め定められた複数の種類(クラス)に分類する。例えば、この予め定められた複数の種類(クラス)が、標準クラスと複数のクラスであるとすると、上述した過渡情報に基づいて、音響オブジェクト信号は、標準クラスと複数のクラスとに分類される。
ここで、標準クラスは、標準の時間区切りと時間区切りの位置情報とを保持している。この標準クラスの標準の時間区切りと区切り位置情報とはオブジェクト区切り算出回路306により次のように決定される。
まず、標準の時間区切りを決定する。その際、上記のNi trに基づいて算出する。そして、必要であれば、標準の時間区切りの位置情報を音響オブジェクト信号のトナリティ情報に従って決定する。
次に、各々のオブジェクト信号を、各々の過渡応答セットのサイズに従って、例えば2つにグループ化する。そして、その2つのグループ内のオブジェクト数をそれぞれカウントする。すなわち、下記UおよびVの値を(式12)を用いて計算する。
次に、標準区切り数Nを(式13)から計算する。
なお、(式14)の場合、明らかなように、標準の時間区切りの位置情報を算出する必要がない。一方で、同一の時間区切りを持つすべての音響オブジェクト信号に対しては、標準の区切りの位置情報は各々のトナリティによって決定することができる。
ここで、トナリティは、入力される信号に含まれるトーン成分の強さを示す。そのため、トナリティは、入力される信号の信号成分がトーン信号か非トーン信号かを計測することで判定する。
なお、トナリティの計算方法は、各種文献に様々なバリエーションが開示されている。その一例として、トナリティ予測手法として、以下のアルゴリズムを説明する。
周波数ドメインに変換したi番目の音響オブジェクト信号をMi(n、k)とする。ここで、(式15)として、音響オブジェクト信号のトナリティは以下のようにして算出する。
1)まず、当該フレームの両端のフレーム間の相互相関を(式16)を用いて計算する。
2)次に、各サブバンドの調和エネルギーを(式17)を用いて計算する。
3)次に、各パラメータバンドのトナリティを(式18)を用いて計算する。
4)次に、音響オブジェクト信号のトナリティを(式19)を用いて算出する。
このようにして、音響オブジェクト信号のトナリティを予測する。
さらに、本発明では、高いトナリティを保持する音響オブジェクト信号が重要である。従って、トナリティが最も高いオブジェクト信号が、時間区切りの決定に最も大きな影響を与える。
そのため、標準の時間区切りは、最も高いトナリティを持つ音響オブジェクト信号の時間区切りと同じとする。また、同一のトナリティを持つ複数のオブジェクト信号の場合には、標準の区切りは、最も小さい時間区切りインデックスが選択される。従って、(式20)のようになる。
以上のようにして、オブジェクト区切り算出回路306により標準クラスの標準の時間区切りと区切り位置情報とが決定される。なお、標準的な周波数区切りを決定する場合も同様であるのでその説明は省略する。
次に、オブジェクト区切り算出回路306とオブジェクト分類回路307とによる音響オブジェクト信号を分類する処理について説明する。
図6は、音響オブジェクト信号を分類する処理を説明するためのフローチャートである。
まず、複数の音響オブジェクト信号がT−F変換回路303に入力され、T−F変換回路303により周波数ドメインに変換された複数のオブジェクト信号(例えばobj0〜objQ−1)がオブジェクト区切り算出回路306に入力される(S100)。
次に、オブジェクト区切り算出回路306は、入力された複数の音響信号が有する音響特性として各音響オブジェクト信号のトナリティ(例えば、Ton0〜TonQ−1)を、上述で説明したように計算する(S101)。次いで、オブジェクト区切り算出回路306は、各音響オブジェクト信号のトナリティ(例えば、Ton0〜TonQ−1)に基づいて、上述した標準の時間区切りを決定する手法と同様の手法にて、例えば標準クラスとその他の複数のクラスの時間区切りを決定する(S102)。
一方、オブジェクト区切り算出回路306は、入力された複数の音響信号が有する音響特性として各音響オブジェクト信号が過渡状態(Ntr 0〜Ntr Q−1、Ttr 0〜Ttr Q−1)であるかを示す過渡情報を上述で説明したように検出する(S103)。次いで、オブジェクト区切り算出回路306は、その過渡情報に基づいて、上述した標準の時間区切りを決定する手法と同様の手法にて、例えば標準クラスとその他の複数のクラスの時間区切りを決定し(S102)、かつ、それらクラスの区切り数を決定する(S104)。
次に、オブジェクト区切り算出回路306は、入力された複数の音響信号が有する音響特性に基づいて、複数の音響信号のそれぞれの区切り位置を示すオブジェクト区切り情報を算出する。次いで、オブジェクト分類回路307は、オブジェクト区切り算出回路306により決定(算出)されたオブジェクト区切り情報から、入力された複数の音響信号のそれぞれを、例えば標準クラスとその他のクラスなどの予め定められた複数の種類に分類する(S105)。
以上のように、オブジェクト区切り算出回路306と、オブジェクト分類回路307とは、入力された複数の音響信号のそれぞれを、当該複数の音響信号が有する音響特性に基づいて、予め定められた複数の種類に分類する。
なお、オブジェクト区切り算出回路306は、入力された複数の音響信号が有する音響特性として過渡情報とトナリティとを用いて、上記クラスの時間区切りを決定したが、それに限らない。オブジェクト区切り算出回路306は、その音響特性として各音響オブジェクト信号が有する過渡情報のみを用いてもよく、トナリティのみを用いてもよい。なお、オブジェクト区切り算出回路306は、入力された複数の音響信号が有する音響特性として過渡情報とトナリティとを用いて、上記クラスの時間区切りを決定する場合、過渡情報を用いて決定する方が支配的である。
以上、実施の形態1によれば、ビットレートの極端な増加を抑制する符号化装置を実現することができる。具体的には、実施の形態1の符号化装置によれば、最小限のビットレート上昇のみで、オブジェクト符号化の音質を向上させることができる。そのため、各オブジェクト信号の分離度を向上させることができる。
このように、音響オブジェクト符号化装置300では、MPEG−SAOCに代表される音響オブジェクト符号化と同様に、入力される音響オブジェクト信号を、ダウンミックス符号化部301とオブジェクトパラメータ抽出部304との二つの経路で演算する。すなわち、一つは、ダウンミックス符号化部301によって、複数の音響オブジェクト信号から例えばモノラルまたはステレオのダウンミックス信号が生成され、符号化される経路である。なお、MPEG−SAOC技術では、生成したダウンミックス信号をMPEG−AAC方式で符号化する。もう一つは、QMFフィルタバンクなどを用いて時間・周波数ドメインに変換された音響オブジェクト信号から、オブジェクトパラメータ抽出部304によって、オブジェクトパラメータが抽出されて符号化される経路である。なお、抽出する方法の詳細に関しては、非特許文献1に記載されている。
また、図1と図4とを比較すると、音響オブジェクト符号化装置300におけるオブジェクトパラメータ抽出部304の構成が異なり、特に、オブジェクト分類部305すなわちオブジェクト区切り算出回路306およびオブジェクト分類回路307を備える点で異なっている。そして、オブジェクトパラメータ抽出回路308では、オブジェクト分類部305により分類されたクラス(予め定められた複数の種類)に基づき、音響オブジェクト符号化する際の時間区切りを変更している。つまり、従来の過渡的な変動をきっかけに時間区切りが適応的に変化させる場合に比べると、オブジェクト分類部305により分類されたクラスの数に基づく時間区切りの数は、抑制できるので符号化効率がよい。それだけでなく、従来の時間区切り数を0またはそれに1加えた程度に比べて、オブジェクト分類部305により分類されたクラスの数に基づく時間区切りの数は多い。そのため、音響オブジェクト信号特性をより反映でき、高音質なオブジェクト符号化を実現できる。
(実施の形態2)
本実施の形態では、実施の形態1と同様に、音響オブジェクト信号を複数の種類のクラスに分類することは同じである。それ以外の差異に関して記載する。
本実施の形態では、標準クラスパターンに基づいて、周波数ドメインの音響オブジェクト信号を元に音響オブジェクト信号が有するオブジェクトパラメータ(拡張情報)を抽出する。そして、入力されるすべての音響オブジェクト信号はいくつかのクラスに分類される。ここでは、2種類の時間区切りを許容することで、すべての音響オブジェクト信号を、4種類のクラス(標準クラスも含む)に分類する。ここで、(表1)は、音響オブジェクト信号iを分類するときの基準を表している。
ここで、表1における各分類A〜Dに対する時間区切りの位置は、上記クラス分類内容にひも付けされた音響オブジェクト信号のトナリティ情報によって決定する。なお、同じ手順は、標準時間区切り位置を選択する際に用いている。
例えば、各分類A〜Dに対する時間区切りの位置および周波数区切りの位置は、図7A〜図7Dのように表すことができる。図7Aは、分類A(クラスA)を示す時間区切りの位置および周波数区切りの位置を示しており、図7Bは、分類B(クラスB)を示す時間区切りの位置および周波数区切りの位置を示している。図7Cは、分類C(クラスC)を示す時間区切りの位置および周波数区切りの位置を示しており、図7Dは、分類D(クラスD)を示す時間区切りの位置および周波数区切りの位置を示している。
そして、一旦クラスすなわち分類A〜Dが決定すれば、音響オブジェクト信号は同じ区切り数(区切り番号)と区切り位置との情報を共有する。これは、オブジェクトパラメータ(拡張情報)の抽出モジュールの後で実行される。そして、共通の時間区切り及び周波数区切りは、同じクラスに分類された音響オブジェクト信号間で共有する。
もし、すべてのオブジェクトが同一クラスに分類された場合、本発明のオブジェクト符号化技術は、既存のオブジェクト符号化と後方互換性を保持することは言うまでもない。一般的なオブジェクトパラメータ抽出手法と異なって、本発明での抽出方法は、分類されたクラスに基づいて実施する。
また、MPEG−SAOCで定義されているオブジェクトパラメータ(拡張情報)は様々な種類が存在する。以下、本願で考案した拡張型オブジェクト符号化手法で改良したオブジェクトパラメータについて述べる。なお、以下では、特に、OLD、IOC、NRGパラメータに関して説明する。
MPEG−SAOCのOLDパラメータは、入力される音響オブジェクト信号の時間区切りおよび周波数区切り毎のオブジェクトパワー比として次の(式21)のように定義されている。
分類されたクラスに基づいたオブジェクトパラメータ抽出方法では、音響オブジェクト信号iがクラスAに属するのであれば、OLDは、クラスAの入力オブジェクト信号の時間区切り・周波数区切りに対して、以下の(式22)のように計算する。
他のクラスに対しても同様に定義する。
次に、MPEG−SAOCのNRGパラメータについて説明する。最も大きなオブジェクトエネルギーを持つオブジェクトに対してNRGを計算するとき、MPEG−SAOCでは(式23)を用いて算出する。
分類されたクラスに基づいたオブジェクトパラメータ抽出方法では、(式24)を用いて複数のNRGパラメータの組を算出する。
ここで、Sは、表1のクラスA、クラスB、クラスCおよび、クラスDを示す。
次に、MPEG−SAOCのIOCパラメータについて説明する。元のIOCパラメータは、入力される音響オブジェクト信号の時間区切り・周波数区切りに対して(式25)を用いて算出する。
ここで、(式26)とする。
分類されたクラスに基づいたオブジェクトパラメータ抽出方法では、複数のIOCパラメータは、同一クラスからの入力オブジェクト信号の時間区切り・周波数区切りに対して同様に算出する。すなわち、(式27)を用いて算出する。
ここで、(式28)であり、Sは表1のクラスA、クラスB、クラスC、クラスDを示す。
以上のIOCの算出過程から、一つの音響オブジェクト信号のみが分類されているいずれかのクラスに対して、IOCパラメータを計算する必要はないのがわかる。一方で、同一クラスに分類されたステレオあるいはマルチチャンネルの音響オブジェクト信号に対しては、それらの信号のIOCパラメータを計算する必要がある。なお、異なる種類のクラスに分類されたいずれかの音響オブジェクト信号の組に対しては、クラス間のIOCパラメータは標準状態ではゼロとする。こうすることで、既存のオブジェクト符号化手法と互換性を保つことができる。
次に、上記のように音響オブジェクト信号を複数の種類のクラスに分類(以下クラス分類とも記載)するクラス分類手法を用いたオブジェクト復号方法について述べる。
以下、ダウンミックス信号の状態に応じて二つの場合すなわちダウンミックス信号がモノラル信号である場合とダウンミックス信号がステレオ信号である場合について説明する。
まず、ダウンミックス信号がモノラル信号である場合を説明する。
図8は、本発明の音響オブジェクト復号装置の1例の構成を示すブロック図である。なお、図8は、モノラルダウンミックス信号に対する音響オブジェクト復号装置の構成例を示している。図8に示す音響オブジェクト復号装置は、分離回路401と、オブジェクト復号回路402と、ダウンミックス信号復号回路405とを備える。
分離回路401は、オブジェクトストリームすなわち音響オブジェクト符号化信号が入力され、入力された音響オブジェクト符号化信号を、ダウンミックス符号化信号と、オブジェクトパラメータ(拡張情報)とに分離する。分離回路401は、ダウンミックス符号化信号を、ダウンミックス信号復号回路405に出力し、オブジェクトパラメータ(拡張情報)をオブジェクト復号回路402に出力する。
ダウンミックス信号復号回路405は、入力されたダウンミックス符号化信号を、ダウンミックス復号信号に復号する。
オブジェクト復号回路402は、オブジェクトパラメータ分類回路403と、複数のオブジェクトパラメータ演算回路404とを備える。
オブジェクトパラメータ分類回路403は、分離回路401により分離されたオブジェクトパラメータ(拡張情報)が入力され、入力されたオブジェクトパラメータを例えばクラスA〜クラスDのように複数のクラスに分類する。オブジェクトパラメータ分類回路403は、オブジェクトパラメータそれぞれに関連づけられたクラス特性に基づいてオブジェクトパラメータを分離し、対応するオブジェクトパラメータ演算回路404に出力する。
ここで、図8に示すように、オブジェクトパラメータ演算回路404は、本実施の形態では4つのプロセッサから構成されている。すなわち、複数のクラスがクラスA〜クラスDである場合、オブジェクトパラメータ演算回路404は、それぞれクラスA、クラスB、クラスCおよびクラスDに対応して設けられ、それぞれクラスA、クラスB、クラスCおよびクラスDに属するオブジェクトパラメータが入力される。そして、オブジェクトパラメータ演算回路404は、クラス分類され入力されたオブジェクトパラメータを、クラス分類されたレンダリング情報に応じて修正した空間パラメータへと変換する。
なお、これを実現するために、元々のレンダリング情報がクラス毎に分離される必要がある。そうすることで、あるクラスに割り当てられたクラス情報が一意性を保持しているため、クラスに分類された情報を元にして、前記空間パラメータへの変換が容易になる。ここで、図9Aおよび図9Bは、レンダリング情報をクラス分類する方法を示す図である。図9Aは、元々のレンダリング情報を、8つにクラス分類(クラスはA〜Dの4種類)されたレンダリング情報を示しており、図9Bは、元々のレンダリング情報をA〜Dのクラス毎に分離して出力するときのレンダリングマトリックス(レンダリング情報)を示している。ここでは、マトリックス要素ri、jは、オブジェクトi番目、出力j番目のレンダリング係数を示している。
オブジェクト復号回路402は、オブジェクトパラメータを空間パラメータ(MPEGサラウンド方式のSpatialCueに相当)に変換する図2のオブジェクトパラメータ演算回路205を拡張する構成からなる。
次に、ダウンミックス信号がステレオ信号である場合を説明する。
図10は、本発明の音響オブジェクト復号装置の別の1例の構成を示すブロック図である。なお、図10は、ステレオダウンミックス信号に対する音響オブジェクト復号装置の構成例を示している。図10に示す音響オブジェクト復号装置は、分離回路601と、クラス分類に基づいたオブジェクト復号回路602と、ダウンミックス信号復号回路606とを備える。また、オブジェクト復号回路602は、オブジェクトパラメータ分類回路603と、複数のオブジェクトパラメータ演算回路604と、複数のダウンミックス信号プリプロセス回路605とを備える。
分離回路601は、オブジェクトストリームすなわち音響オブジェクト符号化信号が入力され、入力された音響オブジェクト符号化信号を、ダウンミックス符号化信号と、オブジェクトパラメータ(拡張情報)とに分離する。分離回路601は、ダウンミックス符号化信号を、ダウンミックス信号復号回路606に出力し、オブジェクトパラメータ(拡張情報)をオブジェクト復号回路602に出力する。
ダウンミックス信号復号回路606は、入力されたダウンミックス符号化信号を、ダウンミックス復号信号に復号する。
オブジェクトパラメータ分類回路603は、分離回路601により分離されたオブジェクトパラメータ(拡張情報)が入力され、入力されたオブジェクトパラメータを例えばクラスA〜クラスDのように複数のクラスに分類する。そして、オブジェクトパラメータ分類回路603は、オブジェクトパラメータそれぞれに関連づけられたクラス特性に基づいて分類(分離した)オブジェクトパラメータを、対応するオブジェクトパラメータ演算回路404に出力する。
ここで、ダウンミックス信号がステレオ信号である場合、図10に示すように、オブジェクトパラメータ演算回路604とダウンミックス信号プリプロセス回路605との両方はそれぞれ、各クラスに対応して設けられている。そして、オブジェクトパラメータ演算回路604とダウンミックス信号プリプロセス回路605との両方はそれぞれ、対応するクラスに分類され入力されたオブジェクトパラメータと、対応するクラスに分類され入力されたレンダリング情報に基づいて処理を行う。結果として、オブジェクト復号回路602は、プリプロセスしたダウンミックス信号と空間パラメータの組とを4つ生成して出力する。
以上、実施の形態2によれば、ビットレートの極端な増加を抑制する符号化装置および復号装置を実現することができる。
(実施の形態3)
次に、実施の形態3では、クラス分類されたパラメトリックオブジェクト符号化方法によって生成されたビットストリームを復号する復号装置の別の態様について説明する。
まず、比較のために、一般的なマルチチャンネルデコーダ(スペーシャルデコーダ)について説明する。図11は、一般的な音響オブジェクト復号装置を示す図である。
図11に示す音響オブジェクト復号装置は、パラメトリックマルチチャンネル復号回路700を備えている。ここで、パラメトリックマルチチャンネル復号回路700は、図2に示すマルチチャンネル信号合成回路208の中核モジュールが一般化されたモジュールである。
パラメトリックマルチチャンネル復号回路700は、プリプロセスマトリックス演算回路702と、ポストマトリックス演算回路703と、プリプロセスマトリックス生成回路704と、ポストプロセスマトリックス生成回路705と、線形補間回路706および707と、残響成分生成回路708とを備える。
プリプロセスマトリックス演算回路702は、ダウンミックス信号(プリプロセスダウンミックス信号、合成空間信号でも同様)が入力される。ここで、プリプロセスマトリックス演算回路702は、各チャンネルのエネルギー値の変化を補償するように、ゲインファクターを修正する役割を果たす。そして、プリプロセスマトリックス演算回路702は、プリマトリックス(Mpre)のいくつかの出力を、デコラレーターである残響成分生成回路708(図中のD)に入力する。
デコラレーターである残響成分生成回路708は、一つまたは複数個からなり、それぞれ独立したデコラレーション(残響信号付加処理)を行う。なお、デコラレーターである残響成分生成回路708は、入力信号とは相関のない出力信号を生成する。
ポストマトリックス演算回路703は、プリプロセスマトリックス演算回路702によりゲインファクターが修正された複数の音響ダウンミックス信号の一部が残響発生回路708により残響信号付加処理が行われて入力され、かつ、プリプロセスマトリックス演算回路702によりゲインファクターが修正された残りの複数の音響ダウンミックス信号が入力される。ポストマトリックス演算回路703は、残響発生回路708より残響信号付加処理が行われた一部の複数の音響ダウンミックス信号と、プリプロセスマトリックス演算回路702より入力された残りの複数の音響ダウンミックス信号とから、所定の行列を用いてマルチチャンネルの出力スペクトルを生成する。具体的には、ポストマトリックス演算回路703は、ポストプロセスマトリックス(Mpost)を用いてマルチチャンネルの出力スペクトルを生成する。この際、チャンネル間相関値(MPEGサラウンドで言うICCパラメータ)によって残響処理した信号によって、エネルギー補償した信号を合成することで、前記出力スペクトルを生成する。
なお、プリプロセスマトリックス演算回路702と、ポストマトリックス演算回路703と、残響成分生成回路708とは、合成部701を構成している。
また、プリプロセスマトリックス(Mpre)とポストプロセスマトリックス(Mpost)とは、伝送されてきた空間パラメータから算出される。具体的には、プリプロセスマトリックス(Mpre)は、プリプロセスマトリックス生成回路704と線形補間回路706とにより複数の種類(クラス)に分類された空間パラメータを線形補間して算出され、ポストプロセスマトリックス(Mpost)は、ポストプロセスマトリックス生成回路705と線形補間回路707とにより複数の種類(クラス)に分類された空間パラメータ空間パラメータを線形補間して算出される。
次に、プリプロセスマトリックス(Mpre)とポストプロセスマトリックス(Mpost)とが算出される方法を説明する。
まず、信号のスペクトル上で、マトリックスMpreとMpostを合成するために、すべての時間区切りnおよびすべての周波数サブバンドkに対して(式29)および(式30)に示すようにマトリックスMn,k preおよびMn,k postを定義する。
また、伝送されてきた空間パラメータは、すべての時間区切りlおよびすべてのパラメータバンドmに対して定義される。
次に、スペーシャルデコーダである図11に示す音響オブジェクト復号装置では、再定義した合成マトリックスを算出するために、伝送された空間パラメータに基づいて、プリプロセスマトリックス生成回路704およびポストプロセスマトリックス生成回路705から、合成マトリックスRl,mpreおよびRl,mpostを計算する。
次に、パラメータセット(l,m)からサブバンド区切り(n,k)へと線形補間回路706、線形補間回路707にて線形補間を行う。
なお、この合成マトリックスの線形補間は、サブバンド値の各々の時間区切りスロットを、メモリ内ですべてのフレームのサブバンド値を保持することなく、一つ一つ復号することができる利点がある。また、フレームを基準にした合成方法に比べて顕著なメモリ削減効果が生じる。
例えば、MPEGサラウンドなどのSAC技術では、Mn,kpreは次の(式31)のように線形補間する。
ここで、(式32)、(式33)は、l番目の時間区切りスロットインデックスであり、(式34)で示される。
なお、SACデコーダでは、前述したサブバンドkは、不等分の周波数分解能(低周波数では高周波数に比べ細かい解像度を持っている)を保持しており、ハイブリッドバンドと呼ばれる。そして、本発明のクラス分離を用いたオブジェクト復号装置では、この不等分の周波数分解能を用いる。
以下、本発明の音響オブジェクト復号装置について説明する。図12は、本実施の形態における音響オブジェクト復号装置の1例の構成を示すブロック図である。
図12に示す音響オブジェクト復号装置800は、MPEG−SAOC技術を利用した場合の例を示している。この音響オブジェクト復号装置800は、トランスコーダ803と、MPS復号回路801とを備える。
トランスコーダ803は、入力されたダウンミックス符号化信号を、プリプロセスダウンミックス信号に復号し、MPS復号回路801に出力するダウンミックスプリプロプロセッサ804と、入力されたSAOC方式のオブジェクトパラメータをMPEGサラウンド方式のオブジェクトパラメータに変換してMPS復号回路801に出力するSAOCパラメータプロセス回路805とを備える。
MPS復号回路801は、ハイブリッド変換回路806と、MPS合成回路807と、逆ハイブリッド変換回路808と、クラス分類に基づきプリマトリックスを生成するクラス分類プリマトリクス生成回路809と、クラス分類に基づき線形補間する線形補間回路810と、クラス分類に基づきポストマトリックスを生成するクラス分類ポストマトリクス生成回路811と、クラス分類に基づき線形補間する線形補間回路812とを備える。
ハイブリッド変換回路806は、不等分の周波数分解能を用いて、プリプロセスダウンミックス信号をダウンミックス信号に変換し、MPS合成回路807に出力する。
逆ハイブリッド変換回路808は、不等分の周波数分解能を用いて、MPS合成回路807より出力されたマルチチャンネルの出力スペクトルを、複数チャンネルの時間領域の音響信号に変換して出力する。
MPS復号回路801は、入力されたダウンミックス信号をマルチチャンネルの出力スペクトルに合成して逆ハイブリッド変換回路808に出力する。なお、MPS復号回路801は、図11に示す合成部701に相当するため、詳細な説明は省略する。
以上のように、本発明の音響オブジェクト復号装置800は構成される。
このように、本発明のオブジェクト復号装置では、モノラルまたはステレオダウンミックス信号とともにクラス分類オブジェクト符号化したオブジェクトパラメータを復号できるようにするために、次の処理を行う。すなわち、クラス分類に基づいたプリマトリックスおよびポストマトリックスの生成、クラス分類に基づいたマトリックス(プリマトリックスおよびポストマトリックス)の線形補間、ダウンミックス信号に対してクラス分類に基づいたプリプロセス処理(ステレオ信号に対してのみ行う)、クラス分類に基づいた空間信号合成、最終的に複数のスペクトル信号を組み合わせる処理をそれぞれ実行する。
例えば、クラス分類に基づいたマトリックスの線形補間は次の(式35)のように計算する。
ここで、(式36)、(式37)はクラスSのl番目の時間区切りを示す。そして、(式38)のように表される。
そして、クラス分類に基づいたプレマトリックスMS preおよびポストマトリックスMS postは、図13に示すようにそれぞれクラス分類に基づいた空間合成手法が適用される。なお、図13は、ステレオダウンミックス信号に対する本発明のコアオブジェクト復号装置の例を示す図である。ここでは、xA(n、k)〜xD(n、k)は、モノラル信号の場合には同一のダウンミックス信号を示し、ステレオ信号の場合にはクラス分類されたプリプロセス処理後のダウンミックス信号を示している。また、空間合成器であるパラメトリックマルチチャンネル信号合成回路901はそれぞれ、図11に示すパラメトリックマルチチャンネル復号回路700に対応する。
そして、このパラメトリックマルチチャンネル信号合成回路901によりそれぞれ出力されたクラス分類に基づいたダウンミックス信号は、マルチチャンネルのスペクトル信号へと次の(式39)および(式40)のようにしてアップミックスされる。
合成スペクトル信号は、これらのクラス分類に基づいたスペクトル信号を次の(式41)のように合成することで取得される。
以上のようにして、クラス分類に基づくオブジェクト符号化およびオブジェクト復号を行うことができる。
なお、本実施の形態では、クラス分類に基づいたオブジェクト符号化信号を復号するために、本発明の音響オブジェクト復号装置では、A〜Dのクラス分類に対応して空間合成器を4つ用いている。これは、本発明のオブジェクト復号装置がMPEG−SAOC復号装置に比べて若干ながら演算量が増加することを示唆する。しかしながら、従来のオブジェクト復号装置において、演算量が必要な主要な構成要素は、T−F変換およびF−T変換部分である。その点を考慮すると、本発明のオブジェクト復号装置は、MPEG−SAOC復号装置と比べても、T−F変換部およびF−T変換部の数は理想的には変わらない。従って、本発明のオブジェクト復号装置の全体の演算量は、従来のMPEG−SAOC復号装置とほぼ同等となりうるのである。
以上、本発明によれば、ビットレートの極端な増加を抑制する符号化装置および復号装置を実現することができる。具体的には、最小限のビットレート上昇のみで、オブジェクト符号化の音質を向上させることができる。そのため、各オブジェクト信号の分離度を向上させることができるので、本発明のオブジェクト符号化方法を用いた場合、会議システムなどの臨場感を向上させることができる。また、本発明のオブジェクト符号化方法を用いた場合、インタラクティブリミックスシステムの音質を向上させることができる。
なお、本発明のオブジェクト符号化装置およびオブジェクト復号装置は、従来のMPEG−SAOC技術を用いるオブジェクト符号化装置およびオブジェクト復号装置と比べて、顕著に音質向上することが可能である。特に、非常に多くの過渡状態をもつ音響オブジェクト信号に対しては、適切なビットレートと演算量の元で符号化及び復号が可能となる。これは、ビットレートと音質の高度な両立が必須の多くのアプリケーションに対して非常に有益である。
(その他変形例)
なお、本発明のオブジェクト符号化装置およびオブジェクト復号装置について、上記実施の形態に基づいて説明してきたが、上記の実施の形態に限定されないのはもちろんである。以下のような場合も本発明に含まれる。
(1)上記の各装置は、具体的には、マイクロプロセッサ、ROM、RAM、ハードディスクユニット、ディスプレイユニット、キーボードおよびマウスなどから構成されるコンピュータシステムである。RAMまたはハードディスクユニットには、コンピュータプログラムが記憶されている。マイクロプロセッサが、上記コンピュータプログラムにしたがって動作することにより、各装置は、その機能を達成する。ここでコンピュータプログラムは、所定の機能を達成するために、コンピュータに対する指令を示す命令コードが複数個組み合わされて構成されたものである。
(2)上記の各装置を構成する構成要素の一部または全部は、1個のシステムLSI(Large Scale Integration:大規模集積回路)から構成されているとしてもよい。システムLSIは、複数の構成部を1個のチップ上に集積して製造された超多機能LSIであり、具体的には、マイクロプロセッサ、ROM、RAMなどを含んで構成されるコンピュータシステムである。上記RAMには、コンピュータプログラムが記憶されている。前記マイクロプロセッサが、上記コンピュータプログラムに従って動作することにより、システムLSIは、その機能を達成する。
(3)上記の各装置を構成する構成要素の一部または全部は、各装置に脱着可能なICカードまたは単体のモジュールから構成されているとしてもよい。上記ICカードまたは前記モジュールは、マイクロプロセッサ、ROM、RAMなどから構成されるコンピュータシステムである。上記ICカードまたは上記モジュールは、上記の超多機能LSIを含むとしてもよい。マイクロプロセッサが、コンピュータプログラムに従って動作することにより、上記ICカードまたは上記モジュールは、その機能を達成する。このICカードまたはこのモジュールは、耐タンパ性を有するとしてもよい。
(4)また、本発明は、上記に示す方法であるとしてもよい。また、これらの方法をコンピュータにより実現するコンピュータプログラムであるとしてもよいし、前記コンピュータプログラムからなるデジタル信号であるとしてもよい。
また、本発明は、前記コンピュータプログラムまたは前記デジタル信号をコンピュータ読み取り可能な記録媒体、例えば、フレキシブルディスク、ハードディスク、CD−ROM、MO、DVD、DVD−ROM、DVD−RAM、BD(Blu−ray Disc)、半導体メモリなどに記録したものとしてもよい。また、これらの記録媒体に記録されている前記デジタル信号であるとしてもよい。
また、本発明は、前記コンピュータプログラムまたは前記デジタル信号を、電気通信回線、無線または有線通信回線、インターネットを代表とするネットワーク、データ放送等を経由して伝送するものとしてもよい。
また、本発明は、マイクロプロセッサとメモリを備えたコンピュータシステムであって、前記メモリは、上記コンピュータプログラムを記憶しており、前記マイクロプロセッサは、前記コンピュータプログラムにしたがって動作するとしてもよい。
また、前記プログラムまたは前記デジタル信号を前記記録媒体に記録して移送することにより、または前記プログラムまたは前記デジタル信号を、前記ネットワーク等を経由して移送することにより、独立した他のコンピュータシステムにより実施するとしてもよい。
(5)上記実施の形態および上記変形例をそれぞれ組み合わせるとしてもよい。
本発明は、音響オブジェクト信号を符号化・復号する符号化装置および復号装置に利用でき、特に、インタラクティブ音源リミックスシステムやゲーム装置、あるいは多人数・他拠点を接続する会議システムなどの分野に適用される符号化装置および復号装置に利用することができる。
100、300 音響オブジェクト符号化装置
101、302 オブジェクトダウンミックス回路
102、303 T−F変換回路
103、308 オブジェクトパラメータ抽出回路
104 ダウンミックス信号符号化回路
105、309 多重化回路
200、800 音響オブジェクト復号装置
201、401、601 分離回路
203 オブジェクトパラメータ変換回路
204、605 ダウンミックス信号プリプロセス回路
205 オブジェクトパラメータ演算回路
206 パラメトリックマルチチャンネル復号回路
207 ドメイン変換回路
208 マルチチャンネル信号合成回路
209 F−T変換回路
210 ダウンミックス信号復号回路
301 ダウンミックス符号化部
304 オブジェクトパラメータ抽出部
305 オブジェクト分類部
306 オブジェクト区切り算出回路
307 オブジェクト分類回路
310 ダウンミックス信号符号化回路
402 オブジェクト復号回路
403、603 オブジェクトパラメータ分類回路
404、604 オブジェクトパラメータ演算回路
405、606 ダウンミックス信号復号回路
602 オブジェクト復号回路
700 パラメトリックマルチチャンネル復号回路
701 合成部
702 プリプロセスマトリックス演算回路
703 ポストマトリックス演算回路
704 プリプロセスマトリックス生成回路
705 ポストプロセスマトリックス生成回路
706、707、810、812 線形補間回路
708 残響成分生成回路
801 MPS復号回路
803 トランスコーダ
804 ダウンミックスプリプロプロセッサ
805 SAOCパラメータプロセス回路
806 ハイブリッド変換回路
807 MPS合成回路
808 逆ハイブリッド変換回路
809 クラス分類プリマトリクス生成回路
811 クラス分類ポストマトリクス生成回路
901 パラメトリックマルチチャンネル信号合成回路
3081、3082、3083、3084 抽出回路