WO2014192602A1 - 符号化装置および方法、復号装置および方法、並びにプログラム - Google Patents

符号化装置および方法、復号装置および方法、並びにプログラム Download PDF

Info

Publication number
WO2014192602A1
WO2014192602A1 PCT/JP2014/063409 JP2014063409W WO2014192602A1 WO 2014192602 A1 WO2014192602 A1 WO 2014192602A1 JP 2014063409 W JP2014063409 W JP 2014063409W WO 2014192602 A1 WO2014192602 A1 WO 2014192602A1
Authority
WO
WIPO (PCT)
Prior art keywords
encoding
position information
mode
information
encoding mode
Prior art date
Application number
PCT/JP2014/063409
Other languages
English (en)
French (fr)
Inventor
潤宇 史
優樹 山本
徹 知念
光行 畠中
Original Assignee
ソニー株式会社
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by ソニー株式会社 filed Critical ソニー株式会社
Priority to US14/893,909 priority Critical patent/US9805729B2/en
Priority to JP2015519803A priority patent/JP6380389B2/ja
Priority to EP14803533.0A priority patent/EP3007168A4/en
Priority to CN201480029798.0A priority patent/CN105229734B/zh
Publication of WO2014192602A1 publication Critical patent/WO2014192602A1/ja

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/008Multichannel audio signal coding or decoding using interchannel correlation to reduce redundancy, e.g. joint-stereo, intensity-coding or matrixing
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/16Vocoder architecture
    • G10L19/167Audio streaming, i.e. formatting and decoding of an encoded audio signal representation into a data stream for transmission or storage purposes
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/16Vocoder architecture
    • G10L19/18Vocoders using multiple modes
    • G10L19/22Mode decision, i.e. based on audio signal content versus external parameters
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S3/00Systems employing more than two channels, e.g. quadraphonic
    • H04S3/002Non-adaptive circuits, e.g. manually adjustable or static, for enhancing the sound image or the spatial distribution
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S3/00Systems employing more than two channels, e.g. quadraphonic
    • H04S3/02Systems employing more than two channels, e.g. quadraphonic of the matrix type, i.e. in which input signals are combined algebraically, e.g. after having been phase shifted with respect to each other
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S5/00Pseudo-stereo systems, e.g. in which additional channel signals are derived from monophonic signals by means of phase shifting, time delay or reverberation 
    • H04S5/005Pseudo-stereo systems, e.g. in which additional channel signals are derived from monophonic signals by means of phase shifting, time delay or reverberation  of the pseudo five- or more-channel type, e.g. virtual surround
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S5/00Pseudo-stereo systems, e.g. in which additional channel signals are derived from monophonic signals by means of phase shifting, time delay or reverberation 
    • H04S5/02Pseudo-stereo systems, e.g. in which additional channel signals are derived from monophonic signals by means of phase shifting, time delay or reverberation  of the pseudo four-channel type, e.g. in which rear channel signals are derived from two-channel stereo signals
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S2400/00Details of stereophonic systems covered by H04S but not provided for in its groups
    • H04S2400/01Multi-channel, i.e. more than two input channels, sound reproduction with two speakers wherein the multi-channel information is substantially preserved
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S2400/00Details of stereophonic systems covered by H04S but not provided for in its groups
    • H04S2400/15Aspects of sound capture and related signal processing for recording or reproduction
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S2420/00Techniques used stereophonic systems covered by H04S but not provided for in its groups
    • H04S2420/01Enhancing the perception of the sound image or of the spatial distribution using head related transfer functions [HRTF's] or equivalents thereof, e.g. interaural time difference [ITD] or interaural level difference [ILD]
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S2420/00Techniques used stereophonic systems covered by H04S but not provided for in its groups
    • H04S2420/03Application of parametric coding in stereophonic audio systems

Abstract

 本技術は、より高品質な音声を得ることができるようにする符号化装置および方法、復号装置および方法、並びにプログラムに関する。 符号化部は、現フレームのオブジェクトの位置情報およびゲインを、複数の符号化モードで符号化する。圧縮部は、各位置情報およびゲインの符号化モードの組み合わせごとに、符号化モードを示す符号化モード情報と、符号化された位置情報およびゲインである符号化データとからなる符号化メタデータを生成するとともに、符号化メタデータに含まれる符号化モード情報の圧縮を行なう。決定部は、各組み合わせについて生成された符号化メタデータのなかから、最もデータ量が少ない符号化メタデータを選択することで、各位置情報およびゲインの符号化モードを決定する。本技術は、エンコーダおよびデコーダに適用することができる。

Description

符号化装置および方法、復号装置および方法、並びにプログラム
 本技術は符号化装置および方法、復号装置および方法、並びにプログラムに関し、特に、より高品質な音声を得ることができるようにした符号化装置および方法、復号装置および方法、並びにプログラムに関する。
 従来、複数のスピーカを用いて音像の定位を制御する技術として、VBAP(Vector Base Amplitude Pannning)が知られている(例えば、非特許文献1参照)。
 VBAPでは、目標となる音像の定位位置が、その定位位置の周囲にある2つまたは3つのスピーカの方向を向くベクトルの線形和で表現される。そして、その線形和において各ベクトルに乗算されている係数が、各スピーカから出力される音声のゲインとして用いられてゲイン調整が行なわれ、目標となる位置に音像が定位するようになされる。
Ville Pulkki, "Virtual Sound Source Positioning Using Vector Base Amplitude Panning", Journal of AES, vol.45, no.6, pp.456-466, 1997
 ところで、マルチチャンネルのオーディオ再生においては、音源のオーディオデータとともに、音源の位置情報を取得することができれば、各音源の音像定位位置を正しく定義することができるので、より臨場感のあるオーディオ再生を実現することができる。
 ところが、再生装置に対して音源のオーディオデータと、その音源の位置情報等のメタデータとを転送しようとする場合、データ転送のビットレートが定められているときには、メタデータのデータ量が多いとオーディオデータのデータ量を削減しなければならない。そうすると、オーディオデータの音声の品質が低下してしまうことになる。
 本技術は、このような状況に鑑みてなされたものであり、より高品質な音声を得ることができるようにするものである。
 本技術の第1の側面の符号化装置は、所定の時刻における音源の位置情報を、前記所定の時刻よりも前の時刻における前記音源の前記位置情報に基づいて、所定の符号化モードにより符号化する符号化部と、複数の前記符号化モードのうちの1つを前記位置情報の前記符号化モードとして決定する決定部と、前記決定部により決定された前記符号化モードを示す符号化モード情報と、前記決定部により決定された前記符号化モードにより符号化された前記位置情報とを出力する出力部とを備える。
 前記符号化モードを、前記位置情報をそのまま前記符号化された前記位置情報とするRAWモード、前記音源が静止しているとして前記位置情報を符号化する静止モード、前記音源が等速度で移動しているとして前記位置情報を符号化する等速度モード、前記音源が等加速度で移動しているとして前記位置情報を符号化する等加速度モード、または前記位置情報の残差に基づいて前記位置情報を符号化する残差モードとすることができる。
 前記位置情報を前記音源の位置を表す水平方向角度、垂直方向角度、または距離とすることができる。
 前記残差モードにより符号化された前記位置情報を、前記位置情報としての角度の差分を示す情報とすることができる。
 前記出力部には、複数の前記音源について、前記所定の時刻における全ての前記音源の前記位置情報の前記符号化モードが、前記所定の時刻の直前の時刻における前記符号化モードと同じである場合、前記符号化モード情報を出力させないようにすることができる。
 前記出力部には、前記所定の時刻において、複数の前記音源のうちの一部の前記音源の前記位置情報の前記符号化モードが、前記所定の時刻の直前の時刻における前記符号化モードと異なる場合、全ての前記符号化モード情報のうち、前記直前の時刻とは前記符号化モードが異なる前記音源の前記位置情報の前記符号化モード情報のみを出力させることができる。
 符号化装置には、前記位置情報を所定の量子化幅で量子化する量子化部と、前記音源のオーディオデータの特徴量に基づいて、前記量子化幅を決定する圧縮率決定部とをさらに設け、前記符号化部には、量子化された前記位置情報を符号化させることができる。
 符号化装置には、過去に出力した前記符号化モード情報および前記符号化された前記位置情報のデータ量に基づいて、前記位置情報を符号化する前記符号化モードの入れ替えを行なう切替部をさらに設けることができる。
 前記符号化部には、前記音源のゲインをさらに符号化させ、前記出力部には、前記ゲインの前記符号化モード情報と、符号化された前記ゲインとをさらに出力させることができる。
 本技術の第1の側面の符号化方法またはプログラムは、所定の時刻における音源の位置情報を、前記所定の時刻よりも前の時刻における前記音源の前記位置情報に基づいて、所定の符号化モードにより符号化し、複数の前記符号化モードのうちの1つを前記位置情報の前記符号化モードとして決定し、決定された前記符号化モードを示す符号化モード情報と、決定された前記符号化モードにより符号化された前記位置情報とを出力するステップを含む。
 本技術の第1の側面においては、所定の時刻における音源の位置情報が、前記所定の時刻よりも前の時刻における前記音源の前記位置情報に基づいて、所定の符号化モードにより符号化され、複数の前記符号化モードのうちの1つが前記位置情報の前記符号化モードとして決定され、決定された前記符号化モードを示す符号化モード情報と、決定された前記符号化モードにより符号化された前記位置情報とが出力される。
 本技術の第2の側面の復号装置は、所定の時刻における音源の符号化された位置情報と、複数の符号化モードのうちの前記位置情報を符号化した符号化モードを示す符号化モード情報とを取得する取得部と、前記所定の時刻よりも前の時刻における前記音源の前記位置情報に基づいて、前記符号化モード情報により示される前記符号化モードに対応する方式で、前記所定の時刻における前記符号化された前記位置情報を復号する復号部とを備える。
 前記符号化モードを、前記位置情報をそのまま前記符号化された前記位置情報とするRAWモード、前記音源が静止しているとして前記位置情報を符号化する静止モード、前記音源が等速度で移動しているとして前記位置情報を符号化する等速度モード、前記音源が等加速度で移動しているとして前記位置情報を符号化する等加速度モード、または前記位置情報の残差に基づいて前記位置情報を符号化する残差モードとすることができる。
 前記位置情報を前記音源の位置を表す水平方向角度、垂直方向角度、または距離とすることができる。
 前記残差モードにより符号化された前記位置情報を、前記位置情報としての角度の差分を示す情報とすることができる。
 前記取得部には、複数の前記音源について、前記所定の時刻における全ての前記音源の前記位置情報の前記符号化モードが、前記所定の時刻の直前の時刻における前記符号化モードと同じである場合、前記符号化された前記位置情報のみを取得させることができる。
 前記取得部には、前記所定の時刻において、複数の前記音源のうちの一部の前記音源の前記位置情報の前記符号化モードが、前記所定の時刻の直前の時刻における前記符号化モードと異なる場合、前記符号化された前記位置情報と、前記直前の時刻とは前記符号化モードが異なる前記音源の前記位置情報の前記符号化モード情報とを取得させることができる。
 前記取得部には、前記音源のオーディオデータの特徴量に基づいて決定された、前記位置情報の符号化時に前記位置情報を量子化した量子化幅を示す情報をさらに取得させることができる。
 本技術の第2の側面の復号方法またはプログラムは、所定の時刻における音源の符号化された位置情報と、複数の符号化モードのうちの前記位置情報を符号化した符号化モードを示す符号化モード情報とを取得し、前記所定の時刻よりも前の時刻における前記音源の前記位置情報に基づいて、前記符号化モード情報により示される前記符号化モードに対応する方式で、前記所定の時刻における前記符号化された前記位置情報を復号するステップを含む。
 本技術の第2の側面においては、所定の時刻における音源の符号化された位置情報と、複数の符号化モードのうちの前記位置情報を符号化した符号化モードを示す符号化モード情報とが取得され、前記所定の時刻よりも前の時刻における前記音源の前記位置情報に基づいて、前記符号化モード情報により示される前記符号化モードに対応する方式で、前記所定の時刻における前記符号化された前記位置情報が復号される。
 本技術の第1の側面および第2の側面によれば、より高品質な音声を得ることができる。
オーディオシステムの構成例を示す図である。 オブジェクトのメタデータについて説明する図である。 符号化されたメタデータについて説明する図である。 メタデータエンコーダの構成例を示す図である。 符号化処理を説明するフローチャートである。 運動パターン予測モードによる符号化処理を説明するフローチャートである。 残差モードによる符号化処理を説明するフローチャートである。 符号化モード情報圧縮処理を説明するフローチャートである。 入れ替え処理を説明するフローチャートである。 メタデータデコーダの構成例を示す図である。 復号処理を説明するフローチャートである。 メタデータエンコーダの構成例を示す図である。 符号化処理を説明するフローチャートである。 コンピュータの構成例を示す図である。
 以下、図面を参照して、本技術を適用した実施の形態について説明する。
〈第1の実施の形態〉
〈オーディオシステムの構成例〉
 本技術は、音源の位置を示す情報など、音源に関する情報であるメタデータのデータ量を圧縮するための符号化および復号に関するものである。図1は、本技術を適用したオーディオシステムの一実施の形態の構成例を示す図である。
 このオーディオシステムは、マイクロホン11-1乃至マイクロホン11-N、空間位置情報出力装置12、エンコーダ13、デコーダ14、再生装置15、およびスピーカ16-1乃至スピーカ16-Jから構成される。
 マイクロホン11-1乃至マイクロホン11-Nは、例えば音源となるオブジェクトに取り付けられ、周囲の音声を収音して得られたオーディオデータをエンコーダ13に供給する。ここで、音源となるオブジェクトは、例えば時刻によって静止していたり動いていたりする移動物体などとされる。
 なお、以下、マイクロホン11-1乃至マイクロホン11-Nを特に区別する必要のない場合、単にマイクロホン11とも称することとする。図1の例では、各マイクロホン11が互いに異なるN個のオブジェクトに取り付けられている。
 空間位置情報出力装置12は、マイクロホン11が取り付けられているオブジェクトの各時刻における空間内の位置を示す情報等をオーディオデータのメタデータとしてエンコーダ13に供給する。
 エンコーダ13は、マイクロホン11から供給されたオーディオデータと、空間位置情報出力装置12から供給されたメタデータとを符号化してデコーダ14に出力する。エンコーダ13は、オーディオデータエンコーダ21およびメタデータエンコーダ22を備えている。
 オーディオデータエンコーダ21は、マイクロホン11から供給されたオーディオデータを符号化してデコーダ14に出力する。すなわち、符号化されたオーディオデータが多重化されてビットストリームとされ、デコーダ14に転送される。
 また、メタデータエンコーダ22は、空間位置情報出力装置12から供給されたメタデータを符号化してデコーダ14に供給する。すなわち、符号化されたメタデータがビットストリームに記述されてデコーダ14に転送される。
 デコーダ14は、エンコーダ13から供給されたオーディオデータとメタデータを復号して再生装置15に供給する。デコーダ14は、オーディオデータデコーダ31およびメタデータデコーダ32を備えている。
 オーディオデータデコーダ31は、オーディオデータエンコーダ21から供給された、符号化されたオーディオデータを復号し、その結果得られたオーディオデータを再生装置15に供給する。また、メタデータデコーダ32は、メタデータエンコーダ22から供給された、符号化されたメタデータを復号し、その結果得られたメタデータを再生装置15に供給する。
 再生装置15は、メタデータデコーダ32から供給されたメタデータに基づいて、オーディオデータデコーダ31から供給されたオーディオデータのゲイン等を調整し、適宜、調整が行なわれたオーディオデータをスピーカ16-1乃至スピーカ16-Jに供給する。スピーカ16-1乃至スピーカ16-Jは、再生装置15から供給されたオーディオデータに基づいて音声を再生する。これにより、各オブジェクトに対応する空間上の位置に音像を定位させることができ、臨場感のあるオーディオ再生を実現することができるようになる。
 なお、以下、スピーカ16-1乃至スピーカ16-Jを特に区別する必要のない場合、単にスピーカ16とも称することとする。
 ところで、エンコーダ13とデコーダ14との間で授受されるオーディオデータとメタデータの転送時における合計ビットレートが予め定められている場合、メタデータのデータ量が大きいと、その分だけオーディオデータのデータ量を削減しなければならなくなる。そうすると、オーディオデータの音質が劣化してしまうことになる。
 そこで、本技術では、メタデータの符号化効率を向上させてデータ量を圧縮することで、より高品質なオーディオデータを得ることができるようにする。
〈メタデータについて〉
 まずメタデータについて説明する。
 空間位置情報出力装置12からメタデータエンコーダ22に供給されるメタデータは、N個の各オブジェクト(音源)の位置を特定するためのデータを含む、オブジェクトに関するデータである。例えばメタデータには、オブジェクトごとに以下の(D1)乃至(D5)に示す5つの情報が含まれている。
 (D1)オブジェクトを示すインデックス
 (D2)オブジェクトの水平方向角度θ
 (D3)オブジェクトの垂直方向角度γ
 (D4)オブジェクトから視聴者までの距離r
 (D5)オブジェクトの音声のゲインg
 このようなメタデータは、所定間隔の時刻ごと、具体的にはオブジェクトのオーディオデータのフレームごとにメタデータエンコーダ22に供給される。
 例えば図2に示すように、スピーカ16(不図示)から出力される音声を聴いている視聴者の位置を原点Oとし、図中、右上方向、左上方向、および上方向を互いに垂直なx軸、y軸、およびz軸の方向とする3次元座標系を考える。このとき、1つのオブジェクトに対応する音源を仮想音源VS11とすると、3次元座標系における仮想音源VS11の位置に音像を定位させればよい。
 ここで、例えば仮想音源VS11を示す情報が、メタデータに含まれるオブジェクトを示すインデックスとされ、そのインデックスはN個の離散値のうちの何れかの値とされる。
 また、例えば仮想音源VS11と原点Oとを結ぶ直線を直線Lとすると、xy平面上において直線Lとx軸とがなす図中、水平方向の角度(方位角)が、メタデータに含まれている水平方向角度θとなり、水平方向角度θは-180°≦θ≦180°を満たす任意の値とされる。
 さらに、直線Lとxy平面とがなす角度、つまり図中、垂直方向の角度(仰角)が、メタデータに含まれている垂直方向角度γとなり、垂直方向角度γは-90°≦γ≦90°を満たす任意の値とされる。また、直線Lの長さ、つまり原点Oから仮想音源VS11までの距離が、メタデータに含まれる視聴者までの距離rとされ、距離rは0以上の値とされる。すなわち、距離rは、0≦r≦∞を満たす値とされる。
 メタデータに含まれている各オブジェクトの水平方向角度θ、垂直方向角度γ、および距離rは、オブジェクトの位置を示す情報である。以下では、オブジェクトの水平方向角度θ、垂直方向角度γ、および距離rを特に区別する必要のない場合には、単にオブジェクトの位置情報とも称することとする。
 また、ゲインgに基づいてオブジェクトのオーディオデータのゲイン調整を行えば、所望の音量で音声を出力させることができる。
〈メタデータの符号化について〉
 次に、上述したメタデータの符号化について説明する。
 メタデータの符号化時には、以下に示す(E1)および(E2)の2段階の処理でオブジェクトの位置情報およびゲインの符号化が行なわれる。ここで、(E1)に示す処理が1段階目の符号化処理であり、(E2)に示す処理が2段階目の符号化処理である。
 (E1)各オブジェクトの位置情報およびゲインを量子化する
 (E2)量子化された位置情報およびゲインを、さらに符号化モードに応じて圧縮する
 なお、符号化モードには、以下に示す(F1)乃至(F3)の3種類のモードがある。
 (F1)RAWモード
 (F2)運動パターン予測モード
 (F3)残差モード
 (F1)に示すRAWモードは、(E1)に示す1段階目の符号化処理で得られた符号を、符号化された位置情報またはゲインとして、そのままビットストリームに記述するモードである。
 また、(F2)に示される運動パターン予測モードは、メタデータに含まれるオブジェクトの位置情報またはゲインを、そのオブジェクトの過去の位置情報またはゲインから予測可能である場合に、予測可能な運動パターンをビットストリームに記述するモードである。
 (F3)に示される残差モードは、位置情報またはゲインの残差に基づいて符号化を行なうモード、すなわちオブジェクトの位置情報またはゲインの差分(変位)を、符号化された位置情報またはゲインとしてビットストリームに記述するモードである。
 最終的に得られる符号化されたメタデータには、上述した(F1)乃至(F3)に示した3種類の符号化モードのうちの何れかの符号化モードで符号化された位置情報またはゲインが含まれることになる。
 符号化モードは、オーディオデータの各フレームについて、各オブジェクトの位置情報やゲインごとに定められるが、各位置情報やゲインの符号化モードは、最終的に得られるメタデータのデータ量(ビット数)が最小となるように定められる。
 なお、以下、符号化されたメタデータ、つまりメタデータエンコーダ22から出力されるメタデータを、特に符号化メタデータとも称することとする。
〈1段階目の符号化処理について〉
 続いて、メタデータの符号化時における1段階目の処理と2段階目の処理について、より詳細に説明する。
 まず、符号化時における1段階目の処理について説明する。
 例えば、1段階目の符号化処理では、オブジェクトの位置情報としての水平方向角度θ、垂直方向角度γ、および距離rと、ゲインgとがそれぞれ量子化される。
 具体的には、例えば水平方向角度θおよび垂直方向角度γのそれぞれに対して、次式(1)の計算が行なわれて、R度刻みで等間隔に量子化(符号化)が行なわれる。
Figure JPOXMLDOC01-appb-M000001
 式(1)において、Codearcは、水平方向角度θまたは垂直方向角度γに対する量子化により得られる符号を示しており、Arcrawは水平方向角度θまたは垂直方向角度γの量子化前の角度、つまりθまたはγの値を示している。また、式(1)において、round()は、例えば四捨五入の丸め関数を示しており、Rは量子化の間隔を示す量子化幅、つまり量子化のステップサイズを示している。
 また、位置情報の復号時に行なわれる符号Codearcに対する逆量子化(復号処理)では、水平方向角度θまたは垂直方向角度γの符号Codearcについて次式(2)の計算が行なわれる。
Figure JPOXMLDOC01-appb-M000002
 式(2)において、Arcdecodedは、符号Codearcに対する逆量子化により得られる角度、つまり復号により得られた水平方向角度θまたは垂直方向角度γを示している。
 具体例として、例えばステップサイズR=1度である場合に、水平方向角度θ=-15.35°を量子化するとする。このとき、水平方向角度θ=-15.35°を式(1)に代入すると、Codearc=round(-15.35/1)=-15となる。逆に、量子化により得られたCodearc=-15を式(2)に代入することで逆量子化を行なうと、Arcdecoded=-15×1=-15°となる。つまり、逆量子化により得られる水平方向角度θは-15度となる。
 また、例えばステップサイズR=3度である場合に、垂直方向角度γ=22.73°を量子化するとする。このとき、垂直方向角度γ=22.73°を式(1)に代入すると、Codearc=round(22.73/3)=8となる。逆に、量子化により得られたCodearc=8を式(2)に代入することで逆量子化を行なうと、Arcdecoded=8×3=24°となる。つまり、逆量子化により得られる垂直方向角度γは24度となる。
〈2段階目の符号化処理について〉
 次に、2段階目の符号化処理について説明する。
 上述したように、2段階目の符号化処理では、符号化モードとしてRAWモード、運動パターン予測モード、および残差モードの3種類のモードがある。
 RAWモードでは、1段階目の符号化処理で得られた符号が、そのまま符号化された位置情報またはゲインとしてビットストリームに記述される。また、この場合、符号化モードとしてのRAWモードを示す符号化モード情報もビットストリームに記述される。例えば符号化モード情報として、RAWモードを示す識別番号が記述される。
 また、運動パターン予測モードでは、オブジェクトの過去のフレームの位置情報やゲインから、予め決めた予測係数によって、オブジェクトの現在のフレームの位置情報やゲインが予測可能であれば、その予測係数に対応する運動パターン予測モードの識別番号がビットストリームに記述される。つまり、運動パターン予測モードの識別番号が符号化モード情報として記述される。
 ここで、符号化モードとしての運動パターン予測モードには、複数のモードが定められている。例えば運動パターン予測モードの一例として静止モード、等速度モード、等加速度モード、P20正弦モード、2トーン正弦モードなどが予め定められている。以下では、これらの静止モード等を特に区別する必要がない場合、単に運動パターン予測モードと称することとする。
 例えば、処理対象となっている現フレームがn番目のフレーム(以下、フレームnとも称する)であり、フレームnについて得られた符号Codearcを符号Codearc(n)で表すとする。
 また、フレームnよりも時間的にkフレーム前(但し、1≦k≦K)のフレームをフレーム(n-k)として、そのフレーム(n-k)について得られた符号Codearcを符号Codearc(n-k)で表すとする。
 さらに、符号化モード情報としての識別番号のうちの、静止モード等の各運動パターン予測モードの識別番号iごとに、K個のフレーム(n-k)の各予測係数aikが予め定められているとする。
 このとき、静止モード等の運動パターン予測モードごとに予め定められた予測係数aikを用いて次式(3)により符号Codearc(n)を表すことができる場合、その運動パターン予測モードの識別番号iが符号化モード情報としてビットストリームに記述される。この場合、メタデータの復号側において、運動パターン予測モードの識別番号iに対して定められた予測係数を得ることができれば、予測係数を用いた予測により位置情報を得ることができるので、ビットストリームには、符号化された位置情報は記述されない。
Figure JPOXMLDOC01-appb-M000003
 式(3)では、予測係数aikが乗算された過去のフレームの符号Codearc(n-k)の和が、現フレームの符号Codearc(n)とされている。
 具体的に、例えば識別番号iの予測係数aikとしてai1=2、ai2=-1、およびaik=0(但しk≠1,2)が定められており、これらの予測係数を用いて式(3)により符号Codearc(n)が予測できたとする。すなわち、次式(4)が成立したとする。
Figure JPOXMLDOC01-appb-M000004
 この場合には、符号化モード(運動パターン予測モード)を示す識別番号iが符号化モード情報としてビットストリームに記述される。
 式(4)の例では現フレームを含む、連続する3つのフレームについて、隣接フレームの角度(位置情報)の差分が同じとなる。すなわち、フレーム(n)およびフレーム(n-1)の位置情報の差分と、フレーム(n-1)およびフレーム(n-2)の位置情報の差分とが等しくなる。隣接する位置情報の差分は、オブジェクトの速度を表しているから、式(4)が成立する場合には、オブジェクトは等角速度で移動していることになる。
 このように、式(4)により現フレームの位置情報を予測する運動パターン予測モードを等速度モードと称することとする。例えば、符号化モード(運動パターン予測モード)としての等速度モードを示す識別番号iが「2」である場合には、等速度モードの予測係数a2kは、a21=2、a22=-1、およびa2k=0(但しk≠1,2)となる。
 同様に、オブジェクトが静止しているとして、過去のフレームの位置情報またはゲインをそのまま現フレームの位置情報またはゲインとする運動パターン予測モードを静止モードとする。例えば、符号化モード(運動パターン予測モード)としての静止モードを示す識別番号iが「1」である場合には、静止モードの予測係数a1kは、a11=1、およびa1k=0(但しk≠1)となる。
 さらに、オブジェクトが等加速度で移動しているとして、過去フレームの位置情報またはゲインから現フレームの位置情報またはゲインを表現する運動パターン予測モードを等加速度モードとする。例えば、符号化モードとしての等加速度モードを示す識別番号iが「3」である場合には、等加速度モードの予測係数a3kは、a31=3、a32=-3、a33=1、およびa3k=0(但しk≠1,2,3)となる。このように予測係数が定められるのは、隣接フレーム間の位置情報の差分が速度を表しており、その速度の差が加速度となるからである。
 また、オブジェクトの水平方向角度θの運動が次式(5)に示す周期20フレームの正弦運動であれば、予測係数aikとしてai1=1.8926、ai2=-0.99、およびaik=0(但しk≠1,2)を用いれば式(3)によりオブジェクトの位置情報を予測できる。なお、式(5)において、Arc(n)は水平方向角度を示している。
Figure JPOXMLDOC01-appb-M000005
 このような予測係数aikを用いて式(5)に示す正弦運動をしているオブジェクトの位置情報を予測する運動パターン予測モードを、P20正弦モードとする。
 さらに、オブジェクトの垂直方向角度γの運動が次式(6)に示す周期20フレームの正弦運動と周期10フレームの正弦運動の和であるとする。そのような場合、予測係数aikとしてai1=2.324、ai2=-2.0712、ai3=0.665、およびaik=0(但しk≠1,2,3)を用いれば式(3)によりオブジェクトの位置情報を予測できる。なお、式(6)において、Arc(n)は垂直方向角度を示している。
Figure JPOXMLDOC01-appb-M000006
 このような予測係数aikを用いて式(6)に示す運動をしているオブジェクトの位置情報を予測する運動パターン予測モードを、2トーン正弦モードとする。
 なお、以上では運動パターン予測モードに分類される符号化モードとして、静止モード、等速度モード、等加速度モード、P20正弦モード、および2トーン正弦モードの5種類のモードを例として説明したが、その他、どのような運動パターン予測モードがあってもよい。また、運動パターン予測モードとして分類される符号化モードの数はいくつであってもよい。
 さらに、ここでは水平方向角度θおよび垂直方向角度γについて具体的な例を説明したが、距離rやゲインgについても上述した式(3)と同様の式によって、現フレームの距離やゲインを表すことができる。
 運動パターン予測モードによる位置情報やゲインの符号化では、例えば予め用意されたX種類の運動パターン予測モードのうちの3種類が選択され、選択された運動パターン予測モード(以下、選択運動パターン予測モードとも称する)のみにより、位置情報やゲインの予測が行われる。そして、オーディオデータのフレームごとに、過去の所定数のフレームで得られた符号化後のメタデータが用いられて、メタデータのデータ量を削減するのに適切な3種類の運動パターン予測モードが選択され、新たな選択運動パターン予測モードとされる。すなわち、フレームごとに必要に応じて運動パターン予測モードの入れ替えが行われる。
 なお、ここでは選択運動パターン予測モードが3つであると説明したが、選択運動パターン予測モードの数はいくつであってもよいし、入れ替えが行われる運動パターン予測モードもいくつであってもよい。また、複数フレームごとに運動パターン予測モードの入れ替えが行われてもよい。
 残差モードでは、現フレームの直前のフレームが何れの符号化モードにより符号化されたかによって、異なる処理が行なわれる。
 例えば、直前の符号化モードが運動パターン予測モードである場合、その運動パターン予測モードに従って現フレームの量子化された位置情報またはゲインが予測される。つまり、静止モード等の運動パターン予測モードに対して定められた予測係数が用いられて、式(3)等の計算が行なわれ、現フレームの量子化された位置情報またはゲインの予測値が求められる。ここで、量子化された位置情報またはゲインとは、上述した1段階目の符号化処理により得られた、符号化(量子化)された位置情報またはゲインである。
 そして、得られた現フレームの予測値と、現フレームの実際の量子化された位置情報またはゲイン(実測値)との差分が2進数で表すとMビット以下の値、つまりMビット以内で記述できる値であれば、その差分の値が、符号化された位置情報またはゲインとしてMビットでビットストリームに記述される。また、残差モードを示す符号化モード情報もビットストリームに記述される。
 なお、ビット数Mは予め定められた値であり、例えばビット数MはステップサイズRに基づいて定められる。
 また、直前の符号化モードがRAWモードである場合には、現フレームの量子化された位置情報またはゲインと、直前のフレームの量子化された位置情報またはゲインとの差分がMビット以内で記述できる値であれば、その差分の値が、符号化された位置情報またはゲインとしてMビットでビットストリームに記述される。このとき、残差モードを示す符号化モード情報もビットストリームに記述される。
 なお、現フレームの直前のフレームで残差モードにより符号化が行なわれた場合には、過去に遡って最初に残差モードではない符号化モードで符号化が行なわれたフレームの符号化モードが、直前のフレームの符号化モードとされる。
 また、ここでは位置情報としての距離rについては残差モードによる符号化は行なわれない場合について説明するが、距離rについても残差モードによる符号化が行なわれるようにしてもよい。
〈符号化モード情報のビット圧縮について〉
 以上においては、符号化モードによる符号化によって得られた位置情報やゲイン、差分(残差)などのデータが符号化された位置情報またはゲインとされ、符号化された位置情報やゲインと符号化モード情報とがビットストリームに記述されると説明した。
 しかし、同じ符号化モードが頻繁に選択されたり、現フレームと直前のフレームとで位置情報またはゲインを符号化する符号化モードが同じであったりすることも多いため、本技術ではさらに符号化モード情報のビット圧縮が行なわれる。
 まず、本技術では、事前準備として行なわれる符号化モードの識別番号の付与において符号化モード情報のビット圧縮が行なわれる。
 すなわち、各符号化モードの再現確率が統計学習により推定され、その結果に基づいて各符号化モードの識別番号のビット数がハフマン符号化方式により定められる。これにより、再現確率の高い符号化モードの識別番号(符号化モード情報)のビット数を小さくして、符号化モード情報を固定ビット長とする場合と比べて、符号化メタデータのデータ量を少なくすることができる。
 具体的には、例えばRAWモードの識別番号が「0」とされ、残差モードの識別番号が「10」とされ、静止モードの識別番号が「110」とされ、等速度モードの識別番号が「1110」とされ、等加速度モードの識別番号が「1111」などとされる。
 また、本技術では、必要に応じて符号化メタデータに、直前のフレームの場合と同じである符号化モード情報が含まれないようにすることで、符号化モード情報のビット圧縮が行なわれる。
 具体的には、以上において説明した2段階目の符号化で得られた現フレームの全オブジェクトの各情報の符号化モードが、直前のフレームの各情報の符号化モードと同じである場合、現フレームの符号化モード情報はデコーダ14に送信されない。つまり、現フレームと直前のフレームとで符号化モードに全く変更がない場合には、符号化メタデータには、符号化モード情報が含まれないようにされる。
 また、現フレームと直前のフレームとで、1つでも符号化モードに変更がある情報がある場合には、以下に示す(G1)と(G2)の方式のうち、符号化メタデータのデータ量(ビット数)が少なくなる方式により符号化モード情報の記述が行なわれる。
 (G1)全ての位置情報およびゲインの符号化モード情報を記述する
 (G2)符号化モードに変更があった位置情報またはゲインのみ符号化モード情報を記述する
 なお、(G2)の方式で符号化モード情報が記述される場合には、符号化モードに変更があった位置情報またはゲインを示す要素情報、その位置情報またはゲインのオブジェクトを示すインデックス、および変更があった位置情報とゲインの数を示すモード変更数情報がさらにビットストリームに記述されることになる。
 以上で説明した処理により、符号化モードの変更の有無に応じて、図3に示す各情報のうちのいくつかからなる情報が、符号化メタデータとしてビットストリームに記述され、メタデータエンコーダ22からメタデータデコーダ32へと出力されることになる。
 図3の例では、符号化メタデータの先頭にはモード変更フラグが配置され、続いてモードリストモードフラグが配置され、さらにその後にモード変更数情報、および予測係数切替フラグが配置される。
 モード変更フラグは、現フレームの全オブジェクトの各位置情報およびゲインの符号化モードが、直前のフレームの各位置情報およびゲインの符号化モードと同じであるか否か、つまり符号化モードに変更があったか否かを示す情報である。
 モードリストモードフラグは、上述した(G1)または(G2)の何れの方式により符号化モード情報が記述されているかを示す情報であり、モード変更フラグとして、符号化モードに変更があった旨の値が記述される場合にのみ記述される。
 モード変更数情報は、符号化モードに変更があった位置情報およびゲインの数、つまり(G2)の方式により符号化モード情報が記述される場合に記述される符号化モード情報の数を示す情報である。したがって、このモード変更数情報は、(G2)の方式により符号化モード情報が記述される場合にのみ、符号化メタデータに記述される。
 予測係数切替フラグは、現フレームにおいて運動パターン予測モードの入れ替えが行われたか否かを示す情報である。予測係数切替フラグにより、入れ替えが行われたことが示されている場合には、例えば予測係数切替フラグの後などの適切な位置に、新たな選択運動パターン予測モードの予測係数が配置される。
 また、符号化メタデータでは、予測係数切替フラグに続いてオブジェクトのインデックスが配置される。このインデックスは、メタデータとして空間位置情報出力装置12から供給されたインデックスである。
 オブジェクトのインデックスの後には、各位置情報およびゲインについて、それらの位置情報またはゲインの種別を示す要素情報と、位置情報またはゲインの符号化モードを示す符号化モード情報とが順番に配置される。
 ここでは、要素情報により示される位置情報またはゲインは、オブジェクトの水平方向角度θ、垂直方向角度γ、オブジェクトから視聴者までの距離r、またはゲインgの何れかとされる。したがって、オブジェクトのインデックスの後には、要素情報と符号化モード情報のセットが最大で4つ配置されることになる。
 例えば、3つの位置情報と1つのゲインについて、要素情報と符号化モード情報のセットが並べられる順番は予め定められている。
 また、符号化メタデータでは、オブジェクトのインデックスと、そのオブジェクトの要素情報および符号化モード情報とが、オブジェクトごとに順番に並べられる。
 図1の例では、オブジェクトがN個あるので、最大でN個のオブジェクトについて、オブジェクトのインデックス、要素情報、および符号化モード情報が、オブジェクトのインデックスの値の順に並べられることになる。
 さらに、符号化メタデータでは、オブジェクトのインデックス、要素情報、および符号化モード情報の後に、符号化された位置情報またはゲインが符号化データとして配置されている。この符号化データは、符号化モード情報に示される符号化モードに対応する方式で位置情報またはゲインを復号するときに必要となる、位置情報またはゲインを得るためのデータである。
 具体的には、図3に示す符号化データとして、式(1)に示した符号CodearcなどのRAWモードによる符号化で得られた、量子化された位置情報やゲイン、残差モードによる符号化で得られた、量子化された位置情報やゲインの差分が配置される。なお、各オブジェクトの位置情報およびゲインの符号化データが並べられる順番は、それらの位置情報およびゲインの符号化モード情報が並べられる順番などとされる。
 メタデータの符号化時には、上述した1段階目および2段階目の符号化処理が行なわれると、各位置情報およびゲインの符号化モード情報と符号化データが得られることになる。
 メタデータエンコーダ22では、符号化モード情報と符号化データが得られると、現フレームと直前のフレームとの間で符号化モードの変更があったかが特定される。
 そして、全オブジェクトの各位置情報およびゲインの符号化モードに変更がない場合には、モード変更フラグ、予測係数切替フラグ、および符号化データが符号化メタデータとしてビットストリームに記述される。また、ビットストリームには、必要に応じて予測係数も記述される。つまり、この場合、モードリストモードフラグ、モード変更数情報、オブジェクトのインデックス、要素情報、および符号化モード情報はメタデータデコーダ32には送信されない。
 また、符号化モードに変更があり、(G1)の方式により符号化モード情報が記述される場合、モード変更フラグ、モードリストモードフラグ、予測係数切替フラグ、符号化モード情報、および符号化データが符号化メタデータとしてビットストリームに記述される。そして、必要に応じて予測係数もビットストリームに記述される。
 したがって、この場合には、モード変更数情報、オブジェクトのインデックス、および要素情報はメタデータデコーダ32には送信されない。この例では、全ての符号化モード情報が予め定められた順番で並べられて送信されるので、オブジェクトのインデックスや要素情報がなくても各符号化モード情報がどのオブジェクトのどの位置情報やゲインの符号化モードを示す情報であるかを特定することが可能である。
 さらに、符号化モードに変更があり、(G2)の方式により符号化モード情報が記述される場合、モード変更フラグ、モードリストモードフラグ、モード変更数情報、予測係数切替フラグ、オブジェクトのインデックス、要素情報、符号化モード情報、および符号化データが符号化メタデータとしてビットストリームに記述される。また、必要に応じて予測係数もビットストリームに記述される。
 但し、この場合、全てのオブジェクトのインデックス、要素情報、および符号化モード情報がビットストリームに記述されるのではない。すなわち、符号化モードが変更された位置情報またはゲインについての要素情報および符号化モード情報と、その位置情報またはゲインのオブジェクトのインデックスとがビットストリームに記述され、符号化モードに変更がなかったものについては記述されない。
 このように(G2)の方式により符号化モード情報が記述される場合には、符号化モードの変化の有無によって、符号化メタデータに含まれる符号化モード情報の数が変化する。そこで、復号側において符号化メタデータから正しく符号化データを読み出すことができるように、符号化メタデータにはモード変更数情報が記述されている。
〈メタデータエンコーダの構成例〉
 次に、メタデータを符号化する符号化装置であるメタデータエンコーダ22の具体的な実施の形態について説明する。
 図4は、図1に示したメタデータエンコーダ22の構成例を示す図である。
 図4に示すメタデータエンコーダ22は、取得部71、符号化部72、圧縮部73、決定部74、出力部75、記録部76、および切替部77から構成される。
 取得部71は、空間位置情報出力装置12からオブジェクトのメタデータを取得して、符号化部72および記録部76に供給する。例えばメタデータとして、N個のオブジェクトのインデックス、水平方向角度θ、垂直方向角度γ、距離r、およびゲインgが取得される。
 符号化部72は、取得部71により取得されたメタデータを符号化して圧縮部73に供給する。符号化部72は、量子化部81、RAW符号化部82、予測符号化部83、および残差符号化部84を備えている。
 量子化部81は、上述した1段階目の符号化処理として、各オブジェクトの位置情報およびゲインを量子化し、量子化された位置情報およびゲインを記録部76に供給して記録させる。
 RAW符号化部82、予測符号化部83、および残差符号化部84は、上述した2段階目の符号化処理として、各符号化モードでオブジェクトの位置情報およびゲインを符号化する。
 すなわち、RAW符号化部82はRAW符号化モードにより位置情報およびゲインを符号化し、予測符号化部83は運動パターン予測モードにより位置情報およびゲインを符号化し、残差符号化部84は残差モードにより位置情報およびゲインを符号化する。符号化時においては、予測符号化部83および残差符号化部84は、必要に応じて記録部76に記録されている過去のフレームの情報を参照しながら符号化を行なう。
 位置情報およびゲインの符号化の結果、符号化部72から圧縮部73には、各オブジェクトのインデックス、符号化モード情報、並びに符号化された位置情報およびゲインが供給される。
 圧縮部73は、記録部76に記録されている情報を参照しながら、符号化部72から供給された符号化モード情報の圧縮を行なう。
 すなわち、圧縮部73は、各オブジェクトについて位置情報およびゲインごとに任意の符号化モードを選択し、選択した符号化モードの組み合わせで各位置情報およびゲインを符号化したときに得られる符号化メタデータを生成する。圧縮部73は、互いに異なる符号化モードの組み合わせごとに生成した符号化メタデータについて、符号化モード情報の圧縮を行い、決定部74に供給する。
 決定部74は、圧縮部73から供給された各位置情報およびゲインの符号化モードの組み合わせごとに得られた符号化メタデータのなかから、最もデータ量の少ない符号化メタデータを選択することで、各位置情報およびゲインの符号化モードを決定する。
 また、決定部74は、決定した符号化モードを示す符号化モード情報を記録部76に供給するとともに、選択した符号化メタデータを、最終的な符号化メタデータとしてビットストリームに記述して出力部75に供給する。
 出力部75は、決定部74から供給されたビットストリームをメタデータデコーダ32に出力する。記録部76は、取得部71や符号化部72、決定部74から供給された情報を記録することで、全オブジェクトの過去のフレームの量子化された各位置情報およびゲインや、それらの位置情報およびゲインの符号化モード情報を保持するとともに、それらの情報を符号化部72や圧縮部73に供給する。また、記録部76は、各運動パターン予測モードを示す符号化モード情報と、それらの運動パターン予測モードの予測係数とを対応付て記録している。
 さらに、符号化部72、圧縮部73、および決定部74では、選択運動パターン予測モードの入れ替えのために、いくつかの運動パターン予測モードの組み合わせを新たな選択運動パターン予測モードの候補としてメタデータを符号化する処理が行われる。決定部74は、各組み合わせについて得られた、所定フレーム数分の符号化メタデータのデータ量と、実際に出力された現フレームを含む所定フレーム数分の符号化メタデータのデータ量とを切替部77に供給する。
 切替部77は、決定部74から供給されたデータ量に基づいて、新たな選択運動パターン予測モードを決定し、その決定結果を符号化部72および圧縮部73に供給する。
〈符号化処理の説明〉
 続いて、図4のメタデータエンコーダ22の動作について説明する。
 なお、以下では、上述した式(1)および式(2)で用いられる量子化の刻み幅、つまりステップサイズRは1度であるとする。したがって、この場合、量子化後の水平方向角度θの範囲は361個の離散値で表現され、量子化後の水平方向角度θの値は9ビットの値となる。同様に、量子化後の垂直方向角度γの範囲は181個の離散値で表現され、量子化後の垂直方向角度γの値は8ビットの値となる。
 また、距離rは、量子化後の値が4ビットの仮数と4ビットの指数の浮動小数点数が用いられて、合計8ビットで表現されるように量子化が行なわれるものとする。さらに、ゲインgは、例えば-128dB乃至+127.5dBの範囲の値とされ、1段階目の符号化では、0.5dB刻み、つまりステップサイズが「0.5」で、9ビットの値に量子化されるものとする。
 また、残差モードによる符号化において、差分と比較する閾値として用いられるビット数Mは、1ビットであるものとする。
 メタデータエンコーダ22にメタデータが供給され、メタデータの符号化が指示されると、メタデータエンコーダ22は、メタデータを符号化して出力する符号化処理を開始する。以下、図5のフローチャートを参照して、メタデータエンコーダ22による符号化処理について説明する。なお、この符号化処理はオーディオデータのフレームごとに行われる。
 ステップS11において、取得部71は、空間位置情報出力装置12から出力されたメタデータを取得して符号化部72および記録部76に供給する。また、記録部76は、取得部71から供給されたメタデータを記録する。例えばメタデータには、N個の各オブジェクトのインデックス、位置情報、およびゲインが含まれている。
 ステップS12において、符号化部72は、N個のオブジェクトのなかの1つを処理対象のオブジェクトとして選択する。
 ステップS13において、量子化部81は、取得部71から供給された処理対象のオブジェクトの位置情報およびゲインを量子化する。また、量子化部81は、量子化された位置情報およびゲインを記録部76に供給し、記録させる。
 例えば、位置情報としての水平方向角度θや垂直方向角度γが、上述した式(1)によりR=1度刻みで量子化される。また、距離rやゲインgも同様に量子化される。
 ステップS14において、RAW符号化部82は、処理対象のオブジェクトの量子化された位置情報およびゲインを、RAW符号化モードにより符号化する。すなわち、量子化された位置情報およびゲインが、そのままRAW符号化モードで符号化された位置情報およびゲインとされる。
 ステップS15において、予測符号化部83は、運動パターン予測モードによる符号化処理を行って、処理対象のオブジェクトの量子化された位置情報およびゲインを、運動パターン予測モードにより符号化する。なお、運動パターン予測モードによる符号化処理の詳細は後述するが、運動パターン予測モードによる符号化処理では、各選択運動パターン予測モードについて、予測係数を用いた予測が行われる。
 ステップS16において、残差符号化部84は、残差モードによる符号化処理を行って、処理対象のオブジェクトの量子化された位置情報およびゲインを、残差モードにより符号化する。なお、残差モードによる符号化処理の詳細は後述する。
 ステップS17において、符号化部72は、全てのオブジェクトについて処理を行なったか否かを判定する。
 ステップS17において、まだ全てのオブジェクトについて処理が行なわれていないと判定された場合、処理はステップS12に戻り、上述した処理が繰り返される。すなわち、新たなオブジェクトが処理対象のオブジェクトとして選択されて、そのオブジェクトの位置情報およびゲインに対して各符号化モードでの符号化が行なわれる。
 これに対してステップS17において、全てのオブジェクトについて処理を行なったと判定された場合、処理はステップS18に進む。このとき、符号化部72は、各符号化モードでの符号化により得られた位置情報およびゲイン(符号化データ)、各位置情報およびゲインの符号化モードを示す符号化モード情報、およびオブジェクトのインデックスを圧縮部73に供給する。
 ステップS18において、圧縮部73は、符号化モード情報圧縮処理を行う。なお、符号化モード情報圧縮処理の詳細は後述するが、符号化モード情報圧縮処理では、符号化部72から供給されたオブジェクトのインデックス、符号化データ、および符号化モード情報に基づいて、符号化モードの組み合わせごとに符号化メタデータが生成される。
 すなわち、圧縮部73は1つのオブジェクトについて、そのオブジェクトの位置情報およびゲインごとに、任意の符号化モードを選択する。同様に圧縮部73は、他の全てのオブジェクトについても、各オブジェクトの位置情報およびゲインごとに任意の符号化モードを選択し、選択したそれらの符号化モードの組み合わせを、1つの組み合わせとする。
 そして、圧縮部73は、符号化モードの組み合わせとして取り得る全ての組み合わせについて、符号化モード情報の圧縮を行いながら、組み合わせで示される符号化モードで位置情報やゲインが符号化されて得られる符号化メタデータを生成する。
 ステップS19において、圧縮部73は、現フレームにおいて選択運動パターン予測モードの入れ替えがあったか否かを判定する。例えば、切替部77から新たな選択運動パターン予測モードを示す情報が供給された場合、選択運動パターン予測モードの入れ替えがあったと判定される。
 ステップS19において、選択運動パターン予測モードの入れ替えがあったと判定された場合、ステップS20において、圧縮部73は各組み合わせの符号化メタデータに予測係数切替フラグおよび予測係数を挿入する。
 すなわち、圧縮部73は、切替部77から供給された情報により示される選択運動パターン予測モードの予測係数を記録部76から読み出して、読み出した予測係数と、入れ替えがある旨の予測係数切替フラグとを各組み合わせの符号化メタデータに挿入する。
 ステップS20の処理が行われると、圧縮部73は、予測係数と予測係数切替フラグとが挿入された各組み合わせの符号化メタデータを決定部74に供給し、処理はステップS21に進む。
 これに対してステップS19において、選択運動パターン予測モードの入れ替えがなかったと判定された場合、圧縮部73は、入れ替えがない旨の予測係数切替フラグを各組み合わせの符号化メタデータに挿入して決定部74に供給し、処理はステップS21に進む。
 ステップS20の処理が行われたか、またはステップS19において入れ替えがなかったと判定された場合、ステップS21において、決定部74は圧縮部73から供給された各組み合わせの符号化メタデータに基づいて、各位置情報およびゲインの符号化モードを決定する。
 すなわち、決定部74は、各組み合わせの符号化メタデータのうち、最もデータ量(総ビット数)が少ない符号化メタデータを最終的な符号化メタデータとして決定し、決定された符号化メタデータをビットストリームに書き込んで出力部75に供給する。これにより、各オブジェクトの位置情報およびゲインについて符号化モードが定まる。したがって、最もデータ量の少ない符号化メタデータを選択することにより、各位置情報およびゲインの符号化モードが決定されるということができる。
 決定部74は、決定された各位置情報およびゲインの符号化モードを示す符号化モード情報を記録部76に供給して記録させるとともに、現フレームの符号化メタデータのデータ量を切替部77に供給する。
 ステップS22において、出力部75は、決定部74から供給されたビットストリームをメタデータデコーダ32に送信し、符号化処理は終了する。
 以上のようにしてメタデータエンコーダ22は、メタデータを構成する位置情報やゲインなどの各要素を適切な符号化モードにより符号化し、符号化メタデータとする。
 このように、要素ごとに適切な符号化モードを決定して符号化を行うことにより、符号化効率を向上させて符号化メタデータのデータ量を削減することができる。その結果、オーディオデータの復号時に、より高品質な音声を得ることができ、臨場感のあるオーディオ再生を実現することができるようになる。また、符号化メタデータの生成時に符号化モード情報の圧縮を行うことにより、符号化メタデータのデータ量をさらに削減することができるようになる。
〈運動パターン予測モードによる符号化処理の説明〉
 次に、図6のフローチャートを参照して、図5のステップS15の処理に対応する運動パターン予測モードによる符号化処理について説明する。
 なお、この処理は、処理対象とされているオブジェクトの位置情報およびゲインごとに行われる。つまり、オブジェクトの水平方向角度θ、垂直方向角度γ、距離r、およびゲインgのそれぞれが処理対象とされて、それらの処理対象ごとに運動パターン予測モードによる符号化処理が行われる。
 ステップS51において、予測符号化部83は、現時点において選択運動パターン予測モードとして選択されている各運動パターン予測モードについて、オブジェクトの位置情報またはゲインの予測を行なう。
 例えば、位置情報としての水平方向角度θについて符号化が行われるものとし、選択運動パターン予測モードとして静止モード、等速度モード、および等加速度モードが選択されているとする。
 そのような場合、まず予測符号化部83は、記録部76から過去のフレームの量子化された水平方向角度θと、選択運動パターン予測モードの予測係数とを読み出す。そして、予測符号化部83は、読み出した水平方向角度θと予測係数を用いて、静止モード、等速度モード、または等加速度モードの何れかの選択運動パターン予測モードで、水平方向角度θが予測可能かを特定する。すなわち、上述した式(3)が成立するかを特定する。
 式(3)の演算時には、予測符号化部83は、図5のステップS13の処理で量子化された現フレームの水平方向角度θと、過去のフレームの量子化された水平方向角度θとを式(3)に代入する。
 ステップS52において、予測符号化部83は、選択運動パターン予測モードのうち、処理対象となっている位置情報またはゲインを予測可能であった選択運動パターン予測モードがあるか否かを判定する。
 例えばステップS51の処理で、選択運動パターン予測モードとしての静止モードの予測係数を用いたときに式(3)が成立すると特定された場合には、静止モードでの予測が可能であった、つまり予測可能であった選択運動パターン予測モードがあると判定される。
 ステップS52において、予測可能であった選択運動パターン予測モードがあると判定された場合、処理はステップS53に進む。
 ステップS53において、予測符号化部83は、予測可能であるとされた選択運動パターン予測モードを、処理対象の位置情報またはゲインの符号化モードとし、運動パターン予測モードによる符号化処理は終了する。そして、その後、処理は図5のステップS16へと進む。
 これに対して、ステップS52において、予測可能であった選択運動パターン予測モードがないと判定された場合、処理対象の位置情報またはゲインは、運動パターン予測モードでは符号化できないとされ、運動パターン予測モードによる符号化処理は終了する。そして、その後、処理は図5のステップS16へと進む。
 この場合、符号化メタデータを生成するための符号化モードの組み合わせを定めるときには、処理対象となっている位置情報またはゲインについては、符号化モードとして運動パターン予測モードは取り得ないことになる。
 以上のように予測符号化部83は、過去のフレームの情報を用いて現フレームの量子化された位置情報またはゲインの予測を行い、予測が可能である場合には、予測可能であるとされた運動パターン予測モードの符号化モード情報のみが符号化メタデータに含まれるようにする。これにより、符号化メタデータのデータ量を削減することができる。
〈残差モードによる符号化処理の説明〉
 続いて、図7のフローチャートを参照して、図5のステップS16の処理に対応する残差モードによる符号化処理について説明する。なお、この処理では、処理対象とされているオブジェクトの水平方向角度θ、垂直方向角度γ、およびゲインgのそれぞれが処理対象とされ、それらの処理対象ごとに処理が行なわれる。
 ステップS81において、残差符号化部84は、記録部76に記録されている過去のフレームの符号化モード情報を参照して、直前のフレームの符号化モードを特定する。
 具体的には残差符号化部84は、現フレームに最も時間的に近い過去のフレームであって、処理対象の位置情報またはゲインの符号化モードが残差モードではないモード、つまり運動パターン予測モードまたはRAWモードであるフレームを特定する。そして、残差符号化部84は、特定したフレームにおける処理対象の位置情報またはゲインの符号化モードを、直前のフレームの符号化モードとする。
 ステップS82において、残差符号化部84は、ステップS81の処理で特定した直前のフレームの符号化モードがRAWモードであるか否かを判定する。
 ステップS82において、RAWモードであると判定された場合、ステップS83において残差符号化部84は、現フレームと、直前のフレームとの差分(残差)を求める。
 すなわち、残差符号化部84は記録部76に記録されている、直前のフレーム、つまり現フレームの1つ前のフレームにおける処理対象の量子化された位置情報またはゲインの値と、現フレームの量子化された位置情報またはゲインの値との差分を求める。
 このとき、差分が求められる現フレームと直前のフレームの位置情報またはゲインの値は、量子化部81により量子化された位置情報またはゲインの値、つまり量子化後の値である。差分が求められると、その後、処理はステップS86へと進む。
 一方、ステップS82においてRAWモードではない、つまり運動パターン予測モードであると判定された場合、ステップS84において残差符号化部84は、ステップS81で特定された符号化モードに従って、現フレームの量子化された位置情報またはゲインの予測値を求める。
 例えば、位置情報としての水平方向角度θが処理対象となっており、ステップS81で特定された直前のフレームの符号化モードが静止モードであるとする。そのような場合、残差符号化部84は、記録部76に記録されている量子化された水平方向角度θと静止モードの予測係数を用いて、現フレームの量子化された水平方向角度θを予測する。
 すなわち、式(3)が計算されて現フレームの量子化された水平方向角度θの予測値が求められる。
 ステップS85において、残差符号化部84は、現フレームの量子化された位置情報またはゲインの予測値と実測値との差分を求める。すなわち、ステップS84の処理で求めた予測値と、図5のステップS13の処理で得られた、現フレームの処理対象の量子化された位置情報またはゲインの値との差分が求められる。
 差分が求められると、その後、処理はステップS86へと進む。
 ステップS83またはステップS85の処理が行われると、ステップS86において、残差符号化部84は、求めた差分が2進数で表すとMビット以内で記述可能であるか否かを判定する。上述したように、ここではM=1ビットとされ、差分が1ビットで記述可能な値であるか否かが判定される。
 ステップS86において、差分がMビット以内で記述可能であると判定された場合、ステップS87において、残差符号化部84は求めた差分を示す情報を、残差モードにより符号化された位置情報またはゲイン、つまり図3に示した符号化データとする。
 例えば、位置情報としての水平方向角度θまたは垂直方向角度γが処理対象となっている場合、残差符号化部84はステップS83またはステップS85で求めた差分の符号が正であるかまたは負であるかを示すフラグを符号化された位置情報とする。これは、ステップS86の処理で用いられるビット数Mが1ビットであるので、復号側では差分の符号が分かれば差分の値を特定することができるからである。
 ステップS87の処理が行われると残差モードによる符号化処理は終了し、その後、処理は図5のステップS17へと進む。
 これに対して、ステップS86において、差分がMビット以内で記述可能でないと判定された場合、処理対象の位置情報またはゲインは残差モードでは符号化できないとされ、残差モードによる符号化処理は終了する。そして、その後、処理は図5のステップS17へと進む。
 この場合、符号化メタデータを生成するための符号化モードの組み合わせを定めるときには、処理対象となっている位置情報またはゲインについては、符号化モードとして残差モードは取り得ないことになる。
 以上のように残差符号化部84は、過去のフレームの符号化モードに応じて現フレームの量子化された位置情報またはゲインの差分(残差)を求め、その差分がMビットで記述できる場合には、その差分を示す情報を符号化された位置情報またはゲインとする。このように、差分を示す情報を符号化された位置情報またはゲインとすることで、位置情報やゲインをそのまま記述する場合と比べて、符号化メタデータのデータ量を削減することができる。
〈符号化モード情報圧縮処理の説明〉
 さらに、図8のフローチャートを参照して、図5のステップS18の処理に対応する符号化モード情報圧縮処理について説明する。
 なお、この処理が開始される時点では、現フレームの全オブジェクトの各位置情報およびゲインについて、各符号化モードによる符号化が行われた状態となっている。
 ステップS101において、圧縮部73は、符号化部72から供給された全オブジェクトの各位置情報およびゲインの符号化モード情報に基づいて、まだ処理対象として選択されていない符号化モードの組み合わせを1つ選択する。
 すなわち、圧縮部73は各オブジェクトについて、位置情報およびゲインごとに符号化モードを選択し、選択したそれらの符号化モードの組み合わせを、新たな処理対象の組み合わせとする。
 ステップS102において、圧縮部73は処理対象の組み合わせについて、各オブジェクトの位置情報およびゲインの符号化モードに変更があるか否かを判定する。
 具体的には、圧縮部73は全オブジェクトの各位置情報およびゲインの処理対象の組み合わせとした符号化モードと、記録部76に記録されている符号化モード情報により示される、直前のフレームの全オブジェクトの各位置情報およびゲインの符号化モードとを比較する。そして、圧縮部73は1つの位置情報またはゲインでも現フレームと直前のフレームとで符号化モードが異なる場合、符号化モードに変更があると判定する。
 ステップS102において変更があると判定された場合、ステップS103において圧縮部73は、全オブジェクトの位置情報およびゲインの符号化モード情報が記述されたものを符号化メタデータの候補として生成する。
 すなわち、圧縮部73はモード変更フラグ、モードリストモードフラグ、全位置情報およびゲインの処理対象となっている組み合わせの符号化モードを示す符号化モード情報、並びに符号化データからなる1つのデータを符号化メタデータの候補として生成する。
 ここで、モード変更フラグは符号化モードに変更があった旨の値とされ、モードリストモードフラグは、全位置情報およびゲインの符号化モード情報が記述されている旨の値とされる。また、符号化メタデータの候補に含まれる符号化データは、符号化部72から供給された符号化データのうちの、各位置情報およびゲインの処理対象の組み合わせとされている符号化モードに対応するデータである。
 なお、ステップS103で得られる符号化メタデータには、まだ予測係数切替フラグと予測係数が挿入されていない。
 ステップS104において、圧縮部73は、各オブジェクトの位置情報およびゲインのうち、符号化モードに変更があった位置情報またはゲインのみ符号化モード情報が記述されたものを符号化メタデータの候補として生成する。
 すなわち、圧縮部73はモード変更フラグ、モードリストモードフラグ、モード変更数情報、オブジェクトのインデックス、要素情報、符号化モード情報、および符号化データからなる1つのデータを符号化メタデータの候補として生成する。
 ここで、モード変更フラグは符号化モードに変更があった旨の値とされ、モードリストモードフラグは、符号化モードに変更があった位置情報またはゲインのみ符号化モード情報が記述されている旨の値とされる。
 また、オブジェクトのインデックスは、符号化モードに変更があった位置情報またはゲインがあるオブジェクトを示すインデックスのみが記述され、要素情報および符号化モード情報も、符号化モードに変更があった位置情報またはゲインについてのみ記述される。さらに、符号化メタデータの候補に含まれる符号化データは、符号化部72から供給された符号化データのうちの、各位置情報およびゲインの処理対象の組み合わせとされている符号化モードに対応するデータとされる。
 なお、ステップS104で得られる符号化メタデータにおいても、ステップS103における場合と同様に、符号化メタデータには、まだ予測係数切替フラグと予測係数が挿入されていない。
 ステップS105において圧縮部73は、ステップS103で生成された符号化メタデータの候補のデータ量と、ステップS104で生成された符号化メタデータの候補のデータ量を比較して、よりデータ量が少ないものを選択する。そして、圧縮部73は、選択した符号化メタデータの候補を、処理対象となっている符号化モードの組み合わせについての符号化メタデータとし、処理はステップS107に進む。
 また、ステップS102において符号化モードに変更がないと判定された場合、ステップS106において、圧縮部73は、モード変更フラグと符号化データが記述されたものを符号化メタデータとして生成する。
 すなわち、圧縮部73は符号化モードに変更がない旨のモード変更フラグ、および符号化データからなる1つのデータを、処理対象となっている符号化モードの組み合わせについての符号化メタデータとして生成する。
 ここで、符号化メタデータに含まれる符号化データは、符号化部72から供給された符号化データのうちの、各位置情報およびゲインの処理対象の組み合わせとされている符号化モードに対応するデータである。なお、ステップS106で得られる符号化メタデータには、まだ予測係数切替フラグと予測係数が挿入されていない。
 ステップS106において符号化メタデータが生成されると、その後、処理はステップS107に進む。
 ステップS105またはステップS106において、処理対象の組み合わせについて符号化メタデータが得られると、ステップS107において圧縮部73は、符号化モードの全ての組み合わせについて処理を行なったか否かを判定する。すなわち、組み合わせとして取り得る全ての符号化モードの組み合わせが処理対象とされて、符号化メタデータが生成されたか否かが判定される。
 ステップS107において、まだ全ての組み合わせについて処理を行なっていないと判定された場合、処理はステップS101に戻り、上述した処理が繰り返される。すなわち、新たな組み合わせが処理対象とされて、その組み合わせについて符号化メタデータが生成される。
 これに対して、ステップS107において全ての組み合わせについて処理を行なったと判定された場合、符号化モード情報圧縮処理は終了する。符号化モード情報圧縮処理が終了すると、その後、処理は図5のステップS19へと進む。
 以上のようにして、圧縮部73は、全ての符号化モードの組み合わせについて、符号化モードの変更の有無に応じて符号化メタデータを生成する。このように、符号化モードの変更の有無に応じて符号化メタデータを生成することで、必要な情報のみが含まれる符号化メタデータを得ることができ、符号化メタデータのデータ量を圧縮することができる。
 なお、この実施の形態では、符号化モードの組み合わせごとに符号化メタデータを生成し、その後、図5に示した符号化処理のステップS21において、データ量が最小となる符号化メタデータを選択することで、各位置情報およびゲインの符号化モードを決定する例について説明した。しかし、各位置情報およびゲインの符号化モードが決定されてから、符号化モード情報の圧縮が行なわれるようにしてもよい。
 そのような場合には、まず各符号化モードでの位置情報およびゲインの符号化を行なった後に、位置情報およびゲインごとに最も符号化データのデータ量が少なくなる符号化モードが決定される。そして、決定された各位置情報およびゲインの符号化モードの組み合わせについて、図8のステップS102乃至ステップS106の処理が行なわれて、符号化メタデータが生成される。
〈入れ替え処理の説明〉
 ところで、メタデータエンコーダ22において図5を参照して説明した符号化処理が繰り返し行なわれている間には、1フレーム分の符号化処理が行なわれた直後に、または符号化処理とほぼ同時に選択運動パターン予測モードを入れ替える入れ替え処理が行なわれる。
 以下、図9のフローチャートを参照して、メタデータエンコーダ22により行なわれる入れ替え処理について説明する。
 ステップS131において、切替部77は、運動パターン予測モードの組み合わせを選択し、その選択結果を符号化部72に供給する。具体的には、切替部77は全ての運動パターン予測モードのうちの任意の3つの運動パターン予測モードを、運動パターン予測モードの1つの組み合わせとして選択する。
 なお、切替部77は現時点において選択運動パターン予測モードとされている3つの運動パターン予測モードを示す情報を保持しており、ステップS131では現時点における選択運動パターン予測モードの組み合わせは選択されないようになされる。
 ステップS132において、切替部77は処理対象とするフレームを選択し、その選択結果を符号化部72に供給する。
 例えば、オーディオデータの現フレームと、その現フレームよりも過去のフレームとからなる所定数の連続するフレームが、時間的に古い順に処理対象のフレームとして選択されていく。ここで、処理対象とされる連続するフレームの数は、例えば10フレームなどとされる。
 ステップS132において処理対象のフレームが選択されると、その後、処理対象のフレームについて、ステップS133乃至ステップS140の処理が行なわれる。なお、これらのステップS133乃至ステップS140の処理は図5のステップS12乃至ステップS18、およびステップS21の処理と同様であるので、その説明は省略する。
 但し、ステップS134では、記録部76に記録されている過去のフレームの位置情報およびゲインに対して量子化が行なわれてもよいし、記録部76に記録されている過去のフレームの量子化された位置情報およびゲインがそのまま用いられてもよい。
 また、ステップS136では、ステップS131において選択された運動パターン予測モードの組み合わせが、選択運動パターン予測モードであるものとして運動パターン予測モードによる符号化処理が行なわれる。したがって、どの位置情報およびゲインについても、処理対象となっている組み合わせの運動パターン予測モードが用いられて、位置情報やゲインの予測が行なわれる。
 さらに、ステップS137の処理で用いられる過去のフレームの符号化モードは、その過去のフレームについてステップS140の処理で得られた符号化モードとされる。また、ステップS139では、符号化メタデータに、選択運動パターン予測モードの入れ替えが行なわれなかった旨の予測係数切替フラグが含まれるように、符号化メタデータが生成される。
 以上の処理により、処理対象のフレームについて、ステップS131で選択した運動パターン予測モードの組み合わせが、選択運動パターン予測モードであったと仮定したときの符号化メタデータが得られる。
 ステップS141において、切替部77は、全てのフレームについて処理を行なったか否かを判定する。例えば、現フレームを含む連続する所定数のフレーム全てが処理対象のフレームとして選択されて符号化メタデータが生成された場合、全てのフレームについて処理を行なったと判定される。
 ステップS141において、まだ全てのフレームについて処理を行なっていないと判定された場合、処理はステップS132に戻り、上述した処理が繰り返される。すなわち、新たなフレームが処理対象のフレームとされて、そのフレームについて符号化メタデータが生成される。
 これに対して、ステップS141において、全てのフレームについて処理を行なったと判定された場合、ステップS142において、切替部77は、処理対象とした所定数のフレームの符号化メタデータの総ビット数をデータ量の合計として求める。
 すなわち、切替部77は、決定部74から処理対象とした所定数の各フレームの符号化メタデータを取得して、それらの符号化メタデータのデータ量の合計を求める。これにより、連続する所定数のフレームにおいて、ステップS131で選択した運動パターン予測モードの組み合わせを選択運動パターン予測モードとしたならば得られていた符号化メタデータのデータ量の合計が得られることになる。
 ステップS143において、切替部77は、運動パターン予測モードの全ての組み合わせについて処理を行なったか否かを判定する。ステップS143において、まだ全ての組み合わせについて処理を行なっていないと判定された場合、処理はステップS131に戻り、上述した処理が繰り返し行なわれる。すなわち、新たな組み合わせについて、符号化メタデータのデータ量の合計が算出される。
 一方、ステップS143において、全ての組み合わせについて処理を行なったと判定された場合、ステップS144において、切替部77は符号化メタデータのデータ量の合計を比較する。
 すなわち、切替部77は、運動パターン予測モードの組み合わせのなかから、符号化メタデータのデータ量の合計(総ビット数)が最も少ない組み合わせを選択する。そして、切替部77は、選択した組み合わせの符号化メタデータのデータ量の合計と、連続する所定数のフレームの実際の符号化メタデータのデータ量の合計とを比較する。
 なお、上述した図5のステップS21では、実際に出力された符号化メタデータのデータ量が決定部74から切替部77に供給されるので、切替部77は、各フレームの符号化メタデータのデータ量の和を求めることで、実際のデータ量の合計を得ることができる。
 ステップS145において、切替部77は、ステップS144の処理による符号化メタデータのデータ量の合計の比較結果に基づいて、選択運動パターン予測モードの入れ替えを行なうか否かを判定する。
 例えば、仮にデータ量の合計が最も少なかった運動パターン予測モードの組み合わせが、過去所定数フレームにおいて選択運動パターン予測モードとされていたならば、所定のA%分のビット数以上、データ量を削減可能であった場合、入れ替えを行なうと判定される。
 すなわち、ステップS144の処理における比較の結果得られた、運動パターン予測モードの組み合わせの符号化メタデータのデータ量の合計と、実際の符号化メタデータのデータ量の合計との差分がDFビットであったとする。
 この場合、データ量の合計の差分のビット数DFが、実際の符号化メタデータのデータ量の合計のA%分のビット数以上であるとき、選択運動パターン予測モードの入れ替えを行なうと判定される。
 ステップS145において、入れ替えを行なうと判定された場合、ステップS146において、切替部77は、選択運動パターン予測モードの入れ替えを行い、入れ替え処理は終了する。
 具体的には、切替部77は、ステップS144で実際の符号化メタデータのデータ量の合計との比較を行なった組み合わせ、つまり処理対象とされた組み合わせのうち、符号化メタデータのデータ量の合計が最も少なかった組み合わせの運動パターン予測モードを新たな選択運動パターン予測モードとする。そして、切替部77は、新たな選択運動パターン予測モードを示す情報を符号化部72および圧縮部73に供給する。
 符号化部72は、切替部77から供給された情報により示される選択運動パターン予測モードを用いて、次フレームについて、図5を参照して説明した符号化処理を行なう。
 また、ステップS145において、入れ替えを行なわないと判定された場合、入れ替え処理は終了する。この場合、現時点における選択運動パターン予測モードが、次フレームの選択運動パターン予測モードとしてそのまま用いられる。
 以上のようにして、メタデータエンコーダ22は、運動パターン予測モードの組み合わせについて、所定数フレーム分の符号化メタデータを生成し、その符号化メタデータと実際の符号化メタデータのデータ量を比較して、選択運動パターン予測モードの入れ替えを行なう。これにより、符号化メタデータのデータ量をさらに削減することができる。
〈メタデータデコーダの構成例〉
 続いて、メタデータエンコーダ22から出力されたビットストリームを受信して、符号化メタデータを復号する復号装置であるメタデータデコーダ32について説明する。
 図1に示したメタデータデコーダ32は、例えば図10に示すように構成される。
 メタデータデコーダ32は、取得部121、抽出部122、復号部123、出力部124、および記録部125から構成される。
 取得部121は、メタデータエンコーダ22からビットストリームを取得して抽出部122に供給する。抽出部122は、記録部125に供給されている情報を参照しながら、取得部121から供給されたビットストリームからオブジェクトのインデックス、符号化モード情報や符号化データ、予測係数などを抽出して復号部123に供給する。また、抽出部122は、現フレームの全オブジェクトの各位置情報およびゲインの符号化モードを示す符号化モード情報を記録部125に供給して記録させる。
 復号部123は、記録部125に記録されている情報を参照しながら、抽出部122から供給された符号化モード情報や符号化データ、予測係数に基づいて符号化メタデータの復号を行なう。復号部123は、RAW復号部141、予測復号部142、残差復号部143、および逆量子化部144を備えている。
 RAW復号部141は、符号化モードとしてのRAWモードに対応する方式(以下、単にRAWモードと称する)で位置情報およびゲインの復号を行なう。予測復号部142は、符号化モードとしての運動パターン予測モードに対応する方式(以下、単に運動パターン予測モードと称する)で位置情報およびゲインの復号を行なう。
 また、残差復号部143は、符号化モードとしての残差モードに対応する方式(以下、単に残差モードと称する)で位置情報およびゲインの復号を行なう。
 逆量子化部144は、RAWモード、運動パターン予測モード、または残差モードの何れかのモード(方式)により復号された位置情報およびゲインを逆量子化する。
 復号部123は、RAWモード等のモードにより復号された位置情報およびゲイン、つまり量子化された位置情報およびゲインを記録部125に供給して記録させる。また、復号部123は、復号(逆量子化)された位置情報およびゲインと、抽出部122から供給されたオブジェクトのインデックスとを復号されたメタデータとして出力部124に供給する。
 出力部124は、復号部123から供給されたメタデータを再生装置15に出力する。記録部125は、各オブジェクトのインデックス、抽出部122から供給された符号化モード情報、並びに復号部123から供給された、量子化された位置情報およびゲインを記録する。
〈復号処理の説明〉
 次に、メタデータデコーダ32の動作について説明する。
 メタデータデコーダ32は、メタデータエンコーダ22からビットストリームが送信されてくると、そのビットストリームを受信してメタデータを復号する復号処理を開始する。以下、図11のフローチャートを参照して、メタデータデコーダ32により行なわれる復号処理について説明する。なお、この復号処理は、オーディオデータのフレームごとに行なわれる。
 ステップS171において、取得部121は、メタデータエンコーダ22から送信されてきたビットストリームを受信して抽出部122に供給する。
 ステップS172において、抽出部122は、取得部121から供給されたビットストリーム、すなわち符号化メタデータのモード変更フラグに基づいて、現フレームと直前のフレームとで符号化モードに変更があるか否かを判定する。
 ステップS172において、符号化モードに変更がないと判定された場合、処理はステップS173に進む。
 ステップS173において、抽出部122は、記録部125から全オブジェクトのインデックスと、現フレームの直前のフレームにおける全オブジェクトの各位置情報およびゲインの符号化モード情報を取得する。
 そして、抽出部122は、取得したオブジェクトのインデックスおよび符号化モード情報を復号部123に供給するとともに、取得部121から供給された符号化メタデータから符号化データを抽出して復号部123に供給する。
 ステップS173の処理が行なわれる場合、全オブジェクトの各位置情報およびゲインについて、現フレームと直前のフレームとで符号化モードが同じであり、符号化メタデータには符号化モード情報が記述されていない。そのため、記録部125から取得された直前のフレームの符号化モード情報が、現フレームの符号化モード情報としてそのまま用いられる。
 また、抽出部122は、現フレームにおけるオブジェクトの各位置情報およびゲインの符号化モードを示す符号化モード情報を記録部125に供給して記録させる。
 ステップS173の処理が行なわれると、その後、処理はステップS178に進む。
 また、ステップS172において、符号化モードに変更があると判定された場合、処理はステップS174に進む。
 ステップS174において、抽出部122は、取得部121から供給されたビットストリーム、つまり符号化メタデータに、全てのオブジェクトの位置情報およびゲインの符号化モード情報が記述されているか否かを判定する。例えば、符号化メタデータに含まれているモードリストモードフラグが、全位置情報およびゲインの符号化モード情報が記述されている旨の値である場合、記述されていると判定される。
 ステップS174において、全てのオブジェクトの位置情報およびゲインの符号化モード情報が記述されていると判定された場合、ステップS175の処理が行なわれる。
 ステップS175において、抽出部122は記録部125からオブジェクトのインデックスを読み出すとともに、取得部121から供給された符号化メタデータから全オブジェクトの各位置情報およびゲインの符号化モード情報を抽出する。
 そして、抽出部122は、全オブジェクトのインデックスと、それらのオブジェクトの各位置情報およびゲインの符号化モード情報とを復号部123に供給するとともに、取得部121から供給された符号化メタデータから符号化データを抽出して復号部123に供給する。また、抽出部122は、現フレームにおけるオブジェクトの各位置情報およびゲインの符号化モード情報を記録部125に供給して記録させる。
 ステップS175の処理が行なわれると、その後、処理はステップS178に進む。
 また、ステップS174において、全てのオブジェクトの位置情報およびゲインの符号化モード情報が記述されていないと判定された場合、ステップS176の処理が行なわれる。
 ステップS176において、抽出部122は、取得部121から供給されたビットストリーム、すなわち符号化メタデータに記述されているモード変更数情報に基づいて、符号化メタデータから、符号化モードに変更のあった符号化モード情報を抽出する。すなわち、符号化メタデータに含まれている符号化モード情報が全て読み出される。このとき、抽出部122は、符号化メタデータからオブジェクトのインデックスも抽出する。
 ステップS177において、抽出部122は、ステップS176の抽出結果に基づいて、符号化モードに変更がなかった位置情報およびゲインの符号化モード情報とオブジェクトのインデックスとを記録部125から取得する。すなわち、符号化モードに変更がなかった位置情報およびゲインの直前のフレームの符号化モード情報が、現フレームの符号化モード情報として読み出される。
 これにより、現フレームにおける全てのオブジェクトの各位置情報およびゲインの符号化モード情報が得られたことになる。
 抽出部122は、現フレームにおける全オブジェクトのインデックスと各位置情報およびゲインの符号化モード情報とを復号部123に供給するとともに、取得部121から供給された符号化メタデータから符号化データを抽出して復号部123に供給する。また、抽出部122は、現フレームにおけるオブジェクトの各位置情報およびゲインの符号化モード情報を記録部125に供給して記録させる。
 ステップS177の処理が行なわれると、その後、処理はステップS178に進む。
 ステップS173、ステップS175、またはステップS177の処理が行なわれると、ステップS178において、抽出部122は、取得部121から供給された符号化メタデータの予測係数切替フラグに基づいて、選択運動パターン予測モードの入れ替えがあったか否かを判定する。
 ステップS178において入れ替えがあったと判定された場合、抽出部122は、符号化メタデータから新たな選択運動パターン予測モードの予測係数を抽出して復号部123に供給する。予測係数が抽出されると、その後、処理はステップS180へと進む。
 これに対して、ステップS178において、選択運動パターン予測モードの入れ替えがなかったと判定された場合、処理はステップS180に進む。
 ステップS179の処理が行なわれたか、またはステップS178において入れ替えがなかったと判定された場合、ステップS180において、復号部123は、全てのオブジェクトのなかから1つのオブジェクトを処理対象のオブジェクトとして選択する。
 ステップS181において、復号部123は、処理対象のオブジェクトの位置情報またはゲインを選択する。すなわち、処理対象のオブジェクトについて、水平方向角度θ、垂直方向角度γ、距離r、またはゲインgのうちの何れか1つが処理対象として選択される。
 ステップS182において、復号部123は、抽出部122から供給された符号化モード情報に基づいて、処理対象の位置情報またはゲインの符号化モードがRAWモードであるか否かを判定する。
 ステップS182においてRAWモードであると判定された場合、ステップS183において、RAW復号部141は、処理対象の位置情報またはゲインをRAWモードで復号する。
 具体的には、RAW復号部141は、抽出部122から供給された、処理対象の位置情報またはゲインの符号化データとしての符号を、そのままRAWモードで復号された位置情報またはゲインとする。ここで、RAWモードで復号された位置情報またはゲインとは、図5のステップS13で量子化されて得られた位置情報またはゲインである。
 RAWモードでの復号が行なわれると、RAW復号部141は、得られた位置情報またはゲインを記録部125に供給して、現フレームの量子化された位置情報またはゲインとして記録させ、その後、処理はステップS187に進む。
 また、ステップS182においてRAWモードでないと判定された場合、ステップS184において、復号部123は、抽出部122から供給された符号化モード情報に基づいて、処理対象の位置情報またはゲインの符号化モードが運動パターン予測モードであるか否かを判定する。
 ステップS184において、運動パターン予測モードであると判定された場合、ステップS185において、予測復号部142は、処理対象の位置情報またはゲインを運動パターン予測モードで復号する。
 具体的には、予測復号部142は、処理対象の位置情報またはゲインの符号化モード情報により示される運動パターン予測モードの予測係数を用いて、現フレームの量子化された位置情報またはゲインを算出する。
 量子化された位置情報またはゲインの算出には、上述した式(3)や、式(3)と同様の計算が行われる。例えば、処理対象の位置情報が水平方向角度θであり、その水平方向角度θの符号化モード情報により示される運動パターン予測モードが静止モードである場合には、静止モードの予測係数により式(3)の計算が行なわれる。そして、その結果得られた符号Codearc(n)が、量子化された現フレームの水平方向角度θとされる。
 なお、量子化された位置情報またはゲインの算出時に用いられる予測係数は、予め保持している予測係数、または選択運動パターン予測モードの入れ替えに応じて抽出部122から供給された予測係数が用いられる。また、予測復号部142は、量子化された位置情報またはゲインの算出時に用いる、過去のフレームの量子化された位置情報またはゲインを、記録部125から読み出して予測を行なう。
 ステップS185の処理が行なわれると、予測復号部142は、得られた位置情報またはゲインを記録部125に供給して、現フレームの量子化された位置情報またはゲインとして記録させ、その後、処理はステップS187に進む。
 また、ステップS184において、処理対象の位置情報またはゲインの符号化モードが運動パターン予測モードでないと判定された場合、すなわち残差モードである場合、ステップS186の処理が行なわれる。
 ステップS186において、残差復号部143は、処理対象の位置情報またはゲインを残差モードで復号する。
 具体的には、残差復号部143は、記録部125に記録されている符号化モード情報に基づいて、現フレームに最も時間的に近い過去のフレームであって、処理対象の位置情報またはゲインの符号化モードが残差モードではないフレームを特定する。したがって、特定されるフレームにおける処理対象の位置情報またはゲインの符号化モードは、運動パターン予測モードまたはRAWモードの何れかとなる。
 特定されたフレームにおける処理対象の位置情報またはゲインの符号化モードが運動パターン予測モードである場合、残差復号部143は、その運動パターン予測モードの予測係数を用いて、現フレームの処理対象の量子化された位置情報またはゲインを予測する。この予測では、記録部125に記録されている、過去のフレームにおける量子化された位置情報またはゲインが用いられて、上述した式(3)や式(3)に対応する計算が行なわれる。
 そして、残差復号部143は、予測により得られた現フレームにおける処理対象の量子化された位置情報またはゲインに対して、抽出部122から供給された処理対象の位置情報またはゲインの符号化データとしての差分を示す情報により示される差分を加算する。これにより、処理対象の位置情報またはゲインについて、現フレームの量子化された位置情報またはゲインが得られる。
 一方、特定されたフレームにおける処理対象の位置情報またはゲインの符号化モードがRAWモードである場合、残差復号部143は、現フレームの直前のフレームにおける、処理対象の位置情報またはゲインについての量子化された位置情報またはゲインを記録部125から取得する。そして、残差復号部143は、取得した、量子化された位置情報またはゲインに対して、抽出部122から供給された処理対象の位置情報またはゲインの符号化データとしての差分を示す情報により示される差分を加算する。これにより、処理対象の位置情報またはゲインについて、現フレームの量子化された位置情報またはゲインが得られる。
 ステップS186の処理が行なわれると、残差復号部143は、得られた位置情報またはゲインを記録部125に供給して、現フレームの量子化された位置情報またはゲインとして記録させ、その後、処理はステップS187に進む。
 以上の処理により、処理対象となっている位置情報またはゲインについて、図5のステップS13の処理により得られる、量子化された位置情報またはゲインが得られたことになる。
 ステップS183、ステップS185、またはステップS186の処理が行なわれると、ステップS187において、逆量子化部144は、ステップS183、ステップS185、またはステップS186の処理により得られた位置情報またはゲインを逆量子化する。
 例えば、位置情報としての水平方向角度θが処理対象となっている場合には、逆量子化部144は、上述した式(2)を計算することで処理対象の水平方向角度θの逆量子化、すなわち復号を行なう。
 ステップS188において、復号部123は、ステップS180の処理で処理対象として選択したオブジェクトについて、全ての位置情報およびゲインを復号したか否かを判定する。
 ステップS188において、まだ全ての位置情報およびゲインを復号していないと判定された場合、処理はステップS181に戻り、上述した処理が繰り返される。
 これに対して、ステップS188において、全ての位置情報およびゲインを復号したと判定された場合、ステップS189において、復号部123は、全てのオブジェクトについて処理を行なったか否かを判定する。
 ステップS189において、まだ全てのオブジェクトについて処理を行なっていないと判定された場合、処理はステップS180に戻り、上述した処理が繰り返される。
 一方、ステップS189において、全てのオブジェクトについて処理を行なったと判定された場合、現フレームの全オブジェクトについて、復号された各位置情報およびゲインが得られたことになる。
 この場合、復号部123は、現フレームの全オブジェクトのインデックス、位置情報、およびゲインからなるデータを復号されたメタデータとして出力部124に供給し、処理はステップS190に進む。
 ステップS190において、出力部124は、復号部123から供給されたメタデータを再生装置15に出力し、復号処理は終了する。
 以上のようにして、メタデータデコーダ32は、受信した符号化メタデータに含まれている情報に基づいて、各位置情報およびゲインの符号化モードを特定し、その特定結果に応じて位置情報やゲインを復号する。
 このように、復号側において各位置情報とゲインの符号化モードを特定して、位置情報およびゲインを復号するようにすることで、メタデータエンコーダ22とメタデータデコーダ32間で授受する符号化メタデータのデータ量を削減することができる。その結果、オーディオデータの復号時に、より高品質な音声を得ることができ、臨場感のあるオーディオ再生を実現することができるようになる。
 また、復号側において、符号化メタデータに含まれているモード変更フラグやモードリストモードフラグに基づいて、各位置情報やゲインの符号化モードを特定するようにすることで、符号化メタデータのデータ量をさらに削減することができる。
〈第2の実施の形態〉
〈メタデータエンコーダの構成例〉
 なお、以上においては、量子化のステップサイズRなどにより定まる量子化ビット数や、差分と比較する閾値として用いられるビット数Mを予め定めておく場合について説明した。しかし、これらのビット数はオブジェクトの位置やゲイン、オーディオデータの特徴、または符号化されたメタデータとオーディオデータの情報を含めたビットストリームのビットレートなどに応じて動的に変更されるようにしてもよい。
 例えば、オーディオデータからオブジェクトの位置情報およびゲインの重要度を算出し、その重要度に応じて、位置情報やゲインの圧縮率が動的に調整されるようにしてもよい。また、符号化されたメタデータとオーディオデータの情報を含めたビットストリームのビットレートの高さに応じて、位置情報やゲインの圧縮率が動的に調整されるようにしてもよい。
 具体的には例えば、オーディオデータに基づいて、上述した式(1)や式(2)で用いられるステップサイズRが動的に定められる場合、メタデータエンコーダ22は、図12に示すように構成される。なお、図12において、図4における場合と対応する部分には同一の符号を付してあり、その説明は適宜省略する。
 図12に示すメタデータエンコーダ22は、図4に示したメタデータエンコーダ22にさらに圧縮率決定部181が設けられている。
 圧縮率決定部181は、エンコーダ13に供給されたN個の各オブジェクトのオーディオデータを取得し、取得したオーディオデータに基づいて、各オブジェクトのステップサイズRを決定する。そして、圧縮率決定部181は決定したステップサイズRを符号化部72に供給する。
 また、符号化部72の量子化部81は、圧縮率決定部181から供給されたステップサイズRに基づいて、各オブジェクトの位置情報の量子化を行なう。
〈符号化処理の説明〉
 次に、図13のフローチャートを参照して、図12に示したメタデータエンコーダ22により行なわれる符号化処理について説明する。
 なお、ステップS221の処理は、図5のステップS11の処理と同様であるので、その説明は省略する。
 ステップS222において、圧縮率決定部181は、エンコーダ13から供給されたオーディオデータの特徴量に基づいて、オブジェクトごとに位置情報の圧縮率を決定する。
 具体的には、例えば圧縮率決定部181は、オブジェクトのオーディオデータの特徴量として、例えば、信号の大きさ(音量)が所定の第1の閾値以上である場合、そのオブジェクトのステップサイズRを所定の第1の値とし、符号化部72に供給する。
 また、圧縮率決定部181は、オブジェクトのオーディオデータの特徴量である信号の大きさ(音量)が第1の閾値より小さく、かつ所定の第2の閾値以上である場合、そのオブジェクトのステップサイズRを第1の値よりも大きい所定の第2の値とし、符号化部72に供給する。
 このように、オーディオデータの音声の音量が大きいときは、量子化リゾリューションを高くすることで、つまりステップサイズRを小さくすることで、復号時により正確な位置情報を得ることができるようになる。
 また、圧縮率決定部181は、オブジェクトのオーディオデータの信号の大きさ、つまり音量が無音または殆ど聞こえないくらい小さい場合には、そのオブジェクトの位置情報およびゲインを符号化メタデータとして送信しないようにする。この場合、圧縮率決定部181は、位置情報およびゲインを送らない旨の情報を符号化部72に供給する。
 ステップS222の処理が行なわれると、その後、ステップS223乃至ステップS233の処理が行なわれて、符号化処理は終了するが、これらの処理は図5のステップS12乃至ステップS22の処理と同様であるので、その説明は省略する。
 但し、ステップS224の処理では、量子化部81は、圧縮率決定部181から供給されたステップサイズRを用いて、オブジェクトの位置情報の量子化を行なう。また、圧縮率決定部181から位置情報およびゲインを送らない旨の情報が供給されたオブジェクトについては、ステップS223において処理対象として選択されず、そのオブジェクトの位置情報およびゲインは符号化されたメタデータとして送信されない。
 さらに、符号化メタデータには、圧縮部73により各オブジェクトのステップサイズRが記述されてメタデータデコーダ32に送信される。圧縮部73は、符号化部72から、または圧縮率決定部181から各オブジェクトのステップサイズRを取得する。
 以上のようにして、メタデータエンコーダ22は、オーディオデータの特徴量に基づいて、ステップサイズRを動的に変更する。
 このように、ステップサイズRを動的に変更することにより、音量が大きく重要度が高いオブジェクトについては、ステップサイズRを小さくすることで、復号時により正確な位置情報を得ることができるようになる。また、音量がほぼ無音であり、重要度が低いオブジェクトについては、位置情報およびゲインを送らないようにすることで、符号化メタデータのデータ量を効率的に削減することができる。
 ここでは、オーディオデータの特徴量として、信号の大きさ(音量)を用いた場合の処理を説明したが、オーディオデータの特徴量は、それ以外の特徴量であってもよい。例えば特徴量として、信号の基本周波数(音高)、信号の高周波数域のパワーと全体のパワーとの比、またはそれらの組み合わせなどを用いた場合でも、同様の処理を行なうことが可能である。
 さらに、図12に示したメタデータエンコーダ22により符号化メタデータが生成される場合においても、図10に示したメタデータデコーダ32により図11を参照して説明した復号処理が行なわれる。
 但し、この場合、抽出部122は取得部121から供給された符号化メタデータから、各オブジェクトの量子化のステップサイズRを抽出して復号部123に供給する。そして、復号部123の逆量子化部144は、ステップS187において、抽出部122から供給されたステップサイズRを用いて逆量子化を行なう。
 ところで、上述した一連の処理は、ハードウェアにより実行することもできるし、ソフトウェアにより実行することもできる。一連の処理をソフトウェアにより実行する場合には、そのソフトウェアを構成するプログラムが、コンピュータにインストールされる。ここで、コンピュータには、専用のハードウェアに組み込まれているコンピュータや、各種のプログラムをインストールすることで、各種の機能を実行することが可能な、例えば汎用のパーソナルコンピュータなどが含まれる。
 図14は、上述した一連の処理をプログラムにより実行するコンピュータのハードウェアの構成例を示すブロック図である。
 コンピュータにおいて、CPU(Central Processing Unit)501,ROM(Read Only Memory)502,RAM(Random Access Memory)503は、バス504により相互に接続されている。
 バス504には、さらに、入出力インターフェース505が接続されている。入出力インターフェース505には、入力部506、出力部507、記録部508、通信部509、及びドライブ510が接続されている。
 入力部506は、キーボード、マウス、マイクロホン、撮像素子などよりなる。出力部507は、ディスプレイ、スピーカなどよりなる。記録部508は、ハードディスクや不揮発性のメモリなどよりなる。通信部509は、ネットワークインターフェースなどよりなる。ドライブ510は、磁気ディスク、光ディスク、光磁気ディスク、又は半導体メモリなどのリムーバブルメディア511を駆動する。
 以上のように構成されるコンピュータでは、CPU501が、例えば、記録部508に記録されているプログラムを、入出力インターフェース505及びバス504を介して、RAM503にロードして実行することにより、上述した一連の処理が行われる。
 コンピュータ(CPU501)が実行するプログラムは、例えば、パッケージメディア等としてのリムーバブルメディア511に記録して提供することができる。また、プログラムは、ローカルエリアネットワーク、インターネット、デジタル衛星放送といった、有線または無線の伝送媒体を介して提供することができる。
 コンピュータでは、プログラムは、リムーバブルメディア511をドライブ510に装着することにより、入出力インターフェース505を介して、記録部508にインストールすることができる。また、プログラムは、有線または無線の伝送媒体を介して、通信部509で受信し、記録部508にインストールすることができる。その他、プログラムは、ROM502や記録部508に、あらかじめインストールしておくことができる。
 なお、コンピュータが実行するプログラムは、本明細書で説明する順序に沿って時系列に処理が行われるプログラムであっても良いし、並列に、あるいは呼び出しが行われたとき等の必要なタイミングで処理が行われるプログラムであっても良い。
 また、本技術の実施の形態は、上述した実施の形態に限定されるものではなく、本技術の要旨を逸脱しない範囲において種々の変更が可能である。
 例えば、本技術は、1つの機能をネットワークを介して複数の装置で分担、共同して処理するクラウドコンピューティングの構成をとることができる。
 また、上述のフローチャートで説明した各ステップは、1つの装置で実行する他、複数の装置で分担して実行することができる。
 さらに、1つのステップに複数の処理が含まれる場合には、その1つのステップに含まれる複数の処理は、1つの装置で実行する他、複数の装置で分担して実行することができる。
 さらに、本技術は、以下の構成とすることも可能である。
[1]
 所定の時刻における音源の位置情報を、前記所定の時刻よりも前の時刻における前記音源の前記位置情報に基づいて、所定の符号化モードにより符号化する符号化部と、
 複数の前記符号化モードのうちの1つを前記位置情報の前記符号化モードとして決定する決定部と、
 前記決定部により決定された前記符号化モードを示す符号化モード情報と、前記決定部により決定された前記符号化モードにより符号化された前記位置情報とを出力する出力部と
 を備える符号化装置。
[2]
 前記符号化モードは、前記位置情報をそのまま前記符号化された前記位置情報とするRAWモード、前記音源が静止しているとして前記位置情報を符号化する静止モード、前記音源が等速度で移動しているとして前記位置情報を符号化する等速度モード、前記音源が等加速度で移動しているとして前記位置情報を符号化する等加速度モード、または前記位置情報の残差に基づいて前記位置情報を符号化する残差モードである
 [1]に記載の符号化装置。
[3]
 前記位置情報は前記音源の位置を表す水平方向角度、垂直方向角度、または距離である
 [1]または[2]に記載の符号化装置。
[4]
 前記残差モードにより符号化された前記位置情報は、前記位置情報としての角度の差分を示す情報である
 [2]に記載の符号化装置。
[5]
 前記出力部は、複数の前記音源について、前記所定の時刻における全ての前記音源の前記位置情報の前記符号化モードが、前記所定の時刻の直前の時刻における前記符号化モードと同じである場合、前記符号化モード情報を出力しない
 [1]乃至[4]の何れかに記載の符号化装置。
[6]
 前記出力部は、前記所定の時刻において、複数の前記音源のうちの一部の前記音源の前記位置情報の前記符号化モードが、前記所定の時刻の直前の時刻における前記符号化モードと異なる場合、全ての前記符号化モード情報のうち、前記直前の時刻とは前記符号化モードが異なる前記音源の前記位置情報の前記符号化モード情報のみを出力する
 [1]乃至[5]の何れかに記載の符号化装置。
[7]
 前記位置情報を所定の量子化幅で量子化する量子化部と、
 前記音源のオーディオデータの特徴量に基づいて、前記量子化幅を決定する圧縮率決定部と
 をさらに備え、
 前記符号化部は、量子化された前記位置情報を符号化する
 [1]乃至[6]の何れかに記載の符号化装置。
[8]
 過去に出力した前記符号化モード情報および前記符号化された前記位置情報のデータ量に基づいて、前記位置情報を符号化する前記符号化モードの入れ替えを行なう切替部をさらに備える
 [1]乃至[7]の何れかに記載の符号化装置。
[9]
 前記符号化部は、前記音源のゲインをさらに符号化し、
 前記出力部は、前記ゲインの前記符号化モード情報と、符号化された前記ゲインとをさらに出力する
 [1]乃至[8]の何れかに記載の符号化装置。
[10]
 所定の時刻における音源の位置情報を、前記所定の時刻よりも前の時刻における前記音源の前記位置情報に基づいて、所定の符号化モードにより符号化し、
 複数の前記符号化モードのうちの1つを前記位置情報の前記符号化モードとして決定し、
 決定された前記符号化モードを示す符号化モード情報と、決定された前記符号化モードにより符号化された前記位置情報とを出力する
 ステップを含む符号化方法。
[11]
 所定の時刻における音源の位置情報を、前記所定の時刻よりも前の時刻における前記音源の前記位置情報に基づいて、所定の符号化モードにより符号化し、
 複数の前記符号化モードのうちの1つを前記位置情報の前記符号化モードとして決定し、
 決定された前記符号化モードを示す符号化モード情報と、決定された前記符号化モードにより符号化された前記位置情報とを出力する
 ステップを含む処理をコンピュータに実行させるプログラム。
[12]
 所定の時刻における音源の符号化された位置情報と、複数の符号化モードのうちの前記位置情報を符号化した符号化モードを示す符号化モード情報とを取得する取得部と、
 前記所定の時刻よりも前の時刻における前記音源の前記位置情報に基づいて、前記符号化モード情報により示される前記符号化モードに対応する方式で、前記所定の時刻における前記符号化された前記位置情報を復号する復号部と
 を備える復号装置。
[13]
 前記符号化モードは、前記位置情報をそのまま前記符号化された前記位置情報とするRAWモード、前記音源が静止しているとして前記位置情報を符号化する静止モード、前記音源が等速度で移動しているとして前記位置情報を符号化する等速度モード、前記音源が等加速度で移動しているとして前記位置情報を符号化する等加速度モード、または前記位置情報の残差に基づいて前記位置情報を符号化する残差モードである
 [12]に記載の復号装置。
[14]
 前記位置情報は前記音源の位置を表す水平方向角度、垂直方向角度、または距離である
 [12]または[13]に記載の復号装置。
[15]
 前記残差モードにより符号化された前記位置情報は、前記位置情報としての角度の差分を示す情報である
 [13]に記載の復号装置。
[16]
 前記取得部は、複数の前記音源について、前記所定の時刻における全ての前記音源の前記位置情報の前記符号化モードが、前記所定の時刻の直前の時刻における前記符号化モードと同じである場合、前記符号化された前記位置情報のみを取得する
 [12]乃至[15]の何れかに記載の復号装置。
[17]
 前記取得部は、前記所定の時刻において、複数の前記音源のうちの一部の前記音源の前記位置情報の前記符号化モードが、前記所定の時刻の直前の時刻における前記符号化モードと異なる場合、前記符号化された前記位置情報と、前記直前の時刻とは前記符号化モードが異なる前記音源の前記位置情報の前記符号化モード情報とを取得する
 [12]乃至[16]の何れかに記載の復号装置。
[18]
 前記取得部は、前記音源のオーディオデータの特徴量に基づいて決定された、前記位置情報の符号化時に前記位置情報を量子化した量子化幅を示す情報をさらに取得する
 [12]乃至[17]の何れかに記載の復号装置。
[19]
 所定の時刻における音源の符号化された位置情報と、複数の符号化モードのうちの前記位置情報を符号化した符号化モードを示す符号化モード情報とを取得し、
 前記所定の時刻よりも前の時刻における前記音源の前記位置情報に基づいて、前記符号化モード情報により示される前記符号化モードに対応する方式で、前記所定の時刻における前記符号化された前記位置情報を復号する
 ステップを含む復号方法。
[20]
 所定の時刻における音源の符号化された位置情報と、複数の符号化モードのうちの前記位置情報を符号化した符号化モードを示す符号化モード情報とを取得し、
 前記所定の時刻よりも前の時刻における前記音源の前記位置情報に基づいて、前記符号化モード情報により示される前記符号化モードに対応する方式で、前記所定の時刻における前記符号化された前記位置情報を復号する
 ステップを含む処理をコンピュータに実行させるプログラム。
 22 メタデータエンコーダ, 32 メタデータデコーダ, 72 符号化部, 73 圧縮部, 74 決定部, 75 出力部, 77 切替部, 81 量子化部, 82 RAW符号化部, 83 予測符号化部, 84 残差符号化部, 122 抽出部, 123 復号部, 124 出力部, 141 RAW復号部, 142 予測復号部, 143 残差復号部, 144 逆量子化部, 181 圧縮率決定部

Claims (20)

  1.  所定の時刻における音源の位置情報を、前記所定の時刻よりも前の時刻における前記音源の前記位置情報に基づいて、所定の符号化モードにより符号化する符号化部と、
     複数の前記符号化モードのうちの1つを前記位置情報の前記符号化モードとして決定する決定部と、
     前記決定部により決定された前記符号化モードを示す符号化モード情報と、前記決定部により決定された前記符号化モードにより符号化された前記位置情報とを出力する出力部と
     を備える符号化装置。
  2.  前記符号化モードは、前記位置情報をそのまま前記符号化された前記位置情報とするRAWモード、前記音源が静止しているとして前記位置情報を符号化する静止モード、前記音源が等速度で移動しているとして前記位置情報を符号化する等速度モード、前記音源が等加速度で移動しているとして前記位置情報を符号化する等加速度モード、または前記位置情報の残差に基づいて前記位置情報を符号化する残差モードである
     請求項1に記載の符号化装置。
  3.  前記位置情報は前記音源の位置を表す水平方向角度、垂直方向角度、または距離である
     請求項2に記載の符号化装置。
  4.  前記残差モードにより符号化された前記位置情報は、前記位置情報としての角度の差分を示す情報である
     請求項2に記載の符号化装置。
  5.  前記出力部は、複数の前記音源について、前記所定の時刻における全ての前記音源の前記位置情報の前記符号化モードが、前記所定の時刻の直前の時刻における前記符号化モードと同じである場合、前記符号化モード情報を出力しない
     請求項2に記載の符号化装置。
  6.  前記出力部は、前記所定の時刻において、複数の前記音源のうちの一部の前記音源の前記位置情報の前記符号化モードが、前記所定の時刻の直前の時刻における前記符号化モードと異なる場合、全ての前記符号化モード情報のうち、前記直前の時刻とは前記符号化モードが異なる前記音源の前記位置情報の前記符号化モード情報のみを出力する
     請求項2に記載の符号化装置。
  7.  前記位置情報を所定の量子化幅で量子化する量子化部と、
     前記音源のオーディオデータの特徴量に基づいて、前記量子化幅を決定する圧縮率決定部と
     をさらに備え、
     前記符号化部は、量子化された前記位置情報を符号化する
     請求項2に記載の符号化装置。
  8.  過去に出力した前記符号化モード情報および前記符号化された前記位置情報のデータ量に基づいて、前記位置情報を符号化する前記符号化モードの入れ替えを行なう切替部をさらに備える
     請求項2に記載の符号化装置。
  9.  前記符号化部は、前記音源のゲインをさらに符号化し、
     前記出力部は、前記ゲインの前記符号化モード情報と、符号化された前記ゲインとをさらに出力する
     請求項2に記載の符号化装置。
  10.  所定の時刻における音源の位置情報を、前記所定の時刻よりも前の時刻における前記音源の前記位置情報に基づいて、所定の符号化モードにより符号化し、
     複数の前記符号化モードのうちの1つを前記位置情報の前記符号化モードとして決定し、
     決定された前記符号化モードを示す符号化モード情報と、決定された前記符号化モードにより符号化された前記位置情報とを出力する
     ステップを含む符号化方法。
  11.  所定の時刻における音源の位置情報を、前記所定の時刻よりも前の時刻における前記音源の前記位置情報に基づいて、所定の符号化モードにより符号化し、
     複数の前記符号化モードのうちの1つを前記位置情報の前記符号化モードとして決定し、
     決定された前記符号化モードを示す符号化モード情報と、決定された前記符号化モードにより符号化された前記位置情報とを出力する
     ステップを含む処理をコンピュータに実行させるプログラム。
  12.  所定の時刻における音源の符号化された位置情報と、複数の符号化モードのうちの前記位置情報を符号化した符号化モードを示す符号化モード情報とを取得する取得部と、
     前記所定の時刻よりも前の時刻における前記音源の前記位置情報に基づいて、前記符号化モード情報により示される前記符号化モードに対応する方式で、前記所定の時刻における前記符号化された前記位置情報を復号する復号部と
     を備える復号装置。
  13.  前記符号化モードは、前記位置情報をそのまま前記符号化された前記位置情報とするRAWモード、前記音源が静止しているとして前記位置情報を符号化する静止モード、前記音源が等速度で移動しているとして前記位置情報を符号化する等速度モード、前記音源が等加速度で移動しているとして前記位置情報を符号化する等加速度モード、または前記位置情報の残差に基づいて前記位置情報を符号化する残差モードである
     請求項12に記載の復号装置。
  14.  前記位置情報は前記音源の位置を表す水平方向角度、垂直方向角度、または距離である
     請求項13に記載の復号装置。
  15.  前記残差モードにより符号化された前記位置情報は、前記位置情報としての角度の差分を示す情報である
     請求項13に記載の復号装置。
  16.  前記取得部は、複数の前記音源について、前記所定の時刻における全ての前記音源の前記位置情報の前記符号化モードが、前記所定の時刻の直前の時刻における前記符号化モードと同じである場合、前記符号化された前記位置情報のみを取得する
     請求項13に記載の復号装置。
  17.  前記取得部は、前記所定の時刻において、複数の前記音源のうちの一部の前記音源の前記位置情報の前記符号化モードが、前記所定の時刻の直前の時刻における前記符号化モードと異なる場合、前記符号化された前記位置情報と、前記直前の時刻とは前記符号化モードが異なる前記音源の前記位置情報の前記符号化モード情報とを取得する
     請求項13に記載の復号装置。
  18.  前記取得部は、前記音源のオーディオデータの特徴量に基づいて決定された、前記位置情報の符号化時に前記位置情報を量子化した量子化幅を示す情報をさらに取得する
     請求項13に記載の復号装置。
  19.  所定の時刻における音源の符号化された位置情報と、複数の符号化モードのうちの前記位置情報を符号化した符号化モードを示す符号化モード情報とを取得し、
     前記所定の時刻よりも前の時刻における前記音源の前記位置情報に基づいて、前記符号化モード情報により示される前記符号化モードに対応する方式で、前記所定の時刻における前記符号化された前記位置情報を復号する
     ステップを含む復号方法。
  20.  所定の時刻における音源の符号化された位置情報と、複数の符号化モードのうちの前記位置情報を符号化した符号化モードを示す符号化モード情報とを取得し、
     前記所定の時刻よりも前の時刻における前記音源の前記位置情報に基づいて、前記符号化モード情報により示される前記符号化モードに対応する方式で、前記所定の時刻における前記符号化された前記位置情報を復号する
     ステップを含む処理をコンピュータに実行させるプログラム。
PCT/JP2014/063409 2013-05-31 2014-05-21 符号化装置および方法、復号装置および方法、並びにプログラム WO2014192602A1 (ja)

Priority Applications (4)

Application Number Priority Date Filing Date Title
US14/893,909 US9805729B2 (en) 2013-05-31 2014-05-21 Encoding device and method, decoding device and method, and program
JP2015519803A JP6380389B2 (ja) 2013-05-31 2014-05-21 符号化装置および方法、復号装置および方法、並びにプログラム
EP14803533.0A EP3007168A4 (en) 2013-05-31 2014-05-21 Encoding device and method, decoding device and method, and program
CN201480029798.0A CN105229734B (zh) 2013-05-31 2014-05-21 编码装置和方法、解码装置和方法以及计算机可读介质

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
JP2013115724 2013-05-31
JP2013-115724 2013-05-31

Publications (1)

Publication Number Publication Date
WO2014192602A1 true WO2014192602A1 (ja) 2014-12-04

Family

ID=51988635

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/JP2014/063409 WO2014192602A1 (ja) 2013-05-31 2014-05-21 符号化装置および方法、復号装置および方法、並びにプログラム

Country Status (6)

Country Link
US (1) US9805729B2 (ja)
EP (1) EP3007168A4 (ja)
JP (1) JP6380389B2 (ja)
CN (1) CN105229734B (ja)
TW (1) TWI615834B (ja)
WO (1) WO2014192602A1 (ja)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2019198540A1 (ja) * 2018-04-12 2019-10-17 ソニー株式会社 情報処理装置および方法、並びにプログラム
JP2021503628A (ja) * 2017-11-17 2021-02-12 フラウンホファー ゲセルシャフト ツール フェールデルンク ダー アンゲヴァンテン フォルシュンク エー.ファオ. 量子化とエントロピーコーディングとを使用して指向性オーディオコーディングパラメータを符号化または復号するための装置および方法
JP2021517668A (ja) * 2018-04-10 2021-07-26 ガウディオ・ラボ・インコーポレイテッド メタデータを利用するオーディオ信号処理方法及び装置
JP7485109B2 (ja) 2018-04-12 2024-05-16 ソニーグループ株式会社 情報処理装置および方法、並びにプログラム

Families Citing this family (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP3657823A1 (en) * 2013-11-28 2020-05-27 Dolby Laboratories Licensing Corporation Position-based gain adjustment of object-based audio and ring-based channel audio
CN106774930A (zh) * 2016-12-30 2017-05-31 中兴通讯股份有限公司 一种数据处理方法、装置及采集设备
US9820073B1 (en) 2017-05-10 2017-11-14 Tls Corp. Extracting a common signal from multiple audio signals
KR20200128023A (ko) * 2018-03-15 2020-11-11 소니 주식회사 화상 처리 장치 및 방법
GB2582916A (en) * 2019-04-05 2020-10-14 Nokia Technologies Oy Spatial audio representation and associated rendering
GB2585187A (en) * 2019-06-25 2021-01-06 Nokia Technologies Oy Determination of spatial audio parameter encoding and associated decoding
US20220383881A1 (en) * 2021-05-27 2022-12-01 Qualcomm Incorporated Audio encoding based on link data
CN117581566A (zh) * 2022-05-05 2024-02-20 北京小米移动软件有限公司 音频处理方法、装置及存储介质

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2009522610A (ja) * 2006-01-09 2009-06-11 ノキア コーポレイション バイノーラルオーディオ信号の復号制御
JP2009526467A (ja) * 2006-02-09 2009-07-16 エルジー エレクトロニクス インコーポレイティド オブジェクトベースオーディオ信号の符号化及び復号化方法とその装置
JP2009543389A (ja) * 2006-07-08 2009-12-03 ノキア コーポレイション バイノーラル音響信号の動的な復号
JP2010515099A (ja) * 2006-12-27 2010-05-06 エレクトロニクス アンド テレコミュニケーションズ リサーチ インスチチュート 情報ビットストリーム変換を含む多様なチャネルで構成されたマルチオブジェクトオーディオ信号の符号化および復号化装置、並びに方法
JP2010521002A (ja) * 2006-09-29 2010-06-17 韓國電子通信研究院 多様なチャネルから構成されたマルチオブジェクトオーディオ信号の符号化および復号化装置、並びにその方法
WO2010109918A1 (ja) * 2009-03-26 2010-09-30 パナソニック株式会社 復号化装置、符号化復号化装置および復号化方法

Family Cites Families (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP4308345B2 (ja) * 1998-08-21 2009-08-05 パナソニック株式会社 マルチモード音声符号化装置及び復号化装置
AU2547201A (en) * 2000-01-11 2001-07-24 Matsushita Electric Industrial Co., Ltd. Multi-mode voice encoding device and decoding device
CN1288625C (zh) * 2002-01-30 2006-12-06 松下电器产业株式会社 音频编码与解码设备及其方法
CN1677493A (zh) * 2004-04-01 2005-10-05 北京宫羽数字技术有限责任公司 一种增强音频编解码装置及方法
KR100647336B1 (ko) * 2005-11-08 2006-11-23 삼성전자주식회사 적응적 시간/주파수 기반 오디오 부호화/복호화 장치 및방법
KR20070077652A (ko) * 2006-01-24 2007-07-27 삼성전자주식회사 적응적 시간/주파수 기반 부호화 모드 결정 장치 및 이를위한 부호화 모드 결정 방법
CN101197134A (zh) * 2006-12-05 2008-06-11 华为技术有限公司 消除编码模式切换影响的方法和装置以及解码方法和装置
KR100964402B1 (ko) * 2006-12-14 2010-06-17 삼성전자주식회사 오디오 신호의 부호화 모드 결정 방법 및 장치와 이를 이용한 오디오 신호의 부호화/복호화 방법 및 장치
KR101439205B1 (ko) * 2007-12-21 2014-09-11 삼성전자주식회사 오디오 매트릭스 인코딩 및 디코딩 방법 및 장치
KR20090110242A (ko) * 2008-04-17 2009-10-21 삼성전자주식회사 오디오 신호를 처리하는 방법 및 장치
US9165558B2 (en) * 2011-03-09 2015-10-20 Dts Llc System for dynamically creating and rendering audio objects
TW202339510A (zh) * 2011-07-01 2023-10-01 美商杜比實驗室特許公司 用於適應性音頻信號的產生、譯碼與呈現之系統與方法
AU2012279349B2 (en) * 2011-07-01 2016-02-18 Dolby Laboratories Licensing Corporation System and tools for enhanced 3D audio authoring and rendering

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2009522610A (ja) * 2006-01-09 2009-06-11 ノキア コーポレイション バイノーラルオーディオ信号の復号制御
JP2009526467A (ja) * 2006-02-09 2009-07-16 エルジー エレクトロニクス インコーポレイティド オブジェクトベースオーディオ信号の符号化及び復号化方法とその装置
JP2009543389A (ja) * 2006-07-08 2009-12-03 ノキア コーポレイション バイノーラル音響信号の動的な復号
JP2010521002A (ja) * 2006-09-29 2010-06-17 韓國電子通信研究院 多様なチャネルから構成されたマルチオブジェクトオーディオ信号の符号化および復号化装置、並びにその方法
JP2010515099A (ja) * 2006-12-27 2010-05-06 エレクトロニクス アンド テレコミュニケーションズ リサーチ インスチチュート 情報ビットストリーム変換を含む多様なチャネルで構成されたマルチオブジェクトオーディオ信号の符号化および復号化装置、並びに方法
WO2010109918A1 (ja) * 2009-03-26 2010-09-30 パナソニック株式会社 復号化装置、符号化復号化装置および復号化方法

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
See also references of EP3007168A4 *
VILLE PULKKI: "Virtual Sound Source Positioning Using Vector Base Amplitude Panning", JOURNAL OF AES, vol. 45, no. 6, 1 June 1997 (1997-06-01), pages 456 - 466, XP000695381 *
VILLE PULKKI: "Virtual Sound Source Positioning Using Vector Base Amplitude Panning", JOURNAL OF AES, vol. 45, no. 6, 1997, pages 456 - 466

Cited By (16)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP7175980B2 (ja) 2017-11-17 2022-11-21 フラウンホファー ゲセルシャフト ツール フェールデルンク ダー アンゲヴァンテン フォルシュンク エー.ファオ. 量子化とエントロピーコーディングとを使用して指向性オーディオコーディングパラメータを符号化または復号するための装置および方法
US11367454B2 (en) 2017-11-17 2022-06-21 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Apparatus and method for encoding or decoding directional audio coding parameters using quantization and entropy coding
JP2021503628A (ja) * 2017-11-17 2021-02-12 フラウンホファー ゲセルシャフト ツール フェールデルンク ダー アンゲヴァンテン フォルシュンク エー.ファオ. 量子化とエントロピーコーディングとを使用して指向性オーディオコーディングパラメータを符号化または復号するための装置および方法
JP2022058577A (ja) * 2017-11-17 2022-04-12 フラウンホファー ゲセルシャフト ツール フェールデルンク ダー アンゲヴァンテン フォルシュンク エー.ファオ. 量子化とエントロピーコーディングとを使用して指向性オーディオコーディングパラメータを符号化または復号するための装置および方法
JP7372360B2 (ja) 2017-11-17 2023-10-31 フラウンホファー ゲセルシャフト ツール フェールデルンク ダー アンゲヴァンテン フォルシュンク エー.ファオ. 量子化とエントロピーコーディングとを使用して指向性オーディオコーディングパラメータを符号化または復号するための装置および方法
US11783843B2 (en) 2017-11-17 2023-10-10 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Apparatus and method for encoding or decoding directional audio coding parameters using different time/frequency resolutions
JP7371968B2 (ja) 2018-04-10 2023-10-31 ガウディオ・ラボ・インコーポレイテッド メタデータを利用するオーディオ信号処理方法及び装置
US11950080B2 (en) 2018-04-10 2024-04-02 Gaudio Lab, Inc. Method and device for processing audio signal, using metadata
JP2021517668A (ja) * 2018-04-10 2021-07-26 ガウディオ・ラボ・インコーポレイテッド メタデータを利用するオーディオ信号処理方法及び装置
JP2022126849A (ja) * 2018-04-10 2022-08-30 ガウディオ・ラボ・インコーポレイテッド メタデータを利用するオーディオ信号処理方法及び装置
JP7102024B2 (ja) 2018-04-10 2022-07-19 ガウディオ・ラボ・インコーポレイテッド メタデータを利用するオーディオ信号処理装置
US11540075B2 (en) 2018-04-10 2022-12-27 Gaudio Lab, Inc. Method and device for processing audio signal, using metadata
WO2019198540A1 (ja) * 2018-04-12 2019-10-17 ソニー株式会社 情報処理装置および方法、並びにプログラム
JP7226436B2 (ja) 2018-04-12 2023-02-21 ソニーグループ株式会社 情報処理装置および方法、並びにプログラム
JPWO2019198540A1 (ja) * 2018-04-12 2021-04-22 ソニー株式会社 情報処理装置および方法、並びにプログラム
JP7485109B2 (ja) 2018-04-12 2024-05-16 ソニーグループ株式会社 情報処理装置および方法、並びにプログラム

Also Published As

Publication number Publication date
TW201503113A (zh) 2015-01-16
TWI615834B (zh) 2018-02-21
US9805729B2 (en) 2017-10-31
JP6380389B2 (ja) 2018-08-29
EP3007168A4 (en) 2017-01-25
EP3007168A1 (en) 2016-04-13
US20160133261A1 (en) 2016-05-12
CN105229734A (zh) 2016-01-06
JPWO2014192602A1 (ja) 2017-02-23
CN105229734B (zh) 2019-08-20

Similar Documents

Publication Publication Date Title
JP6380389B2 (ja) 符号化装置および方法、復号装置および方法、並びにプログラム
US11798568B2 (en) Methods, apparatus and systems for encoding and decoding of multi-channel ambisonics audio data
CN106415714B (zh) 译码环境高阶立体混响系数的独立帧
US9058803B2 (en) Multichannel audio stream compression
CN101223582B (zh) 一种音频编码方法、音频解码方法及音频编码器
KR101921403B1 (ko) 고차 앰비소닉 신호 압축
CN106133828B (zh) 编码装置和编码方法、解码装置和解码方法及存储介质
JP2009524108A (ja) 拡張帯域周波数コーディングによる複素変換チャネルコーディング
CN105580072A (zh) 用于声场的空间分量的压缩的量化步长
US20210176582A1 (en) Information processing apparatus and method, and program
WO2015146860A1 (ja) 音声復号装置、音声符号化装置、音声復号方法、音声符号化方法、音声復号プログラム、および音声符号化プログラム
CN106471578A (zh) 较高阶立体混响信号之间的交叉淡化
JP2022509440A (ja) 空間オーディオパラメータの符号化及び対応する復号の決定
TW201606751A (zh) 將高階保真立體音響信號表示之次頻帶內主導方向信號之方向編碼/解碼之方法及裝置
KR20200140874A (ko) 공간 오디오 파라미터의 양자화
CN113129913B (zh) 音频信号的编解码方法和编解码装置
US9781539B2 (en) Encoding device and method, decoding device and method, and program
CN111179951B (zh) 包括编码hoa表示的位流的解码方法和装置、以及介质
KR20220018588A (ko) DirAC 기반 공간 오디오 코딩을 위한 패킷 손실 은닉
Yang et al. Multi-stage encoding scheme for multiple audio objects using compressed sensing
US7747093B2 (en) Method and apparatus for predicting the size of a compressed signal
CN118038882A (en) Audio encoding method, device, computer readable medium and electronic equipment
CN113129910A (zh) 音频信号的编解码方法和编解码装置
CN118016077A (en) Decoding method and apparatus comprising a bitstream encoding an HOA representation, and medium

Legal Events

Date Code Title Description
WWE Wipo information: entry into national phase

Ref document number: 201480029798.0

Country of ref document: CN

121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 14803533

Country of ref document: EP

Kind code of ref document: A1

ENP Entry into the national phase

Ref document number: 2015519803

Country of ref document: JP

Kind code of ref document: A

WWE Wipo information: entry into national phase

Ref document number: 2014803533

Country of ref document: EP

WWE Wipo information: entry into national phase

Ref document number: 14893909

Country of ref document: US

NENP Non-entry into the national phase

Ref country code: DE