JPWO2020010064A5

JPWO2020010064A5 -

Info

Publication number: JPWO2020010064A5
Application number: JP2020547044A
Authority: JP
Publication date: 2022-07-05

Description

明細書および図面は、提案される方法および装置の原理を説明するに過ぎないことを注意しておくべきである。よって、当業者は、本明細書に明示的に記載または図示されていないが、本発明の原理を具現し、その精神および範囲内に含まれるさまざまな構成を考案することができることが理解されるであろう。さらに、本明細書に記載されたすべての例は、主として、提案される方法および装置の原理、ならびに当該技術を促進するために発明者によって寄与された概念を理解する際に読者を助けるという教育目的のみをはっきりと目的とするものであり、そのように具体的に記載された例および条件に限定することなく、解釈される。さらに、本発明の原理、側面、および実施形態、ならびにそれらの特定の例を記載する本明細書のすべての陳述は、それらの均等物を包含することが意図されている。
いくつかの態様を記載しておく。
〔態様１〕
ビットストリーム（101）を生成する方法（500）であって、前記ビットストリーム（101）は、没入的オーディオ信号（111）のフレームのシーケンスについてのスーパーフレーム（400）のシーケンスを含み、当該方法（500）は、スーパーフレーム（400）の前記シーケンスについて、繰り返し：
前記没入的オーディオ信号（111）から導出された一つまたは複数のダウンミックス・チャネル信号（203）の一つまたは複数のフレームについての符号化されたオーディオ・データ（206）を、スーパーフレーム（400）のデータ・フィールド（411、421、412、422）に挿入する段階（501）と；
前記符号化されたオーディオ・データ（206）から前記没入的オーディオ信号（111）の一つまたは複数のフレームを再構成するためのメタデータ（202,205）を、前記スーパーフレーム（400）のメタデータ・フィールド（403）に挿入する段階（502）とを実行することを含む、
方法。
〔態様２〕
・当該方法（500）が、前記スーパーフレーム（400）にヘッダ・フィールド（401）を挿入することを含み；
・前記ヘッダ・フィールド（401）は、前記スーパーフレーム（400）の前記メタデータ・フィールド（403）のサイズを示す、
態様１に記載の方法。
〔態様３〕
・前記メタデータ・フィールド（403）は可能な最大サイズを示し；
・前記ヘッダ・フィールド（401）は調整値を示し；
・前記スーパーフレーム（400）の前記メタデータ・フィールド（403）のサイズは、前記可能な最大サイズから前記調整値を引いたものに対応する、
態様２に記載の方法。
〔態様４〕
前記ヘッダ・フィールド（401）は、前記メタデータ・フィールド（403）についてのサイズ・インジケータを含み；
前記サイズ・インジケータは、前記メタデータ・フィールド（403）のサイズの異なるサイズ範囲について異なる分解能を示す、
態様２または３に記載の方法。
〔態様５〕
・前記没入的オーディオ信号（111）の前記一つまたは複数のフレームを再構成するための前記メタデータ（202,205）は、該メタデータ（202,205）のサイズの統計的サイズ分布を示し；
・前記サイズ・インジケータの分解能は、前記メタデータ（202,205）のサイズ分布に依存する、
態様４に記載の方法。
〔態様６〕
・当該方法（500）が、前記スーパーフレーム（400）にヘッダ・フィールド（401）を挿入することを含み；
・前記ヘッダ・フィールド（401）は、前記スーパーフレーム（400）が構成情報フィールド（402）を含むか否かを示し；
・前記ヘッダ・フィールド（401）は、構成情報フィールド（402）の存在を示す、
態様１ないし５のうちいずれか一項に記載の方法。
〔態様７〕
・当該方法（500）は、構成情報フィールド（402）を前記スーパーフレーム（400）に挿入することを含み；
・前記構成情報フィールド（402）は、前記スーパーフレーム（400）のデータ・フィールド（411、421、412、422）によって表わされるダウンミックス・チャネル信号（203）の数を示す、
態様１ないし６のうちいずれか一項に記載の方法。
〔態様８〕
・当該方法（500）は、構成情報フィールド（402）を前記スーパーフレーム（400）に挿入することを含み；
・前記構成情報フィールド（402）は、前記メタデータ・フィールド（403）の可能な最大サイズを示す、
態様１ないし７のうちいずれか一項に記載の方法。
〔態様９〕
・当該方法（500）は、構成情報フィールド（402）を前記スーパーフレーム（400）に挿入することを含み；
・前記構成情報フィールド（402）は、前記没入的オーディオ信号（111）内に含まれる音場表現信号の次数を示す、
態様１ないし８のうちいずれか一項に記載の方法。
〔態様１０〕
・当該方法（500）は、構成情報フィールド（402）を前記スーパーフレーム（400）に挿入することを含み；
・前記構成情報フィールド（402）は、前記一つまたは複数のダウンミックス・チャネル信号（203）のそれぞれを符号化するために使用されるフレーム・タイプおよび／または符号化モードを示す、
態様１ないし９のうちいずれか一項に記載の方法。
〔態様１１〕
・当該方法（500）は、ヘッダ・フィールド（401）を前記スーパーフレーム（400）に挿入することを含み；
・ヘッダ・フィールド（401）は、前記スーパーフレーム（400）が前記没入的オーディオ信号（111）に関する追加的情報のための拡張フィールド（404）を含むか否かを示す、
態様１ないし１０のうちいずれか一項に記載の方法。
〔態様１２〕
スーパーフレーム（400）が、前記一つまたは複数のダウンミックス・チャネル信号（203）の2つ以上のフレームを含む、態様１ないし３のうちいずれか一項に記載の方法。
〔態様１３〕
・ダウンミックス・チャネル信号（203）のフレームの前記符号化されたオーディオ・データ（206）は、マルチモードおよび／またはマルチレート発話またはオーディオ・コーデックを使用して生成される；および／または
・前記メタデータ（202,205）は、マルチモードおよび／またはマルチレートの没入的メタデータ符号化方式を使用して生成される、
態様１ないし１２のうちいずれか一項に記載の方法。
〔態様１４〕
ダウンミックス・チャネル信号（203）のフレームの前記符号化されたオーディオ・データ（206）が、向上音声サービス・エンコーダを使用してエンコードされる、態様１ないし１３のうちいずれか一項に記載の方法。
〔態様１５〕
前記スーパーフレーム（400）が、伝送プロトコル、特にDASH、RTSPまたはRTPを用いて伝送される、または記憶フォーマット、特にISOBMFFに従ってファイルに格納される、データ要素の少なくとも一部を構成する、態様１ないし１４のうちいずれか一項に記載の方法。
〔態様１６〕
・前記ヘッダ・フィールド（401）は、構成情報フィールド（402）が存在しないことを示し；
・当該方法（500）は、前記スーパーフレーム（400）のシーケンスの以前のスーパーフレーム（400）において、またはアウトオブバンド信号伝達方式を使って、構成情報を伝達することを含む、
態様１ないし１５のうちいずれか一項に記載の方法。
〔態様１７〕
当該方法が、
・前記没入的オーディオ信号（111）から導出された第1のダウンミックス・チャネル信号（203）および第2のダウンミックス・チャネル信号（203）の一つまたは複数のフレームについての符号化されたオーディオ・データ（206）を、前記スーパーフレーム（400）の一つまたは複数の第1データ・フィールド（411、421）および一つまたは複数の第2データ・フィールド（412、422）に、それぞれ挿入する段階であって、前記第1のダウンミックス・チャネル信号（203）は第1のエンコーダを用いてエンコードされ、前記第2のダウンミックス・チャネル信号（203）は第2のエンコーダを用いてエンコードされる、段階と；
・前記第1のエンコーダおよび前記第2のエンコーダに関する構成情報を、前記スーパーフレーム（400）内で、前記スーパーフレーム（400）のシーケンスのうち以前のスーパーフレーム（400）内で、またはアウトオブバンド信号伝達方式を使って、提供する段階とを含む、
態様１ないし１６のうちいずれか一項に記載の方法。
〔態様１８〕
当該方法が、
・IA信号と呼ばれる、前記没入的オーディオ信号（111）から一つまたは複数のオーディオ・オブジェクトを抽出する段階であって、オーディオ・オブジェクトは、オブジェクト信号と、前記オーディオ・オブジェクトの位置を示すオブジェクト・メタデータ（202）とを含む、段階と；
・前記IA信号（111）に基づき、かつ前記一つまたは複数のオーディオ・オブジェクトに基づいて、残留信号（201）を決定する、段階と；
・前記IA信号（111）に基づいてダウンミックス信号を提供し、特に、前記ダウンミックス信号のダウンミックス・チャネル信号（203）の数が前記IA信号（111）のチャネル信号の数よりも少ないようにする、段階と；
・前記ダウンミックス信号を、前記一つまたは複数のオーディオ・オブジェクトに対応する一つまたは複数の再構成されたオーディオ・オブジェクト信号および／または前記残留信号（201）に対応する再構成された残留信号（311）にアップミックスすることを可能にするための合同符号化メタデータ（205）を決定する段階と；
・前記ダウンミックス信号の波形符号化を実行して、前記一つまたは複数のダウンミックス・チャネル信号（203）のフレームのシーケンスについて、符号化されたオーディオ・データ（206）を提供する段階と；
・前記合同符号化メタデータ（205）および前記一つまたは複数のオーディオ・オブジェクトの前記オブジェクト・メタデータ（202）のエントロピー符号化を実行して、前記スーパーフレーム（400）のシーケンスの前記メタデータ・フィールド（403）に挿入される前記メタデータ（202,205）を提供する段階とを含む、
態様１ないし１７のうちいずれか一項に記載の方法。
〔態様１９〕
ビットストリーム（101）のスーパーフレーム（400）であって、当該ビットストリーム（101）は、没入的オーディオ信号（111）のフレームのシーケンスについてのスーパーフレーム（400）のシーケンスを含み、前記スーパーフレーム（400）は、
・前記没入的オーディオ信号（111）から導出された一つまたは複数のダウンミックス・チャネル信号（203）の一つまたは複数のフレームについての符号化されたオーディオ・データ（206）のデータ・フィールド（411、421、412、422）と；
・前記符号化されたオーディオ・データ（206）から前記没入的オーディオ信号（111）の一つまたは複数のフレームを再構成するように適応されたメタデータ（202,205）のための単一のメタデータ・フィールド（403）とを含む、
スーパーフレーム。
〔態様２０〕
ビットストリーム（101）から没入的オーディオ信号（111）に関するデータを導出するための方法（600）であって、前記ビットストリーム（101）は、前記没入的オーディオ信号（111）のフレームのシーケンスについてのスーパーフレーム（400）のシーケンスを含み、当該方法（600）は、スーパーフレーム（400）の前記シーケンスについて繰り返し、
・スーパーフレーム（400）のデータ・フィールド（411、421、412、422）から、前記没入的オーディオ信号（111）から導出された一つまたは複数のダウンミックス・チャネル信号（203）の一つまたは複数のフレームについての符号化されたオーディオ・データ（206）を抽出する段階（601）と；
・前記スーパーフレーム（400）のメタデータ・フィールド（403）から、前記符号化されたオーディオ・データ（206）から前記没入的オーディオ信号（111）の一つまたは複数のフレームを再構成するためのメタデータ（202,205）を抽出する段階（602）とを実行することを含む、
方法。
〔態様２１〕
・前記符号化されたオーディオ・データ（206）および前記メタデータ（202,205）から一つまたは複数の再構成されたオーディオ・オブジェクトを導出する段階であって、オーディオ・オブジェクトは、オブジェクト信号および該オーディオ・オブジェクトの位置を示すオブジェクト・メタデータ（202）を含む、段階と；
・前記符号化されたオーディオ・データ（206）および前記メタデータ（202,205）から、再構成された残留信号（311）を導出する段階であって、前記一つまたは複数の再構成されたオーディオ・オブジェクトおよび前記再構成された残留信号（311）は、前記没入的オーディオ信号（111）を記述する、
態様２０に記載の方法。
〔態様２２〕
当該方法は、
・前記スーパーフレーム（400）からヘッダ・フィールド（401）を抽出する段階と；
・前記ヘッダ・フィールド（401）から前記スーパーフレーム（400）の前記メタデータ・フィールド（403）のサイズを導出する段階とを含む、
態様２０または２１に記載の方法。
〔態様２３〕
・前記メタデータ・フィールド（403）が可能な最大サイズを示し；
・前記ヘッダ・フィールド（401）が調整値を示し；
・前記スーパーフレーム（400）の前記メタデータ・フィールド（403）のサイズは、前記可能な最大サイズから前記調整値を引いたものに対応する、
態様２２に記載の方法。
〔態様２４〕
・前記ヘッダ・フィールド（401）は、前記メタデータ・フィールド（403）のサイズについてのサイズ・インジケータを含み；
・前記サイズ・インジケータは、前記メタデータ・フィールド（403）のサイズの異なるサイズ範囲について異なる分解能を示す、
態様２２または２３に記載の方法。
〔態様２５〕
当該方法が、
・前記スーパーフレーム（400）からヘッダ・フィールド（401）を抽出する段階と；
・前記ヘッダ・フィールド（401）に基づき、前記スーパーフレーム（400）が構成情報フィールド（402）を含むか否かを判定する段階と；
・前記ヘッダ・フィールド（401）に基づいて、構成情報フィールド（402）が前記スーパーフレーム（400）内に存在するかどうかを判定する段階とを含む、
態様２０ないし２４のうちいずれか一項に記載の方法。
〔態様２６〕
当該方法が、
・前記スーパーフレーム（400）から構成情報フィールド（402）を抽出する段階と；
・前記構成情報フィールド（402）に基づいて、前記スーパーフレーム（400）の前記データ・フィールド（411、421、412、422）によって表わされるダウンミックス・チャネル信号（203）の数を決定する段階とを含む、
態様２０ないし２５のうちいずれか一項に記載の方法。
〔態様２７〕
当該方法が、
・前記スーパーフレーム（400）から構成情報フィールド（402）を抽出する段階と；
・前記構成情報フィールド（402）に基づいて、前記メタデータ・フィールド（403）の可能な最大サイズを決定する段階とを含む、
態様２０ないし２６のうちいずれか一項に記載の方法。
〔態様２８〕
当該方法が、
・前記スーパーフレーム（400）から構成情報フィールド（402）を抽出する段階と；
・前記構成情報フィールド（402）に基づいて、前記没入的オーディオ信号（111）内に含まれる音場表現信号の次数を決定する段階とを含む、
態様２０ないし２７のうちいずれか一項に記載の方法。
〔態様２９〕
当該方法が、
・前記スーパーフレーム（400）から構成情報フィールド（402）を抽出する段階と；
・前記構成情報フィールド（402）に基づいて、前記一つまたは複数のダウンミックス・チャネル信号（203）のそれぞれを符号化するために使用されるフレーム・タイプおよび／または符号化モードを決定する段階とを含む、
態様２０ないし２８のうちいずれか一項に記載の方法。
〔態様３０〕
当該方法が、
・前記スーパーフレーム（400）からヘッダ・フィールド（401）を抽出する段階と；
・前記ヘッダ・フィールド（401）に基づいて、前記スーパーフレーム（400）が、前記没入的オーディオ信号（111）に関する追加的情報のための拡張フィールド（404）を含むか否かを判定する段階とを含む、
態様２０ないし２９のうちいずれか一項に記載の方法。
〔態様３１〕
ビットストリーム（101）を生成するよう構成されたエンコード装置（110）であって、前記ビットストリーム（101）は、没入的オーディオ信号（111）のフレームのシーケンスについてのスーパーフレーム（400）のシーケンスを含み、当該エンコード装置（110）は、スーパーフレーム（400）の前記シーケンスについて、繰り返し：
前記没入的オーディオ信号（111）から導出された一つまたは複数のダウンミックス・チャネル信号（203）の一つまたは複数のフレームについての符号化されたオーディオ・データ（206）を、スーパーフレーム（400）のデータ・フィールド（411、421、412、422）に挿入する段階と；
前記符号化されたオーディオ・データ（206）から前記没入的オーディオ信号（111）の一つまたは複数のフレームを再構成するためのメタデータ（202,205）を、前記スーパーフレーム（400）のメタデータ・フィールド（403）に挿入する段階とを実行するように構成されている、
エンコード装置。
〔態様３２〕
ビットストリーム（101）から没入的オーディオ信号（111）に関するデータを導出するよう構成されたデコード装置（120）であって、前記ビットストリーム（101）は、前記没入的オーディオ信号（111）のフレームのシーケンスについてのスーパーフレーム（400）のシーケンスを含み、当該デコード装置（120）は、スーパーフレーム（400）の前記シーケンスについて繰り返し、
・スーパーフレーム（400）のデータ・フィールド（411、421、412、422）から、前記没入的オーディオ信号から導出された一つまたは複数のダウンミックス・チャネル信号（203）の一つまたは複数のフレームについての符号化されたオーディオ・データ（206）を抽出する段階と；
・前記スーパーフレーム（400）のメタデータ・フィールド（403）から、前記符号化されたオーディオ・データ（206）から前記没入的オーディオ信号（111）の一つまたは複数のフレームを再構成するためのメタデータ（202,205）を抽出する段階とを実行するよう構成されている、
デコード装置。

Claims

ビットストリーム（101）を生成する方法（500）であって、前記ビットストリーム（101）は、没入的オーディオ信号（111）のフレームのシーケンスについてのスーパーフレーム（400）のシーケンスを含み、当該方法（500）は、スーパーフレーム（400）の前記シーケンスについて、繰り返し：
前記没入的オーディオ信号（111）から導出された一つまたは複数のダウンミックス・チャネル信号（203）の一つまたは複数のフレームについての符号化されたオーディオ・データ（206）を、スーパーフレーム（400）のデータ・フィールド（411、421、412、422）に挿入する段階（501）と；
前記符号化されたオーディオ・データ（206）から前記没入的オーディオ信号（111）の一つまたは複数のフレームを再構成するためのメタデータ（202,205）を、前記スーパーフレーム（400）のメタデータ・フィールド（403）に挿入する段階（502）とを実行することを含む、
方法。
・当該方法（500）が、前記スーパーフレーム（400）にヘッダ・フィールド（401）を挿入することを含み；
・前記ヘッダ・フィールド（401）は、前記スーパーフレーム（400）の前記メタデータ・フィールド（403）のサイズを示す、
請求項１に記載の方法。
・前記メタデータ・フィールド（403）は可能な最大サイズを示し；
・前記ヘッダ・フィールド（401）は調整値を示し；
・前記スーパーフレーム（400）の前記メタデータ・フィールド（403）のサイズは、前記可能な最大サイズから前記調整値を引いたものに対応する、
請求項２に記載の方法。
前記ヘッダ・フィールド（401）は、前記メタデータ・フィールド（403）についてのサイズ・インジケータを含み；
前記サイズ・インジケータは、前記メタデータ・フィールド（403）のサイズの異なるサイズ範囲について異なる分解能を示す、
請求項２または３に記載の方法。
・前記没入的オーディオ信号（111）の前記一つまたは複数のフレームを再構成するための前記メタデータ（202,205）は、該メタデータ（202,205）のサイズの統計的サイズ分布を示し；
・前記サイズ・インジケータの分解能は、前記メタデータ（202,205）のサイズ分布に依存する、
請求項４に記載の方法。
・当該方法（500）が、前記スーパーフレーム（400）にヘッダ・フィールド（401）を挿入することを含み；
・前記ヘッダ・フィールド（401）は、前記スーパーフレーム（400）が構成情報フィールド（402）を含むか否かを示し；
・前記ヘッダ・フィールド（401）は、構成情報フィールド（402）の存在を示す、
請求項１ないし５のうちいずれか一項に記載の方法。
・当該方法（500）は、構成情報フィールド（402）を前記スーパーフレーム（400）に挿入することを含み；
・前記構成情報フィールド（402）は、前記スーパーフレーム（400）のデータ・フィールド（411、421、412、422）によって表わされるダウンミックス・チャネル信号（203）の数を示す、
請求項１ないし６のうちいずれか一項に記載の方法。
・当該方法（500）は、構成情報フィールド（402）を前記スーパーフレーム（400）に挿入することを含み；
・前記構成情報フィールド（402）は、前記メタデータ・フィールド（403）の可能な最大サイズを示す、
請求項１ないし７のうちいずれか一項に記載の方法。
・当該方法（500）は、構成情報フィールド（402）を前記スーパーフレーム（400）に挿入することを含み；
・前記構成情報フィールド（402）は、前記没入的オーディオ信号（111）内に含まれる音場表現信号の次数を示す、
請求項１ないし８のうちいずれか一項に記載の方法。
・当該方法（500）は、構成情報フィールド（402）を前記スーパーフレーム（400）に挿入することを含み；
・前記構成情報フィールド（402）は、前記一つまたは複数のダウンミックス・チャネル信号（203）のそれぞれを符号化するために使用されるフレーム・タイプおよび／または符号化モードを示す、
請求項１ないし９のうちいずれか一項に記載の方法。
・当該方法（500）は、ヘッダ・フィールド（401）を前記スーパーフレーム（400）に挿入することを含み；
・ヘッダ・フィールド（401）は、前記スーパーフレーム（400）が前記没入的オーディオ信号（111）に関する追加的情報のための拡張フィールド（404）を含むか否かを示す、
請求項１ないし１０のうちいずれか一項に記載の方法。
スーパーフレーム（400）が、前記一つまたは複数のダウンミックス・チャネル信号（203）の2つ以上のフレームを含む、請求項１ないし３のうちいずれか一項に記載の方法。
・ダウンミックス・チャネル信号（203）のフレームの前記符号化されたオーディオ・データ（206）は、マルチモードおよび／またはマルチレート発話またはオーディオ・コーデックを使用して生成される；および／または
・前記メタデータ（202,205）は、マルチモードおよび／またはマルチレートの没入的メタデータ符号化方式を使用して生成される、
請求項１ないし１２のうちいずれか一項に記載の方法。
・前記ヘッダ・フィールド（401）は、構成情報フィールド（402）が存在しないことを示し；
・当該方法（500）は、前記スーパーフレーム（400）のシーケンスの以前のスーパーフレーム（400）において、またはアウトオブバンド信号伝達方式を使って、構成情報を伝達することを含む、
請求項１ないし１３のうちいずれか一項に記載の方法。
当該方法が、
・前記没入的オーディオ信号（111）から導出された第1のダウンミックス・チャネル信号（203）および第2のダウンミックス・チャネル信号（203）の一つまたは複数のフレームについての符号化されたオーディオ・データ（206）を、前記スーパーフレーム（400）の一つまたは複数の第1データ・フィールド（411、421）および一つまたは複数の第2データ・フィールド（412、422）に、それぞれ挿入する段階であって、前記第1のダウンミックス・チャネル信号（203）は第1のエンコーダを用いてエンコードされ、前記第2のダウンミックス・チャネル信号（203）は第2のエンコーダを用いてエンコードされる、段階と；
・前記第1のエンコーダおよび前記第2のエンコーダに関する構成情報を、前記スーパーフレーム（400）内で、前記スーパーフレーム（400）のシーケンスのうち以前のスーパーフレーム（400）内で、またはアウトオブバンド信号伝達方式を使って、提供する段階とを含む、
請求項１ないし１４のうちいずれか一項に記載の方法。
当該方法が、
・IA信号と呼ばれる、前記没入的オーディオ信号（111）から一つまたは複数のオーディオ・オブジェクトを抽出する段階であって、オーディオ・オブジェクトは、オブジェクト信号と、前記オーディオ・オブジェクトの位置を示すオブジェクト・メタデータ（202）とを含む、段階と；
・前記IA信号（111）に基づき、かつ前記一つまたは複数のオーディオ・オブジェクトに基づいて、残留信号（201）を決定する、段階と；
・前記IA信号（111）に基づいてダウンミックス信号を提供し、特に、前記ダウンミックス信号のダウンミックス・チャネル信号（203）の数が前記IA信号（111）のチャネル信号の数よりも少ないようにする、段階と；
・前記ダウンミックス信号を、前記一つまたは複数のオーディオ・オブジェクトに対応する一つまたは複数の再構成されたオーディオ・オブジェクト信号および／または前記残留信号（201）に対応する再構成された残留信号（311）にアップミックスすることを可能にするための合同符号化メタデータ（205）を決定する段階と；
・前記ダウンミックス信号の波形符号化を実行して、前記一つまたは複数のダウンミックス・チャネル信号（203）のフレームのシーケンスについて、符号化されたオーディオ・データ（206）を提供する段階と；
・前記合同符号化メタデータ（205）および前記一つまたは複数のオーディオ・オブジェクトの前記オブジェクト・メタデータ（202）のエントロピー符号化を実行して、前記スーパーフレーム（400）のシーケンスの前記メタデータ・フィールド（403）に挿入される前記メタデータ（202,205）を提供する段階とを含む、
請求項１ないし１５のうちいずれか一項に記載の方法。
ビットストリーム（101）を生成するよう構成されたエンコード装置（110）であって、前記ビットストリーム（101）は、没入的オーディオ信号（111）のフレームのシーケンスについてのスーパーフレーム（400）のシーケンスを含み、当該エンコード装置（110）は、スーパーフレーム（400）の前記シーケンスについて、繰り返し：
前記没入的オーディオ信号（111）から導出された一つまたは複数のダウンミックス・チャネル信号（203）の一つまたは複数のフレームについての符号化されたオーディオ・データ（206）を、スーパーフレーム（400）のデータ・フィールド（411、421、412、422）に挿入する段階と；
前記符号化されたオーディオ・データ（206）から前記没入的オーディオ信号（111）の一つまたは複数のフレームを再構成するためのメタデータ（202,205）を、前記スーパーフレーム（400）のメタデータ・フィールド（403）に挿入する段階とを実行するように構成されている、
エンコード装置。