WO2004004334A1

WO2004004334A1 - 多重化装置および逆多重化装置

Info

Publication number: WO2004004334A1
Application number: PCT/JP2003/007639
Authority: WO
Inventors: Tadamasa Toma; Yoshinori Matsui; Youji Noyoya
Original assignee: Matsushita Electric Industrial Co., Ltd.
Priority date: 2002-06-26
Filing date: 2003-06-17
Publication date: 2004-01-08
Also published as: EP1536644A4; EP1536644A1; US20050238057A1; CN1515115A; US7558296B2; CN100369480C

Abstract

多重化装置１００は、ビデオデータを取得する第１入力部１０１と、オーディオデータを取得する第２入力部１０４と、ビデオデータを解析してビデオサンプルヘッダ情報を取得する第１解析部１０３と、オーディオデータを解析してオーディオサンプルヘッダ情報を取得する第２解析部１０６と、ビデオサンプルヘッダ情報に基づいてビデオデータのパケット化単位を決定した後に、ビデオデータのパケット化単位の先頭に配置されるビデオサンプルの再生開始時間と揃えてオーディオデータのパケット化単位を決定するパケット単位決定部１０７と、決定されたパケット単位でパケットヘッダ部を作成するパケットヘッダ作成部１１２と、決定されたパケット単位でパケットデータ部を作成するパケットデータ作成部１１３と、作成されたパケットヘッダ部とパケットデータ部とを結合してパケットを作成するパケット結合部１１４とを備える。

Description

明細書多重化装置および逆多重化装置技術分野

本発明は、動画像データや音声データ等のメディァデータを多重化する多重化装置、および動画像データや音声データ等のメディアデータが多重化されたビット列を読み込んで逆多重化する逆多重化装置に関する _c 背景技術

近年、通信ネットワークの大容量化および伝送技術の進歩により、ィンターネット上で、動画、音声、テキスト、あるいは、静止画等のマルチメディアコンテンッを含む動画像ファイルをパーソナルコンピュータに配信する動画配信サービスの普及が著しい。また、携害端末等のいわゆる第 3世代の移動体通信システムの規格の標準化を図ることを目的とする国際標準化団体 3GPP (Th i rd Generat i on Partnersh i p Proj ect)で、無線による動画配信に関する規格として TS26. 234 (Transparent end-to-end packet sw i tched stream i ng serv i ce)が定められる等の動きも見られ、動画配信サービスは、携帯電話機や P D A等の移動体通信端末への提供の拡大も見込まれている。

動画配信サービスにおいて、動画像ファイルを配信する際には、まず、多重化装置において、動画、静止画、音声およびテキスト等のメディアデータを取り込んで、メディアデータの再生に必要なヘッダ情報とメディァデータの実体データとを多重化して動画像ファイルデータを作成することが必要となるが、この動画像ファイルデータの多重化ファイルフォ一マットとして、 M P 4ファイルフォーマッ卜が注目されている。

この M P 4 ファイルフォーマツトは、国際標準化団体である I SO/ 1 EG (I international Standardization Organization/ Internationa I Engineering Consortium) JTC1/SC29/WG 11 において標準化が進められている多重化ファイルフォーマツ卜であり、上記 3GPPの TS26.234でも採用されていることから、広く普及するものと予想されている。

ここで、 M P 4ファイルのデータ構造について説明する。

M P 4ファイルは、ボックスと呼ばれるォブジェクト単位でへッダ情報やメディアデータの実体データが格納されており、複数のボックスを階層的に配列することによって構成される。

図 1は、従来の M P 4ファイルを構成するボックスの構造を説明するための図である。

ボックス 90 1は、ボックス 90 1のヘッダ情報が格納されるボックスヘッダ部 902と、ボックス 90 1に含まれるデータ（例えば、そのボックスの下の階層のボックスや情報を記述するためのフィールド等）が格納されるボックスデータ格納部 903とから構成される。

このボックスへッダ部 902は、ボックスサイズ 904、ボックスタィプ 905、バージョン 906、フラグ 907のフィールドを有している。

ボックスサイズ 904は、このフィールドに割り当てられたバイトサィズも含めてボックス 90 1全体のサイズ情報が記述されるフィールドである。

ボックスタイプ 905は、ボックス 90 1の種別を識別するための識別子が記述されるフィールドである。この識別子は、通常 4つのアルファベット文字列によって表される。なお、以下、本明細書中において、この識別子によって各ボックスを示す場合がある。

バージョン 906は、ボックス 90 1のバ一ジョンを示すバージョン番号が記述されるフィ一ルドであり、フラグ 90フは、ボックス 90 1 毎に設定されるフラグ情報が記述されるフィールドである。このパージヨン 9 0 6とフラグ 9 0 7は、全てのボックス 9 0 1に必須のフィールドではないので、これらのフィーゾレドを有しないボックス 9 0 1 も存在しうる。

このような構造のボックス 9 0 1 が複数連なって構成される M P 4フアイルは、ファイルの構成に不可欠な基本部と、必要に応じて使用される拡張部とに大別することができる。まず、 M P 4ファイルの基本部について説明する。

図 2は、従来の M P 4ファイルの基本部を説明するための図である。

M P 4ファイル 9 1 0の基本部 9 1 1は、ファイルヘッダ部 9 1 2とファイルデータ部 9 1 3とから構成される。

ファイルヘッダ部 9 1 2は、ファイル全体のヘッダ情報、例えば、動画像（ビデオ）データの圧縮符号化方式等の情報が格納される部分であリ、ファイルタイプボックス 9 1 4 とムービーボックス 9 1 5とから構成される。

ファイルタイプボックス 9 1 4 ίよ、 " f t y p "の識別子で識別されるボックスであり、 M P 4ファイルを識別するための情報が格納される。

M P 4ファイルにどのようなメディァデータを格納するかについて、また、どのような圧縮符号化方式を用いた動画像（ビデオ）データや音声 (オーディオ）データ等を格納するかについては、標準化団体やサービス事業者が独自に規定することができるため、 M P 4ファイルがどの規定に従って作成されたものである 7¾、を識別するための情報を、このファィルタイプボックス 9 1 4に格納する。

ムービーボックス 9 1 5は、 " m o o V "の識別子で識別されるボックスであり、ファイルデータ部 9 1 3に格納される実体データのヘッダ情報、例えば、表示時間長等の情報力格納される。ファイルデータ部 9 1 3は、 "m d a t "の識別子で識別される厶ービ一データボックス 9 1 6によって構成される。なお、このファイルデータ咅 P 9 1 3の代わりに、この M P 4ファイル 9 1 0とは異なる外部のフアイルを参照することもできる。このように、外部のファイルを参照する場合には、 MP 4ファイル 9 1 0の基本部 9 1 1は、ファイルヘッダ咅 [5 9 1 2のみから構成されることになる。本明細書では、この外部ファィメレの参照をする場合ではなく、 MP 4ファイル 9 1 0内に実体データを含む場合について説明する。

厶一ビーデータボックス 9 1 6は、サンプルと称される単位でメディァデータの実体データを格納するボックスである。このサンプルとは、 M P 4ファイルにおける最小のアクセス単位であり、 MPEG (Mov i ng Pi cture Experts Group) -4 Visual の圧縮符号化方式によって符号化したビデオデータの V0P(Video Object Plane)やオーディオデータのフレームに相当するものである。

ここで、従来における M P 4ファイルの基本部の構造について階層を掘リ下げて、ムービーボックス 9 1 5の構造を説明することとする。

図 3は、従来の M P 4ファイルにおけるムービーボックスの構造を説明するための図である。

図 3 ( a ) に示すように、ムービーボックス 9 1 5は、先に説明したポックスヘッダ部 902とボックスデータ格納部 903とから構成されている。そして、ボックスヘッダ部 902を構成するボックスサイズ 9 O 4のフィールドには、ムービーボックス 9 1 5のサイズ情報が記述され（図 3 ( a ) では、 " x x x x " とする。）、ボックスタイプ 90 5のフィ一ルドには、ムービーボックス 9 1 5の識別子 "m o o v" が記述される。

また、ムービーボックス 9 1 5のボックスデータ格納部 903には、 M P 4ファイル 9 1 0の基本部 9 1 1のヘッダ情報が格納されるムービ —へッダボックス 9 1 7や、ビデオトラックやオーディオ卜ラック等、トラック毎のヘッダ情報が格納されるトラックボックス 9 1 8等が格納されている。なお、ここにいうトラックとは、 M P 4ファイル 9 1 0に含まれる各メディアのサンプルデータ全体を意味し、動画像や音声ゃテキス卜等のトラックは、それぞれビデオトラック、オーディオトラックやテキストトラック等と称される。また、 M P 4ファイル 9 1 0内に同一メディアのデータが複数存在する場合は、同一メディアに対して複数のトラックが存在することになる。具体的に説明すると、例えば、 MP 4ファイル 9 1 0内に 2種類の動画像データが含まれている場合、 2つのビデオトラックが存在することになる。

ムービーヘッダボックス 9 1 7も、先に説明したボックスヘッダ部 9 02とボックスデータ格納部 903とから構成されており、ボックスへッダ部 902を構成するボックスサイズ 904のフィールドには、ムービ一ヘッダボックス 9 1 7のサイズ情報が記述され（図 3 (a ) では、 " X X X " とする。）、ボックスタイプ 905のフィールドには、厶ービ —ヘッダボックス 9 1 7の識別子 "m V h d " が記述される。そして、ムービーヘッダボックス 9 1 7のボックスデータ格納部 903には、 M P 4ファイル 9 1 0の基本部 9 1 1 に含まれるコンテンッの再生に要する時間長に関する情報等が格納される。

また、トラックボックス 9 1 8のボックスへッダ部 902を構成するボックスサイズ 904のフィールドには、トラックボックス 9 1 8のサィズ情報が記述され（図 3 ( a ) では、 " X X " とする。）、ボックスタイプ 905のフィールドには、トラックボックス 9 1 8の識別子 " t r a k " が記述される。そして、トラックボックス 9 1 8のボックスデータ格納部 903には、トラックヘッダボックス 9 1 9が格納されている。トラックへッダボックス 9 1 9は、トラック毎のへッダ情報を記迹するためのフィールドを有するボックスであり、 " t k h d "の識別子 ί二よつて識別される。このトラックへッダポックス 9 1 9のボックスデータ格納部 9 0 3には、トラックの種類を識別するためのトラック I Dを記述するフィールドや、トラックの再生に要する時間長に関する情報等が記述される。

このように、ムービーボックス 9 1 5には、ボックス 9 0 1が階層的に配列されており、 " t r a k "で識別されるトラックボックス 9 1 8にビデオやオーディオ等のトラック毎のヘッダ情報が格納されている。そして、このトラックボックス 9 1 8に含まれる下位のボックスにおしヽて、トラックのサンプル単位のへッダ情報が格納されている。

図 3 ( a )に示すムービーボックス 9 1 5の構造をツリー状に示すと、図 ( b ) のような図が得られる。

すなわち、ムービーボックス 9 1 5の下位のボックス群としてムービ一ヘッダボックス 9 1 7、トラックボックス 9 1 8が配列され、トラックボックス 9 1 8の下位のボックス群としてトラックヘッダボックス 9 1 9が配列されており、ボックス 9 0 1が階層的に配置されていることがわかる。

M P 4ファイルフォーマツ卜の標準化当初、 M P 4ファイル 9 1 Oは、上記基本部 9 1 1のみから構成されていた。しかし、メディアデータの情報量が多くなると、サイズが大きくなつてしまうので、ストリーミング再生への適用が難しい等の種々の問題があリ、へッダポックスとデータボックスとの組が複数連なる拡張部の使用を加える改良がなされている。

図 4は、従来における拡張部を含む M P 4ファイルの構造を示す図で fo -S) o 図 4に示すように、上記改良が加えられた M P 4ファイル 9 2 0は、基本部 9 1 1と拡張部 9 2 1 とから構成される。この拡張部 9 2 1を含む M P 4フアイレ 9 2 0では、全てのメディアデータを拡張部 9 2 1に格納することができるので、 M P 4ファイル基本部 9 1 1のムービーデ一夕ボックス 9 1 6を省略することとしてもよい。

拡張部 9 2 1 は、所定の単位で区切られたバケツ卜 9 2 2が複数連なつて構成される。

このバケツト 9 2 2は、ムービーフラグメントボックス 9 2 3とムービーデータボックス 9 1 6とが一対となって構成され、ムービーフラグメントとも称される。

ムービーデータボックス 9 1 6は、上記区切られた所定の単位でトラック毎のサンプレを格納し、ムービーフラグメントボックス 9 2 3は、このムービーデータボックス 9 1 6に対応してヘッダ情報を格納するポックスであり、 " m o o f " という識別子によって識別される。このムービーフラグメン卜ボックス 9 2 3の構造について、さらに詳しく説明する。

図 5は、従来におけるムービーフラグメントボックスの構造を説明するための図である。

図 5に示すように、ムービーフラグメントボックス 9 2 3のボックスデータ格納部 9 O 3には、ムービーフラグメントヘッダボックス 9 2 4 と複数のトラックフラグメントボックス 9 2 5が格納されている。ムービーフラグメントヘッダボックス 9 2 4は、 " m f h d "の識別子で識別されるボックスであり、ムービーフラグメントボックス 9 2 3全体のへッダ情報力格納される。

トラックフラグメントボックス 9 2 5は、 " t r a f "の識別子で識別されるボックスであり、トラック毎のヘッダ情報が格納される。なお、通常 1 つのトラックのヘッダ情報に対して、 1 つのトラックフラグメン卜ボックス 9 2 5が用意されるが、 1 つのトラックのヘッダ情報に対して、複数のトラックフラグメントボックス 9 2 5が用意されるとしてもよい。このように、 1つのトラックのヘッダ情報を複数のトラックフラグメントボックス 9 2 5に分割して格納する際には、トラックフラグメントボックス 9 2 5の先頭サンプルの復号時間が昇順となるように配列される。

そして、このトラックフラグメントボックス 9 2 5のボックスデータ格納部 9 0 3には、トラックフラグメントヘッダボックス 9 2 6と 1つ以上のトラックフラグメントランボックス 9 2 7が格納されている。

トラックフラグメントへッダボックス 9 2 6は、 " t f h d "の識別子で識別されるボックスであり、トラックの種類を識別するための卜ラック I . Dを記述するフィールドや、サンプルの再生時間長等のデフォルト値に関する情報等を格納する。

卜ラックフラグメントランボックス 9 2 7は、 " t r u n "の識別子で識別されるボックスであり、サンプル単位のヘッダ情報を格納する。図 6を用いて、このトラックフラグメントランボックス 9 2 7について詳しく説明する。

図 6は、従来におけるトラックフラグメントランボックス 9 2 7の構造を説明するための図である。

フラグ 9 0 7は、ボックス 9 0 1毎に設定されるフラグ情報が記述されるフィールドであるが、ここでは、フラグ 9 0 7に続いてデータオフセット 9 2 9からサンプルコンポジシヨンタイムオフセット 9 3 6までの各フィールドがトラックフラグメントランボックス 9 2 7に存在するか否かを示すフラグ情報が記述される。

サンプル力ゥント 9 2 8は、トラックフラグメン卜ランボックス 9 2 7にどれだけの数のサンプルに関するヘッダ情報が格納されるかを示す情報が記述されるフィ一ルドである。

データオフセット 9 2 9は、トラックフラグメントランボックス 9 2 7にへッダ情報が格納されているサンプルのうちトラックフラグメントランボックス 9 2 7の先頭に位置するサンプルの実体データが、組となつているムービーデータボックス 9 1 6のどこに格納されているかを示すポインタ情報が記述されるフィールドである。

先頭サンプルフラグ 9 3 0は、トラックフラグメントランボックス 9 2 7の先頭サンプルがランダムアクセス可能なサンプルである場合に、後述するサンプルフラグ 9 3 5のフィールドの値を上書きすることができるフィールドである。ここで、ランダムアクセスとは、例えば、 M P 4ファイルの再生装置において、再生の途中でデータの再生位置を 1 0 秒後に移動させたり、データの途中から再生を開始したりする処理動作を意味する。そして、ランダムアクセス可能なサンプルとは、ビデオサンプルのうち、 M P 4ファイルの再生装置において、他のフレームのデータを参照することなく単独で復号化できるフレーム、すなわち画面内符号化フレーム（いわゆるイントラフレーム）を構成するサンプルを意味する。なお、オーディオサンプルでは、いずれのサンプルも単独で復号化することができるので、全てのオーディオサンプルがランダムァクセス可能なサンプルといえる。

テーブル 9 3 1は、サンプル毎のへッダ情報を示すェントリ 9 3 2が、サンプルカウント 9 2 8において示される個数分集積されたものである < エントリ 9 3 2は、サンプル毎のヘッダ情報を示すフィールドの集まリであり、いずれのフィールドが含まれるかは、上記フラグ 9 0 7によつて示される。エントリ 9 3 2に含まれるフィールドには、サンプルの再生時間長が記述されるサンプルデュレーシヨン 9 3 3、サンプルのサィズが記述されるサンプルサイズ 9 3 4、サンプルがランダ厶アクセス可能であるか否かを示すフラグ情報が記述されるサンプルフラグ 9 3 5 , そして、双方向予測を用いたサンプルを扱うために、サンプルの復号時間と表示時間との差分値が記述されるサンプルコンポジションタイムォフセット 9 3 6がある。

なお、これらのフィールドがエントリ 9 3 2に含まれない場合は、各サンプルのへッダ情報は、トラックフラグメントへッダポックス 9 2 6 や、ムービーフラグメントボックス 9 1 5内のム一ビーェクステンドボックス（識別子 " m V e X ") に、これらのフィールドのデフオルト値が記述されているので、これらのデフォルト値が使用される。

また、トラックフラグメントランボックス 9 2 7には、復号時間の早いサンプルから順にヘッダ情報が記述される。従って、 M P 4ファイルを再生する装置がサンプルのヘッダ情報を検索する際には、ファイル中の先頭のトラックフラグメントボックス 9 2 5から順にトラックフラグメントへッダポックス 9 2 6内のトラック I Dを参照することで、取得するトラックのへッダ情報を含むトラックフラグメントボックス 9 2 5 を検索し、トラックフラグメントボックス 9 2 5内においても、先頭のトラックフラグメントランボックス 9 2 7から順にサンプノレのヘッダ情報を検索することになる。

なお、この拡張部 9 2 1 を含む M P 4ファイル 9 2 0の場合であっても、復号化時の初期化情報等、トラック全体に必要な情報は、ムービーボックス 9 1 5に格納される。

続いて、このような構造を有する拡張部 9 2 1 を含む M P 4ファイルの構成例について説明する。

図 7は、従来における拡張部を含む M P 4ファイルの拡長部の構成例を示す図である。図 7では、コンテンッの格納方法について 2通りの例を示して説明することとし、コンテンツの再生時間長は、 60秒であるとする。

図 7 ( a ) に示す MP 4ファイル 940は、基本部 94 1および拡張部 942の両方にメディアデータを格納する構成になっている。すなわち、基本部 94 1の m d a t— 1 (符号 945) 【こ 0〜 30秒までのメディアデータが格納され、拡張部 942の m d a t— 2 (符号 947) に 3 0〜45秒までのメディアデータが格納され、 m d a t _3 (符号 949) に 45〜 60秒までのメディアデータが格納されている。そして、 m d a t— 1 (符号 945) のへッダ情報は m o o v 944に格納され、 m d a t— 2 (符号 947 ) のヘッダ情報は m o o f _ 1 (符号 94 6) に格納され、 m d a t— 3 (符号 949) のヘッダ情報は m o o f — 2 (符号 948) に格納されている。

これに対して、図 7 ( b ) に示す M P 4ファイル 950は、拡張部 9 5 2だけにメディアデータを格納する構成になっている。すなわち、基本部 95 1は、 f t y p 9 53と m o o V 9 54とから構成されて m d a t を含まず、拡張部 952の m d a t _1 (符号 956) に 0~ 30 秒までのメディアデータが格納され、 m d a t— 2 (符号 958) に 3 0〜 60秒までのメディアデータが格納されている。そして、 m d a t —1 (符号 956) のヘッダ情報は m o o f —1 (符号 9 55) に格納され、 m d a t— 2 (符号 9 58 ) のヘッダ情報は m o o f _2 (符号 9 5 7) に格納されている。

ここで、上記 M P 4ファイルの拡張部がどのように作成されるかを図 8〜図 1 0を用いて説明する。

図 8は、従来の多重化装置の構成を示すブロック図である。

多重化装置 9 60は、メディアデータを多重化して M P 4ファイルの拡張部データを作成する装置である。ここでは、ビデオデータとオーディォデータとを多重化して M P 4ファイルの拡張部データを作成するものとする。

第 1入力部 9 6 1はビデオデータを多重化装置 9 6 0に取り込み、第 1データ蓄積部 9 6 2に蓄積させ、また、第 2入力部 9 6 4はオーディォデータを多重化装置 9 6 0に取り込み、第 2データ蓄積部 9 6 5に蓄ネ貝せる。

第 1解析部 9 6 3は、第 1データ蓄積部 9 6 2から 1サンプルずつビデォデータを読み出して解析し、ビデオサンプルのヘッダ情報をバケツ卜単位決定部 9 6 7に出力する。また、第 2階席部 9 6 6は、第 2データ蓄積部 9 6 5から 1サンプルずつオーディオデータを読み出して解析し、オーディオサンプルのヘッダ情報をバケツト単位決定部 9 6 7に出力する。このビデオサンプルヘッダ情報およびオーディオサンプルへッダ情報には、サンプルのサイズや再生時間長を示す情報が含まれており、ビデオサンプルヘッダ情報には、ビデオサンプルがィントラフレームであるか否かを示す情報も含まれている。

バケツ卜単位決定部 9 6 7は、バケツ卜に含まれるサンプル数が一定となるように、ビデオデータおよびオーディオデータのバケツト単位を決定し、取得したサンプルへッダ情報に基づいて各バケツ卜のへッダ情報を作成する。

図 9に、従来におけるバケツ卜単位決定部の処理動作フローを示す。ここで、 1つのパケットに格納されるサンプルの数を Nとし、この値は予め定められて、多重化装置 9 6 0のメモリ等に保持されている。

まず、第 1解析部 9 6 3が 1つのビデオサンプルを取得して（S 9 0 1 )、ビデオサンプルヘッダ情報をバケツト単位決定部 9 6 7に出力すると、パケット単位決定部 9 6 7は、ビデオサンプルヘッダ情報をバケツ卜作成テーブルに追加する（S 9 0 2 )。次に、パケット単位決定部 9 6 7は、パケットに含まれるビデオサンプルの数を更新し（S 9 0 3 )、バケツ卜に含まれるビデオサンプルの数が Nになったかどうかを判定する（S 9 0 4 )。

ここで、バケツ卜に含まれるビデオサンプルの数が Nに満たない場合 ( S 9 0 4の N o )、上記 S 9 0 1 〜 S 9 0 3までの処理が繰り返され、バケツ卜に含まれるビデオサンプルの数が Nになった場合（S 9 0 4の Y e s )、バケツ卜単位決定部 9 6 7は、 N個のビデオサンプルをバケツト化して処理動作を終了する（S 9 0 5 )。

パケット単位決定部 9 6 7は、同様に、オーディオについても上記 S 9 0 1 〜 S 9 0 5までの処理動作によって、オーディオサンプルのパケット化を行なう。

そして、全てのサンプルのバケツト化が完了するまで、バケツト単位決定部 9 6 7は、このフローの処理動作を繰り返す。

図 1 0に、従来におけるビデオサンプルのヘッダ情報を格納するパケット作成テーブルの一例を示す。このパケット作成テーブル 9 6 8 aには、ビデオサンプル毎に、サンプルのサイズ、サンプルの再生時間長や、そのビデオサンプルがィントラフレームであるか否かを示す画面内符号化フレームフラグに関する情報が記述される。ここでは、パケットに格納される先頭のビデオサンプルは、サイズが 3 0 0バイト、再生時間長が 3 0 m s、画面内符号化フレームでないことが示されており、 2番目のビデオサンプルは、画面内符号化フレームであることが示されている。そして、このバケツト作成テーブル 9 6 8 aは、バケツト単位決定部 9 6 7においてこれらの情報が順次追加され、 1バケツ卜に含まれる最後のサンプルとなる N番目まで作成されると、バケツ卜作成テーブル蓄積部 9 6 8に出力される。

再び図 8を参照すると、続いて、バケツト単位決定部 9 6 7は、パケット作成テーブル 9 6 8 aに N個分のサンプルのへッダ情報を記述した後、バケツト作成テーブル 9 6 8 aをバケツト作成テーブル蓄積部 9 6 8に出力するとともに、バケツ卜ヘッダ作成部 9 6 9にバケツト作成信号を出力する。

バケツトヘッダ作成部 9 6 9は、バケツ卜作成信号を取得すると、パケット作成テーブル蓄積部 9 6 8に保持されているバケツト作成テープル 9 6 8 aからバケツトサンプノレヘッダ情報を読み出して m o o f データを作成する。また、パケットヘッダ作成部 9 6 9は、作成した m o o f データをバケツト結合部 9 7 1 に出力するとともに、バケツ卜に含まれるサンプルの実体データが第 1 データ蓄積部 9 6 2および第 2データ蓄積部 9 6 5のどこに格納されているかを示すポインタ情報と、サンプルのサイズ情報とを含む m d a t情報をバケツトデータ作成部 9 7 0に出力する。

パケットデータ作成部 9 7 0 [ま、取得した m d a t情報に基づいて第 1データ蓄積部 9 6 2および第 2データ蓄積部 9 6 5からサンプルの実体データを読み出して m d a tデータを作成し、 m d a tデータをパケット結合部 9 7 1 に出力する。

そして、バケツ卜結合部 9 7 1 は、 m o o f データと m d a tデータとを結合させて、 1バケツト分の m p 4拡張部データを出力する。最終的には、出力された 1パケット分の m p 4拡張部データは、 M P 4ファイルを作成する装置に取り込まれ、順次作成される m p 4拡張部データが順番に並べられることによって、 M P 4ファイルの拡張部が作成される。その後、このフアイノレ作成装置で、 M P 4ファイルの基本部と拡張部とが結合されることによって、 M P 4ファイルが作成されることになる。

しかしながら、このような従来の多重化装置によって多重化された M P 4ファィルの拡張部を再生する際には、以下のような問題がある。その 1 つとして、まず、従来の多重化装置では、パケットに含まれるサンプルの再生開始時間を考慮することなく多重化が行なわれるので、例えば、ある再生開始時間のビデオサンプルと同期が図られているォーディオサンプルが、ビデオサンプルと異なるパケットに格納される場合がある。そのため、 M P 4ファイルの再生装置側で、再生時のデータァクセスの効率が悪化するという問題がある。

また、従来の多重化装置では、パケットに含まれるサンプルの数を基準として多重化を行なうので、ランダムアクセス可能なサンプル、すなわちィントラフレームに相当するビデオサンプルをバケツト内のどこに格納するかは、パケット毎にまちまちとなることが多い。そのため、 M P 4ファィルの再生装置側で、ランダムアクセス可能なサンプルを検索する際に、バケツ卜に含まれる全てのビデオサンプルを検索しなければならず、サンプルの検索に要する計算量が膨大となってしまうという問題もある。

これらの問題について、図 1 1 を用いてさらに詳しく説明する。図 1 1 は、従来における多重化装置の問題点を説明するための図である。

図 1 1 ( a ) では、再生時のデータアクセスの効率が悪化するという第 1の严題を明らかにする。

各 m d a tに含まれるサンプルのヘッダ情報は、直前の m o o f に格納されておリ、 m d a t _ 1に格納されている再生開始時間 2 0 sのビデオサンプルに関するヘッダ情報は、 m o o f _ 1に先頭サンプルとして格納されており、 m d a t __ 1 0に格納されている再生開始時間 2 0 sのオーディオサンプルに関するヘッダ情報は、 m o o f — 1 0に最終サンプレとして格納されている。従って、 M P 4ファイルの再生装置が、コンテンツの再生時間 2 0 s の部分を再生しょうとすれば、 m o o f — 1 に格納されているビデオサンプルのヘッダ情報を取得してからオーディオサンプルのへッダ情報を取得するまでに m o o f _ 1 0まで検索しなければならず、データァクセスの効率が悪くなつてしまう。

図 1 1 ( b ) では、ランダムアクセス可能なサンプルの検索に要する計算量が膨大となってしまうという第 2の問題を明らかにする。

m d a t _ 1の最後に格納されている i番目のランダムアクセス可能なビデオサンプルに関するヘッダ情報は、 m o o f — 1に最終サンプルとして格納されておリ、 m d a t—3の最後に格納されている i + 1番' 目のランダムアクセス可能なビデオサンプルに関するヘッダ情報は、 m o o f —3に最終サンプルとして格納されている。

従って、 M P 4ファイルの再生装置が、ランダムアクセスを行なおうとすれば、 m o o f の最終サンプルまで検索しなければならず、検索に必要な計算量が膨大となってしまう。

さらに、これら第 1および第 2の問題に加えて、従来の多重化装置で作成される M P 4ファイルの拡張部の構成では、サンプルデータを取得するためのシークの回数が多くなるため、光ディスク再生機器等のシーク速度が遅い機器におけるランダムアクセス再生に適さないという問題もある。

この問題について、再び図 1 1 ( b ) を用いて説明する。 m o o f — 1の i番目のランダムアクセス可能なビデオサンプルにランダムァクセスしょうとする場合、再生装置は、まず、 i番目のランダムアクセス可能なビデオサンプルのヘッダ情報を取得するために、 m o o f — 1の先頭位置まで読み出しポインタを移動させ、 m o o f — 1内を順に解析する。このとき、 1回目のシークが必要となる。その後、再生装置は、 m d a t— 1のどこに i 番目のランダムァクセス可能なビデオサンプルの実体データが格納されているかを取得し、実体データの開始位置へ読み出しポインタを移動させる。このとき、 i番目のランダムアクセス可能なビデオサンプルの実体データが m d a t— 1の終端に格納されているため、 m o o f — 1の先頭位置から連続的に読み出しポィンタを移動させてサンプルの実体データを取得できず、 2 回目のシークが必要となる。

すなわち、 m o o f — 1の先頭位置と実体データの開始位置に読み出しポインタを移動させる時にそれぞれシーク動作を行なうことになるので、再生装置がシーク速度の遅い機器である場合は、ランダムアクセス再生に時間がかかってしまう。特に、この i番目のランダムアクセス可能なビデオサンプルと同期が図られているオーディオサンプル等の実体データが異なるバケツト等、ビデオサンプルの実体データと離れて格納されている場合には、さらにシーク動作が必要となり、ランダムァクセス再生を迅速に行なうことが困難となる。

そこで、本発明は、これらの問題点に鑑みてなされたものであり、メディァデータの多重化ファイルが再生時のデータアクセスの効率に優れ, サンプルの検索に要する計算量が少なくなるようにメディアデータを多重化することができる多重化装置を提供することを目的とする。

また、多重化ファイルがシーク速度の遅い機器におけるランダムァクセス再生に適するようにメディアデータを多重化することができる多重化装置を提供することを目的とする。

さらに、このような多重化装置で多重化されたファイルを取得して、多重化分離することができる逆多重化装置を提供することを目的とする ₍ 発明の開示上記の目的を達成するために、本発明に係る多重化装置は、画像データと、音声データおよび亍キストデータのうち少なくとも 1つとを含むメディアデータをバケツ卜多重化して多重化データを作成する多重化装置であって、前記メディアデータを取得するメディアデータ取得手段と、前記メディアデータ取得手段が取得した前記メディアデータを解析して、前記メディアデータに含まれる前記画像データ、音声データおよびテキス卜データの最小のアクセス単位であるサンプルについて、サンプルの再生開始時間を示す再生開始時間情報を取得する解析手段と、前記解析手段が取得した前記再生開始時間情報に基づいて、前記メディァデータに含まれる前記画像データ、音声データおよびテキストデータの各サンプルの再生開始時間を揃えて前記メディアデータをバケツト化する単位を決定するバケツ卜単位決定手段と、前記バケツト単位決定手段が決定したバケツト化単位で前記メディアデータのヘッダを格納するバケツトヘッダ部を作成するパケッ卜ヘッダ部作成手段と、前記バケツ卜単位決定手段が決定したバケツ卜化単位で前記メディアデータの実体データを格納するバケツトデータ都を作成するバケツトデータ部作成手段と、前記バケツトヘッダ部作成手段が作成したバケツトヘッダ部と、前記パケッ卜データ部作成手段が作成したバケツトデータ部とを結合してバケツトを作成するバケツト化手段とを備えることを特徴とする。

これによつて、メディアデータに含まれる画像データと、音声データおよびテキストデータの再生開始時間が揃えられてバケツ卜に格納されることとなるので、再生装置側で再生時におけるデータアクセスの効率を向上させることができる。

また、本発明に係る多重化装置は、前記画像データは、動画データであり、前記解析手段は、さらに、前記メディアデータ取得手段が取得した前記動画データを解析して、前記動画データが、画面内符号化サンプルであることを示すイントラフレーム情報が含まれているサンプルを 1 つ以上含む場合に、前記イントラフレーム情報取得し、前記パケット単位決定手段は、前記解析手段が前記ィントラフレーム情報を取得した場合に、前記ィントラフレーム情報と前記再生開始時間情報とに基づいて、前記メディアデータをバケツト化する単位を決定し、前記イントラフレーム情報を含む前記動画データのサンプルを、前記バケツト化単位の先頭に配置するのが好ましい。

これによつて、パケットに含まれる先頭のビデオサンプルは、イントラフレームのビデオサンプルとなるので、再生装置側でランダムァクセス時におけるサンプルの検索に要する計算量を大幅に削減することができる。

さらに、本発明に係る多重化装置は、前記パケットデータ部作成手段は、前記バケツト化単位に含まれる前記メディアデータのサンプルについて、サンプルの再生開始時間が昇順となるようにィンタリーブして格納する前記バケツ卜データ部を作成するのがよリ好ましい。

これによつて、ビデオサンプルとオーディオサンプルとが再生開始時間が昇順となって m d a tに格納されるので、再生装置側でのランダムアクセス時におけるシーク動作の回数を少なくすることができ、シーク. 速度の遅い再生装置でも迅速なランダムアクセス再生を実現することができる。

なお、本発明は、このような多重化装置として実現することができるだけでなく、このような多重化装置が備える特徴的な手段をステツプとする多重化方法として実現したり、それらのステップをコンピュータに実行させるプログラムとして実現したりすることもできる。そして、そのようなプログラムは、 C D— R O M等の記録媒体やインタ一ネット等の伝送媒体を介して配信することができるのは言うまでもない。図面の簡単な説明

図 2は、従来の M P 4ファイルの基本部を説明するための図である。図 3 ( a ) は、従来の M P 4ファイルにおけるムービーボックスの構造を説明するための図である。

図 3 ( b ) は、従来の M P 4ファイルにおけるムービーボックスの構造をッリー状に示す図である。

図 4は、従来における拡張部を含む M P 4ファイルの構造を示す図である。

図 6は、従来におけるトラックフラグメントランボックスの構造を説明するための図である。

図 7 ( a ) は、従来における拡張部を含む M P 4ファイルの第 1の構成例を示す図である。

図 7 ( b ) は、従来における拡張部を含む M P 4ファイルの第 2の構成例を示す図である。

図 8は、従来の多重化装置の構成を示すプロック図である。

図 9は、従来におけるパケット単位決定部の処理動作を示すフロー図である。

図 1 0は、従来におけるビデオサンプルのヘッダ情報を格納するパケット作成テーブルの一例を示す図である。

図 1 1 ( a ) は、従来における多重化装置の第 1の問題点を説明するための図である。

図 1 1 ( b ) は、従来における多重化装置の第 2の問題点を説明するための図である。

図 1 2は、本発明の実施の形態 1に係る多重化装置の機能的な構成を示すブロック図である。

図 1 3は、多重化装置の処理動作を示すフロー図である。

図 1 4は、ビデオパケット単位決定部の処理動作を示すフロー図である。

図 1 5は、オーディオバケツ卜単位決定部の処理動作を示すフロー図である。 . 図 1 6 ( a ) は、多重化装置が作成する M P 4ファイル拡張部のデ一タ構造の第 1例を示す図である。

図 1 6 ( b ) は、多重化装置が作成する M P 4ファイル拡張部のデ一タ構造の第 2例を示す図である。

図 1 7は、本実施の形態 2に係る多重化装置のバケツト単位決定咅の機能的な構成を示すブロック図である。

図 1 8は、ビデオパケット単位決定部の第 1の処理動作を示すフロー図である。

図 1 9は、ビデオバケツ卜単位決定部の第 2の処理動作を示すフ口一図である。

図 2 0 ( a ) は、多重化装置が作成する M P 4ファイル拡張部のデータ構造の第 1例を示す図である。

図 2 0 ( b ) は、多重化装置が作成する M P 4ファイル拡張部のデータ構造の第 2例を示す図である。

図 2 1は、本実施の形態 3に係る多重化装置のバケツトデータ作成部の機能的な構成を示すブロック図である。

図 2 2は、パケットデータ作成部の処理動作を示すフロー図である。図 2 3は、多重化装置が作成する M P 4ファイル拡張部のデータ構造の概略を示す図である。

図 2 4は、多重化装置が作成する M P 4ファイル拡張部のデータ構造の第 1例を示す図である。

図 2 5は、多重化装置が作成する M P 4ファイル拡張部のデータ構造の第 2例を示す図である。

図 2 6は、本実施の形態 4に係る逆多重化装置の機能的な構成を示すブロック図である。

図 2 7は、逆多重化装置の処理動作を示すフロー図である。

図 2 8は、本発明に係る多重化装置の適用例を示す図である。発明を実施するための最良の形態

以下、本発明の実施の形態について、図面を参照しながら説明する。なお、本実施の形態におけるビデオデータとして、 MPEG-4 V i sua l の符号化データを用いることとし、本実施の形態におけるオーディオデータとして、 MPEG - 4 Aud i oの符号化データを用いることとする。そして、本実施の形態では、主に、ビデオデータとオーディオデータとを多重化する装置について説明するが、テキストデータ等のその他のメディアデータの多重化について排除することを意図するものではない。

(実施の形態 1 )

まず、本発明の実施の形態 1に係る多重化装置について、図 1 2から図 1 6を参照しながら説明する。

図 1 2は、本発明の実施の形態 1に係る多重化装置の機能的な構成を示すプロック図である。

この多重化装置 1 0 0は、ビデオデータやオーディオデータを多重化して M P 4ファイルの拡張部データを作成する装置であり、第 1入力部 1 0 1、第 1データ蓄積部 1 0 2、第 1解析部 1 0 3、第 2入力部 1 0 4、第 2データ蓄積部 1 0 5、第 2データ解析部 1 0 6、バケツト単位決定部 1 0 7、バケツト作成テーブル蓄積部 1 1 1、バケツ卜ヘッダ作成部 1 1 2、バケツトデータ作成部 1 1 3およびバケツト結合部 1 1 4 を備える。

第 1入力部 1 0 1は、符号化されたビデオデータを画像符号化装置等から多重化装置 1 0 0内に取り込むィンターフ； L—スであり、取得したビデオ入力データを順次、第 1データ蓄積部 1 0 2に蓄積させる。第 1データ蓄積部 1 0 2は、ビデオ入力データを一時的に保持するキャッシュメモリや R A M ( Random Access Memory) 等である。

第 1解析部 1 0 3は、第 1データ蓄積部 1 0 2に保持されているビデォ入力データのうちビデオサンプル 1つ分のデータであるビデオサンプルデータを読み出して解析し、ビデオサンプルのヘッダ情報を出力する処理部であり、 C P Uやメモリによって実現される。なお、この第 1解析部 1 0 3において出力されるビデオサンプルヘッダ情報には、ビデオサンプルのサイズ、再生時間長およびイントラフレームであるか否かを示す情報が含まれる。さらに、このビデオサンプルヘッダ情報には、双方向予測を用いたサンプルの場合、復号時間と表示時間の差分情報も含まれる。

第 2入力部 1 0 4は、符号化されたオーディオデータを音声符号化装置等から多重化装置 1 0 0内に取り込むインターフェースであり、取得したオーディオ入力データを順次、第 2データ蓄積部 1 0 5に蓄積させる。

第 2データ蓄積部 1 0 5は、オーディオ入力データを一時的に保持するキャッシュメモリや R A M等である。

第 2解析部 1 0 6は、第 2データ蓄積部 1 0 5に保持されているォーディォ入力データのうちオーディオサンプル 1つ分のデータであるォーディオサンプルデータを読み出して解析し、オーディオサンプルのへッダ情報を出力する処理部であり、 C P Uやメモリによって実現される。なお、この第 2解析部 1 0 6において出力されるオーディオサンプルへッダ情報には、オーディオサンプルのサイズおよび再生時間長を示す情報が含まれている。

バケツト単位決定部 1 0 7は、バケツ卜に含まれるビデオサンプルおよびオーディオサンプルのヘッダ情報を集積させて、バケツ卜に含まれるビデオサンプルの再生開始時間とオーディオサンプルの再生開始時間とが揃うように、ビデオデータおよびオーディオデータのパケット単位を決定する処理部であり、 C P Uやメモリによって実現される。また、バケツト単位決定部 1 0 7は、決定したバケツ卜単位分のサンプルへッダ情報の集まリをバケツ卜作成テーブルとしてバケツト作成テーブル蓄積部 1 1 1に出力するとともに、バケツ卜単位の決定後にバケツ卜へッダの作成を指示するパケット作成信号をパケットヘッダ作成部 1 1 2に出力する。そして、このバケツト単位決定部 1 0 7は、バケツト単位を時間単位で調整する時間調整部 1 0 8と、ビデオデータのパケット単位を決定するビデオバケツ卜単位決定部 1 0 9と、オーディオデータのパケット単位を決定するオーディオバケツト単位決定部 1 1 0とを備える。時間調整部 1 0 8は、バケツ卜が定められた時間単位内に納まるように、パケットの終了時間を調整する処理部である。この時間調整部 1 0 8は、まず、予め定められた時間（ターゲットタイム）をビデオバケツ卜単位決定部 1 0 9に出力する。なお、このターゲットタイムは、ユーザが指定することとしてもよい。この場合、多重化装置 1 0 0は、キーポード等の入力装置を介してターゲットタイムの指定を取得し、入力装置から指定されたターゲットタイムを示すターゲッ卜タイム入力信号が時間調整部 1 0 8に出力されることとなる。ビデオバケツト単位決定部 1 0 9は、第 1解析部 1 O 3からビデオサンプルヘッダ情報を取得してビデオデータのバケツト単位を決定する処理部である。

このビデオバケツト単位決定部 1 0 9は、時間調整部 1 0 8からターゲットタイムを、また、第 1解析部 1 0 3からビデオサンプルヘッダ情報を取得して、ビデオデータがタ一ゲッ卜タイム内のバケツ卜に納まるように、各ビデオサンプルヘッダ情報に含まれる各ビデオサンプルの再生時間長をカウントしながら、バケツ卜に含まれる最後のビデオサンプルのへッダ情報まで順次ビデオバケツト作成テーブルに追加していく。ビデオパケット単位決定部 1 0 9は、パケットに含まれる最後のビデオサンプルのヘッダ情報をビデオバケツト作成テーブルに追加すると、そのバケツ卜に含まれる最初のビデオサンプルの再生開始時間とそのパケッ卜に含まれるビデオサンプルの再生時間長の総和とを示すビデオサンプル再生時間情報をオーディオパケット単位決定部 1 1 0に出力する。オーディオバケツ卜単位決定部 1 1 0は、第 2解析部 1 0 6から取得したオーディオサンプルヘッダ情報を取得してオーディオデータのパケッ卜単位を決定する処理部である。

このオーディオバケツト単位決定部 1 1 0は、ビデオバケツト単位決定部 1 0 9からビデオサンプル再生時間情報を、また、第 2解析部 1 0 6からオーディオサンプルヘッダ情報を取得して、 / ケッ卜の先頭に、そのバケツ卜に含まれる先頭のビデオサンプルの再生開始時間と同一または近似する再生開始時間のオーディオサンプルを配置し、各オーディオサンプルヘッダ情報に含まれる各オーディオサンプルの再生時間長をカウントしながら、そのバケツ卜に含まれるオーディオサンプルの再生時間長の総和が、そのパケットに含まれるビデオサンプルの再生時間長の総和と同一または近似するように、そのバケツ卜に含まれる最後のォ —ディすサンプルを配置する。

なお、ここで、ビデオサンプルの再生開始時間と近似する再生開始時間のオーディオサンプルとは、ビデオサンプルの再生開始時間以降であつて、最も早い再生開始時間のオーディオサンプル、または、ビデオサンプルの再生開始時間以前であって、最も遅い再生開始時間のオーディオサンプルを意味する。

その後、オーディオバケツ卜単位決定部 1 1 0は、バケツ卜に含まれる先頭のオーディオサンプルから最後のオーディオサンプルまでのォーディオサンプルヘッダ情報を順次オーディオバケツト作成テーブルに追加する。

バケツト作成テーブル蓄積部 1 1 1は、バケツ卜単位決定部 1 0 7から出力されるビデオバケツト作成テーブルおよびオーディオバケツ卜作成テーブルを一時的に保持するキヤッシュメモリや R A M等である。 '· バケツトヘッダ作成部 1 1 2は、パケットのヘッダ情報が格納されるバケツ卜ヘッダ部（m o o f ) を作成する処理部であり、 C P Uやメモリによって実現される。

この✓ ケットヘッダ作成部 1 1 2は、バケツ卜単位決定部 1 0 7からバケツ卜作成信号を取得すると、パケット作成テーブル蓄積部 1 1 1からバケツト作成テーブルを参照してバケツ卜サンプルヘッダ情報を読み出して m o o f データを作成し、バケツ卜結合部 1 1 4に出力する。また、バケツ卜ヘッダ作成部 1 1 2は、バケツ卜に含まれるビデオサンプルおよびオーディオサンプルの実体データが、第 1データ蓄積部 1 0 2および第 2データ蓄積部 1 0 5のどこに格納されているかを示すポインタ 'ί青報や、サンプルのサイズを示すサンプルサイズ情報や、バケツ卜データ部（m d a t ) の作成を指示する信号が含まれる m d a t情報をパケットデータ作成部 1 1 3に出力する。なお、このバケツトヘッダ作成部 1 1 2は、 m o o f を作成する際に、例えば、 AMR (Advanced Mu l t i Rate GODEG)のような、データの途中で符号化レー卜の切替が発生する符号化方式 Iヒよって符号化されたメディアデータについて、符号化レー卜に応じてヘッダ情報を異なる t r a f に格納することもできる。

バケツトデータ作成部 1 1 3は、バケツ卜の実体データが格納されるパケットデータ部（m d a t ) を作成する処理部であり、 C P Uやメモリによって実現される。

このバケツトデータ作成部 1 1 3は、バケツトヘッダ作成部 1 1 2から m d a t情報を取得すると、 m d a t情報に含まれるポインタ情報とサンプルサイズ情報とに基づいて、第 1データ蓄積部 1 0 2からバケツ卜に含まれるビデオサンプルのビデオ実体データを読み出し、第 2データ蓄積部 1 0 5からバケツ卜に含まれるオーディオサンプルのオーディォ実体データを読み出して m d a tデータを作成し、バケツ卜結合部 1 1 4に出力する。

バケツト結合部 1 1 4は、 m o o f データと m d a tデータとを結合させて、 1バケツ卜分の m p 4拡張部データを作成する処理部であり、 C P Uやメモリによって実現される。このバケツト結合部 1 1 4は、パケットへッダ作成部 1 1 2から m o o f データを取得し、バケツ卜データ作成部 1 1 3から m d a tデータを取得して、 m o o f データと m d a tデータとを結合させて 1バケツ卜分の m p 4拡張部データを作成し、順次作成した m p 4拡張部データを M P 4ファイルを作成する装置に出力する。

このように構成される多重化装置 1 0 0において、 M P 4ファイルの拡張部が作成される処理手順について図 1 3を用いて説明する。

図 1 3は、多重化装置 1 0 0の処理動作を示すフロー図である。まず、第 1入力部 1 0 1 および第 2入力部 1 0 4は、多重化装置 1 0 0内にそれぞれビデオデータおよびオーディオデータを取り込むと（S 1 0 0 )、第 1入力部 1 0 1はビデオ入力データを第 1データ蓄積部 1 0 2に蓄積させ、第 2入力部 1 0 4はオーディオ入力データを第 2データ蓄積部 1 0 5に蓄積させる。

次に、第 1解析部 1 0 3は、第 1データ蓄積部 1 0 2からビデオサンプルデータを読み出して解析し、ビデオサンプルヘッダ情報をバケツト単位決定部 1 0 7のビデオバケツト単位決定部 1 0 9に出力する。そして、ビデオバケツト単位決定部 1 0 9は、第 1解析部 1 0 3から取得したビデオサンプルヘッダ情報と時間調整部 1 0 8から取得したターゲットタイムとに基づいてビデオデータのバケツト単位を決定する（S 1 1 0 )。なお、ビデオバケツト単位決定部 1 0 9がビデオデータのバケツト単位を決定する処理動作については、詳しく後述する。

その後、ビデオバケツ卜単位決定部 1 0 9は、バケツト単位が決定されたバケツ卜に含まれるビデオサンプルの再生時間情報をオーディオパケッ卜単位決定部 1 1 0に出力する（S 1 2 0 )。

そして、オーディオバケツト単位決定部 1 1 0は、ビデオバケツ卜単位決定部 1 0 9から取得したビデオサンプルの再生時間情報に基づいて、オーディオデータのバケツト単位を決定する（S 1 3 0 )。このとき、ォ一ディォバケツト単位決定部 1 1 0は、バケツ卜に含まれる先頭のォーディオサンプルの再生開始時間が、バケツ卜に含まれる先頭のビデオサンプルの再生開始時間と同一またはこれに近似するように、バケツト単位を決定する。

オーディオバケツ卜単位決定部 1 1 0がオーディオデータのバケツト単位を決定すると、バケツト単位決定部 1 0 7は、バケツト作成テープルをパケット作成テーブル蓄積部 1 1 1に出力し、パケット作成信号をパケットヘッダ作成部 1 1 2に出力する。

その後、バケツトヘッダ作成部 1 1 2は、決定された単位で m o o f データを作成してバケツ卜結合部 1 1 4に出力し、また、パケットデ一タ作成部 1 1 3は、決定された単位で m d a tデータを作成してバケツ卜結合部 1 1 4に出力し、バケツト結合部 1 1 4が m o o f データと m d a tデータとを結合させて、決定された単位で 1バケツトを作成し（S 1 4 0 )、 1パケット分の m p 4拡張部データとして出力する。

1バケツトを作成し終えると、多重化装置 1 0 0は、第 1入力部 1 0 1および第 2入力部 1 0 4から、まだ入力されるデータがあるか否かを判断する（S 1 5 0 )。ここで、入力データがある場合（S 1 5 0の N o )、多重化装置 1 0 0は、バッファメモリ、すなわち第 1 データ蓄積部 1 0 2、第 2データ蓄積部 1 0 5およびバケツト作成テーブル蓄積部 1 1 1 に保持されているデータのうち、既にバケツ卜化が終了したデータをクリアして（S 1 6 0 )、上記 S 1 1 0から S 1 5 0までの処理動作を繰り返す。

一方、入力データがない場合（S 1 5 0の Y e s )、多重化装置 1 0 0 は、 M P 4ファイルの拡張部の作成処理を終了する。

このように、多重化装置 1 0 0は、まずビデオデータのパケット単位を決定した後にオーディオデータのバケツト単位を決定して、メディアデータの多重化を行なうことによって、 M P 4ファイルの拡張部を作成する。

ここで、図 1 3のステップ S 1 1 0において、ビデオバケツ卜単位決定部 1 0 9がビデオデータのバケツト単位を決定する処理動作について詳しく説明する。

図 1 4は、ビデオパケット単位決定部 1 0 9の処理動作を示すフロー図である。このフローに先立ってビデオバケツト単位決定部 1 0 9は、時間調整部 1 0 8からターゲットタイムを取得しておく。

そして、ビデオバケツト単位決定部 1, 0 9は、第 1解析部 1 0 3からビデオサンプルヘッダ情報を取得すると（S 1 1 1 )、ビデオサンプルへッダ情報をビデオバケツト作成テーブルに追加する（S 1 1 2 )。

このとき、ビデオパケット単位決定部 1 0 9は、ビデオサンプルへッダ情報に含まれるビデオサンプルの再生時間長の合計、すなわちバケツ卜に含まれるビデオデータの総再生時間が、先に取得したターゲットタィムになったか、あるいは、ターゲットタイムを超えたか否かを判定する（ S 1 1 3 )。

/ ケッ卜に含まれるビデオデータの総再生時間がターゲットタイムに至っていない場合（S 1 1 3の N o )、ビデオバケツト単位決定部 1 0 9 は、次のビデオサンプルヘッダ情報を取得して（S 1 1 1 )、 S 1 1 2と S 1 1 3の処理動作を繰り返す。

/ ケッ卜に含まれるビデオデータの総再生時間がターゲッ卜タイムに至っている場合（S 1 1 3の Y e s )、ビデオバケツト単位決定部 1 0 9 は、ビデオバケツト作成テーブルに最後に追加したビデオサンプルへッダ'青報が指し示すビデオサンプルを、バケツ卜に含まれる最後のビデオサンプルに決定し（S 1 1 4 )、バケツ卜単位を決定する処理動作を終了する。

続いて、図 1 3のステップ S 1 3 0において、オーディオバケツト単位決定部 1 1 0がオーディオデータのパケット単位を決定する処理動作について詳しく説明する。

m 1 5は、オーディオバケツト単位決定部 1 1 0の処理動作を示すフロー図である。

このフローに先立って、オーディオバケツ卜単位決定部 1 1 0は、ビデォバケツト単位決定部 1 0 9からビデオサンプル再生時間情報を取得しておく。

そして、オーディオバケツト単位決定部 1 1 0は、第 2解析部 1 0 6 からオーディオサンプルヘッダ情報を取得すると（S 1 3 1 )、先に取得したビデオサンプル再生時間情報を参照して（S 1 3 2 )、バケツ卜に含まれる先頭のビデオサンプルの再生開始時間を読み出し、バケツ卜に含まれる先頭のビデオサンプルの再生開始時間と同一または近似する再生開始時間のオーディオサンプルを、そのバケツ卜のオーディオ先頭サンプルに決定する（S 1 3 3 )。

オーディオパケット単位決定部 1 1 0は、パケットに含まれるオーディォ先頭サンプルを決定すると、オーディオサンプルヘッダ情報を順次取得して（S 1 3 4 )、オーディオサンプルヘッダ情報をオーディオパケット作成テ一ブルに追加していく（S 1 3 5 )。

その後、オーディオバケツト単位決定部 1 1 0は、ビデオサンプル再生時間情報を参照して、バケツ卜に含まれるビデオサンプルの再生時間長の総和を読み出し（S 1 3 6 )、バケツ卜に含まれるオーディオサンプルの再生時間長の総和が、バケツ卜に含まれるビデオサンプルの再生時間長の総和と同一または近似する値となるように、そのバケツ卜に含まれる最後のオーディオサンプルを決定し（S 1 3 7 )、バケツト単位を決定する処理動作を終了する。

このような多重化装置 1 0 0による処理動作を経て作成される M P 4 ファイルの拡張部は、再生装置側におけるデータアクセスの効率に優れている。その理由について、図 1 6に多重化装置 1 0 0が作成する M P 4ファイル拡張部のデータ構造の例を示して説明する。

図 1 6 ( a ) に示す M P 4ファイル拡張部 2 0 0は、複数のパケットから構成され、 M P 4ファイルの基本部に結合されている。 M P 4ファイル拡張部 2 0 0を構成する各バケツトは、バケツトへッダ部の m o o f と、バケツトデータ部の m d a tから構成されている。ここで、バケツト— 1は、 M P 4ファイル拡張部 2 0 0の 1番目のパケッ卜であることを意味し、バケツ卜—"！に含まれる m o o f は、 m o o f — 1、パケット— 1に含まれる m d a tは、 m d a t _ 1 と示す。また、図 1 6 ( a ) の各 m d a t中に示す " V " は、ビデオサンプルであることを指し示すものであり、図 1 6 ( a ) の各 m d a t中に示す " A " は、オーディオサンプルであることを指し示すものである（以下、他の図においても同様とする。）。

M P 4ファイル拡張部 2 0 0の m d a t— 1には、再生開始時間が 2 0秒のビデオサンプルがビデオ先頭サンプルとして格納されており、同じく再生開始時間が 2 0秒のオーディオサンプルがオーディオ先頭サンプルとして格納されている。また、 m d a t— 2にも、再生開始時間が 3 0秒のビデオサンプルがビデオ先頭サンプルとして格納されており、同じく再生開始時間が 3 0秒のオーディオサンプルがオーディオ先頭サンプルとして格納されている。

このように、 1つのバケツ卜にビデオサンプルとオーディオサンプルとを、各々の再生開始時間を揃えて格納することによって、再生装置側で、 M P 4ファイル拡張部 2 0 0を再生する時に、データアクセスに要する計算量を大幅に削減することができる。

また、各メディアデータの再生開始時間が揃えられてバケツ卜に格納されているので、任意の数のパケットでデータを分割して、 M P 4ファィルデータのサイズを所望のサイズに調整することもできる。

ここで、多重化装置 1 0 0が作成する M P 4ファイル拡張部は、図 1 6 ( b ) に示すデータ構造としてもよい。

図 1 6 ( b ) は、多重化装置 1 0 0が作成する M P 4ファイル拡張部のデータ構造の第 2例を示す図である。

図 1 6 ( b )に示す M P 4フアイル拡張部 2 1 0の m d a t _ 1 には、再生開始時間が 2 0秒のビデオサンプルがビデオ先頭サンプルとして格納されており、 m d a t— 2には、再生開始時間が 2 0秒のオーディオサンプルがオーディオ先頭サンプルとして格納されている。また、 m d a t— 3には、再生開始時間が 3 0秒のビデオサンプルがビデオ先頭サンプルとして格納されておリ、 m d a t— 4には、再生開始時間が 3 0 秒のオーディオサンプルがオーディオ先頭サンプルとして格納されている。

このように、 1つのパケットにビデオまたはオーディオのいずれか一方のデータを格納して、ビデオデータを格納するバケツ卜と、再生開始時間が揃えられたオーディオデータを格納するバケツトを交互に配列することによつても、再生装置側で、 M P 4ファイル拡張部 2 0 0を再生する時に、データアクセスに要する計算量を大幅に削減することができる。

以上説明したように、本実施の形態 1 に係る多重化装置 1 0 0によれば、各メディアデータの再生開始時間を揃えて、各メディアデータをパケット化するので、再生装置側におけるデータアクセスの効率化を図ることができる。

(実施の形態 2 )

次に、本発明の実施の形態 2に係る多重化装置について、図 1 7から図 2 0を参照しながら説明する。

本実施の形態 2に係る多重化装置は、主な構成要素において、上記実施の形態 1に係る多重化装置 1 0 0と共通するが、バケツト単位決定部において特徴的な構成を備えており、この点において上記実施の形態 1 に係る多重化装置 1 0 0と異なる。以下、この異なる点を中心に説明する。なお、上記実施の形態 1 と同一の構成要素については、同一の符号を用いることとし、説明を省略する。

図 1 7は、本実施の形態 2に係る多重化装置のパケット単位決定部の機能的な構成を示すブロック図である。

このバケツ卜単位決定部 1 1 7は、バケツ卜に含まれるビデオサンプルおよびオーディオサンプルのヘッダ情報を集積させて、各々の再生開始時間が揃うように、かつ、パケットに含まれる先頭のビデオサンプルがィントラフレームとなるように、ビデオデータおよびオーディオデ一タのパケット単位を決定する処理部であり、時間調整部 1 0 8と、ビデォバケツ卜単位決定部 1 1 9と、オーディオバケツ卜単位決定部 1 1 0 とを備える。

ビデオバケツト単位決定部 1 1 9は、第 1解析部 1 0 3からビデオサンプルヘッダ情報を取得してビデオデータのバケツト単位を、時間またはイントラフレームのいずれかを基準に決定する処理部であり、時間基準単位調整部 1 2 0と、 I フレーム基準単位調整部 1 2 1 とを備える。時間基準単位調整部 1 2 0は、時間調整部 1 0 8から出力されるターゲッ卜タイムに基づいてビデオデータのバケツト単位を調整する処理部であり、各ビデオサンプルヘッダ情報の再生時間長をカウントして、パケッ卜が定められた時間単位となるようにバケツ卜単位を調整する。

I フレーム基準単位調整部 1 2 1は、第 1解析部 1 0 3から出力されるビデオサンプルヘッダ情報にィントラフレームであることを示す情報が含まれているか否かに基づいてビデオデータのバケツト単位を調整する処理部であり、イントラフレームであることを示す情報が含まれているビデオサンプルヘッダ情報を取得すると、イントラフレームのビデオサンプルでバケツト単位を切り替えて、次のバケツ卜のビデオ先頭サンプルがィントラフレームのビデオサンプルとなるようにバケツ卜単位を調整する。

このように構成されるバケツ卜単位決定部 1 1 7を備えた本実施の形態 2に係る多重化装置において、ビデオバケツ卜単位決定部 1 1 9がビデォデータのバケツト単位を決定する処理動作について詳しく説明する。図 1 8は、ビデオパケット単位決定部 1 1 9の処理動作を示すフロー図である。

このフローに先立って、ビデオバケツト単位決定部 1 1 9は、時間調整部 1 0 8からターゲットタイムを取得して、時間基準単位調整部 1 2 0に保持する。

そして、上記実施の形態 1 と同様に、ビデオパケット単位決定部 1 1 9は、第 1解析部 1 0 3からビデオサンプルへッダ情報を取得すると（ S 2 0 1 )、ビデオサンプルヘッダ情報をビデオバケツト作成テーブルに追加する（S 2 0 2 )。

このとき、ビデオパケット単位決定部 1 1 9は、 I フレーム基準単位調整部 1 2 1において、取得したビデオサンプルヘッダ情報にイントラフレームであることを示す情報が含まれているか否かを判定する（S 2 0 3 )。

イントラフレームであることを示す情報が含まれている場合（S 2 0 3の Y e s )、ビデオバケツ卜単位決定部 1 1 9は、時間基準単位調整部 1 2 0において、パケットに含まれる全ビデオサンプルの総再生時間が、先に取得したタ一ゲットタイムを超えているか否かを判定する（S 2 0

5 )。

ここで、イントラフレームであることを示す情報が含まれていない場合（S 2 0 3の N o ) またはターゲットタイムを超えていない場合（S 2 0 5の!^1 ₀ )、ビデオバケツト単位決定部 1 1 9は、時間基準単位調整部 1 2 0において、ビデオサンプルヘッダ情報に含まれるビデオサンプルの再生時間長を加算することによって、バケツ卜に含まれるビデオサンプルの再生時間長の総和を更新し（S 2 0 4 )、次のビデオサンブルへッダ情報を取得して（S 2 0 1 ) ±記処理動作を繰り返す。

一方、ターゲッ卜タイムを超えている場合（S 2 0 5の Y e s )、ビデォバケツト単位決定部 1 1 9は、バケツ卜に含まれる最後のビデ才サンプルを、 I フレーム基準単位調整部 1 2 1においてイントラフレームであると判定されたビデオサンプルの 1 つ前のビデオサンプルに決定し ( S 2 0 6 )、ビデオデータのバケツト単位決定の処理動作を終了する。このようなビデオバケツト単位決定部 1 1 9の処理動作を経て作成される M P 4ファイルの拡張部は、パケットの先頭に格納されるビデオサンプルが必ずィントラフレームのビデオサンプルとなるので、再生装置側でランダムアクセス時にパケットの先頭のビデオサンプルから再生を開始することができるようになり、ランダムアクセス可能なビデ才サンプルの検索に要する計算量を大幅に削減することができる。

また、バケツ卜の先頭に格納されるビデオサンプルが必ずイン卜ラフレームのビデオサンプルとなることによって、パケットヘッダ部（m o o f ) では、ビデオ卜ラックのヘッダ情報を格納する t r a f の先頭に位置する t r u nの先頭サンプルフラグフィ一ルドにのみ、ランダムァクセス可能であることを示す情報を記述すればよく、各 t r u nのサンプルフラグフィールドは、デフォルト値を使用することにより省略できるので、 m o o f データ作成時の負荷が軽減されるとともに、 M P 4フアイル全体のファイルサイズの削減を図ることもできる。

なお、この処理動作によると、ビデオデータに含まれるイントラフレーム同士の間隔が大きくなると、 1バケツ卜あたりの再生時間長力長くなる場合がある。そのため、パケット単位決定部 1 1 7は、以下に述べるような処理動作としてもよい。図 1 9は、ビデオバケツ卜単位決定部 1 1 9の第 2の処理動作を示すフロー図である。

上記第 1の処理動作と同様に、このフローに先立って、ビデオバケツト単位決定部 1 1 9は、時間調整部 1 0 8からターゲッ卜タイムを取得して、時間基準単位調整部 1 2 0に保持する。

そして、ビデオバケツ卜単位決定部 1 1 9は、第 1解析部 1 0 3からビデオサンプルヘッダ情報を取得すると（S 2 1 1 )、ビデオサンプルへッダ情報をビデオバケツト作成テーブルに追加する（S 2 1 2 )。

このとき、ビデオバケツト単位決定部 1 1 9は、時間基準単位調整部 1 2 0において、パケットに含まれる全ビデオサンプルの総再生時間が、先に取得したターゲットタイムを超えているか否かを判定する（S 2 1 3 ) o

タ一ゲットタイムを超えている場合（S 2 1 3の Y e s )、ビデオパケット単位決定部 1 1 9は、バケツ卜に含まれる最後のビデオサンプルを、今回取得したビデオサンプルヘッダ情報の 1つ前のビデオサンプルへッダ情報が指し示すビデオサンプルに決定し（S 2 1 4 )、ビデオデータのバケツト単位決定の処理動作を終了する。

一方、ターゲットタイムを超えていない場合（S 2 1 3の N o )、ビデォバケツ卜単位決定部 1 1 9は、 I フレーム基準単位調整部 1 2 1において、取得したビデオサンプルヘッダ情報にイントラフレームであることを示す情報が含まれているか否かを判定する（S 2 1 5 )。

ここで、ィントラフレームであることを示す情報が含まれている場合 ( S 2 1 5の Y _e s )、ビデオバケツト車位決定部 1 1 9は、バケツ卜に含まれる最後のビデオサンプルを、 I フレーム基準単位調整部 1 2 1においてイントラフレームであると判定されたビデオサンプルの 1つ前のビデオサンプルに決定し（S 2 1 4 )、ビデオデータのバケツト単位決定の処理動作を終了する。

他方、イントラフレームであることを示す情報が含まれていない場合

( S 2 1 5の N o )、ビデオバケツ卜単位決定部 1 1 9は、時間基準単位調整部 1 2 0において、ビデオサンプルヘッダ情報に含まれるビデオサンプルの再生時間長を加算することによって、パケットに含まれるビデオサンプルの再生時間長の総和を更新し（S 2 1 6 )、次のビデオサンプルヘッダ情報を取得して（S 2 1 1 ) 上記処理動作を繰り返す。

このようなビデオバケツ卜単位決定部 1 1 9の第 2の処理動作を経て作成される M P 4ファイルの拡張部は、所定の時間制限を設定してパケットを作成してパケットサイズを所望のサイズ以下に保ちつつ、イン卜ラフレームのビデオサンプルが存在すれば、バケツ卜の先頭に格納することができるので、再生装置側でランダムアクセス時にパケッ卜の先頭のビデオサンプルについてのみランダムアクセス可能なビデオサンプルであるか否かを判定すればよくなリ、ランダムアクセス可能なビデオサンプルの検索に要する計算量を削減することができる。

なお、ビデオパケット単位決定部 1 1 9は、ビデオデータのパケット単位決定の処理動作を終了すると、ビデオサンプル再生時間情報をォーディォバケツト単位決定部 1 1 0に出力し、オーディオバケツト単位 1 1 0でオーディオデータのバケツト単位決定の処理動作が行なわれるのは、上記実施の形態 1の場合と同様である。

このようなバケツト単位決定部 1 1 7による処理動作を経て作成される M P 4ファイルの拡張部は、再生装置側におけるランダムアクセス時の検索負荷を軽減させる。その理由について、図 2 0に本実施の形態 2 に係る多重化装置が作成する M P 4ファイル拡張部のデータ構造の例を示して説明する。

図 2 0 ( a )に示す M P 4ファイル拡張部 2 2 0の m d a t 1には、イントラフレームのビデオサンプルがビデオ先頭サンプルとして格納されており、 m d a t— 2にも同じくイントラフレームのビデオサンプルがビデオ先頭サンプルとして格納されている。

このように、イントラフレームのビデオサンプルを先頭のビデオサンプルとしてバケツ卜に格納することによって、再生装置側でランダムァクセス時において、ランダムアクセス可能なビデオサンプルを取得するためにバケツ卜の先頭のビデオサンプルのみを検索すれば足りるため、パケッ卜に含まれる全てのビデオサンプルを検索する必要がなくなリ、ランダムアクセス時のサンプル検索負荷を大幅に軽減することができる。また、このとき、 M P 4フアイル拡張部 220の m o o f — 1および mo o f —2においても、ビデオトラックのヘッダ情報を格納する t r a f の先頭に位置する t r u nの先頭サンプルフラグフィールドにのみ、ランダムアクセス可能であることを示す情報を記述することによって、 mo o f — 1および mo o f — 2のサイズを削減することもできる。ここで、本実施の形態 2に係る多重化装置が作成する M P 4ファイル拡張部は、図 20 ( b) に示すデータ構造としてもよい。

図 20 ( b )に示す M P 4ファイル拡張部 230の m d a t— 1には、ィントラフレームのビデオサンプルがビデオ先頭サンプルとして格納されており、 m d a t— 3にも同じくイントラフレームのビデオサンプルがビデオ先頭サンプルとして格納されている。また、 m d a t— 2およぴ m d a t— 4には、オーディオサンプルが格納されている。

このように、 1つのバケツ卜にビデオまたはオーディオのいずれか一方のデータを格納して、ビデオデータを格納するパケットには、イントラフレームのビデオサンプルを先頭のビデオサンプルとして格納することによっても、再生装置側でランダムアクセス時におけるサンプル検索負荷を大幅に軽減することができる。なお、これら M P 4ファイル拡張部のデータ構造例のいずれにおいても、バケツ卜に格納される先頭のビデオサンプルの再生開始時間と先頭のオーディオサンプルの再生開始時間とを揃えることによって、再生装置側でのデータアクセスに要する計算量を大幅に削減することができる。以上説明したように、本実施の形態 2に係る多重化装置によれば、ランダムアクセス可能なビデオサンプルを先頭のビデオサンプルとして、バケツトを作成するので、再生装置におけるランダムアクセス時のサンプル検索に要する計算量を削減することができる。

(実施の形態 3 )

さらに、本発明の実施の形態 3に係る多重化装置について、図 2 1から図 2 5を参照しながら説明する。

本寒施の形態 3に係る多重化装置は、主な構成要素において、上記実施の形態 1および 2に係る多重化装置と共通するが、バケツトデータ作成部において特徴的な構成を備えており、この点において上記実施の形態 1および 2に係る多重化装置と異なる。以下、この異なる点を中心に説明する。なお、上記実施の形態 1および 2と同一の構成要素については、同一の符号を用いることとし、説明を省略する。

このバケツトデータ作成部 1 3 0は、パケッ卜データ部（m d a t ) を、ビデオサンプルの実体データとオーディオサンプルの実体データとをインタリーブして格納することによって作成する処理部であり、 m d a t情報取得部 1 3 1 と、ビデオ実体データ読出部 1 3 2と、オーディォ実体データ読出部 1 3 3と、インタリーブ配列部 1 3 4とを備える。 m d a t情報取得部 1 3 1は、パケットへッダ作成部 1 1 2から m d a t情報を取得して、バケツトデータ作成部 1 3 0を構成する他の各部に実体データの読出指示や再生時間情報を出力する処理部である。

この m d a t情報取得部 1 3 1は、ノケッ卜ヘッダ作成部 1 1 2から m d a t 'ί青報を取得すると m d a t情報を解析して、ビデオサンプルおよびオーディオサンプルの再生開始時間と再生終了時間とを示す再生時間情報を耳又得し、この再生時間情報に基づいて、パケットに含まれる全てのビデ才サンプルとオーディオサンプルとを再生開始時間が昇順となるように並び替える。

そして、 m d a t情報取得部 1 3 1は、並び替えた順番に従って再生開始時間の若いサンプルから順に、ビデオ実体データ読出部 1 3 2にビデオサンプルの実体データの読み出しを指示するビデオ読出指示を出力する、または、オーディオ実体データ読出部 1 3 3にオーディオサンプルの実体データの読み出しを指示するオーディオ読出指示を出力する。このビデオ読出指示には、ビデオサンプルの実体データが第 1データ蓄積部 1 0 2のどこに格納されているかを示すポインタ情報とビデオサンプルのサイズ情報とが含まれており、オーディオ読出指示には、オーディオサンプルの実体データが第 2データ蓄積部 1 0 5のどこに格納されているかを示すポィンタ情報とオーディオサンプルのサイズ情報とが含まれてしゝる。

ビデオ実体データ読出部 1 3 2は、 m d a t情報取得部 1 3 1からビデォ読出指示を取得して、第 1データ蓄積部 1 0 2からビデオ実体データを読み出す処理部である。このビデオ実体データ読出部 1 3 2は、ビデォ読出指示に含まれるポィンタ情報とサイズ情報とを参照して第 1デ —タ蓄積部 1 0 2からビデオ実体データを読み出して、読み出したビデォ実体データをインタリーブ配列部 1 3 4に出力する。

オーディオ実体データ読出部 1 3 3は、 m d a t情報取得部 1 3 1からオーディオ読出指示を取得して、第 2データ蓄積部 1 0 5からオーディォ実体データを読み出す処理部である。このオーディオ実体データ読出部 1 3 3は、オーディオ読出指示に含まれるポインタ情報とサイズ情報とを参照して第 2データ蓄積部 1 0 5からオーディオ実体データを読み出して、読み出したオーディオ実体データをインタリーブ配列部 1 3 4に出力する。

インタリーブ配列部 1 3 4は、ビデオ実体データ読出部 1 3 2およびオーディオ実体データ読出部 1 3 3から出力される読出ビデオデータおよび読出オーディオデータを出力される順に逐次取得し、インタリーブして配列することによって m d a tデータを作成し、バケツト結合部 1 1 4に出力する処理部である。

このように構成されるバケツ卜データ作成部 1 3 0を備えた本実施の形態 3に係る多重化装置において、バケツトデータ作成部 1 3 0が m d a tを作成する処理動作について詳しく説明する。

図 2 2は、バケツトデータ作成部 1 3 0の処理動作を示すフロー図である。

まず、バケツトデータ作成部 1 3 0は、 m d a t情報取得部 1 3 1において、バケツトヘッダ作成部 1 1 2から m d a t情報を取得する（S 3 0 1 )。 m d a t情報取得部 1 3 1【ま、取得した m d a t情報を解析して、サンプルのポィンタ情報とサイズ情報と再生時間情報とを抽出する。そして、 m d a t情報取得部 1 3 1は、抽出したサンプルの再生時間情報に基づいて、バケツ卜に含まれる全てのビデオサンプルとオーディオサンプルとを再生開始時間が昇順となるように並び替える。続いて、 m d a t情報取得部 1 3 1は、並び替えた順番に従って再生開始時間の若いサンプルから順に、抽出したビデオサンプルのボインタ情報とサイズ情報とを含むビデオ読出指示をビデオ実体データ読出部 1 3 2に出力する、または、抽出したオーディオサンプルのポインタ情報とサイズ情報とを含むオーディオ読出指示をオーディオ実体データ読出部 1 3 3に出力する。

ビデオ実体データ読出部 1 3 2は、ビデオ読出指示を取得すると、ポインタ情報とサイズ情報とを参照して第 1データ蓄積部 1 0 2からビデォ実体データを読み出してインタリーブ配列部 1 3 4に出力し、オーディォ実体データ読出部 1 3 3は、オーディオ読出指示を取得すると、ポインタ情報とサイズ情報とを参照して第 2データ蓄積部 1 0 5からォーディォ実体データを読み出してインタリーブ配列部 1 3 4に出力する ( S 3 0 2 )。

インタリーブ配列部 1 3 4は、読み出した実体データをビデオ実体デ一タ読出部 1 3 2およびオーディオ実体データ読出部 1 3 3から受け取ると、受け取った順に逐次配列する（S 3 0 3 )。

ここで、インタリーブ配列部 1 3 4は、ビデオ実体データとオーディォ実体データの全て、すなわち、 1パケットに格納される実体データの全ての配列が完了するまで、実体データの配列を続行する（S 3 0 4の N o、 S 3 0 3 )。

そして、 1バケツ卜に格納される実体データの全ての配列が完了すると（S 3 0 4の Y e s )、インタリーブ配列部 1 3 4は、配列した実体デ —タを m d a tデータとして、バケツト結合部 1 1 4に出力して（S 3 0 5 )、 m d a tの作成の処理動作を終了する。

このようなバケツ卜データ作成部 1 3 0の処理動作を経て作成される M P 4ファイルの拡張部は、シークに時間がかかる光ディスク機器等におけるランダムアクセス再生に適している。その理由について図 2 3に本実施の形態 3に係る多重化装置が作成する M P 4ファイル拡張部のデータ構造の概略を示して説明する。

図 2 3に示す M P 4ファイル拡張部 2 4 0は、 4〜 8秒までのコンテンッデータを格納するバケツト 1 、 8〜 1 2秒までのコンテンッデータを格納するバケツト 2、 1 2〜 1 6秒までのコンテンツデータを格納するバケツ卜 3というように、複数のバケツ卜が配列されることで構成されている。

各バケツトは、 mo o f 24 1 と m d a t 242とから構成されておリ、 m o o f 24 1には、ビデオトラック,に関する t f h d (V) およぴ t r a f (V— 1、 V— 2) と、オーディォトラックに関する t f h d (A) および t r a f (A— 1、 A- 2) とが格納されている。また、 t r a f (V— 1 ) と t r a f (A— 1 ) に格納されるヘッダ情報が指し示すサンプルの実体データは、 m d a t _1 に格納され、 t r a f (V 一 2) と t r a f (A— 2) に格納されるヘッダ情報が指し示すサンプルの実体データは、 m d a t—2に格納されている。そして、 m d a t 24 2には、ビデオサンプルの実体データとオーディオサンプルの実体データとが交互にインタリーブして格納されている。

このとき、再生装置側で、再生時間が 4秒の位置から再生を開始するランダムアクセス処理に際して、 m o o f _ 1の先頭位置に読み出しポインタを移動させれば、後は mo o f _1 を解析して、読み出しポインタを連続的に移動させることにより m o o f _ 1に連続する m d a t一 1から再生に必要な実体データを取得することができる。

すなわち、この M P 4ファイル拡張部 240によれば、再生装置は、 mo o f _1の先頭位置に読み出しポィンタを移動させる 1回のシーク動作だけで、ランダムアクセス再生を実現することができるので、シークに時間がかかる光ディスク機器等に有効といえる。

ここで、 m d a t 242において、ビデオサンプルの実体データの直後に格納されるオーディオサンプルの実体データは、直前のビデオサンプルの再生開始時間と揃えられているので、ビデオデータとオーディオデータの同期再生は担保されている。図 24に、 M P 4ファイル拡張部 2 40の 0| 3 1:—1に実体データが格納されている様子を示す。

図 24に示すように、 m d a t __1の先頭に格納されているビデオサンプル 1 の再生開始時間は 4000 m sであり、ビデオサンプル 1の直後に格納されているオーディオサンプル 1の再生開始時間は、 4000 m sであり、ビデオサンプル 1 とオーディオサンプル 1の再生開始時間 ίよ同一に揃えられている。

通常、ビデオサンプルとオーディオサンプルのサンプルレー卜は異なることが多いので、ここでは、ビデオサンプルの再生時間長は 50 Om s とし、オーディオサンプルの再生時間長は 1 00 m sとする。

従って、 M P 4ファイル拡張部 240の m d a t _1には、ビデオサンプル 1の直後にオーディオサンプル 1 〜5がインタリーブして格納され、その後に、ビデオサンプル 2、オーディオサンプル 6〜 1 0、ビデオサンプル 3 ■ ■ ■の順に格納されることになる。

このとき、ビデオサンプル 2の再生開始時間は、 450 Om sであり、ビデオサンプル 2の直後に格納されているオーディオサンプル 6の再生開始時間も 4500m sであり、ビデオサンプルとそのビデオサンプル直後のオーディオサンプルの再生開始時間は、常に同一となるように揃元られている。

また、ビデオサンプルとオーディオサンプルのサンプルレートは異なるため、ビデオサンプルの再生開始時間とその直後のオーディオサンプレの再生開始時間とが同一とならない場合も生じうる。このような場合でも、ビデオサンプル直後のオーディオサンプルを、ビデオサンプルの再生開始時間と近似する再生開始時間を有するオーディオサンプルとすることによって、ビデオデータとオーディオデータの同期再生を担保することができる。図 2 5は、 M P 4ファイル拡張部の m d a t _ 1に実体データが格納されている様子を示す第 2のデータ構造を示す図である。

図 2 5に示すように、 M P 4フアイル拡張部 2 5 0の m d a t— 1の先頭に格納されているビデオサンプル 1の再生開始時間は、 4 0 0 0 m sであり、ビデオサンプル 1の直後に格納されているオーディオサンプル 1の再生開始時間は、 4 0 5 0 m sであり、ビデオサンプル 1の直後に格納されるオーディオサンプルとして、ビデオサンプル 1の再生開始時間以降であって最も早い再生開始時間を有するオーディオサンプル 1 が格納されている。

ここで、先に説明した場合と同様に、ビデオサンプルの再生時間長は 5 0 0 m sとし、オーディオサンプルの再生時間長は 1 0 0 m sとする。従って、 M P 4ファイル拡張部 2 5 0の m d a t— 1 には、ビデオサンプル 1の直後に、オーディオサンプル 1 〜 5がインタリーブして格納され、その後に、ビデオサンプル 2、オーディオサンプル 6〜 1 0、ビデオサンプル 3 ■ ■ 'の順に格納されることになる。

このとき、ビデオサンプル 2の再生開始時間は、 4 5 0 O m sであり、ビデオサンプル 2の直後に格納されているオーディオサンプル 6の再生開始時間は、 4 5 5 0 m sであり、ビデオサンプルとそのビデオサンプル直後のオーディオサンプルの再生開始時間は、常に近似するように揃えられている。

なお、ここで、ビデオサンプルの直後に格納されるオーディオサンプルとして、ビデオサンプルの再生開始時間以前であって最も遅い再生開始時間を有するオーディオサンプルを格納することとしてもよい。この場合、ビデオサンプル 1の直後に格納されるオーディオサンプル 1は、 3 9 5 0 m sの再生時間を有することになる。

以上説明したように、本実施の形態 3に係る多重化装置によれば、ビデオサンプルの直後に、ビデオサンプルの再生開始時間と同一または近似する再生開始時間を有するオーディオサンプルを配置し、ビデオサンプルとオーディオサンプルとを再生開始時間が昇順となるようにインタリーブして m d a t に格納するので、シーク速度の遅い再生装置においても、迅速にランダムアクセス可能なデータ構造の M P 4ファイル拡張部を作成することができる。

(実施の形態 4 )

続いて、本発明の実施の形態 4に係る逆多重化装置について、図 2 6 および図 2 7を参照しながら説明する。

逆多重化装置 3 0 0は、上記実施の形態 1 、 2および 3に係る多重化装置で作成された M P 4ファイル拡張部を含む M P 4ファイルデータを取得して解析し、メディアデータを逆多重化して再生データを出力する装置であり、ファイル入力部 3 0 1、ファイルデータ蓄積部 3 0 2、へッダ分離解析部 3 0 3、m o o V解析部 3 0 4、m o o f 解析部 3 0 5、 t r a f 解析部 3 0 6、 t r u n解析部 3 0 7、 R A検索部 3 0 8およびサンプル取得部 3 0 9を備えている。

ファイル入力部 3 0 1 は、 M P 4ファイルデータを取得するインターフェースであり、取得した M P 4ファイルの入力データを順次、フアイルデータ蓄積部 3 0 2に蓄積させる。

ファイルデータ蓄積部 3 0 2は、 M P 4入力データを一時的に保持するキャッシュメモリや R A M等である。

ヘッダ分離解析部 3 0 3は、ファイルデータ蓄積部 3 0 2に保持されている M P 4入力データのうち M P 4ファイルのヘッダデータを読み出して解析し、 M P 4ファイルの基本部ヘッダの m o o Vデータと、拡張部へッダの m o o f データとに分離して、それぞれ m o o V解析部 3 0 4および m o o f 解析部 3 0 5に出力する処理部であり、 C P Uやメモリによって実現される。

m o o V解析部 3 0 4は、 M P 4ファイルの m o o Vを解析して、メディアデータの符号化レートやコンテンツの再生時間長等、メディアデ —タの解析に必要なメディア情報を取得する処理部であり、 C P Uゃメモリによって実現される。この m o o V解析部は、取得したメディア情報を m o o f 解析部 3 0 5に出力する。

m o o f 解析部 3 0 5は、 M P 4フアイルの m o o f を、 m o o v解析部 3 0 4から取得したメディア情報に基づいて解析し、トラック毎のへッダデータである t r a f データを t r a f 解析部 3 0 6に出力する処理部であり、 C P Uやメモリによって実現される。

t r a f 解析部 3 0 6は、 M P 4ファイルの t r a f を解析して、 t r a f に含まれるサンプル毎のへッダデータである t r u nデータを t r u n解析部 3 O 7に出力する処理部であり、 C P Uやメモリによって実現される。

t r u n解析部 3 0 7は、 M P 4ファイルの t r u nを解析して、 t r u n内の各フィールドに記述されている情報を取得して、サンプル取得部 3 0 9に t r u n解析情報を出力する処理部であり、 C P Uやメモリによって実現される。この t r u n解析情報には、例えば、そのサンプルのサイズや、そのサンプルがファイルデータ蓄積部 3 0 2のどこに格納されているかを示すデータオフセット情報や、さらにビデオサンプルの場合にはィントラフレームであることか否かを示すフラグ情報等が含まれている。

また、この t r u n解析部 3 0 7は、次に述べる R A検索部 3 0 8から、ランダムアクセス後の再生開始位置を示し、再生の開始を指示する出力信号である再生開始指示を取得すると、再生開始指示によって示される t r u nから順に解析して、サンプル取得部 3 0 9に t r u n解析情報を出力する。

R A検索部 3 0 8は、ランダムアクセス後の再生開始時間を示す目標再生時間情報を取得して、ビデオトラックに関するヘッダ情報を格納する先頭の t r a f 内の先頭の t r u nに含まれる先頭サンプルについての再生開始時間、およびイントラフレームであるかを示す情報である先頭サンプル情報を読み出して、ランダムアクセス後の再生開始位置となるビデオサンプルを検索する処理部であり、 C P Uやメモリによって実現される。この R A検索部 3 0 8は、ユーザからのランダムアクセス指示を受け付ける逆多重化装置 3 0 0の入力装置から目標再生時間情報を取得すると、 t r u n解析部 3 0 7から先頭サンプル情報のみを順次取得して、目標再生時間情報と同一または近似する再生開始時間を有するビデオサンプルを検索し、再生開始指示を t r u n解析部 3 0 7に出力する。

サンプル取得部 3 0 9は、 t r u n解析情報に基づいて、サンプルの実体データを読み出して復号化し、再生データをディスプレイ等の表示装置に出力する処理部である。このサンプル取得部 3 0 9は、 t r u n 解析部 3 0 7から t r u n解析情報を取得すると、これに含まれるデータオフセット情報を参照して、ファイルデータ蓄積部 3 0 2からサンプルの実体データを読み出す。ここで、 t r u n解析情報の取得開始をもつて、再生開始が指示されたものとする。

このように構成される逆多重化装置 3 0 0におけるランダムアクセス処理動作について図 2 7を用いて説明する。

図 2 7は、逆多重化装置 3 0 0のランダムアクセス処理動作を示すフロー図である。なお、このフローに先立って、逆多重化装置 3 0 0は、入力装置を介してユーザからのランダムアクセス指示を受け付けているものとする。

まず、逆多重化装置 300は、ファイル入力部 30 1において、上記実施の形態 1 、 2または 3に係る多重化装置において作成された M P 4 ファイルのデータを取得すると（S 400)、順次ファイルデータ蓄積部 302に蓄積させていく。

次に、逆多重化装置 300は、ヘッダ分離解析部 303において、 M P 4ファイルのファイルヘッダ部のみを分離して解析し（S 4 1 0)、さらに、基本部ヘッダと拡張部ヘッダとに分離して、 mo o v解析部 30 4において基本部ヘッダを解析し、 m o o f 解析部 305において拡張部ヘッダを解析する（S 420)。

続いて、逆多重化装置 300は、 m o o f 解析部 305において、拡張部ヘッダをさらに、トラック毎のヘッダに分離して、 t r a f 解析部 306において、トラックフラグメント、すなわち、 t r a f を解析する（S 430)。このとき、逆多重化装置 300は、 t r a f 解析部 30 6において、トラックフラグメントをさらに分離して、 t r u n解析部 307において、 t r u nを解析する。

ここで、逆多重化装置 300は、 R A検索部 308において目標再生時間情報の入力があると、 t r u n解析部 307から先頭サンプル情報を R A検索部 3 08に出力し、 R A検索部 308において、目標再生時間情報と同一または近似する再生開始時間が示されている先頭サンプル情報であるか否かを判定する（S 440)。

このとき、対象サンプルが見つからなければ（S 450の N o)、逆多重化装置 300は、 R A検索部 308において、ファイル内における格納順で次に配置された拡張部ヘッダにおける先頭サンプル情報を取得して、先に取得している目標再生時間情報と同一または近似する再生開始時間が示されている先頭サンプル情報であるか否かを判定する（S 4 4

一方、対象サンプルが見つかれば（S 4 5 0の Y e s )、逆多重化装置 3 0 0は、 R A検索部 3 0 8において、再生開始指示を生成し、 t r u n解析部 3 0 7に出力する。 t r u n解析部 3 0 7は、 R A検索部 3 0 8から再生開始指示を受けると、再生開始指示を受けた t r ui nから順に、 t r u n解析情報をサンプル取得部 3 0 9に出力する。ここで、再生開始指示を受けた t r u nとは、 R A検索部 3 0 8において再生開始を指示されたサンプルを含む t r u nを指す。

その後、逆多重化装置 3 0 0は、サンプル取得部 3 0 9におしヽて、 t r u n解析情報に含まれるデータオフセッ卜情報を参照して、ファイルデータ蓄積部 3 0 2から対象サンプルの実体データを取得し（S 4 6 0 )、復号化して再生データを出力してランダムアクセス処理動作を終了する以上説明したように、本実施の形態 4に係る逆多重化装置 3 O 0によれぱ、上記実施の形態 1、 2または 3に係る多重化装置が作成する M P 4ファイル拡張部を含む M P 4ファイルについてランダムアクセス再生を行なう際に、各バケツ卜の先頭に格納されているビデオサンプルのみを検索することによって、ランダムアクセス後の再生開始位置とすべきビデオサンプルを判定することができるので、ランダムアクセス時のサンプル検索負荷が大幅に軽減されることになる。

(適用例）

ここで、本発明に係る多重化装置の適用例について図 2 8を用いて説明する。

図 2 8は、本発明に係る多重化装置の適用例を示す図である。

本発明に係る多重化装置は、ビデオデータやオーディオデータ等のメディアデータを取得して多重化し、 M P 4ファイルデータを作成する録画機能付き携帯電話機 403やパーソナルコンピュータ 404に適用されうる。また、本発明に係る逆多重化装置は、作成された MP 4フアイルデータを読み込んで再生する携帯電話機 407に適用されうる。

ここで、録画機能付き携帯電話機 403およびパーソナルコンビユータ 404におし、て作成された M P 4ファイルデータは、 S Dメモリカード 405や D V D— RAM 406等の記録媒体に格納されたり、通信ネットワーク 4 O 2を介して画像配信サーバ 40 1に送信されて、画像配信サーバ 40 1から他の携帯電話機 407等に配信されたりする。

このように、本発明に係る多重化装置および逆多重化装置は、画像配信システム等における M P 4ファイルの作成装置または再生装置として利用されるものである。

以上、本発明に係る多重化装置および逆多重化装置について、各実施の形態等に基づいて説明したが、本発明は、これらの実施の形態等に限定されるものではない。

例えば、上言己各実施の形態では、ビデオデータとして、 MPEG-4Visual の符号化データを用いることとしたが、ビデオデータとして、 MPEG - 4 AVC (Advanced Video Coding)や H.263等のその他の動画像圧縮符号化方式による符号化データを用いてもよし、。なお、 MPEG - 4 AVG (Advanced V i deo Coding)や H.263の符号化データでは、 1 ピクチャが 1サンプルに相当することになる。

同様に、オーディオデータとして、 MPEG-4Audioの符号化データを用いることとしたが、オーディオデータとして、 G.726 等のその他の音声圧縮符号化方式による符号化データを用いてもよい。

また、上記各実施の形態では、ビデオデータとオーディオデータとを用いて説明しているが、テキストデータ等が含まれている場合でも、ォ一ディォデータのバケツト化と同じように処理することによって、本発明の効果を得ることができる。

さらに、上記実施の形態 2において、イントラフレーム毎にバケツト化を行なうとする場合には、パケット単位決定部 1 1 7の構成要素から時間基準単位調整部 1 2 0を省略し、図 1 8のステップ S 2 0 5の処理を省略することとしてもよい。

またさらに、上記実施の形態 3において、 M P 4ファイルの再生装置側で予め設定されているバッファモデルに従って M P 4ファイルが再生されることとなっている場合には、そのバッファモデルを満たすようにビデオサンプルのデータとオーディオサンプルのデータとをインタリーブして m d a tに格納することとしてもよい。ここで、ノッファモデルとは、規格で定められた条件に従って符号化データが入力される場合に、その規格で定められたサイズのバッファを再生装置に持たせることで、バッファが空になる（アンダーフロー）、または、バッファから溢れる（ォ一バーフロー）ことなく、再生装置が復号化を行なうことができることを保証するためのモデルである。

また、上記実施の形態 1 、 2および 3において、作成される M P 4フアイルの拡張部の m o o f に格納する t r a f の個数について言及していないが、 m o o f に格納する t r a f は、 1つの卜ラックにっき 1つの t r a f を格納するのが好ましい。このようにすることで、トラック毎に、 m o o f 内の先頭 t r a f のみを解析すれば、 m o o f に格納されるトラックの全てのサンプルについてのヘッダ情報を取得することができるので、ヘッダ情報取得時の効率がさらに向上することとなる。さらに、上記実施の形態 1 、 2および 3において、作成される M P 4 ファイルの拡張部の m o o f にヘッダ情報が格納されるサンプルの実体データは、 m o o f に連続する 1つの m d a tに格納するとしているが、 m o o f に連続する複数の m d a tに分割して格納することとしてもよい。具体的に説明すると、 m o o f _1にヘッダ情報が格納されるサンプルの実体データを、 m d a t— 1 、 m d a t— 2、 m d a t— 3の順に格納し、 m o o f — 2にヘッダ情報が格納されるサンプルの実体データを、 m d a t— 4、 m d a t— 5、 m d a t—6の順に格納するとしてもよい。

そして、上記実施の形態 2および 3では、パケット内に動画像データのイントラフレームが含まれる場合には、バケツ卜の先頭に配置することとしているが、ランダムアクセスが可能であれば、 P (Predictive)フレ一ムや B (Bidi rectional ly predict ive)フレーム等、イントラフレーム以外のビデオサンプルをバケツ卜の先頭に配置することとしてもよい。以下、これについて、ビデオデータとして MPEG- 4 AVGの符号化データを用いた場合を例に挙げて説明する。

MPEG-4AVGでは、イントラピクチャから復号化しても正しい復号結果を得られない場合がある。より詳しく説明すると、 MPEG - 4 AVCのイントラビクチャには、 IDR( Instantaneous Decoder Refresh)ピクチャと、それ以外のピクチャ（以下、 non- IDRイントラピクチャと称する。）の 2種類があり、 IDR ピクチャから復号化を開始すると、必ず正しい復号結果を得ることができるが、 non - IDR イントラピクチャから復号化を開始すると、 non-IDRイントラピクチャおよび表示順で non-IDRイン卜ラピクチヤ以降の複数枚のピクチャについて、正しい復号結果を得られないことがある。

そのため、 MPEG-4 AVGでは、 non - 1 DRイントラピクチャから正しい復号結果を得るためには、どのピクチャから復号化を開始すればよいかを示す補助情幸艮 (Recovery Point Supplemental Enhancement Information 以下、 " Recovery Point SE ' と称する。）を付加することができる。例えば、 P i c一 1 、 P i c 2、 P i c— 3、 P i c— 4、 P i c —5で示される 5枚のピクチヤが、この順序でビデオデータに含まれ、 P i c— 5が non- IDRイントラピクチャで、表示順で P i c— 5および P i c— 5以降のピクチャを正しく復号化しようとすると、 P ί c— 1 から復号化を開始しなければならない場合、 P i c— 1 の直前に、 Recovery Point SEI を配置することによって、ビデオデータ内における格納順で 4枚後のピクチャである P i c— 5、および、表示順でそれ以降のピクチャを正しく復号化するためには、 P i c— 1から復号化を開始する必要があることを示すことができる。

すなわち、この場合に、 P i c— 1は、ランダムアクセス可能なサンプルであるといえるので、 MPEG - 4 AVGの符号化データの場合、 IDRピクチヤまたは Recovery Point SEIが付加されたピクチャのサンプルを、ランダムアクセス可能なサンプルとして、バケツ卜の先頭に配置することとしてもよい。なお、 Recovery Point SEI はイントラピクチャ以外のピクチャに付加することもできる。

このとき、 Recovery Point SEI が付加されたピクチャのサンプルと、 Recovery Point SEIが付加されたピクチャから復号化を開始することで初めて正しい復号結果を得られるようになるピクチャのサンプルとを同一バケツ卜に格納することによって、サンプルデータ取得時の処理量を削減することができる。

さらに、 IDRピクチャと、 Recovery Point SEIが付加されたピクチャのサンプルとは、先頭サンプルフラグ 9 3 0、あるいはサンプルフラグ 9 3 5における特定のフラグ値（以降、ノンシンクサンプルフラグと呼ぶ。）により識別することができる。 M P 4においては、ランダムァクセス可能なサンプルのうち、ランダムアクセスするサンプルと正しい復号結果が得られるサンプルとが一致するサンプルについてのみ、ノンシンクサンプルフラグを 0にセットすることができる。このため、 IDR ピクチヤのサンプルではノンシンクサンプルフラグを 0とし、 Recovery Po i n t SE I が付加されたピクチャのサンプルではノンシンクサンプルフラグを 1 とすることにより、両者を識別することができる。

以上のような識別方法を用いることによリ、 I DRピクチャと Recovery Po i n t SE I が付加されたピクチャに限らず、互いに異なる性質をもつランダムアクセス可能なサンプルを識別することができる。実際には、以下のように使用することができる。

まず 1 つ目は、特定のサンプルのみを再生していくことにより、早送り再生を行う場合である。このときは、復号したサンプルをただちに表示できることが望ましいので、ノンシンクサンプルフラグが 0であるサンプルのみを復号化し、再生することとする。

2 つ目は、コンテンツの途中から再生を開始する、あるいは特定区間をスキップして次区間の再生を開始するような場合である。このとき、復号を開始するサンプルと正しい復号結果が得られるサンプルとが異なる可能性があるのは、再生開始時のみである。そこで、ノンシンクサンプリレフラグが 0であるサンプル、あるいはノンシンクサンプルフラグが 1であるランダムアクセス可能なサンプルのどちらからでも再生を開始できることとする。

なお、このような格納方法は、 MPEG- 4 AVGの Recovery Po i nt SE I の場合に限られず、復号化を開始するサンプルと、正しい復号結果が得られるサンプルとが異なる場合に適用することができ、例えば、 MPEG2 - V i deoにおける Open GOP (Group Of P i ctures)のよゔな構造に適用することができる。

さらに、サンプルがランダムアクセス可能であることを示す識別情報が付加されている際には、その識別情報によってランダムアクセス可能であることが示されているサンプルをバケツ卜の先頭に配置することとしてもよい。産業上の利用の可能性

本発明に係る多重化装置は、ビデオデータやオーディオデータ等のメディアデータを取得して M P 4ファイルデータを作成し、記録媒体に格納するデジタルビデオカメラや録画機能付き携帯電話機等、または、作成した M P 4ファイルデータをィンターネットを介して配信するパーソナルコンピュータや P D A等に用いるのに適し、本発明に係る逆多重化装置は、 M P 4ファイルデータをダウンロードして再生するパーソナルコンピュータや携帯電話機等に用いるのに適している。

Claims

請求の範囲

1 . 画像データと、音声データおよびテキストデータのうち少なくとも 1 つとを含むメディアデータをバケツ卜多重化して多重化データを作成する多重化装置であって、

前記メディアデータを取得するメディアデータ取得手段と、前記メディァデータ取得手段が取得した前記メディアデータを解析して、前記メディアデータに含まれる前記画像データ、音声データおよびテキストデータの最小のアクセス単位であるサンプルについて、サンプルの再生開始時間を示す再生開始時間情報を取得する解析手段と、前記解析手段が取得した前記再生開始時間情報に基づいて、前記メディァデータに含まれる前記画像データ、音声データおよびテキストデー夕の各サンプルの再生開始時間を揃えて前記メディアデータをバケツト化する単位を決定するバケツ卜単位決定手段と、

前記バケツ卜単位決定手段が決定したバケツ卜化単位で前記メディアデータのヘッダを格納するバケツトヘッダ部を作成するバケツトヘッダ部作成手段と、

前記バケツト単位決定手段が決定したバケツ卜化単位で前記メディアデータの実体データを格納するバケツ卜データ部を作成するバケツトデータ部作成手段と、

前記バケツ卜ヘッダ部作成手段が作成したバケツトヘッダ部と、前記バケツ卜データ部作成手段が作成したバケツ卜データ部とを結合してパケッ卜を作成するバケツト化手段とを備える

ことを特徴とする多重化装置。

2 . 前記バケツト単位決定手段は、前記バケツト化単位の先頭に配置される前記画像データのサンプルの再生開始時間に、前記バケツト化単位の先頭に配置される前記音声データおよび前記テキストデータのサンプルの再生開始時間を揃える

ことを特徴とする請求の範固第 1項記載の多重化装置。

3 . 前記バケツト単位決定手段は、

前記バケツト化単位の先頭に配置される前記音声データおよび前記テキストデータのサンプルを、前記バケツ卜化単位の先頭に配置される前記画像データのサンプルの再生開始時間以後であって、前記画像データのサンプルの再生開始時間に最も近い再生開始時間のサンプルとすることを特徴とする請求の範画第 2項記載の多重化装置。

4 . 前記パケット単位決定手段は、

前記バケツト化単位の先頭に配置される前記音声データおよび前記テキストデータのサンプルを、前記バケツ卜化単位の先頭に配置される前記画像データのサンプルの再生開始時間以前であって、前記画像データのサンプルの再生開始時間に最も近い再生開始時間のサンプルとすることを特徴とする請求の範囲第 2項記載の多重化装置。

5 . 前記画像データは、動画データであり、

前記解析手段は、さらに、

前記メディァデータ取得手段が取得した前記動画データを解析して、前記動画データが、画面内符号化サンプルであることを示すイントラフレーム情報が含まれているサンプルを 1つ以上含む場合に、前記イントラフレーム情報を取得し、

前記バケツ卜単位決定手段は、前記解析手段が前記ィントラフレーム情報を取得した場合に、前記ィントラフレーム情報と前記再生開始時間情報とに基づいて、前記メディァデータをパケット化する単位を決定する

ことを特徴とする請求の範囲第 1項記載の多重化装置。

5

6 . 前記バケツト単位決定手段は、

前記ィントラフレーム情報を含む前記動画データのサンプルを、前記バケツト化単位の先頭に配置する

ことを特徴とする請求の範囲第 5項記載の多重化装置。

O

7 . 前記バケツト単位決定手段は、

前記バケツト化単位の先頭に配置される前記ィントラフレーム情報を含む前記動画データのサンプルの再生開始時間に、前記バケツト化単位の先頭に配置される前記音声データおよび前記テキス卜データのサンプ5 ルの再生開始時間を揃える

ことを特徴とする請求の範囲第 6項記載の多重化装置。

8 . 前記バケツトデータ部作成手段は、

前記バケツト化単位に含まれる前記メディアデータのサンプルについ0 て、サンプルの再生開始時間が昇順となるようにインタリーブして格納する前記バケツトデータ部を作成する

ことを特徴とする請求の範囲第 1項記載の多重化装置。

9 . 前記バケツトデータ部作成手段は、

5 前記バケツト化単位に含まれる前記メディアデータのサンプルを、予め設定されている規定を満たすようにインタリーブして格納する前記パケットデータ部を作成する

ことを特徴とする請求の範囲第 8項記載の多重化装置。

1 0 . 画像データと、音声データおよびテキストデータのうち少なくとも 1つとを含むメディアデータをバケツ卜多重化して多重化データを作成する多重化方法であって、

前記メディァデータを取得するメディアデ一タ取得ステップと、前記メディアデ一タ取得ステップにおいて取得した前記メディアデ一タを解析して、前記メディアデータに含まれる前記画像データ、音声データおよびテキストデータの最小のアクセス単位であるサンプルについて、サンプルの再生開始時間を示す再生開始時間情報を取得する解析ステツプと、

前記解析ステップにおいて取得した前記再生開始時間情報に基づいて, 前記メディアデータに含まれる前記画像データ、音声データおよびテキストデータの各サンプルの再生開始時間を揃えて前記メディアデータをバケツト化する単位を決定するバケツ卜単位決定ステップと、

前記バケツト単位決定手ステップにおいて決定したバケツト化単位で前記メディアデータのヘッダを格納するバケツトヘッダ部を作成するパケッ卜ヘッダ部作成ステップと、

前記バケツト単位決定ステップにおいて決定したバケツ卜化単位で前記メディアデータの実体データを格納するバケツトデータ部を作成するバケツトデータ部作成ステップと、

前記バケツトヘッダ部作成ステップにおいて作成したバケツトヘッダ部と、前記バケツ卜データ部作成ステップにおいて作成したバケツトデ —タ部とを結合してバケツトを作成するバケツト化ステップとを含むことを特徴とする多重化方法。

1 1 . 前記バケツト単位決定ステップにおいて、

前記バケツ卜化単位の先頭に配置される前記画像データのサンプルの再生開始時間に、前記バケツト化単位の先頭に配置される前記音声データおよび前記テキス卜データのサンプルの再生開始時間を揃える

ことを特徴とする請求の範囲第 1 0項記載の多重化方法。

1 2 . 前記画像データは、動画データであり、

前記解析ステップにおいて、さらに、

前記メディァデータ取得ステップにおいて取得した前記動画データを解析して、前記動画データが、画面内符号化サンプルであることを示すィントラフレーム情報が含まれているサンプルを 1つ以上含む場合に、前記イントラフレーム情報を取得し、

前記バケツト単位決定ステップにおいて、

前記解析ステップにおいて前記ィントラフレーム情報を取得した場合に、前記ィントラフレーム情報と前記再生開始時間情報とに基づいて、前記メディアデータをバケツト化する単位を決定する

ことを特徴とする請求の範囲第 1 0項記載の多重化方法。

1 3 . 前記パケット単位決定ステップにおいて、

前記イントラフレーム情報を含む前記動画データのサンプルを、前記バケツト化単位の先頭に配置する

ことを特徴とする請求の範囲第 1 2項記載の多重化方法。

1 4 . 前記パケット単位決定ステップにおいて、

前記バケツト化単位の先頭に配置される前記ィントラフレーム'隋報を含む前記動画データのサンプルの再生開始時間に、前記バケツト化単位の先頭に配置される前記音声データおよび前記テキス卜データのサンプルの再生開始時間を揃える

ことを特徴とする請求の範囲第 1 3項記載の多重化方法。

1 5 . 前記バケツトデータ部作成ステップにおいて、

前記バケツト化単位に含まれる前記メディアデータのサンプルについて、サンプルの再生開始時間が昇順となるように.インタリーブして格納する前記バケツトデータ部を作成する

ことを特徴とする請求の範囲第 1 0項記載の多重化方法。

1 6 . 画像データと、音声データおよびテキストデータのうち少なくとも 1つとを含むメディアデータをバケツ卜多重化して多重化データを作成する多重化装置のためのプログラムであって、

前記メディアデータを取得するメディアデータ取得ステップと、前記メディアデータ取得ステツプにおいて取得した前記メディアデ一タを解析して、前言己メディアデータに含まれる前記画像データ、音声データおよびテキス卜データの最小のアクセス単位であるサンプルについて、サンプルの再生開始時間を示す再生開始時間情報を取得する解析ステツプと、

前記解析ステツプにおいて取得した前記再生開始時間情報に基づいて. 前記メディアデータに含まれる前記画像データ、音声データおよびテキストデータの各サンプルの再生開始時間を揃えて前記メディアデータをバケツ卜化する単位を決定するバケツト単位決定ステップと、

前記バケツ卜単位決定手ス亍ップにおいて決定したバケツト化単位で前記メディアデータのへッダを格納するバケツ卜ヘッダ部を作成するパケッ卜ヘッダ部作成ステップと、

前記バケツトヘッダ部作成ステップにおいて作成したバケツ卜ヘッダ部と、前記バケツトデータ部作成ステップにおいて作成したバケツトデータ部とを結合してバケツ卜を作成するバケツ卜化ステップとを含む多重化方法における各ステツプをコンピュータに実行させる

ことを特徴とするプログラム。

1 7 . 画像データと、音声データおよびテキストデータのうち少なくとも 1 つとを含むメディアデータが所定のバケツ卜の単位で多重化されている多重化データを取得して逆多重化する逆多重化装置であって、前記多重化データを取得する多重化データ取得手段と、

前記多重化データ取得手段が取得した前記多重化データを解析して、前記バケツ卜のヘッダ部を前記多重化データから分離して取得する解析分離手段と、

前記多重化データの逆多重化の開始位置を変更する、あるいは前記多重化データの途中から逆多重化を開始する処理であるランダムアクセスを実行する際に、前記解析分離手段が分離したバケツトヘッダ部の先頭に配置されている前記画像データのサンプルのヘッダのみを検索して、前記バケツ卜に含まれる前記画像データのサンプルが画面内符号化サンプルであることを示すィントラフレーム情報が含まれているか否かを判定するランダムアクセス検索手段とを備える

ことを特徴とする逆多重化装置。