WO2019039196A1

WO2019039196A1 - 画像データ改ざん検出装置、画像データ改ざん検出方法、および画像データのデータ構造

Info

Publication number: WO2019039196A1
Application number: PCT/JP2018/028375
Authority: WO
Inventors: 裕生渡邉
Original assignee: 株式会社Ｊｖｃケンウッド
Priority date: 2017-08-23
Filing date: 2018-07-30
Publication date: 2019-02-28
Also published as: US20200151331A1; JP2019041192A; US11269998B2; JP6848766B2

Abstract

画像データの改ざんを容易に検出することができる画像データ改ざん検出装置、画像データ改ざん検出方法、および画像データのデータ構造を提供する。　画像データ内のメタデータが、所定のデータに基づいて算出された第１のハッシュ値、スクリプトの文字列に基づいて算出された第２のハッシュ値、およびスクリプトを含み、画像改ざん検出装置は、所定のデータとメタデータに含まれるスクリプトに基づいて第３のハッシュ値を算出するとともに、メタデータに含まれるスクリプトの文字列に基づいて第４のハッシュ値を算出し、メタデータに含まれる第１のハッシュ値と算出した第３のハッシュ値、および、メタデータに含まれる第２のハッシュ値と算出した第４のハッシュ値をそれぞれ比較し、いずれかが等しくない場合には画像データの改ざんを検出する。

Description

画像データ改ざん検出装置、画像データ改ざん検出方法、および画像データのデータ構造

　本発明は、画像データ改ざん検出装置、画像データ改ざん検出方法、および画像データのデータ構造に関する。

　データの変更や改ざんは、そのデータを扱う機器にとって重大な脅威となるため、データの完全性を確保することが重要な課題となっている。近年、データ改ざんを検出する様々な技術が提案されている（たとえば特許文献１、特許文献２、特許文献３）。

　特許文献１に開示されるユーザデータオブジェクトの管理方法では、パッケージされたチェックサムを用いてユーザデータオブジェクトの非破損性を推定している（特許文献２の段落００１５）。

　特許文献２に開示されるメタデータの改ざん検知装置では、ハッシュ値を算出することで改ざんを検知している（特許文献２の段落００４９）。

　特許文献３に開示される画像記録装置では、フィールド毎に画像データに基づくハッシュ値を生成し、改ざんを判定している（特許文献３の段落００２２）。

特許第４４８２４５１号公報特許第５３５０７８２号公報特開２００７－３１８４１２号公報

　特許文献１，特許文献２および特許文献３に示す方法において、データ生成側とデータ再生側で予めハッシュ値の算出方法を統一する必要がある。そのため、第三者によりデータが改ざんされてしまった場合、統一された算出方法をその都度変更する必要があり、膨大な手間と時間がかかる課題がある。

　また、データ種別やフォーマットで算出方法が定められるため、データ生成側によるハッシュ値算出方法に自由度が無く、特定の改ざん手段により多くのデータの改ざんが可能となってしまう課題がある。

　本発明は、上述した課題の少なくとも１つを解決するため、画像データの改ざんを容易に検出することができる画像データ改ざん検出装置、画像データ改ざん検出方法、および画像データのデータ構造を提供することを目的とする。

　上記課題を解決するために、本発明の画像データ改ざん検出装置は、画像を符号化したデータとそのデータに関するデータであるメタデータとを有する画像データの改ざんを検出する改ざん検出部を備え、メタデータは、画像データの所定領域に予め埋め込まれているパラメータに基づいて算出された第１のハッシュ値、ハッシュ値を生成するためのスクリプトの文字列に基づいて算出された第２のハッシュ値、およびスクリプトを少なくとも含み、改ざん検出部は、パラメータとメタデータに含まれるスクリプトに基づいて第３のハッシュ値を算出するとともに、メタデータに含まれるスクリプトの文字列に基づいて第４のハッシュ値を算出し、メタデータに含まれる第１のハッシュ値と算出した第３のハッシュ値、および、メタデータに含まれる第２のハッシュ値と算出した第４のハッシュ値をそれぞれ比較し、いずれかが等しくない場合には画像データが改ざんされたことを検出することを特徴とする。

　本発明の画像データ改ざん検出装置は、上述した構成に加え、改ざん検出部により前記画像データの改ざんが検出されなかった場合、前記画像データに基づき画像を再生する画像再生部を有することが好ましい。

　また、本発明の画像データ改ざん検出方法は、画像を符号化したデータとそのデータに関するデータであるメタデータを有する画像データの改ざんを検出する改ざん検出ステップを含み、メタデータは、画像データの所定領域に予め埋め込まれているパラメータに基づいて算出された第１のハッシュ値、ハッシュ値を生成するためのスクリプトの文字列に基づいて算出された第２のハッシュ値、およびスクリプトを少なくとも含み、改ざん検出ステップは、パラメータとメタデータに含まれるスクリプトに基づいて第３のハッシュ値を算出するステップと、メタデータに含まれるスクリプトの文字列に基づいて第４のハッシュ値を算出するステップと、メタデータに含まれる第１のハッシュ値と算出した第３のハッシュ値、および、メタデータに含まれる第２のハッシュ値と算出した第４のハッシュ値をそれぞれ比較するステップと、を有し、比較するステップにおいて、いずれかが等しくない場合には画像データが改ざんされたことを検出することを特徴とする。

　また、本発明の他の側面は、画像データのデータ構造に関するものである。すなわち、本発明の画像データのデータ構造は、画像を符号化したデータと、そのデータに関するデータであるメタデータとを有し、メタデータには、画像データの所定領域に予め埋め込まれているパラメータに基づいて算出された第１のハッシュ値、ハッシュ値を生成するためのスクリプトの文字列に基づいて算出された第２のハッシュ値、およびスクリプトを少なくとも含む画像データのデータ構造である。

　本発明によれば、画像データの改ざんを容易に検出することができる画像データ改ざん検出装置、画像データ改ざん検出方法、および画像データのデータ構造を提供することができる。

メタデータを格納した画像データの生成処理の概要について示す図である。画像データのフォーマット例を示す図である。楽譜を再生経過時間に合わせてトリミング表示する例を示す図である。情報処理装置のハードウェア構成例を示すブロック図である。トリミング処理を伴う画像再生処理を実施するための情報処理装置の機能ブロック構成例を示す図である。画像トリミング表示処理を示すフローチャートである。歌詞を再生経過時間に合わせてテロップ表示する例を示す図である。音声再生と共に画像再生処理を実施するための情報処理装置の機能ブロック構成例を示す図である。テロップ表示処理を示すフローチャートである。本発明の実施形態を示す図であり、メタデータに改ざん検出データが記述された画像データの例を示す図である。本発明の実施形態を示す図であり、改ざん検出を伴う画像再生処理例を実施するための情報処理装置の機能ブロック構成例を示す図である。改ざん検出処理を示すフローチャートである。原画像が地図画像であり、メタデータがその地図上の位置や設定言語に従って選択表示する地名などの文字列を含む場合の処理例を示す図である。原画像が写真であり、メタデータがその写真の撮影場所の住所や施設名などの文字列を含む場合の処理例を示す図である。原画像が道路案内標識の画像であり、メタデータがその道路案内標識の内容を示すテキストデータを含む場合の処理例を示す図である。原画像データが公開鍵で暗号化され、メタデータにその公開鍵が格納されている場合の処理例を示す図である。原画像が風景（landscape）写真であり、メタデータがその写真内の建造物等の位置情報等のオブジェクト情報を含む場合の処理例を示す図である。原画像が風景写真であり、メタデータがその写真内の建造物等の位置情報等のオブジェクト情報を含む場合の処理例を示す図である。

　以下、本発明に関連する画像再生技術について図１～図９、図１３～図１８を参照して説明し、本発明に係る画像データ改ざん検出装置、画像データ改ざん検出方法、および画像データのデータ構造の実施形態について、図１０～図１２を参照して説明する。図１～図９、図１３～図１８における画像再生処理はそれぞれ、図１０～図１２を参照して説明する画像データ改ざん検出と組み合わせて実施することができる。なお、本発明に係る画像データ改ざん検出装置、画像データ改ざん検出方法、および画像データのデータ構造は、ここで例示する実施の形態に限定されるものではない。説明は以下の順序で行う。
１．メタデータを格納した画像データの生成処理の概要
２．画像再生処理の一例
３．音声再生を伴う画像再生処理の一例
４．画像データ改ざん検出を伴う画像再生処理例
５．変形例

＜＜メタデータを格納した画像データの生成処理の概要＞＞
　図１は、メタデータを格納した画像データの生成処理の概要について示す図である。本実施の形態の情報処理装置１は、たとえば、ノートパソコンやデスクトップパソコン等の装置である。情報処理装置１は、メタデータを生成し、生成したメタデータを格納した画像データを生成する画像データ生成装置としての機能と、メタデータが格納された画像データから画像を再生することができる画像再生装置としての機能を有している。そのため、情報処理装置１には、画像データ生成装置として機能させるためのプログラムや、画像再生装置として機能させるためのプログラムが予めインストールされている。しかしながら、情報処理装置１は、画像データ生成装置としての機能または画像再生装置のいずれかの機能のみを有しているものであってもよい。

　情報処理装置１は、カメラにより撮像された原画像データ、あるいは、画像処理により作成された原画像データ（画像処理ソフトにより作成されたデータである、いわゆるアートワークも含む）を入力するとともに、原画像データの再生制御データを入力する。再生制御データは、たとえば、時刻情報と領域情報とを組みとするトリミング情報からなるデータである。領域情報は、原画像データ内のある領域を指定するための情報であって、たとえば、左上の座標、幅、高さからなる情報、あるいは、左上の座標、右下の座標からなる情報である。時刻情報は、原画像データの再生開始からの経過時刻（経過時間）を示す情報である。

　情報処理装置１は、入力された原画像データに対して所定の符号化処理を施すとともに、入力された再生制御データからメタデータを生成し、符号化されたデータと生成されたメタデータを有する画像データを生成する。

　図２は、画像データのフォーマット例を示す図である。図２に示すように、画像データＰは、SOI（Start of Image）、APP1（Application marker segment 1）、・・・APP11（Application marker segment 11）、原画像データ、およびEOI(End of Image)の領域からなる。本実施の形態の画像データＰは、たとえば、従来のJPEG（Joint Photographic Experts Group）規格の拡張機能である、JPEG XT Part3のボックスファイルフォーマットにより規定されており、自由記述できる拡張可能なボックスベースのファイル形式が指定される。

　SOIは、JPEGファイルの先頭にあり、JPEGファイルの起点を表すマーカである。このSOIが読み取られることで、JPEGファイルの判別が行われる。

　APP1には、画像に対する付属情報（Exif：Exchangeable image file format）が格納される。

　APP11には、JSON（JavaScript Object Notation）で記述されるJPEG XT Part3のボックスファイルフォーマットにより規定されるメタデータが格納される。さらに具体的に説明すると、APP11には、アプリケーションマーカセグメントの長さおよび複数のボックスデータが格納され、各ボックスデータには、ボックスの長さ（Box Length）、ボックスタイプ(Box Type)、メタデータタイプ(Metadata type)、スキーマID(Schema ID)、メタデータが格納される。図２の例では、JUMBF(0)のボックスデータには、メタデータタイプがMIME、スキーマIDがAPP/JSON、メタデータがJSONからなるデータが格納される。JUMBF(1)のボックスデータには、メタデータタイプがVender、スキーマIDがVender/XXX、メタデータがXXXデータからなるデータが格納される。

　原画像データとしては、JPEG形式の圧縮画像符号化データが格納される。

　EOIは、JPEGファイルの終わりを表すマーカである。

　図２に示したように、画像データＰのAPP11のボックスファイルデータ内に、JSONで記述できるメタデータを格納することにより、そこに指定されたデータを読み取ることで、画像の再生を管理することができる。

＜＜画像をトリミング表示する画像再生処理例（楽譜を用いた例）＞＞
　図３は、楽譜を再生経過時間に合わせてトリミング表示する例を示す図である。図３に示すように、画像データＰ１の原画像データには、１２小節の楽譜からなる画像符号化データが格納されている。画像データＰ１のAPP11の領域には、JSONで記述されたメタデータＭ１が格納されている。メタデータＭ１には、第１行目に「"clip”:［」、第２行目に「{」、第３行目に「"time”:0,」、第４行目に「"left”:10,」、第５行目に「"top”:60,」、第６行目に「"width”:400,」、第７行目に「"height”:100」、第８行目に「｝,」第９行目に「｛」、第１０行目に「"time”:16,」、第１１行目に「"left”:10,」、第１２行目に「"top”:160,」、第１３行目に「"width”:400,」、第１４行目に「"height”:100」、第１５行目に「｝,」、第ｎ行目に「］」が記述されている。

　「"clip”」は、トリミング機能（クリップ機能）を用いることを指示する情報である。「"time”」の後に記述される情報は、時刻情報を示し、「"left”」、「"top”」、「"width”」の後に記述される情報は、領域情報を示している。つまり、メタデータＭ１には、トリミング機能によって画像の所定位置をトリミングするための時刻情報と領域情報とを組みとするトリミング情報が記述されており、情報処理装置１は、このメタデータ（トリミング情報）Ｍ１を読み出すことで、画像データＰ１の再生開始からの経過時刻に応じて、時刻情報に紐付けられた領域情報に基づく所定領域をトリミングして順次表示させることができる。

　図３の例では、このようなメタデータＭ１が格納された画像データＰ１を表示させる際、表示開始時刻から最初の１６秒までの間は、左１０ピクセル、上６０ピクセルの位置から、高さ１００ピクセル、幅４００ピクセルの領域がトリミングされる。これにより、矢印Ａ１の先に示されるように、最初の４小節の領域Ｐ２がトリミング表示される。

　続いて、表示開始時刻から１６秒が経過してから３２秒までの間は、左１０ピクセル、上１６０ピクセルの位置から、高さ１００ピクセル、幅４００ピクセルの領域がトリミングされる。これにより、矢印Ａ２の先に示されるように、次の４小節の領域Ｐ３がトリミング表示される。

　以上のような画像データを経過時間に合わせてトリミング表示する動作の詳細についてはフローチャートを参照して後述する。

＜情報処理装置の構成例＞
　図４は、情報処理装置１のハードウェア構成例を示すブロック図である。情報処理装置１は、CPU（Central Processing Unit）１１、ROM（Read Only Memory）１２、RAM（Random Accedd Memory）１３、バス１４、入力部１５、出力部１６、記憶部１７、および通信部１８を有する。

　CPU１１、ROM１２、RAM１３は、バス１４により相互に接続される。バス１４には、入力部１５、出力部１６、記憶部１７、および通信部１８も接続される。

　入力部１５は、キーボードやマウス等の入力デバイスからなり、各種情報をバス１４を介してＣＰＵ１１に供給する。出力部１６は、ディスプレイやスピーカ等の出力デバイスからなり、ＣＰＵ１１の指示に従って画像を表示したり、音声を再生したりする。記憶部１７は、ハードディスクや不揮発性のメモリなどにより構成される。記憶部１７は、ＣＰＵ１１が実行するプログラムの他に、メタデータが格納された画像データなどの各種データを記憶する。通信部１８は、ネットワークインタフェースなどにより構成され、無線や有線による通信を介して、図示せぬ外部機器と通信を行う。

　図５は、画像をトリミングする画像再生処理例を実施するための情報処理装置１の機能ブロック構成例を情報処理装置１Aとして示す。この情報処理装置１Ａは、メタデータを生成し、生成したメタデータを格納した画像データを生成する画像データ生成装置３０、および、メタデータに基づいて画像を再生する画像再生装置４０から構成される。

　画像データ生成装置３０は、画像符号化部３１、メタデータ生成部３２、画像データ生成部３３、および記録制御部３４から構成される。

　画像符号化部３１は、カメラにより撮像された原画像データ、あるいは、画像処理により作成された原画像データを入力し、入力された原画像データをJPEG XT形式で符号化する。得られた画像符号化データは、画像データ生成部３３に供給される。

　メタデータ生成部３２は、時刻情報と領域情報とを組みとするトリミング情報からなる再生制御データを入力し、JSON で記述できるJPEG XT Part3のボックスファイルフォーマットにより規定されるメタデータを生成する。生成されたメタデータは、画像データ生成部３３に供給される。

　画像データ生成部３３は、画像符号化部３１から供給された画像符号化データと、メタデータ生成部３２から供給されたメタデータとを格納した画像データ（図２）を生成する。生成された画像データは、記録制御部３４に供給される。

　記録制御部３４は、画像データ生成部３３から供給された画像符号化データとメタデータを有する画像データを記憶部１７に供給し、そこへの記録を制御する。

　画像再生装置４０は、解析部４１、画像復号部４２、画像記憶部４３、画像トリミング部４４、および出力制御部４５から構成される。

　解析部４１は、入力部１５からの指示に基づいて、記憶部１７から画像データを取得し、取得した画像データに格納されているメタデータを解析するとともに、画像データに格納されているJPEG XT形式の画像符号化データを画像復号部４２に供給する。解析部４１は、図示せぬ内部タイマを起動し、内部タイマの計時時刻と、解析したメタデータに記述された時刻情報と領域情報とを組みとする複数のトリミング情報のうち、内部タイマの計時時刻に合致する時刻情報を有するトリミング情報に基づいて、画像トリミング部４４を制御する。つまり、解析部４１は、メタデータに記述された複数のトリミング情報に基づいて、画像記憶部４３に記憶されている画像データで示される画像のうち所定領域の画像を、所定のタイミングで順次トリミングさせるように、画像トリミング部４４を制御する。

　画像復号部４２は、解析部４１から供給されたJPEG XT形式の画像符号化データを復号する。得られた画像復号化データは、画像記憶部４３に供給され、そこに一時記憶される。

　画像トリミング部４４は、解析部４１の制御に基づいて、画像記憶部４３に記憶されている画像復号化データのうち、所定のタイミングで、所定領域の画像をトリミングし、トリミング画像に相当する復号化データを出力制御部４５に供給する。

　出力制御部４５は、画像トリミング部４４から供給された所定領域の画像の復号化データをディスプレイに出力（表示）する。

＜画像をトリミングする画像再生処理例における情報処理装置の動作＞
　図６のフローチャートを参照して、情報処理装置１Ａの画像トリミング表示処理について説明する。

　ステップＳ１において、解析部４１は、入力部１５からの指示に基づいて、記憶部１７から画像データを取得する。ステップＳ２において、解析部４１は、画像データに格納されているメタデータを解析するとともに、読み出した画像データに格納されているJPEG XT形式の画像符号化データを画像復号部４２に供給する。

　ステップＳ３において、画像復号部４２は、解析部４１から供給された画像符号化データを復号し、画像復号化データを得る。この画像復号化データは、画像記憶部４３に供給され、そこに一時記憶される。

　ステップＳ４において、解析部４１は、内部タイマを起動する。ステップＳ５において、解析部４１は、内部タイマの計時時刻と、解析したメタデータに記述された複数のトリミング情報のうち、内部タイマの計時時刻に合致する時刻情報を有するトリミング情報があるか否かを判定する。

　ステップＳ５において、解析部４１は、内部タイマの計時時刻に合致する時刻情報を有するトリミング情報があると判定した場合（ステップＳ５：ＹＥＳ）、内部タイマの計時時刻に合致する時刻情報を有するトリミング情報に基づいて、画像トリミング部４４を制御する。

　ステップＳ６において、画像トリミング部４４は、解析部４１の制御に基づいて、画像記憶部４３に記憶されている画像復号化データのうち、時刻情報に紐付けられた領域情報に基づく所定領域の画像に相当する画像復号化データを取り出し、出力制御部４５に供給する。

　ステップＳ７において、出力制御部４５は、画像トリミング部４４から供給された所定領域の画像に相当する画像復号化データをディスプレイに出力する。その後、処理はステップＳ５に戻り、内部タイマの計時時刻に合致する時刻情報を有するトリミング情報がないと判定されるまで、上述した処理を繰り返す。

　そして、ステップＳ５において、内部タイマの計時時刻に合致する時刻情報を有するトリミング情報がないと判定された場合（ステップＳ５：ＮＯ）、図６に示す画像トリミング表示処理を終了する。

　以上のように、図5に示す情報処理装置１Ａによれば、画像を符号化したデータと、時刻情報と領域情報とを組みとするトリミング情報を少なくとも含むメタデータを有する画像データを生成することにより、メタデータに記述された時刻情報に合致する表示タイミングになった際、その時刻情報に紐付けられた領域情報に基づいて、画像の所定領域のみをトリミングして順次表示させることができる。画像データに表示タイミングおよび管理データを内包することができるため、データ管理が単純となる。また、表示させたい画像領域や、その画像領域の再生タイミングについて、メタデータ内の情報を編集するだけでよく、特定の装置やソフトウエアを用いなくてもよいため容易に変更することができると共に、再生経過時刻に応じた表示を容易に行わせることができる。

　また、情報処理装置１Ａは、音声データ再生部をさらに備えるようにし、画像データに関連付けて音声データを記憶部１７に記憶させるようにしてもよい。このような構成によって、情報処理装置１Ａは、画像データを表示する際、画像データに関連付けられた音声データを再生することができる。たとえば、ピアノの楽譜データを表示させる際、その楽譜のガイドとなるピアノ演奏の音声データも同時に再生させることができる。これにより、ユーザは、ガイド演奏に従ってピアノ演奏を練習することができる。またたとえば、ピアノの楽譜データを表示させる際、その楽譜に基づくバイオリン演奏の音声データも同時に再生させることができる。これにより、ユーザは、ピアノ演奏するだけで、バイオリン演奏との二重奏を楽しむことができる。

　また以上において、情報処理装置１Ａは、時刻情報と領域情報とを組みとするトリミング情報を少なくとも含むメタデータに、さらに、アニメーション情報を記述するようにしてもよい。このような構成によって、情報処理装置１Ａは、画像データを表示する際、画像データに関連付けられたアニメーション情報に基づく画像も同時に表示させることができる。たとえば、ピアノの楽譜データの所定領域を表示させる際、その楽譜のピアノ演奏のガイド機能（次に弾く鍵盤の場所を教えてくれるアニメーション）の画像を重畳表示させることができる。これにより、ユーザは、ガイド機能に従ってピアノ演奏を練習することができる。

＜＜音声再生を伴う画像再生処理例（歌詞データを用いた例）＞＞
　図７は、歌詞データを音声データの再生経過時間に合わせてテロップ表示する例を示す図である。図７に示すように、画像データＰ１１の原画像データには、アートワークからなる画像符号化データが格納されている。画像データＰ１１のAPP11の領域には、JSONで記述されたメタデータＭ１１が格納されている。メタデータＭ１１には、第１行目に「"lyrics”:［」、第２行目に「{」、第３行目に「"time”:58」、第４行目に「"text”: "ああ金沢はー”」、第５行目に「｝,」第６行目に「｛」、第７行目に「"time”:65」、第８行目に「"text”: "今日も雪だったー”」、第９行目に「｝,」、第ｎ行目に「］」が記述されている。

　「"lyrics”」は、歌詞表示機能を用いることを指示する情報である。「"time”」の後に記述される情報は、時刻情報を示し、「"text”」の後に記述される情報は、テキストデータを示している。つまり、メタデータＭ１１には、歌詞表示機能によって歌詞表示するための時刻情報とテキストデータとを組みとするテロップ情報が記述されており、情報処理装置１は、メタデータＭ１１が格納された画像データＰ１１を埋め込んだ音声データを生成することで、音声データを再生する際、音声データに埋め込まれた画像データＰ１１を取得し、取得した画像データＰ１１に格納されたメタデータ（テロップ情報）Ｍ１１を読み出すことで、音声データの再生開始からの経過時刻に応じて、時刻情報に紐付けられたテキストデータに基づくテロップを順次表示させることができる。

　図７の例では、このようなメタデータＭ１１が格納された画像データＰ１１が埋め込まれた音声データを再生させる際、再生開始時刻から５８秒が経過して６５秒までの間は、「ああ金沢はー」が読み出される。これにより、矢印Ａ１１の先に示されるように、画像Ｐ１２に重畳して「ああ金沢はー」のテキストがテロップ表示される。

　続いて、再生開始時刻から６５秒が経過してから次の時刻情報までの間は、「今日も雪だったー」が読み出される。これにより、矢印Ａ１２の先に示されるように、画像Ｐ１３に重畳して「今日も雪だったー」のテキストがテロップ表示される。

　以上のような音声データの再生経過時間に合わせてテロップ表示する動作の詳細についてはフローチャートを参照して後述する。

＜音声再生を伴う画像再生処理例を実行する情報処理装置の機能構成例＞
　以上の音声再生を伴う画像再生処理例を実施する情報処理装置のハードウェア構成としては、図４に示したものを用いることができ、その説明は省略する。図８は、音声再生を伴う画像再生処理例を実施するための情報処理装置１の機能ブロック構成例を、情報処理装置１Ｂとして示す。この情報処理装置１Ｂは、メタデータを生成し、生成したメタデータを格納した画像データを生成し、生成した画像データを埋め込んだ音声データを生成するデータ生成装置５０、および、音声データから音声を再生するとともにメタデータに基づいて画像データから画像を再生する音声画像再生装置（Audiovisual Player）６０から構成される。

　データ生成装置５０は、画像符号化部５１、メタデータ生成部５２、データ生成部５３、および記録制御部５４から構成される。

　画像符号化部５１は、カメラにより撮像された原画像データ、あるいは、画像処理により作成された原画像データを入力し、入力された原画像データに対して、JPEG XT形式で画像符号化する。符号化されたデータは、データ生成部５３に供給される。

　メタデータ生成部５２は、時刻情報とテキストデータとを組みとするテロップ情報からなる再生制御データを入力し、JSON で記述できるJPEG XT Part3のボックスファイルフォーマットにより規定されるメタデータを生成する。生成されたメタデータは、データ生成部５３に供給される。

　データ生成部５３は、画像符号化部５１から供給された符号化されたデータと、メタデータ生成部５２から供給されたメタデータとを格納した画像データ（図２）を生成する。データ生成部５３は、外部から音声データを入力し、入力した音声データに、メタデータが格納された画像データを埋め込み、それを記録制御部５４に供給する。

　記録制御部５４は、データ生成部５３から供給された、画像符号化データとメタデータを有する画像データが埋め込まれた音声データを記憶部１７に供給し、そこへの記録を制御する。

　音声画像再生装置６０は、解析部６１、画像復号部６２、テキスト描画部６３、および出力制御部６４から構成される。

　解析部６１は、入力部１５からの指示に基づいて、記憶部１７から音声データを取得し、取得した音声データを出力制御部６４に供給するとともに、取得した音声データに埋め込まれている画像データを取得し、取得した画像データに格納されているメタデータを解析する。解析によって、画像データに格納されているJPEG XT形式の画像符号化データが画像復号部６２に供給される。

　また、解析部６１は、図示せぬ内部タイマを起動し、内部タイマの計時時刻と、解析したメタデータに記述された時刻情報とテキストデータとを組みとする複数のテロップ情報のうち、内部タイマの計時時刻に合致する時刻情報を有するテロップ情報に基づいて、テキスト描画部６３を制御する。つまり、解析部６１は、メタデータに記述された複数のテロップ情報に基づいて、所定のタイミングでテキストデータを順次画像化させるように、テキスト描画部６３を制御する。

　画像復号部６２は、解析部６１から供給されたJPEG XT形式の画像符号化データを復号する。復号された画像データは、出力制御部６４に供給される。

　テキスト描画部６３は、解析部６１の制御に基づいて、所定のタイミングで、解析部６１から供給されたテキストデータを画像データ化して出力制御部６４に供給する。

　出力制御部６４は、解析部６１から供給された音声データに基づく音声をスピーカに出力して再生させるとともに、画像復号部６２から供給された画像データに、テキスト描画部６３から供給された画像データを重畳して、ディスプレイに出力（表示）する。

＜音声再生を伴う画像再生処理例における情報処理装置の動作＞
　図９のフローチャートを参照して、情報処理装置１Ｂのテロップ表示処理について説明する。

　ステップＳ１１において、解析部６１は、入力部１５からの指示に基づいて、記憶部１７から音声データを取得する。ステップＳ１２において、解析部６１は、音声データに埋め込まれている画像データのメタデータを解析する。取得した音声データは、出力制御部６４に供給され、解析されたメタデータに格納されているJPEG XT形式の画像符号化データは、画像復号部５２に供給される。

　ステップＳ１３において、画像復号部６２は、解析部６１から供給されたJPEG XT形式の画像符号化データを復号して画像復号化データを生成し、出力制御部６４に供給する。ステップＳ１４において、出力制御部６４は、音声データに基づく音声をスピーカに出力して再生させる。

　ステップＳ１５において、解析部６１は、内部タイマを起動する。ステップＳ１６において、解析部６１は、内部タイマの計時時刻と、解析したメタデータに記述された複数のテロップ情報のうち、内部タイマの計時時刻に合致する時刻情報を有するテロップ情報があるか否かを判定する。

　ステップＳ１６において、解析部６１は、内部タイマの計時時刻に合致する時刻情報を有するテロップ情報があると判定した場合（ステップＳ１６：ＹＥＳ）、内部タイマの計時時刻に合致する時刻情報を有するテロップ情報に基づいて、テキスト描画部６３を制御する。

　ステップＳ１７において、テキスト描画部６３は、解析部６１の制御に基づいて、時刻情報に紐付けられたテキストデータを画像データ化し、出力制御部６４に供給する。

　ステップＳ１８において、出力制御部６４は、画像復号部６２から供給された画像データに、テキスト描画部６３から供給されたテキスト画像データを重畳して、ディスプレイ出力する。その後、処理はステップＳ１６に戻り、内部タイマの計時時刻に合致する時刻情報を有するテロップ情報がないと判定されるまで、上述した処理を繰り返す。

　そして、ステップＳ１６において、内部タイマの計時時刻に合致する時刻情報を有するテロップ情報がないと判定された場合（ステップＳ１６：ＮＯ）、図９に示すテロップ表示処理を終了する。

　以上のように、符号化されたデータと、時刻情報とテキストデータとを組みとするテロップ情報を少なくとも含むメタデータを有する画像データを埋め込んだ音声データを生成することにより、音声データを再生する際、音声データに埋め込まれた画像データのメタデータに記述された時刻情報に合致する表示タイミングになった際、その時刻情報に紐付けられたテキストデータを画像データ化し、得られたテキスト画像データを画像データに重畳してテロップ表示させることができるので、音声データの再生経過時刻に応じた画像の表示を容易に行うことができる。また、たとえば、上述した画像データ、音声データ、テキストデータを一つの音楽ファイルとして管理することが可能となるため、データの取扱いが容易となる。また、テロップ情報をテキストデータで格納しているため、テロップ時刻情報の編集も容易となる。

　また以上において、情報処理装置１Ｂは、時刻情報とテキストデータとを組とするテロップ情報を少なくとも含むメタデータに、さらに、テキストの色情報、フォント情報、陰影の有無を示す情報、および背景色情報などを記述するようにしてもよい。このような構成によって、情報処理装置１Ｂは、テロップ表示をする際、単調なテロップから視覚的にも楽しめるテロップを表示させることができる。

＜＜改ざん検出を伴う画像再生処理例＞＞
　図１０は、本発明の実施形態を示す図であり、メタデータに改ざん検出データが記述された画像データの例を示す図である。図１０に示すように、画像データＰ２１の原画像データには、写真を原画像とする画像符号化データが格納されている。画像データＰ２１のAPP11の領域には、JSONで記述されたメタデータＭ２１が格納されている。メタデータＭ２１には、ハッシュ値Ａ、ハッシュ値Ｂ、およびスクリプトが記述されている。ハッシュ値Ａは、Seedデータを引数としてスクリプトを実行することで得られる値である。Seedデータは、画像データＰ２１の所定領域に予め埋め込まれているデータ（パラメータ）である。ハッシュ値Ｂは、スクリプトのプログラム文字列を引数としてスクリプトを実行することで得られる値である。スクリプトは、ハッシュ値を算出するためのハッシュ関数（プログラム）である。つまり、メタデータＭ２１には、改ざんを検出するためのデータが記述されており、情報処理装置１は、このメタデータ（改ざん検出データ）Ｍ２１を読み出してスクリプトを実行することで、画像データＰ２１の改ざんを検出することができる。

　以上のような改ざん検出データを読み出して実行する動作の詳細についてはフローチャートを参照して後述する。

＜改ざん検出を伴う画像再生処理例を実行する情報処理装置の機能構成例＞
　改ざん検出を伴う画像再生処理例を実施する情報処理装置のハードウェア構成としては、図４に示したものを用いることができ、その説明は省略する。図１１は、改ざん検出を伴う画像再生処理例を実施するための情報処理装置１の機能ブロック構成例を、情報処理装置１Ｃとして示す。図１１に示す構成のうち、図５の構成と同じ構成については同じ符号を付してあり、重複する説明は適宜省略する。情報処理装置１Ｃは、メタデータを生成し、生成したメタデータを格納した画像データを生成する画像データ生成装置３０、および、メタデータが格納された画像データが改ざんされているか否かを検出し、改ざんされていない場合に画像データを再生する画像データ改ざん検出装置７０から構成される。

　メタデータ生成部３２は、改ざんを検出するためのハッシュ値Ａ、ハッシュ値Ｂ、およびスクリプトからなる再生制御データを入力し、JSONで記述できるJPEG XT Part3のボックスファイルフォーマットにより規定されるメタデータを生成する。生成されたメタデータは、画像データ生成部３３に供給される。

　画像データ改ざん検出装置７０は、解析部７１、比較部７２、改ざん検出部７３、画像復号部７４、および出力制御部７５から構成される。

　解析部７１は、入力部１５からの指示に基づいて、記憶部１７から画像データを取得し、取得した画像データに格納されているメタデータを解析し、メタデータに記述された改ざん検出データ（ハッシュ値Ａ、ハッシュ値Ｂ、スクリプト）を比較部７２に供給するとともに、画像データに格納されているJPEG XT画像形式の符号化データを画像復号部７４に供給する。解析部７１は、画像データに埋め込まれているSeedデータを所定の方法で読み出し、それも比較部７２に供給する。

　比較部７２は、解析部７１から供給された改ざん検出データに含まれるスクリプトとSeedデータに基づいてハッシュ値Ａ´を算出し、算出したハッシュ値Ａ´とメタデータ（改ざん検出データ）に記述されたハッシュ値Ａとを比較する。また比較部７２は、改ざん検出データに含まれるスクリプトのプログラム文字列に基づいてハッシュ値Ｂ´を算出し、算出したハッシュ値Ｂ´とメタデータ（改ざん検出データ）に記述されたハッシュ値Ｂとを比較する。比較結果は、改ざん検出部７３に供給される。

　改ざん検出部７３は、比較部７２の２つの比較結果に基づいて、画像データが改ざんされているか否かを検出し、画像データが改ざんされていない（ハッシュ値Ａおよびハッシュ値Ｂともに正しい）と判断した場合には画像復号部７４の復号処理を実行させ、画像データが改ざんされている（ハッシュ値Ａおよびハッシュ値Ｂのいずれか一方または両方が正しくない）ことを検出した場合には、画像復号部７４の復号処理を禁止させる。

　画像復号部７４は、改ざん検出部７３の制御に基づいて、復号処理の実行が指示された場合には、解析部７１から供給されたJPEG XT形式の画像符号化データを復号し、画像復号化データとして出力制御部７５に供給する。画像復号部７４は、改ざん検出部７３の制御に基づいて、復号処理が禁止された場合には、解析部７１から供給されたJPEG XT形式の画像符号化データを復号せずに、出力制御部７５に供給する。

　出力制御部７５は、画像復号部７４から供給されたデータをディスプレイに出力（表示）する。

＜改ざん検出を伴う画像再生処理例における情報処理装置の動作＞
　図１２のフローチャートを参照して、以上のような構成を有する改ざん検出を伴う画像再生処理例における情報処理装置１Ｃの改ざん検出処理について説明する。

　ステップＳ２１において、解析部７１は、入力部１５からの指示に基づいて、記憶部１７から画像データを取得する。ステップＳ２２において、解析部７１は、画像データに格納されているメタデータを解析し、メタデータに記述された改ざん検出データ（ハッシュ値Ａ、ハッシュ値Ｂ、およびスクリプト）を比較部７２に供給するとともに、読み出した画像データに格納されているJPEG XT形式の画像符号化データを画像復号部７４に供給する。また解析部７１は、画像データに埋め込まれたSeedデータを所定の方法で読み出し、比較部７２に供給する。

　ステップＳ２３において、比較部７２は、解析部７１から供給されたSeedデータを引数としてメタデータ（改ざん検出データ）に記述されたスクリプトを実行し、ハッシュ値Ａ´を算出する。ステップＳ２４において、比較部７２は、メタデータ（改ざん検出データ）に記述されたハッシュ値Ａと算出したハッシュ値Ａ´とを比較する。

　ステップＳ２５において、比較部７２は、メタデータ（改ざん検出データ）に記述されたスクリプトのプログラム文字列を引数としてスクリプトを実行し、ハッシュ値Ｂ´を算出する。ステップＳ２６において、比較部７２は、メタデータ（改ざん検出データ）に記述されたハッシュ値Ｂと算出したハッシュ値Ｂ´とを比較する。ステップＳ２４およびステップＳ２６による比較結果は、改ざん検出部７３に供給される。

　ステップＳ２７において、改ざん検出部７３は、２つの比較結果から画像データが改ざんされているか否かを判定し、いずれか１つまたは両方の比較結果が異なる場合、画像データは改ざんされていると判定し（ステップＳ２７：ＹＥＳ）、ステップＳ２８において、画像復号部７４の復号処理を禁止させる。これにより、画像復号部７４は、解析部７１から供給されたJPEG XT形式の画像符号化データを復号せずに、出力制御部７５に供給する。出力制御部７５は、画像復号部７４から供給されたデータをディスプレイに出力（表示）する。

　ステップＳ２７において、改ざん検出部７３は、２つの比較結果がいずれも同一である場合、画像データは改ざんされていないと判定し（ステップＳ２７：ＮＯ）、ステップＳ２９において、画像復号部７４の復号処理を実行させる。画像復号部７４は、解析部７１から供給されたJPEG XT形式の画像符号化データを復号し、画像復号化データとして出力制御部７５に供給する。出力制御部７５は、画像復号部７４から供給された画像復号化データをディスプレイに出力（表示）する。

　以上のように、符号化されたデータと、改ざん検出データとを少なくとも含むメタデータを有する画像データを生成することにより、メタデータに記述された改ざん検出データを読み出してスクリプトを実行することで、画像データが改ざんされているか否かを容易に検出することができる。そして、画像データが改ざんされていると判定された場合には、復号処理を禁止させることができる。これにより、従来のハッシュ値を用いた改ざん検知方法と比較すると、ハッシュ値を算出するためのスクリプトが画像データと共に送られてくるため、改ざんの検知自体が容易に行うことができるようになる上に、改ざんを試みようとする場合には、画像データ毎にハッシュ値算出方法を変えることができるので、一意に改ざんをすることは困難であるため、改ざん手法の確立ができなくなる。また、自分以外のデータ提供者が生成した画像データについても容易に改ざんの検証をすることができるようになる。

　以上においては、Seedデータは、画像データＰ２１の所定領域に予め埋め込まれているものとしたが、これに限らず、データを扱う規格等で統一するようにしてもよいし、あるいは、メタデータに格納させるようにしてもよい。

　また、ステップＳ２５において算出されるハッシュ値Ｂ´は、スクリプトのプログラム文字列を引数としてスクリプトを実行することで得られるものとしたが、スクリプトのプログラム文字列とSeedデータを引数としてスクリプトを実行することで得られるものであってもよい。

＜＜変形例＞＞
＜変形例１＞
　情報処理装置１Ａ，１Ｂ，１Ｃは、画像符号化データと、地図上の位置情報や設定言語に従って選択表示する地名などの文字列を含むメタデータを有する画像データを生成するようにしてもよい。これにより、情報処理装置１Ａ，１Ｂ，１Ｃは、画像データに基づいて画像を表示する際、その画像データに格納されたメタデータのうち、情報処理装置１Ａ，１Ｂ，１Ｃで設定された言語に紐付けられた文字列を取得し、取得した文字列を所定位置に重畳表示させることができる。

　図１３は、画像符号化データに加え、地図上の位置や設定言語に従って選択表示する地名などの文字列を含むメタデータを有する画像データの利用例を示す図である。

　図１３に示すように、画像データＰ３１には、その原画像データに、日本地図の原画像が符号化された画像符号化データが格納されている。画像データＰ３１のAPP11の領域には、JSONで記述されたメタデータＭ３１が格納されている。メタデータＭ３１には、第１行目に「"point”:{」、第２行目に「"Sapporo”:{」、第３行目に「"x”:560,」、第４行目に「"y”:80,」、第５行目に「"name”:{」、第６行目に「"en-US”: "Sapporo”,」、第７行目に「"ja-JP”: "札幌”」、第８行目に「｝」、第９行目に「｝,」第１０行目に「"Tokyo”:{」、第１１行目に「"x”:600,」、第１２行目に「"y”:600,」、第１３行目に「"name”:{」、第１４行目に「"en-US”: "Tokyo”,」、第１５行目に「"ja-JP”: "東京”」、第１６行目に「｝」、第１７行目に「｝,」第１８行目に「"Naha”:{」、第１９行目に「"x”:200,」、第２０行目に「"y”:1100,」、第２１行目に「"name”:{」、第２２行目に「"en-US”: "Naha”,」、第２３行目に「"ja-JP”: "那覇”」、第２４行目に「｝」、第２５行目に「｝,」、第２６行目に「｝」が記述されている。

　「"point”」は、画面上の特定の位置を指し示す機能を用いることを指示する情報である。「"Sapporo”」、「"Tokyo”」、「"Naha”」の「"x”」、「"y”」の後に記述される情報は、地図上におけるそれぞれの地名（位置）の座標情報を示している。「"name”」の後に記述される情報は、言語を示し、「" en-US”」の後に記述される情報は、その言語が設定された際に表示させる地名を示し、「"ja-JP”」の後に記述される情報は、その言語が設定された際に表示させる地名（文字列）を示している。つまり、メタデータＭ３１には、画面上の特定の位置を指し示す機能によって所定言語で地名表示するための座標情報と設定言語と地名とを組みとする地名情報が記述されており、情報処理装置１Ａ，１Ｂ,１Ｃは、画像データを表示する際に、このメタデータ（地名情報）を読み出すことで、端末に設定されている所定の言語に応じた地名を、所定の位置に重畳表示させることができる。

　図１３の例では、このようなメタデータＭ３１が格納された画像データＰ３１に基づいて画像を表示させる際、情報処理装置１Ａ，１Ｂ,１Ｃの言語が日本語に設定されている場合には、メタデータＭ３１の「"ja-JP”」の後に続く地名の日本語表記（札幌、東京、那覇）が読み出される。これにより、情報処理装置１Ａ，１Ｂ,１Ｃは、矢印Ａ３１の先に示されるように、日本地図表示Ｐ３２上において、所定の位置に、日本語で地名を重畳表示させる。また、情報処理装置１Ａ，１Ｂ,１Ｃの言語が英語に設定されている場合には、メタデータＭ３１の「" en-US”」の後に続く地名（Sapporo,Tokyo,Naha）が読み出される。これにより、情報処理装置１Ａ，１Ｂ,１Ｃは、矢印Ａ３２の先に示されるように、日本地図表示Ｐ３３上において、所定の位置に、英語で地名を重畳表示させる。

　このように、変形例１によれば、画像符号化データと、地図上の位置情報や設定言語に従って選択表示させる地名などの文字列を含むメタデータを有する画像データを生成することにより、この画像データに基づいて画像を表示させる際、メタデータに記述された地名情報に基づいて、情報処理装置１Ａ，１Ｂ,１Ｃに設定された言語に紐付けられた地名を所定位置に重畳表示させることができる。

＜変形例２＞
　情報処理装置１Ａ，１Ｂ,１Ｃは、画像符号化データと、その画像の撮影場所の住所や施設名などの文字列を含むメタデータを有する画像データを生成するようにしてもよい。これにより、情報処理装置１Ａ，１Ｂ,１Ｃは、画像を表示する際、画像データに格納されたメタデータの文字列を取得し、取得した文字列を画像に重畳表示させることができる。また情報処理装置１Ａ，１Ｂ,１Ｃは、画像データに格納されたメタデータの文字列を検索キーとして画像検索したりすることもできる。

　図１４は、画像符号化データに加え、画像の撮影場所の住所や施設名などの文字列を含むメタデータを有する画像データの利用例を示す図である。

　図１４に示すように、画像データＰ４１の原画像データには、沖縄で撮像された写真が、符号化されて画像符号化データとして格納されている。画像データＰ４１のAPP11の領域には、JSONで記述されたメタデータＭ４１が格納されている。メタデータＭ４１には、第１行目に「"location”:{」、第２行目に「"address”: "沖縄県那覇市首里金城町１丁目２”」、第３行目に「｝」が記述されている。

　「"location”」は、現在位置を特定してサービスと連携させることができる機能を用いることを指示する情報である。「"address”」の後に記述される情報は、撮影場所の住所を示している。つまり、メタデータＭ４１には、撮影場所の住所を示す情報が記述されており、情報処理装置１Ａ，１Ｂ,１Ｃは、画像を表示する際に、このメタデータを読み出すことで、メタデータに記述された撮影場所の住所を示す情報を重畳表示させることができる。

　図１４の例では、このようなメタデータＭ４１が格納された画像データＰ４１に基づいて画像を表示させる際、メタデータＭ４１の「"address”」の後に続く文字列（沖縄県那覇市首里金城町１丁目２）が読み出される。これにより、情報処理装置１Ａ，１Ｂ,１Ｃは、矢印Ａ４１の先に示されるように、画像表示Ｐ４２上に、撮影場所である住所を重畳表示させる。

　また、情報処理装置１Ａ，１Ｂ,１Ｃは、このようなメタデータＭ４１が格納された画像データＰ４１を、矢印Ａ４２の先に示されるように、図示せぬネットワークを介して接続されたデータベース（ＤＢ）１０１に供給し、そこで管理させることもできる。これにより、情報処理装置１Ａ，１Ｂ,１Ｃは、「沖縄」を検索キーとして画像検索すると、データベース１０１で管理されている複数の画像データの中から、メタデータＭ４１に「沖縄」を含む画像データを検索することができる。そして、情報処理装置１Ａ，１Ｂ,１Ｃは、矢印Ａ４３の先に示されるように、検索された複数の画像データのサムネイル画像からなる画像リストＰ４３を表示させることができる。

　このように、変形例２によれば、画像符号化データと、撮影場所の住所や施設名などの文字列を含むメタデータとを有する画像データを生成することで、画像を表示させる際、画像データに格納された撮影場所の住所や施設名などを重畳表示させることができる。また、生成された画像データをデータベースで管理させるようにすることで、検索キーを指定すると、検索キーを含むメタデータが格納された画像データを容易に検索することもできる。

＜変形例３＞
　情報処理装置１Ａ，１Ｂ,１Ｃは、画像符号化データに加え、この画像符号化データの内容を示すテキストデータを含むメタデータを有する画像データを生成するようにしてもよい。これにより、情報処理装置１Ａ，１Ｂ,１Ｃは、画像データに基づいて画像を表示する際、その画像データに格納されたメタデータのテキストデータを取得し、取得したテキストデータをテキスト読み上げ機能によって音声に変換し、変換した音声を再生させることができる。

　図１５は、画像符号化データに加え、画像符号化データの内容を示すテキストデータを含むメタデータを有する画像データの利用例を示す図である。

　図１５に示すように、画像データＰ５１の原画像データには、カーナビゲーションシステムで表示されるナビゲーション画像のデータが、画像符号化データとして格納されている。画像データＰ５１のAPP11の領域には、JSONで記述されたメタデータＭ５１が格納されている。メタデータＭ５１には、第１行目に「"tts”:{」、第２行目に「"lang”: "ja-JP”,」、第３、第４行目に「"text”: "徳島本町方面、渋滞中。徳島本町まで約２０分かかります。”」、第５行目に「｝」が記述されている。

　「"tts”」は、ttｓ(text-to speech)システムと呼ばれるテキスト読み上げ機能を用いることを指示する情報である。「"lang”」の後に記述される情報は、テキスト読み上げ機能を用いる際に指定される言語を示している。「"text”」の後に記述される情報は、ttsシステムを用いる際に読み上げられるテキストデータを示している。つまり、メタデータＭ５１には、テキスト読み上げ機能によって日本語で読み上げるためのテキストデータが記述されており、情報処理装置１Ａ，１Ｂ,１Ｃは、画像データを表示する際に、このメタデータを読み出すことで、メタデータに記述されたテキストデータに基づく音声を再生させることができる。

　図１５の例では、このようなメタデータＭ５１が格納された画像データＰ５１に基づいて画像を表示させる際、メタデータＭ５１の「"text”」の後に続くテキストデータ（徳島本町方面、渋滞中。徳島本町まで約２０分かかります。）が読み出される。これにより、情報処理装置１Ａ，１Ｂ,１Ｃは、矢印Ａ５１の先に示されるように、画像Ｐ５２を表示させるとともに、テキスト読み上げ機能を用いて、吹き出しＳ５１に示すようなテキストに基づく音声を再生させる（読み上げる）。

　このように、変形例３によれば、画像符号化データと、画像符号化データの内容を示すテキストデータを含むメタデータとを有する画像データを生成することで、画像データに基づき画像を表示させる際、画像データに格納されたテキストデータに基づく音声を再生させることができる。

＜変形例４＞
　情報処理装置１Ａ，１Ｂ,１Ｃは、公開鍵により暗号化された画像符号化データと、その公開鍵を格納したメタデータとを有する画像データを生成するようにしてもよい。これにより、情報処理装置１Ａ，１Ｂ,１Ｃは、画像を表示する際、画像データに格納されたメタデータの公開鍵を取得し、取得した公開鍵にリンクする秘密鍵を有する場合のみ、画像符号化データを復号して表示させることができる。

　図１６は、公開鍵により暗号化された画像符号化データと、その公開鍵を格納したメタデータとを有する画像データの利用例を示す図である。

　図１６に示すように、画像データＰ６１の原画像データには、公開鍵で暗号化された画像符号化データが格納されている。画像データＰ６１のAPP11の領域には、JSONで記述されたメタデータＭ６１が格納されている。また画像データＰ６１のAPP1（Exif）の領域には、平文のままのサムネイル画像Ｐ６１ａも格納されている。メタデータＭ６１には、第１行目に「"encrypt”:{」、第２行目に「"OID”: "1.2.840.10045.2.1”,」、第３行目に「"public_key”: "04FC2E8B81DD...”」、第４行目に「｝」が記述されている。

　「" encrypt”」は、暗号化機能を用いることを指示する情報である。「"OID”」の後に記述される情報は、オブジェクトを識別する情報を示し、「" public_key”」の後に記述される情報は、公開鍵を示している。つまり、メタデータＭ６１には、画像符号化データの暗号化に用いられた公開鍵が記述されており、情報処理装置１Ａ，１Ｂ,１Ｃは、画像を表示する際に、このメタデータを読み出すことで、メタデータに記述された公開鍵にリンクする秘密鍵を有する場合のみ、画像データＰ６１内の画像符号化データを復号して表示させることができる。

　図１６の例では、このようなメタデータＭ６１が格納された画像データＰ６１に基づき画像を表示させる際、メタデータＭ６１の「" public_key”」の後に続く公開鍵（04FC2E8B81DD...）が読み出される。これにより、情報処理装置１Ａ，１Ｂ,１Ｃは、読み出した公開鍵にリンクする秘密鍵１１１を有する場合、その秘密鍵１１１を用いて画像データＰ６１内の画像符号化データを復号（解読）し、矢印Ａ６１の先に示されるように、画像Ｐ６２を表示させる。

　また、情報処理装置１Ａ，１Ｂ,１Ｃは、メタデータＭ６１から読み出した公開鍵にリンクする秘密鍵１１１を有していない場合には、画像データＰ６１内の画像符号化データを復号することができず、矢印Ａ６２の先に示されるように、暗号化されたままのデータＰ６３を表示させる。

　このように、変形例４によれば、公開鍵により暗号化された画像符号化データと、その公開鍵を格納したメタデータとを有する画像データを生成することで、画像を表示させる際、画像データに格納されたメタデータの公開鍵にリンクする秘密鍵を有する場合のみ、暗号化された画像符号化データを復号して表示させることができる。

＜変形例５＞
　情報処理装置１Ａ，１Ｂ,１Ｃは、画像符号化データと、原画像の撮影位置、方向、および画角と地図情報に基づいて識別したオブジェクト（施設等）情報を含むメタデータとを有する画像データを生成するようにしてもよい。これにより、情報処理装置１Ａ，１Ｂ,１Ｃは、画像データに格納されたメタデータのオブジェクト情報を検索キーとして画像検索したりすることができる。

　図１７および図１８は、画像符号化データと、原画像の撮影位置、方向、および画角と地図情報に基づいて識別したオブジェクト情報を含むメタデータとを有する画像データの利用例を示す図である。

　図１７に示すように、画像データＰ７１および画像データＰ７２の原画像データにはそれぞれ、緯度35.65851、経度139.745433の位置にある東京タワーを撮影した画像が、符号化されて画像符号化データとして格納されている。画像データＰ７１のAPP1（Exif）の領域には、緯度35.6591、経度139.741969、方位Ｎ90°のExif情報が格納されている。画像データＰ７２のAPP1（Exif）の領域には、緯度35.65851、経度139.745433、方位Ｎ315°のExif情報が格納されている。

　情報処理装置１Ａ，１Ｂ,１Ｃの演算部１１２は、画像データＰ７１を入力し、図示せぬネットワークを介して接続されたMapデータベース１１１を参照し、画像データＰ７１に格納されているExif情報に関連するオブジェクト情報を取得する。演算部１１２は、Mapデータベース１１１から取得したオブジェクト情報に基づいて、矢印Ａ７１の先に示されように、JSONで記述したメタデータＭ７１を生成する。

　情報処理装置１Ａ，１Ｂ,１Ｃの演算部１１３は、画像データＰ７２を入力し、図示せぬネットワークを介して接続されたMapデータベース１１１を参照し、画像データＰ７２に格納されているExif情報に関連するオブジェクト情報を取得する。演算部１１３は、Mapデータベース１１１から取得したオブジェクト情報に基づいて、矢印Ａ７２の先に示されるように、JSONで記述したメタデータＭ７２を生成する。

　メタデータＭ７１、Ｍ７２には、第１行目に「"objects”:[」、第2行目に「｛」、第３行目に「"name”: "東京タワー”,」、第ｎ－１行目に「｝」、第ｎ行目に「]」が記述されている。「"objects”」の後に記述される情報は、オブジェクト情報を示している。つまり、メタデータＭ７１、Ｍ７２には、撮影位置に関連するオブジェクト情報が記述されている。

　情報処理装置１Ａ，１Ｂ,１Ｃは、生成したメタデータＭ７１を画像データＰ７１のAPP11の領域に格納し、生成したメタデータＭ７２を画像データＰ７２のAPP11の領域に格納する。

　情報処理装置１Ａ，１Ｂ,１Ｃは、メタデータＭ７１が格納された画像データＰ７１、メタデータＭ７２が格納された画像データＰ７２を、図１８の矢印Ａ８１の先に示されるように、図示せぬネットワークを介して接続されたオブジェクトデータベース１２１に供給し、そこで管理させることができる。これにより、情報処理装置１Ａ，１Ｂ,１Ｃは、「東京タワー」を検索キーとして画像検索すると、データベース１２１で管理されている複数の画像データの中から、メタデータＭ７１、Ｍ７２に「東京タワー」を含む画像データＰ７１、Ｐ７２を検索することができる。そして、情報処理装置１Ａ，１Ｂ,１Ｃは、矢印Ａ８２の先に示されるように、検索された複数の画像データのサムネイル画像からなる画像リストＰ８１を表示させることができる。

　このように、変形例５によれば、符号化されたデータと、画像データの撮影位置、方向、および画角と地図情報に基づいて識別したオブジェクト情報を含むメタデータを有する画像データを生成し、生成された画像データをデータベースで管理することで、検索キーを指定すると、検索キーを含むメタデータが格納された画像データを容易に検索することができる。

　以上、本発明の実施の形態について説明したが、本発明は、上述した実施の形態に限定されるものではなく、本発明の要旨を逸脱しない範囲において種々の変更が可能である。たとえば、画像をトリミングする画像再生処理例で説明したメタデータは、時刻情報及び領域情報を記述するものであり、音声画像再生処理例で説明したメタデータは、時刻情報およびテキストデータを記述するものであり、改ざん検出を伴う画像再生処理例で説明したメタデータは、改ざん検出データを記述するものであるが、たとえば、時刻情報、領域情報、およびテキスト情報を記述したメタデータを生成することも可能である。このような構成によって、メタデータに記述された時刻情報に合致する表示タイミングになった際、その時刻情報に紐付けられた領域情報に基づいて、画像データの所定領域のみをトリミングして表示させ、さらに、その時刻情報に紐付けられたテキストデータを画像化し、画像化したテキスト画像を画像データに重畳してテロップ表示させることができる。

　また、時刻情報、領域情報、および改ざん検出データを記述したメタデータ、時刻情報、テキストデータ、および改ざん検出データを記述したメタデータ、時刻情報、領域情報、テキスト情報、および改ざん検出データを記述したメタデータを生成することも可能である。このような構成によって、メタデータに記述された改ざん検出データに従って、画像データが改ざんされていないことが検出された場合にのみ、所定の表示タイミングで、画像データの所定領域みをトリミングして表示させたり、所定のタイミングで画像データにテロップ表示させたり、あるいは、所定のタイミングで画像データの所定領域のみをトリミング表示し、かつ画像データにテロップ表示させたりすることができる。

　変形例では、メタデータに、オブジェクト情報や撮影位置情報等を記述するようにしたが、これに限らず、たとえば、画像データ中に、山田さんの顔がx座標300、y座標200の位置にあり、鈴木さんの顔がx座標500、y座標300にあることを示す情報を記述するようにしてもよい。このような構成によって、複数ある画像データの中から、山田さんの画像を抽出し、かつ抽出した画像中の山田さんの顔（位置）を探すことが可能になる。

　また、ドライブレコーダやセキュリティカメラ等で撮像した画像データに対して、所定の画像認識処理を施して検知した画像情報、日時、場所、状況等のデータをメタデータに記述するようにしてもよい。このような構成によって、複数ある画像データの中から、画像解析により危険な状況にある画像を抽出することが可能になる。

　以上においては、画像データ生成装置３０、画像再生装置４０、音声画像データ生成装置５０、音声画像再生装置６０および画像データ改ざん検出装置７０は、同一の情報処理装置１Ａ，１Ｂ,１Ｃ内に設けられるものとしたが、それらの機能を別々の装置として設けることも可能である。

　また、上述した一連の処理は、ハードウェアにより実行することもできるし、ソフトウエアにより実行することもできる。一連の処理をソフトウエアにより実行する場合には、そのソフトウエアを構成するプログラムが、専用のハードウェアに組み込まれているコンピュータ、または、各種のプログラムをインストールすることで、各種の機能を実行することが可能な、たとえば汎用のパーソナルコンピュータなどに、プログラム記録媒体からインストールされる。

　なお、コンピュータが実行するプログラムは、本明細書で説明する順序に沿って時系列に処理が行われるプログラムであっても良いし、並列に、あるいは呼び出しが行われたとき等の必要なタイミングで処理が行われるプログラムであっても良い。

１,１Ａ，１Ｂ,１Ｃ…情報処理装置、１６…出力部、１７…記憶部、３０…画像データ生成装置、３１…画像符号化部、３２…メタデータ生成部、３３…画像データ生成部、３４…記録制御部、４０…画像再生装置、４１…解析部、４２…画像復号部、４３…画像記憶部、４４…画像トリミング部、４５…出力制御部、５０…音声画像データ生成装置、５１…画像符号化部、５２…メタデータ生成部、５３…データ生成部、５４…記録制御部、６０…音声画像再生装置、６１…解析部、６２…画像復号部、６３…テキスト描画部、６４…出力制御部、７０…画像データ改ざん検出装置、７１…解析部、７２…比較部、７３…改ざん検出部、７４…画像復号部、７５…出力制御部

Claims

　画像を符号化したデータとそのデータに関するデータであるメタデータとを有する画像データの改ざんを検出する改ざん検出部を備え、
　前記メタデータは、前記画像データの所定領域に予め埋め込まれているパラメータに基づいて算出された第１のハッシュ値、ハッシュ値を生成するためのスクリプトの文字列に基づいて算出された第２のハッシュ値、および前記スクリプトを少なくとも含み、
　前記改ざん検出部は、前記パラメータと前記メタデータに含まれる前記スクリプトに基づいて第３のハッシュ値を算出するとともに、前記メタデータに含まれる前記スクリプトの文字列に基づいて第４のハッシュ値を算出し、前記メタデータに含まれる前記第１のハッシュ値と算出した前記第３のハッシュ値、および、前記メタデータに含まれる前記第２のハッシュ値と算出した前記第４のハッシュ値をそれぞれ比較し、いずれかが等しくない場合には前記画像データが改ざんされたことを検出する、
　ことを特徴とするデータ改ざん検出装置。
　前記改ざん検出部により前記画像データの改ざんが検出されなかった場合、前記画像データに基づく画像を再生する画像データ再生部を有する、
　請求項１に記載のデータ改ざん検出装置。
　画像を符号化したデータとそのデータに関するデータであるメタデータとを有する画像データの改ざんを検出する改ざん検出ステップを含み、
　前記メタデータは、前記画像データの所定領域に予め埋め込まれているパラメータに基づいて算出された第１のハッシュ値、ハッシュ値を生成するためのスクリプトの文字列に基づいて算出された第２のハッシュ値、および前記スクリプトを少なくとも含み、
　前記改ざん検出ステップは、
　前記パラメータと前記メタデータに含まれる前記スクリプトに基づいて第３のハッシュ値を算出するステップと、
　前記メタデータに含まれる前記スクリプトの文字列に基づいて第４のハッシュ値を算出するステップと、
　前記メタデータに含まれる前記第１のハッシュ値と算出した前記第３のハッシュ値、および、前記メタデータに含まれる前記第２のハッシュ値と算出した前記第４のハッシュ値をそれぞれ比較するステップとを有し、
　前記比較するステップにおいて、いずれかが等しくない場合には前記画像データが改ざんされたことを検出する、
　ことを特徴とするデータ改ざん検出方法。
　画像を符号化したデータと、そのデータに関するデータであるメタデータとを有し、
　前記メタデータには、前記画像データの所定領域に予め埋め込まれているパラメータに基づいて算出された第１のハッシュ値、ハッシュ値を生成するためのスクリプトの文字列に基づいて算出された第２のハッシュ値、および前記スクリプトを少なくとも含む
　ことを特徴とする画像データのデータ構造。