WO2012073421A1

WO2012073421A1 - 画像分類装置、画像分類方法、プログラム、記録媒体、集積回路、モデル作成装置

Info

Publication number: WO2012073421A1
Application number: PCT/JP2011/005639
Authority: WO
Inventors: 亮一川西; 小沼　知浩; 上野山　努
Original assignee: パナソニック株式会社
Priority date: 2010-11-29
Filing date: 2011-10-06
Publication date: 2012-06-07
Also published as: US20120301032A1; US8953895B2; CN102741882A; CN102741882B; JPWO2012073421A1; JP5934653B2

Abstract

　画像分類装置は、受け付けた画像それぞれの第１特徴量と（Ｓ２２）、この画像に関連する関連画像それぞれの第２特徴量とを抽出する（Ｓ２５）。そして、抽出した第１特徴量および第２特徴量の局所性に基づいて、受け付けた画像の対象物に特有な特徴を示す第３特徴量を算出し（Ｓ２６）、算出した第３特徴量を基にモデルデータを作成する（Ｓ２７）。

Description

画像分類装置、画像分類方法、プログラム、記録媒体、集積回路、モデル作成装置

　画像を分類するためのモデルデータを作成する技術に関する。

　近年、例えば被写体像を撮像するDSC（Digital Still Camera）や一眼レフカメラ、さらに携帯電話カメラやデジタルムービーカメラが広く普及しており、気軽な写真撮影が可能になっている。また、画像データ保存用の記録媒体は大容量化が進んでいる。

　そのため、個人ユーザでも膨大な量の画像コンテンツを保有できる様になっており、効率良く所望の画像を探せるように、画像にタグ付けなどの分類を支援する技術が注目されている。

　例えば、顔照合技術を用いて、画像に人物の名前タグを追加する技術（例えば、非特許文献１参照）や、顔画像の登録を支援する技術（例えば、特許文献１参照）がある。

　また、分類の結果の適否や分類対象についてのユーザから支援を受けることで画像分類を行う技術がある。

　例えば、特許文献２では、画像検索時に、ユーザから適合・不適合に関するフィードバックを受け、このフィードバックを基に学習モデルを更新することで、ユーザの意図に合う検索を図るとしている。

　また、特許文献３では、予め定めた曖昧なキーワードとユーザが定めた具体的なキーワードとを組み合わせて画像にタグ付けを行うとしている。

特開2009-31991号公報特開2008-276775号公報特開2010-67014号公報

Google、「Picasa ウェブアルバムで名前タグを追加する」、[online]、[2010/10/30閲覧]、インターネット＜URL：http://picasa.google.com/support/bin/answer.py?hl=jp&answer=93973＞ Itti L, Koch C, Niebur E著、「A model of saliency-based visual attention for rapid scene analysis」、IEEE、1998年（Vol.20, No.11, pp.1254-1259）

　上述した従来の技術では、顔など典型的な対象物の分類に関してはある程度有用であるものの、顔以外の雑多な対象物の分類には向いていない。

　また、画像には様々な対象物が写りこんでいることがあるため、ユーザから支援を受けて画像の分類を行うに際しては、ユーザが真にどの対象物を画像分類の主体と考えているのか推し量るのは困難である。

　本発明はこのような背景の元になされたものであって、画像の分類に用いるモデルデータの作成において、ユーザが分類したい興味対象を推し量ることでより適切なモデルデータの作成に貢献できる画像分類装置を提供することを目的とする。

　本発明に係る画像分類装置は、モデルデータを用いて画像を分類する画像分類装置であって、蓄積された複数の画像の中から、画像の選択をユーザから受け付ける受付手段と、受け付けた画像それぞれの第１特徴量を抽出する第１抽出手段と、前記受け付けた画像毎に、前記複数の画像の中から関連する関連画像を特定する特定手段と、特定された関連画像それぞれの第２特徴量を抽出する第２抽出手段と、抽出された第１特徴量および第２特徴量の局所性に基づいて、受け付けた画像の対象物に特有な特徴を示す第３特徴量を算出する算出手段と、算出された第３特徴量に基づいてモデルデータを作成するモデル作成手段と、
を備えることを特徴としている。

　本発明に係る画像分類装置によれば、特に第３特徴量は、ユーザが分類したい興味対象を反映したものとなることが期待でき、もって適切なモデルデータの作成に貢献することができる。

実施の形態１における画像分類装置１の機能ブロック図画像分類装置１が行う処理の流れを示すフローチャートＵＩ画面の例画像メタデータを示すテーブル画像の特徴量情報を示すテーブル時系列的なイベント判定により関連画像を特定する様子を示す図選択画像に特有な特徴量を算出する処理の詳細を示すフローチャート画像の中央と周辺のイメージ図選択画像の中央にある登録対象と関連画像群とのマッチングの例を示す図選択画像の周辺にある背景物と関連画像群とのマッチングの例を示す図モデルデータの一例実施の形態２における画像分類装置２の機能ブロック図標準特徴の計算処理を示すフローチャート標準性判定処理を示すフローチャート標準性情報を示すテーブル実施の形態３における画像分類装置３の機能ブロック図ＵＩ画面の例登録済みモデルデータの修正処理を示すフローチャート画像内のカラーヒストグラムの模式図画像分類装置４の機能ブロック図モデル作成装置５の機能ブロック図領域分割を利用して、選択画像に特有な特徴を算出するイメージ図主エリアの例を示す図選択画像に特有な特徴量を算出する処理の詳細を示すフローチャートクラウドベースなサーバなどを示す図

　以下、実施の形態について、図面を参照しながら説明する。

　（実施の形態１）
　実施の形態１は、画像や動画データ群を整理する画像分類装置において、ユーザにより選択された画像を基にモデルデータを作成する。そして、この作成に際しては、ユーザにより選択された画像に特有な特徴量を算出し、算出した特有な特徴量をモデルデータの作成に用いる。これにより、ユーザの意向に沿ったモデルデータを作成し、このモデルデータを用いた分類の際にはユーザの満足度の高い分類結果が得られるようにする。

　図１に示すように、画像分類装置１は、ローカルデータ蓄積部１０、選択受付部１２、特徴量情報抽出部１４、特有特徴量算出部１６、関連画像特定部２２、特徴量情報抽出部２４、モデル学習部３０、モデル蓄積部３２、分類部３４、画像表示部３６を備える。

　ローカルデータ蓄積部１０は、家庭内等でユーザが取り扱うローカルなデータを蓄積する。ローカルなデータの例としては、家族、ペット、各種物体または風景などをユーザが撮影した写真画像やユーザが撮影した動画像データなどがあり得る。以下では写真画像を例に取り説明する。

　なお、ローカルデータ蓄積部１０のハードウェアとしては、例えば、ＨＤＤ（Hard Disk Drive）、ＤＶＤ（Digital Versatile Disc）等の大容量メディアディスク、または半導体メモリ等のストレージデバイス等の各種記録媒体から構成される。

　選択受付部１２は、ローカルデータ蓄積部１０が蓄積する画像の中から画像の選択をユーザから受け付ける。

　例えば「モデルとして登録したい物体が写った画像を選択して下さい」などのメッセージとともに各種物体を含む画像の一覧をディスプレイ上に表示する。そして、表示した画像の中からユーザがモデルとして登録したい物体を含む画像の選択をユーザから受け付ける。

　なお、この選択を受け付けるための入力デバイスの例としては、タッチスクリーンやマウスなどがある。

　特徴量情報抽出部１４は、選択受付部１２が選択を受け付けた画像を対象に特徴量情報を抽出する。

　特徴量情報の種類としては、（１）メタデータ系、（２）キーポイント記述子系、（３）特定物体認識系、の３種ある。なお、本実施の形態ではこの３種類すべてを説明するが必ずしもすべてが必須というわけではなく一部だけを用いても構わない。

　（１）のメタデータ系の例としては、画像のメタデータであるExif(Exchangeable image file format)に含まれる各種情報である。具体的には、撮影日時、経度・緯度を示すＧＰＳ（Global Positioning System）情報、各種撮影時のカメラパラメータ、撮影モード情報などである。

　また、上記カメラパラメータは、例えば、撮影時の明るさの調整を行うＩＳＯ(International Organization for Standardization)感度、露出（露光）時間、シャッタースピード、撮影時の色バランスを調整するためのホワイトバランス（WB）などである。

　なお、上記撮影モード情報は、一般的なデジタルカメラで用いられているカメラパラメータの各種設定を組み合わせたモード（例えば、夜景、料理、スポーツのモード）がある。

　（２）のキーポイント記述子系の例としては、SIFT（Scale-Invariant Feature Transform）,SURF(Speeded Up Robust Features),HOG（Histogram of oriented Gradient）などのキーポイント記述子を用いるタイプの局所特徴量が挙げられる。

　SIFTとは、エッジや色やテクスチャ等の低次特徴量から特徴的な点を中心に領域特徴量を現す特徴量記述子である。HOGは、物体の形状特徴を表す特徴量記述子である。

　これらの具体的な手法については、例えば特許文献（特開2008-250444号公報）に記載されている様な実用化されている顔検出装置や、人体検出や一般物体検出については、藤吉弘亘著の「Gradientベースの特徴抽出-SIFTとHOG-」（情報処理学会研究報告 CVIM 160, pp.211-224, 2007）に詳細が記載されている。

　（３）の特定物体認識系の例としては、画像内の特定物体（顔、人、その他各種物体）を識別するための情報（特定物体認識を示す情報）が挙げられる。

　関連画像特定部２２は、選択受付部１２が選択を受け付けた画像（以下、「選択画像」ということがある。）毎に、ローカルデータ蓄積部１０内の画像の中から関連する画像（以下、「関連画像」ということがある。）を特定する。

　特定手法としては（１）時間的な関連（２）地理的（場所的）な関連（３）撮影パターンの関連、これらの要素のいずれかまたは組み合わせを用いて行う。

　まず（１）については、選択画像と撮影日時が近い画像を関連画像として特定する。

　次に（２）については、地理的に関連する画像を特定する。例えば選択画像と緯度・経度が近い画像を関連画像として特定する。

　最後に（３）については、撮影パターンが関連する画像を特定する。撮影パターンの例としては、ＩＳＯ感度、露出（露光）時間、シャッタースピード、ホワイトバランス（WB）の有無などの撮影条件に関する情報、また、撮影の構図に関する情報などがある。

　なお、上記（１）（２）については、イベントの同一性を基に判断することができる。例えば、撮影時間や撮影場所の類似性に基づいて複数の画像を同じイベントとして扱い、選択画像と同じイベントの画像を関連画像として特定することができる。

　このイベントを決定する手法は、一般的な手法を用いることができ、例えばJohn C.Plattら著の「photo TOC: Auto Clustering for Browsing Personal Photographs」（Fourth IEEE Pacific Rim Conference on Multimedia 2003）に記載された方法を用いることができる。

　特徴量情報抽出部２４は、関連画像特定部２２が特定した関連画像を対象に特徴量情報を抽出する。抽出する情報の内容は、特徴量情報抽出部１４と同様なので説明を省略する。

　特有特徴量算出部１６は、選択受付部１２が選択を受け付けた画像毎に、各画像の特徴量情報とその関連画像の特徴量情報とを用いて特徴量どうしの照合を行い、例えば特徴量の一致および不一致の幾何学的な出現パターン（局所性）から、選択画像に特有な特徴量を算出する。詳しくは後述するが、この特有な特徴量は、選択画像に写っている対象物の中でユーザが登録したいと類推される対象物の特徴量を示すものとなる。

　例えば、ユーザが登録したい対象がユーザが飼っているネコの「タマ」であるとする。そして、このユーザにより「タマ」が写っている画像が複数選択された場合には、特有特徴量算出部１６は、このネコの「タマ」に特有的に表れる特徴量を算出することとなる。

　モデル学習部３０は、特有特徴量算出部１６により算出された特有な特徴量を用いてモデルデータを作成し、作成したモデルデータをモデル蓄積部３２に格納する。

　モデルデータの作成手法は、例えば、次の２つの手法が考えられる。

　第１の手法としては、画像の特徴量と各特徴量の重要性などの重み付けを行った結果をそのままモデルデータとする。この第１の手法は、選択画像の枚数が少ない場合に好適である。

　第２の手法としては、機械学習手法である分類器を用いて作成する。例えば、分類器として知られる、ＧＭＭ（Ｇａｕｓｓｉａｎｍｉｘｔｕｒｅｍｏｄｅｌ）やＳＶＭ（ＳｕｐｐｏｒｔＶｅｃｔｏｒＭａｃｈｉｎｅ）などを用いて作成するものである。この第２の手法は統計学的なアプローチであるので、選択画像の枚数がある程度多い場合に好適である。

　このため、選択画像の枚数が所定値より少ない場合には、第１の手法を用い、所定値以上ならば第２の手法に切り替えるようにしても構わない。

　分類部３４は、予め例えば顔などの分類すべきモデル毎に準備している分類基準データとして、モデル蓄積部３２が蓄積しているモデルデータを分類器にセットし、ローカルデータ蓄積部１０の画像群から抽出された特徴量を入力して適合判定処理を行い、入力データとしての画像がどのモデルデータと適合しているかの判定処理を行うものである。

　この判定処理では、分類項目を判別するとともに、判別信頼度としての尤度を出力してもよい。ここで、尤度は一般的に値が大きいほど信頼度が高いことを意味する。

　画像表示部３６は、登録モデルの識別子（例えば、名前、アイコンまたは画像）と一致する画像群をディスプレイに表示する。

　表示の一例としては、「『タマ』の登録モデルと一致する画像は以下の通りです。」というメッセージとともに、「タマ」と一致する画像群を表示することが考えられる。

　なお、各画像に尤度が関連付けられている場合には、一定閾値以上の尤度を持つ画像に限定して表示しても良い。

　次に、ユーザから画像の選択を受け付け、受け付けた画像に特有な特徴量を算出、算出した特徴量に基づいてモデルデータを作成、という画像分類装置が行う処理の流れについて説明する。

　図２のフローチャートに示すように、選択受付部１２は、ローカルデータ蓄積部１０が蓄積する画像の一覧を表示し、表示した画像の中からユーザがモデルとして登録したい物体を含む画像の選択をユーザから受け付ける（Ｓ２１）。

　このステップＳ２１のＵＩ（ユーザインターフェイス）画面の例を図３に示す。
図３（ａ）（ｂ）は、ユーザがペット（ネコの「タマ」）を含む画像を選択しているＵＩ画面を示すものである。

　図３（ａ）では、タッチスクリーンディスプレイの表示画面３７において、下部の枠３７ａ内にローカルデータ蓄積部１０に蓄積された画像の一覧が表示されている。下部の枠３７ａ内の画像を上部の枠３３内へとユーザは指でドラッグ＆ドロップすることにより画像を選択することができるようになっている。

　図３（ｂ）では、ディスプレイの表示画面３８において、ローカルデータ蓄積部１０に蓄積された画像の一覧が枠３８ａ内に表示されている。表示された各画像には、チェックボックス３８ｂが対応付けされている。ユーザは、マウスカーソル３８ｃをチェックボックス３８ｂの座標上に重ねてクリックすることでオン／オフを選択可能となっている。

　図３（ａ）（ｂ）ともに、「登録」３７ｃ，３８ｄボタンの選択を受け付けると、その時点で選択状態にある画像を選択画像として確定することとなる。

　このような画像の選択の受け付けが終わると、特徴量情報抽出部１４は、受け付けた画像それぞれについて、特徴量情報を抽出する（Ｓ２２）。

　ここで抽出する特徴量情報は、上に述べたように、（１）メタデータ系、（２）キーポイント記述子系、（３）特定物体認識系の３種類がある。

　メタデータ系については、図４を用いて説明する。図４のテーブル４０は、「画像データ番号」４１に対応する「画像メタデータ」４２の内容を示す。ローカルデータ蓄積部１０ではこのように画像毎にＥｘｉｆ形式のメタデータを付与して管理している。

　特徴量情報抽出部１４は、このようなメタデータを解析することにより、テーブル４０の中から選択画像（例えば「ＩＤ３」）の「撮影日時」４２ａ、「緯度・経度」４２ｂ、「ＩＳＯ」４２ｃ、「露出時間」４２ｄ、「ＷＢ」４２ｅを抽出する。

　キーポイント記述子系と特定物体認識系については、図５を用いて説明する。

　図５のテーブル５０は、「画像データ番号」５１に対応する「特徴量情報」５２の内容を示す。

　「カラー１～カラー３」５２ａは、代表的な３色（例えば、ＹＵＶやＲＧＢ）のカラーヒストグラムを示すものである。ＲＧＢやＹＵＶのフォーマットや、ＲＧＢとＹＵＶと間の変換は一般的な手法を用いることができる。

　「局所１～局所３」５２ｂは、テクスチャ等の低次元特徴量や特徴的な点を中心に局所領域の特徴を表したり物体の形状を表す高次元特徴量として値を示すものである。

　具体的には、キーポイント記述子系のSIFTやSURFやHOG等の特徴量をベクトル形式で表すものである。図５では、局所の数は局所１～局所３の３次元と簡略化しているが、現実には、より多次元（例えば、ＳＩＦＴの１２８次元など。）に表され得る。

　「顔・顔数」５２ｃは、特定物体認識系の特徴量である。対応する画像内に写った「顔」の有無と顔が有りのときの「顔数」を示す。

　なお、図５では単純に「顔」の有無だけを示しているが、一般的な顔認識技術を用いて「顔」が誰であるかまでを識別するようにしても構わない。また、人の服装の色や形状、人検出情報から人を特定する情報を利用することも考えられる。

　また、人間に限らず、車検出及び犬や猫などのペット検出に代表されるような物体認識技術による結果を利用してもよい。さらには、生物に限らず建造物や家具などの物体を認識するようにしてもよいし、画像内に写った文字列を光学文字認識(ＯＣＲ：Optical Character Recognition)の結果を特徴量情報として利用してもよい。

　特徴量の抽出を終えると、受け付けた画像から関連画像を特定して特徴量を抽出するループ処理（Ｓ２３～Ｓ２５）に入る。

　なお、ステップＳ２３の「ｉ：１，１，ｎ」は、変数名ｉ、初期値1、増分1、終値ｎ（選択画像の枚数）を示す。

　関連画像特定部２２は、画像ｉの関連画像を特定する（Ｓ２４）。

　ここではイベントの同一性を基に特定する例について説明する。このイベントは、撮影間隔が５分以内の連続した画像群を、同一のイベントとして取り扱うというルールであるとする。

　そうすると、図６に示すように、2010/5/5に撮影された「ＩＤ1」～「ＩＤ７」までの７枚の画像群において、選択画像「ＩＤ３」の撮影日時14:15に前後し、撮影間隔が５分以内の連続した画像群「ＩＤ２」～「ＩＤ６」の５枚が同じイベントとなる。

　この例の場合、関連画像特定部２２は、「ＩＤ２」「ＩＤ４」「ＩＤ５」「ＩＤ６」の４枚の画像を「ＩＤ３」の関連画像として特定する。

　ステップＳ２４を終えると、特徴量情報抽出部２４は、関連画像それぞれについて、特徴量を抽出する（Ｓ２５）。

　この抽出の手法や内容については、ステップＳ２２と同様であるので説明を省略する。

　なお、図６に例示した関連画像の場合には、特徴量情報抽出部２４は、「ＩＤ２」「ＩＤ４」「ＩＤ５」「ＩＤ６」の４枚の画像それぞれについて特徴量を抽出することとなる。

　このようなステップＳ２４，Ｓ２５の処理を、画像分類装置１は選択画像毎に繰り返す。

　続いて、特有特徴量算出部１６は、ステップＳ２２で抽出された選択画像毎の特徴量、ステップＳ２５で抽出された関連画像毎の特徴量を基に、選択画像に特有な特徴量を抽出する（Ｓ２６）。

　このステップＳ２６の詳細について図７～図１０を用いて説明する。

　まず、特有特徴量算出部１６は、選択画像毎に、その選択画像とその関連画像とを対象にマッチング処理を行う（Ｓ７１）。

　続くステップＳ７２，７３では、特徴量の局所性に基づいて、取り扱いを分ける。つまり、画像の中央にある一致点の特徴量は正標本として学習し（受け付けた画像における一致点の特徴量の重み付けを高くする）、画像の周辺にある一致点の特徴量は負標本として学習（受け付けた画像における一致点の特徴量の重み付けを低くする）する。この画像の中央と周辺の例を図８に示す。

　ステップＳ７２の具体例を図９に示す。

　図９（ａ）は、選択画像「ＩＤ３」を示し、図９（ｂ）は、選択画像「ＩＤ３」の関連画像「ＩＤ２」「ＩＤ４」「ＩＤ５」「ＩＤ６」を示す。関連画像「ＩＤ２」「ＩＤ４」「ＩＤ５」「ＩＤ６」は、さまざまな縮尺、さまざまな角度で撮影された登録対象が含まれている。

　図９中、画像内には一定の画素間隔（例えば、20pixel）で格子状に丸点が配置されている。この丸点は、SIFT等の局所特徴量を抽出の対象とした場所を示すものである。特に、関連画像における黒の丸点は、選択画像の登録対象の特徴量と一致した一致点を示す。これに対して、関連画像における白の丸点は特徴量が一致しなかった不一致点を示す。図９では、特に、選択画像「ＩＤ３」と関連画像のひとつである「ＩＤ２」との間に、一致点どうしを線分で結んで示す。

　この図９の例で示すように、一致した特徴量の画像内での平均的な存在位置を算出すると中央付近に一致点が表れ易い。具体的には次の３つの傾向がある。

　第一に、同一ユーザが持つ撮影データ内の同一イベント内では同一対象が写る可能性が高いため、一致度合いの高い関連画像群は選択画像と同一の被写体を含んでいる可能性が高い。

　第二に、ユーザの選択画像が含む特徴と関連画像群との特徴量の一致が幾何学的な形状として一定の類似性を持つ場合には、その類似形状で一致する特徴量を登録対象に特有な特徴として判定する事ができる。判別された幾何学的な類似形状も特有な特徴として利用することが可能である。

　第三に、関連画像群において登録対象を含んでいる場合、その対象はユーザの好みの対象であるため画像内の中央付近で撮影される可能性が高い。

　このため、一致特徴点の平均的な出現位置と分散を求めることによって、その位置が中央付近であると判定可能な場合には、その特徴を登録対象に特有な特徴として重み付けることが妥当である。

　＜重み(weight)の算出例＞
　ここで、具体的な重み付けの計算手法について一例を説明する。

　特有な特徴量の重み(weight)の算出方法としては、例えば選択画像がＮ枚である場合、ある特徴量ＡがＭ枚の画像内で一定閾値以上の一致度合いであった場合、特徴量Ａの重みは、Ｍ／Ｎで算出される。一致度合いは特徴量成分の差分の自乗和等で産出することができる。選択画像内で多く存在する特有な特徴量ほど重みを高くする様に設定することで分類精度を向上させる事が可能となる。また、特徴量Ａの画像ｘとｙの間の一致度合いをＳ_ｘ，ｙ、全画像間の一致度合いの総和をＳＳとして、

　と重みを算出し、０～１で正規化して利用すること等も考えられる。

　さらに、画像全体ではなく、SaliencyMap等を用いて画像内の顕著性のある領域だけに限定して一致度合いを算出することや、予めエッジ情報などから画像を一定の領域に分割されたサブ領域単位に分割しておき、そのサブ領域全体が類似する領域間のみで一致度合いを算出して特徴量に重み付けすること等が考えられる。なお、SaliencyMapの詳細は非特許文献２に記載されている。

　ステップＳ７３の具体例を図１０に示す。

　図１０（ａ）は、選択画像「ＩＤ３」を示し、図１０（ｂ）は、選択画像「ＩＤ３」の関連画像「ＩＤ２」「ＩＤ４」「ＩＤ５」「ＩＤ６」を示す。関連画像「ＩＤ２」「ＩＤ４」「ＩＤ５」「ＩＤ６」における黒の丸点は、選択画像の背景物の特徴量と一致した一致点を示す。これに対して、関連画像「ＩＤ２」「ＩＤ４」「ＩＤ５」「ＩＤ６」における白の丸点は、選択画像の背景物と特徴量が一致しなかった不一致点を示す。

　ここで、登録対象と関係が無い背景物の場合でも同一イベント内であれば画像の背景と一致する可能性は高いが、ユーザが撮影しようとする対象では無いため画像内の中央付近以外に写る可能性が高い。

　そこで、図１０の例で示すように、一致した特徴量の画像内での平均的な存在位置を算出すると周囲枠付近に一致点が表れ易い。

　一致特徴点の平均的な出現位置と分散を求めることによって、その位置が周囲枠付近であると判定可能な場合には、その特徴を登録対象に非特有な特徴として判定する事ができる。

　なお、ユーザが選択した選択画像が複数枚存在する場合には、選択画像間で一致する特徴量を算出し特定した後で、関連画像群との一致特徴量を算出することでその最終的な一致特徴量を登録対象に特有な特徴としたり、選択画像と関連画像群で一致する特徴量を算出し特定した後で選択画像間でさらに一致する特徴量を算出し登録対象に特有な特徴とすることも可能である。

　このようにして、選択画像に特有な特徴量を算出されると、モデル学習部３０は、算出された特有な特徴量を用いて、登録対象を判別するためのモデルデータを生成する（Ｓ２７）。

　この生成のやり方としては、単純に、算出された特有な特徴量をそのままモデルデータの生成材料として利用してもよい。

　また、特有な特徴量それぞれの一致度合いなどに応じて重み付けをしておく、又は事前に分割された登録対象毎に特徴量を保持することも可能である。

　図１１にモデル学習部３０が作成したモデルデータの一例を示す。

　登録モデル１（Model1）の作り方としては、例えば、特有な特徴を全て算出した後で、登録対象を含む画像群から類似度を画像メタデータから算出する。そして、その類似度が一定値以上かどうかにより３つの画像群に分割する。さらに、分割した３つの画像群にそれぞれ対応する３つのモデル（Model1-1,1-2,1-3）を求めることにより作成できる。

　登録モデル２(Model2)は、画像群すべてが一定値以上の高い類似度であったため、分割されることなく１つのモデルとして算出されている。

　それぞれ特徴量の特有性に応じて重み付けされた結果がweightとして算出されており、入力画像とのマッチング処理時には、例えば特徴量(feature)×重み(weight)の総和に形状相関(geometry relation)の一致度を乗算することで類似度を算出し、事前定義している閾値Thr₂以上であれば一致していると判定することができる。

　また、特有特徴量算出部１６で算出された特徴量を全て用いて、ＧＭＭやＳＶＭ等の既存の機械学習法で統計学的なモデルを生成する事もできる。この際に、図９で示すような一致特徴量が画像の中央寄りに存在する画像群は登録する物体に適合する正標本とし、図１０に示すような一致特徴量が画像の周辺枠寄りに存在する画像群は登録する物体に適合しない負標本として学習データを増加させて学習させることもできる。

　なお、図１１で示す重みや形状相関の特徴量を利用して統計学的なモデルを生成することも可能である。

　さらに、利用する算出可能な特徴量を全てまとめて１つの分類特徴量空間で使うのではなく、予め分類軸として人工物体系によく表れる特徴軸や生物体系によく表れる特徴軸や文字等のテキスト情報系によく表れる特徴軸に分けておき、それぞれの特徴量空間でモデル生成を行うことでより登録対象に合うモデルにすることができる。なお、各特徴軸での特徴量の出現頻度自体も特徴量としてモデル化することが可能である。

　そして、モデル学習部３０からモデル蓄積部３２にモデルデータが出力され蓄積された後、分類部３４は、蓄積されたモデルデータを用いて画像の分類を行う。

　分類部３４は、ローカルデータ蓄積部１０の画像群を対象として、モデル蓄積部３２のモデルデータを利用して、このモデルデータと一致する特徴が各画像に存在するかを判定する。

　このような判定は、例えば、画像から抽出された特徴量と、図１１に示すモデルデータの各特徴量を比較し、その一致度をみることにより行うことができる。この一致度は特徴量に対応する重みに応じて補正するとしてもよい。

　求められた一致度が一定値以上である場合には、分類部３４は画像に一致したモデルの属性情報（タグ）を付与することとなる。

　判定を終えると、画像表示部３６により、ユーザが登録した対象を含む画像群をその登録モデル毎に分けて表示する。

　以上のように、ユーザに選択された画像群だけから登録対象をそのまま用いてモデル化するのではなく、ローカルデータ蓄積部１０内から選択画像群に関連する関連画像群を抽出し、それらを利用してローカルデータ内で分類精度が上がる様にモデル化することで、ユーザが分類したい対象を簡単に登録でき、その対象を含む画像群を精度よくローカルデータ内で分類することが可能となる。

　したがって、ユーザは自由に好みの対象を登録し、その対象を含む画像群を簡単に探すことができる。

　（実施の形態２）
　本実施の形態２は、画像分類装置において、ユーザが分類したい対象を含む画像群を選択し登録する際に、ローカルデータ群に標準的に存在する特徴を利用することで登録された対象を含む画像群を精度良く分類する仕組みに関するものである。

　なお、本実施の形態において、実施の形態１と同じ機能を有する構成には同じ符号を付し、その説明が適用できるため説明を省略する。

　本実施の形態２では、ユーザにより選択された画像を基にモデルデータを作成する際に、ローカルデータ内の画像群に標準的に存在する特徴を標準特徴として規定する。そして、選択画像毎の特徴量の標準性を判定し、標準性が高いほどモデル寄与度を低くするようにする。こうすることで、より分類性能が高くユーザにとって妥当なモデルデータの作成を図る。

　図１２は、実施の形態２に係る画像分類装置２の機能ブロック図である。

　標準特徴計算部６０は、ローカルデータ蓄積部１０に蓄積された画像の中から全部または特定の画像群を対象として標準特徴を計算し、計算結果を標準特徴蓄積部６２に格納する。

　ここで、標準特徴とは、標準特徴の計算の材料とした画像群（以下、「目的画像群」ということがある。）に標準的（全体的）に表れる特徴量を示す量である。

　標準特徴の計算の流れを図１３を用いて説明する。

　まず、標準特徴計算部６０は、ローカルデータ蓄積部１０に蓄積された画像の中から標準特徴を計算する対象となる目的画像群を抽出する(ステップＳ１３１)。

　この目的画像群は、ローカルデータ蓄積部１０に蓄積されたすべての画像でもよいし、特定の画像群に限定してもよい。

　限定の条件としては、（１）撮影時間間隔のイベント単位（画像の撮影時刻に関する時系列パターン）、（２）撮影位置のイベント単位、（３）室内や室外といった撮影シーン単位などがあげられる。

　（１）撮影時間間隔のイベント単位としては、年/月/週/日/時/分といった時間単位での撮影間隔自体、撮影された人物の種類や数、その他被写体の種類や数、および撮影カメラパラメータの単位を用いたものである。

　（２）撮影位置のイベント単位としては、撮影画像が撮影された場所に関する地理情報や撮影方向や画像内での特徴量の出現位置単位で算出されうる。

　例えば、日本の東京で撮影された画像群をまとめて目的画像とすることが考えられる。

　次に、標準特徴計算部６０は、その目的画像群から全局所特徴量を算出する(ステップＳ１３２)。

　局所特徴量としては、SIFTやSURFなどに代表される様な画像内の局所部分を表す特徴量を用いることができる。なお、画像から算出される特徴量であればその種別は問わない。

　ここで目的画像群の枚数をＸとして、この画像Ｘ枚から特徴量平均数Ｙ個が算出できた場合、全特徴量数はＸ×Ｙ＝Ｍ個となる。標準特徴計算部６０は、このＭ個の特徴量に対して類似性の高い特徴量同士にグルーピングする(ステップＳ１３３)。

　グルーピング手法としては、Ｍ：Ｍマッチング又はランダムサンプリングしてＮ個にした後にＮ：Ｎマッチングを行ったりkmeans等のクラスタリング手法を用いることによりＰ個のグループにまとめる。

　最後に、標準特徴計算部６０は、各グループの要素数が一定数以上で存在している場合、そのグループに属する特徴量は目的画像内で標準的に存在する標準特徴として抽出する(ステップＳ１３４)。

　Ｐ個のグループＧ_１～Ｇ_ｐのそれぞれの要素数をＮ_Ｇ１～Ｎ_Ｇｐとして各要素数が予め定義されたＴｈｒ_３以上の場合に標準特徴と判断することができる。また、グループの要素数が大きいほど標準性が高いと定義して、標準性を算出することも可能であり、標準性として要素数だけではなく一定時間周期内に表れる頻度として算出することもできる。

　なお、事前に全体標準特徴量を算出しておかない場合には、随時全体標準特徴を算出する、または関連する全体標準特徴量のみを判別し算出する構成とすることも可能である。

　標準性判定部６４は、画像選択受付部１２により選択された選択画像毎に、選択画像の特徴量と標準特徴蓄積部６２に格納された特徴量とを比較することにより、標準性を判定する。そして、判定した標準性を示す標準性情報を標準性情報格納部６６に格納する。

　この標準性は、標準性は０～１の範囲であり、標準特徴と完全に一致しない場合には標準性を０とし、完全に一致する場合には標準性が１というように一致度合いの高低に応じて規定することができる。標準性が１に近くほど、ローカルデータ内ではありがちな画像であり、ローカルデータ内での分類性能は低いと考えられる。

　標準性の計算の流れを図１４を用いて説明する。

　まず、特徴抽出部１４が選択画像を対象に特徴量情報を抽出する（Ｓ１４１）。

　続いて、標準性判定部６４は、標準特徴蓄積部６２の標準特徴を読み込む（Ｓ１４２）。

　最後に、標準性判定部６４は、ステップＳ１４１で抽出された特徴量情報と、ステップＳ１４２で読み込まれた標準特徴の一致度を基に、標準性（０～１）を判定する。

　このようにして判定された標準性の一例を図１５に示す。

　図１５のテーブル６７は、選択画像が「ＩＤ１」「ＩＤ２」「ＩＤ３」「ＩＤ４」の場合に、この選択画像毎に標準性判定部６４が判定した標準性を示す。

　各画像においては、「特徴量１」「特徴量２」「特徴量３」・・・というように、特徴量が多次元に分けて表されており、各「特徴量」毎に「標準性」が対応付けられている。

　この「特徴量」は、例えばSIFTやSURF等の局所特徴量により算出されており、図１５では３次元と簡略化しているが、現実には、より多次元（例えば、ＳＩＦＴでは１２８次元。）に表され得る。また、特徴量の種類としては、画像の色情報やテクスチャ情報やエッジ情報やHOG等の画像解析情報として抽出できる特徴量であればその種別は問わない。

　図１５の例では、局所特徴をベクトル特徴としたものを「特徴量１」、「特徴量２」、「特徴量３」として管理し、それぞれに対して算出された標準性を「標準性１」、「標準性２」、「標準性３」として管理している。

　なお、例えば標準性は、不一致の場合には０、一致する場合には１として、一致度合いが最も大きい標準特徴の標準性と一致度合いを乗算することで算出することも可能である。

　特有特徴量算出部１６は、選択受付部１２における選択画像毎に、標準性判定部６４により判定された個々の画像の標準性に応じて選択画像に特有な特徴量を算出する。

　具体的には、標準性が低い第１特徴量については重み付けを高くし、かつ、標準性が高い第１特徴量については重み付けを低くすることにより特有な特徴量を算出する。

　重み付けの計算手法は、次の（１）～（５）のように色々な手法を採りうる。

　（１）モデルデータを生成する前の特徴量のマッチング処理をする前に標準性が一定閾値以上の特徴量を排除するとしてもよい。

　（２）実施の形態１を組み合わせて、図１１に示すような特徴量に重み付けした場合には、その重みに｛１－（図１５に示す標準性）｝を乗算することで標準性の高い特徴量の重みを減少させることが可能である。

　例えば、ある特徴量の標準性が０．９と高いならば、１－０．９＝０．１を特徴量の重みに乗算させることにより、元々の重みと比べて大幅に減少させることができる。

　（３）画像が属するイベントに応じて標準的に存在する特徴量の割合や量が一定範囲内の値に収束していると判定することでできる場合には、標準的に存在する特徴量の割合や量自体をモデルデータとして利用する事も可能である。

　（４）既存の機械学習法で統計学的なモデルを生成する場合には、標準性自体も特徴量のパラメータとして入力することでモデル化したり、特有特徴量算出部１６で算出される特有な特徴量を持つ画像から標準性の高い特徴量を一定数以上持つ画像群を判定し、その画像群はローカルデータ群内では分類性能が低いと考えられるため排除またはモデル寄与度（重み付け）を低く設定して学習標本として利用することも可能である。

　以上説明したように、ユーザに選択された画像群だけから登録対象をそのまま用いてモデル化するのではなく、ローカルデータ内に標準的に存在する特徴は分類性能を低くする要因となる点に着目し、このような特徴を標準特徴として予め算出しておくことによって標準性の高い特徴を排除する、又はその標準性の出現傾向自体を特徴量化してその標準特徴を用いてモデル化することによって、ユーザが分類したい対象を含む画像群をより精度よくローカルデータ内で分類することが可能となる。

　（実施の形態３）
　本実施の形態３は、画像分類装置において、ユーザが分類したい画像を選択して、選択画像などからモデルデータを作成した際に、ユーザから修正操作を受け付けることによりモデルデータを更新し、登録対象を含む画像群を精度良く分類する仕組みに関するものである。

　つまり、ユーザが登録した対象を含む画像群を自動分類した結果を表示しユーザが表示結果の間違いを修正する際に、ユーザの修正操作を受け付けるＵＩ（User Interface）部で修正操作の入力を受け付ける。

　そして、受け付けた内容に応じて、モデルデータを修正更新して分類性能を高めることを図る。

　なお、本実施の形態３において、実施の形態１と同じ機能を有する構成には同じ符号を付し、その説明が適用できるため説明を省略する。

　図１６は実施の形態３に係る画像分類装置３の機能ブロック図である。

　修正受付部１３は、画像表示部３６が表示した分類結果の表示出力に関して、入力デバイスを介して修正を受け付ける。入力デバイスの例としては、タッチスクリーンやマウスなどがある。

　例えば、ユーザが飼っているネコの「タマ」のモデルデータを基に、画像表示部３６が「タマ」に分類した画像を表示し、「『タマ』の登録モデルと一致しない画像を選んで下さい。」などのメッセージをこの表示に添えてユーザに修正を促す。

　修正受付部１３は、画像表示部３６の分類結果の表示出力に対してユーザが誤分類されている結果を修正する際の修正操作が入力される。例えば、タッチパネルディスプレイやマウスにより修正画像群の選択及び登録モデルの更新や登録モデルの細分化を行う入力がなされる。

　以下では、ユーザが登録した対象を含む画像群で整理する又は検索する際に、画像表示部３６で表示される登録対象を含む画像群において、修正すべき画像群が存在する又は登録モデルの細分化等のモデル変更時におけるモデルデータの修正更新方法について詳細に説明する。

　ユーザが修正したい画像群を選択する方法について説明する。

　図１７は、画像表示部３６の分類結果と修正受付部１３の修正受付とに係るＵＩ画面の一例を示す図である。

　図１７（ａ）では、タッチスクリーンディスプレイの表示画面１７１において、グループ「ｅ００１」として分類された画像の誤分類の結果を修正する例を示している。

　枠１７１ａ内には、グループ「ｅ００１」として分類された画像の一覧が表示されている。

　例えば、グループ「ｅ００１」として分類された画像がペットという色々なペット（登録対象がペット）を含む大雑把なものである場合に、ユーザがペットＢ（例えば、ネコの「タマ」）だけを登録対象としてモデルを作成したいとする。

　このとき、枠１７１ａ内にグループ「ｅ００１」の画像一覧を横スクロールしながら、ペットＢを含む画像を上部の枠１７１ｂ内にドラッグして集めた後で、登録ボタン１７１ｃを押す事で修正更新処理が開始されることとなる。

　なお、モデル変更としては、このようなモデルの細分化に加えて、複数のモデルをマージすることで集約化することも可能である。例えば、ユーザが飼っている２匹のネコのモデル、「タマ」のモデルと「ミケ」のモデルを作成していたとすると、両者を集約化することが考えられる。

　また、枠１７１ａなどに画像の一覧を表示する際には、単純に撮影された時間で時系列で並べて表示するだけではなく、登録されたモデルデータとの一致度や類似性に基づいて並べ変えておくことで、ユーザの修正処理を簡易化することができるので有効である。

　図１７（ｂ）では、グループ「ｅ００１」として分類された画像の誤分類の結果を修正する例を示している。

　ユーザはペットを登録対象としてモデルデータを作成を指示したつもりであったが、枠１７５ａ内には、ペット以外の対象物が写った画像も分類されてしまっている。

　この場合に、ユーザは、枠１７５ａ内の分類結果の画像一覧を縦スクロールしつつ修正対象であるペット以外の画像をマウスを用いて随時選択し、その後、削除ボタン１７５ｃを押す事で修正更新処理が開始される。

　図１７（ｂ）の例では、画像毎のチェックボックス１７５ｂがチェックが付された画像がユーザにより選択された画像に該当する。

　修正画像群の選択又は登録画像群の再選択後に修正更新処理が開始されると、その選択画像から実施の形態１または２に記載の手法と同様の手法でモデルデータを再生成する。

　具体的には、図１１に示したようなモデルデータ情報の各情報が修正されることになる。修正画像群の選択時には、強化すべき特徴と排除すべき特徴等の特徴情報を修正画像群及び選択されなかった分類結果が正しい画像群から抽出し、モデルデータを修正更新する。

　図１８は、選択された修正画像群から登録対象のモデルデータを修正する処理の手順を示したフローチャートである。

　以下では、修正画像群として誤分類された画像が選択されたと仮定して処理内容を説明する。なお、その逆に正しく分類された画像が選択された場合も考えられ、その際には説明内容と逆の処理でモデルデータの処理が行われる。

　修正画像群が選択され修正処理が開始された場合、登録結果の表示画面において選択されなかった画像群は正しく分類されている可能性が高い。

　そのため、図１８に示すように、特徴量情報抽出部１４は、修正画像群の情報に加えて非選択画像群からも特徴量情報を抽出する(Ｓ１８１)。全ての画像群にはユーザにより直接付与された直接分類タグと画像分類装置により自動分類され付与された自動分類タグの情報があるとする。

　非選択画像群において、直接部類タグの情報が無い場合にはその画像群は自動分類タグとして正しい可能性が高くモデルデータの修正に有用であるため、正しい分類画像として利用する。

　次に、抽出された画像情報の画像解析情報から修正画像群とモデルデータの特徴量の一致度合いの高い部分を判定する(Ｓ１８２)。

　特徴量の類似性の判定は既出の内容と同じとする。さらに、修正画像群に対して実施の形態１におけるステップＳ２６（図７）の処理と同様にして修正画像と関連画像群との一致特徴量を判定することで修正画像に特有な特徴量を判定して利用する事も可能である。

　そして、ステップＳ１８１で抽出された正しい分類画像を用いて、実施の形態１における実施の形態１におけるステップＳ２６（図７）の処理とと同様にして、各正しい分類画像と関連画像群との一致特徴量を判定する(ステップＳ１８３)。

　最後に、モデル学習部３０で、ステップＳ１８２とステップＳ１８３で判定された結果を用いて登録対象のモデルデータの修正更新の処理を行う(Ｓ１８４)。

　ステップＳ１８２の結果は、修正画像群は削除したい場合であるから、その画像群との一致度又は特有な特徴量の特有性が高いほどモデルデータから削除すべき特徴量である。

　特徴量マッチング処理の場合には、モデルデータと一致する特徴量を削除する又は重みを一定比率で減少させる事が考えられ、機械学習法で統計モデルを生成する際には、単純に負標本として加える他、特徴量の重み付けを減らすことでモデルの再生成を行う事が可能である。また、ステップＳ１８３の結果は、登録対象に有効な特徴量である可能性が高いため、一致特徴量を用いて強化学習を行う。

　特徴量マッチング処理の場合には、モデルデータと一致する特徴量の重みを一定比率で増加させたり、モデルデータに存在しない特有な特徴量を新規に加えることで、ローカルデータ内でのモデルの分類性能を向上させる。

　機械学習法で統計モデルを生成する際には、実施の形態１におけるＳ２７（図２）の処理と同様の処理を学習標本を増加させた状態で行うことができる。また、各画像が持つ重み付けられた特徴量や分類モデルとの類似度などを用いて標本自体の信頼性で重み付けをした上で学習を行う事等も可能である。

　以上のように、ユーザが登録した対象を含む画像群を自動分類した結果に対して、ユーザが修正更新処理を行う際に、修正画像群及び非選択画像群から抽出可能な画像情報を用いて、モデルデータを修正又は再登録してモデル生成することにより、ユーザが分類したい対象を簡単に随時修正登録でき、ユーザはより自由度の高い対象登録によって登録対象を含む画像群を簡単に探す事ができる。

　＜補足１＞
　以上、本実施の形態について説明したが、本発明は上記の内容に限定されず、本発明の目的とそれに関連又は付随する目的を達成するための各種形態においても実施可能であり、例えば、以下であっても構わない。

　（１）実施の形態１では詳しく述べなかったが、特有特徴量算出部１６においては、選択画像と関連画像それぞれの色分布を比較し、比較の結果、色分布が不一致である領域については、特有な特徴量を算出する対象から除外するとしても構わない。

　例えば、図１９に示すように、黄色いボトルが写った選択画像「ＩＤ３」と関連画像「ＩＤ４」があるとする。両方の画像内には、カラーヒストグラムを示す簡易な色を記載している。関連画像「ＩＤ４」では、領域１８３，１８４だけが黒の領域となっている。このように、関連画像「ＩＤ４」に、選択画像「ＩＤ３」には全く存在しない色範囲の領域があれば、関連画像「ＩＤ４」の黒の領域の局所特徴量を、特有な特徴量を算出する対象から除外するとしても構わない。

　（２）各実施の形態では、特有特徴量算出部１６とモデル学習部３０とを別ブロックであるとして説明したが、両方をまとめてモデル学習部３０に特有特徴量算出部１６の機能を内包させる形でも構わない（図２０の画像分類装置４参照）。

　（３）各実施の形態では、ひとつの画像分類装置において、モデルデータの作成から画像の分類まで行うとしたが、作成と分類とを別装置において行うようにしても構わない。例えば、図２１に示すようになモデル作成装置５においてモデルデータを作成し、画像の分類は別装置で行うとしてもよい。

　（４）実施の形態１では、モデルデータの作成に関しては、基本的には画像単位でその中の登録対象全体をモデル化するとして説明したが、画像内の登録対象の一部分だけをモデル化して登録するとしても構わない。

　例えば、移っている犬の全体が写されている場合において、その全体特徴でモデル化するのではなく、耳と目だけ又は足と尻尾だけの組み合わせが選択画像内とよく表れる場合には、耳と目だけ又は足と尻尾だけの特徴量セット単位でサブセットとしてモデル化することが考えられる。

　図１１を例に挙げると、feature1-feature10のセットではなく、その一部のfeature1,3,5のサブセットでモデル化することが分類には有効となり得る。

　（５）上述の実施の形態で示した動作などを各種情報処理装置のプロセッサ、及びそのプロセッサに接続された各種回路に実行させるためのプログラムコードからなる制御プログラムを、記録媒体に記録すること、又は各種通信路を介して流通させ頒布することもできる。

　このような記録媒体には、ＩＣカード、ハードディスク、光ディスク、フレキシブルディスク、ＲＯＭ等の非一時的な（not-transitory）記録媒体がある。

　流通、頒布された制御プログラムは、プロセッサに読み出され得るメモリ等に格納されることにより利用に供され、そのプロセッサがその制御プログラムを実行することにより実施の形態で示したような各種機能が実現されるようになる。

　（６）上記の各実施の形態の画像分類装置は、典型的には集積回路であるＬＳＩ(Large Scale Integration)として実現されてよい。各回路を個別に１チップとしてもよいし、全ての回路又は一部の回路を含むように１チップ化されてもよい。例えば、チューナ３は他の回路部と同一の集積回路に集積されることもあれば、別の集積回路になる場合もある。

　ここでは、ＬＳＩとして記載したが、集積度の違いにより、ＩＣ(Integrated Circuit)、システムＬＳＩ、スーパＬＳＩ、ウルトラＬＳＩと呼称されることもある。

　また、集積回路化の手法はＬＳＩに限るものではなく、専用回路又は汎用プロセッサで実現してもよい。ＬＳＩ製造後にプログラム化することが可能なＦＰＧＡ（FieldProgrammable Gate Array）、ＬＳＩ内部の回路セルの接続や設定を再構成可能なリコンフィギュラブル・プロセッサを利用してもよい。

　さらには、半導体技術の進歩又は派生する別技術によりＬＳＩに置き換わる集積回路化の技術が登場すれば、当然、その技術を用いて機能ブロックの集積化を行ってもよい。バイオ技術の適応等が可能性としてありえる。

　（７）図９の例では、ＳＩＦＴなどを用いた点ベースの特徴量を例示して説明したが、例えば画像を構成する領域単位の特徴量（面ベースな特徴量）を用いることでロバストな検出を図るようにしても構わない。

　すなわち、特徴量情報抽出部１４（図１参照）は、１枚の選択画像を複数の領域に分割し、領域毎に特徴量（例えば、カラーヒストグラム）を算出する。

　そして、特徴量情報抽出部２４も同様に、関連画像のそれぞれについて、画像を複数の領域に分割し、領域毎に特徴量を算出する。

　これらの領域分割（セグメント化）の手法については、例えば、
　・"Superpixel: Empirical Studies and Applications", （http://www.cs.washington.edu/homes/xren/research/superpixel，http://www.stat.ucla.edu/~yuille/courses/canton/day5/day5examples/Superpixels.pdf）
　・Pedro F. Felzenszwalb and Daniel P. Huttenlocher:"Efficient Graph-Based Image Segmentation", International Journal of Computer Vision, Volume 59, Number 2, September 2004（http://people.cs.uchicago.edu/~pff/segment/ , http://people.cs.uchicago.edu/~pff/papers/seg-ijcv.pdf）
などに詳しい。

　特有特徴量算出部１６は、１枚の選択画像の各領域の特徴量と、１枚の関連画像の各領域との特徴量を照合を繰り返すことにより、選択画像に特有な特徴量を算出する。

　このような面ベースな特徴量を用いる処理のイメージを図２２に示す。図２２では、特徴量情報抽出部１４が、選択画像（ID3）を５つの領域に分割し、特徴量情報抽出部２４が、２枚の関連画像（ID2，ID4）をそれぞれ６つの領域に分割したものである。

　特有特徴量算出部１６は、選択画像（ID3）の５つの領域のそれぞれと、１枚の関連画像（ID2）の６つの領域のそれぞれの特徴量を比較して、比較結果を示す値（a_1,1,a_1,2，a_1,3， a_1,4，a_1,5，a_1,6, a² _1,1，a² _1,2，a² _1,3，a² _1,4，a² _1,5，a² _1,6，．．．）を算出する。また、同様に、選択画像（ID3）の５つの領域のそれぞれと、１枚の関連画像（ID4）の６つの領域のそれぞれの特徴量を比較して、比較結果を示す値（b_1,1,b_1,2，b_1,3， b_1,4，b_1,5，b_1,6, b² _1,1，b² _1,2，b² _1,3，b² _1,4，b² _1,5，b² _1,6，．．．）を算出する。そして、特有特徴量算出部１６は、これらの値を、実施の形態で説明したような手法に用いることで選択画像に特有な特徴量を算出することとなる。

　なお、図２２の例では、１つの画像（選択画像または関連画像）を一通りのやり方で領域分割しているが、領域分割に用いるパラメータ（例えば、スケール）を多段階に設定することにより、特徴量の比較を多段階にするとしても構わない。また、点ベースな特徴量と面ベースな特徴量との双方を組み合わせる手法も考えられる。

　（８）実施の形態の、特有特徴量算出部１６は、画像の中央にある一致点の特徴量は正標本として学習し、画像の周辺にある一致点の特徴量は負標本として学習する例を説明した（図７のＳ７２，Ｓ７３、図８参照）がこれに限られない。画像のメタデータを利用して、正標本／負標本とする領域を決定しても構わない。

　図２３（ａ）の例では、画像Ａのメタデータに含まれるフォーカスエリアの情報を利用して、画像Ａのフォーカスエリア２３１を正標本とする領域とし、それ以外を負標本とする領域としている。

　図２３（ｂ）の例では、画像Ｂのメタデータに含まれる被写界深度に関する情報を利用して、画像Ｂでピントが合っている領域２３２を正標本とする領域とし、それ以外を負標本とする領域としている。なお、被写界深度に関する情報の例としては、絞り値、焦点距離および撮影距離（被写体とカメラの間の距離）などが挙げられる。また、撮影機器が３Ｄカメラの場合には、左画像と右画像との視差から画素単位で被写界深度を求めることも考えられる。

　図２３（ｃ）の例では、画像Ｘに対してズームインされた画像Ｃにおいて、ズームインの中心点を中心にした領域２３３を正標本とする領域とし、それ以外を負標本とする領域としている。これは撮影者がズームインの中心点を注目したと推定されるからである。

　なお、ズームインの有無や中心点の判定手法としては、例えば、画像Ｃのメタデータとしてズームインの有無やズームの中心点を示す情報があればそれを利用してもよいし、また、画像Ｃのメタデータに含まれるデジタルズーム比率と、画像Ｘ（撮影時刻が画像Ｃの直前の画像である。）のメタデータに含まれるデジタルズーム比率との両者を比較してズームインを判定してもよい。

　図２３（ｄ）の例では、画像Ｙに対してズームアウトされた画像Ｄにおいて、ズームアウトの中心点を中心にした領域２３４を負標本とする領域とし、それ以外の領域２３５を正標本とする領域としている。これは、撮影者がそれまで写っていた領域の周囲を注目したと推定されるからである。なお、ズームアウトの有無や中心点の判定手法はズームインと同様の手法を用いることができる。

　これら正標本とする領域（主エリア）を用いた場合の、特有特徴量算出部１６における処理の流れについて、図２４を用いて説明する。

　図７と同様のマッチング処理（Ｓ７１）後、特有特徴量算出部１６は、選択画像のメタデータと、必要に応じて関連画像のメタデータとから、選択画像の主エリアを決定する（Ｓ２４１）。

　そして、特有特徴量算出部１６は、画像の主エリアにある一致点の特徴量は正標本として学習し（Ｓ２４２）、これに対して、画像の主エリア以外の領域にある一致点の特徴量は負標本として学習する（Ｓ２４３）。

　以上のように、画像のメタデータを手がかりに正標本／負標本とする領域を決定することで、撮影者の意図に沿う結果を得ることを図ることができる。

　（９）実施の形態で説明したモデルデータを用いた画像分類の手法は、複数の装置が連携してなる、クラウドベースのサービスとして提供することも可能である。

　図２５の例では、クラウドベースなサーバ２５０は、ＡＶ機器２６０、パーソナルコンピュータ２６１、携帯デバイス２６２、デジタルカメラ２６３などのユーザ装置とネットワークを介してデータの送受信が可能であり、これらユーザ装置からデータを取得してモデルデータの作成や画像の分類を行う機能を有する。

　クラウドベースなサーバ２５０は、画像分類装置１（図１参照）と基本的には同様な機能ブロックを備えている。異なる部分を説明すると、ユーザ装置から画像などのデータを取得する取得部２５１、画像などのデータを蓄積するデータ蓄積部２５２、選択受付部１２および関連画像特定部２２を含み選択画像および関連画像を特定する特定部２５３、特徴量情報抽出部１４および特徴量情報抽出部１６を含み選択画像および関連画像から特徴量を抽出する抽出部２５４を備える。

　サーバ２５０において、実施の形態で説明した主要な処理をすべて行うとしてもよいが、処理の分担については以下のような観点からいくつかのバリエーションが考えられる。ユーザ装置としてデジタルカメラ２６３を取り上げて説明する。

　演算処理負荷の観点から・・・デジタルカメラ２６３はサーバ２５０と比べると高速演算処理に不向きであるものの、比較的軽い処理ならば負わせても構わないこともある。例えば、特徴量情報の抽出に関する負荷の軽い処理をデジタルカメラ２６３に担当させ、負荷の重い処理をサーバ２５０に負わせてもよい。

　ストレージ容量・利用場面の観点から・・・デジタルカメラ２６３のストレージ容量はサーバ２５０と比べる少ない場合が考えられる（この反対の場合もあり得る）。このため、比較的サイズが大きくなりがちなデータ（例えば、画像のオリジナルのデータ）はサーバ２５０上に蓄積させ、サイズが小さいデータ（例えば、画像のサムネイルやモデルデータ）はデジタルカメラ２６３に蓄積されることが考えられる。また、デジタルカメラ２６３において頻繁に利用するであろうデータは、ローカルに蓄積させておく態様も考えられる。

　回線容量の観点から・・・デジタルカメラ２６３とサーバ２５０との間を結ぶ回線速度が十分でない場合もある。このため、デジタルカメラ２６３からサーバ２５０へと画像データを送る際には、予めデジタルカメラ２６３において、解像度を落としたり、使用可能性の低いメタデータを削除したりして画像のサイズを削減した後で送ることが考えられる。

　＜補足２＞
　本実施の形態は、以下の態様を含むものである。
（１）モデルデータを用いて画像を分類する画像分類装置であって、蓄積された複数の画像の中から、画像の選択をユーザから受け付ける受付手段と、受け付けた画像それぞれの第１特徴量を抽出する第１抽出手段と、前記受け付けた画像毎に、前記複数の画像の中から関連する関連画像を特定する特定手段と、特定された関連画像それぞれの第２特徴量を抽出する第２抽出手段と、抽出された第１特徴量および第２特徴量の局所性に基づいて、受け付けた画像の対象物に特有な特徴を示す第３特徴量を算出する算出手段と、算出された第３特徴量に基づいてモデルデータを作成するモデル作成手段と、を備えることを特徴とする画像分類装置。
（２）前記算出手段は、受け付けた画像毎に、当該画像の前記第１特徴量と当該画像の関連画像の第２特徴量とを照合することにより、前記第３特徴量を算出するとしても構わない。
（３）前記第１抽出手段が抽出する前記第１特徴量および前記第２抽出手段が抽出する前記第２特徴量は、抽出対象とする画像内の複数の領域各々についての特徴量であるとしても構わない。
（４）前記算出手段は、前記照合に際して、
　画像内の中央の領域に対応する第１特徴量と第２特徴量とが一致していれば、受け付けた画像の一致点における第１特徴量の重み付けを高くし、画像内の前記中央の領域でない領域に対応する第１特徴量と第２特徴量とが一致していれば、受け付けた画像の不一致点における第１特徴量の重み付けを低くして前記第３特徴量を算出するとしても構わない。
（５）前記局所特徴量は、キーポイント記述子、エッジ特徴量および特定物体認識を示す情報の少なくともひとつを表す量であるとしても構わない。
（６）前記算出手段は、前記受け付けた画像および前記関連画像それぞれに付加されたメタデータに基づいて、受け付けた画像における主エリアを決定し、前記照合に際して、決定された主エリアに対応する第１特徴量と第２特徴量とが一致していれば、受け付けた画像の一致点における第１特徴量の重み付けを高くし、画像内の前記主エリアではない領域に対応する第１特徴量と第２特徴量とが一致していれば、受け付けた画像の不一致点における第１特徴量の重み付けを低くして前記第３特徴量を算出するとしても構わない。
（７）前記局所特徴量は、カラーヒストグラムであり、前記算出手段は、前記照合に先立って、前記受け付けた画像毎に、画像の色分布と当該画像の関連画像の色分布とを比較し、比較の結果、色分布が不一致である関連画像の領域に対応する第２特徴量については、前記照合の対象から除外するとしても構わない。
（８）前記第１抽出手段および前記第２抽出手段は、抽出に先立って、それぞれ前記受け付けた画像および前記関連画像を複数の領域に分割し、分割した領域各々から前記第１特徴量または第２特徴量を抽出し、前記算出手段による前記照合は、分割した領域単位で行うとしても構わない。
（９）前記特定手段は、前記受け付けた画像毎に、同じイベントに属する画像群を前記関連画像として特定するとしても構わない。
（１０）前記特定手段は、前記受け付けた画像毎に、同じ撮影パターンに属する画像群を前記関連画像として特定するとしても構わない。
（１１）前記複数の画像を構成する画像毎の特徴量を基に、標準的な特徴量を計算する計算手段と、計算された標準的な特徴量を用いて、第１抽出手段により抽出された第１特徴量それぞれの標準性の高低を判定する判定手段とを備え、前記算出手段は、標準性が低い第１特徴量については重み付けを高くし、かつ、標準性が高い第１特徴量については重み付けを低くすることにより前記第３特徴量を算出するとしても構わない。
（１２）前記計算手段は、前記全画像毎の特徴量を、分類器を用いて一定の類似性を持つ特徴群に分類し、その特徴群内の特徴量数が一定数または一定頻度以上で存在している特徴量を前記標準的な特徴量とみなすとしても構わない。
（１３）前記計算手段は、前記全画像毎の特徴量を、各画像のイベント単位で特徴群に分類し、その特徴群内の特徴量数が一定数または一定頻度以上で存在している特徴量を用いて、前記標準的な特徴量を計算するとしても構わない。
（１４）前記イベントとは、非撮影時の時間間隔、一定時間内の撮影頻度、一定時間内の登場人物数、一定時間内の物体数、一定時間内の登場人物、一定時間内の物体の頻度、のうちの少なくとも１つに基づいて規定されたものであるか、撮影時のカメラパラメータ、撮影場所の地理情報、遷移情報、画像の構図情報、画像内における特徴量の出現位置に関する情報、のうちの少なくとも１つに基づいて規定されたものであるとしても構わない。
（１５）作成されたモデルデータへの適合性を判定することにより、前記複数の画像を分類する分類手段と、モデルデータの識別子と、当該モデルデータに適合する画像群を表示する表示手段と、表示された画像群について、モデルデータの修正に関する内容を受け付ける修正受付手段とを備え、前記モデル作成手段は、前記受付手段が受け付けた内容に基づき、前記作成したモデルデータを更新するとしても構わない。
（１６）モデルデータを用いて画像を分類する画像分類方法であって、
　蓄積された複数の画像の中から、画像の選択をユーザから受け付ける受付ステップと、受け付けた画像それぞれの第１特徴量を抽出する第１抽出ステップと、前記受け付けた画像毎に、前記複数の画像の中から関連する関連画像を特定する特定ステップと、特定された関連画像それぞれの第２特徴量を抽出する第２抽出ステップと、抽出された第１特徴量および第２特徴量の局所性に基づいて、受け付けた画像の対象物に特有な特徴を示す第３特徴量を算出する算出ステップと、算出された第３特徴量に基づいてモデルデータを作成するモデル作成ステップと、を含む画像分類方法
（１７）画像分類処理を画像分類装置に実行させるプログラムであって、前記画像分類処理は、蓄積された複数の画像の中から、画像の選択をユーザから受け付ける受付ステップと、受け付けた画像それぞれの第１特徴量を抽出する第１抽出ステップと、前記受け付けた画像毎に、前記複数の画像の中から関連する関連画像を特定する特定ステップと、特定された関連画像それぞれの第２特徴量を抽出する第２抽出ステップと、抽出された第１特徴量および第２特徴量の局所性に基づいて、受け付けた画像の対象物に特有な特徴を示す第３特徴量を算出する算出ステップと、算出された第３特徴量に基づいてモデルデータを作成するモデル作成ステップの各ステップを含むことを特徴とするプログラム。
（１８）画像分類装置に画像分類処理を実行させるプログラムを記録した記録媒体であって、前記画像分類処理は、蓄積された複数の画像の中から、画像の選択をユーザから受け付ける受付ステップと、受け付けた画像それぞれの第１特徴量を抽出する第１抽出ステップと、前記受け付けた画像毎に、前記複数の画像の中から関連する関連画像を特定する特定ステップと、特定された関連画像それぞれの第２特徴量を抽出する第２抽出ステップと、抽出された第１特徴量および第２特徴量の局所性に基づいて、受け付けた画像の対象物に特有な特徴を示す第３特徴量を算出する算出ステップと、算出された第３特徴量に基づいてモデルデータを作成するモデル作成ステップの各ステップを含むことを特徴とする記録媒体
（１９）モデルデータを用いて画像を分類する集積回路であって、蓄積された複数の画像の中から、画像の選択をユーザから受け付ける受付手段と、受け付けた画像それぞれの第１特徴量を抽出する第１抽出手段と、前記受け付けた画像毎に、前記複数の画像の中から関連する関連画像を特定する特定手段と、特定された関連画像それぞれの第２特徴量を抽出する第２抽出手段と、抽出された第１特徴量および第２特徴量の局所性に基づいて、受け付けた画像の対象物に特有な特徴を示す第３特徴量を算出する算出手段と、算出された第３特徴量に基づいてモデルデータを作成するモデル作成手段と、を備えることを特徴とする集積回路
（２０）蓄積された複数の画像の中から、画像の選択をユーザから受け付ける受付手段と、受け付けた画像それぞれの第１特徴量を抽出する第１抽出手段と、前記受け付けた画像毎に、前記複数の画像の中から関連する関連画像を特定する特定手段と、特定された関連画像それぞれの第２特徴量を抽出する第２抽出手段と、抽出された第１特徴量および第２特徴量の局所性に基づいて、受け付けた画像に特有な特徴を示す第３特徴量を算出する算出手段と、算出された第３特徴量に基づいてモデルデータを作成するモデル作成手段と、を備えることを特徴とするモデル作成装置。
（２１）クラウドベースなサーバにおいて、モデルデータを用いた画像の分類をする画像分類方法であって、サーバにおいて、ユーザ装置から画像を取得する取得ステップと、サーバにおいて、取得した画像を蓄積する蓄積ステップと、サーバにおいて、蓄積された画像の中から、一の画像と前記一の画像に関連する関連画像を特定する特定ステップと、サーバにおいて、前記一の画像の第１特徴量を抽出し、前記関連画像それぞれの第２特徴量を抽出する抽出ステップと、サーバにおいて、抽出された第１特徴量および第２特徴量の局所性に基づいて、受け付けた画像の対象物に特有な特徴を示す第３特徴量を算出する算出ステップと、サーバにおいて、算出された第３特徴量に基づいてモデルデータを作成するモデルステップと、サーバにおいて、蓄積された画像を、作成されたモデルデータを用いて分類する分類ステップとを含むことを特徴とする画像分類方法。

　本実施の形態に係る画像分類装置は、ユーザが選択した登録対象を含む画像群が少ない場合であっても、その画像群に関連する情報をユーザのローカルデータから抽出しローカルデータ内で標準的に存在する特徴を判別することによって、ローカルデータ内で登録対象に対して分類性能の高いモデルデータとすることができるため、ユーザの好みの対象を簡単に登録し効率的に登録対象を含む画像群を抽出することが可能となる。つまり、ユーザの少ない操作でもローカルデータ内において特に分類性能が高いモデルデータを生成することが可能となり、各ユーザにとって好みの対象を含む画像群を精度良く抽出することができるため、各ユーザが効率的に好みの画像を扱う事ができる。

　例えば、画像の整理や検索をする際に、ユーザが好きな対象を簡単に登録することができ、その登録対象を含む画像群を自動的に妥当な精度で抽出することができることによって、効率的に好きな対象を含む画像群を抽出できるため、様々な画像処理端末機に有用である。また、DVDレコーダーやTVやデータサーバー等の用途にも応用できる。さらには、画像分類用途のソフトウェアとして提供することもできる。

１，２，３，４　画像分類装置
５　モデル作成装置
１０　ローカルデータ蓄積部
１２　選択受付部
１３　修正受付部
１４　特徴量情報抽出部（第１抽出部）
１６　特有特徴量算出部
２２　関連画像特定部
２４　特徴量情報抽出部（第２抽出部）
３０　モデル学習部
３２　モデル蓄積部
３４　分類部
３６　画像表示部
２５０　サーバ

Claims

　モデルデータを用いて画像を分類する画像分類装置であって、
　蓄積された複数の画像の中から、画像の選択をユーザから受け付ける受付手段と、
　受け付けた画像それぞれの第１特徴量を抽出する第１抽出手段と、
　前記受け付けた画像毎に、前記複数の画像の中から関連する関連画像を特定する特定手段と、
　特定された関連画像それぞれの第２特徴量を抽出する第２抽出手段と、
　抽出された第１特徴量および第２特徴量の局所性に基づいて、受け付けた画像の対象物に特有な特徴を示す第３特徴量を算出する算出手段と、
　算出された第３特徴量に基づいてモデルデータを作成するモデル作成手段と、
を備えることを特徴とする画像分類装置。
　前記算出手段は、受け付けた画像毎に、当該画像の前記第１特徴量と当該画像の関連画像の第２特徴量とを照合することにより、前記第３特徴量を算出する
ことを特徴とする請求項１に記載の画像分類装置。
　前記第１抽出手段が抽出する前記第１特徴量および前記第２抽出手段が抽出する前記第２特徴量は、抽出対象とする画像内の複数の領域各々についての特徴量である
ことを特徴とする請求項２に記載の画像分類装置。
　前記算出手段は、前記照合に際して、
　画像内の中央の領域に対応する第１特徴量と第２特徴量とが一致していれば、受け付けた画像の一致点における第１特徴量の重み付けを高くし、
　画像内の前記中央の領域でない領域に対応する第１特徴量と第２特徴量とが一致していれば、受け付けた画像の不一致点における第１特徴量の重み付けを低くして前記第３特徴量を算出する
ことを特徴とする請求項３に記載の画像分類装置。
　前記局所特徴量は、キーポイント記述子、エッジ特徴量および特定物体認識を示す情報の少なくともひとつを表す量である
ことを特徴とする請求項３に記載の画像分類装置。
　前記算出手段は、前記受け付けた画像および前記関連画像それぞれに付加されたメタデータに基づいて、受け付けた画像における主エリアを決定し、
　前記照合に際して、決定された主エリアに対応する第１特徴量と第２特徴量とが一致していれば、受け付けた画像の一致点における第１特徴量の重み付けを高くし、
　画像内の前記主エリアではない領域に対応する第１特徴量と第２特徴量とが一致していれば、受け付けた画像の不一致点における第１特徴量の重み付けを低くして前記第３特徴量を算出する
ことを特徴とする請求項３に記載の画像分類装置。
　前記局所特徴量は、カラーヒストグラムであり、
　前記算出手段は、前記照合に先立って、前記受け付けた画像毎に、画像の色分布と当該画像の関連画像の色分布とを比較し、比較の結果、色分布が不一致である関連画像の領域に対応する第２特徴量については、前記照合の対象から除外する
ことを特徴とする請求項３に記載の画像分類装置。
　前記第１抽出手段および前記第２抽出手段は、抽出に先立って、それぞれ前記受け付けた画像および前記関連画像を複数の領域に分割し、分割した領域各々から前記第１特徴量または第２特徴量を抽出し、
　前記算出手段による前記照合は、分割した領域単位で行う
ことを特徴とする請求項２に記載の画像分類装置。
　前記特定手段は、前記受け付けた画像毎に、同じイベントに属する画像群を前記関連画像として特定する
ことを特徴とする請求項１に記載の画像分類装置。
　前記特定手段は、前記受け付けた画像毎に、同じ撮影パターンに属する画像群を前記関連画像として特定する
ことを特徴とする請求項１に記載の画像分類装置。
　前記複数の画像を構成する画像毎の特徴量を基に、標準的な特徴量を計算する計算手段と、
　計算された標準的な特徴量を用いて、第１抽出手段により抽出された第１特徴量それぞれの標準性の高低を判定する判定手段とを備え、
　前記算出手段は、
　　標準性が低い第１特徴量については重み付けを高くし、かつ、
　　標準性が高い第１特徴量については重み付けを低くすることにより前記第３特徴量を算出する
ことを特徴とする請求項１に記載の画像分類装置。
　前記計算手段は、前記全画像毎の特徴量を、分類器を用いて一定の類似性を持つ特徴群に分類し、その特徴群内の特徴量数が一定数または一定頻度以上で存在している特徴量を前記標準的な特徴量とみなす
　ことを特徴とする請求項１１に記載の画像分類装置。
　前記計算手段は、前記全画像毎の特徴量を、各画像のイベント単位で特徴群に分類し、その特徴群内の特徴量数が一定数または一定頻度以上で存在している特徴量を用いて、前記標準的な特徴量を計算する
　ことを特徴とする請求項１１に記載の画像分類装置。
　前記イベントとは、
　非撮影時の時間間隔、一定時間内の撮影頻度、一定時間内の登場人物数、一定時間内の物体数、一定時間内の登場人物、一定時間内の物体の頻度、のうちの少なくとも１つに基づいて規定されたものであるか、
　撮影時のカメラパラメータ、撮影場所の地理情報、遷移情報、画像の構図情報、画像内における特徴量の出現位置に関する情報、のうちの少なくとも１つに基づいて規定されたものである
ことを特徴とする請求項１３に記載の画像分類装置。
　作成されたモデルデータへの適合性を判定することにより、前記複数の画像を分類する分類手段と、
　モデルデータの識別子と、当該モデルデータに適合する画像群を表示する表示手段と、
　表示された画像群について、モデルデータの修正に関する内容を受け付ける修正受付手段とを備え、
　前記モデル作成手段は、前記受付手段が受け付けた内容に基づき、前記作成したモデルデータを更新する
ことを特徴とする請求項１に記載の画像分類装置。
　モデルデータを用いて画像を分類する画像分類方法であって、
　蓄積された複数の画像の中から、画像の選択をユーザから受け付ける受付ステップと、
　受け付けた画像それぞれの第１特徴量を抽出する第１抽出ステップと、
　前記受け付けた画像毎に、前記複数の画像の中から関連する関連画像を特定する特定ステップと、
　特定された関連画像それぞれの第２特徴量を抽出する第２抽出ステップと、
　抽出された第１特徴量および第２特徴量の局所性に基づいて、受け付けた画像の対象物に特有な特徴を示す第３特徴量を算出する算出ステップと、
　算出された第３特徴量に基づいてモデルデータを作成するモデル作成ステップと、
を含む画像分類方法。
　画像分類処理を画像分類装置に実行させるプログラムであって、
　前記画像分類処理は、
　　蓄積された複数の画像の中から、画像の選択をユーザから受け付ける受付ステップと、
　　受け付けた画像それぞれの第１特徴量を抽出する第１抽出ステップと、
　　前記受け付けた画像毎に、前記複数の画像の中から関連する関連画像を特定する特定ステップと、
　　特定された関連画像それぞれの第２特徴量を抽出する第２抽出ステップと、
　　抽出された第１特徴量および第２特徴量の局所性に基づいて、受け付けた画像の対象物に特有な特徴を示す第３特徴量を算出する算出ステップと、
　　算出された第３特徴量に基づいてモデルデータを作成するモデル作成ステップの各ステップを含むことを特徴とするプログラム。
　画像分類装置に画像分類処理を実行させるプログラムを記録した記録媒体であって、
　前記画像分類処理は、
　　蓄積された複数の画像の中から、画像の選択をユーザから受け付ける受付ステップと、
　　受け付けた画像それぞれの第１特徴量を抽出する第１抽出ステップと、
　　前記受け付けた画像毎に、前記複数の画像の中から関連する関連画像を特定する特定ステップと、
　　特定された関連画像それぞれの第２特徴量を抽出する第２抽出ステップと、
　　抽出された第１特徴量および第２特徴量の局所性に基づいて、受け付けた画像の対象物に特有な特徴を示す第３特徴量を算出する算出ステップと、
　　算出された第３特徴量に基づいてモデルデータを作成するモデル作成ステップの各ステップを含むことを特徴とする記録媒体。
　モデルデータを用いて画像を分類する集積回路であって、
　蓄積された複数の画像の中から、画像の選択をユーザから受け付ける受付手段と、
　受け付けた画像それぞれの第１特徴量を抽出する第１抽出手段と、
　前記受け付けた画像毎に、前記複数の画像の中から関連する関連画像を特定する特定手段と、
　特定された関連画像それぞれの第２特徴量を抽出する第２抽出手段と、
　抽出された第１特徴量および第２特徴量の局所性に基づいて、受け付けた画像の対象物に特有な特徴を示す第３特徴量を算出する算出手段と、
　算出された第３特徴量に基づいてモデルデータを作成するモデル作成手段と、
を備えることを特徴とする集積回路。
　蓄積された複数の画像の中から、画像の選択をユーザから受け付ける受付手段と、
　受け付けた画像それぞれの第１特徴量を抽出する第１抽出手段と、
　前記受け付けた画像毎に、前記複数の画像の中から関連する関連画像を特定する特定手段と、
　特定された関連画像それぞれの第２特徴量を抽出する第２抽出手段と、
　抽出された第１特徴量および第２特徴量の局所性に基づいて、受け付けた画像に特有な特徴を示す第３特徴量を算出する算出手段と、
　算出された第３特徴量に基づいてモデルデータを作成するモデル作成手段と、
を備えることを特徴とするモデル作成装置。
　クラウドベースなサーバにおいて、モデルデータを用いた画像の分類をする画像分類方法であって、
　サーバにおいて、ユーザ装置から画像を取得する取得ステップと、
　サーバにおいて、取得した画像を蓄積する蓄積ステップと、
　サーバにおいて、蓄積された画像の中から、一の画像と前記一の画像に関連する関連画像を特定する特定ステップと、
　サーバにおいて、前記一の画像の第１特徴量を抽出し、前記関連画像それぞれの第２特徴量を抽出する抽出ステップと、
　サーバにおいて、抽出された第１特徴量および第２特徴量の局所性に基づいて、受け付けた画像の対象物に特有な特徴を示す第３特徴量を算出する算出ステップと、
　サーバにおいて、算出された第３特徴量に基づいてモデルデータを作成するモデルステップと、
　サーバにおいて、蓄積された画像を、作成されたモデルデータを用いて分類する分類ステップ
とを含むことを特徴とする画像分類方法。