WO2011092793A1

WO2011092793A1 - データ処理装置

Info

Publication number: WO2011092793A1
Application number: PCT/JP2010/007518
Authority: WO
Inventors: 亮一川西; 上野山　努; 石田　明
Original assignee: パナソニック株式会社
Priority date: 2010-01-29
Filing date: 2010-12-24
Publication date: 2011-08-04
Also published as: US20120117069A1; CN102356393B; US8583647B2; EP2530605A1; JPWO2011092793A1; JP5576384B2; EP2530605A4; CN102356393A

Abstract

　ユーザデータに特化したオブジェクトが存在する場合においてもユーザが分類結果に満足することのできるデータ処理装置を提供することを目的とする。　データ処理装置は、複数の特徴量それぞれの検出頻度の組み合わせからなる複数のモデルデータを保持しており、前記複数のモデルデータと識別対象のデータで検出される２つ以上の特徴量それぞれの検出頻度とから当該データに含まれるオブジェクトを識別の可否を特定する処理を行い、複数の識別対象データについて前記処理を行った後、オブジェクトの識別がされなかった未識別データが複数存在する場合、検出される頻度が同一である未識別データが一定数以上となる特徴量を２つ以上特定し、新たなモデルデータを、クラス作成手法により、特定された２つ以上の特徴量に基づいて作成し、前記複数のモデルデータとともに保持する。

Description

データ処理装置

　本発明は、複数の画像を自動的に、予め定められたカテゴリに分類する画像処理の技術に関するものである。

　近年、例えば被写体像を撮像するＤＳＣ（Ｄｉｇｉｔａｌ　Ｓｔｉｌｌ　Ｃａｍｅｒａ）や携帯電話カメラ及びデジタルムービーカメラが広く普及し、さらには、画像データ保存用の記録媒体は大規模化が進んでいる。そのため、個人ユーザでも膨大な量の画像や動画等のＡＶ（ＡｕｄｉｏＶｉｄｅｏ）コンテンツを保有できる様になっている。しかし、ユーザが膨大な量の画像群や動画群から、ユーザにとって必要な画像や動画を探すことは、多大な時間と労力を必要とする。

　そこで、ユーザの所望画像を効率的に探せる様に自動で画像にタグ付けし整理する事ができる画像インデキシング技術がある。

　ここで、画像を自動的にタグ付けするための画像インデキシング技術として様々な手法が存在している。例えば、時間や場所情報を用いてイベントを推定する技術や顔検出技術等の特定物体の検出、または色やテクスチャ情報の類似度により類似画像を検出してタグ付けし検索時に利用する。しかし、様々な場所で撮影される画像には色々な物体や風景が存在する。そのため、一般物体を認識または分類する画像インデキシング技術が提案されている。

　従来の一般物体認識技術としては、物体を輝度値等の画像における基本特徴量や局所的な特徴量群に基づいてモデル化し、画像から検出された特徴量とマッチングを行い認識している。この認識技術は、一般に多くのコンピュータビジョン・アプリケーションとして利用されている。また、従来の手法と比べて高速高精度に多数の画像を認識するために、入力イメージを表す特徴ベクトルを生成し、複数の異なる分類器を用いて処理した出力結果の組み合わせに基づいて入力イメージを自動分類する装置を提供する技術が知られている（例えば、特許文献１参照）。この手法により、物体の特徴をより高速に様々な観点で算出する事を可能としている。

　そして、物体が様々な動きや変化をすることに着目し、物体が任意の方法で相互に相手を基準に移動可能ないくつかの部分からなる階層型の物体認識モデルを自動的に学習することで、物体を検索する方法が知られている（例えば、特許文献２参照）。

特開２００８－９７６０７号公報特開２００９－１０４６６６号公報

　通常、上述した画像インデキシング技術では、ユーザデータに特化した分類ではなく、一般的な物体に有効なモデルを定義して分類することを前提としている。そのため、例えば、特許文献１で開示された構成では、画像から算出された特徴ベクトルを複数の分類器の重み付き組み合わせ出力に基づいて分類するので、定義可能なある範囲内の物体については有効に働くが、一般的な物体全てをカバーできる程の処理能力はなく、定義されていない物体の検出やユーザにとって重要な物体を検出することはできるとは限らない。

　つまり、従来技術ではユーザデータに特化したオブジェクトを分類するとは限らないので、ユーザにとっては分類結果が満足するものではないという問題が生じる。

　そこで、本発明は、上記の問題に鑑みて、ユーザデータに特化したオブジェクトが存在する場合においてもユーザが分類結果に満足することのできるデータ処理装置、画像処理方法、プログラム及び集積回路を提供することを目的とする。

　上記目的を達成するために、本発明は、データ処理装置であって、複数の特徴量それぞれの検出頻度の組み合わせからなり、オブジェクトの分類に用いられる複数のモデルデータを保持する記憶手段と、前記複数のモデルデータと、分類対象のデータにおいて検出される２つ以上の特徴量それぞれの検出頻度とから、当該データに含まれるオブジェクトの分類の可否を特定する分類手段と、複数の分類対象のデータについて前記分類手段による処理を行った後、オブジェクトの分類が否と特定された未識別データが複数存在する場合、検出される頻度が同一である未識別データが一定数以上である特徴量を２つ以上特定する特定手段と、新たなモデルデータを、クラス作成手法により、特定された２つ以上の特徴量に基づいて作成し、前記記憶手段へ格納するモデル作成手段とを備えることを特徴とする。

　この構成によると、データ処理装置は、複数の未識別データを用いて、検出される頻度が同一である未識別データが一定数以上となる特徴量を２つ以上特定している。このような特定は、複数の未識別データにおいて同じオブジェクトを含む未識別データが多いからこそできるものである。そのため、特定された２つ以上の特徴量から新たなモデルデータを作成することで、複数の未識別データから同じオブジェクトを含む未識別データの分類を可能とすることができる。

　ここで、前記特定手段は、前記未識別データ毎に、前記複数の特徴量それぞれに対して当該特徴量に類似する特徴量が検出される検出頻度を取得し、前記未識別データそれぞれから取得された検出頻度から、前記複数の特徴量毎に検出頻度の分布度合を生成し、前記分布度合それぞれから、検出される頻度が同一である未識別データが一定数以上となる特徴量を２つ以上特定するとしてもよい。

　この構成によると、データ処理装置は、検出頻度の分布度合から、検出される頻度が同一である未識別データが一定数以上となる特徴量を２つ以上、容易に特定することができる。

　ここで、前記特定手段は、前記複数の未識別データを所定規則に従った区間毎にグループ化して複数のデータ群を生成し、前記データ群毎に、検出頻度の取得、分布度合の生成、及び特徴量の特定を行い、前記モデル作成手段は、前記データ群毎に新たなモデルデータを作成するとしてもよい。

　この構成によると、データ処理装置は、所定規則に従った区間毎に、検出される頻度が同一である未識別データが一定数以上となる特徴量を特定するので、区間毎に含まれるオブジェクトの分類が可能となる。

　ここで、前記未識別データそれぞれには、当該未識別データが作成された日時を示す時間情報が対応付けられており、前記所定規則に従った区間とは、一定の時間帯毎に区切られた期間であり、前記特定手段は、前記複数の未識別データを一定の時間帯に区切られた期間毎にグループ化して前記複数のデータ群を生成するとしてもよい。

　この構成によると、データ処理装置は、一定の時間帯毎に区切られた区間毎に、２つ以上の特徴量を特定している。これは、通常、同じような時間帯では同じオブジェクトを含むデータが作成されることが多いため、このような区間に区切ることで、区間毎に含まれるオブジェクトの分類が容易にできる。

　ここで、前記モデル作成手段は、複数の新たなモデルデータが作成された場合、一のデータ群において生成された一のモデルデータが、他のデータ群において生成された他のモデルデータと時間的推移による相関関係があるか否かを判定し、相関関係があると判定する場合には、当該一のモデルデータと当該他のモデルデータとを時間変化性をもつモデルデータとして対応付けるとしてもよい。

　この構成によると、データ処理装置は、異なるデータ群において生成された各モデルデータが時間的推移による相関関係がある場合には、これらモデルデータを時間変化性をもつものとして対応付けるので、これらモデルデータから分類されるデータを同一のオブジェクトを含むものとすることができる。

　ここで、前記モデル作成手段は、前記一のモデルデータを特徴付ける第１の特徴量の類似性の変化度と、前記他のモデルデータを特徴付ける第２の特徴量の類似性の変化度との間に比例関係がある場合に、相関関係があると判定するとしてもよい。

　この構成によると、データ処理装置は、異なるデータ群において生成された各モデルデータの類似性の変化度に比例関係がある場合に相関関係があると判定するので、容易に相関関係の有無を特定することができる。

　ここで、前記モデル作成手段は、一のデータ群において生成された一のモデルデータが、他のデータ群において生成された他のモデルデータと同一である場合又は残りのデータ群において当該一のモデルデータと同一のものが周期的に出現する場合には、当該一のモデルデータのみを前記記憶手段へ記憶するとしてもよい。

　この構成によると、データ処理装置は、一のデータ群において作成されたモデルデータと他のデータ群で作成されたモデルデータとが同一である場合には、当該一のモデルデータのみを記憶することで、記憶すべきモデルデータの重複を防ぐことができる。

　ここで、前記特定手段は、前記未識別データ全てを用いて、特徴量毎に対する算出頻度を取得し、取得した算出頻度が所定頻度以上である１つ以上の特徴量を特定し、前記オブジェクトの識別がされなかったデータ毎に、取得した１つ以上の特徴量それぞれに対する検出頻度を取得し、当該データ毎に取得された１つ以上の検出頻度から、前記分布度合を生成するとしてもよい。

　この構成によると、データ処理装置は、複数の特徴量それぞれに対して取得した算出頻度のうち、取得した算出頻度が所定頻度以上である１つ以上の特徴量を特定し、特定した１つ以上の特徴量それぞれに対する検出頻度を取得するので、全特徴量それぞれの検出頻度を取得する場合と比べて処理負荷が軽減される。

　ここで、前記データ処理装置は、さらに、前記複数の未識別データを表示する表示手段と、表示された未識別データから２つ以上のデータの指定をユーザから受け付ける指示受付手段を備え、前記特定手段は、前記指示受付手段で受け付けた前記２つ以上の未識別データそれぞれから取得される前記複数の特徴量毎の検出頻度から、または前記２つ以上のデータを除く残りのデータそれぞれから取得される前記複数の特徴量毎の検出頻度から、前記複数の特徴量毎の前記分布度合を作成するとしてもよい。

　この構成によると、データ処理装置は、所定数以上の未識別データのうち、ユーザから受け付けた２つ以上のデータから検出頻度を取得し、分布度合を作成するので、ユーザの意図が反映されたモデルデータを作成することができる。

　ここで、前記指示受付手段は、新たなモデルデータが未だ作成されていないときに、前記指示を受け付けるとしてもよい。

　この構成によると、データ処理装置は、新たなモデルデータが未だ作成されていないときに、ユーザからモデルデータを作成するためのデータを指定を受け付けるので、より確かなモデルデータを作成することができる。

　ここで、前記特定手段は、前記指示受付手段で受け付けた前記２つ以上の未識別データそれぞれについて、当該未識別データの作成日時に基づいて、当該作成日時が複数の期間のうち何れかの期間に属するよう、前記２つ以上の未識別データそれぞれをグループ分けし、グループ毎に前記分布度合を作成するとしてもよい。

　この構成によると、データ処理装置は、期間毎に分布度合を作成するので、モデル作成手段は期間毎のモデルデータを作成することができる。

　ここで、前記データ処理装置は、さらに、前記モデルデータ作成手段で作成された前記新たなモデルデータにより識別されるオブジェクトを有するとみされる複数のデータを表示する表示手段と、表示された複数のデータから２つ以上のデータの指定をユーザから受け付ける指示受付手段を備え、前記特定手段は、前記指示受付手段で受け付けた前記２つ以上のデータそれぞれから取得される前記複数の特徴量毎の検出頻度から、または前記２つ以上のデータを除く残りのデータそれぞれから取得される前記複数の特徴量毎の検出頻度から、前記複数の特徴量毎に前記分布度合とは異なる分布度合を作成し、前記モデルデータ作成手段は、前記異なる分布度合から前記新たなモデルデータとは異なるモデルデータを作成する　としてもよい。

　この構成によると、データ処理装置は、作成された新たなモデルデータにより識別されるオブジェクトを有するとみされる複数のデータから、ユーザから受け付けた２つ以上のデータから、再度モデルデータを作成し、しかも先に作成された新たなモデルデータに識別されるオブジェクトを有するとみされる複数のデータのうち識別されるべきものでないデータを除外することで、精度の高いモデルデータを再度作成することができる。

　ここで、前記データは画像であり、前記特定手段は、前記オブジェクトの識別がされなかった画像毎に、当該画像で検出される１つ以上の特徴量の類似度を用いて局所特徴群を生成し、各局所特徴群から前記検出頻度を取得するとしてもよい。

　この構成によると、データ処理装置は、オブジェクトの識別がされなかった画像に対する新たなモデルデータを作成するので、当該新たなモデルデータが作成された以後においては、当該新たなモデルデータに特化された画像を分類することができる。

データ処理装置１００の構成を示すブロック図である。ある画像において抽出されたＳＩＦＴ特徴量の一例を示す図である。ある画像において抽出された各ＶｉｓｕａｌＷｏｒｄの検出頻度の一例を示す図である。分類されなかった全ＡＶデータから抽出されたＶｉｓｕａｌＷｏｒｄ毎の検出頻度値の検出数から作成される類似度分布の一例を示す図である。第１基準パラメータテーブルＴ１００のデータ構造の一例を示す図である。第２基準パラメータテーブルＴ１１０のデータ構造の一例を示す図である。同一特徴量を算出する処理のフローチャートである。区間単位で同一特徴量を算出する処理のフローチャートである。同一特徴における限定特徴量空間によりローカルモデルを抽出する際のイメージの一例を示す図である。ローカルモデル作成部２０の構成を示すブロック図である。区間毎に存在する画像群の一例を示す図である。区間情報を抽出する処理を示すフローチャートである。区間毎に作成されたローカルモデルと時間継続性の一例を示す図である。区間毎に作成されたローカルモデルと経年変化性の一例を示す図である。ユーザインタラクション入力部３０を追加した際の構成を示すブロック図である。ユーザインタラクション入力部３０により表示される画像Ｇ１００の一例を示す図である。ユーザインタラクション入力部３０により表示される画像Ｇ２００の一例を示す図である。ユーザインタラクション入力部３０により表示される画像Ｇ３００の一例を示す図である。フィードバック処理を示すフローチャートである。データ処理装置１００ａの構成を示すブロック図である。データ処理装置１００ｂの構成を示すブロック図である。データ処理装置１００ｂにおいて同一特徴量を算出する処理のフローチャートである。基準特徴量と全画像との一致度から作成される一致度分布の一例を示す図である。

　以下本発明の実施の形態について、図面を参照しながら説明する。

　１．第１の実施の形態
　１．１　データ処理装置１００の構成
　以下、図面を参照して本発明に係る第１の実施の形態について説明する。本実施の形態は、家庭内等のローカルなＡＶ（ＡｕｄｉｏＶｉｄｅｏ）データ群を自動整理するデータ処理装置１００おいて、ローカルな分類モデルを生成し、ＡＶデータ群に精度良く自動タグ付けする仕組みに関するものである。ここでは、ＡＶデータとは、写真画像データや動画像データや音楽データ等を総称するものである。

　図１は、データ処理装置１００の構成を示すブロック図である。

　図１において、データ処理装置１００は、ローカルＤＢ（ＤａｔａＢａｓｅ：データベース）１、前処理部２、特徴量抽出部３、分類部４、基本辞書ＤＢ（データベース）５、検索インデクスＤＢ（データベース）６、未分類特徴ＤＢ（データベース）７、同一特徴抽出部８、ローカルモデル作成部９、ローカル辞書ＤＢ（データベース）１０及び基準パラメータＤＢ（データベース）１１とから構成されている。

　ここで、各ＤＢは、具体的には、ＨＤＤ（Ｈａｒｄ　Ｄｉｓｋ　Ｄｒｉｖｅ）やＤＶＤ（Ｄｉｇｉｔａｌ　Ｖｅｒｓａｔｉｌｅ　Ｄｉｓｋ）等の大容量メディアディスクや半導体メモリ等のストレージデバイスである。

　（１）ローカルＤＢ１
　ローカルＤＢ１は、家庭内等のファイルデータとして、例えば写真画像データや動画像データや音楽データ等のＡＶ（ＡｕｄｉｏＶｉｄｅｏ）データを記憶している。

　（２）前処理部２
　前処理部２は、ＡＶデータの特徴量を抽出する前に行う処理である。具体的には、前処理部２は、特徴量を抽出し易くするために、ＡＶデータの正規化処理、画像の領域分割処理による背景や物体領域を検出する処理、音声のパワー変化算出によるシーン区間を検出する処理を行う。

　（３）特徴量抽出部３
　特徴量抽出部３は、ＡＶデータの特徴量を抽出する処理である。具体的には、ＡＶデータが画像データである場合には、特徴量抽出部３は、エッジや色やテクスチャ等の低次特徴量から特徴的な点を中心に領域特徴量を現す特徴量記述子であるＳＵＲＦ（Ｓｐｅｅｄｅｄ　Ｕｐ　Ｒｏｂｕｓｔ　Ｆｅａｔｕｒｅｓ）やＳＩＦＴ（Ｓｃａｌｅ－Ｉｎｖａｒｉａｎｔ　Ｆｅａｔｕｒｅ　Ｔｒａｎｓｆｏｒｍ）等の特徴量、さらには物体の形状特徴を現すＨＯＧ（Ｈｉｓｔｏｇｒａｍ　ｏｆ　ｏｒｉｅｎｔｅｄ　Ｇｒａｄｉｅｎｔ）等の高次特徴が存在する。なお、藤吉弘亘著の「Ｇｒａｄｉｅｎｔベースの特徴抽出－　ＳＩＦＴとＨＯＧ　－」（情報処理学会研究報告ＣＶＩＭ　１６０，　ｐｐ．　２１１－２２４，　２００７）に詳細が記載されている。

　ＡＶデータが音声データである場合には、特徴量抽出部３は、音声パワー、ゼロクロス、スペクトラム関連特徴量や、ケプストラム関連特徴量や、クロマベクトルなどの特徴量がある。スペクトラム関連やケプストラム関連の特徴量としては、スペクトラムのロールオフ、ＭＦＣＣ（Ｍｅｌ　Ｆｒｅｑｕｅｎｃｙ　Ｃｅｐｓｔｒｕｍ　Ｃｏｅｆｆｉｃｉｅｎｔ）等がある。その他にも、ＭＰＥＧ７（Ｍｏｖｉｎｇ　Ｐｉｃｔｕｒｅ　Ｅｘｐｅｒｔｓ　Ｇｒｏｕｐ　Ｐｈａｓｅ　７）の規格の中で、ＭＰＥＧ７－Ａｕｄｉｏ　Ｆｅａｔｕｒｅｓとして記載されているものが多数ある。Ｌｏｗレベルでの特徴量としては、Ａｕｄｉｏ　Ｐｏｗｅｒ，　Ａｕｄｉｏ　Ｓｐｅｃｔｒｕｍ　Ｅｎｖｅｌｏｐｅ，　Ａｕｄｉｏ　Ｓｐｅｃｔｒｕｍ　Ｃｅｎｔｒｏｉｄ，　Ｈａｒｍｏｎｉｃ　Ｓｐｅｃｔｒａｌ　Ｄｅｖｉａｔｉｏｎ，　Ｈａｒｍｏｎｉｃ　Ｓｐｅｃｔｒａｌ　Ｓｐｒｅａｄ等がある。なお、Ｈｙｏｕｎｇ－Ｇｏｏｋ　Ｋｉｍ等著の「ＭＰＥＧ７　ＡＵＤＩＯ　ＡＮＤ　ＢＥＹＯＮＤ」（Ｊｏｈｎ　Ｗｉｌｅｙ　＆　Ｓｏｎｓ　Ｌｔｄ，　２００５）に詳細が記載されている。

　ここで一例として、ＡＶデータが画像データである場合の特徴量抽出部３の機能について、以下、説明する。

　特徴量抽出部３は、特徴量を抽出するための基準特徴量であるＶｉｓｕａｌＷｏｒｄが複数記憶されている辞書を予め有している。

　特徴量抽出部３は、画像内の特徴点を１つ以上抽出し、抽出した特徴点からＳＩＦＴ特徴量を算出する。特徴量抽出部３は、算出した全ＳＩＦＴ特徴量と、辞書内に記憶されている複数のＶｉｓｕａｌＷｏｒｄとを用いて、１つ以上のＢｏＦ（Ｂａｇ　Ｏｆ　Ｆｅａｔｕｒｅｓ）を生成する。特徴量抽出部３は、生成した１つ以上のＢｏＦを分類部４へ出力する。

　ここで、ＶｉｓｕａｌＷｏｒｄとは、様々なＳＩＦＴ特徴量における代表的な中心モデルとして算出されたものであり、人や家や傘などの一般的な物体形状の部分パーツや全体を表すものである。なお、ＶｉｓｕａｌＷｏｒｄ、特徴点の抽出、ＳＩＦＴ特徴量の算出、ＢｏＦの生成については公知の技術であるので、ここでの説明は省略する。

　（４）分類部４
　分類部４は、ＡＶデータから抽出された特徴量を用いて既存のモデルデータとのマッチング処理を行い、入力データがどのモデルと適合しているかの判定処理を行うものである。

　ここで、判定処理には、例えば、機械学習手法である判別器が用いられる。一般的な判別器として、ＧＭＭ（Ｇａｕｓｓｉａｎ　ｍｉｘｔｕｒｅ　ｍｏｄｅｌ）やＳＶＭ（Ｓｕｐｐｏｒｔ　Ｖｅｃｔｏｒ　Ｍａｃｈｉｎｅ）などが存在する。

　判別器に予め分類すべきカテゴリ毎に準備している分類基準データ、例えば後述する基本辞書ＤＢ５及びローカル辞書ＤＢ１０が蓄積しているモデル情報をセットし、サンプル入力情報（ここでは、ＡＶデータの１つ以上の各ＢｏＦ）を用いて分類項目の判別及びその判別信頼度としての尤度の算出を行う。ここで、尤度は一般的に値が大きいほど信頼度が高いことを意味する。

　分類部４は、判別器において、入力したＡＶデータに対して分類部４で一のモデルと適合した際に、その適合した一のモデルの分類情報と入力データであるＡＶデータと関連付けて（タグ付け）、検索インデクスＤＢ６へ蓄積する。

　分類部４は、判別器において、入力したＡＶデータに対して何れのモデルとも適合しない場合に、当該ＡＶデータに関連する未分類情報と関連付けて（タグ付け）、検索インデクスＤＢ６へ蓄積する。ここで、未分類情報とは、ＡＶデータを識別する識別子であり、例えばＡＶデータが画像である場合には画像に対応付けられた画像番号である。

　（５）基本辞書ＤＢ５
　基本辞書ＤＢ５は、予め分類部４で分類するためのカテゴリが定義されており、そのカテゴリを分類するために必要な各カテゴリのモデル情報が利用する特徴量に応じて蓄積されている。

　（６）検索インデクスＤＢ６
　検索インデクスＤＢ６は、入力したＡＶデータに対して分類部４で一のモデルと適合した際に、その適合したモデルの分類情報が入力データと関連付けられて蓄積される。

　（７）未分類特徴ＤＢ７
　未分類特徴ＤＢ７は、分類できなかったＡＶデータの未分類情報が蓄積される。

　（８）同一特徴抽出部８
　同一特徴抽出部８は、未分類特徴ＤＢ７に蓄積されている未分類情報に基づいて、分類されなかった複数のＡＶデータから特徴量の類似性及び特徴量の出現頻度等を算出し、一定の偏りが存在する際に同一物体から得られると推定される同一特徴を抽出するものである。

　同一特徴抽出部８は、例えば分類部４で分類の処理がされた場合に開始される。分類の処理が開始されると、同一特徴抽出部８は、未分類特徴ＤＢ７に蓄積されている未分類情報の数が同一特徴の抽出処理を開始するのに必要な一定以上の数になっているかどうかを判定する。例えば、後述する基準パラメータＤＢ１１で記憶されている第１基準パラメータテーブルＴ１００を用いて判定を行う。

　抽出処理を行うと判断する場合には、同一特徴抽出部８は、未分類特徴ＤＢ７に蓄積されている未分類情報それぞれから、当該未分類情報が示すＡＶデータから抽出される全特徴量のうちその算出頻度が一定以上である基準特徴量（ＶｉｓｕａｌＷｏｒｄ）を抽出する。ここで、基準特徴量のある種別ｘの算出頻度Ｆ（ｘ）は、例えば全ＡＶデータ数をＶ_ａｌｌ、特徴量ｘが１つ以上算出されたＡＶデータ数をＶ_{ｘ，ｃａｌ}、特徴量ｘが存在する各ＡＶデータから算出された特徴量ｘの平均数をＶ_{ｘ，ｏｎｅ}、として、以下の数式１によって算出される。

そして、同一特徴抽出部８は、算出したＦ（ｘ）の値と、後述する基準パラメータＤＢ１１で記憶されている第２基準パラメータテーブルＴ１１０を用いて、算出頻度の大きい基準特徴量のみを１つ以上抽出する。

　また、同一特徴抽出部８は、一のＡＶデータに対して基準特徴量それぞれに対する特徴量の類似度を算出する。例えば、基準特徴量がＶｉｓｕａｌＷｏｒｄである場合には各ＶｉｓｕａｌＷｏｒｄのモデルに対する距離を類似度として算出する。具体的には、図２と図３を用いて説明する。図２は、ある人と家と傘の写っている写真において抽出されたＳＩＦＴ特徴量を示すものである。ＳＩＦＴ特徴量は１枚の画像内における特徴的な点（図中に示す特徴点）が検出されその領域情報（図中のスケール）がＳＩＦＴ記述子として算出される。また、回転は、特徴点の特徴領域（スケール）の回転方向を捕らえる向きを示すものである。なお、特徴点、スケール及び回転は、従来技術の定義と同様のものであるので、詳細な説明は省略する。また、類似度の算出には、例えば同一特徴群のもつ多変量データを基にユークリッド距離やマハラノビス距離やミンコフスキー距離等を算出してその距離の近さを類似度とする。基本的な距離としてユークリッド平方距離が存在し、ｎ個体ｍ変量の特徴の観測値が得られているときに個体ｉと個体ｊとの非類似性を表す量として非類似度ｄ_ｉｊは下記の数式２によって算出できる。

　同一特徴抽出部８は、図２に示すように、分類されなかった全てのＡＶデータ（画像）毎に、当該ＡＶデータ内の全ＳＩＦＴ特徴量を算出する。そして、同一特徴抽出部８は、分類されなかった全てのＡＶデータに対して、図３に示すように各ＶｉｓｕａｌＷｏｒｄに類似するＳＩＦＴ特徴量として検出された数を検出頻度として算出する。

　そして、同一特徴抽出部８は、頻度の大きい基準特徴量として抽出された１つ以上の基準特徴量それぞれに対して、分類されなかった全てのＡＶデータそれぞれにおける当該基準特徴量に検出頻度から図４に示す類似度分布を作成し、その分布内のピーク値を算出する。ここで、ピーク値とは、例えば類似度分布における極大値から最近傍の極小値を引いた差分として算出することができる。

　以下に、図４に示すような各ＶｉｓｕａｌＷｏｒｄの類似度分布におけるピーク値の算出方法を具体的に説明する。

　同一特徴抽出部８は、全画像データ毎に図３に示すような検出頻度を算出し、各検出頻度値の検出数を算出することで、縦軸に検出頻度で横軸に検出数の類似度分布を作成する。ピーク値は、類似度分布における検出数の増減から極大値と極小値を算出し、各極大値から検出頻度が最も近い極小値の持つ検出数を用いて差分を取ることで算出する。

　同一特徴抽出部８は、そのピーク値を用いて同一物体性を判定可能だと推定されるピーク値を持つ基準特徴量を判定し、抽出する。同一特徴抽出部８は、抽出した基準特徴量を同一特徴としてローカルモデル作成部９へ出力する。なお、ピーク値の判定基準は、例えば、後述する第２基準パラメータテーブルＴ１１０を用いる。

　（９）ローカルモデル作成部９
　ローカルモデル作成部９は、同一特徴抽出部８で抽出された同一特徴を用いて、あるローカルＡＶデータ群に特有な物体のカテゴリを定義し、そのモデル情報を算出処理するものである。

　ローカルモデル作成部９は、具体的には、同一特徴抽出部８で抽出された同一特徴を用いて、ｋ－ｍｅａｎｓ手法等のクラス作成手法を用いて、分類されなかった複数のＡＶデータのうち当該同一特徴が検出される１つ以上のＡＶデータからなる類似データ群から、カテゴリの定義及び、モデル生成を行う。ｋ－ｍｅａｎｓ手法等のクラス作成手法は、既知の技術であるので、ここでの説明は省略する。

　（１０）ローカル辞書ＤＢ１０
　ローカル辞書ＤＢ１０は、ローカルモデル作成部９で算出されたカテゴリ定義及びそのカテゴリを分類するために必要なモデル情報が、利用する特徴量に応じて蓄積される。蓄積ＤＢは、例えばＨＤＤやＤＶＤ等の大容量メディアディスクや半導体メモリ等のストレージデバイスである。

　（１１）基準パラメータＤＢ１１
　基準パラメータＤＢ１１は、第１基準パラメータテーブルＴ１００と、第２基準パラメータテーブルＴ１１０とを記憶している。

　第１基準パラメータテーブルＴ１００は、同一特徴抽出部８にける処理開始の基準を示すものである。また、第２基準パラメータテーブルＴ１１０は、頻度の大きい基準特徴量、及びピーク値に基づく基準特徴量を抽出するための基準を示すものである。

　（１１－１）第１基準パラメータテーブルＴ１００
　第１基準パラメータテーブルＴ１００は、図５に示すように、データ種類と分類開始量基準パラメータからなる１つ以上の組からなる。

　データ種類は、分類対象となるデータの種別を示すものである。具体的には、データ種類は、静止画像、動画像、音声などである。分類開始量基準パラメータは、さらに、基準１、基準２、基準３、・・・から構成されている。基準１、基準２、基準３、・・・は対応するデータ種類の分類開始となるデータの数（量）を示すものである。

　同一特徴抽出部８は、例えば、分類対象が静止画像である場合には、分類されなかった静止画像において、基準１、基準２、・・・の何れかの基準が満たされると判断する場合に、分類を開始する。

　（１１－２）第２基準パラメータテーブルＴ１１０
　第２基準パラメータテーブルＴ１１０は、図６に示すように、データ種類と各種基準パラメータからなる１つ以上の組からなる。

　データ種類は、抽出対象となるデータの種別を示すものである。具体的には、データ種類は、静止画像、動画像、音声などである。各種基準パラメータは、頻度基準、ピーク値基準１、ピーク値基準２、・・・から構成されている。頻度基準は、対応するデータ種類において、算出頻度の大きい基準特徴量を抽出する際に用いられるものである。ピーク値基準１、ピーク値基準２、・・・は、対応するデータ種類において、同一物体性を判定可能だと推定される基準特徴量を判定する際に用いられるものである。

　例えば、同一特徴抽出部８は、算出頻度の大きい基準特徴量を抽出する対象が静止画像である場合には、頻度基準（０．３５）が以上となる１つ以上の基準特徴量を抽出する。また、同一物体性を判定可能だと推定される基準特徴量を判定する場合には、同一特徴抽出部８は、ピーク値基準１、ピーク値基準２、・・・の何れかの基準が満たされるときに、対応する基準特徴量は同一物体性を判定可能と判定する。

　１．２　動作
　ここでは、ユーザが保有するＡＶデータを整理するためにＡＶデータの自動タグ付けをする際のローカルモデルを作成する動作について詳細に説明する。

　データ処理装置１００は、ローカルモデルを生成するために、ユーザが保有するＡＶデータに含まれるローカルデータに頻出する被写体情報を検出可能な特徴量を抽出する必要がある。図７は、データ処理装置１００がローカルデータから同一特徴を抽出する際の同一特徴抽出処理を示すフローチャートである。

　同一特徴抽出処理は、例えば、分類部４で行われる分類処理がされた場合に開始される。

　分類処理が開始されると、同一特徴抽出部８は、未分類特徴ＤＢ７に蓄積されている未分類情報数が処理開始するのに必要な一定以上の数になっているかどうかを判定する（ステップＳ１）。例えば、分類対象が静止画像である場合には、同一特徴抽出部８は、図５に示す第１基準パラメータテーブルＴ１００における基準１、基準２、基準３、・・・何れかの基準を満たすかどうかを判定する。

　処理開始するのに必要な一定以上の数になっていないと判断する場合（ステップＳ１における「Ｎｏ」）、同一特徴抽出部８は同一特徴抽出処理を終了する。

　処理開始するのに必要な一定以上の数になっていると判断する場合（ステップＳ１における「Ｙｅｓ」）、同一特徴抽出部８は、数式１のＦ（ｘ）の値に基づいて、ＡＶデータから抽出された全特徴量のうちその算出頻度が一定以上である基準特徴量を抽出する（ステップＳ２）。

　抽出された基準特徴量毎に、同一特徴抽出部８は、代表特徴量と全ＡＶデータにおいて算出された基準特徴量の類似度を算出する（ステップＳ３）。具体的には、同一特徴抽出部８は、基準特徴量がＶｉｓｕａｌＷｏｒｄである場合には各ＶｉｓｕａｌＷｏｒｄのモデルに対する距離を類似度（ＳＩＦＴ特徴量）として算出する。同一特徴抽出部８は、図３に示すように基準特徴量毎に、ＳＩＦＴ特徴量として検出された数を検出頻度として算出する。

　同一特徴抽出部８は、頻度の大きい基準特徴量として抽出された１つ以上の基準特徴量それぞれに対して、分類されなかった全てのＡＶデータそれぞれにおける当該基準特徴量に検出頻度から図４に示す類似度分布を作成し、その分布内のピーク値を算出する（ステップＳ４）。

　同一特徴抽出部８は、そのピーク値を用いて同一物体性を判定可能だと考えられるピーク値を持つ基準特徴量を判定して抽出し（ステップＳ５）、同一特徴としてローカルモデル作成部９に出力する。なお、ピーク値の判定は、上述したように、ピーク値基準１、ピーク値基準２、・・・の何れかの基準が満たされる否かである。

　１．４　まとめ
　上述したように、データ処理装置１００は、分類できなかったＡＶデータ（画像）を用いて、これら画像に含まれる特徴量を基に、同一物体性を判定可能だと考えられるピーク値を持つ基準特徴量からモデルデータを生成している。

　これにより、ローカル辞書ＤＢにユーザに特化したモデルデータを蓄積することで、基本辞書ＤＢでは分類できなかった画像を分類することができる。

　１．５　変形例
　上記実施の形態では、分類されなかった全ＡＶデータから同一特徴を抽出したが、これに限定されない。分類されなかった全ＡＶデータから同一特徴を抽出するのではなく、一定量や一定時間区間毎のＡＶデータから同一特徴を抽出してもよい。この場合の同一特徴抽出処理の手順について図８に示すフローチャートを用いて説明する。

　なお、説明の便宜上、本変形例の同一特徴抽出部については符号“８ａ”を付与して説明する。

　上記第１の実施の形態と同様に、図示していないが、分類処理が開始されると、同一特徴抽出部８ａは、未分類特徴ＤＢ７に蓄積されている未分類情報数が処理開始するのに必要な一定以上の数になっているかどうかを判定する。処理開始するのに必要な一定以上の数になっていないと判断する場合、同一特徴抽出部８ａは同一特徴抽出処理を終了する。

　処理開始するのに必要な一定以上の数になっていると判断する場合、同一特徴抽出部８ａは、未分類特徴ＤＢから一定の時間帯毎に検出された特徴量を入力する（ステップＳ１１）。

　同一特徴抽出部８ａは、一定時間帯毎の入力単位で局所特徴量であるＢｏＦを算出する（ステップＳ１２）。次に、同一特徴抽出部８ａは、ＶｉｓｕａｌＷｏｒｄの検出頻度を、ステップＳ１２で算出した局所特徴量を用いて計算する（ステップＳ１３）。

　同一特徴抽出部８ａは、算出された検出頻度を用いて、図３で示すようなＶｉｓｕａｌＷｏｒｄ毎に検出数のヒストグラムを作成する（ステップＳ１４）。

　同一特徴抽出部８ａは、各ＶｉｓｕａｌＷｏｒｄにおける検出数のヒストグラムにピーク値が存在するかどうかを判定し、ピーク値基準以上のピーク値を持つ基準特徴量を判定し、その一定時間区間における同一特徴として抽出する（ステップＳ１５）。

　同一特徴抽出部８ａは、全時間帯のデータに関して処理が完了しているかどうかを判定する（ステップＳ１６）。完了していると判断する場合（ステップＳ１６における「Ｙｅｓ」）、同一特徴抽出部８ａは、処理を終了する。また、完了していないと判断する場合（ステップＳ１６における「Ｎｏ」）、同一特徴抽出部８ａは、ステップＳ１１に戻り、全時間帯で処理が完了されるまで処理を繰り返す。

　なお、上記のフローチャートでは、抽出対象を一定の時間帯で分割された画像群としたが、これに限定されない。一定枚数や一定領域や一定イベント毎等の様に画像を分割できる単位であればその種別は問わない。

　これにより、例えば、当該変形例に係るデータ処理装置は、図９に示すように、全特徴量空間ではモデル化が難しかった、例えば、ある家族が飼っているペット犬や特殊な所有物の様なモデルを、同一特徴のみによる限定特徴量空間にすることで抽出することが可能となる。このようにして作成されたローカルモデルは、ローカルＡＶデータに特化されたモデルとなるため、精度良くそのモデルを分類することができる。

　以上のように、全特徴量を用いた距離空間によってローカルモデルを作成するのではなく、利用する特徴量を同一被写体性の高い特徴量のみに限定してからその限定空間でローカルモデルを作成する構成にすることにより、一般的なモデルではなくローカル識別性が高いモデルとすることができるため、あるローカルＡＶデータ群に特有な物体のカテゴリを定義しそのモデル情報を精度良く抽出することが可能となる。

　なお、未分類特徴ＤＢに蓄積されている未分類情報を用いる単位としては、第１の実施の形態のように全ての未分類情報を用いて同一特徴を算出することが考えられるし、上記変形例のように所定の画像数毎に算出したり、あるイベント単位や時間単位や場所単位で未分類情報を分割して算出することも考えられる。

　また、画像における同一特徴量の抽出方法として、特徴点における対応点マッチングにより同一物体が含まれているかどうかを判定して利用する手法や色ヒストグラムやエッジ量の分布の全体類似性を利用する方法を用いればよく、データベース内に存在する同一物体を抽出可能な特徴量を用いる方法であればその種別は問わない。

　２．第２の実施の形態
　以下、図面を参照して、本発明に係る第２の実施の形態について説明する。

　第２の実施の形態は、情報量の多さや類似度だけではなく、ローカルモデル作成時にローカルＡＶデータが持つ特有の情報として時間的継続性を考慮することで、全データで最適なモデルではなく、時系列で最適なモデルを作成する方法に関するものである。

　なお、本実施の形態において、第１の実施の形態と同じ機能を有する構成には同じ符号を付し、その説明を省略する。

　また、特に記載のある場合を除いて、データ処理装置の原理的な構成を含めて、第１の実施の形態のそれと同じである。

　本実施の形態では、よりユーザ独自のローカルＤＢに適したローカルモデルを生成する方法として、全ＡＶデータを一律に扱ってローカルＤＢに特有なモデルを生成する方法ではなく、蓄積するＡＶデータの時系列的な遷移も考慮してローカルＤＢに特有なモデルを生成する方法を用いている。本実施の形態で利用されるデータとして主に画像を想定し、画像情報の解析結果を基にローカルモデルを生成する方法について具体的に説明する。

　２．１　構成
　ここでは、第２の実施の形態に係るデータ処理装置の構成について、第１の実施の形態と異なる点を中心に説明する。

　第１の実施の形態とは、ローカルモデル作成部の機能構成が異なる。他の構成要素は、第１の実施の形態と同様であるので、ここでは、ローカルモデル作成部について説明する。

　（１）ローカルモデル作成部２０
　以下、本実施の形態に係るローカルモデル作成部２０の機能構成の一例について、図１０を参照しつつ説明する。図１０は、ローカルモデル作成部２０の機能ブロック図である。ローカルモデル作成部２０は、区間情報抽出部２１と、区間モデル作成部２２と、モデル継続性判定部２３とから構成されている。

　（１－１）区間情報抽出部２１
　区間情報抽出部２１は、ローカルＡＶデータのまとまり情報として一定のデータ単位や時間単位や場所単位やイベント単位の区間情報を抽出する。例えば、画像情報としてＥＸＩＦ（Ｅｘｃｈａｎｇｅａｂｌｅ　Ｉｍａｇｅ　Ｆｉｌｅ　Ｆｏｒｍａｔ）情報に含まれている撮影時間やＧＰＳ（Ｇｌｏｂａｌ　Ｐｏｓｉｔｉｏｎｉｎｇ　Ｓｙｓｔｅｍ）情報を用いることで、自動的に一定の連続撮影区間情報を算出することが可能である。また、ユーザが作成したフォルダ単位情報等でデータを分割しその区間情報を抽出すること等も考えられる。

　ここでは、区間情報抽出部２１は、ＥＸＩＦ情報に含まれている撮影時間を基に一定の連続撮影区間情報を算出するものとする。具体的には、区間情報抽出部２１は、未分類特徴ＤＢ７に格納されている未分類情報の内容からローカルＤＢ１に格納されている処理対象となる全画像の時間情報をＥＸＩＦ情報から抽出する。次に、区間情報抽出部２１は、得られた時間情報に従って、最初に撮影された日時を基準に、例えば１時間毎の区間に対して撮影された画像の枚数を算出する。そして、区間情報抽出部２１は、１時間毎に算出された画像枚数を基に処理中の始めの１時間の画像枚数を加算して累計画像枚数を算出する。累計画像枚数が５００枚以上で且つ加算する画像枚数が０の区間が３時間以上連続した場合には、区間情報抽出部２１は、その区間を抽出し、累計画像枚数を０にする。

　区間情報抽出部２１は、上記動作を処理対象の全画像に対して行う。

　（１－２）区間モデル作成部２２
　区間モデル作成部２２は、区間情報抽出部２１で抽出された区間毎に、同一特徴抽出部８で算出された特徴量群を用いてローカルモデルを作成する。具体的なモデル生成方法については、第１の実施の形態と同様の方法で作成することができる。

　なお、類似性の算出には、第１の実施の形態と同様に、多変量特徴量からモデル間の距離を算出すること等が考えられる。

　（１－３）モデル継続性判定部２３
　モデル継続性判定部２３は、区間毎に作成されたローカルモデルがどのぐらいの長さの区間で継続して作成されているかを算出し、ローカルＤＢ１内での時間的継続性があるかどうかを判定する。モデル継続性判定部２３は、時間的継続性の高いローカルモデル、つまり、出現頻度の高いローカルモデルから順次タグ付けを行う。

　また、モデル継続性判定部２３は、経年変化性として特徴量内の部分的な変化が存在するかどうかを算出し、一定の変化傾向性があるかどうかを判定する。一定の変化傾向性がある複数のローカルモデルに対して、モデル継続性判定部２３は、同一の特徴を有する旨の関連付け（同一のタグ付け）を行う。

　２．２　動作
　以下では、ＡＶデータが画像であった場合の具体的なローカルモデルの作成手法について詳しく説明する。図１１は、画像において区間毎に存在する画像群の一例を示す図である。なお、ここでは、ローカルＤＢ１には、横軸を時間軸、１時間毎の画像量を縦軸にした図１１に示すような特定ユーザが時系列的に撮影した画像群が存在しているとする。

　この場合における区間情報抽出部２１の動作について、図１２に示すフローチャートを用いて説明する。

　まず、区間情報抽出部２１は、未分類特徴ＤＢ７に格納されている未分類情報の内容からローカルＤＢ１に格納されている処理対象となる全画像の時間情報をＥＸＩＦ情報から抽出する（ステップＳ２１）。

　区間情報抽出部２１は、得られた時間情報に従って、最初に撮影された日時を基準に、例えば１時間毎の区間に対して撮影された画像の枚数を算出する（ステップＳ２２）。

　区間情報抽出部２１は、時間毎に算出された画像枚数を基に処理中の始めの１時間の画像枚数を加算して累計画像枚数を算出する（ステップＳ２３）。

　累計画像枚数が５００枚以上で且つ加算する画像枚数が０の区間が３時間以上連続した場合には、区間情報抽出部２１は、その区間を抽出し、累計画像枚数を０にする（ステップＳ２４）。

　区間情報抽出部２１は、処理対象の全画像に対して処理が完了しているかを判定する（ステップＳ２５）。完了していると判断する場合には（ステップＳ２５における「Ｙｅｓ」）、区間情報抽出部２１は区間情報抽出処理を完了する。完了していないと判断する場合には（ステップＳ２５における「Ｎｏ」）、区間情報抽出部２１は、ステップＳ２３に戻り、全画像に対する処理が完了するまで処理を繰り返す。

　２．３　具体例
　上記の動作を行うことで、区間情報抽出部２１は、例えば、図１１に示すような区間１から６を抽出することができる。

　そして、区間モデル作成部２２は、区間情報抽出部２１で抽出された全区間（区間１から６）に対して、ローカルモデルを生成する。図１１に示す例では、区間１～区間６までの６区間が抽出されているので、例えば、図１３に示すように６区間に存在する全てのローカルモデルＡ、Ｂ、Ｃ、Ｄ、Ｅ、Ｆ、Ｇを生成する。

　モデル継続性判定部２３は、作成されたローカルモデルの時間的継続性や周期性や経年変化性があるかを判定する。図１３の例では、区間毎のローカルモデルの全体的な類似性を算出し、一定以上の類似性を持つローカルモデルに対して同じラベルが付与されている。その結果、時間的継続性の高い、つまり出現頻度が高いモデルとしてローカルモデルＣを抽出することができる。そこで、モデル継続性判定部２３は、短期的に存在しているローカルモデル（例えば、ローカルモデルＢ、Ｇ）よりもローカル属性の高いモデルとして優先的にタグ付けをすることができる。

　また、モデル継続性判定部２３は、経年変化性を検出してモデル化する。例えば、モデル継続性判定部２３は、図１４で示すように局所類似性の変化度に比例関係が存在する場合には、ローカルモデルＡ、Ｅ、及びＤは一定の経年変化性を持つローカルモデルとして抽出し、ローカル属性の高いモデルとして優先的にタグ付け、同一も物体として関連付けをする。具体的には、子供が成長する際の顔や体の変化度合いとしての経年変化性や物体における劣化や破損による変化性や流行による車等の物体の形状変化性などを抽出する。これにより、モデル継続性判定部２３は、全体特徴を考えると違うモデルであるが、類似性の高いモデルとして抽出されたローカルモデル間の局所的な特徴量の類似性の変化度を算出し、その変化度に例えば主成分分析などの統計的処理を行うことで相関関係が得られた際に、それらのモデルは経年変化性のある１つのモデルであるとして抽出することができる。つまり、モデル間のある特徴量群は一定基準以上の類似性を持っており、別の特徴量群において類似性が低いけれどもその変化度合いに一定の傾向が存在する場合に経年変化性があるモデルとして抽出することが可能である。

　２．４　まとめ
　以上により、本実施の形態によると、データ処理装置は、各種作成されたローカルモデルのローカルＤＢ１内での継続性を判定することで、短期間や単発的に有効なローカルモデルを作成したり、長期的にまたは周期的に有効なモデルを作成したり経年変化に合わせて適応的に変化するローカルモデルを作成することができる。

　また、全ＡＶデータを用いて全特徴量に対して最適なローカルモデルを作成するのではなく、ＡＶデータ間のつながりとして例えば時間的な塊を抽出して区間毎のＡＶデータに限定してからローカルモデルを生成し、区間毎のモデル間継続性を判定してよりローカル属性の高いローカルモデルを作成する構成にすることにより、ユーザが取得しているＡＶデータの傾向性も加味したローカル識別性が高いモデルとすることができるため、ローカルＡＶデータ群に特有な物体のカテゴリを精度良く定義しそのモデル情報を抽出することが可能となる。

　２．５　変形例
　本実施の形態において、区間情報抽出部２１は、処理対象となる全画像の時間情報をＥＸＩＦ情報から抽出したが、データ生成時間情報から抽出してもよい。

　なお、本実施例の構成では、同一特徴抽出部８を設けているが、特徴量抽出部３で算出される一般的な特徴量を利用する構成や全ＡＶデータに対して特徴量を抽出して利用する構成としてもよい。

　また、具体的説明には画像の時間的継続性のみの説明を行ったが、音声や映像データを使うことも考えられ、継続性としては場所的なつながりや時間と場所等の融合情報から得られるイベント性によるつながりを利用してもよい。

　３．第３の実施の形態
　以下、図面を参照して、本発明に係る第３の実施の形態について説明する。

　本実施の形態は、同一特徴を抽出する際やローカルモデルを作成する際または作成したローカルモデルにより分類された結果を表示する際にユーザからのフィードバック（以後、ユーザインタラクション）を考慮することで、自動的に生成していた同一特徴及びローカルモデルに存在する間違いを修正したり、自動的には生成できなかった同一特徴やローカルモデルを生成したりする方法に関するものである。

　なお、本実施の形態において、第１の実施の形態と同じ機能を有する構成には同じ符号を付し、その説明が適用できるため説明を省略する。

　本実施の形態では、ユーザのローカルＤＢ１に適した同一特徴の抽出及びローカルモデル生成を精度良く行う方法として、全ての処理を予め定めているプログラムにより自動的に行う方法ではなく、各種処理の入出力においてユーザインタラクションによるユーザの入力情報を考慮してローカルＤＢ１に特有な特徴及びモデルを精度良く生成する方法を用いている。

　本発明の実施の形態で利用されるデータとして主に画像を想定し、画像解析における入出力に際してユーザインタラクションを基に同一特徴及びローカルモデルを生成する方法について具体的に説明する。

　３．１　構成
　ここでは、第３の実施の形態に係るデータ処理装置の構成について、第１の実施の形態と異なる点を中心に説明する。

　図１５は、本実施の形態において図１の構成にユーザインタラクションの入力機能をもつユーザインタラクション入力部３０を追加した際の構成を示すブロック図である。

　以下、ユーザインタラクション入力部３０の機能及び、同一特徴抽出部８やローカルモデル作成部９における更なる機能について説明する。

　（１）ユーザインタラクション入力部３０
　ユーザインタラクション入力部３０は、同一特徴抽出部８やローカルモデル作成部９で処理される内容の精度を改善するために、ユーザの持つＡＶデータまたはデータ処理装置により算出される出力結果に対して付加的な情報が入力される機能である。

　具体的には、ユーザインタラクション入力部３０は、図１６で示す画像Ｇ１００、図１７で示す画像Ｇ２００、及び図１８に示す画像Ｇ３００を表示し、ユーザからの指示を受け付ける。なお、本実施の形態では、画像を表示する画面は、タッチパネル機能を備えているものとする。

　（画像Ｇ１００）
　図１６で示す画像Ｇ１００は、同一物体であることやタグ情報を画像に入力する際の一例を示すものである。

　図１６で示す画像Ｇ１００には、表示中の画像の格納場所を示すライブラリＧ１０１、分類されなかった画像Ｉ１００、Ｉ１０１、Ｉ１０２、Ｉ１０３、・・・、ボタンＢ１００、Ｂ１０１、Ｂ１０２、Ｂ１０３、スクロールバーＳＢ１００が含まれる。

　ライブラリＧ１０１では、表示中の各画像の格納先がユーザに分かるように、表示対象のライブラリが太枠で囲まれる。ここでは、アルバム１配下のＡ０１ライブラリが太枠で囲まれているので、ユーザは表示中の各画像の格納先がＡ０１であることが一目で分かる。

　また、表示されている画像Ｉ１００、Ｉ１０１、Ｉ１０２、Ｉ１０３、・・・のそれぞれは、表示対象のライブラリに含まれ、且つ分類されなかった画像であり、表示されている各画像の下方にはチェックボックスＣ１００、Ｃ１０１、Ｃ１０２、Ｃ１０３、・・・が表示されている。ユーザは、表示中の画像のうち１つ以上の画像に対してチェックボックスにチェックを行うことで、処理対象の画像を指定することができる。例えば、図１６では、画像Ｉ１０２、Ｉ１０３の他に３つの画像（計５つの画像）が指定されている。

　ボタンＢ１００は、処理指定した複数の画像に同一物体が含まれることを指示するものである。これが押下されると、同一特徴抽出部８は指定された複数の画像から同一物体に係る特徴量を抽出する。なお、以降の同一特徴抽出部８及びローカルモデル作成部９の動作は第１の実施の形態と同様であるので、ここでの説明は省略する。

　ボタンＢ１０１は、処理指定した１つ以上の画像に対して、タグ情報を関連付けることを指示するものである。ユーザ操作によりこのボタンＢ１０１が押下されると、表示画面は画像Ｇ１００から画像Ｇ２００へ遷移する。

　ボタンＢ１０２は、処理指定した１つ以上の画像に対して、特徴量を抽出する領域を指定するものである。このボタンＢ１０２を押下した後、ユーザはマウスの操作により抽出する領域を指定する。

　ボタンＢ１０３は、ユーザインタラクションによる処理の終了を指示するためのものである。

　スクロールバーＳＢ１００は、表示される画像をスクロールするためのものである。ユーザがマウスを用いて、この表示されるスクロールバーＳＢ１００を操作することで画像がスクロールされる。

　（画像Ｇ２００）
　図１７で示す画像Ｇ２００は、画像Ｇ１００においてボタンＢ１０１が押下された場合に、表示されるものである。ここでは、図１６の画像Ｉ１０３が指定され、ボタンＢ１０１が押下された場合の表示態様を示す。

　ユーザインタラクション入力部３０は、指定された画像を表示し、その後、ユーザからタグ情報を関連付ける物体の指定を受け付ける。

　具体的には、タッチパネル上で、タグ情報を関連付ける物体を取り囲むようにユーザが指で領域を指定する。例えば、物体Ｏ２００に対してタグ情報を関連付けたい場合には、物体Ｏ２００を取り囲むように領域Ｏ２０１を指定する。

　ユーザインタラクション入力部３０は、領域Ｏ２０１の指定を受け付けると、タグ名を入力するボックスＴ２００を表示する。

　ユーザは、ボックスＴ２００にタグ情報（ここでは、タグ名として「イス」）を入力する。

　ユーザインタラクション入力部３０は、タグ情報が関連付けられた画像の未分類情報を取得し、ローカルモデル作成部９へタグ情報とともに通知する。

　その後、ローカルモデル作成部９は、指定された物体Ｏ２００に対して作成されたローカルモデルに、入力されたタグ情報（「イス」）を関連付ける。

　（画像Ｇ３００）
　図１８で示す画像Ｇ３００は、データ処理装置によって分類された結果に基づく指示を入力する際の一例を示すものである。

　図１８で示す画像Ｇ３００には、ライブラリＧ３０１、画像Ｉ３００、Ｉ３０１、Ｉ３０２、Ｉ３０３、・・・、ボタンＢ３００、Ｂ３０１、Ｂ３０２、Ｂ３０３、スクロールバーＳＢ３００が含まれる。

　ライブラリＧ３０１では、同一特徴抽出部８、ローカルモデル作成部９により、検出された物体毎のライブラリ名を表示する。ここで、表示中のフォルダがユーザに分かるように、表示対象のライブラリ名が太枠で囲まれる。ここでは、ライブラリ名「Ｘ００１」が太枠で囲まれている。

　また、表示されている画像Ｉ１００、Ｉ１０１、Ｉ１０２、Ｉ１０３、・・・のそれぞれは、表示対象のライブラリ「Ｘ００１」に含まれる画像であり、表示されている各画像の下方にはチェックボックスＣ１００、Ｃ１０１、Ｃ１０２、Ｃ１０３、・・・が表示されている。ユーザは、表示中の画像のうち１つ以上の画像に対してチェックボックスにチェックを行うことで、処理対象の画像を指定することができる。例えば、図１８では、画像Ｉ３０２の他に３つの画像（計４つの画像）が指定されている。

　ボタンＢ３００は、処理指定した複数の画像を用いて、再度、ローカルモデル作成を行うことを指示するものである。これが押下されると、同一特徴抽出部８は指定された複数の画像から同一物体に係る特徴量を抽出する。なお、以降の同一特徴抽出部８及びローカルモデル作成部９の動作は第１の実施の形態と同様であるので、ここでの説明は省略する。

　ボタンＢ３０１は、処理指定した１つ以上の画像を除く残りの画像を用いて、再度、ローカルモデル作成を行うことを指示するものである。これが押下されると、同一特徴抽出部８は指定された複数の画像から同一物体に係る特徴量を抽出する。なお、以降の同一特徴抽出部８及びローカルモデル作成部９の動作は第１の実施の形態と同様であるので、ここでの説明は省略する。例えば、図１８では主に犬が写っている画像を集めているが、中には猫や風景だけの画像もあるため、それらをチェックボックスで指定して、ボタンＢ３０１を押下することで、犬が写っている画像のみから、再度ローカルモデルを作成することができる。

　ボタンＢ３０２は、処理指定した複数の画像と残りの画像とに分割し、分割されたそれぞれの画像群に対して、ローカルモデルを作成することを指示するものである。このボタンＢ３０２が押下されると、同一特徴抽出部８及びローカルモデル作成部９により分割された画像群それぞれに対するローカルモデルが作成される。

　ボタンＢ３０３は、２つ以上のライブラリを統合することを指示するものである。このボタンＢ３０３が押下されると、同一特徴抽出部８及びローカルモデル作成部９により２つ以上のライブラリを用いてローカルモデルが作成される。

　スクロールバーＳＢ３００は、スクロールバーＳＢ１００と同様の機能であるので、ここでの説明は省略する。

　ユーザインタラクション入力部３０は、ボタンＢ３００及びボタンＢ３０１が押下され、再度分類がされると、その結果を表示する。

　また、ユーザインタラクション入力部３０は、ボタンＢ３０２が押下され、表示中の画像群の分割がなされると、その結果を表示する。

　また、ユーザインタラクション入力部３０は、ボタンＢ３０３が押下され、指定された２つの画像群の統合がなされると、その結果を表示する。

　このユーザインタラクション入力部３０により、例えば、図１８に示すように、ユーザがデータ処理装置によって分類された結果に関して、色々な物体が混在している際に主となる分類内容以外を指定して、ボタンＢ３０１を押下することで、その内容が修正される。具体的には、図１８内のライブラリ「Ｘ００１」には、主に犬が写っている画像を格納されているが、中には猫やシーンだけの画像もあるため、それらをチェックボックスで指定して間違っていることをデータ処理装置にフィードバックすることでその内容が修正され犬だけが検出されている画像群にすることができる。他にも、正しい内容だけを指定することや、犬の中でもさらに種類によって分けたい時には再分割をしたり、分割され過ぎている場合には統合する等の修正方法が可能となる。

　３．２　動作
　ユーザインタラクションによる指示の受付を用いることによって、同一特徴抽出処理及びローカルモデル作成処理の改善方法について具体的に説明する。図１９は、その具体的なフィードバック処理の手順を示したフローチャートである。

　ユーザ入力が開始されるとフィードバック処理を開始する。まず、ユーザがＡＶデータに関連した情報を入力した場合に、ユーザインタラクション入力部３０は、その情報を取得する（ステップＳ３１）。具体的には、図１６で示す画像Ｇ１００や図１８で示す画像Ｇ３００において、処理対象の画像が指定され、何れかのボタンが押下される際に指定されている画像の枚数と、押下されたボタンに対応する処理内容とを、入力情報として取得する。

　その入力情報が画像処理内容を改善できる情報かどうかを判定する（ステップＳ３２）。　なお、ここでの改善可能な情報としては、ＡＶデータが画像の場合には画像に含まれる被写体の領域関連情報やタグ関連情報や画像群に関するイベント関連情報や指定された画像の枚数である。
具体的には、ユーザインタラクション入力部３０は、ボタンＢ１００及びボタンＢ３００が押下された場合には指定された画像が２つ以上あるか否か、ボタンＢ１０１が押下された場合には指定された画像が１つ以上あるか否か、ボタンＢ３０１が押下された場合には、指定された画像を除く残りの画像が２つ以上存在するか否かを判断する。また、ボタンＢ３０２が押下された場合には分割された２つの画像群それぞれに、２つ以上の画像が含まれているか否か、ボタンＢ３０３が押下された場合には２つ以上のライブラリが指定されているか否かを判断する。

　改善可能であると判断する場合（ステップＳ３２における「Ｙｅｓ」）、ユーザインタラクション入力部３０は、取得した入力情報を同一特徴抽出部８やローカルモデル作成部９で処理が可能な情報に変換する（ステップＳ３３）。具体的には、ユーザインタラクション入力部３０は、指定された１つ以上の画像それぞれに対する未分類情報（ＡＶデータを識別する識別子）を取得する。また、例えば、家で飼っているペットに名前タグを付けた場合には、その名前が付けられた画像及び領域を、同一物体が存在する画像情報（未分類情報）に変換する。

　同一特徴抽出部８及びローカルモデル作成部９で、変換された情報を基に各種改善可能な処理を行い結果内容を更新する（ステップＳ３４）。更新がなされると、ユーザインタラクション入力部３０は、ユーザ入力が完了したかどうかを判定する（ステップＳ３５）。完了したと判断する場合には（ステップＳ３４における「Ｙｅｓ」）、フィードバック処理を完了する。完了していないと判断する場合には（ステップＳ３４における「Ｎｏ」）、処理はステップＳ３１に戻り、ユーザ入力が完了するまで処理を繰り返す。

　改善可能でないと判断する場合（ステップＳ３２における「Ｎｏ」）、処理はステップＳ３５へ移る。

　３．３　まとめ
　第１の実施の形態では、同一特徴抽出部８では、自動的に同一特徴を抽出していた際には同一物体かどうかは関係なく特徴の類似性のみを判断根拠として類似性によるクラスタリング手法を用いて同一特徴を抽出していた。そのため、不要な特徴量も混在することとなり、同一特徴の抽出の精度はあまり高くないものとなる。しかしながら、本実施の形態では、ユーザが同一物体を予め指定するので、データ処理装置は、同一物体だと情報が予め分かっている場合には、限定された同一物体の画像情報のみから類似性を算出して同一特徴を抽出できるため、精度の高い抽出を行うことができる。

　また、ローカルモデル作成部９では、同一物体情報を直接入力された場合には、必要なローカルモデルを直接画像から学習して作成することができるため精度の良い分類モデルが生成可能となる。間接的な情報として、同一物体が含まれているかどうかだけの情報であっても間違って作成した分類モデルを修正することができる。

　なお、ユーザインタラクションは１つ１つのユーザ入力単位でもよいし、一定の機能に関してまとめられた入力単位等であってもよい。

　以上のように、データ処理装置によって全て自動的に処理を行って同一特徴やローカルモデルを作成するのではなく、ユーザインタラクションとしてユーザ入力によるフィードバック処理も考慮して修正しながら同一特徴やローカルモデルを作成する構成にすることにより、段階的に分類精度を改善していくローカルモデルとすることができるため、あるローカルＡＶデータ群に特有な物体のカテゴリを段階的に修正定義しそのモデル情報を確実に抽出することが可能となる。

　４．第４の実施の形態
　以下、図面を参照して、本発明に係る第４の実施の形態について説明する。

　本実施の形態は、基本辞書ＤＢ５において予め分類部４で分類するためのカテゴリが定義されていない場合であっても、ＡＶデータに含まれる一般的なカテゴリを分類するための類似特徴と、ローカルに特有な物体を分類するための同一特徴との両方を考慮することで、基本辞書ＤＢとローカル辞書ＤＢの両方を自動的に作成する方法に関するものである。

　なお、本実施の形態において、実施の形態１と同じ機能を有する構成には同じ符号を付し、その説明が適用できるため説明を省略する。

　本実施の形態では、ローカルＤＢに適した一般的なモデル及びローカルモデルを全て自動生成する方法として、予め定義したカテゴリのモデル情報を蓄積しておいて生成する方法ではなく、各モデルを生成するための特徴を別々に算出して利用することを考慮して、同一特徴に加えて一般的なモデルを分類するための類似特徴を生成して一般的なモデルも自動生成する方法を用いている。本発明の実施の形態で利用されるデータとして主に画像を想定し、画像解析において上記２種類の特徴（同一特徴及び類似特徴）を基に一般的なモデルとローカルモデルを生成する方法について具体的に説明する。

　４．１　構成
　図２０は本発明のデータ処理装置１００ａの原理的な構成を示すブロック図である。図２０において、データ処理装置１００ａは、ローカルＤＢ１と、前処理部２と、特徴量抽出部３と、分類部４０と、基本辞書ＤＢ５と、検索インデクスＤＢ６と、同一特徴抽出部８と、ローカルモデル作成部９と、ローカル辞書ＤＢ１０と、基準パラメータＤＢ１１と、全画像特徴ＤＢ（データベース）４１と、類似特徴抽出部４２と、グローバルモデル作成部４３とから構成されている。ローカルＤＢ１と、前処理部２と、特徴量抽出部３と、基本辞書ＤＢ５と、検索インデクスＤＢ６と、同一特徴抽出部８と、ローカルモデル作成部９と、ローカル辞書ＤＢ１０と、基準パラメータＤＢ１１とについては、第１の実施の形態に記載の内容と同じであるので、ここでの説明は省略する。

　（１）全画像特徴ＤＢ４１
　全画像特徴ＤＢ４１は、特徴量抽出部３で算出された全ての未分類情報が蓄積される。

　（２）類似特徴抽出部４２
　類似特徴抽出部４２は、全画像の特徴量から特定のモデル（例えば、犬）を分類するのではなく、色々な種類のモデル（例えば、犬）に共通な特徴量を抽出する。

　類似特徴抽出部４２は、同一特徴抽出部８と同様に、基準パラメータＤＢ１１に含まれる第１基準パラメータテーブルＴ１００を用いて、全画像特徴ＤＢ４１に蓄積されている未分類情報の数が類似特徴の抽出処理を開始するのに必要な一定以上の数になっているかどうかを判定する。

　判定が肯定的な場合に、類似特徴抽出部４２は、類似特徴の抽出処理を行う。判定は否定的な場合には、類似特徴抽出部４２は、類似特徴の抽出処理は行わない。

　ここで、類似特徴の抽出方法として、同一特徴の抽出時よりも特徴量の類似性を判定する基準を下げたり、同一特徴と一定レベル以上の類似する特徴を融合したり、同一特徴以外の特徴量を利用したり、予め利用特徴量を定義しておくことが考えられる。

　（３）グローバルモデル作成部４３
　グローバルモデル作成部４３は、類似特徴抽出部４２で抽出された類似特徴を用いて、あるローカルＡＶデータ群における一般的な物体のカテゴリを定義しそのモデル情報を算出処理する。

　これにより、データ処理装置１００ａは、ローカルＡＶデータ群の情報から一般的な分類モデルも作成するため、分類できない情報が減少し分類可能な情報を増やすことができる。

　（４）分類部４０
　分類部４０は、第１の実施の形態と同様に、ＡＶデータから抽出された特徴量を用いて既存のモデルデータとのマッチング処理を行い、入力データがどのモデルと適合しているかの判定処理を行う。

　しかしながら、分類部４０は、基本辞書ＤＢ５及びローカル辞書ＤＢ１０に予め定義されたモデルが存在しない場合には、処理を行うことなく、特徴量抽出部３で特徴量の算出対象となったＡＶデータの未分類情報を全画像特徴ＤＢ４１に蓄積する。

　その後、ローカルモデル作成部９及でローカルモデルが、グローバルモデル作成部４３でグローバルモデルがそれぞれ作成されると、分類部４は判定処理を行い、ＡＶデータに対するタグ情報等のメタデータを付与する。

　４．２　まとめ
　以上のように、予め分類モデルを定義して保持しておくのではなく、ローカルＡＶデータから得られる特徴量によって、同一被写体性の高い特徴量のみではなく類似被写体性の高い特徴量も抽出して全ての分類モデルを、データ処理装置１００ａは自動的に作成している。これにより、データ処理装置１００ａは、同一被写体性の高いローカルモデルだけではなく、類似被写体性の高いグローバルモデルも分類できるため、あるローカルＡＶデータ群に含まれる物体のカテゴリを全て自動的に定義しそのモデル情報を抽出することが可能となる。

　５．第５の実施の形態
　　以下、図面を参照して、本発明に係る第５の実施の形態について説明する。

　本実施の形態は、同一特徴を抽出する際やローカルモデルを作成する際に、ユーザから複数の画像の指定を受け付け、受け付けた複数の画像から同一特徴やローカルモデルを生成したりする方法に関するものである。

　なお、本実施の形態において、第１の実施の形態や第３の実施の形態と同じ機能を有する構成には同じ符号を付し、その説明が適用できるため説明を省略する。

　また、特に記載のある場合を除いて、データ処理装置の原理的な構成を含めて、第１の実施の形態又は第３の実施の形態のそれと同じである。

　本実施の形態では、第３の実施の形態と同様に、各種処理の入出力においてユーザインタラクションによるユーザの入力情報を考慮してローカルＤＢ１に特有な特徴及びモデルを精度良く生成する方法を用いている。

　５．１　構成
　ここでは、第５の実施の形態に係るデータ処理装置１００ｂの構成について、第１の実施の形態及び第３の実施の形態と異なる点を中心に説明する。

　データ処理装置１００ｂは、図２１に示すように、ローカルＤＢ１、前処理部２、特徴量抽出部３、分類部４、基本辞書ＤＢ５、検索インデクスＤＢ６、未分類特徴ＤＢ７、同一特徴抽出部５８、ローカルモデル作成部５９、ローカル辞書ＤＢ１０、基準パラメータＤＢ１１及び登録部５１とから構成されている。

　以下、第１の実施の形態とは異なる登録部５１の機能及び、同一特徴抽出部５８やローカルモデル作成部５９における更なる機能について説明する。

　（１）登録部５１
　登録部５１は、同一特徴抽出部５８やローカルモデル作成部５９で処理される内容の精度を高めるため、ユーザが分類したい複数の画像からなる画像群を選択してローカルモデルを生成するための指示を受け付ける機能である。

　具体的には、登録部５１は、例えば図１６で示す画像Ｇ１００、図１７で示す画像Ｇ２００、及び図１８に示す画像Ｇ３００と同様の画像を表示し、ユーザからの指示を受け付ける。なお、本実施の形態では、第３の実施の形態と同様にタッチパネル機能を備えているものとする。

　また、以降の説明において、図１６、１７及び１８のそれぞれで示す画像G１００、G２００及びG３００を用いて説明する。

　本実施の形態で表示される画像G１００の画面構成は、第３の実施の形態で示すものと同一であり、表示対象となる画像が異なる。本実施の形態では、ローカルモデルは未だ作成されていない状態であって、表示対象となる画像は分類に用いられていないものであるとする。

　他の画面構成、例えばライブラリＧ１０１、チェックボックスＣ１００、Ｃ１０１、Ｃ１０２、Ｃ１０３、・・・、ボタンＢ１００、Ｂ１０１、Ｂ１０２、Ｂ１０３、スクロールバーＳＢ１００については、第３の実施の形態と同様であるので、ここでの説明は省略する。

　例えば、画像Ｇ１００が表示されている間には、ユーザは、スクロールバーＳＢ１００を用いてスクロール操作を行いながら登録対象となる画像群を容易に選択することができる。

　また、画像Ｇ３００で示すボタンＢ３００が押下されると、後述する同一特徴抽出部５８及びローカルモデル作成部５９の機能により生成されたローカルモデルがローカル辞書ＤＢ１０に登録される。

　（２）同一特徴抽出部５８
　同一特徴抽出部５８は、登録部５１で指定された画像群から同一の特徴を抽出するものである。

　具体的には、同一特徴抽出部５８は、例えば画像Ｇ１００において、複数の画像がチェックされた後、ボタンＢ１００が押下されると、チェックされた画像群に含まれる複数の画像を、撮影時期が近いもの、つまりイベント単位に分類する。

　同一特徴抽出部５８は、分類された複数の画像単位で、同一特徴を抽出する。抽出方法は、第１の実施の形態で示す同一特徴抽出部８と同様であるので、ここでの説明は省略する。

　（３）ローカルモデル作成部５９
　ローカルモデル作成部５９は、同一特徴抽出部５８で分類された複数の画像単位で抽出された同一特徴毎に、ローカルモデルを作成する。

　ローカルモデルの作成方法については、第１の実施の形態で示すローカルモデル作成部５９と同様であるので、ここでの説明は省略する。

　５．２　動作
　ここでは、データ処理装置１００がユーザ指定により指定された画像群から同一特徴抽出する際の処理について、図２２に示すフローチャートを用いて説明する。

　登録部５１は、ユーザにより登録指示及び対象となる複数の画像の指定を受け付ける（ステップＳ１００）。具体的には、登録部５１は、画像Ｇ１００において、複数の画像がチェックされた後、ボタンＢ１００が押下されることで、登録指示及び画像の指定を受け付ける。

　登録部５１で登録指示及び画像の指定が受け付けられると、同一特徴抽出部５８は、受け付けた画像が複数枚指定されているか否かを判断する（ステップＳ１０５）。

　複数枚指定されていないと判断する場合（ステップＳ１０５における「Ｎｏ」）、処理は終了する。

　複数枚指定されていると判断する場合（ステップＳ１０５における「Ｙｅｓ」）、同一特徴抽出部５８は、イベント単位毎に分類する（ステップＳ１１０）。

　同一特徴抽出部５８は、１つのイベントを選択する（ステップＳ１１５）。

　同一特徴抽出部５８は、選択したイベントに含まれる画像数が一定数以上であるか否かを判断する（ステップＳ１２０）。

　一定数以上であると判断する場合（ステップＳ１２０における「Yes」）、同一特徴抽出部５８は、選択したイベントに含まれる複数画像から一定頻度以上算出される基準特徴量を抽出する（ステップＳ１２５）。特徴量の種別は、特徴量抽出部３で抽出される特徴量であれば何でもよく、色情報と高次特徴量のＳＩＦＴを組み合わせて利用する事なども考えられる。ここでは、ＳＩＦＴ特徴量を利用していると想定する。基準特徴量は、ある一定閾値以上の類似度を持つSIFT特徴量などが指定された全画像において過半数以上存在する等の条件によって識別して抽出することが可能である。

　次に、抽出された基準特徴量毎に、同一特徴抽出部５８は、代表特徴量と全頻出特徴量の類似度を算出する（ステップＳ１３０）。例えば、頻出特徴量がＳＩＦＴ特徴量である場合には、全画像データの各ＳＩＦＴ特徴量に対する距離を類似度として算出する。同一特徴抽出部５８は、基準特徴量毎に分類されなかった全ての画像内のＳＩＦＴ特徴量との一致度合いを例えば０(全く一致せず)～１（完全に一致）の間に正規化して類似度分布を算出する（ステップＳ１３５）。同一特徴抽出部５８は、その一致度分布において０に近い割合が高く１に近い割合も高いような場合、例えば図２３に示すような分布をしている場合には、同一物体性を判定可能だと考えられる頻出特徴量を判定して抽出し（ステップＳ１４０）、同一特徴としてローカルモデル作成部９に出力する。

　同一特徴抽出部５８は、未選択のイベントが存在するか否かを判断する（ステップＳ１４５）。

　存在すると判断する場合（ステップＳ１４５における「Ｙｅｓ」）、同一特徴抽出部５８は、次のイベントを選択し（ステップＳ１５０）、ステップＳ１２０へ戻る。

　存在しないと判断する場合には（ステップＳ１４５における「Ｎｏ」）、処理は終了する。

　以降、ローカルモデル作成部９では、抽出された同一特徴を用いて、イベント単位にローカルモデルを作成する。

　５．３　第５の実施の形態における変形例
　以上、本発明の一例として、第５の実施の形態に基づいて説明したが、これに限定されない。例えば、以下のような変形例が考えられる。

　（１）上記第５の実施の形態において、同一特徴抽出部５８は、指定された画像群を、イベント単位に分割したが、これに限定されない。

　同一特徴抽出部は、指定された画像群をイベント単位に分割することなく、指定された画像群から複数の同一特徴を抽出してもよい。

　このとき、ローカルモデル作成部は、抽出された複数の同一特徴をイベント単位に分類してもよいし、またはイベント単位に分類することなく、抽出された全ての同一特徴からローカルモデルを作成してもよい。

　（２）上記第５の実施の形態において、ローカルモデル作成部５９は、イベント単位にローカルモデルを作成するものとしたが、これに限定されない。

　ローカルモデル作成部は、イベント単位に抽出された同一特徴全てを用いてローカルモデルを作成するとしてもよい。この場合、イベント毎に作成されたローカルモデルそれぞれに共通な特徴だけを抽出し、抽出した特徴からローカルモデルのコア部分を生成する。さらには、コア部分のローカルモデルと各ローカルモデルとの差分を算出することでこれらローカルモデルの傾向変化を抽出することやその変化傾向及び区間全体の画像傾向に適する新たなローカルモデルを生成してもよい。

　または、ローカルモデル作成部は、イベント単位にローカルモデルを作成し、一のイベントと、他のイベントの間に存在し、ユーザが指定した画像から特定されていないイベント（未選択イベント）についてのローカルモデルを、前記一のイベントのローカルモデルと前記他のイベントのローカルもでるとから生成してもよい。例えば、ユーザから指定された画像群が、図１１での区間１、３で示される２つのイベントに分割された場合、ローカルモデル作成部は、区間１、３それぞれにおけるローカルモデルを作成し、さらには、区間１、３それぞれにおけるローカルモデルから区間１、３の間に存在する区間２（ユーザから指定されていない区間）についてのローカルモデルを作成する。

　また、ローカルモデル作成部は、利用する２つのイベントそれぞれにけるローカルモデルに重み付けをして、未選択イベントについてのローカルモデルを作成してもよい。例えば、上記と同様に、選択されたイベントが区間１、３であり、未選択イベントが区間２とした場合に、区間１と区間２との差分が２日であり、区間２と区間３との差分が３であるときについて考える。この場合、区間１のローカルモデル（Ｘ）と、区間３のローカルモデル（Ｙ）とを用いて、区間２のローカルモデル（Ｚ）を、数式“Ｚ＝Ｘ×（３／５）＋Ｙ×（２／５）”により算出する。

　（３）上記第５の実施の形態において、ユーザは登録指示を行う際に、画像に含まれる物体の向き毎に選択してもよい。

　例えば、ローカルモデルを作成する対象としてペットや人を選択したい場合、ユーザは、ペットや人の顔を正面から撮影した画像、右側面から撮影した画像、左側面から撮影した画像等に撮影角度に応じて選択を行う。

　同一特徴抽出部は、撮影角度毎に同一特徴を抽出する。

　（４）上記第５の実施の形態において、同一特徴抽出部５８が画像群をイベント毎に分割するとしたが、これに限定されない。

　ユーザが画像を指定する際に、イベント毎に分類して画像を指定してもよい。

　（５）上記第５の実施の形態において、データ処理装置は、ローカルモデルが未だ作成されていない状態において、分類されていない画像のみを表示対象としたが、これに限定されない。

　ローカルモデルが未だ作成されていない状態において、表示される画像は、分類されているか否かに関わらず、表示対象のライブラリに含まれるものであってもよい。

　（６）上記第５の実施の形態及びこれら変形例を組み合わせてもよい。

　５．４　まとめ
　上述したように、ローカルモデル作成部５９は、イベント単位毎（例えば、図１１に示す区間単位毎）にローカルモデルを生成すると共にそのモデルの時間継続性をユーザにより指定された画像群で判定することができる。例えば、ユーザが指定した画像群が図１１に示す区間１と２と６に含まれていた場合、区間１と２と６でユーザが指定した対象を含む画像群を基にそれぞれの区間についてローカルモデルを生成する事で、それぞれの区間全体の画像傾向(例えば画像の平均的な色ヒストグラムや特徴物体の含有度や背景種類等)に対して最適な登録対象となるローカルモデルを生成することができる。

　また、例えば、ユーザが指定した画像群が図１１に示す区間３のみに含まれていた場合、イベント的に撮影された可能性が高く、その区間のみで最適化されたローカルモデルを作成することもできる。さらに各区間で同一特徴を抽出し利用する特徴量自体を限定して利用することもできる。

　６．変形例
　以上、実施の形態に基づいて説明したが、本発明は上記の各実施の形態に限られない。例えば、以下のような変形例が考えられる。

　（１）上記各実施の形態において、分類部４で行われる判定処理で用いられる判別器は機械学習手法によるものとしたが、これに限定されない。判別器は、ある判別基準に従って、ある特徴量を持った信号が属する、ある定義された分類項目を判別することができる方法であればよい。

　（２）本発明において利用される基準特徴量は、特徴量抽出部３で抽出される特徴量においてＡＶデータ内の特徴を捉えられるものであればよい。

　例えば、画像ではＢｏＦ（Ｂａｇ　Ｏｆ　Ｆｅａｔｕｒｅｓ）における各ＶｉｓｕａｌＷｏｒｄ等の部分パーツ特徴量が、音声では言語基本モデルとしての母音や子音の発話モデル等が考えられる。

　（３）上記各実施の形態において、同一特徴の抽出処理の開始には、一例として第１基準パラメータテーブルＴ１００を用いるものとしたが、このテーブルの内容に限定されない。

　分類結果の増減に合わせて処理を開始可能な数であればその種別は問わない。例えば、簡易的には全てのデータ数の増減に応じてデータ処理装置は同一特徴抽出の処理を行っても良いし、第１基準パラメータテーブルＴ１００の各基準のうち少なくとも２つ以上の基準を満たす場合に処理を行ってもよい。

　（４）上記各実施の形態において、同一特徴抽出部８及び同一特徴抽出部５８は、全画像データ毎に図３に示すような検出頻度を算出し、一定区間毎の検出頻度値の検出数を算出するとしてもよい。

　（５）上記各実施の形態において、類似度分布の検出数の値を０～１に正規化してもよい。これにより、することで計算処理を簡易化することができる。

　（６）上記各実施の形態において、同一特徴抽出部８及び同一特徴抽出部５８は、第２基準パラメータテーブルＴ１１０における複数のピーク値基準の何れかを満たす場合に、対応する基準特徴量は同一物体性を判定可能と判定したが、これに限定されない。

　利用する基準特徴量毎に、ピーク値基準を対応付けてもよい。

　（７）上記第３の実施の形態において、図１６の例では、画像をチェックボックスを用いて選択するとしたが、これに限定されない。

　画像を直接触る（タッチする）ことにより選択してもよい。

　図１７の例では、１つの物体（イス）を選択して、タグ入力したが、１枚の画像に複数の物体を選択して、各物体に対するタグをそれぞれ入力してもよい。

　つまり、同一特徴抽出部８やローカルモデル９の処理結果を修正できるユーザインタラクションの内容であればその手法は問わない。

　（８）上記第１の実施の形態において、未分類特徴ＤＢ７には、未分類情報としてＡＶデータを識別する識別子が格納されるとしたが、これに限定されない。

　未分類特徴ＤＢ７には、未分類情報として特徴量抽出部３で算出されたＡＶデータに対する特徴量が格納されてもよい。

　（９）上記各実施の形態において、画像を中心に説明したが、本発明の装置は、画像のみを対象にするものではない。

　音声を基にローカルモデルを作成してもよい。

　何かしらの特徴を基にローカルモデルを作成することのできるデータであればよい。

　また、本発明の装置は、ローカルモデルを作成することのできるデータを蓄積することのできる装置、例えば、ＤＶＤレコーダー、ＴＶ、パソコンやデータサーバー等に組み込まれてもよい。

　（１０）上記各実施の形態では、特徴量抽出部は、エッジや色やテクスチャ等の低次特徴量から特徴的な点を中心に領域特徴量を現す特徴量記述子であるＳＵＲＦやＳＩＦＴ等の特徴量、さらには物体の形状特徴を現すＨＯＧ（Ｈｉｓｔｏｇｒａｍ　ｏｆ　ｏｒｉｅｎｔｅｄ　Ｇｒａｄｉｅｎｔ）等の高次特徴を抽出したが、これに限定されない。

　特徴量抽出部は、エッジや色やテクスチャ等において類似する局所特徴群を含む特徴群を生成してもよい。このとき、同一特徴抽出部は、生成された特徴群に含まれる各局所特徴群から特徴量の類似性及び特徴量の出現頻度等を算出する。

　（１１）上記の実施の形態で説明した手法の手順を記述したプログラムをメモリに記憶しておき、ＣＰＵ（Ｃｅｎｔｒａｌ　Ｐｒｏｃｅｓｓｉｎｇ　Ｕｎｉｔ）などがメモリからプログラムを読み出して、読み出したプログラムを実行することによって、上記の手法が実現されるようにしてもよい。

　また、当該手法の手順を記述したプログラムを記録媒体に格納して、頒布するようにしてもよい。

　（１２）上記の各実施の形態にかかる各構成は、集積回路であるＬＳＩ（Ｌａｒｇｅ　Ｓｃａｌｅ　Ｉｎｔｅｇｒａｔｉｏｎ）として実現されてもよい。これらの構成は、１チップ化されても良いし、一部又は全てを含むように１チップ化されてもよい。ここでは、ＬＳＩと表現したが、回路の集積度の違いによっては、ＩＣ（Ｉｎｔｅｇｒａｔｅｄ　Ｃｉｒｃｕｉｔ）、システムＬＳＩ、スーパーＬＳＩ、ウルトラＬＳＩと称呼されることもある。また、集積回路化の手法は、ＬＳＩに限られるものではなく、専用回路または汎用プロセッサで集積回路化を行ってもよい。また、ＬＳＩ製造後にプログラムすることが可能なＦＰＧＡ（Ｆｉｅｌｄ　Ｐｒｏｇｒａｍｍａｂｌｅ　Ｇａｔｅ　Ａｒｒａｙ）や、ＬＳＩ内部の回路セルの接続や設定を再構成可能なリコンフィギュラブル・プロセッサー（ＲｅＣｏｎｆｉｇｕｒａｂｌｅ　Ｐｒｏｃｅｓｓｏｒ）を用いてもよい。あるいは、これらの機能ブロックの演算は、例えば、ＤＳＰ（Ｄｉｇｉｔａｌ　Ｓｉｇｎａｌ　Ｐｒｏｃｅｓｓｏｒ）やＣＰＵ（Ｃｅｎｔｒａｌ　Ｐｒｏｃｅｓｓｉｎｇ　Ｕｎｉｔ）などを用いて演算することもできる。さらに、これらの処理ステップはプログラムとして記録媒体に記録して実行することで処理することもできる。

　さらには、半導体技術の進歩または派生する別技術によりＬＳＩに置き換わる集積回路の技術が登場すれば、当然、その技術を用いて機能ブロックを集積化してもよい。バイオ技術の適応などが可能性としてあり得る。

　（１３）上記実施の形態及び変形例を組み合わせるとしてもよい。

　本発明のデータ処理装置は、一般的なモデルでは識別できなかったデータを分類し、ユーザに特化したローカルモデルを作成するのに有用である。

　また、本発明にかかるデータ処理装置は、主に全特徴量を用いた距離空間によってローカルモデルを作成するたけではなく、利用する特徴量を同一被写体性の高い特徴量のみに限定したり、一定区間毎に分割して時系列的継続性を考慮したモデル生成をすることにより、一般的な分類モデルではなくローカルＡＶデータに対して識別性が高いローカルな分類モデルとすることができる。そのため、ローカルＡＶデータ群に特有な物体情報を精度よく抽出してデータのインデクスとすることでユーザに手間のかからないＡＶデータ分類や検索が可能となる。例えば、写真の検索をする際に、一般的な分類モデルでは分類が不十分な場合でも、ユーザのローカル画像群に特有な分類モデルを作成し分類する画像処理機能を有し、様々な画像視聴端末機等として有用である。また、ＤＶＤレコーダーやＴＶ（Ｔｅｌｅｖｉｓｉｏｎ）やパソコンソフトやデータサーバー等の用途にも応用できる。

　　　　１　　ローカルＤＢ
　　　　２　　前処理部
　　　　３　　特徴量抽出部
　　　　４　　分類部
　　　　５　　基本辞書ＤＢ
　　　　６　　検索インデクスＤＢ
　　　　７　　未分類特徴ＤＢ
　　　　８　　同一特徴抽出部
　　　　９　　ローカルモデル作成部
　　　１０　　ローカル辞書ＤＢ
　　　１１　　基準パラメータＤＢ
　　　２０　　ローカルモデル作成部
　　　２１　　区間情報抽出部
　　　２２　　区間モデル作成部
　　　２３　　モデル継続性判定部
　　　３０　　ユーザインタラクション入力部
　　　４０　　分類部
　　　４１　　全画像特徴ＤＢ
　　　４２　　類似特徴抽出部
　　　４３　　グローバルモデル作成部
　　１００　　データ処理装置

Claims

　複数の特徴量それぞれの検出頻度の組み合わせからなり、オブジェクトの分類に用いられる複数のモデルデータを保持する記憶手段と、
　前記複数のモデルデータと、分類対象のデータにおいて検出される２つ以上の特徴量それぞれの検出頻度とから、当該データに含まれるオブジェクトの分類の可否を特定する分類手段と、
　複数の分類対象のデータについて前記分類手段による処理を行った後、オブジェクトの分類が否と特定された未識別データが複数存在する場合、検出される頻度が同一である未識別データが一定数以上である特徴量を２つ以上特定する特定手段と、
　新たなモデルデータを、クラス作成手法により、特定された２つ以上の特徴量に基づいて作成し、前記記憶手段へ格納するモデル作成手段とを備える
　ことを特徴とするデータ処理装置。
　前記特定手段は、
　前記未識別データ毎に、前記複数の特徴量それぞれに対して当該特徴量に類似する特徴量が検出される検出頻度を取得し、
　前記未識別データそれぞれから取得された検出頻度から、前記複数の特徴量毎に検出頻度の分布度合を生成し、
　前記分布度合それぞれから、検出される頻度が同一である未識別データが一定数以上となる特徴量を２つ以上特定する
　ことを特徴とする請求項１に記載のデータ処理装置。
　前記特定手段は、
　前記複数の未識別データを所定規則に従った区間毎にグループ化して複数のデータ群を生成し、前記データ群毎に、検出頻度の取得、分布度合の生成、及び特徴量の特定を行い、
　前記モデル作成手段は、
　前記データ群毎に新たなモデルデータを作成する
　ことを特徴とする請求項２に記載のデータ処理装置。
　前記未識別データそれぞれには、当該未識別データが作成された日時を示す時間情報が対応付けられており、
　前記所定規則に従った区間とは、一定の時間帯毎に区切られた期間であり、
　前記特定手段は、
　前記複数の未識別データを一定の時間帯に区切られた期間毎にグループ化して前記複数のデータ群を生成する
　ことを特徴とする請求項３に記載のデータ処理装置。
　前記モデル作成手段は、
　複数の新たなモデルデータが作成された場合、一のデータ群において生成された一のモデルデータが、他のデータ群において生成された他のモデルデータと時間的推移による相関関係があるか否かを判定し、相関関係があると判定する場合には、当該一のモデルデータと当該他のモデルデータとを時間変化性をもつモデルデータとして対応付ける
　ことを特徴とする請求項４に記載のデータ処理装置。
　前記モデル作成手段は、
　前記一のモデルデータを特徴付ける第１の特徴量の類似性の変化度と、前記他のモデルデータを特徴付ける第２の特徴量の類似性の変化度との間に比例関係がある場合に、相関関係があると判定する
　ことを特徴とする請求項５に記載のデータ処理装置。
　前記モデル作成手段は、
　一のデータ群において生成された一のモデルデータが、他のデータ群において生成された他のモデルデータと同一である場合又は残りのデータ群において当該一のモデルデータと同一のものが周期的に出現する場合には、当該一のモデルデータのみを前記記憶手段へ記憶する
　ことを特徴とする請求項５に記載のデータ処理装置。
　前記特定手段は、
　前記未識別データ全てを用いて、特徴量毎に対する算出頻度を取得し、取得した算出頻度が所定頻度以上である１つ以上の特徴量を特定し、前記オブジェクトの識別がされなかったデータ毎に、取得した１つ以上の特徴量それぞれに対する検出頻度を取得し、
　当該データ毎に取得された１つ以上の検出頻度から、前記分布度合を生成する
　ことを特徴とする請求項２に記載のデータ処理装置。
　前記データ処理装置は、さらに、
　前記複数の未識別データを表示する表示手段と、
　表示された未識別データから２つ以上のデータの指定をユーザから受け付ける指示受付手段を備え、
　前記特定手段は、
　前記指示受付手段で受け付けた前記２つ以上の未識別データそれぞれから取得される前記複数の特徴量毎の検出頻度から、または前記２つ以上のデータを除く残りのデータそれぞれから取得される前記複数の特徴量毎の検出頻度から、前記複数の特徴量毎の前記分布度合を作成する
　ことを特徴とする請求項２に記載のデータ処理装置。
　前記指示受付手段は、新たなモデルデータが未だ作成されていないときに、前記指示を受け付ける
ことを特徴とする請求項９に記載のデータ処理装置。
　前記特定手段は、
　前記指示受付手段で受け付けた前記２つ以上の未識別データそれぞれについて、当該未識別データの作成日時に基づいて、当該作成日時が複数の期間のうち何れかの期間に属するよう、前記２つ以上の未識別データそれぞれをグループ分けし、グループ毎に前記分布度合を作成する
　ことを特徴とする請求項１０に記載のデータ処理装置。
　前記データ処理装置は、さらに、
　前記モデルデータ作成手段で作成された前記新たなモデルデータにより識別されるオブジェクトを有するとみされる複数のデータを表示する表示手段と、
　表示された複数のデータから２つ以上のデータの指定をユーザから受け付ける指示受付手段を備え、
　前記特定手段は、
　前記指示受付手段で受け付けた前記２つ以上のデータそれぞれから取得される前記複数の特徴量毎の検出頻度から、または前記２つ以上のデータを除く残りのデータそれぞれから取得される前記複数の特徴量毎の検出頻度から、前記複数の特徴量毎に前記分布度合とは異なる分布度合を作成し、
　前記モデルデータ作成手段は、
　前記異なる分布度合から前記新たなモデルデータとは異なるモデルデータを作成する
　ことを特徴とする請求項２に記載のデータ処理装置。
　前記データは画像であり、
　前記特定手段は、
　前記オブジェクトの識別がされなかった画像毎に、当該画像で検出される１つ以上の特徴量の類似度を用いて少なくとも局所特徴群を含む高次特徴群を生成し、各局所特徴群から前記検出頻度を取得する
　ことを特徴とする請求項２に記載のデータ処理装置。
　複数の特徴量それぞれの検出頻度の組み合わせからなり、オブジェクトの分類に用いられる複数のモデルデータを保持する記憶手段を備えるデータ処理装置で用いられるデータ処理方法であって、
　前記複数のモデルデータと、分類対象のデータにおいて検出される２つ以上の特徴量それぞれの検出頻度とから、当該データに含まれるオブジェクトの分類の可否を特定する分類ステップと、
　複数の分類対象のデータについて前記分類ステップによる処理を行った後、オブジェクトの分類が否と特定された未識別データが複数存在する場合、検出される頻度が同一である未識別データが一定数以上である特徴量を２つ以上特定する特定ステップと、
　新たなモデルデータを、クラス作成手法により、特定された２つ以上の特徴量に基づいて作成し、前記記憶手段へ格納するモデル作成ステップとを含む
　ことを特徴とするデータ処理方法。
　複数の特徴量それぞれの検出頻度の組み合わせからなり、オブジェクトの分類に用いられる複数のモデルデータを保持する記憶手段を備えるデータ処理装置で用いられるプログラムであって、
　前記データ処理装置に、
　前記複数のモデルデータと、分類対象のデータにおいて検出される２つ以上の特徴量それぞれの検出頻度とから、当該データに含まれるオブジェクトの分類の可否を特定する分類ステップと、
　複数の分類対象のデータについて前記分類ステップによる処理を行った後、オブジェクトの分類が否と特定された未識別データが複数存在する場合、検出される頻度が同一である未識別データが一定数以上である特徴量を２つ以上特定する特定ステップと、
　新たなモデルデータを、クラス作成手法により、特定された２つ以上の特徴量に基づいて作成し、前記記憶手段へ格納するモデル作成ステップとを実行させる
　ことを特徴とするプログラム。
　データ処理装置で用いられる集積回路であって、
　複数の特徴量それぞれの検出頻度の組み合わせからなり、オブジェクトの分類に用いられる複数のモデルデータを保持する記憶手段と、
　前記複数のモデルデータと、分類対象のデータにおいて検出される２つ以上の特徴量それぞれの検出頻度とから、当該データに含まれるオブジェクトの分類の可否を特定する分類手段と、
　複数の分類対象のデータについて前記分類手段による処理を行った後、オブジェクトの分類が否と特定された未識別データが複数存在する場合、検出される頻度が同一である未識別データが一定数以上である特徴量を２つ以上特定する特定手段と、
　新たなモデルデータを、クラス作成手法により、特定された２つ以上の特徴量に基づいて作成し、前記記憶手段へ格納するモデル作成手段とを備える
　ことを特徴とする集積回路。