WO2019239743A1

WO2019239743A1 - 物体検出装置、方法、及びプログラム

Info

Publication number: WO2019239743A1
Application number: PCT/JP2019/018269
Authority: WO
Inventors: 周平田良島; 峻司細野; 之人渡邉; 島村　潤; 杵渕　哲也
Original assignee: 日本電信電話株式会社
Priority date: 2018-06-11
Filing date: 2019-05-07
Publication date: 2019-12-19
Also published as: US20210209403A1; US11594009B2; JP2019215609A; JP6814178B2

Abstract

検出対象の物体が画像中で顕著でなく、また検出対象の物体以外の、画像上での見え方が共通した領域を含む画像が入力に含まれていても、検出対象の物体を示す領域を精度良く検出する。　局所特徴抽出部（２０）が、入力された画像集合に含まれる各画像から、特徴点の局所特徴を抽出し、画像ペア共通パターン抽出部（３０）が、画像集合に含まれる画像から選択した画像ペア毎に、画像ペアを構成する画像間において、局所特徴抽出部（２０）により抽出された局所特徴が類似する特徴点ペアの集合であって、かつ、幾何的に類似する特徴点ペアの集合からなる共通パターンを抽出し、領域検出部（５０）が、画像ペア共通パターン抽出部（３０）により抽出された共通パターンのうち、画像集合に遍在する共通パターンに基づく領域を、画像集合に含まれる各画像における検出対象の物体を示す領域として検出する。

Description

物体検出装置、方法、及びプログラム

　本発明は、物体検出装置、方法、及びプログラムに係り、特に、画像集合に共通して写る物体の画像内における位置を特定する物体検出装置、方法、及びプログラムに関する。

　画像や映像に写る商品やロゴなどの物体を自動で検出すること、より具体的には、物体の種類及び物体の画像内での位置を把握することは、実世界の状況を理解し、高度な分析を行う上で極めて重要である。例えば、ＳＮＳに投稿された画像から特定の商品が自動検出できれば、その商品の利用シーンや同時に購入されている商品が明らかになり、より緻密なマーケティング調査の実現につながる。また、テレビ映像から企業ロゴが自動検出できれば、ロゴが表示された時間やテレビ画面中での表示位置が定量化され、プロモーション効果の測定や柔軟な広告料の設定等が可能になる。このように、物体検出は、幅広い産業応用可能性を有する要素技術と言える。

　公知の物体検出技術の多くは、物体に関する大量のラベル付き学習データから、物体検出器のモデルを学習することを前提としている。ここで、ラベルとは、学習データである画像の各々に写る物体の種類を示す情報、及び物体の画像内での位置情報を指す。位置情報は、例えば、画像内に写る物体を示す領域を過不足なく囲う矩形の四隅の座標位置の情報などである。一般的に、このような学習データを人手で構築するには膨大なコストがかかる。

　上記の問題を解消するために、画像に写る物体の種類を示すラベルのみであれば比較的容易に入手可能、又は、低コストに付与可能であることに着目し、同一ラベルが付与された複数の画像集合から、その中に写る物体を自動で検出する技術を「弱教師有り物体検出」と呼ぶ。

　従来の弱教師有り物体検出技術では、例えば、各画像で顕著性の高い領域を推定し、得られた領域を画像集合間で対応付け、その再構成のし易さを評価することで、検出対象の物体を示す領域（以下、「対象物体領域」という）を特定する場合が多い。例えば、まず顕著性の高い領域が類似した画像ペア間でピクセル単位の密な対応付けを推定し、推定結果を用いて各画像の各ピクセルを類似した画像で再構成したときの誤差に基づいて、対象物体領域を特定する方法が提案されている（例えば、非特許文献１）。

　また、非特許文献１で提案されている技術では、多くの画像ペアに対し密な対応付けを算出する必要があり、処理コストが高いという点に着目し、顕著性の高い領域から抽出される特徴量あたりの再構成のし易さを評価することで、高速に対象物体領域を特定する方法が提案されている（例えば、非特許文献２）。

M. Rubinstein et al., "Unsupervised Joint Object Discovery and Segmentation in Internet Images", in CVPR, 2013. S. Tarashima et al., "Joint Object Discovery and Segmentation with Image-wise Reconstruction Error", in ICIP, 2016.

　しかし、上述した従来の弱教師有り物体検出技術には、大きく以下２点の課題がある。まず１点目として、従来の弱教師有り物体検出技術において、暗黙のうちに仮定している、「対象物体領域の顕著性は高い」という仮定は、しばしば満たされないという点が挙げられる。

　例えば、図１６に示すように、対象物体領域が、テレビ画面上に表示された「ＡＡ生命」のロゴを過不足なく囲う矩形領域（図１６中の破線で示す矩形領域）であるとする。この場合において、従来技術を用いて推定される顕著性マップは図１６右部に示すようになる。なお、図１６右部は、顕著性の高い領域に含まれる画素ほど画素値を高く（白画素）、顕著性の低い領域に含まれる画素ほど画素値を低く（黒画素）して表した顕著性マップの例である。図１６の例では、対象物体領域以外の多くの領域が、顕著性の高い領域として推定されていたり、対象物体領域であっても、顕著性の高い領域として推定されていなかったりすることが分かる。

　これは、一般に、顕著性の高い領域が、周辺とのコントラスト差が大きい、彩度が高い、画像中心付近に大きく写るなどといった条件を満たす領域として定義されるのに対し、対象物体領域がそれらを満たさないことに起因する。したがって、図１６に示すような画像集合が入力された場合、従来技術では、対象物体領域を正確に検出することができない。

　２点目として、これもまた従来の弱教師有り物体検出技術における、「入力された画像集合中の画像ペアには対象物体領域以外に類似した領域は含まれない」という仮定が、しばしば満たされないという点が挙げられる。

　例えば、図１７に示す画像ペアにおいて、対象物体領域である「ＡＡ生命」の領域は当然互いに類似している（図１７において、実線の矢印で接続された実線の楕円で示す領域）。しかし、対象物体領域以外にも、画像上での見え方が共通した領域が数多く含まれていることが分かる（例えば図１７において、破線の矢印で接続された破線の楕円で示す領域）。画像上での見え方が共通した領域は容易に対応付き、当然類似した画像で再構成もし易いため、従来技術では、これらの「対象物体領域ではないが、画像上での見え方が共通した領域」も多く検出されることになる。これにより、従来技術では、対象物体領域を正確に検出することができない。

　このように、従来技術の弱教師有り物体検出技術では、対象物体領域の顕著性が低く、また対象物体領域以外の、画像上での見え方が共通した領域を含む画像が入力に含まれていた場合、対象物体領域を正確に検出することができないという問題がある。

　本発明は、上記の事情に鑑みてなされたもので、検出対象の物体が画像中で顕著でなく、また検出対象の物体以外の、画像上での見え方が共通した領域を含む画像が入力に含まれていても、検出対象の物体を示す領域を精度良く検出することができる物体検出装置、方法、及びプログラムを提供することを目的とする。

　上記目的を達成するために、本発明に係る物体検出装置は、入力された画像集合に含まれる各画像から、特徴点の局所特徴を抽出する局所特徴抽出部と、前記画像集合に含まれる画像から選択した画像ペア毎に、前記画像ペアを構成する画像間において、前記局所特徴抽出部により抽出された局所特徴が類似する特徴点ペアの集合であって、かつ、幾何的に類似する特徴点ペアの集合からなる共通パターンを抽出する画像ペア共通パターン抽出部と、前記画像ペア共通パターン抽出部により抽出された共通パターンのうち、前記画像集合に遍在する共通パターンに基づく領域を、前記画像集合に含まれる各画像における検出対象の物体を示す領域として検出する領域検出部と、を含んで構成されている。

　本発明に係る物体検出装置によれば、局所特徴抽出部が、入力された画像集合に含まれる各画像から、特徴点の局所特徴を抽出し、画像ペア共通パターン抽出部が、画像集合に含まれる画像から選択した画像ペア毎に、画像ペアを構成する画像間において、局所特徴抽出部により抽出された局所特徴が類似する特徴点ペアの集合であって、かつ、幾何的に類似する特徴点ペアの集合からなる共通パターンを抽出する。このように、検出する領域の位置、サイズ、コントラスト等に何ら仮定をおくことなく共通パターンを抽出するため、顕著性の条件を満たさない領域であっても、検出対象の領域の候補として、精度よく抽出することができる。

　また、領域検出部が、画像ペア共通パターン抽出部により抽出された共通パターンのうち、画像集合に遍在する共通パターンに基づく領域を、画像集合に含まれる各画像における検出対象の物体を示す領域として検出する。これにより、入力された画像集合中の特定の画像ペアに含まれうる、対象外の共通パターンを、検出対象の領域の候補から除外することができる。

　すなわち、本発明に係る物体検出装置によれば、検出対象の物体が画像中で顕著でなく、また検出対象の物体以外の、画像上での見え方が共通した領域を含む画像が入力に含まれていても、検出対象の物体を示す領域を精度良く検出することができる。

　また、本発明に係る物体検出装置において、前記画像ペア共通パターン抽出部は、前記画像集合から画像ペアを選択する画像ペア選択部と、前記画像ペア選択部で選択された各画像ペアについて、前記局所特徴抽出部により抽出された局所特徴が類似する特徴点同士を、特徴点ペアとして暫定的に対応付ける暫定対応付け部と、前記暫定対応付け部で対応付けられた特徴点ペアをノードとし、幾何的に一貫性があることを示す条件を満たす前記特徴点ペアに対応するノード間をエッジで接続した対応グラフを構築する対応グラフ構築部と、前記対応グラフ構築部により構築された対応グラフから、同一の共通パターンを構成する特徴点ペア集合に対応するノード集合のクラスタを抽出する対応グラフクラスタリング部と、前記対応グラフクラスタリング部で抽出された各クラスタに対応する画像上の各領域を、前記領域間の空間的な重複度に基づいて統合した領域を、前記共通パターンとして抽出するクラスタ統合部と、を含んで構成することができる。

　また、本発明に係る物体検出装置において、前記対応グラフ構築部は、前記幾何的に一貫性があることを示す条件を満たすか否かを、前記暫定対応付け部で対応付けられた特徴点ペアに含まれる特徴点の局所特徴を用いて判定することができる。特徴点の局所特徴、具体的には、特徴点の位置及び属性（スケール及びオリエンテーション）を用いることで、幾何的な一貫性を適切に判定することができる。

　また、本発明に係る物体検出装置において、前記対応グラフクラスタリング部は、クラスタに含まれる全てのノードに対応する特徴点ペアについて、前記特徴点ペアが共通の特徴点から構成されていないクラスタを抽出する。これにより、共通パターンを構成する特徴点ペアとして不適切な特徴点ペアを除外することができる。

　また、本発明に係る物体検出装置において、前記領域検出部は、前記画像ペア共通パターン抽出部で抽出された各共通パターンをノードとし、前記画像集合に含まれる画像内、及び画像間で共通する共通パターンに対応するノード間をエッジで接続し、かつ、共通パターンが抽出された画像の識別情報を、対応する各ノードに付与した共通パターングラフを構築する共通パターングラフ構築部と、前記共通パターングラフ構築部で構築された前記共通パターングラフに含まれるパスのうち、前記画像集合に含まれる全画像の識別情報集合に対する、前記パスに含まれる各ノードに付与された前記画像の識別情報集合の網羅度が高いパスに対応する共通パターンを、遍在共通パターンとして選択する遍在共通パターン選択部と、前記遍在共通パターン選択部で選択された遍在共通パターンを、前記遍在共通パターンに対応するパスの共通性、及び前記画像における前記遍在共通パターンの空間的な重複度の少なくとも一方に基づいて各画像内で統合した領域を、前記検出対象の物体を示す領域として検出する遍在共通パターン統合部と、を含んで構成することができる。

　また、本発明に係る物体検出装置において、前記領域検出部は、前記遍在共通パターンを示す領域の周辺画素の情報に基づいて、前記遍在共通パターンを示す領域の境界を修正する検出領域修正部を更に含んで構成することができる。これにより、より適切に検出対象の領域を検出することができる。

　また、本発明に係る物体検出方法は、局所特徴抽出部が、入力された画像集合に含まれる各画像から、特徴点の局所特徴を抽出し、画像ペア共通パターン抽出部が、前記画像集合に含まれる画像から選択した画像ペア毎に、前記画像ペアを構成する画像間において、前記局所特徴抽出部により抽出された局所特徴が類似する特徴点ペアの集合であって、かつ、幾何的に類似する特徴点ペアの集合からなる共通パターンを抽出し、領域検出部が、前記画像ペア共通パターン抽出部により抽出された共通パターンのうち、前記画像集合に遍在する共通パターンに基づく領域を、前記画像集合に含まれる各画像における検出対象の物体を示す領域として検出する方法である。

　また、本発明に係る物体検出プログラムは、コンピュータを、上記の物体検出装置を構成する各部として機能させるためのプログラムである。

　以上説明したように、本発明に係る物体検出装置、方法、及びプログラムによれば、検出対象の物体が画像中で顕著でなく、また検出対象の物体以外の、画像上での見え方が共通した領域を含む画像が入力に含まれていても、検出対象の物体を示す領域を精度良く検出することができる。

画像集合の一例を概略的に示す図である。本実施形態に係る物体検出装置の機能ブロック図である。共通パターンの抽出を説明するための図である。共通パターンの抽出を説明するための図である。対応グラフの構築を説明するための図である。対応グラフのクラスタリングを説明するための図である。画像ペア共通パターン抽出部により抽出された共通パターンの一例を概略的に示す図である。遍在共通パターンの選択を説明するための図である。共通パターングラフの構築を説明するための図である。対象物体領域の修正を説明するための図である。対象物体領域の検出結果の一例を概略的に示す図である。本実施形態に係る物体検出処理の一例を示すフローチャートである。画像ペア共通パターン抽出処理の一例を示すフローチャートである。対応グラフクラスタリング処理の一例を示すフローチャートである。領域検出処理の一例を示すフローチャートである。顕著性が高い領域を対象物体領域として検出する場合の問題点を説明するための図である。画像ペア間の共通パターンを対象物体領域として検出する場合の問題点を説明するための図である。

　以下、図面を参照して、本発明を実施するための形態の一例について詳細に説明する。

　本実施形態に係る物体検出装置には、同一の物体を示すラベルが付与された画像集合が入力される。図１に、物体検出装置に入力される画像集合の一例を概略的に示す。本実施形態では、テレビ映像に含まれる「ＡＡ生命」というロゴを対象物体領域とする場合について説明する。入力された画像集合に含まれる各画像には、「ＡＡ生命」のラベルが付与されている。なお、入力される画像集合の一部に、実際には検出対象の物体を全く含まない画像、すなわち、「ＡＡ生命」のラベルが付与されていない画像が混在していてもよい。

　また、物体検出装置は、入力された画像集合に含まれる各画像から、ラベルが示す物体に対応する領域（「ＡＡ生命」というロゴの領域）を検出し、検出した領域の位置を示す対象物体領域情報を出力する。

　本実施形態に係る物体検出装置は、ＣＰＵ（Central Processing Unit）、ＲＡＭ（Random Access Memory）、ＲＯＭ（Read Only Memory）、及びＨＤＤ（Hard Disk Drive）等を備えたコンピュータとして構成される。ＲＯＭには、本実施形態に係る物体検出プログラムが記憶される。なお、物体検出プログラムは、ＨＤＤに記憶されてもよい。

　また、物体検出プログラムは、例えば、物体検出装置に予めインストールされていてもよい。この物体検出プログラムは、不揮発性の記憶媒体に記憶して、又は、ネットワークを介して配布して、物体検出装置に適宜インストールすることで実現してもよい。なお、不揮発性の記憶媒体の例としては、ＣＤ-ＲＯＭ（Compact Disc Read Only Memory）、光磁気ディスク、ＤＶＤ-ＲＯＭ（Digital Versatile Disc Read Only Memory）、フラッシュメモリ、メモリカード等が挙げられる。

　ＣＰＵは、ＲＯＭに記憶された物体検出プログラムを読み込んで実行することにより、後述する物体検出装置の各機能部として機能する。

　図２に示すように、本実施形態に係る物体検出装置１０は、機能的には、局所特徴抽出部２０と、画像ペア共通パターン抽出部３０と、領域検出部５０とを含む。

　局所特徴抽出部２０は、入力された画像集合に含まれる各画像から局所特徴を抽出する。ここで、局所特徴は、特徴点ｐの画像中の位置（ｘ_ｐ，ｙ_ｐ）と、特徴点ｐの属性（スケールｓ_ｐ及びオリエンテーションθ_ｐ）と、特徴点ｐの位置及び属性から定義される、下記に示すパッチの特徴記述ｄ_ｐから構成されるものとする。なお、Ｎは特徴記述子の次元である。

　局所特徴の抽出は、特徴点検出及び特徴記述から構成される。特徴点は、一つの画像から任意の数が検出される。特徴点検出は任意の公知の技術を用いることが可能であり、例えば、参考文献１に開示されているＤｏＧ、Ｈａｒｒｉｓ－Ｌａｐｌａｃｅ、Ｈｅｓｓｉａｎ－Ａｆｆｉｎｅ、Ｈｅｓｓｉａｎ－Ｈｅｓｓｉａｎ、Ｈｅｓｓｉａｎ　Ｌａｐｌａｃｅ、Ｈａｒｒｉｓ　Ｌａｐｌａｃｅ等を用いることができる。これらの方法を複数同時に用いてもよい。この場合、異なる方法からほぼ同一の特徴点が検出されることがあるため、特徴点の位置や属性に基づいて冗長な特徴点は除外することが望ましい。

　また特徴記述の方法も任意であり、ＳＩＦＴやＳＵＲＦ、参考文献２に開示されているＳｐｒｅａｄ－Ｏｕｔ　Ｄｅｓｃｒｉｐｔｏｒ、あるいはパッチを構成する全ピクセルをベクトル化して用いてもよい。得られた特徴記述には、例えば、Ｌ２正規化等の正規化処理を施してもよい。

　　参考文献１：K. Mikolajczyk et al., "A Comparison of Affine Region Detectors", in IJCV, 2005.
　　参考文献２：X. Zhang et al., "Learning Spread-out Local Feature Descriptors", in ICCV, 2017.

　画像ペア共通パターン抽出部３０は、図３に示すように、入力された画像集合から選択された一つ以上の画像ペア毎に、画像上での見え方が、画像ペアを構成する画像間で共通しているパターン（以下、「共通パターン」という）として、局所特徴抽出部２０で抽出された局所特徴が類似する特徴点ペアの集合であって、幾何的に類似する特徴点ペアの集合からなる共通パターンを抽出する。

　より詳細には、画像ペア共通パターン抽出部３０は、画像ペア選択部３２と、暫定対応付け部３４と、対応グラフ構築部３６と、対応グラフクラスタリング部３８と、クラスタ統合部４０とを含んだ構成で表すことができる。

　画像ペア選択部３２は、入力された画像集合から一つ以上の画像ペアを選択する。画像ペアの選択方法は任意であり、画像ペア選択部３２は、例えば全ての画像ペアの組み合わせを選択したり、その中から所定の数のペアをランダムに選択したりすることができる。また、画像ペア選択部３２は、各画像から抽出された任意の特徴を比較し、各画像をノードとし、特に類似したノード（すなわち画像）間をエッジで接続した無向グラフを構築した上で、グラフに含まれる各エッジの両端のノードに対応する画像ペアを選択することができる。

　また、画像ペア選択部３２は、局所特徴抽出部２０で抽出された局所特徴を活用して、画像ペアを選択してもよい。この場合の選択方法として、例えば、一方の画像中のある特徴点に最も類似した他方の画像中の特徴点間の類似度が、２番目に類似した特徴点の類似度よりも十分に高い場合のみ対応付けを行うＲａｔｉｏ　Ｔｅｓｔ、互いに最も類似している特徴点ペアである場合のみ対応付けを行うＣｒｏｓｓ　Ｃｈｅｃｋ、特徴点間の類似度又は距離が所定の条件（閾値）を満たす特徴点ペアの数を類似度として用いる方法等を適用することができる。また、画像ペア選択部３２は、各画像から抽出された局所特徴を、参考文献３で開示されている方法で統合し、得られたベクトル間の距離を用いて、画像ペアを選択してもよい。

　　参考文献３：H. Jegou et al., "Aggregating Local Descriptors into a Compact Image Representation", in CVPR, 2010.

　画像ペア選択部３２は、画像ペアの選択結果を示す情報を、暫定対応付け部３４に受け渡す。画像ペアの選択結果を示す情報は、例えば、画像ペアを構成する各画像の識別情報である画像ｉｄの組とすることができる。以下では、画像ｉｄがｘの画像を「画像ｘ」と表記する。なお、後述する暫定対応付け部３４、対応グラフ構築部３６、及び対応グラフクラスタリング部３８の各々の処理は、画像ペアの各々に対して独立に実施される。

　暫定対応付け部３４は、画像ペア選択部３２から受け渡された選択結果が示す各画像ペアについて、局所特徴抽出部２０により抽出された局所特徴が類似する特徴点同士を、暫定的に対応付ける。以下では、暫定的に対応付けられた特徴点のペアを「暫定対応ペア」という。特徴点同士を対応付ける方法は任意であり、例えば上述したＲａｔｉｏ　Ｔｅｓｔ、Ｃｒｏｓｓ　Ｃｈｅｃｋ、特徴点ペアの類似度又は距離に対する閾値処理等の方法を用いることができる。

　図４に、暫定対応ペアの一例を示す。図４では、上段に示す画像ペアの各々について、中段の図に示すように、画像間で局所特徴が類似する特徴点間を線で結ぶことにより、暫定対応ペアを表している。

　暫定対応付け部３４は、暫定対応ペアの情報を、対応グラフ構築部３６へ受け渡す。暫定対応ペアの情報には、暫定対応ペアを構成する各特徴点の位置（ｘ_ｐ，ｙ_ｐ）及び属性（スケールｓ_ｐ及びオリエンテーションθ_ｐ）が含まれる。

　対応グラフ構築部３６は、暫定対応付け部３４から受け渡された暫定対応ペアの情報が示す暫定対応ペアをノードとし、幾何的に一貫性があることを示す条件を満たす暫定対応ペアに対応するノード間をエッジで接続した対応グラフを構築する。

　例えば、対応グラフ構築部３６は、図５に示すように、画像１の特徴点ｐと画像２の特徴点ｑとで構成された暫定対応ペア｛ｐ，ｑ｝に対応するノードｖ_ａ、及び画像１の特徴点ｐ’と画像２の特徴点ｑ’とで構成された暫定対応ペア｛ｐ’，ｑ’｝に対応するノードｖ_ｂを生成する。そして、対応グラフ構築部３６は、暫定対応ペア｛ｐ，ｑ｝と、暫定対応ペア｛ｐ’，ｑ’｝とが、幾何的に一貫性があることを示す条件を満たす場合に、ノードｖ_ａとノードｖ_ｂとの間をエッジで接続する。

　ここで、２つの暫定対応ペアが幾何的に一貫性があることを示す条件を満たすか否かの判定は、暫定対応ペアを構成する各特徴点の位置若しくは属性、又はその両方を用いて行う。この判定の実現方法は任意である。以下に、２つの暫定対応ペアが幾何的に一貫性があることを示す条件について、５つの例を示す。

（ｉ）距離の一貫性
　同一の物体上の特徴点に対応する実際の位置は、空間的に近くに存在すると考えられる。これは、同一の物体を示す画像上のパターンを構成する特徴点同士は画像中で空間的に近い距離に位置すると言い換えることができる。そこで、例えば、画像ペアを構成する各画像中の特徴点集合について、各特徴点の位置に関するｋ近傍無向グラフを事前に構築しておき（ｋは所定のパラメータ）、２つの暫定対応ペアを構成する特徴点の各々のうち、同一の画像上に存在する特徴点同士（図５の例では、ｐとｐ’、及びｑとｑ’）が、構築したｋ近傍無向グラフの中で接続されている場合は、２つの暫定対応ペアが距離の一貫性を満たすと判定し、「１」を出力する。一方、同一の画像上に存在するいずれかの特徴点同士が、構築したｋ近傍無向グラフの中で接続されていない場合には、２つの暫定対応ペアが距離の一貫性を満たさないと判定し、「０」を出力する。

（ｉｉ）特徴点と共通パターンとのスケール比の一貫性
　２つの暫定対応ペアを構成する特徴点がある共通パターンを構成すると仮定すると、２つの暫定対応ペアを構成する特徴点のうち、同一の画像上の特徴点間の距離から、各画像におけるその共通パターンのスケールを推定することができる。推定された共通パターンのスケールと各特徴点の属性に含まれるスケールとの比は、２つの暫定対応ペアを構成する特徴点間で一貫性があると考えられる。この一貫性を満たすか否かは、例えば下記（１）式により判定することができる。

　（１）式において、τ_ｓはパラメータ、ｓ_ｎは特徴点ｎのスケール、ｌ_ｎｎ’は同一の画像上の特徴点ｎと特徴点ｎ’との距離を表す。［Ｘ］は条件Ｘが満たされる場合に１を出力し、満たされない場合に０を出力する関数である。

（ｉｉｉ）特徴点と共通パターンとの相対的なオリエンテーションの一貫性
　（ｉｉ）の場合と同様に、２つの暫定対応ペアを構成する特徴点がある共通パターンを構成すると仮定すると、２つの暫定対応ペアを構成する特徴点のうち、同一の画像上の特徴点間の位置関係から、各画像におけるその共通パターンのオリエンテーションを推定することができる。推定された共通パターンのオリエンテーションと、各特徴点の属性に含まれるオリエンテーションとがなす相対的なオリエンテーションとは、２つの暫定対応ペアを構成する特徴点間で一貫性があると考えられる。この一貫性を満たすか否かは、例えば下記（２）式により判定することができる。

　（２）式において、τ_θはパラメータ、θ_ｎは特徴点ｎのオリエンテーションである。

（ｉｖ）パターンのスケールの一貫性
　検出対象の物体によっては、画像中に出現する、その物体を示すパターンのスケールが一定である場合がある。この一貫性を満たすか否かは、例えば下記（３）式により判定することができる。

　（３）式において、τ_ａはパラメータである。

（ｖ）パターンの向きの一貫性
　（ｉｖ）の場合と同様に、検出対象の物体によっては、画像中に出現する、その物体を示すパターンの向きが一定である場合がある。この一貫性を満たすか否かは、例えば下記（４）式により判定することができる。

　（４）式において、τ_ｂはパラメータである。

　対応グラフ構築部３６は、例えば、上記の（ｉ）－（ｖ）の全ての一貫性の条件について１を出力する暫定対応ペアに対応するノード間をエッジで接続することにより、対応グラフを構築することができる。なお、上記の（ｉ）－（ｖ）のいずれか１つの一貫性の条件について１を出力する場合や、所定個（例えば３個）以上の一貫性の条件について１を出力する場合に、ノード間をエッジで接続するようにしてもよい。

　対応グラフ構築部３６は、構築した対応グラフを、対応グラフクラスタリング部３８に受け渡す。

　図６に示すように、対応グラフ構築部３６で構築された対応グラフにおいて、同一の共通パターンを構成する特徴点同士の暫定対応ペア集合に対応するノード間は、互いにエッジで接続されており、クラスタを形成していると考えられる。

　そこで、対応グラフクラスタリング部３８は、対応グラフ構築部３６から受け渡された対応グラフから、上記のようなクラスタを抽出する。抽出されるクラスタの数は任意である。ここで、抽出するクラスタは、クラスタに含まれる全ての暫定対応ペアについて、暫定対応ペアが共通の特徴点から構成されていないようなクラスタを抽出するものとする。この条件は、画像中のある特徴点が、複数の暫定対応ペアに含まれうる一方で、ある画像中の一つの特徴点が他方の画像中の複数の特徴点と対応付くことは物理的にあり得ないことを鑑みると、当然の仮定であると言える。

　クラスタリングの方法としては、上記を満たすクラスタリング方法であれば、任意の方法を用いることが可能である。対応グラフクラスタリング部３８は、例えば、下記（５）式を満たすクラスタを、対応グラフのクラスタリング処理（図１４、詳細は後述）に示すアルゴリズムによって抽出するといった方法を用いることができる。

　（５）式において、δＳは、ノード集合Ｓと、グラフＧとＳとの差集合との間を接続するエッジの和であり、ｖｏｌ（Ｓ）は、ノード集合Ｓ中のノードの次数和である。

　対応グラフクラスタリング部３８は、抽出したクラスタの情報を、クラスタ統合部４０へ受け渡す。クラスタの情報には、クラスタに含まれるノード（暫定対応ペア）の情報が含まれる。

　図４に、クラスタリングされた暫定対応ペアの一例を示す。図４では、中段に示す暫定対応ペアについて、構築された対応グラフから抽出されたクラスタに含まれるノードに対応する暫定対応ペア間を線で結んで表している。なお、図４の例では、抽出されたクラスタ毎に、そのクラスタに含まれる暫定対応ペアを示す線の色を異ならせて表している。

　対応グラフクラスタリング部３８で抽出されたクラスタに含まれるノードに対応する暫定対応ペアを構成する特徴点集合が示すパターン（領域）は、互いに重複し合ったものが複数抽出される場合があり、この重複しあったパターンは、１つの物体に対応するパターンを形成している可能性が高い。

　そこで、クラスタ統合部４０は、対応グラフクラスタリング部３８から受け渡されたクラスタの情報の各々が示す各パターンのうち、空間的な重複度が高いものを一つにまとめる。これを実現する方法は任意である。例えば、クラスタに含まれるノードに対応する暫定対応ペアを構成する特徴点集合の凸包として定義される領域毎にその重複度をＪａｃｃａｒｄ類似度で評価し、所定の閾値以上の領域は一つにまとめるといった方法を用いることができる。

　クラスタ統合部４０は、統合した領域の情報を、共通パターンを示す情報として、領域検出部５０へ受け渡す。

　画像ペア共通パターン抽出部３０により抽出された共通パターンは、対象物体に関する事前知識を何ら用いずに抽出されたものであるため、図７に示すように、中には対象物体の一部のみを捉えていたり、検出対象ではない共通パターンを含んでいたりすることがある。なお、図７では、他の部分より画素値が高い（薄い）部分が、画像ペア共通パターン抽出部３０により抽出された共通パターンを表している。

　そこで、領域検出部５０は、図８に示すように、画像ペア共通パターン抽出部３０により抽出された共通パターンのうち、画像集合に遍在する共通パターン（以下、「遍在共通パターン」という）に基づく領域を、対象物体領域として検出する。

　より詳細には、領域検出部５０は、共通パターングラフ構築部５２と、遍在共通パターン選択部５４と、遍在共通パターン統合部５６と、検出領域修正部５８とを含んだ構成で表すことができる。

　共通パターングラフ構築部５２は、画像ペア共通パターン抽出部３０で抽出された各共通パターンをノードとし、画像集合に含まれる画像内、及び画像間で共通する共通パターンに対応するノード間をエッジで接続した共通パターングラフを構築する。

　具体的には、共通パターングラフ構築部５２は、図９に示すように、各画像ペアを構成する各画像から抽出された共通パターンに対応するノードを生成し、共通パターンが抽出された画像の画像ｉｄを、対応するノードに付与する。図９の例では、ノード内の数字が、画像ｉｄを表している。

　共通パターングラフ構築部５２は、画像ペア共通パターン抽出部３０で、画像ペア間の共通パターンとして抽出されている共通パターンに対応するノード間をエッジで接続する。図９の例では、画像１と画像２とが画像ペアとして選択されている際に、画像１から抽出された共通パターンと、画像２から抽出された共通パターンとに対応するノード間をエッジで接続した例を示している（図９中のＡ）。同様に、画像１と画像３とが画像ペアとして選択されている際に、画像１から抽出された共通パターンと、画像３から抽出された共通パターンとに対応するノード間をエッジで接続した例を示している（図９中のＢ）。

　また、共通パターングラフ構築部５２は、同一の画像が異なる画像ペアとして選択された際にそれぞれの画像ペアにおいて抽出された共通パターンであって、画像内での共通パターンの重複度が所定値以上の場合、その共通パターンに対応するノード間をエッジで接続する。画像内における共通パターンの重複度を算出する方法は任意であり、例えば共通パターンに対応するバイナリマスク間のＪａｃｃａｒｄ係数によって算出することができる。図９の例では、画像１と画像２とが画像ペアとして選択されている際に、画像１から抽出された共通パターンと、画像１と画像３とが画像ペアとして選択されている際に、画像１から抽出された共通パターンとに対応するノード間をエッジで接続した例を示している（図９中のＣ）。

　共通パターングラフ構築部５２は、構築した共通パターングラフを遍在共通パターン選択部５４に受け渡す。

　遍在共通パターン選択部５４は、共通パターングラフ構築部５２から受け渡された共通パターングラフから、任意のパスを一つ以上検出し、検出したパスを構成するノード集合に対応する画像ｉｄ集合が、入力された画像集合の全画像ｉｄを網羅する度合を評価することで、多くの画像に「遍在」する共通パターンを選択する。共通パターングラフからパスを検出する方法は任意であり、例えば、ノードをランダムに一つ以上選択し、その各ノードを開始ノードとして深さ優先探索や幅優先探索を実行することにより、パスを検出することができる。

　これにより、例えば、図８に示すように、画像集合全体に遍在している「ＡＡ」という共通パターンと、「生命」という共通パターンが、遍在共通パターンとして選択される。一方、図８の２段目に示す画像ペアに含まれる共通パターン（画面左上の時刻表示、及び左下のキャラクターの部分）は、画像集合全体に対して遍在していないため、遍在共通パターンとして選択されない。

　遍在共通パターン選択部５４は、選択した遍在共通パターンの情報を、遍在共通パターン統合部５６へ受け渡す。

　遍在共通パターン統合部５６は、遍在共通パターン選択部５４から受け渡された遍在共通パターンを各画像内で統合することで、対象物体領域を特定する。遍在共通パターンを統合する方法は任意であり、例えば、遍在共通パターン統合部５６は、２つの遍在共通パターンの各々について、遍在共通パターン選択部５４で得られたパスのペアが、共通パターングラフにおいて、全く同一の部分集合で共起していた場合、その２つの遍在共通パターンを全て含むような最小外接矩形を、対象物体領域として特定することができる。また、遍在共通パターン統合部５６は、同一画像中での遍在共通パターンの重複性を考慮して、遍在共通パターンを統合してもよい。

　遍在共通パターン統合部５６は、特定した対象物体領域の情報を、検出領域修正部５８へ受け渡す。

　遍在共通パターン統合部５６で特定された領域は、特徴点集合の位置に基づいて推定されたものであるため、必ずしも物体の境界を正確に捉えているとは限らない。

　そこで、検出領域修正部５８は、図１０に示すように、遍在共通パターン統合部５６から受け渡された対象物体領域を、画像から抽出される境界線情報を用いて修正する。修正する方法は任意であり、例えば、参考文献４で開示されているような、画像から検出されたエッジを極力跨がないような領域へ修正する方法を用いることができる。

　　参考文献４：C. L. Zitnick et al., "Edge Boxes: Locating Object Proposals from Edges", in ECCV, 2014.

　検出領域修正部５８は、修正した対象物体領域の位置情報を示す対象物体領域情報を出力する。対象物体領域情報は、例えば、対象物体領域を示す矩形領域の四隅の座標情報とすることができる。検出領域修正部５８は、図１１に示すように、入力された画像集合に含まれる各画像に対して、対象物体領域情報が示す矩形を重畳して出力することができる。

　次に、図１２を参照して、本実施形態に係る物体検出装置１０の作用を説明する。なお、図１２は、本実施形態に係る物体検出プログラムによる処理の流れの一例を示すフローチャートである。

　図１２のステップＳ２０で、局所特徴抽出部２０が、入力された画像集合に含まれる各画像から局所特徴を抽出する。

　次に、ステップＳ３０で、図１３に示す画像ペア共通パターン抽出処理が実行される。

　図１３のステップＳ３２で、画像ペア選択部３２が、入力された画像集合から一つの画像ペアを選択する。

　次に、ステップＳ３４で、暫定対応付け部３４が、上記ステップＳ３２で選択された画像ペアについて、上記ステップＳ２０で抽出された局所特徴が類似する特徴点同士を、暫定的に対応付ける。

　次に、ステップＳ３６で、対応グラフ構築部３６が、上記ステップＳ３４で暫定的に対応付けられた暫定対応ペアをノードとし、幾何的に一貫性があることを示す条件を満たす暫定対応ペアに対応するノード間をエッジで接続した対応グラフを構築する。

　次に、ステップＳ３８で、図１４に示す対応グラフクラスタリング処理が実行される。

　図１４のステップＳ３８２で、対応グラフクラスタリング部３８が、上記ステップＳ３６で構築された対応グラフ中のノードのうち、最も次数の高いノードを選択する。

　次に、ステップＳ３８４で、対応グラフクラスタリング部３８が、選択したノードを開始ノードとして、ページランクアルゴリズム等を用いて周辺ノードをランキングする。例えば、参考文献５で開示されている近似ページランクアルゴリズムを用いることで、グラフのサイズに依存しない計算コストで周辺ノードをランキングすることができる。

　　参考文献５：R. Andersen et al., "Local Graph Partitioning using PageRank Vectors", in FOCS, 2006.

　次に、ステップＳ３８６で、対応グラフクラスタリング部３８が、上記ステップＳ３８４で得られたランキング順に、ノードをクラスタＳに挿入する。対応グラフクラスタリング部３８は、ノードをクラスタＳに挿入する度に、δＳ／ｖｏｌ（Ｓ）を計算し、所定の記憶領域に記憶しておく。このとき、新たに挿入対象となっているノードに対応する暫定対応ペアを構成する特徴点が、既に選択されたノードに対応する暫定対応ペアを構成する特徴点として使用されていた場合は、そのノードはクラスタに含めない。

　次に、ステップＳ３８８で、対応グラフクラスタリング部３８が、上記ステップＳ３８６で計算したδＳ／ｖｏｌ（Ｓ）が最小となるときまでにクラスタＳに挿入されたノード集合を、上記ステップＳ３８２で選択された開始ノードに対応するクラスタとして記憶する。

　次に、ステップＳ３９０で、対応グラフクラスタリング部３８が、上記ステップＳ３８８で得られたクラスタＳを構成するノードを対応グラフから削除する。

　次に、ステップＳ３９２で、対応グラフクラスタリング部３８が、対応グラフにノードが存在しなくなったか否かを判定する。まだノードが存在する場合には、ステップＳ３８２に戻る。ノードが存在しなくなった場合には、対応グラフクラスタリング処理を終了し、画像ペア共通パターン抽出処理（図１３）に戻る。

　なお、上記ステップＳ３８８で得られたクラスタを、任意の手法でクレンジングする処理を追加してもよい。例えば、クラスタを構成するノード数が少ないものは、偶発的に類似したものである可能性が少なくないため、クラスタ内のノード数が所定の閾値以下であるものは棄却するといった処理を加えることができる。また、パターンを構成する特徴点集合で定義される凸包領域が小さい場合も、偶発的に類似したものである可能性が少なくないため、凸包領域の面積を閾値処理することで、閾値以下のクラスタは棄却するといった処理を加えてもよい。

　次に、図１３のステップＳ４０で、上記ステップＳ３８でクラスタリングされた各クラスタに対応する各共通パターンのうち、空間的な重複度が高いもの統合する。

　次に、ステップＳ４２で、画像ペア選択部３２が、入力された画像集合において、全ての画像ペアを選択したか否かを判定する。未選択の画像ペアがある場合には、処理はステップＳ３２に戻り、全ての画像ペアを選択済みの場合には、画像ペア共通パターン抽出処理を終了し、物体検出処理（図１２）に戻る。

　次に、図１２のステップＳ５０で、図１５に示す領域検出処理が実行される。

　図１５のステップＳ５２で、共通パターングラフ構築部５２は、上記ステップＳ３０で抽出された各共通パターンをノードとし、画像集合に含まれる画像内、及び画像間で共通する共通パターンに対応するノード間をエッジで接続した共通パターングラフを構築する。

　次に、ステップＳ５４で、遍在共通パターン選択部５４が、上記ステップＳ５２で構築された共通パターングラフから、任意のパスを一つ検出する。

　次に、ステップＳ５６で、遍在共通パターン選択部５４が、検出したパスを構成するノード集合に対応する画像ｉｄ集合が、入力された画像集合の全画像ｉｄを網羅する度合を示す網羅度を算出する。

　次に、ステップＳ５８で、遍在共通パターン選択部５４が、共通パターングラフから次のパスを検出するか否かを判定する。次のパスを検出する場合には、ステップＳ５４に戻り、パスの検出を終了する場合には、ステップＳ６０へ移行する。

　ステップＳ６０では、遍在共通パターン選択部５４が、上記ステップＳ５６で算出した網羅度が所定値以上のパスに対応する共通パターンを、遍在共通パターンとして選択する。

　次に、ステップＳ６２で、遍在共通パターン統合部５６が、上記ステップＳ６０で選択された遍在共通パターンを各画像内で統合して、対象物体領域を特定する。

　次に、ステップＳ６４で、検出領域修正部５８が、上記ステップＳ６２で特定された対象物体領域を、画像から抽出される境界線情報を用いて修正し、領域検出処理を終了して、物体検出処理（図１２）に戻る。

　次に、図１２のステップＳ７０で、検出領域修正部５８が、上記ステップＳ６４で修正した対象物体領域の位置情報を示す対象物体領域情報を出力し、物体検出処理は終了する。

　以上説明したように、本実施形態に係る物体検出装置によれば、入力された画像集合中の画像ペア間で、画像上の見え方が共通する共通パターンを、対象物体領域の候補として抽出する。このように、対象物体領域の位置、サイズ、コントラスト等に何ら仮定をおくことなく共通パターンを抽出するため、従来技術で仮定されている顕著性の条件を満たさない領域であっても、対象物体領域の候補として精度良く抽出することができる。また、本実施形態に係る物体検出装置によれば、画像ペア間において抽出された共通パターンのうち、入力された画像集合において遍在する共通パターンを、対象物体領域として選択する。これにより、入力された画像集合中の特定の画像ペアに含まれうる、対象外の共通パターンを、対象物体領域の候補から除外することができる。

　すなわち、本実施形態に係る物体検出装置によれば、検出対象の物体が画像中で顕著でなく、また検出対象の物体以外の、画像上での見え方が画像ペア間で共通した領域を含む画像が入力に含まれていても、検出対象の物体を示す領域を精度良く検出することができる。

　なお、上記実施形態で説明した物体検出装置の各々の構成は、一例であり、主旨を逸脱しない範囲内において状況に応じて変更してもよい。

　また、上記実施形態で説明したプログラムの処理の流れも、一例であり、主旨を逸脱しない範囲内において不要なステップを削除したり、新たなステップを追加したり、処理順序を入れ替えたりしてもよい。

　また、上記実施形態では、プログラムを実行することにより、実施形態に係る処理がコンピュータを利用してソフトウェア構成により実現される場合について説明したが、これに限らない。実施形態は、例えば、ハードウェア構成や、ハードウェア構成とソフトウェア構成との組み合わせによって実現してもよい。

１０物体検出装置
２０局所特徴抽出部
３０画像ペア共通パターン抽出部
３２画像ペア選択部
３４暫定対応付け部
３６対応グラフ構築部
３８対応グラフクラスタリング部
４０クラスタ統合部
５０領域検出部
５２共通パターングラフ構築部
５４遍在共通パターン選択部
５６遍在共通パターン統合部
５８検出領域修正部

Claims

　入力された画像集合に含まれる各画像から、特徴点の局所特徴を抽出する局所特徴抽出部と、
　前記画像集合に含まれる画像から選択した画像ペア毎に、前記画像ペアを構成する画像間において、前記局所特徴抽出部により抽出された局所特徴が類似する特徴点ペアの集合であって、かつ、幾何的に類似する特徴点ペアの集合からなる共通パターンを抽出する画像ペア共通パターン抽出部と、
　前記画像ペア共通パターン抽出部により抽出された共通パターンのうち、前記画像集合に遍在する共通パターンに基づく領域を、前記画像集合に含まれる各画像における検出対象の物体を示す領域として検出する領域検出部と、
　を含む物体検出装置。
　前記画像ペア共通パターン抽出部は、
　　前記画像集合から画像ペアを選択する画像ペア選択部と、
　　前記画像ペア選択部で選択された各画像ペアについて、前記局所特徴抽出部により抽出された局所特徴が類似する特徴点同士を、特徴点ペアとして暫定的に対応付ける暫定対応付け部と、
　　前記暫定対応付け部で対応付けられた特徴点ペアをノードとし、幾何的に一貫性があることを示す条件を満たす前記特徴点ペアに対応するノード間をエッジで接続した対応グラフを構築する対応グラフ構築部と、
　　前記対応グラフ構築部により構築された対応グラフから、同一の共通パターンを構成する特徴点ペア集合に対応するノード集合のクラスタを抽出する対応グラフクラスタリング部と、
　　前記対応グラフクラスタリング部で抽出された各クラスタに対応する画像上の各領域を、前記領域間の空間的な重複度に基づいて統合した領域を、前記共通パターンとして抽出するクラスタ統合部と、
　を含む請求項１に記載の物体検出装置。
　前記対応グラフ構築部は、前記幾何的に一貫性があることを示す条件を満たすか否かを、前記暫定対応付け部で対応付けられた特徴点ペアに含まれる特徴点の局所特徴を用いて判定する請求項２に記載の物体検出装置。
　前記対応グラフクラスタリング部は、クラスタに含まれる全てのノードに対応する特徴点ペアについて、前記特徴点ペアが共通の特徴点から構成されていないクラスタを抽出する請求項２又は請求項３に記載の物体検出装置。
　前記領域検出部は、
　　前記画像ペア共通パターン抽出部で抽出された各共通パターンをノードとし、前記画像集合に含まれる画像内、及び画像間で共通する共通パターンに対応するノード間をエッジで接続し、かつ、共通パターンが抽出された画像の識別情報を、対応する各ノードに付与した共通パターングラフを構築する共通パターングラフ構築部と、
　　前記共通パターングラフ構築部で構築された前記共通パターングラフに含まれるパスのうち、前記画像集合に含まれる全画像の識別情報集合に対する、前記パスに含まれる各ノードに付与された前記画像の識別情報集合の網羅度が高いパスに対応する共通パターンを、遍在共通パターンとして選択する遍在共通パターン選択部と、
　　前記遍在共通パターン選択部で選択された遍在共通パターンを、前記遍在共通パターンに対応するパスの共通性、及び前記画像における前記遍在共通パターンの空間的な重複度の少なくとも一方に基づいて各画像内で統合した領域を、前記検出対象の物体を示す領域として検出する遍在共通パターン統合部と、
　を含む請求項１～請求項４のいずれか１項に記載の物体検出装置。
　前記領域検出部は、前記遍在共通パターンを示す領域の周辺画素の情報に基づいて、前記遍在共通パターンを示す領域の境界を修正する検出領域修正部を更に含む請求項５に記載の物体検出装置。
　局所特徴抽出部が、入力された画像集合に含まれる各画像から、特徴点の局所特徴を抽出し、
　画像ペア共通パターン抽出部が、前記画像集合に含まれる画像から選択した画像ペア毎に、前記画像ペアを構成する画像間において、前記局所特徴抽出部により抽出された局所特徴が類似する特徴点ペアの集合であって、かつ、幾何的に類似する特徴点ペアの集合からなる共通パターンを抽出し、
　領域検出部が、前記画像ペア共通パターン抽出部により抽出された共通パターンのうち、前記画像集合に遍在する共通パターンに基づく領域を、前記画像集合に含まれる各画像における検出対象の物体を示す領域として検出する
　物体検出方法。
　コンピュータを、請求項１～請求項６のいずれか１項に記載の物体検出装置を構成する各部として機能させるための物体検出プログラム。