WO2019092782A1 - 情報処理装置、制御方法、及びプログラム - Google Patents
情報処理装置、制御方法、及びプログラム Download PDFInfo
- Publication number
- WO2019092782A1 WO2019092782A1 PCT/JP2017/040082 JP2017040082W WO2019092782A1 WO 2019092782 A1 WO2019092782 A1 WO 2019092782A1 JP 2017040082 W JP2017040082 W JP 2017040082W WO 2019092782 A1 WO2019092782 A1 WO 2019092782A1
- Authority
- WO
- WIPO (PCT)
- Prior art keywords
- image
- feature
- feature point
- point
- query image
- Prior art date
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/40—Extraction of image or video features
- G06V10/48—Extraction of image or video features by mapping characteristic values of the pattern into a parameter space, e.g. Hough transformation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/22—Matching criteria, e.g. proximity measures
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/20—Image preprocessing
- G06V10/25—Determination of region of interest [ROI] or a volume of interest [VOI]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/40—Extraction of image or video features
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/74—Image or video pattern matching; Proximity measures in feature spaces
- G06V10/75—Organisation of the matching processes, e.g. simultaneous or sequential comparisons of image or video features; Coarse-fine approaches, e.g. multi-scale approaches; using context analysis; Selection of dictionaries
- G06V10/751—Comparing pixel values or logical combinations thereof, or feature values having positional relevance, e.g. template matching
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/74—Image or video pattern matching; Proximity measures in feature spaces
- G06V10/75—Organisation of the matching processes, e.g. simultaneous or sequential comparisons of image or video features; Coarse-fine approaches, e.g. multi-scale approaches; using context analysis; Selection of dictionaries
- G06V10/757—Matching configurations of points or features
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/74—Image or video pattern matching; Proximity measures in feature spaces
- G06V10/75—Organisation of the matching processes, e.g. simultaneous or sequential comparisons of image or video features; Coarse-fine approaches, e.g. multi-scale approaches; using context analysis; Selection of dictionaries
- G06V10/759—Region-based matching
Abstract
情報処理装置(2000)は、特徴点検出部(2020)、特定部(2040)、抽出部(2060)、及び照合部(2080)を有する。特徴点検出部(2020)は、クエリ画像から複数の特徴点を検出する。特定部(2040)は、特徴点ごとに、その特徴点を含むと推定される1つ以上のオブジェクト画像を特定する。抽出部(2060)は、上記特定の結果に基づき、クエリ画像においてオブジェクトを含むと推定されるオブジェクト領域を、そのオブジェクト領域に含まれると推定されるオブジェクトのオブジェクト画像と対応づけて抽出する。照合部(2080)は、オブジェクト領域と、そのオブジェクト領域に対応付けられたオブジェクト画像とを照合することで、そのオブジェクト領域に含まれるオブジェクトを特定する。
Description
本発明は画像解析に関する。
画像に含まれるオブジェクトを特定する技術が開発されている。例えば特許文献1には、第1の画像から検出される複数の特徴点をクラスタリングし、第1の画像から検出される特徴点の特徴量と、照合対象とする第2の画像に含まれる特徴点の特徴量との照合を、クラスタ単位で行う技術を開示している。また、特許文献2は、特徴量に対して近似の特徴量の列を対応づけたインデックステーブルを使って、クエリ画像に含まれる特徴点を含む画像の候補を絞り込んだ後で、クエリ画像と各候補画像とを照合するという技術を開示している。
特許文献1では、各クラスタを全ての第2の画像と比較する必要があるため、各クラスタにおける照合処理に要する時間が長くなる。特許文献2は、クエリ画像に含まれるオブジェクトが1つであることを想定しており、クエリ画像に複数のオブジェクトが含まれるケースについては言及していない。
本発明は、以上の問題点に鑑みてなされたものである。本発明の目的の一つは、クエリ画像に複数のオブジェクトが含まれている場合において、クエリ画像に含まれる各オブジェクトを特定するために要する時間を短くする技術を提供することである。
本発明の情報処理装置は、1)複数のオブジェクトが含まれるクエリ画像を取得し、取得したクエリ画像から複数の特徴点を検出する特徴点検出手段と、2)特徴点ごとに、その特徴点を含むと推定される1つ以上のオブジェクト画像を特定する特定手段と、3)特定の結果に基づき、クエリ画像においてオブジェクトが含まれると推定されるオブジェクト領域を、そのオブジェクト領域に含まれると推定されるオブジェクトのオブジェクト画像と対応づけて抽出する抽出手段と、4)オブジェクト領域と、そのオブジェクト領域と対応づけられたオブジェクト画像とを照合して、オブジェクト領域に含まれるオブジェクトを特定する照合手段と、を有する。
本発明の制御方法は、コンピュータによって実行される制御方法である。当該制御方法は、1)複数のオブジェクトが含まれるクエリ画像を取得し、取得したクエリ画像から複数の特徴点を検出する特徴点検出ステップと、2)特徴点ごとに、その特徴点を含むと推定される1つ以上のオブジェクト画像を特定する特定ステップと、3)特定の結果に基づき、クエリ画像においてオブジェクトが含まれると推定されるオブジェクト領域を、そのオブジェクト領域に含まれると推定されるオブジェクトのオブジェクト画像と対応づけて抽出する抽出ステップと、4)オブジェクト領域と、そのオブジェクト領域と対応づけられたオブジェクト画像とを照合して、オブジェクト領域に含まれるオブジェクトを特定する照合ステップと、を有する。
本発明のプログラムは、本発明の制御方法が有する各ステップをコンピュータに実行させる。
本発明によれば、クエリ画像に複数のオブジェクトが含まれている場合において、クエリ画像に含まれる各オブジェクトを特定するために要する時間を短くする技術が提供される。
上述した目的、およびその他の目的、特徴および利点は、以下に述べる好適な実施の形態、およびそれに付随する以下の図面によってさらに明らかになる。
以下、本発明の実施の形態について、図面を用いて説明する。尚、すべての図面において、同様な構成要素には同様の符号を付し、適宜説明を省略する。また、特に説明する場合を除き、各ブロック図において、各ブロックは、ハードウエア単位の構成ではなく、機能単位の構成を表している。
[実施形態1]
<情報処理装置2000の動作の概要>
図1から図5は、実施形態1に係る情報処理装置(後述する図2などに示す情報処理装置2000)の動作を概念的に説明するための図である。なお図1から図5は、情報処理装置2000の動作の理解を容易にすることを目的とする例示のための図であり、情報処理装置2000の動作は図1によって何ら限定されない。
<情報処理装置2000の動作の概要>
図1から図5は、実施形態1に係る情報処理装置(後述する図2などに示す情報処理装置2000)の動作を概念的に説明するための図である。なお図1から図5は、情報処理装置2000の動作の理解を容易にすることを目的とする例示のための図であり、情報処理装置2000の動作は図1によって何ら限定されない。
情報処理装置2000は、クエリ画像を取得する。図1は、情報処理装置2000が処理対象とするクエリ画像を例示する図である。クエリ画像10は、複数のオブジェクトが含まれる画像データである。例えば図1において、クエリ画像10には、オブジェクト20-1、オブジェクト20-2、及びオブジェクト20-3が含まれる。オブジェクトには、任意のものを採用できる。例えばオブジェクトは、店舗で販売される商品である。
情報処理装置2000は、クエリ画像10に含まれる各オブジェクトを特定する処理を行う。前提として、各オブジェクトに関する情報であるオブジェクト情報が用意されているとする。オブジェクト情報は、オブジェクトごとに、「オブジェクトの識別子、オブジェクト画像の画像識別子、オブジェクト画像内の各特徴点の局所特徴量」を示している。
オブジェクトの識別子は、例えばオブジェクトの名称(商品名など)や、オブジェクトに割り与えられたコード(例えば JAN(Japanese Article Number)コードなど)である。オブジェクト画像の画像識別子は、例えば、オブジェクト画像の画像ファイルのファイル名である。特徴点は、例えば、クエリ画像10内の座標位置で表される。図1において、Pij は特徴点の座標位置を表している。fij は位置 Pij の特徴点の局所特徴量を表している(i と j はいずれも整数)。
情報処理装置2000は、クエリ画像10から複数の特徴点を検出する。図2は、クエリ画像10に含まれる特徴点を例示する図である。図2では、特徴点はバツ印で表されており、符号40が付されている。
情報処理装置2000は、クエリ画像10内の特徴点40と、各オブジェクト画像内の特徴点とを比較することで、クエリ画像10に含まれるオブジェクトを特定する。ただしこの際、情報処理装置2000は、クエリ画像10内の特徴点40と各オブジェクト画像内の特徴点とを総当たりで比較するのではなく、比較に利用する特徴点を絞り込む。具体的には、以下の処理を行う。
まず情報処理装置2000は、クエリ画像10内の特徴点40ごとに、その特徴点40が含まれると推定される1つ以上のオブジェクト画像を特定する。この特定は、例えば局所特徴量からオブジェクト画像を検索できるように構成されたインデックステーブルを利用するなど、特徴点同士を総当たりで比較するよりも高速に行える方法で行われる。その具体的な方法については後述する。
図3は、特徴点40ごとに、その特徴点40を含むと推定されるオブジェクト画像が特定された状況を例示する図である。図3のクエリ画像10では、図2における特徴点40の位置に、カッコで括られた数値が示されている。この数値は、オブジェクト画像の画像識別子を示している。例えば、[1] が示されている位置の特徴点40を含むと推定されるオブジェクト画像の画像識別子が1であることを示している。以下、識別子が i であるオブジェクト画像を、オブジェクト画像iとも表記する。また、オブジェクト画像iによって表されるオブジェクトを、オブジェクトiと表記する。また、或る特徴点を含むと推定されたオブジェクト画像を、「その特徴点に対応するオブジェクト画像」とも表記する。
ここで、対応するオブジェクト画像が共通している特徴点を包含する画像領域は、そのオブジェクト画像のオブジェクトを表す画像領域である蓋然性が高いと言える。例えば図3において、[1] が示されている特徴点を包含する画像領域は、オブジェクト画像iによって表されるオブジェクト(すなわちオブジェクト1)を表す画像領域である蓋然性が高い。
そこで情報処理装置2000は、特徴点40とオブジェクト画像との対応関係に基づき、クエリ画像10においてオブジェクトが含まれると推定される画像領域(以下、オブジェクト領域)を、そのオブジェクト領域に含まれると推定されるオブジェクトのオブジェクト画像と対応づけて抽出する。図4はオブジェクト領域を例示する図である。図4において、オブジェクト領域は符号50で表されている。図3に示した特徴点40とオブジェクト画像との対応関係により、オブジェクト領域50-1、オブジェクト領域50-2、及びオブジェクト領域50-3のそれぞれが、オブジェクト画像1、オブジェクト画像2、及びオブジェクト画像3と対応づけて抽出される。
情報処理装置2000は、上述のようにして得られた対応付けについて照合を行うことで、オブジェクト領域50に含まれるオブジェクトを特定する。図5は、オブジェクト領域50とオブジェクト画像との照合を例示する図である。オブジェクト領域50-1、オブジェクト領域50-2、及びオブジェクト領域50-3はそれぞれ、オブジェクト画像1、オブジェクト画像2、及びオブジェクト画像3と照合される。その結果、情報処理装置2000は、クエリ画像10にオブジェクト1、オブジェクト2、及びオブジェクト3が含まれていることを特定する。
<作用・効果>
本実施形態の情報処理装置2000によれば、クエリ画像10内の各特徴点40について、その特徴点40を含むと推定されるオブジェクト画像が特定される。さらに、特徴点40とオブジェクト画像との対応関係に基づいて、クエリ画像10から、オブジェクトを含むと推定されるオブジェクト領域が、そのオブジェクト領域に含まれると推定されるオブジェクトのオブジェクト画像に対応づけて特定される。そして、オブジェクト領域と、そのオブジェクト領域に対応づけられたオブジェクト画像とを照合することにより、オブジェクト領域に含まれるオブジェクトが特定される。
本実施形態の情報処理装置2000によれば、クエリ画像10内の各特徴点40について、その特徴点40を含むと推定されるオブジェクト画像が特定される。さらに、特徴点40とオブジェクト画像との対応関係に基づいて、クエリ画像10から、オブジェクトを含むと推定されるオブジェクト領域が、そのオブジェクト領域に含まれると推定されるオブジェクトのオブジェクト画像に対応づけて特定される。そして、オブジェクト領域と、そのオブジェクト領域に対応づけられたオブジェクト画像とを照合することにより、オブジェクト領域に含まれるオブジェクトが特定される。
ここで、特徴点40が含まれると推定されるオブジェクト画像の特定は、オブジェクト領域とオブジェクト画像との照合よりも高速な手法を用いて行われる。例えば特徴点40が含まれると推定されるオブジェクト画像はインデックステーブルを利用して特定される一方で、オブジェクト領域とオブジェクト画像との照合は特徴点同士の詳細な比較によって行われる。
このように、情報処理装置2000によれば、クエリ画像10とオブジェクト画像との詳細な照合が行われる前に、その詳細な照合よりも高速な手法で、1)クエリ画像10内のうち、オブジェクトが含まれると推定される画像領域の絞り込みと、2)その画像領域と照合すべきオブジェクト画像の絞り込みと、が行われる。よって、このような絞り込みを行わずにクエリ画像10とオブジェクト画像とを詳細に照合する方法と比較し、クエリ画像10に含まれる各オブジェクトを特定するために要する時間を短くすることができる。
以下、本実施形態の情報処理装置2000についてさらに詳細に説明する。
<情報処理装置2000の機能構成の例>
図6は、実施形態1に係る情報処理装置2000の機能構成の例を示すブロック図である。情報処理装置2000は、特徴点検出部2020、特定部2040、抽出部2060、及び照合部2080を有する。特徴点検出部2020は、クエリ画像10から複数の特徴点40を検出する。特定部2040は、特徴点40ごとに、その特徴点40を含むと推定される1つ以上のオブジェクト画像を特定する。抽出部2060は、上記特定の結果に基づき、オブジェクト領域50を、そのオブジェクト領域50に含まれると推定されるオブジェクトのオブジェクト画像と対応づけて抽出する。照合部2080は、オブジェクト領域50と、そのオブジェクト領域50に対応付けられたオブジェクト画像とを照合することで、そのオブジェクト領域50に含まれるオブジェクトを特定する。
図6は、実施形態1に係る情報処理装置2000の機能構成の例を示すブロック図である。情報処理装置2000は、特徴点検出部2020、特定部2040、抽出部2060、及び照合部2080を有する。特徴点検出部2020は、クエリ画像10から複数の特徴点40を検出する。特定部2040は、特徴点40ごとに、その特徴点40を含むと推定される1つ以上のオブジェクト画像を特定する。抽出部2060は、上記特定の結果に基づき、オブジェクト領域50を、そのオブジェクト領域50に含まれると推定されるオブジェクトのオブジェクト画像と対応づけて抽出する。照合部2080は、オブジェクト領域50と、そのオブジェクト領域50に対応付けられたオブジェクト画像とを照合することで、そのオブジェクト領域50に含まれるオブジェクトを特定する。
<情報処理装置2000のハードウエア構成例>
情報処理装置2000の各機能構成部は、各機能構成部を実現するハードウエア(例:ハードワイヤードされた電子回路など)で実現されてもよいし、ハードウエアとソフトウエアとの組み合わせ(例:電子回路とそれを制御するプログラムの組み合わせなど)で実現されてもよい。以下、情報処理装置2000の各機能構成部がハードウエアとソフトウエアとの組み合わせで実現される場合について、さらに説明する。
情報処理装置2000の各機能構成部は、各機能構成部を実現するハードウエア(例:ハードワイヤードされた電子回路など)で実現されてもよいし、ハードウエアとソフトウエアとの組み合わせ(例:電子回路とそれを制御するプログラムの組み合わせなど)で実現されてもよい。以下、情報処理装置2000の各機能構成部がハードウエアとソフトウエアとの組み合わせで実現される場合について、さらに説明する。
図7は、情報処理装置2000を実現するための計算機1000を例示する図である。計算機1000は任意の計算機である。例えば計算機1000は、Personal Computer(PC)、サーバマシン、タブレット端末、又はスマートフォンなどである。計算機1000は、情報処理装置2000を実現するために設計された専用の計算機であってもよいし、汎用の計算機であってもよい。
計算機1000は、バス1020、プロセッサ1040、メモリ1060、ストレージデバイス1080、入出力インタフェース1100、及びネットワークインタフェース1120を有する。バス1020は、プロセッサ1040、メモリ1060、ストレージデバイス1080、入出力インタフェース1100、及びネットワークインタフェース1120が、相互にデータを送受信するためのデータ伝送路である。ただし、プロセッサ1040などを互いに接続する方法は、バス接続に限定されない。プロセッサ1040は、CPU(Central Processing Unit)や GPU(Graphics Processing Unit)などの演算処理装置である。メモリ1060は、RAM(Random Access Memory)などを用いて実現される主記憶装置である。ストレージデバイス1080は、ハードディスク、SSD(Solid State Drive)、メモリカード、又は ROM(Read Only Memory)などを用いて実現される補助記憶装置である。
入出力インタフェース1100は、計算機1000と入出力デバイスとを接続するためのインタフェースである。ネットワークインタフェース1120は、計算機1000を通信網に接続するためのインタフェースである。この通信網は、例えば LAN(Local Area Network)や WAN(Wide Area Network)である。ネットワークインタフェース1120が通信網に接続する方法は、無線接続であってもよいし、有線接続であってもよい。
ストレージデバイス1080は、情報処理装置2000の各機能構成部(特徴点検出部2020、特定部2040、抽出部2060、及び照合部2080)を実現するプログラムモジュールを記憶している。プロセッサ1040は、これら各プログラムモジュールをメモリ1060に読み出して実行することで、各プログラムモジュールに対応する機能を実現する。
<情報処理装置2000の利用例>
情報処理装置2000は、「カメラによって複数のオブジェクトを同時に撮像し、その撮像によって得られた撮像画像(クエリ画像10)を画像解析することで各オブジェクトを特定する」ということが有用な場面で利用ができる。以下、情報処理装置2000の利用例をいくつか例示する。
情報処理装置2000は、「カメラによって複数のオブジェクトを同時に撮像し、その撮像によって得られた撮像画像(クエリ画像10)を画像解析することで各オブジェクトを特定する」ということが有用な場面で利用ができる。以下、情報処理装置2000の利用例をいくつか例示する。
<<画像認識 POS(Point of Sales)システム>>
一般に、コンビニエンスストアやスーパーマーケットなどの店舗で顧客が商品を購入する際、レジ端末(POS 端末)がその商品を認識して、その商品を精算対象として登録する。ここで、商品を認識する手法の一つとして、レジ端末に設けられたカメラで商品を撮像し、生成された撮像画像を解析することで、撮像画像に含まれる商品を特定するという手法がある。
一般に、コンビニエンスストアやスーパーマーケットなどの店舗で顧客が商品を購入する際、レジ端末(POS 端末)がその商品を認識して、その商品を精算対象として登録する。ここで、商品を認識する手法の一つとして、レジ端末に設けられたカメラで商品を撮像し、生成された撮像画像を解析することで、撮像画像に含まれる商品を特定するという手法がある。
情報処理装置2000は、複数の商品を同時に精算対象として登録するために利用できる。まず、レジ端末に設けられたカメラが、複数の商品を一度に撮像することで、精算対象として登録すべき複数の商品が含まれる撮像画像を生成する。情報処理装置2000は、このようにして得られた撮像画像をクエリ画像10として取得して画像解析し、個々の商品を特定する。このようにすることで、複数の商品を高速に精算対象として登録できる。
<<棚割認識システム>>
店舗では、商品棚などの陳列場所に商品が陳列される。一般に、陳列場所における商品の陳列は、一定のルールに従って行われる。ところが、商品を陳列する作業を行う人が誤った場所に商品を陳列したり、顧客によって商品が動かされたりすることで、商品の陳列状況がルールに従っていない事態が生じうる。
店舗では、商品棚などの陳列場所に商品が陳列される。一般に、陳列場所における商品の陳列は、一定のルールに従って行われる。ところが、商品を陳列する作業を行う人が誤った場所に商品を陳列したり、顧客によって商品が動かされたりすることで、商品の陳列状況がルールに従っていない事態が生じうる。
情報処理装置2000は、商品の陳列状況がルールに従っているかをチェックするために利用できる。まず、商品の陳列場所の付近に設けられたカメラが、陳列場所を撮像することで、陳列場所に陳列された複数の商品を含む撮像画像を生成する。情報処理装置2000は、このようにして得られた撮像画像をクエリ画像10として扱って画像解析することで、陳列場所の各位置に陳列されている商品を特定する。このように、陳列場所の各位置に陳列されている商品を特定することで商品の陳列状況を把握できるため、その陳列状況と前述したルールとを比較することで、商品の陳列がルールに従って行われているか否かをチェックすることができる。情報処理装置2000を利用すれば、商品の陳列状況を高速に把握できるようになるため、陳列状況がルールに従っているか否かを高速にチェックできるようになる。
<<画像重量検品システム>>
物流の現場などで商品の出荷を行う際、商品の検品が行われる。例えば、出荷しようとしている商品が出荷対象の商品と一致しているか否か、及びその商品の数が出荷すべき数に一致しているか否かのチェックが行われる。なお、商品の納入の際にも同様のチェックが行われうる。
物流の現場などで商品の出荷を行う際、商品の検品が行われる。例えば、出荷しようとしている商品が出荷対象の商品と一致しているか否か、及びその商品の数が出荷すべき数に一致しているか否かのチェックが行われる。なお、商品の納入の際にも同様のチェックが行われうる。
上述のような商品の検品作業を効率化するシステムとして、画像重量検品システムがある。画像重量検品システムは、検品対象の商品をカメラで撮像しつつ、その商品の重量を計測する。カメラから得られる撮像画像は、検品対象の商品の特定に利用される。商品の重量は、商品の数量の特定に利用される。例えば、同じ商品を複数積み重ねた状態を上からカメラで撮像し、同時にその重量を計測することで、画像に基づく商品の特定と、重量に基づく商品の数量の特定が同時に実現される。
本実施形態の情報処理装置2000は、上述の画像重量検品システムにおいて、複数種類の商品を同時に検品するために利用することができる。まず、複数種類の商品が重量計の上に横に並べて置かれた状態を、カメラが撮像する。情報処理装置2000は、その結果得られる撮像画像をクエリ画像10として扱って画像解析を行うことで、検品対象の複数種類の商品をそれぞれ特定する。このように情報処理装置2000を利用することで、検品対象の複数の商品を高速に特定できるため、高速な検品を実現することができる。
<処理の流れ>
図8は、実施形態1の情報処理装置2000によって実行される処理の流れを例示するフローチャートである。特徴点検出部2020は、クエリ画像10を取得する(S102)。特徴点検出部2020は、クエリ画像10から複数の特徴点を検出する(S104)。特定部2040は、特徴点40ごとに、その特徴点40を含むと推定される1つ以上のオブジェクト画像を特定する(S106)。抽出部2060は、上記特定の結果に基づき、オブジェクト領域50を、そのオブジェクト領域50に含まれると推定されるオブジェクトのオブジェクト画像と対応づけて抽出する(S108)。照合部2080は、オブジェクト領域50と、そのオブジェクト領域50に対応付けられたオブジェクト画像とを照合することで、そのオブジェクト領域50に含まれるオブジェクトを特定する(S110)。
図8は、実施形態1の情報処理装置2000によって実行される処理の流れを例示するフローチャートである。特徴点検出部2020は、クエリ画像10を取得する(S102)。特徴点検出部2020は、クエリ画像10から複数の特徴点を検出する(S104)。特定部2040は、特徴点40ごとに、その特徴点40を含むと推定される1つ以上のオブジェクト画像を特定する(S106)。抽出部2060は、上記特定の結果に基づき、オブジェクト領域50を、そのオブジェクト領域50に含まれると推定されるオブジェクトのオブジェクト画像と対応づけて抽出する(S108)。照合部2080は、オブジェクト領域50と、そのオブジェクト領域50に対応付けられたオブジェクト画像とを照合することで、そのオブジェクト領域50に含まれるオブジェクトを特定する(S110)。
<クエリ画像10の取得:S102>
特徴点検出部2020はクエリ画像10を取得する。クエリ画像10は、複数のオブジェクトをカメラで撮像することで生成される画像である。なお、クエリ画像10を生成するカメラは、静止画を生成するスチルカメラであってもよいし、動画を生成するビデオカメラであってもよい。後者の場合、クエリ画像10は、ビデオカメラによって生成される動画を構成する動画フレームのうちの1つである。
特徴点検出部2020はクエリ画像10を取得する。クエリ画像10は、複数のオブジェクトをカメラで撮像することで生成される画像である。なお、クエリ画像10を生成するカメラは、静止画を生成するスチルカメラであってもよいし、動画を生成するビデオカメラであってもよい。後者の場合、クエリ画像10は、ビデオカメラによって生成される動画を構成する動画フレームのうちの1つである。
特徴点検出部2020がクエリ画像10を取得する方法は様々である。例えば特徴点検出部2020は、クエリ画像10を生成したカメラから、クエリ画像10を取得する。その他にも例えば、特徴点検出部2020は、クエリ画像10が記憶されている記憶装置にアクセスすることで、クエリ画像10を取得する。その他にも例えば、特徴点検出部2020は、クエリ画像10に含まれるオブジェクトの特定を要求するクライアントマシンから、クエリ画像10を含むリクエストを受信することで、クエリ画像10を取得する。この場合、情報処理装置2000は、クエリ画像10に含まれるオブジェクトを特定した結果を、クライアントマシンへ送信する。ここでいうクライアントマシンは、上記リクエストを送信する任意の計算機を意味する。
<特徴点40の検出:S104>
特徴点検出部2020はクエリ画像10から複数の特徴点40を算出する。この際、特徴点検出部2020は、各特徴点40について局所特徴量を算出する。ここで、画像から特徴点を検出する手法、及び特徴点の局所特徴量を算出する手法には、既存の手法を利用することができる。
特徴点検出部2020はクエリ画像10から複数の特徴点40を算出する。この際、特徴点検出部2020は、各特徴点40について局所特徴量を算出する。ここで、画像から特徴点を検出する手法、及び特徴点の局所特徴量を算出する手法には、既存の手法を利用することができる。
<特徴点40を含むと推定されるオブジェクト画像の特定:S106>
特定部2040は特徴点40ごとに、その特徴点40が含まれると推定される1つ以上のオブジェクト画像を特定する(S106)。特徴点40を含むと推定されるオブジェクト画像の特定には、特徴点40の局所特徴量と、オブジェクト画像内の特徴点の局所特徴量とが利用される。前述したように、オブジェクト画像内の各特徴点の局所特徴量は、オブジェクト情報に示されている。
特定部2040は特徴点40ごとに、その特徴点40が含まれると推定される1つ以上のオブジェクト画像を特定する(S106)。特徴点40を含むと推定されるオブジェクト画像の特定には、特徴点40の局所特徴量と、オブジェクト画像内の特徴点の局所特徴量とが利用される。前述したように、オブジェクト画像内の各特徴点の局所特徴量は、オブジェクト情報に示されている。
ここで、或るオブジェクト画像内に、特徴点40の局所特徴量と近似する局所特徴量を持つ特徴点があれば、そのオブジェクト画像は特徴点40を含むと推定できる。そこで特定部2040は、特徴点40の局所特徴量と近似する局所特徴量を持つ特徴点を含むオブジェクト画像を特定し、そのオブジェクト画像を、特徴点40を含むと推定されるオブジェクト画像とする。
ここで、特徴点40の局所特徴量と近似する局所特徴量を持つ特徴点を含むオブジェクト画像を探索する手法として、特徴点40の局所特徴量全体(特徴量ベクトルの全体)と、オブジェクト情報に示される全特徴点の局所特徴量全体との近似度合いを計算していく手法がある。しかしながら特定部2040は、特徴点40を含むと推定されるオブジェクト画像を特定するために要する時間を短くするため、この手法よりも高速に実現できる手法を利用する。以下、その具体的な手法をいくつか例示する。
<方法1>
例えば特定部2040は、近似最近傍探索(Approximate Nearest Neighbor Search)を利用する。近似最近傍探索を実現する方法には、例えば、階層的なクラスタリング及び逆インデックスを利用する手法や、LSH(Locality Sensitive Hashing)などを利用する方法がある。これらの手法は既知の手法であるため、その具体的な手法の説明は省略する。以下では、単純なインデックステーブルを利用する例を挙げて、特徴点40を含むと推定されるオブジェクト画像を特定する方法を説明する。
例えば特定部2040は、近似最近傍探索(Approximate Nearest Neighbor Search)を利用する。近似最近傍探索を実現する方法には、例えば、階層的なクラスタリング及び逆インデックスを利用する手法や、LSH(Locality Sensitive Hashing)などを利用する方法がある。これらの手法は既知の手法であるため、その具体的な手法の説明は省略する。以下では、単純なインデックステーブルを利用する例を挙げて、特徴点40を含むと推定されるオブジェクト画像を特定する方法を説明する。
まず前提として、各オブジェクト画像から得られる局所特徴量について、予めインデックステーブルを作成しておく。図9は、インデックステーブルを例示する図である。インデックステーブル200は、N 個のインデックス値に対して、画像識別子と出現回数のペアをノードとするリストが接続されたものである。
オブジェクト画像から得られる各局所特徴量は、その局所特徴量を所定の規則(例えばハッシュ関数)で量子化した値と等しいインデックス値に接続されているリストに追加される。例えば、オブジェクト画像1(画像識別子は1)に含まれる特徴点が F1 という局所特徴量を持っており、この局所特徴量をインデックステーブル200に追加するとする。まず、局所特徴量 F1 を所定の規則で量子化することで、インデックス値に変換する。ここで、この変換で得られたインデックス値を i とする。この場合、インデックス値 i に対して接続されているリスト(以下、リスト i)に、オブジェクト画像1の画像識別子である1を持つノードを含めることになる。ここで、画像識別子が1であるノードがリスト i に存在する場合、そのノードの出現回数に1が加算される。一方、画像識別子が1であるノードがリスト i に存在しない場合、リスト i に「画像識別子=1、出現回数=1」のノードが追加される。
特定部2040は、特徴点40の局所特徴量で、インデックステーブル200を検索する。具体的には、特定部2040は、特徴点40の局所特徴量を上記所定の規則で量子化することで、その局所特徴量に対応するインデックス値を算出する。そして特定部2040は、そのインデックス値に接続されているリストに示されている画像識別子を取得する。特定部2040は、この方法で取得した画像識別子を持つオブジェクト画像を、特徴点40の局所特徴量を含むと推定されるオブジェクト画像とする。
ここで、上述の方法でインデックステーブルを構成すると、1つのインデックス値に対して接続されるリストは、複数のノードを持ちうる。そのため、特定部2040が上述の方法で取得する画像識別子は、複数である可能性がある。よって、特定部2040は、上述の方法により、特徴点40の局所特徴量を含むと推定されるオブジェクト画像を複数取得しうる。
<<方法2>>
特定部2040は、特徴点40の局所特徴量と、オブジェクト情報が示す局所特徴量(各オブジェクト画像の局所特徴量)とを比較する。この際、特定部2040は、特徴点40の局所特徴量と、オブジェクト情報が示す局所特徴量とを完全に比較するのではなく、ある程度簡略化して比較を行う。
特定部2040は、特徴点40の局所特徴量と、オブジェクト情報が示す局所特徴量(各オブジェクト画像の局所特徴量)とを比較する。この際、特定部2040は、特徴点40の局所特徴量と、オブジェクト情報が示す局所特徴量とを完全に比較するのではなく、ある程度簡略化して比較を行う。
例えば特定部2040は、オブジェクト情報に示される全ての局所特徴量ではなく、一部の局所特徴量のみを、特徴点40の局所特徴量と比較する。具体的には、オブジェクト画像ごとに、特徴点40の局所特徴量と比較する局所特徴量の数の上限を定めておく。例えば、オブジェクト画像1内に特徴点が 800 個あり、オブジェクト画像2内に特徴点が 700 個であるとする。この場合に、特徴点40の局所特徴量と比較する局所特徴量の数を、各オブジェクト画像につき 50 個と定めておく。すなわち、オブジェクト画像1内の 800 個の特徴点のうち、50 個の特徴点の局所特徴量が、特徴点40の局所特徴量と比較される。同様に、オブジェクト画像2内の 700 個の特徴点のうち、50 個の特徴点の局所特徴量が、特徴点40の局所特徴量と比較される。
この場合、オブジェクト情報に、オブジェクト画像ごとに、どの特徴点の局所特徴量を比較に利用するのかを予め定めておく。例えば、特徴点検出の際の反応値が大きい特徴点や、スケール値が大きい特徴点を利用する。
局所特徴量同士の比較は、例えばそれらの距離値を計算することで行われる。ここで、局所特徴量同士の距離値を計算する技術には既存の技術を利用することができる。
特定部2040は、オブジェクト情報が示す各局所特徴量について算出された距離値に基づいて、特徴点40の局所特徴量を含むと推定されるオブジェクト画像を特定する。例えば特定部2040は、オブジェクト情報が示す局所特徴量のうち、算出された距離値が最小である局所特徴量を特定する。そして特定部2040は、特定された局所特徴量を持つ特徴点が含まれるオブジェクト画像を、特徴点40を含むと推定されるオブジェクト画像とする。
その他にも例えば、特定部2040は、オブジェクト情報が示す局所特徴量のうち、距離値の昇順で上位所定個の局所特徴量を特定する。そして特定部2040は、ここで特定された局所特徴量を持つ特徴点のいずれか1つ以上を含むオブジェクト画像を、特徴点40の局所特徴量を含むと推定されるオブジェクト画像とする。
その他にも例えば、特定部2040は、オブジェクト情報が示す各局所特徴量について算出された距離値を、そのうちの最小の距離値との比較に基づいて評価してもよい。例えば特定部2040は、オブジェクト情報が示す各局所特徴量について算出された距離値と、その中の最小値との比率を算出する。例えば最小の距離値が d であれば、特定部2040は、オブジェクト情報が示す各局所特徴量について算出された距離値を d で割ることで比率を算出する。例えば特定部2040は、この比率が所定値以下となる局所特徴量を持つ特徴点が含まれる各オブジェクト画像を、特徴点40を含むと推定されるオブジェクト画像とする。
ここで特定部2040は、最小の距離値との比率を算出する代わりに、最小の距離値との差分を算出してもよい。この場合、特定部2040は、算出された差分が所定値以下となる局所特徴量を持つ特徴点が含まれる各オブジェクト画像を、特徴点40を含むと推定されるオブジェクト画像とする。
ここで、特徴点40の局所特徴量とオブジェクト画像の局所特徴量との距離値は、局所特徴量を構成するベクトルの一部のベクトル(以下、部分ベクトル)のみを利用して算出されてもよい。例えば局所特徴量を構成するベクトルが 128 次元である場合に、そのベクトルの上位 32 次元のベクトルを部分ベクトルとして利用する。
なお、部分ベクトルで距離値を算出する場合、特定部2040は、オブジェクト情報が示す全ての局所特徴量を特徴点40の局所特徴量と比較してもよい。例えば、オブジェクト画像1に含まれる特徴点が 800 個あり、オブジェクト画像2に含まれる特徴点が 700 個であるとする。この場合、特定部2040は、オブジェクト画像1の 800 個の特徴点それぞれの局所特徴量の部分ベクトルと、特徴点40の局所特徴量の部分ベクトルとの距離値を算出する。同様に、特定部2040は、オブジェクト画像2の 700 個の特徴点それぞれの局所特徴量の部分ベクトルと、特徴点40の局所特徴量の部分ベクトルとの距離値を算出する。
<オブジェクト領域50の抽出>
抽出部2060は、オブジェクト領域50を、そのオブジェクト領域50に含まれると推定されるオブジェクトのオブジェクト画像と対応づけて抽出する(S108)。そのために、抽出部2060は、特徴点40に対応するオブジェクト画像(特徴点40を含むと推定されたオブジェクト画像)の画像識別子を、特徴点40に対応するクエリ画像10上の画像位置に対応づける。以下、オブジェクト画像の画像識別子をクエリ画像10上の画像位置に対応づけることを、「投票する」とも表記する。また、画像識別子が投票される、特徴点40に対応するクエリ画像10上の画像位置を、「特徴点40に対応する投票位置」とも表記する。
抽出部2060は、オブジェクト領域50を、そのオブジェクト領域50に含まれると推定されるオブジェクトのオブジェクト画像と対応づけて抽出する(S108)。そのために、抽出部2060は、特徴点40に対応するオブジェクト画像(特徴点40を含むと推定されたオブジェクト画像)の画像識別子を、特徴点40に対応するクエリ画像10上の画像位置に対応づける。以下、オブジェクト画像の画像識別子をクエリ画像10上の画像位置に対応づけることを、「投票する」とも表記する。また、画像識別子が投票される、特徴点40に対応するクエリ画像10上の画像位置を、「特徴点40に対応する投票位置」とも表記する。
ここで、特徴点40に対応する投票位置(特徴点40に対応するクエリ画像10上の位置)は、その特徴点40の画像位置そのものであってもよいし、その特徴点40と所定の関係にある他の位置であってもよい。以下の説明では、まずは特徴点40の画像位置そのものを特徴点40に対応する投票位置とするケースについて例示し、「特徴点40と所定の関係にある他の位置」を特徴点40に対応する投票位置とするケースについては後述する。
特徴点40に対応する投票位置が特徴点40の画像位置そのものである場合、投票位置とそこに対応づけられた画像識別子との関係は、前述した図3で例示されている。図3において、[n](n は整数)は、画像識別子nが投票位置に投票されている様子を表している。
抽出部2060は、投票位置と画像識別子との対応付けに基づき、画像識別子に対応づけてオブジェクト領域50を抽出する。概念としては、同一の画像識別子が互いに近い投票位置に多く対応づけられている場合(すなわち、同一の画像識別子が互いに近い場所に集中している場合)に、それらの投票位置やその周辺が含まれる画像領域が、その画像識別子に対応するオブジェクト領域50として抽出される。こうすると、オブジェクト領域50には、対応づけられた画像識別子を持つオブジェクト画像によって表されるオブジェクトが含まれている蓋然性が高くなる。
以下、画像識別子に対応づけてオブジェクト領域50を抽出する具体的な方法をいくつか例示する。
<<方法1>>
抽出部2060は、空間的クラスタリングを利用して、投票位置を画像識別子ごとにクラスタリングする。その結果、抽出部2060は、クエリ画像10から、「画像識別子、その画像識別子が投票された各投票位置を含む画像領域(以下、クラスタ領域)、投票数」という組み合わせを画像識別子ごとに得ることができる。なお、同一の画像識別子が離れた位置に投票されている場合、これらは別のクラスタとしてクラスタリングされる。すなわち、1つの画像識別子について、複数のクラスタが作成されうる。
抽出部2060は、空間的クラスタリングを利用して、投票位置を画像識別子ごとにクラスタリングする。その結果、抽出部2060は、クエリ画像10から、「画像識別子、その画像識別子が投票された各投票位置を含む画像領域(以下、クラスタ領域)、投票数」という組み合わせを画像識別子ごとに得ることができる。なお、同一の画像識別子が離れた位置に投票されている場合、これらは別のクラスタとしてクラスタリングされる。すなわち、1つの画像識別子について、複数のクラスタが作成されうる。
図10は、投票位置が画像識別子ごとにクラスタリングされた様子を例示する図である。なお、図10では、複数の画像識別子が投票されている投票位置もある。例えば [2,5] という表記は、同じ投票位置に画像識別子2と5が投票されていることを意味する。図10において、点線で囲まれた領域がクラスタ領域を表している。
ここで、「画像識別子、クラスタ領域」に対応づけられる投票数は、例えば、その画像識別子に対応付けられており、なおかつそのクラスタ領域に含まれる投票位置の数で表される。その他にも例えば、後述するように各投票位置に重みが付される場合、「画像識別子、クラスタ領域」に対応づけられる投票数は、その画像識別子に対応付けられており、なおかつそのクラスタ領域に含まれる各投票位置の重みの合計値としてもよい。なお、空間的クラスタリングの具体的な手法には、既存の手法を利用することができる。
抽出部2060は、空間的クラスタリングによって得られたクラスタの中から、投票数が所定値以上であるものを抽出する。そして抽出部2060は、抽出された各クラスタについて、そのクラスタが示す画像識別子とクラスタ領域との組み合わせを、画像識別子とオブジェクト領域50との組み合わせとする。
<<<投票位置の重みについて>>>
投票位置の重みについて説明する。抽出部2060は、特徴点40に対応する投票位置に対してオブジェクト画像の画像識別子を投票する際に、その投票位置に対するその画像識別子の重みを定めてもよい。特徴点40に対応する投票位置における画像識別子の重みには、その画像識別子を持つオブジェクト画像にその特徴点40が含まれる確度が反映されるようにする。
投票位置の重みについて説明する。抽出部2060は、特徴点40に対応する投票位置に対してオブジェクト画像の画像識別子を投票する際に、その投票位置に対するその画像識別子の重みを定めてもよい。特徴点40に対応する投票位置における画像識別子の重みには、その画像識別子を持つオブジェクト画像にその特徴点40が含まれる確度が反映されるようにする。
例えば抽出部2060は、特徴点40を含むと推定されたオブジェクト画像の数が多いほど、その特徴点40に対応する投票位置における各画像識別子の重みを小さくする。特徴点40を含むと推定されるオブジェクト画像が多いほど、各オブジェクト画像がその特徴点40を含む確度が小さいと言えるためである。例えば、特徴点40に対応する投票位置における各画像識別子の重みを、その特徴点40に対応づけられたオブジェクト画像の数の逆数とする。
例えば特徴点40に対応づけられている画像識別子が、画像識別子1及び2であるとする。この場合、特徴点40に対応する投票位置における画像識別子1と2の重みは、それぞれ 0.5 となる。また、特徴点40に対応づけられている画像識別子が、画像識別子1、2、及び3であるとする。この場合、特徴点40に対応する投票位置における画像識別子1、2及び3の重みはそれぞれ、0.33 となる。
その他にも例えば、抽出部2060は、特徴点40に対応する投票位置における画像識別子の重みを、その画像識別子を持つオブジェクト画像に含まれる特徴点と特徴点40との近似度合い(例えば前述した局所特徴量間の距離値)で定める。特徴点40と或るオブジェクト画像に含まれる特徴点との近似度合いが大きいほど、その特徴点40がそのオブジェクト画像に含まれる確度が高いといえる。そこで例えば、抽出部2060は、特徴点40に対応する投票位置における画像識別子の重みを、その画像識別子を持つオブジェクト画像に含まれる特徴点と特徴点40との距離値に反比例して大きくなる値とする。
例えば特定部2040が、特徴点40の特徴量と、オブジェクト画像1に含まれる或る特徴点の特徴量との距離値に基づいて、オブジェクト画像1がその特徴点40を含むと推定したとする。この場合、抽出部2060は、上記距離値に基づいて、特徴点40に対応する投票位置におけるオブジェクト画像1の重みを決定する。
<<方法2>>
抽出部2060は、クエリ画像10を複数のブロックに分割し、そのブロックを利用してオブジェクト領域50の抽出を行う。具体的には抽出部2060は、各ブロックに含まれる投票位置に基づいて、各ブロックの投票数を算出する。例えば抽出部2060は、或るブロック内に存在する投票位置の数を、そのブロックの投票数とする。その他にも例えば、前述した方法で投票位置に重みを付す場合、抽出部2060は、ブロック内に存在する各投票位置の重みの合計値を、そのブロックの投票数としてもよい。ここで、投票数は画像識別子ごとに算出される。
抽出部2060は、クエリ画像10を複数のブロックに分割し、そのブロックを利用してオブジェクト領域50の抽出を行う。具体的には抽出部2060は、各ブロックに含まれる投票位置に基づいて、各ブロックの投票数を算出する。例えば抽出部2060は、或るブロック内に存在する投票位置の数を、そのブロックの投票数とする。その他にも例えば、前述した方法で投票位置に重みを付す場合、抽出部2060は、ブロック内に存在する各投票位置の重みの合計値を、そのブロックの投票数としてもよい。ここで、投票数は画像識別子ごとに算出される。
例えば抽出部2060は、或る画像識別子に係る投票数が所定値以上のブロックを、その画像識別子に対応するオブジェクト領域50として抽出する。図11は、投票数が所定数以上のブロックをオブジェクト領域50として抽出するケースを例示する図である。図11において、クエリ画像10は、12個のブロックに分割されている。この例では、同一の画像識別子の投票数が3以上であるブロックが、オブジェクト領域50として抽出される。また、投票数は画像識別子の数で表される。
クエリ画像10には、同一の画像識別子を3つ以上含むブロックが2つある。具体的には、ブロック60-1が画像識別子2を3つ含んでおり、ブロック60-2が画像識別子3を4つ含んでいる。そこで抽出部2060は、ブロック60-1を、画像識別子2に対応するオブジェクト領域50として抽出する。また、抽出部2060は、ブロック60-2を、画像識別子3に対応するオブジェクト領域50として抽出する。
なお、ブロック同士はその一部が重複してもよい。画像をブロックに分割する際に、ブロック同士が一部重複するように分割する手法には、既存の技術を利用することができる。
また、ブロックの分割は階層的であってもよい。図12は、階層的に構成されたブロックを例示する図である。図12の上段では、第1の階層におけるブロック分割を表している。ここでは、クエリ画像10が16個のブロックに分割されている。一方、図12の下段では、第2の階層におけるブロック分割を表している。ここでは、クエリ画像10が4個のブロックに分割されている。下段のクエリ画像10における各ブロックは、上段のクエリ画像10におけるブロック4つを結合したものになっている。なお、下段のクエリ画像10における点線は、上段のクエリ画像10におけるブロックの境界線に相当する線である。
抽出部2060は、より細かくブロック分割されている階層から順に、各ブロックにおいて、同一の画像識別子の投票数が所定数以上である否かを判定していく。例えば図12の例では、まず第1階層の各ブロックについて判定が行われ、次に第2の階層の各ブロックについて判定が行われる。ここで図12の例では、所定数が3であり、投票数が投票位置の数であるとする。
まず第1の階層において、抽出部2060は、ブロック60-1における画像識別子3の投票数が3であり、所定数以上であると判定する。その結果、ブロック60-1が、画像識別子3に対応するオブジェクト領域50として抽出される。一方で、画像識別子1を含む各ブロックについては、どのブロックにおいても投票数は3未満であるため、オブジェクト領域50として抽出されない。
次に抽出部2060は、第2の階層の各ブロックについて判定を行う。その結果、抽出部2060は、ブロック60-2における画像識別子1の投票数が3であり、所定数以上であると判定する。その結果、ブロック60-2が、画像識別子1に対応するオブジェクト領域50として抽出される。
なお、抽出部2060は、前述した方法1で抽出されるクラスタ領域や、方法2で抽出されるブロックの画像領域そのものをオブジェクト領域50とするのではなく、それらの周辺領域を含む画像領域をオブジェクト領域50としてもよい。画像領域及びその周辺領域を抽出する方法としては、例えば、その画像領域を所定比率で拡大したものを抽出するという方法を採用できる。この所定比率は、予め定めておく。
<<特徴点40に対応するクエリ画像10上の画像位置について>>
前述したように、抽出部2060は、「特徴点40と所定の関係にある他の位置」を特徴点40に対応する投票位置として扱ってもよい。例えば抽出部2060は、特徴点40に対応する投票位置を、その特徴点40を含むと推定されるオブジェクト画像で定められている参照位置に基づいて決定する。
前述したように、抽出部2060は、「特徴点40と所定の関係にある他の位置」を特徴点40に対応する投票位置として扱ってもよい。例えば抽出部2060は、特徴点40に対応する投票位置を、その特徴点40を含むと推定されるオブジェクト画像で定められている参照位置に基づいて決定する。
図13は、オブジェクト画像の参照位置に基づいて、特徴点40に対応する投票位置が決定されるケースを例示する図である。この例では、クエリ画像10内に、細長い三角形のオブジェクト20が含まれている。クエリ画像10の下に図示されているオブジェクト画像70は、オブジェクト20を表すオブジェクト画像である。
オブジェクト画像70には、参照位置80が定められている。例えば参照位置80は、オブジェクト20の中心位置である。照合部2080は、特徴点40に対応する投票位置を、クエリ画像10において、オブジェクト画像70における参照位置80に相当する位置とする。図13では、オブジェクト画像70における参照位置80に相当するクエリ画像10上の位置は、位置90である。そのため、抽出部2060は、位置90を特徴点40に対応する投票位置とする。原理的には、クエリ画像10において、オブジェクト20から検出される複数の特徴点40に対応する投票位置はいずれも、位置90となる。
ここで、クエリ画像10に含まれるオブジェクトは、オブジェクト画像に含まれるそのオブジェクトと大きさの縮尺(スケール)や向きが異なる。そのため、クエリ画像10上においてオブジェクト画像の参照位置に相当する画像位置を算出するためには、このスケールや向きの違いを考慮した計算が必要となる。
そこで前提として、オブジェクト画像において、参照位置を始点とする参照ベクトルを定義しておく。参照ベクトルの大きさと向きは任意である。また、オブジェクト画像内の各特徴点において、その特徴点を始点とする特徴ベクトルを求めておく。ここで、局所特徴量算出のアルゴリズムの一種である SIFT(Scaled Invariance Feature Transform)や SURF(Speeded Up Robust Features)では、特徴点についてスケール(大きさ)とオリエンテーション(向き)が算出される。そこで、特徴点の特徴ベクトルの大きさと方向をとして、その特徴点について算出されるスケールとオリエンテーションを利用する。
また、クエリ画像10上の特徴点40についても同様に、特徴ベクトルを求めておく。特徴点40の特徴ベクトルは、特徴点40の特徴量を算出する過程で得ることができる。
ここでオブジェクト画像において、或る特徴ベクトルと参照ベクトルの位置、大きさ、及びオリエンテーションの関係に基づく所定の変換式をその特徴ベクトルに適用すると、特徴ベクトルを参照ベクトルに変換することができる。この変換は、特徴ベクトルを fv、参照ベクトルを rv、変換式を f とおけば、この変換は rv=f(fv) と表させる。そして、クエリ画像10において、この変換式を特徴点40の特徴ベクトルに適用すれば、その特徴ベクトルが、オブジェクト画像における参照ベクトルに相当するベクトルに変換される。すなわち、特徴点40の特徴ベクトルを gv とおけば、f(gv) を計算することで、参照ベクトルに相当するベクトルを算出することができる。
そこで照合部2080は、特徴点40の特徴ベクトルにこの変換式を適用することで、その特徴ベクトルを、オブジェクト画像における参照ベクトルに相当するベクトルに変換する。そして、照合部2080は、この変換で得られたベクトルの始点を、特徴点40に対応する投票位置とする。
図14は、特徴ベクトルと参照ベクトルを利用して、特徴点40に対応する投票位置を算出する方法を例示する図である。オブジェクト画像70において、参照位置80に対応する参照ベクトル82、及び特徴点100に対応する特徴ベクトル102が定められている。また、クエリ画像10における特徴点40は、オブジェクト画像70における特徴点100に相当する特徴点である。そこで抽出部2060は、特徴点40について算出された特徴ベクトル42に対し、特徴ベクトル102を参照ベクトル82に変換する変換式を適用する。その結果、ベクトル92が得られる。そこで抽出部2060は、ベクトル92の始点として求まる位置90を、特徴点40に対応する投票位置とする。
ここで、特徴点40を含むと推定されるオブジェクト画像が複数ある場合、照合部2080は、特徴点40に対応する画像位置をオブジェクト画像ごとに求める。すなわち、特徴点40に対応する画像位置が複数得られることとなる。ここで、複数得られる画像位置それぞれには、その画像位置を求めるために利用されたオブジェクト画像の画像識別子が投票される。
このようにクエリ画像10内の各特徴点40をオブジェクト画像の参照位置に相当する位置に変換すると、同じオブジェクト画像に含まれる特徴点40は、互いに近い位置に変換されることとなる。そのため、この方法で特徴点40に対応するクエリ画像10内の画像位置を算出すると、同じオブジェクトの特徴点40を近い位置に集めることができる。図15は、特徴点40に対応する投票位置が近い位置に集まる様子を例示する図である。
このように同じオブジェクトの特徴点40を近い位置に集めた後に空間的クラスタリング等を実行すれば、そのオブジェクトを表すオブジェクト領域50をより正確に抽出することができるようになる。ただしこの場合、抽出部2060は、特徴点40をオブジェクト画像の参照位置に相当する位置に変換した状態で空間的クラスタリング等をした後、同じクラスタやブロックに含まれる各特徴点40の元の位置(参照位置相当の位置に変換する前の位置)を包含する画像領域を、オブジェクト領域50として抽出することが好適である。
<オブジェクト領域50とオブジェクト画像との照合:S110>
照合部2080は、オブジェクト領域50を1つ以上のオブジェクト画像と照合することで、オブジェクト領域50に含まれるオブジェクトを特定する。ここで、オブジェクト領域50との照合に利用するオブジェクト画像は、そのオブジェクト領域50に対応づけられた画像識別子を持つオブジェクト画像である。なお、オブジェクト領域50とオブジェクト画像との照合は、オブジェクト領域50に含まれる各特徴点40の局所特徴量と、対応するオブジェクト画像に含まれる各特徴点の局所特徴量とを比較することで行われる。なお、局所特徴量を比較して画像を照合する技術には、既存の技術を利用することができる。
照合部2080は、オブジェクト領域50を1つ以上のオブジェクト画像と照合することで、オブジェクト領域50に含まれるオブジェクトを特定する。ここで、オブジェクト領域50との照合に利用するオブジェクト画像は、そのオブジェクト領域50に対応づけられた画像識別子を持つオブジェクト画像である。なお、オブジェクト領域50とオブジェクト画像との照合は、オブジェクト領域50に含まれる各特徴点40の局所特徴量と、対応するオブジェクト画像に含まれる各特徴点の局所特徴量とを比較することで行われる。なお、局所特徴量を比較して画像を照合する技術には、既存の技術を利用することができる。
ここで前述したように、特定部2040が特徴点40の局所特徴量とオブジェクト情報が示す局所特徴量とを比較する際には、簡略化した比較が行われる。これに対し、照合部2080は、局所特徴量同士の比較を詳細に行うことが好ましい。具体的には、照合部2080は、オブジェクト領域50に含まれる各特徴点40の局所特徴量全体と、対応するオブジェクト画像に含まれる各特徴点の局所特徴量全体とを比較する(局所特徴量の次元数を減らしたり、特徴点の数を制限したりしない)ことが好適である。ここではオブジェクト領域50と照合するオブジェクト画像の数が絞られているため、局所特徴量同士を詳細に比較しても、その比較に要する時間は短いといえる。
ここで、例えば図5の例などでは、オブジェクト領域50と比較するオブジェクト画像が1つしか存在しない。しかしながら、オブジェクト情報に類似した複数のオブジェクト(例えば、オブジェクト情報に示されるオブジェクトに、同一シリーズで味が異なるお菓子や容量が異なる飲料などが含まれる場合)が含まれる場合、特定部2040が行う簡略化した局所特徴量同士の比較では、これら類似したオブジェクトのオブジェクト画像がいずれも同一の特徴点40を含みうる。その結果、オブジェクト領域50に対応する画像識別子が複数存在しうる。照合部2080では、このように複数の画像識別子が1つのオブジェクト領域50に対応づけられている場合に、その中のどの画像識別子を持つオブジェクト画像が、オブジェクト領域50に含まれるオブジェクトのオブジェクト画像であるのかを特定する。
以上、図面を参照して本発明の実施形態について述べたが、これらは本発明の例示であり、上記以外の様々な構成を採用することもできる。
Claims (19)
- 複数のオブジェクトが含まれるクエリ画像を取得し、前記取得したクエリ画像から複数の特徴点を検出する特徴点検出手段と、
前記特徴点ごとに、その特徴点を含むと推定される1つ以上のオブジェクト画像を特定する特定手段と、
前記特定の結果に基づき、前記クエリ画像においてオブジェクトが含まれると推定されるオブジェクト領域を、そのオブジェクト領域に含まれると推定されるオブジェクトのオブジェクト画像と対応づけて抽出する抽出手段と、
前記オブジェクト領域と、そのオブジェクト領域と対応づけられた前記オブジェクト画像とを照合して、前記オブジェクト領域に含まれるオブジェクトを特定する照合手段と、
を有する情報処理装置。 - 前記特定手段は、或る前記オブジェクト画像に含まれる特徴点の局所特徴量が、前記クエリ画像内の特徴点の局所特徴量と近似する場合に、そのオブジェクト画像を、前記クエリ画像内のその特徴点を含むと推定されるオブジェクト画像として特定する、請求項1に記載の情報処理装置。
- 前記特定手段は、前記オブジェクト画像に含まれる特徴点のうちの一部について、その特徴点の局所特徴量と、前記クエリ画像内の特徴点の局所特徴量との近似度合いを算出する、請求項2に記載の情報処理装置。
- 前記特定手段は、前記オブジェクト画像に含まれる特徴点の局所特徴量を構成するベクトルの一部と、前記クエリ画像内の特徴点の局所特徴量を構成するベクトルの一部との距離値を前記近似度合いとして算出する、請求項3に記載の情報処理装置。
- 各前記オブジェクト画像の画像識別子は、そのオブジェクト画像に含まれる各特徴点の局所特徴量を用いて算出されたインデックス値と対応づけられて記憶装置に記憶されており、
前記特定手段は、前記クエリ画像内の特徴点の局所特徴量からインデックス値を算出し、そのインデックス値と対応づけて記憶されている前記画像識別子を持つオブジェクト画像を、その特徴点を含むと推定される前記オブジェクト画像として特定する、請求項1又は2に記載の情報処理装置。 - 前記抽出手段は、前記クエリ画像内の前記特徴点に対応する画像位置をその特徴点の投票位置として、その投票位置に対し、その特徴点を含むと推定された前記オブジェクト画像を対応付け、同一の前記オブジェクト画像が対応づけられた投票位置を所定数以上含む前記クエリ画像内の画像領域を、そのオブジェクトに対応する前記オブジェクト領域として抽出する、請求項1乃至5いずれか一項に記載の情報処理装置。
- 前記抽出手段は、前記クエリ画像内の前記特徴点に対応する画像位置を投票位置として、その投票位置に対し、その特徴点を含むと推定された前記オブジェクト画像を、重みを付して対応付け、同一の前記オブジェクト画像が対応づけられた投票位置に付された重みの合計が所定値以上となる前記クエリ画像内の画像領域を、そのオブジェクトに対応する前記オブジェクト領域として抽出する、請求項1乃至5いずれか一項に記載の情報処理装置。
- 前記特徴点の投票位置は、その特徴点の画像位置である、請求項6又は7に記載の情報処理装置。
- 前記オブジェクト画像において、
参照点の位置を始点とする参照ベクトルが定められており、
特徴点の位置、その特徴点の局所特徴量のオリエンテーション、その特徴点の局所特徴量のスケールをそれぞれ始点、向き、大きさとする特徴ベクトルが定められており、
前記抽出手段は、
前記クエリ画像内の特徴点について、その特徴点の位置、その特徴点の局所特徴量のオリエンテーション、その特徴点の局所特徴量のスケールをそれぞれ始点、向き、大きさとする特徴ベクトルを算出し、
前記クエリ画像内の特徴点を含むと推定された前記オブジェクト画像においてその特徴点に相当する特徴点の特徴ベクトルを前記参照ベクトルに変換する変換式を、前記クエリ画像内のその特徴点の特徴ベクトルに適用することで、その特徴ベクトルを変換し、前記変換後のそのベクトルの始点を、前記クエリ画像内のその特徴点の投票位置とする、画像位置とする、請求項6又は7に記載の情報処理装置。 - コンピュータによって実行される制御方法であって、
複数のオブジェクトが含まれるクエリ画像を取得し、前記取得したクエリ画像から複数の特徴点を検出する特徴点検出ステップと、
前記特徴点ごとに、その特徴点を含むと推定される1つ以上のオブジェクト画像を特定する特定ステップと、
前記特定の結果に基づき、前記クエリ画像においてオブジェクトが含まれると推定されるオブジェクト領域を、そのオブジェクト領域に含まれると推定されるオブジェクトのオブジェクト画像と対応づけて抽出する抽出ステップと、
前記オブジェクト領域と、そのオブジェクト領域と対応づけられた前記オブジェクト画像とを照合して、前記オブジェクト領域に含まれるオブジェクトを特定する照合ステップと、
を有する制御方法。 - 前記特定ステップにおいて、或る前記オブジェクト画像に含まれる特徴点の局所特徴量が、前記クエリ画像内の特徴点の局所特徴量と近似する場合に、そのオブジェクト画像を、前記クエリ画像内のその特徴点を含むと推定されるオブジェクト画像として特定する、請求項10に記載の制御方法。
- 前記特定ステップにおいて、前記オブジェクト画像に含まれる特徴点のうちの一部について、その特徴点の局所特徴量と、前記クエリ画像内の特徴点の局所特徴量との近似度合いを算出する、請求項11に記載の制御方法。
- 前記特定ステップにおいて、前記オブジェクト画像に含まれる特徴点の局所特徴量を構成するベクトルの一部と、前記クエリ画像内の特徴点の局所特徴量を構成するベクトルの一部との距離値を前記近似度合いとして算出する、請求項12に記載の制御方法。
- 各前記オブジェクト画像の画像識別子は、そのオブジェクト画像に含まれる各特徴点の局所特徴量を用いて算出されたインデックス値と対応づけられて記憶装置に記憶されており、
前記特定ステップにおいて、前記クエリ画像内の特徴点の局所特徴量からインデックス値を算出し、そのインデックス値と対応づけて記憶されている前記画像識別子を持つオブジェクト画像を、その特徴点を含むと推定される前記オブジェクト画像として特定する、請求項10又は11に記載の制御方法。 - 前記抽出ステップにおいて、前記クエリ画像内の前記特徴点に対応する画像位置をその特徴点の投票位置として、その投票位置に対し、その特徴点を含むと推定された前記オブジェクト画像を対応付け、同一の前記オブジェクト画像が対応づけられた投票位置を所定数以上含む前記クエリ画像内の画像領域を、そのオブジェクトに対応する前記オブジェクト領域として抽出する、請求項10乃至14いずれか一項に記載の制御方法。
- 前記抽出ステップにおいて、前記クエリ画像内の前記特徴点に対応する画像位置を投票位置として、その投票位置に対し、その特徴点を含むと推定された前記オブジェクト画像を、重みを付して対応付け、同一の前記オブジェクト画像が対応づけられた投票位置に付された重みの合計が所定値以上となる前記クエリ画像内の画像領域を、そのオブジェクトに対応する前記オブジェクト領域として抽出する、請求項10乃至14いずれか一項に記載の制御方法。
- 前記特徴点の投票位置は、その特徴点の画像位置である、請求項15又は16に記載の制御方法。
- 前記オブジェクト画像において、
参照点の位置を始点とする参照ベクトルが定められており、
特徴点の位置、その特徴点の局所特徴量のオリエンテーション、その特徴点の局所特徴量のスケールをそれぞれ始点、向き、大きさとする特徴ベクトルが定められており、
前記抽出ステップにおいて、
前記クエリ画像内の特徴点について、その特徴点の位置、その特徴点の局所特徴量のオリエンテーション、その特徴点の局所特徴量のスケールをそれぞれ始点、向き、大きさとする特徴ベクトルを算出し、
前記クエリ画像内の特徴点を含むと推定された前記オブジェクト画像においてその特徴点に相当する特徴点の特徴ベクトルを前記参照ベクトルに変換する変換式を、前記クエリ画像内のその特徴点の特徴ベクトルに適用することで、その特徴ベクトルを変換し、前記変換後のそのベクトルの始点を、前記クエリ画像内のその特徴点の投票位置とする、画像位置とする、請求項15又は16に記載の制御方法。 - 請求項10乃至18いずれか一項に記載の制御方法の各ステップをコンピュータに実行させるプログラム。
Priority Applications (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2019551783A JP6904430B2 (ja) | 2017-11-07 | 2017-11-07 | 情報処理装置、制御方法、及びプログラム |
US16/759,164 US11580721B2 (en) | 2017-11-07 | 2017-11-07 | Information processing apparatus, control method, and program |
PCT/JP2017/040082 WO2019092782A1 (ja) | 2017-11-07 | 2017-11-07 | 情報処理装置、制御方法、及びプログラム |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
PCT/JP2017/040082 WO2019092782A1 (ja) | 2017-11-07 | 2017-11-07 | 情報処理装置、制御方法、及びプログラム |
Publications (1)
Publication Number | Publication Date |
---|---|
WO2019092782A1 true WO2019092782A1 (ja) | 2019-05-16 |
Family
ID=66438768
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
PCT/JP2017/040082 WO2019092782A1 (ja) | 2017-11-07 | 2017-11-07 | 情報処理装置、制御方法、及びプログラム |
Country Status (3)
Country | Link |
---|---|
US (1) | US11580721B2 (ja) |
JP (1) | JP6904430B2 (ja) |
WO (1) | WO2019092782A1 (ja) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114128340A (zh) * | 2019-05-17 | 2022-03-01 | 株式会社Ntt都科摩 | 用户终端以及无线通信方法 |
Families Citing this family (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US11507780B2 (en) * | 2018-03-05 | 2022-11-22 | Nec Corporation | Image analysis device, image analysis method, and image analysis program |
TWI768548B (zh) * | 2020-11-19 | 2022-06-21 | 財團法人資訊工業策進會 | 定位用基礎資訊產生系統與方法以及自身定位判斷裝置 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2014102810A (ja) * | 2012-10-22 | 2014-06-05 | Nippon Telegr & Teleph Corp <Ntt> | 被写体認識装置、被写体認識方法および被写体認識プログラム |
JP2014197386A (ja) * | 2013-03-08 | 2014-10-16 | キヤノン株式会社 | 画像処理装置および画像処理方法 |
WO2015136714A1 (ja) * | 2014-03-14 | 2015-09-17 | オムロン株式会社 | 画像識別装置、画像センサ、画像識別方法 |
Family Cites Families (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP4492036B2 (ja) * | 2003-04-28 | 2010-06-30 | ソニー株式会社 | 画像認識装置及び方法、並びにロボット装置 |
JP4196302B2 (ja) * | 2006-06-19 | 2008-12-17 | ソニー株式会社 | 情報処理装置および方法、並びにプログラム |
JP5139716B2 (ja) | 2007-05-16 | 2013-02-06 | キヤノン株式会社 | 画像検索装置及び画像検索方法 |
US10540566B2 (en) | 2012-06-29 | 2020-01-21 | Nec Corporation | Image processing apparatus, image processing method, and program |
JP2015204561A (ja) * | 2014-04-15 | 2015-11-16 | 株式会社デンソー | 情報提示システム、及び、提示装置 |
US9824434B2 (en) * | 2015-08-18 | 2017-11-21 | Industrial Technology Research Institute | System and method for object recognition |
-
2017
- 2017-11-07 US US16/759,164 patent/US11580721B2/en active Active
- 2017-11-07 WO PCT/JP2017/040082 patent/WO2019092782A1/ja active Application Filing
- 2017-11-07 JP JP2019551783A patent/JP6904430B2/ja active Active
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2014102810A (ja) * | 2012-10-22 | 2014-06-05 | Nippon Telegr & Teleph Corp <Ntt> | 被写体認識装置、被写体認識方法および被写体認識プログラム |
JP2014197386A (ja) * | 2013-03-08 | 2014-10-16 | キヤノン株式会社 | 画像処理装置および画像処理方法 |
WO2015136714A1 (ja) * | 2014-03-14 | 2015-09-17 | オムロン株式会社 | 画像識別装置、画像センサ、画像識別方法 |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114128340A (zh) * | 2019-05-17 | 2022-03-01 | 株式会社Ntt都科摩 | 用户终端以及无线通信方法 |
CN114128340B (zh) * | 2019-05-17 | 2023-12-26 | 株式会社Ntt都科摩 | 用户终端以及无线通信方法 |
Also Published As
Publication number | Publication date |
---|---|
US20210174129A1 (en) | 2021-06-10 |
JPWO2019092782A1 (ja) | 2020-11-12 |
JP6904430B2 (ja) | 2021-07-14 |
US11580721B2 (en) | 2023-02-14 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
KR101856120B1 (ko) | 이미지로부터 상가 발견 | |
US20160225053A1 (en) | Mobile visual commerce system | |
Tonioni et al. | Product recognition in store shelves as a sub-graph isomorphism problem | |
CN105518668A (zh) | 基于内容的图像检索 | |
JP6393230B2 (ja) | オブジェクト検出方法及び画像検索システム | |
TWI620131B (zh) | 物品辨識系統與方法 | |
WO2019092782A1 (ja) | 情報処理装置、制御方法、及びプログラム | |
Mi et al. | A novel method for recognizing face with partial occlusion via sparse representation | |
Lawrence Fernandes et al. | Development and analysis of various state of the art techniques for face recognition under varying poses | |
CN111382635A (zh) | 一种商品类别识别方法、装置及电子设备 | |
US10963736B2 (en) | Object recognition apparatus, object recognition system, and object recognition method | |
JP6541226B2 (ja) | 情報端末装置及びプログラム | |
KR101743169B1 (ko) | 얼굴 정보를 이용한 실종 가족 찾기 시스템 및 방법 그리고 이를 구현하는 프로그램을 기록한 기록 매체 | |
WO2021250808A1 (ja) | 画像処理装置、画像処理方法、及びプログラム | |
CN112154488B (zh) | 信息处理装置、控制方法和程序 | |
CN110704667B (zh) | 一种基于语义信息的快速相似图检测方法 | |
WO2019008734A1 (ja) | 物体識別装置、物体識別方法、計算装置、システムおよび記録媒体 | |
Suta Wijaya et al. | Multi-pose face recognition using fusion of scale invariant features | |
US20220414375A1 (en) | Image cropping using depth information | |
KR101910825B1 (ko) | 이미지 검색 모델을 제공하는 방법, 장치, 시스템 및 컴퓨터 프로그램 | |
Park et al. | Encouraging second-order consistency for multiple graph matching | |
JP2015187770A (ja) | 画像認識装置、画像認識方法及びプログラム | |
JP6399651B2 (ja) | 登録装置及び検索装置並びに方法及びプログラム | |
TWI778673B (zh) | 資訊處理裝置、資訊處理方法及程式產品 | |
US11756036B1 (en) | Utilizing sensor data for automated user identification |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
121 | Ep: the epo has been informed by wipo that ep was designated in this application |
Ref document number: 17931377 Country of ref document: EP Kind code of ref document: A1 |
|
ENP | Entry into the national phase |
Ref document number: 2019551783 Country of ref document: JP Kind code of ref document: A |
|
NENP | Non-entry into the national phase |
Ref country code: DE |
|
122 | Ep: pct application non-entry in european phase |
Ref document number: 17931377 Country of ref document: EP Kind code of ref document: A1 |