WO2020255227A1

WO2020255227A1 - 学習装置、検索装置、学習方法、検索方法、学習プログラム、及び検索プログラム

Info

Publication number: WO2020255227A1
Application number: PCT/JP2019/023976
Authority: WO
Inventors: 之人渡邉; 崇之梅田; 島村　潤; 淳嵯峨田
Original assignee: 日本電信電話株式会社
Priority date: 2019-06-17
Filing date: 2019-06-17
Publication date: 2020-12-24
Also published as: US20220284695A1; JPWO2020255227A1; JP7192990B2; US11790635B2

Abstract

検索装置は、第一検索部と、第二検索部と、第一検索部によって計算された第一類似度と、第二検索部によって計算された第二類似度とを統合した統合類似度を計算する統合部を含む。第一検索部の特徴抽出処理は、参照画像の各々における基準画像と、基準画像に類似する類似画像と、基準画像に類似しない非類似画像との間の類似度について、基準画像と類似画像との第二類似度に対する、基準画像と非類似画像との第二類似度が大きくなるほど、基準画像と類似画像との第二類似度及び基準画像と非類似画像との第二類似度に基づくマージンが大きくなるように、少なくとも学習されている。

Description

学習装置、検索装置、学習方法、検索方法、学習プログラム、及び検索プログラム

　開示の技術は、学習装置、検索装置、学習方法、検索方法、学習プログラム、及び検索プログラムに関する。

　スマートフォン等の小型撮像デバイスの普及に伴い、様々な場所及び環境で任意の対象を撮影したような画像中に写る物体を認識する技術への要望が高まってきている。

　従来、画像中の物体を認識する種々の技術が開示されているが、画像の検索に基づく典型的な手続きを特許文献１に従って概説する。まず、画像から特徴的な部分領域を多数検出し、各部分領域の特徴を実数値又は整数値からなる特徴量ベクトルとして表現する。この特徴量ベクトルは、一般には、「局所特徴量」と呼ばれる。局所特徴量としては、非特許文献１に記載のＳｃａｌｅＩｎｖａｒｉａｎｔＦｅａｔｕｒｅＴｒａｎｓｆｏｒｍ（ＳＩＦＴ）が用いられることが多い。次に、互いに異なる二つの画像に含まれる部分領域について特徴量ベクトルを比較し、同一性を判定する。同一な物の数が多ければ、この二枚の画像は類似しており同一の物体を含む可能性が高く、小さければ低いと言える。認識したい物体を含む画像を参照画像として参照画像データベースを構築し、新たに入力された画像をクエリ画像として同一の物体が写っている参照画像を検索することにより、クエリ画像中に存在する物体を特定することができる。

　他にも、非特許文献２には、畳み込みニューラルネットワーク（ＣＮＮ：Ｃｏｎｖｏｌｕｔｉｏｎａｌ　Ｎｅｕｒａｌ　Ｎｅｔｗｏｒｋ）を用いる方法が開示されている。画像からＣＮＮを用いて特徴量ベクトルを抽出する。次に、互いに異なる二つの画像に含まれる特徴量ベクトル同士の類似度としてコサイン類似度などを計算することで検索を行う。基準画像、基準画像と類似する画像、及び、基準画像と類似しない画像からなる３つ組の学習データを用いてＣＮＮの学習を行う。ＣＮＮの学習は、類似する画像の特徴量ベクトル間の距離ｄｐと、類似しない画像の特徴量ベクトル間の距離ｄｎとから求める損失関数１／２×ｍａｘ（０，ｄｐ－ｄｎ＋ｍ）が小さくなるように行う。ｍは距離の差であるマージンを表す固定値のパラメータである。

　また、前述の複数の検索方法による検索結果を統合することにより検索を行う方法が一般的に知られている。例えば、クエリ画像と参照画像との間の類似度において、局所特徴量を用いて算出した類似度ｘと、ＣＮＮを用いて算出した類似度ｙを、双方の類似度の重み付き線形和ａｘ＋ｂｙで統合して最終的な類似度を算出し、最終的な類似度に応じた検索結果を出力する。相補的となる複数の検索方法を統合することによる精度向上効果が広く知られている。

D.G.Lowe. Distinctive Image Features from Scale-Invariant Keypoints, International Journal of Computer Vision, pp.91-110, 2004. A. Gordo, J. Almazan, J. Revaud, and D. Larlus. End-to-endlearning of deep visual representations for image retrieval, IJCV,pp.1-18, 2017.

特開２０１７－１６５０１号公報

　しかしながら、非特許文献２に記載されるＣＮＮを用いる方法は、ＣＮＮ単体での検索を前提としたものであり、特許文献１などの他の検索方法との統合を考慮していない。そのため、ＣＮＮによる検索を含む複数の検索方法を統合しても、各検索方法が不得手とする物体画像が一致した場合、異なる物体が検索されてしまい、検索精度が低下するという課題がある。

　開示の技術は、上記事情を鑑みて成されたものであり、複数の画像検索方法を相補的に統合することで画像に含まれる物体を精度よく検索することができる検索装置、検索方法、及び検索プログラムを提供することを目的とする。

　また、複数の画像検索方法を相補的に統合することで画像に含まれる物体を精度よく検索するためのニューラルネットワークを学習することができる学習装置、学習方法、及び学習プログラムを提供することを目的とする。

　本開示の第１態様は、検索装置であって、検索対象のクエリ画像を入力として、予め学習された、特徴量ベクトルを出力する特徴抽出処理によって前記クエリ画像から抽出される特徴量ベクトルと、前記特徴抽出処理によってラベルが付与された参照画像の各々から抽出される特徴量ベクトルとの、特徴ベクトル間の類似度である第一類似度を計算する第一検索部と、前記クエリ画像の前記特徴量ベクトルとは異なる特徴に関する情報と、前記参照画像の各々の前記特徴に関する情報とに基づいて、前記特徴に関する情報を用いた類似度である第二類似度を計算する第二検索部と、前記第一検索部によって計算された前記第一類似度と、前記第二検索部によって計算された前記第二類似度とを統合した統合類似度を計算する統合部と、を含み、前記第一検索部の特徴抽出処理は、前記参照画像の各々における基準画像と、前記基準画像に類似する類似画像と、前記基準画像に類似しない非類似画像との間の類似度について、前記基準画像と前記類似画像との前記第二類似度に対する、前記基準画像と前記非類似画像との前記第二類似度が大きくなるほど、前記基準画像と前記類似画像との第二類似度及び前記基準画像と前記非類似画像との第二類似度に基づくマージンが大きくなるように、少なくとも学習されている。

　本開示の第２態様は、学習装置であって、ラベルが付与された参照画像の各々についての特徴量ベクトルとは異なる特徴に関する情報を用いて、前記参照画像間の組み合わせについて、前記特徴に関する情報を用いた類似度である第二類似度を計算する第二検索部と、前記参照画像のうち、前記ラベルの基準とする基準画像、前記基準画像に類似する前記参照画像を類似画像、及び前記基準画像に類似しない前記参照画像を非類似画像として、所定の画像を入力として特徴量ベクトルを出力するニューラルネットワークから出力される、前記基準画像の特徴量ベクトルと前記類似画像の特徴量ベクトルとの第一類似度及び前記基準画像の特徴量ベクトルと前記非類似画像の特徴量ベクトルとの第一類似度と、前記基準画像と前記類似画像との第二類似度及び前記基準画像と前記非類似画像との第二類似度に基づくマージンとを含む損失関数を用いて、前記基準画像と前記類似画像との前記第二類似度に対する、前記基準画像と前記非類似画像との前記第二類似度が大きくなるほど、マージンが大きくなるように、前記ニューラルネットワークのパラメータを更新するパラメータ更新部と、を含む。

　本開示の第３態様は、検索方法であって、検索対象のクエリ画像を入力として、予め学習された、特徴量ベクトルを出力する特徴抽出処理によって前記クエリ画像から抽出される特徴量ベクトルと、前記特徴抽出処理によってラベルが付与された参照画像の各々から抽出される特徴量ベクトルとの、特徴ベクトル間の類似度である第一類似度を計算し、前記クエリ画像の前記特徴量ベクトルとは異なる特徴に関する情報と、前記参照画像の各々の前記特徴に関する情報とに基づいて、前記特徴に関する情報を用いた類似度である第二類似度を計算し、前記計算された前記第一類似度と、前記計算された前記第二類似度とを統合した統合類似度を計算し、前記特徴抽出処理は、前記参照画像の各々における基準画像と、前記基準画像に類似する類似画像と、前記基準画像に類似しない非類似画像との間の類似度について、前記基準画像と前記類似画像との前記第二類似度に対する、前記基準画像と前記非類似画像との前記第二類似度が大きくなるほど、前記基準画像と前記類似画像との第二類似度及び前記基準画像と前記非類似画像との第二類似度に基づくマージンが大きくなるように、少なくとも学習されている、ことを含む処理をコンピュータが実行することを特徴とする。

　本開示の第４態様は、学習方法であって、ラベルが付与された参照画像の各々についての特徴量ベクトルとは異なる特徴に関する情報を用いて、前記参照画像間の組み合わせについて、前記特徴に関する情報を用いた類似度である第二類似度を計算し、前記参照画像のうち、前記ラベルの基準とする基準画像、前記基準画像に類似する前記参照画像を類似画像、及び前記基準画像に類似しない前記参照画像を非類似画像として、所定の画像を入力として特徴量ベクトルを出力するニューラルネットワークから出力される、前記基準画像の特徴量ベクトルと前記類似画像の特徴量ベクトルとの第一類似度及び前記基準画像の特徴量ベクトルと前記非類似画像の特徴量ベクトルとの第一類似度と、前記基準画像と前記類似画像との第二類似度及び前記基準画像と前記非類似画像との第二類似度に基づくマージンとを含む損失関数を用いて、前記基準画像と前記類似画像との前記第二類似度に対する、前記基準画像と前記非類似画像との前記第二類似度が大きくなるほど、マージンが大きくなるように、前記ニューラルネットワークのパラメータを更新する、ことを含む処理をコンピュータが実行することを特徴とする。

　本開示の第５態様は、検索プログラムであって、第３態様の検索方法と同様の処理をコンピュータに実行させる。

　本開示の第６態様は、学習プログラムであって、第４態様の学習方法と同様の処理をコンピュータに実行させる。

　開示の技術の検索装置、検索方法、及び検索プログラムによれば、複数の画像検索方法を相補的に統合することで画像に含まれる物体を精度よく検索することができる、という効果が得られる。

　開示の技術の学習装置、学習方法、及び学習プログラムによれば、複数の画像検索方法を相補的に統合することで画像に含まれる物体を精度よく検索するためのニューラルネットワークを学習することができる、という効果が得られる。

本実施形態の学習装置の構成を示すブロック図である。学習装置及び検索装置のハードウェア構成を示すブロック図である。本実施形態の検索装置の構成を示すブロック図である。学習装置による学習処理の流れを示すフローチャートである。検索装置による検索処理の流れを示すフローチャートである。

　以下、開示の技術の実施形態の一例を、図面を参照しつつ説明する。なお、各図面において同一又は等価な構成要素及び部分には同一の参照符号を付与している。また、図面の寸法比率は、説明の都合上誇張されており、実際の比率とは異なる場合がある。

　以下、本実施形態の構成及び作用について説明する。

＜学習装置の構成＞
　図１は、本実施形態の学習装置の構成を示すブロック図である。

　図１に示すように、学習装置１は、第二検索部１１と、パラメータ更新部１２と、記憶部１３とを含んで構成されている。第二検索部１１は、後述する検索装置の第一検索部及び第二検索部のうちの第二検索部に対応しており、特徴量ベクトルとは異なる特徴に関する情報を用いて第二類似度計算する処理を行う。

　学習装置１は、データベース２と通信手段を介して接続されて相互に情報通信する。データベース２は、例えば、一般的な汎用コンピュータに実装されているファイルシステムによって構成できる。本実施形態では、一例としてデータベース２には、画像集合３の参照画像、及び参照画像に関する各種データが予め格納されている。本実施形態では、画像集合３の各参照画像それぞれを一意に識別可能な、通し番号によるＩＤ（Ｉｄｅｎｔｉｆｉｃａｔｉｏｎ）やユニークな画像ファイル名等の識別子が与えられている。また、データベース２は、各々の参照画像について、当該参照画像の識別子と、当該参照画像の画像データとを関連づけて記憶している。あるいは、データベース２は、同様に、ＲＤＢＭＳ（Ｒｅｌａｔｉｏｎａｌ　Ｄａｔａｂａｓｅ　Ｍａｎａｇｅｍｅｎｔ　Ｓｙｓｔｅｍ）等で実装、構成されていても構わない。データベース２が記憶する情報は、その他、メタデータとして、例えば参照画像の内容を表現する情報（参照画像のタイトル、概要文、又はキーワード等）、参照画像のフォーマットに関する情報（参照画像のデータ量、サムネイル等のサイズ）等を含んでいても構わない。ただし、これらの情報の記憶は本開示の実施においては必須ではない。

　データベース２は、学習装置１の内部及び外部の何れに設けられていても構わず、通信手段は任意の公知の手法を用いる。なお、本実施形態では、データベース２は、学習装置１の外部に設けられている。データベース２は、インターネット、及びＴＣＰ／ＩＰ（Ｔｒａｎｓｍｉｓｓｉｏｎ　Ｃｏｎｔｒｏｌ　Ｐｒｏｔｏｃｏｌ／Ｉｎｔｅｒｎｅｔ　Ｐｒｏｔｏｃｏｌ）等のネットワークを通信手段として学習装置１と通信可能に接続されている。

　画像集合３は、参照画像に含まれる特定対象物を表すラベルが付与された参照画像群である。ラベルは、例えば、整数とし、参照画像に含まれる特定対象物が同一であるものは同じ整数を割り当てればよい。また、画像集合３は、各々のラベルが付与された参照画像が少なくとも２枚は含まれて構成されているものとする。以下の処理において、画像集合３の各参照画像はデータベース２から読み出される。

　次に、学習装置１のハードウェア構成を説明する。図２は、学習装置１のハードウェア構成を示すブロック図である。

　図２に示すように、学習装置１は、ＣＰＵ（Ｃｅｎｔｒａｌ　Ｐｒｏｃｅｓｓｉｎｇ　Ｕｎｉｔ）２１、ＲＯＭ（Ｒｅａｄ　Ｏｎｌｙ　Ｍｅｍｏｒｙ）２２、ＲＡＭ（Ｒａｎｄｏｍ　Ａｃｃｅｓｓ　Ｍｅｍｏｒｙ）２３、ストレージ２４、入力部２５、表示部２６及び通信インタフェース（Ｉ／Ｆ）２７を有する。各構成は、バス２９を介して相互に通信可能に接続されている。

　ＣＰＵ２１は、中央演算処理ユニットであり、各種プログラムを実行したり、各部を制御したりする。すなわち、ＣＰＵ２１は、ＲＯＭ２２又はストレージ２４からプログラムを読み出し、ＲＡＭ２３を作業領域としてプログラムを実行する。ＣＰＵ２１は、ＲＯＭ２２又はストレージ２４に記憶されているプログラムに従って、上記各構成の制御及び各種の演算処理を行う。本実施形態では、ＲＯＭ２２又はストレージ２４には、学習プログラムが格納されている。

　ＲＯＭ２２は、各種プログラム及び各種データを格納する。ＲＡＭ２３は、作業領域として一時的にプログラム又はデータを記憶する。ストレージ２４は、ＨＤＤ（Ｈａｒｄ　Ｄｉｓｋ　Ｄｒｉｖｅ）又はＳＳＤ（Ｓｏｌｉｄ　Ｓｔａｔｅ　Ｄｒｉｖｅ）により構成され、オペレーティングシステムを含む各種プログラム、及び各種データを格納する。

　入力部２５は、マウス等のポインティングデバイス、及びキーボードを含み、各種の入力を行うために使用される。

　表示部２６は、例えば、液晶ディスプレイであり、各種の情報を表示する。表示部２６は、タッチパネル方式を採用して、入力部２５として機能してもよい。

　通信インタフェース２７は、端末等の他の機器と通信するためのインタフェースであり、例えば、イーサネット（登録商標）、ＦＤＤＩ、Ｗｉ－Ｆｉ（登録商標）等の規格が用いられる。

　次に、学習装置１の各機能構成について説明する。各機能構成は、ＣＰＵ２１がＲＯＭ２２又はストレージ２４に記憶された学習プログラムを読み出し、ＲＡＭ２３に展開して実行することにより実現される。

　記憶部１３には、ニューラルネットワークとして、所定の画像を入力として特徴量ベクトルを出力するＣＮＮ、及びＣＮＮのパラメータを格納しておく。本実施形態のＣＮＮは、画像を入力として固定次元の特徴量ベクトルを出力するものであれば限定されず、各層の構成は任意の公知の物を用いてよい。例えば、非特許文献２に記載のＶＧＧ１６、ＲｅｓＮｅｔ１０１などから全結合層を取り除いた構成を用いればよい。また、既存の適当な学習パラメータ、又はその一部を、ＣＮＮのパラメータの初期値として用いてもよい。以下、ＣＮＮに関する処理は記憶部１３のＣＮＮについて読み出し及び更新される。

　第二検索部１１は、ラベルが付与された参照画像の各々についての特徴量ベクトルとは異なる特徴に関する情報を用いて、参照画像間の組み合わせについて、特徴に関する情報を用いた類似度である第二類似度を計算する。特徴に関する情報における特徴は、以下に説明するように特徴量ベクトルとは異なる特徴である。

　第二検索部１１は、データベース２に記憶されている画像集合３の各参照画像を読み出して、各参照画像ペア間の類似度を算出して第二類似度として出力する。類似度としては、任意の手法で求めることができる。例えば、非特許文献１に記載されるＳＩＦＴのような局所特徴量を画像集合３の各参照画像から算出し、特許文献１に記載される局所特徴量のマッチングによる類似度の算出を行ってもよい。また、画像集合３の各参照画像がメタデータを持つ場合、それらを用いて類似度の算出を行ってもよい。例えば、付与されたキーワードの関連度や、概要文の類似度などを利用可能である。これらの局所特徴量などは、特徴量ベクトルとは異なる特徴であり、これらを特徴に関する情報として用いる。

　パラメータ更新部１２は、損失関数を用いて、基準画像と類似画像との第二類似度に対する、基準画像と非類似画像との第二類似度が大きくなるほど、マージンが大きくなるように、ＣＮＮのパラメータを更新する。ここで、各参照画像は、基準画像、基準画像に類似する類似画像、及び基準画像に類似しない非類似画像は分けられる。基準画像、類似画像、及び非類似画像は、参照画像のラベルから判別され、基準画像と同一のラベルの参照画像を類似画像とし、同一でないラベルの参照画像を非類似画像とする。以下、第二検索部１１の具体的な手法を説明する。以下、パラメータ更新部１２の具体的な手法を説明する。

　パラメータ更新部１２は、各参照画像を読み出してＣＮＮへの入力として、ＣＮＮのパラメータを用いた畳み込みを行い、固定の次元を持つ特徴量ベクトルを抽出して獲得する。そして、参照画像間の特徴ベクトルの類似度を第一類似度として算出する。ここで獲得する第一類似度は、基準画像の特徴量ベクトルと類似画像の特徴量ベクトルとの第一類似度、及び基準画像の特徴量ベクトルと非類似画像の特徴量ベクトルとの第一類似度である。

　損失関数は、基準画像の特徴量ベクトルと類似画像の特徴量ベクトルとの第一類似度及び基準画像の特徴量ベクトルと非類似画像の特徴量ベクトルとの第一類似度と、マージンとを含む。マージンは、後述する式（２）で示される、基準画像と類似画像との第二類似度、及び基準画像と非類似画像との第二類似度に基づくマージンである。

　損失関数は、以下式（１）に示すように、マージンｍを含む任意の関数を用いればよい。本実施形態においては、式（１）で表される非特許文献２に記載のＴｒｉｐｌｅｔ　Ｌｏｓｓを用いる場合を説明する。

・・・（１）

　ｄ_ｐは基準画像の特徴量ベクトルと、基準画像と類似する類似画像の特徴量ベクトルとの距離、ｄ_ｎは基準画像の特徴量ベクトルと、基準画像と類似しない非類似画像の特徴量ベクトルとの距離である。距離としては、Ｌ１距離、Ｌ２距離など特徴量ベクトル間の距離を測る任意の尺度を用いればよい。ｍは距離の差であるマージンを表し、本実施形態においては、例えば下記式（２）で求められる。

・・・（２）

　ｓ_ｐは基準画像と類似画像との第二類似度、ｓ_ｎは基準画像と非類似画像との第二類似度である。ｍ_０はマージンの基準となる基準マージンであり、例えば、０．１などとすればよい。λは第二類似度の影響度合いを表すパラメータで、第二類似度に合わせてチューニングする。例えば、第二類似度が－１．０～１．０の値域で、ｍ_０が０．１であれば、λ＝０．０５などとすればよい。

　パラメータ更新部１２は、基準画像、類似画像、及び非類似画像の３つ組ごとに式（２）で求めたマージンｍを用いた式（１）の損失関数を用いて、ＣＮＮのパラメータを最適化する。これにより、基準画像と非類似画像との第二類似度が高い場合にはマージンを大きく、低い場合にはマージンを小さくすることが可能となり、第二類似度と相補的になるようＣＮＮのパラメータを更新することができる。

　また、ＣＮＮ以外の方法による類似度は複数あってもよく、式（２）の１項と同様の項を式（２）追加することで対応可能である。

　また、基準画像、類似画像、及び非類似画像の３つ組ごとに式（２）で求めたマージンを用いるのではなく、基準画像に付与されたラベル毎に上記マージンを平均化して用いても良い。この場合、第二類似度の外れ値に対して頑健に学習することができる。

　また、必ずしも全ての３つ組に対して式（１）の損失関数で学習する必要はなく、基準画像と非類似画像の第二類似度が大きい組のみを用いて学習を行っても良い。例えば、３つ組について、第二類似度ｓ_ｐに対する、第二類似度ｓ_ｎが事前に定めた閾値以上であって、かつ、式（２）のマージンｍが閾値以上の場合に、当該３つ組のみを用いて、損失関数により学習を行う、などとしてもよい。

　パラメータ更新部１２は、上記の損失関数を最適化するように、ＣＮＮのパラメータに逆伝搬することによりＣＮＮのパラメータを学習し、更新したパラメータを記憶部１３へ格納する。

＜検索装置の構成＞
　次に、本実施形態に係る検索装置の構成について説明する。検索装置は、検索対象のクエリ画像を検索キーとして参照画像との類似度を算出する。

　図３は、本実施形態の検索装置の構成を示すブロック図である。

　図３に示すように、検索装置１０１は、第一検索部１１０と、第二検索部１１１と、統合部１１２と、記憶部１１３とを含んで構成されている。

　検索装置１０１は、データベース１０２と通信手段を介して接続されて相互に情報通信する。データベース１０２は、上記データベース２と同様の構成であり、ラベルが付与された参照画像である画像集合１０４を記憶している。また、参照画像として画像集合１０４の画像を用いる必要は必ずしもなく、別途参照画像とする画像を格納してもよい。

　記憶部１１３には、上記の学習装置１で学習されたＣＮＮのパラメータが記憶されている。本実施形態の検索装置１０１で用いるＣＮＮは、上述した学習装置１について説明したＣＮＮである。ＣＮＮは第一検索部１１０で用いられ、パラメータの学習によって、第二検索部１１１が算出する第二類似度と相補的になるよう学習された学習済みニューラルネットワークである。予め学習された、特徴量ベクトルを出力する特徴抽出処理が、所定の画像を入力として特徴量ベクトルを出力するＣＮＮのパラメータである。

　なお、検索装置１０１も学習装置１と同様のハードウェア構成によって構成できる。図２に示すように、検索装置１０１は、ＣＰＵ３１、ＲＯＭ３２、ＲＡＭ３３、ストレージ３４、入力部３５、表示部３６及び通信Ｉ／Ｆ３７を有する。各構成は、バス３９を介して相互に通信可能に接続されている。ＲＯＭ３２又はストレージ３４には、検索プログラムが格納されている。

　第一検索部１１０は、検索対象のクエリ画像１０３を入力として、クエリ画像１０３から抽出される特徴量ベクトルと、参照画像の各々から抽出される特徴量ベクトルとの、第一類似度を計算する。第一類似度は、学習装置１と同様に特徴ベクトル間の類似度である。特徴ベクトルは、予め学習されたＣＮＮの処理によって抽出する。ＣＮＮの処理が、予め学習された特徴抽出処理の一例である。第一検索部１１０で用いるＣＮＮの処理は、基準画像と、類似画像と、非類似画像との間の類似度について、基準画像と類似画像との第二類似度に対する、基準画像と非類似画像との第二類似度が大きくなるほど、マージンが大きくなるように学習されている。また、ＣＮＮの処理は、上述したように、閾値を用いて組を絞り込んで学習される態様もある。以下に第一類似度の計算態様を説明する。

　第一検索部１１０は、データベース１０２に格納された画像集合１０４の各参照画像と、クエリ画像１０３とを受け取ったもとで、記憶部１１３に記憶されたＣＮＮのパラメータを用いて特徴量ベクトルを抽出する。特徴量ベクトルの抽出は、上述した学習装置１について説明したパラメータ更新部１２における特徴量ベクトルの抽出と同様の手法を用いる。そして、第一検索部１１０は、クエリ画像１０３の特徴量ベクトルと、画像集合１０４の各参照画像の特徴量ベクトルとの類似度を算出し、第一類似度として出力する。類似度の算出は、特徴量ベクトル間の類似度を算出する任意の尺度を用いてよい。例えば、コサイン類似度などを用いる。また、各参照画像の特徴量ベクトルは、データベース１０２に格納された画像集合１０４の各参照画像の特徴量ベクトルを事前に抽出し、データベース１０２に格納しておき、それを用いても良い。

　第二検索部１１１は、クエリ画像１０３の特徴に関する情報と、参照画像の各々の特徴に関する情報とに基づいて、第二類似度を計算する。特徴に関する情報は、特徴量ベクトルとは異なる特徴に関する情報を用いた類似度であり、例えば、特徴に関する情報として、上述したＳＩＦＴ等の局所特徴量を用いる。以下に第二類似度の計算態様を説明する。

　第二検索部１１１は、データベース１０２に格納された画像集合１０４の各参照画像と、クエリ画像１０３とを受け取ったもとで、クエリ画像１０３と、画像集合１０４の各画像との類似度を算出して第二類似度として出力する。類似度としては、上述した学習装置１について説明した第二検索部１１における類似度と同様、例えばＳＩＦＴのような局所特徴量を用いる。各参照画像の第二類似度は、局所特徴量を用いる場合、データベース１０２に格納された画像集合１０４の各参照画像の局所特徴量を事前に抽出し、データベース１０２に格納しておき、それを用いても良い。

　統合部１１２は、第一検索部１１０によって計算された第一類似度と、第二検索部１１１によって計算された第二類似度とを統合した統合類似度を計算し、検索結果１０５として出力する。具体的には、第一類似度ｘと、第二類似度ｙを、双方の類似度の重み付き線形和ａｘ＋ｂｙで統合した類似度を統合類似度とする。統合類似度は、クエリ画像１０３と参照画像の各々とについて計算し、統合類似度が閾値以上の参照画像を検索結果１０５とすればよい。また、類似度の統合は任意の方法で代替可能である。例えば、ＳＶＭやＲａｎｋ－ＳＶＭで結合することで類似度を統合してもよい。上記統合類似度と、対応する参照画像に紐付く情報（通し番号によるＩＤなど）を、検索結果１０５として出力する。

＜学習装置の作用＞
　次に、学習装置１の作用について説明する。

　図４は、学習装置１による学習処理の流れを示すフローチャートである。ＣＰＵ２１がＲＯＭ２２又はストレージ２４から学習プログラムを読み出して、ＲＡＭ２３に展開して実行することにより、学習処理が行なわれる。

　ステップＳ１００で、ＣＰＵ２１は、ラベルが付与された参照画像の各々についての特徴に関する情報を用いて、参照画像間の組み合わせについて、特徴に関する情報を用いた類似度である第二類似度を計算する。特徴に関する情報における特徴は、特徴量ベクトルとは異なる特徴であり、例えば、ＳＦＩＴ等の局所特徴量を用いる。

　ステップＳ１０２において、ＣＰＵ２１は、損失関数を用いて、基準画像と類似画像との第二類似度に対する、基準画像と非類似画像との第二類似度が大きくなるほど、マージンが大きくなるように、ＣＮＮのパラメータを更新する。損失関数は、基準画像の特徴量ベクトルと類似画像の特徴量ベクトルとの第一類似度及び基準画像の特徴量ベクトルと非類似画像の特徴量ベクトルとの第一類似度と、マージンとを含む。マージンは、基準画像と類似画像との第二類似度、及び基準画像と非類似画像との第二類似度に基づくマージンである。

　以上説明したように本実施形態の学習装置１によれば、複数の画像検索方法を相補的に統合することで画像に含まれる物体を精度よく検索するためのニューラルネットワークを学習することができる。

＜検索装置の作用＞
　次に、検索装置１０１の作用について説明する。

　図５は、検索装置１０１による学習処理の流れを示すフローチャートである。ＣＰＵ３１がＲＯＭ３２又はストレージ３４から学習プログラムを読み出して、ＲＡＭ３３に展開して実行することにより、学習処理が行なわれる。

　ステップＳ２００で、ＣＰＵ３１は、検索対象のクエリ画像１０３を入力として、クエリ画像１０３から抽出される特徴量ベクトルと、参照画像の各々から抽出される特徴量ベクトルとの、第一類似度を計算する。特徴ベクトルは、予め学習されたＣＮＮの処理によって抽出する。ここで用いるＣＮＮの処理は、基準画像と、類似画像と、非類似画像との間の類似度について、基準画像と類似画像との第二類似度に対する、基準画像と非類似画像との第二類似度が大きくなるほど、マージンが大きくなるように学習されている。

　ステップＳ２０２で、ＣＰＵ３１は、クエリ画像１０３の特徴に関する情報と、参照画像の各々の特徴に関する情報とに基づいて、第二類似度を計算する。特徴に関する情報における特徴は、特徴量ベクトルとは異なる特徴であり、例えば、ＳＩＦＴ等の局所特徴量を用いる。

　ステップＳ２０４で、ＣＰＵ３１は、ステップＳ２００で計算された第一類似度と、ステップＳ２０２で計算された第二類似度とを統合した統合類似度を計算し、検索結果１０５として出力する。

　以上説明したように本実施形態の検索装置１０１によれば、複数の画像検索方法を相補的に統合することで画像に含まれる物体を精度よく検索することができる。

　なお、上記各実施形態でＣＰＵがソフトウェア（プログラム）を読み込んで実行した学習処理又は検索処理を、ＣＰＵ以外の各種のプロセッサが実行してもよい。この場合のプロセッサとしては、ＦＰＧＡ（Ｆｉｅｌｄ－Ｐｒｏｇｒａｍｍａｂｌｅ　Ｇａｔｅ　Ａｒｒａｙ）等の製造後に回路構成を変更可能なＰＬＤ（Ｐｒｏｇｒａｍｍａｂｌｅ　Ｌｏｇｉｃ　Ｄｅｖｉｃｅ）、及びＡＳＩＣ（Ａｐｐｌｉｃａｔｉｏｎ　Ｓｐｅｃｉｆｉｃ　Ｉｎｔｅｇｒａｔｅｄ　Ｃｉｒｃｕｉｔ）等の特定の処理を実行させるために専用に設計された回路構成を有するプロセッサである専用電気回路等が例示される。また、学習処理又は検索処理を、これらの各種のプロセッサのうちの１つで実行してもよいし、同種又は異種の２つ以上のプロセッサの組み合わせ（例えば、複数のＦＰＧＡ、及びＣＰＵとＦＰＧＡとの組み合わせ等）で実行してもよい。また、これらの各種のプロセッサのハードウェア的な構造は、より具体的には、半導体素子等の回路素子を組み合わせた電気回路である。

　また、上記各実施形態では、学習プログラムがストレージ２４に予め記憶（インストール）されている態様を説明したが、これに限定されない。プログラムは、ＣＤ－ＲＯＭ（Ｃｏｍｐａｃｔ　Ｄｉｓｋ　Ｒｅａｄ　Ｏｎｌｙ　Ｍｅｍｏｒｙ）、ＤＶＤ－ＲＯＭ（Ｄｉｇｉｔａｌ　Ｖｅｒｓａｔｉｌｅ　Ｄｉｓｋ　Ｒｅａｄ　Ｏｎｌｙ　Ｍｅｍｏｒｙ）、及びＵＳＢ（Ｕｎｉｖｅｒｓａｌ　Ｓｅｒｉａｌ　Ｂｕｓ）メモリ等の非一時的（ｎｏｎ－ｔｒａｎｓｉｔｏｒｙ）記憶媒体に記憶された形態で提供されてもよい。また、プログラムは、ネットワークを介して外部装置からダウンロードされる形態としてもよい。検索プログラムに関しても同様である。

　以上の実施形態に関し、更に以下の付記を開示する。

　（付記項１）
　メモリと、
　前記メモリに接続された少なくとも１つのプロセッサと、
　を含み、
　前記プロセッサは、
　検索対象のクエリ画像を入力として、予め学習された、特徴量ベクトルを出力する特徴抽出処理によって前記クエリ画像から抽出される特徴量ベクトルと、前記特徴抽出処理によってラベルが付与された参照画像の各々から抽出される特徴量ベクトルとの、特徴ベクトル間の類似度である第一類似度を計算し、
　前記クエリ画像の前記特徴量ベクトルとは異なる特徴に関する情報と、前記参照画像の各々の前記特徴に関する情報とに基づいて、前記特徴に関する情報を用いた類似度である第二類似度を計算し、
　前記第一検索部によって計算された前記第一類似度と、前記第二検索部によって計算された前記第二類似度とを統合した統合類似度を計算し、
　前記特徴抽出処理は、前記参照画像の各々における基準画像と、前記基準画像に類似する類似画像と、前記基準画像に類似しない非類似画像との間の類似度について、前記基準画像と前記類似画像との前記第二類似度に対する、前記基準画像と前記非類似画像との前記第二類似度が大きくなるほど、前記基準画像と前記類似画像との第二類似度及び前記基準画像と前記非類似画像との第二類似度に基づくマージンが大きくなるように、少なくとも学習されている、
　ように構成されている検索装置。

　（付記項２）
　検索対象のクエリ画像を入力として、予め学習された、特徴量ベクトルを出力する特徴抽出処理によって前記クエリ画像から抽出される特徴量ベクトルと、前記特徴抽出処理によってラベルが付与された参照画像の各々から抽出される特徴量ベクトルとの、特徴ベクトル間の類似度である第一類似度を計算し、
　前記クエリ画像の前記特徴量ベクトルとは異なる特徴に関する情報と、前記参照画像の各々の前記特徴に関する情報とに基づいて、前記特徴に関する情報を用いた類似度である第二類似度を計算し、
　前記第一検索部によって計算された前記第一類似度と、前記第二検索部によって計算された前記第二類似度とを統合した統合類似度を計算し、
　前記特徴抽出処理は、前記参照画像の各々における基準画像と、前記基準画像に類似する類似画像と、前記基準画像に類似しない非類似画像との間の類似度について、前記基準画像と前記類似画像との前記第二類似度に対する、前記基準画像と前記非類似画像との前記第二類似度が大きくなるほど、前記基準画像と前記類似画像との第二類似度及び前記基準画像と前記非類似画像との第二類似度に基づくマージンが大きくなるように、少なくとも学習されている、
　ことをコンピュータに実行させる検索プログラムを記憶した非一時的記憶媒体。

１     学習装置
２     データベース
３     画像集合
１１   第二検索部
１２   パラメータ更新部
１３   記憶部
１０１検索装置
１０２データベース
１０３クエリ画像
１０４画像集合
１０５検索結果
１１０第一検索部
１１１第二検索部
１１２統合部
１１３記憶部

Claims

　検索対象のクエリ画像を入力として、予め学習された、特徴量ベクトルを出力する特徴抽出処理によって前記クエリ画像から抽出される特徴量ベクトルと、前記特徴抽出処理によってラベルが付与された参照画像の各々から抽出される特徴量ベクトルとの、特徴ベクトル間の類似度である第一類似度を計算する第一検索部と、
　前記クエリ画像の前記特徴量ベクトルとは異なる特徴に関する情報と、前記参照画像の各々の前記特徴に関する情報とに基づいて、前記特徴に関する情報を用いた類似度である第二類似度を計算する第二検索部と、
　前記第一検索部によって計算された前記第一類似度と、前記第二検索部によって計算された前記第二類似度とを統合した統合類似度を計算する統合部と、を含み、
　前記第一検索部の特徴抽出処理は、前記参照画像の各々における基準画像と、前記基準画像に類似する類似画像と、前記基準画像に類似しない非類似画像との間の類似度について、前記基準画像と前記類似画像との前記第二類似度に対する、前記基準画像と前記非類似画像との前記第二類似度が大きくなるほど、前記基準画像と前記類似画像との第二類似度及び前記基準画像と前記非類似画像との第二類似度に基づくマージンが大きくなるように、少なくとも学習されている検索装置。
　ラベルが付与された参照画像の各々についての特徴量ベクトルとは異なる特徴に関する情報を用いて、前記参照画像間の組み合わせについて、前記特徴に関する情報を用いた類似度である第二類似度を計算する第二検索部と、
　前記参照画像のうち、前記ラベルの基準とする基準画像、前記基準画像に類似する前記参照画像を類似画像、及び前記基準画像に類似しない前記参照画像を非類似画像として、
　所定の画像を入力として特徴量ベクトルを出力するニューラルネットワークから出力される、前記基準画像の特徴量ベクトルと前記類似画像の特徴量ベクトルとの第一類似度及び前記基準画像の特徴量ベクトルと前記非類似画像の特徴量ベクトルとの第一類似度と、前記基準画像と前記類似画像との第二類似度及び前記基準画像と前記非類似画像との第二類似度に基づくマージンとを含む損失関数を用いて、前記基準画像と前記類似画像との前記第二類似度に対する、前記基準画像と前記非類似画像との前記第二類似度が大きくなるほど、マージンが大きくなるように、前記ニューラルネットワークのパラメータを更新するパラメータ更新部と、
　を含む学習装置。
　前記パラメータ更新部は、前記基準画像、前記類似画像、及び前記非類似画像の３つ組について、前記基準画像と前記類似画像との前記第二類似度に対する、前記基準画像と前記非類似画像との前記第二類似度が閾値以上であって、かつ、前記マージンが閾値以上である前記組のみを用いた、前記損失関数により前記ニューラルネットワークのパラメータを更新する請求項２に記載の学習装置。
　検索対象のクエリ画像を入力として、予め学習された、特徴量ベクトルを出力する特徴抽出処理によって前記クエリ画像から抽出される特徴量ベクトルと、前記特徴抽出処理によってラベルが付与された参照画像の各々から抽出される特徴量ベクトルとの、特徴ベクトル間の類似度である第一類似度を計算し、
　前記クエリ画像の前記特徴量ベクトルとは異なる特徴に関する情報と、前記参照画像の各々の前記特徴に関する情報とに基づいて、前記特徴に関する情報を用いた類似度である第二類似度を計算し、
　前記計算された前記第一類似度と、前記計算された前記第二類似度とを統合した統合類似度を計算し、
　前記特徴抽出処理は、前記参照画像の各々における基準画像と、前記基準画像に類似する類似画像と、前記基準画像に類似しない非類似画像との間の類似度について、前記基準画像と前記類似画像との前記第二類似度に対する、前記基準画像と前記非類似画像との前記第二類似度が大きくなるほど、前記基準画像と前記類似画像との第二類似度及び前記基準画像と前記非類似画像との第二類似度に基づくマージンが大きくなるように、少なくとも学習されている、
　ことを含む処理をコンピュータが実行することを特徴とする検索方法。
　ラベルが付与された参照画像の各々についての特徴量ベクトルとは異なる特徴に関する情報を用いて、前記参照画像間の組み合わせについて、前記特徴に関する情報を用いた類似度である第二類似度を計算し、
　前記参照画像のうち、前記ラベルの基準とする基準画像、前記基準画像に類似する前記参照画像を類似画像、及び前記基準画像に類似しない前記参照画像を非類似画像として、
　所定の画像を入力として特徴量ベクトルを出力するニューラルネットワークから出力される、前記基準画像の特徴量ベクトルと前記類似画像の特徴量ベクトルとの第一類似度及び前記基準画像の特徴量ベクトルと前記非類似画像の特徴量ベクトルとの第一類似度と、前記基準画像と前記類似画像との第二類似度及び前記基準画像と前記非類似画像との第二類似度に基づくマージンとを含む損失関数を用いて、前記基準画像と前記類似画像との前記第二類似度に対する、前記基準画像と前記非類似画像との前記第二類似度が大きくなるほど、マージンが大きくなるように、前記ニューラルネットワークのパラメータを更新する、
　ことを含む処理をコンピュータが実行することを特徴とする学習方法。
　検索対象のクエリ画像を入力として、予め学習された、特徴量ベクトルを出力する特徴抽出処理によって前記クエリ画像から抽出される特徴量ベクトルと、前記特徴抽出処理によってラベルが付与された参照画像の各々から抽出される特徴量ベクトルとの、特徴ベクトル間の類似度である第一類似度を計算し、
　前記クエリ画像の前記特徴量ベクトルとは異なる特徴に関する情報と、前記参照画像の各々の前記特徴に関する情報とに基づいて、前記特徴に関する情報を用いた類似度である第二類似度を計算し、
　前記計算された前記第一類似度と、前記計算された前記第二類似度とを統合した統合類似度を計算し、
　前記特徴抽出処理は、前記参照画像の各々における基準画像と、前記基準画像に類似する類似画像と、前記基準画像に類似しない非類似画像との間の類似度について、前記基準画像と前記類似画像との前記第二類似度に対する、前記基準画像と前記非類似画像との前記第二類似度が大きくなるほど、前記基準画像と前記類似画像との第二類似度及び前記基準画像と前記非類似画像との第二類似度に基づくマージンが大きくなるように、少なくとも学習されている、
　ことをコンピュータに実行させる検索プログラム。
　ラベルが付与された参照画像の各々についての特徴量ベクトルとは異なる特徴に関する情報を用いて、前記参照画像間の組み合わせについて、前記特徴に関する情報を用いた類似度である第二類似度を計算し、
　前記参照画像のうち、前記ラベルの基準とする基準画像、前記基準画像に類似する前記参照画像を類似画像、及び前記基準画像に類似しない前記参照画像を非類似画像として、
　所定の画像を入力として特徴量ベクトルを出力するニューラルネットワークから出力される、前記基準画像の特徴量ベクトルと前記類似画像の特徴量ベクトルとの第一類似度及び前記基準画像の特徴量ベクトルと前記非類似画像の特徴量ベクトルとの第一類似度と、前記基準画像と前記類似画像との第二類似度及び前記基準画像と前記非類似画像との第二類似度に基づくマージンとを含む損失関数を用いて、前記基準画像と前記類似画像との前記第二類似度に対する、前記基準画像と前記非類似画像との前記第二類似度が大きくなるほど、マージンが大きくなるように、前記ニューラルネットワークのパラメータを更新する、
　ことをコンピュータに実行させる学習プログラム。