WO2021131248A1

WO2021131248A1 - 物体検索装置及び物体検索方法

Info

Publication number: WO2021131248A1
Application number: PCT/JP2020/038659
Authority: WO
Inventors: 田村　雅人; 智明吉永; 廣池　敦; 冠中前; 勇太梁島
Original assignee: 株式会社日立製作所
Priority date: 2019-12-24
Filing date: 2020-10-13
Publication date: 2021-07-01
Also published as: US20230005268A1; CN114641795A; EP4083906A1; JP7196058B2; JP2021101274A; EP4083906A4

Abstract

形状や凹凸に特徴のある物体の検索において、画像のみでそれらの情報を特徴量に表現し、正確な検索を行うことを可能とする物体検索装置を構成することを目的とする。　第一のニューラルネットワークで構成され、画像を入力して画像特徴量を抽出する画像特徴抽出部と、第二のニューラルネットワークで構成され、三次元データを入力して三次元データ特徴量を抽出する三次元データ特徴抽出部と、同一個体から得られた物体の画像と三次元データから、それぞれ画像特徴量と三次元データ特徴量を抽出し、前記画像特徴量と前記三次元データ特徴量との差分を減らすように画像特徴抽出用のパラメータを更新する学習部と、前記更新された画像特徴抽出用のパラメータを使用した画像特徴抽出部が物体のクエリ画像、及びギャラリー画像の画像特徴量を抽出し、両画像の画像特徴量の類似度を算出して物体を検索する検索部とを備えて構成する。

Description

物体検索装置及び物体検索方法

　本発明は、物体検索装置及び物体検索方法に関する。

　類似物体検索の用途として、監視システムがある。例えば検索対象を人物とした場合、人物検索を用いて、監視者の不審者追跡を補助できる。また、例えば検索対象を荷物とした場合、荷物検索を用いて、置き去りにされた荷物や不審な荷物を他所のカメラの画像に映っている荷物から追跡し、所有者を特定できる。このような用途においては、同一人物や同一荷物などの同一個体が検索結果の上位に出現することが好ましく、高精度な検索が求められる。

　本技術分野の背景技術として、特開２００９－２７３９３号公報（特許文献１）がある。該公報には、「１台以上のカメラなどの撮像機器から信号を取得する映像取得部と、映像取得部より取得した入力画像を保持する画像データ部を有する映像監視システムにおいて、入力画像から人物特徴，時間，カメラを指定する条件指定部と、画像データ部に保持した入力画像群から条件指定部で指定した条件に合致する画像を画像認識により検索する画像検索部と、画像検索部の結果を表示する結果表示部を有し、条件指定部にて指定する人物特徴をユーザ指定または人物追跡の方法により複数選択し、条件指定部の検索条件に加える手段を備える。」と記載されている。

特開２００９－２７３９３号公報特開２０１５－１７６４８４号公報

　監視システムで必要とされるような高精度な検索を行う方法として、特許文献１や特許文献２に記載されている方法がある。特許文献１では、画像を用いた検索方法が提案されている。近年は画像をConvolutional neural network (CNN) に入力して特徴量を抽出し、特徴量の類似度を計算する方法がよく用いられる。この方法では、同一個体について、照明環境や画像内での物体の位置や大きさが異なる様々な画像を用意し、それらの画像に対して類似する特徴量を抽出するようにCNNを学習しておく。この学習によってCNNは様々な画像の変化に対して頑強になり、高精度な検索を行うことができる。また、特許文献２では、三次元モデルを用いた検索方法が提案されている。三次元モデルを用いた検索では、深度情報を含む画像や点群データに対して、ローカルバイナリパターン（ＬＢＰ）などの古典的な特徴抽出やNeural network (NN)を用いて特徴量の抽出を行い、画像と同様にして特徴量の類似度を計算する。三次元モデルを用いることで、画像からは抽出することが困難であった形状や凹凸の特徴を抽出することができ、検索の精度を高めることができる。

　特許文献１に記載の画像を用いた検索や特許文献２に記載の三次元データを用いた検索は、有用である一方で課題が残されている。画像を用いた検索では、物体の立体的な形状や凹凸の情報が画像に含まれていないため、それらの情報を含めて検索を行うことができない。従って、例えば、検索対象に色が似ている一方で、凹凸模様に差がある複数の荷物がある場合、画像を用いた検索では誤った検索結果が出てしまう可能性が高くなる。三次元データを用いた検索では、精度の高い検索を行うために正確な三次元情報が必要である。深度カメラには、撮像対象の正確な三次元データを取得できる距離に制限があり、監視範囲によっては多数の深度カメラが必要になる。これにより、深度カメラの設置コストの問題が生じる。また、三次元データは画像と比較して処理するデータ量が増加するため、特徴抽出に時間がかかる。

　このような課題に対して、本発明は、三次元データから得られる形状や凹凸の情報を含む特徴量を、画像から推定して特徴抽出を行う方法を提案する。本発明を用いれば、形状や凹凸に特徴のある物体の検索において、画像のみでそれらの情報を特徴量に表現し、正確な検索を行うことを可能とする物体検索装置を構成することを目的とする。

　本発明の物体検索装置の好ましい例では、第一のニューラルネットワークで構成され、画像を入力して画像特徴量を抽出する画像特徴抽出部と、第二のニューラルネットワークで構成され、三次元データを入力して三次元データ特徴量を抽出する三次元データ特徴抽出部と、同一個体から得られた物体の画像と三次元データから、それぞれ画像特徴量と三次元データ特徴量を抽出し、前記画像特徴量と前記三次元データ特徴量との差分を減らすように画像特徴抽出用のパラメータを更新する学習部と、前記更新された画像特徴抽出用のパラメータを使用した画像特徴抽出部が物体のクエリ画像、及びギャラリー画像の画像特徴量を抽出し、両画像の画像特徴量の類似度を算出して物体を検索する検索部と、を備えて構成する。

　また、本発明の他の特徴として、前記物体検索装置において、第三のニューラルネットワークで構成され、時系列的に連続する複数の画像を入力して、各画像の検出結果より同種の物体を空間的に距離が近いもの同士で結びつけて、同一個体の時系列的に連続する複数の画像を追跡データとして生成する追跡部と、前記追跡部が生成した追跡データを記憶する追跡データ蓄積部とを更に備え、前記検索部が、前記追跡部、及び前記追跡データ蓄積部から得られる追跡データ、及び画像を用いて物体検索を行う。

　また、本発明の物体検索方法の好ましい例では、同一個体から得られた物体の画像と三次元データを入力して、前記画像を第一のニューラルネットワークにより画像特徴量を抽出し、前記三次元データを第二のニューラルネットワークにより三次元データ特徴量を抽出し、前記画像特徴量と前記三次元データ特徴量との差分を減らすように画像特徴抽出用のパラメータを更新する学習処理を行いし、前記更新された画像特徴抽出用のパラメータを使用した画像特徴抽出部前記第一のニューラルネットワークが物体のクエリ画像、及びギャラリー画像の各画像特徴量を抽出し、両画像の画像特徴量の類似度を算出して物体を検索することを特徴とする。

　また、本発明の他の特徴として、前記物体検索方法において、前記画像特徴抽出用のパラメータは、前記第一のニューラルネットワークを構成する各ニューロンのウエイトとバイアスである。

　本発明によれば、画像のみから形状や凹凸などの三次元情報を特徴量として表現する、高精度な物体検索装置を提供することができる。また、検索時には三次元データを扱う必要がなく、深度カメラの設置コストの問題や、特徴抽出の処理時間の問題が生じない効果がある。それ以外の効果については、各実施例で述べる。

実施例１における物体検索装置の構成図である。物体検索装置の学習制御部、または検索制御部により制御される各機能部の機能ブロック図である。実施例１における学習処理の一例のフローチャートである。実施例１における検索処理の一例のフローチャートである。本実施例で用いられる学習処理に必要な画像及び三次元データの例を示す図である。実施例１で用いられる学習処理に必要なアノテーションデータを示す図である。実施例２における物体検索装置の構成図である。実施例２の物体検索装置の学習制御部、または検索制御部により制御される各機能部の機能ブロック図である。実施例２で用いられる追跡処理の一例のフローチャートである。実施例２で用いられる検索処理の一例のフローチャートである。実施例２で用いられる学習処理に必要なアノテーションデータを示す図である。

　以下、本発明の実施形態を、図面を用いて説明する。

　本実施形態では、物体検索装置の一例として、スーツケースなどの荷物の検索を行う例を説明する。なお、検索対象は荷物である必要はなく、撮像可能な物体であればよい。

　図１は、本実施例による物体検索装置の構成図である。
物体検索装置１００は、汎用の計算機上に構成することができて、そのハードウェア構成は、ＣＰＵ（Central Processing Unit）、ＲＡＭ（Random Access Memory）などにより構成される演算部１１０、ＲＯＭ（Read Only Memory）、ＨＤＤ（Hard Disk Drive）、フラッシュメモリなどを用いたＳＳＤ（Solid State Drive）などにより構成される記憶部１２０、キーボードやマウス等の入力デバイスより構成される入力部１３０、ＬＣＤ（Liquid Crystal Display）、有機ＥＬディスプレイなどの表示装置により構成される表示部１４０、ＮＩＣ（Network Interface Card）などにより構成される通信部１５０、などを備える。
通信部１５０は、ネットワーク１６０を介して外部の監視システムと共用される監視画像データベース_Ａ１７１、監視画像データベース_Ｚ１７２、および各所に設置されたカメラ１８１、１８２と接続されている。

　演算部１１０は、記憶部１２０に記憶されている物体検索プログラム１２１をＲＡＭへロードしてＣＰＵで実行することにより以下の各機能部を実現する。演算部１１０は、学習制御部１１１、検索制御部１１２、画像・三次元データ取得部１１３、学習部１１４、検索部１１５、画像特徴抽出部１１６、および三次元データ特徴抽出部１１７を有する。

　学習制御部１１１は、学習実行者（学習を制御する人間あるいはコンピュータ）の指示により起動され、学習実行者が要求する学習処理を実行するため、以下の各機能部を制御する。

　検索制御部１１２は、検索実行者（検索を行う人間あるいはコンピュータ）の指示により起動され、検索実行者が要求する検索処理を実行するため、以下の各機能部を制御する。

　図２は、学習制御部１１１、または検索制御部１１２により制御される各機能部の機能ブロック図を示す。
画像・三次元データ取得部１１３は、学習処理、もしくは検索処理を実行する際にデータの入出力を処理する。学習処理の実行時には、学習実行者から学習処理に用いる画像、三次元データ、及びアノテーションデータを受け付け、または学習実行者が要求する画像、三次元データを外部から取得して、それらのデータを学習部１１４に送信する。ここで、アノテーションデータとは、学習を行うための正解データのことである。
検索処理の実行時には、検索実行者からクエリ画像とギャラリー画像を受け付け、または検索実行者が要求するクエリ画像とギャラリー画像のいずれも、またはいずれかの画像を外部から取得して、それらの画像を検索部１１５に送信する。ここで、クエリ画像とは、検索対象の荷物が映った画像のことであり、ギャラリー画像とは、クエリ画像をもとにして検索対象の荷物と同一個体の荷物が映った画像を探すために比較される画像のことである。

　学習部１１４は、画像特徴抽出部１１６や三次元データ特徴抽出部１１７が特徴を抽出する際に使用するパラメータ（ニューラルネットワークを構成する各ニューロンのウエイトとバイアス）を学習により更新する。学習の実行時には、画像・三次元データ取得部１１３から学習に用いる画像、三次元データ、及びアノテーションデータを受信する。受信した画像は、画像特徴抽出部１１６に送信し、画像特徴抽出部１１６が抽出した特徴量を受信する。受信した三次元データは、三次元データ特徴抽出部１１７に送信し、三次元データ特徴抽出部１１７が抽出した特徴量を受信する。また、画像特徴抽出部１１６、及び三次元データ特徴抽出部１１７から特徴抽出用のパラメータを受信し、更新したパラメータを画像特徴抽出部１１６、及び三次元データ特徴抽出部１１７に送信する。

　検索部１１５は、検索のための入出力処理や計算、表示管理を行う。検索の実行時には、画像・三次元データ取得部１１３から検索に用いるクエリ画像とギャラリー画像を受信し、それらの画像を画像特徴抽出部１１６に送信する。また、画像特徴抽出部１１６から特徴量を受信し、特徴量により算出した検索結果を表示部１４０に送信する。

　表示部１４０は、検索結果の表示を行う。検索の実行時には、検索部１１５からクエリ画像、ギャラリー画像、及び表示順を取得し、表示順に従って画像を表示する。

　画像特徴抽出部１１６は、画像から類似度計算に必要な特徴量を抽出する。学習の実行時には、学習部１１４から画像を受信し、抽出した特徴量を学習部１１４に送信する。また、特徴抽出用のパラメータを学習部１１４に送信し、更新されたパラメータを学習部１１４から受信する。検索の実行時には、検索部１１５から画像を受信し、抽出した特徴量を検索部１１５に送信する。

　三次元データ特徴抽出部１１７は、三次元データから類似度計算に必要な特徴量を抽出する。学習の実行時には、学習部１１４から三次元データを受信し、抽出した特徴量を学習部１１４に送信する。また、特徴抽出用のパラメータを学習部１１４に送信し、更新された特徴量を学習部１１４から受信する。

　記憶部１２０の画像特徴抽出用パラメータ１２２に、画像特徴抽出部１１６が画像の特徴を抽出する際に使用するパラメータ（ニューラルネットワークを構成する各ニューロンのウエイトとバイアス）を記憶する。

　記憶部１２０の三次元データ特徴抽出用パラメータ１２３に、三次元データ特徴抽出部１１７が三次元データの特徴を抽出する際に使用するパラメータ（ニューラルネットワークを構成する各ニューロンのウエイトとバイアス）を記憶する。

　図３は、本実施形態で用いられる学習処理の一例のフローチャートを示す。
ステップＳ１００では、学習実行者の学習開始操作により学習制御部１１１が起動して、学習処理を開始する。

　ステップＳ１０１では、学習実行者が学習に必要な画像、三次元データ、及びアノテーションデータを画像・三次元データ取得部に入力する。ここで、画像が色情報を含む場合には、三次元データも色情報を含むものを使用する。

　ステップＳ１０２では、画像・三次元データ取得部がステップＳ１０１で受信した画像、三次元データ、及びアノテーションデータを学習部１１４に送信する。

　ステップＳ１０３では、学習部がステップＳ１０２で受信した画像を画像特徴抽出部１１６に送信する。

　ステップＳ１０４では、画像特徴抽出部１１６がステップＳ１０３で受信した画像に対して特徴抽出を行う。特徴抽出には、例えばCNNを用いる。CNNは画像を入力として受け付け、特徴量となる数値ベクトルに変換して出力する。この変換は、CNNが保持しているパラメータ（画像特徴抽出用パラメータ１２２を使用する）を用いて畳み込み演算を繰り返すことで行われる。パラメータは任意の値に初期設定可能であり、学習によりパラメータの値は更新される。

　ステップＳ１０５では、画像特徴抽出部がステップＳ１０４で抽出した特徴量と特徴抽出に用いたパラメータ（画像特徴抽出用パラメータ１２２）を学習部１１４に送信する。

　ステップＳ１０６では、学習部１１４がステップＳ１０５で受信した画像特徴量、及び画像特徴抽出用のパラメータを記憶する。

　ステップＳ１０７では、学習部がステップＳ１０２で受信した三次元データを三次元データ特徴抽出部１１７に送信する。

　ステップＳ１０８では、三次元データ特徴抽出部１１７がステップＳ１０７で受信した三次元データに対して特徴抽出を行う。特徴抽出には、例えば三次元データ用のNeural network (NN)を使う。例えば、ポイントネットなど。三次元データ用のNNは三次元データを入力として受け付け、特徴量となる数値ベクトルに変換して出力する。この変換は、三次元データ用のNNが保持しているパラメータ（三次元データ特徴抽出用パラメータ１２３を使用する）を用いて三次元データを線形変換し、非線形関数に入力する処理を繰り返すことで行われる。パラメータは任意の値に初期設定可能であり、学習によりパラメータの値は更新される。

　ステップＳ１０９では、三次元データ特徴抽出部１１７がステップＳ１０８で抽出した特徴量と特徴抽出に用いたパラメータ（三次元データ特徴抽出用パラメータ１２３）を学習部に送信する。

　ステップＳ１１０では、学習部１１４がステップＳ１０９で受信した三次元データ特徴量、及び三次元データ特徴抽出用のパラメータを記憶する。

　ステップＳ１１１では、学習部１１４がステップＳ１０６で記憶した画像特徴量、及び画像特徴抽出用パラメータと、ステップＳ１１０で記憶した三次元データ特徴量、及び三次元データ特徴抽出用パラメータを用いて、パラメータの更新作業を行う。パラメータの更新には、例えば確率的勾配降下法を用いる。

　確率的勾配降下法には目的関数が必要であり、画像特徴抽出用のパラメータ更新に用いる目的関数Ｅ_imageは、例えば同一個体の画像特徴量f_imageと、三次元データ特徴量f_3dを用いて数式(１)のように計算する。

　これは、画像特徴量f_imageと、三次元データ特徴量f_3dの二乗誤差となる。目的関数Ｅ_imageを最小化する方向に画像特徴抽出用のパラメータを更新する。複数の個体について目的関数を計算する場合は、例えばＥ_imageを複数の個体について計算し、平均をとる、平均二乗誤差を用いることができる。

　三次元データ特徴量抽出用のパラメータ更新に用いる目的関数Ｅ_3d は、例えば個体識別によるSoftmax cross-entropyを用いる。目的関数Ｅ_3dを最小化する方向に三次元データ特徴量抽出用のパラメータを更新する。複数の個体について目的関数を計算する場合は、例えばＥ_3dを複数の個体について計算し、平均をとる。

　ステップＳ１１２では、学習部１１４がステップＳ１１１で計算したパラメータの更新値を画像特徴抽出部１１６、及び三次元データ特徴抽出部１１７に送信する。

　ステップＳ１１３では、画像特徴抽出部１１６、及び三次元データ特徴抽出部１１７がステップＳ１１２で受信したパラメータ更新値を用いてそれぞれの特徴抽出用パラメータ（画像特徴抽出用パラメータ１２２、三次元データ特徴抽出用パラメータ１２３）を更新する。

　ステップＳ１１４では、学習制御部１１１が、学習実行者が学習を続行するか終了するかを当初の依頼内容、処理実績から判定して、続行すると判定した場合はＳ１０１へ移行し、終了すると判定した場合はＳ１１５へ移行する。

　ステップＳ１１５では、学習処理を終了する。

　本実施形態に示すように、学習処理によって、三次元データ特徴抽出部が同一個体に対して類似するような特徴量を抽出できるようにしておき、画像特徴抽出部が三次元データ特徴抽出部が出力する特徴量に近い特徴量を抽出できるようにしておくことで、三次元データ特徴抽出部が出力するような特徴量を画像特徴抽出部が画像から抽出できるようになる。これにより、検索時における画像の特徴抽出において、三次元の構造を考慮した類似特徴量の抽出を行えるようになる。この特徴量を用いると、形状に特徴があるような物体の検索に対して精度を向上させることができる。また、三次元データを用いた検索を行う場合には、一般的に監視エリア全域にRGBカメラと深度カメラの両方、あるいはRGB-Dカメラを設置する必要があり、設置のコストが大きくなる。しかし、本手法を用いれば、学習時にのみ三次元データを用意すればよく、カメラ設置のコスト増加を抑えることができる。

　本フローにおける、画像特徴量抽出用のパラメータと三次元データ特徴量抽出用のパラメータの学習のタイミングについては、それぞれのパラメータを同時に学習しても良いし、先に三次元データ特徴量抽出用のパラメータを学習しておき、後から画像特徴量抽出用のパラメータを学習させてもよい。

　本実施形態では同一個体の検索についての方法を説明しているが、本手法は同一個体の検索だけでなく、物体識別や物体検出についても用いることができ、精度を高めることができる。

　図４は、本実施形態で用いられる検索処理の一例のフローチャートを示す。
ステップＳ２００では、検索実行者の検索開始操作により検索制御部１１２が起動して、検索処理を開始する。

　ステップＳ２０１では、検索実行者が検索処理に必要なクエリ画像、及びギャラリー画像を画像・三次元データ取得部１１３に入力する。または、検索制御部１１２が検索実行者の要求に従い、各所に設置されたカメラ１８１、１８２、または外部の監視画像データベース１７１、１７２などから、検索処理に必要なクエリ画像、及びギャラリー画像を画像・三次元データ取得部に取得させる。

　ステップＳ２０２では、画像・三次元データ取得部１１３がステップＳ２０１で受信した画像を検索部１１５に送信する。

　ステップＳ２０３では、検索部１１５がステップＳ２０２で受信した画像を画像特徴抽出部１１６に送信する。

　ステップＳ２０４では、画像特徴抽出部がステップＳ２０３で受信した画像に対して特徴抽出を行う。特徴抽出の方法は、学習処理フローにおけるステップＳ１０４で用いた方法と同様の方法を用いる。学習処理において、色情報を含む画像と色情報を含む三次元データ用いて学習を行った場合には、色情報を含む画像に対して特徴抽出を行うことができる。

　ステップＳ２０５では、画像特徴抽出部１１６がステップＳ２０４で抽出した特徴量を検索部１１５に送信する。

　ステップＳ２０６では、検索部１１５がステップＳ２０５で受信した特徴量を用いて検索結果の表示順を決定する。特徴量を用いて表示順を決定する場合、特徴量の類似度を計算する必要がある。類似度の計算には、例えば特徴量を表す数値ベクトルのユークリッド距離を用いる方法がある。クエリ画像の特徴量をf_ｑとし、ギャラリー画像の特徴量をf_ｇとすると、類似度ｓは数式(２)のように計算できる。

類似度は0.0から1.0の値をとり、大きい程、類似度が高いことを示す。表示順は、例えば類似度が高いものを優先的に表示するように決定する。

　ステップＳ２０７では、検索部１１５がステップＳ２０２で受信した画像と、ステップＳ２０６で決定した表示順を表示部１４０に送信する。

　ステップＳ２０８では、表示部がステップＳ２０７で受信した画像と表示順を用いて、検索結果を表示する。表示には、例えば表示順の高いものから順に画面の上部に表示する。

　ステップＳ２０９では、検索制御部１１２が、検索実行者が検索を続行するか終了するかを当初の依頼内容、処理実績から判定して、続行すると判定した場合はＳ２０１へ移行し、終了すると判定した場合はＳ２１０へ移行する。

　ステップＳ２１０では、検索処理を終了する。

　本実施形態に示すように、検索処理時に画像の特徴量のみを用いることで、前記したように監視エリアに三次元データ取得用のカメラが必要なくなり、カメラの設置コストの増加を抑えることができる。また、三次元データは画像と比較してデータ量が多くなるため、処理に時間がかかる。このため、検索処理時に三次元データを用いて特徴抽出を行った場合、検索精度が向上する一方で、検索速度が低下する欠点がある。しかし、本手法を用いれば、画像のみの処理で三次元データから得られる特徴量を再現できるため、処理速度の低下を発生させずに検索精度を向上させることができる。

　図５は、本実施形態で用いられる学習処理に必要な画像及び三次元データの例を示す図である。以下で、図内の各項目を説明する。

　５００は、撮影対象の荷物である。

　５０１は、荷物を撮影するカメラであり、画像及び三次元データを生成する。このカメラには、RGB-Dカメラのように画像と三次元データの両方を取得できる一つのカメラを用いてもよいし、RGBカメラと深度カメラの両方を用いてもよい。

　５０２は、荷物５００をカメラ５０１で撮影したときに取得できる画像である。

　５０３は、荷物５００をカメラ５０１で撮影したときに取得できる三次元データである。三次元データの表現方法については、点群やVoxelなど、空間情報を表現できるものであればいかなるものを用いても構わない。

　図６は、本実施形態で用いられる学習処理に必要なアノテーションデータを示す図である。以下でアノテーションデータの形式について説明する。

　６００はアノテーションデータとして保存されるデータテーブルを示す。データテーブルには画像ID、三次元データID、及び荷物IDの各項目が対応付けられて保存されている。画像IDは画像を一意に識別するために付与されたIDであり、例えば画像を取得する毎にIDを1ずつ増加させて付与する。三次元データIDは三次元データを一意に識別するために付与されたIDであり、例えば三次元データを取得する毎にIDを1ずつ増加させて付与する。画像と三次元データは必ずしも同一時刻に取得する必要はないが、なるべく近い時刻に取得した画像と三次元データの組み合わせがあることが望ましい。組み合わせの決め方については、例えば近い時刻に取得した同一個体の画像と三次元データについて、取得したときにコンピュータが画像IDと三次元データIDに同一のIDを割り振ることで、組み合わせを決定してもよいし、後から人間が画像と三次元データを確認して、組み合わせを決定してもよい。荷物IDは、同一個体を一意に識別するためのIDであり、取得した画像、及び三次元データに対して、アノテーション作業により付与する。データテーブル６００では、上から二行が同一個体の画像、及び三次元データであることを表している。

　本実施形態に示すようなアノテーションデータを用いて学習を行うことで、学習時に、画像から抽出する特徴量と三次元データから抽出する特徴量を紐づけることができる。この紐づけを用いて、図３に示す学習処理フローで学習することにより、本手法を実現できる。

　本実施形態では、物体検索装置の一例として、スーツケースなどの荷物の検索を行う例を説明する。なお、検索対象は荷物である必要はなく、撮像可能な物体であればよい。実施例１に対して本実施形態は、学習処理、及び検索処理に用いる画像については、カメラ内での物体追跡（１つのカメラ内で時系列的に連続したフレーム内に同一物体を捕らえる）により、予め複数の画像について同一個体であることが分かっており、学習に用いる三次元データについては、予め三次元再構成などの方法（三次元カメラで対象物の周りを回りながら捉えて対象物全体のデータを得て対象物の三次元を再構成すること）により、一つのデータになっている例である。学習処理、及び検索処理時の各個体について、複数の画像、及び三次元再構成された三次元データを使う以外の点については、実施例１と同様である。

　図７は、実施例２における物体検索装置２００の構成図である。図１に示す実施例１の物体検索装置に、追跡部１１８、追跡データ蓄積部１２４、及び追跡画像特徴抽出用パラメータ１２５を追加した構成となる。

　図８は、学習制御部１１１、または検索制御部１１２により制御される実施例２の物体検索装置２００の各機能部の機能ブロック図を示す。図２に示す実施例１の機能ブロック図に、追跡部１１８、及び追跡データ蓄積部１２４を追加した構成となる。

　追跡部１１８は、入力された時系列的に連続する複数の画像に対して追跡処理（同一の対象物を捕らえていると検出された画像を一まとめにして同一の追跡IDを付与する）を行う。検索処理の実行時には、画像・三次元データ取得部１１３から時系列的に連続する複数の画像を受信し、追跡した結果である追跡データと画像を検索部１１５に送信する。

　追跡データ蓄積部１２４は、追跡データの蓄積を行う。追跡の実行時には、追跡部１１８から追跡データ、及び画像を受信する。検索処理の実行時には、検索部１１５に追跡データ、及び画像を送信する。

　図９は、本実施形態で用いられる追跡処理の一例のフローチャートを示す。
ステップＳ３００では、追跡実行者の追跡開始指示により追跡部が追跡処理を開始する。追跡実行者とは、追跡を制御する人間あるいはコンピュータのことである。本実施例では、学習実行者、または検索実行者の操作により起動された学習制御部１１１、または検索制御部１１２になる。

　ステップＳ３０１では、追跡実行者が追跡を行うための時系列的に連続する複数の画像を画像・三次元データ取得部１１３に入力する。

　ステップＳ３０２では、画像・三次元データ取得部がステップＳ３０１で受信した時系列的に連続する複数の画像を追跡部１１８に送信する。

　ステップＳ３０３では、追跡部１１８がステップＳ３０２で受信した時系列的に連続する複数の画像に対して追跡処理を実施する。追跡処理には、例えば次のような処理手順を踏む。まずCNN検出器を用いて各画像の荷物（追跡対象物）の検出を行う（CNN検出器は事前に学習処理を実施しておく。CNN検出器において検出に使用されるパラメータは追跡画像特徴抽出用パラメータ１２５に記憶される。）。検出結果は、荷物の種類と画像内における位置、及び大きさになる。次に時系列的に隣接する画像の検出結果について、同種類の荷物の検出結果を空間的に距離が近いもの同士で結びつける。距離の計算には、例えば検出の位置のユークリッド距離を用いる。このようにして得られる追跡結果から、同一個体を一意に決める追跡IDとその追跡IDが示す個体の時系列的に連続する複数の画像を追跡データとして生成する。

　ステップＳ３０４では、追跡部１１８がステップＳ３０３で生成した追跡データを追跡データ蓄積部に保存する。

　ステップＳ３０５では、追跡実行者が追跡を続行するか終了するかを決定する。
ステップＳ３０６では、追跡を終了する。

　本実施形態に示すような追跡処理を実施することで、予め同一個体に対して複数の画像が得られ、検索処理時に複数の画像を用いて特徴抽出を行えるようになる。

　図１０は、本実施形態で用いられる検索処理の一例のフローチャートを示す。本フローは追跡処理を行う以外は実施例１のフロー(図４)と同様である。以下では追跡処理のフローのみを説明する。

　ステップＳ４０１では、検索実行者が検索対象となる物体が映る時系列的に連続した複数の画像を画像・三次元データ取得部１１３に入力する。

　ステップＳ４０２では、画像・三次元データ取得部１１３がステップＳ４０１で受信した画像を追跡部１１８に送信する。

　ステップＳ４０３では、追跡部１１８がステップＳ４０２で受信した画像に対して追跡処理を行う。

　ステップＳ４０４では、追跡部がステップＳ４０３で行った追跡処理の結果得られる追跡データ、及び画像を検索部１１５に送信する。

　ステップＳ４０５では、検索部がステップＳ４０４で受信した追跡データ、及び画像を画像特徴抽出部１１６に送信する。

　ステップＳ４０６では、追跡データ蓄積部１２４に保存した追跡データ、及び画像を画像特徴抽出部１１６に送信する。

　ステップＳ４０７では、画像特徴抽出部１１６がステップＳ４０５、及びステップＳ４０６で受信した追跡データ、及び画像を用いて特徴抽出を行う。同一個体の複数の画像から特徴量を抽出するには、例えば3DCNNを用いる。この場合、学習フローにおける画像特徴抽出部についても、3DCNNを用いる。

　本フローでは予め複数の荷物について追跡処理を実施し、追跡データ蓄積部１２４にそれらの荷物の追跡データ、及び画像を保存しておく。検索処理の実行時には、それらの事前に追跡データ蓄積部１２４に保存された画像をギャラリー画像として検索を行う。

　本実施形態に示すように、検索処理の実行時に追跡処理を実施することで、同一個体に対して様々な方向から撮影した複数の画像が得られる。これら複数視点の画像を特徴抽出の際に用いることで、三次元データから得られる特徴量を再現しやすくなり、精度を向上させることができる。

　図１１は、本実施形態で用いられる学習処理に必要なアノテーションデータを示す図である。以下でアノテーションデータの形式について説明する。

　７００はアノテーションデータとして保存されるデータテーブルを示す。データテーブルには画像ID、三次元データID、追跡ID、及び荷物IDが対応付けられて保存されている。画像ID、三次元データID、荷物IDについては、図６に示すデータテーブル６００と同様である。追跡IDには、物体を追跡処理した結果、同一個体として一意に識別するために割り当てられたIDを用いる。三次元データは、例えば三次元再構成を用いて一つの三次元データを作成しておく。従って複数の画像に対して一つの三次元データが対応する。

　本実施例に示すようなアノテーションデータを用いて学習処理を行うことで、物体を様々な方向から見た場合の特徴を一つの特徴量として抽出するように学習処理でき、検索処理の精度を向上させることができる。

　なお、本発明は上記した実施例に限定されるものではなく、様々な変形例が含まれる。例えば、上記した実施例は本発明を分かりやすく説明するために詳細に説明したものであり、必ずしも説明した全ての構成を備えるものに限定されるものではない。また、ある実施例の構成の一部を他の実施例の構成に置き換えることが可能であり、また、ある実施例の構成に他の実施例の構成を加えることも可能である。また、各実施例の構成の一部について、他の構成の追加・削除・置換をすることが可能である。

１００　物体検索装置
１１０　演算部
１１１　学習制御部
１１２　検索制御部
１１３　画像・三次元データ取得部
１１４　学習部
１１５　検索部
１１６　画像特徴抽出部
１１７　三次元データ特徴抽出部
１１８　追跡部
１２０　記憶部
１２１　物体検索プログラム
１２２　画像特徴抽出用パラメータ
１２３　三次元データ特徴抽出用パラメータ
１２４　追跡データ蓄積部
１２５　追跡画像特徴抽出用パラメータ
１３０　入力部
１４０　表示部
１５０　通信部
１６０　ネットワーク
１７１、１７２　監視画像データベース
１８１、１８２　各所に設置されたカメラ
２００　実施例２の物体検索装置
５００　撮影対象の荷物
５０１　荷物を撮影するカメラ
５０２　荷物５００をカメラ５０１で撮影したときに取得できる画像
５０３　荷物５００をカメラ５０１で撮影したときに取得できる三次元データ
６００　アノテーションデータとして保存されるデータテーブル
７００　実施例２のアノテーションデータとして保存されるデータテーブル

Claims

　第一のニューラルネットワークで構成され、画像を入力して画像特徴量を抽出する画像特徴抽出部と、
　第二のニューラルネットワークで構成され、三次元データを入力して三次元データ特徴量を抽出する三次元データ特徴抽出部と、
　同一個体から得られた物体の画像と三次元データから、それぞれ画像特徴量と三次元データ特徴量を抽出し、前記画像特徴量と前記三次元データ特徴量との差分を減らすように画像特徴抽出用のパラメータを更新する学習部と、
　前記更新された画像特徴抽出用のパラメータを使用した画像特徴抽出部が物体のクエリ画像、及びギャラリー画像の画像特徴量を抽出し、両画像の画像特徴量の類似度を算出して物体を検索する検索部と、
を備えたことを特徴とする物体検索装置。
　前記学習部は、学習に使用する物体の画像、三次元データ、及びアノテーションデータを受付けて、アノテーションデータにより同一個体から得られた画像と三次元データの対応付けを識別することを特徴とする請求項１に記載の物体検索装置。
　前記学習部は、アノテーションデータにより同一個体から得られたと識別した画像と三次元データからそれぞれ画像特徴量と三次元データ特徴量を抽出し、抽出された画像特徴量と三次元データ特徴量により画像特徴抽出用のパラメータ、及び三次元データ特徴抽出用のパラメータを更新することを特徴とする請求項２に記載の物体検索装置。
　前記画像特徴抽出用のパラメータ、及び前記三次元データ特徴抽出用のパラメータは、それぞれ第一、または第二のニューラルネットワークを構成する各ニューロンのウエイトとバイアスであることを特徴とする請求項３に記載の物体検索装置。
　前記検索部は、物体のクエリ画像、及び複数のギャラリー画像の画像特徴量を抽出し、各画像の画像特徴量によりクエリ画像と各ギャラリー画像との類似度を算出し、類似度が高い順にギャラリー画像を表示部に表示させることを特徴とする請求項１に記載の物体検索装置。
　前記学習部は、色情報を含む画像と色情報を含む三次元データを用いてそれぞれ画像特徴量と三次元データ特徴量を抽出して、画像特徴抽出用のパラメータを更新し、
　前記検索部は、色情報を含む物体のクエリ画像、及びギャラリー画像の画像特徴量を抽出し、両画像の画像特徴量の類似度を算出して検索することを特徴とする請求項１に記載の物体検索装置。
　第三のニューラルネットワークで構成され、時系列的に連続する複数の画像を入力して、各画像の検出結果より同種の物体を空間的に距離が近いもの同士で結びつけて、同一個体の時系列的に連続する複数の画像を追跡データとして生成する追跡部と、
　前記追跡部が生成した追跡データを記憶する追跡データ蓄積部とを更に備え、
　前記検索部が、前記追跡部、及び前記追跡データ蓄積部から得られる追跡データ、及び画像を用いて物体検索を行うことを特徴とする請求項１に記載の物体検索装置。
　前記学習部は、前記追跡部から得られる同一個体の複数枚の画像を含む追跡データと、三次元再構成により得られる一つの三次元データを対応付けたアノテーションデータを用いて学習処理を行うことを特徴とする請求項７に記載の物体検索装置。
　同一個体から得られた物体の画像と三次元データを入力して、前記画像を第一のニューラルネットワークにより画像特徴量を抽出し、前記三次元データを第二のニューラルネットワークにより三次元データ特徴量を抽出し、前記画像特徴量と前記三次元データ特徴量との差分を減らすように画像特徴抽出用のパラメータを更新する学習処理を行い、
　前記更新された画像特徴抽出用のパラメータを使用した前記第一のニューラルネットワークが物体のクエリ画像、及びギャラリー画像の各画像特徴量を抽出し、両画像の画像特徴量の類似度を算出して物体を検索することを特徴とする物体検索方法。
　前記画像特徴抽出用のパラメータは、前記第一のニューラルネットワークを構成する各ニューロンのウエイトとバイアスであることを特徴とする請求項９に記載の物体検索方法。
　時系列的に連続する複数の画像を第三のニューラルネットワークへ入力して、各画像の検出結果より同種の物体を空間的に距離が近いもの同士で結びつけて、同一個体の時系列的に連続する複数の画像を追跡データとして生成し、
　前記追跡データとして纏められた同一個体の時系列的に連続する複数の画像と、該当個体の複数の三次元データを三次元再構成により得られた一つの三次元データとを入力して、前記追跡データとして纏められた同一個体の時系列的に連続する複数の画像を第一のニューラルネットワークにより画像特徴量を抽出し、前記三次元再構成により得られた一つの三次元データを第二のニューラルネットワークにより三次元データ特徴量を抽出し、前記画像特徴量と前記三次元データ特徴量との差分を減らすように画像特徴抽出用のパラメータを更新する学習処理を行い、
　物体のクエリ画像、及びギャラリー画像として、それぞれ同一個体の時系列的に連続する複数の画像を纏めた追跡データを入力して、物体を検索することを特徴とする請求項９に記載の物体検索方法。