WO2021157133A1

WO2021157133A1 - 再同定装置、再同定プログラム、および再同定方法

Info

Publication number: WO2021157133A1
Application number: PCT/JP2020/037961
Authority: WO
Inventors: 辰也佐々木
Original assignee: コニカミノルタ株式会社
Priority date: 2020-02-03
Filing date: 2020-10-07
Publication date: 2021-08-12
Also published as: EP4102452A4; EP4102452A1; JPWO2021157133A1

Abstract

【課題】物体の再同定の精度を向上できる、再同定装置を提供する。【解決手段】撮影装置の歪特性により撮影装置の撮影領域における物体の位置によって物体の形状が変化した撮影画像を取得する取得部と、撮影画像から物体を含む物体領域を検出する物体検出部と、撮影装置ごとの撮影画像における物体領域の移動軌跡を、物体領域の位置の時系列の変化に基づいて推定する軌跡推定部と、複数の撮影装置でそれぞれ撮影された撮影画像においてそれぞれ検出された物体領域に含まれる物体が同一かどうかを、物体のクラスの推定精度において最適化されるように画定された、撮影画像における特定範囲内の物体領域と、当該特定範囲が画定された際に学習されたモデルとを用いて推定し、推定結果に基づいて同一と推定した物体がそれぞれ含まれる物体領域の移動軌跡を同一の物体の移動軌跡と推定する再同定部と、を有する。

Description

再同定装置、再同定プログラム、および再同定方法

　本発明は、再同定装置、再同定プログラム、および再同定方法に関する。

　従来、マーケティングの目的で、店舗での顧客の購買行動の分析が行われている。例えば、店舗での顧客の移動軌跡と、当該顧客が購入した商品の関係等を分析することで、どのような商品がどのような動線で購入されているか等の情報が得られる。このような情報は、販売する商品の品揃えやレイアウトに反映されることにより商品の販売が促進されるため、重要なマーケティング情報となる。

　物体の移動軌跡を検出する技術に関連し、画像から物体を識別する方法の従来技術として、特許文献１に記載されたものがある。すなわち、画像中の着目被写体の複数の属性の各々の独自性を判定し、画像中の候補被写体の相対的向きに基づいて候補被写体の複数の属性の各々の検出可能性を判定する。そして、少なくとも１つの属性の検出可能性を向上させるように、判定された独自性に基づいて候補被写体を観察するためのカメラ設定を決定し、決定されたカメラ設定で候補被写体の画像を撮像して、候補被写体が着目被写体であることの信頼度を判定する。

特開２０１６－７２９６４号公報

　物体の移動軌跡を検出するために、撮影範囲の重複のない複数の撮影装置を設置し、複数の撮影装置で撮影された画像間での物体照合により物体の同一性を判断する再同定（Ｒｅ－Ｉｄｅｎｔｉｆｉｃａｔｉｏｎ）が行われている。再同定においては、一般的なクラス分類問題と異なり、分類対象であるクラス（物体クラス）の数が不定であり、各クラスの画像が事前に得られない。このため、機械学習による学習済みモデルを用いて物体の画像から特徴ベクトルを抽出し、特徴空間における特徴ベクトル間の距離が閾値以下である画像（物体）同士は同一のクラスであると推定している。

　しかし、撮影装置を店舗の天井等に複数設置し、店舗内を俯瞰する画像を複数撮影して、再同定により顧客の移動軌跡を検出する場合、撮影装置のレンズの歪特性に起因して、画像における顧客の位置によって顧客の形状が変化する。当該形状の変化は、撮影装置のレンズが広角レンズ等の場合に、より顕著になる。そして、当該形状の変化により再同定の精度が低下するという問題がある。上記先行技術は、このような問題に対応できない。

　本発明は、上述の問題を解決するためになされたものである。すなわち、物体の再同定の精度を向上できる、再同定装置、再同定プログラム、および再同定方法を提供することを目的とする。

　本発明の上記課題は、以下の手段によって解決される。

　（１）撮影装置のレンズの歪特性により、前記撮影装置の撮影領域における物体の位置によって物体の形状が変化した撮影画像を取得する取得部と、取得された前記撮影画像において、物体を含む物体領域を検出する物体検出部と、前記撮影装置ごとの前記撮影画像における前記物体領域の移動軌跡を、前記撮影画像における前記物体領域の位置の時系列の変化に基づいて推定する軌跡推定部と、前記撮影領域が重複しない複数の前記撮影装置でそれぞれ撮影された前記撮影画像においてそれぞれ検出された前記物体領域に含まれる物体が同一かどうかを、物体のクラスの推定精度において最適化されるように画定された、前記撮影画像における特定範囲の範囲内の前記物体領域と、前記特定範囲が画定された際に学習されたニューラルネットワークのモデルとを用いて推定し、推定結果に基づいて同一と推定した物体がそれぞれ含まれる前記物体領域の前記移動軌跡を同一の物体の前記移動軌跡と推定する再同定部と、を有する再同定装置。

　（２）前記特定範囲は、１つの前記撮影装置に対し複数画定され、前記再同定部は、前記撮影領域が重複しない複数の前記撮影装置でそれぞれ撮影された前記撮影画像においてそれぞれ検出された前記物体領域に含まれる物体が同一かどうかを、前記特定範囲の範囲内の前記物体領域に基づいて、前記特定範囲が画定された際にそれぞれ学習されたニューラルネットワークの前記モデルを用いて推定し、推定結果に基づいて同一と推定した物体がそれぞれ含まれる前記物体領域の前記移動軌跡を同一の物体の前記移動軌跡と推定する、上記（１）に記載の再同定装置。

　（３）前記軌跡推定部は、撮影装置ごとの撮影画像における物体領域の移動軌跡を、時系列の複数の撮影画像においてそれぞれ検出された物体領域に含まれる物体の類似度と、撮影画像における物体領域の位置の時系列の変化に基づいて推定する、上記（１）または（２）に記載の再同定装置。

　（４）前記撮影画像において設定された指定範囲ごとに、前記指定範囲において検出された前記物体領域と、前記物体領域に含まれる物体のクラスの正解ラベルとの組み合わせを教師データとしてニューラルネットワークの前記モデルを学習させる学習部と、学習された、ニューラルネットワークの前記モデルによる、物体のクラスの推定精度を算出する評価部と、推定精度が最大となるときの前記指定範囲を前記特定範囲として決定することで、前記特定範囲を画定する特定範囲画定部と、をさらに有する上記（１）～（３）のいずれかに記載の再同定装置。

　（５）撮影装置のレンズの歪特性により、前記撮影装置の撮影領域における物体の位置によって物体の形状が変化した撮影画像を取得する手順（ａ）と、取得された前記撮影画像において、物体を含む物体領域を検出する手順（ｂ）と、前記撮影装置ごとの前記撮影画像における前記物体領域の移動軌跡を、前記撮影画像における前記物体領域の位置の時系列の変化に基づいて推定する手順（ｃ）と、前記撮影領域が重複しない複数の前記撮影装置でそれぞれ撮影された前記撮影画像においてそれぞれ検出された前記物体領域に含まれる物体が同一かどうかを、物体のクラスの推定精度において最適化されるように画定された、前記撮影画像における特定範囲の範囲内の前記物体領域と、前記特定範囲が画定された際に学習されたニューラルネットワークのモデルとを用いて推定し、推定結果に基づいて同一と推定した物体がそれぞれ含まれる前記物体領域の前記移動軌跡を同一の物体の前記移動軌跡と推定する手順（ｄ）と、をコンピューターに実行させるための再同定プログラム。

　（６）撮影装置のレンズの歪特性により、前記撮影装置の撮影領域における物体の位置によって物体の形状が変化した撮影画像を取得する段階（ａ）と、取得された前記撮影画像において、物体を含む物体領域を検出する段階（ｂ）と、前記撮影装置ごとの前記撮影画像における前記物体領域の移動軌跡を、前記撮影画像における前記物体領域の位置の時系列の変化に基づいて推定する段階（ｃ）と、前記撮影領域が重複しない複数の前記撮影装置でそれぞれ撮影された前記撮影画像においてそれぞれ検出された前記物体領域に含まれる物体が同一かどうかを、物体のクラスの推定精度において最適化されるように画定された、前記撮影画像における特定範囲の範囲内の前記物体領域と、前記特定範囲が画定された際に学習されたニューラルネットワークのモデルとを用いて推定し、推定結果に基づいて同一と推定した物体がそれぞれ含まれる前記物体領域の前記移動軌跡を同一の物体の前記移動軌跡と推定する段階（ｄ）と、を有する再同定方法。

　撮影画像において検出した物体領域の移動軌跡を、当該物体領域の時系列の変化に基づいて推定する。視野重複のない複数の撮影装置でそれぞれ撮影された撮影画像においてそれぞれ検出された物体領域に含まれる物体が同一かどうかを、物体のクラスの推定精度において最適化されるように画定された、撮影画像における特定範囲の範囲内の物体領域と、特定範囲が画定された際に学習されたニューラルネットワークのモデルとを用いて推定する。そして、推定結果に基づいて同一と推定した物体がそれぞれ含まれる物体領域の移動軌跡を同一の物体の移動軌跡と推定する。これにより、物体の再同定の精度を向上できる。

再同定システムの概略構成を示す図である。再同定システムのブロック図を示す図である。カメラと顧客との位置関係を示す説明図である。撮影画像を示す図である。制御部の学習時における機能ブロック図を示す図である。指定範囲の例を示す図である。制御部の評価時における機能ブロック図を示す図である。制御部の再同定時（推論時）における機能ブロック図を示す図である。カメラごとに推定された移動軌跡を示す図である。再同定装置の学習時の動作を示すフローチャートである。再同定装置の評価時の動作を示すフローチャートである。再同定装置の再同定時の動作を示すフローチャートである。実施形態の変形例を説明するための説明図である。

　以下、図面を参照して、本発明の実施形態に係る再同定装置、再同定プログラム、および再同定方法について説明する。なお、図面において、同一の要素には同一の符号を付し、重複する説明を省略する。また、図面の寸法比率は、説明の都合上誇張されており、実際の比率とは異なる場合がある。

　図１は、再同定システム１０の概略構成を示す図である。図２は、再同定システム１０のブロック図を示す図である。

　再同定システム１０は、再同定装置１００、通信ネットワーク２００、および複数のカメラ３００を含む。再同定装置１００および複数のカメラ３００は、通信ネットワーク２００を介して互いに通信可能に接続される。複数のカメラ３００の数は制限されない。以下、説明を簡単にするために複数のカメラは、第１カメラ３１０および第２カメラ３２０の２つのカメラで構成されるものとして説明する。

　（カメラ３００）
　第１カメラ３１０および第２カメラ３２０（以下、これらを区別する場合を除き、「カメラ３００」と称する）は、それぞれの撮影領域である、第１撮影領域３１１および第２撮影領域３２１をそれぞれ撮影することで撮影領域に存在する物体を撮影する。以下、例として、物体は店舗内の顧客５００であるものとして説明する。カメラ３００は、店舗等のできるだけ広い範囲を、顧客５００を俯瞰可能な位置から撮影し、画像データである撮影画像３３０（図４参照）を出力する。第１カメラ３１０および第２カメラは、例えば、店舗の天井または壁の上部等に、互いの撮影領域が重複しないように配置される。以下、説明を簡単にするために、第１カメラ３１０および第２カメラは同一種類のカメラで、店舗の天井に配置されるものとして説明する。

　撮影画像５１０には動画が含まれる。カメラ３００は広角カメラであり得る。広角カメラは、比較的広い画角の撮影画像５１０を撮影できるカメラであり、レンズの歪特性により、撮影領域における物体の位置によって物体の形状（大きさを含む）が変化した撮影画像３３０を撮影する。すなわち、広角カメラは、撮影画像３３０上の位置に対応して歪みの大きさが変化するカメラである。広角カメラには魚眼レンズカメラが含まれる。カメラ３００は、広角カメラ以外の一般的なカメラであってもよい。以下、説明を簡単にするために、カメラ３００は広角カメラであるものとして説明する。カメラ３００は近赤外線カメラであるが、これに換えて可視光カメラを用いてもよく、これらを併用してもよい。

　図１に示すように、第１カメラ３１０および第２カメラ３２０はそれぞれ、第１撮影領域３１１および第２撮影領域３２１を撮影することで、第１撮影領域３１１および第２撮影領域３２１に存在する顧客５００が、それぞれ第１カメラ３１０および第２カメラ３２０により撮影される。

　撮影領域が重複しない複数の撮影装置で撮影された画像間での物体照合により物体が同一性を判断して、同一性をもつ物体同士を対応づけることを再同定と言う。具体的には、図１に示すように、顧客５００が矢印の向きに歩いていった場合、顧客５１０、顧客５２０、および顧客５３０は、同じ人（同じクラス）である。店舗内での顧客５００ごとの行動を検出するためには、第１カメラ３１０の撮影画像３３１における顧客５００と、第２カメラ３２０の撮影画像３３２における顧客５００と、が同一であると判断する必要がある。第１カメラ３１０の撮影画像３３１における顧客５００と、第２カメラ３２０の撮影画像３３２における顧客５００と、が同一であると判断した場合に、両者を対応づけることを再同定（以下、単に「再同定」と称する）と称する。

　図３は、カメラ３００と顧客５００との位置関係を示す説明図である。図４は、撮影画像３３０を示す図である。図４においては、広角カメラによる撮影画像３３０が示されている。なお、図４には、後述する人矩形３３５が併せて示されている。

　図３において、カメラ３００の直下であるＡの位置にいる顧客５００は、図４の撮影画像３３０の位置ａおいて撮影されている。Ａの位置にいる顧客５００は、撮影画像３３０において、カメラ３００に近いため、頭部と肩部が比較的大きく映り、腕や足は肩に隠れる。Ｂの位置にいる顧客５００は、カメラ３００から遠いため小さく映るが、全身が映る。このように、撮影画像３３０における顧客５００の位置により、同じ姿勢（例えば、立位）であっても、撮影画像３３０における顧客５００の形状は比較的大きく変化する。

　（再同定装置１００）
　再同定装置１００は、制御部１１０、通信部１２０、および記憶部１３０を含む。これらの構成要素は、バスを介して互いに接続される。再同定装置１００は、例えばコンピューター端末により構成される。制御部１１０は、学習部、評価部、および特定領域画定部を構成する。

　制御部１１０は、ＣＰＵ（Ｃｅｎｔｒａｌ　Ｐｒｏｃｅｓｓｉｎｇ　Ｕｎｉｔ）、およびＲＡＭ（Ｒａｎｄｏｍ　Ａｃｃｅｓｓ　Ｍｅｍｏｒｙ）、ＲＯＭ（Ｒｅａｄ　Ｏｎｌｙ　Ｍｅｍｏｒｙ）等のメモリにより構成され、プログラムに従って再同定装置１００の各部の制御および演算処理を行う。制御部１１０の機能の詳細については後述する。

　通信部１２０は、通信ネットワーク２００を介して、複数のカメラ３００等と通信するためのインターフェース回路（例えばＬＡＮカード等）である。

　記憶部１３０は、記憶部１３０は、ＨＤＤ（Ｈａｒｄ　Ｄｉｓｃ　Ｄｒｉｖｅ）、ＳＳＤ（Ｓｏｌｉｄ　Ｓｔａｔｅ　Ｄｒｉｖｅ）等により構成され、各種プログラムおよび各種データを記憶する。

　制御部１１０の機能について説明する。

　図５は、制御部１１０の学習時における機能ブロック図を示す図である。制御部１１０は、学習時において、取得部１１１、人検出部１１２、推定部１１３、ロス算出部１１４、および範囲指定部１１５として機能する。人検出部１１２は物体検出部を構成する。

　取得部１１１は、第１カメラ３１０により撮影された撮影画像３３１と、第２カメラ３２０により撮影された撮影画像３３２とを記憶部１３０から取得する。取得部１１１は、第１カメラ３１０により撮影された撮影画像３３１と、第２カメラ３２０により撮影された撮影画像３３２を、第１カメラ３１０および第２カメラ３２０からそれぞれ直接受信することで取得してもよい。

　人検出部１１２は、撮影画像３３０において物体（オブジェクト）が存在する領域を候補矩形として検出し、検出した候補矩形に含まれる物体のカテゴリーごとの信頼度スコアを算出する。人検出部１１２は、人物のカテゴリーの信頼度スコアが最も高い候補領域を人矩形３３５（図４参照）として検出する。人矩形３３５は、例えば、ニューラルネットワーク（以下、「ＮＮ」と称する）を用いた、Ｆａｓｔｅｒ　Ｒ－ＣＮＮ、Ｆａｓｔ　Ｒ－ＣＮＮ、およびＲ－ＣＮＮといった公知の方法で検出できる。

　人検出部１１２は、撮影画像３３０から人矩形３３５を検出するための辞書（パラメーター）が反映されたＮＮのモデルにより、撮影画像３３０から人矩形３３５を検出し得る。

　人検出部１１２は、人矩形３３５を、撮影画像３３０と、当該人矩形３３５の対向する２つの頂点の座標との組み合わせとして出力し得る。

　推定部１１３は、範囲指定部１１５により指定された、撮影画像３３０における範囲（以下、「指定範囲」と称する）において検出された人矩形３３５に含まれる顧客のクラスを推定するためのＮＮのモデルを含む。クラスとは、人（顧客）を識別する識別情報である。推定部１１３は、人矩形３３５と、当該人矩形３３５に含まれる顧客のクラスの正解として設定された正解クラスラベルと、を教師データとして、ＮＮのモデルを学習することで、学習後のＮＮのモデル（以下、「学習済みモデル」と称する）を生成する。具体的には、推定部１１３は、指定範囲において検出された人矩形３３５に含まれる顧客５００のクラスを、ＮＮのモデルにより推定する。推定部１１３は、クラスごとの尤度を出力することにより、人矩形３３５に含まれる顧客のクラスを推定し得る。そして、推定部１１３は、ＮＮのモデルによる人矩形３３５に含まれる顧客５００のクラスの推定結果と、正解クラスラベルとに基づいてロス算出部１１４により算出されたクラスロスが小さくなるように、バックプロパゲーションによりＮＮのモデルを学習することで学習済みモデルを生成する。

　ロス算出部１１４は、推定部１１３により推定された、人矩形３３５に含まれる顧客５００のクラスの推定結果と、正解クラスラベルとに基づいてクラスロスを算出する。具体的には、ロス算出部１１４は、正解クラスラベルのクラスの、推定部１１３により推定された尤度を１から減算することでクラスロスを算出し得る。

　範囲指定部１１５は、人検出部１１２により撮影画像３３０の全範囲から検出された人矩形３３５のうち、再同定に用いる人矩形３３５が検出された範囲を指定範囲として指定する。

　図６は、指定範囲の例を示す図である。

　図６の例においては、指定範囲Ａ、指定範囲Ｂ、および指定範囲Ｃがそれぞれグレーで示されている。指定範囲は、撮影画像３３０における中心からの半径距離ｒを変数として、当該中心から半径距離ｒの範囲を除く範囲として、指定範囲Ａ、指定範囲Ｂ、および指定範囲Ｃを指定し得る。

　範囲指定部１１５は、複数の指定範囲を順次指定する。これにより、推定部１１３は、指定範囲ごとに学習済みモデルを生成する。

　図７は、制御部１１０の評価時における機能ブロック図を示す図である。制御部１１０は、評価時において、取得部１１１、人検出部１１２、推定部１１３、範囲指定部１１５、評価部１１６、および特定範囲決定部１１７として機能する。

　取得部１１１および人検出部１１２の機能は、図５において説明した機能と同様であるので説明を省略する。

　範囲指定部１１５は指定範囲を順次指定する。

　推定部１１３は、指定範囲ごとに生成された学習済みモデルにより、指定範囲において検出された人矩形３３５に含まれる顧客のクラスを推定する。具体的には、推定部１１３は、クラスごとの尤度を出力することにより、人矩形３３５に含まれる顧客のクラスを推定し得る。

　評価部１１６は、推定部１１３による推定された人矩形３３５に含まれる顧客５００のクラスの推定結果と、正解クラスラベルとに基づいて、指定範囲ごとに、クラスの推定精度を算出する。これにより、指定範囲ごとに、クラスの推定精度が評価される。クラスの推定精度は、正解クラスラベルのクラスの、推定部１１３により推定された尤度を１から減算した値の逆数とし得る。なお、指定範囲ごとのクラスの推定精度は、具体的には、指定範囲ごとに比較的多くの人矩形３３５を用いて人矩形３３５ごとに算出された、クラスの推定精度の平均とし得る。

　特定範囲決定部１１７は、クラスの推定精度が最も高くなるときの指定範囲を特定範囲として決定（画定）する。特定範囲は、当該特定範囲が決定された際に、当該特定範囲内の人矩形３３５に基づいて学習された学習済みモデル（以下、「特定モデル」とも称する）と対応付けされて、記憶部１３０に記憶される。

　なお、特定範囲は、上述した半径距離ｒを変数、評価部１１６によるクラスの推定精度を損失関数としたベイズ最適化による最適化計算により決定されてもよい。

　図８は、制御部１１０の再同定時（推論時）における機能ブロック図を示す図である。制御部１１０は、再同定時において、取得部１１１、人検出部１１２、推定部１１３、範囲指定部１１５、軌跡推定部１１８、および再同定部１１９として機能する。

　範囲指定部１１５は特定範囲を指定する。

　推定部１１３は、特定モデルにより、特定範囲において検出された人矩形３３５（以下、「特定人矩形」とも称する）に含まれる顧客のクラスを推定する。具体的には、推定部１１３は、クラスごとの尤度を出力することにより、特定人矩形に含まれる顧客のクラスを推定し得る。

　軌跡推定部１１８は、カメラ３００ごとの撮影画像３３０における人矩形３３５の移動軌跡（以下、単に「移動軌跡」とも称する）を推定する。移動軌跡は、人検出部１１２により撮影画像３３０の全範囲から検出された人矩形３３５の位置の時系列の変化と、時系列の複数の撮影画像３３０においてそれぞれ検出された人矩形３３５に含まれる顧客の類似度と、に基づいて、カメラ３００ごとに推定される。移動軌跡は、人検出部１１２により撮影画像３３０の全範囲から検出された人矩形３３５の位置の時系列の変化のみに基づいて、カメラ３００ごとに推定されてもよい。移動軌跡は、トラッキングのジャンルであるＭＴＳＣＴ（Ｍｕｌｔｉ　Ｔａｒｇｅｔ　Ｓｉｎｇｌｅ　Ｃａｍｅｒａ　Ｔｒａｃｋｉｎｇ）に含まれる公知のトラッキングアルゴリズムであるＤｅｅｐＳＯＲＴにより推定され得る。移動軌跡は、ＤｅｅｐＳＯＲＴ以外の公知のトラッキングアルゴリズムにより推定されてもよい。ＭＴＳＣＴは、単一のカメラの撮影画像の時系列のフレームで検出された物体が、次の時系列フレームでどこにいるか推定することを繰り返す処理を行う。ＭＴＳＣＴは、追跡対象である物体が時系列フレームＴから、時系列フレームＴ＋１でどこに移動したか推定するにあたり、（１）特徴ベクトルによる候補となる物体間の類似度比較に加え、（２）カルマンフィルタ等を用いた物体の移動位置推定を行う。

　図９は、カメラ３００ごとに推定された移動軌跡を示す図である。図９の例においては、第１カメラ３１０による第１撮影画像３３１において推定された移動軌跡が、軌跡（１）～（３）として示されている。また、第２カメラ３２０による第２撮影画像３３２において推定された移動軌跡が、軌跡（ａ）～（ｃ）として示されている。特定範囲は、図９において、グレーで示されている。以下説明するように、軌跡（１）～（３）はそれぞれ、軌跡（ａ）～（ｃ）のいずれかと対応付けされることで再同定がなされる。

　再同定部１１９は、第１撮影画像３３１および第２撮影画像３３２においてそれぞれ特定範囲内で検出された特定人矩形にそれぞれ含まれる顧客５００が同一かどうかを、それぞれ推定部１１３（特定モデル）により推定された顧客のクラスが同一かどうかで推定する。再同定部１１９は、同一と推定した顧客がそれぞれ含まれる人矩形３３５の移動軌跡を、同一の顧客の移動軌跡と推定することで対応付ける。これにより、再同定が実行される。図９の例においては、軌跡（１）と軌跡（ａ）、軌跡（２）と軌跡（ｃ）、軌跡（３）と軌跡（ｂ）、がそれぞれ同一の顧客の移動軌跡である。そのため、再同定においては、軌跡（１）と軌跡（ａ）、軌跡（２）と軌跡（ｃ）、軌跡（３）と軌跡（ｂ）、がそれぞれ同一の顧客の移動軌跡として対応付けられる。

　再同定装置１００の動作について説明する。

　図１０は、再同定装置１００の学習時の動作を示すフローチャートである。本フローチャートは、プログラムに従い、制御部１１０により実行される。なお、説明を簡単にするために、指定範囲は、指定範囲Ａ、指定範囲Ｂ、および指定範囲Ｃの３つであるものとして説明する。

　制御部１１０は、複数のカメラ３００の撮影画像３３０を取得する（Ｓ１０１）。具体的には、制御部１１０は、第１撮影画像３３１および第２撮影画像３３２を取得する。

　制御部１１０は、第１撮影画像３３１および第２撮影画像３３２において、それぞれ人矩形３３５を検出する（Ｓ１０２）。

　制御部１１０は、指定範囲を判断する（Ｓ１０３）。具体的には、制御部１１０は、指定範囲が指定範囲Ａ、指定範囲Ｂ、および指定範囲Ｃのいずれであるか判断する。

　制御部１１０は、対象範囲が指定範囲Ａであると判断した場合は、指定範囲Ａ内の人矩形３３５と当該人矩形３３５に設定された正解クラスラベルに基づく学習により学習済みモデルＡを生成する（Ｓ１０４）。制御部１１０は、対象範囲が指定範囲Ｂであると判断した場合は、指定範囲Ｂ内の人矩形３３５と当該人矩形３３５に設定された正解クラスラベルに基づく学習により学習済みモデルＢを生成する（Ｓ１０５）。制御部１１０は、対象範囲が指定範囲Ｃであると判断した場合は、指定範囲Ｃ内の人矩形３３５と当該人矩形３３５に設定された正解クラスラベルに基づく学習により学習済みモデルＣを生成する（Ｓ１０５）。

　図１１は、再同定装置１００の評価時の動作を示すフローチャートである。本フローチャートは、プログラムに従い、制御部１１０により実行される。

　制御部１１０は、カメラ３００の撮影画像３３０を取得する（Ｓ２０１）。ステップＳ２０１で取得される撮影画像は、第１撮影画像３３１および第２撮影画像３３２であってもよいが、これら以外の撮影画像３３０であってもよい。以下、説明を簡単にするために、ステップＳ２０１で取得される撮影画像は、第１撮影画像３３１および第２撮影画像３３２であるものとして説明する。

　制御部１１０は、第１撮影画像３３１および第２撮影画像３３２において、それぞれ人矩形３３５を検出する（Ｓ２０２）。

　制御部１１０は、指定範囲を判断する（Ｓ２０３）。具体的には、制御部１１０は、指定範囲が指定範囲Ａ、指定範囲Ｂ、および指定範囲Ｃのいずれであるか判断する。

　制御部１１０は、対象範囲が指定範囲Ａであると判断した場合は、指定範囲Ａ内の人矩形３３５に対し、学習済みモデルＡを用いてクラスの推定精度を算出する（Ｓ２０４）。制御部１１０は、対象範囲が指定範囲Ｂであると判断した場合は、指定範囲Ｂ内の人矩形３３５に対し、学習済みモデルＢを用いてクラスの推定精度を算出する（Ｓ２０５）。制御部１１０は、対象範囲が指定範囲Ｃであると判断した場合は、指定範囲Ｃ内の人矩形３３５に対し、学習済みモデルＣを用いてクラスの推定精度を算出する（Ｓ２０６）。

　制御部１１０は、クラスの推定精度が最大となった指定範囲を特定範囲として決定し、特定モデルと対応付けて記憶部１３０に記憶させる（Ｓ２０７）。

　図１２は、再同定装置１００の再同定時の動作を示すフローチャートである。本フローチャートは、プログラムに従い、制御部１１０により実行される。

　制御部１１０は、複数のカメラ３００の撮影画像３３０を取得する（Ｓ３０１）。具体的には、制御部１１０は、第１撮影画像３３１および第２撮影画像３３２を取得する。

　制御部１１０は、第１撮影画像３３１および第２撮影画像３３２において、それぞれ人矩形３３５を検出する（Ｓ３０２）。

　制御部１１０は、人矩形３３５の移動軌跡を推定する（Ｓ３０３）。さらに、制御部１１０は、第１撮影画像３３１および第２撮影画像３３２からそれぞれ検出された特定人矩形に含まれる顧客が同一かどうかを推定する（Ｓ３０４）。ステップＳ３０３とステップＳ３０４は並行して実行され得る。ステップＳ３０３とステップＳ３０４は時間的に前後して実行されてもよい。

　制御部１１０は、ステップＳ３０４において同一と推定された顧客を含む人矩形３３５の移動軌跡同士を関連付けることで再同定を実行する（Ｓ３０５）。

　（変形例）
　図１３は、実施形態の変形例を説明するための説明図である。変形例においては、１つの撮影画像３３０に対し、複数の特定範囲を画定する。図１２の例においては、第１特定範囲と第２特定範囲が画定されている。第１特定範囲および第２特定範囲に対し、それぞれ別の特定モデルが学習により生成され、対応付けられる。これにより、第１特定範囲と第２特定範囲において、撮影画像３３０における顧客の形状の変化の態様が比較的大きく異なる場合であっても、再同定の精度を向上できる。

　実施形態は、以下の効果を奏する。

　撮影画像において検出した物体領域の移動軌跡を、当該物体領域の時系列の変化に基づいて推定する。視野重複のない複数の撮影装置でそれぞれ撮影された撮影画像においてそれぞれ検出された物体領域に含まれる物体が同一かどうかを、物体のクラスの推定精度において最適化されるように画定された、撮影画像における特定範囲の範囲内の物体領域と、特定範囲が画定された際に学習されたＮＮのモデルとを用いて推定する。そして、推定結果に基づいて同一と推定した物体がそれぞれ含まれる物体領域の移動軌跡を同一の物体の移動軌跡と推定する。これにより、物体の再同定の精度を向上できる。

　さらに、１つの撮影装置に対し特定範囲を複数画定し、撮影領域が重複しない複数の撮影装置でそれぞれ撮影された撮影画像においてそれぞれ検出された物体領域に含まれる物体間の類似度を、特定範囲の範囲内の物体領域に基づいて、特定範囲が画定された際にそれぞれ学習されたＮＮのモデルを用いて推定し、推定結果に基づいて同一と推定した物体がそれぞれ含まれる物体領域の移動軌跡を同一の物体の移動軌跡と推定する。これにより、物体の再同定の精度をさらに向上できる。

　さらに、撮影装置ごとの撮影画像における物体領域の移動軌跡を、時系列の複数の撮影画像においてそれぞれ検出された物体領域に含まれる物体の類似度と、撮影画像における物体領域の位置の時系列の変化に基づいて推定する。これにより、移動軌跡の推定精度を向上できる。

　さらに、撮影画像において設定された対象領域ごとに、対象領域において検出された物体領域と、物体領域に含まれる物体のクラスの正解ラベルとの組み合わせを教師データとしてニューラルネットワークの前記モデルを学習させる学習部と、学習された、ニューラルネットワークの前記モデルによる、物体のクラスの推定精度を算出する評価部と、推定精度が最大となるときの前記対象領域を前記特定範囲として決定することで、前記特定範囲を画定する特定範囲画定部と、を設ける。これにより、より簡単かつ効率的に物体の再同定の精度を向上できる。

　以上に説明した再同定装置、再同定プログラム、および再同定方法は、上述の実施形態の特徴を説明するにあたって主要構成を説明したのであって、上述の構成に限られず、特許請求の範囲内において、種々改変することができる。また、一般的な再同定システムが備える構成を排除するものではない。

　例えば、上述したフローチャートは、一部のステップを省略してもよく、他のステップが追加されてもよい。また各ステップの一部は同時に実行されてもよく、一つのステップが複数のステップに分割されて実行されてもよい。

　また、上述した実施形態においては、顧客に対する再同定を行うものとして説明したが、顧客以外の人や動物等の再同定にも適用できる。

　また、上述した実施形態においては、クラスの推定精度が最も高くなる特定範囲が撮影画像の中心を含まない範囲になっている。しかし、クラスの推定精度が評価された結果、撮影画像の中心を含む範囲が特定範囲となり得る。

　また、上述した画像処理システムにおける各種処理を行う手段および方法は、専用のハードウェア回路、またはプログラムされたコンピューターのいずれによっても実現することが可能である。上記プログラムは、例えば、ＵＳＢメモリやＤＶＤ（Ｄｉｇｉｔａｌ　Ｖｅｒｓａｔｉｌｅ　Ｄｉｓｃ）－ＲＯＭ等のコンピューター読み取り可能な記録媒体によって提供されてもよいし、インターネット等のネットワークを介してオンラインで提供されてもよい。この場合、コンピューター読み取り可能な記録媒体に記録されたプログラムは、通常、ハードディスク等の記憶部に転送され記憶される。また、上記プログラムは、単独のアプリケーションソフトとして提供されてもよいし、一機能としてその検出部等の装置のソフトウエアに組み込まれてもよい。

　本出願は、２０２０年２月３日に出願された日本特許出願（特願２０２０－１６４４４号）に基づいており、その開示内容は、参照され、全体として、組み入れられている。

Claims

　撮影装置のレンズの歪特性により、前記撮影装置の撮影領域における物体の位置によって物体の形状が変化した撮影画像を取得する取得部と、
　取得された前記撮影画像において、物体を含む物体領域を検出する物体検出部と、
　前記撮影装置ごとの前記撮影画像における前記物体領域の移動軌跡を、前記撮影画像における前記物体領域の位置の時系列の変化に基づいて推定する軌跡推定部と、
　前記撮影領域が重複しない複数の前記撮影装置でそれぞれ撮影された前記撮影画像においてそれぞれ検出された前記物体領域に含まれる物体が同一かどうかを、物体のクラスの推定精度において最適化されるように画定された、前記撮影画像における特定範囲の範囲内の前記物体領域と、前記特定範囲が画定された際に学習されたニューラルネットワークのモデルとを用いて推定し、推定結果に基づいて同一と推定した物体がそれぞれ含まれる前記物体領域の前記移動軌跡を同一の物体の前記移動軌跡と推定する再同定部と、
　を有する再同定装置。
　前記特定範囲は、１つの前記撮影装置に対し複数画定され、
　前記再同定部は、前記撮影領域が重複しない複数の前記撮影装置でそれぞれ撮影された前記撮影画像においてそれぞれ検出された前記物体領域に含まれる物体が同一かどうかを、前記特定範囲の範囲内の前記物体領域に基づいて、前記特定範囲が画定された際にそれぞれ学習されたニューラルネットワークの前記モデルを用いて推定し、推定結果に基づいて同一と推定した物体がそれぞれ含まれる前記物体領域の前記移動軌跡を同一の物体の前記移動軌跡と推定する、請求項１に記載の再同定装置。
　前記軌跡推定部は、撮影装置ごとの撮影画像における物体領域の移動軌跡を、時系列の複数の撮影画像においてそれぞれ検出された物体領域に含まれる物体の類似度と、撮影画像における物体領域の位置の時系列の変化に基づいて推定する、請求項１または２に記載の再同定装置。
　前記撮影画像において設定された指定範囲ごとに、前記指定範囲において検出された前記物体領域と、前記物体領域に含まれる物体のクラスの正解ラベルとの組み合わせを教師データとしてニューラルネットワークの前記モデルを学習させる学習部と、
　学習された、ニューラルネットワークの前記モデルによる、物体のクラスの推定精度を算出する評価部と、
　推定精度が最大となるときの前記指定範囲を前記特定範囲として決定することで、前記特定範囲を画定する特定範囲画定部と、
　をさらに有する請求項１～３のいずれか一項に記載の再同定装置。
　撮影装置のレンズの歪特性により、前記撮影装置の撮影領域における物体の位置によって物体の形状が変化した撮影画像を取得する手順（ａ）と、
　取得された前記撮影画像において、物体を含む物体領域を検出する手順（ｂ）と、
　前記撮影装置ごとの前記撮影画像における前記物体領域の移動軌跡を、前記撮影画像における前記物体領域の位置の時系列の変化に基づいて推定する手順（ｃ）と、
　前記撮影領域が重複しない複数の前記撮影装置でそれぞれ撮影された前記撮影画像においてそれぞれ検出された前記物体領域に含まれる物体が同一かどうかを、物体のクラスの推定精度において最適化されるように画定された、前記撮影画像における特定範囲の範囲内の前記物体領域と、前記特定範囲が画定された際に学習されたニューラルネットワークのモデルとを用いて推定し、推定結果に基づいて同一と推定した物体がそれぞれ含まれる前記物体領域の前記移動軌跡を同一の物体の前記移動軌跡と推定する手順（ｄ）と、
　をコンピューターに実行させるための再同定プログラム。
　撮影装置のレンズの歪特性により、前記撮影装置の撮影領域における物体の位置によって物体の形状が変化した撮影画像を取得する段階（ａ）と、
　取得された前記撮影画像において、物体を含む物体領域を検出する段階（ｂ）と、
　前記撮影装置ごとの前記撮影画像における前記物体領域の移動軌跡を、前記撮影画像における前記物体領域の位置の時系列の変化に基づいて推定する段階（ｃ）と、
　前記撮影領域が重複しない複数の前記撮影装置でそれぞれ撮影された前記撮影画像においてそれぞれ検出された前記物体領域に含まれる物体が同一かどうかを、物体のクラスの推定精度において最適化されるように画定された、前記撮影画像における特定範囲の範囲内の前記物体領域と、前記特定範囲が画定された際に学習されたニューラルネットワークのモデルとを用いて推定し、推定結果に基づいて同一と推定した物体がそれぞれ含まれる前記物体領域の前記移動軌跡を同一の物体の前記移動軌跡と推定する段階（ｄ）と、
　を有する再同定方法。