WO2022239291A1

WO2022239291A1 - 物体検知装置及び方法

Info

Publication number: WO2022239291A1
Application number: PCT/JP2021/048247
Authority: WO
Inventors: 朗宏田中; 大治郎市村
Original assignee: パナソニックＩｐマネジメント株式会社
Priority date: 2021-05-13
Filing date: 2021-12-24
Publication date: 2022-11-17
Also published as: CN117296079A; US20240070894A1; JPWO2022239291A1

Abstract

物体検知装置は、カメラの撮像動作により生成された画像データを取得する取得部と、物体の位置に関して、画像データが示す画像に応じた第１の座標から、撮像平面に応じた第２の座標への座標変換を演算する制御部と、座標変換に用いられる設定情報を記憶する記憶部とを備える。設定情報は、複数の種類の物体における各種類の物体に関して、撮像平面からの高さを示す設定値を含む。制御部は、取得部により取得された画像データに基づいて、第１の座標における物体の位置と、複数の種類から判別された物体の種類とを関連付けた検知結果を取得し、検知結果における物体の種類に応じて、設定値を切り替えるように座標変換を演算して、第２の座標における物体の位置を算出する。

Description

物体検知装置及び方法

　本開示は、物体検知装置及び方法に関する。

　特許文献１は、複数のカメラによる映像から物体を検出する複数の検出部、及びそれらの検出結果に基づいて現在と過去の物体の位置を対応付ける統合追跡部を備える物体追跡システムを開示している。各検出部の検出結果は、それぞれ対応するカメラの撮像画像上の座標系における物体の下端（物体が地面と接する点など）の座標値及び物体の外接矩形を示す情報を含む。各検出部は、予めキャリブレーションにより得られた各カメラの位置、姿勢等を表すカメラパラメータを用いて、撮像画像上での座標値を複数のカメラの撮影空間内で定義される共通座標系における座標値に変換する。統合追跡部は、複数の検出部から得られた共通座標系の座標値を統合することで、物体を追跡する。

特開２０１９－１１４２８６０号公報

　本開示は、カメラにより撮像される撮像平面において各種物体の位置を精度良く検知することができる物体検知装置及び方法を提供する。

　本開示の一態様に係る物体検知装置は、カメラにより撮像される撮像平面における物体の位置を検知する。物体検知装置は、取得部と、制御部と、記憶部とを備える。取得部は、カメラの撮像動作により生成された画像データを取得する。制御部は、物体の位置に関して、画像データが示す画像に応じた第１の座標から、撮像平面に応じた第２の座標への座標変換を演算する。記憶部は、座標変換に用いられる設定情報を記憶する。設定情報は、複数の種類の物体における各種類の物体に関して、撮像平面からの高さを示す設定値を含む。制御部は、取得部により取得された画像データに基づいて、第１の座標における物体の位置と、複数の種類から判別された物体の種類とを関連付けた検知結果を取得する。制御部は、検知結果における物体の種類に応じて、設定値を切り替えるように座標変換を演算して、第２の座標における物体の位置を算出する。

　本開示の別の一態様に係る物体検知装置は、カメラにより撮像される撮像平面における物体の位置を検知する。物体検知装置は、取得部と、制御部と、記憶部と、情報入力部とを備える。取得部は、カメラの撮像動作により生成された画像データを取得する。制御部は、物体の位置に関して、画像データが示す画像に応じた第１の座標から、撮像平面に応じた第２の座標への座標変換を演算する。記憶部は、座標変換に用いられる設定情報を記憶する。情報入力部は、ユーザの操作において情報を取得する。設定情報は、複数の種類の物体における各種類の物体に関して、撮像平面からの高さを示す設定値を含む。情報入力部は、設定値を入力するユーザ操作において、複数の種類毎の設定値を取得する。制御部は、取得部により取得された画像データに基づいて、第１の座標における物体の位置と、複数の種類から判別された物体の種類とを関連付けた検知結果を取得する。制御部は、検知結果における物体の種類毎に、ユーザ操作において取得された設定値に応じて座標変換を演算して、第２の座標における物体の位置を算出する。

　これらの概括的かつ特定の態様は、システム、方法、及びコンピュータプログラム、並びに、それらの組み合わせにより、実現されてもよい。

　本開示における物体検知装置、方法、及びシステムによると、カメラにより撮像される撮像平面において各種物体の位置を精度良く検知することができる。

実施形態１に係る物体検知システムを説明するための図実施形態１に係る端末装置の構成を例示するブロック図実施形態１に係る動線抽出サーバの構成を例示するブロック図物体検知システムにおける動線情報を説明するための図物体検知システムにおける課題を説明するための図物体検知システムにおける動線抽出サーバの基本動作を例示するフローチャート実施形態１に係る物体検知システムの動線抽出サーバにおける位置算出処理を例示するフローチャート位置算出処理を説明するための図実施形態１の物体検知システムにおける物体特徴情報のデータ構造を例示する図動線抽出サーバに関する効果を説明するための図実施形態１の端末装置における設定処理を例示するフローチャート実施形態１の端末装置における設定画面の表示例を示す図実施形態１の動線抽出サーバにおける物体検知モデルの学習処理を例示するフローチャート実施形態２の物体検知システムにおける位置算出処理を例示するフローチャート実施形態２の物体検知システムにおける位置算出処理を説明するための図実施形態３の物体検知システムにおける位置算出処理を例示するフローチャート実施形態３の物体検知システムにおける位置算出処理を説明するための図

　以下、適宜図面を参照しながら、実施の形態を詳細に説明する。但し、必要以上に詳細な説明は省略する場合がある。例えば、既によく知られた事項の詳細説明や実質的に同一の構成に対する重複説明を省略する場合がある。これは、以下の説明が不必要に冗長になるのを避け、当業者の理解を容易にするためである。

　なお、出願人は、当業者が本開示を十分に理解するために添付図面および以下の説明を提供するのであって、これらによって特許請求の範囲に記載の主題を限定することを意図するものではない。

１．構成
　実施形態１に係る物体検知システムについて、図１を用いて説明する。図１は、本実施形態に係る物体検知システム１の概要を示す図である。

１－１．システムの概要
　本実施形態の物体検知システム１は、例えば図１に示すように、全方位カメラ２と、端末装置４と、動線抽出サーバ５とを備える。動線抽出サーバ５は、本実施形態における物体検知装置の一例である。本システム１は、例えば工場などの作業場６において、人物１１及び例えば貨物といった対象物１２等の位置を検知して、検知した位置に基づく動線を分析する用途に適用可能である。本システム１の端末装置４は、例えば作業場６の管理者またはデータ分析の担当者などのユーザ３が、動線を分析したり、予め検知対象に関する情報を設定するためのアノテーション作業を行ったりするために用いられる。

　以下、作業場６における鉛直方向をＺ方向という。また、Ｚ方向に直交する水平面上で互いに垂直な二方向をそれぞれＸ方向及びＹ方向という。さらに、＋Ｚ方向を上方といい、－Ｚ方向を下方という場合がある。さらに、Ｚ＝０の水平面を特に作業場６の水平面という場合がある。作業場６の水平面は、本実施形態における全方位カメラ２により撮像される撮像平面の一例である。

　図１では、作業場６において、人物１１及び対象物１２等といった検知対象の物体とは別に、各種設備２０などが設置された例を示す。図１の例において、全方位カメラ２は、作業場６を上方から俯瞰するように、作業場６の天井等に配置されている。本システム１では、例えば端末装置４により作業場６の地図上に動線が表示されるように、動線抽出サーバ５が、全方位カメラ２の撮像画像において人物１１及び対象物１２等の位置を検知した結果を、作業場６の水平面に応じた位置に対応付ける。

　本実施形態では、こうした物体検知システム１において、人物１１及び対象物１２等の作業場６における各種物体の位置を精度良く検知することができる物体検知装置及び方法を提供する。以下、本システム１における各部の構成を説明する。

　全方位カメラ２は、本システム１におけるカメラの一例である。全方位カメラ２は、例えば魚眼レンズなどの光学系、及びＣＣＤ又はＣＭＯＳイメージセンサ等の撮像素子を含む。全方位カメラ２は、例えば立体射影方式にしたがって撮像動作を行い、撮像画像を示す画像データを生成する。全方位カメラ２は、例えば画像データが動線抽出サーバ５に送信されるように、動線抽出サーバ５に接続される。

　動線抽出サーバ５は、例えばコンピュータのような情報処理装置で構成される。端末装置４は、例えばＰＣ（パーソナルコンピュータ）のような情報処理装置で構成される。端末装置４は、例えばインターネット等の通信ネットワークを介して動線抽出サーバ５と通信可能に、動線抽出サーバ５に接続される。動線抽出サーバ５及び端末装置４の構成について、それぞれ図２及び図３を用いて説明する。

１－２．端末装置の構成
　図２は、端末装置４の構成を例示するブロック図である。図２に例示する端末装置４は、制御部４０と、記憶部４１と、操作部４２と、表示部４３と、機器インタフェース４４と、ネットワークインタフェース４５とを備える。以下、インタフェースを「Ｉ／Ｆ」と略記する。

　制御部４０は、例えばソフトウェアと協働して所定の機能を実現するＣＰＵ又はＭＰＵを含む。制御部４０は、例えば端末装置４の全体動作を制御する。制御部４０は、記憶部４１に格納されたデータ及びプログラムを読み出して種々の演算処理を行い、各種の機能を実現する。上記のプログラムは、インターネット等の通信ネットワークから提供されてもよいし、可搬性を有する記録媒体に格納されていてもよい。制御部５０は、ＧＰＵ等の種々の半導体集積回路で構成されてもよい。

　記憶部４１は、端末装置４の機能を実現するために必要なプログラム及びデータを記憶する記憶媒体である。記憶部４１は、図２に示すように、格納部４１ａ及び一時記憶部４１ｂを含む。

　格納部４１ａは、所定の機能を実現するためのパラメータ、データ及び制御プログラム等を格納する。格納部４１ａは、例えばＨＤＤ又はＳＳＤで構成される。例えば、格納部４１ａは、上記のプログラムなどを格納する。格納部４１ａは、作業場６の地図を示す画像データを格納してもよい。

　操作部４２は、ユーザが操作を行う操作部材の総称である。操作部４２は、表示部４３と共にタッチパネルを構成してもよい。操作部４２はタッチパネルに限らず、例えば、キーボード、タッチパッド、ボタン及びスイッチ等であってもよい。操作部４２は、ユーザの操作において情報を取得する情報入力部の一例である。

　表示部４３は、例えば、液晶ディスプレイ又は有機ＥＬディスプレイで構成される出力部の一例である。表示部４３は、操作部４２を操作するための各種アイコン及び操作部４２から入力された情報など、各種の情報を表示してもよい。

　機器Ｉ／Ｆ４４は、端末装置４に、全方位カメラ２等の外部機器を接続するための回路である。機器Ｉ／Ｆ４４は、所定の通信規格にしたがい通信を行う。所定の規格には、ＵＳＢ、ＨＤＭＩ（登録商標）、ＩＥＥＥ１３９５、ＷｉＦｉ（登録商標）、Ｂｌｕｅｔｏｏｔｈ（登録商標）等が含まれる。機器Ｉ／Ｆ４４は、端末装置４において外部機器から諸情報を受信する取得部あるいは外部機器に諸情報を送信する出力部を構成してもよい。

　ネットワークＩ／Ｆ４５は、無線または有線の通信回線を介して端末装置４を通信ネットワークに接続するための回路である。ネットワークＩ／Ｆ４５は所定の通信規格に準拠した通信を行う。所定の通信規格には、ＩＥＥＥ８０２．３，ＩＥＥＥ８０２．１１ａ／１１ｂ／１１ｇ／１１ａｃ等の通信規格が含まれる。ネットワークＩ／Ｆ４５は、端末装置４において通信ネットワークを介して、諸情報を受信する取得部あるいは送信する出力部を構成してもよい。例えば、ネットワークＩ／Ｆ４５は、通信ネットワークを介して全方位カメラ２及び動線抽出サーバ５に接続してもよい。

１－３．動線抽出サーバの構成
　図３は、動線抽出サーバ５の構成を例示するブロック図である。図３に例示する動線抽出サーバ５は、制御部５０と、記憶部５１と、機器Ｉ／Ｆ５４と、ネットワークＩ／Ｆ５５とを備える。

　制御部５０は、例えばソフトウェアと協働して所定の機能を実現するＣＰＵ又はＭＰＵを含む。制御部５０は、例えば動線抽出サーバ５の全体動作を制御する。制御部５０は、記憶部５１に格納されたデータ及びプログラムを読み出して種々の演算処理を行い、各種の機能を実現する。例えば、制御部５０は、機能的構成として、物体検知部７１、座標変換部７２、及びモデル学習部７３を備える。

　物体検知部７１は、画像データに各種の画像認識技術を適用することで、画像データが示す画像において、予め設定された処理対象の物体の位置を検知して、処理対象の物体が映っている領域を認識する。物体検知部７１による検知結果には、例えば処理対象の領域を認識した時刻を示す情報が含まれてもよい。物体検知部７１は、例えば制御部５０が、記憶部５１等に予め格納された物体検知モデル７０を読み出して実行することで実現される。座標変換部７２は、画像中で認識された領域の位置に関して、所定の座標系間の座標変換を演算する。モデル学習部７３は、物体検知モデル７０の機械学習を実行する。こうした動線抽出サーバ５の各種機能による動作については後述する。

　制御部５０は、例えば上記のような動線抽出サーバ５の機能を実現するための命令群を含んだプログラムを実行する。上記のプログラムは、インターネット等の通信ネットワークから提供されてもよいし、可搬性を有する記録媒体に格納されていてもよい。また、制御部５０は、上記各機能を実現するように設計された専用の電子回路又は再構成可能な電子回路などのハードウェア回路であってもよい。制御部５０は、ＣＰＵ、ＭＰＵ、ＧＰＵ、ＧＰＧＰＵ、ＴＰＵ、マイコン、ＤＳＰ、ＦＰＧＡ及びＡＳＩＣ等の種々の半導体集積回路で構成されてもよい。

　記憶部５１は、動線抽出サーバ５の機能を実現するために必要なプログラム及びデータを記憶する記憶媒体である。記憶部５１は、図３に示すように、格納部５１ａ及び一時記憶部５１ｂを含む。

　格納部５１ａは、所定の機能を実現するためのパラメータ、データ及び制御プログラム等を格納する。格納部５１ａは、例えばＨＤＤ又はＳＳＤで構成される。例えば、格納部５１ａは、上記のプログラム、並びに地図情報Ｄ０、物体特徴情報Ｄ１、及び物体検知モデル７０などを格納する。

　地図情報Ｄ０は、所定の座標系において、例えば作業場６における各種設備２０の配置を示す。物体特徴情報Ｄ１は、物体検知部７１の処理対象の物体に関して、物体の種類毎に設定される物体の高さの特徴を示す。物体特徴情報Ｄ１の詳細については後述する。物体検知モデル７０は、例えば畳み込みニューラルネットワーク等のニューラルネットワークによる学習済みモデルである。物体検知モデル７０は、例えば学習結果を示す重みパラメータ等の各種パラメータを含む。

　一時記憶部５１ｂは、例えばＤＲＡＭ又はＳＲＡＭ等のＲＡＭで構成され、データを一時的に記憶（即ち保持）する。例えば、一時記憶部５１ｂは、全方位カメラ２から受信した画像データなどを保持する。また、一時記憶部５１ｂは、制御部５０の作業エリアとして機能してもよく、制御部５０の内部メモリにおける記憶領域で構成されてもよい。

　機器Ｉ／Ｆ５４は、動線抽出サーバ５に、全方位カメラ２等の外部機器を接続するための回路である。機器Ｉ／Ｆ５４は、例えば端末装置４の機器Ｉ／Ｆ４４と同様に、所定の通信規格にしたがい通信を行う。機器Ｉ／Ｆ５４は、全方位カメラ２からの画像データ等を受信する取得部の一例である。機器Ｉ／Ｆ５４は、動線抽出サーバ５において外部機器に諸情報を送信する出力部を構成してもよい。

　ネットワークＩ／Ｆ５５は、無線または有線の通信回線を介して動線抽出サーバ５を通信ネットワークに接続するための回路である。例えば端末装置４のネットワークＩ／Ｆ４５と同様に、ネットワークＩ／Ｆ５５は所定の通信規格に準拠した通信を行う。ネットワークＩ／Ｆ５５は、動線抽出サーバ５において通信ネットワークを介して、諸情報を受信する取得部あるいは送信する出力部を構成してもよい。例えば、ネットワークＩ／Ｆ５５は、通信ネットワークを介して全方位カメラ２及び端末装置４に接続してもよい。

　以上のような端末装置４及び動線抽出サーバ５の構成は一例であり、構成は上記の例に限らない。本実施形態の物体検知方法は、分散コンピューティングにおいて実行されてもよい。また、端末装置４及び動線抽出サーバ５における取得部は、それぞれ制御部４０、５０等における各種ソフトウェアとの協働によって実現されてもよい。各取得部は、各種記憶媒体（例えば格納部４１ａ、５１ａ）に格納された諸情報をそれぞれ制御部４０、５０の作業エリア（例えば一時記憶部４１ｂ、５１ｂ）に読み出すことによって、諸情報の取得を行ってもよい。

　また、物体検知モデル７０は、動線抽出サーバ５と通信可能に接続された外部の情報処理装置に格納されてもよい。また、動線抽出サーバ５において機器Ｉ／Ｆ５４及び／またはネットワークＩ／Ｆ５５は、ユーザの操作において情報を取得する情報入力部を構成してもよい。

２．動作
　以上のように構成される物体検知システム１、動線抽出サーバ５及び端末装置４の動作について、以下説明する。

　本システム１において、例えば図１に示すように、全方位カメラ２は、人物１１及び対象物１２等が移動中の作業場６において動画の撮像動作を行い、動画のフレーム周期毎に撮像画像を示す画像データを生成して、動線抽出サーバ５に送信する。

　動線抽出サーバ５は、全方位カメラ２から画像データを受信すると、受信した画像データを、例えば物体検知モデル７０に入力して、人物１１及び対象物１２等の位置を検知する。動線抽出サーバ５は、人物１１及び対象物１２等の位置に関して、画像データが示す画像に応じた座標から、作業場６の水平面に応じた座標への座標変換の演算を繰り返し、動線情報を生成する。動線情報は、例えば地図情報Ｄ０に人物１１及び対象物１２等の動線を関連付けた情報である。動線抽出サーバ５は、例えば生成した動線情報を端末装置４に送信する。

　端末装置４は、受信した動線情報を、例えば表示部４３に表示させる。図４は、図１の作業場６の撮像画像に基づいて、動線抽出サーバ５で生成された動線情報の表示例を示す。図４の例では、端末装置４の表示部４３に、人物１１の動線Ｆ１及び対象物１２の動線Ｆ２が表示されている。各動線Ｆ１、Ｆ２は、それぞれ動線抽出サーバ５により算出された、人物１１及び対象物１２の地図座標系による地図位置ｍ１及びｍ６の軌跡を示す。

　地図座標系は、全方位カメラ２による撮像平面に応じた座標系の一例であり、例えば地図情報Ｄ０に基づいて、作業場６における位置を示す。地図座標系は、例えば作業場６のＸ方向における位置を示すためのＸｍ座標と、Ｙ方向における位置を示すためのＹｍ座標とを含む。地図位置は、地図座標系における物体の位置を示す。

２－１．課題について
　以上のような動線Ｆ１，Ｆ２を抽出する際などに課題となる場面について、図５を用いて説明する。

　図５は、物体検知システム１における課題を説明するための図である。図５は、作業場６における全方位カメラ２、人物１１及び対象物１２をＹ方向から見た様子を示す。

　図５（Ａ）は、全方位カメラ２による撮像画像に人物１１の全身が映る場面を示す。図５（Ｂ）は、人物１１の一部のみが撮像画像に映る場面を示す。図５（Ｃ）は、人物１１とは別の対象物１２が撮像画像に映る場面を示す。

　図５（Ａ）の例では、動線抽出サーバ５の物体検知モデル７０は、全方位カメラ２からの撮像画像において、人物１１の全身の検知領域Ａ１を認識する。検知領域Ａ１は、物体検知モデル７０による全身の位置の検知結果を示す。本例において、動線抽出サーバ５は、撮像画像上の検知領域Ａ１の中心を示す検知位置から、地図位置ｍ１を算出する。地図位置ｍ１は、例えば作業場６において、検知領域Ａ１の検知位置に対応する対象位置ｃ１から作業場６の水平面６０に下ろした垂線が、水平面６０と交わる点の位置として算出される。対象位置は、撮像画像上の検知位置に対応する作業場６の空間上の位置を示す。

　本実施形態の動線抽出サーバ５は、物体特徴情報Ｄ１において予め設定された物体の高さに関するパラメータである基準高さを用いて、上記のような位置算出を行う。図５（Ａ）の例では、基準高さＨ１を用いることで、対象位置ｃ１に応じた地図位置ｍ１が、精度良く算出できる。

　一方、図５（Ｂ）の例では、物体検知モデル７０は、人物１１の上半身の検知領域Ａ２を認識する。図５（Ｂ）の例では、全方位カメラ２から人物１１へ向かう方向において、人物１１の体の一部が作業場６の設備２０に隠れて撮像画像に映らないことから、上半身の検知領域Ａ２の対象位置ｃ２は、図５（Ａ）の全身の検知領域Ａ１の対象位置ｃ１より上方にある。この場合において、検知領域Ａ２の位置算出を図５（Ａ）の場合と同様に行うと、算出される位置ｍ２’が、対象位置ｃ２に応じた地図位置ｍ２からずれてしまう。

　また、図５（Ｃ）の例では、物体検知モデル７０は、対象物１２の検知領域Ａ６を認識する。ここで、対象物１２と人物１１の高さが異なることから、検知領域Ａ６の対象位置ｃ６は、図５（Ａ）の例の対象位置ｃ１より上方にある。よって、この場合も、検知領域Ａ６の位置算出を上記と同様に行うと、図５（Ｃ）に示すように、算出される位置ｍ６’が、対象位置ｃ６に応じた地図位置ｍ６からずれてしまう。

　以上のように、撮像画像における検知領域Ａ１～Ａ６の種類に依らずに位置算出で同じ基準高さＨ１を用いると、算出される位置が、各検知領域Ａ１～Ａ６の地図位置ｍ１～ｍ６からずれてしまうという課題が考えられる。

　そこで、本実施形態の動線抽出サーバ５では、物体特徴情報Ｄ１において、物体検知部７１の処理対象の種類に応じた基準高さを予め設定することで、位置算出において当該種類に応じた基準高さを用いて座標変換を行う。これにより、例えば図５（Ｂ）のように人物１１の体の一部の検知領域が認識されたり、図５（Ｃ）のように図５（Ａ）の人物１１とは高さが異なる対象物１２の検知領域が認識されたりする場合においても、地図位置ｍ２，ｍ６を精度良く算出することができる。

　また、本システム１において、端末装置４は、上記のような動線抽出サーバ５の動作に関する各種の事前設定を行うためのユーザ操作を受け付ける。例えば、本実施形態の端末装置４は、物体検知モデル７０の学習前に、ユーザ３等によるアノテーション作業において入力されたアノテーション情報など、各種設定情報を取得して、動線抽出サーバ５に送信する。このような設定情報に基づく動線抽出サーバ５の動作について、以下説明する。

２－２．基本動作
　以下では、本システム１における動線抽出サーバ５の基本的な動作について、図６を用いて説明する。

　図６は、物体検知システム１における動線抽出サーバ５の基本動作を例示するフローチャートである。図６のフローチャートに示す各処理は、例えば動線抽出サーバ５の制御部５０が、物体検知部７１及び座標変換部７２として機能することにより実行される。

　まず、制御部５０は、例えば機器Ｉ／Ｆ５４から１フレームの画像データを取得する（Ｓ１）。機器Ｉ／Ｆ５４は、全方位カメラ２から順次、各フレームの画像データを受信する。

　次に、制御部５０は、物体検知部７１として機能して、取得した画像データが示す画像において、物体検知の画像認識処理を行う。これにより制御部５０は、人物１１及び対象物１２の検知領域を認識する（Ｓ２）。そして、制御部５０は、検知結果を取得して、例えば一時記憶部５１ｂに保持する。

　ステップＳ２において、物体検知部７１は、検知結果として、例えば予め設定された複数のクラスの何れかに分類される処理対象が画像において映っている領域を示す検知領域を、各クラスに対応付けて出力する。複数のクラスは、例えば、人の全身、上半身及び頭部、並びに貨物などの対象物を含む。このように本実施形態において、物体検知部７１の処理対象の物体には、物体の全体に限らず、物体の部分が含まれる。検知領域は、例えば画像上の水平位置及び垂直位置で規定され、例えば処理対象の物体を矩形状に囲む領域を示す（図８（Ａ）参照）。

　次に、制御部５０は、座標変換部７２として機能して、検知された物体の位置に関して、画像座標系から地図座標系への座標変換を演算することで、作業場６の水平面に応じた物体の位置を算出する（Ｓ３）。画像座標系は、全方位カメラ２による撮像画像における画素の配列に応じた二次元の座標系である。本実施形態において、画像座標系は第１の座標系の一例であり、地図座標系は第２の座標系の一例である。

　上記の位置算出処理（Ｓ３）において、制御部５０は、例えば図５に示すように、矩形状の検知領域の中心を示す検知位置から、物体特徴情報Ｄ１に基づく物体のクラス毎の基準高さを用いることで、物体の地図位置を算出する。制御部５０は、算出した地図位置を例えば一時記憶部５１ｂに蓄積する。位置算出処理（Ｓ３）の詳細は後述する。

　制御部５０は、取得したフレームにおいて位置算出処理（Ｓ３）を実行した後、例えば機器Ｉ／Ｆ５４において、全方位カメラ２から次のフレームの画像データが受信されたか否かを判断する（Ｓ４）。次のフレームが受信された場合（Ｓ４でＹＥＳ）、制御部５０は、当該フレームにおいてステップＳ１～Ｓ３の処理を繰り返す。

　制御部５０は、次のフレームが受信されないと判断すると（Ｓ４でＮＯ）、例えば地図情報Ｄ０と、各フレームにおいてステップＳ３で算出した物体の地図位置とに基づいて、動線情報を生成する（Ｓ５）。制御部５０は、生成した動線情報を、例えばネットワークＩ／Ｆ５５を介して端末装置４に送信する。図４の例では、人物１１及び対象物１２の各地図位置ｍ１，ｍ６から、動線Ｆ１，Ｆ２を含む動線情報が生成され、端末装置４に送信される。

　制御部５０は、動線情報を生成した（Ｓ５）後、本フローチャートに示す処理を終了する。

　以上の処理によると、全方位カメラ２からの撮像画像における物体の検知領域（Ｓ２）に基づき、当該物体の地図位置を算出する（Ｓ３）。このような地図位置の算出をフレーム毎に繰り返すことで、作業場６を移動する物体の動線情報が得られる（Ｓ５）。本実施形態では、図５（Ａ）～（Ｃ）のように物体の種類により検知領域が異なる場合であっても、各物体の動線を精度良く得る観点から、位置算出処理（Ｓ３）において、各検知領域の検知位置に基づく地図位置が算出される。

　なお、動線情報を生成する処理（Ｓ５）は、次のフレームが受信されなくなった（Ｓ４でＮＯ）後に限らず、所定数のフレーム（例えば１フレームまたは数フレーム）において、ステップＳ１～Ｓ３の処理を実行する度に行われてもよい。また、上記のステップＳ１では、機器Ｉ／Ｆ５４に限らず、ネットワークＩ／Ｆ５５を介して画像データが取得されてもよい。また、ステップＳ１では、例えば格納部５１ａから、予め格納された全方位カメラ２による録画の動画データを読み出すことで、１フレームの画像データが取得されてもよい。この場合、ステップＳ４に代えて、動画データにおける全てのフレームが取得されたか否かが判断され、全てのフレームが選択されるまで、ステップＳ１～Ｓ４の処理を繰り返す。

２－３．位置算出処理
　図６のステップＳ３における位置算出処理の詳細について、図７～図１０を用いて説明する。

　図７は、本実施形態に係る物体検知システム１の動線抽出サーバ５における位置算出処理（Ｓ３）を例示するフローチャートである。図８は、位置算出処理（Ｓ３）を説明するための図である。図９は、本実施形態の物体検知システム１における物体特徴情報Ｄ１のデータ構造を例示する図である。図１０は、動線抽出サーバ５に関する効果を説明するための図である。

　図７のフローチャートにおいて、まず、制御部５０は、図４のステップＳ２で認識された検知領域の検知位置を算出する（Ｓ１１）。

　図８（Ａ）は、図６のステップＳ２で取得された画像データが示す撮像画像Ｉｍを例示する。図８（Ａ）では、撮像画像Ｉｍにおいて人物１１の全身の検知領域Ａ１が認識されている。図８（Ａ）の例では、ステップＳ１１において、制御部５０は、撮像画像Ｉｍの画像座標系における検知領域Ａ１の検知位置Ｃ１を算出する。画像座標系は、例えば撮像画像Ｉｍの水平方向における位置を示すＨ座標と、垂直方向における位置を示すＶ座標とを含む。

　次に、制御部５０は、例えば一時記憶部５１ｂを参照して、物体検知部７１により物体の検知領域と関連付けて出力されたクラスに従い、物体毎のクラスを判定する（Ｓ１２）。図８（Ａ）の例では、検知領域Ａ１の物体のクラスは人物の全身であると判定される。

　制御部５０は、物体毎にクラスを判定した（Ｓ１２）後、物体特徴情報Ｄ１を参照して、判定した各クラスの基準高さを取得する（Ｓ１３）。

　図９に例示する物体特徴情報Ｄ１は、予め物体検知部７１の処理対象として設定された「クラス」と「基準高さ」とを対応付けて管理する。基準高さは、例えば作業場６における水平面６０から検知領域の検知位置に応じた対象位置までの鉛直方向の距離を示す。図８（Ａ）では、ステップＳ１３において、例えば図９の物体特徴情報Ｄ１に基づき、「全身」のクラスに対応する基準高さ「Ｈ１」が取得される。図９に例示する物体特徴情報Ｄ１は、全身の他に「上半身」、「頭部」及び「対象物」のクラスにそれぞれ対応する基準高さ「Ｈ２」、「Ｈ３」及び「Ｈ６」を格納している。

　次に、制御部５０は、ステップＳ１１で算出した検知位置から、対応する各物体の地図位置を算出する（Ｓ１４）。制御部５０は、ステップＳ１３で取得したクラスの基準高さを用いて、例えば所定の演算式を適用することで、画像座標系における検知位置から、地図位置を算出するための座標変換を演算する。所定の演算式は、例えば立体射影の逆変換を含む変換式である。

　図８（Ｂ）は、ステップＳ１４の処理を説明するための図である。図８（Ｂ）は、図８（Ａ）の撮像画像Ｉｍが撮像されたときの作業場６を、図５（Ａ）と同様にＹ方向から見た図である。図８（Ｂ）における対象位置ｃ１は、図８（Ａ）の撮像画像Ｉｍにおける検知領域Ａ１の検知位置Ｃ１に応じた作業場６での位置を示す。以下では、図８（Ａ）の撮像画像Ｉｍにおいて、検知位置Ｃ１が、撮像画像Ｉｍの画像中心３０から作業場６のＸ方向に対応した方向に映る例を説明する。

　図８（Ｂ）に示すように、対象位置ｃ１が全方位カメラ２のカメラ中心から角度θ１にあるとき、例えば、まず、作業場６の水平面６０における全方位カメラ２の鉛直下方から、地図位置ｍ１までの距離Ｒ１が算出される。距離Ｒ１の算出方法について、以下説明する。

　立体射影に基づく座標変換を適用する場合、検知位置Ｃ１が全方位カメラ２の撮像素子に映る撮像素子の中心からの位置ｙ（ミリメートル：ｍｍ）は、全方位カメラ２のレンズの焦点距離ｆ（ｍｍ）として、次式（１）のように表される。

　また、位置ｙについて、次式（２）が成り立つ。式（２）は、位置ｙと撮像素子の半径Ｌ（ｍｍ）の比、及び図８（Ａ）に例示する撮像画像Ｉｍの画像中心３０から検知位置Ｃ１が映る位置までの距離ｐ１（ピクセル）と半径Ｌに対応して撮影可能な範囲を示す径ｐ０（ピクセル）の比が等しい関係に基づく。

　上式（１），（２）から、角度θ１は次式（３）のように表される。

　また、図８（Ｂ）に示すように、距離Ｒ１は、全方位カメラ２の水平面６０からの高さｈ、全身のクラスの基準高さＨ１及び角度θ１に基づいて、次式（４）のように表される。

　図７のステップＳ１４において制御部５０は、例えば上式（３），（４）に基づく演算処理により、画像座標系における検知位置Ｃ１から距離Ｒ１を算出して、地図位置ｍ１に対応する、全方位カメラ２を基準とする作業場６に応じた座標系での座標を演算する。制御部５０は、例えば当該座標から、アフィン変換などを含む所定の演算により、地図位置ｍ１の座標を算出することができる。

　制御部５０は、例えば算出した地図位置ｍ１（Ｓ１４）を一時記憶部５１ｂに保持して、位置算出処理（図６のＳ３）を終了する。その後、制御部５０は、ステップＳ４に進み、例えば以上の処理を所定の周期で繰り返す（Ｓ１～Ｓ４）。

　以上の処理によると、検知結果に基づき、物体毎に判定したクラス（Ｓ１２）に応じた基準高さＨ１～Ｈ６（Ｓ１３）を用いて、画像座標系における検知領域の検知位置（Ｓ１１）から、各物体の地図位置を算出する（Ｓ１４）。これにより、高さが異なる複数の種類の物体を物体検知の対象とする物体検知システム１において、精度良く地図位置を算出することができる。

　図１０（Ａ），（Ｂ）は、それぞれ図５（Ｂ），（Ｃ）と同様の場面において、物体の種類の一例として物体のクラスに応じた基準高さにより、地図位置ｍ２，ｍ６を算出する例を示す。図１０（Ａ）では、人物１１の上半身の地図位置ｍ２が、上半身のクラスの基準高さＨ２を用いて精度良く算出される。図１０（Ｂ）では、対象物１２の地図位置ｍ６が、対象物のクラスの基準高さＨ６を用いて精度良く算出される。

　このように、物体の種類に応じて設定された基準高さＨ１～Ｈ６を選択的に用いることで、異なる高さの物体が検知される図５（Ａ）～（Ｃ）の何れの場面においても、各々の検知領域Ａ１～Ａ６に基づく地図位置ｍ１～ｍ６が精度良く得られる。

２－４．端末装置における設定処理
　以上のようなクラス毎の基準高さの設定に関する設定処理について、図１１及び図１２を用いて説明する。

　本実施形態の物体検知システム１では、例えば端末装置４により、物体検知モデル７０の正解データを作成するためのアノテーション作業が行われる際に、物体特徴情報Ｄ１の基準高さを設定可能である。正解データは、物体検知モデル７０の機械学習において正解として用いられるデータであり、例えば、各クラスの物体が映った画像上の領域を正解とする正解ラベルを関連付けた画像データを含む。

　図１１は、本実施形態の端末装置４における設定処理を例示するフローチャートである。図１２は、端末装置４における設定画面の表示例を示す図である。図１１のフローチャートに示す各処理は、例えば端末装置４の制御部４０により実行される。

　図１２の例において、表示部４３は、追加ボタン８１、入力欄８２、終了ボタン８３、及び入力エリア８４を表示している。追加ボタン８１は、物体検知部７１による処理対象、すなわち物体検知モデル７０の検知対象のクラスを追加するためのボタンである。終了ボタン８３は、例えばクラスの名称を示すクラス名等の設定を終了するためボタンである

　まず、制御部４０は、入力欄８２においてクラス名を入力するユーザ操作を受け付けることで、例えば物体特徴情報Ｄ１におけるクラスの値を追加して、入力されたクラス名を設定する（Ｓ２１）。入力欄８２は、例えば追加ボタン８１を押下するユーザ操作が入力されることに応じて、表示部４３に表示される。図１２の例では、入力欄８２に入力された「全身」及び「上半身」のクラスが物体特徴情報Ｄ１に追加されて、各々のクラス名が設定される。

　次に、制御部４０は、入力欄８２において基準高さを入力するユーザ操作を受け付けて、物体特徴情報Ｄ１において対応するクラスの基準高さを設定する（Ｓ２２）。図１２の例において、全身のクラスの基準高さが「９０」に設定され、上半身のクラスの基準高さが「１３０」に設定される。

　制御部４０は、例えば終了ボタン８３の押下などクラスの設定を終了するためのユーザ操作が入力されるまで（Ｓ２３でＮＯ）、ステップＳ２１～Ｓ２３の処理を繰り返す。

　クラスの編集を終了するユーザ操作が入力されると（Ｓ２３でＹＥＳ）、制御部４０は、アノテーション作業を行うためのユーザ操作を受け付けて、アノテーション情報を取得する（Ｓ２４）。制御部４０は、例えば、入力エリア８４において、全方位カメラ２から予め取得された画像データに基づく撮像画像Ｉｍを表示して、アノテーション作業を行うユーザ操作を受け付ける。図１２の入力エリア８４における撮像画像Ｉｍは、人物２１の上半身が映っている例を示す。例えば、図１２の入力エリア８４において、上半身のクラスに対応付けて、人物２１の上半身を囲う領域Ｂ１を描画するユーザ操作が入力される。

　ステップＳ２４において、例えば正解データを作成するために予め取得された所定数の撮像画像に対して、以上のようなユーザ操作を繰り返し受け付けることで、クラスと撮像画像上の各クラスが映った領域とを対応付けたアノテーション情報が取得される。

　アノテーション情報を取得（Ｓ２４）後、制御部４０は、アノテーション情報及び物体特徴情報Ｄ１を、例えばネットワークＩ／Ｆ４５を介して動線抽出サーバ５に送信する（Ｓ２５）。その後、制御部４０は、本フローチャートに示す処理を終了する。

　以上の処理によると、物体特徴情報Ｄ１におけるクラス名及び基準高さが設定され（Ｓ２１，Ｓ２２）、取得されたアノテーション情報（Ｓ２４）と共に動線抽出サーバ５に送信される（Ｓ２５）。これにより、例えばクラス名と併せて基準高さを設定可能とすることで、物体特徴情報Ｄ１において検知対象のクラスと対応付けてクラス毎の基準高さを管理しやすくすることができる。

　なお、ステップＳ２５において、アノテーション情報及び物体特徴情報Ｄ１が動線抽出サーバ５に送信される例を説明したが、ステップＳ２５の処理はこれに限らない。例えば、ステップＳ２５において各情報が格納部４１ａに格納されてもよい。この場合、例えばユーザ３等が格納部４１ａから各情報を読み出すための操作を行って、動線抽出サーバ５の機器Ｉ／Ｆ５４に接続可能な操作機器などにより各情報を入力してもよい。

　また、基準高さの設定（Ｓ２２）は、ステップＳ２１の後に限らず、例えばアノテーション情報を取得した（Ｓ２４）後に実行されてもよい。例えば、図１２の入力欄８２において、入力済みの基準高さを編集するユーザ操作を受け付けてもよい。

２－５．物体検知モデルの学習処理
　以上のように取得されるアノテーション情報に基づき、物体検知モデル７０を生成する学習処理について、図１３を用いて説明する。本実施形態の物体検知システム１では、例えば動線抽出サーバ５において、物体検知モデル７０の学習処理が実行される。

　図１３は、本実施形態の動線抽出サーバ５における物体検知モデル７０の学習処理を例示するフローチャートである。図１３のフローチャートに示す各処理は、例えば動線抽出サーバ５の制御部５０が、モデル学習部７３として機能することで実行される。

　まず、制御部５０は、例えば端末装置４からネットワークＩ／Ｆ５５により、アノテーシ情報及び物体特徴情報Ｄ１を取得する（Ｓ３１）。ネットワークＩ／Ｆ５５は、物体特徴情報Ｄ１として、アノテーション作業におけるユーザ操作において、複数のクラス毎の基準高さを取得する。制御部５０は、例えばアノテーション情報を一時記憶部５１ｂに保持し、物体特徴情報Ｄ１を格納部５１ａに格納する。

　制御部５０は、例えば、アノテーション情報に基づく正解データを用いた教師あり学習によって、物体検知モデル７０を生成する（Ｓ３２）。制御部５０は、生成した物体検知モデル７０を例えば格納部５１ａに格納する（Ｓ３３）と、本フローチャートに示す処理を終了する。

　以上の処理によると、例えば全方位カメラ２からの画像データにおいて、設定処理（図１１）によるクラスが関連付けられたアノテーション情報に基づき、物体検知モデル７０が生成される。これにより、全方位カメラ２による撮像画像において、ユーザ３等の所望のクラスの検知領域を精度良く認識可能な物体検知モデル７０が得られる。

　なお、物体検知モデル７０の学習処理は、動線抽出サーバ５に限らず、例えば端末装置４において制御部４０により実行されてもよい。例えば動線抽出サーバ５は、図６の動作を開始する前に、機器Ｉ／Ｆ５４等を介して、端末装置４から学習済みの物体検知モデル７０を取得してもよい。また、物体検知システム１の外部の情報処理装置により学習処理が実行され、学習済みの物体検知モデル７０が動線抽出サーバ５に送信されてもよい。

３．効果等
　以上のように、本実施形態における動線抽出サーバ５は、全方位カメラ２（カメラの一例）により撮像される作業場６の水平面（撮像平面の一例）における物体の位置を検知する物体検知装置の一例である。動線抽出サーバ５は、取得部の一例として機器Ｉ／Ｆ５４と、制御部５０と、記憶部５１とを備える。機器Ｉ／Ｆ５４は、全方位カメラ２の撮像動作により生成された画像データを取得する（Ｓ１）。制御部５０は、物体の位置に関して、画像データが示す画像に応じた第１の座標の一例として、画像座標系における検知位置を示す座標から、撮像平面に応じた第２の座標の一例として、地図座標系における地図位置ｍ１～ｍ６を示す座標への座標変換を演算する（Ｓ３）。記憶部５１は、座標変換に用いられる設定情報の一例として物体特徴情報Ｄ１を記憶する。物体特徴情報Ｄ１は、複数の種類の物体における各種類の物体に関して、撮像平面からの高さを示す設定値の一例として、基準高さＨ１～Ｈ６を含む。制御部５０は、機器Ｉ／Ｆ５４により取得された画像データに基づいて、第１の座標における物体の位置の一例として検知位置と、複数の種類から判別された物体の種類の一例として物体のクラスとを関連付けた検知結果を取得する（Ｓ２）。制御部５０は、検知結果における物体の種類に応じて、基準高さＨ１～Ｈ６を切り替えるように座標変換を演算して、第２の座標における物体の位置の一例として地図位置ｍ１～ｍ６を算出する（Ｓ３，Ｓ１１～Ｓ１４）。

　以上の動線抽出サーバ５によると、画像データに基づく物体の検知結果から、物体特徴情報Ｄ１において複数の種類毎に設定された基準高さＨ１～Ｈ６に応じて、各物体の地図位置ｍ１～ｍ６が算出される。これにより、全方位カメラ２により撮像される撮像平面において各種物体の位置を精度良く検知することができる。

　本実施形態において、複数の種類の一例であるクラスは、一物体の全体を示す種類及び当該物体における部分を示す種類の一例として、人物の全身及び上半身を含む。物体特徴情報Ｄ１は、全体の種類及び部分の種類における各種類に関して、異なる基準高さＨ１，Ｈ２を含む。これにより、例えば人物の上半身といった部分の検知領域Ａ２が認識されるとき、当該部分の種類に応じた基準高さＨ２を用いて、地図位置ｍ２を精度良く算出することができる。

　本実施形態において、制御部５０は、複数の種類の一例として、複数のクラスの物体を検知する物体検知モデル７０に、取得された画像データを入力して、検知結果を出力する（Ｓ２）。物体検知モデル７０は、全方位カメラ２に基づく画像データと、複数のクラスの各クラスを示すラベルとを関連付けた正解データを用いた機械学習により生成される。これにより、物体検知モデル７０による物体の検知結果において、予め設定されたクラスを関連付けて出力することができ、検知結果のクラスに基づいて、物体の種類を判別することができる（Ｓ１２）。

　本実施形態において、動線抽出サーバ５は、ユーザの操作において情報を取得する情報入力部の一例としてネットワークＩ／Ｆ５５を備える。ネットワークＩ／Ｆ５５は、物体検知モデル７０の正解データを作成するためのアノテーション作業におけるユーザ操作において、複数のクラス毎の基準高さを取得する（Ｓ３１）。

　なお、物体特徴情報Ｄ１は、端末装置４が物体検知装置として動作することにより設定されてもよい。この場合、情報入力部の一例として操作部４２を備える端末装置４において、操作部４２は、アノテーション作業におけるユーザ操作において、複数のクラス毎の基準高さを取得する（Ｓ２２）。

　本実施形態における物体検知方法は、全方位カメラ２により撮像される撮像平面における物体の位置を検知する方法である。コンピュータの一例である動線抽出サーバ５の記憶部５１には、物体の位置に関して、全方位カメラ２の撮像動作により生成された画像データが示す画像に応じた第１の座標から、撮像平面に応じた第２の座標への座標変換に用いられる物体特徴情報Ｄ１が格納されている。物体特徴情報Ｄ１は、複数のクラス（種類の一例）の物体における各クラスの物体に関して、撮像平面からの高さを示す基準高さを含む。本方法は、動線抽出サーバ５の制御部５０が、画像データを取得するステップ（Ｓ１）と、取得された画像データに基づいて、第１の座標における物体の位置の一例として検知位置と、複数のクラスから判別された物体のクラスとを関連付けた検知結果を取得するステップと（Ｓ２）、検知結果における物体のクラスに応じて、基準高さを切り替えるように座標変換を演算して、第２の座標における物体の位置の一例として地図位置ｍ１～ｍ６を算出するステップ（Ｓ３，Ｓ１～Ｓ１４）とを含む。

　本実施形態において、以上のような物体検知方法をコンピュータに実行させるためのプログラムが提供される。以上の物体検知方法及びプログラムによると、全方位カメラ２により撮像される撮像平面において各種物体の位置を精度良く検知することができる。

　本実施形態における動線抽出サーバ５は、全方位カメラ２（カメラの一例）により撮像される作業場６の水平面（撮像平面の一例）における物体の位置を検知する物体検知装置の一例である。動線抽出サーバ５は、取得部の一例として機器Ｉ／Ｆ５４と、制御部５０と、記憶部５１と、情報入力部の一例としてネットワークＩ／Ｆ５５とを備える。機器Ｉ／Ｆ５４は、全方位カメラ２の撮像動作により生成された画像データを取得する（Ｓ１）。制御部５０は、物体の位置に関して、画像データが示す画像に応じた第１の座標の一例として、画像座標系における検知位置を示す座標から、撮像平面に応じた第２の座標の一例として、地図座標系における地図位置ｍ１～ｍ６を示す座標への座標変換を演算する（Ｓ３）。記憶部５１は、座標変換に用いられる設定情報の一例として物体特徴情報Ｄ１を記憶する。ネットワークＩ／Ｆ５５は、ユーザの操作において情報を取得する。物体特徴情報Ｄ１は、複数の種類の物体における各種類の物体に関して、撮像平面からの高さを示す設定値の一例として、基準高さＨ１～Ｈ６を含む。ネットワークＩ／Ｆ５５は、設定値を入力するユーザ操作において、複数のクラス（複数の種類の一例）毎の基準高さＨ１～Ｈ６を取得する（Ｓ３１）。制御部５０は、機器Ｉ／Ｆ５４により取得された画像データに基づいて、第１の座標における物体の位置の一例として検知位置と、複数の種類から判別された物体のクラスとを関連付けた検知結果を取得する（Ｓ２）。制御部５０は、検知結果における物体のクラス毎に、ユーザ操作において取得された基準高さＨ１～Ｈ６に応じて座標変換を演算して、第２の座標における物体の位置の一例として地図位置ｍ１～ｍ６を算出する（Ｓ３，Ｓ１１～Ｓ１４，Ｓ３１）。

（実施形態２）
　実施形態１では、物体の検知結果に応じて判定したクラスの基準高さを用いて、地図位置を算出する動線抽出サーバ５を説明した。実施形態２では、物体検知システム１において、複数のクラスの検知領域が重畳して認識されるとき、所定の優先度に応じたクラスの基準高さを用いて、地図位置を算出する動線抽出サーバ５を説明する。

　以下、実施形態１に係る動線抽出サーバ５と同様の構成、動作の説明は適宜省略して、本実施形態に係る動線抽出サーバ５を説明する。

　本実施形態の動線抽出サーバ５は、撮像画像において重畳する複数のクラスの検知領域を認識した場合、予め設定された所定の優先度に従って１つのクラスを選択して、当該クラスの基準高さを用いて地図位置を算出する。本実施形態において、例えば物体特徴情報Ｄ１は、各クラスに優先度を示す情報を関連付けて含む。

　所定の優先度は、物体検知モデル７０の検知対象のクラスに関して、例えば高い優先度のクラスほど早い順序となるように、予め設定されたクラスの順序を示す。以下では、全身の優先度が最も高く、次に上半身、その次に頭部の順序として優先度が設定された例を用いて説明する。

　図１４は、本実施形態の物体検知システム１における位置算出処理を例示するフローチャートである。本実施形態の動線抽出サーバ５において、例えば制御部５０は、実施形態１の位置算出処理（図７）におけるステップＳ１１～Ｓ１２、Ｓ１３～Ｓ１４と同様の処理に加えて、優先度に関する処理（Ｓ４１～Ｓ４２）を実行する。

　まず、制御部５０は、１フレームの画像データ（図６のＳ１）に基づく検知結果から、検知領域を認識した物体毎のクラスを判定後（Ｓ１２）、当該画像データが示す撮像画像において、重なり合った複数の検知領域が認識されたか否かを判断する（Ｓ４１）。ステップＳ４１において、制御部５０は、同時刻に複数のクラスの検知領域が認識され、且つ当該複数の検知領域が重畳するか否かを判断する。

　図１５は、本実施形態の物体検知システム１における位置算出処理を説明するための図である。図１５は、撮像画像Ｉｍにおいて人物１１のそれぞれ全身、上半身及び頭部の検知領域Ａ１，Ａ２及びＡ３が認識された例を示す。図１５の例では、各検知領域Ａ１～Ａ３が撮像画像Ｉｍ上で重なって認識されている。

　重なり合った複数の検知領域が認識された場合（Ｓ４１でＹＥＳ）、制御部５０は、当該複数のクラスのうち、優先度が最も高いクラスを選択する（Ｓ４２）。図１５の例では、全身、上半身及び頭部のクラスのうち、優先度が最も高い全身のクラスが選択される。

　制御部５０は、優先度が最も高いクラスを選択後（Ｓ４２）、物体特徴情報Ｄ１から、選択結果に該当するクラスの基準高さを取得する（Ｓ１３）。

　一方、重なり合った複数の検知領域が認識されていない場合（Ｓ４１でＮＯ）、制御部５０は、ステップＳ１２の判定結果に該当するクラスの基準高さを取得する（Ｓ１３）。

　以上の処理によると、重なり合った複数の検知領域が認識された場合であっても（Ｓ４１でＹＥＳ）、優先度の高いクラスが選択され（Ｓ４２）、当該クラスの基準高さが取得される（Ｓ１３）。これにより、優先度の高いクラスの基準高さを用いて地図位置を算出する（Ｓ１４）ことができる。

　以上のように、本実施形態の動線抽出サーバ５において、物体特徴情報Ｄ１は、複数のクラスに関して設定された所定の順序を示す情報の一例として、優先度を示す情報を含む。制御部５０は、取得された画像データが示す画像において、複数のクラス（種類の一例）の物体のうちの２以上のクラスの物体が互いに重畳して検知されたとき（Ｓ４１でＹＥＳ）、優先度に従って、２以上のクラスから一のクラスを選択して（Ｓ４２）、第２の座標における選択した種類の物体の位置の一例として、選択したクラスの物体の地図位置を算出する（Ｓ１３～Ｓ１４）。

　これにより、重なり合った複数のクラスの検知領域が認識された場合であっても、当該複数のクラスの物体に関して、優先度が高い物体の検知領域に基づいて精度良く地図位置を算出することができる。なお、重なり合った複数の検知領域が認識されたか否かの判断（Ｓ４１）において、所定の条件が設定されてもよい。例えば、複数の検知領域のうちの一方の領域の９０％以上が他方の領域に含まれる場合に、複数の検知領域が重なり合って認識された（Ｓ４１でＹＥＳ）と判断してもよい。

（実施形態３）
　実施形態２では、重なり合った複数の検知領域が認識されるとき、予め設定された優先度に従って地図位置を算出する動線抽出サーバ５を説明した。実施形態３では、物体検知システム１において、重なり合った複数の検知領域が認識されるとき、検知領域に対応する物体の動線との関係に基づいて地図位置を算出する動線抽出サーバ５を説明する。

　以下、実施形態１，２に係る動線抽出サーバ５と同様の構成、動作の説明は適宜省略して、本実施形態に係る動線抽出サーバ５を説明する。

　本実施形態の動線抽出サーバ５は、撮像画像において重畳する複数のクラスの検知領域を認識した場合、直前のフレームの画像データに基づく検知結果と比較して、動線として接続しやすいとみなせるクラスを選択する。

　図１６は、本実施形態の物体検知システム１における位置算出処理を例示するフローチャートである。本実施形態の動線抽出サーバ５において、例えば制御部５０は、実施形態２の位置算出処理（図１４）におけるステップＳ１１～Ｓ１４、Ｓ４１～Ｓ４２と同様の処理に加えて、直前の検知結果との比較に関する処理（Ｓ５１～Ｓ５２）を実行する。

　制御部５０は、重なり合った複数の検知領域が認識されたと判断すると（Ｓ４１でＹＥＳ）、前回の画像認識処理（図４のＳ２）による検知結果において、今回の各検知領域と同じクラスの検知領域が、撮像画像上での近傍に存在するか否かを判断する（Ｓ５１）。制御部５０は、ステップＳ５１において例えば一時記憶部５１ｂに保持された前回の検知結果を参照して、前回と今回の同じクラスの検知領域の検知位置間の距離が所定距離より小さい検知領域が、前回の検知結果に存在するか否かを判断する。所定距離は、画像上で近傍とみなせる程度に小さい距離として予め設定される。例えば所定距離は、検知領域のサイズに応じて、Ｈ成分及びＶ成分の大きさが、それぞれ矩形状の検知領域の幅及び高さの４分の１～３分の１程度となるように設定される。

　図１７は、本実施形態の物体検知システム１における位置算出処理を説明するための図である。図１７（Ａ）～（Ｃ）は、全方位カメラ２から取得された連続する３フレームの各々の画像データが示す撮像画像Ｉｍを例示する。図１７（Ａ）では、人物１１の体の一部が設備に隠れ、上半身の検知領域Ａ２が認識されている。図１７（Ｂ）では、図１７（Ａ）から人物１１が移動して、全身の検知領域Ａ１及び上半身の検知領域Ａ２が認識されている。図１７（Ｃ）では、図１７（Ｂ）から人物１１がさらに移動して、全身の検知領域Ａ１及び上半身の検知領域Ａ２が認識されている。

　例えば図１７（Ｂ）の撮像画像Ｉｍでは、ステップＳ５１において、今回の各検知領域Ａ１，Ａ２の近傍で、前回の図１７（Ａ）の撮像画像Ｉｍで同じクラスの検知領域が認識されていたか否かが判断される。図１７（Ａ），（Ｂ）の例では、前回の画像認識処理による物体の検知結果において全身のクラスの検知領域が存在しないため、ステップＳ５１で「ＮＯ」と判断される。

　今回の各検知領域の近傍において、前回の画像認識処理による検知結果に、今回と同じクラスの検知領域が存在しない場合（Ｓ５１でＮＯ）、制御部５０は、今回の検知領域のうち、前回の検知領域から最も近傍にある検知領域のクラスを選択する（Ｓ５２）。図１７（Ｂ）の例では、前回の検知領域Ａ２の検知位置Ｃ２１と、今回の各検知領域Ａ１，Ａ２の検知位置Ｃ１２，Ｃ２２との距離ｄ１，ｄ２が比較される。距離ｄ２が距離ｄ１より小さいため、今回の各検知領域Ａ１，Ａ２のうち、検知領域Ａ２が前回の検知領域Ａ２の最も近傍にあるとして、上半身のクラスが選択される。

　一方、各検知領域の近傍で前回の検知結果にそれぞれ同じクラスの検知領域が存在する場合（Ｓ５１でＹＥＳ）、制御部５０は、例えば実施形態２の動線抽出サーバ５と同様の所定の優先度に従って、優先度が最も高いクラスを選択する（Ｓ４２）。

　図１７（Ｂ），（Ｃ）は、全身の検知領域Ａ１に関して前回の検知位置Ｃ１２と今回の検知位置Ｃ１３との距離ｄ３が所定距離より小さく、かつ上半身の検知領域Ａ２に関しても前回及び今回の検知位置Ｃ２２，Ｃ２３間の距離ｄ４が所定距離より小さい例を示す。このとき、図１７（Ｃ）の例では、ステップＳ５１で「ＹＥＳ」と判断されて、ステップＳ４２において、例えば予め設定された優先度が最も高い全身のクラスが選択される。

　以上の処理によると、重なり合った複数の検知領域が認識された場合（Ｓ４１でＹＥＳ）、直前のフレームの画像データに基づく前回の検知結果と比較して、撮像画像上の最も近傍で認識された検知領域のクラスが選択される（Ｓ５１～Ｓ５２）。当該クラスの基準高さが取得される（Ｓ１３）ことで、前回の検知結果から最も近傍で検知された、すなわち動線として接続しやすいとみなせるクラスの基準高さを用いて、地図位置を算出する（Ｓ１４）ことができる。

　なお、図１６のステップＳ５１では、今回の検知領域毎に、前回の検知結果において、クラスの異同に関わらず、撮像画像上の近傍に検知領域が存在するか否かが判断されてもよい。この場合、今回の各検知領域の近傍に前回の検知領域が存在するとき（Ｓ５１でＹＥＳ）、前回の検知領域から最も近傍にある今回の検知領域のクラスが選択されてもよい（Ｓ５２）。一方、今回の各検知領域の近傍に前回の検知領域が存在しないとき（Ｓ５１でＮＯ）、今回の検知結果から優先度の最も高いクラスが選択されてもよい（Ｓ４２）。

　また、図１６のステップＳ１３において、優先度とは別の情報に基づいてクラスが選択されもよい。例えば、作業場６の地図情報による各種設備２０の配置等を画像座標系に関連付けた情報が用いられてもよい。例えば当該情報に基づいて、撮像画像において検知領域の検知位置が作業場６の設備２０の近傍とみなす所定範囲内に存在するか否かに応じて、上半身または全身のクラスが選択されてもよい。

　以上のように、本実施形態の動線抽出サーバ５において、制御部５０は、機器Ｉ／Ｆ５４により順次、取得される画像データに基づいて、画像データ毎の第２の座標における物体の位置の一例として地図位置を順番に含む動線情報を生成する（Ｓ１～Ｓ５）。制御部５０は、新たに取得された画像データが示す画像において、複数のクラス（種類の一例）の物体のうちの２以上の種類の物体が互いに重畳して検知されたとき（Ｓ４１でＹＥＳ）、動線情報に含まれる位置に基づいて、２以上のクラスの物体から一のクラスを選択して（Ｓ５１～Ｓ５２）、第２の座標における選択した種類の物体の位置の一例として、選択したクラスの物体の地図位置を算出する（Ｓ１３～Ｓ１４）。これにより、重なり合った複数の検知領域が認識された場合であっても、動線情報に含まれる位置に基づいて、動線として接続しやすいとみなせる検知領域のクラスの基準高さを用いて地図位置を算出することができる。

（他の実施形態）
　以上のように、本出願において開示する技術の例示として、実施形態１～３を説明した。しかしながら、本開示における技術は、これに限定されず、適宜、変更、置換、付加、省略などを行った実施の形態にも適用可能である。また、上記各実施形態で説明した各構成要素を組み合わせて、新たな実施の形態とすることも可能である。そこで、以下、他の実施形態を例示する。

　上記の実施形態２では、物体検知モデル７０の検知対象が人物の全身及び上半身、並びに貨物などの対象物である場合の優先度の例を説明したが、別の優先度が用いられてもよい。例えば、物体検知システム１が、人物と車両の接近を検知して危険度を測定するような用途に適用されるとき、物体検知モデル７０の検知対象は人物及び車両を含む。この場合、車両の次に人物といった優先度が設定されてもよい。これにより、例えば画像上で車両の検知領域と、当該車両を操縦する人物の検知領域とが重なって認識されたとき、車両のクラスの基準高さを用いて地図位置が算出される。このように物体検知システム１の用途に応じた優先度に従って、検知結果に基づく位置を精度良く算出することができる。

　上記の実施形態３では、図１６のステップＳ５１～Ｓ５２において、重なり合った複数の検知領域が認識されたとき、今回と直前のフレームの画像データに基づく検知結果との関係から、複数のクラスのうち１つのクラスを選択する例を説明した。本実施形態では、ステップＳ５１～Ｓ５２において、今回の検知結果と、直前及び直後のフレームの画像データに基づく検知結果とを比較して、動線が接続されやすいとみなせるクラスが選択されてもよい。例えば本実施形態では図６のステップＳ１において連続する複数のフレームの画像データが取得される。

　上記の各実施形態において、物体検知システム１に１つの全方位カメラ２が含まれる例を説明したが、全方位カメラ２の個数は１つに限らず、複数であってもよい。例えば複数の全方位カメラ２を含む物体検知システム１において、動線抽出サーバ５は、各全方位カメラに関して図６の動作を実行後、複数の全方位カメラ２に基づく情報を統合するための処理を行ってもよい。

　上記の各実施形態では、図６のステップＳ３の位置算出処理において、検知結果に基づく作業場６の水平面６０に応じた位置として、地図位置を算出する例を説明したが、地図座標系とは異なる座標系が用いられてもよい。例えば、地図座標系に変換する前の全方位カメラ２に応じた水平面６０上の位置を示す座標系により、検知結果に基づく位置が算出されてもよい。この場合、算出された位置は、例えば図６のステップＳ５において地図座標系に変換されてもよい。また、上記の複数の全方位カメラ２を含む物体検知システム１の例では、ステップＳ３において、例えば各全方位カメラに応じた座標変換により、各全方位カメラに基づく検知結果の位置が、位置合わせして算出されてもよい。

　上記の各実施形態では、検知領域の位置として、矩形状の検知領域の検知位置を用いて、検知位置に対応する地図位置を算出する例を説明した。本実施形態において、検知領域の位置は検知位置に限らず、例えば検知領域の一辺の中点などが用いられてもよい。また、検知領域の位置は、複数点の位置であってもよく、矩形以外の領域の重心などであってもよい。

　上記の各実施形態では、端末装置４における設定処理（図１１）によりアノテーション作業と併せて基準高さが設定される例を説明したが、基準高さの設定はこれに限らない。例えば、動線抽出サーバ５において、物体検知モデル７０の生成後、基本動作（図６）の開始前に、画像座標系から地図座標系への座標変換に関する各種パラメータの設定作業が行われる際に併せて基準高さが設定されてもよい。本実施形態の動線抽出サーバ５は、例えば機器Ｉ／Ｆ５４を介して端末装置４または外部の操作機器から、クラス毎の基準高さを入力するユーザ操作に応じて、基準高さを設定する。

　上記の各実施形態では、物体検知モデル７０の検知対象に、人物の上半身といった物体の部分に対応するクラスが含まれる例を説明したが、人物の全身など物体の全体のクラスのみが含まれてもよい。例えば、本実施形態の動線抽出サーバ５は、物体検知モデル７０の他に、上半身を検知対象とする検知モデル及び頭部を検知対象とする検知モデルを備え、物体検知モデル７０による全身の検知領域に上半身及び頭部の各検知モデルを適用してもよい。こうした各検知モデルの検知結果に基づいて、ステップＳ１２のクラスの判定に代えて全身、上半身及び頭部など物体の種類を判定することで、物体の種類に応じた基準高さを用いた地図位置の算出を行うことができる。

　これにより、予め作業場６の撮像画像において、上半身及び頭部など体の部分に関してアノテーション作業を行わなくても、ステップＳ３の処理により、作業場６の撮像画像に基づき各部分を判別して位置を精度良く算出することができる。

　上記の例では、地図位置を算出する対象である上半身及び頭部の各検知モデルを用いる動線抽出サーバ５を説明したが、上記の各検知モデルに代えて、頭部、手及び足といった体の各部をそれぞれ検知対象とする複数のパーツ検知モデルが用いられてもよい。例えば物体検知モデル７０による全身の検知領域に各パーツ検知モデルを適用して、各々の検知結果を組み合わせることで、撮像画像に映った全身、上半身及び頭部などの物体の種類が判定されてもよい。

　上記の実施形態の動線抽出サーバ５において、制御部５０は、取得された画像データが示す画像において一物体の全体が検知された領域の一例として、人物の全身の領域を認識する。制御部５０は、認識された全体の領域において一物体の１以上の部分が検知された領域の一例として、上半身及び頭部の領域を認識して、当該１以上の部分の領域に関する認識結果に基づいて、物体の種類の一例としてクラスを判別する。

　また、物体検知システム１において人物を物体検知の対象とする場合、上記の物体検知モデル７０を含む複数の検知モデルに代えて、撮像画像に骨格検知或いは姿勢推定の技術を適用することで、人物の体の各部が物体の種類として判定されてもよい。

　また、上記の各実施形態では、物体検知部７１が検知結果として、検知領域をクラスに対応付けて出力する例を説明した。本実施形態では、検知結果としてクラスに依らず画像上の位置及びサイズにより規定される検知領域が出力されてもよい。例えば、ステップＳ１２において、クラスに代えて検知領域の位置及びサイズに基づいて、物体の種類が判定されてもよい。

　上記の各実施形態では、物体検知装置の例として動線抽出サーバ５を説明した。本実施形態において、例えば端末装置４が物体検知装置として構成されて、制御部４０により、物体検知装置の各種動作が実行されてもよい。

　上記の各実施形態では、物体検知システム１におけるカメラの一例として全方位カメラ２を説明した。本実施形態において、物体検知システム１は、全方位カメラ２に限らず、種々のカメラを備えてもよい。例えば、本システム１のカメラは、正射影方式、等距離射影方式及び等立体角射影方式といった種々の射影方式を採用する各種の撮像装置であってもよい。

　上記の各実施形態では、物体検知システム１が作業場６に適用される例を説明した。本実施形態において、物体検知システム１及び動線抽出サーバ５が適用される現場は特に作業場６に限らず、例えば物流倉庫または店舗の売り場など種々の現場であってもよい。

　以上のように、本開示における技術の例示として、実施の形態を説明した。そのために、添付図面および詳細な説明を提供した。

　したがって、添付図面および詳細な説明に記載された構成要素の中には、課題解決のために必須な構成要素だけでなく、上記技術を例示するために、課題解決のためには必須でない構成要素も含まれ得る。そのため、それらの必須ではない構成要素が添付図面や詳細な説明に記載されていることをもって、直ちに、それらの必須ではない構成要素が必須であるとの認定をするべきではない。

　また、上述の実施の形態は、本開示における技術を例示するためのものであるから、特許請求の範囲またはその均等の範囲において、種々の変更、置換、付加、省略などを行うことができる。

　本開示は、カメラを用いて複数種類の物体の位置を検知する種々の物体検知装置に適用可能であり、例えば動線検知装置、監視装置及び追跡装置に適用可能である。

Claims

　カメラにより撮像される撮像平面における物体の位置を検知する物体検知装置であって、
　前記カメラの撮像動作により生成された画像データを取得する取得部と、
　前記物体の位置に関して、前記画像データが示す画像に応じた第１の座標から、前記撮像平面に応じた第２の座標への座標変換を演算する制御部と、
　前記座標変換に用いられる設定情報を記憶する記憶部と
を備え、
　前記設定情報は、複数の種類の物体における各種類の物体に関して、前記撮像平面からの高さを示す設定値を含み、
　前記制御部は、
　前記取得部により取得された画像データに基づいて、前記第１の座標における前記物体の位置と、前記複数の種類から判別された前記物体の種類とを関連付けた検知結果を取得し、
　前記検知結果における前記物体の種類に応じて、前記設定値を切り替えるように前記座標変換を演算して、前記第２の座標における前記物体の位置を算出する
物体検知装置。
　前記複数の種類は、一物体の全体を示す種類及び当該物体における部分を示す種類を含み、
　前記設定情報は、前記全体の種類及び前記部分の種類における各種類に関して、異なる設定値を含む
請求項１に記載の物体検知装置。
　前記制御部は、前記複数の種類の物体を検知する物体検知モデルに、取得された画像データを入力して、前記検知結果を出力し、
　前記物体検知モデルは、前記カメラに基づく画像データと、前記複数の種類の各種類を示すラベルとを関連付けた正解データを用いた機械学習により生成される
請求項１又は２に記載の物体検知装置。
　ユーザの操作において情報を取得する情報入力部をさらに備え、
　前記情報入力部は、前記正解データを作成するためのアノテーション作業におけるユーザ操作において、前記複数の種類毎の設定値を取得する
請求項３に記載の物体検知装置。
　前記設定情報は、前記複数の種類に関して設定された所定の順序を示す情報を含み、
　前記制御部は、
　取得された画像データが示す画像において、前記複数の種類の物体のうちの２以上の種類の物体が互いに重畳して検知されたとき、
　前記所定の順序に従って、前記２以上の種類から一の種類を選択して、前記第２の座標における前記選択した種類の物体の位置を算出する
請求項１から４のいずれか１項に記載の物体検知装置。
　前記制御部は、前記取得部により順次、取得される画像データに基づいて、前記画像データ毎の前記第２の座標における前記物体の位置を順番に含む動線情報を生成し、
　前記制御部は、
　新たに取得された画像データが示す画像において、前記複数の種類の物体のうちの２以上の種類の物体が互いに重畳して検知されたとき、
　前記動線情報に含まれる位置に基づいて、前記２以上の種類の物体から一の種類を選択して、
　前記第２の座標における前記選択した種類の物体の位置を算出する
請求項１から５のいずれか１項に記載の物体検知装置。
　前記制御部は、
　取得された画像データが示す画像において前記一物体の全体が検知された領域を認識し、
　認識された全体の領域において前記一物体の１以上の部分が検知された領域を認識して、
　前記１以上の部分の領域に関する認識結果に基づいて、前記物体の種類を判別する
請求項２に記載の物体検知装置。
　カメラにより撮像される撮像平面における物体の位置を検知する物体検知方法であって、
　コンピュータの記憶部には、前記物体の位置に関して、前記カメラの撮像動作により生成された画像データが示す画像に応じた第１の座標から、前記撮像平面に応じた第２の座標への座標変換に用いられる設定情報が格納されており、
　前記設定情報は、複数の種類の物体における各種類の物体に関して、前記撮像平面からの高さを示す設定値を含み、
　前記コンピュータの制御部が、
　前記画像データを取得するステップと、
　取得された画像データに基づいて、前記第１の座標における前記物体の位置と、前記複数の種類から判別された前記物体の種類とを関連付けた検知結果を取得するステップと、
　前記検知結果における前記物体の種類に応じて、前記設定値を切り替えるように前記座標変換を演算して、前記第２の座標における前記物体の位置を算出するステップと
を含む物体検知方法。
　請求項８に記載の物体検知方法をコンピュータに実行させるためのプログラム。
　カメラにより撮像される撮像平面における物体の位置を検知する物体検知装置であって、
　前記カメラの撮像動作により生成された画像データを取得する取得部と、
　前記物体の位置に関して、前記画像データが示す画像に応じた第１の座標から、前記撮像平面に応じた第２の座標への座標変換を演算する制御部と、
　前記座標変換に用いられる設定情報を記憶する記憶部と、
　ユーザの操作において情報を取得する情報入力部と
を備え、
　前記設定情報は、複数の種類の物体における各種類の物体に関して、前記撮像平面からの高さを示す設定値を含み、
　前記情報入力部は、前記設定値を入力するユーザ操作において、前記複数の種類毎の設定値を取得し、
　前記制御部は、
　前記取得部により取得された画像データに基づいて、前記第１の座標における前記物体の位置と、前記複数の種類から判別された前記物体の種類とを関連付けた検知結果を取得し、
　前記検知結果における前記物体の種類毎に、前記ユーザ操作において取得された設定値に応じて前記座標変換を演算して、前記第２の座標における前記物体の位置を算出する
物体検知装置。