WO2022201810A1

WO2022201810A1 - 制御装置、制御方法、及びプログラム

Info

Publication number: WO2022201810A1
Application number: PCT/JP2022/002054
Authority: WO
Inventors: 智大島田; 雅彦杉本; 哲也藤川
Original assignee: 富士フイルム株式会社
Priority date: 2021-03-24
Filing date: 2022-01-20
Publication date: 2022-09-29
Also published as: CN117063480A; JPWO2022201810A1; US20230421731A1

Abstract

制御装置は、監視カメラを制御するプロセッサを備える。プロセッサは、監視カメラに対して撮像を行わせることで第１撮像画像を取得し、かつ、与えられた指示に応じて撮像範囲を変化させる第１監視モードと、監視カメラに対して撮像を行わせることで第２撮像画像を取得し、かつ、機械学習による学習済みモデルを用いて、第２撮像画像に写り込んでいる物体を検出し、検出結果に応じて撮像範囲を変化させる第２監視モードと、を切り替え可能とし、第１監視モードで取得した第１撮像画像を、機械学習に対する教師画像として出力する。

Description

制御装置、制御方法、及びプログラム

　本開示の技術は、制御装置、制御方法、及びプログラムに関する。

　特開２００４－０５６４７３号公報には、監視制御装置に、カメラで撮影された画像に対応する認識情報を学習結果に基づいて出力するニューラルネットワーク（ＮＷ）と、この認識情報に基づいて制御を実施する制御手段と、画像データを一時的に保存する短期記憶手段と、この画像データを記録する記憶手段とを設け、ＮＷが、画像とその画像で表された事象の緊急の程度との関係を学習して、カメラの画像に対応する緊急程度を認識し、制御手段が、ＮＷの認識情報により記憶手段に記録する画像データのフレームレートを制御することが記載されている。

　特表２００６－５２３０４３号公報には、移動物体を検出し、監視システムを制御する方法は、少なくとも１つの像形成センサからの像情報を受け取るように適応された処理モジュールを含むことが記載されている。監視システムは、捕獲された像に対して動き検出分析を実行すると共に、移動物体が検出されると、特定のやり方で、カメラを制御する。

　特表２００９－５１６４８０号公報に記載のビデオ監視システムのための方法およびシステムは、個々に視野を備えた複数のビデオカメラを備えており、カメラは、カメラ視野を変更するためのズーム、水平チルト軸の周りにカメラを回転させるためのチルト、および垂直パン軸の周りにカメラを回転させるためのパン、のうちの少なくとも１つを実施するように構成されている。システムは、さらに、少なくとも１つのビデオカメラの視野内の画像を表す信号を受け取り、受け取った信号を使用してターゲットを認識し、そのターゲットを認識しているカメラからそのターゲットへの方向を決定し、かつ、決定した方向を複数のビデオカメラのうちの他のカメラに送信するように構成されたプロセッサを備えている。

本開示の技術に係る一つの実施形態は、機械学習に用いる教師画像を効率よく収集することができる制御装置、制御方法、及びプログラムを提供する。

　本開示の制御装置は、監視カメラを制御するプロセッサを備える制御装置であって、プロセッサは、監視カメラに対して撮像を行わせることで第１撮像画像を取得し、かつ、与えられた指示に応じて撮像範囲を変化させる第１監視モードと、監視カメラに対して撮像を行わせることで第２撮像画像を取得し、かつ、機械学習による学習済みモデルを用いて、第２撮像画像に写り込んでいる物体を検出し、検出結果に応じて撮像範囲を変化させる第２監視モードと、を切り替え、第１監視モードで取得した第１撮像画像を、機械学習に対する教師画像として出力する。

　プロセッサは、監視カメラに対して行われた手動操作に応じて、第１撮像画像を教師画像として出力することが好ましい。

　手動操作は、第２監視モードから第１監視モードへの切り替え操作であり、プロセッサは、第２監視モードから第１監視モードへの切り替え後の第１監視モードで取得した第１撮像画像を教師画像として出力することが好ましい。

　監視カメラは、パン、チルト、及びズームのうち少なくとも１つを変更することにより撮像範囲を変化させることが可能であり、切り替え操作は、第２監視モード時におけるパン、チルト、及びズームのうち少なくとも１つを変更する操作であることが好ましい。

　プロセッサは、第２監視モードから第１監視モードへの切り替え後に、与えられた出力指示に応じて、第１撮像画像を教師画像として出力することが好ましい。

　プロセッサは、切り替え前の第２監視モードで取得した第２撮像画像を、物体の検出に不適合である判断結果を付与して教師画像として出力し、かつ、切り替え後の第１監視モードで取得した第１撮像画像を、物体の検出に適合する判断結果を付与して教師画像として出力することが好ましい。

　プロセッサは、第２監視モードから第１監視モードへ切り替えた後、第１監視モードにおいて一定時間操作がなされない場合に、第２監視モードへ切り替えることが好ましい。

　プロセッサは、第１監視モードから第２監視モードへ切り替えた後、前回の手動操作から一定時間経過した後に手動操作が行われた場合には、第２撮像画像は教師画像として出力しないことが好ましい。

　プロセッサは、教師画像内に写り込んでいる物体を検出し、検出した物体の教師画像内における位置情報を教師画像に付加することが好ましい。

　プロセッサは、教師画像に写り込んでいる物体を検出する場合における物体検出の検出基準を、第２撮像画像に写り込んでいる物体を検出する場合における物体検出の検出基準よりも下げることが好ましい。

　プロセッサは、与えられた指示に応じて位置情報を変更する位置情報変更処理を行うことが好ましい。

　プロセッサは、与えられた指示に応じて、教師画像内に写り込んでいる物体の位置を決定し、決定した物体の教師画像内における位置情報を教師画像に付加することが好ましい。

　プロセッサは、教師画像に加えて、教師画像に対して拡張処理を施すことにより生成した拡張画像を教師画像として出力することが好ましい。

　拡張処理は、反転、縮小、ノイズの付加、ディープラーニングによるスタイル変化のうち少なくともいずれか１つの処理であることが好ましい。

　本開示の制御方法は、監視カメラに対して撮像を行わせることで第１撮像画像を取得し、かつ、与えられた指示に応じて撮像範囲を変化させる第１監視モードと、監視カメラに対して撮像を行わせることで第２撮像画像を取得し、かつ、機械学習による学習済みモデルを用いて、第２撮像画像に写り込んでいる物体を検出し、検出結果に応じて撮像範囲を変化させる第２監視モードと、を切り替え可能とすること、第１監視モードで取得した第１撮像画像を、機械学習に対する教師画像として出力することを含む。

　本開示のプログラムは、監視カメラに対して撮像を行わせることで第１撮像画像を取得し、かつ、与えられた指示に応じて撮像範囲を変化させる第１監視モードと、監視カメラに対して撮像を行わせることで第２撮像画像を取得し、かつ、機械学習による学習済みモデルを用いて、第２撮像画像に写り込んでいる物体を検出し、検出結果に応じて撮像範囲を変化させる第２監視モードと、を切り替え可能とすること、第１監視モードで取得した第１撮像画像を、機械学習に対する教師画像として出力することを含む処理をコンピュータに実行させる。

第１実施形態に係る監視システムの全体構成の一例を示す概略構成図である。監視カメラ及び管理装置のハードウェア構成の一例を示すブロック図である。管理装置に含まれるＣＰＵの機能の一例を示すブロック図である。手動監視モードにおける手動ＰＴＺの一例を示す概念図である。物体検出処理の一例を示す概念図である。自動監視モードにおける自動ＰＴＺの一例を示す概念図である。自動監視モードにおいて物体が誤検出された例を示す概念図である。自動監視モード時に手動ＰＴＺが行われた例を示す概念図である。学習処理の一例を示す概念図である。第１実施形態に係る監視処理の流れの一例を示すフローチャートである。第２実施形態に係る監視処理の流れの一例を示すフローチャートである。第３実施形態に係る監視処理の流れの一例を示すフローチャートである。第４実施形態に係る監視処理の流れの一例を示すフローチャートである。教師画像出力処理の第１変形例を示す概念図である。教師画像出力処理の第２変形例を示す概念図である。教師画像出力処理の第３変形例を示す概念図である。教師画像出力処理の第４変形例を示す概念図である。物体検出の変形例について説明する概念図である。記憶媒体に記憶されている撮像処理プログラムがコンピュータにインストールされる態様の一例を示すブロック図である。

　以下、添付図面に従って本開示の技術に係る制御装置、制御方法、及びプログラムの一例について説明する。

　先ず、以下の説明で使用される文言について説明する。

　ＣＰＵとは、“Central Processing Unit”の略称を指す。ＮＶＭとは、“Non-volatile memory”の略称を指す。ＲＡＭとは、“Random Access Memory”の略称を指す。ＩＣとは、“Integrated Circuit”の略称を指す。ＡＳＩＣとは、“Application Specific Integrated Circuit”の略称を指す。ＰＬＤとは、“Programmable Logic Device”の略称を指す。ＦＰＧＡとは、“Field-Programmable Gate Array”の略称を指す。ＳｏＣとは、“System-on-a-chip”の略称を指す。ＳＳＤとは、“Solid State Drive”の略称を指す。ＵＳＢとは、“Universal Serial Bus”の略称を指す。ＨＤＤとは、“Hard Disk Drive”の略称を指す。ＥＥＰＲＯＭとは、“Electrically Erasable and Programmable Read Only Memory”の略称を指す。ＥＬとは、“Electro-Luminescence”の略称を指す。Ｉ／Ｆとは、“Interface”の略称を指す。ＣＭＯＳとは、“Complementary Metal Oxide Semiconductor”の略称を指す。ＣＣＤとは、“Charge Coupled Device”の略称を指す。
ＳＷＩＲとは、“Short Wave Infra-Red”の略称を指す。ＬＡＮとは、“Local Area Network”の略称を指す。

　［第１実施形態］
　一例として図１に示すように、監視システム１０は、監視カメラ１２、及び管理装置１６を備えている。監視システム１０は、例えば、建設現場を監視するシステムである。監視カメラ１２は、例えば、建設現場の近傍の建物の屋上等の高所に設置されている。管理装置１６は、例えば、建設現場の作業員を監督する現場監督等のユーザにより使用される。ユーザは、例えば、作業中の建設現場に危険性が生じていないかを、管理装置１６を用いて監視する。監視システム１０は、ユーザの監視負担を軽減するためのシステムである。

　監視カメラ１２は、撮像装置１８及び旋回装置２０を備えている。撮像装置１８は、例えば、被写体で反射した可視波長帯域の光を受光することにより被写体を撮像する。なお、撮像装置１８は、被写体で反射した短波赤外波長帯域の光である近赤外光を受光することで被写体を撮像するものであってもよい。短波赤外波長帯域とは、例えば、約９００ｎｍ～２５００ｎｍの波長帯域を指す。短波赤外波長帯域の光は、一般的に、ＳＷＩＲ光とも称される。

　撮像装置１８は、旋回装置２０に取り付けられている。旋回装置２０は、撮像装置１８を旋回させる。例えば、旋回装置２０は、撮像装置１８の撮像方向を、パン方向及びチルト方向に変更する。パン方向とは、例えば水平方向である。チルト方向とは、例えば鉛直方向である。

　旋回装置２０は、基体２２、パン用回転部材２４、及びチルト用回転部材２６を備えている。パン用回転部材２４は、円柱状に形成されており、基体２２の上面に取り付けられている。チルト用回転部材２６は、アーム状に形成されており、パン用回転部材２４の外周面に取り付けられている。チルト用回転部材２６には、撮像装置１８が取り付けられている。チルト用回転部材２６は、水平方向に平行なチルト軸ＴＡの周りに回転することで、撮像装置１８の撮像方向をチルト方向に変更する。

　基体２２は、パン用回転部材２４を下方から支持している。パン用回転部材２４は、鉛直方向に平行なパン軸ＰＡの周りに回転することで、撮像装置１８の撮像方向をパン方向に変更する。

　基体２２には、駆動源（例えば、図２に示すパン用モータ２４Ａ及びチルト用モータ２６Ａ）が内蔵されている。基体２２の駆動源は、パン用モータ２４Ａ及びチルト用モータ２６Ａに機械的に接続されている。例えば、基体２２の駆動源は、動力伝達機構（図示省略）を介してパン用回転部材２４及びチルト用回転部材２６に連結されている。パン用回転部材２４は、基体２２の駆動源から動力を受けることでパン軸ＰＡの周りに回転し、チルト用回転部材２６は、基体２２の駆動源から動力を受けることでチルト軸ＴＡの周りに回転する。

　図１に示すように、監視システム１０は、監視領域３０内に設定された撮像範囲３１を、撮像装置１８で撮像することにより撮像画像を生成する。監視システム１０は、パン及びチルトを行い、撮像範囲３１を変更することにより、監視領域３０の全体を撮像する。監視領域３０としての建設現場には、重機、作業員等の種々の被写体が存在する。重機には、パワーショベル、ブルドーザ、クレーン車、ダンプカー等が含まれる。

　撮像装置１８は、例えば、図示しないイメージセンサを有するデジタルカメラである。イメージセンサは、被写体を示す被写体光を受光し、受光した被写体光を光電変換し、受光量に応じた信号レベルの電気信号を、画像データとして出力する。イメージセンサが出力する画像データが、上記の撮像画像に対応する。イメージセンサは、ＣＭＯＳ型イメージセンサ又はＣＣＤ型イメージセンサ等である。撮像装置１８は、カラー画像を撮像するものであってもよいし、モノクロ画像を撮像するものであってもよい。また、撮像画像は、静止画像であってもよいし、動画像であってもよい。

　また、撮像装置１８は、ズーム機能を備えている。ズーム機能とは、撮像範囲３１を縮小又は拡大（すなわちズームイン又はズームアウト）する機能である。撮像装置１８が備えるズーム機能は、ズームレンズを移動させることによる光学ズーム機能、又は、画像データに対して画像処理を施すことによる電子ズーム機能である。なお、撮像装置１８が備えるズーム機能は、光学ズーム機能と電子ズーム機能とを組み合わせた方式であってもよい。

　管理装置１６は、管理装置本体１３、受付デバイス１４、及びディスプレイ１５を備えている。管理装置本体１３は、コンピュータ４０（図２参照）を内蔵しており、監視システム１０の全体を制御する。管理装置本体１３には、受付デバイス１４及びディスプレイ１５が接続されている。

　受付デバイス１４は、監視システム１０を使用するユーザから各種の指示を受け付ける。受付デバイス１４としては、例えば、キーボード、マウス、及び／又はタッチパネル等が挙げられる。受付デバイス１４によって受け付けられた各種の指示は、管理装置本体１３によって把握される。ディスプレイ１５は、管理装置本体１３の制御下で、各種の情報（例えば、画像及びテキスト等）を表示する。ディスプレイ１５としては、例えば、液晶ディスプレイ又はＥＬディスプレイ等が挙げられる。

　監視カメラ１２は、管理装置１６と通信網ＮＴ（インターネット又はＬＡＮ等）を介して通信可能に接続されており、管理装置本体１３の制御下で作動する。監視カメラ１２と管理装置１６との接続方式は、有線による接続方式であってもよいし、無線による接続方式であってもよい。

　管理装置１６は、監視カメラ１２の撮像装置１８から出力される撮像画像を取得し、撮像画像に写り込んでいる特定の物体（例えば重機）を、機械学習による学習済みモデルを用いて検出する。管理装置１６は、特定の物体を検出した場合に、検出した物体を追尾するように、パン、チルト、及びズームを、監視カメラ１２に行わせる。以下、パン、チルト、及びズームにより撮像範囲３１を変化させる動作を、「ＰＴＺ」という。さらに、撮像画像に写り込んでいる物体の検出結果に応じて撮像範囲３１を変化させる動作を、「自動ＰＴＺ」という。

　また、管理装置１６は、ユーザによる受付デバイス１４の操作に応じて撮像範囲３１を変化させる動作を可能とする。以下、受付デバイス１４に与えられた指示に応じて撮像範囲３１を変化させる動作を、「手動ＰＴＺ」という。手動ＰＴＺでは、ユーザは、受付デバイス１４を操作することにより、監視領域３０内において、撮像範囲３１を任意の位置及び大きさに設定することができる。

　また、以下では、手動ＰＴＺにより監視領域３０を監視する監視モードを「手動監視モード」といい、自動ＰＴＺにより監視領域３０を監視する監視モードを「自動監視モード」という。ユーザは、監視システム１０による監視モードを、手動監視モードと自動監視モードとの間で切り替える切り替え操作を行うことが可能である。なお、手動監視モードは、本開示の技術に係る「第１監視モード」の一例である。自動監視モードは、本開示の技術に係る「第２監視モード」の一例である。

　一例として図２に示すように、監視カメラ１２の旋回装置２０は、コントローラ３４を備えている。コントローラ３４は、管理装置１６の制御下で、パン用モータ２４Ａ、チルト用モータ２６Ａ、及び撮像装置１８の動作を制御する。

　管理装置１６の管理装置本体１３は、コンピュータ４０を備えている。コンピュータ４０は、ＣＰＵ４２、ＮＶＭ４４、ＲＡＭ４６、及び通信Ｉ／Ｆ４８を有する。管理装置１６は、本開示の技術に係る「制御装置」の一例である。コンピュータ４０は、本開示の技術に係る「コンピュータ」の一例である。ＣＰＵ４２は、本開示の技術に係る「プロセッサ」の一例である。

　ＣＰＵ４２、ＮＶＭ４４、ＲＡＭ４６、及び通信Ｉ／Ｆ４８は、バス４９に接続されている。図２に示す例では、図示の都合上、バス４９として１本のバスが図示されているが、複数本のバスであってもよい。バス４９は、シリアルバスであってもよいし、データバス、アドレスバス、及びコントロールバス等を含むパラレルバスであってもよい。

　ＮＶＭ４４は、各種のデータを記憶している。ここでは、ＮＶＭ４４の一例としては、ＥＥＰＲＯＭ、ＳＳＤ、及び／又はＨＤＤ等の各種の不揮発性の記憶装置が挙げられる。ＲＡＭ４６は、各種情報を一時的に記憶し、ワークメモリとして用いられる。ＲＡＭ４６の一例としては、ＤＲＡＭ又はＳＲＡＭ等が挙げられる。

　ＮＶＭ４４には、プログラムＰＧが記憶されている。ＣＰＵ４２は、ＮＶＭ４４から必要なプログラムを読み出し、読み出したプログラムＰＧをＲＡＭ４６上で実行する。ＣＰＵ４２は、プログラムＰＧに従って処理を実行することにより、管理装置１６を含む監視システム１０の全体を制御する。

　通信Ｉ／Ｆ４８は、ＦＰＧＡ等のハードウェア資源によって実現されるインタフェースである。通信Ｉ／Ｆ４８は、通信網ＮＴを介して監視カメラ１２のコントローラ３４と通信可能に接続されており、ＣＰＵ４２とコントローラ３４との間で各種情報の授受を行う。

　バス４９には、受付デバイス１４及びディスプレイ１５も接続されており、ＣＰＵ４２は、受付デバイス１４によって受け付けられ指示に従って動作し、かつ、ディスプレイ１５に対して各種の情報を表示させる。

　また、ＮＶＭ４４には、上述の物体検出を行うための学習済みモデルＬＭが記憶されている。学習済みモデルＬＭは、特定の物体が写り込んだ複数の教師画像を用いて機械学習を行うことにより生成された物体検出用の学習済みモデルである。さらに、ＮＶＭ４４には、教師画像ＴＤが記憶される。教師画像ＴＤは、学習済みモデルＬＭに追加学習を行わせるための追加学習用の教師画像である。教師画像ＴＤは、監視カメラ１２により取得される撮像画像のうち、所定の条件を満たす画像である。

　一例として図３に示すように、ＣＰＵ４２がプログラムＰＧに基づいて動作を実行することにより、複数の機能部が実現される。プログラムＰＧは、ＣＰＵ４２を、カメラ制御部５０、モード切替制御部５１、画像取得部５２、表示制御部５３、物体検出部５４、教師画像出力部５５、及び機械学習部５６として機能させる。

　カメラ制御部５０は、監視カメラ１２のコントローラ３４を制御することにより、撮像装置１８に撮像動作及びズームを行わせるとともに、旋回装置２０にパン及びチルトを行わせる。すなわち、カメラ制御部５０は、監視カメラ１２に撮像動作を行わせるとともに、撮像範囲３１を変化させる。

　モード切替制御部５１は、受付デバイス１４によって受け付けられ指示に基づき、監視システム１０による監視モードを、自動監視モードと手動監視モードの間で切り替える切り替え制御を行う。モード切替制御部５１は、手動監視モードの場合には、カメラ制御部５０に、受付デバイス１４に与えられた指示に応じて撮像範囲３１を変化させる手動ＰＴＺを行わせる。モード切替制御部５１は、自動監視モードの場合には、物体検出部５４による物体検出の結果に応じて撮像範囲３１を変化させる自動ＰＴＺを行わせる。

　画像取得部５２は、カメラ制御部５０が監視カメラ１２に撮像を行わせることで監視カメラ１２から出力される撮像画像Ｐを取得する。画像取得部５２は、監視カメラ１２から取得した撮像画像Ｐを表示制御部５３に供給する。表示制御部５３は、画像取得部５２から供給された撮像画像Ｐをディスプレイ１５に表示させる。

　手動監視モードの場合には、画像取得部５２は、監視カメラ１２から取得した撮像画像Ｐを、第１撮像画像Ｐ１として教師画像出力部５５に供給する。一方、自動監視モードの場合には、画像取得部５２は、監視カメラ１２から取得した撮像画像Ｐを、第２撮像画像Ｐ２として物体検出部５４に供給する。

　物体検出部５４は、ＮＶＭ４４に記憶された学習済みモデルＬＭを用いて、第２撮像画像Ｐ２に写り込んでいる特定の物体（例えば重機）を検出する。物体検出部５４は、物体検出の検出結果を、表示制御部５３及びカメラ制御部５０に供給する。表示制御部５３は、物体検出部５４から供給された検出結果に基づき、検出された物体を識別可能にディスプレイ１５に表示させる。カメラ制御部５０は、物体検出部５４から供給された検出結果に基づき、検出された物体が撮像範囲３１の中央に位置し、かつ検出された物体が拡大するように撮像範囲３１を変化させる。

　教師画像出力部５５は、ユーザが受付デバイス１４を用いて監視カメラ１２に対して行った手動操作に応じて、第１撮像画像Ｐ１を教師画像ＴＤとしてＮＶＭ４４に記憶させる。本実施形態では、教師画像出力部５５は、ユーザが受付デバイス１４を用いて、自動監視モードから手動監視モードに切り替える切り替え操作を行ったことに応じて、切り替え後の手動監視モード時に取得された第１撮像画像Ｐ１を教師画像ＴＤとしてＮＶＭ４４に記憶させる。切り替え操作とは、パン、チルト、及びズームのうち少なくとも１つを変更する操作である。

　機械学習部５６は、ＮＶＭ４４に記憶された教師画像ＴＤを用いて、学習済みモデルＬＭに追加学習を行わせることにより、学習済みモデルＬＭを更新する。例えば、機械学習部５６は、ＮＶＭ４４に一定数の教師画像ＴＤが蓄積された場合に、蓄積された複数の教師画像ＴＤを用いて学習済みモデルＬＭに追加学習を行わせる。学習済みモデルＬＭが更新された場合には、物体検出部５４は、更新された学習済みモデルＬＭを用いて物体検出を行う。

　学習済みモデルＬＭは、ニューラルネットワークを用いて構成さている。学習済みモデルＬＭは、例えば、深層学習（Deep Learning）の対象となる多層ニューラルネットワークである深層ニューラルネットワーク（ＤＮＮ：Deep Neural Network）を用いて構成されている。ＤＮＮとして、例えば、画像を対象とする畳み込みニューラルネットワーク（ＣＮＮ：Convolutional Neural Network）が用いられる。

　図４は、手動監視モードにおける手動ＰＴＺの一例を示す。図４に示す例では、ディスプレイ１５に表示される撮像画像Ｐに、物体として２つの重機Ｈ１，Ｈ２が写っている。ユーザは、受付デバイス１４としてのキーボード又はマウス等を操作することにより、自身が着目する領域に撮像範囲３１を変更することができる。図４は、付近に人が存在する重機Ｈ２を監視対象として着目し、重機Ｈ２を含む着目領域が撮像範囲３１に合致するように、撮像範囲３１を変更する操作を行った様子を示している。

　図５は、学習済みモデルＬＭを用いた物体検出部５４による物体検出処理の一例を示す。本実施形態では、学習済みモデルＬＭは、ＣＮＮにより構成されているとする。物体検出部５４は、第２撮像画像Ｐ２を入力画像として学習済みモデルＬＭに入力する。学習済みモデルＬＭは、畳み込み層により第２撮像画像Ｐ２の特徴量を表す特徴マップＦＭを生成する。

　物体検出部５４は、特徴マップＦＭに対して様々なサイズのウィンドウＷをスライドさせ、ウィンドウＷ内に物体候補が存在するか否かを判定する。物体検出部５４は、ウィンドウＷ内に物体候補が存在すると判定した場合には、特徴マップＦＭから物体候補を含むウィンドウＷ内の画像Ｒを切り出し、切り出した画像Ｒを分類器に入力する。分類器は、画像Ｒに含まれる物体候補のラベル及びスコアを出力する。ラベルは、物体の種類を表す。スコアは、物体候補がラベルにより表される種類の物体である確率を表す。図５に示す例では、物体候補として重機Ｈ１が抽出され、分類器により重機Ｈ１のラベルが「パワーショベル」であると判定されている。また、重機Ｈ１が「パワーショベル」であることの確率を表すスコアが「０．９０」である。

　物体検出部５４は、スコアが一定値以上の物体を含む画像Ｒの位置情報と、ラベル及びスコアとを、検出結果として出力する。なお、図５に示す例では、第２撮像画像Ｐ２から１つの物体が検出されているが、２以上の物体が検出されることもある。

　表示制御部５３は、一例として図６に示すように、物体検出部５４により検出された物体を囲うように矩形状の枠Ｆを、撮像画像Ｐ内に表示させる。また、表示制御部５３は、枠Ｆの近傍に、枠Ｆ内の物体の種類を表すラベルＬを表示させる。なお、表示制御部５３は、さらにスコアを表示させてもよい。また、２以上の物体が検出された場合には、表示制御部５３は、撮像画像Ｐ内に複数の枠Ｆを表示させる。

　図６は、自動監視モードにおける自動ＰＴＺの一例を示す。図６に示す例では、ディスプレイ１５に表示される撮像画像Ｐに、物体として２つの重機Ｈ１，Ｈ２が写っており、重機Ｈ１が物体検出部５４により検出されており、重機Ｈ２は、物体として検出されていない。この場合、カメラ制御部５０は、重機Ｈ１を含む領域が撮像範囲３１に合致するように、撮像範囲３１を変更する制御を行う。これにより、重機Ｈ１を追尾するように自動ＰＴＺが行われる。

　なお、撮像画像Ｐ内に物体検出部５４により検出された２以上の物体が存在する場合には、例えば、カメラ制御部５０は、スコアが最も高い物体を含む領域が撮像範囲３１に合致するように、撮像範囲３１を変更する制御を行う。

　図７は、自動監視モードにおいて物体検出部５４により物体が誤検出された例を示している。図７に示す例では、重機でない自動車がパワーショベルと誤検出され、自動車を追尾するように自動ＰＴＺが行われている。しかし、このように監視対象でない物体が誤検出された場合には、監視対象が他の領域に存在する可能性がある。例えば、図７に示す例では、ユーザは、付近に人が存在する重機Ｈ２を監視対象として着目する。この場合、ユーザは、重機Ｈ２を含む着目領域が撮像範囲３１に合致するように、受付デバイス１４を操作して手動ＰＴＺを行う。このように、自動監視モードにおいて物体が検出された後、物体がユーザの意図する監視対象でない場合には、ユーザは、受付デバイス１４を操作して手動ＰＴＺを行うことがある。

　図８は、自動監視モード時に手動ＰＴＺが行われた例を示している。図８に示す例では、物体検出部５４により誤検出された自動車に対して自動ＰＴＺが行われたことに応じて、ユーザは、自らが意図する着目領域（図７参照）が撮像範囲３１に合致するように手動ＰＴＺを行っている。自動監視モードにおいて、ユーザが受付デバイス１４を操作して手動ＰＴＺを行うと、前述のモード切替制御部５１は、監視モードを自動監視モードから手動監視モードに切り替える。

　教師画像出力部５５は、監視モードが自動監視モードから手動監視モードに切り替えられたことに応じて、手動監視モードへの切り替え後の第１撮像画像Ｐ１を教師画像ＴＤとして出力する。例えば、教師画像出力部５５は、ユーザが手動ＰＴＺを行うことにより監視モードが手動監視モードに切り替えられ、手動ＰＴＺが停止した時点における第１撮像画像Ｐ１を教師画像ＴＤとして出力する。

　図９は、教師画像ＴＤを用いて学習済みモデルＬＭに追加学習を行わせる学習処理の一例を示す。学習処理において、学習済みモデルＬＭには、教師画像ＴＤが入力される。教師画像ＴＤには、第１撮像画像Ｐ１に含まれる物体の種類を表す正解ラベルＬ１が付与されている。第１撮像画像Ｐ１に写り込んでいる物体は、物体検出部５４により検出されなかった物体であるので、正解ラベルＬ１は、例えば、ユーザが物体の種類を判別することにより付される。

　学習済みモデルＬＭは、入力された教師画像ＴＤに基づく検出結果ＲＴを出力する。検出結果ＲＴは、前述のラベルＬ及びスコアである。この検出結果ＲＴと正解ラベルＬ１とに基づいて、損失関数を用いた損失演算がなされる。そして、損失演算の結果に応じて学習済みモデルＬＭの各種係数（重み係数、バイアスなど）の更新設定がなされ、更新設定にしたがって学習済みモデルＬＭが更新される。

　なお、ラベルＬは、単に、検出した物体が正解であるか否か（例えば、重機であるか否か）を表すラベルであってもよい。この場合、例えば、ラベルＬを「１」又は「０」の２値で表し、正解ラベルＬ１を「１」とし、不正解ラベルＬ０を「０」とする。なお、正解ラベルＬ１は、本開示の技術に係る「物体の検出に適合する判断結果」の一例である。不正解ラベルＬ０は、本開示の技術に係る「物体の検出に不適合である判断結果」の一例である。

　このように、ユーザが手動ＰＴＺにより監視対象とした物体は正解である可能性が高いことから、正解ラベルＬ１を付した第１撮像画像Ｐ１を教師画像ＴＤとして出力する。このように、教師画像ＴＤを用いて学習済みモデルＬＭに追加学習を行わせることにより、物体検出の精度が向上する。また、新たな種類の物体を検出することが可能となる。例えば、自動監視モードにおいて重機の一種であるブルドーザを検出することができていなかった場合に、ユーザが手動監視モードにより監視対象としたブルドーザを含む教師画像ＴＤを追加学習することにより、新たにブルドーザを重機として検出することが可能となる。

　次に、監視システム１０の作用を、図１０を参照しながら説明する。

　図１０には、ＣＰＵ４２によって実行される監視処理の流れの一例を示すフローチャートが示されている。なお、図１０に示す監視処理の流れは、本開示の技術に係る「制御方法」の一例である。また、ここでは、説明の便宜上、撮像装置１８による撮像が既定のフレームレートで行われることを前提として説明する。

　図１０に示す監視処理では、先ず、ステップＳ１０で、モード切替制御部５１は、カメラ制御部５０に自動監視モードで動作を開始させる。自動監視モードが開始すると、監視カメラ１２により、監視領域３０内に設定された撮像範囲３１（図１参照）を対象として撮像動作が行われる。ステップＳ１０の後、監視処理はステップＳ１１へ移行する。

　ステップＳ１１で、画像取得部５２は、監視カメラ１２から出力された撮像画像Ｐを取得し、第２撮像画像Ｐ２として物体検出部５４に供給する。このとき、撮像画像Ｐは、表示制御部５３を介してディスプレイ１５に表示される。ステップＳ１１の後、監視処理はステップＳ１２へ移行する。

　ステップＳ１２で、物体検出部５４は、学習済みモデルＬＭを用いて、第２撮像画像Ｐ２に写り込んだ特定の物体（例えば重機）を検出する物体検出処理を行う（図５参照）。ステップＳ１２の後、監視処理はステップＳ１３へ移行する。

　ステップＳ１３で、カメラ制御部５０は、物体検出部５４により物体が検出されたか否かを判定する。ステップＳ１３において、物体が検出されなかった場合には、判定が否定されて、監視処理はステップＳ１４へ移行する。ステップＳ１３において、物体が検出された場合には、判定が肯定されて、監視処理はステップＳ１５へ移行する。

　ステップＳ１４で、カメラ制御部５０は、監視カメラ１２にパン又はチルトを行わせることにより、撮像範囲３１をパン方向又はチルト方向に変更する（図１参照）。ステップＳ１４の後、監視処理はステップＳ１１へ戻る。ステップＳ１１では、再び画像取得部５２により撮像画像取得処理が行われる。

　ステップＳ１５で、カメラ制御部５０は、物体検出部５４により検出された物体の検出結果に応じて撮像範囲３１を変化させる自動ＰＴＺを行う（図６及び図７参照）。ステップＳ１５の後、監視処理はステップＳ１６へ移行する。

　ステップＳ１６で、モード切替制御部５１は、ユーザが受付デバイス１４を操作して手動ＰＴＺを行うことにより、監視モードが自動監視モードから手動監視モードへ切り替えられたか否かを判定する。ステップＳ１６において、手動監視モードへ切り替えられていない場合には、判定が否定されて、監視処理はステップＳ１５へ戻る。ステップＳ１６において、手動監視モードへ切り替えられた場合には（図８参照）、判定が肯定されて、監視処理はステップＳ１７へ移行する。例えば、自動監視モード時に、ユーザが受付デバイス１４を操作して手動ＰＴＺを実行させると、判定が肯定される。

　ステップＳ１７で、カメラ制御部５０は、ユーザにより受付デバイス１４に与えられた指示に応じて撮像範囲３１を変化させる手動ＰＴＺを行う（図４参照）。ステップＳ１７の後、監視処理はステップＳ１８へ移行する。

　ステップＳ１８で、教師画像出力部５５は、手動監視モード時に取得された第１撮像画像Ｐ１を教師画像ＴＤとして出力する（図８参照）。ステップＳ１８の後、監視処理はステップＳ１９へ移行する。

　ステップＳ１９で、モード切替制御部５１は、ユーザが受付デバイス１４を操作することにより、監視モードが手動監視モードから自動監視モードへ切り替えられたか否かを判定する。ステップＳ１９において、自動監視モードへ切り替えられていない場合には、判定が否定されて、監視処理はステップＳ２０へ移行する。ステップＳ１９において、自動監視モードへ切り替えられた場合には、監視処理はステップＳ１０へ戻る。

　ステップＳ２０で、モード切替制御部５１は、監視処理を終了する条件（以下、「終了条件」と称する）を満足したか否かを判定する。終了条件の一例としては、監視処理を終了させる指示が受付デバイス１４によって受け付けられた、との条件が挙げられる。ステップＳ２０において、終了条件を満足していない場合は、判定が否定されて、監視処理はステップＳ１７へ戻る。ステップＳ２０において、終了条件を満足した場合は、判定が肯定されて、監視処理が終了する。

　以上説明したように、制御装置としての管理装置１６は、監視カメラ１２に対して撮像を行わせることで第１撮像画像Ｐ１を取得し、かつ、与えられた指示に応じて撮像範囲３１を変化させる手動監視モードと、監視カメラ１２に対して撮像を行わせることで第２撮像画像Ｐ２を取得し、かつ、機械学習による学習済みモデルＬＭを用いて、第２撮像画像Ｐ２に写り込んでいる物体を検出し、検出結果に応じて撮像範囲３１を変化させる自動監視モードと、を切り替え可能とする。そして、管理装置１６は、手動監視モード時に取得した第１撮像画像Ｐ１を、機械学習に対する教師画像ＴＤとして出力する。このように、本開示の技術によれば、ユーザが特別な操作を行うことなく、機械学習に用いる教師画像ＴＤを効率よく収集することができる。

　また、管理装置１６は、監視カメラ１２に対して行われた手動操作に応じて、第１撮像画像Ｐ１を教師画像ＴＤとして出力する。この手動操作は、自動監視モードから手動監視モードへの切り替え操作であり、管理装置１６は、自動監視モードから手動監視モードへの切り替え後の手動監視モード時に取得した第１撮像画像を教師画像ＴＤとして出力する。また、監視カメラ１２は、パン、チルト、及びズームのうち少なくとも１つを変更することにより撮像範囲３１を変化させることが可能であり、切り替え操作は、自動監視モード時におけるパン、チルト、及びズームのうち少なくとも１つを変更する操作である。このように、本開示の技術によれば、ユーザの意図に応じて教師画像ＴＤを効率よく収集することができる。

　［第２実施形態］
　第１実施形態では、監視モードが自動監視モードから手動監視モードへの切り替え操作が行われたことに応じて第１撮像画像を教師画像ＴＤとして出力する例を示したが、第２実施形態では、ユーザにより与えられた出力指示に応じて、第１撮像画像を教師画像ＴＤとして出力する。

　図１１は、第２実施形態に係る監視システム１０の作用を示す。図１１に示すように、本実施形態では、ステップＳ１７とステップＳ１８との間にステップＳ３０が追加される。その他のステップは、第１実施形態と同様である。

　本実施形態では、ステップＳ１７において手動ＰＴＺが開始した後、監視処理はステップＳ３０へ移行する。

　ステップＳ３０で、ユーザが受付デバイス１４を操作することにより出力指示を行ったか否かを判定する。例えば、ユーザは、受付デバイス１４としてのマウスを操作し、ディスプレイ１５に表示された専用のボタンをクリックすることにより、出力指示を行う。ステップＳ３０において出力指示が行われた場合には、判定が肯定されて、監視処理はステップＳ１８へ移行する。ステップＳ３０において出力指示が行われなかった場合には、判定が否定されて、監視処理はステップＳ１９へ移行する。

　ステップＳ１８では、第１実施形態と同様に、教師画像出力部５５が、手動監視モード時に取得された第１撮像画像Ｐ１を教師画像ＴＤとして出力する教師画像出力処理を行う。

　このように、本実施形態では、管理装置１６は、自動監視モードから手動監視モードへの切り替え後に、与えられた出力指示に応じて、第１撮像画像Ｐ１を教師画像ＴＤとして出力するので、ユーザの意図に応じて教師画像ＴＤを効率よく収集することができる。

　［第３実施形態］
　第１実施形態では、監視モードが自動監視モードから手動監視モードへの切り替え操作が行われたことに応じて第１撮像画像を教師画像ＴＤとして出力する例を示したが、第３実施形態では、第１撮像画像に加えて、切り替え前の自動監視モードで取得した第２撮像画像Ｐ２を教師画像ＴＤとして出力する。

　図１２は、第３実施形態に係る監視システム１０の作用を示す。図１２に示すように、本実施形態では、ステップＳ１６とステップＳ１７との間にステップＳ４０が追加されている。その他のステップは、第１実施形態と同様である。

　本実施形態では、ステップＳ１６において、手動監視モードへ切り替えられた場合には、判定が肯定されて、監視処理はステップＳ４０へ移行する。

　ステップＳ４０で、教師画像出力部５５は、切り替え前の自動監視モードで取得された第２撮像画像Ｐ２（図８参照）を、教師画像ＴＤとして出力する。ユーザが自動監視モードから手動監視モードへ切り替え操作を行う場合、切り替え前の自動監視モードで取得された第２撮像画像Ｐ２は、図８に示したように物体検出部５４による物体検出が誤検出であったと考えられるため、教師画像出力部５５は、第２撮像画像Ｐ２を、不正解ラベルＬ０を付与された教師画像ＴＤとして出力する。ステップＳ４０の後、監視処理はステップＳ１７へ移行する。

　なお、本実施形態では、ステップＳ１８で、教師画像出力部５５は、手動監視モードで取得された第１撮像画像Ｐ１を、正解ラベルＬ１が付与された教師画像ＴＤとして出力する。

　このように、本実施形態では、管理装置１６は、切り替え前の自動監視モードで取得した第２撮像画像Ｐ２を、不正解ラベルＬ０が付与された教師画像ＴＤとして出力し、かつ、切り替え後の手動監視モードで取得した第１撮像画像Ｐ１を、正解ラベルＬ１が付与された教師画像ＴＤとして出力する。これにより、本実施形態では、正解ラベルＬ１又は不正解ラベルＬ０を教師画像ＴＤに自動的に割り当てることができ、ユーザの手間を削減することができる。また、第１撮像画像Ｐ１に加えて第２撮像画像Ｐ２を用いて学習済みモデルＬＭに追加学習を行わせることにより、物体検出の検出精度が向上する。

　［第４実施形態］
　次に、第４実施形態について説明する。第４実施形態は、第３実施形態を変形したものである。第３実施形態では、監視モードが自動監視モードから手動監視モードに切り替えられた場合に、切り替え前の自動監視モードで取得された第２撮像画像Ｐ２を教師画像ＴＤとして出力している。第４実施形態では、監視モードが自動監視モードから手動監視モードに切り替えられた後、一定の条件が満たされた場合に、切り替え前の自動監視モードで取得された第２撮像画像Ｐ２を教師画像ＴＤとして出力する。

　図１３は、第４実施形態に係る監視システム１０の作用を示す。本実施形態では、ステップＳ１９において、モード切替制御部５１は、自動監視モードから手動監視モードへ切り替えられた後、手動監視モードにおいて一定時間操作がなされなかったか（すなわち、無操作の状態が一定時間継続したか）否かを判定する。ステップＳ１９において、一定時間操作がなされなかった場合には、判定が肯定されて、監視処理はステップＳ１０へ戻る。ステップＳ１９において、一定時間が経過するまでに操作がなされた場合には、判定が否定されて、監視処理はステップＳ２０へ移行する。すなわち、本実施形態では、自動監視モードから手動監視モードへ切り替えられた後、手動監視モードにおいて一定時間操作がなされなかった場合には、自動監視モードへ移行する。

　また、本実施形態では、ステップＳ１６とステップＳ４０との間にステップＳ５０が追加されている。その他のステップは、第３実施形態と同様である。

　本実施形態では、ステップＳ１６において、手動監視モードへ切り替えられた場合には、判定が肯定されて、監視処理はステップＳ５０へ移行する。

　ステップＳ５０で、モード切替制御部５１は、今回の切り替え操作が、前回の切り替え操作から一定時間経過後か否かを判定する。具体的には、モード切替制御部５１は、ステップＳ１６において判定が肯定されることにより、監視モードが手動監視モードに切り替えられた時点から計時を行い、ステップＳ１９において判定が肯定されることにより、監視モードが自動監視モードへ切り替えられ、再びステップＳ１６において判定が肯定されるまでの経過時間が、一定時間内であるか否かを判定する。

　ステップＳ５０において、今回の切り替え操作が、前回の切り替え操作から一定時間経過後でない場合には、判定が否定されて、監視処理はステップＳ４０へ移行する。ステップＳ５０において、今回の切り替え操作が、前回の切り替え操作から一定時間経過後である場合には、判定が肯定されて、監視処理はステップＳ１７へ移行する。

　このように、本実施形態では、教師画像出力部５５は、前回の切り替え操作から一定時間経過後である場合には、切り替え前の自動監視モードで取得された第２撮像画像Ｐ２を、教師画像ＴＤとして出力しない。これは、例えば、ユーザが、監視モードを手動監視モードに切り替えた後、管理装置１６の場所から離れることにより無操作の状態が継続したことにより、自動監視モードに切り替わり、再び管理装置１６の場所に戻って手動監視モードに切り替えた状況に対応する。このような状況では、ユーザは、手動監視モードに切り替える直前に、自動監視モードで取得された第２撮像画像Ｐ２を観察していない可能性が高く、物体検出が誤検出であると判断して監視モードを手動監視モードに切り替えたとは考えられないためである。すなわち、ユーザは、無操作の状態が続いたことにより、手動監視モードから自動監視モードに切り替わった後、単に手動監視モードに戻すために切り替え操作を行ったと考えられるためである。

　このように、本実施形態では、ユーザが意図していない状況下で第２撮像画像Ｐ２が教師画像ＴＤとして出力されることを防止することができる。

　次に、図１４～図１７は、教師画像出力部５５による教師画像出力処理の各種変形例を示す。

　［第１変形例］
　図１４は、教師画像出力処理の第１変形例を示す。図１４に示すように、第１変形例では、教師画像出力部５５は、教師画像ＴＤ内に写り込んでいる物体を検出し、検出した物体の教師画像ＴＤ内における位置情報を教師画像ＴＤに付加する。

　例えば、教師画像出力部５５は、学習済みモデルＬＭを用いて、教師画像ＴＤとして出力対象の第１撮像画像Ｐ１から物体を検出し、検出した物体の位置情報を第１撮像画像Ｐ１に付加する。そして、教師画像出力部５５は、位置情報を付加した第１撮像画像Ｐ１を教師画像ＴＤとして出力する。

　なお、教師画像出力部５５は、第２撮像画像Ｐ２を出力対象とする場合に、第２撮像画像Ｐ２に対して同様の位置情報付加処理を行ってもよい。

　また、教師画像出力部５５が学習済みモデルＬＭを用いて物体を検出する場合における物体検出の検出基準は、物体検出部５４が学習済みモデルＬＭを用いて物体を検出する場合における物体検出の検出基準よりも低いことが好ましい。例えば、検出基準は、物体候補が特定の物体であると判定するスコアの下限値である。例えば、物体検出部５４が学習済みモデルＬＭを用いて物体を検出する場合は、スコアが０．９以上の場合に物体が重機であると判定し、教師画像出力部５５が学習済みモデルＬＭを用いて物体を検出する場合には、スコアが０．７以上の場合に物体が重機であると判定する。

　このように、教師画像ＴＤに写り込んでいる物体を検出する場合における物体検出の検出基準を、自動監視モード時に第２撮像画像Ｐ２に写り込んでいる物体を検出する場合における物体検出の検出基準よりも下げることにより、学習済みモデルＬＭの検出精度が向上し、今まで検出できなかった物体が検出可能となる。

　［第２変形例］
　図１５は、教師画像出力処理の第２変形例を示す。図１５に示すように、第２変形例では、第１変形例で示した位置情報付加処理に加えて、ユーザが位置情報を変更可能とする。

　本実施形態では、教師画像出力部５５は、学習済みモデルＬＭを用いて、教師画像ＴＤとして出力対象の第１撮像画像Ｐ１から物体を検出し、検出した物体の位置情報を第１撮像画像Ｐ１とともに、表示制御部５３を介してディスプレイ１５に表示させる。ユーザは、ディスプレイ１５に表示された位置情報変更し、かつ決定することができる。例えば、ユーザは、物体の位置情報を表す矩形状の枠の位置、形状、及びサイズを、受付デバイス１４を用いて変更し、かつ決定することができる。図１５に示す例では、学習済みモデルＬＭによって物体として重機でない人が検出された場合に、ユーザは、位置情報が重機Ｈ２の領域を表すように、位置情報を変更している。

　教師画像出力部５５は、受付デバイス１４に与えられた指示に応じて位置情報を変更し、変更後の位置情報を付加した第１撮像画像Ｐ１を教師画像ＴＤとして出力する。

　なお、教師画像出力部５５は、第２撮像画像Ｐ２を出力対象とする場合に、第２撮像画像Ｐ２に対して同様の位置情報変更処理を行ってもよい。

　このように、本変形例によれば、ユーザが位置情報を適切な位置に変更することができるので、学習済みモデルＬＭの追加学習の精度が向上する。

　［第３変形例］
　第３変形例では、教師画像出力部５５は、学習済みモデルＬＭを用いた物体検出を行わずに、ユーザにより与えられた指示に応じて、教師画像ＴＤ内に写り込んでいる物体の位置を決定し、決定した物体の教師画像ＴＤ内における位置情報を教師画像ＴＤに付加する。

　一例として図１６に示すように、教師画像出力部５５は、教師画像ＴＤとして出力対象の第１撮像画像Ｐ１を、表示制御部５３を介してディスプレイ１５に表示させる。教師画像出力部５５は、受付デバイス１４に与えられた指示に応じて、教師画像ＴＤとして出力対象の第１撮像画像Ｐ１に写り込んでいる重機Ｈ２の位置を決定し、重機Ｈ２の位置情報を付加した第１撮像画像Ｐ１を教師画像ＴＤとして出力する。例えば、ユーザは、物体の位置情報を表す矩形状の枠の位置、形状、及びサイズを、受付デバイス１４を用いて変更することにより、物体の位置を決定することができる。

　教師画像出力部５５は、第２撮像画像Ｐ２を出力対象とする場合についても同様に、ユーザにより与えられた指示に応じて位置情報を付加することが可能である。

　本変形例によれば、ユーザが教師画像ＴＤに写り込んだ物体の位置を決定することができるので、学習済みモデルＬＭの機械学習の精度が向上する。

　［第４変形例］
　第４変形例では、教師画像出力部５５は、学習済みモデルＬＭの機械学習の精度をさらに向上させるために、教師画像ＴＤに対して拡張処理を施すことにより水増しする拡張処理を行う。一例として図１７に示すように、教師画像出力部５５は、教師画像ＴＤとして出力対象の第１撮像画像Ｐ１に加えて、第１撮像画像Ｐ１を反転させた拡張画像Ｐ１Ｅを教師画像ＴＤとして出力する。これにより、教師画像ＴＤの数が増えるので、学習済みモデルＬＭの機械学習の精度が向上する。

　なお、拡張画像Ｐ１Ｅを生成するための拡張処理は、反転処理には限られない。拡張処理は、反転、縮小、ノイズの付加、ディープラーニングによるスタイル変化のうち少なくともいずれか１つの処理であればよい。

　教師画像出力部５５は、第２撮像画像Ｐ２を出力対象とする場合についても同様に、拡張処理を行うことにより、教師画像ＴＤの数を増やすことが可能である。

　なお、第１～第４変形例で説明した各種処理は、教師画像出力部５５から出力された教師画像ＴＤがＮＶＭ４４等の記憶装置の記憶された後に行われてもよい。

　上記各実施形態及び上記各変形例では、撮像画像から物体として重機を検出しているが、検出する物体は重機には限られない。例えば、図１８に示すように、重機Ｈ１の周囲に設けられた安全を確保するためのバリケードＢを検出してもよい。また、段階的に、重機Ｈ１を検出した後、重機Ｈ１の周囲にバリケードＢが設けられているか否かを検出してもよい。バリケードの検出に関しても、重機の場合と同様に、上記の各種技術を適用することができる。

　本開示の技術は、建設現場の重機、バリケード等のように、容易に教師画像を入手することができない場合に特に有用である。

　また、上記各実施形態では、ＮＶＭ４４（図２参照）に監視処理用のプログラムＰＧが記憶されているが、本開示の技術はこれに限定されず、一例として図１９に示すように、ＳＳＤ又はＵＳＢメモリなどの非一時的記憶媒体である任意の可搬型の記憶媒体１００にプログラムＰＧが記憶されていてもよい。この場合、記憶媒体１００に記憶されているプログラムＰＧがコンピュータ４０にインストールされ、ＣＰＵ４２は、プログラムＰＧに従って、上述した監視処理を実行する。

　また、通信網（図示省略）を介してコンピュータ４０に接続される他のコンピュータ又はサーバ装置等の記憶装置にプログラムＰＧを記憶させておき、管理装置１６の要求に応じてプログラムＰＧがコンピュータ４０にダウンロードされてインストールされるようにしてもよい。この場合、インストールされたプログラムＰＧに従って監視処理がコンピュータ４０によって実行される。

　上記の監視処理を実行するハードウェア資源としては、次に示す各種のプロセッサを用いることができる。プロセッサとしては、例えば、上述したように、ソフトウェア、すなわち、プログラムＰＧを実行することで、監視処理を実行するハードウェア資源として機能する汎用的なプロセッサであるＣＰＵが挙げられる。また、プロセッサとしては、例えば、ＦＰＧＡ、ＰＬＤ、又はＡＳＩＣなどの特定の処理を実行させるために専用に設計された回路構成を有するプロセッサである専用電気回路が挙げられる。何れのプロセッサにもメモリが内蔵又は接続されており、何れのプロセッサもメモリを使用することで監視処理を実行する。

　監視処理を実行するハードウェア資源は、これらの各種のプロセッサのうちの１つで構成されてもよいし、同種または異種の２つ以上のプロセッサの組み合わせ（例えば、複数のＦＰＧＡの組み合わせ、又はＣＰＵとＦＰＧＡとの組み合わせ）で構成されてもよい。また、監視処理を実行するハードウェア資源は１つのプロセッサであってもよい。

　１つのプロセッサで構成する例としては、第１に、クライアント及びサーバなどのコンピュータに代表されるように、１つ以上のＣＰＵとソフトウェアの組み合わせで１つのプロセッサを構成し、このプロセッサが、監視処理を実行するハードウェア資源として機能する形態がある。第２に、ＳｏＣなどに代表されるように、監視処理を実行する複数のハードウェア資源を含むシステム全体の機能を１つのＩＣチップで実現するプロセッサを使用する形態がある。このように、監視処理は、ハードウェア資源として、上記各種のプロセッサの１つ以上を用いて実現される。

　更に、これらの各種のプロセッサのハードウェア的な構造としては、より具体的には、半導体素子などの回路素子を組み合わせた電気回路を用いることができる。

　また、上述した監視処理はあくまでも一例である。従って、主旨を逸脱しない範囲内において不要なステップを削除したり、新たなステップを追加したり、処理順序を入れ替えたりしてもよいことは言うまでもない。

　以上に示した記載内容及び図示内容は、本開示の技術に係る部分についての詳細な説明であり、本開示の技術の一例に過ぎない。例えば、上記の構成、機能、作用、及び効果に関する説明は、本開示の技術に係る部分の構成、機能、作用、及び効果の一例に関する説明である。よって、本開示の技術の主旨を逸脱しない範囲内において、以上に示した記載内容及び図示内容に対して、不要な部分を削除したり、新たな要素を追加したり、置き換えたりしてもよいことは言うまでもない。また、錯綜を回避し、本開示の技術に係る部分の理解を容易にするために、以上に示した記載内容及び図示内容では、本開示の技術の実施を可能にする上で特に説明を要しない技術常識等に関する説明は省略されている。

　本明細書において、「Ａ及び／又はＢ」は、「Ａ及びＢのうちの少なくとも１つ」と同義である。つまり、「Ａ及び／又はＢ」は、Ａだけであってもよいし、Ｂだけであってもよいし、Ａ及びＢの組み合わせであってもよい、という意味である。また、本明細書において、３つ以上の事柄を「及び／又は」で結び付けて表現する場合も、「Ａ及び／又はＢ」と同様の考え方が適用される。

　本明細書に記載された全ての文献、特許出願及び技術規格は、個々の文献、特許出願及び技術規格が参照により取り込まれることが具体的かつ個々に記された場合と同程度に、本明細書中に参照により取り込まれる。

Claims

　監視カメラを制御するプロセッサを備える制御装置であって、
　前記プロセッサは、
　監視カメラに対して撮像を行わせることで第１撮像画像を取得し、かつ、与えられた指示に応じて撮像範囲を変化させる第１監視モードと、前記監視カメラに対して撮像を行わせることで第２撮像画像を取得し、かつ、機械学習による学習済みモデルを用いて、前記第２撮像画像に写り込んでいる物体を検出し、検出結果に応じて前記撮像範囲を変化させる第２監視モードと、を切り替え、
　前記第１監視モードで取得した前記第１撮像画像を、前記機械学習に対する教師画像として出力する、
　制御装置。
　前記プロセッサは、前記監視カメラに対して行われた手動操作に応じて、前記第１撮像画像を前記教師画像として出力する、
　請求項１に記載の制御装置。
　前記手動操作は、前記第２監視モードから前記第１監視モードへの切り替え操作であり、
　前記プロセッサは、前記第２監視モードから前記第１監視モードへの切り替え後の前記第１監視モードで取得した前記第１撮像画像を前記教師画像として出力する、
　請求項２に記載の制御装置。
　前記監視カメラは、パン、チルト、及びズームのうち少なくとも１つを変更することにより前記撮像範囲を変化させることが可能であり、
　前記切り替え操作は、前記第２監視モード時におけるパン、チルト、及びズームのうち少なくとも１つを変更する操作である、
　請求項３に記載の制御装置。
　前記プロセッサは、前記第２監視モードから前記第１監視モードへの切り替え後に、与えられた出力指示に応じて、前記第１撮像画像を前記教師画像として出力する、
　請求項３又は請求項４に記載の制御装置。
　前記プロセッサは、
　切り替え前の前記第２監視モードで取得した前記第２撮像画像を、前記物体の検出に不適合である判断結果を付与して前記教師画像として出力し、かつ、
　切り替え後の前記第１監視モードで取得した前記第１撮像画像を、前記物体の検出に適合する判断結果を付与して前記教師画像として出力する、
　請求項３から請求項５のうちいずれか１項に記載の制御装置。
　前記プロセッサは、前記第２監視モードから前記第１監視モードへ切り替えた後、前記第１監視モードにおいて一定時間操作がなされない場合に、前記第２監視モードへ切り替える、
　請求項６に記載の制御装置。
　前記プロセッサは、
　前記第１監視モードから前記第２監視モードへ切り替えた後、前回の前記手動操作から一定時間経過した後に前記手動操作が行われた場合には、前記第２撮像画像は前記教師画像として出力しない、
　請求項７に記載の制御装置。
　前記プロセッサは、
　前記教師画像内に写り込んでいる物体を検出し、検出した物体の前記教師画像内における位置情報を前記教師画像に付加する、
　請求項１から請求項８のうちいずれか１項に記載の制御装置。
　前記プロセッサは、
　前記教師画像に写り込んでいる物体を検出する場合における物体検出の検出基準を、前記第２撮像画像に写り込んでいる物体を検出する場合における物体検出の検出基準よりも下げる、
　請求項９に記載の制御装置。
　前記プロセッサは、
　与えられた指示に応じて前記位置情報を変更する位置情報変更処理を行う、
　請求項９又は請求項１０に記載の制御装置。
　前記プロセッサは、
　与えられた指示に応じて、前記教師画像内に写り込んでいる物体の位置を決定し、決定した物体の前記教師画像内における位置情報を前記教師画像に付加する、
　請求項１から請求項８のうちいずれか１項に記載の制御装置。
　前記プロセッサは、
　前記教師画像に加えて、前記教師画像に対して拡張処理を施すことにより生成した拡張画像を前記教師画像として出力する、
　請求項１から請求項１２のうちいずれか１項に記載の制御装置。
　前記拡張処理は、反転、縮小、ノイズの付加、ディープラーニングによるスタイル変化のうち少なくともいずれか１つの処理である、
　請求項１３に記載の制御装置。
　監視カメラに対して撮像を行わせることで第１撮像画像を取得し、かつ、与えられた指示に応じて撮像範囲を変化させる第１監視モードと、前記監視カメラに対して撮像を行わせることで第２撮像画像を取得し、かつ、機械学習による学習済みモデルを用いて、前記第２撮像画像に写り込んでいる物体を検出し、検出結果に応じて前記撮像範囲を変化させる第２監視モードと、を切り替え可能とすること、
　前記第１監視モードで取得した前記第１撮像画像を、前記機械学習に対する教師画像として出力すること、
　を含む制御方法。
　監視カメラに対して撮像を行わせることで第１撮像画像を取得し、かつ、与えられた指示に応じて撮像範囲を変化させる第１監視モードと、前記監視カメラに対して撮像を行わせることで第２撮像画像を取得し、かつ、機械学習による学習済みモデルを用いて、前記第２撮像画像に写り込んでいる物体を検出し、検出結果に応じて前記撮像範囲を変化させる第２監視モードと、を切り替え可能とすること、
　前記第１監視モードで取得した前記第１撮像画像を、前記機械学習に対する教師画像として出力すること、
　を含む処理をコンピュータに実行させるためのプログラム。