WO2022201810A1 - 制御装置、制御方法、及びプログラム - Google Patents

制御装置、制御方法、及びプログラム Download PDF

Info

Publication number
WO2022201810A1
WO2022201810A1 PCT/JP2022/002054 JP2022002054W WO2022201810A1 WO 2022201810 A1 WO2022201810 A1 WO 2022201810A1 JP 2022002054 W JP2022002054 W JP 2022002054W WO 2022201810 A1 WO2022201810 A1 WO 2022201810A1
Authority
WO
WIPO (PCT)
Prior art keywords
monitoring mode
image
captured image
teacher
monitoring
Prior art date
Application number
PCT/JP2022/002054
Other languages
English (en)
French (fr)
Inventor
智大 島田
雅彦 杉本
哲也 藤川
Original Assignee
富士フイルム株式会社
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 富士フイルム株式会社 filed Critical 富士フイルム株式会社
Priority to JP2023508697A priority Critical patent/JPWO2022201810A1/ja
Priority to CN202280021394.1A priority patent/CN117063480A/zh
Publication of WO2022201810A1 publication Critical patent/WO2022201810A1/ja
Priority to US18/464,257 priority patent/US20230421731A1/en

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N7/00Television systems
    • H04N7/18Closed-circuit television [CCTV] systems, i.e. systems in which the video signal is not broadcast
    • H04N7/183Closed-circuit television [CCTV] systems, i.e. systems in which the video signal is not broadcast for receiving images from a single remote source
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/70Determining position or orientation of objects or cameras
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/20Image preprocessing
    • G06V10/25Determination of region of interest [ROI] or a volume of interest [VOI]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/82Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/50Context or environment of the image
    • G06V20/52Surveillance or monitoring of activities, e.g. for recognising suspicious objects
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/70Labelling scene content, e.g. deriving syntactic or semantic representations
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N23/00Cameras or camera modules comprising electronic image sensors; Control thereof
    • H04N23/60Control of cameras or camera modules
    • H04N23/66Remote control of cameras or camera parts, e.g. by remote control devices
    • H04N23/661Transmitting camera control signals through networks, e.g. control via the Internet
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N23/00Cameras or camera modules comprising electronic image sensors; Control thereof
    • H04N23/60Control of cameras or camera modules
    • H04N23/667Camera operation mode switching, e.g. between still and video, sport and normal or high- and low-resolution modes
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N23/00Cameras or camera modules comprising electronic image sensors; Control thereof
    • H04N23/60Control of cameras or camera modules
    • H04N23/695Control of camera direction for changing a field of view, e.g. pan, tilt or based on tracking of objects
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N5/00Details of television systems
    • H04N5/76Television signal recording
    • H04N5/765Interface circuits between an apparatus for recording and another apparatus
    • H04N5/77Interface circuits between an apparatus for recording and another apparatus between a recording apparatus and a television camera
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N5/00Details of television systems
    • H04N5/76Television signal recording
    • H04N5/91Television signal processing therefor
    • H04N5/92Transformation of the television signal for recording, e.g. modulation, frequency changing; Inverse transformation for playback
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N7/00Television systems
    • H04N7/18Closed-circuit television [CCTV] systems, i.e. systems in which the video signal is not broadcast
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20081Training; Learning

Landscapes

  • Engineering & Computer Science (AREA)
  • Multimedia (AREA)
  • Signal Processing (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Computation (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Computing Systems (AREA)
  • Databases & Information Systems (AREA)
  • General Health & Medical Sciences (AREA)
  • Medical Informatics (AREA)
  • Software Systems (AREA)
  • Computational Linguistics (AREA)
  • Studio Devices (AREA)
  • Image Analysis (AREA)

Abstract

制御装置は、監視カメラを制御するプロセッサを備える。プロセッサは、監視カメラに対して撮像を行わせることで第1撮像画像を取得し、かつ、与えられた指示に応じて撮像範囲を変化させる第1監視モードと、監視カメラに対して撮像を行わせることで第2撮像画像を取得し、かつ、機械学習による学習済みモデルを用いて、第2撮像画像に写り込んでいる物体を検出し、検出結果に応じて撮像範囲を変化させる第2監視モードと、を切り替え可能とし、第1監視モードで取得した第1撮像画像を、機械学習に対する教師画像として出力する。

Description

制御装置、制御方法、及びプログラム
 本開示の技術は、制御装置、制御方法、及びプログラムに関する。
 特開2004-056473号公報には、監視制御装置に、カメラで撮影された画像に対応する認識情報を学習結果に基づいて出力するニューラルネットワーク(NW)と、この認識情報に基づいて制御を実施する制御手段と、画像データを一時的に保存する短期記憶手段と、この画像データを記録する記憶手段とを設け、NWが、画像とその画像で表された事象の緊急の程度との関係を学習して、カメラの画像に対応する緊急程度を認識し、制御手段が、NWの認識情報により記憶手段に記録する画像データのフレームレートを制御することが記載されている。
 特表2006-523043号公報には、移動物体を検出し、監視システムを制御する方法は、少なくとも1つの像形成センサからの像情報を受け取るように適応された処理モジュールを含むことが記載されている。監視システムは、捕獲された像に対して動き検出分析を実行すると共に、移動物体が検出されると、特定のやり方で、カメラを制御する。
 特表2009-516480号公報に記載のビデオ監視システムのための方法およびシステムは、個々に視野を備えた複数のビデオカメラを備えており、カメラは、カメラ視野を変更するためのズーム、水平チルト軸の周りにカメラを回転させるためのチルト、および垂直パン軸の周りにカメラを回転させるためのパン、のうちの少なくとも1つを実施するように構成されている。システムは、さらに、少なくとも1つのビデオカメラの視野内の画像を表す信号を受け取り、受け取った信号を使用してターゲットを認識し、そのターゲットを認識しているカメラからそのターゲットへの方向を決定し、かつ、決定した方向を複数のビデオカメラのうちの他のカメラに送信するように構成されたプロセッサを備えている。
本開示の技術に係る一つの実施形態は、機械学習に用いる教師画像を効率よく収集することができる制御装置、制御方法、及びプログラムを提供する。
 本開示の制御装置は、監視カメラを制御するプロセッサを備える制御装置であって、プロセッサは、監視カメラに対して撮像を行わせることで第1撮像画像を取得し、かつ、与えられた指示に応じて撮像範囲を変化させる第1監視モードと、監視カメラに対して撮像を行わせることで第2撮像画像を取得し、かつ、機械学習による学習済みモデルを用いて、第2撮像画像に写り込んでいる物体を検出し、検出結果に応じて撮像範囲を変化させる第2監視モードと、を切り替え、第1監視モードで取得した第1撮像画像を、機械学習に対する教師画像として出力する。
 プロセッサは、監視カメラに対して行われた手動操作に応じて、第1撮像画像を教師画像として出力することが好ましい。
 手動操作は、第2監視モードから第1監視モードへの切り替え操作であり、プロセッサは、第2監視モードから第1監視モードへの切り替え後の第1監視モードで取得した第1撮像画像を教師画像として出力することが好ましい。
 監視カメラは、パン、チルト、及びズームのうち少なくとも1つを変更することにより撮像範囲を変化させることが可能であり、切り替え操作は、第2監視モード時におけるパン、チルト、及びズームのうち少なくとも1つを変更する操作であることが好ましい。
 プロセッサは、第2監視モードから第1監視モードへの切り替え後に、与えられた出力指示に応じて、第1撮像画像を教師画像として出力することが好ましい。
 プロセッサは、切り替え前の第2監視モードで取得した第2撮像画像を、物体の検出に不適合である判断結果を付与して教師画像として出力し、かつ、切り替え後の第1監視モードで取得した第1撮像画像を、物体の検出に適合する判断結果を付与して教師画像として出力することが好ましい。
 プロセッサは、第2監視モードから第1監視モードへ切り替えた後、第1監視モードにおいて一定時間操作がなされない場合に、第2監視モードへ切り替えることが好ましい。
 プロセッサは、第1監視モードから第2監視モードへ切り替えた後、前回の手動操作から一定時間経過した後に手動操作が行われた場合には、第2撮像画像は教師画像として出力しないことが好ましい。
 プロセッサは、教師画像内に写り込んでいる物体を検出し、検出した物体の教師画像内における位置情報を教師画像に付加することが好ましい。
 プロセッサは、教師画像に写り込んでいる物体を検出する場合における物体検出の検出基準を、第2撮像画像に写り込んでいる物体を検出する場合における物体検出の検出基準よりも下げることが好ましい。
 プロセッサは、与えられた指示に応じて位置情報を変更する位置情報変更処理を行うことが好ましい。
 プロセッサは、与えられた指示に応じて、教師画像内に写り込んでいる物体の位置を決定し、決定した物体の教師画像内における位置情報を教師画像に付加することが好ましい。
 プロセッサは、教師画像に加えて、教師画像に対して拡張処理を施すことにより生成した拡張画像を教師画像として出力することが好ましい。
 拡張処理は、反転、縮小、ノイズの付加、ディープラーニングによるスタイル変化のうち少なくともいずれか1つの処理であることが好ましい。
 本開示の制御方法は、監視カメラに対して撮像を行わせることで第1撮像画像を取得し、かつ、与えられた指示に応じて撮像範囲を変化させる第1監視モードと、監視カメラに対して撮像を行わせることで第2撮像画像を取得し、かつ、機械学習による学習済みモデルを用いて、第2撮像画像に写り込んでいる物体を検出し、検出結果に応じて撮像範囲を変化させる第2監視モードと、を切り替え可能とすること、第1監視モードで取得した第1撮像画像を、機械学習に対する教師画像として出力することを含む。
 本開示のプログラムは、監視カメラに対して撮像を行わせることで第1撮像画像を取得し、かつ、与えられた指示に応じて撮像範囲を変化させる第1監視モードと、監視カメラに対して撮像を行わせることで第2撮像画像を取得し、かつ、機械学習による学習済みモデルを用いて、第2撮像画像に写り込んでいる物体を検出し、検出結果に応じて撮像範囲を変化させる第2監視モードと、を切り替え可能とすること、第1監視モードで取得した第1撮像画像を、機械学習に対する教師画像として出力することを含む処理をコンピュータに実行させる。
第1実施形態に係る監視システムの全体構成の一例を示す概略構成図である。 監視カメラ及び管理装置のハードウェア構成の一例を示すブロック図である。 管理装置に含まれるCPUの機能の一例を示すブロック図である。 手動監視モードにおける手動PTZの一例を示す概念図である。 物体検出処理の一例を示す概念図である。 自動監視モードにおける自動PTZの一例を示す概念図である。 自動監視モードにおいて物体が誤検出された例を示す概念図である。 自動監視モード時に手動PTZが行われた例を示す概念図である。 学習処理の一例を示す概念図である。 第1実施形態に係る監視処理の流れの一例を示すフローチャートである。 第2実施形態に係る監視処理の流れの一例を示すフローチャートである。 第3実施形態に係る監視処理の流れの一例を示すフローチャートである。 第4実施形態に係る監視処理の流れの一例を示すフローチャートである。 教師画像出力処理の第1変形例を示す概念図である。 教師画像出力処理の第2変形例を示す概念図である。 教師画像出力処理の第3変形例を示す概念図である。 教師画像出力処理の第4変形例を示す概念図である。 物体検出の変形例について説明する概念図である。 記憶媒体に記憶されている撮像処理プログラムがコンピュータにインストールされる態様の一例を示すブロック図である。
 以下、添付図面に従って本開示の技術に係る制御装置、制御方法、及びプログラムの一例について説明する。
 先ず、以下の説明で使用される文言について説明する。
 CPUとは、“Central Processing Unit”の略称を指す。NVMとは、“Non-volatile memory”の略称を指す。RAMとは、“Random Access Memory”の略称を指す。ICとは、“Integrated Circuit”の略称を指す。ASICとは、“Application Specific Integrated Circuit”の略称を指す。PLDとは、“Programmable Logic Device”の略称を指す。FPGAとは、“Field-Programmable Gate Array”の略称を指す。SoCとは、“System-on-a-chip”の略称を指す。SSDとは、“Solid State Drive”の略称を指す。USBとは、“Universal Serial Bus”の略称を指す。HDDとは、“Hard Disk Drive”の略称を指す。EEPROMとは、“Electrically Erasable and Programmable Read Only Memory”の略称を指す。ELとは、“Electro-Luminescence”の略称を指す。I/Fとは、“Interface”の略称を指す。CMOSとは、“Complementary Metal Oxide Semiconductor”の略称を指す。CCDとは、“Charge Coupled Device”の略称を指す。
SWIRとは、“Short Wave Infra-Red”の略称を指す。LANとは、“Local Area Network”の略称を指す。
 [第1実施形態]
 一例として図1に示すように、監視システム10は、監視カメラ12、及び管理装置16を備えている。監視システム10は、例えば、建設現場を監視するシステムである。監視カメラ12は、例えば、建設現場の近傍の建物の屋上等の高所に設置されている。管理装置16は、例えば、建設現場の作業員を監督する現場監督等のユーザにより使用される。ユーザは、例えば、作業中の建設現場に危険性が生じていないかを、管理装置16を用いて監視する。監視システム10は、ユーザの監視負担を軽減するためのシステムである。
 監視カメラ12は、撮像装置18及び旋回装置20を備えている。撮像装置18は、例えば、被写体で反射した可視波長帯域の光を受光することにより被写体を撮像する。なお、撮像装置18は、被写体で反射した短波赤外波長帯域の光である近赤外光を受光することで被写体を撮像するものであってもよい。短波赤外波長帯域とは、例えば、約900nm~2500nmの波長帯域を指す。短波赤外波長帯域の光は、一般的に、SWIR光とも称される。
 撮像装置18は、旋回装置20に取り付けられている。旋回装置20は、撮像装置18を旋回させる。例えば、旋回装置20は、撮像装置18の撮像方向を、パン方向及びチルト方向に変更する。パン方向とは、例えば水平方向である。チルト方向とは、例えば鉛直方向である。
 旋回装置20は、基体22、パン用回転部材24、及びチルト用回転部材26を備えている。パン用回転部材24は、円柱状に形成されており、基体22の上面に取り付けられている。チルト用回転部材26は、アーム状に形成されており、パン用回転部材24の外周面に取り付けられている。チルト用回転部材26には、撮像装置18が取り付けられている。チルト用回転部材26は、水平方向に平行なチルト軸TAの周りに回転することで、撮像装置18の撮像方向をチルト方向に変更する。
 基体22は、パン用回転部材24を下方から支持している。パン用回転部材24は、鉛直方向に平行なパン軸PAの周りに回転することで、撮像装置18の撮像方向をパン方向に変更する。
 基体22には、駆動源(例えば、図2に示すパン用モータ24A及びチルト用モータ26A)が内蔵されている。基体22の駆動源は、パン用モータ24A及びチルト用モータ26Aに機械的に接続されている。例えば、基体22の駆動源は、動力伝達機構(図示省略)を介してパン用回転部材24及びチルト用回転部材26に連結されている。パン用回転部材24は、基体22の駆動源から動力を受けることでパン軸PAの周りに回転し、チルト用回転部材26は、基体22の駆動源から動力を受けることでチルト軸TAの周りに回転する。
 図1に示すように、監視システム10は、監視領域30内に設定された撮像範囲31を、撮像装置18で撮像することにより撮像画像を生成する。監視システム10は、パン及びチルトを行い、撮像範囲31を変更することにより、監視領域30の全体を撮像する。監視領域30としての建設現場には、重機、作業員等の種々の被写体が存在する。重機には、パワーショベル、ブルドーザ、クレーン車、ダンプカー等が含まれる。
 撮像装置18は、例えば、図示しないイメージセンサを有するデジタルカメラである。イメージセンサは、被写体を示す被写体光を受光し、受光した被写体光を光電変換し、受光量に応じた信号レベルの電気信号を、画像データとして出力する。イメージセンサが出力する画像データが、上記の撮像画像に対応する。イメージセンサは、CMOS型イメージセンサ又はCCD型イメージセンサ等である。撮像装置18は、カラー画像を撮像するものであってもよいし、モノクロ画像を撮像するものであってもよい。また、撮像画像は、静止画像であってもよいし、動画像であってもよい。
 また、撮像装置18は、ズーム機能を備えている。ズーム機能とは、撮像範囲31を縮小又は拡大(すなわちズームイン又はズームアウト)する機能である。撮像装置18が備えるズーム機能は、ズームレンズを移動させることによる光学ズーム機能、又は、画像データに対して画像処理を施すことによる電子ズーム機能である。なお、撮像装置18が備えるズーム機能は、光学ズーム機能と電子ズーム機能とを組み合わせた方式であってもよい。
 管理装置16は、管理装置本体13、受付デバイス14、及びディスプレイ15を備えている。管理装置本体13は、コンピュータ40(図2参照)を内蔵しており、監視システム10の全体を制御する。管理装置本体13には、受付デバイス14及びディスプレイ15が接続されている。
 受付デバイス14は、監視システム10を使用するユーザから各種の指示を受け付ける。受付デバイス14としては、例えば、キーボード、マウス、及び/又はタッチパネル等が挙げられる。受付デバイス14によって受け付けられた各種の指示は、管理装置本体13によって把握される。ディスプレイ15は、管理装置本体13の制御下で、各種の情報(例えば、画像及びテキスト等)を表示する。ディスプレイ15としては、例えば、液晶ディスプレイ又はELディスプレイ等が挙げられる。
 監視カメラ12は、管理装置16と通信網NT(インターネット又はLAN等)を介して通信可能に接続されており、管理装置本体13の制御下で作動する。監視カメラ12と管理装置16との接続方式は、有線による接続方式であってもよいし、無線による接続方式であってもよい。
 管理装置16は、監視カメラ12の撮像装置18から出力される撮像画像を取得し、撮像画像に写り込んでいる特定の物体(例えば重機)を、機械学習による学習済みモデルを用いて検出する。管理装置16は、特定の物体を検出した場合に、検出した物体を追尾するように、パン、チルト、及びズームを、監視カメラ12に行わせる。以下、パン、チルト、及びズームにより撮像範囲31を変化させる動作を、「PTZ」という。さらに、撮像画像に写り込んでいる物体の検出結果に応じて撮像範囲31を変化させる動作を、「自動PTZ」という。
 また、管理装置16は、ユーザによる受付デバイス14の操作に応じて撮像範囲31を変化させる動作を可能とする。以下、受付デバイス14に与えられた指示に応じて撮像範囲31を変化させる動作を、「手動PTZ」という。手動PTZでは、ユーザは、受付デバイス14を操作することにより、監視領域30内において、撮像範囲31を任意の位置及び大きさに設定することができる。
 また、以下では、手動PTZにより監視領域30を監視する監視モードを「手動監視モード」といい、自動PTZにより監視領域30を監視する監視モードを「自動監視モード」という。ユーザは、監視システム10による監視モードを、手動監視モードと自動監視モードとの間で切り替える切り替え操作を行うことが可能である。なお、手動監視モードは、本開示の技術に係る「第1監視モード」の一例である。自動監視モードは、本開示の技術に係る「第2監視モード」の一例である。
 一例として図2に示すように、監視カメラ12の旋回装置20は、コントローラ34を備えている。コントローラ34は、管理装置16の制御下で、パン用モータ24A、チルト用モータ26A、及び撮像装置18の動作を制御する。
 管理装置16の管理装置本体13は、コンピュータ40を備えている。コンピュータ40は、CPU42、NVM44、RAM46、及び通信I/F48を有する。管理装置16は、本開示の技術に係る「制御装置」の一例である。コンピュータ40は、本開示の技術に係る「コンピュータ」の一例である。CPU42は、本開示の技術に係る「プロセッサ」の一例である。
 CPU42、NVM44、RAM46、及び通信I/F48は、バス49に接続されている。図2に示す例では、図示の都合上、バス49として1本のバスが図示されているが、複数本のバスであってもよい。バス49は、シリアルバスであってもよいし、データバス、アドレスバス、及びコントロールバス等を含むパラレルバスであってもよい。
 NVM44は、各種のデータを記憶している。ここでは、NVM44の一例としては、EEPROM、SSD、及び/又はHDD等の各種の不揮発性の記憶装置が挙げられる。RAM46は、各種情報を一時的に記憶し、ワークメモリとして用いられる。RAM46の一例としては、DRAM又はSRAM等が挙げられる。
 NVM44には、プログラムPGが記憶されている。CPU42は、NVM44から必要なプログラムを読み出し、読み出したプログラムPGをRAM46上で実行する。CPU42は、プログラムPGに従って処理を実行することにより、管理装置16を含む監視システム10の全体を制御する。
 通信I/F48は、FPGA等のハードウェア資源によって実現されるインタフェースである。通信I/F48は、通信網NTを介して監視カメラ12のコントローラ34と通信可能に接続されており、CPU42とコントローラ34との間で各種情報の授受を行う。
 バス49には、受付デバイス14及びディスプレイ15も接続されており、CPU42は、受付デバイス14によって受け付けられ指示に従って動作し、かつ、ディスプレイ15に対して各種の情報を表示させる。
 また、NVM44には、上述の物体検出を行うための学習済みモデルLMが記憶されている。学習済みモデルLMは、特定の物体が写り込んだ複数の教師画像を用いて機械学習を行うことにより生成された物体検出用の学習済みモデルである。さらに、NVM44には、教師画像TDが記憶される。教師画像TDは、学習済みモデルLMに追加学習を行わせるための追加学習用の教師画像である。教師画像TDは、監視カメラ12により取得される撮像画像のうち、所定の条件を満たす画像である。
 一例として図3に示すように、CPU42がプログラムPGに基づいて動作を実行することにより、複数の機能部が実現される。プログラムPGは、CPU42を、カメラ制御部50、モード切替制御部51、画像取得部52、表示制御部53、物体検出部54、教師画像出力部55、及び機械学習部56として機能させる。
 カメラ制御部50は、監視カメラ12のコントローラ34を制御することにより、撮像装置18に撮像動作及びズームを行わせるとともに、旋回装置20にパン及びチルトを行わせる。すなわち、カメラ制御部50は、監視カメラ12に撮像動作を行わせるとともに、撮像範囲31を変化させる。
 モード切替制御部51は、受付デバイス14によって受け付けられ指示に基づき、監視システム10による監視モードを、自動監視モードと手動監視モードの間で切り替える切り替え制御を行う。モード切替制御部51は、手動監視モードの場合には、カメラ制御部50に、受付デバイス14に与えられた指示に応じて撮像範囲31を変化させる手動PTZを行わせる。モード切替制御部51は、自動監視モードの場合には、物体検出部54による物体検出の結果に応じて撮像範囲31を変化させる自動PTZを行わせる。
 画像取得部52は、カメラ制御部50が監視カメラ12に撮像を行わせることで監視カメラ12から出力される撮像画像Pを取得する。画像取得部52は、監視カメラ12から取得した撮像画像Pを表示制御部53に供給する。表示制御部53は、画像取得部52から供給された撮像画像Pをディスプレイ15に表示させる。
 手動監視モードの場合には、画像取得部52は、監視カメラ12から取得した撮像画像Pを、第1撮像画像P1として教師画像出力部55に供給する。一方、自動監視モードの場合には、画像取得部52は、監視カメラ12から取得した撮像画像Pを、第2撮像画像P2として物体検出部54に供給する。
 物体検出部54は、NVM44に記憶された学習済みモデルLMを用いて、第2撮像画像P2に写り込んでいる特定の物体(例えば重機)を検出する。物体検出部54は、物体検出の検出結果を、表示制御部53及びカメラ制御部50に供給する。表示制御部53は、物体検出部54から供給された検出結果に基づき、検出された物体を識別可能にディスプレイ15に表示させる。カメラ制御部50は、物体検出部54から供給された検出結果に基づき、検出された物体が撮像範囲31の中央に位置し、かつ検出された物体が拡大するように撮像範囲31を変化させる。
 教師画像出力部55は、ユーザが受付デバイス14を用いて監視カメラ12に対して行った手動操作に応じて、第1撮像画像P1を教師画像TDとしてNVM44に記憶させる。本実施形態では、教師画像出力部55は、ユーザが受付デバイス14を用いて、自動監視モードから手動監視モードに切り替える切り替え操作を行ったことに応じて、切り替え後の手動監視モード時に取得された第1撮像画像P1を教師画像TDとしてNVM44に記憶させる。切り替え操作とは、パン、チルト、及びズームのうち少なくとも1つを変更する操作である。
 機械学習部56は、NVM44に記憶された教師画像TDを用いて、学習済みモデルLMに追加学習を行わせることにより、学習済みモデルLMを更新する。例えば、機械学習部56は、NVM44に一定数の教師画像TDが蓄積された場合に、蓄積された複数の教師画像TDを用いて学習済みモデルLMに追加学習を行わせる。学習済みモデルLMが更新された場合には、物体検出部54は、更新された学習済みモデルLMを用いて物体検出を行う。
 学習済みモデルLMは、ニューラルネットワークを用いて構成さている。学習済みモデルLMは、例えば、深層学習(Deep Learning)の対象となる多層ニューラルネットワークである深層ニューラルネットワーク(DNN:Deep Neural Network)を用いて構成されている。DNNとして、例えば、画像を対象とする畳み込みニューラルネットワーク(CNN:Convolutional Neural Network)が用いられる。
 図4は、手動監視モードにおける手動PTZの一例を示す。図4に示す例では、ディスプレイ15に表示される撮像画像Pに、物体として2つの重機H1,H2が写っている。ユーザは、受付デバイス14としてのキーボード又はマウス等を操作することにより、自身が着目する領域に撮像範囲31を変更することができる。図4は、付近に人が存在する重機H2を監視対象として着目し、重機H2を含む着目領域が撮像範囲31に合致するように、撮像範囲31を変更する操作を行った様子を示している。
 図5は、学習済みモデルLMを用いた物体検出部54による物体検出処理の一例を示す。本実施形態では、学習済みモデルLMは、CNNにより構成されているとする。物体検出部54は、第2撮像画像P2を入力画像として学習済みモデルLMに入力する。学習済みモデルLMは、畳み込み層により第2撮像画像P2の特徴量を表す特徴マップFMを生成する。
 物体検出部54は、特徴マップFMに対して様々なサイズのウィンドウWをスライドさせ、ウィンドウW内に物体候補が存在するか否かを判定する。物体検出部54は、ウィンドウW内に物体候補が存在すると判定した場合には、特徴マップFMから物体候補を含むウィンドウW内の画像Rを切り出し、切り出した画像Rを分類器に入力する。分類器は、画像Rに含まれる物体候補のラベル及びスコアを出力する。ラベルは、物体の種類を表す。スコアは、物体候補がラベルにより表される種類の物体である確率を表す。図5に示す例では、物体候補として重機H1が抽出され、分類器により重機H1のラベルが「パワーショベル」であると判定されている。また、重機H1が「パワーショベル」であることの確率を表すスコアが「0.90」である。
 物体検出部54は、スコアが一定値以上の物体を含む画像Rの位置情報と、ラベル及びスコアとを、検出結果として出力する。なお、図5に示す例では、第2撮像画像P2から1つの物体が検出されているが、2以上の物体が検出されることもある。
 表示制御部53は、一例として図6に示すように、物体検出部54により検出された物体を囲うように矩形状の枠Fを、撮像画像P内に表示させる。また、表示制御部53は、枠Fの近傍に、枠F内の物体の種類を表すラベルLを表示させる。なお、表示制御部53は、さらにスコアを表示させてもよい。また、2以上の物体が検出された場合には、表示制御部53は、撮像画像P内に複数の枠Fを表示させる。
 図6は、自動監視モードにおける自動PTZの一例を示す。図6に示す例では、ディスプレイ15に表示される撮像画像Pに、物体として2つの重機H1,H2が写っており、重機H1が物体検出部54により検出されており、重機H2は、物体として検出されていない。この場合、カメラ制御部50は、重機H1を含む領域が撮像範囲31に合致するように、撮像範囲31を変更する制御を行う。これにより、重機H1を追尾するように自動PTZが行われる。
 なお、撮像画像P内に物体検出部54により検出された2以上の物体が存在する場合には、例えば、カメラ制御部50は、スコアが最も高い物体を含む領域が撮像範囲31に合致するように、撮像範囲31を変更する制御を行う。
 図7は、自動監視モードにおいて物体検出部54により物体が誤検出された例を示している。図7に示す例では、重機でない自動車がパワーショベルと誤検出され、自動車を追尾するように自動PTZが行われている。しかし、このように監視対象でない物体が誤検出された場合には、監視対象が他の領域に存在する可能性がある。例えば、図7に示す例では、ユーザは、付近に人が存在する重機H2を監視対象として着目する。この場合、ユーザは、重機H2を含む着目領域が撮像範囲31に合致するように、受付デバイス14を操作して手動PTZを行う。このように、自動監視モードにおいて物体が検出された後、物体がユーザの意図する監視対象でない場合には、ユーザは、受付デバイス14を操作して手動PTZを行うことがある。
 図8は、自動監視モード時に手動PTZが行われた例を示している。図8に示す例では、物体検出部54により誤検出された自動車に対して自動PTZが行われたことに応じて、ユーザは、自らが意図する着目領域(図7参照)が撮像範囲31に合致するように手動PTZを行っている。自動監視モードにおいて、ユーザが受付デバイス14を操作して手動PTZを行うと、前述のモード切替制御部51は、監視モードを自動監視モードから手動監視モードに切り替える。
 教師画像出力部55は、監視モードが自動監視モードから手動監視モードに切り替えられたことに応じて、手動監視モードへの切り替え後の第1撮像画像P1を教師画像TDとして出力する。例えば、教師画像出力部55は、ユーザが手動PTZを行うことにより監視モードが手動監視モードに切り替えられ、手動PTZが停止した時点における第1撮像画像P1を教師画像TDとして出力する。
 図9は、教師画像TDを用いて学習済みモデルLMに追加学習を行わせる学習処理の一例を示す。学習処理において、学習済みモデルLMには、教師画像TDが入力される。教師画像TDには、第1撮像画像P1に含まれる物体の種類を表す正解ラベルL1が付与されている。第1撮像画像P1に写り込んでいる物体は、物体検出部54により検出されなかった物体であるので、正解ラベルL1は、例えば、ユーザが物体の種類を判別することにより付される。
 学習済みモデルLMは、入力された教師画像TDに基づく検出結果RTを出力する。検出結果RTは、前述のラベルL及びスコアである。この検出結果RTと正解ラベルL1とに基づいて、損失関数を用いた損失演算がなされる。そして、損失演算の結果に応じて学習済みモデルLMの各種係数(重み係数、バイアスなど)の更新設定がなされ、更新設定にしたがって学習済みモデルLMが更新される。
 なお、ラベルLは、単に、検出した物体が正解であるか否か(例えば、重機であるか否か)を表すラベルであってもよい。この場合、例えば、ラベルLを「1」又は「0」の2値で表し、正解ラベルL1を「1」とし、不正解ラベルL0を「0」とする。なお、正解ラベルL1は、本開示の技術に係る「物体の検出に適合する判断結果」の一例である。不正解ラベルL0は、本開示の技術に係る「物体の検出に不適合である判断結果」の一例である。
 このように、ユーザが手動PTZにより監視対象とした物体は正解である可能性が高いことから、正解ラベルL1を付した第1撮像画像P1を教師画像TDとして出力する。このように、教師画像TDを用いて学習済みモデルLMに追加学習を行わせることにより、物体検出の精度が向上する。また、新たな種類の物体を検出することが可能となる。例えば、自動監視モードにおいて重機の一種であるブルドーザを検出することができていなかった場合に、ユーザが手動監視モードにより監視対象としたブルドーザを含む教師画像TDを追加学習することにより、新たにブルドーザを重機として検出することが可能となる。
 次に、監視システム10の作用を、図10を参照しながら説明する。
 図10には、CPU42によって実行される監視処理の流れの一例を示すフローチャートが示されている。なお、図10に示す監視処理の流れは、本開示の技術に係る「制御方法」の一例である。また、ここでは、説明の便宜上、撮像装置18による撮像が既定のフレームレートで行われることを前提として説明する。
 図10に示す監視処理では、先ず、ステップS10で、モード切替制御部51は、カメラ制御部50に自動監視モードで動作を開始させる。自動監視モードが開始すると、監視カメラ12により、監視領域30内に設定された撮像範囲31(図1参照)を対象として撮像動作が行われる。ステップS10の後、監視処理はステップS11へ移行する。
 ステップS11で、画像取得部52は、監視カメラ12から出力された撮像画像Pを取得し、第2撮像画像P2として物体検出部54に供給する。このとき、撮像画像Pは、表示制御部53を介してディスプレイ15に表示される。ステップS11の後、監視処理はステップS12へ移行する。
 ステップS12で、物体検出部54は、学習済みモデルLMを用いて、第2撮像画像P2に写り込んだ特定の物体(例えば重機)を検出する物体検出処理を行う(図5参照)。ステップS12の後、監視処理はステップS13へ移行する。
 ステップS13で、カメラ制御部50は、物体検出部54により物体が検出されたか否かを判定する。ステップS13において、物体が検出されなかった場合には、判定が否定されて、監視処理はステップS14へ移行する。ステップS13において、物体が検出された場合には、判定が肯定されて、監視処理はステップS15へ移行する。
 ステップS14で、カメラ制御部50は、監視カメラ12にパン又はチルトを行わせることにより、撮像範囲31をパン方向又はチルト方向に変更する(図1参照)。ステップS14の後、監視処理はステップS11へ戻る。ステップS11では、再び画像取得部52により撮像画像取得処理が行われる。
 ステップS15で、カメラ制御部50は、物体検出部54により検出された物体の検出結果に応じて撮像範囲31を変化させる自動PTZを行う(図6及び図7参照)。ステップS15の後、監視処理はステップS16へ移行する。
 ステップS16で、モード切替制御部51は、ユーザが受付デバイス14を操作して手動PTZを行うことにより、監視モードが自動監視モードから手動監視モードへ切り替えられたか否かを判定する。ステップS16において、手動監視モードへ切り替えられていない場合には、判定が否定されて、監視処理はステップS15へ戻る。ステップS16において、手動監視モードへ切り替えられた場合には(図8参照)、判定が肯定されて、監視処理はステップS17へ移行する。例えば、自動監視モード時に、ユーザが受付デバイス14を操作して手動PTZを実行させると、判定が肯定される。
 ステップS17で、カメラ制御部50は、ユーザにより受付デバイス14に与えられた指示に応じて撮像範囲31を変化させる手動PTZを行う(図4参照)。ステップS17の後、監視処理はステップS18へ移行する。
 ステップS18で、教師画像出力部55は、手動監視モード時に取得された第1撮像画像P1を教師画像TDとして出力する(図8参照)。ステップS18の後、監視処理はステップS19へ移行する。
 ステップS19で、モード切替制御部51は、ユーザが受付デバイス14を操作することにより、監視モードが手動監視モードから自動監視モードへ切り替えられたか否かを判定する。ステップS19において、自動監視モードへ切り替えられていない場合には、判定が否定されて、監視処理はステップS20へ移行する。ステップS19において、自動監視モードへ切り替えられた場合には、監視処理はステップS10へ戻る。
 ステップS20で、モード切替制御部51は、監視処理を終了する条件(以下、「終了条件」と称する)を満足したか否かを判定する。終了条件の一例としては、監視処理を終了させる指示が受付デバイス14によって受け付けられた、との条件が挙げられる。ステップS20において、終了条件を満足していない場合は、判定が否定されて、監視処理はステップS17へ戻る。ステップS20において、終了条件を満足した場合は、判定が肯定されて、監視処理が終了する。
 以上説明したように、制御装置としての管理装置16は、監視カメラ12に対して撮像を行わせることで第1撮像画像P1を取得し、かつ、与えられた指示に応じて撮像範囲31を変化させる手動監視モードと、監視カメラ12に対して撮像を行わせることで第2撮像画像P2を取得し、かつ、機械学習による学習済みモデルLMを用いて、第2撮像画像P2に写り込んでいる物体を検出し、検出結果に応じて撮像範囲31を変化させる自動監視モードと、を切り替え可能とする。そして、管理装置16は、手動監視モード時に取得した第1撮像画像P1を、機械学習に対する教師画像TDとして出力する。このように、本開示の技術によれば、ユーザが特別な操作を行うことなく、機械学習に用いる教師画像TDを効率よく収集することができる。
 また、管理装置16は、監視カメラ12に対して行われた手動操作に応じて、第1撮像画像P1を教師画像TDとして出力する。この手動操作は、自動監視モードから手動監視モードへの切り替え操作であり、管理装置16は、自動監視モードから手動監視モードへの切り替え後の手動監視モード時に取得した第1撮像画像を教師画像TDとして出力する。また、監視カメラ12は、パン、チルト、及びズームのうち少なくとも1つを変更することにより撮像範囲31を変化させることが可能であり、切り替え操作は、自動監視モード時におけるパン、チルト、及びズームのうち少なくとも1つを変更する操作である。このように、本開示の技術によれば、ユーザの意図に応じて教師画像TDを効率よく収集することができる。
 [第2実施形態]
 第1実施形態では、監視モードが自動監視モードから手動監視モードへの切り替え操作が行われたことに応じて第1撮像画像を教師画像TDとして出力する例を示したが、第2実施形態では、ユーザにより与えられた出力指示に応じて、第1撮像画像を教師画像TDとして出力する。
 図11は、第2実施形態に係る監視システム10の作用を示す。図11に示すように、本実施形態では、ステップS17とステップS18との間にステップS30が追加される。その他のステップは、第1実施形態と同様である。
 本実施形態では、ステップS17において手動PTZが開始した後、監視処理はステップS30へ移行する。
 ステップS30で、ユーザが受付デバイス14を操作することにより出力指示を行ったか否かを判定する。例えば、ユーザは、受付デバイス14としてのマウスを操作し、ディスプレイ15に表示された専用のボタンをクリックすることにより、出力指示を行う。ステップS30において出力指示が行われた場合には、判定が肯定されて、監視処理はステップS18へ移行する。ステップS30において出力指示が行われなかった場合には、判定が否定されて、監視処理はステップS19へ移行する。
 ステップS18では、第1実施形態と同様に、教師画像出力部55が、手動監視モード時に取得された第1撮像画像P1を教師画像TDとして出力する教師画像出力処理を行う。
 このように、本実施形態では、管理装置16は、自動監視モードから手動監視モードへの切り替え後に、与えられた出力指示に応じて、第1撮像画像P1を教師画像TDとして出力するので、ユーザの意図に応じて教師画像TDを効率よく収集することができる。
 [第3実施形態]
 第1実施形態では、監視モードが自動監視モードから手動監視モードへの切り替え操作が行われたことに応じて第1撮像画像を教師画像TDとして出力する例を示したが、第3実施形態では、第1撮像画像に加えて、切り替え前の自動監視モードで取得した第2撮像画像P2を教師画像TDとして出力する。
 図12は、第3実施形態に係る監視システム10の作用を示す。図12に示すように、本実施形態では、ステップS16とステップS17との間にステップS40が追加されている。その他のステップは、第1実施形態と同様である。
 本実施形態では、ステップS16において、手動監視モードへ切り替えられた場合には、判定が肯定されて、監視処理はステップS40へ移行する。
 ステップS40で、教師画像出力部55は、切り替え前の自動監視モードで取得された第2撮像画像P2(図8参照)を、教師画像TDとして出力する。ユーザが自動監視モードから手動監視モードへ切り替え操作を行う場合、切り替え前の自動監視モードで取得された第2撮像画像P2は、図8に示したように物体検出部54による物体検出が誤検出であったと考えられるため、教師画像出力部55は、第2撮像画像P2を、不正解ラベルL0を付与された教師画像TDとして出力する。ステップS40の後、監視処理はステップS17へ移行する。
 なお、本実施形態では、ステップS18で、教師画像出力部55は、手動監視モードで取得された第1撮像画像P1を、正解ラベルL1が付与された教師画像TDとして出力する。
 このように、本実施形態では、管理装置16は、切り替え前の自動監視モードで取得した第2撮像画像P2を、不正解ラベルL0が付与された教師画像TDとして出力し、かつ、切り替え後の手動監視モードで取得した第1撮像画像P1を、正解ラベルL1が付与された教師画像TDとして出力する。これにより、本実施形態では、正解ラベルL1又は不正解ラベルL0を教師画像TDに自動的に割り当てることができ、ユーザの手間を削減することができる。また、第1撮像画像P1に加えて第2撮像画像P2を用いて学習済みモデルLMに追加学習を行わせることにより、物体検出の検出精度が向上する。
 [第4実施形態]
 次に、第4実施形態について説明する。第4実施形態は、第3実施形態を変形したものである。第3実施形態では、監視モードが自動監視モードから手動監視モードに切り替えられた場合に、切り替え前の自動監視モードで取得された第2撮像画像P2を教師画像TDとして出力している。第4実施形態では、監視モードが自動監視モードから手動監視モードに切り替えられた後、一定の条件が満たされた場合に、切り替え前の自動監視モードで取得された第2撮像画像P2を教師画像TDとして出力する。
 図13は、第4実施形態に係る監視システム10の作用を示す。本実施形態では、ステップS19において、モード切替制御部51は、自動監視モードから手動監視モードへ切り替えられた後、手動監視モードにおいて一定時間操作がなされなかったか(すなわち、無操作の状態が一定時間継続したか)否かを判定する。ステップS19において、一定時間操作がなされなかった場合には、判定が肯定されて、監視処理はステップS10へ戻る。ステップS19において、一定時間が経過するまでに操作がなされた場合には、判定が否定されて、監視処理はステップS20へ移行する。すなわち、本実施形態では、自動監視モードから手動監視モードへ切り替えられた後、手動監視モードにおいて一定時間操作がなされなかった場合には、自動監視モードへ移行する。
 また、本実施形態では、ステップS16とステップS40との間にステップS50が追加されている。その他のステップは、第3実施形態と同様である。
 本実施形態では、ステップS16において、手動監視モードへ切り替えられた場合には、判定が肯定されて、監視処理はステップS50へ移行する。
 ステップS50で、モード切替制御部51は、今回の切り替え操作が、前回の切り替え操作から一定時間経過後か否かを判定する。具体的には、モード切替制御部51は、ステップS16において判定が肯定されることにより、監視モードが手動監視モードに切り替えられた時点から計時を行い、ステップS19において判定が肯定されることにより、監視モードが自動監視モードへ切り替えられ、再びステップS16において判定が肯定されるまでの経過時間が、一定時間内であるか否かを判定する。
 ステップS50において、今回の切り替え操作が、前回の切り替え操作から一定時間経過後でない場合には、判定が否定されて、監視処理はステップS40へ移行する。ステップS50において、今回の切り替え操作が、前回の切り替え操作から一定時間経過後である場合には、判定が肯定されて、監視処理はステップS17へ移行する。
 このように、本実施形態では、教師画像出力部55は、前回の切り替え操作から一定時間経過後である場合には、切り替え前の自動監視モードで取得された第2撮像画像P2を、教師画像TDとして出力しない。これは、例えば、ユーザが、監視モードを手動監視モードに切り替えた後、管理装置16の場所から離れることにより無操作の状態が継続したことにより、自動監視モードに切り替わり、再び管理装置16の場所に戻って手動監視モードに切り替えた状況に対応する。このような状況では、ユーザは、手動監視モードに切り替える直前に、自動監視モードで取得された第2撮像画像P2を観察していない可能性が高く、物体検出が誤検出であると判断して監視モードを手動監視モードに切り替えたとは考えられないためである。すなわち、ユーザは、無操作の状態が続いたことにより、手動監視モードから自動監視モードに切り替わった後、単に手動監視モードに戻すために切り替え操作を行ったと考えられるためである。
 このように、本実施形態では、ユーザが意図していない状況下で第2撮像画像P2が教師画像TDとして出力されることを防止することができる。
 次に、図14~図17は、教師画像出力部55による教師画像出力処理の各種変形例を示す。
 [第1変形例]
 図14は、教師画像出力処理の第1変形例を示す。図14に示すように、第1変形例では、教師画像出力部55は、教師画像TD内に写り込んでいる物体を検出し、検出した物体の教師画像TD内における位置情報を教師画像TDに付加する。
 例えば、教師画像出力部55は、学習済みモデルLMを用いて、教師画像TDとして出力対象の第1撮像画像P1から物体を検出し、検出した物体の位置情報を第1撮像画像P1に付加する。そして、教師画像出力部55は、位置情報を付加した第1撮像画像P1を教師画像TDとして出力する。
 なお、教師画像出力部55は、第2撮像画像P2を出力対象とする場合に、第2撮像画像P2に対して同様の位置情報付加処理を行ってもよい。
 また、教師画像出力部55が学習済みモデルLMを用いて物体を検出する場合における物体検出の検出基準は、物体検出部54が学習済みモデルLMを用いて物体を検出する場合における物体検出の検出基準よりも低いことが好ましい。例えば、検出基準は、物体候補が特定の物体であると判定するスコアの下限値である。例えば、物体検出部54が学習済みモデルLMを用いて物体を検出する場合は、スコアが0.9以上の場合に物体が重機であると判定し、教師画像出力部55が学習済みモデルLMを用いて物体を検出する場合には、スコアが0.7以上の場合に物体が重機であると判定する。
 このように、教師画像TDに写り込んでいる物体を検出する場合における物体検出の検出基準を、自動監視モード時に第2撮像画像P2に写り込んでいる物体を検出する場合における物体検出の検出基準よりも下げることにより、学習済みモデルLMの検出精度が向上し、今まで検出できなかった物体が検出可能となる。
 [第2変形例]
 図15は、教師画像出力処理の第2変形例を示す。図15に示すように、第2変形例では、第1変形例で示した位置情報付加処理に加えて、ユーザが位置情報を変更可能とする。
 本実施形態では、教師画像出力部55は、学習済みモデルLMを用いて、教師画像TDとして出力対象の第1撮像画像P1から物体を検出し、検出した物体の位置情報を第1撮像画像P1とともに、表示制御部53を介してディスプレイ15に表示させる。ユーザは、ディスプレイ15に表示された位置情報変更し、かつ決定することができる。例えば、ユーザは、物体の位置情報を表す矩形状の枠の位置、形状、及びサイズを、受付デバイス14を用いて変更し、かつ決定することができる。図15に示す例では、学習済みモデルLMによって物体として重機でない人が検出された場合に、ユーザは、位置情報が重機H2の領域を表すように、位置情報を変更している。
 教師画像出力部55は、受付デバイス14に与えられた指示に応じて位置情報を変更し、変更後の位置情報を付加した第1撮像画像P1を教師画像TDとして出力する。
 なお、教師画像出力部55は、第2撮像画像P2を出力対象とする場合に、第2撮像画像P2に対して同様の位置情報変更処理を行ってもよい。
 このように、本変形例によれば、ユーザが位置情報を適切な位置に変更することができるので、学習済みモデルLMの追加学習の精度が向上する。
 [第3変形例]
 第3変形例では、教師画像出力部55は、学習済みモデルLMを用いた物体検出を行わずに、ユーザにより与えられた指示に応じて、教師画像TD内に写り込んでいる物体の位置を決定し、決定した物体の教師画像TD内における位置情報を教師画像TDに付加する。
 一例として図16に示すように、教師画像出力部55は、教師画像TDとして出力対象の第1撮像画像P1を、表示制御部53を介してディスプレイ15に表示させる。教師画像出力部55は、受付デバイス14に与えられた指示に応じて、教師画像TDとして出力対象の第1撮像画像P1に写り込んでいる重機H2の位置を決定し、重機H2の位置情報を付加した第1撮像画像P1を教師画像TDとして出力する。例えば、ユーザは、物体の位置情報を表す矩形状の枠の位置、形状、及びサイズを、受付デバイス14を用いて変更することにより、物体の位置を決定することができる。
 教師画像出力部55は、第2撮像画像P2を出力対象とする場合についても同様に、ユーザにより与えられた指示に応じて位置情報を付加することが可能である。
 本変形例によれば、ユーザが教師画像TDに写り込んだ物体の位置を決定することができるので、学習済みモデルLMの機械学習の精度が向上する。
 [第4変形例]
 第4変形例では、教師画像出力部55は、学習済みモデルLMの機械学習の精度をさらに向上させるために、教師画像TDに対して拡張処理を施すことにより水増しする拡張処理を行う。一例として図17に示すように、教師画像出力部55は、教師画像TDとして出力対象の第1撮像画像P1に加えて、第1撮像画像P1を反転させた拡張画像P1Eを教師画像TDとして出力する。これにより、教師画像TDの数が増えるので、学習済みモデルLMの機械学習の精度が向上する。
 なお、拡張画像P1Eを生成するための拡張処理は、反転処理には限られない。拡張処理は、反転、縮小、ノイズの付加、ディープラーニングによるスタイル変化のうち少なくともいずれか1つの処理であればよい。
 教師画像出力部55は、第2撮像画像P2を出力対象とする場合についても同様に、拡張処理を行うことにより、教師画像TDの数を増やすことが可能である。
 なお、第1~第4変形例で説明した各種処理は、教師画像出力部55から出力された教師画像TDがNVM44等の記憶装置の記憶された後に行われてもよい。
 上記各実施形態及び上記各変形例では、撮像画像から物体として重機を検出しているが、検出する物体は重機には限られない。例えば、図18に示すように、重機H1の周囲に設けられた安全を確保するためのバリケードBを検出してもよい。また、段階的に、重機H1を検出した後、重機H1の周囲にバリケードBが設けられているか否かを検出してもよい。バリケードの検出に関しても、重機の場合と同様に、上記の各種技術を適用することができる。
 本開示の技術は、建設現場の重機、バリケード等のように、容易に教師画像を入手することができない場合に特に有用である。
 また、上記各実施形態では、NVM44(図2参照)に監視処理用のプログラムPGが記憶されているが、本開示の技術はこれに限定されず、一例として図19に示すように、SSD又はUSBメモリなどの非一時的記憶媒体である任意の可搬型の記憶媒体100にプログラムPGが記憶されていてもよい。この場合、記憶媒体100に記憶されているプログラムPGがコンピュータ40にインストールされ、CPU42は、プログラムPGに従って、上述した監視処理を実行する。
 また、通信網(図示省略)を介してコンピュータ40に接続される他のコンピュータ又はサーバ装置等の記憶装置にプログラムPGを記憶させておき、管理装置16の要求に応じてプログラムPGがコンピュータ40にダウンロードされてインストールされるようにしてもよい。この場合、インストールされたプログラムPGに従って監視処理がコンピュータ40によって実行される。
 上記の監視処理を実行するハードウェア資源としては、次に示す各種のプロセッサを用いることができる。プロセッサとしては、例えば、上述したように、ソフトウェア、すなわち、プログラムPGを実行することで、監視処理を実行するハードウェア資源として機能する汎用的なプロセッサであるCPUが挙げられる。また、プロセッサとしては、例えば、FPGA、PLD、又はASICなどの特定の処理を実行させるために専用に設計された回路構成を有するプロセッサである専用電気回路が挙げられる。何れのプロセッサにもメモリが内蔵又は接続されており、何れのプロセッサもメモリを使用することで監視処理を実行する。
 監視処理を実行するハードウェア資源は、これらの各種のプロセッサのうちの1つで構成されてもよいし、同種または異種の2つ以上のプロセッサの組み合わせ(例えば、複数のFPGAの組み合わせ、又はCPUとFPGAとの組み合わせ)で構成されてもよい。また、監視処理を実行するハードウェア資源は1つのプロセッサであってもよい。
 1つのプロセッサで構成する例としては、第1に、クライアント及びサーバなどのコンピュータに代表されるように、1つ以上のCPUとソフトウェアの組み合わせで1つのプロセッサを構成し、このプロセッサが、監視処理を実行するハードウェア資源として機能する形態がある。第2に、SoCなどに代表されるように、監視処理を実行する複数のハードウェア資源を含むシステム全体の機能を1つのICチップで実現するプロセッサを使用する形態がある。このように、監視処理は、ハードウェア資源として、上記各種のプロセッサの1つ以上を用いて実現される。
 更に、これらの各種のプロセッサのハードウェア的な構造としては、より具体的には、半導体素子などの回路素子を組み合わせた電気回路を用いることができる。
 また、上述した監視処理はあくまでも一例である。従って、主旨を逸脱しない範囲内において不要なステップを削除したり、新たなステップを追加したり、処理順序を入れ替えたりしてもよいことは言うまでもない。
 以上に示した記載内容及び図示内容は、本開示の技術に係る部分についての詳細な説明であり、本開示の技術の一例に過ぎない。例えば、上記の構成、機能、作用、及び効果に関する説明は、本開示の技術に係る部分の構成、機能、作用、及び効果の一例に関する説明である。よって、本開示の技術の主旨を逸脱しない範囲内において、以上に示した記載内容及び図示内容に対して、不要な部分を削除したり、新たな要素を追加したり、置き換えたりしてもよいことは言うまでもない。また、錯綜を回避し、本開示の技術に係る部分の理解を容易にするために、以上に示した記載内容及び図示内容では、本開示の技術の実施を可能にする上で特に説明を要しない技術常識等に関する説明は省略されている。
 本明細書において、「A及び/又はB」は、「A及びBのうちの少なくとも1つ」と同義である。つまり、「A及び/又はB」は、Aだけであってもよいし、Bだけであってもよいし、A及びBの組み合わせであってもよい、という意味である。また、本明細書において、3つ以上の事柄を「及び/又は」で結び付けて表現する場合も、「A及び/又はB」と同様の考え方が適用される。
 本明細書に記載された全ての文献、特許出願及び技術規格は、個々の文献、特許出願及び技術規格が参照により取り込まれることが具体的かつ個々に記された場合と同程度に、本明細書中に参照により取り込まれる。

Claims (16)

  1.  監視カメラを制御するプロセッサを備える制御装置であって、
     前記プロセッサは、
     監視カメラに対して撮像を行わせることで第1撮像画像を取得し、かつ、与えられた指示に応じて撮像範囲を変化させる第1監視モードと、前記監視カメラに対して撮像を行わせることで第2撮像画像を取得し、かつ、機械学習による学習済みモデルを用いて、前記第2撮像画像に写り込んでいる物体を検出し、検出結果に応じて前記撮像範囲を変化させる第2監視モードと、を切り替え、
     前記第1監視モードで取得した前記第1撮像画像を、前記機械学習に対する教師画像として出力する、
     制御装置。
  2.  前記プロセッサは、前記監視カメラに対して行われた手動操作に応じて、前記第1撮像画像を前記教師画像として出力する、
     請求項1に記載の制御装置。
  3.  前記手動操作は、前記第2監視モードから前記第1監視モードへの切り替え操作であり、
     前記プロセッサは、前記第2監視モードから前記第1監視モードへの切り替え後の前記第1監視モードで取得した前記第1撮像画像を前記教師画像として出力する、
     請求項2に記載の制御装置。
  4.  前記監視カメラは、パン、チルト、及びズームのうち少なくとも1つを変更することにより前記撮像範囲を変化させることが可能であり、
     前記切り替え操作は、前記第2監視モード時におけるパン、チルト、及びズームのうち少なくとも1つを変更する操作である、
     請求項3に記載の制御装置。
  5.  前記プロセッサは、前記第2監視モードから前記第1監視モードへの切り替え後に、与えられた出力指示に応じて、前記第1撮像画像を前記教師画像として出力する、
     請求項3又は請求項4に記載の制御装置。
  6.  前記プロセッサは、
     切り替え前の前記第2監視モードで取得した前記第2撮像画像を、前記物体の検出に不適合である判断結果を付与して前記教師画像として出力し、かつ、
     切り替え後の前記第1監視モードで取得した前記第1撮像画像を、前記物体の検出に適合する判断結果を付与して前記教師画像として出力する、
     請求項3から請求項5のうちいずれか1項に記載の制御装置。
  7.  前記プロセッサは、前記第2監視モードから前記第1監視モードへ切り替えた後、前記第1監視モードにおいて一定時間操作がなされない場合に、前記第2監視モードへ切り替える、
     請求項6に記載の制御装置。
  8.  前記プロセッサは、
     前記第1監視モードから前記第2監視モードへ切り替えた後、前回の前記手動操作から一定時間経過した後に前記手動操作が行われた場合には、前記第2撮像画像は前記教師画像として出力しない、
     請求項7に記載の制御装置。
  9.  前記プロセッサは、
     前記教師画像内に写り込んでいる物体を検出し、検出した物体の前記教師画像内における位置情報を前記教師画像に付加する、
     請求項1から請求項8のうちいずれか1項に記載の制御装置。
  10.  前記プロセッサは、
     前記教師画像に写り込んでいる物体を検出する場合における物体検出の検出基準を、前記第2撮像画像に写り込んでいる物体を検出する場合における物体検出の検出基準よりも下げる、
     請求項9に記載の制御装置。
  11.  前記プロセッサは、
     与えられた指示に応じて前記位置情報を変更する位置情報変更処理を行う、
     請求項9又は請求項10に記載の制御装置。
  12.  前記プロセッサは、
     与えられた指示に応じて、前記教師画像内に写り込んでいる物体の位置を決定し、決定した物体の前記教師画像内における位置情報を前記教師画像に付加する、
     請求項1から請求項8のうちいずれか1項に記載の制御装置。
  13.  前記プロセッサは、
     前記教師画像に加えて、前記教師画像に対して拡張処理を施すことにより生成した拡張画像を前記教師画像として出力する、
     請求項1から請求項12のうちいずれか1項に記載の制御装置。
  14.  前記拡張処理は、反転、縮小、ノイズの付加、ディープラーニングによるスタイル変化のうち少なくともいずれか1つの処理である、
     請求項13に記載の制御装置。
  15.  監視カメラに対して撮像を行わせることで第1撮像画像を取得し、かつ、与えられた指示に応じて撮像範囲を変化させる第1監視モードと、前記監視カメラに対して撮像を行わせることで第2撮像画像を取得し、かつ、機械学習による学習済みモデルを用いて、前記第2撮像画像に写り込んでいる物体を検出し、検出結果に応じて前記撮像範囲を変化させる第2監視モードと、を切り替え可能とすること、
     前記第1監視モードで取得した前記第1撮像画像を、前記機械学習に対する教師画像として出力すること、
     を含む制御方法。
  16.  監視カメラに対して撮像を行わせることで第1撮像画像を取得し、かつ、与えられた指示に応じて撮像範囲を変化させる第1監視モードと、前記監視カメラに対して撮像を行わせることで第2撮像画像を取得し、かつ、機械学習による学習済みモデルを用いて、前記第2撮像画像に写り込んでいる物体を検出し、検出結果に応じて前記撮像範囲を変化させる第2監視モードと、を切り替え可能とすること、
     前記第1監視モードで取得した前記第1撮像画像を、前記機械学習に対する教師画像として出力すること、
     を含む処理をコンピュータに実行させるためのプログラム。
PCT/JP2022/002054 2021-03-24 2022-01-20 制御装置、制御方法、及びプログラム WO2022201810A1 (ja)

Priority Applications (3)

Application Number Priority Date Filing Date Title
JP2023508697A JPWO2022201810A1 (ja) 2021-03-24 2022-01-20
CN202280021394.1A CN117063480A (zh) 2021-03-24 2022-01-20 控制装置、控制方法及程序
US18/464,257 US20230421731A1 (en) 2021-03-24 2023-09-10 Control apparatus, control method, and program

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
JP2021050783 2021-03-24
JP2021-050783 2021-03-24

Related Child Applications (1)

Application Number Title Priority Date Filing Date
US18/464,257 Continuation US20230421731A1 (en) 2021-03-24 2023-09-10 Control apparatus, control method, and program

Publications (1)

Publication Number Publication Date
WO2022201810A1 true WO2022201810A1 (ja) 2022-09-29

Family

ID=83395385

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/JP2022/002054 WO2022201810A1 (ja) 2021-03-24 2022-01-20 制御装置、制御方法、及びプログラム

Country Status (4)

Country Link
US (1) US20230421731A1 (ja)
JP (1) JPWO2022201810A1 (ja)
CN (1) CN117063480A (ja)
WO (1) WO2022201810A1 (ja)

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2018117280A (ja) * 2017-01-19 2018-07-26 キヤノン株式会社 画像処理装置、画像処理方法、プログラム
JP2019106694A (ja) * 2017-09-28 2019-06-27 キヤノン株式会社 撮像装置およびその制御方法
JP2020061761A (ja) * 2017-12-26 2020-04-16 キヤノン株式会社 画像処理装置、画像処理方法、プログラム

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2018117280A (ja) * 2017-01-19 2018-07-26 キヤノン株式会社 画像処理装置、画像処理方法、プログラム
JP2019106694A (ja) * 2017-09-28 2019-06-27 キヤノン株式会社 撮像装置およびその制御方法
JP2020061761A (ja) * 2017-12-26 2020-04-16 キヤノン株式会社 画像処理装置、画像処理方法、プログラム

Also Published As

Publication number Publication date
CN117063480A (zh) 2023-11-14
JPWO2022201810A1 (ja) 2022-09-29
US20230421731A1 (en) 2023-12-28

Similar Documents

Publication Publication Date Title
US10451705B2 (en) Tracking control device, tracking control method, tracking control program, and automatic tracking imaging system
JP4928275B2 (ja) カメラ制御装置及びその制御方法
GB2401977A (en) Surveillance of an area
EP3772217A1 (en) Output control apparatus, display terminal, remote control system, control method, and carrier medium
US20090043422A1 (en) Photographing apparatus and method in a robot
CN112954214B (zh) 拍摄的方法、装置、电子设备及存储介质
JP2019129410A (ja) 監視カメラ、監視カメラの制御方法、およびプログラム
US10455144B2 (en) Information processing apparatus, information processing method, system, and non-transitory computer-readable storage medium
JP7371076B2 (ja) 情報処理装置、情報処理システム、情報処理方法及びプログラム
US20170134627A1 (en) Control apparatus, control method, and recording medium
JP4594197B2 (ja) 自動追尾装置
CN110677580A (zh) 拍摄方法、装置、存储介质及终端
WO2022201810A1 (ja) 制御装置、制御方法、及びプログラム
JP2011239104A (ja) カメラ装置、拡大表示方法およびプログラム
JP2013065971A (ja) 撮像装置、撮像装置の制御方法
JP2019087840A (ja) 監視システム
WO2022209135A1 (ja) 制御装置、制御方法、及びプログラム
US11151730B2 (en) System and method for tracking moving objects
CN112468722B (zh) 一种拍摄方法、装置、设备及存储介质
JP2022105047A (ja) 撮像装置、飛行装置、撮像方法及びプログラム
JP6115673B2 (ja) 装置、及びプログラム
CN112422827B (zh) 信息处理方法、装置及设备和存储介质
US20230341947A1 (en) Information processing apparatus, information processing method, and storage medium
JP2021064871A (ja) 情報処理装置および情報処理方法
JP2024042352A (ja) 撮像装置、撮像装置の制御方法およびプログラム

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 22774613

Country of ref document: EP

Kind code of ref document: A1

WWE Wipo information: entry into national phase

Ref document number: 2023508697

Country of ref document: JP

WWE Wipo information: entry into national phase

Ref document number: 202280021394.1

Country of ref document: CN

NENP Non-entry into the national phase

Ref country code: DE

122 Ep: pct application non-entry in european phase

Ref document number: 22774613

Country of ref document: EP

Kind code of ref document: A1