WO2023135621A1 - 監視カメラ画像解析システム - Google Patents

監視カメラ画像解析システム Download PDF

Info

Publication number
WO2023135621A1
WO2023135621A1 PCT/JP2022/000448 JP2022000448W WO2023135621A1 WO 2023135621 A1 WO2023135621 A1 WO 2023135621A1 JP 2022000448 W JP2022000448 W JP 2022000448W WO 2023135621 A1 WO2023135621 A1 WO 2023135621A1
Authority
WO
WIPO (PCT)
Prior art keywords
surveillance camera
image analysis
analysis system
shooting
angle
Prior art date
Application number
PCT/JP2022/000448
Other languages
English (en)
French (fr)
Inventor
峻 近森
Original Assignee
三菱電機株式会社
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 三菱電機株式会社 filed Critical 三菱電機株式会社
Priority to PCT/JP2022/000448 priority Critical patent/WO2023135621A1/ja
Priority to JP2023573498A priority patent/JPWO2023135621A1/ja
Publication of WO2023135621A1 publication Critical patent/WO2023135621A1/ja

Links

Images

Classifications

    • GPHYSICS
    • G03PHOTOGRAPHY; CINEMATOGRAPHY; ANALOGOUS TECHNIQUES USING WAVES OTHER THAN OPTICAL WAVES; ELECTROGRAPHY; HOLOGRAPHY
    • G03BAPPARATUS OR ARRANGEMENTS FOR TAKING PHOTOGRAPHS OR FOR PROJECTING OR VIEWING THEM; APPARATUS OR ARRANGEMENTS EMPLOYING ANALOGOUS TECHNIQUES USING WAVES OTHER THAN OPTICAL WAVES; ACCESSORIES THEREFOR
    • G03B15/00Special procedures for taking photographs; Apparatus therefor
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N7/00Television systems
    • H04N7/18Closed-circuit television [CCTV] systems, i.e. systems in which the video signal is not broadcast

Definitions

  • the technology disclosed herein relates to a surveillance camera image analysis system.
  • Patent Literature 1 discloses a technique for automatically creating training data for a teacher in an image analysis device having a learning function.
  • the surveillance camera image analysis system since the surveillance camera image analysis system according to the technology disclosed herein has the above configuration, it can achieve a higher correct answer rate than a system trained with teacher learning data that is not divided by shooting angle and subject distance.
  • the object Obj shown in FIG. 1 has a human shape, but the object Obj is not limited to humans.
  • the object Obj may be a weapon such as a kitchen knife or a vehicle such as a vehicle.
  • each of the teacher learning data D1, D2, is a mask image obtained by masking the silhouette of the target to be identified with the corresponding color.
  • the corresponding colors are previously defined as blue for people, red for weapons such as kitchen knives, and green for vehicles such as vehicles, and may be determined by the creator of the learning data set.
  • captured moving images of Gamera are input images to be input to the image analysis programs P1, P2, . . . , Px. , Px.
  • a training data set is a pair of artificial intelligence inputs and their corresponding correct answers.
  • the artificial intelligence of the deep learning inference processing unit 1130 has separate image analysis programs P1, P2, ..., Px for each camera arrangement L1, L2, ..., Lx, so only one image analysis program is provided. A higher rate of correct answers can be achieved compared to surveillance camera image analysis systems.
  • FIG. 2 is a block diagram showing functional blocks of the surveillance camera image analysis system according to the first embodiment.
  • the monitoring camera image analysis system according to Embodiment 1 includes one or more monitoring cameras including at least a first monitoring camera 1000, a video display control device 4000, and a video recording device 5000.
  • the first monitoring camera 1000, the video display control device 4000, and the video recording device 5000 are in a state of being able to communicate with each other via the network.
  • the video display control device 4000 controls one or more surveillance cameras including at least the first surveillance camera 1000 .
  • the image recording device 5000 records images captured by one or more surveillance cameras including at least the first surveillance camera 1000 .
  • the first monitoring camera 1000 includes an image capturing unit 1110, a video data storage unit 1120, a deep learning inference processing unit 1130, a video analysis data creation unit 1140, a distance angle setting unit 1150, a shooting condition It includes a calculation unit 1160 , an image analysis program storage unit 1170 , a transmission control unit 1180 and a reception control unit 1190 .
  • the configuration of the second surveillance camera 2000 may be the same as that of the first surveillance camera 1000 .
  • the configuration of the third surveillance camera 3000 may be the same as that of the first surveillance camera 1000 .
  • the distance angle setting unit 1150 of the first monitoring camera 1000 determines the shooting angle and the subject distance at the time of shooting in the inference phase (hereinafter simply referred to as "shooting time") from the control information received by the reception control unit 1190. .
  • FIG. 3 is a flow chart showing processing steps of the surveillance camera image analysis system according to the first embodiment. As shown in FIG. 3, the processing steps of the surveillance camera image analysis system include processing steps from ST900 to ST906.
  • Step ST902 is divided into step ST902a and step ST902b.
  • Step ST902a is a processing step performed by deep learning inference processing section 1130 .
  • the deep learning inference processing unit 1130 performs image analysis based on the shooting angle and subject distance at the time of shooting determined by the distance angle setting unit 1150, and the shooting conditions at the time of shooting determined by the shooting condition calculation unit 1160.
  • the program selected here is called the "selected program".
  • Step ST902b is a processing step performed by the deep learning inference processing section 1130 .
  • the deep learning inference processing section 1130 determines whether or not the analysis accuracy is sufficient based on the shooting conditions calculated in step ST901 and the camera arrangement of the selected program selected in step ST902a.
  • the analysis accuracy generally means the correct answer rate of an image analysis program, but it is empirically understood that there is a close relationship between the shooting angle and the subject distance in image analysis. Therefore, in the technology disclosed herein, the analysis accuracy is determined based on the shooting angle and the subject distance.
  • factors for determining the camera placement L1 include the camera photographing angle and the subject distance, each of which is given as a range.
  • the type of image analysis performed by the surveillance camera image analysis system according to the technology disclosed herein is not limited to one type.
  • the learned artificial intelligence performs semantic segmentation, Category prediction (or simply "classification") may be performed to infer attributes.
  • FIG. 4 is a flow chart showing the second processing step of the surveillance camera image analysis system according to the first embodiment.
  • Processing step 2 is for the case where there are two types of image analysis performed by the surveillance camera image analysis system according to the first embodiment.
  • Image analysis A (processing block indicated by ST910 in FIG. 4) in FIG. 4 is, for example, semantic segmentation.
  • Image analysis B in FIG. 4 (the processing block indicated by ST920 in FIG. 4) is, for example, category prediction.
  • the monitoring camera image analysis system according to Embodiment 1 performs the processing steps related to image analysis A and the processing steps related to image analysis B not in parallel but in series, that is, at different times rather than at the same time. you can As described above, in the first monitoring camera 1000 according to Embodiment 1, the image analysis program storage unit 1170 and the selection program storage unit 1131 store a plurality of types of programs, for example, a semantic segmentation program and a category prediction program. you can
  • Embodiment 2 In the surveillance camera image analysis system according to Embodiment 1, the video display control device 4000 assists the user in setting the shooting angle and the subject distance of the first surveillance camera 1000.
  • the surveillance camera image analysis system according to the disclosed technique is not limited to this.
  • the monitoring camera image analysis system according to the second embodiment has a configuration that determines the shooting angle and the subject distance at the time of shooting in a manner different from that of the first embodiment.
  • the same reference numerals as in Embodiment 1 are used unless otherwise specified. Further, in the second embodiment, explanations overlapping those of the first embodiment are omitted as appropriate.
  • the field angle deviation detection unit 1220 of the first monitoring camera 1000 detects when the position or posture of the first monitoring camera 1000 shifts due to some factor and the field angle of the first monitoring camera 1000 shifts.
  • a phenomenon in which the angle of view deviates is referred to as "angle of view deviation.”
  • the view angle deviation detection section 1220 detects that there is a view angle deviation, it issues a command to the distance angle detection section 1200 to detect the shooting angle and the object distance again.
  • the distance/angle detection unit 1200 that has received the instruction from the view angle deviation detection unit 1220 detects the shooting angle and the subject distance again.
  • the first surveillance camera 1000 includes the distance angle detection unit 1200. Therefore, in addition to the effects described in the first embodiment, the user can perform the first surveillance. It becomes unnecessary to go to the installation site of the camera 1000 and measure the shooting angle and the subject distance using a measuring tool.
  • the lower part of FIG. 8 represents the case where each function of the surveillance camera image analysis system is executed by software.
  • the processing circuit installed in the first monitoring camera 1000 is a CPU (processor 510 in FIG. 8)
  • each function of the first monitoring camera 1000 is implemented by software, firmware, or a combination of software and firmware. be done.
  • Software and firmware are written as programs and stored in memory 520 .
  • the processing circuit reads out and executes the programs stored in the memory 520 to realize the functions of the respective units of the first monitoring camera 1000 .
  • the first surveillance camera 1000 comprises a memory 520 for storing a program that, when executed by the processing circuit, results in the processing steps of each unit being executed.
  • first surveillance camera 1110 imaging unit, 1120 video data storage unit, 1130 deep learning inference processing unit, 1131 selection program storage unit, 1140 video analysis Data creation unit 1150 Distance angle setting unit 1160 Shooting condition calculation unit 1170 Image analysis program storage unit 1180 Transmission control unit 1190 Reception control unit 1200 Distance angle detection unit 1210 Shooting condition calculation unit 1220 View angle deviation detection Section, 2000 Second surveillance camera, 3000 Third surveillance camera, 4000 Video display control device, 5000 Video recording device.

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Signal Processing (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Theoretical Computer Science (AREA)
  • Closed-Circuit Television Systems (AREA)

Abstract

本開示技術に係る監視カメラ画像解析システムは、第1監視カメラ(1000)を含み、第1監視カメラ(1000)は、学習可能な人工知能を備える深層学習推論処理部(1130)を含み、人工知能は、教師用学習データにより学習し、教師用学習データは、撮影角度と被写体距離とによって分かれている。

Description

監視カメラ画像解析システム
 本開示技術は、監視カメラ画像解析システムに関する。
 監視カメラは、画像解析技術が応用されることによって、セキュリティの分野で広く使われている。監視カメラによる映像又は画像を解析するシステムを、監視カメラ画像解析システムと称する。
 画像解析技術には、教師用学習データを与え、学習を行って判別ルールを作成するものがある。例えば特許文献1には、学習機能を備える画像解析装置において、教師用学習データを自動作成する技術が開示されている。
特開平7-21367号公報
 学習機能を備える画像解析装置にとって、教師用学習データは多ければ多いほど推論精度を向上させられるが、教師用学習データを多く準備することには限界がある。画像解析装置の分野において、教師用学習データの数が同じであっても、推論精度を向上させられることが求められている。
 本開示技術は上記課題に鑑み、従来のシステムと同じ教師用学習データに基づいて学習がなされたとしても、従来のシステムよりも推論精度を向上させられる監視カメラ画像解析システムを提供することを目的とする。
 本開示技術に係る監視カメラ画像解析システムは、第1監視カメラを含み、第1監視カメラは、学習可能な人工知能を備える深層学習推論処理部を含み、人工知能は、教師用学習データにより学習し、教師用学習データは、撮影角度と被写体距離とによって分かれている。
 本開示技術に係る監視カメラ画像解析システムは上記構成を備えるため、撮影角度と被写体距離とによって分かれていない教師用学習データで学習されたシステムと比較して高い正答率を達成できる。
図1は、本開示技術に係る第1監視カメラの深層学習推論処理部の学習過程を示した模式図である。 図2は、実施の形態1に係る監視カメラ画像解析システムの機能ブロックを示したブロック線図である。 図3は、実施の形態1に係る監視カメラ画像解析システムの処理工程を示したフローチャートである。 図4は、実施の形態1に係る監視カメラ画像解析システムの処理工程その2を示したフローチャートである。 図5は、実施の形態2に係る監視カメラ画像解析システムの機能ブロックを示したブロック線図である。 図6は、実施の形態2に係る監視カメラ画像解析システムの処理工程を示したフローチャートである。 図7は、実施の形態3に係る監視カメラ画像解析システムの機能ブロックを示したブロック線図である。 図8は、本開示技術に係る監視カメラ画像解析システムの各機能を実現するハードウエア構成を示した図である。
実施の形態1.
 図1は、本開示技術に係る第1監視カメラ1000に搭載される深層学習推論処理部1130の学習過程を示した模式図である。第1監視カメラ1000は、本開示技術に係る監視カメラ画像解析システムの構成要素である。監視カメラ画像解析システムの構成要素の詳細は、後述の説明により明らかとなる。
 本開示技術に係る監視カメラ画像解析システムは、第1監視カメラ1000を含むシステムである。より具体的に本開示技術に係る監視カメラ画像解析システムは、第1監視カメラ1000で撮影された画像について、分類、識別、評価、追跡、又は行動予測等を行うシステムである。分類、識別、評価、追跡、又は行動予測は、学習が可能な人工知能(AI:Artificial Inteligence)を有する深層学習推論処理部1130により実現される。人工知能を有する深層学習推論処理部1130は、動画像のピクセル(画素)単位で、何が写っているかを識別するセマンティックセグメンテーションを行ってもよい。本開示技術における深層学習推論処理部1130の人工知能が解く学習問題は、教師あり学習である。
 深層学習推論処理部1130の人工知能は、DNN(Deep Neural Network)、CNN(Convolutional Neural Network)、又はRNN(Recurrent Neural Network)、等のニューラルネットワークであってもよい。また深層学習推論処理部1130がセマンティックセグメンテーションを行う場合、人工知能は、CNNの一種であるFCN(Fully Convolutional Network)が望ましいが、その他SegNet、U-Net、PSPNet、又はDeepLab、等であってもよい。
 深層学習推論処理部1130の人工知能は、ニューラルネットワークのほか、学習が可能な他の数理モデルで実現されてもよい。
 図1に示される被写体Objはヒトの形をしているが、被写体Objはヒトに限定されない。被写体Objは、包丁等の凶器、又は車両等の乗り物であってもよい。
<学習フェーズ>
 図1に示されている画像解析プログラムP1、P2、…、Pxは、それぞれが深層学習推論処理部1130の人工知能である。画像解析プログラムP1、P2、…、Pxは、初期的にはパラメータもプログラム構造も同じであってもよいが、それぞれが別の教師用学習データを用いて学習を行う。学習は、深層学習(Deep Learningとも称される)、又は機械学習であってよい。例えば画像解析プログラムP1は、教師用学習データD1を用いて学習を行う。
 教師用学習データは、撮影角度と被写体距離とによって分かれている。より具体的に教師用学習データD1、D2、…、Dxは、それぞれが別のカメラ配置にあるカメラの撮影動画像から構成される。例えば教師用学習データD1は、カメラ配置L1にあるカメラの撮影動画像から構成される。カメラ配置L1を決定する要素としては、カメラ撮影角度、及びカメラから被写体Objまでの距離(以降、「被写体距離」と称する)、がある。例えばカメラ配置L1は、カメラ撮影角度がA[度]であり、被写体距離がxx[m]からyy[m]までである。同様にしてカメラ配置L2は、カメラ撮影角度がB[度]であり、被写体距離がaa[m]からbb[m]までである。このように被写体距離は、範囲で示されてもよい。
 カメラ撮影角度は、カメラが構えられた角度(「アングル」とも称される)である。一般的なカメラにおけるアングルは、ハイアングル、水平、及びローアングル、の3種類がある。例えば、飛行機等の乗り物の姿勢を表す回転の種類にロール、ピッチ、及びヨーがあるが、本開示技術においてカメラ撮影角度は、カメラを乗り物に置き換えたときのピッチについてのものである。すなわち本開示技術においてカメラ撮影角度は、下を向いているか(ハイアングル)、水平を向いているか、上を向いているか(ローアングル)、を示すものである。
 また教師用学習データD1、D2、…、Dxは、カメラ配置のほか、撮影条件により分かれていてよい。撮影条件とは、例えばカメラの倍率、焦点距離、画角、又は天候を含むものである。
 またより詳細には教師用学習データD1、D2、…、Dxのそれぞれは、カメラの撮影動画像と、正解ラベルと、のペアからなる学習データセットである。例えば深層学習推論処理部1130の人工知能が解く問題がセマンティックセグメンテーションの場合、正解ラベルは識別したい対象のシルエットを対応する色でマスキングしたマスク画像である。対応する色とは、人物は青、包丁等の凶器は赤、車両等の乗り物は緑、と予め定義したものであり、学習データセットの作成者が決めてよい。
 学習データセットのうちガメラの撮像動画像は画像解析プログラムP1、P2、…、Pxの入力となる入力画像であり、学習データセットのうち正解ラベルを示すマスク画像は画像解析プログラムP1、P2、…、Pxの出力となる出力画像である。すなわち学習データセットとは、人工知能の入力とそれに対応する正解の出力とのペアである。
 このように深層学習推論処理部1130の人工知能は、カメラ配置L1、L2、…、Lxごとに別々の画像解析プログラムP1、P2、…、Px、を備えるため、1つの画像解析プログラムしか備えない監視カメラ画像解析システムと比較して高い正答率が達成できる。
<推論フェーズ>
 図2は、実施の形態1に係る監視カメラ画像解析システムの機能ブロックを示したブロック線図である。図2に示されるとおり実施の形態1に係る監視カメラ画像解析システムは、少なくとも第1監視カメラ1000を含む1台以上の監視カメラと、映像表示制御装置4000と、映像記録装置5000と、を含む。第1監視カメラ1000と映像表示制御装置4000と映像記録装置5000とは、ネットワークを介して相互に通信が可能な状態である。映像表示制御装置4000は、少なくとも第1監視カメラ1000を含む1台以上の監視カメラを制御する。映像記録装置5000は、少なくとも第1監視カメラ1000を含む1台以上の監視カメラにより撮影された映像を記録する。
 図2に示されるとおり第1監視カメラ1000は、撮像部1110と、映像データ格納部1120と、深層学習推論処理部1130と、映像解析データ作成部1140と、距離角度設定部1150と、撮影条件算出部1160と、画像解析プログラム格納部1170と、送信制御部1180と、受信制御部1190と、を含む。
 監視カメラ画像解析システムが第2監視カメラ2000を有する場合、第2監視カメラ2000の構成は、第1監視カメラ1000と同じ構成であってよい。また監視カメラ画像解析システムが第3監視カメラ3000を有する場合も、第3監視カメラ3000の構成は、第1監視カメラ1000と同じ構成であってよい。
 第1監視カメラ1000の撮像部1110は、第1監視カメラ1000の画角内の映像を撮像する機能ブロックである。撮像部1110で撮像された映像は、映像データ格納部1120へ出力される。
 第1監視カメラ1000の映像データ格納部1120は、撮像部1110から送られた映像からなるデータ(以降、「映像データ」と称する)を、一時的に保存する機能ブロックである。
 第1監視カメラ1000は、学習済みの人工知能を備える深層学習推論処理部1130を含む。
 第1監視カメラ1000の深層学習推論処理部1130は、前述のとおり人工知能を備える。また深層学習推論処理部1130は、選択プログラム格納部1131を備える。推論フェーズにおいて深層学習推論処理部1130は、学習済み人工知能である画像解析プログラムP1、P2、…、Px、のうち少なくとも1つが、選択プログラム格納部1131に保存されている。
 第1監視カメラ1000の深層学習推論処理部1130は、学習済みの人工知能を用いて、映像データ格納部1120に一時的に保存された映像データに対して、推論を行う。推論は、具体的には分類、識別、評価、追跡、又は行動予測である。また推論は、セマンティックセグメンテーションにより実現されてよい。具体的に学習済みの人工知能は画像解析プログラムP1、P2、…、Px、のうち少なくとも1つであり、学習済みの人工知能が行う推論は、一時的に保存された映像データに対して画像解析を行うことで実現される。
 第1監視カメラ1000の受信制御部1190は、ネットワークを介し、映像表示制御装置4000から制御情報を受信する。ここで制御情報とは、映像表示制御装置4000が制御する第1監視カメラ1000についての情報で、具体的には第1監視カメラ1000のカメラ撮影角度、及び被写体距離を含む情報である。映像表示制御装置4000からの制御情報は、学習フェーズにおけるカメラ配置及び撮影条件に対応するものである。
 なおカメラ撮影角度は、単に撮影角度と称されることもある。
 第1監視カメラ1000の距離角度設定部1150は、受信制御部1190で受信した制御情報から、推論フェーズの撮影時点(以降、単に「撮影時点」と称する)における撮影角度と被写体距離とを確定する。
 第1監視カメラ1000の撮影条件算出部1160は、受信制御部1190で受信した制御情報から、撮影時点における撮影条件を確定する。なお撮影条件の確定に際しては、距離角度設定部1150において確定された撮影角度と被写体距離とが考慮される。
 なお、図2に示されるブロック線図において、受信制御部1190の機能ブロックから撮影条件算出部1160の機能ブロックへ直接結ぶ矢印は示されていないが、これは図2の見やすさを考慮した結果に過ぎない。また図2に示されるブロック線図において撮影条件算出部1160の機能ブロックから出ている矢印は、機能ブロックではなく画像解析プログラム格納部1170から出た矢印を指しているが、これも見やすさを考慮した結果に過ぎない。
 第1監視カメラ1000の画像解析プログラム格納部1170は、複数の学習済み人工知能を備える。複数の学習済み人工知能は、具体的にはカメラ配置L1、L2、…、Lxごとに別々に学習済みの画像解析プログラムP1、P2、…、Pxである。
 前述のとおり画像解析プログラムP1、P2、…、Pxは、学習フェーズの初期的にはパラメータもプログラム構造も同じであってもよく、それぞれが別の教師用学習データを用いて学習済みのものである。画像解析プログラムP1、P2、…、Pxが同じプログラム構造を有する場合、画像解析プログラムP1、P2、…、Pxの違いは、学習により調整されたパラメータの違いのみである。したがって画像解析プログラム格納部1170は、画像解析プログラムP1、P2、…、Pxそれぞれの調整済みパラメータのみが保存されている、という構成であってもよい。画像解析プログラムP1、P2、…、Pxのパラメータとは、例えばプログラムがニューラルネットワークに基づくものである場合の重み、及びバイアスである。
 第1監視カメラ1000の深層学習推論処理部1130は、距離角度設定部1150で確定された撮影時点における撮影角度、被写体距離、及び撮影条件算出部1160で確定された撮影時点における撮影条件に基づいて、画像解析プログラム格納部1170に保存されている学習済みの画像解析プログラムP1、P2、…、Pxの中から、カメラ配置L1、L2、…、Lxが撮影時点のものと最も近いものを選択する。例えばカメラ配置L1が撮影時点のものと最も近かったと選択された場合、学習済みの画像解析プログラムP1が選択される。深層学習推論処理部1130は、選択した学習済みの画像解析プログラムP1を選択プログラム格納部1131に保存する。
 画像解析プログラム格納部1170に保存されているものが画像解析プログラムP1、P2、…、Pxそれぞれの調整済みパラメータである場合、深層学習推論処理部1130は、選択した画像解析プログラムが使用できるよう、選択した画像解析プログラムに対応する調整済みパラメータを選択プログラム格納部1131に保存する。
 なお、前述のとおり図2における機能ブロックを結ぶ矢印は、図2の見やすさを考慮し、省略されることがある。図2を含めここで示されている図は、機能ブロックのすべての動作を完璧に示すという性質のものではなく、視覚的に明細書の説明を補うものである。
 第1監視カメラ1000の映像解析データ作成部1140は、深層学習推論処理部1130への入力映像に、深層学習推論処理部1130の出力である推論結果の映像を、重畳する機能ブロックである。
 例えば選択プログラム格納部1131に保存されている学習済みの画像解析プログラムP1が、人物のみを青色でマスキングするようなセマンティックセグメンテーションをするように学習済みであったとする。この場合、映像解析データ作成部1140は、入力映像と推論結果である青色マスキングからなるマスキング映像とを重畳する。ここで、入力映像からなるデータは「映像データ」と、重畳された映像からなるデータは「映像解析データ」と、それぞれ称する。
 なお、深層学習推論処理部1130における学習済み人工知能は、映像解析データ作成部1140の機能をも兼ねて、重畳された映像解析データを出力するように学習されたものでもよい。
 第1監視カメラ1000の送信制御部1180は、映像データ及び映像解析データを、ネットワークに送信する。ネットワークに送信された映像データ及び映像解析データは、例えば映像記録装置5000に保存される。
 図3は、実施の形態1に係る監視カメラ画像解析システムの処理工程を示したフローチャートである。図3に示されるとおり監視カメラ画像解析システムの処理工程は、ST900からST906までの処理ステップを含む。
 ステップST900は、監視カメラ画像解析システムの使用者が第1監視カメラ1000の撮影角度と被写体距離とを設定することを、映像表示制御装置4000が支援する工程である。
 実施の形態1に係る映像表示制御装置4000は、図示しないディスプレイを備え、監視カメラ画像解析システムの使用者に対し、第1監視カメラ1000の様々なパラメータを表示する。また実施の形態1に係る映像表示制御装置4000は、図示しないキーボード、及びマウス等を備え、使用者が設定したい第1監視カメラ1000の撮影角度と被写体距離とを入力できるようプログラムされている。
 映像表示制御装置4000はネットワークを介して第1監視カメラ1000を制御する。具体的に映像表示制御装置4000は、ネットワークを介して第1監視カメラ1000の距離角度設定部1150に撮影角度と被写体距離との設定値を書き込む。距離角度設定部1150に設定値が書き込まれた第1監視カメラ1000は、現在の撮影角度と被写体距離とが設定値と等しくなるように、結果的に制御される。
 また第1監視カメラ1000の撮影角度と被写体距離とが固定され、外部から制御できない場合でも本開示技術に係る監視カメラ画像解析システムは扱うことが可能である。この場合、監視カメラ画像解析システムの使用者が、第1監視カメラ1000が設営されている現場に直接赴き、図示しない計測工具を使って撮影角度と被写体距離とを測定してもよい。この場合映像表示制御装置4000は、使用者が直接測定した第1監視カメラ1000の撮影角度と被写体距離とを入力できるようプログラムされている。
 ステップST901は、映像表示制御装置4000が行う処理工程である。ステップST901において映像表示制御装置4000は、ネットワークを介して第1監視カメラ1000と通信し、第1監視カメラ1000の撮影条件を算出する。前述のとおり撮影条件とは、例えばカメラの倍率、焦点距離、画角、又は天候、を含むものである。撮影条件の算出は、設定された第1監視カメラ1000の撮影角度と被写体距離とが考慮される。
 ステップST902は、ステップST902aとステップST902bとに分けられる。
 ステップST902aは、深層学習推論処理部1130が行う処理工程である。ステップST902aにおいて深層学習推論処理部1130は、距離角度設定部1150で確定された撮影時点における撮影角度、被写体距離、及び撮影条件算出部1160で確定された撮影時点における撮影条件に基づいて、画像解析プログラム格納部1170に保存されている学習済みの画像解析プログラムP1、P2、…、Pxの中から、カメラ配置L1、L2、…、Lxが撮影時点のものと最も近いものを選択する。ここで選択されたプログラムは、「選択プログラム」と称する。
 ステップST902bは、深層学習推論処理部1130が行う処理工程である。ステップST902bにおいて深層学習推論処理部1130は、ステップST901で算出された撮影条件と、ステップST902aで選択した選択プログラムのカメラ配置と、に基づいて、解析精度が十分であるか否かを判断する。
 ここで解析精度とは、一般的には画像解析プログラムの正答率を意味するが、画像解析においては撮影角度及び被写体距離と深い関係があることが経験的に理解される。そこで本開示技術において解析精度は、撮影角度及び被写体距離に基づいて判断される。
 前述のとおりカメラ配置L1を決定する要素としては、カメラ撮影角度及び被写体距離があり、それぞれが範囲で与えられているとする。ステップST901で算出された撮影条件がステップST902aで選択した選択プログラムのカメラ配置に含まれない場合、処理工程はステップST903へと進む。ステップST901で算出された撮影条件がステップST902aで選択した選択プログラムのカメラ配置に含まれる場合、処理工程はステップST904へと進む。
 例えば、画像解析プログラムは全部で2つあったとする。画像解析プログラムP1は、撮影角度が0[度]から60[度]であり、被写体距離が2[m]から6[m]までである監視カメラの画像で学習されたものであるとする。また画像解析プログラムP2は、撮影角度が0[度]から30[度]であり、被写体距離が10[m]から15[m]までである監視カメラの画像で学習されたものであるとする。現在の第1監視カメラ1000の撮影条件が、撮影角度が85[度]であり、被写体距離が1[m]であったとする。そうするとステップST901で算出された撮影条件がステップST902aで選択した選択プログラムのカメラ配置に含まれないので、処理工程はステップST903へと進む。
 ステップST903は、深層学習推論処理部1130が行う処理工程である。ステップST903において深層学習推論処理部1130は、「解析精度が落ちます」、又は「解析不可」の通知を生成し、送信制御部1180及びネットワークを介して映像表示制御装置4000へ出力する。
 ステップST904は、深層学習推論処理部1130が行う処理工程である。ステップST904において深層学習推論処理部1130は、現在の撮影条件がカメラ配置の範囲に含まれる、というカメラ配置の画像解析プログラムを、選択プログラムとして選択する。
 ステップST905は、深層学習推論処理部1130が行う処理工程である。ステップST905において深層学習推論処理部1130は、選択プログラム格納部1131に保存された選択プログラムを用いて、映像データ格納部1120に一時的に保存された映像データに対して、推論を行う。
 ステップST906は、深層学習推論処理部1130が行う処理工程である。ステップST906において深層学習推論処理部1130は、推論の結果物である画像解析結果を、映像解析データ作成部1140へ送信する。
 ところで本開示技術に係る監視カメラ画像解析システムが行う画像解析の種類は、1種類に限定されない。例えば実施の形態1に係る第1監視カメラ1000の深層学習推論処理部1130において、学習済み人工知能は、セマンティックセグメンテーションを行い、更に、被写体Objである人物の性別、又は年齢層、等の人物の属性を推論するカテゴリ予測(あるいは単に「分類」とも称する)を行ってもよい。
 図4は、実施の形態1に係る監視カメラ画像解析システムの処理工程その2を示したフローチャートである。処理工程その2は、実施の形態1に係る監視カメラ画像解析システムが行う画像解析の種類が2種類の場合のものである。
 図4において画像解析A(図4のST910で示されている処理ブロック)は、例えばセマンティックセグメンテーションである。図4において画像解析B(図4のST920で示されている処理ブロック)は、例えばカテゴリ予測である。
 図4に示されるとおり実施の形態1に係る監視カメラ画像解析システムは、画像解析Aに係る処理工程と画像解析Bに係る処理工程とを、パラレルではなくシリーズに、すなわち同時ではなく異時に行ってよい。
 このように実施の形態1に係る第1監視カメラ1000は、画像解析プログラム格納部1170及び選択プログラム格納部1131において、複数種類のプログラム、例えばセマンティックセグメンテーションのプログラムとカテゴリ予測のプログラムとが保存されていてよい。
 以上のとおり実施の形態1に係る監視カメラ画像解析システムは、特に第1監視カメラ1000は、上記のとおりカメラ配置L1、L2、…、Lxごとに別々の画像解析プログラムP1、P2、…、Px、を備えるため、1つの画像解析プログラムしか備えない監視カメラ画像解析システムと比較して高い正答率が達成できる。
 実施の形態1に係る監視カメラ画像解析システムは、用意している画像解析プログラムP1、P2、…、Pxのいずれによっても解析精度が保てない場合、解析不可であること、又は解析精度が落ちること、を事前に使用者に伝えることができる。これにより使用者は、解析できない事象があることを監視カメラの設置時に認識することができる。また使用者は、解析精度を上げるために幾度もの設置変更作業を行うことなく設置場所の再検討ができ、画像解析精度が落ちても問題ない場所での設置の判断が可能となる。
 実施の形態1に係る監視カメラ画像解析システムは、解析精度を撮影角度及び被写体距離に基づいて判断している。また実施の形態1に係る映像表示制御装置4000は、図示しないキーボード、及びマウス等を備え、使用者が設定したい第1監視カメラ1000の撮影角度と被写体距離とを入力できるようプログラムされている。この構成により使用者は、撮影角度及び被写体距離を意識して、画像解析プログラムを利用することができる。
実施の形態2.
 実施の形態1に係る監視カメラ画像解析システムは、使用者が第1監視カメラ1000の撮影角度と被写体距離とを設定することを映像表示制御装置4000が支援する、というものであったが、本開示技術に係る監視カメラ画像解析システムはこれに限定されない。実施の形態2に係る監視カメラ画像解析システムは、実施の形態1とは異なる態様で撮影時点での撮影角度と被写体距離とを決定する構成を備える。
 実施の形態2では、特に区別する場合を除き、実施の形態1と同じ符号が用いられる。また実施の形態2では、実施の形態1と重複する説明が適宜省略される。
 図5は、実施の形態2に係る監視カメラ画像解析システムの機能ブロックを示したブロック線図である。図5に示されるとおり実施の形態2に係る監視カメラ画像解析システムは、実施の形態1と比べて第1監視カメラ1000の構成が異なる。
 図5に示されるとおり実施の形態2に係る第1監視カメラ1000は、距離角度設定部1150に代えて、距離角度検知部1200、及び画角ずれ検知部1220を備える。
 第1監視カメラ1000の距離角度検知部1200は、撮影時点における撮影角度と被写体距離とを検出するセンサから構成されている。距離角度検知部1200のセンサは、撮像部1110が撮像する映像についての撮影角度と被写体距離とを検出するよう、検出の向きが調整されている。
 なお、実施の形態2に係る撮影条件算出部1210は、撮影時点における撮影角度と被写体距離との情報が、距離角度設定部1150からではなく距離角度検知部1200から入力される、ということ以外は、実施の形態1に係る撮影条件算出部1160と同じである。
 前述のとおり、撮影時点における撮影角度と被写体距離との検知は、検知センサから構成される距離角度検知部1200により行われる。距離角度検知部1200は、検知センサの他、ステレオカメラ、又はTOFカメラ(Time of Flightカメラ)を備えることにより、少なくともその一部(例えば被写体距離の検知)が実現されてもよい。
 第1監視カメラ1000の画角ずれ検知部1220は、何らかの要因により第1監視カメラ1000の位置又は姿勢がずれ、第1監視カメラ1000の画角がずれたときにこれを検知する。画角がずれる現象は、「画角ずれ」と称する。
 画角ずれ検知部1220は、画角ずれが有ると検知した場合、距離角度検知部1200に対し、前記撮影角度と前記被写体距離とを再度検出する指令を出す。画角ずれ検知部1220から指令を受けた距離角度検知部1200は、再度、撮影角度と被写体距離とを検出する。
 図6は、実施の形態2に係る監視カメラ画像解析システムの処理工程を示したフローチャートである。図6に示されるとおり実施の形態2に係る監視カメラ画像解析システムの処理工程は、実施の形態1で示されたST900からST906までの処理ステップに加え、ST907の処理ステップを含む。
 ステップST907は、画角ずれ検知部1220が行う処理工程である。ステップST907において画角ずれ検知部1220は、第1監視カメラ1000の画角ずれの有無を判定する。ステップST907において画角ずれ検知部1220が画角ずれを検知し画角ずれ有り判定をした場合、画像解析結果は送信されず、処理ステップはST900へ戻る。ステップST907において画角ずれ検知部1220が画角ずれを検知せず画角ずれ無し判定をした場合、処理ステップは次へ進み、画像解析結果は映像解析データ作成部1140へ送信される。
 以上のとおり実施の形態2に係る監視カメラ画像解析システムは、特に第1監視カメラ1000は、距離角度検知部1200を備えるため、実施の形態1に記載の効果に加え、使用者が第1監視カメラ1000の設営現場に赴き計測工具を使って撮影角度と被写体距離とを測定する、という作業が不要となる。
 また、実施の形態2に係る監視カメラ画像解析システムは、特に第1監視カメラ1000は、画角ずれ検知部1220を備えるため、第1監視カメラ1000の画角ずれが生じた場合であっても、実施の形態1に記載の効果を発揮する。
実施の形態3.
 実施の形態3に係る監視カメラ画像解析システムは、IoT(Internet of Things)技術の利点を活かした態様である。
 図7は、実施の形態3に係る監視カメラ画像解析システムの機能ブロックを示したブロック線図である。図7に示されるとおり実施の形態3に係る監視カメラ画像解析システムは、第1監視カメラ1000が画像解析プログラム格納部1170を備える構成に代えて、映像表示制御装置4000が制御装置側プログラム格納部4100を備える。
 実施の形態3に係る監視カメラ画像解析システムの構成は、特に画像解析プログラムP1、P2、…、Pxが同じプログラム構造を有する場合に有効である。
 実施の形態3に係る深層学習推論処理部1130はステップST902aにおいて、距離角度設定部1150で確定された撮影時点における撮影角度、被写体距離、及び撮影条件算出部1160で確定された撮影時点における撮影条件に基づいて、制御装置側プログラム格納部4100に保存されている画像解析プログラムP1、P2、…、Pxのそれぞれに対応する調整済みパラメータの中から、カメラ配置L1、L2、…、Lxが撮影時点のものと最も近いものを選択し、ダウンロードする。ダウンロードされた調整済みパラメータは、適宜、選択プログラム格納部1131に保存される。深層学習推論処理部1130は、パラメータを変更可能な画像解析プログラムを備えることにより、画像解析プログラムP1、P2、…、Pxのいずれをも再現可能である。
 以上のとおり実施の形態3に係る監視カメラ画像解析システムは上記構成を備えるため、第1監視カメラ1000のメモリ容量を少なく抑えつつ、実施の形態1に記載の効果を発揮する。
実施の形態4.
 実施の形態4は、実施の形態1から3に係る第1監視カメラ1000の機能、特に深層学習推論処理部1130の機能を実現するハードウエア構成を明らかにするものである。図8は、監視カメラ画像解析システムの各機能を実現するハードウエア構成を示した図である。図8に示されるとおり、監視カメラ画像解析システムの各機能は、監視カメラ画像解析システムに搭載された処理回路により実現される。すなわち監視カメラ画像解析システムは、各機能を実行するための処理回路を備える。処理回路は、専用のハードウエアであっても、メモリに格納されるプログラムを実行するCPU(Central Processing Unit、中央処理装置、処理装置、演算装置、マイクロプロセッサ、マイクロコンピュータ、プロセッサ、DSP(Digital Signal Processor)ともいう)であってもよい。
 図8の上段は、監視カメラ画像解析システムの各機能がハードウエアで実行される場合を表す。第1監視カメラ1000に搭載された処理回路が専用のハードウエアである場合、処理回路500は、例えば、単一回路、複合回路、プログラム化したプロセッサ、並列プログラム化したプロセッサ、ASIC、FPGA、又はこれらを組み合わせたものが該当する。例えば深層学習推論処理部1130の機能は、処理回路500で実現してもよい。
 図8の下段は、監視カメラ画像解析システムの各機能がソフトウエアで実行される場合を表す。第1監視カメラ1000に搭載された処理回路がCPU(図8におけるプロセッサ510)の場合、第1監視カメラ1000の各機能は、ソフトウエア、ファームウエア、又はソフトウエアとファームウエアとの組合せにより実現される。ソフトウエア及びファームウエアはプログラムとして記述され、メモリ520に格納される。処理回路は、メモリ520に記憶されたプログラムを読み出して実行することにより、第1監視カメラ1000の各部の機能を実現する。すなわち第1監視カメラ1000は、処理回路により実行されるときに、各部の処理ステップが結果的に実行されることになるプログラムを格納するためのメモリ520を備える。また、これらのプログラムは、第1監視カメラ1000の各部の手順及び方法をコンピュータに実行させるものであるとも言える。ここでメモリ520は、例えば、RAM、ROM、フラッシュメモリ、EPROM、EEPROM等の不揮発性又は揮発性の半導体メモリであってもよい。メモリ520は、磁気ディスク、フレキシブルディスク、光ディスク、コンパクトディスク、ミニディスク、DVD等であってもよい。またメモリ520は、HDD、又はSSDの態様であってもよい。
 なお、第1監視カメラ1000は、機能の一部が専用のハードウエアで実現され、他の一部がソフトウエア又はファームウエアで実現されてもよい。
 このように処理回路は、ハードウエア、ソフトウエア、ファームウエア、又はこれらの組合せによって、第1監視カメラ1000の各機能を実現することができる。
 本開示技術に係る監視カメラ画像解析システムは、例えばセキュリティを目的とした監視カメラシステムに応用でき、産業上の利用可能性を有する。
 400 入力インターフェース、500 処理回路、510 プロセッサ、520 メモリ、600 出力インターフェース、1000 第1監視カメラ、1110 撮像部、1120 映像データ格納部、1130 深層学習推論処理部、1131 選択プログラム格納部、1140 映像解析データ作成部、1150 距離角度設定部、1160 撮影条件算出部、1170 画像解析プログラム格納部、1180 送信制御部、1190 受信制御部、1200 距離角度検知部、1210 撮影条件算出部、1220 画角ずれ検知部、2000 第2監視カメラ、3000 第3監視カメラ、4000 映像表示制御装置、5000 映像記録装置。

Claims (7)

  1.  第1監視カメラを含む監視カメラ画像解析システムであって、
     前記第1監視カメラは、学習可能な人工知能を備える深層学習推論処理部を含み、
     前記人工知能は、教師用学習データにより学習し、
     前記教師用学習データは、撮影角度と被写体距離とによって分かれている、
     監視カメラ画像解析システム。
  2.  第1監視カメラを含む監視カメラ画像解析システムであって、
     前記第1監視カメラは、学習済みの人工知能を備える深層学習推論処理部を含み、
     学習済みの前記人工知能は、前記第1監視カメラにより撮影された映像と、撮影時点における撮影角度と被写体距離との情報を用いて、少なくとも分類、識別、評価、追跡、又は行動予測のいずれかを行う、
     監視カメラ画像解析システム。
  3.  第1監視カメラを含む監視カメラ画像解析システムであって、
     前記第1監視カメラは、学習済みの人工知能を備える深層学習推論処理部を含み、
     学習済みの前記人工知能は、前記第1監視カメラにより撮影された映像と、撮影時点における撮影角度と被写体距離との情報を用いて、セマンティックセグメンテーションを行う、
     監視カメラ画像解析システム。
  4.  前記第1監視カメラは、更に距離角度検知部を含み、
     前記距離角度検知部は、撮影時点における前記撮影角度と前記被写体距離とを検出する、
     請求項2に記載の監視カメラ画像解析システム。
  5.  前記第1監視カメラは、更に距離角度検知部を含み、
     前記距離角度検知部は、撮影時点における前記撮影角度と前記被写体距離とを検出する、
     請求項3に記載の監視カメラ画像解析システム。
  6.  前記第1監視カメラは、更に画角ずれ検知部を含み、
     前記画角ずれ検知部は、前記第1監視カメラの画角ずれの有無を検知し、
     前記画角ずれ検知部は、前記画角ずれが有ると検知した場合、前記距離角度検知部に対し、前記撮影角度と前記被写体距離とを再度検出する指令を出す、
     請求項4に記載の監視カメラ画像解析システム。
  7.  前記第1監視カメラは、更に画角ずれ検知部を含み、
     前記画角ずれ検知部は、前記第1監視カメラの画角ずれの有無を検知し、
     前記画角ずれ検知部は、前記画角ずれが有ると検知した場合、前記距離角度検知部に対し、前記撮影角度と前記被写体距離とを再度検出する指令を出す、
     請求項5に記載の監視カメラ画像解析システム。
PCT/JP2022/000448 2022-01-11 2022-01-11 監視カメラ画像解析システム WO2023135621A1 (ja)

Priority Applications (2)

Application Number Priority Date Filing Date Title
PCT/JP2022/000448 WO2023135621A1 (ja) 2022-01-11 2022-01-11 監視カメラ画像解析システム
JP2023573498A JPWO2023135621A1 (ja) 2022-01-11 2022-01-11

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
PCT/JP2022/000448 WO2023135621A1 (ja) 2022-01-11 2022-01-11 監視カメラ画像解析システム

Publications (1)

Publication Number Publication Date
WO2023135621A1 true WO2023135621A1 (ja) 2023-07-20

Family

ID=87278575

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/JP2022/000448 WO2023135621A1 (ja) 2022-01-11 2022-01-11 監視カメラ画像解析システム

Country Status (2)

Country Link
JP (1) JPWO2023135621A1 (ja)
WO (1) WO2023135621A1 (ja)

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2018100676A1 (ja) * 2016-11-30 2018-06-07 株式会社オプティム カメラ制御システム、カメラ制御方法、およびプログラム
WO2019003355A1 (ja) * 2017-06-28 2019-01-03 株式会社オプティム 画像解析結果提供システム、画像解析結果提供方法、およびプログラム
JP2020013220A (ja) * 2018-07-13 2020-01-23 株式会社神戸製鋼所 建設機械用の物体検出装置及び物体検出方法

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2018100676A1 (ja) * 2016-11-30 2018-06-07 株式会社オプティム カメラ制御システム、カメラ制御方法、およびプログラム
WO2019003355A1 (ja) * 2017-06-28 2019-01-03 株式会社オプティム 画像解析結果提供システム、画像解析結果提供方法、およびプログラム
JP2020013220A (ja) * 2018-07-13 2020-01-23 株式会社神戸製鋼所 建設機械用の物体検出装置及び物体検出方法

Also Published As

Publication number Publication date
JPWO2023135621A1 (ja) 2023-07-20

Similar Documents

Publication Publication Date Title
US11392146B2 (en) Method for detecting target object, detection apparatus and robot
CN107016367B (zh) 一种跟踪控制方法及跟踪控制系统
JP6811483B2 (ja) ドローンを用いた作業を支援するシステムおよび方法
US8488001B2 (en) Semi-automatic relative calibration method for master slave camera control
JP2018169995A5 (ja)
Stepan et al. Robust data fusion with occupancy grid
Schöller et al. Targetless rotational auto-calibration of radar and camera for intelligent transportation systems
CN112883819A (zh) 多目标跟踪方法、装置、系统及计算机可读存储介质
EP2226246A2 (en) System and methods for displaying video with improved spatial awareness
KR100879623B1 (ko) Ptz 카메라를 이용한 자동화된 광역 감시 시스템 및 그방법
CN102447835A (zh) 无盲区多目标协同跟踪方法及系统
CN110083157B (zh) 一种避障方法及装置
CN102339019A (zh) 一种基于模糊神经网络的智能轮椅避障方法
CN111474953A (zh) 多动态视角协同的空中目标识别方法及系统
KR20200056068A (ko) Mvs 기반의 무인항공기를 갖춘 객체 추적 시스템
CN114943952A (zh) 多相机重叠视域下障碍物融合方法、系统、设备和介质
Filkov et al. Particle tracking and detection software for firebrands characterization in wildland fires
Naveed et al. Deep introspective SLAM: Deep reinforcement learning based approach to avoid tracking failure in visual SLAM
Rañó et al. Application of systems identification to the implementation of motion camouflage in mobile robots
US11899750B2 (en) Quantile neural network
WO2023135621A1 (ja) 監視カメラ画像解析システム
Sinalkar et al. Stereo vision-based path planning system for an autonomous harvester
CN117115752A (zh) 一种高速公路视频监控方法及系统
CN111783726A (zh) 基于人工智能和bim的放牧牲畜离群视频采集方法
CN115272493B (zh) 一种基于连续时序点云叠加的异常目标检测方法及装置

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 22920148

Country of ref document: EP

Kind code of ref document: A1

WWE Wipo information: entry into national phase

Ref document number: 2023573498

Country of ref document: JP