WO2023162484A1 - 情報処理装置及びプログラム - Google Patents

情報処理装置及びプログラム Download PDF

Info

Publication number
WO2023162484A1
WO2023162484A1 PCT/JP2023/000177 JP2023000177W WO2023162484A1 WO 2023162484 A1 WO2023162484 A1 WO 2023162484A1 JP 2023000177 W JP2023000177 W JP 2023000177W WO 2023162484 A1 WO2023162484 A1 WO 2023162484A1
Authority
WO
WIPO (PCT)
Prior art keywords
image data
information processing
camera
detection unit
image recognition
Prior art date
Application number
PCT/JP2023/000177
Other languages
English (en)
French (fr)
Inventor
佑史 松井
翔 西田
Original Assignee
ソニーセミコンダクタソリューションズ株式会社
ソニーグループ株式会社
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by ソニーセミコンダクタソリューションズ株式会社, ソニーグループ株式会社 filed Critical ソニーセミコンダクタソリューションズ株式会社
Publication of WO2023162484A1 publication Critical patent/WO2023162484A1/ja

Links

Images

Classifications

    • GPHYSICS
    • G02OPTICS
    • G02BOPTICAL ELEMENTS, SYSTEMS OR APPARATUS
    • G02B7/00Mountings, adjusting means, or light-tight connections, for optical elements
    • G02B7/28Systems for automatic generation of focusing signals
    • GPHYSICS
    • G03PHOTOGRAPHY; CINEMATOGRAPHY; ANALOGOUS TECHNIQUES USING WAVES OTHER THAN OPTICAL WAVES; ELECTROGRAPHY; HOLOGRAPHY
    • G03BAPPARATUS OR ARRANGEMENTS FOR TAKING PHOTOGRAPHS OR FOR PROJECTING OR VIEWING THEM; APPARATUS OR ARRANGEMENTS EMPLOYING ANALOGOUS TECHNIQUES USING WAVES OTHER THAN OPTICAL WAVES; ACCESSORIES THEREFOR
    • G03B15/00Special procedures for taking photographs; Apparatus therefor
    • GPHYSICS
    • G03PHOTOGRAPHY; CINEMATOGRAPHY; ANALOGOUS TECHNIQUES USING WAVES OTHER THAN OPTICAL WAVES; ELECTROGRAPHY; HOLOGRAPHY
    • G03BAPPARATUS OR ARRANGEMENTS FOR TAKING PHOTOGRAPHS OR FOR PROJECTING OR VIEWING THEM; APPARATUS OR ARRANGEMENTS EMPLOYING ANALOGOUS TECHNIQUES USING WAVES OTHER THAN OPTICAL WAVES; ACCESSORIES THEREFOR
    • G03B7/00Control of exposure by setting shutters, diaphragms or filters, separately or conjointly
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N23/00Cameras or camera modules comprising electronic image sensors; Control thereof
    • H04N23/60Control of cameras or camera modules

Abstract

【課題】画像データから認識された所定の物体の扱いを状況に応じて区別することが可能な、新規かつ改良された技術を提供する。 【解決手段】画像データから物体を認識する画像認識部と、センサにより取得されたセンシングデータにおける動きを検出する動き検出部と、所定の物体であることが前記画像認識部により認識され、かつ、前記動き検出部により動きが検出された領域に対応する物体を検出する物体検出部と、を備える、情報処理装置。

Description

情報処理装置及びプログラム
 本発明は、情報処理装置及びプログラムに関する。
 近年、土木建設現場等において、作業の監視、または、人が建設機械等に接触して事故が発生することを防ぐ目的で、画像認識を用いた人検知の技術が利用されている。例えば、特許文献1には、画像認識を行い、静止画像内の人物画像またはヘルメット画像を認識することにより、人と建設機械との接触を回避する監視システムが開示されている。上記技術によれば、静止画像内に人物画像またはヘルメット画像が認識された場合には、当該人物画像または当該ヘルメット画像と建設機械に取り付けられた撮像装置との接近距離に基づき、警告の出力または建設機械の動作停止処理が行われる。
特開2019-157497号公報
 しかし、上記技術では、当該ヘルメットのような所定の物体が地面等に置かれているのか、あるいは、当該ヘルメットを人が装着しているのかが区別されない。そのため、地面等に置かれているヘルメットが静止画像内に認識された場合、実際には人が建設機械に接近していなくても、警告が出力される、または、建設機械の動作が停止されてしまうという問題があった。
 そこで、本発明は、上記問題に鑑みてなされたものであり、本発明の目的とするところは、画像データから認識された所定の物体の扱いを状況に応じて区別することが可能な、新規かつ改良された技術を提供することにある。
 上記課題を解決するために、本発明のある観点によれば、画像データから物体を認識する画像認識部と、センサにより取得されたセンシングデータにおける動きを検出する動き検出部と、所定の物体であることが前記画像認識部により認識され、かつ、前記動き検出部により動きが検出された領域に対応する物体を検出する物体検出部と、を備える、情報処理装置が提供される。
 また、本開示によれば、画像データから物体を認識する画像認識部と、互いに種類が異なる所定の物体であることが前記画像認識部により認識された複数の物体を検出する物体検出部と、を備える、情報処理装置が提供される。
 また、本開示によれば、コンピュータを、画像データから物体を認識する画像認識部と、センサにより取得されたセンシングデータにおける動きを検出する動き検出部と、所定の物体であることが前記画像認識部により認識され、かつ、前記動き検出部により動きが検出された領域に対応する物体を検出する物体検出部として機能させるためのプログラムが提供される。
本実施形態による情報処理システムの概要を説明するための説明図である。 本実施形態による情報処理装置30の機能構成例を説明するブロック図である。 本実施形態による情報処理システムの第一の動作例を説明するフローチャート図である。 本実施形態による情報処理システムの第二の動作例を説明するフローチャート図である。 本実施形態による情報処理システムの第三の動作例を説明するフローチャート図である。 本実施形態による情報処理システムの第四の動作例を説明するフローチャート図である。 本実施形態による情報処理システムの第五の動作例を説明するフローチャート図である。 本実施形態による情報処理システムの第六の動作例を説明するフローチャート図である。 本実施形態による情報処理システムの第七の動作例を説明するフローチャート図である。 本実施形態による情報処理システムの第八の動作例を説明するフローチャート図である。 本実施形態による情報処理システムの第九の動作例を説明するフローチャート図である。 本実施形態による情報処理システムの第十の動作例を説明するフローチャート図である。 本実施形態による情報処理システムの第十一の動作例を説明するフローチャート図である。 本実施形態による情報処理システムの動作の第一の変形例を説明するフローチャート図である。 本実施形態による情報処理システムの動作の第二の変形例を説明するフローチャート図である。 本実施形態による情報処理システムの構成の変形例を説明する説明図である。 本開示による情報処理装置30のハードウェア構成例を示すブロック図である。
 以下に添付図面を参照しながら、本開示の好適な実施の形態について詳細に説明する。なお、本明細書及び図面において、実質的に同一の機能構成を有する構成要素については、同一の符号を付することにより重複説明を省略する。
 また、本明細書および図面において、実質的に同一の機能構成を有する複数の構成要素を、同一の符号の後に異なる数字を付して区別する場合もある。ただし、実質的に同一の機能構成を有する複数の構成要素の各々を特に区別する必要がない場合、複数の構成要素の各々に同一符号のみを付する。
 なお、説明は以下に示す項目順序に従って行うものとする。
 1.本開示の一実施形態による情報処理システムの概要
 2.機能構成例
  2-1.カメラ10およびカメラ20
  2-2.情報処理装置30
 3.動作
 4.変形例
 5.ハードウェア構成例
 6.むすび
 <1.本開示の一実施形態による情報処理システムの概要>
 本開示の一実施形態は、センサにより取得されたセンシングデータから画像認識を行う際に、画像から認識された所定の物体の扱いを状況に応じて区別することが可能な情報処理装置に関する。本実施形態は、例えば、土木建設作業の工事現場に設置されたカメラにより撮像された画像から作業員等を認識し、認識結果に基づき、作業監視、安全確保のための機器制御、または、建設機械または人の動線上の安全確認等を行う場合等に適用される。
 図1は、本実施形態による情報処理システムの概要を説明するための説明図である。図1に示したように、本実施形態による情報処理システムは、カメラ10、カメラ20、情報処理装置30、および、出力装置40を含む。カメラ10、カメラ20、および、情報処理装置30は、ローカルネットワーク5を介して通信可能に構成されている。また、情報処理装置30および出力装置40は、ケーブルで接続されている。
 カメラ10およびカメラ20は、工事現場で作業を行っている作業員U、または、土木建設現場で用いられる各種装備品および道具等の物体Oを撮像するセンサである。なお、図1に示した例では、カメラ10およびカメラ20の2つのセンサが工事現場に設置されている例を示した。しかし、本実施形態による情報処理システムに含まれるセンサは、カメラ10の1つだけであってもよい。本実施形態では、工事現場にカメラ10のみが設置されている場合と、カメラ10およびカメラ20の両方が設置されている場合と、のそれぞれの例を説明する。
 情報処理装置30は、カメラ10またはカメラ20から、カメラ10またはカメラ20が撮像した作業員Uまたは物体Oの画像データを取得して画像認識を行い、当該画像データから作業員Uまたは物体Oを認識する機能を有する。また、情報処理装置30は、カメラ10またはカメラ20が撮像した作業員Uまたは物体Oの画像データから、作業員Uまたは物体Oの動きを検出する。情報処理装置30は、上記画像認識および動きの検出の結果を出力装置40に出力する。なお、カメラ10およびカメラ20により得られる画像データは、センシングデータの一例である。
 図1に示した例では、情報処理装置30は、工事現場の事務所等に設置され、カメラ10およびカメラ20とローカルネットワーク5を介して通信可能に構成されていることが理解される。
 物体Oは、工事現場で作業員等の人により把持または装着される物体である。物体Oは、例えば、ヘルメット等の作業員の装備品を含む。また、物体Oは、ハンマーまたは転圧機等の各種土木作業道具を含んでいてもよい。さらに、物体Oは、LED(Light Emitting Diode)等の発光部を有する誘導棒、または、光を再帰性反射させる反射ベスト等の光を反射させる性質を持つ反射材を含んで構成された装備品を含んでいてもよい。図1には7つの物体Oが示されており、より具体的には、物体O1(ヘルメット)、物体O2(ヘルメット)、物体O3(LED誘導棒)、物体O4(反射ベスト)、物体O5(ヘルメット)、物体O6(転圧機)、および、物体O7(ヘルメット)が示されている。
 作業員Uは、工事現場で作業を行う人である。図1に示した例では、作業員U1~作業員U3の3名の作業員が居ることが理解される。また、図1に示した例では、作業員U1は、物体O2(ヘルメット)および物体O4(反射ベスト)を装着しており、片手に物体O3(LED誘導棒)を把持していることが理解される。また、作業員U2は、物体O5(ヘルメット)を装着しており、物体O6(転圧機)を操作して作業を行っていることが理解される。さらに、作業員U3は、物体O7(ヘルメット)を装着しており、建設機械M1の陰で穴を掘る作業を行っていることが理解される。また、作業員U3は、穴の中に入って作業を行っているために、カメラ10またはカメラ20の設置位置および画角によっては、カメラ10およびカメラ20により得られる画像上では、作業員U3の体の一部のみが撮像され得る。
 情報処理装置30は、上記のような物体Oの画像データと、作業員Uの画像データとを、機械学習を用いて学習する。情報処理装置30は、上記学習の結果作成されたモデルを用いて、カメラ10またはカメラ20から取得した画像データから、物体Oまたは作業員Uを認識することができる。
 出力装置40は、情報処理装置30の制御に従い多様な画面を表示する出力装置である。例えば、出力装置40は、情報処理装置30の制御に従って、情報処理装置30による画像認識および動きの検出の結果を、検出情報として出力する。また、出力装置40は、出力部の一例である。本実施形態では、出力装置40と情報処理装置30が別の装置で実現される例を説明する。しかし、出力装置40は、情報処理装置30と同一の装置上で実現されてもよい。
 (課題の整理)
 ここで、土木建設作業の工事現場でカメラ等のセンサにより得られた画像から作業員等の人を精度よく認識するためには、工事現場特有の種々の状況を考慮することが望ましい。
 例えば、工事現場では、建設機械、柵、看板、旗などの遮蔽物、施工対象となる溝、および、盛土などによって、センサにより得られる画像データ上で、作業員の体の一部が隠れてしまう場合がある。この場合、画像認識処理において、画像から作業員を認識できなくなる場合があった。特に、センサの設置位置が高い位置である場合には、建設機械などの物陰に作業員が近づいた際、センサにより得られる画像上では、作業員が身に着けているヘルメットしか見えなくなる場合があり、同様に当該画像から作業員を認識できない場合があった。
 上記のような課題に対して、例えば特許文献1に開示されている技術が検討されている。上記技術によれば、画像認識により静止画像内に人物画像またはヘルメット画像が認識された場合、当該人物画像または当該ヘルメット画像と建設機械に取り付けられた撮像装置との接近距離に基づき、警告の出力、または、建設機械の動作停止処理が行われる監視システムが提供される。
 すなわち、センサにより得られる画像上で作業員の体の一部または全部が隠れてしまう場合がある土木建設作業等の工事現場においても、ヘルメット等の作業員の装備品、または、誘導棒等の土木建設作業の道具を画像認識により認識することで、当該装備品または道具を装着または把持している人を間接的に検出することが出来る。
 しかし、上記技術では、当該ヘルメットのような所定の物体が地面等に置かれているのか、あるいは、当該ヘルメットを人が装着しているのかが区別されない。そのため、地面等に置かれているヘルメットが静止画像内に認識された場合、実際には人が建設機械に接近していなくても、警告が出力される、または、建設機械の動作が停止されてしまうという問題があった。
 さらに、工事現場では、夜間の作業を想定した反射ベスト等の反射材が含まれる装備品、または、LED等の発光部を有する誘導棒などの、光を放射または反射する性質を持つ構成を含んだ装備品を、作業員が把持または装着していることがある。この場合、従来の技術では、上記反射材または発光部などからの光の影響で、予め学習された学習結果の特徴量と、センサにより得られる画像データの特徴量との乖離が大きくなり、作業員の認識率が低下するという問題もあった。
 そこで、本件発明者は、上記事情を一着眼点にして本開示の実施形態を創作するに至った。本発明の実施形態によれば、画像から認識された所定の物体の扱いを状況に応じて区別することが可能である。より具体的には、本発明の実施形態による情報処理装置30は、カメラ10またはカメラ20により得られる画像データから、ヘルメット等の作業員の装備品または各種の土木建設作業道具を画像認識により認識する。ヘルメット等の作業員の装備品、または、誘導棒等の土木建設作業道具は、所定の物体の一例である。さらに、本実施形態による情報処理装置30は、認識された上記所定の物体の動きが検出されたか否かによって、上記所定の物体を検出対象とするか否かを区別して扱う。また、本実施形態による情報処理装置30は、認識された上記所定の物体の位置が所定の条件を満たすか否かによっても、上記所定の物体の扱いを区別する。以下、このような本発明の実施形態による情報処理装置30の機能構成例および動作を、順次詳細に説明する。
 <2.機能構成例>
 <2-1.カメラ10、カメラ20>
 カメラ10およびカメラ20は、作業員Uまたは物体Oを撮像するカメラである。本実施形態では、カメラ10およびカメラ20は、土木建設作業の工事現場で、作業員Uまたは物体Oを撮像可能な位置に設置される。カメラ10およびカメラ20は、作業員Uまたは物体Oを撮像した画像データを、情報処理装置30に供給する。
 カメラ10およびカメラ20は、それぞれ、一地点に固定して設置されていてもよいし、ショベルカー等の移動する物体に取り付けられていてもよい。
 また、カメラ10およびカメラ20は、人工衛星からの電波を受信して、カメラ10およびカメラ20自身が存在している現在位置を検知するGNSS(Global Navigateion Satellite System)を用いて、自身の位置を測位する機能を有していてもよい。この場合、カメラ10は、作業員Uまたは物体Oの画像データとともに、自身の位置情報を情報処理装置30に送信する。
 また、本実施形態による情報処理システムに含まれるセンサは、カメラ10の1つのセンサのみで構成されてもよく、カメラ10およびカメラ20の2つのセンサによって構成されてもよい。また、カメラ10およびカメラ20は、同一の種類のセンサであってもよく、互いに異なる種類のセンサであってもよい。このような構成は、カメラ10およびカメラ20に採用されるセンサの種類に応じて選択され得る。
 このようなカメラ10およびカメラ20は、例えば、可視光を利用した、色情報を含む画像データを取得することが可能な複眼のRGBカメラであってもよい。カメラ10およびカメラ20が複眼のRGBカメラである場合、カメラ10およびカメラ20は、左右のイメージセンサにより得られた2種の画像データを情報処理装置30に供給する。また、カメラ10およびカメラ20は、撮像される画面内での、被写体までの距離および深度情報を情報処理装置30に供給する。情報処理装置30は、当該2種の画像データを用いて、作業員Uまたは物体Oの画像認識を行うことが出来る。さらに、情報処理装置30は、カメラ10から供給される上記距離および深度情報に基づいて、画像認識により認識した作業員Uまたは物体Oの3次元位置情報を検出することが出来る。
 または、カメラ10およびカメラ20は、近赤外線を利用したTOF(Time Of Flight)カメラであってもよい。この場合、カメラ10およびカメラ20は、近赤外線を放射する投光器および近赤外線を受光する受光器を有する。このようなカメラ10およびカメラ20は、投光器による照射光が被写体に反射して受光器に検出されるまでの時間を計測し、当該時間に基づいて、カメラ10またはカメラ20自身から被写体までの距離を算出することが出来る。また、この場合、カメラ10およびカメラ20は、算出した距離の情報、または、距離情報を画像化したDepth画像のデータを、作業員Uまたは物体Oを撮像した赤外線画像の画像データとともに、情報処理装置30に供給する。情報処理装置30は、カメラ10またはカメラ20から取得した赤外線画像から、作業員Uまたは物体Oを認識する。さらに、情報処理装置30は、上記距離の情報またはDepth画像に基づいて、作業員Uまたは物体Oの3次元位置情報を検出することが出来る。
 さらに、カメラ10およびカメラ20は、画素ごとの輝度変化を検出するイベントベース方式のカメラであってもよい。このようなイベントベース方式のカメラは、ニューロモルフィックカメラ、または、ニューロモーフィックセンサー等と称される場合もある。イベントベース方式のカメラによれば、被写体において輝度変化が生じた部分の画素だけが検出され、画像データとして出力される。すなわち、イベントベース方式のカメラによれば、照明条件の変化による影響部分を除けば、動いている被写体の輪郭だけが抽出されたような画像が得られる。本明細書では、以下、このようなイベントベース方式のカメラを、イベントベースカメラと称する。
 カメラ10およびカメラ20がイベントベースカメラによって実現される場合、カメラ10およびカメラ20は、被写体において輝度変化が生じた部分の画素だけを検出し、画像データを生成する。例えば、カメラ10およびカメラ20により、図1に示した物体O1(ヘルメット)および物体O2(ヘルメット)を装着している作業員U1が撮像された場合を想定する。この場合、物体O1(ヘルメット)は台に置かれて静止しているので、カメラ10により得られる画像上には物体O1(ヘルメット)がイメージとして表れない。一方、作業員U1は常に動いていることが想定されるため、上記画像上には、作業員U1、および、作業員U1の動作に伴って動く物体O2(ヘルメット)が、イメージとして表れる。情報処理装置30は、このようなイベントベースカメラにより得られる画像データから、被写体の動きを検出することが出来る。
 本実施形態による情報処理システムに含まれるカメラ10、カメラ20、および、情報処理装置30は、採用されるセンサの種類に応じて、下記の三種の構成を採り得る。第一の構成では、情報処理装置30は、カメラ10により得られた画像データを画像認識の処理に用い、かつ、カメラ20により得られた画像データを動きの検出の処理に用いる。第二の構成では、情報処理装置30は、カメラ10の1つのセンサにより得られた同一の画像データを、画像認識の処理、および、動きの検出の処理の両方の処理に用いる。この場合、本実施形態による情報処理システムに含まれるセンサは、カメラ10の1つのみであってよい。第三の構成では、情報処理装置30は、カメラ10により得られた画像データ、および、カメラ20により得られた画像データのそれぞれから、互いに種類が異なる所定の物体の画像認識の処理を行う。上記のような構成ごとの、本実施形態による情報処理システムの動作と、それぞれの構成で得られる効果は、後に詳細に説明する。
 <2-2.情報処理装置30>
 図2は、本実施形態による情報処理装置30の機能構成例を説明するブロック図である。図2に示したように、情報処理装置30は、取得部310、制御情報記憶部320、教師データ記憶部330、学習データ記憶部340、制御部350、および、操作部360を有する。
 (取得部310)
 取得部310は、制御部350の制御に従って、他の装置とデータの送受信を行う機能を有する。例えば、取得部310は、カメラ10およびカメラ20から、作業員Uまたは物体Oの画像データを取得する機能を有する。取得部310は、カメラ10およびカメラ20から取得した上記画像データを、制御部350に供給する。
 (制御情報記憶部320)
 制御情報記憶部320は、制御部350を動作させるためのプログラムおよびデータを記憶することが可能な記憶装置である。また、制御情報記憶部320は、制御部350の動作の過程で必要となる各種データを一時的に記憶することもできる。例えば、記憶装置は、不揮発性の記憶装置であってもよい。
 (教師データ記憶部330)
 教師データ記憶部330は、後述する制御部350による機械学習に用いられる教師データを記憶する記憶装置である。教師データとは、制御部350による画像認識において、制御部350に認識させたい所定の物体の画像の画像データを指す。図2に示した例では、教師データ記憶部330は、反射ベストの画像データ、ヘルメットの画像データ、誘導棒の画像データ、および、転圧機等の各種土木作業道具の画像データ等の、人により把持または装着される物体の画像データを記憶する。また、教師データ記憶部330は、図2に示した例の他にも、後述する画像認識部354による画像認識で認識対象とする画像データを記憶することができる。
 さらに、教師データ記憶部330に記憶される上記画像データには、土木建設作業の工事現場等で作業員が把持または装着する可能性のある、LED等の発光部を有する誘導棒、または、光を再帰性反射させる反射ベスト等の、光を放射または反射させる性質を持つ部材を含んで構成された装備品の画像データが含まれる。この構成により、学習部352は、予め上記反射材または発光部などからの光の影響を考慮して、画像認識のための学習を行うことが出来る。従って、従来の技術で発生していた、予め学習された学習結果の特徴量と、センサにより得られる画像データの特徴量との乖離が大きくなり、作業員の認識率が低下するという問題を低減することができる。
 なお、教師データ記憶部330に記憶される上記画像データとしては、カメラ10およびカメラ20により得られる画像データの種類に応じた画像データが記憶される。例えば、カメラ10およびカメラ20により得られる画像データが、色情報および輝度情報を含む場合には、教師データ記憶部330には、色情報および輝度情報を含む画像の教師データが記憶されていてもよい。または、カメラ10またはカメラ20により得られる画像データが赤外線画像の画像データである場合には、教師データ記憶部330には、赤外線画像の教師データが記憶される。さらに、カメラ10またはカメラ20により得られる画像データがイベントベースカメラにより得られる画像データである場合には、教師データ記憶部330には、イベントベースカメラにより撮像された画像データが教師データとして記憶される。
 (学習データ記憶部340)
 学習データ記憶部340は、後述する制御部350によって機械学習を用いて行われる学習の結果作成されるモデルを記憶する記憶装置である。制御部350は、学習データ記憶部340に記憶されたモデルを用いて画像認識を行い、カメラ10から取得した画像データから作業員Uまたは物体Oを認識することが出来る。
 (制御部350)
 制御部350は、CPU(Central Processing Unit)などを含み、制御情報記憶部320により記憶されているプログラムがCPUによりRAM(Random Access Memory)に展開されて実行されることにより、その機能が実現され得る。このとき、当該プログラムを記録した、コンピュータに読み取り可能な記録媒体も提供され得る。あるいは、制御部350は、専用のハードウェアにより構成されてもよいし、複数のハードウェアの組み合わせにより構成されてもよい。このような制御部350は、情報処理装置30における動作全般を制御する。例えば、制御部350は、取得部310と、カメラ10およびカメラ20との通信を制御する。また、制御部350は、図2に示したように、学習部352、画像認識部354、動き検出部356、物体検出部358、および、出力制御部359としての機能を有する。
 学習部352は、教師データ記憶部330に記憶された教師データから、画像認識部354による画像認識に利用される特徴量を抽出する機能を有する。例えば、学習部352は、教師データ記憶部330に記憶されたヘルメットの画像データから、色情報、色の濃度の勾配、または、HOG(Histograms of Oriented Gradients)特徴量を、特徴量として抽出してもよい。また、学習部352は、上記教師データから抽出された上記特徴量に基づいて、作業員Uまたは物体Oの画像認識を行うために必要な学習を行う機能を有する。
 画像認識部354は、学習部352により予め学習されたモデルを用いて、カメラ10またはカメラ20から取得した作業員Uまたは物体Oの画像データから、作業員Uまたは物体Oの画像認識を行う。ここで、学習部352による学習の方法、および、画像認識部354による画像認識の方法は、特に限定しない。例えば、学習部352による学習および画像認識部354による画像認識に用いられる機械学習アルゴリズムとしては、ニューラルネットワーク(例えば、深層学習など)が採用され得るが、機械学習アルゴリズムは、ニューラルネットワークに限定されない。例えば、画像認識部354は、2次元物体認識、または、ボーン推定アルゴリズムを用いて画像認識を行ってもよい。また、画像認識部354は、人を認識するアルゴリズムと、人以外の物体を認識するアルゴリズムといったように、複数の認識アルゴリズムによる認識処理を並行して行ってもよい。
 さらに、画像認識部354は、カメラ10から取得した画像データから、互いに種類が異なる2以上の所定の物体を認識してもよい。または、画像認識部354は、カメラ10およびカメラ20のそれぞれから取得した2つの画像データから、それぞれ、互いに種類が異なる2以上の所定の物体を認識してもよい。例えば、画像認識部354は、カメラ10から取得した画像データから物体O2(ヘルメット)を認識し、かつ、カメラ20から取得した画像データから物体O4(反射ベスト)を認識してもよい。画像認識部354は、このような画像認識の結果を、物体検出部358に供給する。
 動き検出部356は、カメラ10またはカメラ20により得られた画像データから、動きを検出する機能を有する。例えば、動き検出部356は、画像データの全体から動きのある領域を検出してもよいし、画像データにおける一部の領域における動きの有無を検出してもよい。本実施形態による情報処理システムに含まれるセンサがカメラ10の1つのみである場合、動き検出部356は、カメラ10から取得した画像データから動きを検出する。または、本実施形態による情報処理システムに含まれるセンサがカメラ10およびカメラ20の2つである場合、動き検出部356は、カメラ20から取得した画像データから、動きを検出する。
 動き検出部356は、例えば、上記画像データのうち、時間的に隣接するフレームの画像の画素値(例えば、輝度)を比較し、画素値の差分が所定の閾値を超えたか否かを検出することにより、上記画像データから動きを検出してもよい。動き検出部356は、上記画像データにおいて、画素値の差分が上記所定の閾値を超えた部分の領域を、動きがあった領域として検出する。
 または、カメラ10またはカメラ20がイベントベースカメラにより実現される場合には、カメラ10またはカメラ20により得られる画像データには、輝度変化が検出され、かつ、輝度変化の度合いが所定の閾値を超えた画素のみが、データとして出力される。この場合、動き検出部356は、上記画像データのうち、各フレーム間での画素値の比較処理を行うことなく、上記画像データから動きを検出することが可能である。
 動き検出部356は、動きの検出の結果を、物体検出部358に供給する。
 物体検出部358は、画像認識部354により所定の物体であることが認識され、かつ、動き検出部356により動きが検出された領域に対応する物体を検出する。より詳細には、物体検出部358は、画像認識部354による画像認識に用いられた画像データ上で所定の物体であることが認識された領域と、動き検出部356による動きの検出に用いられた画像データ上で動きが検出された領域とが、対応しているか否かを検出する。物体検出部358は、所定の物体であることが認識された領域と、動きが検出された領域とが対応しているか否かに応じて、認識された所定の物体の扱いを区別する。
 例えば、本実施形態による情報処理システムに含まれるセンサが、カメラ10の1つのみである場合、画像認識部354と、動き検出部356は、カメラ10から取得した同一の画像データから、それぞれ、画像認識および動きの検出の処理を行う。この場合、物体検出部358は、当該画像データ上で、画像認識部354により所定の物体が認識された領域と、動き検出部356により動きが検出された領域が一致しているか否かを検出する。物体検出部358は、一致していると検出した場合には、認識された所定の物体を検出対象とし、検出の結果を、検出情報として出力制御部359に出力する。一方、物体検出部358は、一致していないと検出した場合には、認識された所定の物体を検出対象とせず、検出情報を出力しない。
 または、本実施形態による情報処理システムに含まれるセンサが、カメラ10およびカメラ20の2つにより構成される場合、画像認識部354による画像認識に用いられる画像データと、動き検出部356による動きの検出に用いられる画像データとは、異なる画像データとなる。この場合、物体検出部358は、カメラ10により得られた画像データ上で所定の物体が認識された領域と、カメラ20により得られた画像データ上で動きが検出された領域とが、対応しているか否かを検出する。物体検出部358による、カメラ10およびカメラ20により得られた2つの画像データ上の領域の対応の検出方法には、いくつかの方法が考えられる。
 例えば、物体検出部358は、カメラ10およびカメラ20が設置されている、3次元位置の座標を特定する。カメラ10およびカメラ20の3次元位置の座標は、予め、情報処理装置30の操作者により、情報処理装置30に入力され、制御情報記憶部320に記憶されていてもよい。または、カメラ10およびカメラ20がGNSSを用いた位置測位機能を有している場合には、物体検出部358は、カメラ10およびカメラ20から位置情報を取得することにより、カメラ10およびカメラ20の3次元位置の座標を特定してもよい。
 物体検出部358は、カメラ10およびカメラ20から取得した被写体までの距離の情報またはDepth画像と、特定したカメラ10およびカメラ20の3次元位置の座標に基づいて、画像認識部354により認識された所定の物体、および、動き検出部356により動きが検出された領域に対応する、それぞれの3次元位置の座標を算出する。物体検出部358は、算出した当該座標により示される領域が同一または近似しているか否かに基づいて、領域の対応を検出してもよい。
 物体検出部358は、所定の物体が認識された領域と、動きが検出された領域が対応していると検出した場合、検出の結果を出力制御部359に出力する。また、物体検出部358は、上記領域が対応していないと検出した場合には、出力制御部359に検出の結果を出力しない。このような構成により、情報処理装置30は、画像データから所定の物体が検出されただけでなく、認識された当該所定の物体が動いていると検出される場合に、当該所定の物体を検出対象として検出の結果を出力する。すなわち、情報処理装置30は、画像データから検出されたヘルメット等の装備品または土木建設作業の工具が、静止している場合と、動いている場合とを区別して、検出の結果を出力することが出来る。画像データからヘルメット等の装備品、または、土木建設作業の工具が認識されれば、当該装備品または道具を把持または装着している人を間接的に検出することが出来る。さらに、本実施形態による情報処理装置30は、当該装備品または道具が動いている場合のみ、当該装備品または道具の検出の結果を出力するので、地面に置かれている装備品または道具を認識することにより人を誤検出してしまう可能性を低減することが出来る。
 さらに、物体検出部358は、画像認識部354から供給された画像認識の結果が、互いに種類が異なる2以上の所定の物体が認識されたことを示す場合には、当該2以上の所定の物体の3次元位置の座標を特定し、当該2以上の所定の物体の位置関係が所定の条件を満たすか否かを検出してもよい。所定の条件としては、互いに種類が異なる物体Oが、同一の人に同時に把持または装着されている場合の位置関係が考えられる。例えば、作業員U1が物体O2(ヘルメット)を装着し、かつ、物体O3(LED誘導棒)を把持している場合、物体O2(ヘルメット)と物体O3(LED誘導棒)の位置関係は、物体O2(ヘルメット)の方が物体O3(LED誘導棒)よりも相対的に高度が高い位置にある場合が多いと推定される。
 例えば、画像認識部354から、カメラ10により得られた画像データから物体O2(ヘルメット)が認識されたことを示す結果と、カメラ20により得られた画像データから物体O3(LED誘導棒)が認識されたことを示す結果が、物体検出部358に供給されたとする。この場合、物体検出部358は、カメラ10およびカメラ20により得られた画像データ、距離の情報またはDepth画像に基づいて、物体O2(ヘルメット)および物体O3(LED誘導棒)の3次元位置の座標を特定する。さらに、物体検出部358は、物体O2(ヘルメット)の方が、物体O3(LED誘導棒)よりも相対的に高度が高い位置にあると検出した場合に、物体O2(ヘルメット)および物体O3(LED誘導棒)を検出対象として、検出の結果を出力制御部359に出力してもよい。
 上記のように、画像認識部354が、互いに種類が異なる2以上の所定の物体を認識し、さらに、物体検出部358が、認識された互いに種類が異なる2以上の所定の物体の位置関係が所定の条件を満たすか否かを検出することにより、ヘルメット等の人の装着品および誘導棒等の土木作業道具から、画像認識により間接的に人を検出する際の精度を、さらに向上させることが出来る。
 出力制御部359は、物体検出部358による上記検出の結果に基づき、物体検出結果を出力する機能を有する。より具体的には、出力制御部359は、物体検出部358から供給される、所定の物体が検出されたか否かを示す情報、所定の物体の位置、または、所定の物体と所定の基準点からの距離情報の少なくともいずれか1つ以上を、上記物体検出結果として出力する。所定の基準点は、カメラ10またはカメラ20の位置であってもよく、建設機械M1等の、作業員との距離を出力させたい物体の位置であってもよい。
 なお、出力制御部359による物体検出結果の出力方法は、いくつかの方法が考えられる。例えば、本実施形態による情報処理装置30の出力制御部359は、上記物体検出結果に基づいて画面を生成し、ユーザに視認可能な態様で出力装置40に表示させる制御を行ってもよい。または、出力制御部359は、上記物体検出結果を、図1に図示しない、情報処理装置30と通信可能に構成された建設機械等の装置に送信してもよい。この構成により、出力制御部359から出力された物体検出結果に基づいて、建設機械等の装置を自動制御し、作業員が建設機械に接近した場合に当該建設機械の動作を一時停止させる、または、図示しない警報器等から警報を鳴らす等の応用も可能である。
 (操作部360)
 操作部360は、情報処理装置30の操作者が情報処理装置30に指示または情報を入力するために操作する構成である。例えば、情報処理装置30の操作者は、操作部360を操作することにより、情報処理装置30による画像認識および動きの検出の処理を開始または終了させる指示を入力することが出来る。
 <3.動作>
 続いて、本実施形態による情報処理システムの動作例を説明する。上記説明したように、本実施形態による情報処理システムに含まれるカメラ10、カメラ20、および、情報処理装置30は、採用されるセンサの種類に応じて、三種の構成を採り得る。まず、情報処理装置30が、カメラ10により得られた画像データを画像認識の処理に用い、かつ、カメラ20により得られた画像データを動きの検出の処理に用いる場合の動作例を説明する。
 (第一の動作例)
 図3は、本実施形態による情報処理システムの第一の動作例を説明するフローチャート図である。本動作例は、カメラ10およびカメラ20として、異なる2台の複眼RGBカメラが採用される場合の動作例である。
 まず、情報処理装置30の取得部310は、カメラ10およびカメラ20から、色情報を含むRGB画像の画像データを取得する(S100)。次に、情報処理装置30の画像認識部354は、カメラ10から取得した画像データにおいて、所定の物体(作業員Uまたは物体O)の画像認識を行う(S200)。画像認識部354による画像認識により、上記画像データにおいて所定の物体が認識されなかった場合(S300/NO)、情報処理装置30は、所定の物体が認識されるまでS100およびS200の処理を繰り返す。
 画像認識部354による画像認識により、上記画像データにおいて所定の物体が認識された場合(S300/YES)、動き検出部356は、カメラ20から取得した画像データから動きを検出する(S400)。
 動き検出部356により、上記画像データから動きが検出されなかった場合(S500/NO)、情報処理装置30は、再度S100~S400の処理を行う。
 動き検出部356により、上記画像データから動きが検出された場合(S500/YES)、物体検出部358は、画像認識部354により所定の物体であることが認識され、かつ、動き検出部356により動きが検出された領域に対応する物体の検出を試みる。具体的には、物体検出部358は、カメラ10から取得した画像データ上で所定の物体であることが認識された領域と、カメラ20から取得した画像データ上で動きが検出された領域とが対応しているか否かを、カメラ10およびカメラ20から得られる被写体までの距離および深度情報に基づいて検出する。物体検出部358は、上記領域が対応していると検出した場合、当該領域において認識された物体の種類、および当該領域の位置を示す情報を含む検出情報を出力する。また、物体検出部358は、上記領域が対応していない場合には、出力制御部359に検出情報を出力しない。出力制御部359は、物体検出部358から検出情報が出力されると、当該検出情報に基づいて物体検出結果を出力する(S700)。例えば、出力制御部359は、カメラ10およびカメラ20により得られた画像データからヘルメットが検出されたことから、間接的に人が検出されたことを示す情報、当該ヘルメットが検出された位置、および、当該位置と建設機械M1との距離情報を、ユーザが視認可能な画面を生成し、当該画面を出力装置40に出力させてもよい。
 次に、情報処理装置30の操作者が操作部360を操作することにより、一連の処理を終了する指示を入力した場合(S800/YES)、情報処理装置30は処理を終了する。情報処理装置30は、処理を終了する指示が入力されるまで、S100~S700の処理を繰り返す(S800/NO)。
 以上、図3を参照して、本実施形態による情報処理システムの第一の動作例を説明した。なお、上記第一の動作例では、カメラ10およびカメラ20が互いに異なる2台の複眼のRGBカメラである例を説明した。しかし、本動作例は、本実施形態による情報処理システムに含まれるセンサが、複眼RGBカメラであるカメラ10の1台のみで構成される場合にも適用可能である。この場合、情報処理装置30の動き検出部356は、S400において、カメラ10から取得した画像データから動きを検出してもよい。さらに、物体検出部358は、S700において、カメラ10から取得した同一の画像データ上で、画像認識部354により所定の物体が認識された領域と、動き検出部356により動きが検出された領域が一致または近似しているか否かを検出してもよい。
 上記説明したように、本実施形態による情報処理装置30の物体検出部358は、画像認識部354により所定の物体が認識された領域と、動き検出部356により動きが検出された領域が対応している場合に、上記所定の物体を検出対象として、検出情報を出力制御部359に出力する。例えば、カメラ10から取得した画像データ上で、画像認識部354により物体O1(ヘルメット)が認識されたとする。物体O1(ヘルメット)は、台の上に置かれており静止している。従って、動き検出部356は、カメラ10またはカメラ20から得られた画像上で、物体O1(ヘルメット)に対応する領域で動きを検出しない。この場合、画像認識部354により物体O1(ヘルメット)が認識されても、物体検出部358は物体O1(ヘルメット)を検出対象とせず、出力制御部359へ検出情報を出力しない。すなわち、本動作例によれば、画像認識により検出されたヘルメット等の所定の物体が、人に装着されておらず地面に置かれているのか人が装着しているのかを、当該所定の物体に対応する領域で動きが検出されたかによって区別することが出来る。さらに、画像認識により検出されたヘルメットに対応する領域で動きが検出された場合には、当該ヘルメットが認識されたことに基づいて、検出情報が出力される。従って、作業員の装備品または作業員が把持する道具を画像認識することで間接的に人を検出する場合に、検出精度を向上させることが出来る。
 (第二の動作例)
 続いて、カメラ10およびカメラ20がTOFカメラである場合の動作例を説明する。本動作例は、カメラ10およびカメラ20として、異なる2台のTOFカメラが採用される場合の動作例である。または、本動作例は、本実施形態による情報処理システムに含まれるセンサが、TOFカメラであるカメラ10の1台のみで構成される場合にも適用可能である。
 図4は、本実施形態による情報処理システムの第二の動作例を説明するフローチャート図である。なお、図4において、S100、S300、S500、および、S800の処理は、上記で図3を参照して説明した通りであるので、ここでは詳細な説明を省略する。
 まず、S100の処理が行われる。続いて、情報処理装置30の画像認識部354は、カメラ10から取得した赤外線画像の画像データにおいて、所定の物体の画像認識を行う(S202)。
 上記画像データにおいて、画像認識部354により所定の物体が認識された場合(S300/YES)、動き検出部356は、カメラ20から取得した画像データから動きを検出する(S402)。続いて、S500の処理が行われる。
 動き検出部356により、上記画像データから動きが検出された場合(S500/YES)、物体検出部358は、カメラ10から取得した画像データ上で所定の物体であることが認識された領域と、カメラ20から取得した画像データ上で動きが検出された領域とが対応しているか否かを、カメラ10およびカメラ20から得られる被写体までの距離情報またはDepth画像のデータに基づいて検出する。物体検出部358は、第一の動作例と同様に、上記領域が対応していると検出した場合、検出情報を出力制御部359に出力する。また、物体検出部358は、上記領域が対応していないと検出した場合には、出力制御部359に検出情報を出力しない。出力制御部359は、物体検出部358から供給される検出情報に基づき、物体検出結果を出力する(S702)。続いて、S800の処理が行われる。
 以上、図4を参照して、本実施形態による情報処理システムの第二の動作例を説明した。TOFカメラによれば、1台のカメラで、画像認識に用いられる画像データと、被写体までの距離の情報またはDepth画像のデータとを、同時に取得することが出来る。従って、出力制御部359により出力される物体検出結果を用いて、建設機械の自動制御または警報器からの警報の出力等の処理を行いたい場合に、レイテンシの低減を見込むことが出来る。特に、本実施形態による情報処理システムに含まれるセンサが、TOFカメラであるカメラ10の1台のみで構成される場合に、上記のような効果が期待できる。
 (第三の動作例)
 続いて、カメラ10が複眼RGBカメラであり、かつ、カメラ20がイベントベースカメラである場合の動作例を説明する。図5は、本実施形態による情報処理システムの第三の動作例を説明するフローチャート図である。なお、図5において、S100、S300、S500、および、S800の処理は、図1を参照して上記説明した通りであるので、ここでの詳細な説明を省略する。
 また、本動作例では、カメラ10およびカメラ20が工事現場に設置される際に、カメラ10およびカメラ20の位置、向き、および画角が、情報処理装置30のユーザにより予め設定されているものとする。また、当該位置、向き、および、画角を含む、カメラ10およびカメラ20の設置条件の情報が、情報処理装置30の制御情報記憶部320に記憶されているものとする。
 まず、S100の処理が行われる。続いて、情報処理装置30の画像認識部354は、カメラ10から取得したRGB画像の画像データにおいて、所定の物体の画像認識を行う(S204)。
 画像認識部354により上記画像データにおいて所定の物体が認識された場合(S300/YES)、動き検出部356は、カメラ20から取得した、イベントベースカメラにより得られる画像データから動きを検出する(S404)。
 本動作例では、カメラ20により得られる画像データには、輝度変化が検出され、かつ、輝度変化の度合いが所定の閾値を超えた画素のみが、データとして出力される。従って、動き検出部356は、カメラ20から出力された上記画素の部分の領域を、動きが検出された領域として物体検出部358に出力する。続いて、S500の処理が行われる。
 動き検出部356により上記画像データから動きが検出された場合(S500/YES)、物体検出部358は、カメラ10から取得した画像データ上で所定の物体であることが認識された領域と、カメラ20から取得した画像データ上で動きが検出された領域とが対応しているか否かを検出する。物体検出部358は、カメラ10から得られる被写体までの距離の情報または深度情報と、カメラ10およびカメラ20の設置条件の情報に基づいて、上記領域の対応を検出することが出来る。
 例えば、物体検出部358は、カメラ10から得られる画像データおよび上記距離の情報または深度情報に基づいて、画像認識部354により認識された所定の物体の3次元位置情報の座標を特定する。さらに、物体検出部358は、カメラ20から得られる画像データ上で動きが検出された領域の、カメラ20の画角の画面内における2次元座標を特定する。物体検出部358は、カメラ20の設置位置、向き、および、画角の情報に基づいて、カメラ10により得られた画像上で所定の物体が認識された領域の3次元座標を、カメラ20の画角内における2次元座標に変換することにより、領域の対応を検出する。
 または、カメラ10およびカメラ20の位置、向き、および、画角が、物体検出部358による領域の対応の検出において同一と見做せる程度に近似している場合も考えられる。この場合、物体検出部358は、カメラ10により得られる画像データの画面領域と、カメラ20により得られる画像データの画面領域を同一と見做して、上記領域の対応を検出することもできる。この場合には、カメラ10は、単眼のRGBカメラであってもよい。
 物体検出部358は、第一の動作例と同様に、上記領域が対応していると検出した場合、検出情報を出力制御部359に出力する。一方、物体検出部358は、上記領域が対応していないと検出した場合には、出力制御部359に検出情報を出力しない。出力制御部359は、物体検出部358により検出情報が出力されると、当該検出情報に基づき、物体検出結果を出力する(S704)。続いて、S800の処理が行われる。
 以上、図5を参照して、本実施形態による情報処理システムの第三の動作例を説明した。本動作例では、カメラ20にイベントベースカメラが採用される。この構成により、情報処理装置30側で、カメラ20により得られる画像データのフレーム間での画素比較等の処理を行うことなく、上記画像データから動きを検出することが可能となる。従って、情報処理装置30側で行われる動きの検出の処理負荷が軽減され、情報処理装置30での消費電力低減を見込むことが出来る。
 (第四の動作例)
 続いて、カメラ10がTOFカメラであり、かつ、カメラ20がイベントベースカメラである場合の動作例を説明する。図6は、本実施形態による情報処理システムの第四の動作例を説明するフローチャート図である。なお、図6において、S100、S300、S500、および、S800は、上記で図3を参照して説明した通りであるので、ここでは詳細な説明を省略する。また、S404、および、S704についても、上記で図5を参照して説明した通りであるので、ここでの詳細な説明を省略する。
 まず、S100の処理が行われる。続いて、情報処理装置30の画像認識部354は、カメラ10から取得した赤外線画像の画像データにおいて、所定の物体(作業員Uまたは物体O)の画像認識を行う(S206)。続いて、S300~S800の処理が行われる。
 以上、図6を参照して、本実施形態による情報処理システムの第四の動作例を説明した。本動作例では、第三の動作例と同様に、カメラ20にイベントベースカメラが採用される。この構成により、情報処理装置30側で、カメラ20により得られる画像データのフレーム間での画素比較等の処理を行うことなく、上記画像データから動きを検出することが可能となる。従って、情報処理装置30側で行われる動きの検出の処理負荷が軽減され、情報処理装置30での消費電力低減を見込むことが出来る。
 (第五の動作例)
 続いて、カメラ10がRGBカメラであり、かつ、カメラ20がTOFカメラである場合の動作例を説明する。本構成は、上記説明した第二の構成が採用される場合に該当する。
 図7は、本実施形態による情報処理システムの第五の動作例を説明するフローチャート図である。なお、図7において、S100、S300、S500、および、S800は、上記で図3を参照して説明した通りであるので、ここでは詳細な説明を省略する。また、図7において、S204およびS402は、それぞれ、図5および図4を参照して上記で説明した通りであるので、詳細な説明を省略する。
 まず、S100~S500の処理が行われる。
 動き検出部356により、カメラ20から取得された赤外線画像データから動きが検出された場合(S500/YES)、物体検出部358は、カメラ10から取得されたRGB画像データ上で画像認識部354により所定の物体が認識された領域と、動き検出部356により上記赤外線画像データ上で動きが検出された領域が対応しているか否かを検出する。
 物体検出部358は、上記領域が対応していると検出した場合、検出情報を出力制御部359に出力する。また、物体検出部358は、上記領域が対応していないと検出した場合には、出力制御部359に検出情報を出力しない。出力制御部359は、物体検出部358から検出情報が出力されると、当該検出情報に基づき、物体検出結果を出力する。続いて、S800の処理が行われる。
 以上、図7を参照して、本実施形態による情報処理システムの第五の動作例を説明した。ここまで、情報処理装置30において、画像認識部354による画像認識の処理が行われた後に、動き検出部356による動きの検出の処理が行われる動作例を説明した。しかし、本実施形態による情報処理装置30は、動き検出部356による動きの検出の処理を先に実施し、その後に、画像認識部354による画像認識の処理を行ってもよい。以下、このような本実施形態による情報処理システムの動作例を説明する。
 (第六の動作例)
 まず、第一の動作例と同様に、カメラ10およびカメラ20が複眼RGBカメラである場合の他の動作例を説明する。図8は、本実施形態による情報処理システムの第六の動作例を説明するフローチャート図である。なお、図8において、S100、S700、およびS800は、上記で図3を参照して説明した通りであるので、ここでの詳細な説明を省略する。
 まず、S100の処理が行われる。続いて、情報処理装置30の動き検出部356が、カメラ20から取得した画像データから動きを検出する処理を行う(S250)。当該画像データから動きが検出されなかった場合(S350/NO)、情報処理装置30は、カメラ20から取得した画像データから動きが検出されるまで、S100およびS250の処理を繰り返す。
 上記画像データにおいて動きが検出された場合(S350/YES)、画像認識部354は、動き検出部356により動きが検出された領域に基づいて、カメラ10から取得した画像データ上で、物体認識対象領域を特定する(S450)。
 画像認識部354は、特定された物体認識対象領域から、所定の物体を認識する(S550)。画像認識部354により、上記画像データから所定の物体が認識されなかった場合(S650/NO)、情報処理装置30は、再度S100~S550の処理を行う。
 画像認識部354により、上記画像データから所定の物体が認識された場合(S650/YES)、S700~S800の処理が行われる。
 (第七の動作例)
 以上、図8を参照して、本実施形態による情報処理システムの第六の動作例を説明した。続いて、図9を参照して、本実施形態による情報処理システムの第七の動作例を説明する。本動作例は、第二の動作例と同様に、カメラ10およびカメラ20に異なる2台のTOFカメラが採用される場合の動作例である。または、本動作例は、本実施形態による情報処理システムに含まれるセンサが、TOFカメラであるカメラ10の1台のみで構成される場合にも適用可能である。
 図9は、本実施形態による情報処理システムの第七の動作例を説明するフローチャート図である。なお、図9において、S100およびS800と、S702は、上記で図3と図4を参照して説明した通りであるので、ここでの詳細な説明を省略する。また、図9において、S350、S450、およびS650についても、上記で図8を参照して説明した通りであるので、ここでの詳細な説明を省略する。
 まず、S100の処理が行われる。続いて、情報処理装置30の動き検出部356は、カメラ20から取得した赤外線画像の画像データにおいて、動きの検出の処理を行う(S252)。続いて、S350およびS450の処理が行われる。
 次に、画像認識部354は、カメラ10から取得した画像データ上で特定された物体認識対象領域から、所定の物体の画像認識を行う(S552)。続いて、S650~S800の処理が行われる。
 (第八の動作例)
 以上、図9を参照して、本実施形態による情報処理システムの第六の動作例を説明した。続いて、第三の動作例と同様に、カメラ10がイベントベースカメラ、かつ、カメラ20が複眼RGBカメラである場合の他の動作例を説明する。
 図10は、本実施形態による情報処理システムの第八の動作例を説明するフローチャート図である。なお、図10において、S100およびS800と、S702は、それぞれ、上記で図3と図5を参照して説明した通りであるので、ここでの詳細な説明を省略する。また、図10において、S350、S450、およびS650についても、上記で図8を参照して説明した通りであるので、ここでの詳細な説明を省略する。
 まず、S100の処理が行われる。続いて、情報処理装置30の動き検出部356は、カメラ20から取得したイベントベースカメラにより得られる画像の画像データにおいて、動きの検出の処理を行う(S254)。続いて、S350およびS450の処理が行われる。
 次に、画像認識部354は、カメラ10から取得した画像データ上で特定された物体認識対象領域から、所定の物体の画像認識を行う(S554)。続いて、S650~S800の処理が行われる。
 (第九の動作例)
 以上、図10を参照して、本実施形態による情報処理システムの第八の動作例を説明した。続いて、第四の動作例と同様に、カメラ10がイベントベースカメラ、かつ、カメラ20がTOFカメラである場合の他の動作例を説明する。
 図11は、本実施形態による情報処理システムの第九の動作例を説明するフローチャート図である。なお、図11において、S100およびS800と、S704は、それぞれ、上記で図3と図4を参照して説明した通りであるので、ここでの詳細な説明を省略する。また、図11において、S350、S450、およびS650についても、上記で図8を参照して説明した通りであるので、ここでの詳細な説明を省略する。
 まず、S100の処理が行われる。続いて、情報処理装置30の動き検出部356は、カメラ20から取得したイベントベースカメラにより得られる画像の画像データにおいて、動きの検出の処理を行う(S256)。続いて、S350およびS450の処理が行われる。
 次に、画像認識部354は、カメラ10から取得した画像データ上で特定された物体認識対象領域から、所定の物体の画像認識を行う(S556)。続いて、S650~S800の処理が行われる。
 (第十の動作例)
 以上、図11を参照して、本実施形態による情報処理システムの第九の動作例を説明した。続いて、第五の動作例と同様に、カメラ10が複眼RGBカメラであり、かつ、カメラ20がTOFカメラである場合の他の動作例を説明する。図12は、本実施形態による情報処理システムの第十の動作例を説明するフローチャート図である。
 なお、図12において、S100、S700、および、S800は、上記で図3を参照して説明した通りであるので、ここでの詳細な説明を省略する。また、図12において、S350、S450、およびS650についても、上記で図9を参照して説明した通りであるので、ここでの詳細な説明を省略する。さらに、S252、および、S554についても、それぞれ、図9および図10を参照して上記説明した通りであるので、説明を省略する。
 まず、S100~S350の処理が行われる。動き検出部356により、カメラ20から取得された赤外線画像データから動きが検出された場合(S350/YES)、画像認識部354は、カメラ10から取得したRGB画像データ上で、上記赤外線画像データから動きが検出された領域に対応する領域を、物体認識対象領域として特定する。画像認識部354は、特定された当該物体認識対象領域から、所定の物体の画像認識を行う(S554)。続いて、S650~S800の処理が行われる。
 以上、図12を参照して、本実施形態による情報処理システムの第十の動作例を説明した。上記説明した第六の動作例~第十の動作例では、情報処理装置30の動き検出部356による動きの検出の処理が行われた後に、画像認識部354による画像認識が行われる例を説明した。また、第六の動作例~第十の動作例では、画像認識部354は、カメラ20により得られた画像データ上で動き検出部356により動きが検出された領域に基づいて、画像データ上で画像認識を行う対象領域を絞ってから、画像認識の処理を行う。この構成により、画像認識部354による画像認識にかかる処理負荷を低減することが出来る。さらに、情報処理装置30における消費電力の低減を見込むことが出来る。
 (第十一の動作例)
 続いて、図13を参照して、本実施形態による情報処理システムの第十一の動作例を説明する。本動作例は、ここまで説明した第一の動作例~第二の動作例とは、カメラ10、カメラ20、および、情報処理装置30の構成が次のように異なる。すなわち、情報処理装置30は、カメラ10により得られた画像データ、および、カメラ20により得られた画像データのそれぞれから、互いに種類が異なる所定の物体の画像認識の処理を行う。
 図13は、本実施形態による情報処理システムの第十一の動作例を説明するフローチャート図である。なお、図14において、S100、S700、および、S800の処理は、上記で図3を参照して説明した通りであるので、ここでの詳細な説明を省略する。
 まず、S100の処理が行われる。続いて、情報処理装置30の画像認識部354は、カメラ10により得られた画像データから、画像認識を行い、所定の物体を認識する(S290)。ここで、S290において画像認識部354により行われる画像認識の処理を、画像認識Aとする。また、本動作例では、画像認識部354により、画像認識Aにおいて、上記画像データから物体O2(ヘルメット)が認識されたとする。
 画像認識部354により、上記画像データから所定の物体が認識されなかった場合(S390/NO)、S100およびS290の処理が繰り返される。
 画像認識部354により、上記画像データから所定の物体が認識された場合(S390/YES)、画像認識部354は、カメラ20から得られた画像データから、画像認識Aにおいて認識された物体とは種類が異なる所定の物体を、画像認識により認識する(S490)。ここで、S490において画像認識部354により行われる画像認識の処理を、画像認識Bとする。また、本動作例では、画像認識部354により、画像認識Bにおいて、上記画像データから物体O4(反射ベスト)が認識されたとする。
 画像認識部354により、画像認識Bにおいて、画像認識Aで認識された所定の物体と異なる種類の所定の物体が認識された場合(S590/YES)、S700およびS800の処理が行われる。
 ここで、画像認識Aで認識された所定の物体と異なる種類の所定の物体とは、一人の作業員が同時に装着または把持する可能性があり、かつ、画像認識Aで認識された物体とは異なる種類の物体であることが望ましい。例えば、画像認識Aでヘルメットが認識された場合には、画像認識Bでは、ヘルメットを既に装着している作業員が、他に把持または装着する可能性のある物体が認識されることが望ましい。例えば、当該物体は、誘導棒等の各種土木作業の道具、反射ベスト等の他の作業員の装備品であってもよい。
 画像認識部354により、画像認識Bにおいて、画像認識Aで認識された所定の物体と異なる種類の所定の物体が認識されなかった場合(S590/NO)、情報処理装置30は、S100~S490の処理を繰り返す。
 以上、図13を参照して、本実施形態による情報処理システムの第十一の動作例を説明した。上記説明したように、本動作例では、画像認識部354による画像認識において、予め学習部352により学習された所定の物体のうち、互いに種類が異なる2の所定の物体が認識された場合に、物体検出部358が検出情報を出力する。換言すれば、物体検出部358は、所定の物体のうち一つの物体が認識されただけでは、検出情報を出力しない。本動作例では、作業員U1が装着している物体O2(ヘルメット)、および、物体O4(反射ベスト)の2つの所定の物体が認識されたことに基づいて、物体検出部358が、検出情報を出力制御部359に出力する。この構成により、例えば画像認識部354による画像認識において、物体O2(ヘルメット)等の所定の物体が認識されたことに基づいて物体検出部358が間接的に人を検出する場合に、物体検出部358による人の検出精度を向上させることが出来る。
 また、第十一の動作例におけるS590において、物体検出部358は、画像認識Aと画像認識Bとでそれぞれ認識された所定の物体の位置が所定の条件を満たすか否かを検出してもよい。この場合、物体検出部358は、上記位置が所定の条件を満たしている場合にのみ、出力制御部359に検出情報を出力してもよい。所定の条件とは、例えば、互いに種類が異なる物体Oが、同一の人に同時に把持または装着されている場合の位置関係を満たしていることであってもよい。例えば、作業員U1が物体O2(ヘルメット)を装着し、かつ、物体O3(LED誘導棒)を把持している場合、物体O2(ヘルメット)と物体O3(LED誘導棒)の位置関係は、物体O2(ヘルメット)の方が物体O3(LED誘導棒)よりも相対的に高度が高い位置にある場合が多いと推定される。従って、物体検出部358は、画像認識Aと画像認識Bでそれぞれ認識された所定の物体の種類に応じて、当該所定の物体の高度を比較することにより、上記所定の条件が満たされているかを検出してもよい。この構成により、ヘルメット等の人の装着品および誘導棒等の土木作業道具から、画像認識により間接的に人を検出する際の精度を、さらに向上させることが出来る。
 <4.変形例>
 以上、図3~図14を参照して、本実施形態による情報処理システムの動作例を説明した。なお、本実施形態による情報処理システムは、下記に説明する変形例に沿って動作することもできる。以下、このような変形例を説明する。
 (第一の変形例)
 第一の変形例では、本実施形態による情報処理装置30は、画像認識部354による画像認識の処理を行った後、カメラ20より得られた画像データ上の、画像認識部354により認識された所定の物体に対応する領域を、動き検出対象領域として絞り込む。そして、動き検出部356は、当該動き検出対象領域における動きを検出する。
 図14は、本実施形態による情報処理システムの動作の第一の変形例を説明するフローチャート図である。なお、図14において、S100、S200、S300、S500、S700、および、S800は、上記で図3を参照して説明した通りであるので、ここでの詳細な説明を省略する。
 まず、S100~S300の処理が行われる。続いて、画像認識部354により、カメラ10から取得された画像データにおいて所定の物体が認識された場合(S300/YES)、動き検出部356は、カメラ20から取得した画像データ上で、画像認識部354により認識された所定の物体に対応する領域を、動き検出対象領域として特定する(S310)。
 動き検出部356は、特定された動き検出対象領域において、動きを検出する(S410)。続いて、S500~S800の処理が行われる。
 以上、図14を参照して、第一の変形例を説明した。本変形例では、動き検出部356は、画像データ上で動きを検出する対象領域を、画像認識部354による画像認識の結果に基づいて絞り込む。そして、動き検出部356は、絞り込んだ動き検出対象領域の範囲で動きの検出を行う。この構成により、動き検出部356による動きの検出の処理に係る負荷を低減することができる。また、情報処理装置30の消費電力の低減を見込むことが出来る。また、上記変形例は、第一の動作例~第五の動作例に組み入れて実施することが可能である。
 さらに、上記説明した第一の変形例に、動き検出部356による動きの検出の処理を組み合わせることも可能である。より具体的には、図14に示したS700の処理の前に、動き検出部356が、カメラ10またはカメラ20により得られた画像データ上で、画像認識Aおよび画像認識Bで認識された異なる種類の所定の物体に対応する領域から動きを検出してもよい。物体検出部358は、動き検出部356により当該領域から動きが検出された場合に、出力制御部359に検出情報を出力してもよい。この構成により、情報処理装置30による画像認識を用いた人の検出の精度を、さらに向上させることが出来る。
 (第二の変形例)
 続いて、第二の変形例を説明する。第二の変形例では、情報処理装置30は、画像認識部354による画像認識処理および動き検出部356による動きの検出の処理を並列して実行する。
図15は、本実施形態による情報処理システムの動作の第二の変形例を説明するフローチャート図である。なお、図15において、S100、S700、および、S800は、上記で図3を参照して説明した通りであるので、ここでの詳細な説明を省略する。
 まず、S100の処理が行われる。続いて、S100においてカメラ10およびカメラ20から取得された画像データを用いて、動き検出部356による動きの検出の処理(S281)、および、画像認識部354による画像認識の処理(S282)が並列して実行される。
 S281において動き検出部356により動きが検出され、かつ、S282において画像認識部354により所定の物体が認識された場合(S480/YES)、S700およびS800の処理が行われる。
 S281において動き検出部356により動きが検出されない、または、S282において画像認識部354により所定の物体が認識されなかった場合(S480/NO)、S100、S281、S282の処理が繰り返される。
 以上、図15を参照して、本実施形態による情報処理システムの動作の第二の変形例を説明した。上記説明したように、本動作例では、画像認識部354による画像認識の処理と、動き検出部356による動きの検出の処理が、並列して実行される。この構成により、画像認識部354によってカメラ10から得られた画像データ上で所定の物体が検出され、また、動き検出部356によってカメラ20から得られた画像データ上で動きが検出されてから、物体検出部358により検出の結果が出力されるまでのレイテンシを低減することが出来る。本変形例は、上記説明した第一の動作例~第十一の動作例、および、第一の変形例に適用することが可能である。
 (システム構成の変形例)
 なお、本実施形態による情報処理装置30は、図1に示した例では、工事現場の事務所等に設置され、カメラ10およびカメラ20とローカルネットワーク5により通信可能に構成されているとした。しかし、本実施形態による情報処理システムは、他のシステム構成を採る事も出来る。例えば、情報処理装置30による画像認識の処理、動きの検出の処理、および、検出情報の出力の処理を、情報処理装置30と通信可能に構成されたローカルネットワーク外のエッジサーバ、または、クラウドサーバが行ってもよい。情報処理装置30は、当該エッジサーバ、または、クラウドサーバから処理結果を受信し、当該処理結果に基づいて、出力装置40への物体検出結果の出力制御を行ってもよい。
 図16は、本実施形態による情報処理システムの構成の変形例を説明する説明図である。図16において、作業員U、物体O、カメラ10、カメラ20、出力装置40、および、建設機械M1は、図1を参照して上記で説明した通りであるので、ここでの詳細な説明を省略する。
 図16に示したように、本変形例による情報処理システムは、エッジサーバ50、および、クラウドサーバ60を含む。エッジサーバ50は、情報処理装置30と基地局6を介して通信可能に構成されている。また、クラウドサーバ60は、情報処理装置30およびエッジサーバ50と、基地局6およびネットワーク7を介して通信可能に構成されている。
 本変形例では、情報処理装置30は、カメラ10およびカメラ20から取得した画像データをエッジサーバ50またはクラウドサーバ60に送信する中継サーバとして機能する。さらに、情報処理装置30は、エッジサーバ50またはクラウドサーバ60から受信した画像認識処理、動き検出の処理、または、検出情報に従って、出力装置40に物体検出結果を出力させる制御を行う。
 エッジサーバ50は、カメラ10、カメラ20、および情報処理装置30が属するローカルネットワーク外に設置され、基地局6を介して情報処理装置30と通信を行うサーバである。エッジサーバ50は、情報処理装置30の画像認識部354、および、動き検出部356と同等の機能を有していてもよい。例えば、エッジサーバ50は、情報処理装置30から受信したカメラ10の画像データから、画像認識により所定の物体を認識する処理を行ってもよい。また、エッジサーバ50は、カメラ20から取得した画像データから、動きの検出の処理を行ってもよい。さらに、エッジサーバ50は、画像認識の処理の結果、および、動きの検出の処理の結果を、ネットワーク7を介してクラウドサーバ60に送信してもよい。
 クラウドサーバ60は、情報処理装置30およびエッジサーバ50と、基地局6およびネットワーク7を介して通信可能に構成されたクラウドサーバである。クラウドサーバ60は、情報処理装置30の物体検出部358と同等の機能を有していてもよい。例えば、クラウドサーバ60は、エッジサーバ50から画像認識の処理の結果、および、動きの検出の処理の結果を受信して、検出情報を出力してもよい。クラウドサーバ60は、当該検出情報を情報処理装置30に送信してもよい。
 あるいは、エッジサーバ50が、上記画像認識の処理、動きの検出の処理、および、検出情報の出力の処理を行って、処理の結果を情報処理装置30に送信してもよい。
 上記説明したようなシステム構成によれば、情報処理装置30の画像認識部354による画像認識の処理、動き検出部356による動きの検出の処理、および、物体検出部358による検出情報の出力の処理が、情報処理装置30、エッジサーバ50およびクラウドサーバ60により分散して実行される。このような変形例は、本実施形態による情報処理システムが出力する物体検出結果の利用目的に応じた望ましいレイテンシが確保できる場合に採用され得る。このような変形例により、本開示による情報処理システムの利用者は、本情報処理システムを構成するために導入可能なハードウェア資源に応じて、柔軟にシステム構成を行うことが出来る。
 <5.ハードウェア構成例>
 以上、本開示の一実施形態を説明した。上述した、情報処理装置30による、画像認識の処理、画像データからの動きの検出の処理、画像データ上で所定の物体が認識された領域と動きが検出された領域の対応の検出の処理、および、検出情報の出力の処理は、ソフトウェアと、情報処理装置30のハードウェアとの協働により実現される。以下では、本開示の実施形態による情報処理装置30のハードウェア構成例について説明する。なお、カメラ10、カメラ20、エッジサーバ50、および、クラウドサーバ60のハードウェア構成も、情報処理装置30のハードウェア構成と同様に実現され得る。
 カメラ10、カメラ20、情報処理装置30、エッジサーバ50、および、クラウドサーバ60による処理は、1または複数の情報処理装置により実現され得る。図17は、本開示による情報処理装置30のハードウェア構成例を示すブロック図である。なお、以下に説明する情報処理装置30のハードウェア構成例は、情報処理装置30、エッジサーバ50、およびクラウドサーバ60のハードウェア構成の一例に過ぎない。したがって、カメラ10、カメラ20、情報処理装置30、エッジサーバ50、およびクラウドサーバ60は、それぞれ、必ずしも図17に示したハードウェア構成の全部を有している必要はない。また、カメラ10、カメラ20、情報処理装置30、エッジサーバ50、またはクラウドサーバ60の中に、図17に示したハードウェア構成の一部が存在しなくてもよい。
 図17に示すように、情報処理装置900は、CPU901、ROM(Read Only Memory)903、およびRAM905を含む。また、情報処理装置900は、ホストバス907、ブリッジ909、外部バス911、インターフェース913、入力装置915、出力装置917、ストレージ装置919、ドライブ921、接続ポート923、通信装置925を含んでもよい。情報処理装置900は、CPU901に代えて、またはこれとともに、GPU(Graphics Processing Unit)、DSP(Digital Signal Processor)またはASIC(Application Specific Integrated Circuit)と呼ばれるような処理回路を有してもよい。
 CPU901は、演算処理装置および制御装置として機能し、ROM903、RAM905、ストレージ装置919、またはリムーバブル記録媒体927に記録された各種プログラムに従って、情報処理装置900内の動作全般またはその一部を制御する。ROM903は、CPU901が使用するプログラムや演算パラメータなどを記憶する。RAM905は、CPU901の実行において使用するプログラムや、その実行において適宜変化するパラメータなどを一時的に記憶する。CPU901、ROM903、およびRAM905は、CPUバスなどの内部バスにより構成されるホストバス907により相互に接続されている。さらに、ホストバス907は、ブリッジ909を介して、PCI(Peripheral Component Interconnect/Interface)バスなどの外部バス911に接続されている。
 入力装置915は、例えば、ボタンなど、ユーザによって操作される装置である。入力装置915は、マウス、キーボード、タッチパネル、スイッチおよびレバーなどを含んでもよい。また、入力装置915は、ユーザの音声を検出するマイクロフォンを含んでもよい。入力装置915は、例えば、赤外線やその他の電波を利用したリモートコントロール装置であってもよいし、情報処理装置900の操作に対応した携帯電話などの外部接続機器929であってもよい。入力装置915は、ユーザが入力した情報に基づいて入力信号を生成してCPU901に出力する入力制御回路を含む。ユーザは、この入力装置915を操作することによって、情報処理装置900に対して各種のデータを入力したり処理動作を指示したりする。
 また、入力装置915は、撮像装置、およびセンサを含んでもよい。撮像装置は、例えば、CCD(Charge Coupled Device)またはCMOS(Complementary Metal Oxide Semiconductor)などの撮像素子、および撮像素子への被写体像の結像を制御するためのレンズなどの各種の部材を用いて実空間を撮像し、撮像画像を生成する装置である。撮像装置は、静止画を撮像するものであってもよいし、また動画を撮像するものであってもよい。
 センサは、例えば、測距センサ、加速度センサ、ジャイロセンサ、地磁気センサ、振動センサ、光センサ、音センサなどの各種のセンサである。センサは、例えば情報処理装置900の筐体の姿勢など、情報処理装置900自体の状態に関する情報や、情報処理装置900の周辺の明るさや騒音など、情報処理装置900の周辺環境に関する情報を取得する。また、センサは、GPS(Global Positioning System)信号を受信して装置の緯度、経度および高度を測定するGPSセンサを含んでもよい。
 出力装置917は、取得した情報をユーザに対して視覚的または聴覚的に通知することが可能な装置で構成される。出力装置917は、例えば、LCD(Liquid Crystal Display)、有機EL(Electro-Luminescence)ディスプレイなどの表示装置、スピーカおよびヘッドホンなどの音出力装置などであり得る。また、出力装置917は、PDP(Plasma Display Panel)、プロジェクター、ホログラム、プリンタ装置などを含んでもよい。出力装置917は、情報処理装置900の処理により得られた結果を、テキストまたは画像などの映像として出力したり、音声または音響などの音として出力したりする。また、出力装置917は、周囲を明るくする照明装置などを含んでもよい。
 ストレージ装置919は、情報処理装置900の記憶部の一例として構成されたデータ格納用の装置である。ストレージ装置919は、例えば、HDD(Hard Disk Drive)などの磁気記憶デバイス、半導体記憶デバイス、光記憶デバイス、または光磁気記憶デバイスなどにより構成される。このストレージ装置919は、CPU901が実行するプログラムや各種データ、および外部から取得した各種のデータなどを格納する。
 ドライブ921は、磁気ディスク、光ディスク、光磁気ディスク、または半導体メモリなどのリムーバブル記録媒体927のためのリーダライタであり、情報処理装置900に内蔵、あるいは外付けされる。ドライブ921は、装着されているリムーバブル記録媒体927に記録されている情報を読み出して、RAM905に出力する。また、ドライブ921は、装着されているリムーバブル記録媒体927に記録を書き込む。
 接続ポート923は、機器を情報処理装置900に直接接続するためのポートである。接続ポート923は、例えば、USB(Universal Serial Bus)ポート、IEEE1394ポート、SCSI(Small Computer System Interface)ポートなどであり得る。また、接続ポート923は、RS-232Cポート、光オーディオ端子、HDMI(登録商標)(High-Definition Multimedia Interface)ポートなどであってもよい。接続ポート923に外部接続機器929を接続することで、情報処理装置900と外部接続機器929との間で各種のデータが交換され得る。
 通信装置925は、例えば、ローカルネットワーク5、または、基地局6との通信ネットワークに接続するための通信デバイスなどで構成された通信インターフェースである。通信装置925は、例えば、有線または無線LAN(Local Area Network)、Bluetooth(登録商標)、Wi-Fi(登録商標)、またはWUSB(Wireless USB)用の通信カードなどであり得る。また、通信装置925は、光通信用のルータ、ADSL(Asymmetric Digital Subscriber Line)用のルータ、または、各種通信用のモデムなどであってもよい。通信装置925は、例えば、インターネットや他の通信機器との間で、TCP/IPなどの所定のプロトコルを用いて信号などを送受信する。また、通信装置925に接続されるローカルネットワーク5または基地局6との通信ネットワークは、有線または無線によって接続されたネットワークであり、例えば、インターネット、家庭内LAN、赤外線通信、ラジオ波通信または衛星通信などである。
 <6.むすび>
 以上、添付図面を参照しながら本開示の好適な実施形態について詳細に説明したが、本開示はかかる例に限定されない。本開示の属する技術の分野における通常の知識を有する者であれば、請求の範囲に記載された技術的思想の範疇内において、各種の変更例または修正例に想到し得ることは明らかであり、これらについても、当然に本開示の技術的範囲に属するものと了解される。
 例えば、上記実施形態では、カメラ10およびカメラ20は、土木建設作業の工事現場等に設置されるセンサである例を説明したが、本開示はかかる例に限定されない。例えば、カメラ10およびカメラ20は、人が身体に装着してハンズフリーで撮影を行うことが可能な、軽量小型ビデオカメラであってもよい。この場合、作業員Uが装着しているビデオカメラにより撮像された画像データを用いて、情報処理装置30による画像認識および動きの検出が行われてもよい。
 また、上記実施形態では、カメラ10、カメラ20、および、情報処理装置30が別の装置である例を説明したが、本開示はかかる例に限定されない。例えば、情報処理装置30は、カメラ10またはカメラ20のいずれか、あるいは両方に内蔵されていてもよい。または、カメラ10、カメラ20、および、情報処理装置30が、同一の装置上で実現されていてもよい。この場合、カメラ10またはカメラ20による画像データの取得が行われてから、当該画像データからの画像認識および動きの検出が行われるまでの遅延を低減することが出来る。
 また、上記実施形態では、教師データ記憶部330および学習データ記憶部340が情報処理装置30内の構成である例を示したが、本開示は係る例に限定されない。例えば、教師データ記憶部330および学習データ記憶部340は、情報処理装置30と通信可能に構成された外部記憶装置として実現されてもよい。または、教師データ記憶部330および学習データ記憶部340は、情報処理装置30と通信可能に構成されたサーバ上で実現されてもよく、エッジサーバ50、または、クラウドサーバ60上で実現されてもよい。この場合、情報処理装置30の学習部352および画像認識部354は、基地局6およびネットワーク7を介してエッジサーバ50およびクラウドサーバ60上で実現された教師データ記憶部330または学習データ記憶部340を更新または参照してもよい。
 また、上記実施形態では、センサ20にイベントベースカメラが採用された場合の動作例として、センサ10には複眼RGBカメラまたはTOFカメラが採用される例を説明した。しかし、本実施形態による情報処理システムに含まれるセンサが、イベントベースカメラであるカメラ10の1台のみで構成されることも可能である。この場合、画像認識部354は、イベントベースカメラにより撮像された画像データを教師データとして学習を行うことにより作成されたモデルを用いて、画像認識を行う。この構成では、教師データとなる画像データのサンプルを十分に確保することが出来れば、1台のイベントベースカメラで、画像認識に用いられる画像データの取得および動きの検出を同時に行うことが出来る。従って、出力制御部359により出力される物体検出結果を用いて、建設機械の自動制御または警報器からの警報の出力等の処理を行いたい場合に、レイテンシの低減を見込むことが出来る。また、情報処理装置30側での、動きの検出の処理負荷が軽減され、情報処理装置30での消費電力の低減も見込むことが出来る。
 また、カメラ10およびカメラ20は、異なる2台のイベントベースカメラにより構成されてもよい。この場合、カメラ10およびカメラ20は、設置位置、向き、および画角が、物体検出部358による領域の対応の検出において同一と見做せる程度に、近似していることが望ましい。
 さらに、上記実施形態では、本開示による情報処理システムの好適な実施形態として、土木建設作業等の工事現場で利用される実施例を説明したが、本開示はかかる例に限定されない。例えば、本開示による情報処理システムは、飛行場または飛行機の整備場等に適用されてもよい。または、本開示による情報処理システムは、製造業の工場等に適用されてもよい。さらに、本開示による情報処理システムは、作業員の様子をカメラ等のセンサで撮像し、撮像された画像データから画像認識により作業員を検出したい場合に、上記例示以外の他の場面にも適用し得る。例えば、飛行場または飛行機の整備場では、作業員が飛行機の側で整備作業を行うので、当該飛行場または整備場の様子を撮像した画像データ上で、作業員の体の一部または全部が飛行機等の陰に隠れてしまい見えなくなることが想定される。しかし、作業員がヘルメットまたは反射ベスト等の装備品等を装着していれば、本開示による情報処理システムを用いて、上記画像データから上記作業員を精度よく検出することが出来る。
 また、本実施形態によるカメラ10、カメラ20、および、情報処理装置30の動作の処理におけるステップは、必ずしも説明図として記載された順序に沿って時系列に処理する必要はない。例えば、カメラ10、カメラ20、および、情報処理装置30の動作の処理における各ステップは、説明図として記載した順序と異なる順序で処理されてもよく、並列的に処理されてもよい。
 また、上述した情報処理装置900に内蔵されるCPU、ROMおよびRAMなどのハードウェアに、本実施形態による情報処理システムの機能を発揮させるための1以上のコンピュータプログラムも作成可能である。また、当該1以上のコンピュータプログラムを記憶させたコンピュータ読み取り可能な記憶媒体も提供される。
 また、本明細書に記載された効果は、あくまで説明的または例示的なものであって限定的ではない。つまり、本開示に係る技術は、上記の効果とともに、または上記の効果に代えて、本明細書の記載から当業者には明らかな他の効果を奏しうる。
 なお、本技術は以下のような構成も取ることができる。
(1)
 画像データから物体を認識する画像認識部と、
 センサにより取得されたセンシングデータにおける動きを検出する動き検出部と、
 所定の物体であることが前記画像認識部により認識され、かつ、前記動き検出部により動きが検出された領域に対応する物体を検出する物体検出部と、
を備える、情報処理装置。
(2)
 前記動き検出部は、前記センシングデータにおいて、前記画像認識部により認識された前記所定の物体に対応する領域を動き検出対象領域として特定し、
 前記動き検出対象領域における動きを検出する、
前記(1)に記載の情報処理装置。
(3)
 前記画像認識部は、前記画像データにおいて、前記動き検出部による動きの検出結果に基づいて物体認識対象領域を特定し、
 前記物体認識対象領域から物体を認識する、
前記(1)に記載の情報処理装置。
(4)
 前記画像認識部は、前記動き検出部による前記センシングデータにおける動きの検出処理の実行と並列して、前記画像データから物体を認識する処理を実行する、
前記(1)に記載の情報処理装置。
(5)
 前記画像データおよび前記センシングデータは、同一のカメラにより得られる同一種類のデータである、
前記(1)~(4)のいずれか一項に記載の情報処理装置。
(6)
 前記画像データおよび前記センシングデータは、近赤外線を利用したTOFカメラにより得られる赤外線画像データである、
前記(5)に記載の情報処理装置。
(7)
 前記画像データおよび前記センシングデータは、可視光を利用したカメラにより得られた色情報を含む画像データ、または、画素ごとの輝度変化を検出するイベントベース方式のセンサにより得られた画像データである、
前記(5)に記載の情報処理装置。
(8)
 前記画像データおよび前記センシングデータは、異なるカメラにより得られる種類が異なるデータである、
前記(1)~(4)のいずれか一項に記載の情報処理装置。
(9)
 前記画像データは、可視光を利用したカメラにより得られた色情報を含む画像データであり、
前記センシングデータは、近赤外線を利用したTOFカメラにより得られる赤外線画像データである、
前記(8)に記載の情報処理装置。
(10)
 前記画像データは、可視光を利用したカメラにより得られた色情報を含む画像データ、近赤外線を利用したTOFカメラにより得られる赤外線画像データ、または、画素ごとの輝度変化を検出するイベントベース方式のセンサにより得られた画像データのいずれかであり、
 前記センシングデータは、可視光を利用したカメラにより得られた色情報を含む画像データ、近赤外線を利用したTOFカメラにより得られる赤外線画像データ、または、画素ごとの輝度変化を検出するイベントベース方式のセンサにより得られた画像データのいずれかである、
前記(8)に記載の情報処理装置。
(11)
 前記物体検出部による検出の結果に基づいて、前記所定の物体が検出されたか否かを示す情報、前記所定の物体の位置、または、前記所定の物体と所定の基準点からの距離情報の少なくともいずれか1つ以上を含む、物体検出結果を出力する出力部、
をさらに備える、前記(1)~(9)のいずれか一項に記載の情報処理装置。
(12)
 画像データから物体を認識する画像認識部と、
 互いに種類が異なる所定の物体であることが前記画像認識部により認識された複数の物体を検出する物体検出部と、
を備える、情報処理装置。
(13)
 センサにより取得されたセンシングデータにおける動きを検出する動き検出部をさらに備え、
 前記物体検出部は、互いに種類が異なる所定の物体であることが前記画像認識部により認識され、かつ、前記動き検出部により動きが検出された領域に対応する1以上の物体を検出する、
前記(12)に記載の情報処理装置。
(14)
 前記所定の物体は、人により把持または装着される物体であり、
 前記画像認識部は、前記所定の物体の画像データ、前記所定の物体が人により把持または装着されている様子の画像データ、および、前記所定の物体を把持および装着していない人の画像データを、機械学習を用いて学習し、
 前記学習の結果作成されたモデルを用いて、画像データから物体を認識する、
前記(1)~(13)のいずれか一項に記載の情報処理装置。
(15)
 前記所定の物体は、発光部、または、光を再帰性反射する部材により構成された物体を含む、
前記(13)に記載の情報処理装置。
(16)
 コンピュータを、
 画像データから物体を認識する画像認識部と、
 センサにより取得されたセンシングデータにおける動きを検出する動き検出部と、
 所定の物体であることが前記画像認識部により認識され、かつ、前記動き検出部により動きが検出された領域に対応する物体を検出する物体検出部
として機能させるためのプログラム。
 5 ローカルネットワーク
 6 基地局
 7 ネットワーク
 10 カメラ
 20 カメラ
 30 情報処理装置
  310 取得部
  320 制御情報記憶部
  330 教師データ記憶部
  340 学習データ記憶部
  350 制御部
  352 学習部
  354 画像認識部
  356 動き検出部
  358 物体検出部
  359 出力制御部
  360 操作部
 40 出力装置
 50 エッジサーバ
 60 クラウドサーバ
 O 物体
 U 作業員

Claims (16)

  1.  画像データから物体を認識する画像認識部と、
     センサにより取得されたセンシングデータにおける動きを検出する動き検出部と、
     所定の物体であることが前記画像認識部により認識され、かつ、前記動き検出部により動きが検出された領域に対応する物体を検出する物体検出部と、
    を備える、情報処理装置。
  2.  前記動き検出部は、前記センシングデータにおいて、前記画像認識部により認識された前記所定の物体に対応する領域を動き検出対象領域として特定し、
     前記動き検出対象領域における動きを検出する、
    請求項1に記載の情報処理装置。
  3.  前記画像認識部は、前記画像データにおいて、前記動き検出部による動きの検出結果に基づいて物体認識対象領域を特定し、
     前記物体認識対象領域から物体を認識する、
    請求項1に記載の情報処理装置。
  4.  前記画像認識部は、前記動き検出部による前記センシングデータにおける動きの検出処理の実行と並列して、前記画像データから物体を認識する処理を実行する、
    請求項1に記載の情報処理装置。
  5.  前記画像データおよび前記センシングデータは、同一のカメラにより得られる同一種類のデータである、
    請求項1に記載の情報処理装置。
  6.  前記画像データおよび前記センシングデータは、近赤外線を利用したTOFカメラにより得られる赤外線画像データである、
    請求項5に記載の情報処理装置。
  7.  前記画像データおよび前記センシングデータは、可視光を利用したカメラにより得られた色情報を含む画像データ、または、画素ごとの輝度変化を検出するイベントベース方式のセンサにより得られた画像データである、
    請求項5に記載の情報処理装置。
  8.  前記画像データおよび前記センシングデータは、異なるカメラにより得られる種類が異なるデータである、
    請求項1に記載の情報処理装置。
  9.  前記画像データは、可視光を利用したカメラにより得られた色情報を含む画像データであり、
    前記センシングデータは、近赤外線を利用したTOFカメラにより得られる赤外線画像データである、
    請求項8に記載の情報処理装置。
  10.  前記画像データは、可視光を利用したカメラにより得られた色情報を含む画像データ、近赤外線を利用したTOFカメラにより得られる赤外線画像データ、または、画素ごとの輝度変化を検出するイベントベース方式のセンサにより得られた画像データのいずれかであり、
     前記センシングデータは、可視光を利用したカメラにより得られた色情報を含む画像データ、近赤外線を利用したTOFカメラにより得られる赤外線画像データ、または、画素ごとの輝度変化を検出するイベントベース方式のセンサにより得られた画像データのいずれかである、
    請求項8に記載の情報処理装置。
  11.  前記物体検出部による検出の結果に基づいて、前記所定の物体が検出されたか否かを示す情報、前記所定の物体の位置、または、前記所定の物体と所定の基準点からの距離情報の少なくともいずれか1つ以上を含む、物体検出結果を出力する出力部、
    をさらに備える、請求項1に記載の情報処理装置。
  12.  画像データから物体を認識する画像認識部と、
     互いに種類が異なる所定の物体であることが前記画像認識部により認識された複数の物体を検出する物体検出部と、
    を備える、情報処理装置。
  13.  センサにより取得されたセンシングデータにおける動きを検出する動き検出部をさらに備え、
     前記物体検出部は、互いに種類が異なる所定の物体であることが前記画像認識部により認識され、かつ、前記動き検出部により動きが検出された領域に対応する1以上の物体を検出する、
    請求項12に記載の情報処理装置。
  14.  前記所定の物体は、人により把持または装着される物体であり、
     前記画像認識部は、前記所定の物体の画像データ、前記所定の物体が人により把持または装着されている様子の画像データ、および、前記所定の物体を把持および装着していない人の画像データを、機械学習を用いて学習し、
     前記学習の結果作成されたモデルを用いて、画像データから物体を認識する、
    請求項1に記載の情報処理装置。
  15.  前記所定の物体は、発光部、または、光を再帰性反射する部材により構成された物体を含む、
    請求項13に記載の情報処理装置。
  16.  コンピュータを、
     画像データから物体を認識する画像認識部と、
     センサにより取得されたセンシングデータにおける動きを検出する動き検出部と、
     所定の物体であることが前記画像認識部により認識され、かつ、前記動き検出部により動きが検出された領域に対応する物体を検出する物体検出部
    として機能させるためのプログラム。
PCT/JP2023/000177 2022-02-28 2023-01-06 情報処理装置及びプログラム WO2023162484A1 (ja)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
JP2022029411 2022-02-28
JP2022-029411 2022-02-28

Publications (1)

Publication Number Publication Date
WO2023162484A1 true WO2023162484A1 (ja) 2023-08-31

Family

ID=87765374

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/JP2023/000177 WO2023162484A1 (ja) 2022-02-28 2023-01-06 情報処理装置及びプログラム

Country Status (1)

Country Link
WO (1) WO2023162484A1 (ja)

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2006330936A (ja) * 2005-05-24 2006-12-07 Matsushita Electric Works Ltd 顔認証装置
WO2020100664A1 (ja) * 2018-11-13 2020-05-22 ソニー株式会社 画像処理装置、画像処理方法、およびプログラム
WO2020152851A1 (ja) * 2019-01-25 2020-07-30 株式会社 テクノミライ デジタルサーチ・セキュリティシステム、方法及びプログラム
WO2021177183A1 (ja) * 2020-03-05 2021-09-10 日本電気株式会社 監視装置、監視システム、監視方法およびプログラム記録媒体

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2006330936A (ja) * 2005-05-24 2006-12-07 Matsushita Electric Works Ltd 顔認証装置
WO2020100664A1 (ja) * 2018-11-13 2020-05-22 ソニー株式会社 画像処理装置、画像処理方法、およびプログラム
WO2020152851A1 (ja) * 2019-01-25 2020-07-30 株式会社 テクノミライ デジタルサーチ・セキュリティシステム、方法及びプログラム
WO2021177183A1 (ja) * 2020-03-05 2021-09-10 日本電気株式会社 監視装置、監視システム、監視方法およびプログラム記録媒体

Similar Documents

Publication Publication Date Title
JP6525229B1 (ja) デジタルサーチ・セキュリティシステム、方法及びプログラム
JP4478510B2 (ja) カメラシステム、カメラ、及びカメラの制御方法
KR101766305B1 (ko) 침입 탐지 장치
US8731276B2 (en) Motion space presentation device and motion space presentation method
CN106341661B (zh) 巡逻机器人
CN204465738U (zh) 一种救灾救援可视系统
US20190132557A1 (en) Video surveillance system with aerial camera device
KR20210053534A (ko) 딥러닝기반 행동인식장치 및 그 장치의 구동방법
WO2021095351A1 (ja) 監視装置、監視方法、及びプログラム
JP4303087B2 (ja) データ信号の送信方法と受信方法及びその装置、システム、プログラム並びに記録媒体
US11501619B2 (en) Worksite classification system and method
KR102190743B1 (ko) 로봇과 인터랙션하는 증강현실 서비스 제공 장치 및 방법
Fawzi et al. Embedded real-time video surveillance system based on multi-sensor and visual tracking
JP6380647B2 (ja) 情報提供方法、情報提供プログラム、情報提供装置、情報処理装置及び情報提供システム
KR20190050113A (ko) 이동 물체 자동 추적 영상 감시 시스템
WO2023162484A1 (ja) 情報処理装置及びプログラム
KR101780929B1 (ko) 움직이는 물체를 추적하는 영상감시 시스템
CN111736596A (zh) 有手势控制功能的车辆、车辆的手势控制方法和存储介质
Darwante et al. Hybrid Model for Robotic Surveillance using Advance Computing Techniques with IoT
JP2004291186A (ja) ロボット制御方法、ロボット制御システム、これらに用いて好適なロボット及び制御装置
JP2020077898A (ja) 画像処理装置および画像処理方法
KR102468685B1 (ko) 가상현실 기반의 작업현장 안전관리장치 및 그 장치의 구동방법
CN110807345A (zh) 建筑物疏散方法和建筑物疏散系统
WO2017029886A1 (ja) 情報処理装置、情報処理方法、およびプログラム
JP2021060784A (ja) 物体検知装置、システム、方法、及びプログラム

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 23759490

Country of ref document: EP

Kind code of ref document: A1