WO2023162484A1

WO2023162484A1 - 情報処理装置及びプログラム

Info

Publication number: WO2023162484A1
Application number: PCT/JP2023/000177
Authority: WO
Inventors: 佑史松井; 翔西田
Original assignee: ソニーセミコンダクタソリューションズ株式会社; ソニーグループ株式会社
Priority date: 2022-02-28
Filing date: 2023-01-06
Publication date: 2023-08-31

Abstract

【課題】画像データから認識された所定の物体の扱いを状況に応じて区別することが可能な、新規かつ改良された技術を提供する。【解決手段】画像データから物体を認識する画像認識部と、センサにより取得されたセンシングデータにおける動きを検出する動き検出部と、所定の物体であることが前記画像認識部により認識され、かつ、前記動き検出部により動きが検出された領域に対応する物体を検出する物体検出部と、を備える、情報処理装置。

Description

情報処理装置及びプログラム

　本発明は、情報処理装置及びプログラムに関する。

　近年、土木建設現場等において、作業の監視、または、人が建設機械等に接触して事故が発生することを防ぐ目的で、画像認識を用いた人検知の技術が利用されている。例えば、特許文献１には、画像認識を行い、静止画像内の人物画像またはヘルメット画像を認識することにより、人と建設機械との接触を回避する監視システムが開示されている。上記技術によれば、静止画像内に人物画像またはヘルメット画像が認識された場合には、当該人物画像または当該ヘルメット画像と建設機械に取り付けられた撮像装置との接近距離に基づき、警告の出力または建設機械の動作停止処理が行われる。

特開２０１９－１５７４９７号公報

　しかし、上記技術では、当該ヘルメットのような所定の物体が地面等に置かれているのか、あるいは、当該ヘルメットを人が装着しているのかが区別されない。そのため、地面等に置かれているヘルメットが静止画像内に認識された場合、実際には人が建設機械に接近していなくても、警告が出力される、または、建設機械の動作が停止されてしまうという問題があった。

　そこで、本発明は、上記問題に鑑みてなされたものであり、本発明の目的とするところは、画像データから認識された所定の物体の扱いを状況に応じて区別することが可能な、新規かつ改良された技術を提供することにある。

　上記課題を解決するために、本発明のある観点によれば、画像データから物体を認識する画像認識部と、センサにより取得されたセンシングデータにおける動きを検出する動き検出部と、所定の物体であることが前記画像認識部により認識され、かつ、前記動き検出部により動きが検出された領域に対応する物体を検出する物体検出部と、を備える、情報処理装置が提供される。

　また、本開示によれば、画像データから物体を認識する画像認識部と、互いに種類が異なる所定の物体であることが前記画像認識部により認識された複数の物体を検出する物体検出部と、を備える、情報処理装置が提供される。

　また、本開示によれば、コンピュータを、画像データから物体を認識する画像認識部と、センサにより取得されたセンシングデータにおける動きを検出する動き検出部と、所定の物体であることが前記画像認識部により認識され、かつ、前記動き検出部により動きが検出された領域に対応する物体を検出する物体検出部として機能させるためのプログラムが提供される。

本実施形態による情報処理システムの概要を説明するための説明図である。本実施形態による情報処理装置３０の機能構成例を説明するブロック図である。本実施形態による情報処理システムの第一の動作例を説明するフローチャート図である。本実施形態による情報処理システムの第二の動作例を説明するフローチャート図である。本実施形態による情報処理システムの第三の動作例を説明するフローチャート図である。本実施形態による情報処理システムの第四の動作例を説明するフローチャート図である。本実施形態による情報処理システムの第五の動作例を説明するフローチャート図である。本実施形態による情報処理システムの第六の動作例を説明するフローチャート図である。本実施形態による情報処理システムの第七の動作例を説明するフローチャート図である。本実施形態による情報処理システムの第八の動作例を説明するフローチャート図である。本実施形態による情報処理システムの第九の動作例を説明するフローチャート図である。本実施形態による情報処理システムの第十の動作例を説明するフローチャート図である。本実施形態による情報処理システムの第十一の動作例を説明するフローチャート図である。本実施形態による情報処理システムの動作の第一の変形例を説明するフローチャート図である。本実施形態による情報処理システムの動作の第二の変形例を説明するフローチャート図である。本実施形態による情報処理システムの構成の変形例を説明する説明図である。本開示による情報処理装置３０のハードウェア構成例を示すブロック図である。

　以下に添付図面を参照しながら、本開示の好適な実施の形態について詳細に説明する。なお、本明細書及び図面において、実質的に同一の機能構成を有する構成要素については、同一の符号を付することにより重複説明を省略する。

　また、本明細書および図面において、実質的に同一の機能構成を有する複数の構成要素を、同一の符号の後に異なる数字を付して区別する場合もある。ただし、実質的に同一の機能構成を有する複数の構成要素の各々を特に区別する必要がない場合、複数の構成要素の各々に同一符号のみを付する。

　なお、説明は以下に示す項目順序に従って行うものとする。
　１．本開示の一実施形態による情報処理システムの概要
　２．機能構成例
　　２－１．カメラ１０およびカメラ２０
　　２－２．情報処理装置３０
　３．動作
　４．変形例
　５．ハードウェア構成例
　６．むすび

　＜１．本開示の一実施形態による情報処理システムの概要＞
　本開示の一実施形態は、センサにより取得されたセンシングデータから画像認識を行う際に、画像から認識された所定の物体の扱いを状況に応じて区別することが可能な情報処理装置に関する。本実施形態は、例えば、土木建設作業の工事現場に設置されたカメラにより撮像された画像から作業員等を認識し、認識結果に基づき、作業監視、安全確保のための機器制御、または、建設機械または人の動線上の安全確認等を行う場合等に適用される。

　図１は、本実施形態による情報処理システムの概要を説明するための説明図である。図１に示したように、本実施形態による情報処理システムは、カメラ１０、カメラ２０、情報処理装置３０、および、出力装置４０を含む。カメラ１０、カメラ２０、および、情報処理装置３０は、ローカルネットワーク５を介して通信可能に構成されている。また、情報処理装置３０および出力装置４０は、ケーブルで接続されている。

　カメラ１０およびカメラ２０は、工事現場で作業を行っている作業員Ｕ、または、土木建設現場で用いられる各種装備品および道具等の物体Ｏを撮像するセンサである。なお、図１に示した例では、カメラ１０およびカメラ２０の２つのセンサが工事現場に設置されている例を示した。しかし、本実施形態による情報処理システムに含まれるセンサは、カメラ１０の１つだけであってもよい。本実施形態では、工事現場にカメラ１０のみが設置されている場合と、カメラ１０およびカメラ２０の両方が設置されている場合と、のそれぞれの例を説明する。

　情報処理装置３０は、カメラ１０またはカメラ２０から、カメラ１０またはカメラ２０が撮像した作業員Ｕまたは物体Ｏの画像データを取得して画像認識を行い、当該画像データから作業員Ｕまたは物体Ｏを認識する機能を有する。また、情報処理装置３０は、カメラ１０またはカメラ２０が撮像した作業員Ｕまたは物体Ｏの画像データから、作業員Ｕまたは物体Ｏの動きを検出する。情報処理装置３０は、上記画像認識および動きの検出の結果を出力装置４０に出力する。なお、カメラ１０およびカメラ２０により得られる画像データは、センシングデータの一例である。

　図１に示した例では、情報処理装置３０は、工事現場の事務所等に設置され、カメラ１０およびカメラ２０とローカルネットワーク５を介して通信可能に構成されていることが理解される。

　物体Ｏは、工事現場で作業員等の人により把持または装着される物体である。物体Ｏは、例えば、ヘルメット等の作業員の装備品を含む。また、物体Ｏは、ハンマーまたは転圧機等の各種土木作業道具を含んでいてもよい。さらに、物体Ｏは、ＬＥＤ（Ｌｉｇｈｔ　Ｅｍｉｔｔｉｎｇ　Ｄｉｏｄｅ）等の発光部を有する誘導棒、または、光を再帰性反射させる反射ベスト等の光を反射させる性質を持つ反射材を含んで構成された装備品を含んでいてもよい。図１には７つの物体Ｏが示されており、より具体的には、物体Ｏ１（ヘルメット）、物体Ｏ２（ヘルメット）、物体Ｏ３（ＬＥＤ誘導棒）、物体Ｏ４（反射ベスト）、物体Ｏ５（ヘルメット）、物体Ｏ６（転圧機）、および、物体Ｏ７（ヘルメット）が示されている。

　作業員Ｕは、工事現場で作業を行う人である。図１に示した例では、作業員Ｕ１～作業員Ｕ３の３名の作業員が居ることが理解される。また、図１に示した例では、作業員Ｕ１は、物体Ｏ２（ヘルメット）および物体Ｏ４（反射ベスト）を装着しており、片手に物体Ｏ３（ＬＥＤ誘導棒）を把持していることが理解される。また、作業員Ｕ２は、物体Ｏ５（ヘルメット）を装着しており、物体Ｏ６（転圧機）を操作して作業を行っていることが理解される。さらに、作業員Ｕ３は、物体Ｏ７（ヘルメット）を装着しており、建設機械Ｍ１の陰で穴を掘る作業を行っていることが理解される。また、作業員Ｕ３は、穴の中に入って作業を行っているために、カメラ１０またはカメラ２０の設置位置および画角によっては、カメラ１０およびカメラ２０により得られる画像上では、作業員Ｕ３の体の一部のみが撮像され得る。

　情報処理装置３０は、上記のような物体Ｏの画像データと、作業員Ｕの画像データとを、機械学習を用いて学習する。情報処理装置３０は、上記学習の結果作成されたモデルを用いて、カメラ１０またはカメラ２０から取得した画像データから、物体Ｏまたは作業員Ｕを認識することができる。

　出力装置４０は、情報処理装置３０の制御に従い多様な画面を表示する出力装置である。例えば、出力装置４０は、情報処理装置３０の制御に従って、情報処理装置３０による画像認識および動きの検出の結果を、検出情報として出力する。また、出力装置４０は、出力部の一例である。本実施形態では、出力装置４０と情報処理装置３０が別の装置で実現される例を説明する。しかし、出力装置４０は、情報処理装置３０と同一の装置上で実現されてもよい。

　（課題の整理）
　ここで、土木建設作業の工事現場でカメラ等のセンサにより得られた画像から作業員等の人を精度よく認識するためには、工事現場特有の種々の状況を考慮することが望ましい。

　例えば、工事現場では、建設機械、柵、看板、旗などの遮蔽物、施工対象となる溝、および、盛土などによって、センサにより得られる画像データ上で、作業員の体の一部が隠れてしまう場合がある。この場合、画像認識処理において、画像から作業員を認識できなくなる場合があった。特に、センサの設置位置が高い位置である場合には、建設機械などの物陰に作業員が近づいた際、センサにより得られる画像上では、作業員が身に着けているヘルメットしか見えなくなる場合があり、同様に当該画像から作業員を認識できない場合があった。

　上記のような課題に対して、例えば特許文献１に開示されている技術が検討されている。上記技術によれば、画像認識により静止画像内に人物画像またはヘルメット画像が認識された場合、当該人物画像または当該ヘルメット画像と建設機械に取り付けられた撮像装置との接近距離に基づき、警告の出力、または、建設機械の動作停止処理が行われる監視システムが提供される。

　すなわち、センサにより得られる画像上で作業員の体の一部または全部が隠れてしまう場合がある土木建設作業等の工事現場においても、ヘルメット等の作業員の装備品、または、誘導棒等の土木建設作業の道具を画像認識により認識することで、当該装備品または道具を装着または把持している人を間接的に検出することが出来る。

　さらに、工事現場では、夜間の作業を想定した反射ベスト等の反射材が含まれる装備品、または、ＬＥＤ等の発光部を有する誘導棒などの、光を放射または反射する性質を持つ構成を含んだ装備品を、作業員が把持または装着していることがある。この場合、従来の技術では、上記反射材または発光部などからの光の影響で、予め学習された学習結果の特徴量と、センサにより得られる画像データの特徴量との乖離が大きくなり、作業員の認識率が低下するという問題もあった。

　そこで、本件発明者は、上記事情を一着眼点にして本開示の実施形態を創作するに至った。本発明の実施形態によれば、画像から認識された所定の物体の扱いを状況に応じて区別することが可能である。より具体的には、本発明の実施形態による情報処理装置３０は、カメラ１０またはカメラ２０により得られる画像データから、ヘルメット等の作業員の装備品または各種の土木建設作業道具を画像認識により認識する。ヘルメット等の作業員の装備品、または、誘導棒等の土木建設作業道具は、所定の物体の一例である。さらに、本実施形態による情報処理装置３０は、認識された上記所定の物体の動きが検出されたか否かによって、上記所定の物体を検出対象とするか否かを区別して扱う。また、本実施形態による情報処理装置３０は、認識された上記所定の物体の位置が所定の条件を満たすか否かによっても、上記所定の物体の扱いを区別する。以下、このような本発明の実施形態による情報処理装置３０の機能構成例および動作を、順次詳細に説明する。

　＜２．機能構成例＞
　＜２－１．カメラ１０、カメラ２０＞
　カメラ１０およびカメラ２０は、作業員Ｕまたは物体Ｏを撮像するカメラである。本実施形態では、カメラ１０およびカメラ２０は、土木建設作業の工事現場で、作業員Ｕまたは物体Ｏを撮像可能な位置に設置される。カメラ１０およびカメラ２０は、作業員Ｕまたは物体Ｏを撮像した画像データを、情報処理装置３０に供給する。

　カメラ１０およびカメラ２０は、それぞれ、一地点に固定して設置されていてもよいし、ショベルカー等の移動する物体に取り付けられていてもよい。

　また、カメラ１０およびカメラ２０は、人工衛星からの電波を受信して、カメラ１０およびカメラ２０自身が存在している現在位置を検知するＧＮＳＳ（Ｇｌｏｂａｌ　Ｎａｖｉｇａｔｅｉｏｎ　Ｓａｔｅｌｌｉｔｅ　Ｓｙｓｔｅｍ）を用いて、自身の位置を測位する機能を有していてもよい。この場合、カメラ１０は、作業員Ｕまたは物体Ｏの画像データとともに、自身の位置情報を情報処理装置３０に送信する。

　また、本実施形態による情報処理システムに含まれるセンサは、カメラ１０の１つのセンサのみで構成されてもよく、カメラ１０およびカメラ２０の２つのセンサによって構成されてもよい。また、カメラ１０およびカメラ２０は、同一の種類のセンサであってもよく、互いに異なる種類のセンサであってもよい。このような構成は、カメラ１０およびカメラ２０に採用されるセンサの種類に応じて選択され得る。

　このようなカメラ１０およびカメラ２０は、例えば、可視光を利用した、色情報を含む画像データを取得することが可能な複眼のＲＧＢカメラであってもよい。カメラ１０およびカメラ２０が複眼のＲＧＢカメラである場合、カメラ１０およびカメラ２０は、左右のイメージセンサにより得られた２種の画像データを情報処理装置３０に供給する。また、カメラ１０およびカメラ２０は、撮像される画面内での、被写体までの距離および深度情報を情報処理装置３０に供給する。情報処理装置３０は、当該２種の画像データを用いて、作業員Ｕまたは物体Ｏの画像認識を行うことが出来る。さらに、情報処理装置３０は、カメラ１０から供給される上記距離および深度情報に基づいて、画像認識により認識した作業員Ｕまたは物体Ｏの３次元位置情報を検出することが出来る。

　または、カメラ１０およびカメラ２０は、近赤外線を利用したＴＯＦ（Ｔｉｍｅ　Ｏｆ　Ｆｌｉｇｈｔ）カメラであってもよい。この場合、カメラ１０およびカメラ２０は、近赤外線を放射する投光器および近赤外線を受光する受光器を有する。このようなカメラ１０およびカメラ２０は、投光器による照射光が被写体に反射して受光器に検出されるまでの時間を計測し、当該時間に基づいて、カメラ１０またはカメラ２０自身から被写体までの距離を算出することが出来る。また、この場合、カメラ１０およびカメラ２０は、算出した距離の情報、または、距離情報を画像化したＤｅｐｔｈ画像のデータを、作業員Ｕまたは物体Ｏを撮像した赤外線画像の画像データとともに、情報処理装置３０に供給する。情報処理装置３０は、カメラ１０またはカメラ２０から取得した赤外線画像から、作業員Ｕまたは物体Ｏを認識する。さらに、情報処理装置３０は、上記距離の情報またはＤｅｐｔｈ画像に基づいて、作業員Ｕまたは物体Ｏの３次元位置情報を検出することが出来る。

　さらに、カメラ１０およびカメラ２０は、画素ごとの輝度変化を検出するイベントベース方式のカメラであってもよい。このようなイベントベース方式のカメラは、ニューロモルフィックカメラ、または、ニューロモーフィックセンサー等と称される場合もある。イベントベース方式のカメラによれば、被写体において輝度変化が生じた部分の画素だけが検出され、画像データとして出力される。すなわち、イベントベース方式のカメラによれば、照明条件の変化による影響部分を除けば、動いている被写体の輪郭だけが抽出されたような画像が得られる。本明細書では、以下、このようなイベントベース方式のカメラを、イベントベースカメラと称する。

　カメラ１０およびカメラ２０がイベントベースカメラによって実現される場合、カメラ１０およびカメラ２０は、被写体において輝度変化が生じた部分の画素だけを検出し、画像データを生成する。例えば、カメラ１０およびカメラ２０により、図１に示した物体Ｏ１（ヘルメット）および物体Ｏ２（ヘルメット）を装着している作業員Ｕ１が撮像された場合を想定する。この場合、物体Ｏ１（ヘルメット）は台に置かれて静止しているので、カメラ１０により得られる画像上には物体Ｏ１（ヘルメット）がイメージとして表れない。一方、作業員Ｕ１は常に動いていることが想定されるため、上記画像上には、作業員Ｕ１、および、作業員Ｕ１の動作に伴って動く物体Ｏ２（ヘルメット）が、イメージとして表れる。情報処理装置３０は、このようなイベントベースカメラにより得られる画像データから、被写体の動きを検出することが出来る。

　本実施形態による情報処理システムに含まれるカメラ１０、カメラ２０、および、情報処理装置３０は、採用されるセンサの種類に応じて、下記の三種の構成を採り得る。第一の構成では、情報処理装置３０は、カメラ１０により得られた画像データを画像認識の処理に用い、かつ、カメラ２０により得られた画像データを動きの検出の処理に用いる。第二の構成では、情報処理装置３０は、カメラ１０の１つのセンサにより得られた同一の画像データを、画像認識の処理、および、動きの検出の処理の両方の処理に用いる。この場合、本実施形態による情報処理システムに含まれるセンサは、カメラ１０の１つのみであってよい。第三の構成では、情報処理装置３０は、カメラ１０により得られた画像データ、および、カメラ２０により得られた画像データのそれぞれから、互いに種類が異なる所定の物体の画像認識の処理を行う。上記のような構成ごとの、本実施形態による情報処理システムの動作と、それぞれの構成で得られる効果は、後に詳細に説明する。

　＜２－２．情報処理装置３０＞
　図２は、本実施形態による情報処理装置３０の機能構成例を説明するブロック図である。図２に示したように、情報処理装置３０は、取得部３１０、制御情報記憶部３２０、教師データ記憶部３３０、学習データ記憶部３４０、制御部３５０、および、操作部３６０を有する。

　（取得部３１０）
　取得部３１０は、制御部３５０の制御に従って、他の装置とデータの送受信を行う機能を有する。例えば、取得部３１０は、カメラ１０およびカメラ２０から、作業員Ｕまたは物体Ｏの画像データを取得する機能を有する。取得部３１０は、カメラ１０およびカメラ２０から取得した上記画像データを、制御部３５０に供給する。

　（制御情報記憶部３２０）
　制御情報記憶部３２０は、制御部３５０を動作させるためのプログラムおよびデータを記憶することが可能な記憶装置である。また、制御情報記憶部３２０は、制御部３５０の動作の過程で必要となる各種データを一時的に記憶することもできる。例えば、記憶装置は、不揮発性の記憶装置であってもよい。

　（教師データ記憶部３３０）
　教師データ記憶部３３０は、後述する制御部３５０による機械学習に用いられる教師データを記憶する記憶装置である。教師データとは、制御部３５０による画像認識において、制御部３５０に認識させたい所定の物体の画像の画像データを指す。図２に示した例では、教師データ記憶部３３０は、反射ベストの画像データ、ヘルメットの画像データ、誘導棒の画像データ、および、転圧機等の各種土木作業道具の画像データ等の、人により把持または装着される物体の画像データを記憶する。また、教師データ記憶部３３０は、図２に示した例の他にも、後述する画像認識部３５４による画像認識で認識対象とする画像データを記憶することができる。

　さらに、教師データ記憶部３３０に記憶される上記画像データには、土木建設作業の工事現場等で作業員が把持または装着する可能性のある、ＬＥＤ等の発光部を有する誘導棒、または、光を再帰性反射させる反射ベスト等の、光を放射または反射させる性質を持つ部材を含んで構成された装備品の画像データが含まれる。この構成により、学習部３５２は、予め上記反射材または発光部などからの光の影響を考慮して、画像認識のための学習を行うことが出来る。従って、従来の技術で発生していた、予め学習された学習結果の特徴量と、センサにより得られる画像データの特徴量との乖離が大きくなり、作業員の認識率が低下するという問題を低減することができる。

　なお、教師データ記憶部３３０に記憶される上記画像データとしては、カメラ１０およびカメラ２０により得られる画像データの種類に応じた画像データが記憶される。例えば、カメラ１０およびカメラ２０により得られる画像データが、色情報および輝度情報を含む場合には、教師データ記憶部３３０には、色情報および輝度情報を含む画像の教師データが記憶されていてもよい。または、カメラ１０またはカメラ２０により得られる画像データが赤外線画像の画像データである場合には、教師データ記憶部３３０には、赤外線画像の教師データが記憶される。さらに、カメラ１０またはカメラ２０により得られる画像データがイベントベースカメラにより得られる画像データである場合には、教師データ記憶部３３０には、イベントベースカメラにより撮像された画像データが教師データとして記憶される。

　（学習データ記憶部３４０）
　学習データ記憶部３４０は、後述する制御部３５０によって機械学習を用いて行われる学習の結果作成されるモデルを記憶する記憶装置である。制御部３５０は、学習データ記憶部３４０に記憶されたモデルを用いて画像認識を行い、カメラ１０から取得した画像データから作業員Ｕまたは物体Ｏを認識することが出来る。

　（制御部３５０）
　制御部３５０は、ＣＰＵ（Ｃｅｎｔｒａｌ　Ｐｒｏｃｅｓｓｉｎｇ　Ｕｎｉｔ）などを含み、制御情報記憶部３２０により記憶されているプログラムがＣＰＵによりＲＡＭ（Ｒａｎｄｏｍ　Ａｃｃｅｓｓ　Ｍｅｍｏｒｙ）に展開されて実行されることにより、その機能が実現され得る。このとき、当該プログラムを記録した、コンピュータに読み取り可能な記録媒体も提供され得る。あるいは、制御部３５０は、専用のハードウェアにより構成されてもよいし、複数のハードウェアの組み合わせにより構成されてもよい。このような制御部３５０は、情報処理装置３０における動作全般を制御する。例えば、制御部３５０は、取得部３１０と、カメラ１０およびカメラ２０との通信を制御する。また、制御部３５０は、図２に示したように、学習部３５２、画像認識部３５４、動き検出部３５６、物体検出部３５８、および、出力制御部３５９としての機能を有する。

　学習部３５２は、教師データ記憶部３３０に記憶された教師データから、画像認識部３５４による画像認識に利用される特徴量を抽出する機能を有する。例えば、学習部３５２は、教師データ記憶部３３０に記憶されたヘルメットの画像データから、色情報、色の濃度の勾配、または、ＨＯＧ（Ｈｉｓｔｏｇｒａｍｓ　ｏｆ　Ｏｒｉｅｎｔｅｄ　Ｇｒａｄｉｅｎｔｓ）特徴量を、特徴量として抽出してもよい。また、学習部３５２は、上記教師データから抽出された上記特徴量に基づいて、作業員Ｕまたは物体Ｏの画像認識を行うために必要な学習を行う機能を有する。

　画像認識部３５４は、学習部３５２により予め学習されたモデルを用いて、カメラ１０またはカメラ２０から取得した作業員Ｕまたは物体Ｏの画像データから、作業員Ｕまたは物体Ｏの画像認識を行う。ここで、学習部３５２による学習の方法、および、画像認識部３５４による画像認識の方法は、特に限定しない。例えば、学習部３５２による学習および画像認識部３５４による画像認識に用いられる機械学習アルゴリズムとしては、ニューラルネットワーク（例えば、深層学習など）が採用され得るが、機械学習アルゴリズムは、ニューラルネットワークに限定されない。例えば、画像認識部３５４は、２次元物体認識、または、ボーン推定アルゴリズムを用いて画像認識を行ってもよい。また、画像認識部３５４は、人を認識するアルゴリズムと、人以外の物体を認識するアルゴリズムといったように、複数の認識アルゴリズムによる認識処理を並行して行ってもよい。

　さらに、画像認識部３５４は、カメラ１０から取得した画像データから、互いに種類が異なる２以上の所定の物体を認識してもよい。または、画像認識部３５４は、カメラ１０およびカメラ２０のそれぞれから取得した２つの画像データから、それぞれ、互いに種類が異なる２以上の所定の物体を認識してもよい。例えば、画像認識部３５４は、カメラ１０から取得した画像データから物体Ｏ２（ヘルメット）を認識し、かつ、カメラ２０から取得した画像データから物体Ｏ４（反射ベスト）を認識してもよい。画像認識部３５４は、このような画像認識の結果を、物体検出部３５８に供給する。

　動き検出部３５６は、カメラ１０またはカメラ２０により得られた画像データから、動きを検出する機能を有する。例えば、動き検出部３５６は、画像データの全体から動きのある領域を検出してもよいし、画像データにおける一部の領域における動きの有無を検出してもよい。本実施形態による情報処理システムに含まれるセンサがカメラ１０の１つのみである場合、動き検出部３５６は、カメラ１０から取得した画像データから動きを検出する。または、本実施形態による情報処理システムに含まれるセンサがカメラ１０およびカメラ２０の２つである場合、動き検出部３５６は、カメラ２０から取得した画像データから、動きを検出する。

　動き検出部３５６は、例えば、上記画像データのうち、時間的に隣接するフレームの画像の画素値（例えば、輝度）を比較し、画素値の差分が所定の閾値を超えたか否かを検出することにより、上記画像データから動きを検出してもよい。動き検出部３５６は、上記画像データにおいて、画素値の差分が上記所定の閾値を超えた部分の領域を、動きがあった領域として検出する。

　または、カメラ１０またはカメラ２０がイベントベースカメラにより実現される場合には、カメラ１０またはカメラ２０により得られる画像データには、輝度変化が検出され、かつ、輝度変化の度合いが所定の閾値を超えた画素のみが、データとして出力される。この場合、動き検出部３５６は、上記画像データのうち、各フレーム間での画素値の比較処理を行うことなく、上記画像データから動きを検出することが可能である。

　動き検出部３５６は、動きの検出の結果を、物体検出部３５８に供給する。

　物体検出部３５８は、画像認識部３５４により所定の物体であることが認識され、かつ、動き検出部３５６により動きが検出された領域に対応する物体を検出する。より詳細には、物体検出部３５８は、画像認識部３５４による画像認識に用いられた画像データ上で所定の物体であることが認識された領域と、動き検出部３５６による動きの検出に用いられた画像データ上で動きが検出された領域とが、対応しているか否かを検出する。物体検出部３５８は、所定の物体であることが認識された領域と、動きが検出された領域とが対応しているか否かに応じて、認識された所定の物体の扱いを区別する。

　例えば、本実施形態による情報処理システムに含まれるセンサが、カメラ１０の１つのみである場合、画像認識部３５４と、動き検出部３５６は、カメラ１０から取得した同一の画像データから、それぞれ、画像認識および動きの検出の処理を行う。この場合、物体検出部３５８は、当該画像データ上で、画像認識部３５４により所定の物体が認識された領域と、動き検出部３５６により動きが検出された領域が一致しているか否かを検出する。物体検出部３５８は、一致していると検出した場合には、認識された所定の物体を検出対象とし、検出の結果を、検出情報として出力制御部３５９に出力する。一方、物体検出部３５８は、一致していないと検出した場合には、認識された所定の物体を検出対象とせず、検出情報を出力しない。

　または、本実施形態による情報処理システムに含まれるセンサが、カメラ１０およびカメラ２０の２つにより構成される場合、画像認識部３５４による画像認識に用いられる画像データと、動き検出部３５６による動きの検出に用いられる画像データとは、異なる画像データとなる。この場合、物体検出部３５８は、カメラ１０により得られた画像データ上で所定の物体が認識された領域と、カメラ２０により得られた画像データ上で動きが検出された領域とが、対応しているか否かを検出する。物体検出部３５８による、カメラ１０およびカメラ２０により得られた２つの画像データ上の領域の対応の検出方法には、いくつかの方法が考えられる。

　例えば、物体検出部３５８は、カメラ１０およびカメラ２０が設置されている、３次元位置の座標を特定する。カメラ１０およびカメラ２０の３次元位置の座標は、予め、情報処理装置３０の操作者により、情報処理装置３０に入力され、制御情報記憶部３２０に記憶されていてもよい。または、カメラ１０およびカメラ２０がＧＮＳＳを用いた位置測位機能を有している場合には、物体検出部３５８は、カメラ１０およびカメラ２０から位置情報を取得することにより、カメラ１０およびカメラ２０の３次元位置の座標を特定してもよい。

　物体検出部３５８は、カメラ１０およびカメラ２０から取得した被写体までの距離の情報またはＤｅｐｔｈ画像と、特定したカメラ１０およびカメラ２０の３次元位置の座標に基づいて、画像認識部３５４により認識された所定の物体、および、動き検出部３５６により動きが検出された領域に対応する、それぞれの３次元位置の座標を算出する。物体検出部３５８は、算出した当該座標により示される領域が同一または近似しているか否かに基づいて、領域の対応を検出してもよい。

　物体検出部３５８は、所定の物体が認識された領域と、動きが検出された領域が対応していると検出した場合、検出の結果を出力制御部３５９に出力する。また、物体検出部３５８は、上記領域が対応していないと検出した場合には、出力制御部３５９に検出の結果を出力しない。このような構成により、情報処理装置３０は、画像データから所定の物体が検出されただけでなく、認識された当該所定の物体が動いていると検出される場合に、当該所定の物体を検出対象として検出の結果を出力する。すなわち、情報処理装置３０は、画像データから検出されたヘルメット等の装備品または土木建設作業の工具が、静止している場合と、動いている場合とを区別して、検出の結果を出力することが出来る。画像データからヘルメット等の装備品、または、土木建設作業の工具が認識されれば、当該装備品または道具を把持または装着している人を間接的に検出することが出来る。さらに、本実施形態による情報処理装置３０は、当該装備品または道具が動いている場合のみ、当該装備品または道具の検出の結果を出力するので、地面に置かれている装備品または道具を認識することにより人を誤検出してしまう可能性を低減することが出来る。

　さらに、物体検出部３５８は、画像認識部３５４から供給された画像認識の結果が、互いに種類が異なる２以上の所定の物体が認識されたことを示す場合には、当該２以上の所定の物体の３次元位置の座標を特定し、当該２以上の所定の物体の位置関係が所定の条件を満たすか否かを検出してもよい。所定の条件としては、互いに種類が異なる物体Ｏが、同一の人に同時に把持または装着されている場合の位置関係が考えられる。例えば、作業員Ｕ１が物体Ｏ２（ヘルメット）を装着し、かつ、物体Ｏ３（ＬＥＤ誘導棒）を把持している場合、物体Ｏ２（ヘルメット）と物体Ｏ３（ＬＥＤ誘導棒）の位置関係は、物体Ｏ２（ヘルメット）の方が物体Ｏ３（ＬＥＤ誘導棒）よりも相対的に高度が高い位置にある場合が多いと推定される。

　例えば、画像認識部３５４から、カメラ１０により得られた画像データから物体Ｏ２（ヘルメット）が認識されたことを示す結果と、カメラ２０により得られた画像データから物体Ｏ３（ＬＥＤ誘導棒）が認識されたことを示す結果が、物体検出部３５８に供給されたとする。この場合、物体検出部３５８は、カメラ１０およびカメラ２０により得られた画像データ、距離の情報またはＤｅｐｔｈ画像に基づいて、物体Ｏ２（ヘルメット）および物体Ｏ３（ＬＥＤ誘導棒）の３次元位置の座標を特定する。さらに、物体検出部３５８は、物体Ｏ２（ヘルメット）の方が、物体Ｏ３（ＬＥＤ誘導棒）よりも相対的に高度が高い位置にあると検出した場合に、物体Ｏ２（ヘルメット）および物体Ｏ３（ＬＥＤ誘導棒）を検出対象として、検出の結果を出力制御部３５９に出力してもよい。

　上記のように、画像認識部３５４が、互いに種類が異なる２以上の所定の物体を認識し、さらに、物体検出部３５８が、認識された互いに種類が異なる２以上の所定の物体の位置関係が所定の条件を満たすか否かを検出することにより、ヘルメット等の人の装着品および誘導棒等の土木作業道具から、画像認識により間接的に人を検出する際の精度を、さらに向上させることが出来る。

　出力制御部３５９は、物体検出部３５８による上記検出の結果に基づき、物体検出結果を出力する機能を有する。より具体的には、出力制御部３５９は、物体検出部３５８から供給される、所定の物体が検出されたか否かを示す情報、所定の物体の位置、または、所定の物体と所定の基準点からの距離情報の少なくともいずれか１つ以上を、上記物体検出結果として出力する。所定の基準点は、カメラ１０またはカメラ２０の位置であってもよく、建設機械Ｍ１等の、作業員との距離を出力させたい物体の位置であってもよい。

　なお、出力制御部３５９による物体検出結果の出力方法は、いくつかの方法が考えられる。例えば、本実施形態による情報処理装置３０の出力制御部３５９は、上記物体検出結果に基づいて画面を生成し、ユーザに視認可能な態様で出力装置４０に表示させる制御を行ってもよい。または、出力制御部３５９は、上記物体検出結果を、図１に図示しない、情報処理装置３０と通信可能に構成された建設機械等の装置に送信してもよい。この構成により、出力制御部３５９から出力された物体検出結果に基づいて、建設機械等の装置を自動制御し、作業員が建設機械に接近した場合に当該建設機械の動作を一時停止させる、または、図示しない警報器等から警報を鳴らす等の応用も可能である。

　（操作部３６０）
　操作部３６０は、情報処理装置３０の操作者が情報処理装置３０に指示または情報を入力するために操作する構成である。例えば、情報処理装置３０の操作者は、操作部３６０を操作することにより、情報処理装置３０による画像認識および動きの検出の処理を開始または終了させる指示を入力することが出来る。

　＜３．動作＞
　続いて、本実施形態による情報処理システムの動作例を説明する。上記説明したように、本実施形態による情報処理システムに含まれるカメラ１０、カメラ２０、および、情報処理装置３０は、採用されるセンサの種類に応じて、三種の構成を採り得る。まず、情報処理装置３０が、カメラ１０により得られた画像データを画像認識の処理に用い、かつ、カメラ２０により得られた画像データを動きの検出の処理に用いる場合の動作例を説明する。

　（第一の動作例）
　図３は、本実施形態による情報処理システムの第一の動作例を説明するフローチャート図である。本動作例は、カメラ１０およびカメラ２０として、異なる２台の複眼ＲＧＢカメラが採用される場合の動作例である。

　まず、情報処理装置３０の取得部３１０は、カメラ１０およびカメラ２０から、色情報を含むＲＧＢ画像の画像データを取得する（Ｓ１００）。次に、情報処理装置３０の画像認識部３５４は、カメラ１０から取得した画像データにおいて、所定の物体（作業員Ｕまたは物体Ｏ）の画像認識を行う（Ｓ２００）。画像認識部３５４による画像認識により、上記画像データにおいて所定の物体が認識されなかった場合（Ｓ３００／ＮＯ）、情報処理装置３０は、所定の物体が認識されるまでＳ１００およびＳ２００の処理を繰り返す。

　画像認識部３５４による画像認識により、上記画像データにおいて所定の物体が認識された場合（Ｓ３００／ＹＥＳ）、動き検出部３５６は、カメラ２０から取得した画像データから動きを検出する（Ｓ４００）。

　動き検出部３５６により、上記画像データから動きが検出されなかった場合（Ｓ５００／ＮＯ）、情報処理装置３０は、再度Ｓ１００～Ｓ４００の処理を行う。

　動き検出部３５６により、上記画像データから動きが検出された場合（Ｓ５００／ＹＥＳ）、物体検出部３５８は、画像認識部３５４により所定の物体であることが認識され、かつ、動き検出部３５６により動きが検出された領域に対応する物体の検出を試みる。具体的には、物体検出部３５８は、カメラ１０から取得した画像データ上で所定の物体であることが認識された領域と、カメラ２０から取得した画像データ上で動きが検出された領域とが対応しているか否かを、カメラ１０およびカメラ２０から得られる被写体までの距離および深度情報に基づいて検出する。物体検出部３５８は、上記領域が対応していると検出した場合、当該領域において認識された物体の種類、および当該領域の位置を示す情報を含む検出情報を出力する。また、物体検出部３５８は、上記領域が対応していない場合には、出力制御部３５９に検出情報を出力しない。出力制御部３５９は、物体検出部３５８から検出情報が出力されると、当該検出情報に基づいて物体検出結果を出力する（Ｓ７００）。例えば、出力制御部３５９は、カメラ１０およびカメラ２０により得られた画像データからヘルメットが検出されたことから、間接的に人が検出されたことを示す情報、当該ヘルメットが検出された位置、および、当該位置と建設機械Ｍ１との距離情報を、ユーザが視認可能な画面を生成し、当該画面を出力装置４０に出力させてもよい。

　次に、情報処理装置３０の操作者が操作部３６０を操作することにより、一連の処理を終了する指示を入力した場合（Ｓ８００／ＹＥＳ）、情報処理装置３０は処理を終了する。情報処理装置３０は、処理を終了する指示が入力されるまで、Ｓ１００～Ｓ７００の処理を繰り返す（Ｓ８００／ＮＯ）。

　以上、図３を参照して、本実施形態による情報処理システムの第一の動作例を説明した。なお、上記第一の動作例では、カメラ１０およびカメラ２０が互いに異なる２台の複眼のＲＧＢカメラである例を説明した。しかし、本動作例は、本実施形態による情報処理システムに含まれるセンサが、複眼ＲＧＢカメラであるカメラ１０の１台のみで構成される場合にも適用可能である。この場合、情報処理装置３０の動き検出部３５６は、Ｓ４００において、カメラ１０から取得した画像データから動きを検出してもよい。さらに、物体検出部３５８は、Ｓ７００において、カメラ１０から取得した同一の画像データ上で、画像認識部３５４により所定の物体が認識された領域と、動き検出部３５６により動きが検出された領域が一致または近似しているか否かを検出してもよい。

　上記説明したように、本実施形態による情報処理装置３０の物体検出部３５８は、画像認識部３５４により所定の物体が認識された領域と、動き検出部３５６により動きが検出された領域が対応している場合に、上記所定の物体を検出対象として、検出情報を出力制御部３５９に出力する。例えば、カメラ１０から取得した画像データ上で、画像認識部３５４により物体Ｏ１（ヘルメット）が認識されたとする。物体Ｏ１（ヘルメット）は、台の上に置かれており静止している。従って、動き検出部３５６は、カメラ１０またはカメラ２０から得られた画像上で、物体Ｏ１（ヘルメット）に対応する領域で動きを検出しない。この場合、画像認識部３５４により物体Ｏ１（ヘルメット）が認識されても、物体検出部３５８は物体Ｏ１（ヘルメット）を検出対象とせず、出力制御部３５９へ検出情報を出力しない。すなわち、本動作例によれば、画像認識により検出されたヘルメット等の所定の物体が、人に装着されておらず地面に置かれているのか人が装着しているのかを、当該所定の物体に対応する領域で動きが検出されたかによって区別することが出来る。さらに、画像認識により検出されたヘルメットに対応する領域で動きが検出された場合には、当該ヘルメットが認識されたことに基づいて、検出情報が出力される。従って、作業員の装備品または作業員が把持する道具を画像認識することで間接的に人を検出する場合に、検出精度を向上させることが出来る。

　（第二の動作例）
　続いて、カメラ１０およびカメラ２０がＴＯＦカメラである場合の動作例を説明する。本動作例は、カメラ１０およびカメラ２０として、異なる２台のＴＯＦカメラが採用される場合の動作例である。または、本動作例は、本実施形態による情報処理システムに含まれるセンサが、ＴＯＦカメラであるカメラ１０の１台のみで構成される場合にも適用可能である。

　図４は、本実施形態による情報処理システムの第二の動作例を説明するフローチャート図である。なお、図４において、Ｓ１００、Ｓ３００、Ｓ５００、および、Ｓ８００の処理は、上記で図３を参照して説明した通りであるので、ここでは詳細な説明を省略する。

　まず、Ｓ１００の処理が行われる。続いて、情報処理装置３０の画像認識部３５４は、カメラ１０から取得した赤外線画像の画像データにおいて、所定の物体の画像認識を行う（Ｓ２０２）。

　上記画像データにおいて、画像認識部３５４により所定の物体が認識された場合（Ｓ３００／ＹＥＳ）、動き検出部３５６は、カメラ２０から取得した画像データから動きを検出する（Ｓ４０２）。続いて、Ｓ５００の処理が行われる。

　動き検出部３５６により、上記画像データから動きが検出された場合（Ｓ５００／ＹＥＳ）、物体検出部３５８は、カメラ１０から取得した画像データ上で所定の物体であることが認識された領域と、カメラ２０から取得した画像データ上で動きが検出された領域とが対応しているか否かを、カメラ１０およびカメラ２０から得られる被写体までの距離情報またはＤｅｐｔｈ画像のデータに基づいて検出する。物体検出部３５８は、第一の動作例と同様に、上記領域が対応していると検出した場合、検出情報を出力制御部３５９に出力する。また、物体検出部３５８は、上記領域が対応していないと検出した場合には、出力制御部３５９に検出情報を出力しない。出力制御部３５９は、物体検出部３５８から供給される検出情報に基づき、物体検出結果を出力する（Ｓ７０２）。続いて、Ｓ８００の処理が行われる。

　以上、図４を参照して、本実施形態による情報処理システムの第二の動作例を説明した。ＴＯＦカメラによれば、１台のカメラで、画像認識に用いられる画像データと、被写体までの距離の情報またはＤｅｐｔｈ画像のデータとを、同時に取得することが出来る。従って、出力制御部３５９により出力される物体検出結果を用いて、建設機械の自動制御または警報器からの警報の出力等の処理を行いたい場合に、レイテンシの低減を見込むことが出来る。特に、本実施形態による情報処理システムに含まれるセンサが、ＴＯＦカメラであるカメラ１０の１台のみで構成される場合に、上記のような効果が期待できる。

　（第三の動作例）
　続いて、カメラ１０が複眼ＲＧＢカメラであり、かつ、カメラ２０がイベントベースカメラである場合の動作例を説明する。図５は、本実施形態による情報処理システムの第三の動作例を説明するフローチャート図である。なお、図５において、Ｓ１００、Ｓ３００、Ｓ５００、および、Ｓ８００の処理は、図１を参照して上記説明した通りであるので、ここでの詳細な説明を省略する。

　また、本動作例では、カメラ１０およびカメラ２０が工事現場に設置される際に、カメラ１０およびカメラ２０の位置、向き、および画角が、情報処理装置３０のユーザにより予め設定されているものとする。また、当該位置、向き、および、画角を含む、カメラ１０およびカメラ２０の設置条件の情報が、情報処理装置３０の制御情報記憶部３２０に記憶されているものとする。

　まず、Ｓ１００の処理が行われる。続いて、情報処理装置３０の画像認識部３５４は、カメラ１０から取得したＲＧＢ画像の画像データにおいて、所定の物体の画像認識を行う（Ｓ２０４）。

　画像認識部３５４により上記画像データにおいて所定の物体が認識された場合（Ｓ３００／ＹＥＳ）、動き検出部３５６は、カメラ２０から取得した、イベントベースカメラにより得られる画像データから動きを検出する（Ｓ４０４）。

　本動作例では、カメラ２０により得られる画像データには、輝度変化が検出され、かつ、輝度変化の度合いが所定の閾値を超えた画素のみが、データとして出力される。従って、動き検出部３５６は、カメラ２０から出力された上記画素の部分の領域を、動きが検出された領域として物体検出部３５８に出力する。続いて、Ｓ５００の処理が行われる。

　動き検出部３５６により上記画像データから動きが検出された場合（Ｓ５００／ＹＥＳ）、物体検出部３５８は、カメラ１０から取得した画像データ上で所定の物体であることが認識された領域と、カメラ２０から取得した画像データ上で動きが検出された領域とが対応しているか否かを検出する。物体検出部３５８は、カメラ１０から得られる被写体までの距離の情報または深度情報と、カメラ１０およびカメラ２０の設置条件の情報に基づいて、上記領域の対応を検出することが出来る。

　例えば、物体検出部３５８は、カメラ１０から得られる画像データおよび上記距離の情報または深度情報に基づいて、画像認識部３５４により認識された所定の物体の３次元位置情報の座標を特定する。さらに、物体検出部３５８は、カメラ２０から得られる画像データ上で動きが検出された領域の、カメラ２０の画角の画面内における２次元座標を特定する。物体検出部３５８は、カメラ２０の設置位置、向き、および、画角の情報に基づいて、カメラ１０により得られた画像上で所定の物体が認識された領域の３次元座標を、カメラ２０の画角内における２次元座標に変換することにより、領域の対応を検出する。

　または、カメラ１０およびカメラ２０の位置、向き、および、画角が、物体検出部３５８による領域の対応の検出において同一と見做せる程度に近似している場合も考えられる。この場合、物体検出部３５８は、カメラ１０により得られる画像データの画面領域と、カメラ２０により得られる画像データの画面領域を同一と見做して、上記領域の対応を検出することもできる。この場合には、カメラ１０は、単眼のＲＧＢカメラであってもよい。

　物体検出部３５８は、第一の動作例と同様に、上記領域が対応していると検出した場合、検出情報を出力制御部３５９に出力する。一方、物体検出部３５８は、上記領域が対応していないと検出した場合には、出力制御部３５９に検出情報を出力しない。出力制御部３５９は、物体検出部３５８により検出情報が出力されると、当該検出情報に基づき、物体検出結果を出力する（Ｓ７０４）。続いて、Ｓ８００の処理が行われる。

　以上、図５を参照して、本実施形態による情報処理システムの第三の動作例を説明した。本動作例では、カメラ２０にイベントベースカメラが採用される。この構成により、情報処理装置３０側で、カメラ２０により得られる画像データのフレーム間での画素比較等の処理を行うことなく、上記画像データから動きを検出することが可能となる。従って、情報処理装置３０側で行われる動きの検出の処理負荷が軽減され、情報処理装置３０での消費電力低減を見込むことが出来る。

　（第四の動作例）
　続いて、カメラ１０がＴＯＦカメラであり、かつ、カメラ２０がイベントベースカメラである場合の動作例を説明する。図６は、本実施形態による情報処理システムの第四の動作例を説明するフローチャート図である。なお、図６において、Ｓ１００、Ｓ３００、Ｓ５００、および、Ｓ８００は、上記で図３を参照して説明した通りであるので、ここでは詳細な説明を省略する。また、Ｓ４０４、および、Ｓ７０４についても、上記で図５を参照して説明した通りであるので、ここでの詳細な説明を省略する。

　まず、Ｓ１００の処理が行われる。続いて、情報処理装置３０の画像認識部３５４は、カメラ１０から取得した赤外線画像の画像データにおいて、所定の物体（作業員Ｕまたは物体Ｏ）の画像認識を行う（Ｓ２０６）。続いて、Ｓ３００～Ｓ８００の処理が行われる。

　以上、図６を参照して、本実施形態による情報処理システムの第四の動作例を説明した。本動作例では、第三の動作例と同様に、カメラ２０にイベントベースカメラが採用される。この構成により、情報処理装置３０側で、カメラ２０により得られる画像データのフレーム間での画素比較等の処理を行うことなく、上記画像データから動きを検出することが可能となる。従って、情報処理装置３０側で行われる動きの検出の処理負荷が軽減され、情報処理装置３０での消費電力低減を見込むことが出来る。

　（第五の動作例）
　続いて、カメラ１０がＲＧＢカメラであり、かつ、カメラ２０がＴＯＦカメラである場合の動作例を説明する。本構成は、上記説明した第二の構成が採用される場合に該当する。

　図７は、本実施形態による情報処理システムの第五の動作例を説明するフローチャート図である。なお、図７において、Ｓ１００、Ｓ３００、Ｓ５００、および、Ｓ８００は、上記で図３を参照して説明した通りであるので、ここでは詳細な説明を省略する。また、図７において、Ｓ２０４およびＳ４０２は、それぞれ、図５および図４を参照して上記で説明した通りであるので、詳細な説明を省略する。

　まず、Ｓ１００～Ｓ５００の処理が行われる。

　動き検出部３５６により、カメラ２０から取得された赤外線画像データから動きが検出された場合（Ｓ５００／ＹＥＳ）、物体検出部３５８は、カメラ１０から取得されたＲＧＢ画像データ上で画像認識部３５４により所定の物体が認識された領域と、動き検出部３５６により上記赤外線画像データ上で動きが検出された領域が対応しているか否かを検出する。

　物体検出部３５８は、上記領域が対応していると検出した場合、検出情報を出力制御部３５９に出力する。また、物体検出部３５８は、上記領域が対応していないと検出した場合には、出力制御部３５９に検出情報を出力しない。出力制御部３５９は、物体検出部３５８から検出情報が出力されると、当該検出情報に基づき、物体検出結果を出力する。続いて、Ｓ８００の処理が行われる。

　以上、図７を参照して、本実施形態による情報処理システムの第五の動作例を説明した。ここまで、情報処理装置３０において、画像認識部３５４による画像認識の処理が行われた後に、動き検出部３５６による動きの検出の処理が行われる動作例を説明した。しかし、本実施形態による情報処理装置３０は、動き検出部３５６による動きの検出の処理を先に実施し、その後に、画像認識部３５４による画像認識の処理を行ってもよい。以下、このような本実施形態による情報処理システムの動作例を説明する。

　（第六の動作例）
　まず、第一の動作例と同様に、カメラ１０およびカメラ２０が複眼ＲＧＢカメラである場合の他の動作例を説明する。図８は、本実施形態による情報処理システムの第六の動作例を説明するフローチャート図である。なお、図８において、Ｓ１００、Ｓ７００、およびＳ８００は、上記で図３を参照して説明した通りであるので、ここでの詳細な説明を省略する。

　まず、Ｓ１００の処理が行われる。続いて、情報処理装置３０の動き検出部３５６が、カメラ２０から取得した画像データから動きを検出する処理を行う（Ｓ２５０）。当該画像データから動きが検出されなかった場合（Ｓ３５０／ＮＯ）、情報処理装置３０は、カメラ２０から取得した画像データから動きが検出されるまで、Ｓ１００およびＳ２５０の処理を繰り返す。

　上記画像データにおいて動きが検出された場合（Ｓ３５０／ＹＥＳ）、画像認識部３５４は、動き検出部３５６により動きが検出された領域に基づいて、カメラ１０から取得した画像データ上で、物体認識対象領域を特定する（Ｓ４５０）。

　画像認識部３５４は、特定された物体認識対象領域から、所定の物体を認識する（Ｓ５５０）。画像認識部３５４により、上記画像データから所定の物体が認識されなかった場合（Ｓ６５０／ＮＯ）、情報処理装置３０は、再度Ｓ１００～Ｓ５５０の処理を行う。

　画像認識部３５４により、上記画像データから所定の物体が認識された場合（Ｓ６５０／ＹＥＳ）、Ｓ７００～Ｓ８００の処理が行われる。

　（第七の動作例）
　以上、図８を参照して、本実施形態による情報処理システムの第六の動作例を説明した。続いて、図９を参照して、本実施形態による情報処理システムの第七の動作例を説明する。本動作例は、第二の動作例と同様に、カメラ１０およびカメラ２０に異なる２台のＴＯＦカメラが採用される場合の動作例である。または、本動作例は、本実施形態による情報処理システムに含まれるセンサが、ＴＯＦカメラであるカメラ１０の１台のみで構成される場合にも適用可能である。

　図９は、本実施形態による情報処理システムの第七の動作例を説明するフローチャート図である。なお、図９において、Ｓ１００およびＳ８００と、Ｓ７０２は、上記で図３と図４を参照して説明した通りであるので、ここでの詳細な説明を省略する。また、図９において、Ｓ３５０、Ｓ４５０、およびＳ６５０についても、上記で図８を参照して説明した通りであるので、ここでの詳細な説明を省略する。

　まず、Ｓ１００の処理が行われる。続いて、情報処理装置３０の動き検出部３５６は、カメラ２０から取得した赤外線画像の画像データにおいて、動きの検出の処理を行う（Ｓ２５２）。続いて、Ｓ３５０およびＳ４５０の処理が行われる。

　次に、画像認識部３５４は、カメラ１０から取得した画像データ上で特定された物体認識対象領域から、所定の物体の画像認識を行う（Ｓ５５２）。続いて、Ｓ６５０～Ｓ８００の処理が行われる。

　（第八の動作例）
　以上、図９を参照して、本実施形態による情報処理システムの第六の動作例を説明した。続いて、第三の動作例と同様に、カメラ１０がイベントベースカメラ、かつ、カメラ２０が複眼ＲＧＢカメラである場合の他の動作例を説明する。

　図１０は、本実施形態による情報処理システムの第八の動作例を説明するフローチャート図である。なお、図１０において、Ｓ１００およびＳ８００と、Ｓ７０２は、それぞれ、上記で図３と図５を参照して説明した通りであるので、ここでの詳細な説明を省略する。また、図１０において、Ｓ３５０、Ｓ４５０、およびＳ６５０についても、上記で図８を参照して説明した通りであるので、ここでの詳細な説明を省略する。

　まず、Ｓ１００の処理が行われる。続いて、情報処理装置３０の動き検出部３５６は、カメラ２０から取得したイベントベースカメラにより得られる画像の画像データにおいて、動きの検出の処理を行う（Ｓ２５４）。続いて、Ｓ３５０およびＳ４５０の処理が行われる。

　次に、画像認識部３５４は、カメラ１０から取得した画像データ上で特定された物体認識対象領域から、所定の物体の画像認識を行う（Ｓ５５４）。続いて、Ｓ６５０～Ｓ８００の処理が行われる。

　（第九の動作例）
　以上、図１０を参照して、本実施形態による情報処理システムの第八の動作例を説明した。続いて、第四の動作例と同様に、カメラ１０がイベントベースカメラ、かつ、カメラ２０がＴＯＦカメラである場合の他の動作例を説明する。

　図１１は、本実施形態による情報処理システムの第九の動作例を説明するフローチャート図である。なお、図１１において、Ｓ１００およびＳ８００と、Ｓ７０４は、それぞれ、上記で図３と図４を参照して説明した通りであるので、ここでの詳細な説明を省略する。また、図１１において、Ｓ３５０、Ｓ４５０、およびＳ６５０についても、上記で図８を参照して説明した通りであるので、ここでの詳細な説明を省略する。

　まず、Ｓ１００の処理が行われる。続いて、情報処理装置３０の動き検出部３５６は、カメラ２０から取得したイベントベースカメラにより得られる画像の画像データにおいて、動きの検出の処理を行う（Ｓ２５６）。続いて、Ｓ３５０およびＳ４５０の処理が行われる。

　次に、画像認識部３５４は、カメラ１０から取得した画像データ上で特定された物体認識対象領域から、所定の物体の画像認識を行う（Ｓ５５６）。続いて、Ｓ６５０～Ｓ８００の処理が行われる。

　（第十の動作例）
　以上、図１１を参照して、本実施形態による情報処理システムの第九の動作例を説明した。続いて、第五の動作例と同様に、カメラ１０が複眼ＲＧＢカメラであり、かつ、カメラ２０がＴＯＦカメラである場合の他の動作例を説明する。図１２は、本実施形態による情報処理システムの第十の動作例を説明するフローチャート図である。

　なお、図１２において、Ｓ１００、Ｓ７００、および、Ｓ８００は、上記で図３を参照して説明した通りであるので、ここでの詳細な説明を省略する。また、図１２において、Ｓ３５０、Ｓ４５０、およびＳ６５０についても、上記で図９を参照して説明した通りであるので、ここでの詳細な説明を省略する。さらに、Ｓ２５２、および、Ｓ５５４についても、それぞれ、図９および図１０を参照して上記説明した通りであるので、説明を省略する。

　まず、Ｓ１００～Ｓ３５０の処理が行われる。動き検出部３５６により、カメラ２０から取得された赤外線画像データから動きが検出された場合（Ｓ３５０／ＹＥＳ）、画像認識部３５４は、カメラ１０から取得したＲＧＢ画像データ上で、上記赤外線画像データから動きが検出された領域に対応する領域を、物体認識対象領域として特定する。画像認識部３５４は、特定された当該物体認識対象領域から、所定の物体の画像認識を行う（Ｓ５５４）。続いて、Ｓ６５０～Ｓ８００の処理が行われる。

　以上、図１２を参照して、本実施形態による情報処理システムの第十の動作例を説明した。上記説明した第六の動作例～第十の動作例では、情報処理装置３０の動き検出部３５６による動きの検出の処理が行われた後に、画像認識部３５４による画像認識が行われる例を説明した。また、第六の動作例～第十の動作例では、画像認識部３５４は、カメラ２０により得られた画像データ上で動き検出部３５６により動きが検出された領域に基づいて、画像データ上で画像認識を行う対象領域を絞ってから、画像認識の処理を行う。この構成により、画像認識部３５４による画像認識にかかる処理負荷を低減することが出来る。さらに、情報処理装置３０における消費電力の低減を見込むことが出来る。

　（第十一の動作例）
　続いて、図１３を参照して、本実施形態による情報処理システムの第十一の動作例を説明する。本動作例は、ここまで説明した第一の動作例～第二の動作例とは、カメラ１０、カメラ２０、および、情報処理装置３０の構成が次のように異なる。すなわち、情報処理装置３０は、カメラ１０により得られた画像データ、および、カメラ２０により得られた画像データのそれぞれから、互いに種類が異なる所定の物体の画像認識の処理を行う。

　図１３は、本実施形態による情報処理システムの第十一の動作例を説明するフローチャート図である。なお、図１４において、Ｓ１００、Ｓ７００、および、Ｓ８００の処理は、上記で図３を参照して説明した通りであるので、ここでの詳細な説明を省略する。

　まず、Ｓ１００の処理が行われる。続いて、情報処理装置３０の画像認識部３５４は、カメラ１０により得られた画像データから、画像認識を行い、所定の物体を認識する（Ｓ２９０）。ここで、Ｓ２９０において画像認識部３５４により行われる画像認識の処理を、画像認識Ａとする。また、本動作例では、画像認識部３５４により、画像認識Ａにおいて、上記画像データから物体Ｏ２（ヘルメット）が認識されたとする。

　画像認識部３５４により、上記画像データから所定の物体が認識されなかった場合（Ｓ３９０／ＮＯ）、Ｓ１００およびＳ２９０の処理が繰り返される。

　画像認識部３５４により、上記画像データから所定の物体が認識された場合（Ｓ３９０／ＹＥＳ）、画像認識部３５４は、カメラ２０から得られた画像データから、画像認識Ａにおいて認識された物体とは種類が異なる所定の物体を、画像認識により認識する（Ｓ４９０）。ここで、Ｓ４９０において画像認識部３５４により行われる画像認識の処理を、画像認識Ｂとする。また、本動作例では、画像認識部３５４により、画像認識Ｂにおいて、上記画像データから物体Ｏ４（反射ベスト）が認識されたとする。

　画像認識部３５４により、画像認識Ｂにおいて、画像認識Ａで認識された所定の物体と異なる種類の所定の物体が認識された場合（Ｓ５９０／ＹＥＳ）、Ｓ７００およびＳ８００の処理が行われる。

　ここで、画像認識Ａで認識された所定の物体と異なる種類の所定の物体とは、一人の作業員が同時に装着または把持する可能性があり、かつ、画像認識Ａで認識された物体とは異なる種類の物体であることが望ましい。例えば、画像認識Ａでヘルメットが認識された場合には、画像認識Ｂでは、ヘルメットを既に装着している作業員が、他に把持または装着する可能性のある物体が認識されることが望ましい。例えば、当該物体は、誘導棒等の各種土木作業の道具、反射ベスト等の他の作業員の装備品であってもよい。

　画像認識部３５４により、画像認識Ｂにおいて、画像認識Ａで認識された所定の物体と異なる種類の所定の物体が認識されなかった場合（Ｓ５９０／ＮＯ）、情報処理装置３０は、Ｓ１００～Ｓ４９０の処理を繰り返す。

　以上、図１３を参照して、本実施形態による情報処理システムの第十一の動作例を説明した。上記説明したように、本動作例では、画像認識部３５４による画像認識において、予め学習部３５２により学習された所定の物体のうち、互いに種類が異なる２の所定の物体が認識された場合に、物体検出部３５８が検出情報を出力する。換言すれば、物体検出部３５８は、所定の物体のうち一つの物体が認識されただけでは、検出情報を出力しない。本動作例では、作業員Ｕ１が装着している物体Ｏ２（ヘルメット）、および、物体Ｏ４（反射ベスト）の２つの所定の物体が認識されたことに基づいて、物体検出部３５８が、検出情報を出力制御部３５９に出力する。この構成により、例えば画像認識部３５４による画像認識において、物体Ｏ２（ヘルメット）等の所定の物体が認識されたことに基づいて物体検出部３５８が間接的に人を検出する場合に、物体検出部３５８による人の検出精度を向上させることが出来る。

　また、第十一の動作例におけるＳ５９０において、物体検出部３５８は、画像認識Ａと画像認識Ｂとでそれぞれ認識された所定の物体の位置が所定の条件を満たすか否かを検出してもよい。この場合、物体検出部３５８は、上記位置が所定の条件を満たしている場合にのみ、出力制御部３５９に検出情報を出力してもよい。所定の条件とは、例えば、互いに種類が異なる物体Ｏが、同一の人に同時に把持または装着されている場合の位置関係を満たしていることであってもよい。例えば、作業員Ｕ１が物体Ｏ２（ヘルメット）を装着し、かつ、物体Ｏ３（ＬＥＤ誘導棒）を把持している場合、物体Ｏ２（ヘルメット）と物体Ｏ３（ＬＥＤ誘導棒）の位置関係は、物体Ｏ２（ヘルメット）の方が物体Ｏ３（ＬＥＤ誘導棒）よりも相対的に高度が高い位置にある場合が多いと推定される。従って、物体検出部３５８は、画像認識Ａと画像認識Ｂでそれぞれ認識された所定の物体の種類に応じて、当該所定の物体の高度を比較することにより、上記所定の条件が満たされているかを検出してもよい。この構成により、ヘルメット等の人の装着品および誘導棒等の土木作業道具から、画像認識により間接的に人を検出する際の精度を、さらに向上させることが出来る。
　＜４．変形例＞

　以上、図３～図１４を参照して、本実施形態による情報処理システムの動作例を説明した。なお、本実施形態による情報処理システムは、下記に説明する変形例に沿って動作することもできる。以下、このような変形例を説明する。

　（第一の変形例）
　第一の変形例では、本実施形態による情報処理装置３０は、画像認識部３５４による画像認識の処理を行った後、カメラ２０より得られた画像データ上の、画像認識部３５４により認識された所定の物体に対応する領域を、動き検出対象領域として絞り込む。そして、動き検出部３５６は、当該動き検出対象領域における動きを検出する。

　図１４は、本実施形態による情報処理システムの動作の第一の変形例を説明するフローチャート図である。なお、図１４において、Ｓ１００、Ｓ２００、Ｓ３００、Ｓ５００、Ｓ７００、および、Ｓ８００は、上記で図３を参照して説明した通りであるので、ここでの詳細な説明を省略する。

　まず、Ｓ１００～Ｓ３００の処理が行われる。続いて、画像認識部３５４により、カメラ１０から取得された画像データにおいて所定の物体が認識された場合（Ｓ３００／ＹＥＳ）、動き検出部３５６は、カメラ２０から取得した画像データ上で、画像認識部３５４により認識された所定の物体に対応する領域を、動き検出対象領域として特定する（Ｓ３１０）。

　動き検出部３５６は、特定された動き検出対象領域において、動きを検出する（Ｓ４１０）。続いて、Ｓ５００～Ｓ８００の処理が行われる。

　以上、図１４を参照して、第一の変形例を説明した。本変形例では、動き検出部３５６は、画像データ上で動きを検出する対象領域を、画像認識部３５４による画像認識の結果に基づいて絞り込む。そして、動き検出部３５６は、絞り込んだ動き検出対象領域の範囲で動きの検出を行う。この構成により、動き検出部３５６による動きの検出の処理に係る負荷を低減することができる。また、情報処理装置３０の消費電力の低減を見込むことが出来る。また、上記変形例は、第一の動作例～第五の動作例に組み入れて実施することが可能である。

　さらに、上記説明した第一の変形例に、動き検出部３５６による動きの検出の処理を組み合わせることも可能である。より具体的には、図１４に示したＳ７００の処理の前に、動き検出部３５６が、カメラ１０またはカメラ２０により得られた画像データ上で、画像認識Ａおよび画像認識Ｂで認識された異なる種類の所定の物体に対応する領域から動きを検出してもよい。物体検出部３５８は、動き検出部３５６により当該領域から動きが検出された場合に、出力制御部３５９に検出情報を出力してもよい。この構成により、情報処理装置３０による画像認識を用いた人の検出の精度を、さらに向上させることが出来る。

　（第二の変形例）
　続いて、第二の変形例を説明する。第二の変形例では、情報処理装置３０は、画像認識部３５４による画像認識処理および動き検出部３５６による動きの検出の処理を並列して実行する。

図１５は、本実施形態による情報処理システムの動作の第二の変形例を説明するフローチャート図である。なお、図１５において、Ｓ１００、Ｓ７００、および、Ｓ８００は、上記で図３を参照して説明した通りであるので、ここでの詳細な説明を省略する。

　まず、Ｓ１００の処理が行われる。続いて、Ｓ１００においてカメラ１０およびカメラ２０から取得された画像データを用いて、動き検出部３５６による動きの検出の処理（Ｓ２８１）、および、画像認識部３５４による画像認識の処理（Ｓ２８２）が並列して実行される。

　Ｓ２８１において動き検出部３５６により動きが検出され、かつ、Ｓ２８２において画像認識部３５４により所定の物体が認識された場合（Ｓ４８０／ＹＥＳ）、Ｓ７００およびＳ８００の処理が行われる。

　Ｓ２８１において動き検出部３５６により動きが検出されない、または、Ｓ２８２において画像認識部３５４により所定の物体が認識されなかった場合（Ｓ４８０／ＮＯ）、Ｓ１００、Ｓ２８１、Ｓ２８２の処理が繰り返される。

　以上、図１５を参照して、本実施形態による情報処理システムの動作の第二の変形例を説明した。上記説明したように、本動作例では、画像認識部３５４による画像認識の処理と、動き検出部３５６による動きの検出の処理が、並列して実行される。この構成により、画像認識部３５４によってカメラ１０から得られた画像データ上で所定の物体が検出され、また、動き検出部３５６によってカメラ２０から得られた画像データ上で動きが検出されてから、物体検出部３５８により検出の結果が出力されるまでのレイテンシを低減することが出来る。本変形例は、上記説明した第一の動作例～第十一の動作例、および、第一の変形例に適用することが可能である。

　（システム構成の変形例）
　なお、本実施形態による情報処理装置３０は、図１に示した例では、工事現場の事務所等に設置され、カメラ１０およびカメラ２０とローカルネットワーク５により通信可能に構成されているとした。しかし、本実施形態による情報処理システムは、他のシステム構成を採る事も出来る。例えば、情報処理装置３０による画像認識の処理、動きの検出の処理、および、検出情報の出力の処理を、情報処理装置３０と通信可能に構成されたローカルネットワーク外のエッジサーバ、または、クラウドサーバが行ってもよい。情報処理装置３０は、当該エッジサーバ、または、クラウドサーバから処理結果を受信し、当該処理結果に基づいて、出力装置４０への物体検出結果の出力制御を行ってもよい。

　図１６は、本実施形態による情報処理システムの構成の変形例を説明する説明図である。図１６において、作業員Ｕ、物体Ｏ、カメラ１０、カメラ２０、出力装置４０、および、建設機械Ｍ１は、図１を参照して上記で説明した通りであるので、ここでの詳細な説明を省略する。

　図１６に示したように、本変形例による情報処理システムは、エッジサーバ５０、および、クラウドサーバ６０を含む。エッジサーバ５０は、情報処理装置３０と基地局６を介して通信可能に構成されている。また、クラウドサーバ６０は、情報処理装置３０およびエッジサーバ５０と、基地局６およびネットワーク７を介して通信可能に構成されている。

　本変形例では、情報処理装置３０は、カメラ１０およびカメラ２０から取得した画像データをエッジサーバ５０またはクラウドサーバ６０に送信する中継サーバとして機能する。さらに、情報処理装置３０は、エッジサーバ５０またはクラウドサーバ６０から受信した画像認識処理、動き検出の処理、または、検出情報に従って、出力装置４０に物体検出結果を出力させる制御を行う。

　エッジサーバ５０は、カメラ１０、カメラ２０、および情報処理装置３０が属するローカルネットワーク外に設置され、基地局６を介して情報処理装置３０と通信を行うサーバである。エッジサーバ５０は、情報処理装置３０の画像認識部３５４、および、動き検出部３５６と同等の機能を有していてもよい。例えば、エッジサーバ５０は、情報処理装置３０から受信したカメラ１０の画像データから、画像認識により所定の物体を認識する処理を行ってもよい。また、エッジサーバ５０は、カメラ２０から取得した画像データから、動きの検出の処理を行ってもよい。さらに、エッジサーバ５０は、画像認識の処理の結果、および、動きの検出の処理の結果を、ネットワーク７を介してクラウドサーバ６０に送信してもよい。

　クラウドサーバ６０は、情報処理装置３０およびエッジサーバ５０と、基地局６およびネットワーク７を介して通信可能に構成されたクラウドサーバである。クラウドサーバ６０は、情報処理装置３０の物体検出部３５８と同等の機能を有していてもよい。例えば、クラウドサーバ６０は、エッジサーバ５０から画像認識の処理の結果、および、動きの検出の処理の結果を受信して、検出情報を出力してもよい。クラウドサーバ６０は、当該検出情報を情報処理装置３０に送信してもよい。

　あるいは、エッジサーバ５０が、上記画像認識の処理、動きの検出の処理、および、検出情報の出力の処理を行って、処理の結果を情報処理装置３０に送信してもよい。

　上記説明したようなシステム構成によれば、情報処理装置３０の画像認識部３５４による画像認識の処理、動き検出部３５６による動きの検出の処理、および、物体検出部３５８による検出情報の出力の処理が、情報処理装置３０、エッジサーバ５０およびクラウドサーバ６０により分散して実行される。このような変形例は、本実施形態による情報処理システムが出力する物体検出結果の利用目的に応じた望ましいレイテンシが確保できる場合に採用され得る。このような変形例により、本開示による情報処理システムの利用者は、本情報処理システムを構成するために導入可能なハードウェア資源に応じて、柔軟にシステム構成を行うことが出来る。

　＜５．ハードウェア構成例＞
　以上、本開示の一実施形態を説明した。上述した、情報処理装置３０による、画像認識の処理、画像データからの動きの検出の処理、画像データ上で所定の物体が認識された領域と動きが検出された領域の対応の検出の処理、および、検出情報の出力の処理は、ソフトウェアと、情報処理装置３０のハードウェアとの協働により実現される。以下では、本開示の実施形態による情報処理装置３０のハードウェア構成例について説明する。なお、カメラ１０、カメラ２０、エッジサーバ５０、および、クラウドサーバ６０のハードウェア構成も、情報処理装置３０のハードウェア構成と同様に実現され得る。

　カメラ１０、カメラ２０、情報処理装置３０、エッジサーバ５０、および、クラウドサーバ６０による処理は、１または複数の情報処理装置により実現され得る。図１７は、本開示による情報処理装置３０のハードウェア構成例を示すブロック図である。なお、以下に説明する情報処理装置３０のハードウェア構成例は、情報処理装置３０、エッジサーバ５０、およびクラウドサーバ６０のハードウェア構成の一例に過ぎない。したがって、カメラ１０、カメラ２０、情報処理装置３０、エッジサーバ５０、およびクラウドサーバ６０は、それぞれ、必ずしも図１７に示したハードウェア構成の全部を有している必要はない。また、カメラ１０、カメラ２０、情報処理装置３０、エッジサーバ５０、またはクラウドサーバ６０の中に、図１７に示したハードウェア構成の一部が存在しなくてもよい。

　図１７に示すように、情報処理装置９００は、ＣＰＵ９０１、ＲＯＭ（Ｒｅａｄ　Ｏｎｌｙ　Ｍｅｍｏｒｙ）９０３、およびＲＡＭ９０５を含む。また、情報処理装置９００は、ホストバス９０７、ブリッジ９０９、外部バス９１１、インターフェース９１３、入力装置９１５、出力装置９１７、ストレージ装置９１９、ドライブ９２１、接続ポート９２３、通信装置９２５を含んでもよい。情報処理装置９００は、ＣＰＵ９０１に代えて、またはこれとともに、ＧＰＵ（Ｇｒａｐｈｉｃｓ　Ｐｒｏｃｅｓｓｉｎｇ　Ｕｎｉｔ）、ＤＳＰ（Ｄｉｇｉｔａｌ　Ｓｉｇｎａｌ　Ｐｒｏｃｅｓｓｏｒ）またはＡＳＩＣ（Ａｐｐｌｉｃａｔｉｏｎ　Ｓｐｅｃｉｆｉｃ　Ｉｎｔｅｇｒａｔｅｄ　Ｃｉｒｃｕｉｔ）と呼ばれるような処理回路を有してもよい。

　ＣＰＵ９０１は、演算処理装置および制御装置として機能し、ＲＯＭ９０３、ＲＡＭ９０５、ストレージ装置９１９、またはリムーバブル記録媒体９２７に記録された各種プログラムに従って、情報処理装置９００内の動作全般またはその一部を制御する。ＲＯＭ９０３は、ＣＰＵ９０１が使用するプログラムや演算パラメータなどを記憶する。ＲＡＭ９０５は、ＣＰＵ９０１の実行において使用するプログラムや、その実行において適宜変化するパラメータなどを一時的に記憶する。ＣＰＵ９０１、ＲＯＭ９０３、およびＲＡＭ９０５は、ＣＰＵバスなどの内部バスにより構成されるホストバス９０７により相互に接続されている。さらに、ホストバス９０７は、ブリッジ９０９を介して、ＰＣＩ（Ｐｅｒｉｐｈｅｒａｌ　Ｃｏｍｐｏｎｅｎｔ　Ｉｎｔｅｒｃｏｎｎｅｃｔ／Ｉｎｔｅｒｆａｃｅ）バスなどの外部バス９１１に接続されている。

　入力装置９１５は、例えば、ボタンなど、ユーザによって操作される装置である。入力装置９１５は、マウス、キーボード、タッチパネル、スイッチおよびレバーなどを含んでもよい。また、入力装置９１５は、ユーザの音声を検出するマイクロフォンを含んでもよい。入力装置９１５は、例えば、赤外線やその他の電波を利用したリモートコントロール装置であってもよいし、情報処理装置９００の操作に対応した携帯電話などの外部接続機器９２９であってもよい。入力装置９１５は、ユーザが入力した情報に基づいて入力信号を生成してＣＰＵ９０１に出力する入力制御回路を含む。ユーザは、この入力装置９１５を操作することによって、情報処理装置９００に対して各種のデータを入力したり処理動作を指示したりする。

　また、入力装置９１５は、撮像装置、およびセンサを含んでもよい。撮像装置は、例えば、ＣＣＤ（Ｃｈａｒｇｅ　Ｃｏｕｐｌｅｄ　Ｄｅｖｉｃｅ）またはＣＭＯＳ（Ｃｏｍｐｌｅｍｅｎｔａｒｙ　Ｍｅｔａｌ　Ｏｘｉｄｅ　Ｓｅｍｉｃｏｎｄｕｃｔｏｒ）などの撮像素子、および撮像素子への被写体像の結像を制御するためのレンズなどの各種の部材を用いて実空間を撮像し、撮像画像を生成する装置である。撮像装置は、静止画を撮像するものであってもよいし、また動画を撮像するものであってもよい。

　センサは、例えば、測距センサ、加速度センサ、ジャイロセンサ、地磁気センサ、振動センサ、光センサ、音センサなどの各種のセンサである。センサは、例えば情報処理装置９００の筐体の姿勢など、情報処理装置９００自体の状態に関する情報や、情報処理装置９００の周辺の明るさや騒音など、情報処理装置９００の周辺環境に関する情報を取得する。また、センサは、ＧＰＳ（Ｇｌｏｂａｌ　Ｐｏｓｉｔｉｏｎｉｎｇ　Ｓｙｓｔｅｍ）信号を受信して装置の緯度、経度および高度を測定するＧＰＳセンサを含んでもよい。

　出力装置９１７は、取得した情報をユーザに対して視覚的または聴覚的に通知することが可能な装置で構成される。出力装置９１７は、例えば、ＬＣＤ（Ｌｉｑｕｉｄ　Ｃｒｙｓｔａｌ　Ｄｉｓｐｌａｙ）、有機ＥＬ（Ｅｌｅｃｔｒｏ－Ｌｕｍｉｎｅｓｃｅｎｃｅ）ディスプレイなどの表示装置、スピーカおよびヘッドホンなどの音出力装置などであり得る。また、出力装置９１７は、ＰＤＰ（Ｐｌａｓｍａ　Ｄｉｓｐｌａｙ　Ｐａｎｅｌ）、プロジェクター、ホログラム、プリンタ装置などを含んでもよい。出力装置９１７は、情報処理装置９００の処理により得られた結果を、テキストまたは画像などの映像として出力したり、音声または音響などの音として出力したりする。また、出力装置９１７は、周囲を明るくする照明装置などを含んでもよい。

　ストレージ装置９１９は、情報処理装置９００の記憶部の一例として構成されたデータ格納用の装置である。ストレージ装置９１９は、例えば、ＨＤＤ（Ｈａｒｄ　Ｄｉｓｋ　Ｄｒｉｖｅ）などの磁気記憶デバイス、半導体記憶デバイス、光記憶デバイス、または光磁気記憶デバイスなどにより構成される。このストレージ装置９１９は、ＣＰＵ９０１が実行するプログラムや各種データ、および外部から取得した各種のデータなどを格納する。

　ドライブ９２１は、磁気ディスク、光ディスク、光磁気ディスク、または半導体メモリなどのリムーバブル記録媒体９２７のためのリーダライタであり、情報処理装置９００に内蔵、あるいは外付けされる。ドライブ９２１は、装着されているリムーバブル記録媒体９２７に記録されている情報を読み出して、ＲＡＭ９０５に出力する。また、ドライブ９２１は、装着されているリムーバブル記録媒体９２７に記録を書き込む。

　接続ポート９２３は、機器を情報処理装置９００に直接接続するためのポートである。接続ポート９２３は、例えば、ＵＳＢ（Ｕｎｉｖｅｒｓａｌ　Ｓｅｒｉａｌ　Ｂｕｓ）ポート、ＩＥＥＥ１３９４ポート、ＳＣＳＩ（Ｓｍａｌｌ　Ｃｏｍｐｕｔｅｒ　Ｓｙｓｔｅｍ　Ｉｎｔｅｒｆａｃｅ）ポートなどであり得る。また、接続ポート９２３は、ＲＳ－２３２Ｃポート、光オーディオ端子、ＨＤＭＩ（登録商標）（Ｈｉｇｈ－Ｄｅｆｉｎｉｔｉｏｎ　Ｍｕｌｔｉｍｅｄｉａ　Ｉｎｔｅｒｆａｃｅ）ポートなどであってもよい。接続ポート９２３に外部接続機器９２９を接続することで、情報処理装置９００と外部接続機器９２９との間で各種のデータが交換され得る。

　通信装置９２５は、例えば、ローカルネットワーク５、または、基地局６との通信ネットワークに接続するための通信デバイスなどで構成された通信インターフェースである。通信装置９２５は、例えば、有線または無線ＬＡＮ（Ｌｏｃａｌ　Ａｒｅａ　Ｎｅｔｗｏｒｋ）、Ｂｌｕｅｔｏｏｔｈ（登録商標）、Ｗｉ－Ｆｉ（登録商標）、またはＷＵＳＢ（Ｗｉｒｅｌｅｓｓ　ＵＳＢ）用の通信カードなどであり得る。また、通信装置９２５は、光通信用のルータ、ＡＤＳＬ（Ａｓｙｍｍｅｔｒｉｃ　Ｄｉｇｉｔａｌ　Ｓｕｂｓｃｒｉｂｅｒ　Ｌｉｎｅ）用のルータ、または、各種通信用のモデムなどであってもよい。通信装置９２５は、例えば、インターネットや他の通信機器との間で、ＴＣＰ／ＩＰなどの所定のプロトコルを用いて信号などを送受信する。また、通信装置９２５に接続されるローカルネットワーク５または基地局６との通信ネットワークは、有線または無線によって接続されたネットワークであり、例えば、インターネット、家庭内ＬＡＮ、赤外線通信、ラジオ波通信または衛星通信などである。

　＜６．むすび＞
　以上、添付図面を参照しながら本開示の好適な実施形態について詳細に説明したが、本開示はかかる例に限定されない。本開示の属する技術の分野における通常の知識を有する者であれば、請求の範囲に記載された技術的思想の範疇内において、各種の変更例または修正例に想到し得ることは明らかであり、これらについても、当然に本開示の技術的範囲に属するものと了解される。

　例えば、上記実施形態では、カメラ１０およびカメラ２０は、土木建設作業の工事現場等に設置されるセンサである例を説明したが、本開示はかかる例に限定されない。例えば、カメラ１０およびカメラ２０は、人が身体に装着してハンズフリーで撮影を行うことが可能な、軽量小型ビデオカメラであってもよい。この場合、作業員Ｕが装着しているビデオカメラにより撮像された画像データを用いて、情報処理装置３０による画像認識および動きの検出が行われてもよい。

　また、上記実施形態では、カメラ１０、カメラ２０、および、情報処理装置３０が別の装置である例を説明したが、本開示はかかる例に限定されない。例えば、情報処理装置３０は、カメラ１０またはカメラ２０のいずれか、あるいは両方に内蔵されていてもよい。または、カメラ１０、カメラ２０、および、情報処理装置３０が、同一の装置上で実現されていてもよい。この場合、カメラ１０またはカメラ２０による画像データの取得が行われてから、当該画像データからの画像認識および動きの検出が行われるまでの遅延を低減することが出来る。

　また、上記実施形態では、教師データ記憶部３３０および学習データ記憶部３４０が情報処理装置３０内の構成である例を示したが、本開示は係る例に限定されない。例えば、教師データ記憶部３３０および学習データ記憶部３４０は、情報処理装置３０と通信可能に構成された外部記憶装置として実現されてもよい。または、教師データ記憶部３３０および学習データ記憶部３４０は、情報処理装置３０と通信可能に構成されたサーバ上で実現されてもよく、エッジサーバ５０、または、クラウドサーバ６０上で実現されてもよい。この場合、情報処理装置３０の学習部３５２および画像認識部３５４は、基地局６およびネットワーク７を介してエッジサーバ５０およびクラウドサーバ６０上で実現された教師データ記憶部３３０または学習データ記憶部３４０を更新または参照してもよい。

　また、上記実施形態では、センサ２０にイベントベースカメラが採用された場合の動作例として、センサ１０には複眼ＲＧＢカメラまたはＴＯＦカメラが採用される例を説明した。しかし、本実施形態による情報処理システムに含まれるセンサが、イベントベースカメラであるカメラ１０の１台のみで構成されることも可能である。この場合、画像認識部３５４は、イベントベースカメラにより撮像された画像データを教師データとして学習を行うことにより作成されたモデルを用いて、画像認識を行う。この構成では、教師データとなる画像データのサンプルを十分に確保することが出来れば、１台のイベントベースカメラで、画像認識に用いられる画像データの取得および動きの検出を同時に行うことが出来る。従って、出力制御部３５９により出力される物体検出結果を用いて、建設機械の自動制御または警報器からの警報の出力等の処理を行いたい場合に、レイテンシの低減を見込むことが出来る。また、情報処理装置３０側での、動きの検出の処理負荷が軽減され、情報処理装置３０での消費電力の低減も見込むことが出来る。

　また、カメラ１０およびカメラ２０は、異なる２台のイベントベースカメラにより構成されてもよい。この場合、カメラ１０およびカメラ２０は、設置位置、向き、および画角が、物体検出部３５８による領域の対応の検出において同一と見做せる程度に、近似していることが望ましい。

　さらに、上記実施形態では、本開示による情報処理システムの好適な実施形態として、土木建設作業等の工事現場で利用される実施例を説明したが、本開示はかかる例に限定されない。例えば、本開示による情報処理システムは、飛行場または飛行機の整備場等に適用されてもよい。または、本開示による情報処理システムは、製造業の工場等に適用されてもよい。さらに、本開示による情報処理システムは、作業員の様子をカメラ等のセンサで撮像し、撮像された画像データから画像認識により作業員を検出したい場合に、上記例示以外の他の場面にも適用し得る。例えば、飛行場または飛行機の整備場では、作業員が飛行機の側で整備作業を行うので、当該飛行場または整備場の様子を撮像した画像データ上で、作業員の体の一部または全部が飛行機等の陰に隠れてしまい見えなくなることが想定される。しかし、作業員がヘルメットまたは反射ベスト等の装備品等を装着していれば、本開示による情報処理システムを用いて、上記画像データから上記作業員を精度よく検出することが出来る。

　また、本実施形態によるカメラ１０、カメラ２０、および、情報処理装置３０の動作の処理におけるステップは、必ずしも説明図として記載された順序に沿って時系列に処理する必要はない。例えば、カメラ１０、カメラ２０、および、情報処理装置３０の動作の処理における各ステップは、説明図として記載した順序と異なる順序で処理されてもよく、並列的に処理されてもよい。

　また、上述した情報処理装置９００に内蔵されるＣＰＵ、ＲＯＭおよびＲＡＭなどのハードウェアに、本実施形態による情報処理システムの機能を発揮させるための１以上のコンピュータプログラムも作成可能である。また、当該１以上のコンピュータプログラムを記憶させたコンピュータ読み取り可能な記憶媒体も提供される。

　また、本明細書に記載された効果は、あくまで説明的または例示的なものであって限定的ではない。つまり、本開示に係る技術は、上記の効果とともに、または上記の効果に代えて、本明細書の記載から当業者には明らかな他の効果を奏しうる。

　なお、本技術は以下のような構成も取ることができる。
（１）
　画像データから物体を認識する画像認識部と、
　センサにより取得されたセンシングデータにおける動きを検出する動き検出部と、
　所定の物体であることが前記画像認識部により認識され、かつ、前記動き検出部により動きが検出された領域に対応する物体を検出する物体検出部と、
を備える、情報処理装置。
（２）
　前記動き検出部は、前記センシングデータにおいて、前記画像認識部により認識された前記所定の物体に対応する領域を動き検出対象領域として特定し、
　前記動き検出対象領域における動きを検出する、
前記（１）に記載の情報処理装置。
（３）
　前記画像認識部は、前記画像データにおいて、前記動き検出部による動きの検出結果に基づいて物体認識対象領域を特定し、
　前記物体認識対象領域から物体を認識する、
前記（１）に記載の情報処理装置。
（４）
　前記画像認識部は、前記動き検出部による前記センシングデータにおける動きの検出処理の実行と並列して、前記画像データから物体を認識する処理を実行する、
前記（１）に記載の情報処理装置。
（５）
　前記画像データおよび前記センシングデータは、同一のカメラにより得られる同一種類のデータである、
前記（１）～（４）のいずれか一項に記載の情報処理装置。
（６）
　前記画像データおよび前記センシングデータは、近赤外線を利用したＴＯＦカメラにより得られる赤外線画像データである、
前記（５）に記載の情報処理装置。
（７）
　前記画像データおよび前記センシングデータは、可視光を利用したカメラにより得られた色情報を含む画像データ、または、画素ごとの輝度変化を検出するイベントベース方式のセンサにより得られた画像データである、
前記（５）に記載の情報処理装置。
（８）
　前記画像データおよび前記センシングデータは、異なるカメラにより得られる種類が異なるデータである、
前記（１）～（４）のいずれか一項に記載の情報処理装置。
（９）
　前記画像データは、可視光を利用したカメラにより得られた色情報を含む画像データであり、
前記センシングデータは、近赤外線を利用したＴＯＦカメラにより得られる赤外線画像データである、
前記（８）に記載の情報処理装置。
（１０）
　前記画像データは、可視光を利用したカメラにより得られた色情報を含む画像データ、近赤外線を利用したＴＯＦカメラにより得られる赤外線画像データ、または、画素ごとの輝度変化を検出するイベントベース方式のセンサにより得られた画像データのいずれかであり、
　前記センシングデータは、可視光を利用したカメラにより得られた色情報を含む画像データ、近赤外線を利用したＴＯＦカメラにより得られる赤外線画像データ、または、画素ごとの輝度変化を検出するイベントベース方式のセンサにより得られた画像データのいずれかである、
前記（８）に記載の情報処理装置。
（１１）
　前記物体検出部による検出の結果に基づいて、前記所定の物体が検出されたか否かを示す情報、前記所定の物体の位置、または、前記所定の物体と所定の基準点からの距離情報の少なくともいずれか１つ以上を含む、物体検出結果を出力する出力部、
をさらに備える、前記（１）～（９）のいずれか一項に記載の情報処理装置。
（１２）
　画像データから物体を認識する画像認識部と、
　互いに種類が異なる所定の物体であることが前記画像認識部により認識された複数の物体を検出する物体検出部と、
を備える、情報処理装置。
（１３）
　センサにより取得されたセンシングデータにおける動きを検出する動き検出部をさらに備え、
　前記物体検出部は、互いに種類が異なる所定の物体であることが前記画像認識部により認識され、かつ、前記動き検出部により動きが検出された領域に対応する１以上の物体を検出する、
前記（１２）に記載の情報処理装置。
（１４）
　前記所定の物体は、人により把持または装着される物体であり、
　前記画像認識部は、前記所定の物体の画像データ、前記所定の物体が人により把持または装着されている様子の画像データ、および、前記所定の物体を把持および装着していない人の画像データを、機械学習を用いて学習し、
　前記学習の結果作成されたモデルを用いて、画像データから物体を認識する、
前記（１）～（１３）のいずれか一項に記載の情報処理装置。
（１５）
　前記所定の物体は、発光部、または、光を再帰性反射する部材により構成された物体を含む、
前記（１３）に記載の情報処理装置。
（１６）
　コンピュータを、
　画像データから物体を認識する画像認識部と、
　センサにより取得されたセンシングデータにおける動きを検出する動き検出部と、
　所定の物体であることが前記画像認識部により認識され、かつ、前記動き検出部により動きが検出された領域に対応する物体を検出する物体検出部
として機能させるためのプログラム。

　５　ローカルネットワーク
　６　基地局
　７　ネットワーク
　１０　カメラ
　２０　カメラ
　３０　情報処理装置
　　３１０　取得部
　　３２０　制御情報記憶部
　　３３０　教師データ記憶部
　　３４０　学習データ記憶部
　　３５０　制御部
　　３５２　学習部
　　３５４　画像認識部
　　３５６　動き検出部
　　３５８　物体検出部
　　３５９　出力制御部
　　３６０　操作部
　４０　出力装置
　５０　エッジサーバ
　６０　クラウドサーバ
　Ｏ　物体
　Ｕ　作業員

Claims

　画像データから物体を認識する画像認識部と、
　センサにより取得されたセンシングデータにおける動きを検出する動き検出部と、
　所定の物体であることが前記画像認識部により認識され、かつ、前記動き検出部により動きが検出された領域に対応する物体を検出する物体検出部と、
を備える、情報処理装置。
　前記動き検出部は、前記センシングデータにおいて、前記画像認識部により認識された前記所定の物体に対応する領域を動き検出対象領域として特定し、
　前記動き検出対象領域における動きを検出する、
請求項１に記載の情報処理装置。
　前記画像認識部は、前記画像データにおいて、前記動き検出部による動きの検出結果に基づいて物体認識対象領域を特定し、
　前記物体認識対象領域から物体を認識する、
請求項１に記載の情報処理装置。
　前記画像認識部は、前記動き検出部による前記センシングデータにおける動きの検出処理の実行と並列して、前記画像データから物体を認識する処理を実行する、
請求項１に記載の情報処理装置。
　前記画像データおよび前記センシングデータは、同一のカメラにより得られる同一種類のデータである、
請求項１に記載の情報処理装置。
　前記画像データおよび前記センシングデータは、近赤外線を利用したＴＯＦカメラにより得られる赤外線画像データである、
請求項５に記載の情報処理装置。
　前記画像データおよび前記センシングデータは、可視光を利用したカメラにより得られた色情報を含む画像データ、または、画素ごとの輝度変化を検出するイベントベース方式のセンサにより得られた画像データである、
請求項５に記載の情報処理装置。
　前記画像データおよび前記センシングデータは、異なるカメラにより得られる種類が異なるデータである、
請求項１に記載の情報処理装置。
　前記画像データは、可視光を利用したカメラにより得られた色情報を含む画像データであり、
前記センシングデータは、近赤外線を利用したＴＯＦカメラにより得られる赤外線画像データである、
請求項８に記載の情報処理装置。
　前記画像データは、可視光を利用したカメラにより得られた色情報を含む画像データ、近赤外線を利用したＴＯＦカメラにより得られる赤外線画像データ、または、画素ごとの輝度変化を検出するイベントベース方式のセンサにより得られた画像データのいずれかであり、
　前記センシングデータは、可視光を利用したカメラにより得られた色情報を含む画像データ、近赤外線を利用したＴＯＦカメラにより得られる赤外線画像データ、または、画素ごとの輝度変化を検出するイベントベース方式のセンサにより得られた画像データのいずれかである、
請求項８に記載の情報処理装置。
　前記物体検出部による検出の結果に基づいて、前記所定の物体が検出されたか否かを示す情報、前記所定の物体の位置、または、前記所定の物体と所定の基準点からの距離情報の少なくともいずれか１つ以上を含む、物体検出結果を出力する出力部、
をさらに備える、請求項１に記載の情報処理装置。
　画像データから物体を認識する画像認識部と、
　互いに種類が異なる所定の物体であることが前記画像認識部により認識された複数の物体を検出する物体検出部と、
を備える、情報処理装置。
　センサにより取得されたセンシングデータにおける動きを検出する動き検出部をさらに備え、
　前記物体検出部は、互いに種類が異なる所定の物体であることが前記画像認識部により認識され、かつ、前記動き検出部により動きが検出された領域に対応する１以上の物体を検出する、
請求項１２に記載の情報処理装置。
　前記所定の物体は、人により把持または装着される物体であり、
　前記画像認識部は、前記所定の物体の画像データ、前記所定の物体が人により把持または装着されている様子の画像データ、および、前記所定の物体を把持および装着していない人の画像データを、機械学習を用いて学習し、
　前記学習の結果作成されたモデルを用いて、画像データから物体を認識する、
請求項１に記載の情報処理装置。
　前記所定の物体は、発光部、または、光を再帰性反射する部材により構成された物体を含む、
請求項１３に記載の情報処理装置。
　コンピュータを、
　画像データから物体を認識する画像認識部と、
　センサにより取得されたセンシングデータにおける動きを検出する動き検出部と、
　所定の物体であることが前記画像認識部により認識され、かつ、前記動き検出部により動きが検出された領域に対応する物体を検出する物体検出部
として機能させるためのプログラム。