WO2022064632A1

WO2022064632A1 - 画像処理装置、画像処理方法及びプログラム

Info

Publication number: WO2022064632A1
Application number: PCT/JP2020/036225
Authority: WO
Inventors: カレンステファン; 健全劉
Original assignee: 日本電気株式会社
Priority date: 2020-09-25
Filing date: 2020-09-25
Publication date: 2022-03-31
Also published as: US20230368576A1; JPWO2022064632A1

Abstract

本発明は、魚眼レンズカメラで生成された魚眼画像をパノラマ展開したパノラマ画像を画像解析し、パノラマ画像が示す人物行動を推定する第１の推定部（１１）と、魚眼画像の一部領域である魚眼部分画像をパノラマ展開せずに画像解析し、魚眼部分画像が示す人物行動を推定する第２の推定部（１２）と、パノラマ画像に基づく推定結果と、魚眼部分画像に基づく推定結果とに基づき、魚眼画像が示す人物行動を推定する第３の推定部（１３）と、を有する画像処理装置（１０）を提供する。

Description

画像処理装置、画像処理方法及びプログラム

　本発明は、画像処理装置、画像処理方法及びプログラムに関する。

　特許文献１は、トレーニング画像と事業店舗位置を識別する情報とで機械学習を行う技術を開示している。そして、特許文献１は、パノラマ画像、視野が１８０°より大きい画像等をトレーニング画像にできることを開示している。

　非特許文献１は、３Ｄ－ＣＮＮ（convolutional neural network）に基づき動画像が示す人物行動を推定する技術を開示している。

特表２０１８－５２４６７８号公報

Kensho Hara、他２名、" Can Spatiotemporal 3D CNNs Retrace the History of 2D CNNs and ImageNet?"、［online］、Proceedings of the IEEE conference on Computer Vision and Pattern Recognition (pp. 6546-6555)、［令和１年５月２８日検索］、インターネット<URL: http://openaccess.thecvf.com/content_cvpr_2018/papers/Hara_Can_Spatiotemporal_3D_CVPR_2018_paper.pdf>

　魚眼レンズを利用すると広範囲を撮影することができる。このような特性を活かし、魚眼レンズは監視カメラ等で広く利用されている。そこで、本発明者らは、魚眼レンズを用いて生成された画像（以下、「魚眼画像」という場合がある）に基づき人物行動を推定する技術を検討した。

　魚眼画像においては、歪みが発生する為、画像内の位置毎に重力方向が異なり得る。このため、起立した人物の身体が伸びる方向が画像内の位置毎に異なる等の不自然な状況が発生し得る。標準レンズ（例えば画角４０°前後～６０°前後）を用いて生成された画像（学習データ）に基づく機械学習で生成された人物行動推定モデルにこのような魚眼画像を入力しても、十分な推定結果を得られない。

　当該問題を解決する手段として、魚眼画像をパノラマ展開してパノラマ画像を生成し、当該パノラマ画像を上述した人物行動推定モデルに入力する手段が考えられる。ここで、図１を用いてパノラマ展開の概要を説明する。

　まず、基準線Ｌ_ｓ、基準点（ｘ_ｃ、ｙ_ｃ）、幅ｗ、高さｈを定める。基準線Ｌ_ｓは、基準点（ｘ_ｃ、ｙ_ｃ）と円形画像の外周上の任意の点とを結ぶ線であり、パノラマ展開する際に魚眼画像を切り開く位置となる。この基準線Ｌ_ｓ付近の画像が、パノラマ画像において端部に位置する。基準線Ｌ_ｓの定め方は様々である。基準点（ｘ_ｃ、ｙ_ｃ）は、魚眼画像の円形のイメージサークル内画像の点であり、例えば円の中心である。幅ｗはパノラマ画像の幅であり、高さｈはパノラマ画像の高さである。これらの値はデフォルト値であってもよいし、ユーザが任意に設定してもよい。

　これらの値が定まると、図示する「パノラマ展開」の式に基づき、魚眼画像内の任意の対象点（ｘ_ｆ、ｙ_ｆ）を、パノラマ画像内の点（ｘ_ｐ、ｙ_ｐ）に変換することができる。魚眼画像内の任意の対象点（ｘ_ｆ、ｙ_ｆ）を指定すると、基準点（ｘ_ｃ、ｙ_ｃ）と対象点（ｘ_ｆ、ｙ_ｆ）との距離ｒ_ｆを算出できる。同様に、基準点（ｘ_ｃ、ｙ_ｃ）と対象点（ｘ_ｆ、ｙ_ｆ）を結ぶ線と基準線Ｌ_ｓとのなす角θが算出できる。結果、図示する「パノラマ展開」の式における変数ｗ、θ、ｈ、ｒ_ｆ及びｒの値が定まる。なお、ｒは、イメージサークル内画像の半径である。これらの変数の値を当該式に代入することで、点（ｘ_ｐ、ｙ_ｐ）を算出することができる。

　また、図示する「逆パノラマ展開」の式より、パノラマ画像を魚眼画像に変換することもできる。

　確かに、魚眼画像をパノラマ展開してパノラマ画像を生成することで、起立した人物の身体が伸びる方向が画像内の位置毎に異なる等の不自然さを軽減できる。しかし、上述したパノラマ展開の手法の場合、魚眼画像からパノラマ画像を生成する際に基準点（ｘ_ｃ、ｙ_ｃ）付近の画像が大きく引き伸ばされるため、基準点（ｘ_ｃ、ｙ_ｃ）付近の人物がパノラマ画像において大きく歪み得る。このため、パノラマ画像に基づく人物行動の推定において、その歪んだ人物を検出できなかったり、推定精度が低下したりという問題が発生し得る。

　本発明の課題は、魚眼画像に含まれる人物の行動を高精度に推定することである。

　本発明によれば、
　魚眼レンズカメラで生成された魚眼画像をパノラマ展開したパノラマ画像を画像解析し、前記パノラマ画像が示す人物行動を推定する第１の推定手段と、
　前記魚眼画像の一部領域である魚眼部分画像をパノラマ展開せずに画像解析し、前記魚眼部分画像が示す人物行動を推定する第２の推定手段と、
　前記パノラマ画像に基づく推定結果と、前記魚眼部分画像に基づく推定結果とに基づき、前記魚眼画像が示す人物行動を推定する第３の推定手段と、
を有する画像処理装置が提供される。

　また、本発明によれば、
　コンピュータが、
　　魚眼レンズカメラで生成された魚眼画像をパノラマ展開したパノラマ画像を画像解析し、前記パノラマ画像が示す人物行動を推定し、
　　前記魚眼画像の一部領域である魚眼部分画像をパノラマ展開せずに画像解析し、前記魚眼部分画像が示す人物行動を推定し、
　　前記パノラマ画像に基づく推定結果と、前記魚眼部分画像に基づく推定結果とに基づき、前記魚眼画像が示す人物行動を推定する画像処理方法が提供される。

　また、本発明によれば、
　コンピュータを、
　　魚眼レンズカメラで生成された魚眼画像をパノラマ展開したパノラマ画像を画像解析し、前記パノラマ画像が示す人物行動を推定する第１の推定手段、
　　前記魚眼画像の一部領域である魚眼部分画像をパノラマ展開せずに画像解析し、前記魚眼部分画像が示す人物行動を推定する第２の推定手段、
　　前記パノラマ画像に基づく推定結果と、前記魚眼部分画像に基づく推定結果とに基づき、前記魚眼画像が示す人物行動を推定する第３の推定手段、
として機能させるプログラムが提供される。

　本発明によれば、魚眼画像に含まれる人物の行動を高精度に推定することが可能となる。

　上述した目的、および、その他の目的、特徴および利点は、以下に述べる好適な実施の形態、および、それに付随する以下の図面によって、さらに明らかになる。

パノラマ展開の手法を説明する図である。本実施形態の画像処理装置の概要を説明するための図である。本実施形態の画像処理装置及び処理装置のハードウエア構成の一例を示す図である。本実施形態の画像処理装置の機能ブロック図の一例である。本実施形態の画像処理装置の処理を説明するための図である。本実施形態の画像処理装置の処理を説明するための図である。本実施形態の画像処理装置の処理を説明するための図である。本実施形態の画像処理装置の処理を説明するための図である。本実施形態の画像処理装置の処理を説明するための図である。本実施形態の画像処理装置の処理を説明するための図である。本実施形態の画像処理装置の処理を説明するための図である。本実施形態の画像処理装置の処理の流れの一例を示すフローチャートである。本実施形態の画像処理装置の処理の流れの一例を示すフローチャートである。本実施形態の画像処理装置の処理の流れの一例を示すフローチャートである。本実施形態の画像処理装置の処理の流れの一例を示すフローチャートである。本実施形態の画像処理装置の処理を説明するための図である。本実施形態の画像処理装置の処理を説明するための図である。本実施形態の画像処理装置の処理を説明するための図である。本実施形態の画像処理装置のブロック図の一例である。本実施形態の画像処理装置の処理の流れの一例を示すフローチャートである。本実施形態の画像処理装置の処理を説明するための図である。本実施形態の画像処理装置の処理を説明するための図である。本実施形態の画像処理装置の処理を説明するための図である。

＜概要＞
　まず、図２を用いて本実施形態の画像処理装置１０の概要を説明する。

　図示するように、画像処理装置１０は、パノラマプロセス（Panorama processing）と、魚眼プロセス（Fisheye processing）と、統合プロセスとを実行する。

　パノラマプロセスでは、画像処理装置１０は、魚眼画像（Fish eye image）をパノラマ展開したパノラマ画像を画像解析し、パノラマ画像が示す人物行動を推定する。魚眼プロセスでは、画像処理装置１０は、魚眼画像の一部領域である魚眼部分画像をパノラマ展開せずに画像解析し、魚眼部分画像が示す人物行動を推定する。そして、統合プロセスでは、画像処理装置１０は、パノラマプロセスで得られたパノラマ画像に基づく人物行動の推定結果と、魚眼プロセスで得られた魚眼部分画像に基づく人物行動の推定結果とに基づき、魚眼画像が示す人物行動を推定する。

＜ハードウエア構成＞
　次に、画像処理装置１０のハードウエア構成の一例を説明する。画像処理装置１０が備える各機能部は、任意のコンピュータのＣＰＵ（Central Processing Unit）、メモリ、メモリにロードされるプログラム、そのプログラムを格納するハードディスク等の記憶ユニット（あらかじめ装置を出荷する段階から格納されているプログラムのほか、ＣＤ（Compact Disc）等の記憶媒体やインターネット上のサーバ等からダウンロードされたプログラムをも格納できる）、ネットワーク接続用インターフェイスを中心にハードウエアとソフトウエアの任意の組合せによって実現される。そして、その実現方法、装置にはいろいろな変形例があることは、当業者には理解されるところである。

　図３は、画像処理装置１０のハードウエア構成を例示するブロック図である。図３に示すように、画像処理装置１０は、プロセッサ１Ａ、メモリ２Ａ、入出力インターフェイス３Ａ、周辺回路４Ａ、バス５Ａを有する。周辺回路４Ａには、様々なモジュールが含まれる。画像処理装置１０は周辺回路４Ａを有さなくてもよい。なお、画像処理装置１０は物理的及び／又は論理的に分かれた複数の装置で構成されてもよいし、物理的及び／又は論理的に一体となった１つの装置で構成されてもよい。画像処理装置１０が物理的及び／又は論理的に分かれた複数の装置で構成される場合、複数の装置各々が上記ハードウエア構成を備えることができる。

　バス５Ａは、プロセッサ１Ａ、メモリ２Ａ、周辺回路４Ａ及び入出力インターフェイス３Ａが相互にデータを送受信するためのデータ伝送路である。プロセッサ１Ａは、例えばＣＰＵ、ＧＰＵ（Graphics Processing Unit）などの演算処理装置である。メモリ２Ａは、例えばＲＡＭ（Random Access Memory）やＲＯＭ（Read Only Memory）などのメモリである。入出力インターフェイス３Ａは、入力装置、外部装置、外部サーバ、外部センサー、カメラ等から情報を取得するためのインターフェイスや、出力装置、外部装置、外部サーバ等に情報を出力するためのインターフェイスなどを含む。入力装置は、例えばキーボード、マウス、マイク、物理ボタン、タッチパネル等である。出力装置は、例えばディスプレイ、スピーカ、プリンター、メーラ等である。プロセッサ１Ａは、各モジュールに指令を出し、それらの演算結果をもとに演算を行うことができる。

＜機能構成＞
　次に、画像処理装置１０の機能構成を説明する。図４に、画像処理装置１０の機能ブロック図の一例を示す。図示するように、画像処理装置１０は、第１の推定部１１と、第２の推定部１２と、第３の推定部１３とを有する。これらの機能部により、上述したパノラマプロセス、魚眼プロセス及び統合プロセスが実行される。以下、プロセスごとに分けて、各機能部の構成を説明する。

「パノラマプロセス」
　パノラマプロセスは、第１の推定部１１により実行される。図５に、パノラマプロセスのフローがより詳細に示されている。図示するように、第１の推定部１１は、時系列な複数の魚眼画像を取得すると（魚眼画像取得プロセス）、各々をパノラマ展開して時系列な複数のパノラマ画像を生成する（パノラマ展開プロセス）。その後、第１の推定部１１は、時系列な複数のパノラマ画像と第１の推定モデルに基づき、その時系列な複数のパノラマ画像が示す人物行動を推定する（第１の推定プロセス）。このように、パノラマプロセスは、魚眼画像取得プロセス、パノラマ展開プロセス及び第１の推定プロセスを含む。以下、各々を詳細に説明する。

（魚眼画像取得プロセス）
　魚眼画像取得プロセスでは、第１の推定部１１は、時系列な複数の魚眼画像を取得する。魚眼画像は、魚眼レンズを用いて生成された画像である。時系列な複数の魚眼画像は、例えば動画像であってもよいし、所定の時間間隔で連続的に撮影することで生成された複数の連続静止画像であってもよい。

　なお、本明細書において、「取得」とは、ユーザ入力に基づき、又は、プログラムの指示に基づき、「自装置が他の装置や記憶媒体に格納されているデータを取りに行くこと（能動的な取得）」、たとえば、他の装置にリクエストまたは問い合わせして受信すること、他の装置や記憶媒体にアクセスして読み出すこと等を含んでもよい。また、「取得」とは、ユーザ入力に基づき、又は、プログラムの指示に基づき、「自装置に他の装置から出力されるデータを入力すること（受動的な取得）」、たとえば、配信（または、送信、プッシュ通知等）されるデータを受信すること等を含んでもよい。また、「取得」とは、受信したデータまたは情報の中から選択して取得すること、及び、「データを編集（テキスト化、データの並び替え、一部データの抽出、ファイル形式の変更等）などして新たなデータを生成し、当該新たなデータを取得すること」を含んでもよい。

（パノラマ展開プロセス）
　パノラマ展開プロセスでは、第１の推定部１１は、時系列な複数の魚眼画像各々をパノラマ展開して時系列な複数のパノラマ画像を生成する。以下、パノラマ展開の手法の一例を説明するが、他の手法を採用してもよい。

　まず、第１の推定部１１は、基準線Ｌ_ｓ、基準点（ｘ_ｃ、ｙ_ｃ）、幅ｗ、高さｈ（図１参照）を決定する。

－基準点（ｘ_ｃ、ｙ_ｃ）の決定－
　まず、第１の推定部１１は、魚眼画像の円形のイメージサークル内画像の中から、複数の人物各々の身体の所定の複数点を検出する。そして、第１の推定部１１は、検出した所定の複数点に基づき、複数の人物各々の位置における重力方向（鉛直方向）を特定する。

　例えば、第１の推定部１１は、起立した人物を正面から撮影して生成した画像内で互いを結ぶ線が重力方向と平行になる身体の複数点（２点）を検出してもよい。このような２点の組み合わせとしては、（両肩の真ん中、腰の真ん中）、（頭の先、腰の真ん中）、（頭の先、両肩の真ん中）等が例示されるが、これらに限定されない。この例の場合、第１の推定部１１は、各人物に対応して検出された２点のうちの所定の１点から他方の点に向かう方向を、重力方向として特定する。

　他の例として、第１の推定部１１は、起立した人物を正面から撮影して生成した画像内で互いを結ぶ線が重力方向と垂直になる身体の複数点（２点）を検出してもよい。このような２点の組み合わせとしては、（右肩、左肩）、（右腰、左腰）等が例示されるが、これらに限定されない。この例の場合、第１の推定部１１は、各人物に対応して検出された２点の中点を通り、かつ、２点を結ぶ線と垂直な線が延伸する方向を、重力方向として特定する。

　なお、第１の推定部１１は、あらゆる画像解析の技術を利用して、上述した身体の複数点を検出することができる。例えば、第１の推定部１１は、「標準レンズ（例えば画角４０°前後～６０°前後）を用いて生成された画像に存在する人物各々の身体の所定の複数点を検出するアルゴリズム」と同じアルゴリズムで魚眼画像を解析することで、複数の人物各々の身体の所定の複数点を検出することができる。

　しかし、魚眼画像内では、起立した人物の身体が伸びる方向がばらつき得る。そこで、第１の推定部１は、魚眼画像を回転させながら画像の解析を行ってもよい。すなわち、第１の推定部１１は、魚眼画像のイメージサークル内画像を回転させ、回転した後のイメージサークル内画像を解析して人物の身体の所定の複数点を検出する処理を行ってもよい。

　図６乃至図９を用いて、当該処理の概要を説明する。図６の例では、魚眼画像Ｆのイメージサークル内画像Ｃ１内に５人の人物Ｍ１乃至Ｍ５が存在する。５人の人物Ｍ１乃至Ｍ５はいずれも起立しているが、身体が伸びる方向はばらついている。

　第１の推定部１１は、まず図６に示す回転状態で画像を解析し、各人物の両肩の真ん中Ｐ１と腰の真ん中Ｐ２を検出する処理を行う。この場合、第１の推定部１１は、身体が伸びる方向が図の上下方向に近い人物Ｍ１及びＭ２の点Ｐ１及びＰ２を検出できたが、その他の人物の点Ｐ１及びＰ２は検出できていない。

　次に、第１の推定部１１は、魚眼画像Ｆを９０°回転させる。すると、図７の状態となる。第１の推定部１１は、この回転状態で画像を解析し、各人物の両肩の真ん中Ｐ１と腰の真ん中Ｐ２を検出する処理を行う。この場合、第１の推定部１１は、身体が伸びる方向が図の上下方向に近い人物Ｍ５の点Ｐ１及びＰ２を検出できたが、その他の人物の点Ｐ１及びＰ２は検出できていない。

　次に、第１の推定部１１は、魚眼画像Ｆをさらに９０°回転させる。すると、図８の状態となる。第１の推定部１１は、この回転状態で画像を解析し、各人物の両肩の真ん中Ｐ１と腰の真ん中Ｐ２を検出する処理を行う。この場合、第１の推定部１１は、身体が伸びる方向が図の上下方向に近い人物Ｍ４の点Ｐ１及びＰ２を検出できたが、その他の人物の点Ｐ１及びＰ２は検出できていない。

　次に、第１の推定部１１は、魚眼画像Ｆをさらに９０°回転させる。すると、図９の状態となる。第１の推定部１１は、この回転状態で画像を解析し、各人物の両肩の真ん中Ｐ１と腰の真ん中Ｐ２を検出する処理を行う。この場合、第１の推定部１１は、身体が伸びる方向が図の上下方向に近い人物Ｍ３の点Ｐ１及びＰ２を検出できたが、その他の人物の点Ｐ１及びＰ２は検出できていない。

　このように、第１の推定部１１は、魚眼画像を回転させながら画像を解析することで、身体が伸びる方向がばらついている複数の人物各々の身体の所定の複数点を検出することができる。なお、上記例では９０°づつ回転したが、あくまで一例でありこれに限定されない。

　次に、第１の推定部１１は、魚眼画像内の複数の人物各々の位置における重力方向に基づき、基準点（ｘ_ｃ、ｙ_ｃ）を決定する。そして、第１の推定部１１は、決定した基準点（ｘ_ｃ、ｙ_ｃ）を画像処理装置１０の記憶部に記憶させる。

　第１の推定部１１は、複数の人物各々の位置を通り、かつ、複数の人物各々の位置における重力方向に延伸した直線が１点で交わる場合、交わる点を基準点（ｘ_ｃ、ｙ_ｃ）とする。

　一方、複数の人物各々の位置を通り、かつ、複数の人物各々の位置における重力方向に延伸した直線が１点で交わらない場合、第１の推定部１１は、複数の直線各々からの距離が所定条件を満たす点を基準点（ｘ_ｃ、ｙ_ｃ）とする。

　第１の推定部１１が、起立した人物を正面から撮影して生成した画像内で互いを結ぶ線が重力方向と平行になる身体の複数点（２点）を検出する場合、「複数の人物各々の位置を通り、かつ、複数の人物各々の位置における重力方向に延伸した直線」は、第１の推定部１１が検出した２点を結ぶ線であってもよい。

　そして、第１の推定部１１は、起立した人物を正面から撮影して生成した画像内で互いを結ぶ線が重力方向と垂直になる身体の複数点（２点）を検出する場合、「複数の人物各々の位置を通り、かつ、複数の人物各々の位置における重力方向に延伸した直線」は、第１の推定部１１が検出した２点の中点を通り、かつ、２点を結ぶ線と垂直な線であってもよい。

　図１０は、第１の推定部１１による基準点決定処理の概念を示す。図示する例では、第１の推定部１１は、各人物の両肩の真ん中Ｐ１と腰の真ん中Ｐ２を検出している。そして、点Ｐ１及びＰ２を結ぶ線が、「複数の人物各々の位置を通り、かつ、複数の人物各々の位置における重力方向に延伸した直線Ｌ１乃至Ｌ５」となっている。図示する例の場合、複数の直線Ｌ１乃至Ｌ５は１点で交わらない。このため、第１の推定部１１は、複数の直線Ｌ１乃至Ｌ５各々からの距離が所定条件を満たす点を基準点（ｘ_ｃ、ｙ_ｃ）とする。所定条件は、例えば「複数の直線各々との距離の和が最小」であるが、これに限定されない。

　例えば、第１の推定部１１は、以下の式（１）乃至（３）に基づき、所定条件を満たす点を算出することができる。

　まず、式（１）により、直線Ｌ１乃至Ｌ５各々を示す。ｋ_ｉは各直線の傾きで、ｃ_ｉは各直線の切片である。式（２）及び式（３）により、直線Ｌ１乃至Ｌ５各々との距離の和が最小となる点を基準点（ｘ_ｃ、ｙ_ｃ）として算出することができる。

　なお、カメラの設置位置や向きが固定である場合、そのカメラが生成した複数の魚眼画像において設定される基準点（ｘ_ｃ、ｙ_ｃ）は同じ位置となる。このため、第１の推定部１１は、上記処理で１つの魚眼画像の基準点（ｘ_ｃ、ｙ_ｃ）を算出すると、算出した基準点（ｘ_ｃ、ｙ_ｃ）をその魚眼画像を生成したカメラに紐付けて登録してもよい。そして、それ以降、そのカメラが生成した魚眼画像に対しては、上記基準点（ｘ_ｃ、ｙ_ｃ）の算出を行わず、登録している基準点（ｘ_ｃ、ｙ_ｃ）を読み出して利用してもよい。

－画像の補完－
　第１の推定部１１は、上記処理で決定した基準点（ｘ_ｃ、ｙ_ｃ）が魚眼画像のイメージサークル内画像の中心と異なる場合、その魚眼画像のイメージサークル内画像に画像を補完し、補完円形画像を生成する。なお、基準点（ｘ_ｃ、ｙ_ｃ）が魚眼画像のイメージサークル内画像の中心と一致する場合、第１の推定部１１は当該画像の補完を実行しない。

　補完円形画像は、イメージサークル内画像に補完画像を加えた画像であって、基準点（ｘ_ｃ、ｙ_ｃ）が中心となる円形の画像である。なお、補完円形画像は、基準点（ｘ_ｃ、ｙ_ｃ）からイメージサークル内画像の外周上の点までの距離の最大値が半径となり、イメージサークル内画像が内接してもよい。イメージサークル内画像に加える補完画像は、単色（例：黒）の画像であってもよいし、任意のパターン画像であってもよいし、その他であってもよい。

　図１１に、第１の推定部１１が生成した補完円形画像Ｃ２の一例を示す。魚眼画像Ｆのイメージサークル内画像Ｃ１に黒単色の補完画像を加えて、補完円形画像Ｃ２が生成されている。補完円形画像Ｃ２は、図示するように円形であり、基準点（ｘ_ｃ、ｙ_ｃ）がその中心である。そして、補完円形画像Ｃ２の半径ｒは、基準点（ｘ_ｃ、ｙ_ｃ）からイメージサークル内画像Ｃ１の外周上の点までの距離の最大値である。なお、イメージサークル内画像Ｃ１は補完円形画像Ｃ２に内接している。

－基準線Ｌ_ｓの決定－
　基準線Ｌ_ｓは、基準点（ｘ_ｃ、ｙ_ｃ）と、円形画像（イメージサークル内画像Ｃ１、補完円形画像Ｃ２等）の外周上の任意の点とを結ぶ線である。基準線Ｌ_ｓの位置が、円形画像をパノラマ展開するときに切り開く位置となる。第１の推定部１１は、例えば人物と重ならない基準線Ｌ_ｓを設定することができる。このように基準線Ｌ_ｓを設定すれば、人物がパノラマ画像内で２つの部分に分離する不都合を抑制できる。

　人物と重ならない基準線Ｌ_ｓを設定する手法は様々である。例えば、第１の推定部１１は、上記処理で検出した各人物の身体の複数点から所定距離以内には基準線Ｌ_ｓを設定せず、上記検出した複数点から所定距離以上離れた場所に基準線Ｌ_ｓを設定してもよいし。

－幅ｗ、高さｈの決定－
　幅ｗはパノラマ画像の幅であり、高さｈはパノラマ画像の高さである。これらの値はデフォルト値であってもよいし、ユーザが任意に設定し、画像処理装置１０に登録してもよい。

－パノラマ展開－
　基準線Ｌ_ｓ、基準点（ｘ_ｃ、ｙ_ｃ）、幅ｗ、高さｈを決定した後、第１の推定部１１は魚眼画像をパノラマ展開し、パノラマ画像を生成する。なお、基準点（ｘ_ｃ、ｙ_ｃ）が魚眼画像のイメージサークル内画像の中心と異なる場合、第１の推定部１１は補完円形画像をパノラマ展開してパノラマ画像を生成する。一方、基準点（ｘ_ｃ、ｙ_ｃ）が魚眼画像のイメージサークル内画像の中心と一致する場合、第１の推定部１１は、魚眼画像のイメージサークル内画像をパノラマ展開してパノラマ画像を生成する。第１の推定部１１は、図１を用いて説明した手法を用いて、パノラマ展開することができる。

　次に、パノラマ展開プロセスの処理の流れの一例を説明する。なお、各処理の詳細は上述したので、ここでの説明は適宜省略する。まず、図１２のフローチャートを用いて、基準点（ｘ_ｃ、ｙ_ｃ）を決定する処理の流れの一例を説明する。

　魚眼画像が入力されると、第１の推定部１１は、イメージサークル内画像の中から、複数の人物各々の身体の所定の複数点を検出する（Ｓ１０）。例えば、第１の推定部１１は、各人物の両肩の真ん中Ｐ１と腰の真ん中Ｐ２を検出する。

　ここで、図１３のフローチャートを用いて、Ｓ１０の処理の流れの一例を説明する。まず、第１の推定部１１は、イメージサークル内画像を解析し、複数の人物各々の身体の所定の複数点を検出する（Ｓ２０）。その後、第１の推定部１１は、イメージサークル内画像を所定角度回転する（Ｓ２１）。所定角度は例えば９０°であるが、これに限定されない。

　そして、第１の推定部１１は、回転後のイメージサークル内画像を解析し、複数の人物各々の身体の所定の複数点を検出する（Ｓ２２）。そして、回転角度の合計が３６０°に達していない場合（Ｓ２３のＮｏ）、第１の推定部１１は、Ｓ２１に戻り同様の処理を繰り返す。一方、回転角度の合計が３６０°に達した場合（Ｓ２３のＹｅｓ）、第１の推定部１１は処理を終了する。

　図１２に戻り、Ｓ１０の後、第１の推定部１１は、Ｓ１０で検出された所定の複数点に基づき複数の人物各々の位置における重力方向を特定する（Ｓ１１）。例えば、第１の推定部１１は、各人物の両肩の真ん中Ｐ１から腰の真ん中Ｐ２に向かう方向を、各人物の位置における重力方向として特定する。

　次いで、第１の推定部１１は、複数の人物各々の位置を通り、各々の位置における重力方向に延伸した直線を算出する（Ｓ１２）。そして、複数の直線が１点で交わる場合（Ｓ１３のＹｅｓ）、第１の推定部１１は、交わる点を基準点（ｘ_ｃ、ｙ_ｃ）とする（Ｓ１４）。一方、複数の直線が１点で交わらない場合（Ｓ１３のＮｏ）、第１の推定部１１は、複数の直線各々からの距離が所定条件（例：最短）を満たす点を求め、その点を基準点（ｘ_ｃ、ｙ_ｃ）とする（Ｓ１５）。

　次に、図１４のフローチャートを用いて、パノラマ展開する処理の流れの一例を説明する。

　図１２の処理で決定した基準点（ｘ_ｃ、ｙ_ｃ）が魚眼画像のイメージサークル内画像の中心と一致する場合（Ｓ３０のＹｅｓ）、第１の推定部１１は、図１を用いて説明した手法を用いて、その魚眼画像のイメージサークル内画像をパノラマ展開し、パノラマ画像を生成する（Ｓ３３）。すなわち、この場合、補完円形画像の生成、及び、補完円形画像のパノラマ展開は実施されない。

　一方、図１２の処理で決定した基準点（ｘ_ｃ、ｙ_ｃ）が魚眼画像のイメージサークル内画像の中心と一致しない場合（Ｓ３０のＮｏ）、第１の推定部１１は、補完円形画像を生成する（Ｓ３１）。補完円形画像は、イメージサークル内画像に補完画像を加えた円形の画像であって、基準点（ｘ_ｃ、ｙ_ｃ）がその円の中心となる画像である。なお、補完円形画像は、基準点（ｘ_ｃ、ｙ_ｃ）からイメージサークル内画像の外周上の点までの距離の最大値が半径となり、イメージサークル内画像が内接してもよい。イメージサークル内画像に加える補完画像は、単色（例：黒）の画像であってもよいし、任意のパターン画像であってもよいし、その他であってもよい。

　そして、第１の推定部１１は、図１を用いて説明した手法を用いて、その補完円形画像をパノラマ展開し、パノラマ画像を生成する（Ｓ３２）。

（第１の推定プロセス）
　第１の推定プロセスでは、第１の推定部１１は、生成した時系列な複数のパノラマ画像と第１の推定モデルに基づき、その時系列な複数のパノラマ画像が示す人物行動を推定する。

　まず、第１の推定部１１は、時系列な複数のパノラマ画像から、画像内の各位置の特徴の時間変化を示す３次元特徴情報を生成する。例えば、第１の推定部１１は、３Ｄ　ＣＮＮ（例えば、３Ｄ　Ｒｅｓｎｅｔ等の畳み込み深層学習ネットワークなどであるが、これに限定されない）に基づき３次元特徴情報を生成することができる。

　また、第１の推定部１１は、時系列な複数のパノラマ画像各々において人物が存在する位置を示す人物位置情報を生成する。画像内に複数の人物が存在する場合、第１の推定部１１は、複数の人物各々が存在する位置を示す人物位置情報を生成することができる。例えば、第１の推定部１１は、人物のシルエット（全身）を画像内で抽出し、抽出したシルエットを内包する画像内のエリアを示す人物位置情報を生成する。第１の推定部１１は、深層学習技術に基づき、より具体的には平面の画像や映像の中からあらゆる物体（例えば、人）を高速かつ高精度に認識する「物体認識の深層学習ネットワーク」に基づき人物位置情報を生成することができる。物体認識の深層学習ネットワークとしては、Ｍａｓｋ－ＲＣＮＮ、ＲＣＮＮ、Ｆａｓｔ　ＲＣＮＮ、Ｆａｓｔｅｒ　ＲＣＮＮ等が例示されるが、これらに限定されない。なお、第１の推定部１１は、時系列な複数のパノラマ画像各々に対して同様の人物検出処理を実施してもよいし、人物追跡技術を利用して一度検出した人物を画像内で追跡してその位置を特定してもよい。

　その後、第１の推定部１１は、人物位置情報で示される人物が存在する位置における３次元特徴情報が示す特徴の時間変化に基づき、複数のパノラマ画像が示す人物行動を推定する。例えば、第１の推定部１１は、人物位置情報で示される人物が存在する位置を除く位置における値を所定値（例：０）に変更する補正を３次元特徴情報に対して行った後、補正後の３次元特徴情報に基づき複数の画像が示す人物行動を推定することができる。第１の推定部１１は、予め機械学習で生成された第１の推定モデルと、補正後の３次元特徴情報とに基づき、人物行動を推定することができる。

　第１の推定モデルは、標準レンズ（例えば画角４０°前後～６０°前後）を用いて生成された画像（学習データ）に基づく機械学習で生成された人物行動を推定するモデルとすることができる。その他、第１の推定モデルは、魚眼画像をパノラマ展開して生成されたパノラマ画像（学習データ）に基づく機械学習で生成された人物行動を推定するモデルであってもよい。

　ここで、図１５のフローチャートを用いて、第１の推定プロセスの処理の流れの一例を説明する。

　まず、第１の推定部１１は、上記パノラマ展開プロセスを実行することで、時系列な複数のパノラマ画像を取得する（Ｓ４０）。

　その後、第１の推定部１１は、時系列な複数のパノラマ画像から、画像内の各位置の特徴の時間変化を示す３次元特徴情報を生成する（Ｓ４１）。また、第１の推定部１１は、複数のパノラマ画像各々において人物が存在する位置を示す人物位置情報を生成する（Ｓ４２）。

　そして、第１の推定部１１は、人物位置情報で示される人物が存在する位置における３次元特徴情報が示す特徴の時間変化に基づき、複数の画像が示す人物行動を推定する（Ｓ４３）。

　次に、図１６を用いて、第１の推定プロセスの具体例を説明する。なお、あくまで一例であり、これに限定されない。

　まず、第１の推定部１１は、例えば１６フレーム分の時系列なパノラマ画像（１６×２４５１×８００）を取得したとする。すると、第１の推定部１１は、３Ｄ　ＣＮＮ（例えば、３Ｄ　Ｒｅｓｎｅｔ等の畳み込み深層学習ネットワークなどであるが、これに限定されない）に基づき、この１６フレーム分のパノラマ画像から、５１２チャンネルに畳み込まれた３次元特徴情報（５１２×７７×２５）を生成する。また、第１の推定部１１は、Ｍａｓｋ－ＲＣＮＮ等の物体認識の深層学習ネットワークに基づき、１６フレーム分の画像各々において人物が存在する位置を示す人物位置情報（図中、binary Mask）を生成する。図示する例では、人物位置情報は、各人物を内包する複数の矩形のエリア各々の位置を示す。

　次いで、第１の推定部１１は、人物位置情報で示される人物が存在する位置を除く位置における値を所定値（例：０）に変更する補正を３次元特徴情報に対して行う。その後、第１の推定部１１は、当該３次元特徴情報をＮ個のブロック（各々ｋの幅を有する）に分割し、Average Pooling、flatten、fully-connected層等を経て、予め定義された複数のカテゴリ（人物行動）各々が含まれる確率（出力値）をブロック毎に得る。

　図示する例では、１９のカテゴリが定義・学習されている。１９のカテゴリは、「歩く」、「走る」、「手を振る」、「物を拾う」、「物を捨てる」、「ジャケットを脱ぐ」、「ジャケットを着る」、「電話を掛ける」、「スマートフォンを使う」、「おやつを食べる」、「階段を上がる」、「階段を下る」、「水を飲む」、「握手」、「他人のポケットから物を取る」、「他人に物を渡す」、「他人を押す」、「カードをかざして駅構内に入る」、「カードをかざして駅改札を出る」であるが、これらに限定されない。例えば、処理装置２０は、当該確率が閾値以上のカテゴリに対応する人物行動が、その画像で示されていると推定する。

　なお、図中、N instance scoresは、時系列な複数のパノラマ画像に含まれるＮ個のブロック各々が上記１９のカテゴリ各々を含む確率を示す。そして、図中、Final scores of the panorama branch for clip 1は、時系列な複数のパノラマ画像が上記１９のカテゴリ各々を含む確率を示す。ここで、N instance scoresからFinal scores of the panorama branch for clip 1を算出する処理の詳細は特段制限されないが、以下一例を説明する。

　当該演算処理においては、複数の値の統計値を返す関数の利用が考えられる。例えば、平均値を返すaverage関数（式（４）参照）、最大値を返すmax関数（式（５）参照）、max関数に滑らかに近似したlog-sum-exp関数（式（６）参照）等の利用が考えられる。これらの関数は広く知られているのでここでの説明は省略する。

　なお、上記流れと逆方向にトレースすることで、当該確率が閾値以上のカテゴリ（人物行動）が示される画像内の位置を算出することができる。

「魚眼プロセス」
　魚眼プロセスは、第２の推定部１２により実行される。第２の推定部１２は、図５に示すように、時系列な複数の魚眼画像を取得すると（魚眼画像取得プロセス）、各々から一部領域を切り出し時系列な複数の魚眼部分画像を生成する（第１の切出プロセス）。その後、第２の推定部１２は、生成した時系列な複数の魚眼部分画像を編集し、魚眼部分画像に含まれる人物毎に、時系列な複数の編集後魚眼部分画像を生成する（編集プロセス）。その後、第２の推定部１２は、時系列な複数の編集後魚眼部分画像と第２の推定モデルに基づき、その時系列な複数の編集後魚眼部分画像が示す人物行動を推定する（第２の推定プロセス）。このように、魚眼プロセスは、魚眼画像取得プロセス、第１の切出プロセス、編集プロセス及び第２の推定プロセスを含む。以下、各々を詳細に説明する。

（魚眼画像取得プロセス）
　魚眼画像取得プロセスでは、第２の推定部１２は、時系列な複数の魚眼画像を取得する。第２の推定部１２が実行する魚眼画像取得プロセスは、パノラマプロセスで説明した第１の推定部１１が実行する魚眼画像取得プロセスと同様であるので、ここでの説明は省略する。

（第１の切出プロセス）
　第１の切出プロセスでは、第２の推定部１２は、時系列な複数の魚眼画像各々から一部領域を切り出して時系列な複数の魚眼部分画像を生成する。第２の推定部１２は、パノラマプロセスで説明した基準点（ｘ_ｃ、ｙ_ｃ）を中心とした半径Ｒの円領域内の画像を魚眼部分画像として切り出す。半径Ｒは、予め設定された固定値であってもよい。その他、魚眼画像の解析結果に基づき決定される変動値であってもよい。後者の例として、例えば魚眼画像内の予め設定された中心領域に存在する人物の検出結果（検出人数）に基づき、半径Ｒ（魚眼部分画像の大きさ）を決定してもよい。検出人数が多いほど、半径Ｒは大きくなる。

（編集プロセス）
　編集プロセスでは、第２の推定部１２は、生成した時系列な複数の魚眼部分画像を編集し、魚眼部分画像に含まれる人物毎に、時系列な複数の編集後魚眼部分画像を生成する。以下、詳細に説明する。

　まず、第２の推定部１２は、魚眼部分画像を解析し、魚眼部分画像に含まれる人物を検出する。人物の検出は、パノラマプロセスで説明した処理（図１３の処理）と同様に、魚眼部分画像を回転させながら各回転位置で魚眼部分画像を解析して人物を検出する手法を採用してもよい。その他、魚眼画像を学習データとした機械学習で生成された人物検出モデルに基づき、魚眼部分画像に含まれる人物を検出してもよい。また、第２の推定部１２は、時系列な複数の魚眼部分画像各々に対して同様の人物検出処理を実施してもよいし、人物追跡技術を利用して一度検出した人物を動画像内で追跡してその位置を特定してもよい。

　人物を検出した後、第２の推定部１２は、検出した人物毎に、魚眼部分画像を回転する回転プロセス、及び、所定サイズの一部領域を切り出す第２の切出プロセスを実行して、編集後魚眼部分画像を生成する。

　回転プロセスでは、各人物の位置における重力方向が画像上で上下方向となるように魚眼部分画像を回転する。各人物の位置における重力方向を特定する手段は、パノラマプロセスで説明した通りであるが、その他の手法を利用してもよい。

　第２の切出プロセスでは、回転プロセス後の魚眼部分画像から、各人物を含む所定サイズの画像を切り出す。切り出す画像の形状および大きさは、予め定義されている。

　ここで、図１７を用いて、第１の切出プロセス及び編集プロセスの具体例を説明する。

　まず、（Ａ）→（Ｂ）に示すように、第２の推定部１２は、魚眼画像Ｆのイメージサークル内画像Ｃ１内の一部領域を魚眼部分画像Ｃ３として切り出す（第１の切出プロセス）。当該処理は、魚眼画像Ｆ毎に実行される。

　次に、（Ｂ）→（Ｃ）に示すように、第２の推定部１２は、魚眼部分画像Ｃ３内から人物を検出する。図示する例では２人の人物が検出されている。

　次に、（Ｃ）→（Ｄ）に示すように、第２の推定部１２は、検出された人物毎に、魚眼部分画像Ｃ３に対して回転プロセスを実行する。図示するように、回転後の魚眼部分画像Ｃ３においては、各人物の位置における重力方向が画像上で上下方向となる。当該処理は、魚眼部分画像Ｃ３毎に実行される。

　次に、（Ｄ）→（Ｅ）に示すように、第２の推定部１２は、検出された人物毎に、回転後の魚眼部分画像Ｃ３から各人物を含む所定サイズの画像を切り出し、編集後魚眼部分画像Ｃ４を生成する。当該処理は、検出された人物毎、かつ、魚眼部分画像Ｃ３毎に実行される。

（第２の推定プロセス）
　第２の推定プロセスでは、第２の推定部１２は、生成した時系列な複数の編集後魚眼部分画像と第２の推定モデルに基づき、その時系列な複数の編集後魚眼部分画像が示す人物行動を推定する。第２の推定部１２による人物行動の推定処理は、基本的には、第１の推定部１１による人物行動の推定処理と同様である。

　図１８に示すように、第２の推定部１２は、第１の人物に対応する時系列な複数の編集後魚眼部分画像から、画像内の各位置の特徴の時間変化を示す３次元特徴情報を生成する。例えば、第２の推定部１２は、３Ｄ　ＣＮＮ（例えば、３Ｄ　Ｒｅｓｎｅｔ等の畳み込み深層学習ネットワークなどであるが、これに限定されない）に基づき３次元特徴情報を生成することができる。その後、第２の推定部１２は、生成した３次元特徴情報に対し、人物が検出された位置の値を強調する処理を行う。

　第２の推定部１２は、魚眼部分画像から検出された人物毎に当該処理を行う。そして、人物毎に算出された「人物が検出された位置の値を強調した３次元特徴情報」を連結した後、Average Pooling、flatten、fully-connected層等の同様の処理を経て、予め定義された複数のカテゴリ（人物行動）各々が各人物に対応する時系列な複数の編集後魚眼部分画像に含まれる確率（出力値）を得る。

　その後、第２の推定部１２は、各人物に対応する時系列な複数の編集後魚眼部分画像各々に複数のカテゴリ（人物行動）各々が含まれる確率を統合し、魚眼部分画像に複数のカテゴリ（人物行動）各々が含まれる確率を算出する演算を行う。

　当該演算処理においては、複数の値の統計値を返す関数の利用が考えられる。例えば、平均値を返すaverage関数（上記式（４）参照）、最大値を返すmax関数（上記式（５）参照）、max関数に滑らかに近似したlog-sum-exp関数（上記式（６）参照）等の利用が考えられる。

　ここまでの説明から明らかなように、第２の推定部１２は、魚眼画像の一部領域である魚眼部分画像をパノラマ展開せずに画像解析し、魚眼部分画像が示す人物行動を推定する。

「統合プロセス」
　統合プロセスは、第３の推定部１３により実行される。第３の推定部１３は、図５に示すように、パノラマプロセスで得られたパノラマ画像に基づく推定結果と、魚眼プロセスで得られた魚眼部分画像に基づく推定結果とに基づき、魚眼画像が示す人物行動を推定する。

　上述の通り、パノラマ画像に基づく推定結果及び魚眼部分画像に基づく推定結果はいずれも、予め定義された複数の人物行動各々を含む確率を示す。第３の推定部１３は、パノラマ画像に基づく推定結果及び魚眼部分画像に基づく推定結果に基づく所定の演算処理で、予め定義された複数の人物行動各々を魚眼画像が含む確率を算出する。

＜実施例＞
　次に、画像処理装置１０の実施例を説明する。なお、ここで説明する実施例は、本実施形態の画像処理装置１０を実施する場合の一例であり、これに限定されない。

　図１９は、本実施例の画像処理装置１０のブロック図の一例である。画像処理装置１０の基本構成は、上述した通り、パノラマプロセスと、魚眼プロセスと、統合プロセスとで構成される。各プロセスの基本構成も上述した通りである。

　図２０は、本実施例の画像処理装置１０の処理の流れを示すフローチャートである。

　Ｓ１０１では、画像処理装置１０は、入力された時系列な複数の魚眼画像を所定数毎の複数のクリップ（clip）に分割する。図２１に具体例を示す。図示する例では、１２０個の時系列な魚眼画像が入力され、それらが８個のクリップに分割されている。各クリップは１６個の魚眼画像を含み、最後の１つのクリップのみが８個の魚眼画像を含む。その後、クリップごとに、魚眼プロセス（Ｓ１０２乃至Ｓ１０８）、パノラマプロセス（Ｓ１０９乃至Ｓ１１５）及び統合処理（Ｓ１１６）が実行される。

　魚眼プロセス（Ｓ１０２乃至Ｓ１０８）の詳細は、図１７及び図１８に示されている。魚眼プロセスでは、画像処理装置１０は、時系列な複数の魚眼画像Ｆ各々の一部領域を抽出して時系列な複数の魚眼部分画像Ｃ３を生成する（Ｓ１０２、図１７の（Ａ）→（Ｂ））。その後、画像処理装置１０は、時系列な複数の魚眼部分画像Ｃ３から人物を検出し、動画像内で追跡する（Ｓ１０３、図１７の（Ｂ）→（Ｃ））。

　次いで、画像処理装置１０は、検出された人物毎に、魚眼部分画像Ｃ３に対して回転プロセス（図１７の（Ｃ）→（Ｄ））、及び、回転後の魚眼部分画像Ｃ３から各人物を含む所定サイズの画像を切り出すプロセス（図１７の（Ｄ）→（Ｅ））を実行する（Ｓ１０４）。これにより、検出された人物毎に、時系列な複数の編集後魚眼部分画像Ｃ４が得られる。

　その後のＳ１０５では、画像処理装置１０は、図１８に示すように、検出された人物毎に、各々の時系列な複数の編集後魚眼部分画像を３Ｄ　ＣＮＮ（例えば、３Ｄ　Ｒｅｓｎｅｔ等の畳み込み深層学習ネットワークなどであるが、これに限定されない）に入力し、３次元特徴情報を生成する。また、画像処理装置１０は、生成した３次元特徴情報に対し、人物が検出された位置の値を強調する処理を行う。

　次いで、画像処理装置１０は、人物毎に得られた３次元特徴情報を連結する（Ｓ１０６）。その後、画像処理装置１０は、Average Pooling、flatten、fully-connected層等を経て、予め定義された複数のカテゴリ（人物行動）各々が各人物に対応する時系列な複数の編集後魚眼部分画像に含まれる確率（出力値）を得る（Ｓ１０７）。

　その後、画像処理装置１０は、各人物に対応する時系列な複数の編集後魚眼部分画像各々に複数のカテゴリ（人物行動）各々が含まれる確率を統合し、時系列な複数の魚眼部分画像に複数のカテゴリ（人物行動）各々が含まれる確率を算出する演算を行う（Ｓ１０８）。当該演算処理においては、複数の値の統計値を返す関数の利用が考えられる。例えば、平均値を返すaverage関数（上記式（４）参照）、最大値を返すmax関数（上記式（５）参照）、max関数に滑らかに近似したlog-sum-exp関数（上記式（６）参照）等の利用が考えられる。

　パノラマプロセス（Ｓ１０９乃至Ｓ１１５）の詳細は、図１６に示されている。パノラマプロセスでは、画像処理装置１０は、時系列な複数の魚眼画像各々をパノラマ展開した後（Ｓ１０９）、３Ｄ　ＣＮＮ（例えば、３Ｄ　Ｒｅｓｎｅｔ等の畳み込み深層学習ネットワークなどであるが、これに限定されない）に基づき、この時系列な複数のパノラマ画像から、５１２チャンネルに畳み込まれた３次元特徴情報（５１２×７７×２５）を生成する（Ｓ１１０）。また、画像処理装置１０は、Ｍａｓｋ－ＲＣＮＮ等の物体認識の深層学習ネットワークに基づき、時系列な複数のパノラマ画像各々において人物が存在する位置を示す人物位置情報を生成する（Ｓ１１２）。

　次いで、画像処理装置１０は、Ｓ１１２で生成された人物位置情報で示される人物が存在する位置を除く位置における値を所定値（例：０）に変更する補正を、Ｓ１１０で生成された３次元特徴情報に対して行う（Ｓ１１１）。

　その後、画像処理装置１０は、当該３次元特徴情報をＮ個のブロック（各々ｋの幅を有する）に分割し（Ｓ１１３）、Average Pooling、flatten、fully-connected層等を経て、予め定義された複数のカテゴリ（人物行動）各々が含まれる確率（出力値）をブロック毎に得る（Ｓ１１４）。

　その後、画像処理装置１０は、ブロック毎に得られた複数のカテゴリ（人物行動）各々が含まれる確率を統合し、時系列な複数のパノラマ画像に複数のカテゴリ（人物行動）各々が含まれる確率を算出する演算を行う（Ｓ１１５）。当該演算処理においては、複数の値の統計値を返す関数の利用が考えられる。例えば、平均値を返すaverage関数（上記式（４）参照）、最大値を返すmax関数（上記式（５）参照）、max関数に滑らかに近似したlog-sum-exp関数（上記式（６）参照）等の利用が考えられる。

　その後、画像処理装置１０は、魚眼プロセスで得られた「時系列な複数の魚眼部分画像に複数のカテゴリ（人物行動）各々が含まれる確率」と、パノラマプロセスで得られた「時系列な複数のパノラマ画像に複数のカテゴリ（人物行動）各々が含まれる確率」を統合し、各クリップに含まれる時系列な複数の魚眼画像に複数のカテゴリ（人物行動）各々が含まれる確率を算出する演算を行う（Ｓ１１６、図２２参照）。当該演算処理においては、複数の値の統計値を返す関数の利用が考えられる。例えば、平均値を返すaverage関数（上記式（４）参照）、最大値を返すmax関数（上記式（５）参照）、max関数に滑らかに近似したlog-sum-exp関数（上記式（６）参照）等の利用が考えられる。

　ここまでの処理をクリップ毎に行うことで、クリップ毎に、「各クリップに含まれる時系列な複数の魚眼画像に複数のカテゴリ（人物行動）各々が含まれる確率」が得られる。Ｓ１１７では、クリップ毎に得られた複数の「各クリップに含まれる時系列な複数の魚眼画像に複数のカテゴリ（人物行動）各々が含まれる確率」を統合し、「入力された１２０個の時系列な魚眼画像に複数のカテゴリ（人物行動）各々が含まれる確率」を算出する演算を行う（図２２参照）。当該演算処理においては、複数の値の統計値を返す関数の利用が考えられる。例えば、平均値を返すaverage関数（上記式（４）参照）、最大値を返すmax関数（上記式（５）参照）、max関数に滑らかに近似したlog-sum-exp関数（上記式（６）参照）等の利用が考えられる。

　その後、画像処理装置１０は、算出結果の出力（Ｓ１１８）や、含まれると予測した人物行動の位置特定（Ｓ１１９）を行う。

　なお、学習段階においては、図２２に示すように、画像処理装置１０は、sigmoid関数を適用して「入力された１２０個の時系列な魚眼画像に複数のカテゴリ（人物行動）各々が含まれる確率」を０～１の値に変換する。そして、図示するTotal loss1関数の値を最適化するように学習を行う。

＜変形例＞
「第１の変形例」
　図２３に、変形例のフローを示す。図５との比較で明らかなように、当該変形例は、パノラマプロセスの構成が上述した実施形態と異なる。以下、当該変形例のパノラマプロセスを詳細に説明する。

　まず、第１の推定部１１は、画像解析して、時系列な複数のパノラマ画像が示す人物行動の第１の推定結果を算出する。当該処理は、上記実施形態で説明したパノラマプロセスの処理と同じである。

　また、第１の推定部１１は、パノラマ画像から生成されたオプティカルフロー画像を画像解析して、パノラマ画像が示す人物行動の第２の推定結果を算出する。オプティカルフロー画像は、時系列な複数のパノラマ画像における物体の動きを表すベクトルを画像化したものである。上記実施形態で説明した「時系列な複数のパノラマ画像が示す人物行動を推定する処理」において、「時系列な複数のパノラマ画像」を「時系列な複数のオプティカルフロー画像」に置き換えることで、第２の推定結果の算出が実現される。

　そして、第１の推定部１１は、第１の推定結果と第２の推定結果とに基づき、時系列な複数のパノラマ画像が示す人物行動を推定する。この推定結果が、魚眼プロセスで得られた推定結果と統合される。

　第１の推定結果と第２の推定結果との統合においては、複数の値の統計値を返す関数の利用が考えられる。例えば、平均値を返すaverage関数（上記式（４）参照）、最大値を返すmax関数（上記式（５）参照）、max関数に滑らかに近似したlog-sum-exp関数（上記式（６）参照）等の利用が考えられる。

「第２の変形例」
　上記実施形態では、画像処理装置１０がパノラマ画像の生成、魚眼部分画像の生成、及び、編集後魚眼部分画像の生成を行ったが、画像処理装置１０と異なる他の装置がこれらの処理の中の少なくとも１つを行ってもよい。そして、他の装置が生成した画像（パノラマ画像、魚眼部分画像及び編集後魚眼部分画像の中の少なくとも１つ）が、画像処理装置１０に入力されてもよい。この場合、画像処理装置１０は、入力された画像を利用して、上述した処理を行う。

「第３の変形例」
　パノラマプロセスでは、生成したパノラマ画像に対し、魚眼プロセスで抽出される一部領域に対応する部分（以下、「その部分」）の情報を無くす処理（例：その部分を単色にしたり、所定のパターンにしたりする）を実行してもよい。そして、当該処理後のパノラマ画像と第１の推定モデルとに基づき、人物行動を推定してもよい。魚眼プロセスの方でその部分に含まれる人物行動は推定されるので、パノラマ画像からその部分の情報を無くすことができる。しかし、その部分と他の部分にまたがる人物が存在する場合、人物行動の推定精度が悪くなる等の状況が発生し得る。このため、上記実施形態のように、パノラマ画像からその部分の情報を無くさずに処理を実行することが好ましい。

「第４の変形例」
　上記説明した実施形態の編集プロセスでは、第２の推定部１２は、魚眼部分画像を解析して、魚眼部分画像に含まれる人物を検出した。この「魚眼部分画像に含まれる人物を検出する処理」の変形例として、第２の推定部１２は、以下の処理を行ってもよい。まず、第２の推定部１２は、魚眼画像を解析し、魚眼画像に含まれる人物を検出する。その後、第２の推定部１２は、魚眼画像から検出した人物の中の、魚眼画像内の検出位置（座標）が所定条件（魚眼部分画像として切り出される領域内）を満たす人物を検出する。魚眼画像から人物を検出する処理は、上述した魚眼部分画像から人物を検出する処理のアルゴリズムと同様のアルゴリズムで実現される。当該変形例によれば、魚眼部分画像に含まれる人物の検出精度が向上する。

＜作用効果＞
　本実施形態の第１の比較例として、魚眼プロセス及び統合プロセスを実行せず、パノラマプロセスのみを実行して魚眼画像に含まれる人物の人物行動を推定する処理が考えられる。

　しかし、上述の通り、魚眼画像からパノラマ画像を生成する際に基準点（ｘ_ｃ、ｙ_ｃ）付近の画像が大きく引き伸ばされるため、基準点（ｘ_ｃ、ｙ_ｃ）付近の人物がパノラマ画像において大きく歪み得る。このため、第１の比較例の場合、その歪んだ人物を検出できなかったり、推定精度が低下したりという問題が発生し得る。

　また、本実施形態の第２の比較例として、パノラマプロセス及び統合プロセスを実行せず、上述した魚眼プロセスと同様にして、魚眼画像の全体をパノラマ展開せずに処理して魚眼画像に含まれる人物の人物行動を推定する処理が考えられる。

　しかし、魚眼画像の中に多数の人物が含まれる場合、生成して処理する画像の数が膨大となり、コンピュータの処理負担が大きくなる。上述した魚眼プロセスと同様の処理とする場合、魚眼画像に含まれる人物を検出し、人物毎に各人物の画像内の向きを調整して複数の画像（編集後魚眼部分画像に対応）を生成し、それらを処理して複数の人物各々の人物行動を推定することとなる。当然、検出された人物の数が増えるほど、生成して処理する画像の数が膨大となる。

　本実施形態の画像処理装置１０は、これらの問題を解決することができる。本実施形態の画像処理装置１０は、パノラマ画像を解析して推定した人物行動と、魚眼画像の基準点（ｘ_ｃ、ｙ_ｃ）付近の一部画像をパノラマ展開せずに解析して推定した人物行動とを統合して、魚眼画像に含まれる人物の人物行動を推定する。

　魚眼画像の基準点（ｘ_ｃ、ｙ_ｃ）付近の一部画像をパノラマ展開せずに解析した場合、上述した基準点（ｘ_ｃ、ｙ_ｃ）付近の人物が大きく歪む問題が生じない。このため、基準点（ｘ_ｃ、ｙ_ｃ）付近の人物を検出し、その人物の人物行動を精度よく推定することができる。すなわち、上記第１の比較例の問題を解決できる。

　また、パノラマ画像において問題が生じ得る「魚眼画像の基準点（ｘ_ｃ、ｙ_ｃ）付近の一部画像」のみをパノラマ展開せずに解析し、その他の部分は当該処理の対象外とする。このため、魚眼プロセスで検出される人物の数が抑制される。結果、上記第２の比較例に比べて、魚眼プロセスで生成して処理する画像（編集後魚眼部分画像）の数を抑制し、コンピュータの処理負担を軽減することができる。

　以上、実施形態（及び実施例）を参照して本願発明を説明したが、本願発明は上記実施形態（及び実施例）に限定されるものではない。本願発明の構成や詳細には、本願発明のスコープ内で当業者が理解し得る様々な変更をすることができる。

　上記の実施形態の一部又は全部は、以下の付記のようにも記載されうるが、以下には限定されない。
１．　魚眼レンズカメラで生成された魚眼画像をパノラマ展開したパノラマ画像を画像解析し、前記パノラマ画像が示す人物行動を推定する第１の推定手段と、
　前記魚眼画像の一部領域である魚眼部分画像をパノラマ展開せずに画像解析し、前記魚眼部分画像が示す人物行動を推定する第２の推定手段と、
　前記パノラマ画像に基づく推定結果と、前記魚眼部分画像に基づく推定結果とに基づき、前記魚眼画像が示す人物行動を推定する第３の推定手段と、
を有する画像処理装置。
２．　前記第２の推定手段は、
　　前記魚眼画像内に存在する複数の人物各々の位置における重力方向に基づき決定された前記魚眼画像内の基準点を中心とした円領域内の画像を、前記魚眼部分画像とする１に記載の画像処理装置。
３．　前記魚眼画像内に存在する複数の人物各々の位置における重力方向は、前記複数の人物各々から検出された身体の所定の複数点に基づき特定される２に記載の画像処理装置。
４．　前記第２の推定手段は、
　　前記魚眼画像内に存在する人物の検出結果に基づき、前記魚眼部分画像の大きさを決定する１から３のいずれかに記載の画像処理装置。
５．　前記第２の推定手段は、
　　前記魚眼部分画像を回転する処理、及び、所定サイズの一部領域を切り出す処理を実行して、前記魚眼部分画像内で検出した人物毎に編集後魚眼部分画像を生成し、
　　前記編集後魚眼部分画像を解析して、前記魚眼部分画像が示す人物行動を推定する１から４のいずれかに記載の画像処理装置。
６．　前記パノラマ画像に基づく推定結果及び前記魚眼部分画像に基づく推定結果はいずれも、予め定義された複数の人物行動各々を含む確率を示し、
　前記第３の推定手段は、前記パノラマ画像に基づく推定結果及び前記魚眼部分画像に基づく推定結果に基づく所定の演算処理で、前記予め定義された複数の人物行動各々を前記魚眼画像が含む確率を算出する１から５のいずれかに記載の画像処理装置。
７．　前記第１の推定手段は、
　　前記パノラマ画像を画像解析して、前記パノラマ画像が示す人物行動の第１の推定結果を算出し、
　　前記パノラマ画像から生成されたオプティカルフロー画像を画像解析して、前記パノラマ画像が示す人物行動の第２の推定結果を算出し、
　　前記第１の推定結果と前記第２の推定結果とに基づき、前記パノラマ画像が示す人物行動を推定する１から６のいずれかに記載の画像処理装置。
８．　コンピュータが、
　　魚眼レンズカメラで生成された魚眼画像をパノラマ展開したパノラマ画像を画像解析し、前記パノラマ画像が示す人物行動を推定し、
　　前記魚眼画像の一部領域である魚眼部分画像をパノラマ展開せずに画像解析し、前記魚眼部分画像が示す人物行動を推定し、
　　前記パノラマ画像に基づく推定結果と、前記魚眼部分画像に基づく推定結果とに基づき、前記魚眼画像が示す人物行動を推定する画像処理方法。
９．　コンピュータを、
　　魚眼レンズカメラで生成された魚眼画像をパノラマ展開したパノラマ画像を画像解析し、前記パノラマ画像が示す人物行動を推定する第１の推定手段、
　　前記魚眼画像の一部領域である魚眼部分画像をパノラマ展開せずに画像解析し、前記魚眼部分画像が示す人物行動を推定する第２の推定手段、
　　前記パノラマ画像に基づく推定結果と、前記魚眼部分画像に基づく推定結果とに基づき、前記魚眼画像が示す人物行動を推定する第３の推定手段、
として機能させるプログラム。

Claims

　魚眼レンズカメラで生成された魚眼画像をパノラマ展開したパノラマ画像を画像解析し、前記パノラマ画像が示す人物行動を推定する第１の推定手段と、
　前記魚眼画像の一部領域である魚眼部分画像をパノラマ展開せずに画像解析し、前記魚眼部分画像が示す人物行動を推定する第２の推定手段と、
　前記パノラマ画像に基づく推定結果と、前記魚眼部分画像に基づく推定結果とに基づき、前記魚眼画像が示す人物行動を推定する第３の推定手段と、
を有する画像処理装置。
　前記第２の推定手段は、
　　前記魚眼画像内に存在する複数の人物各々の位置における重力方向に基づき決定された前記魚眼画像内の基準点を中心とした円領域内の画像を、前記魚眼部分画像とする請求項１に記載の画像処理装置。
　前記魚眼画像内に存在する複数の人物各々の位置における重力方向は、前記複数の人物各々から検出された身体の所定の複数点に基づき特定される請求項２に記載の画像処理装置。
　前記第２の推定手段は、
　　前記魚眼画像内に存在する人物の検出結果に基づき、前記魚眼部分画像の大きさを決定する請求項１から３のいずれか１項に記載の画像処理装置。
　前記第２の推定手段は、
　　前記魚眼部分画像を回転する処理、及び、所定サイズの一部領域を切り出す処理を実行して、前記魚眼部分画像内で検出した人物毎に編集後魚眼部分画像を生成し、
　　前記編集後魚眼部分画像を解析して、前記魚眼部分画像が示す人物行動を推定する請求項１から４のいずれか１項に記載の画像処理装置。
　前記パノラマ画像に基づく推定結果及び前記魚眼部分画像に基づく推定結果はいずれも、予め定義された複数の人物行動各々を含む確率を示し、
　前記第３の推定手段は、前記パノラマ画像に基づく推定結果及び前記魚眼部分画像に基づく推定結果に基づく所定の演算処理で、前記予め定義された複数の人物行動各々を前記魚眼画像が含む確率を算出する請求項１から５のいずれか１項に記載の画像処理装置。
　前記第１の推定手段は、
　　前記パノラマ画像を画像解析して、前記パノラマ画像が示す人物行動の第１の推定結果を算出し、
　　前記パノラマ画像から生成されたオプティカルフロー画像を画像解析して、前記パノラマ画像が示す人物行動の第２の推定結果を算出し、
　　前記第１の推定結果と前記第２の推定結果とに基づき、前記パノラマ画像が示す人物行動を推定する請求項１から６のいずれか１項に記載の画像処理装置。
　コンピュータが、
　　魚眼レンズカメラで生成された魚眼画像をパノラマ展開したパノラマ画像を画像解析し、前記パノラマ画像が示す人物行動を推定し、
　　前記魚眼画像の一部領域である魚眼部分画像をパノラマ展開せずに画像解析し、前記魚眼部分画像が示す人物行動を推定し、
　　前記パノラマ画像に基づく推定結果と、前記魚眼部分画像に基づく推定結果とに基づき、前記魚眼画像が示す人物行動を推定する画像処理方法。
　コンピュータを、
　　魚眼レンズカメラで生成された魚眼画像をパノラマ展開したパノラマ画像を画像解析し、前記パノラマ画像が示す人物行動を推定する第１の推定手段、
　　前記魚眼画像の一部領域である魚眼部分画像をパノラマ展開せずに画像解析し、前記魚眼部分画像が示す人物行動を推定する第２の推定手段、
　　前記パノラマ画像に基づく推定結果と、前記魚眼部分画像に基づく推定結果とに基づき、前記魚眼画像が示す人物行動を推定する第３の推定手段、
として機能させるプログラム。