WO2023152973A1

WO2023152973A1 - 画像処理装置、画像処理方法、およびプログラム

Info

Publication number: WO2023152973A1
Application number: PCT/JP2022/005682
Authority: WO
Inventors: 諒川合; 登吉田; 健全劉
Original assignee: 日本電気株式会社
Priority date: 2022-02-14
Filing date: 2022-02-14
Publication date: 2023-08-17

Abstract

本発明は、複数のカメラで同じ場所を撮影して生成された複数の画像各々に含まれる人体のキーポイントを検出する処理を行う骨格構造検出部（１１）と、複数のカメラで生成された複数の画像に含まれる同一の人体を特定する特定部（１２）と、人体毎に、複数のカメラで生成された複数の画像から検出されたキーポイントの品質値を算出する品質値算出部（１３）と、品質値が閾値以上である人体が写る箇所を示す情報、又は画像から当該箇所を切り出した部分画像を出力する出力部（１４）と、を有する画像処理装置（１０）を提供する。

Description

画像処理装置、画像処理方法、およびプログラム

　本発明は、画像処理装置、画像処理方法、およびプログラムに関する。

　本発明に関連する技術が特許文献１乃至４及び非特許文献１に開示されている。

　特許文献１には、画像に含まれる人体の複数のキーポイント各々の特徴量を算出し、算出した特徴量に基づき姿勢が似た人体や動きが似た人体を含む画像を検索したり、当該姿勢や動きが似たもの同士でまとめて分類したりする技術が開示されている。また、非特許文献１には、人物の骨格推定に関連する技術が開示されている。

　特許文献２には、複数のカメラで撮影された画像各々から骨格点（関節の位置）を抽出し、複数の画像から抽出された同一人物の同じ関節の位置を示す骨格点をペアにする技術が開示されている。

　特許文献３には、同一の被写体を複数の方向から複数のカメラで撮影する技術が開示されている。

　特許文献４には、検出対象の物体（例：人）に対応する骨格点を画像から抽出し、抽出された骨格点のうち信頼度が閾値以上である骨格点の個数が閾値以上である場合、その対象は検出対象の物体であると判定する技術が開示されている。

国際公開第２０２１／０８４６７７号特開２０１９－１０２８７７号特開２０１９－１０３０６７号特開２０２１－５６９６８号

Zhe Cao, Tomas Simon, Shih-En Wei, Yaser Sheikh, "Realtime Multi-Person 2D Pose Estimation using Part Affinity Fields", The IEEE Conference on Computer Vision and Pattern Recognition (CVPR), 2017, P. 7291-7299

　上述した特許文献１に開示の技術によれば、所望の姿勢や所望の動きの人体を含む画像を事前にテンプレート画像として登録しておくことで、処理対象の画像の中から所望の姿勢や所望の動きの人体を検出することができる。そして、本発明者は、このような特許文献１に開示の技術を検討した結果、一定の品質の画像をテンプレート画像として登録しなければ検出の精度が悪くなること、及び、そのようなテンプレート画像を用意する作業の作業性に改善の余地があることを新たに見出した。

　上述した特許文献１乃至４及び非特許文献１はいずれも、テンプレート画像に関する課題及びその解決手段を開示していないため、上記課題を解決できないという問題点があった。

　本発明の目的の一例は、上述した課題を鑑み、一定の品質のテンプレート画像を用意する作業の作業性の問題を解決する画像処理装置、画像処理方法、およびプログラムを提供することにある。

　本発明の一態様によれば、
　複数のカメラで同じ場所を撮影して生成された複数の画像各々に含まれる人体のキーポイントを検出する処理を行う骨格構造検出手段と、
　複数の前記カメラで生成された複数の前記画像に含まれる同一の人体を特定する特定手段と、
　人体毎に、複数の前記カメラで生成された複数の前記画像から検出された前記キーポイントの品質値を算出する品質値算出手段と、
　前記品質値が閾値以上である人体が写る箇所を示す情報、又は前記画像から前記箇所を切り出した部分画像を出力する出力手段と、
を有する画像処理装置が提供される。

　また、本発明の一態様によれば、
　１以上のコンピュータが、
　　複数のカメラで同じ場所を撮影して生成された複数の画像各々に含まれる人体のキーポイントを検出する処理を行い、
　　複数の前記カメラで生成された複数の前記画像に含まれる同一の人体を特定し、
　　人体毎に、複数の前記カメラで生成された複数の前記画像から検出された前記キーポイントの品質値を算出し、
　　前記品質値が閾値以上である人体が写る箇所を示す情報、又は前記画像から前記箇所を切り出した部分画像を出力する、
画像処理方法が提供される。

　また、本発明の一態様によれば、
　コンピュータを、
　　複数のカメラで同じ場所を撮影して生成された複数の画像各々に含まれる人体のキーポイントを検出する処理を行う骨格構造検出手段、
　　複数の前記カメラで生成された複数の前記画像に含まれる同一の人体を特定する特定手段、
　　人体毎に、複数の前記カメラで生成された複数の前記画像から検出された前記キーポイントの品質値を算出する品質値算出手段、
　　前記品質値が閾値以上である人体が写る箇所を示す情報、又は前記画像から前記箇所を切り出した部分画像を出力する出力手段、
として機能させるプログラムが提供される。

　本発明の一態様によれば、一定の品質のテンプレート画像を用意する作業の作業性の問題を解決する画像処理装置、画像処理方法、およびプログラムが得られる。

　上述した目的、およびその他の目的、特徴および利点は、以下に述べる公的な実施の形態、およびそれに付随する以下の図面によってさらに明らかになる。

画像処理装置の機能ブロック図の一例を示す図である。画像処理装置のハードウエア構成の一例を示す図である。画像処理装置により検出される人体モデルの骨格構造の一例を示す図である。画像処理装置により検出された人体モデルの骨格構造の一例を示す図である。画像処理装置により検出された人体モデルの骨格構造の一例を示す図である。複数の静止画像から品質値を算出する処理の一例を説明するための図である。複数の動画像から品質値を算出する処理の一例を説明するための図である。画像処理装置により出力される情報の一例を模式的に示す図である。画像処理装置の処理の流れの一例を示すフローチャートである。画像処理装置の作用効果を説明するための図である。画像処理装置の作用効果を説明するための図である。複数の静止画像から部分品質値を算出し、品質値を算出する処理の一例を説明するための図である。複数の動画像から部分品質値を算出し、品質値を算出する処理の一例を説明するための図である。

　以下、本発明の実施の形態について、図面を用いて説明する。尚、すべての図面において、同様な構成要素には同様の符号を付し、適宜説明を省略する。

＜第１の実施形態＞
　図１は、第１の実施形態に係る画像処理装置１０の概要を示す機能ブロック図である。図１に示すように、画像処理装置１０は、骨格構造検出部１１と、特定部１２と、品質値算出部１３と、出力部１４とを備える。骨格構造検出部１１は、複数のカメラで同じ場所を撮影して生成された複数の画像各々に含まれる人体のキーポイントを検出する処理を行う。特定部１２は、複数のカメラで生成された複数の画像に含まれる同一の人体を特定する。品質値算出部１３は、人体毎に、複数のカメラで生成された複数の画像から検出されたキーポイントの品質値を算出する。出力部１４は、品質値が閾値以上である人体が写る箇所を示す情報、又は画像から当該箇所を切り出した部分画像を出力する。

　この画像処理装置１０によれば、一定の品質のテンプレート画像を用意する作業の作業性の問題を解決することができる。

＜第２の実施形態＞
「概要」
　画像処理装置１０は、複数のカメラで同じ場所を撮影して生成された複数の画像各々に含まれる人体のキーポイントを検出する。次いで、画像処理装置１０は、複数のカメラで生成された複数の画像に含まれる同一の人体を特定すると、人体毎に、複数のカメラで生成された複数の画像各々から検出されたキーポイントの数を足し合わせた値に基づき、検出されたキーポイントの品質値を算出する。そして、画像処理装置１０は、上記品質値が閾値以上である人体が写る箇所を示す情報、又は画像から当該箇所を切り出した部分画像を出力する。

　ユーザは、上記品質値が閾値以上である人体が写る箇所の中からテンプレート画像を選別することで、一定の品質のテンプレート画像を用意することができる。

「ハードウエア構成」
　次に、画像処理装置１０のハードウエア構成の一例を説明する。画像処理装置１０は上記複数のカメラと通信可能に接続されていてもよい。画像処理装置１０の各機能部は、任意のコンピュータのＣＰＵ（Central Processing Unit）、メモリ、メモリにロードされるプログラム、そのプログラムを格納するハードディスク等の記憶ユニット（あらかじめ装置を出荷する段階から格納されているプログラムのほか、ＣＤ（Compact Disc）等の記憶媒体やインターネット上のサーバ等からダウンロードされたプログラムをも格納できる）、ネットワーク接続用インターフェイスを中心にハードウエアとソフトウエアの任意の組合せによって実現される。そして、その実現方法、装置にはいろいろな変形例があることは、当業者には理解されるところである。

　図２は、画像処理装置１０のハードウエア構成を例示するブロック図である。図２に示すように、画像処理装置１０は、プロセッサ１Ａ、メモリ２Ａ、入出力インターフェイス３Ａ、周辺回路４Ａ、バス５Ａを有する。周辺回路４Ａには、様々なモジュールが含まれる。画像処理装置１０は周辺回路４Ａを有さなくてもよい。なお、画像処理装置１０は物理的及び／又は論理的に分かれた複数の装置で構成されてもよい。この場合、複数の装置各々が上記ハードウエア構成を備えることができる。

　バス５Ａは、プロセッサ１Ａ、メモリ２Ａ、周辺回路４Ａ及び入出力インターフェイス３Ａが相互にデータを送受信するためのデータ伝送路である。プロセッサ１Ａは、例えばＣＰＵ、ＧＰＵ（Graphics Processing Unit）などの演算処理装置である。メモリ２Ａは、例えばＲＡＭ（Random Access Memory）やＲＯＭ（Read Only Memory）などのメモリである。入出力インターフェイス３Ａは、入力装置、外部装置、外部サーバ、外部センサ、カメラ等から情報を取得するためのインターフェイスや、出力装置、外部装置、外部サーバ等に情報を出力するためのインターフェイスなどを含む。入力装置は、例えばキーボード、マウス、マイク、物理ボタン、タッチパネル等である。出力装置は、例えばディスプレイ、スピーカ、プリンター、メーラ等である。プロセッサ１Ａは、各モジュールに指令を出し、それらの演算結果をもとに演算を行うことができる。

「機能構成」
　図１は、第２の実施形態に係る画像処理装置１０の概要を示す機能ブロック図である。図１に示すように、画像処理装置１０は、骨格構造検出部１１と、特定部１２と、品質値算出部１３と、出力部１４とを備える。

　骨格構造検出部１１は、複数のカメラ（２個以上のカメラ）で同じ場所を撮影して生成された複数の画像各々に含まれる人体のキーポイントを検出する処理を行う。

　複数のカメラは互いに異なる位置に設置され、同じ場所を互いに異なる角度から同時に撮影する。撮影する場所は限定されない。例えば、撮影する場所は、バスや電車等の乗り物の中であってもよいし、建物の中や出入口付近であってもよいし、公園等の屋外施設の中や出入口付近であってもよいし、交差点等の屋外であってもよい。

　「画像」は、テンプレート画像の元となる画像である。テンプレート画像は、上述した特許文献１に開示の技術において事前に登録される画像であって、所望の姿勢や所望の動き（ユーザが検出したい姿勢や動き）の人体を含む画像である。画像は、複数のフレーム画像で構成される動画像であってもよいし、１枚で構成される静止画像であってもよい。

　骨格構造検出部１１は、画像に含まれる人体のＮ（Ｎは２以上の整数）個のキーポイントを検出する。動画像が処理対象の場合、骨格構造検出部１１は、フレーム画像毎にキーポイントを検出する処理を行う。骨格構造検出部１１による当該処理は、特許文献１に開示されている技術を用いて実現される。詳細は省略するが、特許文献１に開示されている技術では、非特許文献１に開示されたＯｐｅｎＰｏｓｅ等の骨格推定技術を利用して骨格構造の検出を行う。当該技術で検出される骨格構造は、関節等の特徴的な点である「キーポイント」と、キーポイント間のリンクを示す「ボーン（ボーンリンク）」とから構成される。

　図３は、骨格構造検出部１１により検出される人体モデル３００の骨格構造を示しており、図４及び図５は、骨格構造の検出例を示している。骨格構造検出部１１は、ＯｐｅｎＰｏｓｅ等の骨格推定技術を用いて、２次元の画像から図３のような人体モデル（２次元骨格モデル）３００の骨格構造を検出する。人体モデル３００は、人物の関節等のキーポイントと、各キーポイントを結ぶボーンから構成された２次元モデルである。

　骨格構造検出部１１は、例えば、画像の中からキーポイントとなり得る特徴点を抽出し、キーポイントの画像を機械学習した情報を参照して、人体のＮ個のキーポイントを検出する。検出するＮ個のキーポイントは予め定められる。検出するキーポイントの数（すなわち、Ｎの数）や、人体のどの部分を検出するキーポイントとするかは様々であり、あらゆるバリエーションを採用できる。

　以下では、図３に示すように、頭Ａ１、首Ａ２、右肩Ａ３１、左肩Ａ３２、右肘Ａ４１、左肘Ａ４２、右手Ａ５１、左手Ａ５２、右腰Ａ６１、左腰Ａ６２、右膝Ａ７１、左膝Ａ７２、右足Ａ８１、左足Ａ８２が、検出対象のＮ個のキーポイント（Ｎ＝１４）として定められているものとする。なお、図３に示す人体モデル３００では、これらのキーポイントを連結した人物の骨として、頭Ａ１と首Ａ２を結ぶボーンＢ１、首Ａ２と右肩Ａ３１及び左肩Ａ３２をそれぞれ結ぶボーンＢ２１及びボーンＢ２２、右肩Ａ３１及び左肩Ａ３２と右肘Ａ４１及び左肘Ａ４２をそれぞれ結ぶボーンＢ３１及びボーンＢ３２、右肘Ａ４１及び左肘Ａ４２と右手Ａ５１及び左手Ａ５２をそれぞれ結ぶボーンＢ４１及びボーンＢ４２、首Ａ２と右腰Ａ６１及び左腰Ａ６２をそれぞれ結ぶボーンＢ５１及びボーンＢ５２、右腰Ａ６１及び左腰Ａ６２と右膝Ａ７１及び左膝Ａ７２をそれぞれ結ぶボーンＢ６１及びボーンＢ６２、右膝Ａ７１及び左膝Ａ７２と右足Ａ８１及び左足Ａ８２をそれぞれ結ぶボーンＢ７１及びボーンＢ７２がさらに定められている。

　図４は、直立した状態の人物を検出する例である。図４では、直立した人物が正面から撮像されており、正面から見たボーンＢ１、ボーンＢ５１及びボーンＢ５２、ボーンＢ６１及びボーンＢ６２、ボーンＢ７１及びボーンＢ７２がそれぞれ重ならずに検出され、右足のボーンＢ６１及びボーンＢ７１は左足のボーンＢ６２及びボーンＢ７２よりも多少折れ曲がっている。

　図５は、しゃがみ込んでいる状態の人物を検出する例である。図５では、しゃがみ込んでいる人物が右側から撮像されており、右側から見たボーンＢ１、ボーンＢ５１及びボーンＢ５２、ボーンＢ６１及びボーンＢ６２、ボーンＢ７１及びボーンＢ７２がそれぞれ検出され、右足のボーンＢ６１及びボーンＢ７１と左足のボーンＢ６２及びボーンＢ７２は大きく折れ曲がり、かつ、重なっている。

　図１に戻り、特定部１２は、複数のカメラで生成された複数の画像に含まれる同一の人体を特定する。同一の人体は、同一人物の人体である。上述の通り、複数のカメラで生成された複数の画像は、複数のカメラで同じ場所を同時に撮影して生成されたものである。このため、同一人物が複数の画像に跨って写っている可能性がある。

　複数の画像に跨って写っている同一の人体を特定する手段は様々である。例えば、顔認証技術等を利用して複数の画像に跨って写っている同一人物を特定し、同一人物が写っている複数の画像各々内の位置で検出された人体を、同一の人体として特定してもよい。

　なお、画像が動画像の場合、さらに、上記と同様の手法で、又は人物追跡技術等を組み合わせて、１つの動画像の中の複数のフレーム画像に跨って写っている同一の人体を特定することができる。

　品質値算出部１３は、人体毎に、複数のカメラで生成された複数の画像から検出されたキーポイントの品質値を算出する。また、品質値算出部１３は、検出された人体毎に、検出されたキーポイントの品質値が閾値以上か判定する。そして、品質値算出部１３は、判定結果に応じて、検出されたキーポイントの品質値が閾値以上である人体が写る画像内の箇所を特定する。以下、これらの処理を詳細に説明する。

－検出されたキーポイントの品質値を算出する処理－
　品質値算出部１３は、人体毎に品質値を算出する。例えば、人物Ａの人体が第１の画像及び第２の画像に写っている場合、品質値算出部１３は、第１の画像に写っている人物Ａの人体、及び、第２の画像に写っている人物Ａの人体別々に品質値を算出するのでなく、人物Ａの人体に対応して１つの品質値を算出する。

　図６に示すように、画像が静止画像の場合、人物Ａの人体の品質値が、複数の静止画像に基づき算出される。

　図７に示すように、画像が動画像の場合、品質値算出部１３は、動画像に付与されたタイムスタンプに基づき、複数の動画像の中から互いに同じタイミングで撮影された複数のフレーム画像を特定する。そして、品質値算出部１３は、互いに同じタイミングで撮影された複数のフレーム画像の組み合わせ毎に、上記品質値を算出する。

　「検出されたキーポイントの品質値」は、検出されたキーポイントの質がどれだけ良いものかを示す値であり、各種データに基づき算出することができる。本実施形態では、品質値算出部１３は、複数の画像各々から検出されたキーポイントの数を足し合わせた値に基づき、品質値を算出する。品質値算出部１３は、複数の画像各々から検出されたキーポイントの数を足し合わせた値が大きいほど、高い品質値を算出する。例えば、品質値算出部１３は、複数の画像各々から検出されたキーポイントの数を足し合わせた値を品質値としてもよいし、当該足し合わせた値を所定のルールで正規化した値を品質値として算出してもよい。

　ここで、具体例を用いて上記品質値を説明する。話を簡単にするため、２個のカメラで同じ場所を撮影して生成された２個の画像（第１及び第２の画像）を処理するものとする。例えば、第１の画像に写っている人物Ａの人体からＫ_１個（Ｋ_１はＮ以下の整数）のキーポイントが検出され、第２の画像に写っている人物Ａの人体からＫ_２個（Ｋ_２はＮ以下の整数）のキーポイントが検出されたとする。この場合、品質値算出部１３は、人物Ａの人体から検出されたキーポイントの品質値を、（Ｋ_１＋Ｋ_２）に基づき算出する。

－検出されたキーポイントの品質値が閾値以上である人体が写る画像内の箇所を特定する処理－
　品質値算出部１３は、上述した品質値を算出する処理の算出結果に基づき、検出されたキーポイントの品質値が閾値以上である人体が写る画像内の箇所を特定する。品質値算出部１３は、検出された人体毎に、検出されたキーポイントの品質値が閾値以上か判定する。そして、品質値算出部１３は、判定結果に応じて、品質値が閾値以上である人体が写る箇所を特定する。

　画像が静止画像である場合、「品質値が閾値以上である人体が写る箇所」は、１枚の静止画像内の一部領域となる。この場合、静止画像毎に、例えば静止画像に設定された座標系の座標で、検出されたキーポイントの品質値が閾値以上である人体が写る画像内の箇所が示される。

　一方、画像が動画像である場合、「品質値が閾値以上である人体が写る箇所」は、動画像を構成する複数のフレーム画像の中の一部のフレーム画像各々内の一部領域となる。この場合、動画像ごとに、例えば複数のフレーム画像の中の一部のフレーム画像を示す情報（フレーム識別情報、冒頭からの経過時間等）と、フレーム画像に設定された座標系の座標とで、検出されたキーポイントの品質値が閾値以上である人体が写る画像内の箇所が示される。

　なお、画像が動画像である場合、「同一人物の人体が継続して写っており、かつ"その人体から検出されたキーポイントの品質値が閾値以上"という条件を満たす複数のフレーム画像各々においてその人体が写る箇所」を特定することが好ましい。

　上述の通り、画像が動画像の場合、特定部１２は、複数のフレーム画像に跨って写っている同一人物の人体を特定することができる。品質値算出部１３は、当該特定の結果に基づき、同一人物の人体が継続して写っている複数のフレーム画像を特定することができる。

　次に、"その人体から検出されたキーポイントの品質値が閾値以上"という条件について説明する。この条件は、特定した複数のフレーム画像の全てが当該条件を満たすことを要求するものであってもよい。すなわち、品質値算出部１３が特定した複数のフレーム画像においては、同一人物の人体が継続して写っており、かつ、すべてのフレーム画像においてその人体から検出されたキーポイントの品質値が閾値以上となっていてもよい。

　その他、上記条件は、特定した複数のフレーム画像の少なくとも一部が上記条件を満たすことを要求するものであってもよい。すなわち、品質値算出部１３が特定した複数のフレーム画像においては、同一人物の人体が継続して写っており、かつ、少なくとも一部のフレーム画像においてその人体から検出されたキーポイントの品質値が閾値以上となっていてもよい。この場合、品質値算出部１３が特定する複数のフレーム画像の条件として、さらに、「品質値が閾値未満となる人体が写るフレーム画像が連続する数はＱ個以下」等を付与してもよい。このような追加の条件を付与することで、品質値算出部１３が特定した複数のフレーム画像において、品質値が低い人体が所定フレーム数以上連続して現れるという不都合を抑制できる。

　出力部１４は、品質値が閾値以上である人体（検出されたキーポイントの品質値が閾値以上である人体のこと）が写る箇所を示す情報、又は画像から当該箇所を切り出した部分画像を出力する。画像が動画像である場合、出力部１４は、同一人物の人体が継続して写っており、かつ"その人体から検出されたキーポイントの品質値が閾値以上"という条件を満たす複数のフレーム画像各々においてその人体が写る箇所を示す情報、又は画像から当該箇所を切り出した部分画像を出力してもよい。

　なお、出力部１４が部分画像を出力する場合、画像処理装置１０は、画像から、品質値が閾値以上である人体が写る箇所を切り出して部分画像を生成する処理部を有することができる。そして、出力部１４は、処理部が生成した部分画像を出力することができる。

　また、出力部１４は、複数のカメラで生成された複数の画像各々から切り出した部分画像を、同一人体に関するもの同士で互いに紐付けて出力してもよい。また、出力部１４は、複数のカメラで生成された複数の画像各々における品質値が閾値以上である人体が写る箇所を示す情報を、同一人体に関する情報同士で互いに紐付けて出力してもよい。また、出力部１４は、画像に品質値が閾値以上である人体が含まれていることを示す情報を出力してもよい。

　上述した「画像内の品質値が閾値以上である人体が写る箇所」が、テンプレート画像の候補となる。ユーザは、上記情報又は上記部分画像に基づき、品質値が閾値以上である人体が写る箇所を閲覧等し、その中から、所望の姿勢や所望の動きの人体を含む箇所をテンプレート画像として選別することができる。

　図８に、出力部１４が出力した情報の一例を模式的に示す。図８に示す例では、検出された複数の人体を互いに識別するための人体識別情報と、各人体の属性情報とが互いに紐付けて表示されている。そして、属性情報の一例として、品質値、検出キーポイント数、画像内箇所を示す情報（上述した人体が写る箇所を示す情報）、画像の撮影日時が表示されている。検出キーポイント数は、複数の画像各々から検出されたキーポイントの数を足し合わせた値である。属性情報は、その他、画像を撮影したカメラの設置位置（撮影位置）を示す情報（例：１０２号バス車内後方、〇〇公園入口等）や、画像解析で算出される人物の属性情報（例：性別、年齢層、体型等）を含んでもよい。

　次に、図９のフローチャートを用いて、画像処理装置１０の処理の流れの一例を説明する。

　画像処理装置１０は、複数のカメラで同じ場所を撮影して生成された複数の画像を取得すると（Ｓ１０）、複数の画像各々に含まれる人体のキーポイントを検出する処理を行う（Ｓ１１）。次いで、画像処理装置１０は、複数のカメラで生成された複数の画像に含まれる同一の人体を特定する（Ｓ１２）。なお、Ｓ１１及びＳ１２の処理順は逆でもよいし、これら２つの処理が並行して行われてもよい。

　次いで、画像処理装置１０は、人体毎に、複数のカメラで生成された複数の画像から検出されたキーポイントの品質値を算出する（Ｓ１３）。第２の実施形態では、画像処理装置１０は、複数のカメラで生成された複数の画像各々から検出されたキーポイントの数を足し合わせた値に基づき、品質値を算出する。画像処理装置１０は、当該足し合わせた値が高いほど、高い品質値を算出する。

　次いで、画像処理装置１０、人体毎に検出されたキーポイントの品質値が閾値以上か判定する（Ｓ１４）。次いで、画像処理装置１０は、Ｓ１４の判定結果に応じて、検出されたキーポイントの品質値が閾値以上である人体が写る画像内の箇所を特定する（Ｓ１５）。そして、画像処理装置１０は、品質値が閾値以上である人体が写る箇所を示す情報、又は画像から当該箇所を切り出した部分画像を出力する（Ｓ１６）。例えば、画像処理装置１０は、複数のカメラで生成された複数の画像各々から切り出した部分画像を、同一人体に関するもの同士で互いに紐付けて出力してもよい。また、画像処理装置１０は、複数のカメラで生成された複数の画像各々における品質値が閾値以上である人体が写る箇所を示す情報を、同一人体に関する情報同士で互いに紐付けて出力してもよい。

「作用効果」
　第２の実施形態の画像処理装置１０によれば、第１の実施形態と同様の作用効果が実現される。また、第２の実施形態の画像処理装置１０によれば、複数のカメラで生成された複数の画像各々から検出されたキーポイントの数を足し合わせた値が大きい人体が写る箇所を、テンプレート画像の候補としてユーザに提示することができる。ユーザは、このように提示されたテンプレート画像の候補の中からテンプレート画像を選別することで、複数の画像各々から検出されたキーポイントの数を足し合わせた値が一定の品質を満たすテンプレート画像を容易に用意することができる。

　また、図１０に示すように、障害物Ｑや自身の人体Ｐの他の部分に隠れて、人体Ｐの一部のキーポイントが検出されない場合がある。多くのキーポイントが未検出である人体の画像はテンプレート画像として好ましくない。しかし、図１１に示すように、その未検出のキーポイントが他のカメラで生成された画像において検出されている場合、他の画像から検出されたキーポイントの特徴量で不足分を補完することができる。このように、１つの画像のみではテンプレート画像として好ましくないが、同じタイミングで撮影された複数の画像を組み合わせた場合に、テンプレート画像として好ましくなる場合がある。画像処理装置１０のように、人体毎に、複数のカメラで生成された複数の画像から検出されたキーポイントの品質値を算出し、その品質値に基づきテンプレート画像の候補を選別することで、上述のような同じタイミングで撮影された複数の画像を組み合わせた場合にテンプレート画像として好ましくなる人体の画像をテンプレート画像の候補として選別することが可能となる。

＜第３の実施形態＞
　第３の実施形態の画像処理装置１０は、品質値の算出の仕方が第１及び第２の実施形態と異なる。

　品質値算出部１３は、検出対象の複数のキーポイント（上述したＮ個のキーポイント）の中の複数のカメラで生成された複数の画像の少なくとも１つにおいて検出されているキーポイントの数、又は、検出対象の複数のキーポイントの中の複数のカメラで生成された複数の画像のいずれにおいても検出されていないキーポイントの数に基づき、品質値を算出する。

　品質値算出部１３は、検出対象の複数のキーポイントの中の複数のカメラで生成された複数の画像の少なくとも１つにおいて検出されているキーポイントの数が大きいほど、高い品質値を算出する。例えば、品質値算出部１３は、検出対象の複数のキーポイントの中の複数のカメラで生成された複数の画像の少なくとも１つにおいて検出されているキーポイントの数を品質値としてもよいし、当該数を所定のルールで正規化した値を品質値として算出してもよい。

　また、品質値算出部１３は、検出対象の複数のキーポイントの中の複数のカメラで生成された複数の画像のいずれにおいても検出されていないキーポイントの数が小さいほど、高い品質値を算出する。例えば、品質値算出部１３は、所定の値から、検出対象の複数のキーポイントの中の複数のカメラで生成された複数の画像のいずれにおいても検出されていないキーポイントの数を引いた数を品質値としてもよいし、当該数を所定のルールで正規化した値を品質値として算出してもよい。

　ここで、具体例を用いて上記品質値を説明する。話を簡単にするため、２個のカメラで同じ場所を撮影して生成された２個の画像（第１及び第２の画像）を処理するものとする。また、検出対象の複数のキーポイントはＣ_１乃至Ｃ_５の５個とする。第１の画像からキーポイントＣ_１乃至Ｃ_３が検出され、第２の画像からキーポイントＣ_２乃至Ｃ_４が検出されたとする。この場合、検出対象の複数のキーポイントの中の複数のカメラで生成された複数の画像の少なくとも１つにおいて検出されているキーポイントはキーポイントＣ_１乃至Ｃ_４であり、その数は「４」となる。そして、検出対象の複数のキーポイントの中の複数のカメラで生成された複数の画像のいずれにおいても検出されていないキーポイントはキーポイントＣ_５であり、その数は「１」となる。品質値算出部１３は、このような数に基づき、その人体から検出されたキーポイントの品質値を算出する。

　その他、品質値算出部１３は、第２の実施形態で説明した手法と、上記検出対象の複数のキーポイントの中の複数のカメラで生成された複数の画像の少なくとも１つにおいて検出されているキーポイントの数、又は、検出対象の複数のキーポイントの中の複数のカメラで生成された複数の画像のいずれにおいても検出されていないキーポイントの数に基づく手法を組み合わせて品質値を算出してもよい。例えば、品質値算出部１３は、第２の実施形態で説明した手法で算出した品質値を所定のルールで正規化して第１の品質値を算出するとともに、上記検出対象の複数のキーポイントの中の複数のカメラで生成された複数の画像の少なくとも１つにおいて検出されているキーポイントの数、又は、検出対象の複数のキーポイントの中の複数のカメラで生成された複数の画像のいずれにおいても検出されていないキーポイントの数に基づく手法で算出した品質値を所定のルールで正規化して第２の品質値を算出する。そして、品質値算出部１３は、第１の品質値と第２の品質値の統計値（平均値、最大値、最小値、中央値、最頻値、重み付け平均値等）を、人体の品質値として算出してもよい。

　第３の実施形態の画像処理装置１０のその他の構成は、第１及び第２の実施形態と同様である。

　第３の実施形態の画像処理装置１０によれば、第１及び第２の実施形態と同様の作用効果が実現される。また、第３の実施形態の画像処理装置１０によれば、検出対象のＮ個のキーポイントの中の少なくとも１つの画像で検出されたキーポイントの数が多い人体が写る箇所を、テンプレート画像の候補としてユーザに提示することができる。ユーザは、このように提示されたテンプレート画像の候補の中からテンプレート画像を選別することで、少なくとも１つの画像で検出されたキーポイントの数が一定の品質を満たすテンプレート画像を容易に用意することができる。

＜第４の実施形態＞
　第４の実施形態の画像処理装置１０は、品質値の算出の仕方が第１乃至第３の実施形態と異なる。

　品質値算出部１３は、複数のカメラで生成された複数の画像各々から検出されたキーポイントの部分品質値を画像毎に算出し、画像毎の当該部分品質値を統合して人体毎に品質値を算出する。図１２に示すように画像が静止画像の場合、品質値算出部１３は、複数の画像各々から検出された人体毎に、部分品質値を算出する。そして、品質値算出部１３は、同一人物の人体の部分品質値を統合して、その人物の人体の品質値を算出する。

　図１３に示すように画像が動画像の場合、品質値算出部１３は、動画像に付与されたタイムスタンプに基づき、複数の動画像の中から互いに同じタイミングで撮影された複数のフレーム画像を特定する。そして、品質値算出部１３は、互いに同じタイミングで撮影された複数のフレーム画像の組み合わせ毎に、その複数のフレーム画像各々から検出された同一人物の人体の部分品質値を統合して、その人物の人体の品質値を算出する。

「検出されたキーポイントの部分品質値」は、検出されたキーポイントの質がどれだけ良いものかを示す値であり、各種データに基づき算出することができる。本実施形態では、品質値算出部１３は、キーポイントの検出結果の確信度に基づき、部分品質値を算出する。以下の実施形態で、キーポイントの検出結果の確信度以外のデータに基づき上記部分品質値を算出する例を説明する。当該確信度の算出方法は特段制限されない。例えば、ＯｐｅｎＰｏｓｅ等の骨格推定技術において、検出された各キーポイントに紐付けて出力されるスコアを、各キーポイントの確信度としてもよい。

　品質値算出部１３は、キーポイントの検出結果の確信度が高いほど、高い部分品質値を算出する。例えば、品質値算出部１３は、人体から検出されたＮ個のキーポイント各々の確信度の統計値（平均値、最大値、最小値、中央値、最頻値、重み付け平均値等）をその人体の部分品質値として算出してもよい。Ｎ個のキーポイントの中の一部が検出されていない場合、その検出されていないキーポイントの確信度は「０」等の固定値としてもよい。この固定値は、検出されたキーポイントの確信度よりも低い値とする。

　なお、画像が静止画像の場合、品質値算出部１３は、その静止画像から検出された人体毎に、部分品質値を算出する。一方、画像が動画像の場合、品質値算出部１３は、複数のフレーム画像各々から検出された人体毎に、部分品質値を算出する。

　次に、複数のカメラで生成された複数の画像各々から検出されたキーポイントの部分品質値を統合して品質値を算出する処理を説明する。品質値算出部１３は、複数のカメラで生成された複数の画像各々から検出されたキーポイントの部分品質値の統計値（平均値、最大値、最小値、中央値、最頻値、重み付け平均値等）を、その人体の品質値として算出することができる。

　その他、品質値算出部１３は、第２及び第３の実施形態で説明した手法の少なくとも一方と、上記キーポイントの検出結果の確信度に基づく手法を組み合わせて品質値を算出してもよい。例えば、品質値算出部１３は、第２の実施形態で説明した手法で算出した品質値を所定のルールで正規化して第１の品質値を算出する処理、及び第３の実施形態で説明した手法で算出した品質値を所定のルールで正規化して第２の品質値を算出する処理の少なくとも一方を行う。また、品質値算出部１３は、上記キーポイントの検出結果の確信度に基づく手法で算出した品質値を所定のルールで正規化して第３の品質値を算出する。そして、品質値算出部１３は、第１及び第２の品質値の少なくとも一方と、第３の品質値の統計値（平均値、最大値、最小値、中央値、最頻値、重み付け平均値等）を、人体の品質値として算出してもよい。

　第４の実施形態の画像処理装置１０のその他の構成は、第１乃至第３の実施形態と同様である。

　第４の実施形態の画像処理装置１０によれば、第１乃至第３の実施形態と同様の作用効果が実現される。また、第４の実施形態の画像処理装置１０によれば、キーポイントの検出結果の確信度が高い人体が写る箇所を、テンプレート画像の候補としてユーザに提示することができる。ユーザは、このように提示されたテンプレート画像の候補の中からテンプレート画像を選別することで、キーポイントの検出結果の確信度が一定の品質を満たすテンプレート画像を容易に用意することができる。

＜第５の実施形態＞
　第５の実施形態の画像処理装置１０は、品質値の算出の仕方が第１乃至第４の実施形態と異なる。

　品質値算出部１３は、複数のカメラで生成された複数の画像各々から検出されたキーポイントの部分品質値を画像毎に算出し、画像毎の当該部分品質値を統合して人体毎に品質値を算出する。そして、品質値算出部１３は、検出されたキーポイントの数が相対的に多い人体の部分品質値を、検出されたキーポイントの数が相対的に少ない人体の部分品質値よりも高く算出する。例えば、品質値算出部１３は、検出されたキーポイントの数を部分品質値としてもよい。その他、複数のキーポイント各々に重み付けポイントが設定されていてもよい。相対的に重要なキーポイントほど高い重み付けポイントが設定される。そして、品質値算出部１３は、検出されたキーポイント各々の重み付けポイントを足し合わせた値を部分品質値として算出してもよい。

　その他、品質値算出部１３は、第２乃至第４の実施形態で説明した手法の少なくとも１つと、上記キーポイントの数に基づく手法を組み合わせて品質値を算出してもよい。例えば、品質値算出部１３は、第２の実施形態で説明した手法で算出した品質値を所定のルールで正規化して第１の品質値を算出する処理、第３の実施形態で説明した手法で算出した品質値を所定のルールで正規化して第２の品質値を算出する処理、及び第４の実施形態で説明した手法で算出した品質値を所定のルールで正規化して第３の品質値を算出する処理の少なくとも１つを行う。また、品質値算出部１３は、上記キーポイントの数に基づく手法で算出した品質値を所定のルールで正規化して第４の品質値を算出する。そして、品質値算出部１３は、第１乃至第３の品質値の少なくとも１つと、第４の品質値の統計値（平均値、最大値、最小値、中央値、最頻値、重み付け平均値等）を、人体の品質値として算出してもよい。

　第５の実施形態の画像処理装置１０のその他の構成は、第１乃至第４の実施形態と同様である。

　第５の実施形態の画像処理装置１０によれば、第１乃至第４の実施形態と同様の作用効果が実現される。また、第５の実施形態の画像処理装置１０によれば、多くのキーポイントが検出された人体が写る箇所を、テンプレート画像の候補としてユーザに提示することができる。ユーザは、このように提示されたテンプレート画像の候補の中からテンプレート画像を選別することで、検出されたキーポイントの数が一定の品質を満たすテンプレート画像を容易に用意することができる。

＜第６の実施形態＞
　第６の実施形態の画像処理装置１０は、品質値の算出の仕方が第１乃至第５の実施形態と異なる。

　品質値算出部１３は、複数のカメラで生成された複数の画像各々から検出されたキーポイントの部分品質値を画像毎に算出し、画像毎の当該部分品質値を統合して人体毎に品質値を算出する。そして、品質値算出部１３は、他の人体との重なり度合に基づき、部分品質値を算出する。なお、「人物Ａの人体が人物Ｂの人体と重なっている状態」は、人物Ａの人体が人物Ｂの人体により一部もしくは全部を隠されている状態、人物Ａの人体が人物Ｂの人体の一部もしくは全部を隠している状態、及び、その両方が発生している状態を含む。以下、当該算出の手法を具体的に説明する。

－第１の手法－
　品質値算出部１３は、他の人体と重なっていない人体の部分品質値を、他の人体と重なっている人体の部分品質値よりも高く算出する。例えば、他の人体と重なっていない人体の部分品質値をＸ_１とし、他の人体と重なっている人体の部分品質値をＸ_２とするルールが予め作成され、画像処理装置１０に記憶される。なお、Ｘ_１＞Ｘ_２である。そして、品質値算出部１３は、当該ルールに基づき、他の人体と重なっていない人体の部分品質値をＸ_１と算出し、他の人体と重なっている人体の部分品質値をＸ_２と算出する。

　他の人体と重なっているか否かは、骨格構造検出部１１が検出した人体モデル３００（図３参照）の重なり度合に基づき特定してもよいし、画像に写る身体の重なり度合に基づき特定してもよい。

　例えば、２つの人体の所定のキーポイント（例：頭Ａ１）の画像内の距離が閾値以下である場合、その２つの人体は重なり合うと判定してもよい。この場合、閾値は、検出された人体の画像内での大きさに応じて変わる可変値であってもよい。検出された人体の画像内での大きさが大きいほど、閾値も大きくなる。なお、人体の画像内での大きさに代えて、所定のボーン（例：頭Ａ１と首Ａ２とを結ぶボーンＢ１）の長さや、画像内の顔の大きさ等を採用してもよい。

　その他、ある人体のいずれかのボーンが他の人体のいずれかのボーンと交わっている場合、その２つの人体は互いに重なり合っていると判定してもよい。

－第２の手法－
　品質値算出部１３は、他の人体と重なっていない人体の部分品質値を、他の人体と重なっている人体の部分品質値よりも高く算出するとともに、他の人体と重なっている人体のうち、前側に位置する人体の部分品質値を、後ろ側に位置する人体の部分品質値よりも高く算出する。

　すなわち、品質値算出部１３は、他の人体と重なっていない人体の部分品質値を最も高く算出し、他の人体と重なっているが前側に位置する人体の部分品質値を次に高く算出し、他の人体と重なっており後ろ側に位置する人体の部分品質値を最も低く算出する。

　例えば、他の人体と重なっていない人体の部分品質値をＸ_１とし、他の人体と重なっており前側に位置する人体の部分品質値Ｘ_２１とし、他の人体と重なっており後ろ側に位置する人体の部分品質値Ｘ_２２とするルールが予め作成され、画像処理装置１０に記憶される。なお、Ｘ_１＞Ｘ_２１＞Ｘ_２２である。そして、品質値算出部１３は、当該ルールに基づき、他の人体と重なっていない人体の部分品質値をＸ_１と算出し、他の人体と重なっており前側に位置する人体の部分品質値をＸ_２１と算出し、他の人体と重なっており後ろ側に位置する人体の部分品質値をＸ_２２と算出する。

　他の人体よりも前側にいるか後ろ側にいるかは、骨格構造検出部１１が検出した人体モデル３００（図３参照）の隠れ具合または欠損具合に基づき特定してもよいし、画像に写る身体の隠れ具合に基づき特定してもよい。例えば、互いに重なっている２つの人体のうち、一方はＮ個全てのキーポイントが検出され、他方はＮ個のキーポイントのうちの一部のみが検出されている場合、Ｎ個全てのキーポイントが検出された人体が前側に位置し、他方の人体が後ろ側に位置すると判断できる。

　その他、品質値算出部１３は、第２乃至第５の実施形態で説明した手法の少なくとも１つと、上記人体の重なり度合に基づく手法を組み合わせて品質値を算出してもよい。例えば、品質値算出部１３は、第２の実施形態で説明した手法で算出した品質値を所定のルールで正規化して第１の品質値を算出する処理、第３の実施形態で説明した手法で算出した品質値を所定のルールで正規化して第２の品質値を算出する処理、第４の実施形態で説明した手法で算出した品質値を所定のルールで正規化して第３の品質値を算出する処理、及び第５の実施形態で説明した手法で算出した品質値を所定のルールで正規化して第４の品質値を算出する処理の少なくとも１つを行う。また、品質値算出部１３は、上記人体の重なり度合に基づく手法で算出した品質値を所定のルールで正規化して第５の品質値を算出する。そして、品質値算出部１３は、第１乃至第４の品質値の少なくとも１つと、第５の品質値の統計値（平均値、最大値、最小値、中央値、最頻値、重み付け平均値等）を、人体の品質値として算出してもよい。

　第６の実施形態の画像処理装置１０のその他の構成は、第１乃至第５の実施形態と同様である。

　第６の実施形態の画像処理装置１０によれば、第１乃至第５の実施形態と同様の作用効果が実現される。また、第６の実施形態の画像処理装置１０によれば、他の人体と重なっていない人体が写る箇所や、他の人体と重なっているが前側に位置する人体が写る箇所を、テンプレート画像の候補としてユーザに提示することができる。ユーザは、このように提示されたテンプレート画像の候補の中からテンプレート画像を選別することで、他の人体との重なり度合が一定の品質を満たすテンプレート画像を容易に用意することができる。

＜第７の実施形態＞
　第７の実施形態の画像処理装置１０は、品質値の算出の仕方が第１乃至第６の実施形態と異なる。

　まず、骨格構造検出部１１は、画像内で人物領域を検出し、検出した前記人物領域内でキーポイントを検出する処理を行う。すなわち、骨格構造検出部１１は、画像内の全ての領域を、キーポイントを検出する処理の対象とするのでなく、検出した人物領域のみを、キーポイントを検出する処理の対象とする。画像内で人物領域を検出する処理の詳細は特段制限されず、例えばＹＯＬＯ等の物体検出技術を用いて実現されてもよい。

　品質値算出部１３は、複数のカメラで生成された複数の画像各々から検出されたキーポイントの部分品質値を画像毎に算出し、画像毎の当該部分品質値を統合して人体毎に品質値を算出する。そして、品質値算出部１３は、上記人物領域の検出結果の確信度に基づき、部分品質値を算出する。人物領域の検出結果の確信度の算出方法は特段制限されない。例えば、ＹＯＬＯ等の物体検出技術において、検出された物体領域に紐付けて出力されるスコア（信頼度等と言う場合もある）を、各人物領域の確信度としてもよい。

　品質値算出部１３は、人物領域の検出結果の確信度が高いほど、高い部分品質値を算出する。例えば、品質値算出部１３は、人物領域の検出結果の確信度を部分品質値として算出してもよい。

　その他、品質値算出部１３は、第２乃至第６の実施形態で説明した手法の少なくとも１つと、上記人物領域の検出結果の確信度に基づく手法を組み合わせて品質値を算出してもよい。例えば、品質値算出部１３は、第２の実施形態で説明した手法で算出した品質値を所定のルールで正規化して第１の品質値を算出する処理、第３の実施形態で説明した手法で算出した品質値を所定のルールで正規化して第２の品質値を算出する処理、第４の実施形態で説明した手法で算出した品質値を所定のルールで正規化して第３の品質値を算出する処理、第５の実施形態で説明した手法で算出した品質値を所定のルールで正規化して第４の品質値を算出する処理、及び第６の実施形態で説明した手法で算出した品質値を所定のルールで正規化して第５の品質値を算出する処理の少なくとも１つを行う。また、品質値算出部１３は、上記人物領域の検出結果の確信度に基づく手法で算出した品質値を所定のルールで正規化して第６の品質値を算出する。そして、品質値算出部１３は、第１乃至第５の品質値の少なくとも１つと、第６の品質値の統計値（平均値、最大値、最小値、中央値、最頻値、重み付け平均値等）を、人体の品質値として算出してもよい。

　第７の実施形態の画像処理装置１０のその他の構成は、第１乃至第６の実施形態と同様である。

　第７の実施形態の画像処理装置１０によれば、第１乃至第６の実施形態と同様の作用効果が実現される。また、第７の実施形態の画像処理装置１０によれば、人物が高い確信度で写る箇所を、テンプレート画像の候補としてユーザに提示することができる。ユーザは、このように提示されたテンプレート画像の候補の中からテンプレート画像を選別することで、人物領域の検出結果が一定の品質を満たすテンプレート画像を容易に用意することができる。

＜第８の実施形態＞
　第８の実施形態の画像処理装置１０は、品質値の算出の仕方が第１乃至第７の実施形態と異なる。

　品質値算出部１３は、複数のカメラで生成された複数の画像各々から検出されたキーポイントの部分品質値を画像毎に算出し、画像毎の当該部分品質値を統合して人体毎に品質値を算出する。そして、品質値算出部１３は、画像上での人体の大きさに基づき、部分品質値を算出する。品質値算出部１３は、相対的に大きい人体の部分品質値を、相対的に小さい人体の部分品質値よりも高く算出する。画像上での人体の大きさは、第７の実施形態で示した人物領域の大きさ（面積等）で示されてもよいし、所定のボーン（例：ボーンＢ１）の長さで示されてもよいし、所定の２つのキーポイント（例：キーポイントＡ３１とＡ３２）間の長さで示されてもよいし、その他の手法で示されてもよい。

　その他、品質値算出部１３は、第２乃至第７の実施形態で説明した手法の少なくとも１つと、上記人体の大きさに基づく手法を組み合わせて品質値を算出してもよい。例えば、品質値算出部１３は、第２の実施形態で説明した手法で算出した品質値を所定のルールで正規化して第１の品質値を算出する処理、第３の実施形態で説明した手法で算出した品質値を所定のルールで正規化して第２の品質値を算出する処理、第４の実施形態で説明した手法で算出した品質値を所定のルールで正規化して第３の品質値を算出する処理、第５の実施形態で説明した手法で算出した品質値を所定のルールで正規化して第４の品質値を算出する処理、第６の実施形態で説明した手法で算出した品質値を所定のルールで正規化して第５の品質値を算出する処理、及び第７の実施形態で説明した手法で算出した品質値を所定のルールで正規化して第６の品質値を算出する処理の少なくとも１つを行う。また、品質値算出部１３は、上記人体の大きさに基づく手法で算出した品質値を所定のルールで正規化して第７の品質値を算出する。そして、品質値算出部１３は、第１乃至第６の品質値の少なくとも１つと、第７の品質値の統計値（平均値、最大値、最小値、中央値、最頻値、重み付け平均値等）を、人体の品質値として算出してもよい。

　第８の実施形態の画像処理装置１０のその他の構成は、第１乃至第７の実施形態と同様である。

　第８の実施形態の画像処理装置１０によれば、第１乃至第７の実施形態と同様の作用効果が実現される。また、第８の実施形態の画像処理装置１０によれば、人体がある程度大きく写る箇所を、テンプレート画像の候補としてユーザに提示することができる。ユーザは、このように提示されたテンプレート画像の候補の中からテンプレート画像を選別することで、人体の大きさが一定の品質を満たすテンプレート画像を容易に用意することができる。

＜第９の実施形態＞
　第９の実施形態の画像処理装置１０は、テンプレート画像の候補とする箇所を選別する処理が第１乃至第８の実施形態と異なる。

　品質値算出部１３は、品質値が閾値以上であり、かつ、複数のカメラで生成された複数の画像各々から検出されたキーポイントの数が下限値以上である人体が写る箇所を特定する。そして、出力部１４は、品質値が閾値以上であり、かつ、複数のカメラで生成された複数の画像各々から検出されたキーポイントの数が下限値以上である人体が写る箇所を示す情報、又は画像から当該箇所を切り出した部分画像を出力する。

　第９の実施形態の画像処理装置１０のその他の構成は、第１乃至第８の実施形態と同様である。

　第９の実施形態の画像処理装置１０によれば、第１乃至第８の実施形態と同様の作用効果が実現される。また、第９の実施形態の画像処理装置１０によれば、上述した品質値が閾値以上であり、かつ複数のカメラで生成された複数の画像の各々において下限値以上のキーポイントが検出されている人体が写る箇所を、テンプレート画像の候補としてユーザに提示することができる。ユーザは、このように提示されたテンプレート画像の候補の中からテンプレート画像を選別することで、上述した品質値が閾値以上であり、かつ複数の画像の各々において検出されているキーポイントの数が一定の品質を満たすテンプレート画像を容易に用意することができる。

＜変形例＞
　上記実施形態では、画像が動画像である場合、「品質値が閾値以上である人体が写る箇所」は、動画像を構成する複数のフレーム画像の中の一部のフレーム画像各々内の一部領域であった。そして、出力部１４は、このような箇所を示す情報や、画像からこのような箇所を切り出した部分画像を出力した。これは、１つのフレーム画像に複数の人体が含まれ得ることを想定した構成である。

　変形例として、画像が動画像である場合、品質値が閾値以上である人体が写る箇所は、動画像を構成する複数のフレーム画像の中の一部であってもよい。そして、出力部１４は、このような複数のフレーム画像の中の一部を示す情報や、画像から一部のフレーム画像を切り出した部分画像を出力してもよい。また、品質値が閾値以上である人体が映るフレーム画像自体をテンプレート画像の候補として出力してもよい。これは、１つのフレーム画像に品質値が閾値以上である人体が１つだけ含まれ得ることを想定した構成である。

　以上、図面を参照して本発明の実施形態について述べたが、これらは本発明の例示であり、上記以外の様々な構成を採用することもできる。

　また、上述の説明で用いた複数のフローチャートでは、複数の工程（処理）が順番に記載されているが、各実施形態で実行される工程の実行順序は、その記載の順番に制限されない。各実施形態では、図示される工程の順番を内容的に支障のない範囲で変更することができる。また、上述の各実施形態は、内容が相反しない範囲で組み合わせることができる。

　上記の実施形態の一部または全部は、以下の付記のようにも記載されうるが、以下に限られない。
１．　複数のカメラで同じ場所を撮影して生成された複数の画像各々に含まれる人体のキーポイントを検出する処理を行う骨格構造検出手段と、
　複数の前記カメラで生成された複数の前記画像に含まれる同一の人体を特定する特定手段と、
　人体毎に、複数の前記カメラで生成された複数の前記画像から検出された前記キーポイントの品質値を算出する品質値算出手段と、
　前記品質値が閾値以上である人体が写る箇所を示す情報、又は前記画像から前記箇所を切り出した部分画像を出力する出力手段と、
を有する画像処理装置。
２．　前記品質値算出手段は、複数の前記カメラで生成された複数の前記画像各々から検出された前記キーポイントの数を足し合わせた値に基づき、前記品質値を算出する１に記載の画像処理装置。
３．　前記品質値算出手段は、検出対象の複数の前記キーポイントの中の複数の前記カメラで生成された複数の前記画像の少なくとも１つにおいて検出されている前記キーポイントの数、又は、検出対象の複数の前記キーポイントの中の複数の前記カメラで生成された複数の前記画像のいずれにおいても検出されていない前記キーポイントの数に基づき、前記品質値を算出する１又は２に記載の画像処理装置。
４．　前記品質値算出手段は、複数の前記カメラで生成された複数の前記画像各々から検出された前記キーポイントの部分品質値を前記画像毎に算出し、前記画像毎の前記部分品質値を統合して前記品質値を算出する１から３のいずれかに記載の画像処理装置。
５．　前記品質値算出手段は、前記キーポイントの検出結果の確信度に基づき、前記部分品質値を算出する４に記載の画像処理装置。
６．　前記骨格構造検出手段は、前記画像内で人物領域を検出し、検出した前記人物領域内で前記キーポイントを検出する処理を行い、
　前記品質値算出手段は、前記人物領域の検出結果の確信度に基づき、前記部分品質値を算出する４又は５に記載の画像処理装置。
７．　前記品質値算出手段は、他の人体との重なり度合に基づき、前記部分品質値を算出する４から６のいずれかに記載の画像処理装置。
８．　前記品質値算出手段は、他の人体と重なっていない人体の前記部分品質値を、他の人体と重なっている人体の前記部分品質値よりも高く算出する７に記載の画像処理装置。
９．　前記品質値算出手段は、他の人体と重なっている人体のうち、前側に位置する人体の前記部分品質値を、後ろ側に位置する人体の前記部分品質値よりも高く算出する８に記載の画像処理装置。
１０．　前記品質値算出手段は、検出された前記キーポイントの数が相対的に多い人体の前記部分品質値を、検出された前記キーポイントの数が相対的に少ない人体の前記部分品質値よりも高く算出する４から９のいずれかに記載の画像処理装置。
１１．　前記品質値算出手段は、前記画像上での人体の大きさに基づき、前記部分品質値を算出する４から１０のいずれかに記載の画像処理装置。
１２．　１以上のコンピュータが、
　　複数のカメラで同じ場所を撮影して生成された複数の画像各々に含まれる人体のキーポイントを検出する処理を行い、
　　複数の前記カメラで生成された複数の前記画像に含まれる同一の人体を特定し、
　　人体毎に、複数の前記カメラで生成された複数の前記画像から検出された前記キーポイントの品質値を算出し、
　　前記品質値が閾値以上である人体が写る箇所を示す情報、又は前記画像から前記箇所を切り出した部分画像を出力する、
画像処理方法。
１３．　コンピュータを、
　　複数のカメラで同じ場所を撮影して生成された複数の画像各々に含まれる人体のキーポイントを検出する処理を行う骨格構造検出手段、
　　複数の前記カメラで生成された複数の前記画像に含まれる同一の人体を特定する特定手段、
　　人体毎に、複数の前記カメラで生成された複数の前記画像から検出された前記キーポイントの品質値を算出する品質値算出手段、
　　前記品質値が閾値以上である人体が写る箇所を示す情報、又は前記画像から前記箇所を切り出した部分画像を出力する出力手段、
として機能させるプログラム。

　１０　　画像処理装置
　１１　　骨格構造検出部
　１２　　特定部
　１３　　品質値算出部
　１４　　出力部
　１Ａ　　プロセッサ
　２Ａ　　メモリ
　３Ａ　　入出力Ｉ／Ｆ
　４Ａ　　周辺回路
　５Ａ　　バス

Claims

　複数のカメラで同じ場所を撮影して生成された複数の画像各々に含まれる人体のキーポイントを検出する処理を行う骨格構造検出手段と、
　複数の前記カメラで生成された複数の前記画像に含まれる同一の人体を特定する特定手段と、
　人体毎に、複数の前記カメラで生成された複数の前記画像から検出された前記キーポイントの品質値を算出する品質値算出手段と、
　前記品質値が閾値以上である人体が写る箇所を示す情報、又は前記画像から前記箇所を切り出した部分画像を出力する出力手段と、
を有する画像処理装置。
　前記品質値算出手段は、複数の前記カメラで生成された複数の前記画像各々から検出された前記キーポイントの数を足し合わせた値に基づき、前記品質値を算出する請求項１に記載の画像処理装置。
　前記品質値算出手段は、検出対象の複数の前記キーポイントの中の複数の前記カメラで生成された複数の前記画像の少なくとも１つにおいて検出されている前記キーポイントの数、又は、検出対象の複数の前記キーポイントの中の複数の前記カメラで生成された複数の前記画像のいずれにおいても検出されていない前記キーポイントの数に基づき、前記品質値を算出する請求項１又は２に記載の画像処理装置。
　前記品質値算出手段は、複数の前記カメラで生成された複数の前記画像各々から検出された前記キーポイントの部分品質値を前記画像毎に算出し、前記画像毎の前記部分品質値を統合して前記品質値を算出する請求項１から３のいずれか１項に記載の画像処理装置。
　前記品質値算出手段は、前記キーポイントの検出結果の確信度に基づき、前記部分品質値を算出する請求項４に記載の画像処理装置。
　前記骨格構造検出手段は、前記画像内で人物領域を検出し、検出した前記人物領域内で前記キーポイントを検出する処理を行い、
　前記品質値算出手段は、前記人物領域の検出結果の確信度に基づき、前記部分品質値を算出する請求項４又は５に記載の画像処理装置。
　前記品質値算出手段は、他の人体との重なり度合に基づき、前記部分品質値を算出する請求項４から６のいずれか１項に記載の画像処理装置。
　前記品質値算出手段は、他の人体と重なっていない人体の前記部分品質値を、他の人体と重なっている人体の前記部分品質値よりも高く算出する請求項７に記載の画像処理装置。
　前記品質値算出手段は、他の人体と重なっている人体のうち、前側に位置する人体の前記部分品質値を、後ろ側に位置する人体の前記部分品質値よりも高く算出する請求項８に記載の画像処理装置。
　前記品質値算出手段は、検出された前記キーポイントの数が相対的に多い人体の前記部分品質値を、検出された前記キーポイントの数が相対的に少ない人体の前記部分品質値よりも高く算出する請求項４から９のいずれか１項に記載の画像処理装置。
　前記品質値算出手段は、前記画像上での人体の大きさに基づき、前記部分品質値を算出する請求項４から１０のいずれか１項に記載の画像処理装置。
　１以上のコンピュータが、
　　複数のカメラで同じ場所を撮影して生成された複数の画像各々に含まれる人体のキーポイントを検出する処理を行い、
　　複数の前記カメラで生成された複数の前記画像に含まれる同一の人体を特定し、
　　人体毎に、複数の前記カメラで生成された複数の前記画像から検出された前記キーポイントの品質値を算出し、
　　前記品質値が閾値以上である人体が写る箇所を示す情報、又は前記画像から前記箇所を切り出した部分画像を出力する、
画像処理方法。
　コンピュータを、
　　複数のカメラで同じ場所を撮影して生成された複数の画像各々に含まれる人体のキーポイントを検出する処理を行う骨格構造検出手段、
　　複数の前記カメラで生成された複数の前記画像に含まれる同一の人体を特定する特定手段、
　　人体毎に、複数の前記カメラで生成された複数の前記画像から検出された前記キーポイントの品質値を算出する品質値算出手段、
　　前記品質値が閾値以上である人体が写る箇所を示す情報、又は前記画像から前記箇所を切り出した部分画像を出力する出力手段、
として機能させるプログラム。