WO2023152974A1

WO2023152974A1 - 画像処理装置、画像処理方法、およびプログラム

Info

Publication number: WO2023152974A1
Application number: PCT/JP2022/005689
Authority: WO
Inventors: 諒川合; 登吉田; 健全劉
Original assignee: 日本電気株式会社
Priority date: 2022-02-14
Filing date: 2022-02-14
Publication date: 2023-08-17

Abstract

本発明は、画像に含まれる人体のキーポイントを検出する処理を行う骨格構造検出部（１１）と、検出されたキーポイントに基づき、画像から検出された人体の姿勢又は動きと、予め登録されたテンプレート画像が示す人体の姿勢又は動きとの類似度を算出する類似度算出部（１２）と、いずれのテンプレート画像が示す人体の姿勢又は動きとの類似度も第１の閾値未満である人体が写る画像内の箇所を特定する特定部（１３）と、テンプレート画像が示す人体の姿勢又は動きに基づいて画像から検出された人体の姿勢又は動きを判定する判定装置に追加登録するテンプレート画像の候補として、特定された箇所を示す情報、又は画像から特定された箇所を切り出した部分画像を出力する出力部（１４）と、を有する画像処理装置（１０）を提供する。

Description

画像処理装置、画像処理方法、およびプログラム

　本発明は、画像処理装置、画像処理方法、およびプログラムに関する。

　本発明に関連する技術が特許文献１乃至３及び非特許文献１に開示されている。

　特許文献１には、画像に含まれる人体の複数のキーポイント各々の特徴量を算出し、算出した特徴量に基づき姿勢が似た人体や動きが似た人体を含む画像を検索したり、当該姿勢や動きが似たもの同士でまとめて分類したりする技術が開示されている。また、非特許文献１には、人物の骨格推定に関連する技術が開示されている。

　特許文献２には、所定区域を撮像した複数の画像、及び所定区域の状況の変化を示す情報を取得すると、所定区域の状況の変化を示す情報に基づいて複数の画像を分類し、分類結果に従って、複数の画像の少なくとも一部を用いて画像から所定区域の状況を判定する識別器の学習を行う技術が開示されている。

　特許文献３には、入力画像に基づいて人物における対象の状態変化を検出し、対象の状態変化が複数人で生じたことの検出に応じて異常状態を判定する技術が開示されている。

国際公開第２０２１／０８４６７７号特開２０２１－８７０３１号国際公開第２０１５／１９８７６７号

Zhe Cao, Tomas Simon, Shih-En Wei, Yaser Sheikh, "Realtime Multi-Person 2D Pose Estimation using Part Affinity Fields", The IEEE Conference on Computer Vision and Pattern Recognition (CVPR), 2017, P. 7291-7299

　上述した特許文献１に開示の技術によれば、所望の姿勢や所望の動きの人体を含む画像を事前にテンプレート画像として登録しておくことで、処理対象の画像の中から所望の姿勢や所望の動きの人体を検出することができる。本発明者は、このような特許文献１に開示の技術を検討した結果、登録済のテンプレート画像が示す姿勢や動きと異なる所望の姿勢や所望の動きの人体を含む画像を新たにテンプレート画像として追加登録する際に、そのような画像を探す作業の作業性に改善の余地があることを新たに見出した。

　上述した特許文献１乃至３及び非特許文献１はいずれも、テンプレート画像に関する課題及びその解決手段を開示していないため、上記課題を解決できないという問題点があった。

　本発明の目的の一例は、上述した課題を鑑み、登録済みのテンプレート画像が示す姿勢や動きと異なる所望の姿勢や所望の動きの人体を含む画像をテンプレート画像として登録する作業の作業性の問題を解決する画像処理装置、画像処理方法、およびプログラムを提供することにある。

　本発明の一態様によれば、
　画像に含まれる人体のキーポイントを検出する処理を行う骨格構造検出手段と、
　検出された前記キーポイントに基づき、前記画像から検出された人体の姿勢又は動きと、予め登録されたテンプレート画像が示す人体の姿勢又は動きとの類似度を算出する類似度算出手段と、
　いずれの前記テンプレート画像が示す人体の姿勢又は動きとの前記類似度も第１の閾値未満である人体が写る前記画像内の箇所を特定する特定手段と、
　前記テンプレート画像が示す人体の姿勢又は動きに基づいて前記画像から検出された人体の姿勢又は動きを判定する判定装置に追加登録する前記テンプレート画像の候補として、前記特定された箇所を示す情報、又は前記画像から前記特定された箇所を切り出した部分画像を出力する出力手段と、
を有する画像処理装置が提供される。

　また、本発明の一態様によれば、
　コンピュータが、
　　画像に含まれる人体のキーポイントを検出する処理を行い、
　　検出された前記キーポイントに基づき、前記画像から検出された人体の姿勢又は動きと、予め登録されたテンプレート画像が示す人体の姿勢又は動きとの類似度を算出し、
　　いずれの前記テンプレート画像が示す人体の姿勢又は動きとの前記類似度も第１の閾値未満である人体が写る前記画像内の箇所を特定し、
　　前記テンプレート画像が示す人体の姿勢又は動きに基づいて前記画像から検出された人体の姿勢又は動きを判定する判定装置に追加登録する前記テンプレート画像の候補として、前記特定された箇所を示す情報、又は前記画像から前記特定された箇所を切り出した部分画像を出力する、
画像処理方法が提供される。

　また、本発明の一態様によれば、
　コンピュータを、
　　画像に含まれる人体のキーポイントを検出する処理を行う骨格構造検出手段、
　　検出された前記キーポイントに基づき、前記画像から検出された人体の姿勢又は動きと、予め登録されたテンプレート画像が示す人体の姿勢又は動きとの類似度を算出する類似度算出手段、
　　いずれの前記テンプレート画像が示す人体の姿勢又は動きとの前記類似度も第１の閾値未満である人体が写る前記画像内の箇所を特定する特定手段、
　　前記テンプレート画像が示す人体の姿勢又は動きに基づいて前記画像から検出された人体の姿勢又は動きを判定する判定装置に追加登録する前記テンプレート画像の候補として、前記特定された箇所を示す情報、又は前記画像から前記特定された箇所を切り出した部分画像を出力する出力手段、
として機能させるプログラムが提供される。

　本発明の一態様によれば、登録済みのテンプレート画像が示す姿勢や動きと異なる所望の姿勢や所望の動きの人体を含む画像をテンプレート画像として登録する作業の作業性の問題を解決する画像処理装置、画像処理方法、およびプログラムが得られる。

　上述した目的、およびその他の目的、特徴および利点は、以下に述べる公的な実施の形態、およびそれに付随する以下の図面によってさらに明らかになる。

画像処理装置の機能ブロック図の一例を示す図である。画像処理装置の処理内容を説明するための図である。画像処理装置のハードウエア構成の一例を示す図である。画像処理装置により検出される人体モデルの骨格構造の一例を示す図である。画像処理装置により検出された人体モデルの骨格構造の一例を示す図である。画像処理装置により検出された人体モデルの骨格構造の一例を示す図である。画像処理装置により検出された人体モデルの骨格構造の一例を示す図である。画像処理装置により算出されるキーポイントの特徴量の一例を示す図である。画像処理装置により算出されるキーポイントの特徴量の一例を示す図である。画像処理装置により算出されるキーポイントの特徴量の一例を示す図である。画像処理装置により出力される情報の一例を模式的に示す図である。画像処理装置の処理の流れの一例を示すフローチャートである。画像処理装置の処理内容を説明するための図である。画像処理装置の処理の流れの一例を示すフローチャートである。画像処理装置の機能ブロック図の一例を示す図である。画像処理装置により出力される情報の一例を模式的に示す図である。

　以下、本発明の実施の形態について、図面を用いて説明する。尚、すべての図面において、同様な構成要素には同様の符号を付し、適宜説明を省略する。

＜第１の実施形態＞
　図１は、第１の実施形態に係る画像処理装置１０の概要を示す機能ブロック図である。図１に示すように、画像処理装置１０は、骨格構造検出部１１と、類似度算出部１２と、特定部１３と、出力部１４とを備える。

　骨格構造検出部１１は、画像に含まれる人体のキーポイントを検出する処理を行う。類似度算出部１２は、検出されたキーポイントに基づき、画像から検出された人体の姿勢又は動きと、予め登録されたテンプレート画像が示す人体の姿勢又は動きとの類似度を算出する。特定部１３は、いずれのテンプレート画像が示す人体の姿勢又は動きとの類似度も第１の閾値未満である人体が写る画像内の箇所を特定する。出力部１４は、テンプレート画像が示す人体の姿勢又は動きに基づいて画像から検出された人体の姿勢又は動きを判定する判定装置に追加登録するテンプレート画像の候補として、特定部１３により特定された箇所を示す情報、又は画像から特定された箇所を切り出した部分画像を出力する。

　この画像処理装置１０によれば、登録済みのテンプレート画像が示す姿勢や動きと異なる所望の姿勢や所望の動きの人体を含む画像をテンプレート画像として登録する作業の作業性の問題を解決することができる。

＜第２の実施形態＞
「概要」
　画像処理装置１０は、テンプレート画像の元となる画像（以下、単に「画像」という）に含まれる人体の姿勢又は動きと、予め登録されたテンプレート画像が示す人体の姿勢又は動きとの類似度を算出した後、いずれのテンプレート画像が示す人体の姿勢又は動きとの類似度も第１の閾値未満である人体が写る画像内の箇所を特定する。そして、画像処理装置１０は、特定された箇所を示す情報、又は画像から特定された箇所を切り出した部分画像を、判定装置用に追加登録するテンプレート画像の候補として出力する。ちなみに、判定装置は、登録されたテンプレート画像を利用した検出処理等を行うが、上記類似度が第１の閾値以上である場合に、画像から検出された人体の姿勢又は動きとテンプレート画像が示す人体の姿勢又は動きとが同じ、あるいは同じ種類の姿勢又は動きであると判定する。

　このような画像処理装置１０によれば、画像から検出された人体の集合の中の、いずれのテンプレート画像が示す人体の姿勢又は動きとも同じ、あるいは同じ種類の姿勢又は動きと判定されない人体が写る画像内の箇所を特定し、特定した箇所に関する情報を出力することができる。図２を用いてより詳細に説明する。第２の実施形態では、図２に示すように、画像から検出された人体の集合は、（１）いずれかのテンプレート画像が示す人体の姿勢又は動きと同じ、あるいは同じ種類の姿勢又は動きと判定される人体の集合と、（２）その他の人体の集合とに分類される。（２）その他の人体の集合は、いずれのテンプレート画像が示す人体の姿勢又は動きとも同じ、あるいは同じ種類の姿勢又は動きと判定されない人体の集合である。本実施形態では、（２）その他の人体の集合に含まれる人体が写る画像内の箇所を特定し、特定した箇所に関する情報を出力する。

「ハードウエア構成」
　次に、画像処理装置１０のハードウエア構成の一例を説明する。画像処理装置１０の各機能部は、任意のコンピュータのＣＰＵ（Central Processing Unit）、メモリ、メモリにロードされるプログラム、そのプログラムを格納するハードディスク等の記憶ユニット（あらかじめ装置を出荷する段階から格納されているプログラムのほか、ＣＤ（Compact Disc）等の記憶媒体やインターネット上のサーバ等からダウンロードされたプログラムをも格納できる）、ネットワーク接続用インターフェイスを中心にハードウエアとソフトウエアの任意の組合せによって実現される。そして、その実現方法、装置にはいろいろな変形例があることは、当業者には理解されるところである。

　図３は、画像処理装置１０のハードウエア構成を例示するブロック図である。図３に示すように、画像処理装置１０は、プロセッサ１Ａ、メモリ２Ａ、入出力インターフェイス３Ａ、周辺回路４Ａ、バス５Ａを有する。周辺回路４Ａには、様々なモジュールが含まれる。画像処理装置１０は周辺回路４Ａを有さなくてもよい。なお、画像処理装置１０は物理的及び／又は論理的に分かれた複数の装置で構成されてもよい。この場合、複数の装置各々が上記ハードウエア構成を備えることができる。

　バス５Ａは、プロセッサ１Ａ、メモリ２Ａ、周辺回路４Ａ及び入出力インターフェイス３Ａが相互にデータを送受信するためのデータ伝送路である。プロセッサ１Ａは、例えばＣＰＵ、ＧＰＵ（Graphics Processing Unit）などの演算処理装置である。メモリ２Ａは、例えばＲＡＭ（Random Access Memory）やＲＯＭ（Read Only Memory）などのメモリである。入出力インターフェイス３Ａは、入力装置、外部装置、外部サーバ、外部センサ、カメラ等から情報を取得するためのインターフェイスや、出力装置、外部装置、外部サーバ等に情報を出力するためのインターフェイスなどを含む。入力装置は、例えばキーボード、マウス、マイク、物理ボタン、タッチパネル等である。出力装置は、例えばディスプレイ、スピーカ、プリンター、メーラ等である。プロセッサ１Ａは、各モジュールに指令を出し、それらの演算結果をもとに演算を行うことができる。

「機能構成」
　図１は、第２の実施形態に係る画像処理装置１０の概要を示す機能ブロック図である。図１に示すように、画像処理装置１０は、骨格構造検出部１１と、類似度算出部１２と、特定部１３と、出力部１４とを有する。

　骨格構造検出部１１は、画像に含まれる人体のキーポイントを検出する処理を行う。

　「画像」は、テンプレート画像の元となる画像である。テンプレート画像は、上述した特許文献１に開示の技術において事前に登録される画像であって、所望の姿勢や所望の動き（ユーザが検出したい姿勢や動き）の人体を含む画像である。画像は、複数のフレーム画像で構成される動画像であってもよいし、１枚で構成される静止画像であってもよい。

　骨格構造検出部１１は、画像に含まれる人体のＮ（Ｎは２以上の整数）個のキーポイントを検出する。動画像が処理対象の場合、骨格構造検出部１１は、フレーム画像毎にキーポイントを検出する処理を行う。骨格構造検出部１１による当該処理は、特許文献１に開示されている技術を用いて実現される。詳細は省略するが、特許文献１に開示されている技術では、非特許文献１に開示されたＯｐｅｎＰｏｓｅ等の骨格推定技術を利用して骨格構造の検出を行う。当該技術で検出される骨格構造は、関節等の特徴的な点である「キーポイント」と、キーポイント間のリンクを示す「ボーン（ボーンリンク）」とから構成される。

　図４は、骨格構造検出部１１により検出される人体モデル３００の骨格構造を示しており、図５乃至図７は、骨格構造の検出例を示している。骨格構造検出部１１は、ＯｐｅｎＰｏｓｅ等の骨格推定技術を用いて、２次元の画像から図４のような人体モデル（２次元骨格モデル）３００の骨格構造を検出する。人体モデル３００は、人物の関節等のキーポイントと、各キーポイントを結ぶボーンから構成された２次元モデルである。

　骨格構造検出部１１は、例えば、画像の中からキーポイントとなり得る特徴点を抽出し、キーポイントの画像を機械学習した情報を参照して、人体のＮ個のキーポイントを検出する。検出するＮ個のキーポイントは予め定められる。検出するキーポイントの数（すなわち、Ｎの数）や、人体のどの部分を検出するキーポイントとするかは様々であり、あらゆるバリエーションを採用できる。

　以下では、図４に示すように、頭Ａ１、首Ａ２、右肩Ａ３１、左肩Ａ３２、右肘Ａ４１、左肘Ａ４２、右手Ａ５１、左手Ａ５２、右腰Ａ６１、左腰Ａ６２、右膝Ａ７１、左膝Ａ７２、右足Ａ８１、左足Ａ８２が、検出対象のＮ個のキーポイント（Ｎ＝１４）として定められているものとする。なお、図３に示す人体モデル３００では、これらのキーポイントを連結した人物の骨として、頭Ａ１と首Ａ２を結ぶボーンＢ１、首Ａ２と右肩Ａ３１及び左肩Ａ３２をそれぞれ結ぶボーンＢ２１及びボーンＢ２２、右肩Ａ３１及び左肩Ａ３２と右肘Ａ４１及び左肘Ａ４２をそれぞれ結ぶボーンＢ３１及びボーンＢ３２、右肘Ａ４１及び左肘Ａ４２と右手Ａ５１及び左手Ａ５２をそれぞれ結ぶボーンＢ４１及びボーンＢ４２、首Ａ２と右腰Ａ６１及び左腰Ａ６２をそれぞれ結ぶボーンＢ５１及びボーンＢ５２、右腰Ａ６１及び左腰Ａ６２と右膝Ａ７１及び左膝Ａ７２をそれぞれ結ぶボーンＢ６１及びボーンＢ６２、右膝Ａ７１及び左膝Ａ７２と右足Ａ８１及び左足Ａ８２をそれぞれ結ぶボーンＢ７１及びボーンＢ７２がさらに定められている。

　図５は、直立した状態の人物を検出する例である。図５では、直立した人物が正面から撮像されており、正面から見たボーンＢ１、ボーンＢ５１及びボーンＢ５２、ボーンＢ６１及びボーンＢ６２、ボーンＢ７１及びボーンＢ７２がそれぞれ重ならずに検出され、右足のボーンＢ６１及びボーンＢ７１は左足のボーンＢ６２及びボーンＢ７２よりも多少折れ曲がっている。

　図６は、しゃがみ込んでいる状態の人物を検出する例である。図６では、しゃがみ込んでいる人物が右側から撮像されており、右側から見たボーンＢ１、ボーンＢ５１及びボーンＢ５２、ボーンＢ６１及びボーンＢ６２、ボーンＢ７１及びボーンＢ７２がそれぞれ検出され、右足のボーンＢ６１及びボーンＢ７１と左足のボーンＢ６２及びボーンＢ７２は大きく折れ曲がり、かつ、重なっている。

　図７は、寝込んでいる状態の人物を検出する例である。図７では、寝込んでいる人物が左斜め前から撮像されており、左斜め前から見たボーンＢ１、ボーンＢ５１及びボーンＢ５２、ボーンＢ６１及びボーンＢ６２、ボーンＢ７１及びボーンＢ７２がそれぞれ検出され、右足のボーンＢ６１及びボーンＢ７１と左足のボーンＢ６２及びボーンＢ７２は折れ曲がり、かつ、重なっている。

　図１に戻り、類似度算出部１２は、骨格構造検出部１１により検出されたキーポイントに基づき、画像から検出された人体の姿勢又は動きと、予め登録されたテンプレート画像が示す人体の姿勢又は動きとの類似度を算出する。

　上記人体の姿勢又は動きの類似度の算出の仕方は様々であり、あらゆる技術を採用できる。例えば、特許文献１に開示の技術を採用してもよい。また、テンプレート画像が示す人体の姿勢又は動きと、画像内から検出した人体の姿勢又は動きとの類似度を算出し、類似度が第１の閾値以上である人体をテンプレート画像が示す人体と同じ、あるいは同じ種類の姿勢又は動きの人体として検出する判定装置と同じ手法を採用してもよい。以下、一例を説明するがこれに限定されない。

　一例として、類似度算出部１２は、検出されたキーポイントで示される骨格構造の特徴量を算出し、画像から検出された人体の骨格構造の特徴量と、テンプレート画像が示す人体の骨格構造の特徴量との類似度を算出することで、２つの人体の姿勢の類似度を算出してもよい。

　骨格構造の特徴量は、人物の骨格の特徴を示しており、人物の骨格に基づいて人物の状態（姿勢や動き）を分類するための要素となる。通常、この特徴量は、複数のパラメータを含んでいる。そして特徴量は、骨格構造の全体の特徴量でもよいし、骨格構造の一部の特徴量でもよく、骨格構造の各部のように複数の特徴量を含んでもよい。特徴量の算出方法は、機械学習や正規化等の任意の方法でよく、正規化として最小値や最大値を求めてもよい。一例として、特徴量は、骨格構造を機械学習することで得られた特徴量や、骨格構造の頭部から足部までの画像上の大きさ、画像上の骨格構造を含む骨格領域の上下方向における複数のキーポイントの相対的な位置関係、当該骨格領域の左右方向における複数のキーポイントの相対的な位置関係等である。骨格構造の大きさは、画像上の骨格構造を含む骨格領域の上下方向の高さや面積等である。上下方向（高さ方向または縦方向）は、画像における上下の方向（Ｙ軸方向）であり、例えば、地面（基準面）に対し垂直な方向である。また、左右方向（横方向）は、画像における左右の方向（Ｘ軸方向）であり、例えば、地面に対し平行な方向である。

　なお、ユーザが望む分類を行うためには、判定処理に対しロバスト性を有する特徴量を用いることが好ましい。例えば、ユーザが、人物の向きや体型に依存しない判定を望む場合、人物の向きや体型にロバストな特徴量を使用してもよい。同じ姿勢で様々な方向に向いている人物の骨格や同じ姿勢で様々な体型の人物の骨格を学習することや、骨格の上下方向のみの特徴を抽出することで、人物の向きや体型に依存しない特徴量を得ることができる。骨格構造の特徴量を算出する処理の一例は、特許文献１に開示されている。

　図８は、類似度算出部１２が求めた複数のキーポイント各々の特徴量の例を示している。複数のキーポイントの特徴量の集合が、骨格構造の特徴量となる。なお、ここで例示するキーポイントの特徴量はあくまで一例であり、これに限定されない。

　この例では、キーポイントの特徴量は、画像上の骨格構造を含む骨格領域の上下方向における複数のキーポイントの相対的な位置関係を示す。首のキーポイントＡ２を基準点とするため、キーポイントＡ２の特徴量は０．０となり、首と同じ高さの右肩のキーポイントＡ３１及び左肩のキーポイントＡ３２の特徴量も０．０である。首よりも高い頭のキーポイントＡ１の特徴量は－０．２である。首よりも低い右手のキーポイントＡ５１及び左手のキーポイントＡ５２の特徴量は０．４であり、右足のキーポイントＡ８１及び左足のキーポイントＡ８２の特徴量は０．９である。この状態から人物が左手を挙げると、図９のように左手が基準点よりも高くなるため、左手のキーポイントＡ５２の特徴量は－０．４となる。一方で、Ｙ軸の座標のみを用いて正規化を行っているため、図１０のように、図８に比べて骨格構造の幅が変わっても特徴量は変わらない。すなわち、当該例の特徴量（正規化値）は、骨格構造（キーポイント）の高さ方向（Ｙ方向）の特徴を示しており、骨格構造の横方向（Ｘ方向）の変化に影響を受けない。

　このような特徴量で示される姿勢の類似度の算出の仕方は様々である。例えば、キーポイント毎に特徴量の類似度を算出した後、複数のキーポイントの特徴量の類似度に基づき、姿勢の類似度を算出してもよい。例えば、複数のキーポイントの特徴量の類似度の平均値、最大値、最小値、最頻値、中央値、加重平均値、加重和等が、姿勢の類似度として算出されてもよい。加重平均値や加重和を算出する場合、各キーポイントの重みはユーザが設定できてもよいし、予め定められていてもよい。

　また、動きは、複数の姿勢の時間変化としてあらわされる。このため類似度算出部１２は、例えば、互いに対応する複数のフレーム画像の組み合わせ毎に、上記手法で姿勢の類似度を算出した後、複数のフレーム画像の組み合わせ毎に算出した姿勢の類似度の統計値（平均値、最大値、最小値、最頻値、中央値、加重平均値、加重和等）を、動きの類似度として算出してもよい。

　図１に戻り、特定部１３は、判定装置用に追加登録するテンプレート画像の候補として、いずれのテンプレート画像が示す人体の姿勢又は動きとの類似度も第１の閾値未満である人体が写る画像内の箇所を特定する。具体的には、特定部１３は、画像から検出された人体の姿勢又は動きと、複数のテンプレート画像各々が示す人体の姿勢又は動きとの類似度を、第１の閾値と比較する。そして、特定部１３は、当該比較の結果に基づき、いずれのテンプレート画像が示す人体の姿勢又は動きとの類似度も第１の閾値未満である人体が写る画像内の箇所を特定する。

　なお、判定装置は、テンプレート画像が示す人体の姿勢又は動きに基づいて画像から検出された人体の姿勢又は動きを判定する。具体的には、判定装置は、上記類似度が第１の閾値以上である場合に、画像から検出された人体の姿勢又は動きとテンプレート画像が示す人体の姿勢又は動きとが同じ、あるいは同じ種類の姿勢又は動作であると判定する。すなわち、特定部１３は、画像から検出された人体の集合の中の、いずれのテンプレート画像が示す人体の姿勢又は動きとも同じ、あるいは同じ種類の姿勢又は動きと判定装置により判定されない人体が写る画像内の箇所を特定することとなる。

　画像が静止画像である場合、「特定部１３により特定される箇所」は、１枚の静止画像内の一部領域となる。この場合、静止画像毎に、例えば静止画像に設定された座標系の座標で上記箇所が示される。一方、画像が動画像である場合、「特定部１３により特定される箇所」は、動画像を構成する複数のフレーム画像の中の一部のフレーム画像各々内の一部領域となる。この場合、動画像ごとに、例えば複数のフレーム画像の中の一部のフレーム画像を示す情報（フレーム識別情報、冒頭からの経過時間等）と、フレーム画像に設定された座標系の座標とで、上記箇所が示される。

　出力部１４は、判定装置に追加登録するテンプレート画像の候補として、特定部１３により特定された箇所を示す情報、又は画像から特定部１３により特定された箇所を切り出した部分画像を出力する。なお、出力部１４が部分画像を出力する場合、画像処理装置１０は、画像から、特定部１３により特定された箇所を切り出して部分画像を生成する処理部を有することができる。そして、出力部１４は、処理部が生成した部分画像を出力することができる。

　上述した「特定部１３により特定された箇所」、すなわちいずれのテンプレート画像が示す人体の姿勢又は動きとの類似度も第１の閾値未満である人体が写る画像内の箇所が、テンプレート画像の候補となる。ユーザは、上記情報又は上記部分画像に基づき、上記箇所を閲覧等し、その中から、所望の姿勢や所望の動きの人体を含む箇所をテンプレート画像として選別することができる。

　図１１に、出力部１４が出力した情報の一例を模式的に示す。図１１に示す例では、検出された複数の人体を互いに識別するための人体識別情報と、各人体の属性情報とが互いに紐付けて表示されている。そして、属性情報の一例として、画像内箇所を示す情報（上述した人体が写る箇所を示す情報）、画像の撮影日時が表示されている。属性情報は、その他、画像を撮影したカメラの設置位置（撮影位置）を示す情報（例：１０２号バス車内後方、〇〇公園入口等）や、画像解析で算出される人物の属性情報（例：性別、年齢層、体型等）を含んでもよい。

　次に、図１２のフローチャートを用いて、画像処理装置１０の処理の流れの一例を説明する。

　画像処理装置１０は、画像に含まれる人体のキーポイントを検出する処理を行うと（Ｓ１０）、検出されたキーポイントに基づき、画像から検出された人体の姿勢又は動きと、予め登録されたテンプレート画像が示す人体の姿勢又は動きとの類似度を算出する（Ｓ１１）。

　次いで、画像処理装置１０は、判定装置用に追加登録するテンプレート画像の候補として、いずれのテンプレート画像が示す人体の姿勢又は動きとの類似度も第１の閾値未満である人体が写る画像内の箇所を特定する（Ｓ１２）。具体的には、画像処理装置１０は、画像から検出された人体の姿勢又は動きと、複数のテンプレート画像各々が示す人体の姿勢又は動きとの類似度を、第１の閾値と比較する。そして、画像処理装置１０は、当該比較の結果に基づき、いずれのテンプレート画像が示す人体の姿勢又は動きとの類似度も第１の閾値未満である人体が写る画像内の箇所を特定する。なお、判定装置は、上記類似度が第１の閾値以上である場合に、画像から検出された人体の姿勢又は動きとテンプレート画像が示す人体の姿勢又は動きとが同じ、あるいは同じ種類の姿勢又は動きであると判定する。

　そして、画像処理装置１０は、Ｓ１２で特定された箇所を示す情報、又は画像からＳ１２で特定された箇所を切り出した部分画像を出力する（Ｓ１３）。

「作用効果」
　第２の実施形態の画像処理装置１０によれば、第１の実施形態と同様の作用効果が実現される。また、第２の実施形態の画像処理装置１０によれば、画像から検出された人体の集合の中の、いずれのテンプレート画像が示す人体の姿勢又は動きとも同じ、あるいは同じ種類の姿勢又は動きと判定装置により判定されない人体が写る画像内の箇所に関する情報を出力することができる。

　図２を用いてより詳細に説明する。第２の実施形態では、図２に示すように、画像から検出された人体の集合は、（１）いずれかのテンプレート画像が示す人体の姿勢又は動きと同じ、あるいは同じ種類の姿勢又は動きと判定装置により判定される人体の集合と、（２）その他の人体の集合とに分類される。（２）その他の人体の集合は、いずれのテンプレート画像が示す人体の姿勢又は動きとも同じ、あるいは同じ種類の姿勢又は動き姿勢又は動きと判定装置により判定されない人体の集合である。第２の実施形態の画像処理装置１０によれば、（２）その他の人体の集合に含まれる人体が写る画像内の箇所を特定し、特定した箇所に関する情報を出力することができる。ユーザは、上記特定した箇所を閲覧等し、その中から、所望の姿勢や所望の動きの人体を含む箇所をテンプレート画像として選別することができる。結果、登録済みのテンプレート画像が示す姿勢や動きと異なる所望の姿勢や所望の動きの人体を含む画像をテンプレート画像として登録する作業の作業性の問題が解決される。

＜第３の実施形態＞
　第３の実施形態の画像処理装置１０は、第２の実施形態の画像処理装置１０により特定される画像内の箇所の中の一部を、判定装置用に追加登録するテンプレート画像の候補として特定する。

　第３の実施形態では、図１３に示すように、画像から検出された人体の集合は、（１）いずれかのテンプレート画像が示す人体の姿勢又は動きと同じ、あるいは同じ種類の姿勢又は動きと判定される人体の集合と、（２―１）いずれのテンプレート画像が示す人体の姿勢又は動きとも同じ、あるいは同じ種類の姿勢又は動きと判定されないが、似ている姿勢又は動きの人体の集合と、（２－２）その他の人体の集合とに分類される。すなわち、第３の実施形態では、第２の実施形態における（２）その他の人体の集合（図２参照）が、（２―１）いずれのテンプレート画像が示す人体の姿勢又は動きとも同じ、あるいは同じ種類の姿勢又は動きと判定されないが、似ている姿勢又は動きの人体の集合と、（２－２）その他の人体の集合とに分類されている。

　（２－２）その他の人体の集合は、いずれのテンプレート画像が示す人体の姿勢又は動きとも同じ、あるいは同じ種類の姿勢又は動きと判定されず、かつ、似ていない姿勢又は動きの人体の集合である。本実施形態では、（２－２）その他の人体の集合に含まれる人体が写る画像内の箇所を特定し、特定した箇所に関する情報を出力する。以下、詳細に説明する。

　特定部１３は、判定装置用に追加登録するテンプレート画像の候補として、いずれのテンプレート画像が示す人体の姿勢又は動きとの類似度も第１の閾値未満である人体（図１３の（２－１）及び（２－２）の集合に属する人体）の中の、いずれのテンプレート画像が示す人体の姿勢又は動きとも第１の類似条件を満たさない人体（図１３の（２－２）の集合に属する人体）が写る画像内の箇所を特定する。

　特定部１３は、第２の実施形態で説明した手法で、画像から検出した人体の中から、図１３の（２－１）及び（２－２）の集合に属する人体を特定する。次いで、特定部１３は、特定した人体毎に、いずれかのテンプレート画像が示す人体の姿勢又は動きと第１の類似条件を満たすか判定する。そして、特定部１３は、判定の結果に基づき、図１３の（２－２）の集合に属する人体を特定するとともに、特定したその人体が写る画像内の箇所を特定する。第１の類似条件を満たす人体は、図１３の（２－１）の集合に属する人体となり、第１の類似条件を満たさない人体は、図１３の（２－２）の集合に属する人体となる。

　第１の類似条件は、
・「テンプレート画像が示す人体の姿勢又は動きとの類似度が第２の閾値以上かつ第１の閾値未満であること」、
・「各人体から検出される複数のキーポイント（Ｎ個のキーポイント）の中の一部のキーポイントに基づき算出されたテンプレート画像が示す人体の姿勢又は動きとの類似度が第３の閾値以上であること」、
・「各人体から検出される複数のキーポイント各々に付与された重み付け値を考慮して算出されたテンプレート画像が示す人体の姿勢又は動きとの類似度が第４の閾値以上であること」、及び、
・「動画像であるテンプレート画像に含まれる複数のフレーム画像の中の所定割合以上のフレーム画像各々が示す人体の姿勢との類似度が第５の閾値以上である姿勢の人体各々を示す複数のフレーム画像を含むこと」、
の中の少なくとも１つを含む。

　上記例示した条件の中の複数を含む場合、第１の類似条件は、複数の条件を「or」等の論理演算子で繋いだ内容とすることができる。以下、上記例示した条件各々について説明する。

「テンプレート画像が示す人体の姿勢又は動きとの類似度が第２の閾値以上かつ第１の閾値未満であること」
　この条件の「類似度」は、第２の実施形態で説明した類似度算出部１２による算出方法と同じ方法で算出された値である。そして、第２の閾値は第１の閾値より小さい値である。

　第２の閾値を適切に設定することで、いずれのテンプレート画像が示す人体の姿勢又は動きとも同じ、あるいは同じ種類の姿勢又は動きと判定されないが、似ている姿勢又は動きの人体（図１３の（２－１）の集合に属する人体）を検出することができる。そして、第２の実施形態で説明した手法で特定した図１３の（２－１）及び（２－２）の集合に属する人体の中から、図１３の（２－１）の集合に属する人体を取り除くことで、図１３の（２－２）の集合に属する人体を特定することができる。

「各人体から検出される複数のキーポイント（Ｎ個のキーポイント）の中の一部のキーポイントに基づき算出されたテンプレート画像が示す人体の姿勢又は動きとの類似度が第３の閾値以上であること」
　この条件の「類似度」は、検出対象の複数のキーポイント（Ｎ個のキーポイント）の中の一部のキーポイントに基づき算出された値である。複数のキーポイント（Ｎ個のキーポイント）の中の一部のキーポイントの特徴量のみを用いる点を除き、第２の実施形態で説明した類似度算出部１２による算出方法と同じ方法を採用して、この条件の類似度を算出することができる。

　いずれのキーポイントを利用するかは設計的事項であるが、例えばユーザが指定できてもよい。ユーザは、重視したい身体部分（例：上半身）のキーポイントを指定し、重視しない身体部分（例：下半身）のキーポイントを指定から外すことができる。

　第３の閾値を適切に設定することで、いずれのテンプレート画像が示す人体の姿勢又は動きとも同じ、あるいは同じ種類の姿勢又は動きと判定されないが、身体の一部が同じ又は似ている姿勢又は動きの人体（図１３の（２－１）の集合に属する人体）を検出することができる。そして、第２の実施形態で説明した手法で特定した図１３の（２－１）及び（２－２）の集合に属する人体の中から、図１３の（２－１）の集合に属する人体を取り除くことで、図１３の（２－２）の集合に属する人体を特定することができる。

「各人体から検出される複数のキーポイント各々に付与された重み付け値を考慮して算出されたテンプレート画像が示す人体の姿勢又は動きとの類似度が第４の閾値以上であること」
　この条件の「類似度」は、検出対象の複数のキーポイント（Ｎ個のキーポイント）に重みを付与して算出された値である。例えば、第２の実施形態で説明した類似度算出部１２による算出方法と同じ方法を採用してキーポイント毎に特徴量の類似度を算出した後、上記重み付け値を用いて、複数のキーポイントの特徴量の類似度の加重平均値又は加重和を姿勢の類似度として算出する。各キーポイントの重みはユーザが設定できてもよいし、予め定められていてもよい。

　第４の閾値を適切に設定することで、いずれのテンプレート画像が示す人体の姿勢又は動きとも同じ、あるいは同じ種類の姿勢又は動きと判定されないが、身体の一部に重みを置いた場合に同じ又は似ている姿勢又は動きの人体（図１３の（２－１）の集合に属する人体）を検出することができる。そして、第２の実施形態で説明した手法で特定した図１３の（２－１）及び（２－２）の集合に属する人体の中から、図１３の（２－１）の集合に属する人体を取り除くことで、図１３の（２－２）の集合に属する人体を特定することができる。

「動画像であるテンプレート画像に含まれる複数のフレーム画像の中の所定割合以上のフレーム画像各々が示す人体の姿勢との類似度が第５の閾値以上である姿勢の人体各々を示す複数のフレーム画像を含むこと」
　当該条件は、画像及びテンプレート画像は動画像であり、動画像に含まれる複数のテンプレート画像各々が示す人体の姿勢の時間変化により人体の動きが示されている場合に利用される。

　例えば、テンプレート画像はＭ個のフレーム画像で構成されるが、そのＭ個のフレーム画像の中の所定割合以上（例：７割以上）のフレーム画像各々が示す人体の姿勢と所定レベル以上類似する（類似度が第５の閾値以上）姿勢の人体各々を含む複数のフレーム画像が当該条件を満たすこととなる。互いに対応する複数のフレーム画像の組み合わせ毎に姿勢の類似度を算出する手法は、第２の実施形態で説明した手法を採用できる。

　第５の閾値、及び所定割合を適切に設定することで、いずれのテンプレート画像が示す人体の動きとも同じ、あるいは同じ種類の姿勢又は動きと判定されないが、テンプレート画像（動画像）の中の一部時間帯における人体の動きと同じ又は似ている動きの人体（図１３の（２－１）の集合に属する人体）を検出することができる。そして、第２の実施形態で説明した手法で特定した図１３の（２－１）及び（２－２）の集合に属する人体の中から、図１３の（２－１）の集合に属する人体を取り除くことで、図１３の（２－２）の集合に属する人体を特定することができる。

　次に、図１４のフローチャートを用いて、画像処理装置１０の処理の流れの一例を説明する。

　画像処理装置１０は、画像に含まれる人体のキーポイントを検出する処理を行うと（Ｓ２０）、検出されたキーポイントに基づき、画像から検出された人体の姿勢又は動きと、予め登録されたテンプレート画像が示す人体の姿勢又は動きとの類似度を算出する（Ｓ２１）。

　次いで、画像処理装置１０は、検出された人体の中から、いずれのテンプレート画像が示す人体の姿勢又は動きとの類似度も第１の閾値未満である人体を特定する（Ｓ２２）。具体的には、画像処理装置１０は、画像から検出された人体の姿勢又は動きと、複数のテンプレート画像各々が示す人体の姿勢又は動きとの類似度と、第１の閾値とを比較する。そして、画像処理装置１０は、当該比較の結果に基づき、いずれのテンプレート画像が示す人体の姿勢又は動きとの類似度も第１の閾値未満である人体を特定する。

　次いで、画像処理装置１０は、判定装置用に追加登録するテンプレート画像の候補として、Ｓ２２で特定した人体の中のいずれのテンプレート画像が示す人体の姿勢又は動きとも第１の類似条件を満たさない人体が写る画像内の箇所を特定する（Ｓ２３）。具体的には、画像処理装置１０は、Ｓ２２で特定した人体毎に、いずれかのテンプレート画像が示す人体の姿勢又は動きと第１の類似条件を満たすか判定する。そして、画像処理装置１０は、判定の結果に基づき、Ｓ２２で特定した人体の中のいずれのテンプレート画像が示す人体の姿勢又は動きとも第１の類似条件を満たさない人体が写る画像内の箇所を特定する。

　そして、画像処理装置１０は、Ｓ２３で特定された箇所を示す情報、又は画像からＳ２３で特定された箇所を切り出した部分画像を出力する（Ｓ２４）。

　第３の実施形態の画像処理装置１０のその他の構成は、第１及び第２の実施形態の画像処理装置１０の構成と同様である。

　第３の実施形態の画像処理装置１０によれば、第１及び第２の実施形態と同様の作用効果が実現される。また、第３の実施形態の画像処理装置１０によれば、画像から検出された人体の集合の中の、いずれのテンプレート画像が示す人体の姿勢又は動きとも同じ、あるいは同じ種類の姿勢又は動きと判定装置により判定されず、かつ、いずれのテンプレート画像が示す人体の姿勢又は動きとも似ていない人体が写る画像内の箇所に関する情報を出力することができる。

　図１３を用いてより詳細に説明する。第３の実施形態では、図１３に示すように、画像から検出された人体の集合は、（１）いずれかのテンプレート画像が示す人体の姿勢又は動きと同じ、あるいは同じ種類の姿勢又は動きと判定される人体の集合と、（２―１）いずれのテンプレート画像が示す人体の姿勢又は動きとも同じ、あるいは同じ種類の姿勢又は動きと判定されないが、似ている姿勢又は動きの人体の集合と、（２－２）その他の人体の集合とに分類される。（２－２）その他の人体の集合は、いずれのテンプレート画像が示す人体の姿勢又は動きとも同じ、あるいは同じ種類の姿勢又は動きと判定装置により判定されず、かつ、いずれのテンプレート画像が示す人体の姿勢又は動きとも似ていない人体の集合である。第３の実施形態の画像処理装置１０によれば、（２－２）その他の人体の集合に含まれる人体が写る画像内の箇所を特定し、特定した箇所に関する情報を出力することができる。ユーザは、上記特定した箇所を閲覧等し、その中から、所望の姿勢や所望の動きの人体を含む箇所をテンプレート画像として選別することができる。結果、登録済みのテンプレート画像が示す姿勢や動きと異なる所望の姿勢や所望の動きの人体を含む画像をテンプレート画像として登録する作業の作業性の問題が解決される。

＜第４の実施形態＞
　本実施形態の画像処理装置１０は、第１乃至第３の実施形態のいずれかの手法で特定した画像内の箇所に写る複数の人体を、姿勢又は動きの類似度に基づきグループ分けし、その結果を出力する機能を有する。以下、詳細に説明する。

　図１５に、本実施形態の画像処理装置１０の機能ブロック図の一例を示す。図示するように、画像処理装置１０は、骨格構造検出部１１と、類似度算出部１２と、特定部１３と、出力部１４と、グループ化部１５とを有する。

　グループ化部１５は、特定部１３により特定された画像内の箇所に写る複数の人体を、姿勢又は動きの類似度に基づきグループ分けする。グループ化部１５は、姿勢又は動きが似ているもの同士をまとめてグループを作成する。当該グループ分けは、特許文献１に開示の分類の技術を利用して実現することができる。

　出力部１４は、グループ化部１５によるグループ分けの結果をさらに出力する。図１６に、出力部１４が出力する情報の一例を示す。図示する例では、特定部１３により特定された画像内の箇所に写る複数の人体は、３つのグループに分類されている。例えば、図１６に示すように、表示ウインドウＷ１に、姿勢毎（グループ毎）の姿勢領域ＷＡ１乃至ＷＡ３を表示し、姿勢領域ＷＡ１乃至ＷＡ３にそれぞれの姿勢に該当する人体を表示する。

　第４の実施形態の画像処理装置１０のその他の構成は、第１乃至第３の実施形態の画像処理装置１０の構成と同様である。

　第４の実施形態の画像処理装置１０によれば、第１乃至第３の実施形態と同様の作用効果が実現される。また、第４の実施形態の画像処理装置１０によれば、特定した画像内の箇所に写る複数の人体を、姿勢又は動きの類似度に基づきグループ分けし、その結果を出力することができる。ユーザは、その情報に基づき、テンプレート画像の候補の中に、どのような姿勢や動きの人体が含まれているのか、容易に把握することができる。結果、登録済みのテンプレート画像が示す姿勢や動きと異なる所望の姿勢や所望の動きの人体を含む画像をテンプレート画像として登録する作業の作業性の問題が解決される。

　以上、図面を参照して本発明の実施形態について述べたが、これらは本発明の例示であり、上記以外の様々な構成を採用することもできる。

　また、上述の説明で用いた複数のフローチャートでは、複数の工程（処理）が順番に記載されているが、各実施形態で実行される工程の実行順序は、その記載の順番に制限されない。各実施形態では、図示される工程の順番を内容的に支障のない範囲で変更することができる。また、上述の各実施形態は、内容が相反しない範囲で組み合わせることができる。

　上記の実施形態の一部または全部は、以下の付記のようにも記載されうるが、以下に限られない。
１．　画像に含まれる人体のキーポイントを検出する処理を行う骨格構造検出手段と、
　検出された前記キーポイントに基づき、前記画像から検出された人体の姿勢又は動きと、予め登録されたテンプレート画像が示す人体の姿勢又は動きとの類似度を算出する類似度算出手段と、
　いずれの前記テンプレート画像が示す人体の姿勢又は動きとの前記類似度も第１の閾値未満である人体が写る前記画像内の箇所を特定する特定手段と、
　前記テンプレート画像が示す人体の姿勢又は動きに基づいて前記画像から検出された人体の姿勢又は動きを判定する判定装置に追加登録する前記テンプレート画像の候補として、前記特定された箇所を示す情報、又は前記画像から前記特定された箇所を切り出した部分画像を出力する出力手段と、
を有する画像処理装置。
２．　前記特定手段は、いずれの前記テンプレート画像が示す人体の姿勢又は動きとの前記類似度も前記第１の閾値未満である人体の中の、いずれの前記テンプレート画像が示す人体の姿勢又は動きとも第１の類似条件を満たさない人体が写る前記画像内の箇所を特定する１に記載の画像処理装置。
３．　前記第１の類似条件は、前記類似度が第２の閾値以上かつ前記第１の閾値未満であること、を含む２に記載の画像処理装置。
４．　前記第１の類似条件は、各人体から検出される複数の前記キーポイントの中の一部の前記キーポイントに基づき算出された前記テンプレート画像が示す人体の姿勢又は動きとの前記類似度が第３の閾値以上であること、を含む２又は３に記載の画像処理装置。
５．　前記第１の類似条件は、各人体から検出される複数の前記キーポイント各々に付与された重み付け値を考慮して算出された前記テンプレート画像が示す人体の姿勢又は動きとの前記類似度が第４の閾値以上であること、を含む２から４のいずれかに記載の画像処理装置。
６．　前記画像及び前記テンプレート画像は動画像であり、前記動画像に含まれる複数のテンプレート画像各々が示す人体の姿勢の時間変化により人体の動きが示されており、
　前記第１の類似条件は、前記テンプレート画像に含まれる複数のフレーム画像の中の所定割合以上の前記フレーム画像各々が示す人体の姿勢との類似度が第５の閾値以上である姿勢の人体各々を示す複数のフレーム画像を含むこと、である２から５のいずれかに記載の画像処理装置。
７．　前記特定された箇所に写る複数の人体を、姿勢又は動きの類似度に基づきグループ分けするグループ化手段をさらに有し、
　前記出力手段は、前記グループ分けの結果をさらに出力する、
１から６のいずれかに記載の画像処理装置。
８．　コンピュータが、
　　画像に含まれる人体のキーポイントを検出する処理を行い、
　　検出された前記キーポイントに基づき、前記画像から検出された人体の姿勢又は動きと、予め登録されたテンプレート画像が示す人体の姿勢又は動きとの類似度を算出し、
　　いずれの前記テンプレート画像が示す人体の姿勢又は動きとの前記類似度も第１の閾値未満である人体が写る前記画像内の箇所を特定し、
　　前記テンプレート画像が示す人体の姿勢又は動きに基づいて前記画像から検出された人体の姿勢又は動きを判定する判定装置に追加登録する前記テンプレート画像の候補として、前記特定された箇所を示す情報、又は前記画像から前記特定された箇所を切り出した部分画像を出力する、
画像処理方法。
９．　コンピュータを、
　　画像に含まれる人体のキーポイントを検出する処理を行う骨格構造検出手段、
　　検出された前記キーポイントに基づき、前記画像から検出された人体の姿勢又は動きと、予め登録されたテンプレート画像が示す人体の姿勢又は動きとの類似度を算出する類似度算出手段、
　　いずれの前記テンプレート画像が示す人体の姿勢又は動きとの前記類似度も第１の閾値未満である人体が写る前記画像内の箇所を特定する特定手段、
　　前記テンプレート画像が示す人体の姿勢又は動きに基づいて前記画像から検出された人体の姿勢又は動きを判定する判定装置に追加登録する前記テンプレート画像の候補として、前記特定された箇所を示す情報、又は前記画像から前記特定された箇所を切り出した部分画像を出力する出力手段、
として機能させるプログラム。

　１０　　画像処理装置
　１１　　骨格構造検出部
　１２　　類似度算出部
　１３　　特定部
　１４　　出力部
　１５　　グループ化部
　１Ａ　　プロセッサ
　２Ａ　　メモリ
　３Ａ　　入出力Ｉ／Ｆ
　４Ａ　　周辺回路
　５Ａ　　バス

Claims

　画像に含まれる人体のキーポイントを検出する処理を行う骨格構造検出手段と、
　検出された前記キーポイントに基づき、前記画像から検出された人体の姿勢又は動きと、予め登録されたテンプレート画像が示す人体の姿勢又は動きとの類似度を算出する類似度算出手段と、
　いずれの前記テンプレート画像が示す人体の姿勢又は動きとの前記類似度も第１の閾値未満である人体が写る前記画像内の箇所を特定する特定手段と、
　前記テンプレート画像が示す人体の姿勢又は動きに基づいて前記画像から検出された人体の姿勢又は動きを判定する判定装置に追加登録する前記テンプレート画像の候補として、前記特定された箇所を示す情報、又は前記画像から前記特定された箇所を切り出した部分画像を出力する出力手段と、
を有する画像処理装置。
　前記特定手段は、いずれの前記テンプレート画像が示す人体の姿勢又は動きとの前記類似度も前記第１の閾値未満である人体の中の、いずれの前記テンプレート画像が示す人体の姿勢又は動きとも第１の類似条件を満たさない人体が写る前記画像内の箇所を特定する請求項１に記載の画像処理装置。
　前記第１の類似条件は、前記類似度が第２の閾値以上かつ前記第１の閾値未満であること、を含む請求項２に記載の画像処理装置。
　前記第１の類似条件は、各人体から検出される複数の前記キーポイントの中の一部の前記キーポイントに基づき算出された前記テンプレート画像が示す人体の姿勢又は動きとの前記類似度が第３の閾値以上であること、を含む請求項２又は３に記載の画像処理装置。
　前記第１の類似条件は、各人体から検出される複数の前記キーポイント各々に付与された重み付け値を考慮して算出された前記テンプレート画像が示す人体の姿勢又は動きとの前記類似度が第４の閾値以上であること、を含む請求項２から４のいずれか１項に記載の画像処理装置。
　前記画像及び前記テンプレート画像は動画像であり、前記動画像に含まれる複数のテンプレート画像各々が示す人体の姿勢の時間変化により人体の動きが示されており、
　前記第１の類似条件は、前記テンプレート画像に含まれる複数のフレーム画像の中の所定割合以上の前記フレーム画像各々が示す人体の姿勢との類似度が第５の閾値以上である姿勢の人体各々を示す複数のフレーム画像を含むこと、である請求項２から５のいずれか１項に記載の画像処理装置。
　前記特定された箇所に写る複数の人体を、姿勢又は動きの類似度に基づきグループ分けするグループ化手段をさらに有し、
　前記出力手段は、前記グループ分けの結果をさらに出力する、
請求項１から６のいずれか１項に記載の画像処理装置。
　コンピュータが、
　　画像に含まれる人体のキーポイントを検出する処理を行い、
　　検出された前記キーポイントに基づき、前記画像から検出された人体の姿勢又は動きと、予め登録されたテンプレート画像が示す人体の姿勢又は動きとの類似度を算出し、
　　いずれの前記テンプレート画像が示す人体の姿勢又は動きとの前記類似度も第１の閾値未満である人体が写る前記画像内の箇所を特定し、
　　前記テンプレート画像が示す人体の姿勢又は動きに基づいて前記画像から検出された人体の姿勢又は動きを判定する判定装置に追加登録する前記テンプレート画像の候補として、前記特定された箇所を示す情報、又は前記画像から前記特定された箇所を切り出した部分画像を出力する、
画像処理方法。
　コンピュータを、
　　画像に含まれる人体のキーポイントを検出する処理を行う骨格構造検出手段、
　　検出された前記キーポイントに基づき、前記画像から検出された人体の姿勢又は動きと、予め登録されたテンプレート画像が示す人体の姿勢又は動きとの類似度を算出する類似度算出手段、
　　いずれの前記テンプレート画像が示す人体の姿勢又は動きとの前記類似度も第１の閾値未満である人体が写る前記画像内の箇所を特定する特定手段、
　　前記テンプレート画像が示す人体の姿勢又は動きに基づいて前記画像から検出された人体の姿勢又は動きを判定する判定装置に追加登録する前記テンプレート画像の候補として、前記特定された箇所を示す情報、又は前記画像から前記特定された箇所を切り出した部分画像を出力する出力手段、
として機能させるプログラム。