WO2023084778A1

WO2023084778A1 - 画像処理装置、画像処理方法、およびプログラム

Info

Publication number: WO2023084778A1
Application number: PCT/JP2021/041924
Authority: WO
Inventors: 登吉田
Original assignee: 日本電気株式会社
Priority date: 2021-11-15
Filing date: 2021-11-15
Publication date: 2023-05-19

Abstract

本発明の画像処理装置（１００）は、画像に含まれる人体の複数の部位各々に対応する複数のキーポイントを検出する処理を行う骨格構造検出部（１０１）と、検出されたキーポイント各々の特徴量を算出する特徴量算出部（１０２）と、部位ごとに複数の人体各々から検出された特徴量を統合して、部位ごとの統合特徴量を算出し、統合特徴量に基づき画像検索又は画像分類を行う処理部（１０３）と、を有する。処理部（１０３）は、複数の人体の中の一部から複数の部位のうち第１の部位に対応するキーポイントが検出されておらず、複数の人体の中の他の一部から第１の部位に対応するキーポイントが検出されている場合、他の一部から検出された第１の部位に対応するキーポイントの特徴量に基づき、第１の部位の統合特徴量を算出する。

Description

画像処理装置、画像処理方法、およびプログラム

　本発明は、画像処理装置、画像処理方法、およびプログラムに関する。

　本発明に関連する技術が特許文献１及び非特許文献１に開示されている。特許文献１には、画像に含まれる人体の複数のキーポイント各々の特徴量を算出し、算出した特徴量に基づき姿勢が似た人体や動きが似た人体を含む画像を検索したり、当該姿勢や動きが似たもの同士でまとめて分類したりする技術が開示されている。また、非特許文献１には、人物の骨格推定に関連する技術が開示されている。

国際公開第２０２１／０８４６７７号

Zhe Cao, Tomas Simon, Shih-En Wei, Yaser Sheikh, "Realtime Multi-Person 2D Pose Estimation using Part Affinity Fields", The IEEE Conference on Computer Vision and Pattern Recognition (CVPR), 2017, P. 7291-7299

　人体の一部が他の物体や自身の他の部分により隠れて見えない画像を用いて特許文献１に開示の検索や分類を行った場合、その精度が悪くなる。人体の一部が隠れておらず、全てのキーポイントを検出可能な画像を用いることで、当該不都合を軽減できる。しかし、そのような画像を準備することが難しい場合がある。

　本発明は、姿勢や動きが似た人体を含む画像を検索したり、姿勢や動きが似た人体を含む画像同士でまとめて分類したりする技術において、その精度を向上させることを課題とする。

　本発明によれば、
　画像に含まれる人体の複数の部位各々に対応する複数のキーポイントを検出する処理を行う骨格構造検出手段と、
　検出された前記キーポイント各々の特徴量を算出する特徴量算出手段と、
　前記部位ごとに複数の人体各々から検出された前記特徴量を統合して、前記部位ごとの統合特徴量を算出し、前記統合特徴量に基づき画像検索又は画像分類を行う処理手段と、
を有し、
　前記処理手段は、
　　複数の前記人体の中の一部から前記複数の部位のうち第１の部位に対応する前記キーポイントが検出されておらず、複数の前記人体の中の他の一部から前記第１の部位に対応する前記キーポイントが検出されている場合、前記他の一部から検出された前記第１の部位に対応する前記キーポイントの前記特徴量に基づき、前記第１の部位の前記統合特徴量を算出する画像処理装置が提供される。

　また、本発明によれば、
　コンピュータが、
　　画像に含まれる人体の複数の部位各々に対応する複数のキーポイントを検出する処理を行う骨格構造検出工程と、
　　検出された前記キーポイント各々の特徴量を算出する特徴量算出工程と、
　　前記部位ごとに複数の人体各々から検出された前記特徴量を統合して、前記部位ごとの統合特徴量を算出し、前記統合特徴量に基づき画像検索又は画像分類を行う処理工程と、
を実行し、
　前記処理工程では、
　　複数の前記人体の中の一部から前記複数の部位のうち第１の部位に対応する前記キーポイントが検出されておらず、複数の前記人体の中の他の一部から前記第１の部位に対応する前記キーポイントが検出されている場合、前記他の一部から検出された前記第１の部位に対応する前記キーポイントの前記特徴量に基づき、前記第１の部位の前記統合特徴量を算出する画像処理方法が提供される。

　また、本発明によれば、
　コンピュータを、
　　画像に含まれる人体の複数の部位各々に対応する複数のキーポイントを検出する処理を行う骨格構造検出手段、
　　検出された前記キーポイント各々の特徴量を算出する特徴量算出手段、
　　前記部位ごとに複数の人体各々から検出された前記特徴量を統合して、前記部位ごとの統合特徴量を算出し、前記統合特徴量に基づき画像検索又は画像分類を行う処理手段、
として機能させ、
　前記処理手段は、
　　複数の前記人体の中の一部から前記複数の部位のうち第１の部位に対応する前記キーポイントが検出されておらず、複数の前記人体の中の他の一部から前記第１の部位に対応する前記キーポイントが検出されている場合、前記他の一部から検出された前記第１の部位に対応する前記キーポイントの前記特徴量に基づき、前記第１の部位の前記統合特徴量を算出するプログラムが提供される。

　本発明によれば、姿勢や動きが似た人体を含む画像を検索したり、姿勢や動きが似た人体を含む画像同士でまとめて分類したりする技術において、その精度を向上させることができる。

　上述した目的、およびその他の目的、特徴および利点は、以下に述べる公的な実施の形態、およびそれに付随する以下の図面によってさらに明らかになる。

本実施形態の静止画から統合特徴量を算出する処理の一例を示す図である。本実施形態の画像処理装置のハードウエア構成の一例を示す図である。本実施形態の画像処理装置の機能ブロック図の一例を示す図である。本実施形態の画像処理装置により検出される人体モデルの骨格構造の一例を示す図である。本実施形態の画像処理装置により検出された人体モデルの骨格構造の一例を示す図である。本実施形態の画像処理装置により検出された人体モデルの骨格構造の一例を示す図である。本実施形態の画像処理装置により算出されたキーポイントの特徴量の一例を示す図である。本実施形態の画像処理装置により算出されたキーポイントの特徴量の一例を示す図である。本実施形態の画像処理装置により算出されたキーポイントの特徴量の一例を示す図である。本実施形態の動画から統合特徴量を算出する処理の一例を示す図である。本実施形態のフレーム画像の対応関係を特定する処理の一例を示す図である。本実施形態の動画から統合特徴量を算出する処理の一例を示す図である。本実施形態の画像処理装置の処理の流れの一例を示すフローチャートである。本実施形態の画像処理装置の処理の流れの一例を示すフローチャートである。本実施形態の静止画から統合特徴量を算出する処理の一例を説明するための図である。本実施形態の静止画から統合特徴量を算出する処理の一例を説明するための図である。本実施形態の静止画から統合特徴量を算出する処理の一例を説明するための図である。本実施形態の静止画から統合特徴量を算出する処理の一例を説明するための図である。本実施形態の動画から統合特徴量を算出する処理の一例を説明するための図である。本実施形態の動画から統合特徴量を算出する処理の一例を説明するための図である。本実施形態の画像処理装置の機能ブロック図の一例を示す図である。本実施形態の画像処理装置が表示する情報の一例を模式的に示す図である。本実施形態の画像処理装置が表示する情報の一例を模式的に示す図である。本実施形態の画像処理装置の処理の流れの一例を示すフローチャートである。本実施形態の画像処理装置の機能ブロック図の一例を示す図である。本実施形態の画像処理装置の機能ブロック図の一例を示す図である。本実施形態の画像処理装置が表示する情報の一例を模式的に示す図である。

　以下、本発明の実施の形態について、図面を用いて説明する。尚、すべての図面において、同様な構成要素には同様の符号を付し、適宜説明を省略する。

＜第１の実施形態＞
「概要」
　本実施形態の画像処理装置は、複数の人体各々から人体の各部位（以下、「人体の部位」を単に「部位」という場合がある）に対応するキーポイントを検出し、キーポイントの特徴量を部位ごとに統合して、部位ごとの統合特徴量を算出する。そして、画像処理装置は、算出した部位ごとの統合特徴量に基づき、画像検索や画像分類を行う。このような画像処理装置によれば、１つの人体からあるキーポイントが検出されなかった場合に、他の人体から検出されたそのキーポイントの特徴量で補完することができる。このため、全ての部位各々に対応した統合特徴量を算出することができる。

　図１を用いて、統合特徴量を算出する処理の一例を説明する。図示する第１の静止画は、手を洗っている人物を当該人物の左側から撮影した画像である。第１の静止画では、当該人物の身体の右側の一部は隠れて見えていない。このような第１の静止画に対して人体のＮ個のキーポイントを検出する処理を行った場合、Ｎ個のキーポイントの中の一部、すなわち隠れていない部分に含まれるキーポイントは検出されるが、Ｎ個のキーポイントの中の他の一部、すなわち隠れている部分に含まれるキーポイントは検出されない。結果、いくつかのキーポイントの特徴量は欠損した状態となる。

　同様に、第２の静止画は、手を洗っている人物を当該人物の右側から撮影した画像である。第２の静止画では、当該人物の身体の左側の一部は隠れて見えていない。このような第２の静止画に対して人体のＮ個のキーポイントを検出する処理を行った場合、Ｎ個のキーポイントの中の一部、すなわち隠れていない部分に含まれるキーポイントは検出されるが、Ｎ個のキーポイントの中の他の一部、すなわち隠れている部分に含まれるキーポイントは検出されない。結果、いくつかのキーポイントの特徴量は欠損した状態となる。

　本実施形態の画像処理装置がこのような第１の静止画に含まれる人体から検出されたキーポイントの特徴量と、第２の静止画に含まれる人体から検出されたキーポイントの特徴量を統合した場合、第１の静止画に含まれる人体から検出されなかったキーポイントの特徴量を、第２の静止画に含まれる人体から検出されたキーポイントの特徴量で補完することができる。同様に、第２の静止画に含まれる人体から検出されなかったキーポイントの特徴量を、第１の静止画に含まれる人体から検出されたキーポイントの特徴量で補完することができる。結果、Ｎ個の部位全てに対応した統合特徴量を算出することができる。そして、Ｎ個の部位全てに対応した統合特徴量を用いて、姿勢や動きが似た人体を含む画像を検索したり、姿勢や動きが似た人体を含む画像同士でまとめて分類したりすることで、その精度を向上する。

「ハードウエア構成」
　次に、画像処理装置のハードウエア構成の一例を説明する。画像処理装置の各機能部は、任意のコンピュータのＣＰＵ（Central Processing Unit）、メモリ、メモリにロードされるプログラム、そのプログラムを格納するハードディスク等の記憶ユニット（あらかじめ装置を出荷する段階から格納されているプログラムのほか、ＣＤ（Compact Disc）等の記憶媒体やインターネット上のサーバ等からダウンロードされたプログラムをも格納できる）、ネットワーク接続用インターフェイスを中心にハードウエアとソフトウエアの任意の組合せによって実現される。そして、その実現方法、装置にはいろいろな変形例があることは、当業者には理解されるところである。

　図２は、画像処理装置のハードウエア構成を例示するブロック図である。図２に示すように、画像処理装置は、プロセッサ１Ａ、メモリ２Ａ、入出力インターフェイス３Ａ、周辺回路４Ａ、バス５Ａを有する。周辺回路４Ａには、様々なモジュールが含まれる。画像処理装置は周辺回路４Ａを有さなくてもよい。なお、画像処理装置は物理的及び／又は論理的に分かれた複数の装置で構成されてもよい。この場合、複数の装置各々が上記ハードウエア構成を備えることができる。

　バス５Ａは、プロセッサ１Ａ、メモリ２Ａ、周辺回路４Ａ及び入出力インターフェイス３Ａが相互にデータを送受信するためのデータ伝送路である。プロセッサ１Ａは、例えばＣＰＵ、ＧＰＵ（Graphics Processing Unit）などの演算処理装置である。メモリ２Ａは、例えばＲＡＭ（Random Access Memory）やＲＯＭ（Read Only Memory）などのメモリである。入出力インターフェイス３Ａは、入力装置、外部装置、外部サーバ、外部センサ、カメラ等から情報を取得するためのインターフェイスや、出力装置、外部装置、外部サーバ等に情報を出力するためのインターフェイスなどを含む。入力装置は、例えばキーボード、マウス、マイク、物理ボタン、タッチパネル等である。出力装置は、例えばディスプレイ、スピーカ、プリンター、メーラ等である。プロセッサ１Ａは、各モジュールに指令を出し、それらの演算結果をもとに演算を行うことができる。

「機能構成」
　図３に、本実施形態の画像処理装置１００の機能ブロック図の一例を示す。図示する画像処理装置１００は、骨格構造検出部１０１と、特徴量算出部１０２と、処理部１０３と、記憶部１０４とを有する。なお、画像処理装置１００は、記憶部１０４を有さなくてもよい。この場合、外部装置が記憶部１０４を備える。そして、記憶部１０４は、画像処理装置１００からアクセス可能に構成される。

　骨格構造検出部１０１は、画像に含まれる人体の複数の部位各々に対応するＮ（Ｎは２以上の整数）個のキーポイントを検出する処理を行う。画像は、静止画及び動画を含む概念である。動画が処理対象の場合、骨格構造検出部１０１は、フレーム画像毎にキーポイントを検出する処理を行う。骨格構造検出部１０１による当該処理は、特許文献１に開示されている技術を用いて実現される。詳細は省略するが、特許文献１に開示されている技術では、非特許文献１に開示されたＯｐｅｎＰｏｓｅ等の骨格推定技術を利用して骨格構造の検出を行う。当該技術で検出される骨格構造は、関節等の特徴的な点である「キーポイント」と、キーポイント間のリンクを示す「ボーン（ボーンリンク）」とから構成される。

　図４は、骨格構造検出部１０１により検出される人体モデル３００の骨格構造を示しており、図５及び図６は、骨格構造の検出例を示している。骨格構造検出部１０１は、ＯｐｅｎＰｏｓｅ等の骨格推定技術を用いて、２次元の画像から図４のような人体モデル（２次元骨格モデル）３００の骨格構造を検出する。人体モデル３００は、人物の関節等のキーポイントと、各キーポイントを結ぶボーンから構成された２次元モデルである。

　骨格構造検出部１０１は、例えば、画像の中からキーポイントとなり得る特徴点を抽出し、キーポイントの画像を機械学習した情報を参照して、人体のＮ個のキーポイントを検出する。検出するＮ個のキーポイントは予め定められる。検出するキーポイントの数（すなわち、Ｎの数）や、人体のどの部分を検出するキーポイントとするかは様々であり、あらゆるバリエーションを採用できる。

　以下では、図４に示すように、頭Ａ１、首Ａ２、右肩Ａ３１、左肩Ａ３２、右肘Ａ４１、左肘Ａ４２、右手Ａ５１、左手Ａ５２、右腰Ａ６１、左腰Ａ６２、右膝Ａ７１、左膝Ａ７２、右足Ａ８１、左足Ａ８２が、検出対象のＮ個のキーポイント（Ｎ＝１４）として定められているものとする。なお、図４に示す人体モデル３００では、これらのキーポイントを連結した人物の骨として、頭Ａ１と首Ａ２を結ぶボーンＢ１、首Ａ２と右肩Ａ３１及び左肩Ａ３２をそれぞれ結ぶボーンＢ２１及びボーンＢ２２、右肩Ａ３１及び左肩Ａ３２と右肘Ａ４１及び左肘Ａ４２をそれぞれ結ぶボーンＢ３１及びボーンＢ３２、右肘Ａ４１及び左肘Ａ４２と右手Ａ５１及び左手Ａ５２をそれぞれ結ぶボーンＢ４１及びボーンＢ４２、首Ａ２と右腰Ａ６１及び左腰Ａ６２をそれぞれ結ぶボーンＢ５１及びボーンＢ５２、右腰Ａ６１及び左腰Ａ６２と右膝Ａ７１及び左膝Ａ７２をそれぞれ結ぶボーンＢ６１及びボーンＢ６２、右膝Ａ７１及び左膝Ａ７２と右足Ａ８１及び左足Ａ８２をそれぞれ結ぶボーンＢ７１及びボーンＢ７２がさらに定められている。

　図５は、直立した状態の人体からキーポイントを検出した例である。図５では、直立した人体が正面から撮像されており、１４個のキーポイントすべてが検出されている。図６は、しゃがみ込んでいる状態の人体からキーポイントを検出した例である。図６では、しゃがみ込んでいる人体が右側から撮像されており、１４個のキーポイントの中の一部のみが検出されている。具体的には、図６では、頭Ａ１、首Ａ２、右肩Ａ３１、右肘Ａ４１、右手Ａ５１、右腰Ａ６１、右膝Ａ７１及び右足Ａ８１が検出されており、左肩Ａ３２、左肘Ａ４２、左手Ａ５２、左腰Ａ６２、左膝Ａ７２及び左足Ａ８２が検出されていない。

　図３に戻り、特徴量算出部１０２は、検出された２次元の骨格構造の特徴量を算出する。例えば、特徴量算出部１０２は、検出されたキーポイント各々の特徴量を算出する。

　骨格構造の特徴量は、人物の骨格の特徴を示しており、人物の骨格に基づいて人物の状態（姿勢や動き）を分類や検索するための要素となる。通常、この特徴量は、複数のパラメータを含んでいる。そして特徴量は、骨格構造の全体の特徴量でもよいし、骨格構造の一部の特徴量でもよく、骨格構造の各部のように複数の特徴量を含んでもよい。特徴量の算出方法は、機械学習や正規化等の任意の方法でよく、正規化として最小値や最大値を求めてもよい。一例として、特徴量は、骨格構造を機械学習することで得られた特徴量や、骨格構造の頭部から足部までの画像上の大きさ、画像上の骨格構造を含む骨格領域の上下方向における複数のキーポイントの相対的な位置関係、当該骨格領域の左右方向における複数のキーポイントの相対的な位置関係等である。骨格構造の大きさは、画像上の骨格構造を含む骨格領域の上下方向の高さや面積等である。上下方向（高さ方向または縦方向）は、画像における上下の方向（Ｙ軸方向）であり、例えば、地面（基準面）に対し垂直な方向である。また、左右方向（横方向）は、画像における左右の方向（Ｘ軸方向）であり、例えば、地面に対し平行な方向である。

　なお、ユーザが望む分類や検索を行うためには、分類や検索処理に対しロバスト性を有する特徴量を用いることが好ましい。例えば、ユーザが、人物の向きや体型に依存しない分類や検索を望む場合、人物の向きや体型にロバストな特徴量を使用してもよい。同じ姿勢で様々な方向に向いている人物の骨格や同じ姿勢で様々な体型の人物の骨格を学習することや、骨格の上下方向のみの特徴を抽出することで、人物の向きや体型に依存しない特徴量を得ることができる。

　特徴量算出部１０２による上記処理は、特許文献１に開示されている技術を用いて実現される。

　図７は、特徴量算出部１０２が求めた複数のキーポイント各々の特徴量の例を示している。なお、ここで例示するキーポイントの特徴量はあくまで一例であり、これに限定されない。

　この例では、キーポイントの特徴量は、画像上の骨格構造を含む骨格領域の上下方向における複数のキーポイントの相対的な位置関係を示す。首のキーポイントＡ２を基準点とするため、キーポイントＡ２の特徴量は０．０となり、首と同じ高さの右肩のキーポイントＡ３１及び左肩のキーポイントＡ３２の特徴量も０．０である。首よりも高い頭のキーポイントＡ１の特徴量は－０．２である。首よりも低い右手のキーポイントＡ５１及び左手のキーポイントＡ５２の特徴量は０．４であり、右足のキーポイントＡ８１及び左足のキーポイントＡ８２の特徴量は０．９である。この状態から人物が左手を挙げると、図８のように左手が基準点よりも高くなるため、左手のキーポイントＡ５２の特徴量は－０．４となる。一方で、Ｙ軸の座標のみを用いて正規化を行っているため、図９のように、図７に比べて骨格構造の幅が変わっても特徴量は変わらない。すなわち、当該例の特徴量（正規化値）は、骨格構造（キーポイント）の高さ方向（Ｙ方向）の特徴を示しており、骨格構造の横方向（Ｘ方向）の変化に影響を受けない。

　図３に戻り、処理部１０３は、部位ごとにＭ（Ｍは２以上の整数）個の人体各々から検出されたキーポイントの特徴量を統合して、部位ごとの統合特徴量を算出する。そして、処理部１０３は、部位ごとの統合特徴量に基づき画像検索又は画像分類を行う。なお、上述の通り、複数のキーポイントは、複数の部位各々に対応する。このため、「部位ごと」に処理を行うことは「キーポイントごと」に処理を行うことと同じ意味である。例えば、部位ごとに算出することで得られる「部位ごとの統合特徴量」は、キーポイントごとに算出することで得られる「Ｎ個のキーポイント各々の統合特徴量」と同じ意味である。

－統合特徴量を算出する処理－
〇静止画を処理対象とする場合
　まず、ユーザが、統合特徴量を算出する処理の対象とするＭ個の人体を指定する。例えば、ユーザは、各々が１つの人体を含むＭ個の静止画を指定（Ｍ個の静止画ファイルの指定）することで、Ｍ個の人体を指定してもよい。Ｍ個の静止画の指定は、例えばＭ個の静止画を画像処理装置１００に入力する操作や、画像処理装置１００に記憶されている複数の静止画の中からＭ個の静止画を選択する操作等である。この場合、上述した骨格構造検出部１０１は、指定されたＭ個の静止画各々に対し、Ｎ個のキーポイントを検出する処理を行う。なお、Ｎ個すべてのキーポイントが検出される場合もあれば、Ｎ個のキーポイントの一部のみが検出される場合もある。特徴量算出部１０２は、検出されたキーポイント各々の特徴量を算出する。

　その他、ユーザは、少なくとも１つの静止画を指定（少なくとも１つの静止画ファイルの指定）するとともに、指定した少なくとも１つの静止画内で各々が１つの人体を含むＭ個の領域を指定することで、Ｍ個の人体を指定してもよい。なお、１つの静止画の中から複数の領域（すなわち、複数の人体）を指定してもよい。静止画の中の一部の領域を指定する処理は、従来のあらゆる技術を利用して実現できる。この場合、上述した骨格構造検出部１０１は、指定されたＭ個の領域各々に対し、Ｎ個のキーポイントを検出する処理を行う。なお、Ｎ個すべてのキーポイントが検出される場合もあれば、Ｎ個のキーポイントの一部のみが検出される場合もある。特徴量算出部１０２は、検出されたキーポイント各々の特徴量を算出する。

　ユーザが指定したＭ個の人体各々のキーポイントの特徴量が算出された後、処理部１０３は、キーポイント毎にそれらを統合して統合特徴量を算出する。処理部１０３は、例えばＮ個のキーポイントの中から順に１つを選択し、統合特徴量を算出する処理を行う。以下では、Ｎ個のキーポイントの中の１つであって、処理の対象として選択されているキーポイントを「第１のキーポイント」と呼ぶ。

　処理部１０３は、Ｍ個の人体の中の一部から第１のキーポイントが検出されておらず、Ｍ個の人体の中の他の一部から第１のキーポイントが検出されている場合、他の一部から検出された第１のキーポイントの特徴量に基づき、第１のキーポイントの統合特徴量（「第１の部位の統合特徴量」と同義）を算出する。当該処理により、複数の人体各々から算出されたキーポイントの特徴量を、互いに欠けている部分を補完し合って統合することが可能となる。

　なお、第１のキーポイントの検出状態は、（１）Ｍ個の人体の中の１つのみから検出、（２）Ｍ個の人体の中の複数から検出、（３）Ｍ個の人体の中のいずれからも検出されない、の中のいずれかとなる。処理部１０３は、各検出状態に応じた処理で、統合特徴量を算出することができる。以下、詳細に説明する。

（１）Ｍ個の人体の中の１つのみから検出
　Ｍ個の人体の中の１つのみから第１のキーポイントが検出されている場合、処理部１０３は、その１つの人体から検出された第１のキーポイントの特徴量を、第１のキーポイントの統合特徴量とする。

（２）Ｍ個の人体の中の複数の人体から検出
　Ｍ個の人体の中の複数から第１のキーポイントが検出されている場合、処理部１０３は、以下の算出例１乃至４のいずれかにより、第１のキーポイントの統合特徴量を算出する。

・算出例１
　Ｍ個の人体の中の複数から第１のキーポイントが検出されている場合、処理部１０３は、複数の人体から検出された第１のキーポイントの特徴量の統計値を、第１のキーポイントの統合特徴量として算出する。統計値は、平均値、中央値、最頻値、最大値、又は最小値である。

・算出例２
　Ｍ個の人体の中の複数から第１のキーポイントが検出されている場合、処理部１０３は、複数の人体から検出された第１のキーポイントの特徴量の中の確信度が最も高い特徴量を、第１のキーポイントの統合特徴量とする。確信度の算出方法は特段制限されない。例えば、ＯｐｅｎＰｏｓｅ等の骨格推定技術において、検出された各キーポイントに紐付けて出力されるスコアを、各キーポイントの確信度としてもよい。

・算出例３
　Ｍ個の人体の中の複数から第１のキーポイントが検出されている場合、処理部１０３は、複数の人体各々から検出された第１のキーポイントの特徴量の確信度に応じた第１のキーポイントの特徴量の重み付け平均値を、第１のキーポイントの統合特徴量として算出する。確信度の算出方法は特段制限されない。例えば、ＯｐｅｎＰｏｓｅ等の骨格推定技術において、検出された各キーポイントに紐付けて出力されるスコアを、各キーポイントの確信度としてもよい。

・算出例４
　予め、ユーザは、指定したＭ個の人体各々の優先順位を指定しておく。指定した内容は画像処理装置１００に入力される。そして、Ｍ個の人体の中の複数から第１のキーポイントが検出されている場合、処理部１０３は、第１のキーポイントが検出された複数の人体の中の最も優先順位が高い人体から検出された第１のキーポイントの特徴量を、第１のキーポイントの統合特徴量とする。

（３）Ｍ個の人体の中のいずれからも検出されない
　Ｍ個の人体の中のいずれからも第１のキーポイントが検出されていない場合、処理部１０３は、第１のキーポイントの統合特徴量を算出しない。

〇動画を処理対象とする場合
　まず、ユーザが、統合特徴量を算出する処理の対象とするＭ個の人体を指定する。例えば、ユーザは、各々が１つの人体を含むＭ個の動画を指定（Ｍ個の動画ファイルの指定）することで、Ｍ個の人体を指定してもよい。Ｍ個の動画の指定は、例えばＭ個の動画を画像処理装置１００に入力する操作や、画像処理装置１００に記憶されている複数の動画の中からＭ個の動画を選択する操作等である。この場合、上述した骨格構造検出部１０１は、指定されたＭ個の動画各々のフレーム画像に対し、Ｎ個のキーポイントを検出する処理を行う。なお、Ｎ個すべてのキーポイントが検出される場合もあれば、Ｎ個のキーポイントの一部のみが検出される場合もある。特徴量算出部１０２は、検出されたキーポイント各々の特徴量を算出する。

　その他、ユーザは、少なくとも１つの動画を指定（少なくとも１つの動画ファイルの指定）するとともに、指定した少なくとも１つの動画内で各々が１つの人体を含むＭ個のシーン（動画の中の一部のシーン、動画が含む複数のフレーム画像の中の一部のフレーム画像で構成されるシーン）やＭ個の領域を指定することで、Ｍ個の人体を指定してもよい。なお、１つの動画の中から複数のシーンや複数の領域（すなわち、複数の人体）を指定してもよい。動画の中の一部のシーンや一部の領域を指定する処理は、従来のあらゆる技術を利用して実現できる。この場合、上述した骨格構造検出部１０１は、指定されたＭ個のシーン各々のフレーム画像（又は、フレーム画像の中のユーザが指定した一部領域）に対し、Ｎ個のキーポイントを検出する処理を行う。なお、Ｎ個すべてのキーポイントが検出される場合もあれば、Ｎ個のキーポイントの一部のみが検出される場合もある。特徴量算出部１０２は、検出されたキーポイント各々の特徴量を算出する。

　ユーザが指定したＭ個の人体各々のキーポイントの特徴量が算出された後、処理部１０３は、キーポイント毎にそれらを統合して統合特徴量を算出する。処理部１０３は、Ｍ個の動画やＭ個のシーンにおけるフレーム画像の対応関係を特定し、互いに対応する複数のフレーム画像各々から検出されたキーポイントの特徴量を、キーポイント毎に統合する。以下、図１０乃至図１２を用いてより詳細に説明する。

　図１０には、２個（Ｍ＝２）の動画（シーン）が示されている。各々、１つの人体を含む。また、各々、複数のフレーム画像を含む。

　処理部１０３は、図１１に示すように、第１の動画内で所定の動きを行う人体と、第２の動画内で所定の動きを行う人体とが同様の姿勢をとるフレーム画像同士を対応付ける。図１１では、互いに対応するフレーム画像を線で結んでいる。なお、図示するように、第１の動画の１つのフレーム画像が第２の動画の複数のフレーム画像に対応付けられてもよい。また、第２の動画の１つのフレーム画像が第１の動画の複数のフレーム画像に対応付けられてもよい。上記対応関係の特定は、例えば、ＤＴＷ(Dinamic Time Warping)等の技術を利用して実現することができる。この時、対応関係の特定に必要な距離スコアとしては、特徴量間の距離（マンハッタン距離やユークリッド距離）などを用いることができる。当該技術によれば、図１０に示すように、第１の動画と第２の動画の時間長が互いに異なる（すなわち、互いのフレーム画像の数が異なる）場合でも、上記対応関係を特定することができる。

　この場合、図１２に示すように、対応する複数のフレーム画像の組み合わせ毎にＮ個のキーポイントの特徴量を算出することで、Ｎ個のキーポイントの統合特徴量の時系列データが得られる。図１２のＦ_１１＋Ｆ_２１は、図１０の第１の動画のフレーム画像Ｆ_１１から検出された人体のキーポイントの特徴量と、第２の動画のフレーム画像Ｆ_２１から検出された人体のキーポイントの特徴量とを統合して得られたＮ個のキーポイントの統合特徴量である。対応するフレーム画像から検出された人体のキーポイントの特徴量を統合する手段は、上述した静止画から検出された人体のキーポイントの特徴量を統合する手段と同様である。

－画像検索処理－
　画像検索処理においては、処理部１０３は、上述のようにユーザが指定したＭ個の人体に基づき算出した統合特徴量をクエリとして、統合特徴量で示される姿勢と類似する姿勢の人体を含む静止画や、統合特徴量の時系列データで示される動きと類似する動きをする人体を含む動画等を検索する。検索の仕方は、特許文献１に開示の技術を利用して実現できる。

－画像分類処理－
　画像分類処理においては、処理部１０３は、上述のようにユーザが指定したＭ個の人体に基づき算出した統合特徴量で示される姿勢や動きを、分類処理の１つの対象として扱い、姿勢や動き似たもの同士でまとめて分類する。分類の仕方は、特許文献１に開示の技術を利用して実現できる。

－その他の処理－
　処理部１０３は、上述のようにユーザが指定したＭ個の人体に基づき算出した統合特徴量で示される姿勢や動きを、１つの処理対象としてデータベース（記憶部１０４）に登録してもよい。データベースに登録された複数の姿勢や動きは、例えば上記画像検索処理においてクエリと照合される対象となってもよいし、上記画像分類処理において分類処理の対象となってもよい。例えば、複数のカメラで同一人物を複数の角度から撮影し、この複数のカメラで撮影された複数の画像に含まれる同一人物の複数の人体を上記Ｍ個の人体として指定することで、その人体の姿勢や動きをよく示した統合特徴量が算出され、データベースに登録される。

　次に、図１３のフローチャートを用いて、画像処理装置１００の処理の流れの一例を説明する。

　まず、画像処理装置１００は、少なくとも１つの画像を取得する（Ｓ１０）。次いで、画像処理装置１００は、取得した少なく１つの画像に含まれるＭ個の人体各々からＮ個のキーポイントを検出する処理を行う（Ｓ１１）。各人体からは、Ｎ個すべてのキーポイントが検出される場合もあれば、Ｎ個のキーポイントの一部のみが検出される場合もある。

　次いで、画像処理装置１００は、人体毎に、検出されたキーポイントの特徴量を算出する（Ｓ１２）。次いで、画像処理装置１００は、Ｍ個の人体各々から検出されたキーポイントの特徴量を統合して、Ｎ個のキーポイント各々の統合特徴量を算出する（Ｓ１３）。次いで、画像処理装置１００は、Ｓ１３で算出された統合特徴量に基づき画像検索又は画像分類を行う（Ｓ１４）。

　ここで、図１４のフローチャートを用いて、Ｓ１３の処理の一例を詳細に説明する。

　画像処理装置１００は、Ｎ個のキーポイントの中の１つを処理対象として選択する（Ｓ２０）。以下、選択されたキーポイントを第１のキーポイントと呼ぶ。

　その後、画像処理装置１００は、第１のキーポイントが検出された人体の数に応じた処理を行う。Ｍ個の人体の中の１つのみから第１のキーポイントが検出されている場合（Ｓ２１の「１個」）、画像処理装置１００は、その１つの人体から検出された第１のキーポイントの特徴量を、第１のキーポイントの統合特徴量として出力する（Ｓ２３）。

　Ｍ個の人体の中の複数から第１のキーポイントが検出されている場合（Ｓ２１の「複数」）、画像処理装置１００は、その複数の人体から検出された第１のキーポイントの特徴量に基づく演算処理で算出した値を、第１のキーポイントの統合特徴量として出力する（Ｓ２４）。演算処理の詳細は上述の通りである。

　Ｍ個の人体の中のいずれからも第１のキーポイントが検出されていない場合（Ｓ２１の「０個」）、処理部１０３は、第１のキーポイントの統合特徴量を算出せず、結合特徴量がない旨を出力する（Ｓ２２）。

「作用効果」
　画像において、人体の一部が他の物体や自身の他の部分により隠れて見えない場合がある。このような画像を特許文献１に開示の技術で処理した場合、隠れている部分のキーポイントは検出されず、その特徴量も算出されない。そして、検出された一部のキーポイントの特徴量のみに基づき検索／分類した場合、身体の少なくとも一部分の姿勢が似た人体や身体の少なくとも一部分の動きが似た人体を含む画像が検索されたり、身体の少なくとも一部分の姿勢や動きが似たもの同士でまとめて分類されたりする。結果、検索や分類の精度が低下する。

　本実施形態の画像処理装置１００は、複数の人体各々から検出されたキーポイントの特徴量を統合して、複数のキーポイント各々の統合特徴量を算出する。そして、画像処理装置は、算出した統合特徴量に基づき、画像検索や画像分類を行う。このような画像処理装置によればある人体から検出されなかったキーポイントの特徴量を、他の人体から検出されたキーポイントの特徴量で補完することができる。このため、全てのキーポイント各々に対応した統合特徴量を算出することができる。そして、全てのキーポイント各々に対応した統合特徴量に基づき画像検索や画像分類を行うことで、その精度が向上する。

　本実施形態では、例えば、図１５及び図１６に示すような複数の人体ＰのＮ個のキーポイントを統合することができる。図１５の静止画は、手を洗っている人物を当該人物の左側から撮影した画像である。第１の静止画では、当該人物の身体の左側は見えているが、身体の右側は隠れて見えていない。結果、当該人物の身体の左側部分に含まれるキーポイントは検出されているが、右側部分に含まれるキーポイントは検出されていない。図１６の静止画は、手を洗っている人物を当該人物の右側から撮影した画像である。第２の静止画では、当該人物の身体の右側は見えているが、身体の左側は隠れて見えていない。結果、当該人物の身体の右側部分に含まれるキーポイントは検出されているが、左側部分に含まれるキーポイントは検出されていない。このような２つの静止画から検出された人体のキーポイントの特徴量を統合することで、互いの欠けている部分を互いに補完し合い、Ｎ個の全てのキーポイント各々に対応した統合特徴量を算出することができる。

　また、本実施形態では、例えば、図１７及び図１８に示すような複数の人体ＰのＮ個のキーポイントを統合することができる。図１７の静止画は、左手を腰に当てて立っている人物を当該人物の正面から撮影した画像である。第１の静止画では、当該人物の身体において隠れている部分はない。結果、当該人体ＰからはＮ個全てのキーポイントが検出されている。図１８の静止画は、右手を挙げて立っている人物を当該人物の正面から撮影した画像である。第２の静止画では、当該人物の左半身の一部が車両Ｑで隠れている。結果、当該人物の身体の隠れていない部分に含まれるキーポイントは検出されているが、隠れている部分に含まれるキーポイントは検出されていない。このような２つの静止画から検出された人体のキーポイントの特徴量を統合することで、第２の静止画で欠けている部分を第１の静止画で補完し、Ｎ個の全てのキーポイント各々に対応した統合特徴量を算出することができる。この例の場合、例えば、上述した例４の手法、すなわちＭ個の人体各々の優先順位に基づく統合特徴量の算出を行ってもよい。例えば、ユーザは、第２の静止画に含まれる人体を第１の静止画に含まれる人体よりも優先順位を高く指定する。このようにした場合、第１の静止画及び第２の静止画両方に現れている部分の特徴は、第２の静止画に現れている部分が採用されることとなる。結果、算出されたＮ個の統合特徴量は、第１の静止画のように左手を腰に当て、第２の静止画のように右手を挙げて立っている姿勢を示すこととなる。

　また、本実施形態では、例えば、図１９及び図２０に示すような複数の人体ＰのＮ個のキーポイントを統合することができる。図１９の動画は、立った状態で右手を挙げる動きをする人物を当該人物の正面から撮影した画像である。第２の動画では、当該人物の左半身の一部が車両Ｑで隠れている。結果、当該人物の身体の隠れていない部分に含まれるキーポイントは検出されているが、隠れている部分に含まれるキーポイントは検出されていない。図２０の動画は、腰に手を当てて立った状態の人物を当該人物の正面から撮影した画像である。第２の動画では、当該人物の身体において隠れている部分はない。結果、当該人体ＰからはＮ個全てのキーポイントが検出されている。このような２つの動画から検出された人体のキーポイントの特徴量を統合することで、第１の動画で欠けている部分を第２の動画で補完し、Ｎ個の全てのキーポイント各々に対応した統合特徴量を算出することができる。この例の場合、例えば、上述した例４の手法、すなわちＭ個の人体各々の優先順位に基づく統合特徴量の算出を行ってもよい。例えば、ユーザは、第１の動画に含まれる人体を第２の動画に含まれる人体よりも優先順位を高く指定する。このようにした場合、第１の動画及び第２の動画両方に現れている部分の特徴は、第１の動画に現れている部分が採用されることとなる。このようにした場合、算出されたＮ個の統合特徴量の時系列データは、第２の動画のように左手を腰に当て、第１の動画に示すように立った状態で右手を挙げる動きを示すこととなる。

　なお、Ｍ個の人体は、同一人物の人体であってもよいし、異なる人物の人体であってもよい。

＜第２の実施形態＞
　本実施形態の画像処理装置１００は、Ｍ個の人体各々から検出されたキーポイントを統合して統合特徴量を算出する処理の詳細が、第１の実施形態と異なる。第１の実施形態では、例えば図１４に示すようなフローで、統合特徴量を算出した。本実施形態では、画像処理装置１００は、ユーザ入力で指定された手法で、Ｍ個の人体各々から検出されたキーポイントを統合して統合特徴量を算出する。以下、詳細に説明する。

　図２１に、本実施形態の画像処理装置１００の機能ブロック図の一例を示す。図示する画像処理装置１００は、骨格構造検出部１０１と、特徴量算出部１０２と、処理部１０３と、記憶部１０４と、入力部１０６とを有する。なお、画像処理装置１００は、記憶部１０４を有さなくてもよい。この場合、外部装置が記憶部１０４を備える。そして、記憶部１０４は、画像処理装置１００からアクセス可能に構成される。

　入力部１０６は、Ｍ個の人体各々から検出されたキーポイントの特徴量を統合する手法を指定するユーザ入力を受付ける。入力部１０６は、タッチパネル、キーボード、マウス、物理ボタン、マイク、ジェスチャー入力装置等のあらゆる入力装置を介して、上記ユーザ入力を受付けることができる。

　処理部１０３は、ユーザ入力で指定された手法で、キーポイント毎にＭ個の人体各々から検出された特徴量を統合して、Ｎ個のキーポイント各々の統合特徴量を算出する。

　入力部１０６及び処理部１０３は、以下の処理例１及び２のいずれかを実行することができる。

－処理例１－
　当該例では、入力部１０６は、Ｍ個の人体の各々に対して、特徴量を採用するキーポイントを指定する入力を行う。これは、キーポイント毎に、いずれの人体から検出されたキーポイントの特徴量を採用するかを指定する入力と同義である。そして、処理部１０３は、第１のキーポイントの統合特徴量として、ユーザ入力で指定された人体から検出された第１のキーポイントの特徴量を決定する。

　当該ユーザ入力を受付ける手段は様々である。例えば、入力部１０６は、図２２に示すように、Ｎ個のキーポイント各々に対応するＮ個のオブジェクトＲを人体の対応する骨格位置に配置した人体モデルを表示し、算出された特徴量を採用するキーポイントに対応するオブジェクト、又は採用しないキーポイントに対応するオブジェクトを選択するユーザ入力を、Ｍ個の人体各々に対応して受付けてもよい。

　その他、入力部１０６は、頭、首、右肩１、左肩、右肘、左肘、右手、左手、右腰、左腰、右膝、左膝、右足、左足等の複数のキーポイント各々に対応する身体の部位の名称を表示し、その中から、算出された特徴量を採用するキーポイント、又は採用しないキーポイントを選択するユーザ入力を、Ｍ個の人体各々に対応して受付けてもよい。この場合、チェックボックス等のＵＩ（user interface）部品を使用してもよい。

　その他、入力部１０６は、図２３に示すように、Ｎ個のキーポイント各々に対応するＮ個のオブジェクトＲを人体の対応する骨格位置に配置した人体モデルを表示し、当該人体モデルにおいて身体の少なくとも一部分を選択するユーザ入力を受付けてもよい。そして、入力部１０６は、ユーザ入力で選択された身体の部分に存在するキーポイントを、算出された特徴量を採用するキーポイント又は算出された特徴量を採用しないキーポイントとして決定してもよい。図２３に示す例では、枠Ｗにより、身体の少なくとも一部分が選択されている。ユーザは、枠Ｗの位置や大きさを変更し、所望のキーポイントが枠Ｗの中に含まれるように調整する。

　その他、入力部１０６は、上半身、下半身、右半身、左半身等の身体の一部分の名称を表示し、その中から少なくとも１つを選択するユーザ入力を受付けてもよい。そして、入力部１０６は、ユーザ入力で選択された身体の部分に存在するキーポイントを、算出された特徴量を採用するキーポイント又は算出された特徴量を採用しないキーポイントとして決定してもよい。この場合、チェックボックス等のＵＩ（user interface）部品を使用してもよい。

－処理例２－
　当該例では、入力部１０６は、Ｍ個の人体の各々に対して、キーポイント毎に、Ｍ個の人体各々から算出された特徴量の重みを指定するユーザ入力を受付ける。そして、処理部１０３は、キーポイント各々の統合特徴量として、Ｍ個の人体各々から算出された特徴量の上記ユーザが指定した重みに応じた重み付け平均値を算出する。

　キーポイント毎に重みを指定する手法は様々である。例えば、入力部１０６は、処理例１で説明した手法でキーポイントを個別に指定する入力を受付けた後、指定したキーポイントの重みを指定する入力をさらに受付けてもよい。その他、入力部１０６は、処理例１で説明した手法で身体の一部を指定する入力を受付けた後、指定した身体の一部に含まれるすべてのキーポイントに共通する重みを指定する入力をさらに受付けてもよい。

　次に、図２４のフローチャートを用いて、画像処理装置１００の処理の流れの一例を説明する。なお、各ステップの処理順は、適宜変更可能である。

　まず、画像処理装置１００は、少なくとも１つの画像を取得する（Ｓ３０）。次いで、画像処理装置１００は、Ｍ（Ｍは２以上の整数）個の人体各々から検出されたキーポイントの特徴量を統合する手法を指定するユーザ入力を受付ける（Ｓ３１）。

　次いで、画像処理装置１００は、取得した少なく１つの画像に含まれるＭ個の人体各々からＮ個のキーポイントを検出する処理を行う（Ｓ３２）。各人体からは、Ｎ個すべてのキーポイントが検出される場合もあれば、Ｎ個のキーポイントの一部のみが検出される場合もある。

　次いで、画像処理装置１００は、人体毎に、検出されたキーポイントの特徴量を算出する（Ｓ３３）。次いで、画像処理装置１００は、Ｓ３１で指定された手法で、Ｍ個の人体各々から検出されたキーポイントの特徴量を統合して、Ｎ個のキーポイント各々の統合特徴量を算出する（Ｓ３４）。次いで、画像処理装置１００は、Ｓ３４で算出された統合特徴量に基づき画像検索又は画像分類を行う（Ｓ３５）。

　本実施形態の画像処理装置１００のその他の構成は、第１の実施形態と同様である。

　本実施形態の画像処理装置１００によれば、第１の実施形態と同様の作用効果が実現される。また、ユーザが統合の仕方を指定できるので、ユーザが望む統合特徴量を算出できるようになる。

＜第３の実施形態＞
　本実施形態の画像処理装置１００は、統合特徴量が算出されているキーポイントと、統合特徴量が算出されてないキーポイントとを識別する情報を出力する機能を有する。以下、詳細に説明する。

　図２５に、本実施形態の画像処理装置１００の機能ブロック図の一例を示す。図示する画像処理装置１００は、骨格構造検出部１０１と、特徴量算出部１０２と、処理部１０３と、記憶部１０４と、表示部１０５とを有する。

　図２６に、本実施形態の画像処理装置１００の機能ブロック図の他の一例を示す。図示する画像処理装置１００は、骨格構造検出部１０１と、特徴量算出部１０２と、処理部１０３と、記憶部１０４と、表示部１０５と、入力部１０６とを有する。

　なお、画像処理装置１００は、記憶部１０４を有さなくてもよい。この場合、外部装置が記憶部１０４を備える。そして、記憶部１０４は、画像処理装置１００からアクセス可能に構成される。

　表示部１０５は、ユーザが指定したＭ個の人体のいずれからも検出されず、統合特徴量が算出されていないキーポイントと、Ｍ個の人体の少なくとも１つから検出され、統合特徴量が算出されたキーポイントとを識別する情報を表示する。

　例えば、表示部１０５は、図２７に示すように、Ｎ個のキーポイント各々に対応するＮ個のオブジェクトＲを人体の対応する骨格位置に配置した人体モデルを表示し、統合特徴量が算出されていないキーポイントに対応するオブジェクトと、Ｍ個の人体の少なくとも１つから検出され、統合特徴量が算出されたキーポイントに対応するオブジェクトを識別可能に表示してもよい。識別可能に表示する手法は、図２７に示すようにオブジェクトを塗りつぶすか否かで実現してもよいが、これに限定されない。その他の手法として、例えば、オブジェクトの色を異ならせる、オブジェクトの形を異ならせる、統合特徴量が算出されているキーポイント又は統合特徴量が算出されていないキーポイントに対応するオブジェクトを点滅等で強調表示する等が例示される。

　なお、表示部１０５は、ユーザが指定したＭ個の人体各々に紐付けて、各々から検出されたキーポイントと、検出されなかったキーポイントとを識別する情報をさらに表示してもよい。すなわち、表示部１０５は、キーポイントが検出された部位と、キーポイントが検出されなかった部位とを識別する情報をさらに表示してもよい。当該表示は、図２７を用いて説明した手法と同様の手法で実現できる。

　本実施形態の画像処理装置１００のその他の構成は、第１及び第２の実施形態と同様である。

　本実施形態の画像処理装置１００によれば、第１及び第２の実施形態と同様の作用効果が実現される。また、本実施形態の画像処理装置１００によれば、ユーザは、表示部１０５により表示された情報に基づき、指定したＭ個の人体でＮ個のキーポイントの中のいずれがカバーされているかを、容易に把握できる。また、図２７のような画像を用いることで、ユーザは直感的に上記内容を把握できる。結果、ユーザは、Ｎ個全てのキーポイントの統合特徴量を生成するためにどのような人体を追加すべきかを把握できる。

　以上、図面を参照して本発明の実施形態について述べたが、これらは本発明の例示であり、上記以外の様々な構成を採用することもできる。上述した実施形態の構成は、互いに組み合わせたり、一部の構成を他の構成に入れ替えたりしてもよい。また、上述した実施形態の構成は、趣旨を逸脱しない範囲内において種々の変更を加えてもよい。また、上述した各実施形態や変形例に開示される構成や処理を互いに組み合わせてもよい。

　また、上述の説明で用いた複数のフローチャートでは、複数の工程（処理）が順番に記載されているが、各実施の形態で実行される工程の実行順序は、その記載の順番に制限されない。各実施の形態では、図示される工程の順番を内容的に支障のない範囲で変更することができる。また、上述の各実施の形態は、内容が相反しない範囲で組み合わせることができる。

　上記の実施の形態の一部または全部は、以下の付記のようにも記載されうるが、以下に限られない。
１．　画像に含まれる人体の複数の部位各々に対応する複数のキーポイントを検出する処理を行う骨格構造検出手段と、
　検出された前記キーポイント各々の特徴量を算出する特徴量算出手段と、
　前記部位ごとに複数の人体各々から検出された前記特徴量を統合して、前記部位ごとの統合特徴量を算出し、前記統合特徴量に基づき画像検索又は画像分類を行う処理手段と、
を有し、
　前記処理手段は、
　　複数の前記人体の中の一部から前記複数の部位のうち第１の部位に対応する前記キーポイントが検出されておらず、複数の前記人体の中の他の一部から前記第１の部位に対応する前記キーポイントが検出されている場合、前記他の一部から検出された前記第１の部位に対応する前記キーポイントの前記特徴量に基づき、前記第１の部位の前記統合特徴量を算出する画像処理装置。
２．　前記処理手段は、
　　複数の前記人体の中の１つから前記第１の部位に対応する前記キーポイントが検出されている場合、前記１つの人体から検出された前記第１の部位に対応する前記キーポイントの前記特徴量を、前記第１の部位の前記統合特徴量とする１に記載の画像処理装置。
３．　前記処理手段は、
　　複数の前記人体の中の複数から前記第１の部位に対応する前記キーポイントが検出されている場合、複数の前記人体から検出された前記第１の部位に対応する前記キーポイントの前記特徴量の統計値を、前記第１の部位の前記統合特徴量とする１又は２に記載の画像処理装置。
４．　前記処理手段は、
　　複数の前記人体の中の複数から前記第１の部位に対応する前記キーポイントが検出されている場合、複数の前記人体から検出された前記第１の部位に対応する前記キーポイントの前記特徴量の中の確信度が最も高い前記特徴量を、前記第１の部位の前記統合特徴量とする１又は２に記載の画像処理装置。
５．　前記処理手段は、
　　複数の前記人体の中の複数から前記第１の部位に対応する前記キーポイントが検出されている場合、複数の前記人体各々から検出された前記第１の部位に対応する前記キーポイントの前記特徴量の確信度に応じた前記第１の部位に対応する前記キーポイントの前記特徴量の重み付け平均値を、前記第１の部位の前記統合特徴量とする１又は２に記載の画像処理装置。
６．　複数の前記人体のいずれからも前記キーポイントが検出されず、前記統合特徴量が算出されていない前記部位と、複数の前記人体の少なくとも１つから前記キーポイントが検出され、前記統合特徴量が算出された前記部位とを識別する情報を表示する表示手段をさらに有する１から５のいずれかに記載の画像処理装置。
７．　前記表示手段は、
　　複数のオブジェクトを人体の前記部位に配置した人体モデルを表示するとともに、前記統合特徴量が算出された前記部位に対応する前記オブジェクトと、前記統合特徴量が算出されていない前記部位に対応する前記オブジェクトとを互いに識別可能に表示する６に記載の画像処理装置。
８．　前記表示手段は、
　　複数の前記人体各々に紐付けて、前記キーポイントが検出された前記部位と、前記キーポイントが検出されなかった前記部位とを識別する情報をさらに表示する６又は７に記載の画像処理装置。
９．　コンピュータが、
　　画像に含まれる人体の複数の部位各々に対応する複数のキーポイントを検出する処理を行う骨格構造検出工程と、
　　検出された前記キーポイント各々の特徴量を算出する特徴量算出工程と、
　　前記部位ごとに複数の人体各々から検出された前記特徴量を統合して、前記部位ごとの統合特徴量を算出し、前記統合特徴量に基づき画像検索又は画像分類を行う処理工程と、
を実行し、
　前記処理工程では、
　　複数の前記人体の中の一部から前記複数の部位のうち第１の部位に対応する前記キーポイントが検出されておらず、複数の前記人体の中の他の一部から前記第１の部位に対応する前記キーポイントが検出されている場合、前記他の一部から検出された前記第１の部位に対応する前記キーポイントの前記特徴量に基づき、前記第１の部位の前記統合特徴量を算出する画像処理方法。
１０．　コンピュータを、
　　画像に含まれる人体の複数の部位各々に対応する複数のキーポイントを検出する処理を行う骨格構造検出手段、
　　検出された前記キーポイント各々の特徴量を算出する特徴量算出手段、
　　前記部位ごとに複数の人体各々から検出された前記特徴量を統合して、前記部位ごとの統合特徴量を算出し、前記統合特徴量に基づき画像検索又は画像分類を行う処理手段、
として機能させ、
　前記処理手段は、
　　複数の前記人体の中の一部から前記複数の部位のうち第１の部位に対応する前記キーポイントが検出されておらず、複数の前記人体の中の他の一部から前記第１の部位に対応する前記キーポイントが検出されている場合、前記他の一部から検出された前記第１の部位に対応する前記キーポイントの前記特徴量に基づき、前記第１の部位の前記統合特徴量を算出するプログラム。

　１００　　画像処理装置
　１０１　　骨格構造検出部
　１０２　　特徴量算出部
　１０３　　処理部
　１０４　　記憶部
　１０５　　表示部
　１０６　　入力部
　１Ａ　　プロセッサ
　２Ａ　　メモリ
　３Ａ　　入出力Ｉ／Ｆ
　４Ａ　　周辺回路
　５Ａ　　バス

Claims

　画像に含まれる人体の複数の部位各々に対応する複数のキーポイントを検出する処理を行う骨格構造検出手段と、
　検出された前記キーポイント各々の特徴量を算出する特徴量算出手段と、
　前記部位ごとに複数の人体各々から検出された前記特徴量を統合して、前記部位ごとの統合特徴量を算出し、前記統合特徴量に基づき画像検索又は画像分類を行う処理手段と、
を有し、
　前記処理手段は、
　　複数の前記人体の中の一部から前記複数の部位のうち第１の部位に対応する前記キーポイントが検出されておらず、複数の前記人体の中の他の一部から前記第１の部位に対応する前記キーポイントが検出されている場合、前記他の一部から検出された前記第１の部位に対応する前記キーポイントの前記特徴量に基づき、前記第１の部位の前記統合特徴量を算出する画像処理装置。
　前記処理手段は、
　　複数の前記人体の中の１つから前記第１の部位に対応する前記キーポイントが検出されている場合、前記１つの人体から検出された前記第１の部位に対応する前記キーポイントの前記特徴量を、前記第１の部位の前記統合特徴量とする請求項１に記載の画像処理装置。
　前記処理手段は、
　　複数の前記人体の中の複数から前記第１の部位に対応する前記キーポイントが検出されている場合、複数の前記人体から検出された前記第１の部位に対応する前記キーポイントの前記特徴量の統計値を、前記第１の部位の前記統合特徴量とする請求項１又は２に記載の画像処理装置。
　前記処理手段は、
　　複数の前記人体の中の複数から前記第１の部位に対応する前記キーポイントが検出されている場合、複数の前記人体から検出された前記第１の部位に対応する前記キーポイントの前記特徴量の中の確信度が最も高い前記特徴量を、前記第１の部位の前記統合特徴量とする請求項１又は２に記載の画像処理装置。
　前記処理手段は、
　　複数の前記人体の中の複数から前記第１の部位に対応する前記キーポイントが検出されている場合、複数の前記人体各々から検出された前記第１の部位に対応する前記キーポイントの前記特徴量の確信度に応じた前記第１の部位に対応する前記キーポイントの前記特徴量の重み付け平均値を、前記第１の部位の前記統合特徴量とする請求項１又は２に記載の画像処理装置。
　複数の前記人体のいずれからも前記キーポイントが検出されず、前記統合特徴量が算出されていない前記部位と、複数の前記人体の少なくとも１つから前記キーポイントが検出され、前記統合特徴量が算出された前記部位とを識別する情報を表示する表示手段をさらに有する請求項１から５のいずれか１項に記載の画像処理装置。
　前記表示手段は、
　　複数のオブジェクトを人体の前記部位に配置した人体モデルを表示するとともに、前記統合特徴量が算出された前記部位に対応する前記オブジェクトと、前記統合特徴量が算出されていない前記部位に対応する前記オブジェクトとを互いに識別可能に表示する請求項６に記載の画像処理装置。
　前記表示手段は、
　　複数の前記人体各々に紐付けて、前記キーポイントが検出された前記部位と、前記キーポイントが検出されなかった前記部位とを識別する情報をさらに表示する請求項６又は７に記載の画像処理装置。
　コンピュータが、
　　画像に含まれる人体の複数の部位各々に対応する複数のキーポイントを検出する処理を行う骨格構造検出工程と、
　　検出された前記キーポイント各々の特徴量を算出する特徴量算出工程と、
　　前記部位ごとに複数の人体各々から検出された前記特徴量を統合して、前記部位ごとの統合特徴量を算出し、前記統合特徴量に基づき画像検索又は画像分類を行う処理工程と、
を実行し、
　前記処理工程では、
　　複数の前記人体の中の一部から前記複数の部位のうち第１の部位に対応する前記キーポイントが検出されておらず、複数の前記人体の中の他の一部から前記第１の部位に対応する前記キーポイントが検出されている場合、前記他の一部から検出された前記第１の部位に対応する前記キーポイントの前記特徴量に基づき、前記第１の部位の前記統合特徴量を算出する画像処理方法。
　コンピュータを、
　　画像に含まれる人体の複数の部位各々に対応する複数のキーポイントを検出する処理を行う骨格構造検出手段、
　　検出された前記キーポイント各々の特徴量を算出する特徴量算出手段、
　　前記部位ごとに複数の人体各々から検出された前記特徴量を統合して、前記部位ごとの統合特徴量を算出し、前記統合特徴量に基づき画像検索又は画像分類を行う処理手段、
として機能させ、
　前記処理手段は、
　　複数の前記人体の中の一部から前記複数の部位のうち第１の部位に対応する前記キーポイントが検出されておらず、複数の前記人体の中の他の一部から前記第１の部位に対応する前記キーポイントが検出されている場合、前記他の一部から検出された前記第１の部位に対応する前記キーポイントの前記特徴量に基づき、前記第１の部位の前記統合特徴量を算出するプログラム。