WO2023089690A1

WO2023089690A1 - 検索装置、検索方法、およびプログラム

Info

Publication number: WO2023089690A1
Application number: PCT/JP2021/042224
Authority: WO
Inventors: 登吉田
Original assignee: 日本電気株式会社
Priority date: 2021-11-17
Filing date: 2021-11-17
Publication date: 2023-05-25

Abstract

本発明の検索装置（１０）は、クエリ動画の中から複数のキーフレームを抽出するキーフレーム抽出部（１１）と、複数のキーフレーム各々に含まれる人体の姿勢、及び複数のキーフレーム間の時間間隔に基づき、クエリ動画に類似する動画を検索する検索部（１２）と、を有する。

Description

検索装置、検索方法、およびプログラム

　本発明は、検索装置、検索方法、およびプログラムに関する。

　本発明に関連する技術が特許文献１及び非特許文献１に開示されている。特許文献１には、画像に含まれる人体の複数のキーポイント各々の特徴量を算出し、算出した特徴量に基づき、クエリで示される人体の姿勢と似た姿勢の人体を含む静止画を検索したり、クエリで示される人体の動きと似た動きをする人体を含む動画を検索したりする技術が開示されている。また、非特許文献１には、人物の骨格推定に関連する技術が開示されている。

国際公開第２０２１／０８４６７７号

Zhe Cao, Tomas Simon, Shih-En Wei, Yaser Sheikh, "Realtime Multi-Person 2D Pose Estimation using Part Affinity Fields", The IEEE Conference on Computer Vision and Pattern Recognition (CVPR), 2017, P. 7291-7299

　本発明は、クエリで示される人体の動きと似た動きをする人体を含む動画の検索精度を向上させることを課題とする。

　本発明によれば、
　クエリ動画の中から複数のキーフレームを抽出するキーフレーム抽出手段と、
　複数の前記キーフレーム各々に含まれる人体の姿勢、及び複数の前記キーフレーム間の時間間隔に基づき、前記クエリ動画に類似する動画を検索する検索手段と、
を有する検索装置が提供される。

　また、本発明によれば、
　コンピュータが、
　　クエリ動画の中から複数のキーフレームを抽出するキーフレーム抽出工程と、
　　複数の前記キーフレーム各々に含まれる人体の姿勢、及び複数の前記キーフレーム間の時間間隔に基づき、前記クエリ動画に類似する動画を検索する検索工程と、
を実行する検索方法が提供される。

　また、本発明によれば、
　コンピュータを、
　　クエリ動画の中から複数のキーフレームを抽出するキーフレーム抽出手段、
　　複数の前記キーフレーム各々に含まれる人体の姿勢、及び複数の前記キーフレーム間の時間間隔に基づき、前記クエリ動画に類似する動画を検索する検索手段、
として機能させるプログラムが提供される。

　本発明によれば、クエリで示される人体の動きと似た動きをする人体を含む動画の検索精度が向上する。

　上述した目的、およびその他の目的、特徴および利点は、以下に述べる公的な実施の形態、およびそれに付随する以下の図面によってさらに明らかになる。

本実施形態のキーフレームを抽出する処理を説明するための図である。本実施形態の検索装置のハードウエア構成の一例を示す図である。本実施形態の検索装置の機能ブロック図の一例を示す図である。本実施形態のキーフレームを抽出する処理を説明するための図である。本実施形態の対応フレーム、複数のキーフレーム間の時間間隔及び複数の対応フレーム間の時間間隔を説明するための図である。本実施形態の検索装置の処理の流れの一例を示すフローチャートである。本実施形態の検索装置の機能ブロック図の一例を示す図である。本実施形態の検索装置により検出される人体モデルの骨格構造の一例を示す図である。本実施形態の検索装置により検出された人体モデルの骨格構造の一例を示す図である。本実施形態の検索装置により検出された人体モデルの骨格構造の一例を示す図である。本実施形態の検索装置により検出された人体モデルの骨格構造の一例を示す図である。本実施形態の検索装置により算出されたキーポイントの特徴量の一例を示す図である。本実施形態の検索装置により算出されたキーポイントの特徴量の一例を示す図である。本実施形態の検索装置により算出されたキーポイントの特徴量の一例を示す図である。本実施形態の検索装置の処理の流れの一例を示すフローチャートである。本実施形態の検索装置の処理の流れの一例を示すフローチャートである。本実施形態の人体の姿勢の類似度の重み、及びキーフレーム間の時間間隔と対応フレーム間の時間間隔との類似度の重みをユーザが指定する手法の一例を説明するための図である。本実施形態の人体の姿勢の類似度の重み、及びキーフレーム間の時間間隔と対応フレーム間の時間間隔との類似度の重みをユーザが指定する手法の一例を説明するための図である。

　以下、本発明の実施の形態について、図面を用いて説明する。尚、すべての図面において、同様な構成要素には同様の符号を付し、適宜説明を省略する。

＜第１の実施形態＞
「概要」
　本実施形態の検索装置は、図１に示すように、クエリ動画の中から複数のキーフレームを抽出した後、複数のキーフレーム各々に含まれる人体の姿勢、及び複数のキーフレーム間の時間間隔に基づき、クエリ動画で示される人体の動き（人体の姿勢の時間変化）と似た動きをする人体を含む動画を検索する。

　このように、本実施形態の検索装置は、複数のキーフレーム各々に含まれる人体の姿勢、及び複数のキーフレーム間の時間間隔という２つの要素に基づき、動画を検索するという特徴を有する。

「ハードウエア構成」
　次に、検索装置のハードウエア構成の一例を説明する。検索装置の各機能部は、任意のコンピュータのＣＰＵ（Central Processing Unit）、メモリ、メモリにロードされるプログラム、そのプログラムを格納するハードディスク等の記憶ユニット（あらかじめ装置を出荷する段階から格納されているプログラムのほか、ＣＤ（Compact Disc）等の記憶媒体やインターネット上のサーバ等からダウンロードされたプログラムをも格納できる）、ネットワーク接続用インターフェイスを中心にハードウエアとソフトウエアの任意の組合せによって実現される。そして、その実現方法、装置にはいろいろな変形例があることは、当業者には理解されるところである。

　図２は、検索装置のハードウエア構成を例示するブロック図である。図２に示すように、検索装置は、プロセッサ１Ａ、メモリ２Ａ、入出力インターフェイス３Ａ、周辺回路４Ａ、バス５Ａを有する。周辺回路４Ａには、様々なモジュールが含まれる。検索装置は周辺回路４Ａを有さなくてもよい。なお、検索装置は物理的及び／又は論理的に分かれた複数の装置で構成されてもよい。この場合、複数の装置各々が上記ハードウエア構成を備えることができる。

　バス５Ａは、プロセッサ１Ａ、メモリ２Ａ、周辺回路４Ａ及び入出力インターフェイス３Ａが相互にデータを送受信するためのデータ伝送路である。プロセッサ１Ａは、例えばＣＰＵ、ＧＰＵ（Graphics Processing Unit）などの演算処理装置である。メモリ２Ａは、例えばＲＡＭ（Random Access Memory）やＲＯＭ（Read Only Memory）などのメモリである。入出力インターフェイス３Ａは、入力装置、外部装置、外部サーバ、外部センサ、カメラ等から情報を取得するためのインターフェイスや、出力装置、外部装置、外部サーバ等に情報を出力するためのインターフェイスなどを含む。入力装置は、例えばキーボード、マウス、マイク、物理ボタン、タッチパネル等である。出力装置は、例えばディスプレイ、スピーカ、プリンター、メーラ等である。プロセッサ１Ａは、各モジュールに指令を出し、それらの演算結果をもとに演算を行うことができる。

「機能構成」
　図３に、本実施形態の検索装置１０の機能ブロック図の一例を示す。図示する検索装置１０は、キーフレーム抽出部１１と、検索部１２とを有する。

　キーフレーム抽出部１１は、クエリ動画の中から複数のキーフレームを抽出する。

　「クエリ動画」は、検索クエリとなる動画である。検索装置１０は、クエリ動画で示される人体の動きと似た動きをする人体を含む動画を検索する。１つの動画ファイルがクエリ動画として指定されてもよいし、１つの動画ファイルの中の一部のシーンがクエリ動画として指定されてもよい。例えばユーザがクエリ動画を指定する。クエリ動画の指定は、あらゆる技術を利用して実現できる。

　「キーフレーム」は、クエリ動画に含まれる複数のフレームの中の一部のフレームである。キーフレーム抽出部１１は、図１及び図４に示すように、クエリ動画に含まれる時系列な複数のフレームの中から、間欠的に、キーフレームを抽出することができる。キーフレーム間の時間間隔（フレームの数）は一定であってもよいし、バラバラであってもよい。キーフレーム抽出部１１は、例えば以下の抽出処理１乃至３のいずれかを実行することができる。

－抽出処理１－
　抽出処理１では、キーフレーム抽出部１１は、ユーザ入力に基づきキーフレームを抽出する。すなわち、ユーザが、クエリ動画に含まれる複数のフレームの中の一部をキーフレームとして指定する入力を行う。そして、キーフレーム抽出部１１は、ユーザにより指定されたフレームをキーフレームとして抽出する。

－抽出処理２－
　抽出処理２では、キーフレーム抽出部１１は、予め定められた規則に従ってキーフレームを抽出する。

　具体的には、キーフレーム抽出部１１は、図１に示すように、クエリ動画に含まれる複数のフレームの中から所定の一定間隔で複数のキーフレームを抽出する。すなわち、キーフレーム抽出部１１は、Ｍフレームおきに、キーフレームを抽出する。Ｍは整数であり、例えば２以上１０以下が例示されるが、これに限定されない。Ｍは予め定められていてもよいし、ユーザが選択できてもよい。

－抽出処理３－
　抽出処理３では、キーフレーム抽出部１１は、予め定められた規則に従ってキーフレームを抽出する。

　具体的には、キーフレーム抽出部１１は、図４に示すように、１つのキーフレームを抽出した後（例えば、一番初めのフレーム）、そのキーフレームと、時系列順がそのキーフレーム以降のフレーム各々との間の類似度を算出する。類似度は、各フレームに含まれる人体の姿勢の類似度である。姿勢の類似度の算出の手法は特段制限されないが、以下の実施形態で一例を説明する。そして、キーフレーム抽出部１１は、類似度が基準値（設計的事項）以下であり、かつ時系列順が最も早いフレームを、新たなキーフレームとして抽出する。

　次いで、キーフレーム抽出部１１は、新たに抽出したキーフレームと、時系列順がそのキーフレーム以降のフレーム各々との間の類似度を算出する。そして、キーフレーム抽出部１１は、類似度が基準値（設計的事項）以下であり、かつ時系列順が最も早いフレームを、新たなキーフレームとして抽出する。キーフレーム抽出部１１は、当該処理を繰り返して、複数のキーフレームを抽出する。この処理によれば、隣り合うキーフレームに含まれる人体の姿勢は、互いにある程度異なる。従って、キーフレームが増加することを抑制しつつ、人体の特徴的な姿勢を示した複数のキーフレームを抽出することができる。上記基準値は予め定められていてもよいし、ユーザが選択できてもよいし、その他の手段で設定されてもよい。

　図３に戻り、検索部１２は、キーフレーム抽出部１１により抽出された複数のキーフレーム各々に含まれる人体の姿勢、及び複数のキーフレーム間の時間間隔に基づき、クエリ動画に類似する動画を検索する。検索部１２による動画の検索は、１つの動画ファイルの中からクエリ動画に類似するシーンを検索することであってもよいし、複数の動画ファイルの中からクエリ動画に類似するシーンを含む動画ファイルを検索することであってもよいし、その他であってもよい。

　検索部１２は、具体的には、以下の条件１及び２を満たす動画を、クエリ動画に類似する動画として検索する。なお、検索部１２は、以下の条件１及び２に加えて、以下の条件３をさらに満たす動画を検索してもよい。

（条件１）複数のキーフレーム各々に対応した複数の対応フレームを含む。
（条件２）複数の対応フレーム間の時間間隔が複数のキーフレーム間の時間間隔と所定レベル以上似ている。
（条件３）クエリ動画内における複数のキーフレームの出現順と、動画内における複数の対応フレームの出現順とが一致する。

　以下、各条件について説明する

－（条件１）複数のキーフレーム各々に対応した複数の対応フレームを含む－
　対応フレームは、キーフレームに含まれる人体の姿勢と所定レベル以上似た姿勢の人体を含むフレームである。姿勢の類似度の算出の手法は特段制限されないが、以下の実施形態で一例を説明する。クエリ動画からＱ（Ｑは２以上の整数）個のキーフレームが抽出された場合、Ｑ個のキーフレーム各々に対応するＱ個の対応フレームを含む動画が、条件１を満たすこととなる。

　図５では、１０個のフレームで構成されたクエリ動画が示されている。そして、図中、星マークがついた１番目、４番目、６番目、８番目及び１０番目のフレームが、キーフレームとして抽出されている。以下、複数のキーフレームの中の時系列順がＮ番目のキーフレームを、「第Ｎのキーフレーム」と呼ぶ。Ｎは１以上の整数である。図５の例の場合、１番目のフレームを第１のキーフレームと呼び、４番目のフレームを第２のキーフレームと呼び、６番目のフレームを第３のキーフレームと呼び、８番目のフレームを第４のキーフレームと呼び、１０番目のフレームを第５のキーフレームと呼ぶ。

　図５の例では、第１乃至第５のキーフレーム各々に対応する５個の対応フレームを含む動画が、条件１を満たすこととなる。ちなみに、図５の処理対象の動画は、条件１を満たす動画である。処理対象の動画は、１２個のフレームで構成されている。図中、星マークがついた１番目、３番目、７番目、８番目及び１２番目のフレームが、対応フレームとして特定されている。以下、第Ｎのキーフレームに対応する対応フレームを、「第Ｎの対応フレーム」と呼ぶ。処理対象の動画の１番目のフレームが第１の対応フレームであり、３番目のフレームが第２の対応フレームであり、７番目のフレームが第３の対応フレームであり、８番目のフレームが第４の対応フレームであり、１２番目のフレームが第５の対応フレームである。

－（条件２）複数の対応フレーム間の時間間隔が複数のキーフレーム間の時間間隔と所定レベル以上似ている－
　まず、図５を用いて、「複数の対応フレーム間の時間間隔」及び「複数のキーフレーム間の時間間隔」の概念を説明する。

　複数の対応フレーム間の時間間隔は、図示する例の場合、第１乃至第５の対応フレーム間の時間間隔である。

　例えば、複数の対応フレーム間の時間間隔は、時間的に隣接する対応フレーム間の時間間隔を含む概念であってもよい。図５の例の場合、時間的に隣接する対応フレーム間の時間間隔は、第１及び第２の対応フレーム間の時間間隔、第２及び第３の対応フレーム間の時間間隔、第３及び第４の対応フレーム間の時間間隔、及び第４及び第５の対応フレーム間の時間間隔である。

　その他、複数の対応フレーム間の時間間隔は、時間的に最初と最後の対応フレーム間の時間間隔を含む概念であってもよい。図５の例の場合、時間的に最初と最後の対応フレーム間の時間間隔は、第１及び第５の対応フレーム間の時間間隔である。

　その他、複数の対応フレーム間の時間間隔は、任意の手法で決定した基準の対応フレームと、その他の対応フレーム各々との間の時間間隔を含む概念であってもよい。図５の例の場合、例えば第１の対応フレームを基準の対応フレームとすると、基準の対応フレームとその他の対応フレーム各々との間の時間間隔は、第１及び第２の対応フレーム間の時間間隔、第１及び第３の対応フレーム間の時間間隔、第１及び第４の対応フレーム間の時間間隔、及び第１及び第５の対応フレーム間の時間間隔である。なお、基準の対応フレームは、１つであってもよいし、複数であってもよい。

　「複数の対応フレーム間の時間間隔」は、上述した複数種類の時間間隔の中のいずれか１つであってもよいし、複数を含んでもよい。予め、上述した複数種類の時間間隔の中のいずれを複数の対応フレーム間の時間間隔とするか、定義されている。図５の例の場合、第１及び第２の対応フレーム間の時間間隔、第２及び第３の対応フレーム間の時間間隔、第３及び第４の対応フレーム間の時間間隔、第４及び第５の対応フレーム間の時間間隔（以上、時間的に隣接する対応フレーム間の時間間隔）、第１及び第５の対応フレーム間の時間間隔（以上、時間的に最初と最後の対応フレーム間の時間間隔）、第１及び第２の対応フレーム間の時間間隔、第１及び第３の対応フレーム間の時間間隔、第１及び第４の対応フレーム間の時間間隔、第１及び第５の対応フレーム間の時間間隔（以上、基準の対応フレームとその他の対応フレーム各々との間の時間間隔の一例）の中のいずれか１つ又は複数が、複数の対応フレーム間の時間間隔となる。

　複数のキーフレーム間の時間間隔の概念は、上述した複数の対応フレーム間の時間間隔の概念と同様である。

　なお、２つのフレーム間の時間間隔は、その２つのフレーム間のフレーム数で示されてもよいし、その２つのフレーム間のフレーム数とフレームレートに基づき算出された２つのフレーム間の経過時間で示されてもよい。

　次に、「複数の対応フレーム間の時間間隔が複数のキーフレーム間の時間間隔と所定レベル以上似ている」の概念について説明する。ここでは、複数の対応フレーム間の時間間隔及び複数のキーフレーム間の時間間隔が、上述した複数種類の時間間隔の中の１つである場合と、複数である場合とに分けて説明する。

（複数の対応フレーム間の時間間隔及び複数のキーフレーム間の時間間隔が、１種類の時間間隔である場合）
　この場合、複数の対応フレーム間の１種類の時間間隔及び複数のキーフレーム間の１種類の時間間隔の相違が閾値以下である状態を、複数の対応フレーム間の時間間隔が複数のキーフレーム間の時間間隔と所定レベル以上似ている状態と定義する。閾値は設計的事項であり、予め設定される。「時間間隔の相違」は、差や変化率である。

　一例として、時間的に最初と最後の対応フレーム間の時間間隔と、時間的に最初と最後の対応フレーム間の時間間隔との相違が閾値以下である状態を、複数の対応フレーム間の時間間隔が複数のキーフレーム間の時間間隔と所定レベル以上似ている状態と定義する例が考えられる。なお、ここでは「複数の対応フレーム間の時間間隔」を「時間的に最初と最後の対応フレーム間の時間間隔」と定義し、「複数のキーフレーム間の時間間隔」を「時間的に最初と最後のキーフレーム間の時間間隔」と定義したが、あくまで一例であり、これに限定されない。

（複数の対応フレーム間の時間間隔及び複数のキーフレーム間の時間間隔が、複数種類の時間間隔を含む場合）
　この場合、複数種類の時間間隔毎に、対応フレーム間の時間間隔及び複数のキーフレーム間の時間間隔の相違が閾値以下であるか判断する。閾値は設計的事項であり、各種時間間隔毎に予め設定される。そして、複数種類の時間間隔の中の所定割合以上において当該相違が閾値以下である状態を、複数の対応フレーム間の時間間隔が複数のキーフレーム間の時間間隔と所定レベル以上似ている状態と定義する。

－（条件３）クエリ動画内における複数のキーフレームの出現順と、動画内における複数の対応フレームの出現順とが一致する－
　条件３は、クエリ動画から抽出された第１乃至第Ｑのキーフレームと、各々に対応する第１乃至第Ｑの対応フレームの動画内における出願順が一致していることである。第１乃至第Ｑの対応フレームがこの順に現れる動画は当該条件を満たし、第１乃至第Ｑの対応フレームがこの順に現れない動画は当該条件を満たさない。

　次に、図６のフローチャートを用いて、検索装置１０の処理の流れの一例を説明する。

　まず、処理装置１０は、クエリ動画の中から複数のキーフレームを抽出する（Ｓ１０）。その後、処理装置１０は、抽出した複数のキーフレーム各々に含まれる人体の姿勢、及び抽出した複数のキーフレーム間の時間間隔に基づき、クエリ動画に類似する動画を検索する（Ｓ１１）。

「作用効果」
　本実施形態の検索装置１０は、図１に示すように、クエリ動画の中から複数のキーフレームを抽出した後、複数のキーフレーム各々に含まれる人体の姿勢、及び複数のキーフレーム間の時間間隔に基づき、クエリ動画で示される人体の動き（人体の姿勢の時間変化）と似た動きをする人体を含む動画を検索する。

　具体的には、検索装置１０は、複数のキーフレーム各々に対応した複数の対応フレームを含み、かつ、複数の対応フレーム間の時間間隔が複数のキーフレーム間の時間間隔と似ている動画を検索する。対応フレームは、キーフレームに含まれる人体の姿勢と似た姿勢の人体を含むフレームである。

　このような検索装置１０によれば、クエリ動画で示される人体の複数の姿勢各々と似た姿勢の人体が含まれており、かつ、その姿勢の変化の速さ（キーフレーム間の間隔）が似ている動画が検索されることとなる。例えば、図１に示すように、クエリ動画で右手を挙げる動きをする人体が示されている場合、右手を挙げる動きをする人体を含み、かつ、その右手を挙げる動きの速さがクエリ動画で示される速さと似ている動画が検索されることとなる。

　このような本実施形態の検索装置１０によれば、クエリ動画で示される人体の動きと似た動きをする人体を含む動画の検索精度が向上する。

＜第２の実施形態＞
　本実施形態の検索装置１０は、人体の姿勢の類似度の算出の手法が具体化される。図７に、本実施形態の検索装置１０の機能ブロック図の一例を示す。図示するように、検索装置１０は、キーフレーム抽出部１１と、骨格構造検出部１３と、特徴量算出部１４と、検索部１２とを有する。

　骨格構造検出部１３は、キーフレームに含まれる人体のＮ（Ｎは２以上の整数）個のキーポイントを検出する処理を行う。骨格構造検出部１３による当該処理は、特許文献１に開示されている技術を用いて実現される。詳細は省略するが、特許文献１に開示されている技術では、非特許文献１に開示されたＯｐｅｎＰｏｓｅ等の骨格推定技術を利用して骨格構造の検出を行う。当該技術で検出される骨格構造は、関節等の特徴的な点である「キーポイント」と、キーポイント間のリンクを示す「ボーン（ボーンリンク）」とから構成される。

　図８は、骨格構造検出部１３により検出される人体モデル３００の骨格構造を示しており、図９乃至図１１は、骨格構造の検出例を示している。骨格構造検出部１３は、ＯｐｅｎＰｏｓｅ等の骨格推定技術を用いて、２次元の画像から図８のような人体モデル（２次元骨格モデル）３００の骨格構造を検出する。人体モデル３００は、人物の関節等のキーポイントと、各キーポイントを結ぶボーンから構成された２次元モデルである。

　骨格構造検出部１０１は、例えば、画像の中からキーポイントとなり得る特徴点を抽出し、キーポイントの画像を機械学習した情報を参照して、人体のＮ個のキーポイントを検出する。検出するＮ個のキーポイントは予め定められる。検出するキーポイントの数（すなわち、Ｎの数）や、人体のどの部分を検出するキーポイントとするかは様々であり、あらゆるバリエーションを採用できる。

　図８の例では、人物のキーポイントとして、頭Ａ１、首Ａ２、右肩Ａ３１、左肩Ａ３２、右肘Ａ４１、左肘Ａ４２、右手Ａ５１、左手Ａ５２、右腰Ａ６１、左腰Ａ６２、右膝Ａ７１、左膝Ａ７２、右足Ａ８１、左足Ａ８２を検出する。さらに、これらのキーポイントを連結した人物の骨として、頭Ａ１と首Ａ２を結ぶボーンＢ１、首Ａ２と右肩Ａ３１及び左肩Ａ３２をそれぞれ結ぶボーンＢ２１及びボーンＢ２２、右肩Ａ３１及び左肩Ａ３２と右肘Ａ４１及び左肘Ａ４２をそれぞれ結ぶボーンＢ３１及びボーンＢ３２、右肘Ａ４１及び左肘Ａ４２と右手Ａ５１及び左手Ａ５２をそれぞれ結ぶボーンＢ４１及びボーンＢ４２、首Ａ２と右腰Ａ６１及び左腰Ａ６２をそれぞれ結ぶボーンＢ５１及びボーンＢ５２、右腰Ａ６１及び左腰Ａ６２と右膝Ａ７１及び左膝Ａ７２をそれぞれ結ぶボーンＢ６１及びボーンＢ６２、右膝Ａ７１及び左膝Ａ７２と右足Ａ８１及び左足Ａ８２をそれぞれ結ぶボーンＢ７１及びボーンＢ７２を検出する。

　図９は、直立した状態の人物を検出する例である。図９では、直立した人物が正面から撮像されており、正面から見たボーンＢ１、ボーンＢ５１及びボーンＢ５２、ボーンＢ６１及びボーンＢ６２、ボーンＢ７１及びボーンＢ７２がそれぞれ重ならずに検出され、右足のボーンＢ６１及びボーンＢ７１は左足のボーンＢ６２及びボーンＢ７２よりも多少折れ曲がっている。

　図１０は、しゃがみ込んでいる状態の人物を検出する例である。図１０では、しゃがみ込んでいる人物が右側から撮像されており、右側から見たボーンＢ１、ボーンＢ５１及びボーンＢ５２、ボーンＢ６１及びボーンＢ６２、ボーンＢ７１及びボーンＢ７２がそれぞれ検出され、右足のボーンＢ６１及びボーンＢ７１と左足のボーンＢ６２及びボーンＢ７２は大きく折れ曲がり、かつ、重なっている。

　図１１は、寝込んでいる状態の人物を検出する例である。図１１では、寝込んでいる人物が左斜め前から撮像されており、左斜め前から見たボーンＢ１、ボーンＢ５１及びボーンＢ５２、ボーンＢ６１及びボーンＢ６２、ボーンＢ７１及びボーンＢ７２がそれぞれ検出され、右足のボーンＢ６１及びボーンＢ７１と左足のボーンＢ６２及びボーンＢ７２は折れ曲がり、かつ、重なっている。

　図７に戻り、特徴量算出部１４は、検出された２次元の骨格構造の特徴量を算出する。例えば、特徴量算出部１４は、検出されたキーポイント各々の特徴量を算出する。

　骨格構造の特徴量は、人物の骨格の特徴を示しており、人物の骨格に基づいて人物の状態（姿勢や動き）を検索するための要素となる。通常、この特徴量は、複数のパラメータを含んでいる。そして特徴量は、骨格構造の全体の特徴量でもよいし、骨格構造の一部の特徴量でもよく、骨格構造の各部のように複数の特徴量を含んでもよい。特徴量の算出方法は、機械学習や正規化等の任意の方法でよく、正規化として最小値や最大値を求めてもよい。一例として、特徴量は、骨格構造を機械学習することで得られた特徴量や、骨格構造の頭部から足部までの画像上の大きさ、画像上の骨格構造を含む骨格領域の上下方向における複数のキーポイントの相対的な位置関係、当該骨格領域の左右方向における複数のキーポイントの相対的な位置関係等である。骨格構造の大きさは、画像上の骨格構造を含む骨格領域の上下方向の高さや面積等である。上下方向（高さ方向または縦方向）は、画像における上下の方向（Ｙ軸方向）であり、例えば、地面（基準面）に対し垂直な方向である。また、左右方向（横方向）は、画像における左右の方向（Ｘ軸方向）であり、例えば、地面に対し平行な方向である。

　なお、ユーザが望む検索を行うためには、検索処理に対しロバスト性を有する特徴量を用いることが好ましい。例えば、ユーザが、人物の向きや体型に依存しない検索を望む場合、人物の向きや体型にロバストな特徴量を使用してもよい。同じ姿勢で様々な方向に向いている人物の骨格や同じ姿勢で様々な体型の人物の骨格を学習することや、骨格の上下方向のみの特徴を抽出することで、人物の向きや体型に依存しない特徴量を得ることができる。

　特徴量算出部１４による上記処理は、特許文献１に開示されている技術を用いて実現される。

　図１２は、特徴量算出部１４が求めた複数のキーポイント各々の特徴量の例を示している。なお、ここで例示するキーポイントの特徴量はあくまで一例であり、これに限定されない。

　この例では、キーポイントの特徴量は、画像上の骨格構造を含む骨格領域の上下方向における複数のキーポイントの相対的な位置関係を示す。首のキーポイントＡ２を基準点とするため、キーポイントＡ２の特徴量は０．０となり、首と同じ高さの右肩のキーポイントＡ３１及び左肩のキーポイントＡ３２の特徴量も０．０である。首よりも高い頭のキーポイントＡ１の特徴量は－０．２である。首よりも低い右手のキーポイントＡ５１及び左手のキーポイントＡ５２の特徴量は０．４であり、右足のキーポイントＡ８１及び左足のキーポイントＡ８２の特徴量は０．９である。この状態から人物が左手を挙げると、図１３のように左手が基準点よりも高くなるため、左手のキーポイントＡ５２の特徴量は－０．４となる。一方で、Ｙ軸の座標のみを用いて正規化を行っているため、図１４のように、図７に比べて骨格構造の幅が変わっても特徴量は変わらない。すなわち、当該例の特徴量（正規化値）は、骨格構造（キーポイント）の高さ方向（Ｙ方向）の特徴を示しており、骨格構造の横方向（Ｘ方向）の変化に影響を受けない。

　検索部１２は、上述のようなキーポイントの特徴量に基づき人体の姿勢の類似度を算出し、算出結果に基づきクエリ動画に類似する動画を検索する。当該検索の手法としては、特許文献１に開示されている技術を採用することができる。

　本実施形態の検索装置１０のその他の構成は、第１の実施形態と同様である。

　以上、本実施形態の検索装置１０によれば、第１の実施形態と同様の作用効果が実現される。また、本実施形態の検索装置１０によれば、人体の２次元の骨格構造の特徴量に基づき、人体の姿勢を特定することができる。このような本実施形態の検索装置１０によれば、人体の姿勢を精度よく特定できる。結果、クエリ動画で示される人体の動きと似た動きをする人体を含む動画の検索精度が向上する。

＜第３の実施形態＞
　本実施形態では、検索部１２による処理の流れが具体化される。図１５のフローチャートは、本実施形態の検索部１２による処理の流れの一例を示す。

　Ｓ２０では、検索部１２は、Ｑ個のキーフレーム各々に対応するＱ個の対応フレームを含む動画を検索する。第Ｎのキーフレームに対応する第Ｎの対応フレームは、第Ｎのキーフレームに含まれる人体の姿勢との類似度が第１の閾値以上である姿勢の人体を含む。

　Ｓ２１では、検索部１２は、Ｓ２０で検索した動画の中から、複数の対応フレーム間の時間間隔と、複数のキーフレーム間の時間間隔との類似度が第２の閾値以上である動画を検索する。複数の対応フレーム間の時間間隔と、複数のキーフレーム間の時間間隔との類似度の算出手法は様々である。

　例えば、複数の対応フレーム間の時間間隔及び複数のキーフレーム間の時間間隔が、１種類の時間間隔である場合、まず、その時間間隔の相違を算出する。時間間隔の相違は、差や変化率である。この相違を、類似度としてもよい。その他、算出した相違を所定のルールで規格化した値を、類似度としてもよい。

　一方、複数の対応フレーム間の時間間隔及び複数のキーフレーム間の時間間隔が、複数種類の時間間隔を含む場合、まず、各種時間間隔毎に、その時間間隔の相違を算出する。時間間隔の相違は、差や変化率である。その後、各種時間間隔毎に算出した時間間隔の相違の統計値を算出する。統計値は、平均値、最大値、最小値、最頻値、中央値等が例示されるが、これらに限定されない。この統計値を、類似度としてもよい。その他、算出した統計値を所定のルールで規格化した値を、類似度としてもよい。

　「複数の対応フレーム間の時間間隔及び複数のキーフレーム間の時間間隔が、１種類の時間間隔である場合」及び「複数の対応フレーム間の時間間隔及び複数のキーフレーム間の時間間隔が、複数種類の時間間隔を含む場合」の概念は、第１の実施形態で説明した通りである。

　なお、Ｓ２０で参照される第１の閾値及びＳ２１で参照される第２の閾値は、予め設定されていてもよい。そして、検索部１２は、予め設定された第１の閾値及び第２の閾値に基づき上記検索処理を行ってもよい。

　その他、ユーザが、第１の閾値及び第２の閾値の少なくとも一方を指定できてもよい。そして、検索部１２は、ユーザ入力に基づき第１の閾値及び第２の閾値の少なくとも一方を決定し、決定した第１の閾値及び第２の閾値に基づき上記検索処理を行ってもよい。

　複数の対応フレーム間の時間間隔及び複数のキーフレーム間の時間間隔が、第１の実施形態で説明したように複数種類の時間間隔を含む場合、各種時間間隔毎に第２の閾値が設定される。

　本実施形態の検索装置１０のその他の構成は、第１及び第２の実施形態と同様である。

　本実施形態の検索装置１０によれば、第１及び第２の実施形態と同様の作用効果が実現される。また、本実施形態の検索装置１０によれば、動き（姿勢の変化）が類似するか否かの判定と、動きの速さ（姿勢の変化の速さ）が類似するか否かの判定を別々に複数段階に分けて行い、段階ごとに、類似すると判定する基準（第１の閾値及び第２の閾値）を設定することができる。結果、所望の基準で類似する動画の検索を行うことが可能となる。

＜第４の実施形態＞
　本実施形態では、検索部１２による処理の流れが具体化される。本実施形態の検索部１２による処理の流れは、第３の実施形態で説明したものと異なる。図１６のフローチャートは、本実施形態の検索部１２による処理の流れの一例を示す。

　Ｓ３０では、検索部１２は、Ｑ個のキーフレーム各々に対応するＱ個の対応フレームを含む動画を検索する。第Ｎのキーフレームに対応する第Ｎの対応フレームは、第Ｎのキーフレームに含まれる人体の姿勢との類似度が第１の閾値以上である姿勢の人体を含む。

　Ｓ３１では、検索部１２は、Ｓ３０で検索した動画毎に、複数の対応フレームに含まれる人体の姿勢と、複数のキーフレームに含まれる人体の姿勢との類似度（以下、「姿勢の類似度」と呼ぶ）を算出する。姿勢の類似度の算出手法は様々である。例えば、互いに対応する対応フレームとキーフレームとのペア毎に、各々に含まれる人体の姿勢の類似度を算出する。当該類似度の算出手法は、特許文献１に開示されている手法を採用できる。次に、ペア毎に算出した複数の類似度の統計値を算出する。統計値は、平均値、最大値、最小値、最頻値、中央値等が例示されるが、これらに限定されない。その後、算出した統計値を所定のルールで規格化した値を、姿勢の類似度として算出する。なお、ここで例示した姿勢の類似度の算出方法はあくまで一例であり、これに限定されない。

　Ｓ３２では、検索部１２は、Ｓ３０で検索した動画毎に、複数の対応フレーム間の時間間隔と、複数のキーフレーム間の時間間隔との類似度（以下、「時間間隔の類似度」と呼ぶ）を算出する。時間間隔の類似度の算出手法は様々である。

　例えば、複数の対応フレーム間の時間間隔及び複数のキーフレーム間の時間間隔が、１種類の時間間隔である場合、まず、その時間間隔の相違を算出する。時間間隔の相違は、差や変化率で定義される。その後、算出した相違を所定のルールで規格化した値を、類似度として算出する。

　一方、複数の対応フレーム間の時間間隔及び複数のキーフレーム間の時間間隔が、複数種類の時間間隔を含む場合、まず、各種時間間隔毎に、その時間間隔の相違を算出する。時間間隔の相違は、差や変化率で定義される。その後、各種時間間隔毎に算出した時間間隔の相違の統計値を算出する。統計値は、平均値、最大値、最小値、最頻値、中央値等が例示されるが、これらに限定されない。その後、算出した統計値を所定のルールで規格化した値を、時間間隔の類似度として算出する。

　Ｓ３３では、検索部１２は、Ｓ３０で検索した動画毎に、Ｓ３１で算出した姿勢の類似度と、Ｓ３２で算出した時間間隔の類似度とに基づき、統合類似度を算出する。

　例えば、検索部１２は、姿勢の類似度と時間間隔の類似度との和や積を、統合類似度として算出してもよい。

　その他、検索部１２は、姿勢の類似度と時間間隔の類似度との統計値を、統合類似度として算出してもよい。統計値は、平均値、最大値、最小値、最頻値、中央値等が例示されるが、これらに限定されない。

　その他、検索部１２は、姿勢の類似度と時間間隔の類似度との加重平均や加重和を、統合類似度として算出してもよい。

　Ｓ３４では、検索部１２は、Ｓ３０で検索した動画の中から、Ｓ３３で算出した統合類似度が第３の閾値以上である動画を検索する。

　なお、Ｓ３３で、姿勢の類似度と時間間隔の類似度との加重平均や加重和を、統合類似度として算出する場合、姿勢の類似度及び時間間隔の類似度各々の重みは、予め設定されていてもよいし、ユーザが指定できてもよい。ユーザが指定する場合、例えば、図１７や図１８に示すようなスライダー（ＵＩ（user interface）部品）を介して、ユーザによる指定を受付けてもよい。図１７に示すスライダーは、姿勢の類似度及び時間間隔の類似度各々毎に、重みを指定する構成となっている。図１８に示すスライダーは、姿勢の類似度と時間間隔の類似度の重要度の比率を指定する構成となっている。そして、指定された重要度の比率に基づき、各々の重みが算出される。なお、スライダーでのユーザ入力受付はあくまで一例であり、その他の手法でユーザ入力を受付けてもよい。

　また、Ｓ３０で参照される第１の閾値及びＳ３４で参照される第３の閾値は、予め設定されていてもよい。そして、検索部１２は、予め設定された第１の閾値及び第３の閾値に基づき上記検索処理を行ってもよい。

　その他、ユーザが、第１の閾値及び第３の閾値の少なくとも一方を指定できてもよい。そして、検索部１２は、ユーザ入力に基づき第１の閾値及び第３の閾値の少なくとも一方を決定し、決定した第１の閾値及び第３の閾値に基づき上記検索処理を行ってもよい。

　本実施形態の検索装置１０のその他の構成は、第１乃至第３の実施形態と同様である。

　本実施形態の検索装置１０によれば、第１乃至第３の実施形態と同様の作用効果が実現される。また、本実施形態の検索装置１０によれば、動きの類似度（姿勢の類似度）、及び動きの速さの類似度（時間間隔の類似度）を統合した統合類似度が基準を満たす動画を検索することができる。このような本実施形態の検索装置１０によれば、姿勢の類似度及び時間間隔の類似度の重みを調整し、所望の基準で、類似する動画の検索を行うことが可能となる。

＜第５の実施形態＞
　本実施形態の検索装置１０は、第１及び第２の検索モードを備える。そして、検索装置１０は、ユーザが指定した検索モードで、クエリ動画に類似する動画を検索する。第１の検索モードは、第３の実施形態で説明した手法で検索するモードである。第２の検索モードは、第４の実施形態で説明した手法で検索するモードである。

　本実施形態の検索装置１０のその他の構成は、第１乃至第４の実施形態と同様である。

　本実施形態の検索装置１０によれば、第１乃至第４の実施形態と同様の作用効果が実現される。また、本実施形態の検索装置１０によれば、複数の検索モードを備え、ユーザが指定したモードで検索を行うことができる。本実施形態の検索装置１０によれば、ユーザの選択の幅が広がり好ましい。

＜第６の実施形態＞
　本実施形態では、ユーザが、検索する動画の動画長の下限を検索条件として指定する。そして、検索装置１０は、第１乃至第５の実施形態が備える条件を満たし、さらに動画長が指定された下限以上である動画を、クエリ動画に類似する動画として検索する。この場合、動画長が、ユーザにより指定された下限未満である動画は検索されない。これにより、クエリ動画で示される人体の動きと似た動きをする人体を含むが、その動きの速さが所定レベルより速い動画（動画長が所定レベルより短い動画）は検索されなくなる。以下、詳細に説明する。

　検索部１２は、検索条件として、動画長の下限を指定するユーザ入力を受付ける。検索部１２は、クエリ動画の長さを基準として、動画長の下限を指定するユーザ入力を受付けてもよい。例えば、動画長の下限は、「クエリ動画の長さのＸ倍」のように指定されてもよい。この場合、検索部１２は、Ｘを指定するユーザ入力を受付ける。Ｘは、０より大１以下の数値である。

　その他、検索部１２は、動画長の下限を数値等で直接指定するユーザ入力を受付けてもよい。

　次に、動画長が上記検索条件を満たす動画を検索する手法を説明する。

－手法１－
　まず、検索部１２は、ユーザが指定した動画長の下限に基づき、クエリ動画から抽出するキーフレームの数の下限を決定する。検索部１２は、抽出したキーフレームで構成される動画の長さが、ユーザが指定した動画長の下限となるように、クエリ動画から抽出するキーフレームの数の下限を決定する。

　例えば、クエリ動画の動画長が「Ｐフレーム」であり、ユーザが指定した動画長の下限が「クエリ動画の動画長の０．５倍」である場合、検索部１２は、０．５×Ｐを、クエリ動画から抽出するキーフレームの数の下限として決定する。

　また、クエリ動画の動画長が「Ｒ秒」であり、ユーザが指定した動画長の下限が「クエリ動画の動画長の０．５倍」である場合、検索部１２は、０．５×Ｒ×Ｆ_１を、クエリ動画から抽出するキーフレームの数の下限として決定する。Ｆ_１はフレームレートである。

　そして、キーフレーム抽出部１１は、検索部１２が決定したキーフレームの数の下限以上のキーフレームを、クエリ動画から抽出する。

　例えば、第１の実施形態で説明した抽出処理１でキーフレームを抽出する場合、すなわちユーザが指定したフレームをキーフレームとして抽出する場合、「検索部１２が決定したキーフレームの数の下限以上をキーフレームとして指定すること」を、ユーザの指定処理を完了する条件としてもよい。すなわち、ユーザは、検索部１２が決定したキーフレームの数の下限以上をキーフレームとして指定しなければ、キーフレームを指定する処理を終了できない。

　その他、第１の実施形態で説明した抽出処理２でキーフレームを抽出する場合、すなわちＭフレームおきにキーフレームを抽出する場合、キーフレーム抽出部１１は、Ｍの値を調整することで、抽出されるキーフレームの数を調整できる。キーフレーム抽出部１１は、抽出されるキーフレームの数が、検索部１２が決定したキーフレームの数の下限以上となるように、Ｍの値を決定する。

　その他、第１の実施形態で説明した抽出処理３でキーフレームを抽出する場合、すなわち図４に示すように基準のキーフレームとの間の姿勢の類似度が基準値以下であり、かつ時系列順が最も早いフレームを新たなキーフレームとして順次抽出していく場合、キーフレーム抽出部１１は、この類似度の基準値を調整することで、抽出されるキーフレームの数を調整できる。キーフレーム抽出部１１は、抽出されるキーフレームの数が、検索部１２が決定したキーフレームの数の下限以上となるように、上記類似度の基準値を決定する。

　ところで、検索部１２は、抽出された複数のキーフレーム各々に対応する複数の対応フレームを有する動画を検索することとなる。抽出したキーフレームで構成される動画の長さが、ユーザが指定した動画長の下限となるように、クエリ動画から抽出するキーフレームの数の下限が決定された場合、必然的に、ユーザが指定した動画長の下限よりも短い動画は検索されなくなる。

－手法２－
　まず、検索部１２は、ユーザ入力に基づき、動画長の下限を特定する。動画長の下限が「クエリ動画の長さのＸ倍」のように指定される場合、検索部１２は、クエリ動画の長さと、ユーザが指定したＸとの積を、動画長の下限として特定する。その他、動画長の下限を数値等で直接指定される場合、検索部１２は、ユーザが指定した数値を、動画長の下限として特定する。

　そして、検索部１２は、時間的に最初の対応フレームと最後の対応フレームとの間の経過時間が、特定した動画長の下限以上である動画を、上記動画長の下限の検索条件を満たす動画として検索する。

　本実施形態の検索装置１０のその他の構成は、第１乃至第５の実施形態と同様である。

　本実施形態の検索装置１０によれば、第１乃至第５の実施形態と同様の作用効果が実現される。また、本実施形態の検索装置１０によれば、ユーザが、動画長、すなわちクエリ動画で示される動きを行う時間の下限を指定することができる。このような検索装置１００によれば、クエリ動画で示される人体の動きと似た動きをする人体を含むが、その動きの速さが所定レベルより速い動画（動画長が所定レベルより短い動画）は検索されなくなる。結果、ユーザが望む検索が可能となる。

　以上、図面を参照して本発明の実施形態について述べたが、これらは本発明の例示であり、上記以外の様々な構成を採用することもできる。上述した実施形態の構成は、互いに組み合わせたり、一部の構成を他の構成に入れ替えたりしてもよい。また、上述した実施形態の構成は、趣旨を逸脱しない範囲内において種々の変更を加えてもよい。また、上述した各実施形態や変形例に開示される構成や処理を互いに組み合わせてもよい。

　また、上述の説明で用いた複数のフローチャートでは、複数の工程（処理）が順番に記載されているが、各実施の形態で実行される工程の実行順序は、その記載の順番に制限されない。各実施の形態では、図示される工程の順番を内容的に支障のない範囲で変更することができる。また、上述の各実施の形態は、内容が相反しない範囲で組み合わせることができる。

　上記の実施の形態の一部または全部は、以下の付記のようにも記載されうるが、以下に限られない。
１．　クエリ動画の中から複数のキーフレームを抽出するキーフレーム抽出手段と、
　複数の前記キーフレーム各々に含まれる人体の姿勢、及び複数の前記キーフレーム間の時間間隔に基づき、前記クエリ動画に類似する動画を検索する検索手段と、
を有する検索装置。
２．　前記検索手段は、
　　複数の前記キーフレーム各々に含まれる人体の姿勢との類似度が第１の閾値以上である姿勢の人体を含む複数の対応フレームを含み、かつ、
　　複数の前記キーフレーム間の時間間隔と、複数の前記対応フレーム間の時間間隔との類似度が第２の閾値以上である動画を、前記クエリ動画に類似する動画として検索する第１の検索モードを有する１に記載の検索装置。
３．　前記検索手段は、ユーザ入力に基づき、前記第１の閾値及び前記第２の閾値の少なくとも一方を決定する２に記載の検索装置。
４．　前記検索手段は、
　　処理対象の動画毎に、
　　　複数の前記キーフレーム各々に対応する複数の対応フレームを特定し、
　　　複数の前記キーフレーム各々に含まれる人体の姿勢と複数の前記対応フレーム各々に含まれる人体の姿勢との類似度、及び前記キーフレーム間の時間間隔と前記対応フレーム間の時間間隔との類似度に基づき統合類似度を算出し、
　　　前記統合類似度が第３の閾値以上である前記処理対象の動画を、前記クエリ動画に類似する動画として検索する第２の検索モードを有す１から３のいずれかに記載の検索装置。
５．　前記キーフレーム間の時間間隔は、時間的に隣接する２つのキーフレーム間の時間間隔、及び時間的に最初と最後のキーフレーム間の時間間隔の少なくとも一方を含む４に記載の検索装置。
６．　前記検索手段は、
　　ユーザが指定した人体の姿勢の類似度の重み、及び前記キーフレーム間の時間間隔と前記対応フレーム間の時間間隔との類似度の重みに基づき、前記統合類似度を算出する４又は５に記載の検索装置。
７．　前記キーフレーム抽出手段は、
　　ユーザが検索条件として指定した動画長の下限に基づき決定された抽出する前記キーフレームの下限以上の前記キーフレームを抽出する１から６のいずれかに記載の検索装置。
８．　前記キーフレーム抽出手段は、
　　抽出した複数の前記キーフレームで構成される動画の長さが、ユーザが指定した動画長の下限以上となるように、抽出する前記キーフレームの数を決定する７に記載の検索装置。
９．　コンピュータが、
　　クエリ動画の中から複数のキーフレームを抽出するキーフレーム抽出工程と、
　　複数の前記キーフレーム各々に含まれる人体の姿勢、及び複数の前記キーフレーム間の時間間隔に基づき、前記クエリ動画に類似する動画を検索する検索工程と、
を実行する検索方法。
１０．　コンピュータを、
　　クエリ動画の中から複数のキーフレームを抽出するキーフレーム抽出手段、
　　複数の前記キーフレーム各々に含まれる人体の姿勢、及び複数の前記キーフレーム間の時間間隔に基づき、前記クエリ動画に類似する動画を検索する検索手段、
として機能させるプログラム。

　１０　　検索装置
　１１　　キーフレーム抽出部
　１２　　検索部
　１３　　骨格構造検出部
　１４　　特徴量算出部
　１Ａ　　プロセッサ
　２Ａ　　メモリ
　３Ａ　　入出力Ｉ／Ｆ
　４Ａ　　周辺回路
　５Ａ　　バス

Claims

　クエリ動画の中から複数のキーフレームを抽出するキーフレーム抽出手段と、
　複数の前記キーフレーム各々に含まれる人体の姿勢、及び複数の前記キーフレーム間の時間間隔に基づき、前記クエリ動画に類似する動画を検索する検索手段と、
を有する検索装置。
　前記検索手段は、
　　複数の前記キーフレーム各々に含まれる人体の姿勢との類似度が第１の閾値以上である姿勢の人体を含む複数の対応フレームを含み、かつ、
　　複数の前記キーフレーム間の時間間隔と、複数の前記対応フレーム間の時間間隔との類似度が第２の閾値以上である動画を、前記クエリ動画に類似する動画として検索する第１の検索モードを有する請求項１に記載の検索装置。
　前記検索手段は、ユーザ入力に基づき、前記第１の閾値及び前記第２の閾値の少なくとも一方を決定する請求項２に記載の検索装置。
　前記検索手段は、
　　処理対象の動画毎に、
　　　複数の前記キーフレーム各々に対応する複数の対応フレームを特定し、
　　　複数の前記キーフレーム各々に含まれる人体の姿勢と複数の前記対応フレーム各々に含まれる人体の姿勢との類似度、及び前記キーフレーム間の時間間隔と前記対応フレーム間の時間間隔との類似度に基づき統合類似度を算出し、
　　　前記統合類似度が第３の閾値以上である前記処理対象の動画を、前記クエリ動画に類似する動画として検索する第２の検索モードを有す請求項１から３のいずれか１項に記載の検索装置。
　前記キーフレーム間の時間間隔は、時間的に隣接する２つのキーフレーム間の時間間隔、及び時間的に最初と最後のキーフレーム間の時間間隔の少なくとも一方を含む請求項４に記載の検索装置。
　前記検索手段は、
　　ユーザが指定した人体の姿勢の類似度の重み、及び前記キーフレーム間の時間間隔と前記対応フレーム間の時間間隔との類似度の重みに基づき、前記統合類似度を算出する請求項４又は５に記載の検索装置。
　前記キーフレーム抽出手段は、
　　ユーザが検索条件として指定した動画長の下限に基づき決定された抽出する前記キーフレームの下限以上の前記キーフレームを抽出する請求項１から６のいずれか１項に記載の検索装置。
　前記キーフレーム抽出手段は、
　　抽出した複数の前記キーフレームで構成される動画の長さが、ユーザが指定した動画長の下限以上となるように、抽出する前記キーフレームの数を決定する請求項７に記載の検索装置。
　コンピュータが、
　　クエリ動画の中から複数のキーフレームを抽出するキーフレーム抽出工程と、
　　複数の前記キーフレーム各々に含まれる人体の姿勢、及び複数の前記キーフレーム間の時間間隔に基づき、前記クエリ動画に類似する動画を検索する検索工程と、
を実行する検索方法。
　コンピュータを、
　　クエリ動画の中から複数のキーフレームを抽出するキーフレーム抽出手段、
　　複数の前記キーフレーム各々に含まれる人体の姿勢、及び複数の前記キーフレーム間の時間間隔に基づき、前記クエリ動画に類似する動画を検索する検索手段、
として機能させるプログラム。