JPWO2018011870A1

JPWO2018011870A1 - 動画像処理装置、動画像処理方法及び動画像処理プログラム

Info

Publication number: JPWO2018011870A1
Application number: JP2018527274A
Authority: JP
Inventors: 尚吾清水; 宏一中島; 崇西辻; 勝大草野
Original assignee: Mitsubishi Electric Corp
Current assignee: Mitsubishi Electric Corp
Priority date: 2016-07-11
Filing date: 2016-07-11
Publication date: 2018-10-25
Anticipated expiration: 2036-07-11
Also published as: JP6419393B2; WO2018011870A1; CN109478319A; US20190220670A1; DE112016006940T5

Abstract

取得部（１０６）は、クエリ動画像の特徴量の集合であるクエリ特徴量（３０）と、候補動画像の特徴量の集合である特徴量レコード（４０）とを取得する。類似度マップ生成部（１０７）は、クエリ特徴量（３０）と特徴量レコード（４０）との比較を行い、候補動画像のフレームごとにクエリ特徴量（３０）と特徴量レコード（４０）との類似度を算出して類似度が時系列に並べられた類似度列を生成し、候補動画像のフレームごとの類似度列が候補動画像のフレームの順に並べられた類似度マップを生成する。

Description

本発明は、動画像処理技術に関する。

従来、動画像から抽出した動きベクトルから算出した特徴量から、動画像中の特定のシーンを検索する技術として、例えば特許文献１に示す技術がある。特許文献１では、動画像中の特定範囲における動きベクトルの角度別ヒストグラムに基づき、例えば、テニスの試合画像からサーブを打つシーンを検索する技術が示されている。

特開２０１３−１６４６６７号公報

ところが特許文献１に示す技術は、特徴量の比較過程において時間長の相違があった場合に類似シーンを抽出することができないという課題がある。例えば、人が５秒間で画面を横切るシーンに類似するシーンを動画像から抽出する場合に、１０秒間で画面を横切るシーンが動画像に含まれていても、特許文献１の技術によれば、時間長が異なるため、１０秒間で画面を横切るシーンを類似シーンとして抽出することができない。
また、特許文献１に示す技術は、特徴量に部分的な不一致の連続があった場合に類似シーンを抽出できないという課題がある。例えば、人が停止することなく画面を横切るシーンに類似するシーンを動画像から抽出する場合に、人が途中で数秒間停止して画面を横切るシーンが動画像に含まれていても、特許文献１の技術によれば、特徴量に部分的な不統一の連続があるため、人が途中で数秒間停止して画面を横切るシーンを類似シーンとして抽出することができない。
特許文献１の上記の課題は、人間の周期動作を繰り返し検出するような適用例を考えた場合に、特許文献１の技術が被写体の体調変化や周囲の環境変動によって生じる動作の乱れに対応できないことを意味する。人間の周期動作が、全周期に渡って完全には一致し得ないことを考えれば、この課題への対応は、動画像の類似シーン抽出には必須である。

本発明は、上記の課題を解決することを主な目的とする。より具体的には、本発明は、比較対象の動作の時間長の相違及び比較対象の動作の間に特徴量の部分的な不一致の連続があっても類似シーンを抽出できるようにすることを主な目的とする。

本発明に係る動画像処理装置は、
複数のフレームで構成される第１の動画像の各フレームに対して生成された特徴量である第１の特徴量が前記第１の動画像のフレームの順に並べられた第１の特徴量列と、前記第１の動画像よりも多い複数のフレームで構成される第２の動画像の各フレームに対して生成された特徴量である第２の特徴量が前記第２の動画像のフレームの順に並べられた第２の特徴量列とを取得する取得部と、
前記第１の特徴量列と前記第２の特徴量列との比較を、前記第１の特徴量列との比較の対象となる前記第２の動画像の比較対象範囲を前記第２の動画像のフレームの順に移動させながら行い、前記第２の動画像のフレームごとに前記第１の特徴量列内の前記第１の特徴量と比較対象範囲の前記第２の特徴量列内の前記第２の特徴量との類似度を算出して前記類似度が時系列に並べられた類似度列を生成し、前記第２の動画像のフレームごとの類似度列が前記第２の動画像のフレームの順に並べられた類似度マップを生成する類似度マップ生成部とを有する。

本発明により得られる類似度マップを解析することで、比較対象の動作の時間長の相違及び比較対象の動作の間に特徴量の部分的な不一致の連続があっても類似シーンを抽出することができる。

実施の形態１及び２に係る動画像処理装置の機能構成例を示す図。実施の形態１及び２に係る動画像処理装置のハードウェア構成例を示す図。実施の形態１に係る動画像処理装置の動作例を示すフローチャート図。実施の形態２に係る動画像処理装置の動作例を示すフローチャート図。実施の形態２に係る類似度マップの生成例を示す図。実施の形態２に係る類似度マップ上の最適パスの例を示す図。実施の形態２に係る類似度マップ上の最適パスの例を示す図。実施の形態２に係る類似区間推定手法の例を示す図。実施の形態２に係る類似度マップの例を示す図。実施の形態２に係る類似度マップ上の最適パスの例を示す図。実施の形態２に係る類似度マップ上の最適パスの例を示す図。

以下、本発明の実施の形態について、図を用いて説明する。以下の実施の形態の説明及び図面において、同一の符号を付したものは、同一の部分または相当する部分を示す。

実施の形態１．
本実施の形態では、動画像から抽出した動きベクトルの角度別ヒストグラムを特徴量として生成する構成を説明する。
＊＊＊構成の説明＊＊＊
図１は、実施の形態１及び２に係る動画像処理装置１０の機能構成例を示す。
また、図２は実施の形態１及び２に係る動画像処理装置１０のハードウェア構成例を示す。
なお、動画像処理装置１０で行われる動作は、動画像処理方法に相当する。

まず、図２を参照して、動画像処理装置１０のハードウェア構成例を説明する。
図２に示すように、動画像処理装置１０は、入力インタフェース２０１、プロセッサ２０２、出力インタフェース２０３及び記憶装置２０４を備えるコンピュータである。

入力インタフェース２０１は、例えば、図１に示す動画像動き情報２０及びクエリ特徴量３０を取得する。入力インタフェース２０１は、例えば、マウス、キーボード等の入力装置である。また、動画像処理装置１０が通信により動画像動き情報２０及びクエリ特徴量３０を取得する場合は、入力インタフェース２０１は通信装置である。また、動画像処理装置１０が動画像動き情報２０及びクエリ特徴量３０をファイルとして取得する場合は、ＨＤＤ（ＨａｒｄＤｉｓｋＤｒｉｖｅ）とのインタフェース装置である。

プロセッサ２０２は、図１に示す特徴量抽出部１１、特徴量比較部１２及び入力数カウンタ１０４を実現する。つまり、プロセッサ２０２は、特徴量抽出部１１、特徴量比較部１２及び入力数カウンタ１０４の機能を実現するプログラムを実行する。
図２は、プロセッサ２０２が特徴量抽出部１１、特徴量比較部１２及び入力数カウンタ１０４の機能を実現するプログラムを実行している状態を模式的に示している。
なお、特徴量抽出部１１、特徴量比較部１２及び入力数カウンタ１０４の機能を実現するプログラムは、動画像処理プログラムの例である。
プロセッサ２０２は、プロセッシングを行うＩＣ（ＩｎｔｅｇｒａｔｅｄＣｉｒｃｕｉｔ）であり、ＣＰＵ（ＣｅｎｔｒａｌＰｒｏｃｅｓｓｉｎｇＵｎｉｔ）、ＤＳＰ（ＤｉｇｉｔａｌＳｉｇｎａｌＰｒｏｃｅｓｓｏｒ）等である。

記憶装置２０４は、特徴量抽出部１１、特徴量比較部１２及び入力数カウンタ１０４の機能を実現するプログラムを記憶している。
記憶装置２０４は、ＲＡＭ（ＲａｎｄｏｍＡｃｃｅｓｓＭｅｍｏｒｙ）、ＲＯＭ（ＲｅａｄＯｎｌｙＭｅｍｏｒｙ）、フラッシュメモリ、ＨＤＤ等である。

出力インタフェース２０３は、プロセッサ２０２の解析結果を出力する。出力インタフェース２０３は、例えばディスプレイである。また、動画像処理装置１０がプロセッサ２０２の解析結果を送信する場合は、出力インタフェース２０３は通信装置である。また、動画像処理装置１０がプロセッサ２０２の解析結果をファイルとして出力する場合は、出力インタフェース２０３はＨＤＤとのインタフェース装置である。

次に、図１を参照して、動画像処理装置１０の機能構成例を説明する。
なお、本実施の形態では、動画像動き情報２０、特徴量抽出部１１及び入力数カウンタ１０４についてのみ説明し、クエリ特徴量３０、特徴量レコード４０、特徴量比較部１２及び類似区間情報５０は実施の形態２で説明する。

動画像動き情報２０は、動画像から抽出された動きベクトルが示される情報である。

特徴量抽出部１１は、フィルタ１０１、偏角算出部１０２、ヒストグラム生成部１０３及び平滑化処理部１０５で構成される。

フィルタ１０１は、入力インタフェース２０１を介して取得された動画像動き情報２０から既定の条件に合致する動画像動き情報２０を選別する。そして、フィルタ１０１は、選別した動画像動き情報２０を偏角算出部１０２に出力する。

偏角算出部１０２は、動画像に含まれるフレームごとに、フィルタ１０１から取得した動画像動き情報２０の動きベクトルの偏角成分を算出する。そして、偏角算出部１０２は、算出結果をヒストグラム生成部１０３に出力する。
なお、偏角算出部１０２で行われる処理は、偏角算出処理に相当する。

ヒストグラム生成部１０３は、偏偏角算出部１０２の偏角成分の算出結果を用いて、フレームごとに偏角成分のヒストグラムデータを生成する。また、ヒストグラム生成部１０３は、入力数カウンタ１０４から処理開始通知が出力された際に、平滑化処理部１０５にヒストグラムデータの完成を通知する。
なお、ヒストグラム生成部１０３で行われる処理は、ヒストグラム生成処理に相当する。

入力数カウンタ１０４は、入力インタフェース２０１が取得する動画像動き情報２０を計数する。そして、入力数カウンタ１０４は、動画像１フレーム分の動画像動き情報２０が入力された場合に、ヒストグラム生成部１０３へ処理開始通知を出力する。

平滑化処理部１０５は、ヒストグラムデータを取得し、取得したヒストグラムデータに対する平滑処理を行って特徴量を生成する。
そして、平滑化処理部１０５は、生成した特徴量を特徴量レコード４０として記憶装置２０４に格納する。特徴量レコード４０の詳細は、実施の形態２で説明する。

＊＊＊動作の説明＊＊＊
次に、図３のフローチャートを参照して本実施の形態に係る動画像処理装置１０の動作例を説明する。

フィルタ１０１は、デジタルカメラやネットワークカメラ等で撮影された動画像から抽出された動きベクトルが示される動画像動き情報２０を、入力インタフェース２０１を介して取得する（ステップＳＴ３０１）。
フィルタ１０１が取得する動画像動き情報２０には、例えば、ＭＰＥＧ（ＭｏｖｉｎｇＰｉｃｔｕｒｅＥｘｐｅｒｔＧｒｏｕｐ）等で規定される符号化動きベクトルのように、近接する動画像フレーム間の輝度勾配等から画素ブロック単位で計算される動きベクトルが示される。

次に、フィルタ１０１は、取得した動画像動き情報２０に示される動きベクトルが既定の条件を満たしているか否かを判定する（ステップＳＴ３０２）。フィルタ１０１は、条件を満たす動きベクトルの動画像動き情報２０を偏角算出部１０２に出力する。
フィルタ１０１が用いる条件は、例えば、動きベクトルのノルムの上限値の条件及び下限の条件である。

偏角算出部１０２は、フィルタ１０１から出力された動画像動き情報２０の動きベクトルの偏角成分を算出する（ステップＳＴ３０３）。
そして、偏角算出部１０２は、算出結果をヒストグラム生成部１０３に出力する。

ヒストグラム生成部１０３は、偏角算出部１０２からの偏角成分の算出結果の取得頻度を、角度別にカウントしてヒストグラムデータを生成する（ステップＳＴ３０４）。そして、ヒストグラム生成部１０３はヒストグラムデータを記憶装置２０４に蓄積する。

入力数カウンタ１０４は、入力インタフェース２０１が取得する動画像動き情報２０を計数し、動画像１フレーム分の動画像動き情報２０が入力された際に、ヒストグラム生成部１０３へ処理開始通知を出力する（ステップＳＴ３０５）。

ヒストグラム生成部１０３は入力数カウンタ１０４からの処理開始通知をトリガに、平滑化処理部１０５にヒストグラムデータの完成を通知する。

平滑化処理部１０５は、ヒストグラム生成部１０３からヒストグラムデータの完成が通知されると、記憶装置２０４からヒストグラムデータを取得し、取得したヒストグラムデータに対する平滑化処理を行う（ステップＳＴ３０６）。
平滑化処理部１０５は、例えば、取得したヒストグラムデータに先行する任意数の連続するフレームに対してヒストグラム生成部１０３により生成されたヒストグラムデータを用いた平滑化処理を行って、特徴量を生成する。
より具体的には、平滑化処理部１０５は、特徴量を生成するフレーム（記憶装置２０４から取得したヒストグラムデータに対応するフレーム）と任意数の先行するフレームの各々との時間的距離に応じた重み付けを任意数の先行するフレームのヒストグラムデータの各々に適用して平滑化処理を行う。

最後に、平滑化処理部１０５が、平滑処理後のデータ（特徴量）を特徴量レコード４０として記憶装置２０４に格納する（ステップＳＴ３０７）。

＊＊＊実施の形態の効果の説明＊＊＊
特許文献１の技術では、比較対象の動作にスケール差があると、類似シーンを抽出できないという課題がある。
本実施の形態では、動きベクトルの偏角成分のみでヒストグラムを生成して特徴量を得ているので、比較対象の動作にスケール差がある場合でも類似シーンを抽出することができる。

実施の形態２．
本実施の形態では、２つ以上の動画像から抽出した特徴量の比較から類似度を算出し、高い類似度が最も連続する区間を、例えば動的計画法などの、時間長の相違、あるいは部分的な不一致の連続を考慮したマッチング手法によって推定することで、動画像の類似区間を抽出する構成を説明する。

＊＊＊構成の説明＊＊＊
本実施の形態では、図１に示すクエリ特徴量３０、特徴量レコード４０、特徴量比較部１２及び類似区間情報５０を説明する。

クエリ特徴量３０は、特徴量列である。より具体的には、クエリ特徴量３０は、複数のフレームで構成されるクエリ動画像の各フレームに対して生成された特徴量がクエリ動画像のフレームの順に並べられた特徴量列である。
クエリ動画像は、検索対象の動きが表されている動画像である。
例えば、クエリ動画像が３００枚のフレームで構成されている場合は、クエリ特徴量３０には、３００個の特徴量がフレームの順に並べられている。
クエリ特徴量３０を構成する各特徴量は、実施の形態１で説明した生成方法と同様の方法で生成された特徴量（平準化処理後のヒストグラムデータ）である。
クエリ動画像は第１の動画像に相当する。クエリ特徴量３０は第１の特徴量列に相当する。更に、クエリ動画像の各フレームの特徴量は第１の特徴量に相当する。

特徴量レコード４０も特徴量列である。特徴量レコード４０は、候補動画像の各フレームに対して生成された特徴量（平準化処理後のヒストグラムデータ）が候補動画像のフレームの順に並べられた特徴量列である。
候補動画像は、クエリ動画像で表される動きと同じ動き又は類似する動きが含まれる可能性がある動画像である。候補動画像は、クエリ動画像よりも多い複数のフレームで構成される。
例えば、候補動画像が３０００枚のフレームで構成されている場合は、特徴量レコード４０には、３０００個の特徴量がフレームの順に並べられている。
特徴量レコード４０は、実施の形態１で説明した特徴量抽出部１１により生成される。
候補動画像は第２の動画像に相当する。特徴量レコード４０は第２の特徴量列に相当する。更に、特徴量レコード４０の各フレームの特徴量は第２の特徴量に相当する。

特徴量比較部１２は、取得部１０６、類似度マップ生成部１０７及び区間抽出部１０８で構成される。

取得部１０６は、クエリ特徴量３０を入力インタフェース２０１を介して取得する。また、取得部１０６は、記憶装置２０４から特徴量レコード４０を取得する。そして、取得部１０６は、取得したクエリ特徴量３０と特徴量レコード４０を類似度マップ生成部１０７に出力する。
取得部１０６で行われる処理は、取得処理に対応する。

類似度マップ生成部１０７は、クエリ特徴量３０と特徴量レコード４０とを比較する。より具体的には、類似度マップ生成部１０７は、クエリ特徴量３０との比較の対象となる候補動画像の比較対象範囲を候補動画像のフレームの順に移動させながらクエリ特徴量３０と特徴量レコード４０との比較を行う。
そして、類似度マップ生成部１０７は、候補動画像のフレームごとにクエリ特徴量３０内の特徴量と比較対象範囲の特徴量レコード４０内の特徴量との類似度を算出して類似度が時系列に並べられた類似度列を生成する。
更に、類似度マップ生成部１０７は、候補動画像のフレームごとの類似度列を候補動画像のフレームの順に並べて類似度マップを生成する。つまり、類似度マップは、候補動画像のフレームごとの類似度列が候補動画像のフレームの順に並べられている二次元の類似度情報である。
類似度マップ生成部１０７で行われる処理は、類似度マップ生成処理に相当する。

区間抽出部１０８は、類似度マップを解析し、クエリ動画像で表されている動きと同じ動き又は類似する動きが表されている候補動画像のフレームの区間である類似区間を抽出する。類似区間は対応区間に相当する。

類似区間情報５０は、区間抽出部１０８が抽出した類似区間が示される情報である。

図５は、類似度マップの例を示す。
図５では、フレーム数Ｌ_ｑのクエリ特徴量Ｓ_ｑに対して、フレーム数Ｌ_ｒ（０≦Ｌ_ｑ≦Ｌ_ｒ）の特徴量レコードＳ_ｒとの類似度マップを生成する手順を示す。
類似度マップ生成部１０７は、特徴量レコードＳ_ｒのフレームの順に、フレームごとに、比較対象範囲（Ｌ_ｑ個のフレーム）の始点フレームをシフトさせ、比較対象範囲の各フレームの特徴量とクエリ特徴量Ｓ_ｑの対応する位置にあるフレームの特徴量とを比較して、フレームの単位で類似度を算出する。
つまり、類似度マップ生成部１０７は、特徴量レコードＳ_ｒの０番目のフレームＬ_０からの比較対象範囲（フレームＬ_０〜Ｌ_ｑ−１）に対する比較では、特徴量レコードＳ_ｒのフレームＬ_０とクエリ特徴量Ｓ_ｑの０番目のフレームＬ_ｏとの比較を行って、類似度を算出する。次に、類似度マップ生成部１０７は、特徴量レコードＳ_ｒの１番目のフレームＬ_１とクエリ特徴量Ｓ_ｑの１番目のフレームＬ_１との比較を行って、類似度を算出する。フレームＬ_２以降についても類似度マップ生成部１０７は同様の比較を行う。
特徴量レコードＳ_ｒのフレームＬ_ｑ−１とクエリ特徴量Ｓ_ｑのフレームＬ_ｑ−１との比較が終わると、類似度マップ生成部１０７は、特徴量レコードＳ_ｒの１番目のフレームＬ_１からの比較対象範囲（フレームＬ_１〜Ｌ_ｑ）に対する比較を行う。特徴量レコードＳ_ｒの１番目のフレームＬ_１からの比較対象範囲（フレームＬ_１〜Ｌ_ｑ）に対する比較では、特徴量レコードＳ_ｒのフレームＬ_１とクエリ特徴量Ｓ_ｑの０番目のフレームＬ_ｏとの比較を行って、類似度を算出する。次に、類似度マップ生成部１０７は、特徴量レコードＳ_ｒのフレームＬ_２とクエリ特徴量Ｓ_ｑの１番目のフレームＬ_１との比較を行って、類似度を算出する。フレームＬ_２以降についても類似度マップ生成部１０７は同様の比較を行う。
特徴量レコードＳ_ｒのフレームＬ_ｑとクエリ特徴量Ｓ_ｑのフレームＬ_ｑ−１との比較が終わると、類似度マップ生成部１０７は、特徴量レコードＳ_ｒの２番目のフレームＬ_２からの比較対象範囲（フレームＬ_２〜Ｌ_ｑ＋１）に対する比較を行う。以降、類似度マップ生成部１０７は、同様の処理をフレームＬ_ｒ−ｑに至るまで繰り返す。以上の処理により得られた各比較対象範囲での類似度列を特徴量レコードＳ_ｒのフレームの順に配列することで類似度マップが得られる。

クエリ特徴量Ｓ_ｑの時間軸をｔ_ｑ（０≦ｔ_ｑ＜Ｌ_ｑ）、特徴量レコードＳ_ｒの時間軸をｔ_ｒ（０≦ｔ_ｒ＜Ｌ_ｒ）とし、特徴量の次元をＮとすると、クエリ特徴量Ｓ_ｑと特徴量レコードＳ_ｒの類似度Ｓｉｍは、各時間軸の関数として、次式で表せる。

ここで、関数ｆは特徴量の各次元における類似度を求める関数であり、例えば、コサイン類似度などが適用できる。また、類似度にはノイズ軽減、あるいは強調を目的としたフィルタを適用することができる。例えば、近傍数フレームの類似度に重みをつけて積算し、指数関数フィルタを適用することで、類似度のコントラスト強調ができる。
以上より、類似度マップ生成部１０７は、２つ以上の特徴量に対する類似度を計算し、類似度マップを生成し、生成した類似度マップを記憶装置２０４に格納する。更に、類似度マップ生成部１０７は、区間抽出部１０８へ類似度マップの生成を通知する。

なお、図５の例では、類似度マップ生成部１０７は、画像イメージデータの類似度マップを生成しているが、図９に示すように、類似度マップ生成部１０７が数値データの類似度マップを生成するようにしてもよい。
図９では、破線で囲んでいる数値の列が、特徴量レコードＳ_ｒのｎ番目のフレームＬ_ｎからの比較対象範囲（フレームＬ_ｎ〜Ｌ_{ｎ＋ｑ−１}）とクエリ特徴量Ｓ_ｑのフレームＬ_０〜Ｌ_ｑ−１との類似度列を示す。なお、図９の例では、類似度は０．０〜１．０の値としている。また、図９に示す、Ｌ_ｎ、Ｌ_ｎ＋１、Ｌ_ｎ＋２等は説明用に付したものであり、実際の類似度マップには含まれていない。

＊＊＊動作の説明＊＊＊
次に、本実施の形態に係る動画像処理装置１０の動作例を図４を参照して説明する。

まず、取得部１０６がクエリ特徴量３０と特徴量レコード４０を取得する（ステップＳＴ４０１）。前述したように、取得部１０６は、クエリ特徴量３０を入力インタフェース２０１を介して取得し、記憶装置２０４から特徴量レコード４０を取得する。そして、取得部１０６は、取得したクエリ特徴量３０と特徴量レコード４０を類似度マップ生成部１０７に出力する。

次に、類似度マップ生成部１０７が、特徴量レコード４０、クエリ特徴量３０の参照フレーム位置をそれぞれの開始点ｔ_ｒ＝０、ｔ_ｑ＝０に設定する（ステップＳＴ４０１、ステップＳＴ４０２）。

次に、類似度マップ生成部１０７は、特徴量レコード４０の参照位置を固定し、クエリ特徴量３０の参照位置を１フレームずつ移動させながら、式（１）にしたがって各時点における類似度を算出し、算出した類似度を記憶装置２０４に保存する（ステップＳＴ４０３、ステップＳＴ４０４）。

クエリ特徴量３０の参照位置が末尾に達した場合（ステップＳＴ４０５でＹＥＳ）は、類似度マップ生成部１０７は、特徴量レコード４０の参照位置を正方向に隣接するフレームに移行し（ステップＳＴ４０６）、ステップＳＴ４０２〜ＳＴ４０５の処理を繰り返す。

特徴量レコード４０の参照位置が末尾に達した場合（ステップＳＴ４０７でＹＥＳ）は、類似度マップ生成部１０７は、処理完了を区間抽出部１０８に通知する。

区間抽出部１０８は、類似度マップ生成部１０７からの通知を取得し、記憶装置２０４から類似度マップを読み出し、類似度マップから最適パスを抽出する（ステップＳＴ４０８）。
より具体的には、区間抽出部１０８は、類似度マップから、特徴量レコード４０の各フレームから既定範囲ｗ内で、最も類似度が高いパスを最適パスとして抽出する。
図５の類似度マップでは、類似度の高低が画像の明暗と対応して表現されている。図５の類似度マップを用いる場合は、区間抽出部１０８は、特徴量レコード４０の各フレームから既定範囲ｗ内で明度の高い箇所が類似度マップの上部から右下方向に直線状に伸びている箇所を検出することによって最適パスを抽出する。すなわち区間抽出部１０８は、類似度マップにおいて、特徴量レコード４０の各フレームから既定範囲ｗ内で最も高い類似度の積算値を持つパスを選択する。

区間抽出部１０８の最適パスの抽出手順を図１０及び図１１を用いて説明する。
図１０では、フレームＬ_ｎについての最適パスの抽出手順を示している。
図１１では、フレームＬ_ｎ＋３についての最適パスの抽出手順を示している。
なお、図１０及び図１１では、既定範囲ｗ＝７としている。つまり、図１０では、区間抽出部１０８はフレームＬ_ｎと当該フレームＬ_ｎに後続する７つのフレームとの範囲（Ｌ_ｎ〜Ｌ_ｎ＋７）で最適パスを抽出する。また、図１１では、区間抽出部１０８はフレームＬ_ｎ＋３と当該フレームＬ_ｎ＋３に後続する７つのフレームとの範囲（フレームＬ_ｎ＋３〜Ｌ_ｎ＋１０）で最適パスを抽出する。なお、図１０及び図１１において、一点鎖線で囲んだ範囲が、最適パスの抽出範囲である。
図１０に示すように、区間抽出部１０８は、各行において最も数値が高い類似度を選択する。但し、１行目は、左端の類似度を選択する。図１０において、破線で囲んだ類似度が最も数値が高い類似度である。このようにして各行で選択した最も数値が高い類似度（図１０の破線で囲んだ類似度）をつないで得られるパスが最適パスである。つまり、最適パスは、各フレームの類似度列と各フレームに後続する既定範囲ｗ内のフレームの類似度列の中から選択された、最も類似度積算値が高くなるパスである。なお、図１０において、一点鎖線で囲んだ範囲が、最適パスの抽出範囲である。
図１１のように、最適パスが左上から右下４５度に向かう最適パスが得られた場合は、クエリ動画像に表される動きと、当該最適パスに対応する候補動画像内の類似区間に表される動きが時間長においても一致している。例えば、人が５秒間で画面を横切るシーンがクエリ動画像に表されている場合に、図１１のような最適パスが得られた場合は、当該最適パスに対応する候補動画像内の類似区間にも人が５秒間で画面を横切るシーンが表されている。
区間抽出部１０８は、最適パスの抽出対象のフレームを、Ｌ_ｎ、Ｌ_ｎ＋１、Ｌ_ｎ＋２…とシフトさせて、順次、各フレームに対して最適パスを抽出する。

区間抽出部１０８は、例えば、動的計画法を用いて類似度マップにおける最適パスを特徴量レコード４０の全領域に渡って複数推定する。
動的計画法を用いているため、クエリ動画像に表される動きと候補動画像中の類似する動きとの間に時間長の差異がある場合（図６）でも、区間抽出部１０８は類似区間を抽出することができる。また、動的計画法を用いているため、クエリ動画像に表される動きと候補動画像中の類似する動きとの間に部分的に連続した不一致区間がある場合（図７）においても、区間抽出部１０８は類似区間を抽出することができる。
図６及び図７は、図５に示すような画像イメージとして表現されている類似度マップにおいて抽出された最適パスを示している。図６及び図７において、白い線が最適パスを表す。
図６の（ａ）の最適パスは、図１１の最適パスと同様に、左上から右下４５度に向かう最適パスである。このため、図６の（ａ）の最適パスに対応する候補動画像内の類似区間に表される動きは、クエリ動画像に表される動きと時間長においても一致している。
図６の（ｂ）の最適パスが得られた場合は、クエリ動画像の動きの時間長が候補動画像の類似区間の動きの時間長に対して短い。例えば、人が５秒間で画面を横切るシーンがクエリ動画像に表されている場合に、図６の（ｂ）のような最適パスが得られた場合は、当該最適パスに対応する候補動画像内の類似区間には人が１０秒間で画面を横切るシーンが表されている。
また、図７の最適パスは、左上から右下４５度に向かうパスの途中に水平のパスが含まれている。図７の最適パスが得られた場合は、当該最適パスに対応する候補画像内の類似区間に表される動きには、クエリ動画像に表される動きと、クエリ動画像に表されていない動きとが含まれている。例えば、人が停止することなく画面を横切るシーンがクエリ動画像に表されている場合に、図７のような最適パスが得られた場合は、当該最適パスに対応する候補動画像内の類似区間には、人が途中で数秒間停止して画面を横切るシーンが表される。

以上のようにして最適パスが抽出されると、次に、区間抽出部１０８は、最適パスを解析して、候補動画像から類似区間を抽出する（図４のステップＳＴ４０９）。
そして、区間抽出部１０８は、出力インタフェース２０３から、類似区間の抽出結果を類似区間情報５０として出力する。
区間抽出部１０８は、各フレームの最適パスでの類似度の積算値の波形特徴に基づき、候補動画像から、クエリ動画像の動きと同じ動き又は類似する動きが表される類似区間を抽出する。

類似区間の抽出手順を図８を参照して説明する。
図８は、候補動画像の各フレームでの最適パスの類似度積算値を候補動画像のフレームの順にプロットして得られる類似度積算値の波形を示す。
図８の横軸Ｔ_ｒは、候補動画像のフレーム番号に対応する。
区間抽出部１０８は、複数の最適パスから最適な類似区間を選定するため、図８の波形から、最も確からしい区間を推定する。すなわち、区間抽出部１０８は、図８の波形において、類似度積算値が周囲と比較して総合的に高い箇所を求めることで、類似区間を推定する。区間抽出部１０８は、例えば、図８に示したように上限閾値と下限閾値を設け、波形の立ち上がりを検出する手法により類似区間を抽出する。つまり、区間抽出部１０８は、図８の波形において類似度積算値が下限閾値を上回ってから類似度積算値が上限閾値を下回るまでの間における類似度積算値の極大値に対応する候補動画像のフレームを、類似区間の開始点として抽出する。
この上限閾値と下限閾値は、動画像全体の動き量やヒストグラムのパターンから、動的に変更してもよい。

＊＊＊実施の形態の効果の説明＊＊＊
本実施の形態で説明した類似度マップを用いることで、比較対象の動作の時間長の相違及び比較対象の動作の間に特徴量の部分的な不一致の連続があっても類似シーンを抽出することができる。
そして、長時間に渡って撮影された動画像から、特定の動作に類似する区間を時間的な伸縮や部分的な相違を含めて抽出できることで、動画像検索にかかっていた時間を短縮することができる。

以上、本発明の実施の形態について説明したが、これら２つの実施の形態を組み合わせて実施しても構わない。
あるいは、これら２つの実施の形態のうち、１つを部分的に実施しても構わない。
あるいは、これら２つの実施の形態を部分的に組み合わせて実施しても構わない。
なお、本発明は、これらの実施の形態に限定されるものではなく、必要に応じて種々の変更が可能である。
例えば、実施の形態２では、特徴量比較部１２は、実施の形態１で説明した特徴量抽出部１１で生成された特徴量、すなわち、動きベクトルの偏角成分の特徴量を用いて候補動画像から類似区間を抽出している。しかし、特徴量比較部１２は、動きベクトルとの偏角成分とノルムとの特徴量を用いて候補動画像から類似区間を抽出するようにしてもよい。

＊＊＊ハードウェア構成の説明＊＊＊
最後に、動画像処理装置１０のハードウェア構成の補足説明を行う。
図２に示す記憶装置２０４には、特徴量抽出部１１、特徴量比較部１２及び入力数カウンタ１０４の機能を実現するプログラムの他に、ＯＳ（ＯｐｅｒａｔｉｎｇＳｙｓｔｅｍ）も記憶されている。
そして、ＯＳの少なくとも一部がプロセッサ２０２により実行される。
プロセッサ２０２はＯＳの少なくとも一部を実行しながら、特徴量抽出部１１、特徴量比較部１２及び入力数カウンタ１０４の機能を実現するプログラムを実行する。
プロセッサ２０２がＯＳを実行することで、タスク管理、メモリ管理、ファイル管理、通信制御等が行われる。
また、特徴量抽出部１１、特徴量比較部１２及び入力数カウンタ１０４の処理の結果を示す情報やデータや信号値や変数値が、記憶装置２０４、プロセッサ２０２内のレジスタ及びキャッシュメモリの少なくともいずれかに記憶される。
また、特徴量抽出部１１、特徴量比較部１２及び入力数カウンタ１０４の機能を実現するプログラムは、磁気ディスク、フレキシブルディスク、光ディスク、コンパクトディスク、ブルーレイ（登録商標）ディスク、ＤＶＤ等の可搬記憶媒体に記憶されてもよい。

また、特徴量抽出部１１及び特徴量比較部１２の「部」を、「回路」又は「工程」又は「手順」又は「処理」に読み替えてもよい。
また、動画像処理装置１０は、ロジックＩＣ（ＩｎｔｅｇｒａｔｅｄＣｉｒｃｕｉｔ）、ＧＡ（ＧａｔｅＡｒｒａｙ）、ＡＳＩＣ（ＡｐｐｌｉｃａｔｉｏｎＳｐｅｃｉｆｉｃＩｎｔｅｇｒａｔｅｄＣｉｒｃｕｉｔ）、ＦＰＧＡ（Ｆｉｅｌｄ−ＰｒｏｇｒａｍｍａｂｌｅＧａｔｅＡｒｒａｙ）といった電子回路により実現されてもよい。
この場合は、特徴量抽出部１１、特徴量比較部１２及び入力数カウンタ１０４は、それぞれ電子回路の一部として実現される。
なお、プロセッサ及び上記の電子回路を総称してプロセッシングサーキットリーともいう。

１０動画像処理装置、１１特徴量抽出部、１２特徴量比較部、２０動画像動き情報、３０クエリ特徴量、４０特徴量レコード、５０類似区間情報、１０１フィルタ、１０２偏角算出部、１０３ヒストグラム生成部、１０４入力数カウンタ、１０５平滑化処理部、１０６取得部、１０７類似度マップ生成部、１０８区間抽出部、２０１入力インタフェース、２０２プロセッサ、２０３出力インタフェース、２０４記憶装置。

Claims

複数のフレームで構成される第１の動画像の各フレームに対して生成された特徴量である第１の特徴量が前記第１の動画像のフレームの順に並べられた第１の特徴量列と、前記第１の動画像よりも多い複数のフレームで構成される第２の動画像の各フレームに対して生成された特徴量である第２の特徴量が前記第２の動画像のフレームの順に並べられた第２の特徴量列とを取得する取得部と、
前記第１の特徴量列と前記第２の特徴量列との比較を、前記第１の特徴量列との比較の対象となる前記第２の動画像の比較対象範囲を前記第２の動画像のフレームの順に移動させながら行い、前記第２の動画像のフレームごとに前記第１の特徴量列内の前記第１の特徴量と比較対象範囲の前記第２の特徴量列内の前記第２の特徴量との類似度を算出して前記類似度が時系列に並べられた類似度列を生成し、前記第２の動画像のフレームごとの類似度列が前記第２の動画像のフレームの順に並べられた類似度マップを生成する類似度マップ生成部とを有する動画像処理装置。
前記動画像処理装置は、更に、
前記類似度マップを解析し、前記第１の動画像で表されている動きと同じ動き又は類似する動きが表されている前記第２の動画像のフレームの区間である対応区間を抽出する区間抽出部を有する請求項１に記載の動画像処理装置。
前記区間抽出部は、
前記類似度マップにおいて、前記第２の動画像のフレームごとに、当該フレームの類似度列と当該フレームに後続する既定範囲内のフレームの類似度列との中から最も類似度積算値が高くなるパスである最適パスを抽出し、
前記第２の動画像のフレームごとの最適パスの類似度積算値を解析して、前記対応区間を抽出する請求項２に記載の動画像処理装置。
前記区間抽出部は、
各最適パスの類似度積算値を前記第２の動画像のフレームの順にプロットして得られる類似度積算値の波形において類似度積算値が下限閾値を上回ってから類似度積算値が上限閾値を下回るまでの間における類似度積算値の極大値に対応する前記第２の動画像のフレームを、前記対応区間の開始点として抽出する請求項３に記載の動画像処理装置。
前記区間抽出部は、
動的計画法を用いて、前記第２の動画像のフレームごとに最適パスを抽出する請求項３に記載の動画像処理装置。
前記取得部は、
前記第１の動画像の各フレームから抽出された動きベクトルの偏角成分の特徴量である第１の特徴量が前記第１の動画像のフレームの順に並べられた第１の特徴量列と、前記第２の動画像の各フレームから抽出された動きベクトルの偏角成分の特徴量である第２の特徴量が前記第２の動画像のフレームの順に並べられた第２の特徴量列とを取得する請求項１に記載の動画像処理装置。
動画像に含まれるフレームごとに動きベクトルの偏角成分を算出する偏角算出部と、
前記偏角算出部の偏角成分の算出結果を用いて、フレームごとに偏角成分のヒストグラムデータを生成するヒストグラム生成部とを有する動画像処理装置。
前記動画像処理装置は、更に、
前記ヒストグラム生成部により生成された前記偏角成分のヒストグラムデータに対して、先行する任意数の連続するフレームに対して前記ヒストグラム生成部により生成された前記偏角成分のヒストグラムデータを用いた平滑化処理を行って特徴量を生成する平滑化処理部を有する請求項７に記載の動画像処理装置。
前記平滑化処理部は、
特徴量を生成するフレームと前記任意数のフレームの各々との時間的距離に応じた重み付けを前記任意数のフレームの前記偏角成分のヒストグラムデータの各々に適用して平滑化処理を行う請求項８に記載の動画像処理装置。
コンピュータが、複数のフレームで構成される第１の動画像の各フレームに対して生成された特徴量である第１の特徴量が前記第１の動画像のフレームの順に並べられた第１の特徴量列と、前記第１の動画像よりも多い複数のフレームで構成される第２の動画像の各フレームに対して生成された特徴量である第２の特徴量が前記第２の動画像のフレームの順に並べられた第２の特徴量列とを取得し、
前記コンピュータが、前記第１の特徴量列と前記第２の特徴量列との比較を、前記第１の特徴量列との比較の対象となる前記第２の動画像の比較対象範囲を前記第２の動画像のフレームの順に移動させながら行い、前記第２の動画像のフレームごとに前記第１の特徴量列内の前記第１の特徴量と比較対象範囲の前記第２の特徴量列内の前記第２の特徴量との類似度を算出して前記類似度が時系列に並べられた類似度列を生成し、前記第２の動画像のフレームごとの類似度列が前記第２の動画像のフレームの順に並べられた類似度マップを生成する動画像処理方法。
コンピュータが、動画像に含まれるフレームごとに動きベクトルの偏角成分を算出し、
前記コンピュータが、偏角成分の算出結果を用いて、フレームごとに偏角成分のヒストグラムデータを生成する動画像処理方法。
複数のフレームで構成される第１の動画像の各フレームに対して生成された特徴量である第１の特徴量が前記第１の動画像のフレームの順に並べられた第１の特徴量列と、前記第１の動画像よりも多い複数のフレームで構成される第２の動画像の各フレームに対して生成された特徴量である第２の特徴量が前記第２の動画像のフレームの順に並べられた第２の特徴量列とを取得する取得処理と、
前記第１の特徴量列と前記第２の特徴量列との比較を、前記第１の特徴量列との比較の対象となる前記第２の動画像の比較対象範囲を前記第２の動画像のフレームの順に移動させながら行い、前記第２の動画像のフレームごとに前記第１の特徴量列内の前記第１の特徴量と比較対象範囲の前記第２の特徴量列内の前記第２の特徴量との類似度を算出して前記類似度が時系列に並べられた類似度列を生成し、前記第２の動画像のフレームごとの類似度列が前記第２の動画像のフレームの順に並べられた類似度マップを生成する類似度マップ生成処理とをコンピュータに実行させる動画像処理プログラム。
動画像に含まれるフレームごとに動きベクトルの偏角成分を算出する偏角算出処理と、
前記偏角算出処理の偏角成分の算出結果を用いて、フレームごとに偏角成分のヒストグラムデータを生成するヒストグラム生成処理とをコンピュータに実行させる動画像処理プログラム。