WO2013186958A1

WO2013186958A1 - 映像重要度算出方法、映像処理装置およびその制御方法と制御プログラムを格納した記憶媒体

Info

Publication number: WO2013186958A1
Application number: PCT/JP2012/084076
Authority: WO
Inventors: 真澄石川
Original assignee: 日本電気株式会社
Priority date: 2012-06-13
Filing date: 2012-12-28
Publication date: 2013-12-19

Abstract

　本発明の装置は、入力映像から重要な対象区間を見付けるための映像処理装置である。この映像処理装置は、入力映像から抽出された複数の特徴量それぞれの時間的変化に基づいて、入力映像中の対象区間の重要度判定に対する複数の特徴量それぞれの寄与の度合いを示す有意度を判定する有意度判部と、入力映像中の対象区間の重要度を、複数の特徴量と有意度とに基づいて判定する重要度判定部と、を備える。かかる構成により、映像から得られる複数の特徴量の時間的変化を考慮して重要度を算出することで、映像から重要な対象区間をより正確に選ぶことができる。

Description

映像重要度算出方法、映像処理装置およびその制御方法と制御プログラムを格納した記憶媒体

　本発明は、入力映像から重要な対象区間を見付けるための技術に関する。

　上記技術分野において、特許文献１には、人物の映った区間を対象区間とし、対象区間に含まれる人物情報を元に対象区間の重要度を算出する方法が記載されている。例えば、顔の有無／大きさ／位置／向き／個人識別情報を人物特徴量とし、特徴量自体もしくは特徴量の正規化値を対象区間の重要度とする。また、特許文献１には、各人物特徴量に対してユーザが設定した重みと人物特徴量とをもとに、対象区間の重要度を算出する方法が記載されている。例えば、顔の大きさを重視するモードをユーザが選択した場合には、大きな顔を含む対象区間に対しては高い重要度を算出する。

特開２０１０－１８７３７４号公報

　しかしながら、上記文献に記載の技術では、映像から得た特徴量の大小や種別を用いて対象区間の重要度を算出するので、特徴量の変化を考慮した重要度を算出することができなかった。すなわち、特徴量の変化がなくても、特徴量が大きければあるいは種別により重要と判断すると、重要でない対象区間も含まれるため冗長な映像となってしまう。一方、特徴量の変化があっても、特徴量が小さければあるいは種別により重要でないと判断すると、大事な対象区間が省かれてしまうことになる。

　本発明の目的は、上述の課題を解決する技術を提供することにある。

　上記目的を達成するため、本発明に係る映像処理装置は、
　入力映像から抽出された複数の特徴量それぞれの時間的変化に基づいて、前記入力映像中の対象区間の重要度判定に対する前記複数の特徴量それぞれの寄与の度合いを示す有意度を判定する有意度判定手段と、
　前記入力映像中の対象区間の重要度を、前記複数の特徴量と前記有意度判定手段が判定した前記有意度とに基づいて判定する重要度判定手段と、
　を備える。

　上記目的を達成するため、本発明に係る映像処理装置の制御方法は、
　入力映像から抽出された複数の特徴量それぞれの時間的変化に基づいて、前記入力映像中の対象区間の重要度判定に対する前記複数の特徴量それぞれの寄与の度合いを示す有意度を判定する有意度判定ステップと、
　前記入力映像中の対象区間の重要度を、前記複数の特徴量と前記有意度判定ステップにおいて判定した前記有意度とに基づいて判定する重要度判定ステップと、
　を含む。

　上記目的を達成するため、本発明に係る映像処理装置の制御プログラムを格納した記憶媒体は、
　入力映像から抽出された複数の特徴量それぞれの時間的変化に基づいて、前記入力映像中の対象区間の重要度判定に対する前記複数の特徴量それぞれの寄与の度合いを示す有意度を判定する有意度判定ステップと、
　前記入力映像中の対象区間の重要度を、前記複数の特徴量と前記有意度判定ステップにおいて判定した前記有意度とに基づいて判定する重要度判定ステップと、
　をコンピュータに実行させる映像処理装置の制御プログラムを格納する。

　上記目的を達成するため、本発明に係る映像重要度算出方法は、
　入力映像から抽出された複数の特徴量それぞれの時間的変化に基づいて、前記入力映像中の対象区間の重要度判定に対する前記複数の特徴量それぞれの寄与の度合いを示す有意度を判定し、
　前記入力映像中の対象区間の重要度を、前記複数の特徴量と前記複数の特徴量それぞれの前記有意度とに基づいて算出する。

　本発明によれば、映像から得られる複数の特徴量の時間的変化を考慮して重要度を算出することで、映像から重要な対象区間をより正確に選ぶことができる。

本発明の第１実施形態に係る映像処理装置の構成を示すブロック図である。本発明の第２実施形態に係る映像処理装置の動作概念を説明する図である。本発明の第２実施形態に係る時間的変化指標値および有意度を説明する表を示す図である。本発明の第２実施形態に係る正規化された特徴量を説明する表を示す図である。本発明の第２実施形態に係る対象区間の重要度を説明する表を示す図である。本発明の第２実施形態に係る映像処理装置の機能構成を示すブロック図である。本発明の第２実施形態に係る特徴量抽出部の構成を示すブロック図である。本発明の第２実施形態に係る特徴量抽出テーブルの構成を示す図である。本発明の第２実施形態に係る有意度判定部の構成を示すブロック図である。本発明の第２実施形態に係る有意度算出テーブルの構成を示す図である。本発明の第２実施形態に係る重要度判定部の構成を示すブロック図である。本発明の第２実施形態に係る重要度算出テーブルの構成を示す図である。本発明の第２実施形態に係る映像処理装置のハードウェア構成を示すブロック図である。本発明の第２実施形態に係る映像処理装置の処理手順を示すフローチャートである。本発明の第３実施形態に係る特徴量抽出部の構成を示すブロック図である。本発明の第３実施形態に係る特徴量抽出アルゴリズムテーブルの構成を示す図である。本発明の第４実施形態に係る有意度判定部の構成を示すブロック図である。本発明の第４実施形態に係る時間的変化指標算出アルゴリズムテーブルの構成を示す図である。本発明の第５実施形態に係る映像処理装置の機能構成を示すブロック図である。本発明の第５実施形態に係る特徴量／有意度組合せテーブルの構成を示す図である。本発明の第６実施形態に係る映像処理装置の動作概念を説明する図である。本発明の第６実施形態に係る映像処理装置の機能構成を示すブロック図である。本発明の第６実施形態に係る対象区間検出部の構成を示すブロック図である。本発明の第６実施形態に係る対象区間検出テーブルの構成を示す図である。本発明の第６実施形態に係る対象区間検出アルゴリズムテーブルの構成を示す図である。本発明の第６実施形態に係る映像処理装置の処理手順を示すフローチャートである。本発明の第７実施形態に係る映像処理装置の動作概念を説明する図である。本発明の第７実施形態に係る映像処理装置の機能構成を示すブロック図である。本発明の第７実施形態に係るシーン分割部の構成を示すブロック図である。本発明の第７実施形態に係るシーン判定テーブルの構成を示す図である。本発明の第７実施形態に係るシーン判定アルゴリズムテーブルの構成を示す図である。本発明の第７実施形態に係る映像処理装置の処理手順を示すフローチャートである。本発明の第８実施形態に係る映像処理装置の機能構成を示すブロック図である。

　以下に、図面を参照して、本発明の実施の形態について例示的に詳しく説明する。ただし、以下の実施の形態に記載されている構成要素はあくまで例示であり、本発明の技術範囲をそれらのみに限定する趣旨のものではない。

　なお、本実施形態における「映像」との文言は、動画や静止画を含む画像データと対応する音データとからなる情報を意味する。例えば、ビデオカメラで撮像した映像や、記憶媒体や通信媒体を介して取得した再生用の映像を含む。また、本実施形態における、「映像区間」との文言は、特徴量から重要度を判定する入力映像の全体を示し、「対象区間」との文言は、入力映像の内、特徴量から重要度を判定する対象（対象物や対象人物）が含まれる区間を示すものとする。また、「有意度」との文言は、対象区間の重要度を判定するに当たって、各特徴量が重要度に寄与する度合いを示す数値である。また、本実施形態における「時間的変化指標値」との文言は、対象区間の重要度を判定するに当たって各特徴量が重要度に寄与する度合いを示す数値である「有意度」を算出するための、特徴量の時間的変化の指標となる数値である。これら、「有意度」や「時間的変化指標値」は、上記定義に従う性質を有するものであればよく、本実施形態の記載に限定されない。

　［第１実施形態］
　本発明の第１実施形態としての映像処理装置１００について、図１を用いて説明する。映像処理装置１００は、入力映像から重要な対象区間を見付けるための装置である。

　図１に示すように、映像処理装置１００は、有意度判定部１０１と、重要度判定部１０２と、を含む。有意度判定部１０１は、入力映像１０１ａから抽出された複数の特徴量１０１ｂそれぞれの時間的変化に基づいて、入力映像１０１ａ中の対象区間の重要度判定に対する複数の特徴量１０１ｂそれぞれの寄与の度合いを示す有意度１０１ｃを判定する。重要度判定部１０２は、入力映像１０１ａ中の対象区間１０２ａの重要度１０２ｃを、複数の特徴量１０１ｂと有意度判定部１０１が判定した有意度１０１ｃとに基づいて判定する。

　本実施形態によれば、映像から得られる複数の特徴量の時間的変化を考慮して重要度を算出することで、映像から重要な対象区間をより正確に選ぶことができる。

　［第２実施形態］
　次に、本発明の第２実施形態に係る映像処理装置について説明する。本実施形態に係る映像処理装置は、入力映像の画像データにおける動きベクトルと、入力映像の音データにおける音エネルギーとを入力映像の特徴量とする。そして、本実施形態に係る映像処理装置は、特徴量の時間的変化の指標として、特徴量が規定値（全体の平均値に相当）と交差する回数を検出する。本実施形態に係る映像処理装置は、この規定値と交差する回数に対応する値を有意度として、対象区間の重要度を算出する。

　本実施形態によれば、入力映像の画像データの特徴量と、入力映像の音データの特徴量との時間的変化の組合せから、対象区間の重要度を算出するので、画像データとしての重要度と音データとしての重要度とを加味して、映像から重要な対象区間をより正確に選ぶことができる。

　《映像処理装置の概略動作》
　まず、図２Ａ～図２Ｄを参照して、本実施形態の映像処理装置の動作についてその概略を説明する。

　（動作概念）
　図２Ａは、本実施形態に係る映像処理装置２００の動作概念を説明する図である。

　図２Ａは、入力映像２１０として、運動会で踊る子供を撮影した映像について、子供の映った対象区間の重要度を判定する場合について説明する。本実施形態においては、入力映像２１０から特徴量として、音エネルギー２２０と動きベクトル平均（フレーム間の動きベクトルの平均値）２３０とを抽出する。

　図２Ａに示すように、入力映像２１０は屋外で運動会の様子を撮影した映像であるため、音エネルギー２２０のように背景の音量は定常的に大きい。また、動きベクトル平均２３０のように、対象となる子供は、動いたり止まったりを繰り返すため、子供の動きベクトルの変動が大きい。ここで、本実施形態における重要度を判定する対象区間は、区間２１１、区間２１２および区間２１３である。区間２１１では、子供がアップで撮影されており、その動きによって大きな動きベクトルが検出される。区間２１２では、子供の踊りが一旦止まっている箇所であり、子供の動きが小さいため小さな動きベクトルが検出される。区間２１３では、元気に踊りまわる子供の全身が撮影されており、子供の動きが大きいため大きな動きベクトルが検出される。

　なお、図２Ａにおいて、特徴量である音エネルギー２２０や動きベクトル平均２３０は、特徴量全体の平均値に相当する規定値により規格化された値（2.0や1.8、0.5）で示されている。また、本実施形態においては、特徴量の変化が規定値と交差する交差点（２２１、２２２、２３１～２３８）の個数を、対象区間の重要度判定に対する複数の特徴量それぞれの寄与の度合いを示す有意度を求めるための、特徴量の時間的変化指標とする。

　（時間的変化指標値および有意度）
　図２Ｂは、本実施形態に係る時間的変化指標値および有意度を説明する表２４０を示す図である。

　表２４０は、入力映像２１０から抽出された各特徴量２４１に対応付けて、規定値２４２、時間的変化指標値２４３、有意度２４４を記憶している。規定値２４２は、各特徴量２４１の所定期間の絶対値の平均に相当し、各特徴量２４１の規格化の基準として使用されると共に、時間的変化指標値２４３を算出するための比較対象として使用される。本実施形態において、時間的変化指標値２４３は、各特徴量２４１の時間的変化が規定値２４２と交差する点の個数で表わす。すなわち、時間的変化指標値２４３としては、有意度を判定する映像区間内で、特徴量の値が規定値以上の値から規定値未満の値、もしくは規定値未満の値から規定値以上の値に推移する回数をカウントし、有意度を判定する映像区間内のフレーム数で正規化した値を用いる。

　音エネルギーの時間的変化指標値２４３は、図２Ａの交差点２２１、２２２から明らかなように、２回となる。また、動きベクトル平均の時間的変化指標値２４３は、図２Ａの交差点２３１～２３８から明らかなように、８回となる。そして、音エネルギーの有意度２４４は、各特徴量２４１の時間的変化指標値２４３に基づいて、“０．２”（＝２／（２＋８））と算出される。一方、動きベクトル平均の有意度２４４は、各特徴量２４１の時間的変化指標値２４３に基づいて、“０．８”（＝８／（２＋８））と算出される。

　（正規化された特徴量）
　図２Ｃは、本実施形態に係る正規化された特徴量を説明する表２５０を示す図である。

　表２５０は、区間ＩＤ２５１に対応付けて、各区間の音のエネルギー２５２、各区間の動きベクトルの絶対値の平均２５３を記憶している。各区間の音のエネルギー２５２は、図２Ａの音エネルギー２２０に示すように、各区間２１１～２１３における、規定値で正規化した値である。すなわち、正規化された音のエネルギー２５２は、“２．０”、“２．２”、“１．８”である。一方、各区間の動きベクトルの絶対値の平均２５３は、図２Ａの動きベクトル平均２３０に示すように、各区間２１１～２１３における、規定値で正規化した値である。すなわち、正規化された動きベクトルの絶対値の平均２５３は、“２．０”、“０．５”、“１．７”である。

　（対象区間の重要度）
　図２Ｄは、本実施形態に係る対象区間の重要度を説明する表２６０を示す図である。

　表２６０は、区間ＩＤ２６１に対応付けて、各区間の重要度２６２を記憶している。表２５０の特徴量と表２４０の有意度とをもとに、各区間２１１～２１３の重要度２６２は、以下となる。
（区間２１１の重要度）
= (2.0/ (2.0+2.2+1.8)) x0.2+ (2.0/ (2.0+0.5+1.7)) x0.8 ≒ 0.45（区間２１２の重要度）
= (2.2/ (2.0+2.2+1.8)) x0.2+ (0.5/ (2.0+0.5+1.7)) x0.8 ≒ 0.12（区間２１３の重要度）
= (1.8/ (2.0+2.2+1.8)) x0.2+ (1.7/ (2.0+0.5+1.7)) x0.8 ≒ 0.38
　本実施形態によれば、子供の動きの少ない区間２１２の重要度を低く、子供の動きが大きい所定の区間２１１および２１３の重要度を高く算出することから、映像内容を反映した重要度を算出できる。上記により得られた重要度をもとに、重要度の高い区間を時間順に頭だし再生することで、子供が活発に踊っている箇所を選択的に視聴できる。あるいは、重要度の高い区間と、入力映像から切り出した区間をつなぎ合わせることで、多様性のある編集映像を生成できることになる。

　《映像処理装置の機能構成》
　図３は、本実施形態に係る映像処理装置２００の機能構成を示すブロック図である。

　図３を参照すると、本実施形態の映像処理装置２００は、特徴量抽出部３０１と、有意度判定部３０２と、重要度判定部３０３とを含む。映像処理装置２００には、映像入力部３１０から映像が入力される。映像入力部３１０としては、ビデオカメラや、記憶媒体あるいは通信媒体を介して入力される映像を再生する映像再生部が含まれる。一方、映像処理装置２００の重要度判定部３０３の重要度判定結果に基づいて、映像出力部３２０から、重要度や、重要度により判定した映像が出力される。映像出力部３２０としては、重要度を付した映像をそのまま出力する構成や、入力映像を編集する映像編集部が含まれる。なお、映像出力部３２０は、重要度判定部３０３から各対象区間の重要度を取得し、出力する。あるいは、映像出力部３２０は、各対象区間の開始点と終了点と重要度とを表形式で出力してもよいし、他の形式で出力してもよい。さらに、映像出力部３２０は、入力映像の対象区間と対応付けて重要度を出力してもよい。

　特徴量抽出部３０１は、映像入力部３１０から入力された映像から特徴量を抽出する。本実施形態においては、特徴量として、音データから音エネルギーを抽出し、画像データから動きベクトルを抽出する。特徴量抽出部３０１は、抽出した特徴量を、有意度判定部３０２と重要度判定部３０３とに出力する。

　また、有意度判定部３０２は、特徴量抽出部３０１から取得した特徴量に基づいて、特徴量の時間的変化から対象区間の重要度への各特徴量の寄与の度合いを示す有意度を判定する。有意度判定部３０２は、対象区間の重要度を算出するため、有意度を重要度判定部３０３に出力する。

　また、重要度判定部３０３は、特徴量抽出部３０１から取得した特徴量と、有意度判定部３０２から取得した各特徴量の有意度とに基づいて、対象区間の重要度を判定する。

　（特徴量抽出部）
　図４Ａは、本実施形態に係る特徴量抽出部３０１の構成を示すブロック図である。特徴量抽出部３０１は、映像入力部３１０から入力される画像データまたは音データから複数の特徴量を抽出し、有意度判定部３０２と重要度判定部３０３とに出力する。

　特徴量抽出部３０１は、入力映像を管理する入力映像管理部４０１と、入力映像管理部４０１の管理に従って、映像を蓄積する映像蓄積データベース（以下、ＤＢ）４０２とを備える。本実施形態の特徴量抽出部３０１は、映像蓄積ＤＢ４０２に蓄積され、入力映像管理部４０１に読み出された入力映像から、音エネルギー検出部４０３において、１つの特徴量として、音データの音エネルギーを検出する。また、本実施形態の特徴量抽出部３０１は、映像蓄積ＤＢ４０２に蓄積され、入力映像管理部４０１に読み出された入力映像から、動きベクトル検出部４０４において、他の特徴量として、画像データの動きベクトルを検出する。

　特徴量出力部４０５は、特徴量抽出テーブル４０５ａ（図４Ｂ参照）を有し、検出された特徴量を、有意度判定部３０２および重要度判定部３０３に出力する。なお、特徴量抽出部３０１が映像蓄積ＤＢ４０２を有する構成に限定されない。映像蓄積ＤＢ４０２は、有意度判定部３０２や重要度判定部３０３が有してもよいし、特徴量抽出部３０１、有意度判定部３０２、重要度判定部３０３とは別に、映像処理装置３００に設けられてもよい。

　図４Ｂは、本実施形態に係る特徴量抽出テーブル４０５ａの構成を示す図である。特徴量抽出テーブル４０５ａは、特徴量抽出部３０１が抽出した各特徴量を順に記憶する。

　特徴量抽出テーブル４０５ａは、各特徴量４１１に対応付けて、映像位置と特徴量データとの時系列情報からなる特徴量データ４１２を記憶する。かかる、特徴量抽出テーブル４０５ａの情報が、有意度判定部３０２と重要度判定部３０３とに出力される。

　（有意度判定部）
　図５Ａは、本実施形態に係る有意度判定部３０２の構成を示すブロック図である。有意度判定部３０２は、特徴量抽出部３０１から入力される複数の特徴量から、対象区間の重要度を判定するために各特徴量が寄与する度合いを示す有意度を判定し、各特徴量の有意度と各特徴量を規格化する基準の規定値とを重要度判定部３０３に出力する。

　有意度判定部３０２は、特徴量抽出部３０１から抽出した特徴量を取得する特徴量取得部５０８を有する。本実施形態において、特徴量取得部５０８は、音エネルギー取得部５０１と動きベクトル取得部５０４とを有する。

　次に、有意度判定部３０２は、時間的変化指標算出部５０９において、特徴量取得部５０８が取得した各特徴量について、所定映像区間の絶対値の平均を取ることで時間的変化の指標を算出するために、特徴量と比較される規定値を算出する。そして、有意度判定部３０２は、時間的変化指標算出部５０９において、特徴量と規定値とから、特徴量の時間的変化から重要度算出への有意度を判定する時間的変化指標を算出する。本実施形態においては、時間的変化指標として、所定映像区間内で特徴量の値が規定値以上の値から規定値未満の値、もしくは規定値未満の値から規定値以上の値に推移する回数をカウントし、所定映像区間内のフレーム数で正規化した値を用いる。

　時間的変化指標算出部５０９は、音エネルギー規定値算出部５０２と、音エネルギー交差カウント部５０３と、動きベクトル規定値算出部５０５と、動きベクトル交差カウント部５０６とを有する。音エネルギー規定値算出部５０２は、音エネルギー取得部５０１が所得した入力映像の特徴量の１つである音エネルギーに対して、所定映像区間の絶対値の平均を取ることで、音エネルギーを規格化する規定値を算出する。また、動きベクトル規定値算出部５０５は、動きベクトル取得部５０４が所得した入力映像の他の特徴量である動きベクトルに対して、所定映像区間の絶対値の平均を取ることで、動きベクトルを規格化する規定値を算出する。なお、所定映像区間は、映像全体としてもよいし、固定の時間長の範囲としてもよいし、閾値以下の時間間隔で撮影されたショット群としてもよいし、ＧＰＳ（Global Positioning System)情報等をもとにあらかじめ同じ場所で撮影されたと特定された映像区間としてもよい。

　そして、音エネルギー交差カウント部５０３は、音エネルギー規定値算出部５０２が算出した音エネルギーの規定値を、所定映像区間の音エネルギーが交差する回数をカウントして、その回数を音エネルギーの時間的変化指標値とする。一方、動きベクトル交差カウント部５０６は、動きベクトル規定値算出部５０５が算出した動きベクトルの規定値を、所定映像区間の動きベクトルが交差する回数をカウントして、その回数を動きベクトルの時間的変化指標値とする。

　有意度算出部５０７は、有意度算出テーブル５０７ａ（図５Ｂ参照）を有し、音エネルギー交差カウント部５０３および動きベクトル交差カウント部５０６からの各特徴量の時間的変化指標値に基づいて、各特徴量の重要度計算に寄与する度合いを示す有意度を算出する。有意度算出部５０７における有意度の算出は、以下のように実行できる。有意度算出部５０７は、時間的変化指標算出部５０９が所定映像区間内で算出した複数の各特徴量について、時間的変化指標値がより大きい特徴量に対して高い有意度とする。例えば、時間的変化指標値の比率を用いると、特徴量ａの時間変化指標の値がＸａ、特徴量ｂの時間変化指標の値がＸｂのとき、特徴量ａの有意度Ｗａは以下によって求められる。すなわち、複数の特徴量それぞれの時間的変化指標値を複数の特徴量の時間的変化指標値の和で除算した結果を、有意度とする。

　Ｗａ＝Ｘａ／（Ｘａ＋Ｘｂ）　…（１）
　なお、有意度の算出方法は、上記例に限定されない。時間的変化指標値の比率とあらかじめ対応付けられた値を用いてもよい。さらに、重要度の判定に特徴量が寄与する度合いを示す値であれば、他の方法で算出しても構わない。

　有意度算出部５０７は、各特徴量の有意度５１４と、各特徴量の規定値５１２ａおよび５１２ｂとを、重要度判定部３０３に出力する。

　図５Ｂは、本実施形態に係る有意度算出テーブル５０７ａの構成を示す図である。有意度算出テーブル５０７ａは、各特徴量の規定値や時間的変化指標値に基づいて、所定映像区間における各特徴量の有意度を算出するためのテーブルである。その具体的な例が図２Ｂの表２４０に示されている。

　有意度算出テーブル５０７ａは、各特徴量５１１に対応付けて、規定値５１２と時間的変化指標値５１３とを記憶する。規定値５１２は、各特徴量の規定値５１２ａおよび５１２ｂを含む。そして、有意度算出テーブル５０７ａは、時間的変化指標値５１３から算出された有意度５１４を記憶する。

　（重要度算出部）
　図６Ａは、本実施形態に係る重要度判定部３０３の構成を示すブロック図である。重要度判定部３０３は、特徴量抽出部３０１から入力される複数の特徴量と、有意度判定部３０２からの各特徴量の規定値と有意度とを使用して対象区間の重要度を判定して、映像出力部３２０に通知する。

　まず、重要度判定部３０３において、対象区間選択部６０１が、特徴量抽出部３０１から入力される複数の特徴量の内から、重要度を判定する対象区間を選択する。なお、対象区間の選択は、例えば、特定の対象が画面上に登場した区間であってもよいし、特定の対象の発する音が含まれる区間であってもよい。特定の対象とは、顔などの人体の一部であっても、特定の人物であっても、ペットなどの動物であっても、ビルなどの建物であっても、山と野原のような風景であってもよい。すなわち、視覚的に認識できる選択であれば何であってもかまわない。

　また、対象区間選択部６０１は、重要度算出部６０４に対して、重要度を判定する対象区間の情報を送る。ここで、重要度を判定する対象区間の情報とは、対象区間の開始点と終了点との映像内での時刻である。対象区間の情報は、あらかじめ手動で与えておいてもよいし、入力映像の画像データもしくは音データの中から、あらかじめ登録された画像情報および音情報を検知することによって、あらかじめ自動検出しておいてもよい。

　本実施形態においては、音エネルギー正規化部６０２および動きベクトル正規化部６０３において、所定映像区間の特徴量の平均値が、有意度判定部３０２から送信された各特徴量の規定値により正規化される。そして、重要度算出部６０４は、重要度算出テーブル６０４ａを有し、正規化された所定映像区間の特徴量を有意度で重み付け加算した値を重要度とする。

　例えば、所定対象区間ｉの重要度Ｓｉは、
　Ｓｉ＝Ｐａｉ×Ｗａ＋Ｐｂｉ×Ｗｂ　…（２）
によって算出できる。すなわち、入力映像中の対象となる対象区間内の複数の特徴量に対し有意度で重み付けした値の総和を、対象区間の重要度とする。ここで、Ｐａｉは、所定映像区間ｉから得られる特徴量ａとその規定値との比率の正規化値を示し、Ｐｂｉは、特徴量ｂの規定値との比率の正規化値を示し、ＷａとＷｂとは、特徴量ａおよび特徴量ｂの有意度である。

　なお、対象区間の重要度は、例えば以下の方法によっても同様に算出できる。所定映像区間から抽出した複数の各特徴量について、対象区間内の平均値とあらかじめ対応付けられた値を、有意度で重み付け加算した値を重要度とする。

　重要度算出部６０４で算出された対象区間の重要度は、重要度判定部３０３から映像出力部３２０に出力される。

　図６Ｂは、本実施形態に係る重要度算出テーブル６０４ａの構成を示す図である。重要度算出テーブル６０４ａは、特徴量抽出部３０１が抽出した複数の特徴量と、各特徴量の所定映像区間における有意度とから、各対象区間の重要度を算出するためのテーブルである。

　重要度算出テーブル６０４ａは、各対象区間６１１に対応付けて、特徴量抽出部３０１が抽出した複数の特徴量の、有意度判定部３０２で生成された正規化値と有意度とを記憶する。本実施形態では、重要度算出テーブル６０４ａは、第１特徴量６１２として、音エネルギー正規化値とその有意度を記憶し、第２特徴量６１３として、動きベクトル正規化値とその有意度を記憶する。そして、重要度算出テーブル６０４ａは、第１特徴量６１２と第２特徴量６１３とに基づいて算出された各対象区間の重要度６１４を記憶する。

　《映像処理装置のハードウェア構成》
　図７は、本実施形態に係る映像処理装置２００のハードウェア構成を示すブロック図である。なお、図７においては、重要度判定処理のみを行なう映像処理装置２００と共に、映像データの入出力機能をも有する映像処理装置２５００についても、その構成を図示している。

　図７で、ＣＰＵ７１０は演算制御用のプロセッサであり、プログラムを実行することで図３の映像処理装置２００の各機能構成部を実現する。ＲＯＭ７２０は、初期データおよびプログラムなどの固定データおよびプログラムを記憶する。また、通信制御部７３０は通信制御部であり、本実施形態においては、ネットワークを介して外部の映像入力部３１０や映像出力部３２０、あるいは映像記憶媒体と通信する。なお、ＣＰＵ７１０は１つに限定されず、複数のＣＰＵであっても、あるいは画像処理用のＧＰＵを含んでもよい。

　ＲＡＭ７４０は、ＣＰＵ７１０が一時記憶のワークエリアとして使用するランダムアクセスメモリである。ＲＡＭ７４０には、本実施形態の実現に必要なデータを記憶する領域が確保されている。入力映像７４１は、映像入力部３１０から入力された画像データと音データとを含む映像データである。なお、映像処理装置２５００の場合、入力映像７４１は、入出力インタフェース７６０を介して、カメラ７６４や音声入出力部７６３や映像入出力部７６６から入力される。

　特徴量抽出テーブル４０５ａは、図４Ｂに図示した、特徴量抽出に使用されるテーブルである。有意度算出テーブル５０７ａは、図５Ｂに図示した、有意度算出に使用されるテーブルである。重要度算出テーブル６０４ａは、図６Ｂに図示した、重要度算出に使用されるテーブルである。対象区間／重要度７４２は、所定対象区間と重要度とを対応付けたデータであり、映像出力部３２０に出力される。また、出力映像７４３は、重要度に基づいて選別された映像データである。なお、映像処理装置２５００の場合、対象区間／重要度７４２や出力映像７４３は、入出力インタフェース７６０を介して、表示部７６１や音声入出力部７６３や映像入出力部７６６から出力される。

　ストレージ７５０には、データベースや各種のパラメータ、あるいは本実施形態の実現に必要な以下のデータまたはプログラムが記憶されている。映像蓄積ＤＢ４０２は、入力映像を蓄積するデータベースである。ストレージ７５０には、以下のプログラムが格納される。映像処理装置制御プログラム７５１は、本映像処理装置３００の全体を制御する制御プログラムである。特徴量抽出モジュール７５２は、映像処理装置制御プログラム７５１において、入力映像から複数の特徴量を抽出するモジュールである。有意度判定モジュール７５３は、映像処理装置制御プログラム７５１において、複数の特徴量の映像区間の重要度への寄与の度合いを示す有意度を判定するモジュールである。重要度判定モジュール７５４は、映像処理装置制御プログラム７５１において、複数の特徴量とその有意度とから対象区間の重要度を判定するモジュールである。

　以下、映像データの入出力機能をも有する映像処理装置２５００における構成要素である。入出力インタフェース７６０は、入出力機器との入出力データをインタフェースする。入出力インタフェース７６０には、表示部７６１、キーボード、タッチパネル、ポインティンデバイスなどの操作部７６２が接続される。また、スピーカやマイクなどの音声入出力部７６３が接続される。さらに、カメラ７６４やＧＰＳ位置生成部７６５や、映像記憶媒体などの映像入出力部７６６が接続される。

　なお、図７には、本実施形態に必須なデータやプログラムのみが示されており、本実施形態に関連しないデータやプログラムは図示されていない。

　《映像処理装置の処理手順》
　図８は、本実施形態に係る映像処理装置２００の処理手順を示すフローチャートである。このフローチャートは、図７のＣＰＵ７１０がＲＡＭ７４０を使用して実行される映像重要度算出方法であり、図３、図４Ａ乃至図６Ａの各機能構成部を実現する。

　まず、ステップＳ８０１において、映像処理装置２００は、映像入力部３１０から入力映像の映像フレームの画像データと音データとを入力する。次に、ステップＳ８０３において、映像処理装置２００は、入力された画像データと音データとをもとに、特徴量を抽出する。本実施形態の動作では、特徴量として、音データから得た単位時間あたりの平均エネルギー値と、画像データから得た特徴点の実際の移動ベクトルの平均とを用いるものとする。ステップＳ８０５において、映像処理装置２００は、重要度を判定する映像区間を映像全体とすると、映像区間の映像入力と特徴量抽出とが終了したかを判定する。そして、終了してなければ、映像処理装置２００はステップＳ８０１に戻って、ステップＳ８０１およびＳ８０３を映像の全フレームに対して繰り返す。

　映像区間の全フレームからの特徴量抽出が終了すると、映像処理装置２００はステップＳ８０７に進んで、入力された全フレームにつて、音のエネルギー値と動きベクトルの絶対値の平均とについて、時間的変化指標値を算出する。本実施形態においては、時間的変化指標値として、映像区間内で特徴量の値が規定値以上の値から規定値未満の値、もしくは規定値未満の値から規定値以上の値に推移する回数をカウントし、映像区間内のフレーム数で正規化した値を用いる。そして、ステップＳ８０９において、映像処理装置２００は、音エネルギー値と動きベクトルの絶対値の平均との各時間的変化指標値をもとに、各特徴量の有意度を算出する。例えば、具体例の図２Ａにおいて、（１）式、有意度Ｗａ＝Ｘａ／（Ｘａ＋Ｘｂ）に従えば、音のエネルギーの有意度Ｗａ＝２／（２＋８）＝０．２、動きベクトルの有意度Ｗｂ＝８／（２＋８）＝０．８となる（図２Ｂ参照）。

　次に、ステップＳ８１１において、映像処理装置２００は、対象区間（図２Ａにおいては、子供が登場する区間）について、入力された各特徴量の有意度ＷａとＷｂおよび、対象区間から抽出された各特徴量の値を利用して、対象区間の重要度を算出する。そして、ステップＳ８１５において、映像処理装置２００は、対象区間の重要度を映像出力部３２０に出力する。例えば、具体例の図２Ａにおいて、（２）式、重要度Ｓｉ＝Ｐａｉ×Ｗａ＋Ｐｂｉ×Ｗｂに従えば、図２Ｄの算出結果となる。

　ステップＳ８１５において、映像処理装置２００は、映像が終了したか否かを判定し、映像終了までステップＳ８０１～Ｓ８１５を繰り返す。

　本実施形態においては、映像から抽出した特徴量の時間的変化指標に基づいて特徴量の有意度を算出し、有意度を重みとして用いることで対象区間の重要度を算出する。そのため、映像ごとに異なる重視すべき特徴量の特定やその特徴量に基づく重要度の算出が可能である。

　すなわち、図２Ａの例において、特許文献１の技術では、あらかじめ規定された特徴量が音エネルギーであった場合に、区間２１２に対して最も高い重要度が付与される。しかし、区間２１２は、子供が踊りを止めた区間に相当するため、重要度が映像内容を反映していないことになる。これに対し、本実施形態においては、子供の動きの少ない区間２１２の重要度を低く、子供の動きが大きい区間２１１および２１３の重要度を高く算出することから、映像内容を反映した重要度を算出できる。

　このようにして得られた重要度をもとに、重要度の高い所定の区間を時間順に頭だし再生することで、子供が活発に踊っている箇所を選択的に視聴できる。あるいは、重要度の高い所定の区間と、所定の区間以外の区間を入力映像から切り出してつなぎ合わせることで、多様性のある編集映像を生成することができる。

　［第３実施形態］
　次に、本発明の第３実施形態に係る映像処理装置について説明する。上記第２実施形態においては、入力映像の特徴量として音エネルギーと動きベクトルとを使用した。本実施形態に係る映像処理装置は、他の特徴量を使用する点で異なる。その他の構成および動作は、第２実施形態と同様であるため、同じ構成および動作については同じ符号を付してその詳しい説明を省略する。

　本実施形態によれば、入力映像に対して適応する特徴量を抽出して重要度を算出するので、入力映像に対して適応するように、映像から重要な対象区間をより正確に選ぶことができる。

　なお、本実施形態において、第２実施形態と異なる特徴的な構成は特徴抽出部であるので、以下、特徴抽出部の構成と動作を説明し、他の説明は簡略化する。

　（特徴量抽出部）
　図９は、本実施形態に係る特徴量抽出部９０１の構成を示すブロック図である。なお、図９において、第２実施形態の図４と同様の機能構成部には同じ参照番号を付して、説明を省略する。特徴量抽出部９０１は、映像入力部３１０から入力される画像データまたは音データから複数の特徴量を抽出し、有意度判定部３０２と重要度判定部３０３とに出力する。

　本実施形態の特徴量抽出部９０１は、映像蓄積ＤＢ４０２に蓄積され、入力映像管理部４０１に読み出された入力映像から、特徴量検出部９０２において、複数の特徴量を検出する。ここで、複数の特徴量は、特徴量検出アルゴリズムテーブル９０２ｂ（図１０参照）から特徴量選択部９０２ａにより選択される。特徴量として音エネルギーと動きベクトルとが選択された場合が、第２実施形態に相当する。

　図１０は、本実施形態に係る特徴量検出アルゴリズムテーブル９０２ｂの構成を示す図である。特徴量検出アルゴリズムテーブル９０２ｂは、入力映像の画像データと音データから、対象区間の重要度を判定する場合に使用する種々の特徴量の抽出アルゴリズムを記憶する。

　特徴量検出アルゴリズムテーブル９０２ｂは、特徴量の識別子である特徴量ＩＤ１００１に対応付けて、それぞれの特徴量が画像データから得られる特徴量か／音データから得られる特徴量かを示す情報１００２と、それぞれの特徴量検出アルゴリズム１００３を記憶する。

　特徴量検出アルゴリズム１００３としては、画像データから得られる特徴量として、例えば、映像を構成する各フレームから抽出したフレーム全体の輝度平均値や、色やエッジのヒストグラム等の大局的特徴量を用いてもよい。あるいは、画像データから得られる特徴量として、フレームを一定サイズのブロックに分割し、各ブロックの位置と各ブロックから抽出した色やエッジに基づく特徴量を用いてもよい。あるいは、画像データから得られる特徴量として、フレーム上のコーナー点等の特徴点の周囲から取得される輝度勾配ヒストグラムや、SIFTなどの局所特徴量を用いてもよい。あるいは、画像データから得られる特徴量として、フレーム上の全特徴点と次のフレーム上の特徴点とを対応付け、全特徴点の動きベクトルの絶対値の平均を用いてもよいし、平均動きベクトルの絶対値を用いてもよい。あるいは、画像データから得られる特徴量として、全特徴点の各動きベクトルから、画面全体の平均的な動きベクトルで表わされるカメラの移動量を差し引くことで算出される、特徴点の実際の移動ベクトルの平均を用いてもよい。また、音データから得られる特徴量として、例えば、単位時間あたりの平均エネルギー値、パワースペクトラム係数の加重和を用いてもよい。

　さらに、特徴量として、例えば対象領域の画面上での位置や大きさ、向き、欠損度（オクルージョンによって隠された領域や、対象が画面の端にあるためにフレーム外にはみ出した領域の割合）などの、対象領域の画像特徴量を用いてもよい。あるいは、特徴量として、対象領域を各フレームから抽出し、その重心点のフレーム間での移動量を用いてもよい。あるいは、特徴量として、対象の発する音の周波数特性を用いてもよい。

　なお、画像データおよび音データから抽出される特徴量は、上記特徴量に限定されない。対象区間の重要度を判定する場合に使用可能な他の特徴量を用いても構わない。

　［第４実施形態］
　次に、本発明の第４実施形態に係る映像処理装置について説明する。上記第２実施形態および第３実施形態においては、入力映像の特徴量の時間的変化指標として、特徴量の規定値との交差回数を使用した。本実施形態に係る映像処理装置は、他の時間的変化指標を使用する点で異なる。その他の構成および動作は、第２実施形態および第３実施形態と同様であるため、同じ構成および動作については同じ符号を付してその詳しい説明を省略する。

　本実施形態によれば、入力映像に対して適応する、あるいは特徴量に対して適応する時間的変化指標を使用して重要度を算出するので、入力映像に対して適応するように、映像から重要な対象区間をより正確に選ぶことができる。

　なお、本実施形態において、第２実施形態および第３実施形態と異なる特徴的な構成は有意度判定部であるので、以下、有意度判定部の構成と動作を説明し、他の説明は簡略化する。

　（有意度判定部）
　図１１は、本実施形態に係る有意度判定部１１０２の構成を示すブロック図である。有意度判定部１１０２は、特徴量抽出部９０１から入力される複数の特徴量から、対象区間の重要度を判定するために各特徴量が寄与する度合いを示す有意度を判定し、各特徴量の有意度と各特徴量を規格化する基準の規定値とを重要度判定部３０３に出力する。

　有意度判定部１１０２は、特徴量抽出部９０１から抽出した特徴量を取得する特徴量取得部１１０６を有する。本実施形態において、特徴量取得部１１０６は、第１特徴量取得部１１０３、…、第ｎ特徴量取得部１１０４を有する。

　有意度算出部１１０５は、第１特徴量乃至第ｎ特徴量の対象区間における有意度を算出する。ここで、有意度は、時間的変化指標算出アルゴリズムテーブル１１０５ｂ（図１２参照）から時間的変化指標選択部１１０５ａにより選択される。時間的変化指標として、映像区間内で特徴量の値が規定値以上の値から規定値未満の値、もしくは規定値未満の値から規定値以上の値に推移する回数をカウントし、映像区間内のフレーム数で正規化した値が選択された場合が、第２実施形態に相当する。

　図１２は、本実施形態に係る時間的変化指標算出アルゴリズムテーブル１１０５ｂの構成を示す図である。時間的変化指標算出アルゴリズムテーブル１１０５ｂは、入力映像から抽出された種々の特徴量から時間的変化指標を算出するアルゴリズムを記憶する。

　時間的変化指標算出アルゴリズムテーブル１１０５ｂは、時間的変化指標の識別子である時間的変化指標ＩＤ１２０１に対応付けて、それぞれの時間的変化指標算出アルゴリズム１２０２を記憶する。ここで、時間的変化指標は、入力映像内の特徴量の時間方向への変化の大きさ、または、入力映像内の特徴量の時間方向への変化の過程で規定値を跨ぐ頻度である。

　例えば、以下の時間的変化指標算出アルゴリズム１２０２により算出できる。時間的変化指標を、映像区間内での特徴量の最大値と最小値の差を、特徴量が取りうる最大値で正規化した値とする。あるいは、時間的変化指標を、映像区間内の連続する２フレーム間の特徴量の変化量を累積し、累積値の取りうる最大値で正規化した値としてもよい。あるいは、時間的変化指標を、映像区間内で連続する２フレーム間の特徴量の変化量が第１規定値以上の回数をカウントし、規定の映像区間内のフレーム数で正規化した値としてもよい。あるいは、時間的変化指標を、映像区間内で特徴量の値が第２規定値以上の値から第２規定値未満の値、もしくは第２規定値未満の値から第２規定値以上の値に推移する回数をカウントし、映像区間内のフレーム数で正規化した値を用いてもよい。

　なお、時間的変化指標算出アルゴリズム１２０２は、上記アルゴリズムに限定されない。対象区間の重要度を判定する場合に使用可能な他の時間的変化指標算出アルゴリズムを用いても構わない。

　［第５実施形態］
　次に、本発明の第５実施形態に係る映像処理装置について説明する。本実施形態に係る映像処理装置は、入力映像の特徴量と、その特徴量に適切な時間的変化指標とを組み合わせて使用する点で異なる。その他の構成および動作は、第２実施形態乃至第４実施形態と同様であるため、同じ構成および動作については同じ符号を付してその詳しい説明を省略する。

　本実施形態によれば、入力映像に対して適応する特徴量および時間的変化指標を組み合わせて重要度を算出するので、入力映像に対してさらに適応するように、映像から重要な対象区間をより正確に選ぶことができる。

　《映像処理装置の機能構成》
　図１３は、本実施形態に係る映像処理装置１３００の機能構成を示すブロック図である。なお、図１３において、図３と同様の機能構成部には同じ参照番号を付して、説明を省略する。

　特徴量／有意度選定部１３０４は、特徴量／有意度組合せテーブル１３０４ａ（図１４参照）を有し、第３実施形態で示した入力映像の複数の特徴量と、第４実施形態で示した有意度算出方法との組合せを選定する。なお、複数の特徴量と有意度算出方法との組合せの選定については、入力映像の特徴をオペレータが判定して、オペレータによって選定してもよいし、入力映像の特徴を映像処理装置１３００が判定して、自動的に適切な組合せを選定してもよい。

　特徴量抽出部３０１および有意度判定部３０２は、特徴量／有意度選定部１３０４によって選定された複数の特徴量を抽出し、その複数の特徴量の、特徴量／有意度選定部１３０４によって選定された有意度を判定する。

　（特徴量／有意度組合せテーブル）
　図１４は、本実施形態に係る特徴量／有意度組合せテーブル１３０４ａの構成を示す図である。特徴量／有意度組合せテーブル１３０４ａは、入力映像に適する複数の特徴量と、有意度算出のアルゴリズムとの組合せを記憶する。

　特徴量／有意度組合せテーブル１３０４ａは、入力映像の識別子である入力映像ＩＤ１４０１とその映像の種別１４０２とに対応付けて、使用する複数の特徴量１４０３、使用する時間的変化指標１４０４、有意度算出アルゴリズム１４０５を記憶する。

　［第６実施形態］
　次に、本発明の第６実施形態に係る映像処理装置について説明する。本実施形態に係る映像処理装置は、上記第２実施形態乃至第５実施形態と比べると、全ての入力映像から特徴量を抽出して対象区間の重要度を算出するのではなく、入力映像からあらかじめ検出した対象区間について特徴量を抽出して重要度を算出する点で異なる。その他の構成および動作は、第２実施形態乃至第５実施形態と同様であるため、同じ構成および動作については同じ符号を付してその詳しい説明を省略する。

　本実施形態によれば、対象区間でない入力映像の特徴量抽出を含む映像処理を行なわないので、高速に映像から重要な対象区間を選ぶことができる。

　《映像処理装置の動作概念》
　図１５は、本実施形態に係る映像処理装置１５００の動作概念を説明する図である。なお、図１５は、本実施形態における処理を明瞭にする目的で、第２実施形態の図２Ａと類似の入力映像を示している。しかしながら、図１５においてあらかじめ検出する１つの対象区間が、図２Ａの区間に対応するものでなく、図２Ａの全体区間であってよい。

　図１５においては、まず、入力映像１５１０に基づいて、対象区間の重要度を判定する対象を有する対象区間１５１１～１５１３を検出する。そして、複数の特徴量である音エネルギー１５２０と動きベクトル平均（フレーム間の動きベクトルの平均値）１５３０との抽出は、検出した対象区間１５１１～１５１３の入力映像に対してのみ実行される。その結果、重要度を判定したい対象を有しない対象区間については、特徴量を抽出するムダを省くことができる。

　《映像処理装置の機能構成》
　図１６は、本実施形態に係る映像処理装置１５００の機能構成を示すブロック図である。なお、図１６において、図３と同様の機能構成部には同じ参照番号を付して、説明は省略する。図１６の映像処理装置１５００は、図３に加えて対象区間検出部１６０５を有する点で異なる。

　対象区間検出部１６０５は、映像入力部３１０から入力された画像データおよび音データから、注目する対象が画面上に映っている区間である対象区間を検出し、各対象区間の対象区間情報（対象区間の開始点と終了点の時刻）を特徴量抽出部３０１と重要度判定部３０３に入力する。

　したがって、特徴量抽出部３０１は、全入力映像でなく、対象区間内の映像の特徴量を抽出する。また、重要度判定部３０３は、対象区間内にある対象区間の重要度を判定する。

　（対象区間検出部）
　図１７Ａは、本実施形態に係る対象区間検出部１６０５の構成を示すブロック図である。

　対象区間検出部１６０５は、映像入力部３１０からの入力映像を取得する入力映像取得部１７０１を有する。そして、対象区間選別部１７０２が、取得した入力映像から対象を有する対象区間を選別する。対象区間選別部１７０２は、対象区間検出のために使用される対象区間検出テーブル１７０２ａと、対象区間検出のアルゴリズムを記憶する対象区間検出アルゴリズムテーブル１７０２ｂとを有する。

　図１７Ｂは、本実施形態に係る対象区間検出テーブル１７０２ａの構成を示す図である。対象区間検出テーブル１７０２ａは、対象区間検出部１６０５が入力映像から対象区間を検出するために使用される。

　対象区間検出テーブル１７０２ａは、対象を有する対象区間ＩＤ１７１１に対応付けて、区間開始フレーム１７１２、区間終了フレーム１７１３、そして、対象区間を検出したアルゴリズム１７１４を記憶する。

　図１８は、本実施形態に係る対象区間検出アルゴリズムテーブル１７０２ｂの構成を示す図である。対象区間検出アルゴリズムテーブル１７０２ｂは、本実施形態により好適に使用可能な種々の対象区間検出アルゴリズムを記憶する。

　対象区間検出アルゴリズムテーブル１７０２ｂは、対象区間検出ＩＤ１８０１に対応付けて、対象区間検出アルゴリズム１８０２を記憶する。

　対象区間検出アルゴリズム１８０２としては、以下のアルゴリズムが使用される。例えば、対象区間は、画像データから以下の方法で検出してよい。また、対象区間は、対象領域を各フレームから検出し、対象が検出された連続区間をもとに対象の登場している区間を推定し、対象の登場から消滅までを１つの区間としてもよい。あるいは、対象区間は、対象領域が連続して検出された区間を一定時間で分割した単位区間としてもよいし、対象の画像的変化や音響的変化をもとに分割した区間としてもよい。

　また、対象領域の検出方法として、登録された各対象の画像データをテンプレートとし、様々な解像度に変換したテンプレートで入力画像を走査し、テンプレートと同じ位置の画素値の差分が小さい領域を対応する対象領域として検出してもよい。あるいは、対象領域の検出方法として、入力画像の各部分領域から色・テクスチャ・形状を表現する画像特徴量を抽出し、登録された各対象の画像特徴量と類似した画像特徴量をもつ部分領域を対応する対象領域として検出してもよい。

　また、対象が人物の場合には、顔全体から得られる情報を利用する手法がある。例えば、人物検出方法として、様々な顔の映っている画像をテンプレートとして記憶し、入力画像とテンプレートの差分がある閾値以下のとき顔が入力画像中に存在すると判定する手法が挙げられる。また、人物検出方法として、肌色などの色情報や、エッジの方向や密度を組み合わせたモデルをあらかじめ記憶しておき、入力フレームからモデルに類似した領域が検出された場合に顔が存在すると判定する手法が考えられる。また、人物検出方法として、顔(頭部)の輪郭を楕円、目や口を細長の形状をしていることを利用して作成したテンプレートを用いて顔検出を行なう手法が挙げられる。また、人物検出方法として、頬や額の部分は輝度が高く、目や口の部分の輝度は低いという輝度分布の特性を利用して顔検出する手法が挙げられる。また、人物検出方法として、顔の対称性や肌色領域と位置を利用して顔検出を行なう手法なども挙げられる。また、人物検出方法として、大量の人物顔と非顔の学習サンプルから得られた特徴量分布を統計的に学習し、入力画像から得られる特徴量が顔と非顔のどちらの分布に属するかを判定する手法として、ニューラルネットやサポートベクターマシン、AdaBoost（Adaptive Boosting)法などを利用した手法が挙げられる。

　また、対象区間は音データをもとに以下の方法で検出してよい。あらかじめ、対象の発する音の周波数特性を登録しておき、入力映像中の音データから登録した周波数特性と類似した特性をもつ音データが検出された場合に、その区間を対象区間として検出する。

　なお、対象区間の検出アルゴリズムは、以上の例に限定されず、対象区間の重要度を判定するための対象区間を検出可能なアルゴリズムであればよい。すなわち、対象区間の重要度の判定がオペレータに対応する特殊な条件を有するものであれば、その特殊な条件に対応して対象区間が検出されればよい。

　《映像処理装置の処理手順》
　図１９は、本実施形態に係る映像処理装置１５００の処理手順を示すフローチャートである。このフローチャートは、図７のＣＰＵ７１０がＲＡＭ７４０を使用して実行し、図１６、図１７Ａの各機能構成部を実現する。なお、図１９において、図８と同様のステップには同じステップ番号を付して、説明は省略する。

　ステップＳ１９０１において、映像処理装置１５００は、入力映像から対象を含む対象区間を検出する。そして、ステップＳ１９０２において、映像処理装置１５００は、対象区間の映像フレームの画像データ／音データを入力する。すなわち、ステップＳ８０３において、映像処理装置１５００は、対象区間の映像フレームから複数の特徴量を抽出する。ステップＳ１９０５において、映像処理装置１５００は、対象区間の特徴量抽出処理の終了を待つ。

　本実施形態では、対象区間から抽出した特徴量の時間的変化指標に基づいて特徴量の有意度を算出し、有意度を重みとして用いることで対象区間の重要度を算出する。そのため、対象区間以外の映像区間における音や画像情報の映像を受けずに、入力映像に応じた重視すべき特徴量の特定し、その特徴に基づく重要度の算出が可能である。

　［第７実施形態］
　次に、本発明の第７実施形態に係る映像処理装置について説明する。本実施形態に係る映像処理装置は、上記第２実施形態乃至第６実施形態と比べると、全ての入力映像から特徴量を抽出して対象区間の重要度を算出するのではなく、入力映像からシーンを分割してから、シーン分割に応じて特徴量を抽出して重要度を算出する点で異なる。その他の構成および動作は、第２実施形態乃至第６実施形態と同様であるため、同じ構成および動作については同じ符号を付してその詳しい説明を省略する。

　本実施形態によれば、シーンの切り替えを考慮して重要度の算出を行なうので、映像から重要な対象区間としてシーン切り替え区間を選ぶことができる。

　《映像処理装置の動作概念》
　図２０は、本実施形態に係る映像処理装置２０００の動作概念を説明する図である。なお、図２０は、本実施形態における処理を明瞭にする目的で、第２実施形態の図２Ａおよび第６実施形態の図１５と類似の入力映像を示している。しかしながら、図２０においてシーンが、図２Ａおよび図１５に対応するものでなくてよい。

　図２０においては、まず、入力映像２０１０に基づいて、シーンを分割する。図２０においては、１つの演目のシーン２０１１と、演目間の退場／入場のシーン２０１２と、次の演目のシーン２０１３と、に分割された例を示す。次に、各シーン２０１１～２０１３の入力映像２０１０に基づいて、重要度を判定する対象を有する対象区間２０２１～２０２４を検出する。

　ここで、対象区間２０２２は、シーン２０１１からシーン２０１２への切り替えの冒頭であり、重要度を判定する対象区間に含まれている。このように、単に特徴量の有意度のみに依存するのでなく、シーンの切り替わりを重要度に加味することで、入力映像の関連（物語性）が失われるのを防ぐことができる。そして、複数の特徴量である音エネルギー１５２０と動きベクトル平均（フレーム間の動きベクトルの平均値）１５３０との抽出は、対象区間２０２１～２０２４の入力映像に対してのみ実行される。その結果、重要度を判定しない映像区間については、特徴量を抽出するムダを省くことができる。

　《映像処理装置の機能構成》
　図２１は、本実施形態に係る映像処理装置２０００の機能構成を示すブロック図である。なお、図２１において、図３または図１６と同様の機能構成部には同じ参照番号を付して、説明は省略する。図２１の映像処理装置２０００は、図１６に加えてシーン分割部２１０６を有する点で異なる。

　シーン分割部２１０６は、映像入力部３１０から入力された画像データおよび音データから、入力映像を複数のシーンに分割する。そして、シーン分割部２１０６は、各シーンのシーン情報(シーンの開始点と終了点の時刻)を、対象区間検出部１６０５と重要度判定部３０３に入力する。

　したがって、特徴量抽出部３０１は、全入力映像でなく、シーン分割部２１０６により分割されたシーンを考慮して、対象区間検出部１６０５が検出した対象区間内の映像の特徴量を抽出する。また、重要度判定部３０３は、シーン分割部２１０６により分割されたシーンを考慮して、対象区間内にある映像区間の重要度を判定する。

　（シーン分割部）
　図２２Ａは、本実施形態に係るシーン分割部２１０６の構成を示すブロック図である。

　シーン分割部２１０６は、映像入力部３１０からの入力映像を取得する入力映像取得部２２０１を有する。そして、シーン判定部２２０２が、取得した入力映像からシーンを判定する。シーン判定部２２０２は、シーン判定のために使用されるシーン判定テーブル２２０２ａと、シーン判定のアルゴリズムを記憶するシーン判定アルゴリズムテーブル２２０２ｂとを有する。

　図２２Ｂは、本実施形態に係るシーン判定テーブル２２０２ａの構成を示す図である。シーン判定テーブル２２０２ａは、シーン分割部２１０６が入力映像からシーンを判定するために使用される。

　シーン判定テーブル２２０２ａは、シーンＩＤ２２１１に対応付けて、シーン開始フレーム２２１２、シーン終了フレーム２２１３、そして、シーンを判定したアルゴリズム２２１４を記憶する。

　図２３は、本実施形態に係るシーン判定アルゴリズムテーブル２２０２ｂの構成を示す図である。シーン判定アルゴリズムテーブル２２０２ｂは、本実施形態により好適に使用可能な種々のシーン判定アルゴリズムを記憶する。

　シーン判定アルゴリズムテーブル２２０２ｂは、シーン判定ＩＤ２３０１に対応付けて、シーン判定アルゴリズム２３０２を記憶する。

　ここで、シーンとは、映像の撮影場所や映像内の事象の変化点で区切った映像区間である。したがって、シーンは、画像データや音データをもとに、例えば以下の方法で検出できる。例えば、シーン判定において、屋内と屋外とで撮影した箇所でのシーン分割は、環境音の変化として音圧レベルの平均の変化点、あるいは、背景の変化としてフレームの画像特徴の変化点で映像を分割することで実現できる。また、シーン判定において、運動会で子供達が整列して並んでいる箇所と子供達が踊っている箇所のシーン分割は、ある窓幅内での画面上の動きベクトルの平均の方向や大きさが変化した点で映像を分割することで実現できる。

　なお、シーン判定アルゴリズムは、以上の例に限定されず、対象区間の重要度を判定するためのシーン分割可能なアルゴリズムであればよい。すなわち、対象区間の重要度の判定が特殊なシーンに関連するものであれば、その特殊なシーンを分割すればよい。

　《映像処理装置の処理手順》
　図２４は、本実施形態に係る映像処理装置２０００の処理手順を示すフローチャートである。このフローチャートは、図７のＣＰＵ７１０がＲＡＭ７４０を使用して実行し、図２１、図２２Ａの各機能構成部を実現する。なお、図２４において、図８あるいは図１９と同様のステップには同じステップ番号を付して、説明は省略する。

　ステップＳ２４０１において、映像処理装置２０００は、入力映像からシーンを分割する。そして、ステップＳ１９０１において、映像処理装置２０００は、入力映像から対象を含む対象区間を検出して、ステップＳ１９０２において、映像処理装置２０００は、対象区間の映像フレームの画像データ／音データを入力する。すなわち、ステップＳ８０３において、映像処理装置２０００は、分割したシーンを考慮して、対象区間の映像フレームから複数の特徴量を抽出する。

　本実施形態においては、映像特性に基づいて区切られたシーン単位ごとに、対象区間から抽出した特徴量の時間的変化指標に基づいて特徴量の有意度を算出し、有意度を重みとして用いることで対象区間の重要度を算出する。そのため、対象区間以外の映像区間における音や画像情報の映像を受けずに、シーンに応じた重視すべき特徴量の特定し、その特徴に基づく重要度の算出が可能である。

　そして、各シーンから重要度の高い順に既定数個の対象区間を選択し、選択された対象区間情報をもとに映像入力部から入力される画像データおよび音データから対象区間に対応するデータを切り出し、切り出した対象区間をつなぎ合わせることによって、要約映像を生成してもよい。あるいは、各シーンから重要度をもとに既定数個の対象区間を選択し、選択された対象区間、および選択された対象区間との類似性が低い対象区間以外の区間を切り出してつなぎ合わせることで、要約映像を生成してもよい。

　［第８実施形態］
　次に、本発明の第８実施形態に係る映像処理装置について説明する。上記第２実施形態乃至第７実施形態においては、映像処理装置は映像入力部と映像出力部とを含んでいなかった。本実施形態に係る映像処理装置は、映像処理装置が映像入力部と映像出力部とを含む点で異なる。その他の構成および動作は、第２実施形態乃至第７実施形態と同様であるため、同じ構成および動作については同じ符号を付してその詳しい説明を省略する。

　本実施形態によれば、映像入力部と映像出力部とを含むので、入力映像から特定のイベントや対象に関する冗長のない新規映像を生成することができる。

　《映像処理装置の機能構成》
　図２５は、本実施形態に係る映像処理装置２５００の機能構成を示すブロック図である。なお、図２５において、第２実施形態の図３と同様の機能構成部には同じ参照番号を付して、説明を書略する。

　図２５の映像処理装置２５００は、映像入力部２５１０と映像出力部２５２０とを備える（図７の入出力インタフェース７６０参照）。すなわち、映像処理装置２５００が、例えば、ビデオカメラのように、映像入力部２５１０から映像を入力すると共に、入力映像に処理を加えて、映像出力部２５２０から出力する。

　例えば、映像処理装置２５００は、映像入力部２５１０から入力される入力映像から、重要度の高い順に既定数個の対象区間を選択し、選択された対象区間情報をもとに画像データおよび音データから対象区間に対応するデータを切り出す。そして、映像処理装置２５００は、切り出した対象区間をつなぎ合わせることによって、要約映像を生成して映像出力部２５２０から出力してもよい。あるいは、映像処理装置２５００は、入力映像から、重要度をもとに既定数個の対象区間を選択し、選択された対象区間、および選択された対象区間との類似性が低い対象区間以外の区間を切り出してつなぎ合わせることで、要約映像を生成して映像出力部２５２０から出力してもよい。

　本実施形態によれば、入力映像から特定のイベントや対象に関する冗長のない新規映像を生成するための映像処理装置や、新規映像生成をコンピュータにより実現するためのプログラムといった用途に適用できる。

　［他の実施形態］
　以上、実施形態を参照して本発明を説明したが、本発明は上記実施形態に限定されるものではない。本発明の構成や詳細には、本発明のスコープ内で当業者が理解し得る様々な変更をすることができる。また、それぞれの実施形態に含まれる別々の特徴を如何様に組み合わせたシステムまたは装置も、本発明の範疇に含まれる。

　また、本発明は、複数の機器から構成されるシステムに適用されてもよいし、単体の装置に適用されてもよい。さらに、本発明は、実施形態の機能を実現する制御プログラムが、システムあるいは装置に直接あるいは遠隔から供給される場合にも適用可能である。したがって、本発明の機能をコンピュータで実現するために、コンピュータにインストールされる制御プログラム、あるいはその制御プログラムを格納した媒体、その制御プログラムをダウンロードさせるＷＷＷ（World Wide Web)サーバも、本発明の範疇に含まれる。

　［実施形態の他の表現］
　上記の実施形態の一部または全部は、以下の付記のようにも記載されうるが、以下には限られない。

　（付記１）
　入力映像から抽出された複数の特徴量それぞれの時間的変化に基づいて、前記入力映像中の対象区間の重要度判定に対する前記複数の特徴量それぞれの寄与の度合いを示す有意度を判定する有意度判定手段と、
　前記入力映像中の対象区間の重要度を、前記複数の特徴量と前記有意度判定手段が判定した前記有意度とに基づいて判定する重要度判定手段と、
　を備える映像処理装置。
（付記２）
　前記有意度判定手段は、前記複数の特徴量それぞれの時間的変化の指標となる特徴量の時間的変化指標値を算出し、前記特徴量の時間的変化指標値が大きいほど高い有意度であると判定する付記１に記載の映像処理装置。
（付記３）
　前記有意度判定手段は、前記複数の特徴量それぞれの前記時間的変化指標値を前記複数の特徴量の前記時間的変化指標値の和で除算した結果を、前記有意度とする付記２に記載の映像処理装置。
（付記４）
　前記時間的変化指標値は、前記入力映像内の特徴量の時間方向への変化の大きさを示す値、または、前記入力映像内の特徴量の時間方向への変化の過程で規定値を跨ぐ頻度を示す値を含む付記１乃至３のいずれか１項に記載の映像処理装置。
（付記５）
　前記時間的変化指標値は、前記映像区間内での特徴量の最大値と最小値の差を、特徴量が取りうる最大値で正規化した値と、前記映像区間内の連続する２フレーム間の特徴量の変化量を累積し、累積値の取りうる最大値で正規化した値と、前記映像区間内で連続する２フレーム間の特徴量の変化量が第１規定値以上の回数をカウントし、前記映像区間内のフレーム数で正規化した値と、前記映像区間内で特徴量の値が第２規定値以上の値から前記第２規定値未満の値に推移する回数、もしくは前記第２規定値未満の値から前記第２規定値以上の値に推移する回数をカウントし、前記映像区間内のフレーム数で正規化した値と、のいずれかである付記４に記載の映像処理装置。
（付記６）
　前記重要度判定手段は、前記入力映像中の対象となる対象区間内の前記複数の特徴量に対し前記有意度で重み付けした値の総和を、前記対象区間の重要度とする付記１乃至５のいずれか１項に記載の映像処理装置。
（付記７）
　前記入力映像をあらかじめ複数の対象区間を検出する対象区間検出手段を、さらに備え、
　前記有意度判定手段は、前記複数の対象区間の各対象区間内における前記複数の特徴量の時間的変化に基づいて、前記分割した対象区間の重要度判定に対する前記複数の特徴量それぞれの有意度を判定する付記１乃至６のいずれか１項に記載の映像処理装置。
（付記８）
　前記対象区間検出手段は、
　対象区間を、画像データをもとに検出する場合、
　　対象領域を各フレームから検出し、対象が検出された連続区間をもとに対象の登場している区間を推定し、対象の登場から消滅までを１つの対象区間とする分割、対象領域が連続して検出された区間を一定時間で分割した単位区間とする分割、あるいは、対象の画像的変化や音響的変化をもとに分割した区間とする分割を含み、
　　登録された各対象の画像データをテンプレートとし、様々な解像度に変換したテンプレートで入力画像を走査し、テンプレートと同じ位置の画素値の差分が小さい領域を対応する対象領域として検出し、あるいは、入力画像の各部分領域から色・テクスチャ・形状を表現する画像特徴量を抽出し、登録された各対象の画像特徴量と類似した画像特徴量をもつ部分領域を対応する対象領域として検出し、
　　対象が人物の場合には、顔全体から得られる情報を利用する手法として、様々な顔の映っている画像をテンプレートとして記憶し、入力画像とテンプレートの差分がある閾値以下のとき顔が入力画像中に存在すると判定する手法、また、肌色などの色情報や、エッジの方向や密度を組み合わせたモデルをあらかじめ記憶しておき、入力フレームからモデルに類似した領域が検出された場合に顔が存在すると判定する手法、また、顔または頭部の輪郭を楕円、目や口を細長の形状をしていることを利用して作成したテンプレートを用いて顔検出を行なう手法や、頬や額の部分は輝度が高く、目や口の部分の輝度は低いという輝度分布の特性を利用して顔検出を行なう手法や、顔の対称性や肌色領域と位置を利用して顔検出を行なう手法を含み、
　　また、大量の人物顔と非顔の学習サンプルから得られた特徴量分布を統計的に学習し、入力画像から得られる特徴量が顔と非顔のどちらの分布に属するかを判定する手法として、ニューラルネットやサポートベクターマシン、AdaBoost法などを利用した手法を含み、
　また、対象区間を、音データをもとに検出する場合、
　　あらかじめ、対象の発する音の周波数特性を登録しておき、入力映像中の音データから登録した周波数特性と類似した特性をもつ音データが検出された場合に、その区間を対象区間として検出する付記７に記載の映像処理装置。
（付記９）
　前記入力映像をあらかじめ複数のシーンに分割するシーン分割手段を、さらに備え、
　前記重要度判定手段は、前記シーン分割手段により分割されたシーンと、前記有意度判定手段により判定された特徴量の有意度とに基づいて、対象区間の重要度を判定する付記１乃至８のいずれか１項に記載の映像処理装置。
（付記１０）
　前記シーン分割手段は、映像の撮影場所や映像内の事象の変化点で区切った映像区間をシーンとし、撮影した箇所でのシーン分割を、環境音の変化として音圧レベルの平均の変化点、あるいは、背景の変化としてフレームの画像特徴の変化点で行ない、また、同じ箇所でのシーン分割を、ある窓幅内での画面上の動きベクトルの平均の方向や大きさが変化した点で行なう付記９に記載の映像処理装置。
（付記１１）
　前記複数の特徴量は、前記入力映像中から検出した対象物の動きを示す特徴量と、前記対象物の発する音に基づく特徴量とを含む付記１乃至１０のいずれか１項に記載の映像処理装置。
（付記１２）
　前記複数の特徴量は、
　　前記入力映像中の画像データから得られる特徴量として、映像を構成する各フレームから抽出したフレーム全体の輝度平均値と、色やエッジのヒストグラムと、フレームを一定サイズに分割した各ブロックの位置と各ブロックから抽出した色やエッジに基づく値と、フレーム上の特徴点の周囲から取得される輝度勾配ヒストグラムと、局所特徴量と、連続するフレーム上の全特徴点の動きベクトルの絶対値の平均値や平均動きベクトルの絶対値と、全特徴点の各動きベクトルから画面全体の平均的な動きベクトルで表わされるカメラの移動量を差し引いた、特徴点の実際の移動ベクトルの平均値と、のいずれかを含み、
　　前記入力映像中の音データから得られる特徴量として、単位時間あたりの平均エネルギー値と、パワースペクトラム係数の加重和と、のいずれかを含む付記１１に記載の映像処理装置。
（付記１３）
　前記入力映像を取得する映像入力手段と、
　前記重要度判定手段が判定した重要度に従って、前記入力映像中の対象区間を選別して出力する映像出力手段と、
　をさらに備える付記１乃至１２のいずれか１項に記載の映像処理装置。
（付記１４）
　入力映像から抽出された複数の特徴量それぞれの時間的変化に基づいて、前記入力映像中の対象区間の重要度判定に対する前記複数の特徴量それぞれの寄与の度合いを示す有意度を判定する有意度判定ステップと、
　前記入力映像中の対象区間の重要度を、前記複数の特徴量と前記有意度判定ステップにおいて判定した前記有意度とに基づいて判定する重要度判定ステップと、
　を含む映像処理装置の制御方法。
（付記１５）
　入力映像から抽出された複数の特徴量それぞれの時間的変化に基づいて、前記入力映像中の対象区間の重要度判定に対する前記複数の特徴量それぞれの寄与の度合いを示す有意度を判定する有意度判定ステップと、
　前記入力映像中の対象区間の重要度を、前記複数の特徴量と前記有意度判定ステップにおいて判定した前記有意度とに基づいて判定する重要度判定ステップと、
　をコンピュータに実行させる映像処理装置の制御プログラムを格納した記憶媒体。
（付記１６）
　入力映像から抽出された複数の特徴量それぞれの時間的変化に基づいて、前記入力映像中の対象区間の重要度判定に対する前記複数の特徴量それぞれの寄与の度合いを示す有意度を判定し、
　前記入力映像中の対象区間の重要度を、前記複数の特徴量と前記複数の特徴量それぞれの前記有意度とに基づいて算出する映像重要度算出方法。

　この出願は、２０１２年６月１３日に出願された日本国特許出願　特願２０１２－１３３５１０号を基礎とする優先権を主張し、その開示の全てをここに取り込む。

Claims

　入力映像から抽出された複数の特徴量それぞれの時間的変化に基づいて、前記入力映像中の対象区間の重要度判定に対する前記複数の特徴量それぞれの寄与の度合いを示す有意度を判定する有意度判定手段と、
　前記入力映像中の対象区間の重要度を、前記複数の特徴量と前記有意度判定手段が判定した前記有意度とに基づいて判定する重要度判定手段と、
　を備える映像処理装置。
　前記有意度判定手段は、前記複数の特徴量それぞれの時間的変化の指標となる特徴量の時間的変化指標値を算出し、前記特徴量の時間的変化指標値が大きいほど高い有意度であると判定する請求項１に記載の映像処理装置。
　前記時間的変化指標値は、前記入力映像内の特徴量の時間方向への変化の大きさを示す値、または、前記入力映像内の特徴量の時間方向への変化の過程で規定値を跨ぐ頻度を示す値を含む請求項１または２に記載の映像処理装置。
　前記重要度判定手段は、前記入力映像中の対象となる対象区間内の前記複数の特徴量に対し前記有意度で重み付けした値の総和を、前記対象区間の重要度とする請求項１乃至３のいずれか１項に記載の映像処理装置。
　前記入力映像をあらかじめ複数の対象区間を検出する対象区間検出手段を、さらに備え、
　前記有意度判定手段は、前記複数の対象区間の各対象区間内における前記複数の特徴量の時間的変化に基づいて、前記分割した対象区間の重要度判定に対する前記複数の特徴量それぞれの有意度を判定する請求項１乃至４のいずれか１項に記載の映像処理装置。
　前記入力映像をあらかじめ複数のシーンに分割するシーン分割手段を、さらに備え、
　前記重要度判定手段は、前記シーン分割手段により分割されたシーンと、前記有意度判定手段により判定された特徴量の有意度とに基づいて、対象区間の重要度を判定する請求項１乃至５のいずれか１項に記載の映像処理装置。
　前記複数の特徴量は、前記入力映像中から検出した対象物の動きを示す特徴量と、前記対象物の発する音に基づく特徴量とを含む請求項１乃至６のいずれか１項に記載の映像処理装置。
　入力映像から抽出された複数の特徴量それぞれの時間的変化に基づいて、前記入力映像中の対象区間の重要度判定に対する前記複数の特徴量それぞれの寄与の度合いを示す有意度を判定する有意度判定ステップと、
　前記入力映像中の対象区間の重要度を、前記複数の特徴量と前記有意度判定ステップにおいて判定した前記有意度とに基づいて判定する重要度判定ステップと、
　を含む映像処理装置の制御方法。
　入力映像から抽出された複数の特徴量それぞれの時間的変化に基づいて、前記入力映像中の対象区間の重要度判定に対する前記複数の特徴量それぞれの寄与の度合いを示す有意度を判定する有意度判定ステップと、
　前記入力映像中の対象区間の重要度を、前記複数の特徴量と前記有意度判定ステップにおいて判定した前記有意度とに基づいて判定する重要度判定ステップと、
　をコンピュータに実行させる映像処理装置の制御プログラムを格納した記憶媒体。
　入力映像から抽出された複数の特徴量それぞれの時間的変化に基づいて、前記入力映像中の対象区間の重要度判定に対する前記複数の特徴量それぞれの寄与の度合いを示す有意度を判定し、
　前記入力映像中の対象区間の重要度を、前記複数の特徴量と前記複数の特徴量それぞれの前記有意度とに基づいて算出する映像重要度算出方法。