WO2010087127A1

WO2010087127A1 - 映像識別子生成装置

Info

Publication number: WO2010087127A1
Application number: PCT/JP2010/000283
Authority: WO
Inventors: 大網亮磨; 岩元浩太
Original assignee: 日本電気株式会社
Priority date: 2009-01-29
Filing date: 2010-01-20
Publication date: 2010-08-05
Also published as: US20110285904A1; CN102301697B; EP2423839A2; EP2393290B1; EP2393290A1; JPWO2010087127A1; KR101290023B1; EP2423839B1; EP2393290A4; KR20110110252A; JP4883227B2; CN102301697A; EP2423839A3; JP2012109979A

Abstract

　この映像識別子生成装置は、映像中の、複数の部分領域対の特徴量に基づいて上記映像の識別に用いる視覚特徴量を抽出する視覚特徴量抽出手段と、上記視覚特徴量の信頼度を算出する手段であって、上記映像が特定の映像である場合には、上記特定の映像以外の映像である場合に比べて、より値の小さな信頼度を算出する信頼度算出手段とを備える。

Description

映像識別子生成装置

　本発明は数多くの動画像の中から、類似あるいは同一の動画像区間を検出する映像検索用の映像識別子を生成する装置、方法、およびプログラムに関する。

　動画像から特徴量を抽出し、照合する装置の一例が、非特許文献１に記載されている。図９は、特許文献１に記された装置をあらわすブロック図である。

　ブロック単位特徴量抽出手段１０００は、入力される第１の映像からブロック単位で特徴量を抽出し、第１の特徴量を照合手段１０３０へ出力する。ブロック単位特徴量抽出手段１０１０は、入力される第２の映像からブロック単位で特徴量を抽出し、第２の特徴量を照合手段１０３０へ出力する。重み付け係数算出手段１０２０は、入力される学習用映像に基づいて各ブロックの重みの値を算出し、重み付け係数を照合手段１０３０へ出力する。照合手段１０３０は、重み付け係数算出手段１０２０から出力される重み付け係数を用いて、ブロック単位特徴量抽出手段１０００から出力される第１の特徴量と、ブロック単位特徴量抽出手段１０１０から出力される第２の特徴量とを照合し、照合結果を出力する。

　次に、図９に示す装置の動作について説明する。

　ブロック単位特徴量抽出手段１０００では、入力される第１の映像の各フレームをブロック単位に分割し、各ブロックから映像を識別するための特徴量を算出する。具体的には、ブロックごとにエッジのタイプを判定し、そのタイプを各ブロックの特徴量として算出する。そして、各フレームに対して、各ブロックのエッジタイプからなる特徴量ベクトルを構成する。この特徴量ベクトルを各フレームに対して算出し、得られた特徴量を第１の特徴量として照合手段１０３０へ出力する。

　ブロック単位特徴量抽出手段１０１０の動作もブロック単位特徴量抽出手段１０００と同様であり、入力される第２の映像から第２の特徴量を算出し、得られた第２の特徴量を照合手段１０３０へ出力する。

　一方、重み付け係数算出手段１０２０では、事前に学習用映像を用いて、フレーム内の各ブロックにおいてテロップが挿入される確率を算出する。そして、算出された確率に基づいて、各ブロックの重み付け係数を算出する。具体的には、テロップ重畳に対しての頑健性を高めるために、テロップが重畳される確率が低いほど、重みが高くなるようにして重み付け係数を算出する。得られた重み付け係数は、照合手段１０３０へ出力される。

　照合手段１０３０では、重み付け係数算出手段１０２０から出力される重み付け係数を用いて、ブロック単位特徴量抽出手段１０００から出力される第１の特徴量とブロック単位特徴量抽出手段１０１０から出力される第２の特徴量とを照合する。具体的には、フレームごとに、同じ位置にあるブロックの特徴量を比較し、同じであれば1、そうでなければ0としてブロック単位のスコアを算出する。得られたブロック単位のスコアを重み付け係数を用いて加重して合計し、フレームの照合スコア（フレーム単位の類似度）を算出する。これを各フレームに対して行い、第１の映像と第２の映像の照合結果を算出する。

　このようにすることで、テロップ重畳の影響が大きいところの影響を抑えて動画像の照合を行うことが可能となり、テロップ重畳がある場合であっても高い照合精度を達成できる。

Kota Iwamoto, Eiji Kasutani, Akio Yamada, 「ImageSignature Robust to Caption Superimposition for Video Sequence Identification」，Proceedings of International Conference on Image Processing(ICIP2006)，2006． Eiji Kasutani, Ryoma Oami, Akio Yamada, Takami Sato and Kyoji Hirata「Video Material Archive System for Efficient Video Editing Based onMedia Identification」，Proceedings of InternationalConference on Multimedia and Expo (ICME2004)，pp.727--730,2004．

　ところで、動画像の照合精度を低下させる要因には、上述したテロップ重畳以外にも存在する。例えば、黒いフレームにフェードアウトしていくシーンは、多くの映像中に共通に現れるため、動画像の照合精度を低下させる。また、殆ど均一の値しか有さないフレームは、特徴量が安定的に求まらないため、動画像の照合精度を低下させる。つまり、黒いフレームにフェードアウトしていくシーンなどのように、独立な映像間であっても生じえる類似（ほぼ同一）の映像区間や、殆ど均一の値しか有さないフレームなどのように、特徴量の信頼性が低い映像区間を、他の通常の区間と同様に扱って照合を行うと、過剰に検出したり、検出もれが生じたりする。この結果、照合精度が低下するという問題があった。

［発明の目的］
　本発明の目的は、多くの映像中に共通に現れる映像パタンや、特徴量が安定的に求まらない映像パタンなどが映像中に存在していると照合精度が低下する、という課題を解決する映像識別子生成装置を提供することにある。

　本発明の一形態にかかる映像識別子生成装置は、映像中の、複数の部分領域対の特徴量に基づいて上記映像の識別に用いる視覚特徴量を抽出する視覚特徴量抽出手段と、上記視覚特徴量の信頼度を算出する手段であって、上記映像が特定の映像である場合には、上記特定の映像以外の映像である場合に比べて、より値の小さな信頼度を算出する信頼度算出手段とを備える。

　本発明によれば、多くの映像中に共通に現れる映像パタンや、特徴量が安定的に求まらない映像パタンなどによる照合精度の低下を防止することができる。

本発明にかかる映像識別子生成装置の第１の実施の形態を表すブロック図である。本発明にかかる映像識別子生成装置の第２の実施の形態を表すブロック図である。本発明にかかる映像識別子生成装置の第３の実施の形態を表すブロック図である。本発明にかかる映像識別子生成装置の第４の実施の形態を表すブロック図である。本発明にかかる映像識別子生成装置の他の実施の形態を表すブロック図である。本発明にかかる映像識別子照合装置の実施の形態を表すブロック図である。本発明にかかる映像識別子照合装置の他の実施の形態を表すブロック図である。２つの映像の照合処理を説明するための図である。図３の共通映像パタン学習手段２５０の動作を説明するフローチャートである。図４の頑健性低下映像パタン学習手段３５０の動作を説明するフローチャートである。本発明に関連する技術を説明するためのブロック図である。

　次に、発明を実施するための形態について図面を参照して詳細に説明する。

　図１を参照すると、本発明の第１の実施の形態の映像識別子抽出装置が示されており、特徴量抽出手段１３０と、特定映像パタン検出手段１１０と、信頼度算出手段１２０とからなる。

　特徴量抽出手段１３０は、入力される映像から特徴量を抽出し、視覚特徴量を出力する。特定映像パタン検出手段１１０は、入力映像から特定パタンを検出し、特定パタン検出結果を信頼度算出手段１２０へ出力する。信頼度算出手段１２０は、特定映像パタン検出手段１１０から出力される特定パタン検出結果に基づいて信頼度を算出し、信頼度情報を出力する。特徴量抽出手段１３０から出力された視覚特徴量と信頼度算出手段１２０から出力された信頼度情報とから入力映像の映像識別子が構成される。視覚特徴量と信頼度情報とは、両者の対応関係が明確にされていれば独立していてもよいし、後述する多重化手段を用いる実施の形態のように一体化されていてもよい。

　次に、図１に示す第１の実施の形態の動作について詳細に説明する。

　まず、映像は特徴量抽出手段１３０へ入力される。元の映像が符号化されている場合には、復号器によって復号されてから、ピクチャ単位でデータが入力されるものとする。

　ここで、ピクチャとは、画面を構成する単位であり、通常はフレームやフィールドからなる。ただし、ピクチャはこれらには限らず、画面を構成する単位であれば、どのようなものでもよい。また、画面の一部を切り出した部分画像であってもよい。例えば、黒帯が拭かされた画像の場合には、それを除いた画面をピクチャとしてもよい。ここで、黒帯とは、例えば4:3と16:9のアスペクト変換によって画面の上下や左右に挿入される黒い余白領域を指す。

　特徴量抽出手段１３０では、ピクチャ毎に特徴量ベクトルを算出する。ピクチャを1枚の静止画とみなし、この色や模様、形などの特徴を示す視覚特徴量のベクトルを抽出する。この特徴量として、特徴量ベクトルの各次元に対応付けられた局所領域対に対して領域間における特徴量の差を算出し（例えば、領域対の各領域に対して領域内での画素値の平均値を求め、領域間で平均値の差を算出する）、差を量子化して得られる量子化値を各次元の値とする特徴量ベクトルを用いても良い。ピクチャ毎に算出された特徴量ベクトルは、視覚特徴量として出力される。

　一方、入力映像は、特定映像パタン検出手段１１０へも入力される。ここで、映像を識別する上で望ましくない映像パタンを検出し、特定パタン検出結果が出力される。

　望ましくない映像パタンとしては、本来全く別の映像であるにもかかわらず、たまたま殆ど同一になってしまう映像パタン（シーン）がある。例えば、映画で多用される黒フレームへのフェードアウトがこの代表例である。フェードアウトという映像編集技法は多くの全く異なる映像で用いられるが、もとの映像の内容如何にかかわらず、フェードアウトした後は、真っ黒なシーンになってしまい、映像間の差異がなくなる。このように、多数の全く異なる映像間で発生する共通映像パタンのことを意味している。このような映像パタンは特徴量の種類によらず、どのような特徴量を用いる場合にも、識別上問題になる映像パタンである。

　一方、特徴量の種類によって変わる望ましくない映像パタンもある。具体的には、特徴量が不安定で頑健性がなくなる場合である。例えば、平坦な画素値を有するシーンのように、画像的に特徴が少ない場合には、特徴量によってはノイズ等の影響を受けやすくなり、頑健性が低下する。どのような画像で頑健性が低下するかは特徴量に依存するが、どのような特徴量であっても、特徴量固有の頑健性が低下する映像パタンが存在する。例えば、色関連の特徴量であれば、白黒になると頑健性が低くなる。一方、模様を表す特徴量の場合には、平坦な画像になると頑健性が低くなる。

　このような映像識別上望ましくない特定の映像パタンを特定映像パタン検出手段１１０では検出する。検出方法は映像パタンに依存するが、例えば、上述のフェードアウトのシーンの場合には、画像全体の輝度値の平均値と平坦性を表す尺度を用いることで判定可能である。平坦性を表す尺度としては、例えば、輝度値の分散を用いることができ、これが十分小さく、かつ輝度の平均値が一定閾値以下で十分黒に近ければ、フェードアウト後の黒い画像であると判定できる。あるいは、輝度値の時間変化を測定し、これに基づいてフェードアウトを判定してもよい。例えば、画面内での輝度値の分散値と平均値を時系列の各ピクチャに対して求め、分散が徐々に0に向かって減少し、平均値が徐々に低くなるように時間とともに変化する場合に、黒画像へのフェードアウトと判定できる。以上は黒画像へのフェードアウトについて述べたが、それ以外の画素値に対するフェードアウトも同様に検知できる。すなわち、分散については同様で、平均値については、ある特定の値に収束するかどうかをチェックすることで検出できる。

　検知した特定パタン検出結果は、検知したかどうかを表す2値の値でもよい。例えば、検知できた場合を1、できなかった場合を0として出力すればよい。あるいは、検知されたときの確からしさ（確率）に応じて、0から1の間の連続値（あるいは数段階のレベルで表された確からしさを表すレベル値）であってもよい。これを、ピクチャ毎に出力する。あるいは、一定周期ごとにまとめて検知結果を出力するようになっていてもよい。特定パタン検出結果は信頼度算出手段１２０へ出力される。

　信頼度算出手段１２０では、特定映像パタン検出手段１１０から出力される特定パタン検出結果に応じて、各ピクチャの特徴量に対する信頼度を算出し、出力する。この際、特定パタン検出結果が、未検出を表している場合には、信頼度として最大の値を出力（例えば、信頼度が0から1までの値をとり、1の場合が最大の信頼度に相当する場合には、1を出力）する。特定パタン検出結果が、検出あるいは検出の可能性が高いことを示している場合には、その割合に応じて信頼度を下げる。すなわち、検出された場合には、信頼度として最低レベルの値とし、検出の可能性が高いと判定された場合には、その程度に応じて信頼度を下げるようにする。これを各ピクチャに対して行い、得られた値を信頼度として出力する。あるいは、一定周期のピクチャごとにまとめて信頼度を求め、出力するようになっていてもよい。

　なお、図１において、映像のかわりに、特徴量抽出手段１３０から出力される視覚特徴量を特定映像パタン検出手段１１０に入力するようになっていてもよい（図１中の破線）。この場合には、特定映像パタン検出手段１１０においては、入力される特徴量から特定映像パタンを推定し、特定パタンを検出する。具体的には、特定映像パタンとして定義される映像に対して視覚特徴量を抽出し、入力される視覚特徴量との間で類似性を判定して特定パタンを検出する。例えば、上述のフェードアウトの場合には、輝度値が画面全体で一定の場合に相当する特徴量の値に近いかどうかを検知することによって、特定パタン検出結果を算出する。視覚特徴量として、輝度値の平均と分散を用いる場合には、分散が十分小さく、かつ平均値が十分小さいときに、上述の黒画像へのフェードアウトと判定できる。このようにして、特徴量自体から特定映像パタンを求め、信頼度を算出することができる。

　このように、第１の実施の形態は、映像識別上好ましくない映像パタンを検出し、該当するピクチャに対する信頼度を下げるような信頼度を特徴量とともに生成するため、照合時にこの信頼度を用いることで、照合精度を向上できる。また、予め定められた特定映像パタンの検出を行うため、その特定映像パタンごとに適した検出法を採用することができ、検出の精度を向上できる。

　次に、図２に示す本発明の第２の実施の形態について図面を用いて説明する。

　図２を参照すると、本発明の第２の実施の形態の映像識別子抽出装置が示されており、特徴量抽出手段１３０と、特定映像パタン検出手段２１０と、信頼度算出手段１２０とからなる。

　図１の場合と比較すると、特定映像パタン検出手段１１０のかわりに、特定映像パタン検出手段２１０が用いられている点を除けば、図１の場合と同じである。特定映像パタン検出手段２１０は、入力される特定映像パタン情報に基づいて、映像から特定パタンを検出し、特定パタン検出結果を信頼度算出手段１２０へ出力する。

　次に、図２に示す映像識別子抽出装置の動作について説明する。

　特徴量抽出手段１３０、信頼度算出手段１２０の動作は、図１の場合と同様である。

　特定映像パタン検出手段２１０へは、映像と特定映像パタン情報とが入力される。特定映像パタン情報は、上述の識別上望ましくない映像のパタンを記述する情報であり、例えば、特定映像そのものであってもよい。特定映像は、その映像を代表する1枚の画像であってもよいし、複数枚の連続画像からなる映像区間であってもよい。あるいは、その映像区間から得られる複数の画像であってもよい。あるいは、特定映像パタン情報は、特定映像パタンを検出するのに必要な視覚特徴量であってもよい。ただし、この視覚特徴量は、特徴量抽出手段１３０で求める視覚特徴量と必ずしも同じものでなくてもよい。例えば、上述の黒画像へのフェードアウトの場合には、画面全体の輝度値の平均値と分散を特徴量として用いても良い。

　特定映像パタン検出手段２１０では、入力される映像と特定映像パタン情報で記述される映像の類似性によって、特定映像パタンを検出する。すなわち、特定映像パタン情報が画像そのものである場合には、入力される映像のピクチャと、この特定映像パタン情報として入力される画像の両方から視覚特徴量を求め、これらの類似性を比較することによって、特定パタンを検出する。この際、類似性判定の基準としては、特徴量間の距離を用いてもよいし、類似度を用いてもよい。そして、距離が小さい、あるいは類似度が大きい場合に、その程度に応じて検出の確からしさを定義し、特定パタン検出結果として出力する。

　一方、特定映像パタン情報が、画像から抽出された特徴量である場合には、入力される映像から同種の特徴量を抽出し、照合する。例えば、特定映像パタン情報がエッジヒストグラムの特徴量で記述されている場合には、入力される映像からもピクチャごとにエッジヒストグラムを算出する。特徴量算出後の動作は、特定映像パタン情報として画像が入力された場合と同様である。

　なお、特定映像パタン検出手段２１０への入力は、映像のかわりに、特徴量抽出手段１３０から出力される視覚特徴量であってもよい（図２中の破線）。この場合は、特定映像パタン検出手段２１０においては、入力される特徴量から特定映像パタンを推定し、特定パタンを検出する。特定映像パタン情報が映像そのものの場合には、特徴量抽出手段１３０で出力される特徴量と照合可能な特徴量をその映像から抽出し、比較する。特定映像パタン情報が視覚特徴量の場合には、特徴量抽出手段１３０で出力される特徴量と照合可能な特徴量である必要がある。

　このように、特定映像パタンとの類似度、あるいは距離を算出することによって、望ましくない映像パタンを検知し、信頼度を算出できるようになる。この方式の場合、特定映像パタンごとに検出方式を決めておく必要がなく、特定映像パタン情報として与える情報のみをかえるだけで、様々なパタンに対応可能になるという特徴がある。このため、既に装置を作った後であっても、特定映像パタン情報を入れ替えるだけで、対応可能な映像パタンを拡張することが可能である。

　次に、図３に示す本発明の第３の実施の形態について図面を用いて説明する。

　図３を参照すると、本発明の第３の実施の形態の映像識別子抽出装置が示されており、特徴量抽出手段１３０と、特定映像パタン検出手段２１０と、信頼度算出手段１２０と、共通映像パタン学習手段２５０とからなる。図２の場合と比較すると、共通映像パタン学習手段２５０がさらに追加されており、その出力である特定映像パタン情報が特定映像パタン検出手段２１０へ接続されている。それ以外は、図２の映像識別子抽出装置と同じである。

　次に、第３の実施の形態の動作について説明する。

　特徴量抽出手段１３０、特定映像パタン検出手段２１０、信頼度算出手段１２０の動作は、図２の場合と同様である。

　共通映像パタン学習手段２５０へは、学習用の映像群が入力される。ここで入力される映像は、お互いに独立に制作された映像であり、お互いに派生関係が存在しない映像の集合であることが望ましい。すなわち、ある映像を編集して別の映像が生成される、といった関連性がない映像であることが望ましい。共通映像パタン学習手段２５０では、それらの中からお互いに偶然ほぼ同一となる映像区間を抽出する。具体的には、各映像の特徴量をピクチャごとに算出し、その間の距離（類似度）算出を数多くの映像対に対して行う。この結果、独立な映像にもかかわらず、ほぼ同一とみなせる映像区間が見つかった場合には、その映像区間を特定映像パタン情報として抽出する。これにより、特定映像パタンを人手で決定するのではなく、学習により自動的に抽出することが可能となる。なお、上述の通り、特定映像パタン情報は、映像そのものではなく、映像から抽出した特徴量であってもよい。この場合は、抽出された映像パタンの特徴量を算出して、特定映像パタン情報として出力する。

　この共通映像パタン学習手段２５０の動作をフローチャートで表したものが図７である。

　ステップＳ１０では、入力される映像のそれぞれから視覚特徴量が抽出される。この際の視覚特徴量抽出方法は、必ずしも、特徴量抽出手段１３０で用いる方法と同じでなくてもよい。

　ステップＳ２０では、抽出した視覚特徴量間で照合を行う。これにより、入力される学習用映像の任意の２対の映像間での照合結果が求まる。

　そして、ステップＳ３０では、照合結果の中から類似度の高い（あるいは距離が小さい）映像区間を抽出する。

　ステップＳ４０では、抽出された映像区間の情報を特定映像パタン情報として出力する。

　このようにして出力された特定映像パタン情報は特定映像パタン検出手段２１０へ入力される。

　第３の実施の形態により、数多くの映像から自動的に望ましくない映像パタン、特に多数の全く異なる映像間で発生する共通映像パタンを抽出することが可能になる。

　次に、第４の実施の形態について図面を用いて説明する。

　図４を参照すると、本発明の第４の実施の形態の映像識別子抽出装置が示されており、特徴量抽出手段１３０と、特定映像パタン検出手段２１０と、信頼度算出手段１２０と、頑健性低下映像パタン学習手段３５０とからなる。図３の場合と比較すると、共通映像パタン学習手段２５０のかわりに頑健性低下映像パタン学習手段３５０が用いられている点が異なる。それ以外は、図３の映像識別子抽出装置と同じである。

　次に、第４の実施の形態の動作について説明する。

　頑健性低下映像パタン学習手段３５０へは、学習用映像群が入力される。この学習用映像群は、特徴量抽出手段１３０で用いられている視覚特徴量があまり頑健でない映像パタンを学習するのに用いられる。頑健性低下映像パタン学習手段３５０では、特徴量抽出手段１３０と同じ特徴量抽出方式によって映像から視覚特徴量が抽出される。同時に、入力映像に様々な改変処理（符号化処理、ノイズ付加、テロップ重畳など）を行い、その後で同様に特徴量抽出を行う。そして、改変処理の前後で視覚特徴量を比較し、特徴量がどの程度変化したかを調べる。具体的には、改変処理の前後の特徴量間で距離あるいは類似度を算出する。この際類似度が小さい、あるいは距離値が大きくなる映像が見つかった場合には、特定映像パタン情報として抽出する。具体的には、類似度あるいは距離値を閾値処理し、類似度がある一定の閾値より小さくなる場合、あるいは、距離値がある閾値より大きくなる場合を抽出すればよい。これにより、特定映像パタンを人手で決定するのではなく、学習により自動的に抽出することが可能となる。なお、上述の通り、特定映像パタン情報は、映像そのものではなく、映像から抽出した特徴量であってもよい。この場合は、抽出された映像パタンの特徴量を算出して、特定映像パタン情報として出力する。

　この頑健性低下映像パタン学習手段３５０の動作をフローチャートで表したものが図８である。まず、ステップＳ５０で改変映像の生成を行う。ここでは、入力映像に対して、予め想定される様々な改変処理を行い、改変後の映像を生成する。なお、この処理は、ステップＳ７０の前であればよく、次に述べるステップＳ６０の後に行っても良い。

　ステップＳ６０では、改変前の映像からの視覚特徴量の抽出を行う。この特徴量抽出方法は、特徴量抽出手段１３０で用いるものと同じ方法である。これにより、改変前の各映像に対して視覚特徴量が算出される。

　ステップＳ７０では、改変後の映像からの視覚特徴量の抽出を行う。これは、ステップＳ５０において生成された改変映像のそれぞれに対して視覚特徴量抽出を行う。この特徴量抽出方法は、特徴量抽出手段１３０で用いるものと同じ方法である。これにより、改変後の各映像に対して視覚特徴量が算出される。

　ステップＳ８０では、改変前後の視覚特徴量の照合を行う。これは、対応する改変前と改変後の特徴量間で視覚特徴量の照合を行う。この際の照合は、改変前のピクチャと改変後のピクチャとを対応付けて照合を行う。そして、照合結果を各ピクチャ、あるいは、ピクチャを複数枚時系列に束ねてできる各映像区間に対して出力する。

　そして、ステップＳ９０において、照合結果から、特徴量間の距離が大きい、あるいは、類似度が小さい映像区間を抽出する。

　最後に、ステップＳ１００では、抽出された映像区間の映像から、特定映像パタン情報を生成し、出力する。

　第４の実施の形態により、第３の実施の形態の場合と同様、数多くの映像から自動的に望ましくない映像パタンを抽出することが可能になる。

　次に、図１から図４に示す映像識別子抽出装置によって生成された映像識別子の照合装置の実施の形態について説明する。

　図５を参照すると、図１から図４に示す映像識別子抽出装置によって生成された映像識別子を照合する映像識別子照合装置の実施の形態が示されており、照合パラメータ算出手段４１０と、照合手段４００とからなる。

　照合パラメータ算出手段４１０は、第１の信頼度情報と、第２の信頼度情報とから照合パラメータを求め、照合手段４００へ出力する。照合手段４００は、照合パラメータ算出手段４１０から出力される照合パラメータを用いて、第１の視覚特徴量と第２の視覚特徴量とを照合し、照合結果を出力する。ここで、第１の視覚特徴量と第１の信頼度情報とは、第１の映像の映像識別子を構成し、第２の視覚特徴量と第２の信頼度情報とは、第２の映像の映像識別子を構成している。

　次に、図５に示す映像識別子照合装置の動作について説明する。

　まず、第１の映像から求めた第１の信頼度情報と、第２の映像から求めた第２の信頼度情報とは、照合パラメータ算出手段４１０へ入力される。照合パラメータ算出手段４１０では、第１の信頼度情報と第２の信頼度情報とから、映像１と映像２の区間同士の照合に用いる照合パラメータを算出する。例えば、第１の信頼度情報と第２の信頼度情報とから、ピクチャごとの照合を行う際の加重係数を照合パラメータとして算出する。

　第１の信頼度情報と第２の信頼度情報から加重係数を算出する方法は複数考えられるが、どちらか一方の信頼度が小さな値に対応するときに小さくなるという制約を満たしており、信頼度情報に対応する重み値の両方が大きくなったときに増加するようになっていればよい。例えば、第１、第２の信頼度情報から求まる第１の映像のk₁番目のピクチャ、第２の映像のk₂番目のピクチャの信頼度がそれぞれr₁(k₁)、r₂(k₂)のときに、これらのピクチャ間で照合を行う際の加重係数w(k₁,k₂)は［式１］によって算出することができる。
［式１］
　　w(k₁,k₂) = min(r₁(k₁), r₂(k₂))

　照合手段４００では、第１の視覚特徴量と第２の視覚特徴量を照合する。この際、両特徴量の類似性を表す類似度によって比較してもよいし、両特徴量の差異の度合いを表す距離によって比較してもよい。距離によって比較する場合には、［式２］によって算出される距離dに基づいて比較する。
［式２］

　ここで、Nは特徴量の次元数であり、v₁(i)、v₂(i)はそれぞれ、第１、第２の特徴量のi番目の次元の値を表している。この比較をピクチャ単位に行い、第１の映像と第２の映像の一定区間の照合を行う。この際、上述の加重係数w(k₁,k₂)を用いる。例えば、ピクチャ単位の比較で求まる距離値を映像区間内で平均した値によって映像区間の照合を行う場合には、平均値を算出する際に、第１の映像のk₁番目のピクチャと第２の映像のk₂番目のピクチャの比較により求まる距離値d(k₁,k₂)には加重係数w(k₁,k₂)によって加重する。すなわち、映像１のt₁番目のピクチャから始まるKピクチャからなる区間と、映像２のt₂番目のピクチャから始まるKピクチャからなる区間とを照合する際には、［式３］によって距離値を算出する。
［式３］

　この値が閾値より大きい場合は、区間として一致していないと判定し、閾値以下の場合には、区間として一致していると判定する。これを第１の映像と第２の映像の任意の区間の組み合わせに対して行うことによって、これらの映像間に含まれる任意の長さの同一区間を全て判定することができる。

　あるいは、ピクチャ単位の比較で距離の値が閾値以内になるピクチャ対の数を求めて、その値が区間に含まれるピクチャ数に比して十分大きいときに同一区間であると判定し、そうでなければ、同一区間でないと判定する。この場合にも、同様に重みをつけて判定可能である。すなわち、［式４］によって判定することも可能である。
［式４］

　ここで、U(x)はx≧0のときに1、x<0のときに0となる単位ステップ関数であり、Thはピクチャ間の特徴量間の距離の閾値（すなわち、距離がTh以下のときに同一と判定し、そうでないときは同一でないと判定する）である。これを第１の映像と第２の映像の任意の区間の組み合わせに対して行うことによって、これらの映像間に含まれる任意の長さの同一区間を全て判定することができる。

　任意の長さの区間同士の比較法としては、非特許文献２に記載された照合方法を用いることもできる。図６に示すように、映像間での照合に長さＬピクチャの照合窓を設け、これらを第１の映像、第２の映像間でスライドさせていき、両者を比較する。もし、照合窓内の区間同士が同一区間と判定された場合には、そこからpピクチャだけ照合窓を伸ばし、照合処理を継続する。同一区間と判定される限りにおいては、pピクチャだけ窓を伸ばす処理を反復し、最大長の同一区間を求める。このようにすることで、最大長の同一区間を効率的に求めることができる。

　なお、上記の説明では距離を尺度として用いる場合について記したが、類似度を用いても同様に照合可能である。具体的には、［式５］によって算出される類似度Sに基づいて比較する。
［式５］

　ここで、Sim(x,y)はxとyの近さを表す関数であり、xとｙの値が近いほど大きな値となる。例えば、xとyの間の距離をd(x,y)とすると、［式６］のような関数を用いることができる。
［式６］

　あるいは、Sim(x,y)はクロネッカーデルタのように、xとyが一致したときのみ1、それ以外は0となる関数であってもよい。あるいは、類似度として特徴ベクトル間の角度（余弦値）を用いる場合には、［式７］によって算出される類似度Sに基づいて比較する。
［式７］

　これにより、第１の映像識別子と第２の映像識別子の照合結果が算出される。

　あるいは、照合パラメータ算出手段４１０から出力される照合パラメータとしては、対応するピクチャの照合結果を無視するかどうかを定めるパラメータであってもよい。照合する際のピクチャの一方が信頼度が低い場合には、ピクチャ間の照合結果はあまり信頼性が高くない。このような場合には、そのピクチャの照合結果を無視して、映像区間の照合を行うことが考えられる。例えば、映像1と映像2とを照合する際、映像1の5から9番目のピクチャの信頼度が低い場合には、映像1の5から9番目のピクチャに対するピクチャ間の照合結果は無視して、映像1と映像2の映像区間の照合を行う。

　あるいは、照合パラメータ算出手段４１０から出力される照合パラメータとしては、ピクチャ間での照合で異なるピクチャと判定される回数を記述するパラメータであってもよい。アナログキャプチャなどの改変処理においては、全てのピクチャが正確にはキャプチャされず、ところどころのピクチャが落ちる場合がある。このような場合、同一な映像であるにもかかわらず、落ちたピクチャが原因でうまく照合できなくなる場合がある。このような場合には、ピクチャの照合が失敗してもよい回数を決めておき、その回数以下である場合には、そのまま照合を続ける（すなわち、照合の失敗がその回数を超えた段階ではじめて照合しないと判定する）ことで連続区間をうまく照合できるようになる。この際の許容するピクチャ間の照合失敗の回数（これをN_thとする）を、信頼度によって制御する。例えば、信頼度が低い区間では、N_thの値を信頼度が低いピクチャの枚数に応じてインクリメントする。このようにして、信頼度が低いピクチャが続く場合であっても連続区間として照合できるようになる。

　以上本発明の実施の形態について説明したが、本発明は以上の実施の形態にのみ限定されるものではない。本発明の構成や詳細には、本発明の範囲内で当業者が理解しうる様々な変更をすることができる。例えば、特定映像パタン検出手段は、入力映像およびその入力映像から抽出された視覚特徴量の双方からから特定映像パタンを検出してもよい。

　また本発明の映像識別子生成装置は、図４Ａに示すように、特徴量抽出手段１３０から出力された視覚特徴量と信頼度算出手段１２０から出力された信頼度情報とを入力し、映像識別子を出力する多重化手段１４０を備えていてもよい。多重化手段１４０では、特徴量抽出手段１３０から出力される視覚特徴量と信頼度算出手段１２０から出力される信頼度情報とをまとめて映像識別子を生成し、出力する。ここでは、両者が照合時に分離可能な形で多重化して映像識別子を生成する。多重化の方法としては、ピクチャ毎に視覚特徴量と信頼度情報とをインターリーブして多重化してもよいし、信頼度情報のみを先にまとめて多重化し、その後で視覚特徴量を多重化（あるいはその逆）してもよい。あるいは、一定の区間毎（例えば、信頼度情報を算出する時間区間単位毎）に信頼度情報と視覚特徴量とを多重化するようになっていてもよい。

　また本発明の映像識別子照合装置は、図５Ａに示すように、照合を行う２つの画像の映像識別子を入力し、その映像識別子を構成する視覚特徴量と信頼度情報とを出力する多重分離手段４２０、４３０を備えていてもよい。多重分離手段４２０は、入力される第１の映像識別子から第１の視覚特徴量と第１の信頼度情報とを分離し、それぞれ照合手段４００と照合パラメータ算出手段４１０へ出力する。多重分離手段４３０も同様に、入力される第２の映像識別子から第２の視覚特徴量と第２の信頼度情報とを分離し、それぞれ照合手段４００と照合パラメータ算出手段４１０へ出力する。

　また、本発明の映像識別子抽出装置、映像識別子照合装置は、その有する機能をハードウェア的に実現することは勿論、コンピュータとプログラムとで実現することができる。プログラムは、磁気ディスクや半導体メモリ等のコンピュータ可読記録媒体に記録されて提供され、コンピュータの立ち上げ時などにコンピュータに読み取られ、そのコンピュータの動作を制御することにより、そのコンピュータを前述した各実施の形態における映像識別子抽出装置、映像識別子照合装置として機能させる。

　なお、本発明は、日本国にて２００９年１月２９日に特許出願された特願２００９－１７８０８の特許出願に基づく優先権主張の利益を享受するものであり、当該特許出願に記載された内容は、全て本明細書に含まれるものとする。

　本発明によれば、類似あるいは同一の映像を多くの映像中から高精度に検索するといった用途に適用できる。特に、映像の同一区間検索については、ネットワーク上に流通する違法にコピーされた動画像を識別する用途や、実際の放送波で流されているＣＭを同定するといった用途に用いることができる。

　　１１０…特定映像パタン検出手段
　　１２０…信頼度算出手段
　　１３０…特徴量抽出手段
　　１４０…多重化手段
　　２１０…特定映像パタン検出手段
　　２５０…共通映像パタン学習手段
　　３５０…頑健性低下映像パタン学習手段
　　４００…照合手段
　　４１０…照合パラメータ算出手段
　　４２０、４３０…多重分離手段

Claims

　映像中の、複数の部分領域対の特徴量に基づいて前記映像の識別に用いる視覚特徴量を抽出する視覚特徴量抽出手段と、
　前記視覚特徴量の信頼度を算出する手段であって、前記映像が特定の映像である場合には、前記特定の映像以外の映像である場合に比べて、より値の小さな信頼度を算出する信頼度算出手段と
を備えることを特徴とする映像識別子生成装置。
　前記信頼度は、前記視覚特徴量を用いて前記映像を他の映像と照合する際の照合結果の確からしさを表す値である
ことを特徴とする請求項１に記載の映像識別子生成装置。
　前記視覚特徴量抽出手段は、前記映像中の複数の部分領域対の、対をなす２つの部分領域の特徴量の差分値に基づいて前記視覚特徴量を抽出する
ことを特徴とする請求項１または２に記載の映像識別子生成装置。
　前記部分領域の特徴量は、前記部分領域の平均画素値である
ことを特徴とする請求項３に記載の映像識別子生成装置。
　前記特定の映像は、平坦な画素値を有する映像である
ことを特徴とする請求項１乃至４の何れか１項に記載の映像識別子生成装置。
　前記特定の映像は、映像全体の輝度値の分散が小さい映像である
ことを特徴とする請求項１乃至５の何れか１項に記載の映像識別子生成装置。
　前記特定の映像は、輝度値が画面全体でほぼ一定になる映像である
ことを特徴とする請求項１乃至６の何れか１項に記載の映像識別子生成装置。
　前記視覚特徴量の抽出と前記信頼度の算出は、ピクチャ単位で行われる
ことを特徴とする請求項１乃至７の何れか１項に記載の映像識別子生成装置。
　前記ピクチャは、フレームである
ことを特徴とする請求項８に記載の映像識別子生成装置。
　前記視覚特徴量抽出手段は、前記差分値を量子化して、前記視覚特徴量を算出する
ことを特徴とする請求項３乃至９の何れか１項に記載の映像識別子生成装置。
　前記視覚特徴量と前記信頼度とをまとめて映像識別子として出力する多重化手段を備える
ことを特徴とする請求項１乃至１０の何れか１項に記載の映像識別子生成装置。
　第１の映像中の複数の部分領域対の特徴量から算出された、映像の識別に用いる第１の視覚特徴量と、前記第１の映像が特定の映像である場合には前記特定の映像以外の映像である場合に比べて値が小さくなるように算出された、前記第１の視覚特徴量の信頼度を示す第１の信頼度情報と、第２の映像中の複数の部分領域対の特徴量から算出された、前記第２の映像の識別に用いる第２の視覚特徴量と、前記第２の映像が特定の映像である場合には前記特定の映像以外の映像である場合に比べて、より値が小さくなるように算出された、前記第２の視覚特徴量の信頼度を示す第２の信頼度情報とを用い、
　前記第１の信頼度情報と前記第２の信頼度情報とに基づいて、照合パラメータを算出する照合パラメータ算出手段と、
　前記第１の視覚特徴量と前記第２の視覚特徴量とを、前記照合パラメータに従って照合し、照合結果を出力する照合手段と
を備えることを特徴とする映像識別子照合装置。
　前記第１の視覚特徴量は、前記第１の映像中の複数の部分領域対の、対をなす２つの部分領域の特徴量の差分値から算出され、前記第２の視覚特徴量は、前記第２の映像中の複数の部分領域対の、対をなす２つの部分領域の特徴量の差分値から算出されている
ことを特徴とする請求項１２に記載の映像識別子照合装置。
　前記照合パラメータは、前記第1の信頼度と前記第２の信頼度とのうちの小さいほうの値によって定まる
ことを特徴とする請求項１２または１３に記載の映像識別子照合装置。
　前記照合パラメータ算出手段は、前記第１の視覚特徴量と前記第２の視覚特徴量との間の距離または類似度を算出する際の重みを表す値を前記照合パラメータとして算出し、
　前記照合手段は、前記照合パラメータによって定まる重みを用いて前記第１の視覚特徴量と前記第２の視覚特徴量との距離または類似度を算出して照合結果を求める
ことを特徴とする請求項１２乃至１４の何れか１項に記載の映像識別子照合装置。
　前記照合パラメータ算出手段は、前記第１の視覚特徴量と前記第２の視覚特徴量の何れか一方の前記信頼度が低い場合には、前記照合パラメータとして特定のパラメータを出力し、
　前記照合手段は、前記照合パラメータが前記特定のパラメータであるときに、前記第１の視覚特徴量と前記第２の視覚特徴量との間の距離または類似度を除いて照合結果を算出する
ことを特徴とする請求項１２乃至１５の何れか１項に記載の映像識別子照合装置。
　前記照合パラメータ算出手段は、前記照合パラメータとして、前記第１の視覚特徴量と前記第２の視覚特徴量との間の照合をピクチャ単位で行う際の、ピクチャ単位の照合の失敗の回数の許容値を規定するパラメータを出力し、
　前記照合手段は、ピクチャ単位の照合の失敗の回数が前記許容値以内の場合には照合を継続し、照合結果を算出する
ことを特徴とする請求項１２乃至１６の何れか１項に記載の映像識別子照合装置。
　請求項１乃至１１の何れかに記載の映像識別子生成装置から生成された映像識別子を用いて照合を行うことを特徴とする照合装置。
　映像中の、複数の部分領域対の特徴量に基づいて前記映像の識別に用いる視覚特徴量を抽出し、
　前記視覚特徴量の信頼度として、前記映像が特定の映像である場合には、前記特定の映像以外の映像である場合に比べて、より値の小さな信頼度を算出する
ことを特徴とする映像識別子生成方法。
　前記信頼度は、前記視覚特徴量を用いて前記映像を他の映像と照合する際の照合結果の確からしさを表す値である
ことを特徴とする請求項１９に記載の映像識別子生成方法。
　前記映像中の複数の部分領域対の、対をなす２つの部分領域の特徴量の差分値に基づいて前記視覚特徴量を抽出する
ことを特徴とする請求項１９または２０に記載の映像識別子生成方法。
　前記部分領域の特徴量は、前記部分領域の平均画素値である
ことを特徴とする請求項２１に記載の映像識別子生成方法。
　前記特定の映像は、平坦な画素値を有する映像である
ことを特徴とする請求項１９乃至２２の何れか１項に記載の映像識別子生成方法。
　前記特定の映像は、映像全体の輝度値の分散が小さい映像である
ことを特徴とする請求項１９乃至２３の何れか１項に記載の映像識別子生成方法。
　前記特定の映像は、輝度値が画面全体でほぼ一定になる映像である
ことを特徴とする請求項１９乃至２４の何れか１項に記載の映像識別子生成方法。
　前記視覚特徴量の抽出と前記信頼度の算出は、ピクチャ単位で行われる
ことを特徴とする請求項１９乃至２５の何れか１項に記載の映像識別子生成方法。
　前記ピクチャは、フレームである
ことを特徴とする請求項２６に記載の映像識別子生成方法。
　前記差分値を量子化して、前記視覚特徴量を算出する
ことを特徴とする請求項２１乃至２７の何れか１項に記載の映像識別子生成方法。
　前記視覚特徴量と前記信頼度とをまとめて映像識別子として出力する
ことを特徴とする請求項１９乃至２８の何れか１項に記載の映像識別子生成方法。
　第１の映像中の複数の部分領域対の特徴量から算出された、映像の識別に用いる第１の視覚特徴量と、前記第１の映像が特定の映像である場合には前記特定の映像以外の映像である場合に比べて値が小さくなるように算出された、前記第１の視覚特徴量の信頼度を示す第１の信頼度情報と、第２の映像中の複数の部分領域対の特徴量から算出された、前記第２の映像の識別に用いる第２の視覚特徴量と、前記第２の映像が特定の映像である場合には前記特定の映像以外の映像である場合に比べて、より値が小さくなるように算出された、前記第２の視覚特徴量の信頼度を示す第２の信頼度情報とを用い、
　前記第１の信頼度情報と前記第２の信頼度情報とに基づいて、照合パラメータを算出し、
　前記第１の視覚特徴量と前記第２の視覚特徴量とを、前記照合パラメータに従って照合し、照合結果を出力する
ことを特徴とする映像識別子照合方法。
　前記第１の視覚特徴量は、前記第１の映像中の複数の部分領域対の、対をなす２つの部分領域の特徴量の差分値から算出され、前記第２の視覚特徴量は、前記第２の映像中の複数の部分領域対の、対をなす２つの部分領域の特徴量の差分値から算出されている
ことを特徴とする請求項３０に記載の映像識別子照合方法。
　前記照合パラメータは、前記第１の信頼度と前記第２の信頼度とのうちの小さいほうの値によって定まる
ことを特徴とする請求項３０または３１に記載の映像識別子照合方法。
　前記第１の視覚特徴量と前記第２の視覚特徴量との間の距離または類似度を算出する際の重みを表す値を前記照合パラメータとして算出し、
　前記照合パラメータによって定まる重みを用いて前記第１の視覚特徴量と前記第２の視覚特徴量との距離または類似度を算出して照合結果を求める
ことを特徴とする請求項３０乃至３２の何れか１項に記載の映像識別子照合方法。
　前記第１の視覚特徴量と前記第２の視覚特徴量の何れか一方の前記信頼度が低い場合には、前記照合パラメータとして特定のパラメータを出力し、
　前記照合パラメータが前記特定のパラメータであるときに、前記第１の視覚特徴量と前記第２の視覚特徴量との間の距離または類似度を除いて照合結果を算出する
ことを特徴とする請求項３０乃至３３の何れか１項に記載の映像識別子照合方法。
　前記照合パラメータとして、前記第１の視覚特徴量と前記第２の視覚特徴量との間の照合をピクチャ単位で行う際の、ピクチャ単位の照合の失敗の回数の許容値を規定するパラメータを出力し、
　ピクチャ単位の照合の失敗の回数が前記許容値以内の場合には照合を継続し、照合結果を算出する
ことを特徴とする請求項３０乃至３４の何れか１項に記載の映像識別子照合方法。
　請求項１９乃至２９の何れかに記載の映像識別子生成方法によって生成された映像識別子を用いて照合を行うことを特徴とする照合方法。
　コンピュータを、
　映像中の、複数の部分領域対の特徴量に基づいて前記映像の識別に用いる視覚特徴量を抽出する視覚特徴量抽出手段と、
　前記視覚特徴量の信頼度を算出する手段であって、前記映像が特定の映像である場合には、前記特定の映像以外の映像である場合に比べて、より値の小さな信頼度を算出する信頼度算出手段と
して機能させるためのプログラム。
　コンピュータを、
　第１の映像中の複数の部分領域対の特徴量から算出された、映像の識別に用いる第１の視覚特徴量と、前記第１の映像が特定の映像である場合には前記特定の映像以外の映像である場合に比べて値が小さくなるように算出された、前記第１の視覚特徴量の信頼度を示す第１の信頼度情報と、第２の映像中の複数の部分領域対の特徴量から算出された、前記第２の映像の識別に用いる第２の視覚特徴量と、前記第２の映像が特定の映像である場合には前記特定の映像以外の映像である場合に比べて、より値が小さくなるように算出された、前記第２の視覚特徴量の信頼度を示す第２の信頼度情報とを用い、
　前記第１の信頼度情報と前記第２の信頼度情報とに基づいて、照合パラメータを算出する照合パラメータ算出手段と、
　前記第１の視覚特徴量と前記第２の視覚特徴量とを、前記照合パラメータに従って照合し、照合結果を出力する照合手段と
して機能させるためのプログラム。