JPWO2016027457A1

JPWO2016027457A1 - コンテンツ認識装置およびコンテンツ認識方法

Info

Publication number: JPWO2016027457A1
Application number: JP2016543816A
Authority: JP
Inventors: 博史薮
Original assignee: Panasonic Intellectual Property Management Co Ltd
Current assignee: Panasonic Intellectual Property Management Co Ltd
Priority date: 2014-08-21
Filing date: 2015-08-19
Publication date: 2017-06-01
Anticipated expiration: 2035-08-19
Also published as: EP3185577B1; WO2016027457A1; JP6432047B2; CN106233746B; US10200765B2; EP3185577A4; US20170026718A1; CN106233746A; EP3185577A1

Abstract

映像コンテンツの認識精度を上げつつ映像コンテンツの認識にかかる処理を低減できる認識データ生成装置を提供する。この認識データ生成装置は、フィンガープリント生成部と、選別部と、照合部と、を備える。フィンガープリント生成部は、取得した複数の映像コンテンツ候補のそれぞれについてフィンガープリントを生成する。選別部は、外部から入力される認識データに含まれる付属情報を用いて映像コンテンツ候補を選別する。照合部は、選別部によって選別された映像コンテンツ候補のフィンガープリントと、認識データに含まれるフィンガープリントと、を照合して、認識データに含まれるフィンガープリントに対応する映像コンテンツを映像コンテンツ候補の中から特定する。

Description

本開示は、映像コンテンツを認識するコンテンツ認識装置およびコンテンツ認識方法に関する。

クラウドを介してコンテンツを認識する技術を利用する通信サービスが提案されている。この技術を用いれば、入力された映像を認識し、この映像に関連する付加情報を通信ネットワークを介して取得して、取得した付加情報を映像コンテンツと共に表示画面に表示するテレビジョン受信装置（以下、「テレビ」と略記する）を実現することができる。入力された映像を認識する技術は、「ＡＣＲ（ＡｕｔｏｍａｔｉｃＣｏｎｔｅｎｔＲｅｃｏｇｎｉｔｉｏｎ）」と呼ばれている。

ＡＣＲに、フィンガープリント技術が用いられることがある。特許文献１および特許文献２は、フィンガープリント技術を開示する。この技術では、映像内の画像フレームに映る顔等の輪郭を検知し、検知した輪郭に基づいてフィンガープリントを生成し、生成したフィンガープリントをデータベースに蓄積されたデータと照合する。

米国特許出願公開第２０１０／０３１８５１５号明細書米国特許出願公開第２００８／０３１０７３１号明細書

本開示は、映像コンテンツの認識精度を上げつつ映像コンテンツの認識にかかる処理を低減できるコンテンツ認識装置およびコンテンツ認識方法を提供する。

本開示におけるコンテンツ認識装置は、フィンガープリント生成部と、選別部と、照合部と、を備える。フィンガープリント生成部は、取得した複数の映像コンテンツ候補のそれぞれについてフィンガープリントを生成する。選別部は、外部から入力される認識データに含まれる付属情報を用いて映像コンテンツ候補を選別する。照合部は、選別部によって選別された映像コンテンツ候補のフィンガープリントと、認識データに含まれるフィンガープリントと、を照合して、認識データに含まれるフィンガープリントに対応する映像コンテンツを映像コンテンツ候補の中から特定する。

本開示におけるコンテンツ認識装置は、映像コンテンツの認識精度を上げつつ、映像コンテンツの認識にかかる処理を低減できる。

図１は、実施の形態１におけるコンテンツ認識システムの一構成例を示すブロック図である。図２は、実施の形態１における受信装置の一構成例を示すブロック図である。図３は、実施の形態１における受信装置が送信する認識データの一例を模式的に示す図である。図４は、実施の形態１におけるフィンガープリントデータベースに保存される認識データの一例を模式的に示す図である。図５は、実施の形態１における映像抽出部で抽出される各フレームレートの画像フレームと静的領域との関係の一例を模式的に示す図である。図６は、実施の形態１における映像抽出部で抽出される各フレームレートの画像フレームと動的領域との関係の一例を模式的に示す図である。図７は、実施の形態１におけるフィンガープリント生成部の一構成例を示すブロック図である。図８は、実施の形態１におけるコンテンツ認識システムが備えるコンテンツ認識装置の一動作例を示すフローチャートである。図９は、実施の形態１における認識データを生成するときの処理の一例を示すフローチャートである。図１０は、実施の形態１における認識データの生成処理過程における画像フレームの変化の一例を模式的に示す図である。図１１は、実施の形態１における画像フレーム間の変化量の算出処理の一例を示すフローチャートである。図１２は、実施の形態１における画像フレームのダウンスケール変換処理の一例を模式的に示す図である。図１３は、実施の形態１における画像フレーム間の変化量の算出処理の一例を模式的に示す図である。図１４は、実施の形態１における静的フィンガープリントの生成処理の一例を示すフローチャートである。図１５は、実施の形態１における画像フレーム間の変化量に基づいて生成される静的フィンガープリントの一例を模式的に示す図である。図１６は、実施の形態１における動的フィンガープリントの生成処理の一例を示すフローチャートである。図１７は、実施の形態１における動的フィンガープリントが生成されない画像フレームの一例を模式的に示す図である。図１８は、実施の形態１における画像フレーム間の変化量に基づいて生成される動的フィンガープリントの一例を模式的に示す図である。図１９は、実施の形態１におけるフィンガープリントフィルタリング部が実行するフィルタリング処理の一例を示すフローチャートである。図２０は、実施の形態１におけるフィンガープリントフィルタリング部で実行されるプロパティフィルタリング処理の一例を示すフローチャートである。図２１は、実施の形態１におけるフィンガープリントフィルタリング部で実行されるプロパティフィルタリング処理の一具体例を模式的に示す図である。図２２は、実施の形態１におけるフィンガープリントフィルタリング部で実行されるプロパティシーケンスフィルタリング処理の一例を示すフローチャートである。図２３は、実施の形態１におけるフィンガープリントフィルタリング部で実行されるプロパティシーケンスフィルタリング処理の一具体例を模式的に示す図である。図２４は、実施の形態１における認識データの照合処理の一例を示すフローチャートである。図２５は、実施の形態１における静的フィンガープリントの照合処理の一例を模式的に示す図である。図２６は、実施の形態１における動的フィンガープリントの照合処理の一例を模式的に示す図である。図２７は、実施の形態１における映像コンテンツの認識条件の一例を示す図である。図２８は、実施の形態１における映像コンテンツの照合処理の一例を模式的に示す図である。図２９は、映像コンテンツの認識に関して問題となる点を説明するための図である。

以下、適宜図面を参照しながら、実施の形態を詳細に説明する。ただし、必要以上に詳細な説明は省略する場合がある。例えば、すでによく知られた事項の詳細説明、および実質的に同一の構成に対する重複説明等を省略する場合がある。これは、以下の説明が不必要に冗長になるのを避け、当業者の理解を容易にするためである。

なお、添付図面および以下の説明は、当業者が本開示を十分に理解するために提供されるのであって、これらにより特許請求の範囲に記載の主題を限定することは意図されていない。

また、各図は、模式図であり、必ずしも厳密に図示されたものではない。また、各図において、同じ構成要素については同じ符号を付している。

（実施の形態１）
［１−１．コンテンツ認識システム］
まず、本実施の形態におけるコンテンツ認識システムについて、図１を用いて説明する。

図１は、実施の形態１におけるコンテンツ認識システム１の一構成例を示すブロック図である。

図１に示すように、コンテンツ認識システム１は、放送局２と、ＳＴＢ（ＳｅｔＴｏｐＢｏｘ）３と、受信装置１０と、コンテンツ認識装置２０と、広告サーバ装置３０と、を備える。

放送局２は、映像コンテンツを映像信号に変換してテレビジョン放送信号（以下、単に「放送信号」とも記す）として放送するように構成された送信装置である。映像コンテンツは、例えば、無線または有線の放送または通信によって放送される放送コンテンツであり、テレビ番組等の番組コンテンツと、コマーシャルメッセージ（ＣＭ）等の広告用の映像コンテンツ（以下、「広告コンテンツ」と記す）と、が含まれる。番組コンテンツと広告コンテンツとは、時間の経過に伴って互いに切り替わる。

放送局２は、映像コンテンツをＳＴＢ３およびコンテンツ認識装置２０に送信する。例えば、放送局２は、放送によって映像コンテンツをＳＴＢ３に送信し、かつ、通信によって映像コンテンツをコンテンツ認識装置２０に送信する。

ＳＴＢ３は、放送局２から放送される放送信号を受信し、受信した放送信号に基づく映像信号等を出力するように構成されたチューナ・デコーダである。ＳＴＢ３は、放送局２から放送された放送信号の中から、ユーザの指示に基づいて選局された放送チャンネルを受信する。そして、受信した放送チャンネルの映像コンテンツをデコードし、デコードした映像コンテンツを、通信路を介して受信装置１０に出力する。なお、通信路は、例えば、ＨＤＭＩ（登録商標）（Ｈｉｇｈ−ＤｅｆｉｎｉｔｉｏｎＭｕｌｔｉｍｅｄｉａＩｎｔｅｒｆａｃｅ）、等である。

受信装置１０は、例えばテレビ等の映像受信装置である。受信装置１０は、通信ネットワーク１０５を介してコンテンツ認識装置２０および広告サーバ装置３０と接続されている。受信装置１０は、受信した映像コンテンツのフレームシーケンスから複数の画像フレームを抽出し、抽出した画像フレームに基づいて認識データを生成する。受信装置１０は、生成した認識データをコンテンツ認識装置２０に送信し、コンテンツ認識装置２０から映像コンテンツの認識結果を受信する。受信装置１０は、映像コンテンツの認識結果に基づいて広告サーバ装置３０から付加情報を取得し、取得した付加情報を、映像コンテンツと共に実質的にリアルタイムで表示画面に表示する。

なお、認識データは、例えば、映像コンテンツを表すデータであって、映像コンテンツの認識（例えば、ＡＣＲ）に用いられるデータである。具体的には、認識データは、画像フレーム間の画像の変化に基づいて生成されるフィンガープリント（ハッシュ値）を含んでいる。

また、画像フレームは、映像コンテンツを構成するピクチャである。画像フレームには、プログレッシブ方式におけるフレームや、インターレース方式におけるフィールド、等が含まれる。

コンテンツ認識装置２０は、例えば、サーバ装置である。コンテンツ認識装置２０は、入力される複数の映像コンテンツからそれぞれの認識データを生成し、これらの認識データの中から選別された認識データと受信装置１０から送られる認識データとを照合することで、映像コンテンツの認識処理を実行する。以下、映像コンテンツの認識処理を、「画像認識処理」または「画像認識」とも記す。コンテンツ認識装置２０は、その照合に成功すれば、それら複数の映像コンテンツの中から１つの映像コンテンツを画像認識の結果として選択する。すなわち、それら複数の映像コンテンツのそれぞれは、受信装置１０から送られる認識データに対応する映像コンテンツとして選択される可能性がある映像コンテンツの候補である。したがって、ここでは、以下、コンテンツ認識装置２０が受信した映像コンテンツを、「映像コンテンツ候補」とも記す。コンテンツ認識装置２０は、画像認識装置の一例であり、映像コンテンツの認識（例えば、ＡＣＲ）を行うように構成された装置である。

例えば、コンテンツ認識装置２０は、複数の放送局２から放送中の複数の映像コンテンツ候補を受信し、認識データの生成を行う。そして、コンテンツ認識装置２０は、受信装置１０から送信される認識データを受信し、受信した認識データと映像コンテンツ候補の認識データとを用いて実質的にリアルタイムで映像コンテンツの認識（画像認識処理）を行う。

広告サーバ装置３０は、例えば、コンテンツ認識装置２０による映像コンテンツの認識結果に関連する付加情報を配信するサーバ装置である。例えば、広告サーバ装置３０は、様々な商品の広告を保持して配信する広告配信サーバである。

なお、本実施の形態では、コンテンツ認識装置２０と広告サーバ装置３０とは、それぞれが互いに独立したサーバ装置であるが、１台のＷｅｂサーバにコンテンツ認識装置２０と広告サーバ装置３０とが含まれていてもよい。

以下、受信装置１０、コンテンツ認識装置２０および広告サーバ装置３０の各構成について、説明する。

［１−１−１．受信装置］
まず、本実施の形態における受信装置１０について、図１および図２を用いて説明する。

図２は、実施の形態１における受信装置１０の一構成例を示すブロック図である。なお、図２は、受信装置１０の主要なハードウェア構成を示している。

図１に示すように、受信装置１０は、映像受信部１１と、映像抽出部１２と、付加情報取得部１３と、映像出力部１４と、認識部１００と、を備える。より詳細には、図２に示すように、受信装置１０は、さらに、制御部１５と、操作信号受信部１６と、ＨＴＴＰ（ＨｙｐｅｒＴｅｘｔＴｒａｎｓｆｅｒＰｒｏｔｏｃｏｌ）送受信部１７と、を備える。また、図２に示すように、付加情報取得部１３は、付加情報格納部１８と、付加情報表示制御部１９と、を備える。

制御部１５は、受信装置１０が備える各構成要素を制御するように構成された処理部である。制御部１５は、不揮発性メモリ、ＣＰＵ（ＣｅｎｔｒａｌＰｒｏｃｅｓｓｉｎｇＵｎｉｔ）、揮発性メモリ、を備えている。不揮発性メモリは、例えばＲＯＭ（ＲｅａｄＯｎｌｙＭｅｍｏｒｙ）等であり、プログラム（アプリケーションプログラム、等）を格納している。ＣＰＵは、そのプログラムを実行するように構成されている。揮発性メモリは、例えばＲＡＭ（ＲａｎｄｏｍＡｃｃｅｓｓＭｅｍｏｒｙ）等であり、ＣＰＵが動作しているときの一時的な作業領域として使用される。

操作信号受信部１６は、操作部（図示せず）から出力される操作信号を受信するように構成された回路である。操作信号は、受信装置１０を操作するためにユーザが操作部（例えば、リモートコントローラ。以下、「リモコン」と記す）を操作することで、その操作部から出力される信号である。なお、操作部が、ジャイロセンサを有するリモコンである場合、操作信号受信部１６は、そのリモコンから出力されるリモコン自身の物理的な動きに関する情報（ユーザがリモコンを、振る、傾ける、向きを変える、等したときの動きを示す信号）を受信するように構成されていてもよい。

ＨＴＴＰ送受信部１７は、通信ネットワーク１０５を介してコンテンツ認識装置２０および広告サーバ装置３０と通信するように構成されたインターフェイスである。ＨＴＴＰ送受信部１７は、例えば、ＩＥＥＥ８０２．３の規格に適合する有線ＬＡＮ（ＬｏｃａｌＡｒｅａＮｅｔｗｏｒｋ）用の通信アダプタである。

ＨＴＴＰ送受信部１７は、例えば、コンテンツ認識装置２０に通信ネットワーク１０５を介して認識データを送信する。また、ＨＴＴＰ送受信部１７は、コンテンツ認識装置２０から送信される映像コンテンツの認識結果を通信ネットワーク１０５を介して受信する。

また、ＨＴＴＰ送受信部１７は、例えば、広告サーバ装置３０から通信ネットワーク１０５を介して送信される付加情報を取得する。取得した付加情報は、制御部１５を介して付加情報格納部１８に格納される。

映像受信部１１は、映像コンテンツを受信するように構成された受信回路およびデコーダ（図示せず）、を有する。映像受信部１１は、例えば、操作信号受信部１６で受信された操作信号に基づき、受信する放送チャンネルの選局や外部から入力される信号の選択、等を行う。

図２に示すように、映像受信部１１は、映像入力部１１ａと、第１外部入力部１１ｂと、第２外部入力部１１ｃと、を備える。

映像入力部１１ａは、例えばアンテナ（図示せず）で受信される放送信号（図２には、「ＴＶ放送信号」と記す）等の、外部から送信されてくる映像信号を入力するように構成された回路である。

第１外部入力部１１ｂおよび第２外部入力部１１ｃは、ＳＴＢ３および映像信号記録再生装置（図示せず）等の外部機器から送信されてくる映像信号（図２には、「外部入力信号」と記す）を入力するように構成されたインターフェイスである。第１外部入力部１１ｂは、例えば、ＨＤＭＩ（登録商標）端子であり、ＨＤＭＩ（登録商標）に適合したケーブルによってＳＴＢ３に接続されている。

映像抽出部１２は、映像受信部１１によって受信された映像コンテンツを構成するフレームシーケンスから、所定のフレームレートで複数の画像フレームを抽出する。例えば、映像コンテンツのフレームレートが６０ｆｐｓ（ＦｒａｍｅｓＰｅｒＳｅｃｏｎｄ）である場合に、映像抽出部１２は、３０ｆｐｓ、または２０ｆｐｓ、または１５ｆｐｓ、といったフレームレートで複数の画像フレームを抽出する。なお、後段の認識部１００が６０ｆｐｓの映像を処理可能な処理能力を持っていれば、映像抽出部１２は、映像コンテンツのフレームシーケンスを構成する全ての画像フレームを抽出してもよい。

付加情報取得部１３は、情報を取得する回路および通信インターフェイスとして動作する。付加情報取得部１３は、認識部１００が取得した映像コンテンツの認識結果に基づいて、広告サーバ装置３０から付加情報を取得する。

映像出力部１４は、映像受信部１１によって受信された映像コンテンツを表示画面に出力するように構成された表示制御回路である。表示画面は、例えば、液晶表示装置や有機ＥＬ（ＥｌｅｃｔｒｏＬｕｍｉｎｅｓｃｅｎｃｅ）等のディスプレイである。

付加情報格納部１８は、付加情報を格納するように構成された記憶装置である。付加情報格納部１８は、例えば、フラッシュメモリ等の不揮発性記憶素子である。例えば、付加情報格納部１８は、広告サーバ装置３０から取得した付加情報に加え、ＥＰＧ（ＥｌｅｃｔｒｏｎｉｃＰｒｏｇｒａｍＧｕｉｄｅ）等の番組メタ情報を保持してもよい。

付加情報表示制御部１９は、広告サーバ装置３０から取得した付加情報を、映像受信部１１で受信した映像コンテンツ（例えば、番組コンテンツ）に重畳するように構成されている。付加情報表示制御部１９は、例えば、番組コンテンツに含まれる各画像フレームに付加情報を重畳して重畳画像を生成し、生成した重畳画像を映像出力部１４に出力する。映像出力部１４が重畳画像を表示画面に出力することで、表示画面には、付加情報が重畳された番組コンテンツが表示される。

認識部１００は、認識データを生成するように構成された処理部である。認識部１００は、生成した認識データをコンテンツ認識装置２０に送信し、コンテンツ認識装置２０から認識結果を受信する。

図１に示すように、認識部１００は、フィンガープリント生成部１１０と、フィンガープリント送信部１２０と、認識結果受信部１３０と、を備える。

フィンガープリント生成部１１０は、認識データ生成回路の一例である。フィンガープリント生成部１１０は、映像抽出部１２によって抽出された複数の画像フレームを用いて、認識データを生成する。具体的には、フィンガープリント生成部１１０は、フレーム間における画像の変化に基づいて、フレーム間毎にフィンガープリントを生成する。例えば、フィンガープリント生成部１１０は、映像抽出部１２によって抽出された画像フレームを取得する度に、直前に取得した画像フレームとの間で変化量を算出し、算出した変化量に基づいてフィンガープリントを生成する。生成したフィンガープリントは、フィンガープリント送信部１２０に出力される。

なお、フィンガープリント生成部１１０の詳細な動作、および、生成されるフィンガープリントの具体例については、後述する。

フィンガープリント送信部１２０は、フィンガープリント生成部１１０によって生成された認識データをコンテンツ認識装置２０に送信する。具体的には、フィンガープリント送信部１２０は、図２に示すＨＴＴＰ送受信部１７および通信ネットワーク１０５を介してコンテンツ認識装置２０に認識データを送信する。

図３は、実施の形態１における受信装置１０が送信する認識データ４０の一例を模式的に示す図である。

図３に示すように、認識データ４０には、複数のフィンガープリント４３と、各フィンガープリント４３に対応付けられているタイミング情報４１および種別情報４２と、が含まれる。

タイミング情報４１は、フィンガープリント４３が生成された時刻を示す情報である。種別情報４２は、フィンガープリント４３の種類を示す情報である。種別情報４２には、フレーム間の画像の変化が相対的に小さい静的フィンガープリント（以下、「Ａタイプ」とも記載する）を示す情報と、フレーム間の画像の変化が相対的に大きい動的フィンガープリント（以下、「Ｂタイプ」とも記載する）を示す情報との２種類がある。

フィンガープリント４３は、映像コンテンツを構成するフレームシーケンスに含まれる複数の画像フレームのフレーム間の画像の変化に基づいて生成される情報（例えば、ハッシュ値）である。フィンガープリント４３は、図３に示すように、「０１８」、「１８４」などの複数の特徴量を含んでいる。フィンガープリント４３の詳細は後述する。

フィンガープリント送信部１２０は、認識データ４０をコンテンツ認識装置２０に送信する。このとき、フィンガープリント送信部１２０は、フィンガープリント生成部１１０によって認識データ４０が生成される度に、生成された認識データ４０を順次送信する。

また、受信装置１０は、付属情報をコンテンツ認識装置２０に送信する。付属情報については後述する。受信装置１０は、付属情報を、認識データ４０に含めて送信してもよく、認識データ４０とは独立に送信してもよい。あるいは、認識データ４０に含めて送信する付属情報と、認識データ４０とは独立に送信する付属情報との両方があってもよい。

認識結果受信部１３０は、コンテンツ認識装置２０から映像コンテンツの認識結果を受信する。具体的には、認識結果受信部１３０は、図２に示す通信ネットワーク１０５およびＨＴＴＰ送受信部１７を介してコンテンツ認識装置２０から認識データを受信する。

映像コンテンツの認識結果には、映像コンテンツを特定するための情報が含まれる。この情報は、例えば、映像コンテンツを放送する放送局を示す情報や、映像コンテンツの名称を示す情報、等である。認識結果受信部１３０は、映像コンテンツの認識結果を付加情報取得部１３に出力する。

［１−１−２．コンテンツ認識装置］
次に、本実施の形態におけるコンテンツ認識装置２０について、図１を用いて説明する。

図１に示すように、コンテンツ認識装置２０は、コンテンツ受信部２１と、フィンガープリントデータベース（以下、「フィンガープリントＤＢ」と記す）２２と、フィンガープリントフィルタリング部２３と、フィンガープリント照合部２４と、フィンガープリント履歴情報ＤＢ２５と、フィンガープリント生成部２１１０と、を備える。なお、図２のコンテンツ認識装置２０には、フィンガープリントＤＢ２２のみを示し、他のブロックは省略している。

コンテンツ受信部２１は、受信回路およびデコーダを備え、放送局２から送信される映像コンテンツを受信するように構成されている。複数の放送局２がある場合には、コンテンツ受信部２１は、複数の放送局２のそれぞれが生成し、送信する全ての映像コンテンツを受信する。上述したように、これら受信された映像コンテンツが、映像コンテンツ候補である。コンテンツ受信部２１は、受信した映像コンテンツ候補を、フィンガープリント生成部２１１０に出力する。

フィンガープリント生成部２１１０は、映像コンテンツ候補毎に認識データ５０を生成する。具体的には、フィンガープリント生成部２１１０は、受信した映像コンテンツ候補を構成するフレームシーケンスの画像フレーム間の変化に基づいて、画像フレーム間毎にフィンガープリント５３を生成する。したがって、フィンガープリント生成部２１１０は、受信した映像コンテンツ候補のフレームレートで、フィンガープリント５３を生成する。例えば、映像コンテンツ候補のフレームレートが６０ｆｐｓであれば、フィンガープリント生成部２１１０は、１秒間に６０のフィンガープリント５３を生成する。

なお、コンテンツ認識装置２０が備えるフィンガープリント生成部２１１０は、例えば、受信装置１０の認識部１００が備えるフィンガープリント生成部１１０と実質的に同じ構成および動作であってもよい。フィンガープリント生成部２１１０の詳細は、図７を用いて後述する。

フィンガープリントＤＢ２２は、複数の映像コンテンツ候補の認識データ５０を保存するデータベースである。フィンガープリントＤＢ２２には、例えば、複数の映像コンテンツを互いに識別するための識別情報（例えば、コンテンツＩＤ（ＩＤｅｎｔｉｆｉｅｒ））と、認識データ５０と、が互いに対応付けられて保存されている。コンテンツ認識装置２０は、新たな映像コンテンツがコンテンツ受信部２１で受信される毎に、フィンガープリント生成部２１１０で新たなフィンガープリント５３を生成して、フィンガープリントＤＢ２２を更新する。

フィンガープリントＤＢ２２は、コンテンツ認識装置２０が備える記憶装置（例えば、ＨＤＤ（ＨａｒｄＤｉｓｋＤｒｉｖｅ）等）に記憶されている。なお、フィンガープリントＤＢ２２は、コンテンツ認識装置２０の外部に設置された記憶装置に記憶されていてもよい。

ここで、フィンガープリントＤＢ２２に保存される認識データ５０について、図４を用いて説明する。

図４は、実施の形態１におけるフィンガープリントＤＢ２２に保存される認識データ５０の一例を模式的に示す図である。

図４に示す例では、フィンガープリントＤＢ２２に、認識データ５０ａ、認識データ５０ｂ、認識データ５０ｃ、が認識データ５０として保存されている。認識データ５０ａ、認識データ５０ｂ、認識データ５０ｃは、認識データ５０の一例である。図４に示す例では、認識データ５０ａは映像コンテンツα１に対応する認識データ５０であり、認識データ５０ｂは映像コンテンツβ１に対応する認識データ５０であり、認識データ５０ｃは映像コンテンツγ１に対応する認識データ５０である。なお、映像コンテンツα１は放送局αから、映像コンテンツβ１は放送局βから、映像コンテンツγ１は放送局γから、それぞれほぼ同時刻に放送された映像コンテンツ候補である。

図４に示すように、認識データ５０ａは複数のフィンガープリント５３ａを含み、認識データ５０ｂは複数のフィンガープリント５３ｂを含み、認識データ５０ｃは複数のフィンガープリント５３ｃを含む。フィンガープリント５３ａ、フィンガープリント５３ｂ、フィンガープリント５３ｃは、フィンガープリント５３の一例である。フィンガープリント５３ａにはタイミング情報５１ａと種別情報５２ａとが対応付けられ、フィンガープリント５３ｂにはタイミング情報５１ｂと種別情報５２ｂとが対応付けられ、フィンガープリント５３ｃにはタイミング情報５１ｃと種別情報５２ｃとが対応付けられている。タイミング情報５１ａ、タイミング情報５１ｂ、タイミング情報５１ｃはタイミング情報５１の一例であり、種別情報５２ａ、種別情報５２ｂ、種別情報５２ｃは種別情報５２の一例である。なお、タイミング情報５１は図３に示すタイミング情報４１と同様のデータ（すなわち、フィンガープリント５３が生成された時刻を示す情報）であり、種別情報５２は図３に示す種別情報４２と同様のデータ（すなわち、フィンガープリント５３の種類を示す情報）であり、フィンガープリント５３は図３に示すフィンガープリント４３と同様のデータである。

コンテンツ認識装置２０のフィンガープリントフィルタリング部２３は、選別部の一例であり、外部から入力される認識データ４０に含まれる付属情報を用いて映像コンテンツ候補を選別（以下、「フィルタリング」と記す）する。具体的には、フィンガープリントフィルタリング部２３は、放送局２から受信した映像コンテンツ候補に関する付属情報と、受信装置１０から取得した付属情報とを用いて、フィンガープリントＤＢ２２から、画像認識処理において照合に用いるために（すなわち、照合の対象とするために）読み出す認識データ５０を、フィルタリングして絞り込む。このように、フィンガープリントフィルタリング部２３は、画像認識処理において照合対象とする、映像コンテンツ候補を、このフィルタリング処理により選別する。

付属情報には、上述した種別情報４２、５２が含まれる。

フィンガープリントフィルタリング部２３は、種別情報４２、５２を用いて、プロパティフィルタリングおよびプロパティシーケンスフィルタリングを行う。プロパティフィルタリングおよびプロパティシーケンスフィルタリングの詳細は、図２０〜図２３を用いて後述する。

付属情報には、受信装置１０で受信される映像コンテンツを送信する放送局２の位置を示す情報（以下、「地理情報」と記す）、または受信装置１０の位置を示す地理情報、が含まれてもよい。地理情報は、例えば、受信装置１０のＩＰ（ＩｎｔｅｒｎｅｔＰｒｏｔｏｃｏｌ）アドレスに基づいて特定される地域を示す情報であってもよい。

付属情報に地理情報が含まれる場合、フィンガープリントフィルタリング部２３は、その地理情報を用いて、リージョンフィルタリング処理を行う。リージョンフィルタリング処理とは、地理情報が示す地域では視聴できない放送局２から放送される映像コンテンツ候補を、画像認識処理における照合対象から除外する処理である。

また、付属情報には、受信装置１０に対応付けられたユーザに関する情報（以下、「ユーザ情報」と記す）が含まれてもよい。ユーザ情報には、例えば、ユーザの趣味、嗜好、年齢、性別、または職業、等を示す情報が含まれる。ユーザが受信装置１０で受信した映像コンテンツの履歴を示す情報が、ユーザ情報に含まれてもよい。

付属情報にユーザ情報が含まれる場合、フィンガープリントフィルタリング部２３は、そのユーザ情報を用いて、プロファイルフィルタリング処理を行う。プロファイルフィルタリング処理とは、ユーザ情報が示すユーザの特徴や嗜好等に合致しない映像コンテンツ候補を、画像認識処理における照合対象から除外する処理である。

なお、フィンガープリントフィルタリング部２３でプロファイルフィルタリング処理を行う場合、フィンガープリントＤＢ２２には、映像コンテンツの特徴を示す情報（以下、「コンテンツ情報」と記す）が、フィンガープリント５３に対応付けられて保存されることが望ましい。コンテンツ情報には、例えば、その映像コンテンツを視聴することが期待されるユーザの特徴を示す情報、が含まれる。コンテンツ情報には、その映像コンテンツのジャンル、その映像コンテンツの視聴が期待されるユーザの年齢層や性別、等が含まれてもよい。

コンテンツ認識装置２０のフィンガープリント照合部２４は、照合部の一例である。フィンガープリント照合部２４は、フィンガープリントフィルタリング部２３によって選別された認識データ５０に含まれるフィンガープリント５３と、受信装置１０からコンテンツ認識装置２０に送信された認識データ４０に含まれるフィンガープリント４３と、を照合し、認識データ４０に含まれるフィンガープリント４３に対応する映像コンテンツを、複数の映像コンテンツ候補の中から特定する。このように、フィンガープリント４３に基づき映像コンテンツを特定することが、「映像コンテンツの認識」である。

フィンガープリント照合部２４は、受信装置１０から送信されコンテンツ認識装置２０で受信されたフィンガープリント４３の特徴量のそれぞれを、フィンガープリントフィルタリング部２３で選別されてフィンガープリントＤＢ２２から読み出された認識データ５０に含まれるフィンガープリント５３の全ての特徴量と、照合する。これにより、フィンガープリント照合部２４は、受信装置１０からコンテンツ認識装置２０に送信された認識データ４０に対応する映像コンテンツを認識する。

図３、図４に示す例では、フィンガープリント照合部２４は、フィンガープリント４３を、フィンガープリント５３ａ、５３ｂ、５３ｃと照合する。フィンガープリント４３とフィンガープリント５３ａとは、ともに、「０１８」、「１８４」等の互いに共通する複数の特徴量を含んでいる。したがって、フィンガープリント照合部２４は、画像認識の結果として、フィンガープリント５３ａに対応する映像コンテンツα１を示す情報を受信装置１０に返信する。

フィンガープリント照合部２４の詳細な動作は、図２４〜図２８を用いて後述する。

フィンガープリント履歴情報ＤＢ２５は、コンテンツ認識装置２０が受信装置１０から受信した認識データ４０が時系列（例えば、受信順）で保持されたデータベースである。フィンガープリント履歴情報ＤＢ２５は、コンテンツ認識装置２０が備えるメモリ等の記憶装置（図示せず）に記憶されている。コンテンツ認識装置２０が受信装置１０から認識データ４０を受信すると、フィンガープリント履歴情報ＤＢ２５は、その認識データ４０が追加されて更新される。

なお、フィンガープリント履歴情報ＤＢ２５には、あらかじめ定められた期間にコンテンツ認識装置２０が受信した認識データ４０が、受信順に保持されていてもよい。あらかじめ定められた期間は、例えば、コンテンツ認識装置２０が、受信装置１０から認識データ４０を受信してから、その認識データ４０に基づく画像認識処理が終了するまでの期間、であってもよい。

なお、コンテンツ認識装置２０は、画像認識処理の結果、受信装置１０から送信された認識データ４０に対応する映像コンテンツを特定できなかった場合、画像認識ができなかったことを示す情報を受信装置１０に送信してもよく、あるいは、何も送信しなくてもよい。

なお、コンテンツ認識装置２０は、通信部（図示せず）を備え、その通信部および通信ネットワーク１０５を介して、受信装置１０と通信する。例えば、コンテンツ認識装置２０は、受信装置１０から送信される認識データ４０を、その通信部を介して受信し、受信した認識データ４０に基づく画像認識の結果を、その通信部を介して受信装置１０に送信する。

［１−１−３．広告サーバ装置］
次に、広告サーバ装置３０について説明する。

広告サーバ装置３０は、放送局２から送信される映像コンテンツに関する付加情報を配信するように構成されたＷｅｂサーバである。図１に示すように、広告サーバ装置３０は、付加情報ＤＢ３１を備える。

付加情報ＤＢ３１は、映像コンテンツ毎に、映像コンテンツを表す情報と付加情報とを互いに対応付けたデータベースである。付加情報ＤＢ３１では、例えば、コンテンツＩＤと付加情報とが互いに対応付けられている。

付加情報ＤＢ３１は、広告サーバ装置３０が備える記憶装置（例えば、ＨＤＤ、等）に記憶されている。なお、付加情報ＤＢ３１は、広告サーバ装置３０の外部に設置された記憶装置に記憶されていてもよい。

付加情報は、例えば、映像コンテンツ内に表示される物（例えば、広告対象の商品、等）の属性を示す情報である。付加情報は、例えば、商品の仕様、販売店（例えば、販売店の住所、ＵＲＬ（ＵｎｉｆｏｒｍＲｅｓｏｕｒｃｅＬｏｃａｔｏｒ）、電話番号、等）、製造者、使用方法、効能、等の商品に関する情報である。

［１−２．フィンガープリント生成部］
次に、本実施の形態におけるフィンガープリント生成部１１０について説明する。

フィンガープリント生成部１１０は、映像コンテンツを構成するフレームシーケンスにおける静的領域および動的領域の少なくとも一方に基づいて、フィンガープリントを生成するように構成されている。フィンガープリント生成部１１０は、例えば集積回路等で実現することができる。

以下、まず静的領域および動的領域について、図５および図６を用いて説明する。

図２の映像抽出部１２は、映像コンテンツを構成するフレームシーケンスから、所定のフレームレートで複数の画像フレームを抽出するように構成されている。このフレームレートは、認識部１００における処理能力等に基づいて設定される。本実施の形態では、放送局２から放送される映像コンテンツのフレームレートが６０ｆｐｓであり、映像抽出部１２が、３０ｆｐｓ、２０ｆｐｓ、１５ｆｐｓの３つのフレームレートで画像フレームを抽出するときの動作例を説明する。なお、映像抽出部１２は、複数のフレームレートで画像フレームを抽出するわけではない。図５、図６は、抽出するフレームレートが異なるときの動作例を示しているに過ぎない。図５、図６に示す例では、映像抽出部１２は、３０ｆｐｓ、または２０ｆｐｓ、または１５ｆｐｓ、のいずれかのフレームレートで画像フレームを抽出する。

［１−２−１．静的領域］
静的領域とは、２つの画像フレーム間で画像の変化量が、あらかじめ定められた閾値（以下、「第１閾値」と記す）よりも少ない領域のことである。静的領域は、例えば、画像中の背景または動きや変化の少ない被写体が占める領域、等である。静的領域は、画像フレーム間で画像の変化量を算出することにより決定される。

図５は、実施の形態１における映像抽出部１２で抽出される各フレームレートの画像フレームと静的領域との関係の一例を模式的に示す図である。

図５に一例として示す放送映像の映像コンテンツは、映像に大きな変化がない同一のシーンが９フレームで構成されている。映像内では、２人の被写体が動いているが、背景は動いていない。

図５に示すように、映像抽出部１２が３０ｆｐｓ、２０ｆｐｓ、１５ｆｐｓのいずれのフレームレートで画像フレームを抽出したとしても、各フレームレートにおいて決定される静的領域は、互いに類似し、かつ、放送される６０ｆｐｓの映像コンテンツにおいて決定される静的領域に類似する。

このことから、画像フレームを抽出する際のフレームレートが３０ｆｐｓ、２０ｆｐｓ、１５ｆｐｓのいずれであっても、映像抽出部１２で抽出される画像フレームにおいて決定される静的領域と、放送される映像コンテンツにおいて決定される静的領域と、を互いに照合することで、映像コンテンツの認識が可能であることが分かる。静的領域は、画像フレームにおいて背景および動きや変化の小さい被写体等が占める領域であり、所定の期間（例えば、数秒間）は画像フレーム内に存在する可能性が高い領域である。したがって、静的領域を用いることで、高精度な認識が可能になる。

コンテンツ認識装置２０では、放送局２から放送される映像コンテンツを受信し、その映像コンテンツにおける静的領域に基づき静的フィンガープリントを生成してフィンガープリントＤＢ２２に保存する。したがって、コンテンツ認識装置２０は、受信装置１０において受信中の映像コンテンツに基づき生成された静的フィンガープリントを受信装置１０から受信したときに、受信装置１０で受信中の映像コンテンツを認識することができる。

［１−２−２．動的領域］
動的領域とは、２つの画像フレーム間で画像の変化量が、あらかじめ定められた閾値（以下、「第２閾値」と記す）より大きい領域のことである。動的領域は、例えば、シーンの切り替わり時に大きな画像の変化が発生する領域、等である。

図６は、実施の形態１における映像抽出部１２で抽出される各フレームレートの画像フレームと動的領域との関係の一例を模式的に示す図である。

図６に一例として示す映像コンテンツは、シーンの切り替えを含んでいる。図６に示す映像コンテンツは、時間の経過とともに切り替わる第１〜第３の３つのシーンを含んでいる。第１のシーンは画像フレームＡ００１〜Ａ００３を含み、第２のシーンは画像フレームＡ００４〜Ａ００６を含み、第３のシーンは画像フレームＡ００７〜Ａ００９を含む。

動的領域は、画像フレーム間で画像の変化量を算出することにより決定される。

図６に示す例では、３０ｆｐｓ、２０ｆｐｓ、１５ｆｐｓのいずれの場合においても、映像抽出部１２で抽出される複数の画像フレームには、３つのシーンのそれぞれの画像フレームが含まれている。このため、時間的に隣り合う２つの画像フレーム間で画像の変化量を算出すると、シーンの切り替わりの前後の画像フレームで大きな変化量が算出される。なお、図６には、一例として、第１のシーンから第２のシーンへの切り替わりにおける動的領域を示す。

例えば、図６の３０ｆｐｓにおいて、第１のシーンと第２のシーンとの切り替わりは、画像フレームＡ００３と画像フレームＡ００５である。したがって、図６の３０ｆｐｓでは、動的領域は、画像フレームＡ００３と画像フレームＡ００５との間で発生する。同様に、図６の２０ｆｐｓでは、動的領域は、画像フレームＡ００１と画像フレームＡ００４との間で発生し、図６の１５ｆｐｓでは、動的領域は、画像フレームＡ００１と画像フレームＡ００５との間で発生する。

一方、放送される６０ｆｐｓの映像コンテンツにおいて、第１のシーンと第２のシーンの切り替わりは、画像フレームＡ００３と画像フレームＡ００４である。したがって、放送される映像コンテンツでは、動的領域は、画像フレームＡ００３と画像フレームＡ００４との間で発生する。

すなわち、放送される６０ｆｐｓの映像コンテンツにおける動的領域と、映像抽出部１２によって抽出される３０ｆｐｓ、２０ｆｐｓ、１５ｆｐｓのそれぞれにおける動的領域とは、図６に示すように、互いに類似している。

このように、映像抽出部１２が３０ｆｐｓ、２０ｆｐｓ、１５ｆｐｓのいずれのフレームレートで画像フレームを抽出したとしても、各フレームレートのそれぞれで決定される動的領域は、互いに類似し、かつ、放送される６０ｆｐｓの映像コンテンツにおいて決定される動的領域に類似する。

このことから、画像フレームを抽出する際のフレームレートが３０ｆｐｓ、２０ｆｐｓ、１５ｆｐｓのいずれであっても、映像抽出部１２で抽出される画像フレームに基づき決定される動的領域と、放送される映像コンテンツにおいて決定される動的領域と、を互いに照合することで、映像コンテンツの認識が可能であることが分かる。動的領域は、シーンの切り替わり等により大きな画像の変化が発生した領域であり、特徴的な画像の変化が起きた領域である。したがって、動的領域を用いることで、高精度な認識が可能になる。また、特徴的な画像の変化に基づいて認識が行われるので、認識に必要なフレーム数を従来に比べて削減することができ、認識にかかる処理を高速にすることができる。

コンテンツ認識装置２０では、放送局２から放送される映像コンテンツを受信し、その映像コンテンツにおける動的領域に基づき動的フィンガープリントを生成してフィンガープリントＤＢ２２に保存する。したがって、コンテンツ認識装置２０は、受信装置１０において受信中の映像コンテンツに基づき生成された動的フィンガープリントを受信装置１０から受信したときに、受信装置１０で受信中の映像コンテンツを認識することができる。

［１−２−３．構成］
次に、本実施の形態におけるフィンガープリント生成部１１０について、図７を用いて説明する。

図７は、実施の形態１におけるフィンガープリント生成部１１０の一構成例を示すブロック図である。

なお、コンテンツ認識装置２０が備えるフィンガープリント生成部２１１０は、受信装置１０が備えるフィンガープリント生成部１１０と実質的に同じ構成・動作であるので、重複説明は省略する。

図７に示すように、フィンガープリント生成部１１０は、画像取得部１１１と、データ生成部１１２と、を備える。

画像取得部１１１は、映像抽出部１２によって抽出された複数の画像フレームを取得する。

データ生成部１１２は、画像取得部１１１によって取得された複数の画像フレームのフレーム間における画像の変化に基づいて、認識データとしてフィンガープリントを生成する。

フィンガープリントには、静的フィンガープリントと動的フィンガープリントとの２種類がある。静的フィンガープリントは、フレーム間の画像の変化量が、あらかじめ設定された閾値（以下、「第１閾値」とする）より小さい領域（以下、「静的領域」とする）に基づいて生成されるフィンガープリントである。動的フィンガープリントは、フレーム間の画像の変化量が、あらかじめ設定された閾値（以下、「第２閾値」とする）より大きい領域（以下、「動的領域」とする）に基づいて生成されるフィンガープリントである。

認識データは、静的フィンガープリントと動的フィンガープリントとの少なくとも一方を含む。なお、第１閾値の値および第２閾値の値によっては、静的フィンガープリントおよび動的フィンガープリントがともに生成されない場合がある。この場合、認識データは、静的フィンガープリントおよび動的フィンガープリントのいずれも含まない。

図７に示すように、データ生成部１１２は、スケール変換部２１０と、差分算出部２２０と、決定部２３０と、生成部２４０と、を備える。

スケール変換部２１０は、画像取得部１１１によって取得された複数の画像フレームのそれぞれに対してスケール変換を実行する。具体的には、スケール変換部２１０は、グレースケール変換およびダウンスケール変換を各画像フレームに対して実行する。

グレースケール変換とは、カラー画像をグレースケール画像に変換することである。スケール変換部２１０は、画像フレームの各画素が有する色情報を輝度値に変換することで、カラー画像をグレースケール画像に変換する。本開示は、この変換手法を限定しない。例えば、スケール変換部２１０は、各画素からＲＧＢの１つの要素を抽出し、それを、対応する画素の輝度値に変換してもよい。なお、輝度値は、画素の明るさを示す数値であり、画素値の一例である。あるいは、スケール変換部２１０は、ＮＴＳＣ系加重平均法または単純平均法、等を利用して輝度値を算出してもよい。

ダウンスケール変換とは、１つの画像フレームを構成する画素の数を、元の画素数から、より少ない画素数に変換することである。スケール変換部２１０は、ダウンスケール変換を実行して、画像フレームの画像を、より少ない画素数で構成される画像に変換する。本開示は、この変換手法を限定しない。例えば、スケール変換部２１０は、各画像を、それぞれが複数の画素を含む複数のブロックに分割し、ブロック毎に１つの数値を算出することで、ダウンスケール変換を行ってもよい。このとき、スケール変換部２１０は、ブロック毎に、輝度値の平均値や中間値等を算出して、そのブロックの明るさを表す数値としてもよい。

なお、本実施の形態では、スケール変換部２１０は、グレースケール変換およびダウンスケール変換の両方を行うものとするが、本開示は何らこの構成に限定されない。スケール変換部２１０は、これらのいずれか一方のみを行ってもよく、あるいは、いずれも行わなくてもよい。すなわち、データ生成部１１２は、スケール変換部２１０を備えなくてもよい。

差分算出部２２０は、画像取得部１１１によって取得された複数の画像フレームのそれぞれから、画像変化フレームを生成する。画像変化フレームは、時間的に隣り合う２つの画像フレーム（例えば、時間的に連続する２つの画像フレーム）間の輝度値の差分を算出することで、生成される。したがって、画像変化フレームは、時間的に隣り合う２つの画像フレーム間の輝度値の変化量（以下、「輝度変化値」と記す）を示している。なお、輝度変化値は、画素変化値の一例であり、画素値の一例である輝度値の変化量を示す値である。差分算出部２２０は、スケール変換部２１０によってグレースケール変換およびダウンスケール変換が行われた画像フレームを用いて、画像変化フレームを生成する。

決定部２３０は、静的領域決定部２３１と、動的領域決定部２３２と、を備える。

決定部２３０は、差分算出部２２０で生成された画像変化フレームの各輝度変化値の絶対値を、第１閾値および第２閾値と比較する。そして、輝度変化値の絶対値が第１閾値より小さい静的領域、および、輝度変化値の絶対値が第２閾値より大きい動的領域、の少なくとも一方を決定する。具体的には、決定部２３０は、画像変化フレームの各輝度変化値の絶対値をそれぞれ算出し、その絶対値が第１閾値より小さいか否かの判定と、その絶対値が第２閾値より大きいか否かの判定と、をそれぞれ実行することで、静的領域および動的領域を決定する。

なお、輝度変化値の絶対値の算出は、差分算出部２２０で行われてもよい。

第１閾値および第２閾値は、予め定められた数値が設定され、輝度変化値の取りうる範囲に基づいて決定される。例えば、第１閾値および第２閾値は、輝度変化値の絶対値の最大値の０％〜２０％の範囲で定められる。具体的な一例を挙げると、輝度変化値の絶対値の最大値が２５５である場合、第１閾値は「１」であり、第２閾値は「２０」である。なお、これらの数値は単なる一例に過ぎない。各閾値は適切に設定されることが望ましい。第１閾値と第２閾値とは、互いに同じ数値でもよく、互いに異なる数値でもよい。また、第２閾値は、第１閾値より大きい数値であることが望ましいが、第２閾値が第１閾値より小さい数値であってもよい。

決定部２３０が備える静的領域決定部２３１は、画像変化フレームの輝度変化値の絶対値のそれぞれを第１閾値と比較し、その絶対値が第１閾値より小さいか否かを判定することで、静的領域を決定する。例えば、第１閾値が「１」である場合、静的領域決定部２３１は、輝度変化値が「０」の領域を静的領域とする。輝度変化値が「０」の領域は、時間的に隣り合う２つの画像フレーム間で輝度値が実質的に変化していない領域、である。

決定部２３０が備える動的領域決定部２３２は、画像変化フレームの輝度変化値の絶対値のそれぞれを第２閾値と比較し、その絶対値が第２閾値より大きいか否かを判定することで、動的領域を決定する。例えば、第２閾値が「２０」である場合、動的領域決定部２３２は、輝度変化値の絶対値が「２１」以上の領域を動的領域とする。輝度変化値の絶対値が「２１」以上の領域は、時間的に隣り合う２つの画像フレーム間で輝度値が２１以上変化した領域、である。

なお、静的領域決定部２３１および動的領域決定部２３２は、スケール変換部２１０でグレースケール変換およびダウンスケール変換が行われた画像フレームに基づく画像変化フレームの輝度変化値の絶対値を、判定に用いる。

生成部２４０は、静的フィンガープリント生成部２４１と、動的フィンガープリント生成部２４２と、を備える。

静的フィンガープリント生成部２４１は、静的領域決定部２３１から出力される静的領域が、画像変化フレーム内のあらかじめ定められた割合（以下、「第１割合」とする）以上を占めるか否かを判定する。そして、静的フィンガープリント生成部２４１は、静的領域が第１割合以上の場合に、静的領域に基づき以下のようにして静的フィンガープリントを生成する。そうでなければ、静的フィンガープリントを生成しない。静的フィンガープリント生成部２４１は、画像変化フレーム内に占める静的領域の範囲が大きい場合、言い換えると、時間的に隣り合う２つの画像フレーム間で画像の変化が少ない場合に、静的フィンガープリントを生成する。

静的フィンガープリント生成部２４１は、画像変化フレームの生成に用いた２つの画像フレームの一方を静的領域でフィルタリングして静的フレームを生成する。このフィルタリングについては後述する。そして、静的フィンガープリント生成部２４１は、生成した静的フレームを、静的フィンガープリントとする。静的フレームは、画像変化フレームの生成に用いた２つの画像フレームの一方の静的領域の輝度値を含み、かつ、静的領域以外の領域の輝度値が一定値（例えば、「０」）であるフレームである。静的フレームの詳細は後述する。

動的フィンガープリント生成部２４２は、動的領域決定部２３２から出力される動的領域が、画像変化フレーム内のあらかじめ定められた割合（以下、「第２割合」とする）以上を占めるか否かを判定する。そして、動的フィンガープリント生成部２４２は、動的領域が第２割合以上の場合に、動的領域に基づき以下のようにして動的フィンガープリントを生成する。そうでなければ、動的フィンガープリントを生成しない。動的フィンガープリント生成部２４２は、画像変化フレーム内に占める動的領域の範囲が大きい場合、言い換えると、時間的に隣り合う２つの画像フレーム間で画像の変化が多い場合に、動的フィンガープリントを生成する。

動的フィンガープリント生成部２４２は、画像変化フレームを動的領域でフィルタリングして動的フレームを生成する。このフィルタリングについては後述する。そして、動的フィンガープリント生成部２４２は、生成した動的フレームを、動的フィンガープリントとする。動的フレームは、画像変化フレームの動的領域の輝度値を含み、かつ、動的領域以外の領域の輝度値が一定値（例えば、「０」）であるフレームである。動的フレームの詳細は後述する。

なお、第１割合および第２割合には、予め定められた数値が設定される。例えば、第１割合および第２割合は、２０％〜４０％の範囲で定められる。具体的な一例を挙げると、第１割合および第２割合は、それぞれ３０％である。なお、これらの数値は単なる一例に過ぎない。第１割合および第２割合は、適切に設定されることが望ましい。第１割合と第２割合とは、互いに同じ数値でもよく、互いに異なる数値でもよい。

以上の構成により、フィンガープリント生成部１１０は、画像フレーム毎に、静的フィンガープリントおよび動的フィンガープリントのいずれか一方を生成する。もしくは、いずれも生成しない。すなわち、フィンガープリント生成部１１０は、映像コンテンツからＮ個の画像フレームを取得した場合、静的フィンガープリントおよび動的フィンガープリントを合わせて最大でＮ−１個含むフィンガープリントを生成する。

なお、連続する同一のシーンで生成される各静的フィンガープリントは、互いに類似する可能性が高い。したがって、静的フィンガープリント生成部２４１は、連続する複数の画像フレームが同一のシーンを映したものである場合、同一のシーンから生成される複数の静的フィンガープリントから、１つの静的フィンガープリントを選択して出力してもよい。

従来技術では、画像フレームの照合には、輪郭検知等の比較的負荷の重い処理が必要である。しかし、本実施の形態では、画像フレーム間の画像の変化に基づいてフィンガープリントを生成する。画像フレーム間の画像の変化の検出は、差分の算出等の比較的負荷の軽い処理で実行可能である。すなわち、本実施の形態におけるフィンガープリント生成部１１０では、比較的負荷の軽い処理でフィンガープリントを生成することができる。これらのことは、フィンガープリント生成部２１１０でも同様である。

［１−３．動作］
次に、本実施の形態におけるコンテンツ認識システム１の動作を、図８〜図２８を用いて説明する。

［１−３−１．全体の動作］
まず、本実施の形態におけるコンテンツ認識システム１の全体の動作について、図８を用いて説明する。

図８は、実施の形態１におけるコンテンツ認識システム１が備えるコンテンツ認識装置２０の一動作例を示すフローチャートである。

まず、コンテンツ受信部２１は、放送局２から映像コンテンツを受信する（ステップＳ１）。

コンテンツ受信部２１は、複数の放送局２から、放送中の複数の映像コンテンツを、受信装置１０が受信するより先に受信する。コンテンツ受信部２１は、放送される前の映像コンテンツを予め受信してもよい。上述したように、コンテンツ受信部２１は、複数の映像コンテンツのそれぞれを、映像コンテンツ候補として受信する。

次に、フィンガープリント生成部２１１０は、認識データを生成する（ステップＳ２）。

具体的には、フィンガープリント生成部２１１０は、コンテンツ受信部２１が受信した複数の映像コンテンツ候補のそれぞれに対応するフィンガープリントを生成する。フィンガープリント生成の詳細は、図９を用いて後述する。

次に、フィンガープリント生成部２１１０は、ステップＳ２で生成した認識データを、フィンガープリントＤＢ２２に保存する（ステップＳ３）。

具体的には、図４に一例を示したように、フィンガープリント生成部２１１０は、ステップＳ２で生成したフィンガープリント５３を、タイミング情報５１および種別情報５２に対応付けし、対応付けしたそれらのデータを認識データ５０としてフィンガープリントＤＢ２２に保存する。このとき、フィンガープリント生成部２１１０は、フィンガープリント５３を、例えば、放送局２毎に保存してもよい。また、プロファイルフィルタリングに用いるコンテンツ情報を、フィンガープリント５３に対応付けて保存してもよい。

コンテンツ認識装置２０は、受信装置１０から認識データ４０を受信したか否かを判断する（ステップＳ４）。

コンテンツ認識装置２０は、受信装置１０から認識データ４０を受信していない、と判断した場合（ステップＳ４のＮｏ）、ステップＳ１に戻り、ステップＳ１以降の処理を実行する。コンテンツ認識装置２０は、受信装置１０から認識データ４０を受信するまで、ステップＳ１〜ステップＳ３の処理を繰り返す。

コンテンツ認識装置２０が、受信装置１０から認識データ４０を受信した、と判断した場合（ステップＳ４のＹｅｓ）、フィンガープリントフィルタリング部２３は、フィンガープリントＤＢ２２に保存されている認識データ５０をフィルタリングする（ステップＳ５）。そのフィルタリングの詳細は、図１９を用いて後述する。

次に、フィンガープリント照合部２４は、ステップＳ５でフィルタリングされた認識データ５０に対して、ステップＳ４で受信装置１０から受信した認識データ４０を照合する（ステップＳ６）。照合の詳細は、図２４を用いて後述する。

フィンガープリント照合部２４は、ステップＳ６での照合ができたか否かを判断する（ステップＳ７）。

フィンガープリント照合部２４がステップＳ６の照合をできなかった場合（ステップＳ７のＮｏ）、コンテンツ認識装置２０は、ステップＳ１に戻り、ステップＳ１以降の処理を実行する。

フィンガープリント照合部２４がステップＳ６の照合をできた場合（ステップＳ７のＹｅｓ）、コンテンツ認識装置２０は、ステップＳ６の照合結果（すなわち、画像認識の結果）を受信装置１０に送信する（ステップＳ８）。

受信装置１０は、コンテンツ認識装置２０から画像認識の結果を受信することで、受信した画像認識の結果に基づいて、付加情報の重畳表示等の処理を実行することができる。

ステップＳ８の後は、映像コンテンツの認識処理を終了するか否かがコンテンツ認識装置２０で判定される（ステップＳ９）。本開示は、ステップＳ９における判定方法を限定しない。例えば、受信装置１０から、あらかじめ定められた期間、認識データ４０が送信されないとき、コンテンツ認識装置２０は、ステップＳ９でＹｅｓの判定をするように設定されていてもよい。あるいは、受信装置１０から処理の終了を示す情報を受信したとき、コンテンツ認識装置２０は、ステップＳ９でＹｅｓの判定をするように設定されていてもよい。

コンテンツ認識装置２０は、新たな認識データ４０が受信装置１０からコンテンツ認識装置２０に送信されたとき、映像コンテンツの認識処理を終了せず（ステップＳ９のＮｏ）、ステップＳ１に戻り、ステップＳ１以降の一連の処理を繰り返す。映像コンテンツの認識処理を終了する場合（ステップＳ９のＹｅｓ）、コンテンツ認識装置２０は、画像認識に関する処理を終了する。

［１−３−２．認識データの生成］
次に、本実施の形態で認識データが生成されるときの処理（図８のステップＳ２の処理）の詳細を、図９〜図１８を用いて説明する。

まず、認識データを生成するときの処理の概要を、図９を用いて説明する。

図９は、実施の形態１における認識データを生成するときの処理の一例を示すフローチャートである。図９のフローチャートは、図８のステップＳ２で実行される処理の概要を示している。

まず、フィンガープリント生成部２１１０は、ステップＳ１でコンテンツ受信部２１が受信した複数の映像コンテンツ候補の各画像フレームに関して、画像フレーム間の画像の変化量を算出する（ステップＳ２０）。画像の変化量の算出の詳細は、図１１〜図１３を用いて後述する。

なお、受信装置１０が備えるフィンガープリント生成部１１０では、映像抽出部１２で抽出された複数の画像フレームから、画像フレーム間の画像の変化量を算出する（ステップＳ２０）。この点がフィンガープリント生成部１１０とフィンガープリント生成部２１１０との違いである。しかし、この点を除き、フィンガープリント生成部１１０とフィンガープリント生成部２１１０とは、実質的に同じ動作をする。

次に、フィンガープリント生成部２１１０は、静的フィンガープリントを生成する（ステップＳ２１）。

フィンガープリント生成部２１１０は、画像変化フレームに基づいて静的領域を決定し、決定した静的領域に基づいて静的フィンガープリントを生成する。静的フィンガープリントの生成の詳細は、図１４、図１５を用いて後述する。

次に、フィンガープリント生成部２１１０は、動的フィンガープリントを生成する（ステップＳ２２）。

フィンガープリント生成部２１１０は、画像変化フレームに基づいて動的領域を決定し、決定した動的領域に基づいて動的フィンガープリントを生成する。動的フィンガープリントの生成の詳細は、図１６〜図１８を用いて後述する。

なお、ステップＳ２１における静的フィンガープリントの生成処理と、ステップＳ２２における動的フィンガープリントの生成処理とは、どちらが先に実行されてもよく、あるいは、互いに並列に実行されてもよい。

ここで、認識データの生成処理過程における画像フレームの変化について、図１０に一例を挙げて説明する。

図１０は、実施の形態１における認識データの生成処理過程における画像フレームの変化の一例を模式的に示す図である。

なお、図１０には、コンテンツ受信部２１がステップＳ１で取得した映像コンテンツ候補に含まれる複数の画像フレーム（ａ）と、後述するステップＳ２００でグレースケール変換された画像フレーム（ｂ）と、後述するステップＳ２０１でダウンスケール変換された画像フレーム（ｃ）と、後述するステップＳ２０２で算出された変化量（ｄ）と、ステップＳ２１およびステップＳ２２で生成されたフィンガープリント（ｅ）と、を模式的に示す。

まず、図１０の画像フレーム（ａ）に、図８に示したステップＳ１で、９つの画像フレームＡ００１〜Ａ００９が映像コンテンツ候補から取得されたときの例を示す。図１０に示す例では、画像フレームＡ００１〜Ａ００９のそれぞれは、第１のシーン〜第３のシーンの３つのシーンのいずれかに含まれる。画像フレームＡ００１〜Ａ００３は第１のシーンに含まれ、画像フレームＡ００４〜Ａ００６は第２のシーンに含まれ、画像フレームＡ００７〜Ａ００９は第３のシーンに含まれる。画像フレームＡ００１〜Ａ００９は、いわゆるカラー画像であり、色情報を含んでいる。

次に、図１０の画像フレーム（ｂ）に、図８のステップＳ１で抽出された９つの画像フレームＡ００１〜Ａ００９のそれぞれに対して、後述する図１１のステップＳ２００でグレースケール変換が行われたときの例を示す。これにより、画像フレームＡ００１〜Ａ００９に含まれる色情報は、画素毎に輝度値に変換される。

次に、図１０の画像フレーム（ｃ）に、後述する図１１のステップＳ２００でグレースケール変換された９つの画像フレームＡ００１〜Ａ００９のそれぞれに対して、後述する図１１のステップＳ２０１でダウンスケール変換が行われたときの例を示す。これにより、画像フレームを構成する画素数が削減される。なお、図１０の画像フレーム（ｃ）には、１つの画像フレームが５ブロック×５ブロックの２５個のブロックに分割されたときの例を示す。これは、１つの画像フレームを構成する画素の数を２５個にダウンスケールした、と言い換えることができる。図１０の画像フレーム（ｃ）に示す各ブロックの輝度値は、各ブロックを構成する複数の画素の輝度値から算出される。各ブロックの輝度値は、ブロック毎に、ブロックを構成する複数の画素の輝度値の平均値や中間値等を算出することで、算出できる。

なお、図１０の画像フレーム（ｃ）において、各ブロックの濃淡は、輝度値の大小に対応している。輝度値が大きいほどそのブロックをより濃く、輝度値が小さいほどそのブロックをより薄く、示している。

次に、図１０の変化量（ｄ）に、後述する図１１のステップＳ２０１でダウンスケール変換された９つの画像フレームＡ００１〜Ａ００９から、後述する図１１のステップＳ２０２で８つの画像変化フレームＢ００１〜Ｂ００８が生成されたときの例を示す。ステップＳ２０２では、時間的に隣り合う２つの画像フレーム間で輝度値の変化量（すなわち、輝度変化値）を算出することで、１つの画像変化フレームが生成される。ステップＳ２０２では、例えば、ダウンスケール変換された画像フレームＡ００１と画像フレームＡ００２とから画像変化フレームＢ００１が生成される。

なお、図１０の変化量（ｄ）において、画像変化フレームを構成する各ブロックの濃淡は、画像変化フレームの輝度変化値、すなわち、ダウンスケール変換された２つの画像フレーム間の輝度値の変化量、に対応している。輝度値の変化量が大きいほどそのブロックをより濃く、輝度値の変化量が小さいほどそのブロックをより薄く、示している。

次に、図１０のフィンガープリント（ｅ）に、後述する図１１のステップＳ２０２で生成された８つの画像変化フレームＢ００１〜Ｂ００８から、合計で５つの静的フィンガープリントおよび動的フィンガープリントが生成されたときの例を示す。

図１０に示す例では、画像変化フレームＢ００１と画像変化フレームＢ００２とは、共に、同一のシーンに含まれる画像フレームＡ００１〜Ａ００３から生成される。このため、画像変化フレームＢ００１と画像変化フレームＢ００２とは互いに類似する。したがって、ステップＳ２１では、画像変化フレームＢ００１と画像変化フレームＢ００２から、１つの静的フィンガープリントＣ００２を生成することができる。画像変化フレームＢ００４と画像変化フレームＢ００５、および、画像変化フレームＢ００７と画像変化フレームＢ００８、についても同様である。

一方、図１０に示す例では、画像変化フレームＢ００３は、シーンの切り替わりとなる２つの画像フレームＡ００３、Ａ００４から生成される。したがって、ステップＳ２２では、画像変化フレームＢ００３から、１つの動的フィンガープリントＤ００３を生成することができる。画像変化フレームＢ００６も同様である。

図１０に示す例では、このようにして画像フレームＡ００１〜Ａ００９から生成された映像コンテンツのフィンガープリントは、３つの静的フィンガープリントＣ００２、Ｃ００５、Ｃ００８と、２つの動的フィンガープリントＤ００３、Ｄ００６と、を有する。

このように、生成された映像コンテンツのフィンガープリントは、１以上の静的フィンガープリントおよび１以上の動的フィンガープリントのうちの、少なくとも２つを含む。映像コンテンツのフィンガープリントは、２以上の静的フィンガープリントだけで構成されてもよく、２以上の動的フィンガープリントだけで構成されてもよく、あるいは、１以上の静的フィンガープリントおよび１以上の動的フィンガープリントで構成されてもよい。

なお、図１０のフィンガープリント（ｅ）において、静的フィンガープリントまたは動的フィンガープリントを構成する各ブロックの濃淡は、そのブロックの輝度値の大小に対応する。

［１−３−３．スケール変換および変化量の算出］
次に、本実施の形態で画像フレーム間の変化量を算出するときの処理の詳細を、図１１〜図１３を用いて説明する。

図１１は、実施の形態１における画像フレーム間の変化量の算出処理の一例を示すフローチャートである。図１１のフローチャートは、図９のステップＳ２０で実行される処理の概要を示している。

図１２は、実施の形態１における画像フレームのダウンスケール変換処理の一例を模式的に示す図である。

図１３は、実施の形態１における画像フレーム間の変化量の算出処理の一例を模式的に示す図である。

図１１のフローチャートを説明する。まず、図７に示したスケール変換部２１０は、抽出された複数の画像フレームのグレースケール変換を行う（ステップＳ２００）。

スケール変換部２１０は、抽出された複数の画像フレームの１つと、その画像フレームに時間的に隣り合う画像フレームとをそれぞれグレースケールに変換する。なお、本実施の形態では、抽出された１つの画像フレームを「フレーム９１」とし、フレーム９１に時間的に隣り合う画像フレームを「フレーム９２」とする。スケール変換部２１０は、例えば、ＮＴＳＣ系加重平均法に基づいて、フレーム９１、９２の色情報を輝度値に変換する。

なお、本実施の形態では、フレーム９１の直後の画像フレームをフレーム９２とする。しかし、本開示は何らこの構成に限定されない。フレーム９２は、フレーム９１の直前の画像フレームでもよい。あるいは、フレーム９２は、フレーム９１の２フレーム以上前の画像フレームでもよく、または、フレーム９１の２フレーム以上後の画像フレームでもよい。

次に、スケール変換部２１０は、グレースケール変換された２つの画像フレームのダウンスケール変換を行う（ステップＳ２０１）。

図１２は、画像フレームＡ００３、Ａ００４をダウンスケール変換する例を示している。図１２に示す例では、画像フレームＡ００３がフレーム９１に相当し、画像フレームＡ００４がフレーム９２に相当する。

例えば、図１２に示すように、スケール変換部２１０は、画像フレームＡ００３を、５ブロック×５ブロックの２５個のブロックに分割する。図１２に示す例では、各ブロックは、９画素×９画素の８１個の画素を含んでいるものとする。例えば、画像フレームＡ００３の左上のブロックは、図１２に示すように、「７７」、「９５」などの輝度値を有する８１個の画素から構成されている。なお、これらの数値は単なる一例に過ぎず、本開示は何らこれらの数値に限定されるものではない。

スケール変換部２１０は、例えば、ブロック毎に、各ブロックに含まれる複数の画素の輝度値の平均値を算出することで、そのブロックを表す輝度値を算出する。図１２に示す例では、画像フレームＡ００３の左上のブロックを構成する８１個の画素の輝度値の平均値を算出することで、「１０３」という値が算出される。このようにして算出された値（平均値）が、左上のブロックを表す輝度値である。スケール変換部２１０は、このようにして、画像フレームＡ００３を構成する全てのブロックのそれぞれに関して、各ブロックを表す輝度値を算出する。

これにより、画像フレームを構成する画素数を、ブロックの数に変換（すなわち、ダウンスケール）することができる。図１２に示す例では、４５画素×４５画素の画素数を有する画像フレームを、５ブロック×５ブロックの２５ブロックで構成された画像フレームにダウンスケール変換している。これは、４５画素×４５画素の画素数を有する画像フレームを、５画素×５画素の画素数を有する画像フレームにダウンスケール変換した、と言い換えることができる。

図１２に示す例では、ダウンスケール変換後の画像フレームＡ００３は、「１０３」、「１００」などの平均値を含む２５個のブロックで構成されている。これは、ダウンスケール変換後の画像フレームＡ００３は、「１０３」、「１００」等の輝度値を有する２５個の画素で構成される、と言い換えてもよい。画像フレームＡ００４も同様にダウンスケール変換される。なお、本実施の形態では、ダウンスケール変換後の画像フレームを構成する各ブロックを「画素」と表現し、ブロック毎に算出される輝度の平均値を「ダウンスケール変換後の画像フレームの画素の輝度値」と表現する場合がある。

次に、図７に示した差分算出部２２０は、ダウンスケール変換後のフレーム９１とフレーム９２との間で輝度値の差分を算出して、輝度値の差分（すなわち、輝度変化値）で構成された画像変化フレームを生成する（ステップＳ２０２）。

例えば、図１３に示す例では、差分算出部２２０は、ダウンスケール変換後のフレーム９１を構成する各画素の輝度値と、ダウンスケール変換後のフレーム９２を構成する各画素の輝度値と、の差分をそれぞれ算出する。このとき、差分算出部２２０は、同じ位置の画素同士で輝度値の差分を算出する。例えば、差分算出部２２０は、画像フレームＡ００３の左上の輝度値「１０３」から、画像フレームＡ００４の左上の輝度値「８９」を減算して、画像変化フレームＢ００３の左上の輝度変化値「１４」を算出する。

このようにして、差分算出部２２０は、ダウンスケール変換後の２つの画像フレーム間で、全画素（すなわち、全ブロック）について輝度値の差分を算出し、画像変化フレームを生成する。図１２に示す例では、ダウンスケール変換後の画像フレームＡ００３、Ａ００４から画像変化フレームＢ００３が生成される。

［１−３−４．静的フィンガープリントの生成］
次に、本実施の形態で静的フィンガープリントを生成するときの処理の詳細を、図１４、図１５を用いて説明する。

図１４は、実施の形態１における静的フィンガープリントの生成処理の一例を示すフローチャートである。図１４のフローチャートは、図９のステップＳ２１で実行される処理の概要を示している。

図１５は、実施の形態１における画像フレーム間の変化量に基づいて生成される静的フィンガープリントの一例を模式的に示す図である。

まず、図７に示した静的領域決定部２３１が静的領域を決定する（ステップＳ２１０）。

静的領域決定部２３１は、画像変化フレームの輝度変化値の絶対値を算出し、その絶対値を第１閾値と比較する。そして、輝度変化値の絶対値が第１閾値より小さいか否かを判定し、輝度変化値の絶対値が第１閾値より小さい領域を静的領域とする。こうして、静的領域が決定される。輝度変化値の絶対値は、時間的に隣り合う２つの画像フレーム間における輝度値の変化量である。

例えば、第１閾値が「１」に設定されていれば、静的領域決定部２３１は、画像変化フレームの輝度変化値が「０」である領域、すなわち、時間的に隣り合う２つの画像フレーム間で輝度値が実質的に変化していない領域、を静的領域とする。この設定の場合、図１５に示す例では、画像変化フレームＢ００２で輝度変化値として「０」が記入された１３個のブロックが静的領域になる。

次に、図７に示した静的フィンガープリント生成部２４１は、ステップＳ２１０で決定された静的領域でフレーム９１をフィルタリングして、静的フレームを生成する（ステップＳ２１１）。

このフィルタリングとは、フレーム９１を構成する各ブロックの輝度値に対して、次の処理を施すことである。ステップＳ２１０で決定された静的領域に関してはその静的領域に該当するフレーム９１のブロックの輝度値をそのまま使用し、静的領域以外のブロックに関しては輝度値を一定値（例えば、「０」）にする。

フレーム９１をフィルタリングすることで生成される静的フレームは、図１５に示す例では、静的フレームＣ００２である。静的フレームＣ００２では、画像変化フレームＢ００２で輝度変化値が「０」となったブロック（静的領域）に関してはフレーム９１の輝度値がそのまま用いられ、静的領域以外のブロックに関しては輝度値が「０」になる。

次に、図７に示した静的フィンガープリント生成部２４１は、ステップＳ２１０で決定された静的領域の割合を算出して第１割合と比較し、静的領域の割合が第１割合以上であるか否かを判定する（ステップＳ２１２）。

静的フィンガープリント生成部２４１は、画像変化フレームを構成するブロックの総数に対する、ステップＳ２１０で静的領域とされたブロックの数、に基づき静的領域の割合を算出する。図１５に示す画像変化フレームＢ００２の例では、画像変化フレームを構成するブロックの総数は２５であり、静的領域のブロックの数は１３であるので、静的領域の割合は５２％となる。したがって、第１割合が例えば３０％であれば、図１５に示す例では、ステップＳ２１２でＹｅｓと判定される。

ステップＳ２１２において静的領域の割合は第１割合以上であると判定された場合（ステップＳ２１２のＹｅｓ）、静的フィンガープリント生成部２４１は、ステップＳ２１１で生成された静的フレームを静的フィンガープリントとして保存する（ステップＳ２１３）。

図１５に示す例では、ステップＳ２１２でＹｅｓと判定された場合、静的フレームＣ００２が、静的フィンガープリントＣ００２として、コンテンツ認識装置２０が有するフィンガープリントＤＢ２２に保存される。一方、受信装置１０においては、静的フィンガープリントは、受信装置１０が有する記憶装置（例えば、認識部１００の内部メモリ等、図示せず）に保存される。

ステップＳ２１２において静的領域の割合は第１割合未満であると判定された場合（ステップＳ２１２のＮｏ）、静的フィンガープリント生成部２４１は、ステップＳ２１１で生成された静的フレームを保存せずに破棄する（ステップＳ２１４）。したがって、ステップＳ２１２でＮｏと判定された場合、静的フィンガープリントは生成されない。

なお、図４に一例を示したように、静的フィンガープリントＣ００２の各ブロックの値（例えば、「１０３」、「１００」等）が、フィンガープリントの特徴量となる。

このように、フィンガープリント生成部２１１０では、画像フレーム内において静的領域が第１割合より大きいか否かに基づき、静的フィンガープリントを生成する。すなわち、フィンガープリント生成部２１１０は、画像フレームから背景や動き・変化の少ない領域等を適切に抽出して静的フィンガープリントを生成することができる。

なお、図１４のフローチャートでは、ステップＳ２１１においてフィルタリングを行って静的フレームを生成した後に、ステップＳ２１２において静的フレームを保存するか否かの判定を行う動作例を説明したが、本開示は何らこの処理順序に限定されない。例えば、ステップＳ２１０において静的領域を決定した後に、ステップＳ２１２を実行し、ステップＳ２１２でＹｅｓと判定されたときに、ステップＳ２１１を実行して静的フレームを生成し、続くステップＳ２１３でその静的フレームを静的フィンガープリントとして保存する、ように各処理の順番が設定されてもよい。

［１−３−５．動的フィンガープリントの生成］
次に、本実施の形態で動的フィンガープリントを生成するときの処理の詳細を、図１６〜図１８を用いて説明する。

図１６は、実施の形態１における動的フィンガープリントの生成処理の一例を示すフローチャートである。図１６のフローチャートは、図９のステップＳ２２で実行される処理の概要を示している。

図１７は、実施の形態１における動的フィンガープリントが生成されない画像フレームの一例を模式的に示す図である。

図１８は、実施の形態１における画像フレーム間の変化量に基づいて生成される動的フィンガープリントの一例を模式的に示す図である。

まず、図７に示した動的領域決定部２３２が動的領域を決定する（ステップＳ２２０）。

動的領域決定部２３２は、画像変化フレームの輝度変化値の絶対値を算出し、その絶対値を第２閾値と比較する。そして、輝度変化値の絶対値が第２閾値より大きいか否かを判定し、輝度変化値の絶対値が第２閾値より大きい領域を動的領域とする。こうして、動的領域が決定される。

例えば、第２閾値が「２０」に設定されていれば、画像変化フレームにおいて輝度変化値の絶対値が「２１」以上のブロックが動的領域となる。この設定の場合、図１７に示す例では、画像変化フレームＢ００２において輝度変化値として「２１」以上または「−２１」以下の数値が記入された２個のブロックが動的領域になり、図１８に示す例では、画像変化フレームＢ００３において輝度変化値として「２１」以上または「−２１」以下の数値が記入された１１個のブロックが動的領域になる。

次に、図７に示した動的フィンガープリント生成部２４２は、ステップＳ２２０で決定された動的領域で画像変化フレームをフィルタリングして、動的フレームを生成する（ステップＳ２２１）。

このフィルタリングとは、画像変化フレームを構成する各ブロックの輝度変化値に対して、次の処理を施すことである。ステップＳ２２０で決定された動的領域に関してはその動的領域に該当するブロックの輝度変化値をそのまま使用し、動的領域以外のブロックに関しては輝度変化値を一定値（例えば、「０」）にする。

画像変化フレームをフィルタリングすることで生成される動的フレームは、図１７に示す例では動的フレームＤ００２であり、図１８に示す例では動的フレームＤ００３である。動的フレームＤ００２、Ｄ００３では、画像変化フレームＢ００２、Ｂ００３で輝度変化値が「２１」以上または「−２１」以下となったブロック（動的領域）に関しては画像変化フレームＢ００２、Ｂ００３の輝度変化値がそのまま用いられ、動的領域以外のブロックに関しては輝度変化値が「０」になる。

なお、画像変化フレームに対するステップＳ２２０、ステップＳ２２１の処理は、例えば、輝度変化値の絶対値が第２閾値以下であるブロックに関して、その輝度変化値を「０」に置き換える、という一括した処理で実行することができる。

次に、動的フィンガープリント生成部２４２は、ステップＳ２２０で決定された動的領域の割合を算出して第２割合と比較し、動的領域の割合が第２割合以上であるか否かを判定する（ステップＳ２２２）。

動的フィンガープリント生成部２４２は、画像変化フレームを構成するブロックの総数に対する、ステップＳ２２０で動的領域とされたブロックの数、に基づき動的領域の割合を算出する。図１７に示す画像変化フレームＢ００２の例では、画像変化フレームを構成するブロックの総数は２５であり、動的領域のブロックの数は２であるので、動的領域の割合は８％となる。図１８に示す画像変化フレームＢ００３の例では、画像変化フレームを構成するブロックの総数は２５であり、動的領域のブロックの数は１１であるので、動的領域の割合は４４％となる。したがって、第２割合が例えば３０％であれば、図１７に示す例では、ステップＳ２２２でＮｏと判定され、図１８に示す例では、ステップＳ２２２でＹｅｓと判定される。

ステップＳ２２２において動的領域の割合は第２割合以上であると判定された場合（ステップＳ２２２のＹｅｓ）、動的フィンガープリント生成部２４２は、ステップＳ２２１で生成された動的フレームを動的フィンガープリントとして保存する（ステップＳ２２３）。

一方、動的領域の割合は第２割合未満であると判定された場合（ステップＳ２２２のＮｏ）、動的フィンガープリント生成部２４２は、ステップＳ２２１で生成された動的フレームを保存せずに破棄する（ステップＳ２２４）。したがって、ステップＳ２２２でＮｏと判定された場合、動的フィンガープリントは生成されない。

図１８に示す例では、ステップＳ２２２でＹｅｓと判定された動的フレームＤ００３が、動的フィンガープリントＤ００３として、コンテンツ認識装置２０が有するフィンガープリントＤＢ２２に保存される。一方、受信装置１０においては、動的フィンガープリントは、受信装置１０が有する記憶装置（例えば、認識部１００の内部メモリ等、図示せず）に保存される。

図１７に示す例では、ステップＳ２２２でＮｏと判定された動的フレームＤ００２は、保存されずに破棄される。

なお、図４に一例を示したように、動的フィンガープリントＤ００３の各ブロックの値（例えば、「０」、「２４」等）が、フィンガープリントの特徴量となる。

このように、フィンガープリント生成部２１１０では、画像フレーム内において動的領域が第２割合より大きいか否かに基づき、動的フィンガープリントを生成する。すなわち、フィンガープリント生成部２１１０は、シーンの切り替わり等によって大きな画像の変化が起きた領域を画像フレームから適切して動的フィンガープリントを生成することができる。

なお、図１６のフローチャートでは、ステップＳ２２１においてフィルタリングを行って動的フレームを生成した後に、ステップＳ２２２において動的フレームを保存するか否かの判定を行う動作例を説明したが、本開示は何らこの処理順序に限定されない。例えば、ステップＳ２２０において動的領域を決定した後に、ステップＳ２２２を実行し、ステップＳ２２２でＹｅｓと判定されたときに、ステップＳ２２１を実行して動的フレームを生成し、続くステップＳ２２３でその動的フレームを動的フィンガープリントとして保存する、ように各処理の順番が設定されてもよい。

［１−３−６．フィルタリング］
次に、コンテンツ認識装置２０のフィンガープリントフィルタリング部２３で実行されるフィルタリング処理について、図１９〜図２３を用いて説明する。まず、図１９を用いて、フィルタリング処理の概要を説明する。

図１９は、実施の形態１におけるフィンガープリントフィルタリング部２３が実行するフィルタリング処理の一例を示すフローチャートである。図１９のフローチャートは、図８のステップＳ５で実行される処理の概要を示している。

コンテンツ認識装置２０のフィンガープリントフィルタリング部２３は、図１９に示すように、リージョンフィルタリング、プロファイルフィルタリング、プロパティフィルタリング、プロパティシーケンスフィルタリング、の各フィルタリング処理を順番に実行して、画像認識処理における照合対象を絞り込む。

まず、フィンガープリントフィルタリング部２３は、付属情報に含まれる地理情報を用いて、フィンガープリントＤＢ２２に保存されている映像コンテンツ候補に対してリージョンフィルタリング処理を実行する（ステップＳ５０）。

リージョンフィルタリング処理とは、地理情報が示す地域では視聴できない放送局２から放送される映像コンテンツ候補を、画像認識処理における照合対象から除外する処理のことである。

フィンガープリントフィルタリング部２３は、受信装置１０から送信される付属情報に地理情報が含まれていれば、その地理情報に基づき、リージョンフィルタリング処理を実行する。これにより、コンテンツ認識装置２０は、画像認識処理における照合対象としてフィンガープリントＤＢ２２から読み出すフィンガープリント５３を絞り込むことができるので、画像認識にかかる処理を低減できる。

例えば、フィンガープリントフィルタリング部２３は、受信装置１０から送信される付属情報に「東京」を示す地理情報が含まれていれば、画像認識処理における照合対象としてフィンガープリントＤＢ２２から読み出すフィンガープリント５３を、東京で受信可能な放送局２から送信される映像コンテンツ候補のフィンガープリント５３に絞り込む。

次に、フィンガープリントフィルタリング部２３は、付属情報に含まれるユーザ情報を用いて、プロファイルフィルタリング処理を実行する（ステップＳ５１）。

プロファイルフィルタリング処理とは、ユーザ情報が示すユーザの特徴に合致しない映像コンテンツ候補を、画像認識処理における照合対象から除外する処理のことである。

フィンガープリントフィルタリング部２３は、受信装置１０から送信される付属情報にユーザ情報が含まれていれば、そのユーザ情報に基づき、プロファイルフィルタリング処理を実行する。これにより、コンテンツ認識装置２０は、画像認識処理において照合対象とするフィンガープリント５３を絞り込むことができるので、画像認識にかかる処理を低減できる。

例えば、フィンガープリントフィルタリング部２３は、付属情報に、２０歳以上の年齢層を示すユーザ情報が含まれていれば、その年齢層を視聴対象としない映像コンテンツ候補（例えば、幼児を視聴対象とする幼児番組、等）を、画像認識における照合対象から除外する。

次に、フィンガープリントフィルタリング部２３は、プロパティフィルタリング処理を実行する（ステップＳ５２）。

プロパティフィルタリング処理とは、映像コンテンツ候補の認識データ５０に含まれるフィンガープリント５３の種別情報５２と、受信装置１０から送信された認識データ４０に含まれる種別情報４２とを比較する処理のことである。

フィンガープリントフィルタリング部２３は、プロパティフィルタリング処理を実行することで、受信装置１０から送信された認識データ４０に含まれる種別情報４２と同じ種類の種別情報５２のフィンガープリント５３を含まない認識データ５０を、画像認識処理における照合対象から除外し、種別情報４２と同じ種類の種別情報５２のフィンガープリント５３を含む認識データ５０を、画像認識処理における照合対象の候補として選択する。これにより、コンテンツ認識装置２０は、画像認識処理において照合対象とするフィンガープリント５３を絞り込むことができるので、画像認識にかかる処理を低減できる。

例えば、図３、図４に示す例では、受信装置１０から送信された認識データ４０が有する種別情報４２には、「Ａタイプ」と「Ｂタイプ」とが含まれる。したがって、フィンガープリントフィルタリング部２３は、「Ａタイプ」だけの種別情報５２ｂを有する認識データ５０ｂを、画像認識処理における照合対象から除外する。

プロパティフィルタリングの詳細は、図２０、図２１を用いて後述する。

次に、フィンガープリントフィルタリング部２３は、プロパティシーケンスフィルタリング処理を実行する（ステップＳ５３）。

プロパティシーケンスフィルタリング処理とは、映像コンテンツ候補の認識データ５０に含まれる種別情報５２の配列順序と、受信装置１０から送信された認識データ４０に含まれる種別情報４２の配列順序とを比較する処理のことである。なお、種別情報４２、５２の配列順序は、タイミング情報４１、５１が示す時刻に基づき設定されてもよい。この場合、その配列順序は、フィンガープリント４３、５３の生成順序に基づき決定される。

フィンガープリントフィルタリング部２３は、プロパティシーケンスフィルタリング処理を実行することで、受信装置１０から送信された認識データ４０に含まれる種別情報４２の配列順序と同じ順序で配列された種別情報５２を含まない認識データ５０を、画像認識処理における照合対象から除外し、種別情報４２と同じ順序で配列された種別情報５２を含む認識データ５０を、画像認識処理における照合対象として選択する。これにより、コンテンツ認識装置２０は、画像認識処理において照合対象とするフィンガープリント５３を絞り込むことができるので、画像認識にかかる処理を低減できる。

例えば、図３、図４に示す例では、受信装置１０から送信された認識データ４０に含まれる種別情報４２の配列順序は、「Ａタイプ、Ｂタイプ、Ａタイプ」である。したがって、フィンガープリントフィルタリング部２３は、「Ａタイプ、Ａタイプ、Ｂタイプ」と配列された種別情報５２ｃを含む認識データ５０ｃを、画像認識処理における照合対象から除外し、「Ａタイプ、Ｂタイプ、Ａタイプ」と配列された種別情報５２ａを含む認識データ５０ａを、画像認識処理における照合対象とする。

プロパティシーケンスフィルタリングの詳細は、図２２、図２３を用いて後述する。

最後に、フィンガープリントフィルタリング部２３は、ステップＳ５０〜ステップＳ５３の各フィルタリング処理によって選別された映像コンテンツ候補の認識データ５０を、フィンガープリント照合部２４に出力する（ステップＳ５４）。

そして、コンテンツ認識装置２０のフィンガープリント照合部２４は、フィンガープリントフィルタリング部２３によって選別された認識データ５０に、受信装置１０から送信された認識データ４０を照合して、画像認識処理を実行する。そして、コンテンツ認識装置２０は、その画像認識処理の結果（すなわち、認識データ４０に対応する認識データ５０を含む映像コンテンツ候補を表す情報）を、受信装置１０に送信する。

以上のように、コンテンツ認識装置２０では、フィンガープリントフィルタリング部２３が実行するフィルタリングによって、画像認識処理の際に照合対象とする認識データ５０を絞り込むことができる。これにより、映像コンテンツの認識（画像認識）にかかる処理を低減することができる。

なお、図１９には、フィンガープリントフィルタリング部２３が、ステップＳ５０のリージョンフィルタリング処理によって選別された認識データ５０に対してステップＳ５１のプロファイルフィルタリング処理を実行し、その処理によって選別された認識データ５０に対してステップＳ５２のプロパティフィルタリング処理を実行し、その処理によって選別された認識データ５０に対してステップＳ５３のプロパティシーケンスフィルタリング処理を実行する動作例を示したが、本開示は、何らこの処理順序に限定されない。各フィルタリング処理は順序が入れ替わってもよい。あるいは、各フィルタリング処理が独立して実行されてもよい。

［１−３−６−１．プロパティフィルタリング］
次に、コンテンツ認識装置２０のフィンガープリントフィルタリング部２３で実行されるプロパティフィルタリング処理について、図２０、図２１を用いて説明する。

図２０は、実施の形態１におけるフィンガープリントフィルタリング部２３で実行されるプロパティフィルタリング処理の一例を示すフローチャートである。

図２１は、実施の形態１におけるフィンガープリントフィルタリング部２３で実行されるプロパティフィルタリング処理の一具体例を模式的に示す図である。

まず、フィンガープリントフィルタリング部２３は、受信装置１０から送信された認識データ４０から、種別情報４２およびタイミング情報４１を取得する（ステップＳ５２０）。

図３に一例を示したように、受信装置１０から送信される認識データ４０には、タイミング情報４１、種別情報４２およびフィンガープリント４３が含まれる。そして、図２１に示す例では、受信装置１０から送信される認識データ４０に、種別情報４２として「Ａタイプ」、タイミング情報４１として「０７／０７／２０１４０３：３２：３６．１２５」、が含まれており、フィンガープリントフィルタリング部２３は、ステップＳ５２０でこれらの情報を取得する。

次に、フィンガープリントフィルタリング部２３は、フィンガープリントＤＢ２２から複数の認識データ５０を読み出して取得する（ステップＳ５２１）。

図１９に示した動作例では、フィンガープリントフィルタリング部２３は、ステップＳ５０のリージョンフィルタリング処理およびステップＳ５１のプロファイルフィルタリング処理によって選別された認識データ５０を取得する。図４に一例を示したように、認識データ５０には、タイミング情報５１、種別情報５２およびフィンガープリント５３が含まれる。図２１には、フィンガープリントフィルタリング部２３が、各放送局α、β、γ、δ、ε、から送信されフィンガープリントＤＢ２２に蓄積された映像コンテンツα１、β１、γ１、δ１、ε１、のそれぞれに対応する認識データ５０を、フィンガープリントＤＢ２２から取得する動作例を示す。図２１において、映像コンテンツα１、β１、γ１、δ１、ε１は、それぞれが映像コンテンツ候補である。

このとき、フィンガープリントフィルタリング部２３は、受信装置１０から受信したタイミング情報４１が示す時刻に近い時刻のタイミング情報５１を有する認識データ５０（すなわち、フィンガープリント４３の生成時刻に近い時刻に生成されたフィンガープリント５３を有する認識データ５０）を、フィンガープリントＤＢ２２から取得する。

なお、フィンガープリントフィルタリング部２３が、受信装置１０から受信したタイミング情報４１に対して、どの程度の時間範囲内にある認識データ５０をフィンガープリントＤＢ２２から取得するかは、コンテンツ認識装置２０の仕様等に応じて適切に設定されることが望ましい。

例えば、フィンガープリントフィルタリング部２３は、タイミング情報５１が示す時刻が、受信装置１０から受信したタイミング情報４１が示す時刻と、その時刻から所定の時間（例えば、３秒、等）だけ前の時刻との間に含まれる認識データ５０を、フィンガープリントＤＢ２２から取得してもよい。

その所定の時間が２．５秒に設定された動作例を、図２１に示す。図２１に示す動作例では、タイミング情報４１が示す時刻は「０７／０７／２０１４０３：３２：３６．１２５」である。したがって、フィンガープリントフィルタリング部２３は、３６．１２５秒から２．５秒を減算して３３．６２５秒を算出する。そして、タイミング情報５１が示す時刻が、「０７／０７／２０１４０３：３２：３３．６２５」から「０７／０７／２０１４０３：３２：３６．１２５」の範囲に含まれる認識データ５０を、フィンガープリントＤＢ２２から取得する。

次に、フィンガープリントフィルタリング部２３は、受信装置１０から取得した種別情報４２と、認識データ５０に含まれる種別情報５２とを用いて、画像認識処理において照合対象とする認識データ５０の候補を選択する（ステップＳ５２２）。

具体的には、フィンガープリントフィルタリング部２３は、受信装置１０から取得した種別情報４２と同じ種類の種別情報５２を含まない認識データ５０を、画像認識処理における照合対象から除外し、その種別情報４２と同じ種類の種別情報５２を含む認識データ５０を、画像認識処理における照合対象の候補とする。

図２１に示す例では、フィンガープリントフィルタリング部２３は、受信装置１０から「Ａタイプ」の種別情報４２を取得する。したがって、フィンガープリントフィルタリング部２３は、「Ａタイプ」の種別情報５２を含む認識データ５０を画像認識処理における照合対象の候補として選択し、「Ａタイプ」の種別情報５２を含まず「Ｂタイプ」の種別情報５２だけを含む認識データ５０をその照合対象から除外する。図２１に示す例では、画像認識処理における照合対象の候補として選択されるのは、映像コンテンツα１、映像コンテンツβ１および映像コンテンツγ１の認識データ５０であり、映像コンテンツδ１および映像コンテンツε１の認識データ５０は、その照合対象から除外される。

［１−３−６−２．プロパティシーケンスフィルタリング］
次に、コンテンツ認識装置２０のフィンガープリントフィルタリング部２３で実行されるプロパティシーケンスフィルタリング処理について、図２２、図２３を用いて説明する。

図２２は、実施の形態１におけるフィンガープリントフィルタリング部２３で実行されるプロパティシーケンスフィルタリング処理の一例を示すフローチャートである。

図２３は、実施の形態１におけるフィンガープリントフィルタリング部２３で実行されるプロパティシーケンスフィルタリング処理の一具体例を模式的に示す図である。

まず、フィンガープリントフィルタリング部２３は、コンテンツ認識装置２０が受信装置１０から受信した過去の認識データ４０を、フィンガープリント履歴情報ＤＢ２５から取得する（ステップＳ５３０）。

具体的には、フィンガープリントフィルタリング部２３は、受信装置１０から新たな認識データ４０（「認識データ４０ｎ」と記す）を受信すると、認識データ４０ｎの直前に受信した認識データ４０を含む過去の認識データ４０を、フィンガープリント履歴情報ＤＢ２５から読み出して取得する。その認識データ４０には、フィンガープリント４３と、そのフィンガープリント４３に対応する種別情報４２およびタイミング情報４１が含まれる。

図２３には、フィンガープリントフィルタリング部２３が、受信装置１０から新たな認識データ４０ｎを受信した後、フィンガープリント履歴情報ＤＢ２５に蓄積された最新の３つの認識データ４０（図２３には、「認識データ４０ａ」、「認識データ４０ｂ」、「認識データ４０ｃ」、と記す）をフィンガープリント履歴情報ＤＢ２５から取得する例を示す。なお、フィンガープリント履歴情報ＤＢ２５から読み出す認識データ４０の数は、コンテンツ認識装置２０の仕様等に応じて適切に設定することが望ましい。

次に、フィンガープリントフィルタリング部２３は、受信装置１０から受信した認識データ４０ｎと、フィンガープリント履歴情報ＤＢ２５から取得した認識データ４０との、それぞれのタイミング情報４１に基づいて、種別情報４２のシーケンス６０を生成する（ステップＳ５３１）。

シーケンス６０とは、種別情報４２をタイミング情報４１が示す時刻の順に並べて生成した情報である。図２３には、フィンガープリントフィルタリング部２３が、認識データ４０ｎと、フィンガープリント履歴情報ＤＢ２５から取得した認識データ４０ａ、４０ｂ、４０ｃとに基づき、それぞれのタイミング情報４１が示す時刻の順（時刻が新しい順）に各種別情報４２を並べてシーケンス６０を生成する例を示す。図２３に示す例では、タイミング情報４１が示す時刻の順に認識データ４０ｎ、４０ａ、４０ｂ、４０ｃとなり、それらの種別情報４２は全てが「Ａタイプ」なので、シーケンス６０は、「Ａタイプ、Ａタイプ、Ａタイプ、Ａタイプ」となる。

次に、フィンガープリントフィルタリング部２３は、フィンガープリントＤＢ２２から複数の認識データ５０を読み出して取得する（ステップＳ５３２）。

具体的には、フィンガープリントフィルタリング部２３は、ステップＳ５２のプロパティフィルタリング処理で、画像認識処理における照合対象の候補として選択された認識データ５０を、フィンガープリントＤＢ２２から取得する。

図２３には、放送局αから送信された映像コンテンツα１、放送局βから送信された映像コンテンツβ１、放送局γから送信された映像コンテンツγ１、が取得される動作例を示す。なお、図２３に示す例では、映像コンテンツδ１、ε１は、すでにプロパティフィルタリング処理で除外されている。なお、図２３に示す例では、映像コンテンツα１、β１、γ１のそれぞれが映像コンテンツ候補である。

次に、フィンガープリントフィルタリング部２３は、ステップＳ５３２でフィンガープリントＤＢ２２から取得した認識データ５０のそれぞれについてシーケンス候補６１を生成する（ステップＳ５３３）。

シーケンス候補６１は、ステップＳ５３１で生成されたシーケンス６０と実質的に同じ方法で生成される情報であり、認識データ５０の種別情報５２を、認識データ５０のタイミング情報５１が示す時刻の順（時刻が新しい順）に並べて生成した情報である。シーケンス候補６１を生成するために、フィンガープリントフィルタリング部２３は、ステップＳ５３２で取得された複数の認識データ５０から、シーケンス６０に含まれる各認識データ４０のタイミング情報４１が示す時刻に最も近い時刻のタイミング情報５１を有する認識データ５０を選択する。そして、選択した認識データ５０に基づき、シーケンス候補６１を生成する。

図２３に示す例では、受信装置１０から送信された認識データ４０ｎのタイミング情報４１が示す時刻は、「０７／０７／２０１４０３：３２：３６．１２５」である。したがって、フィンガープリントフィルタリング部２３は、映像コンテンツα１、β１、γ１のそれぞれについて、各認識データ５０の中から、その時刻に最も近い時刻を示すタイミング情報５１を有する認識データ５０を選択する。図２３に示す例では、映像コンテンツα１、β１、γ１のそれぞれの各認識データ５０の中から、時刻が「０７／０７／２０１４０３：３２：３６．０００」を示すタイミング情報５１を有する認識データ５０が選択される。

フィンガープリントフィルタリング部２３は、認識データ４０ａ、４０ｂ、４０ｃのそれぞれのついても、認識データ４０ｎと同様に、映像コンテンツα１、β１、γ１のそれぞれの各認識データ５０の中から、タイミング情報４１が示す時刻に最も近い時刻を示すタイミング情報５１を有する認識データ５０を選択する。

そして、フィンガープリントフィルタリング部２３は、映像コンテンツα１、β１、γ１のそれぞれについて、その選択された認識データ５０に含まれる種別情報５２を、その認識データ５０に含まれるタイミング情報５１が示す時刻の順（時刻が新しい順）に並べてシーケンス候補６１を生成する。図２３に示す例では、映像コンテンツα１のシーケンス候補６１は、「Ａタイプ、Ａタイプ、Ａタイプ、Ａタイプ」となり、映像コンテンツβ１のシーケンス候補６１は、「Ｂタイプ、Ｂタイプ、Ａタイプ、Ｂタイプ」となり、映像コンテンツγ１のシーケンス候補６１は、「Ｂタイプ、Ａタイプ、Ｂタイプ、Ａタイプ」となる。このように、ステップＳ５３３では、映像コンテンツ候補毎にシーケンス候補６１が生成される。

次に、フィンガープリントフィルタリング部２３は、ステップＳ５３１で認識データ４０に基づき生成されたシーケンス６０を用いて、画像認識の照合対象となる認識データ５０を決定する（ステップＳ５３４）。

ステップＳ５３４では、フィンガープリントフィルタリング部２３は、ステップＳ５３１で生成されたシーケンス６０と、ステップＳ５３３で生成されたシーケンス候補６１とを比較する。そして、フィンガープリントフィルタリング部２３は、シーケンス６０における種別情報４２と同じ順序で並んだ種別情報５２を有するシーケンス候補６１を選択する。こうして選択されたシーケンス候補６１の認識データ５０が、画像認識の照合対象となる。

図２３に示す例では、シーケンス６０において種別情報４２は、「Ａタイプ、Ａタイプ、Ａタイプ、Ａタイプ」の順番で並んでいる。したがって、フィンガープリントフィルタリング部２３は、種別情報５２が「Ａタイプ、Ａタイプ、Ａタイプ、Ａタイプ」の順番で並んだ映像コンテンツα１のシーケンス候補６１を選択し、その順番で並んだ種別情報５２を有さない映像コンテンツβ１と映像コンテンツγ１の各シーケンス候補６１を除外する。

こうして、図２３に示す例では、フィンガープリントフィルタリング部２３は、プロパティシーケンスフィルタリング処理の結果、映像コンテンツα１を最終的な映像コンテンツ候補とし、映像コンテンツα１の認識データ５０を、画像認識の照合対象とする。

［３−７．認識データの照合］
次に、本実施の形態において認識データの照合を実行するときの処理の詳細を、図２４〜図２８を用いて説明する。

図２４は、実施の形態１における認識データの照合処理の一例を示すフローチャートである。図２４のフローチャートは、図８のステップＳ６で実行される処理の概要を示している。

図２５は、実施の形態１における静的フィンガープリントの照合処理の一例を模式的に示す図である。

図２６は、実施の形態１における動的フィンガープリントの照合処理の一例を模式的に示す図である。

図２７は、実施の形態１における映像コンテンツの認識条件の一例を示す図である。図２７には、一例として、５つの認識条件（ａ）〜（ｅ）を示す。

図２８は、実施の形態１における映像コンテンツの照合処理の一例を模式的に示す図である。

［１−３−７−１．静的フィンガープリントの類似度］
図２４のフローチャートを説明する。図１に示したフィンガープリント照合部２４は、静的フィンガープリントの類似度を算出する（ステップＳ６０）。

フィンガープリント照合部２４は、受信装置１０から送信された認識データ４０に含まれる静的フィンガープリントを、フィンガープリントフィルタリング部２３でフィルタリングされた認識データ５０（すなわち、ステップＳ５３４で画像認識の照合対象として選択された認識データ５０）に含まれる静的フィンガープリントと照合する。そして、フィンガープリント照合部２４は、受信装置１０から送信された認識データ４０に含まれる静的フィンガープリントと、フィンガープリントフィルタリング部２３でフィルタリングされた認識データ５０に含まれる静的フィンガープリントと、の類似度を算出する。

フィンガープリント照合部２４は、静的領域の一致度合いを、類似度として算出する。具体的には、フィンガープリント照合部２４は、受信装置１０から送信された認識データ４０に含まれる静的フィンガープリントの静的領域の位置と、フィンガープリントフィルタリング部２３でフィルタリングされた認識データ５０に含まれる静的フィンガープリントの静的領域の位置と、を互いに比較する。そして、フィンガープリント照合部２４は、両者が互いに一致する領域（ブロック）の数を計数し、両者が一致する領域が静的フィンガープリント内に占める割合を、類似度として算出する。

なお、本実施の形態では、両者が互いに一致するか否かを、静的領域か否かだけで判断し、各ブロックの輝度値は考慮しないものとする。フィンガープリント照合部２４は、互いに同じ位置にあるブロックがともに静的領域であれば、それぞれのブロックの輝度値が互いに異なっていても、両者は一致する、と判定する。

フィンガープリント照合部２４で行われる類似度の算出処理の一例を、図２５に具体例を示して、説明する。

図２５に示す静的フィンガープリントＣ００２は、受信装置１０から送信された認識データ４０に含まれる静的フィンガープリントである。図２５に示す静的フィンガープリントＣ００Ｘは、フィンガープリントフィルタリング部２３でフィルタリングされた認識データ５０に含まれる静的フィンガープリントである。

図２５に示す例では、静的フィンガープリントＣ００２が有する静的領域のブロックの数と、静的フィンガープリントＣ００Ｘが有する静的領域のブロックの数は、ともに１３であり同数である。しかし、位置に若干の違いがある。静的フィンガープリントＣ００２と静的フィンガープリントＣ００Ｘとの間で、静的領域のブロックの位置が互いに一致するのは、静的フィンガープリント内の２５個のブロックのうち、上から１段目の５つと、上から２段目の１つ（輝度値が「１２８」のブロック）と、上から５段目の５つの、合計で１１のブロックである。ここでは静的フィンガープリントを構成するブロックの総数は２５であるので、フィンガープリント照合部２４は、１１／２５＝４４％を算出し、算出した４４％を、静的フィンガープリントＣ００２と静的フィンガープリントＣ００Ｘとの類似度とする。

そして、フィンガープリント照合部２４は、算出した類似度を予め定められた静的閾値と比較し、その比較の結果に基づき類似判定を行う。フィンガープリント照合部２４は、算出した類似度が静的閾値以上であれば「類似する」と判定し、算出した類似度が静的閾値未満であれば「類似しない」と判定する。上述の例では、静的閾値が例えば４０％に設定されていれば、フィンガープリント照合部２４は、静的フィンガープリントＣ００２と静的フィンガープリントＣ００Ｘとは類似する、と判定する。なお、この静的閾値の数値は、単なる一例に過ぎず、適切に設定されることが望ましい。

なお、本実施の形態では、静的フィンガープリントの類似度を算出する際に、静的フィンガープリントを構成する各ブロックが有する輝度値は考慮しない、と説明したが、本開示は何らこの構成に限定されない。フィンガープリント照合部２４は、静的フィンガープリントの類似度を算出する際に、静的フィンガープリントを構成する各ブロックが有する輝度値を用いてもよい。例えば、フィンガープリント照合部２４は、２つの静的フィンガープリントを照合する際に、位置だけでなく輝度値も互いに一致するブロックの数を計数して静的フィンガープリントの類似度を算出してもよい。あるいは、フィンガープリント照合部２４は、正規化相互相関マッチング（ＮｏｒｍａｌｉｚｅｄＣｒｏｓｓＣｏｒｒｅｌａｔｉｏｎ）を利用して、静的フィンガープリントの類似度を算出してもよい。

［１−３−７−２．動的フィンガープリントの類似度］
次に、フィンガープリント照合部２４は、動的フィンガープリントの類似度を算出する（ステップＳ６１）。

フィンガープリント照合部２４は、受信装置１０から送信された認識データ４０に含まれる動的フィンガープリントを、フィンガープリントフィルタリング部２３でフィルタリングされた認識データ５０に含まれる動的フィンガープリントと照合する。そして、フィンガープリント照合部２４は、受信装置１０から送信された認識データ４０に含まれる動的フィンガープリントと、フィンガープリントフィルタリング部２３でフィルタリングされた認識データ５０に含まれる動的フィンガープリントと、の類似度を算出する。

フィンガープリント照合部２４は、動的領域の一致度合いを、類似度として算出する。具体的には、フィンガープリント照合部２４は、受信装置１０から送信された認識データ４０に含まれる動的フィンガープリントの動的領域の位置および輝度変化値の符号と、フィンガープリントフィルタリング部２３でフィルタリングされた認識データ５０に含まれる動的フィンガープリントの動的領域の位置および輝度変化値の符号と、を互いに比較する。そして、フィンガープリント照合部２４は、両者が互いに一致する領域（ブロック）の数を計数し、両者が一致する領域が動的フィンガープリント内に占める割合を、類似度として算出する。

なお、本実施の形態では、両者が互いに一致するか否かを、動的領域か否か、および輝度変化値の符号、で判断し、各ブロックの輝度変化値の数値は考慮しないものとする。フィンガープリント照合部２４は、互いに同じ位置にあるブロックがともに動的領域であり、かつ輝度変化値の符号が互いに同じであれば、それぞれのブロックの輝度変化値の数値が互いに異なっていても、両者は一致する、と判定する。

フィンガープリント照合部２４で行われる類似度の算出処理の一例を、図２６に具体例を示して、説明する。

図２６に示す動的フィンガープリントＤ００３は、受信装置１０から送信された認識データ４０に含まれる動的フィンガープリントである。図２６に示す動的フィンガープリントＤ００Ｘは、フィンガープリントフィルタリング部２３でフィルタリングされた認識データ５０に含まれる動的フィンガープリントである。

図２６に示す例では、動的フィンガープリントＤ００３が有する動的領域のブロックの数は１１であり、動的フィンガープリントＤ００Ｘが有する動的領域のブロックの数は８である。そして、動的フィンガープリントＤ００３と動的フィンガープリントＤ００Ｘとの間で、動的領域のブロックの位置および輝度変化値の符号が互いに一致するのは、動的フィンガープリント内の２５個のブロックのうち、上から１段目の２つと、上から２段目の２つと、上から５段目の１つの、合計で５つのブロックである。ここでは動的フィンガープリントを構成するブロックの総数は２５であるので、フィンガープリント照合部２４は、５／２５＝２０％を算出し、算出した２０％を、動的フィンガープリントＤ００３と動的フィンガープリントＤ００Ｘとの類似度とする。

そして、フィンガープリント照合部２４は、算出した類似度を予め定められた動的閾値と比較し、その比較の結果に基づき類似判定を行う。フィンガープリント照合部２４は、算出した類似度が動的閾値以上であれば「類似する」と判定し、算出した類似度が動的閾値未満であれば「類似しない」と判定する。上述の例では、動的閾値が例えば３０％に設定されていれば、フィンガープリント照合部２４は、動的フィンガープリントＤ００３と動的フィンガープリントＤ００Ｘとは類似しない、と判定する。

なお、この動的閾値の数値は、単なる一例に過ぎず、適切に設定されることが望ましい。また、上述した静的閾値と、この動的閾値とは、互いに同じ数値に設定されてもよく、あるいは、互いに異なる数値に設定されてもよい。

このように、フィンガープリント照合部２４は、ステップＳ６０で算出した類似度に基づく静的フィンガープリントに関する類似判定と、ステップＳ６１で算出した類似度に基づく動的フィンガープリントに関する類似判定とを、それぞれ実行する。

なお、本実施の形態では、動的フィンガープリントの類似度を算出する際に、動的フィンガープリントを構成する各ブロックが有する輝度変化値の大きさは考慮しない、と説明したが、本開示は何らこの構成に限定されない。フィンガープリント照合部２４は、動的フィンガープリントの類似度を算出する際に、動的フィンガープリントを構成する各ブロックが有する輝度変化値の絶対値を用いてもよい。例えば、フィンガープリント照合部２４は、２つの動的フィンガープリントを照合する際に、位置および符号に加え輝度変化値の絶対値も互いに一致するブロックの数を計数して動的フィンガープリントの類似度を算出してもよい。あるいは、フィンガープリント照合部２４は、静的フィンガープリントの類似度を算出するときと同様に、動的領域のブロックの位置のみを用いて動的フィンガープリントの類似度を算出してもよい。あるいは、フィンガープリント照合部２４は、正規化相互相関マッチングを利用して、動的フィンガープリントの類似度を算出してもよい。

なお、ステップＳ６０における静的フィンガープリントの類似度の算出処理と、ステップＳ６１における動的フィンガープリントの類似度の算出処理とは、どちらが先に実行されてもよく、あるいは、双方が並列に実行されてもよい。

［１−３−７−３．映像コンテンツの認識］
次に、フィンガープリント照合部２４は、フィンガープリントの類似判定の結果に基づき、映像コンテンツの認識（画像認識）を行う（ステップＳ６２）。

フィンガープリント照合部２４は、静的フィンガープリントの類似判定の結果と、動的フィンガープリントの類似判定の結果と、所定の認識条件と、に基づいて、映像コンテンツの認識を行う。フィンガープリント照合部２４は、上述したように、受信装置１０から送信された認識データ４０に含まれる静的フィンガープリントおよび動的フィンガープリントのそれぞれと、フィンガープリントフィルタリング部２３でフィルタリングされた認識データ５０に含まれる複数のフィンガープリント５３とを照合する。そして、フィンガープリント照合部２４は、その照合の結果と所定の認識条件とに基づき、フィンガープリントフィルタリング部２３でフィルタリングされた認識データ５０から１つの認識データ５０を選定し、選定した認識データ５０に対応する映像コンテンツを示す情報を画像認識の結果として出力する。

なお、映像コンテンツを示す情報とは、例えば、その映像コンテンツのファイル名、その映像コンテンツを放送する放送局のチャンネル名、ＥＰＧのＩＤ、等である。

認識条件は、静的フィンガープリントおよび動的フィンガープリントの少なくとも一方に基づいて定められた条件である。認識条件の一例を、図２７に示す。なお、図２７に示す認識条件は、所定の期間において用いられる条件である。この所定の期間とは、予め定められたフレーム数の期間である。所定の期間は、例えば、１０フレーム以下の期間である。

すなわち、フィンガープリント照合部２４は、所定の期間に受信装置１０から送信された認識データ４０に含まれる静的フィンガープリントおよび動的フィンガープリントを、フィンガープリントフィルタリング部２３でフィルタリングされた認識データ５０に含まれるフィンガープリント５３と照合する。

なお、ここでのフレーム数は、画像変化フレームのフレーム数のことである。したがって、実際の期間は、所定の期間として定められたフレーム数に、映像抽出部１２に設定された抽出フレームレートとコンテンツのフレームレートとに基づく係数（例えば、図５、６に示す例では、３０ｆｐｓであれば「２」、２０ｆｐｓであれば「３」、１５ｆｐｓであれば「４」、等）を乗じたものに相当する。なお、このフレーム数を、画像変化フレームのフレーム数としてもよく、あるいはフィンガープリントの数としてもよい。

なお、以下の説明において、「類似する」とは、上述した類似判定において「類似する」と判定されたことを示す。

図２８に一例として示す認識条件（ａ）〜（ｅ）は、以下の通りである。
（ａ）静的フィンガープリントおよび動的フィンガープリントの少なくとも１つが類似する。
（ｂ）静的フィンガープリントおよび動的フィンガープリントの少なくとも２つが類似する。
（ｃ）静的フィンガープリントの少なくとも１つが類似し、動的フィンガープリントの少なくとも１つが類似する。
（ｄ）静的フィンガープリントまたは動的フィンガープリントが２回連続して類似する。
（ｅ）静的フィンガープリントまたは動的フィンガープリントが３回連続して類似する。

フィンガープリント照合部２４は、例えば認識条件（ａ）に基づいて照合処理を行う場合は、以下のように判断する。フィンガープリント照合部２４は、上述した類似判定において、静的フィンガープリントおよび動的フィンガープリントの少なくとも１つに対して「類似する」との判定がなされた場合に、映像コンテンツを認識できた、と判断する（ステップＳ６３のＹｅｓ）。そうでなければ、フィンガープリント照合部２４は、映像コンテンツを認識できなかった、と判断する（ステップＳ６３のＮｏ）。

フィンガープリント照合部２４は、例えば所定の期間が３フレームに設定されていれば、画像変化フレームの３フレームの期間に、以下の処理を実行する。フィンガープリント照合部２４は、受信装置１０から送信された認識データ４０に含まれる静的フィンガープリントおよび動的フィンガープリントに対して上述の類似判定を行う。そして、それらのうちの少なくとも１つに「類似する」との判定がなされたフィンガープリント５３があれば、フィンガープリント照合部２４は、映像コンテンツを認識できた、と判断する。そして、フィンガープリント照合部２４は、そのフィンガープリント５３を有する認識データ５０に対応する映像コンテンツを示す情報を、画像認識の結果として出力する。

また、フィンガープリント照合部２４は、例えば認識条件（ｂ）に基づいて照合処理を行う場合は、以下のように判断する。フィンガープリント照合部２４は、上述した類似判定において、静的フィンガープリントおよび動的フィンガープリントの少なくとも２つに対して「類似する」との判定がなされた場合に、映像コンテンツを認識できた、と判断する（ステップＳ６３のＹｅｓ）。そうでなければ、フィンガープリント照合部２４は、映像コンテンツを認識できなかった、と判断する（ステップＳ６３のＮｏ）。

なお、この認識条件（ｂ）には、静的フィンガープリントが２つ以上「類似する」と判定される場合と、動的フィンガープリントが２つ以上「類似する」と判定される場合と、静的フィンガープリントが１つ以上「類似する」と判定されかつ動的フィンガープリントが１つ以上「類似する」と判定される場合と、が含まれる。

フィンガープリント照合部２４は、例えば所定の期間が５フレームに設定されていれば、画像変化フレームの５フレームの期間に、以下の処理を実行する。フィンガープリント照合部２４は、受信装置１０から送信された認識データ４０に含まれる静的フィンガープリントおよび動的フィンガープリントに対して上述の類似判定を行う。そして、それらのうちの少なくとも２つに「類似する」との判定がなされたフィンガープリント５３があれば、フィンガープリント照合部２４は、映像コンテンツを認識できた、と判断する。そして、フィンガープリント照合部２４は、そのフィンガープリント５３を有する認識データ５０に対応する映像コンテンツを示す情報を、画像認識の結果として出力する。

また、フィンガープリント照合部２４は、例えば認識条件（ｃ）に基づいて照合処理を行う場合は、以下のように判断する。フィンガープリント照合部２４は、上述した類似判定において、静的フィンガープリントの少なくとも１つおよび動的フィンガープリントの少なくとも１つに対して「類似する」との判定がなされた場合に、映像コンテンツを認識できた、と判断する（ステップＳ６３のＹｅｓ）。そうでなければ、フィンガープリント照合部２４は、映像コンテンツを認識できなかった、と判断する（ステップＳ６３のＮｏ）。

フィンガープリント照合部２４は、例えば所定の期間が５フレームに設定されていれば、画像変化フレームの５フレームの期間に、以下の処理を実行する。フィンガープリント照合部２４は、受信装置１０から送信された認識データ４０に含まれる静的フィンガープリントおよび動的フィンガープリントに対して上述の類似判定を行う。そして、静的フィンガープリントの少なくとも１つと動的フィンガープリントの少なくとも１つとに「類似する」との判定がなされたフィンガープリント５３があれば、フィンガープリント照合部２４は、映像コンテンツを認識できた、と判断する。そして、フィンガープリント照合部２４は、そのフィンガープリント５３を有する認識データ５０に対応する映像コンテンツを示す情報を、画像認識の結果として出力する。

なお、この認識条件には、類似すると判定されるフィンガープリントの数に関する条件に加え、静的フィンガープリントおよび動的フィンガープリントの順序に関する条件が加えられてもよい。

また、フィンガープリント照合部２４は、例えば認識条件（ｄ）に基づいて照合処理を行う場合は、以下のように判断する。フィンガープリント照合部２４は、上述した類似判定において、静的フィンガープリントまたは動的フィンガープリントが２回連続して「類似する」と判定された場合に、映像コンテンツを認識できた、と判断する（ステップＳ６３のＹｅｓ）。そうでなければ、フィンガープリント照合部２４は、映像コンテンツを認識できなかった、と判断する（ステップＳ６３のＮｏ）。

なお、この認識条件（ｄ）は、以下の意味である。受信装置１０から送信された認識データ４０に含まれる時間的に連続したフィンガープリント４３が、２回以上連続して「類似する」と判定される。これには、２回以上連続して生成された静的フィンガープリントが２回以上連続して「類似する」と判定される場合と、２回以上連続して生成された動的フィンガープリントが２回以上連続して「類似する」と判定される場合と、互いに切り替わりながら連続して生成された静的フィンガープリントおよび動的フィンガープリントが２回以上連続して「類似する」と判定される場合と、が含まれる。

フィンガープリント照合部２４は、例えば所定の期間が５フレームに設定されていれば、画像変化フレームの５フレームの期間に、以下の処理を実行する。フィンガープリント照合部２４は、受信装置１０から送信された認識データ４０に含まれる静的フィンガープリントおよび動的フィンガープリントに対して上述の類似判定を行う。そして、静的フィンガープリントまたは動的フィンガープリントが２回連続して「類似する」と判定されたフィンガープリント５３があれば、フィンガープリント照合部２４は、映像コンテンツを認識できた、と判断する。そして、フィンガープリント照合部２４は、そのフィンガープリント５３を有する認識データ５０に対応する映像コンテンツを示す情報を、画像認識の結果として出力する。

また、フィンガープリント照合部２４は、例えば認識条件（ｅ）に基づいて照合処理を行う場合は、以下のように判断する。フィンガープリント照合部２４は、上述した類似判定において、静的フィンガープリントまたは動的フィンガープリントが３回連続して「類似する」と判定された場合に、映像コンテンツを認識できた、と判断する（ステップＳ６３のＹｅｓ）。そうでなければ、フィンガープリント照合部２４は、映像コンテンツを認識できなかった、と判断する（ステップＳ６３のＮｏ）。

なお、この認識条件（ｅ）は、以下の意味である。受信装置１０から送信された認識データ４０に含まれる時間的に連続したフィンガープリント４３が、３回以上連続して「類似する」と判定される。これには、３回以上連続して生成された静的フィンガープリントが３回以上連続して「類似する」と判定される場合と、３回以上連続して生成された動的フィンガープリントが３回以上連続して「類似する」と判定される場合と、互いに切り替わりながら連続して生成された静的フィンガープリントおよび動的フィンガープリントが３回以上連続して「類似する」と判定される場合と、が含まれる。

フィンガープリント照合部２４は、例えば所定の期間が８フレームに設定されていれば、画像変化フレームの８フレームの期間に、以下の処理を実行する。フィンガープリント照合部２４は、受信装置１０から送信された認識データ４０に含まれる静的フィンガープリントおよび動的フィンガープリントに対して上述の類似判定を行う。そして、静的フィンガープリントまたは動的フィンガープリントが３回連続して「類似する」と判定されたフィンガープリント５３があれば、フィンガープリント照合部２４は、映像コンテンツを認識できた、と判断する。そして、フィンガープリントフィルタリング部２３は、そのフィンガープリント５３を有する認識データ５０に対応する映像コンテンツを示す情報を、画像認識の結果として出力する。

なお、上述した認識条件においては、「類似する」と判定されるフィンガープリントの数、または、連続して「類似する」と判定されるフィンガープリントの数、を多くすることで、照合（画像認識処理）の精度を高めることができる。

フィンガープリント照合部２４が認識条件（ｅ）に基づいて照合処理を行う場合の動作の一例を、図２８に模式的に示す。この場合、フィンガープリント照合部２４は、静的フィンガープリントまたは動的フィンガープリントが３回連続で類似することを認識条件とする。

例えば、フィンガープリントフィルタリング部２３でフィルタリングされたコンテンツ００Ｘのフィンガープリント５３が、静的フィンガープリントＡ、動的フィンガープリントＢ、静的フィンガープリントＣ、動的フィンガープリントＤ、静的フィンガープリントＥ、の順番で並んでいたとする。なお、図２８には、それぞれを、「静的Ａ」、「動的Ｂ」、「静的Ｃ」、「動的Ｄ」、「静的Ｅ」、と記す。

このとき、受信装置１０から送信されたフィンガープリント４３が、静的フィンガープリントＡ、動的フィンガープリントＢ、静的フィンガープリントＣ、の順番で並んでいたとする。なお、図２８には、それぞれを、「静的Ａ」、「動的Ｂ」、「静的Ｃ」、と記す。

この例では、フィンガープリント照合部２４は、上述した類似判定において、静的フィンガープリントＡ、動的フィンガープリントＢ、静的フィンガープリントＣ、のそれぞれに対して、「類似する」の判定結果を出す。すなわち、フィンガープリント照合部２４は、３回連続で「類似する」と判定する。

これにより、フィンガープリント照合部２４は、受信装置１０から送信された認識データ４０に含まれるフィンガープリント４３は、コンテンツ００Ｘの認識データ５０に含まれるフィンガープリント５３に類似する、と判定する。すなわち、フィンガープリント照合部２４は、受信装置１０で受信された映像コンテンツはコンテンツ００Ｘである、と認識する。そして、フィンガープリント照合部２４は、コンテンツ００Ｘを示す情報を照合結果として出力する。

フィンガープリント照合部２４で映像コンテンツを認識（画像認識）できたとき（ステップＳ６３のＹｅｓ）、フィンガープリント照合部２４は、その画像認識の結果を通信部（図示せず）に出力する（ステップＳ６４）。

コンテンツ認識装置２０の通信部（図示せず）は、フィンガープリント照合部２４から受け取った画像認識の結果を表す情報を、受信装置１０に送信する（図８のステップＳ８）。コンテンツ認識装置２０から受信装置１０に送信される情報は、フィンガープリント照合部２４が、受信装置１０から送信された認識データ４０に基づき画像認識を実行して選択した映像コンテンツを表す情報であり、受信装置１０で受信中の映像コンテンツを表す情報である。その情報は、例えばコンテンツＩＤであるが、映像コンテンツを特定できる情報であれば、どのような情報であってもよい。受信装置１０は、コンテンツ認識装置２０からその情報を取得することで、受信中の映像コンテンツに関する付加情報を、例えば広告サーバ装置３０から取得することが可能になる。

フィンガープリント照合部２４で映像コンテンツを認識できなかったとき（ステップＳ６４のＮｏ）は、コンテンツ認識装置２０の処理は、図８のステップＳ１に戻り、ステップＳ１以降の一連の処理が繰り返される。

なお、コンテンツ認識装置２０は、画像認識処理の結果、受信装置１０から送信された認識データ４０に対応する映像コンテンツを特定できなかった場合、画像認識ができなかったことを示す情報を受信装置１０に送信してもよい。あるいは、何も送信しなくてもよい。

［１−４．効果等］
以上のように、本実施の形態において、コンテンツ認識装置は、フィンガープリント生成部と、選別部と、照合部と、を備える。フィンガープリント生成部は、取得した複数の映像コンテンツ候補のそれぞれについてフィンガープリントを生成する。選別部は、外部から入力される認識データに含まれる付属情報を用いて映像コンテンツ候補を選別する。照合部は、選別部によって選別された映像コンテンツ候補のフィンガープリントと、認識データに含まれるフィンガープリントと、を照合して、認識データに含まれるフィンガープリントに対応する映像コンテンツを映像コンテンツ候補の中から特定する。

なお、コンテンツ認識装置２０はコンテンツ認識装置の一例である。フィンガープリント生成部２１１０はフィンガープリント生成部の一例である。フィンガープリントフィルタリング部２３は選別部の一例である。フィンガープリント照合部２４は照合部の一例である。映像コンテンツα１、β１、γ１、δ１、ε１は、それぞれが映像コンテンツ候補の一例である。フィンガープリント５３はフィンガープリントの一例である。認識データ４０は外部から入力される認識データの一例である。種別情報４２は付属情報の一例である。フィンガープリント４３は、認識データに含まれるフィンガープリントの一例である。

ここで、コンテンツ認識装置２０がフィンガープリントを用いて映像コンテンツを認識する場合に生じる問題点について、図２９を用いて説明する。図２９は、映像コンテンツの認識に関して問題となる点を説明するための図である。

図２９に一例を示すように、実質的にリアルタイムで映像コンテンツの認識を行うコンテンツ認識装置２０は、複数の放送局２から放送される複数の映像コンテンツを受信し、受信した映像コンテンツに基づいてフィンガープリント５３を生成し、生成したフィンガープリント５３をフィンガープリントＤＢ２２に保存する。

このように、フィンガープリントＤＢ２２には、受信した映像コンテンツの数に応じたフィンガープリント５３が、時間の経過と共に蓄積されていく。このため、フィンガープリントＤＢ２２に蓄積されるフィンガープリント５３は、膨大な数になる。

もしコンテンツ認識装置２０がフィンガープリントフィルタリング部２３を備えていなければ、コンテンツ認識装置２０は、受信装置１０から受信した認識データ４０に含まれるフィンガープリント４３を、フィンガープリントＤＢ２２に蓄積された膨大な数のフィンガープリント５３と逐一照合しなければならず、映像コンテンツの認識結果を得るまでに長い時間を要することになる。

しかし、本実施の形態に示すコンテンツ認識装置２０は、フィンガープリントフィルタリング部２３が付属情報を用いて選別した認識データ５０を、認識データ４０の照合対象とする。したがって、本開示によれば、映像コンテンツの認識に使用するデータの数を低減できるので、映像コンテンツの認識精度を上げつつ映像コンテンツの認識にかかる処理を低減することができる。

なお、外部から入力される認識データには、フィンガープリントの種類を示す種別情報が付属情報として含まれてもよい。また、コンテンツ認識装置において、選別部は、認識データに含まれる種別情報と、映像コンテンツ候補のフィンガープリントの種類と、を比較して映像コンテンツ候補の選別を行ってもよい。

なお、静的フィンガープリント、動的フィンガープリントは、フィンガープリントの種類の一例であり、種別情報４２は種別情報の一例である。

この構成では、例えば種別情報が２種類であれば、１ビットの情報量で種別情報を表すことができるので、フィンガープリントフィルタリング部２３において選別に要する処理を削減することができる。

また、コンテンツ認識装置において、選別部は、外部から入力される認識データに含まれる種別情報の配列順序と、映像コンテンツ候補のフィンガープリントの種類に関する配列順序と、を比較して映像コンテンツ候補の選別を行ってもよい。

なお、シーケンス６０は、外部から入力される認識データに含まれる種別情報の配列順序の一例であり、シーケンス候補６１は、映像コンテンツ候補のフィンガープリントの種類に関する配列順序の一例である。

この構成では、フィンガープリントフィルタリング部２３は、フィンガープリント照合部２４において照合に用いる認識データ５０の数をより絞り込むことができる。したがって、フィンガープリント照合部２４において照合にかかる処理をより低減することができる。

また、外部から入力される認識データには、認識データに含まれるフィンガープリントの生成時刻を示す情報が含まれてもよい。また、コンテンツ認識装置において、選別部は、その生成時刻を示す情報と、映像コンテンツ候補のフィンガープリントの生成時刻とに基づき、映像コンテンツ候補のフィンガープリントの選択を行ってもよい。

なお、タイミング情報４１は、外部から入力される認識データに含まれるフィンガープリントの生成時刻を示す情報の一例である。タイミング情報４１は、映像コンテンツ候補のフィンガープリントの生成時刻を示す情報の一例である。

この構成では、フィンガープリントフィルタリング部２３で行う選別の精度を高めることができる。

また、コンテンツ認識装置において、選別部は、外部から入力される認識データに含まれる生成時刻を示す情報に最も近い時刻に生成されたフィンガープリントを、映像コンテンツ候補のフィンガープリントの中から選択し、選択したフィンガープリントの種類と、その認識データに含まれる種別情報との比較に基づき、映像コンテンツ候補の選別を行ってもよい。

この構成では、フィンガープリントフィルタリング部２３で行う選別の精度をより高めることができる。

また、コンテンツ認識装置において、フィンガープリント生成部は、映像コンテンツ候補を構成する複数の画像フレームのフレーム間の画像の変化量が第１閾値より小さい静的領域に基づいて静的フィンガープリントを生成し、そのフレーム間の画像の変化量が第２閾値より大きい動的領域に基づいて動的フィンガープリントを生成してもよい。

静的領域は、画像フレームにおいて背景および動きや変化の小さい被写体が占める領域である。すなわち、連続した画像フレームにおいて、静的領域の被写体は、動きや変化が相対的に少ない。したがって、静的領域を特定して画像認識を行うことで、画像認識の精度を高めることが可能になる。動的領域は、シーンの切り替わり等に生じる比較的大きな画像の変化が発生した領域である。すなわち、動的領域は、特徴的な画像の変化が起きる領域であるので、動的領域を特定して画像認識を行うことで、画像認識の精度を高めることが可能になる。また、動的領域が発生するフレームは相対的に少ないので、画像認識に必要なフレーム数を削減することができる。

また、付属情報には、外部から入力される認識データの生成元となる映像コンテンツを送信する装置の位置、またはその認識データを送信する装置の位置、を示す地理情報が含まれてもよい。

なお、放送局２は、映像コンテンツを送信する装置の一例である。受信装置１０は、認識データを送信する装置の一例である。

この構成では、例えば、受信装置１０で受信できない放送局２から放送される映像コンテンツをフィンガープリントフィルタリング部２３で排除できるので、フィンガープリント照合部２４において照合にかかる処理を低減することができる。

また、付属情報には、外部から入力される認識データを送信する装置に保存されたユーザ情報が含まれてもよい。

この構成では、例えば、ユーザ情報に当てはまらない映像コンテンツをフィンガープリントフィルタリング部２３で排除できるので、フィンガープリント照合部２４において照合にかかる処理を低減することができる。

なお、これらの包括的または具体的な態様は、システム、装置、集積回路、コンピュータプログラムまたはコンピュータ読み取り可能なＣＤ−ＲＯＭ等の記録媒体で実現されてもよく、システム、装置、集積回路、コンピュータプログラムおよび記録媒体の任意な組み合わせで実現されてもよい。

（他の実施の形態）
以上のように、本出願において開示する技術の例示として、実施の形態１を説明した。しかしながら、本開示における技術は、これに限定されず、変更、置き換え、付加、省略等を行った実施の形態にも適用できる。また、上記実施の形態１で説明した各構成要素を組み合わせて、新たな実施の形態とすることも可能である。

そこで、以下、他の実施の形態を例示する。

実施の形態１では、コンテンツ認識装置２０が実質的にリアルタイムで映像コンテンツの認識を行う動作例を示したが、本開示は何らこの動作例に限定されない。例えば、受信装置１０が記録媒体に保存された映像コンテンツ（例えば、録画された番組コンテンツ）を読み出して表示する場合にも、コンテンツ認識装置２０は、上述した実施の形態１と同様に動作して、映像コンテンツを認識することができる。

実施の形態１では、コンテンツ認識装置２０が受信装置１０から認識データ４０を受信し、映像コンテンツの認識のためのフィルタリング処理および照合処理を行い、その結果を受信装置１０に送信する動作例を説明した。この動作は、「オンラインマッチング」と呼称される。一方、映像コンテンツの認識のための照合処理を受信装置１０で行うことは「ローカルマッチング」と呼称される。

受信装置１０は、コンテンツ認識装置２０からフィンガープリントＤＢ２２に保存される認識データ５０を取得することで、ローカルマッチングを行うことができる。なお、このとき、受信装置１０は、フィンガープリントＤＢ２２に保存される全ての認識データ５０を取得しなくてもよい。例えば、受信装置１０は、フィンガープリントフィルタリング部２３で各フィルタリング（例えば、リージョンフィルタリングおよびプロファイルフィルタリング）を実行した後の認識データ５０を取得してもよい。

実施の形態１では、フィンガープリントフィルタリング部２３の一動作例として、リージョンフィルタリング、プロファイルフィルタリング、プロパティフィルタリング、プロパティシーケンスフィルタリング、の順番でフィルタリングを行う動作例を示したが、本開示は何らこの動作例に限定されない。フィンガープリントフィルタリング部２３は、実施の形態１とは異なる順番で各フィルタリングを行ってもよく、あるいは、これらのフィルタリングから１つ以上３つ以下を選択してフィルタリングを行ってもよい。

実施の形態１では、フィンガープリントフィルタリング部２３は、各フィルタリング処理を行う毎に、フィンガープリントＤＢ２２から認識データ５０を読み出して取得する動作例を示したが、本開示は何らこの動作例に限定されない。例えば、フィンガープリントフィルタリング部２３は、最初のフィルタリング処理の直前にフィンガープリントＤＢ２２から読み出した複数の認識データ５０を一旦メモリ等の記憶装置に記憶し、各フィルタリング処理で認識データ５０が除外される毎に、その認識データ５０をその記憶装置から削除するように動作してもよい。

実施の形態１では、映像コンテンツの認識に、静的フィンガープリントと動的フィンガープリントとの両方を用いる構成例を示したが、本開示は何らこの構成に限定されない。静的フィンガープリントと動的フィンガープリントとのいずれか一方のみを用いて映像コンテンツの認識が行われてもよい。例えば、図９のフローチャートにおいて、ステップＳ２１およびステップＳ２２のいずれか一方のみが行われてもよい。また、フィンガープリント生成部２１１０、１１０は、例えば、静的領域決定部２３１および動的領域決定部２３２のいずれか一方のみを備える構成であってもよい。また、フィンガープリント生成部２１１０、１１０は、例えば、静的フィンガープリント生成部２４１および動的フィンガープリント生成部２４２のいずれか一方のみを備える構成であってもよい。また、フィンガープリントは３種類以上であってもよい。

実施の形態１に示すコンテンツ認識装置２０は、例えば、広告コンテンツの認識に利用することができる。あるいは、ドラマやバラエティ等の番組コンテンツの認識に利用することもできる。このとき、受信装置１０は、広告サーバ装置３０から、画像認識の結果に基づく付加情報として、例えば、出演者自身のプロフィール、出演者が身につけている衣服、出演者が訪れた場所、等に関する情報を取得し、取得したそれらの情報を表示中の映像に重畳して表示させてもよい。

コンテンツ認識装置２０は、広告コンテンツだけでなく、番組コンテンツ等の映像コンテンツを受信し、その映像コンテンツに対応するフィンガープリントを生成してもよい。そして、フィンガープリントＤＢ２２は、広告コンテンツだけでなく、番組コンテンツに対応するフィンガープリントを、コンテンツＩＤに対応付けて保持してもよい。

実施の形態１において、各構成要素は、専用のハードウェアで構成されてもよく、あるいは、各構成要素に適したソフトウェアプログラムを実行することによって実現されてもよい。各構成要素は、ＣＰＵまたはプロセッサなどのプログラム実行部が、ハードディスクまたは半導体メモリ等の記録媒体に記録されたソフトウェアプログラムを読み出して実行することによって実現されてもよい。ここで、実施の形態１のコンテンツ認識装置２０を実現するソフトウェアは、次のようなプログラムである。

すなわち、当該プログラムは、コンテンツ認識方法をコンピュータに実行させるためのプログラムであって、取得した複数の映像コンテンツ候補のそれぞれについてフィンガープリントを生成するステップと、外部から入力される認識データに含まれる付属情報を用いて映像コンテンツ候補を選別するステップと、選別された映像コンテンツ候補のフィンガープリントと、認識データに含まれるフィンガープリントと、を照合して、認識データに含まれるフィンガープリントに対応する映像コンテンツを映像コンテンツ候補の中から特定するステップと、を含む。

また、上記のプログラムを、記録媒体に記録して頒布または流通させてもよい。例えば、頒布されたプログラムを装置類にインストールして、装置類のプロセッサに実行させることで、装置類に各種処理を行わせることが可能となる。

また、上記の各装置を構成する構成要素の一部または全部は、１個のシステムＬＳＩ（ＬａｒｇｅＳｃａｌｅＩｎｔｅｇｒａｔｉｏｎ：大規模集積回路）から構成されてもよい。システムＬＳＩは、複数の構成部を１個のチップ上に集積して製造された超多機能ＬＳＩであり、具体的には、マイクロプロセッサ、ＲＯＭ、ＲＡＭ等を含んで構成されるコンピュータシステムである。ＲＯＭには、コンピュータプログラムが記憶されている。マイクロプロセッサが、ＲＯＭからＲＡＭにコンピュータプログラムをロードし、ロードしたコンピュータプログラムにしたがって演算等の動作をすることにより、システムＬＳＩは、その機能を達成する。

また、上記の各装置を構成する構成要素の一部または全部は、各装置に脱着可能なＩＣカードまたは単体のモジュールから構成されてもよい。ＩＣカードまたはモジュールは、マイクロプロセッサ、ＲＯＭ、ＲＡＭ等から構成されるコンピュータシステムである。ＩＣカードまたはモジュールには、上記の超多機能ＬＳＩが含まれてもよい。マイクロプロセッサが、コンピュータプログラムにしたがって動作することにより、ＩＣカードまたはモジュールは、その機能を達成する。このＩＣカードまたはこのモジュールは、耐タンパ性を有してもよい。

また、本開示は、コンピュータプログラムまたはデジタル信号をコンピュータで読み取り可能な記録媒体、例えば、フレキシブルディスク、ハードディスク、ＣＤ−ＲＯＭ、ＭＯ、ＤＶＤ、ＤＶＤ−ＲＯＭ、ＤＶＤ−ＲＡＭ、ＢＤ（Ｂｌｕ−ＲａｙＤｉｓｃ（登録商標））、半導体メモリ等に記録したもので実現してもよい。さらに、これらの記録媒体に記録されているデジタル信号で実現してもよい。

また、本開示におけるコンピュータプログラムまたはデジタル信号を、電気通信回線、無線または有線通信回線、インターネット等のネットワーク、データ放送、等を経由して伝送してもよい。

また、本開示は、プログラムまたはデジタル信号を記録媒体に記録して移送することにより、またはプログラムまたはデジタル信号を、ネットワーク等を経由して移送することにより、独立した他のコンピュータシステムにより実施してもよい。

また、実施の形態において、各処理（各機能）は、単一の装置（システム）によって集中処理されることによって実現されてもよく、あるいは、複数の装置によって分散処理されることによって実現されてもよい。

以上のように、本開示における技術の例示として、実施の形態を説明した。そのために、添付図面および詳細な説明を提供した。

したがって、添付図面および詳細な説明に記載された構成要素の中には、課題解決のために必須な構成要素だけでなく、上記技術を例示するために、課題解決のためには必須でない構成要素も含まれ得る。そのため、それらの必須ではない構成要素が添付図面や詳細な説明に記載されていることをもって、直ちに、それらの必須ではない構成要素が必須であるとの認定をするべきではない。

また、上述の実施の形態は、本開示における技術を例示するためのものであるから、特許請求の範囲またはその均等の範囲において種々の変更、置き換え、付加、省略などを行うことができる。

本開示は、通信ネットワークを利用して映像コンテンツの認識を行うコンテンツ認識装置およびコンテンツ認識方法に適用可能である。具体的には、テレビ等の映像受信装置、またはサーバ装置等に、本開示は適用可能である。

１コンテンツ認識システム
２放送局
３ＳＴＢ
１０受信装置
１１映像受信部
１１ａ映像入力部
１１ｂ第１外部入力部
１１ｃ第２外部入力部
１２映像抽出部
１３付加情報取得部
１４映像出力部
１５制御部
１６操作信号受信部
１７ＨＴＴＰ送受信部
１８付加情報格納部
１９付加情報表示制御部
２０コンテンツ認識装置
２１コンテンツ受信部
２２フィンガープリントＤＢ
２３フィンガープリントフィルタリング部
２４フィンガープリント照合部
２５フィンガープリント履歴情報ＤＢ
３０広告サーバ装置
３１付加情報ＤＢ
４０，４０ａ，４０ｂ，４０ｃ，４０ｎ，５０，５０ａ，５０ｂ，５０ｃ認識データ
４１，５１，５１ａ，５１ｂ，５１ｃタイミング情報
４２，５２，５２ａ，５２ｂ，５２ｃ種別情報
４３，５３，５３ａ，５３ｂ，５３ｃフィンガープリント
６０シーケンス
６１シーケンス候補
９１，９２フレーム
１００認識部
１０５通信ネットワーク
１１０，２１１０フィンガープリント生成部
１１１画像取得部
１１２データ生成部
１２０フィンガープリント送信部
１３０認識結果受信部
２１０スケール変換部
２２０差分算出部
２３０決定部
２３１静的領域決定部
２３２動的領域決定部
２４０生成部
２４１静的フィンガープリント生成部
２４２動的フィンガープリント生成部

Claims

取得した複数の映像コンテンツ候補のそれぞれについてフィンガープリントを生成するフィンガープリント生成部と、
外部から入力される認識データに含まれる付属情報を用いて前記映像コンテンツ候補を選別する選別部と、
前記選別部によって選別された前記映像コンテンツ候補のフィンガープリントと、前記認識データに含まれるフィンガープリントと、を照合して、前記認識データに含まれるフィンガープリントに対応する映像コンテンツを前記映像コンテンツ候補の中から特定する照合部と、を備える、
コンテンツ認識装置。
前記フィンガープリントは、静的フィンガープリントと動的フィンガープリントとの少なくとも２種類に分類され、
前記認識データには、前記フィンガープリントの種類を示す種別情報が前記付属情報として含まれ、
前記選別部は、前記認識データに含まれる前記種別情報と、前記映像コンテンツ候補のフィンガープリントの種類と、を比較して前記映像コンテンツ候補の選別を行う、
請求項１に記載のコンテンツ認識装置。
前記選別部は、前記認識データに含まれる前記種別情報の配列順序と、前記映像コンテンツ候補のフィンガープリントの種類に関する配列順序と、を比較して前記映像コンテンツ候補の選別を行う、
請求項２に記載のコンテンツ認識装置。
前記認識データには、前記認識データに含まれるフィンガープリントの生成時刻を示す情報が含まれ、
前記選別部は、前記生成時刻を示す情報と、前記映像コンテンツ候補のフィンガープリントの生成時刻とに基づき、前記映像コンテンツ候補のフィンガープリントの選択を行う、
請求項２に記載のコンテンツ認識装置。
前記選別部は、前記映像コンテンツ候補のフィンガープリントの中から、前記認識データに含まれる前記生成時刻を示す情報に最も近い時刻に生成されたフィンガープリントを選択し、選択したフィンガープリントの種類と、前記認識データに含まれる種別情報との比較に基づき、前記映像コンテンツ候補の選別を行う、
請求項４に記載のコンテンツ認識装置。
前記フィンガープリント生成部は、
前記映像コンテンツ候補を構成する複数の画像フレームのフレーム間の画像の変化量が第１閾値より小さい静的領域に基づいて前記静的フィンガープリントを生成し、前記フレーム間の画像の変化量が第２閾値より大きい動的領域に基づいて前記動的フィンガープリントを生成する、
請求項２に記載のコンテンツ認識装置。
前記付属情報には、前記認識データの生成元となる映像コンテンツを送信する装置の位置または前記認識データを送信する装置の位置、を示す地理情報が含まれる、
請求項１に記載のコンテンツ認識装置。
前記付属情報には、前記認識データを送信する装置に保存されたユーザ情報が含まれる、
請求項１に記載のコンテンツ認識装置。
取得した複数の映像コンテンツ候補のそれぞれについてフィンガープリントを生成し、
外部から入力される認識データに含まれる付属情報を用いて前記映像コンテンツ候補を選別し、
選別された前記映像コンテンツ候補のフィンガープリントと、前記認識データに含まれるフィンガープリントと、を照合して、前記認識データに含まれるフィンガープリントに対応する映像コンテンツを前記映像コンテンツ候補の中から特定する、
コンテンツ認識方法。
請求項９に記載のコンテンツ認識方法をコンピュータに実行させるためのプログラム。