WO2015033501A1

WO2015033501A1 - 映像受信装置、映像認識方法および付加情報表示システム

Info

Publication number: WO2015033501A1
Application number: PCT/JP2014/003548
Authority: WO
Inventors: 博史藪; 奥　博隆
Original assignee: パナソニックＩｐマネジメント株式会社
Priority date: 2013-09-04
Filing date: 2014-07-03
Publication date: 2015-03-12
Also published as: US20160088341A1; JP6240899B2; EP3043571A1; JPWO2015033501A1; EP3043571A4; US9900650B2

Abstract

　外部から入力される映像信号に関する映像認識処理を精度良く行う。そのために、通信ネットワーク（１６）を介してデータの送受信を行うように構成された映像受信装置（４０）は、入力部（６５）、映像抽出部（４５）、映像認識領域設定部（６６）、制御部（４１）、および付加情報表示制御部（４６）を備える。映像認識領域設定部は、外部から入力される映像信号の特徴を示す特徴情報に基づき部分映像に映像認識領域を設定する。付加情報表示制御部は、部分映像の映像認識領域でコンテンツ認識情報を生成する。制御部は、そのコンテンツ認識情報の映像認識処理を映像認識装置（２０）に依頼する制御を行う。

Description

映像受信装置、映像認識方法および付加情報表示システム

　本開示は、外部から入力される映像信号に関する付加情報を取得して映像信号に重畳する映像受信装置に関する。

　特許文献１は、データ処理システムを開示する。このシステムでは、クライアント装置は、映像認識装置であるサーバ装置に、ネットワークを通して映像データを送信し、映像認識処理を依頼する。サーバ装置は、受信した映像データにもとづき映像認識を行い、映像認識の結果を、ネットワークを通してクライアント装置に送信する。

特開平１０－２１４２５８号公報

　本開示は、外部から入力される映像信号に関する付加情報を取得し、取得した付加情報を映像信号へ重畳するのに有効な映像受信装置、映像認識方法、および付加情報表示システムを提供する。

　本開示の映像受信装置は、通信ネットワークを介してデータの送受信を行えるように構成されており、入力部、映像抽出部、映像認識領域設定部、制御部、および付加情報表示制御部を備える。入力部は、外部に設置された映像送信装置から出力される映像信号とその映像信号の特徴を示す特徴情報を含むコンテンツ関連情報とを入力するように構成されている。映像抽出部は、その映像信号から映像認識処理用の部分映像を抽出するように構成されている。映像認識領域設定部は、コンテンツ関連情報に含まれた特徴情報に基づき部分映像に映像認識領域を設定するように構成されている。制御部は、通信ネットワークに接続された映像認識装置に、コンテンツ認識情報を送信して映像認識処理を依頼し、その映像認識処理の結果を映像認識装置から取得し、その映像認識処理の結果に基づく付加情報を、通信ネットワークに接続された付加情報配信装置から取得する制御を行うように構成されている。付加情報表示制御部は、部分映像の映像認識領域でコンテンツ認識情報を生成するように構成されている。

　本開示の映像認識方法は、通信ネットワークを介してデータの送受信を行えるように構成された映像受信装置における映像認識方法であって、外部から入力される映像信号から映像認識処理用の部分映像を抽出するステップと、外部から入力される、映像信号の特徴を示す特徴情報を含んだコンテンツ関連情報を受け取るステップと、特徴情報に基づき部分映像に映像認識領域を設定するステップと、部分映像の映像認識領域でコンテンツ認識情報を生成するステップと、通信ネットワークに接続された映像認識装置に、コンテンツ認識情報を送信して映像認識処理を依頼し、映像認識処理の結果を映像認識装置から取得するステップと、映像認識処理の結果に基づく付加情報を、通信ネットワークに接続された付加情報配信装置から取得するステップと、を備える。

　本開示の付加情報表示システムは、通信ネットワークを介して互いにデータの送受信を行えるように構成された、映像受信装置、映像認識装置、および付加情報配信装置、を備える。映像受信装置は、入力部、映像抽出部、映像認識領域設定部、制御部、および付加情報表示制御部を備える。入力部は、外部に設置された映像送信装置から出力される映像信号とその映像信号の特徴を示す特徴情報を含むコンテンツ関連情報とを入力するように構成されている。映像抽出部は、その映像信号から映像認識用の部分映像を抽出するように構成されている。映像認識領域設定部は、コンテンツ関連情報に含まれた特徴情報に基づき部分映像に映像認識領域を設定するように構成されている。制御部は、映像認識装置に通信ネットワークを介してコンテンツ認識情報を送信して映像認識処理を依頼し、その映像認識処理の結果を映像認識装置から通信ネットワークを介して取得し、付加情報配信装置からその映像認識処理の結果に基づく付加情報を通信ネットワークを介して取得する制御を行うように構成されている。付加情報表示制御部は、部分映像の映像認識領域でコンテンツ認識情報を生成するように構成されている。映像認識装置は、通信ネットワークを介して受信したコンテンツ認識情報に関する映像認識処理を行い、その映像認識処理の結果を通信ネットワークを介して映像受信装置に送信するように構成されている。付加情報配信装置は、通信ネットワークを介して受信した映像認識処理の結果に対応する付加情報を通信ネットワークを介して映像受信装置に送信するように構成されている。

図１は、実施の形態１における付加情報表示システムの構成の一例を概略的に示す図である。図２は、実施の形態１における映像認識装置および映像受信装置の構成の一例を概略的に示すブロック図である。図３Ａは、実施の形態１における映像受信装置の表示部に表示する映像の一例を概略的に示す図である。図３Ｂは、実施の形態１における映像受信装置の表示部に表示する映像の他の一例を概略的に示す図である。図４Ａは、実施の形態１における映像受信装置の映像認識領域設定部が映像に設定する映像認識領域の一例を概略的に示す図である。図４Ｂは、実施の形態１における映像認識装置において、映像認識領域設定部が設定した映像認識領域にもとづき設定されたフィンガープリントの生成領域の一例を概略的に示す図である。図４Ｃは、映像受信装置において映像の全面に設定された映像認識領域の一例を概略的に示す図である。図４Ｄは、映像認識装置において映像の全面に設定されたフィンガープリントの生成領域の一例を概略的に示す図である。図５は、実施の形態１における映像受信装置で行うコンテンツ特定処理の動作を概略的に示すフローチャートである。図６は、実施の形態１における映像受信装置で行う映像認識領域設定処理の動作を概略的に示すフローチャートである。図７は、実施の形態１における映像受信装置で行う重畳領域特定処理の動作を概略的に示すフローチャートである。図８は、実施の形態１における映像受信装置で行う映像認識領域特定処理の動作を概略的に示すフローチャートである。図９Ａは、映像送信装置から出力され映像受信装置に入力される映像信号と重畳領域情報との一例を概略的に示す図である。図９Ｂは、実施の形態１における映像受信装置の映像認識領域設定部が設定した映像認識領域の一例を概略的に示す図である。図９Ｃは、実施の形態１における映像受信装置の表示部に表示された付加情報の表示位置の一例を概略的に示す図である。図９Ｄは、映像送信装置から出力され映像受信装置に入力される３Ｄ映像の映像信号の一例を概略的に示す図である。図９Ｅは、実施の形態１における映像受信装置の映像認識領域設定部が３Ｄ映像信号に設定した映像認識領域の一例を概略的に示す図である。図１０Ａは、映像送信装置から出力され映像受信装置に入力される映像信号１９１の一例を概略的に示す図である。図１０Ｂは、実施の形態１における映像受信装置の映像認識領域設定部が設定した重畳領域の一例を概略的に示す図である。図１０Ｃは、実施の形態１における映像受信装置の映像認識領域設定部が設定した映像認識領域の一例を概略的に示す図である。図１０Ｄは、実施の形態１における映像受信装置の表示部に表示された付加情報の表示位置の一例を概略的に示す図である。図１１Ａは、映像送信装置から出力され映像受信装置に入力される映像信号の一例を概略的に示す図である。図１１Ｂは、実施の形態１における映像受信装置の映像認識領域設定部が設定した映像認識候補領域の一例を概略的に示す図である。図１１Ｃは、実施の形態１における映像受信装置が映像認識装置から取得したコンテンツ特定処理の結果の一例を概略的に示す図である。図１１Ｄは、実施の形態１における映像受信装置の表示部に表示された付加情報の表示位置の一例を概略的に示す図である。図１２は、実施の形態１における映像受信装置で行うコンテンツ特定処理の動作を概略的に示すフローチャートである。図１３は、他の実施の形態における映像認識装置および映像受信装置の構成の一例を概略的に示すブロック図である。

　以下、適宜図面を参照しながら、実施の形態を詳細に説明する。但し、必要以上に詳細な説明は省略する場合がある。例えば、既によく知られた事項の詳細説明や実質的に同一の構成に対する重複説明を省略する場合がある。これは、以下の説明が不必要に冗長になるのを避け、当業者の理解を容易にするためである。

　なお、添付図面および以下の説明は、当業者が本開示を十分に理解するために提供されるのであって、これらにより特許請求の範囲に記載の主題を限定することは意図されていない。

　（実施の形態１）
　以下、図１～図１２を用いて、実施の形態１を説明する。

　［１－１．構成］
　［１－１－１．システム構成の概略］
　図１は、実施の形態１における付加情報表示システム１０の構成の一例を概略的に示す図である。付加情報表示システム１０は、放送局１２、映像送信装置であるＳＴＢ（Ｓｅｔ　Ｔｏｐ　Ｂｏｘ）１４、映像認識装置２０、付加情報配信装置３０、および映像受信装置４０を備える。付加情報表示システム１０は、映像認識装置２０が有する映像認識技術を利用して、映像受信装置４０が受信した映像がどのコンテンツのものかを特定し、そのコンテンツに関連する付加情報を、付加情報配信装置３０から取得して映像受信装置４０に表示する、ことができるように構成された通信システムである。

　映像受信装置４０と、映像認識装置２０および付加情報配信装置３０とは、通信ネットワーク１６を介して互いに接続されている。

　通信ネットワーク１６は、有線、または無線、あるいはその双方が混在して構成されている。通信ネットワーク１６は、例えばインターネットであるが、イントラネットや商業回線、あるいはその他の通信回線であってもよく、それらが混在していてもよい。

　映像受信装置４０とＳＴＢ１４とは、通信インターフェースを介して互いに接続されている。通信インターフェースは、例えばＨＤＭＩ（登録商標）（Ｈｉｇｈ－Ｄｅｆｉｎｉｔｉｏｎ　Ｍｕｌｔｉｍｅｄｉａ　Ｉｎｔｅｒｆａｓｅ）であるが、ビデオケーブルであってもよく、あるいはＷｉ－Ｆｉ（登録商標）やＢｌｕｅｔｏｏｔｈ（登録商標）、無線ＬＡＮ（Ｌｏｃａｌ　Ａｒｅａ　Ｎｅｔｗｏｒｋ）等の無線通信であってもよい。

　放送局１２は、放送信号を送信（放送）するように構成された送信装置である。放送局１２は、番組本体とコマーシャルメッセージ（ＣＭ）とを含むテレビ番組を映像信号にして放送信号に重畳し放送する。番組本体とＣＭとは時間の経過に伴って互いに切り替わる。以下、番組本体やＣＭを「コンテンツ」と記す。すなわち、放送局１２は、時間の経過に伴って切り替わるコンテンツを放送する。なお、送信装置は何ら放送局１２に限定されるものではなく、時間の経過に伴って切り替わるコンテンツを送信または放送するものであればよい。

　また、放送局１２は、放送するコンテンツに特有の特徴があるときに、そのコンテンツやそのコンテンツの映像信号の特徴を示す情報（以下、「特徴情報」と記す）を含む情報を、映像信号とともに放送または送信することがある。以下、特徴情報を含むその情報を「コンテンツ関連情報」と記す。特有の特徴があるコンテンツとは、例えば、立体映像（３　Ｄｉｍｅｎｓｉｏｎａｌ　ｖｉｄｅｏ　ｉｍａｇｅｓ。以下、「３Ｄ映像」とも記す。また、３Ｄ映像の映像信号を「３Ｄ映像信号」とも記す）のコンテンツや、字幕が重畳されている映像を含むコンテンツ、等である。３Ｄ映像に関するコンテンツ関連情報には、例えば３Ｄ映像の映像信号伝送方式（サイド・バイ・サイド方式、トップ・アンド・ボトム方式、ライン・バイ・ライン方式、フレームシーケンシャル方式、等）に関する特徴情報が含まれていることがある。また、字幕に関するコンテンツ関連情報には、例えば、字幕の有無、字幕の位置や大きさ、字幕の色、字体、等に関する特徴情報が含まれていることがある。また、放送信号の放送形式に関する特徴情報がコンテンツ関連情報に含まれていることもある。

　ＳＴＢ１４は、放送局１２が放送する放送信号を受信して映像信号を取り出すように構成された受信機（チューナ）である。ＳＴＢ１４は、例えば放送局１２がデジタルの映像信号を放送する場合、受信した映像信号をデコードする機能を備えていてもよい。ＳＴＢ１４は、放送局１２が放送する複数のチャンネルの中から、ユーザ（Ｕｓｅｒ）の指示にもとづき選局したチャンネルを受信し、そのチャンネルの映像信号を通信インターフェース（例えば、ＨＤＭＩ（登録商標））を介して、映像受信装置４０に出力する。また、ＳＴＢ１４は、放送局１２が映像信号とともにコンテンツ関連情報を送信するときには、そのコンテンツ関連情報を受信して映像受信装置４０に出力することもできる。なお、映像送信装置は何らＳＴＢ１４に限定されるものではなく、例えば録画機能と放送信号受信機能と映像信号出力機能とをあわせ持つ録画装置、等であってもよい。

　なお、ＳＴＢ１４は、放送局１２から特有の特徴があるコンテンツが放送されるときに、その特徴を検知し、その特徴を示す特徴情報を含むコンテンツ関連情報を生成して映像受信装置４０に出力するように構成されていてもよい。例えば、放送局１２から３Ｄ映像のコンテンツが放送されるときに、３Ｄ映像信号の伝送方式を検出し、検出した結果（３Ｄ映像信号の伝送方式）を示す特徴情報を生成して映像受信装置４０に出力するように構成されていてもよい。あるいは、放送局１２から字幕が重畳された映像を含むコンテンツが放送されるときに、その字幕を検出し、検出した字幕の表示位置や表示サイズを示す特徴情報を生成して映像受信装置４０に出力するように構成されていてもよい。あるいは、ＳＴＢ１４が映像信号に字幕またはＯＳＤ（Ｏｎ　Ｓｃｒｅｅｎ　Ｄｉｓｐｌａｙ）を重畳するとき、その字幕またはＯＳＤの表示位置および表示サイズに関する特徴情報を生成して映像受信装置４０に出力するように構成されていてもよい。なお、本実施の形態では、ＳＴＢ１４等の映像送信装置が、放送局１２から放送される映像信号から特徴を検出して生成し出力するそれらの特徴情報も、コンテンツ関連情報の一部として扱う。

　映像受信装置４０は、外部から入力される映像信号にもとづく映像を表示部５４に表示するように構成された映像受信デバイスであり、例えばテレビジョン受像機である。映像受信装置４０は、通信ネットワーク１６に接続されており、通信ネットワーク１６を介して映像認識装置２０および付加情報配信装置３０とデータの送受信ができる。

　本実施の形態における映像受信装置４０は、以下のことができるように構成されている。映像受信装置４０は、映像送信装置（例えば、ＳＴＢ１４）から通信インターフェースを介して入力される映像信号に関するコンテンツ特定処理（映像認識処理にもとづくコンテンツ特定処理）を映像認識装置２０を利用して行う。コンテンツ特定処理とは、その映像信号が表すコンテンツを特定する処理のことである。映像受信装置４０は、コンテンツ特定処理の結果として映像認識装置２０から送信されてくる解析情報を受信し、その解析情報にもとづき、そのコンテンツに関連する付加情報（例えば、広告情報）を付加情報配信装置３０から取得し、取得した付加情報をその映像信号に重畳して表示部５４に表示する。

　具体的には、映像受信装置４０は、入力される映像信号から一部を周期的に切り出すことで部分映像を周期的に抽出し、その部分映像から生成したコンテンツ認識情報とコンテンツ特定処理（映像認識処理にもとづくコンテンツ特定処理）の要求（以下、「映像認識要求」とも記す）を、通信ネットワーク１６を介して映像認識装置２０に送信する。そして、映像受信装置４０は、そのコンテンツ認識情報に対するコンテンツ特定処理の結果（解析情報）を映像認識装置２０から通信ネットワーク１６を介して取得する。そして、取得したコンテンツ特定処理の結果（解析情報）に関連する付加情報を、付加情報配信装置３０から通信ネットワーク１６を介して取得する。そして、取得した付加情報にもとづく画像（図１には、「付加情報５１」として示す）を、表示部５４に表示中の映像に重畳して表示する。これらの詳細は後述する。

　また、映像受信装置４０は、ＳＴＢ１４から出力されるコンテンツ関連情報を受け取ることもできる。このコンテンツ関連情報には、例えば、放送局１２から３Ｄ映像のコンテンツが放送されるときに、その３Ｄ映像信号の伝送方式を示す特徴情報が含まれていることがあり、また、放送局１２から放送されるコンテンツに字幕が重畳された映像が含まれているときに、字幕が重畳された領域の場所（座標）や大きさを表す特徴情報が含まれていることがある。また、ＳＴＢ１４が映像信号に字幕やＯＳＤを重畳するときに、その字幕やＯＳＤが重畳された領域の場所（座標）や大きさを表す特徴情報が含まれていることがある。

　なお、本実施の形態では、コンテンツ認識情報をフィンガープリントとする例を説明する。コンテンツ認識情報は、映像を認識するための情報であり、フィンガープリントは、部分映像や動画を構成する各画像のハッシュ値である。しかし、コンテンツ認識情報は映像認識処理に使用できる情報（データ）であればよく、何らフィンガープリント（ハッシュ値）に限定されない。

　なお、本実施の形態では、付加情報を「コンテンツに関連する広告情報」とする例を説明するが、付加情報は何ら広告情報に限定されるものではなく、例えば観光情報、歴史情報、人物プロフィール情報、ＵＲＬ（Ｕｎｉｆｏｒｍ　Ｒｅｓｏｕｒｃｅ　Ｌｏｃａｔｏｒ）、公共公報情報、放送中の番組に関する情報、ツイッター（登録商標）等のソーシャル情報、等であってもよい。

　映像認識装置２０は、通信ネットワーク１６に接続されたサーバ装置であり、映像認識処理にもとづくコンテンツ特定処理を行うＷｅｂサイトである。コンテンツ特定処理とは、上述したように、受信したフィンガープリントにもとづき映像認識処理を行い、その映像認識処理の結果にもとづきそのフィンガープリントが表すコンテンツを特定する処理のことである。そのために、映像認識装置２０は、放送局１２が放送するコンテンツに対する解析と、その解析の結果を利用した映像認識処理を行う。

　映像認識装置２０は、放送局１２から放送される実質的に全てのコンテンツを取得する。そして、取得したコンテンツに対する解析を行い、コンテンツの時間、容量、放送形式、内容、ジャンル、登場人物、タイムテーブル、等を調べ、解析情報を作成する。また、映像認識装置２０は、放送局１２から取得したコンテンツの映像信号からフィンガープリントを作成する。映像認識装置２０は、放送局から放送される放送信号を受信してコンテンツを取得してもよく、あるいは、専用の映像回線等を介して放送局１２から送信される映像信号を受信してコンテンツを取得してもよい。また、この解析は、例えば、自動で行われてもよく、作業者が手作業で行ってもよい。この解析結果である解析情報は、そのコンテンツに関する情報とともに映像認識装置２０の記憶部２３に記憶される。

　映像認識装置２０は、映像受信装置４０から送信されてくるフィンガープリントを伴った映像認識要求を通信ネットワーク１６を介して受信すると、そのフィンガープリントを、映像認識装置２０があらかじめ生成し記憶部２３に記憶しておいたフィンガープリントと照合し（映像認識処理）、そのフィンガープリントに対応するコンテンツを特定する。こうして、映像認識装置２０は、映像受信装置４０から送信されてくるフィンガープリントが何のコンテンツの部分映像から作成されたものかを判断してそのコンテンツを特定するコンテンツ特定処理を行う。そして、特定したコンテンツに関する解析結果（解析情報）を記憶部２３から読み出し、読み出した情報をコンテンツ特定処理の結果として映像受信装置４０に通信ネットワーク１６を介して返信する。

　このような手法による映像認識処理（映像認識処理にもとづくコンテンツ特定処理）を「ＡＣＲ（Ａｕｔｏｍａｔｉｃ　Ｃｏｎｔｅｎｔ　Ｒｅｃｏｇｎｉｔｉｏｎ）」とも呼称する。

　付加情報配信装置３０は、通信ネットワーク１６に接続されたサーバ装置であり、様々な商品の広告情報を保持して配信するＷｅｂサイト（広告配信サイト）である。付加情報配信装置３０は、映像受信装置４０から送信されてくるコンテンツ特定処理の結果（映像受信装置４０が映像認識装置２０から取得した、コンテンツ特定処理の結果にもとづく解析情報）を通信ネットワーク１６を介して受信すると、そのコンテンツ特定処理の結果（解析情報）に関連する付加情報を通信ネットワーク１６を介して映像受信装置４０に送信する。この付加情報は、例えば、コンテンツ特定処理により特定されたコンテンツに関連する広告情報である。

　［１－１－２．映像認識装置および映像受信装置の構成］
　図２は、実施の形態１における映像認識装置２０および映像受信装置４０の構成の一例を概略的に示すブロック図である。

　なお、図２には、本実施の形態に示す動作に関連する主な回路ブロックを示しており、他の動作に関する機能や回路ブロックは省略している。これは、本実施の形態で説明する動作を分かりやすく示すためである。また、図２に示す各回路ブロックは、それぞれが独立した回路で構成されていてもよく、あるいは、図２に示す回路ブロックの１つまたは複数を実現するように作成されたプログラムをプロセッサーで実行する構成であってもよい。

　映像認識装置２０は、ＨＴＴＰ（Ｈｙｐｅｒｔｅｘｔ　Ｔｒａｎｓｆｅｒ　Ｐｒｏｔｏｃｏｌ）送受信部２１、検索部２２、および記憶部２３、を備えるサーバ装置である。映像認識装置２０は、映像受信装置４０に、通信ネットワーク１６を介して映像認識処理にもとづくコンテンツ特定処理のサービスを提供するように構成されている。

　ＨＴＴＰ送受信部２１は、通信用のインターフェースであり、例えば、イーサネット（登録商標）の規格に適合する通信アダプタである。ＨＴＴＰ送受信部２１は、通信ネットワーク１６を介して映像受信装置４０とデータの送受信を行うことができるように構成されている。

　記憶部２３は、例えばＨＤＤ（Ｈａｒｄ　Ｄｉｓｋ　Ｄｒｉｖｅ）等で構成された記憶装置である。記憶部２３は、放送局１２から放送されるコンテンツのフィンガープリントと、そのコンテンツに対する解析結果の解析情報とを、そのコンテンツに対応付けて記憶するように構成されている。このフィンガープリントは、例えば、動画を構成する各画像のハッシュ値、等である。

　記憶部２３は、例えば、放送局１２から放送される全チャンネル（例えば、３００チャンネル）について、放送からわずかな時間遅れ（例えば、１０秒）で、コンテンツ（例えば、番組本体やＣＭ）毎に、フィンガープリントと解析結果（解析情報）を対応付けて記憶する。この解析結果（解析情報）には、例えば、番組のタイトル、ＣＭのタイトル、番組のあらすじ、ＣＭのあらすじ、登場人物、映像に関連する場所、ＵＲＬ等が含まれていてもよい。

　検索部２２は、映像受信装置４０から送信されてくるフィンガープリントを伴う映像認識要求をＨＴＴＰ送受信部２１を介して受信すると、そのフィンガープリントを用いた映像認識処理にもとづくコンテンツ特定処理を行い、その結果（解析情報）をＨＴＴＰ送受信部２１を介して映像受信装置４０に返信するように構成されている。

　具体的には、検索部２２は、映像受信装置４０から送信されてくるフィンガープリントを伴う映像認識要求を、通信ネットワーク１６およびＨＴＴＰ送受信部２１を介して受信する。次に、受信したフィンガープリントを、記憶部２３に記憶されているフィンガープリントと照合し、受信したフィンガープリントに対応するフィンガープリントを検索する（映像認識処理）。そして、その検索の結果により特定されたフィンガープリントに対応するコンテンツを、受信したフィンガープリントに対応するコンテンツとする（コンテンツ特定処理）。このようにして、検索部２２は、受信したフィンガープリントに対応するコンテンツを特定する。そして、検索部２２は、特定したコンテンツに対応付けられた解析結果（解析情報）を記憶部２３から読み出し、読み出した解析結果（解析情報）を、コンテンツ特定処理の結果として、ＨＴＴＰ送受信部２１および通信ネットワーク１６を介して映像受信装置４０に返信する。

　映像受信装置４０は、制御部４１、ＨＴＴＰ送受信部４２、操作信号受信部４３、映像出力部４４、表示部５４、映像抽出部４５、付加情報表示制御部４６、記憶部４７、映像認識領域設定部６６および映像入力部４８を備える。映像受信装置４０は、映像認識装置２０を利用した映像認識処理にもとづくコンテンツ特定処理を行い、そのコンテンツ特定処理の結果としての解析情報を映像認識装置２０から取得してその解析情報に関連する付加情報（例えば、広告情報）を付加情報配信装置３０から取得し、受信した映像信号による映像（コンテンツ）に、その付加情報（例えば、その映像に関連する広告情報）による画像を重畳して表示部５４に表示する、ように構成されている。

　ＨＴＴＰ送受信部４２は、通信用のインターフェースであり、例えば、イーサネット（登録商標）の規格に適合する通信アダプタである。ＨＴＴＰ送受信部４２は、通信ネットワーク１６を介して映像認識装置２０とデータの送受信を行うことができるように構成されている。

　操作信号受信部４３は、ユーザ操作を受け付けたリモートコントロール装置（以下、「リモコン」と略記する）等の操作部（図示せず）が発信する操作信号（映像受信装置４０に対する操作信号）を受信するように構成されている。操作信号受信部４３は、ジャイロセンサを有するリモコンが、そのリモコンに生じる物理的な変動にもとづき発信する信号を受信するように構成されていてもよい。

　映像入力部４８は、受信回路およびデコーダであり、放送局が送信する放送信号を受信するように構成された受信部４９と、映像送信装置（例えば、ＳＴＢ１４）が出力する映像信号およびコンテンツ関連情報を入力するように構成された入力部６５とを有する。映像入力部４８が受け取る映像信号には、時間の経過に伴って切り替わるコンテンツ（番組本体とＣＭ、等）が含まれる。

　受信部４９は、放送局１２が送信する放送信号をアンテナ（図示せず）等を介して受信するように構成されている。

　入力部６５は、外部に設置された映像送信装置から出力されてくる映像信号およびコンテンツ関連情報を入力するように構成されたインターフェースである。入力部６５は、例えばＨＤＭＩ（登録商標）の規格に適合するように構成されており、映像送信装置からＨＤＭＩ（登録商標）を介して送信されてくる映像信号およびコンテンツ関連情報を受け取ることができる。この映像送信装置は、例えばＳＴＢ１４であるが、映像記録再生装置等であってもよい。また、入力部は、ビデオケーブルを介して送信されてくる映像信号およびコンテンツ関連情報や、無線通信で送信されてくる映像信号およびコンテンツ関連情報を受け取るように構成されていてもよい。

　映像出力部４４は、表示部５４を制御する機能を有し、映像入力部４８から入力される映像信号にもとづき表示部５４を制御して、その映像信号にもとづく映像を表示部５４に表示するように構成されている。映像出力部４４は、制御部４１から付加情報が入力されたときは、表示部５４に表示中の映像に、付加情報にもとづく画像を重畳する。

　表示部５４は、映像信号にもとづく映像を表示するように構成されたディスプレイであり、例えばＬＣＤ（Ｌｉｑｕｉｄ　Ｃｒｙｓｔａｌ　Ｄｉｓｐｌａｙ）である。しかし、本実施の形態は何らこの構成に限定されるものではなく、表示部５４は、ＰＤＰ（Ｐｌａｓｍａ　Ｄｉｓｐｌａｙ　Ｐａｎｅｌ）やＯＬＥＤ（Ｏｒｇａｎｉｃ　Ｅｌｅｃｔｒｏ　Ｌｕｍｉｎｅｓｃｅｎｃｅ　Ｄｉｓｐｌａｙ）、等であってもよい。

　付加情報表示制御部４６は、付加情報の表示制御を行うように構成されている。具体的には、付加情報表示制御部４６は、映像抽出部４５で抽出された部分映像からフィンガープリントを生成し、生成したフィンガープリントにもとづくコンテンツ特定処理（映像認識処理にもとづくコンテンツ特定処理）を、映像認識装置２０を利用して行う。このフィンガープリントは、例えば、部分映像を構成する各画像のハッシュ値である。このとき、付加情報表示制御部４６は、映像認識領域設定部６６で設定された有効領域（映像認識領域または映像認識候補領域）でフィンガープリントを生成する。これらの処理の詳細は後述する。そして、映像認識装置２０から取得したコンテンツ特定処理の結果にもとづき付加情報配信装置３０から取得した付加情報を、表示部５４に表示するか否か（映像信号に重畳するか否か）、または表示部５４に表示中の付加情報を継続表示するか非表示にするか、を判断し、その判断にもとづく指示を制御部４１に出力する。また、付加情報表示制御部４６は、取得した付加情報にもとづく画像（または、文字列）を、表示部５４に表示中の映像のどこに重畳するかを、映像認識領域設定部６６における映像認識領域設定処理の結果にもとづき判断し、その判断にもとづく指示を制御部４１に出力する。

　映像抽出部４５は、映像入力部４８から入力される映像信号から部分映像を抽出するように構成されている。映像抽出部４５は、映像信号から、あらかじめ定められた周期で、映像信号の一部である部分映像を所定時間分抽出するように構成されている。例えば、あらかじめ定められた周期が３秒であり所定時間が３秒間であれば、映像抽出部４５は、映像信号から、３秒毎に３秒間の部分映像を抽出する動作を繰り返す。すなわち、映像信号から３秒間の部分映像を３秒毎に隙間なく連続して抽出する動作を繰り返す。また、例えば、あらかじめ定められた周期が１５秒であり所定時間が３秒間であれば、映像抽出部４５は、映像信号から、１５秒毎に３秒間の部分映像を抽出する動作を繰り返す。すなわち、映像信号から３秒間の部分映像を１２秒の間隔をおいて抽出する動作を繰り返す。なお、映像信号から抽出する部分映像は秒単位での抽出に限定されるものではなく、例えば、映像フレームレートにおいて予め定められたフレーム数で部分映像を抽出してもよい。

　映像認識領域設定部６６は、映像抽出部４５で抽出された部分映像に対して、映像認識領域設定処理を実行する。映像認識領域設定処理では、部分映像に重畳された字幕やＯＳＤ（Ｏｎ　Ｓｃｒｅｅｎ　Ｄｉｓｐｌａｙ）等の重畳情報を検出し、その検出の結果にもとづき、または、コンテンツ関連情報に含まれた特徴情報にもとづき、有効領域を設定する。有効領域とは、映像認識領域または映像認識候補領域のことである。すなわち、映像認識領域設定部６６は、重畳情報の検出結果にもとづき、またはコンテンツ関連情報に含まれた特徴情報にもとづき、映像認識領域または映像認識候補領域を設定する。

　映像認識領域設定部６６で行う映像認識領域設定処理の概要を、図３Ａ～図４Ｄを用いて説明する。

　図３Ａは、実施の形態１における映像受信装置４０の表示部５４に表示する映像の一例を概略的に示す図である。図３Ｂは、実施の形態１における映像受信装置４０の表示部５４に表示する映像の他の一例を概略的に示す図である。

　図３Ａには、ＳＴＢ１４が放送局１２から受信した映像信号をそのまま映像受信装置４０に出力し、その映像信号にもとづく映像５０が映像受信装置４０の表示部５４に表示されている例を示す。

　図３Ｂには、ＳＴＢ１４が、放送局１２から受信した映像信号に字幕９４を重畳して映像受信装置４０に出力し、その映像信号にもとづく映像（映像５０に字幕９４が重畳された映像）が、表示部５４に表示されている例を示す。

　ＳＴＢ１４等の映像送信装置には、放送局１２から送信されてくる映像信号に、映像送信装置側で字幕やＯＳＤ等を重畳する機能を有するものがある。なお、映像送信装置が映像信号に重畳する字幕やＯＳＤ等を「重畳情報」とも記す。

　例えば、ＳＴＢ１４が、放送局１２から送信されてくる映像信号に字幕９４を重畳して出力すると、映像受信装置４０の表示部５４には、図３Ｂに示すように、映像５０に字幕９４を重畳した映像が表示される。

　この字幕９４は、ＳＴＢ１４が映像５０に重畳したものなので、映像認識装置２０が放送局１２から取得する同コンテンツの映像は、図３Ａに示すように、字幕９４が重畳されていない映像５０となる。

　このように、ＳＴＢ１４等の映像送信装置が、放送局１２から送信されてくる映像信号に字幕９４等の重畳情報を重畳すると、映像受信装置４０の表示部５４に表示される映像と、映像認識装置２０が放送局１２から取得する映像とは、同一のコンテンツであるにもかかわらず、映像の内容に差異が生じることになる。

　そこで、本実施の形態における映像受信装置４０は、映像認識領域設定部６６において、映像認識領域設定処理を行い、重畳情報の表示位置や表示サイズを検出してその重畳情報を除く領域に映像認識領域を設定し、またはコンテンツ関連情報に含まれた特徴情報にもとづいて映像認識領域を設定し、その映像認識領域でフィンガープリントを生成する。

　なお、映像受信装置４０は、部分映像を構成する各画像のハッシュ値を、映像認識領域または映像認識候補領域で算出してフィンガープリントとする。

　なお、図３Ｂに示す字幕９４は、重畳情報の一例として挙げているものに過ぎず、重畳情報の表示位置や表示サイズ等が、何ら図３Ｂに示す字幕９４の表示位置や表示サイズ等に限定されるものではない。また、他の図面に示す字幕に関しても同様である。

　図４Ａは、実施の形態１における映像受信装置４０の映像認識領域設定部６６が映像５０に設定する映像認識領域７１の一例を概略的に示す図である。図４Ｂは、実施の形態１における映像認識装置２０において、映像認識領域設定部６６が設定した映像認識領域７１にもとづき設定されたフィンガープリントの生成領域の一例を概略的に示す図である。図４Ｃは、映像受信装置４０において映像５０の全面に設定された映像認識領域７２の一例を概略的に示す図である。図４Ｄは、映像認識装置２０において映像５０の全面に設定されたフィンガープリントの生成領域の一例を概略的に示す図である。

　なお、図４Ａ～４Ｄでは、説明を分かりやすくするために、フィンガープリントの生成領域である映像認識領域７１、７２を太線で示すが、この太線が表示部５４に実際に表示されるわけではない。

　図４Ａには、ＳＴＢ１４が映像５０に重畳情報の一例である字幕９４を重畳し、映像認識領域設定部６６が、字幕９４を除く領域に映像認識領域７１を設定する例を示す。図４Ｃには、ＳＴＢ１４が映像５０に字幕９４を重畳しているにもかかわらず、字幕９４を含めた領域（映像５０の全面）に映像認識領域７２が設定された例を示す。このとき、映像認識装置２０が放送局１２から取得する映像５０には、図４Ｂ、図４Ｄに示すように字幕９４は重畳されていない。

　なお、図４Ｃは、図４Ａに示す動作例への対比のために示したものに過ぎず、映像認識領域設定部６６が、字幕９４等の重畳情報を検出しているにもかかわらず映像５０の全面に映像認識領域を設定することを示したものではない。

　例えば、図４Ｃに示すように、映像受信装置４０において、字幕９４を含めた領域に映像認識領域７２が設定されると、付加情報表示制御部４６では、字幕９４を含めた領域でフィンガープリントを生成する。このとき、映像認識装置２０では、図４Ｄに示すように、映像５０の映像認識領域７２でフィンガープリントを生成する。この領域には字幕９４は存在しない。そのため、映像受信装置４０で生成されるフィンガープリントと、映像認識装置２０で生成されるフィンガープリントとは互いに一致せず、映像認識装置２０ではコンテンツ特定処理が失敗する可能性がある。

　そこで、本実施の形態の映像受信装置４０では、図４Ａに示すように、映像認識領域設定部６６において、字幕９４等の重畳情報の表示領域（以下、「重畳領域」と記す）を検出し、またはコンテンツ関連情報に含まれた特徴情報にもとづいて重畳情報の重畳領域を特定し、重畳領域を除く領域に映像認識領域７１を設定する。そして、映像受信装置４０の付加情報表示制御部４６では、重畳領域を除く映像認識領域７１でフィンガープリントを生成する。映像認識装置２０では、図４Ｂに示すように、映像受信装置４０と同様の映像認識領域７１でフィンガープリントを生成する。これにより、映像受信装置４０で生成されるフィンガープリントと、映像認識装置２０で生成されるフィンガープリントとが互いに一致する可能性は相対的に高くなり、映像認識装置２０でコンテンツ特定処理が成功する可能性は、図４Ｃ、図４Ｄに示した例と比較して相対的に高くなる。

　映像認識領域設定処理の詳細は、後述する。

　なお、図４Ｂ、図４Ｄに示すように、映像認識装置２０においてフィンガープリントを生成する領域は、映像認識領域設定部６６が設定した映像認識領域にもとづき設定されるものとする。

　映像受信装置４０は、映像認識領域設定部６６が設定した映像認識領域を示す情報を、例えば、フィンガープリントと共に映像認識装置２０に送信するように構成されてもよい。

　記憶部４７は、例えば不揮発性メモリ等で構成された記憶装置である。記憶部４７は、映像入力部４８で受信した電子番組表（Ｅｌｅｃｔｒｏｎｉｃ　Ｐｒｏｇｒａｍ　Ｇｕｉｄｅ：ＥＰＧ）等の番組メタ情報、ＨＴＴＰ送受信部４２を介して付加情報配信装置３０から取得した付加情報および付加情報の表示制御情報、等を記憶する。付加情報の表示制御情報とは、付加情報の表示を制御するための情報であり、例えば付加情報の表示期間を示す情報、等が含まれる。

　制御部４１は、映像受信装置４０が備える各回路ブロックを制御するように構成されている。制御部４１は、例えば、プログラム（アプリケーションプログラム等）を記憶しているＲＯＭ等の不揮発性メモリ、そのプログラムを実行するＣＰＵ、および、ＣＰＵがプログラムを実行するときに一時的にデータやパラメータ等を記憶するＲＡＭ等の揮発性メモリ、等から構成される。

　制御部４１が行う制御には、例えば次のようなものがある。制御部４１は、映像信号と共に入力されるコンテンツ関連情報を取得する。また、映像抽出部４５が映像信号から部分映像を所定の周期で抽出するように、映像抽出部４５を制御する。そして、映像抽出部４５が部分映像を抽出する度に、映像認識領域設定部６６はコンテンツ関連情報に含まれる特徴情報から映像認識領域を部分映像に設定し、付加情報表示制御部４６は抽出された部分映像のフィンガープリントを映像認識領域で生成（算出）するように、各回路ブロックを制御する。そして、そのフィンガープリントを、映像認識要求とともに、ＨＴＴＰ送受信部４２および通信ネットワーク１６を介して映像認識装置２０に送信し、そのフィンガープリントに対するコンテンツ特定処理（映像認識処理にもとづくコンテンツ特定処理）を映像認識装置２０に依頼するように、各回路ブロックを制御する。そして、そのフィンガープリントに対するコンテンツ特定処理の結果（解析情報）を通信ネットワーク１６およびＨＴＴＰ送受信部４２を介して映像認識装置２０から取得し、そのコンテンツ特定処理の結果（解析情報）にもとづく付加情報を通信ネットワーク１６およびＨＴＴＰ送受信部４２を介して付加情報配信装置３０から取得するように、各回路ブロックを制御する。そして、取得した付加情報を記憶部４７に記憶するとともに映像出力部４４に出力し、表示部５４に表示中の映像に付加情報を重畳して表示するように、各回路ブロックを制御する。このとき、制御部４１は、付加情報表示制御部４６が「付加情報を非表示にする」と判断すれば、表示部５４に表示中の付加情報を非表示にするように、各回路ブロックを制御する。

　なお、映像受信装置４０が映像認識装置２０に映像認識処理にもとづくコンテンツ特定処理を依頼するときには、映像受信装置４０がコンテンツ特定処理の依頼を表す信号（データ）を作成し、その信号を映像認識要求として映像認識装置２０に送信するように付加情報表示システム１０を構成してもよいが、例えば、そのような信号（データ）の送信は行わず、映像受信装置４０がフィンガープリントを映像認識装置２０に送信することで映像認識装置２０に映像認識処理にもとづくコンテンツ特定処理を依頼したことになるように映像受信装置４０と映像認識装置２０との間であらかじめ取り決めをしておいてもよい。

　［１－２．動作］
　以上のように構成された付加情報表示システム１０の動作を、図５～図１３を用いて説明する。

　上述したように、映像受信装置４０は、例えばＳＴＢ１４等の映像送信装置から出力される映像信号が入力されると、その映像信号に対するコンテンツ特定処理を映像認識装置２０を利用して行う。そして、そのコンテンツ特定処理の結果に関連する付加情報５１（例えば、広告情報）を付加情報配信装置３０から取得し、取得した付加情報５１を映像信号に重畳して表示部５４に表示する。また、映像受信装置４０は、取得した付加情報５１（例えば、広告情報）を、その付加情報５１とともに取得した付加情報の表示制御情報に応じて表示または非表示にする。

　このとき、映像受信装置４０は、コンテンツ特定処理に使用するフィンガープリントを、コンテンツ関連情報に含まれる特徴情報にもとづき映像認識領域設定部６６が設定した映像認識領域で、または、映像認識領域設定部６６が映像認識領域設定処理を行い設定した映像認識領域または映像認識候補領域で、部分映像から生成する。

　以下、このコンテンツ特定処理の概要を説明する。

　［１－２－１．コンテンツ特定処理の動作］
　図５は、実施の形態１における映像受信装置４０で行うコンテンツ特定処理の動作を概略的に示すフローチャートである。

　映像受信装置４０の映像抽出部４５は、ＳＴＢ１４から出力され入力部６５に入力される映像信号から部分映像を抽出する（ステップＳ１０）。

　映像認識領域設定部６６は、映像認識領域設定処理を行う（ステップＳ１１）。

　映像認識領域設定処理とは、映像認識領域設定部６６が、コンテンツ関連情報に含まれる特徴情報にもとづき映像認識領域を設定する処理、または、映像抽出部４５で抽出された部分映像から、重畳情報が表示される領域（重畳領域）を検出し、重畳領域を除く領域に映像認識領域または映像認識候補領域を設定する処理、のことである。映像認識領域設定処理の詳細は後述する。

　付加情報表示制御部４６は、以下のコンテンツ特定処理を行う（ステップＳ１２）。付加情報表示制御部４６は、映像抽出部４５が抽出した部分映像と、映像認識領域設定部６６が設定した映像認識領域または映像認識候補領域とにもとづき、フィンガープリントを生成する。生成されたフィンガープリントは、制御部４１の指示により、ＨＴＴＰ送受信部４２を介して映像認識装置２０へ送信される。映像認識装置２０は、そのフィンガープリントを用いた映像認識処理にもとづくコンテンツ特定処理を行い、特定したコンテンツに関連する解析情報（コンテンツ特定処理の結果）を通信ネットワーク１６を介して映像受信装置４０へ送信する。このとき、コンテンツ特定処理に失敗した場合には、例えば、映像認識装置２０は解析情報として「ＮＧ」や「０」等の特定の情報を映像受信装置４０へ送信するように動作してもよい。制御部４１は、映像認識装置２０から送信されてくる解析情報（コンテンツ特定処理の結果）を受信して付加情報表示制御部４６に転送するように各回路ブロックを制御する。また、その解析情報は記憶部４７に記憶される。これらのコンテンツ特定処理の詳細は後述する。

　付加情報表示制御部４６は、取得した解析情報から、コンテンツ特定処理が成功したか否か（フィンガープリントからコンテンツを特定できたか否か）を判断する（ステップＳ１３）。

　ステップＳ１３において、コンテンツ特定処理が成功したと判断されたとき（Ｙｅｓ）は、制御部４１は、付加情報表示制御部４６からの指示にもとづき、映像認識装置２０から受信した解析情報を、ＨＴＴＰ送受信部４２および通信ネットワーク１６を介して付加情報配信装置３０に送信するように各回路ブロックを制御する。付加情報配信装置３０は、受信した解析情報に関連する付加情報を通信ネットワーク１６を通して映像受信装置４０に送信する。制御部４１は、付加情報配信装置３０から送信されてくる付加情報を、ＨＴＴＰ送受信部４２を介して受信するように、各回路ブロックを制御する。そして、受信した付加情報を映像出力部４４に転送し、付加情報表示制御部４６からの指示にもとづき、この付加情報を表示部５４に表示中の映像に重畳して表示するように、各回路ブロックを制御する。そして、一連の処理を終了する。

　なお、映像認識装置２０から取得する解析情報にＵＲＬが含まれ、制御部４１は、そのＵＲＬを指定して付加情報配信装置３０にアクセスし、そのＵＲＬに関連する情報を、その解析情報に関連する付加情報として付加情報配信装置３０から取得する、ように各装置が構成されていてもよい。

　ステップＳ１３において、コンテンツ特定処理が失敗したと判断されたとき（Ｎｏ）は、映像受信装置４０は、次の部分映像に関して、上述したステップＳ１０～ステップＳ１３の処理を繰り返す。

　なお、ステップＳ１３において、例えば、連続する所定数（例えば、３つ）の部分映像に対して映像認識装置２０が同一の解析結果（コンテンツ特定処理の結果）を返信してきたときに、コンテンツ特定処理が成功した、と判断するように付加情報表示制御部４６を構成してもよい。

　映像受信装置４０は、これら一連の動作を繰り返す。

　次に、ステップＳ１１の映像認識領域設定処理について説明する。

　［１－２－２．映像認識領域設定処理の動作］
　本実施の形態において、映像受信装置４０が映像認識領域設定処理を行うのは、入力部６５から入力される映像信号に関するコンテンツ特定処理の精度を高めるためである。そのために、映像受信装置４０は、その映像信号の特徴を調べる。

　ここでは、字幕９４等の重畳情報が、ＳＴＢ１４等の映像送信装置において映像信号に重畳され、映像受信装置４０に入力されているときの映像認識領域設定処理について説明する。

　映像認識領域設定処理の概要は、以下の通りである。

　映像受信装置４０は、まず、特徴情報（例えば、字幕９４の有無、字幕９４の表示位置や表示サイズ、３Ｄ映像信号の伝送方式、等を示す特徴情報）が含まれたコンテンツ関連情報が、映像信号とともに入力部６５を介して映像受信装置４０に入力されているかどうかを検出する。特徴情報が入力されていれば、映像受信装置４０は、それらの情報を利用して映像認識領域を設定し、その映像認識領域でフィンガープリントを生成してコンテンツ特定処理を行う。

　特徴情報がコンテンツ関連情報に含まれていない、またはコンテンツ関連情報そのものがない、等により特徴情報が映像受信装置４０に入力されていなければ、映像受信装置４０は、その映像信号の特徴（例えば、字幕９４の有無、字幕９４の表示位置や表示サイズ、等）を映像信号自身から検出する動作を行う。その後、その検出結果にもとづきコンテンツ特定処理を行う。

　図６は、実施の形態１における映像受信装置４０で行う映像認識領域設定処理の動作を概略的に示すフローチャートである。

　映像受信装置４０の映像認識領域設定部６６は、まず、ＳＴＢ１４から入力部６５を介して映像受信装置４０に入力される映像信号に関するコンテンツ関連情報を取得する（ステップＳ２１）。

　次に、映像認識領域設定部６６は、コンテンツ関連情報に、字幕９４やＯＳＤ等の重畳情報の表示領域に関する特徴情報（表示位置や表示サイズ等を示す情報のこと。以下、「重畳領域情報」と記す）が含まれているか否かを調べる（ステップＳ２２）。

　ステップＳ２２において、コンテンツ関連情報に重畳領域情報が含まれていない、またはコンテンツ関連情報そのものがない、またはコンテンツ関連情報に含まれた特徴情報は３Ｄ映像に関する特徴情報である、と判断されたとき（Ｎｏ）は、映像認識領域設定部６６は、重畳領域特定処理を行う（ステップＳ２３）。

　重畳領域特定処理とは、入力部６５を介して映像受信装置４０に入力される映像信号から字幕９４やＯＳＤ等（重畳情報）を検出し、それら重畳情報の表示位置や表示サイズ（重畳領域）を特定する処理のことである。重畳領域特定処理の詳細は、後述する。

　映像認識領域設定部６６は、ステップＳ２３の重畳領域特定処理において特定された重畳領域の情報（重畳領域情報）を用いて、映像認識領域特定処理を行う（ステップＳ２４）。

　映像認識領域特定処理とは、重畳領域情報を用いて映像認識領域または映像認識候補領域を特定する処理のことである。映像認識領域特定処理の詳細は、後述する。

　ステップＳ２２において、コンテンツ関連情報から重畳領域情報が検出されたとき（Ｙｅｓ）は、映像認識領域設定部６６は、その重畳領域情報を用いて映像認識領域特定処理を行う（ステップＳ２４）。

　ステップＳ２４の映像認識領域設定処理の終了後は、図５のステップＳ１２に移行する。

　なお、コンテンツ関連情報に重畳領域情報が含まれているとき、映像認識領域設定部６６は、字幕９４等の重畳情報の表示位置や表示サイズ等を相対的に高い精度で把握することができ、かつステップＳ２３の重畳領域特定処理を省略することができる。また、ＳＴＢ１４等の映像送信装置から３Ｄ映像の映像信号が映像受信装置４０に入力されるときは、映像認識領域設定部６６は、３Ｄ映像信号の伝送方式にもとづき適切に映像認識領域を設定することができる。したがって、コンテンツ特定処理（映像認識領域特定処理にもとづくコンテンツ特定処理）および付加情報の取得を、より早く、より高い精度で行うことができる。

　次に、コンテンツ関連情報に重畳領域情報が含まれていないとき、または、コンテンツ関連情報が映像受信装置４０に入力されないときの、ステップＳ２３の重畳領域特定処理について説明する。

　［１－２－３．重畳領域特定処理の動作］
　図７は、実施の形態１における映像受信装置４０で行う重畳領域特定処理の動作を概略的に示すフローチャートである。

　映像認識領域設定部６６は、映像抽出部４５で抽出された部分映像に対して、文字検出処理を行う（ステップＳ３１）。

　文字検出処理には、例えば、文字検出手法として一般に知られているＯＣＲ（Ｏｐｔｉｃａｌ　Ｃｈａｒａｃｔｅｒ　Ｒｅａｄｅｒ）を用いることができる。

　次に、映像認識領域設定部６６は、パターンマッチング処理によるＯＳＤ検出処理を行う（ステップＳ３２）。ＯＳＤ検出処理とは、ＯＳＤの表示領域（表示位置および表示サイズ）を検出する処理のことである。また、このパターンマッチング処理とは、例えば、ＳＴＢ１４のＯＳＤ画像をテンプレート画像としてあらかじめ記憶部４７に記憶しておき、部分映像をテンプレート画像と比較して、部分映像内にテンプレート画像（ＯＳＤ画像）が含まれているか否かを探索するパターンマッチング手法を用いた処理のことである。

　映像認識領域設定部６６は、ステップＳ３１の文字検出処理で文字が検出されたときはその検出された領域（字幕９４が表示される領域）を、ステップＳ３２のＯＳＤ検出処理でＯＳＤが検出されたときはその検出された領域（ＯＳＤ画像が表示される領域）を、それぞれ重畳領域とし、その重畳領域の表示位置および表示サイズを表す重畳領域情報を生成する（ステップＳ３３）。その後、図６のステップＳ２４に移行する。

　なお、映像受信装置４０は、ステップＳ３１の文字検出処理とステップＳ３２のパターンマッチング処理のいずれか一方だけを行うように構成されてもよい。

　次に、ステップＳ２４で行う映像認識領域特定処理について説明する。

　［１－２－４．映像認識領域特定処理の動作］
　図８は、実施の形態１における映像受信装置４０で行う映像認識領域特定処理の動作を概略的に示すフローチャートである。

　映像認識領域設定部６６は、ステップＳ２２またはステップＳ２３で重畳領域情報が取得または特定されたか否かを判断する（ステップＳ４１）。

　ステップＳ４１において、重畳領域情報は取得または特定された、と判断されたとき（Ｙｅｓ）は、映像認識領域設定部６６は、ステップＳ２２で取得されたコンテンツ関連情報に含まれている重畳領域情報、またはステップＳ２３で特定された重畳領域情報にもとづき、重畳外領域特定処理を行う（ステップＳ４４）。

　重畳外領域特定処理とは、部分映像において、重畳領域情報にもとづき重畳領域を特定することで、重畳領域を除く領域（以下、「重畳外領域」とも記す）を特定する処理のことである。重畳外領域特定処理の詳細は、後述する。

　映像認識領域設定部６６は、ステップＳ４４の重畳外領域特定処理で特定された重畳外領域に映像認識領域を設定する。そして、その映像認識領域を表す情報を生成し、その情報を付加情報表示制御部４６へ出力する（ステップＳ４５）。その後、図５のステップＳ１２に移行する。

　なお、ステップＳ４５で生成された映像認識領域を表す情報は、フィンガープリントと共に映像受信装置４０から映像認識装置２０へ送信されてもよい。

　なお、映像認識領域は、重畳外領域と一致してもよく、あるいは、重畳外領域の一部であってもよい。すなわち、映像認識領域は、重畳領域を除く全ての映像領域（部分映像の映像領域）に設定されてもよく、あるいは、重畳領域を除く映像領域の一部に設定されてもよい。映像認識領域は、コンテンツ特定処理における精度や映像受信装置４０の仕様等に応じて適切に設定することが望ましい。

　ステップＳ４１において、重畳領域情報は取得も特定もされていない、と判断されたとき（Ｎｏ）は、映像認識領域設定部６６は、映像認識候補領域設定処理を行う（ステップＳ４２）。

　映像認識候補領域設定処理とは、部分映像を複数の領域に分割する処理のことである。以下、映像認識候補領域設定処理により分割された部分映像を「映像認識候補領域」とも記す。映像認識候補領域設定処理は、以下の理由により行われる。ステップＳ４１において、重畳領域情報は取得も特定もされていない、と判断されたとき、映像受信装置４０は、映像信号に重畳情報が重畳されていないので重畳領域情報を取得も特定もできないのか、あるいは、映像信号に重畳情報が重畳されているにもかかわらず重畳領域情報を取得も特定もできないのか、の判断をすることは困難である。

　そこで、本実施の形態の映像受信装置４０では、部分映像を複数の領域に分割して各領域（各映像認識候補領域）でフィンガープリントを生成し、それらの領域毎にコンテンツ特定処理を行う。映像信号に重畳情報が重畳されていたとしても、部分映像を複数の領域に分割し、部分映像を重畳情報が重畳された領域と重畳情報が重畳されていない領域とに分けることができれば、重畳情報が重畳された領域（重畳情報が重畳された映像認識候補領域）に関してはコンテンツ特定処理が失敗する可能性があっても、重畳情報が重畳されていない領域（重畳情報が重畳されていない映像認識候補領域）に関してはコンテンツ特定処理が成功する可能性を相対的に高めることができるからである。映像認識候補領域設定処理の詳細は、後述する。

　映像認識領域設定部６６は、ステップＳ４２の映像認識候補領域設定処理で設定された映像認識候補領域を表す情報を生成し、その情報を付加情報表示制御部４６へ出力する（ステップＳ４３）。その後、図５のステップＳ１２に移行する。

　なお、ステップＳ４３で生成された映像認識候補領域を表す情報は、フィンガープリントと共に映像受信装置４０から映像認識装置２０へ送信されてもよい。

　次に、ステップＳ４４で行う重畳外領域特定処理について図９Ａ～図１１Ｃを用いて説明する。

　［１－２－５．重畳外領域特定処理の動作］
　ここでは、重畳領域情報が含まれたコンテンツ関連情報が映像信号とともに映像受信装置４０に入力されているときの映像受信装置４０の動作と、コンテンツ関連情報に重畳領域情報が含まれていない（またはコンテンツ関連情報そのものがない）ために映像信号から重畳領域情報を検出するときの映像受信装置４０の動作の、それぞれについて説明する。

　まず、重畳領域情報が含まれたコンテンツ関連情報が映像信号とともに映像受信装置４０に入力されているときの映像受信装置４０の動作について説明する。

　図９Ａは、映像送信装置から出力され映像受信装置４０に入力される映像信号９１と重畳領域情報９２との一例を概略的に示す図である。図９Ｂは、実施の形態１における映像受信装置４０の映像認識領域設定部６６が設定した映像認識領域９３の一例を概略的に示す図である。図９Ｃは、実施の形態１における映像受信装置４０の表示部５４に表示された付加情報９８の表示位置の一例を概略的に示す図である。

　なお、映像受信装置４０は、コンテンツ関連情報を、例えば通信ネットワーク１６を介して取得してもよい。

　例えば、図９Ａに概略的に示すように、放送局１２から放送される映像信号にＳＴＢ１４側で字幕９４が重畳された映像信号９１と、字幕９４の重畳領域情報９２を含むコンテンツ関連情報と、がＳＴＢ１４から映像受信装置４０に入力されたとする。

　そのような場合、映像認識領域設定部６６は、取得した重畳領域情報９２にもとづき重畳領域（例えば、字幕９４の表示領域）を特定する。そして、その重畳領域を除く領域（例えば、字幕９４を除く領域）を重畳外領域として特定する（ステップＳ４４の重畳外領域特定処理）。

　そして、映像認識領域設定部６６は、図９Ｂに示すように、その重畳外領域に映像認識領域９３を設定する（ステップＳ４５）。付加情報表示制御部４６は、その映像認識領域９３でフィンガープリントを生成する。そして、付加情報表示制御部４６は、生成したフィンガープリントおよび映像認識領域９３を示す情報を映像認識装置２０に送信するように制御部４１に指示を出し、映像認識領域９３に関するコンテンツ特定処理を行う（ステップＳ１２）。

　なお、コンテンツ関連情報に、字幕は放送局１２が放送する映像信号に重畳されたものである、ということを示す特徴情報が含まれているとき、映像認識領域設定部６６は、その字幕を除く領域に映像認識領域を設定してフィンガープリントを生成してもよいが、映像認識装置２０でも、その字幕が重畳された映像信号を放送局１２から取得しているので、その字幕を含む領域に映像認識領域を設定してフィンガープリントを生成してもかまわない。

　なお、映像認識装置２０は、映像受信装置４０から取得した映像認識領域９３を示す情報にもとづきフィンガープリントを生成してコンテンツ特定処理を行うものとする。

　なお、図９Ｂでは、説明を分かりやすくするために、映像認識領域９３を太線で示すが、この太線が映像受信装置４０の表示部５４に表示されるわけではない。

　そして、付加情報表示制御部４６は、コンテンツ特定処理にもとづき付加情報配信装置３０から取得した付加情報９８を表示部５４に表示するように、制御部４１に指示する。このとき、付加情報表示制御部４６は、付加情報９８の表示位置を、映像認識領域設定部６６で特定された重畳外領域にもとづき判断する。すなわち、付加情報表示制御部４６は、字幕９４等の重畳情報に付加情報９８が重ならないように、重畳外領域に付加情報９８の表示位置を設定する。そして、設定したその位置に付加情報９８を表示するように制御部４１に指示する。制御部４１は、その指示を受け、付加情報表示制御部４６に指示された位置に付加情報９８を表示するように、映像出力部４４等を制御する。図９Ｃに示す例では、付加情報表示制御部４６は、字幕９４に重ならない表示部５４の上部に付加情報９８を表示させる。

　なお、ステップＳ２２において、コンテンツ関連情報に含まれた特徴情報は３Ｄ映像に関する特徴情報である、と判断されたとき、映像認識領域設定部６６は、その３Ｄ映像信号の伝送方式に応じて映像認識領域を部分映像に設定し、続いてステップＳ２３に移行して重畳領域特定処理を行う。そして、３Ｄ映像信号の伝送方式に応じて設定された映像認識領域から、ステップＳ２３で特定された重畳領域を除く領域に、フィンガープリントを生成する映像認識領域を設定する。

　３Ｄ映像信号の伝送方式に応じて設定される映像認識領域の一例を説明する。

　図９Ｄは、映像送信装置から出力され映像受信装置４０に入力される３Ｄ映像の映像信号９１Ｌ、９１Ｒの一例を概略的に示す図である。図９Ｅは、実施の形態１における映像受信装置４０の映像認識領域設定部６６が３Ｄ映像信号に設定した映像認識領域９３Ｌ、９３Ｒの一例を概略的に示す図である。

　例えば、図９Ｄに示すように、１画面の左半分に左眼用の映像信号９１Ｌが配置され、１画面の右半分に右眼用の映像信号９１Ｒが配置されたサイド・バイ・サイド方式の３Ｄ映像の映像信号と、映像信号がサイド・バイ・サイド方式の３Ｄ映像であることを示す３Ｄ映像情報９２ＬＲを含むコンテンツ関連情報と、がＳＴＢ１４から映像受信装置４０に入力されたとする。

　そのような場合、映像認識領域設定部６６は、その３Ｄ映像情報９２ＬＲにもとづき、例えば図９Ｅに示すように、左眼用の映像信号９１Ｌに映像認識領域９３Ｌを、右眼用の映像信号９１Ｒに映像認識領域９３Ｒを、それぞれ設定する。

　なお、図９Ｄ、９Ｅでは、説明を分かりやすくするために、映像認識領域９３Ｌ、９３Ｒを太線で示すが、この太線が映像受信装置４０の表示部５４に表示されるわけではない。

　次に、字幕１９４に関する重畳領域情報がＳＴＢ１４から出力されず、字幕１９４が重畳された映像信号だけが映像受信装置４０に入力されるときの映像受信装置４０の動作について説明する。

　このとき、映像認識領域設定部６６での動作は、映像信号から重畳情報の表示位置や表示サイズの検出ができたときとできないときとで、異なる。まず、映像信号から重畳情報の表示位置や表示サイズの検出ができたときの動作を説明する。

　図１０Ａは、映像送信装置から出力され映像受信装置４０に入力される映像信号１９１の一例を概略的に示す図である。図１０Ｂは、実施の形態１における映像受信装置４０の映像認識領域設定部６６が設定した重畳領域１９５の一例を概略的に示す図である。図１０Ｃは、実施の形態１における映像受信装置４０の映像認識領域設定部６６が設定した映像認識領域１９３の一例を概略的に示す図である。図１０Ｄは、実施の形態１における映像受信装置４０の表示部５４に表示された付加情報９８の表示位置の一例を概略的に示す図である。

　例えば、図１０Ａに示すように、ＳＴＢ１４から映像受信装置４０に入力される映像信号１９１に字幕１９４が重畳されているにもかかわらず、その字幕１９４に関する重畳領域情報がＳＴＢ１４から出力されない場合、映像認識領域設定部６６は、映像信号１９１から字幕１９４の表示位置や表示サイズを検出し、図１０Ｂに示すように、その検出結果にもとづく重畳領域１９５を特定する（ステップＳ２３の重畳領域特定処理）。

　そして、映像認識領域設定部６６は、その重畳領域１９５を除く領域（すなわち、字幕１９４を除く領域）を重畳外領域として特定する（ステップＳ４４の重畳外領域特定処理）。

　そして、映像認識領域設定部６６は、図１０Ｃに示すように、その重畳外領域に映像認識領域１９３を設定する（ステップＳ４５）。付加情報表示制御部４６は、その映像認識領域１９３でフィンガープリントを生成する。そして、付加情報表示制御部４６は、生成したフィンガープリントおよび映像認識領域１９３を示す情報を映像認識装置２０に送信するように制御部４１に指示を出し、映像認識領域１９３に関するコンテンツ特定処理を行う（ステップＳ１２）。

　なお、コンテンツ関連情報から、放送局１２が放送した映像信号に字幕が重畳されていることが判明したとき、映像受信装置４０は、その字幕を除く領域に映像認識領域を設定してフィンガープリントを生成しても良いが、その字幕が重畳された映像信号は映像認識装置２０でも取得されるので、映像受信装置４０は、その字幕を含む領域でフィンガープリントを生成してもかまわない。

　なお、映像認識装置２０は、映像受信装置４０から取得した映像認識領域１９３を示す情報にもとづきフィンガープリントを生成してコンテンツ特定処理を行うものとする。

　なお、図１０Ｃでは、説明を分かりやすくするために、映像認識領域１９３を太線で示すが、この太線が映像受信装置４０の表示部５４に表示されるわけではない。また、説明を分かりやすくするために、図１０Ｂ、１０Ｃに重畳領域１９５を示しているが、この重畳領域１９５が表示部５４に表示されるわけではない。

　そして、付加情報表示制御部４６は、コンテンツ特定処理にもとづき付加情報配信装置３０から取得した付加情報９８を表示部５４に表示するように、制御部４１に指示する。このとき、付加情報表示制御部４６は、付加情報９８が字幕１９４に重ならないように、映像認識領域設定部６６で特定された重畳外領域に付加情報９８の表示位置を設定し、その表示位置を制御部４１に指示する。制御部４１は、その指示を受け、例えば図１０Ｄに示すように、付加情報表示制御部４６に指示された字幕１９４に重ならない表示部５４の上部に、付加情報９８を表示するように、映像出力部４４等を制御する。

　次に、映像信号から重畳情報の表示位置や表示サイズの検出ができないときの動作を説明する。このとき、映像受信装置４０は、ステップＳ４２の映像認識候補領域設定処理を行う。映像認識候補領域設定処理は次の通りである。

　［１－２－６．映像認識候補領域設定処理の動作］
　図１１Ａは、映像送信装置から出力され映像受信装置４０に入力される映像信号２９１の一例を概略的に示す図である。図１１Ｂは、実施の形態１における映像受信装置４０の映像認識領域設定部６６が設定した映像認識候補領域２９５～２９８の一例を概略的に示す図である。図１１Ｃは、実施の形態１における映像受信装置４０が映像認識装置２０から取得したコンテンツ特定処理の結果の一例を概略的に示す図である。図１１Ｄは、実施の形態１における映像受信装置４０の表示部５４に表示された付加情報９８の表示位置の一例を概略的に示す図である。

　例えば、図１１Ａに示すように、ＳＴＢ１４から映像受信装置４０に入力される映像信号２９１に字幕２９４が重畳されているにもかかわらず、その字幕２９４に関する重畳領域情報がＳＴＢ１４から出力されず、また映像認識領域設定部６６が映像信号２９１から字幕２９４の表示位置や表示サイズを検出できない場合、映像認識領域設定部６６は、映像を複数の映像認識候補領域に分割する（ステップＳ４２の映像認識候補領域設定処理）。

　図１１Ｂには、映像認識領域設定部６６が、部分映像を４つの映像認識候補領域２９５、２９６、２９７、２９８に分割する例を示す。

　なお、図１１Ｂでは、説明を分かりやすくするために、映像認識候補領域２９５～２９８を太線で示すが、この太線が映像受信装置４０の表示部５４に表示されるわけではない。

　そして、付加情報表示制御部４６は、複数の映像認識候補領域（図１１Ｂに示す例では、４つの映像認識候補領域２９５～２９８）のそれぞれに関してフィンガープリントを生成する。そして、付加情報表示制御部４６は、生成した複数のフィンガープリントおよび映像認識候補領域を示す情報（図１１Ｂに示す例では、４つの映像認識候補領域２９５～２９８を示す情報）を映像認識装置２０に送信するように制御部４１に指示を出し、複数の映像認識候補領域（図１１Ｂに示す例では、４つの映像認識候補領域２９５～２９８）のそれぞれに関するコンテンツ特定処理を行う（ステップＳ１２）。

　図１１Ｂに示す例では、映像認識候補領域２９７、２９８の２つの領域には字幕２９４が含まれ、映像認識候補領域２９５、２９６の２つの領域には字幕２９４は含まれていない。したがって、映像認識候補領域２９５、２９６の２つの領域では、映像認識候補領域２９７、２９８と比較して、コンテンツ特定処理が成功する可能性は高い。

　図１１Ｃには、一例として、映像認識装置２０が、映像認識候補領域２９５～２９８の各領域で生成されたフィンガープリントを用いてコンテンツ特定処理（映像認識処理にもとづくコンテンツ特定処理）を行い、映像認識候補領域２９５、２９６に関してはコンテンツ特定処理に成功し、そのコンテンツ特定処理の結果として「Ｃａｒ」という解析情報１０１、１０２を映像受信装置４０に返信し、映像認識候補領域２９７、２９８に関してはコンテンツ特定処理に失敗し、そのコンテンツ特定処理の結果として「ＮＧ」という解析情報１０３、１０４を映像受信装置４０に返信した例を示す。

　なお、映像認識装置２０は、映像受信装置４０から取得した映像認識候補領域を示す情報（図１１Ｂに示す例では、４つの映像認識候補領域２９５～２９８を示す情報）にもとづき各領域でフィンガープリントを生成し、それらの領域毎のコンテンツ特定処理を行うものとする。

　付加情報表示制御部４６は、コンテンツ特定処理が成功した映像認識候補領域（例えば、映像認識候補領域２９５、２９６）におけるコンテンツ特定処理の結果にもとづき、付加情報配信装置３０から付加情報を取得するように、制御部４１に指示する。そして、取得した付加情報９８を表示部５４に表示するように、制御部４１に指示する。

　このとき、付加情報表示制御部４６では、コンテンツ特定処理が失敗した映像認識候補領域に重畳情報が表示され、コンテンツ特定処理が成功した映像認識候補領域には重畳情報は表示されていない、と判断することができる。したがって、付加情報９８が重畳情報（例えば、字幕１９４）に重ならないようにするために、付加情報表示制御部４６は、コンテンツ特定処理が成功した映像認識候補領域に付加情報９８の表示位置を設定し、その位置を制御部４１に指示する。制御部４１は、その指示を受け、コンテンツ特定処理が成功した映像認識候補領域の指示された位置に付加情報９８を表示するように、映像出力部４４等を制御する。

　例えば図１１Ｃに示すように、映像認識候補領域２９５、２９６ではコンテンツ特定処理が成功し、映像認識候補領域２９７、２９８ではコンテンツ特定処理が失敗したときには、付加情報表示制御部４６は、コンテンツ特定処理が成功した映像認識候補領域２９５、２９６に付加情報９８を表示するように制御部４１に指示する。この指示を受けた制御部４１は、映像認識候補領域２９５、２９６に付加情報９８を表示するように、映像出力部４４等を制御する。これにより、付加情報９８は、例えば図１１Ｄに示すように、字幕２９４に重ならない表示部５４の上部に表示される。

　なお、図９Ｃ、図１０Ｄ、図１１Ｄには、付加情報が表示部５４の上部に表示される例を示したが、これは付加情報の表示位置の一例として挙げているものに過ぎず、付加情報の表示位置や表示サイズ等が、何ら図９Ｃ、図１０Ｄ、図１１Ｄに示す付加情報の表示位置や表示サイズ等に限定されるものではない。

　次に、ステップＳ１２で行う映像認識処理にもとづくコンテンツ特定処理について説明する。

　［１－２－７．コンテンツ特定処理の動作］
　図１２は、実施の形態１における映像受信装置４０で行うコンテンツ特定処理の動作を概略的に示すフローチャートである。

　映像受信装置４０の付加情報表示制御部４６は、映像抽出部４５が抽出した部分映像と、映像認識領域設定部６６が設定した映像認識領域または映像認識候補領域を示す情報を取得する（ステップＳ５１）。

　付加情報表示制御部４６は、映像認識領域設定部６６が設定したものが、映像認識領域なのか、または映像認識候補領域なのかを判断する（ステップＳ５２）。

　ステップＳ５２において、映像認識領域設定部６６が設定したものは映像認識候補領域である、と判断されたとき（Ｙｅｓ）は、付加情報表示制御部４６は、各映像認識候補領域でフィンガープリントを算出する（ステップＳ５３）。付加情報表示制御部４６は、全ての映像認識候補領域でフィンガープリントを算出するまでステップＳ５３を繰り返す（ステップＳ５４）。

　付加情報表示制御部４６は、ステップＳ５３で算出された全てのフィンガープリントを映像認識装置２０に送信するように制御部４１に指示する。その指示を受けた制御部４１は、ステップＳ５３で算出された全てのフィンガープリントを、映像認識要求とともに、ＨＴＴＰ送受信部４２および通信ネットワーク１６を介して映像認識装置２０に送信するように各回路ブロックを制御する（ステップＳ５５）。

　付加情報表示制御部４６は、映像認識候補領域を示す情報を、フィンガープリントと共に映像認識装置２０に送信するように制御部４１に指示してもよい。

　フィンガープリントを受信した映像認識装置２０は、それらのフィンガープリントを用いて、映像認識候補領域のそれぞれに関するコンテンツ特定処理（映像認識処理にもとづくコンテンツ特定処理）を行う。そして、映像認識装置２０は、それらのコンテンツ特定処理の結果の解析情報を映像受信装置４０に返信する。

　このとき、映像認識装置２０は、映像受信装置４０から取得した映像認識候補領域を示す情報にもとづき複数のフィンガープリントを生成し、それらのフィンガープリントを用いて映像認識候補領域のそれぞれに関するコンテンツ特定処理を行うものとする。

　ステップＳ５２において、映像認識領域設定部６６が設定したものは映像認識領域である、と判断されたとき（Ｎｏ）は、付加情報表示制御部４６は、その映像認識領域でフィンガープリントを算出する（ステップＳ５８）。

　付加情報表示制御部４６は、ステップＳ５８で算出されたフィンガープリントを映像認識装置２０に送信するように制御部４１に指示する。その指示を受けた制御部４１は、ステップＳ５８で算出されたフィンガープリントを、映像認識要求とともに、ＨＴＴＰ送受信部４２および通信ネットワーク１６を介して映像認識装置２０に送信するように各回路ブロックを制御する（ステップＳ５５）。

　付加情報表示制御部４６は、映像認識領域を示す情報を、フィンガープリントと共に映像認識装置２０に送信するように制御部４１に指示してもよい。

　フィンガープリントを受信した映像認識装置２０は、そのフィンガープリントを用いてコンテンツ特定処理（映像認識処理にもとづくコンテンツ特定処理）を行う。そして、映像認識装置２０は、そのコンテンツ特定処理の結果の解析情報を映像受信装置４０に返信する。

　このとき、映像認識装置２０は、映像受信装置４０から取得した映像認識領域を示す情報にもとづきフィンガープリントを生成してコンテンツ特定処理を行うものとする。

　映像受信装置４０の制御部４１は、ステップＳ５５の結果として映像認識装置２０から通信ネットワーク１６を通して送信されてくる解析情報（コンテンツ特定処理の結果）を、ＨＴＴＰ送受信部４２を介して受信するように各回路ブロックを制御し、受信した解析情報を付加情報表示制御部４６に転送する（ステップＳ５６）。

　解析情報を受け取った付加情報表示制御部４６は、その解析情報を記憶部４７に記憶するように制御部４１に指示を出す。その指示を受けた制御部４１は、その解析情報を記憶部４７に記憶するように各回路ブロックを制御する（ステップＳ５７）。その後、図５のステップＳ１３に移行する。

　［１－３．効果等］
　以上のように、本実施の形態において、映像受信装置４０は、通信ネットワーク１６を介してデータの送受信を行えるように構成されており、入力部６５、映像抽出部４５、映像認識領域設定部６６、制御部４１、および付加情報表示制御部４６、を備える。入力部６５は、外部に設置された映像送信装置（例えば、ＳＴＢ１４）から出力される映像信号と特徴情報を含むコンテンツ関連情報とを入力するように構成されている。映像抽出部４５は、その映像信号から映像認識処理用の部分映像を抽出するように構成されている。映像認識領域設定部６６は、コンテンツ関連情報に含まれた特徴情報に基づき部分映像に映像認識領域を設定するように構成されている。制御部４１は、通信ネットワーク１６に接続された映像認識装置２０にフィンガープリントを送信して映像認識処理を依頼し、その映像認識処理の結果を映像認識装置２０から取得し、その映像認識処理の結果に基づく付加情報（例えば、広告情報）を通信ネットワーク１６に接続された付加情報配信装置３０から取得する制御を行うように構成されている。付加情報表示制御部４６は、部分映像の映像認識領域でフィンガープリントを生成するように構成されている。

　例えば、ＳＴＢ１４等の映像送信装置では、放送局１２から送信されてくる映像信号に、字幕やＯＳＤ等の重畳情報を重畳して出力することがある。しかし、そのような重畳情報は映像認識装置２０が放送局１２から取得するコンテンツの映像には含まれていない。そのため、重畳情報を含んだ映像信号からフィンガープリントが生成され、そのフィンガープリントによる映像認識処理が映像認識装置２０に依頼されると、映像認識装置２０では、そのフィンガープリントを用いた映像認識処理（映像認識処理にもとづくコンテンツ特定処理）に失敗する可能性がある。

　しかし、本実施の形態における映像受信装置４０は、映像認識領域設定部６６では、コンテンツ関連情報に含まれた特徴情報に基づき部分映像に映像認識領域を設定し、付加情報表示制御部４６では部分映像の映像認識領域でフィンガープリントを生成するように構成されている。これにより、映像受信装置４０では、映像送信装置から入力される映像信号に関して、字幕やＯＳＤ等の重畳情報を除く領域に設定された映像認識領域でフィンガープリントを生成することができるので、映像認識装置２０を利用した映像認識処理（映像認識処理にもとづくコンテンツ特定処理）を精度良く行うことが可能になる。

　また、放送局１２は３Ｄ映像のコンテンツを放送することがある。そして、本実施の形態における映像受信装置４０は、コンテンツ関連情報に３Ｄ映像信号の伝送方式に関する特徴情報が含まれているとき、映像認識領域設定部６６は、その情報に基づく映像認識領域を部分映像に設定できる。したがって、映像受信装置４０は、３Ｄ映像のコンテンツに関しても、３Ｄ映像に応じたフィンガープリントを生成して精度の高い映像認識処理（映像認識処理にもとづくコンテンツ特定処理）を映像認識装置２０を利用して行うことができる。

　そして、映像受信装置４０は、その映像認識処理の結果にもとづく付加情報を付加情報配信装置３０から取得して、その映像信号に重畳することができる。

　また、映像受信装置４０は、映像信号に付加情報５１を重畳した映像を表示するように構成された表示部５４を備えていてもよい。

　また、映像認識領域設定部６６は、コンテンツ関連情報に重畳情報に関する特徴情報が含まれているとき、その重畳情報が重畳された領域を除く領域に映像認識領域を設定するように構成されてもよい。

　これにより、映像認識領域設定部６６は、字幕やＯＳＤ等の重畳情報を含まない領域に映像認識領域を設定することができる。すなわち、付加情報表示制御部４６は、字幕やＯＳＤ等の重畳情報を除く領域に設定された映像認識領域でフィンガープリントを生成することができるので、映像受信装置４０は、映像認識装置２０を利用した映像認識処理（映像認識処理にもとづくコンテンツ特定処理）を精度良く行なうことが可能になる。

　また、付加情報表示制御部４６は、映像信号の映像認識領域に付加情報を重畳する制御を行うように構成されてもよい。

　これにより、映像受信装置４０は、付加情報を、重畳情報に重ならない位置に表示することが可能になる。したがって、映像受信装置４０では、映像送信装置から入力される映像信号に、字幕やＯＳＤ等の重畳情報が重畳されていたとしても、それらの重畳情報が付加情報に隠れて視認性が損なわれることを防止することが可能となる。

　（他の実施の形態）
　以上のように、本出願において開示する技術の例示として、実施の形態１を説明した。しかしながら、本開示における技術は、これに限定されず、変更、置き換え、付加、省略等を行った実施の形態にも適用できる。また、上記実施の形態１で説明した各構成要素を組み合わせて、新たな実施の形態とすることも可能である。

　そこで、以下、他の実施の形態を例示する。

　実施の形態１では、映像受信装置４０が表示部５４を備えている構成を説明したが、本実施の形態における映像受信装置は何らこの構成に限定されるものではない。映像受信装置は表示部を備えていなくてもかまわない。

　図１３は、他の実施の形態における映像受信装置１４０の構成の一例を概略的に示すブロック図である。図１３に示す映像受信装置１４０は、主に以下の点が、実施の形態１で図２に示した映像受信装置４０と異なる。映像受信装置１４０は、表示部５４を備えておらず、映像出力部１４４が、外部に設置された映像表示装置１５４に、有線または無線で、映像信号を出力するように構成されている。

　このような映像受信装置１４０の一例として、例えば、録画機能、放送信号受信機能、映像信号入力機能、および映像信号出力機能を備え、外部に設置された映像表示装置１５４に映像信号を送信するように構成された録画装置、等を挙げることができる。そのような録画装置には、例えばハードディスクレコーダや、ＤＶＤレコーダ、ＢＤレコーダ、等がある。

　なお、図１３では、図２に示した映像受信装置４０を構成する構成要素と実質的に等しい動作をする構成要素には同じ符号を付与し、説明を省略する。また、図１３には、本実施の形態に示す動作に関連する主な回路ブロックを示し、他の動作に関する機能や回路ブロック（例えば、録画機能等）は省略している。

　映像受信装置１４０では、映像出力部１４４から映像表示装置１５４に出力される映像信号に付加情報５１を重畳するか否かの判断が、付加情報表示制御部４６においてなされる。なお、付加情報表示制御部４６における動作は実施の形態１と実質的に等しい。このような構成の映像受信装置１４０においても、実施の形態１に示した映像受信装置４０と同様の効果を得ることができる。

　なお、映像認識領域設定部６６は、特徴情報がコンテンツ関連情報に含まれていないとき、または、コンテンツ関連情報が映像送信装置から出力されないとき、特徴情報を含むコンテンツ関連情報の出力を要求する信号を映像送信装置へ出力するように制御部４１に指示する構成であってもよい。これにより、映像受信装置４０、１４０は、字幕やＯＳＤ等の重畳情報に関する特徴情報が映像送信装置から出力されないとき、その特徴情報を含むコンテンツ関連情報を出力するように映像送信装置に要求することが可能になる。

　なお、本実施の形態に示した各構成要素は、それぞれを独立した専用の回路で構成してもよく、あるいは、それらの１つまたは複数の動作を実現するように作成されたプログラムをプロセッサーで実行する構成であってもよい。また、このときのプログラムは、サーバ等からのダウンロードにより取得されてもよく、所定の記録媒体（例えば、ＣＤ－ＲＯＭ等の光ディスクや磁気ディスク、半導体メモリ等）を介して取得されてもよい。

　また、本実施の形態に示したサーバにおける各動作は、単数のサーバで集中処理されてもよく、複数のサーバで分散処理されてもよい。

　なお、実施の形態１に示した具体的な数値は、単に実施の形態における一例を示したものに過ぎず、本開示はこれらの数値に何ら限定されるものではない。各数値は映像受信装置の仕様等にあわせて最適な値に設定することが望ましい。

　本開示は、外部に設置された映像送信装置から入力される映像信号に関する付加情報を取得し、取得した付加情報を映像信号へ重畳することが可能な映像受信装置に適用可能である。具体的には、テレビジョン受像機、ハードディスクレコーダ、ＤＶＤレコーダ、ＢＤレコーダ、等に本開示は適用可能である。

　１０　　付加情報表示システム
　１２　　放送局
　１４　　ＳＴＢ
　１６　　通信ネットワーク
　２０　　映像認識装置
　２１，４２　　ＨＴＴＰ送受信部
　２２　　検索部
　２３，４７　　記憶部
　３０　　付加情報配信装置
　４０，１４０　　映像受信装置
　４１　　制御部
　４３　　操作信号受信部
　４４，１４４　　映像出力部
　４５　　映像抽出部
　４６　　付加情報表示制御部
　４８　　映像入力部
　４９　　受信部
　５０　　映像
　５１，９８　　付加情報
　５４　　表示部
　６５　　入力部
　６６　　映像認識領域設定部
　７１，７２，９３，９３Ｒ，９３Ｌ，１９３　　映像認識領域
　９１，９１Ｒ，９１Ｌ，１９１，２９１　　映像信号
　９２　　重畳領域情報
　９２ＬＲ　　３Ｄ映像情報
　９４，１９４，２９４　　字幕
　１０１，１０２，１０３，１０４　　解析情報
　１５４　　映像表示装置
　１９５　　重畳領域
　２９５，２９６，２９７，２９８　　映像認識候補領域

Claims

通信ネットワークを介してデータの送受信を行えるように構成された映像受信装置であって、
映像信号と前記映像信号の特徴を示す特徴情報を含むコンテンツ関連情報とを入力するように構成された入力部と、
前記映像信号から映像認識処理用の部分映像を抽出するように構成された映像抽出部と、
前記特徴情報に基づき前記部分映像に映像認識領域を設定するように構成された映像認識領域設定部と、
前記通信ネットワークに接続された映像認識装置にコンテンツ認識情報を送信して映像認識処理を依頼し、前記映像認識処理の結果を前記映像認識装置から取得し、前記通信ネットワークに接続された付加情報配信装置から前記映像認識処理の結果に基づく付加情報を取得する制御を行うように構成された制御部と、
前記部分映像の前記映像認識領域で前記コンテンツ認識情報を生成するように構成された付加情報表示制御部と、を備えた、
映像受信装置。
前記映像信号に前記付加情報を重畳した映像を表示するように構成された表示部、をさらに備えた、
請求項１に記載の映像受信装置。
前記付加情報表示制御部は、前記映像信号の前記映像認識領域に前記付加情報を重畳する制御を行うように構成された、
請求項１に記載の映像受信装置。
前記映像認識領域設定部は、前記コンテンツ関連情報が入力されないときに、前記コンテンツ関連情報を要求する信号を出力するように前記制御部に指示を出すように構成された、
請求項１に記載の映像受信装置。
前記映像認識領域設定部は、前記コンテンツ関連情報に重畳情報に関する特徴情報が含まれているとき、前記重畳情報が重畳された領域を除く領域に前記映像認識領域を設定するように構成された、
請求項１に記載の映像受信装置。
通信ネットワークを介してデータの送受信を行えるように構成された映像受信装置における映像認識方法であって、
外部から入力される映像信号から映像認識処理用の部分映像を抽出するステップと、
外部から入力される、前記映像信号の特徴を示す特徴情報を含んだコンテンツ関連情報を受け取るステップと、
前記特徴情報に基づき前記部分映像に映像認識領域を設定するステップと、
前記部分映像の前記映像認識領域でコンテンツ認識情報を生成するステップと、
前記通信ネットワークに接続された映像認識装置に、前記コンテンツ認識情報を送信して映像認識処理を依頼し、前記映像認識処理の結果を前記映像認識装置から取得するステップと、
前記映像認識処理の結果に基づく付加情報を、前記通信ネットワークに接続された付加情報配信装置から取得するステップと、
を備えた映像認識方法。
前記映像信号に前記付加情報を重畳した映像を表示部に表示するステップをさらに備えた、
請求項６に記載の映像認識方法。
前記映像信号の前記映像認識領域に前記付加情報を重畳するステップをさらに備えた、
請求項６に記載の映像認識方法。
前記コンテンツ関連情報が入力されないときに、前記コンテンツ関連情報を要求する信号を出力するステップをさらに備えた、
請求項６に記載の映像認識方法。
前記コンテンツ関連情報に字幕に関する特徴情報が含まれているとき、前記字幕が重畳された領域を除く領域に前記映像認識領域を設定する、
請求項６に記載の映像認識方法。
通信ネットワークを介して互いにデータの送受信を行えるように構成された、映像受信装置、映像認識装置、および付加情報配信装置、を備えた付加情報表示システムであって、
前記映像受信装置は、
映像信号と前記映像信号の特徴を示す特徴情報を含むコンテンツ関連情報とを入力するように構成された入力部と、
前記映像信号から映像認識処理用の部分映像を抽出するように構成された映像抽出部と、
前記特徴情報に基づき前記部分映像に映像認識領域を設定するように構成された映像認識領域設定部と、
前記映像認識装置に前記通信ネットワークを介してコンテンツ認識情報を送信して映像認識処理を依頼し、前記映像認識処理の結果を前記映像認識装置から前記通信ネットワークを介して取得し、前記付加情報配信装置から前記映像認識処理の結果に基づく付加情報を前記通信ネットワークを介して取得する制御を行うように構成された制御部と、
前記部分映像の前記映像認識領域で前記コンテンツ認識情報を生成するように構成された付加情報表示制御部と、を備え
前記映像認識装置は、
前記通信ネットワークを介して受信した前記コンテンツ認識情報に関する映像認識処理を行い、前記映像認識処理の結果を前記通信ネットワークを介して前記映像受信装置に送信するように構成され、
前記付加情報配信装置は、
前記通信ネットワークを介して受信した前記映像認識処理の結果に対応する付加情報を前記通信ネットワークを介して前記映像受信装置に送信するように構成された、
付加情報表示システム。