WO2018043143A1

WO2018043143A1 - 送信装置、送信方法、受信装置および受信方法

Info

Publication number: WO2018043143A1
Application number: PCT/JP2017/029499
Authority: WO
Inventors: 塚越　郁夫
Original assignee: ソニー株式会社
Priority date: 2016-08-30
Filing date: 2017-08-17
Publication date: 2018-03-08
Also published as: CN109644284B; CN109644284A; EP3509309A4; US10924784B2; EP3509309A1; US20190174151A1; JPWO2018043143A1; JP7040448B2

Abstract

受信側においてオブジェクトの情報に基づいたインタラクティブ処理を良好に行い得るようにする。　画像データを符号化して符号化画像データを持つビデオストリームを得る。このビデオストリームを画像データに基づいて検出されたオブジェクトの情報が付加された状態で送信する。例えば、オブジェクトの情報には、オブジェクトの形状を示す１ビットデータを符号化して得られた符号化データ、オブジェクトを囲む矩形領域であるリージョンの情報、リージョンの表示優先情報、オブジェクトを説明するテキスト情報などが含まれる。受信側では、画像データを処理してオブジェクトを検出することを要せず、自身の性能に依存せずにオブジェクトの情報を取得でき、オブジェクトの情報に基づいたインタラクティブ処理を良好に行い得る。

Description

送信装置、送信方法、受信装置および受信方法

　本技術は、送信装置、送信方法、受信装置および受信方法に関し、詳しくは、ビデオ画像に含まれるオブジェクトの情報を送信する送信装置等に関する。

　例えば、特許文献１などには、セグメンテーション処理によりビデオ画像から人物その他のオブジェクトを検出する技術が記載されている。

特開２０１５－０４６０８９号公報

　本技術の目的は、受信側においてオブジェクトの情報に基づいたインタラクティブ処理を良好に行い得るようにすることにある。

　本技術の概念は、
　画像データを符号化して符号化画像データを持つビデオストリームを得る画像エンコード部と、
　上記ビデオストリームを上記画像データに基づいて検出されたオブジェクトの情報が付加された状態で送信する送信部を備える
　送信装置にある。

　本技術において、画像エンコード部により、画像データが符号化されて符号化画像データを持つビデオストリームが得られる。送信部により、ビデオストリームが、画像データに基づいて検出されたオブジェクトの情報が付加された状態で送信される。ここで、オブジェクトは、画像データに対して従来周知のセグメンテーション処理が施されることで、検出される。

　例えば、オブジェクトの情報には、オブジェクトの形状を示す１ビットデータを符号化して得られた符号化データが含まれる、ようにされてもよい。また、例えば、オブジェクト情報には、オブジェクトを囲む矩形領域であるリージョン（セマンティック・リージョン））の情報が含まれる、ようにされてもよい。この場合、例えば、オブジェクト情報には、リージョンの表示優先情報がさらに含まれる、ようにされてもよい。また、例えば、オブジェクト情報には、オブジェクトを説明するテキスト情報が含まれる、ようにされてもよい。

　このように本技術においては、画像データを符号化して得られた符号化画像データを持つビデオストリームと共に、画像データに基づいて検出されたオブジェクトの情報が送信される。そのため、受信側では、画像データを処理してオブジェクトを検出することを要せず、自身の性能に依存せずにオブジェクトの情報を取得でき、オブジェクトの情報に基づいたインタラクティブ処理を良好に行い得る。

　なお、本技術において、例えば、オブジェクトの情報は、ビデオストリーム内に挿入されて送信される、ようにされてもよい。この場合、例えば、オブジェクト情報には、少なくとも、オブジェクトの形状を示す１ビットデータを符号化して得られた符号化データとオブジェクトを囲む矩形領域であるリージョンの情報が含まれ、符号化データはビデオストリーム内の第１の領域に挿入され、リージョンの情報はビデオストリーム内の第１の領域とは異なる第２の領域に挿入される、ようにされてもよい。このようにオブジェクトの情報がビデオストリーム内に挿入されることで、ビデオストリームとオブジェクトの情報との関連付けが容易となる。

　また、本技術の他の概念は、
　画像データを符号化して得られた符号化画像データを持つビデオストリームを受信する受信部を備え、
　上記ビデオストリームには、上記画像データに基づいて検出されたオブジェクトの情報が付加されており、
　上記オブジェクトの情報に基づいて行われるインタラクティブ処理を制御する制御部をさらに備える
　受信装置にある。

　本技術において、受信部により、画像データを符号化して得られた符号化画像データを持つビデオストリームが受信される。このビデオストリームには、画像データに基づいて検出されたオブジェクトの情報が付加されている。制御部により、オブジェクトの情報に基づいて行われるインタラクティブ処理が制御される。

　例えば、インタラクティブ処理は、オブジェクトの情報に基づいて選択された所定のオブジェクトをハイライト表示する処理である、ようにされてもよい。また、例えば、インタラクティブ処理は、オブジェクトの情報に基づいて選択された所定のオブジェクトの画像を解析して所定の情報を取得する処理である、ようにされてもよい。また、例えば、インタラクティブ処理は、オブジェクト情報に基づいて選択された所定のオブジェクトに係る情報を表示する処理である、ようにされてもよい。

　このように本技術においては、ビデオストリームに付加されて送られてくるオブジェクトの情報に基づいてインタラクティブ処理が行われる。そのため、画像データを処理してオブジェクトを検出することを要せず、自身の性能に依存せずにオブジェクトの情報を取得でき、オブジェクトの情報に基づいたインタラクティブ処理を良好に行い得る。

　また、本技術の他の概念は、
　画像データを符号化して得られた符号化画像データを持つビデオストリームを受信する受信部と、
　上記符号化画像データを復号化して得られた画像データに基づいてオブジェクトの情報を検出する処理と、該オブジェクトの情報に基づいて行われるインタラクティブ処理を制御する制御部を備える
　受信装置にある。

　本技術において、受信部により、画像データを符号化して得られた符号化画像データを持つビデオストリームが受信される。制御部により、符号化画像データを復号化して得られた画像データに基づいてオブジェクトの情報を検出する処理と、このオブジェクトの情報に基づいて行われるインタラクティブ処理が制御される。

　このように本技術においては、符号化画像データを復号化して得られた画像データに基づいてオブジェクトの情報が検出され、このオブジェクトの情報に基づいてインタラクティブ処理が行われる。そのため、オブジェクトの情報の送信がなくとも、当該オブジェクトの情報に基づいたインタラクティブ処理を良好に行い得る。

　本技術によれば、受信側においてオブジェクトの情報に基づいたインタラクティブ処理を良好に行い得る。なお、ここに記載された効果は必ずしも限定されるものではなく、本開示中に記載されたいずれかの効果であってもよい。

実施の形態としての送受信システムの構成例を示すブロック図である。送信装置の構成例を示すブロック図である。リージョン設定の一例を示す図である。表示優先度を示す“region layer priority index”とオブジェクトの形状を示す１ビットデータを説明するための図である。リージョンエンコード部の構成例を示す図である。新規定義するスライスのＮＡＬユニットのペイロードに配置されるセマンティック・リージョン・データの構造例を示す図である。セマンティック・リージョン・ポジショニングの構造例と、その構造例における主要な情報の内容を示す図である。セマンティック・リージョン・コーデッド・データの構造例を示す図である。セマンティック・リージョン・コーデッド・データの構造例における主要な情報の内容を示す図である。新規定義するＳＥＩのＮＡＬユニットのペイロードに配置されるセマンティック・リージョン・インフォメーションの構造例を示す図である。セマンティック・リージョン・インフォメーションの構造例における主要な情報の内容を示す図である。受信装置の構成例を示すブロック図である。リージョンデコード部の構成例を示す図である。インタラクティブ処理１（オブジェクトハイライト）を説明するための図である。インタラクティブ処理１（オブジェクトハイライト）を説明するための図である。インタラクティブ処理２（オブジェクによる検索＋特徴点抽出）を説明するための図である。インタラクティブ処理３（クリックで属性表示）を説明するための図である。インタラクティブ処理４（複数表示部へのオブジェクト切り出し表示）を説明するための図である。受信装置の他の構成例を示すブロック図である。

　以下、発明を実施するための形態（以下、「実施の形態」とする）について説明する。なお、説明は以下の順序で行う。
　１．実施の形態
　２．変形例

　＜１．実施の形態＞
　［送受信システム］
　図１は、実施の形態としての送受信システム１０の構成例を示している。この送受信システム１０は、送信装置１００と、受信装置２００とを有する構成となっている。

　送信装置１００は、コンテナとしてのトランスポートストリームＴＳを放送波に載せて送信する。このトランスポートストリームＴＳには、符号化画像データを持つビデオストリームが含まれている。このビデオストリームには、画像データに基づいて検出された、人その他のオブジェクトの情報が付加される。例えば、オブジェクトは、画像データに対して従来周知のセグメンテーション処理が施されることで、検出される。

　オブジェクトの情報には、オブジェクトの形状を示す１ビットデータを符号化して得られた１ビット符号化データ、オブジェクトを囲む矩形領域であるセマンティック・リージョン）（以下、適宜、「リージョン」と呼ぶ）の情報、このリージョンの表示優先情報、オブジェクトを説明するテキスト情報などが含まれる。

　オブジェクトの情報は、ビデオストリームとは別のストリームで送信することも考えられる。この実施の形態においては、オブジェクトの情報は、ビデオストリーム内に挿入されて送信される。具体的には、１ビット符号化データに関しては、新規定義するスライス（Slice）のＮＡＬユニットを用いて挿入され、その他の情報に関しては、新規定義するＳＥＩのＮＡＬユニットを用いて挿入される。

　受信装置２００は、送信装置１００から放送波に載せて送られてくる上述のトランスポートストリームＴＳを受信する。このトランスポートストリームＴＳには、上述したように符号化画像データを持つビデオストリームが含まれている。そして、このビデオストリーム内に、画像データに基づいて検出されたオブジェクトの情報が挿入されている。

　受信装置２００は、オブジェクトの情報に基づいてインタラクティブ処理を制御する。ここで、インタラクティブ処理は、例えば、オブジェクトの情報に基づいて選択された所定のオブジェクトをハイライト表示する処理、オブジェクトの情報に基づいて選択された所定のオブジェクトの画像を解析して所定の情報を取得する処理、オブジェクト情報に基づいて選択された所定のオブジェクトに係る情報を表示する処理などである。

　「送信装置の構成」
　図２は、送信装置１００の構成例を示している。この送信装置１００は、ＣＰＵ（Central Processing Unit）１０１と、ユーザ操作部１０２と、エンコーダ１０３と、圧縮データバッファ（ｃｐｂ：coded picture buffer）１０４と、ＴＳフォーマッタ１０５と、送信部１０６を有している。

　ＣＰＵ１０１は、制御部であり、送信装置１００の各部の動作を制御する。ユーザは、ユーザ操作部１０２により種々の入力操作を行うことができる。例えば、このユーザ操作部１０２から、後述するオブジェクト認識処理部１３２で認識されたオブジェクトを説明するためのテキスト情報を入力することができる。

　エンコーダ１０３は、動画像データＶＤを入力し、この動画像データＶＤの符号化を行って、符号化画像データを得る。また、エンコーダ１０３は、動画像データＶＤに基づいてオブジェクトの情報を得る。そして、エンコーダ１０３は、符号化画像データと、オブジェクトの情報を持つ、ビデオストリームを生成する。オブジェクトの情報には、オブジェクトの形状を示す１ビットデータを符号化して得られた１ビット符号化データ、オブジェクトを囲む矩形領域であるリージョンの情報、リージョンの表示優先情報、オブジェクトを説明するテキスト情報などが含まれる。

　エンコーダ１０３は、画像エンコード部１３１と、オブジェクト認識処理部１３２と、リージョンエンコード部１３３と、パラメータセット/ＳＥＩエンコード部１３４と、ＮＡＬパケット化部１３５を有している。画像エンコード部１３１は、動画像データを符号化して符号化画像データを得る。

　オブジェクト認識処理部１３２は、動画像データＶＤに対して従来周知のセグメンテーション処理を施してオブジェクトを検出する。オブジェクトは、画像（ピクチャ）内で意味のある部分であり、人その他のものが該当する。なお、ユーザ操作部１０２からの操作入力で、オブジェクト認識処理部１３２で如何なるオブジェクトを検出するかを指定することも可能である。

　オブジェクト認識処理部１３２は、画像上に、検出されたオブジェクトを囲む矩形領域であるリージョンを設定する。このリージョンは、その領域内には一つのオブジェクトを含むものとされる。このリージョンの領域は、始点座標（トップレフト座標）と終点座標（ボトムライト座標）で表される。

　図３は、リージョン設定の一例を示している。この例は、画像内にオブジェクト１，２の２つのオブジェクトが検出された場合の例である。なお、各マス目は、符号化ブロックを示している。

　オブジェクト１を囲む矩形領域であるリージョン１が設定されている。このリージョン１のリージョンＩＤ（region_id）は“１”とされている。また、オブジェクト２を囲む矩形領域であるリージョン２が設定されている。このリージョン２のリージョンＩＤ（region_id）は“２”とされている。

　各リージョンは、一部が重複するように存在することも可能とされる。オブジェクト認識処理部１３２は、各リージョンの表示優先度を示す“region layer priority index”を設定する。この“region layer priority index”の値が小さいほど、手前に位置するものとし、優先的にカテゴライズされる。図４（ａ）は、３つのリージョンが、一部が重複して存在する例を示している。

　また、オブジェクト認識処理部１３２は、ユーザ操作部１０２からのテキスト情報の入力に基づいて、オブジェクト毎に、当該オブジェクトを説明するためのテキスト情報を設定する。

　また、オブジェクト認識処理部１３２は、オブジェクト毎に、その形状を示す１ビットデータを出力する。この場合、図４（ｂ）に示すように、オブジェクトに対応した画素の画素値は“１”とされ、その他の画素の画素値は“０”とされる。

　リージョンエンコード部１３３は、オブジェクト認識処理部１３２からオブジェクト毎に出力される、そのオブジェクトの形状を示す１ビットデータを、それぞれ符号化して１ビット符号化データを得る。ここで、リージョンエンコード部１３３は、オブジェクト毎に、リージョンのデータが含まれる符号化ブロックに関して符号化を行って符号化データを得る。

　例えば、図３に示す例の場合、オブジェクト１については、リージョン１のデータが含まれる（２，３）、（２，４）、（２，５）、（３，３）、（３，４）、（３，５）、（４，３）、（４，４）、（４，５）、（５，３）、（５，４）、（５，５）の符号化ブロックに関して符号化が行われる。一方、オブジェクト２については、リージョン２のデータが含まれる（５，４）、（５，５）、（５，６）、（６，４）、（６，５）、（６，６）の符号化ブロックに関して符号化が行われる。なお、ここで、（ａ，ｂ）は、第ａ行ｂ列目を示す。

　図５は、リージョンエンコード部１３３の構成例を示している。このリージョンエンコード部１３３は、減算回路１４１と、動き予測/動き補償回路１４２と、整数変換/量子化回路１４３と、逆量子化/逆整数変換回路１４４と、加算回路１４５と、ループフィルタ１４６と、メモリ１４７と、エントロピー符号化回路１４８を有している。

　符号化対象ブロックデータは、ブロック毎に、減算回路１２２に順次供給される。動き予測/動き補償回路１４２では、メモリ１４７に記憶されている参照ピクチャの画像データに基づいて、ブロック毎に、動き補償された予測参照ブロックデータが得られる。

　動き予測/動き補償回路１４２で得られた予測参照ブロックデータは、ブロック毎に、減算回路１４１に順次供給される。減算回路１４１では、ブロック毎に、符号化対象ブロックデータと動き補償された予測参照ブロックデータとの間で減算処理が行われて、予測誤差が得られる。このブロック毎の予測誤差は、整数変換/量子化回路１４３で整数変換（例えばＤＣＴ変換）された後に量子化される。

　整数変換/量子化回路１４３で得られたブロック毎の量子化データは、逆量子化/逆整数変換回路１４４に供給される。この逆量子化/逆整数変換回路１４４では、量子化データに対して逆量子化が施され、さらに逆整数変換が施されて、予測残差が得られる。この予測誤差は、加算回路１４５に供給される。

　この加算回路１４５では、予測残差に動き補償された予測参照ブロックデータが加算されて、ブロックデータが得られる。このブロックデータは、ループフィルタ１４６で量子化ノイズが除去された後に、メモリ１４７に蓄積される。

　また、整数変換/量子化回路１４３で得られたブロック毎の量子化データは、エントロピー符号化回路１４８に供給されて、エントロピー符号化が行われて、１ビット符号化データが得られる。なお、この１ビット符号化データには、各ブロックにおける動きベクトルなどの情報が、受信側における復号化のためにＭＢヘッダ情報として付加される。

　図２に戻って、パラメータセット/ＳＥＩエンコード部１３４は、各ピクチャのＶＰＳ、ＳＰＳ、ＰＰＳなどのパラメータセットとＳＥＩを生成する。ここで、パラメータセット/ＳＥＩエンコード部１３４には、オブジェクト認識処理部１３２からオブジェクト毎に出力される、そのオブジェクトの情報（オブジェクトを囲む矩形領域であるリージョンの情報、リージョンの表示優先情報、オブジェクトを説明するテキスト情報）も供給される。そして、パラメータセット/ＳＥＩエンコード部１３４は、各オブジェクトの情報を含むＳＥＩも生成する。なお、上述したように１つのリージョンには１つのオブジェクトが含まれることから、オブジェクト毎は、リージョン毎と同じである。

　ＮＡＬパケット化部１３５は、パラメータセット/ＳＥＩエンコード部１３４で生成されたパラメータセットおよびＳＥＩと、画像エンコード部１３１で生成された符号化画像データ、リージョンエンコード部１３３で生成された１ビット符号化データに基づいて、ピクチャ毎に符号化画像データを構成する所定数のＮＡＬユニットを生成し、各ピクチャの符号化画像データからなるビデオストリームを生成する。

　この場合、各ピクチャを構成する符号化画像データの所定数のＮＡＬユニットには、画像エンコード部１３１で生成された符号化画像データをスライスデータとして持つ従来周知のスライスのＮＡＬユニットが含まれる他に、リージョンエンコード部１３３で生成された１ビット符号化データをスライスデータとして持つ新規定義するスライスのＮＡＬユニットが含まれる。また、この所定数のＮＡＬユニットには、オブジェクトの情報（オブジェクトを囲む矩形領域であるリージョンの情報、リージョンの表示優先情報、オブジェクトを説明するテキスト情報）を持つ新規定義するＳＥＩのＮＡＬユニットが含まれる。なお、１ビット符号化データをスライスデータとして持つ新規定義するスライスのＮＡＬユニットとオブジェクトの情報を持つ新規定義するＳＥＩのＮＡＬユニットの双方が必ずしも含まれる必要はなく、いずれか一方が含まれるようにされてもよい。

　図６は、新規定義するスライスのＮＡＬユニットのペイロードに配置されるセマンティック・リージョン・データ（Semantic_region_data）の構造例（Syntax）を示している。「information_id」の８ビットフィールドは、セマンティック・リージョン・データが配置されていることを示す。「semantic_region_length」の１６ビットフィールドは、この
セマンティック・リージョン・データの長さ（サイズ）として、以降のバイト数を示す。

　「semantic_region_length」のフィールドの後に、セマンティック・リージョン・ポジショニング（Semantic_region_positioning()）のフィールドと、セマンティック・リージョン・コーデッド・データ（Semantic_region_coded_data()）のフィールドが存在する。

　図７（ａ）は、セマンティック・リージョン・ポジショニングの構造例を示し、図７（ｂ）は、その構造例における主要な情報の内容（Semantics）を示している。「number_of_semantic_regions」の８ビットフィールドは、リージョン（region）の数を示す。そして、このリージョンの数だけ、「region_id」の１６ビットフィールド、「region first block position」の１６ビットフィールド、「region_block_horizontal_width」の１６ビットフィールド、「region_block_vertical_height」の１６ビットフィールドが存在する。

　「region_id」のフィールドは、リージョンの識別番号を示す。「region first block position」のフィールドは、ピクチャ内で、リージョンの開始点を含む符号化ブロックの位置を示す。図３の例では、リージョン１に関しては、トップレフト（top-left）から第２行３列目のブロック番号のブロックがリージョン１の開始ブロックになり、トップレフト（top-left）から第４行４列目のブロック番号のブロックがリージョン２の開始ブロックになる。「region_block_horizontal_width」のフィールドは、ブロック単位の水平方向のサイズを示す。「region_block_vertical_height」のフィールドは、ブロックサイズの垂直方向のサイズを示す。

　図８は、セマンティック・リージョン・コーデッド・データの構造例を示し、図９は、その構造例における主要な情報の内容（Semantics）を示している。「number_of_semantic_regions」の８ビットフィールドは、リージョン（region）の数を示す。そして、このリージョンの数だけ、「region_id」の１６ビットフィールド、「number_of_coded_blocks」の１６ビットフィールド、「number_of_smallblock_per_coded_block」の４ビットフィールド、「luma_bitdepth」の２ビットフィールドなどが存在する。

　「region_id」のフィールドは、リージョンの識別番号を示す。「number_of_coded_blocks」のフィールドは、符号化ブロックの数を示す。符号化ブロックは、ピクチャ間の動き予測を行う単位を示し、“prediction block”に相当する。「number_of_smallblock_per_coded_block」のフィールドは、“smallblock_per_coded_block”の数を示す。“smallblock_per_coded_block”は、整数変換を行う単位を示し、変換ブロックに相当する。「luma_bitdepth」のフィールドは、０～３で示される輝度データのビット長を示し、０は１ビットを示し、オブジェクトの形状を表現する場合にはこのモードになる。

　「number_of_coded_blocks」のフィールドで示される符号化ブロックの数だけ、「mv1(ref_pic_id)」の１６ビットフィールドと「mv2(ref_pic_id)」の１６ビットフィールドの２つの動きベクトルを示すフィールドが存在する。なお、「ref_pic_id」は、動きベクトルが指す参照ピクチャのＩＤである。「data_coding(luma_bitdepth)」のフィールドに、量子化された、差分データの変換符号化データが配置される。

　図１０は、新規定義するＳＥＩのＮＡＬユニットのペイロードに配置されるセマンティック・リージョン・インフォメーション（Semantic_region_information）の構造例（Syntax）を示している。図１１は、その構造例における主要な情報の内容（Semantics）を示している。「information_id」の８ビットフィールドは、セマンティック・リージョン）・インフォメーションが配置されていることを示す。「semantic_region_length」の１６ビットフィールドは、このセマンティック・リージョン・インフォメーションの長さ（サイズ）として、以降のバイト数を示す。

　「number_of_semantic_regions」の８ビットフィールドは、リージョンの数を示す。リージョンの数だけ、以下のフィールドが繰り返し存在する。「region_id」の８ビットフィールドは、リージョンの識別番号を示す。「region_layer_priority_index」の８ビットフィールドは、リージョン間の表示優先情報を示す正の値である。値が小さい程優先順位が高い。

　「tL_x」の１６ビットフィールドは、リージョンのトップレフト（top-left）のｘ座標（画像の左上を起点とする画素単位の座標値）を示す。「tL_y」の１６ビットフィールドは、リージョンのトップレフト（top-left）のｙ座標（画像の左上を起点とする画素単位の座標値）を示す。「bR_x」の１６ビットフィールドは、リージョンのボトムライト（bottom-right）のｘ座標（画像の左上を起点とする画素単位の座標値）を示す。「bR_y」の１６ビットフィールドは、リージョンのボトムライト（bottom-right）のｙ座標（画像の左上を起点とする画素単位の座標値）を示す。

　「text_length」の８ビットフィールドは、テキスト情報を示す文字コード長さ（サイズ）をバイト数で示す。文字コードは、「text_byte」のフィールドに配置される。この場合のテキスト情報は、オブジェクトを説明するテキスト情報である。

　図２に戻って、圧縮データバッファ(ｃｐｂ)１０４は、エンコーダ１０３で生成されたビデオストリームを、一時的に蓄積する。ＴＳフォーマッタ１０５は、圧縮データバッファ１０４に蓄積されているビデオストリームを読み出し、ＰＥＳパケット化し、さらにトランスポートパケット化して多重し、多重化ストリームとしてのトランスポートストリームＴＳを得る。送信部１０６は、ＴＳフォーマッタ１０５で得られたトランスポートストリームＴＳを、放送波あるいはネットのパケットに載せて、受信装置２００に送信する。

　図２に示す送信装置１００の動作を簡単に説明する。エンコーダ１０３には、動画像データＶＤが入力される。エンコーダ１０３では、動画像データＶＤの符号化が行われて、符号化画像データが得られる。また、エンコーダ１０３では、動画像データＶＤに基づいてオブジェクトの情報が得られる。そして、エンコーダ１０３では、符号化画像データと、オブジェクトの情報を持つ、ビデオストリームが生成される。

　この場合、オブジェクトの情報には、オブジェクトの形状を示す１ビットデータを符号化して得られた１ビット符号化データ、オブジェクトを囲む矩形領域であるリージョンの情報、リージョンの表示優先情報、オブジェクトを説明するテキスト情報などが含まれる。

　ここで、リージョンエンコード部１３３で生成された１ビット符号化データは、新規定義するスライスのＮＡＬユニットにスライスデータとして含まれる（図６～図９参照）。オブジェクトの情報（オブジェクトを囲む矩形領域であるリージョンの情報、リージョンの表示優先情報、オブジェクトを説明するテキスト情報）は、新規定義するＳＥＩのＮＡＬユニットに含まれる（図１０、図１１参照）。

　エンコーダ１０３で生成されたビデオストリームは、圧縮データバッファ(ｃｐｂ)１０４に一時的に蓄積される。ＴＳフォーマッタ１０５では、圧縮データバッファ１０４に蓄積されているビデオストリームが読み出され、ＰＥＳパケット化され、さらにトランスポートパケット化されて多重され、多重化ストリームとしてのトランスポートストリームＴＳが得られる。

　ＴＳフォーマッタ１０５で得られたトランスポートストリームＴＳは、送信部１０６に送られる。送信部１０６では、ＴＳフォーマッタ１０５で得られたトランスポートストリームＴＳが、放送波あるいはネットのパケットに載せて、受信装置２００に送信される。

　「受信装置の構成」
　図１２は、受信装置２００の構成例を示している。この受信装置２００は、ＣＰＵ（Central Processing Unit）２０１と、ユーザ操作部２０２と、受信部２０３と、ＴＳ解析部２０４と、圧縮データバッファ（ｃｐｂ：coded picture buffer）２０５と、デコーダ２０６と、表示部２０７を有している。ＣＰＵ２０１は、制御部を構成し、受信装置２００の各部の動作を制御する。ユーザは、ユーザ操作部２０２により種々の入力操作を行うことができる。ユーザは、例えば、このユーザ操作部２０２から、後述するインタラクティブ処理に係る操作を行うことができる。

　受信部２０３は、送信装置１００から放送波あるいはネットのパケットに載せて送られてくるトランスポートストリームＴＳを受信する。ＴＳ解析部２０４は、トランスポートストリームＴＳから、それに含まれるビデオストリームを取り出して圧縮データバッファ２０５に送る。このビデオストリームには、ピクチャ毎に、符号化画像データと共に、オブジェクトの情報が含まれている。圧縮データバッファ(ｃｐｂ)２０５は、ＴＳ解析部２０４から送られてくるビデオストリームを一時的に蓄積する。

　デコーダ２０６は、圧縮データバッファ２０５に蓄積されている各ピクチャの符号化画像データを、それぞれ、そのピクチャのＤＴＳ（Decoding Time stamp）で与えられるデコードタイミングで読み出してデコードして表示用画像データを得る。また、デコーダ２０６は、ユーザ操作に応じてオブジェクトの情報に基づいたインタラクティブ処理を行って表示用画像データを適応的に修正、変更する。表示部２０７は、デコーダ２０６からの表示用画像データによる画像表示をする。この表示部２０７は、例えば、ＬＣＤ(Liquid Crystal Display)、有機ＥＬ（Organic Electro-Luminescence）パネル等で構成されている。なお、この表示部２０７は、受信装置２００に接続される外部機器であってもよい。

　デコーダ２０６は、ＮＡＬアンパケット化部２６１と、画像デコード部２６２と、リージョンデコード部２６３と、セマンティック・リージョン・ＳＥＩ（Semantic Region SEI）解析部２６４と、画像処理部（ブラウザ部）２６５を有している。

　ＮＡＬアンパケット化部２６１は、各ピクチャの符号化画像データを構成する所定数のＮＡＬユニットからスライスデータ、パラメータセット、ＳＥＩなどを取り出してそれぞれ必要な箇所に送る。

　ここで、ＮＡＬアンパケット化部２６１は、従来周知のスライスのＮＡＬユニットからピクチャの符号化画像データを取り出して画像デコード部２６２に送る。また、ＮＡＬアンパケット化部２６１は、新規定義するスライスのＮＡＬユニットから１ビット符号化データを取り出してリージョンデコード部２６３に送る。また、ＮＡＬアンパケット化部２６１は、新規定義するＳＥＩのＮＡＬユニットをセマンティック・リージョン・ＳＥＩ解析部２６４に送る。

　画像デコード部２６２は、ＮＡＬアンパケット化部２６１からピクチャ毎に送られてくる符号化画像データをデコードして、表示用画像データを得る。リージョンデコード部２６３は、ＮＡＬアンパケット化部２６１からピクチャ毎に送られてくる各オブジェクトの１ビット符号化データをデコードして、各オブジェクトの形状を示す１ビットデータを得る。

　図１３は、リージョンデコード部２６３の構成例を示している。このリージョンデコード部２６３は、エントロピー復号化回路２７１と、逆量子化/逆整数変換回路２７２と、動き補償回路２７３と、加算回路２７４と、ループフィルタ２７５と、メモリ２７６を有している。

　エントロピー復号化回路２７１では、オブジェクト毎の１ビット符号化データにエントロピー復号化が施されて、ブロック毎の量子化データが得られる。この量子化データは逆量子化/逆整数変換回路２７２に供給される。この逆量子化/逆整数変換回路２７２では、量子化データに対して逆量子化が施され、さらに逆整数変換が施されて、予測残差が得られる。このブロック毎の予測誤差は、加算回路２７４に供給される。

　動き補償回路２７３では、メモリ２７６に記憶されている参照ピクチャの画像データに基づいて、動き補償された補償参照ブロックデータが得られる。ここで、動き補償は、ＭＢヘッダ情報として含まれている動きベクトルを用いて行われる。加算回路２７４では、予測残差に補償参照ブロックデータが加算されて、ブロックデータが得られる。このブロックデータは、ループフィルタ２７５で量子化ノイズが除去された後に、メモリ２７６に蓄積される。そして、このメモリ２７６からの蓄積データの読み出しにより、各オブジェクトの形状を示す１ビットデータが得られる。

　図１２に戻って、セマンティック・リージョン・ＳＥＩ解析部２６４は、ＮＡＬアンパケット化部２６１からピクチャ毎に送られてくる新規定義するＳＥＩのＮＡＬユニットを解析して、各オブジェクトの情報（オブジェクトを囲む矩形領域であるリージョンの情報、リージョンの表示優先情報、オブジェクトを説明するテキスト情報）を得る。

　画像処理部２６５は、画像デコード部２６２で得られた表示用画像データ、リージョンデコード部２６３で得られた各オブジェクトの形状を示す１ビットデータおよびセマンティック・リージョン・ＳＥＩ解析部２６４で得られた各オブジェクトの情報に基づいて、画像処理を行って、表示用画像データを出力する。

　この場合、通常時は、画像処理部２６５から出力される表示用画像データは、画像デコード部２６２で得られた表示用画像データとなる。また、ユーザのインタラクティブ操作に基づいたインタラクティブ処理が行われるときは、画像処理部２６５から出力される表示用画像データは、画像デコード部２６２で得られた表示用画像データが適応的に修正・変更されたものとなる。

　画像処理部２６５で行われるインタラクティブ処理は、ＣＰＵ２０１により制御されるが、この制御は、当該ＣＰＵにインストールされているアプリに基づいて行われる。ここで、インタラクティブ処理の具体例を説明する。

　「１．オブジェクトハイライト（背景マスキング）」
　このインタラクティブ処理１、つまり「１．オブジェクトハイライト（背景マスキング）」の場合、ユーザ操作に応じて当該インタラクティブ処理１の動作モードとなると、表示部２０７に表示される画像は、図１４に示すように、破線で示すリージョン枠が表示されたものとなる。このリージョン枠の表示は、セマンティック・リージョン・ＳＥＩ解析部２６４で得られるリージョンの情報に基づいて行われる。図示の例では、リージョン１（resgion1）からリージョン６（region6）までの６つのリージョンの枠が表示されている。

　この状態において、ユーザ操作により１つまたは複数のリージョンが選択されるとき、表示部２０７に表示される画像は、選択されたリージョンに含まれるオブジェクトがハイライト表示された状態となる。この場合、画像デコード部２６２で得られる表示用画像データのうち、選択されたリージョン領域以外はマスキングされるように修正・変更され、最終的な表示用画像データが得られる。

　図１５（ａ）は、リージョン４（region4）が選択された場合のマスキング処理を示している。図１５（ｂ）は、画像処理部２６５から出力される表示用画像データで表示される画像の一例を示している。なお、「region4」の文字表示がされない場合も考えられる。

　「２．オブジェクによる検索（クラウド、ローカルストレージ）＋特徴点抽出」
　図１６（ａ）は、このインタラクティブ処理２、つまり「２．オブジェクによる検索（クラウド、ローカルストレージ）＋特徴点抽出」の概要を示している。この場合、ユーザ操作に応じて当該インタラクティブ処理の動作モードとなると、表示部２０７に表示される画像はリージョン枠が表示されたものとなる（図１４参照）。この状態において、ユーザ操作により１つまたは複数のリージョンが選択されるとき、表示部２０７に表示される画像は、選択されたリージョンに含まれるオブジェクトがハイライト表示された状態となる。ここまでの処理は、上述のインタラクティブ処理１における処理と同じである。

　このインタラクティブ処理の場合、その後、選択されたリージョンに含まれるオブジェクトの画像データに対して知的処理が施され、その結果情報での検索などが行われ、検索結果を表示するように表示用画像データをさらに修正・変更する処理が行われる。知的処理は、例えば、ネットワーク上のクラウド、あるいはローカルストレージで行われる。なお、図１２の構成例では、ネットワーク上のクラウドと通信を行うための通信インタフェースやローカルストレージについての図示は省略されている。

　知的処理は、例えば、図１６（ｂ）に示すように、オブジェクトが人物の場合、顔画像を認識するオブジェクトの認識処理と、認識された顔画像から特徴点抽出によって人物（性別、年代、人物推定）を判定する処理などからなる。

　「３．クリックで属性表示」
　このインタラクティブ処理３、つまり「３．クリックで属性表示」の場合、ユーザ操作に応じて当該インタラクティブ処理３の動作モードとなると、表示部２０７に表示される画像はリージョン枠が表示されたものとなる（図１４参照）。

　この状態において、ユーザ操作により１つまたは複数のリージョンが選択されるとき、表示部２０７に表示される画像は、図１７に示すように、選択されたリージョンに含まれるオブジェクトの属性が表示されたものとなる。図示の例は、リージョン３（region3）以外のその他の全てが選択された場合の例を示している。この属性の表示は、セマンティック・リージョン・ＳＥＩ解析部２６４で得られるオブジェクトを説明するテキスト情報に基づいて行われる。

　「４．複数表示部へのオブジェクト切り出し表示」
　このインタラクティブ処理４、つまり「４．複数表示部へのオブジェクト切り出し表示」の場合、表示部２０７は、ユーザの視点の近い方から遠い方に向かって重ねて配置された複数の表示部からなる。

　ユーザ操作に応じて当該インタラクティブ処理４の動作モードとなると、例えば、最も視点に近い表示部に表示される画像はリージョン枠が表示されたものとなる（図１４参照）。この状態において、ユーザ操作により１つまたは複数のリージョンが選択されるとき、選択されたリージョンに含まれるオブジェクトが、それぞれ、セマンティック・リージョン・ＳＥＩ解析部２６４で得られるリージョンの表示優先情報に基づき、その優先度に応じた位置の表示部に表示されるように、各表示部への表示用画像データが得られる。

　図１８は、図１４で図示の例において、リージョン１（region1）、リージョン６（region6）、リージョン４（region4）が選択された場合の表示例を示している。この場合、優先度の値は、リージョン１＜リージョン６＜リージョン４の関係にあるものとする。そのため、リージョン１に含まれるオブジェクトＯＢ１は視点に最も近い表示部１に表示され、リージョン６に含まれるオブジェクトＯＢ６は視点に次に近い表示部２に表示され、リージョン４に含まれるオブジェクトＯＢ４は視点に最も遠い表示部３に表示される。この場合、各表示部のオブジェクト表示領域以外は透明状態となっており、ユーザは、視点から各表示部に表示されたオブジェクトを遠近が付けられた状態で観察することが可能となる。

　図１２に示す受信装置２００の動作を簡単に説明する。受信部２０３では、送信装置１００から放送波あるいはネットのパケットに載せて送られてくるトランスポートストリームＴＳが受信される。このトランスポートストリームＴＳは、ＴＳ解析部２０４に供給される。このＴＳ解析部２０４では、トランスポートストリームＴＳから、それに含まれるビデオストリームが取り出され、圧縮データバッファ２０５に送られる。このビデオストリームには、ピクチャ毎に、符号化画像データと共に、オブジェクトの情報が含まれている。

　圧縮データバッファ(ｃｐｂ)２０５では、ＴＳ解析部２０４から送られてくるビデオストリームが一時的に蓄積される。デコーダ２０６では、圧縮データバッファ２０５に蓄積されている各ピクチャの符号化画像データが、それぞれ、そのピクチャのＤＴＳ（Decoding Time stamp）で与えられるデコードタイミングで読み出されてデコードされ、表示用画像データが得られる。また、デコーダ２０６では、ユーザ操作に応じてオブジェクトの情報に基づいたインタラクティブ処理が行われ、表示用画像データが適応的に修正、変更される。

　表示部２０７では、デコーダ２０６からの表示用画像データによる画像表示が行われる。この場合、通常時は、画像処理部２６５から出力される表示用画像データは、画像デコード部２６２で得られた表示用画像データとなる。また、ユーザのインタラクティブ操作に基づいたインタラクティブ処理が行われるときは、画像処理部２６５から出力される表示用画像データは、画像デコード部２６２で得られた表示用画像データが適応的に修正・変更されたものとなる。

　以上説明したように、図１に示す送受信システム１０においては、符号化画像データを持つビデオストリームと共に画像データに基づいて検出されたオブジェクトの情報が送信される。そのため、受信側では、画像データを処理してオブジェクトを検出することを要せず、自身の性能に依存せずにオブジェクトの情報を取得でき、オブジェクトの情報に基づいたインタラクティブ処理を良好に行うことができる。

　また、図１に示す送受信システム１０においては、オブジェクトの情報は、ビデオストリーム内に挿入されて送信される。そのため、ビデオストリームとオブジェクトの情報との関連付けが容易となる。

　＜２．変形例＞
　なお、上述実施の形態においては、送信側から受信側に、オブジェクトの情報を送信する例を示した。しかし、受信側において、受信された画像データからオブジェクトの情報を検出し、このオブジェクトの情報に基づいてインタラクティブ処理を行うことも考えられる。

　図１９は、その場合における受信装置２００Ａの構成例を示している。この図１９において、図１２と対応する部分には同一符号を付し、適宜、その詳細説明を省略する。この受信装置２００Ａは、ＣＰＵ２０１と、ユーザ操作部２０２と、受信部２０３と、ＴＳ解析部２０４と、圧縮データバッファ（ｃｐｂ）２０５と、デコーダ２０６Ａと、表示部２０７を有している。

　デコーダ２０６Ａは、圧縮データバッファ２０５に蓄積されている各ピクチャの符号化画像データを、それぞれ、そのピクチャのＤＴＳ（Decoding Time stamp）で与えられるデコードタイミングで読み出してデコードして表示用画像データを得る。また、デコーダ２０６は、当該表示用画像データに基づいてオブジェクトの情報を検出する。そして、デコーダ２０６Ａは、ユーザ操作に応じてオブジェクトの情報に基づいたインタラクティブ処理を行って表示用画像データを適応的に修正、変更して、表示部２０７に送る。

　デコーダ２０６Ａは、ＮＡＬアンパケット化部２６１と、画像デコード部２６２と、オブジェクト認識処理部２６６と、画像処理部（ブラウザ部）２６５を有している。ＮＡＬアンパケット化部２６１では、各ピクチャの符号化画像データを構成する所定数のＮＡＬユニットからスライスデータ、パラメータセット、ＳＥＩなどが取り出されてそれぞれ必要な箇所に送られる。

　ここで、ＮＡＬアンパケット化部２６１では、従来周知のスライスのＮＡＬユニットからピクチャの符号化画像データが取り出されて画像デコード部２６２に送られる。画像デコード部２６２では、ＮＡＬアンパケット化部２６１からピクチャ毎に送られてくる符号化画像データがデコードされて、表示用画像データが得られる。

　オブジェクト認識処理部２６６では、上述の図２に示す送信装置１００のエンコーダ１０３におけるオブジェクト認識処理部２６６と同様に、画像デコード部２６２で得られた表示用画像データに対して従来周知のセグメンテーション処理が施されてオブジェクトが検出され、オブジェクトの情報（オブジェクトの形状を示す情報、オブジェクトを囲む矩形領域であるリージョンの情報、リージョンの表示優先情報など）が得られる。

　画像処理部２６５では、画像デコード部２６２で得られた表示用画像データ、オブジェクト認識処理部２６６で得られた各オブジェクトの情報に基づいて、画像処理が行われ、表示用画像データが出力される。この場合、通常時は、画像処理部２６５から出力される表示用画像データは、画像デコード部２６２で得られた表示用画像データとなる。また、ユーザのインタラクティブ操作に基づいたインタラクティブ処理が行われるときは、画像処理部２６５から出力される表示用画像データは、画像デコード部２６２で得られた表示用画像データが適応的に修正・変更されたものとなる。

　また、上述実施の形態においては、送信装置１００と受信装置２００からなる送受信システム１０を示したが、本技術を適用し得る送受信システムの構成は、これに限定されるものではない。例えば、受信装置２００の部分が、（ＨＤＭＩ（High-Definition Multimedia Interface）などのデジタルインタフェースで接続されたセットトップボックスおよびモニタの構成などであってもよい。なお、「ＨＤＭＩ」は、登録商標である。

　また、上述実施の形態においては、コンテナがトランスポートストリーム（ＭＰＥＧ－２　ＴＳ）である例を示した。しかし、本技術は、インターネット等のネットワークを利用して受信端末に配信される構成のシステムにも同様に適用できる。インターネットの配信では、ＭＰ４やそれ以外のフォーマットのコンテナで配信されることが多い。つまり、コンテナとしては、デジタル放送規格で採用されているトランスポートストリーム（ＭＰＥＧ－２　ＴＳ）、インターネット配信で使用されているＭＰ４などの種々のフォーマットのコンテナが該当する。

　また、本技術は、以下のような構成を取ることもできる。
　（１）画像データを符号化して符号化画像データを持つビデオストリームを得る画像エンコード部と、
　上記ビデオストリームを上記画像データに基づいて検出されたオブジェクトの情報が付加された状態で送信する送信部を備える
　送信装置。
　（２）上記オブジェクトの情報には、上記オブジェクトの形状を示す１ビットデータを符号化して得られた符号化データが含まれる
　前記（１）に記載の送信装置。
　（３）上記オブジェクト情報には、上記オブジェクトを囲む矩形領域であるリージョンの情報が含まれる
　前記（１）または（２）に記載の送信装置。
　（４）上記オブジェクト情報には、上記リージョンの表示優先情報がさらに含まれる
　前記（３）に記載の送信装置。
　（５）上記オブジェクト情報には、上記オブジェクトを説明するテキスト情報が含まれる
　前記（１）から（４）のいずれかに記載の送信装置。
　（６）上記オブジェクトの情報は、上記ビデオストリーム内に挿入されて送信される
　前記（１）から（５）のいずれかに記載の送信装置。
　（７）上記オブジェクト情報には、少なくとも、上記オブジェクトの形状を示す１ビットデータを符号化して得られた符号化データと上記オブジェクトを囲む矩形領域であるリージョンの情報が含まれ、
　上記符号化データは上記ビデオストリーム内の第１の領域に挿入され、上記リージョンの情報は上記ビデオストリーム内の上記第１の領域とは異なる第２の領域に挿入される
　前記（６）に記載の送信装置。
　（８）画像エンコード部が、画像データを符号化して符号化画像データを持つビデオストリームを得る画像エンコードステップと、
　送信部が、上記ビデオストリームを上記画像データに基づいて検出されたオブジェクトの情報が付加された状態で送信する送信ステップを有する
　送信方法。
　（９）画像データを符号化して得られた符号化画像データを持つビデオストリームを受信する受信部を備え、
　上記ビデオストリームには、上記画像データに基づいて検出されたオブジェクトの情報が付加されており、
　上記オブジェクトの情報に基づいて行われるインタラクティブ処理を制御する制御部をさらに備える
　受信装置。
　（１０）上記インタラクティブ処理は、上記オブジェクトの情報に基づいて選択された所定のオブジェクトをハイライト表示する処理である
　前記（９）に記載の受信装置。
　（１１）上記インタラクティブ処理は、上記オブジェクトの情報に基づいて選択された所定のオブジェクトの画像を解析して所定の情報を取得する処理である
　前記（９）または（１０）に記載の受信装置。
　（１２）上記インタラクティブ処理は、上記オブジェクト情報に基づいて選択された所定のオブジェクトに係る情報を表示する処理である
　前記（９）から（１１）のいずれかに記載の受信装置。
　（１３）受信部が、画像データを符号化して得られた符号化画像データを持つビデオストリームを受信する受信ステップを有し、
　上記ビデオストリームには、上記画像データに基づいて検出されたオブジェクトの情報が付加されており、
　制御部が、上記オブジェクトの情報に基づいて行われるインタラクティブ処理を制御する制御ステップをさらに有する
　受信方法。
　（１４）画像データを符号化して得られた符号化画像データを持つビデオストリームを受信する受信部と、
　上記符号化画像データを復号化して得られた画像データに基づいてオブジェクトの情報を検出する処理と、該オブジェクトの情報に基づいて行われるインタラクティブ処理を制御する制御部を備える
　受信装置。
　（１５）受信部が、画像データを符号化して得られた符号化画像データを持つビデオストリームを受信する受信ステップと、
　制御部が、上記符号化画像データを復号化して得られた画像データに基づいてオブジェクトの情報を検出する処理と、該オブジェクトの情報に基づいて行われるインタラクティブ処理を制御する制御ステップを有する
　受信方法。

　本技術の主な特徴は、画像データを符号化して得られた符号化画像データを持つビデオストリームと共に画像データに基づいて検出されたオブジェクトの情報を送信することで、受信側では、画像データを処理してオブジェクトを検出することを要せず、自身の性能に依存せずにオブジェクトの情報を取得でき、オブジェクトの情報に基づいたインタラクティブ処理を良好に行い得るようにしたことである（図２参照）。

　１０・・・送受信システム
　１００・・・送信装置
　１０１・・・ＣＰＵ
　１０２・・・ユーザ操作部
　１０３・・・エンコーダ
　１０４・・・圧縮データバッファ
　１０５・・・ＴＳフォーマッタ
　１０６・・・送信部
　１３１・・・画像エンコード部
　１３２・・・オブジェクト認識処理部
　１３３・・・リージョンエンコード部
　１３４・・・パラメータセット／ＳＥＩエンコード部
　１３５・・・ＮＡＬパケット化部
　１４１・・・減算回路
　１４２・・・動き予測/動き補償回路
　１４３・・・整数変換/量子化回路
　１４４・・・逆量子化/逆整数変換回路
　１４５・・・加算回路
　１４６・・・ループフィルタ
　１４７・・・メモリ
　１４８・・・エントロピー符号化回路
　２００・・・受信装置
　２０１・・・ＣＰＵ
　２０２・・・ユーザ操作部
　２０３・・・受信部
　２０４・・・ＴＳ解析部
　２０５・・・圧縮データバッファ
　２０６・・・デコーダ
　２０７・・・表示部
　２６１・・・ＮＡＬアンパケット化部
　２６２・・・画像デコード部
　２６３・・・リージョンデコード部
　２６４・・・セマンティック・リージョン・ＳＥＩ解析部
　２６５・・・画像処理部
　２７１・・・エントロピー復号化回路
　２７２・・・逆量子化/逆整数変換回路
　２７３・・・動き補償回路
　２７４・・・加算回路
　２７５・・・ループフィルタ
　２７６・・・メモリ

Claims

　画像データを符号化して符号化画像データを持つビデオストリームを得る画像エンコード部と、
　上記ビデオストリームを上記画像データに基づいて検出されたオブジェクトの情報が付加された状態で送信する送信部を備える
　送信装置。
　上記オブジェクトの情報には、上記オブジェクトの形状を示す１ビットデータを符号化して得られた符号化データが含まれる
　請求項１に記載の送信装置。
　上記オブジェクト情報には、上記オブジェクトを囲む矩形領域であるリージョンの情報が含まれる
　請求項１に記載の送信装置。
　上記オブジェクト情報には、上記リージョンの表示優先情報がさらに含まれる
　請求項３に記載の送信装置。
　上記オブジェクト情報には、上記オブジェクトを説明するテキスト情報が含まれる
　請求項１に記載の送信装置。
　上記オブジェクトの情報は、上記ビデオストリーム内に挿入されて送信される
　請求項１に記載の送信装置。
　上記オブジェクト情報には、少なくとも、上記オブジェクトの形状を示す１ビットデータを符号化して得られた符号化データと上記オブジェクトを囲む矩形領域であるリージョンの情報が含まれ、
　上記符号化データは上記ビデオストリーム内の第１の領域に挿入され、上記リージョンの情報は上記ビデオストリーム内の上記第１の領域とは異なる第２の領域に挿入される
　請求項６に記載の送信装置。
　画像エンコード部が、画像データを符号化して符号化画像データを持つビデオストリームを得る画像エンコードステップと、
　送信部が、上記ビデオストリームを上記画像データに基づいて検出されたオブジェクトの情報が付加された状態で送信する送信ステップを有する
　送信方法。
　画像データを符号化して得られた符号化画像データを持つビデオストリームを受信する受信部を備え、
　上記ビデオストリームには、上記画像データに基づいて検出されたオブジェクトの情報が付加されており、
　上記オブジェクトの情報に基づいて行われるインタラクティブ処理を制御する制御部をさらに備える
　受信装置。
　上記インタラクティブ処理は、上記オブジェクトの情報に基づいて選択された所定のオブジェクトをハイライト表示する処理である
　請求項９に記載の受信装置。
　上記インタラクティブ処理は、上記オブジェクトの情報に基づいて選択された所定のオブジェクトの画像を解析して所定の情報を取得する処理である
　請求項９に記載の受信装置。
　上記インタラクティブ処理は、上記オブジェクト情報に基づいて選択された所定のオブジェクトに係る情報を表示する処理である
　請求項９に記載の受信装置。
　受信部が、画像データを符号化して得られた符号化画像データを持つビデオストリームを受信する受信ステップを有し、
　上記ビデオストリームには、上記画像データに基づいて検出されたオブジェクトの情報が付加されており、
　制御部が、上記オブジェクトの情報に基づいて行われるインタラクティブ処理を制御する制御ステップをさらに有する
　受信方法。
　画像データを符号化して得られた符号化画像データを持つビデオストリームを受信する受信部と、
　上記符号化画像データを復号化して得られた画像データに基づいてオブジェクトの情報を検出する処理と、該オブジェクトの情報に基づいて行われるインタラクティブ処理を制御する制御部を備える
　受信装置。
　受信部が、画像データを符号化して得られた符号化画像データを持つビデオストリームを受信する受信ステップと、
　制御部が、上記符号化画像データを復号化して得られた画像データに基づいてオブジェクトの情報を検出する処理と、該オブジェクトの情報に基づいて行われるインタラクティブ処理を制御する制御ステップを有する
　受信方法。