JPWO2019188485A1

JPWO2019188485A1 - 情報処理装置、情報処理装置およびプログラム

Info

Publication number: JPWO2019188485A1
Application number: JP2020510690A
Authority: JP
Inventors: 山岸　靖明; 靖明山岸; 由佳木山
Original assignee: Sony Corp
Current assignee: Sony Corp
Priority date: 2018-03-26
Filing date: 2019-03-18
Publication date: 2021-04-08
Anticipated expiration: 2039-03-18
Also published as: JP2023082098A; US11765442B2; CN116248937A; KR20200135324A; US20220329919A1; JP7438486B2; US11405698B2; EP3780638A4; EP3780638A1; CN111869225B; CN111869225A; JP7256173B2; WO2019188485A1; US20230336842A1; US20200413155A1

Abstract

この情報処理装置は、ユーザからの音声による要求を処理するサービスを利用可能なサービス対象物を含む映像データを取得して再生するメディア再生部と、前記再生した映像に前記サービス対象物を前記ユーザに教示するための付加画像を付加し、前記ユーザにより任意に選択された前記付加画像付きのシーンに対するブックマークとして、前記映像データの識別情報および前記付加画像の開始時刻および終了時刻の情報を保存する制御部を具備する。

Description

本技術は、映像を含む動画コンテンツを受信し、再生するための情報処理を行う情報処理装置、情報処理装置およびプログラムに関し、特にその動画コンテンツが情報処理装置のユーザに対して音声ベースによる情報サービスと連携するものである場合などに好適な情報処理装置、情報処理方法およびプログラムに関する。

近年、音声ＡＩアシスタントサービスが普及している。これは、情報処理装置のユーザが発した音声による要求を、サービスに対応する端末がマイクなどによって収音し、認識してデータを解析し、ユーザの要求に応じたサービスを実行して、その実行の結果をユーザに音声などで応答する情報サービスである（たとえば、特許文献１参照）。現在では、クラウドベースによる音声ＡＩアシスタンスサービスとして、ＡｍａｚｏｎＥｃｈｏ（登録商標）のＡｌｅｘａ（登録商標）が知られている。

特開２０１５−０２２３１０号公報

上記のような音声ＡＩアシスタントサービスを、映像を含む動画コンテンツを再生する環境において、その映像に登場する人物や物品に関する情報を収集するための手段として利用する仕組みが本発明者らによって検討されている。例えば、動画コンテンツ中に登場する人物の役柄や、他の登場人物との関係、さらにはその人物を演じる俳優のプロフィールといった様々な事柄を視聴者であるユーザがその場で知りたい場合に、音声ＡＩアシスタントサービスからリアルタイムに情報の提供を受けることができる。

しかしながら、音声ＡＩアシスタントサービスを、映像を含む動画コンテンツを再生する環境においてその映像に登場する人物や物品に関する情報を収集するための手段として実際に利用するとなると、音声ＡＩアシスタントサービスの特性を活かした好適な使い方が未だ十分確立されていないなど、解決すべき課題は山積されている。

そこで本技術は、再生映像を鑑賞する際に、音声ＡＩアシスタントサービスをその特性を活かして利用することのできる情報処理装置、情報処理装置およびプログラムを提供することを目的とするものである。

上記の課題を解決するために、本技術に係る情報処理装置は、ユーザからの音声による要求を処理するサービスを利用可能なサービス対象物を含む映像データを取得して再生するメディア再生部と、前記再生した映像に前記サービス対象物を前記ユーザに教示するための付加画像を付加し、前記ユーザにより任意に選択された前記付加画像付きのシーンに対するブックマークとして、前記映像データの識別情報および前記付加画像の開始時刻および終了時刻の情報を保存する制御部とを具備する。

前記制御部は、前記ユーザからの任意の前記ブックマークの選択を受け付け、選択された前記ブックマークに対応する前記映像データの識別情報および前記付加画像の開始時刻および終了時刻の情報に基づき前記付加画像付きの映像データを再生するものであってよい。

前記制御部は、前記付加情報を生成するために前記映像データの識別情報および前記付加画像の開始時刻および終了時刻の情報を含むメタデータを取得し、前記取得したメタデータに基づき前記付加情報を付加するものであってよい。

前記メタデータが、前記ユーザからの発話によって特定される前記サービスの機能を示す機能名を含むサービスバックエンド制御情報を含み、前記制御部は、ユーザにより選択された前記ブックマークに対応する前記メタデータに含まれる前記サービスバックエンド制御情報の前記機能名を前記ユーザに提示するものであってよい。

前記メタデータは、１つの機能名で時間帯毎に異なる機能を要求するための情報を含み、前記制御部は、前記情報に基づき、前記サービスの機能を切り替えるサーバに前記要求を送信するものであってよい。

前記制御部は、前記サービス対象物毎に前記サービスの利用に対して制限をかけるように構成されたものであってよい。

前記制限は、課金による制限、あるいは、前記付加画像のメタデータのコミュニティサービス上のシェアの可否に関する制限であってよい。

前記付加画像は、上記サービス対象物が上記サービスにおいて音声認識によって一意に判別され得るように、前記サービス対象物毎にユニークな視覚的特徴を有するものであってよい。あるいは、前記付加画像は、上記サービス対象物に付随した位置に提示されるものとしてよい。

さらに、前記制御部は、前記メタデータのＡｄａｐｔａｔｉｏｎＳｅｔを含むＭＰＤファイルを取得し、このＭＰＤファイルを解析して、前記映像データおよび前記メタデータをそれぞれＭＰＥＧ−ＤＡＳＨのＭｅｄｉａＳｅｇｍｅｎｔとして取得し、前記映像データと、前記メタデータに基づく前記付加画像とを互いに同期させて提示するように構成されてよい。

本技術に係る別の側面である情報処理方法は、ユーザからの音声による要求を処理するサービスを利用可能なサービス対象物を含む映像データを取得して再生し、前記再生した映像に前記サービス対象物を前記ユーザに教示するための付加画像を付加し、前記ユーザにより任意に選択された前記付加画像付きのシーンに対するブックマークとして、前記映像データの識別情報および前記付加画像の開始時刻および終了時刻の情報を保存する手順を含むものである。

本技術に係るさらに別の側面であるプログラムは、ユーザからの音声による要求を処理するサービスを利用可能なサービス対象物を含む映像データを取得して再生するメディア再生部と、前記再生した映像に前記サービス対象物を前記ユーザに教示するための付加画像を付加し、前記ユーザにより任意に選択された前記付加画像付きのシーンに対するブックマークとして、前記映像データの識別情報および前記付加画像の開始時刻および終了時刻の情報を保存する制御部としてコンピュータを機能させるプログラムである。

以上のように、本技術によれば、再生映像を鑑賞する際に、音声ＡＩアシスタントサービスをその特性を活かして利用することができる。

図１は本技術に係る第１の実施形態の情報処理装置４を含む情報処理システム１００の全体構成を示すブロック図である。図１の情報処理システム１００における全体的動作の流れ（その１）を示すシーケンス図である。図１の情報処理システム１００における全体的動作の流れ（その２）を示すシーケンス図である。図１の情報処理システム１００における全体的動作の流れ（その３）を示すシーケンス図である。付加画像が重畳された映像の例を示す図である。ＰＯＩメタデータの構成を示すブロック図である。付加画像が重畳された映像の別の例を示す図である。付加画像の提示制限を示す図である。図１の情報処理システム１００における、付加画像の提示制限を含む全体的動作の流れ（その３）を示すシーケンス図である。ＰＯＩメタデータに基づくトリックプレイ再生について説明する図である。ＰＯＩメタデータを処理するアプリケーション実行環境４３の例を示す図である。ＰＯＩメタデータを処理するアプリケーション実行環境４３の他の例を示す図である。ウェブアプリケーションとＰＯＩメタデータをパッケージングするＭｕｌｔｉ−ｐａｒｔＭＩＭＥフォーマットの例を示す図であるＭＰ４ファイルのフォーマットにおけるＭｅｄｉａＳｅｇｍｅｎｔの構成を示す図である。ＭＰＥＧ−ＤＡＳＨのＭＰＤのデータ構造を示す図である。ＭＰＥＧ−ＤＡＳＨサーバ１５と情報処理装置４との間でのネットワーク通信によるやりとりを示す図である。ＭＰＥＧ−ＤＡＳＨ動画コンテンツの提示制御の流れを示す図である。ＰＯＩメタデータのＡｄａｐｔａｔｉｏｎＳｅｔが追加されたＭＰＤの構成を示す図である。ＰＯＩメタデータのＡｄａｐｔａｔｉｏｎＳｅｔが追加されたＭＰＤのより具体的な例を示す図である。ＭＰＤに基づく映像および付加画像の提示の流れを示す図である。サービス対象物の移動に伴って付加画像の提示位置を移動させる場合のＰＯＩメタデータを示す図である。ＰＯＩメタデータの複数サンプル時間をまたがる提示更新制御を説明する図である。ＯＤＲＬによるＰＯＩ利用制限情報の記述例を示す図である。音声アシスタントサービスを利用するための課金制限の動作を示すシーケンス図である。本実施形態の情報処理システム１００においてブックマークを用いたタイムシフト再生に係る構成を示すブロック図である。ブックマークを用いたタイムシフト再生の流れを示すシーケンス図である。図２６Ａに続く、ブックマークを用いたタイムシフト再生の流れを示すシーケンス図である。あるブックマークに紐付けられたＰＯＩメタデータの例を示す図である。異なる音声ＡＩアシスタントサービスプログラムが割り当てられた２つの時間帯のシーンにそれぞれ紐付けられたＰＯＩメタデータにおけるContextID属性の値の変化を示す図である。ＯＤＲＬによるシェア可否制御情報の記述例を示す図である。シーンキャプチャの作成方法を示す図である。

以下、本技術に係る実施形態を説明する。

＜本実施形態の情報処理装置の要旨＞
本実施形態の情報処理装置４は、ユーザからの音声による要求を処理するサービスを利用可能なサービス対象物を含む映像データを取得して再生するＡＶデコーダ４１と、再生した映像にサービス対象物をユーザに教示するための付加画像を付加し、ユーザにより任意に選択された付加画像付きのシーンに対するブックマークとして、映像データの識別情報および付加画像の開始時刻および終了時刻の情報を保存するアプリケーション実行環境４３、ブックマークブラウザ５１およびブックマークデータベース５０を有する。

これにより、視聴中の動画コンテンツの音声アシスタントサービスを利用可能な区間のなかで、ユーザが任意の付加画像付きシーンに対してブックマークを登録し、以後の任意のタイミングでユーザにより選択されたブックマークに基づいて付加画像付きシーンを再生することができる。

（システム全体構成）
図１は本技術に係る第１の実施形態の情報処理装置４を含む情報処理システム１００の全体構成を示すブロック図である。なお、同図は本実施形態の情報処理装置４を含む情報処理システム１００において映像データに合成する付加画像を生成する部分の構成を示している。
同図に示すように、この情報処理システム１００は、サーバ群１、放送／ネット配信システム２、音声ＡＩアシスタントサービス端末３、およびユーザの情報処理装置４を含む。

（サーバ群１について）
サーバ群１は、動画コンテンツサーバ１１、アプリケーションサーバ１２、ＰＯＩメタデータサーバ１３、および音声ＡＩアシスタントサービスプログラムサーバ１４を含む。

動画コンテンツサーバ１１は、ＣＭや番組などの動画コンテンツのデータを蓄積する。動画コンテンツのデータは、映像、音声、字幕などの複数の種類のメディアデータで構成されるマルチメディアデータであってよい。本技術は、特に映像データに適用し得るものであり、音声、字幕などの他のメディアデータの有無は問わない。

ＰＯＩメタデータサーバ１３は、動画コンテンツに対応するＰＯＩメタデータを放送／ネット配信システム２を通じて情報処理装置４にダイレクトに配信する。あるいは、動画コンテンツサーバ１１において、少なくとも動画コンテンツのデータとＰＯＩメタデータを所定のデータ構造にまとめて情報処理装置４に配信する場合には、ＰＯＩメタデータサーバ１３はＰＯＩメタデータを放送／ネット配信システム２を通じて動画コンテンツサーバ１１に供給する。ＰＯＩメタデータについては後で説明する。

アプリケーションサーバ１２は、情報処理装置４においてＰＯＩメタデータに基づく処理を実行するためのアプリケーションを放送／ネット配信システム２を通じて情報処理装置４にダイレクトに配信する。あるいは、動画コンテンツサーバ１１において動画コンテンツのデータ、ＰＯＩメタデータおよびアプリケーションを所定のデータ構造にまとめて情報処理装置４に配信する場合には、アプリケーションサーバ１２はアプリケーションを放送／ネット配信システム２を通じて動画コンテンツサーバ１１に供給する。

音声ＡＩアシスタントサービスプログラムサーバ１４は、放送／ネット配信システム２を通じて音声ＡＩアシスタントサービス端末３に音声ＡＩアシスタントサービスプログラムを供給する。音声ＡＩアシスタントサービスプログラムは、動画コンテンツに登場する特定の人物や物品などのサービス対象物について動画コンテンツの視聴者であるユーザＵから与えられたサービス要求に対するサービス実行結果を生成するように構成されたプログラムである。

放送／ネット配信システム２は、動画コンテンツのデータ、あるいは動画コンテンツのデータとＰＯＩメタデータをまとめたデータ構造、あるいは動画コンテンツのデータとＰＯＩメタデータとアプリケーションをまとめたデータ構造を、放送あるいはネットワーク通信によって情報処理装置４に配信するシステムである。また、放送／ネット配信システム２は、動画コンテンツサーバ１１、アプリケーションサーバ１２、ＰＯＩメタデータサーバ１３の間でのデータ転送、さらには音声ＡＩアシスタントサービスプログラムサーバ１４と音声ＡＩアシスタントサービス端末３との間のデータ転送にも用いられる。

（情報処理装置４について）
情報処理装置４は、ハードウェア要素として、ＣＰＵ（ＣｅｎｔｒａｌＰｒｏｃｅｓｓｉｎｇＵｎｉｔ）と、ＲＡＭ（ＲａｎｄｏｍＡｃｃｅｓｓＭｅｍｏｒｙ）などのメインメモリと、ＨＤＤ（ＨａｒｄＤｉｓｋＤｒｉｖｅ）、ＳＳＤ（ＳｏｌｉｄＳｔａｔｅＤｒｉｖｅ）などのストレージデバイスと、ユーザインタフェースと、アンテナおよび放送チューナなどの放送受信部と、ネットワークインタフェースなどの通信インタフェースとを備える。情報処理装置４は、具体的には、パーソナルコンピュータ、スマートホン、タブレット端末、テレビジョン、ゲーム機、ＨＭＤ（ＨｅａｄＭｏｕｎｔｅｄＤｉｓｐｌａｙ）などのユーザ装着可能形の情報端末などであってよい。

情報処理装置４は、上記のハードウェア要素とソフトウェア要素によって実現される機能的要素として、ＡＶストリーム取得部４１、ＰＯＩメタデータ処理モジュール４２、アプリケーション実行環境４３、レンダラ４４を有する。

情報処理装置４は、ユーザインタフェースとして、ディスプレイ４５とスピーカ４６を備える。さらに、情報処理装置４は、機能的な要素としてユーザ判別モジュール４７を備えたものであってよい。

ＡＶストリーム取得部４１は、放送／ネット配信システム２を通じて動画コンテンツサーバ１１より動画コンテンツのマルチメディアデータ（映像データおよび音声データなど）を取得し、復号する。

ＰＯＩメタデータ処理モジュール４２は、放送／ネット配信システム２を通じて動画コンテンツサーバ１１あるいはＰＯＩメタデータサーバ１３より取得したＰＯＩメタデータをアプリケーション実行環境４３に供給する。

「ＰＯＩメタデータ」とは、情報処理装置４において再生中の映像に、当該映像中で音声ＡＩアシスタントサービスが割り当てられた特定のサービス対象物を、情報処理装置４のユーザＵに教示する追加画像を追加するためのメタデータである。ＰＯＩはＰｏｉｎｔｏｆＩｎｔｅｒｅｓｔの略である。「特定のサービス対象物」は、映像において音声ＡＩアシスタントサービスがユーザＵからのサービス要求に対して応答することが可能とされた登場人物や物品などのことである。

アプリケーション実行環境４３は、ネイティブアプリケーションまたはウェブアプリケーションをＣＰＵおよびメインメモリを用いて実行する環境である。アプリケーション実行環境４３は、ＰＯＩメタデータ処理モジュール４２より与えられたＰＯＩメタデータに基づいて、映像中のサービス対象物に付加すべき追加画像を生成する。「追加画像」は例えば、映像中のサービス対象物との関係が分かりやすいように、例えば「吹き出し」として生成される。しかし、本技術はこれに限定されず、映像中のサービス対象物との関係が分かりやすい画像であればよい。

レンダラ４４は、ＡＶストリーム取得部４１により復号された映像データからディスプレイ４５に出力する表示信号を生成したり、ＡＶストリーム取得部４１により復号された音声データをスピーカ４６に出力する。また、レンダラ４４は、アプリケーション実行環境４３より追加画像が供給された場合にはこの追加画像を番組映像の上に合成する。

ディスプレイ４５はユーザＵに映像を提示する。スピーカ４６はユーザＵに音声を提示する。

（音声ＡＩアシスタントサービス端末３について）
音声ＡＩアシスタントサービス端末３は、情報処理装置４のユーザＵに対し、音声によるアシスタントサービスを提供する端末である。音声ＡＩアシスタントサービス端末３は、より具体的には、映像中でユーザＵより任意のサービス対象物についての音声によるサービス要求を受け付け、そのサービスを実行し、サービスの実行結果をユーザＵに音声などで返すことのできる装置である。ここで、ユーザＵからの音声によるサービス要求は例えば質問形式などの言葉により与えられ、サービスの実行結果は例えば回答形式などの合成音声によってユーザＵに返される。

音声ＡＩアシスタントサービス端末３は、アシスタントサービス用のマイク３１と、音声認識モジュール３２と、音声ＡＩアシスタントサービス用のスピーカ３３と、音声生成モジュール３４と、音声ＡＩアシスタントサービスプログラム実行環境３５を備える。

アシスタントサービス用のマイク３１は、情報処理装置４のユーザＵからの音声によるサービス要求を取り込む。

音声認識モジュール３２は、アシスタントサービス用のマイク３１により取り込んだサービス要求の音声を認識して要求データを音声ＡＩアシスタントサービスプログラム実行環境３５にわたす。

音声ＡＩアシスタントサービスプログラム実行環境３５は、音声ＡＩアシスタントサービスプログラムサーバ１４より取得した音声ＡＩアシスタントサービスプログラムを実行する環境である。音声ＡＩアシスタントサービスプログラム実行環境３５は、音声認識モジュール３２より供給された要求データに対するサービスの実行結果のデータを生成し、音声生成モジュール３４に供給する。

音声生成モジュール３４は、音声ＡＩアシスタントサービスプログラム実行環境３５より供給されたサービス実行結果のデータを合成音声に変換する。

アシスタントサービス用のスピーカ３３は、音声生成モジュール３４より供給された合成音声を情報処理装置４のユーザＵに提示する。

（情報処理システムの全体的動作の流れ（その１））
図２は、本実施形態の情報処理システム１００における全体的動作の流れ（その１）を示すシーケンス図である。
前提として、動画コンテンツのデータ、アプリケーションおよびＰＯＩメタデータがそれぞれ別々のサーバ（動画コンテンツサーバ１１、アプリケーションサーバ１２、ＰＯＩメタデータサーバ１３）から配信される場合を想定している。

まず、アプリケーションサーバ１２から情報処理装置４に放送／ネット配信システム２を通じてアプリケーションが配信される（ステップＳ１０１）。さらに動画コンテンツサーバ１１から情報処理装置４に動画コンテンツのデータが放送／ネット配信システム２を通じて配信される（ステップＳ１０２）。情報処理装置４において、受信した動画コンテンツのデータはＡＶストリーム取得部４１にて復号され、この結果得られた映像データおよび音声データがレンダラ４４を通じてディスプレイ４５及びスピーカ４６にそれぞれ供給される（ステップＳ１０３）。

また、アプリケーションサーバ１２から情報処理装置４に配信されたアプリケーションはアプリケーション実行環境４３に導入され、アプリケーションが実行される（ステップＳ１０４）。

次に、ＰＯＩメタデータサーバ１３から情報処理装置４に放送／ネット配信システム２を通じて動画コンテンツに対応するＰＯＩメタデータが配信される（ステップＳ１０５）。情報処理装置４において、ＰＯＩメタデータはＰＯＩメタデータ処理モジュール４２によってアプリケーション実行環境４３に供給される。アプリケーション実行環境４３は、ＰＯＩメタデータに基づいて、映像中のサービス対象物をユーザＵに教示する付加画像を生成し、レンダラ４４に供給する。これにより、番組の映像の上に付加画像が重畳された合成像が得られ、ディスプレイ４５に表示される（ステップＳ１０６）。

その後、ユーザＵは、ディスプレイ４５に表示された映像中で付加画像が提示されたサービス対象物についての音声によるサービス要求を音声ＡＩアシスタントサービス端末３に与えて、音声ＡＩアシスタントサービスを利用する（ステップＳ１０７）。

（情報処理システムの全体的動作の流れ（その２））
図３は本実施形態の情報処理システム１００における全体的動作の流れ（その２）を示すシーケンス図である。
前述の動作の流れ（その１）では、動画コンテンツのデータとＰＯＩメタデータがそれぞれ別々のサーバ（動画コンテンツサーバ１１、ＰＯＩメタデータサーバ１３）から情報処理装置４に配信されるため、情報処理装置４において動画コンテンツデータとＰＯＩメタデータとの同期が保証されない。

そこで、図３に示す動作の流れ（その２）では、まず、ＰＯＩメタデータサーバ１３から動画コンテンツサーバ１１に放送／ネット配信システム２を通じてＰＯＩメタデータが供給され（ステップＳ２０１）、アプリケーションサーバ１２から情報処理装置４に放送／ネット配信システム２を通じてアプリケーションが配信される（ステップＳ２０２）。そして動画コンテンツサーバ１１にて、ＰＯＩメタデータと動画コンテンツのデータとが所定のデータ構造にまとめられて情報処理装置４に放送／ネット配信システム２を通じて配信される（ステップＳ２０３）。

情報処理装置４では、ＡＶストリーム取得部４１にて受信したデータ構造から動画コンテンツのデータが抽出され、抽出された動画コンテンツのデータはＡＶストリーム取得部４１内のデコーダによって復号され、この結果得られた映像データおよび音声データがレンダラ４４を通じてディスプレイ４５およびスピーカ４６にそれぞれ供給される（ステップＳ２０４）。

また、情報処理装置４では、受信したデータ構造からＰＯＩメタデータ処理モジュール４２によってＰＯＩメタデータが抽出され（ステップＳ２０５）、アプリケーション実行環境４３に供給される。アプリケーション実行環境４３は、ＰＯＩメタデータに基づいて、映像中のサービス対象物をユーザＵに教示する付加画像を生成し、レンダラ４４に供給する。これにより、番組の映像の上に付加画像が重畳された合成像が得られ、ディスプレイ４５に表示される（ステップＳ２０７）。

その後、ユーザＵは、ディスプレイ４５に表示された映像中で付加画像が提示されたサービス対象物についての音声によるサービス要求を音声ＡＩアシスタントサービス端末３に与えて、音声ＡＩアシスタントサービスを利用する（ステップＳ２０８）。

このように、ＰＯＩメタデータと動画コンテンツのデータとを所定のデータ構造にまとめて動画コンテンツサーバ１１から情報処理装置４に配信することによって、情報処理装置４において動画コンテンツのデータとＰＯＩメタデータとを互いに同期して処理できることが保証される。このため、番組の映像中のサービス対象物に常に正しい付加画像を付加することができ、安定した音声ＡＩアシスタントサービスを維持することができる。

なお、この動作の流れ（その２）において、アプリケーションは、アプリケーションサーバ１２から情報処理装置４に放送／ネット配信システム２を通じて配信され（ステップＳ２０２）、アプリケーション実行環境４３に導入されてアプリケーションが実行される（ステップＳ２０６）という点は、前述の動作の流れ（その１）と同じである。

（情報処理システムの全体的動作の流れ（その３））
図４は本実施形態の情報処理システム１００における全体的動作の流れ（その３）を示すシーケンス図である。
この動作の流れでは、動画コンテンツサーバ１１から情報処理装置４に、動画コンテンツのデータとＰＯＩメタデータとこれを処理するアプリケーションが所定のデータ構造にまとめて配信される場合を想定している。

まず、ＰＯＩメタデータサーバ１３から動画コンテンツサーバ１１にＰＯＩメタデータが供給される（ステップＳ３０１）。さらに、アプリケーションサーバ１２から動画コンテンツサーバ１１にアプリケーションが供給される（ステップＳ３０２）。ＰＯＩメタデータの供給とアプリケーションの供給の順位は逆であってもよい。続いて、動画コンテンツサーバ１１にて、動画コンテンツのデータとＰＯＩメタデータとアプリケーションとが所定のデータ構造にまとめられて情報処理装置４に放送／ネット配信システム２を通じて配信される（ステップＳ３０３）。

情報処理装置４では、受信したデータ構造から動画コンテンツのデータが抽出され、抽出された動画コンテンツのデータはＡＶストリーム取得部４１にて復号され、この結果得られた映像データおよび音声データがレンダラ４４を通じてディスプレイ４５およびスピーカ４６にそれぞれ供給される（ステップＳ３０４）。

また、情報処理装置４では、受信したデータ構造からアプリケーションが抽出され（ステップＳ３０５）、アプリケーション実行環境４３に導入されてアプリケーションが実行される（ステップＳ３０６）。

さらに、情報処理装置４では、受信したデータ構造からＰＯＩメタデータ処理モジュール４２によってＰＯＩメタデータが抽出され（ステップＳ３０７）、アプリケーション実行環境４３に供給される。アプリケーション実行環境４３は、ＰＯＩメタデータに基づいて、映像中のサービス対象物をユーザＵに教示する付加画像を生成し、レンダラ４４に供給する。これにより、番組の映像の上に付加画像が重畳された合成像が得られ、ディスプレイ４５に表示される（ステップＳ３０８）。

その後、ユーザＵは、ディスプレイ４５に表示された映像中で付加画像が提示されたサービス対象物についての音声によるサービス要求を音声ＡＩアシスタントサービス端末３に与えて、音声ＡＩアシスタントサービスを利用する（ステップＳ３０９）。

（付加画像について）
次に、ＰＯＩメタデータに基づき生成される付加画像について説明する。
図５は付加画像が重畳された映像の例を示す図である。
同図に示すように、付加画像は、例えば、映像中の音声ＡＩアシスタントサービスのサービス対象物Ｊ１、Ｊ２、Ｊ３にそれぞれ付随した吹き出し５１、５２、５３として提示されてよい。

吹き出し５１、５２、５３には、サービス対象物Ｊ１、Ｊ２、Ｊ３をユーザＵが音声で音声ＡＩアシスタントサービス端末３に通知する場合にこのサービス対象物Ｊ１、Ｊ２、Ｊ３が音声ＡＩアシスタントサービス端末３において音声認識によって一意に判別され得るように、サービス対象物Ｊ１、Ｊ２、Ｊ３毎にユニークな視覚的特徴が与えられる。これによりユーザＵは、任意のサービス対象物の特徴を表現する音声を使って、そのサービス対象物についてのサービス要求を音声ＡＩアシスタントサービス端末３に与えることができる。

例えば、図５の例では、吹き出し５１、５２、５３の中に"Ｂｉｌｌ"、"Ｆｒｅｄ"、"Ｌｕｃｙ"といったサービス対象物Ｊ１、Ｊ２、Ｊ３である登場人物の名前の文字列が視覚的特徴として表示される。これによりユーザＵは、例えば、"Ｆｒｅｄの最近のニュースは？"、"Ｂｉｌｌは何歳？"のように、任意のサービス対象物の名前を使って当該サービス対象物についてのサービス要求を音声ＡＩアシスタントサービス端末３に音声で与えることができる。一方、音声ＡＩアシスタントサービス端末３は音声認識モジュール３２によって認識された名前からサービス対象物を特定することができ、特定したサービス対象物について、音声ＡＩアシスタントサービスプログラム実行環境３５の音声ＡＩアシスタントサービスプログラムに従って音声ＡＩアシスタントサービスを実行することができる。

なお、吹き出し５１、５２、５３に配置されるサービス対象物毎にユニークな視覚的特徴には、登場人物の名前の文字列の他、アイコン、吹き出しの色、吹き出しのデザインなど、様々な変形が考えられる。

以上のように、本実施形態では、動画コンテンツの映像中の音声ＡＩアシスタントサービスのサービス対象物に、これがサービス対象物であることをユーザＵに教示する付加画像を生成し、動画コンテンツの映像に重畳して提示するようにしたので、ユーザＵは映像からサービス対象物を一意に判別して、任意のサービス対象物についてのサービス要求を行うことができる。これにより、ユーザＵから音声ＡＩアシスタントサービス端末３にサービス対象物以外の物体に対するサービス要求を与えるといった無駄な操作が回避され、音声ＡＩアシスタントサービスを良好に利用することができる。

また、サービス対象物が音声ＡＩアシスタントサービス端末３での音声認識によって一意に認識され得るように、付加画像にサービス対象物毎にユニークな視覚的特徴が付与されたことによって、ユーザＵは、任意のサービス対象物の特徴を表現する音声を使って、そのサービス対象物についてのサービス要求を音声ＡＩアシスタントサービス端末３に音声で与えることができる。これにより、ユーザＵはサービス対象物をどのように表現して音声ＡＩアシスタントサービスに通知するかを戸惑うことがなくなるとともに、音声ＡＩアシスタントサービス端末３においてサービス対象物が確実に特定されるので、良好な音声ＡＩアシスタントサービスが実現される。

次に、ＰＯＩメタデータの構造について説明する。

（ＰＯＩメタデータの構造）
図６はＰＯＩメタデータの構成を示すブロック図である。
ＰＯＩメタデータは、ＰＯＩアイコンイメージ、ＰＯＩ提示色、ＰＯＩ提示位置、ＰＯＩ提示テキスト、ＰＯＩフィルタリング情報、ＰＯＩ利用制限情報、音声アシスタンスサービスバックエンド制御情報を含む。

ＰＯＩアイコンイメージは、付加画像にサービス対象部の視覚的特徴としてアイコンを提示する場合に用いられるアイコンファイルの実体あるいはアイコンファイルへの参照ＵＲＬ（ＵｎｉｆｏｒｍＲｅｓｏｕｒｃｅＬｏｃａｔｏｒ）である。ＰＯＩアイコンイメージのＸＭＬ（ＥｘｔｅｎｓｉｂｌｅＭａｒｋｕｐＬａｎｇｕａｇｅ）表現を以下に示す。
<POIIcon iconPng='true'>…(base64エンコードされたpngファイル)…</POIIcon>
<POIIcon iconPngURL='true'>http://…(アイコンpngファイルのURL)…</POIIcon>

ＰＯＩ提示色は、付加画像に色による視覚的特徴を与える場合に用いられる。ＰＯＩ提示色の情報には、例えば、ＣＳＳ（ＣａｓｃａｄｉｎｇＳｔｙｌｅＳｈｅｅｔｓ）のカラーコードなどが用いられる。ＰＯＩ提示色のＸＭＬ表現を以下に示す。
<POIColor>...(CSS color code)…</POIColor>

ＰＯＩ提示位置は、付加画像を提示する対象コンテンツのＵＲＩ（ＵｎｉｆｏｒｍＲｅｓｏｕｒｃｅＩｄｅｎｔｉｆｉｅｒ）、ＰＯＩメタデータに基づき付加画像を提示する処理を行うＰＯＩ提示アプリケーションのＵＲＬ、付加画像の提示時間（開始時刻、終了時刻）などの情報を含む。ＰＯＩ提示位置のＸＭＬ表現を以下に示す。
<POITargetContentID URL='http://a.com/番組A.MPD'/>
<POIApplication URL='http://a.com/番組AのためのPOI提示アプリ.html(POI提示アプリのURL)'/>
<POITimePosition start='P0Y0M0DT1H15M2.000S(開始時刻)'end='P0Y0M0DT1H15M2.500S(終了時刻)'/>
<POISPosition x='345(x 座標ピクセル)'y='567(y 座標ピクセル)'/>

ＰＯＩ提示テキストは、付加画像に文字による視覚的特徴を与える場合にために付加画像に提示される文字列である。ＰＯＩ提示テキストのＸＭＬ表現を以下に示す。
<POIText>…(提示文字列)…</POIText>

ＰＯＩフィルタリング情報は、付加画像のユーザあるいはユーザ属性に応じた提示制限を行う場合に用いられる。ＰＯＩフィルタリング情報は、付加画像を提示する対象のユーザＵを特定するための情報であり、ユーザデモグラフィッククラスの識別名と任意のユーザ識別情報を含む。

ユーザデモグラフィッククラスとは、ユーザの性別、年齢、住んでいる地域、職業、学歴、家族構成などの属性をもとにユーザＵを分類するクラスのことであり、ユーザデモグラフィッククラスの識別名によって一意に識別される。ユーザデモグラフィッククラスの識別名のＸＭＬ表現を以下に示す。
<POITargetUser demographicClass='true'>…(ユーザデモグラフィッククラス識別名)…</POITargetUser>

任意のユーザ識別情報は、例えば、放送局関連サービスのアカウント名などのユーザ識別情報である。任意のユーザ識別情報のＸＭＬ表現を以下に示す。
<POITargetUser privateAccount='true'>https://…(サービスのユーザアカウント識別URL等)…</POITargetUser>

なお、ＰＯＩアイコンイメージ、ＰＯＩ提示色およびＰＯＩ提示テキストは、少なくともいずれか１つが定義されればよい。ＰＯＩフィルタリング情報は、後述する付加情報の提示制限を導入する場合に定義される。

ＰＯＩ利用制限情報は、特定のサービス対象物の音声アシスタントサービスによる情報提供に対する利用制限の内容を定義する情報である。ＰＯＩ利用制限情報のＸＭＬ表現を以下に示す。
<POIAccessControl rightsExpressionLanguage='ODRL'><<![CDATA[…(ODRLで表現されたアクセス制御記述）…]]></POIAccessControl>
これはＰＯＩ利用制限情報がODRLで表現された記述であることの宣言であり、アプリケーション実行環境４３はこのＰＯＩ利用制限情報の宣言を確認すると、ＰＯＩ利用制限情報に基づいて特定のサービス対象物の音声アシスタントサービスによる情報提供に対する利用制限があることを、その制限内容とともにユーザに通知するようになっている。なお、ＰＯＩ利用制限情報の内容については後で説明する。

音声アシスタントサービスバックエンド制御情報は、音声アシスタントサービスに音声アシスタントサービスプログラムの単位で切り替えて用いることのできる機能を定義する情報である。なお、ＡｍａｚｏｎＥｃｈｏ（登録商標）のＡｌｅｘａ（登録商標）では、この機能は"Ｓｋｉｌｌ"と呼ばれる。音声アシスタントサービスバックエンド制御情報のＸＭＬ表現を以下に示す。
<POIBackEndControl ServerSideScriptType='機能名' ContextID='(機能コンテクストを対応させるような場合に用いる当該コンテクストスイッチurl)'>…(当該機能名)…</POIBackEndControl>

（付加画像の提示制限について）
上記の実施形態では、動画コンテンツの映像中の音声ＡＩアシスタントサービスのサービス対象物に付加画像を提示することとした。しかしながら、例えば、図７に示すように、一つのシーンに多数のサービス対象物Ｊ１−Ｊ５が存在する場合にはそれらのサービス対象物Ｊ１−Ｊ５の数分の付加画像５１−５５が提示されるため、これらの付加画像５１−５５によって番組の映像の一部が隠れてしまい、番組映像の見た目が損なわれるおそれがある。

そこで、例えば図８に示すように、ユーザＵに応じて付加画像を提示するサービス対象物を制限することが有効である。例えば、ユーザＵにとって興味のあるサービス対象物に対しては付加画像を提示し、そうではないサービス対象物に対しては付加画像を提示しないようにする。これにより、付加画像によって番組の映像の一部が多数の付加画像に隠れて映像全体が汚れてしまうことを最小限に抑えることができる。この機能を「付加画像の提示制限」と呼ぶこととする。

図９は、この付加画像の提示制限を含む動作の流れを示すシーケンス図である。
ここで、ステップＳ４０１−Ｓ４０５の動作は、図２に示した動作の流れ（その１）のステップＳ１０１−Ｓ１０５と同じであるから、説明を省略する。

付加画像の提示制限が行わるために、情報処理装置４のユーザ判別モジュール４７によってユーザＵのユーザデモグラフィッククラスあるいはユーザ識別情報が判別される（ステップＳ４０６）。判別されたユーザＵのユーザデモグラフィッククラスあるいはユーザ識別情報はアプリケーション実行環境４３に通知される（ステップＳ４０７）。

ユーザデモグラフィッククラスとは、ユーザの性別、年齢、住んでいる地域、職業、学歴、家族構成などの様々な属性をもとにユーザを分類するクラスである。例えば、２０歳代男性であれば最近人気の出てきた新人女優に興味がある傾向が高いことが統計的に言える場合には、２０歳代男性のユーザデモグラフィッククラスは、番組において新人女優が演じる登場人物（サービス対象物）についてのＰＯＩメタデータに定義されたユーザデモグラフィッククラスと一致する。

ユーザ判別モジュール４７によるユーザＵのユーザデモグラフィッククラスあるいはユーザ識別情報の判別方法には次のようなものが挙げられる。
１．ユーザ判別モジュール４７は、カメラで撮像したユーザＵの顔画像の解析結果からユーザＵの性別や年齢層などの属性を推定し、推定した属性からユーザデモグラフィッククラスを判別する。
２．ユーザ判別モジュール４７は、音声ＡＩアシスタントサービス端末３からユーザＵへの音声による質問を通して得られた情報を基にユーザＵの属性を推定し、ユーザデモグラフィッククラスを判別する。
３．情報処理装置４を使用する複数のユーザが限定されている場合において、各ユーザのユーザ名に対応付けてユーザデモグラフィッククラスの識別名あるいはユーザ識別情報を予め登録しておくことで、ユーザ判別モジュール４７は、生体認証、カード認証などの認証を通して確認されたユーザ名から対応するユーザデモグラフィッククラスの識別名あるいはユーザ識別情報を判別することができる。

次に、情報処理装置４のアプリケーション実行環境４３は、動画コンテンツの各シーンの映像に対するすべてのＰＯＩメタデータの中から、ユーザ判別モジュール４７によって判別されたユーザデモグラフィッククラスの識別名あるいはユーザ識別情報がＰＯＩフィルタリング情報として定義されたＰＯＩメタデータを抽出し、抽出したＰＯＩメタデータに基づいて映像中のサービス対象物をユーザＵに教示する付加画像を生成し、レンダラ４４に供給する。これにより、番組の映像の上に付加画像が重畳された合成像が得られ、ディスプレイ４５に表示される（ステップＳ４０８）。

その後、ユーザＵは、ディスプレイ４５に表示された映像中で付加画像が提示されたサービス対象物についての音声によるサービス要求を音声ＡＩアシスタントサービス端末３に与えて、音声ＡＩアシスタントサービスを利用する（ステップＳ４０９）。

なお、ここでは、図２に示した情報処理システムの全体的動作の流れ（その１）を前提した付加画像の提示制限を説明したが、全体的動作の流れ（その２）および全体的動作の流れ（その３）において同様である。

次に、図８に戻って説明を続ける。ここで、映像中のサービス対象物Ｊ１のユーザデモグラフィッククラスの識別名は"ｃｌａｓｓ１"とし、その他のサービス対象物Ｊ２−Ｊ５のユーザデモグラフィッククラスの識別名は"ｃｌａｓｓ１"以外であったとする。一方、ユーザ判別モジュール４７によってユーザＵのユーザデモグラフィッククラスが"ｃｌａｓｓ１"と判別されたとする。この場合、サービス対象物Ｊ１に対してだけ付加画像５１が提示されることによって、番組の映像の一部分がユーザＵにとって興味のないサービス対象物Ｊ２−Ｊ５に付加される付加画像５２−５５に隠れて映像全体が汚れることを最小限に抑えることができる。

なお、付加画像の提示制限がユーザ識別情報をフィルタリング条件として行われる場合には、特定のユーザＵだけに特定のサービス対象物に対する付加画像を提示できるように
することができる。

（ユーザＵの視聴履歴に基づくユーザデモグラフィッククラスの設定）
なお、上記の説明では、性別、年齢、住んでいる地域、職業、学歴、家族内属性などの属性からユーザＵのユーザデモグラフィッククラスを判別することとしたが、ユーザ判別モジュール４７にて、ユーザＵの視聴履歴をもとにユーザＵの嗜好的な条件を算出し、この嗜好的な条件をもとに、あるいは、この嗜好的な条件を加味して、ユーザデモグラフィッククラスを判別してもよい。

（ＰＯＩメタデータに基づくトリックプレイ再生）
次に、ＰＯＩメタデータに基づくトリックプレイ再生について説明する。
ＰＯＩメタデータに基づくトリックプレイ再生とは、ユーザＵのユーザデモグラフィッククラスあるいはユーザ識別情報を基に抽出されたＰＯＩメタデータに基づいて付加画像が提示されるシーンについては第１の倍速での再生を行い、その他のシーンについては第１の倍速よりも高速な第２の倍速で再生することを言う。

ここで、第１の倍速は、例えば１倍速（等倍速）あるいは１倍速より低い倍速である。第２の倍速は例えば１倍速よりも高速な早送り再生である。

次に、このＰＯＩメタデータに基づくトリックプレイ再生の動作をより詳しく説明する。
まず、ユーザ判別モジュール４７によってユーザＵのユーザデモグラフィッククラスあるいはユーザ識別情報を判別し、アプリケーション実行環境４３に供給する。

アプリケーション実行環境４３は、番組の各シーンの映像に対するすべてのＰＯＩメタデータの中から、ユーザ判別モジュール４７によって判別されたユーザデモグラフィッククラスの識別名あるいはユーザ識別情報がＰＯＩフィルタリング情報として定義されたＰＯＩメタデータを選択し、抽出したＰＯＩメタデータに基づいて、トリックプレイ再生を行う。

図１０はＰＯＩメタデータに基づくトリックプレイ再生をより具体的に示す図である。
ここで、サービス対象物である"Ｂｉｌｌ"と"Ｓａｍ"のユーザデモグラフィッククラスは"ｃｌａｓｓ１"であり、ユーザ判別モジュール４７によって判別されたユーザＵのユーザデモグラフィッククラスが"ｃｌａｓｓ１"であったとする。

Ｔａ−Ｔａ'期間の映像にはユーザデモグラフィッククラスが"ｃｌａｓｓ１"である"Ｂｉｌｌ"が登場しているため、アプリケーション実行環境４３は、このＴａ−Ｔａ'期間、第１の倍速で付加画像を含む映像の再生を行う。その後時刻Ｔｃになるまで、ユーザデモグラフィッククラスが"ｃｌａｓｓ１"であるサービス対象物が映像に登場しないため、アプリケーション実行環境４３は、第１の倍速よりも高速な第２の倍速で再生を行う。なお、第２の倍速での再生時は付加画像を提示しないことによってアプリケーション実行環境４３の負担を減らすことができる。Ｔｃ−Ｔｃ'期間の映像にはユーザデモグラフィッククラスが"ｃｌａｓｓ１"である"Ｓａｍ"が登場するため、アプリケーション実行環境４３は、このＴｃ−Ｔｃ'期間、第１の倍速で付加画像を含む映像の再生を行う。時刻Ｔｃ'以後はユーザデモグラフィッククラスが"ｃｌａｓｓ１"であるサービス対象物が映像に登場しないため第２の倍速での再生が行われる。

このように、ユーザＵのユーザデモグラフィッククラスあるいはユーザ識別情報を基に抽出されたＰＯＩメタデータに基づいて付加画像が提示されるシーンについては第１の倍速での再生を行い、その他のシーンについては第１の倍速よりも高速な第２の倍速で再生することによって、ユーザＵにとって有益な（興味のある）シーンにフォーカスしたトリックプレイ再生が実現される。

また、ユーザＵのユーザデモグラフィッククラスあるいはユーザ識別情報を基に抽出されたＰＯＩメタデータに基づいて付加画像が提示されるシーンだけをスキップ再生してもよい。

ここまで本実施形態の情報処理システムによるＰＯＩメタデータに基づく付加画像の提示、付加画像の提示制限、トリックプレイ再生等の機能について説明した。

（アプリケーション実行環境４３について）
図１１はＰＯＩメタデータを処理するアプリケーション実行環境４３の例を示す図である。
本例では、ＰＯＩメタデータを処理するアプリケーションが、情報処理装置４のネイティブのオペレーティングシステム４８の上で動作するネイティブアプリケーション４９である場合を示している。

図１２はＰＯＩメタデータを処理するアプリケーション実行環境４３のその他の例を示す図である。
この例では、ＰＯＩメタデータを処理するアプリケーションが、ウェブブラウザ５６上で動作するウェブアプリケーション５７である場合を示している。この場合、ＰＯＩメタデータとウェブアプリケーション５７とが互いに同時あるいは略同時に情報処理装置４に配信される。

（ＰＯＩメタデータの転送方法）
情報処理装置４にウェブアプリケーションとＰＯＩメタデータとを同時に配信するために、Ｍｕｌｔｉ−ｐａｒｔＭＩＭＥ（ＭｕｌｔｉｐｕｒｐｏｓｅＩｎｔｅｒｎｅｔＭＡＩｌＥｘｔｅｎｓｉｏｎｓ）フォーマットを用いて両者をパッケージングする方法がある。図１３はこのウェブアプリケーションとＰＯＩメタデータをパッケージングするＭｕｌｔｉ−ｐａｒｔＭＩＭＥフォーマットの例を示す図である。このＭｕｌｔｉ−ｐａｒｔＭＩＭＥフォーマットでは、ｂｏｕｎｄａｒｙ−ｐａｒｔによって区切られた各部分にＰＯＩメタデータのファイル６１、ウェブアプリケーションのファイル６２がそれぞれ個別に格納される。

なお、ＰＯＩメタデータを処理するアプリケーションが、オペレーティングシステムをアプリケーション実行環境として動作するネイティブアプリケーションである場合や、ＰＯＩメタデータとは別途配信されるものである場合には、Ｍｕｌｔｉ−ｐａｒｔＭＩＭＥフォーマットにＰＯＩメタデータファイルのみを格納して配信してもよい。

次に、ＭＰ４ファイルのフォーマットに映像データおよび音声データなどのメディアデータのトラックと同様にＰＯＩメタデータのトラックを格納して転送する方式を説明する。

図１４はＭＰ４ファイルのフォーマットにおけるＭｅｄｉａＳｅｇｍｅｎｔの構成を示す図である。
同図に示すように、ＭｅｄｉａＳｅｇｍｅｎｔは複数のＭｏｖｉｅＦｒａｇｅｎｔを有し、各々のＭｏｖｉｅＦｒａｇｅｎｔはｍｏｏｆボックスとｍｄａｔボックスで構成される。ｍｄａｔボックスには、メディアデータが例えばフレームなどの時間の単位で複数のＳａｍｐｌｅボックスに分割されてランダムアクセス可能に格納される。ｍｏｏｆボックスには、ｍｄａｔボックスの各Ｓａｍｐｌｅボックスのメディアデータを提示するタイミングを生成するための情報など、提示に関するメタデータが格納される。

本実施形態では、ｍｄａｔボックスの各Ｓａｍｐｌｅボックスに映像データが格納されたＭｅｄｉａＳｅｇｍｅｎｔ、ｍｄａｔボックスの各Ｓａｍｐｌｅボックスに音声データが格納されたＭｅｄｉａＳｅｇｍｅｎｔ、ｍｄａｔボックスの各ＳａｍｐｌｅボックスにＰＯＩメタデータが格納されたＭｅｄｉａＳｅｇｍｅｎｔが用意される。

なお、本実施形態では、ＭＰ４ファイルがＭＰＥＧ−ＤＡＳＨ（ＤｙｎａｍｉｃＡｄａｐｔｉｖｅＳｔｒｅａｍｉｎｇｏｖｅｒＨＴＴＰ）のＭｅｄｉａＳｅｇｍｅｎｔであることを前提とする。

（ＭＰＥＧ−ＤＡＳＨについて）
ＭＰＥＧ−ＤＡＳＨでは、ストリーミング再生が途切れないように、１つの動画コンテンツについて符号化速度と画面サイズが異なる複数のデータ群が用意される。これら複数のデータ群は、情報処理装置４の画面サイズやネットワーク帯域の状態などを考慮して動的に選択される。そのためＭＰＥＧ−ＤＡＳＨでは、上記のように１つの動画コンテンツについてどのような符号化速度と画面サイズのデータ群が用意されているかがＭＰＤ（ＭｅｄｉａＰｒｅｓｅｎｔａｔｉｏｎＤｅｓｃｒｉｐｔｉｏｎ）と呼ばれるメタデータに記述される。

次に、ＭＰＤのデータ構造の詳細を説明する。
ＭＰＤはサーバに格納された動画コンテンツの構成に関する情報をＸＭＬ（ｅｘｔｅｎｓｉｂｌｅｍａｒｋｕｐｌａｎｇｕａｇｅ）形式の階層構造で記述したものである。情報処理装置４は、目的の動画コンテンツに対応するＭＰＤファイルをＭＰＤファイルサーバから取得し、解析することによって、サーバから目的の動画コンテンツの提示に必要なＭｅｄｉａＳｅｇｍｅｎｔを取得する。

図１５はＭＰＤのデータ構造を示す図である。
ＭＰＤは、その下に１つのＰｅｒｉｏｄと、その下位に各メディアのタイプごとに一つずつのＡｄａｐｔａｔｉｏｎＳｅｔと、さらにその下位の複数のＲｅｐｒｅｓｅｎｔａｔｉｏｎとを有する。

ＭＰＤの階層つまり最上位階層には、１本の動画コンテンツに関する管理情報として、ＭＰＤの起点、タイトル、ストリーミング種別（オンデマンド／ライブ配信）、長さなどの情報を含む。

Ｐｅｒｉｏｄは１つの動画コンテンツを、フレームなどの時間で分割した単位である。Ｐｅｒｉｏｄには開始時刻（ｓｔａｒｔ時刻）と終了時刻（ｅｎｄ時刻）が定義される。Ｐｅｒｉｏｄは複数のＡｄａｐｔａｔｉｏｎＳｅｔで構成される。

ＡｄａｐｔａｔｉｏｎＳｅｔは、Ｐｅｒｉｏｄ毎の動画コンテンツのメディアタイプ（映像、音声、字幕、ＰＯＩメタデータ）ごとのデータに関するコーデック情報、言語などの情報を含む。ＡｄａｐｔａｔｉｏｎＳｅｔは、その下位に符号化速度や画像サイズの異なるデータごとのＲｅｐｒｅｓｅｎｔａｔｉｏｎを有する。

Ｒｅｐｒｅｓｅｎｔａｔｉｏｎは、それぞれウェブサーバに蓄積される、符号化速度や画像サイズなどの異なるセグメントの符号化速度、画像サイズ、置き場所（ＵＲＬ）などの情報を含む。

図１６はＭＰＥＧ−ＤＡＳＨサーバ１５と情報処理装置４との間でのネットワーク通信によるやりとりを示す図である。
ＭＰＥＧ−ＤＡＳＨサーバ１５には、ＭＰＤファイル、および動画コンテンツの各種メディアのＭｅｄｉａＳｅｇｍｅｎｔが格納される。

情報処理装置４のＣＰＵは、ＭＰＥＧ−ＤＡＳＨサーバ１５にＭＰＤファイルを要求する（ステップＳ５０１）。ＭＰＥＧ−ＤＡＳＨサーバ１５は、この要求に対してＭＰＤファイルを情報処理装置４に送信する（ステップＳ５０２）。情報処理装置４のＣＰＵは、受信したＭＰＤファイルを解析して、どのような符号化速度と画像サイズのＭｅｄｉａＳｅｇｍｅｎｔが用意されているかを確認する（ステップＳ５０３）。情報処理装置４のＣＰＵは、このＭＰＤファイルの解析結果とディスプレイの画面サイズや伝送路のネットワークトラフィクの状態などを考慮して最適な画像サイズや符号化速度のＭｅｄｉａＳｅｇｍｅｎｔをＭＰＥＧ−ＤＡＳＨサーバ１５に要求する（ステップＳ５０４）。ＭＰＥＧ−ＤＡＳＨサーバ１５は、この要求に対してＭｅｄｉａＳｅｇｍｅｎｔを情報処理装置４に送信する（ステップＳ５０５）。

次に、上記ＭＰＤとＭｅｄｉａＳｅｇｍｅｎｔとの関係を説明するために、図１４に戻って、ＭｅｄｉａＳｅｇｍｅｎｔにおけるｍｏｏｆボックスとｍｄａｔボックスのデータ構造を説明する。

前述したように、ＭｅｄｉａＳｅｇｍｅｎｔは複数のＭｏｖｉｅＦｒａｇｅｎｔを有し、各々のＭｏｖｉｅＦｒａｇｅｎｔはｍｏｏｆボックスとｍｄａｔボックスで構成される。ｍｄａｔボックスには、メディアデータが例えばフレームなどの時間の単位で複数のＳａｍｐｌｅボックスに分割されてランダムアクセス可能に格納される。ｍｏｏｆボックスには、ｍｄａｔボックスの各Ｓａｍｐｌｅのメディアデータを提示するタイミングを生成するための情報など、提示に関するメタデータが格納される。

それぞれのＳａｍｐｌｅ（１），（２），（３），…のメディアデータの提示開始時刻ＰｒｅｓｅｎｔａｔｉｏｎＴｉｍｅ（１），（２），（３），…を生成するための情報として、ｍｏｏｆボックスの所定の下位ボックス（ｍｏｏｆ／ｔｒａｆボックス）にはＢａｓｅＭｅｄｉａＤｅｃｏｄｅＴｉｍｅが格納され、さらにその他のボックス（ｔｒｕｎボックス）には、Ｓａｍｐｌｅ（１），（２），（３），…にそれぞれ対応付けられた情報として、ＳａｍｐｌｅＣｏｕｎｔ（１），（２），（３），…、ＳａｍｐｌｅＤｕｒａｔｉｏｎ（１），（２），（３），…、ＣｏｍｐｏｓｉｔｉｏｎＴｉｍｅＯｆｆｓｅｔ（１），（２），（３），…が格納される。ＢａｓｅＭｅｄｉａＤｅｃｏｄｅＴｉｍｅは、Ｐｅｒｉｏｄの起点からＭｏｖｉｅＦｒａｇｍｅｎｔの起点までの相対時間の情報である。ＳａｍｐｌｅＣｏｕｎｔ（１），（２），（３），…はＳａｍｐｌｅの数、ＳａｍｐｌｅＤｕｒａｔｉｏｎ（１），（２），（３），…はＳａｍｐｌｅ（１），（２），（３），…の長さ、ＣｏｍｐｏｓｉｔｉｏｎＴｉｍｅＯｆｆｓｅｔ（１），（２），（３），…は調整時間である。

次に、Ｓａｍｐｌｅの提示開始時刻ＰｒｅｓｅｎｔａｔｉｏｎＴｉｍｅの計算方法を示す。
Ｎ番目のＳａｍｐｌｅの提示開始時刻をＰｒｅｓｅｎｔａｔｉｏｎＴｉｍｅ（Ｎ）とすると、ＰｒｅｓｅｎｔａｔｉｏｎＴｉｍｅ（Ｎ）は、ＢａｓｅＭｅｄｉａＤｅｃｏｄｅＴｉｍｅ＋（Ｎ−１番目までのＳａｍｐｌｅ（１），…，（Ｎ−１）のＳａｍｐｌｅＤｕｒａｔｉｏｎ（１），…，（Ｎ−１）の合計）＋（Ｎ番目のＳａｍｐｌｅのＣｏｍｐｏｓｉｔｉｏｎＴｉｍｅＯｆｆｓｅｔ）（Ｎ）により算出される。

（ＭＰＥＧ−ＤＡＳＨ動画コンテンツの典型的な提示制御）
図１７はＭＰＥＧ−ＤＡＳＨ動画コンテンツの提示制御の流れを示す図である。
同図において、横軸は実時間（ＵＴＣｔｉｍｅ）の軸とする。情報処理装置４のＣＰＵは、ＭＰＤファイルに定義されたＭＰＤの起点を基準に、ＰｅｒｉｏｄにＭＰＤの起点に対する相対時間として定義された開始時刻をもとに最初のＰｅｒｉｏｄの実時間上の起点を生成する。

続いて、情報処理装置４のＣＰＵは、ＢａｓｅＭｅｄｉａＤｅｃｏｄｅＴｉｍｅに基づいてＭｏｖｉｅＦｒａｇｍｅｎｔの実時間上の起点を生成し、さらにＳａｍｐｌｅＣｏｕｎｔ、ＳａｍｐｌｅＤｕｒａｔｉｏｎ、ＣｏｍｐｏｓｉｔｉｏｎＴｉｍｅＯｆｆｓｅｔを用いて、Ｐｅｒｉｏｄの最初のＳａｍｐｌｅ（１）の提示開始時刻（ＰｒｅｓｅｎｔａｔｉｏｎＴｉｍｅ（１））を生成し、その時刻から最初のＳａｍｐｌｅ（１）の提示を開始する。続いて、情報処理装置４のＣＰＵは、次のＳａｍｐｌｅ（２）の提示開始時刻（ＰｒｅｓｅｎｔａｔｉｏｎＴｉｍｅ（２））を同様に生成して、その時刻に提示する対象をＳａｍｐｌｅ（１）からＳａｍｐｌｅ（２）に切り替える。以降同様にＳａｍｐｌｅの提示の切り替えが行われる。このようにして、各Ｓａｍｐｌｅ（１），（２），…の映像が時間的に途切れることなく提示される。

本実施形態では、ＭＰＤファイルにＰＯＩメタデータに対応するＡｄａｐｔａｔｉｏｎＳｅｔを追加したことによって、ＭＰＥＧ−ＤＡＳＨ動画コンテンツの提示制御方法をそのまま踏襲して付加画像の提示制御を行うことが可能となる。これにより、ＭＰＥＧ−ＤＡＳＨ動画コンテンツの映像および音声などの各メディアと同期させて付加画像を提示させることができる。

例えば、図１８に示すように、実時間上Ｔ１からＴ２のＰｅｒｉｏｄ（Ｔ１−Ｔ２）の映像に同期して付加画像を提示する場合には、ＭＰＤのＰｅｒｉｏｄ（Ｔ１−Ｔ２）の下位階層にＰＯＩメタデータのＡｄａｐｔａｔｉｏｎＳｅｔ（Ｔ１−Ｔ２）が追加される。さらに、実時間上Ｔ２からＴ３のＰｅｒｉｏｄ（Ｔ２−Ｔ３）の映像に同期して付加画像を提示する場合には、ＭＰＤのＰｅｒｉｏｄ（Ｔ２−Ｔ３）の下位階層にＰＯＩメタデータのＡｄａｐｔａｔｉｏｎＳｅｔ（Ｔ２−Ｔ３）が追加される。

図１９は、ＰＯＩメタデータのＡｄａｐｔａｔｉｏｎＳｅｔが追加されたＭＰＤのより具体的な例を示す図である。
このＭＰＤの最上位階層には@ａｖＡＩｌａｂｉｌｉｔｙＳｔａｒｔＴｉｍｅ=Ｔ０と記述されている。これは、動画コンテンツの時間の起点がＴ０であることを示す。その下位階層には２つのＰｅｒｉｏｄが格納される。２つのＰｅｒｉｏｄのうち、最初のＰｅｒｉｏｄはＴ０の起点から０ｓｅｃ後に開始され、２番目のＰｅｒｉｏｄはＴ０の起点から１００ｓｅｃ後に開始されることが定義される。

この例では、２番目のＰｅｒｉｏｄのＡｄａｐｔａｔｉｏｎＳｅｔとして映像、音声およびＰＯＩメタデータそれぞれのＡｄａｐｔａｔｉｏｎＳｅｔが存在する。映像のＡｄａｐｔａｔｉｏｎＳｅｔの下位階層には異なる符号化速度（２５６Ｋｂｐｓ／５１２Ｋｂｐｓ）を示した２つのＲｅｐｒｅｓｅｎｔａｔｉｏｎが存在する。それぞれのＲｅｐｒｅｓｅｎｔａｔｉｏｎの下位階層には、映像のＭｅｄｉａＳｅｇｍｅｎｔの置き場所を示すＵＲＬの生成方法や取得周期などが記述されたＳｅｇｍｅｎｔＴｅｍｐｌａｔｅが存在する。

ここで、"＠ｔｉｍｅｓｃａｌｅ＝"１０００""、"＠ｄｕｒａｔｉｏｎ＝"１０００""は、１／１０００秒のタイムスケールで１０００分の値つまり１秒をセグメント時間長として、このセグメント時間長の周期で映像を取得できることを意味する。"＠Ｍｅｄｉａ="＄Ｎｕｍｂｅｒ％６ｄ＄．ｍ４ｓ""は各Ｓａｍｐｌｅの映像の置き場所を示すＵＲＬの最下位の値の生成方法を示し、具体的には６桁の値の１から増加する整数を意味する。例えば、ＳａｍｐｌｅのＵＲＬは、ＭＰＤの各要素に記述された"ＢａｓｅＵＲＬ"が示す値をパス形式に繋ぎ、最後に"@Ｍｅｄｉａ="＄Ｎｕｍｂｅｒ％６ｄ＄．ｍ４ｓ""により生成される６桁の値を付加することによって生成される。すなわち、映像の１番目のＳａｍｐｌｅのＵＲＬは"ＨＴＴＰ：／／ａ.ｃｏｍ／ｐ２／ｖｉｄｅｏ／５１２／０００００１.ｍ４ｓ"のように作成される。"＠ｉｎｉｔｉａｌｉｚａｔｉｏｎ＝"ＩＳ．ｍｐ４""は、映像の１番目のＭｅｄｉａＳｅｇｍｅｎｔのＩｎｉｔｉａｌｉｚａｔｉｏｎＳｅｇｍｅｎｔのＵＲＬに用いられる値である。このＩｎｉｔｉａｌｉｚａｔｉｏｎＳｅｇｍｅｎｔのＵＲＬについても、ＭＰＤの各要素に記述された"ＢａｓｅＵＲＬ"が示す値をパス形式に繋ぎ、最後に"ＩＳ．ｍｐ４"を付加することによって生成される。例えば、"ＨＴＴＰ：／／ａ.ｃｏｍ／ｐ２／ｖｉｄｅｏ／５１２／ＩＳ．ｍｐ４"のように作成される。

ＰＯＩメタデータのＡｄａｐｔａｔｉｏｎＳｅｔの下位階層にはＲｅｐｒｅｓｅｎｔａｔｉｏｎが存在し、さらにその下位階層にはＰＯＩメタデータのＭｅｄｉａＳｅｇｍｅｎｔの置き場所を示すＵＲＬの生成方法や取得周期などが記述されたＳｅｇｍｅｎｔＴｅｍｐｌａｔｅが存在する。このＰＯＩメタデータのＭｅｄｉａＳｅｇｍｅｎｔの置き場所を示すＵＲＬの生成方法は映像のＭｅｄｉａＳｅｇｍｅｎｔの置き場所を示すＵＲＬの生成方法と同じであってよい。また、ＰＯＩメタデータのＩｎｉｔｉａｌｉｚａｔｉｏｎＳｅｇｍｅｎｔの置き場所を示すＵＲＬの生成方法も映像のＩｎｉｔｉａｌｉｚａｔｉｏｎＳｅｇｍｅｎｔの置き場所を示すＵＲＬの生成方法と同じであってよい。ＰＯＩメタデータのＩｎｉｔｉａｌｉｚａｔｉｏｎＳｅｇｍｅｎｔには、ＭｅｄｉａＳｅｇｍｅｎｔにＰＯＩメタデータがＳａｍｐｌｅとして格納されることを識別する情報が含まれる。具体的には、ＩｎｉｔｉａｌｉｚａｔｉｏｎＳｅｇｍｅｎｔのｍｏｏｖ（ＭｏｖｉｅＢｏｘ）／ｔｒａｋ（ＴｒａｃｋＢｏｘ）／ｍｄｉａ（ＭｅｄｉａＢｏｘ）／ｈｄｌｒ（ＨａｎｄｌｅｒＢｏｘ）のｈａｎｄｌｅｒ＿ｔｙｐｅフィールドの値が"ｍｅｔａ"であることによって、ＰＯＩメタデータがＭｅｄｉａＳｅｇｍｅｎｔにＳａｍｐｌｅとして格納されることを識別することができる。

情報処理装置４のＣＰＵは、上記のように生成されるＵＲＬに基づいて、動画コンテンツの映像、音声およびＰＯＩメタデータをそれぞれＳａｍｐｌｅの単位で取得することができる。

図２０は、ＭＰＤに基づく映像および付加画像の提示の流れを示す図である。
映像の各Ｓａｍｐｌｅ（１），（２），（３）を提示する処理は上述したとおりである。
ここで、情報処理装置４のＣＰＵは、映像の最初のＳａｍｐｌｅ（１）の実時間上の提示開始時刻（ＰｒｅｓｅｎｔａｔｉｏｎＴｉｍｅ）（１）から次のＳａｍｐｌｅ（２）の実時間上の提示開始時刻（ＰｒｅｓｅｎｔａｔｉｏｎＴｉｍｅ）（２）までの間に、ＰＯＩメタデータ（１）に基づく付加画像の提示処理を行う。この後、情報処理装置４のＣＰＵは、Ｓａｍｐｌｅ（２）の実時間上の提示開始時刻（ＰｒｅｓｅｎｔａｔｉｏｎＴｉｍｅ）（２）からその次のＳａｍｐｌｅ（３）の実時間上の提示開始時刻（ＰｒｅｓｅｎｔａｔｉｏｎＴｉｍｅ）（３）までの間にＰＯＩメタデータ（２）に基づく付加画像の提示処理を行い、さらにＳａｍｐｌｅ（２）の実時間上の提示開始時刻（ＰｒｅｓｅｎｔａｔｉｏｎＴｉｍｅ）（３）からその次のＳａｍｐｌｅ（３）の実時間上の提示開始時刻（ＰｒｅｓｅｎｔａｔｉｏｎＴｉｍｅ）（４）までの間にＰＯＩメタデータ（３）に基づく付加画像の提示処理を行う。

以上のように、本実施形態では、ＭＰＤファイルにＰＯＩメタデータのためのＡｄａｐｔａｔｉｏｎＳｅｔを追加することによって、ＰＯＩメタデータに基づく付加画像の提示制御を、映像、音声などの他の種類のメディアの提示制御と同じ仕組みで行うことができるとともに、映像、音声などの他の種類のメディアと付加画像を正確に同期させて提示することができる。

（付加画像の提示位置の移動）
図２１は映像中のサービス対象物が時間に沿って移動する場合にそのサービス対象物の移動に伴って付加画像の提示位置も移動させる場合のＰＯＩメタデータを示す図である。
ここで、Ｔ１はＰＯＩメタデータ（１）に基づく付加画像の提示開始時刻、Ｔ２はＰＯＩメタデータ（２）に基づく付加画像の提示開始時刻、Ｔ３はＰＯＩメタデータ（３）に基づく付加画像の提示開始時刻である。Ｔ１−Ｔ２はＰＯＩメタデータ（１）に基づく付加画像の提示期間であり、この期間、付加画像は、ＰＯＩメタデータ（１）中のＰＯＩＰｏｓｉｔｉｏｎ要素の値（ｘ＝ｘ１,ｙ＝ｙ１）が示す位置に提示される。Ｔ２−Ｔ３はＰＯＩメタデータ（２）に基づく付加画像の提示期間であり、この期間、付加画像は、ＰＯＩメタデータ（２）中のＰＯＩＰｏｓｉｔｉｏｎ要素の値（ｘ＝ｘ２,ｙ＝ｙ２）が示す位置に提示される。そしてＴ３−Ｔ４はＰＯＩメタデータ（３）に基づく付加画像の提示期間であり、この期間、付加画像は、ＰＯＩメタデータ（３）中のＰＯＩＰｏｓｉｔｉｏｎ要素の値（ｘ＝ｘ３,ｙ＝ｙ３）が示す位置に提示される。

このように、各ＳａｍｐｌｅのＰＯＩメタデータにおけるＰＯＩＰｏｓｉｔｉｏｎ要素の値を、移動するサービス対象物の位置に合わせて決めることによって、付加画像の提示位置をサービス対象物の移動に正確に同期させて移動させることができる。

（ＰＯＩメタデータの複数サンプル時間をまたがる提示更新制御）
ここまで、各Ｓａｍｐｌｅの映像にＰＯＩメタデータを１対１に対応付けて付加画像の提示制御が行われる場合を想定したが、１つのＰＯＩメタデータを連続する複数のＳａｍｐｌｅの映像に適用させてもよい。この場合、図２２に示すように、ＰＯＩメタデータのファイル６３、６４、６５を格納したパッケージ６６、６７、６８に記述されるＰＯＩメタデータの識別子（ｍｅｔａｄａｔａＵＲＩ）の値にバージョン情報（Ｖｅｒｓｉｏｎ）が付加される。このバージョン情報は、直前のＰＯＩメタデータに対して内容の変化がない場合には、直前のＰＯＩメタデータを格納したパッケージに記述されるバージョン情報と同じ値とされ、直前のＰＯＩメタデータに対して内容の変化がある場合にはインクリメントされた値に設定される。

これにより、アプリケーション実行環境４３のアプリケーションは、映像のＳａｍｐｌｅ間の切り替えにおいて、切り替え前後の各バージョン情報の値が変化した場合には、ＰＯＩメタデータに基づく付加画像の提示のための演算を行い、各バージョン情報の値に変化がない場合には、改めてＰＯＩメタデータに基づく付加画像の提示のための演算を行うことなく付加画像をそのまま提示し続ける。これにより、付加画像の提示のための演算の負荷を低減させることができる。

例えば、図２２に示すように、Ｓａｍｐｌｅ（１）の映像に対応するＰＯＩメタデータ（１）の識別子（ｍｅｔａｄａｔａＵＲＩ）に付加されたバージョン情報の値は"１"、２番目のＳａｍｐｌｅ（２）の映像に対応するＰＯＩメタデータ（２）の識別子（ｍｅｔａｄａｔａＵＲＩ）に付加されたバージョン情報の値は"２"、３番目のＳａｍｐｌｅ（３）の映像に対応するＰＯＩメタデータ（３）の識別子（ｍｅｔａｄａｔａＵＲＩ）に付加されたバージョン情報の値は"２"である。この場合、２番目のＳａｍｐｌｅ（２）の映像と３番目のＳａｍｐｌｅ（３）の映像との切り替えにおいて、３番目のＳａｍｐｌｅ（３）の映像に対応するＰＯＩメタデータ（３）に基づく付加画像の提示のための演算を行うことなく、２番目のＳａｍｐｌｅ（２）の映像に付加された付加画像が３番目のＳａｍｐｌｅ（３）の映像にもそのまま続けて提示される。

（特定のサービス対象物に関する音声アシスタントサービスを利用するための課金制限）
動画コンテンツに登場する様々なサービス対象物に関してユーザへの音声アシスタントサービスが提供されるなか、特定のサービス対象物に関する音声アシスタントサービスをユーザが利用する場合には課金を要するという制限を設けてもよい。

このように特定のサービス対象物に関する音声アシスタントサービスの利用制限を実現するため、図６に示したように、ＰＯＩメタデータにはＰＯＩ利用制限情報が記述される。このＰＯＩ利用制限情報は、アクセス制御に関する記述言語として、例えば、ＯＤＲＬ（Open Digital Rights Language））などが用いられる。ＯＤＲＬは、任意のコンテンツに対する使用条件やその必要条件、権利者と利用者との協定内容などを記述することが可能な権利言語である。

図２３は、このＯＤＲＬによるＰＯＩ利用制限情報の記述例である。
このＯＤＲＬによるＰＯＩ利用制限情報は、課金管理を行うサーバにアクセスするために必要なＵＲＬなどのアクセス情報２３１、対象のＰＯＩメタデータの識別子２３２、アクセス利用制限対象ユーザ２３３、アクセス利用制限解除条件２３４などが記述される。すなわち、本例のＰＯＩ利用制限情報は、「当該ＰＯＩに対する音声アシスタントサービスを受けたいユーザはＰＯＩメタデータの所有者である番組Ａの放送局に対して対価ＵＳ１ドルを支払うことが必要となる。」という意味を有する。

次に、図２４を用いて、特定のサービス対象物に関する音声アシスタントサービスを利用するための課金制限の動作を説明する。
ステップＳ６０１からステップＳ６０３は、情報処理装置４が動画コンテンツのデータ、ＰＯＩメタデータおよびアプリケーションを取得するステップである。動画コンテンツのデータ、ＰＯＩメタデータおよびアプリケーションを取得する流れは、図２、図３および図４に示した全体的動作の流れ（その１、２、３）のいずれかであってよい。本例では、例えば、ＰＯＩメタデータサーバ１３から動画コンテンツサーバ１１に放送／ネット配信システム２を通じてＰＯＩメタデータが供給され、アプリケーションサーバ１２から情報処理装置４に放送／ネット配信システム２を通じてアプリケーションが配信される。そして動画コンテンツサーバ１１にて、ＰＯＩメタデータと動画コンテンツのデータとが所定のデータ構造にまとめられて情報処理装置４に放送／ネット配信システム２を通じて配信される場合を想定する。

情報処理装置４では、受信したデータ構造から動画コンテンツのデータが抽出され、抽出された動画コンテンツのデータはＡＶストリーム取得部４１にて復号され、この結果得られた映像データおよび音声データがレンダラ４４を通じてディスプレイ４５およびスピーカ４６にそれぞれ供給される（ステップＳ６０４）。

また、情報処理装置４では、受信したデータ構造からＰＯＩメタデータ処理モジュール４２によってＰＯＩメタデータが抽出され（ステップＳ６０５）、アプリケーション実行環境４３に供給される。アプリケーション実行環境４３は、ＰＯＩメタデータに記述されるＰＯＩ利用制限情報に基づいて、当該ＰＯＩメタデータに基づく特定のサービス対象物に関する音声アシスタンスサービスを利用したいかどうかをユーザＵに問い合わせる（ステップＳ６０７）。このユーザＵへの問い合わせは、例えば、情報処理装置４に接続されているディスプレイ４５およびスピーカ４４を通して行われてよい。この問い合わせに際し、ユーザＵにはＰＯＩ利用制限情報に記述されるアクセス利用制限解除条件などが提示される。ユーザＵはこの提示内容を参照して、課金を伴う音声アシスタンスサービスを利用するかキャンセルするかの指示を情報処理装置４に入力することができる（ステップＳ６０８）。

ユーザＵから、課金を伴う音声アシスタンスサービスを利用することの指示が情報処理装置４に入力された場合、アプリケーション実行環境４３は、少なくともユーザＵのユーザ識別情報およびＰＯＩ利用制限情報を含む、音声アシスタントサービスの利用要求をアカウントサーバ１７に送信する。アカウントサーバ１７は、音声アシスタンスサービスの利用に関する課金処理を行うサーバである。アカウントサーバ１７は、情報処理装置４より音声アシスタンスサービスの利用要求を受信すると、この利用要求に含まれるユーザ識別情報およびＰＯＩ利用制限情報などをもとに課金処理を行い（ステップＳ６１０）、課金処理が完了したならば、課金を伴う音声アシスタントサービスの利用承諾を情報処理装置４に送信する（ステップＳ６１１）。

情報処理装置４のアプリケーション実行環境４３は、アカウントサーバ１７より課金を伴う音声アシスタントサービスの利用承諾を受信すると、ＰＯＩメタデータに基づいて、映像中のサービス対象物をユーザＵに教示する付加画像を生成し、レンダラ４４に供給する。これにより、番組の映像の上に付加画像が重畳された合成像が得られ、ディスプレイ４５に表示される（ステップＳ６１２）。

なお、ＰＯＩメタデータにおいてＰＯＩ利用制限情報による利用制限がかけられていないサービス対象物については、ユーザＵへの上記の問い合わせが行われることなく付加画像が映像に合成される。

その後、ユーザＵは、ディスプレイ４５に表示された映像中で付加画像が提示されたサービス対象物についての音声によるサービス要求を音声ＡＩアシスタントサービス端末３に与えて、音声ＡＩアシスタントサービスを利用する（ステップＳ６１３）。

このように、特定のサービス対象物に関する音声アシスタントサービスをユーザが利用する場合の課金制限を実現することができる。

（ブックマークを用いたタイムシフト再生）
本実施形態の情報処理システム１００では、視聴中の動画コンテンツの音声アシスタントサービスを利用可能な区間のなかで、ユーザが任意の付加画像付きシーンに対してブックマークを登録し、以後の任意のタイミングでユーザにより選択されたブックマークに基づいて付加画像付きシーンを再生することが可能とされている。以下、この機能を「ブックマークを用いたタイムシフト再生」と呼ぶ。

ここで、付加画像付きシーンに対するブックマークの登録は、その付加画像付きシーンに登場している付加画像の生成に用いたＰＯＩメタデータを保存することによって行われる。ＰＯＩメタデータには、図６に示したように、対象コンテンツのＵＲＩ、付加画像の提示時間（開始時刻、終了時刻）が含まれているので、これらの情報を用いることによって、情報処理装置４はブックマークが登録された付加画像付きシーンの提示に必要な動画コンテンツのデータの配信を動画コンテンツサーバ１１に要求することができる。

図２５は、本実施形態の情報処理システム１００においてブックマークを用いたタイムシフト再生に係る構成を示すブロック図である。
同図に示すように、この情報処理システム１００は、ブックマークを用いたタイムシフト再生に係る構成として、ブックマークデータベース５０とブックマークブラウザ５１を有する。

ブックマークデータベース５０は、ブックマーク登録された付加画像付きシーンにおける付加画像の生成に用いたＰＯＩメタデータが保存されるデータベースである。

ブックマークブラウザ５１は、登録済みのブックマークの中からユーザＵによって選択されたブックマークに対応するＰＯＩメタデータをブックマークデータベース５０から読み出し、このＰＯＩメタデータに基づいて、タイムシフト再生な必要な動画コンテンツのストリーム配信をＡＶストリーム取得部４１を通じて動画コンテンツサーバ１１に要求するなどの処理を行う。

ＡＶストリーム取得部４１は、このブックマークブラウザ５１から与えられた要求に応じて、動画コンテンツサーバ１１にアクセスして、タイムシフト再生な必要な動画コンテンツのストリーム配信を要求し、その動画コンテンツのストリームを取得してデコードする。

図２６Ａ、図２６Ｂはブックマークを用いたタイムシフト再生の流れを示すシーケンス図である。
ステップＳ７０１からステップＳ７０３は、情報処理装置４が動画コンテンツのデータ、ＰＯＩメタデータおよびアプリケーションを取得するステップである。動画コンテンツのデータ、ＰＯＩメタデータおよびアプリケーションを取得する流れは、図２、図３および図４に示した全体的動作の流れ（その１、２、３）のいずれかであってよい。本例では、例えば、ＰＯＩメタデータサーバ１３から動画コンテンツサーバ１１に放送／ネット配信システム２を通じてＰＯＩメタデータが供給され、アプリケーションサーバ１２から情報処理装置４に放送／ネット配信システム２を通じてアプリケーションが配信される。そして動画コンテンツサーバ１１にて、ＰＯＩメタデータと動画コンテンツのデータとが所定のデータ構造にまとめられて情報処理装置４に放送／ネット配信システム２を通じて配信される場合を想定する。

情報処理装置４では、受信したデータ構造から動画コンテンツのデータが抽出され、抽出された動画コンテンツのデータはＡＶストリーム取得部４１にて復号され、この結果得られた映像データおよび音声データがレンダラ４４を通じてディスプレイ４５およびスピーカ４６にそれぞれ供給される（ステップＳ７０４）。

また、情報処理装置４では、受信したデータ構造からＰＯＩメタデータ処理モジュール４２によってＰＯＩメタデータが抽出され（ステップＳ７０５）、アプリケーション実行環境４３に供給される。アプリケーション実行環境４３は、ＰＯＩメタデータに基づいて、映像中のサービス対象物をユーザＵに教示する付加画像を生成し、レンダラ４４に供給する。これにより、番組の映像の上に付加画像が重畳された合成像が得られ、ディスプレイ４５に表示される（ステップＳ７０７）。

ここで、ユーザＵによって、視聴中の付加画像付きのシーンに対してブックマーク登録の指示が情報処理装置４に入力されたものとする（ステップＳ７０８）。ここで、ブックマーク登録が可能なシーンは、当該ユーザＵに対して音声アシスタントサービスによる情報提供を受けることが可能な付加画像付きのシーンである。

アプリケーション実行環境４３は、このユーザＵからのブックマーク登録の指示を受けると、このブックマーク登録のためのブックマークデータベース５０へのＰＯＩメタデータの保存を行う（ステップＳ７０９）。このときブックマークデータベース５０に保存されるＰＯＩメタデータは、ユーザＵよりブックマーク登録の指示を受けたときに再生していた付加画像付きのシーンの付加画像の生成に用いたＰＯＩメタデータである。

この後、動画コンテンツの配信、再生、視聴が終了すると、アプリケーション実行環境４３が終了する（ステップＳ７１０）。

ここまでが動画コンテンツの視聴中でのブックマーク登録の動作であり、この後、ユーザＵは登録済みのブックマークの中から１つの任意のブックマークを選択して、そのブックマークに紐付けられた付加画像付きシーンのタイムシフト再生を指示することができる。

例えば、ユーザＵは、動画コンテンツの視聴した終了後の任意のタイミングでブックマークの一覧であるブックマークリストの表示指示を情報処理装置４に入力する（ステップＳ７１１）。ブックマークブラウザ５１は、この指示が与えられたことを検出すると、ブックマークデータベース５０から、視聴していた動画コンテンツに関するすべてのブックマークにそれぞれ紐付けられたすべてのＰＯＩメタデータを読み出す（ステップＳ７１２）。ブックマークブラウザ５１は、読み出したすべてのＰＯＩメタデータに基づきブックマークリストを作成し、レンダラ４４を通じてディスプレイ４５に表示する（ステップＳ７１３）。ブックマークリストの詳細については後で説明する。

図２６Ｂに移動する。ユーザＵは、ディスプレイ４５に表示されたブックマークリストの中から任意のブックマークを選択する指示を情報処理装置４に入力する（ステップＳ７１４）。ブックマークブラウザ５１は、このユーザＵからの任意のブックマークの選択指示を受け取り、この選択されたブックマークに紐付けられたＰＯＩメタデータに記述される対象コンテンツのＵＲＩ、付加画像の提示時間（開始時刻、終了時刻）基づいて、付加画像付きシーンをタイムシフト再生するために必要な動画コンテンツのストリームを動画コンテンツサーバ１１に要求するようにＡＶストリーム取得部４１に指示する（ステップＳ７１５）。ＡＶストリーム取得部４１は、この指示に従って、付加画像付きシーンに対応する動画コンテンツのデータの配信を要求する（ステップＳ７１７）。さらに、ブックマークブラウザ５１は、ＰＯＩメタデータに記述されるＰＯＩ提示アプリケーションのＵＲＬに基づいて、アプリケーション実行環境４３に実行されるアプリケーションを取得するようにＡＶストリーム取得部４１に指示し、ＡＶストリーム取得部４１によって取得されたアプリケーションをアプリケーション実行環境４３に渡して実行させる（ステップＳ７１６）。

動画コンテンツサーバ１１は、情報処理装置４からの配信要求に対して、ユーザＵにより選択された付加画像付きシーンに対応する動画コンテンツのデータとＰＯＩメタデータとを含むデータ構造を情報処理装置４に配信する（ステップＳ７１８）。

情報処理装置４では、ＡＶストリーム取得部４１にて受信したデータ構造から動画コンテンツのデータが抽出され、抽出された動画コンテンツのデータはＡＶストリーム取得部４１内のデコーダによって復号され（ステップＳ７１９）、この結果得られた映像データおよび音声データがレンダラ４４を通じてディスプレイ４５およびスピーカ４６にそれぞれ供給される。

また、情報処理装置４では、受信したデータ構造からＰＯＩメタデータ処理モジュール４２によってＰＯＩメタデータが抽出され（ステップＳ７２０）、アプリケーション実行環境４３に供給される。アプリケーション実行環境４３は、ＰＯＩメタデータに基づいて、映像中のサービス対象物をユーザＵに教示する付加画像を生成し、レンダラ４４に供給する。これにより、番組の映像の上に付加画像が重畳された合成像が得られ、ディスプレイ４５に表示される（ステップＳ７２１）。これによりユーザにより選択されたブックマークに紐付けられた付加画像付きシーンのタイムシフト再生が行われる。

その後、ユーザＵは、ディスプレイ４５に表示された映像中で付加画像が提示されたサービス対象物についての音声によるサービス要求を音声ＡＩアシスタントサービス端末３に与えて、音声ＡＩアシスタントサービスを利用することができる。

ここで、動画コンテンツサーバ１１から予め決められたスケジュールで、動画コンテンツのデータが情報処理装置４に配信される場合には、その動画コンテンツのデータ配信スケジュールに合わせて、音声ＡＩアシスタントサービスプログラムサーバ１４から音声ＡＩアシスタントサービス端末３に必要な音声ＡＩアシスタントサービスプログラムが供給され得るため、音声ＡＩアシスタントサービス端末３の音声ＡＩアシスタントサービスプログラム実行環境３５に適切な音声アシスタントサービスプログラムがセットアップされることが保証される。これに対し、付加画像付きシーンのタイムシフト再生時は、音声ＡＩアシスタントサービス端末３の音声ＡＩアシスタントサービスプログラム実行環境３５に適切な音声アシスタントサービスプログラムがセットアップされる保証がない。

そこで本実施形態では、ＰＯＩメタデータに、利用する機能に対応する音声アシスタントサービスプログラムを定義する音声アシスタントサービスバックエンド制御情報として例えば機能名を記述しておき、タイムシフト再生時にその音声アシスタントサービスバックエンド制御情報をユーザＵに提示し、音声ＡＩアシスタントサービス端末３に対しその音声アシスタントサービスバックエンド制御情報を音声で与えることによって、音声ＡＩアシスタントサービス端末３がその音声アシスタントサービスバックエンド制御情報に基づき必要な音声アシスタントサービスプログラムを音声ＡＩアシスタントサービスプログラムサーバ１４に要求する仕組みを採用している。この音声アシスタントサービスバックエンド制御情報は、ユーザＵが音声で発するサービス要求の中に組み込まれて、音声ＡＩアシスタントサービス端末３に与えられる（ステップＳ７２３）。

図２７は、あるブックマークに紐付けられたＰＯＩメタデータの例を示す図である。
この例では、シーン２７１に登場する３つのサービス対象物それぞれについてＰＯＩメタデータ（１）、（２）、（３）が存在する場合を示している。各ＰＯＩメタデータ（１）、（２）、（３）には、音声アシスタントサービスバックエンド制御情報である機能名としてすべて共通の"機能Ｘ"が定義されている。

音声ＡＩアシスタントサービス端末３では、マイク３１を通して、ユーザＵより音声で与えられた、音声アシスタントサービスバックエンド制御情報（例えば"機能Ｘ"）を含むサービス要求が取り込まれ、音声認識モジュール３２で認識されたデータが音声ＡＩアシスタントサービスプログラム実行環境３５に与えられる。音声ＡＩアシスタントサービスプログラム実行環境３５は、サービス要求に含まれる音声アシスタントサービスバックエンド制御情報に基づき、該当する音声アシスタントサービスプログラムを音声ＡＩアシスタントサービスプログラムサーバ１４に要求する。

音声ＡＩアシスタントサービスプログラムサーバ１４は、受信した要求に応じて、該当する音声アシスタントサービスプログラムを音声ＡＩアシスタントサービス端末３に応答する（ステップＳ７２４）。音声ＡＩアシスタントサービス端末３は、音声ＡＩアシスタントサービスプログラムサーバ１４より配信された音声アシスタントサービスプログラムを音声ＡＩアシスタントサービスプログラム実行環境３５にセットアップして実行させる。

これにより、タイムシフト再生中のシーンに登場する付加画像に対して、適切な音声アシスタントサービスによる情報提供を実現することができる。

（音声アシスタントサービスプログラムの自動切り替え）
上記のブックマークを用いたタイムシフト再生では、ユーザＵが音声で発するサービス要求の中に、ＰＯＩメタデータの音声アシスタントサービスバックエンド制御情報に記述される機能名を組み込むことによって、タイムシフト再生するシーンに登場する付加画像に対して音声アシスタントサービスを実現する音声ＡＩアシスタントサービスプログラムが音声ＡＩアシスタントサービス端末３にセットアップされる。ところが、動画コンテンツによっては、時間帯毎に音声ＡＩアシスタントサービス端末３にセットアップされるべき音声ＡＩアシスタントサービスプログラムが変更されるものがある。この場合、ユーザＵはサービス要求の中に組み込む機能名を時間帯によって変更しなければならず、ユーザＵの負担が大きくなる。

そこで、ＰＯＩメタデータのPOIBackEndControl要素にContextID属性を導入し、このContextID属性の値として、当該POIBackEndControl要素に記述される機能名のもとで時間帯毎に異なる音声ＡＩアシスタントサービスプログラムを音声ＡＩアシスタントサービスプログラムサーバ１４に要求するためのＵＲＩが格納される。

情報処理装置４では、例えば、ブックマークブラウザ５１が、ブックマークリストの中からユーザＵにより選択されたブックマークに紐付けられたＰＯＩメタデータに記述されるPOIBackEndControl要素のContextID属性の値が示すＵＲＩに対してＨＴＴＰリクエストを発行する。このＨＴＴＰリクエストの発行は、例えば、ブックマークリストの中からユーザＵにより任意のブックマークが選択された後や、音声ＡＩアシスタントサービス端末３にユーザＵが発話によるサービス要求を出す前などに行われればよい。

音声ＡＩアシスタントサービスプログラムサーバ１４は、ContextID属性の値が示すＵＲＩに対するＨＴＴＰリクエストを受けると、対応する時間帯の音声ＡＩアシスタントサービスプログラムを音声ＡＩアシスタントサービス端末３に配信して、音声ＡＩアシスタントサービス端末３にセットアップさせる。

これにより、時間帯によって音声ＡＩアシスタントサービスプログラムが切り替わる場合であっても、発話によるサービス要求に組み込むべき機能名を変更する必要がないため、ユーザＵの操作性が向上する。

図２８は、異なる音声ＡＩアシスタントサービスプログラムが割り当てられた２つの時間帯のシーンにそれぞれ紐付けられたＰＯＩメタデータにおけるContextID属性の値の変化を示す図である。
同図は、機能ＡのコンテクストスイッチContext-1により特定される第１の区間と、同じく機能ＡのコンテクストスイッチContext-2により特定される第２の区間とで異なる音声ＡＩアシスタントサービスプログラムが使用される場合を示している。第１の区間のＰＯＩメタデータには、POIBackEndControl要素のContextID属性の値としてコンテクストスイッチContext-1を含むＵＲＩが格納され、第２の区間のＰＯＩメタデータには、POIBackEndControl要素のContextID属性の値としてコンテクストスイッチContext-2を含むＵＲＩが格納される。
これにより、第１の区間および第２の区間とも、ユーザＵは、同じ機能名"機能Ａ"を組み込んだサービス要求を発話することによって、各区間に対応した音声アシスタントサービスを受けることができる。

（ＰＯＩメタデータのシェア制限）
ＰＯＩメタデータは、ＳＮＳ等のコミュニティサービスにアップロードして他のユーザとシェアすることが可能である。この場合、例えばプレミアムな情報を提供する音声アシスタントサービスなどのシェアを禁止したりするために、ＰＯＩメタデータにシェア可否制御情報を記述できることが好ましい。このシェア可否制御情報は、ＰＯＩメタデータのＰＯＩ利用制限情報としてＯＤＲＬなどにより記述可能である。

図２９は、ＯＤＲＬによるシェア可否制御情報の記述例を示す図である。
このシェア可否制御情報は、「当該POIメタデータをＳＮＳメンバーに共有することができる。」ことを示す。

（ブックマークの提示）
ＰＯＩメタデータのブックマークの提示には、例えば、以下の２つの方法がある。１つ目は、ＰＯＩメタデータのブックマークリストによる方法であり、２つ目はＰＯＩメタデータと関連付けてシーンキャプチャデータベースを作成してシーンキャプチャを提示する方法である。

図３０はシーンキャプチャの作成方法を示す図である。
シーンキャプチャサーバ１６は、動画コンテンツにおいて予め指定された代表的なシーンに対応するＰＯＩメタデータ１６３の識別ＵＲＬと、そのＰＯＩメタデータ１６３に記述される付加画像の提示時間（開始時刻、終了時刻）のストリームデータから作成されるブックマーク提示用の代表シーンの画像１６２とを紐付けてシーンキャプチャデータとしてシーンキャプチャデータベース１６１に登録する。情報処理装置４のブックマークブラウザ５１は、ユーザＵによりブックマークとして登録されたＰＯＩメタデータの識別ＵＲＬに基づいて、シーンキャプチャサーバ１６に代表シーンの画像を要求し、応答された代表シーンの画像を表示する。

なお、本技術は、上述の実施形態にのみ限定されるものではなく、本発明の要旨を逸脱しない範囲内において種々変更を加え得ることは勿論である。

本技術は以下のような構成も採ることができる。
（１）ユーザからの音声による要求を処理するサービスを利用可能なサービス対象物を含む映像データを取得して再生するメディア再生部と、
前記再生した映像に前記サービス対象物を前記ユーザに教示するための付加画像を付加し、前記ユーザにより任意に選択された前記付加画像付きのシーンに対するブックマークとして、前記映像データの識別情報および前記付加画像の開始時刻および終了時刻の情報を保存する制御部と
を具備する情報処理装置。

（２）前記（１）に記載の情報処理装置であって、
前記制御部は、
前記ユーザからの任意の前記ブックマークの選択を受け付け、選択された前記ブックマークに対応する前記映像データの識別情報および前記付加画像の開始時刻および終了時刻の情報に基づき前記付加画像付きの映像データを再生する
情報処理装置。

（３）前記（１）から（２）のうちいずれか１つに記載の情報処理装置であって、
前記制御部は、前記付加情報を生成するために前記映像データの識別情報および前記付加画像の開始時刻および終了時刻の情報を含むメタデータを取得し、前記取得したメタデータに基づき前記付加情報を付加する
情報処理装置。

（４）前記（３）に記載の情報処理装置であって、
前記メタデータが、前記ユーザからの発話によって特定される前記サービスの機能を示す機能名を含むサービスバックエンド制御情報を含み、
前記制御部は、ユーザにより選択された前記ブックマークに対応する前記メタデータに含まれる前記サービスバックエンド制御情報の前記機能名を前記ユーザに提示する
情報処理装置。

（５）前記（４）に記載の情報処理装置であって、
前記メタデータは、１つの機能名で時間帯毎に異なる機能を要求するための情報を含み、前記制御部は、前記情報に基づき、前記サービスの機能を切り替えるサーバに前記要求を送信する
情報処理装置。

（６）前記（１）から（５）のうちいずれか１つに記載の情報処理装置であって、
前記制御部は、前記サービス対象物毎に前記サービスの利用に対して制限をかける
情報処理装置。

（７）前記（６）に記載の情報処理装置であって、
前記制限が、課金による制限である
情報処理装置。

（８）前記（７）に記載の情報処理装置であって、
前記制限が、前記付加画像のメタデータのコミュニティサービス上のシェアの可否に関する制限である
情報処理装置。

（９）前記（１）から（８）のうちいずれか１つに記載の情報処理装置であって、
前記付加画像は、上記サービス対象物が上記サービスにおいて音声認識によって一意に判別され得るように、前記サービス対象物毎にユニークな視覚的特徴を有する
情報処理装置。

（１０）前記（１）から（９）のうちいずれか１つに記載の情報処理装置であって、
前記付加画像は、上記サービス対象物に付随した位置に提示される
情報処理装置。

（１１）前記（３）から（１０）のうちいずれか１つに記載の情報処理装置であって、
前記制御部は、前記メタデータのＡｄａｐｔａｔｉｏｎＳｅｔを含むＭＰＤファイルを取得し、このＭＰＤファイルを解析して、前記映像データおよび前記メタデータをそれぞれＭＰＥＧ−ＤＡＳＨのＭｅｄｉａＳｅｇｍｅｎｔとして取得し、前記映像データと、前記メタデータに基づく前記付加画像とを互いに同期させて提示する
情報処理装置。

４…情報処理装置
１１…動画コンテンツサーバ
１２…アプリケーションサーバ
１３…ＰＯＩメタデータサーバ
４１…ＡＶデコーダ
４２…ＰＯＩメタデータ処理モジュール
４３…アプリケーション実行環境
４４…レンダラ
４５…ディスプレイ
４６…スピーカ
４７…ユーザ判別モジュール

Claims

ユーザからの音声による要求を処理するサービスを利用可能なサービス対象物を含む映像データを取得して再生するメディア再生部と、
前記再生した映像に前記サービス対象物を前記ユーザに教示するための付加画像を付加し、前記ユーザにより任意に選択された前記付加画像付きのシーンに対するブックマークとして、前記映像データの識別情報および前記付加画像の開始時刻および終了時刻の情報を保存する制御部と
を具備する情報処理装置。
請求項１に記載の情報処理装置であって、
前記制御部は、
前記ユーザからの任意の前記ブックマークの選択を受け付け、選択された前記ブックマークに対応する前記映像データの識別情報および前記付加画像の開始時刻および終了時刻の情報に基づき前記付加画像付きの映像データを再生する
情報処理装置。
請求項２に記載の情報処理装置であって、
前記制御部は、前記付加情報を生成するために前記映像データの識別情報および前記付加画像の開始時刻および終了時刻の情報を含むメタデータを取得し、前記取得したメタデータに基づき前記付加情報を付加する
情報処理装置。
請求項３に記載の情報処理装置であって、
前記メタデータが、前記ユーザからの発話によって特定される前記サービスの機能を示す機能名を含むサービスバックエンド制御情報を含み、
前記制御部は、ユーザにより選択された前記ブックマークに対応する前記メタデータに含まれる前記サービスバックエンド制御情報の前記機能名を前記ユーザに提示する
情報処理装置。
請求項４に記載の情報処理装置であって、
前記メタデータは、１つの機能名で時間帯毎に異なる機能を要求するための情報を含み、前記制御部は、前記情報に基づき、前記サービスの機能を切り替えるサーバに前記要求を送信する
情報処理装置。
請求項１に記載の情報処理装置であって、
前記制御部は、前記サービス対象物毎に前記サービスの利用に対して制限をかける
情報処理装置。
請求項６に記載の情報処理装置であって、
前記制限が、課金による制限である
情報処理装置。
請求項６に記載の情報処理装置であって、
前記制限が、前記付加画像のメタデータのコミュニティサービス上のシェアの可否に関する制限である
情報処理装置。
請求項１に記載の情報処理装置であって、
前記付加画像は、上記サービス対象物が上記サービスにおいて音声認識によって一意に判別され得るように、前記サービス対象物毎にユニークな視覚的特徴を有する
情報処理装置。
請求項１に記載の情報処理装置であって、
前記付加画像は、上記サービス対象物に付随した位置に提示される
情報処理装置。
請求項３に記載の情報処理装置であって、
前記制御部は、前記メタデータのＡｄａｐｔａｔｉｏｎＳｅｔを含むＭＰＤファイルを取得し、このＭＰＤファイルを解析して、前記映像データおよび前記メタデータをそれぞれＭＰＥＧ−ＤＡＳＨのＭｅｄｉａＳｅｇｍｅｎｔとして取得し、前記映像データと、前記メタデータに基づく前記付加画像とを互いに同期させて提示する
情報処理装置。
ユーザからの音声による要求を処理するサービスを利用可能なサービス対象物を含む映像データを取得して再生し、
前記再生した映像に前記サービス対象物を前記ユーザに教示するための付加画像を付加し、前記ユーザにより任意に選択された前記付加画像付きのシーンに対するブックマークとして、前記映像データの識別情報および前記付加画像の開始時刻および終了時刻の情報を保存する
情報処理方法。
ユーザからの音声による要求を処理するサービスを利用可能なサービス対象物を含む映像データを取得して再生するメディア再生部と、
前記再生した映像に前記サービス対象物を前記ユーザに教示するための付加画像を付加し、前記ユーザにより任意に選択された前記付加画像付きのシーンに対するブックマークとして、前記映像データの識別情報および前記付加画像の開始時刻および終了時刻の情報を保存する制御部として
コンピュータを機能させるプログラム。