WO2018139284A1

WO2018139284A1 - 画像処理装置および方法、並びにプログラム

Info

Publication number: WO2018139284A1
Application number: PCT/JP2018/001094
Authority: WO
Inventors: 義行小林; 俊也浜田
Original assignee: ソニー株式会社
Priority date: 2017-01-30
Filing date: 2018-01-17
Publication date: 2018-08-02
Also published as: US20190327425A1

Abstract

本技術は、より簡単に動画像切り替え時の違和感を低減させることができるようにする画像処理装置および方法、並びにプログラムに関する。画像処理装置は、第１の動画像から第２の動画像へと表示を切り替える場合に、第１の動画像を構成する所定フレームと、第２の動画像の動画像データとに基づいて、所定フレームから第２の動画像へと表示が遷移する遷移動画像の動画像データを生成する動画像生成部を備える。本技術はクライアント装置に適用することができる。

Description

画像処理装置および方法、並びにプログラム

　本技術は画像処理装置および方法、並びにプログラムに関し、特に、より簡単に動画像切り替え時の違和感を低減させることができるようにした画像処理装置および方法、並びにプログラムに関する。

　MPEG-DASH（Moving Picture Experts Group phase - Dynamic Adaptive Streaming over HTTP）の特徴は、ビットレートアダプテーションと呼ばれる再生機器による最適なRepresentation選択方式のストリーミング再生である（例えば、非特許文献１参照）。

　例えばストリーミング再生時には、再生機器はビットレートが異なる複数のRepresentationの動画像（映像）からネットワーク帯域の状況に応じて最適なビットレートの動画像のデータを自動的に選択する。

　Representationの選択を行うと、その選択に応じてコンテンツの動画像データはセグメントと呼ばれる単位で切り替えられる。この場合、各Representationの映像そのものは同一であるため、セグメントの切り替わり点においてシーン変更とはならず、映像はシームレスに続くことになる。

　このようなMPEG-DASHストリーミング再生において動画像の映像遷移エフェクトが有用となってくる局面がある。例えば動画像のAdaptation Setを複数定義し、それぞれのAdaptation SetのRepresentationが独自のViewpoint（視点）から撮影された動画像とされているときである。

　ユーザは視点が異なる複数のRepresentationから自身が嗜好する視点の映像（動画像）を自主的に選択する。そのとき、例えば所定の視点から他の視点への遷移（切り替え）が発生したとすると、セグメント境界が映像の切り替わり点となってシーン変更となり、映像がノンシームレスとなる。

　このようなシーン変更が生じると、ユーザに対して提示される映像が急に切り替わることから、シーン変更部分でユーザに対して違和感を与えてしまう。そこで、一般的には映像編集処理の１つであるクロスフェードやワイプなどの映像遷移エフェクト技術を施すことでノンシームレスな映像遷移で生じる違和感が緩和される。

　例えば映像遷移エフェクト技術に関しては、SMPTE Standard 258Mなどにおいて規定されたものを用いることができる。

　しかし、動画像に対して映像遷移エフェクトを実施するためには、再生機器が映像遷移エフェクトの適用区間において、フェードアウト側の動画像とフェードイン側の動画像の２つの動画像を処理しなければならない。

　したがって、MPEG-DASHの動画像再生において映像遷移エフェクト技術を適用しようとすると、再生機器側の負荷が大きくなってしまう。

　すなわち、まず同一時刻のセグメントについて、遷移元の動画像のセグメントデータと遷移先の動画像のセグメントデータとをダウンロードしなければならない。つまり同一時刻のセグメントのデータを重複してダウンロードしなければならない。

　また、２つのセグメントデータを同時に扱うため、再生機器における処理量が多くなってしまう。特にビデオデコードの処理量が多くなってしまう。

　そこで、例えばサーバ側、つまりコンテンツの提供側において映像遷移エフェクトを施した部分の画像をトランジション画像として予め生成しておく技術が提案されている（例えば、特許文献１参照）。このようなトランジション画像を用いれば、再生機器側での処理量等を低減させつつ動画像切り替え時の違和感を低減させることができる。

ISO/IEC 23009-1:2014 Information technology -- Dynamic adaptive streaming over HTTP (DASH) -- Part 1: Media presentation description and segment formats

特開２０１５－７３１５６号公報

　しかしながら、上述した技術では、簡単に動画像切り替え時の違和感を低減させることは困難であった。

　具体的には、サーバ側でトランジション画像を予め用意しておく技術では、例えば各視点の動画像がRepresentationとして定義される場合、所定の視点と他の視点との組み合わせに対してトランジション画像を用意しておく必要がある。この場合、取り得る視点の組み合わせ全てについてトランジション画像を用意しなければならないので、視点数が多くなるとトランジション画像生成のために多くの処理が必要となるだけでなく、トランジション画像等の管理も煩雑になってしまう。

　本技術は、このような状況に鑑みてなされたものであり、より簡単に動画像切り替え時の違和感を低減させることができるようにするものである。

　本技術の一側面の画像処理装置は、第１の動画像から第２の動画像へと表示を切り替える場合に、前記第１の動画像を構成する所定フレームと、前記第２の動画像の動画像データとに基づいて、前記所定フレームから前記第２の動画像へと表示が遷移する遷移動画像の動画像データを生成する動画像生成部を備える。

　画像処理装置には、前記第１の動画像および前記第２の動画像の動画像データをデコードするデコーダと、前記デコードにより得られた前記所定フレームを保持する第１の保持部と、前記デコードにより得られた前記第１の動画像または前記第２の動画像のフレームを保持する第２の保持部とをさらに設けることができる。

　前記動画像生成部には、前記第１の動画像の切り替え前の時間的に最後のフレームを前記所定フレームとして用いるようにさせることができる。

　前記デコーダには、所定時間単位の前記第１の動画像について、前記遷移動画像の動画像データが生成されるエフェクト期間外における、前記所定時間単位の前記第１の動画像の最後のフレームを前記所定フレームとして前記第１の保持部に保持させるようにすることができる。

　前記デコーダには、前記第２の動画像の予め定められたフレームが入力された後、最初に出力される前記第１の動画像のフレームを前記所定フレームとして前記第１の保持部に保持させるようにすることができる。

　前記動画像生成部には、終了側よりも開始側においてより急峻に前記所定フレームから前記第２の動画像へと表示が遷移する前記遷移動画像の動画像データを生成させることができる。

　画像処理装置には、前記第１の動画像の情緒価値に関する情報に基づいて、前記第１の動画像を構成する複数のフレームのなかの代表フレームを決定する代表フレーム決定部をさらに設け、前記動画像生成部には、前記代表フレームを前記所定フレームとして用いるようにさせることができる。

　前記代表フレーム決定部には、前記情緒価値に関する情報としての前記第１の動画像のフレームの情緒価値を示すスコアに基づいて、前記代表フレームを決定させることができる。

　前記代表フレーム決定部には、前記情緒価値に関する情報としての前記第１の動画像の前記代表フレームとして推奨されるフレームを示す推奨フレーム情報に基づいて、前記代表フレームを決定させることができる。

　前記代表フレーム決定部には、前記第１の動画像について所定時間単位で前記代表フレームを決定させ、前記推奨フレーム情報により示されるフレームが前記所定時間単位の前記第１の動画像の終端を含む有効期間外のフレームである場合、前記情緒価値に関する情報としての前記第１の動画像のフレームの情緒価値を示すスコアに基づいて、前記所定時間単位の前記第１の動画像の終端を含む連続するフレームからなる期間内のフレームから前記代表フレームを決定させることができる。

　前記代表フレーム決定部には、前記第１の動画像の動画像データが格納されたストリームから前記情緒価値に関する情報を取得させることができる。

　本技術の一側面の画像処理方法またはプログラムは、第１の動画像から第２の動画像へと表示を切り替える場合に、前記第１の動画像を構成する所定フレームと、前記第２の動画像の動画像データとに基づいて、前記所定フレームから前記第２の動画像へと表示が遷移する遷移動画像の動画像データを生成するステップを含む。

　本技術の一側面においては、第１の動画像から第２の動画像へと表示を切り替える場合に、前記第１の動画像を構成する所定フレームと、前記第２の動画像の動画像データとに基づいて、前記所定フレームから前記第２の動画像へと表示が遷移する遷移動画像の動画像データが生成される。

　本技術の一側面によれば、より簡単に動画像切り替え時の違和感を低減させることができる。

　なお、ここに記載された効果は必ずしも限定されるものではなく、本開示中に記載された何れかの効果であってもよい。

映像遷移エフェクトについて説明する図である。クライアント装置の構成例を示す図である。ストリーミング再生処理を説明するフローチャートである。ビデオセグメントダウンロード処理を説明するフローチャートである。ビデオセグメント処理を説明するフローチャートである。ビデオデコード処理を説明するフローチャートである。映像遷移エフェクト実行処理を説明するフローチャートである。アルファブレンディングのブレンド比率の例を示す図である。アルファブレンディングのブレンド比率の例を示す図である。表示切り替えと映像遷移エフェクトの例を示す図である。表示切り替えと映像遷移エフェクトの例を示す図である。ビデオセグメント処理を説明するフローチャートである。ビデオデコード処理を説明するフローチャートである。表示切り替えと映像遷移エフェクトの例を示す図である。表示切り替えと映像遷移エフェクトの例を示す図である。代表フレーム情報の例を示す図である。ビデオセグメント処理を説明するフローチャートである。コンピュータの構成例を示す図である。

　以下、図面を参照して、本技術を適用した実施の形態について説明する。

〈第１の実施の形態〉
〈本技術について〉
　本技術は、動画像のスナップショットとして保持可能な静止画像、つまり１つのビデオフレームと動画像とを用いて映像遷移エフェクトを行うことで、より簡単に動画像切り替え時の違和感を低減させることができるようにするものである。

　例えば本技術は、MPEG-DASHストリーミング再生において、Representationの遷移時に遷移元動画像と遷移先動画像との間で映像遷移エフェクトを実施する場合に適用することができる。この場合、遷移元動画像のセグメントの終端近傍のフレームと遷移先動画像とに基づいて映像遷移エフェクトが実施され、遷移元動画像のフレームから遷移先動画像へと表示が遷移していく遷移動画像が生成される。

　例えば図１に示すように、互いに異なる視点のRepresentation#1の動画像とRepresentation#2の動画像とがあり、時刻ｔ１と時刻ｔ２において表示の切り替え、つまり視点の切り替えが行われたとする。また、矢印Ａ１１に示す動画像は、ユーザに対して提示される提示用の動画像を示している。

　この例では、時刻ｔ１まではRepresentation#1の動画像が再生されており、時刻ｔ１においてRepresentation#2の動画像へと表示の切り替えが指示されている。

　この場合、時刻ｔ１を終端とするRepresentation#1のセグメントSG11の最終フレームFL11と、時刻ｔ１を先頭とするRepresentation#2のセグメントSG12の動画像とが用いられてクロスフェードが行われ、期間Ｔ１の提示用の動画像PR11が生成される。

　このとき、最終フレームFL11が保持され、この最終フレームFL11とセグメントSG12の動画像との間で、映像遷移エフェクトとしてのクロスフェード処理が時間的に連続して行われ、遷移動画像である動画像PR11が生成される。特に、この例ではセグメントSG11の動画像が遷移元の動画像であり、セグメントSG12の動画像が遷移先の動画像となる。また、動画像PR11は、最終フレームFL11からセグメントSG12の動画像へと時間とともに表示が遷移する遷移動画像となる。

　時刻ｔ１以降の期間Ｔ１では、このようにして得られた動画像PR11が表示される。

　この動画像PR11は、時刻ｔ１では最終フレームFL11が表示されているが、その後、徐々に最終フレームFL11からセグメントSG12の動画像へと表示が遷移していく動画像となっている。換言すれば、動画像PR11は最終フレームFL11がフェードアウトしていき、セグメントSG12の動画像がフェードインしていく動画像となる。

　そのため、映像遷移エフェクトを実施せずにRepresentation#1の動画像からRepresentation#2の動画像へと表示を切り替える場合と比べて、切り替え時の違和感を低減させることができる。

　なお、以下、この例における期間Ｔ１など、動画像の再生期間のうちの映像遷移エフェクトが実施される期間を、特にエフェクト期間とも称することとする。

　また、期間Ｔ１の後は、Representation#2のセグメントSG13の動画像が再生され、時刻ｔ２において表示の切り替えが指示されると、動画像PR11と同様の動画像PR12が生成され、時刻ｔ２以降の期間Ｔ２では動画像PR12が再生される。

　すなわち、時刻ｔ２を終端とするRepresentation#2のセグメントSG13の最終フレームFL12と、時刻ｔ２を先頭とするRepresentation#1のセグメントSG14の動画像とが用いられてクロスフェードが行われ、期間Ｔ２の提示用の動画像PR12が生成される。

　このようにして遷移元の動画像の最終フレーム（静止画像）と、遷移先の動画像とに基づいて映像遷移エフェクトを実施することで、少ない処理量で簡単に動画像のノンシームレスな切り替えの違和感を低減させることができる。また、サーバ側で映像遷移エフェクトを施した動画像を用意する必要もない。

　しかも、この場合、遷移元の動画像についてはエフェクト期間のセグメントデータをダウンロードする必要がなくなる。さらに、遷移元については静止画像を用いるようにしたので、遷移元のエフェクト期間の動画像のデコード処理等が不要となり、２つの動画像を用いて映像遷移エフェクトを行う場合と比較して処理量を低減させることができる。

　なお、ここではエフェクト期間に表示される動画像を生成する映像遷移エフェクト処理、つまり映像遷移エフェクトとしてクロスフェードを行う場合を例として説明したが、その他、ワイプ処理など、映像遷移エフェクト処理はどのようなものであってもよい。例えば映像遷移エフェクト技術に関しては、SMPTE Standard 258Mなどにおいて規定されたものを用いることができる。

　また、ここではセグメントの最終フレームを映像遷移エフェクトに用いる例について説明したが、セグメントの終端近傍のフレームであれば、必ずしも最終フレームでなくてもよい。

　以上のように、本技術ではコンテンツを再生するクライアント側において、セグメントから抽出された静止画像である各セグメントの所定フレームが保持される。より詳細には、後述するが映像遷移エフェクトが行われる期外にある、セグメントの最終フレームが保持される。そして、遷移元の動画像から、遷移先の動画像へと表示を切り替える場合には、遷移元の動画像の切り替え前の最後のセグメントにおける最終フレーム等の所定フレーム（静止画像）と、遷移先の動画像の動画像データとに基づいて映像遷移エフェクトを実現する映像遷移エフェクト処理が行われ、遷移元の動画像の所定フレームから、遷移先の動画像へと表示が遷移していく遷移動画像の動画像データが生成される。

　ここで、MPEG-DASHストリーミング再生について説明する。

　再生装置はストリーミングデータの制御用ソフトウェア（以下、制御用ソフトウェアとも称する）、動画再生ソフトウェア、HTTP（Hypertext Transfer Protocol）アクセス用のクライアント・ソフトウェア（以下、アクセス用ソフトウェアと称する）等を実行する。

　制御用ソフトウェアは、Webサーバからストリーミングするデータを制御するソフトウェアである。例えば、制御用ソフトウェアは、WebサーバからMPD（Media Presentation Description）ファイルを取得する。また、制御用ソフトウェアは、例えば、そのMPDファイルや動画再生ソフトウェアにより指定される再生時刻等を表す再生時刻情報、およびインターネットのネットワーク帯域に基づいて、再生対象のセグメントデータの送信要求を、アクセス用ソフトウェアに指令する。

　動画再生ソフトウェアは、インターネットを介してWebサーバから取得された符号化ストリームを再生するソフトウェアである。例えば、動画再生ソフトウェアは、再生時刻情報を制御用ソフトウェアに指定する。また、動画再生ソフトウェアは、アクセス用ソフトウェアから受信開始の通知を取得すると、アクセス用ソフトウェアから供給される符号化ストリームを復号する。動画再生ソフトウェアは、復号の結果得られるビデオデータ（動画像データ）やオーディオデータを出力する。

　アクセス用ソフトウェアは、HTTPを用いたWebサーバとの通信を制御するソフトウェアである。例えば、アクセス用ソフトウェアは、受信開始の通知を動画再生ソフトウェアに供給する。また、アクセス用ソフトウェアは、制御用ソフトウェアの指令に応じて、再生対象のセグメントデータの符号化ストリームの送信要求をWebサーバに送信する。

　さらに、アクセス用ソフトウェアは、その送信要求に応じてWebサーバから送信されてくる、通信環境等に応じたビットレートのセグメントデータを受信する。そして、アクセス用ソフトウェアは、その受信したセグメントデータから符号化ストリームを抽出し、動画再生ソフトウェアに供給する。

〈クライアント装置の構成例〉
　次に、本技術を適用したより具体的な実施の形態について説明する。

　図２は、本技術を適用したクライアント装置の一実施の形態の構成例を示す図である。

　図２に示すクライアント装置１１は再生装置であり、ネットワークを介してサーバからコンテンツのデータ、すなわち動画像データを受信するとともに、動画像データに対してデコード等の処理を行って、得られた動画像データを表示装置１２に供給して表示させる。

　クライアント装置１１では、ダウンロードやその後の処理等、コンテンツの動画像データは、基本的にはセグメントと呼ばれる所定時間単位、つまり所定フレーム数単位で取り扱われる。

　クライアント装置１１はユーザイベントハンドラ２１、制御部２２、ダウンローダ２３、ビデオトラックバッファ２４、MP4パーサ２５、ビデオＡＵ（Access Unit）バッファ２６、ビデオデコーダ２７、スイッチ２８、ビデオフレームバッファ２９、静止画バッファ３０、ビデオクロスフェーダ３１、およびビデオレンダラ３２を有している。

　ユーザイベントハンドラ２１は、例えばAdaptation Setの切り替え操作など、ユーザの操作に応じた信号を制御部２２に供給する。

　制御部２２は、上述した制御用ソフトウェアに対応し、サーバからMPDファイルを取得するとともに、取得したMPDファイルに基づいてクライアント装置１１の各部を制御する。

　また、制御部２２はMPDパーサ４１を有している。MPDパーサ４１は、サーバからMPDファイルをダウンロードしてパース（解析）し、MPDファイルからセグメント情報を取得する。また、MPDパーサ４１は、取得したセグメント情報に基づいてダウンローダ２３を制御し、コンテンツの動画像データが格納されたビデオセグメントデータ（セグメントデータ）を取得させる。

　ダウンローダ２３は、上述したアクセス用ソフトウェアに対応し、MPDパーサ４１の制御に従ってサーバからビデオセグメントデータをダウンロードする。また、ダウンローダ２３は、ダウンロードしたビデオセグメントデータをビデオトラックバッファ２４に供給し、一時的に保持させる。

　なお、ビデオセグメントデータは、サーバ等のネットワーク上の装置に限らず、記録媒体等から取得するなどしてもよい。

　ビデオトラックバッファ２４はメモリなどからなり、ダウンローダ２３から供給されたビデオセグメントデータを一時的に保持するとともに、保持しているビデオセグメントデータをMP4パーサ２５に供給する。

　MP4パーサ２５は、ビデオトラックバッファ２４からビデオセグメントデータを読み出すとともに、ビデオセグメントデータをビデオＡＵと呼ばれる所定単位のデータに分離してビデオＡＵバッファ２６に供給する。

　ビデオＡＵバッファ２６はメモリなどからなり、MP4パーサ２５から供給されたビデオＡＵを一時的に保持するとともに、保持しているビデオＡＵをビデオデコーダ２７に供給する。

　ビデオデコーダ２７は、ビデオＡＵバッファ２６からビデオＡＵを読み出してデコード（復号）するとともに、デコードにより得られた動画像データ、より詳細には動画像のフレーム（以下、ビデオフレームとも称する）をスイッチ２８を介してビデオフレームバッファ２９に供給する。また、ビデオデコーダ２７は、制御部２２から指示があった場合、ビデオセグメントデータの最後のビデオフレーム、つまりセグメントの最後のビデオフレームを最終フレームとしてスイッチ２８を介して静止画バッファ３０に供給する。

　スイッチ２８は、ビデオデコーダ２７から供給されたビデオフレームの出力先を切り替える。すなわち、スイッチ２８は、ビデオデコーダ２７から供給されたビデオフレームをビデオフレームバッファ２９または静止画バッファ３０に供給する。

　ビデオフレームバッファ２９はメモリなどからなる保持部であり、スイッチ２８を介してビデオデコーダ２７から供給されたビデオフレームを保持するとともに、保持しているビデオフレームをビデオクロスフェーダ３１に供給する。基本的には、ビデオデコーダ２７におけるデコードにより得られた動画像データ、つまり動画像のビデオフレームは、全てビデオフレームバッファ２９に供給されて保持される。

　静止画バッファ３０はメモリなどからなる保持部であり、スイッチ２８を介してビデオデコーダ２７から供給された最終フレームを保持するとともに、保持している最終フレームをビデオクロスフェーダ３１に供給する。

　ビデオクロスフェーダ３１は、ビデオフレームバッファ２９に保持されているビデオフレームと、静止画バッファ３０に保持されている最終フレームとに基づいて映像遷移エフェクトを施す映像遷移エフェクト処理を行い、その結果得られた遷移動画像の動画像データのフレームをビデオレンダラ３２に供給する。この場合、ビデオクロスフェーダ３１は、遷移動画像の動画像データを生成する動画像生成部として機能する。

　また、ビデオクロスフェーダ３１は、映像遷移エフェクトを行わない期間では、ビデオフレームバッファ２９に保持されているビデオフレームをそのままビデオレンダラ３２に供給する。

　ビデオレンダラ３２は、ビデオクロスフェーダ３１から供給された動画像データのフレームを外部の表示装置１２に供給し、表示させる。

　クライアント装置１１では、ビデオトラックバッファ２４乃至ビデオレンダラ３２が、上述した動画再生ソフトウェアに対応する。

〈ストリーミング再生処理の説明〉
　次に、クライアント装置１１の動作について説明する。

　クライアント装置１１の制御部２２はダウンローダ２３を制御して、ユーザ等により指定されたAdaptation Setについて、自身が選択したRepresentationのビデオセグメントデータをダウンロードさせる。そして、制御部２２は、得られたビデオセグメントデータに基づいてコンテンツの動画像をストリーミング再生させる。

　コンテンツを再生する場合、例えばユーザによりAdaptation Setが選択され、選択されたAdaptation Setについて用意された複数のRepresentationのなかから、制御部２２により適切な１つのRepresentationが選択される。そして、その後はネットワーク帯域等に応じて、適宜、制御部２２によりRepresentationが切り替えられる。

　コンテンツのストリーミング再生時には、クライアント装置１１では、少なくとも以下の５つのデータが保持されているようになされる。

　（１）最終フレーム
　（２）ビデオフレーム幅
　（３）ビデオフレーム高さ
　（４）ビデオフォーマット
　（５）エフェクト開始時刻ｔｓ

　ここで、最終フレームはセグメントの時間的に最後のフレーム、つまり時間的に最後のビデオサンプルであり、動画像データのデコード後の最終フレームのピクセル値がそのままコピーされて静止画バッファ３０に保持される。特に、この例では、基本的には各セグメントの最終フレームが必ず静止画バッファ３０に保持されるように制御される。

　ビデオフレーム幅およびビデオフレーム高さは、ビデオフレームのサイズ（ピクセル数）を示す横方向の長さ（ピクセル数）および縦方向の長さ（ピクセル数）を示す情報である。さらに、ビデオフォーマットは、例えばＹＵＶ４：２：０などのビデオセグメントデータに基づいて再生される動画像の形式を示す制御値である。

　これらのビデオフレーム幅、ビデオフレーム高さ、ビデオフォーマットは制御部２２によってMPDファイルから抽出され、適宜、ビデオデコーダ２７やビデオクロスフェーダ３１などに供給される。

　エフェクト開始時刻ｔｓは、エフェクト期間の開始時刻を示す情報であり、エフェクト期間の開始時に提示（表示）されるビデオフレームの表示時刻（msec）がエフェクト開始時刻ｔｓとされる。なお、基本的にはエフェクト開始時刻ｔｓはセグメントの先頭のビデオフレームの表示時刻とされ、エフェクト開始時刻ｔｓは制御部２２により管理される。

　例えばビデオフレームの表示時刻として、ビデオセグメントデータに含まれているビデオフレームのCTS（Composition Time Stamp）が用いられる。MP4パーサ２５やビデオデコーダ２７、ビデオクロスフェーダ３１では、各ビデオフレームに対応付けられた表示時刻（CTS）を参照することができるようになされている。以下では、処理対象となっているビデオフレームの表示時刻を表示時刻ｔとも記すこととする。

　さらに、クライアント装置１１では、エフェクト期間の長さを示すエフェクト期間長ｄ（msec）が予め設定されており、このエフェクト期間長ｄは制御部２２により管理される。例えばエフェクト期間長ｄは予め定められた長さとされてもよいし、ユーザ等により指定された長さとされてもよいし、コンテンツに対して予め定められた長さであってもよい。

　例えばエフェクト期間長ｄとすべき時間を示す情報がMPDファイル内に格納可能な場合には、コンテンツ提供者がエフェクト期間長ｄを指定することができるようになる。

　エフェクト期間長ｄはセグメントの長さ、つまり１つのビデオセグメントの再生時間長を超える長さとされてもよい。

　さらに、制御部２２ではコンテンツのシーン変更の検出結果、つまり異なるAdaptation SetのRepresentationへの変更の検出結果を示すシーン変更検出フラグが管理される。

　このシーン変更検出フラグは、シーン変更が生じるようなRepresentationの切り替え、つまり他のRepresentationへの遷移が発生したか否かを示す情報である。

　例えばRepresentationの切り替え（遷移）がAdaptation Setの切り替えに起因する場合、つまり現時点でのAdaptation Setとは異なる他のAdaptation SetのRepresentationへの切り替えが発生した場合、シーン変更検出フラグの値は「１」とされる。

　現時点で所定のAdaptation SetにおけるRepresentationの動画像が再生されており、その後、他のAdaptation SetにおけるRepresentationの動画像が再生されるように再生動画像の切り替え（表示切り替え）の指示がなされたとする。

　この場合、切り替え前の動画像と、切り替え後の動画像とでは表示される画像（映像）が異なり、シーン変更となるため、表示切り替え時に違和感が生じないようにするために映像遷移エフェクトの実施が必要となる。

　これに対して、例えばRepresentationの切り替えが同一Adaptation Set内の異なるRepresentationへの切り替えである場合、つまり切り替え前後でRepresentationは異なるもののAdaptation Setについては変化しない場合、シーン変更検出フラグの値は「０」とされる。

　これは、同一のAdaptation Setについて用意された所定のRepresentationから他のRepresentationへと切り替えを行っても切り替えの前後で画質等は異なるものの映像自体は変化しないためシーン変更とはならず、特に映像遷移エフェクトを実施しなくてもよいからである。

　制御部２２は、ユーザイベントハンドラ２１から供給された信号に基づいて、適宜、保持しているシーン変更検出フラグの値を更新する。

　次に、クライアント装置１１により行われる具体的な処理について説明する。

　すなわち、以下、図３のフローチャートを参照してクライアント装置１１により行われるストリーミング再生処理について説明する。このストリーミング再生処理は、ユーザによりコンテンツのAdaptation Setが指定されたときに開始される。

　ステップＳ１１において、制御部２２は映像遷移エフェクトの初期設定を行う。

　例えば制御部２２は、予め定められた値やMPDファイル内で指定された値などをエフェクト期間長ｄの値として設定するとともにエフェクト開始時刻ｔｓの値を－１とする。

　エフェクト期間長ｄやエフェクト開始時刻ｔｓの値は、例えばミリ秒を単位とする整数値とされ、それらの値が０または負値である場合には映像遷移エフェクトは実施されないようになされている。

　また、制御部２２は処理対象のセグメント、すなわちダウンロードするセグメントデータを特定するセグメントインデックスの値を０とする。

　その他、制御部２２では、ビデオフレーム幅やビデオフレーム高さ、ビデオフォーマットなどが予めMPDファイルから読み出され、保持されている。

　ステップＳ１２において制御部２２は保持しているセグメントインデックスの値を１だけインクリメントする。

　ステップＳ１３において、制御部２２は保持しているシーン変更検出フラグの値を０とする。

　ステップＳ１４において、制御部２２はユーザイベントハンドラ２１から供給された信号に基づいて、Adaptation Setの切り替え（遷移）があるか否かを判定する。

　ステップＳ１４においてAdaptation Setの切り替えがあると判定された場合、ステップＳ１５において制御部２２は、保持しているシーン変更検出フラグの値を１とする。これにより、処理対象となっているセグメントにおいてシーン変更が発生することが分かる。

　例えばMP4パーサ２５やビデオデコーダ２７では、ビデオトラックバッファ２４に保持されているビデオセグメントデータがダウンロードされたタイミングは分明ではない。そのため、MP4パーサ２５やビデオデコーダ２７が、どのタイミングでAdaptation Setの切り替えがあったかを正確に特定することは困難である。

　そこで、クライアント装置１１では、制御部２２がユーザイベントハンドラ２１から供給された信号に基づいてシーン変更検出フラグの値を設定し、MP4パーサ２５やビデオデコーダ２７がシーン変更検出フラグからAdaptation Setの切り替えタイミングを特定することができるようにされている。

　シーン変更検出フラグの値は、Representationの切り替えがAdaptation Setの切り替えにより発生したときにだけ１とされ、それ以外の場合は０とされるようにすれば、シーン変更検出フラグから映像遷移エフェクト実施の必要性を判別することができる。

　シーン変更検出フラグが１に更新されると、その後、処理はステップＳ１６へと進む。

　これに対して、ステップＳ１４においてAdaptation Setの切り替えがないと判定された場合、処理はステップＳ１６へと進む。

　ステップＳ１４においてAdaptation Setの切り替えがないと判定されたか、またはステップＳ１５においてシーン変更検出フラグが更新されると、ステップＳ１６において制御部２２は、処理対象のセグメントのコンテンツ種別がビデオであるか否かを判定する。

　ステップＳ１６においてコンテンツ種別がビデオであると判定された場合、ステップＳ１７においてクライアント装置１１はビデオセグメントダウンロード処理を行う。

　なお、詳細は後述するがビデオセグメントダウンロード処理では、制御部２２がダウンローダ２３に処理対象のセグメントのビデオセグメントデータのダウンロードを指示し、ダウンローダ２３はその指示に従ってビデオセグメントデータをダウンロードする。また、ダウンロードされたビデオセグメントデータに基づいて動画像が再生される。

　ビデオセグメントダウンロード処理が行われると、その後、処理はステップＳ１９に進む。

　これに対して、ステップＳ１６においてコンテンツ種別がビデオでないと判定された場合、ステップＳ１８においてクライアント装置１１は、コンテンツ種別に応じた処理を行い、その後、処理はステップＳ１９へと進む。

　例えばコンテンツ種別がオーディオである場合、クライアント装置１１はステップＳ１８においてオーディオのセグメントデータをダウンロードし、得られたセグメントデータに基づいて音声の再生を行う。

　ステップＳ１７においてビデオセグメントダウンロード処理が行われたか、またはステップＳ１８においてコンテンツ種別に応じた処理が行われると、ステップＳ１９において制御部２２は全てのセグメントについて処理を行ったか否かを判定する。

　ステップＳ１９において、まだ全てのセグメントについて処理を行っていないと判定された場合、つまりまだ処理すべきセグメントが残っている場合、処理はステップＳ１２に戻り、上述した処理が繰り返し行われる。

　これに対して、ステップＳ１９において全てのセグメントについて処理を行ったと判定された場合、コンテンツの再生が終了したので、ストリーミング再生処理は終了する。

　以上のようにしてクライアント装置１１は、ビデオセグメントデータ等をダウンロードして動画像等を再生し、Adaptation Setの切り替えが発生したときにはシーン変更検出フラグの値を１とする。

〈ビデオセグメントダウンロード処理の説明〉
　続いて、図４のフローチャートを参照して、図３のステップＳ１７の処理に対応し、クライアント装置１１により行われるビデオセグメントダウンロード処理について説明する。

　ステップＳ５１において、制御部２２はMPDパーサ４１で得られるMPDファイルに基づいて、コンテンツの再生が終了したか否かを判定する。例えばセグメントインデックスの値が、コンテンツの最後のセグメントのセグメントインデックスの値よりも大きい場合、コンテンツの再生が終了したと判定される。

　ステップＳ５１において再生が終了したと判定された場合、ダウンロードするビデオセグメントデータはないので、ビデオセグメントダウンロード処理は終了する。この場合、その後に行われる図３のステップＳ１９の処理では、全てのセグメントについて処理を行ったと判定されることになる。

　これに対して、ステップＳ５１において再生が終了していないと判定された場合、すなわち、まだダウンロードすべきビデオセグメントデータが残っている場合、制御部２２はダウンロードすべきビデオセグメントデータをダウンローダ２３に指示し、処理はステップＳ５２へと進む。

　ステップＳ５２において、ダウンローダ２３は、ビデオトラックバッファ２４に、新たなビデオセグメントデータを格納可能な空き容量があるか否かを判定する。

　ステップＳ５２において空き容量があると判定された場合、その後、処理はステップＳ５４へと進む。

　これに対して、ステップＳ５２において空き容量がないと判定された場合、ステップＳ５３において、ダウンローダ２３はビデオトラックバッファ２４に十分な空き容量が生じるまで、制御部２２により指定されたビデオセグメントデータのダウンロードを行わずに待機する。

　そして、ビデオトラックバッファ２４に十分な空き容量が生じると、その後、処理はステップＳ５４へと進む。

　ステップＳ５２において空き容量があると判定されたか、またはステップＳ５３において待機が行われると、ステップＳ５４において、ダウンローダ２３は、制御部２２により指定されたビデオセグメントデータをサーバからダウンロードする。すなわち、ダウンローダ２３は、サーバから送信されてきたビデオセグメントデータを受信する。

　ステップＳ５５において、ダウンローダ２３は、ダウンロードしたビデオセグメントデータをビデオトラックバッファ２４に供給して保持させる。

　ステップＳ５６において、クライアント装置１１はビデオセグメント処理を行う。なお、詳細は後述するが、ビデオセグメント処理では、ビデオトラックバッファ２４に保持されているビデオセグメントデータがMP4パーサ２５により読み出されてパースされたり、ビデオセグメントデータがデコードされたり、動画像データに対して映像遷移エフェクトが施されたりする。

　ステップＳ５７において、MP4パーサ２５は、ステップＳ５６で処理されたビデオセグメントデータをビデオトラックバッファ２４から削除する。すなわち、処理済みのビデオセグメントデータが破棄される。

　ステップＳ５７の処理が行われ、不要となったビデオセグメントデータが破棄されると、ビデオセグメントダウンロード処理は終了する。

　以上のようにしてクライアント装置１１は、順次、ビデオセグメントデータをダウンロードして処理していく。

〈ビデオセグメント処理の説明〉
　また、図５のフローチャートを参照して、図４のステップＳ５６の処理に対応し、クライアント装置１１により行われるビデオセグメント処理について説明する。

　ステップＳ８１において、MP4パーサ２５はビデオトラックバッファ２４から１セグメント分のビデオセグメントデータを読み出す。

　ステップＳ８２において、MP4パーサ２５はビデオＡＵに対するパースを行う。

　すなわち、MP4パーサ２５はステップＳ８１の処理で読み出したビデオセグメントデータを構成するビデオＡＵを順番に処理対象のビデオＡＵとして選択していく。

　MP4パーサ２５は処理対象のビデオＡＵに対してパースを行った後、処理対象のビデオＡＵをビデオＡＵバッファ２６に供給して保持させる。なお、１つのビデオＡＵは、動画像の１フレーム分のデータとなっている。

　ステップＳ８３において、MP4パーサ２５は、処理対象のビデオＡＵがビデオセグメントデータの先頭のビデオＡＵであり、かつ制御部２２に保持されているシーン変更検出フラグの値が１であるか否かを判定する。

　例えばMPEG-DASHストリーミング再生では、Representationが切り替わるタイミングはセグメント先頭のタイミングとなることから、セグメント先頭のビデオＡＵはシーン変更が発生するタイミング、つまりエフェクト期間の開始時刻となる可能性がある。

　ステップＳ８３において先頭のビデオＡＵでないか、またはシーン変更検出フラグの値が１でないと判定された場合、処理はステップＳ８６へと進む。

　これに対して、ステップＳ８３において先頭のビデオＡＵであり、かつシーン変更検出フラグの値が１であると判定された場合、処理はステップＳ８４へと進む。

　ステップＳ８４において、MP4パーサ２５は処理対象のビデオＡＵの表示時刻ｔ、すなわちビデオＡＵに対応するビデオフレームの表示時刻ｔと、制御部２２に保持されているエフェクト開始時刻ｔｓおよびエフェクト期間長ｄとに基づいて、エフェクト期間中であるか否かを判定する。

　例えば以下のような条件で映像遷移エフェクトを実施すれば、エフェクト期間長がセグメント長を超えても映像遷移エフェクトに破綻が生じないようにすることができる。

　すなわち、０≦ｔｓ、かつｔｓ≦ｔ、かつｔ≦ｔｓ+ｄを満たす場合に、表示時刻ｔのビデオフレームはエフェクト期間内のビデオフレームであるとされればよい。

　したがって、ステップＳ８４では、例えばエフェクト開始時刻ｔｓが０以上であり、かつ表示時刻ｔがエフェクト開始時刻ｔｓ以上であり、かつ表示時刻ｔがエフェクト開始時刻ｔｓとエフェクト期間長ｄの和以下である場合、エフェクト期間中であると判定される。

　ステップＳ８４においてエフェクト期間中でないと判定された場合、ステップＳ８５において、MP4パーサ２５はステップＳ８２で処理対象としたビデオＡＵの表示時刻ｔ、すなわち処理対象のビデオＡＵのCTSの値をエフェクト開始時刻ｔｓとする。つまり、処理対象のビデオＡＵのCTSの値がエフェクト開始時刻ｔｓに代入される。

　これにより、Adaptation Setの切り替え（遷移）を含むRepresentationの切り替えが生じたタイミングにおけるセグメントの先頭のビデオＡＵに対応付けられている表示時刻が新たなエフェクト開始時刻ｔｓとされる。このようなビデオＡＵは、切り替え先のAdaptation Setの最初のセグメントの先頭のビデオＡＵである。

　なお、クライアント装置１１では、特にエフェクト開始時刻ｔｓには制約はないが、一般的には、１つのセグメント内では一続きのシーンが記録されているか、またはシーンチェンジを含んでいても編集された状態のものが記録されている。そのため、セグメントの途中の時刻がエフェクト開始時刻ｔｓに設定されることは異例である。

　このようにしてエフェクト開始時刻ｔｓが設定されると、そのエフェクト開始時刻ｔｓが制御部２２に供給され、その後、処理はステップＳ８６へと進む。

　一方、ステップＳ８４においてエフェクト期間中であると判定された場合、エフェクト開始時刻ｔｓは既に定められているのでステップＳ８５の処理は行われず、処理はステップＳ８６へと進む。

　ステップＳ８３において先頭のビデオＡＵでないか、若しくはシーン変更検出フラグの値が１でないと判定されたか、ステップＳ８５の処理が行われたか、またはステップＳ８４においてエフェクト期間中であると判定された場合、ステップＳ８６の処理が行われる。

　ステップＳ８６において、クライアント装置１１は、ビデオデコード処理を行ってビデオＡＵバッファ２６に保持されている処理対象のビデオＡＵをデコードする。なお、ビデオデコード処理の詳細は後述する。

　ステップＳ８７において、MP4パーサ２５はセグメント終端に到達したか否かを判定する。例えば処理対象のビデオＡＵがセグメント、つまりビデオセグメントデータの最後のビデオＡＵとなった場合、セグメント終端に到達したと判定される。

　ステップＳ８７において、まだセグメント終端に到達していないと判定された場合、ステップＳ８１で読み出されたビデオセグメントデータのデコードが終了していないので、処理はステップＳ８２に戻り、上述した処理が繰り返し行われる。

　これに対して、ステップＳ８７においてセグメント終端に到達したと判定された場合、ステップＳ８８において、ビデオデコーダ２７はエフェクト期間中であるか否かを判定する。ステップＳ８８では、ビデオデコーダ２７に入力されたビデオＡＵの表示時刻ｔが用いられて、ステップＳ８４における場合と同様の処理が行われる。

　ステップＳ８８においてエフェクト期間中でないと判定された場合、ステップＳ８９において、ビデオデコーダ２７は、ステップＳ８６の処理で得られたセグメントの最終フレームを、スイッチ２８を介して静止画バッファ３０に供給し、保持させる。

　このとき、ビデオデコーダ２７は、制御部２２で保持されているビデオフレーム幅、ビデオフレーム高さ、およびビデオフォーマットに基づいて、静止画バッファ３０に最終フレームを保持させるのに必要な記録領域を確保する。

　例えば最終フレームの保持に必要な記録領域のサイズは、ビデオフレーム幅、ビデオフレーム高さ、およびビデオフォーマットによって定まり、この記録領域のサイズは、各セグメントの再生開始時刻のタイミングで決定することができる。

　具体的には、例えばビデオフレーム幅が3840ピクセルであり、ビデオフレーム高さが2160ピクセルであるとする。また、ビデオフォーマットがＹＵＶ４：２：０形式、つまり正方２×２ピクセルのうちＵ信号を上２ピクセルから１ピクセル取りＶ信号を下２ピクセルから１ピクセル取る方式であるとする。

　このような場合には、3840×2160×3/2＝12441600バイトの記録領域を最終フレーム保持のための領域として確保すればよい。

　以上の処理により、クライアント装置１１では終端部分がエフェクト期間に含まれない全てのセグメント、つまり遷移元のセグメントとして映像遷移エフェクトに用いられる可能性のあるセグメントについては、必ずセグメントの時間的に最後のビデオフレームが最終フレームとして静止画バッファ３０に保持されることになる。したがって、そのセグメントの次のセグメントで他のRepresentationへの遷移があるときでも、次のセグメント以降のビデオセグメントデータと、静止画バッファ３０に保持されている最終フレームとを用いて、直ちに映像遷移エフェクトを行うことができる。

　最終フレームが静止画バッファ３０に保持されると、その後、処理はステップＳ９０へと進む。

　一方、ステップＳ８８においてエフェクト期間中であると判定された場合、エフェクト期間に含まれる最終フレームは映像遷移エフェクトには使用されることはないので、ステップＳ８９の処理は行われず、処理はステップＳ９０へと進む。

　ステップＳ８８においてエフェクト期間中であると判定されたか、またはステップＳ８９の処理が行われると、ステップＳ９０の処理が行われる。

　ステップＳ９０においてMP4パーサ２５はビデオトラックバッファ２４に、ステップＳ８１で読み出したビデオセグメントデータの次のビデオセグメントデータがあるか否かを判定する。

　ステップＳ９０において、まだ次のビデオセグメントデータがあると判定された場合、処理はステップＳ８１に戻り、上述した処理が繰り返し行われる。

　これに対して、ステップＳ９０において次のビデオセグメントデータがないと判定された場合、ビデオセグメント処理は終了する。

　以上のようにしてクライアント装置１１は、終端部分がエフェクト期間に含まれないセグメントの最後のビデオフレームを映像遷移エフェクト用のフレームとして静止画バッファ３０に保持する。これにより、静止画バッファ３０に保持されたビデオフレーム（最終フレーム）を用いて、より簡単に、すなわちより少ない処理量で映像遷移エフェクトを実施し、表示の切り替え時における違和感を低減させることができる。

〈ビデオデコード処理の説明〉
　さらに、図６のフローチャートを参照して、図５のステップＳ８６の処理に対応し、クライアント装置１１により行われるビデオデコード処理について説明する。

　ステップＳ１２１において、ビデオデコーダ２７は、ビデオＡＵバッファ２６からビデオＡＵを１つ読み出す。そしてステップＳ１２２において、ビデオデコーダ２７は読み出したビデオＡＵに対してデコード（復号）を行う。

　ステップＳ１２３において、ビデオデコーダ２７はステップＳ１２２のデコードでエラーが発生したか否かを判定する。

　ステップＳ１２３においてエラーが発生したと判定された場合、ビデオデコード処理は終了する。

　これに対してステップＳ１２３においてエラーが発生していないと判定された場合、ステップＳ１２４において、ビデオデコーダ２７はデコードの結果として得られたビデオフレームを、スイッチ２８を介してビデオフレームバッファ２９に供給し、保持させる。

　このとき、ビデオデコーダ２７は、制御部２２で保持されているビデオフレーム幅、ビデオフレーム高さ、およびビデオフォーマットに基づいてビデオフレームバッファ２９に必要な記録領域を確保する。

　ステップＳ１２５においてビデオクロスフェーダ３１は、映像遷移エフェクト実行処理を行って、提示用（表示用）のビデオフレームを動画像データの１フレーム分のデータとして生成し、ビデオレンダラ３２に供給する。

　なお、詳細は後述するが映像遷移エフェクト実行処理では、必要に応じてビデオフレームバッファ２９に保持されているビデオフレームと、静止画バッファ３０に保持されている最終フレームとに基づいて提示用のビデオフレームが生成される。

　ステップＳ１２６において、ビデオレンダラ３２は、ビデオクロスフェーダ３１から供給された提示用のビデオフレームに対してレンダリング処理を行い、得られたビデオフレーム、つまり動画像データを表示装置１２に供給して動画像を表示させる。

　表示装置１２に動画像データが供給されると、ビデオデコード処理は終了する。なお、このビデオデコード処理は、ビデオＡＵバッファ２６に保持されているビデオＡＵがなくなるまでビデオＡＵごとに行われる。

　以上のようにしてクライアント装置１１は、ビデオＡＵ単位でビデオセグメントデータをデコードし、必要に応じて映像遷移エフェクトを施す。

〈映像遷移エフェクト実行処理の説明〉
　次に、図７のフローチャートを参照して、図６のステップＳ１２５の処理に対応し、ビデオクロスフェーダ３１により行われる映像遷移エフェクト実行処理について説明する。例えばこの映像遷移エフェクト実行処理はビデオフレームごとに行われる。

　ステップＳ１５１においてビデオクロスフェーダ３１は、ビデオフレームバッファ２９に保持されているビデオフレームの表示時刻ｔと、制御部２２に保持されているエフェクト開始時刻ｔｓおよびエフェクト期間長ｄとに基づいて、エフェクト期間中であるか否かを判定する。ステップＳ１５１では、図５のステップＳ８４と同様の処理が行われる。

　ステップＳ１５１においてエフェクト期間中でないと判定された場合、ステップＳ１５２の処理が行われる。

　ステップＳ１５２において、ビデオクロスフェーダ３１は、ビデオフレームバッファ２９に保持されているビデオフレームをそのまま提示用のビデオフレームとしてビデオレンダラ３２に出力し、映像遷移エフェクト実行処理は終了する。

　エフェクト期間でない場合、ビデオフレームバッファ２９に保持されているもとのビデオフレームに対して特に映像遷移エフェクトを施す必要はないので、そのビデオフレームがそのまま提示用のビデオフレームとして出力される。

　なお、より詳細にはビデオフレームの大きさ、すなわち幅と高さはRepresentationごとに定められているが、ビデオクロスフェーダ３１は必要に応じてビデオフレームのサイズを予め定められたサイズのビデオフレームに変換してから出力する。

　これに対して、ステップＳ１５１においてエフェクト期間中であると判定された場合、処理はステップＳ１５３へと進む。

　ステップＳ１５３において、ビデオクロスフェーダ３１は、静止画バッファ３０に保持されている静止画像である最終フレームの大きさと、ビデオフレームバッファ２９に保持されている動画像であるビデオフレームの大きさとが同じであるか否かを判定する。

　ステップＳ１５３において、大きさが同じであると判定された場合、ビデオクロスフェーダ３１は、静止画バッファ３０から最終フレームを読み出すとともにビデオフレームバッファ２９からビデオフレームを読み出して、処理はステップＳ１５５へと進む。

　これに対して、ステップＳ１５３において大きさが同じでないと判定された場合、ビデオクロスフェーダ３１は、静止画バッファ３０から最終フレームを読み出すとともにビデオフレームバッファ２９からビデオフレームを読み出し、処理はステップＳ１５４に進む。

　ステップＳ１５４において、ビデオクロスフェーダ３１は、読み出した最終フレームに対してサイズ変換処理を行って、最終フレームの大きさをビデオフレームバッファ２９から読み出したビデオフレームの大きさに合わせる。すなわち、最終フレームとビデオフレームとが同じ大きさとなるようにリサイズ処理（サイズ変換処理）が行われる。

　最終フレームとビデオフレームのサイズ合わせが行われると、その後、処理はステップＳ１５５へと進む。

　ステップＳ１５４の処理が行われたか、またはステップＳ１５３において大きさが同じであると判定されると、ステップＳ１５５において、ビデオクロスフェーダ３１は、最終フレームとビデオフレームに基づいて映像遷移エフェクト処理を行う。

　これにより、映像遷移エフェクトが実施され、遷移動画像のフレームが提示用のビデオフレームとして得られる。この場合、表示（視点）の切り替え前、つまり遷移前の最後のセグメントにおける時間的に最後のフレームが最終フレームとして用いられて、遷移動画像のフレーム（動画像データ）が生成されることになる。

　ビデオクロスフェーダ３１は、映像遷移エフェクト処理により得られた提示用のビデオフレームをビデオレンダラ３２に供給し、映像遷移エフェクト実行処理は終了する。

　例えばビデオクロスフェーダ３１は、映像遷移エフェクト処理としてクロスフェード処理やワイプ処理などを行う。

　具体的には、例えば映像遷移エフェクト処理としてクロスフェード、すなわちアルファブレンディングを用いたディゾルブを行う場合、フェードイン側のフレームであるビデオフレームと、フェードアウト側のフレームである最終フレームとが所定のアルファ値によりブレンドされて提示用のビデオフレームが生成される。つまり、所定の合成比率（混合比率）によりビデオフレームと最終フレームが合成されて提示用のビデオフレームとされる。

　ここで、アルファ値はビデオフレームと最終フレームとのブレンド比率（混合比率）を示しており、例えばフェードアウト側のフレームのアルファ値をαとする。

　この場合、アルファ値αは、フェードイン側のビデオフレームの表示時刻ｔに応じて、つまりエフェクト期間中のどの時刻であるかに応じて１００％から０％まで線形または非線形に変化する。

　例えばアルファ値αは、図８に示すようにエフェクト開始時刻ｔｓからエフェクト期間の終了時刻ts+dまで線形に減少するようにしてもよい。なお、図８において縦軸はアルファ値α、つまりフェード比率（ブレンド比率）を示しており、横軸はビデオフレームの表示時刻ｔ、つまり提示用のビデオフレームの表示時刻を示している。

　この例では、アルファ値αは、エフェクト開始時刻ｔｓで１００％とされ、エフェクト期間の終了時刻ts+dで０％とされ、その間の時刻でアルファ値αが単調に減少している。すなわち、表示時刻ｔにおけるアルファ値αは、α＝100×（d-t+ts）/dにより求まる値とされる。この場合、フェードイン側のフレームのブレンド比率は、エフェクト開始時刻ｔｓからエフェクト期間の終了時刻ｔｓ＋ｄの間で、０％から１００％まで線形に（単調に）増加していくことになる。

　その他、線形関数を複数組み合わせることで、アルファ値αが例えば図９に示すように非線形に変化するようにしてもよい。なお、図９において縦軸はアルファ値α、つまりフェード比率を示しており、横軸はビデオフレームの表示時刻ｔ、つまり提示用のビデオフレームの表示時刻を示している。

　この例では、アルファ値αは時間とともに非線形に変化しており、アルファ値αの変化を示す傾きが時間とともに緩やかになっている。

　この例では、エフェクト開始時刻ｔｓから時刻（ts+d/10）の間では、アルファ値αはα＝100-5×100（t-ts）/dにより求まる値とされる。

　また、時刻（ts+d/10）から時刻（ts+d/2）の間では、アルファ値αはα＝60-100（t-ts）/dにより求まる値とされ、時刻（ts+d/2）から終了時刻ts+dの間では、アルファ値αはα＝20-100（t-ts）/5dにより求まる値とされる。

　したがって、この例では表示切り替え時、つまりエフェクト期間においては、フェードアウト側のフレーム（遷移元の画像）が急峻に消えていき、フェードイン側のフレーム（遷移先の画像）が急峻に表れることになる。換言すれば、エフェクト期間の終了側よりも開始側においてより急峻に遷移元の画像から遷移先の画像へと表示が遷移する遷移動画像の動画像データが生成されることになる。

　ビデオクロスフェーダ３１における映像遷移エフェクトでは、フェードアウト側のフレームは静止画像（最終フレーム）であり、フレームが固定される。そのため、最終フレームのアルファ値αが線形に変化する場合には、フェードアウト側のフレームの絵柄が固定されているために最終フレームは見ているユーザの視覚に残りやすい。

　そこで、図９に示した例のように最終フレームが急峻に消えていくようにアルファ値αを定めることで、表示切り替え時の違和感をさらに低減させることができる。

　以上のようにビデオクロスフェーダ３１は、静止画像である最終フレームと、動画像であるビデオフレームとに基づいて動画像の切り替え部分に対して映像遷移エフェクトを施す。これにより、より簡単に動画像切り替え時の違和感を低減させることができる。

　クライアント装置１１では、エフェクト期間外においては、セグメントの最後のビデオフレームが最終フレームとして静止画バッファ３０に保持されるようになされており、例えば図１０や図１１に示すように表示切り替えと映像遷移エフェクトが実施される。

　例えば図１０では、最初は所定のRepresentationのセグメント＃Ａ０およびセグメント＃Ａ１のビデオセグメントデータがダウンロードされてコンテンツの再生が行われており、それらのセグメントの最後のビデオフレームが最終フレームとされる。

　ここでは、例えばセグメント＃Ａ１の最後のビデオフレームが最終フレームＦＬ３１として静止画バッファ３０に保持される。

　その後、時刻ｔ３１においてAdaptation Setの遷移を含むRepresentationの切り替えが生じると、これまでとは異なるRepresentationのセグメント＃Ｂ２のビデオセグメントデータがダウンロードされ、表示の切り替えと映像遷移エフェクトが行われる。

　すなわち、ここでは時刻ｔ３１をエフェクト開始時刻として期間Ｔ３１がエフェクト期間とされ、そのエフェクト期間中、セグメント＃Ｂ２の各時刻のビデオフレームと最終フレームＦＬ３１とが用いられて映像遷移エフェクト処理により提示用のビデオフレームが生成され、表示される。

　特に、この例ではエフェクト期間である期間Ｔ３１は、セグメント長よりも短い長さの期間とされている。エフェクト期間が終了すると、その後はセグメント＃Ｂ２の各時刻のビデオフレームがそのまま提示用のビデオフレームとして表示され、セグメント＃Ｂ２の最後のビデオフレームが最終フレームＦＬ３２として静止画バッファ３０に保持される。

　さらに時刻ｔ３２において、Adaptation Setの遷移を含むRepresentationの切り替えが生じると、これまでとは異なるRepresentationのセグメント＃Ｃ３のビデオセグメントデータがダウンロードされ、表示の切り替えと映像遷移エフェクトが行われる。すなわち、時刻ｔ３２をエフェクト開始時刻とする、期間Ｔ３１と同じ長さの期間Ｔ３２がエフェクト期間とされ、そのエフェクト期間中、映像遷移エフェクト処理が行われる。このとき、映像遷移エフェクト時には最終フレームＦＬ３２が用いられることになる。

　また、例えば図１１に示す例では、最初はセグメント＃Ａ０およびセグメント＃Ａ１のビデオセグメントデータがダウンロードされてコンテンツの再生が行われている。また、例えばセグメント＃Ａ１の最後のビデオフレームが最終フレームＦＬ４１として静止画バッファ３０に保持されている。

　その後、時刻ｔ４１においてAdaptation Setの遷移を含むRepresentationの切り替えが生じると、これまでとは異なるRepresentationのセグメント＃Ｂ２のビデオセグメントデータがダウンロードされ、表示の切り替えと映像遷移エフェクトが行われる。

　また、時刻ｔ４２においてもAdaptation Setの遷移を含むRepresentationの切り替えが生じており、これまでとは異なるRepresentationのセグメント＃Ｃ３のビデオセグメントデータがダウンロードされ、表示の切り替えと映像遷移エフェクトが行われる。

　この例では、エフェクト期間である期間Ｔ４１は、セグメント長よりも長い期間となっている。すなわち、エフェクト期間長ｄがセグメント長よりも長くなっている。

　そのため、ここではセグメント＃Ｂ２とセグメント＃Ｃ３の一部の区間とからなる期間Ｔ４１において、セグメント＃Ｂ２およびセグメント＃Ｃ３の各時刻のビデオフレームと最終フレームＦＬ４１とが用いられて提示用のビデオフレームが生成され、表示される。

　その後、エフェクト期間が終了すると、セグメント＃Ｃ３の各時刻のビデオフレームがそのまま提示用のビデオフレームとして表示され、セグメント＃Ｃ３の最後のビデオフレームが最終フレームＦＬ４２として静止画バッファ３０に保持される。

　図１０や図１１に示したようにクライアント装置１１では、エフェクト期間長ｄはセグメント長より短くても長くてもよく、何れの場合においても滑らかに遷移元の動画像から遷移先の動画像へと表示を切り替えることができる。

　以上のようにクライアント装置１１によれば、MPEG-DASHストリーミング再生等の動画像再生において、動画像再生のシーンチェンジ時に２つの動画像を同時にデコードすることなく映像遷移エフェクトを実施することができる。これにより、より少ない処理量で簡単に動画像切り替え時の違和感を低減させることができる。

　特に、映像遷移エフェクト実施期間外であれば常に各セグメントの最後のビデオフレームが静止画バッファ３０に保持されるので、シーン変更検出フラグの値の信頼度によらず適切に映像遷移エフェクトを実施することができる。

〈第２の実施の形態〉
〈ビデオセグメント処理の説明〉
　ところで、以上において説明した例では、エフェクト期間以外においては、常にセグメントの最後のビデオフレームが最終フレームとして静止画バッファ３０に保持されることになる。しかし、そのような場合、静止画バッファ３０に保持された最終フレームのなかには映像遷移エフェクトに用いられずに破棄されるものもあり、無駄が生じてしまう。

　そこで、ビデオデコーダ２７による入力と出力の遅延を利用して、不要なビデオフレームが最終フレームとして保持されないようにし、クライアント装置１１における処理負荷を低減させるようにしてもよい。

　この例では、ビデオデコーダ２７が固有に有する入力と出力の時間差（遅延）が利用される。すなわち、Adaptation Setの遷移を含むRepresentationの切り替え後の最初のセグメントの先頭のビデオＡＵがビデオデコーダ２７に入力されたタイミング、またはその直後にビデオデコーダ２７から出力されるビデオフレームが最終フレームとして静止画バッファ３０に保持される。換言すれば、切り替え後のセグメントの先頭のビデオＡＵがビデオデコーダ２７に入力された後、最初にビデオデコーダ２７から出力されたビデオフレームが切り替え前のセグメントの最終フレームとされる。

　ビデオデコーダ２７では、ビデオＡＵが入力された直後に、そのビデオＡＵに対応するビデオフレームが出力されるのではなく、ビデオＡＵが入力された後、いくつかの他のビデオＡＵが入力されてから対応するビデオフレームが出力される。つまり、入力から出力までの間に数フレーム分の遅延が生じる。

　具体例として、例えば１フレーム目のビデオＡＵが入力されてデコードが開始された後、２フレーム目と３フレーム目のビデオＡＵも入力されてデコードが継続して行われ、４フレーム目のビデオＡＵが入力されたタイミングで１フレーム目のビデオフレームがビデオデコーダ２７から出力される。

　このようなビデオデコーダ２７の処理遅延は、遅延するビデオフレーム数こそビデオデコーダ２７の実装依存により異なるが、MPEGビデオ符号化のＢフレームおよびＰフレームをリオーダリングすることにより発生するという符号化方式に由来し、理論上必ず発生するものである。

　一般的に再生装置であるクライアント装置１１では、自身に搭載されているビデオデコーダ２７で生じる遅延時間を把握すること、つまり何フレーム分の遅延が生じるかは予め把握することが容易である。

　そこで、例えばシーン変更（シーンチェンジ）、つまりAdaptation Setの遷移を含むRepresentationの切り替えが発生した直後のセグメントに含まれる、先頭から数えてビデオデコーダ２７の遅延分だけ後のフレームのビデオＡＵがビデオデコーダ２７に入力されたタイミングで、ビデオデコーダ２７から出力されるビデオフレームが最終フレームとされるようにすればよい。換言すれば、切り替えが発生した直後のセグメントの予め定められたフレームのビデオＡＵがビデオデコーダ２７に入力された後、最初にビデオデコーダ２７から出力されるビデオフレームが静止画バッファ３０に保持される。

　以下では、例えばシーン変更直後のセグメントの先頭フレームのビデオＡＵがビデオデコーダ２７に入力されたタイミングで、ビデオデコーダ２７からはその直前のセグメントの時間的に最後のビデオフレームが出力され、そのビデオフレームが最終フレームとされるものとして説明を続ける。すなわち、ここではビデオデコーダ２７で生じる遅延が１フレーム分の時間であるものとして説明を続ける。

　このようにビデオデコーダ２７で生じる処理の遅延が利用されて最終フレームが保持される場合、クライアント装置１１では図３を参照して説明したストリーミング再生処理が行われる。そして、そのストリーミング再生処理におけるステップＳ１７では、図４を参照して説明したビデオセグメントダウンロード処理が行われる。

　但し、ビデオセグメントダウンロード処理のステップＳ５６では、図５を参照して説明したビデオセグメント処理ではなく、図１２に示すビデオセグメント処理が行われる。

　以下、図１２のフローチャートを参照して、図４のステップＳ５６の処理に対応する、クライアント装置１１によるビデオセグメント処理について説明する。なお、ステップＳ１８１およびステップＳ１８２の処理は、図５のステップＳ８１およびステップＳ８２の処理と同様であるので、その説明は省略する。

　ステップＳ１８３において、クライアント装置１１は、ビデオデコード処理を行ってビデオＡＵバッファ２６に保持されている処理対象のビデオＡＵをデコードする。なお、ビデオデコード処理の詳細は後述する。

　ステップＳ１８４において、MP4パーサ２５はセグメント終端に到達したか否かを判定する。例えばステップＳ１８４では図５のステップＳ８７と同様の処理が行われる。

　ステップＳ１８４において、まだセグメント終端に到達していないと判定された場合、ステップＳ１８１で読み出されたビデオセグメントデータのデコードが終了していないので、処理はステップＳ１８２に戻り、上述した処理が繰り返し行われる。

　これに対して、ステップＳ１８４においてセグメント終端に到達したと判定された場合、ステップＳ１８５において、MP4パーサ２５はビデオトラックバッファ２４に、ステップＳ１８１で読み出したビデオセグメントデータの次のビデオセグメントデータがあるか否かを判定する。

　ステップＳ１８５において、まだ次のビデオセグメントデータがあると判定された場合、処理はステップＳ１８１に戻り、上述した処理が繰り返し行われる。

　これに対して、ステップＳ１８５において次のビデオセグメントデータがないと判定された場合、ビデオセグメント処理は終了する。

　以上のようにしてクライアント装置１１は、逐次、ビデオセグメントデータやビデオＡＵを読み出してデコードを行う。

〈ビデオデコード処理の説明〉
　さらに、図１３のフローチャートを参照して、図１２のステップＳ１８３の処理に対応し、クライアント装置１１により行われるビデオデコード処理について説明する。

　なお、ステップＳ２１１乃至ステップＳ２１３の処理は図６のステップＳ１２１乃至ステップＳ１２３の処理と同様であるので、その説明は適宜省略する。

　ステップＳ２１３ではエラーが発生したと判定された場合にはビデオデコード処理は終了する。また、ステップＳ２１３においてエラーが発生していないと判定された場合、処理はステップＳ２１４へと進む。

　ステップＳ２１４において、ビデオデコーダ２７はステップＳ２１１でデコードのために読み込んだビデオＡＵ、つまりビデオデコーダ２７に入力されたビデオＡＵがセグメントの先頭のビデオＡＵであり、かつ制御部２２に保持されているシーン変更検出フラグの値が１であるか否かを判定する。

　ステップＳ２１４において先頭のビデオＡＵでないか、またはシーン変更検出フラグの値が１でないと判定された場合、最終フレームの保持タイミングではないので、処理はステップＳ２１８へと進む。

　一方、ステップＳ２１４において先頭のビデオＡＵであり、かつシーン変更検出フラグの値が１であると判定された場合、ステップＳ２１５においてビデオデコーダ２７はエフェクト期間中であるか否かを判定する。

　例えばステップＳ２１５では、ビデオデコーダ２７に入力されたビデオＡＵの表示時刻ｔと、制御部２２に保持されているエフェクト開始時刻ｔｓおよびエフェクト期間長ｄとに基づいて、図５のステップＳ８４における場合と同様にしてエフェクト期間中であるかの判定が行われる。

　ステップＳ２１５においてエフェクト期間中であると判定された場合、最終フレームの保持は必要ないので、処理はステップＳ２１８へと進む。

　これに対して、ステップＳ２１５においてエフェクト期間中でないと判定された場合、ステップＳ２１６において、ビデオデコーダ２７はステップＳ２１１で読み出したビデオＡＵの表示時刻ｔ、すなわちCTSの値をエフェクト開始時刻ｔｓとし、制御部２２に供給する。

　ステップＳ２１７において、ビデオデコーダ２７は、ステップＳ２１１でビデオＡＵが入力された後、最初に出力するビデオフレームを最終フレームとしてスイッチ２８を介して静止画バッファ３０に供給し、保持させる。

　この場合、ビデオデコーダ２７に入力されるビデオＡＵはセグメントの先頭のビデオＡＵであるから、その入力後、最初に出力されるビデオフレームは、直前のセグメントの時間的に最後のフレームとなっている。

　しかもエフェクト期間外であり、かつシーン変更直前のセグメントの最後のビデオフレームのみが最終フレームとして保持されるので、不要な最終フレームを保持する必要がなくなり、処理量等の負荷を低減させることができる。

　このようにして最終フレームが保持されると、その後、処理はステップＳ２１８へと進み、ステップＳ２１８乃至ステップＳ２２０の処理が行われてビデオデコード処理は終了する。なお、これらのステップＳ２１８乃至ステップＳ２２０の処理は、図６のステップＳ１２４乃至ステップＳ１２６の処理と同様であるので、その説明は省略する。

　以上のようにしてクライアント装置１１は、ビデオデコーダ２７の遅延を考慮して最終フレームの静止画バッファ３０への供給を行う。これにより、最終フレームを用いて、より簡単に、すなわちより少ない処理量で映像遷移エフェクトを実施し、表示の切り替え時における違和感を低減させることができる。

　以上において説明した第２の実施の形態においては、クライアント装置１１では、映像遷移エフェクトに必要となる最終フレームのみが保持される。そして、例えば図１４や図１５に示すように表示切り替えと映像遷移エフェクトが実施される。なお、図１４および図１５において図１０および図１１における場合と対応する部分には同一の符号を付してあり、その説明は適宜省略する。

　例えば図１４では、セグメント＃Ａ０およびセグメント＃Ａ１のビデオセグメントデータがダウンロードされてコンテンツの再生が行われる。

　この場合、シーン変更がない、つまりシーン変更検出フラグの値が０のままであるセグメント＃Ａ０とセグメント＃Ａ１との境界の部分では、静止画バッファ３０への最終フレームの供給は行われない。すなわち、セグメント＃Ａ０の最後のビデオフレームは静止画バッファ３０では保持されない。

　一方、時刻ｔ３１においてAdaptation Setの遷移を含むRepresentationの切り替えが生じると、これまでとは異なるRepresentationのセグメント＃Ｂ２のビデオセグメントデータがダウンロードされ、表示の切り替えと映像遷移エフェクトが行われる。

　このとき、セグメント＃Ｂ２の先頭のビデオＡＵがビデオデコーダ２７に入力されると、ビデオデコーダ２７は、その時に出力されるセグメント＃Ａ１の最後のビデオフレームを最終フレームＦＬ３１として静止画バッファ３０に保持させる。

　また、エフェクト期間とされる期間Ｔ３１では、図１０を参照して説明したのと同じように、セグメント＃Ｂ２の各時刻のビデオフレームと最終フレームＦＬ３１とが用いられて映像遷移エフェクト処理により提示用のビデオフレームが生成され、表示される。

　そして、エフェクト期間が終了すると、その後はセグメント＃Ｂ２の各時刻のビデオフレームがそのまま提示用のビデオフレームとして表示される。この例では、期間Ｔ３１はセグメント長よりも短い長さの期間とされている。

　また、時刻ｔ３２においてAdaptation Setの遷移を含むRepresentationの切り替えが生じると、セグメント＃Ｃ３のビデオセグメントデータがダウンロードされ、表示の切り替えと映像遷移エフェクトが行われる。

　このとき、セグメント＃Ｃ３の先頭のビデオＡＵがビデオデコーダ２７に入力されると、ビデオデコーダ２７は、その時に出力されるセグメント＃Ｂ２の最後のビデオフレームを最終フレームＦＬ３２として静止画バッファ３０に保持させる。

　さらに、その後、セグメント＃Ｃ３に続いてセグメント＃Ｃ４のビデオセグメントデータがダウンロードされるが、セグメント＃Ｃ３とセグメント＃Ｃ４との境界部分ではシーン変更がないので、静止画バッファ３０への最終フレームの供給は行われない。

　また、例えば図１５に示す例では、最初はセグメント＃Ａ０およびセグメント＃Ａ１のビデオセグメントデータがダウンロードされてコンテンツの再生が行われている。

　この例でもセグメント＃Ａ０とセグメント＃Ａ１との境界部分ではシーン変更がないため、最終フレームの保持は行われない。

　その後、時刻ｔ４１においてAdaptation Setの遷移を含むRepresentationの切り替えが生じると、セグメント＃Ｂ２のビデオセグメントデータがダウンロードされ、表示の切り替えと映像遷移エフェクトが行われる。

　このとき、セグメント＃Ｂ２の先頭のビデオＡＵがビデオデコーダ２７に入力されると、図１４における場合と同様にしてセグメント＃Ａ１の最後のビデオフレームが最終フレームＦＬ４１として保持される。

　また、時刻ｔ４２においてRepresentationの切り替えが行われ、セグメント＃Ｃ３のビデオセグメントデータがダウンロードされるが、この例ではエフェクト期間がセグメント長よりも長く、セグメント＃Ｃ３の一部も期間Ｔ４１に含まれている。

　そのため、セグメント＃Ｃ３の一部の区間においても各時刻のビデオフレームと最終フレームＦＬ４１とが用いられて映像遷移エフェクト処理により提示用のビデオフレームが生成され、表示される。

　さらにセグメント＃Ｃ３に続いてセグメント＃Ｃ４のビデオセグメントデータがダウンロードされるが、セグメント＃Ｃ３とセグメント＃Ｃ４との境界部分ではシーン変更がないので、静止画バッファ３０への最終フレームの供給は行われない。

　図１４や図１５に示したように第２の実施の形態においてもエフェクト期間長ｄはセグメント長より短くても長くてもよく、何れの場合においても滑らかに遷移元の動画像から遷移先の動画像へと表示を切り替えることができる。

〈第３の実施の形態〉
〈代表フレームについて〉
　ところで、以上においてはセグメントの時間的に最後のビデオフレームが静止画バッファ３０に保持される例について説明した。しかし、セグメント内の任意のビデオフレームを代表フレームとし、その代表フレームを映像遷移エフェクトに用いるようにしてもよい。このとき、代表フレームの位置はセグメントごとに異なるようにすることができる。

　以下、セグメント内の代表フレームを映像遷移エフェクトに用いる例について説明する。

　例えば静止画像である最終フレームと、動画像のビデオフレームとを用いて映像遷移エフェクトを行う場合、ビデオセグメントの時間的に最後のビデオフレームがエフェクト期間中連続して用いられることになる。

　この場合、セグメントの最後のビデオフレームが用いられると予め定められているが、必ずしもセグメントの最後のビデオフレームが映像遷移エフェクトに用いるのに適切であるとは限らない。すなわち、セグメントの最後のビデオフレームの情緒価値が十分であるかは場合によって異なる。

　例えば典型的には、人物の表情などである。スポーツコンテンツ等では必ずしも笑顔の情緒価値が高いとは言えないが、音楽コンテンツ等ではアーティストが笑顔で歌う場面の方が、情緒価値が高いことが多い。セグメントの最後のビデオフレームを映像遷移エフェクトに用いるときには、そのビデオフレームがセグメントの終端近傍において最も情緒価値が高いフレーム、つまり最も適したフレームとなるとは限らない。

　コンテンツの一部分だけが抽出されたビデオフレームの情緒価値の重み付けを一般化された処理により行うことは難しいが、コンテンツ製作者側で評価指標を設けることは難しいことではない。

　そこで、例えばコンテンツ製作者側においてセグメント終端近傍の区間内の各ビデオフレームについて情緒価値の評価を行い、クライアント装置１１においてその評価結果に基づいて、適切な代表フレームを選択するようにすることができる。

　この場合、セグメントを構成する複数のビデオフレームのうちの情緒価値の高い、そのセグメントを代表するビデオフレームが代表フレームとされることになる。

　例えば具体的な実現例として、コンテンツ製作者側において顔認識エンジンを用いた情緒価値の高いビデオフレームの選択を行い、その選択結果をセグメントデータ内に格納しておくことが考えられる。

　そのためには、まずセグメント単位でビデオフレームの情緒価値に関する情報、つまりセグメントを代表するビデオフレームに関する情報（以下、代表フレーム情報と称する）を格納する必要があるが、代表フレーム情報はMP4ファイルに格納すればよい。例えば代表フレーム情報は、図１６に示すデータ構造でMP4ファイルに格納することができる。

　図１６に示す例では、「　segment_count」はコンテンツのストリームに含まれるセグメント数を示しており、その「segment_count」以下の部分にはセグメント数分の情報が格納されている。

　「segment_number」はセグメントを識別するセグメント番号を示している。例えばLive-profileである場合は１セグメントが１MP4であるのでsegment_count＝１としてsegment_number＝0xFFFFFFFFとされるようにしてもよい。一方、On-demand profileである場合には１MP4ファイル中に複数のサブセグメントが含まれることから、一般的にはsegment_count＞１となる。

　「recommended_frame_number」は、セグメントを構成するビデオフレームのうちのコンテンツ製作者側が推奨するビデオフレームのフレーム番号（以下、推奨フレーム番号とも称する）を示している。推奨フレーム番号は、セグメントを代表するビデオフレーム、つまり情緒価値が高くコンテンツ製作者側により代表フレームとして推奨されたビデオフレームを示す情報である。

　例えばビデオフレームのフレーム番号については、Live-profileである場合にはCTS順でセグメント内の先頭フレームが０番目のフレームとされ、On-demand profileである場合にはCTS順でサブセグメント内の先頭フレームが０番目のフレームとされる。推奨フレームが不要である場合には、recommended_frame_numberの値は0xFFFFFFFFとされる。

　また、代表フレーム情報には、推奨フレーム番号の他、セグメントの連続する最後の数フレームについて、ビデオフレームに対する情緒価値の評価値を示す情緒スコアが含まれている。すなわち、情緒スコアは、ビデオフレームの情緒価値を示すスコアである。換言すれば、情緒スコアは、ビデオフレームを代表フレームとして用いる場合の適切さの度合いを示すスコアである。

　以下では、情緒スコアが付加されている、つまり情緒スコアの算出が行われたビデオフレームの数を評価フレーム数とも称し、セグメントの終端を含む連続する評価フレーム数分のフレームからなる区間を評価区間とも称することとする。

　図１６では「frame_count」が評価フレーム数を示しており、「score」が情緒スコアを示している。この例では、代表フレーム情報には評価フレーム数分だけ情緒スコアが格納されている。また、例えば情緒スコアは０から１００までの整数値とされ、数値が大きいほど情緒スコアが高く、情緒価値が高いことを示している。

　例えばコンテンツ製作者側においては、以下のようにして代表フレーム情報が生成され、代表フレーム情報がMP4ファイルに格納される。

　すなわち、まずセグメント内の全ビデオフレームについて、ビデオフレームに対する顔認識処理等が行われてビデオフレームの情緒スコアが算出され、最も情緒スコアが高いビデオフレームのフレーム番号が特定される。そして、特定されたフレーム番号のビデオフレームが評価区間外のフレームであれば、そのフレーム番号が推奨フレーム番号とされ、特定されたフレーム番号のビデオフレームが評価区間内のフレームであれば、推奨フレーム番号は0xFFFFFFFFとされる。

　ここで、情緒スコアの算出時には、例えば顔認識処理の結果に基づいて、ビデオフレーム内の人の顔について、その顔の笑顔の度合い、つまりスマイル度が求められ、そのスマイル度が情緒スコアとされる。

　セグメントごとに推奨フレーム番号が得られると、MP4ファイルにセグメント数segment_countが格納された後、各セグメントについて、セグメント番号segment_number、推奨フレーム番号recommended_frame_number、評価フレーム数frame_count、および評価区間の各ビデオフレームの情緒スコアscoreが格納されて代表フレーム情報とされる。このようにして得られたMP4ファイルはビデオセグメントデータに格納されてクライアント装置１１に送信される。

　例えば映像遷移エフェクトのために代表フレームを選択するにあたり、まばたき途中の顔などのビデオフレームが代表フレームとして選択されてしまうと映像の情緒価値や感情価値が損なわれてしまう。

　そこで、コンテンツ製作者側では、静止画バッファ３０に保持する代表フレームの選択範囲として、例えばまばたき中の映像を回避するのに十分な時間を割り当てる。通常、１回のまばたきの速さは１００乃至１５０ミリ秒程度であり、これは６０Ｈｚの映像であれば６乃至９フレーム程度の表示時間に相当する。したがって、ここでは６０Ｈｚの映像に対して、セグメントの最後の１０フレームについての情緒スコアが記録されるようにされる。すなわち、この場合、評価フレーム数が１０とされる。

　なお、代表フレーム情報は、MP4ファイルに限らずビデオＡＵ等の動画像データが格納されるストリーム内であれば、どこに格納されるようにしてもよい。また、代表フレーム情報が外部からクライアント装置１１に供給されるようにしてもよいし、代表フレーム情報がMPDファイル内に記述されるようにしてもよい。

　一方、クライアント装置１１においては、ダウンロードされたビデオセグメントデータからMP4ファイルがMP4パーサ２５により読み出される。すなわち、MP4パーサ２５はビデオトラックバッファ２４から読み出したMP4ファイル内の代表フレーム情報から、セグメントについての推奨フレーム番号や情緒スコアを抽出し、セグメント単位で、つまりセグメントごとに代表フレームを決定する。

　例えばMP4パーサ２５は、代表フレーム情報から評価フレーム数を読み出して評価区間の長さを特定するとともに、評価区間の各ビデオフレームの情緒スコアを代表フレーム情報から読み出す。このとき、MP4パーサ２５は最も情緒スコアが高いビデオフレームを特定し、その特定結果を一時的に保持しておく。

　また、MP4パーサ２５は、代表フレーム情報から推奨フレーム番号を読み出して、その推奨フレーム番号が0xFFFFFFFFである場合、つまり推奨するフレームがなく推奨フレーム番号が無効な値である場合、最も情緒スコアが高いビデオフレームを代表フレームとする。

　これに対して、MP4パーサ２５は推奨フレーム番号が0xFFFFFFFFでない場合、すなわち推奨フレーム番号が有効な値である場合、推奨フレーム番号のビデオフレームが、セグメントの終端（終了端）を含む連続する所定数のフレームからなる有効区間内に含まれるか否かを判定する。

　ここで、有効区間は評価区間と同じとされてもよいし、評価区間とは異なる長さの区間とされてもよい。例えば有効区間はセグメントの最後の２０フレームの区間などとされる。

　MP4パーサ２５は、判定処理の結果、推奨フレーム番号のビデオフレームが有効区間外のフレームであると判定されたときには、評価区間内のビデオフレームのなかの最も情緒スコアが高いビデオフレームを代表フレームとする。つまり、情緒スコアに基づいて代表フレームが決定される。

　推奨フレーム番号のビデオフレームは、コンテンツ製作者側が推奨するフレームであるが、そのビデオフレームがセグメントの終端近傍にない場合には、推奨フレーム番号のビデオフレームが代表フレームとして最適であるとはいえない。そこで、推奨フレーム番号のビデオフレームが有効区間外であるときには、最も情緒スコアが高いビデオフレームが代表フレームとされる。

　また、MP4パーサ２５は、判定処理の結果、推奨フレーム番号のビデオフレームが有効区間内のフレームであると判定されたときには、その推奨フレーム番号のビデオフレームを代表フレームとする。つまり、推奨フレーム番号に基づいて代表フレームが決定される。

　代表フレーム情報がない場合や、最も高い情緒スコアが閾値以下である場合、予め設定により定められている場合などにおいては、MP4パーサ２５がセグメントの時間的に最後のフレームを代表フレームとするようにしてもよい。このように、MP4パーサ２５は、MP4ファイルから取得された（読み出された）代表フレーム情報に基づいて、各セグメントについて、セグメントを構成する複数のフレームのなかから代表フレームを決定する代表フレーム決定部として機能する。

　さらに、クライアント装置１１の制御部２２が顔認識エンジンを制御して、ビデオセグメントデータに基づいて顔認識処理を行わせ、評価区間内の各ビデオフレームの情緒スコアを算出させて、その算出結果から代表フレームを選択するようにしてもよい。

〈ビデオセグメント処理の説明〉
　以上のようにクライアント装置１１がサーバから代表フレーム情報が含まれるMP4ファイルを受信（取得）する場合、クライアント装置１１では図３を参照して説明したストリーミング再生処理が行われる。そして、そのストリーミング再生処理におけるステップＳ１７では、図４を参照して説明したビデオセグメントダウンロード処理が行われる。

　但し、ビデオセグメントダウンロード処理のステップＳ５６では、図５を参照して説明したビデオセグメント処理ではなく、図１７に示すビデオセグメント処理が行われる。

　以下、図１７のフローチャートを参照して、図４のステップＳ５６の処理に対応する、クライアント装置１１によるビデオセグメント処理について説明する。なお、ステップＳ２５１乃至ステップＳ２５６の処理は、図５のステップＳ８１乃至ステップＳ８６の処理と同様であるので、その説明は省略する。

　但し、ステップＳ２５２では、MP4パーサ２５はビデオＡＵに対するパースとともに、ステップＳ２５１の処理で読み出したビデオセグメントデータについて、MP4ファイルから代表フレーム情報を読み出す。

　そして、MP4パーサ２５は代表フレーム情報に含まれる評価フレーム数、推奨フレーム番号、情緒スコア等に基づいて、上述した処理を行って代表フレームを決定する。この代表フレームの決定結果は、MP4パーサ２５から制御部２２を介してビデオデコーダ２７に供給される。

　また、ステップＳ２５６では、図６を参照して説明したビデオデコード処理が行われる。このとき、図６のステップＳ１２５では図７を参照して説明した映像遷移エフェクト実行処理が行われるが、この映像遷移エフェクト実行処理では、静止画バッファ３０に保持されている代表フレームが静止画像として用いられて映像遷移エフェクト処理が行われる。

　ステップＳ２５７において、ビデオデコーダ２７は、制御部２２から供給された代表フレームの決定結果に基づいて、処理対象のビデオＡＵに対するデコードにより得られたビデオフレームが代表フレームであるか否かを判定する。

　ステップＳ２５７において代表フレームであると判定された場合、ステップＳ２５８においてビデオデコーダ２７は、処理対象のビデオＡＵに対するデコードにより得られたビデオフレームを、スイッチ２８を介して静止画バッファ３０に供給し、代表フレームとして保持させる。

　代表フレームが保持されると、その後、処理はステップＳ２５９に進む。

　また、ステップＳ２５７において代表フレームではないと判定された場合、ステップＳ２５８の処理は行われずに、処理はステップＳ２５９へと進む。

　ステップＳ２５８の処理が行われたか、またはステップＳ２５７において代表フレームではないと判定された場合、ステップＳ２５９において、MP4パーサ２５はセグメント終端に到達したか否かを判定する。

　ステップＳ２５９において、まだセグメント終端に到達していないと判定された場合、処理はステップＳ２５２に戻り、上述した処理が繰り返し行われる。

　これに対して、ステップＳ２５９においてセグメント終端に到達したと判定された場合、ステップＳ２６０において、MP4パーサ２５はビデオトラックバッファ２４に、ステップＳ２５１で読み出したビデオセグメントデータの次のビデオセグメントデータがあるか否かを判定する。

　ステップＳ２６０において、まだ次のビデオセグメントデータがあると判定された場合、処理はステップＳ２５１に戻り、上述した処理が繰り返し行われる。

　これに対して、ステップＳ２６０において次のビデオセグメントデータがないと判定された場合、ビデオセグメント処理は終了する。

　以上のようにしてクライアント装置１１は、代表フレーム情報に基づいて代表フレームを決定し、代表フレームを静止画バッファ３０に保持する。これにより、静止画バッファ３０に保持されたビデオフレーム（代表フレーム）を用いて、より簡単に、すなわちより少ない処理量で映像遷移エフェクトを実施し、表示の切り替え時における違和感を低減させることができる。

　なお、以上において説明した本技術は、同一時刻を持つ異なるビデオセグメントデータを重複してダウンロードする必要がないため、MPEG-DASHストリーミング再生で通常行われる同一Adaptation Set内でのRepresentationの遷移時にも適用が可能である。

〈コンピュータの構成例〉
　ところで、上述した一連の処理は、ハードウェアにより実行することもできるし、ソフトウェアにより実行することもできる。一連の処理をソフトウェアにより実行する場合には、そのソフトウェアを構成するプログラムが、コンピュータにインストールされる。ここで、コンピュータには、専用のハードウェアに組み込まれているコンピュータや、各種のプログラムをインストールすることで、各種の機能を実行することが可能な、例えば汎用のコンピュータなどが含まれる。

　図１８は、上述した一連の処理をプログラムにより実行するコンピュータのハードウェアの構成例を示すブロック図である。

　コンピュータにおいて、ＣＰＵ（Central Processing Unit）５０１，ＲＯＭ（Read Only Memory）５０２，ＲＡＭ（Random Access Memory）５０３は、バス５０４により相互に接続されている。

　バス５０４には、さらに、入出力インターフェース５０５が接続されている。入出力インターフェース５０５には、入力部５０６、出力部５０７、記録部５０８、通信部５０９、及びドライブ５１０が接続されている。

　入力部５０６は、キーボード、マウス、マイクロホン、撮像素子などよりなる。出力部５０７は、ディスプレイ、スピーカなどよりなる。記録部５０８は、ハードディスクや不揮発性のメモリなどよりなる。通信部５０９は、ネットワークインターフェースなどよりなる。ドライブ５１０は、磁気ディスク、光ディスク、光磁気ディスク、又は半導体メモリなどのリムーバブル記録媒体５１１を駆動する。

　以上のように構成されるコンピュータでは、ＣＰＵ５０１が、例えば、記録部５０８に記録されているプログラムを、入出力インターフェース５０５及びバス５０４を介して、ＲＡＭ５０３にロードして実行することにより、上述した一連の処理が行われる。

　コンピュータ（ＣＰＵ５０１）が実行するプログラムは、例えば、パッケージメディア等としてのリムーバブル記録媒体５１１に記録して提供することができる。また、プログラムは、ローカルエリアネットワーク、インターネット、デジタル衛星放送といった、有線または無線の伝送媒体を介して提供することができる。

　コンピュータでは、プログラムは、リムーバブル記録媒体５１１をドライブ５１０に装着することにより、入出力インターフェース５０５を介して、記録部５０８にインストールすることができる。また、プログラムは、有線または無線の伝送媒体を介して、通信部５０９で受信し、記録部５０８にインストールすることができる。その他、プログラムは、ＲＯＭ５０２や記録部５０８に、あらかじめインストールしておくことができる。

　なお、コンピュータが実行するプログラムは、本明細書で説明する順序に沿って時系列に処理が行われるプログラムであっても良いし、並列に、あるいは呼び出しが行われたとき等の必要なタイミングで処理が行われるプログラムであっても良い。

　また、本技術の実施の形態は、上述した実施の形態に限定されるものではなく、本技術の要旨を逸脱しない範囲において種々の変更が可能である。

　例えば、本技術は、１つの機能をネットワークを介して複数の装置で分担、共同して処理するクラウドコンピューティングの構成をとることができる。

　また、上述のフローチャートで説明した各ステップは、１つの装置で実行する他、複数の装置で分担して実行することができる。

　さらに、１つのステップに複数の処理が含まれる場合には、その１つのステップに含まれる複数の処理は、１つの装置で実行する他、複数の装置で分担して実行することができる。

　また、本明細書中に記載された効果はあくまで例示であって限定されるものではなく、他の効果があってもよい。

　さらに、本技術は、以下の構成とすることも可能である。

（１）
　第１の動画像から第２の動画像へと表示を切り替える場合に、前記第１の動画像を構成する所定フレームと、前記第２の動画像の動画像データとに基づいて、前記所定フレームから前記第２の動画像へと表示が遷移する遷移動画像の動画像データを生成する動画像生成部を備える
　画像処理装置。
（２）
　前記第１の動画像および前記第２の動画像の動画像データをデコードするデコーダと、
　前記デコードにより得られた前記所定フレームを保持する第１の保持部と、
　前記デコードにより得られた前記第１の動画像または前記第２の動画像のフレームを保持する第２の保持部と
　をさらに備える（１）に記載の画像処理装置。
（３）
　前記動画像生成部は、前記第１の動画像の切り替え前の時間的に最後のフレームを前記所定フレームとして用いる
　（２）に記載の画像処理装置。
（４）
　前記デコーダは、所定時間単位の前記第１の動画像について、前記遷移動画像の動画像データが生成されるエフェクト期間外における、前記所定時間単位の前記第１の動画像の最後のフレームを前記所定フレームとして前記第１の保持部に保持させる
　（３）に記載の画像処理装置。
（５）
　前記デコーダは、前記第２の動画像の予め定められたフレームが入力された後、最初に出力される前記第１の動画像のフレームを前記所定フレームとして前記第１の保持部に保持させる
　（２）に記載の画像処理装置。
（６）
　前記動画像生成部は、終了側よりも開始側においてより急峻に前記所定フレームから前記第２の動画像へと表示が遷移する前記遷移動画像の動画像データを生成する
　（１）乃至（５）の何れか一項に記載の画像処理装置。
（７）
　前記第１の動画像の情緒価値に関する情報に基づいて、前記第１の動画像を構成する複数のフレームのなかの代表フレームを決定する代表フレーム決定部をさらに備え、
　前記動画像生成部は、前記代表フレームを前記所定フレームとして用いる
　（１）または（２）に記載の画像処理装置。
（８）
　前記代表フレーム決定部は、前記情緒価値に関する情報としての前記第１の動画像のフレームの情緒価値を示すスコアに基づいて、前記代表フレームを決定する
　（７）に記載の画像処理装置。
（９）
　前記代表フレーム決定部は、前記情緒価値に関する情報としての前記第１の動画像の前記代表フレームとして推奨されるフレームを示す推奨フレーム情報に基づいて、前記代表フレームを決定する
　（７）または（８）に記載の画像処理装置。
（１０）
　前記代表フレーム決定部は、
　　前記第１の動画像について所定時間単位で前記代表フレームを決定し、
　　前記推奨フレーム情報により示されるフレームが前記所定時間単位の前記第１の動画像の終端を含む有効期間外のフレームである場合、前記情緒価値に関する情報としての前記第１の動画像のフレームの情緒価値を示すスコアに基づいて、前記所定時間単位の前記第１の動画像の終端を含む連続するフレームからなる期間内のフレームから前記代表フレームを決定する
　（９）に記載の画像処理装置。
（１１）
　前記代表フレーム決定部は、前記第１の動画像の動画像データが格納されたストリームから前記情緒価値に関する情報を取得する
　（７）乃至（１０）の何れか一項に記載の画像処理装置。
（１２）
　第１の動画像から第２の動画像へと表示を切り替える場合に、前記第１の動画像を構成する所定フレームと、前記第２の動画像の動画像データとに基づいて、前記所定フレームから前記第２の動画像へと表示が遷移する遷移動画像の動画像データを生成する
　ステップを含む画像処理方法。
（１３）
　第１の動画像から第２の動画像へと表示を切り替える場合に、前記第１の動画像を構成する所定フレームと、前記第２の動画像の動画像データとに基づいて、前記所定フレームから前記第２の動画像へと表示が遷移する遷移動画像の動画像データを生成する
　ステップを含む処理をコンピュータに実行させるプログラム。

　１１　クライアント装置，　２２　制御部，　２３　ダウンローダ，　２４　ビデオトラックバッファ，　２５　MP4パーサ，　２６　ビデオＡＵバッファ，　２７　ビデオデコーダ，　２９　ビデオフレームバッファ，　３０　静止画バッファ，　３１　ビデオクロスフェーダ

Claims

　第１の動画像から第２の動画像へと表示を切り替える場合に、前記第１の動画像を構成する所定フレームと、前記第２の動画像の動画像データとに基づいて、前記所定フレームから前記第２の動画像へと表示が遷移する遷移動画像の動画像データを生成する動画像生成部を備える
　画像処理装置。
　前記第１の動画像および前記第２の動画像の動画像データをデコードするデコーダと、
　前記デコードにより得られた前記所定フレームを保持する第１の保持部と、
　前記デコードにより得られた前記第１の動画像または前記第２の動画像のフレームを保持する第２の保持部と
　をさらに備える請求項１に記載の画像処理装置。
　前記動画像生成部は、前記第１の動画像の切り替え前の時間的に最後のフレームを前記所定フレームとして用いる
　請求項２に記載の画像処理装置。
　前記デコーダは、所定時間単位の前記第１の動画像について、前記遷移動画像の動画像データが生成されるエフェクト期間外における、前記所定時間単位の前記第１の動画像の最後のフレームを前記所定フレームとして前記第１の保持部に保持させる
　請求項３に記載の画像処理装置。
　前記デコーダは、前記第２の動画像の予め定められたフレームが入力された後、最初に出力される前記第１の動画像のフレームを前記所定フレームとして前記第１の保持部に保持させる
　請求項２に記載の画像処理装置。
　前記動画像生成部は、終了側よりも開始側においてより急峻に前記所定フレームから前記第２の動画像へと表示が遷移する前記遷移動画像の動画像データを生成する
　請求項１に記載の画像処理装置。
　前記第１の動画像の情緒価値に関する情報に基づいて、前記第１の動画像を構成する複数のフレームのなかの代表フレームを決定する代表フレーム決定部をさらに備え、
　前記動画像生成部は、前記代表フレームを前記所定フレームとして用いる
　請求項１に記載の画像処理装置。
　前記代表フレーム決定部は、前記情緒価値に関する情報としての前記第１の動画像のフレームの情緒価値を示すスコアに基づいて、前記代表フレームを決定する
　請求項７に記載の画像処理装置。
　前記代表フレーム決定部は、前記情緒価値に関する情報としての前記第１の動画像の前記代表フレームとして推奨されるフレームを示す推奨フレーム情報に基づいて、前記代表フレームを決定する
　請求項７に記載の画像処理装置。
　前記代表フレーム決定部は、
　　前記第１の動画像について所定時間単位で前記代表フレームを決定し、
　　前記推奨フレーム情報により示されるフレームが前記所定時間単位の前記第１の動画像の終端を含む有効期間外のフレームである場合、前記情緒価値に関する情報としての前記第１の動画像のフレームの情緒価値を示すスコアに基づいて、前記所定時間単位の前記第１の動画像の終端を含む連続するフレームからなる期間内のフレームから前記代表フレームを決定する
　請求項９に記載の画像処理装置。
　前記代表フレーム決定部は、前記第１の動画像の動画像データが格納されたストリームから前記情緒価値に関する情報を取得する
　請求項７に記載の画像処理装置。
　第１の動画像から第２の動画像へと表示を切り替える場合に、前記第１の動画像を構成する所定フレームと、前記第２の動画像の動画像データとに基づいて、前記所定フレームから前記第２の動画像へと表示が遷移する遷移動画像の動画像データを生成する
　ステップを含む画像処理方法。
　第１の動画像から第２の動画像へと表示を切り替える場合に、前記第１の動画像を構成する所定フレームと、前記第２の動画像の動画像データとに基づいて、前記所定フレームから前記第２の動画像へと表示が遷移する遷移動画像の動画像データを生成する
　ステップを含む処理をコンピュータに実行させるプログラム。