WO2021065053A1

WO2021065053A1 - データ処理システム、データ処理方法およびコンピュータプログラム

Info

Publication number: WO2021065053A1
Application number: PCT/JP2020/015623
Authority: WO
Inventors: 活志大塚
Original assignee: 株式会社ソニー・インタラクティブエンタテインメント
Priority date: 2019-10-02
Filing date: 2020-04-07
Publication date: 2021-04-08
Also published as: US12014444B2; US20220261952A1; JPWO2021065053A1

Abstract

ＧＰＵ１４は、並列して実行される複数のアプリケーションに対応する複数の画像を生成し、それら複数の画像をフレームバッファ３２に格納する。圧縮符号化器１８は、フレームバッファ３２に格納された画像を読み出して符号化する。圧縮符号化器１８は、複数のアプリケーションに対応する複数の画像を、アプリケーションごとに異なるタイミングでフレームバッファ３２から読み出す。

Description

データ処理システム、データ処理方法およびコンピュータプログラム

　この発明は、データ処理技術に関し、特にデータ処理システム、データ処理方法およびコンピュータプログラムに関する。

　クラウド上のサーバが、複数のクライアントで実行中の複数のアプリケーション（ゲーム等）に対応する各クライアント用の画像を並行して生成し、生成した各クライアント用の画像を各クライアントへ配信して表示させることが行われることがある。

　複数のアプリケーションに対応する複数の画像を生成し、生成した各画像をクライアントへ配信するサーバについて、効率の観点からサーバの構成に改善の余地があると本発明者は考えた。

　本発明は本発明者の上記着想に基づいてなされたものであり、１つの目的は、複数のアプリケーションに対応する複数の画像を生成する処理、または、生成した各画像をクライアントへ配信する処理を効率化する技術を提供することにある。

　上記課題を解決するために、本発明のある態様のデータ処理システムは、並列して実行される複数のアプリケーションに対応する複数の画像を生成し、それら複数の画像をフレームバッファに格納する画像生成部と、フレームバッファに格納された画像を読み出して符号化する１つの符号化部と、を備える。符号化部が、複数のアプリケーションに対応する複数の画像を、アプリケーションごとに異なるタイミングでフレームバッファから読み出すよう構成された。

　本発明の別の態様は、データ処理方法である。この方法は、画像生成部と、１つの符号化部とを備えるデータ処理システムが実行する方法であって、画像生成部が、並列して実行される複数のアプリケーションに対応する複数の画像を生成し、それら複数の画像をフレームバッファに格納するステップと、符号化部が、複数のアプリケーションに対応する複数の画像を、アプリケーションごとに異なるタイミングでフレームバッファから読み出し、読み出した画像を符号化するステップと、を備える。

　なお、以上の構成要素の任意の組合せ、本発明の表現を装置、プログラム、プログラムを格納した記録媒体などの間で変換したものもまた、本発明の態様として有効である。

　本発明によれば、複数のアプリケーションに対応する複数の画像を生成する処理、または、生成した各画像をクライアントへ配信する処理を効率化することができる。

複数のアプリケーションを実行する方法を示す図である。複数アプリケーションが１つのＧＰＵを共有する例を示す図である。複数アプリケーションが１つのＧＰＵを共有する例を示す図である。圧縮符号化の動作タイミングと必要性能との関係を示す図である。実施例のデータ処理システムの機能ブロックを示すブロック図である。データ処理システムにおける複数アプリケーションの並列処理を模式的に示す図である。１つのアプリケーションの処理におけるＣＰＵとＧＰＵとのハンドシェイクフローを示す図である。１つのアプリケーションの処理におけるフレームバッファの切替タイミングを示す図である。ＧＰＵを時分割で共有する例を示す図である。ＧＰＵを時分割で共有する例を示す図である。ＧＰＵを時分割で共有する例を示す図である。複数のアプリケーションを並列処理する場合の圧縮符号化器の動作を示す図である。図１のＡシステムにおいて、ＣＰＵとＧＰＵを時分割で割り当てる例を示す図である。図１のＡシステムにおいて、ＣＰＵとＧＰＵを時分割で割り当てる例を示す図である。変形例のデータ処理システムにおける複数アプリケーションの並列処理を模式的に示す図である。変形例のデータ処理システムにおける複数アプリケーションの並列処理を模式的に示す図である。

＜背景＞
　図１は、複数のアプリケーションを実行する方法を示す。４Ｋ解像度（３８４０×２１６０）で６０ｆｐｓ（frames per second）までのゲームアプリケーション（以下「ゲームＡｐｐ」とも呼ぶ。）を処理できる比較的高性能なＣＰＵ（Central Processing Unit）およびＧＰＵ（Graphics Processing Unit）を搭載したシステムＡと、ＦＨＤ解像度（１９２０×１０８０）で６０ｆｐｓまでのゲームＡｐｐを処理できるシステムＢがあるとする。システムＡは、システムＢの約４倍の性能を有する。システムＡは、システムＢに対する上位互換性を有することとする。

　ここでＦＨＤ解像度６０ｆｐｓクオリティのゲームＡｐｐを複数同時に実行するニーズがあるとき、第１の方法として、図１の上段に示すように、システムＢを複数設け、複数のシステムＢを同時使用することが考えられる。また、第２の方法として、図１の下段に示すように、１つのシステムＡ上で、複数の上記ゲームＡｐｐを並列処理（例えば４並列処理）することが考えられる。本実施例は、第２の方法に関するものであり、システムの物理的な設置数の削減や、１システムあたりの稼働率向上を実現させる技術を提案する。

　本実施例では、複数のアプリケーションの並列処理、すなわちマルチコンテキストの並列処理と、処理遅延削減と、圧縮符号化部におけるピーク性能削減とを、同時に両立させるデータ処理システムを提案する。まず、本実施例の技術思想について概説する。

＜実施例の技術思想１＞
　実施例の技術思想１として、クラウド上に設けられたサーバ（「クラウドサーバ」とも呼ぶ。）の１つのＧＰＵにより複数のゲームＡｐｐを効率よく処理する方法を説明する。

　（１）課題：
　１つのＣＰＵにおいて複数アプリケーションを実行する方法は一般化している。例えば、ＣＰＵの演算器を空間方向で分割（「空間分割」とも呼ぶ。）して複数アプリケーションを並列実行することができる。または、ＣＰＵの演算器を時間方向で分割（「時分割」とも呼ぶ。）して複数アプリケーションを並列実行することができる。演算器を空間分割するとは、複数のＣＰＵ、または１つのＣＰＵの複数スレッドに対して、各アプリケーションを割り当てることである。演算器を時分割するとは、１つのＣＰＵを時分割で複数アプリケーションが共有することである。

　ここで、１つのＧＰＵにおいて複数アプリケーションの処理を実行する場合にも、演算器を空間分割または時分割することが考えられるが、そこにはＧＰＵ特有の課題が存在する。図２と図３は、複数アプリケーションが１つのＧＰＵを共有する例を示す。図２Ａと図３Ａは、ＧＰＵを時分割により共有する例を示し、図２Ｂと図３Ｂは、ＧＰＵを空間分割により共有する例を示している。各図のＧＰＵにおける「ＣＰ」は、ＣＰＵから受け付けたコマンドを処理するコマンドプロセッサである。「ＳＥ」は、シェーダ処理を実行するシェーダエンジンである。「ＴＵ」は、テクスチャ処理を実行するテクスチャユニットである。「ＲＢ」は、レンダリング処理を実行するレンダリングバックエンドである。「Ｌ２」、「Ｌ３」は、レベル２キャッシュ、レベル３キャッシュである。

　（１－１）ＧＰＵを空間分割する場合の課題：
　ＧＰＵは、シェーダ処理や汎用コンピューティング処理を実行する多数の演算器を並列に内包することが一般的であるところ、これらの演算器を物理的に分割し、各アプリケーションに各演算器を占有させる形で割り当てることが考えられる。例えば、１ＧＰＵにシェーダ演算器パイプラインが２０４８本ある場合、４つのアプリケーションに５１２本ずつ割り当てることが考えられる。しかし、テッセレーションやラスタライズ等を処理する機能ブロックは、１つのＧＰＵでシリアライズされた処理の実行を前提に構築されていることが一般的である。そのため、ＧＰＵを空間分割するためには、事実上、これらの機能ブロックを１つのＧＰＵ内に並列に設ける必要があり、コストが増加してしまう。

　（１－２）ＧＰＵを時分割する場合の課題：
　（１－２－１）コンテキストスイッチのオーバーヘッド
　同じ演算器を複数アプリケーションがいれかわりたちかわりで利用するため、その遷移（「コンテキストスイッチ」とも呼ぶ。）のたびに、内部ステートの退避と読出しが必要になる。ＧＰＵは、ピクセル／バーテックスシェーダ処理や汎用コンピューティングを処理する演算器（「ユニファイドシェーダー」とも呼ばれる。）を並列に多数内包することが一般的であり、これらの演算器は元々プリエンプトに複数処理を時分割で並列実行することを考慮し、内部ステート保管場所の多重化などによるコンテキストスイッチのオーバーヘッド削減をする仕組みがある。しかし、ユニファイドシェーダー以外の固定機能は、時分割の考慮が限定されている。これらにおいても内部ステートを保持するレジスタの多重化などにより、遷移時間を短縮する方法も考えられるが、ＧＰＵ全体がもつ内部データは膨大であり、回路規模の増加によるチップ面積効率悪化が無視できない。

　また、１つのアプリケーション内であれば、その内部でプリエンプトに実行されている複数処理間でコンテキスト情報やアクセスしているデータが共有されていても問題ない。しかし、複数のアプリケーションにおいては、これらは共有されてはならず、コンテキストスイッチのたびに、これらのデータの退避と読み出しも繰り返す必要がある。

　また、ＧＰＵの処理パイプラインはＣＰＵに比べて非常に長く、コマンドバッファをフェッチし、コマンドに基づく処理が終了するまでの遅延が大きい。コンテキストスイッチにおいては、パイプラインへの供給を止めたあと、パイプライン内にある処理がすべて完了するまで待つ必要があるが、この時間が大きくなってしまう。

　また、ＣＰＵに比べてＧＰＵが使用している内部ステート情報は非常に多く、コンテキストスイッチに要する複数種類のオーバーヘッドのいずれも無視できない。複数種類のオーバーヘッドは、内部ステートの退避や読出しに要する処理時間、これを回避する多重化に要する回路、パイプライン内部処理終了待ち時間を含む。

　（１－２－２）ゲームアプリケーション処理構成：
　ゲームＡｐｐにおいては、ユニファイドシェーダーを用いた一連のプリエンプトな処理群を束ねて、全体としては、最終的にディスプレイ表示タイミングにあわせて描画結果をフレームバッファに生成するという一つの処理がシリアライズされて流れている。すなわち、複数の内部処理間には、同期待ちなどの手段で高度にシリアライズされている箇所があり、汎用コンピューティング（「ＧＰＧＰＵ」とも呼ばれる。）のみのアプリケーションと異なり、時分割での実行が成り立たないゲームＡｐｐが存在しうる。仮にコンテキストスイッチのオーバーヘッドを無視できたとしても、ゲームＡｐｐの処理構造からみて対応できないことがある。

　（２）解決技術：
　（２－１）１つのＧＰＵの処理を時分割する粒度を、ゲームＡｐｐがフレームバッファに対する描画処理を終了したタイミングとすること。実施例のデータ処理システムにおけるＧＰＵは、並列して実行される複数のアプリケーションに対応する複数のデータの生成処理を時分割で実行する。そして、実施例のデータ処理システムにおける指示部（後述の切換指示部４４）は、ＧＰＵが第１のアプリケーションに対応するデータであって、後続の処理部に渡す１単位のデータの生成処理を完了した場合に、第１のアプリケーションとは異なる第２のアプリケーションに対応するデータの生成処理への切替を指示する。１単位のデータは、後続の処理部に渡す最終的な生成物であり、例えば、フレームバッファに格納する１フレーム（画像）であってもよい。

　実施例では、１つのＧＰＵの処理を時分割する粒度を、フレームバッファをフリップ（flip）させるタイミングとする。通常、１つのゲームＡｐｐあたり２枚以上のフレームバッファを確保し描画対象と表示対象を切り替えながら使うが、その切替を「フリップ」と呼ぶ。

　ＧＰＵは、ＣＰＵなどが生成したコマンドバッファをフェッチして処理を進める。ＧＰＵは、あるゲームＡｐｐの1フレーム分の描画にかかわるコマンドをフェッチしたら後続のフェッチは停止させ、フリップの発生をもってＧＰＵ内部処理が終了したことも把握し、当該ゲームＡｐｐのコンテキストセーブを始める。フレームに同期しない非同期コンピュート処理が走っていたら、それも停止させ、同様にコンテキストセーブする。その後に、次に実行するゲームＡｐｐの保存済みコンテキストをロードし、そのゲームＡｐｐの実行を再開する。コンテキストにはＧＰＵ内部ステートやコマンドバッファ内容を含む。なお、描画と表示の処理がタイミング的に競合しないことが保証できる場合、フレームバッファは１つでもよいが、フレームバッファへのアクセス可能を通知する合図としてフリップ通知は行う。

　ＧＰＵにおいて、描画終了直後（すなわちフリップさせるとき）は、コンテキストスイッチで退避が必要な内部ステートや中間データが、描画処理の実行中に比べて減少する。描画処理の実行中は、on the flyで実行中の描画処理にかかわる小粒度の内部ステートや中間データが、並列演算器（シェーダーパイプラインなど）や固定機能（ラスタライザなど）内に大量に存在するためである。また、描画処理では、時分割が難しい同期待ちなどの手段で高度にシリアライズされている箇所もある。さらにまた、フリップ後には表示タイミングのブランキング期間が挿入される場合があり、その時にはＧＰＵ処理が不要な場合もある。したがって、フリップさせるタイミングでコンテキストスイッチを行うことが、オーバーヘッド削減と隠蔽において有利となる。

　（２－２）コンテキストスイッチを、表示タイミングのブランキング期間中に行うこと。
　なお、クラウドゲーミングサーバにおいてはディスプレイ出力デバイスが接続されていない場合が多いが、圧縮符号化回路にフレームバッファを渡すタイミングを仮想的にブランキング期間と扱ってもよい。

　（２－３）１つのＧＰＵは、並列に実行する各アプリケーションが必要とするＧＰＵ演算能力を合計した演算能力を少なくとも有するものとすること。
　例えば、ＦＨＤ（１９８０×１０８０）画像を６０ｆｐｓで生成するゲームＡｐｐが、ＧＰＵ演算能力として２ＴＦＬＯＰＳ（Tera Floating-point Operations Per Second）を必要とし、そのゲームＡｐｐを４本並列実行する場合、少なくとも８ＴＦＬＯＰＳの演算能力を持つＧＰＵを用いる。

　（２－４）時分割で並列実行する各アプリケーションが予定している処理フレームレートを合計したフレームレートでＧＰＵを動作させること。
　例えば、６０ｆｐｓを生成するゲームＡｐｐを４本並列実行する場合、ＧＰＵのフレームレート、すなわちコンテキストスイッチは２４０Ｈｚで実行する。

　（２－４－１）時分割で並列実行する対象のアプリケーションが、２－４の割当時間（time-slice）を超えてＧＰＵを占有した場合、コンテキストスイッチを遅らせる。割当時間を超えてＧＰＵを占有したアプリケーションに対する次回の時間割り当てはスキップし、または、当該アプリケーションに対する次回の割当時間をそれまでより減少させる。

　（２－４－２）時分割で並列実行する対象のアプリケーションによるＧＰＵ占有が、割当時間を超過する時間や率が大きい場合、各アプリケーションに対して十分な頻度でＧＰＵ割り当てができるように、並列実行するアプリケーション数を減らす。例えば、予め各アプリケーションの処理負荷の見通し（予測値）を事前に把握してもよい。もしくは、複数のアプリケーションにＧＰＵ占有時間を割り当てて実行開始後に、処理時間超過レベル（例えば描画フレームレート数）とユーザ入力に対する遅延の増加レベルを測定した上で、各アプリケーションに割り当てるＧＰＵ占有時間を見直してもよい。

　第１システムの稼働中に別システム（第２システム）に割り当て直すべきアプリケーション（「再配置アプリケーション」と呼ぶ。）が生じた場合、まず、第２システムにおいて再配置アプリケーションを起動し、第１システムからのコンテキストコピーを開始する。それらのセットアップが完了するまでは第１システムにおける再配置アプリケーションの処理も継続させる。そして、あるタイミングのコンテキストスイッチからは第１システムにおける再配置アプリケーションの処理を停止させる。

　（２－５）ＣＰＵは、時分割で並列実行する各アプリケーションが必要とする演算能力を合計した演算能力を少なくとも有し、ＧＰＵの描画フレームレートと同期して動作すること。
　当該ＣＰＵ性能は、動作周波数、ＣＰＵコア数、スレッド数等の組み合わせで実現されてもよい。例えば、クラウドサーバにおいて、１．６ＧＨｚで動作する１スレッドＣＰＵを８個使用するゲームＡｐｐを４本並列実行するシステムを考える。このシステムでは、同一アーキテクチャで、かつ、３．２ＧＨｚで動作する２スレッドＣＰＵを８個使用してもよい。また、並列実行対象の４本のゲームＡｐｐがそれぞれ１００ＧＦＬＯＰＳの演算能力を要求する場合、ＣＰＵは、少なくとも４００ＧＦＬＯＰＳの演算能力を有するものが使用されてもよい。

　（２－６）ＧＰＵのコマンドバッファをアプリケーションごとに設け、コンテキストスイッチのときにＧＰＵが参照する対象を切り替えること。
　（２－６－１）描画処理とは非同期のコンピュート処理用にさらに別のコマンドバッファを設けてもよい。

　（２－７）順次生成される各フレームバッファが、どのアプリケーションが生成したものであるか、どのタイミングに生成されたか、どのようなタイミングに表示すべきものであるかを示す情報をＧＰＵ後段の処理ステップに提供すること。ＧＰＵ後段の処理ステップは、例えば、圧縮符号化部、伸長化部（デコード部）、通信部、表示部を含む。

＜実施例の技術思想２＞
　実施例の技術思想２として、クラウドサーバにおいてフレームバッファに格納された複数のゲームＡｐｐの複数の画像を効率よく圧縮符号化し、クライアントへ転送する方法を説明する。

　（１）課題：
　クラウドサーバで複数のゲームＡｐｐが実行され、複数のフレームバッファが同時に生成され、それらを同時に圧縮符号化のうえ、低遅延でクライアントへ送信する場合、一般的には、圧縮符号化器は、並列に同時に生成されるフレームバッファを処理するだけの並列度、処理能力が必要となる。例えば、１９２０×１０８０解像度の画像を６０Ｈｚで生成すべきゲームＡｐｐが４本並列に実行され、同時に４枚のフレームバッファが完成する場合、システムは、１９２０×１０８０解像度の画像を６０Ｈｚで圧縮符号化できる圧縮符号化器を４並列で備える必要がある。この結果、システムのコストが増大することがある。

　また、複数のゲームＡｐｐの複数の画像を複数のフレームバッファに一時に格納し、それらを低遅延で圧縮し、送出しようとすると、より高性能な圧縮符号化器が必要になってしまう（後述の図４の右側を参照）。また、複数のゲームＡｐｐの複数の画像を複数のフレームバッファに一時に格納し、それらを低遅延で圧縮し、送出しようとすると、圧縮符号化部にデータを入出力するインターコネクト（バス）やメモリの帯域もより高性能なものが要求される。また、複数のゲームＡｐｐの複数の画像を複数のフレームバッファに一時に格納し、それらを低遅延で圧縮し、送出しようとすると、ピーク消費電力も大きくなってしまう。

　（２）解決技術：
　１つの圧縮符号化器が、複数のストリームを効率よく処理できる仕組みをもったうえで、複数のゲームＡｐｐがフレームバッファを生成するタイミングをシリアライズ化（言い換えれば逐次化）することにより上記課題を解決する。具体的な構成を以下の２－１～２－６で説明する。

　（２－１）複数のゲームＡｐｐがフレームバッファに対する描画を終了させるタイミングをシリアライズ化すること。
　例えば、並列実行されている複数のゲームＡｐｐにおいて、各ゲームＡｐｐのＧＰＵ処理開始時間をお互いにずらしておいてもよい。また、並列実行されている複数のゲームＡｐｐにおいて、フリップするタイミング、もしくは、垂直同期タイミングをお互いにずらしておいてもよい。クラウドゲーミングサーバにおいてはディスプレイ出力デバイスが接続されない場合が多いが、圧縮符号化回路にフレームバッファを渡すタイミングを仮想的に垂直同期タイミングと扱ってもよい。なお、特徴２の技術思想を実現するために、複数のゲームＡｐｐの並列実行は、複数個のＧＰＵを使用して実現されてもよく、１つのＧＰＵにおいて演算器を空間分割または時分割することにより実現されてもよい。

　図４は、圧縮符号化の動作タイミングと必要性能との関係を示す。ここでは、１９８０×１０８０解像度の画像を６０ｆｐｓで生成する４つのゲームＡｐｐ（ゲームＡｐｐＡ～ゲームＡｐｐＤ）を並行実行し、４つのゲームＡｐｐの画像がフレームバッファに格納されるとする。方式７０では、４つのゲームＡｐｐの画像が同時にフレームバッファに格納される。方式７０では、４ミリ秒以内に処理する必要があるピクセル数は１９２０×１０８０×４となる。一方、実施例の方式７２では、４つのゲームＡｐｐの画像が互いに異なるタイミングでフレームバッファに格納される。そのため４ミリ秒以内に処理する必要があるピクセル数は１９２０×１０８０となる。したがって、実施例の方式７２によると、低遅延での圧縮符号化を実現し、かつ、圧縮符号化器の必要性能を抑制することができる。

　（２－２）並列実行される複数のアプリケーションが予定している処理フレームレートを合計したフレームレートでフレームバッファを生成すること。言い換えれば、並列実行される複数のアプリケーションが予定しているフレームレートを合計したフレームレートで、複数のアプリケーションに対応する複数の画像を生成すること。
　例えば、６０ｆｐｓで画像を生成すべきゲームＡｐｐを４本並列実行する場合、フレームバッファが２４０Ｈｚで生成されるよう構成される。

　また例えば、並列実行される複数のアプリケーションが、ゲームＡ、ゲームＢ、ゲームＣ、ゲームＤの４つである場合、フレームバッファは、ゲームＡ、ゲームＢ、ゲームＣ、ゲームＤ、ゲームＡ、ゲームＢ、ゲームＣ、ゲームＤ、・・・の順で生成される。ただし、各アプリケーションの毎フレーム処理時間が可変である場合、フレームバッファの生成順序が入れ替わってもよい。その場合、各フレームバッファがどのアプリケーションにより生成されたものかを示す情報が記憶される。なお、各アプリケーションが生成するフレームバッファは、必ずしも共有された同じメモリ領域に置かれなくてもよく、圧縮符号化器が複数のメモリ領域を順次参照してもよい。

　（２－３）圧縮符号化器は、並列実行される複数のアプリケーションそれぞれのフレームレートを合計したフレームレートで圧縮符号化を行う性能を最低限持つこと。
　例えば、１９２０×１０８０解像度の画像を６０ｆｐｓ（６０Ｈｚ）で生成するゲームＡｐｐが４並列で実行される場合、２４０ｆｐｓ（２４０Ｈｚ）で生成される１９２０×１０８０解像度の画像を処理可能な能力を持つ圧縮符号化器を使用する。

　（２－４）圧縮符号化器は、複数のゲームＡｐｐから出力された一連のフレームバッファを順次符号化し、その後、符号化データをゲーム毎に分割して出力すること。
　この場合、圧縮符号化器は、どのフレームバッファがどのゲームのものであるかを把握可能な構成とすること。例えば、画像出力先のフレームバッファをゲームごとに設けてもよい。また、複数のゲームの画像が１つのフレームバッファに出力される場合、どのゲームの画像であるかを示すタグが画像データに付与されてもよい。また、ゲームごとに異なる送信機にデータを渡してもよい。

　（２－５）圧縮符号化器は、１つのゲームから出力された過去の画像フレームや圧縮符号化時の途中データを、他のゲームとは区別して保持しておき、上記１つのゲームから出力された新たな画像の圧縮符号化時に参照することで圧縮効率を上げること。
　この場合も、圧縮符号化器は、どのフレームバッファがどのゲームのものであるかを把握可能な構成とする。

　例えば、ゲームＡのフレーム画像Ａ１、Ａ２、ゲームＢのフレーム画像Ｂ１、Ｂ２、ゲームＣのフレーム画像Ｃ１、Ｃ２、ゲームＤのフレーム画像Ｄ１、Ｄ２が、Ａ１、Ｂ１、Ｃ１、Ｄ１、Ａ２、Ｂ２、Ｃ２、Ｄ２の順に出力されるとする。この場合、圧縮符号化器は、Ｂ２の圧縮符号化において、Ａ２を前方参照の対象とせず、予め記憶したＢ１のデータや、Ｂ１を圧縮符号化する際の途中データを参照する。

　（２－６）圧縮符号化器は、アプリケーションの画像の一部である部分画像単位で圧縮符号化を行い、順次、部分画像単位での符号化データを出力することで、低遅延処理すること。

＜実施例のシステムの詳細＞
　以下、上記の技術思想を具現化する構成の例を説明する。
　図５は、実施例のデータ処理システムの機能ブロックを示すブロック図である。データ処理システム１０は、アプリケーションを処理する単位となるシステムであり、１台のクラウドサーバは、１つ以上のデータ処理システム１０を備える。データ処理システム１０は、ＣＰＵ１２、ＧＰＵ１４、メモリ１６、圧縮符号化器１８（「ビデオエンコーダ」とも呼ばれる。）、ネットワークインタフェース２０を備える。これらの各要素は、バス２２を介して接続される。また、ＧＰＵ１４と圧縮符号化器１８は、データ処理システム１０に１つだけ配置される。

　本明細書のブロック図において、さまざまな処理を行う機能ブロックとして記載される各要素は、ハードウェア的には、回路ブロック、メモリ、その他のＬＳＩで構成することができ、ソフトウェア的には、メモリにロードされたプログラムなどによって実現される。したがって、これらの機能ブロックがハードウェアのみ、ソフトウェアのみ、またはそれらの組合せによっていろいろな形で実現できることは当業者には理解されるところであり、いずれかに限定されるものではない。例えば、ブロック図においてＣＰＵ１２内またはＧＰＵ１４内の機能ブロックに対応するモジュールを含むコンピュータプログラムが、データ処理システム１０のストレージにインストールされてもよい。ＣＰＵ１２およびＧＰＵ１４は、そのコンピュータプログラムをメモリ１６に読み出して実行することにより、各機能ブロックの機能を発揮してもよい。

　メモリ１６は、ＣＰＵ１２、ＧＰＵ１４、圧縮符号化器１８により参照または更新されるデータを記憶する。メモリ１６は、コマンドバッファ３０とフレームバッファ３２を含む。コマンドバッファ３０は、ＣＰＵ１２から出力されたＧＰＵ１４に対するコマンド（描画の内容を指示するコマンド等）を記憶する。実施例では、コマンドバッファ３０は、並列実行されるゲームＡｐｐごとに異なる複数のバッファを含む。ゲームＡｐｐごとの個々のコマンドバッファを「個別Ａｐｐコマンドバッファ」とも呼ぶ。フレームバッファ３２は、ＧＰＵ１４により生成された画像データを記憶する。実施例では、フレームバッファ３２は、並列実行されるゲームＡｐｐごとに異なる複数のバッファを含む。ゲームＡｐｐごとの個々のフレームバッファを「個別Ａｐｐフレームバッファ」とも呼ぶ。

　ここでは、描画指示、すなわち、ＧＰＵ１４における実行対象アプリケーションの切替と同期して実行されるデータ処理の指示が格納されるコマンドバッファを第１コマンドバッファと呼ぶ。コマンドバッファ３０は、複数のゲームＡｐｐに対応する複数の第１コマンドバッファとは異なるコマンドバッファであって、ＧＰＵ１４における実行対象アプリケーションの切替とは非同期に実行されるデータ処理の指示が格納される第２コマンドバッファを含んでもよい。実行対象アプリケーションの切替とは非同期に実行されるデータ処理は、例えば、画像処理以外の汎用計算処理であってもよい。ＧＰＵ１４は、実行対象アプリケーションに関わらず、第２コマンドバッファからコマンドを読み出して汎用計算処理を実行してもよい。

　ネットワークインタフェース２０は、所定の通信プロトコルにしたがってクライアント装置と通信する。実施例でのクライアント装置は、ゲームをプレイするユーザの情報処理装置（ＰＣ、スマートフォン、ゲーム機等）であり、データ処理システム１０により生成されたゲームの画像を表示し、また、ゲームに対するユーザの操作を受け付ける。ネットワークインタフェース２０は、クライアント装置から送信されたユーザの操作情報をＣＰＵ１２に渡す。また、ネットワークインタフェース２０は、圧縮符号化器１８による圧縮符号化後の画像データをクライアント装置へ送信する。

　ＣＰＵ１２は、内容決定部４０、描画指示部４２、切換指示部４４、計時部４５を含む。ＧＰＵ１４は、コマンド読出部５０、画像生成部５２、コンテキスト保存部５４、コンテキスト読出部５６を含む。内容決定部４０と画像生成部５２は、並列実行される複数のゲームＡｐｐ５８のそれぞれに依存した処理を実行する。圧縮符号化器１８は、画像読込部６０と圧縮符号化部６２を含む。図５のＣＰＵ１２、ＧＰＵ１４、圧縮符号化器１８が備える機能ブロックのうち少なくとも一部は、コンピュータプログラムとして実装されてもよい。ＣＰＵ１２、ＧＰＵ１４、圧縮符号化器１８は、コンピュータプログラムを実行することにより、各機能ブロックの機能を発揮してもよい。

　図６は、データ処理システム１０における複数アプリケーションの並列処理を模式的に示す。ＣＰＵ１２は、複数のクライアント装置で実行中のゲームＡｐｐＡ、ゲームＡｐｐＢ、ゲームＡｐｐＣ、ゲームＡｐｐＤに関するデータ処理を並列して実行する。ＧＰＵ１４は、ＣＰＵ１２からの指示に基づいて、並列して実行される複数のゲームＡｐｐに対応する複数の画像の生成処理を時分割で実行する。既述したように、ＧＰＵ１４は、並列して実行される複数のゲームＡｐｐのそれぞれが要求するＧＰＵの演算能力を合計した演算能力を少なくとも有する。

　具体的には、ＣＰＵ１２の内容決定部４０は、複数のクライアント装置から入力されたユーザの操作情報に基づいて、各クライアント装置で表示させるべき画像（例えば操作結果を示す画像）の内容を決定する。言い換えれば、内容決定部４０は、ゲームＡｐｐＡ、ゲームＡｐｐＢ、ゲームＡｐｐＣ、ゲームＡｐｐＤに対応する複数の画像の内容（画像のパターンや座標情報等）を決定する。

　ＣＰＵ１２の描画指示部４２は、内容決定部４０により決定された各ゲームＡｐｐの内容を描画させるためのコマンドをコマンドバッファ３０（実施例では各ゲームＡｐｐに対応する個別Ａｐｐコマンドバッファ）に格納する。

　ＧＰＵ１４のコマンド読出部５０は、図２のＣＰに対応する。コマンド読出部５０は、並列実行される複数のゲームＡｐｐのうち或る時点で処理対象となる１つのゲームＡｐｐ（例えばゲームＡｐｐＡであり、ここでは「対象Ａｐｐ」と呼ぶ。）に対応する画像の描画を指示するコマンドを対象Ａｐｐに対応する個別Ａｐｐコマンドバッファから読み出す。ＧＰＵ１４のコマンド読出部５０は、ＣＰＵ１２の切換指示部４４からアプリケーション切替指示（実施例ではコンテキストスイッチ指示）を受け付け、実行対象のアプリケーションが切り替わる場合、描画指示を読み出すコマンドバッファを、それまで実行対象であったアプリケーションに対応する個別Ａｐｐコマンドバッファから、次に実行対象となるアプリケーションに対応する個別Ａｐｐコマンドバッファに切り替える。

　ＧＰＵ１４の画像生成部５２は、図２のＳＥ、ＴＵ、ＲＢに対応する。画像生成部５２は、並列して実行される複数のゲームＡｐｐに対応する複数の画像を生成し、それら複数の画像をフレームバッファ３２に格納する。具体的には、画像生成部５２は、コマンド読出部５０により読み出されたコマンドにしたがって、対象Ａｐｐの画像データを生成する。画像生成部５２は、生成した対象Ａｐｐの画像データを、対象Ａｐｐに対応する個別Ａｐｐフレームバッファに格納する。既述したように、画像生成部５２は、並列実行される複数のゲームＡｐｐが予定しているフレームレートを合計したフレームレートで、複数のゲームＡｐｐに対応する複数の画像を生成する。

　ＧＰＵ１４は、フレームバッファ３２に格納した画像について、以下の付加情報を後続の処理部（圧縮符号化器１８、通信部、表示部等）に提供してもよい。付加情報は、（１）どのアプリケーションの画像であるかを示すデータ、言い換えれば、生成元のアプリケーションを示すデータを含んでもよい。また、付加情報は、（２）画像の生成タイミングを示すデータを含んでもよく、例えば、何番目の画像であるか、タイムスタンプ、時刻情報等を含んでもよい。また、付加情報は、（３）画像の表示タイミングを示すデータを含んでもよく、例えば、タイムスタンプや時刻情報等を含んでもよい。これにより、後続の処理部における画像処理において、優先度付けや処理のスキップの判断等が適切になされるよう支援できる。なお、ＧＰＵ１４は、付加情報を画像のメタデータとしてフレームバッファ３２に格納してもよく、フレームバッファ３２とは異なるメモリ領域を介して付加情報を後続の処理部に渡してもよい。

　図７は、１つのアプリケーションの処理におけるＣＰＵとＧＰＵとのハンドシェイクフローを示す。図７に示すようにＧＰＵ１４の画像生成部５２は、画像生成処理が完了すると、描画終了通知の信号をＣＰＵ１２へ送信する。実施例では、画像生成部５２は、対象Ａｐｐの１枚の画像（言い換えればフレーム）を生成し、その画像をフレームバッファ３２へ格納することが終了すると、描画終了通知の信号をＣＰＵ１２へ送信する。

　ＣＰＵ１２の切換指示部４４は、ＧＰＵ１４が第１のアプリケーション（例えばゲームＡｐｐＡ）に対応する１フレーム形成に必要な全ての処理を完了した場合、第１のアプリケーションとは異なる第２のアプリケーション（例えばゲームＡｐｐＢ）に対応する画像の生成処理への切替を指示する。第１のアプリケーション（例えばゲームＡｐｐＡ）に対応する１フレーム形成に必要な全ての処理を完了した場合は、第１のアプリケーション（例えばゲームＡｐｐＡ）に対応する画像であり、フレームバッファに格納する１枚の画像（最終画像とも言える）の生成処理を完了した場合とも言える。具体的には、切換指示部４４は、ＧＰＵ１４から描画終了通知を受け付けた場合、コンテキストスイッチ指示の信号をＧＰＵ１４へ送信する。コンテキストスイッチ指示は、それまでの対象Ａｐｐとは異なる新たな対象Ａｐｐを指定する情報を含んでもよい。

　ＣＰＵ１２からコンテキストスイッチ指示を受け付けると、ＧＰＵ１４のコンテキスト保存部５４は、それまでの対象Ａｐｐのコンテキストデータをメモリ１６または所定の退避用レジスタに格納する。既述したように、コンテキストデータは、それまでの対象Ａｐｐの描画処理における内部ステート情報や中間データを含む。

　また、ＣＰＵ１２からコンテキストスイッチ指示を受け付けると、ＧＰＵ１４のコンテキスト読出部５６は、コンテキストスイッチ指示により指定される新たな対象Ａｐｐのコンテキストデータをメモリ１６または所定の退避用レジスタから取得し、取得したコンテキストデータをＧＰＵ１４の描画処理用レジスタに設定する。コンテキストスイッチが完了すると、ＧＰＵ１４のコマンド読出部５０は、新たな対象Ａｐｐに対応する画像の描画を指示するコマンドを新たな対象Ａｐｐに対応する個別Ａｐｐコマンドバッファから読み出し、新たな対象Ａｐｐに対応する画像の生成処理に移行する。

　ＣＰＵ１２の計時部４５は、並列実行される複数のゲームＡｐｐのそれぞれが、ＧＰＵ１４を占有した時間を計測する。言い換えれば、計時部４５は、複数のゲームＡｐｐそれぞれの画像生成処理に要した時間を計測する。

　圧縮符号化器１８の画像読込部６０は、ＣＰＵ１２から後述のフリップ指示信号を受け付けたことを契機として、フレームバッファ３２から（実施例では複数の個別Ａｐｐフレームバッファから順次に）画像データを読み込む。圧縮符号化部６２は、画像読込部６０により読み込まれた画像データを所定のアルゴリズムにしたがって圧縮符号化する。圧縮符号化部６２は、ある画像データの圧縮符号化が完了すると、圧縮符号化後の画像データをネットワークインタフェース２０に渡して、クライアント装置へ送信させる。

　実施例のＣＰＵ１２の切換指示部４４は、ＧＰＵ１４から描画終了通知を受け付けたことを契機として、フリップ指示信号を圧縮符号化器１８へ送信し、それとともにコンテキストスイッチ指示をＧＰＵ１４へ送信する。フリップ指示信号は、複数のフレームバッファ３２間において、画像データの書き出し対象と、画像データの参照対象（圧縮符号化のための読み出し対象）とを切り替えることを指示する信号である。言い換えれば、フリップ指示信号は、フレームバッファ３２に格納された画像の圧縮符号化を圧縮符号化器１８に指示する信号である。フリップ指示信号は、圧縮符号化の対象となる画像が格納されたフレームバッファ３２の領域（実施例では特定の個別Ａｐｐフレームバッファ）を指定する情報を含んでもよい。

　図８は、１つのアプリケーションの処理におけるフレームバッファの切替タイミングを示す。同図は、ダブルバッファ（ここではバッファａ、バッファｂと呼ぶ）の例を示している。ＧＰＵ１４が、バッファａに画像を書き込む間、圧縮符号化器１８は、バッファｂに格納済の画像を読み出して圧縮符号化する。また、ＧＰＵ１４が、バッファｂに画像を書き込む間、圧縮符号化器１８は、バッファａに格納済の画像を読み出して圧縮符号化する。この切替は、フリップ指示信号を契機として実行される。

　データ処理システム１０では、ＣＰＵ１２は、並列実行対象の複数のアプリケーションについて、ＧＰＵ１４における各アプリケーションの描画処理をキックするタイミングを、各アプリケーションに対して所定のＧＰＵ割当時間を確保する形でずらす。この結果、ＧＰＵ１４の画像生成部５２は、並列実行対象の複数のアプリケーションに対応する複数の画像をアプリケーションごとに異なるタイミングで生成し、各アプリケーションに対応する個別Ａｐｐフレームバッファに格納する。

　また、データ処理システム１０では、圧縮符号化器１８は、ＣＰＵ１２から送信されたフリップ指示信号に基づき、複数のアプリケーションに対応する複数の画像を、アプリケーションごとに異なるタイミングで各アプリケーションに対応する個別Ａｐｐフレームバッファから読み出す。これにより、描画から圧縮後データの送信までの処理時間を短縮し、言い換えれば遅延を低減することができる。

　さらにまた、データ処理システム１０では、圧縮符号化器１８は、複数のアプリケーションに対応する複数の画像を、アプリケーションごとに異なるタイミングでフレームバッファ３２から読み出し、各アプリケーションに対応する画像の符号化を逐次処理として実行する。これにより、圧縮符号化器１８に必要な処理能力を削減することができる。

　図９は、ＧＰＵ１４を時分割で共有する例を示す。図９Ａは、４つのシステムが並行して動作し、各システムがゲームＡｐｐＡ、ゲームＡｐｐＢ、ゲームＡｐｐＣ、ゲームＡｐｐＤの画像を生成（または表示）する。図９Ｂは、単一のシステムにおいて、ゲームＡｐｐＡ、ゲームＡｐｐＢ、ゲームＡｐｐＣ、ゲームＡｐｐＤを時分割で並列処理する。図９Ｂのシステムは、図９Ａの１つのシステムの４倍の性能を有する。図９Ｂのシステムにおける各ゲームＡｐｐの処理時間は、図９Ａの１つのシステムと比較すると１／４（すなわち１／２４０秒）となる。

　図１０も、ＧＰＵ１４を時分割で共有する例を示す。図１０Ａは、理想的なケースを示しており、ゲームＡｐｐＡ～ゲームＡｐｐＤそれぞれのＧＰＵ占有時間（画像生成時間とコンテキストスイッチ時間の合計）が１／２４０秒に収まっている。一方、図１０Ｂでは、ゲームＡｐｐＢのＧＰＵ占有時間が１／２４０秒を超過している。

　図１０Ｂに示す状況の場合、実施例のデータ処理システム１０は、ゲームＡｐｐＢに対する次回のＧＰＵ割り当てをスキップする。すなわち、データ処理システム１０は、或るアプリケーションに対応する１枚の画像の生成処理に要したＧＰＵ占有時間が所定の割当時間を超過した場合、当該アプリケーションに対応する１枚の画像の次回の生成処理に対するＧＰＵ割り当てをスキップする。

　例えば、ＣＰＵ１２の計時部４５は、特定のゲームＡｐｐの描画をＧＰＵ１４に指示してから、ＧＰＵ１４から描画終了通知を受け付けるまでの時間、または、次のゲームＡｐｐの描画をＧＰＵ１４に指示するまでの時間を、上記特定のゲームＡｐｐによるＧＰＵ占有時間として計測する。ＣＰＵ１２の描画指示部４２は、上記特定のゲームＡｐｐによるＧＰＵ占有時間が所定時間（図１０の例では１／２４０秒）を超過した場合、上記特定のゲームＡｐｐの描画指示を１回スキップする（次回分をスキップする）。

　変形例として、データ処理システム１０は、或るアプリケーションに対応する１枚の画像の生成処理に要したＧＰＵ占有時間が所定の割当時間を超過した場合、当該アプリケーションに対応する１枚の画像の次回の生成処理に対する次回のＧＰＵ割当時間を短くしてもよい。例えば、ＣＰＵ１２の描画指示部４２は、計時部４５により計測された特定のゲームＡｐｐによるＧＰＵ占有時間が所定時間（図１０の例では１／２４０秒）を超過した場合、上記特定のゲームＡｐｐに次回割り当てるＧＰＵ占有時間をそれまでより短くしてもよい。また、上記特定のゲームＡｐｐに次回割り当てるＧＰＵ占有時間を、並列実行するＡｐｐ数と各Ａｐｐのフレームレートにより定まる通常の割当時間（図１０の例では１／２４０秒）より短くしてもよい。また、上記特定のゲームＡｐｐに次回割り当てるＧＰＵ占有時間を、他のゲームＡｐｐに割り当てるＧＰＵ占有時間より短くしてもよい。

　なお、ＧＰＵ１４を長時間占有したゲームＡｐｐに対して、次回のＧＰＵ割り当てをスキップする処理、または、次回のＧＰＵ割当時間を短縮する処理は、ＧＰＵ１４が自律的に実行してもよい。この場合、ＣＰＵ１２に代わってＧＰＵ１４が、各ゲームＡｐｐのＧＰＵ占有時間を計測する計時部４５を備えてもよい。

　図１１も、ＧＰＵ１４を時分割で共有する例を示す。ＣＰＵ１２は、Ａｐｐ割当部（不図示）をさらに備えてもよい。ＣＰＵ１２の計時部４５は、ＧＰＵ１４を時分割で共有する複数のゲームＡｐｐそれぞれのＧＰＵ占有時間を計測する。Ａｐｐ割当部は、ＧＰＵ１４を時分割で共有する複数のゲームＡｐｐのうち所定数以上のゲームＡｐｐのＧＰＵ占有時間が所定時間（例えば１／２４０秒）を超過する場合、ＧＰＵ１４を共有するゲームＡｐｐ数（言い換えればデータ処理システム１０で並列処理するゲームＡｐｐ数）を減少させてもよい。

　図１１では、ゲームＡｐｐＡのＧＰＵ占有時間と、ゲームＡｐｐＢのＧＰＵ占有時間とが所定時間（例えば１／２４０秒）を超過しているため、ゲームＡｐｐＣとゲームＡｐｐＤとをＧＰＵ１４を共有するゲームＡｐｐから除外した例を示している。すなわち、図１１に示すように、４並列でゲームＡｐｐを実行する場合に、ＧＰＵ占有時間が所定時間を超過したゲームＡｐｐ数が２個に達すると、並列実行するゲームＡｐｐ数を２に減少させてもよい。並列実行するゲームＡｐｐ数を減少させる閾値としての、ＧＰＵ占有時間が所定時間を超過したゲームＡｐｐ数と、その閾値を超過した場合に減少させるゲームＡｐｐ数は、データ処理システム１０を用いた実験により決定されてもよい。

　なお、ＣＰＵ１２のＡｐｐ割当部は、自システムで並列実行するゲームＡｐｐ数を減少させる場合、他のデータ処理システム１０のＡｐｐ割当部と連携して、自システムで並列実行する少なくとも１つのゲームＡｐｐの処理を他のデータ処理システム１０に割り当て直してもよい。例えば、ＣＰＵ１２のＡｐｐ割当部は、自システムで並列実行する複数のアプリケーションのうち所定数以上のアプリケーションのＧＰＵ占有時間が所定の割当時間（例えば１／２４０秒）を超過する場合、複数のアプリケーションのうち少なくとも１つのアプリケーションを別のデータ処理システムに割り当て直してもよい。

　具体的には、データ処理システム１０では、ミクロな時間、すなわち１／２４０秒等の微小時間の単位において或るアプリケーションの処理時間（ＧＰＵ占有時間）が超過した場合、上記アプリケーションに対する次回のＧＰＵ割当をスキップする（図１０のＳｋｉｐｐｉｎｇ　Ａｐｐ　Ｂ　Ｐｒｏｃｅｓｓ）。一方、データ処理システム１０では、マクロな時間、すなわち１０秒等の十分に長い時間単位において、該当時間内の割当結果の統計を取り、許容できない超過（例えば予め定められた時間や回数の超過）が発生した場合は、並列実行する複数のアプリケーションのうち一部のアプリケーションを、別のデータ処理システムに割り当て直す。なお、別のデータ処理システムに割り当て直す対象とするアプリケーションは、超過時間または超過回数が大きいものを優先的に選択してもよい。

　ここでは、再割当の対象となるアプリケーションを対象Ａｐｐと呼び、対象Ａｐｐをそれまで実行していたデータ処理システム１０を第１システムと呼び、対象Ａｐｐの新たな割当先となるデータ処理システム１０を第２システムと呼ぶ。第１システムのＣＰＵ１２のＡｐｐ割当部は、第２システムのＣＰＵ１２のＡｐｐ割当部と連携して、以下の（１）～（４）の処理を実行してもよい。

　（１）第１システムのＣＰＵ１２のＡｐｐ割当部は、対象Ａｐｐの識別情報を第２システムのＣＰＵ１２のＡｐｐ割当部へ通知する。第２システム側の処理部（ＣＰＵ１２、ＧＰＵ１４等）は、対象Ａｐｐの識別情報をもとに、メモリ１６から対象Ａｐｐのプログラムをロードして、対象Ａｐｐを起動させる。
　（２）第１システムのＣＰＵ１２のＡｐｐ割当部は、第１システムに記憶された対象Ａｐｐに関するコンテキストデータを第２システムに送信し、第２システムのＣＰＵ１２のＡｐｐ割当部は、そのコンテキストデータを処理部（ＣＰＵ１２、ＧＰＵ１４等）に設定する。

　（３）上記（１）の完了後、その後の或るタイミングにおいて第１システムで対象Ａｐｐのコンテキストスイッチをするタイミングまで、第１システムと第２システムの両方で対象Ａｐｐが動いている。第１システムのＣＰＵ１２のＡｐｐ割当部は、上記或るタイミングのコンテキストスイッチを契機に、第１システムでの対象Ａｐｐの実行を停止させ、その旨を第２システムのＣＰＵ１２のＡｐｐ割当部へ通知する。第１システムのＣＰＵ１２のＡｐｐ割当部は、上記或るタイミングコンテキストスイッチで保存された、第１システムの対象Ａｐｐのコンテキストデータを第２システムに送信し、第２システムのＣＰＵ１２のＡｐｐ割当部は、そのコンテキストデータを処理部（ＣＰＵ１２、ＧＰＵ１４等）に設定する。

　（４）第１システムでの対象Ａｐｐの実行停止が通知され、対象Ａｐｐのコンテキストデータの設定が完了すると、第２システムのＣＰＵ１２のＡｐｐ割当部は、第２システムの各処理部での対象Ａｐｐの実行を開始させる。なお、第２システムにおける対象Ａｐｐのコンテキスト設定および実行開始は、第１システムにおける対象Ａｐｐの最終コンテキストスイッチから、処理割当時間の間隔（本例では１／６０秒後）以内にて実行することが望ましい。

　上記（３）の或るタイミングは、処理割当時間の間隔以内で、第１システムのコンテキスト保存、第１システムから第２システムへのコンテキスト転送、第２システムにおけるコンテキスト設定が完了できることを見越したうえで選択してよい。例えば、第１システムと第２システムの間にある転送系が他処理で占有されているか否かなどを見計らったうえで或るタイミングを決めてもよい。

　これにより、第１システムにおける対象Ａｐｐの最新のコンテキストを引き継いだ上で、第２システムにおいて、タイムラグなく、ユーザーには稼働システムの遷移が認識されないまま、対象Ａｐｐの実行が再開される。

　第１システムから第２システムへのコンテキストコピーと設定は、前述の或るタイミングにいたるまでの間、繰り返し実行されていてもよい。例えば、コンテキストデータ量が大きく、１回の処理割当時間の間隔以内で全てのコンテキストの転送・設定・処理再開が間に合わない場合、複数回にわけて実行してもよい。また、処理割当時間の間隔以内で、第１システムのコンテキスト保存、第１システムから第２システムへのコンテキスト転送、第２システムにおけるコンテキスト設定が完了できる見込みであったが、実際には間に合わなかった場合に、第１システムによるアプリの実行は継続し、後にコンテキストコピーと設定を再度実行してもよい。

　また、データ処理システム１０では、圧縮符号化器１８が、複数のアプリケーションに対応する複数の画像を、アプリケーションごとに異なるタイミングでフレームバッファ３２から読み出すよう構成される。実施例では、ＣＰＵ１２の描画指示部４２が、並列実行するアプリケーションごとに異なるタイミングでコマンドバッファ３０に描画を指示するコマンドを書き込む。これにより、ＧＰＵ１４は、並列実行するアプリケーションごとに異なるタイミングで画像を生成し、並列実行するアプリケーションごとに異なるタイミングで画像をフレームバッファ３２（個別Ａｐｐフレームバッファ）に書き込む。また、ＣＰＵ１２の切換指示部４４は、並列実行するアプリケーションごとに異なるタイミングでフリップ指示を圧縮符号化器１８へ通知する。

　図１２は、複数のアプリケーションを並列処理する場合の圧縮符号化器１８の動作を示す。同図は、圧縮符号化器１８によるフレームバッファ３２からの画像読み込み（Ｓｃａｎ）と、読み込んだ画像の圧縮符号化（Ｅｎｃ）のタイミングを示すタイミングチャートを含む。

　実施例では、ＣＰＵ１２の切換指示部４４は、ゲームＡｐｐごとに異なるタイミングでフリップ指示信号を圧縮符号化器１８へ送信する。これにより、図４（方式７２）および図１２に示すように、圧縮符号化器１８の画像読込部６０は、複数のゲームＡｐｐに対応する複数の画像を、ゲームＡｐｐごとに異なるタイミングでフレームバッファ３２（具体的には処理対象のゲームＡｐｐに対応する個別Ａｐｐフレームバッファ）から読み出す。

　また、図４（方式７２）および図１２に示すように、圧縮符号化器１８の圧縮符号化部６２は、複数のゲームＡｐｐに対応する複数の画像を、ゲームＡｐｐごとに異なるタイミングで圧縮符号化する。圧縮符号化部６２は、複数のゲームＡｐｐに対応する複数の画像を圧縮符号化する処理を逐次処理として実行する。また、既述したように、圧縮符号化部６２は、並列実行される複数のゲームＡｐｐが予定しているフレームレートを合計したフレームレートで画像の符号化が可能な性能を有する。

　圧縮符号化器１８の圧縮符号化部６２は、並列実行される複数のゲームＡｐｐそれぞれの過去の画像を、ゲームＡｐｐごとに区別して所定の記憶領域に記憶させる。言い換えれば、圧縮符号化部６２は、或るゲームＡｐｐに対応する過去の画像を、他のゲームＡｐｐに対応する画像とは区別して所定の記憶領域に記憶させる。圧縮符号化部６２は、特定のゲームＡｐｐに対応する新たな画像を圧縮符号化する際、上記記憶領域に記憶された当該ゲームＡｐｐに対応する過去の画像を参照する。これにより、並列実行される複数のゲームＡｐｐそれぞれの画像の圧縮効率を高める。

　以下、ＣＰＵとＧＰＵの割当の例を説明する。
　図１のＢシステムは、１．６ＧＨｚ動作で１スレッド処理が可能なＣＰＵを８個備える。一方、図１のＡシステムは、３．２ＧＨｚ動作で２スレッド処理が可能なＣＰＵを８個備える。そのため、ＡシステムはＢシステムの約４倍のＣＰＵ性能を持つ。ＡシステムのＣＰＵにおける２スレッド処理可能とは、ＣＰＵハードウェアがスレッド処理をサポートする機構を有し、１つのＣＰＵが２つのアプリケーションを同時に実行可能であることを示す。

　図１３と図１４は、図１のＡシステムにおいて、ＣＰＵとＧＰＵを時分割で割り当てる例を示す。ここで実行される４つのアプリケーション（Ａｐｐ　Ａ～Ａｐｐ　Ｄ）は、１．６ＧＨｚ動作のＣＰＵ８個を利用できる前提で開発されている。各アプリケーションを、８個のＣＰＵの各スレッドに割り当てて実行する。仮にＡシステムのように、１つのＣＰＵハードウェアとしてサポートするスレッド数が２であって、並列実行したいアプリケーション数が４の場合、１つのハードウェアスレッド内に、ソフトウェア制御のスレッドを２つ設けることで、４つのスレッドを並列実行する。

　ここでＣＰＵのスレッド処理とは、ハードウェア制御かソフトウェア制御かを問わず、ＧＰＵに対する所定の割り当て時間（例えば１／２４０秒）よりもはるかに小さな粒度で、アプリケーション処理をＣＰＵ上で時分割で実行している状態である。実質的に、各アプリケーションは該当ＣＰＵを占有して動作している状態にすることができる、

　ＣＰＵの各スレッドで動作するアプリケーションは、ＣＰＵ外部で起きた変化をリアルタイムで検出し必要な処置を行う必要がある。加えて、ＣＰＵの各スレッドで動作するアプリケーションは、Ｂシステムと同様のリアルタイム性で外部と連携するために、ＧＰＵに対する所定の割り当て時間単位や、各アプリケーションがＧＰＵを占有した実状の時間に関わらず、ＣＰＵ上で並列に動作を続ける。これにより、ＣＰＵの各スレッドで動作するアプリケーションは、ＧＰＵ上で動作する各アプリケーション処理と遅延なく同期して動作することができる。

　図１３と図１４に示すように、各アプリケーションのＣＰＵ割り当てにおいて、ＧＰＵに対する所定の割当時間にかかわらず、ＣＰＵを占有する割り当てをする。すなわち、データ処理システム１０のＣＰＵ１２は、ＧＰＵ１４における各アプリケーションに対する割当時間に関わらず、各アプリケーションが並列してＣＰＵ１２の資源を占有する形で、複数のアプリケーションを並列実行する。これにより、ＣＰＵ１２上のアプリケーションは、ＧＰＵ１４を含めたＣＰＵ１２外部との同期処理をリアルタイム性を維持して実行できる。

　また、図１のＡシステム、図１３、図１４で示すように、並列実行すべきアプリケーション数に対してＣＰＵ数が不足する場合、ＣＰＵは、ハードウェアまたはソフトウェア制御によるスレッドを用いて、並列実行すべき複数のアプリケーションを並列実行する。

　さらにまた、既述したように、ＧＰＵのコマンドバッファは、並列実行対象のアプリケーションごとに用意する。ＣＰＵは、並列実行対象の複数のアプリケーションに関するデータの処理の指示（例えば描画指示）を各アプリケーションに対応するコマンドバッファに格納する。ＧＰＵは、並列実行対象の複数のアプリケーションに関するデータの処理の指示（例えば描画指示）をコマンドバッファから読み出して、各アプリケーションに対応するデータ処理（例えば描画処理）を実行する。これにより、特定のアプリケーションの処理がＧＰＵに割り当てられていない期間（特定のアプリケーションがＧＰＵを占有していない期間）にも、ＣＰＵ上の特定のアプリケーションは処理を継続でき、ＧＰＵに対する指示を随時特定のアプリケーションに対応するコマンドバッファに書き込むことができる。

　以上、本発明を実施例をもとに説明した。この実施例は例示であり、各構成要素あるいは各処理プロセスの組合せにいろいろな変形例が可能なこと、またそうした変形例も本発明の範囲にあることは当業者に理解されるところである。

　第１変形例を説明する。データ処理システム１０は、データ処理システム１０において生成された画像を表示する表示装置と接続されてもよい。ＣＰＵ１２の切換指示部４４は、表示装置の画像表示におけるブランキング期間（言い換えれば映像が非表示の期間）を示すデータを記憶してもよい。切換指示部４４は、表示装置の画像表示におけるブランキング期間中に、コンテキストスイッチ指示をＧＰＵ１４へ送信するとともに、フリップ指示信号を圧縮符号化器１８へ送信してもよい。既述したように、ブランキング期間はＧＰＵ処理が不要であるため、コンテキスト切替処理が画像生成処理に与える影響（画像生成処理の遅延等）を抑制することができる。

　第２変形例を説明する。上記実施例では、ＧＰＵ１４のコンテキストスイッチについて言及したが、圧縮符号化器１８においてもコンテキストスイッチが実行されてもよい。例えば、ＧＰＵ１４と同様に、圧縮符号化器１８は、或るアプリケーションに対応する画像の圧縮符号化を開始する際にそのアプリケーションに関するコンテキスト（例えば圧縮符号化器１８の内部ステートや前回の処理データ）をメモリ１６から読み出して圧縮符号化器１８に設定するコンテキスト読出部を備えてもよい。また、圧縮符号化器１８は、或るアプリケーションに対応する画像の圧縮符号化が完了した際にそのアプリケーションに関するコンテキストを圧縮符号化器１８からメモリ１６に退避させるコンテキスト保存部を備えてもよい。

　第３変形例を説明する。本出願人の特許出願（特願２０２０－０１６１４４）で提案するように、データ処理システム１０は、ＧＰＵ１４のコンテキストスイッチを実行する専用のハードウェア機能ブロックと、圧縮符号化器１８のコンテキストスイッチを実行する専用のハードウェア機能ブロックの少なくとも一方を備えてもよい。このハードウェア機能ブロックは、ＣＰＵ１２、ＧＰＵ１４、メモリ１６、圧縮符号化器１８とは独立したブロックであり、以下「コンテキストスイッチエンジン」とも呼ぶ。

　コンテキストスイッチエンジンは、ＤＭＡ（Direct Memory Access）によりメモリ１６にアクセスする。コンテキストスイッチエンジンは、アプリケーションの切替タイミングを通知されるもしくは自ら検出すると、（１）メモリ１６上に保持されている各アプリケーションのコンテキストを選択し、ソフトウェアを介さずに処理部（ＧＰＵ１４や圧縮符号化器１８）へ転送して設定する。もしくは、（２）処理部（ＧＰＵ１４や圧縮符号化器１８）に保持されているコンテキストを、ソフトウェアを介さずにメモリへ転送・退避させる。

　具体的には、ＧＰＵ１４のコンテキストスイッチを実行するコンテキストスイッチエンジンは、ＧＰＵ１４が第１のアプリケーションに対応する画像の生成処理を完了して、第２のアプリケーションに対応する画像の生成処理を開始する場合、ＣＰＵ１２の切換指示部４４からの通知や、ＧＰＵ１４からの通知、またはビデオ信号が示すタイミング等をもとにそのことを検知してもよい。そしてコンテキストスイッチエンジンは、並列実行される複数のアプリケーションを管理するソフトウェアの処理を介さずに、第１のアプリケーションに関するコンテキストをＧＰＵ１４からメモリ１６に退避させるとともに、第２のアプリケーションに関するコンテキストをメモリ１６からＧＰＵ１４に設定してもよい。

　また、圧縮符号化器１８のコンテキストスイッチを実行するコンテキストスイッチエンジンは、圧縮符号化器１８が第１のアプリケーションに対応する画像の符号化を完了して、第２のアプリケーションに対応する画像の符号化を開始する場合、ＣＰＵ１２の切換指示部４４からの通知や、圧縮符号化器１８からの通知、またはビデオ信号が示すタイミング等をもとにそのことを検知してもよい。そしてコンテキストスイッチエンジンは、並列実行される複数のアプリケーションを管理するソフトウェアの処理を介さずに、第１のアプリケーションに関するコンテキストを圧縮符号化器１８からメモリ１６に退避させるとともに、第２のアプリケーションに関するコンテキストをメモリ１６から圧縮符号化器１８に設定してもよい。複数のアプリケーションを管理するソフトウェアは、典型的にはＣＰＵ１２により実行されるソフトウェアであり、例えば、アプリケーションの実行順序や資源配分を管理するソフトウェアであってもよい。

　第４変形例を説明する。図１５と図１６は、変形例のデータ処理システム１０における複数アプリケーションの並列処理を模式的に示す。データ処理システム１０は、ＧＰＵ１４と圧縮符号化器１８との間にディスプレイパイプライン６４（言い換えればビデオパイプライン）を設けてもよい。

　ディスプレイパイプライン６４は、画像供給元の他ブロック（例えばＧＰＵ１４や不図示のビデオデコーダ等）から供給された画像であり、言い換えれば、並列処理対象の複数のアプリケーションの画像に対する、解像度変換、画質変換または多重化を時分割で実行してもよい。

　図１６では、（１）ＧＰＵ１４は、２つのアプリケーション（Ａｐｐ　ＡとＡｐｐ　Ｂ）の描画処理を時分割で実行して、１つのアプリケーションあたり、２枚の最終画像を生成してフレームバッファ３２に格納する。（２）ディスプレイパイプライン６４は、アプリケーションごとに、２枚の最終画像をスケーリングおよび合成する。（３）圧縮符号化器１８は、アプリケーションごとのスケーリングおよび合成後の画像を圧縮符号化する。

　第５変形例を説明する。上記実施例では、切換指示部４４をＣＰＵ１２に設けたが、切換指示部４４は、ＣＰＵ１２以外の機能ブロック（例えばＧＰＵ１４）に設けてもよい。

　実施例に記載した技術思想は、複数のゲームＡｐｐを並列実行する場合以外にも適用可能である。例えば、ゲームＡｐｐに代えて、またはゲームＡｐｐとともに他の種類のアプリケーション（例えばオフィスソフトや業務システムプログラム）を並列実行する場合にも適用可能である。

　上述した実施例および変形例の任意の組み合わせもまた本開示の実施の形態として有用である。組み合わせによって生じる新たな実施の形態は、組み合わされる実施例および変形例それぞれの効果をあわせもつ。また、請求項に記載の各構成要件が果たすべき機能は、実施例および変形例において示された各構成要素の単体もしくはそれらの連携によって実現されることも当業者には理解されるところである。

　実施例および変形例に記載の技術は、以下の態様によって特定されてもよい。
［項目１－１］
　並列して実行される複数のアプリケーションに対応する複数のデータの生成処理を時分割で実行する１つのＧＰＵと、
　前記ＧＰＵが第１のアプリケーションに対応するデータであって、後続の処理部に渡す１単位のデータの生成処理を完了した場合に、前記第１のアプリケーションとは異なる第２のアプリケーションに対応するデータの生成処理への切替を指示する指示部と、
　を備えることを特徴とするデータ処理システム。
　このデータ処理システムによると、第１のアプリケーションに対応する１単位のデータの生成処理が完了した直後は、退避が必要な第１のアプリケーションに関するデータ量が減少するため、第２のアプリケーションに対応するデータの生成処理への切り替えを効率的に実現することができる。すなわち、複数のアプリケーションに対応する複数のデータの生成処理を１つのＧＰＵが実行することで、ハードウェアリソース数の低減と、システムの稼働率向上を実現しつつ、複数のアプリケーションに対応する複数のデータの生成処理を効率的に実現することができる。
［項目１－２］
　前記後続の処理部に渡す１単位のデータは、画像であることを特徴とする項目１－１に記載のデータ処理システム。
　このデータ処理システムによると、第１のアプリケーションに対応する画像の生成処理が完了した直後は、退避が必要な第１のアプリケーションに関するデータ量が減少するため、第２のアプリケーションに対応する画像の生成処理への切り替えを効率的に実現することができる。
［項目１－３］
　前記ＧＰＵにおいて前記第１のアプリケーションに対応する前記１単位のデータの生成処理が完了した場合に、前記第１のアプリケーションに関するコンテキストデータを所定の記憶領域に保存することを特徴とする項目１－１または１－２に記載のデータ処理システム。
　このデータ処理システムによると、退避が必要な第１のアプリケーションに関するコンテキストデータの量を低減でき、効率的なコンテキストスイッチを実現できる。言い換えれば、ＧＰＵの描画完了を待ってからコンテキストスイッチを行うことで、ＧＰＵにおける処理の中断と入れ替えが容易になり、コンテキストスイッチの処理量が削減される。
［項目１－４］
　前記ＧＰＵが前記第１のアプリケーションに対応する前記１単位のデータの生成処理を完了して、前記第２のアプリケーションに対応するデータの生成処理を開始する場合に、前記複数のアプリケーションを管理するソフトウェアの処理を介さずに、前記第１のアプリケーションに関するコンテキストデータを前記ＧＰＵから所定の記憶領域に退避させるとともに、前記第２のアプリケーションに関するコンテキストデータを前記記憶領域から前記ＧＰＵに設定する転送部をさらに備えることを特徴とする請求項１または２に記載のデータ処理システム。
　このデータ処理システムによると、項目１-３と同様の効果に加え、一層迅速にコンテキストスイッチを完了できるという効果を奏する。
［項目１－５］
　前記第１のアプリケーションに対応する前記１単位のデータの生成処理に要したＧＰＵ占有時間が所定の割当時間を超過した場合、前記第１のアプリケーションに対応する前記１単位のデータの次回の生成処理に対する割当時間を短くし、または、前記次回の生成処理に対するＧＰＵ割り当てをスキップすることを特徴とする項目１－１から１－４のいずれかに記載のデータ処理システム。
　このデータ処理システムによると、第１のアプリケーションのＧＰＵ占有時間の超過が、ＧＰＵにおける他のアプリケーションのデータ処理に与える影響（遅延等）を低減でき、また、並列して実行されるアプリケーション間の公平性を維持することができる。すなわち、２４０分の１秒等のミクロなレベルでは、所定の割当時間ごとのコンテキストスイッチが実行されなくても、数秒から数分のマクロなレベルでは、所定の割当時間に応じた比率で各アプリケーションが実行される。この結果、データ処理システムにおける各アプリケーションの挙動を、図１のＢシステムのように個別のシステムでアプリケーションを実行した場合と、処理のリアルタイム性も含めて同じにすることができる。
［項目１－６］
　前記複数のアプリケーションのうち所定数以上のアプリケーションのＧＰＵ占有時間が所定の割当時間を超過する場合、前記ＧＰＵにより前記１単位のデータが生成されるアプリケーションの数を減少させることを特徴とする項目１－１から１－５のいずれかに記載のデータ処理システム。
　このデータ処理システムによると、アプリケーションのデータ生成処理に必要なＧＰＵ占有時間を確保することができる。
［項目１－７］
　前記複数のアプリケーションのうち所定数以上のアプリケーションのＧＰＵ占有時間が所定の割当時間を超過する場合、前記複数のアプリケーションのうち少なくとも１つのアプリケーションを別のデータ処理システムに割り当てることを特徴とする項目１－１から１－５のいずれかに記載のデータ処理システム。
　このデータ処理システムによると、アプリケーションのデータ生成処理に必要なＧＰＵ占有時間を確保することができる。
［項目１－８］
　前記少なくとも１つのアプリケーションを前記別のデータ処理システムに割り当てる場合、（１）前記別のデータ処理システムにおいて当該アプリケーションを起動させ、（２）自システムに記憶された当該アプリケーションに関するコンテキストデータを前記別のデータ処理システムに送信し、（３）自システムにおける当該アプリケーションの或るタイミングでのコンテキストスイッチを契機に自システムにおける当該アプリケーションの処理を停止させる、ことを特徴とする項目１－７に記載のデータ処理システム。
　このデータ処理システムによると、自システムで実行中のアプリケーションの処理を他システムに好適に引き継がせることができる。
［項目１－９］
　符号化部をさらに備え、
　前記ＧＰＵは、前記１単位のデータとして画像を生成し、生成した画像をフレームバッファに格納し、
　前記指示部は、前記フレームバッファに格納された画像の符号化を前記符号化部に指示する際に、前記ＧＰＵに対して前記切替を指示することを特徴とする項目１－１から１－８のいずれかに記載のデータ処理システム。
　このデータ処理システムによると、１つのアプリケーションに対応する１単位のデータの生成処理が完了したタイミングで、別のアプリケーションに対応するデータの生成処理への切り替えを指示することを確実に実現できる。
［項目１－１０］
　前記ＧＰＵは、前記フレームバッファに格納した画像について、（１）どのアプリケーションの画像であるかを示すデータ、（２）画像の生成タイミングを示すデータ、（３）画像の表示タイミングを示すデータのうち少なくとも１つを後続の処理部に提供することを特徴とする項目１－９に記載のデータ処理システム。
　このデータ処理システムによると、後続の処理部（例えば圧縮符号化伸長部、通信部、表示部等）を適切に動作させることができる。
［項目１－１１］
　前記指示部は、画像表示におけるブランキング期間中に前記切替を指示することを特徴とする項目１－１から１－１０のいずれかに記載のデータ処理システム。
　このデータ処理システムによると、ブランキング期間はＧＰＵ処理が不要であるため、コンテキスト切替処理が画像生成処理に与える影響（画像生成処理の遅延等）を回避することができる。
［項目１－１２］
　前記ＧＰＵは、前記複数のアプリケーションのそれぞれが要求するＧＰＵの演算能力を合計した演算能力を少なくとも有することを特徴とする項目１－１から１－１１のいずれかに記載のデータ処理システム。
　このデータ処理システムによると、複数のアプリケーションに対応する複数のデータの生成遅延を抑制できる。例えば、ＧＰＵが生成するデータが画像の場合には、複数のアプリケーションに対応する複数の画像の表示遅延を抑制することができる。
［項目１－１３］
　前記複数のアプリケーションを並列実行するＣＰＵをさらに備え、
　前記ＣＰＵは、前記複数のアプリケーションのそれぞれが要求するＣＰＵの演算能力を合計した演算能力を少なくとも有することを特徴とする項目１－１から１－１２のいずれかに記載のデータ処理システム。
　このデータ処理システムによると、並列実行される複数のアプリケーションの処理遅延を抑制することができる。
［項目１－１４］
　前記ＣＰＵは、前記ＧＰＵにおける各アプリケーションに対する割当時間に関わらず、各アプリケーションが並列してＣＰＵの資源を占有するように、前記複数のアプリケーションを並列実行することを特徴とする項目１－１３に記載のデータ処理システム。
　このデータ処理システムによると、ＣＰＵは、ＧＰＵを含む外部の機能ブロックとの同期処理をリアルタイム性を維持して実行することができる。
［項目１－１５］
　前記複数のアプリケーションに対応するコマンドバッファをさらに備え、
　前記ＣＰＵは、前記複数のアプリケーションに関するデータ処理の指示を各アプリケーションに対応するコマンドバッファに格納し、
　前記ＧＰＵは、前記複数のアプリケーションに関するデータ処理の指示を前記コマンドバッファから読み出すことを特徴とする項目１－１４に記載のデータ処理システム。
　このデータ処理システムによると、特定のアプリケーションの処理がＧＰＵに割り当てられていない期間にも、ＣＰＵ上の上記特定のアプリケーション処理を継続することができる。
［項目１－１６］
　前記複数のアプリケーションに対応する複数のコマンドバッファであって、前記複数のアプリケーションに関するデータ処理の指示が格納される複数のコマンドバッファをさらに備え、
　前記ＧＰＵは、実行対象のアプリケーションを切り替える場合に、データ処理の指示を読み出すコマンドバッファを切り替えることを特徴とする項目１－１から１－１２のいずれかに記載のデータ処理システム。
　このデータ処理システムによると、データ処理の指示を出す機能ブロックにおける或るアプリケーションの処理と、ＧＰＵにおける当該アプリケーションの処理とを非同期に実行することができる。
［項目１－１７］
　前記複数のコマンドバッファとは異なるコマンドバッファであって、前記ＧＰＵにおける実行対象のアプリケーションの切替とは非同期に実行可能なデータ処理の指示が格納されるコマンドバッファをさらに備えることを特徴とする項目１－１６に記載のデータ処理システム。
　このデータ処理システムによると、ＧＰＵにおける実行対象のアプリケーションの切替とは非同期に、その切替とは非同期に実行可能なデータ処理（例えば、数値計算等の汎用コンピュート処理）をＧＰＵに実行させることができる。
［項目１－１８］
　１つのＧＰＵと、指示部とを備えるデータ処理システムが実行する方法であって、
　前記ＧＰＵが、並列して実行される複数のアプリケーションに対応する複数のデータの生成処理を時分割で実行するステップと、
　前記指示部が、前記ＧＰＵが第１のアプリケーションに対応するデータであって、後続の処理部に渡す１単位のデータの生成処理を完了した場合に、前記第１のアプリケーションとは異なる第２のアプリケーションに対応する画像の生成処理への切替を指示するステップと、
　を備えることを特徴とするデータ処理方法。
　このデータ処理方法によると、第１のアプリケーションに対応する１単位のデータの生成処理が完了した直後は、退避が必要な第１のアプリケーションに関するデータ量が減少するため、第２のアプリケーションに対応するデータの生成処理への切り替えを効率的に実現することができる。すなわち、複数のアプリケーションに対応する複数のデータの生成処理を１つのＧＰＵが実行することで、ハードウェアリソース数の低減と、システムの稼働率向上を実現しつつ、複数のアプリケーションに対応する複数のデータの生成処理を効率的に実現することができる。
［項目１－１９］
　１つのＧＰＵと、指示部とを備えるデータ処理システムに、
　前記ＧＰＵが、並列して実行される複数のアプリケーションに対応する複数のデータの生成処理を時分割で実行するステップと、
　前記指示部が、前記ＧＰＵが第１のアプリケーションに対応するデータであって、後続の処理部に渡す１単位のデータの生成処理を完了した場合に、前記第１のアプリケーションとは異なる第２のアプリケーションに対応する画像の生成処理への切替を指示するステップと、
　を実行させるためのコンピュータプログラム。
　このコンピュータプログラムによると、第１のアプリケーションに対応する１単位のデータの生成処理が完了した直後は、退避が必要な第１のアプリケーションに関するデータ量が減少するため、第２のアプリケーションに対応するデータの生成処理への切り替えを効率的に実現することができる。すなわち、複数のアプリケーションに対応する複数のデータの生成処理を１つのＧＰＵが実行することで、ハードウェアリソース数の低減と、システムの稼働率向上を実現しつつ、複数のアプリケーションに対応する複数のデータの生成処理を効率的に実現することができる。

［項目２－１］
　並列して実行される複数のアプリケーションに対応する複数の画像を生成し、それら複数の画像をフレームバッファに格納する画像生成部と、
　前記フレームバッファに格納された画像を読み出して符号化する１つの符号化部と、
　を備え、
　前記符号化部が、前記複数のアプリケーションに対応する複数の画像を、アプリケーションごとに異なるタイミングで前記フレームバッファから読み出すよう構成されたことを特徴とするデータ処理システム。
　このデータ処理システムによると、低遅延での符号化を実現し、かつ、符号化器の必要性能を抑制することができる。
［項目２－２］
　前記符号化部は、前記複数のアプリケーションに対応する複数の画像を符号化する処理を逐次処理として実行することを特徴とする項目２－１に記載のデータ処理システム。
　このデータ処理システムによると、低遅延での符号化を実現し、かつ、符号化器の必要性能を抑制することができる。
［項目２－３］
　前記画像生成部は、前記複数のアプリケーションに対応する複数の画像をアプリケーションごとに異なるタイミングで生成することを特徴とする項目２－１または２－２に記載のデータ処理システム。
　このデータ処理システムによると、画像生成部（例えばＧＰＵ）の必要性能を低減することができる。
［項目２－４］
　ＣＰＵをさらに備え、
　前記ＣＰＵは、前記画像生成部に各アプリケーションの描画処理を開始させるタイミングを、各アプリケーションに所定時間を割り当てる形でずらし、
　前記符号化部は、前記複数のアプリケーションに対応する複数の画像を、アプリケーションごとに異なるタイミングで前記フレームバッファから読み出すことを特徴とする項目２－１から２－３のいずれかに記載のデータ処理システム。
　このデータ処理システムによると、画像生成部（例えばＧＰＵ）の必要性能を低減することができ、また、符号化部の必要性能を低減することができる。
［項目２－５］
　ＣＰＵをさらに備え、
　前記ＣＰＵは、前記画像生成部に各アプリケーションの描画処理を開始させるタイミングを、各アプリケーションに所定時間を割り当てる形でずらし、
　前記符号化部は、前記複数のアプリケーションに対応する複数の画像を、アプリケーションごとに異なるタイミングで前記フレームバッファから読み出し、前記複数のアプリケーションに対応する複数の画像を符号化する処理を逐次処理として実行することを特徴とする項目２－１に記載のデータ処理システム。
　このデータ処理システムによると、画像生成部（例えばＧＰＵ）の必要性能を低減することができ、また、符号化部の必要性能を低減することができる。
［項目２－６］
　前記画像生成部は、前記複数のアプリケーションが予定しているフレームレートを合計したフレームレートで前記複数の画像を生成することを特徴とする項目２－１から２－５のいずれかに記載のデータ処理システム。
　このデータ処理システムによると、複数のアプリケーションに対応する複数の画像の生成遅延を抑制でき、複数のアプリケーションに対応する複数の画像の表示遅延を抑制することができる。
［項目２－７］
　前記符号化部は、前記複数のアプリケーションが予定しているフレームレートを合計したフレームレートで画像の符号化が可能な性能を有することを特徴とする項目２－１から２－６のいずれかに記載のデータ処理システム。
　このデータ処理システムによると、複数のアプリケーションに対応する複数の画像の符号化遅延を抑制でき、複数のアプリケーションに対応する複数の画像の表示遅延を抑制することができる。
［項目２－８］
　前記符号化部は、或るアプリケーションに対応する過去の画像を他のアプリケーションに対応する画像とは区別して記憶し、前記或るアプリケーションに対応する新たな画像を圧縮符号化する際に当該アプリケーションに対応する過去の画像を参照することを特徴とする項目２－１から２－７のいずれかに記載のデータ処理システム。
　このデータ処理システムによると、異なるタイミングで実行する複数のアプリケーションの画像の圧縮効率を上げることができる。
［項目２－９］
　前記符号化部が第１のアプリケーションに対応する画像の符号化を完了して、第２のアプリケーションに対応する画像の符号化を開始する場合に、前記複数のアプリケーションを管理するソフトウェアの処理を介さずに、前記第１のアプリケーションに関するコンテキストを前記符号化部から記憶部に退避させるとともに、前記第２のアプリケーションに関するコンテキストを前記記憶部から前記符号化部に設定する転送部をさらに備えることを特徴とする項目２－１から２－８のいずれかに記載のデータ処理システム。
　このデータ処理システムによると、符号化部におけるコンテキストスイッチを高速に実行することができ、例えば、符号化部における処理の遅延を抑制することができる。
［項目２－１０］
　画像生成部と、１つの符号化部とを備えるデータ処理システムが実行する方法であって、
　前記画像生成部が、並列して実行される複数のアプリケーションに対応する複数の画像を生成し、それら複数の画像をフレームバッファに格納するステップと、
　前記符号化部が、前記複数のアプリケーションに対応する複数の画像を、アプリケーションごとに異なるタイミングで前記フレームバッファから読み出し、読み出した画像を符号化するステップと、
　を備えることを特徴とするデータ処理方法。
　このデータ処理方法によると、低遅延での符号化を実現し、かつ、符号化器の必要性能を抑制することができる。
［項目２－１１］
　画像生成部と、１つの符号化部とを備えるデータ処理システムに、
　前記画像生成部が、並列して実行される複数のアプリケーションに対応する複数の画像を生成し、それら複数の画像をフレームバッファに格納するステップと、
　前記符号化部が、前記複数のアプリケーションに対応する複数の画像を、アプリケーションごとに異なるタイミングで前記フレームバッファから読み出し、読み出した画像を符号化するステップと、
　を実行させるためのコンピュータプログラム。
　このコンピュータプログラムによると、低遅延での符号化を実現し、かつ、符号化器の必要性能を抑制することができる。

　この発明は、複数のアプリケーションを並列して実行するシステムに適用できる。

　１０　データ処理システム、　１２　ＣＰＵ、　１４　ＧＰＵ、　１８　圧縮符号化器、　３２　フレームバッファ、　４２　描画指示部、　４４　切換指示部、　５２　画像生成部、　５４　コンテキスト保存部、　５６　コンテキスト読出部、　６２　圧縮符号化部。

Claims

　並列して実行される複数のアプリケーションに対応する複数の画像を生成し、それら複数の画像をフレームバッファに格納する画像生成部と、
　前記フレームバッファに格納された画像を読み出して符号化する１つの符号化部と、
　を備え、
　前記符号化部が、前記複数のアプリケーションに対応する複数の画像を、アプリケーションごとに異なるタイミングで前記フレームバッファから読み出すよう構成されたことを特徴とするデータ処理システム。
　前記符号化部は、前記複数のアプリケーションに対応する複数の画像を符号化する処理を逐次処理として実行することを特徴とする請求項１に記載のデータ処理システム。
　前記画像生成部は、前記複数のアプリケーションに対応する複数の画像をアプリケーションごとに異なるタイミングで生成することを特徴とする請求項１または２に記載のデータ処理システム。
　ＣＰＵをさらに備え、
　前記ＣＰＵは、前記画像生成部に各アプリケーションの描画処理を開始させるタイミングを、各アプリケーションに所定時間を割り当てる形でずらし、
　前記符号化部は、前記複数のアプリケーションに対応する複数の画像を、アプリケーションごとに異なるタイミングで前記フレームバッファから読み出すことを特徴とする請求項１から３のいずれかに記載のデータ処理システム。
　ＣＰＵをさらに備え、
　前記ＣＰＵは、前記画像生成部に各アプリケーションの描画処理を開始させるタイミングを、各アプリケーションに所定時間を割り当てる形でずらし、
　前記符号化部は、前記複数のアプリケーションに対応する複数の画像を、アプリケーションごとに異なるタイミングで前記フレームバッファから読み出し、前記複数のアプリケーションに対応する複数の画像を符号化する処理を逐次処理として実行することを特徴とする請求項１に記載のデータ処理システム。
　前記画像生成部は、前記複数のアプリケーションが予定しているフレームレートを合計したフレームレートで前記複数の画像を生成することを特徴とする請求項１から５のいずれかに記載のデータ処理システム。
　前記符号化部は、前記複数のアプリケーションが予定しているフレームレートを合計したフレームレートで画像の符号化が可能な性能を有することを特徴とする請求項１から６のいずれかに記載のデータ処理システム。
　前記符号化部は、或るアプリケーションに対応する過去の画像を他のアプリケーションに対応する画像とは区別して記憶し、前記或るアプリケーションに対応する新たな画像を圧縮符号化する際に当該アプリケーションに対応する過去の画像を参照することを特徴とする請求項１から７のいずれかに記載のデータ処理システム。
　前記符号化部が第１のアプリケーションに対応する画像の符号化を完了して、第２のアプリケーションに対応する画像の符号化を開始する場合に、前記複数のアプリケーションを管理するソフトウェアの処理を介さずに、前記第１のアプリケーションに関するコンテキストを前記符号化部から記憶部に退避させるとともに、前記第２のアプリケーションに関するコンテキストを前記記憶部から前記符号化部に設定する転送部をさらに備えることを特徴とする請求項１から８のいずれかに記載のデータ処理システム。
　画像生成部と、１つの符号化部とを備えるデータ処理システムが実行する方法であって、
　前記画像生成部が、並列して実行される複数のアプリケーションに対応する複数の画像を生成し、それら複数の画像をフレームバッファに格納するステップと、
　前記符号化部が、前記複数のアプリケーションに対応する複数の画像を、アプリケーションごとに異なるタイミングで前記フレームバッファから読み出し、読み出した画像を符号化するステップと、
　を備えることを特徴とするデータ処理方法。
　画像生成部と、１つの符号化部とを備えるデータ処理システムに、
　前記画像生成部が、並列して実行される複数のアプリケーションに対応する複数の画像を生成し、それら複数の画像をフレームバッファに格納するステップと、
　前記符号化部が、前記複数のアプリケーションに対応する複数の画像を、アプリケーションごとに異なるタイミングで前記フレームバッファから読み出し、読み出した画像を符号化するステップと、
　を実行させるためのコンピュータプログラム。