WO2021157315A1

WO2021157315A1 - グラフィックプロセッサ及び情報処理システム

Info

Publication number: WO2021157315A1
Application number: PCT/JP2021/001092
Authority: WO
Inventors: 活志大塚
Original assignee: 株式会社ソニー・インタラクティブエンタテインメント
Priority date: 2020-02-05
Filing date: 2021-01-14
Publication date: 2021-08-12
Also published as: EP4102465A4; EP4102465A1; US12014443B2; US20230066833A1; JP7339368B2; JPWO2021157315A1

Abstract

コマンドプロセッサ及びジオメトリエンジンを有し、メモリと、他のグラフィックプロセッサに接続されるグラフィックプロセッサが、自身に接続されたメモリとの間でデータを授受するバスファブリックと、コマンドプロセッサ及びジオメトリエンジンに接続され、他のグラフィックプロセッサのコマンドプロセッサ及びジオメトリエンジンとの間でデータを授受する第１のインターコネクトとを備え、バスファブリックが、第２のインターコネクトを介して、他のグラフィックプロセッサのバスファブリックとの間でデータを授受し、他のグラフィックプロセッサに接続されるメモリにアクセス可能に接続されている。

Description

グラフィックプロセッサ及び情報処理システム

　本発明は、グラフィックプロセッサ及び情報処理システムに関する。

　ＧＰＵ（Graphic Processing Unit）チップ（グラフィックプロセッサ）を用いた画像処理システムにおいて、性能向上が必要である場合、ＧＰＵチップを、より性能の高いＧＰＵチップに置き換えて用いることが一般的である。

　この例では、ＣＰＵで動作するソフトウェアの指示に基づき、１つのＧＰＵチップが、そのＧＰＵチップに直結された大容量メモリを利用しながら画像処理（特に３Ｄグラフィックスの描画処理）を実行する（図４（ｂ））。しかしながら１チップで実現できる規模には、製造可能規模・電力密度などの要因で限界がある。

　そこで更なる性能向上を目指す場合、１システム内で複数のＧＰＵチップを同時に利用することが考えられる（図４（ｃ））が、この場合にはいくつか技術的課題が生じる。

　まず、ＣＰＵソフトウェアの処理内容に従って、リアルタイムに３Ｄグラフィックスを描画するとき、ＧＰＵ上の処理としては、動的に決まる１シーンに含まれるすべてのオブジェクト情報を把握したうえで１フレームを描画し、メモリ上のフレームバッファに出力する必要がある。この一連の処理には、多くの依存／参照関係があるので、複数のＧＰＵチップと、それらに個別に接続され分断されているメモリに、処理を分割することが容易ではない。一般に複数のＧＰＵチップと分断されたメモリでは、依存／参照関係の解決が困難であり、処理性能の向上が難しい。３Ｄグラフィックス描画処理を、適切に分散配置するソフトウェアを開発することも難易度が高い。

　なお、ＧＰＵチップを、汎用コンピューティング処理に用いる場合は、３Ｄグラフィックス描画と異なり、このような複数のＧＰＵチップに対する分散処理が、実現できる場合もある。これらの処理に要求されるリアルタイム性が低く、複数ＣＰＵに対する分散処理と同様の技法を用いて実行できる場合があるからである。しかし、この場合も、性能向上率は限定されている。

　なお、ＣＰＵとＧＰＵチップとがそれぞれ個別にメモリをもち、両者が分断されているよりも、ひとつの大容量メモリがＣＰＵとＧＰＵチップとによって共有されている形（いわゆるＵＭＡ：Unified Memory Architecture；図４（ａ））のほうが処理効率・性能・ソフトウェア開発難易度の面で優れる。しかし、この形態でも実現できる規模には、製造可能規模・電力密度などの要因で限界がある。

　このように、従来のＧＰＵチップを用いた画像処理システムでは、性能の向上と、製造可能規模や電力密度の条件とを両立させることが困難であった。

　本発明は上記実情に鑑みて為されたもので、製造可能規模や電力密度の条件を満足しつつ、性能を向上できるグラフィックプロセッサ及び情報処理システムを提供することを、その目的の一つとする。

　上記従来例の問題点を解決する本発明の一態様は、コマンドプロセッサ及びジオメトリエンジンを有し、メモリと、他のグラフィックプロセッサに接続されるグラフィックプロセッサであって、自身に接続されたメモリとの間でデータを授受するバスファブリックと、前記コマンドプロセッサ及びジオメトリエンジンに接続され、他のグラフィックプロセッサのコマンドプロセッサ及びジオメトリエンジンとの間でデータを授受する第１のインターコネクトとを備え、前記バスファブリックが、第２のインターコネクトを介して、前記他のグラフィックプロセッサのバスファブリックとの間でデータを授受し、当該他のグラフィックプロセッサに接続されるメモリにアクセス可能に接続されているものである。

　本発明によると、製造可能規模や電力密度の条件を満足しつつ、性能を向上できるグラフィックプロセッサ及び情報処理システムを提供する。

本発明の実施の形態に係る情報処理システムの構成例を表すブロック図である。本発明の実施の形態に係るグラフィックプロセッサの構成例を表すブロック図である。本発明の実施の形態に係る情報処理システムが備える複数のグラフィックプロセッサにより構成されるメモリ空間の例を表す説明図である。従来例のＧＰＵを用いたシステムの構成例を表す説明図である。本発明の実施の形態に係るＧＰＵの例を表す構成ブロック図である。本発明の実施の形態に係るＧＰＵの内部構成例を表すブロック図である。本発明の実施の形態に係る複数のＧＰＵによる、仮想的な一つのＧＰＵの構成方法の例を示す説明図である。本発明の実施の形態に係る複数のＧＰＵの分散処理の例を表す説明図である。本発明の実施の形態に係る複数のＧＰＵの分散処理の例を表すもう一つの説明図である。本発明の実施の形態に係る複数のＧＰＵの分散処理の例を表すさらにもう一つの説明図である。本発明の実施の形態に係るＧＰＵによる、仮想的な１つのＧＰＵ、あるいはスケーラブルなＧＰＵを構成する態様の例を表す説明図（１）である。本発明の実施の形態に係るＧＰＵによる、仮想的な１つのＧＰＵ、あるいはスケーラブルなＧＰＵを構成する態様の例を表す説明図（２）である。本発明の実施の形態に係るＧＰＵによる、仮想的な１つのＧＰＵ、あるいはスケーラブルなＧＰＵを構成する態様の例を表す説明図（３）である。本発明の実施の形態に係るＧＰＵによる、仮想的な１つのＧＰＵ、あるいはスケーラブルなＧＰＵを構成する態様の例を表す説明図（４）である。本発明の実施の形態に係るＧＰＵによる、仮想的な１つのＧＰＵ、あるいはスケーラブルなＧＰＵを構成する態様の例を表す説明図（５）である。本発明の実施の形態に係るＧＰＵによる、仮想的な１つのＧＰＵ、あるいはスケーラブルなＧＰＵを構成する態様の例を表す説明図（６）である。本発明の実施の形態に係るＧＰＵによる、複数のアプリケーションを時分割的及び／または空間分割的に実行する例を表す説明図（１）である。本発明の実施の形態に係るＧＰＵによる、複数のアプリケーションを時分割的及び／または空間分割的に実行する例を表す説明図（２）である。本発明の実施の形態に係るＧＰＵによる、複数のアプリケーションを時分割的及び／または空間分割的に実行する例を表す説明図（３）である。本発明の実施の形態に係るＧＰＵによる、複数のアプリケーションを時分割的及び／または空間分割的に実行する例を表す説明図（４）である。本発明の実施の形態に係るＧＰＵによる、複数のアプリケーションを時分割的及び／または空間分割的に実行する例を表す説明図（５）である。

　本発明の実施の形態について図面を参照しながら説明する。本発明の実施の形態に係る情報処理システム１は、図１に例示するように、複数のグラフィックプロセッサ（ＧＰＵ）１０ａ，１０ｂ…と、各ＧＰＵ１０に対応して設けられるメモリ２０ａ，２０ｂ…とを含み、各ＧＰＵ１０は、ＣＰＵ３０に接続されている。またこのＣＰＵ３０にはメモリ３１が接続されている。本実施の形態の情報処理システム１の一例は、この複数のＧＰＵ１０が、全体として、仮想的な一つのＧＰＵであるかのように動作するよう制御するものである。

　なお、各ＧＰＵを区別する必要がない場合は、ＧＰＵ１０ａ，１０ｂ…を、ＧＰＵ１０と総称する。メモリについても同様に、メモリ２０ａ，２０ｂ…を区別する必要のない場合は、メモリ２０と総称する。

　また図１ではＧＰＵ１０が４個用いられる場合の一例を示しているが、ＧＰＵの数及び接続の態様は、この図１に例示の限りではない。この点について別の例を後に述べる。

　各ＧＰＵ１０は、図２に例示するように、バスファブリック１１と、コマンドプロセッサ（ＣＰ）１２及びジオメトリエンジン（ＧＥ）１３を含む制御ユニット１４と、シェーダエンジン（ＳＥ）２１，テクスチャユニット（ＴＵ）２２，レンダリングバックエンド（ＲＢ）２３、及びキャッシュ２４を含む、複数の描画処理ユニット２５と、Ｌ３キャッシュ２７とを含む。

　本実施の形態の例において、各ＧＰＵ１０に接続されているメモリ２０ａ，２０ｂ…と、ＣＰＵ３０に接続されているメモリ３１とは、全体として一つのメモリ空間を構成する。すなわち図３にその概要を例示するように、各メモリ２０ａ，２０ｂ…及びメモリ３１には、一つのメモリ空間内で互いに重なり合わないアドレス領域が割り当てられる。図３の例では、メモリ３１にはアドレスＡ０からＡ１までのアドレス領域が割り当てられ、メモリ２０ａには、アドレスＡ１＋１からＡ２までのアドレス領域が割り当てられ…というように、各メモリ２０，３１に割り当てたアドレス領域が互いに連続するアドレス領域となっており、全体として一つのアドレス領域を構成する例が示されている。

　稼働中の複数のＣＰＵ３０／ＧＰＵ１０は、こうして共通のグローバルなアドレス空間を共用しており、自身（ＣＰＵ／ＧＰＵごと）のリソースが、当該アドレス空間のどのアドレス領域に割りあてられているかを把握している。具体的に本実施の形態のバスファブリック１１は、自己を内包するＧＰＵ１０に接続されたメモリ２０に割り当てられたアドレス領域の情報を保持する。なお、ＧＰＵ１０ごとに個別に割り当てられたアドレス領域は連続したアドレス領域であってよい。また、この割りあての方法は、静的・動的いずれでもよい。さらに、ＭＭＵ（Memory Management Unit）などを介してページ方式によりメモリ管理が行われてもよい。

［バスファブリックの構成・動作］
　バスファブリック１１は、所定のＧＰＵ間インターコネクト（本発明の第２のインターコネクトに相当する）ＣＸを介して、他のＧＰＵ１０のバスファブリック１１との間でデータを授受し、当該他のＧＰＵ１０に接続されるメモリ２０にアクセス可能に接続されている。またバスファブリック１１は、所定のチップ間インターコネクトＣＺを介してＣＰＵ３０に接続されたメモリ３１と、自身に接続されたメモリ２０とを一つのメモリとして共用する。このようなチップ間インターコネクトＣＺ及びそれを介して行われる処理動作は従来のＵＭＡでの構成と同様のものであるので、ここでの詳しい説明を省略する。

　またこのバスファブリック１１は、自身の属するＧＰＵ１０内の各部から、アドレスを指定したメモリアクセス要求を受け入れる。バスファブリック１１は、当該メモリアクセス要求において指定されたアドレスが、自身の属するＧＰＵ１０に接続されたメモリ２０に割り当てられたアドレス領域内のアドレスであるか否かを判断する。

　ここでバスファブリック１１は、当該メモリアクセス要求において指定されたアドレスが、自身の属するＧＰＵ１０に接続されたメモリ２０に割り当てられたアドレス領域内のアドレスであれば、当該メモリアクセス要求に従って、自身の属するＧＰＵ１０に接続されたメモリ２０に対してアクセス（データの読み出し、またはデータの書き込みの処理）を行う。

　またバスファブリック１１は、当該メモリアクセス要求において指定されたアドレスが、自身の属するＧＰＵ１０に接続されたメモリ２０に割り当てられたアドレス領域内のアドレスでなければ、当該指定されたアドレスを含むアドレス領域が割り当てられている他のＣＰＵ３０またはＧＰＵ１０を特定する。

　バスファブリック１１は、当該メモリアクセス要求において指定されたアドレスが、他のＧＰＵ１０に接続されたメモリ２０に割り当てられたアドレス領域内のアドレスであれば、当該他のＧＰＵ１０のバスファブリック１１に対して、上記ＧＰＵ間インターコネクトＣＸを介してデータ転送を行い、当該他のＧＰＵ１０に接続されているメモリ２０に対してアクセス（データの読み出し、またはデータの書き込みの処理）を行う。

　また、バスファブリック１１は、当該メモリアクセス要求において指定されたアドレスが、ＣＰＵ３０に接続されたメモリ３１に割り当てられたアドレス領域内のアドレスであれば、ＣＰＵ３０に接続されたメモリ３１に対して、上記チップ間インターコネクトＣＺを介してアクセス（データの読み出し、またはデータの書き込みの処理）を行う。

　なお、バスファブリック１１は、複数のＧＰＵ１０やＣＰＵ３０の接続トポロジーによってアクセスするメモリ２０，３１に接続された他のＧＰＵ１０やＣＰＵ３０との間でデータを送受するルートが複数ある場合は、当該接続関係に基づき、データ転送において最短となるルートを選択する。このようなルート選択の方法は、広く知られているので、ここでの説明は省略する。

　さらにこのバスファブリック１１は、ＧＰＵ間インターコネクトＣＸを介して、所定のキャッシュコヒーレンスプロトコルに基づくデータ転送（いわゆるスヌーピング）を実行してもよい。本実施の形態におけるＧＰＵ１０で用いられるキャッシュについては後に述べる。

［制御ユニットの構成］
　制御ユニット１４は、他のＧＰＵ１０の制御ユニット１４との間で、チップ間インターコネクトＣＹ（本発明の第１のインターコネクトに相当する）を介してデータを送受可能に接続される。このチップ間インターコネクトＣＹは、複数のＧＰＵ１０の制御ユニット１４間（特に後に説明するＧＥ１３間）で、テッセレーションの前後でのシェーダの座標データや、３Ｄオブジェクトにおけるプリミティブ間接続情報、各ＧＥ１３の動作ステータス（実行中，停止中，同期待ち，データ待ち，異常状態などの別を表す情報）を授受し、また、相互の制御ユニット１４の処理を同期するためのハンドシェイク信号を授受する。

　この制御ユニット１４は、少なくとも一つのＣＰ１２と、少なくとも一つのＧＥ１３を備える。ＣＰ１２は、ＣＰＵ３０が生成したコマンド・ストリームを取得（フェッチ）してデコードし、当該デコードの結果に基づいて実行するべき処理を特定する。このＣＰ１２は、当該特定した処理を、描画処理ユニット２５が備えるＳＥ２１等にディスパッチして実行させる。

　本実施の形態の一例においてこのＣＰ１２は、コマンド・ストリームのフェッチ、デコード、並びにその実行を行うマイクロコントローラと、処理のディスパッチ等のリソース・マネジメント等を行うＤＭＡとを含む。さらにこのＣＰ１２は、各処理の実行時期を調整するスケジューラを含んでもよい。

　本実施の形態では、ＣＰ１２は、自身が実行するべき処理だけでなく、他のＧＰＵ１０のＣＰ１２が実行する処理の内容をも参照しつつ、自身の属するＧＰＵ１０内での描画処理ユニット２５等での処理のタイミング（優先順位や終了・同期等の処理、並びにスレッドの管理等の実行フロー全般）を管理する。

　具体的に、このＣＰ１２は、他のＧＰＵ１０のＣＰ１２との間で、ディスパッチした処理の内容を表す情報（処理ディスパッチ指示内容）、優先順位の指示、ＳＥ２１などのチップ内の各ブロックの動作ステータス（実行中，停止中，同期待ち，データ待ち，異常状態などの別）を表す情報や、処理を同期するためのハンドシェイク信号を授受する。この実行タイミングの制御は、一般的な分散処理におけるプロセッサ間での処理タイミングの制御と同様の方法を採用できる。

　ＧＥ１３は、ＣＰＵ３０により描画するよう指示される、三次元の仮想的なオブジェクト（３Ｄオブジェクト）のサーフェスをより詳細なプリミティブへ変換するテッセレーションなど、サーフェスシェーダとしての処理を行う。

　またこのＧＥ１３は、複数の頂点からなるポリゴンなどのプリミティブの入力を受けて、頂点の削除や追加をおこなうジオメトリシェーダや、各頂点の座標変換をおこなうバーテックスシェーダ、それらを統合したプリミティブシェーダなどの処理を実行する。

　ここで、サーフェスシェーダとしての処理に引き続く処理は、レンダリングの結果を描画する画面（スクリーン）を、部分ごと（例えば左上、右上、左下、右下の１／４ずつの範囲）に分割して得られる描画対象領域ごとに、後に説明するＳＥ２１等の演算ブロックを割り当てることで並列的に処理できるものであるが、３Ｄオブジェクトの描画結果が複数の描画対象領域に跨がる場合などでは、上記描画対象領域に分割する前の３Ｄオブジェクトに対して一括して処理を行う必要がある。そうでなければ分割部分ごとの整合性の維持が困難であり、また処理効率も向上できないからである。

　そこで本実施の形態では、このＧＥ１３も、テッセレーション等の処理の前後の座標データを、他のＧＰＵ１０のＧＥ１３との間で授受しつつ処理を行うこととする。

［制御ユニットによる分散処理］
　具体的に、複数のＧＰＵ１０が、全体として、仮想的に一つのＧＰＵとして機能するよう制御する場合、各ＧＰＵ１０の制御ユニット１４は、次のいずれかの方法で動作する。なお、以下の動作例では、いずれにおいても、チップ間インターコネクトＣＹを介しての転送が最も少なく、また最も短時間で完了する経路を選択するものとする。

　（第１の方法）　この方法では、複数のＧＰＵ１０のいずれか一つのＧＰＵの制御ユニット１４が全ＧＰＵ１０の制御ユニット１４の代表として機能する。

　そしてこの代表となった制御ユニット１４（便宜的にＧＰＵ１０ａの制御ユニット１４ａとする）のＣＰ１２ａが、ＣＰＵ３０の出力するコマンド・ストリームをフェッチし、デコードして、当該デコードの結果に基づいて実行するべき処理を特定する。そして、このＣＰ１２ａは、当該特定した処理を、各ＧＰＵ１０の備えるどの描画処理ユニット２５のＳＥ２１等に処理させるかを決定する。例えばＣＰ１２ａが、ＧＰＵ１０ａ自身の描画処理ユニット２５において処理すると決定した場合、ＣＰ１２ａは、当該特定した処理の指示や当該処理に必要なデータを、チップ内インターコネクトを介してＧＰＵ１０ａ自身の描画処理ユニット２５に出力して処理を行わせる。

　一方、ＣＰ１２ａが、ＧＰＵ１０ａとは異なる他のＧＰＵ１０、例えばＧＰＵ１０ｂの描画処理ユニット２５において処理すると決定した場合、ＣＰ１２ａは、当該特定した処理の指示や当該処理に必要なデータを、チップ間インターコネクトＣＹを介してＧＰＵ１０ｂのＣＰ１２ｂへ送出する。

　代表となっていないＧＰＵ１０のＣＰ１２（上述の例ではＧＰＵ１０ａのＣＰ１２ａ以外のＣＰ１２）は、専ら、代表となったＣＰ１２ａから受け入れた処理の指示や当該処理に必要なデータを、自身が属するＧＰＵ１０の描画処理ユニット２５に出力して処理を行わせる等、描画処理ユニット２５と、代表となったＣＰ１２ａとのインタフェースとして機能することとなる（インアクティブの状態となる）。

　つまり、ここでの例では、ＧＰＵ１０ｂのＣＰ１２ｂは、代表となったＣＰ１２ａから受け入れた処理の指示や当該処理に必要なデータを、自身が属するＧＰＵ１０ｂの描画処理ユニット２５に出力して処理を行わせる。

　この例によると代表となったＧＰＵ１０ａのＣＰ１２ａが、全体を統括して、主体的な制御管理を行う（アクティブの状態となって動作する）ことで、すべてのＧＰＵ１０のシェーダ等での処理を管理する。これにより、全体的な処理割り当ての最適化や、同期処理が可能となるとともに、１チップでは達成できない多数のシェーダ等を用いた処理が可能となって、処理効率を向上できる。

　またこの第１の方法では、当該代表となったＧＰＵ１０ａのＧＥ１３ａが（アクティブの状態となって動作して）、描画するべきすべての３Ｄオブジェクトのサーフェスのテッセレーションなど、サーフェスシェーダとしての処理を行う。

　そして、ＣＰ１２ａが行った処理の割り当てに基づいて、各３Ｄオブジェクトの情報（テッセレーションの結果等を含む）を、対応する描画処理ユニット２５を内蔵するＧＰＵ１０のＧＥ１３に対して送出する（自身が属するＧＰＵ１０の描画処理ユニット２５において処理する場合は、ＧＥ１３ａは、そのままチップ内インターコネクトを介して自身と同じＧＰＵ１０ａ内の描画処理ユニット２５に当該情報を出力する）。

　このＧＥ１３においても、代表となっていないＧＰＵ１０のＧＥ１３（上述の例ではＧＰＵ１０ａのＧＥ１３ａ以外のＧＥ１３）は、専ら、代表となったＧＥ１３ａから受け入れた処理の指示や当該処理に必要なデータを、自身が属するＧＰＵ１０の描画処理ユニット２５に出力して処理を行わせる等、描画処理ユニット２５と、代表となったＧＥ１３ａとのインタフェースとして機能することとなる（インアクティブの状態となる）。

　つまり、例えばＧＰＵ１０ｂのＧＥ１３ｂは、代表となったＧＥ１３ａから、チップ間インターコネクトＣＹを介して受け入れた３Ｄオブジェクトの情報を、自身が属するＧＰＵ１０ｂの描画処理ユニット２５に出力して処理を行わせる。

　（第２の方法）　また、１つのＧＰＵ１０内の制御ユニット１４がすべてのＧＰＵ１０内で行うべき処理を主体的に制御するのではなく、１つのＧＰＵ１０内の制御ユニット１４が全体を統括しつつ、各ＧＰＵ１０に分散処理を行わせることとしてもよい。

　この第２の方法では、どのＧＰＵ１０の制御ユニット１４もアクティブの状態となって動作するが、特定のＧＰＵ１０（例えばＧＰＵ１０ａとする）が主となり、この主となったＧＰＵ１０ａの制御ユニット１４ａが、他のＧＰＵ１０ｂ，ｃ…の制御ユニット１４ｂ，ｃ…をサブとして分散処理を行う。

　具体的に、主となったＧＰＵ１０ａの制御ユニット１４ａのＣＰ１２ａが、ＣＰＵ３０の出力するコマンド・ストリームをフェッチし、サブとなっている他のＧＰＵ１０ｂ，ｃ…のＣＰ１２ｂ，ｃ…に対してデコード及び、当該デコードの結果に基づいて実行するべき処理を特定させる。

　サブとして機能する各ＣＰ１２ｂ，ｃ…は、当該特定した処理を、各ＧＰＵ１０の備えるどの描画処理ユニット２５のＳＥ２１等に処理させるかを決定する。例えばＣＰ１２ｂが、自身の属するＧＰＵ１０ｂの描画処理ユニット２５において処理すると決定した場合、ＣＰ１２ｂは、当該特定した処理の指示や当該処理に必要なデータを、チップ内インターコネクトを介してＧＰＵ１０ｂ自身の描画処理ユニット２５に出力して処理を行わせる。

　一方、ＣＰ１２ｂが、ＧＰＵ１０ｂとは異なる他のＧＰＵ１０ａ，ｃ…、例えばＧＰＵ１０ａの描画処理ユニット２５において処理すると決定した場合、ＣＰ１２ｂは、当該特定した処理の指示や当該処理に必要なデータを、チップ間インターコネクトＣＹを介してＧＰＵ１０ａのＣＰ１２ａへ送出する。

　この第２の方法の例では、各ＣＰ１２は、他のＧＰＵ１０のＣＰ１２から受け入れた処理の指示や当該処理に必要なデータを、自身が属するＧＰＵ１０の描画処理ユニット２５に出力して処理を行わせる等、描画処理ユニット２５と、代表となったＣＰ１２ａとのインタフェースとしても機能する。

　つまり、ここでの例では、ＧＰＵ１０ａのＣＰ１２ａは、ＣＰ１２ｂから受け入れた処理の指示や当該処理に必要なデータを、自身が属するＧＰＵ１０ａの描画処理ユニット２５に出力して処理を行わせる。

　またこの第２の方法では、主となったＧＰＵ１０ａのＧＥ１３ａが、他のＧＰＵ１０ｂ，ｃ…のＧＥ１３ｂ，ｃ…に対して、分散して、描画するべきすべての３Ｄオブジェクトのサーフェスのテッセレーションなど、サーフェスシェーダとしての処理を行わせる。この分散処理の制御は、広く知られた方法を採用できるので、ここでの詳しい説明は省略する。

　そしてサブとなっているＧＰＵ１０ｂ，ｃ…のＧＥ１３ｂ，ｃ…は、ＣＰ１２が行った処理の割り当てに基づいて、各３Ｄオブジェクトの情報（テッセレーションの結果等を含む）を、対応する描画処理ユニット２５を内蔵するＧＰＵ１０のＧＥ１３に対して送出する（自身が属するＧＰＵ１０の描画処理ユニット２５において処理する場合は、ＧＥ１３は、そのままチップ内インターコネクトを介して自身と同じＧＰＵ１０内の描画処理ユニット２５に当該情報を出力する）。

　このＧＥ１３においても、他のＧＰＵ１０のＧＥ１３から処理の指示や当該処理に必要なデータを受け入れると、自身が属するＧＰＵ１０の描画処理ユニット２５に出力して処理を行わせる等、描画処理ユニット２５と、代表となったＧＥ１３ａとのインタフェースとしても機能することとなる。

　この第２の方法では、複数のＧＰＵ１０のＣＰ１２，ＧＥ１３が分散処理により組み合わせて利用され、全体としてあたかも一つのＣＰ１２，ＧＥ１３として機能する。もっとも、常にすべてのＧＰＵ１０のＣＰ１２やＧＥ１３がアクティブとなって演算を行っている必要はなく、主となったＣＰＵ１０のＣＰ１２，ＧＥ１３は、実行するべき処理に必要な処理能力に応じて、サブとして稼働させるＧＰＵ１０のＣＰ１２，ＧＥ１３の数を決定し、当該数だけのＧＰＵ１０のＣＰ１２，ＧＥ１３を制御して、分散的に処理を行わせることとしてよい。

　（第３の方法）　さらに各ＧＰＵ１０が複数の制御ユニット１４を備えてもよい。この場合、第１，第２の方法により、一つのＧＰＵ１０内の一つの制御ユニット１４が代表、または主となって分散処理を実行することとすれよい。あるいはこの例では、ＧＰＵ１０内の各制御ユニット１４が、それぞれ別々のアプリケーションプログラムに基づく処理を実行してもよい。

［描画処理ユニットの構成・動作］
　ＳＥ２１は、制御ユニット１４から入力されるデータを用いて、バーテックスシェーダやピクセルシェーダなど種々のシェーダとしての演算処理を実行する。このＳＥ２１は、一般的には、複数の処理を時分割・空間分割にて並列実行するユニット（Compute Unit：ＣＵ）を内蔵する。またこのＳＥ２１は、ポリゴンをピクセル値に変換するラスタライズ処理を実行してもよい。

　またこのＳＥ２１は、処理中、メモリ２０，３１に格納されたデータを読み出し、あるいはメモリ２０，３１へデータを書き込む際には、読み出しあるいは書き込みの対象となるアドレスを指定する情報とともに（データの書き込みの際は、さらに当該書き込むべきデータとともに）、メモリへのアクセス要求を、バスファブリック１１に対して出力する。そしてこのＳＥ２１は、メモリ２０，３１から読み出されたデータを、バスファブリック１１から受け入れる。

　ＴＵ２２は、テクスチャデータや、種々の数値テーブルを、メモリ２０，３１から取得するよう、バスファブリック１１に対して要求する。そしてＴＵ２２は、バスファブリック１１が当該要求に応じてメモリ２０，３１から取得したデータを受け入れて、必要に応じてフィルター処理のうえ、ピクセルシェーダとして動作するＳＥ２１に出力する。

　ＲＢ２３は、ＳＥ２１が出力するピクセルシェーダ出力のピクセル値を受け入れて、アルファテスト、ステンシルテスト、デプステストなどを行って、各ピクセルを描画するか否かを判断し、描画すると判断したときには、当該ピクセルを、フレームバッファ（メモリ２０，３１内の所定のアドレスに確保されているものとする）に書き込む。この書き込みの際には、ＲＢ２３は、メモリ２０，３１内のフレームバッファとして設定されたアドレス領域内の書き込むピクセルに対応するアドレスに、当該ピクセルの描画に係るデータを書き込むよう、バスファブリック１１に対して要求する。

　なお、ＳＥ２１，ＴＵ２２，ＲＢ２３は、メモリ２０，３１へのアクセス要求を行う際に、バスファブリック１１に対して直接、アクセス要求を出力してもよいが、ここではキャッシュ２４を介して出力するものとする。またＳＥ２１，ＴＵ２２，ＲＢ２３は、メモリ２０，３１から読み出されるデータを、キャッシュ２４を介して（あるいはキャッシュ２４から）受け入れるものとする。

　本実施の形態のＧＰＵ１０では、一般的なＧＰＵと同様に、同等の機能を有するＳＥ２１（ＣＵ）やＴＵ２２，ＲＢ２３等の描画処理ユニット２５を複数並列に内蔵してよい。この場合、ＣＰ１２やＧＥ１３は、所定の分散処理制御方法に基づいて、複数の描画処理ユニットに並列的に描画処理を実行させる。

　キャッシュ２４は、複数のキャッシュライン（キャッシュタグとデータとを関連付けて記憶する記憶領域）を備える。またこのキャッシュ２４は、アドレス比較器やウェイ切替器等を備える。各キャッシュラインは、タグとデータラインとを有し、タグはキャッシュ対象アドレス、リプレースルール制御ビット、パリティ・ＥＣＣビット、ラインロックビット等の制御情報等を含む。またこのタグには、どのＧＰＵ１０に接続されたメモリ２０から読み出されたデータを格納しているかを表す情報を含んでもよい。データラインは、例えばキャッシングしたデータのほか、パリティ・ＥＣＣビットを含んでもよい。

　本実施の形態の一例では、このキャッシュ２４は、ＳＥ２１，ＴＵ２２，ＲＢ２３とバスファブリック１１との間に介在し、ＳＥ２１，ＴＵ２２，ＲＢ２３がバスファブリック１１に対して出力するアクセス要求をインターセプトして、アクセスしようとするアドレスのデータがいずれかのキャッシュラインに格納されているか否かを判断する。キャッシュ２４は、要求が読み出しである場合、ここでいずれかのキャッシュラインに、アクセスしようとするアドレスのデータが格納されていれば、当該データを読み出して要求元であるＳＥ２１，ＴＵ２２，ＲＢ２３のいずれかに出力する。また、要求が書き込みである場合、いずれかのキャッシュラインに、アクセスしようとするアドレスのデータが格納されていればキャッシュ２４は、当該データに、要求されたデータを上書きする。

　またこのキャッシュ２４は、アクセスしようとするアドレスのデータがいずれかのキャッシュラインに格納されていなければ、インターセプトしたアクセス要求をバスファブリック１１に出力する。そしてキャッシュ２４は、バスファブリック１１を介してメモリ２０，３１から読み出されたデータを受け入れ、このデータをアクセス要求元のＳＥ２１，ＴＵ２２，ＲＢ２３のいずれかに出力するとともに、当該受け入れたデータを、アクセス要求に係るアドレスに関連付けて、いずれかのキャッシュラインに格納する。この動作は一般的なキャッシュメモリの動作と同様である。

　さらに本実施の形態では、このキャッシュ２４は、バスファブリック１１及びＧＰＵ間インターコネクトＣＸを介して、他のＧＰＵ１０またはＣＰＵ３０との間で、所定のキャッシュコヒーレンスプロトコルに基づくデータ転送（いわゆるスヌーピング）を実行する。これによりキャッシュされたデータの整合性を維持する。またキャッシュ２４は、ＳＥ２１，ＴＵ２２，ＲＢ２３に内蔵されてもよい。

　さらに本実施の形態のキャッシュ２４（Ｌ０，Ｌ１，Ｌ２キャッシュ）は、ＳＥ２１，ＴＵ２２，ＲＢ２３とバスファブリック１１との間に介在して、キャッシュラインごとに、キャッシュラインに格納したデータが、自身が属するＧＰＵ１０に接続されたメモリ２０から読み出したものか、他のＧＰＵ１０に接続されたメモリ２０から読み出したものかを表すフラグを関連付けられて記録してもよい。

　このフラグは１ビットとし、自身が属するＧＰＵ１０に接続されたメモリ２０から読み出したものか、他のＧＰＵ１０に接続されたメモリ２０から読み出したものかを表すだけのものでもよい。また、多ビットで構成し、自身が属するＧＰＵ１０または、他のどのＧＰＵ１０に接続されたメモリ２０から読み出したデータを格納しているかを特定するフラグ（ＧＰＵ１０を特定するフラグ）としてもよい。

　このように構成した場合、キャッシュラインに格納したデータを置き換えるリプレース処理において、特定のＧＰＵ１０に接続されたメモリ２０から読み出したキャッシング結果を優先的に残すよう制御してもよい。また、キャッシュラインに格納したデータを置き換えるリプレース処理において、格納したデータを利用するアプリケーションの実行プロファイル結果を収集し、どのＧＰＵ１０に接続されたメモリ２０からのキャッシング結果を優先的に残すかの制御を行ってもよい。

　さらに、ＳＥ２１，ＴＵ２２，ＲＢ２３とバスファブリック１１との間に介在するキャッシュ２４は、そのキャッシュラインごとに、自身が属するＧＰＵ１０に接続されたメモリ２０から読み出したデータを格納するものか、他のＧＰＵ１０に接続されたメモリ２０から読み出したデータを格納するものかを設定する設定用のフラグを関連付けて記録してもよい。

　この設定用のフラグも、１ビットとし、自身が属するＧＰＵ１０に接続されたメモリ２０から読み出したデータを格納するものか、他のＧＰＵ１０に接続されたメモリ２０から読み出したデータを格納するものかを表すだけのものでもよい。また、この設定用のフラグは、多ビットで構成し、自身が属するＧＰＵ１０または、他のどのＧＰＵ１０に接続されたメモリ２０から読み出したデータを格納するものかを特定するフラグ（ＧＰＵ１０を特定するフラグ）としてもよい。

　この例では、キャッシュを行うＳＥ２１，ＴＵ２２，ＲＢ２３やバスファブリック１１等の各ブロックは、キャッシュラインごとの設定用のフラグを参照し、読み出したデータが、どのＧＰＵ１０に接続されたメモリ２０から読み出されたものかにより、どのキャッシュラインに当該データを格納するかを決定して、当該決定したキャッシュラインに当該データを格納する。

　この場合も、どのキャッシュラインをどのＧＰＵ１０に割り当てるかを決定する際に、予め、実行するアプリケーションの実行プロファイル結果を収集し、どのＧＰＵ１０のメモリ２０からのデータを優先的にキャッシングするかを制御してもよい。

　さらに、本実施の形態のある態様では、ＳＥ２１，ＴＵ２２，ＲＢ２３のそれぞれが、図示しないＬ０，Ｌ１キャッシュを内蔵してもよい。この例では、ＳＥ２１，ＴＵ２２，ＲＢ２３の外部にあるキャッシュ２４は、Ｌ２キャッシュとして機能する。またこの例では、ＳＥ２１，ＴＵ２２，ＲＢ２３に内蔵されるＬ０，Ｌ１キャッシュは、Ｌ２キャッシュとして機能するキャッシュ２４の上位の階層のキャッシュとして動作し、ＳＥ２１，ＴＵ２２，ＲＢ２３のそれぞれが備える、ＳＥ２１，ＴＵ２２，ＲＢ２３としての動作を行うための機能ブロック（コア）とキャッシュ２４との間に介在してもよい。この例では、上記フラグや設定用フラグは、Ｌ２キャッシュとして機能するキャッシュ２４においてのみ用いられる。

　Ｌ３キャッシュ２７は、バスファブリック１１と、このバスファブリック１１が属するＧＰＵ１０に接続されているメモリ２０との間に介在し、バスファブリック１１による当該メモリ２０へのアクセスをインターセプトして、メモリ２０のキャッシュメモリとして動作する。

［動作］
　本実施の形態は以上の構成を基本的に備えており、従ってＣＰＵ３０がメモリ２０，３１の所定のアドレスに格納したコマンド・ストリームを、例えば代表となったＧＰＵ１０ａのＣＰ１２ａが、自身のバスファブリック１１ａを介して読み出す。このデータの読み出しはＬ３キャッシュ２７にキャッシュされたデータを読み出すことにより行われてもよい。

　ＣＰ１２ａはコマンド・ストリームをデコードし、デコードにより実行するべき処理を特定する。そして、ＣＰ１２ａは、当該特定した処理を、どのＧＰＵ１０のどの描画処理ユニット２５に行わせるかを決定して、処理のディスパッチを行う。

　そして処理を行わせることとした描画処理ユニット２５に対して処理の指示や処理に必要なデータ（の格納先アドレス等）を送出する。このときこれらの指示やデータの送出は、チップ間インターコネクトＣＹを介して行われる。

　また代表となったＧＰＵ１０ａのＧＥ１３ａは、ＣＰＵ３０により描画するよう指示される、三次元の仮想的なオブジェクト（３Ｄオブジェクト）のサーフェスをより詳細なプリミティブへ変換するテッセレーションなど、サーフェスシェーダとしての処理を行う。そして当該処理の結果を、チップ間インターコネクトＣＹを介して他のＧＰＵ１０ｂ，ｃ…のＧＥ１３ｂ，ｃ…に出力する。

　他のＧＰＵ１０ｂ，ｃ…のＧＥ１３ｂ，ｃ…は、ＧＥ１３ａから受け入れたテッセレーションの処理結果等の情報を、自己が属するＧＰＵ１０の描画処理ユニット２５に出力する。

　そして各ＧＰＵ１０の描画処理ユニット２５が、並列的に、描画の処理を実行する。この実行結果は、各ＧＰＵ１０のバスファブリック１１を介して、各ＧＰＵ１０及びＣＰＵ３０に接続されたメモリ２０，３１内に確保された、フレームバッファに格納される。

　フレームバッファに格納されたデータは、例えばＣＰＵ３０により読み出されて、図示しない画像表示処理部に出力され、ディスプレイ等に表示出力される。

　本実施の形態では、各ＧＰＵ１０のバスファブリック１１が、相互にＧＰＵ間インターコネクトＣＸを介して接続され、各メモリ２０や、ＣＰＵ３０に接続されるメモリ３１を互いに共有し、全体として一つのメモリ空間としてアクセス可能としている。また、他のＧＰＵ１０において処理される内容を参照する必要のある制御ユニット１４が、チップ間インターコネクトＣＹを介して互いにデータを送受可能に接続されている。これにより複数のＧＰＵ１０があたかも１つのＧＰＵであるかのように互いに協調して処理を進めることができる。

［インターコネクトの例］
　なお、このＧＰＵ間インターコネクトＣＸやチップ間インターコネクトＣＹは、ＧＰＵ１０内で対応するチップ内インターコネクトの信号線を介して送受される信号（ＲＡＷ値）をサンプリングし、当該サンプリングして得た情報を含むデータフレームを他のＧＰＵ１０（あるいはＣＰＵ３０）に対して送出し、受信した側でデサンプリングしてＲＡＷ値を再生し、ＧＰＵ１０内で対応するチップ内インターコネクトの信号線上に、当該ＲＡＷ値を出力することで行われてもよい。

　ここでサンプリングの対象となる信号は、データバス上の信号だけでなく、制御信号を含んでもよい。すなわち、サンプリングするチップ内インターコネクトの信号線は、主なデータを転送するメイン・データ・インターコネクト（キャッシュコヒーレントプロトコルの信号を含んでもよい）や、ＳＥ２１（ＣＵ）とＬ１キャッシュ間、Ｌ１－Ｌ２キャッシュ間、Ｌ１キャッシュとＲＢ２３間、Ｌ１－分散Ｌ２間のクロスバ、MMIOアクセス・インターコネクトなど、ＧＰＵ１０の制御コアからＧＰＵ１０の各ブロックのレジスタやメモリ２０にアクセスするためのインターコネクト、パワーマネージメント制御、試験・デバッグ用（ＤＦＴ／ＤＦＤ）、割り込み信号用などシステム制御のためのインターコネクト、各ブロックに固有な専用線を含むインターコネクト（例えばローカルデータバス、ハンドシェイク、制御ライン、ＣＰ１２から各ＳＥ２１間、ＲＢ２３とＳＥ２１との間、ＧＥ１３から各ＳＥ２１間のインターコネクト）の信号線等である。

　送信側となるＧＰＵ１０は、バッファを備えて、自身のチップ内インターコネクトの信号線から、サンプリングして得たＲＡＷ値を送出するタイミングまで、送信するべきデータフレームを保持する。送出のタイミングは、受信側となったＧＰＵ１０から指示されてもよい。

　受信側となったＧＰＵ１０は、バッファを備えて、自身のチップ内インターコネクトの信号線に、デサンプリングして得たＲＡＷ値を出力するタイミングまで、受信したデータフレームを保持する。データフレームを送受信するＧＰＵ１０は、クレジットベース等、所定のフロー制御によりデータフレームの送受を行う。なお、このフロー制御は、サンプリングした信号線を含むチップ内インターコネクトを介したデータの授受で利用されるプロトコルのハンドシェイク信号には関わりなく行われる。

　なお、不要な情報転送を低減するため、信号線上の信号が変化（０から１へ、１から０へ変化）したときに限り、サンプリングとフレーム生成を行うようにしてもよい。また、サンプリングの対象とする信号線を含むチップ内インターコネクトや、それに接続されたＧＰＵ１０内のブロックがアクティブであるか否かを示す制御信号を参照してサンプリングするか否かを決定してもよい。

　さらに、ＧＰＵ間インターコネクトＣＸとチップ間インターコネクトＣＹとは、それぞれ互いに非同期で動作してよい。

［キャッシュ］
　また本実施の形態において、描画処理ユニット２５が備えるキャッシュ２４は、記憶しているキャッシュライン内のデータが、自身が属するＧＰＵ１０に接続されたメモリ２０、または、他のＧＰＵ１０に接続されたメモリ２０（あるいはＣＰＵ３０に接続されたメモリ３１）のうち、どのＧＰＵ１０（またはＣＰＵ３０）に接続されたメモリ２０（メモリ３１）から読み出されたものであるかを特定する情報を、キャッシュラインごとに保持してもよい。この情報は、キャッシュコヒーレンスの処理において利用される。

　さらに、ＧＰＵ１０のＣＰ２１は、キャッシュ２４が備えるキャッシュラインの各々に、どのＧＰＵ１０に接続されたメモリ２０（あるいはＣＰＵ３０に接続されたメモリ３１）から読み出したデータを格納するかを予め割り当てておいてもよい。この例では、あるＧＰＵ１０に接続されたメモリ２０から読み出されたデータは、当該メモリ２０から読み出したデータを格納するものとして割り当てられたキャッシュラインに格納されることとなる。

［本実施の形態の特徴］
　また、本実施の形態の情報処理システムの特徴は、次のように説明することもできる。すなわち、本実施の形態は、性能スケーラビリティがある巨大な画像処理システムを仮想的にマルチチップで構成する方法を提供する。

　またその特徴事項は、次の通りである。
・複数のチップから構成されており、「各チップが個別に持つメモリを束ねて、仮想的に一つのメモリとして扱えるチップ間インタフェース」と「分散処理が困難な処理を、各チップをまたがって実行するためのチップ間インタフェース」をもつ画像処理システムである。
・GPU間接続ポート(ＣX)（ＣY）が異なるプロトコルで非同期に動作する。
・GPU間接続ポート（ＣY）が、CP,GEのみの接続をする。
・CP,GEの一連の複数チップにおける分散処理においてチップ間転送が最少・最短となる構成を選択する。
・複数GPUチップにおけるCP,GE分散処理方法を、1GPUチップ内においても適用することで、1GPUチップが空間分割によって複数アプリケーション処理の同時実行が可能となる。
・複数GPUチップにおけるCP,GE分散処理方法を前提として、GPUを指定の機能ごとにチップA/B/Cへ分割してもよい。
・GPUのキャッシュラインが、どのチップのデータをキャッシングしているかフラグをもたせてもよい。
・GPUのキャッシュラインが、どのチップのデータをキャッシングするか割り当てできてもよい。
・これにより動的な性能スケーラビリティをもたせることが可能となる（1チップ内の分割処理から、複数チップによる並列処理まで可能になる）。
・静的に性能スケーラビリティがあるマルチチップ・システムを構築することが可能となる。
・チップ内インターコネクト上の信号のＲＡＷ値をサンプリングして他のＧＰＵへ送出し、他のＧＰＵが、受信した情報をデサンプリングしてＲＡＷ値を得て自己のチップ内インターコネクトに出力するようなインターコネクト技術（以下サンプリングによるインターコネクト技術と呼ぶ）を、上記マルチチップ接続に適用することとしてもよい。
　特願２０１９－１８９０２７の明細書及び図面に記載の内容は、本明細書に参照により合併（incorporated by reference）される。

　詳細に言えば、本実施の形態は、GPU間接続ポート(ＣX)(ＣY)を持ち、単独でも動作しうる1GPUをA/B/Cに機能分割する方法を持ち、分散メモリのキャッシュ効率を高める方法を持ち、CP,GEを分散処理する方法を持つことで、1チップ内の空間分割から複数チップ同時利用までフレキシブルなハードウエア構成が可能であり、かつ、同じ1GPU用プログラミングモデルのまま、異なる性能要件のアプリケーションを一つ以上マッピングして並列実行することができる情報処理システムである。

　この実施形態の背景となった技術は次のようなものである。すなわち図４に示すように、GPUチップを用いた画像処理システムにおいて、性能向上が必要である場合、性能を向上させたGPUチップを用いることが一般的である。CPUで動作するソフトウェアの指示に基づき、1つのGPUチップが、そのGPUチップに直結された広帯域で大容量なメモリを利用しながら画像処理（とくに3D グラフィックスの描画処理）を実行する。すなわち従来例ではGPUチップが必要とするデータは、GPUチップに直結されたメモリに保持される。ただし、1チップで実現できる規模には、製造可能規模・電力密度などの要因で限界がある。更なる性能向上を目指す場合、1システム内で複数のGPUチップを同時に利用することが考えられるが、いくつか課題がある。

　CPUソフトウェアの処理内容に従って、リアルタイムに3Dグラフィックスを描画するとき、動的にきまる1シーンに含まれるすべてのオブジェクト情報をGPU上の処理は把握したうえで、1フレームを描画し、メモリ上のフレームバッファに出力する。この一連の処理には、多くの依存/参照関係があり、複数のGPUチップと、それらに個別に接続され分断されているメモリに、処理を分割することが容易ではない。複数のGPUチップと分断されたメモリでは、依存/参照関係の解決が困難であり、処理性能の向上が難しい（図４（ｃ））。3Dグラフィックス描画処理を、適切に分散配置するソフトウェアを開発することも難易度が高い。

　なお、GPUのひとつの利用方法である汎用コンピューティング処理を実行する場合は、このような複数のGPUチップに対する分散処理が、3Dグラフィックス描画と異なり、実現できる場合もある。これらの処理に要求されるリアルタイム性は低く、複数CPUに対する分散処理と同様の技法を用いて実行できるからである。しかし、性能向上率は限定されている。

　なお、CPUとGPUがそれぞれ個別のメモリをもち、両者が分断されている状態（図４（ｂ））よりも、ひとつの大容量メモリがCPUとGPUによって共有されている形（UMA: Unified Memory Architecture、図４（ａ））のほうが処理効率・性能・ソフトウェア開発難易度の面で優れる。しかし、これにも実現できる規模には、製造可能規模・電力密度などの要因で限界がある。

　これに対し、本実施の形態の情報処理システムで用いるＧＰＵ５１は次の図５（ａ）に例示する構成を備える。

　このGPU５１のそれぞれは、図５（ｂ）に示すように、自メモリ５２と同様に、他GPU５１のメモリ５２へダイレクトアクセスできるポートをもつ(X)。

　またこのGPU５１は、図５（ｂ）に示されるように、自CP(Command Processor),GE(Geometry Engine)が、他GPU５１の同ブロックと一体的に処理するために必要な内部通信を直結できるポートをもつ(Y)。

　さらにGPU５１は、図５（ｂ）に示すように、自メモリをCPU５３と共有(UMA)するためのダイレクトアクセスポートをもつ(Z)。

　各GPU５１は、これらのポートを介した接続により、あたかも1つのGPUであるように協調して処理を進めることができる(仮想的に、従来例の図４(a)と同様の構成)。

　ソフトウェア開発においては、1つのGPUを用いる場合(従来の図４(a)) と同様のプログラミングモデルで対応できる。

　1システムにおけるGPU接続数を変えることで、性能が異なるシステムを同一アーキテクチャ・同一プログラミングモデルのまま構築できる。

　1システムにおけるGPUアクティブ範囲を変えることで、動的に異なる性能要件のアプリケーションを実行できる。

　ここで1つのGPUは、それだけで単独GPUとして動作することもできる機能をもつ。

　なお、ポート（Ｘ）は上記インターコネクトＣＸに、ポート（Ｙ）は上記インターコネクトＣＹに、ポート（Ｚ）は上記インターコネクトＣＺにそれぞれ対応するものである。また、ＧＰＵ５１やＣＰＵ５３，メモリ５２の並列数やＧＰＵ５１の内部の構成、各チップの接続トポロジーは、この例のみに限定されない。

　各部構成をさらに細分して示した構成は図６に例示するようなものとなる。図において、各部は次の通りである。なお、以下の説明で用いる図面において、比較的太い矢印はデータ信号線、細い矢印は制御信号線（Control Signal）を例示している。

　CP(Command Processor)６１：GPUの処理内容は、CPUが生成したコマンド・ストリーム（プリミティブな描画や汎用計算の要求群）がメモリ上のQueueにおかれることで指定されている。このコマンド・ストリームは、GPUのCP６１がフェッチ・デコードし、必要に応じてよりプリミティブな処理に分解し、それらをShader Engine６３（SE, Compute Unit（CU）６３１を内蔵する）などにディスパッチすることで実行される。CP６１は、GPU内部に発行した処理要求の優先順位、終了・同期処理、スレッド管理を含む実行フロー全般の管理をおこなうことで、GPU全体の処理を統括する。ひとつのGPU内に、SE６３などが複数並列にある場合、それら全体を統括下におき、各リソースへの処理割当の最適化や同期処理も含めて集中管理する。そのため、複数のチップを用いて、仮想的にひとつのGPUを構築する場合、CP６１は、すべてのチップの処理内容とリソース利用状態を把握し、制御する必要がある。本実施例におけるCP６１とは、コードを実行するマイクロコントローラ、スケジューラ、時分割・空間分割によるリソース・マネジメント機能、コピーをおこなうDMAなどをあわせ持つ。

　GE(Geometry Engine)６２：Geometry Engine(GE, またはGeometry Processor)は、3Dオブジェクトのサーフェスをより詳細なプリミティブへ変換するテッセレーションなど、主にサーフェスシェーダを処理する演算ブロックである。また、複数の頂点からなるポリゴンなどのプリミティブを入力とし、頂点の削除や追加をおこなうジオメトリシェーダや、各頂点の座標変換をおこなうバーテックスシェーダ、それらを統合したプリミティブシェーダなどの、サーフェスシェーダの後続処理は、スクリーンを分割した描画対象領域毎に、プリミティブ・ユニットやSE６３(CU６３１)などの演算ブロックを割りあてあることで並列実行ができる。しかし、GE６２は、領域分割される前の3Dオブジェクトに対して一括処理をおこなうことで整合性確保と処理効率向上をしており、テッセレーション前後の座標データを、各SE６３(CU６３１)と授受しながら（６２１：入出力しながら）動作をおこなう必要がある。ひとつのGPU内に、SE６３などが複数並列にある場合、それら全体と接続されている必要がある。そのため、複数のチップを用いて、仮想的にひとつのGPUを構築する場合も、GE６２は、すべてのチップ内にあるSE６３などと接続され（６２２）、GE６２は全体整合性を確保しながら協調動作する必要がある。GE６２は必要に応じてSE６３にかわりバーテックスシェーダも実行する。図６では６２１，６２２は座標データやプリミティブ構成情報を授受するデータ信号線を概念的に表している。

　SE(Shader Engine)６３：Shader Engine６３（SE）は、多くの種類のシェーダの演算処理を担当するブロックであり、多くの場合SIMD演算器を並列に持ち、SIMTとスレッド処理を用いて、複数の処理を時分割・空間分割にて並列実行する機能（Compute Unit：CU）６３１を内蔵する。またポリゴンをピクセル値に変換するラスタライズ機能なども持つ。性能向上のため、 GPUは、同じ機能をもつSE６３（CU６３１）を複数並列に内蔵することが多い。バーテックスシェーダ・ピクセルシェーダや汎用コンピューティングの処理は、これら複数のSE６３（CU６３１）に、スクリーンを分割した描画対象領域毎や汎用計算分割粒度毎に割りあてることもでき、個々のSE６３（CU６３１）は相互参照や依存関係がない処理を並列に実行することが容易である。読み書きするメモリ領域はローカルが主体的であるが、グローバルになる場合があり、複数のチップを用いて、仮想的にひとつのGPUを構築する場合、バスファブリック（Bus Fabric）に設けた他GPU配下のメモリを参照するパスを利用する。なお、後述のTU（Texture Unit）,RB（Rendering Backend）などを含めてSEと呼ぶ場合もある。本実施例において、Level 0/1キャッシュやローカルメモリをSEが内蔵し、Level2キャッシュはSE/TU/RB-Bus fabric間、Level3キャッシュはBus fabric-DRAM間にある。なお、図６ではキャッシュ階層やローカルメモリは図示していない。

　TU（Texture Unit）：テクスチャデータおよびその他の数値テーブルをメモリからフェッチし、必要に応じてフィルター処理のうえ、ピクセルシェーダにわたす。GPUは、同じ機能をもつTUを、SE６３に直結された形で複数並列に内蔵することが多く、スクリーンを分割した描画対象領域毎に処理を並列に実行することが容易である。参照するメモリ領域はグローバルになる場合があり、複数のチップを用いて、仮想的にひとつのGPUを構築する場合、バスファブリック（Bus Fabric）に設けた他GPU配下のメモリを参照するパスを利用する。

　RB(Rendering Backend)：ピクセルシェーダ出力のピクセル値にAlpha/Stencil/Depth テストなどをおこない、フレームバッファに描画結果を出力する。GPUは、同じ機能をもつRendering Backend(RB, またはRaster Operation(ROP))を、SE６３に直結された形で複数並列に内蔵することが多く、スクリーンを分割した描画対象領域毎に処理を並列に実行することが容易である。読み書きするメモリ領域はローカルが主体的であるが、グローバルになる場合があり、複数のチップを用いて、仮想的にひとつのGPUを構築する場合、バスファブリック（Bus Fabric）に設けた他GPU配下のメモリを参照するパスを利用する。

　GPU間接続ポート(X) (Y)：GPU間接続ポート（X）および（Y）は、非同期に動作する。GPU間接続ポート（X）および（Y）は、サンプリングによるインターコネクト技術を用いてもよい。GPU間接続ポート（X）と（Y）を、ひとつの物理インタフェースに多重化したうえで転送をしてもよい。サンプリングによるインターコネクト技術は、各転送のパケット化したうえで多重化、インタフェースの時分割多重化、いずれかでも実施できる。GPU間接続ポート（Y）においては、CP,GEブロックが内部で用いている、通知/観測・ハンドシェイク信号線を、サイドバンド信号として併設してもよい。

　Bus Fabric (Interconnect),GPU間接続ポート(X)：稼働中の複数のCPU/GPUチップは、共通のグローバルなアドレス空間を共有しており、自チップのリソースが、どのアドレス領域に割りあてられているか、把握している。複数のGPUチップが個別に持つメモリ空間を、ひとつの連続したアドレス領域に割りあてることができる。この割りあては、静的・動的いずれでもよい。またMMUなどを介してページ方式であってもよい。

　GPU内の各ブロックからメモリアクセス要求があると、自GPU配下のメモリに対するアクセスか、それとも他GPU配下のメモリに対するアクセスか、アクセス対象アドレスに基づいて判定し、他GPUチップのメモリへのアクセスである場合は、GPU間接続ポート（X）を介してデータ転送をおこなう。

　稼働中の複数のCPU/GPUチップは、チップ間接続において、目的の他GPUチップ配下メモリへアクセスするルートが複数ある場合は、その接続関係を把握しており、データ転送において最短のルートを選択することができる。

　SE/TU/RBが内蔵するキャッシュ（本実施例においてはキャッシュ２４のL0/L1/L2キャッシュ）は、自チップおよび外部チップへのアクセスをキャッシングできる。必要に応じてGPU間接続ポート（X）はキャッシュコヒーレントプロトコルをサポートし、各チップ間のL0/L1/L2キャッシュはデータ一貫性を持つことができる。

　SE/TU/RBが内蔵するキャッシュは、各キャッシュラインに、キャッシングしたデータが、自チップか、他チップか、示すフラグを持ってよい。1ビットのみで自チップか否かを示す、多ビットで複数チップの特定可能としてもよい。キャッシュラインのリプレース処理において、特定チップのキャッシング結果を優先的に残す制御をおこなってもよい。キャッシュラインのリプレース処理において、あらかじめ各アプリケーションの実行プロファイル結果を収集し、どのチップのキャッシング結果を優先的に残すか制御をおこなってもよい。

　SE/TU/RBが内蔵するキャッシュは、各キャッシュラインについて、自チップか、他チップか、どのチップのデータをキャッシングするか指定できるフラグを持ってよい。1ビットのみで自チップか否かを示す、多ビットで複数チップの特定可能としてもよい。キャッシュラインの各チップへの割り当て処理において、あらかじめ各アプリケーションの実行プロファイル結果を収集し、どのチップのキャッシングを優先的におこなうか制御をおこなってもよい。

　このキャッシュは、例えば以下のような構成をとる。キャッシュは、複数のキャッシュライン、アドレス比較器、ウェイ切替器を内蔵する。また、ひとつのキャッシュラインは、一対のタグとデータラインをもつ。このタグは、例えば64ビット長で、キャッシュ対象アドレスのタグ、リプレースルール制御ビット、パリティ・ＥＣＣビット、ラインロックビットなどの制御ビット、そして、どのチップのメモリをキャッシングしているか示すビット、などをもつ。

　またデータラインは、例えば288ビット長で、256ビット幅のキャッシングデータと、32ビットのパリティ・ＥＣＣビットを持つ。たとえば、上記ビット長のキャッシュラインを128ラインもつと、合計32キロバイトのキャッシュを構成する。

　Bus Fabric：自チップメモリ間に内蔵するキャッシュ（本実施例においてはL3キャッシュ）は、もし自チップのメモリが複数に分割されている場合は、それぞれに対してキャッシュも分かれている。各L3キャッシュは、自キャッシュ直下のメモリに対するデータだけをキャッシングしており、同一メモリ領域が同時に他のL3キャッシュに保持されることはない。

　図７は、本実施の形態の複数のＧＰＵによる、仮想的な一つのＧＰＵの構成方法の例を示す説明図である。

　ここで、GPU間接続ポート(Y)を介しては、次の転送が行われる：
・GPU間接続ポート(Y)を用いるGE間転送：テッセレーション前後などシェーダの座標データ、オブジェクトにおけるプリミティブ間接続情報、GE各演算器の動作ステータス（実行中・停止中・同期待ち・データ待ち・異常状態など）、同期ハンドシェイク等
・GPU間接続ポート(Y)を用いるCP間転送：処理ディスパッチ指示内容、優先順位指示、SEなど各ブロックの動作ステータス（実行中・停止中・同期待ち・データ待ち・異常状態など）、同期ハンドシェイク等

　CP,GE分散処理：複数のＧＰＵチップを用いて、仮想的にひとつのGPUを構築する場合、各ＧＰＵチップが備えるCP,GEブロックは以下いずれかの方法（１）乃至（３）で動作する。

　いずれの場合も、CP,GEの複数チップにおける分散処理において、チップ間転送が最少・最短となる構成・経路を選択する(CP,GEのactive/main選択箇所、GPU間接続ポート(Y)選択箇所について)。

　方法(1)では、特定チップのCP,GEが直接的に全体統括(main)をおこない、処理の一貫性を維持する（図７（ａ），（ｂ））。このとき、特定チップのCPがもつコントローラが主体的に制御管理に利用される。また特定チップのGEがもつ演算器が主体的に利用される。他チップのCP,GEは自チップSEとのI/F処理のみ行う。

　方法(2)では、特定チップのCP,GEが間接的に全体統括となり、分散処理を行い、処理の一貫性を維持する（図７（ｃ））。このとき、特定チップのCPがもつコントローラが、各チップCPのコントローラを配下におき、階層制御を行う。また、各チップのGEを組み合わせて、あたかもひとつのGEとして機能し、並列に演算処理を行う。稼働GPU範囲に基づき、 CP,GE必要処理能力に応じてサブ（sub）として稼働させるブロック数を選択する。

　なお、いずれの方法でも、同一チップ内のＣＰとＧＥとが全体統括となるとは限らない。

　図８，図９は、それぞれ、方法（１）、（２）の具体的信号の流れを示す説明図である。

　また図１０(a)，(b)は、方法（３）の動作例を示す。方法(3)では、1つのGPUチップ内のCP,GEが4分割されており、方法(1)(2)と同様の方法で分散処理に対応する。これを用いて、1つのGPUにおいて、空間分割で複数アプリケーションを実行することもできる。なお、この方法でも、同一チップ内のＣＰとＧＥとが全体統括となるとは限らない。

　図１１から図１６は、仮想的な１つのＧＰＵ、あるいはスケーラブルなＧＰＵを構成する方法のいくつかの態様を示すものである。以下の例において、チップAは、主にGraphics/Compute frontendや統括処理制御系を内蔵する。並列化が困難なGPU全体にまたがる処理系をもつ。チップAとI/O hubダイを統合する選択肢もある。機能を多重化し、チップAを廃したうえで、それぞれのチップBが、チップAの機能をもつ選択肢もある(実施例1b)。チップBの次に高速に動作するロジック回路を中心として構成し、必要に応じて各チップを接続するオンチップインターコネクトやペリフェラルI/FのハブとなるI/O Hubチップと統合することで、コストパフォーマンスに優れるロジック回路用シリコンプロセスを採用したときの恩恵が最大化する組み合わせとする。

　また、チップBは、主にシェーダエンジン（Unified Shader, プログラマブルグラフィックス演算器）と、ラスタライザやレンダリングバックエンド（Z/Stencil/Blendなどのラスターオペレーション）、ローカルメモリ、L0/L1/L2キャッシュなどを内蔵する。高い演算並列性をもつ機能を中心に構成する。高速に動かす演算器、ハードワイヤードロジック、L0/L1高速キャッシュなどを中心として構成することで、最も微細化が進んだ高性能ロジック回路用シリコンプロセスを採用したときに、チップエリアや性能（動作周波数や消費電力）の恩恵が最大化する組み合わせとする。

　チップCは、PHYや大容量キャッシュメモリ（オンチップSRAM、eDRAM、MRAM、FeRAMなど用いる）を中心として構成する。PHYなどのアナログ回路や大容量オンチップメモリ（ SRAM、eDRAM、MRAM、ReRAM、FeRAMなど）を集積する場合に有利なシリコンプロセスを採用する。

　具体的に図１１は３種類のチップで１つのＧＰＵを実現する例を示す。図１１では各種類のＧＰＵチップでありチップＡ１１１ａ，チップＢ１１１ｂ，チップＣ１１１ｃが示されている。ここで各チップをまたぐオンチップインターコネクトは、送信側のチップ内の信号線上の信号をサンプリングして変調して送信し、受信側で復号し、受信側チップの対応する信号線上に出力するための構成（ラッパーと呼ぶ）を備えるものであってもよい。図１１の例ではチップＡ１１１ａを１つ、チップＢ１１１ｂを２つ、チップＣ１１１ｃを４つ組み合わせて１つのＧＰＵを構成する例を示している。

　また図１２は２種類のチップ（チップＢ，Ｃ）で１つのＧＰＵを構成する例を示す。図１２では２種類のチップとしてチップＢ１１１ｂ，チップＣ１１１ｃが示されている。この例でも、各チップをまたぐオンチップインターコネクトは、ラッパーを用いて、送信側のチップ内の信号線上の信号をサンプリングして変調して送信し、受信側で復号し、受信側チップの対応する信号線上に出力されるものであってもよい。図１２の例ではチップＢ１１１ｂを２つ、チップＣ１１１ｃを４つ組み合わせて１つのＧＰＵを構成する例を示している。

　また例えば図１３に示すように、多数のチップによるスケーラブルなGPUを構成する場合、システムが必要とする性能や機能に応じて柔軟な構成を採用し得る。図１３ではポータブル機で用いる場合（図１３（ａ））や、一つのＧＰＵモジュールとして構成する場合（図１３（ｂ））、ホームコンソール等で利用する場合（図１３（ｃ））、より高性能なＧＰＵモジュールとして構成する場合（図１３（ｄ））、並びにサーバ機などで用いる場合（図１３（ｅ））といった場合の構成例を示している。

　なお、これら図１１乃至図１３の例において、各種類のＧＰＵチップ（チップA,B,C）は、それぞれ、接続されうる対向チップ数に基づいて、オンチップインターコネクトを接続するためのラッパーを、必要な数だけ内蔵させておく。システム構成が、最大接続可能数よりも少ないチップ組み合わせ数の場合は、内蔵するラッパーの一部が未使用となっていてもよい。

　ここで示したような複数種類のチップＡ，Ｂ，Ｃを用いる場合、図１４に例示するように、２ＧＰＵシステム（図１４（ａ））を、図１４（ｂ）（図１３（ｅ）に同じ）に例示する構成で実現できる。同様に、図１４（ｃ）に例示する４ＧＰＵシステムは、図１４（ｄ）に例示する構成で実現できる。図１４（ｂ）はサーバ機１ノードの構成等で利用でき、図１４（ｄ）は、サーバ機の大型（big）１ノードの構成等で利用できる。また図１５（ａ）に例示するようなシステムは、図１５（ｂ）に例示する構成で実現できる。

　図１６は、多数のチップによるスケーラブルなＧＰＵのパッケージ実装例を示す説明図である。図１６（ａ）は、図１３（ｃ）に例示したＧＰＵ１６０１を１つのパッケージとして構成した例を示したものである。ここでＧＰＵ１６０１や、ＣＰＵ１６０２は、ＲＤＬ（Re-Distribution Layer）を用いて形成される。

　また図１６（ｂ）は、図１３（ｅ）に示したＧＰＵを、２つのパッケージのＧＰＵ（部分ＧＰＵ）１６１０，１６１１で構成した例を示したものである。この例ではＧＰＵ１６１０，１６１１内に配置されたチップＡ，Ｂ，Ｃ間はシリコンインターポーザー（Si Interposer）を介して接続される。図１６ではシリコンインターポーザー部分を、ハッチングを施した矩形で示している。またＣＰＵ１６１２は、いずれもＲＤＬ（Re-Distribution Layer）を用いて形成される。

　図１７から図２１は、複数のアプリケーションを本実施の形態のＧＰＵを用いて時分割的及び／または空間分割的に実行する例を表す説明図である。ここで時分割的（Time division“ (Temporal partitioning)）方法（図１７（ａ））では、仮に１ＧＰＵあたり４０TFLOPSの性能がある場合、４つのアプリケーションが時分割的に動作すると、１つのアプリケーションあたり約１０TFLOPSが利用できる。この図１７（ａ）に例示する時分割的方法では、ハードウエア的な解決がされないと、コンテキストスイッチのオーバヘッドが大きいという問題点がある。例えばゲームアプリケーションを実行する際、多数の一時的に実行停止できない（non-preempt）処理であって、同期的に実行される処理である場合には、時分割的方法は適切でない。すなわち、頻繁に、小規模の（small granularityでの）コンテキストスイッチングが生じる場合には適さない。

　一方、図１７（ｂ）に概念的に例示する空間的分割（“Hardware partitioning“ (Spatial partitioning)）の方法でも同様に、仮に１ＧＰＵあたり４０TFLOPSの性能がある場合、４つのアプリケーションが空間分割的に動作すると、１つのアプリケーションあたり約１０TFLOPSが利用できる。この図１７（ｂ）の例では、完全な制御が可能であり、リアルタイム処理が可能となる。並列的に動作するブロックやユニットがGPU内に内蔵されている場合、これら並列的に動作する部分のそれぞれを利用して複数のアプリケーションを動作させることも可能である。

　図１８では４つのＧＰＵ１８０１，１８０２，１８０３，１８０４がそれぞれ一つのチップＡ、２つのチップＢ、及び４つのチップＣで構成されている例を示している。図１８（ａ）は空間分割的に、一つのＣＰ，ＧＥを用いて実行可能な第１のアプリケーションApp1が実行されるケースを示しており、この場合は図１８（ｃ）に例示するように、一つのＧＰＵ１８０１が備える４つのＣＰ，４つのＧＥのうちそれぞれ一つずつがアクティブとなってアプリケーションの処理を実行する。この際、ＧＰＵ間の接続ポート（Ｘ）、（Ｙ）はいずれもインアクティブの状態にある。

　また図１８（ｂ）は、空間分割的に４つのアプリケーションApp1，App2，App3，App4を実行する例を示している。これらのアプリケーションは、それぞれ一つのＣＰ，ＧＥを用いれば処理可能なものであるとする。この例では、図１８（ｄ）に例示するように、一つのＧＰＵ１８０１が備える４つのＣＰ，４つのＧＥがいずれもアクティブとなり、それぞれによって各アプリケーションの処理が実行される。このケースでも、ＧＰＵ間の接続ポート（Ｘ）、（Ｙ）はいずれもインアクティブの状態にある。

　なお、ＣＰ，ＧＥの割り当てを切り替えるときには、コンテクスト・スイッチの処理も行うことで、処理経過の保持や処理の再開を可能とする。

　図１９（ａ）は、図１８と同様の構成のＧＰＵを用いて、空間分割的に５つのアプリケーションApp1，App2，App3，App4，App5を実行する例を示している。この例では各アプリケーションは、図１８の例より多くのリソースを必要とする例としているが、ＧＰＵチップ間を跨いでのリソース利用がない例を示している。従って、図１９（ｃ）に示すように、各ＧＰＵチップ１８０１，１８０２，１８０３，１８０４内でそれぞれのアプリケーションの処理が行われることとなっており、それぞれの内部でＣＰ，ＧＥの一部がアクティブとなる。またこの例でもＧＰＵ間の接続ポート（Ｘ）、（Ｙ）はいずれもインアクティブの状態にある。

　一方、図１９（ｂ）の例では、空間分割的に２つのアプリケーションApp1，App2を実行する例を示しているが、ここでアプリケーションApp1は、少なくともチップＢを３つ、チップＣを６つ分利用する処理を行っており、アプリケーションApp2は、チップＣを９つ分利用する（対応するチップＢは５つ分利用する）処理を行っているものとする。従って、アプリケーションApp1の実行は、ＧＰＵ１８０１，１８０２を用いており、アプリケーションApp2の実行には、ＧＰＵ１８０２，１８０３，１８０４を用いている（図１９（ｄ））。この例では、２つ以上のＧＰＵに跨がる処理が行われるため、各アプリケーションを実行するためのメインのＣＰ，ＧＥがアクティブとなる。図の例では、ＧＰＵ１８０１内でアプリケーションApp1のためのＣＰ，ＧＥがアクティブとなって動作し、ＧＰＵ１８０４内でアプリケーションApp2のためのＣＰ，ＧＥがアクティブとなっているとして示している。また、ＧＰＵ１８０１とＧＰＵ１８０２との間、並びにＧＰＵ１８０２とＧＰＵ１８０３との間、ＧＰＵ１８０２とＧＰＵ１８０４との間でＧＰＵ間の接続ポート（Ｘ）、（Ｙ）がアクティブとなり、その他の間（例えばＧＰＵ１８０１とＧＰＵ１８０３との間など）ではＧＰＵ間の接続ポート（Ｘ）、（Ｙ）はインアクティブの状態となる。

　また一つのアプリケーションの実行がどのＧＰＵ１８０１乃至１８０４の各チップＡ，Ｂ，Ｃに、どのように割り当てられてもよい（図２０（ａ），（ｃ））。また一つのアプリケーションによってすべてのＧＰＵ１８０１乃至１８０４が利用されてもよい（図２０（ｂ），（ｄ））。

　例えばまとめることにより一つのＧＰＵ内で実行可能なアプリケーションが複数のＧＰＵ１８０１，１８０２に跨がって処理されてもよい（図２１（ａ），（ｃ））。なお、複数のＧＰＵに跨がる処理が発生しない場合は、仮に１６個のアプリケーションが並列的に動作する（各チップＣが互いに異なるアプリケーションを実行している）場合でも、ＧＰＵ間の接続ポート（Ｘ）、（Ｙ）はいずれもインアクティブの状態となる（図２１（ｂ），（ｄ））。

　１　情報処理システム、１０　ＧＰＵ、１１　バスファブリック、１２　コマンドプロセッサ、１３　ジオメトリエンジン、１４　制御ユニット、２０　メモリ、２１　シェーダエンジン、２２　テクスチャユニット、２３　レンダリングバックエンド、２４　キャッシュ、２５　描画処理ユニット、２７　Ｌ３キャッシュ。

Claims

　コマンドプロセッサ及びジオメトリエンジンを有し、メモリと、他のグラフィックプロセッサに接続されるグラフィックプロセッサであって、
　自身に接続されたメモリとの間でデータを授受するバスファブリックと、
　前記コマンドプロセッサ及びジオメトリエンジンに接続され、他のグラフィックプロセッサのコマンドプロセッサ及びジオメトリエンジンとの間でデータを授受する第１のインターコネクトとを備え、
　前記バスファブリックが、第２のインターコネクトを介して、前記他のグラフィックプロセッサのバスファブリックとの間でデータを授受し、当該他のグラフィックプロセッサに接続されるメモリにアクセス可能に接続されているグラフィックプロセッサ。
　請求項１に記載のグラフィックプロセッサであって、
　前記第１のインターコネクトと、第２のインターコネクトとは、互いに非同期に、他のグラフィックプロセッサとの間でデータの授受を行うグラフィックプロセッサ。
　請求項１または２に記載のグラフィックプロセッサであって、
　さらに描画処理を行う描画処理ユニットを複数備え、
　前記コマンドプロセッサ及びジオメトリエンジンは、所定の分散処理制御方法に基づいて、前記複数の描画処理ユニットに並列的に描画処理を実行させるグラフィックプロセッサ。
　請求項１から３のいずれか一項に記載のグラフィックプロセッサであって、
　複数のキャッシュであって、各キャッシュが、前記グラフィックプロセッサ自身に接続されたメモリまたは、いずれかの他のグラフィックプロセッサに接続されたメモリのうち、割り当てられたメモリから読み出したデータを保持するキャッシュを備え、
　前記キャッシュの各々を特定する情報に関連付けて、当該キャッシュに割り当てられたメモリが接続されているグラフィックプロセッサを特定する情報を保持するグラフィックプロセッサ。
　請求項１から４のいずれか一項に記載のグラフィックプロセッサであって、
　複数のキャッシュであって、各キャッシュが、前記グラフィックプロセッサ自身に接続されたメモリまたは、いずれかの他のグラフィックプロセッサに接続されたメモリのうち、割り当てられたメモリから読み出したデータを保持するキャッシュを備え、
　前記キャッシュの各々に、どのグラフィックプロセッサに接続されたメモリを割り当てるかを設定するグラフィックプロセッサ。
　コマンドプロセッサ及びジオメトリエンジンを有し、メモリに接続されるグラフィックプロセッサを複数有し、
　前記グラフィックプロセッサの各々が、
　自身に接続されたメモリとの間でデータを授受するバスファブリックと、
　前記コマンドプロセッサ及びジオメトリエンジンに接続され、他のグラフィックプロセッサのコマンドプロセッサ及びジオメトリエンジンとの間でデータを授受する第１のインターコネクトとを備え、
　前記バスファブリックが、第２のインターコネクトを介して、前記他のグラフィックプロセッサのバスファブリックとの間でデータを授受し、当該他のグラフィックプロセッサに接続されるメモリにアクセス可能に接続されている情報処理システム。
　請求項６に記載の情報処理システムであって、
　前記グラフィックプロセッサの各々について、他のグラフィックプロセッサとの間でデータを授受する前記第１、第２のインターコネクトを、他のグラフィックプロセッサごとに、使用するか不使用とするか設定し、使用すると設定した第１、第２のインターコネクトを介して接続される他のグラフィックプロセッサとの間でデータを授受する情報処理システム。
　請求項６または７に記載の情報処理システムであって、
　前記第１、第２のインターコネクトが、グラフィックプロセッサのチップ内インターコネクトの信号線を介して送受される信号をサンプリングし、当該サンプリングして得た情報を含むデータフレームを他のグラフィックプロセッサに対して送出し、他のグラフィックプロセッサから受信したデータフレームをデサンプリングして再生した信号を、グラフィックプロセッサ内で対応するチップ内インターコネクトの信号線上に出力するチップ間インターコネクトである情報処理システム。