WO2009119413A1

WO2009119413A1 - キャッシュメモリ、情報処理装置およびキャッシュメモリ制御方法

Info

Publication number: WO2009119413A1
Application number: PCT/JP2009/055304
Authority: WO
Inventors: 健加納
Original assignee: 日本電気株式会社
Priority date: 2008-03-28
Filing date: 2009-03-18
Publication date: 2009-10-01

Abstract

　演算と通信が独立して行われる場合に、通信処理に要する時間を短くすることが可能なキャッシュメモリを提供する。　キャッシュメモリ１０３は、ＣＰＵ１０１からのデータを書き込み可能な複数のワードを有するデータ格納手段１０３ａ、複数のアドレスのうち各ワードに個別に対応づけられたアドレスを格納するアドレス格納手段１０３ｂ、通信装置１０２から読み出し命令と任意のアドレスを受け付けた状況で、そのアドレスがアドレス格納手段１０３ｂにある場合、そのアドレスに対応するワードからデータを読み出し通信装置１０２に提供し、そのアドレスがアドレス格納手段１０３ｂにない場合、記憶装置１０４からそのアドレスに対応したデータを読み出して通信装置１０２に提供し、かつそのデータをデータ格納手段１０３ａに書き込まない制御手段１０３ｃと、を含む。

Description

[規則37.2に基づきISAが決定した発明の名称]　キャッシュメモリ、情報処理装置およびキャッシュメモリ制御方法

　本発明は、キャッシュメモリ、情報処置装置およびキャッシュメモリ制御方法に関し、特には、並列計算機システムで使用可能なキャッシュメモリ、情報処置装置およびキャッシュメモリ制御方法に関する。

　キャッシュメモリを用いた情報処理システムが知られている。

　特許文献１（特開平１１－３１１０３号公報）に記載の情報処理システムでは、キャッシュメモリは、ＣＰＵ等の演算装置と主メモリとの間に設けられ、主メモリ内の一部のデータを格納し、演算装置とデータをやり取りする。

　キャッシュメモリを用いた情報処理システムは、キャッシュミスが発生した場合に、主メモリにアクセスして、主メモリからブロック単位でデータを読み出し、そのブロック単位のデータを、キャッシュメモリに書き込む。

　また、キャッシュメモリを備えた並列計算機システムも知られている（特許文献２（特開２０００－２６７９３５号公報）参照）。

　また、キャッシュメモリと接続されたＣＰＵが、プロセッサ間通信装置を介して、他のＣＰＵと通信する、並列計算機システムも知られている。

　並列計算機システムでのＣＰＵ同士の通信に関して、種々の技術が知られている。

　特許文献３（特開２００５－７８２６４号公報）に記載の並列計算機システムでは、ＣＰＵは、演算とデータ通信の両方の動作を行う。

　特許文献４（特開平３－１５０６５９号公報）には、プロセッサのキャッシュメモリから、送信用データを、直接、送信ポートに転送して通信する、プロセッサ間データ転送方法が開示されている。

　このプロセッサ間データ転送方法では、プロセッサの命令として、データ転送命令が設けられている。このプロセッサ間データ転送方法では、送信用データがキャッシュメモリ上にある場合、送信用データが、キャッシュメモリから、直接、送信ポートに送られる。一方、送信用データがキャッシュメモリ上にない場合、送信用データが、メモリから、送信ポートに、転送される。送信ポートは、送信用データにパケットヘッダを付加してパケットを作成して、そのパケットをネットワークに送出する。この方法は、プロセッサ間通信の送信時のレイテンシを短縮する効果を持つ。

　特許文献５（特開平３－１６８８６０号公報）には、ネットワークから受信したデータのメモリアドレスが、そのデータをメモリに書き込む前の段階で、プロセッサのキャッシュメモリ上に存在する場合には、そのデータをメモリに書き込むとともに、キャッシュメモリ上のブロックにも、そのデータを書き込む方法が開示されている。この方法は、受信データをメモリのみに書く場合に生じるキャッシュの無効化による性能低下を防ぐことが可能である。

　特許文献６（特開平６－１０３２４４号公報）には、プロセッサのキャッシュメモリとは別に、受信ユニットから受信データを書き込む第２のキャッシュメモリが設けられ、送信ユニットからの送信要求に対して、２個のキャッシュメモリ上にデータがある場合には、データを、プロセッサのキャッシュメモリから送信ユニットに転送し、受信ユニットが受信したデータを、第２のキャッシュメモリに書き込む技術が開示されている。

　また、特許文献６には、プロセッサが、第２のキャッシュメモリ上のデータをアクセスした場合には、第２のキャッシュメモリから第１のキャッシュメモリへ、データを転送する技術が開示されている。なお、送信ユニットには、送信データを受け取るためのFIFO（First-In　First-Out）メモリがある。

　図１は、一般的な並列計算機のプロセッサ３３０１の構成を示したブロック図である。

　プロセッサ３３０１は、演算を行うＣＰＵ３３０２と、プロセッサ間通信を行うプロセッサ間通信装置３３０３と、キャッシュメモリ３３０４と、メモリ３３０５と、制御回路３３０７と、ＣＰＵバス３３０８と、を含む。なお、図示していないが、キャッシュメモリ３３０４は、公知技術であるデータアレイおよびアドレスアレイを含む。

　プロセッサ３３０１は、プロセッサ間通信装置３３０３とプロセッサ間ネットワーク３３０６を介して、他のプロセッサ３３０１と通信を行う。

　ＣＰＵバス３３０８には、キャッシュメモリ３３０４と制御回路３３０７が接続されている。ＣＰＵバス３３０８には、以下のようなコマンドとそれに対するレスポンスが流れる。ＣＰＵバス３３０８に関するコマンドとレスポンスに関しては、非特許文献１（ミップスＲ１００００マイクロプロセッサ　ユーザズ　マニュアル　バージョン2.0（MIPS　R10000　Microprocessor　User’s　Manual　Ver.2.0）、MIPS　Technologies,　Inc.、１９９６、　pp.121～140）に開示されている。
（１）ブロックリード
　キャッシュメモリ３３０４がメモリ３３０５からブロックを読み出すためのコマンド。

　レスポンスとして該当ブロックがメモリ３３０５から読み出され、キャッシュメモリ３３０４に返される。
（２）ブロックライト
　キャッシュメモリ３３０４からブロックをメモリ３３０５に書き込むためのコマンド。

　該当ブロックがメモリ３３０５に書き込まれる。
（３）インターベンションShared
　制御回路３３０７がキャッシュメモリ３３０４上のキャッシュブロックを読み出すためのコマンド。

　キャッシュメモリ３３０４に該当ブロックが存在していて、かつ、ＣＰＵ３３０２により書きかえられている場合には、ブロックデータがレスポンスとして、キャッシュメモリ３３０４から制御回路３３０７に返される。キャッシュメモリ３３０４上のブロックは無効化されない。

　キャッシュメモリ３３０４に該当ブロックが存在しない、または、存在しても書き換えられていない場合には、データレスポンスがないことがキャッシュメモリ３３０４から制御回路３３０７に返される。
（４）インターベンションExclusive
　制御回路３３０７がデータを書き込むためにキャッシュブロックを読み出すためのコマンド。

　キャッシュメモリ３３０４に該当ブロックが存在していて、かつ、ＣＰＵ３３０２により書き換えられている場合には、ブロックデータがレスポンスとして、キャッシュメモリ３３０４から制御回路３３０７に返される。そして、キャッシュメモリ３３０４上の該当ブロックは無効化される。

　キャッシュメモリ３３０４上に該当するブロックが存在するがＣＰＵ３３０２によって書き換えられていない場合には、キャッシュメモリ３３０４上のブロックを無効化してデータレスポンスがないことがキャッシュメモリ３３０４から制御回路３３０７に返される。

　キャッシュメモリ３３０４上に該当するブロックが存在しない場合には、データレスポンスがないことがキャッシュメモリ３３０４から制御回路３３０７に返される。
（５）無効化要求
　制御回路３３０７がキャッシュメモリ３３０４上のブロックを無効化するためのコマンド
　キャッシュメモリ３３０４上に該当ブロックが存在する場合には、キャッシュメモリ３３０４は該当ブロックを無効化する。

　キャッシュメモリ３３０４上に該当ブロックが存在しない場合には、キャッシュメモリ３３０４は、なにもしない。

　プロセッサ間通信装置３３０３は、制御回路３３０７に対してデータの読み出しや書き込みを要求する。制御回路３３０７は、要求に応じてＣＰＵバス３３０８を用いて、上記のコマンドをキャッシュメモリ３３０４に発行し、キャッシュメモリ３３０４を操作する。また、制御回路３３０７は必要に応じてメモリ３３０５にもアクセスする。なお、ＣＰＵバス３３０８を介したキャッシュメモリ３３０４の操作は、ＣＰＵ３３０２からキャッシュメモリ３３０４をアクセスする場合よりも、一般的に処理時間が長くなる。

　図２と図３は、一般的な並列コンピュータのプロセッサ間通信の送信と受信の処理を説明するための説明図である。図２および図３において、図１に示したものと同一構成のものには同一符号を付してある。なお、図２および図３において、メモリ部３４００は、図１に示したキャッシュメモリ３３０４とメモリ３３０５と制御回路３３０７とＣＰＵバス３３０８をまとめたものである。

　近年の並列計算機のプロセッサ間通信では、ＣＰＵでの演算とプロセッサ間通信装置での通信とを独立して同時に行えるようにするために、以下のような処理方式が採られている。

　図２に示した送信処理では、まず、ＣＰＵ３３０２が、メモリ部３４００上に、送信データ３４ａを作成する（ステップ３４０１）。

　次に、ＣＰＵ３３０２が、メモリ部３４００上のコマンドキュー３４００ａに、コマンド３４ｂを書き込む（ステップ３４０２）。コマンド３４ｂには、通信の宛先や送信データ３４ａへのポインタなどが示されている。

　次に、ＣＰＵ３３０２が、プロセッサ間通信装置３３０３に、コマンド３４ｂの位置を示す送信要求を送る（ステップ３４０３）。

　プロセッサ間通信装置３３０３は、送信要求を受け付けると、制御回路３３０７を用いて、メモリ部３４００から、コマンド３４ｂを読み出す（ステップ３４０４）。

　そして、プロセッサ間通信装置３３０３は、コマンド３４ｂに示された、送信データ３４ａへのポインタを使って、制御回路３３０７を用いて、メモリ部３４００から、送信データ３４ａを読み出し（ステップ３４０５）、送信データ３４ａに基づいてパケットを作製して、プロセッサ間ネットワーク３３０６へパケットを送信する（ステップ３４０６）。

　ＣＰＵ３３０２は、プロセッサ間通信装置３３０３の送信処理の状況によらず、コマンドキュー３４００ａにコマンド３４ｂを書き込み、プロセッサ間通信装置３３０３に送信要求を送ることができる。

　プロセッサ間通信装置３３０３は、コマンドキュー３４００ａ内のコマンド３４ｂがなくなるまで、制御回路３３０７を用いて、コマンドキュー３４００ａからコマンド３４ｂを読み出して処理していく。

　このように、メモリ部３４００上にコマンドキュー３４００ａを設けることにより、ＣＰＵ３３０２とプロセッサ間通信装置３３０３は、独立に動作することが可能となっており、演算と通信を同時に行うことができる。

　図３に示した受信処理では、まず、プロセッサ間通信装置３３０３が、プロセッサ間ネットワーク３３０６から、パケットを受信する（ステップ３５０１）。

　そして、プロセッサ間通信装置３３０３は、制御回路３３０７を用いて、パケットの中の受信データ３５ａを、メモリ部３４００上に書き込む（ステップ３５０２）。

　そして、プロセッサ間通信装置３３０３は、制御回路３３０７を用いて、受信完了フラグ３５ｂを、メモリ部３４００に書き込む（ステップ３５０３）。

　ＣＰＵ３３０２は、受信完了フラグ３５ｂをポーリングしていて、プロセッサ間通信装置３３０３によって書かれた受信完了フラグ３５ｂを読み出す（ステップ３５０４）。

　そして、ＣＰＵ３３０２は、受信完了フラグ３５ｂを参照することによって、受信データ３５ａがメモリ部３４００に書き込まれたことを知り、受信データ３５ａを、メモリ部３４００から読み出す（ステップ３５０５）。

　ここでは、受信完了をＣＰＵ３３０２に伝える手段として、メモリ部３４００上の受信完了フラグ３５ｂが用いられている。

　なお、受信完了をＣＰＵ３３０２に伝える手段として、割り込みも考えられるが、割り込みによるコンテクストスイッチのオーバヘッドが大きいので、性能的に割り込み使うことは困難である。

　図４と図６は、図２と図３に示したプロセッサ間通信の送信と受信の処理を、図１に示したプロセッサ３３０１内のキャッシュメモリ３３０４の制御も含めて説明するための説明図である。

　図４に示した送信処理では、まず、ＣＰＵ３３０２が、送信データ３４ａを作成する（ステップ３６０１）。

　ここでは、送信データ３４ａのすべてが、キャッシュメモリ３３０４上にキャッシュされるとして説明を行うが、送信データ３４ａのサイズや作成される時刻によっては、送信データ３４ａの一部だけが、キャッシュメモリ３３０４上にあり、送信データ３４ａのその他の部分は、メモリ３３０５に存在することもありうる。

　次に、ＣＰＵ３３０２が、コマンドキュー３４００ａに、コマンド３４ｂを書き込む。

　ここでは、コマンド３４ｂが書き込まれるアドレスは、キャッシュメモリ３３０４上にない（書き込み時にキャッシュミスする）として説明する。

　そのため、まず、キャッシュメモリ３３０４が、コマンド３４ｂが書き込まれるアドレスを含むブロックのブロックリードを制御回路３３０７に対し要求する。制御回路３３０７は、メモリ３３０５上の該当ブロックを、メモリ３３０５から読み出してキャッシュメモリ３３０４に送り、キャッシュメモリ３３０４上に該当ブロックが書き込まれる（ステップ３６０２）。ＣＰＵ３３０２は、キャッシュメモリ３３０４上の該当ブロックのうち、コマンド３４ｂが書き込まれるアドレスに対応する部分（ワード）に、コマンド３４ｂを書き込む（ステップ３６０３）。つまり、コマンド３４ｂは、キャッシュメモリ３３０４上にキャッシュされる。コマンド３４ｂには、通信の宛先や送信データ３４ａへのポインタなどが示されている。

　次に、ＣＰＵ３３０２が、プロセッサ間通信装置３３０３に、コマンド３４ｂの位置（コマンド３４ｂが書き込まれたアドレス）を示す送信要求を送る（ステップ３６０４）。

　プロセッサ間通信装置３３０３は、送信要求を受け付けると、制御回路３３０７を用いて、コマンド３４ｂを読み出す。制御回路３３０７は、ＣＰＵバス３３０８にインターベンションShared要求を出し、コマンド３４ｂが書き込まれたアドレスを含むブロック（該当ブロック）をキャッシュメモリ３３０４から読み出す。コマンド３４ｂは、キャッシュメモリ３３０４上にキャッシュされていて、ＣＰＵ３３０２によって書き換えられているので、キャッシュメモリ３３０４は該当ブロックをレスポンスとして制御回路３３０７に返す。制御回路３３０７は、コマンド３４ｂが書き込まれたアドレスを含むブロック（該当ブロック）を、メモリ３３０５にライトバックし（ステップ３６０５）、それとともに、コマンド３４ｂをプロセッサ間通信装置３３０３に返す（ステップ３６０６）。

　次に、プロセッサ間通信装置３３０３は、コマンド３４ｂ内の、送信データ３４ａへのポインタ（送信データ３４ａが書き込まれたアドレス）を使って、制御回路３３０７を用いて、送信データ３４ａを読み出す。

　制御回路３３０７が、ＣＰＵバス３３０８にインターベンションShared要求を出し、送信データ３４ａが書き込まれたアドレスを含む複数のブロック（該当ブロック）を、キャッシュメモリ３３０４から読み出す。ここでは、送信データ３４ａのすべてが、キャッシュメモリ３３０４上に存在するとしていて、送信データはＣＰＵ３３０２によって書き込まれているので、キャッシュメモリ３３０４は該当ブロックをレスポンスとして制御回路３３０７に返す。制御回路３３０７は、送信データ３４ａが書き込まれたアドレスを含む複数のブロックをメモリ３３０５にライトバックし（ステップ３６０７）、それとともに、送信データ３４ａをプロセッサ間通信装置３３０３に渡す（ステップ３６０８）。

　そして、プロセッサ間通信装置３３０３は、送信データ３４ａに基づいてパケットを作製して、プロセッサ間ネットワーク３３０６へパケットを送信する（ステップ３６０９）。

　図５は、図４に示した送信処理を説明するためのタイムチャートである。

　図５では、ＣＰＵ３３０２が、コマンド３４ｂをコマンドキュー３４００ａに書き込む時に、キャッシュメモリ３３０４でキャッシュミスが発生した場合の動作が記述されている。ここで、キャッシュミスが発生するとしているのは、コマンドキュー３４００ａのコマンド３４ｂが書かれたアドレスに前回コマンド３４ｂが書き込まれた後、演算に必要なデータアクセスのために、キャッシュメモリ３３０４からコマンド３４ｂが書かれたアドレスが追い出されている可能性が高いためである。

　ＣＰＵ３３０２からのコマンド３４ｂの書き込みでキャッシュミスが起こり（ステップ３７０１）、キャッシュメモリ３３０４は、コマンド３４ｂを書き込むアドレスを含むブロックのブロックリード要求を制御回路３３０７に送る。制御回路３３０７は、メモリ３３０５から該当ブロックを読み出し、キャッシュメモリ３３０４に返す。そしてキャッシュメモリ３３０４に該当ブロックが書き込まれる（ステップ３７０２）。

　そして、ＣＰＵ３３０２からキャッシュメモリ３３０４にコマンド３４ｂが書き込まれる（ステップ３７０３）。

　ＣＰＵ３３０２からの送信要求を契機にしたプロセッサ間通信装置３３０３からの指示により（ステップ３７０４）、制御回路３３０７が、コマンド３４ｂが書き込まれたアドレスを含む該当ブロックをキャッシュメモリ３３０４から読み出すために、キャッシュメモリ３３０４に対しインターベンションShared要求を出す。該当ブロックはキャッシュメモリ３３０４上にありＣＰＵ３３０２により書き換えられているので、キャッシュメモリ３３０４から制御装置３３０７に該当ブロックがリプライされる。制御回路３３０７は、該当ブロックをメモリ３３０５にライトバックし（ステップ３７０５）、それとともに、コマンド３４ｂをプロセッサ間通信装置３３０３に送る（ステップ３７０６）。

　そして、プロセッサ間通信装置３３０３は、コマンド３４ｂを参照して、制御回路３３０７を用いて、送信データ３４ａが書き込まれたアドレスを含む該当ブロックを読み出す。制御回路３３０７は、キャッシュメモリ３３０４に対して、該当ブロックのインターベンションShared要求を発行する。該当ブロックはキャッシュメモリ３３０４上にありＣＰＵ３３０２によって書き換えられているので、キャッシュメモリ３３０４は制御回路３３０７に該当ブロックをリプライする。制御回路３３０７は、該当ブロックをメモリ３３０５にライトバックし（ステップ３７０７）、それとともに、送信データ３４ａをプロセッサ間通信装置３３０３に送る（ステップ３７０８）。

　図５に示すように、プロセッサ間通信装置３３０３が、送信データ３４ａを読み出すときは、複数の読み出しリクエストを制御回路３３０７に先行発行することで、読み出しレイテンシを隠蔽することが可能である。

　図５を見ると、ＣＰＵ３３０２とプロセッサ間通信装置３３０３間のコマンド３４ｂの受け渡しに時間がかかっていることがわかる（期間Ｔ３７０９）。

　図６に示した受信処理では、まず、プロセッサ間通信装置３３０３が、プロセッサ間ネットワーク３３０６から、パケットを受信する（ステップ３８０１）。

　そして、プロセッサ間通信装置３３０３は、制御回路３３０７を用いて、パケットの中の受信データ３５ａを、メモリ３３０５上に書き込む。

　なお、受信データ３５ａが書き込まれるアドレスを含むブロックが、キャッシュメモリ３３０４にキャッシュされている場合があるので、制御回路３３０４ｂは、以下のような処理を行う必要がある。

　（１）受信データ３５ａの書き込みが、受信データ３５ａが書き込まれるアドレスを含むブロック（該当ブロック）全体への書き込みになる場合には、制御回路３３０７は、キャッシュメモリ３３０４に対して、該当ブロックデータの無効化を要求し（ステップ３８０２）、その後、受信データ３５ａを、メモリ３３０５に書き込む（ステップ３８０３）。

　（２）受信データ３５ａの書き込みが、受信データ３５ａが書き込まれるアドレスを含むブロック（該当ブロック）の一部への書き込みになる場合には、制御回路３３０７は、キャッシュメモリ３３０４に対して、該当ブロックのインターベンションExclusiveを要求する。

　（Ａ）もし、キャッシュメモリ３３０４上に該当ブロックが存在し、かつ、ＣＰＵ３３０２により書き換えられていたなら、キャッシュメモリ３３０４は該当ブロックを制御回路３３０７にリプライし、該当ブロックを無効化する。そして、制御回路３３０７はメモリ３３０５に該当ブロックをライトバックする（ステップ３８０４）。

　（Ｂ）もし、キャッシュメモリ３３０４上に該当ブロックが存在し、かつ、ＣＰＵ３３０２により書き換えられていない場合には、キャッシュメモリ３３０４は、該当ブロックを無効化して、データリプライがないことを制御回路３３０７に伝える。ＣＰＵ３３０２によって書き換えられていないので、該当ブロックをメモリ３３０５にライトバックする必要はない。

　（Ｃ）もし、キャッシュメモリ３３０４上に該当ブロックが存在しない場合は、キャッシュメモリ３３０４は制御回路３３０７にデータリプライがないことを伝える。

　そして、制御回路３３０７は、受信データ３５ａを、メモリ３３０５に書き込む（ステップ３８０３）。

　プロセッサ間通信装置３３０３は、受信データ３５ａのすべてをメモリ３３０５に書き込んだ後、制御回路３３０７を用いて、メモリ３３０５に受信完了フラグ３５ｂを書き込む。

　受信完了フラグ３５ｂは、ＣＰＵ３３０２によってポーリングされていると考えられるので、受信完了フラグ３５ｂが書き込まれるアドレスを含むブロック（該当ブロック）は、キャッシュメモリ３３０４上にある。また、受信完了フラグ３５ｂの書き込みは、受信完了フラグ３５ｂが書き込まれるアドレスを含むブロック（該当ブロック）の一部への書き込みになる。

　従って、制御回路３３０７は、まず、キャッシュメモリ３３０４に対して、受信完了フラグ３５ｂが書き込まれるブロック（該当ブロック）をインターベンションExclusive要求で読み出す。前述のように該当ブロックはキャッシュメモリ３３０４上にある。もし、ＣＰＵ３３０２によって書き換えられている場合は、キャッシュメモリ３３０４は該当ブロックを制御回路３３０７にリプライして該当ブロックを無効化する。そして、制御回路３３０７はリプライされた該当ブロックをメモリ３３０５にライトバックする（ステップ３８０５）。もし、ＣＰＵ３３０２によって書き換えられていない場合は、キャッシュメモリ３３０４は該当ブロックを無効化して、データリプライがないことを制御回路３３０７に伝える。その後、制御回路３３０７はメモリ３３０５に、受信完了フラグ３５ｂを書き込む（ステップ３８０６）。

　ＣＰＵ３３０２は、受信完了フラグ３５ｂをポーリングしているので、プロセッサ間通信装置３３０３により受信完了フラグ３５ｂが書かれた直後の読み出し時にキャッシュミスが発生し、キャッシュメモリ３３０４は、受信完了フラグ３５ｂが書き込まれたアドレスを含むブロックを制御回路３３０７にブロックリード要求して読み出す。制御回路３３０７は、該当ブロックをメモリ３３０５から読み出して、キャッシュメモリ３３０４に返す。そして、キャッシュメモリ３３０４が該当ブロックを書き込む（ステップ３８０７）。

　そして、ＣＰＵ３３０２が、キャッシュメモリ３３０４から、受信完了フラグ３５ｂを読み出す（ステップ３８０８）。

　そして、ＣＰＵ３３０２は、受信完了フラグ３５ｂを参照することによって、受信データ３５ａが書き込まれたことを知り、受信データ３５ａを読み出す。

　受信データ３５ａは、キャッシュメモリ３３０４上にはなくメモリ３３０５上にあるので、キャッシュメモリ３３０４からの読み出し時にキャッシュミスが発生し、受信データ３５ａが書き込まれたアドレスを含むブロックが、メモリ３３０５から読み出されて、キャッシュメモリ３３０４に書き込まれ（ステップ３８０９）、ＣＰＵ３３０２は、キャッシュメモリ３３０４から、受信データ３５ａを読み出す（ステップ３８１０）。

　図７は、図６に示した受信処理を説明するためのタイムチャートである。

　プロセッサ間通信装置３３０３が、制御回路３３０７を用いて、受信データ３５ａをメモリ３３０５に書き込む。制御回路３３０７は、受信データ３５ａを書き込むアドレスを含むブロックを、キャッシュメモリ３３０４からメモリ３３０５へライトバックして無効化するか、または、無効化を行い（ステップ３９０１）、その後、受信データ３５ａを、メモリ３３０５に書き込む（ステップ３９０２）。

　次に、プロセッサ間通信装置３３０３は、制御回路３３０７を用いて、受信完了フラグ３５ｂを、メモリ３３０５に書き込む。

　受信完了フラグ３５ｂは、ＣＰＵ３３０２によってポーリングされているので、受信完了フラグ３５ｂが書き込まれるアドレスを含むブロックは、キャッシュメモリ３３０４上にある。

　そのため、制御回路３３０７は、受信完了フラグ３５ｂが書き込まれるアドレスを含むブロックを、キャッシュメモリ３３０４からメモリ３３０５にライトバックして無効化する（ステップ３９０３）、または、無効化し、受信完了フラグ３５ｂをメモリ３３０５に書き込む（ステップ３９０４）。

　その直後のＣＰＵ３３０２からの受信完了フラグ３５ｂの読み出し時に、キャッシュメモリ３３０４でキャッシュミスが発生し、受信完了フラグ３５ｂが書き込まれたアドレスを含むブロックが、制御回路３３０７により、メモリ３３０５から読み出されて、キャッシュメモリ３３０４に書き込まれる（ステップ３９０５）。

　そして、ＣＰＵ３３０２は、キャッシュメモリ３３０４上の受信完了フラグ３５ｂを読み出す（ステップ３９０６）。

　そして、ＣＰＵ３３０２は、受信完了フラグ３５ｂを参照することによって受信データ３５ａがメモリ３３０５に書き込まれたことを確認し、その後、受信データ３５ａを読み出す。

　受信データ３５ａは、キャッシュメモリ３３０４ではなくメモリ３３０５に格納されているので、キャッシュメモリ３３０４でキャッシュミスが起こり、受信データ３５ａが書き込まれたアドレスを含むブロックが、制御回路３３０７によって、メモリ３３０５から読み出され、キャッシュメモリ３３０４に書き込まれる（ステップ３９０７）。

　そして、ＣＰＵ３３０２は、キャッシュメモリ３３０４から、受信データ３５ａを読み出す（ステップ３９０８）。

　図７に示すように、プロセッサ間通信装置３３０３が受信データ３５ａをメモリ３３０５に書き込むときは、複数の書き込みリクエストを先行発行することで、書き込みのレイテンシを隠蔽できる。同様に、ＣＰＵ３３０２が受信データ３５ａを読み出すときも、複数の読み出しリクエストを先行発行することで、読み出しレイテンシを隠蔽することが可能である。

　図７を見ると、プロセッサ間通信装置３３０３からＣＰＵ３３０２への受信完了フラグ３５ｂの受け渡しに時間がかかっていることがわかる（期間Ｔ３９０９）。
特開平１１－３１１０３号公報特開２０００－２６７９３５号公報特開２００５－７８２６４号公報特開平３－１５０６５９号公報特開平３－１６８８６０号公報特開平６－１０３２４４号公報ミップスＲ１００００マイクロプロセッサ　ユーザズ　マニュアル　バージョン2.0（MIPS　R10000　Microprocessor　User’s　Manual　Ver.2.0）、MIPS　Technologies,　Inc.、１９９６、　pp.121～140

　特許文献３から６には、並列計算機システム内でＣＰＵ同士が通信する技術が記載されている。以下、これらの技術で生じる問題を説明する。

　特許文献３に記載の技術では、ＣＰＵが、演算と通信の両方の処理を行うので、演算と通信の平行処理ができない。よって、プロセッサ間通信の高速化は期待できない。

　また、特許文献４に記載の送信技術および特許文献６に記載の送信技術では、ＣＰＵが直接プロセッサ間通信装置にコマンドを投げる方法を採るので、ＣＰＵとプロセッサ間通信装置が独立に動作できない。つまり、演算と通信の平行処理ができない。

　また、特許文献５に記載の技術では、プロセッサ間ネットワークから受信したデータの該当するブロックがキャッシュメモリ上にある場合、受信データが、メモリとキャッシュメモリの両方に書き込まれる。しかしながら、演算と通信の平行処理ができない。

　演算と通信を独立して行おうとすると、図２を用いて説明したように、送信では、コマンドキューを使って、ＣＰＵからプロセッサ間通信装置に送信要求を伝える方法が必要である。また、図３を用いて説明したように、受信では、受信完了フラグを用いて、プロセッサ間通信装置からＣＰＵにデータ受信の完了を伝える方法が必要である。

　その場合、図４と図６を用いて説明した処理が行われ、図５と図７で示したように、ＣＰＵからプロセッサ間通信装置へコマンドを伝える処理、および、プロセッサ間通信装置からＣＰＵへ受信完了フラグを伝える処理に時間がかかっている。

　つまり、演算と通信を独立して行おうとすると、キャッシュメモリやメモリを用いた情報の受け渡し処理に時間がかかってしまう。

　本発明の目的は、上述した課題を解決する、キャッシュメモリ、情報処置装置およびキャッシュメモリ制御方法を提供することである。

　本発明のキャッシュメモリは、ＣＰＵと、前記ＣＰＵと他のＣＰＵとの通信を実行する通信装置と、複数のアドレスのいずれかに対応づけてデータを記憶する記憶装置と、に接続されるキャッシュメモリであって、前記ＣＰＵおよび前記通信装置からのデータを書き込み可能な複数のワードを有するデータ格納手段と、前記複数のアドレスのうち、前記複数のワードのそれぞれに個別に対応づけられたアドレスを格納するアドレス格納手段と、前記通信装置から、書き込み命令と、前記複数のアドレスのうちの任意のアドレスと、書き込み用データと、を受け付けた状況で、当該アドレスが、前記アドレス格納手段に格納されている場合には、当該アドレスに対応する前記ワードに前記書き込み用データを書き込み、また、前記通信装置から、読み出し命令と、前記任意のアドレスと、を受け付けた状況で、当該アドレスが前記アドレス格納手段に格納されている場合には、当該アドレスに対応する前記ワードからデータを読み出して当該通信装置に提供し、当該アドレスが前記アドレス格納手段に格納されていない場合には、前記記憶装置から当該アドレスに対応づけられたデータを読み出して当該通信装置に提供し、かつ当該データを前記データ格納手段に書き込まない制御手段と、を含む。

　本発明の情報処理装置は、上記キャッシュメモリと、前記キャッシュメモリと接続されたＣＰＵと、前記キャッシュメモリと接続され、前記ＣＰＵと他のＣＰＵとの通信を実行する通信装置と、前記キャッシュメモリと接続され、複数のアドレスのいずれかに対応づけてデータを記憶する記憶装置と、を含む
　本発明のキャッシュメモリ制御方法は、ＣＰＵと、前記ＣＰＵと他のＣＰＵとの通信を実行する通信装置と、複数のアドレスのいずれかに対応づけてデータを記憶する記憶装置と、に接続され、また、前記ＣＰＵおよび前記通信装置からのデータを書き込み可能な複数のワードを有するデータ格納手段を含む、キャッシュメモリが行うキャッシュメモリ制御方法であって、前記複数のアドレスのうち、前記複数のワードのそれぞれに個別に対応づけられたアドレスをアドレス格納手段に格納する格納ステップと、前記通信装置から、書き込み命令と、前記複数のアドレスのうちの任意のアドレスと、書き込み用データと、を受け付けた状況で、当該アドレスが、前記アドレス格納手段に格納されている場合には、当該アドレスに対応する前記ワードに前記書き込み用データを書き込み、また、前記通信装置から、読み出し命令と、前記任意のアドレスと、を受け付けた状況で、当該アドレスが前記アドレス格納手段に格納されている場合には、当該アドレスに対応する前記ワードからデータを読み出して当該通信装置に提供し、当該アドレスが前記アドレス格納手段に格納されていない場合には、前記記憶装置から当該アドレスに対応づけられたデータを読み出して当該通信装置に提供し、かつ当該データを前記データ格納手段に書き込まない制御ステップと、を含む。

　本発明によれば、演算と通信が独立して行われる場合において、情報の受け渡し処理に要する時間を短くすることが可能になる。

図１は、一般的な並列計算機のプロセッサ３３０１の構成を示したブロック図である。図２は、一般的な並列コンピュータのプロセッサ間通信の送信処理を説明するための説明図である。図３は、一般的な並列コンピュータのプロセッサ間通信の受信処理を説明するための説明図である。図４は、一般的な並列コンピュータのプロセッサ間通信の送信処理を説明するための説明図である。図５は、図４に示した送信処理を説明するためのタイムチャートである。図６は、一般的な並列コンピュータのプロセッサ間通信の受信処理を説明するための説明図である。図７は、図６に示した受信処理を説明するためのタイムチャートである。図８は、本発明の第１の実施の形態の並列計算機用プロセッサ１００を示したブロック図である。図９Ａは、ＣＰＵ１０１が読み出すデータが、共有キャッシュメモリ１０３上にある場合の動作を説明するための図である。図９Ｂは、ＣＰＵ１０１が読み出すデータが、共有キャッシュメモリ１０３上にない場合の動作を説明するための図である。図１０Ａは、ＣＰＵ１０１が書き込むデータ（アドレス）に対応するブロックが、共有キャッシュメモリ１０３上にある場合の動作を説明するための図である。図１０Ｂは、ＣＰＵ１０１が書き込むデータ（アドレス）に対応するブロックが、共有キャッシュメモリ１０３上にない場合の動作を説明するための図である。図１１Ａは、プロセッサ間通信装置１０２が読み出すデータが、共有キャッシュメモリ１０３上にある場合の動作を説明するための図である。図１１Ｂは、プロセッサ間通信装置１０２が読み出すデータが、共有キャッシュメモリ１０３上にない場合の動作を説明するための図である。図１２Ａは、プロセッサ間通信装置１０２が書き込むデータ（アドレス）に対応するブロックが、共有キャッシュメモリ１０３上にある場合の動作を説明するための図である。図１２Ｂは、プロセッサ間通信装置１０２が書き込むデータ（アドレス）に対応するブロックが、共有キャッシュメモリ１０３上にない場合の動作を説明するための図である。図１３は、第１の実施の形態での送信処理を説明するための説明図である。図１４は、図１３に示した送信処理を説明するためのタイムチャートである。図１５は、第１の実施の形態での受信処理を説明するための説明図である。図１６は、図１５に示した受信処理を説明するためのタイムチャートである。図１７Ａは、プロセッサ間通信装置１０２ＡからのWrite2命令の書き込みに対応したブロックが、共有キャッシュメモリ１０３Ａ上に存在する場合の動作を説明するための図である。図１７Ｂは、プロセッサ間通信装置１０２ＡからのWrite2命令の書き込みに対応したブロックが、共有キャッシュメモリ１０３Ａ上に存在しない場合の動作を説明するための図である。図１８は、共有キャッシュメモリ１０３Ａを示したブロック図である。図１９は、アドレスアレイ１０３Ａｂに格納される状態および他の情報を示すビット列５の一例を示した説明図である。図２０は、図１９に示したＢＶ５ｂとW(i)５ａの値によるi番目のワードの有効／無効を示す説明図である。図２１は、キャッシュ制御ユニット３の動作を説明するためのフローチャートである。図２２は、アクセス情報１１がプロセッサ間通信装置１０２Ａからのアクセスを示す場合の処理を説明するためのフローチャートである。図２３は、新しいブロックの割り当て処理を説明するためのフローチャートである。図２４Ａは、ブロック全体をメモリ１０４から読み出すコマンドの一例を示した説明図である。図２４Ｂは、ブロック全体をメモリ１０４から読み出すコマンドのリプライの一例を示した説明図である。図２４Ｃは、共有キャッシュメモリ１０３Ａが、ブロック全体をメモリ１０４に書き込むコマンドの一例を示した説明図である。図２４Ｄは、ブロックデータ１７０４内のワードうち、W(i)５ａが１のワードのデータだけを、共有キャッシュメモリ１０３Ａからメモリ１０４に書き込むためのコマンドの一例である。図２４Ｅは、１ワードをメモリ１０４から読み出すためのコマンドの一例である。図２４Ｆは、１ワードをメモリ１０４から読み出したときのデータリプライの一例を示した図である。図２４Ｇは、１ワードのデータ１７１１をメモリ１０４のメモリアドレス１７１０に書き込むためのコマンドである。図２５は、ＣＰＵ１０１Ａまたはプロセッサ間通信装置１０２Ａから１ワードの書き込みがあったとき、キャッシュミスした場合の動作を説明するための説明図である。図２６は、図２５と同じブロックの２ワード目に、ＣＰＵ１０１Ａまたはプロセッサ間通信装置１０２Ａから１ワードの書き込みがあり、キャッシュヒットした場合の動作を説明するための説明図である。図２７は、ＣＰＵ１０１Ａまたはプロセッサ間通信装置１０２Ａが、図２６と同じブロックの４ワード目を読み出し、キャッシュヒットした場合の動作を説明するための説明図である。図２８は、ＣＰＵ１０１Ａまたはプロセッサ間通信装置１０２Ａが、図２７と同じブロックの６ワード目を読み出し、キャッシュミスが発生した場合の動作を示した説明図である。図２９は、ＣＰＵ１０１Ａまたはプロセッサ間通信装置１０２Ａが、図２８と同じブロックの１ワード目を読み出し、キャッシュヒットした場合の動作を示した説明図である。図３０は、図２９と同じブロックのエントリが置き換えの対象になった場合の動作を示した説明図である。図３１は、ＣＰＵ１０１Ａが、あるワードを読み出してキャッシュミスした場合の動作を示した説明図である。図３２は、図３１と同じブロックのエントリが置き換えの対象になった場合の動作を示した説明図である。図３３は、あるブロックのエントリが置き換えの対象になった場合の動作を示した説明図である。図３４は、プロセッサ間通信装置１０２ＡからWrite1命令で１ワードの書き込みがあったとき、キャッシュミスした場合の動作を説明するための説明図である。図３５は、プロセッサ間通信装置１０２Ａが、あるワードを読み出してキャッシュミスした場合の動作を示した説明図である。図３６は、第２の実施の形態での送信処理を説明するための説明図である。図３７は、図３６に示した送信処理を説明するためのタイムチャートである。図３８は、第２の実施の形態での受信処理を説明するための説明図である。図３９は、図３８に示した受信処理を説明するためのタイムチャートである。

符号の説明

１００、１００Ａ　プロセッサ
１０１、１０１Ａ　ＣＰＵ
１０２、１０２Ａ　プロセッサ間通信装置
１０３、１０３Ａ　共有キャッシュメモリ
１０３ａ、１０３Ａａ　データアレイ
１０３ａ１　ワード
１０３ｂ、１０３Ａｂ　アドレスアレイ
１０３ｃ、１０３Ａｃ　制御部
１０４　メモリ
１　　　アドレスレジスタ
２　　　比較器
３　　　キャッシュ制御ユニット
５ａ　　ワード状態記憶部
５ｂ　　ブロック状態記憶部

　以下、本発明の実施形態について図面を参照して詳細に説明する。

　（第１の実施の形態）
　図８は、本発明の第１の実施の形態の並列計算機用プロセッサ（以下、単に「プロセッサ」と称する。）１００を示したブロック図である。

　図８において、プロセッサ１００は、一般的に情報処理装置と呼ぶことができる。プロセッサ１００は、ＣＰＵ１０１と、プロセッサ間通信装置１０２と、共有キャッシュメモリ１０３と、メモリ１０４とを含む。共有キャッシュメモリ１０３は、データアレイ１０３ａと、アドレスアレイ１０３ｂと、制御部１０３ｃとを含む。

　ＣＰＵ１０１は、一般的に演算装置と呼ぶことができる。ＣＰＵ１０１は、種々の演算を行う。

　プロセッサ間通信装置１０２は、プロセッサ間ネットワーク１０５を介して他のプロセッサ１００と通信する。具体的には、プロセッサ間通信装置１０２は、同一プロセッサ１００内のＣＰＵ１０１と、他のプロセッサ内のＣＰＵ（他のＣＰＵ）と、の通信を実行する。

　共有キャッシュメモリ１０３は、一般的にキャッシュメモリと呼ぶことができる。共有キャッシュメモリ１０３は、ＣＰＵ１０１と、プロセッサ間通信装置１０２と、メモリ１０４と、に接続される。

　メモリ１０４は、一般的に記憶装置または主記憶装置と呼ぶことができる。メモリ１０４は、自己が有する複数のアドレスのいずれかに対応づけてデータを記憶する。

　データアレイ１０３ａは、一般的にデータ格納手段と呼ぶことができる。データアレイ１０３ａは、複数のワード１０３ａ１からなる複数のブロック（データエントリ）を有する。複数のワードは、ＣＰＵ１０１からのデータを書き込み可能であり、また、プロセッサ間通信装置１０２からのデータも書き込み可能である。

　アドレスアレイ１０３ｂは、一般的にアドレス格納手段と呼ぶことができる。アドレスアレイ１０３ｂは、メモリ１０４が有する複数のアドレスのうち、データアレイ１０３ａ内の複数のワード１０３ａ１のそれぞれに個別に対応づけられたアドレスを格納する。

　また、アドレスアレイ１０３ｂは、メモリ１０４が有する複数のアドレスのうち、データアレイ１０３ａ内の複数のワード１０３ａ１のそれぞれに個別に対応づけられたアドレスを、所定数のアドレスからなるブロック単位で格納する。

　制御部１０３ｃは、一般的に制御手段と呼ぶことができる。

　制御部１０３ｃは、プロセッサ間通信装置１０２から、読み出し命令（以下「read命令」と称する。）と、メモリ１０４が有する複数のアドレスのうちの任意のアドレス（以下「第１アドレス」と称する。）と、を受け付けた状況になると、以下のように動作する。

　第１アドレスがアドレスアレイ１０３ｂに格納されている場合、制御部１０３ｃは、第１アドレスに対応する、データアレイ１０３ａ内のワードからデータを読み出す。

　一方、第１アドレスがアドレスアレイ１０３ｂに格納されていない場合、制御部１０３ｃは、メモリ１０４から第１アドレスに対応づけられたデータを読み出し、かつ、そのデータをデータアレイ１０３ａに書き込まない。このとき、制御部１０３ｃは、第１アドレスを含むブロックの各アドレスを、アドレスアレイ１０３ｂに書き込まない。

　また、制御部１０３ｃは、プロセッサ間通信装置１０２から、書き込み命令（以下「write命令」と称する。）と、メモリ１０４が有する複数のアドレスのうちの任意のアドレス（以下「第２アドレス」と称する）と、書き込み用データと、を受け付けた状況になると、以下のように動作する。

　第２アドレスがアドレスアレイ１０３ｂに格納されている場合、制御部１０３ｃは、第２アドレスに対応する、データアレイ１０３ａ内のワードに、書き込み用データを書き込む。

　一方、第２アドレスがアドレスアレイ１０３ｂに格納されていない場合、制御部１０３ｃは、第２のアドレスに対応づけて、書き込み用データを、メモリ１０４に書きこみ、かつ、その書き込み用データをデータアレイ１０３ａに書き込まない。このとき、制御部１０３ｃは、第２アドレスを含むブロックの各アドレスを、アドレスアレイ１０３ｂに書き込まない。

　次に、図９Ａおよび図９Ｂを使って、ＣＰＵ１０１からのload命令（読み出し命令）に対する処理を説明する。なお、図９Ａおよび図９Ｂにおいて、図８に示したものと同一構成のものには同一符号を付してある。

　図９Ａは、ＣＰＵ１０１が読み出すデータが、共有キャッシュメモリ１０３上にある場合の動作を説明するための図である。

　以下では、制御部１０３ｃが、ＣＰＵ１０１から、メモリ１０４が有する任意のアドレス（以下「第３アドレス」と称する。）とload命令とを受け付けた状況で、第３アドレスがアドレスアレイ１０３ｂに格納されている場合の動作を説明する。

　この場合、制御部１０３ｃは、第３アドレスに対応する、データアレイ１０３ａ内のワードから、データを読み出しＣＰＵ１０１に渡す（ステップ２Ａ０１）。

　図９Ｂは、ＣＰＵ１０１が読み出すデータが、共有キャッシュメモリ１０３上にない場合の動作を説明するための図である。

　以下では、制御部１０３ｃが、ＣＰＵ１０１から、第３アドレスとload命令とを受け付けた状況で、第３アドレスがアドレスアレイ１０３ｂに格納されていない場合の動作を説明する。

　この場合、まず、制御部１０３ｃは、第３アドレスを含むブロック（該当ブロック）を、共有キャッシュメモリ１０３（具体的には、データアレイ１０３ａおよびアドレスアレイ１０３ｂ）上に割り当てる（ステップ２Ｂ０１）。

　続いて、制御部１０３ｃは、メモリ１０４から該当ブロックのデータを読み出し、その該当ブロックのデータを、共有キャッシュメモリ１０３（具体的には、データアレイ１０３ａ）に書き込む（ステップ２Ｂ０２）。このとき、制御部１０３ｃは、その該当ブロックのアドレスを、アドレスアレイ１０３ｂに書き込む。

　続いて、制御部１０３ｃは、共有キャッシュメモリ１０３（具体的には、データアレイ１０３ａ）から、第３アドレスに対応するデータを読み出す（ステップ２Ｂ０３）。

　次に、図１０Ａおよび図１０Ｂを使って、ＣＰＵ１０１からのstore命令（データ書き込み命令）に対する処理を説明する。なお、図１０Ａおよび図１０Ｂにおいて、図８に示したものと同一構成のものには同一符号を付してある。

　図１０Ａは、ＣＰＵ１０１が書き込むデータ（アドレス）に対応するブロックが、共有キャッシュメモリ１０３上にある場合の動作を説明するための図である。

　以下では、制御部１０３ｃが、ＣＰＵ１０１から、メモリ１０４が有する複数のアドレスのうちの任意のアドレス（以下「第４アドレス」と称する。）と、store命令と、書き込みデータと、を受け付けた状況で、第４アドレスがアドレスアレイ１０３ｂに格納されている場合の動作を説明する。

　この場合、制御部１０３ｃは、第４アドレスに対応する、データアレイ１０３ａ内のブロックのワードに、書き込みデータを書き込む（ステップ３Ａ０１）。

　図１０Ｂは、ＣＰＵ１０１が書き込むデータ（アドレス）に対応するブロックが、共有キャッシュメモリ１０３上にない場合の動作を説明するための図である。

　以下では、制御部１０３ｃが、ＣＰＵ１０１から、第４アドレスと、store命令と、書き込みデータと、を受け付けた状況で、第４アドレスがアドレスアレイ１０３ｂに格納されていない場合の動作を説明する。

　この場合、まず、制御部１０３ｃは、第４アドレスを含むブロック（該当ブロック）を、共有キャッシュメモリ１０３（具体的には、データアレイ１０３ａおよびアドレスアレイ１０３ｂ）上に割り当てる（ステップ３Ｂ０１）。

　続いて、制御部１０３ｃは、メモリ１０４から該当ブロックのデータを読み出し、その該当ブロックのデータを、共有キャッシュメモリ１０３（具体的には、データアレイ１０３ａ）に割り当てられた該当ブロックに書き込む（ステップ３Ｂ０２）。このとき、制御部１０３ｃは、その該当ブロックのアドレスを、アドレスアレイ１０３ｂに書き込む。

　続いて、制御部１０３ｃは、共有キャッシュメモリ１０３（具体的には、データアレイ１０３ａ）の該当ブロック内のワードのうち、第４アドレスに対応するワードに、書き込みデータを書き込む（ステップ３Ｂ０３）。

　次に、図１１Ａおよび１１Ｂを使って、プロセッサ間通信装置１０２からのread命令に対する処理を説明する。なお、図１１Ａおよび１１Ｂにおいて、図８に示したものと同一構成のものには同一符号を付してある。また、図１１Ａおよび１１Ａでは、説明の都合上、データアレイ１０３ａとアドレスアレイ１０３ｂの位置関係を、図８に示した位置関係に対して逆にしている。

　図１１Ａは、プロセッサ間通信装置１０２が読み出すデータが、共有キャッシュメモリ１０３上にある場合の動作を説明するための図である。

　以下では、制御部１０３ｃが、プロセッサ間通信装置１０２から、第１アドレスと、read命令（読み出し命令）と、を受け付けた状況で、第１アドレスがアドレスアレイ１０３ｂに格納されている場合の動作を説明する。

　この場合、制御部１０３ｃは、第１アドレスに対応する、データアレイ１０３ａ内のワードから、データを読み出す（ステップ４Ａ０１）。

　図１１Ｂは、プロセッサ間通信装置１０２が読み出すデータが、共有キャッシュメモリ１０３上にない場合の動作を説明するための図である。

　以下では、制御部１０３ｃが、プロセッサ間通信装置１０２から、第１アドレスと、read命令（読み出し命令）と、を受け付けた状況で、第１アドレスがアドレスアレイ１０３ｂに格納されていない場合の動作を説明する。

　この場合、まず、制御部１０３ｃは、メモリ１０４から、第１アドレスに対応づけられたデータを、直接、読み出す（ステップ４Ｂ０１）。このとき、制御部１０３ｃは、共有キャッシュメモリ１０３（具体的には、データアレイ１０３ａおよびアドレスアレイ１０３ｂ）に、第１アドレスを含むブロックを割り当てず、第１アドレスに対応づけられたデータを共有キャッシュメモリ１０３（具体的には、データアレイ１０３ａ）に書き込まない。

　次に、図１２Ａおよび図１２Ｂを使って、プロセッサ間通信装置１０２からのwrite命令に対する処理を説明する。なお、図１２Ａおよび図１２Ｂにおいて、図８に示したものと同一構成のものには同一符号を付してある。また、図１２Ａおよび図１２Ｂでも、説明の都合上、データアレイ１０３ａとアドレスアレイ１０３ｂの位置関係を、図８に示した位置関係に対して逆にしている。

　図１２Ａは、プロセッサ間通信装置１０２が書き込むデータ（アドレス）に対応するブロックが、共有キャッシュメモリ１０３上にある場合の動作を説明するための図である。

　以下では、制御部１０３ｃが、プロセッサ間通信装置１０２から、第２アドレスと、write命令（書き込み命令）と、書き込みデータと、を受け付けた状況で、第２アドレスがアドレスアレイ１０３ｂに格納されている場合の動作を説明する。

　この場合、制御部１０３ｃは、第２アドレスに対応する、データアレイ１０３ａ内のブロックのワードに、書き込みデータを書き込む（ステップ５Ａ０１）。

　図１２Ｂは、プロセッサ間通信装置１０２が書き込むデータ（アドレス）に対応するブロックが、共有キャッシュメモリ１０３上にない場合の動作を説明するための図である。

　以下では、制御部１０３ｃが、プロセッサ間通信装置１０２から、第２アドレスと、write命令（書き込み命令）と、書き込みデータと、を受け付けた状況で、第２アドレスがアドレスアレイ１０３ｂに格納されていない場合の動作を説明する。

　この場合、制御部１０３ｃは、第２のアドレスに対応づけて、書き込みデータを、直接、メモリ１０４に書き込む（ステップ５Ａ０１）。このとき、制御部１０３ｃは、共有キャッシュメモリ１０３（具体的には、データアレイ１０３ａおよびアドレスアレイ１０３ｂ）に、第２アドレスを含むブロックを割り当てず、第２アドレスに対応づけられた書き込みデータを書き込まない。

　次に、第１の実施の形態での送信処理について、図１３を使って説明する。

　図１３は、第１の実施の形態での送信処理を説明するための説明図である。なお、図１３において、図８に示したものと同一構成のものには同一符号を付してある。

　まず、ＣＰＵ１０１が、送信データ６ａを作成する（ステップ６０１）。なお、送信データ６ａは、一般的に通信用データと呼ぶことができる。

　ＣＰＵ１０１は、制御部１０３ｃに、store命令と、送信データ６ａと、送信データ６ａを書き込むアドレスと、を送信する。制御部１０３ｃは、store命令と送信データ６ａを書き込むアドレスとに基づいて、送信データ６ａを、共有キャッシュメモリ１０３またはメモリ１０４に書き込む。

　ここでは、図４の場合とは異なり、送信データ６ａのすべてが、共有キャッシュメモリ１０３上にキャッシュされていないとして説明を行う。しかしながら、送信データ６ａのサイズや作成される時刻によっては、送信データ６ａの一部が、共有キャッシュメモリ１０３上にあり、送信データ６ａのその他の部分が、メモリ１０４に存在することもありうる。

　次に、制御部１０３ｃは、ＣＰＵ１０１から、store命令と、コマンド６ｂと、コマンド６ｂを書き込むアドレスと、を受け付けると、コマンドキュー１０４ａに、コマンド６ｂを書き込む。なお、コマンド６ｂは、一般的に通信用コマンドと呼ぶことができる。

　ここでは、コマンド６ｂを書き込むアドレスは、共有キャッシュメモリ１０３上にない（書き込み時にキャッシュミスする）として説明する。

　そのため、まず、制御部１０３ｃは、コマンド６ｂを書き込むアドレスを含む該当ブロックのデータを、メモリ１０４から読み出し、その該当ブロックのデータを共有キャッシュメモリ１０３（データアレイ１０３ａ）に書き込む（ステップ６０２）。

　続いて、制御部１０３ｃは、その該当ブロック内のワードのうち、コマンド６ｂを書き込むアドレスに対応するワードに、コマンド６ｂを書き込む（ステップ６０３）。よって、この場合、コマンド６ｂは、共有キャッシュメモリ１０３上にキャッシュされる。

　コマンド６ｂには、通信の宛先や送信データ６ａへのポインタなどが示されている。

　次に、ＣＰＵ１０１が、プロセッサ間通信装置１０２に、コマンド６ｂの位置を示す送信要求を送る（ステップ６０４）。

　プロセッサ間通信装置１０２は、送信要求を受け付けると、制御部１０３ｃを用いて、コマンド６ｂを読み出す。

　コマンド６ｂは、共有キャッシュメモリ１０３上にキャッシュされているので、制御部１０３ｃは、データアレイ１０３ａから、コマンド６ｂを読み出す（ステップ６０５）。このとき、制御部１０３ｃは、メモリ１０４へのライトバックを行わない。

　次に、プロセッサ間通信装置１０２は、コマンド６ｂ内の送信データ６ａへのポインタを使って、制御部１０３ｃを用いて、送信データ６ａを読み出す。

　ここでは、送信データ６ａのすべてが、共有キャッシュメモリ１０３上に存在しないとしているので、キャッシュミスが発生し、制御部１０３ｃは、メモリ１０４から、送信データ６ａを読み出す（ステップ６０６）。このとき、制御部１０３ｃは、送信データ６ａ（具体的には、送信データ６ａが書き込まれたアドレスを含むブロックのデータ）を、共有キャッシュメモリ１０３（具体的には、データアレイ１０３ａおよびアドレスアレイ１０３ｂ）に書き込まない。

　そして、プロセッサ間通信装置１０２は、送信データ６ａを用いてパケットを作製して、プロセッサ間ネットワーク１０５へ、そのパケットを送信する（ステップ６０７）。

　もしも、送信データ６ａが共有キャッシュメモリ１０３上に存在するなら、その部分の読み出しレイテンシが短くなる。

　図１４は、図１３に示した送信処理を説明するためのタイムチャートである。なお、図１４において、図８に示したものと同一構成のものには同一符号を付してある。

　ここでは、制御部１０３ｃが、ＣＰＵ１０１からのコマンド６ｂを、コマンドキュー１０４ａに書き込む時に、共有キャッシュメモリ１０３で、キャッシュミスが発生する場合を記述している。

　ＣＰＵ１０１からのコマンド６ｂの書き込みでキャッシュミスが起こると、制御部１０３ｃは、コマンド６ｂを書き込むアドレスを含むブロックのデータを、メモリ１０４から読み出し、そのブロックのデータを、共有キャッシュメモリ１０３（データアレイ１０３ａ）に書き込む（ステップ７０１）。このとき、制御部１０３ｃは、そのブロックのアドレスを、アドレスアレイ１０３ｂに書き込む。

　そして、制御部１０３ｃは、共有キャッシュメモリ１０３（データアレイ１０３ａ）に、コマンドを書き込む（ステップ７０２）。

　ＣＰＵ１０１からの送信要求を契機に（ステップ７０３）、プロセッサ間通信装置１０２が、制御部１０３ｃを用いて、共有キャッシュメモリ１０３（データアレイ１０３ａ）からコマンド６ｂを読み出す（ステップ７０４）。

　そして、プロセッサ間通信装置１０２は、制御部１０３ｃを用いて、メモリ１０４から、送信データ６ａを読み出す（ステップ７０５）。

　図１４に示すように、プロセッサ間通信装置１０２が、送信データ６ａを読み出すときは、複数の読み出しリクエストを先行発行することで、読み出しレイテンシを隠蔽することが可能である。

　本実施の形態によれば、制御部１０３ｃは、プロセッサ間通信装置１０２から、第１アドレスと、読み出し命令と、を受け付けた状況で、第１アドレスがアドレスアレイ１０３ｂに格納されている場合には、第１アドレスに対応するデータアレイ１０３ａのワードからデータを読み出し、第１アドレスがアドレスアレイ１０３ｂに格納されていない場合には、メモリ１０４から第１アドレスに対応づけられたデータを読み出し、かつ、そのデータをデータアレイ１０３ａに書き込まない。

　このため、図５と見比べると、例えば、ＣＰＵ１０１とプロセッサ間通信装置１０２間のコマンドの受け渡しの時間が短縮された（期間Ｔ７０５）ことがわかり、情報の受け渡し時間（この場合、送信時間）の短縮化という効果が明らかである。

　次に、第１の実施の形態での受信処理について、図１５を使って説明する。図１５は、第１の実施の形態での受信処理を説明するための説明図である。なお、図１５において、図８に示したものと同一構成のものには同一符号を付してある。

　まず、プロセッサ間通信装置１０２が、プロセッサ間ネットワーク１０５から、パケットを受信する（ステップ８０１）。

　そして、プロセッサ間通信装置１０２は、パケットの中の受信データ８ａを、制御部１０３ｃを用いて、メモリ１０４上に書き込む。なお、受信データ８ａは、一般的に書き込み用データと呼ぶことができる。

　ここでは、受信データ８ａを書き込むアドレスを含むすべてのブロックが、共有キャッシュメモリ１０３にキャッシュされていないとして説明する。

　この場合、キャッシュミスが発生し、制御部１０３ｃは、直接、メモリ１０４に、受信データ８ａを書き込む（ステップ８０２）。

　プロセッサ間通信装置１０２は、制御部１０３ｃが受信データ８ａのすべてをメモリ１０４に書き込んだ後、制御部１０３ｃを用いて、受信完了フラグ８ｂを書き込む。なお、受信完了フラグ８ｂは、一般的に書き込みデータと呼ぶことができる。

　ここで、受信完了フラグ８ｂは、ＣＰＵ１０１によってポーリングされていると考えられるので、受信完了フラグ８ｂのアドレスを含むブロックは、共有キャッシュメモリ１０３上に存在する。

　従って、制御部１０３ｃは、受信完了フラグ８ｂを、共有キャッシュメモリ１０３に書き込む（ステップ８０３）。

　ＣＰＵ１０１は、受信完了フラグをポーリングしているので、プロセッサ間通信装置１０２により書き換えられた受信完了フラグ８ｂを、制御部１０３ｃを用いて、共有キャッシュメモリ１０３から読み出す（ステップ８０４）。

　そして、ＣＰＵ１０１は、受信完了フラグ８ｂを参照することによって、受信データ８ａが書き込まれたことを知り、制御部１０３ｃを用いて、受信データ８ａを読み出す。

　受信データ８ａは、メモリ１０４にあるので、ＣＰＵ１０１からの受信データ８ａの読み出しでキャッシュミスが発生し、制御部１０３ｃは、受信データ８ａのアドレスを含むブロックのデータを、メモリ１０４から読み出し、共有キャッシュメモリ１０３（データアレイ１０３ａ）に書き込み（ステップ８０５）、共有キャッシュメモリ１０３（データアレイ１０３ａ）から、受信データ８ａを読み出す（ステップ８０６）。

　ここで、受信データ８ａのアドレスを含むブロックが、共有キャッシュメモリ１０３上にある場合は、プロセッサ間通信装置１０２からの受信データ８ａの書き込みと、ＣＰＵ１０１からの受信データ８ａの読み出しのレイテンシが短縮される。

　図１６は、図１５に示した受信処理を説明するためのタイムチャートである。なお、図１６において、図８に示したものと同一構成のものには同一符号を付してある。

　受信データ８ａのアドレスを含むすべてのブロックが、共有キャッシュメモリ１０３上にないので、制御部１０３ｃは、プロセッサ間通信装置１０２からの受信データ８ａを、メモリ１０４に書き込む（ステップ９０１）。

　次に、プロセッサ間通信装置１０２は、制御部１０３ｃを用いて、受信完了フラグ８ｂを書き込む。

　受信完了フラグ８ｂは、ＣＰＵ１０１によってポーリングされているので、受信完了フラグ８ｂのアドレスを含むブロックは、共有キャッシュメモリ１０３上にある。

　そのため、制御部１０３ｃは、共有キャッシュメモリ１０３（データアレイ１０３ｃ）に、受信完了フラグ８ｂを書き込む（ステップ９０２）。

　その直後に、ＣＰＵ１０１が、制御部１０３ｃを用いて、受信完了フラグ８ｂを、共有キャッシュメモリ１０３から読み出す（ステップ９０３）。

　そして、ＣＰＵ１０１は、受信完了フラグ８ｂを参照することによって、受信データ８ａがメモリ１０４に書き込まれたことを確認して、受信データ８ａを読み出す。

　受信データ８ａは、メモリ１０４に格納されているので、共有キャッシュメモリ１０３で読み出しミスが起こり、制御部１０３ｃは、受信データ８ａのアドレスを含むブロックのデータを、メモリ１０４から読み出し、共有キャッシュメモリ１０３に書き込む（ステップ９０４）。

　そして、ＣＰＵ１０１は、制御部１０３ｃを用いて、共有キャッシュメモリ１０３から、受信データ８ａを読み出す（ステップ９０５）。

　図１６に示すように、プロセッサ間通信装置１０２が、受信データ８ａを、メモリ１０４に書き込むときは、複数の書き込みリクエストを先行発行することで、書き込みのレイテンシを隠蔽できる。

　同様に、ＣＰＵ１０１が受信データ８ａを読み出すときも、複数の読み出しリクエストを先行発行することで、読み出しレイテンシを隠蔽することが可能である。

　本実施の形態によれば、制御部１０３ｃは、プロセッサ間通信装置１０２から、第２アドレスと、書き込み命令と、書き込みデータと、を受け付けた状況で、第２アドレスがアドレスアレイ１０３ａに格納されている場合には、第２アドレスに対応するワードに書き込みデータを書き込み、第２アドレスがアドレスアレイ１０３ａに格納されていない場合には、第２のアドレスに対応づけて書き込みデータをメモリ１０４に書き込み、かつ、その書き込みデータをデータアレイ１０３ａに書き込まない。

　このため、図７と見比べると、例えば、プロセッサ間通信装置１０２とＣＰＵ１０１間の受信完了フラグの受け渡しの時間が短縮された（期間Ｔ９０６）ことがわかり、情報の受け渡し時間（この場合、送信時間）の短縮化という効果が明らかである。

　本実施の形態によれば、プロセッサ間通信のレイテンシを削減するために、送信時において、ＣＰＵ１０１からプロセッサ間通信装置１０２へコマンド６ｂを渡すところ、および、受信時においてプロセッサ間通信装置１０２からＣＰＵ１０１へ受信完了フラグ８ｂを伝えるところの処理の時間を削減することが可能になる。

　つまり、本実施の形態によれば、送信時において、プロセッサ間通信装置１０２が、メモリ１０４または共有キャッシュメモリ１０３上のコマンドキュー１０４ａから、コマンド６ｂを読み出すために要する時間を、短縮することができ、高いプロセッサ間通信性能を提供することが可能になる。

　また、本実施の形態によれば、受信時において、ＣＰＵ１０１が、共有キャッシュメモリ１０３から、受信完了フラグ８ｂを読み出すために要する時間を、短縮することができ、高いプロセッサ間通信性能を提供することが可能になる。

　なお、本実施の形態では、ＣＰＵ１０１とプロセッサ間通信装置１０２が、共有キャッシュメモリ１０３を共有する構成を採る。

　そして、制御部１０３ｃは、ＣＰＵ１０１からの命令を受け付けた状況でキャッシュミスが発生した時に、データアレイ１０３ａおよびアドレスアレイ１０３ｂにブロックを割り当てるが、プロセッサ間通信装置１０２からの命令を受け付けた状況でキャッシュミスが発生した時には、データアレイ１０３ａおよびアドレスアレイ１０３ｂにブロックを割り当てない。

　制御部１０３ｃは、プロセッサ間通信装置１０２からの命令を受け付けた状況でキャッシュヒットした際には、共有キャッシュメモリ１０３上にあるブロックに対して、読み書きできるが、プロセッサ間通信装置１０２からの命令を受け付けた状況でキャッシュミスした際には、直接、メモリ１０４に読み書きする。

　本実施の形態による第１の効果は、プロセッサ間通信装置１０２が、ＣＰＵ１０１にて共有キャッシュメモリ１０３上に書かれたコマンド６ｂを、直接読むことにより、プロセッサ間通信装置１０２によるコマンド６ｂの読み出し時間を短くできることである。

　また、第２の効果は、プロセッサ間通信装置１０２が、受信完了フラグ８ｂを共有キャッシュメモリ１０３上に書き込むことにより、ＣＰＵ１０１が受信完了フラグ８ｂを読み出す時間を短くできることである。なお、受信完了フラグ８ｂは、ＣＰＵ１０１によりポーリングされるので、共有キャッシュメモリ１０３上に存在する。

　（第２の実施の形態）
　次に、本発明の第２の実施の形態について図面を参照して詳細に説明する。

　図１７Ａおよび１７Ｂは、本発明の第２の実施の形態の並列計算機用プロセッサ（以下、単に「プロセッサ」と称する。）１００Ａを示したブロック図である。

　図１７Ａおよび１７Ｂにおいて、プロセッサ１００Ａは、一般的に情報処理装置と呼ぶことができる。プロセッサ１００Ａは、ＣＰＵ１０１Ａと、プロセッサ間通信装置１０２Ａと、共有キャッシュメモリ１０３Ａと、メモリ１０４とを含む。共有キャッシュメモリ１０３Ａは、データアレイ１０３Ａａと、アドレスアレイ１０３Ａｂと、制御部１０３Ａｃとを含む。

　第２の実施の形態では、制御部１０３Ａｃは、ＣＰＵ１０１Ａからの書き込み時、または、プロセッサ間通信装置１０２Ａからの第２の書き込み命令（Write2命令：所定書き込み命令）を使っての書き込み時に、共有キャッシュメモリ１０３Ａ（データアレイ１０３Ａａおよびアドレスアレイ１０３Ａｂ）に、その書き込み命令に対応する書き込みアドレスを含むブロックがない場合、以下のような動作を実行する。

　制御部１０３Ａｃは、共有キャッシュメモリ１０３Ａ（データアレイ１０３Ａａおよびアドレスアレイ１０３Ａｂ）に新たなブロックを割り当て、メモリ１０４から、そのブロックのデータの読み出しはせずに、書き込みデータを、その新たなブロック内の書き込みアドレスに対応するワードに書き込み、データが書き込まれた新たなブロック内のワードを示す情報を、アドレスアレイ１０３Ａｂに記憶する。

　なお、プロセッサ間通信装置１０２Ａからの第１の書き込み命令（Write１命令：書き込み命令）での共有キャッシュメモリ１０３Ａの動作は、第１の実施の形態のプロセッサ間通信装置１０２からの書き込み時の共有キャッシュメモリ１０３の動作と同じである。

　プロセッサ間通信装置１０２Ａは、受信完了フラグを書き込む場合だけに、第２の書き込み命令（Write2命令）を用いる。このため、プロセッサ間通信装置１０２Ａは、受信データの書き込みには、第１の書き込み命令（Write１命令）を用いる。

　なお、データアレイ１０３Ａａは、一般的にデータ格納手段と呼ぶことができ、アドレスアレイ１０３Ａｂは、一般的にアドレス格納手段と呼ぶことができ、制御部１０３Ａｃは、一般的に制御手段と呼ぶことができる。

　図１７Ａおよび１７Ｂは、プロセッサ間通信装置１０２Ａから、第２の書き込み命令（Write２命令）と、第２アドレスと、書き込みデータと、を受け付けた場合の、共有キャッシュメモリ１０３Ａの動きを説明するための図である。

　なお、図１７Ａおよび１７Ｂでは、プロセッサ間通信装置１０２Ａから第２の書き込み命令を受け付けた場合の共有キャッシュメモリ１０３Ａの動きを説明しているが、ＣＰＵ１０１Ａからstore命令を受け付けた場合の共有キャッシュメモリ１０３Ａの動作も同じである。

　図１７Ａは、プロセッサ間通信装置１０２ＡからのWrite2命令の書き込みに対応したブロックが、共有キャッシュメモリ１０３Ａ上に存在する場合の動作を説明するための図である。

　以下では、制御部１０３Ａｃが、プロセッサ間通信装置１０２Ａから、第２アドレスと、write2命令（第２書き込み命令）と、書き込みデータと、を受け付けた状況で、第２アドレスがアドレスアレイ１０３Ａｂに格納されている場合の動作を説明する。

　この場合、制御部１０３Ａｃは、第２アドレスに対応する、データアレイ１０３Ａａ内のブロックのワードに、書き込みデータを書き込まれる（ステップ１０Ａ０１）。そして、制御部１０３Ａｃは、第２アドレスに対応するワードに書き込みデータが書き込まれたことを、アドレスアレイ１０３Ａｂに記憶する。

　図１７Ｂは、プロセッサ間通信装置１０２ＡからのWrite2命令の書き込みに対応したブロックが、共有キャッシュメモリ１０３Ａ上に存在しない場合の動作を説明するための図である。

　以下では、制御部１０３Ａｃが、プロセッサ間通信装置１０２Ａから、第２アドレスと、write2命令と、書き込みデータと、を受け付けた状況で、第２アドレスがアドレスアレイ１０３Ａｂに格納されていない場合の動作を説明する。

　この場合、制御部１０３Ａｃは、第２アドレスを含むブロックを、共有キャッシュメモリ１０３Ａ（データアレイ１０３Ａａとアドレスアレイ１０３Ａｂ）上に割り当てられる（ステップ１０Ｂ０１）。

　そして、制御部１０３Ａｃは、そのブロックのうち、第２アドレスに対応するワードに、書き込みデータを書き込む（ステップ１０Ｂ０２）。

　そして、制御部１０３Ａｃは、第２アドレスに対応するワードに書き込みデータが書き込まれたことを、アドレスアレイ１０３Ａｂに記憶する。なお、制御部１０３Ａｃは、ブロックを割り当てるときに、メモリ１０４からブロックのデータを読み出すことは行わない。

　次に、第２の実施の形態で用いる共有キャッシュメモリ１０３Ａについて詳細に説明する。

　図１８は、共有キャッシュメモリ１０３Ａを示したブロック図である。

　図１８において、共有キャッシュメモリ１０３Ａは、ＣＰＵ１０１Ａ、プロセッサ間通信装置１０２Ａおよびメモリ１０４と接続される。

　共有キャッシュメモリ１０３Ａは、データアレイ１０３Ａａ、アドレスアレイ１０３Ａｂ、アドレスレジスタ１、比較器２、および、キャッシュ制御ユニット３を含む。アドレスレジスタ１と比較部２とキャッシュ制御ユニット３は、制御部１０３Ａｃに含まれる。

　アドレスレジスタ１は、ＣＰＵ１０１Ａが要求したアドレス、または、プロセッサ間通信装置１０２Ａが要求したアドレスを格納する。アドレスレジスタ１に格納されるアドレスは、上位ｍビット９、中位ｎビット７、および、下位ｋビット１２によって表される。

　上位ｍビット９のデータは、比較器２に提供され、中位ｎビット７のデータは、アドレスアレイ１０３Ａｂとデータアレイ１０３Ａａに提供される。

　アドレスアレイ１０３Ａｂは、２のｎ乗個のエントリ（以下「アドレスエントリ」と称する。）を持つメモリである。なお、データアレイ１０３Ａａも、２のｎ乗個のエントリ（以下「データエントリ」と称する。）を持つメモリである。データアレイ１０３Ａａは、複数のワードからなる複数のブロック（データエントリ）を有する。

　各アドレスエントリは、中位ｎビット７のデータに基づいて、各データエントリと１対１で対応している。

　各アドレスエントリは、中位ｎビット７のデータが表すことが可能な値に対応するオフセットを有する。このため、各アドレスエントリは、中位ｎビット７に対応する。なお、オフセットは、一般的にインデックスとも呼ばれる。

　アドレスアレイ１０３Ａｂは、データアレイ１０３Ａａのデータエントリにブロック単位で格納されているデータ（ブロックデータ）の索引として使用される。

　アドレスアレイ１０３Ａｂの１つのアドレスエントリは、中位ｎビット７に対応するオフセットごとに、アドレスの上位ｍビット４と、そのブロックの状態と他の情報を表すビット列（以下「状態他ビット列」または「ビット列」とも称する。）５と、を含む。アドレスの上位ｍビット４は、ブロックデータのアドレス（ブロックアドレス）の一部である。

　アドレスアレイ１０３Ａｂのうち、中位ｎビット７に対応するオフセットごとに、上位ｍビット４を格納する部分は、格納部の一例である。

　格納部は、少なくとも１つのワードにデータが格納されたデータエントリに対応する、メモリ１０４のアドレス群（上位ｍビットのデータと中位ｎビットのデータ）を格納する。

　このアドレス群は、上位ｍビットと中位ｎビットのデータが規定され、かつ、下位ｋビットのデータが任意の値となる、複数のアドレスを意味する。

　アドレスアレイ１０３Ａｂのうち、ビット列５を格納する部分は、ワード状態記憶部５ａと、ブロック状態記憶部５ｂと、を含む（図１９参照）。

　ワード状態記憶部５ａは、一般的にワード状態記憶手段と呼ぶことができる。

　ワード状態記憶部５ａは、ＣＰＵ１０１Ａまたはプロセッサ間通信装置１０２Ａからのデータが書き込まれたワードを特定するためのワード状態情報（W(1)～W（8））を、そのワードに対応づけられたアドレスと関連づけて記憶する。

　なお、W(1)～W（8）において、その値が１になっているものは、キャッシュ制御ユニット３にてデータが書き込まれたワードを示すワード情報となる。

　ブロック状態記憶部５ｂは、一般的にブロック状態記憶手段と呼ぶことができる。

　ブロック状態記憶部５ｂは、データアレイ１０３Ａａのブロックに対応するアドレス群ごとに、そのブロック内のワードのうち、ＣＰＵ１０１Ａまたはプロセッサ間通信装置１０２Ａから書き込まれていないワードに、メモリ１０４から読み出されたデータが記憶されているか否かを示すブロック状態情報（ＢＶ）を記憶する。

　なお、ビット列５の詳細については後述する。

　アドレスアレイ１０３Ａｂは、中位ｎビット７のデータをオフセット８として受け付けると、オフセット８に対応するアドレスエントリから、上位ｍビット４のデータと、ビット列５のデータと、を出力する。

　上位ｍビット４のデータは、比較器２に提供され、ビット列５のデータは、キャッシュ制御ユニット３に提供される。

　データアレイ１０３Ａａの１つのデータエントリは、２のｋ乗バイトのブロックデータ（以下、単に「ブロック」とも称する。）６を格納する。

　各データエントリは、各アドレスエントリと１対１で対応しているため、各データエントリ内のブロックも、各アドレスエントリと１対１で対応する。

　比較器２は、アドレスアレイ１０３Ａｂからの上位ｍビット４のデータと、アドレスレジスタ１からの上位ｍビット９のデータと、を比較する。

　上位ｍビット４のデータと上位ｍビット９のデータが一致した場合は、アドレスレジスタ１内のアドレスにて指定されたデータを含むブロックが、共有キャッシュメモリ（具体的には、アドレスアレイ１０３Ａｂとデータアレイ１０３Ａａ）上にあることになる。

　キャッシュ制御ユニット３は、比較器２からの比較結果１０、アクセス情報１１、および、アドレスアレイ１０３Ａｂからのビット列５に基づいて、共有キャッシュメモリ１０３Ａ（具体的には、アドレスアレイ１０３Ａｂとデータアレイ１０３Ａａ）を制御する。

　アクセス情報１１は、アクセス元（ＣＰＵ１０１Ａか、プロセッサ間通信装置１０２Ａ）と、アクセス内容（各命令）と、を示す。

　制御部１０３Ａｃは、共有キャッシュメモリ１０３Ａの動作を制御する。

　制御部１０３Ａｃは、例えば、ＣＰＵ１０１Ａから、書き込み命令と、アドレスと、データと、を受け付ける。また、制御部１０３Ａｃは、例えば、プロセッサ間通信装置１０２Ａから、第１の書き込み命令（Write１命令）と、アドレスと、データと、を受け付ける。また、制御部１０３Ａｃは、例えば、プロセッサ間通信装置１０２Ａから、第２の書き込み命令（Write２命令）と、アドレスと、データと、を受け付ける。

　制御部１０３Ａｃは、書き込み命令（ＣＰＵ１０１Ａからの書き込み命令、プロセッサ間通信装置１０２Ａからの第２の書き込み命令）と共に受け付けられたアドレスが、アドレスアレイ１０３Ａｂ（具体的には、中位ｎビット７に対応するオフセットごとに上位ｍビット４を格納する部分）内にない場合、データアレイ１０３Ａａ内の複数のブロックのいずれかを、書込み用ブロックとして割り当てる。

　制御部１０３Ａｃは、書き込み命令と共に受け付けられたアドレスを含むブロックのデータを、メモリ１０４から読み込まずに、その書込み用ブロック内のいずれかのワードを、そのアドレスに対応づけ、そのワードに、書き込み命令と共に受け付けられたデータを書き込む。

　制御部１０３Ａｃは、例えば、ＣＰＵ１０１Ａから、読み出し命令とアドレスを受け付ける。また、制御部１０３Ａｃは、例えば、プロセッサ間通信装置１０２Ａから、読み出し命令（read命令）とアドレスを受け付ける。

　制御部１０３Ａｃは、読み出し命令（ＣＰＵ１０１Ａからの読み出し命令、または、プロセッサ間通信装置１０２Ａからの読み出し命令）と共に受け付けられたアドレスに対応するワード状態情報（W(i)＝１）を、ワード状態記憶部５ａが記憶している場合、または、そのアドレスに対応するブロック状態情報（ＢＶ＝１）をブロック状態記憶部５ｂが記憶している場合、そのアドレスから特定される、データアレイ１０３Ａａ内のワードからデータを読み出す。

　また、制御部１０３Ａｃは、読み出し命令に応じた読み出し時にキャッシュミスが生じたとき、読み出し命令と共に受け付けられたアドレスを含むブロック内のデータを、メモリ１０４から読み出す。

　制御部１０３Ａｃは、続いて、ワード状態記憶部５ａを参照して、データアレイ１０３Ａａのワードから、そのブロック内でデータが書き込まれていない１つまたは複数のワードを特定する。

　制御部１０３Ａｃは、その特定された１つまたは複数のワードにだけ、メモリ１０４から読み出したブロックのデータを書き込む。

　制御部１０３Ａｃは、続いて、ブロック状態記憶部５ｂに、そのブロック内のワードのうち、ＣＰＵ１０１Ａまたはプロセッサ間通信装置１０２Ａからデータが書き込まれていない１つまたは複数のワードに、メモリ１０４から読み出されたデータが記憶されていることを示すブロック状態情報（ＢＶ＝１）を記憶する。

　制御部１０３Ａｃは、読み出し命令とアドレスを受け付けた場合、ワード状態記憶部５ａおよびブロック状態記憶部５ｂを参照して、キャッシュヒットまたはキャッシュミスが生じたかを判断する。

　制御部１０３Ａｃは、データアレイ１０３Ａａ内のブロック内の指定された１つまたは複数のワードのデータだけを、メモリ１０４内の対応するブロックに書き込む。

　例えば、制御部１０３Ａｃは、ワード状態記憶部５ａを参照して、書込み用ブロック内でデータが書き込まれた１つまたは複数のワードを特定し、その特定された１つまたは複数のワード内のデータを、メモリ１０４内の対応するブロックにライトバックする。

　本実施の形態では、制御部１０３Ａｃは、データアレイ１０３Ａａ内のブロックと対応するメモリ１０４のアドレスが切り替えられる時、ワード状態記憶部５ａとブロック状態記憶部５ｂを参照して、そのブロック内のすべてのワードにＣＰＵ１０１Ａまたはプロセッサ間通信装置１０２Ａからデータが書き込まれたか、一度メモリ１０４からブロックが読み出された場合には、そのブロック全体をメモリ１０４内の対応するブロックにライトバックする。そうでない場合には、制御部１０３Ａｃは、そのブロック内でデータが書き込まれた１つまたは複数のワードを特定し、その特定された１つまたは複数のワード内のデータだけを、メモリ１０４内の対応するブロックにライトバックする。

　なお、以下の説明では、アドレスレジスタ１に格納されるアドレスは、６４ビットとし、ｋ＝６、すなわちブロックのサイズを６４バイトとし、ｎ＝１０、すなわちアドレスアレイ１０３Ａｂのアドレスエントリ数、および、データアレイ１０３Ａａのデータエントリ数を１０２４とし、ｍ＝４８とする。また、６４バイトのブロックは、８個のワードからなる。なお、１ワードは８バイトである。

　本実施の形態では、共有キャッシュメモリ１０３Ａとして、ダイレクトマップ方式のキャッシュメモリを示しているが、セットアソシアティブ方式のキャッシュメモリが用いられてもよい。その場合は、ウェイ数分、アドレスアレイ１０３Ａｂ、データアレイ１０３Ａａ、および、比較器２が必要である。

　次に、図１８に示した共有キャッシュメモリ１０３Ａの動作を説明する。

　共有キャッシュメモリ１０３Ａへのアクセスがあった場合に、アドレスレジスタ１は、そのアクセスに示されたアドレスを格納する。なお、このアドレスは、論理アドレスでも物理アドレスでもよい。

　本実施の形態では、このアドレスを、何らかのアドレス変換の手段により仮想アドレスから変換された物理アドレスとして説明を行う。

　ブロックのサイズは６４バイトなので、アドレスレジスタ１の下位６（ｋ）ビット１２のデータは、データアレイ１０３Ａａのブロック内のワードのアドレスとなる。

　中位１０（ｎ）ビット７のデータが、アドレスアレイ１０３Ａｂのオフセット８として用いられて、アドレスアレイ１０３Ａｂのアドレスエントリ内のデータ（上位４８（ｍ）ビット４のデータとビット列５のデータ）が読み出される。

　比較器２は、読み出された上位４８（ｍ）ビット４のデータと、アドレスレジスタ１内の上位４８（ｍ）ビット９のデータと、を比較して、アドレスレジスタ１内のアドレスにて指定されたデータを含むブロックが、すでに共有キャッシュメモリ１０３Ａにあるかどうかを判断する。

　キャッシュ制御ユニット３は、比較器２の比較結果１０と、アクセス情報１１と、ビット列５とを受け付ける。

　キャッシュ制御ユニット３は、比較結果１０、アクセス情報１１、および、ビット列５に基づいて、共有キャッシュメモリ１０３Ａの動作を決定する。

　キャッシュ制御ユニット３の動作の詳細ついては、後述する。

　図１９は、アドレスアレイ１０３Ａｂに格納されるビット列５の一例を示した説明図である。

　ビット列５は、９ビットで構成される。具体的には、ビット列５は、１ビットのＢＶ５ｂと、８ビットのW(i)（i＝1～8）５ａとからなる。W(i)（i＝1～8）５ａは、１ビットのW(1)～W(8)からなる。なお、ＢＶ５ｂは、ブロック状態記憶部の一例であり、W(i)（i＝1～8）５ａは、ワード状態記憶部の一例である。

　W(1)～W(8)５ａは、データアレイ１０３Ａａのブロックデータの各ワードのアドレス、すなわち各ワードに対応する。ブロックデータは、８ワードからなるので、W(1)は、ブロックデータ２０４の１ワード目に対応し、W(2)は２ワード目、W(3)は３ワード目、W(4)は４ワード目、W(5)は５ワード目、W(6)は６ワード目、W(7)は７ワード目、W(8)は８ワード目に対応する。

　W(i)５ａの値が１のときは、i番目のワードにデータが書き込まれたことを示す。つまり、W(i)５ａが１のときは、ブロックデータ２０４のi番目のワードには、ＣＰＵ１０１Ａまたはプロセッサ間通信装置１０２Ａから書き込まれた有効なデータが格納されていることになる。

　W(i)５ａの値が０のときは、i番目のワードには、ＣＰＵ１０１Ａからもプロセッサ間通信装置１０２Ａからもデータが書き込まれていないことを示す。

　ＢＶ５ｂは、ＢＶ５ｂを含むアドレスエントリに対応する、データアレイ１０３Ａａ内のブロック全体が有効かどうかを示す。

　具体的には、ＢＶ５ｂの値が１のときは、ＣＰＵ１０１Ａからもプロセッサ間通信装置１０２Ａからもデータが書き込まれていないワード（Ｗ(i)５ａが０）に、メモリ１０４から読み出されたデータが格納されていることを示しており、対応するブロック全体が有効であることを意味する。

　すなわち、ＢＶ５ｂの値が１のときは、i番目のワードの状態を示すW(i)５ａの値が０、つまり、W(i)５ａがi番目のワードにＣＰＵ１０１Ａからもプロセッサ間通信装置１０２Ａからもデータが書き込まれていないことを示す場合であったとしても、i番目のワードにメモリ１０４から読み出されたデータが書き込まれたことにより、i番目のワードに有効なデータが格納されていることを示す。

　また、ＢＶ５ｂの値が０の場合には、i番目のワードの状態を示すW(i)５ａの値が１であるワードのデータだけが有効で、W(i)５ａの値が０であるワードのデータは無効であることを示す。

　図２０は、図１９に示したＢＶ５ｂとW(i)５ａの値によるi番目のワードの有効／無効を示す説明図である。

　次に、図１８および図１９を参照しながら、共有キャッシュメモリ１０３Ａの動作について詳細に説明する。

　図２１は、キャッシュ制御ユニット３の動作を説明するためのフローチャートである。

　アドレスレジスタ１が、共有キャッシュメモリ１０３Ａにアクセスされたアドレスを格納すると、その後、そのアドレスの中位１０（ｎ）ビット７のデータが、アドレスアレイ１０３Ａｂおよびデータアレイ１０３Ａａのオフセット８として使用されて、アドレスアレイ１０３Ａｂのアドレスエントリ内の上位４８（ｍ）ビット４のデータとビット列５のデータが読み出され、データアレイ１０３Ａａのデータエントリがアクセスされる。

　キャッシュ制御ユニット３は、比較器２の比較結果１０と、ビット列５のデータと、アクセス情報１１と、を受け付ける。

　なお、アクセス情報１１は、ＣＰＵ１０１Ａまたはプロセッサ間通信装置１０２Ａから提供される。また、キャッシュ制御ユニット３は、下位６（ｋ）ビット１２のデータも受け付ける。

　また、キャッシュ制御ユニット３は、アクセスがＣＰＵ１０１Ａからの書き込みである場合、ＣＰＵ１０１Ａから書き込みデータ（例えば、通信用データ）も受け付ける。

　また、キャッシュ制御ユニット３は、アクセスがプロセッサ間通信装置１０２Ａ２からの書き込みである場合、プロセッサ間通信装置１０２Ａ２から書き込みデータまたは書き込み用データも受け付ける。なお、以下では、書き込み用データを書き込みデータとして記載する。

　以下では、この時点からのキャッシュ制御ユニット３の動作について説明する。

　キャッシュ制御ユニット３は、まず、アクセス元とアクセス内容を示すアクセス情報１１に基づいて、今後行う処理を決定する（ステップ４２０）。

　まず、アクセス情報１１が、ＣＰＵ１０１Ａからのアクセスを示す場合（ステップ４２１）、キャッシュ制御ユニット３は、ステップ４０１を実行する。一方、アクセス情報１１が、プロセッサ間通信装置１０２Ａからのアクセスを示す場合（ステップ４２２）、キャッシュ制御ユニット３は、ステップ４２３を実行する。なお、ステップ４２３については、後で、図２２を使って説明する。

　ステップ４０１では、キャッシュ制御ユニット３は、アクセス情報１１に基づいて、ＣＰＵ１０１Ａからのアクセスが、書き込みか読み出しかを判断する。

　ＣＰＵ１０１Ａからのアクセスが書き込みである場合（ステップ４０２）、キャッシュ制御ユニット３は、ステップ４０３を実行する。

　ステップ４０３では、キャッシュ制御ユニット３は、比較器２の比較結果１０に基づいて、アクセスされたブロックを格納しているエントリが、すでに共有キャッシュメモリ１０３Ａ（アドレスアレイ１０３Ａｂとデータアレイ１０３Ａａ）にあるかどうかを判断する。

　比較結果１０が一致を示す場合、キャッシュ制御ユニット３は、アクセスされたブロックは共有キャッシュメモリ１０３Ａにあると判断する（ステップ４０４）。

　比較結果１０が一致を示さない場合は、キャッシュ制御ユニット３は、アクセスされたブロックが共有キャッシュメモリ１０３Ａにないと判断する（ステップ４０５）。

　アクセスされたブロックが共有キャッシュメモリ１０３Ａにあった場合（ステップ４０４）、キャッシュ制御ユニット３は、下位６（ｋ）ビット１２のデータに基づいて、そのブロックのデータ内のワードを特定し、そのワードに対して、書き込みデータを書き込み（ステップ４０６）、データが書き込まれたワードに対応するW(i)５ａの値を１にする（ステップ４０７）。

　アクセスされたブロックが共有キャッシュメモリ１０３Ａにない場合（ステップ４０５）、キャッシュ制御ユニット３は、新しいブロックを、書込み用ブロックとして、データアレイ１０３Ａａに割り当てる処理を行う（ステップ４０８）。

　新しいブロックを割り当てる処理（ステップ４０８）については、後に、図２３を使って詳しく述べる。

　ステップ４０８の後、キャッシュ制御ユニット３は、アドレスアレイ１０３Ａｂ内の複数のエントリの中から、新しく割り当てたブロックに対応するエントリを特定し、その特定されたエントリの上位４８（ｍ）ビット４に、アドレスレジスタ１の上位４８（ｍ）ビット９のデータを書き込み、同じく、その特定されたエントリのビット列５をゼロクリア（BV＝0、W(1～8)＝0）して、初期化する（ステップ４０９）。

　ステップ４０９の後、キャッシュ制御ユニット３は、下位６（ｋ）ビット１２のデータに基づいて、新しく割り当てたブロック内のワードを特定し、そのワードに対して、書き込みデータを書き込み（ステップ４０６）、データが書き込まれたワードに対応するW(i)　５ａの値を１にする（ステップ４０７）。

　ＣＰＵ１０１Ａからのアクセスが読み出しである場合（ステップ４１０）、キャッシュ制御ユニット３は、ステップ４１１を実行する。

　ステップ４１１では、キャッシュ制御ユニット３は、比較器２の比較結果１０に基づいて、アクセスされたブロックを格納しているエントリが、すでに共有キャッシュメモリ１０３Ａ（アドレスアレイ１０３Ａｂとデータアレイ１０３Ａａ）にあるかどうかを判断する。

　比較結果１０が一致を示す場合、キャッシュ制御ユニット３は、アクセスされたブロックは共有キャッシュメモリ１０３Ａにあると判断する（ステップ４１２）。

　一方、比較結果１０が一致を示さない場合、キャッシュ制御ユニット３は、アクセスされたブロックが共有キャッシュメモリ１０３Ａにないと判断する（ステップ４１３）。

　アクセスされたブロックが共有キャッシュメモリ１０３Ａにあり（ステップ４１２）、かつ、アクセスされたワードに対応するW(i)の値が１またはアクセスされたブロックのＢＶ５ｂが１の場合（ステップ４２４）、キャッシュ制御ユニット３は、データアレイ１０３Ａａ内のブロックデータの中から、アクセスされたブロックデータ６を特定し、その特定されたブロックデータ６内のワードのうち、下位６（ｋ）ビット１２で特定されるワードから、データを読み出す（ステップ４１４）。

　アクセスされたブロックが共有キャッシュメモリ１０３Ａにない場合（ステップ４１３）、キャッシュ制御ユニット３は、新しいブロックを割り当てる処理を行う（ステップ４１８）。

　新しいブロックを割り当てる処理（ステップ４１８）については、後に図２３を使って詳しく述べる。

　続いて、キャッシュ制御ユニット３は、アドレスアレイ１０３Ａｂ内の複数のエントリの中から、新しく割り当てたブロックに対応するエントリを特定し、その特定されたエントリの上位４８（ｍ）ビット４に、アドレスレジスタ１の上位４８（ｍ）ビット９のデータを書き込み、同じく、その特定されたエントリのビット列５をゼロクリア（BV＝0、W(1～8)＝0）して、初期化する（ステップ４１９）。

　続いて、キャッシュ制御ユニット３は、メモリ１０４から、そのブロックのデータを読み出し、そのブロックに対応するデータアレイ１０３Ａａのエントリのブロックデータ６中のW(i)＝0のワードだけに、読み出したデータを書き込む（ステップ４１６）。この場合、ステップ４１９でビット列５をゼロクリアしているので、ブロックデータ６全体が書かれる。

　続いて、キャッシュ制御ユニット３は、そのブロックに対応する、アドレスアレイ１０３Ａｂのエントリ内のＢＶ５ｂを１にする（ステップ４１７）。

　続いて、キャッシュ制御ユニット３は、データアレイ１０３Ａａから、アクセスされたワードを読み出す（ステップ４１４）。

　一方、アクセスされたブロックが共有キャッシュメモリ１０３Ａにあり（ステップ４１２）、かつ、アクセスされたワードに対応するW(i)の値が０でかつアクセスされたブロックのＢＶ５ｂが０の場合（ステップ４１５）、キャッシュ制御ユニット３は、ステップ４１６、４１７および４１４を実行する。

　次に、図２２を使って、アクセス情報１１が、プロセッサ間通信装置１０２Ａからのアクセスを示す場合の処理（図２１のステップ４２３）を説明する。

　まず、キャッシュ制御ユニット３は、アクセス情報１１に基づいて、プロセッサ間通信装置１０２Ａからのアクセスが、read命令か、write1命令か、write2命令かを判断する（ステップ５０１）。

　プロセッサ間通信装置１０２ＡからのアクセスがWrite2命令である場合（ステップ５０２）、キャッシュ制御ユニット３は、ステップ５０３を実行する。

　ステップ５０３では、キャッシュ制御ユニット３は、比較器２の比較結果１０に基づいて、アクセスされたブロックを格納しているエントリが、すでに共有キャッシュメモリ１０３Ａ（アドレスアレイ１０３Ａｂとデータアレイ１０３Ａａ）にあるかどうかを判断する。

　比較結果１０が一致を示す場合、キャッシュ制御ユニット３は、アクセスされたブロックは共有キャッシュメモリ１０３Ａにあると判断する（ステップ５０４）。

　比較結果１０が一致を示さない場合は、キャッシュ制御ユニット３は、アクセスされたブロックが共有キャッシュメモリ１０３Ａにないと判断する（ステップ５０５）。

　アクセスされたブロックが共有キャッシュメモリ１０３Ａにあった場合（ステップ５０４）、キャッシュ制御ユニット３は、下位６（ｋ）ビット１２のデータに基づいて、そのブロックのデータ内のワードを特定し、そのワードに対して、書き込みデータを書き込み（ステップ５０６）、データが書き込まれたワードに対応するW(i)５ａの値を１にする（ステップ５０７）。

　アクセスされたブロックが共有キャッシュメモリ１０３Ａにない場合（ステップ５０５）、キャッシュ制御ユニット３は、新しいブロックを、書き込み用ブロックとして、データアレイ１０３Ａａに割り当てる処理を行う（ステップ５０８）。

　新しいブロックを割り当てる処理（ステップ５０８）については、後に、図２３を使って詳しく述べる。

　ステップ５０８の後、キャッシュ制御ユニット３は、アドレスアレイ１０３Ａｂ内の複数のエントリの中から、新しく割り当てたブロックに対応するエントリを特定し、その特定されたエントリの上位４８（ｍ）ビット４に、アドレスレジスタ１の上位４８（ｍ）ビット９のデータを書き込み、同じく、その特定されたエントリのビット列５をゼロクリア（BV＝0、W(1～8)＝0）して、初期化する（ステップ５０９）。

　ステップ５０９の後、キャッシュ制御ユニット３は、下位６（ｋ）ビット１２のデータに基づいて、新しく割り当てたブロック内のワードを特定し、そのワードに対して、書き込みデータを書き込み（ステップ５０６）、データが書き込まれたワードに対応するW(i)　５ａの値を１にする（ステップ５０７）。

　次に、プロセッサ間通信装置１０２ＡからのアクセスがWrite1命令である場合（ステップ５２２）、キャッシュ制御ユニット３は、ステップ５２３を実行する。

　ステップ５２３では、キャッシュ制御ユニット３は、比較器２の比較結果１０に基づいて、アクセスされたブロックを格納しているエントリが、すでに共有キャッシュメモリ１０３Ａ（アドレスアレイ１０３Ａｂとデータアレイ１０３Ａａ）にあるかどうかを判断する。

　比較結果１０が一致を示す場合、キャッシュ制御ユニット３は、アクセスされたブロックは共有キャッシュメモリ１０３Ａにあると判断する（ステップ５２４）。

　一方、比較結果１０が一致を示さない場合は、キャッシュ制御ユニット３は、アクセスされたブロックが共有キャッシュメモリ１０３Ａにないと判断する（ステップ５２５）。

　アクセスされたブロックが共有キャッシュメモリ１０３Ａにある場合（ステップ５２４）、キャッシュ制御ユニット３は、下位６（ｋ）ビット１２のデータに基づいて、新しく割り当てたブロック内のワードを特定し、そのワードに対して、書き込みデータを書き込み（ステップ５０６）、データが書き込まれたワードに対応するW(i)　５ａの値を１にする（ステップ５０７）。

　アクセスされたブロックが共有キャッシュメモリ１０３Ａにない場合（ステップ５２５）、キャッシュ制御ユニット３は、直接、メモリ１０４に、データを書き込む（ステップ５２６）。

　次に、プロセッサ間通信装置１０２Ａからのアクセスがreadの場合（ステップ５１０）、キャッシュ制御ユニット３は、ステップ５１１を実行する。

　ステップ５１１では、キャッシュ制御ユニット３は、比較器２の比較結果１０に基づいて、アクセスされたブロックを格納しているエントリが、すでに共有キャッシュメモリ１０３Ａにあるかどうかを判断する。

　比較結果１０が一致を示す場合、キャッシュ制御ユニット３は、アクセスされたブロックは共有キャッシュメモリ１０３Ａにあると判断する（ステップ５１２）。

　一方、比較結果１０が一致を示さない場合、キャッシュ制御ユニット３は、アクセスされたブロックが共有キャッシュメモリ１０３Ａにないと判断する（ステップ５１３）。

　アクセスされたブロックが共有キャッシュメモリ１０３Ａにあり（ステップ５１２）、かつ、アクセスされたワードに対応するW(i)の値が１またはアクセスされたブロックのＢＶ５ｂが１の場合（ステップ５１９）、キャッシュ制御ユニット３は、データアレイ１０３Ａａ内のブロックデータの中から、アクセスされたブロックデータ６を特定し、その特定されたブロックデータ６内のワードのうち、下位６（ｋ）ビット１２で特定されるワードから、データを読み出す（ステップ５２０）。

　一方、アクセスされたブロックが共有キャッシュメモリ１０３Ａにあり（ステップ５１２）、かつ、アクセスされたワードに対応するW(i)の値が０でかつアクセスされたブロックのＢＶ５ｂが０の場合（ステップ５１５）、キャッシュ制御ユニット３は、メモリ１０４から、そのブロックを読み出し、そのブロックに対応するデータアレイ１０３Ａａのエントリのブロックデータ６中のW(i)＝0のワードだけに、読み出したデータを書き込む（ステップ５１６）。

　続いて、キャッシュ制御ユニット３は、そのブロックに対応する、アドレスアレイ１０３Ａｂのエントリ内のＢＶ５ｂを１にする（ステップ５１７）。

　続いて、キャッシュ制御ユニット３は、データアレイ１０３Ａａから、アクセスされたワードを読み出す（ステップ５１８）。

　アクセスされたブロックが共有キャッシュメモリ１０３Ａにない場合（ステップ５１３）、キャッシュ制御ユニット３は、メモリ１０４から、直接、データを読み出し、そのデータを、プロセッサ間通信装置１０２Ａに提供する（ステップ５２１）。このとき、キャッシュ制御ユニット３は、データアレイ１０３Ａａおよびアドレスアレイ１０３Ａｂに、新しいブロックの割り当てを行わない。　
　次に、図２３を使って、図２１に示したステップ４０８および４１８、図２２に示したステップ５０８について説明する。

　まず、キャッシュ制御ユニット３は、新しいエントリを割り当てるために、データが置き換えられるエントリを選択する（ステップ１６０１）。

　本実施形態では、ダイレクトマップ方式のキャッシュメモリが用いられている。このため、新しいブロックを割り当てるためにデータが置き換えられるエントリは、アクセスされたアドレスから一意に決まる。

　もしも、セットアソシアティブ方式のキャッシュメモリが用いられた場合には、アドレスから決定される置き換え対象になるエントリは複数あり、その中のどれを置き換えるかはアクセス履歴等により決定することが可能である。

　次に、キャッシュ制御ユニット３は、データが置き換えられるエントリのブロックに、ＣＰＵ１０１Ａまたはプロセッサ間通信装置１０２Ａからデータが書き込まれているかどうかを判断する。

　もし、選択されたエントリのすべてのワードのW(i)５ａが０ならば（ステップ１６０２）、そのブロックには、ＣＰＵ１０１Ａからもプロセッサ間通信装置１０２Ａからもデータが書き込まれていなかったことになる。この場合、キャッシュ制御ユニット３は、ライトバックすることなく、そのまま、そのエントリを使うことができる。

　もし、選択されたエントリのすべてのワードのW(i)５ａが１、または、ＢＶ５ｂ＝１の場合（ステップ１６０３）には、そのブロック全体が書き換えられた、または、ブロック全体が有効であることになる。この場合、キャッシュ制御ユニット３は、そのブロックのデータをメモリ１０４にライトバックする（ステップ１６０４）。　
　もし、選択されたエントリの一部のワードのW(i)５ａが１で、かつ、ＢＶ５ｂ＝０の場合（ステップ１６０５）には、Ｗ(i)５ａが１のワードだけが書き換えられたことになる。この場合、キャッシュ制御ユニット３は、W(i)５ａが１のワードのデータだけを、メモリ１０４にライトバックする（ステップ１６０６）。なお、キャッシュ制御ユニット３は、W(i)５ａが０のワードのデータを、メモリ１０４に書き込まない。

　図２４Ａ～２４Ｇは、共有キャッシュメモリ１０３Ａ（具体的には、キャッシュ制御ユニット３）がメモリ１０４に送るコマンドと、そのコマンドに対するメモリ１０４から共有キャッシュメモリ１０３Ａ（具体的には、キャッシュ制御ユニット３）へのリプライを説明するための説明図である。

　図２４Ａと２４Ｂは、ブロック全体をメモリ１０４から読み出すコマンドとそのリプライの一例を示した説明図である。

　本実施形態では、アドレスは６４ビットで、ブロックの大きさは６４バイトなので、メモリ１０４は、そのコマンドのブロックアドレス１７０１（５８ビット）で指定されるブロックを読み出して、図２４Ｂで示すデータリプライの形式で、ブロックデータ１７０２（６４バイト）を、キャッシュ制御ユニット３に送る。

　図２４Ｃは、共有キャッシュメモリ１０３Ａ（具体的には、キャッシュ制御ユニット３）が、ブロック全体をメモリ１０４に書き込むコマンドの一例を示した説明図である。

　このコマンドは、ブロックアドレス１７０３（５８ビット）と、ブロックデータ１７０４（６４バイト）から構成される。

　図２４Ｄは、ブロックデータ１７０４内のワードうち、W(i)５ａが１のワードのデータだけを、共有キャッシュメモリ１０３Ａからメモリ１０４に書き込むためのコマンドの一例である。

　このコマンドは、ブロックアドレス１７０５（５８ビット）と、W(1～8)１７０６（８ビット）と、W(i)５ａが１のワード（８バイト～５４バイト）のデータからなる部分ブロックデータ１７０７と、を含む。

　このコマンドは、W(i)５ａが１であるワードの個数に応じて長さが変わる。

　図２４Ｅは、１ワードをメモリ１０４から読み出すためのコマンドの一例である。このコマンドは、１ワードを指定するためのメモリアドレス１７０８を含む。

　図２４Ｆは、１ワードをメモリ１０４から読み出したときのデータリプライの一例を示した図である。このデータリプライは、メモリ１０４から読み出した１ワードのデータ１７０９が付加されている。

　図２４Ｇは、１ワードのデータ１７１１をメモリ１０４のメモリアドレス１７１０に書き込むためのコマンドである。

　次に、図２５～３５を使って共有キャッシュメモリ１０３Ａ上のあるブロックを例にして、本実施形態でのビット列とメモリアクセスなどの動作について説明する。なお、図２５～３５において、図１８に示したものと同一構成のものには同一符号を付してある。

　図２５は、ＣＰＵ１０１Ａまたはプロセッサ間通信装置１０２Ａから１ワードの書き込みがあったとき、キャッシュミスした場合の動作を説明するための説明図である。ここで、プロセッサ間通信装置１０２ＡからはWrite2命令による書き込みがあった場合とする。

　１ワードの書き込みにキャッシュミスが生ずると、キャッシュ制御ユニット３は、そのワードを含むブロックを、新しく共有キャッシュメモリ１０３Ａ（データアレイ１０３Ａａおよびアドレスアレイ１０３Ａｂ）に割り付け（BV＝0、W＝00000000）、書き込みデータ１８０１を、書き込み時のアドレスに応じて、データアレイ１０３Ａａのブロックデータ１８０２の４ワード目に書き込み、ブロックデータ１８０２に対応するビット列１８０３で示される複数のワードのうち、書き込まれたワードに対応するW(4)を、１に設定する（BV＝0、W＝00010000）。

　新たなブロックの割り付けに伴うブロックの置き換えによりメモリアクセスが発生するかもしれないが、書き込み自体によるメモリ１０４へのアクセスは発生しない。　
　図３４は、プロセッサ間通信装置１０２ＡからWrite1命令で１ワードの書き込みがあったとき、キャッシュミスした場合の動作を説明するための説明図である。

　この場合、そのワードを含むブロックは、共有キャッシュメモリ１０３Ａにはないので、キャッシュミスが生じる。

　このため、キャッシュ制御ユニット３は、図２４Ｇに示したコマンドを使って、書き込みデータ２７０１を、メモリ１０４に直接書き込む。このとき、キャッシュ制御ユニット３は、共有キャッシュメモリ１０３Ａ（データアレイ１０３Ａａおよびアドレスアレイ１０３Ａｂ）に、新しいブロックを割り付けない。

　図２６は、図２５と同じブロックの２ワード目に、ＣＰＵ１０１Ａまたはプロセッサ間通信装置１０２Ａから１ワードの書き込みがあり、キャッシュヒットした場合の動作を説明するための説明図である。ここで、プロセッサ間通信装置１０２Ａからの書き込みはWrite1命令またはWrite2命令による。

　１ワードの書き込みがキャッシュヒットし、キャッシュ制御ユニット３は、書き込みデータ１９０１を、データアレイ１０３Ａａのブロックデータ１９０２の２ワード目に書き込み、ビット列１９０３のW(2)を１にする（BV＝0、W＝01010000）。書き込みによるメモリ１０４へのアクセスは発生しない。　
　図２７は、ＣＰＵ１０１Ａまたはプロセッサ間通信装置１０２Ａが、図２６と同じブロックの４ワード目を読み出し、キャッシュヒットした場合の動作を説明するための説明図である。

　１ワードの読み出しがキャッシュヒットし、キャッシュ制御ユニット３は、データアレイ１０３Ａａのブロックデータ２００１の４ワード目からデータを読み出し、読み出しデータ２００２として、ＣＰＵ１０１Ａまたはプロセッサ間通信装置１０２Ａに返す。

　この場合、キャッシュ制御ユニット３は、ビット列２００３を更新しない（BV＝0、W＝01010000）。

　ただし、キャッシュメモリがセットアソシアティブ方式の場合は、置き換えのためのアクセス履歴の部分が更新される可能性がある。また、読み出しに伴うメモリ１０４へのアクセスは発生しない。

　図２８は、ＣＰＵ１０１Ａまたはプロセッサ間通信装置１０２Ａが、図２７と同じブロックの６ワード目を読み出し、キャッシュミスが発生した場合の動作を示している。なお、読み出すワードに対応するブロックは、すでに、共有キャッシュメモリ１０３Ａ上に存在するものとする。

　そのブロックのビット列２１０１では、W(6)＝０でかつＢＶ＝０なので、１ワードの読み出しがキャッシュミスして、キャッシュ制御ユニット３は、図２４Ａに示したコマンドを使って、メモリ１０４から、そのブロックを読み出す。

　そして、メモリ１０４から読み出されたブロックのデータ２１０２が、図２４Ｂのデータリプライの形式で共有キャッシュメモリ１０３Ａ（キャッシュ制御ユニット３）に返されると、キャッシュ制御ユニット３は、読み出したブロックのデータ２１０２のうち、W(i)＝０のワードのデータだけ（１番目、３番目、５～８番目のワードのデータ）を、ブロック２１０３に書き込み、ビット列２１０４のＢＶ５ｂを１にする（BV＝1、W＝01010000）。

　そして、キャッシュ制御ユニット３は、６番目のワードのデータを、読み出しデータ２１０５として、ＣＰＵ１０１Ａまたはプロセッサ間通信装置１０２Ａに返す。

　図２９は、ＣＰＵ１０１Ａまたはプロセッサ間通信装置１０２Ａが、図２８と同じブロックの１ワード目を読み出し、キャッシュヒットした場合の動作を示している。

　ビット列２２０１のＢＶ５ｂが１なので、１ワードの読み出しがキャッシュヒットして、キャッシュ制御ユニット３は、ブロックデータ２２０２の１ワード目を、読み出しデータ２２０３として、ＣＰＵ１０１Ａまたはプロセッサ間通信装置１０２Ａに返す。

　この場合、キャッシュ制御ユニット３は、ビット列２２０１を更新しない（BV＝1、W＝01010000）。

　ただし、共有キャッシュメモリ１０３Ａがセットアソシアティブ方式の場合は、置き換えのためのアクセス履歴の部分が更新される可能性がある。また、読み出しによるメモリ１０４へのアクセスは発生しない。

　図３０は、図２９と同じブロックのエントリが置き換えの対象になった場合の動作を示している。

　２ワード目と４ワード目がＣＰＵ１０１Ａまたはプロセッサ間通信装置１０２Ａから書き込まれていて、ビット列２３０１のW(2)とW(4)が１になっているが（W＝01010000)、ＢＶ５ｂが１なので、キャッシュ制御ユニット３は、図２４Ｃに示したコマンドを使って、ブロックデータ２３０２全体をメモリ１０４に書き込む。そして、キャッシュ制御ユニット３は、ビット列２３０１を初期化する(BV＝0、W＝00000000)。

　図３１は、ＣＰＵ１０１Ａが、あるワードを読み出してキャッシュミスした場合の動作を示している。

　読み出されるワードのブロックは、共有キャッシュメモリ１０３Ａ上にないため、キャッシュ制御ユニット３は、新しいブロックを割り当て、ビット列２４０１を初期化する（BV＝0、W＝00000000）。

　続いて、キャッシュ制御ユニット３は、ロードされるワードのブロックを、図２４Ａに示したコマンドを使って、メモリ１０４から読み出す。

　メモリ１０４から読み出されたブロック２４０２は、図２４Ｂのデータリプライの形式で、共有キャッシュメモリ１０３Ａ（具体的には、キャッシュ制御ユニット３）に返され、キャッシュ制御ユニット３によって、ブロックデータ２４０３に書き込まれる。

　続いて、キャッシュ制御ユニット３は、ビット列２４０４のＢＶを１にする（BV＝1、W＝00000000)　。そして、キャッシュ制御ユニット３は、読み出しデータ２４０５を、ＣＰＵ１０１Ａに返す。

　図３５は、プロセッサ間通信装置１０２Ａが、あるワードを読み出してキャッシュミスした場合の動作を示している。なお、読み出されるワードのブロックは、共有キャッシュメモリ１０３Ａ上にない場合である。

　この場合、キャッシュ制御ユニット３は、図２４Ｅのコマンドを使って、読み出されるワードを、メモリ１０４から読み出す。メモリ１０４から読み出されたデータ２８０１は、図２４Ｆのデータリプライの形式で、キャッシュ制御ユニット３に送信され、キャッシュ制御ユニット３にて、プロセッサ間通信装置１０２Ａに返される。

　プロセッサ間通信装置１０２Ａからのread命令なので、キャッシュ制御ユニット３は、共有キャッシュメモリ１０３Ａに、新しいブロックを割り当てない。

　図３２は、図３１と同じブロックのエントリが置き換えの対象になった場合の動作を示している。

　このブロックのビット列２５０１のW(i)がすべて０なので（W=00000000）、キャッシュ制御ユニット３は、ＢＶを０にするだけである（BV＝0、W＝00000000）。エントリの置き換えによる、メモリ１０４へのアクセスは発生しない。　
　図３３は、あるブロックのエントリが置き換えの対象になった場合の動作を示している。

　２ワード目と４ワード目が、ＣＰＵ１０１Ａまたはプロセッサ間通信装置１０２Ａから書き込まれていて、ビット列２６０１のW(2)と　W(4)が１になっていて　（W=01010000）、ＢＶ５ｂが０なので、キャッシュ制御ユニット３は、２ワード目と４ワード目のデータ２６０２および２６０３だけを、図２４Ｄに示したコマンドを使って、メモリ１０４に書き込む。

　続いて、キャッシュ制御ユニット３は、ビット列２６０１を初期化する（BV＝0、W＝00000000)　。

　次に、第２の実施の形態での送信処理について図３６を使って説明する。なお、図３６において、図１８に示したものと同一構成のものには同一符号を付してある。

　まず、ＣＰＵ１０１Ａが送信データ２９ａを作成する（ステップ２９０１）。

　ここでは、図４の場合とは異なり、送信データ２９ａのすべてが、共有キャッシュメモリ１０３Ａ上にキャッシュされていないとして説明を行う。しかしながら、送信データ２９ａのサイズや作成される時刻によっては、送信データ２９ａの一部が、共有キャッシュメモリ１０３Ａ上にあり、送信データ２９ａのその他の部分が、メモリ１０４に存在することもありうる。

　次に、ＣＰＵ１０１Ａからのstore命令を受けて、制御部１０３Ａｃは、コマンドキュー１０４ａに、コマンド２９ｂを書き込む。

　ここでは、コマンド２９ｂを書き込むアドレスは、共有キャッシュメモリ１０３Ａ上にない（書き込み時にキャッシュミスする）として説明する。

　そのため、まず、キャッシュ制御ユニット３は、コマンド２９ｂを書き込むアドレスを含むブロック（該当ブロック）を、共有キャッシュメモリ１０３Ａ上に割り当て、そのブロックに、コマンド２９ｂを書き込む（ステップ２９０２）。

　コマンド２９ｂは、通信の宛先や送信データ２９ａへのポインタなどを示す。

　次に、ＣＰＵ１０１Ａが、プロセッサ間通信装置１０２Ａに、コマンド２９ｂの位置を示す送信要求を送る（ステップ２９０３）。

　プロセッサ間通信装置１０２Ａは、送信要求を受け付けると、キャッシュ制御ユニット３を用いて、その送信要求に基づいて、コマンド２９ｂを読み出す。

　コマンド２９ｂは、共有キャッシュメモリ１０３Ａ上にキャッシュされているので、キャッシュ制御ユニット３は、データアレイ１０３Ａａから、コマンド２９ｂを読み出す（ステップ２９０４）。

　次に、プロセッサ間通信装置１０２Ａは、コマンド２９ｂ内の送信データ２９ａへのポインタを使って、キャッシュ制御ユニット３を用いて、送信データ２９ａを読み出す。

　ここでは、送信データ２９ａのすべてが、共有キャッシュメモリ１０３Ａ上に存在しないとしているので、キャッシュミスが発生し、キャッシュ制御ユニット３は、メモリ１０４から、送信データ２９ａを読み出す（ステップ２９０５）。このとき、キャッシュ制御ユニット３は、送信データ２９ａ（具体的には、送信データ２９ａが書き込まれたアドレスを含むブロック）を、共有キャッシュメモリ１０３Ａ（具体的には、データアレイ１０３Ａａおよびアドレスアレイ１０３Ａｂ）に書き込まない。

　そして、プロセッサ間通信装置１０２Ａは、送信データ２９ａに基づいてパケットを作製して、プロセッサ間ネットワーク１０５へパケットを送信する（ステップ２９０６）。

　もしも、送信データ２９ａが共有キャッシュメモリ１０３Ａ上に存在するなら、メモリ１０４からの読み出しが無くなるので、その分、読み出しレイテンシが短くなる。

　図３７は、図３６に示した送信処理を説明するためのタイムチャートである。なお、図３７において、図１８に示したものと同一構成のものには同一符号を付してある。

　ここでは、キャッシュ制御ユニット３が、ＣＰＵ１０１Ａからのコマンド２９ｂを、コマンドキュー１０４ａに書き込む時に、共有キャッシュメモリ１０３Ａで、キャッシュミスが発生する場合を記述している。

　ＣＰＵ１０１Ａからのコマンド２９ｂの書き込みでキャッシュミスが起こると、キャッシュ制御ユニット３は、コマンド２９ｂを書き込むアドレスを含むブロックを、共有キャッシュメモリ１０３Ａ（データアレイ１０３Ａａおよびアドレスアレイ１０３Ａｂ）に割り当て、共有キャッシュメモリ１０３Ａ（データアレイ１０３Ａａ）にコマンド２９ｂを書き込む（ステップ３００１）。

　プロセッサ間通信装置１０２Ａは、ＣＰＵ１０１Ａからの送信要求を受け付けると（ステップ３００２）、キャッシュ制御ユニット３を用いて、共有キャッシュメモリ１０３Ａ（データアレイ１０３Ａａ）からコマンド２９ｂを読み出す（ステップ３００３）。

　そして、プロセッサ間通信装置１０２Ａは、キャッシュ制御ユニット３を用いて、メモリ１０４から、送信データ２９ａを読み出す（ステップ３００４）。

　図３７に示すように、プロセッサ間通信装置１０２Ａが、送信データ２９ａを読み出すときは、複数の読み出しリクエストを先行発行することで、読み出しレイテンシを隠蔽することが可能である。

　本実施の形態によれば、制御部１０３Ａｃは、ＣＰＵ１０１Ａから、データ書き込み命令と、アドレスと、通信用データと、を受け付けた状況で以下のように動作する。

　そのアドレスがアドレスアレイ７に格納されている場合には、制御部１０３Ａｃは、そのアドレスに対応するデータアレイ１０３Ａａ内のワードにデータを書き込む。

　一方、そのアドレスがアドレスアレイ１０３Ａｂに格納されていない場合には、制御部１０３Ａｃは、そのアドレスを含むブロックのデータを、メモリ１０４から読み出すことなく、データアレイ１０３Ａａのワードに、そのアドレスを含むブロックに対応づけ、そのアドレスを含むブロックのアドレスをアドレスアレイ１０３Ａｂに格納し、そのアドレスを含むブロックに対応づけられたワードのうち、そのアドレスに対応するワードに通信用データを書き込む。

　ワード状態記憶部５ａは、そのアドレスを含むブロックに対応づけられたワードのうち、通信用データが書き込まれたワードを示すワード情報を記憶する。

　このため、図５、１４と見比べると、例えば、ＣＰＵ１０１Ａとプロセッサ間通信装置１０２Ａ間のコマンドの受け渡しの時間がさらに短縮された（期間Ｔ３００５）ことがわかり、通信時間（この場合、送信時間）の短縮化という効果が明らかである。

　次に、第２の実施の形態での受信処理について、図３８を使って説明する。なお、図３８において、図１８に示したものと同一構成のものには同一符号を付してある。

　まず、プロセッサ間通信装置１０２Ａが、プロセッサ間ネットワーク１０５から、パケットを受信する（ステップ３１０１）。

　そして、プロセッサ間通信装置１０２Ａは、パケットの中の受信データ３１ａを、キャッシュ制御ユニット３を用いて、メモリ１０４上に書き込む。

　ここでは、受信データ３１ａを書き込むアドレスを含むすべてのブロックが、共有キャッシュメモリ１０３Ａにキャッシュされていないとして説明する。

　この場合、プロセッサ間通信装置１０２Ａは、Write1命令を使ってキャッシュ制御ユニット３を制御して、直接、メモリ１０４に、受信データ３１ａを書き込む（ステップ３１０２）。

　プロセッサ間通信装置１０２Ａは、キャッシュ制御ユニット３が受信データ３１ａのすべてをメモリ１０４に書き込んだ後、Write2命令を使ってキャッシュ制御ユニット３を制御して、受信完了フラグ３１ｂを、共有キャッシュメモリ１０３Ａに書き込む。

　ここで、受信完了フラグ３１ｂは、ＣＰＵ１０１Ａによってポーリングされているので、共有キャッシュメモリ１０３Ａ上に存在すると考えられる。しかしながら、もしも、まだ、ＣＰＵ１０１Ａが受信完了フラグ３１ｂをポーリングしていなくても、Write2命令での書き込みなので、キャッシュ制御ユニット３は、共有キャッシュメモリ１０３Ａ上に、受信完了フラグ３１ｂのアドレスを含むブロックを割り当て、共有キャッシュメモリ１０３Ａ上のブロックに、受信完了フラグ３１ｂを書き込む（ステップ３１０３）。

　ＣＰＵ１０１Ａは、プロセッサ間通信装置１０２Ａにより書き換えられた受信完了フラグ３１ｂを、キャッシュ制御ユニット３を用いて、共有キャッシュメモリ１０３Ａから読み出す（ステップ３１０４）。

　そして、ＣＰＵ１０１Ａは、受信完了フラグ３１ｂを参照することによって、受信データ３１ａが書き込まれたことを知り、キャッシュ制御ユニット３を用いて、受信データ３１ａを読み出す。

　受信データ３１ａは、メモリ１０４にあるので、ＣＰＵ１０１Ａからの共有キャッシュメモリ１０３Ａへの読み出しでキャッシュミスが発生する。このため、キャッシュ制御ユニット３は、受信データ３１ａのアドレスを含むブロックを、メモリ１０４から読み出し、共有キャッシュメモリ１０３Ａ（データアレイ１０３Ａａ）に書き込み（ステップ３１０５）、共有キャッシュメモリ１０３Ａ（データアレイ１０３Ａａ）から、受信データ３１ａを読み出す（ステップ３１０６）。

　ここで、受信データ３１ａのアドレスを含むブロックが、共有キャッシュメモリ１０３Ａ上にある場合は、プロセッサ間通信装置１０２Ａからの受信データ３１ａの書き込みと、ＣＰＵ１０１Ａからの受信データ３１ａの読み出しのレイテンシが短縮される。

　図３９は、図３８に示した受信処理を説明するためのタイムチャートである。なお、図３９において、図１８に示したものと同一構成のものには同一符号を付してある。

　受信データのアドレスを含むすべてのブロックが、共有キャッシュメモリ１０３Ａ上にないので、キャッシュ制御ユニット３は、受信データをメモリ１０４に書き込む（ステップ３２０１）。

　次に、プロセッサ間通信装置１０２Ａは、キャッシュ制御ユニット３を用いて、受信完了フラグを書き込む。

　ここでは、まだ、ＣＰＵ１０１Ａが、受信完了フラグをポーリングしていない場合を示している。

　受信完了フラグのアドレスを含むブロックは、共有キャッシュメモリ１０３Ａ上にないが、Write2命令による書き込みなので、キャッシュ制御ユニット３は、受信完了フラグのアドレスを含むブロックを、共有キャッシュメモリ１０３Ａ（データアレイ１０３Ａａおよびアドレスアレイ１０３Ａｂ）に割り当てて、そのブロックに受信完了フラグを書き込む（ステップ３２０２）。

　その後、ＣＰＵ１０１Ａが、キャッシュ制御ユニット３を用いて、受信完了フラグを、共有キャッシュメモリ１０３Ａから読み出す（ステップ３２０３）。

　そして、ＣＰＵ１０１Ａは、受信完了フラグを参照することによって、受信データがメモリ１０４に書き込まれたことを確認して、受信データを読み出す。

　受信データは、メモリ１０４に格納されているので、共有キャッシュメモリ１０３Ａで読み出しミス（キャッシュミス）が起こり、キャッシュ制御ユニット３は、受信データのアドレスを含むブロックを、メモリ１０４から読み出し、共有キャッシュメモリ１０３Ａに書き込む（ステップ３２０４）。

　そして、ＣＰＵ１０１Ａは、キャッシュ制御ユニット３を用いて、共有キャッシュメモリ１０３Ａから、受信データを読み出す（ステップ３２０５）。

　図３９に示すように、プロセッサ間通信装置１０２Ａが、受信データをメモリ１０４に書き込むときは、複数の書き込みリクエストを先行発行することで、書き込みのレイテンシを隠蔽できる。

　同様に、ＣＰＵ１０１Ａが受信データを読み出すときも、複数の読み出しリクエストを先行発行することで、読み出しレイテンシを隠蔽することが可能である。

　本実施の形態によれば、制御部１０３Ａｃは、プロセッサ間通信装置１０２Ａから、第２書き込み命令と、アドレスと、書き込みデータと、を受け付けた状況になると、以下のように動作する。

　そのアドレスがアドレスアレイ１０３Ａｂに格納されている場合には、制御部１０３Ａｃは、そのアドレスに対応するデータアレイ１０３Ａａ内のワードに書き込みデータを書き込む。

　一方、そのアドレスがアドレスアレイ１０３Ａｂに格納されていない場合には、制御部１０３Ａｃは、そのアドレスを含むブロックのデータを、メモリ１０４から読み出すことなく、データアレイ１０３Ａａのワードを、そのアドレスを含むブロックに対応づけ、そのアドレスを含むブロックのアドレスをアドレスアレイ１０５Ａｂに格納し、そのアドレスを含むブロックに対応づけられたワードのうち、そのアドレスに対応するワードに書き込みデータを書き込む。

　ワード状態記憶部５ａは、そのアドレスを含むブロックに対応づけられたワードのうち、書き込みデータが書き込まれたワードを示すワード情報を記憶する。

　このため、例えば、ＣＰＵ１０１Ａとプロセッサ間通信装置１０２Ａ間の受信完了フラグの受け渡しの時間がさらに短縮され、情報の受け渡し時間（この場合、受信時間）の短縮化という効果が生じる。

　本実施の形態では、共有キャッシュメモリ１０３Ａは、ＣＰＵ１０１Ａとプロセッサ間通信装置１０２Ａによって共有される。

　また、制御部１０３Ａｃは、ＣＰＵ１０１Ａからの書き込み時とプロセッサ間通信装置１０２Ａからの第２の書き込み命令による書き込み時には、キャッシュミスしたときに、共有キャッシュメモリ１０３Ａ上に新たなブロックを割り当てるが、メモリ１０４からのブロックの読み出しを行わず、新たに割り当てたブロックに書き込みデータを書き込み、その書き込み位置を、アドレスアレイ１０３Ａｂに記憶する。

　また、制御部１０３Ａｃは、プロセッサ間通信装置１０２Ａからの第１の書き込み命令による書き込み時にキャッシュミスした場合は、共有キャッシュメモリ１０３Ａに新たなブロックを割り当てず、直接、メモリ１０４にデータを書き込む。

　本実施の形態では、以下の効果を奏する。

　まず、書き込み時にキャッシュミスしたブロックを、メモリ１０４から読み出さずに、共有キャッシュメモリ１０３Ａ上に割り付け、そこにデータを書き込める共有キャッシュメモリ１０３Ａを用いることにより、ＣＰＵ１０１Ａがコマンドをコマンドキューに書き込むときの書き込みミス時の時間を短縮できる。

　また、書き込みミス時にメモリ１０４からブロックを読み出さない共有キャッシュメモリを用いて、プロセッサ間通信装置１０２Ａからの受信完了フラグの書き込み時にブロックを割り当てる書き込みを用いることで、ＣＰＵ１０１Ａが受信完了フラグをポーリングする前にプロセッサ間通信装置１０２Ａが受信完了フラグを書き込んだ場合の書き込みミス時の通信時間を短縮できる。
（産業上の利用可能性）
　本実施形態によれば、単一コアの計算機のキャッシュメモリのほか、マルチコア型のＣＰＵのキャッシュメモリといった用途に適用できる。

　以上、各実施形態を参照して本願発明を説明したが、本願発明は上記各実施形態に限定されるものではない。本願発明の構成や詳細には、本願発明のスコープ内で当業者が理解し得る様々な変更をすることができる。

　この出願は、２００８年３月２８日に出願された日本出願特願２００８－８６２７６を基礎とする優先権を主張し、その開示の全てをここに取り込む。

Claims

　ＣＰＵと、前記ＣＰＵと他のＣＰＵとの通信を実行する通信装置と、複数のアドレスのいずれかに対応づけてデータを記憶する記憶装置と、に接続されるキャッシュメモリであって、
　前記ＣＰＵおよび前記通信装置からのデータを書き込み可能な複数のワードを有するデータ格納手段と、
　前記複数のアドレスのうち、前記複数のワードのそれぞれに個別に対応づけられたアドレスを格納するアドレス格納手段と、
　前記通信装置から、書き込み命令と、前記複数のアドレスのうちの任意のアドレスと、書き込み用データと、を受け付けた状況で、当該アドレスが、前記アドレス格納手段に格納されている場合には、当該アドレスに対応する前記ワードに前記書き込み用データを書き込み、また、前記通信装置から、読み出し命令と、前記任意のアドレスと、を受け付けた状況で、当該アドレスが前記アドレス格納手段に格納されている場合には、当該アドレスに対応する前記ワードからデータを読み出して当該通信装置に提供し、当該アドレスが前記アドレス格納手段に格納されていない場合には、前記記憶装置から当該アドレスに対応づけられたデータを読み出して当該通信装置に提供し、かつ当該データを前記データ格納手段に書き込まない制御手段と、を含むキャッシュメモリ。
　前記制御手段は、さらに、前記通信装置から、前記書き込み命令と、前記任意のアドレスと、前記書き込み用データと、を受け付けた状況で、当該アドレスが前記アドレス格納手段に格納されていない場合には、当該アドレスに対応づけて前記書き込み用データを前記記憶装置に書き込み、かつ前記書き込み用データを前記データ格納手段に書き込まない、請求の範囲第１項に記載のキャッシュメモリ。
　前記アドレス格納手段は、前記複数のアドレスのうち、前記複数のワードのそれぞれに個別に対応づけられたアドレスを、所定数のアドレスからなるブロック単位で格納し、
　前記制御手段は、さらに、前記通信装置から、前記書き込み命令と異なる所定書き込み命令と、前記任意のアドレスと、書き込みデータと、を受け付けた状況で、前記所定書き込み命令と共に受け付けられたアドレスが、前記アドレス格納手段に格納されている場合には、当該アドレスに対応する前記ワードに前記書き込みデータを書き込み、当該アドレスが前記アドレス格納手段に格納されていない場合には、当該アドレスを含むブロックに対応づけられたデータを前記記憶装置から読み出すことなく、前記複数のワードのうちの前記所定数のワードを、当該アドレスを含むブロックに対応づけ、当該アドレスを含むブロックを前記アドレス格納手段に格納し、当該アドレスを含むブロックに対応づけられた所定数のワードのうち、当該アドレスに対応するワードに前記書き込みデータを書き込み、
　前記アドレスを含むブロックに対応づけられたワードのうち、前記書き込みデータが書き込まれたワードを示すワード情報を記憶するワード状態記憶手段を、さらに含む、請求の範囲第２項に記載のキャッシュメモリ。
　前記制御手段は、さらに、前記ＣＰＵから、データ書き込み命令と、前記任意のアドレスと、通信用データと、を受け付けた状況で、前記データ書き込み命令と共に受け付けられたアドレスが、前記アドレス格納手段に格納されている場合には、当該アドレスに対応する前記ワードに前記通信用データを書き込み、当該アドレスが前記アドレス格納手段に格納されていない場合には、当該アドレスを含むブロックに対応づけられたデータを前記記憶装置から読み出すことなく、前記複数のワードのうちの前記所定数のワードを、当該アドレスを含むブロックに対応づけ、当該アドレスを含むブロックを前記アドレス格納手段に格納し、当該アドレスを含むブロックに対応づけられたワードのうち、当該アドレスに対応するワードに前記通信用データを書き込み、
　前記ワード状態記憶手段は、さらに、前記アドレスを含むブロックに対応づけられたワードのうち、前記通信用データが書き込まれたワードを示すワード情報を記憶する、請求の範囲第３項に記載のキャッシュメモリ。
　請求の範囲第１項から第４項のいずれか１項に記載のキャッシュメモリと、
　前記キャッシュメモリと接続されたＣＰＵと、
　前記キャッシュメモリと接続され、前記ＣＰＵと他のＣＰＵとの通信を実行する通信装置と、
　前記キャッシュメモリと接続され、複数のアドレスのいずれかに対応づけてデータを記憶する記憶装置と、を含む情報処理装置。
　ＣＰＵと、前記ＣＰＵと他のＣＰＵとの通信を実行する通信装置と、複数のアドレスのいずれかに対応づけてデータを記憶する記憶装置と、に接続され、また、前記ＣＰＵおよび前記通信装置からのデータを書き込み可能な複数のワードを有するデータ格納手段を含む、キャッシュメモリが行うキャッシュメモリ制御方法であって、
　前記複数のアドレスのうち、前記複数のワードのそれぞれに個別に対応づけられたアドレスをアドレス格納手段に格納し、
　前記通信装置から、書き込み命令と、前記複数のアドレスのうちの任意のアドレスと、書き込み用データと、を受け付けた状況で、当該アドレスが、前記アドレス格納手段に格納されている場合には、当該アドレスに対応する前記ワードに前記書き込み用データを書き込み、また、前記通信装置から、読み出し命令と、前記任意のアドレスと、を受け付けた状況で、当該アドレスが前記アドレス格納手段に格納されている場合には、当該アドレスに対応する前記ワードからデータを読み出して当該通信装置に提供し、当該アドレスが前記アドレス格納手段に格納されていない場合には、前記記憶装置から当該アドレスに対応づけられたデータを読み出して当該通信装置に提供し、かつ当該データを前記データ格納手段に書き込まない動作を実行する、キャッシュメモリ制御方法。
　前記実行することは、前記通信装置から、前記書き込み命令と、前記任意のアドレスと、前記書き込み用データと、を受け付けた状況で、当該アドレスが前記アドレス格納手段に格納されていない場合には、当該アドレスに対応づけて前記書き込み用データを前記記憶装置に書き込み、かつ前記書き込み用データを前記データ格納手段に書き込まない動作を実行する、請求の範囲第６項に記載のキャッシュメモリ制御方法。
　前記格納することは、前記複数のアドレスのうち、前記複数のワードのそれぞれに個別に対応づけられたアドレスを、所定数のアドレスからなるブロック単位で格納し、
　前記実行することは、さらに、前記通信装置から、前記書き込み命令と異なる所定書き込み命令と、前記任意のアドレスと、書き込みデータと、を受け付けた状況で、前記所定書き込み命令と共に受け付けられたアドレスが、前記アドレス格納手段に格納されている場合には、当該アドレスに対応する前記ワードに前記書き込みデータを書き込み、当該アドレスが前記アドレス格納手段に格納されていない場合には、当該アドレスを含むブロックに対応づけられたデータを前記記憶装置から読み出すことなく、前記複数のワードのうちの前記所定数のワードを、当該アドレスを含むブロックに対応づけ、当該アドレスを含むブロックを前記アドレス格納手段に格納し、当該アドレスを含むブロックに対応づけられた所定数のワードのうち、当該アドレスに対応するワードに前記書き込みデータを書き込む動作を実行し、
　前記アドレスを含むブロックに対応づけられたワードのうち、前記書き込みデータが書き込まれたワードを示すワード情報をワード状態記憶手段に記憶することを、さらに含む　請求の範囲第７項に記載のキャッシュメモリ制御方法。
　前記実行することは、さらに、前記ＣＰＵから、データ書き込み命令と、前記任意のアドレスと、通信用データと、を受け付けた状況で、前記データ書き込み命令と共に受け付けられたアドレスが、前記アドレス格納手段に格納されている場合には、当該アドレスに対応する前記ワードに前記通信用データを書き込み、当該アドレスが前記アドレス格納手段に格納されていない場合には、当該アドレスを含むブロックに対応づけられたデータを前記記憶装置から読み出すことなく、前記複数のワードのうちの前記所定数のワードを、当該アドレスを含むブロックに対応づけ、当該アドレスを含むブロックを前記アドレス格納手段に格納し、当該アドレスを含むブロックに対応づけられたワードのうち、当該アドレスに対応するワードに前記通信用データを書き込む動作を実行し、
　前記記憶することは、さらに、前記アドレスを含むブロックに対応づけられたワードのうち、前記通信用データが書き込まれたワードを示すワード情報を前記ワード状態記憶手段に記憶する、請求の範囲第８項に記載のキャッシュメモリ制御方法。