WO2004025478A1

WO2004025478A1 - メモリブロック間のレイテンシ差を活用するデータ処理装置および方法

Info

Publication number: WO2004025478A1
Application number: PCT/JP2002/009290
Authority: WO
Inventors: Akira Nodomi; Tatsumi Nakada; Eiki Ito; Hideki Sakata
Original assignee: Fujitsu Limited
Priority date: 2002-09-11
Filing date: 2002-09-11
Publication date: 2004-03-25
Also published as: JPWO2004025478A1

Description

明細書メモリブロック間のレイテンシ差を活用するデータ処理装置および方法技術分野

本発明は、複数のブロックからなるメモリを有するデータ処理装置と、そのようなメモリのデータを処理する方法に関する。背景技術

マイクロプロセッサをはじめとして L S I (Large Scale Integration ) の集積度および高速化の向上は目覚しいものがある。 L S Iの高速化が進む一方で主記憶装置等の外部メモリとの速度差は拡大しており、その差を埋めるために、大容量の（つまり、面積の大きな）キャッシュメモリを L S Iに搭載するという手法が一般化している。

また、携帯電話や PDA (Personal Digital Assistance) をはじめとした小型だがデータ処理能力を要求される装置では、 LS I内部にプロセッサと主記憶が封入されている。今後も、集積度の向上に伴い、 LS I内部のメモリは大容量化の一途をたどるものと容易に想像できる。

従来のメモリ制御では、 LS I内部に搭載された大容量メモリへのアクセスはすべて単一のレイテンシで行われている（例えば、特許文献 1および 2参照)。

特許文献 1

特開平 09— 045075号公報

特許文献 2

特開 2000— 298983号公報ここでのレイテンシとは、データリクエストを発行してからリクエストされたデータが帰ってくるまでの時間を意味し、レイテンシの単位としては、回路の同期に用いられるクロックのサイクル数が用いられる。

単一のレイテンシを用いると、リクエスト元から物理的に遠い位置にあるメモリへのアクセスも近いメモリへのアクセスも、レイテンシには差がなくなる。このような制御を行う理由は、主として次の 2つである。

( 1 ) 単一のレイテンシとした方が制御が簡単になる。

( 2 ) 従来は、 L S I内における遅延時間のうち配線遅延時間が占める割合は小さく、ゲート遅延時間が主である。このため、 L S I内部でのメモリの配置位置により配線遅延時間が多少大きくなつても、それを 1サイクル内に収めることができる。したがって、遅延時間が多少異なるメモリ間においても、同一のレイテンシを用いることが容易である。

し力、し、半導体のプロセス技術が進歩し L S Iの速度（クロック周波数）がさらに向上するにつれ、 L S I内部の配線遅延時間が支配的になり、 L S I内での配置位置の差によるディレイ差が無視できなくなつてきた。このような状況で、従来通り単一のレイテンシで制御を行うと、結果的に最も遠いメモリに合わせざるを得ず、メモリアクセスのレイテンシが大幅に伸びて処理性能に悪影響を与える。

図 1は、単一のレイテンシによるメモリ制御を L S Iに搭載された大容量メモリに適用した場合の仮想的な構成を示している。図 1の L S Iは、リクエスト元 1 1およびメモリ 1 2からなり、メモリ 1 2は 4つのメモリブロック M l、 M 2、 M 3、および M 4にブロック化されている。リクエスト元 1 1からの距離は、 M l、 M 2、 M 3、およぴ M 4の順に遠くなつている。

各メモリブロックは、フリップフロップ回路（F F ) 2 1、 2 2、データを格納する R AM (random access memory ) 2 3、およびセレクタ 2 4を含む。 F F 2 1および 2 2は、それぞれ 1段（1サイクル）のバッファ回路として機能する。セレクタ 2 4は、同じブロック内の R AM 2 3からの出力パス、またはより遠くのプロックからの出力パスを選択し、選択されたパスのデータを出力する。

この場合、リクエスト元 1 1と各ブロックとの距離は、レイテンシに換算すると、リクエスト元 1 1から発行されたデータリクエストを発行先の R AM 2 3に転送するパスと、 R AM 2 3から出力されたデータをリクエスト元 1 1に転送するパスとに含まれる F F 2 1の数で表される。ここでは、ブロック M l、 M 2、 M 3、および M 4までの距離は、それぞれ 2サイクル、 4サイクル、 6 サイクル、および 8サイクルである。

ブロック間でレイテンシに差をつけない場合、最も遠いブロック M 4に合わせて他のプロックに F F 2 2が追加され、平均レイテンシは以下のようになる。平均レイテンシ==最大レイテンシ = 8サイクルしたがって、 M 4以外のメモリブロックに対するリクエストの処理が大幅に遅れることになる。発明の開示

本発明の識題は、 L S Iのような半導体集積回路に大容量のメモリを搭載した場合のメモリアクセスを高速化するデータ処理装置およぴ方法を提供することである。

本発明の第 1のデータ処理装置は、複数のメモリブロック、複数の転送パス、およびセレクタを備える。

複数のメモリブ口ックは、リクエスト元から発行されたデータリクエストに対してそれぞれ異なるレイテンシを有し、そのデータリクエストを受け取ってリクエストされたデータを出力する。複数の転送パスは、これらのメモリプロックからリクエスト元に対してそれぞれデータを転送する。そして、セレクタは、これらの転送パスのうち、データリクエストの発行先のメモリブロックからリクエスト元への転送パスを選択する。

本発明の第 2のデータ処理装置は、複数のキャッシュメモリブロック、制御回路、複数のタグ転送パス、複数のデータ転送パス、第 1のセレクタ、および第 2のセレクタを備える。

複数のキヤッシュメモリブ口ックは、リクエスト元から発行されたデータリクエストを受け取ってリクエストされたデータのタグを出力するタグメモリと、そのデータリクエストを受け取ってリクエストされたデータを出力するデータメモリとを含み、データリクエストに対してそれぞれ異なるデータレイテンシを有する。制御回路は、出力されたタグを用いてキャッシュ制御を行う。複数のタグ転送パスは、これらのキャッシュメモリブロックから制御回路に対してそれぞれタグを転送し、複数のデータ転送パスは、これらのキャッシュメモリプロックからリクエスト元に対してそれぞれデータを転送する。

第 1のセレクタは、これらのタグ転送パスのうち、データリクエストの発行先のキャッシュメモリブロックから制御回路へのタグ転送パスを選択し、第 2 のセレクタは、これらのデータ転送パスのうち、データリクエストの発行先のキャッシュメモリブ口ックからリクエスト元へのデータ転送パスを選択する。図面の簡単な説明

図 1は、複数のメモリブロックを有する仮想的な L S Iの構成図である。図 2は、本発明のデータ処理装置の分類を示している。

図 3は、第 1の基本構成を示す図である。図 4は、第 2の基本構成を示す図である。

図 5は、 2つのリクエスト間におけるデータ出力の競合を示す図である _t 図 6は、リクエスト発行を遅らせる第 1の例を示す図である。

図 7は、リクエスト発行を遅らせる第 2の例を示す図である。

図 8は、第 1の応用構成を示す図である。

図 9は、データ出力を遅らせる例を示す図である。

図 1 0は、第 2の応用構成を示す図である。

図 1 1は、第 1の可変長バッファの構成図である。

図 1 2は、第 2の可変長バッファの構成図である。

図 1 3は、第 3の可変長バッファの構成図である。

図 1 4は、アクセス投入制御回路の構成図である。

図 1 5は、第 2の応用構成の詳細を示す図である。

図 1 6は、可変長バッファ段数選択回路の構成図である。

図 1 7は、データ有効フラグ応答回路の構成図である。

図 1 8は、キャッシュメモリ基本構成を示す図である。

図 1 9は、リクエスト発行を遅らせる第 3の例を示す図である。

図 2 0は、第 1のキャッシュメモリ応用構成を示す図である。

図 2 1は、タグ出力とデータ出力を遅らせる例を示す図である。

図 2 2は、第 2のキャッシュメモリ応用構成を示す図である。

図 2 3は、チップレベルマルチプロセッサの構成図である。発明を実施するための最良の形態

以下、図面を参照しながら、本発明の実施の形態を詳細に説明する。

本実施形態では、 L S I内のメモリをレイテンシの差に応じて複数のプロックに分割し、レイテンシの短いブロック (つまり、物理的にリクエスト元に近い位置のブロック）へのアクセスに対しては早く結果を返すようにする。これにより、レイテンシ差を有効利用して平均レイテンシを短縮し、 L S Iの性能向上を図ることができる。

本実施形態のデータ処理装置の構成は、大別すると、図 2に示すような 6つの構成に分類できる。基本構成 3 1は、リクエスト元の位置とメモリ内のデータの配置位置との関係を考慮し、メモリ内のデータをレイテンシ差に応じてブロック化した構成であり、応用構成 3 2は、基本構成 3 1に対して、最短レイテンシのブ口ックに 1段の可変長バッファを追加した構成である。

また、応用構成 3 3は、基本構成 3 1に対して、最短レイテンシのブロックのみならず、より長いレイテンシのプロックに対しても、可変長バッファを追加した構成である。この場合、最長レイテンシのブロックと同じレイテンシを実現可能な複数段の可変長バッファが、各プロックに追加される。

次に、構成 3 4、 3 5、および 3 6は、それぞれ構成 3 1、 3 2、および 3 3をキャッシュメモリに拡張した実施形態を表している。

キャッシュメモリ基本構成 3 4は、キャッシュのデータおよびタグをレイテンシ差に応じてブロック化した構成であり、キャッシュメモリ応用構成 3 5は、キャッシュメモリ基本構成 3 4に対して、最短レイテンシのプロックに 1段の可変長バッファを追加した構成である。また、キャッシュメモリ応用構成 3 6 は、キャッシュメモリ基本構成 3 4に対して、各ブロックに複数段の可変長バッファを追加した構成である。

以下、図 3から図 2 3までを参照しながら、各構成の具体例について説明する。

まず、図 1の L S Iに本発明の基本構成 3 1を適用した場合、 L S Iの構成は図 3のようになる。図 3の L S Iは、リクエスト元 4 1およびメモリ 4 2からなり、メモリ 4 2は 4つのメモリブロック M l、 M 2、 M 3、および M 4にプロック化されている。

リクエスト元 41は、例えば、 CPU (中央処理装置）内のメインパイプライン、演算器等に対応し、メモリ 42の各プロックに対してデータリクエストを発行し、メモリ 42から出力バス 5 1を介してデータを受け取る。この場合、ブロック毎に異なるレイテンシを用いてメモリ制御が行われるため、 F F 22 は不要となる。

ブロック Ml、 M2、 M3、および M 4のレイテンシは、それぞれ 2サイクル、 4サイクル、 6サイクル、および 8サイクルであるから、メモリアクセスの平均レイテンシは次のようになる。

平均レイテンシ= (2 + 4+6 + 8) /4 = 5サイクノレ

したがって、図 1の場合と比べて 3サイクル分の性能向上となる。図 3の構成では、各メモリブロックにセレクタ 24を設けて、同じブロック内の RAM 23から出力されたデータ、またはより遠くのブロックから出力されたデータのいずれかを選択している。しかし、このような出力データの選択を、出カバス 5 1の直前で一括して行うことも可能である。

図 4は、このような L S Iの構成を示している。図 4のメモリプロック Ml、 M2、および M3には、セレクタ 24の代わりに、よりレイテンシの長いプロックから出力されたデータを転送する FF 21が追加されている。セレクタ 5 2は、 4つのメモリブロックの外側に設けられ、それらのブロックからの 4つのデータ転送パスの 1つを選択して、選択されたパスのデータを出力バス 5 1 に出力する。実際には、データリクエストに含まれるブロック識別情報に応じて、対応する転送パスが選択される。

この場合も、ブロック Ml、 M2、 M3、および M 4のレイテンシは、それぞれ 2サイクル、 4サイクル、 6サイクル、および 8サイクルであり、平均レィテンシは 5サイクルとなる。

ところで、レイテンシの異なるブロックからのデータをリクエスト元に返す際には、レイテンシ差に起因する出力バス 5 1の競合に注意しなければならない。

例えば、図 5に示すように、レイテンシ = 4サイクルであるブロック M 2へのリクエスト R 1が発行されてから 2サイクル後に、レイテンシ = 2サイクルであるプロック M lへのリクエスト R 2を発行した場合を考える。リクエスト R 1および R 2がそれぞれサイクル 0 1および 0 3において発行されると、それらのリクエストに対するデータはともにサイクル 0 4において出力バス 5 1 に出力されるので、出力バス 5 1の競合が発生する。

この競合を抑止する最も単純な解決策は、図 6に示すように、後続のリクェスト R 2の発行を 1サイクル遅らせる方法である。この場合、リクエスト R 2 に対するデータは、サイクノレ 0 4ではなく、サイクル 0 5において出力パス 5 1に出力されるので競合は発生しない。

このようなメモリ制御を実現するために、 L S I内には以下のような機構 (回路）が付加される。

( a ) 固定レイテンシではないため、リクエスト元に対して非同期にデータの t

転送を指示する指示機構が必要となる。この指示機構は、アクセスするプロックに応じて各リクエストのレイテンシを計算し、その結果に応じて出力バス 5 l hのデータが有効であることをリクエスト元に通知する。

( b ) レイテンシに差がある複数のプロックへのリクエストが連続して発生する揚合、出力バス 5 1上へのデータ出力が競合するのを回避する必要がある。このため、各リクエストのレイテンシを求める上記（a ) の指示機構とともに、現在実行中のリクエストのレイテンシを記憶しておき、出力が競合すると判断される場合には後続のリクエストの発行を抑止する（遅らせる）抑止機構が必要となる。

これらの指示機構およぴ抑止機構の具体例については、後述することにする。図 6において、例えば、リクエスト R 2のすぐ後にブロック M 2へのリクエスト R 3が続いていた場合には、抑止機構により図 7に示すようなスケジユーリングが行われる。

この場合、リクエスト R 3の発行先のレイテンシは 4サイクルであるから、サイクル 0 4においてリクエスト R 3を発行すれば、サイクル 0 7においてメモリ 4 2からデータが出力され、リクエスト R 2との間で出力の競合は発生しない。それにもかかわらず、リクエスト R 2の発行が遅れたため、後続のリクエスト R 3の発行も遅れ、実際のデータはサイクル 0 8において出力されることになる。その結果、実質的なレイテンシも引きずられて伸びてしまい、全体のスループットが悪化する。

そこで、図 2の基本構成 3 1の代わりに応用構成 3 2を採用することで、レィテンシの異なる複数のプロックからのデータ出力の調停を行うことが考えられる。この場合、以下のような機能が追加される。

( c ) 最短レイテンシのメモリブロックの出力に、 1段の可変長バッファを付加する。

( d ) 前述した（b ) の抑止機構の機能を拡張して、最短レイテンシのメモリブロックへのアクセスについては、以下の 2つの判断を同時に行うようにする。

— 1段のバッファを使用しない場合の競合状況の判断

一 1段のバッファを使用する場合の競合状況の判断

バッファを使用しなくても出力が競合しなレ、場合には、バッファを使用しないように転送パスを選択する。一方、バッファを使用しないと競合が生じ、使用すると競合が生じない場合には、バッファを使用するように転送パスを選択する。バッファの有無によらず出力が競合する場合には、リクエストの発行を遅らせる。

例えば、図 4において最短レイテンシ（2サイクル）を有するブロック M l に可変長バッファを付加すると、 L S Iの構成は図 8のようになる。図 8のブ口ック M lにはセレクタ 5 3と F F 5 4からなる 1段の可変長バッファが設けられている。セレクタ 5 3は、 F F 5 4をバッファとして使用する場合の競合状況とそれを使用しない場合の競合状況に基づいて、 R AM 2 3から直接データを転送するパスと F F 5 4を介して転送するパスのいずれかを選択する。

F F 5 4を通るパスを選択すればブロック M lからのデータ出力を 1サイクレだけ遅らせることができるので、ブロック M lのレイテンシは 2〜 3サイクルの範囲で可変となる。

これにより、図 7のリクエスト R 2および R 3の発行とデータのレイテンシは、図 9に示すように改善される。この場合、サイクル 0 3においてリクエスト R 2を発行しても、転送パスとして F F 5 4を通るパスを選択すればデータ出力を 1サイクル遅らせることができるので、サイクル 0 4におけるリクエスト R 1に対するデータ出力と競合することはない。したがって、次のリクエスト R 3の発行を遅らせる必要がなくなり、サイクル 0 4において R 3を発行し、サイクル 0 7においてデータを出力することが可能となる。

上述した応用構成 3 2は、物量の増大を最小限に抑えるために、最短レイテンシのメモリブロックについてのみ可変長バッファを付加した限定的な対処である。物量が許すならばこの構成をさらに拡張し、最長レイテンシのメモリブ口ックを除くすべてのブロックについて、最長レイテンシとの差を埋めることが可能な可変長バッファを用意することにより、あらゆる状況に対処することが可能となる。このような構成が図 2の応用構成 3 3である。

応用構成 3 3では、各メモリブロックのレイテンシを最長レイテンシのメモリブロックと同じレイテンシにまで引き伸ばすことができるような可変長バッファを、各メモリブロックに付加する。これにより、レイテンシの調節範囲が拡大し、出力の競合による性能低下を完全に防ぐことができるようになる。例えば、図 4においてブロック Ml〜M 3にこのような可変長バッファを付加すると、 LS Iの構成は図 10のようになる。図 10のブロック Ml、 M2、および M3にはそれぞれ可変長バッファ 55、 56、および 57が設けられている。

可変長バッファ 55は、図 1 1に示すように、セレクタ 6 1、 62、および 6 3と 6個の FF 54からなる。各 FF 54は 1段のバッファとして用いられ、各セレクタは、 RAM 23から直接データを転送するパスと FF 54を介して転送するパスのいずれかを選択する。

この可変長バッファ 55は、 0段、 2段、 4段、および 6段の 4つのバッフ了長を設定することができ、これらのバッファ長はデータ出力をそれぞれ 0サイタル、 2サイクル、 4サイクル、および 6サイクルだけ遅らせることができる。 0段の場合、セレクタ 6 1は入力 I 2を選択し、 2段の場合、セレクタ 6 1、 62はそれぞれ入力 I 1、 I 4を選択する。 4段の場合、セレクタ 6 1、 62、 63はそれぞれ入力 I I、 1 3、 1 6を選択し、 6段の場合、セレクタ 6 1、 62、 63はそれぞれ入力 I I、 1 3、 I 5を選択する。

可変長バッファ 56は、図 1 2に示すように、セレクタ 6 1および 62と 4 個の FF 54からなる。この可変長バッファ 56は、 0段、 2段、および 4段の 3つのバッファ長を設定することができる。 0段の場合、セレクタ 6 1は入力 I 2を選択し、 2段の場合、セレクタ 61、 62はそれぞれ入力 I 1、 I 4 を選択し、 4段の場合、セレクタ 61、 62はそれぞれ入力 I 1、 I 3を選択する。

可変長バッファ 57は、図 1 3に示すように、セレクタ 61と 2個の F F 5 4力、らなる。この可変長バッファ 57は、 ◦段および 2段の 2つのバッファ長を設定することができる。 0段の場合、セレクタ 61は入力 I 2を選択し、 2 段の場合、セレクタ 6 1は入力 I 1を選択する。

これらの可変長バッファを設けることで、ブロック Ml、 M2、および M3 のレイテンシはそれぞれ 2〜8サイクル、 4〜8サイクル、および 6〜8サイクノレの範囲で可変となり、レ、ずれのブロックもブロック M4のレイテンシである 8サイクルを実現可能となっている。メモリ 42の最長レイテンシは 8サイクルであるから、どのような状況であってもデータ出力を最大 8サイクル遅らせれば出力の競合が発生することはない。

図 14は、前述した抑止機構の一例に対応するアクセス投入制御回路の構成図である。図 14のアクセス投入制御回路は、リクエスト元 41とメモリ 42 の間に設けられ、リクエスト元 41からリクエスト信号 Rを受け取って、ァクセス信号 Aをリクエスト元 41に返送する。

アクセス信号 Aは、論理 "1" のときメモリ 42へのアクセス投入が可能であることを表し、論理 "0" のときアクセス投入が不可能であることを表す。リクエスト元 41は、アクセス信号 Aが論理 "1" となるまでリクエストの発行を遅らせる。

また、ブロック出力選択信号 O 1〜〇 4は、セレクタ 52の制御信号として用いられる。セレクタ 52は、信号 O i ( i = l， 2, 3， 4) が論理 " 1" のときブロック M iからの転送パスを選択する。

デコーダ 64は、リクエスト信号 Rをデコードして発行先のァドレスを取得し、ブロック選択信号 S 1〜S 4を出力する。信号 S i ( i = l， 2, 3， 4) は、発行先がブロック M iであるときに論理 "1" となる。

信号 S 4は 8個の FF 54が直列に接続された回路に入力され、 8サイクル後に信号〇 4として出力される。 AND回路 65の出力は、信号 S 3が論理 "1" であり、かつ、 6サイクル先で信号 O 4が論理 " 0 " である場合に、論理 " 1" となる。 AND回路 65の出力は、 6個の F F 54が直列に接続された回路に入力され、 6サイクル後に信号 O 3として出力される。

AND回路 66の出力は、信号 S 2が論理 " 1" であり、かつ、 4サイクル先で信号 O 3および O 4がともに論理 "0" である場合に、論理 "1" となる。 AND回路 66の出力は、 4個の FF 54が直列に接続された回路に入力され、 4サイクル後に信号〇 2として出力される。

AND回路 67の出力は、信号 S 1が論理 " 1" であり、かつ、 2サイクル先で信号 02、 03、および O 4がともに論理 "0" である場合に、論理 "1" となる。 AND回路 67の出力は、 2個の F F 54が直列に接続された回路に入力され、 2サイクル後に信号 O 1として出力される。そして、〇R回路 68は、信号 S 4と AND回路 65〜67の出力の論理和をアクセス信号 A として出力する。

このようなアクセス投入制御回路によれば、プロック M4を発行先とするリクエストはそのままメモリ 42に投入される。しかし、他のブロックを発行先とするリクエストは、先行するリクエストとの間でデータ出力が競合するかどうかがチェックされ、競合する場合にはリクエストの発行が抑止される。

図 15は、図 10の LS Iのより詳細な構成図である。図 15では、図 10 の構成に対してさらにデータ有効フラグ応答回路 7 1と可変長バッファ段数選択回路 72が追加されている。可変長バッファ段数選択回路 72は、発行されたリクエストに対するデータ出力のタイミングを表す出カバッファ予約情報を保持しており、以下のような制御を行う。

(1) リクエストのアドレスからアクセス先のプロック識別情報を得る。プロック識別情報としては、例えば、ブロック番号が用いられる。ブロックが分かればその最低必要レイテンシが分かるので、それを nサイクルとする。可変長バッファの使用段数 mの初期値として 0をセットする。

(2) 出力バッファ予約情報から (n+m) サイクル後の出力バス 5 1の空きを検査する。出力バス 51が空いていない場合は（3) の処理を行い、空いている場合は（4) の処理を行う。

(3) mに 2を加算して（2) の処理を行う。

(4) アクセス先のブロックの可変長バッファの段数を m段に設定して、データをアクセスする。また、（n+m) サイクル後にデータが出力されることを出力バッファ予約情報に追加し、後続のリクエストに備える。同時に、得られた（n+m) サイクルの値をデータ有効フラグ応答回路 71に通知する。データ有効フラグ応答回路 71は、前述した指示機構の一例に対応し、（n

+ m) サイクル後にデータ有効フラグをリクエスト元 41に転送する。これにより、（n+m) サイクル後のサイクルにおいて出力バス 5 1上のデータが有効であることを、リクエスト元 41に通知する。

図 16は、可変長バッファ段数選択回路 72の例を示している。デコーダ 6 4、リクエスト信号 R、およびブロック選択信号 S 1〜S 4については、図 1

4と同様である。

8個の FF 54が直列に接続された回路は、先行リクエスト表示ビットマツプを形成し、出力バッファ予約情報を記憶する。最終段の FF 54から出力されるタイミング信号 OUTは、データ出力が行われるサイクルで論理 " 1" となる。

バッファ段数選択信号 C 1一 0〜C 1 _ 6は、ブロック M 1の可変長バッファ 55の制御信号して用いられる。信号 C 1一 i ( i =0， 2, 4， 6) が論锂 "1" のとき、可変長バッファ 55には i段のバッファ長が設定される。ただし、図 16では、信号 C 1—4は省略されている。

また、図 16では、ブロック Mlのバッファ段数選択信号を生成する回路のみが示されているが、他のプロックのバッファ段数選択信号も同様の回路により生成される。信号 S 2からは、ブロック M 2の可変長バッファ 56のバッファ段数選択信号 C2— i ( i =0, 2, 4) が生成され、信号 S 3からは、ブロック M 3の可変長バッファ 57のバッファ段数選択信号 C 3— i ( i =0, 2) が生成される。

AND回路 91の出力は、以下の 2つの条件が満たされた場合に論理 "1" となる。

-信号 S 1が論理 "1"

- 2サイクル先で信号 OUTが論理 "0"

AND回路 9 1の出力は、最後から 2番目の F F 54に入力され、 2サイクル後に信号 OUTとして出力される。

AND回路 92の出力は、以下の 3つの条件が満たされた場合に論理 "1" となる。

•信号 S 1が論理 "1"

■ 2サイクル先で信号〇 U Tが論理 " 1 "

- 3サイクル先で信号 OUTが論理 "0"

AND回路 92の出力は、最後から 3番目の FF 54に入力され、 3サイクル後に信号 OUTとして出力される。そして、 OR回路 96は、 AND回路 9 1および 92の出力の論理和をバッファ段数選択信号 C 1一 0として出力する。このような回路によれば、出力バス 51が 2サイクル先で空いていれば、可変長バッファ 55のバッファ長は 0段に設定される。また、出力バス 5 1が 2 サイクル先で空いていなくても、 3サイクル先で空いていれば、可変長バッファ 55のバッファ長は 0段に設定される。この場合、リクエストされたデータの出力を 1サイクル遅らせれば、出力の競合は発生しない。

AND回路 93の出力は、以下の 4つの条件が満たされた場合に論理 "1" となる。

■信号 S 1が論理 "1"

■ 2サイクル先で信号 O U Tが論理 " 1 "

• 3サイクル先で信号 OUTが論理 "1"

· 4サイクル先で信号 OUTが論理 " 0"

OR回路 85は、 AND回路 93の出力と他のブロック用に設けられた AN D回路（不図示）の出力の論理和を出力する。 OR回路 85の出力は、最後から 4番目の FF 54に入力され、 4サイクル後に信号 OUTとして出力される。

AND回路 94の出力は、以下の 5つの条件が満たされた場合に論理 "1" となる。

-信号 S 1が論理 "1"

• 2サイクル先で信号 OUTが論理 "1"

■ 3サイクル先で信号 OUTが論理 "1"

• 4サイクル先で信号 OUTが論理 "1"

· 5サイクル先で信号 OUTが論理 "0"

OR回路 84は、 AND回路 94の出力と他のブロック用に設けられた AN D回路（不図示）の出力の論理和を出力する。 OR回路 84の出力は、最後から 5番目の FF 54に入力され、 5サイクル後に信号 OUTとして出力される。また、 OR回路 97は、 AND回路 93および 94の出力の論理和をバッファ段数選択信号 C 1一 2として出力する。

このような回路によれば、出力バス 51が 4サイクル先で空いていれば、可変長バッファ 55のバッファ長は 2段に設定される。また、出力バス 5 1が 4 サイクル先で空いていなくても、 5サイクル先で空いていれば、可変長バッファ 55のバッファ長は 2段に設定される。この場合も、データの出力を 1サイクル遅らせれば、出力の競合は発生しない。 AND回路 95の出力は、以下の 7つの条件が満たされた場合に論理 "1" となる。

•信号 S 1が論理 "1"

■ 2サイクル先で信号 OUTが論理 "1"

- 3サイクル先で信号 OUTが論理 "1"

■ 4サイクル先で信号 OUTが論理 "1"

■ 5サイクル先で信号 OUTが論理 "1"

• 6サイクル先で信号 OUTが論理 "1"

• 7サイクル先で信号 O U Tが論理 " 1 "

OR回路 81は、 AND回路 95の出力と他のブロック用に設けられた AN D回路（不図示）の出力の論理和を出力する。 OR回路 81の出力は、最初の FF 54に入力され、 8サイクル後に信号 OUTとして出力される。また、 A ND回路 95の出力は、バッファ段数選択信号 C 1— 6として用いられる。このような回路によれば、出力バス 51が 2〜 7サイクル先で空いていなければ、可変長バッファ 55のバッファ長は 6段に設定される。この場合、レイテンシは最長の 8サイクルとなるので、出力の競合は発生しない。

同様にして、 OR回路 82および 83も、不図示の AND回路の出力の論理和を出力する。 OR回路 83の出力は、最後から 6番目の FF 54に入力され、 6サイクル後に信号 OUTとして出力される。 OR回路 82の出力は、最後から 7番目の FF 54に入力され、 7サイクル後に信号 OUTとして出力される。また、バッファ段数選択信号 C 1一 4も、他の選択信号と同様にして生成される。

このような可変長バッファ段数選択回路 72によれば、発行先のプロック番号と先行するリクエストのデータ出力タイミングとに応じて、最適なバッファ長が選択される。したがって、プロック間のレイテンシ差を活用しながら、データ出力の競合を防止することができる。

図 1 7は、データ有効フラグ応答回路 7 1のうちメモリプロック M l用の制御回路の例を示している。図 1 7の制御回路は、図 1 1の可変長バッファの入力側と出力側にそれぞれ F F 5 4を追加した構成を有し、リクエスト信号 Rを入力側から出力側に向かって順次シフトし、データ有効フラグ Fとして出力する。メモリプロック M 1の場合、 n = 2、 m= 0 , 2， 4 , 6であるから、 n + m= 2 , 4， 6， 8となる。

セレクタ 6 1、 6 2、および 6 3は、可変長バッファ段数選択回路 7 2からの選択信号 C (信号 C 1 _ 0〜C 1一 6に相当する）により、図 1 1の可変長バッファと同様の論理で制御される。したがって、メモリブロック M lからデータが出力されるタイミングに合わせて、データ有効フラグ Fをリクエスト元 4 1に転送することができる。他のメモリブロック用の制御回路の構成についても、図 1 7の回路と同様である。

ところで、データ有効フラグ応答回路 7 1が生成するデータ有効フラグ Fの代わりに、図 1 6に示したタイミング信号 O U Tを用いることも可能である。この場合、信号 O U Tがリクエスト元 4 1に対して転送されるので、データ有効フラグ応答回路 7 1は不要となる。

図 1 5の構成では、すべての状況に対処できるように、最長レイテンシのメモリブロック M 4を除くすべてのメモリブロックに可変長バッファを設けている。しかしながら、限定的な状況にのみ対処できればよい場合は、一部のメモリブロックにのみ可変長バッファを設けるようにしてもよい。

図 8の構成は、図 1 5の構成を簡略化したものとみなすことができるので、図 1 5のデータ有効フラグ応答回路 7 1と可変長バッファ段数選択回路 7 2と同様の制御回路により制御することができる。この場合の制御回路の構成は、図 1 6および図 1 7から容易に推定できる。以上説明した基本構成 3 1、応用構成 3 2、および応用構成 3 3は、一般的なメモリの場合の構成であるが、このメモリがキャッシュメモリである場合に、キャッシュのタグについてもデータと同様のレイテンシ差を持たせることができる。図 2の基本構成 3 1、応用構成 3 2、および応用構成 3 3をそれぞれキャッシュメモリに拡張した構成が、キャッシュメモリ基本構成 3 4、キヤッシュメモリ応用構成 3 5、およびキャッシュメモリ応用構成 3 6である。

L S I内のキャッシュメモリについて本発明を適用するには、タグの構造についての考慮が必要となる。データに比べてタグの物量が少なく、すべてのブ口ックのタグをリクエスト元に近い場所にまとめて配置できるのであれば、基本構成 3 1、応用構成 3 2、および応用構成 3 3で対処可能である。し力、し、タグの物量が無視できないほど大きレ、場合には、それも分散配置する必要がある。そこで、キャッシュメモリ基本構成 3 4では、以下のような追加構成機能により、大容量のキャッシュメモリに対処する。

( e ) データをキャッシュライン毎に分散配置する。これにより、タグもプロック毎に分散配置可能となる。

( f ) 前述の（b ) の抑止機構を拡張し、出力バスへのデータ出力が競合する場合、またはタグからの出力が競合する場合に、リクエストの発行を抑止する。キャッシュメモリでは、タグの出力を用いてキャッシュラインのヒット Zミス等のデータの有効性を判定している。上記（f ) の抑止機構がない場合には、各プロック毎にタグ出力を判定/処理する制御論理が必要となる。例えば、キャッシュミスにより外部へのアクセスを要するリクエストが複数発生することがあり得るので、それらのリクエストの調停のための制御や回路が新たに必要となる。したがって、（f ) の抑止機構を採用した方が制御が簡単になると考えられる。

図 1 8は、このようなキャッシュメモリを搭載した L S Iの構成例を示している。図 18の LS Iは、リクエスト元 41およびキャッシュメモリ 101力らなり、キャッシュメモリ 101は 4つのキャッシュメモリブロック C 1、 C 2、 C 3、および C 4にプロック化されている。

各キャッシュメモリブロックは、 FF 21、タグ RAMI 1 1、およぴデータ RAMI 1 2を含み、リクエスト元 41からのリクエストに応じてタグおよびデータを出力する。

セレクタ 103は、 4つのプロックからのタグ転送パスの 1つを選択して、選択されたパスのタグをキャッシュ制御回路 102に出力する。キャッシュ制御回路 102は、受け取ったタグのヒット /ミス判定を行い、判定結果に応じてキャッシュメモリ 101の動作を制御する。また、セレクタ 52は、 4つのブロックからのデータ転送パスの 1つを選択して、選択されたパスのデータを出力バス 51に出力する。

このようにキャッシュのタグ部とデータ部を一体化した構成には、次のような実装上の利点がある。

(1) 反復性： 1つのキャッシュメモリブロックをコピーして、容易に他のキャッシュメモリブロックを作成することができる。

(2) ディレイ解析の局所化： 1つのキャッシュメモリブロックについてディレイ解析を行えば、解析結果を他のキヤッシュメモリブ口ックにも応用することができる。

図 18の構成では、データおよびタグのレイテンシは次のようになる。ブロック C 1 : データレイテンシ =2，タグレイテンシ = 1

ブロック C 2 : データレイテンシ =4，タグレイテンシ =3

ブロック C 3 : データレイテンシ= 6，タグレイテンシ= 5

ブロック C4 : データレイテンシ =8，タグレイテンシ= 7 ここで、図 7と同様に、ブロック C 2に対するリクエスト R 1の発行の 2サイタル後にブロック C 1に対するリクエスト R 2が発行され、その直後にプロック C 2に対するリクエスト R 3が発行されたとする。この場合、図 1 9に示すように、リクエスト R 1および R 2がそれぞれサイクル 0 1および 0 3において発行されると、サイクル 0 3においてそれらのリクエストに対するタグ出力が競合するので、抑止機構はリクエスト R 2の発行を 1サイクル遅らせる。これに伴って、リクエスト R 3の発行も 1サイクル遅れることになる。

そこで、このような性能低下を防ぐために、キャッシュメモリ応用構成 3 5 が用いられる。この構成では、最短レイテンシのプロックからのタグ出力とデータ出力の両方について、図 8と同様の 1段の可変長バッファを追加する。これにより、タグを分散配置したキャッシュメモリにおいてもリクエスト発行の自由度が増し、後続するリクエストの起動を 1サイクル早くすることができる。したがって、平均レイテンシを短縮して、より効率の良いスケジューリングを行うことが可能となる。

図 1 8のキヤッシュメモリプロック C 1のタグ R AM I 1 1およびデータ R AM I 1 2の出力に対して、それぞれ図 8と同様の可変長バッファを追加す'ると、 L S Iの構成は図 2 0のようになる。

タグ R AM I 1 1の出力側の可変長バッファにおいて、セレクタ 5 3は、タグ R AM I 1 1から直接データを転送するパスと F F 5 4を介して転送するパスのいずれかを選択する。また、データ R AM I 1 2の出力側の可変長バッファにおいて、セレクタ 5 3は、データ R AM I 1 2から直接データを転送するパスと F F 5 4を介して転送するパスのいずれかを選択する。

このような構成によれば、図 1 9の 3つのリクエストに対して、図 2 1に示すようなスケジューリングが可能となる。この場合、サイクル 0 3においてリクエスト R 2を発行しても、タグの転送パスとして FF 54を通るパスを選択すればタグ出力を 1サイクル遅らせることができるので、サイクル 03におけるリクエスト R 1に対するタグ出力と競合することはない。したがって、リクェスト R 2、 R 3の発行を遅らせる必要がなくなる。

キャッシュメモリ応用構成 36では、各キャッシュメモリブロックのレイテンシを最長レイテンシにまで引き伸ばすことができるような可変長バッファを、各キャッシュメモリプロックからのタグ出力とデータ出力の両方に付加する。これにより、あらゆる状況に対処することが可能となり、最も良い平均レイテンシが得られる。

例えば、図 18においてブロック C 1〜C 3のタグ RAM 1 1 1およびデータ RAMI 12の出力に対して、このような可変長バッファをそれぞれ付加すると、 L S Iの構成は図 22のようになる。

プロック C 1のタグ RAMI 1 1およびデータ RAMI 1 2の出力側には、それぞれ可変長バッファ 55が設けられており、ブロック C 2のタグ RAMI 1 1およびデータ RAMI 12の出力側には、それぞれ可変長バッファ 56が設けられている。また、ブロック C3のタグ RAMI 1 1およびデータ RAM

1 1 2の出力側には、それぞれ可変長バッファ 57が設けられている。

可変長バッファ 55、 56、 57、データ有効フラグ応答回路 71、および可変長バッファ段数選択回路 72の構成と動作については、前述した通りである。この場合、各ブロック内の 2つの可変長バッファは、可変長バッファ段数選択回路 72からの同じ選択信号により制御され、セレクタ 103とセレクタ

52も同じ選択信号により制御される。

これらの可変長バッファを設けることで、ブロック C l、 C 2、および C 3 のタグレイテンシはそれぞれ 1〜アサイクル、 2〜7サイクル、および 5〜 7 サイクルの範囲で可変となり、いずれのブロックもブロック C 4のタグレイテンシである 7サイクルを実現可能となっている。キヤッシュメモリ 101の最長タグレイテンシは 7サイクルであるから、どのような状況であってもタグ出力を最大 7サイクル遅らせればタグ出力が競合することはない。データレイテンシの調節範囲については、図 15の場合と同様である。

図 23は、キャッシュメモリ応用構成 36をチップレベルマルチプロセッサ (Chip-level Multi Processor, CMP) に適用した場合の構成例を示している。 CMPは、 L S Iチップ内に複数のプロセッサ（CPU CORE) を持つシステムであり、従来は複数個のチップを使って実現していたマルチプロセッサ構成を 1チップで実現することができる。

図 23の構成では、 4つの C PU CORE 1 21 122、 1 23、および 124がチップ上に搭載され、これらの CPU COREが大容量のオンチップキャッシュ (on-chip cache ) を共有している。このオンチップキヤッシュは、 4つのキャッシュメモリブロック C 1、 C 2、 C 3、および C 4からなる。可変長バッファ 55、 56、および 57の機能については、図 22の場合と同様である。各セレクタ 24は、直近の可変長バッファからの出力パス、またはより遠くのプロックからの出力パスを選択する。

ここでは簡単のため、 CPU CORE 12 1からのリクエストを各ブロックのデータ RAMI 1 2に転送するパスと、各データ RAMI 1 2からのデータを CPU CORE 121に転送するパスのみが示されており、タグ RAM とそれに付随する転送パスは省略されている。しかしながら、各ブロックには、図 22の構成と同様に、これらの回路も設けられている。他の CPU COR Eに対しても、 CPU CORE 1 21と同様の回路が設けられる。

ただし、物理的な配置から明らかなように、 CPU C O R E 1 21からはプロック C 1が最も近く、ブロック C 4は最も遠い。このため、 CPU CO RE 121にとつて、ブロック C l、 C2、 C 3、および C 4の最短データレィテンシは、それぞれ 2サイクル、 4サイクル、 6サイクル、および 8サイクルとなる。

逆に、 CPU CORE 124からはブロック C 1が最も遠く、ブロック C 4は最も近い。このため、 CPU CORE 1 24にとつて、ブロック C l、 C 2、 C 3、および C 4の最短データレイテンシは、それぞれ 8サイクル、 6 サイクル、 4サイクル、および 2サイクルとなる。

CPU CORE 1 22からはプロック C 2が最も近く、プロック C 1および C 3は次に近く、プロック C 4は最も遠い。このため、 CPU CORE 1 22にとつて、ブロック C l、 C 2、 C3、および C 4の最短データレイテンシは、それぞれ 4サイクル、 2サイクル、 4サイクル、および 6サイクルとなる。

また、 CPU CORE 1 23からはプロック C 3が最も近く、ブロック C 2および C 4は次に近く、プロック C 1は最も遠い。このため、 CPU CO RE 123にとつて、ブロック C l、 C 2、 C 3、および C 4の最短データレィテンシは、それぞれ 6サイクル、 4サイクル、 2サイクル、および 4サイクルとなる。

このような CMP構成によれば、チップ上のメモリを共有する複数のプロセッサのそれぞれについて、メモリアクセスの平均レイテンシを最適化することが可能となる。産業上の利用可能性

本発明によれば、半導体集積回路に大容量のメモリを搭載した場合に、データの格納位置に応じたレイテンシ差を活用して、メモリアクセスを高速化することができる。

Claims

請求の範囲

1 . データリクエストを発行するリクエスト元と、

前記データリクエストに対してそれぞれ異なるレイテンシを有し、該データリクエストを受け取ってリクエストされたデータを出力する複数のメモリブ口ックと、

前記複数のメモリブ口ックから前記リクエスト元に対してそれぞれデータを転送する複数の転送パスと、

前記複数の転送パスのうち、前記データリクエストの発行先のメモリブ口ックから前記リクエスト元への転送パスを選択するセレクタと

を備えることを特徴とするデータ処理装置。

2 . 前記リクエスト元は、前記データリクエストと先行する他のデータリクエストの間でデータ出力の競合が発生するとき、前記データリクエストを発行するタイミングを遅らせることを特徴とする請求項 1記載のデータ処理装置。

3 . 前記複数の転送パスのうち最短レイテンシを有するメモリブロックから前記リクエスト元への転送パスは、該リクエスト元と該複数の転送パスの間に設けられたバスにデータを出力するタイミングを変化させる可変長バッファを含むことを特徴とする請求項 1記載のデータ処理装置。

4 . 前記可変長バッファは、前記データリクエストと先行する他のデータリクエストの間で前記パスに対するデータ出力の競合が発生するとき、前記データを出力するタイミングを遅らせることを特徴とする請求項 3記載のデータ処理装置。

5 . 前記複数の転送パスのうち少なくとも一部の転送パスは、前記リクエスト元と該複数の転送パスの間に設けられたバスにデータを出力するタイミングを変化させる可変長バッファを含むことを特徴とする請求項 1記載のデータ処理装置。

6 . 前記可変長バッファは、該可変長バッファを含む転送パスに属するメモリプロックのレイテンシを最長レイテンシと同じ値にまで引き伸ばす回路を含むことを特徴とする請求項 5記載のデータ処理装置。

7 . 前記可変長バッファは、前記データリクエストと先行する他のデータリクエストの間で前記バスに対するデータ出力の競合が発生するとき、前記データを出力するタイミングを遅らせることを特徴とする請求項 5記載のデータ処

8 . リクエスト元から発行されたデータリクエストに対してそれぞれ異なるレイテンシを有し、該データリクエストを受け取ってリクエストされたデータを出力する複数のメモリブロックと、

前記複数のメモリブロックから前記リクエスト元に対してそれぞれデータを転送する複数の転送パスと、

を備えることを特徴とするデータ処理装置。

9 . データリクエストを発行するリクエスト元と、前記データリクエストを受け取ってリクエストされたデータのタグを出力するタグメモリと、該データリクエストを受け取ってリクエストされたデータを出力するデータメモリとを含み、該データリクエストに対してそれぞれ異なるデータレイテンシを有する複数のキャッシュメモリプロックと、

出力されたタグを用いてキヤッシュ制御を行う制御回路と、

前記複数のキャッシュメモリブ口ックから前記制御回路に対してそれぞれタグを転送する複数のタグ転送パスと、

前記複数のキャッシュメモリブ口ック力、ら前記リクエスト元に対してそれぞれデータを転送する複数のデータ転送パスと、

前記複数のタグ転送パスのうち、前記データリクエストの発行先のキヤッシュメモリブロックから前記制御回路へのタグ転送パスを選択する第 1のセレクタと、

前記複数のデータ転送パスのうち、前記発行先のキャッシュメモリブロックから前記リクエスト元へのデータ転送パスを選択する第 2のセレクタとを備えることを特徴とするデータ処理装置。

1 0 . 前記リクエスト元は、前記データリクエストと先行する他のデータリクエストの間で前記制御回路に対するタグ出力の競合が発生するとき、前記データリクエストを発行するタイミングを遅らせることを特徴とする請求項 9記載のデータ処理装置。

1 1 . 前記複数のタグ転送パスのうち最短データレイテンシを有するキヤッシュメモリブロックから前記制御回路へのタグ転送パスは、該制御回路にタグを供給するタイミングを変化させる第 1の可変長バッファを含み、前記複数のデータ転送パスのうち該最短データレイテンシを有するキヤッシュメモリブロックから前記リクエスト元へのデータ転送パスは、該リクエスト元と該複数のデータ転送パスの間に設けられたバスにデータを出力するタイミングを変化させる第 2の可変長バッファを含むことを特徴とする請求項 9記載のデータ処理

1 2 . 前記第 1の可変長バッファは、前記データリクエストと先行する他のデータリクエストの間で前記制御回路に対するタグ出力の競合が発生するとき、前記タグを供給するタイミングを遅らせることを特徴とする請求項 1 1記載のデータ処理装置。

1 3 . 前記複数のタグ転送パスのうち少なくとも一部のタグ転送パスは、前記制御回路にタグを供給するタイミングを変化させる第 1の可変長バッファを含み、前記複数のデータ転送パスのうち該一部のタグ転送パスに属するキヤッシュメモリブ口ックから前記リクエスト元へのデータ転送パスは、該リクエスト元と該複数のデータ転送パスの間に設けられたバスにデータを出力するタイミングを変化させる第 2の可変長バッファを含むことを特徴とする請求項 9記載のデータ処理装置。

1 4 . 前記第 1の可変長バッファは、前記複数のキャッシュメモリブロックが前記データリクエストに対してそれぞれ異なるタグレイテンシを有するとき、該第 1の可変長バッファを含むタグ転送パスに属するキヤッシュメモリブ口ックのタグレイテンシを最長タグレイテンシと同じ値にまで引き伸ばす回路を含み、前記第 2の可変長バッファは、該第 2の可変長バッファを含むデータ転送パスに属するキヤッシュメモリプロックのデータレイテンシを最長データレィテンシと同じ値にまで引き伸ばす回路を含むことを特徴とする請求項 1 3記載のデータ処理装置。

1 5 . 前記第 1の可変長バッファは、前記データリクエストと先行する他のデータリクエストの間で前記制御回路に対するタグ出力の競合が発生するとき、前記タグを供給するタイミングを遅らせることを特徴とする請求項 1 3記載のデータ処理装置。

1 6 . リクエスト元から発行されたデータリクエストを受け取ってリクエストされたデータのタグを出力するタグメモリと、該データリクエストを受け取つてリクエストされたデータを出力するデータメモリとを含み、該データリクェストに対してそれぞれ異なるデータレイテンシを有する複数のキャッシュメモリブロックと、

前記複数のキヤッシュメモリプロックから前記制御回路に対してそれぞれタグを転送する複数のタグ転送パスと、

前記複数のキャッシュメモリブ口ックから前記リクエスト元に対してそれぞれデータを転送する複数のデータ転送パスと、

7 . リクエスト元から発行されたデータリクエストに対してそれぞれ異なるレイテンシを有する複数のメモリブロックのうち、該データリクエストの発行先のメモリブロックに対して該データリクエストを転送し、

前記複数のメモリブ口ックから前記リクエスト元に対してそれぞれデータを転送する複数の転送パスのうち、前記発行先のメモリブロックから前記リクェスト元への転送パスを選択し、

前記発行先のメモリブロックから出力されたデータを、選択された転送パスを用いて前記リクエスト元に転送する

ことを特徴とするデータ処理方法。

1 8 . リクエスト元から発行されたデータリクエストを受け取ってリクエストされたデ一タのタグを出力するタグメモリと、該データリクエストを受け取つてリクエストされたデータを出力するデータメモリとを含み、該データリクェストに対してそれぞれ異な ¾データレイテンシを有する複数のキャッシュメモリブロックのうち、該データリクエストの発行先のキヤッシュメモリブ口ックに対して該データリクエストを転送し、

前記複数のキャッシュメモリブロックからキャッシュ制御を行う制御回路に対してそれぞれタグを転送する複数のタグ転送パスのうち、前記発行先のキヤッシュメモリブロックから該制御回路へのタグ転送パスを選択し、

前記複数のキャッシュメモリブロックから前記リクエスト元に対してそれぞれデータを転送する複数のデータ転送パスのうち、前記発行先のキャッシュメモリプロックから該リクエスト元へのデータ転送パスを選択し、

前記発行先のキヤッシュメモリプロックから出力されたタグを、選択されたタグ転送パスを用いて前記制御回路に転送し、

前記発行先のキャッシュメモリブロックから出力されたデータを、選択されたデータ転送パスを用いて前記リクエスト元に転送するとを特徴とするデータ処理方法。