WO1999045474A2

WO1999045474A2 - Geschwindigkeitsoptimiertes cachesystem

Info

Publication number: WO1999045474A2
Application number: PCT/DE1999/000639
Authority: WO
Inventors: Martin Vorbach; Robert MÜNCH
Original assignee: Pact Informationstechnologie Gmbh
Priority date: 1998-03-06
Filing date: 1999-03-07
Publication date: 1999-09-10
Also published as: DE19980350D2; DE19809640A1; AU3698599A; WO1999045474A3

Abstract

Anstatt eines durchgehenden breiten Cache-Speichers, werden mehrere Cache-Speicher verwendet, wobei jeder der Speicher einen eindeutigen Adressraum besitzt. Eine Mehrzahl von Rechenwerken kann auf eine Mehrzahl von Cache-Speichern zugreifen, indem der Cache-Speicher anhand eindeutiger Adressen selektiert wird. Greifen mehrere Rechenwerke auf denselben Cache-Speicher zu, wird jeweils ein der Rechenwerke pro Zeiteinheit arbitriert und erhält die Zugriffsrechte. Liegen die Daten im Cache-Speicher nicht vor, wird bei Zugriffen auf den Speicher grundsätzlich gebursted, d.h. eine Mehrzahl von Daten wird über eine komplette Zeile von Cache-Speichern (CL) in den Speicher geschrieben, bzw. aus dem Speicher gelesen.

Description

Geschwindigkeitsoptimiertes Cachesystem

1. Hintergrund der Erfindung

Bausteine der Gattung DFP (vgl. DE 44 16 881A1, P 196 51

075.9), RA -Machines, Digitale Signalprozessoren, DPGA, als auch Mikroprozessoren der nächsten Generation besitzen mehrere interne hochparallelen Rechenwerke. FPGAs werden häufig als numerische Koprozessoren eingesetzt und werden mit einer

Vielzahl von möglichst parallel arbeitenden Rechenwerken programmiert.

Die oben genannten Bausteine erreichen interne

Datentransferraten von mehreren Gigabyte pro Sekunde. Eine

Vielzahl von Rechenwerken (CELs) benötigen zeitgleich Daten aus dem Cache.

1.1 Stand der Technik

Cachesysteme nach dem Stand der Technik lassen nur Zugriffe von einem Rechenwerk oder wenigen Rechenwerken pro Zeiteinheit zu. Die Datenraten der Caches werden durch möglichst breite Cachezeilen (Cachelines) erreicht.

1.2 Probleme

Cachesysteme nach dem Stand der Technik sind ungeeignet für schnelle Bausteine der oben angegebenen Gattungen, da parallele zeitgleiche Zugriffe nur bedingt möglich sind. Durch die hohen Cachebreiten ist der Aufwand und die damit verbundene zeitliche Verzögerung zum Zerlegen der Cachedaten in die angeforderten Daten nicht unerheblich. Der Aufbau von Cachesystemen für schnelle Bussysteme wie z.B. den RAMBUS ist äußerst kompliziert und technisch kaum, oder nur mit erheblichem Aufwand und Kosten realisierbar, da dabei erhebliche Transferraten auftreten, die besonders schnelle Speicher und Steuerungen benötigen.

1.3 Verbesserung durch die Erfindung, Aufgabe Aufgabe der Erfindung ist ein hochgradig paralleles Cachesystem, das geschwindigkeitsoptimiert eine Vielzahl von gleichzeitigen Zugriffen ermöglicht und die Daten in der für die jeweiligen Rechenwerke optimalen Breite liefert.

2. Beschreibung der Erfindung 2.1 Übersicht über die Erfindung, Abstrakt

Anstatt eines durchgehenden breiten Cache-Speichers, werden mehrere Cache-Speicher verwendet, wobei jeder der Speicher einen eindeutigen Adressraum besitzt. Eine Mehrzahl von Rechenwerken kann auf eine Mehrzahl von Cache-Speichern zugreifen, indem der Cache-Speicher anhand eindeutiger Adressen selektiert wird. Greifen mehrere Rechenwerke auf denselben Cache-Speicher zu, wird jeweils eines der Rechenwerke pro Takteinheit arbitriert und erhält die Zugriffsrechte. Liegen die Daten im Cache-Speicher nicht vor, wird bei Zugriffen auf den Speicher grundsätzlich gebursted, d.h. eine Mehrzahl von Daten wird über eine komplette Zeile von Cachespeichern (CL) in den Speicher geschrieben, bzw. aus den Speicher gelesen. Besonders durch diese Eigenschaft wird der Aufbau eins Cachesystems für moderne Bussystem wie z.B. den RAMBUS erheblich vereinfacht.

2.2 Detailbeschreibung der Erfindung

Es existieren eine Mehrzahl von Cache-Speichern, wobei jeder einen eindeutigen Adressraum besitzt. Dabei wird der Adressraum des einzelnen CS anhand der niederwertigen Adressbits A_n..A₀ so festgelegt, da die CS einen linear zusammenhängenden, unterbrechungsfreien Adressraum bilden. Die Anzahl der Cache-Speicher muß 2ⁿ für n=0, 1, 2, 3, ... betragen, d.h. die Adressbits A_n. ,A₀ werden zur Selektion des jeweiligen Cache-Speichers verwendet. Die folgende Tabelle gibt einen Überblick über die Anzahl der Cache-Speicher und die Dekodierung der Adressbits, n ist eine beliebige ganze Zahl (Integer, s.o.); C# gibt die Anzahl der Cachespeicher an; ADR CACHE 2ⁿ gibt den Binärwert von A_n..A₀ zur Selektion des entsprechenden Cache-Speichers an; die Tabelle ist bei größeren n entsprechend in Breite und Tiefe zu erweitern:

2.2.1 Anschluß an ein Rechenwerk

Zum Anschluß eines Rechenwerkes (CEL) an die CS wird über einen Dekoder, der A_n..A₀ auskodiert, die jeweils adressierte

CS(A_nx2ⁿ+ .. A₁x2¹ + A₀x2°) selektiert.

Die Adress-, Daten- und Kontrollleitungen der CS werden dabei über Demultiplexer und Multiplexer mit dem Rechenwerk verbunden. Des weiteren ist eine Synchronisation notwendig, die CEL signalisiert, wann die Daten vom Cache akzeptiert wurden, bzw. im Cache zur Verfugung stehen.

2.2.2 Anschluß an den Speicher

Die Verwaltung des Speichers übernimmt eine Statemachme, die auf einen Cache-Miss reagiert. Ein Cache-Miss tritt auf, wenn auf Adressbereiche zugegriffen wird, die sich nicht im Cache befinden. Die Statemachine schreibt zunächst die neu zu belegende Cacheline (CL) in den Speicher. Eine CL sind gemäß dem Stand der Technik alle Daten, die sich auf der gleichen horizontalen Speicherebene befinden - also die gleiche Y-Adresse haben -, wie die angeforderten. Eine CL erstreckt sich dabei über alle CS, wobei die genaue Definition im nächsten Absatz folgt. Die Statemachine liest danach die neuen Daten aus dem Speicher in die CL. Beim Schreiben und Lesen der CL wird vorzugsweise zur Steigerung der Busgeschwindigkeit ein Bus-Burst, nach dem Stand der Technik, durchgeführt.

Da die CS wie bereits erläutert immer 2ⁿ-fach angeordnet sind gilt, i.b. für eine CL, folgendes: Jede beliebige Adresse der Breite g wird in einen Teil B der Breite b, der der Größe des Caches entspricht und einen Restteil T der Breite t = g-b zerlegt. Adressteil B läßt sich in einen höherwertigen Teil M der Breite m=b-n und einen niederwertigen Teil N der Breite n zerlegen, dabei entspricht 2ⁿ der Anzahl der CS. Für einen beliebigen Wert W, wobei die Adresse W in die Werte Wm = A_nx2ⁿ + .. + Aι 2^x + A₀x2° des Adressteils M und die Werte Wn = A_mx2^m + A(_m-i)X2^(m"1) + .. + A_(n+i)X2⁽ⁿ⁺¹⁾ + A_nx2ⁿ des Adressteils N zerlegt ist (=^■> W=[Wm, Wn] ) , gilt für Wn somit 0 < Wn < 2ⁿ. Die Daten der Adresse W=[Wm, Wn] befinden sich in CS(Wn); die Daten der Adresse W=[Wm, 0] befinden sich in CS(0); die Daten der Adresse W=[Wm, (2ⁿ-l)] befinden sich in CS((2ⁿ-l)). Eine CL erstreckt sich dabei im einfachsten Fall über alle Wn von 0 bis (2ⁿ-l) . Ein Burst beginnt bei Wn = 0 (=> W=[Wm, 0]) und endet bei Wn = (2ⁿ-l) (=^■> W=[Wm, (2ⁿ-l)]). Um längere Bursts durchzuführen kann W in 3 Adressteile Wo, Wp, Wn der Längen o, p, n zerlegt werden. Dabei entspricht m = o+p, n ist wie gehabt => W=[Wo, Wp, Wn] . Ein Burst läuft in diesem Fall über die Speicherworte W=[Wo, 0, 0] bis W=[Wo, (2^P-1), (2ⁿ-l)], dabei wird jeder CS 2^p-mal durchlaufen, die CL erstreckt sich über alle Wp, Wn.

Der Teil T wird bei einem Cache-Zugriff nach dem Stand der Technik im sogenannten TAG-RAM abgelegt. Der Inhalt des TAG- RAMs (t_tag) wird bei Zugriffen mit dem Teil T der Zugriffsadresse verglichen. Ist t_tag ungleich T, liegen die betreffenden Daten nicht im Cache, ein sogenannter Cache-Miss liegt vor. Die Daten müssen aus dem Speicher transferiert werden. Ist t_tag gleich T liegen die betreffenden Daten im Cache, ein sogenannter Cache-Hit liegt vor. Das Cache Hit/Miss Verfahren entspricht dem Stand der Technik.

2.2.3 Mehrere Rechenwerke

Der beschriebene Cache besitzt mehrere CS, die jeweils eine eindeutige Adresse besitzen und dadurch über einen eindeutigen Adressraum verfügen. Eine Vielzahl von Rechenwerken kann zeitgleich auf die CS zugreifen, sofern jedes Rechenwerk einen unterschiedlichen Adressraum A_n..A₀ verwendet . Um diese Einschränkung zu umgehen, wird jedem CS ein Arbiter zugeordnet, der, sofern mehrere Rechenwerke auf denselben Adressraum A_n..A₀ zugreifen, eines der Rechenwerke pro Zeiteinheit arbitriert. Dazu werden die Busse aller Rechenwerke auf einen Multiplexer/Demultiplexer geschaltet. Jeder Bus liefert ein aus A_n..Ao auskodiertes Signal, das genau einen der CS selektiert. Über den einem CS zugeordneten Arbiter wird jeweils einer der Busse zum Zugriff auf das jeweilige CS selektiert. Die Synchronisation der CEL mit den CS muß im Falle einzelner Rechenwerke für jedes Rechenwerk einzel von CS generiert werden, um zusätzlich anzuzeigen, ob das jeweilige Rechenwerk das akuteil Arbitrierte ist.

2.2.4 Anschluß an schnelle Bussysteme nach dem Stand der

Technik

Schnelle Bussysteme (z.B. RAMBUS nach dem Stand der Technik) tauschen die Speicherdaten über eine Vielzahl von Registern oder Ports (BR) aus, in die die Daten sequentiell in einer Art

Interleaving zum Senken der Taktfrequenzen geschrieben werden

(vgl. RAMBUS-RAC) . Dabei ist grundsätzlich kein Cache zwischen den BR und den CEL vorgesehen.

Aufgrund des besseren Datendurchsatzes wird ein Verfahren zum

Cachen von Daten, die mittels derart schneller Bussysteme übertragen werden, beschrieben:

Dabei wird jeweils eine CS einem oder einer Menge von

Registern zugeordnet, d.h. jedes BR oder jede Gruppe von BR wird von einem CS gecachet. Aufgrund der Eindeutigkeit der

Adressen A_n..Ao für jede CS ist diese Zuordnung möglich, sofern auch die Register eindeutig denselben A_n..A₀ zugeordnet sind.

Das ist grundsätzlich der Fall, wenn ein Burst, wie mehrfach angegeben, immer bei A_nχ2ⁿ + .. + Aιx2^x + A₀x2° = 0 beginnt und immer bei A_nx2ⁿ + .. + A₁X2¹ + A₀x2° = 2n-l endet. Die Anzahl der BR muß 2^r für r=0, 1, 2, 3, ... betragen, was jedoch für gewöhnlich der Fall ist. Das Verhältnis von CS zu BR beträgt 2^V = 2ⁿ : 2^r.

- Ist v=0, 2^V = 1 ist jedem CS ein BR zugeordnet.

- Es existieren mehr BR als CS (v<0, 2^V<1) : Grundsätzlich werden 2^~v Cachelines je lesendem oder schreibendem Zugriff übertragen. Dabei ist die Adresse des jeweiligen BR A_r .. A₀ = A_v .. A_n+ι .. A_n .. A₀.

- Es existieren mehr CS als BR (v>0, 2^V>1) :

Um eine Cacheline schreibend oder lesend zu übertragen, finden 2v Zugriffe auf das Bussystem statt. Dabei ist die Adresse der CS A_n .. Ao = A_v .. A_r+ι .. A_r .. A₀.

3. Kurzbeschreibung der Diagramme

Figur la,b zeigt die Anordnung der Caches

Figur 2a zeigt einen Cache nach dem Stand der Technik

Figur 2b zeigt einen erfindungsgemäßen Cache

Figur 3 zeigt einen erfindungsgemäßen Cache mit zeitgleicher, arbitrierter Zugriffsmöglichkeit durch mehrere

Rechenwerke Figur 4 zeigt den internen Aufbau eines eines Caches Figur 5 zeigt den Anschluß eines erfindungsgemäßen Caches an den Speicher Figur 6 zeigt den Ablauf in der Statemachine des Caches Figur 7 zeigt den Anschluß des erfindungsgemäßen Cachesystems an ein schnelles Bussystem am Beispiel eines RAMBUS

Controllers (RAC) Figur 8 zeigt den Aufbau einer Multiplexer/Demultiplexer Struktur

3.1 Detailbeschreibung der Diagramme

In Figur la ist eine Mehrzahl (2ⁿ) von Cache-Speichern (0101) abgebildet. Die Adressen A_n..A₀ werden zur Selektion eines aus den 2ⁿ Cache-Speichern verwendet. Eine Cacheline (CL) reicht von A_nx2ⁿ + .. + Aι 2^x + A₀x2° = 0 bis A_nx2ⁿ + .. + Aχx2^x + A₀x2° = 2ⁿ-l. Der Cache ist 2^m Einträge tief, d.h. er reicht von A_n+_m..An+ι. Der Bereich A_n+m+t • -An₊m+i wird in das, dem Cache- Speicher zugeordneten, TAG-RAM (0102) eingetragen. Der Burst reicht über eine CL von

In Figur lb ist eine Mehrzahl (2ⁿ) von Cache-Speichern (0101) abgebildet. Die Adressen A_n..A₀ werden zur Selektion eines aus den 2ⁿ Cache-Speichern verwendet. Eine Cacheline (CL) reicht über mehrere Cachezeilen von A_nx2ⁿ + .. + A₁ 2¹ + A₀x2° = 0 bis _{χ 2} (n+p) ₊

' (n+p) + A_X 2¹ + A₀x2° 2^n+p- l . Der Cache ist 2ⁿ

Einträge tief , d . h . er reicht von A_n+m . . A_n+ι . Dabei gi lt

A_n+m . . A_n+ι = An+m • • A_n+P . . A_n+ι . Der Bereich A_n+m+t • • A_n+Itl+ι wird in das , dem Cache-Speicher zugeordneten, TAG-RAM (0102) eingetragen. Der Burst reicht über eine CL von

In Figur 2a ist ein einzelner Cache (0201) nach dem Stand der Technik abgebildet. Dabei kann die Datenbreite zum angeschlossenen Rechenwerk um ein Vielfaches höher (b>>) sein als die Datenbreite des Speicher-Anschlusses (0202) .

Figur 2b zeigt einen erfindungsgemäßen Cache-Speicher, der aus mehreren einzelnen Speichern (0203) besteht. Durch die von den Rechenwerken stammenden Adressen A_n..A₀ (0204) wird über einen Multiplexer/Demultiplexer (0205) einer der Cache-Speicher für den Zugriff durch das Rechenwerk (0211) ausgewählt. Eine in Figur 5 und Figur 6 näher beschriebene Statemachine (0206) steuert den Zugriff und den Burst der Cachelines in den Speicher (0210) . Dazu wählt sie über den Multiplexer/Demultiplexer (0207) anhand der von 0206 generierten Adressen (0208) während eines Burst jeweils eines der 0203 aus. Die Adresse der Cacheline (je nach Implementierung A_n+m..A_n+ι oder A_n+m..A_n+P..A_n+ι) wird über 0209 den 0203 zugeführt.

Figur 2c zeigt den internen Aufbau eines Caches nach dem Stand der Technik (vgl. Fig. 2a) . Im Speicher (0212) sind mehrere Datenworter (0213) in horizontaler Richtung zusammengefaßt, auf die nur ein gemeinsamer Zugriff möglich ist. Eine Cacheline (CL) umfaßt mehrere Datenwörter mit gleicher Y- Adresse.

Figur 3 zeigt eine mögliche Ausgestaltung des Anschlußes der CS an mehrere CELs. Dabei wird jeder CS (0304) ein Multiplexer/Demultiplexer (0301) zugeordnet, dem der Bus (0302) jedes Rechenwerkes zugeführt wird. Dabei sind die Adressleitungen A_n..A₀ auskodiert (0303) und dienen als Zugriffsanforderung auf den jeweiligen der Auskodierung ugeordneten CS. Ein Arbiter (0305), vorzugsweise ein SCRR-ARB (vgl. PACT10) selektiert eine der Zugriffsanforderungen und steuert 0301 entsprechend an.

Figur 4 zeigt einen möglichen Aufbau eines 0304. Die in der Zeichnung nach oben geführten Leitungen dienen zum Anschluß des Speichers, die nach unten geführten Leitungen dienen zum Anschluß an das/die Rechenwerk (e) (CEL). Über einen Multiplexer (0407) gelangen die Adressen A_n+m..A_n+ι als CAn+m- .CA_n+ι (0404) an den Adresseingang des TAG-RAMs 0401. Der TAG-RAM speichert bei Zugriffen durch die Statemachine (0206) die Adressen A_n+m+t• •A_n+_m+ι • Greifen die CEL auf den Cache zu, werden mittles 0402 die in 0401 gespeicherten Adressen mit den von CEL angefordeten Adressen verglichen. Sind die Adressen "gleich", befinden sich die Daten in dem Cache-RAM (0403) was einen Cache-Hit bedeutet, ansonsten befinden sich die Daten nicht im Cache-RAM, entsprechend bedeutet "ungleich" wird ein Cache-Miss signalisiert. 0404 wird als Adresseingang an 0403 geführt. Die Daten werden bei Lesezugriffen über den Demultiplexer/Multiplexer 0405 ausgegeben, bzw. bei Schreibzugriffen über den Multiplexer/Demultiplexer 0405 geschrieben.

Mittels des 1-bit Speichers 0406 wird vermerkt, ob die CEL die Daten an einer bestimmten Adresse geändert haben. Greifen die CEL schreibend auf die Daten zu, wird an der Adresse (0404) der Daten "Dirty" in 0406 geschrieben. Bei einem lesenden Zugriff bleibt 0406 unverändert. Bei schreibendem Zugriff auf die Daten durch die Statemachine 0206 wird "clean" an die betreffende Adresse geschrieben. Anhand von "dirty" und "clean" erkennt 0206 ob die Cacheline von den CEL verändert wurde ("dirty") und in den Speicher zurückgeschrieben werden muß, oder ob die unveränderte Cacheline einfach überschrieben werden kann. Der Ablauf der Statemachine 0206 wird in Figur 6 dargestellt.

Über den Vergleicher 0409 wird festgestellt, ob die Statemachine 0206 auf dieselben Adressen (Same_Adr) wie die CEL zugreift. Das bedeutet, das 0206 verändert die Daten in 0403, während die CEL den Zugriff auf genau diese Daten anfordert - oder umgekehrt. Da zu einem Zeitpunkt entweder die CEL oder 0206 auf die Daten zugreift, ergibt sich daraus kein Konsistenzproblem. Jedoch geht erhebliche Geschwindigkeit verloren, wenn Daten, die von den CEL benötigt werden, zunächst von 0206 mit anderen Daten überschrieben werden, um nach einem daraus zwangsläufig resultierenden Cache-Miss wieder neu von 0206 geschrieben werden zu werden. Liegt ein Cache-Hit UND (0410) ein Same_Adr vor, wird 0206 signalisiert (FreeReq) , daß das Überschreiben der Daten in 0403 so lange verzögert werden soll, bis die CEL ihrerseits die Daten gelesen bzw. geschrieben haben. Für das bessere

Verständnis wird auf Figur 6 verwiesen.

Ein Cache-Miss wird an 0206 weitergeleitet und bewirkt das

Laden der entsprechenden Daten.

Den CEL muß angezeigt werden, wann der Zugriff vom Cachesystem akzeptiert wurde. Dazu kann zur Synchronisation ein einfaches

Quittierungssignal an die CEL gesendet werden. Z.B. kann ein

Cache-Hit gemäß P197 04 728-9 ein ACK-Handshake-Signal generieren um anzuzeigen, daß der aktuelle Zugriff akzeptiert wurde.

Die Multiplexer 0407, 0405, 0408 werden von 0206 über ein

Signal "LOCK" derart angesteuert, daß entweder die CEL Zugriff auf den Cache haben oder 0206 auf den Cache zugreift.

In Figur 5 gelangen die Cache-Miss Signale (0504) auf einen Arbiter (0501), vorzugsweise eine SCRR-ARB gemäß PACT10. Der Arbiter (0501) selektiert jeweils einen der einen Cache-Miss sendenden Cachespeicher pro Zeiteinheit und schaltet dessen Bus (0505) über den Multiplexer/Demultiplexer 0502 auf den Speicherbus (0503). Das Valid-Signal des Arbiters (0506, vgl. Stand der Technik) , das anzeigt, daß aufgrund des Auftretens eines Cache-Miss-Signals ein Cachespeicher zur Bearbeitung ausgewählt wurde, wird an die Statemachine 0206 geleitet. Die Dirty-Signale (0508) aller CS werden verODERt (0509) und 0206 zugeführt. Ebenfalls werden die FreeReq-Signale (0510) aller CS verODERt (0511) und 0206 zugeführt. Über 0512 (FreeAck) zeigt 0206 den CS an, daß das anstehende

FreeReq akzepiert wurde und die CS noch einen Taktzyklus Zeit zur Durchführung der anstehenden Zugriffe erhalten.

Über 0513 (Lock) zeigt 0206 den CS an, daß sie die Kontrolle über die CS zur Durchführung einer Veränderung einer CL übernimmt. 0513 schaltet die Multiplexer 0407, 0405, 0408 so, daß 0206 die Kontrolle erhält.

0514 ist das Write-Enable Signal, das die aus dem Speicher gelesenen Daten in die CS schreibt und dabei 0406 auf "clean" setzt.

Über den Bus 0507 werden die Steuersignale, je nach angeschlossenem Ramsystem (z.B. RAMBUS), an den Speicher gesendet .

Figur 6 zeigt den Ablauf innerhalb der Statemachine 0206. Der Grundzustand ist IDLE. Beim Auftreten eines VALID-Signals (0506) generiert die Statemachine das Signal LOCK. LOCK bleibt während aller Zustände, außer bei IDLE gesetzt! Tritt direket nach dem Setzen von "LOCK" ein FreeReq-Signal auf, springt die Statemachine in den Zustand WAIT und generiert für einen Taktzyklus das Signal FreeAck um den CEL einen letzten Zugriff auf die CS zu genehmigen; FreeAck besitzt in den CS eine höhere Priorität als LOCK.

Unabhängig, ob die Statemachine im Zustand IDLE keinen FreeReq erhält oder den Zustand WAIT verläßt, geschieht folgendes: a) ein DIRTY-Signal liegt an. D.h. die Daten in der aktuellen Cacheline wurden verändert. Die Statemachine schreibt die Grundadresse des Bursts Adresse n+m+ ' ♦ An+m+2 jϊ+pj» • A_n+ι An . . Ao

Wert An+m+t • • A_n+m+ι A_n+m • • A_n+ι 0 auf den Bus (0503, 0507) und schreibt die Daten aus der CL so lange in den Speicher, bis das Ende der Cacheline erreicht wurde:

Danach springt die Statemachine nach Punkt b) b) kein DIRTY-Signal liegt an; oder 0206 springt von Punkt a )

D.h. die Daten in der aktuellen Cacheline wurden nicht verändert. Die Statemachine schreibt die Grundadresse des

Bursts

Adresse t_f+m+t_* ♦ An+m+i AR+ΪH ' " An+1 _ß « . Ao

Wert An+m+t • • An+m+l n+m • • A_n+χ 0 auf den Bus (0503, 0507) und liest die Daten aus der CL so lange aus dem Speicher in den Cache, bis das Ende der Cacheline erreicht wurde: t Adresse & «S-HS-S-t-» +*»0*63*1 Ä- • »*X Ä^^Äβ

Wert A, n+m+t ■ . A -,n+m+l A_r • A n+l 2ⁿ-l

Danach springt die Statemachine in den Zustand IDLE.

In Figur 7 ist als Implementationsbeispiel die Verbindung der erfindungsgemäßen Cachestruktur mit dem RAMBUS-System. Dabei werden je zwei 8-bit Register (0701) der RAC (0702) zu einem 16-bit Register zusammengefaßt (vgl. Stand der Technik/RAMBUS) . Die 8 8-bit Register der RAC sind somit 4 16- bit CS (0703) zugeordnet. Der Inhalt der 8 Register kann in einem Zyklus in das Cachesystem der 4 CS geschrieben werden, oder in eine Mehrzahl von Zyklen, wobei mindestens 2 0701 in einem Zyklus übertragen werden. Die folgende Berechnung am Beispiel der ConcurrentRDRAM Daten zeigt den technischen Vorteil der vorliegenden Erfindung, i.b. in Hinsicht auf die Reduzierung der Geschwindigkeitsanforderungen an die Cachespeicher: Das ConcurrentRDRAM-RAMBUS-System bietet eine Datentransferrate zum Speicher (0705) von maximal 633MB/s, d.h. jedes der 8 0701 (8-bit) wird mit ca. 80MHz beschrieben. Für die Übertragung der Daten (16-bit) aus den 0701 in die 0703 genügt eine moderate Frequenz von 40MHz, wodurch der Einsatz von Standard-Cachespeichern nach dem Stand der Technik ermöglich wird. Die Statemachine 0704 steuert die 0703 und 0702, wie bereits mehrfach ausgeführt.

Figur 8 zeigt die Implementierung einer Multiplexer-/ Demultiplexer-Struktur wie mehrfach angewendet. Eine erste Gruppe von Bussen (0801) wird über Multiplexer (0802) auf eine zweite Gruppe von Bussen (0803) übertragen. Die zweite Gruppe von Bussen wird wiederum über die Multiplexer 0804 auf die erste Gruppe von Bussen übertragen. Aus der Sicht der Gruppe 0801 stellen 0802 die Multiplexer und 0804 die Demultiplexer dar.

Claims

Patentansprüche

1. Cachesystem zum Zwischenspeichern von Daten und Code für Bausteine mit zwei- oder mehrdimensionaler

Rechenwerksstruktur, u.a. DFPs, RAW-Machines, FPGAs und DPGAs, sowie Mikroprozessoren und Signalsprozessoren, dadurch gekennzeichnet, daß a) das Cachesystem aus einer Mehrzahl aus einzelnen Cache- Speichern besteht, b) alle Cache-Speicher zusammen einen linearen unterbrechungsfreien Adressraum über die niederwertigen Adressen ergeben.

2. Cachesystem nach Anspruch 1, dadurch gekennzeichnet, daß auf jeden Cache-Speicher einzeln und unabhängig von einem Rechenwerk zugegriffen werden kann.

3. Cachesystem nach Anspruch 1-2, dadurch gekennzeichnet, daß zum Zugriff mehrerer Rechenwerke auf ein und denselben Cache- Speicher mehrere Bussysteme an den Cache-Speicher geführt sind, von denen jeweils eines über einen Multiplexer mit dem Cache-Speicher verbunden wird.

4. Cachesystem nach Anspruch 1-3, dadurch gekennzeichnet, daß bei Zugriffen mehrerer Rechenwerke auf ein und denselben Cache-Speicher jeweils ein Rechenwerk pro Zeiteinheit arbitriert und zugewiesen wird.

5. Cachesystem nach Anspruch 1-4, dadurch gekennzeichnet, daß zum Anschluß eines schnellen Bussystemes jeweils ein Register oder Port oder eine Gruppe von Registern oder Ports einem oder einer Gruppe von Cache-Speichern zugeordnet wird, wobei eine feste Zuordnung der Adressen zu den Ports/Registern und den Cachespeichern besteht.