WO1994027222A1

WO1994027222A1 - Verfahren zum umsetzen einer virtuellen speicheradresse mit einer ersten länge in eine realadresse mit einer zweiten länge

Info

Publication number: WO1994027222A1
Application number: PCT/EP1994/001453
Authority: WO
Inventors: Jochen Liedtke
Original assignee: Jochen Liedtke
Priority date: 1993-05-10
Filing date: 1994-05-06
Publication date: 1994-11-24
Also published as: US5790979A

Abstract

Mit dem Verfahren lassen sich einfach und schnell virtuelle Adressen eines großen feingranularen und spärlich besetzten Adressraums in Realadressen umsetzen. Die Umsetzung erfolgt in mehreren Stufen, wobei der Verweis von Stufe zu Stufe durch eine zusätzlich gespeicherte Information gesteuert ist. Aufgrund dieser Information, dem sogenannten Guard, kann von der üblicherweise starren Stufeneinteilung abgerückt werden. Es ist möglich, daß infolge des Guards einzelne Stufen übersprungen werden, was zu einer Abkürzung des Umsetzverfahrens durch Überspringen bzw. Auslassen von Zwischenstufen führt.

Description

VERFAHREN ZUM UMSETZEN EINER VIRTUELLEN SPEICHERADRESSE MIT EINER ERSTEN LANGE IN EINE REALADRESSE MIT EINER ZWEITEN LANGE

Die Erfindung betrifft ein Verfahren zum Abbilden eines ersten Bitstrings mit einer ersten Länge auf einen zwei¬ ten Bitstring mit einer zweiten Länge.

Ein solches Verfahren ist insbesondere einsetzbar, wenn es darum geht, bei Rechnern mit virtuellen Speichern in der sogenannten MMU (Memory Management Unit) die Adresse des virtuellen Speichers in die Adresse des Realspeichers umzusetzen.

Die Adressenumsetzung virtuell → real erfolgt herkömmlich in einem mehrstufigen Verfahren, bei dem sogenannte Page Tables eingesetzt werden. Mittels der ersten Bits einer virtuellen Adresse wird eine erste Tabelle adressiert und der unter dieser Tabellenadresse gespeicherte Wert ausge¬ lesen. Der ausgelesene Wert ist die Anfangsadresse einer zweiten Tabelle, die durch die nächste Gruppe von Bits der virtuellen Adresse adressiert wird. Da die Gruppen jeweils eine im vorhinein feste und von Gruppe zu Gruppe konstante Anzahl von Bits umfaßt, läuft das bekannte Verfahren in mehreren Stufen ab, bis man schließlich mit der letzten Tabelle auf der Datenspeicherseite, nämlich dem Realspeicher, angelangt ist. Die letzte Tabelle gibt die Datenseite (auch Kachel genannt) an. Die verbleibende Bitgruppe (letzten Bits der virtuellen Adresse) repräsen¬ tiert dann die Adresse (Offset) innerhalb der Datenseite. Dieses Verfahren ist daten- und zeitintensiv, und zwar insbesondere dann, wenn man sich Adressräume von 2⁶⁴ Byte vorstellt, die spärlich besetzt und/oder feingranular sind. Ferner sind bei bekannten Verfahren Variationen der Größe der Datenseiten nur recht eingeschränkt möglich, z.B. 4 MB und 4 KB große Datenseiten gleichzeitig reali¬ sierbar. Dies ist aber oftmals nicht ausreichend, da es wünschenswert und notwendig sein kann, daß viele unter¬ schiedlich große Datenseiten vorgesehen werden können.

DurchmoderneBetriebssystementwicklungen (beispielsweise Mach, L3) , die Ideen der Objektorientierung mit vielen kleinen Objekten und insbesondere durch das Aufkommen von Prozessoren mit großen Adressräumen (64-bit Adressen) werden wesentliche Defizite der bisher verfügbaren MMUs deutlich. Zu diesen Defiziten zählen die zu grobe und zu uniforme Granularität für große Adressräume, der immense Aufwand für spärlich belegte Adressräume (2⁶⁴-Byte Adressräume sind immer spärlich belegt) und die mangelnde Unterstützung hierarchischer Strukturen. Für derart große Adressräume werden hochauflösende MMUs benötigt. Hochauf¬ lösende MMUs müssen 64-bit oder noch breitere virtuelle Adressen verarbeiten können (denkbar sind 128-bit Adres¬ sen sowie noch breitere Adressen) , Seitengrößen ab 8 Byte (8, 16, 32, ..., 1K, 2K, 4K, ...) verwalten können, wobei diese Seitengrößen im Adressraum mischbar sein sollen und hochauflösende MMUs sollen bei beliebiger Belegung des Adressraums maximal 16 bis 32 Bytes (je nach Größe des virtuellen und des realenAdressraumes) Verwaltungsinfor¬ mation pro allokierter Seite benötigen.

Wie bereits oben erwähnt, werden bisher virtuelle Adres¬ sen schrittweise anhand eines Baums von einzelnen Page Tables (den einzelnen Tabellen) in Realadressen umge¬ setzt. Anhand von Fig. 18 soll nachfolgend ein einzelner Umsetzschritt einer virtuellen (Binär-)Adresse v für eine Aktion x anhand einer Page Table mit der Adresse p nach dem herkömmlichen Verfahren betrachtet werden. Dazu wird v in einen höherwertigen Teil u (bestehend aus einer bestimmten Anzahl der höherwertigen Bits) und einem niederwertigen Teil V (bestehend aus den niederwertigen Bits) aufgespaltet. Mittels u wird dann ein Eintrag der durch p anfangsadressierten Page Table ausgewählt. Dieser Eintrag beinhaltet ein Accessattribut a und eine neue Adresse p' als Anfangsadresse für die nächste Tabelle bzw. den nächsten Page Table des Baums. Bei vielen Rech¬ nern setzen sich die Aktionen aus der Operation read/ write oder auch execute und dem Betriebsmodus user/kernel zusammen. Entsprechend sind die Accessattribute aufge¬ baut, die jeweils gewisse (im Extremfall alle oder keine) Aktionen zulassen. Die Menge und Semantik der konkreten Aktionen und Accessattribute und die Methode der Prüfung "Aktion gegen Attribut" ist aus der Sicht des hier vorge¬ stellten Verfahrens irrelevant. Entscheidend ist nur, daß jeweils aufgrund von Aktion x und Accessattribut a ent¬ schieden wird, ob die Aktion erlaubt ist oder abgebrochen werden muß. Verbietet das Accessattribut die Aktion (x >^■ a) , wird die Umsetzung abgebrochen und Page Fault signa¬ lisiert. Ist die Aktion zulässig (x _ a) , gehen x, p' und V als Eingangsparameter in die Umsetzung der nächsten Stufe ein. Man beachte, daß V um die Bitbreite von u kürzer ist als v. Ist die letzte Stufe erreicht, zeigt p' auf den Anfang der Datenseite und V ist der Offset innerhalb der Seite. Bei einer zweistufigen Umsetzung ergibt sich die Situation gemäß Fig. 19. Wenn auf diese Weise 64-bit breite virtuelle Adressen umgesetzt werden sollen und die minimale Seitengröße 16 Bytes betragen soll, kann man das beispielsweise durch eine zehnstufige Umsetzung (4 KB pro Page Table) erreichen. Spärlich be¬ setzte Adressräume erfordern damit allerdings einen untragbaren Verwaltungsaufwand. So können 1024 16-byte- Seiten so allokiert werden, daß pro 16 Datenbytes 20 Kbytes Verwaltungsdaten nötig sind, das sind 0,08 % Nutzdaten. Bei Verwendung einer 60-stufigen Umsetzung (8 Byte pro Page Table) reduziert sich der Verwaltungsauf¬ wand auf das Minimum, 400 Bytes, das sind aber immer noch nur 4 % Nutzdaten. Außerdem dürfte ein 60-stufiger Um¬ setzprozeß viel zu zeitaufwendig sein. Betrachtet man kleinere Adressräume mit beispielsweise 32-bit-breiten Adressen, werden die entsprechenden Werte zwar besser, sind aber immer noch untragbar. So würde eine 14-stufige Umsetzung (16 Byte pro Page Table) im schlechtesten Fall zu nur 8 % Nutzdaten führen.

Bei einem weiteren bekannten Adressumsetzungsverfahren (kurz Inverted Page Tables genannt) besteht jede Tabelle aus einem Eintrag pro Kachel des Realspeichers, der je¬ weils die virtuelle Adresse der zugeordneten Seite des virtuellen Adressraums enthält. Zugegriffen wird mit Hilfe einer Hashfunktion. Das Verfahren ist bildlich in Fig. 20 wiedergegeben. Bei der Umsetzung der virtuellen Adresse v in die Realadresse r wird der niederwertige Teil w direkt übernommen. Der höherwertige Teil u wird durch die Hashfunktion auf einen Wert p abgebildet, der sowohl die vermutliche Kachel im Realspeicher identifi¬ ziert als auch zur Indizierung der invertierten Page Table benutzt wird. Wenn der entsprechende Eintrag die richtige virtuelle Adresse u enthält, liegt ein Treffer vor. Andernfalls (in Fig. 20 nicht dargestellt) müssen vermittels Rehash oder Weiterkettung weitere Kacheln untersucht werden, bis ein Treffer vorliegt oder auf Page Fault entschieden wird. Da bei Inverted Page Tables die Verwaltungsinformation nur von der Größe des Real- speichers (und der Seitengröße) abhängt, aber nicht von der Größe und der Zahl der virtuellen Adressräume, treten keine Platzprobleme auf. Trotzdem machen die drei nach¬ folgenden Einschränkungen die Methode für feingranulare riesige Adressräume wenig brauchbar:

1. Alle Seiten müssen gleich groß sein, d.h. minimale Seitengröße haben. In der Praxis fast immer günsti¬ ger dürfte aber eine Mischung aus kleinen (16 ... 256 Bytes) und mittleren (2 ... 16 Kbytes) sein. Man könnte mehrere Seitengrößen erlauben, indem man für jede Größe eine eigene Hashfunktion und inver¬ tierte Page Table verwendet. Ohne eine feste Auf¬ teilung des Adressraumes müßten dann aber bei jeder Adressumsetzung in der Regel mehrere (im Extremfall alle) sequentiell durchprobiert werden. Aufgrund der Tabellengröße erscheint eine parallele Imple¬ mentierung kaum möglich.

2. Bei kleinen Seiten, großen Realspeichern und riesi¬ gen Adressräumen muß die verwendete Hashfunktion extrem gut sein, um eine ausreichend hohe Treffer¬ rate zu gewährleisten. Wahrscheinlich sind Verfah¬ ren wie Universal Hashing nötig, die die Hashfunk¬ tion dynamisch ändern. Der Hardware und Software- overhead dürfte immens sein.

3. Sharing von Seiten oder ganzen Adressraumteilen ist nicht möglich. Die von modernen Betriebssystemen geforderten hierarchischen Operationen (lazy copying, copy on write, mapping, locking) sind nicht mit akzeptabler Effizienz realisierbar.

Aus Kostengründen kann nicht bei jedem Speicherzugriff eines Programms der Page Table Baum parsiert werden. Dieser Overhead wird mit Hilfe eines speziellen Caches für die Adressumsetzung vermieden, eine Translation Lookaside Buffers (sogenannter TLB - nachfolgend auch Abbildungseinheit genannt) . Normalerweise werden mehr als 90 % aller Adressumsetzungen zu Nullkosten durch TLB Treffer erledigt. Nur bei einem TLB Miss werden die Page Tables parsiert. Konventionelle TLBs halten typischer¬ weise 32 bis 128 Einträge, von denen jeder die Adressum¬ setzung einer Seite beschreibt. Sie sind teilweise voll assoziativ, häufig aber nur 4-Wege-assoziativ aufgebaut. Manchmal werden anstatt oder zur Ergänzung dieser TLB's virtuell adressierte Caches benutzt.

Der Erfindung liegt die Aufgabe zugrunde, ein Verfahren zum Abbilden eines ersten Bitstrings mit einer ersten Länge auf einen zweiten Bitstring mit einer zweiten Länge anzugeben, mit dem sich bei reduzierter Anzahl und/oder Größe von Page Tables eine effektive und effiziente Ab¬ bildung eines ersten Bitstrings auf einen zweiten Bit¬ string realisieren läßt und dies insbesondere bei spär¬ lich besetzten (kleine Datenseiten und/ oder Kacheln) großen Adressräumen.

Insbesondere soll eine MMU von ihrer Funktionsweise her beschrieben werden, die mit vertretbarem Speicher- und Zeitaufwand die Realisierung riesiger, spärlich besetzter Adressräume (2⁶⁴ Bytes oder mehr) mit möglichst feiner Granularität erlaubt. Dabei sollen die Vorteile der zuvor beschriebenen baumartigen Page Tables (Sharing von Teil- bäumen, Unterstützung hierarchischer Operationen) erhal¬ ten bleiben. Die Granularität soll nicht uniform sein müssen, d.h. die Seitengröße soll im Adressraum von Stelle zu Stelle variieren können. Dabei sind Seiten stets ausgerichtet, d.h. für die virtuelle Anfangsadresse v einer Seite mit Größe 2¹ gilt stets v mod 2¹ = 0. Als noch vertretbarer Speicheraufwand wird für den Extremfall (nur Seiten mit Minimalgröße, zufällig verteilt) eine Verteilung von Nutzdaten zu Verwaltungsinformation (Page Tables) von etwa 1 : 1 angesehen. Das Verhältnis sollte mit zunehmender Seitengröße drastisch besser werden. Als vertretbarer Zeitaufwand wird ungefähr der Aufwand kon¬ ventioneller MMUs angesehen.

Zur Lösung dieser Aufgabe wird mit der Erfindung ein Verfahren zum Abbilden eines ersten Bitstrings mit einer ersten Länge auf einen zweiten Bitstring mit einer zwei¬ ten Länge vorgeschlagen, bei dem a) ein erster Speicherbereich mit einer ersten An¬ fangsadresse (p) und einer ersten Länge vorgegeben wird, b) geprüft wird, ob die Länge des ersten Speicherbe¬ reichs kleiner oder gleich 2 potenziert mit der Länge des ersten Bitstrings (v) ist und, wenn dies der Fall ist, die Summe aus der ersten Anfangs- adresse (p) des ersten Speicherbereichs und dem ersten Bitstring (v) den zweiten Bitstring ergibt (Datenseite erreicht) , und, wenn die obige Prüfung negativ ist, der erste Speicherbereich als eine erste Tabelle genommen wird und c) aus dem ersten Bitstring (v) Bits (u) an be¬ stimmten Stellen ausgewählt werden, wobei die nicht-ausgewählten verbleibenden Bits einen Restbitstring (w,v') bilden, d) die ausgewählten Bits (u) des ersten Bitstrings (v) einen Eintrag der ersten Tabelle bestimmen, e) dieser Eintrag der ersten Tabelle ausgelesen wird, f) aus dem ausgelesenen Tabelleneintrag die An¬ f ngsadresse (p' ) sowie Länge eines weiteren Speicherbereichs und eine eine Anzahl von Bits umfassende Bitfolge (g) abgeleitet werden, g) aus dem Restbitstring (w,v') eine Anzahl von Bits ausgewählt wird, die gleich der Anzahl der Bits der aus dem Tabelleneintrag der ersten Tabelle abgeleiteten Bitfolge (g) ist, h) geprüft wird, ob die ausgewählten Bits des Restbitstrings (w,V) als Folge betrachtet gleich der aus dem Tabelleneintrag der ersten Tabelle abgeleiteten Bitfolge (g) ist, i) eine Fehlermeldung dergestalt, daß die Abbildung für den ersten Bitstring (v) nicht definiert ist, erzeugt wird, wenn die obige Prüfung nega¬ tiv ist, k) die Bitfolge (g) aus dem Restbitstring (w, v' ) extrahiert wird, wenn die obige Prüfung positiv ist, und

1) das Verfahren ab Schritt b) mit dem nicht-extra¬ hierten verbleibenden Teil (V ) des Restbit- strings (w,v') als erstem Bitstring (v) sowie der Anfangsadresse (p') und Länge des weiteren Speicherbereichs als Anfangsadresse (p) und Länge des ersten Speicherbereichs fortgesetzt wird.

Bei dem erfindungsgemäßen Verfahren wird von einem ersten Bitstring, der beispielsweise eine virtuelle Adresse re¬ präsentiert, ausgegangen und dieser erste Bitstring auf einen zweiten Bitstring abgebildet (umgesetzt, konver¬ tiert o.dgl.), der insbesondere die Realadresse dar¬ stellt. Vorgegeben werden ein erster Speicherbereich, der eine Anfangsadresse und eine Länge aufweist. Läßt sich mit dem ersten Bitstring ein Bereich mit einer größeren Länge als der des ersten Speicherbereichs nicht vollstän¬ dig adressieren, so erhält man den zweiten Bitstring aus der Summe der Anfangsadresse der ersten Tabelle und dem ersten Bitstring, d.h. aus der Summe der durch die An¬ fangsadresse und dem ersten Bitstring jeweils repräsen¬ tierten Zahlen. In diesem Fall ist die Datenseite er¬ reicht.

Der Normalfall wird sein, daß im ersten Umsetzschritt 2 potenziert mit der Länge des ersten Bitstrings größer ist als die Länge des ersten Speicherbereichs. In diesem Fall handelt es sich bei dem ersten Speicherbereich um eine erste Tabelle, die zur Adressumsetzung benutzt wird und deren Anzahl an Einträgen üblicherweise eine Zweier- Potenz ist. Vom ersten Bitstring werden Bits an bestimm- ten Stellen ausgewählt, so daß die Abbildung der ausge¬ wählten Bits auf die Einträge der ersten Tabelle einein¬ deutig ist, d.h. daß die Anzahl der ausgewählten Bits gleich dem Zweier-Logarithmus der Anzahl der Tabellenein¬ träge ist. Die nicht ausgewählten verbleibenden Bits des ersten Bitstrings bilden dann einen Restbitstring. Die ausgewählten Bits des ersten Bitstrings bestimmen den¬ jenigen Eintrag der ersten Tabelle, der ausgelesen werden soll. In diesem Eintrag befinden sich Informationen über die Anfangsadresse und die Länge eines weiteren Speicher¬ bereichs. Ferner ist in diesem Eintrag der Tabelle aber auch eine Bitfolge mit einer bestimmten Bitlänge abge¬ legt. Bei dieser Bitfolge handelt es sich um den später auch mit "Guard" bezeichneten Datenwert. Es wird nun überprüft, ob der Restbitstring z.B. mit dieser Bitfolge beginnt. Ist dies der Fall, so wird eine Fehlermeldung ausgegeben, die besagt, daß die Abbildung nicht definiert ist. Ist die Prüfung hingegen positiv, so wird der Rest¬ bitstring um die Bits der Bitfolge "gekürzt", d.h. in diesem Beispiel werden die führenden Bits abgeschnitten. Dann beginnt das Verfahren von vorn, wobei der verblei¬ bende Teils des Restbitstrings als neuer erster Bitstring und die Anfangsadresse sowie Länge des weiteren Speicher¬ bereichs als Anfangsadresse und Länge des neuen ersten Speicherbereichs genommen werden.

Eine Variante des Verfahrens ist, den Restbitstring vor der Prüfung darauf, ob er den Guard enthält, zu permu¬ tieren und ihn unter Umständen danach (zurück-) zu permutieren.

Der Hauptgedanke der Erfindung spiegelt sich in der Maßnahme wieder, in einer Tabelle neben der Anfangs- adresse für die Tabelle der nächsten Stufe oder die Datenseite einen Wert (Guard genannt) in Form der Bit- folge zu speichern, der angibt, wieviel (und unter Um- ständen welche) Bits von den Restbitfolgen abgetrennt werden, um mit den Anfangsbits des verbleibenden nicht- abgetrennten Teils der Restbitfolgen den nächsten Speicherbereich (Tabelle oder Datenseite) deren Anfangs¬ adresse in dem ausgelesenen Eintrag der vorherigen Tabelle enthalten ist, zu adressieren und den Eintrag der derart spezifizierten Adresse dieser Tabelle auszulesen. Eine Fehlermeldung, daß die Umsetzung nicht definiert oder möglich ist, wird immer dann ausgegebenen, wenn die den Guard darstellende Bitfolge nicht in der Restbitfolge des ersten Bitstrings oder in dem ersten Bitstring selbst enthalten ist. Je länger der Guard ist, umso weniger Um¬ setzungsstufen (Zyklen) sind erforderlich.

Vorteilhafterweise werden die ersten Bits des ersten Bitstrings genommen, um die auszulesende Adresse der ersten Tabelle zu spezifizieren. Vorzugsweise wird auch der Guard mit den ersten Bits der verbleibenden Rest- bitfolge des ersten Bitstrings auf Identität verglichen. Man kann in beiden Fällen auch andere als die ersten Bits verwenden.

Eine vorteilhafte Weiterbildung der Erfindung ist in An¬ spruch 4 angegeben. Hierbei wird die identische Abbildung als Spezialfall einer Permutation betrachtet.

Schließlich ist es von Vorteil, das erfindungsgemäße Ver¬ fahren dahingehend abzuändern, daß pro Umsetzschritt mehrere Guards daraufhin untersucht werden, ob ihre je¬ weilige Bitfolge in dem betreffenden Restbitstring ent¬ halten ist. Diese Weiterbildung ist in Anspruch 5 ange¬ geben. Hierdurch wird eine Beschleunigung der Umsetzung bzw. eine Reduktion der für die Tabellen benötigte Speichergröße erzielt. Wenn man das bisherige erfindungs¬ gemäße Verfahren mit " (einfachen) guarded Page Tables" bezeichnen würde, so würde es sich bei dem Verfahren nach Anspruch 5 um "k-assoziative guarded Page Tables" han¬ deln, wobei k für die Anzahl von pro Umsetzschritt zu vergleichender Guard-Bitfolgen steht.

Die Merkmale weiterer vorteilhafter Ausgestaltungen der Erfindung sind in den übrigen Unteransprüchen angegeben.

Nachfolgend werden anhand der Figuren Ausführungsbei- spiele der Erfindung näher erläutert. Im einzelnen zei¬ gen:

Fig. 1 eine bildliche Darstellung eines Umsetzungs- schritts des erfindungsgemäßen Verfahrens gemäß dem Ausführungsbeispiel als "einfache guarded Page tables",

Fig. 2 ein Beispiel für drei binäre Page Tables mit je zwei Einträgen bei einer 20-bit Adressumsetzung unter Zuhilfenahme des Verfahrens gemäß Fig. 1,

Fig. 3 eine bildliche Darstellung des erfindungsgemäßen Verfahrens gemäß dem Ausführungsbeispiel in der Form mit "K-assoziativen guarded Page Tables",

Fig. 4 das erfindungsgemäße Verfahren in der Ausge¬ staltung mit "k/j-assoziativen guarded Page Tables",

Fig. 5 das Verfahren gemäß Fig. 4, jedoch mit einem abgespeicherten Hinweiselement,

Fig. 6 eine schematische Darstellung für die Verwendung von mehreren sukzessive abzuarbeitenden TLBs (in den Ansprüchen mit Abbildungseinheit bezeichnet) für das "guarded Page Table"-Verfahren, Fig. 7 eine Realisierung für eine Cache mit TLB₀-Funk- tion,

Fig. 8 eine erste Alternative einer Realisierung für den in Fig. 6 mit TLBi bezeichneten Baustein,

Fig. 9 eine zweite Alternative für die Realisierung der in Fig. 6 mit TLB_X bezeichneten Funktion,

Fig. 10 eine bildliche Darstellung eines Umsetzungs¬ schritts des erfindungsgemäßen Verfahrens gemäß einer weiteren Ausführungsform (User-Level- Mapping) ,

Fig. 11 eine schematische Darstellung eines Teils der Baumstruktur zur Verdeutlichung der Abarbeitung desselben gemäß dem Verfahren nach Fig. 10,

Fig. 12 eine Darstellung des konventionellen "realen" Aliasing zur Verdeutlichung des Unterschieds dieses Verfahrens gegenüber demjenigen nach den Fign. 10 und 11,

Fig. 13 eine bildliche Darstellung eines Umsetzungs- schritts gemäß einem weiteren Ausführungsbei- spiel der Erfindung,

Fig. 14 eine bildliche Darstellung eines Umsetzungs- schrittes, wie er bei einer weiteren Ausfüh¬ rungsform des erfindungsgemäßen Verfahrens ab¬ laufen kann,

Fig. 15 eine erste Alternative einer Hardware-Realisie¬ rung des Translators einer MMU gemäß der Erfin¬ dung, Fig. 16 eine zweite Alternative einer Hardware-Realisie¬ rung des Translators einer MMU gemäß der Erfin¬ dung,

Fig. 17 eine dritte Alternative einer Hardware-Realisie¬ rung des Translators einer MMU gemäß der Erfin¬ dung,

Fig. 18 eine bildliche Darstellung eines Umsetzungs- schrittes bei dem konventionellen Page-Table- Verfahren,

Fig. 19 das konventionelle Page-Table-Verfahren grafisch dargestellt als zweistufiges Verfahren und

Fig. 20 eine bildliche Darstellung eines Umsetzungs¬ schritts bei dem konventionellen Verfahren mit "inverted Page Tables".

Anhand von Fig. 1 wird nachfolgend der Ablauf eines Um¬ setzungsschritts des Verfahrens in der Version mit ein¬ fachen guarded Page Tables erläutert.

Die zentrale Idee der guarded Page Tables ist die Er¬ gänzung jedes Page Table Eintrags um einen Bitstring g mit variabler Länge, der als Guard bezeichnet wird. Zu¬ erst wird bei jedem Umsetzschritt wie bei der konventio¬ nellen Methode durch den höchstwertigen Teil u der vir¬ tuellen Adresse v ein Page Table Eintrag einer Page Table mit der Anfangsadresse p ausgewählt und die Aktion x gegen das Accessattribut a geprüft. Der angewählte Ein¬ trag enthält aber nicht nur Accessattribut und Zeiger (Anfangsadresse) für die nächste Page Table, sondern auch eine weitere Bitfolge, den sogenannten Guard g. Anhand der aktuellen Länge von g wird die restliche virtuelle Adresse in einen höherwertigen Teil w (gleichlang wie g) und niederwertigen Teil v' aufgespalten. Dann wird ge¬ prüft, ob g = w gilt. Bei Ungleichheit wird die Umsetzung mit Page Fault abgebrochen, bei Gleichheit wird sie mit x, p' und v' in der nächsten Stufe fortgesetzt bzw. p' + v' wird von der letzten Stufe als Realadresse geliefert.

Man beachte, daß die Länge der Guards von Eintrag zu Eintrag differieren kann. Ihre aktuelle Länge ist also als Längenfeld oder auf andere Weise geeignet codiert im Page Table Eintrag enthalten. Bei Guards der Länge 0 (G = 0) arbeitet das Verfahren genau wie das konventionelle. Aber immer, wenn konventionell Page Tables mit genau einem belegten Eintrag benötigt würden, kann hier statt¬ dessen ein Guard eingesetzt werden. Ein Guard kann sogar eine Folge solcher Page Tables ersetzen, die nur je einen gültigen Eintrag enthalten. Damit werden sowohl Speicher als auch Umsetzschritte gespart, d.h. Guards wirken als Abkürzung.

Als Beispiel sei in Fig. 2 eine 20-bit Adressumsetzung gezeigt, die drei binäre Page Tables (je zwei Einträge) verwendet. Weiterhin beinhaltet jeder Page Table Eintrag (im mit p bezeichneten Teil) nicht nur den Pointer auf die nächststufige Page Table oder Datenseite, sondern zusätzlich eine Größenangabe s für dieses Objekt. Bei Page Tables bezeichnet s die Zahl der Einträge; zulässig sind alle Zweierpotenzen 1, 2, 4, 8 ... Aus der aktuellen Page Table Größe ergibt sich dann jeweils die Länge von u. Man kann zeigen, daß aufgrund der obigen flexiblen Baumstruktur mit Hilfe der Guards Pate Table Bäume so konstruiert werden können, daß höchsten zwei Page Table Einträge pro Datenseite benötigt werden, und zwar unab¬ hängig von Adressraumgröße und Seitengröße.

Zusammen mit den variabel großen Datenseiten sollten da¬ mit fast immer mehr als 50 % Nutzdaten erreichbar sein. Bei 8 Bytes pro Page Table Eintrag lassen sich Guards bis 30-bit Länge verwenden. Dann sind bei 32-bit Adressen maximal 16 Bytes Verwaltungsinformation pro Seite nötig. Bei 64-bit Adressen können in manchen Fällen längere Guards nötig werden, die dann durch einen zusätzlichen Eintrag ä 8 Bytes realisiert werden. Im worst case (nie mehr als eine Seite pro 2³¹ Bytes und nur 16-Byte-Seiten) sind dann 40 % der Daten Nutzdaten.

Wie man ebenfalls zeigen kann, können weiterhin die Adressumsetzungsbäume so konstruiert werden, daß höchsten n/2 Stufen für einen n-bit Adressumsetzung nötig sind, wobei der oben aufgeführte Speicherbedarf nicht über¬ schritten wird. Bei 64-bit Adressen sind somit maximal 30 Stufen, bei 32-bit Adressen 14 Stufen nötig, um 16-Byte- Seiten zu erreichen.

Einen Umsetzschritt für das Verfahren mit k-assoziativen guarded Page Tables zeigt Fig. 3. Bei k-assoziativen guarded Page Tables wird in jedem Schritt nicht ein Page Table Eintrag ausgewählt, sondern gleich k Stück. Für höchstmögliche Geschwindigkeit braucht man also k paral¬ lele Werke und parallele Datenpfade für k Page Table Einträge. Die Page Table besteht jetzt nicht mehr aus s einfachen Einträgen, sondern aus s/k Clustern, die aus je k einfachen Einträgen bestehen, u ist entsprechend kürzer und wählt einen Cluster aus. Ist bei einer Page Table k > s, wird k für diesen Umsetzschritt gekür t, d.h. nur s- assoziativ gearbeitet. Bei k = 4 ergibt sicn die in Fig. 3 dargestellte Situation. Hier werden die vier angewähl¬ ten Einträge parallel gelesen und (parallel) ausgewertet. Man beachte, daß sich die Guards gi normalerweise hin¬ sichtlich ihrer Längen unterschieden, d.h. für die ver¬ schiedenen Vergleiche wird der um u gekürzte Bitstring in verschiedene Paare w_if v_A' aufgeteilt. Falls kein Treffer auftritt (alle gi = w , wird die Umsetzung mit Page Fault abgebrochen. Bei genau einem Treffer g__ = i wird das Accessattribut a_t gegen die Aktion x geprüft, und im Gültigkeitsfall werden x, p_A und v_A' an die nächste Stufe weitergereicht bzw. als Realadresse geliefert. Bei mehre¬ ren Treffern ist das Resultat nicht definiert. Wie man zeigen kann, erlauben 8-assoziative guarded Page Tables n-bit Adressumsetzung in maximal n/4 Schritten bei höch¬ sten zwei (einfachen) Einträgen pro Datenseite. Bei 64- bit Adressen sind somit maximal 15 Stufen, bei 32-bit Adressen 7 Stufen nötig, um 16-Byte-Seiten zu erreichen.

Fig. 4 zeigt ein Beispiel für einen Umsetzschritt bei dem Verfahren mit k/j-assoziativen guarded Page Tables. k/j- assoziative guarded Page Tables haben dieselbe Semantik wie k-assoziative. Sie benötigen aber nur k/j-fache Parallelität zur Realisierung. Für höchstmögliche Ge¬ schwindigkeit braucht man also nur k/j parallele Werke und parallele Datenpfade für k/j Einträge. (Dabei sollte k durch j ohne Rest teilbar sein. Außerdem sollten beides Zweierpotenzen sein.) Das k Einträge umfassende Cluster wird in j (gleichgroße und zusammenhängende) Teilcluster (Teilbereiche) aufgeteilt. Ist bei einer Page Table k > s, wird k für diesen Umsetzschritt auf s gekürzt. Ist s ≤ k/j, wird s-assoziativ gearbeitet, sonst s/j ' -assozia¬ tiv, wobei j' so gewählt wird, daß die Länge der Teil¬ cluster unverändert bleibt, d.h. k/j = a/j ' . Das bereitet keine Probleme, wenn s, k und j Zweierpotenzen sind. Um die Semantik der k-Assoziativität zu erhalten, wird die Umsetzoperation dann sequentiell (k/j-parallel) auf ver¬ schiedenen Teilclustern durchgeführt, bis entweder ein Treffer entsteht oder alle j Teilcluster abgearbeitet sind. Wird kein Treffer gefunden, wird die Adressum¬ setzung mit Page Fault abgebrochen, bei einem Treffer wird wie in anhand von Fig. 3 beschrieben verfahren. Diese Methode ist offensichtlich nur effizient, wenn mögliche Treffer häufig schon beim ersten Versuch gefun- den werden. Um einen Hinweis zu erhalten, werden nach dem Entfernen von u die höchstwertigen log₂ (k) Bits der verbleibenden virtuellen Adresse als Hinweis h genommen (diese werden aber weiterhin zur Bildung von Wi verwen¬ det) . Bei einfachen k/j-assoziativen guarded Page Tables wird mit dem durch h/j adressierten Teilcluster begonnen. Die weitere Reihenfolge kann dann durch Inkrementieren von h/j modulo j bestimmt werden. Andere Reihenfolgen sind genauso möglich, z.B. von 0 bis j - 1 bei Auslassung von h/j. Sie spielen für die Effizienz keine Rolle.

Bei k/j-assoziativen guarded Page Tables mit Hinweis ist jedes p (sowohl in Page Table Einträgen als auch im Root oder in TLB's) um ein Feld H mit k Hinweiselementen er¬ gänzt (dieses ist mit k log₂ (j) Bits relativ klein). Dann wird in jedem Schritt mit dem durch p.H[h] = h' adressierten Teilcluster begonnen. Wird ein Treffer nicht in dem durch h' adressierten Teilcluster erzielt, sondern in einem anderen der Nummer h", wird das Hinweiselement neu geladen: p.H[h] := h" . Somit justieren sich Hinweise automatisch.

Man kann zeigen, daß 8/2-assoziative guarded Page Tables mit Hinweisen n-bit Adressumsetzung in maximal n/4 Schritten bei höchsten 2 2/7 Einträgen pro Datenseite erlauben. Sie benötigen dazu im wesentlichen dieselbe Zeit wie 8-assoziative, benötigen aber nur 4 statt 8 parallele Werke und entsprechend schmalere Datenpfade.

Um ausreichend schnelle Adressumsetzung zu erzielen, müssen auch guarded Page Table Translatoren durch TLB's unterstützt werden. Spezielle Probleme sind hierbei die unterschiedliche Seitengrößen, größere Working Sets (wegen der kleineren Granularität mehr Seiten) und tie¬ fere Bäume bei riesigen Adressräumen (Tiefe 15 bei 60-bit Adressumsetzung), d.h. höhere Kosten bei TLB-miss. Zur Lösung wird ein mehrstufiger TLB eingesetzt, wie er in Fig. 6 dargestellt ist.

TLB₀ ist ein mehr oder minder konventioneller TLB auf Seitenbasis oder ein auch virtuell adressierbarer Cache; ein Treffer ergibt direkt die entsprechende Realadresse. TLB_X operiert.auf größeren Regionen (z.B. 16 MB), so daß bei einem 'near miss' (TLB₀-miss und TLB₁-Treffer) ein Quereinstieg in den Page Table Baum möglich wird und nur ein kleiner Teil des Baumes passiert zu werden braucht. Dieses Verfahren läßt sich bei Bedarf auf natürliche Weise um weitere TLBx-Stufen erweitern.

Wesentliches Problem des in Fig. 6 dargestellten TLB₀ sind die unterschiedlich großen Seiten. Bekannte Lösung für einvoll-assoziativer TLB (wie z.B-. beim MIPS R4000) , was einen hohen Schaltungsaufwand zur Folge hat, oder ein virtuell adressierter Cache, der zwar schneller als ein real adressierter Cache ist, jedoch Schwierigkeiten bei Synonymen und Konsistenzprobleme bei Multiprozessoren verursacht.

Eine weitere Lösung ist ein virtuell und real adressier¬ barer Cache, der die Vorteile eines virtuell adressierten (TLB für kleine, viele und unterschiedlich große Seiten) und eines real adressierten Caches (Synonyme möglich, ge¬ eignet für Multiprozessorsysteme) vereint. Dies zeigt Fig. 7. Hier enthält das Feld ä jeweils das End-Access- attribut, was durch Kombination der Accessattribute der einzelnen Stufen bei der Adressumsetzung entsteht.

Wie für den TLB₀ sind für den TLB_X und (und für höhere Stufen) mehrere Lösungen möglich. Eine ist in Fig. 8 gezeigt. So kann z.B. ein spezieller Cache (direct mapped oder n-fach assoziativ) für die einzelnen Regionen ver¬ wendet werden. Er wird mit der Region (z.B. v - 2²⁴) adressiert und liefert bei einem Treffer den nächstmög¬ lichen Einstieg in den Page Table Baum. Das sind die Adresse des entsprechenden Page Table Eintrags und seine Tiefe, d.i. die Anzahl führender Bits der virtuellen Adresse, die bis zu diesem Eintrag schon dekodiert sind (man beachte, daß der Eintrag nicht unbedingt auf der "Regionstiefe" sein muß, sondern aufgrund der Guards auch höher angesiedelt sein kann) und deshalb beim Querein¬ stieg in den Adressumsetzbaum von der virtuellen Adresse v die führenden Bits entfernt werden müssen, ä enthält hier die Accessattribute, die durch Kombination der Page Table Accessattribute bei der Adressumsetzung bis zur Region entstanden sind. Bei TLBi-hit und erlaubter Aktion (x <_ ä) wird gemäß des erfindungsgemäßen Verfahrens die Adressumsetzung schrittweise durchgeführt. Dabei wird mit v' als virtueller Adresse und p' als Adresse einer Page Table mit nur einem Eintrag begonnen (da TLB_X nicht die Page Table sondern schon den entsprechenden Page Table Eintrag liefert) . Bei TLB^miss wird eine vollständige Adressumsetzung nach dem erfindungsgemäßen Verfahren durchgeführt. Der dabei gefundene bestmögliche Einstieg in die Region wird dann in den TLBi-Cache aufgenommen.

Eine weitere Alternative für den TLB_X gemäß Fig. 6 ist im oberen Teil von Fig. 9 gezeigt. Bei Verwendung eines aus¬ reichend großen TLB₀ respektive eines auch virtuell adressierbaren Datencaches kann auf einen speziellen Cache für TLB_X verzichtet werden. Stattdessen kann eine zwei- (oder mehr-) stufige Hierarchie von Adressumsetz- bäumen benutzt werden. Linearisiert sieht der Adressraum dann z.B. wie im unteren Teil von Fig. 9 gezeigt aus.

Für jede Region wird ein eigener Baum verwendet. Die Wurzeln dieser Bäume sind über einen speziellen Bereich im virtuellen Adressraum ('region roots' ) erreichbar. Bei einem TLB₀-miss wird nun versucht, den entsprechenden Regionalbaum über seine virtuelle Adresse im Bereich 'region roots' anzusprechen. Gelingt das vermittels TLB₀- hit bei der entsprechenden virtuellen region-root-Adres¬ se, liegt ein TLBi-hit vor. Dann braucht nur der (nicht sehr tiefe) Regionalbaum parsiert zu werden. Andernfalls wird beginnend bei 'root' eine vollständige Adressum- setzung der virtuellen region-root-Adresse durchgeführt und danach der Regionalbaum parsiert. Diese Methode benötigt weniger Hardware, kann aber im Extremfall (nur eine Seite pro Region) pro erreichbarer Seite einen zusätzlichen Page Table Eintrag erfordern. Ist die klein¬ ste Seite größer als ein Page Table Eintrag, kann der zusätzliche Speicherbedarf aufgrund Fragmentierung des 'region root' Bereiches entsprechend steigen.

Im folgenden soll auf eine weitere Besonderheit einge¬ gangen werden, die insbesondere bei feingranularem Mapping bei großen Adressräumen, die spärlich besetzt sind.

Feingranulares Mapping ermöglicht Zugriffskontrolle auf der Ebene von logischen Speicherobjekten (Programmvariab¬ len) . Damit kann es sowohl im Bereich der klassischen imperativen Programmiersprachen, als auch in objektorien¬ tierten und deklarativen Sprachen sinnvoll eingesetzt werden, insbesondere bei verteilten oder massiv-paral¬ lelen Systemen. Typische Anwendungen sind:

1. Aliasing

Abbildung eines virtuellen Speicherobjekts auf ein anderes virtuelles Speicherobjekt. Das kann bei¬ spielsweise zur Objektsynthese eingesetzt werden, aber auch zur Konstruktion alternativer Sichten oder einfach zur Parameterübergabe. 2. Call On Reference

Aufruf einer benutzerdefinierten Prozedur bei Zu¬ griff. Damit kann spezielle Zugriffssemantik an Speicherbereiche gekoppelt werden, beispielsweise 'Verzögerung beim Lesezugriff' (Wert der Variablen ist noch nicht berechnet), 'Signal beim Schreibzu¬ griff', 'Remote Object Invocation' , 'Stellvertre¬ terzugriff' oder einfach 'Zugriffsprotokoll'.

Die Kopplung beider Methoden erlaubt effiziente Reali¬ sierung verteilter Speicher, da auf potentiell entfernte Objekte mit den Methoden der Local Object Invocation zugegriffen werden kann. Die Speicherzugriffe werden dann im aktuell lokalen Fall direkt durchgeführt, im aktuell entfernten algorithmisch. Die Unterscheidung geschieht durch Hardware. Funktional läßt sich das alles durch das Betriebssystem (μ-Kern) in Software realisieren. Da aber bei den erwähnten Methoden sehr häufige Änderungen des Mappings zu erwarten sind, ist aus Effizienzgründen eine direkte Änderungsmöglichkeit des Mappings durch das (User Leve- Programm ohne Einschaltung des Betriebssystems wünschenswert. Diese Möglichkeit darf nicht gegen das Sicherheitsparadigma des Betriebssystems verstoßen.

User-Level-Mapping ist, wie oben erwähnt, besonders interessant, wenn die MMU feingranulare Adressräume zuläßt. Das im folgenden zu beschreibende Verfahren läßt sich aber genauso in andere insbesondere fein- oder grobgranular abbildende MMUs einbauen. Diese MMUs sollten vorzugsweise darauf basieren, eine virtuelle Adresse anhand eines Page Table Baums in eine Realadresse umzu¬ setzen. Dies ist aber nicht zwingend erforderlich. Page Table Einträge bestehen konventionell aus einem Access- attribut a, das die gültigen Aktionen auf dem Speicher¬ bereich bestimmt, und einem Zeiger τ, der bei der nor- malen Adressumsetzung die Realadresse p der nächststufi¬ gen Page Table Stufe oder der Datenseite ist. Jetzt hat jeder Page Table Eintrag außerdem einen Typ T, der unter anderem die Interpretation des Zeigers τ bestimmt. Die konventionellen Einträge haben den Typ T = translate. Für User Level Mapping werden neue Typen und Spezialinstruk- tionen zur sicheren Änderung des Mappings eingeführt. Beim Typ alias wird der Zeiger it als virtuelle Alias- adresse v interpretiert. Trifft die Adressumsetzung auf irgendeiner Stufe auf einen alias-Eintrag, dessen Access- attribut a die Zugriffsaktion x erlaubt, wird v zu der noch nicht dekodierten Restadresse v' addiert oder die neue Adresse anderweitig aus v und V gebildet. Diese Situation ist in Fig. 10 für einen Umsetzschritt gezeigt.

Mit dem Ergebnis, einer virtuellen Adresse voller Länge (z.B. v^* + v') beginnt die Adressumsetzung erneut. Somit wird der gesamte virtuelle Bereich, der durch den Alias- Eintrag abgedeckt wird, virtuell auf einen anderen vir¬ tuellen Bereich abgebildet (siehe hierzu die schemati¬ sierte Darstellung einer Baumstruktur gemäß Fig. 11) . Dieses Verfahren ist von dem konventionellen realen Aliasing, bei dem mehrere Realzeiger auf einer Page Table oder Datenseite zusammenlaufen, zu unterscheiden. Das konventionelle reale Aliasing ist in Fig. 12 schematisch dargestellt. Virtuelles Aliasing ist im Gegensatz zu realem Aliasing von Realspeicherzuordnungen unabhängig. Damit ermöglicht es Veränderungen des Mappings durch User Level Software, und zwar unabhängig von aktueller Real- speicherbelegung und Paging, ohne die Schutzgrenzen des eigenen oder fremder Adressräume unterlaufen zu können, und ohne die durch das Betriebssystem vorgegebenen Accessattribute auf Seiten oder größeren Adressraumteilen aufweichen zu können. Beim Typ τ = call on reference wird der Zeiger TΓ als virtuelle Adresse v einer Prozedur interpretiert. Trifft die Adressumsetzung auf einen call on reference-Eintrag, dessen Accessattribut a die Zugriffsaktion x erlaubt, wird die zugreifende Operation abgebrochen und stattdes¬ sen die angegebene Prozedur aufgerufen. Sie erhält den aktuellen Instruction Counter (ic) und die verursachende virtuelle Adresse v_orig als Eingangsparameter. Wie bei einem Page Fault kann die auslösende Instruktion neu gestartet werden. Fig. 13 zeigt einen Umsetzschritt mit dem Typ T = call on reference.

call on reference-Mapping ordnet Adressraumbereichen Algorithmen zu. Diese können die verursachende Instruk¬ tion beispielsweise überspringen, emulieren oder ähnlich wie einen Page Fault behandeln: den fraglichen Speicher¬ bereich per alias neu abbilden und die Instruktion neu starten, Skipping und Emulation von einzelnen Instruktio¬ nen kann unter Umständen durch Spezialinstruktionen des Prozessors beschleunigt werden (siehe weiter unten unter den ergänzenden Instruktionen "getmap", "getlength" und "execute") .

Bei Prozessoren mit strikter Load/Store-Architektur kann die Emulation beschleunigt werden, indem die assoziierte Prozedur nicht nur ic und v_orig als Parameter erhält, sondern zusätzlich - beim Schreibzugriff - die Kennung 'Schreibzugriff', die Operandenlänge (Byte, Wort, ...) und den Operandenwert, - beim Lesezugriff - die Kennung 'Lesezugriff', die Operandenlänge (Byte, Wort, ...) und die Nummer (Adresse) des Zielregisters. Bei Prozessoren mit komplexeren Instruktionen können stattdessen als zusätzliche Parameter die Operation (Mov, Add, Ine, ... ) , die Operandenlänge (Byte, Wort, ...), die Register/ Speicheradresse der Quelle und die Register/Speicher¬ adresse des Ziels übergeben werden. Der Instruktionssatz des Prozessors wird um die nicht- privilegierte Instruktion 'map' erweitert. Damit kann User Level Software direkt alias- und call on reference- Einträge verändern. Ein Page Table Eintrag wird eindeutig durch den virtuellen Adressbereich bezeichnet (dies gilt nicht umgekehrt, da aufgrund von Realsharing ein Eintrag für mehrere virtuelle Adressraumbereiche zuständig sein kann) , den er in der primären Adressumsetzung genau überdeckt. Unter primärer Adressumsetzung wird hier der Übersetzungsvorgang verstanden, der die originale vir¬ tuelle Adresse umsetzt, bis entweder ein Page Fault diagnostiziert wird, ein alias-, call on reference- oder ein auf eine Datenseite verweisender Eintrag gefunden wird. Dementsprechend wird der adressierte Eintrag durch virtuelle Basisadresse b und Größe s des zugehörigen Adressraumbereichs spezifiziert. Dann lädt die Instruk¬ tion

den adressierten Page Table Eintrag mit r und TT, vor¬ ausgesetzt T ist alias oder call on reference (virtuell- real Abbildungen können somit nicht definiert oder verän¬ dert werden) und der Zieleintrag existiert (Einträge können somit nicht heimlich erzeugt werden) und ist vom aktuellen Modus (user/kernel) aus zugreifbar (das Be¬ triebssystem kann sich somit schützen) und hat bereits den Typ alias oder call on reference. Überlagern eines translate-Eintrags im Benutzerteil des Adressraumes durch alias oder call on reference ist zwar nicht sicherheits- kritisch, würde aber zu toten Teilbäumen führen, ohne daß das Betriebssystem das bemerkt. Andernfalls führt map zu Page Fault. Damit können von Unser Level Software ent¬ sprechende Einträge modifizieren, d.h. zwischen alias und call on reference wechseln und die Alias- bzw. assoziier¬ te Prozeduradresse ändern. Mit dieser Instruktion können aber weder neue Einträge erzeugt, noch vorhandene vir¬ tuell-real Abbildungen modifiziert, noch vorhandene Accessattribute aufgeweicht werden.

Das Einrichten und Löschen entsprechender Einträge samt notwendiger Modifikation des Page Table Baums sollte durch System Calls im Betriebssystemkern realisiert werden. Alias- und call on reference-Einträge können vom Betriebssystem als langlebige Objekte realisiert werden, da verdrängte Einträge sowohl bei normalem Zugriff auf den Adressbereich als auch bei map Zugriff auf den Ein¬ trag zu Page Fault führen. Weitere Prozessorinstruktionen sind nicht notwendig, könnten aber für bestimmte Prozes¬ soren und Anwendungen unter Umständen interessant sein:

get ap ((b,s), (τ,a,7r)

liest einen existierenden Page Table Eintrag, der vom aktuellen Modus aus zugreifbar und vom Typ alias oder call on reference sein muß. Skipping und Emulation durch eine mit dem Adressbereich assoziierte Prozedur kann unter Umständen durch Instruktionen effizienter werden, die die Länge einer anderen Instruktion liefern oder diese mit einer modifizierten Speicheradresse ausführen können:

getlength (dest, ptr)

liefert die Länge der Instruktion, die an der virtuellen Adresse 'ptr' steht, in 'dest' .

execute (ptr, v)

führt die an der virtuellen Adresse 'ptr' stehende In¬ struktion aus, wobei allerdings anstelle der eigentlich in der Instruktion verwandten Speicheradresse die vir- tuelle Adresse v verwendet wird. Bei Mehradressmaschinen sind unter Umständen komplexere Formen der Instruktion notwendig. Beide Instruktionen lohnen sich nicht bei Prozessorarchitekturen, die nur wenige und einfache Befehlsformate und Adressierungsmodi haben. Prinzipiell reichen die Eintragstypen alias und call on reference (neben translate) aus. Unter Umständen können auch Kombi¬ nationen interessant sein:

T = call on write / alias on read T = call on read / alias on write.

Hierfür müssen allerdings die Page Table Einträge ver¬ größert werden, so daß sie v und v aufnehmen können, oder aber v ist für alle Einträge fest. Die map-Instruktion arbeitet dann natürlich auch auf diesen beiden Typen.

Zum Ankoppeln bestimmter Hardware-Aktionen an Adressbe¬ reiche, z.B. Anstoßen komplexer Busprotokolle zum Zugriff auf entfernten Speicher, können weitere (Spezial-)Typen für T eingesetzt werden.

Bei Multiprozessor-Maschinen mit Shared Memory soll manchmal ein Adressbereich gesperrt werden, so daß Zu¬ griffe darauf durch andere Prozessoren automatisch bis zur Freigabe verzögert werden. Natürlich muß der Zugriff wenigstens einem Prozessor gestattet sein. Das kann man unter anderem durch virtuelles oder reales Aliasing er¬ reichen. Locking kann man durch Ankoppeln einer leeren Routine an den Adressbereich bewirken, d.h. man verwendet einen call on reference Page Table Eintrag und läßt die¬ sen direkt auf eine ret-Instruktion zeigen. Unlockung wird dann durch Änderung des Mappings auf alias erreicht. Bei manchen Architekturen mag sich dafür ein spezieller neuer Typ T = locked lohnen, der unter Umständen etwas effizienter implementiert werden kann, da er lock/unlock ohne Uminterpretationen in Cache und TLB erlaubt. Diese Situation ist in Fig. 14 wiedergegeben. Trifft die Adressumsetzung auf einen solchen Eintrag, wird sie komplett neu gestartet. Erst wenn ein anderer Prozessor den Eintrag wieder auf translate setzt oder den Page Table Baum so modifiziert, daß der Eintrag nicht mehr involviert ist, wird die Verzögerung beendet. Locked- Einträge unterscheiden sich nur im Typ von translate- Einträgen. Wechsel zwischen beiden erfordern deshalb nur, die Typen der entsprechenden Cache- und TLB Einträge (bei größeren Objekten ist ein TLB-Flush wahrscheinlich effi¬ zienter) konsistent zu ändern, aber keine Änderung der virtuell → real-Abbildung. Zum Wechsel zwischen locked und translate dienen zwei weitere Instruktionen:

lock (b,s) unlock (b,s).

Lock setzt den adressierten Page Table Eintrag auf locked und unlock wieder auf translate, vorausgesetzt der Ziel- eintrag existiert und ist vom aktuellen Modus (user/ kernel) aus zugreifbar und hat bereits den Typ translate oder locked. In allen anderen Fällen wird Page Fault ausgelöst.

Zur Codierung der obigen Instruktionen und/oder flexibel langer Bitstrings und -folgen (also auch Guards) stehen z.B. folgende Möglichkeiten zur Verfügung.

Paare (b,s) von n-bit-breiter Basisadresse b und Größen¬ angabe s = 2¹ können als n-bit-Wert

b + 4 für s ≥ 2 codiert werden, wenn die Basisadresse immer s- ausgerichtet ist, d.h. b mod s = 0. Die Bitrepräsentation sieht dann folgendermaßen aus:

bb, .bblOO 00

Das Verfahren kann genauso zur Codierung variabler langer Bitstrings bis zur Maximallänge n-1 benutzt werden, bei¬ spielsweise für die Guards der guarded Page Tables. Liegt ein Bitstring b der Länge |b|| vor, wird er als n-bit-Zahl

2ⁿ-IM + 2ⁿ""^b""^*-

dargestellt. Die dekodierende Hardware nimmt in beiden Fällen das niederwertigste auftretende 1-bit als Trenn¬ zeichen zum Bitstring (oder der Basisadresse) b. Natür¬ lich können die Rollen von 0- und 1-Bits vertauscht und unabhängig davon die höchstwertigen Bits genommen werden:

bb, .bbOll 11

00, OOlbb bb

Nachfolgend werden anhand der Fign. 15 bis 17 noch kurz mögliche Hardware-Realisierungen eines nach der Erfindung arbeitenden Translators einer MMU beschrieben.

Gemäß Fig. 15 sind TLB₀ und TLB_X als eigenständige Hard¬ ware vorhanden. Anstelle des Cache (siehe rechter Teil von Fig. 15) könnte natürlich auch direkt ein normaler Speicher angeschlossen werden. Wenn ein virtuell adres- sierbarer Cache eingesetzt wird, kann dieser die Funktio¬ nalität des TLB₀ übernehmen, wie dies in Fig. 16 gezeigt ist. Noch einfacher wird das Blockschaltbild, wenn der TLBi vom Translator, wie weiter oben im Zusammenhang mit der Fig. 9 beschrieben, vermittels Cache + TLB₀ reali¬ siert wird. Dann ergibt sich das Blockschaltbild gemäß Fig. 17.

Claims

ANSPRÜCHE

Verfahren zum Abbilden eines ersten Bitstrings mit einer ersten Länge auf einen zweiten Bitstring mit einer zweiten Länge, insbesondere zum Umsetzen einer virtuellen Speicheradresse eines virtuellen Speichers in eine Realadresse eines Realspeichers, bei dem a) ein erster Speicherbereich mit einer ersten An¬ fangsadresse (p) und einer ersten Länge vorge¬ geben wird, b) geprüft wird, ob die Länge des ersten Speicher¬ bereichs kleiner oder gleich 2 potenziert mit der Länge des ersten Bitstrings (v) ist und, wenn dies der Fall ist, die Summe aus der ersten Anfangsadresse (p) des ersten Speicherbereichs und dem ersten Bitstring (v) den zweiten Bit¬ string ergibt (Datenseite erreicht) , und, wenn die obige Prüfung negativ ist, der erste Speicherbereich als eine erste Tabelle genommen wird und c) aus dem ersten Bitstring (v) Bits (u) an be¬ stimmten Stellen ausgewählt werden, wobei die nicht-ausgewählten verbleibenden Bits einen Restbitstring (w,v') bilden, d) die ausgewählten Bits (u) des ersten Bit¬ strings (v) einen Eintrag der ersten Tabelle bestimmen, e) dieser Eintrag der ersten Tabelle ausgelesen wird, f) aus dem ausgelesenen Tabelleneintrag die An¬ fangsadresse (p') sowie Länge eines weiteren Speicherbereichs und eine eine Anzahl von Bits umfassende Bitfolge (g) abgeleitet wer¬ den, g) aus dem Restbitstring (w,v') eine Anzahl von Bits ausgewählt wird, die gleich der Anzahl der Bits der aus dem Tabelleneintrag der ersten Tabelle abgeleiteten Bitfolge (g) ist, h) geprüft wird, ob die ausgewählten Bits des Restbitstrings (w,v') als Folge betrachtet gleich der aus dem Tabelleneintrag der ersten Tabelle abgeleiteten Bitfolge (g) ist, i) eine Fehlermeldung dergestalt, daß die Abbil¬ dung für den ersten Bitstring (v) nicht defi¬ niert ist, erzeugt wird, wenn die obige Prü¬ fung negativ ist, k) die Bitfolge (g) aus dem Restbitstring (w, V ) extrahiert wird, wenn die obige Prüfung positiv ist, und

1) das Verfahren ab Schritt b) mit dem nicht- extrahierten verbleibenden Teil (V ) des Restbitstrings (w,v') als erstem Bitstring (v) sowie der Anfangsadresse (p' ) und Länge des weiteren Speicherbereichs als Anfangs- adresse (p) und Länge des ersten Speicherbe¬ reichs fortgesetzt wird.

2. Verfahren nach Anspruch 1, dadurch gekennzeichnet, daß die bei Schritt c) ausgewählten Bits die An¬ fangsbits (u) des ersten Bitstrings (v) sind.

3. Verfahren nach Anspruch 1 oder 2, dadurch gekenn¬ zeichnet, daß bei Schritt f) geprüft wird, ob der Restbitstring (w,v') aus den nicht-ausgewählten Bits des ersten Bitstrings (v) als Anfang (w) die aus dem Tabelleneintrag der ersten Tabelle abgelei¬ tete Bitfolge (g) aufweist, und daß bei Schritt k) der mit der Bitfolge identische Anfang (w) des Restbitstrings (w,v') abgetrennt wird, wenn die Prüfung des Schritts h) positiv ist.

4. Verfahren nach einem der Ansprüche 1 bis 3, dadurch gekennzeichnet, daß vor Schritt g) der Restbit¬ string (w,V) gemäß einer ersten Permutationsregel permutiert wird und daß nach Schritt k) und vor Schritt 1) der verbleibende Teil des permutierten Restbitstrings (w,v') gemäß einer zweiten Permuta¬ tionsregel permutiert wird, bevor mit Schritt b) fortgefahren wird.

5. Verfahren nach einem der Ansprüche 1 bis 4, dadurch gekennzeichnet, daß bei Schritt d) die ausgewählten Bits des ersten Bitstrings einen Tabellenbereich (Cluster) einer ersten Tabelle bestimmen, bei Schritt e) die Einträge des derart adres¬ sierten Bereichs der ersten Tabelle ausgelesen werden, bei Schritt f) aus den ausgelesenen Einträgen des anfangsadressierten Bereichs der ersten Tabelle die Anfangsadressen (pi' ) sowie Längen mehrerer möglicherweise unterschiedlicher, wei¬ terer Speicherbereiche und mehrerer Bitfolgen (gi) mit möglicherweise unterschiedlichen Bit- längen abgeleitet werden, wobei einer Bitfolge (gi) jeweils eine Anf ngsadresse (p ) und Länge eines weiteren Speicherbereichs zugeordnet sind, Schritte g) und h) für alle ausgelesenen Bitfol¬ gen (gi) insbesondere parallel oder sequentiell durchgeführt werden, eine Fehlermeldung dergestalt, daß die Abbildung für den ersten Bitstring (v) nicht definiert ist, erzeugt wird, wenn alle Prüfungen in Schritt h) negativ sind, und andernfalls diejenige Bitfolge (g_A) oder eine derjenigen Bitfolgen (gi) aus dem Restbitstring (w,v') extrahiert wird, für die die Prüfung in Schritt h) positiv ist, sowie die zugeordnete Anfangsadresse und Länge als Anfangsadresse (p_±) und Länge des weiteren Speicherbereichs genommen wird.

Verfahren nach Anspruch 5, dadurch gekennzeichnet, daß der Bereich (Cluster) der ersten Tabelle in mehrere Teilbereiche (Teilcluster) unterteilt ist, von denen jeder mindestens einen Eintrag bestehend aus einer Anfangsadresse, einer Länge und einer weiteren Bitfolge aufweist, daß eine Hinweisadresse (h) vorgegeben wird und, daß aus dem durch die ausgewählten Bits des ersten Bitstrings anfangsadressierten Bereich der ersten Tabelle zuerst die Einträge des durch die Hinweisadresse (h) anfangsadressierten Teil¬ bereichs ausgelesen werden.

Verfahren nach einem der Ansprüche 1 bis 6, dadurch gekennzeichnet, daß der erste Bitstring (v) sukzessive minde¬ stens einer Abbildungseinrichtung (TLB zuge¬ führt wird, in der Abbildungen des ersten Bit¬ strings (v) auf Anfangsadressen (p) sowie Längen von Speicherbereichen und Kürzungswerte ge¬ speichert sind, und daß in dem Fall, daß eine Abbildung des ersten Bitstrings (v) in der mindestens einen Abbil¬ dungseinheit (TLBi) nicht gespeichert ist, mit Schritt a) , angewendet auf den abzubildenden ersten Bitstring (v) , begonnen wird, während andernfalls das Verfahren mit demjenigen Speicherbereich als erster Tabelle, der durch die sich aus der mindestens einen Abbildungsein¬ heit (TLB ergebenden Anfangsadresse und Länge spezifiziert ist, und mit dem um dem Kürzungs- wert verkürzten ersten Bitstring als neuem ersten Bitstring bei Schritt b) begonnen wird, wobei die Verkürzung insbesondere aus einem Ab¬ scheiden der führenden Bits besteht.

8. Verfahren insbesondere nach einem der Ansprüche 1 bis 7, bei dem der erste Bitstring in den zweiten Bitstring gemäß einem Umsetzverfahren umgesetzt wird, das die folgenden Schritte umfaßt: eine Tabelle mit mindestens einem Tabellen¬ eintrag wird vorgegeben, aus einem Eingangsbitstring werden Bits an bestimmten Stellen ausgewählt, wobei die nicht-ausgewählten verbleibenden Bits einen Restbitstring bilden, die ausgewählten Bits des Eingangsbitstrings bestimmen einen Eintrag der ersten Tabelle, dieser Eintrag der ersten Tabelle wird aus¬ gelesen, in dem Fall, daß der ausgelesene Tabellenein¬ trag vom Typ ALIAS ist, folgende Teilschritte durchgeführt werden: aus dem Tabelleneintrag wird ein Alias- Bitstring extrahiert, der Alias-Bitstring und der Restbitstring werden zu einem Ausgangsbitstring kombi¬ niert, das gesamte Umsetzverfahren wird mit dem Ausgangsbitstring als neuem ersten Bit¬ string von Anfang an begonnen.

9. Verfahren insbesondere nach einem der Ansprüche 1 bis 7, bei dem der erste Bitstring in den zweiten Bitstring gemäß einem Umsetzverfahren umgesetzt wird, das die folgenden Schritte umfaßt: eine Tabelle mit mindestens einem Tabellen¬ eintrag wird vorgegeben, aus einem Eingangsbitstring werden Bits an bestimmten Stellen ausgewählt, wobei die nicht-ausgewählten verbleibenden Bits einen Restbitstring bilden, die ausgewählten Bits des Eingangsbitstrings bestimmen einen Eintrag der ersten Tabelle, dieser Eintrag der ersten Tabelle wird aus¬ gelesen, in dem Fall, daß der Tabelleneintrag vom Typ SIGNAL ist, folgende Teilschritte durchge¬ führt werden: aus dem Tabelleneintrag wird ein Hilfsbit¬ string extrahiert, das gsamte Umsetzverfahren wird abge¬ brochen und eine Meldung wird erzeugt, die mindestens den Hilfsbitstring enthält.

10. Verfahren nach Anspruch 9, dadurch gekennzeichnet, daß aufgrund der Meldung eine Prozedur an einer durch den Hilfsbitstring spezifizierten Adresse aufgerufen wird.

11. Verfahren insbesondere nach einem der Ansprüche 1 bis 7, bei dem der erste Bitstring in den zweiten Bitstring gemäß einem Umsetzverfahren umgesetzt wird, das die folgenden Schritte umfaßt: eine Tabelle mit mindestens einem Tabellen¬ eintrag wird vorgegeben, aus einem Eingangsbitstring werden Bits an bestimmten Stellen ausgewählt, wobei die nicht-ausgewählten verbleibenden Bits einen Restbitstring bilden, die ausgewählten Bits des Eingangsbitstrings bestimmen einen Eintrag der ersten Tabelle, dieser Eintrag der ersten Tabelle wird aus¬ gelesen, und in dem Fall, daß der Tabelleneintrag vom Typ LOCKED ist, das gesamte Umsetzverfahren von Anfang an neu begonnen wird.