WO2007014404A1

WO2007014404A1 - Digitale rechnereinrichtung mit parallelverarbeitung

Info

Publication number: WO2007014404A1
Application number: PCT/AT2005/000311
Authority: WO
Inventors: Heinz Gerald Krottendorfer; Karl Heinz GRÄBNER; Manfred Riener
Original assignee: On Demand Microelectronics Ag
Priority date: 2005-08-04
Filing date: 2005-08-04
Publication date: 2007-02-08
Also published as: US20080320276A1

Abstract

Beschrieben wird eine digitale Rechnereinrichtung (1) mit Parallelverarbeitung, mit mehreren parallel einsetzbaren Arithmetikeinheiten (5) und einer ihnen zugeordnete Steuereinheit, wobei die Arithmetikeinheiten (5) mit über Datenbus-Verbindungen (10) zugeordneten Datenspeichern (8, 9) zu parallel geschalteten Recheneinheiten (2.i) mit synchroner Befehlsabarbeitung zusammengefasst sind, denen als Steuereinheit eine zentrale Programmablaufsteuerungseinheit (3) zugeordnet ist.

Description

DIGITALE RECHNEREINRICHTUNG MIT PARALLELVERARBEITUNG

Die Erfindung betrifft eine digitale Rechnereinrichtung mit Parallelverarbeitung, mit mehreren parallel einsetzbaren Arithmetikeinheiten und einer ihnen zugeordneten Steuereinheit.

Parallelverarbeitende Rechnereinrichtungen oder Prozessoren werden immer häufiger für die verschiedensten Anwendungen benötigt; ein Beispiel für eine derartige Anwendung ist die digitale Signalverarbeitung in der Telekommunikation. Diese Anwendungen benötigen immer größere Rechenleistungen in den zur digitalen Verarbeitung vorgesehenen Schaltungen, auch als digitale Signalprozessoren (DSP) bezeichnet.

Im Prinzip gibt es, um die Rechen- oder Prozessorleistung für derartige rechenintensive Aufgaben zu erhöhen, zwei Möglichkeiten, nämlich einerseits das Erhöhen der Verarbeitungs-Taktfre- quenz und andererseits die Mehrfach-Implementierung von Rechnerkomponenten. Was die erste Möglichkeit betrifft, so ist die Erhöhung der Taktfrequenz ein allgemeines Ziel und durch die jeweilige aktuelle Technologie vorgegeben bzw. beschränkt. Eine hohe Taktfrequenz kann von einem Rechnerchip-Entwickler nur bedingt vorgesehen werden, um die Rechenleistung zu erhöhen, und diese Möglichkeit wird in der Regel naturgemäß voll ausgeschöpft. Ein von Chip-Entwicklern in größerem Ausmaß beeinflussbares Potential liegt hingegen in der zweiten Methode, der Mehr- fach-Implementierung von Rechnerkomponenten.

Ein übliches Beispiel für die Mehrfach-Implementierung von Rechnerkomponenten ist der so genannte „Superpipelining"-Rechner . Der Rechner enthält hier eine Kette von Arithmetikeinheiten als Rechenstufen, und er bearbeitet Instruktionen nicht nur hintereinander, sondern verschachtelt in den einzelnen Rechenstufen, den so genannten „Pipeline-Stufen". Ein Befehl ist erst dann vollständig abgearbeitet, wenn alle Rechenstufen der Arithmetikeinheit durchlaufen sind. Die einzelnen Rechenstufen sind zeitlich entkoppelt, und es können daher mehrere Befehle innerhalb der Arithmetikeinheit gleichzeitig bearbeitet werden. Beispielsweise wird ein neuer Befehl in der ersten Rechenstufe bearbeitet, der vorherige Befehl wird gleichzeitig in der zweiten Re- chenstufe bearbeitet usw.; die volle Leistungsfähigkeit kann man hier aber nur dann erhalten, wenn alle Pipeline-Stufen mit Instruktionen gefüllt sind. Ist jedoch im Programm, aus dem die Instruktionen bestehen, ein Sprung in einem anderen Programmteil vorgesehen, was relativ häufig vorkommt, so müssen erst alle Befehle, die in den einzelnen Stufen der Arithmetikeinheit bearbeitet werden, abgearbeitet werden, und erst danach kann zum neuen Programmteil gesprungen werden, wobei dann wieder die einzelnen Stufen der Arithmetik-Einheit gefüllt werden müssen. Erst danach ist wieder die volle parallele Rechenleistung nutzbar gemacht.

Bei einer anderen bekannten Rechnerarchitektur zur Erhöhung der Rechenleistung, dem so genannten „Superskalar^-Rechner, werden statt einer langen „Pipeline"-Kette (wie im „Superpipelining"- Rechner) kürzere, parallel angeordnete Rechenpfade, so genannte Pipelines, implementiert. Demgemäß werden hier tatsächlich Befehle parallel verarbeitet, anstatt nur verschachtelt hintereinander verarbeitet zu werden, wie in der vorher genannten Super- pipelining-Struktur . Von Nachteil ist hier jedoch, dass die einzelnen parallelen Einheiten, um die volle Rechenleistung nutzbar zu machen, nicht auf gleiche Ressourcen, wie auf gleiche Datenspeicher, zugreifen dürfen, was jedoch in der Praxis nicht ausgeschlossen werden kann.

Gemäß einem weiteren Vorschlag zur Erhöhung der Rechenleistung werden mehrere digitale Signalprozessoren verwendet, die über Datenschnittstellen miteinander synchronisiert werden. Die Synchronisation der digitalen Signalprozessoren erfolgt mittels eines Protokolls, welches gewährleistet, dass die völlig autark arbeitenden Signalprozessoren die normale Programmverarbeitung verlassen und in einen Zustand gebracht werden, in dem ihre Sendeseite bereit ist, Daten zu senden, und ihre Empfangsseite bereit ist, Daten zu empfangen. Es erfolgt dann der gewünschte Datenaustausch, mit einer nachfolgenden Quittierung der erfolgreichen Datenannahme. Im Anschluss daran können die Signalprozessoren wieder mit dem normalen Abarbeiten des Programms fortfahren. Diese Form der Synchronisation ist zeitaufwendig, ist jedoch notwendig, da die Signalprozessoren völlig autark arbeiten und daher am Beginn der Verarbeitung keine Information über den Zu- stand der jeweils anderen Signalprozessoren besitzen. Insgesamt vermindert somit die notwendige Synchronisation bei dieser Technik wesentlich die Prozessorleistung, wenn der Datendurchsatz zwischen den Signalprozessoren ansteigt.

Bekannt ist auch eine Technologie, PACT-XPP-Architektur genannt, bei der programmierbare Zellen, d.h. Objekte, vorgesehen sind, vgl. z.B. http; //www . pactcorp . com/xneu/download/xpp white_pa- per.pdf, The XPP White Paper, Release 2.1, A Technical Perspec- tive, Copyright: PACT Informationstechnologie GmbH; 27. März 2002. Durch entsprechende Konfiguration werden diese Objekte so miteinander verschaltet, dass die jeweils gewünschte Applikation abgebildet wird. Es müssen somit, damit eine funktionstüchtige Applikation erhalten wird, diese Objekte selbst untereinander richtig verschaltet ( = konfiguriert) sowie weiters entsprechend programmiert werden. Für diese Zuordnung der Objekte zueinander ist daher ein schaltbares, d.h. konfigurierbares Datenver- bindungs-Netzwerk erforderlich. Im Betrieb erfolgt dann eine Synchronisation über die zu verarbeitenden Datenpakete. Konkret erfolgt ein Datenaustausch zwischen den Objekten durch Datenpakete, d.h. ein Zielobjekt erhält alle Datenpakete von unterschiedlichen Sendeobjekten. Das Zielobjekt synchronisiert auf diese Datenpakete auf, d.h. es wartet solange, bis alle notwendigen Eingangsdaten vorhanden sind, die für die gewünschte Berechnung im Objekt erforderlich sind, und es führt erst dann die Berechnung durch.

Es ist nun Aufgabe der Erfindung, die bzw. zumindest einige der Nachteile des Standes der Technik zu vermeiden und eine digitale Rechnereinrichtung mit Parallelverarbeitung vorzuschlagen, die eine erhöhte Rechenleistung für rechenintensive Aufgaben aufweist, wobei durch das Parallelisieren eine tatsächliche, dem Aufwand entsprechende Rechenleistungssteigerung erzielt werden kann.

Zur Lösung der gestellten Aufgabe sieht die Erfindung eine digitale Rechnereinrichtung mit Parallelverarbeitung wie in Anspruch 1 angegeben vor. Vorteilhafte Ausführungsformen und Weiterbildungen sind in den Unteransprüchen definiert. Die vorliegende digitale Rechnereinrichtung kann zur Bearbeitung von rechenintensiven Algorithmen, beispielsweise in der Telekommunikation, eingesetzt werden, wie etwa im Zuge einer Bildkompression oder in der DSL-Technik (DSL-digital subscriber linedigitale Teilnehmerleitung) . Dabei ergibt sich, dass die zu implementierenden Algorithmen häufig aus so genannten Vektor-Algorithmen bestehen, d.h. aus Algorithmen, die nicht bloß einen einzelnen Datenwert, sondern eine Gruppe von Datenwerten, den so genannten Datenvektor, durch gleichartige Operationen verarbeiten. Vektor-Algorithmen stehen im Gegensatz zu skalaren Algorithmen, die ausgehend von einem einzelnen Datenwert wiederum einen einzelnen Datenwert berechnen. Die vorliegende digitale Rechnereinrichtung eignet sich jedoch nicht nur zur Bearbeitung derartiger Vektor-Algorithmen, sondern auch zur Verarbeitung von skalaren Algorithmen oder Kombinationen von skalaren Algorithmen und Vektor-Algorithmen. In der Rechnereinrichtung, die insbesondere eine programmgesteuerte Rechnereinrichtung ist, sind mehrere Arithmetikeinheiten implementiert, und zwar zusammen mit zugehörigen Datenspeichern, wodurch parallele Recheneinheiten erhalten werden, die effizient zusammenspielen können, so dass durch das Parallelisieren tatsächlich eine dem Aufwand entsprechende Rechenleistungssteigerung erzielt wird. Für dieses Zusammenspiel von Bedeutung ist eine entsprechende Ansteuerung in der Form, dass nicht nur innerhalb der einzelnen Recheneinheiten ein Datentransfer zwischen der Arithmetikeinheit und den zugehörigen Datenspeichern erfolgt, sondern auch zwischen den parallelen Recheneinheiten untereinander ein Datentransfer ermöglicht wird. Ferner ist selbstverständlich eine globale bzw. externe Dateneingabe und Datenausgabe mit Hilfe entsprechender Bus-Systeme gegeben, und im Fall des Vorsehens wenigstens einer globalen Recheneinheit sind auch die erforderlichen Bus-Verbindungen zwischen den parallelen Recheneinheiten und dieser globalen Recheneinheit vorhanden. Insgesamt ergibt sich dabei als besonders vorteilhaft und in optimaler Entsprechung zur gestellten Aufgabe, dass die geforderte Rechenleistung durch die vorgesehene Parallelverarbeitung geliefert wird, ohne dass Beschränkungen etwa durch Synchronisationsmaßnahmen über Datentransfer oder dgl. erforderlich wären, dass Vektor-Algorithmen effizient bearbeitet werden können, und dass selbstverständlich auch die Bearbeitung von skalaren Algorithmen wirksam unterstützt wird. Mit anderen Worten, die vorliegende Rechnerarchitektur ermöglicht die gewünschte hohe Rechenleistung durch eine „massive" Parallelverarbeitung, bei der die parallelen Recheneinheiten optimal zusammenarbeiten, so dass durch das Parallelisieren die gewünschte Rechenleistungssteigerung tatsächlich erzielt wird. Dies ist um so mehr von Bedeutung, als in modernen Applikationen insbesondere der Telekommunikation die Datentransferraten (also die Raten, mit denen Daten in einen Rechner hinein und aus einem Rechner heraus laufen) immer höher werden. Dabei sind auch Datentransfers zwischen den parallelen Recheneinheiten in der Rechnereinrichtung immer häufiger, was aber bei der vorliegenden Rechnerarchitektur unproblematisch ist, im Gegensatz zu den Multi-Pro- zessorsystemen gemäß Stand der Technik, die für solche Applikationen ungeeignet sind, da diese einen zu hohen zusätzlichen zeitlichen Synchronisationsaufwand zum Datenaustausch zwischen den Prozessoren benötigen.

Bei der vorliegenden Rechnereinrichtung werden keine Takte für die Synchronisation von Datentransfers benötigt, vielmehr erfolgt eine effiziente allgemeine Koordination aller Berechnungen in den Recheneinheiten. Dabei stehen bevorzugt alle Aktionen in der Rechnereinrichtung in einem starren zeitlichen Zusammenhang zueinander, und es ist zu jedem beliebigen Zeitpunkt exakt definiert, welche Daten gerade jetzt - und wo - im System vorhanden sind. Dies ist die Voraussetzung dafür, dass keine Taktzyklen für die Synchronisation von Datentransfers benötigt werden. Diese Koordination erfolgt bevorzugt durch die zentrale Programmablaufsteuerung, d.h. gesteuert durch die zentrale Programmablaufsteuerung stehen alle Operationen im Rechner in einem starren und eindeutigen zeitlichen Zusammenhang zueinander. Die Datentransfers zwischen den einzelnen Recheneinheiten können daher sofort, ohne zeitlichen Synchronisationsaufwand, erfolgen.

Bei der vorliegenden digitalen Rechnereinrichtung sind somit bevorzugt Datenbus-Verbindungen für interne Datentransfers innerhalb der einzelnen Recheneinheiten sowie Datenbus-Verbindungen für Datentransfers zwischen den parallel geschalteten Recheneinheiten, und weiters auch Datenbus-Verbindungen zur allgemeinen Daten-Ein- und Ausgabe in die bzw. aus der Rechnereinrichtung vorgesehen. Im Fall des Vorsehens einer globalen Recheneinheit für allgemeine Berechnungen sind Datenbus-Verbindungen auch zwischen dieser globalen Einheit und den parallel geschalteten Recheneinheiten vorgesehen.

Für die effiziente Parallelverarbeitung ist insbesondere jeder der parallel geschalteten Recheneinheiten auch ein eigener Progammspeicher zugeordnet, ebenso wie bevorzugt im Falle des Vorsehens der globalen Recheneinheit letzterer ein eigener Programmspeicher zugeordnet wird. Die globale Recheneinheit ist, um beliebigen Rechenanforderungen gerecht zu werden, bevorzugt sowohl mit Ausgängen als auch mit Eingängen der parallel geschalteten Recheneinheiten verbunden.

Die Erfindung wird nachfolgend an Hand von in der Zeichnung dargestellten bevorzugten Ausführungsbeispielen, auf die sie jedoch nicht beschränkt sein soll, noch weiter erläutert. Im einzelnen zeigen:

Fig. 1 schematisch in einem Blockschaltbild den Aufbau einer digitalen Rechnereinrichtung mit parallel geschalteten Recheneinheiten gemäß der Erfindung;

Fig. 2 in einem ähnlichen Blockschaltbild eine derartige digitale Recheneinrichtung, wobei im Vergleich zu Fig. 1 die Recheneinheiten vereinfacht dargestellt, jedoch die ihnen jeweils gesondert zugeordneten Programmspeicher veranschaulicht sind;

Fig. 3 in einem Zustandsdia-gramm die Wirkungsweise der bei der vorliegenden Recheneinrichtung vorgesehenen zentralen Programmablaufsteuerung;

Fig. 4 in einem vereinfachten Flussdiagramm die Wirkungsweise der Programmablaufsteuerung;

Fig. 5 in einem Blockschaltbild ähnlich Fig. 1 die Recheneinrichtung in der Anwendung bei einer echten Vektorverarbeitung, wobei die einzelnen dabei aktiven Datenbus-Verbindungen, die die parallele Arbeitsweise der einzelnen Recheneinheiten verdeutlichen, mit verstärkten Linien veranschaulicht sind; Fig. 6 ein bei einer derartigen Vektorverarbeitung gegebenes Berechnungsschema;

Fig. 7 ein Schema zur Veranschaulichung der Abarbeitung eines typischen Programms bei einer solchen echten Vektorverarbeitung; und

die Fig. 8, 9 und 10 sowie 11, 12 und 13 ähnliche Blockschaltbilder bzw. Schemata wie in den Fig. 5, 6, 7 gezeigt zur Veranschaulichung der Arbeitsweise bei einer Vektorverarbeitung mit skalarem Endergebnis (Fig. 8, 9 und 10) bzw. bei einer skalaren Verarbeitung (Fig. 11, 12 und 13) .

In Fig. 1 ist eine digitale Rechnereinrichtung 1 mit Parallelverarbeitung gezeigt, wobei eine Anzahl N von zueinander parallel geschalteten Recheneinheiten 2.1, 2.2, 2.3 2.N, auch

Slices genannt, vorgesehen ist. Diesen parallel geschalteten Recheneinheiten 2.1 bis 2.N, nachstehend kurz mit 2.i (i = 1 bis N) bezeichnet, ist eine zentrale, gemeinsame Programmablaufsteuerung 3 zugeordnet, und diese Programmablaufsteuerung 3 steuert auch eine globale Einheit 4 an, die mit den parallelen Recheneinheiten 2.i verbunden ist.

Jede parallel geschaltete Recheneinheit 2.i enthält, wie insbesondere in Fig. 1 bei der ersten Recheneinheit 2.1 ersichtlich ist, eine Arithmetikeinheit 5, die mit Eingangsregistern 6 (Eingangsregister A) und 7 (Eingangsregister B) für die zu verarbeitenden Daten verbunden ist. Weiters sind in jeder Recheneinheit 2.i, siehe die Recheneinheit 2.1 in Fig. 1, zwei Datenspeicher 8 (Datenspeicher A) und 9 (Datenspeicher B) vorgesehen, aus denen die zu verarbeitenden Daten in die Eingangsregister 6, 7 übernommen werden, damit sie in der Arithmetikeinheit 5 in der gewünschten Weise verarbeitet werden können.

Aus Vorstehendem ergibt sich bereits, dass innerhalb einer jeden der parallel geschalteten Recheneinheiten 2.i ein Datenbus-System 10 für interne Datentransfers zwischen den Datenspeichern bzw. Eingangsregistern und den Arithmetikeinheiten vorgesehen ist; weiters ist auch ein Datenbus-System 11 für einen Datentransfer zwischen den einzelnen Recheneinheiten 2.1, 2.2 ... 2.i ... 2.N vorgesehen, wobei dieses Datenbus-System 11 für den Datentransfer zwischen den Recheneinheiten einen globalen Datenbus 11.1, einen Register A-Datenbus 12 und einen Register B-Datenbus 14 umfasst. Ein weiteres Datenbus-System 15 dient zum Datentransfer zwischen den Recheneinheiten 2.i und der globalen Einheit 4; schließlich ist auch ein allgemeines Datenbus-System 16 für externe Dateneingänge bzw. Datenausgänge vorgesehen, um Daten, die verarbeitet werden sollen, der Rechnereinrichtung 1 zuzuführen bzw. die Ergebnisse der Berechnungen aus der Rechnereinrichtung 1 abzugeben.

Die einzelnen Datenbus-Systeme 10 bis 16 werden je nach Art der durchzuführenden Datenverarbeitungen nachfolgend an Hand der Fig. 5 bzw. 8 bzw. 11, mit den darin mit verstärkten Linien eingezeichneten Busverbindungen, noch näher erläutert werden.

Bei der so weit beschriebenen digitalen Rechnereinrichtung 1 arbeiten die einzelnen, zueinander parallelen Recheneinheiten 2.1 als autarke parallele Einheiten, wobei sie jeweils mit den eigenen, unabhängigen Datenspeichern 8, 9 samt integriertem Adressgenerator und mit einem eigenen Programmspeicher (wie nachfolgend an Hand der Fig. 2 erläutert) zusammenarbeiten. Über die zentrale Programmablaufsteuerung 3 wird ein eigener, zusätzlicher, zeitlicher Synchronisationsaufwand zum Datenaustausch zwischen den Arithmetikeinheiten 5 der Recheneinheiten 2.i erübrigt, so dass keine Rechentakte für die Synchronisation von Datentransfers erforderlich sind. Stattdessen folgt eine effiziente globale Koordination aller Berechnungen in den Recheneinheiten 2.i einfach dadurch, dass alle Aktionen in der Rechnereinrichtung 1 in einem starren zeitlichen Zusammenhang zueinander stehen, der durch die ProgrammabablaufSteuerung 3 gegeben ist. Auf diese Weise ist zu jedem Zeitpunkt genau definiert, welche Daten wo in der Rechnereinrichtung 1 vorhanden sind. Durch diese parallele Arbeitsweise der einzelnen Recheneinheiten 2.i kann die potentielle Rechenleistung der Rechnereinrichtung 1 um einen Faktor N erhöht werden.

Im Einzelnen kann bei der Abarbeitung von Vektor-Algorithmen, wie nachstehend an Hand der Fig. 5 ff. noch näher erläutert werden wird, für die effiziente Bearbeitung des Vektoralgorithmus letzterer gleichmäßig auf die zugeordneten Rechnerressourcen aufgeteilt werden, was in zwei Richtungen erfolgt:

a) Zuteilung von Architektur-Ressourcen: Die Berechnung des gesamten Datenvektors ausgehend von einzelnen Eingangs-Datenvekto- ren wird auf die parallelen Recheneinheiten 2.i aufgeteilt, welche dann jeweils Teilvektoren des gesamten Datenvektors berechnen.

b) Zuteilung von zeitlichen Ressourcen: In jeder Recheneinheit 2.i werden die einzelnen Datenwerte eines Teilvektors in einer Befehlsschleife abgearbeitet. Der Programmablauf wird zentral in der Programmablaufsteuerung 3 gesteuert, wodurch gewährleistet wird, dass die Berechnung des Vektoralgorithmus in allen Recheneinheiten 2.i synchron erfolgt.

In einer Vektorberechnung werden auf die einzelnen Datenwerte eines Datenvektors gleichartige Operationen ausgeführt. Üblicherweise besteht ein Rechenzyklus aus einer arithmetischen Operation, die jeweils zwei Werte miteinander verknüpft, wobei einer der beiden Werte meist der Datenwert des Datenvektors und der zweite Wert ein Koeffizient ist. Jede Recheneinheit 2.i beinhaltet wie erwähnt zwei unabhängige Datenspeicher 8, 9. Somit kann in einem einzigen Zyklus eine Operation wie gefordert mit zwei Werten durchgeführt werden. Die Datenbandbreite der gesamten Rechnereinrichtung 1 ist somit für Vektoralgorithmen optimiert. Da in einer Vektorverarbeitung immer alle zugeteilten Recheneinheiten 2.i gleichartige Berechnungen durchführen, werden die Rechnerressourcen aller Recheneinheiten 2.i daher auch immer voll ausgenutzt.

Jede Recheneinheit 2.i kann für sich, d.h. unabhängig, programmiert werden. Daher können in den einzelnen Recheneinheiten 2.i auch voneinander unabhängige skalare Algorithmen bearbeitet werden. Durch die zentrale Programmablaufsteuerung 3 erfolgt eine starre Synchronisierung aller Recheneinheiten 2.i in der Rechnereinrichtung 1. Bei der Berechnung mehrerer verketteter skala- rer Algorithmen hat dies den Vorteil, dass bei Datentransfers zwischen einzelnen skalaren Algorithmen, die in unterschiedlichen Recheneinheiten 2.i abgearbeitet werden, keine zusätzlichen Rechentakte (vgl. den Takteingang CLK in Fig. 1) zur Synchronisation nötig sind. Nachteilig ist unter Umständen, dass die effiziente Nutzung der Rechnereinrichtung 1 eine ausgewogene Aufteilung der zu berechnenden Algorithmen auf die Recheneinheiten 2.i erfordert. Ist z.B. die erste Recheneinheit 2.1 mit einem ersten skalaren Algorithmus, der 100 Zyklen benötigt, belegt, dessen Ergebnis für einen zweiten skalaren Algorithmus benötigt wird, der seinerseits in der zweiten Recheneinheit 2.2 berechnet wird und nur 10 Zyklen benötigt, so wird die zweite Recheneinheit 2.2 nur in 10 Zyklen genutzt, und sie wartet dann 90 Zyklen lang auf das nächste Ergebnis aus der ersten Recheneinheit 2.1. Die effektive Nutzung der Rechenressourcen beträgt dann nur (100+10) / (2x100) = 55 %. Allerdings gibt es gleich mehrere Freiheitsgrade in der Aufteilung von Algorithmenberechnungen auf die Recheneinheiten 2.i, so dass doch immer eine hohe Ausnutzung der parallelen Rechnerressourcen möglich sein sollte:

(a) Aufteilen von skalaren Algorithmen auf die einzelnen Recheneinheiten 2.i, so dass eine gleichmäßige Auslastung erfolgt. Dabei können einzelne Recheneinheiten 2.i eine unterschiedliche Anzahl von Algorithmen abarbeiten: berechnet eine Recheneinheit 2.x z.B. zwei Algorithmen, wobei der erste Algorithmus vier Rechenzyklen und der zweite fünf Rechenzyklen benötigt, und eine zweite Recheneinheit 2.y berechnet einen dritten skalaren Algorithmus, der neun Rechenzyklen benötigt, so sind beide Recheneinheiten 2.x und 2.y für insgesamt neun Zyklen voll ausgelastet.

(b) Mischen der Abarbeitung von skalaren Algorithmen mit Vektoralgorithmen, so dass wiederum alle Recheneinheiten 2.i gleichmäßig ausgelastet sind. Beispielsweise können bei einer Rechnereinrichtung 1 mit acht Recheneinheiten 2.1 bis 2.8 vier Recheneinheiten 2.1 bis 2.4 einen Vektoralgorithmus verarbeiten, während die restlichen vier Recheneinheiten 2.5 bis 2.8 skalare Algorithmen parallel, d.h. gleichzeitig, bearbeiten. Ebenso kann eine andere Aufteilung, z.B. im Verhältnis 6 : 2 gewählt werden.

In diesem Zusammenhang ist auch von Bedeutung, dass jeder Recheneinheit 2.i wie bereits erwähnt ein eigener Programmspeicher 17.1 ... 17. i ... 17. N zugeordnet ist, vgl. Fig. 2, ebenso wie auch der globalen Einheit 4 ein eigener Programmspeicher 17. G zugehört. In Fig. 1 sind diese gesonderten Programmspeicher 17.i als in der Programmablaufsteuerung 3 enthaltene Komponenten zu denken.

Die Programmablaufsteuerung 3 regelt, wie weiters aus Fig. 3 ersichtlich ist, den Programmablauf in einer Zustandsmaschine 18. Durch sie wird festgelegt, wann Operationen gemäß dem Softwareprogramm durchgeführt („exekutiert") werden müssen und wann ein neuer Befehl geholt („gefetcht") werden muss. Die Programmablaufsteuerung 3 steuert die Programmabarbeitung wie erwähnt zentral für alle Recheneinheiten 2.i. Im Fall einer Sonderbehandlung in der Rechnereinrichtung 1 wird die Programmablaufsteuerung 3 angehalten, und es werden entsprechende Schritte in einer eigenen Zustandsmaschine eingeleitet. Beispiele solcher Sonderbehandlungen sind z.B. die Behandlung eines „Debug Mode" (Testen von Programmen in der Rechnereinrichtung 1 durch schrittweise Programmverarbeitung) oder das Stoppen der Programmablaufsteuerung 3, bis neue Daten an die Rechnereinrichtung 1 geliefert werden, wobei ein Programm-Interrupt ausgelöst wird („Interrupt Mode"), wie in Fig. 3 bei 19 veranschaulicht ist.

Die Programmablaufsteuerung 3 hat gemäß der Zustandsmaschine 18 von Fig. 3 folgende Zustände:

(1) „Fetch"-Zustand 20 („ST_FE") : In diesem Zustand 20 „ST_FE" wird die Adresse des nächsten Programmbefehls aus einem (nicht näher dargestellten) PC-Register (PC: Programm Counter = Programmzähler; Adressierung des Programmspeichers) übernommen, und der dadurch adressierte Programmbefehl wird aus dem Programmspeicher 17. i geholt (="Fetch"). Dieser Programmbefehl liegt anschließend (also im darauffolgenden Takt) zur Durchführung

(="Execute") bereit.

(2) „Fetch & Execute"-Zustand 21 („ST_FEEX"): In diesem Zustand 21 wird ein neuer Programmbefehl aus dem Programmspeicher 17. i geholt; dieser Programmbefehl liegt anschließend (also im darauffolgenden Takt) zur Durchführung bereit. Der Programmzähler wird im „ST_FEEX"-Zustand 21 automatisch in jedem Taktzyklus in- kremeritiert. Damit steht die nächste Programmadresse sofort wieder zur Verfügung. Als neue Programmadresse wird also „PC + 1" angenommen, vgl. auch die Aktion 22 in Fig. 3. Mit dieser Aktion 22 wird weiters veranschaulicht, dass der im vorhergegangenen Takt geholte Befehl ausgeführt wird. Alle Recheneinheiten 2.i und die globale Einheit 4 werden aktiviert, und die den jeweiligen Recheneinheiten 2.i zugeordneten Programmbefehle werden ausgeführt.

In diesem Zustand 21 „ST_FEEX" wird ferner - s. die Aktionen 23, 24 - überprüft, ob ein Programmbefehl die Programmabfolge verändert. Das kann zwei mögliche Arten von Befehlen betreffen: 1. Schleifenbefehle: Wenn ein entsprechender Befehl den Beginn einer Programmschleife markiert, wird zu einem nachfolgend noch erläuterten Zustand 25 „ST_LOOP" gesprungen (s. Aktion 24), wo die Programmschleife abgearbeitet wird (s. Aktion 26 in Fig. 3) . 2. Befehle, die direkt das PC-Register verändern: Ein Sprung im Programm wird durch das Laden des PC-Registers mit der nächsten anzuspringenden Programmadresse ausgelöst. Somit steht der nächste auszuführende Befehl nicht an der nachfolgenden Adresse des soeben exekutierten Befehls. Daher muss der automatisch im Zustand 21 „ST_FEEX" von der Adresse PC+1 gefetchte Befehl verworfen werden. Um den tatsächlich als nächster zu exekutierenden Befehl aus dem Programmspeicher zu holen, wird vom Zustand 21 „ST_FEEX" zum Zustand 20 „ST_FE" gesprungen (s. Aktion 23).

(3) Schleifen-Zustand 25 (,,ST_LOOP^λΛ) : In diesem Zustand 25 „ST_LOOP" erfolgt das Abarbeiten einer Programmschleife. Erst wenn die Programmschleife vollständig ausgeführt ist, wird vom Zustand 25 ,,ST-LOOP" wieder in den Zustand 21 „ST_FEEX" gesprungen (s. Aktion 27) . Während des Zustands 25 „ST_LOOP" wird eine per Programm definierte Anzahl von hintereinanderfolgenden Befehlen wiederholt ausgeführt. Die Anzahl der zyklischen Wiederholungen der Programmschleife wird ebenfalls durch einen eigenen Befehl per Programm vorgegeben.

Das Exekutieren von Programmbefehlen erfolgt demgemäß für die gesamte Rechnereinrichtung 1 in den Zuständen 21 „ST_FEEX" und während einer Programmschleife in den Zuständen 25 „ST_LOOP". Befindet sich die Zustandsmaschine 18 in einem dieser Zustände, so werden alle Recheneinheiten 2. i in der Rechnereinrichtung 1 aktiviert, und sie führen die durch das Programm vorgegebenen Befehle aus, vgl. im Übrigen auch die Angaben „Fetch" und „Exe- cute" sowie die Zustands-Angaben „ST_FEEX or ST_LOOP" bzw. „ST_FE or ST_FEEX" in Fig. 2.

In Fig. 4 ist ein Signalflussdiagramm der Programmablaufsteuerung 3 veranschaulicht, wobei die vorerwähnten Zustände 20 („ST_FE"), 21 („ST_FEEX") und 25 („ST_LOOP") - letzterer mit Verschachtelungen - ebenfalls veranschaulicht sind.

Die Programmablaufsteuerung 3 wird per Programm gesteuert. Im Detail werden anhand des Flussdiagramms von Fig. 4 beispielhafte Befehle der Programmablaufsteuerung 3 erläutert. Je nach Ausprägung der Rechnereinrichtung 1 kann es aber sinnvoll sein, weitere Befehle hinzuzufügen.

In Fig. 4 ist im linken Teil eine normale Programmabarbeitung veranschaulicht, wobei gemäß dem Zustand ST_FE, s. Feld 30, als erstes der nächste Befehl - gemäß Block 31 - von der aktuellen Adresse PC geholt wird. Der nächste Befehl ist dann an der Adresse PC+1 zu erwarten. Somit kann der automatisch von dieser Stelle gefetchte Befehl im nächsten Zyklus ausgeführt werden.

Im darauffolgenden Zustand 21 („ST_FEEX") gemäß Fig. 3 beginnt das Abarbeiten des Programms, s. Feld 32 in Fig. 4, wobei dann gemäß Block 35 die Ausführung des Befehls vorbereitet und hierzu alle Recheneinheiten 2.1 und die globale Einheit 4 aktiviert wird sowie der nächste Befehl an der Adresse PC+1 geholt wird. Dieser Befehl wird wieder verworfen, wenn kein kontinuierlicher Programmablauf vorliegt.

Sodann wird gemäß Feld 36 abgefragt, ob eine Sonderbehandlung (s. Sonderbehandlung 19 in Fig. 3) zu starten ist, und wenn ja, wird zum Sonderbehandlungs-Feld 37 weitergegangen. Danach wird gemäß Feld 38 zyklisch abgefragt, ob die Sonderbehandlung zu Ende ist, und wenn nein, wird die Sonderbehandlung gemäß Feld 37 fortgesetzt; wenn jedoch die Sonderbehandlung beendet ist (Ausgang JA des Feldes 38), so wird gemäß einem weiteren Feld 39 abgefragt, ob ein kontinuierlicher Programmablauf gegeben ist, wobei der nächste Befehl an der Adresse PC+1 betrachtet wird. Wenn ein kontinuierlicher Programmablauf gegeben ist, s. Ausgang JA des Feldes 39, wird zum „ST_FEEX"-Zustand gemäß Feld 34 übergegangen; wenn jedoch kein kontinuierlicher Programmablauf gegeben ist, s. Ausgang NEIN des Feldes 39, wird zum Ausgangszustand 20 „ST_FE^λΛ gemäß Feld 30 zurückgekehrt.

Wenn im Abfrageschritt gemäß Feld 36 als Ergebnis erhalten wird, dass keine Sonderbehandlung durchzuführen ist, wird danach gemäß Feld 40 abgefragt, ob eine Programmschleife zu starten ist (d.h. in den Zustand 25 „ST_LOOP" zu springen ist) , und wenn nein, wird gemäß Feld 41 wiederum nach dem Vorliegen eines kontinuierlichen Programmablaufes abgefragt; zutreffendenfalls wird dann zum Zustand gemäß Feld 30 zurückgekehrt; wenn das Abfrageergebnis beim Feld 41 jedoch nein ist, wird die Befehlsadresse um „1" erhöht, und es wird zum Zustand „ST_FEEX" gemäß Feld 34 gesprungen.

Ergibt sich bei der Abfrage gemäß Feld 40, dass eine Programmschleife zu starten ist, wird zum Zustand 25 „ST_LOOP^ΛX, und zwar konkret im vorliegenden Beispiel gemäß Fig. 4, mit drei ineinander verschachtelten Schleifenmöglichkeiten, zur ersten, äußersten Schleife Nr. 0, gemäß Feld 42, übergegangen.

Eine solche Programmschleife wird durch den Befehl „START_LOOP" ausgelöst. Dabei wird der Zustand 34 „ST_FEEX" verlassen und im Beispiel gemäß Fig. 4 wie erwähnt zur ersten Schleife, beginnend mit dem Feld 42 „ST_LOOP#0" gesprungen. Sodann werden der aktuelle Wert des Programmzählers PC und der aktuelle Befehl abgespeichert, um ein Vorbereiten „Enable" der Befehlsausführung vorzusehen, s. Block 43 in Fig. 4. Hierzu ist auszuführen, dass am Ende einer Schleife der erste Befehl innerhalb der Schleife wiederholt wird, was einem Programmsprung entspricht, da die nächste Programmzeile nicht an der Stelle PC+1 steht. Folglich müsste der nächste Befehl in einem Extra-Zyklus erneut geholt werden, wie bei Sprungbefehlen in den Zustand 34 „ST_FEEX", die einen Zusatz-Fetch-Zustand ST_FE gemäß Feld 30 bewirken. Um die Schleifenabarbeitung, die gerade bei Vektor-Algorithmen besonders wichtig ist, zu optimieren, wird demgemäß ein derartiger zusätzlicher Zwischenschritt dadurch vermieden, dass der erste Befehl der Schleife samt dem Wert im Programmzähler (PC) zwischengespeichert wird und somit sofort zur Verfügung steht. Bei einer Schleifenabarbeitung gehen daher keine Zyklen beim Rücksprung zum Schleifenanfang verloren.

Beim Beispiel gemäß Fig. 4 sind wie erwähnt insgesamt drei ineinandergeschachtelte Schleifen vorgesehen, die in der Fig. 4, in der rechten Hälfte hievon, nebeneinander, jeweils beginnend mit einem Feld ST_LOOP #0 bzw. #1 bzw. #2, veranschaulicht sind. In der ersten Schleife, mit der Nr. #0, wird nun gemäß einem Abfragefeld 44 abgefragt, ob eine innere Schleife zu starten ist, und wenn nein, wird in einem weiteren Abfragefeld 45 abgefragt, ob die Schleife beendet ist; wenn nein, wird gemäß Block 46 der nächste Befehl geholt und zum Schleifenanfang, zum Feld 42, zurückgekehrt. Wenn jedoch die Schleife abgearbeitet ist, wird gemäß einem Abfragefeld 47 abgefragt, ob bereits die letzte Schleife erreicht wurde, d.h. ob der Schleifenzähler auf dem vorgegebenen maximalen Wert „LOOPMAX" steht, und wenn nein, wird wie erwähnt für die nächste Schleife der erste Befehl aus dem Befehlsregister geholt, s. Block 48, und der Schleifenzähler um 1 erhöht.

Im Einzelnen wird das Schleifenende durch einen Befehl „STOP_LOOP" angezeigt. Wenn auf diese Weise ein Schleifenende angezeigt wird, wird überprüft, ob schon genügend Durchläufe der Schleife erfolgt sind, was dann der Fall ist, wenn der Schleifenzähler wie erwähnt den vorprogrammierten Wert „LOOPMAX" erreicht hat. Wenn dies der Fall ist, gilt die Schleifenbearbeitung als beendet, und es wird die normale Programmabarbeitung beim Feld 34 „ST_FEEX" fortgeführt. Ansonsten wird wie erwähnt unter Erhöhung des Werts des Schleifenzählers der nächste Schleifendurchlauf gestartet.

Bei einem nochmaligen Auftreten Befehls „START_LOOP" im Zustand 25 „ST_LOOP" ist dies als Vorliegen einer eingenisteten Schleife zu verstehen, was in Fig. 4 beim Abfragefeld 44 festgestellt wird. Wenn eine solche eingenistete oder verschachtelte Schleife festgestellt wird, wird zu dieser eingenisteten Schleife, z.B. mit der Nr. #1 in Fig. 4, s. Feld 49, gesprungen, und es erfolgt dann eine Schleifenabarbeitung ganz analog zu der vorstehend be- schriebenen, wobei in Fig. 4 in dieser eingenisteten Schleife #1 die entsprechenden Felder' und Blöcke wie bei der äußersten Schleife #0 angegeben sind, und wobei sich eine neuerliche Erläuterung hievon erübrigen kann. Ähnliches gilt auch für die nächste eingenistete Schleife, die Schleife #2 gemäß Feld 50 in Fig. 4, wobei allerdings hier, da eine weitere eingenistete Schleife nicht mehr existiert, das Abfragefeld 44 wegfällt. In Fig. 4 ist dabei auch mit Verbindungen 51, 51', 51" angedeutet, dass dann, wenn die jeweilige Schleife 50 etc. bzw. 49 etc. bzw. 42 etc. abgearbeitet ist, zur jeweils nächsthöheren Schleife, und zwar zu deren Beginn gemäß Feld 49 bzw. 42, bzw. zum Feld 32 zurückgekehrt wird.

Bei der in Fig. 4 beispielhaft dargestellten und erläuterten Programmablaufsteuerung ist somit eine dreifach verschachtelte Schleife vorgesehen, wobei die innerste Schleife im Zustand ST_LOOP #2 (s. Feld 50) gesteuert wird. Dadurch, dass beim Sprung in die nächste Schleifenhierarchie der aktuelle Programmzähler-Wert sowie der aktuelle Befehl zwischengespeichert werden, wird wieder verhindert, dass bei einem Rücksprung auf den ersten Befehl der jeweiligen Schleife ein Zyklus durch einen zusätzlichen Programm-Fetch verlorengeht. Tritt der Befehl „STOP_LOOP" auf, so wird der nächste Schleifendurchlauf gestartet bzw. wird, wenn der Schleifenzähler den maximalen Schleifenwert „LOOPMAX" erreicht hat (s. Abfragefeld 47), in die nächsthöhere Schleifenhierarchie ober aber zum Feld 34 in Fig. 4 zurückgesprungen .

Damit alle Schleifenhierarchien (ST_LOOP #0 bis #2) voneinander unabhängig sind, werden entsprechend viele, hier drei, Schleifenzähler und „LOOPMAX"-Register vorgesehen. Ebenso gibt es für alle drei Schleifenhierarchien entsprechende Speicherplätze, um den jeweils ersten Befehl einer Schleife samt Programmzähler- Wert darin abzulegen.

Bei der vorliegenden Rechnereinrichtung 1, bei der der Programmablauf für alle Recheneinheiten 2.i synchron ist, betrifft eine Änderung des Programmflusses alle Recheneinheiten 2.i gleichzeitig. Das Holen von neuen Befehlen aus den unterschiedlichen Programmspeichern 17. i erfolgt zentral durch die Programmablaufsteuerung 3 im Zustand 20 oder 21 („ST_FE" oder „ST_FEEX^W, wobei „Fetch" aktiviert ist) . Durch diese zentrale Kontrolle ist zu jedem Zeitpunkt endeutig festgelegt, welche Befehle in einem bestimmten Taktzyklus bearbeitet werden. Alle Recheneinheiten 2.i erhalten von der Programmablaufsteuerung 3 ein gemeinsames Aktivierungssignal. Dieses ist dann aktiv, wenn die Programmablaufsteuerung 3 im Zustand 21 „ST_FEEX" (normaler Programmablauf) oder im Zustand 25 „ST_LOOP" ist (Abarbeitung einer Programmschleife) , und es synchronisiert damit alle Operationen in der Rechnereinrichtung 1. Da sowohl der Befehls-Fetch als auch die Befehls-Exekution synchron erfolgt, ist die gesamte Verarbeitung in der Rechnereinrichtung 1 starr gekoppelt. Es ist daher zu jedem Zeitpunkt und für jede Recheneinheit 2.i festgelegt, welche Befehle gerade abgearbeitet werden. Durch diese starre Synchronisierung ist kein weiterer Aufwand nötig, um Datentransfers zwischen verschiedenen Recheneinheiten 2.i zu synchronisieren.

Die bisher beschriebene Rechnereinrichtung 1 unterstützt insbesondere die effiziente Bearbeitung von drei Klassen von Algorithmen, nämlich die echte Vektorverarbeitung, die Vektorverarbeitung mit skalarem Endergebnis und die skalare Verarbeitung; diese Verarbeitungen werden nachfolgend noch näher erläutert.

Bei der echten Vektorverarbeitung bilden die Eingangsdaten jeweils einen Datenvektor, d.h. ein Set von einzelnen Datenwerten, und das Ergebnis ist wieder ein Datenvektor, also ein Set von einzelnen Datenwerten. In der vorliegenden Rechnereinrichtung 1 erfolgt dabei eine autarke parallele Bearbeitung der einzelnen Werte der Eingangs-Datenvektoren in den einzelnen Recheneinheiten 2.i, die nachfolgend auch „Slices" genannt werden; dabei sind keine Datentransfers zwischen den Slices 2.i nötig, wie dies insbesondere aus Fig. 5 ersichtlich ist, wo die aktiven Bussysteme 10 innerhalb der Slices 2.i mit verstärkten Linien veranschaulicht sind.

Die N-Slices 2.i erhalten Eingangsdaten aus den Datenspeichern 8, 9 oder von außerhalb über den externen Dateneingang (Bussystem 16) . Die Daten werden den Eingangsregistern 6, 7 übergeben, die ihrerseits die jeweilige Arithmetikeinheit 5 bedienen, die entsprechende arithmetische Operationen ausführt. Das Ergebnis kann wieder über einen Slice-internen Datenbus an die Eingangsregister 6,7 zurückgeleitet werden, um eine iterative Berechnung zu ermöglichen. Alternativ kann sich eines der beiden Eingangsregister 6 oder 7 auch Daten für den nächsten Verarbeitungszyklus aus dem zugehörigen Datenspeicher 8 bzw. 9 holen. Danach erfolgt wieder die Berechnung in der Arithmetikeinheit 5. Das Endergebnis kann entweder über die Eingangsregister 6,7 in die Datenspeicher 8,9 zurückgespeichert werden, oder es wird über den externen Datenausgang, d.h. das Ein-/Ausgangs-Bussystem 16, ausgegeben.

Die Dauer der gesamten Verarbeitung wird durch die zentrale Programmablaufsteuerung 3 vorgegeben, die programmierbar ist. Somit ist die Dauer der Gesamtberechnung, d.h. die Anzahl der zu wiederholenden Rechenzyklen, per Programm festgelegt. Durch die starre Synchronisation über die zentrale Programmablaufsteuerung 3 kann genau festgelegt werden, wann die einzelnen Slices 2.i Ergebnisse liefern. Es ist daher kein weiterer Synchronisationsaufwand erforderlich, um z.B. eine Datenübergabe zu nachfolgenden bzw. weiterverarbeitenden Programmen zu synchronisieren.

Bei dieser echten Vektorverarbeitung, die auch schematisch in Fig. 6 veranschaulicht ist, in der bei I₁ (mit i = 1, 2, 3...N) die Eingangswerte (also ingesamt der Eingangs-Datenvektor) , bei P₁ die parallelen Bearbeitungen und bei O₁ die Ergebnisse (der Ausgangs-Datenvektor) gezeigt sind, ist die globale Einheit 4 inaktiv.

In Fig. 7 ist die Abarbeitung eines für die Vektorverarbeitung typischen Programms gezeigt. Befehle, die die Programmablaufsteuerung 3 kontrollieren, werden einem gemeinsamen, allgemeine Befehle enthaltenden Programmspeicher 60, entnommen. Die einzelnen Slices 2.i werden über die eigenen Programmspeicher 17. i gesteuert. Die iterative Berechnung startet mit dem Befehl „Loop Start", s. Feld 61 in Fig. 7) . Alle Befehle (exklusive jener Befehlszeile, in der der Befehl „Loop Start" steht) bis zum Befehl „Loop End" (s. Feld 62) werden wiederholt ausgeführt. Die Anzahl der Wiederholungen wird in einem „LOOPMAX"-Register vorgegeben, dessen Laden in Fig. 7 schematisch beim Block 63 gezeigt ist, worauf gemäß dem Feld 61 der Befehl „Loop-Start" zum Starten der Schleifenberechnung folgt. Alle Programmspeicher 17. i werden über den gemeinsamen Programmzähler (PC) angesteuert. Daher erfolgt die gesamte Verarbeitung immer zeilenweise, wobei jede einzelne Programmzeile auf die einzelnen Programmspeicher 17. i und den allgemeinen Programmspeicher 60 aufgeteilt wird. Alle Teilprogramme in den einzelnen Slices 2.i - Prekalkulation 64. i, iterative Kalkulation 65. i, Postkalkulation 66. i - bestehen aus für jede Recheneinheit 2.i frei wählbaren Programmbefehlen, die dem jeweiligen Programmspeicher 17. i entnommen werden. Lediglich der Programmfluss wird zentral gesteuert. Beispielsweise wird die Anzahl der iterativen Berechnungen durch das Laden des „LOOPMAX"-Registers für alle Slices 2.i festgelegt. Gemäß Feld 67 wird jeweils überprüft, ob die Schleifenzählung die maximale Schleifenzahl („LOOPMAX") erreicht hat, und wenn nicht, wird die nächste Schleife gerechnet (s. auch die „Verbindung" 68 „next Loop" in Fig. 7) .

Als nächstes soll die Vektorverarbeitung mit skalarem Endergebnis anhand der Fig. 8 bis 10 erläutert werden. Bei dieser Bearbeitungsart bilden ebenfalls die Eingangsdaten einen Datenvektor (ein Set von einzelnen Datenwerten) , das Ergebnis ist jedoch eine skalare Größe, d.h. ein einzelner Datenwert. In den einzelnen Recheneinheiten (= Slices) 2.i erfolgt eine Vektorbearbeitung der einzelnen Werte des Datenvektors, wonach in der globalen Einheit 4 die Bildung eines skalaren Endergebnisses erfolgt. Dieses Endergebnis kann an alle Slices 2.i zurückgeführt werden. Diese Verarbeitungen bzw. die hiefür durchzuführenden Datenübertragungen ergeben sich aus Fig. 8, in der, wiederum ausgehend vom Schema von Fig. 1, die nun insbesondere aktiven Bussysteme 12 und 15 stark herausgezeichnet sind.

Die Verarbeitung des Eingangs-Datenvektors erfolgt wieder wie vorstehend bereits anhand der Fig. 5 bis 7 beschrieben und braucht nicht weiter erläutert zu werden. Anschließend an diese Vektorverarbeitung werden die Teilergebnisse der Berechnungen, die in den einzelnen Slices 2.i erfolgen, der globalen Einheit 4 übergeben. Diese globale Einheit 4 übernimmt die Teilergebnisse der Slices 2.i und bildet durch arithmetische Operationen ein einzelnes Endergebnis (zum Beispiel kann die globale Einheit 4 die Summe oder aber ein skalares Produkt aus allen Teilergebnissen bilden) .

Abgesehen davon, dass das Endergebnis wieder an die Eingangsregister 6, 7 der einzelnen Slices 2.i zurückgeführt werden kann, ist es selbstverständlich auch denkbar, das skalare Endergebnis über den externen Ausgang (also über das Bussystem 16) auszugeben.

Diese Bearbeitungs-Mischform ist wiederum, in einer Darstellung ähnlich Fig. 6, schematisch in Fig. 9 veranschaulicht. Dabei ist gezeigt, wie aus Eingangswerten I₁ in einer Vektorverarbeitung P₁ Teilergebnisse T_± berechnet werden; aus diesen Teilergebnissen T₁ wird, z.B. durch Produktberechnung, in einer globalen Skalar-Be- rechnung S das skalare Endergebnis 0 berechnet.

Die Fig. 10 zeigt hierzu mehr im Detail die Abarbeitung eines typischen Programms. Dabei erfolgt die iterative Berechnung wieder zentral für alle Slices 2.i. Im gezeigten Beispiel werden am Beginn der Berechnung die Ausgangswerte einer Berechnung der globalen Einheit 4 (der z.B. als globaler Addierer fungiert) entnommen. Da alle Recheneinheiten 2.i getrennt programmiert werden können, kann jede Recheneinheit 2.i die Ausgangsdaten aus einer anderen Quelle entnehmen. Beispielsweise wäre es auch möglich, dass nur die erste Recheneinheit 2.1 ihren Startwert von der globalen Einheit 4 entnimmt und andere Slices 2.i (itl) ihre Startwerte aus dem Datenspeicher oder von außerhalb (über das Bussystem 16) erhalten.

Gemäß Fig. 10 werden ausgewählte Werte in der globalen Einheit 4 am Ende der Berechnung aufsummiert, was durch eine Ansteuerung von Schaltern S.i veranschaulicht ist. Die Auswahl, welche SIi- ce-Werte aufsummiert werden, wird durch ein Register 69 „ADDER- MASK" festgelegt.

Im Übrigen entspricht Fig. 10 grundsätzlich der Fig. 7, so dass sich eine neuerliche Beschreibung, etwa was die Schleifenbearbeitungen betrifft, erübrigen kann.

Abschließend soll noch anhand der Fig. 11, 12 und 13 beispiel- haft eine rein skalare Verarbeitung erläutert werden. Hier sind die Eingangsdaten eine skalare Größe (ein einzelner Datenwert) , ebenso wie das Endergebnis und zwischendurch erhaltene Teilergebnisse skalare Größen (einzelne Datenwerte) sind. Die Gesamtberechnung wird in Teilberechnungen unterteilt, die parallel in den einzelnen Recheneinheiten 2.1, 2.2 ... 2.(N-I), 2.N erfolgen, und alle Teilergebnisse werden gleichzeitig an die jeweils rechte Nachbar-Recheneinheit 2.2 ... 2.N, 2.1 übergeben, wo die jeweilige weitere Berechnung erfolgt. In Fig. 11 ist mit einem Bussystem II¹ gezeigt, dass insgesamt eine Ringstruktur gebildet ist, wobei sich ergibt, dass der „rechte" Nachbar der Recheneinheit 2.N die Recheneinheit 2.1 ist.

Die Fig. 12 zeigt die Berechnung einer Kette A.l, A.2, A.3 ..A. N (allgemein A.i) von skalaren Algorithmen, d.h. die gesamte Berechnung wird in Teilberechnungen A.i unterteilt. Die einzelnen Berechnungsstufen werden in benachbarten Recheneinheiten 2.1, 2.2, 2.3 ... 2N abgearbeitet. Die Übergabe der Teilergebnisse erfolgt durch den Datenbus 11 bzw. II¹, der die Eingangsregister 6,7 der einzelnen Slices 2.i miteinander verkettet, vgl. Fig. 11. Sind die Teilergebnisse Tl. i fertiggerechnet, werden die Endergebnisse der einzelnen Teilberechnungen A.i in die Eingangsregister 6, 7 der einzelnen Slices 2.i gestellt. Das Eingangsregister 6 oder 7 der jeweils rechten Nachbar-Slices 2. (i+1) kann über den Datenbus 11 bzw. 11' auf dieses Ergebnis zugreifen und nutzt es als Startwert für den nächsten Berechnungszyklus. Somit ergibt sich die Gesamtberechnung aus einer Kette von Teilberechnungen Tl. i, T2.i,... wie oben dargestellt. Jeder Slice 2.i kann sich programmierbar in diese Kette hineinschalten. Durch die starre Synchronisation der einzelnen Slices 2.i durch die Programmablaufsteuerung 3 sind keine weiteren Rechentakte bei der Übergabe der Datenwerte zwischen den Slices 2.i erforderlich. Die Datenbusverbindung 11, 11' der Eingangsregister 6, 7 der Slices 2.i ist ringförmig zusammengeschaltet. Daher sind alle Slices 2.i gleichwertig, und kein Slice ist durch seine Position bevorzugt oder benachteiligt (Beispiel: der ganz rechte Slice 2.N besitzt als „logischen" rechten Nachbar den ersten Slice 2.1).

In Fig. 13 ist die Abarbeitung eines typischen Programms ge- zeigt, wobei die Abarbeitung der Teilprogramme in den Recheneinheiten 2.i durch die getrennten Slice-Programmspeicher 17. i gesteuert wird. Die Startwerte werden vom jeweiligen linken Nachbar-Slice übernommen. Dies geschieht, indem - wie in Fig. 13 bei 70. i veranschaulicht ist - per Programmierung alle Befehlsregister als Datenquelle den Slice-Eingangsport zugewiesen bekommen, der an den Befehlsregister-Ausgang des jeweiligen linken Nachbar-Slices gekoppelt ist. Die zentrale Programmablaufsteuerung 3 erleichtert dabei wesentlich die synchrone Datenübernahme zwischen allen Slices. Die Synchronisation wird dadurch erreicht, dass das Freischalten der Eingangsregister-Datenbusse 13, 14 in der jeweils gleichen Programmzeile eines jeden Slices 2.i erfolgt.

Hier dargestellt ist eine ringförmige Verkettung aller Befehlsregister in der ersten Programmzeile. Tatsächlich kann aber jede Recheneinheit 2.i völlig unabhängig programmiert werden. Dass Daten von einer Recheneinheit zur anderen über den Register-Datenbus 13 bzw. 14 übergeben werden können, wird lediglich dadurch festgelegt, dass in der gleichen Programmzeile der zwei betroffenen Slice-Teilprogramme im einen Slice 2.(i-l) der Datenwert zur Verfügung gestellt wird und dieser im zweiten Slice 2.i mittels Durchschalten des Registerbusses 12 bzw. 13 übernommen wird. Die jeweils betroffenen Slice-Paare 2.(i-l), 2.i können frei wählen, ob und wann ein Datentransfer zwischen den Slices aufgebaut wird.

Es ist auch ein Mischen der oben genannten Algorithmen-Typen möglich. Dabei können die verschiedenen Recheneinheiten 2.i der Rechnereinheit 1 unterschiedliche Algorithmen-Typen gleichzeitig bearbeiten; es können hintereinander unterschiedliche Algorithmen-Typen behandelt werden, und die Rechnereinrichtung 1 kann, ohne zusätzliche Rechentakte zu benötigen, zwischen den Algorithmen-Typen umschalten.

Alle Recheneinheiten 2. i können autark für sich programmiert werden und daher eigenständig Berechnungen durchführen. Das Zusammenschalten von Recheneinheiten 2.i erfolgt mit der Datenbusstruktur, welche die besprochenen Algorithmen optimal unterstützt. Grundsätzlich können den Recheneinheiten 2.1 auch ver- schiedene Algorithmen-Typen zur Berechnung zugeteilt werden, was dadurch ermöglicht wird, dass sowohl die in den Recheneinheiten 2.i ausgeführten Operationen als auch die Verschaltung der Datenpfade über ein Programm flexibel definiert und jederzeit geändert werden können. Da darüber hinaus alle Recheneinheiten 2.1 getrennt programmiert werden können, ist es dann möglich, dass in verschiedenen Recheneinheiten zur gleichen Zeit unterschiedliche Algorithmentypen verarbeitet werden können.

Claims

P a t e n t a n s p r ü c h e :

1. Digitale Rechnereinrichtung (1) mit Parallelverarbeitung, mit mehreren parallel einsetzbaren Arithmetikeinheiten (5) und einer ihnen zugeordnete Steuereinheit, dadurch gekennzeichnet, dass zumindest einige, vorzugsweise alle Arithmetikeinheiten

(5) , mit über Datenbus-Verbindungen (10) zugeordneten Datenspeichern (8, 9) zu parallel geschalteten Recheneinheiten (2.i) mit synchroner Befehlsabarbeitung zusammengefasst sind.

2. Rechnereinrichtung nach Anspruch 1, dadurch gekennzeichnet, dass zwischen den parallel geschalteten Recheneinheiten (2.i) Datenbus-Verbindungen (11) vorgesehen sind.

3. Rechnereinrichtung nach Anspruch 1 oder 2, dadurch gekennzeichnet, dass den parallel geschalteten Recheneinheiten (2.i) als Steuereinheit eine zentrale Programmablaufsteuerungseinheit (3) zugeordnet ist.

4. Rechnereinrichtung nach einem der Ansprüche 1 bis 3, dadurch gekennzeichnet, dass jeder der parallel geschalteten Recheneinheiten (2.i) ein eigener Programmspeicher (17. i) zugeordnet ist.

5. Rechnereinrichtung nach einem der Ansprüche 1 bis 4, dadurch gekennzeichnet, dass für allgemeine Berechnungen wenigstens eine globale Recheneinheit (4) vorgesehen ist, die mit den parallel geschalteten Recheneinheiten (2.i) verbunden ist.

6. Rechnereinrichtung nach Anspruch 5, dadurch gekennzeichnet, dass die globale Recheneinheit (4) sowohl mit Ausgängen als auch mit Eingängen der parallel geschalteten Recheneinheiten (2.i) über Datenbus-Verbindungen (15) verbunden ist.

7. Rechnereinrichtung nach Anspruch 4 oder 5, dadurch gekennzeichnet, dass der globalen Recheneinheit (4) ein eigener Programmspeicher (17.G) zugeordnet ist.