WO2021228483A1

WO2021228483A1 - Vorrichtung und verfahren zum erzeugen von instruktionen für eine recheneinrichtung zur ausführung einer rechenvorschrift

Info

Publication number: WO2021228483A1
Application number: PCT/EP2021/059682
Authority: WO
Inventors: Dennis Sebastian RIEBER
Original assignee: Robert Bosch Gmbh
Priority date: 2020-05-14
Filing date: 2021-04-14
Publication date: 2021-11-18
Also published as: CN115485663A; DE102020206112A1; US20230244745A1

Abstract

Computerimplementiertes Verfahren und Vorrichtung zum Erzeugen von Instruktionen für eine Recheneinrichtung zur Ausführung einer Rechenvorschrift, wobei ein erster Graph mit Knoten und Kanten bereitgestellt wird (204), der erste Instruktionen für die Recheneinrichtung zur Ausführung der Rechenvorschrift definiert, wobei im ersten Graph wenigstens ein erster Teil mit einer ersten Struktur gesucht wird (206), wobei abhängig vom wenigstens einen ersten Teil ein zweiter Teil mit einer zweiten Struktur bestimmt wird (208), wobei abhängig vom ersten Graph ein gerichteter azyklischer zusammenhängender zweiter Graph mit Knoten und Kanten bestimmt wird (210), wobei im zweiten Graph der erste Teil durch den zweiten Teil ersetzt ist, wobei der zweite Graph zweite Instruktionen für die Recheneinrichtung zur Ausführung der Rechenvorschrift definiert, wobei ein Muster für wenigstens einen Teil eines Graphs bereitgestellt wird (212), dessen Knoten und Kanten durch Instruktionen definiert ist, die von der Recheneinrichtung ausführbar sind, wobei die Instruktionen für die Recheneinrichtung entweder abhängig vom ersten Graph oder abhängig vom zweiten Graph erzeugt werden (216), und wobei abhängig vom Muster der erste Graph oder der zweite Graph zum Erzeugen von Instruktionen für die Recheneinrichtung ausgewählt wird (214).

Description

Beschreibung

Titel

Vorrichtung und Verfahren zum Erzeugen von Instruktionen für eine

Recheneinrichtung zur Ausführung einer Rechenvorschrift

Stand der Technik

Die Erfindung geht aus von einer Vorrichtung und einem Verfahren zum Erzeugen von Instruktionen für eine Recheneinrichtung zur Ausführung einer Rechenvorschrift.

Tianqi Chen, Thierry Moreau, Ziheng Jiang, Haichen Shen, Eddie Q. Yan,

Leyuan Wang, Yuwei Hu, Luis Ceze, Carlos Guestrin, and Arvind Krishnamurthy. 2018. TVM: End-to-End Optimization Stack for Deep Learning. CoRR abs/1802.04799 (2018). arXiv: 1802.04799 http://arxiv.org/abs/1802.04799 offenbart ein als TVM bezeichnetes Werkzeug zur Auswahl von Instruktionen für elektronische Schaltkreise, die für spezielle mathematische Berechnungen hergestellt sind. Diese werden als Accelerator oder Hardwarebeschleuniger bezeichnet und beispielsweise für Berechnungen in künstlichen neuronalen Netzwerken eingesetzt.

M. Sotoudeh, A. Venkat, M. Anderson, E. Georganas, A. Heinecke, J. Knigh, ISA Mapper: A Compute and Hardware Agnostic Deep LearningCompiler, https://dl.acm.org/doi/10.1145/3310273.3321559 offenbart eine Möglichkeit, bei der Erzeugung von Instruktionen mit Schleifennestern umzugehen.

Es ist wünschenswert, ein effizientes Vorgehen zur Erzeugung von Instruktionen für beliebige derartige Hardwarebeschleuniger und beliebige Rechenvorschriften bereitzustellen.

Offenbarung der Erfindung Dies wird durch den Gegenstand der unabhängigen Ansprüche erreicht.

Ein computerimplementiertes Verfahren zum Erzeugen von Instruktionen für eine Recheneinrichtung zur Ausführung einer Rechenvorschrift sieht vor, dass ein gerichteter erster Graph mit Knoten und Kanten bereitgestellt wird, der erste Instruktionen für die Recheneinrichtung zur Ausführung der Rechenvorschrift definiert, wobei im ersten Graph wenigstens ein erster Teil mit einer ersten Struktur gesucht wird, wobei abhängig vom wenigstens einen ersten Teil ein zweiter Teil mit einer zweiten Struktur bestimmt wird, wobei abhängig vom ersten Graph ein gerichteter zweiter Graph mit Knoten und Kanten bestimmt wird, wobei im zweiten Graph der erste Teil durch den zweiten Teil ersetzt ist, wobei der zweite Graph zweite Instruktionen für die Recheneinrichtung zur Ausführung der Rechenvorschrift definiert, wobei ein Muster für wenigstens einen Teil eines Graphs bereitgestellt wird, dessen Knoten und Kanten durch Instruktionen definiert ist, die von der Recheneinrichtung ausführbar sind, wobei die Instruktionen für die Recheneinrichtung entweder abhängig vom ersten Graph oder abhängig vom zweiten Graph erzeugt werden, und wobei abhängig vom Muster der erste Graph oder der zweite Graph zum Erzeugen von Instruktionen für die Recheneinrichtung ausgewählt wird. Der erste Graph kann ein gerichteter azyklischer zusammenhängender Graph sein. Im ersten Graph werden Teilgraphen gefunden, die einem Suchmuster entsprechen. Für diese Teilgraphen werden neue Teilgraphen erzeugt, die Instruktionen definieren, mit denen dasselbe Teilergebnis vollständig bestimmbar ist. Mit den neuen Teilgraphen wird ein zweiter Graph erzeugt. Unterschiedliche Recheneinrichtungen können verschiedene Teilergebnisse mit verschiedener spezialisierter Hardware unterschiedlich schnell oder präzise bestimmen. Für eine bestimmte Hardware wird einer der Graphen ausgewählt, mit dem die Instruktionen erzeugt werden. Das Muster definiert die Instruktionen, die besonders gut zur bestimmten Hardware passen. Dadurch können die für diese Hardware besonders gut geeigneten Instruktionen erzeugt werden. Durch die gerichteten Kanten sind Datenabhängigkeiten darstellbar, die bei der Auswahl des Graphen berücksichtigt werden. Die Knoten können Operationen oder Operanden zur Ausführung der Rechenvorschrift definieren, wobei die Kanten eine Reihenfolge der Anwendung von Operationen zur Ausführung der Rechenvorschrift definieren.

Es kann vorgesehen sein, dass abhängig von der Rechenvorschrift, ein Graph bereitgestellt wird, der einen Knoten umfasst, der einen Iterator für eine Operation zur Ausführung der Rechenvorschrift definiert, wobei ein Länge eines Pfads im Graph zwischen einem Knoten, der den Iterator verwendet und dem Knoten, der den Iterator definiert, bestimmt wird, wobei im Knoten, der den Iterator verwendet ein Verweis auf den Knoten, der den Iterator definiert, durch eine Angabe ersetzt wird, die die Länge des Pfads umfasst, und wobei der gerichtete erste Graph abhängig von dem Knoten, der die Länge des Pfads umfasst, bestimmt wird. Dadurch ist statt eines Verweises auf einen Knoten, der im Graph eine Programmschleife oder für eine Reduktion von Dimensionen definiert, die Länge des Pfads definiert. Der Knoten, der den Iterator verwendet, ist ausgehend vom Knoten der den Iterator definiert, im ersten Graph dadurch erreichbar, dass solange zu einem Kindknoten sein Elternknoten bestimmt wird, bis die Länge des Pfads erreicht ist.

Die erste Struktur kann einen ersten Teilgraph definieren, der eine Mehrzahl Knoten und Kanten umfasst, die für wenigstens zwei Operanden wenigstens eine Operation in einer ersten Reihenfolge definieren, wobei die zweite Struktur einen zweiten Teilgraph definiert, der durch die Knoten des ersten Teilgraphs definiert ist, wobei die Kanten des zweiten Teilgraphs für die wenigstens zwei Operanden Owenigstens eine Operation in einer zweiten Reihenfolge definieren, wobei die wenigstens eine Operation eine elementweise Operation definiert.

Die erste Struktur kann durch eine erste Zeichenfolge definiert sein, die einen Pfad im ersten Graph definiert, wobei die zweite Struktur durch eine zweite Zeichenfolge definiert ist, die einen Pfad im zweiten Graph definiert. Dadurch können Musterabgleiche durch Zeichenfolgenvergleiche erfolgen.

Die erste Zeichenfolge und/oder die zweite Zeichenfolge kann eine geordnete Liste von Bezeichnungen für Knoten im Pfad umfassen, die den Pfad definiert. Dadurch sind Pfade im Zeichenfolgenvergleich besonders gut auffindbar. Die erste Struktur kann einen ersten Teilgraphen definieren, der eine Mehrzahl Knoten und Kanten umfasst, die für wenigstens zwei Dimensionen eines Operanden eine erste Anordnung in einem Speicher der Recheneinrichtung definieren, wobei die zweite Struktur einen zweiten Teilgraphen definiert, der durch die Knoten des ersten Teilgraphs definiert ist, wobei die Kanten des zweiten Teilgraphs für die wenigstens zwei Dimensionen des Operanden eine zweite Anordnung im Speicher definieren.

Die erste Anordnung kann einen ersten Tensor für Daten definieren, wobei die zweite Anordnung einen zweiten Tensor für die Daten definiert, wobei der zweite Tensor durch den transponierten ersten Tensor definiert ist.

Die erste Anordnung kann gegenüber der zweiten Anordnung mehr Dimensionen umfassen, wobei die zweite Anordnung durch Linearisieren einer Vielzahl von Dimensionen der ersten Anordnung bestimmt wird.

Die erste Anordnung kann gegenüber der zweiten Anordnung weniger Dimensionen umfassen, wobei die zweite Anordnung durch Replizieren wenigstens einer Dimension einer Vielzahl von Dimensionen der ersten Anordnung oder durch Hinzufügen einer mit wenigstens einem Wert, insbesondere mit wenigstens einer Null, aufgefüllten Dimension bestimmt wird.

Die Daten können durch einen Eingang für die Rechenvorschrift oder durch ein Teilergebnis der Rechenvorschrift definiert sein.

Die erste Struktur kann einen ersten Teilgraph definieren, der einen ersten Knoten umfasst, an dem keine Kante beginnt, wobei der erste Knoten einen ersten Speicherbereich für die Recheneinrichtung in wenigstens zwei Dimensionen definiert, wobei die erste Struktur einen zweiten Knoten umfasst, der eine Operation für Werte im ersten Speicherbereich definiert, wobei ein zweiter Speicherbereich für die Recheneinrichtung in wenigstens einer der Dimensionen des ersten Speicherbereichs definiert wird, wobei die zweite Struktur einen zweiten Teilgraph definiert, in dem der erste Knoten des ersten Teilgraphs durch einen dritten Knoten ersetzt ist, der den zweiten Speicherbereich definiert, wobei die zweite Struktur für wenigstens eine Dimension des ersten Speicherbereichs, die im zweiten Speicherbereich fehlt, eine Programmschleife definiert, die eine wiederholte Ausführung der Operation mit dem zweiten Operanden über dieser Dimension definiert.

Es kann vorgesehen sein, dass eine Vielzahl erster Strukturen bereitgestellt wird, wobei für erste Strukturen, die im ersten Graph gefunden werden, eine Vielzahl zweiter Graphen bestimmt wird, wobei in der Vielzahl zweiter Graphen nach der Vielzahl erster Strukturen gesucht wird. Die Suche wird iterativ wiederholt, bis kein weiterer Teilgraph mehr gefunden wird, der dem Suchmuster entspricht.

Von der Recheneinrichtung können ausführbare Instruktionen vorgegeben, bestimmt oder empfangen werden, wobei das Muster abhängig von den ausführbaren Instruktionen bestimmt wird.

Aus einer Vielzahl Datenstrukturen für Knoten des ersten Graphs wird vorzugsweise eine Datenstruktur für einen Knoten des ersten Graphs bestimmt, die ein Datenfeld umfasst, das eine Operation definiert, die auf andere Knoten anzuwenden ist, wobei eine Datenstruktur für einen Knoten des zweiten Graphs mit derselben Datenstruktur bestimmt wird, wobei ein Datenfeld, das einen Knoten definiert, auf den die Operation anzuwenden ist, durch ein Datenfeld ersetzt wird, in dem ein anderer Knoten definiert ist, auf den die Operation anzuwenden ist, wobei der andere Knoten entweder in einem anderen Datenfeld der Datenstruktur für den Knoten definiert ist, oder wobei der andere Knoten in einem Datenfeld einer Datenstruktur eines weiteren Knotens definiert ist, auf den ein Datenfeld aus der Datenstruktur des Knotens des ersten Graphs verweist. Dadurch wird eine Reihenfolge der Instruktionen für eine Berechnung vertauscht.

Aus einer Vielzahl Datenstrukturen für Knoten des ersten Graphs wird vorzugsweise eine Datenstruktur für einen Knoten des ersten Graphs bestimmt, die ein Datenfeld umfasst, das eine Liste mit anderen Knoten definiert, wobei eine Datenstruktur für einen Knoten des zweiten Graphs mit derselben Datenstruktur bestimmt wird, wobei das Datenfeld, das die Liste definiert, durch ein Datenfeld ersetzt wird, in dem ein erster Eintrag aus der Liste mit einem zweiten Eintrag aus der Liste vertauscht ist. Dadurch wird an einem Eingangsknoten statt auf einen Vektor, einen Tensor oder eine Matrix auf deren Transponierte zugegriffen. Vorzugsweise wird wenigstens ein Knoten bestimmt, der eine Programmschleife zur Bestimmung eines Ergebnis definiert, wobei dem Knoten ein Parameter zugeordnet wird, der eine Speicherkachel im Speicher charakterisiert, wobei abhängig vom Parameter eine erste Programmschleife und eine zweite Programmschleife bestimmt werden, wobei die erste Programmschleife wenigstens eine Instruktion zur Bestimmung des Ergebnis und eine Instruktion für einen Aufruf der zweiten Programmschleife umfasst, mit der ein Teilergebnis dafür bestimmbar ist. Dies ermöglicht ein Segmentieren der Programmschleifen, falls die Instruktionen kleiner als die Dimensionen der Rechenvorschrift sind.

Eine Vorrichtung zum Erzeugen von Instruktionen für eine Recheneinrichtung zur Ausführung einer Rechenvorschrift ist ausgebildet, das Verfahren auszuführen.

Eine Datenstruktur zum Erzeugen von Instruktionen für eine Recheneinrichtung zur Ausführung einer Rechenvorschrift umfasst für einen Knoten eines Graphs: ein erstes Datenfeld für einen Elternknoten des Knotens im Graph, wenigstens ein zweites Datenfeld für einen Kindknoten des Knotens im Graph und wenigstens ein drittes Datenfeld das eine Operation oder einen Operanden der Rechenvorschrift charakterisiert.

Das wenigstens eine dritte Datenfeld kann einen Datennutzer, eine Größe wenigstens einer Dimension für die Berechnung, eine arithmetische Operation, eine Abhängigkeit oder Reihenfolge für die Berechnung oder einen Wertetyp definieren.

Weitere vorteilhafte Ausführungsformen ergeben sich aus der folgenden Beschreibung und der Zeichnung. In der Zeichnung zeigt:

Fig. 1 eine Vorrichtung zum Erzeugen von Instruktionen für eine Recheneinrichtung,

Fig. 2 einen ersten Graphen,

Fig. 3 einen zweiten Graphen,

Fig. 4 Schritte in einem Verfahren zum Erzeugen von Instruktionen für eine Recheneinrichtung,

Fig. 5 eine erste Transformation für einen Graphen,

Fig. 6 eine zweite Transformation für einen Graphen, Fig. 7 eine dritte Transformation für einen Graphen,

Fig. 8 eine vierte Transformation für einen Graphen,

Fig. 9 eine fünfte Transformation für einen Graphen,

Fig. 10 eine sechste Transformation für einen Graphen,

Fig. 11 eine siebte Transformation für einen Graphen,

Fig. 12 Datenstrukturen.

Im folgenden bezeichnet G := (V, A, s, t) einen gerichteten Multigraphen, d.h. einen Graphen mit einer Vielzahl gerichteter Kanten, die einzeln identifizierbar sind.

V bezeichnet eine Menge Knoten, A eine Menge Kanten, s eine Funktion, die jeder Kante den Knoten zuordnet, an dem die Kante beginnt und t eine Funktion, die jeder Kante den Knoten zuordnet an dem die Kante endet.

Mit Baum wird ein Graph bezeichnet, der genau einen Pfad zwischen zwei Knoten definiert. Ein Pfad bezeichnet im Beispiel eine endliche Sequenz von Kanten, die eine im Beispiel endliche Menge von Knoten verbindet, die alle voneinander verschieden sind.

Eine auf einem Graph basierende Repräsentation, die eine Berechnungssequenz und -hierarchie sowie dafür erforderliche Speicherzugriffsmuster für sowohl einen Kernel als auch für eine Befehlssatzarchitektur erfasst, wird im Folgenden als Zwischenrepräsentation bezeichnet. Die Befehlssatzarchitektur kann eine x86-Befehlssatzarchitektur, d.h. eine Instruction Set Architecture, ISA, für eine x86-CPU sein.

Die Zwischenrepräsentation ist im Beispiel ein Multigraph, der die Berechnungen in Operatoren eines künstlichen neuronalen Netzwerks repräsentiert.

In Figur 1 ist eine Vorrichtung zum Erzeugen von Instruktionen für eine Recheneinrichtung 102 zur Ausführung einer Rechenvorschrift schematisch dargestellt.

Die Recheneinrichtung 102 umfasst eine erste Einrichtung 104, eine zweite Einrichtung 106 und einen Speicher 108. Die erste Einrichtung 104 umfasst im Beispiel elektrische Schaltkreise, die zur Ausführung bestimmter, vorgegebener Instruktionen ausgebildet ist. Die erste Einrichtung 104 ist ausgebildet, auf den Speicher 108 lesend zuzugreifen. Die erste Einrichtung 104 ist ausgebildet, auf den Speicher 108 schreibend zuzugreifen. Die erste Einrichtung 104 ist ausgebildet, bei jeder Ausführung einer bestimmten, vorgegebenen Instruktion abhängig von demselben Eingang denselben Ausgang zu bestimmen. Der Eingang ist im Beispiel durch Werte aus einem ersten Speicherbereich 110 des Speichers 108 definiert. Der Ausgang ist im Beispiel durch Werte aus einem zweiten Speicherbereich 112 des Speichers 108 definiert. Im Beispiel ist der zweite Speicherbereich 112 des Speichers 108 während der Ausführung einer Instruktion Undefiniert. Im Beispiel wird der zweite Speicherbereich 112 erst nach der Ausführung dieser Instruktion verwendet oder verändert. Eine erste Datenleitung 114 kann diese verbinden.

Die erste Einrichtung 104 wird im Folgenden als Hardwarebeschleuniger bezeichnet.

Die zweite Einrichtung 106 ist ausgebildet, abhängig von einer Rechenvorschrift Instruktionen für den Hardwarebeschleuniger zu bestimmen. Eine zweite Datenleitung 116 kann diese verbinden Die zweite Einrichtung 106 kann ausgebildet sein, einen Typ des Hardwarebeschleunigers zu erkennen. Die zweite Einrichtung 106 kann ausgebildet sein, den Typ des Hardwarebeschleunigers aus einer von einem Benutzer eingegebenen Konfiguration zu bestimmen. Die zweite Einrichtung 106 kann ausgebildet sein, den Typ des Hardwarebeschleunigers durch eine Abfrage vom Hardwarebeschleuniger zu erfragen und den Typ abhängig von einer Antwort des Hardwarebeschleunigers zu erkennen. Der Hardwarebeschleuniger kann in diesem Fall ausgebildet sein, diese Antwort bei Erhalt der Abfrage zu senden.

Der Hardwarebeschleuniger kann den Typ auch ohne Erhalt einer Abfrage z.B. beim Einschalten des Hardwarebeschleunigers senden.

Die zweite Einrichtung 106 kann ausgebildet sein, das im Folgenden beschriebene Verfahren auszuführen. Dieses Verfahren kann auch außerhalb der zweiten Einrichtung 106 oder außerhalb der Recheneinrichtung 102 ausgeführt werden, wobei ein Ergebnis des Verfahrens die Instruktionen definiert, die die zweite Einrichtung 106 erzeugen soll, um den Hardwarebeschleuniger zur Bestimmung des Ergebnisses einer Berechnung gemäß der Rechenvorschrift oder zur Bestimmung eines Teilergebnisses daraus anzusteuern.

Der Speicher 108 umfasst im Beispiel einen linearen Adressraum. Im Adressraum können Skalare oder Tensoren gespeichert werden. Einem eindimensionalen Tensor wird im Beispiel im Adressraum ein zusammenhängender Speicherbereich zugewiesen, wobei einzelne Elemente des Tensors, d.h. der Speicherort einzelner Werte dieser Elemente, in einer ersten Dimension i adressierbar sind. Im Beispiel ist für einen Wert eine vorgegebene Anzahl Speicherzellen definiert. Im Beispiel ist ein Wert eines Elements eines im Speicher 108 gespeicherten Tensors in den Speicherzellen gespeichert, die ausgehend von einer Startadresse für den Tensor im Speicherbereich für den Tensor bei der durch eine Position des Elements im Tensor definierten Stelle in der ersten Dimension i beginnen.

Für einen zweidimensionalen Tensor können die erste Dimension i und eine zweite Dimension j definiert sein. Der Speicherort einzelner Werte ist im Beispiel in jeder der Dimensionen des Tensors wie für den eindimensionalen Tensor beschrieben definiert.

Es kann vorgesehen sein, dass der Hardwarebeschleuniger unveränderliche elektrische Schaltkreise zur Berechnung einer der Operationen aus der folgenden nicht abschließenden Liste von für ein- und/oder mehrdimensionale Tensoren aufweist:

Elementweise Operation, z.B. Addition, Multiplikation, Division, Subtraktion, Skalarprodukt,

Tensorreduktion, z.B. Vektorreduktion

Für die Operationen kann ein unveränderlicher erster Wertebereich für die erste Dimension i definiert sein. Für die Operationen kann ein unveränderlicher zweiter Wertebereich für die zweite Dimension j definiert sein. Der erste Wertebereich und/oder der zweite Wertebereich können durch den Aufbau oder die Anordnung der unveränderlichen elektrischen Schaltkreise definiert sein. Eine Instruktion oder Instruktionen zur Berechnung einer derartigen Operation können durch Muster repräsentiert werden, die in einer Struktur eines Graphs auffindbar sind, der eine Rechenvorschrift definiert, in der eine der Operationen verwendet werden kann.

Das im Folgenden beschriebene Verfahren ermöglicht es, einen Graphen auszuwählen, der es ermöglicht, die Instruktion oder die Instruktionen zu erzeugen, mit denen ein Ergebnis einer Berechnung gemäß der Rechenvorschrift unter Verwendung des Hardwarebeschleunigers berechenbar ist. Die Instruktion oder die Instruktionen können ein Laden eines Operanden, beispielsweise eines Vektors, eines Tensors oder einer Matrix in den ersten Speicherbereich 110 umfassen. Die Instruktion oder die Instruktionen können ein Lesen eines Ergebnisses oder eines Teilergebnisses der Berechnung gemäß der Rechenvorschrift, beispielsweise eines Vektors, eines Tensors oder einer Matrix aus dem zweiten Speicherbereich 112 umfassen. Die Instruktion oder die Instruktionen können eine Reihenfolge für das Schreiben, das Berechnen und/oder das Lesen umfassen. Die Instruktion oder die Instruktionen können eine Reihenfolge für eine Anordnung eines Vektors, eines Tensors oder einer Matrix im Speicher 108 umfassen. Beispielsweise kann eine Instruktion eine Umsortierung von Speicherstellen oder von deren Adressierung im Speicher 108 für Werte vorsehen, die eine Transponierte eines Vektors, eines Tensors oder einer Matrix im Speicher 108 definiert.

Im Beispiel wird eine Rechenvorschrift durch einen Graphen für die Zwischenrepräsentation repräsentiert. In der Zwischenrepräsentation weisen Knoten ein Elternknoten und ein oder mehrere Kinderknoten auf. Die Knoten können einen der folgenden Typen aufweisen:

Tensorknoten:

Ein Tensorknoten definiert die Tensordimension und eine Anordnung einer Programmschleife für eine wiederholte Berechnung wenigstens einer Operation über eine Dimension für einen Tensor. Der Tensorknoten kann beispielsweise eine wiederholte Berechnung in der ersten Dimension i oder der zweiten Dimension j definieren. Reduktionsknoten:

Ein Reduktionsknoten definiert für einen Eingang mit mehreren Dimensionen eine Operation, die zu einer Reduktion der Dimensionen führt. Das bedeutet, der Reduktionsknoten definiert eine Berechnung, deren Ausgang weniger Dimensionen hat, als deren Eingang. Einem Reduktionsknoten ist eine bestimmte arithmetische Operation zugewiesen.

Ein Beispiel für eine derartige Berechnung ist eine Summenbildung, beispielsweise eine Addition aller Elemente eines Vektors am Eingang durch die ein Skalar am Ausgang bestimmt wird.

Berechnungsknoten:

Ein Berechnungsknoten definiert eine elementweise Funktion. Die elementweise Funktion kann für ihre Eingänge eine unveränderliche Reihenfolge vorsehen.

Dies ist beispielsweise für eine Subtraktion vorgesehen. Die elementweise Funktion kann für ihre Eingänge eine veränderliche Reihenfolge vorsehen. Dies ist beispielsweise bei kommutativen Operationen wie der Addition vorgesehen.

Eingangsknoten:

Ein Eingangsknoten definiert einen Eingang für die Berechnung. Beispielsweise definiert der Eingangsknoten einen Skalar, einen Vektor, einen Tensor oder eine Matrix.

Zugriffsknoten:

Ein Zugriffsknoten definiert eine Speicherzugriffsfunktion mit der auf einen Skalar oder auf eine Dimension eines Vektors, eines Tensors oder einer Matrix zugegriffen wird.

Vom Zugriffsknoten müssen keine Kanten des Graphen ausgehen.

Zugriffknoten können mit weiteren Zugriffknoten verbunden sein. Damit können komplexere Speicherzugriffsfunktionen abgebildet werden, zum Beispiel eine Addition von zwei Iteratoren oder Indizes i+j. Eine Additionsoperation kann ebenfalls durch einen Knoten des Typs Zugriffsknoten abgebildet sein. Kanten verbinden die Knoten im Graph. Der beispielhaft in Figur 2 dargestellte erste Graph 200 ist ein gerichteter Graph in dem die gerichteten Kanten folgende Bedeutung haben:

Eine Kante, die an einem Eingangsknoten beginnt und an einem Zugriffsknoten endet definiert einen Speicherzugriff auf die vom Zugriffsknoten definierte Dimension, der erforderlich ist, wenn der durch den Eingangsknoten definierte Eingang für die Berechnung verwendet wird. Der Zugriffsknoten definiert beispielsweise eine Instruktion, die Werte eines Tensors aus dieser Dimension in den ersten Speicherbereich 110 für den Eingang zu schreiben.

Eine Kante, die an einem Berechnungsknoten beginnt und an einem anderen Knoten endet, definiert eine Berechnung eines Teilergebnisses mit der vom Berechnungsknoten vorgegebenen Operation, die auf Operanden angewendet wird, die durch die anderen Knoten definiert sind. Ein anderer Knoten kann im Beispiel ein Eingangsknoten, ein anderer Berechnungsknoten, ein Reduktionsknoten oder ein Tensorknoten sein.

Eine Kante, die an einem Reduktionsknoten beginnt, und ein einem anderen Knoten endet, definiert eine Berechnung eines Teilergebnisses mit der vom Reduktionsknoten vorgegebenen Operation, die auf Operanden angewendet wird, die durch die anderen Knoten definiert sind. Ein anderer Knoten kann im Beispiel ein Eingangsknoten, ein Berechnungsknoten, ein anderer Reduktionsknoten oder ein Tensorknoten sein. Wenigstens einer der anderen Knoten definiert einen mehrdimensionalen Eingang für den Reduktionsknoten.

Es kann vorgesehen sein, dass ein anderer Knoten einen Skalar definiert, der aus einem Tensor stammt, als Startwert für die Berechnung eines Ausgangs definiert.

Eine Kante, die an einem Tensorknoten beginnt kann an einem Berechnungsknoten, einem Reduktionsknoten oder einem anderen Tensorknoten enden. Diese Kante kann von einem ersten Kantentyp sein, der eine Programmschleife für eine widerholte Ausführung einer Berechnung definiert. Diese Berechnung ist beispielsweise durch einen Teilgraphen des Graphen definiert, dessen Wurzel der Knoten ist, an dem die Kante des ersten Kantentyps endet. Die Kante kann von einem zweiten Kantentyp sein, der ein für die wiederholte Berechnung in der Programmschleife erforderliches Teilergebnis definiert. In diesem Fall umfasst der Teilgraph wenigstens einen Knoten, der einen Verweis auf das Teilergebnis definiert. Eine Position dieses Knotens in einer Struktur des Teilgraphs definiert eine Reihenfolge für die Berechnung unter Verwendung des Teilergebnisses. Der Verweis kann durch eine zusätzliche Kante eines dritten Kantentyps im Graph repräsentiert werden, der diesen Knoten direkt mit demselben Knoten verbindet, an dem die Kante des zweiten Kantentyps endet. Die Programmschleife kann durch eine Kante eines vierten Kantentyps im Graph repräsentiert werden.

Die Kanten des dritten Kantentyps und des vierten Kantentyps sind im Beispiel dem Knoten als Eigenschaft zugeordnet, an dem sie beginnen. Die Kanten des dritten Typs können durch eine Angabe der Aufwärtsbewegungen und durch Angabe wenigstens einer daran anschließenden Bewegung entlang einer Kante des zweiten Kantentyps ausgehend von diesem Knoten definiert sein. Die Kanten des vierten Typs können durch eine Angabe der Anzahl der Aufwärtsbewegungen im Graph ausgehend von diesem Knoten definiert sein. Aufwärtsbewegung bezeichnet eine Bewegung vom Knoten entlang einer Kante in Richtung auf den Wurzelknoten des Graphs.

Die Kanten des ersten Kantentyps, des zweiten Kantentyps, des dritten Kantentyps und des vierten Kantentyps sind im Beispiel gerichtete Kanten. Gerichtete Kanten eines fünften Kantentyps beginnen bei einem Reduktionsknoten, einem Berechnungsknoten oder einem Eingangsknoten und enden bei einem anderen Knoten.

In dem in Figur 2 dargestellten Graphen werden die Kanten wie folgt dargestellt:

Kanten des ersten Kantentyps und des fünften Kantentyps werden durch Pfeile dargestellt,

Kanten des zweiten Kantentyps werden durch gepunktete Pfeile dargestellt, Kanten des dritten Kantentyps sind durch gestrichelte Pfeile dargestellt,

Kanten des vierten Kantentyps sind durch strichpunktierte Pfeile dargestellt.

Der Graph in Figur 2 stellt eine erste Repräsentation der folgenden Rechenvorschrift R_i; für ein Skalar s und Matritzen Q und K dar: ln Figur 3 ist eine zweite Repräsentation derselben Rechenvorschrift R_i; dargestellt.

Im Beispiel sind Tensorknoten mit Großbuchstaben bezeichnet, wobei eine Dimension für ein Intervall für eine Programmschleife für eine wiederholte Ausführung einer Berechnung beim jeweiligen Tensorknoten in eckigen Klammern [ ] dargestellt ist. Der Wurzelknoten des jeweiligen Graphs ist durch einen Tensorknoten definiert, dem eine der Dimensionen des Ergebnisses zugeordnet ist. Ein Eingangsknoten, mit dem auf eine der Matrizen aus der Rechenvorschrift zugegriffen wird, ist mit demselben Großbuchstaben gekennzeichnet, mit dem die Matrix gekennzeichnet, ist. Jedem der Eingangsknoten ist im Beispiel je ein Zugriffsknoten für je eine Dimension der jeweiligen Matrix zugeordnet wobei die jeweilige Dimension in eckigen Klammern [ ] angegeben ist. Die Größe der jeweiligen Dimension kann, ausgehend davon, dass die Dimension bei null beginnt, als Doppelpunkt gefolgt von einer Zahl, die die Größe angibt, in der eckigen Klammer angegeben sein. Berechnungsknoten, die algebraische Operationen definieren, sind mit dem mathematischen Zeichen versehen, das sie definieren. Im Beispiel wird eine Multiplikation von s mit der Summe S durch einen mit * gekennzeichneten Berechnungsknoten dargestellt. Reduktionsknoten sind mit der Operation bezeichnet, die zur Reduktion eingesetzt wird. Sofern die Reduktion eine algebraische Operation erfordert, kann diese als Eigenschaft dem Reduktionsknoten zugeordnet sein. Im Beispiel ist der Reduktionskonten mit S+ bezeichnet, da es sich um eine Summenbildung handelt.

Bei der Erzeugung von Instruktionen aus dem Graph kann eine Auswertung von Randbedingungen vorgesehen sein. Beispielsweise wird die Reihenfolge der Berechnungen, die durch Kanten des dritten Kantentyps oder des vierten Kantentyps definiert ist, ausgewertet und durch die erzeugten Instruktionen eingehalten. Randbedingungen können als Eigenschaft definiert und einem Knoten zugeordnet sein. Es kann vorgesehen sein, dass eine algebraische Operation, die eine definiert Anordnung der Operanden im Eingang des Speicher 108 erfordert, als Eigenschaft dem Knoten zugeordnet ist, der diese Operation definiert. Diese Eigenschaft wird ausgewertet und durch die erzeugten Instruktionen eingehalten.

Im Beispiel ist ein Muster definiert, das eine Struktur aufweist, die eine vom Hardwarebeschleuniger besonders gut berechenbare Rechenvorschrift definiert. Das Muster definiert die Instruktionen, die besonders gut zu einer bestimmten Hardware des Hardwarebeschleunigers passen. Mit dem im Folgenden beschriebenen Verfahren können die für diese Hardware besonders gut geeigneten Instruktionen erzeugt werden.

Unterschiedliche Hardwarebeschleuniger können unterschiedliche Hardware mit elektrischen Schaltungen umfassen, die Rechenvorschriften einer bestimmten Struktur beschleunigt berechnen können.

Die Knoten des Graphs definieren Operationen oder Operanden zur Ausführung der Rechenvorschrift. Die Kanten definieren eine Reihenfolge der Anwendung von Operationen zur Ausführung der Rechenvorschrift.

Das Verfahren zur Erzeugung der Instruktionen wird im Folgenden mit Bezug auf Figur 4 dargestellt.

In einem Schritt 200 wird eine erste Struktur für einen Graphen bereitgestellt, die wenigstens eine Operation definiert, die von einem Hardwarebeschleuniger ausführbar ist. Beispielsweise wird definiert die erste Struktur eine Anordnung von Knoten und Kanten im Graph.

Verschiedene Möglichkeiten, die erste Struktur bereitzustellen werden im Folgenden angegeben.

In einem Schritt 200 wird eine Rechenvorschrift bereitgestellt.

Anschließend wird in einem Schritt 202 die Zwischenrepräsentation für die Rechenvorschrift bereitgestellt. Anschließend wird in einem Schritt 204 ein gerichteter erster Graph mit Knoten und Kanten bereitgestellt, der die Rechenvorschrift repräsentiert. Im Beispiel hat der erste Graph die Eigenschaft eines Baums.

Im Beispiel wird aus dem Graph für die Zwischenrepräsentation der erste Graph als Baum bestimmt, so dass nur ein Pfad existiert, der jedes Knotenpaar im ersten Graph verbindet. In der Zwischenrepräsentation haben einander zugeordnete Eltern- und Kindknoten bereits diese Eigenschaft. Kanten, die in der Zwischenrepräsentation eine Datenabhängigkeiten definieren, werden im ersten Graph dem dritten Kantentyp zugewiesen. Kanten, die in der Zwischenrepräsentation eine Iteration definieren, werden im ersten Graph dem vierten Kantentyp zugewiesen.

Die Kanten des ersten, des zweiten und des fünften Kantentyps definieren einen Graphen mit Baumstruktur, in dem ein Knoten, der einen Iterator definiert, von einem Knoten, der den Iterator benutzt, durch einen Pfad erreichbar ist, der nur durch gerichtete Kanten des ersten, des zweiten und des fünften Kantentyps erreichbar ist. Die gerichtete Kante des dritten Kantentyps oder des vierten Kantentyps führt zu dem Knoten, der ihn benutzt. Eine Kante des dritten Kantentyps kann durch einen Pfad im Baum entlang des ersten, zweiten und fünften Kantentyps realisiert werden. Der Pfad kann für die Mustererkennung in einem Eingangsknoten gespeichert werden. Eine Kante des vierten Kantentyps kann durch eine Angabe einer Pfadlänge, beispielsweise als Integer, in dem Knoten definiert werden, der den Iterator definiert. Alleine durch eine Angabe dieser Pfadlänge ist der Pfad im Baum ausgehend vom Knoten, der den Iterator verwendet, bis zu dem Knoten, der den Iterator definiert, zurücklegbar.

Diese Pfadlänge ersetzt im Beispiel die Angabe des Knotens, der den Iterator verwendet.

Im Beispiel wird die Pfadlänge in einem Blatt des Baums, d.h. einem Zugriffsknoten, der den Iterator definiert, gespeichert. Der Iterator entspricht beispielsweise einer Dimension, über die ein Tensor, der in einem Tensorknoten definiert ist, der diesen Iterator verwendet, berechnet wird. Der Iterator entspricht beispielsweise einer Dimension, über die eine Reduktion, die in einem Reduktionsknoten definiert ist, der diesen Iterator verwendet, berechnet wird. Im Beispiel wird eine Datenabhängigkeit für eine Vielzahl Programmschleifen oder Verweise in den jeweiligen Blättern des Baums gespeichert.

Abhängig davon wird eine im Folgenden näher beschriebene Datenstruktur definiert, mit der ein Musterabgleich mit einer Vielzahl Instruktionen aus einer Menge Instruktionen erfolgen kann.

Im Beispiel wird dazu eine Wurzel zu Blatt Pfad einer Instruktion als Zeichenfolge von Bezeichnungen definiert. Eine Bezeichnung umfasst den Knotentyp eines Knoten im Pfad oder eine geordnete Liste der Bezeichnungen der Kindknoten, die gemäß der Richtung des gerichteten Pfads geordnet ist.

Es kann vorgesehen sein, die Bezeichnungen aus der oben beschriebenen Definition für die Typen von Knoten mittels einer endlichen Zustandsmaschine für den Zeichenfolgenvergleich bestimmt werden. Dazu kann beispielsweise der Aho-Corasick Algorithmus gemäß Alfred V. Aho and Margaret J. Corasick. 1975. Efficient String Matching: An Aid to Bibliographie Search. Commun. ACM 18, 6 (June 1975), 333-340. https://doi.Org/10.1145/360825.360855 eingesetzt werden.

Der erste Graph definiert erste Instruktionen für die Recheneinrichtung 102 zur Ausführung der Rechenvorschrift.

In einem Schritt 206 wird im ersten Graph wenigstens ein erster Teil mit einer ersten Struktur gesucht. Die erste Struktur ist im Beispiel durch eine erste Zeichenfolge definiert. Dadurch wird das Problem des Musterabgleichs auf ein Problem eines Zeichenfolgenvergleichs der ersten Zeichenfolge mit einer Zeichenfolge, die das Muster repräsentiert, reduziert.

In einem Schritt 208 wird abhängig vom wenigstens einen ersten Teil ein zweiter Teil mit einer zweiten Struktur bestimmt. Die zweite Struktur ist im Beispiel durch eine zweite Zeichenfolge definiert. Die Struktur oder Muster zur Ersetzung sind im Beispiel paarweise definiert. In einem Schritt 210 wird abhängig vom ersten Graph ein gerichteter azyklischer zusammenhängender zweiter Graph mit Knoten und Kanten bestimmt. Im zweiten Graph ist der erste Teil durch den zweiten Teil ersetzt.

Der zweite Graph definiert zweite Instruktionen für die Recheneinrichtung 102 zur Ausführung der Rechenvorschrift.

In einem Schritt 212 wird ein Muster für wenigstens einen Teil eines Graphs bereitgestellt, dessen Knoten und Kanten durch Instruktionen definiert ist, die von der Recheneinrichtung 102 ausführbar sind. Es kann vorgesehen sein, dass von der Recheneinrichtung ausführbare Instruktionen vorgegeben, bestimmt oder empfangen werden. Das Muster kann in diesem Fall abhängig von den ausführbaren Instruktionen bestimmt werden. Im Beispiel wird das Muster durch wenigstens einen Teil eines Graphen repräsentiert, der wie für die Zwischenrepräsentation beschrieben, aus den ausführbaren Instruktionen bestimmt wird und eine Struktur eines Baums aufweist. Das Muster ist eine entsprechende Zeichenfolge definiert. Der Musterabgleich erfolgt durch einen Zeichenfolgenvergleich der ersten Zeichenfolge oder der zweiten Zeichenfolge mit einer Zeichenfolge, die das Muster repräsentiert.

In einem Schritt 214 wird abhängig vom Muster entweder der erste Graph oder der zweite Graph zum Erzeugen von Instruktionen für die Recheneinrichtung 102 ausgewählt.

Der erste Graph und der zweite Graph sind Kandidaten, die mit dem Muster durchsuchbar sind, um einen geeigneten Graphen zur Erzeugung der Instruktionen zur Berechnung der Rechenvorschrift zu bestimmen.

Es kann Vorkommen, dass für den Musterabgleich miteinander in Konflikt stehende Instruktionen für einen Kernel gefunden werden.

Ein Konflikt ist im Beispiel dadurch definiert, dass zwei passende Instruktionen denselben Knoten im Baum eines Graphen für das Muster umfassen. In diesem Fall kann ein Optimierungsproblem abhängig von einer globalen Kostenfunktion definiert sein, die jeder Instruktion eine Kostenfunktion zuordnet. Abhängig von der globalen Kostenfunktion wird in diesem Aspekt eine Lösung des Optimierungsproblems bestimmt, welche das Muster definiert, nach dem die Kandidaten durchsucht werden.

Ein Algorithmus dazu umfasst beispielsweise eine Auswahlfunktion, mit der aus allen möglichen passenden Mustern das Muster ausgewählt wird, das die Lösung des Optimierungsproblems darstellt.

Beispielsweise werden abhängig von einer Liste von in Konflikt stehenden Instruktionen, die während einer Durchquerung des Baums auf einem Ast des Baums von einem Blatt ausgehend gefunden werden, die Instruktionen ausgewählt, die am besten passen.

Die Liste von Instruktionen wird erzeugt, indem der Baum ausgehend von seiner Wurzel einmal durchlaufen wird. Die Stellen an der der Mustersuche-Algorithmus ein Muster gefunden hat, werden der Liste angefügt.

Die Reihenfolge, in der der Baum durchlaufen wird ist beispielsweise: Right-to- Left pre order.

Dies ist ein rekursiver Algorithmus, der in jedem Knoten das folgende macht:

1) Die Daten des aktuellen Knoten werden gelesen

2) Dann wird rekursiv der rechte Teilbaum besucht

3) Dann rekursiv der linke Teilbaum besucht.

Ein Ast wird beispielsweise nicht weiterverfolgt, wenn die Kostenfunktionen einer passenden Instruktion für die globale Kotenfunktion keine Verbesserung gegenüber einer nächstmöglichen passenden Instruktion bewirkt. Für jede für einen aktuellen Knoten passende Instruktion kann eine nächste Instruktion bestimmt werden, die nicht mit dem aktuellen Knoten überlappt.

Sofern diese Instruktion die globale Kostenfunktion verbessert, wird dazu der nächste Knoten bestimmt, der vom aktuellen Knoten aus erreichbar ist. Eine Funktion zur Umsetzung des Algorithmus kann vorsehen, das für Knoten, die keine mögliche Fortsetzung darstellen, ein leerer Wert zurückgegeben wird. Bei der Suche nach dem Muster im ersten Graphen kann es Vorkommen, dass mehrere Muster gefunden werden, die den oder die selben Knoten im ersten Graph bedecken. Das bedeutet, die Muster oder Instruktionen überlappen sich in diesem Knoten oder diesen Knoten. Dies ist nicht zulässig, da jedes gefundene Muster, also jede Instruktion, für sich alleine stehen muss.

Bei mehreren gefunden Mustern wird eine Auswahl für ein Muster getroffen, und das nächste Muster so ausgewählt, dass es nicht mit einem der schon ausgewählten Mustern überlappt.

Für den zweiten Graphen oder andere Kandidaten wird wie für den ersten Graphen beschrieben verfahren.

Es kann vorgesehen sein, eine Programmschleife für eine Rechenvorschrift in eine innere und eine äußere Programmschleife aufzuspalten. Es kann vorgesehen sein, eine Iterationsdomäne der inneren Programmschleife zu limitieren und dadurch eine Arbeitsmenge der inneren Programmschleife zu begrenzen. Es kann vorgesehen sein, wenigstens einen Parameter zu bestimmen, der eine Speicherkachel im Speicher charakterisieren, und der einer Instruktion eine Arbeitsbelastung zuordnet. Ein Tensorknoten beschreibt im Beispiel ein unabhängiges Element dessen Anordnung in einem Programmablauf das Ergebnis nicht beeinflusst. Im Beispiel wird dem Tensorknoten ein Faktor zugeordnet, der während der Codegenerierung verwendet wird, um passende äußere Programmschleifen und Aufrufe für die Instruktion für den Tensorknoten zu bestimmen. Dadurch können global gut geeignete Parameter bestimmt werden, nachdem die Instruktionen abgeglichen wurden.

Durch den Faktor werden Teilergebnisse definiert, die gespeichert werden und in den folgenden Berechnungen verwendet werden. Für jedes Teilergebnis wird daher ein neuer Tensorknoten und ein dazu passender Tensor erzeugt. Durch den Tensorknoten ist der Tensor, in dem das Teilergebnis gespeichert ist, ansprechbar und für eine spätere Verwendung auffindbar.

Die Instruktionen für die Recheneinrichtung 102 werden in einem Schritt 216 entweder abhängig vom ersten Graph erzeugt, wenn dieser im Schritt 214 ausgewählt wurde, oder abhängig vom zweiten Graph erzeugt, wenn dieser im Schritt 214 ausgewählt wurde.

Dadurch werden Teilgraphen gefunden, die einem Suchmuster entsprechen und neue Teilgraphen erzeugt, die Instruktionen definieren, mit denen ein Teilergebnis eines Teils der Rechenvorschrift vollständig bestimmbar ist.

Unterschiedliche Recheneinrichtungen 102 können verschiedene Teilergebnisse mit verschiedener spezialisierter Hardware unterschiedlich schnell oder präzise bestimmen. Das Muster definiert die Instruktionen, die besonders gut zu einer bestimmten Hardware passen. Dadurch können die für diese Hardware besonders gut geeigneten Instruktionen erzeugt werden.

Die erste Struktur kann einen ersten Teilgraphen definieren, der eine Mehrzahl Knoten und Kanten umfasst, die für wenigstens zwei Operanden wenigstens eine Operation in einer ersten Reihenfolge definieren.

In diesem Fall definiert die zweite Struktur beispielsweise einen zweiten Teilgraphen, der durch die Knoten des ersten Teilgraphs definiert ist. Die Kanten des zweiten Teilgraphs definieren für die wenigstens zwei Operanden wenigstens eine Operation in einer zweiten Reihenfolge. Die wenigstens eine Operation kann eine elementweise arithmetische Operation sein.

Die erste Struktur kann, wie in Figur 5 links dargestellt definiert sein. Die zweite Struktur kann wie in Figur 5 rechts dargestellt definiert sein. Die erste Struktur umfasst einen ersten Knoten R[x:10] an dem eine erste Kante beginnt. Die erste Kante endet an einem zweiten Knoten R[y:20] Am zweiten Knoten R[y:20] beginnt eine zweite Kante, die an einem dritten Knoten + endet.

Der dritte Knoten + definiert eine Operation, Addition, deren Operanden einen ersten Teilgraphen, im Beispiel ein Skalar a und einen zweiten Teilgraph N(x,y)*Act(x,y) umfassen. Der zweite Knoten R[y:20] definiert eine erste Programmschleife für eine wiederholte Ausführung der Operation. Der erste Knoten R[x:10] definiert eine zweite Programmschleife für eine wiederholte Ausführung der ersten Programmschleife. Die zweite Struktur umfasst in diesem Fall den ersten Knoten R[x:10], an dem die erste Kante beginnt, die am zweiten Knoten R[y:20] endet. Am zweiten Knoten R[y:20] beginnt die zweite Kante, die am dritten Knoten + endet. Die Operanden für die Operation, die der dritte Knoten + definiert, umfassen den ersten Teilgraph a und einen vierten Knoten T(x,y).

Der vierte Knoten T(x,y) ersetzt den zweiten Teilgraph N(x,y)*Act(x,y) aus dem ersten Teilgraph der ersten Struktur. Die zweite Struktur umfasst eine dritte Kante, die am ersten Knoten R[x:10] beginnt und an einem fünften Knoten T[x:10] endet. Die zweite Struktur umfasst eine vierte Kante, die am fünften Knoten T[x:10] beginnt und an einem sechsten Knoten T[y:20] endet. Der sechste Knoten T[y:20] definiert eine dritte Programmschleife für eine wiederholte Ausführung einer Operation des zweiten Teilgraph N(x,y)*Act(x,y). Der fünfte Knoten T[X:10] definiert eine vierte Programmschleife für eine wiederholte Ausführung der dritten Programmschleife. Eine fünfte Kante, die am vierten Knoten T(x,y) beginnt und am fünften Knoten T[x:10] endet, definiert eine Reihenfolge der Ausführung der vierten Programmschleife vor der zweiten Programmschleife. Dadurch werden Teilgraphen erzeugt, die einen Teil der Rechenvorschrift definieren, mit denen ein Teilergebnis eines Teils der Rechenvorschrift vollständig bestimmbar ist. Die zusätzliche Kante definiert die Reihenfolge der Ausführung, so dass Datenabhängigkeiten zwischen dem Teilergebnis und der Verwendung des Teilergebnisses in der Rechenvorschrift eingehalten werden können.

Die erste Struktur kann, wie in Figur 6 links dargestellt definiert sein. Die zweite Struktur kann wie in Figur 6 rechts dargestellt definiert sein. Die erste Struktur kann einen ersten Knoten R[x:10] umfassen, an dem eine erste Kante beginnt, die an einem zweiten Knoten R[y:20] endet. Am zweiten Knoten R[y:20] beginnt eine zweite Kante, die an einem dritten Knoten T[y:20] endet. Am dritten Knoten T[y:20] beginnt eine dritte Kante, die an einem vierten Knoten T[z:30] endet. Der vierte Knoten T[z:30] definiert eine erste Programmschleife für eine wiederholte Ausführung eines durch einen Teilgraphen definierten Teils der Rechenvorschrift, der dritte Knoten T[y:20] definiert eine zweite Programmschleife für eine wiederholte Ausführung der ersten Programmschleife. Der zweite Knoten R[y:20] definiert eine dritte Programmschleife für eine wiederholte Ausführung der zweiten Programmschleife. Der erste Knoten R[x:10] definiert eine vierte Programmschleife für eine wiederholte Ausführung der dritten Programmschleife.

Am zweiten Knoten R[y:20] beginnt eine vierte Kante, die an einem fünften Knoten S+ endet. Am fünften Knoten S+ beginnt eine fünfte Kante, die an einem sechsten Knoten T(x,y,z) endet. Der sechste Knoten T(x,y,z) definiert ein Teilergebnis, das durch ein Berechnen des durch den Teilgraphen definierten Teils der Rechenvorschrift bestimmbar ist. Der fünfte Knoten S+ definiert eine Operation, die das Teilergebnis verwendet. Eine sechste Kante beginnt am sechsten Knoten T(x,y,z) und endet am dritten Knoten T[y:20] Die sechste Kante definiert eine Reihenfolge der Ausführung der zweiten Programmschleife zur Bestimmung des Teilergebnisses vor einer ersten Ausführung der zweiten Operation in der dritten Programmschleife.

Die zweite Struktur umfasst in diesem Fall den ersten Knoten R[x:10], den zweiten Knoten R[y:20] und den fünften Knoten S+. Die erste Kante beginnt am ersten Knoten R[x:10] und endet am zweiten Knoten R[y:20] Die vierte Kante beginnt am zweiten Knoten R[y:20] und endet am fünften Knoten S+. Der sechste Knoten T(x,y,z) wird durch den Teilgraphen ersetzt.

Die erste Struktur kann einen ersten Teilgraphen definieren, der eine Mehrzahl Knoten und Kanten umfasst, die für wenigstens zwei Dimensionen eines Operanden eine erste Anordnung in einem Speicher der Recheneinrichtung 102 definieren. In diesem Fall kann die zweite Struktur einen zweiten Teilgraphen definieren, der durch die Knoten des ersten Teilgraphs definiert ist, wobei die Kanten des zweiten Teilgraphs für die wenigstens zwei Dimensionen des Operanden eine zweite Anordnung im Speicher definieren.

In einem Aspekt kann die erste Anordnung einen ersten Tensor N für Daten definieren, wobei die zweite Anordnung einen zweiten Tensor N^T für die Daten definiert. Der zweite Tensor N^T ist durch den transponierten ersten Tensor N definiert. Der zugehörige Eingangsknoten N ist in Figur 7 links für den ersten Tensor N und rechts für den zweiten Tensor N^T dargestellt. In der zweiten Anordnung sind die Zugriffsknoten gegenüber der ersten Anordnung vertauscht. In einem andern Aspekt kann die erste Anordnung einen ersten Tensor R für Daten definieren, wobei die zweite Anordnung einen zweiten Tensor R^T für die Daten definiert. Der zweite Tensor R^T ist durch den transponierten ersten Tensor R definiert. Die erste Anordnung der zugehörigen Tensorknoten R[x:10] und R[y:20] ist in Figur 8 links für den ersten Tensor R dargestellt. Die zweite Anordnung ist in Figur 8 rechts für den zweiten Tensor R^T dargestellt. Die Programmschleifen sind in diesem Fall vertauscht angeordnet.

Die erste Anordnung kann gegenüber der zweiten Anordnung mehr Dimensionen umfassen. Die zweite Anordnung wird beispielsweise durch Linearisieren einer Vielzahl von Dimensionen der ersten Anordnung bestimmt.

Die erste Anordnung kann gegenüber der zweiten Anordnung weniger Dimensionen umfassen. Die zweite Anordnung kann in diesem Fall durch Replizieren wenigstens einer Dimension einer Vielzahl von Dimensionen der ersten Anordnung oder durch Hinzufügen einer mit wenigstens einem Wert, insbesondere mit wenigstens einer Null, aufgefüllten Dimension bestimmt werden.

Figur 9 stellt eine Fusion von zwei äußersten Tensorknoten dar. Die erste Struktur kann eine Mehrzahl Knoten und Kanten umfasst, die für wenigstens zwei Dimensionen x, y eines Operanden eine erste Anordnung in einem Speicher der Recheneinrichtung 102 definieren.

Die erste Struktur kann, wie in Figur 9 links dargestellt definiert sein. Die zweite Struktur kann wie in Figur 9 rechts dargestellt definiert sein. Die erste Struktur umfasst einen ersten Knoten R[x:10] an dem eine erste Kante des ersten Kantentyps beginnt. Die erste Kante endet an einem zweiten Knoten R[y:20] Am zweiten Knoten R[y:20] beginnt eine zweite Kante des ersten Kantentyps, die an einem dritten Knoten + endet.

Der dritte Knoten + definiert eine erste Operation, im Beispiel eine Addition, deren Operanden einen ersten Teilgraphen, im Beispiel ein Skalar a und einen zweiten Teilgraphen, der einen vierten Knoten T(x,y) umfasst, der ein Teilergebnis definiert. Der zweite Knoten R[y:20] definiert eine erste Programmschleife für eine wiederholte Ausführung der ersten Operation. Der erste Knoten R[x:10] definiert eine zweite Programmschleife für eine wiederholte Ausführung der ersten Programmschleife.

Am ersten Knoten R[x:10] beginnt eine dritte Kante des zweiten Kantentyps, die an einem fünften Knoten T[x:10] endet. Am fünften Knoten T[x:10] beginnt eine vierte Kante des ersten Kantentyps, die an einem sechsten Knoten T[y:20] endet.

Am sechsten Knoten T[y:20] beginnt eine fünfte Kante des ersten Kantentyps, die an einem siebten Knoten * endet. Der siebte Knoten* definiert eine zweite Operation, im Beispiel eine Multiplikation für einen achten Knoten N(x,y) und einen neunten Knoten Act(x,y).

Der sechste Knoten T[y:20] definiert eine dritte Programmschleife für eine wiederholte Ausführung der zweiten Operation. Der fünfte Knoten T[x:10] definiert eine vierte Programmschleife für eine wiederholte Ausführung der dritten Programmschleife.

Eine sechste Kante des dritten Kantentyps beginnt am vierten Knoten T(x,y) und endet am fünften Knoten T[x:10]

Die zweite Struktur umfasst in diesem Fall den ersten Knoten R[x:10], den zweiten Knoten R[y:20], den dritten Knoten +, den ersten Teilgraph und den zweiten Teilgraphen wie für die erste Struktur beschrieben, wobei im zweiten Teilgraph der vierte Knoten T(x,y) durch den sechsten Knoten T[y:20] ersetzt ist. Der siebte Knoten * der achte Knoten N(x,y) und der neunte Knoten Act(x,y) sind wie für die erste Struktur beschrieben angeordnet.

Damit werden die zweite und die vierte Programmschleife fusioniert. Damit wird eine schnellere Wiederverwendung von Teilergebnissen erreicht.

Figur 10 stellt eine Einfügung einer Rechenoperation, mit der ein Teilergebnis bestimmt wird, in einen Teilgraphen dar, der zuvor dieses Teilergebnis verwendete. Die erste Struktur kann eine Mehrzahl Knoten und Kanten umfasst, die für wenigstens zwei Dimensionen x, y eines Operanden eine erste Anordnung in einem Speicher der Recheneinrichtung 102 definieren.

Die erste Struktur kann, wie in Figur 10 links dargestellt definiert sein. Die zweite Struktur kann wie in Figur 10 rechts dargestellt definiert sein. Die erste Struktur umfasst einen ersten Knoten R[x:10] an dem eine erste Kante des ersten Kantentyps beginnt. Die erste Kante endet an einem zweiten Knoten R[y:20] Am zweiten Knoten R[y:20] beginnt eine zweite Kante des ersten Kantentyps, die an einem dritten Knoten + endet.

Der dritte Knoten + definiert eine erste Operation, im Beispiel eine Addition, deren Operanden einen ersten Teilgraphen, im Beispiel ein Skalar a und einen zweiten Teilgraphen, der einen vierten Knoten T(x,y) umfasst, der ein Teilergebnis definiert.

Der zweite Knoten R[y:20] definiert eine erste Programmschleife für eine wiederholte Ausführung der ersten Operation. Der erste Knoten R[x:10] definiert eine zweite Programmschleife für eine wiederholte Ausführung der ersten Programmschleife.

Am zweiten Knoten R[y:20] beginnt eine dritte Kante des zweiten Kantentyps, die an einem fünften Knoten T[y:20] endet. Am fünften Knoten T[y:20] beginnt eine vierte Kante des ersten Kantentyps, die an einem sechsten Knoten * endet. Der sechste Knoten* definiert eine zweite Operation, im Beispiel eine Multiplikation für einen siebten Knoten N(x,y) und einen achten Knoten Act(x,y).

Der fünfte Knoten T[y:20] definiert eine dritte Programmschleife für eine wiederholte Ausführung der zweiten Operation.

Eine sechste Kante des dritten Kantentyps beginnt am vierten Knoten T(x,y) und endet am vierten Knoten T[y:20]

Die zweite Struktur umfasst in diesem Fall den ersten Knoten R[x:10], den zweiten Knoten R[y:20], den dritten Knoten +, den ersten Teilgraph und den zweiten Teilgraphen wie für die erste Struktur beschrieben, wobei im zweiten Teilgraph der vierte Knoten T(x,y) durch den fünften Knoten T[y:20] ersetzt ist. Der sechste Knoten *, der siebte Knoten N(x,y) und der achte Knoten Act(x,y) sind wie für die erste Struktur beschrieben angeordnet.

Figur 11 stellt eine Ausgliederung einer Reduktion aus einem Teilgraph in einen anderen Teilgraphen dar. Dadurch entstehet ein neues Zwischenergebnis, das erst bestimmt wird und danach in die Reduktion eingeht.

Die erste Struktur kann, wie in Figur 11 links dargestellt definiert sein. Die zweite Struktur kann wie in Figur 11 rechts dargestellt definiert sein. Die erste Struktur kann einen ersten Knoten R[x:10] umfassen, an dem eine erste Kante beginnt, die an einem zweiten Knoten R[y:20] endet. Am zweiten Knoten R[y:20] beginnt eine zweite Kante, die an einem dritten Knoten S+ endet. Am dritten Knoten S+ beginnt eine dritte Kante, die an einem vierten Knoten * endet. Der vierte Knoten * definiert eine erste Operation, im Beispiel eine Multiplikation für einen fünften Knoten N(x,z) und einen sechsten Knoten Act(z,y) abhängig von wenigstens drei Dimensionen. Im Beispiel sind für den fünften Knoten N(x,z) eine erste Dimension x und eine zweite Dimension y und für den sechsten Knoten Act(z,y) die zweite Dimension und eine dritte Dimension y definiert. Der dritte Knoten S+ definiert eine zweite Operation und eine erste Programmschleife für eine wiederholte Ausführung der ersten Operation. Durch wiederholtes Ausführen der ersten Programmschleife wird eine der wenigstens drei Dimension, im Beispiel die zweite Dimension z reduziert. Am dritten Knoten S+ beginnt eine vierte Kante, die an einem siebten Knoten 0 endet, der einen Startwert für die Reduktion definiert. Der erste Knoten definiert eine zweite Programmschleife, für eine wiederholte Ausführung der zweiten Operation für die erste Dimension x. Eine wiederholte Ausführung über die dritte Dimension y ist damit nicht erforderlich.

Die zweite Struktur definiert in diesem Beispiel den ersten Knoten R[x:10] an dem die erste Kante beginnt, die am zweiten Knoten R[y:20] endet. Am zweiten Knoten R[y:20] beginnt die zweite Kante, die am dritten Knoten S+ endet. Der vierte Knoten * ist in der zweiten Struktur durch einen achten Knoten T(x,y,z) ersetzt, der ein Teilergebnis definiert. Der dritte Knoten S+ definiert die erste Programmschleife und die zweite Operation für den achten Knoten T(x,y,z), d.h. das Teilergebnis, und den siebten Knoten, d.h. den Startwert für die Reduktion. Die zweite Struktur umfasst eine fünfte Kante, die am ersten Knoten R[x:10] beginnt und an einem neunten Knoten T[y:20] endet. Am neunten Knoten T[y:20] beginnt eine sechste Kante, die an einem zehnten Knoten T[y:20] endet. Am zehnten Knoten T[y:20] beginnt eine siebte Kante, die an einem elften Knoten T[z:30] endet. Am elften Knoten T[z:30] beginnt eine achte Kante, die am vierten Knoten * endet. Der vierte Knoten * definiert die erste Operation, im Beispiel die Multiplikation für den fünften Knoten N(x,y,z) und den sechsten Knoten Act(z,y) abhängig von wenigstens drei Dimensionen. Im Beispiel sind für den fünften Knoten N(x,y,z) im Unterschied zur ersten Struktur die erste Dimension x die zweite Dimension z und die dritte Dimension y definiert. Der neunte Knoten T[y:20], der zehnte Knoten T[y:20] und der elfte Knoten T[z:30] definieren eine dritte Programmschleife zur wiederholten Ausführung der ersten Operation. Dadurch wird dasselbe Teilergebnis bestimmt. Eine neunte Kante des dritten Kantentyps beginnt am achten Knoten T(x,y,z) und endet am neunten Knoten T[y:20] Dadurch wird die neue Datenabhängigkeit in der zweiten Struktur dargestellt. Eine zehnte Kante des vierten Kantentyps beginnt am achten Knoten T(x,y,z) und endet am dritten Knoten S+. Dadurch wird die neue Programmschleife in der zweiten Struktur dargestellt.

Die Daten für die Operanden und Operationen sind im Beispiel durch einen Eingang für die Rechenvorschrift oder durch ein Teilergebnis der Rechenvorschrift definiert.

Die erste Struktur kann einen ersten Teilgraphen definieren, der einen ersten Knoten N umfasst, an dem keine Kante beginnt. Der erste Knoten kann einen ersten Speicherbereich für die Recheneinrichtung 102 in wenigstens zwei Dimensionen [i], [j] definieren. Diese erste Struktur umfasst einen zweiten Knoten, der eine Operation für Werte im ersten Speicherbereich definiert. Das Verfahren kann in diesem Fall vorsehen, dass ein zweiter Speicherbereich für die Recheneinrichtung 102 in wenigstens einer der Dimensionen [j] des ersten Speicherbereichs definiert wird. Die zweite Struktur definiert in diesem Fall einen zweiten Teilgraphen, in dem der erste Knoten des ersten Teilgraphs durch einen dritten Knoten N ersetzt ist, der den zweiten Speicherbereich definiert. Die zweite Struktur definiert in diesem Fall für wenigstens eine Dimension des ersten Speicherbereichs, die im zweiten Speicherbereich fehlt, eine Programmschleife, die eine wiederholte Ausführung der Operation mit dem zweiten Operanden über dieser Dimension definiert.

Es kann vorgesehen sein, eine Vielzahl erster Strukturen bereitzustellen, wobei für erste Strukturen, die im ersten Graph gefunden werden, eine Vielzahl zweiter Graphen bestimmt wird. Es kann vorgesehen sein, in der Vielzahl zweiter Graphen nach der Vielzahl erster Strukturen zu suchen. Die Suche kann iterativ wiederholt werden, bis kein weiterer Teilgraph mehr gefunden wird, der dem Suchmuster entspricht.

Der erste Graph und die resultierende Vielzahl zweiter Graphen definiert Kandidaten, die mit dem Muster durchsuchbar sind, um einen geeigneten Graphen zur Erzeugung der Instruktionen zur Berechnung der Rechenvorschrift zu bestimmen. Dies kann beim Verbinden eines Hardwarebeschleunigers oder bei Eingabe einer zuvor unbekannten Rechenvorschrift vor deren Berechnung mit der Recheneinrichtung 102 erfolgen. Dadurch können die richtigen Instruktionen für beliebige Hardwarebeschleuniger und beliebige Rechenvorschriften im Betrieb der Recheneinrichtung 102 erzeugt werden.

Diese Recheneinrichtung 102 kann mit beliebigen Hardwarebeschleunigern betrieben werden, die unabhängig von der Recheneinrichtung selbst hergestellt werden können.

Bei einem künstlichen neuronalen Netzwerk kann die Rechenvorschrift einen Kernel definieren oder umfassen, der das künstliche neuronale Netzwerk definiert.

Es kann vorgesehen sein, zur automatisierten Erzeugung der Graphen eine Datenstruktur vorzusehen, die für einen Knoten abhängig von seinem Knotentyp wie folgt definiert ist. Der Knotentyp ist im Beispiel einer aus der Gruppe Tensorknoten, Reduktionsknoten, Berechnungsknoten, Eingangsknoten, Zugriffsknoten. Beispielhafte Datenstrukturen sind in Figur 12 dargestellt.

Elternknoten bezeichnet im Folgenden einen Knoten, an dem eine Kante beginnt, die an dem Knoten endet, dessen Datenstruktur ein Datenfeld umfasst, das den Elternknoten definiert. Kindknoten bezeichnet im Folgenden einen Knoten, an dem eine Kante beginnt, dessen Datenstruktur ein Datenfeld umfasst, das den Kindknoten definiert. Sofern kein Elternknoten oder kein Kindknoten vorhanden ist, wird dies im Beispiel durch einen leeren Eintrag im entsprechenden Datenfeld definiert.

Der Knotentyp Tensorknoten ist durch eine Datenstruktur 900 definiert, die ein Datenfeld 902 für einen Elternknoten, ein Datenfeld 904 für einen Kindknoten, der mit einer Kante des ersten Kantentyps erreichbar ist, ein Datenfeld 906 für einen Kindknoten, der mit einer Kante des zweiten Kantentyps erreichbar ist, ein Datenfeld 908 für einen Datennutzer und ein Datenfeld 910 für eine Größe wenigstens einer Dimension des Tensors umfasst.

Das Datenfeld 902 für den Elternknoten kann einen anderen Tensorknoten definieren, oder einen leeren Eintrag enthalten.

Das Datenfeld 904 für den Kindknoten, der mit einer Kante des ersten Kantentyps erreichbar ist, kann einen Knoten aus der Gruppe Tensorknoten, Reduktionsknoten, Berechnungsknoten, Eingangsknoten definieren.

Das Datenfeld 906 für den Kindknoten, der mit einer Kante des zweiten Kantentyps erreichbar ist, kann einen anderen Tensorknoten definieren.

Das Datenfeld 908 für den Datennutzer kann einen Eingang definieren, oder einen leeren Eintrag enthalten.

Das Datenfeld 910 für die Größe kann ein Intervall definieren. Im Beispiel umfasst Intervall einen Eintrag für eine obere Grenze der Dimension, eine untere Grenze der Dimension und eine Schrittweite für die wiederholte Ausführung der Programmschleife. Die obere Grenze, die untere Grenze und die Schrittweite können Integer Werte sein.

Der Knotentyp Reduktionsknoten ist durch eine Datenstruktur 912 definiert, die ein Datenfeld 902 für einen Elternknoten, ein Datenfeld 904 für einen Kindknoten der mit einer Kante des ersten Kantentyps erreichbar ist, ein Datenfeld 906 für einen Kindknoten, der mit einer Kante des zweiten Kantentyps erreichbar ist und ein Datenfeld 914 für eine Größe wenigstens einer Dimension für die Reduktion umfasst.

Das Datenfeld 902 für den Elternknoten kann einen Knoten aus der Gruppe Tensorknoten, Reduktionsknoten, Berechnungsknoten definieren.

Das Datenfeld 904 für den Kindknoten, der mit einer Kante des ersten Kantentyps erreichbar ist, kann einen Eingangsknoten definieren.

Das Datenfeld 906 für den Kindknoten, der mit einer Kante des zweiten Kantentyps erreichbar ist, kann einen Knoten aus der Gruppe Reduktionsknoten, Berechnungsknoten, Eingangsknoten definieren.

Das Datenfeld 914 für die Größe kann ein Intervall definieren. Im Beispiel umfasst Intervall einen Eintrag für eine obere Grenze der Dimension, eine untere Grenze der Dimension und eine Schrittweite für die wiederholte Ausführung der Berechnung für die Reduktion. Die obere Grenze, die untere Grenze und die Schrittweite können Integer Werte sein.

Der Knotentyp Berechnungsknoten ist durch eine Datenstruktur 916 definiert, die ein Datenfeld 902 für einen Elternknoten, ein Datenfeld 904 für einen Kindknoten der mit einer Kante des ersten Kantentyps erreichbar ist, ein Datenfeld 906 für einen Kindknoten, der mit einer Kante des zweiten Kantentyps erreichbar ist und ein Datenfeld 918 für eine Operation umfasst.

Das Datenfeld 904 für den Kindknoten, der mit einer Kante des ersten Kantentyps erreichbar ist, kann einen Knoten aus der Gruppe Reduktionsknoten, Berechnungsknoten, Eingangsknoten definieren.

Das Datenfeld 906 für den Kindknoten, der mit einer Kante des zweiten Kantentyps erreichbar ist, kann einen Knoten aus der Gruppe Reduktionsknoten, Berechnungsknoten, Eingangsknoten definieren. Das Datenfeld 918 für die Operation kann eine arithmetische Operation definieren, z.B. Addition +, Subtraktion Multiplikation *, Division : oder auch andere unäre und binäre Operationen, z.B. Sinus, Cosinus, Tangens, Maximum (max), Minimum (min), Exponentialfunktion, oder Bitshift.

Der Knotentyp Eingangsknoten ist durch eine Datenstruktur 920 definiert, die ein Datenfeld 902 für einen Elternknoten, ein Datenfeld 922 für eine Abhängigkeit oder Reihenfolge aufgrund einer Kante des dritten Kantentyps und ein Datenfeld 924 für einen oder mehrere Kindknoten umfasst.

Das Datenfeld 922 für eine Abhängigkeit aufgrund einer Kante des dritten Kantentyps kann einen Tensorknoten definieren, zu dem die Kante führt, oder einen leeren Eintrag enthalten.

Das Datenfeld 924 für den einen oder die mehreren Kindknoten kann eine Liste mit einem oder mehreren Zugriffsknoten umfassen.

Der Knotentyp Zugriffsknoten ist durch eine Datenstruktur 926 definiert, die ein Datenfeld 902 für einen Elternknoten, ein Datenfeld 928 für einen Wertetyp und ein Datenfeld 924 für einen oder mehrere Kindknoten umfasst.

Das Datenfeld 902 für den Elternknoten kann einen Knoten aus der Gruppe Eingangsknoten oder Zugriffsknoten definieren.

Das Datenfeld 928 für den Wertetyp kann einen Typ für die Daten, die der Zugriffsknoten aus dem Speicher referenziert definieren. Der Typ kann Iterator, Operation oder skalare Konstante sein.

Das Datenfeld 924 für den Kindknoten kann eine Liste mit einem oder mehreren Zugriffsknoten umfassen oder einen leeren Eintrag.

Die Zugriffsknoten können eine der Dimensionen eines Vektors, Tensors oder einer Matrix im Speicher 108 definieren. Der Zugriff auf mehrere Dimensionen ist kann durch eine Verkettung von Zugriffsknoten definiert sein, wobei ein erster Zugriffsknoten eine erste Dimension und ein letzter Zugriffsknoten in der Verkettung eine höchste Dimension definiert. Dabei wird in einem Eingangsknoten ein Zugriffsknoten für die erste Dimension als Kindknoten definiert. Der Zugriffsknoten für die erste Dimension definiert als Kindknoten einen Zugriffsknoten für die zweite Dimension. Dies wird fortgesetzt bis ein Zugriffsknoten den letzten Zugriffsknoten für die höchste Dimension definiert. Der letzte Zugriffknoten definiert für den Kindknoten den leeren Eintrag. Die Instruktionen für die Mustersuche können durch ein in Alfred V. Aho and

Margaret J. Corasick. 1975. Efficient String Matching: An Aid to Bibliographie Search. Commun. ACM 18, 6 (June 1975), 333-340. https://doi.org/10.1145/360825.360855 beschriebenes Vorgehen bestimmt werden.

Die Mustererkennung kann durch einen in Christoph M. Hoffmann and Michael J. O’Donnell. 1982. Pattern Matching in Trees. J. ACM 29, 1 (Jan. 1982), 68-95. https://doi.Org/10.1145/322290.322295 beschriebenen Suchvorgang erfolgen.

Claims

Ansprüche

1. Computerimplementiertes Verfahren zum Erzeugen von Instruktionen für eine Recheneinrichtung zur Ausführung einer Rechenvorschrift, dadurch gekennzeichnet, dass ein gerichteter erster Graph mit Knoten und Kanten bereitgestellt wird (204), der erste Instruktionen für die Recheneinrichtung zur Ausführung der Rechenvorschrift definiert, wobei im ersten Graph wenigstens ein erster Teil mit einer ersten Struktur gesucht wird (206), wobei abhängig vom wenigstens einen ersten Teil ein zweiter Teil mit einer zweiten Struktur bestimmt wird (208), wobei abhängig vom ersten Graph ein gerichteter zweiter Graph mit Knoten und Kanten bestimmt wird (210), wobei im zweiten Graph der erste Teil durch den zweiten Teil ersetzt ist, wobei der zweite Graph zweite Instruktionen für die Recheneinrichtung zur Ausführung der Rechenvorschrift definiert, wobei ein Muster für wenigstens einen Teil eines Graphs bereitgestellt wird (212), dessen Knoten und Kanten durch Instruktionen definiert ist, die von der Recheneinrichtung ausführbar sind, wobei die Instruktionen für die Recheneinrichtung entweder abhängig vom ersten Graph oder abhängig vom zweiten Graph erzeugt werden (216), und wobei abhängig vom Muster der erste Graph oder der zweite Graph zum Erzeugen von Instruktionen für die Recheneinrichtung ausgewählt wird (214).

2. Verfahren nach Anspruch 1, dadurch gekennzeichnet, dass abhängig von der Rechenvorschrift, ein Graph bereitgestellt wird (202), der einen Knoten umfasst, der einen Iterator für eine Operation zur Ausführung der Rechenvorschrift definiert, wobei eine Länge eines Pfads im Graph zwischen einem Knoten, der den Iterator verwendet und dem Knoten, der den Iterator definiert, bestimmt wird, wobei im Knoten, der den Iterator verwendet ein Verweis auf den Knoten, der den Iterator definiert, durch eine Angabe ersetzt wird, die die Länge des Pfads umfasst, und wobei der gerichtete erste Graph abhängig von dem Knoten, der die Länge des Pfads umfasst, bestimmt wird.

3. Verfahren nach Anspruch 2, dadurch gekennzeichnet, dass die erste Struktur einen ersten Teilgraph definiert, der eine Mehrzahl Knoten und Kanten umfasst, die für wenigstens zwei Operanden wenigstens eine Operation in einer ersten Reihenfolge definieren, wobei die zweite Struktur einen zweiten Teilgraph definiert, der durch die Knoten des ersten Teilgraphs definiert ist, wobei die Kanten des zweiten Teilgraphs für die wenigstens zwei Operanden wenigstens eine Operation in einer zweiten Reihenfolge definieren, wobei die wenigstens eine Operation eine elementweise Operation definiert.

4. Verfahren nach einem der Ansprüche 1 bis 3, dadurch gekennzeichnet, dass die erste Struktur durch eine erste Zeichenfolge definiert ist, die einen Pfad im ersten Graph definiert, wobei die zweite Struktur durch eine zweite Zeichenfolge definiert ist, die einen Pfad im zweiten Graph definiert.

5. Verfahren nach Anspruch 4, dadurch gekennzeichnet, dass die erste Zeichenfolge und/oder die zweite Zeichenfolge eine geordnete Liste von Bezeichnungen für Knoten im Pfad umfasst, die den Pfad definiert.

6. Verfahren nach einem der vorherigen Ansprüche, dadurch gekennzeichnet, dass die erste Struktur einen ersten Teilgraph definiert, der eine Mehrzahl Knoten und Kanten umfasst, die für wenigstens zwei Dimensionen eines Operanden eine erste Anordnung in einem Speicher der Recheneinrichtung definieren, wobei die zweite Struktur einen zweiten Teilgraph definiert, der durch die Knoten des ersten Teilgraphs definiert ist, wobei die Kanten des zweiten Teilgraphs für die wenigstens zwei Dimensionen des Operanden eine zweite Anordnung im Speicher definieren.

7. Verfahren nach Anspruch 6, dadurch gekennzeichnet, dass die erste Anordnung einen ersten Tensor für Daten definiert, wobei die zweite Anordnung einen zweiten Tensor für die Daten definiert, wobei der zweite Tensor durch den transponierten ersten Tensor definiert ist.

8. Verfahren nach Anspruch 6 oder 7, dadurch gekennzeichnet, dass die erste Anordnung gegenüber der zweiten Anordnung mehr Dimensionen umfasst, wobei die zweite Anordnung durch Linearisieren einer Vielzahl von Dimensionen der ersten Anordnung bestimmt wird.

9. Verfahren nach Anspruch 6 oder 7, dadurch gekennzeichnet, dass die erste Anordnung gegenüber der zweiten Anordnung weniger Dimensionen umfasst, wobei die zweite Anordnung durch Replizieren wenigstens einer Dimension einer Vielzahl von Dimensionen der ersten Anordnung oder durch Hinzufügen einer mit wenigstens einem Wert, insbesondere mit wenigstens einer Null, aufgefüllten Dimension bestimmt wird.

10. Verfahren nach einem der Ansprüche 7 bis 9, dadurch gekennzeichnet, dass die Daten durch einen Eingang für die Rechenvorschrift oder durch ein Teilergebnis der Rechenvorschrift definiert sind.

11. Verfahren nach einem der vorherigen Ansprüche, dadurch gekennzeichnet, dass die erste Struktur einen ersten Teilgraph definiert, der einen ersten Knoten umfasst, an dem keine Kante beginnt, wobei der erste Knoten einen ersten Speicherbereich für die Recheneinrichtung in wenigstens zwei Dimensionen definiert, wobei die erste Struktur einen zweiten Knoten umfasst, der eine Operation für Werte im ersten Speicherbereich definiert, wobei ein zweiter Speicherbereich für die Recheneinrichtung in wenigstens einer der Dimensionen des ersten Speicherbereichs definiert wird, wobei die zweite Struktur einen zweiten Teilgraph definiert, in dem der erste Knoten des ersten Teilgraphs durch einen dritten Knoten ersetzt ist, der den zweiten Speicherbereich definiert, wobei die zweite Struktur für wenigstens eine Dimension des ersten Speicherbereichs, die im zweiten Speicherbereich fehlt, eine Programmschleife definiert, die eine wiederholte Ausführung der Operation mit dem zweiten Operanden über dieser Dimension definiert.

12. Verfahren nach einem der vorherigen Ansprüche, dadurch gekennzeichnet, dass eine Vielzahl erster Strukturen bereitgestellt wird, wobei für erste Strukturen, die im ersten Graph gefunden werden, eine Vielzahl zweiter Graphen bestimmt wird, wobei in der Vielzahl zweiter Graphen nach der Vielzahl erster Strukturen gesucht wird.

13. Verfahren nach einem der vorherigen Ansprüche, dadurch gekennzeichnet, dass von der Recheneinrichtung ausführbare Instruktionen vorgegeben, bestimmt oder empfangen werden, wobei das Muster abhängig von den ausführbaren Instruktionen bestimmt wird.

14. Verfahren nach einem der vorherigen Ansprüche, dadurch gekennzeichnet, dass aus einer Vielzahl Datenstrukturen für Knoten des ersten Graphs eine Datenstruktur für einen Knoten des ersten Graphs bestimmt wird, die ein Datenfeld umfasst, das eine Operation definiert, die auf andere Knoten anzuwenden ist, wobei eine Datenstruktur für einen Knoten des zweiten Graphs mit derselben Datenstruktur bestimmt wird, wobei ein Datenfeld, das einen Knoten definiert, auf den die Operation anzuwenden ist, durch ein Datenfeld ersetzt wird, in dem ein anderer Knoten definiert ist, auf den die Operation anzuwenden ist, wobei der andere Knoten entweder in einem anderen Datenfeld der Datenstruktur für den Knoten definiert ist, oder wobei der andere Knoten in einem Datenfeld einer Datenstruktur eines weiteren Knotens definiert ist, auf den ein Datenfeld aus der Datenstruktur des Knotens des ersten Graphs verweist.

15. Verfahren nach einem der vorherigen Ansprüche, dadurch gekennzeichnet, dass aus einer Vielzahl Datenstrukturen für Knoten des ersten Graphs eine Datenstruktur für einen Knoten des ersten Graphs bestimmt wird, die ein Datenfeld umfasst, das eine Liste mit anderen Knoten definiert, wobei eine Datenstruktur für einen Knoten des zweiten Graphs mit derselben Datenstruktur bestimmt wird, wobei das Datenfeld, das die Liste definiert, durch ein Datenfeld ersetzt wird, in dem ein erster Eintrag aus der Liste mit einem zweiten Eintrag aus der Liste vertauscht ist.

16. Verfahren nach einem der vorherigen Ansprüche, dadurch gekennzeichnet, dass wenigstens ein Knoten bestimmt wird, der eine Programmschleife zur Bestimmung eines Ergebnis definiert, wobei dem Knoten ein Parameter zugeordnet wird, der eine Speicherkachel im Speicher charakterisiert, wobei abhängig vom Parameter eine erste Programmschleife und eine zweite Programmschleife bestimmt werden, wobei die erste Programmschleife wenigstens eine Instruktion zur Bestimmung des Ergebnis und eine Instruktion für einen Aufruf der zweiten Programmschleife umfasst, mit der ein Teilergebnis dafür bestimmbar ist.

17. Vorrichtung zum Erzeugen von Instruktionen für eine Recheneinrichtung zur Ausführung einer Rechenvorschrift, dadurch gekennzeichnet, dass die Vorrichtung ausgebildet ist, das Verfahren nach einem der vorherigen Ansprüche auszuführen.

18. Datenstruktur zum Erzeugen von Instruktionen für eine Recheneinrichtung (102) zur Ausführung einer Rechenvorschrift, dadurch gekennzeichnet, dass die Datenstruktur für eine Knoten eines Graphs umfasst: ein erstes Datenfeld (902) für einen Elternknoten des Knotens im Graph, wenigstens ein zweites Datenfeld (904; 906; 924) für einen Kindknoten des Knotens im Graph und wenigstens ein drittes Datenfeld (908, 910; 914; 918; 922; 928) das eine Operation oder einen Operanden der Rechenvorschrift charakterisiert.

19. Datenstruktur nach Anspruch 18, dadurch gekennzeichnet, dass das wenigstens eine dritte Datenfeld einen Datennutzer (908), eine Größe (910, 914) wenigstens einer Dimension für die Berechnung, eine arithmetische Operation (918), eine Abhängigkeit oder Reihenfolge (922) für die Berechnung oder einen Wertetyp (928) definiert.