WO2007059746A2

WO2007059746A2 - Verfahren zur kompression für einen rechnerarchitektur-unabhängigen datentransfer und/oder zur dekompression eines datensatzes

Info

Publication number: WO2007059746A2
Application number: PCT/DE2006/002052
Authority: WO
Inventors: Christian Werner
Original assignee: Universität Zu Lübeck
Priority date: 2005-11-23
Filing date: 2006-11-21
Publication date: 2007-05-31
Also published as: DE102005056122A1; US20090193045A1; WO2007059746A3; EP1952540B1; EP1952540A2; US8650217B2

Abstract

Verfahren zur Kompression für einen rechnerarchitektur-unabhängigen Datentransfer und/oder der Dekompression eines Datensatzes, der Strukturbezeichner und Variablenwerte enthält, mit den Schritten Vorsehen eines die Strukturierungsregeln des Datensatzes repräsentierenden String-Automaten in einer den Ursprungs-Datensatz komprimierenden Einrichtung, Eingeben des Datensatzes in den String-Automaten, Erzeugen eines zweiten, kürzeren Datensatzes durch den String-Automaten, der die Variablenwerte des ersten Datensatzes und String-Automaten-spezifische Steuersymbole enthält, die einen Wechsel von einem Automatenzustand in einen Folgezustand repräsentieren, und Übermitteln des zweiten Datensatzes an einen die Steuerungssymbole interpretierenden gleichartigen String-Automaten, wobei eine Kopie des ursprünglichen Datensatzes mit gleicher Datenstruktur erzeugt wird.

Description

Verfahren zur Kompression für einen rechnerarchitektur-unabliängigen Datentransfer und/oder zur Dekompression eines Datensatzes

Die Erfindung betrifft ein Verfahren zur Kompression für einen rechnerarchitektur- unabhängigen Datentransfer und/oder zur Dekompression eines Datensatzes nach den Merkmalen der unabhängigen Ansprüche, insbesondere zur gleichzeitigen Verarbeitung von Datensätzen, z. B. für Anwendungen in der Datenübertragung. Die Erfindung be- trifft auch die Implementierung von Datenkompressionsalgorithmen in digitalen Schaltkreisen, insbesondere in Mikrochips.

Die fortschreitende Vernetzung elektronischer Rechner hat mittlerweile zur Entwicklung plattformunabhängiger Computersprachen geführt, die den Austausch von Infor- mationen zwischen unterschiedlichen Rechner-Architekturen erlauben. Die übertragenen Daten werden erst von lokal installierten Programmen (z.B. Web-Browser) in Maschinenbefehle übersetzt, die für das Endgerät spezifisch und damit ausführbar bzw. interpretierbar sind. Die Unabhängigkeit von der Architektur wird durch die Einhaltung einer definierten Struktur des übertragenen Datenstroms erreicht, wobei dies im Allge- meinen aber auch mit einem - etwa gegenüber gerätespezifischen Optimierungen - erhöhten Datenvolumen einhergeht. Offensichtlich besteht daher ein Bedarf an Verfahren zur Kompression und Dekompression solcher übertragenen Datenströme.

Ziel jeder Datenkompressionstechnik ist es, einen Eingabedatensatz so in einen Ausga- bedatensatz umzuwandeln, dass der Ausgabedatensatz kürzer als der Eingabedatensatz ist. Dies ermöglicht eine effizientere Speicherung und Übertragung der Daten. Der Informationsgehalt des Eingabedatensatzes muss dabei jedoch im Ausgabedatensatz (wenigstens in wesentlichen Teilen) erhalten bleiben, so dass man im Rahmen eines De- kompressionsvorgangs den Eingabedatensatz aus dem Ausgabedatensatz zurückgewin- nen kann. Es gibt zwei verschiedene Klassen von Datenkompressionsverfahren: Solche, die auf beliebige Eingabedaten anwendbar sind (Entropiecodierung), und solche, die nur auf spezielle Eingabedaten anwendbar sind (Quellencodierung). Verfahren zur Entropiecodierung arbeiten mit einer statistischen Analyse über die Häufigkeiten der Symbole im Eingabedatensatz. Häufige Symbole im Eingabedatensatz werden im Ausgabedatensatz auf kurze Zeichenketten abgebildet und weniger häufige auf längere. Auf diese Weise kann die Gesamtlänge des Eingabedatensatzes reduziert werden. Solche Verfahren arbeiteten immer verlustfrei, d.h. man kann den Eingabedatensatzes aus dem Ausgabedatensatz exakt rekonstruieren.

Verfahren zur Quellencodierung nutzen dagegen spezielle Eigenschaften des Eingabedatensatzes aus. Ist beispielsweise bekannt, dass hierin Schwarzweiß-Digitalbilder gespeichert sind und schwarze Bildpunkte in der Bildmatrix dabei mit 0 und weiße mit 1 codiert werden, so kann man ausnutzen, dass typische Bildmotive flächige Strukturen aufweisen. Für den Eingabedatensatz bedeutet dies, dass mit großer Wahrscheinlichkeit lange, durchgängige Sequenzen von Nullen bzw. Einsen enthalten sein werden. Diese Eigenschaft kann man beim Kompressionsvorgang berücksichtigen und beispielsweise eine Lauflängencodierung einsetzen. Die Symbolfolge 111111111 wird hier als 9,1 (neun mal eins) kodiert. Einige Quellencodierungsverfahren nutzen zusätzlich Strategi- en zur Entropiecodierung. Sie erreichen in aller Regel bessere Kompressionsraten als reine Entropiecodierungsverfahren.

Es gibt sowohl verlustfreie als auch verlustbehaftete Verfahren zur Quellencodierung. Verlustbehaftete Verfahren erreichen noch bessere Kompressionsraten als verlustfreie und werden immer dann eingesetzt, wenn nur bestimmte Teile der im Eingabedatensatz kodierten Information relevant sind (z.B. die für das menschliche Gehör wahrnehmbaren Frequenzanteile in einem Audio-Datenstrom).

Verfahren zur Entropiecodierung sind bereits sehr umfassend erforscht. Hier haben sich mehrere Verfahren etabliert, deren Kompressionsergebnisse sehr nah am theoretischen

Optimum liegen. Hierzu gehören insbesondere die Verfahren von Shannon-Fano, Huffman, Lempel-Ziv und Lempel-Ziv- Welch.

Verfahren zur Quellencodierung sind für einige Anwendungsbereiche ebenfalls bereits sehr gründlich erforscht: Etwa für Audiόdaten (beispielsweise MP3 -Encoder) oder

Bilddaten (JPEG-Encoder) oder Bewegtbilddaten (beispielsweise MPEG-Encoder). Wie eingangs erwähnt, spielen strukturierte oder teilweise strukturierte Datensätze in der Kommunikation zwischen verschiedenen Rechnern eine besondere Rolle. Solche Datensätze sind nach festen Regeln aufgebaut, beispielsweise der folgenden:

Ein Datensatz besteht aus einem 32-Bit-Integer-Temperaturwert, entweder gefolgt von einem Druckwert oder einem Feuchtigkeitswert, ebenfalls als 32-Bit-Integer. Die Codierung erfolgt als ASCII-Text nach folgendem Muster:

Temperatur : Wertl, Druck : WerÜ oder Temperatur : Wertl, Feuchtigkeit : Wert2

Dieser Datensatz enthält einerseits feste Strukturierungsinformationen (Temperatur:, Druck:) und andererseits variable, nicht weiter strukturierte Teile {Wertl, Wertl). Bei diesem Datensatz handelt es sich also um einen teilweise strukturierten Datensatz. Datensätze ohne variable Teile wären vollständig strukturiert. Eine solche Durchmengung von Strukturierungsinformationen (im Folgenden Strukturbezeichner genannt) und nicht weiter strukturierten Teilen ist in heutigen Datensätzen durchaus typisch.

Im stand der Technik ist nun die Druckschrift WO 01/27754 A2 bekannt, die ein Quell- codier-Verfahren zur Kompression von Programmquellcodes beschreibt, und solche sind eine mögliche Ausprägung für teilweise strukturierte Datensätze. Dieses Verfahren nutzt aber die Struktur aus, die durch die jeweilige Programmiersprache vorgegeben ist, um eine besonders kompakte Repräsentation des Programmquellcodes zu erzeugen. Das dort beschriebene Verfahren arbeitet dabei mit dem Parse-Baum, der beim Parsen von Programmquelltexten im Speicher eines Rechners aufgebaut wird. Ein wesentlicher Nachteil hierbei ist, dass die Größe des Parse-Baums mit der Länge des zu komprimierenden Datensatzes wächst. Dies führt bei langen Dokumenten zu einem großen Bedarf an Hauptspeicher. Weiterhin ist der Anwendungsbereich dieses Verfahrens auf Computerhochsprachen beschränkt.

Das bekannte Übersetzen eines Programms in Maschinensprache führt zwar oft auf eine verkürzte Repräsentation des Quellcodes, kann aber dennoch nicht als geeigneter Kom- pressor für die hier gestellte Aufgabe angesehen werden. Denn ein Compiler wird grundsätzlich für die Regeln einer vorab definierten Programmiersprache und für eine vorgegebene Rechnerarchitektur erstellt. Ein unter Windows übersetzter Quellcode ist - A -

auf einem Unix-Betriebssystem nicht lauffähig und umgekehrt. Von daher ist ein Transfer kompilierter Programme zwischen verschiedenen Architekturen nicht zweckmäßig.

Überdies ist das übersetzte - mithin auf zumindest einer Architektur ausführbare - Pro- gramm nicht unbedingt kürzer als der Quellcode, so dass man bei der Kompilierung prinzipiell nicht von einer Kompression des Quellcodes ausgehen kann. Ein Compiler, dessen Aufgabe ja nicht die Kompression ist, ist auch nicht auf das Dekompilieren übersetzter Dateien ausgelegt. Soweit das Dekompilieren heute technisch realisiert wird, erzeugt es gleichwohl nur einen äquivalenten, aber keinen identischen Quellcode (z.B. werden Kommentarzeilen nicht zurück gewonnen) .

Schließlich ist auch nicht bekannt, wie sich ein Compiler-Algorithmus z.B. für eine Hochsprache vollständig in eine Hardware-Schaltung umsetzen ließe, so dass ein direktes Verarbeiten des Quellcodes ohne Übersetzung durch den Mikroprozessor des Rech- ners nicht möglich ist. Gerade wenn es darum geht, eine große Zahl kurzer Quellcodes in die maschinenlesbare Form zu übersetzen (wie bei heutigen Server-Anwendungen üblich), stellt die zur Übersetzung erforderliche Rechenleistung eine Limitierung dar.

Diese Nachteile der Verwendung von Compilern werden dem Fachmann daher kaum nahe legen, die Aufgabe der Erfindung gerade mit einem Compiler lösen zu wollen.

Weitere Publikationen beschäftigen sich mit der Datenbeschreibungssprache XML, die sich in den letzten Jahren als universelles Mittel zur Beschreibung hierarchisch strukturierter Inhalte durchgesetzt hat. Ein XML-Datensatz besitzt zwei Hauptkomponenten: Markup-Strukturen (strukturierte Teile) und Nutzdaten (nicht weiter strukturierte Teile).

Die Markup-Strukturen bestehen dabei aus Tags. Das sind Bezeichner in spitzen Klammern, die die hierarchische Struktur des Datensatzes beschreiben. Zu jedem Bezeichner gibt es ein öffnendes Tag der Form <Bezeichner> und ein schließendes Tag der Form </Bezeichner>. Durch die Verschachtelung von einzelnen Tags wird die Struktur eines Datensatzes abgebildet. Zwischen einem öffnenden Tag und dem korrespondierenden schließenden Tag können dabei entweder weitere Tag-Paare, Nutzdaten oder eine Kombination aus beidem enthalten sein. Nutzdaten sind dabei beliebige anwendungsspezifische Zeichenketten. Grundsätzlich sind in XML-Datensätzen beliebige Markup-Strukturen und beliebige Nutzdaten erlaubt, solange sie den in der XML- Spezifikation beschriebenen Syntax-Regeln genügen. Für einen konkreten Anwendungsfall sind jedoch typischerweise nur bestimmte Kombinationen sinnvoll. Für den oben genannten Anwendungsfall sollen beispielsweise nur die Tag-Bezeichner Messwerte, Temperatur, Druck und Feuchtigkeit in den oben beschriebenen Kombinationen und Reihenfolgen erlaubt sein.

Solche Einschränkungen kann man mit speziellen Grammatikbeschreibungssprachen für XML festlegen (gebräuchlich sind hier die Sprachen DTD und XML-Schema).

Quellencodierungsverfahren speziell für XML lassen sich daher wiederum in zwei Klassen unterteilen: Solche, die auf beliebige XML-Dokumenten anwendbar sind, und solche, die zunächst eine Grammatikbeschreibung einlesen und dann nur auf die XML- Dokumente anwendbar sind, die dieser Grammatikbeschreibung genügen. Letztere erreichen noch bessere Kompressionsergebnisse.

Zur ersten Gruppe gehören xmlppm, XMiIl, exalt, fast infoset und XMLZip. Letztgenanntes ist ein kommerzielles Produkt, das allerdings nicht mehr vertrieben wird. Diese Verfahren separieren die Bereiche von Nutzdaten und Markup und wenden dann auf beide Bereiche Entropiecodierungsverfahren an. Weiterhin werden bestimmte XML- Syntaxregeln bei der Kompression ausgenutzt. Insbesondere wird die Eigenschaft aus- genutzt, dass sich jedes XML-Dokument als Baum (zyklenfreier, zusammenhängender, ungerichteter Graph) darstellen lässt. Durch diese Techniken werden im Vergleich zur reinen Entropiecodierungsverfahren deutlich bessere Kompressionsergebnisse erreicht.

Zur zweiten Gruppe gehören WBXML, Millau, bim, Xebu, Xgrind sowie weitere Ta- bellencodierungstechniken. Neben den aus der ersten Gruppe bekannten Techniken, werden hier aus der Grammatikbeschreibung zusätzlich bestimmte Muster (Tokens) extrahiert, die im zu komprimierenden XML-Dokument vorkommen dürfen. Jedem Token wird dann eine eindeutige, möglichst kurze Zeichenfolge zugeordnet. Diese Zuordnung wird in einer Tabelle gespeichert, die dann als Abkürzungswörterbuch bei der Kom- pression dient. Da diese Verfahren Informationen aus der Grammatikbeschreibung für den Kompressionsprozess zusätzlich ausnutzen können, arbeiten sie noch effektiver als generische XML-Kompressoren. Diese Verfahren sind ressourcenschonend, denn hier beschränkt sich der Kompressionsprozess im Wesentlichen auf den Vergleich zwischen Zeichenketten in der Abkürzungstabelle und im Eingabedatensatz. Allerdings sind die erreichten Kompressionsraten prinzipbedingt nicht optimal. Es wird lediglich ausgewertet, welche Tokens im Eingabedatensatz auftreten können. Die Information, in welcher Reihenfolge die Tokens auftreten können, bleibt unberücksichtigt. Zur zweiten Gruppe gehört ebenfalls das in dem Artikel Werner, Christian; Buschmann, Carsten ; Fischer, Stefan: WSDL-Driven SOAP Compression. In: International Journal of Web Services Research 2 (2005), Nr. 1 vorgestellte Verfahren zur XML-Differenzen- Codierung. Hier wird nicht mit einer Abkürzungstabelle gearbeitet. Stattdessen wird aus der Grammatikbeschreibung eine Menge von Skelettdatensätzen generiert. Diese stellen alle möglichen Varianten von Datensätzen dar, die dieser Grammatikbeschreibung genügen. Im Rahmen des Kompressionsvorgangs wird dann der zu komprimierende Datensatz mit dem am besten passenden Skelettdatensätzen verglichen und lediglich die Abweichungen zu diesem kodiert. Der Differenzencodierungsansatz ist besonders leistungsfähig. Er berücksichtigt auch Informationen über mögliche Reihenfolgen von Eingäbemustern. Doch ist der algorithmische Aufwand bei komplexeren Grammatikbeschreibungen sehr hoch, denn der zu komprimierende Datensatz muss mit einer Vielzahl von Skelettdatensätzen verglichen werden. Dieser Ansatz eignet sich daher nur für ausgewählte Anwendungen mit einfachen Grammatikbeschreibungen.

Gegenwärtige Quellencodierungsverfahren zur Kompression von strukturierten oder teilweise strukturierten Daten benötigen entweder viel Rechenleistung und Speicherplatz oder arbeiten nicht besonders effektiv.

Die meisten bekannten Quellcodierungsverfahren zur Kompression von strukturierten Datensätzen (Ausnahmen sind hier WO 01/27754 A2, WBXML und das Verfahren von Millau) setzen weiterhin zwingend voraus, dass die komprimierten Daten zunächst dekomprimiert werden müssen, bevor sie geparsed und verarbeitet werden können. Dies ist in der Praxis oft ein entscheidender Nachteil: Zum einen, weil durch diesen zusätzlichen Verarbeitungsschritt Verzögerungen eintreten. Zum anderen, weil der dekomprimierte Datensatz im Speicher gehalten werden muss, was gerade im Bereich der mobilen Kleinstcomputer mit sehr begrenztem Hauptspeicher einen gravierenden Nachteil darstellt.

Gerade für Kleinstcomputer ist es ohnehin vorteilhaft und wünschenswert, die Kompression und Dekompression übertragener Daten weitestgehend in der Hardware zu realisieren. Dazu lässt sich das Konzept der Automaten aus der theoretischen Informatik nutzen.

Ein solcher Automat (engl.: „State machine") ist eine sehr einfach aufgebaute Funktionsgruppe. Sie besteht im einfachsten Fall aus einem einzigen getakteten Speicherele- ment (z.B. einem 16-Bit-Register) und kann in diesem Speicherelement zu einem Zeitpunkt einen einzelnen Wert (Zustand) speichern. Neben diesem Speicherelement gibt es in einem solchen Automaten noch einen Regelsatz, der in Abhängigkeit von dem aktuellen Zustand einerseits und von dem von der Eingabe gelesenen Zeichen andererseits festlegt, welcher Zustand im nächsten Taktschritt eingenommen werden soll. Bestimmte Ausprägungen solcher Automaten besitzen zusätzlich einen sog. Kellerspeicher. Man spricht dann von einem Kellerautomaten (engl.: Stack machine).

Ein großer Vorteil dabei ist, dass ein Automat - anders als ein Compiler - keinen Mi- kroprozessor benötigt, um ausgeführt zu werden; er kann allein auf Basis eines getakteten Speicherelements (als Zustandsspeicher) sowie einem ROM- oder RAM-Baustein (für die Zustandsübergangsregeln) realisiert werden.

Weiter wird bei einem solchen Automaten kein Parse-Baum im Speicher aufgebaut, wie dies ein Compiler tut. Auch ein Assembler-Übersetzer arbeitet nicht nach dem zu- standsbasierten Prinzip eines solchen Automaten.

Der wesentliche Vorteil von Automaten ist zweierlei:

- Aufgrund ihrer einfachen Struktur sind Automaten nach bekannten Verfahren in ein Chip-Design umsetzbar.

Aus weitgehend beliebigen Strukturregeln eines Datensatztyps (konkretes Beispiel XML) lassen sich nach bekannten Verfahren Automaten (insbe- sondere String-Automaten, welche von Baum-Automaten zu unterscheiden sind) systematisch konzipieren, die den Datensatztyp verarbeiten können.

Wenn nachfolgend vom „Realisieren" eines String-Automaten gesprochen wird, ist in erster Linie die Schaffung einer entsprechenden Hardwareschaltung gemeint. Eine Rea- lisierung in Form von Software kann aber bekanntlich Hardwareschaltungen simulieren.

Weiter sind Baum-Automaten für die Verarbeitung und Validierung von XML Dokumenten bekannt, so aus der US 2003 0154444 Al. Diese Automatenklasse war in den letzten Jahren Gegenstand vieler Forschungsarbeiten zur Verarbeitung von strukturier- ten Datensätzen. Datenkompression mittels String-Automaten λvurde bereits in dem Artiekl von Vojtech TOMAN: Syntactical Compression ofXML Data. Proceedings of the 16th International Conference on Advanced Information Systems Engineering, 7.-11. Juni 2004, Riga, Lettland vorgeschlagen. Bei dem dort beschriebenen Verfahren wird die Grammatikbe- Schreibung vorab als nicht bekannt angenommen. Zu Beginn der Verarbeitung existieren also keine Informationen über die Struktur des zu verarbeitenden Datensatzes. Während der Verarbeitung "lernt" der Algorithmus über die Struktur, und für jedes im Datensatz gefundene Symbol wird ein separater String-Automat angelegt und bei Bedarf erweitert, der die diesem Symbol nachgeordnete Strukturinformation beschreibt. Wei- terhin wird an den Zustandsübergängen des Automaten markiert, wie häufig einzelne

Strukturzweige in einem solchen Automaten abgerufen werden. Bei der Verarbeitung des Eingabedatensatzes greift man auf diese Automaten zurück. Eine kompakte Codierung des Eingabedokuments wird erzeugt, indem man die Häufigkeitsmarkierungen der genutzten Zustandsübergänge auswertet und anhand dieser eine Vorhersage trifft, wel- ches Symbol als nächstes folgt.

Für den praktischen Einsatz ist das Verfahren nur bedingt geeignet, weil bei der Verarbeitung eines Datensatzes dynamisch neue Automatenstrukturen angelegt und aktualisiert werden müssen. Für eine Implementierung als Chip ist dies unvorteilhaft, weil nicht vorab bekannt ist, wie viele Speicherzellen auf dem Schaltkreis vorgesehen werden müssen. Weiterhin ist nachteilig, dass die Automatenstrukturen nie vollständig die Regeln abbilden, denen der Datensatz genügt. Auch bei sehr langen Datensätzen, bei denen der Algorithmus sehr viele Informationen über die Struktur des Datensatzes „lernen" kann, beschreiben die schrittweise erzeugten Automaten die Struktur des Daten- satzes nicht zwangsläufig vollständig. Toman konstruiert zudem nur solche String-

Automaten, die in der Klasse der azyklischen, deterministischen endlichen Automaten liegen. Diese reichen nur zur Beschreibungen von sehr einfachen Strukturbeschreibungen aus.

Es ist Aufgabe der Erfindung, Verfahren zur Kompression und Dekompression von wenigstens teilweise strukturierten Datensätzen anzugeben, das weiter bevorzugt in vereinfachter Weise eine Codierung beliebiger Datensätze ermöglicht, die Verarbeitung von komprimierten Datensätzen ohne vorangehende Dekompression erlaubt und überdies leicht in Hardware implementierbar ist.

Die Aufgabe wird gelöst durch das Verfahren mit. den Merkmalen des unabhängigen Anspruchs. Die Unteransprüche geben vorteilhafte Ausgestaltungen an. Das vorgeschlagene Verfahren zur Kompression und/oder Dekompression eines Datensatzes, der Struktur und Variablenwerte enthält, zeichnet sich aus durch Vorsehen eines die vorab bekannten Strukturierungsregeln des Datensatzes repräsentierenden String- Automaten in einer den Ursprungs-Datensatz komprimierenden Einrichtung, Eingeben des Datensatzes in den String-Automaten, Erzeugen eines zweiten, kürzeren Datensatzes durch den String-Automaten, der die Variablenwerte des ersten Datensatzes und String- Automaten-spezifische Steuersymbole enthält, die einen Wechsel von einem Au- tomatenzustand in einen Folgezustand repräsentieren, und Übermitteln des zweiten Da- tensatzes an einen die Steuersymbole interpretierenden gleichartigen String-Automaten, wobei eine Kopie des ursprünglichen Datensatzes mit gleicher Datenstruktur erzeugt wird.

Der entscheidende Erfindungsgedanke, besteht in der Einführung von Steuersymbolen dort, wo die Zustandsänderungen des Automaten Verzweigungsmöglichkeiten aufweisen. Erst das Ersetzen der ansonsten im unkomprimierten Datensatz mitgeführten Struktursymbole durch die sehr kurzen Steuersymbole des Automaten führen^' auf die hohe Kompressionseffizienz. Dass dies überhaupt möglich ist, liegt wiederum an den im Automatendesign endgültig festgelegten Strukturregem der zu verarbeitenden Datensätze.

Natürlich kann auch nur eine Dekompression eines zuvor z.B. über das Internet erhaltenen Datensatzes erfolgen, der Steuerdaten für String-Automaten und Variablenwerte enthält. Dann ist der Datensatzes nur in einen vorgegebenen, bekannten String- Automaten einzugeben, der ihn interpretiert und daraus wieder eine unkomprimierte Repräsentation des Datensatzes erzeugt und/oder externe Funktionsgruppen steuert.

Wesentlich bei der Erfindung ist es, den zu komprimierenden Datensatz so umzucodie- ren, dass diese komprimierte Darstellung den Durchlauf eines String-Automaten beschreibt. Dieser Durchlauf wird dabei über geeignete Steuersymbole beschrieben, die dabei „Weichenstellungen" repräsentieren.

In anderen Worten: Das vorgeschlagene Kompressionsverfahren besteht darin, einen Weg aufzuzeigen, wie ein einfacher Hardware-Kompressor - der zugleich Dekompres- sor und Verarbeiter des komprimierten Datensatzes ist - allgemein hergestellt werden kann. Ein solcher Chip kann für jedes - weitgehend beliebige - Kompressionsproblem systematisch entworfen und industriell hergestellt werden. Eingebaut in beliebige Rechnerarchitekturen lässt er dann die völlige Transferfreiheit komprimierter Datensätze zu. Die hierzu nötigen, erfindungsgemäßen Steuersymbole sind in „normalen" Kellerautomaten, wie sie in der Literatur für Standardanwendungen beschrieben werden, nicht vorhanden bzw. werden nicht verarbeitet.

Die Steuersymbole sind prinzipiell durch wenige Bits darstellbar. Mit dem Verfahren lässt sich die Größe typischer Datensätze um Faktoren zwischen 10 bis 15 reduzieren. Diese Einsparung wird vor allem dadurch erreicht, dass die Strukturinformationen in einem Datensatz schon durch eindeutige Zustandsübergänge im bekannten String- Automaten beschrieben ist: Ein Großteil der Zustandsübergänge im String-Automaten besitzt also nur einen Folgezustand. Da in einem solchen Fall der Zustandsübergang schon feststeht, muss diese Information in Ausgabedaten nicht codiert werden. Anders ausgedrückt: Solche eindeutigen Zustandsübergänge können mit 0 bit codiert werden.

Somit kann die gesamte Strukturinformation eines Datensatzes auf wenige Bits redu- ziert werden. Alle Tags oder Tokens, die Strukturinformationen beschreiben, werden aus dem Datensatz entfernt, da die Datenstruktur bereits im Automaten abgebildet ist. Insbesondere muss auch keine Übersetzungstabelle vorgehalten werden.

Der so komprimierte Datensatz ist nur für den Durchlauf in diesem speziellen Automa- ten geeignet, er muss also insbesondere dem Empfänger einer komprimierten Übertragung bekannt sein. Er enthält aber lediglich Variablenwerte und die kompakt codierten Steuersymbole, d.h. keinerlei redundante Information. Offensichtlich kann der Datensatz auch ohne vorangehende Dekompression vollständig verarbeitet werden.

Weiterhin sind solche Automaten leicht in Hardware zu realisieren. Im digitalen Schaltkreisentwurf sind Automaten Standardbaugruppen und damit Bestandteil nahezu jeder getakteten Digitalschaltung.

Die Erfindung wird im Folgenden anhand einer Zeichnung genauer erläutert. Dabei zei- gen :

Fig. 1 einen endlichen Automaten, der Eingabedatensätze W mit dem Muster aⁿbbc^m akzeptiert,

Fig. 2 einen endlichen Automaten für die Erkennung von Datensätzen zur

Messdatenerfassung, und Fig. 3 einen erweiterten endlichen Automaten für die Erkennung von Datensätzen zur Messdatenerfassung und

Fig. 4 einen Ausgabedatensatz.

Ein String-Automat ist eine Funktionsgruppe, die die Gültigkeit eines Eingabedatensatzes W anhand von vorgegebenen Zuständen und Zustandsübergängen überprüft. Das Beispiel in Fig. 1 erläutert anschaulich das grundsätzliche Vorgehen. Ein String- Automat besteht aus Zuständen und Zustandsübergängen. In der graphischen Darstellung sind dies die Kreise und Pfeile zwischen den Kreisen. Ein Zustand ist dabei als Startzustand gekennzeichnet (Pfeil zeigend auf zθ). Ein oder mehrere Zustände sind als Endzustände gekennzeichnet (Doppelkreise). Die Übergänge zwischen den Zuständen tragen eine Beschriftung in Form einer Zeichenkette, daher auch der Name String- Automat.

Bei der Überprüfung eines Eingabedatensatzes W durchläuft der Automat eine Sequenz von Zuständen. Der Automat verarbeitet W Zeichen für Zeichen von links nach rechts und wählt die Zustandsübergänge mit den passenden Beschriftungen aus. Gibt es keine passenden Zustandsübergänge oder endet die Sequenz in einem Zustand, der nicht Endzustand ist, so ist das Eingabewort nicht gültig; andernfalls ist es gültig.

Für den Eingabedatensatz Wl=aabbc würde der dargestellte Automat die Sequenz zθ, zθ, zθ, zl, z2, z2 durchlaufen. Der Zustand z2 ist Endzustand, also ist Wl eine gültige Eingabe.

Der Eingabedatensatz W2=abba wäre dagegen nicht gültig, weil sich hier die Teilsequenz zθ, zθ, zl, z2 ergibt, und es keinen Übergang von z2 mit der Beschriftung a gibt. Auch W3=aaab wäre nicht gültig, weil die sich ergebene Sequenz zθ, zθ, zθ, zθ, zl nicht mit einem Endzustand endet.

Es gibt mehrere Typen von String-Automaten. Fig. 1 zeigt ein Beispiel für die einfachste Ausprägung : einen Endlichen Automaten. Dieser Typ verfügt über keine weiteren Speicherelemente (außer denen für Zustand und Zustandsübergänge) und kann daher prinzipbedingt nur einfach strukturierte Datensätze verarbeiten (solche, die Wörter einer

Sprache sind, welche in der Klasse der Regulären Sprachen liegt). Neben dem Typus Endlicher Automat ist insbesondere auch der Einsatz von Kellerautomaten gängig. Diese sind wie ein Endlicher Automat aufgebaut, verfügen aber zusätzliche über einen Kellerspeicher (häufig auch als LIFO-Speicher bezeichnet). Die Lese- und Schreiboperationen des Kellerspeichers werden über zwei zusätzliche Beschriftun- gen jedes Zustandsübergangs gesteuert. Jeder Zustandsübergang trägt also drei Beschriftungsfelder:

zu lesendes Eingabezeichen, zu lesendes Zeichen aus dem Kellerspeicher, - zu schreibende Zeichen in den Kellerspeicher.

Mit einem Kellerautomaten kann man auch komplexer strukturierte Eingabedatensätze verarbeiten (solche, die Wörter einer Sprache sind, welche in der Klasse der kontextfreien Sprachen liegt, vgl. Schöning, Uwe: Theoretische Informatik kurzgefaßt. 3. Auf- läge. Spektrum, 1997).

Grundsätzlich eignen sich sämtliche String-Automaten-Typen zur Umsetzung des Verfahrens. Jeder Typ kann in bestimmten Anwendungen jedoch spezifische Vorteile bieten: Endliche Automaten benötigen beispielsweise sehr wenig Speicher und Kellerau- tomaten sind besonders vielseitig einsetzbar, weil sie alle kontextfreien Sprachen erkennen können.

Das Erzeugen eines String- Automaten aus Strukturbeschreibungen wie etwa Regulären Ausdrücken ist bekannt. Insbesondere lassen sich aus XML-Grammatikbeschreibungen (DTD, XML- Schema-Dokument) Kellerautomaten konstruieren [Segoufin L.; Vianu,

V.: Validating Streaming XML Documents. Proceedings of the 2 Ist ACM SIGMOD- SIGACT-SIGART Symposium on Principles of database Systems, Madison, Wisconsin, USA₃ 2002].

Das erfindungsgemäße Verfahren fokussiert auf die Anwendung dieser Automaten zur

Entfernung redundanter Strukturinformationen aus dem Datensatz und auf die Einführung von Steuersymbolen zur Kontrolle des Automatenablaufes dort, wo alternative Zu- standsänderungen möglich sind.

Für das eingangs genannte Beispiel lässt sich ein Endlicher Automat - wie in Fig. 2 dargestellt - angeben, der die Struktur der zu verarbeitenden Eingabedatensätze beschreibt. Die Alternative, ob nach dem Temperaturwert ein Druckwert oder ein Feuch- tigkeitswert folgt, ist im Automaten durch zwei mögliche Zustandsübergänge ausgehend von z2 beschrieben.

Die Automatenbeschreibung kann weiterhin Informationen über den Inhalt von nicht- strukturierten Bereichen im Eingabedatensatz enthalten (Boolean, String der Länge 10,

16-Bit-Integer usw.). Im Beispiel ist an den Zustandsübergängen von z3 nach z5 und von z4 nach z5 jeweils angegeben, dass hier numerische Werte erwartet werden, die sich als 32-Bit-Integer-Zahl darstellen lassen. Diese Information wird beim Kompressi- onsprozess ausgewertet, um besonders kompakte Codierungen für mögliche Werte zu finden. Bei der Dekompression wird diese geänderte Darstellungsweise wieder rückgängig gemacht. Die in einem Datensatz enthaltenen Variablenwerte können sowohl von einem kodierenden als auch von einem interpretierenden String- Automaten bei der Verarbeitung geändert kodiert ausgegeben bzw. erkannt und umgewandelt werden.

Damit der Automat für die Kompression eingesetzt werden kann, muss er zunächst wie folgt erweitert werden:

Besitzt der Automat Zustände mit mehr als einem möglichen Folgezustand, werden die Zustandsübergänge zu den Folgezuständen mit zusätzlichen, lokal eindeutigen Bezeich- nern (Steuersymbole) versehen. Es entsteht ein erweiterter String-Automat.

Im Beispiel wäre eine solche Erweiterung also bei z2 notwendig. Es gibt nur zwei Folgezustände, folglich genügt ein einzelnes Bit zur eindeutigen Codierung. Im Beispiel wird der Übergang nach z3 mit 0 und der nach z4 mit 1 markiert. Fig. 3 zeigt ein Bei- spiel für so einen erweiterten Automaten.

Bei mehr als zwei möglichen Folgezuständen muss die Bitfolge länger werden. Zur Erzeugung von solchen eindeutigen Codes für die Zustandsübergänge eignet sich insbesondere das Codierungsverfahren von Huffman. Es erzeugt minimale, eindeutige Codes und kann auch die Wahrscheinlichkeiten der Zustandsübergänge berücksichtigen. Ist also bekannt, dass bestimmte Zustandsübergänge häufiger als andere gewählt werden, so lassen sich diese mit besonders kurzen Bitfolgen codieren. Dies wirkt sich positiv auf das Kompressionsergebnis aus.

Der erweiterte String-Automat verarbeitet den zu komprimierenden Eingabedatensatz:

Werden dabei Zustände mit mehr als einem möglichen Folgezustand durchlaufen, wird der lokal eindeutige Bezeichner des gewählten Zustandsübergangs im Ausgabedatensatz codiert. Werden bei Zustandsübergängen nicht-strukturierte Inhalte von der Eingabe gelesen, so werden diese ebenfalls im Ausgabedatensatz codiert.

Für den Beispieldatensatz

. Temperatur:i2i,Druck:PiS

würden die folgenden Aktionen ausgeführt werden:

Damit ergibt sich der Ausgabedatensatz wie in Fig. 4.

In diesem Datensatz, der lediglich 65 Bits lang ist, sind sämtliche Informationen codiert, die zur Rekonstruktion des Eingabedatensatzes mit Hilfe des String-Automaten notwendig sind. Die Länge des unkomprimierten Eingabedatensatzes in 7-Bit-ASCII- Codierung beträgt 24x7=168 [Bits].

Ausgangspunkt für den Dekompressionsprozess ist wiederum der zur Kompression verwendete erweiterte String- Automat. Dieser Automat wird abermals vom Start- zu einem Endzustand durchlaufen. Allerdings wird der Automatendurchlauf bei der Dekompression durch den Datensatz gesteuert, der Ergebnis des Kompressionsprozesses ist. Beim Durchlauf werden die Werte, mit denen die Zustandsübergänge beschriftet sind, in den Ausgabedatensatz geschrieben. Die Werte nicht strukturierter Inhalte werden dabei dekodiert und ebenfalls in den Ausgabedatensatz geschrieben.

Für das obige Beispiel ergibt sich:

Der Beispieldatensatz kann so exakt rekonstruiert werden.

Bei komplexeren String-Automaten, bei denen die Zustandsübergänge nicht nur durch den Eingabedatensatz gesteuert werden, sondern auch von anderen Parametern abhängen (beispielsweise vom obersten Wert im Speicher eines Kellerautomaten), kann es sinnvoll sein, die Erweiterung des String-Automaten nicht vorab, sondern im Rahmen des Kompressions- und Dekompressionsprozesses dynamisch durchzufuhren.

Beispiel: Der Zustand z4 in einem Kellerautomaten hat zehn mögliche Folgezustände. Bei einer der statischen Erweiterung des Automaten müssten diese zehn Zustände bei Anwendung eines Block-Codes mit flog₂10~| = 4 Bits codiert werden.

Bei der Verarbeitung eines Eingabedatensatzes X erreicht der Automat nun z4. Aufgrund des obersten Eintrags im Kellerspeicher sind jedoch nur zwei der zehn Zustandsübergänge möglich. In dieser Situation müssen auch nur diese zwei Zustände codiert werden, denn nur sie können bei der Verarbeitung der Eingabe ausgewählt werden; hierfür reicht ein Bit aus.

Da sich der Zustand des Kellerspeichers aber dynamisch mit der Verarbeitung des Eingabedatensatzes ändert, lässt sich eine solche optimierte Codierung nur dynamisch, d.h. während der Verarbeitung eines Eingabedatensatzes bestimmen. Dies fuhrt zu besseren Kompressionsergebnissen, hat jedoch auch den Nachteil, dass bei der Kompression und Dekompression zusätzliche Berechnungsschritte durchgeführt werden müssen. Somit ist die Verarbeitungsgeschwindigkeit etwas geringer.

Sowohl der Prozess der Kompression als auch der der Dekompression beruhen im We- sentlichen darauf, dass die Zustände eines String-Automaten durchlaufen werden. Diese sind besonders einfach aufgebaut und können effizient in Hard- oder Software implementiert werden.

Bei einem Endlichen Automaten wird nur ein RAM-Speicherbereich zum Halten des aktuellen Zustands (currentstate) benötigt. Die Zustandsübergänge (transitions) des Automaten können als Tabelle in einem ROM-Bereich abgelegt werden. Startzustand (start_state) und Endzustände (end_states) sind ebenfalls nicht variabel und können daher ebenfalls im ROM abgelegt werden.

Auch ein Kellerautomat ist nur wenig komplexer; dort muss lediglich ein zusätzlicher

RAM-Speicherbereich als Kellerspeicher (Stack) bereitgestellt werden.

Ein besonderer Vorteil solcher Automaten liegt somit in ihrer sehr einfachen Implemen- tierbarkeit. Die hnplementierung eines String-Automaten beschränkt sich im Wesentli- chen auf den Durchlauf einer While-Schleife, und der benötigte Speicherplatz ist sehr gering.

Auch im Chip-Design sind Automatenstrukturen gängige Baugruppen: Die in diesem Zusammenhang eingesetzten Automatenstrukturen werden häufig als Finite-State- Machines oder Moore- Automaten bezeichnet und entsprechen weitestgehend den oben vorgestellten Endlichen Automaten. Für die Implementierung eines Kellerautomaten in Hardware müsste die Automatenstruktur um einen Kellerspeicher (Stack) erweitert werden, der ebenfalls eine Standardbaugruppe ist.

Neben diesen Vorteilen bei der Implementierung bietet das Verfahren auch die Möglichkeit, die Vorgänge des Parsens und der Datenkompression bzw. -dekompression zu einem einzigen Verarbeitungsschritt zusammenzufassen:

Die Steuerung des Automatendurchlaufs kann direkt über eine Programmierschnittstelle (API) aus einer anderen Softwarekomponente erfolgen. Bei einer Hardwareimplementierung könnte der Automatendurchlauf über Steuerleitungen von anderen Bau- oder Funktionsgruppen aus gesteuert werden. Dies hat den Vorteil, dass im Speicher der da- tenkomprimierenden Einrichtung gar keine unkomprimierte Darstellung der zu komprimierenden Daten vorgehalten werden muss. Diese Darstellungsform ist unter Umständen sehr groß und verbraucht unnötig Speicherkapazität der datenkomprimierenden Einrichtung. Beispielsweise wäre es möglich, auf einer Maschine, die Messdatensätze erzeugt, gar nicht die unkomprimierte Repräsentation des Datensatzes mit Messwerte zu erzeugen. Beim Erfassen der Messwerte wird der. Durchlauf des String- Automaten direkt durch diesen technischen Prozess gesteuert. Das Kompressionsergebnis entspricht aber dem, als hätte eine nicht komprimierte Repräsentation des Datensatzes vorgelegen, so dass ein Empfänger des komprimierten Datensatzes die Messdaten ganz normal de- komprimieren und interpretieren oder weiterverarbeiten kann.

Das oben bezeichnete Verfahren erlaubt zudem, dass der String-Automaten während seines Ablaufs zusätzlich bereits die Steuerung externer Funktionsgruppen veranlasst. Beispielsweise wäre es möglich, dass im Rahmen der Dekompression gar nicht die un- komprimierte Repräsentation des Datensatzes wiederhergestellt werden soll. Möglichweise soll alternativ oder zusätzlich auch eine externe Funktions- oder Baugruppe (beispielsweise eine externe Softwarekomponente, Produktionsanlage oder Recheneinheit) in Abhängigkeit von den aus dem Datensatz gelesenen Werte gesteuert werden. Viele technische Vorgänge lassen sich nämlich direkt auf ein Automatenmodell abbilden, wie es die Erfindung vorschlägt.

Claims

Patentansprüche

1. Verfahren zur Kompression für einen rechnerarchitektur-unabhängigen Datentransfer und/oder zur Dekompression eines Datensatzes, der Strukturbezeichner und Variablenwerte enthält, wobei eine Bitfolge mit Steuersymbolen übertragen wird, gekenn- zeichnet durch die Verfahrensschritte :

Realisieren eines die Strukturierungsregeln des Datensatzes repräsentierenden String- Automaten in einer den Ursprungs-Datensatz komprimierenden Einrichtung,

- Eingeben des Datensatzes in den String- Automaten,

Erzeugen eines zweiten, kürzeren Datensatzes durch den String- Automaten, der die Variablenwerte des ersten Datensatzes und String-Automaten-spezifische Steuersymbole enthält, die einen Wechsel von einem Automatenzustand in einen Folge- zustand repräsentieren, und

Übermitteln des zweiten Datensatzes an einen die Steuerungssymbole interpretierenden gleichartigen String-Automaten, wobei eine Kopie des ursprünglichen Datensatzes mit gleicher Datenstruktur erzeugt wird.

2. Verfahren zur Dekompression eines Datensatzes, der Steuersymbole für String- Automaten und Variablenwerte enthält, gekennzeichnet durch Eingeben des Datensatzes in einen vorgegebenen, bekannten String-Automaten, der die Steuersymbole durch Strukturbezeichner ersetzt.

3. Verfahren nach Anspruch 1 oder 2, dadurch gekennzeichnet, dass die Variablenwerte von einem kodierenden oder interpretierenden String-Automaten wenigstens zum Teil geändert kodiert ausgegeben, oder erkannt und umgewandelt werden.

4. Verfahren nach einem der vorangehenden Ansprüche, dadurch gekennzeichnet, dass statt eines Steuersymbols, für den Fall, dass ein solches während eines genau einen möglichen Folgezustand besitzenden Automatenzustands in den zweiten Datensatz einzufügen wäre, kein Bit eingefügt wird.

5. Verfahren nach einem der vorangehenden Ansprüche, dadurch gekennzeichnet, dass der der Ablauf des String-Automaten von externen Funktions- oder Baugruppen gesteuert wird.

6. Verfahren nach einem der vorangehenden Ansprüche, dadurch gekennzeichnet, dass der String-Automaten während seines Ablaufs zusätzlich externer Funktions- oder Baugruppen steuert.

7. Verfahren nach einem der vorangehenden Ansprüche, dadurch gekennzeichnet, dass zusätzliche Codierungsregeln in den Zustandsübergängen des String-Automaten gespeichert sind.

8. Verfahren nach einem vorangehenden Ansprüche, dadurch gekennzeichnet, der oder die String-Automat(en) mit einem dynamischen Speicher erweitert sind.

9. Verfahren nach einem der vorangehenden Ansprüche, dadurch gekennzeichnet, dass Wahrscheinlichkeiten oder Häufigkeiten von Zustandsübergängen berücksichtigt werden, um besonders geeignete Bitrepräsentationen für die zugehörigen Steuersymbole zu finden.

10. Verfahren nach einem der vorangehenden Ansprüche, dadurch gekennzeichnet, dass Bitrepräsentationen zur Codierung von Zustandsübergängen unter Berücksichtigung von sich dynamisch ändernden Speicherinhalten berechnet werden.