WO2008040267A1

WO2008040267A1 - Verfahren und vorrichtung zur kompression und dekompression digitaler daten auf elektronischem wege unter verwendung einer kontextgrammatik

Info

Publication number: WO2008040267A1
Application number: PCT/DE2007/001311
Authority: WO
Inventors: Eric Hildebrandt; Martin Bokler
Original assignee: Deutsche Telekom Ag
Priority date: 2006-10-07
Filing date: 2007-07-24
Publication date: 2008-04-10
Also published as: DE102006047465A1; EP2076964A1; US20100312755A1

Abstract

Die Erfindung betrifft ein Verfahren zur Kompression und Dekompression digitaler Daten auf elektronischem Wege unter Verwendung einer Kontextgrammatik, gekennzeichnet durch die Schritte des: grammatikalischen Komprimierens erster digitaler Daten durch Suchen von mehrfach vorkommenden Sequenzen von nicht weiter zerlegbaren Terminal-Symbolen (V_T) in den zu komprimierenden ersten digitalen Daten; Ersetzens aufgefundener, mehrfach vorkommender Sequenzen nicht weiter zerlegbarer Terminal-Symbole (V_T) durch weiter zerlegbare Nichtterminal-Symbole (V_N); Speichems der zu diesen Nichtterminal-Symbolen (V_N) gehörenden digitalen Daten in einer zugehörigen Kontextgrammatik; und Durchführens einer Kontextkompression, mit welcher zweite digitale Daten unter Verwendung dieser Kontextgrammatik komprimiert werden, die aus den ersten digitalen Daten erzeugt wurde.

Description

B E S C H R E I B U N G

Verfahren und Vorrichtung zur Kompression und Dekompression digitaler Daten auf elektronischem Wege unter Verwendung einer

Kontextgrammatik

Die Erfindung betrifft ein Verfahren und eine Vorrichtung zur Kompression und Dekompression digitaler Daten auf elektronischem Wege unter

Verwendung einer Kontextgrammatik, und bezieht sich insbesondere auf ein Verfahren und ein System zur hoch effizienten und schnellen, verlustfreien Kompression von Daten für kurze, redundanzbehaftete Datensätze.

Die Kompression digitaler Daten auf elektronischem Wege, d.h. in einem elektronischen System zur Informationsverarbeitung oder Datenübertragung, wird vor allem zur Einsparung von Speicherplatz und Übertragungskapazität eingesetzt. Insbesondere wenn größere Mengen digitaler Daten über Datennetze übertragen werden, ist die Kompression nicht nur zur effizienten Nutzung vorhandener Übertragungskapazitäten, beispielsweise von verfügbarer Bandbreite, sondern auch zur Beschleunigung der Übertragung von Bedeutung. Aber auch bei der Speicherung großer Mengen digitaler Daten im Gigabyte- oder gar Terabyte-Bereich, wie beispielsweise in Datenbanken, ist eine effiziente Kompression häufig erforderlich, um den Speicherplatzbedarf, der für die unkomprimierten digitalen Daten erforderlich wäre, verringern und so technische Ressourcen einsparen zu können.

Zur verlustfreien Komprimierung von Daten (Datenkompression) werden häufig die Algorithmen von Huffmann und von Ziv und Lempel (LZ) eingesetzt. Weit verbreitet sind beispielsweise die nach ihrem Publikationsjahr bezeichneten Algorithmen LZ77 und LZ78, die in den Aufsätzen "A Universal Algorithm for Sequential Data Compression", J. Ziv, A. Lempel, IEEE Transactions on Information Theory 23 (1977), S. 337-343, und "Compression of Individual Sequences via Variable Length Coding", J. Ziv, A. Lempel, IEEE Transactions on Information Theory 24 (1978), S. 530-536, beschrieben sind. Der Huffmann-Algorithmus ist in dem Aufsatz „A Method for the Construction of Minimum Redundancy Codes", Huffmann, D. A., Proceedings of the Institute of Radio Engineers, Sept. 1952, Vol. 40, No. 9, S. 1098-1101 , beschrieben.

Beim LZ77-Algorithmus werden identische Symbolsequenzen in einer zu komprimierenden Symbolfolge nicht mehrfach gespeichert, sondern es wird ein Bezug zu einem ersten Auftreten einer Symbolsequenz hergestellt. Der Bezug gibt hierbei an, um wie viele Symbole in der Sequenz zurückgegangen werden muss und wie lang die zu wiederholende Sequenz ist. Der LZ78-Algorithmus legt eine Tabelle mit häufig vorkommenden Symbolsequenzen an. Taucht eine solche Symbolsequenz in einer zu komprimierenden Symbolfolge auf, muss nur der entsprechende Code aus der Tabelle eingefügt werden, der kürzer ist als die Symbolsequenz selbst.

Eine Weiterentwicklung des LZ78-Algorithmus ist der LZW-Algorithmus, der in dem Aufsatz „A Technique for High-Performance Data Compression", Welch, T. A., IEEE Computer, Vol. 17, No. 6 (1984), S. 8- 19, beschrieben ist. Der LZW-Algoritmus ist wie der LZ78-Algorithmus ein tabellenbasiertes Kompressionsverfahren. Die Basis wird durch eine vorgegebene Tabelle mit 256 Einträgen gebildet, die im Lauf des Kompressionsvorgangs nach den Erfordernissen der zu komprimierenden Symbolsequenz erweitert wird. Sobald eine in der Tabelle vorhandene Symbolsequenz in der zu komprimierenden Symbolsequenz auftaucht, kann an ihrer Stelle der Tabellenindex abgespeichert werden. Der LZW- Algorithmus wird z. B. bei der Datenkompression bei Modems und in Computersystemen bei der Speicherung von GIF- und TIFF-Dateien verwendet. Das US-Patent Nr. 4,558,302 beschreibt den LZW-Algorithmus im Detail.

Die vorgenannten Algorithmen sind sämtlich fensterbasierte

Kompressionsverfahren, bei denen aufgrund begrenzter Ressourcen wie etwa Speicherbeschränkungen ein so genanntes Fenster mit einer vorbestimmten Breite über den zu komprimierenden Daten verschoben wird und die innerhalb des Fensters liegenden Daten komprimiert werden. Hierbei können die bei den Algorithmen verwendeten Fenster initialisiert werden, so dass Sequenzen der zu komprimierenden Daten, die in dieser Initialisierung vorkommen, direkt beim ersten Auftreten zitiert werden können und somit eine Kompression erreicht wird.

Die fensterbasierten Verfahren sind dahingehend nachteilig, dass lediglich Textstellen miteinander verknüpfbar sind, deren Entfernung voneinander kleiner als die Fensterbreite ist.

Zur grammatikalischen Kompression von digitalen Daten sind ferner folgende Algorithmen berkannt:

Sequitur: beschrieben in „identifying hierarchical structure in sequences: A linear-time algorithm", C. Nevill-Mannig, I. Witten, Journal of Artificial

Intelligence Research, 7:67—82, 1997; und

Repair: Offline dictionary-based compression", N.J. Larsson, A.Moffat, Proceedings of the IEEE, vol. 88, no. 11 , S. 1722-1732

Der Erfindung liegt nun die Aufgabe zugrunde, ein verbessertes Verfahren und eine Vorrichtung zur Kompression und Dekompression digitaler Daten auf elektronischem Wege vorzuschlagen, mit welchen kurze, redundanzbehaftete Daten effizient und schnell komprimiert bzw. dekomprimiert werden können. Diese Aufgabe wird durch ein Verfahren zur Kompression und Dekompression digitaler Daten auf elektronischem Wege unter Verwendung einer Kontextgrammatik mit den Merkmalen des Patentanspruchs 1 , ein Computerprogramm mit den Merkmalen des Patentanspruchs 11 , ein Computerprogramm-Produkt mit den Merkmalen des Patentanspruchs 12, und eine Vorrichtung mit den Merkmalen des Patentanspruchs 13 gelöst. Die Erfindung betrifft ferner verschiedene Verwendungen des erfindungsgemäßen Verfahrens wie in den Patentansprüchen 14, 16 und 18 spezifiziert.

Bevorzugte Ausgestaltungen der Erfindung ergeben sich aus den abhängigen Ansprüchen.

Somit wird die Aufgabe erfindungsgemäß gelöst durch ein Verfahren zur Kompression und Dekompression digitaler Daten auf elektronischem

Wege unter Verwendung einer Kontextgrammatik, gekennzeichnet durch die Schritte des grammatikalischen Komprimierens erster digitaler Daten durch Suchen von mehrfach vorkommenden Sequenzen von nicht weiter zerlegbaren Terminal-Symbolen (V_T) in den zu komprimierenden ersten digitalen Daten, Ersetzens aufgefundener, mehrfach vorkommender

Sequenzen nicht weiter zerlegbarer Terminal-Symbole (V_T) durch weiter zerlegbare Nichtterminal-Symbole (V_N), Speichems der zu diesen Nichtterminal-Symbolen (V_N) gehörenden digitalen Daten in einer zugehörigen Kontextgrammatik; und Durchführens einer Kontextkompression, mit welcher zweite digitale Daten unter Verwendung dieser Kontextgrammatik komprimiert werden, die aus den ersten digitalen Daten erzeugt wurde.

Bevorzugt erfolgt hierbei der Schritt des Erzeugens einer Grammatik derart, dass als eine Ableitung eine Abbildung für jedes Symbol aus der Menge der Nichtterminal-Symbole (V_N) auf ein Symbol aus der Menge der Nichtterminal-Symbole (V_N) vereinigt mit der Menge der Terminal- Symbole (V_T) angegeben wird.

Weiter bevorzugt wird ein Schritt des Erzeugens eines Startsymbols (SO), dessen Ableitung einem zu komprimierenden Text entspricht, ausgeführt.

Vorteilhaft kann es hierbei sein, wenn die zweiten digitalen Daten ähnlich zu den ersten digitalen Daten sind.

Bevorzugt werden bei einem Einlesen der Regeln der erzeugten Grammatik Expansionen diese Regeln in einer Baumstruktur gespeichert, wobei die Baumstruktur mit neuen Regeln, die aus den zweiten digitalen Daten erhalten wurden, erweiterbar sein kann.

Zur Kontextkompression wird bevorzugt die Baumstruktur symbolweise aufsteigend durchlaufen und wird hierbei nach einer einem längsten Präfix entsprechenden Grammatikregel gesucht, für welche ein Baumpfad ausgehend von dessen Wurzel vorhanden ist.

Vorteilhaft kann es dann sein, wenn zur Kontextkompression nach den am häufigsten auftretenden Grammatikregeln oder den Grammatikregeln mit der längsten Ableitung gesucht wird.

Zur Erzeugung der Grammatik werden bevorzugt Algorithmen gemäß Sequitur, Sequential oder Repair verwendet.

Weiter vorteilhaft kann es sein, wenn die erzeugte Grammatik zusätzlich arithmetisch oder unter Verwendung eines Huffman-Codes codiert wird.

Ein Computerprogramm zur Kompression und Dekompression digitaler Daten auf elektronischem Wege unter Verwendung einer Kontextgrammatik mit der vorstehenden Ausgestaltung erzielt die aufgabengemäße Lösung, wenn es auf einem Datenverarbeitungssystem wie einem Computer ausgeführt wird.

Ein solches Computerprogramm ist bevorzugt als Computerprogramm- Produkt ausgebildet und umfasst einen maschinenlesbaren Datenträger, auf dem das Computerprogramm in Form von elektronisch oder optisch auslesbaren Steuersignalen für einen Computer gespeichert ist.

Eine Vorrichtung zur Kompression und Dekompression digitaler Daten auf elektronischem Wege unter Verwendung einer Kontextgrammatik, mit einer Eingabeeinrichtung, einer Verarbeitungseinrichtung, einer Speichereinrichtung und einer Ausgabeeinrichtung zur Durchführung des vorgenannten Verfahrens dient zur praktischen Durchführung des erfindungsgemäßen Verfahrens.

Das erfindungsgemäße Verfahren zur Kompression und Dekompression digitaler Daten auf elektronischem Wege unter Verwendung einer Kontextgrammatik ist besonders effizient bei der Komprimierung von Datensätzen von Datenbanken, insbesondere von relationalen, objektorientierten und XML-basierten Datenbanken. Beispielsweise kann zu einer Tabellenspalte eine Kontextgrammatik erstellt werden, und es können dann mit der Kontextgrammatik die Spalteneinträge komprimiert werden.

Weiterhin eignet sich das erfindungsgemäße Verfahren zur Kompression und Dekompression digitaler Daten auf elektronischem Wege unter Verwendung einer Kontextgrammatik zur Komprimierung einer Datenübertragung, insbesondere einer Punk-zu-Punkt-Verbindung. Dadurch kann die effektiv nutzbare Bandbreite einer Datenverbindung erhöht werden. Die relativ kurzen Datenpakete, wie sie gerade oft bei Datenübertragungen vorkommen, bieten sich für eine Kontextkompression an. Insbesondere können Paketstrukturen von zu übertragenden digitalen Daten vor der Datenübertragung unter Verwendung einer an beiden Übertragungspunkten vorhandenen Kontextgrammatik komprimiert werden.

Schließlich kann das erfindungsgemäße Verfahren zur Kompression und Dekompression digitaler Daten auf elektronischem Wege unter

Verwendung einer Kontextgrammatik auch vorteilhaft zur Komprimierung von einer Datei oder mehreren Dateien gleichen Typs, insbesondere von XML-Dateien, verwendet werden.

Ein Ausführungsformen der Erfindung zu Grunde liegender wesentlicher Gedanke besteht somit darin, dass bei einer Kompression von ersten Daten Informationen gewonnen werden, die genutzt werden können, um zu den ersten Daten ähnliche, zweite Daten effizient zu komprimieren. Mit anderen Worten können die aus den ersten Daten gewonnen Informationen effizient verwendet werden.

Genauer ausgedrückt wird bei der Kompression der ersten Daten eine Kontextgrammatik erzeugt, welche sodann zur Kompression der zweiten und auch weiterer Daten verwendbar ist. In anderen Worten werden bei der Kompression der ersten Daten Informationen gewonnen, welche sodann genutzt werden, um zweite Daten zu komprimieren.

Die bei der Kompression der zweiten Daten erzeugte Grammatik enthält insbesondere eine spezielle Regel, die im Folgenden auch kurz als Startregel bezeichnet wird und deren Expansion den zu komprimierenden Daten entspricht. Während diese Startregel im Allgemeinen charakteristisch für den jeweils zu komprimierenden Datensatz ist, sind weitere Regeln, welche der Kontextgrammatik folgend in die Startregel "eingesetzt" werden, eher allgemeiner Natur. Die aus ähnlichen Daten gewonnenen Informationen werden somit als Grundlage zur Erzeugung der Grammatik genutzt, welche zur Kompression gegenwärtig zu komprimierender, weiterer Daten angewandt wird. Zur nochmals weiteren, verbesserten Kompression können die Symbole der Grammatik sodann beispielsweise mittels Huffman-Codes oder arithmetisch codiert werden.

Die Erfindung zeichnet sich durch die folgenden Punkte aus:

1. Die Verwendung des grundsätzlich anders arbeitenden, auf einer Grammatik basierenden erfindungsgemäßen Kompressionsverfahrens weist den wesentlichen Vorteil auf, dass Regeln unabhängig von ihrer Position in der Grammatik und den

Daten verwendet werden können. Wie vorstehend erwähnt wurde, können bei den fensterbasierten Verfahren hingegen nur Textstellen miteinander verknüpft werden, deren Entfernung kleiner als die Fensterbreite ist. Dies ist insbesondere bei großen Mengen ähnlicher Datensätze, wie sie beispielsweise in Spalten von

Datenbanken auftreten, sehr ungünstig.

2. Erfindungsgemäß kann die Menge der Informationen, die für die Kontextgrammatik verwendet werden sollen, auf einfachste Weise, beispielsweise in Abhängigkeit von Anwendung, Datenart und

Datenmenge, flexibel gewählt werden.

3. Die Kontextinformationen können erfindungsgemäß direkt aus ähnlichen Daten extrahiert werden, indem zunächst diese Daten komprimiert werden und die während dessen für sie erstellte

Grammatik ohne Startregel als Kontextgrammatik für andere Daten verwendet wird. Dies erfolgt gleichzeitig und ohne zusätzlichen Aufwand und ist somit außerordentlich effizient.

4. Die Erfindung erlaubt flexiblere Möglichkeiten bei der Codierung, da der Code einer für andere Daten neu erstellten Grammatik unabhängig von dem Code der Kontextgrammatik für die zuvor komprimierten Daten erstellt und verwendet werden kann. Hieraus resultieren jeweils zusätzliche, vorteilhafte Möglichkeiten zur weiteren Optimierung.

Der größte Vorteil des Verfahrens und der Vorrichtung gemäß der Erfindung besteht somit insbesondere in einer effizienten Kompression von kleinen bzw. kurzen Datensätzen, die mit den bekannten Kompressionsverfahren nicht oder wesentlich weniger effizient komprimierbar sind. Hieraus resultieren für Anwendungen für solche Datensätze deutliche Vorteile bei der Speicherung, Übertragung und Verarbeitung von Daten.

Aus der folgenden Beschreibung von Ausführungsbeispielen ergeben sich weitere Vorteile und Anwendungsmöglichkeiten der vorliegenden Erfindung.

Zunächst wird die Kompression von Daten durch Erzeugung einer kontextfreien Grammatik gemäß der Erfindung beschrieben.

Zunächst sei V_τ das in zu komprimierenden Daten verwendete Alphabet, beispielsweise die Menge der 256 möglichen Zeichenwerte bzw. Symbole, etwa diejenigen des erweiterten ASCII-Codes, die mit einem Byte codierbar sind. Die Elemente von V_τ werden als Terminale bezeichnet und geben diejenigen Symbole an, die nicht weiter zerlegt werden können.

Die zur Kompression zu erzeugende Grammatik wird sodann durch eine Menge VN von Nichtterminalsymbolen, d. h. Variablen, eine besondere Startregel So und Ableitungsregeln Si bis S_n beschrieben. Die Ableitungsregeln Si bis S_n enthalten auf der linken Seite jeweils ein Nichtterminalsymbol und auf der rechten Seite mindestens 2 Symbole aus V_τ vereinigt VN. Ein kurzes Beispiel soll dies verdeutlichen. Es soll etwa der Text ABAB komprimiert werden, wobei A und B Elemente von V₁-, also nicht weiter zerlegbare Terminale, sind. Wird nun eine Regel Si mit der Vorschrift bzw. Grammatik S₁ -^ AB

erzeugt, resultieren für den komprimierten Text die Startregel

So""^S-|Si

und die Grammatik Si -> AB, die in diesem Beispiel lediglich die Abbildungsvorschrift für S₁ auf AB enthält.

Die für zu komprimierende Daten zu erzeugende kontextfreie Grammatik kann zudem mittels einer so genannten Kontextkompression erhalten werden. Bei der Kontextkompression werden eine Vielzahl von (Basis-) Regeln K₁ bis K_n entweder vorgegeben oder aus einer vorher erstellten Grammatik verwendet, die sodann zur Erzeugung einer neuen, kontextfreien Grammatik aus den aktuell zu komprimierenden Daten referenziert werden können. Die Regeln der Kontextgrammatik K₁ bis K_n können somit sowohl für zur Erstellung neuer Regeln als auch in der Startregel S₀ verwendet werden.

Nach erfolgter Kompression mittels der kontextfreien Grammatik wird zur weiteren Verbesserung dieser ersten Kompression sodann zur

Speicherung der Grammatik ein Code verwendet, bei dem häufigen Symbolen kürzere Codewörter zugeordnet sind als seltenen Symbolen. Beispielsweise kann hierfür ein Huffman-Code verwendet werden.

Bei der Kontextkompression bestehen ferner verschiedene Möglichkeiten zur Codierung insbesondere der Regeln der Kontextgrammatik. 1. Eine erste Möglichkeit besteht zunächst darin, dass die Codewörter der Kontextgrammatik weiter verwendet werden. In diesem Fall wird die gesamte Kontextgrammatik codiert so gespeichert, dass die verwendeten Codewortlängen die Frequenzen bzw. die Häufigkeit des Auftretens der entsprechenden expandierten Regeln widerspiegeln. Unter der Annahme, dass die zu komprimierenden Daten vom gleichen Typ wie die, d.h. ähnlich zu den Daten zur Erzeugung der Kontextgrammatik sind, verhalten sich die Häufigkeiten in den zu komprimierenden Daten ähnlich den Häufigkeiten bei der Erzeugung der Kontextgrammatik. Es ist daher vorteilhaft, zur Codierung der Kontextregeln die Codewörter aus der Kontextgrammatik weiter zu verwenden.

Werden zusätzlich neue Regeln erzeugt, so muss es für diese Regeln Codewörter geben, die bei der Kodierung der

Kontextgrammatik noch nicht verwendet wurden.. Hierfür stehen wiederum verschiedene Möglichkeiten zur Verfügung:

a) Gemäß einer Möglichkeit werden in Verbindung mit der vorgenannten ersten Möglichkeit zwei Codes parallel verwendet, d. h., es wird neben den weiter verwendeten Codewörtern auch für die neu erzeugten, datensatzspezifischen Regeln ein eigener Code erzeugt. Zur Speicherung der komprimierten Daten werden sodann weiter verwendete Codewörter aus der Kontextgrammatik und Codewörter aus diesem neu erzeugten Code benutzt.

Hierbei kann auf verschiedene Arten festgelegt werden, zu welchem Code das nächste Codewort gehört: i) Beispielsweise gibt es in einem der beiden Codes sonst unbenutzte Codesymbole, die zur Kennzeichnung von einem oder mehreren Codewörtern des anderen Codes verwendet werden, oder ii) es gibt in beiden Codes jeweils ein sonst unbenutztes

Codewort, das zum Umschalten auf den anderen Code verwendet wird.

b) Gemäß einer weiteren Möglichkeit in Verbindung mit der vorstehenden ersten Möglichkeit sind in dem Code für die

Kontextgrammatik unbenutzte, als Platzhalter dienende Codewörter vorhanden, welche für neu erzeugte Regeln verwendet werden können.

2. Gemäß einer zweiten Möglichkeit wird ein gemeinsamer Code sowohl für die weiter verwendeten Regeln der Kontextgrammatik als auch für die neu erzeugten Regeln erzeugt. Dazu muss für eine verwendete Kontextregel die Zuordnung zu einem neuen Codewort möglich sein. Dies kann zum Beispiel dadurch erfolgen, dass zur Definition des entsprechenden neuen

Codeworts das zu der Kontextgrammatik-Regel gehörende Codewort angegeben wird.

Die Herstellung der Zuordnung zu dem neuen Codewort ist nicht auf die vorstehenden Arten beschränkt, sondern kann auf zweckmäßig andere Weise entsprechend den Eigenschaften der zu komprimierenden Daten ausgewählt werden, um eine möglichst gute Kompression zu erreichen.

Das erfindungsgemäße Verfahren wird nachstehend in weiteren Einzelheiten beschrieben. Ausgehend von dem der Erfindung zugrunde liegenden Gedanken, dass bei der Kompression von ersten digitalen Daten gewonnene Informationen zur Komprimierung zweiter, ähnlicher digitaler Daten genutzt werden, werden zunächst die ersten digitalen Daten grammatikalisch komprimiert.

Hierbei sei V_T die Menge der in den ersten digitalen Daten verwendeten Symbole. Während der Kompression werden in diesen Daten, beispielsweise einem Text, mehrfach auftretende Sequenzen von Terminal-Symbolen V_T, d.h. nicht weiter zerlegbaren Symbolen bzw. Zeichen, gesucht. Aufgefundene Symbole V_T werden sodann durch ein Nichtterminal-Symbol, d.h. ein gemäß Regeln weiter zerlegbares Symbol, ersetzt, und eine zu diesem Symbol gehörende Teildatenfolge, beispielsweise ein Teiltext, wird in einer Regeln enthaltenden Grammatik gespeichert. Hieraus ergibt sich eine Menge von Nichtterminal-Symbolen V_N.

In anderen Worten gibt die resultierende Grammatik für jedes Symbol A aus der Menge V_N an, auf weiche Symbole aus V_N vereinigt V_T es abgebildet wird. Dies wird auch als Ableitung von (Symbol) A bezeichnet.

Insbesondere gibt es gemäß diesem Verfahren ein spezielles Symbol SO (Startregel), dessen Ableitung der zu komprimierenden Datenfolge entspricht. Ist zum Beispiel ein Text "a rose is a rose is a rose" zu komprimieren, kann dies durch die folgende Grammatik komprimiert dargestellt werden:

A -> a rose

B -> is A

SO -» ABB

Sodann wird eine Kontextkompression durchgeführt. Bei der Kontextkompression werden ähnliche, zweite digitale Daten mit der vorgegebenen, aus den ersten digitalen Daten erzeugten Grammatik komprimiert. Wurde die aus den ersten digitalen Daten erzeugte Grammatik auf einem anderen Weg gespeichert, reduziert sich vorteilhaft die Datenmenge, die für die komprimierten zweiten digitalen Daten zu speichern ist.

Wurden beispielsweise die ersten digitalen Daten komprimiert und gespeichert, und sollen zu diesen ersten digitalen Daten ähnliche zweite digitale Daten komprimiert und gespeichert werden, enthält bei Verwendung der für die ersten digitalen Daten erzeugten Grammatik diese bereits eine Vielzahl von Regeln, die auf die zweiten digitalen Daten angewandt werden können. Auf diese Art und Weise können die zweiten digitalen Daten sofort komprimiert werden.

Die Erzeugung der Grammatik kann auf verschiedene Arten erfolgen, beispielsweise gemäß den Verfahren Sequential, Sequitur, oder Repair. Anhand des Beispiels Sequential wird nachstehend beschrieben, wie eine Grammatik effizient als Kontextgrammatik verwendet und so eingelesen werden kann, dass sie mit geringem Rechenaufwand anwendbar ist.

Bevorzugt werden bei dem Einlesen der Grammatikregeln Expansionen dieser Regeln in einem Baum gespeichert. Ein Knoten eines solchen Baumes entspricht hierbei einer Datenzeichenkette bzw. einem String, und von einem solchen Knoten abzweigende Äste entsprechen den gemäß den Grammatikregeln möglichen Fortsetzungen einer

Datenzeichenkette, wobei sich im Fall von beispielsweise Textzeichen jeweils zwei Äste in ihrem ersten Buchstaben unterscheiden.

Ein solcher Baum kann durch Einfügen neuer Grammatikregeln erweitert werden, indem von der Wurzel des Baums ausgehend eine einer expandierten Grammatikregel entsprechende Datenzeichenkette in den Baum eingefügt wird. Sind nun alle Regeln der Grammatik in den Baum eingefügt, kann dieser Baum zur Kontextkompression verwendet werden.

In einem Beispiel wird zugrunde liegender Text von vorne nach hinten durchlaufen, mit dem Ziel, diejenige Grammatikregel aufzufinden, welche dem längstmöglichen Präfix des Textes entspricht. In anderen Worten wird hierzu das längste Präfix des Textes gesucht, für das es einen Pfad innerhalb des Baums ausgehend von dessen Wurzel gibt. Dies ist effizient möglich, da an jedem Knoten zu jedem Buchstaben höchstens ein entsprechender Ast vorhanden ist.

Die Knoten eines solchen Pfades können Grammatikregeln vollständig entsprechen, oder nur einem Teil einer Regel entsprechen. In diesem Zusammenhang entspricht das längste Präfix dem letzten Knoten eines Pfades, der einer Regel entspricht. Somit kann diese Regel angewandt werden, und der zugrunde liegende Algorithmus wird hinter der der Regel entsprechenden Datenzeichenkette fortgesetzt. Wird keine Regel aufgefunden, wird das erste Terminal-Symbol des zu komprimierenden Textes verwendet und der Algorithmus auf den darauf folgenden Text angewandt.

Eine dem Vorstehenden gegenüber andere Möglichkeit der Kontextkompression besteht in einer Vorgehensweise dahin gehend, dass die häufigsten Regeln gesucht werden, wodurch in gewissen Fällen der Speicherplatzbedarf für die resultierende, komprimierte Datei nochmals weiter verringert werden kann.

Nachstehend werden aus dem vorstehend Beschriebenen für Anwendungen resultierende Wirkungen und Vorteile beispielhaft beschrieben. In Datenbanken etwa sind Einträge vorwiegend relativ kurz und über eine gesamte Spalte einer Datenbanktabelle stark redundant. In diesem Fall kann durch die Erstellung einer Kontextgrammatik für eine solche Spalte und eine Komprimierung der Spalte mit dieser Kontextgrammatik eine signifikant gute Kompression erzielt werden.

Im Gegensatz zu bekannten Datenbank-Kompressionsverfahren kann hierbei global auf der Spalte komprimiert werden. Darüber hinaus vorteilhaft werden gegenüber bekannten, jeweils nur ganze Einträge komprimierenden Tabellenkompressionsverfahren auch Teile von Spalteneinträgen komprimiert. Durch eine entsprechende rekursive Grammatik, in welcher Symbole auf weitere Symbole verweisen, bis schließlich die Terminale erreicht sind, kann hierdurch eine herausragende Kompression erzielt werden.

Eine andere Klasse von Kompressionsverfahren komprimiert die Spalteneinträge einzeln. Diese führen aber in dem hierin betrachteten Fall kurzer Datenbankeinträge maximal zu einer geringen Kompression.

Die bei bekannten Datenbanken wie Oracle oder IBM DB2 verwendeten Kompressionsverfahren unterscheiden sich davon grundlegend: Das in Oracle verwendete Kompressionsverfahren arbeitet lokal auf Speicherseiten. Es werden also immer einige Zeilen der Tabelle auf einmal komprimiert. Mit dem erfindungsgemäßen Verfahren werden dagegen die Einträge einer ganzen Spalte komprimiert. Bei der in IBM DB2 eingesetzten Kompression wird ein globales Wörterbuch verwendet, wobei die Codewortlänge mit 12 Bit fest ist. Vorteile der Kontextkompression gemäß dem erfindungsgemäßen Verfahren sind dagegen die variable Codewortlänge und die Möglichkeit, dass auch Teilstrings komprimiert werden können. Zwasr können bei Oracle und anderen Datenbanken auch einzelne Datenbankeinträge zum Beispiel mit LZ77 komprimiert werden. Das lohnt sich aber nur für längere Einträge, die redundant sind. Bei dem Anwendungsbereich der Kontextkompression (Spalten mit kurzen Einträgen, wobei die Einträge einer Spalte redundante Teile enthalten) kann diese Art der Kompression nicht gewinnbringend eingesetzt werden.

Ein weiteres Anwendungsgebiet der vorstehend beschriebenen Kontextkompression ist die Kompression von Punkt-zu-Punkt- Verbindungen bei Datenübertragungen, um die effektiv nutzbare Bandbreite solcher Verbindungen zu erhöhen. Relativ kurze Datenpakete, wie sie gerade bei Datenübertragungen häufig auftreten, sind zur Kontextkompression besonders geeignet. Im Gegensatz zu den bekannten Standardverfahren, welche nur die relativ geringe Redundanz in einem Paket nutzen können, erlaubt es die Kontextkompression, typische Paketstrukturen hoch effizient zu komprimieren.

Darüber hinaus wird durch Bezugnahme auf beispielsweise eine oder - für jeweils eine Hin- und Rückübertragungsrichtung - zwei unterschiedliche, bereits an den beiden Endpunkten einer Punkt-zu-Punkt-Verbindung vorhandene Kontextgrammatik(en) in den Paketen häufig nur auf die in den Kontextgrammatiken enthaltenen Regeln referenziert. Dies unterscheidet sich drastisch von den herkömmlichen Verfahren, bei welchen alle notwendigen Informationen im jeweiligen Paket enthalten sein müssen, wodurch die Kompression weiter verschlechtert wird.

Die vorgeschlagene Kontextkompression kann ferner derart adaptiv gestaltet sein, dass Regeln innerhalb von Kontextgrammatiken synchron bei Sender und Empfänger veränderbar bzw. erneuerbar sind.

Auch auf dem Gebiet der Datenspeicherung ist die Kontextkompression bei der Kompression kleiner Dateien, die sich einzeln nur geringfügig komprimieren lassen, zum Beispiel bei der Speicherung vieler kleiner Dateien gleichen Typs, unter Verwendung einer Kontextgrammatik vorteilhaft anwendbar. Ein Beispiel hierfür sind etwa XML-formatierte Bestellformulare und andere Datensätze ähnlicher Struktur und ähnlichen Aufbaus.

Claims

P A T E N T A N S P R Ü C H E

1. Verfahren zur Kompression und Dekompression digitaler Daten auf elektronischem Wege unter Verwendung einer Kontextgrammatik, gekennzeichnet durch die Schritte des:

- grammatikalischen Komprimierens erster digitaler Daten durch Suchen von mehrfach vorkommenden Sequenzen von nicht weiter zerlegbaren Terminal-Symbolen (V_T) in den zu komprimierenden ersten digitalen Daten;

- Ersetzens aufgefundener, mehrfach vorkommender Sequenzen nicht weiter zerlegbarer Terminal-Symbole (V_T) durch weiter zerlegbare Nichtterminal-Symbole (V_N);

- Speicherns der zu diesen Nichtterminal-Symbolen (V_N) gehörenden digitalen Daten in einer zugehörigen Kontextgrammatik; und

Durchführens einer Kontextkompression, mit welcher zweite digitale Daten unter Verwendung dieser Kontextgrammatik komprimiert werden, die aus den ersten digitalen Daten erzeugt wurde.

2. Verfahren nach Anspruch 1 , gekennzeichnet durch den Schritt des Erzeugens einer Grammatik derart, dass als eine Ableitung eine Abbildung für jedes Symbol aus der Menge der Nichtterminal-Symbole (V_N) auf ein Symbol aus der Menge der Nichtterminal-Symbole (V_N) vereinigt mit der Menge der Terminal-Symbole (V_T) angegeben wird.

3. Verfahren nach Anspruch 2, gekennzeichnet durch den Schritt des Erzeugens eines Startsymbols (SO), dessen Ableitung einem zu komprimierenden Text entspricht.

4. Verfahren nach einem der vorangehenden Ansprüche, dadurch gekennzeichnet, dass bei einem Einlesen der Regeln der erzeugten Grammatik Expansionen dieser Regeln in einer Baumstruktur gespeichert werden.

5. Verfahren nach Anspruch 4, dadurch gekennzeichnet, dass die Baumstruktur mit neuen Regeln, die aus den zweiten digitalen Daten erhalten wurden, erweiterbar ist.

6. Verfahren nach Anspruch 5, dadurch gekennzeichnet, dass zur Kontextkompression die Baumstruktur symbolweise aufsteigend durchlaufen und nach einer einem längsten Präfix entsprechenden Grammatikregel gesucht wird, für welche ein Baumpfad ausgehend von dessen Wurzel vorhanden ist.

7. Verfahren nach Anspruch 5, dadurch gekennzeichnet, dass zur Kontextkompression nach den am häufigsten auftretenden Grammatikregeln oder den Grammatikregeln mit der längsten Ableitung gesucht wird.

8. Verfahren nach einem der vorangehenden Ansprüche, dadurch gekennzeichnet, dass zur Erzeugung der Grammatik Algorithmen gemäß Sequential, Sequitur oder Repair verwendet werden.

9. Verfahren nach einem der vorangehenden Ansprüche, dadurch gekennzeichnet, dass die erzeugte Grammatik zusätzlich arithmetisch codiert wird.

10. Verfahren nach einem der Ansprüche 1 bis 8, dadurch gekennzeichnet, dass die Codierung unter Verwendung eines Huffman- Codes erfolgt.

11. Computerprogramm zur Kompression und Dekompression digitaler Daten auf elektronischem Wege unter Verwendung einer

Kontextgrammatik nach einem Verfahren der Ansprüche 1 bis 10, wenn es auf einem Datenverarbeitungssystem wie einem Computer ausgeführt wird.

12. Computerprogramm-Produkt, umfassend einen maschinenlesbaren Datenträger, auf dem ein Computerprogramm nach Anspruch 11 in Form von elektronisch oder optisch auslesbaren Steuersignalen für einen Computer gespeichert ist.

13. Vorrichtung zur Kompression und Dekompression digitaler Daten auf elektronischem Wege unter Verwendung einer Kontextgrammatik, mit einer Eingabeeinrichtung, einer Verarbeitungseinrichtung, einer Speichereinrichtung und einer Ausgabeeinrichtung zur Durchführung des Verfahrens nach einem der Ansprüche 1 bis 10.

14. Verwendung des Verfahrens zur Kompression und Dekompression digitaler Daten auf elektronischem Wege unter Verwendung einer Kontextgrammatik nach einem der Ansprüche 1 bis 10 zur Komprimierung von Datensätzen von Datenbanken, insbesondere von relationalen, objektorientierten und XML-basierten Datenbanken.

15. Verwendung nach Anspruch 14, dadurch gekennzeichnet, dass zu einer Tabellenspalte eine Kontextgrammatik erstellt wird und mit der Kontextgrammatik die Spalteneinträge komprimiert werden.

16. Verwendung des Verfahrens zur Kompression und Dekompression digitaler Daten auf elektronischem Wege unter Verwendung einer Kontextgrammatik nach einem der Ansprüche 1 bis 10 zur Komprimierung einer Datenübertragung, insbesondere einer Punk-zu-Punkt-Verbindung.

17. Verwendung nach Anspruch 16, dadurch gekennzeichnet, dass Paketstrukturen von zu übertragenden digitalen Daten vor der Datenübertragung unter Verwendung einer an beiden Übertragungspunkten vorhandenen Kontextgrammatik komprimiert werden.

18. Verwendung des Verfahrens zur Kompression und Dekompression digitaler Daten auf elektronischem Wege unter Verwendung einer Kontextgrammatik nach einem der Ansprüche 1 bis 10 zur Komprimierung von einer Datei oder mehreren Dateien gleichen Typs, insbesondere von XML-Dateien.