WO2014114506A1

WO2014114506A1 - Verfahren zur kompression von quelldaten unter nutzung von symmetrien und einrichtung zur durchführung des verfahrens

Info

Publication number: WO2014114506A1
Application number: PCT/EP2014/050381
Authority: WO
Inventors: Werner Henkel; Attiya MAHMOOD; Nazia ISLAM
Original assignee: Jacobs University Bremen Ggmbh
Priority date: 2013-01-22
Filing date: 2014-01-10
Publication date: 2014-07-31
Also published as: DE112014000245A5

Abstract

Die Erfindung betrifft ein Verfahren zur Kompression von Quelldaten zu einem Datenkomprimat unter Nutzung von Symmetrien in den Quelldaten. Aus den Quelldaten wird ein Lexikon erzeugt. Die Kompression erfolgt durch Ersetzen von Datensequenzen der Quelldaten durch Datenverweise in das Lexikon, wobei die Datenverweise Indikatoren aufweisen, die eine Abgleichsanweisung für Elemente des Lexikons spezifizieren. Die Erfindung betrifft ebenfalls ein Verfahren zur Dekompression des so erzeugten Datenkomprimats und Einrichtungen zur Durchführung der Verfahren. Bekannte Verfahren wie LZ77, 78, LZW84 können dadurch um einen Rückwärtssuche erweitert werden, die eine höhere Datenkompression zulassen oder die Größe des Lexikons reduzieren.

Description

Verfahren zur Kompression von Quelldaten unter Nutzung von Symmetrien und Einrichtung zur Durchführung des Verfahrens

[Ol] Die Erfindung betrifft ein Verfahren zur Kompression von Quelldaten zu einem Datenkomprimat unter Nutzung von Symmetrien und eine Einrichtung, die ein derartiges Verfahren durchführt.

[02] Durch Kompressionsverfahren können Quelldaten verlustlos komprimiert werden („lostless compression") , so dass diese aus dem Datenkomprimat vollständig wiederhergestellt werden können. Die Quelldaten können auch verlustbehaftet komprimiert werden („lossy compression"), was wesentlich höhrere Kompressionsraten erlaubt.

[03] Bei der verlustlosen Kompression werden redundante Zeichenfolgen in den Quelldaten durch kürzere Zeichenfolgen ersetzt. Einige Verfahren, die Quelldaten unterschiedlicher Struktur gut komprimieren können, betrachten die Quelldaten als Datenstrom, von dem immer nur ein Teil in einem gleitenden Fenster beliebiger, aber konstanter Größe als (Datenfenster) betrachtet wird. Die Kompression erfolgt durch einen Abgleich der zu komprimierenden Daten in dem Datenfenster mit bereits bekannten Daten, wobei anstelle der zu komprimierenden Quelldaten ein weniger Speicherplatz einnehmender Datenverweis abgelegt wird. Der Datenverweis beschreibt, an welcher Position und welcher Länge im bereits gespeicherten Bereich Übereinstimmungen mit den zu komprimierenden Quelldaten bestehen und in welcher Ausprägung Symmetrien vorhanden sind. Er enthält ggf. auch das nächste unbekannte Zeichen und kann damit als Tripel von Position, Länge und nächstes Zeichen gespeichert werden .

[04] Der Abgleich der zu komprimierenden Daten erfolgt gegen bereits bekannte Zeichen, die in einem Lexikon abgelegt sind. Das Lexikon kann als „search buffer" den einen Teil des Datenfensters bilden, wobei der „look ahead buffer" als Vorausschau-Puffer den zweiten Teil bildet. Das Lexikon kann aus lediglich einer Zeichenfolge bestehen oder mehrere Einträge als Tabelle oder Array aufweisen. Es ist häufig nicht statisch vorgegeben, sondern wird aus den Quelldaten selbst generiert. Die Lexika enthalten damit ein oder mehrere Einträge, gegen die ein Abgleich auf Übereinstimmungen in dem aktuell betrachteten Datenfenster erfolgt .

[05] Beispiele für Verfahren dieser Art sind Lempel-Ziv- artige Verfahren wie LZ77, LZ78 oder LZW84. Da das zur Dekompression des Datenkomprimats erforderliche Lexikon aus dem Datenkomprimat selbst gewonnen werden kann, ist keine gesonderte Übertragung des Lexikons oder eine anfängliche Hinterlegung einer Decodiertabelle erforderlich, bestenfalls muss wie im Falle des LZW84 der Zeichenvorrat selbst initialisiert werden.

[06] Nachteilig an den bekannten Verfahren und Einrichtungen ist, dass die Kompressionsrate für eine gegebene Lexikongröße nicht optimal ist. Ein Datenkomprimat mit höherer Kompressionsrate zu generieren ist vorteilhaft, da es weniger Speicherplatz erfordert und damit Kosten reduz iert .

Aufgabe der Erfindung

[07] Aufgabe der Erfindung ist es daher, ein Verfahren zu schaffen, das eine bessere Quelldatenkompression ermöglicht. Aufgabe der Erfindung ist es ferner, eine Einrichtung bereitzustellen, die ein derartiges Verfahren ausführen kann.

[08] Die Aufgabe wird gelöst durch ein Verfahren zur Kompression von Quelldaten zu einem Datenkomprimat unter Nutzung von Symmetrien in den Quelldaten, wobei aus den Quelldaten oder Datensequenzen der Quelldaten ein Lexikon erzeugt wird, eine Kompression durch Ersetzen der Quelldaten oder der Datensequenzen durch Datenverweise in das Lexikon erfolgt, wobei die Datenverweise Indikatoren aufweisen, die eine Abgleichsanweisung für Elemente des Lexikons spezifizieren. Die die Quelldaten oder Datensequenzen ersetzenden Datenverweise werden im Vergleich zu bekannten Verfahren, die ein n-Tupel ablegen, als (n+l)-Tupel abgelegt.

[09] Die Aufgabe wird ferner gelöst durch eine Einrichtung, die ein derartiges Verfahren ausführt. Bei der Einrichtung kann es sich beispielsweise um eine das Verfahren als eine Software ausführende Recheneinheit wie einen Computer oder um eine Einrichtung handeln, die das Verfahren hardwarecodiert ausführt.

[10] Das erfindungsgemäße Verfahren ermöglicht eine höhere Kompressionsrate dadurch, dass auf die Elemente des Lexikons auf unterschiedliche Weisen referenziert werden kann. Die Art der Referenzierung wird durch den Wert eines Indikators angegeben, der festlegt, wie die Daten des Lexikons abgeglichen werden sollen.

[11] In einer ersten Ausgestaltung kann der Indikator genau zwei Zustände annehmen. Als Binärzahl nimmt er wenig zusätzlichen Speicherplatz in Anspruch und verdoppelt die Anzahl der Referenzierungsmöglichkeiten . So kann beispielsweise bei Lexika mit einer oder mehreren Zeichenketten vorgesehen sein, diese vorwärts oder rückwärts gesehen auf Übereinstimmungen zu prüfen.

[12] Der Indikator kann eine Richtung vorgeben, in der ein Abgleich eines Quelldatenteils mit einem Lexikoneintrag erfolgt. Er entspricht damit einer Leserichtung (vorwärts oder rückwärts) . Es kann aber auch vorteilhaft sein, je nach Symmetrie in den Daten, dass der Indikator lediglich festlegt, dass der Abgleich nach einem vorbestimmten Schema erfolgt oder eine Leserichtung aus der Mitte des Lexikoneintrags beginnend vorgibt.

[13] In einer anderen Ausgestaltung kann der Indikator mehr als zwei verschiedene Werte annehmen. Insbesondere in höherdimensionalen Lexika können dadurch Leserichtungen in verschiedenen Dimensionen spezifiziert werden. [14] Quelldaten mit Richtungssymmetrien, die bei vielen Signalen, Toninformationen und Bildern vorhanden sind, eignen sich gut zur Kompression mit dem erfindungsgemäßen Verfahren. Das Verfahren ist auch auf die Codierung von DNA-Sequenzen anwendbar, die häufig palindromische Sequenzen als Doppelstränge aufweisen. Deren innere Symmetrie ist durch Einzelstränge gebildet, die eine jeweils horizonal spiegelverkehrte Basenabfolge bilden.

[15] Je nach Rechenleistung und Speicherplatz der verwendeten Einrichtung und nach der Größe der Quelldaten lassen sich diese nicht vollständig gleichzeitig einlesen oder verarbeiten. Es ist daher vorgesehen, dass die Quelldaten als Datenstrom sequentiell bearbeitet werden. Jeweils ein Teil in Form eines Datenfensters steht dann zur Kompression durch das Verfahren zur Verfügung.

[16] Die Erfindung betrifft auch ein Verfahren zum Dekromprimieren der mit dem erfindungsgemäßen Verfahren erzeugten Datenkomprimate sowie Einrichtungen, die ein derartiges Verfahren ausführen. Das Dekompressionsverfahren kann aus den übermittelten Daten das Lexikon rekontruieren und eine Rücksubstitution der Datenverweise durch die Lexikoneinträge vornehmen, so dass die ursprünglichen Quelldaten verlustfrei zurückgewonnen werden können.

Beschreibung der Figuren

[17] Die Erfindung wird nachfolgend anhand von drei Ausführungsbeispielen näher beschrieben. Es beziehen sich:

Figuren 1-3 auf ein erstes erfindungsgemäßes Verfahren, das ein Datenkomprimat nach einem modizierten LZ 77-Verfahren erzeugt,

Figuren 4-5 auf ein zweites erfindungsgemäßes Verfahren, das ein Datenkomprimat nach einem modizierten LZ78-Verfahren erzeugt,

Figur 6 auf ein drittes erfindungsgemäßes Verfahren, das ein Datenkomprimat nach einem modizierten LZW84-Verfahren erzeugt.

[18] Die erste Ausprägung des durch eine erste Einrichtung realisierten Verfahrens erweitert den

Kompressionsalgorithmus von J. Ziv and A. Lempel, "A universal algorithm for sequential data compression, " IEEE Transactions on Information Theory, vol. 23, no . 3, S. 337- 343, 1977, (LZ77). In einer Realisierung des Algorithmus' durchlaufen die Quelldaten ein Datenfenster, das gemäß Figur 1 aus search- und look-ahead-buffern besteht. Der search buffer als Suchpuffer entspricht dem Lexikon, das somit aus genau einem Wort besteht. Der look-ahead buffer als Vorausschaupuffer bildet die nach der aktuellen Codierungsposition zu komprimierenden Quelldaten ab. Die Kompression wird ermöglicht, indem man die Position und Länge innerhalb des search buffers ausgibt oder speichert, wo die Zeichen-Teilsequenz exakt mit der aktuell bearbeiteten Zeichenkette im look-ahead buffer übereinstimmt .

[19] Das erste Verfahren stellt eine bidirektionale Ausprägung des LZ 77-Verfahrens dar. Es modifiziert das für die Kompression entscheidende Übereinstimmungskritierium dahingehend, dass in einem gegebenen Datenfenster die längste Übereinstimmung von Teilsequenzen in Vorwärts- oder Rückwärtsrichtung gesucht wird und entsprechend ein Richtungsindikator im komprimierten Datenstrom für jede komprimierte Teilsequenz mit abgelegt oder übertragen wird. Die Suche im search buffer erfolgt damit bidirektional. Wie im ursprünglichen Verfahren nach Lempel/Ziv wird das erste nicht-übereinstimmende Zeichen (F_s) ebenfalls in die komprimierte Sequenz eingebracht. Es werden insgesamt die Position (P) , die Länge der maximalen Übereinstimmung (L) in der einen oder anderen Richtung, das Indikatorbit (F) für die Richtung und das erst nicht-übereinstimmende Zeichen (F_s) als komprimierte Sequenz abgelegt oder übertragen. Anstatt eines Tripels wird damit ein Quadrupel als Datenverweis abgelegt.

[20] Die Anzahl von benötigten Bits (L_c) in Abhängigkeit der Parameter ist dann gegeben durch

L_c = log₂(n-L_A) + log₂ (L_A) +1+N_S , wobei n die Länge des Datenfensters bezeichnet, L_A die Länge des look-ahead buffers, 1 steht für die Länge des Indikators, und N_s ist die Anzahl der erforderlichen Bits zur Beschreibung des nächsten Zeichens. Der Unterschied in der Länge der pro Teilsequenz abgelegten (übertragenen) komprimierten Daten ist lediglich 1, gegeben durch das Indikatorbit .

[21] Der dem ersten Verfahren zugrunde liegende Algorithmus ist in Figur 2 wiedergegeben. Ein Ausführungsbeispiel ist in Figur 3 gezeigt. Bei diesem Beispiel wurden n=16, L_A=8 gewählt. Das erste Zeichen im look-ahead buffer ist 'a'. Da der search buffer mit Nullen initialisiert wurde, existiert keine Übereinstimmung - weder in der einen noch in der anderen Richtung. Daher wird 'a' ohne Kompression abgelegt (gesendet) und in den search buffer verschoben (Step 1) . Unter Step 2 ergibt sich eine Vorwärtsübereinstimmung von drei Zeichen ( ' aaa ' ) und eine rückwärtige von einem ('a'), weswegen die Vorwärtsrichtung gewählt wird. Anstelle der übereinstimmenden Zeichen wird (8,0,3,b) abgelegt (gesendet), welches die Position der Übereinstimmung, das Indikatorbit, die Zahl der übereinstimmenden Zeichen und das erste nicht-übereinstimmende Zeichen spezifiziert. In Step 4 ist die maximale Übereinstimmung im search buffer drei Zeichen in Vorwärtsrichtung, jedoch sieben in Rückwärtsrichtung. Damit wird komprimiert, indem die Sieben-Zeichen-Übereinstimmung genutzt und eine 1 als Indikator gesetzt wird, um die Rückwärtsrichtung anzugeben.

[22] Eine zweite Ausprägung des erfindungsgemäßen Verfahrens erweitert den Kompressionsalgorithmus gemäß J . Ziv and A. Lempel, "Compression of individual sequences via variable-rate coding, " IEEE Transactions on Information Theory, vol. 24, no . 5, pp . 530-536, 1978, (LZ78).

[23] LZ78 erstellt bei der Kompression und Dekompression ein Lexikon, in dem bisherige Sequenzteile separat als Liste abgelegt werden und durch noch nicht aufgetretene Zeichen erweitert werden. Die komprimierte Sequenz enthält die Position (Zeilennr.) in der Liste und das noch nicht vorhandene neue Zeichen.

[24] Das Verfahren als Modifikation des LZ78 Algorithmus' ermittelt die maximale Übereinstimmung in Vorwärts- und Rückwärtsrichtung oder, in einer allgemeineren, nicht dargestellten Realisierung, die maximale Übereinstimmung anderer alternativer, symmetrischer Darstellungen einer Teilsequenz. Figur 4 zeigt den Pseudocode des Verfahrens. L bezeichnet hierbei die maximale Übereinstimmungslänge. Die komprimiert gespeicherte oder übertragene Sequenz enthält den Lexikon- oder Listenindex (dictionary index) , den Indikator, hier in Form eines Indikatorbits für die Richtung, und das nächste, noch nicht vorhandene Zeichen. Nur das Indikatorbit ist im Vergleich zum ursprünglichen LZ78 hinzugekommen.

[25] Figur 5 zeigt den Komprimiervorgang des so modifizierten LZ78 in zeitlicher Abfolge. Die Tabelle der Figur 5 enthält die Listeneinträge (dictionary entries) und die komprimierten Codephrasen. Zu Beginn ist die Liste leer, und das erste Zeichen 'a' wird als erster Eintrag plaziert (ID=1). Das nächste zu bearbeitende Datenzeichen ist 'b', welches ebenfalls noch nicht vorhanden ist und als nächster Eintrag der Liste hinzugefügt wird (ID=2) . Das folgende Datenzeichen ist 'a', welches nun bereits in der Liste enthalten ist. Der zugehörige Index und das nächstfolgende Zeichen 'c' werden in der komprimierten Sequenz abgelegt /übertragen . 'a' und 'c' werden ebenfalls als neue Teilsequenz in die Liste unter ID=3 aufgenommen. Schließlich wird unter ID=5 die Teilsequenz 'bca' bearbeitet. Diese Sequenz ist bereits unter ID=4 enthalten, allerdings in umgekehrter Richtung. In Vorwärtsrichtung wäre die Übereinstimmung nur ein Zeichen lang (ID=2), während die Rückrichtung bei ID=4 drei Zeichen Übereinstimmung bietet. Die Rückrichtung wird vorgezogen und das Indikatorbit entsprechend gesetzt.

[26] Begrenzungen der Tabelle werden ähnlich zum ursprünglichen LZ78 realisiert, beispielsweise durch Löschen der Tabelle bei Erreichen der Maximalgröße und Aufbau einer neuen Tabelle.

[27] Eine dritte Ausprägung des erfindungsgemäßen Verfahrens erweitert den Kompressionsalgorithmus LZW84, der sich von LZ78 dadurch unterscheidet, dass ein initialisiertes Lexikon für die komprimierende Einrichtung (wie auch für die dekomprimierende Einrichtung) vorliegt. Je nach Art der zu komprimierenden Daten ist dies beispielsweise durch einen ASCII-Zeichensatz oder DNA- Basensequenzen vorbelegt. Die Übertragung des noch nicht existierenden Datenkomprimats aus den Quelldaten wird zurückgestellt, bis der erste Buchstabe des

Lexikoneintrags, der als nächstes übertragen werden wird, ermittelt ist. Im Falle eines fehlenden Zeichens (empty string) kann der erste Buchstabe der vorherigen Sequenz an die vorherige Sequenz angehängt werden, um das fehlende Zeichen zu ersetzen.

[28] Wie in den ersten beiden Ausführungsbeispielen wird der LZW84 auf analoge Weise durch einen Indikator erweitert. Im Falle eines Lexikons, das mit ASCII-Zeichen initialisert ist, ist allerdings die Verwendung eines Indikators redundant, wenn die gesamte ASCII-Tabelle hinterlegt ist. Ein Nutzen kann dann aber erzielt werden, wenn die inhärente Bitsymmetrie genutzt wird. Es genügt damit, 128 (statt 256) Zeichen in dem Lexikon abzulegen, und die anderen 128 mittels eines binären Indikatorbits festzulegen. Die Größe des Anfangslexikons kann damit um die Hälfte reduziert werden.

[29] Figur 6 zeigt den Pseudocode der dritten Ausprägung des Verfahrens mit modifiziertem LZW84, wobei die vorstehend genannte BitSymmetrieinversion der Einfachheit halber nicht dargestellt ist. In beiden Richtungen, vorwärts und rückwärts, wird das gesamte Lexikon nach der maximalen Übereinstimmung durchsucht. Allerdings kann der letzte Eintrag des Lexikons nicht zum Rückwärtslesen verwendet werden. Anders als beim LZW84 kann dieser auch nicht aufgrund bestimmter Wiederholsequenzen errechnet werden, so dass beim Komprimieren das letzte Zeichen bei der Rückwärtssuche außer Betracht bleibt. Das Datenkomprimat enthält den Lexikonindex und den Indikator.

Claims

Ansprüche

1. Verfahren zur Kompression von Quelldaten zu einem Datenkomprimat unter Nutzung von Symmetrien in den Quelldaten, wobei aus den Quelldaten oder Datensequenzen der Quelldaten ein Lexikon erzeugt wird und die Kompression durch Ersetzen von Datensequenzen der Quelldaten durch Datenverweise in das Lexikon erfolgt, dadurch gekennzeichnet, dass die Datenverweise Indikatoren aufweisen, die eine Abgleichsanweisung für Elemente des Lexikons spezifizieren .

2. Verfahren nach Anspruch 1, dadurch gekennzeichnet, dass die Indikatoren in Form von Indikatorbits spezifizieren, ob die Datensequenz in Vorwärts- oder Rückwärtsrichtung im Lexikon dargestellt ist.

3. Verfahren nach einem der Ansprüche 1 oder 2, dadurch gekennzeichnet, dass bei der Kompression die längste Übereinstimmung in Vorwärts- oder Rückwärtsrichtung in einer bereits bearbeiteten Datensequenz ermittelt wird und durch ein Indikatorbit im komprimierten Datenstrom spezifiziert wird, um welche Richtung es sich handelt.

4. Verfahren nach Anspruch 3, dadurch gekennzeichnet, dass in den komprimierten Daten zusätzlich zu den Indikatorbits die Position innerhalb einer bereits bearbeiteten unkomprimierten Datensequenz angegeben wird, ab der eine gerade bearbeitete Datensequenz in Vorwärts- oder Rückwärtsrichtung vorhanden war.

5. Verfahren nach Anspruch 4, dadurch gekennzeichnet, dass ein Zeichen in der bearbeiteten Datensequenz nicht mehr in der bereits bearbeiteten unkomprimierten Datensequenz folgt und daher direkt als Bestandteil der komprimierten Datensequenz abgelegt wird.

6. Verfahren nach Anspruch 1, dadurch gekennzeichnet, dass bei der Kompression die Übereinstimmung mit früheren Datensequenzen oder deren entsprechend der Symmetrien modifizierten Datensequenzen ermittelt wird, die in einer Liste geführt werden, um dann in den komprimierten Datenstrom die Listenposition (Zeile) , die Ausprägungsform entsprechend der Symmetrien, und ein folgendes, noch nicht im Listeneintrag vorhandenes Zeichen aufzunehmen und die Liste bei der Kompression oder Dekompression durch die neue Sequenz zu erweitern.

7. Verfahren nach einem der vorhergehenden Ansprüche, dadurch gekennzeichnet, dass das Lexikon zu Beginn der Kompression vorbelegt ist und dass mittels des Indikators einzelne Lexikoneinträge mehrfach verweisbar sind, so dass die Lexikongröße reduziert ist .

8. Verfahren nach einem der vorhergehenden Ansprüche, dadurch gekennzeichnet, dass ein Vergleich mit dem jeweils letzten Lekikoneintrag ausgeschlossen ist.

9. Verfahren zur Dekompression eines Datenkomprimats , das nach einem der Ansprüche 1 bis 9 erzeugt wurde, wobei aus dem Datenkomprimat oder aus den Datensequenzen des Datenkomprimats ein Lexikon erzeugt wird und die Dekompression durch Ersetzen von Datenverweisen in das Lexikon unter Berücksichtigung der durch den Indikator spezifizierten Abgleichsanweisung durch die dort abgelegten Datensequenzen erfolgt.

Einrichtung zur Durchführung eines der Verfahren nach einem der Ansprüche 1 bis 9.