WO1998027657A1

WO1998027657A1 - System und verfahren zur pre-entropischen codierung

Info

Publication number: WO1998027657A1
Application number: PCT/EP1997/007209
Authority: WO
Inventors: Daniel Blaschkowski
Original assignee: Daniel Blaschkowski
Priority date: 1996-12-19
Filing date: 1997-12-19
Publication date: 1998-06-25
Also published as: DE19653133C2; DE19653133A1

Abstract

Der elementare Schritt einer pre-entropischen Codierung besteht nach der Erfindung darin, aus einer ersten Datenquelle eine zweite Datenquelle zu berechnen, bei der eine Gruppe von zwei oder mehr Zeichen der ersten Datenquelle auf ein neues Zeichen abgebildet ist, und für diese zweite Datenquelle das Produkt aus der Entropie und der neuen Zeichenanzahl zu ermitteln. Danach wird für eine weitere Datenquelle mit einer weiteren Gruppe von zwei oder mehr zusammengefaßten Zeichen der ersten Datenquelle ein weiteres Produkt der Entropie und der neuen Zeichenanzahl ermittelt. Es wird diejenige Gruppe von Zeichen der ersten Datenquelle, der das kleinere Produkt aus Entropie und Zeichenanzahl zugeordnet ist, gespeichert und nach einer Iteration über noch weitere Datenquellen durch das neue Kombinationszeichen ersetzt. Nach dem Ersetzen befindet sich in der Zieldatei eine komprimierte Datenquelle. Der elementare Zyklus wird auf diese modifizierte Datenquelle erneut angewandt, und zwar so lange, bis der Codierungsgewinn durch das Ersetzen aufgewogen wird durch den zunehmenden Bezeichnungsaufwand in einer Header-Datei, in der die Ersetzungsschritte vermerkt sind. Eine Dekomprimierung anhand dieser Header-Datei ist extrem schnell und benötigt fast keinen Speicherplatz.

Description

System und Verfahren zur pre-entropischen Codierung

Diese Erfindung bezieht sich allgemein auf Systeme und Verfahren zur verlustfreien Datenkomprimierung und insbesondere auf eine Kombinationsmethode tur Zeichen einer Datenquelle sowie den Aufbau der elektronischen Schaltungen zur Codierung der Datenquelle.

Bei einer Speicherung oder Übertragung von Daten ist im allgemeinen die Speicherkapazität des vorgegebenen Speichermediums oder die Ubertragungs-

10 kapazitat des Kanals der begrenzende Faktor. Bei Verfahren, die Daten speichern oder übertragen, ist es oft wichtig, die Daten deutlich zu komprimieren, sodaß mehr Daten übertragen oder gespeichert werden können Je nach Anwendungsfall ist es wichtig, daß die Komprimierung vollständig reversibel ist, sodaß die Daten verlustfrei und vollständig wieder zuruckge- i3 wonnen werden können. Ein Verfahren zur verlustfreien Datenkompression übersetzt also eine Eingabe-Zeichenkette reversibel in eine Ausgabe-Zeichenkette, die im Mittel kurzer ist. Die Angabe "im Mittel" bezieht sich aut die Tatsache, daß jeweils die gesamten zu komprimierenden Dateien bzw Datenstrome berücksichtigt werden sollen, wobei es durchaus möglich ist

:o daß einzelne Zeichenketten (stnngs) nicht verkürzt werden, da z.B. ungunstige Häufigkeitsverteilungen der Zeichen für eine Entropiekodierung vorliegen.

Stand der Technik __^■. Die Verfahren der verlustfreien Datenkomprimierung zeichnen sich dadurch aus. daß ein Datum durch ein anderes Datum von kleinerem Bezeichnungsautwand, aber mit gleichem Informationsgehalt, codiert wird, vgl. Volz, H Grundlagen der Information, Akademieverlag Berlin 1991 , S. 19. Die inverse Funktion, also das Wiederherstellen der Originaldaten, wird Dekomprimierung genannt. Bei verlustfreier Datenkomprimierung wird die Ausgangsdatei wieder hergestellt. Im Gegensatz dazu werden bei verlustbehafteten Verfahren lediglich wichtige Inhalte der Originaldatei codiert; eine 5 exakte Rekonstruktion der Ausgangsdaten ist nicht möglich.

In der Literatur werden die Verfahren der verlustfreien Datenkomprimierung meist nach zwei Grundprinzipien gegliedert, vgl. z.B. Held, G. et al. : Data and Image Compression, 4th edition, Verlag John Wiley & Sons, Chichester o 1996, oder vgl. auch Völz, H. : Komprimierung von Bilddateien, Nachrichtentechnik, Elektronik, Berlin, Band 43 (1993), Hefte 2, 3 und 4.

1 ) Statistische Verfahren nutzen die ungleichmäßige Häufigkeitsverteilung von Zeichen einer Datenquelle und ersetzen häufige Zeichen durch s kurze Codezeichen, seltene Zeichen durch lange Codezeichen. Statistische Verfahren bezeichnet man auch als Entropie-Codierungen. Zu diesen Verfahren zählen die Shannon- Fano-Codierung, die Huffman- Codierung sowie die arithmetische Codierung und deren Variationen.

0 2) Bei referenzierenden Verfahren ersetzt ein einzelnes Codezeichen mehrere aufeinanderfolgende Symbole der Datenquelle. Diese Codezeichen werden mit ihrer Entsprechung (Ersatzsymbol) entweder in einer Tabelle (Codebook, Dictionary) gespeichert oder innerhalb der Kette der unco- dierten Zeichen als Abstandsverweise ausgegeben. Zu den bedeutendsten

:5 Verfahren dieser Gattung zählen die Lauflängen-Codierung, die Verfahren nach dem Pattern-Matching oder Pointer-Prinzip und tabellengestützte Verfahren nach Lempel-Ziv (LZ78) bzw. nach Welch und deren Variationen. Einige Variationen nehmen eine Zwischenrolle ein bzw. lassen sich nicht in die obengenannten Grundprinzipien einordnen. Dazu zählen das Hilbert- Verfahren und einige zeichen-orientierte Methoden. In der Praxis werden unterschiedliche Verfahren oft miteinander kombiniert. In einer solchen Mehrschicht-Codierung (multi-level-coding) kommen verschiedene Techniken gleichzeitig oder sequentiell zum Einsatz.

Jedes der eingesetzten Verfahren erzielt eine Datenreduktion durch Minderung von Redundanz. Die Redundanz einer Datenquelle kann nach verschie- denen Methoden ermittelt werden. Die Methoden, nach denen ein Datenkompressor die Redundanz einer Datenquelle einbezieht, lassen sich folgendermaßen kategorisieren:

a) Bei einer statischen Strategie wird ein fester Typ von Redundanz angenommen.

b) Bei einer nicht-statischen Strategie wird die tatsächliche Redundanz variabel oder sogar adaptiv ermittelt. Bei einer variablen Strategie werden die zu komprimierenden Daten komplett analysiert und es wird anhand der so gewonnenen Werte ein optimales Verfahren ausgewählt.

Je nachdem, wie oft die Datei komplett sequentiell gelesen wird, spricht man von einem n-Pass-Verfahren. Die adaptive Strategie (dynamische Strategie) analysiert einen bereits gelesenen Teil der Daten und nutzt die bisherige Auswertung als Strategiegrundlage für die folgenden Daten.

Viele Kompressionsverfahren existieren in unterschiedlichen Varianten der Redundanzanpassung, so z.B. die Huffman-Codierung als statisches oder adaptives Verfahren. Für die Auswahl einer der genannten Strategien ist zunächst der spezifische Inhalt der Datenquelle (Programm, Text, Bild, Ton, usw.) von Bedeutung. Darüber hinaus sind drei Kriterien entscheidend:

- Es kommt auf die Quellstruktur der zu komprimierenden Daten an. Sie läßt sich schematisch in Datenströme unbegrenzter Länge, Dateien von variabler, aber bestimmter Länge und Dateien fester Länge unterteilen.

Die Auswahl wird auch dadurch bestimmt, wieviel Speicherplatz für den einlaufenden Datenstrom sowohl auf der Komprimierungsseite als auch auf der Dekomprimierungsseite tatsächlich verfügbar ist.

Der Rechenaufwand für den Kompressionsvorgang begrenzt die Geschwindigkeit der Datenkomprimierung und der Rechenaufwand für die Dekomprimierung muß in der verfügbaren oder erwünschten Dekom- primierungszeit erledigt werden können.

In vielen praktischen Anwendungen hat sich das Prinzip der Block-Codierung bzw. der gleitenden Block-Codierung durchgesetzt. Im ersten Fall wird eine feste Anzahl von aufeinanderfolgenden Quellensymbolen zu einem Block zusammengefaßt. Jeder Block wird unabhängig von allen anderen betrachtet. Für gleitende Block-Codes wird ein Fenster definiert, unter dem möglichst viele Quellensymbole liegen. Das Fenster wird mit jedem Schritt des Codierprozesses um eine oder mehrere Positionen verschoben, wobei die Ver- Schiebung wesentlich kleiner als die Fensterlänge ist.

Eine weitere gebräuchliche Einteilung von Kompressionsverfahren betrifft die

Längen der Quell- bzw. Zieldatensequenzen. Da bei der Codierung stets

Sequenzen von Quelldaten auf Codeworte abgebildet werden, wird danach klassifiziert, ob die Zeichenketten von fester Länge (fixed length) oder variabler Länge (variable length) sind. Demnach existieren vier verschiedene Zuordnungsprinzipien: fest auf fest, fest auf variabel, variabel auf fest und variabel auf variabel. Eine Codierung "variabel auf variabel" entsteht beispielsweise bei einer Verkettung eines referenzierenden Tabellenverfahrens (Codebookverfahren) mit einer rekurrenten Entropie-Codierung.

Weitere Einzelheiten, Vorteile und Nachteile von statistischen Verfahren (Shannon-Fano-Algorithmus, Huffman-Algorithmus, arithmetische Codierung) und referenzierenden Verfahren (Lauflängen-Codierung, Pointer- Verfahren, Code-Erweiterung) sind beispielsweise in dem bereits genannten Artikel Völz, H. : Komprimierung von Bilddateien, Nachrichtentechnik, Elektronik, Berlin, Band 43 (1993), Hefte 2, 3 und 4 zusammengestellt.

Im folgenden werden zwei Entropie-Codierungen etwas genauer beleuchtet, die im Rahmen einer Mehrschicht-Codierung zusammen mit der Erfindung verwendet werden können.

Die grundsätzliche Idee bei Entropiekodierungen liegt darin, die Auftrittswahrscheinlichkeiten p_s unterschiedlicher Symbole der Datenquelle dem Codierungsalgorithmus zugrunde zu legen. Enthält eine Datei z Zeichen, so sind die z Zeichen n < z -Symbolklassen mit gleichen Zeichen zugeordnet. Eine minimal erreichbare Dateilänge berechnet sich also aus H ^• z. Bei der Entropie-Codierung werden Zeichen, die häufiger als andere auftreten, durch kurze Symbole, seltenere Zeichen durch längere Symbole kodiert.

Ähnlich den Kompressionstechniken für Bild- und Videodateien, bei denen nach Ähnlichkeiten im Datenmaterial (Bild) gesucht wird, z.B. räumliche und spektrale Redundanzen, werden bei den Kompressionstechniken für aus Textzeichen bestehenden Dateien wiederkehrende Symbolfolgen zu finden und/oder Häufigkeiten der einzelnen Zeichen auszunützen sein. Ein bekanntes Verfahren einer statistischen Codierung ist unter dem Begriff Huffman- Codierung bekannt. Die Idee der Huffman-Codierung geht auf das Prinzip des Morse-Alphabets zurück. Dort werden den häufig vorkommenden Symbolen oder Zeichen kürzere Codes zugeordnet als den seltener vorkommen- den. Der Code für das häufige Symbol e besteht z.B. nur aus einem einzigen MorsezeicheYi. Der Huffman-Algorithmus ordnet alle Zeichen zunächst nach ihrer Häufigkeit in einer Tabelle. Die beiden seltensten erhalten als letzte Codeziffer eine 0 und eine 1. Beide werden in der Tabelle mit der Summe ihrer Wahrscheinlichkeiten zusammengefaßt. Die Häufigkeits- tabelle hat damit ein Element weniger. Wieder sucht man die beiden seltensten Elemente und stellt ihrem Code eine 0 und eine 1 vor. Nach Zusammenfassen ihrer Wahrscheinlichkeiten beginnt der Algorithmus von vorn. Alle Zeichen sind kodiert, wenn nur noch ein Element in der Tabelle übrig ist. Häufig wird der Huffman-Algorithmus als Baum über die Wahrschein- lichkeiten der Zeichen dargestellt. Die beiden Symbole mit der geringsten Wahrscheinlichkeit des Auftretens werden, wie erwähnt, zusammengefaßt zu einem neuen Symbol mit einer Wahrscheinlichkeit addiert aus den Wahrscheinlichkeiten der beiden einzelnen Symbole. Die Ausgangssymbole werden als linker und rechter Teilbaum angehängt. Das letzte Symbol in der Liste entspricht der Wurzel des Kodierbaums. Die Codes für die einzelnen Zeichen können dann ganz einfach ermittelt werden, indem man die Nullen und Einsen der Teilbäume aneinander reiht, die auf dem Pfad von der Wurzel zu dem gewünschten Zeichen liegen. Die Information des Baumes - vorzugsweise in der Form einer Übersetzungstabelle - muß mit den Daten mit- geliefert werden. In der Praxis kann es aufwendig sein, diese Information in Form von Headerdateien als Zuordnung zwischen dem jeweiligen Huff- man-Code und dem Original-Byte mitzuführen.

Ein weiteres bekanntes Verfahren ist die arithmetische Codierung, die mit Häufigkeiten und Intervallen operiert. Bei diesem Schema werden die Sym- bole zunächst in einem Intervall von 0 bis 1 angeordnet. Die Wahrscheinlichkeit eines Symbols entspricht dabei der Lange seines zugehörigen Unterintervalls. Besteht also eine Datei aus z Zeichen, so gibt es z Unterintervalle Die Häufigkeitsverteilung der Zeichen fließt bei dem Schema insofern ein. als daß das Codewort umso langer gewählt wird, je kleiner das zu einem Symbol gehörige Unterintervall ist und umgekehrt. Die Codierung erfolgt dadurch, daß jedem Symbol eine binare Fließkommazahl zugeordnet wird, die dem Anfang der Position des Unteπntervalls entspricht. Aus den Fließkommazahlen wird mit Hilfe der Unterintervalle eine einzige Zahlentol- ge gebildet, die letztendlich in einen Code umgesetzt wird. Der Algorithmus dieser Intervallschachtelung benotigt allerdings unbedingt ein Sonderzeichen zum Abbruch. Da bei diesem Verfahren nicht die Wahrscheinlichkeiten einzelner Zeichen einfließen, sondern die ganze Datei gemäß der Häufigkeit der Zeichen kodiert wird, bringt die arithmetische Codierung meistens eine höhere Verdichtung als der Huffman-Code. Bezüglich des algorithmischen Aufwandes können allerdings beide Verfahren, die arithmetische Codierung meistens und die Huffman-Codierung, einfacheren Verfahren unterlegen sein.

Eine bekannte Blockcodierung, die sich nicht ohne weiteres als statistisches Verfahren oder referenzierendes Verfahren kategor lsieren laßt, ist das sogenannte Byte-Pair-Encoding. Diese Blockcodierung wurde 1994 erstmals vorgestellt, vgl. Held, G. et al.: Data and Image Compression, wie eingangs zitiert, Seiten 150-157. Das Verfahren ersetzt Paare nebeneinanderhe- gender Bytes in einer Datei durch ein Byte, das nicht in der Datei vorkommt. Für jede Ersetzung wird das Paar mit der größten Häufigkeit ausgewählt. Sobald die Ersetzung vorgenommen wurde, werden die Häufigkeiten von Nachbarpaaren aktualisiert. Haben zwei Paare die gleiche größte Häufigkeit, so wird das erste Paar genommen. Die Codierung ist beendet, wenn kein unbesetztes Byte in der Datei mehr frei ist oder wenn sämtliche Paarhaufigkeiten einen vorgegebenen Schwellenwert von z.B. drei unterschreiten

Autgabe und Losung der Erfindung i Wünschenswert ist es, eine noch größere Kompressionsrate als bei den bisher bekannten entropischen Verfahren zu erzielen. Der Erfindung liegt daher das Problem zugrunde, ein effizienteres, übergeordnetes System zur Datenkomprimierung zur Verfugung zu stellen, das abhangig von der Dateistruktur und der technischen Anwendung mit bisherigen Verfahren kombinier-

Die Aufgabe der Erfindung besteht deshalb dann, ein System und ein Verfahren zur verlustfreien Datenkomprimierung anzugeben, welches dazu beitragt, die Redundanz einer Datenquelle soweit wie möglich zu vermin- s dem.

Diese Aufgabe wird durch ein Codierungssystem mit den Merkmalen des Anspruchs 1 und durch ein Codierungsverfahren mit den Merkmalen des Anspruchs 16 gelost. Zweckmäßige Ausgestaltungen des Erfindungsgedankens o gehen aus den Unteranspruchen hervor.

Drei besonders zweckmäßige Merkmale der Erfindung, die auch für sich genommen als schutzwurdig angesehen werden, bilden den Gegenstand von

Nebenanspruchen 31 , 32 und 33. Die Verfahrensaspekte dieser Merkmale

2_^ sind in den nebengeordneten Verfahrensanspruchen 34, 35 und 36 aufgeführt.

Der wesentliche Vorteil des erfindungsgemaßen Verfahren hegt dann, daß durch Zusammentassen von Symbolen der Codierungsgewinn wesentlich gesteigert werden kann. Die neue Entropie H' und die neue Dateigroße s'

3o errechnen sich nach den Formeln, die in Tabelle 1 angegeben sind. Das wesentliche Kriterium ist die Senkung der Dateigröße, die auf eine Senkung der Zahl z' neuer Zeichen zurückgeht.

Dabei bedeuten: H: alte Entropie z: alte Zeichenzahl s: alte Dateigröße s = H-z a: Anzahl des Symbols a b: Anzahl des Symbols b ab: Anzahl der möglichen Zusammenfassungen von a und b

H¹ : neue Entropie z' : neue Zeichenzahl z' = z - ab

So läßt sich die komprimierte Dateigröße s ' berechnen als Produkt aus H'-z\

Bei der Erfindung wird zunächst, insoweit vergleichbar mit herkömmlichen Entropiecodierungen, von den Auftrittswahrscheinlichkeiten p_s der einzelnen Symbole ausgegangen. Für die Symbole wird eine gleiche Bit-Länge, z.B. ein Byte, angenommen. Die Datei enthält insgesamt n unterschiedliche Symbole und z n Zeichen. Dann gilt für die Entropie H die Gleichung in Fig. 1. Die Gleichung gibt an, wieviel Bit im Mittel je Zeichen erforderlich sind. Daraus bestimmt sich unter den gegebenen Bedingungen die minimal erreichbare Dateilänge zu H-z. Da es nicht immer eine ideale Codierung zu geben braucht, kann die Datei in der Praxis auch etwas größer sein als der theoretische erreichbare Wert H-z. Mit der Huffman-Codierung kann man sich dieser Grenze nähern; etwas besser als die Huffman-Codierung kann die arithmetische Codierung sein. In der Figur 1 ist die Dateilänge für die erfindungsgemaße pre-entropische Codierung zusammengestellt. Nach dem Prinzip der pre-entropischen Codierung, das im folgenden erklart wird, kann die eigentliche Entropiegrenze nach Shannon deutlich - mit typischen Faktoren von 2-4 - unterschritten werden. Dies setzt erfindungsgemaß zwar einen größeren und iterativ anzuwendenden Analysemechanismus auf der Komprimierungsseite voraus; da die Dekompπmierung aber fast genauso schnell wie bei üblichen Entropiever- tahren erfolgt, ist der für die Analyse erforderliche Zeitaufwand aut der Kompπmierungsseite angesichts eines um den Faktor 2-4 höheren Codie- o rungsgewinns in vielen Fallen unwesentlich.

Der Kern-Gedanke der pre-entropischen Codierung ist in den Figuren 1 und 3 dargestellt. Es werden schrittweise neue Kombinationszeichen eingeführt, welche eine Gruppe vorhandener Einzelzeichen ersetzen. Da durch das i3 zunächst versuchsweise Ersetzen meist nicht alle Zeichen einer Symbolklasse erfaßt werden, nimmt meist die Zahl der Klassen von n auf n' zu. Auch die mittlere Entropie der neuen oder zweiten Datenquelle, welche die Kom- binationszeichen versuchsweise enthalt, nimmt in der Regel von H auf H' zu. Gleichzeitig sinkt jedoch die Zahl der insgesamt in der Datei vorhande-

20 nen Zeichen von z auf z' ≤ z. Dadurch wird häufig die Dateilange, also das Produkt aus dem Code-Aufwand (Entropie) und der Zeichenzahl kleiner als bei der Ausgangsdatei. So entsteht bei richtiger Optimierung eine kleinere Zieldatei, insbesondere dann, wenn anschließend die neue Datei mit den n' Klassen einer normalen Entropiecodierung unterworfen wird (Huffman-Codie-

2J rung, arithmetische Codierung). Ein Codierungsgewinn erfolgt so lange, wie der Bezeichnungsautwand für einen Kombinationsvermerk (also für die Zusatzdaten zur Decodierung, die in einer Header-Datei erfaßt werden) kleiner ist als die absolute Differenz des Bezeichnungsautwands der Datei vor und nach der Kombination

30 Eine besonders vorteilhafte Ausgestaltung der Erfindung ist dann zu sehen, daß nicht nur einander benachbarte Zeichen kombiniert werden können, sondern daß zusätzlich auch Einzelzeichen mit unterschiedlichen Abstanden miteinander zusammengefaßt werden können, wobei der Abstand jeweils im Header vermerkt werden muß. Es ist möglich, für das nächste Kombina- tionszeichen einen wiederum anderen Abstand zu wählen.

Im Ablauf, besonders gegen Ende des erfindungsgemaßen iterativen Verfahrens ist es möglich, daß durch Auflosung von bereits kombinierten Zeichen ein weiterer Codierungsgewinn erzielt werden kann. Dieser Codierungsgewinn durch Zeichenauflosung ist in Tabelle 2 dargestellt. Das erfin- dungsgemaße Verfahren erweist sich deshalb als besonders vorteilhaft, da eine Codierungsgewinnsteigerung erzielbar ist, indem simultan zur Prüfung aut Zusammenfassung zweier Symbole a und b eine Auflosung anderer Symbole versucht wird. Abhangig von der gunstigeren Dateigroße wird dann eine Zusammenfassung oder Auflosung der Symbole a und b ausgeführt.

Ein besonders wichtiger Vorteil des erfindungsgemaßen Verfahren liegt dann, daß die bei den meisten Komprimierungsverfahren mitzutuhrende Headerdatei kompakter darstellbar ist, sodaß der neue Bezeichnungsaufwand in der Headerdatei gegen die Hälfte des alten konvergiert. Nach einem vorgegebenen Verfahrensschema werden die Eintrage der Headerdatei vertauscht und die auf sie verweisenden Symbolwerte in der zu komprimierenden Datei verändert. Dadurch wird es möglich, auf einzelne Komponenten der Header- dateieintrage ohne Informationsverlust zu verzichten

Die Erfindung der preentropischen Codierung wird im folgenden anhand der beiliegenden Zeichnungen und Tabellen und der dargestellten Ausfuhrungsbei- spiele naher beschrieben. Es zeigt- Figur 1 : Das Prinzip der preentropischen Codierung. Figur 2: Ein Blockschaltbild wesentlicher Funktionsbausteine und Speicherbausteine zur Durchführung des Verfahrens der preentropischen Codierung.

Figur 3: Ein Flußdiagramm einer Ablaufsteuerung zur preentropischen Codierung.

Figur 4: Header-Tabellen, Tauschtafeln und Codierungsbäume, die durch Vertauschen von Header-Einträgen entstehen.

Figur 5: Ein Beispiel einer Codierung des durch Vertauschung gemäß Figur 4, Zustand 4 entstandenen Header-Baums.

Tabelle 1 Eine Berechnung des Codierungsgewinns bei Zusammenfassen zweier Symbole a und b.

Tabelle Eine Berechnung des Codierungsgewinns bei Auflösen zweier Symbole a und b. Tabelle 3: Ein Programmierbeispiel für das Verfahren zur preentropischen Codierung.

Wie in Figur 1 dargestellt, ist bei dem erfindungsgemäßen Verfahren ein iterativer Analysemechanismus der bekannten Entropiekodierung vorangestellt.

Die Auswahl der Kombinationszeichen kann unterschiedlichen Überlegungen folgen. Beispielsweise ist bekannt, daß - unter sonst gleichen Bedingungen - eine sehr ungleichmäßige Häufigkeitsverteilung der Zeichen eine kleine Entropie zur Folge hat. Demnach sollten bei der hier vorgestellten preentropischen Codierung das häufigste Ausgangszeichen oder die häufigsten Ausgangszeichen nicht zur Bildung von Kombinationszeichen herangezogen werden. Deren Codierung wird besser einem anschließenden statistischen Verfahren überlassen. Andererseits sollten, damit die Anzahl z der Zeichen in der Datenquelle stark sinkt, vor allem die häufigsten Kombinationszeichen benutzt werden

Die häufigsten Kombinationszeichen entstehen aber meist gerade aus den häufigsten Oπginalzeichen.

Diese Überlegungen zeigen, daß die beiden genannten Strategien sich zumindest teilweise widersprechen. Da außerdem noch die Zeichenzahl und der Autwand für die Header-Datei in die Dateilänge eingehen, ist eine einfache Strategie zur Auswahl der Kombinationszeichen zwar möglich, aber oft nicht effektiv Stattdessen wird gemäß den Figuren 1-3 ein komplexes iteratives Optimierungsverfahren angewandt. Die im folgenden beschriebene Strategie stellt ein bevorzugtes Ausfuhrungsbeispiel dar. Diese Strategie kann in mehreren Punkten modifiziert, vereinfacht und/oder erweitert werden. Die entstehenden Varianten werden u.a. von der Struktur der Eingangsdaten (vor allem ihrer Lange) und vom Anwendungsfall (Zeitbedingungen, verfugbarer Speicherplatz usw.) abhangen. Im folgenden wird ein besonders typisches und universelles Vorgehen bei der Auswahl der Kombinationszeichen dargestellt, das sich in der praktischen Durchfuhrung als effektiv erwiesen hat.

Schritt A

Aus der ersten Datenquelle werden zunächst die Auftπttswahrscheinhchkeiten p_s aller n Symbole und die Auftπttswahrscheinlichkeiten q_k aller k Kom- binationszeichen bestimmt. Die Kombinationszeichen entstehen aus der Zusammenfassung mehrerer Zeichen und ihres Abstandes zueinander. Dabei kann die Menge der verwendeten Abstände und die Anzahl zu kombinierender Zeichen vorher testgelegt oder aus der Datei berechnet sein. Im einfachsten Fall werden zwei benachbarte Zeichen a und b zur Kombination verwendet. Dann wird ein Kombinationszeichen versuchsweise ausgewählt Entsprechend seiner Häufigkeit entfallen dadurch entsprechend viele Oπginal- zeichen der beiden Klassen a und b. Mit der sich so ergebenden neuen Häufigkeitsverteilung (einschließlich des ausgewählten Kombinationszeichens) wird die Entropie H^' berechnet und gespeichert (Speicher 1 für Entropie in Figur 2) und mit der Zeichenanzahl multipliziert (Speicher für Code-Aufwand und Dateigröße in Figur 2). Danach geschieht der gleiche Vorgang mit einer zweiten Zeichenkombination. Das neue Produkt aus Entropie und Zeichenzahl wird mit dem vorhergehenden Produkt verglichen. Ist es kleiner, so wird es gespeichert, andernfalls verworfen. Dieser Vergleich erfolgt nacheinander mit allen Kombinationszeichen. Abschließend ist jenes Kombinationszeichen bekannt, das die voraussichtlich größte Komprimierung bewirkt. Die zugehörigen Parameter (neue Anzahl n' der Klassen, neue Häufigkeitsverteilung, Zusatzdaten im Header) werden zwischengespeichert und die Kombinationszeichen stellen eine neue Klasse von Symbolen dar. Nun wird eine zweite Datenquelle gebildet, indem die zugehörigen Zeichen in der ersten Datenquelle durch das Kombinationszeichen ersetzt werden. Die neue Symbolzahl n' liegt jetzt zwischen n-1 und n+ 1 , und zwar je nach dem, ob 0, 1 oder 2 Ursprungssymbole durch das Kombinationssymbol vollständig ersetzt worden sind.

Iteration: Mit der zweiten Datenquelle, welche die gemäß Schritt A erzeugte neue Klasse von Zeichen enthält, werden erneut gemäß dem Schritt A Kombinationszeichen erzeugt und überprüft. Ist für eines der Kombinationszeichen die erreichbare Dateilänge signifikant kleiner als die vorhergehende, so wird Schritt A erneut versucht, andernfalls bricht das Verfahren ab und es verbleibt bei dem vorhergehenden, zuletzt erfolgreichen Kombinationszeichen.

Schritt B Im Verlaut der Iteration kann es vorkommen, daß bereits erzeugte Kom- binationszeichen durch nachfolgende Prozesse überflüssig werden. Daher wird schrittweise ]e eines der zuvor erzeugten Kombinationszeichen probeweise in seine Ursprungszeichen aufgelost und für die so entstehende Datenquelle das Produkt aus Entropie H und Zeichenzahl z berechnet. Falls sich hieraus ein Codierungsgewinn ergibt, wird das Kombinationszeichen tatsachlich in seine Ursprungszeichen aufgelost. Danach beginnt ein neuer Zyklus mit Schritt A.

Eine besonders vorteilhafte Ausgestaltung der Erfindung liegt dann, daß auch in der Codierungsgewinn, der durch Auflosung von Kombinationszeichen entsteht, berücksichtigt wird. Die Untersuchung des Codierungsgewinns durch Auflosung wird entweder nach bereits getätigter Zusammenfassung zweier Zeichen unternommen, oder bereits bei der Prüfung auf Zusammenfassung zweier Symbole a und b. Wie in Figur 3 dargestellt, wird dies bei Schritt ! •> 8 untersucht, in dem das entstehende Produkt aus Entropie und Zeichenzahl für Zusammenfassung bzw. Auflosung verglichen wird, sodaß gegebenenfalls bestehende Zusammenfassungen wieder geloscht werden und die Datei aktualisiert wird (Schritte 9 - 12).

Gemäß der Figur 4 und 5 besteht ein wesentlicher Vorteil des erfindungsgemaßen Systems dann, daß durch Vertauschen der Header-Eintrage einzelne Eintrage effizienter dargestellt werden können. Dabei ist das Ziel der Trans- positionen, die Eintrage nach ihren Komponenten zu sortieren. Dadurch sinkt die Entropie des Headers.

23

Angenommen zwei Symbole x. und y, werden zu einem Kombinationssymbol mit de Wert l zusammengefaßt. Dann besteht die Header-Datei aus einer Tabelle mit Eintragen x, / y,, wobei der Index eines Eintrags gleich dem Wert des Kombinationssymbols ist. Werden nun zwei Eintrage vertauscht, dann müssen alle aut sie verweisenden Daten entsprechend aktualisiert werden. Das Sortieren durch Vertauschung kann z. B. mit x, als erstem und y, als zweitem Schlüssel erfolgen oder umgekehrt. Die Komprimierung kann dann als Lauflangen- und/oder Differenzkodierung erfolgen.

3 Eine weitere Transposition-Strategie sortiert alternierend mit x. und y als Schlüsseln. Diese Strategie laßt sich in fünf Regeln beschreiben (Fig. 4).

1 Anfangs ist der erste Eintrag der Referenzeintrag.

2. Nun werden alle Eintrage gesucht, deren Komponente x, gleich dem I O Index des Reterenzπngtags ist und darunter einsortiert.

3 Als nächstes werden alle Eintrage, deren Komponente y. gleich dem

Index des Referenzeintrages ist, anschließend einsortiert. 4. Nun werden die in 2. und 3. einsortierten Eintrage als Referenzeintrage betrachtet und mit ihnen nach Schritt 2. - 4. rekursiv verfahren. 13 5. Nachdem es in Schritt 2. - 4. keine Übereinstimmungen mehr gibt, ist der nächste Eintrag der Referenzeintrag und es wird mit Schritt 2. - 4. weiter verfahren.

Das Verfahren endet, wenn alle Eintrage einsortiert sind. Durch die rekursi- 20 ve Vorgehensweise lassen sich die sortierten Eintrage in baumartiger Codierung komprimieren (Fig. 4 und Fig. 5). Die in Schritt 2. bzw. 3. einsortierten Eintrage (Kinder) stimmen in x, bzw. y. mit dem Index ihres Referenzeintrages (Vater) uberein. Diese Indizes müssen nun im Code nicht mehr angegeben werden, es reicht die Anzahl der Kinder anzugeben. Die 23 ausgesparten Indizes lassen sich dann durch Abzahlen von der Wurzel aus errechnen.

Eine weitere vorteilhafte Ausgestaltung der Erfindung liegt dann, daß durch den Anwender für den spezifischen Anwendugsfall Parameter wahlbar sind,

30 die z.B. angeben, ob und wenn ja, wann eine Auflosung von Zeichen versucht werden soll und daß weiterhin - wie in Figur 3 dargestellt - eine Menge der gunstigen Abstände adaptiv ermittelbar ist.

Damit ergibt sich, daß gerade in zeitkritischen Anwendungen das erfindungs- 3 gemäße System optimal skalierbar ist. Da ein System zur verlustfreien Komprimierung von ^"z.B. ROM-Daten oder speziellen Bilddaten nicht ohne Bewertung der zugehörigen Dekompπmierung auskommen kann, wirkt es sich bei diesem Verfahren besonders vorteilhaft aus, daß die Dekompπmierung extrem schnell ist und fast keinen Speicherplatz benotigt. Dies ist z.B. o bei der mobilen oder geostationaren Übertragung besonders wichtig.

Die zwei oder mehr Ursprungszeichen, die zusammengefaßt werden, können unterschiedliche Abstände zueinander haben, d.h. die Zeichen müssen nicht unmittelbar benachbart sein. Die Abstände der Ursprungszeichen werden in i3 der Header-Datei vermerkt an der Stelle, an der auch das Kombinationszeichen selbst eingetragen wurde Bei der Bildung des nächsten Kombinationzeichens können andere Abstände gewählt werden

Zusammenfassung der Eigenschaften und bevorzugte Anwendungsgebiete 20 Bei der Erfindung handelt es sich demzufolge um ein System und ein Verfahren zum Komprimieren und Dekomprimieren von Dateien. Es besteht aus ein oder zwei Stufen, namhch einer neuartigen pre-entropischen Codierung und gegebenenfalls zusatzlich einer abschließenden Entropie-Codierung bekannter Art (z.B Huffman- oder Shannon- Fano-Codierung). Dabei werden ι Wahrscheinlichkeiten/Häufigkeiten gleich langer Symbole, z.B von Byte-Symbolen berücksichtigt Die Wahrscheinlichkeiten können für einen gegebenen Datei-Inhalt bekannt sein oder es können die Häufigkeiten zu Beginn des Verfahrens ausgezahlt werden Das Verfahren der pre-entropischen Codierung ist dadurch gekennzeichnet, daß Symbolkombinationen nach einem neuartigen 3o Kriterium ausgewählt und als zusatzliche Symbole eingeführt werden. Zwar steigt dadurch eventuell die Anzahl auftretender Klassen von Symbolen und damit eventuell auch die Entropie; jedoch sinkt in jedem Fall die Anzahl der in der Datei insgesamt enthaltenen Zeichen. Die Erfindung schlagt vor, daß eine Zusammenfassung mehrerer Zeichen zu einer Symbolkombination i jeweils so gewählt wird, daß das Produkt aus Entropie mal die Anzahl der in der Datei enthaltenen Zeichen sinkt. In der Regel wird diejenige Symbolkombination herangezogen, bei der dieses Produkt minimal ist.

Der verkürzende Prozeß wird iterativ solange wiederholt, bis kein Gewinn o mehr erreicht wird, d.h. bis durch Einfuhrung einer neuen Symbolkombination keine Verkürzung der Datei insgesamt mehr möglich ist. Bei dieser Iteration wird der steigende Aufwand für den Header berücksichtigt, der in der komprimierten Datei zum Zwecke der Dekompπmierung mitgefuhrt wird.

i3 Bei den Erprobungen des erfindungsgemaßen Verfahrens wurde zusätzlich testgestellt, daß unter Umstanden durch Auflosen früher eingeführter Zeichen ein weiterer Codierungsgewinn zu erzielen ist. Es wird deshalb im Verlauf der iterativen Einfuhrung neuer Zeichen an geeigneter Stelle untersucht, ob durch Ruckkehr zu weniger stark zusammengefaßten Zeichen die Entropie

20 und/oder der Header-Autwand relativ stark zurückgehen.

Sowohl die Auswahl neuer Kombinationszeichen als auch die Auflosung bereits eingeführter Kombinationszeichen können mehrfach iterativ verschachtelt sein. Die Wiederholung garantiert, daß jeder Zwischenschritt zu einem 3 guten Zwischenergebnis fuhrt, nimmt aber andererseits Rechenzeit in Anspruch Im Unterschied dazu liegt es aber auch im Rahmen der Erfindung, bei der Auswahl der Kombinationszeichen geradewegs nach Erfahrungsregeln vorzugehen. Beispielsweise konnte man vorallem Symbolkombinationen zulassen, die nicht den häufigsten Einzelsymbolen entsprechen. Wenn beson-

30 ders häufige Symbole zu einem kleinen Wert der Entropie fuhren, so kann man deren Codierung in zweckmäßiger Weise der abschließenden entropischen Codierung überlassen. Ein anderes Auswahlkriterium besteht dann, daß solche Symbolkombinationen bevorzugt ausgewählt werden, welche die zugehörigen Einzelzeichen ganz oder nahezu ganz verschwinden lassen. Bei bestimmten Dateistrukturen kann die Dateilänge besonders effektiv verringert werden, wenn nicht ^* nur benachbarte Symbole, sondern auch Symbole mit größeren Abstanden zusammengefaßt werden. Da diese Abstände im Header zusatzlich vermerkt werden müssen, sollte die Anzahl der zu speichernden Abstände allerdings gering gehalten werden.

Überhaupt spielt der Header gegen Ende des Iterationsprozesses eine immer größere Rolle, da die Zahl der Kombinationsvermerke immer weiter anwachst. Im Rahmen der vorliegenden Erfindung ist deshalb auch eine Transposition von Kombinationsvermerken aufgezeigt, durch die Teile der Kombinationsvermerke im Header entfallen können. Eine andere Möglichkeit, den Bezeichnungsaufwand für den Header in Grenzen zu halten, besteht darin, auf die Header-Datei das gesamte Komprimierungsverfahren selbst nochmals anzuwenden.

Zusammenfassend stellt das Verfahren der pre-entropischen Codierung ein verlustfreies Datenkomprimierungsverfahren mit folgenden Eigenschaften dar:

1 Die pre-entropische Codierung (1. Schicht) ist Teil einer 2-stufigen Komprimierung, die auf eine nachfolgende Entropie-Codierung (2. Schicht) optimal abgestimmt ist.

2 Der Komprimierungsgrad dieser mehrschichtigen Codierung hegt in den meisten Fallen deutlich über dem Komprimierungsgrad einer einfachen Codierung oder anderer bekannter Mehrschichtverfahren. 3. Die Dekomprimierung geschieht extrem schnell und benötigt fast keinen Speicherplatz.

4. Die Komprimierung umfaßt ein variables n-Pass-Verfahren und kann relativ aufwendig sein, sodaß das Verfahren insgesamt als bedingt asymmetrisch einzustufen ist.

5. Das Verfahren kann mit variabler oder adaptiver Strategie und sowohl in Blockbildungs- als auch in Gleitfenstertechnik betrieben werden.

6. In zeitkritischen Anwendungen ist das Verfahren optimal skalierbar.

Die hauptsächlichen Anwendungsgebiete der pre-entropischen Codierung sind die Komprimierung von ROM-Daten, wie sie z.B. auf CD-ROMs, in BIOS- Speichern, in Spielekonsolen usw. enthalten sind, und die Komprimierung von Daten, die in Computer-Netzwerken übertragen werden. Ein weiteres bevorzugtes Anwendungsgebiet ist die verlustfreie Komprimierung von bereits codierten Bilddaten, die zuvor verlustbehaftet komprimiert wurden, z.B. durch die Verfahren MPEG I, MPEG II, DCT usw.

Es kommen auch solche Anwendungsgebiete in Frage, in denen andere Verfahren wie z.B. Lempel-Ziv, GIF-Format usw. , zu teuer sind. Bei der mobilen oder geostationären Kommunikation, bei welcher der Arbeitsspeicher sehr knapp ist, ist die starke Komprimierung von Daten ebenfalls vorteilhaft. Ferner ist die Erfindung in jeder Anwendung von Vorteil, bei der eine sehr dicht gepackte Datenmenge sehr schnell dekomprimiert werden muß. Alphabetische Liste der verwendeten Abkürzungen:

a: Anzahl des Symbols a in einer ersten Datenquelle ab: Anzahl des Symbols ab in einer zweiten Datenquelle b: Anzahl des Symbols b in einer ersten Datenquelle

H: Entropie einer ersten Datenquelle

H' : Entropie einer zweiten Datenquelle

H": Entropie einer weiteren Datenquelle i: Index in die Header-Tabelle (dies ist gleichzeitig der Symbolwert) k: Anzahl der Kombinationszeichen n: Anzahl unterschiedlicher Symbol-Klassen einer ersten Datenquelle n' : Anzahl unterschiedlicher Symbol-Klassen einer zweite Datenquelle p_s: Auftrittswahrscheinlichkeit des Symbols s in einer ersten Datenquelle p'_s: Auftrittswahrscheinlichkeit des Symbols s in einer zweiten Datenquelle

PT: Paar-Tabelle q_k: Auftrittswahrscheinlichkeit des Kombinationszeichens k s: Minimale Dateigröße einer ersten Datenquelle s': Minimale Dateigröße einer zweiten Datenquelle

S: Ein Symbol einer Datenquelle

ST: Symbol-Tabelle x,: erstes Symbol des i-ten Eintrags in der Header-Tabelle y,: zweites Symbol des i-ten Eintrags in der Header-Tabelle z: Zeichenzahl einer ersten Datenquelle z' : Zeichenzahl einer zweiten Datenquelle z" : Zeichenzahl einer weiteren Datenquelle

Z: Header-Tabelle

Claims

Patentansprüche

1. System zur Codierung einer ersten Datenquelle, mit einem Codierer, der eine Folge von Zeichen der ersten Datenquelle durch Datenkomprimierung teilweise oder vollständig auf Code-Zeichen abbildet, d a d u r c h g e k e n n z e i c h n e t, daß der Codierer a. für eine zweite Datenquelle, bei der eine Gruppe von zwei oder mehr Zeichen (a, b) der ersten Datenquelle auf ein neues Zeichen (ab) abgebildet ist, das Produkt aus der Entropie (H') der zweiten

Datenquelle und der Zeichenanzahl (z') der zweiten Datenquelle ermittelt, b. für eine weitere Datenquelle mit einer weiteren Gruppe von zwei oder mehr abgebildeten Zeichen der ersten Datenquelle ein weiteres Produkt der Entropie (H") der weiteren Datenquelle und der Zeichenanzahl (z") der weiteren Datenquelle ermittelt, c. diejenige Gruppe von Zeichen der ersten Datenquelle speichert, der von den in a. und b. ermittelten Produkten (H'- z', H"- z") das kleinere Produkt zugeordnet ist, und daß der Codierer d. eine gespeicherte Gruppe von Zeichen (a, b) der ersten Datenquelle durch ein neues Zeichen (ab) in der Folge von Zeichen der ersten Datenquelle ersetzt.

2. System nach Anspruch 1 , dadurch gekennzeichnet, daß das System eine Zieldatei umfaßt einschließlich einer Header-Datei, die aus

Einträgen der zwei oder mehr zu kombinierenden, beispielsweise benachbarten Zeichen (a,b) besteht.

3. System nach Anspruch 2, dadurch gekennzeichnet, daß zwei oder mehr nicht benachbarte Zeichen der ersten Datenquelle auf ein neues Zeichen abgebildet werden und daß zusätzlich die Information über die Abstände der nicht benachbarten Zeichen in der Header-Datei erfaßt wird.

5 4. System nach mindestens einem der vorhergehenden Ansprüche, dadurch gekennzeichnet, daß die Codierung abhängig von einer Datenstruktur einer zu komprimierenden Ausgangsdatei, insbesondere der Dateilänge, erfolgt.

o 5. System nach mindestens einem der vorhergehenden Ansprüche, dadurch gekennzeichnet, daß die Codierung abhängig von der Art der Anwendung, insbesondere dem Speicherplatz und dem Zeitbedarf für Komprimierung und Dekomprimierung, erfolgt.

i5 6. System nach mindestens einem der vorhergehenden Ansprüche, dadurch gekennzeichnet, daß die Produktermittlung eine Iteration über eine Vielzahl weiterer Datenquellen mit weiteren möglichen Zeichenkombinationen umfaßt, die mit der Ermittlung eines minimalen Produkts (H' ^■ z') endet.

20

7. System nach einem der Ansprüche 2 bis 6, dadurch gekennzeichnet, daß der Schritt des Ersetzens von Zeichen (a,b) durch ein Kombinationszeichen (a,b) so lange wiederholt wird, bis eine minimale Länge der Zieldatei einschließlich der Header-Datei als

25 Abbruchkriterium erreicht ist.

8. System nach mindestens einem der vorhergehenden Ansprüche, dadurch gekennzeichnet, daß gemäß einem vom Anwender gewählten Parameter bestimmbar ist, wieviel Zeichen jeweils zu einem

30 Kombinationszeichen zusammengefaßt werden.

9. System nach mindestens einem der Ansprüche 1 bis 7, dadurch gekennzeichnet, daß die Produktermittlung auf eine Heuristik zurückgreift, nach der automatisch die Anzahl der zusammenfaßbaren Zeichen spezifisch für den Anwendungsfall bestimmt wird.

10. System nach mindestens einem der vorhergehenden Ansprüche, dadurch gekennzeichnet, daß die Codierung folgenden Zusatzschritt umfaßt: nach einer erfolgten Zusammenfassung von Zeichen zu einem Kombinationszeichen wird in einer weiteren Datenquelle ein Kombinationszeichen (a,b) durch seine ursprünglichen Einzelzeichen (a,b) ersetzt und das Produkt aus Entropie (H") und Zeichenzahl (z") ermittelt und mit dem entsprechenden Produkt der zweiten Datenquelle verglichen und, falls sich für die weitere Datenquelle ein kleineres Produkt ergibt, eine Auflösung des Kombinationszeichens in Einzelzeichen einer vorhergehenden Datenquelle vorgenommen.

1 1 . System nach Anspruch 10, dadurch gekennzeichnet, daß das System einen vom Anwender bestimmbaren Parameter umfaßt, nach dem der Zusatzschritt der Zeichenauflösung wahlweise verwendet oder nicht verwendet wird.

12. System nach mindestens einem der Ansprüche 10 oder 11 , dadurch gekennzeichnet, daß das System einen vom Anwender bestimmbaren Parameter umfaßt, nach dem der Zusatzschritt der Zeichenauflösung erst ab einer durch den Parameter bestimmten Codierungstiefe zuschaltbar ist.

13. System zur Codierung einer Datenquelle durch Datenkomprimierung unter Verwendung einer Header-Datei nach Anspruch 2, dadurch gekennzeichnet, daß durch Vertauschen der Header-Einträge ohne Informationsverlust auf einzelne Headerdaten verzichtet und dadurch eine Speicherplatzreduktion in der Header-Datei erzielt wird.

14. System zur Codierung einer Datenquelle durch Datenkomprimierung unter Verwendung der Zieldatei nach Anspruch 2, dadurch gekennzeichnet, daß die in der Zieldatei enthaltene Folge von ursprünglichen Zeichen und Code-Zeichen anschließend einer Entropie-Codierung unterworfen wird.

15. System zur Dekomprimierung der Zieldatei einschließlich der Header-Datei nach Anspruch 2, dadurch gekennzeichnet, daß die Kombinationszeichen in der Zieldatei mit Hilfe der Header-Datei schrittweise in Kombinationszeichen niedrigerer Ordnung und/oder in ihre Einzelzeichen rückübersetzt werden.

16. Verfahren zur Codierung einer ersten Datenquelle, mit einem Codierer, der eine Folge von Zeichen der ersten Datenquelle durch Datenkomprimierung teilweise oder vollständig auf Code-Zeichen abbildet, d a d u r c h g e k e n n z e i c h n e t, daß der Codierer a. für eine zweite Datenquelle, bei der eine Gruppe von zwei oder mehr Zeichen (a, b) der ersten Datenquelle auf ein neues Zeichen (ab) abgebildet ist, das Produkt aus der Entropie (H') der zweiten Datenquelle und der Zeichenanzahl (z') der zweiten Datenquelle ermittelt, b. für eine weitere Datenquelle mit einer weiteren Gruppe von zwei oder mehr abgebildeten Zeichen der ersten Datenquelle ein weiteres Produkt der Entropie (H") der weiteren Daten- quelle und der Zeichenanzahl (z") der weiteren Datenquelle ermittelt, c. diejenige Gruppe von Zeichen der ersten Datenquelle speichert, der von den in a. und b. ermittelten Produkten (H' • z' , H" ^• z") das kleinere Produkt zugeordnet ist, und daß der Codierer d. eine gespeicherte Gruppe von Zeichen (a, b) der ersten Datenquelle durch ein neues Zeichen (ab) in der Folge von Zeichen der ersten Datenquelle ersetzt.

17. Verfahren nach Anspruch 16, dadurch gekennzeichnet, daß der Codierer eine Zieldatei umfaßt einschließlich einer Header-Datei, die aus Einträgen der zwei oder mehr zu kombinierenden, beispielsweise benachbarten Zeichen (a,b) besteht.

18. Verfahren nach Anspruch 17, dadurch gekennzeichnet, daß zwei oder mehr nicht benachbarte Zeichen der ersten Datenquelle auf ein neues Zeichen abgebildet werden und daß zusätzlich die Information über die Abstände der nicht benachbarten Zeichen in der Header-Datei erfaßt wird.

19. Verfahren nach mindestens einem der Ansprüche 16-18, dadurch gekennzeichnet, daß die Codierung abhängig von einer Datenstruktur einer zu komprimierenden Ausgangsdatei, insbesondere der Dateilänge, erfolgt.

20. Verfahren nach mindestens einem der Ansprüche 16-19, dadurch gekennzeichnet, daß die Codierung abhängig von der Art der Anwendung, insbesondere dem Speicherplatz und dem Zeitbedarf für Komprimierung und Dekomprimierung, erfolgt.

21. Verfahren nach mindestens einem der Ansprüche 16-20, dadurch gekennzeichnet, daß die Produktermittlung eine Iteration über eine Vielzahl weiterer Datenquellen mit weiteren möglichen Zeichenkombinationen umfaßt, die mit der Ermittlung eines minimalen Produkts (H^{1 •} z') endet.

22. Verfahren nach einem der Ansprüche 17-21 , dadurch gekennzeichnet, daß der Schritt des Ersetzens durch ein Kombinationszeichen so lange wiederholt wird, bis eine minimale Länge der Zieldatei einschließlich der Header-Datei als Abbruchkriterium erreicht ist.

23. Verfahren nach mindestens einem der Ansprüche 16-22, dadurch gekennzeichnet, daß gemäß einem vom Anwender gewählten Parameter bestimmbar ist, wieviel Zeichen jeweils zu einem Kombina- tionszeichen zusammengefaßt werden.

24. Verfahren nach mindestens einem der Ansprüche 16-23, dadurch gekennzeichnet, daß die Produktermittlung auf eine Heuristik zurückgreift, nach der automatisch die Anzahl der zusammenfaßbaren Zeichen spezifisch für den Anwendungsfall bestimmt wird.

25. Verfahren nach mindestens einem der Ansprüche 16-24, dadurch gekennzeichnet, daß die Codierung folgenden Zusatzschritt umfaßt: nach einer erfolgten Zusammenfassung von Zeichen zu einem Kombinationszeichen wird in einer weiteren Datenquelle ein Kombinationszeichen durch seine ursprünglichen Einzelzeichen ersetzt und das Produkt aus Entropie und Zeichenzahl ermittelt und mit dem entsprechenden Produkt der zweiten Datenquelle verglichen und. falls sich für die weitere Datenquelle ein kleineres Produkt ergibt, eine Auflösung des Kombinationszeichens in Einzelzeichen einer vorhergehenden Datenquelle vorgenommen.

26. Verfahren nach Anspruch 25, dadurch gekennzeichnet, daß das Verfahren einen vom Anwender bestimmbaren Parameter umfaßt, nach dem der Zusatzschritt der Zeichenauflösung wahlweise verwendet oder nicht verwendet wird.

27. Verfahren nach mindestens einem der Ansprüche 25 oder 26, dadurch gekennzeichnet, daß das Verfahren einen vom Anwender bestimmbaren Parameter umfaßt, nach dem der Zusatzschritt der Zeichenauflösung erst ab einer durch den Parameter bestimmten Codierungstiefe zuschaltbar ist.

28. Verfahren zur Codierung einer Datenquelle durch Datenkomprimierung unter Verwendung einer Header-Datei nach Anspruch 17, dadurch gekennzeichnet, daß durch Vertauschen der Header-Einträge ohne Informationsverlust auf einzelne Einträge verzichtet und dadurch eine Speicherplatzreduktion in der Header-Datei erzielt wird.

29. Verfahren zur Codierung einer Datenquelle durch Datenkomprimierung unter Verwendung der Zieldatei nach Anspruch 17, dadurch gekennzeichnet, daß die in der Zieldatei enthaltene Folge von ursprünglichen Zeichen und Code-Zeichen anschließend einer En- tropie-Codierung unterworfen wird.

30. Verfahren zur Dekomprimierung der Zieldatei einschließlich der Header-Datei nach Anspruch 17, dadurch gekennzeichnet, daß die Kombinationszeichen in der Zieldatei mit Hilfe der Header-Datei schrittweise in Kombinationszeichen niedrigerer Ordnung und/oder in ihre Einzelzeichen niedrigerer Ordnung rückübersetzt werden.

31. System zur Codierung einer Datenquelle, mit einem Codierer, der eine Folge von Zeichen der Datenquelle durch refererizierende Datenkomprimierung teilweise oder vollständig auf neue Codezeichen abbildet, und mit einer Zieldatei zur Speicherung einer die neuen Codezeichen enthaltenden komprimierten Datenquelle, einschließlich einer Headerdatei, die aus Einträgen von zwei oder mehr zu kombinierenden Zeichen besteht, dadurch gekennzeichnet, daß zwei oder mehr nicht benachbarte Zeichen der Datenquelle auf ein neues Codezeichen abgebildet werden, und daß in der Headerdatei zusätzlich zu den neuen Codezeichen eine Information über die Abstände der nicht benachbarten Zeichen erfaßt wird.

32. System zur Codierung einer ersten Datenquelle, mit einem Codierer, der eine Folge von Zeichen der ersten Datenquelle durch referenzierende Datenkomprimierung teilweise oder vollständig auf neue Kombinationszeichen abbildet, wobei der Codierer für eine zweite Datenquelle, bei der eine Gruppe von zwei oder mehr Einzelzeichen der ersten Datenquelle auf ein neues Kombinationszeichen abgebildet ist, nach einem vorgegebenen Kriterium ermittelt, ob ein Codierungsgewinn vorliegt, dadurch gekennzeichnet, daß die Codierung folgenden Zusatzschritt umfaßt: nach einer erfolgten Zusammenfassung von Einzelzeichen der ersten

Datenquelle zu einem Kombinationszeichen der zweiten Datenquelle wird in einer weiteren Datenquelle das Kombinationszeichen durch seine ursprünglichen Einzelzeichen ersetzt, dann wird nach dem vorgegebenen Kriterium untersucht, ob ein

Codierungsgewinn für die weitere Datenquelle vorliegt, und. falls ein Codierungsgewinn eintritt, wird eine Auflösung des

Kombinationszeichens in die Einzelzeichen der ersten Datenquelle vorgenommen.

33. System zur Codierung einer Datenquelle mit einem Codierer, der eine Folge von Zeichen der Datenquelle durch referenzierende Datenkomprimierung teilweise oder vollständig auf neue Codezeichen abbildet, und mit einer Zieldatei zur Speicherung einer die neuen Codezeichen enthaltenden komprimierten Datenquelle, einschließlich einer Headerdatei, die aus Einträgen von zwei oder mehr zu kombinierenden Zeichen besteht, dadurch gekennzeichnet, daß durch Vertauschen der Headereinträge ohne Informationsverlust auf einzelne Headerdaten verzichtet und dadurch eine Speicherplatzreduktion in der Headerdatei erzielt wird.

34. Verfahren zur Codierung einer Datenquelle, mit einem Codierer, der eine Folge von Zeichen der Datenquelle durch referenzierende Datenkomprimierung teilweise oder vollständig auf neue Codezeichen abbildet, und mit einer Zieldatei zur Speicherung einer die neuen Codezeichen enthaltenden komprimierten Datenquelle, einschließlich einer Headerdatei, die aus Eintragen von zwei oder mehr zu kombinierenden Zeichen besteht, dadurch gekennzeichnet, daß zwei oder mehr nicht benachbarte Zeichen der Datenquelle aut ein neues Codezeichen abgebildet werden, und daß in- der Headerdatei zusätzlich zu den neuen Codezeichen eine Information über die Abstände der nicht benachbarten Zeichen erfaßt wird.

Verfahren zur Codierung einer ersten Datenquelle, mit einem Codierer, der eine Folge von Zeichen der ersten Datenquelle durch referenzierende Datenkomprimierung teilweise oder vollständig auf ein neues Kombinationszeichen abbildet, wobei der Codierer für eine zweite Datenquelle, bei der eine Gruppe von zwei oder mehr Einzelzeichen der ersten Datenquelle auf das neue Kombinationszeichen abgebildet ist, nach einem vorgegebenen Kriterium ermittelt, ob ein Codierungsgewinn vorliegt, dadurch gekennzeichnet, daß die Codierung folgenden Zusatzschritt umfaßt:

nach einer erfolgten Zusammenfassung von Einzelzeichen der ersten Datenquelle zu einem Kombinationszeichen der zweiten Datenquelle wird in einer weiteren Datenquelle das Kombinationszeichen durch seine ursprünglichen Einzelzeichen ersetzt, dann wird nach dem vorgegebenen Kriterium untersucht, ob ein

Codierungsgewinn für die weitere Datenquelle vorliegt, und, falls ein Codierungsgewinn eintritt, wird eine Auflosung des Kombinationszeichens in die Einzelzeichen der ersten Datenquelle vorgenommen.

36. Verfahren zur Codierung einer Datenquelle mit einem Codierer, der eine Folge von Zeichen der Datenquelle durch referenzierende Datenkomprimierung teilweise oder vollständig auf neue Codezeichen abbildet, und mit einer Zieldatei zur Speicherung einer die neuen Codezeichen enthaltenden komprimierten Datenquelle, einschließlich einer Headerdatei, die aus Einträgen von zwei oder mehr zu kombinierenden Zeichen besteht, dadurch gekennzeichnet, daß durch Vertauschen der Headereinträge ohne Informationsverlust auf einzelne Headerdaten verzichtet und dadurch eine Speicherplatzreduktion in der Headerdatei erzielt wird.