WO2021259935A1

WO2021259935A1 - Verfahren und vorrichtungen zur codierung von bilddaten

Info

Publication number: WO2021259935A1
Application number: PCT/EP2021/067009
Authority: WO
Inventors: Matthias Narroschke
Original assignee: Hochschule RheinMain
Priority date: 2020-06-22
Filing date: 2021-06-22
Publication date: 2021-12-30
Also published as: US20230247226A1; DE102020207711B3; EP4169253A1

Abstract

Die vorliegende Erfindung betrifft Verfahren und Vorrichtungen zum Codieren von Bilddaten, wobei ein Prädiktionsfehlerblock in eine elementweise Linearkombination zerlegt wird. Der Prädiktionsfehlerblock enthält Prädiktionsfehler eines Blocks von Bilddaten. Die Linearkombination enthält dabei einen ersten Block erster Prädiktionsfehler und einen zweiten Block zweiter Prädiktionsfehler. Der zweite Block wird transformiert und zusammen mit dem ersten Block codiert. Zudem betrifft die Erfindung Verfahren und Vorrichtungen zum Decodieren von Bilddaten, wobei ein Bitstrom einen ersten Block an Prädiktionsfehlern und einen transformierten zweiten Block zweiter Prädiktionsfehler enthält. Nach Rücktransformation des transformierten zweiten Blocks wird ein Prädiktionsfehlerblock durch eine Linearkombination bestimmt, die den ersten Block und den rücktransformierten zweiten Block enthält.

Description

VERFAHREN UND VORRICHTUNGEN ZUR CODIERUNG VON BILDDATEN

Die vorliegende Erfindung betrifft Verfahren und Vorrichtungen zur Codierung und Decodierung von Bilddaten.

Verfahren und Vorrichtungen zur Codierung und Decodierung von Bilddaten, insbesondere von Videodaten, werden in einem breiten Bereich der digitalen Bild-/Videoverarbeitung und - Übertragung eingesetzt. Beispiele hierfür ist die Ausstrahlung eines digitalen Fernsehprogramms, Bild-/Videoübertragung über das Internet oder mobile Netzwerke, Echtzeitanwendungen wie Videokonferenzsysteme, sowie die Speicherung und das Auslesen von Bild-/Videodaten auf Datenträgern wie DVDs oder Blu-rays.

Die Datenmenge, die notwendig ist, um auch ein Video geringer Laufzeit abzubilden kann so groß sein, dass Schwierigkeiten bei der Datenübertragung über Netzwerke limitierter Bandbreite auftreten können. Ferner kann der zur Verfügung stehende Speicherplatz einer DVD oder einer Blu-ray-disc nicht ausreichen, um ein gewisses Video vollständig zu speichern.

Aus diesen Gründen werden Bild- bzw. Videodaten üblicherweise komprimiert, bevor sie gespeichert oder über ein Netzwerk übertragen werden. Die Kompression wird üblicherweise an einer Datenquelle durchgeführt, die durch Nutzung dedizierter Software oder Hardware die Bild- /Videodaten vor der Übertragung oder Speicherung codiert, wodurch die benötigte Datenmenge reduziert werden kann. Die komprimierten Daten werden dann am Ziel empfangen und decodiert, um zum Beispiel das übertragene Bild bzw. Video anzeigen zu können.

Da die angestrebte Bildqualität stetig steigt, ist es somit erstrebenswert, die Komprimierungsrate zu verbessern, ohne dabei signifikante Verluste der Bildqualität hinnehmen zu müssen. Es ist somit Aufgabe der vorliegenden Erfindung, die Komprimierungsrate von Bilddaten zu verbessern, um eine verringerte benötigte Datenrate oder einen verringerten benötigten Speicherbedarf zu erreichen.

Diese Aufgabe wird durch die unabhängigen Ansprüche gelöst. Die abhängigen Ansprüche definieren vorteilhafte Ausführungsformen.

Die vorliegende Erfindung betrifft gemäß einem ersten Aspekt ein Verfahren zum Codieren von Bilddaten. Das Verfahren umfasst das Bestimmen eines Prädiktionsfehlerblocks, welcher Prädiktionsfehler eines Blocks der Bilddaten enthält. Das Verfahren umfasst ferner das Zerlegen des Prädiktionsfehlerblocks in eine Linearkombination, die einen ersten Block erster Prädiktionsfehler und einen zweiten Block zweiter Prädiktionsfehler enthält. Des Weiteren umfasst das Verfahren das Transformieren des zweiten Blocks sowie das Codieren des ersten Blocks und des transformierten zweiten Blocks.

In anderen Worten betrifft die Erfindung ein Verfahren zum Codieren von Bilddaten, wobei ein Prädiktionsfehlerblock nicht notwendigerweise direkt transformiert und quantisiert bzw. direkt quantisiert wird, bevor er codiert wird, sondern aufgeteilt wird in eine Linearkombination, die zwei Blöcke enthält, den ersten Block und den zweiten Block. Das bedeutet, der Prädiktionsfehlerblock ergibt sich durch die Linearkombination, einschließlich der beiden Blöcke. Nachfolgend wird nur einer der beiden Blöcke, der zweite Block, transformiert, um einen transformierten zweiten Block zu erhalten. Der erste Block wird hingegen nicht transformiert. Daraufhin werden der nicht transformierte erste Block und der transformierte zweite Block codiert.

Wenigstens ein Prädiktionsfehler wird durch eine Linearkombination von einem ersten von Null verschiedenen Prädiktionsfehler und eines zweiten von Null verschiedenen Prädiktionsfehler erhalten. Dabei kann die Codierung eine Quantisierung des ersten Blocks und des transformierten zweiten Blocks enthalten. Ferner kann die Codierung eine Entropie-Codierung des (evtl quantisierten) ersten Blocks und des (evtl quantisierten) transformierten zweiten Blocks enthalten.

Die Bilddaten können ein unbewegtes Bild, ein bewegtes Bild (i.e. ein Video) oder eine Folge an unbewegten oder bewegten Bildern darstellen. Dabei kann das Verfahren blockbasiert durchgeführt werden, wobei jeder Block einen Anteil eines zu codierenden Bilds enthält. Die Blöcke können dabei Bildpunktwerte, Pixelwerte, Bildabtastwerte oder dergleichen enthalten.

Durch das Verfahren gemäß dem ersten Aspekt wird kann eine Reduktion der zur Codierung der Prädiktionsfehler notwendigen Datenrate erreicht werden, ohne dabei die Qualität des codierten Bildes zu reduzieren. Gemäß einer Ausführungsform weisen die ersten Prädiktionsfehler untereinander geringere statistische Abhängigkeiten als die zweiten Prädiktionsfehler auf.

In anderen Worten, eine statistische Abhängigkeit der ersten Prädiktionsfehler des ersten Blocks untereinander kann geringer sein als eine statistische Abhängigkeit der zweiten Prädiktionsfehler des zweiten Blocks untereinander. Dies erlaubt eine Reduktion der benötigten Datenrate, da die Codierungsverfahren an die jeweiligen statistischen Eigenschaften der Prädiktionsfehler angepasst sind. Das heißt, der Anteil der Prädiktionsfehler, der eine geringe statistische Abhängigkeit aufweist, kann ohne Transformation codiert werden, was eine verbesserte Datenrate bedingt als eine Codierung mit Transformation. In ähnlicher Weise kann der Anteil der Prädiktionsfehler, der eine höhere statistische Abhängigkeit aufweist, mit Transformation codiert werden, was eine verbesserte Datenrate bedingt als eine Codierung ohne Transformation.

Gemäß einer weiteren Ausführungsform ergeben die ersten Prädiktionsfehler und die zweiten Prädiktionsfehler in Summe die entsprechenden Prädiktionsfehler des Prädiktionsfehlerblocks.

In anderen Worten ergibt die Summe eines bestimmten ersten Prädiktionsfehlers des ersten Blocks und des entsprechenden zweiten Prädiktionsfehlers des zweiten Blocks den entsprechenden Prädiktionsfehler des Prädiktionsfehlerblocks. Dies kann für sämtliche Prädiktionsfehler des ersten, des zweiten und des Prädiktionsfehlerblocks gelten. Das bedeutet, auf Pixelbasis ergibt jeweils die Summe der ersten Prädiktionsfehler und der zweiten Prädiktionsfehler die Prädiktionsfehler des Prädiktionsfehlerblocks.

Dies ermöglicht es, dass die Prädiktionsfehler vollständig kodiert werden. In anderen Worten, wenn die Linearkombination eine Summe des ersten Blocks und des zweiten Blocks darstellt, die den Prädiktionsfehlerblock ergibt, werden sämtliche Prädiktionsfehler codiert.

Gemäß einer weiteren Ausführungsform weisen der Prädiktionsfehlerblock, der erste Block und der zweite Block jeweils die gleiche Größe auf.

Die gleiche Größe des ersten Blocks und des zweiten Blocks erlauben eine direkte Bestimmung des Prädiktionsfehlerblocks auf einer Encoderseite. Eine komplexe Adressverwaltung und/oder Zuordnung bzw. Bestimmung der einzelnen Prädiktionsfehler des ersten und des zweiten Blocks ist somit nicht notwendig. Die vorliegende Erfindung kann jedoch auch Blöcke unterschiedlicher Größen unterstützen.

Gemäß einer weiteren Ausführungsform enthält die Zerlegung des Prädiktionsfehlerblocks eine Minimierung einer Summe der Absolutwerte der ersten Prädiktionsfehler des ersten Blocks.

In anderen Worten, durch die Zerlegung kann die Summe der Absolutwerte (d.h. der Beträge) eine Minimierung der ersten Prädiktionsfehler enthalten. Dabei ist nicht zwingend erforderlich, dass die Zerlegung die theoretisch bestmögliche Minimierung erzielt. Da die Absolutwerte der Prädiktionsfehler als ein Maß für die zur Codierung benötigte Datenrate angesehen werden können, erfolgt durch die Minimierung der Absolutwerte auf einfache Weise eine Minimierung der zur Codierung benötigten Datenrate.

Gemäß einer weiteren Ausführungsform enthält die Zerlegung des Prädiktionsfehlerblocks eine Minimierung einer Summe der Absolutwerte der transformierten Prädiktionsfehler des transformierten zweiten Blocks.

In anderen Worten, durch die Zerlegung kann die Summe der Absolutwerte (d.h. der Beträge) eine Minimierung der transformierten zweiten Prädiktionsfehler enthalten. Dabei ist nicht zwingend erforderlich, dass die Zerlegung die theoretisch bestmögliche Minimierung erzielt. Da die Absolutwerte der transformierten Prädiktionsfehler als ein Maß für die zur Codierung des transformierten zweiten Blocks benötigte Datenrate angesehen werden können, erfolgt durch die Minimierung der Absolutwerte auf einfache Weise eine Minimierung der zur Codierung benötigten Daten rate.

Gemäß einer weiteren Ausführungsform umfasst das Verfahren ferner das Einfügen des codierten ersten Blocks und des codierten transformierten zweiten Blocks in einen Bitstrom. Das Verfahren umfasst ferner das Einfügen eines Indikators in den Bitstrom, der in der Lage ist, anzuzeigen, dass der Bitstrom den codierten ersten Block und den codierten transformierten zweiten Block enthält.

Das bedeutet, dass der Bitstrom den ersten Block und den transformierten Zweiten Block enthält, kann durch Einfügen des Indikators in den Bitstrom angezeigt werden.

Dies kann zum Beispiel ermöglichen, dass einer decodierenden Seite die Information mitgeteilt werden kann, dass bzw. ob der Bitstrom den ersten Block und den transformierten zweiten Block enthält.

Das Einfügen des Indikators in den Bitstrom ermöglicht zum Beispiel ein dynamisches An- und Ausschalten der Zerlegung des Prädiktionsfehlerblocks in einen ersten Prädiktionsfehlers des ersten Blocks und des entsprechenden zweiten Prädiktionsfehlers des zweiten Blocks. Zudem muss durch den Indikator bei der Decodierung nicht geschätzt werden, ob die Zerlegung des Prädiktionsfehlerblocks erfolgte, was wiederum zu einer Reduktion der benötigten Rechenkapazität führt. Gemäß einer bevorzugten Ausführungsform ist der Indikator ferner in der Lage, anzuzeigen, dass der Bitstrom nur den kodierten ersten Block, nur den codierten transformierten zweiten Block oder keinen des codierten ersten Blocks und des codierten transformierten zweiten Blocks enthält.

In anderen Worten, der Indikator kann anzeigen, dass der Bitstrom nur den ersten Block enthält. Ferner kann der Indikator anzeigen, dass der Bitstrom nur den transformierten zweiten Block enthält. Ferner kann der Indikator anzeigen, dass der Bitstrom sowohl den ersten Block als auch den transformierten zweiten Block enthält. Zudem kann der Indikator anzeigen, dass der Bitstrom weder den ersten noch den zweiten Block enthält.

Dies ermöglicht es, dass ein einziger Indikator nicht nur anzeigen kann, dass der Bitstrom den ersten und den transformierten zweiten Block enthält, sondern auch zum Anzeigen anderer Codierungsverfahren verwendet werden kann.

Die vorliegende Erfindung betrifft ferner gemäß einem zweiten Aspekt ein Verfahren zum Decodieren von Bilddaten. Das Verfahren umfasst das Erhalten eines Bitstroms, der einen codierten ersten Block erster Prädiktionsfehler und einen codierten transformierten zweiten Block zweiter Präfiktionsfehler enthält. Ferner umfasst das Verfahren das Decodieren des ersten Blocks und des transformierten zweiten Blocks sowie das Rücktransformieren des transformierten zweiten Blocks. Ferner umfasst das Verfahren das Bestimmen eines Prädiktionsfehlerblocks, welcher Prädiktionsfehler eines Blocks der Bilddaten enthält, durch eine Linearkombination, die den ersten Block und den rücktransformierten zweiten Block enthält.

In anderen Worten betrifft die Erfindung ein Verfahren zum Decodieren von Bilddaten, wobei anstatt eines einzelnen, evtl transformierten, Prädiktionsfehlerblocks zwei Blöcke empfangen und decodiert werden (der erste Block und der transformierte zweite Block). Der Prädiktionsfehlerblock ergibt sich dann durch Linearkombination, die den ersten Block und den rücktransformierten zweiten Block enthält.

Durch das Verfahren gemäß dem zweiten Aspekt kann ein Prädiktionsfehler eines Blocks der Bilddaten erhalten werden, der mit einer reduzierten Datenrate codiert wurde, ohne dabei die Qualität des codierten Bildes zu reduzieren.

Gemäß einer Ausführungsform enthält die Linearkombination eine Summe des ersten Blocks und des rücktransformierten zweiten Blocks.

In anderen Worten ergibt die Summe eines bestimmten ersten Prädiktionsfehlers des ersten Blocks und des entsprechenden zweiten Prädiktionsfehlers des rücktransformierten zweiten Blocks den entsprechenden Prädiktionsfehler des Prädiktionsfehlerblocks. Dies kann für sämtliche Prädiktionsfehler des ersten, des rücktransformierten zweiten und des Prädiktionsfehlerblocks gelten. Das bedeutet, auf Pixelbasis ergibt jeweils die Summe der ersten Prädiktionsfehler und der zweiten Prädiktionsfehler die Prädiktionsfehler des Prädiktionsfehlerblocks.

Dies ermöglicht es, dass die Prädiktionsfehler vollständig erhalten werden. In anderen Worten, wenn die Linearkombination eine Summe des ersten Blocks und des rücktransformierten zweiten Blocks darstellt, die den Prädiktionsfehlerblock ergibt, werden sämtliche Prädiktionsfehler decodiert.

Gemäß einer weiteren Ausführungsform umfasst das Verfahren ferner das Bestimmen, dass der Bitstrom den codierten ersten Block und den codierten transformierten zweiten Block enthält.

Das bedeutet, vor Bestimmung des Prädiktionsfehlerblocks durch die Linearkombination kann festgestellt werden, dass der Bitstrom den ersten Block und den transformierten zweiten Block enthält.

Gemäß einer weiteren Ausführungsform enthält der Bitstrom einen Indikator, der in der Lage ist, anzuzeigen, dass der Bitstrom den codierten ersten Block und den codierten transformierten zweiten Block enthält. Ferner wird auf Grundlage des Indikators bestimmt, dass der Bitstrom den codierten ersten Block und den codierten transformierten zweiten Block enthält.

In anderen Worten kann der Indikator anzeigen, ob der Bitstrom die genannten Blöcke enthält oder nicht. Abhängig davon, ob der Indikator anzeigt, dass die genannten Blöcke im Bitstrom vorhanden sind, können der erste Block und der transformierte zweite Block decodiert und weiter verarbeitet werden.

Durch den Indikator wird zum Beispiel ein dynamisches An- und Ausschalten des Verfahrens mit der Zerlegung des Prädiktionsfehlerblocks ermöglicht. Zudem muss durch den Indikator bei der Decodierung nicht geschätzt werden, ob die Zerlegung des Prädiktionsfehlerblocks erfolgte, was wiederum zu einer Reduktion der benötigten Rechenkapazität führt.

Gemäß einer spezifischen Ausführungsform ist der Indikator in der Lage, anzuzeigen, dass der Bitstrom nur den codierten ersten Block, nur den codierten transformierten zweiten Block, sowohl den codierten ersten Block als auch den codierten transformierten zweiten Block, oder keinen des codierten ersten Blocks und des codierten transformierten zweiten Blocks enthält. Ferner umfasst die Linearkombination eine gewichtete Summe des ersten Blocks und des zweiten Blocks, wobei Gewichte der gewichteten Summe auf Grundlage des Indikators bestimmt werden.

Das heiß, der Indikator ist nicht nur in der Lage, anzuzeigen, dass der erste Block und der transformierte zweite Block im Bitstrom enthalten ist, sondern auch, ob nur der erste Block, nur der transformierte zweite Block und/oder keiner der beiden im Bitstrom vorhanden ist.

Die vorliegende Erfindung betrifft ferner gemäß einem dritten Aspekt eine Vorrichtung zum Codieren von Bilddaten, wobei die Vorrichtung eine Einheit zum Bestimmen eines Prädiktionsfehlerblocks, welcher Prädiktionsfehler eines Blocks der Bilddaten enthält, umfasst. Die Vorrichtung umfasst ferner eine Einheit zum Zerlegen des Prädiktionsfehlerblocks in eine Linearkombination, die einen ersten Block erster Prädiktionsfehler und einen zweiten Block zweiter Prädiktionsfehler enthält. Ferner umfasst die Vorrichtung eine Einheit zum Transformieren des zweiten Blocks und eine Einheit zum Codieren des ersten Blocks und des transformierten zweiten Blocks.

Die vorliegende Erfindung betrifft ferner gemäß einem vierten Aspekt eine Vorrichtung zum Decodieren von Bilddaten, wobei die Vorrichtung eine Einheit zum Erhalten eines Bitstroms, der einen codierten ersten Block erster Prädiktionsfehler und einen codierten transformierten zweiten Block zweiter Präfiktionsfehler enthält, umfasst. Die Vorrichtung umfasst ferner eine Einheit zum Decodieren des ersten Blocks und des transformierten zweiten Blocks, eine Einheit zum Rücktransformieren des transformierten zweiten Blocks, und eine Einheit zum Bestimmen eines Prädiktionsfehlerblocks, welcher Prädiktionsfehler des Blocks der Bilddaten enthält, durch eine Linearkombination, die den ersten Block und den zweiten Block enthält.

Die vorliegende Erfindung betrifft ferner eine Vorrichtung zum Codieren von Bilddaten, umfassend einen Prozessor, der eingerichtet ist, ein Verfahren nach dem ersten Aspekt und/oder dessen Ausführungsformen auszuführen.

Die vorliegende Erfindung betrifft ferner eine Vorrichtung zum Decodieren von Bilddaten, umfassend einen Prozessor, der eingerichtet ist, ein Verfahren nach dem zweiten Aspekt und/oder dessen Ausführungsformen auszuführen. Gemäß einer vorteilhaften Ausführungsform wird ein auf einem Speichermedium gespeichertes Computerprogramm breitgestellt, welches, wenn von einem oder mehreren Prozessoren ausgeführt, die Schritte eines der oben erwähnten Verfahren durchführt.

Zusätzliche Vorteile und Vorzüge der vorliegenden Erfindung ergeben sich aus der detaillierten Beschreibung einer bevorzugten Ausführungsform und den Zeichnungen.

KURZE BESCHREIBUNG DER ZEICHNUNGEN

Fig. 1 zeigt schematisch ein Beispiel einer Implementierung einer Codiervorrichtung nach dem Stand der Technik. Fig. 2A zeigt Beispiele für Prädiktionsfehlerblöcke mit deren transformierten Prädiktionsfehlerblöcken zusammen mit einem Maß für die zur Codierung benötigte Daten rate.

Fig. 2B ist eine schematische Darstellung von einer Zerlegung zweier gleich großen Blöcke und zweier Blöcke mit unterschiedlichen Größen. Fig. 3 zeigt ein Beispiel einer Zerlegung eines Prädiktionsblocks, welcher Prädiktionsfehler eines Blocks enthält in eine Linearkombination, die einen ersten Block und einen zweiten Block enthält, zusammen mit einem Maß für die zur Codierung benötigten Daten rate.

Fig. 4 zeigt schematisch ein Beispiel einer Implementierung einer Codiervorrichtung entsprechend einer Ausführungsform.

Fig. 5 zeigt die Schritte eines Codierverfahrens entsprechend einer Ausführungsform. Fig. 6 zeigt ein Beispiel der Schritte einer Implementierung der Zerlegung eines Prädiktionsfehlerblocks in einen ersten Block und einen zweiten Block.

Fig. 7A zeigt ein Beispiel eines Ergebnisses einer Zerlegung eines Prädiktionsfehlerblocks nach einer Ausführungsform.

Fig. 7B zeigt ein weiteres Beispiel eines Ergebnisses einer Zerlegung eines Prädiktionsfehlerblocks nach einer Ausführungsform. Fig. 8 zeigt einen binären Entscheidungsbaum gemäß einer bevorzugten Ausführungsform.

Fig. 9 zeigt die Schritte eines Decodierverfahrens entsprechend einer Ausführungsform.

Fig. 10 zeigt die Schritte eines Codierverfahrens und die entsprechende funktionale Einheiten gemäß einerweiteren Ausführungsform.

Fig. 11 zeigt die Schritte eines Codierverfahrens und die entsprechende funktionale Einheiten gemäß einerweiteren Ausführungsform.

Fig. 12 zeigt die Schritte eines Codierverfahrens und die entsprechende funktionale Einheiten gemäß einerweiteren Ausführungsform. Fig. 13 zeigt die Schritte eines Decodierverfahrens und die entsprechende funktionale Einheiten gemäß einer Ausführungsform.

Fig. 14 zeigt die Schritte eines Decodierverfahrens und die entsprechende funktionale Einheiten gemäß einerweiteren Ausführungsform.

Fig. 15 zeigt die Schritte eines Decodierverfahrens und die entsprechende funktionale Einheiten gemäß einer Ausführungsform.

Fig. 16 zeigt die Schritte eines Decodierverfahrens und die entsprechende funktionale Einheiten gemäß einer Ausführungsform.

Fig. 17 zeigt die Schritte eines Decodierverfahrens und die entsprechende funktionale Einheiten gemäß einer Ausführungsform.

AUSFÜHRLICHE BESCHREIBUNG DER BEVORZUGTEN AUSFUHRUNGSFORM

Im Folgenden wird eine bevorzugte Ausführungsform der vorliegenden Erfindung anhand der Zeichnungen detailliert beschrieben.

Videocodierungsstandards beruhen üblicherweise auf sogenanntem hybriden Codieren, implementiert beispielsweise in den Standards MPEG-1 (ISO/IEC 11172 (MPEG-1), „Information technology - coding of moving pictures and associated audio for digital storage media at up to about 1.5 mbit/s“, 1992), MPEG-2 (ITU-T Recommendation H.262 und ISO/IEC 13818-2 (MPEG- io

1), „Information technology - Generic coding of moving pictures and associated audio Information“, 1995), H.264/AVC (ITU-T Recommendation H.264 and ISO/I EC 14496-10 (MPEG- 4) AVC, “Advanced Video Coding for Generic Audiovisual Services”, 2019), HEVC (ITA-T Recommendation H.265 und ISO/I EC 23008-2, “High Efficiency Video Coding”, 2019) und WC (B. Bross et al. : “Versatile Video Coding (Draft 8)” Document JVET-Q2001, 17. Treffen des Joint Video Experts Team (JVET), Brüssel, 2020.

Fig. 1 zeigt ein schematisches Blockbild eines Beispiels einer Vorrichtung zur Bildcodierung nach dem Stand der Technik nach HEVC und dem aufkommenden Standard WC. Die Vorrichtung umfasst einen Eingang, eine Einheit zur Bestimmung von Prädiktionsfehlern, eine Einheit T zur Transformation, Einheiten Q zur Quantisierung, eine Einheit IT zur inversen Transformation, eine Einheit zur Rekonstruktion, eine Loop-Filter-Einheit LF, eine Einheit P zur Prädiktion, eine Einheit ME zur Bewegungsabschätzung, sowie Einheiten EC zur Entropiecodierung.

Die Einheit zur Bestimmung von Prädiktionsfehlern, die Einheit T zur Transformation und die Einheiten Q zur Quantisierung können als Einheiten betrachtet werden, die eine Vorwärts- Verarbeitung des Bildsignals ausführen, wohingegen die Einheit zur Rekonstruktion, die Einheit IT zur inversen Transformation, die Einheit P zur Prädiktion zur als Einheiten der Rückwärts- Verarbeitung angesehen werden können. Diese Einheiten zur Rückwärts-Verarbeitung entsprechen den Einheiten, die in einer Vorrichtung zur Decodierung von Bilddaten realisiert werden.

Bilder und Bildaufteilung

Der Encoder empfängt überden Eingang ein Bild oder Bilddaten. Zum Beispiel erhält der Encoder eine Reihe an Bildern, die zusammen eine Bildreihe oder einen Videoabschnitt bilden. Ein Bild kann dabei angesehen werden als ein zweidimensionales Feld (Array) oder Matrix an Bildpunkten, Pixels bzw. Abtastwerten, denen jeweils ein Helligkeits- und/oder Farbwert zugeordnet ist. Die Anzahl der Bildpunkte des Bildes definieren die Größe und/oder Auflösung des Bildes. Zur Darstellung von Farbe werden üblicherweise drei Komponenten verwendet. Das heißt, das Bild kann in Form dreier Matrizen dargestellt werden. Im sogenannten RGB-Format enthält ein Bild Matrizen, die jeweils einen Rot-, Grün- und Blauwert ihrer Bildpunkte beinhalten. Üblicherweise wird jedoch der sogenannte YCbCr-Farbraum verwendet, in dem eine Luminanz Y und zwei Chrominanzwerte Cb und Cr enthalten sind. Die Luminanzkomponente Y gibt dabei eine Helligkeit bzw. einen Grauwert wieder, wohingegen die beiden Chrominanzwerte Cb und Cr die Chrominanz bzw. die Farbinformation enthalten. Der Encoder kann eine Aufteilungseinheit enthalten, die das Bild in eine Mehrzahl an Blöcken aufteilt. Diese Blöcke werden auch als „root blocks“, Makroblöcke (macro blocks), Codierbaumblöcke (coding tree blocks) oder Codierbaumeinheiten (coding tree units) bezeichnet. Die Aufteilungseinheit kann die gleiche Größe für sämtliche Blöcke verwenden oder die Blockgröße innerhalb eines Bildes ändern. Blöcke können selbst wieder als zweidimensionale Arrays (Matrizen) an Intensitäts- und Farbwerten angesehen werden. Die Codierung eines Bildes kann auf einer Blockbasis erfolgen. Das heißt, die Blöcke eines Bildes können separat und nacheinander oder in parallel codiert werden.

Prädiktionsfehlerbestimmung

Die Einheit zur Prädiktionsfehlerbestimmung kann eingerichtet sein, einen Prädiktionsfehlerblock r zu bestimmen, basierend auf einem Bildblock s und einem Prädiktionsblock s. Dies kann zum Beispiel durch Berechnung der Differenz aus dem Bildblock s und dem Prädiktionsblock s erfolgen, wie in Fig. 1 dargestellt.

Transformation

Die Einheit T zur Transformation kann eingerichtet sein, eine Transformation wie z.B. eine diskrete Kosinustransformation (DCT) oder eine diskrete Sinustransformation (DST) des Prädiktionsfehlerblocks durchzuführen, um einen transformierten Prädiktionsfehlerblock c zu erhalten.

In dem in Fig. 1 dargestellten Beispiel wird die Transformation nicht notwendigerweise für jeden Prädiktionsfehlerblock des Bildes durchgeführt. Vielmehr kann entschieden werden, ob die Transformation durchgeführt wird oder nicht, wie weiter unten beschrieben.

Der Encoder kann zum Beispiel eingerichtet sein, Parameter, die für die Transformation verwendet wurden, auszugeben, zum Beispiel über die Einheit EC zur Codierung, so dass zum Beispiel ein Decoder die Parameter erhalten und zur Rücktransformation verwenden kann.

Quantisierung

Die Einheiten Q zur Quantisierung quantisieren die transformierten oder nicht transformierten Prädiktionsfehlerblöcke, indem zum Beispiel eine skalare oder eine Vektorquantisierung durchgeführt wird. Der Quantisierungsprozess kann die benötigte Bittiefe reduzieren, indem die Prädiktionsfehler gerundet werden. Quantisierung stellt eine verlustbehaftete Codierung dar.

Inverse Quantisierung Der Encoder kann eine Einheit zur inversen Quantisierung enthalten, die der Einheit zur inversen Transformation vorgeschaltet sein kann. In der Einheit zur inversen Quantisierung wird eine inverse Quantisierung durchgeführt, indem ein inverser Prozess zu dem von der Einheit Q zur Quantisierung verwendeten Prozess durchgeführt wird. Der resultierende Block enthält Prädiktionsfehler, die den Prädiktionsfehlern des transformierten c oder des nicht transformierten r Prädiktionsfehlerblock entsprechen, obwohl sie diesen aufgrund von Quantisierungsverlusten nicht notwendigerweise identisch sind.

Inverse Transformation

Die Einheit IT zur inversen Transformation führt eine inverse Transformation der durch die Einheit T zur Transformation durchgeführten Transformation durch. Wie der Fig. 1 zu entnehmen ist, wird die inverse Transformation nur dann durchgeführt, wenn der Prädiktionsfehler r durch die Einheit T zur inversen Transformation tatsächlich transformiert wurde, d.h., wenn der transformierte Prädiktionsfehlerblock c erzeugt wurde. Im Folgenden werden Elemente des transformierten Prädiktionsfehlerblocks als transformierte Prädiktionsfehler oder auch als Koeffizienten bezeichnet.

Rekonstruktion

Die Einheit zur Rekonstruktion addiert den Prädiktionsblock s und den quantisierten Prädiktionsfehlerblock r bzw. den transformierten, quantisierten und rücktransformierten Prädiktionsfehlerblock r‘, um einen rekonstruierten Block zu erhalten.

Filterung

Die Loop-Filter-Einheit LF filtert den rekonstruierten Block, um einen gefilterten rekonstruierten Block zu erhalten. Die Filterung kann dabei Bildpunkübergänge glätten oder auf andere Weise die Bildqualität verbessern. Die Loop-Filter-Einheit kann dabei einen oder mehrere Filter anwenden, zum Beispiel zum Deblocken oder zum Unterdrücken von Rauschen.

Prädiktion

Die Einheit P zur Prädiktion führt eine Prädiktion des Blocks durch. Diese erfolgt zum Beispiel durch Inter-Prädiktion oder durch Inter-Prädiktion.

Intra-Prädiktion wird verwendet, um Korrelationen oder andere statistische Abhängigkeiten innerhalb eines lokalen Bereichs eines Bilds zu entfernen. Die grundliegende Annahme ist es, dass ein Bereich innerhalb eines Bildes ähnlich zu benachbarten Bereichen des gleichen Bildes ist und aus diesem Grund aus den benachbarten Bildbereichen abgeleitet werden kann. Intra- Prädiktion kann angewendet werden, wenn keine Bilder zur Inter-Prädiktion zur Verfügung stehen oder wenn Intra-Prädiktion effizienter als Inter-Prädiktion ist. Zur Prädiktion werden üblicherweise benachbarte Abtastwerte verwendet, die sich oberhalb oder links des aktuellen Blocks befinden. Die Abtastwerte werden kombiniert, um zum Beispiel eine gerichtete oder eine ungerichtete (planare) Prädiktion zu erhalten.

Die grundliegende Annahme der Inter-Prädiktion ist die, dass sich der Inhalt mehrere Bilder einer Reihe von Bildern sich hauptsächlich aufgrund der Bewegung des Inhalts der Bilder ändert. Von Bild zu Bild liegen also nur geringe Unterschiede vor, die sich hauptsächlich auf eine Bewegung innerhalb des Bildes zurückführen lassen. Diese Bewegung kann verwendet werden, um den Inhalt eines aktuellen Blocks als ein Bewegungsvektor und einen Prädiktionsfehler darzustellen. Der Bewegungsvektor gibt dabei an, wie Bereiche eines Referenzbildes verschoben werden sollen, um eine Prädiktion des aktuellen Bilds zu erhalten. Die Beschreibung der Bewegung mit einem Bewegungsvektor ist ein translatorisches Abbildungsmodell, welches von einer translatorischen Bewegung ausgeht. Darüber hinaus kann die Bewegung auch mit anderen Bewegungsmodellen, wie z.B. einem affinen oder einem perspektivischen Abbildungsmodell beschrieben. Dafür werden mehr als zwei Bewegungsparameter benötigt, z.B. 6 beim affinen oder 8 beim perspektivischen Modell. Hierdurch können beispielsweise auch Rotationen beschrieben werden.

Zur Durchführung der Inter-Prädiktion ist es notwendig, die Bewegungsparameter, wie z.B. die Bewegungsvektoren zu bestimmen. Dies kann von der Einheit ME zur Bewegungsabschätzung durchgeführt werden. Die Abschätzung kann dabei erfolgen, indem die größte Übereinstimmung des Inhalts eines aktuellen Blocks des Bildes mit einem Bereich im Referenzbild gefunden wird. Zum Beispiel kann dazu die Prädiktionsblockposition in einem Suchbereich des Referenzbildes verschoben werden und gemäß einem vorbestimmten Kostenkriterium die Position größter Übereinstimmung gefunden werden.

Entropiekodierung

Die Intra- bzw. Interprädiktion erlaubt es, Korrelationen und/oder andere statistische Abhängigkeiten innerhalb des Bildes bzw. zwischen Bildern einer Reihe an Bildern zu entfernen. Die Bildung der Differenz zwischen dem Prädiktionsblock s und dem Bildblock s liefert den Prädiktionsfehlerblock, der den Teil des ursprünglichen Bildblocks s enthält, der nicht durch die Prädiktion abgebildet werden kann. Obwohl die Prädiktion die Korrelation und/oder andere statistische Abhängigkeiten in dem Prädiktionsfehlerblock reduziert, kann die darin enthaltene Information weiter durch die oben beschriebene Transformation komprimiert werden.

Der quantisierte Prädiktionsfehlerblock bzw. der quantisierte transformierte Prädiktionsfehlerblock werden zusammen mit Information (Seiteninformation) über das verwendete Prädiktionsverfahren, die Bewegungsvektoren, Intra-Prädiktionsrichtungen und ähnlichen notwendigen Information von der Einheit EC zur Entropiecodierung in einen Bitstrom b codiert. Bei der Entropiecodierung werden die Daten in binären Code umgesetzt. Entropiecodierung stellt eine verlustfreie Codierung dar.

Decodierung

Ein Decoder empfängt die codierten Bilddaten und decodiert diese, um die empfangenen Bilddaten zu erhalten. Die Bilddaten können in einem Bitstrom b empfangen werden, der Information zum Decodieren der codierten Bilddaten enthält, wie zum Beispiel Daten, die einen Block eines codierten Videos und zugeordnete Seiteninformation.

Der Decoder umfasst dabei eine Einheit zur Entropie-Decodierung, eine Einheit zur inversen Transformation und eine Einheit zur Rekonstruktion. Zudem umfasst der Decoder eine Loop- Filter-Einheit, eine Einheit zur Prädiktion und unter Umständen eine Einheit zur Bewegungsschätzung.

Die Einheit zur inversen T ransformation, die Einheit zur Rekonstruktion und die Loop-Filter-Einheit können dabei in ihrer Funktion identisch zu den entsprechenden Einheiten des Encoders sein. Die entsprechenden obigen Beschreibungen treffen somit auch auf die genannten Einheiten des Decoders zu.

Die Einheit zur Entropie-Decodierung ist eingerichtet, eine Entropie-Decodierung der in einem Bitstrom enthaltenen Daten durchzuführen, um quantisierte Bilddaten (z.B. Prädiktionsfehler), Codierungsparameter, Prädiktionsparameter, T ransformationsparameter,

Quantisierungsparameter und/oder Loop-Filter-Parameter zu erhalten. Dabei kann die Einheit zur Entropie-Decodierung eingerichtet sein, eine Decodierung entsprechend der vom Encoder durchgeführten Entropie-Codierung durchzuführen. Der Decoder kann dabei die Bilddaten blockbasiert erhalten.

Der Decoder kann eine Einheit zur inversen Quantisierung enthalten, die der Einheit zur inversen Transformation vorgeschaltet sein kann. In der Einheit zur inversen Quantisierung wird eine inverse Quantisierung durchgeführt, indem ein inverser Prozess zu dem von der Einheit Q zur Quantisierung des Encoders verwendeten Prozess durchgeführt wird. Die Operationen der inversen Quantisierung können auch als Teil der Entropie-Decodierung betrachtet werden. Beispielsweise kann bei einer inversen Quantisierung im Fall einer gleichförmigen Quantisierung die Nummer der Quantisierungsstufe mit der Stufenbreite multipliziert werden, um den Repräsentativwert zu erhalten.

Die Einheit zur inversen Transformation führt eine inverse Transformation der durch die Einheit T zur Transformation des Encoders durchgeführten Transformation durch.

Die Einheit zur Rekonstruktion kann eingerichtet sein, einen Prädiktionsblock und einen decodierten Prädiktionsfehlerblock zu addieren, um einen rekonstruierten Block zu erhalten.

Die Loop-Filter-Einheit filtert den rekonstruierten Block, um einen gefilterten rekonstruierten Block zu erhalten. Die Filterung kann dabei Bildpunkübergänge glätten oder auf andere Weise die Bildqualität verbessern. Die Loop-Filter-Einheit kann dabei einen oder mehrere Filter anwenden, zum Beispiel zum Deblocken oder zum Unterdrücken von Rauschen.

Die Einheit zur Prädiktion führt eine Prädiktion des Blocks durch. Diese erfolgt zum Beispiel durch Inter-Prädiktion oder durch Inter-Prädiktion. Zur Durchführung der Inter-Prädiktion ist es notwendig, die Bewegungsvektoren zu bestimmen. Dies kann von der Einheit zur Bewegungsabschätzung durchgeführt werden. Die Abschätzung kann dabei erfolgen, indem die größte Übereinstimmung des Inhalts eines aktuellen Blocks des Bildes mit einem Bereich in einem bereits decodierten Referenzbild gefunden wird. Zum Beispiel kann dazu die Prädiktionsblockposition in einem Suchbereich des Referenzbildes verschoben werden und gemäß einem vorbestimmten Kostenkriterium die Position größter Übereinstimmung gefunden werden.

Sowohl ein Encoder als auch ein Decoder können ferner einen Zwischenspeicher für decodierte Bilder enthalten (decoded picture buffer, DPB). Dieser kann zum Beispiel durch einen Speicher realisiert sein, der Referenzbilder oder, im Allgemeinen, Referenzbilddaten beinhaltet. Der Zwischenspeicher kann dabei eingerichtet sein, einen oder mehrere vorhergefilterte Blocks zu speichern. Der Zwischenspeicher kann auch andere vorher gefilterte Blocks enthalten, wie zum Beispiel vorherige rekonstruierte und gefilterte Blocks des gleichen Bilds oder anderer Bilder (vorher rekonstruierte und/oder teilweise rekonstruierte Bilder). Der Zwischenspeicher kann auch einen oder mehrere ungefilterte rekonstruierte Blöcke speichern. Der High Efficiency Video Coding-Standard (HEVC) sowie der aufkommende Versatile Video Coding (WC) Standard basieren auf hybrider Codierung, in der eine Prädiktion und nachfolgender Codierung des Prädiktionsfehlers angewandt werden. Wie oben beschrieben kann eine Transformation den Prädiktionsfehlerblocks durchgeführt werden. Dabei kann zum Beispiel eine Separable Discrete Cosine Transformation (DCT-2) angewendet werden und die resultierenden transformierten Prädiktionsfehler c quantisiert, kodiert und an einen Empfänger übertragen werden.

Allerdings kann die Transformation die Datenrate erhöhen, was insbesondere bei Prädiktionsfehlerblöcken auftritt, deren Prädiktionsfehler eine geringe statistische Abhängigkeit bzw. Korrelation aufweisen. Aus diesem Grund kann ein gemischtes Verfahren verwendet werden, bei dem Prädiktionsfehlerblöcke hoher Korrelation vor der Quantisierung transformiert werden, wohingegen Prädiktionsfehlerblöcke geringer Korrelation ohne vorherige Transformation quantisiert werden.

Diese Vorgehensweise ist in Fig. 1 dargestellt, bei der der Prädiktionsfehlerblock r entweder durch die Einheit T zur Transformation einer Einheit Q zur Quantisierung zugeführt wird, oder einer Einheit Q zur Transformation ohne vorherige Transformation zugeführt wird. Diese Vorgehensweise ist im HEVC-Standard mit der Bezeichnung Transform Skip definiert und wird im aufkommenden VVC-Standard mit einigen Erweiterungen übernommen.

Eine Möglichkeit der Abschätzung der notwendigen Datenrate eines Prädiktionsfehlerblocks liefert die Annahme, dass die Prädiktionsfehler r mit deren Varianz o_r und der Quantisierungsschrittweite D eines Prädiktionsfehlerblocks einer Laplace-Verteilung folgen. Die Wahrscheinlichkeit für einen Prädiktionsfehler r kann somit geschätzt werden durch

Mit dieser Annahme der Wahrscheinlichkeit ergibt sich ein linearer Zusammenhang zwischen dem Betrag von r und dem Informationsinhalt l(r), der dem Logarithmus der Wahrscheinlichkeit P(r) folgt und die minimale Datenrate zur Codierung von rangibt:

Die Summe der Absolutwerte (Beträge) sämtlicher Prädiktionsfehler eines Prädiktionsfehlerblocks kann daher als Maß für die Datenrate verwendet werden, die benötigt wird, um den Prädiktionsfehlerblock zu codieren.

Im Folgenden wird die Summe aller Absolutwerte eines Prädiktionsfehlerblocks als AbsSum(r) bezeichnet und stellt eine Abschätzung der benötigten Datenrate zur Kodierung eines Prädiktionsblocks dar.

Fig. 2A ist eine Darstellung zweier beispielhafter Prädiktionsfehlerblöcke, wobei in Beispiel 1 ein Prädiktionsfehlerblock hoher Korrelation, in Beispiel 2 ein Prädiktionsfehlerblock niedriger Korrelation und in Beispiel 3 ein Fehlerblock mittlerer Korrelation dargestellt ist. Zusätzlich zeigt Fig. 2A die transformierten Prädiktionsfehlerblöcke für die drei Beispiele, wobei eine DCT-2 Transformation verwendet wurde. Des Weiteren zeigt Fig. 2A AbsSum für jeden Prädiktionsfehlerblock und jeden transformierten Prädiktionsfehlerblock.

Es ist erkennbar, dass für Beispiel 1 der Wert AbsSum durch die Transformation von 100 auf 20 verringert wird. Das bedeutet, durch die Anwendung der T ransformation kann die benötigte Bitrate deutlich verringert werden.

Im Gegensatz dazu zeigt Fig. 2A, dass der Wert AbsSum durch die Transformation des Prädiktionsfehlerblocks in Beispiel 2 von 20 auf 74 ansteigt. Die Transformation führt somit zu einer Erhöhung der benötigten Bitrate.

In Beispiel 3 verringert sich der Wert AbsSum durch Anwendung der Transformation wenig von 100 auf 94. Der Vorteil, d.h. die Verringerung der zur Codierung notwendigen Bitrate, der durch Anwendung der Transformation auf den Prädiktionsfehlerblock des Beispiels 3 ergibt, ist relativ gering.

Nach dem Verfahren einer Ausführungsform der vorliegenden Erfindung wird der Prädiktionsblock aufgeteilt in eine Linearkombination, die einen ersten Block n und einen zweiten Block GS enthält. Der zweite Block GS wird transformiert, um einen transformierten zweiten Block C2 zu erhalten. Nachfolgend wird der erste Block n und der transformierte zweite Block C2 codiert und kann an den Empfänger übertragen werden.

Dabei kann in einer vorteilhaften Ausführungsform der Prädiktionsblock r sich als Summe des ersten Prädiktionsblocks n und des zweiten Prädiktionsblocks GS ergeben: r = r₁ + r₂ In anderen Worten, die Summe aus ersten Prädiktionsfehlern des ersten Blocks und entsprechenden zweiten Prädiktionsfehlern des zweiten Blocks ergeben jeweils die Prädiktionsfehler des ursprünglichen Prädiktionsfehlerblocks.

Die obenerwähnte Summe ist eine elementweise Summe. Wenn Blöcke r_t und r₂ die gleiche Größe haben, gilt für jedes Element (i,j) des Prädiktionsblocks r folgendes: r(i,j ) = r^i.j) + r₂(i,f), wobei r^i.j) und r₂(i,j ) die jeweiligen Elemente des ersten und des zweiten Blocks sind, und / und j Indexe jeweils von Zeilen und Spalten der Blöcke sind. Fig. 2B zeigt im oberen Teil schematisch zwei gleich große Blöcke 210 und 220 und den resultierenden Prädiktionsblock 230, der durch die Summe der Blöcke 210 und 220 erhalten wird.

Der erste Block n und der zweiten Block GS müssen jedoch nicht die gleiche Größe haben. Wenn die zwei Blöcke unterschiedliche Größe haben, wird dabei eins oder mehrere Prädiktionsfehler (Elemente des Prädiktionsblocks) als eine Summe von einem nicht-null Element r^il.jl) des ersten Blocks und einem nicht-null Element r₂(i2,j2) des zweiten Blocks berechnet. Fig. 2B zeigt im unteren Teil schematisch zwei unterschiedlich große Blöcke 240 und 250 und den resultierenden Prädiktionsblock 260, der durch die Summe der Blöcke 240 und 250 erhalten wird. Bezugszeichen 270 zeigt den Überlappungsbereich der beiden Blöcke, in dem diese jeweils Elemente haben. Der verbleibende Bereich 280 ist mit Werten der Elemente von Block 240 gefüllt. Die zentrale Position des überlappenden Teils 270 ist nur ein nicht einschränkendes Beispiel. Allgemein kann die Position des überlappenden Teils beliebig festgelegt werden. Für eine vereinfachte Implementierung kann es hilfreich sein, die Breitenverhältnisse und/oder die Höhenverhältnisse der beiden Blöcke so zu wählen, dass die Breite des großen Blocks ein ganzzahligen Vielfaches der Breite des kleinen Blocks entspricht und/oder die Höhe des großen Blocks ein ganzzahligen Vielfaches der Höhe des kleinen Blocks entspricht. Ferner kann es zur Vereinfachung der Implementierung dienen, die Positionierung des kleineren Blocks relativ zum größeren Block auf horizontale Positionen einzuschränken, die Vielfache der Breite des kleinen Blockes betragen und/oder auf vertikale Positionen einzuschränken, die Vielfache der Höhe des kleinen Blockes betragen.

Unterschiedliche Blockgrößen können unter Anderem dann von Bedeutung sein, wenn die Größe der Blöcke für die Transformation durchgeführt wird sich von der Größe der Blöcke unterscheidet, für die Prädiktion durchgeführt wird - anders gesagt: wenn die Transformationsblöcke andere Größe (wenigstens in einer der Dimensionen) aufweisen, als die Prädiktionsblöcke.

In einer beispielsweisen Ausführungsform kann der kleinere (250) der beiden Blöcke (240, 250) auf die Größe des größeren (240) der beiden Blöcke mit Nullen aufgefüllt werden. Dann kann die elementweise Summe von solchen gleich großen Blöcken wie oben erwähnt berechnet werden. Die vorliegende Erfindung ist auf keine besondere Umsetzung der Summe eingeschränkt. Wenn einer der zu summierenden Elemente den Wert Null hat, muss die Summe nicht, kann aber tatsächlich berechnet werden - beides führt zum gleichen Ergebnis.

Zusammenfassend, die Zerlegung des Prädiktionsblocks r in die Blöcke n und GS wird so durchgeführt, dass die elementweise Summe der Blöcke n und GS wenigstens eine Summe von Elementen enthält, die beide von Null verschieden sind.

In einer Ausführungsform kann der erste Block n den Anteil der Prädiktionsfehler des Prädiktionsfehlerblocks enthalten, der eine geringe statistische Abhängigkeit bzw. Korrelation aufweist. In ähnlicher Weise kann der zweite Block GS den Anteil der Prädiktionsfehler des Prädiktionsfehlerblocks enthalten, der eine größere statistische Abhängigkeit bzw. Korrelation aufweist. Insbesondere kann die statistische Abhängigkeit bzw. Korrelation der Prädiktionsfehler des ersten Blocks n geringer sein als die statistische Abhängigkeit bzw. Korrelation der Prädiktionsfehler des zweiten Blocks GS.

Die vorliegende Erfindung ist jedoch nicht auf die Summe des ersten Blocks und des zweiten Blocks als Linearkombination beschränkt.

Gemäß einer Ausführungsform kann sich der Prädiktionsfehlerblock als Summe dreier Summanden ergeben. r = r_t + r₂ + d

Der dritte Summand d kann zum Beispiel Quantisierungsfehler enthalten, die aus einer Quantisierung des ersten Blocks und/oder des zweiten Blocks folgen.

Gemäß einer Ausführungsform kann der zweite Block nochmals aufgeteilt werden in einen neuen zweiten Block und einen dritten Block, wobei der neue zweite Block und der dritte Block transformiert werden, jedoch mit unterschiedlichen T ransformationen. Zum Beispiel kann der neue zweite Block entsprechend DCT-2 transformiert werden und der dritte Block entsprechend DCT- 8 oder DST-7. Die Aufteilung des zweiten Blocks in den neuen zweiten Block und den dritten Block kann dabei durch Minimierung der Absolutwerte der jeweils transformierten Blöcke (neuer zweiter Block und dritter Block) erfolgen.

Fig. 3 zeigt dieses Vorgehen anhand des Beispiels 3 aus Fig. 2A. Der Prädiktionsfehlerblock r wird in einen ersten Block n und einen zweiten Block GS zerlegt, wobei die Summe der Prädiktionsfehler im ersten Block n und der entsprechenden Prädiktionsfehler im zweiten Block die Prädiktionsfehler des ursprünglichen Prädiktionsfehlerblocks r ergeben. Der zweite Prädiktionsfehlerblock G wird transformiert, um den transformierten zweiten Prädiktionsfehlerblock C2 zu erhalten. Aus der Fig. 3 wird ersichtlich, dass die Summe der Werte AbsSum für n und C2 40 ergibt. Dieser Wert liegt deutlich unterhalb des Wertes AbsSum des Prädiktionsfehlerblocks r als auch unterhalb des Wertes AbsSum des transformierten Prädiktionsfehlerblocks, wie er für Beispiel 3 in Fig. 3 durch die Transformation ohne Zerlegung erreicht wird.

Das bedeutet, durch Zerlegung eines Prädiktionsfehlerblocks in zwei Blöcke, deren Korrelation der Prädiktionsfehler sich unterscheiden, und Transformation nur des Blocks höherer Korrelation kann die zur Codierung notwendige Datenrate signifikant reduziert werden.

Ein Encoder gemäß einer Ausführungsform ist in Fig. 4 dargestellt. Die Funktionen der Einheiten entsprechen den Einheiten des in Fig. 1 dargestellten Encoders mit der gleichen Bezeichnung. Der Encoder der Ausführungsform unterscheidet sich von dem in Fig. 1 dargestellten Encoder insbesondere durch die zusätzliche Einheit D zur Zerlegung des Prädiktionsblocks rin den ersten Block n und den zweiten Block G . Der erste Block n wird direkt der Einheit Q zur Quantisierung zugeführt, wohingegen der zweite Block G zunächst von der Einheit T zur Transformation transformiert wird, bevor der transformierte zweite Block c der Einheit Q zum Quantisieren zugeführt wird. Beide quantisierten Blöcke, das heißt, der direkt quantisierte Block n sowie der quantisierte transformierte Block c‘ werden von der Einheit EC zur Entropiecodierung codiert. Der rücktransformierte Prädiktionsfehlerblock r‘ ergibt sich als Summe des rücktransformierten ersten Blocks r‘2 und des quantisierten ersten Blocks. Vor der Summierung kann eine inverse Quantisierung beider Blöcke durchgeführt werden, wie oben beschrieben. Die Einheit D kann aber auch so arbeiten, dass jeweils entweder n oder G Null ist. Sie schließt damit den in Fig. 1 dargestellten Encoder ein.

Ein Beispiel einer möglichen Implementierung der Zerlegung des Prädiktionsfehlerblocks an Prädiktionsfehlerwerten ist Fig. 5 und Fig. 6 dargestellt.

In Schritt S100 wird ein Prädiktionsfehlerblock, welcher Prädiktionsfehler eines Blocks der Bilddaten enthält, bestimmt. In Schritt S200 wird der bestimmte Prädiktionsfehlerblock in eine Linearkombination erlegt, die einen ersten Block erster Prädiktionsfehler und einen zweiten Block zweiter Prädiktionsfehler enthält. In Schritt S300 wird der zweite Block transformiert und in Schritt S400 wird der erste Block und der transformierte zweite Block codiert. Die Codierung des ersten Blocks und des zweiten Blocks kann eine Quantisierung derselben beinhalten. Fig. 6 zeigt beispielhaft eine spezifische Implementierung der Zerlegung des Prädiktionsfehlerblocks in den ersten und den zweiten Block. In Fig. 6 sowie der folgenden Beschreibung bezeichnen n und G_S sämtliche Prädiktionsfehler, jeweils des ersten Blocks und des zweiten Blocks; ry und ry bezeichnen jeweils die einzelnen Prädiktionsfehler des ersten und des zweiten Blocks; C2 bezeichnet sämtliche (transformierte) Prädiktionsfehler eines transformierten zweiten Block und Cy dessen einzelne (transformierte) Prädiktionsparameter; n bezeichnet einen Iterationsparameter und N dessen Grenzwert, das heißt, die Anzahl der durchgeführten Iterationen. Ferner wird ein Parameter k festgelegt. Bevorzugt ist beispielsweise N im Bereich von 5 bis 10 und k im Bereich von 1 bis 2. In Schritt S201 werden Anfangswerte der ersten Prädiktionsfehler des ersten Blocks gleich den Prädiktionsfehler des Prädiktionsblocks gesetzt und Anfangswerte der zweiten Prädiktionsfehler des zweiten Blocks gleich Null gesetzt werden. Zudem wird der Iterationsparameter n auf Null gesetzt.

In Schritt S202 wird ein Gewicht w basierend auf dem Iterationsparameter n bestimmt. In Schritt S203 wird ein erster Mittelwert und eine erste Standardabweichung der ersten Prädiktionsfehler des ersten Blocks bestimmt.

In Schritt S204 werden Prädiktionsfehler des ersten Blocks, für die der Absolutwert der Differenz zum ersten Mittelwert geringer als die erste Standardabweichung multipliziert mit k ist, auf null aktualisiert. Zudem werden erste Prädiktionsfehler des ersten Blocks, für die der Absolutwert der Differenz zum ersten Mittelwert nicht geringer als die erste Standardabweichung multipliziert mit k ist, auf eine gewichtete Summe aus den jeweiligen ersten Prädiktionsfehlern und dem ersten Mittelwert aktualisiert. Die Gewichte sind dabei das vorher bestimmte Gesicht w und (w-1).

In Schritt S205 werden die zweiten Prädiktionsfehler durch Bilden der Differenz aus den Prädiktionsfehlern des Prädiktionsfehlerblocks und den aktualisierten Prädiktionsfehlern des ersten Prädiktionsblocks aktualisiert.

In Schritt S206 wird der aktualisierte zweite Block transformiert, um den transformierten zweiten Block C2 zu erhalten.

In Schritt S207 wird ein zweiter Mittelwert und eine zweite Standardabweichung der zweiten Prädiktionsfehler des transformierten zweiten Blocks bestimmt. In Schritt S208 werden Prädiktionsfehler des transformierten zweiten Blocks, für die der Absolutwert der Differenz zum zweiten Mittelwert geringer als die zweite Standardabweichung multipliziert mit k ist, auf null aktualisiert. Zudem werden zweite Prädiktionsfehler des zweiten Blocks, für die der Absolutwert der Differenz zum zweiten Mittelwert nicht geringer als die zweite Standardabweichung multipliziert mit /eist, auf eine gewichtete Summe aus den jeweiligen zweiten Prädiktionsfehlern und dem zweiten Mittelwert aktualisiert. Die Gewichte sind dabei das vorher bestimmte Gewicht w und (w-1).

In Schritt S209 wird ein aktualisierter zweiter Block durch Rücktransformation des aktualisierten transformierten zweiten Blocks erhalten.

In Schritt S205 werden die ersten Prädiktionsfehler durch Bilden der Differenz aus den Prädiktionsfehlern des Prädiktionsfehlerblocks und den aktualisierten Prädiktionsfehlern des zweiten Prädiktionsblocks aktualisiert.

In Schritt S211 wird der Iterationsparameter um 1 erhöht.

Wenn in Schritt S212 festgestellt wird, dass der Iterationsparameter geringer als ein vorbestimmter Grenzwert ist, wird eine nächste Iteration, beginnend mit Schritt S202 eingeleitet. Ist der Iterationsparameter jedoch gleich oder größer als der Grenzwert, ist die Zerlegung des Prädiktionsblocks abgeschlossen.

In anderen Worten, in dem dargestellten Zerlegungsverfahren wird die Zerlegung iterativ durchgeführt, wobei bei jedem Iterationsschritt ein Gewicht erhöht wird, das zur Aktualisierung der ersten Prädiktionsfehler und der zweiten Prädiktionsfehler verwendet wird.

Das in Fig. 6 gezeigte Verfahren beinhaltet eine Minimierung der Summe der Absolutwerte der ersten Prädiktionsfehler des ersten Blocks sowie eine Minimierung der Summe der Absolutwerte der transformierten Prädiktionsfehler des transformierten zweiten Blocks.

Das Verfahren der vorliegenden Erfindung ist jedoch nicht auf das dargestellte Verfahren zur Zerlegung des Prädiktionsparameters beschränkt. Vielmehr können andere Verfahren angewendet werden.

Zum Beispiel könnte die Summe der Absolutwerte der ersten Prädiktionsfehler des ersten Blocks und die Summe der Absolutwerte der zweiten Prädiktionsfehler des zweiten Blocks durch ein nichtlineares Optimierungsverfahren verwendet werden. Beispielsweise könnte auch die Summe der Betragsquadrate mit Hilfe einer Anpassung nach dem Verfahren der nichtlinearen kleinsten mittleren Fehlerquadrate (non-linear least mean square) minimiert werden. Dabei kann beispielsweise die Nebenbedingung gelten, dass die Summe des ersten Blocks und des zweiten Blocks die Prädiktionsfehler des Prädiktionsfehlerblocks ergeben.

Fig. 7A zeigt ein Beispiel des Ergebnisses der Zerlegung nach dem in Fig. 6 dargestellten Verfahren mit insgesamt sieben Iterationen (N=7) und k=1 für den Prädiktionsfehlerblock des Beispiels 3 in Fig. 2A. Aus der Darstellung wird deutlich, dass die Summe der Werte AbsSum für den ersten Block und den transformierten zweiten Block nach der Zerlegung geringer ist als der Wert AbsSum des direkt transformierten Prädiktionsfehler r, so dass AbsSum(ri) + AbsSum(C2) < AbsSum(c) gilt.

Fig. 7B zeigt ein weiteres Beispiel eines Ergebnisses der Zerlegung nach dem in Fig. 6 dargestellten Verfahren mit sieben Iterationen und einem anderen Beispiel des Prädiktionsfehlerblocks r. Wie der Figur zu entnehmen ist, liefert die direkte Transformation des Prädiktionsfehlerblocks reinen transformierten Prädiktionsfehlerblock c mit einem Wert AbsSum von 47. Der erste Block und der transformierte zweite Block nach der Zerlegung weisen Werte AbsSum von 32 bzw. 18.8 auf. In Summe ergibt sich somit ein Wert AbsSum, der durch die Zerlegung und die anschließende Transformation des zweiten Blocks erreicht wird, von 50.8. Dieser Wert liegt jedoch über dem Wert AbsSum des direkt transformierten Prädiktionsfehlerblocks c, d.h. AbsSum(n) + AbsSum(C2) > AbsSum(c).

Dies bedeutet, dass die Zerlegung und anschließende Transformation des zweiten Blocks nicht in sämtlichen möglichen Fällen zu einer Reduktion der zur Codierung notwendigen Datenrate führt. Aus diesem Grund kann in einer bevorzugten Ausführungsform die Zerlegung und anschließende Transformation des zweiten Blocks dann ausgeführt werden, wenn dadurch eine Reduktion der Datenrate erreicht wird.

Zum Beispiel können die Lagrange-Kosten der Datenrate und der mittlere quadratische Rekonstruktionsfehler für die folgenden drei Codierungsmöglichkeiten bestimmt werden:

• Codierung von n und C2, wie durch den Zerlegungsalgorithmus bestimmt,

• Codierung von n = rund C2 = 0

• Codierung von n = 0 und C2 als Ergebnis der Transformation von G_S=G.

Aus den drei Codierungsmöglichkeiten kann diejenige ausgewählt werden, deren Lagrange- Kosten am niedrigsten ist. Ein quantisierter Prädiktionsfehlerblock enthält oft quantisierte Elemente (Prädiktionsfehler oder transformierte Prädiktionsfehler), die sämtlich Null sind. Diese Information kann codiert werden unter Verwendung eines binären Entscheidungsbaums (binary decision tree). Fig. 8 zeigt einen solchen binären Entscheidungsbaum gemäß einer bevorzugten Ausführungsform für die möglichen vier Kombinationen der Prädiktionsfehler des ersten Blocks n und des transformierten zweiten Blocks C2. Dieser Entscheidungsbaum basiert auf dem Entscheidungsbaum, der nach im aufkommenden Standard WC (Bross et al. Siehe oben) verwendet wird. Blöcke, die mindestens ein Element (Prädiktionsfehler) aufweisen, das ungleich Null ist, werden Entropie-codiert. Die dünnen Linien in Fig. 8 zeigen den Entscheidungsbaum nach dem aufkommenden VVC-Standard, wohingegen die fetten Linien eine Erweiterung nach einer bevorzugten Ausführungsform zeigen.

Das oben beschriebene Verfahren wurde in das Testmodell VTM-8.0 (Joint Video Experts Team (JVET) of ITU-T SG 16 WP 3 und ISO/I EC JTP 1/SC 29/WG 11, „VTM-8.0“, https://vcgit.hhi. fraunhofer.de/jvet/VVCSoftware_VTM/-/tags/VTM-8.0, 2020) implementiert und die durchschnittliche Reduktion der Datenrate für verschiedene Testsequenzen mit gleichem Luminanz-PSNR (peak signal-t-noise ratio) entsprechend üblicher Testmodellbedingungen (F. Bossen et al.: „JVET common test conditions and Software reference configurations for SDR Video“, Document JVET-N1010, 14. Meeting of the Joint Video Experts Team (JVET) of ITU-T SG 16 WP 3 und ISO/I EC JTC 29/WG 11, Genf, 2019) gemessen. Tabelle 1 gibt eine Übersicht der durchschnittlichen Datenratenreduktion in %. Die Sequenzen stellen dabei vorgegebene Videosequenzen dar, die üblicherweise zu Testzwecken der Codierung verwendet werden. Im Modus „All Intra“ werden für sämtliche Einzelbilder der Videosequenz ausschließlich Intra-Prädiktionen durchgeführt, wohingegen im Modus „Random Access“ Bewegungskompensation durch Inter-Prädiktion mit Bezug auf entsprechenden Referenzbilder durchgeführt werden kann.

Tabelle 1: Durchschnittliche Datenratenreduktion in %

Aus Tabelle 1 ist ersichtlich, dass das Verfahren der vorliegenden Erfindung für sämtliche Sequenzen eine Reduktion der Datenrate ermöglicht. Die Reduktion der benötigten Datenrate liegt in den angegebenen Beispielen bei bis zu 1,39%.

Fig. 9 zeigt ein Decodierverfahren nach einer Ausführungsform. In Schritt S500 wird ein Bitstrom, der einen codierten ersten Block erster Prädiktionsfehler und einen codierten zweiten Block zweiter Prädiktionsfehler enthält, erhalten. In Schritt S600 werden der erste Block und der transformierte zweite Block decodiert. Nachfolgend wird in Schritt S700 der transformierte zweite Block rücktransformiert. In Schritt S800 wird ein Prädiktionsfehlerblock, welcher Prädiktionsfehler eines Blocks von Bilddaten enthält, durch eine Linearkombination bestimmt, wobei die Linearkombination den ersten Block und den rücktransformierten zweiten Block enthält.

Beispielsweise kann die Linearkombination durch eine Summe der Prädiktionsparameter des ersten Blocks und der Prädiktionsparameter des rücktransformierten zweiten Blocks erfolgen. Die vorliegende Erfindung ist jedoch nicht darauf beschränkt, und es kann zum Beispiel eine gewichtete Summe zur Linearkombination genutzt werden.

Ein Decoder gemäß einer Ausführungsform ist eingerichtet, das in Fig. 9 dargestellte Verfahren auszuführen. Insbesondere umfasst der Decoder eine Einheit zum Erhalten eines Bitstroms, der den codierten ersten Block erster Prädiktionsfehlerdaten und einen codierten transformierten zweiten Block zweiter Präfiktionsfehler enthält. Ferner umfasst der Decoder eine Einheit zum Decodieren des ersten Blocks und des transformierten zweiten Blocks. Die Einheit zum Decodieren kann der Einheit zum Codieren eines Encoders entsprechen, wobei eine inverse zu der Codierung inverse Decodierung ausgeführt wird. Der Decoder umfasst ferner eine Einheit zum Rücktransformieren des transformierten zweiten Blocks, entsprechend der Einheit IT zur inversen Transformation des Encoders. Zudem umfasst der Decoder eine Einheit zum Bestimmen eines Prädiktionsfehlerblocks, welcher Prädiktionsfehler eines Blocks der Bilddaten enthält, durch eine Linearkombination, die den ersten Block und den zweiten Block enthält. Die Einheit zum Bestimmen des Prädiktionsfehlerblocks führt somit eine Prozessierung durch, die die Zerlegung des Prädiktionsfehlerblocks in den ersten Block und den zweiten Block, die vom Encoder durchgeführt wird, rückgängig macht.

Ein erfindungsgemäßer Encoder wurde mit Bezug auf Fig. 4 beschrieben. Die vorliegende Erfindung ist jedoch nicht auf einen solchen Encoder beschränkt. Fig. 10 zeigt eine weitere Ausführungsform eines Encoders. Die Funktionen der Einheiten entsprechen den Einheiten der in Fig. 1 und Fig. 4 dargestellten Encoder mit der gleichen Bezeichnung. Der Encoder gemäß Fig. 10 unterscheidet sich von dem in Fig. 4 dargestellten Encoder insbesondere durch die zusätzliche Möglichkeit, unterschiedliche Quantisierungseinheiten Q1 und Q2 für den ersten Block n und den zweiten Block GS. Der erste Block n wird direkt der Einheit Q1 zu der ersten Quantisierung zugeführt, wohingegen der zweite Block GS zunächst von der Einheit T zur Transformation transformiert wird, bevor der transformierte zweite Block c der zweiten Einheit Q2 zum Quantisieren zugeführt wird. Beide quantisierten Blöcke, das heißt, der direkt durch die erste Quantisierungseinheit Q1 quantisierte Block n sowie der durch die zweite Quantisierungseinheit quantisierte transformierte Block c‘ werden von der Einheit EC zur Entropiecodierung codiert. Der rücktransformierte Prädiktionsfehlerblock r‘ ergibt sich als Summe des rücktransformierten zweiten Blocks r und des quantisierten ersten Blocks. Vor der Summierung können die jeweiligen inversen Quantisierungen in jeweiligen inversen Quantisierungseinheiten Q1 ¹ und Q2 ¹ beider Blöcke durchgeführt werden. Eine inverse Quantisierung ist insbesondere dann durchzuführen, wenn die Quantisierung eine Skalierung und/oder einen Verschiebung (Offset) enthielt, welche bei der inversen Quantisierung rückgängig gemacht wird. Wenn die Quantisierung lediglich durch die Reduktion der Bittiefe durch Rundung der Prädiktionsfehler durchgeführt wird, ist eventuell keine inverse Quantisierung notwendig.

In anderen Worten, auch wenn in den obigen Abbildungen für die Codierung mit der Transformation und für die Codierung ohne Transformation die gleiche Einheit Q verwendet wurde, ist dies nicht zwingend notwendig. Vielmehr können auch unterschiedliche Quantisierer Q1 und Q2 verwendet werden, wie in Fig. 10 dargestellt, wobei beispielsweise Q1 an die Quantisierung des Signals angepasst ist, welches ohne Transformation codiert wird und Q2 an die Quantisierung des Signals angepasst ist, welches mit Transformation codiert wird. Die Unterscheide können beispielsweise in den Positionen der Repräsentativwerte liegen, die aufgrund unterschiedlicher Wahrscheinlichkeiten der jeweils zu quantisierenden Signale andere sein müssen. Durch die angepasste Quantisierung kann die Datenrate bei gleicher Qualität weiter reduziert werden. Die Anpassung kann beispielsweise die Wahrnehmungseigenschaften des menschlichen Auges ausnutzen, die sich unterscheiden, je nachdem ob eine Transformation verwendet wird oder nicht. Die Anpassung kann beispielsweise eine separat einstellbare Stufenbreite sein. Die Anpassung kann aber auch so sein, dass beispielsweise Q1 ein skalarer Quantisierer ist und Q2 ein Vektorquantisierer, oder umgekehrt. Da bei einer Codierung ohne Transformation oftmals nur ein von Null verschiedener Prädiktionsfehler in einem Block vorliegt, ist zur Quantisierung dieses Signals ein skalarer Quantisierer oftmals von ähnlicher Codierungseffizienz wie ein Vektorquantisierer und daher vorteilhafter. Bei einer Codierung mit Transformation liegen häufig mehrere von Null verschiedene Prädiktionsfehlerkoeffizienten in einem Block vor, sodass zur Quantisierung dieses Signals ein Vektorquantisierer oftmals eine höhere Codierungseffizienz aufweist. Darüber hinaus können die Quantisierer auch zustandsabhängig quantisieren und die Wahl der verwendeten Zustände kann sich unterscheiden. Darüber hinaus kann der Quantisierer Q1 noch abhängig davon gewählt werden, ob der Bitstrom nur den ersten Block enthält oder ob auch der zweite Block enthalten ist. In gleicher Weise kann auch der Quantisierer Q2 noch abhängig davon gewählt werden, ob der Bitstrom nur den zweiten Block enthält oder ob auch der erste Block enthalten ist. Dies kann zu einer weiteren Datenratenreduktion bei gleicher Qualität führen, da eine zustandsabhängige Quantisierung immer effizienter ist als eine zustandsunabhängige Quantisierung.

Fig. 11 zeigt eine weitere beispielhafte Ausführungsform, in welcher die (ggf. quantisierten) Abtastwerte /V des ersten Blocks auf die Rekonstruktion s‘ addiert werden, die sich nach der Loop- Filterung ergibt. Bei der Verwendung mehrerer Loop-Filter können die (ggf. quantisierten) Abtastwerte /V des ersten Blocks auch auf die Rekonstruktion addiert werden, die sich nach der Anwendung einer Teilmenge der Loop-Filter ergibt.

Fig. 12 zeigt eine weitere beispielhafte Ausführungsform, mit einem zusätzlichen Schalter S. In dieser Ausführungsform werden die (ggf. quantisierten) Abtastwerte des ersten Blocks r/ adaptiv entweder zu den rücktransformierten Koeffizienten r 2 (Schalterposition 2) oder zu der Rekonstruktion s‘ (Schalterposition 1) addiert, die sich nach der Loop-Filterung ergibt, bei der Verwendung mehrerer Loop-Filter, entsprechend auch nach der Anwendung einer Teilmenge der Loop-Filter.

In Figuren 11 und 12 sind allgemein Quantisierungseinheiten Q1 und Q2 gezeigt. Wie bereits mit Bezug auf Fig. 4 beschrieben, können jedoch die Quantisierungseinheiten Q1 und Q2 gleich sein, d.h. die Bezeichnungen Q1 und Q2 in Figuren 11 und 12 können durch die Bezeichnung Q ersetzt werden. Sie können auch alle weiteren Eigenschaften aufweisen, die im Zusammenhang mit Fig. 4 beschrieben wurden.

Fig. 13 zeigt eine beispielhafte Ausführungsform eines Decoders, entsprechend den in der Figuren 4 und 10 gezeigten Encoder. Der Decoder erhält (z.B: empfängt) den Bitstrom b und decodiert die codierten Bilddaten, um die empfangenen Bilddaten zu erhalten.

Der Decoder umfasst dabei eine Einheit ED zur Entropie-Decodierung, eine Einheit IT zur inversen Transformation und eine Einheit zur Rekonstruktion. Zudem umfasst der Decoder eine Loop-Filter-Einheit LF, eine Einheit zur Prädiktion P und, unter Umständen, eine Einheit zur Bewegungsschätzung. Die Einheit zur inversen Transformation, die Einheit zur Rekonstruktion und die Loop-Filter-Einheit können dabei in ihrer Funktion identisch zu den entsprechenden Einheiten des Encoders sein, wie bereits oben beschrieben.

Die Einheit zur Entropie-Decodierung ED ist eingerichtet, eine Entropie-Decodierung der in einem Bitstrom enthaltenen Daten durchzuführen, um quantisierte Bilddaten (z.B. Prädiktionsfehler), Codierungsparameter, Prädiktionsparameter, T ransformationsparameter, Quantisierungsparameter und/oder Loop-Filter-Parameter zu erhalten. Der Decoder kann dabei die Bilddaten blockbasiert erhalten.

Der Decoder kann keine (gezeigt in Fig. 13), eine oder zwei Einheiten (gezeigt in Fig. 14) zur inversen Quantisierung enthalten, die der Einheit IT zur inversen Transformation vorgeschaltet sein können. Diese führen eine inverse Verarbeitung zu der von der Einheiten Q zur Quantisierung des Encoders durch. Beispielsweise können die Einheiten Q ¹ or QT¹ und Q2 ¹ eine Skalierung und Verschiebung sowie eine Bittiefe-Erhöhung durchführen. Werden angepasste Quantisierer (Quantisierungseinheiten) verwendet, werden jeweils angepasste inverse Quantisierungen angewendet, z.B. angepasst an Q1 und Q2. Eine inverse Quantisierung ist oftmals die Überführung eines Parameters in einen Repräsentativwertes. Da dieser Schritt auch als Decodierung betrachtet werden kann, kann eine inverse Quantisierung auch als Teil der Entropie- Decodierung angesehen und durchgeführt werden.

Die Einheit IT zur inversen Transformation führt eine inverse Transformation der durch die Einheit T zur Transformation des Encoders durchgeführten Transformation durch. Damit werden Koeffizienten c‘ in die Prädiktionsfehler r2‘ rücktransformiert. Die Einheit zur Rekonstruktion kann eingerichtet sein, einen Prädiktionsblock s und einen decodierten ersten Block r1‘ und zweiten Block r2‘zu addieren, um einen rekonstruierten Block s‘zu erhalten.

Die Loop-Filter-Einheit LF filtert den rekonstruierten Block s‘, um einen gefilterten rekonstruierten Block zu erhalten. Die Loop-Filter-Einheit LF kann dabei einen oder mehrere Filter anwenden, zum Beispiel zum Deblocken oder zum Unterdrücken von Rauschen.

Die Einheit zur Prädiktion führt die Prädiktion des Blocks durch, ähnlich wie bereits oben beschrieben, für die Encoder und den Decoder. Dabei können die von dem Bitstrom decodierten oder beim Decoder bestimmten Bewegungsvektoren und/oder andere Bewegungsinformation (z.B. Referenzbild, Parameter einer affinen Transformation o.Ä.) verwendet werden.

Decoder welche den Encodern in Figuren 11 und 12 entsprechen, können durch Änderungen des Decoders in Fig. 13 ähnlich erhalten werden.

Weitere Modifikationen und Ausführungsformen sind möglich und können von Vorteil sein. Zum Beispiel kann die Entropiecodierung beziehungsweise Syntax des Bitstroms weiter verbessert werden.

In einem ersten Beispiel wird zuerst der Block der quantisierten Koeffizienten codiert. Dann wird der Block von (möglicherweise quantisierten) Abtastwerten in Abhängigkeit von dem Block der quantisierten Koeffizienten codiert. Entsprechend kann der Bitstrom die codierten Koeffizienten gefolgt von den codierten Abtastwerten enthalten. Eine solche Codierung erlaubt weitere Reduktion der möglichen Redundanz (Korrelation oder allgemein Abhängigkeit) zwischen dem Block der Koeffizienten und dem Block der Abtastwerte.

Zum Beispiel kann die Anzahl der quantisieren, von Null verschiedenen Koeffizienten gezählt werden. Die Anzahl kann dann mit einem vorbestimmten Schwellwert verglichen werden. Abhängig vom Ergebnis dieses Vergleichs wird der Code zur Codierung des Blockes von quantisierten Abtastwerten ausgewählt. Anders gesagt, wenn die gezählte Anzahl der von Null verschiedenen Koeffizienten den Schwellwert überschreitet, wird eine erste Codierung auf die Abtastwerte angewendet. Wenn die gezählte Anzahl der von Null verschiedenen Koeffizienten den Schwellwert nicht überschreitet, wird eine zweite Codierung auf die Abtastwerte angewendet. Die zweite Codierung kann dabei derart sein, dass sie alle quantisierten Abtastwerte zu Null annimmt.

Zum Beispiel kann der Schwellwert 0 sein. Die Abtastwerte können also mit einer ersten Codierung codiert werden, wenn nicht alle Koeffizienten Null sind und mit einer zweiten Codierung, wenn alle Koeffizienten Null sind. Der Code zur Codierung der Information kann also abhängig von Wahrheitsgehalt von „Alle quantisierten Abtastwerte des Blockes sind Null oder nicht“ ausgewählt werden. Der Schwellwert kann vorgegeben werden, zum Beispiel im Vorfeld der Codierung durch empirische Tests bestimmt. Der Schwellwert kann auch vom Encoder bestimmt und zum Decoder übertragen werden, z.B. pro Block, pro Bild oder pro Sequenz.

In einem zweiten Beispiel wird die Abhängigkeit umgekehrt: Es wird zuerst der Block der (quantisierten) Abtastwerte codiert. Dann wird der Block von quantisierten Koeffizienten in Abhängigkeit von dem Block der Abtastwerte codiert. Die Entscheidung bezüglich der Wahl eines ersten Codes oder eines zweiten Codes für die Codierung der quantisierten Koeffizienten kann ähnlich auf Basis eines vorbestimmten Schwellwertes erfolgen.

Möglicherweise verbleibende Redundanzen können beim Decoder (beim Decodieren) zum Überprüfen der richtigen Entropie-Decodierung verwendet werden. Einige Beispiele dazu sind im folgenden aufgelistet:

- Ausschluss einiger Konstellationen von quantisierten Abtastwerten abhängig von bereits quantisierten Koeffizienten, z.B. dürfen die quantisierten Abtastete nicht alle den gleichen Wert aufweisen, wenn der quantisierte DC-Koeffizient ungleich Null ist, und alle anderen quantisierten Koeffizienten gleich Null sind. Wenn der Decoder ermittelt, dass der DC- Koeffizient eines Blocks nicht Null ist und alle verbleibenden Koeffizienten des Blocks Null sind, und zugleich alle quantisierten Abtastwerte den gleichen Wert haben, gibt der Decoder eine Fehlermeldung aus. Der Decodierfehler kann dann auf eine übliche / bekannte Art und Weise behandelt werden (Fehlerverdeckung durch Interpolation o.Ä.).

Eine mögliche beispielsweise Alternative dazu ist die folgende: Wenn der Decoder ermittelt, dass der DC-Koeffizient eines Blocks nicht Null ist und alle verbleibenden Koeffizienten des Blocks Null sind, dann werden für den Fall, dass alle quantisierten Abtastwerte den gleichen Wert haben, keine Codeworte bereitgestellt, da dieses Ereignis nicht auftreten kann. Hierdurch kann Datenrate eingespart werden. In dieser weise wird die Redundanz beseitigt anstatt für das Überprüfen genutzt zu werden.

- Zur effizienteren redundanzmindernden Codierung können die gültigen Konstellationen der quantisierten Abtastwerte, d.h. die Konstellationen, für die auch Codeworte bereitgestellt werden, dahingehend eingeschränkt werden, dass benachbarte quantisierte Abtastwerte unterschiedliche Werte und / oder unterschiedliche Vorzeichen aufweisen, was mit geringer Korrelation verbunden ist. Hierdurch können Codeworte eingespart werden für Konstellationen, für die die Transformation oftmals effizienter ist. Dabei kann „0“ als separates Vorzeichen zu „+“ und

behandelt werden. Eine Einschränkung könnte bewirken, dass nur für Konstellationen von quantisierten Abtastwerten Codeworte bereitgestellt werden, bei denen alle Paare von benachbarten Abtastwerten (z.B. benachbart oben und links in der üblichen Codier- und Decodierreigenfolge, oder andere Nachbarn je nach der Codier- und Decodierreihenfolge) im Block stets unterschiedliche Werte aufweisen. Eine andere Einschränkung könnte bewirken, dass nur für Konstellationen von quantisierten Abtastwerten Codeworte bereitgestellt werden, bei denen alle Paare von benachbarten Abtastwerten stets eines der Vorzeichenpaare „+ / -“, „- / +“, „- / 0“ , „0 / +“, „0 / -“ , „+ / 0“ und „0 / 0“ aufweisen, wobei „0“ als separates Vorzeichen zu „+“ und

behandelt wird.

Weitere beispielsweise Ausführungsformen sind in Figuren 15 bis 17 dargestellt.

Figuren 15 bis 17 zeigen Decodierung, bei welcher es möglich ist direkt in dem final rekonstruierten Bild (d.h. nach der Loopfilterung LF) an ausgewählten Positionen das Bildsignal abtastwertweise durch Addition (Dazu-Addieren) 151 von r1’ zu korrigieren. Damit ist es beispielsweise möglich, direkt an Blockgrenzen verbleibende subjektiv möglicherweise störende Quantisierungsfehler noch zu korrigieren. Eine Codierung der Positionen, für die quantisierte Abtastwerte r1’ addiert werden, kann abhängig von der Grenze zwischen zwei Blöcken erfolgen und/oder abhängig davon, mit welchen Parametern ein Loopfilter angewendet wurde (Beispielsweise, ob Deblocking an oder ausgeschaltet ist). Zur Positionsbeschreibung kann der Abstand zur Blockgrenze verwendet werden.

Figuren 15 bis 17 unterscheiden sich in der Anwendung der inversen Quantisierung. In Fig. 15 ist ein Decoder dargestellt, welcher keine inverse Quantisierung (z.B. Skalierung und/oder Offset) erfordert. In Fig. 16 ist ein Decoder dargestellt, welcher die decodierten Abtastwerte und die decodierten Koeffizienten mit jeweiligen inversen Quantisierern Q1 ¹ und Q2 ¹ invers quantisiert (dequantisiert). Umsetzungen sind möglich, in welchen z.B. nur die Koeffizienten invers quantisiert werden. Fig. 17 zeigt ein Beispiel in welchem zusätzlich die quantisierten Abtastwerte r1’ elementweise oder blockweise noch in r1a’ und r1b’ zerlegt vorliegen. Der Teil r1a’ wird vor der Loopfilterung LF addiert, der Teil r1b’ nach der Loopfilterung LF. Hierdurch können die Vorteile aus Fig. 13 und Fig. 15 bzw. aus Fig. 14 und Fig. 16. vereint werden. Die Zerlegung von r1’ in r1a’ und r1b’ kann einer festen Regel folgen, z.B. r1a’ = r1b’ = 0.5 x r1’ oder ähnlich. Die Aufteilung kann aber auch vom Encoder geschätzt und zum Decoder übertragen werden. Dabei kann der Encoder die Wirkung des einen oder mehrerer LF bei der Schätzung berücksichtigen. Die Zerlegung könnte beispielsweise unter Minimierung der Langrange’schen Kosten aus mittlerem quadratischen Rekonstruktionsfehler und erforderlicher Datenrate gewählt werden. Die Information, ob der Bitstrom den ersten Block und den transformierten zweiten Block enthält, kann durch einen Encoder durch Einfügen eines Indikators in den Bitstrom angezeigt werden. Auf der Decoder-Seite kann auf Grundlage des Indikators bestimmt werden, dass (ob) der Bitstrom den ersten Block und den transformierten zweiten Block enthält.

Gemäß einer Ausführungsform ist der Indikator durch eine codierte Binärinformation im Bitstrom realisiert. In einer nicht einschränkender Ausführungsform kann die Binärinformation ein Bit sein. Die Codierung kann aber auch eine binäre arithmetische Codierung sein, wie sie beispielsweise HEVC oder WC verwendet. Der Indikator kann demnach gemäß der Ausführungsform zwei Werte anzeigen, von denen einer anzeigt, dass der Bitstrom den ersten Block und den transformierten zweiten Block enthält (In Fig. 8 dargestellt durch „Mindestens ein r‘u F 0“ und „Mindestens ein C2_,, F 0 “), und der andere anzeigt, dass der Bitstrom den ersten Block und nicht den transformierten zweiten Block enthält (In Fig. 8 dargestellt durch „Mindestens ein r‘u F 0“ und „Alle c 2,/ = 0“).

In einer anderen Ausführungsform ist der Indikator in der Lage, mehr als zwei Werte anzuzeigen. Dadurch können mehrere Codierverfahren angezeigt werden. Beispielsweise kann der Indikator durch zwei Bits oder zwei codierte binäre Informationen implementiert sein und somit vier Werte annehmen. Diese vier Werte können vier Codierverfahren zugeordnet sein und anzeigen, dass

• der Bitstrom den ersten Block und den transformierten zweiten Block enthält,

• der Bitstrom nur den ersten Block enthält, · der Bitstrom nur den transformierten zweiten Block enthält, und/oder

• der Bitstrom weder den ersten Block noch den transformierten zweiten Block enthält.

Der Encoder kann diese Seiteninformation (side Information) Entropie-codieren, zum Beispiel im Rahmen einer kontextadaptiven arithmetischen Codierung, die auch binär sein kann, oder einer anderen Codierung mit Codewörtern variabler oder fester Länge. Gemäß einer bevorzugten Ausführungsform werden einer oder mehrere Indikatoren in den Bitstrom eingefügt, die anzeigen, ob die oben beschriebenen Verfahren einschließlich der Zerlegung des Prädiktionsfehlerblocks in den ersten Block und den zweiten Block angewendet wurden. Insbesondere kann ein Verfahren einer Ausführungsform in hierarchischer Weise ein- bzw. ausgeschaltet werden, zum Beispiel für eine Videosequenz, einzelne Bilder, einzelne Bildbereiche (wie Slices, Tiles oder Bricks) oder einzelne Blöcke. Dies kann eine effizientere Codierung der erforderlichen Seiteninformation mit geringer Datenrate ermöglichen.

Zum Beispiel kann ein erster Indikator anzeigen, ob eine ganze Videosequenz mit dem beschriebenen Verfahren codiert wird oder nicht und daher keine weiteren Indikatoren folgen oder ob für Teile der Videosequenz weitere Indikatoren folgen, die anzeigen, jeweils für einen entsprechenden Teil der Videosequenz, ob der Teil der Videosequenz mit dem beschriebenen Verfahren codiert wird oder nicht.

Wenn der erste Indikator anzeigt, dass weitere Indikatoren folgen und damit nicht die gesamte Videosequenz mit dem beschriebenen Verfahren codiert wird, kann ein zweiter Indikator, zum Beispiel für jedes Bild, anzeigen, ob das beschriebene Verfahren zur Codierung des gesamten Bildes verwendet wird oder nicht und keine weiteren Indikatoren folgen, oder dass weitere Indikatoren folgen, die anzeigen können, ob jeweils ein Teil des Bildes mit dem beschriebenen Verfahren codiert werden oder nicht. In ähnlicher Weise können weitere Indikatoren folgen, wenn für Teilbereiche, wie zum Bespiel Slices, Tiles oder Bricks entweder das oben beschriebene Verfahren für den jeweiligen gesamten Teilbereich verwendet wird oder nicht.

In anderen Worten kann der Bitstrom einen oder mehrere Indikatoren enthalten, die in hierarchischer Weise anzeigen, ob entsprechende Teile von Bilddaten mit einem Verfahren gemäß einer Ausführungsform der vorliegenden Erfindung codiert werden oder nicht.

Die hierarchische Codierung kann in einer Ausführungsform separat für eine

Prädiktionsfehlercodierung nach Inter- und Intraprädiktion erfolgen. Sie kann auch separat für die Prädiktionsfehler der Luminanz und der beiden Chrominanzen erfolgen. Dadurch kann eine weitere Verbesserung der Codierungseffizienz erreicht werden.

Gemäß einer Ausführungsform werden die beschriebenen Verfahren mit Zerlegung des Prädiktionsfehlerblocks in den ersten Block und den zweiten Block abhängig von einer Größe des Prädiktionsfehlerblocks angewendet.

Zum Beispiel kann des Verfahren nur angewendet werden unter der Voraussetzung, dass die Breite des Prädiktionsfehlerblocks über einer gewissen Mindestbreite liegt. Das Verfahren kann zudem nur angewendet werden unter der Voraussetzung, dass die Höhe des Prädiktionsfehlerblocks übereiner gewissen Mindesthöhe liegt. Zum Beispiel kann das Verfahren nur angewendet werden, unter der Voraussetzung, dass sowohl die Breite des Prädiktionsfehlerblocks über einer Mindestbreite liegt und die Höhe des Prädiktionsfehlerblocks über einer Mindesthöhe liegt. Alternativ kann das Verfahren nur angewendet werden, unter der Voraussetzung, dass das Produkt aus der Breite des Prädiktionsfehlerblocks und der Höhe des Prädiktionsfehlerblocks über einer gewissen Grenze, z.B. einer Mindestfläche bzw. einer Mindestanzahl an Abtastpunkten/Pixel liegt.

Dadurch, dass das Verfahren nur dann angewendet wird, wenn der Prädiktionsblock eine gewisse Mindestgröße aufweist, wird die benötigte Datenmenge der Seiteninformation in Relation zur Datenmenge der Bilddaten gering gehalten. In anderen Worten, bei kleinen Blöcken ist die zusätzlich erforderliche Seiteninformation pro Bildpunkt hoch, bei großen Blöcken eher gering. Daher könnte vorzugsweise bei sehr kleinen Blöcken die Technik aus und bei großen Blöcken die Technik eingeschaltet werden. Die Mindestgröße, -breite, und/oder -fläche kann dabei zum Beispiel vorbestimmt sein (und evtl in einem Standard festgelegt sein), oder im Bitstrom signalisiert werden, zum Beispiel einmalig, pro Bild oder pro Bildgruppe oder pro Block.

Eine Zerlegung des Bildes in kleine Prädiktionsfehlerblöcke kann jedoch auch ein Indiz für eine ungenaue Prädiktion sein, bei der große, von Null verschiedene Prädiktionsfehler entstehen, für die die Codierung sehr effizient ist. Ferner ist die Aufteilung in den ersten Block und den zweiten Block für kleine Blöcke mit wenig Rechenaufwand und für große Blöcke mit hohem Rechenaufwand verbunden. Daher kann es auch vorteilhaft sein, dieses Verfahren nur für kleine Blöcke anzuwenden. Zum Beispiel kann des Verfahren nur angewendet werden unter der Voraussetzung, dass die Breite des Prädiktionsfehlerblocks unter einer gewissen Mindestbreite liegt. Das Verfahren kann zudem nur angewendet werden unter der Voraussetzung, dass die Höhe des Prädiktionsfehlerblocks unter einer gewissen Mindesthöhe liegt. Zum Beispiel kann das Verfahren nur angewendet werden, unter der Voraussetzung, dass sowohl die Breite des Prädiktionsfehlerblocks unter einer Mindestbreite liegt und die Höhe des Prädiktionsfehlerblocks unter einer Mindesthöhe liegt. Alternativ kann das Verfahren nur angewendet werden, unter der Voraussetzung, dass das Produkt aus der Breite des Prädiktionsfehlerblocks und der Höhe des Prädiktionsfehlerblocks unter einer gewissen Grenze, z.B. einer Mindestfläche bzw. einer Mindestanzahl an Abtastpunkten/Pixel liegt.

Im Allgemeinen, kann die erfindungsgemäße Zerlegung eines Blocks in eine Linearkombination zweier Blöcke nur auf Blöcke mit einer Größe aus einem vorbestimmten Bereich angewendet werden. Dieser Bereich kann durch eine Mindestgröße und/oder durch eine Maximalgröße bestimmt werden. Dabei kann die Größe durch die vertikale und/oder horizontale Maße des Blocks angegeben werden, oder durch die Fläche, z.B. durch die Anzahl von Abtastwerten.

Entsprechend einer weiteren Ausführungsform wird ein beschriebenes Verfahren mit Zerlegung des Prädiktionsfehlerblocks in den ersten Block und den zweiten Block abhängig von (evtl quantisierten) transformierten Prädiktionsfehler des transformierten Prädiktionsfehlerblocks angewendet. Nur wenn diese eine gewisse Eigenschaft aufweisen, enthält der Bitstrom einen oben beschrieben Indikator (siehe auch Fig. 8) oder enthält einen Block nicht transformierter Prädiktionsparameter, entsprechend oben beschriebener Verfahren. Mögliche Eigenschaften sind dabei:

• Der Vergleich der Anzahl der von Null verschiedenen (evtl quantisierten) transformierten Prädiktionsfehler mit einem Schwellwert genügt einer bestimmten Bedingung. Beispielsweise ist die Anzahl der von Null verschiedenen (evtl quantisierten) transformierten Prädiktionsfehler größer als ein Schwellwert, der auch von anderen Parametern abhängig sein kann, wie z.B. von den Blockeigenschaften, wie z.B. der Blockgröße, der Blockfläche oder einer Kantenlänge des Blockes.

• Die Positionen der von Null verschiedenen (evtl quantisierten) transformierten Prädiktionsfehler im Block genügen einer bestimmten Bedingung.

Zum Beispiel könnte die bestimmte Bedingung verlangen, dass die von Null verschiedenen (evtl quantisierten) transformierten Prädiktionsfehler außerhalb eines vorbestimmten Bereichs des transformierten Prädiktionsfehlerblocks liegen.

Der vorbestimmte Bereich kann in einer Ausführungsform zumindest den linken oberen Abtastwert bzw. Koeffizienten enthalten. Beispielsweise ist der vorbestimmte Bereich der linke obere Quadrant des transformierten Prädiktionsfehlerblocks. Die Bedingung könnte beispielsweise auch bestimmen, dass der DC-Koeffizient ungleich Null sein muss, der bei einer DCT den Gleichanteil darstellt.

Gemäß einer Ausführungsform beinhaltet der vorbestimmte Bereich einen niederfrequenten Bereich, d.h. wenn die von Null verschiedenen Werte außerhalb dieses Bereichs liegen, weist der Prädiktionsfehlerblock hochfrequente Anteile, bzw. eine hohe Variabilität der Prädiktionsfehler über den Prädiktionsfehlerblock, auf, die eine niedrige statistische Abhängigkeit der Prädiktionswerte impliziert, so dass eine Aufteilung des Prädiktionsfehlerblocks in den ersten Block und den zweiten Block zu einer Reduktion der Datenrate führt.

• Die Summe der Absolutwerte der (evtl quantisierten) transformierten Prädiktionsfehler liegt oberhalb einer vorgegebenen Grenze.

Ist eine oder mehrere der genannten Bedingungen erfüllt, kann davon ausgegangen werden, dass die (evtl quantisierten) transformierten Prädiktionsparameter hohe Werte aufweisen und damit eine ungenaue Prädiktion vorliegt. Dies würde eine hohe Datenrate zur Codierung des Prädiktionsfehlerblocks bedingen. In diesem Fall ist das Vorliegen eines von Null verschiedenen zweiten Prädiktionsfehlers mit geringen statistischen Abhängigkeiten sehr wahrscheinlich, so dass durch Anwendung der oben beschriebenen Verfahren die benötigte Datenrate reduziert werden kann. Zudem ist die relative Datenrate (pro Bildpunkt bzw. Abtastwert) zur Codierung der Indikatoren für eine solche Situation gering. Entsprechend einer Ausführungsform der vorliegenden Erfindung kann ein Indikator für einen Block auch entfallen, wenn der Bitstrom immer den ersten Block und immer den transformierten zweiten Block enthält. Durch diese Vorgehensweise kann die Datenrate für den Indikator eingespart werden. Hinzu kann lediglich eine kleine Verminderung der Qualität kommen, wenn einer der Blöcke nicht enthalten sein müsste (also komplett Null wäre), aber aufgrund dieser eingeführten Konvention nicht komplett Null sein darf und daher so modifiziert wird, dass er nicht komplett Null ist.

Entsprechend einer Ausführungsform der vorliegenden Erfindung werden ein, mehrere oder alle Indikatoren in Abhängigkeit von einem oder mehreren der folgenden Zustände codiert.

Zum Beispiel können die Indikatoren (der Indikator) in Abhängigkeit eines Indikators eines benachbarten Blocks der Bilddaten codiert werden. Zum Beispiel kann die Codewortlänge der Indikatoren (des Indikators) entsprechend der Codewortlänge der Indikatoren (des Indikators) des benachbarten Blocks eingestellt werden.

In einer Ausführungsform kann die Codierung der Indikatoren (des Indikators) basierend auf der Prädiktionsmethode des Prädiktionsblocks eingestellt werden. Zum Beispiel kann eine andere Codewortlänge der Indikatoren (des Indikators) eingestellt werden, anhängig davon ob eine Inter- Prädiktion oder eine Intra-Prädiktion erfolgt.

In einer Ausführungsform kann die Codierung der Indikatoren (des Indikators) basierend auf der Komponente des Bildsignals eingestellt werden. Zum Beispiel kann eine andere Codewortlänge der Indikatoren (des Indikators) eingestellt werden, anhängig davon ob eine Luminanz oder eine Chrominanz codiert wird.

In einer Ausführungsform können der erste Block und der transformierte zweite Block auch unterschiedliche Größen aufweisen. Die Kantenlängen des ersten und des zweiten Blockes sollten zur einfachen Verarbeitung jedoch möglichst ganzzahlige Vielfache voneinander sein. Beispielsweise kann die Blockgröße des ersten Blockes 4x4 Abtastwerte und die Blockgröße des transformierten zweiten Blockes 8x8 Koeffizienten aufweisen. Für jeden zweiten Block von 8x8 Koeffizienten würden entsprechend bis zu 4 erste Blöcke von jeweils 4x4 Abtastwerten anfallen, wenn diese untereinander nicht überlappend aber mit dem transformierten zweiten Block vollständig überlappend angeordnet werden. Entsprechend würden bis zu vier Indikatoren codiert werden. Die Erfindung nicht jedoch nicht auf diese spezifischen Blockgrößen beschränkt. In einer Ausführungsform können die Anzahl der von Null verschiedenen (ggf. quantisierten) Abtastwerte des ersten Blocks und die (ggf. quantisierten) Koeffizienten des transformierten zweiten Blocks beschränkt sein. Beispielsweise könnte eine Beschränkung fordern, dass nur der DC-Koeffizient ungleich Null sein darf. Da in diesen Fällen auch nur dieser Entropie-codiert werden muss, kann Datenrate eingespart werden.

In einer Ausführungsform müssen die (ggf. quantisierten) Abtastwerte des ersten Blocks Bedingungen untereinander erfüllen. Beispielsweise kann eine Bedingung sein, dass nicht alle Abtastwerte den gleichen Wert aufweisen dürfen, da ein solcher Block effizienter mit einer Transformation codiert werden könnte. Die Einführung solcher Bedingungen kann entsprechend Datenrate einsparen.

Gemäß einer Ausführungsform kann die Codierung der Indikatoren (des Indikators) basierend auf der Größe des Prädiktionsfehlerblocks eingestellt werden. Zum Beispiel kann eine andere Codewortlänge der Indikatoren (des Indikators) eingestellt werden, anhängig davon ob die Größe des Prädiktionsblocks über bzw. unter einer vorbestimmten Grenze liegt. Die Größe des Prädiktionsblocks kann sich dabei z.B. auf eine Breite, eine Höhe und/oder ein Produkt aus Höhe und Breite des Prädiktionsblocks beziehen.

Obwohl die Ausführungsformen der Erfindung basierend auf einer Codierung von Videodaten beschrieben wurden, ist die Erfindung nicht darauf beschränkt, sondern kann auch zur Codierung von unbewegten Bildern verwendet werden.

Ausführungsformen der vorliegenden Erfindung, zum Beispiel ein Encoder oder ein Decoder und deren Funktionen können in Hardware, Software, Firmware oder einer Kombination daraus implementiert sein. Wenn Ausführungsformen in Form von Software implementiert sind, können die Funktionen auf einem computerlesbaren Speichermedium gespeichert sein oder über einen Kommunikationskanal übertragen werden als Anweisungen oder Code, der von einer hardwarebasierten Prozessoreinheit ausgeführt wird. Zum Beispiel kann ein computerlesbares Speichermedium ein RAM, ROM, EEPROM, CD-ROM oder ein anderes optisches Speichermedium, ein magnetisches Speichermedium, Flash-Speicher, oder ein anderes Speichermedium sein, das verwendet werden kann, Programmcode in Form von Anweisungen zu speichern, so dass sie von einem Computer ausgelesen werden können.

Anweisung können von einem oder mehreren Prozessoren ausgeführt werden, wie zum Beispiel Digitalsignalprozessoren (DSP), allgemeine Mikroprozessoren, anwendungsspezifische integrierte Schaltkreise, programmierbare Logikgatter (Field Programmable Gate Array, FPGA), oder anderen integrierte oder diskrete Logikschaltungen. Entsprechend kann sich der Ausdruck „Prozessor“ auf eine der genannten Strukturen oder andere Strukturen beziehen, die geeignet sind, die oben beschriebenen Verfahren zu implementieren. Darüber hinaus können die beschriebenen Funktionalitäten in dafür vorgesehener Hardware- und/oder Softwaremodulen implementiert sein, die eingerichtet sind, Bilddaten zu codieren und/oder zu decodieren, auch in Rahmen eines kombinierten Codecs. Die Verfahren können auch in einem oder mehreren Schaltkreisen oder Logikelementen implementiert sein.

Zusammenfassend betrifft die vorliegende Erfindung Verfahren und Vorrichtungen zum Codieren von Bilddaten, wobei ein Prädiktionsfehlerblock in eine Linearkombination zerlegt wird. Der Prädiktionsfehlerblock enthält Prädiktionsfehler eines Blocks von Bilddaten. Die Linearkombination enthält dabei einen ersten Block erster Prädiktionsfehler und einen zweiten Block zweiter Prädiktionsfehler. Der zweite Block wird transformiert und zusammen mit dem ersten Block codiert. Zudem betrifft die Erfindung Verfahren und Vorrichtungen zum Decodieren von Bilddaten, wobei ein Bitstrom einen ersten Block an Prädiktionsfehlern und einen transformierten zweiten Block zweiter Prädiktionsfehler enthält. Nach Rücktransformation des transformierten zweiten Blocks wird ein Prädiktionsfehlerblock durch eine Linearkombination bestimmt, die den ersten Block und den rücktransformierten zweiten Block enthält.

Claims

ANSPRÜCHE

1. Verfahren zum Codieren von Bilddaten, umfassend:

Bestimmen eines Prädiktionsfehlerblocks, welcher Prädiktionsfehler eines Blocks der Bilddaten enthält;

Zerlegen des Prädiktionsfehlerblocks in eine elementweise Linearkombination, die einen ersten Block erster Prädiktionsfehler und einen zweiten Block zweiter Prädiktionsfehler enthält, wobei wenigstens ein Prädiktionsfehler durch eine Linearkombination von einem ersten von Null verschiedenen Prädiktionsfehlerund eines zweiten von Null verschiedenen Prädiktionsfehler erhalten wird;

Transformieren des zweiten Blocks; und

Codieren des ersten Blocks und des transformierten zweiten Blocks.

2. Verfahren nach Anspruch 1, wobei die ersten Prädiktionsfehler untereinander geringere statistische Abhängigkeiten aufweisen als die zweiten Prädiktionsfehler.

3. Verfahren nach Anspruch 1 oder 2, wobei die ersten Prädiktionsfehler und die zweiten Prädiktionsfehler in Summe die entsprechenden Prädiktionsfehler des Prädiktionsfehlerblocks ergeben.

4. Verfahren nach einem der Ansprüche 1 bis 3, wobei der Prädiktionsfehlerblock, der erste Block und der zweite Block jeweils die gleiche Größe aufweisen.

5. Verfahren nach einem der Ansprüche 1 bis 4, wobei die Zerlegung des Prädiktionsfehlerblocks eine Minimierung einer Summe der Absolutwerte der ersten Prädiktionsfehler des ersten Blocks enthält.

6. Verfahren nach einem der Ansprüche 1 bis 5, wobei die Zerlegung des Prädiktionsfehlerblocks eine Minimierung einer Summe der Absolutwerte der transformierten Prädiktionsfehler des transformierten zweiten Blocks enthält.

7. Verfahren nach einem der Ansprüche 1 bis 6, ferner umfassend:

Einfügen des codierten ersten Blocks und des codierten transformierten zweiten Blocks in einen Bitstrom; und

Einfügen eines Indikators in den Bitstrom, der in der Lage ist, anzuzeigen, dass der Bitstrom den codierten ersten Block und den codierten transformierten zweiten Block enthält.

8. Verfahren nach einem der Ansprüche 1 bis 7, wobei der Indikator ferner in der Lage ist, anzuzeigen, dass der Bitstrom nur den codierten ersten Block, nur den codierten transformierten zweiten Block oder keinen des codierten ersten Blocks und des codierten transformierten zweiten Blocks enthält.

9. Verfahren zum Decodieren von Bilddaten, umfassend:

Erhalten eines Bitstroms, der einen codierten ersten Block erster Prädiktionsfehler und einen codierten transformierten zweiten Block zweiter Präfiktionsfehler enthält;

Decodieren des ersten Blocks und des transformierten zweiten Blocks; Rücktransformieren des transformierten zweiten Blocks; und

Bestimmen eines Prädiktionsfehlerblocks, welcher Prädiktionsfehler eines Blocks der Bilddaten enthält, durch eine elementweise Linearkombination, die den ersten Block und den rücktransformierten zweiten Block enthält, wobei wenigstens ein Prädiktionsfehler durch eine Linearkombination von einem ersten von Null verschiedenen Prädiktionsfehler und eines zweiten von Null verschiedenen Prädiktionsfehler erhalten wird.

10. Verfahren nach Anspruch 9, wobei die Linearkombination eine Summe des ersten Blocks und des rücktransformierten zweiten Blocks enthält.

11. Verfahren nach Anspruch 9 oder 10, ferner umfassend:

Bestimmen, dass der Bitstrom den codierten ersten Block und den codierten transformierten zweiten Block enthält.

12. Verfahren nach einem der Ansprüche 8 bis 11, wobei der Bitstrom ferner einen Indikator enthält, der in der Lage ist, anzuzeigen, dass der Bitstrom den codierten ersten Block und den codierten transformierten zweiten Block enthält, und auf Grundlage des Indikators bestimmt wird, dass der Bitstrom den codierten ersten Block und den codierten transformierten zweiten Block enthält.

13. Verfahren nach ein Anspruch 12, wobei der Indikator ferner in der Lage ist, anzuzeigen, dass der Bitstrom nur den codierten ersten Block, nur den codierten transformierten zweiten Block oder keinen des codierten ersten

Blocks und des codierten transformierten zweiten Blocks enthält, die Linearkombination eine gewichtete Summe des ersten Blocks und des zweiten Blocks enthält, und

Gewichte der gewichteten Summe auf Grundlage des Indikators bestimmt werden.

14. Vorrichtung zum Codieren von Bilddaten, umfassend eine Einheit zum Bestimmen eines Prädiktionsfehlerblocks, welcher Prädiktionsfehler eines Blocks der Bilddaten enthält; eine Einheit zum Zerlegen des Prädiktionsfehlerblocks in eine elementweise Linearkombination, die einen ersten Block erster Prädiktionsfehler und einen zweiten Block zweiter Prädiktionsfehler enthält, wobei wenigstens ein Prädiktionsfehler durch eine

Linearkombination von einem ersten von Null verschiedenen Prädiktionsfehler und eines zweiten von Null verschiedenen Prädiktionsfehler erhalten wird; eine Einheit zum Transformieren des zweiten Blocks; und eine Einheit zum Codieren des ersten Blocks und des transformierten zweiten Blocks.

15. Vorrichtung zum Decodieren von Bilddaten, umfassend eine Einheit zum Erhalten eines Bitstroms, der einen codierten ersten Block erster Prädiktionsfehler und einen codierten transformierten zweiten Block zweiter Präfiktionsfehler enthält; eine Einheit zum Decodieren des ersten Blocks und des transformierten zweiten Blocks; eine Einheit zum Rücktransformieren des transformierten zweiten Blocks; und eine Einheit zum Bestimmen eines Prädiktionsfehlerblocks, welcher Prädiktionsfehler eines Blocks der Bilddaten enthält, durch eine elementweise Linearkombination, die den ersten Block und den zweiten Block enthält, wobei wenigstens ein Prädiktionsfehler durch eine Linearkombination von einem ersten von Null verschiedenen Prädiktionsfehler und eines zweiten von Null verschiedenen Prädiktionsfehler erhalten wird.