WO1998021894A1

WO1998021894A1 - Verfahren zur bewegtbilddatenkompression und kodiervorrichtung zur durchführung des verfahrens

Info

Publication number: WO1998021894A1
Application number: PCT/DE1997/002715
Authority: WO
Inventors: Stephan Wenger
Original assignee: Teles Ag Informationstechnologien
Priority date: 1996-11-14
Filing date: 1997-11-14
Publication date: 1998-05-22
Also published as: DE19648612A1

Abstract

Die Erfindung betrifft ein Verfahren und eine Kodiervorrichtung zur Bewegtbilddatenkompression, bei denen von einer Videokamera kommende Frames (Ft, Ft-1) in Makroblöcke unterteilt werden und zu jedem Makroblock eines Frames durch Vergleich mit Makroblöcken eines zeitlich früher liegenden Referenzframes ein Bewegungsvektor ermittelt wird. Erfingungsgemäß wird als Referenzframe (Ft-1) zunächst das vorangegangene von der Videokamera kommende, unbearbeitete Bild verwendet und auf der Basis dieses Referenzframes (Ft-1) zu jedem Makroblock ein Näherungs-Bewegungsvektor (V) ermittelt. Anschließend erfolgt ausgehend von dem ermittelten Näherungs-Bewegungsvektor (V) eine Bewegungsvektor-Feinsuche in einem weiteren Referenzframe (F't-1), das durch Dekodieren des kodierten vorangegangenen Bildes (Ft-1) erzeugt wird. Die Erfindung ermöglicht eine Bewegtbilddatenkompression, die sich durch eine geringe Latenzzeit der einzelnen Frames im Kodierer auszeichnet und eine hohe Framerate bei der Kodierung ermöglicht.

Description

Verfahren zur Bewegtbilddatenkompression und Kodiervorrichtung zur Durchführung des Verfahrens

Gegenstand der Erfindung

Die Erfindung betrifft ein Verfahren zur Bewegtbilddatenkompression nach der Oberbegriff des Anspruchs 1 und eine Kodiervorrichtung zur Durchführung des Verfahrens.

Hintergrund der Erfindung

Die internationalen Standards zum Austausch von Bewegtbildern der MPEG-Familie sowie ITU-T H.261 und H.263 umfassen mehrere Verfahren zur Kompression von in digitaler Form vorliegender Videodaten. Zur Reduktion der zeitlichen Redundanz aufeinanderfolgender Videobilder (Frames) ist ein Verfahren bekannt, bei dem ein Frame in Makroblöcke aufgeteilt und untersucht wird, welche Verschiebung der Makroblöcke von Frame zu Frame erfolgt. Das Ergebnis dieser Bewegungsschätzung wird durch einen Bewegungsvektor ausgedrückt und dieser dem Empfänger mitgeteilt.

Im einzelnen wird bei einem zum Zeitpunkt t von einer Videokamera kommenden Frame jeder Makroblock zunächst mit dem spatial korrespondierenden Makroblock eines Referenzframes für den Zeitpunkt t-1 verglichen. Das Referenzframe entsteht durch Dekodierung des kodierten, vorangegangenen Frames. Bei signifikanten Unterschieden zwischen den Makroblöcken wird ermittelt, ob der neue Makroblock des betrachteten Frames sich aus spatial verschobenen Makroblöcken des Referenzframes ermitteln läßt. Gleichzeitig wird überprüft, ob die Pixelwerte zwischen einem betrachteten Makroblock und dem korrespondieren Makroblock des Referenzframes differenzieren. Auftretende Differenzen werden als Ände- rungsinformation zusätzlich codiert und übertragen.

Das kodierte Bild wird innerhalb des Kodierers wieder dekodiert und als Referenzframe für das nächste, von der Kamera eingelesene Frame verwendet.

Das bekannte Kompressionsverfahren zur Reduktion der zeitlichen Redundanz zwischen aufeinanderfolgenden Bildern ist mit erheblichen Kodierungszeiten verbunden, insbesondere da die Bewegungsvektorsuche sehr rechen- und zeitintensiv ist. Auch kann zu einem neuen Bild die Bewegungsvektorsuche erst beginnen, nachdem nach . einer Kodierung des vorangehenden Bildes dieses zur Bildung eines Referenzframes wieder dekodiert wurde.

Üblicherweise beträgt die Latenzzeit im Kodierer mindestens zwei volle Frames. Für den Fall, daß etwa aufgrund einer begrenzt zur Verfügung stehenden Bandbreite bei der Übertragung des komprimierten Videodatenstroms oder aufgrund fehlender Rechengeschwindigkeit nicht die volle Framerate der Videokamera kodiert werden kann, so bleibt die minimale Latenzzeit bei der doppelten zur Verfügung stehenden Framerate. Wenn ein Kodierer beispielsweise nur zehn Frames pro Sekunde kodieren kann, so beträgt die minimale Latenzzeit 200 ms.

Die Bewegungsvektorsuche beansprucht bei dem derzeit eingesetzten Algorithmen gemessen an den anderen Aufgaben eines Kodierers sehr viel Rechenzeit. Bei einem typischen Video- konferenz-Videosignal mit wenig Bewegung beträgt diese Rechenzeit typischerweise 70 % der gesamten erforderlichen Rechenzeit. Bei Filmsequenzen mit Kameraschwenks steigt die Rechenzeit auf bis zu 95 %.

Aufgabe der Erfindung

Ausgehend von diesem .Stand der Technik liegt der vorliegenden Erfindung die Aufgabe zugrunde, ein Verfahren zur Bewegtbilddatenkompression sowie eine Kodiervorrichtung zur Durchführung des Verfahrens zur Verfügung zu stellen, die sich durch eine geringe Latenzzeit der einzelnen Frames im Kodierer auszeichnen und eine hohe Framerate bei der Kodierung ermöglichen.

Zusammenfassung der Erfindung

Diese Aufgabe wird erfindungsgemäß durch ein Verfahren mit den Merkmalen des Anspruchs 1 und durch eine Kodiervorrichtung mit den Merkmalen des Anspruch 11 gelöst. Bevorzugte und vorteilhafte Ausgestaltungen der Erfindung sind in den Unteransprüchen gekennzeichnet.

Gemäß der erfindungsgemäßen Lösung werden die Bewegungsvektoren nicht mehr allein auf der Basis eines im Kodierer durch Kodieren und Dekodieren erzeugten Referenzbildes berechnet. Stattdessen wird als Basis für die Berechnung der Bewegungsvektoren zunächst das letzte, noch nicht kodierte Kamerabild verwendet. Da die dabei berechneten Nä- herungs-Bewegungsvektoren möglicherweise nicht exakt dem Bewegungsvektor entsprechen, der nach dem bekannten standardgemäßen Verfahren "korrekt" ist, wird nach Berechnung der Näherungs-Bewegungsvektoren eine Feinsuche auf dem durch Kodieren und Dekodieren des vorangegangenen Bildes erzeugten Referenzfra es durchgeführt. Dabei kann die maximale Vektorlänge der Bewegungsvektor-Feinsuche um eine Größenordnung geringer gehalten werden als bei dem bekannten Verfahren, wodurch sich der Rechenaufwand um zwei Größenordnungen verringern läßt.

Die erfindungsgemäße Lösung ermöglicht eine wesentlich schnellere Berechnung der Bewegungsvektoren und verringert dadurch die Verzögerungszeit im Kodierer. Damit ist es möglich, gegenüber bekannten Verfahren höhere Frameraten bei der Kodierung der Videodaten und/oder höhere Kodierqualitäten zu verwirklichen. Die Qualität der Bewegtbildübertragung wird dadurch insgesamt verbessert.

Bevorzugt erfolgt ein Vergleich zwischen den Makroblöcken eines von der Videokamera eingelesenen Frames und den Makroblöcken, des vorangegangenen, unbearbeiteten Referenzframes bereits während des Einlesens des neuen Frames. Hierzu wird jedes neue Frame zwischengespeichert , um für das nächstfolgende Frame als Referenzframe zu dienen. Die Berechnung der Näherungs-Bewegungsvektoren setzt somit noch bei Einlesen eines neuen Frames ein. Bei dem bekannten Verfahren kann eine Bewegungsvektorsuche erst beginnen, nachdem das vorherige Frame kodiert und wieder dekodiert ist.

Wenn man Makroblöcke einer Größe von 16 x 16 Pixel verwendet und die maximale Länge des Bewegungsvektors auf 48 Pixel festlegt, so kann schon nach Einlesen von 112 Zeilen des Videobildes eine vollständige Näherungs-Bewegungsvektor- suche beginnen. Da bei der Suche nach einem Bewegungsvektor jedoch zunächst Bewegungsvektoren mit einer geringen Länge getestet werden, kann die Näherungs-Bewegungsvektorsuche sogar noch eher beginnen. Bei einer geringen zur Verfügung stehenden Bandbreite des Übertragungsweges zum Empfänger sowie bei sehr hohen Rechenleistungen werden nicht alle von der Videokamera kommenden Frames komprimiert, sondern einzelne Frames ausgelassen. Auch in diesem Fall wird jedoch eine "Grobsuche" durchgeführt. Die bei der "Grobsuche" ermittelten Näherungs-Bewe- gungsvektoren werden , summiert und bei dem nächstfolgenden kompriminerte Frame als Ausgangsvektor für die Bewegungsvektor-Feinsuche verwendet. Dies führt bei bis zu drei ausgelassenen Frames noch zu guten Ergebnissen, d.h. die maximale Bewegungsvektorlänge kann bei der Feinsuche klein gehalten werden.

Um eine konstante Übertragung der Daten zum Empfänger zu gewährleisten, werden die komprimierten Videodaten in einen Puffer eingelesen und aus diesem mit konstanter Bitrate wieder ausgelesen. Sofern sich die zur Verfügung stehende Bandbreite des Übertragungsweges oder die erforderliche Rechenkapazität ändert, erfolgt eine Rückkopplung auf den Kodierer derart, daß die Zahl der komprimierten Frames verringert und/oder die bei der Kodierung auftretendenen Informationsverluste erhöht werden. Auf diese Weise wird ein Überlaufen des Puffers verhindert.

Zur Bewegungsvektorsuche wird ein Makroblock Bildinformation gegen eine Vielzahl von jeweils zu testenden Bewegungsvektoren verschoben. Um festzustellen, ob ein getesteter Bewegungsvektor der "richtige" Vektor für einen betrachteten Makroblock ist, wird üblicherweise entweder die Summe der Beträge oder die Summe der Quadrate der Abweichungen zwischen den Pixelwerten des neuen Makroblocks und denen des um den zu testenden Bewegungsvektor verschobenen Makroblocks des Referenzbildes benutzt. Die Schwelle, ab der ein Bewegungsvektor als "richtig" erkannt und der Suchvorgang abgebrochen wird, wird bevorzugt adaptiv der Bandbreitesituation sowie im Falle einer Softwareimplementierung des Kodierers auch der Prozessorlast angepaßt. Die Bewegungsvektorsuche erfolgt durch Testen verschiedener Testvektoren.

Die bei dem erfindungsgemäßen Verfahren betrachteten Makroblöcke weisen bevorzugt eine Größe von 8 8 oder von 16 x 16 Pixel auf. Die maximale Länge des Bewegungsvektors liegt bevorzugt zwischen 16 und 48 Pixel. Jedoch wird darauf hingewiesen, daß das erfindungsgemäße Verfahren grundsätzlich bei Makroblöcken beliebiger Größe und bei einer beliebigen maximalen Länge des Bewegungsvektors anwendbar ist.

Gemäß den bekannten internationalen Standards wird zusätzlich zum Bewegungsvektor für jeden Makroblock die Änderungs- information gegenüber dem "passenden" Makroblock des Referenzframes ermittelt. Das dabei ermittelte Differenzbild (nicht jedoch die Bewegungsvektoren) wird verlustbehaftet kodiert und zum Empfänger gesandt. Hierzu wird an dem Differenzbild eine 2-dimensionale diskrete Cosinus-Tranformation durchgeführt. Die ermittelten Matrixelemente werden quanti- siert und gewichtet, wodurch zwar die Feinstruktur im Bild gesenkt, aber auch das Datenaufkommen deutlich reduziert wird.

Beschreibung eines Ausführungsbeispiels

Die Erfindung wird nachfolgend unter Bezugnahme auf die Figuren der Zeichnung an einem Ausführungsbeispiel näher erläutert. Es zeigen

Figur 1 - eine schematische Darstellung eines bekannten Systems zur Übertragung von Bewegtbildern; Figur la - eine Darstellung einzelner Komponenten einer bekannten Kodiervorrichtung gemäß der ITU-T Empfehlung H.263;

Figur 2 - eine schematische Darstellung einer erfindungsgemäßen Kodiervorrichtung;

Figur 3a - die linke obere Ecke eines von einer Kamera eingelesenen Videobildes Ft zum Zeitpunkt t mit einem hervorgehobenen Makroblock;

Figur 3b - die linke obere Ecke eines von einer Kamera eingelesenen Videobildes F-^-i zum Zeitpunkt t-1, bei dem neben dem Makroblock zum Zeitpunkt t der korrespondierende Makroblock zum Zeitpunkt t-1 dargestellt ist;

Figur 4 - die linke obere Ecke eines Videobildes F't-1 ^zum Zeitpunkt t-1 nach Kodieren und Dekodieren des Bildes, bei dem neben den Makroblöcken der Figuren 3a und 3b der "korrekte" korrespondierende Makroblock zum Zeitpunkt t-1 dargestellt ist und

Figur 5 - eine Darstellung der einzelnen Komponenten einer erfindungsgemäßen Kodiervorrichtung .

Figur 1 zeigt ein im Stand der Technik bekanntes System zur Übertragung von Videosignalen, bei dem eine Bitraten-Reduktion nach den bekannten internationalen Standards erfolgt. Ein Videosignal wird in einer Videokamera 1 in bekannter Weise erzeugt. Das Videosignal enthält die jeweiligen Luminanz- und Chrominanzwerte der einzelnen Pixel eines Videobildes. In einem Digitalisierer 2 wird das analoge Signal abgetastet und digitalisiert. Zuvor erfolgt gegebenenfalls eine Tiefpaßfilterung. Für eine Übertragung der Videobilder über das ISDN-Telefonnetz, beispielsweise im Rahmen der Bildtelefonie, ist es erforderlich, die bei der Digitalisierung des analogen Videosignals entstehende sehr hohe Bitrate von bis, zu 400 Mbit/s ganz erheblich zu reduzieren.

In einer Vorverarbeitungseinheit 3 erfolgt eine Chrominanzunterabtastung, das heißt die Farbdifferenzkomponenten U und V des Chrominanzsignals werden mit geringerer Häufigkeit übertragen als die Luminanzkomponente Y.

Anschließend erfolgt in einer Kodiervorrichtung 4 eine Interframe-Kodierung des Bitdatenstro s . Hierbei wird die zeitliche Redundanz in aufeinanderfolgenden Videobildern, im folgenden auch Frames genannt, reduziert.

Die Kodiervorrichtung 4 weist einen Kodierer 41, einen Dekodierer 42, einen variablen Lauflängenkodierer 43 und einen Puffer 44 auf. Das im Kodierer 4 bitratenreduzierte digitale Videosignal wird über eine Telekommunikationsverbindung 6 zum Empfänger gesendet, wo es in einer Dekodiervorrichtung 7 dekodiert und auf einem Bildschirm 8 dargestellt wird. Die Übertragung des Videosignals erfolgt dabei bevorzugt über eine ISDN-Leitung mit Bandbreiten zwischen 40 kbit/s und 366 kbit/s. Die Übertragung kann jedoch auch paketvermittelt über das Internet oder Intranets mit ausreichender Bandbreite oder auf beliebigen anderen Datennetzen erfolgen. Im Kodierer 41 wird das zum Zeitpunkt t von der Kamera kommende Frame in Makroblöcke einer Größe von 16 x 16 Pixel unterteilt. Zur Reduktion der zeitlichen Redundanz aufeinanderfolgender Frames wird die Verschiebung korrespondierender Makroblöcke von Bild zu Bild festgestellt. Hierzu wird jeder der Makroblöcke eines Frames mit dem spatial korrespondierenden Makroblock eines Referenzframes verglichen. Der Referenzframe wird am Ausgang des Dekodierers 42 zur Verfügung gestellt und durch Dekodierung des kodierten vorangegangenen Frames erzeugt. Der Vorteil in der Wahl eines derartigen Referenzframes liegt darin, daß das am Ausgang des Dekodierers 42 vorliegende Frame identisch mit dem beim Empfänger 8 empfangenen Frame ist. Es wird daher die Verschiebung eines Makroblocks in Bezug auf das "tatsächliche" vom Empfänger empfangene Bild ermittelt.

Sofern bei einem Vergleich eines Makroblocks eines neuen Frames mit dem spatial korrespondierenden Makroblock des Referenzframes signifikante Unterschiede auftreten, wird ermittelt, ob der neue Makroblock sich aus spatial verschobenen Makroblöcken des Referenzframes ermitteln läßt. Die Verschiebung zwischen korrespondierenden Makroblöcken des neuen Frames und des Referenzframes wird durch einen Bewegungsvektor einer bestimmten Richtung und Länge ausgedrückt.

Die Verfahren zur Bestimmung des richtigen Bewegungsvektors sind an sich bekannt. Für den Test, ob ein getesteter Bewegungsvektor der "richtige" Vektor für den betrachteten Makroblock ist, wird üblicherweise entweder die Summe oder die Summe der Quadrate der Abweichungen zwischen den Pixelwerten des neuen Makroblocks und denen des um den zu testenden Bewegungsvektor verschobenen Makroblocks des Referenzbildes betrachtet und ein Minimum dieser Summe gesucht. Die maximale Länge des Bewegungsvektors hängt von dem verwendeten Standard ab und beträgt üblicherweise (+-16/+-16) , maximal derzeit (+-48/+-48) Pixel. Sofern keine Verschiebung eines betrachteten Makroblocks von Bild zu Bild auftritt, ist der Bewegungsvektor gleich (0,0).

Zusätzlich zur Bestimmung eines Bewegungsvektors wird als weitere Maßnahme zur Reduktion der zeitlichen Redundanz im Kodierer 41 die Änderungsinformation zwischen einem Makroblock des betrachteten Frames und dem korrespondierenden ("richtigen") Makroblock des Referenzframes festgestellt, das heißt es werden die jeweiligen Pixelwerte verglichen. Das Differenzbild erfährt in an sich bekannter Weise eine zweidimensionale Diskrete Cosinus-Transformation. Daran schließt sich eine Quantisierung und Gewichtung der Matrixelemente der diskreten Cosinus-Transformation an, wobei die Matrixelemente unterhalb einer bestimmten Größe auf den Wert 0 gesetzt werden, was mit einer Verminderung der Feinstruktur im Bild einhergeht und eine verlustbehaftete Kodierung bedeutet, allerdings durch die anschließende Huffman-Codierung signifikant Bandbreite spart.

Die quantisierte Matrix der diskreten Cosinus-Transformation wird ausgelesen und die entsprechende Bitfolge zusammen mit der Bitfolge für die Bewegungsvektoren dem variablen Lauflängenkodierer 43 zugeführt. Daran schließt sich der Puffer 44 an, aus dem die Daten mit konstanter Bitrate ausgelesen werden. Durch eine durch den Pfeil 9 angedeutete Rückkopplung zwischen Puffer 44 und Kodierer 41 wird für den Fall, daß der Puffer 44 überzulaufen droht, die Anzahl der im Kodierer 41 kodierten Frames verringert, das heißt es werden einzelne von der Kamera 1 kommende Frames nicht kodiert und nicht zum Empfänger übertragen. Hierdurch fällt die Eingangsbitrate des Puffers und der Pufferbestand nimmt wieder ab. Alternativ wird lediglich die Quantisierung der Koeffizienten der diskreten Cosinus-Transformation vergröbert.

Zu einem besseren Verständnis des Standes der Technik sind in Figur la die einzelnen Komponenten des Kodierers 41 und des Dekodierers 42 der Kodiervorrichtung 4 dargestellt. Die Darstellung entspricht dabei der ITU-T Empfehlung H.263.

Die Kodiervorrichtung weist eine Transformationseinheit T, eine Quantisierungseinheit Q, eine inverse Quantisierungsei- nheit Q^-1, eine inverse Transformationseinheit T^-1, eine Be- wegungsvektor-Ermittlungseinheit P mit Videospeicher, eine Kodierkontrolleinheit CC (Coding Control) und zwei Schalter 401, 402 auf. In der Transformationseinheit T erfolgt eine zweidimensionale diskrete Cosinus-Transformation der einzelnen Makroblöcke eines Frames und in der darauf folgenden Quantisierungseinheit Q eine Quantisierung und Gewichtung der Matrixelemente der diskreten Cosinus-Transformation, wie in Bezug auf Figur 1 beschrieben.

Ein auf diese Weise kodiertes Frame wird zum einen über eine Leitung q einem Video Multiplex Coder zugeführt. Zum anderen wird das kodierte Frame mittels der inversen Quantisierungseinheit Q^-1 und der inversen Transformationseinheit T"¹ dekodiert und der Bewegungsvektor-Ermittlungseinheit P als Referenzframe zugeführt. Das Referenzframe stellt also ein kodiertes und danach wieder dekodiertes Frame dar. Weiter wird der Bewegungsvektor-Ermittlungseinheit über eine Leitung 403 das dem betrachteten Frame nachfolgende Frame unmittelbar, d.h. ohne eine Kodierung zugeführt. Durch einen Vergleich des Referenzframes mit dem nachfolgenden Frame wird, wie in Bezug auf Figur 1 beschrieben, für jeden Maktroblock ein Bewegungsvektor ermittelt, der die Verschiebung korrespondierender Makroblöcke von Bild zu Bild ausdrückt und über eine Leitung v zum Video Multiplex Coder geleitet wird. Dabei ist es erforderlich, daß das Referenzframe bereits vollständig berechnet ist, bevor eine neue Bewegungsvektorsuche beginnen kann.

Das kodierte und anschließend dekodierte Frame wird des weiteren über eine Leitung 404 von der Einheit P vor den Eingang des Schalters 401 zur Bildung eines Differenzbildes zurückgeführt, wie durch das Minus-Zeichen symbolisch angedeutet ist. Das Differenzbild enthält die Änderungsin- formationen zwischen den Makroblöcken des neuen Frame (Video in) und den korrespondierenden Makroblöcken des von der Einheit P kommenden Referenzframe. Das Differenzbild erfährt dann in der Transformationseinheit T und der Quantisierungseinheit Q wiederum eine zweidimensionale diskrete Cosinus-Transformation und bildet nach anschließender Dekodierung das nächste Referenzframe für die Einheit P.

Über die Kodierkontrolleinheit CC ist es möglich, den Kodiervorgang zu regeln. Als einzige Regelungsinformation erhält die Kodierkontrolleinheit CC dabei von dem Puffer 44 (in Fig. la nicht dargestellt) Informationen über den Pufferzustand. In Abhängigkeit vom Pufferzustand besitzt die Kodierkontrolleinheit CC drei Regelungsmöglichkeiten.

Zum einen kann sie über eine Leitung 405 den Schalter 401 zwischen einer Intra- (obere Position) und einer Inter- (untere Position) Stellung hin- und herschalten. In der Inter-Stellung wird der Transformationseinheit T die Ände- rungsinformation zwischen den Makroblöcken eines neuen Frame und den entsprechenden Makroblöcken des Referenzframe mitgeteilt. In der Intra-Stellung wird dagegen ein Vollbild, also die gesamte Information eines Frames in den Einheiten T und Q transformiert. Dies ist in regelmäßigen Abständen erforderlich, um ein Auseinanderdriften zwischen den Folgen realer und kodierter Bilder zu verhindern. Je nachdem, ob ein Intra-Frame oder ein Inter-Fra e kodiert wird, setzt die Kodierkontrolleinheit CC ein Flag auf einer Leitung p.

Des weiteren kann die Kodierkontrolleinheit CC über eine Leitung 406 die Genauigkeit der Quantisierung steuern. Die entsprechenden Steuerinformationen werden über eine Leitung qz (quantizer indication) ebenfalls zum Video Multiplex Coder übertragen.

Schließlich besteht die Möglichkeit, bei einem Überlaufen des Puffers ein Frame überhaupt nicht zu übertragen. Für diesen Fall wird auf einer Leitung t ein Flag entsprechend gesetzt.

Die Leitungen p, t, qz , q, v werden zu einem Daten- und Signalbus zusammengefaßt und dem Video Multiplex Coder zugeführt, der dem variablen Lauflängenkodierer 43 zugeordnet ist. Vom variablen Lauflängenkodierer 43 werden die Daten dem sich daran anschließenden Puffer 44 zugeführt, aus dem sie mit konstanter Bitrate ausgelesen werden (vgl. Figur 1) .

Diese Zusammenhänge sind hier nur angedeutet und im einzelnen in der ITU-T Empfehlung H.263 beschrieben. Ähnliche Strukturen finden sich in der ITU-T Empfehlung H.261 und dem MPEG-Standard. Figur 2 zeigt schematisch einen erfindungsgemäßen Kodierer 410. Es wird darauf hingewiesen, daß die dargestellten funktioneilen Einheiten nicht notwendigerweise auch real existieren. Die Verwirklichung der einzelnen Komponenten des Kodierers 410 kann wahlweise in Hardware, in Software, auf einem Video-Chip und/oder in der CPU des Systems, etwa eines PC's erfolgen.

Der Kodierer 410 weist Speichermittel 411 auf, in denen das vorherige, von der Kamera ankommende Bild Ft-i gespeichert wird, ohne daß dieses zuvor eine Kodierung erfährt. Auf der Basis des letzten Kamerabildes F -i werden in einem ersten Verfahrensschritt die Bewegungsvektoren zu den einzelnen Makroblöcken des Frames F-j- berechnet. Dies ist in den Figuren 3a und 3b schematisch dargestellt.

Die Figuren 3a, 3b zeigen die linke obere Ecke eines Videobildes, das aus einzelnen Pixeln 10 besteht. In Figur 3a ist das betrachtete Frame F-^ mit einem Makroblock 11 dargestellt. Zu diesem Makroblock 11 wird der korrespondierende Makroblock des Referenzframes F-t-i gesucht. Der Makroblock 11 ist der Anschaulichkeit halber mit lediglich 4 x 4 Pixeln dargestellt. Tatsächlich weist der Makroblock eine Größe von 16 x 16 oder 8 x 8 Pixeln auf. Die im Makroblock dargestellte Bildinformation (Auto) ist ebenfalls lediglich schematisch aufzufassen.

In einer Vergleichseinrichtung 412 des Kodierers 410 wird nun im Referenzframe F-^-i, der das vorangegangene, unbearbeitete, von der Kamera kommende Bild darstellt, der "richtige" Bewegungsvektor V gesucht. Es bieten sich hierzu zum einen eine hierarchische Suche (hierarchical search) und zum anderen eine spirale Suche (spiral search) an. Beide Verfahren sind an sich bekannt, so daß nicht im Detail auf diese Verfahren eingegangen wird (vgl. etwa Krumpa, Gerd: Algorithmen zur Bewegungsschätzung im Videotelephon, Dissertation, TU Chemnitz, 1991) .

Es sei lediglich erwähnt, daß bei der hierarchischen Suche ausgehend vom dem spatial mit dem Makroblock 11 des Frames F-t korrespondierenden Makroblock des Frames F-^-i zunächst alle Bewegungsvektoren der Länge n = 1 mit den Richtungen 0°, 45°, 90°, ..., 315° getestet werden. Ist keiner der Vektoren der gesuchte Bewegungsvektor, so wird die Länge des Vektors verdoppelt und die Suche wiederholt, bis n gleich der maximalen Bewegungsvektorlänge ist. Um das "Best Match" erfolgt eine zusätzliche Suche.

Bei der spiralen Suche werden ausgehend vom dem spatial mit dem Makroblock 11 des Frames Ft korrespondierenden Makroblock des Frames F-^-i alle denkbaren Vektoren der Länge n = 1 überprüft. Ist der Vektor nicht gefunden, so wird n erhöht und die Suche beginnt von neuem. Dieses Verfahren macht sich zunutze, daß kleine Vektoren statistisch häufiger vorkommen.

Figur 3b zeigt das Referenzframe F -i m t dem korrespondierenden, "richtigen" Makroblock 12, der die meiste Übereinstimmung in der Bildinformation mit dem Makroblock 11 des Frames Ft aufweist, der zur besseren Anschaulichkeit auch in Figur 3b dargestellt ist. Wie bereits ausgeführt, wird ein Bewegungsvektor als der "richtige" Vektor angesehen, wenn die Summe der Beträge oder die Summe der Quadrate der Abweichungen zwischen den Pixelwerten des neuen Makroblocks 11 und denen des um den zu testenden Bewegungsvektor V verschobenen Makroblocks 12 minimal ist. Die Schwelle, ab der ein Bewegungsvektor als "richtig" erkannt und der Suchvorgang abgebrochen wird, wird adaptiv der Bandbreitesituation und ggf. der Prozessor-Last angepaßt.

Die Berechnung des Bewegungsvektors V beginnt bereits während des Einlesens des Frames Ft von der Videokamera 1. Es muß nicht abgewartet werden, bis der Kodierungs- und Dekodierungsvorgang zu dem vorangegangenen Bild abgeschlossen ist. Hierdurch wird die Verzögerungszeit im Kodierer 4 herabgesetzt. Bei einer maximalen Länge des Bewegungsvektors von +-48 Pixel und einer Makroblockgröße von 16 x 16 Pixel kann die Bewegungsvektorsuche erstmalig nach Einlesen der ersten 112 Zeilen des Frames beginnen.

Der auf der Basis des Referenzbildes Ft-i berechnete Bewegungsvektor V entspricht allerdings nicht notwendig exakt dem Bewegungsvektor , der nach den bekannten Verfahren der MPEG-Familie sowie der Standards ITU-T H.261 und H.263 "korrekt" wäre. Dies ist insofern nachteilig, als beim Empfänger 8 das dekodierte Frame F't-_l vorliegt und dieses daher zur Grundlage für die Bewegungsvektorsuche gemacht werden sollte.

In einem zweiten Verfahrensschritt wird daher nachfolgend in der Vergleichseinrichtung 412 eine Bewegungsvektor-Fein- suche auf der Basis des am Ausgang des Dekodierers 42 vorliegenden Referenzbildes F't-i durchgeführt, das das kodierte und anschließend dekodierte vorausgehende Frame Ft-i darstellt.

Wie in Figur 4 dargestellt, kann die maximale Vektorlänge bei der Feinsuche jedoch um eine Größenordnung geringer gehalten werden, wodurch sich der Rechenaufwand um insgesamt zwei Größenordnungen verringert. So wird der Feinsuche der zuvor ermittelte Näherungs-Bewegungsvektor V zugrundegelegt. Im Frame F't-i wird also die Suche nach dem "korrekten" korrespondierenden Makroblock 13 sogleich bei dem dem Makroblock 12 des Referenzframes Ft-i spatial korrespondierenden Makroblock begonnen. Hiervon ausgehend wird der "korrekte" Makroblock und der entsprechende "korrekte" Bewegungsvektor V ermittelt.

Bevorzugt wird bei der Feinsuche aufgrund der nur kleinen erforderlichen maximalen Vektorlänge und aufgrund der besseren Ergebnisse eine spirale Suche (spiral search) vorgenommen.

Nach Ermittlung des Bewegungsvektors V wird in einer DCT-Einrichtung 413 die Änderung zwischen dem Makroblock 13 des Referenzframes F't-i und dem Makroblock 11 des Frames Ft berechnet und das Differenzsignal einer diskreten Cosinus-Transformation unterzogen. Dies erfolgt in an sich bekannter Weise, so daß hierauf nicht näher eingegangen werden muß.

Sofern nicht alle von der Videokamera kommenden Frames komprimiert, sondern einzelne Frames ausgelassen werden, wird dennoch eine "Grobsuche" durchgeführt und werden die bei der "Grobsuche" ermittelten Näherungs-Bewegungsvektoren V summiert und bei dem nächstfolgenden kompriminerte Frame als Ausgangsvektor für die Bewegungsvektor-Feinsuche verwendet.

Figur 5 zeigt die erfindungsgemäße Kodiervorrichtung 410 in einer Darstellung, die sich an der Darstellung der Figur la orientiert. Zusätzlich zu den in Figur la dargestellten Einheiten sind ein Speicher 411 und eine Näherungs-Bewegu- ngsvektor-Ermittlungseinheit 414 vorgesehen. In dem Spei- eher 411 wird das vorangegangene Frame Ft-i zwischengespei- chert (delay 1 Frame) . Dies wird bevorzugt durch einen alternierenden Framebuffer-Tausch implementiert.

Der Näherungs-Bewegungsvektor-Ermittlungseinheit 414 wird über eine Leitung 416 ein neu einkommendes Frame Ft und über eine Leitung 417 das im Speicher 411 gespeicherte vorangegangene Frame Ft-i zugeführt. Wie anhand der Figuren 3a, 3b beschrieben, erfolgt in der Näherungs-Bewegungsve- ktor-Ermittlungseinheit 414 anhand dieser beiden Frames eine Ermittlung der Näherungs-Bewegungsvektoren. Die ermittelten Näherungs-Bewegungsvektoren werden über eine Leitung 415 der Kodierkontrolleinheit CC und über diese den weiteren Kodiereinheiten T, Q, T^-1, Q^-1, P (Coding-Loop) , insbesondere der Bewegungsvektor-Ermittlungseinheit P zugeführt, die die Bewegungsvektor-Feinsuche durchführt und die ermittelten "korrekten" Bewegungsvektoren V auf der Leitung v an den Video Multiplex Coder leitet. Die Kodierkontrolleinheit CC legt dabei fest, mit welcher Tiefe die Bewegungsvektorsuche erfolgt.

Die erhaltenen Näherungs-Bewegungsvektoren werden wie in Fig. 4 beschrieben als Schätzvektoren für die Bewegungsvektor-Feinsuche verwendet, die auf dem "echten" Referenzframe F't-l erfolgt. Dadurch wird der Aufwand im eigentlichen Bewegungsvektor-Suchalgorithmus innerhalb der Coding-Loop gering gehalten.

Die Bewegungsvektorsuche wird in einer Ausgestaltung der Erfindung in einer einfachen Dataflow-Architektur in einem Video-Frontend- oder Video-Accelerator-Chip durchgeführt. Hierdurch kann das komplexe Handshaking des dekodierten Referenzframes mit diesem Chip entfallen. Alternativ wird lediglich die Grobsuche nach dem Näherungs-Bewegungsvek- tor V auf einem Accelerator-Chip verwirklicht, die Nachsuche hingegen in Software auf dem Hauptprozessor des Systems. Aufgrund des neuen Verfahrens zur Berechnung des Bewegungsvektors V reduziert sich der Rechenaufwand für den Hauptprozessor in Bezug auf die Bewegungsvektorsuche um mindestens den Faktor 10. Bei einer typischen Videokonferenzumgebung beträgt der Aufwand für die Bewegungsvektorsuche damit lediglich 1,6 % statt rund 70 % gemäß dem Stand der Technik. Dies ermöglicht höhere Kodierqualitäten auch bei Software-basierten Kodierungssystemen.

Das Accelerator-Chipteil kann zum Beispiel aufgrund der einfachen Data-Flow-Architektur in Video->PCI-Bridges integriert werden.

Als Speichermittel 411 wird in einem Ausführungsbeispiel (nicht dargestellt) der Hauptspeicher eines PC oder eines vergleichbaren Rechners verwendet. Die Information des Referenzframes Ft-i gelangt dabei über einen Datenbus zum Kodierer 410 (Unified Memory Architecture (UMA) ) .

Die Erfindung beschränkt sich in ihrer Ausführung^' nicht auf die vorstehend angegebenen Ausführungsbeispiele. Vielmehr sind eine Anzahl von Varianten denkbar, welche von der Erfindung auch bei grundsätzlich anders gearteten Ausführungen Gebrauch machen.

* * * * *

Claims

Ansprüche

Verfahren zur Bewegtbilddatenkompression, bei dem von einer Videokamera, oder einer anderen Quelle kommende Frames in Makroblöcke mit N mal M Pixeln unterteilt werden und zu jedem Makroblock eines Frames durch Vergleich mit Makroblöcken eines zeitlich früher liegenden Referenzframes ein Bewegungsvektor ermittelt wird, der die Richtung und die Länge der Verschiebung eines Makroblocks in Bezug auf das Referenzframe angibt,

dadurch gekennzeichnet, daß

a) als Referenzframe zunächst ein von der Videokamera kommendes, unbearbeitetes Frame (Ft-i) verwendet und auf der Basis dieses Referenzframes (Ft-i) zu jedem Makroblock (11) ein Näherungs-Bewegungsvektor (V) ermittelt wird und

b) anschließend ausgehend von dem ermittelten Näherungs- Bewegungsvektor (V) eine Bewegungsvektor-Feinsuche in einem weiteren Referenzframe (F't-i) erfolgt, das durch Dekodieren des kodierten vorherigen Frames (Ft-i) erzeugt wird.

2. Verfahren nach Anspruch 1, dadurch gekennzeichnet, daß zusätzlich zum Bewegungsvektor (V) für jeden Makroblock (11) die Änderungsinformation gegenüber dem korrespondierenden Makroblock (13) des Referenzframes (F't-l) ermittelt wird.

3. Verfahren nach Anspruch 2, dadurch gekennzeichnet, daß die Änderungsinformation verlustbehaftet kodiert wird.

4. Verfahren nach Anspruch 3, dadurch gekennzeichnet, daß bezüglich der Änderungsinformation zu jedem Makroblock eine Diskrete Cosinus-Transformation vorgenommen und die dabei ermittelten Koeffizienten mit einer Gewichtungsma- trix bewertet werden.

Verfahren nach mindestens einem der vorangegangenen Ansprüche, dadurch gekennzeichnet, daß ein Vergleich zwischen den Makroblöcken (11) eines Frames (Ft) und den Makroblöcken (12) des vorangegangenen, unbearbeiteten Referenzframes (Ft-i) bereits während des Einlesens des Frames (Ft) von der Kamera (1) beginnt.

Verfahren nach mindestens einem der vorangegangenen Ansprüche, dadurch gekennzeichnet, daß die kodierten Daten vor ihrer Übertragung an einen Empfänger in einen Puffer (44) eingelesen und bei einem verzögerten Auslesen der Videodaten aus dem Puffer (44) nur einzelne von der Kamera kommende Frames kodiert werden und/oder die Kodierungsqualität verringert wird.

7. Verfahren nach Anspruch 6, dadurch gekennzeichnet, daß im Falle des Auslassens der Kodierung einzelner Frames die Näherungs-Bewegungsvektoren (V) summiert und bei dem nächstfolgenden komprimierten Frame als Ausgangsvektor für die Bewegungsvektor-Feinsuche verwendet werden.

Verfahren nach mindestens einem der vorangehenden Ansprüche, dadurch gekennzeichnet, daß die Schwelle, ab der ein Bewegungsvektor (V) bzw. ein Näherungs-Bewegungsvektor (V) als korrekt angesehen wird, adaptiv der Bandbrei- tesituation des Übertragungswegs und der Last des verwendeten Prozessors angepaßt wird.

9. Verfahren nach mindestens einem der vorangehenden Ansprüche, dadurch gekennzeichnet, daß die maximale Länge des Bewegungsvektors zwischen 4 und 48 Pixel beträgt.

10. Verfahren nach mindestens einem der vorangehenden Ansprüche, dadurch gekennzeichnet, daß die Ermittlung eines Näherungs-Bewegungsvektors (V) im ersten Referenzframe (Ft-i) in einem eigenen Videochip erfolgt, während die anschließende Feinsuche im zweiten Referenzframe (F't-l) auf einem Hauptprozessor des Systems erfolgt.

11. Kodiervorrichtung zur Durchführung des Verfahrens nach Anspruch 1, gekennzeichnet durch

a) Speichermittel (411) zum Speichern eines unbearbeiteten, direkt von einer Videokamera (1) kommenden Frames

(Ft-l) /

b) einen Dekodierer (42) zum Dekodieren eines kodierten Frames und

c) einen Kodierer (410) mit Mittel (412) zum Berechnen eines Näherungs-Bewegungsvektors (V) auf der Basis des in den Speichermitteln (411) gespeicherten Referenzframes (Ft-i) sowie mit Mitteln (412) zum Berechnen eines Bewegungsvektors (V) auf der Basis der ermittelten Näherungs-Bewegungsvektoren (V) und dem durch Dekodieren des kodierten vorherigen Frames erzeugten Referenzframe (F't-i) •

12. Kodiervorrichtung nach Anspruch 11, dadurch gekennzeichnet, daß das Speichermittel (411) der Hauptspeicher eines PC oder eines vergleichbaren Rechners ist und die Information des Referenzframes (Ft-i) über einen Datenbus zum Kodierer (410) gelangt.

13. Kodiervorrichtung nach Anspruch 11, dadurch gekennzeichnet, daß sämtliche Einrichtungen der Kodiervorrichtung (4) in einen Video-Chip integriert sind.

* * * * *