WO2001045420A1 - Bewegungsschätzung in videobildern - Google Patents

Bewegungsschätzung in videobildern Download PDF

Info

Publication number
WO2001045420A1
WO2001045420A1 PCT/EP2000/011647 EP0011647W WO0145420A1 WO 2001045420 A1 WO2001045420 A1 WO 2001045420A1 EP 0011647 W EP0011647 W EP 0011647W WO 0145420 A1 WO0145420 A1 WO 0145420A1
Authority
WO
WIPO (PCT)
Prior art keywords
image
motion
motion models
video
models
Prior art date
Application number
PCT/EP2000/011647
Other languages
English (en)
French (fr)
Inventor
Gerard De Haan
Rimmert B. Witterbrood
Original Assignee
Koninklijke Philips Electronics N.V.
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Koninklijke Philips Electronics N.V. filed Critical Koninklijke Philips Electronics N.V.
Publication of WO2001045420A1 publication Critical patent/WO2001045420A1/de

Links

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/50Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using predictive coding
    • H04N19/503Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using predictive coding involving temporal prediction
    • H04N19/51Motion estimation or motion compensation
    • H04N19/537Motion estimation other than block-based
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/50Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using predictive coding
    • H04N19/503Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using predictive coding involving temporal prediction
    • H04N19/51Motion estimation or motion compensation

Definitions

  • the invention relates to a method for motion estimation in video image data, wherein parameter sets of two or more motion models are first determined on the basis of a first and a second video image, and image objects are then assigned to the motion models.
  • the invention further relates to a device for carrying out the method, a device for displaying video images working according to the method and a computer program product for motion estimation.
  • Methods in the field of home terminals require that the underlying algorithms deliver a high-quality frame rate conversion and only require a small amount of computation, since the performance of digital signal processing electronics from home devices is limited.
  • methods for motion estimation of the type mentioned at the outset are also suitable for coding and compression during the transmission of video data, as well as for depth estimation in 3D image data processing and for disparity estimates for stereo images.
  • WO 99/16251 proposes such a method. It is a powerful, object-oriented method for motion estimation, in which two or more motion models are used to describe the displacement of image objects between a current and a previous video image. The motion models are determined by parameter sets, from which displacement vectors can be calculated.
  • One of the motion models is required to take into account those parts of the image that are static.
  • the associated displacement vector is therefore the zero vector.
  • the parameter sets of the other motion models are determined by evaluating the adjustment errors of the motion models when describing the displacement of the image objects between successive video images. It is then necessary for the interpolation to segment the image data and to assign suitable motion models to individual image objects. The result of the segmentation are separate objects, that is to say parts of the image which perform a similar or comparable shift from the previous to the current video image.
  • the known method for motion estimation represents a powerful alternative to the otherwise usual block-oriented method, since the number of objects that can move independently of one another in normal video sequences is small and therefore only a correspondingly small number of motion models has to be processed. This results in a small number of arithmetic operations, which makes the method universally applicable even in the home.
  • the basic object of the present invention is to further improve the previously known motion estimation method while at the same time further reducing the complexity.
  • a further development according to the task of a method of the type mentioned at the outset is that the image objects are composed of a plurality of blocks, into which the entire image area is divided, each block being assigned a local displacement vector, by which the respective motion picture model is added.
  • the main basic idea is to describe even complex movement sequences with relatively simple movement models by taking into account slight, local deviations from the shifts described by the movement models.
  • the method according to the invention becomes significantly more efficient by defining a displacement field on the entire image area which is independent of the image objects. This means that individual objects that perform a complicated movement can be described by a single movement model, supplemented by the specification of local deviations.
  • the image objects are composed of those blocks within which the displacement from one to the other video image is best described by one of the motion models where the local displacement vector of each block is determined by modifying the local displacement vector of an adjacent block.
  • the segmentation of the image area takes place after the determination of the parameter sets for the motion models.
  • the image objects are composed of blocks into which the image area is divided. These blocks are typically a rectangular or square arrangement of several pixels. In principle, the blocks can also consist of only one each
  • the individual blocks When assigning the individual blocks to the movement models, it is evaluated which of the movement models best describes the movement within the respective block. In order to compensate the local deviations from the respective movement model within each block, a local displacement vector is determined in each case. Since generally larger contiguous objects perform the same movement, it has also proven to be efficient, also with regard to the number of arithmetic operations, to determine the additional local vectors by modifying a spatially adjacent block.
  • the procedure according to the The invention is easy to implement, since blocks that are spatially adjacent can be processed one after the other during the segmentation.
  • a device for motion estimation in video image data with a digital image memory in which a first and a second video image can be stored, with means for determining parameter sets of two or more motion models and with means for assigning the motion models, is suitable for carrying out the method according to the invention Image objects, the device having means for dividing the entire image area into blocks and for calculating local displacement vectors, by means of which the motion models are supplemented.
  • Such devices can advantageously be installed in televisions, monitors, video or DVD players, etc.
  • the digital image memory of the device according to the invention does not necessarily have to have sufficient capacity to record the first and the second video image simultaneously. Saving the respective images one after the other is sufficient for the method according to the invention.
  • Devices for displaying video images such as television sets, monitors, etc., with a digital image memory in which video image data can be stored, with electronic means for processing the image data stored in the image memory and for displaying video images on a display device, the means for processing the image data have means for determining parameter sets of two or more motion models and means for assigning the motion models to image objects can advantageously benefit from the method according to the invention if the means for processing the image data also include means for dividing the entire image area into blocks and for calculation from local
  • Display devices in the above sense are for For example, the cathode ray tubes or dot matrix displays that are common in television sets and monitors. Other display devices for the visual output of digital image data are also conceivable.
  • a computer program product for motion estimation in video image data which receives as input a pair of video image data sets and, on the basis thereof, first calculates parameter sets of two or more motion models, then assigns image objects to the motion models and finally outputs motion data which describe the displacement of the image objects from one image to the other
  • Such a computer program product can comprise, for example, software which is suitable for programming video devices, televisions, etc. Conventional digitally working devices can advantageously be improved according to the invention by means of this software.
  • the software can be sluggish on data, such as a floppy disk or CD-ROM, or can be made available for downloading via a data network (Internet).
  • FIG. 1 is a block diagram of the motion estimation method according to the invention.
  • Fig. 2 block diagram of an inventive device for displaying video images.
  • a selection criterion is applied to selected image areas.
  • C ⁇ x, n) denotes the image pair n as the current and n - ⁇ as the previous video image
  • W 0 (x) represents a weighting factor that takes into account which one
  • Motion model o the image coordinate x was assigned to the video sequence in the case of earlier image data. This makes it possible to establish a link between parameter determination and image segmentation, which has advantages with regard to the temporal consistency of the
  • the parameter set is determined in such a way that the above adaptation error assumes a minimum value for the corresponding movement model o.
  • at least two motion models are always used, one of which always has the zero vector as a parameter set, so that by means of this motion model with the
  • Displacement vector C 0 (x, n) - 0 the stationary image areas are described.
  • the next step in motion estimation according to the invention is image segmentation, that is to say the assignment of image areas to the motion models.
  • image segmentation that is to say the assignment of image areas to the motion models.
  • the entire image area is first divided into blocks. Have in practice Square blocks of 8 by 3 pixels proven. The following applies to all image coordinates within the block at position X. nxe B (X).
  • ⁇ 0 (X, n) ⁇ ⁇ F ⁇ x + (l -) C ⁇ x, n), n) - F ⁇ x - C 0 (x, n), n - ⁇ ) ⁇ xzB (.X)
  • the point in time at which the segmentation should be valid is determined by a.
  • block X is assigned the motion model o for which ⁇ o (X, ⁇ ) is minimal. The assignment is then in the
  • the movement models are supplemented by local displacement vectors which show the deviation of the movement in the area of a
  • the displacement field b (X, n) is determined during image segmentation.
  • the calculation with ⁇ o (X, n) is based on the displacement with the additional displacement field b (X, n).
  • a displacement vector C "(X, n) C 0 (X - ⁇ , n) + b u (X, n) is specified as a candidate, which has a value of b u (X, n ) modified local
  • b u (X, n) can be chosen at random or taken from a corresponding set of possible vectors.
  • Figure 1 shows schematically the sequence of a motion estimation according to the invention.
  • a method step 9 Starting from a previous video image 6 and a current video image 7, certain image areas are selected in a method step 9 and for Provide a plurality of motion models with weighting factors 10 and then further processed in a method step 11, in which the parameters of the motion models are determined according to a selection criterion.
  • the entire image area is then divided into blocks in a step 12 and the displacement vectors corresponding to the individual motion models are calculated for each block.
  • the segmentation of the image area then takes place in FIG. 13, the blocks being assigned to the movement models.
  • a segmentation mask 14 that is created, the assignments that are used in the weighting 10 for the next pair of images are stored.
  • a local displacement field which is also taken into account in the segmentation 13, is added to the displacements resulting from 12 in a step 15. Parallel to the segmentation 13, the local displacement field is recalculated for each block from the local displacements of neighboring blocks in step 16.
  • FIG. 2 shows schematically the structure of a digitally operating display device, which is e.g. can be a television set or a video monitor.
  • the device is supplied with a video signal 20, which is stored and processed in a digital image processing unit 21.
  • the image processing unit has an image memory 22, a processor 23 and one
  • Program memory 24 on. If necessary, these elements can also, at least partially, be combined in a discrete component.
  • a program stored in the program memory 24 runs on the processor 23 and controls the image processing according to the invention.
  • An image display unit 25 receives image data 26 processed by the image processing unit 21 and uses this to generate a signal 27 for controlling a cathode ray tube 28, via which the video images are visually output.

Landscapes

  • Engineering & Computer Science (AREA)
  • Multimedia (AREA)
  • Signal Processing (AREA)
  • Image Analysis (AREA)
  • Studio Circuits (AREA)

Abstract

Die Erfindung betrifft ein objekt-orientiertes Bewegungsschätzungsverfahren für die Interpolation zwischen Videobilddatensätzen. Es werden dabei zwei oder mehr Bewegungsmodelle verwendet, um die Verschiebung von Bildobjekten zwischen einem ersten und einem zweiten Videobild zu beschreiben. Die Bewegungsmodelle werden durch Parametersätze bestimmt, aus welchen sich Verschiebungsvektoren für die Bildobjekte berechnen lassen. Eines der Bewegungsmodelle wird benötigt, um diejenigen Bildteile zu berücksichtigen, die statisch, also unbeweglich sind. Zur Verbesserung der Qualität der Bewegungsschätzung wird ein Verschiebungsfeld eingeführt, welches lokale Abweichungen der wahren Bewegung von den durch die Bewegungsmodelle gegebenen Vektoren berücksichtigt.

Description

Bewegungsschätzung in Videobildern
Die Erfindung betrifft ein Verfahren zur Bewegungsschätzung in Videobilddaten, wobei zunächst ausgehend von einem ersten und einem zweiten Videobild Parametersätze von zwei oder mehr Bewegungsmodellen ermittelt werden und wobei dann den Bewegungsmodellen Bildobjekte zugeordnet werden. Die Erfindung betrifft ferner eine Vorrichtung zur Durchführung des Verfahrens, eine gemäß dem Verfahren arbeitende Vorrichtung zur Darstellung von Videobildern und ein Computerprogrammprodukt zur Bewegungsschätzung.
Fortschritte in der Multimedia-Technik haben zur Entwicklung einer Vielzahl von Videoformaten und Wiedergabestandards geführt. Diese unterscheiden sich unter anderem auch in der Bildrate, also in der Zahl der Einzelbilder pro Zeiteinheit. Soll eine Videosequenz auf einem PC- oder TV-Bildschirm wiedergegeben werden, so ist es erforderlich, eine Anpassung an die Bildrate des Wiedergabegeräts vorzunehmen. Hierfür geeignete Schnittstellen arbeiten mit Konversionsverfahren unterschiedlicher Komplexität. Die einfachste Methode besteht darin, bei der Wiedergabe je nach gewünschter Bildrate Einzelbilder der Videosequenz zu wiederholen oder auszulassen. Bei der Darstellung derartig behandelter Videodaten treten jedoch unerwünschte Artefakte auf. Es kommt je nach dem Verhältnis der zugrundeliegenden Bildraten zu unerwünschten Darstellungsfehlern. Die Wiedergabe erscheint stockend und ungleichmäßig, so daß die in der Videosequenz dargestellten Bewegungen unnatürlich wirken. Aufwendigere Verfahren nehmen eine Interpolation zwischen aufeinanderfolgenden Videobildern vor, wobei ein Algorithmus zur Bewegungsschätzung zum Einsatz kommt, welcher die Verschiebungen einzelner Bildelemente von einem Einzelbild zum nächsten erkennt und daraus Bilddaten erzeugt, die zeitlich zwischen den Einzelbildern der Videosequenz liegen. Die Anwendung derartiger
Verfahren im Bereich der Heim-Endgeräte erfordert, daß die zugrundeliegenden Algorithmen eine qualitativ hochwertige Bildratenkonversion liefern und dabei nur einen geringen Rechenaufwand benötigen, da der Leistungsfähigkeit der digitalen Signalverarbeitungselektronik von Heimgeräten Grenzen gesetzt sind. Verfahren zur Bewegungsschätzung der eingangs genannten Art eignen sich außer für die Bildratenkonvers.on auch für die Kodierung und Kompression bei der Übertragung von Videodaten sowie für die Tiefeschätzung in der 3D Bilddatenverarbeitung und für Disparitätsschätzungen bei Stereobildern. Ein derartiges Verfahren schlägt die WO 99/16251 vor. Es handelt sich hierbei um ein leistungsfähiges, objektorientiertes Verfahren zur Bewegungsschätzung, bei dem zwei oder mehr Bewegungsmodelle verwendet werden, um die Verschiebung von Bildobjekten zwischen einem aktuellen und einem vorhergehenden Videobild zu beschreiben. Die Bewegungsmodelle werden durch Parametersätze bestimmt, aus welchen sich Verschiebungsvektoren berechnen lassen. Eines der Bewegungsmodelle wird benötigt, um diejenigen Bildteile zu berücksichtigen, die statisch sind. Der zugehörige Verschiebungsvektor ist also der Nullvektor. Die Parametersätze der übrigen Bewegungsmodelle werden ermittelt, indem die Anpassungsfehler der Bewegungsmodelle bei der Beschreibung der Verschiebung der Bildobjekte zwischen aufeinanderfolgenden Videobildem bewertet werden. Für die Interpolation ist es dann erforderlich, die Bilddaten zu segmentieren und dabei einzelnen Bildobjekten geeignete Bewegungsmodelle zuzuordnen. Das Ergebnis der Segmentierung sind separate Objekte, also Bildteile die vom vorhergehenden zum aktuellen Videobild eine ähnliche oder vergleichbare Verschiebung ausführen. Das vorbekannte Verfahren zur Bewegungsschätzung stellt eine leistungsfähige Alternative zu den ansonsten üblichen blockorientierten Verfahren dar, da die Zahl der unabhängig voneinander beweglichen Objekte in normalen Videosequenzen gering ist und deswegen auch nur eine entsprechend kleine Zahl von Bewegungsmodellen verarbeitet werden muß. Daraus resultiert eine geringe Zahl von Rechenoperationen, was das Verfahren auch im Heimbereich universell einsetzbar macht.
Um bei dem vorbekannten Verfahren auch komplizierte Bewegungsabläufe darstellen zu können, sind entweder eine große Zahl von Bewegungsmodellen oder Bewegungsmodelle hoher Komplexität vonnöten. Beides resultiert in langsamer Konvergenz bei gleichzeitig erhöhter Zahl von Rechenoperationen.
Die grundlegende Aufgabe der vorliegenden Erfindung ist es, das vorbekannte Bewegungsschätzungsverfahren weiter zu verbessern und dabei gleichzeitig die Komplexität weiter zu reduzieren. Eine Weiterentwicklung besteht also gemäß der Aufgabenstellung bei einem Verfahren der eingangs genannten Art darin, daß die Bildobjekte aus einer Mehrzahl von Blöcken, in die der gesamte Bildbereich unterteilt wird, zusammengesetzt werden, wobei jedem Block ein lokaler Verschiebungsvektor zugeordnet wird, durch welchen das zu dem jeweiligen Bildobjekt gehörige Bewegungsmodell ergänzt wird.
Der wesentliche Grundgedanke besteht dabei darin, auch komplexe Bewegungsabläufe mit relativ einfachen Bewegungsmodellen zu beschreiben, indem geringfügigen, lokalen Abweichungen von den durch die Bewegungsmodelle beschriebenen Verschiebungen Rechnung getragen wird. Das Verfahren gemäß der Erfindung wird deutlich effizienter, indem auf dem gesamten Bildbereich ein Verschiebungsfeld definiert wird, das unabhängig von den Bildobjekten ist. Dadurch ergibt sich, daß einzelne Objekte, die eine komplizierte Bewegung ausführen, durch ein einzelnes Bewegungsmodell, ergänzt durch die Angabe lokaler Abweichungen, beschreibbar sind.
Es ist zweckmäßig, die Bestimmung der zusätzlichen Verschiebungsvektoren bei der Segmentierung des Bildbereiches vorzunehmen, so daß bei der Zuordnung der Bewegungsmodelle zu Bildobjekten die Bildobjekte aus denjenigen Blöcken zusammengesetzt werden, innerhalb derer die Verschiebung vom einen zum anderen Videobild durch jeweils eines der Bewegungsmodelle am besten beschrieben wird, wobei der lokale Verschiebungsvektor jedes Blocks durch Modifikation des lokalen Verschiebungsvektors eines benachbarten Blocks bestimmt wird.
Die Segmentierung des Bildbereiches erfolgt im Anschluß an die Bestimmung der Parametersätze für die Bewegungsmodelle. Die Bildobjekte werden aus Blöcken zusammengesetzt, in die der Bildbereich unterteilt ist. Bei diesen Blöcken handelt es sich typischerweise um eine rechteckige oder quadratische Anordnung von mehreren Bildpunkten. Im Prinzip können die Blöcke aber auch aus jeweils nur einem einzelnen
Bildpunkt bestehen. Bei der Zuordnung der einzelnen Blöcke zu den Bewegungsmodellen, wird bewertet, durch welches der Bewegungsmodelle die Bewegung innerhalb des jeweiligen Blockes am besten beschrieben wird. Um innerhalb jedes Blocks die lokalen Abweichungen vom jeweiligen Bewegungsmodell auszugleichen, wird jeweils ein lokaler Verschiebungsvektor ermittelt. Da in der Regel größere zusammenhängende Objekte die gleiche Bewegung ausführen, hat es sich, auch im Hinblick auf die Zahl der Rechenoperationen, als effizient erwiesen, die zusätzlichen lokalen Vektoren durch Modifikation eines räumlich benachbarten Blocks zu bestimmen. Das Verfahren gemäß der Erfindung läßt sich leicht implementieren, da bei der Segmentierung räumlich benachbarte Blöcke nacheinander abgearbeitet werden können.
In der Praxis hat es sich gezeigt, daß eine gezielte Bestimmung der lokalen Verschiebungsvektoren schwierig ist. Bewährt hat es sich, eine Menge von beispielsweise zufälligen Modifikationen eines benachbarten Blocks vorzugeben und dann denjenigen lokalen Verschiebungsvektor auszuwählen, durch welchen zusammen mit dem zugehörigen Bewegungsmodell die Verschiebung vom einen zum anderen Videobild innerhalb des Blockbereichs am besten beschrieben wird.
Für die Durchführung des erfindungsgemäßen Verfahrens eignet sich eine Vorrichtung zur Bewegungsschätzung in Videobilddaten, mit einem digitalen Bildspeicher, in dem ein erstes und ein zweites Videobild speicherbar sind, mit Mitteln zur Bestimmung von Parametersätzen von zwei oder mehr Bewegungsmodellen und mit Mitteln zur Zuordnung der Bewegungsmodelle zu Bildobjekten, wobei die Vorrichtung Mittel zur Unterteilung des gesamten Bildbereiches in Blöcke und zur Berechnung von lokalen Verschiebungsvektoren, durch welche die Bewegungsmodelle ergänzt werden, aufweist.
Derartige Vorrichtungen können vorteilhafterweise in Fernsehgeräte, Monitore, Video- oder DVD-Abspielgeräte usw. eingebaut werden. Der digitale Bildspeicher der erfindungsgemäßen Vorrichtung muß dabei nicht notwendigerweise eine ausreichende Kapazität haben, um das erste und das zweite Videobild gleichzeitig aufzunehmen. Die Speicherung der jeweiligen Bilder nacheinander reicht für das erfindungsgemäße Verfahren aus.
Vorrichtungen zur Darstellung von Videobildern, wie beispielsweise Fernsehgeräte, Monitore usw., mit einem digitalen Bildspeicher, in dem Videobilddaten speicherbar sind, mit elektronischen Mitteln zur Verarbeitung der in dem Bildspeicher gespeicherten Bilddaten und zur Darstellung von Videobildem auf einer Anzeigevorrichtung, wobei die Mittel zur Verarbeitung der Bilddaten Mittel zur Bestimmung von Parametersätzen von zwei oder mehr Bewegungsmodellen und Mittel zur Zuordnung der Bewegungsmodelle zu Bildobjekten aufweisen, können vorteilhafterweise von dem erfindungsgemäßen Verfahren profitieren, wenn die Mittel zur Verarbeitung der Bilddaten fe er Mittel zur Unterteilung des gesamten Bildbereiches in Blöcke und zur Berechnung von lokalen
Verschiebungsvektoren, durch welche die Bewegungsmodelle ergänzt werden, aufweisen. Herkömmliche digital arbeitende Fernsehgeräte und Monitore können auf einfache Weise nach der erfindungsgemäßen Verfahren betrieben werden, wodurch die Qualität der Bilddarstellung verbessert wird. Anzeigevorrichtungen im obigen Sinne sind dabei zum Beispiel die bei Fernsehgeräten und Monitoren üblichen Kathodenstrahlröhren oder Punktmatrixdisplays. Andere Anzeigevorrichtungen zur visuellen Ausgabe von digitalen Bilddaten sind genauso denkbar.
Ein Computerprogrammprodukt zur Bewegungsschätzung in Videobilddaten, welches als Eingabe ein Paar von Videobilddatensätzen erhält und davon ausgehend zunächst Parametersätze von zwei oder mehr Bewegungsmodellen berechnet, dann den Bewegungsmodellen Bildobjekte zuordnet und schließlich Bewegungsdaten ausgibt, welche die Verschiebung der Bildobjekte vom einen zum anderen Bild beschreiben, unterteilt gemäß der Erfindung den gesamten Bildbereich in Blöcke, aus denen die Bildobjekte zusammengesetzt werden, wobei für jeden Block ein lokaler Verschiebungsvektor berechnet wird, welcher das dem jeweiligen Block zugeordnete Bewegungsmodell ergänzt. Ein derartiges Computerprogrammprodukt kann beispielsweise eine Software umfassen, welche zur Programmierung von Videogeräten, Fernsehern usw. geeignet ist. Herkömmliche digital arbeitende Geräte können vorteilhafterweise mittels dieser Software erfindungsgemäß verbessert werden. Die Software kann dabei auf Daten trägem, wie Diskette oder CD-ROM vorliegen, oder kann über ein Datennetz (Internet) zum Herunterladen bereitgestellt werden.
Im folgenden werden, auch anhand der Figuren, Ausführungsbeispiele der Erfindung erläutert. Es zeigen:
Fig. 1 Blockdiagramm des Bewegungsschätzungsverfahrens gemäß der Erfindung;
Fig. 2 Blockdiagramm einer erfindungsgemäßen Vorrichtung zur Darstellung von Videobildem. Bei der Ermittlung der Parametersätze für die Bewegungsmodelle gemäß der
Erfindung wird ein Auswahlkriterium auf ausgewählte Bildbereiche angewandt. Das Auswahlkriterium besteht dabei zum Beispiel in der Bewertung eines Anpassungsfehlers ε . Dieser wird als Summe von absoluten Differenzen von einzelnen bewegungskompensierten Pixelintensitäten zwischen einem aktuellen und einem vorhergehendem Videobild folgendermaßen berechnet: ε(C0,n) = ∑Wχ )- \ Fχx,n)- Fχx - C0( ,n),n -l) \ Es erfolgt eine Summierung über Bildkoordinaten x , die in einer Menge
Figure imgf000008_0001
I( ) von ausgewählten Bildbereichen enthalten sind. An diesen Bildkoordinaten werden die absoluten Differenzen zwischen den Pixelintensitäten im aktuellen bzw. vorhergehenden Videobild aufsummiert. F5 (3c, ή) ist dabei die Pixelintensität an der Bildkoordinate x in einem Videobild mit reduziertem Bildraster. Es hat sich nämlich gezeigt, daß bei der Parameterbestimmung die Verwendung eines in der Auflösung reduzierten Bildes (sub- sampled image) völlig ausreichend ist. Dies führt vorteilhafterweise zu einer erheblichen Reduktion des Rechenaufwandes. Durch den fortlaufenden Index n wird die Nummer des
Einzelbildes und damit der Zeitpunkt innerhalb der Videosequenz bezeichnet. Cχx,n) bezeichnet für das Bildpaar n als aktuelles und n -\ als vorhergehendes Videobild den
Verschiebungsvektor an der Bildkoordinate x gemäß dem Bewegungsmodell mit dem Index . W0 (x) stellt einen Wichtungsfaktor dar, mit dem berücksichtigt wird, welchem
Bewegungsmodell o die Bildkoordinate x bei früheren Bilddaten der Videosequenz zugeordnet wurde. Damit läßt sich eine Verknüpfung zwischen Parameterbestimmung und Bildsegmentierung herstellen, was Vorteile im Hinblick auf die zeitliche Konsistenz der
Bewegungsschätzung und die Leistungsfähigkeit des Verfahrens hat.
Mittels des folgenden Bewegungsmodells lassen sich ausgehend von vier
Parametern Verschiebungsvektoren berechnen:
Figure imgf000008_0002
Es handelt sich hierbei um ein einfaches lineares Modell erster Ordnung, mit dem Translationen und Skalierungen beschreibbar sind. Das Modell wird bestimmt durch den
Parametersatz P0 (n) - [sx (o, n), dx (o,ή), sy (o, n), dy (o, n) . Der Parametersatz wird so bestimmt, daß der obige Anpassungsfehler für das entsprechende Bewegungsmodell o einen minimalen Wert annimmt. Bei dem Bewegungsschätzungsverfahren gemäß der Erfindung kommen stets wenigstens zwei Bewegungsmodelle zum Einsatz, wovon eines immer den Nullvektor als Parametersatz hat, so daß durch dieses Bewegungsmodell mit dem
Verschiebungsvektor C0(x,n) - 0 die stationären Bildbereiche beschrieben werden.
Der nächste Schritt bei der Bewegungsschätzung gemäß der Erfindung ist die Bildsegmentierung, also die Zuordnung von Bildbereichen zu den Bewegungsmodellen. Hierzu wird zunächst der gesamte Bildbereich in Blöcke unterteilt. In der Praxis haben sich quadratische Blöcke aus 8 mal 3 Pixeln bewährt. Für alle Bildkoordinaten innerhalb des Blocks an der Stelle X gilt dar.n x e B(X). Für jeden Block wird wiederum ein Anpassungsfehler an ein Bewegungsmodell o berechnet: ε0(X,n) = ∑\ Fχx + (l - )Cχx,n),n) - Fχx - C0(x,n),n -ϊ) \ xzB(.X) Der Zeitpunkt, zudem die Segmentierung gültig sein soll, wird durch a festgelegt. Im einfachsten Fall wird dem Block X dasjenige Bewegungsmodell o zugeordnet, für das εo(X,ή) minimal ist. Die Zuordnung wird dann in der
Segmentierungsmaske M(X,ή) abgelegt.
Gemäß der Erfindung werden die Bewegungsmodelle durch lokale Verschiebungsvektoren ergänzt, welche die Abweichung der Bewegung im Bereich eines
Blockes X von der durch das zugeordnete Bewegungsmodell vorgegebenen Verschiebung berücksichtigen. Der Verschiebungsvektor ist damit:
Figure imgf000009_0001
Die Bestimmung des Verschiebungsfeldes b(X,n) wird bei der Bildsegmentierung durchgeführt. Bei der Berechnung von εo(X,n) wird die Verschiebung mit dem zusätzlichen Verschiebungsfeld b(X,n) zugrundegelegt. Es wird dabei ein Verschiebungsvektor C" (X , n) = C0 (X - δ, n) + bu (X , n) als Kandidat vorgegeben, der gegenüber dem benachbarten Block X -δ eine um bu (X,n) modifizierte lokale
Verschiebung vorsieht. bu (X,n) kann zufällig gewählt werden oder einer entsprechenden Menge in Frage kommender Vektoren entnommen sein. Bei der Segmentierung wird dann neben der Zuordnung des Bewegungsmodells auch das lokale Verschiebungsfeld so festgelegt, daß εo(X,ή) mit C" (X,n) minimiert wird. Es ist dann b(X,n) = b(X -δ,n) + bu (X,ή).
Die Figur 1 zeigt schematisch den Ablauf einer Bewegungsschätzung gemäß der Erfindung. Ausgehend von einem vorhergehenden Videobild 6 und einem aktuellen Videobild 7 werden bestimmte Bildbereiche in einem Verfahrensschritt 9 ausgewählt und für eine Mehrzahl von Bewegungsmodellen mit Wichtungsfaktoren 10 versehen und dann in einem Verfahrensschritt 11, bei dem die Parameter der Bewegungsmodelle nach einem Auswahlkriterium ermittelt werden, weiterverarbeitet. Ausgehend von den vollständig bestimmten Bewegungsmodellen wird dann in einem Schritt 12 der gesamte Bildbereich in Blöcke unterteilt und für jeden Block werden die den einzelnen Bewegungsmodellen entsprechenden Verschiebungsvektoren berechnet. Danach erfolgt in 13 die Segmentierung des Bildbereiches, wobei die Zuordnung der Blöcke zu den Bewegungsmodellen vorgenommen wird. In einer dabei entstehenden Segmentierungsmaske 14 werden die Zuordnungen, die beim nächsten Bildpaar in die Wichtung 10 Eingang finden, gespeichert. Um lokale Abweichungen der wahren Bewegungen von den durch die Bewegungsmodelle gegebenen Verschiebungen zu berücksichtigen, wird in einem Schritt 15 ein lokales Verschiebungsfeld, das bei der Segmentierung 13 mitberücksichtigt wird, den aus 12 resultierenden Verschiebungen hinzugefügt. Parallel zur Segmentierung 13 erfolgt im Schritt 16 für jeden Block die Neuberechnung des lokalen Verschiebungsfeldes aus den lokalen Verschiebungen von benachbarten Blöcken.
Die Figur 2 zeigt schematisch den Aufbau eines digital arbeitenden Anzeigegerätes, bei dem es sich z.B. um ein Fernsehgerät oder einen Videomonitor handeln kann. Der Vorrichtung wird ein Videosignal 20 zugeführt, das in einer digitalen Bildverarbeitungseinheit 21 gespeichert und aufbereitet wird. Hierzu weist die Bildverarbeitungseinheit einen Bildspeicher 22, einen Prozessor 23 und einen
Programmspeicher 24 auf. Gegebenenfalls können diese Elemente auch, zumindest teilweise, in einem diskreten Bauteil vereinigt sein. Auf dem Prozessor 23 läuft ein in dem Programmspeicher 24 abgelegtes Programm ab, durch das die erfindungsgemäße Bildverarbeitung gesteuert wird. Eine Bilddarstellungseinheit 25 erhält von der Bildverarbeitungseinheit 21 aufbereitete Bilddaten 26 und erzeugt daraus ein Signal 27 zur Ansteuerung einer Kathodenstrahlröhre 28, über welche die Videobilder visuell ausgegeben werden.

Claims

PATENTANSPRÜCHE:
1. Verfahren zur Bewegungsschätzung in Videobilddaten, wobei zunächst ausgehend von einem ersten und einem zweiten Videobild (6,7) Parametersätze von zwei oder mehr Bewegungsmodellen ermittelt werden (11) und wobei dann den Bewegungsmodellen Bildobjekte zugeordnet werden (13), d a d u r c h g e k e n n z e i c h n e t , d a ß die Bildobjekte aus einer Mehrzahl von Blöcken, in die der gesamte Bildbereich unterteilt wird (12), zusammengesetzt werden, wobei jedem Block ein lokaler Verschiebungsvektor zugeordnet wird (15), durch welchen das zu dem jeweiligen Bildobjekt gehörige Bewegungsmodell ergänzt wird.
2. Verfahren nach Anspruch 1, dadurch gekennzeichnet, daß bei der Zuordnung der Bewegungsmodelle zu Bildobjekten die Bildobjekte aus denjenigen Blöcken zusammengesetzt werden, innerhalb derer die Verschiebung vom ersten zum zweiten Videobild durch jeweils eines der Bewegungsmodelle am besten beschrieben wird, wobei der lokale Verschiebungsvektor jedes Blocks durch Modifikation des lokalen Verschiebungsvektors eines benachbarten Blocks bestimmt wird.
3. Verfahren nach Anspruch 2, dadurch gekennzeichnet, daß derjenige lokale Verschiebungsvektor ausgewählt wird, durch welchen zusammen mit dem zugehörigen Bewegungsmodell die Verschiebung vom vorhergehenden zum aktuellen Videobild innerhalb des Blocks am besten beschrieben wird.
4. Vorrichtung zur Bewegungsschätzung in Videobilddaten, mit einem digitalen Bildspeicher, in dem ein erstes und ein zweites Videobild speicherbar sind, mit Mitteln zur Bestimmung von Parametersätzen von zwei oder mehr Bewegungsmodellen und mit Mitteln zur Zuordnung der Bewegungsmodelle zu Bildobjekten, gekennzeichnet, durch Mittel zur Unterteilung des gesamten Bildbereiches in Blöcke und zur Berechnung von lokalen Verschiebungsvektoren, durch welche die Bewegungsmodelle ergänzt werden.
5. Vorrichtung zur Darstellung von Videobildem, insbesondere Fernsehgerät oder Monitor, mit einem digitalen Bildspeicher (22), in dem Videobilddaten speicherbar sind, mit elektronischen Mitteln (21,25) zur Verarbeitung der in dem Bildspeicher gespeicherten Bilddaten und zur Darstellung von Videobildem auf einer Anzeigevorrichtung (28), wobei die Mittel (21) zur Verarbeitung der Bilddaten Mittel zur Bestimmung von Parametersätzen von zwei oder mehr Bewegungsmodellen und Mittel zur Zuordnung der Bewegungsmodelle zu Bildobjekten aufweisen, dadurch gekennzeichnet, daß die Mittel (21) zur Verarbeitung der Bilddaten femer Mittel zur Unterteilung des gesamten Bildbereiches in Blöcke und zur Berechnung von lokalen Verschiebungsvektoren, durch welche die Bewegungsmodelle ergänzt werden, aufweisen.
6. Compute rogrammprodukt zur Bewegungsschätzung in Videobilddaten, welches als Eingabe ein Paar von Videobilddatensätzen erhält und davon ausgehend zunächst Parametersätze von zwei oder mehr Bewegungsmodellen berechnet, dann den Bewegungsmodellen Bildobjekte zuordnet und schließlich Bewegungsdaten ausgibt, welche die Verschiebung der Bildobjekte vom einen zum anderen Bild beschreiben, dadurch gekennzeichnet, daß es den gesamten Bildbereich in Blöcke unterteilt, aus denen die Bildobjekte zusammengesetzt werden, wobei für jeden Block ein lokaler Verschiebungsvektor berechnet wird, welcher das dem jeweiligen Block zugeordnete Bewegungsmodell ergänzt.
PCT/EP2000/011647 1999-12-17 2000-11-23 Bewegungsschätzung in videobildern WO2001045420A1 (de)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
EP99204369.5 1999-12-17
EP99204369 1999-12-17

Publications (1)

Publication Number Publication Date
WO2001045420A1 true WO2001045420A1 (de) 2001-06-21

Family

ID=8241015

Family Applications (3)

Application Number Title Priority Date Filing Date
PCT/EP2000/011647 WO2001045420A1 (de) 1999-12-17 2000-11-23 Bewegungsschätzung in videobildern
PCT/EP2000/011653 WO2001045421A1 (de) 1999-12-17 2000-11-23 Bewegungsschätzung in videobildern
PCT/EP2000/011710 WO2001045422A1 (de) 1999-12-17 2000-11-23 Bewegungsschätzung in videobildern

Family Applications After (2)

Application Number Title Priority Date Filing Date
PCT/EP2000/011653 WO2001045421A1 (de) 1999-12-17 2000-11-23 Bewegungsschätzung in videobildern
PCT/EP2000/011710 WO2001045422A1 (de) 1999-12-17 2000-11-23 Bewegungsschätzung in videobildern

Country Status (4)

Country Link
EP (1) EP1153513A1 (de)
JP (1) JP2003517795A (de)
KR (1) KR20010102216A (de)
WO (3) WO2001045420A1 (de)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8879631B2 (en) 2007-11-30 2014-11-04 Dolby Laboratories Licensing Corporation Temporally smoothing a motion estimate

Families Citing this family (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7447337B2 (en) * 2004-10-25 2008-11-04 Hewlett-Packard Development Company, L.P. Video content understanding through real time video motion analysis
US7627781B2 (en) 2004-10-25 2009-12-01 Hewlett-Packard Development Company, L.P. System and method for establishing a spare processor for recovering from loss of lockstep in a boot processor
US7818614B2 (en) 2004-10-25 2010-10-19 Hewlett-Packard Development Company, L.P. System and method for reintroducing a processor module to an operating system after lockstep recovery
AU2008200967B2 (en) 2008-02-28 2010-04-15 Canon Kabushiki Kaisha Spatio-activity based mode matching
CN110389366B (zh) * 2019-08-05 2021-03-30 中国人民解放军军事科学院国防科技创新研究院 一种基于多源sar卫星的海上目标运动估计方法

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP0535746A2 (de) * 1991-09-30 1993-04-07 Philips Electronics Uk Limited Bewegungsvektorschätzung, Bewegungsbildkodierung- und -speicherung
US5259040A (en) * 1991-10-04 1993-11-02 David Sarnoff Research Center, Inc. Method for determining sensor motion and scene structure and image processing system therefor
EP0592128A2 (de) * 1992-10-07 1994-04-13 Canon Kabushiki Kaisha Bewegungsvektordetektion und -prädiktion
GB2317525A (en) * 1996-09-20 1998-03-25 Nokia Mobile Phones Ltd Motion estimation system for a video coder
WO1999016251A1 (en) * 1997-09-23 1999-04-01 Koninklijke Philips Electronics N.V. Motion estimation and motion-compensated interpolation
US5999651A (en) * 1997-06-06 1999-12-07 Matsushita Electric Industrial Co., Ltd. Apparatus and method for tracking deformable objects

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
FI842333A (fi) * 1984-06-08 1985-12-09 Valtion Teknillinen Tutkimuskeskus Foerfarande foer identifiering av de mest foeraendrade bildomraodena i levande videosignal.
JP3612360B2 (ja) * 1995-04-10 2005-01-19 株式会社大宇エレクトロニクス 移動物体分割法を用いた動画像の動き推定方法

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP0535746A2 (de) * 1991-09-30 1993-04-07 Philips Electronics Uk Limited Bewegungsvektorschätzung, Bewegungsbildkodierung- und -speicherung
US5259040A (en) * 1991-10-04 1993-11-02 David Sarnoff Research Center, Inc. Method for determining sensor motion and scene structure and image processing system therefor
EP0592128A2 (de) * 1992-10-07 1994-04-13 Canon Kabushiki Kaisha Bewegungsvektordetektion und -prädiktion
GB2317525A (en) * 1996-09-20 1998-03-25 Nokia Mobile Phones Ltd Motion estimation system for a video coder
US5999651A (en) * 1997-06-06 1999-12-07 Matsushita Electric Industrial Co., Ltd. Apparatus and method for tracking deformable objects
WO1999016251A1 (en) * 1997-09-23 1999-04-01 Koninklijke Philips Electronics N.V. Motion estimation and motion-compensated interpolation

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
STEINBACH ET AL.: "Using Multiple Global Motion Models for Improved Block-Based Video Coding", ICIP 99, vol. 2, 24 October 1999 (1999-10-24), pages 56 - 60, XP002162482 *
YI TONG TSE ET AL: "GLOBAL ZOOM/PAN ESTIMATION AND COMPENSATION FOR VIDEO COMPRESSION", INTERNATIONAL CONFERENCE ON ACOUSTICS, SPEECH & SIGNAL PROCESSING. ICASSP,US,NEW YORK, IEEE, vol. CONF. 16, 14 May 1991 (1991-05-14), pages 2725 - 2728, XP000453526, ISBN: 0-7803-0003-3 *

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8879631B2 (en) 2007-11-30 2014-11-04 Dolby Laboratories Licensing Corporation Temporally smoothing a motion estimate

Also Published As

Publication number Publication date
WO2001045421A1 (de) 2001-06-21
EP1153513A1 (de) 2001-11-14
WO2001045422A1 (de) 2001-06-21
KR20010102216A (ko) 2001-11-15
JP2003517795A (ja) 2003-05-27

Similar Documents

Publication Publication Date Title
EP0293644B1 (de) Verfahren zur Ermittlung von Bewegungsvektorfeldern aus digitalen Bildsequenzen
DE60215427T2 (de) Bildverarbeitungsprozessor, Bildverarbeitungsprogramm und Bildverarbeitungsverfahren
DE69836473T2 (de) Bewegungsschätzung und bewegungskompensierte interpolation
DE69333103T2 (de) Vorrichtung zur Umsetzung von digitalen Daten
DE69232993T2 (de) Prädiktives Videokodierungssystem
DE60100645T2 (de) Anzeigegerät zur Erzeugung von zwischenliegenden Graustufen und Verfahren zur Verarbeitung von Bildsignalen
DE2937282C2 (de)
DE602005001717T2 (de) Bildverarbeitungsvorrichtung und -verfahren, Speichermedium und Programm
DE102010053087A1 (de) Auf bidirektionaler, lokaler und globaler Bewegungseinschätzung basierende Bildfrequenzumwandlung
DE69534697T2 (de) Verfahren zur Erzeugung texturierter Bilder und Spezialvideoeffekte
EP1451775A1 (de) Erzeugung einer stereo-bildfolge aus einer 2d-bildfolge
DE19920812A1 (de) Einrichtung zum Erzeugen einer interpolierten Videozeile
DE4224568C2 (de) Vorrichtung und Verfahren zur Bildung der Anzeige eines dreidimensionalen sequentiellen tomografischen Flächenschattierungsbildes
EP1770635A1 (de) Iteratives Verfahren zur Interpolation von Bildinformationswerten
DE10126790A1 (de) Verfahren und Vorrichtung zur Darstellung von wenigstens zwei Bildern in einem Gesamtbild
DE4143074A1 (de) Verfahren und einrichtung zum umformatieren verschachtelter videodaten zur darstellung auf einem computer-ausgabedisplay
DE69721979T2 (de) Gradientbasierte bewegungsschätzung
DE69626475T2 (de) Verfahren zur Korrektur von Bewegungsschätzung in Bildern mit periodischen Strukturen
DE69816949T2 (de) Verfahren zur Kodierung/Dekodierung von Bildern
DE19818516A1 (de) Verfahren zur Kodierung einer willkürlichen Form eines Objektes
WO2001045420A1 (de) Bewegungsschätzung in videobildern
DE60212417T2 (de) Bildprozessor und anzeigegerät mit einem solchen bildprozessoren
DE10056978A1 (de) Verfahren zur Erzeugung eines stereographischen Bildes
DE602004003934T2 (de) Vorausgerichtete bewegungsvektorinterpolation zur reduzierung von videoartefakten
DE112011101938T5 (de) Bildinterpolationsverfahren mit Entscheidungsmix

Legal Events

Date Code Title Description
AK Designated states

Kind code of ref document: A1

Designated state(s): JP KR US

AL Designated countries for regional patents

Kind code of ref document: A1

Designated state(s): AT BE CH CY DE DK ES FI FR GB GR IE IT LU MC NL PT SE TR

121 Ep: the epo has been informed by wipo that ep was designated in this application
122 Ep: pct application non-entry in european phase