WO2008135024A2 - Verfahren zum verarbeiten eines videodatensatzes - Google Patents

Verfahren zum verarbeiten eines videodatensatzes Download PDF

Info

Publication number
WO2008135024A2
WO2008135024A2 PCT/DE2008/000742 DE2008000742W WO2008135024A2 WO 2008135024 A2 WO2008135024 A2 WO 2008135024A2 DE 2008000742 W DE2008000742 W DE 2008000742W WO 2008135024 A2 WO2008135024 A2 WO 2008135024A2
Authority
WO
WIPO (PCT)
Prior art keywords
virtual
original
images
image
recording device
Prior art date
Application number
PCT/DE2008/000742
Other languages
English (en)
French (fr)
Other versions
WO2008135024A3 (de
Inventor
Thomas Sikora
Sebastian Knorr
Original Assignee
Imcube Media Gmbh
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Imcube Media Gmbh filed Critical Imcube Media Gmbh
Priority to US12/598,607 priority Critical patent/US8577202B2/en
Publication of WO2008135024A2 publication Critical patent/WO2008135024A2/de
Publication of WO2008135024A3 publication Critical patent/WO2008135024A3/de

Links

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/50Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using predictive coding
    • H04N19/59Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using predictive coding involving spatial sub-sampling or interpolation, e.g. alteration of picture size or resolution
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T15/003D [Three Dimensional] image rendering
    • G06T15/10Geometric effects
    • G06T15/20Perspective computation
    • G06T15/205Image-based rendering
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N13/00Stereoscopic video systems; Multi-view video systems; Details thereof
    • H04N13/20Image signal generators
    • H04N13/261Image signal generators with monoscopic-to-stereoscopic image conversion
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/50Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using predictive coding
    • H04N19/597Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using predictive coding specially adapted for multi-view video sequence encoding

Definitions

  • the invention relates to a method for processing a video data record, which comprises a sequence of original pictures, into a modified video data record which, in addition to the sequence of original pictures, comprises virtual pictures, in one or more data processing units.
  • Such methods of processing video data sets are used, inter alia, to produce multi-view video from so-called monocular videos
  • Such video sequences can be used, for example, in conjunction with 3D displays or auto-stereoscopic displays to:
  • a transformation of video sequences for two-dimensional representations into video sequences for a three-dimensional representation takes place, in which various methods have been proposed Method for generating a complete 3 D model for the scene captured in the image (Hartley et al., “Multiple view geometry", Cambridge University Press, UK, 2003; Pollefeys: “Tutorial on 3D modeling from images", European Conf Computer Vision (ECCV), 2000; Tomasi et al. Journal of Computer Vision 9 (2), pp.
  • ECCV European Conf Computer Vision
  • SfM SfM - "Structure from Motion”
  • ECCV European Conf. On Computer Vision
  • SfM analysis uses a freely selectable coordinate system to determine the spatial coordinates of the recording device used to capture the images of the video sequence, such as a camera
  • the SfM technique can not provide density and accurate 3-D modeling, but this is necessary for producing high quality stereoscopic images
  • DIBR method requires a dense depth estimate, which in turn is extremely time consuming and is flawed.
  • the object of the invention is to provide an improved method for processing a video data set comprising a sequence of original images into a modified video data record which, in addition to the sequence of original images, comprises virtual images in one or more data processing units comprising the multi-presentation video sequences monocular video sequences can be generated without this requires a complex dense depth analysis of the scenes shown in the images.
  • the invention includes the idea, when processing a video data set with original images, to first subject it to SfM analysis. Furthermore, virtual output images are generated, to each of which a virtual position of a recording device used for recording the virtual output image, for example a camera, is assigned. In the following, each original position of the recording device to which a respective original image belongs is then assigned at least one of the virtual positions of the virtual output image recording device. For the assignments thus determined, a respective homography between the original image and the associated virtual output image is then determined. The respective homography is a calculated planar transformation between the original image and the associated virtual output image. Subsequently, the homographies can be used to generate a respective complete virtual image, namely a virtual final image, from the respectively associated original image.
  • the modified video data set then includes the generated virtual final images in addition to the original images.
  • the modified video data sequence can be used with the aid of a suitable reproduction device to generate a stereoscopic 3 D representation of the scene shown in the images.
  • Advantages of the invention over the methods for creating a complete 3D model are, on the one hand, reduced computational complexity and, on the other hand, avoidance of disturbing artifacts in stereoscopic 3-D imaging used in the generation of virtual images from previously estimated 3D models arise.
  • Advantages over the methods using the so-called DIBR technology are that the use of the DIBR technology is only possible in conjunction with the additional information of the depth for each pixel of all the original images of the video data set. The determination of the depth information of all pixels, however, is very compute-intensive and error-prone. In addition, an increase in resolution (super-resolution) when creating a virtual image with the DIBR technology is not possible.
  • the allocations are formed by the virtual positions of the receiving device with associated virtual output image is assigned at least one laterally closest of the original positions of the receiving device with associated original image.
  • An expedient development of the invention provides that the at least one laterally closest, original position of the receiving device is formed at a lateral distance of about 64 mm to the associated virtual position of the receiving device.
  • the suggested distance corresponds to an average eye distance.
  • a further development of the invention can provide that the virtual positions for the recording device for recording the virtual images are formed at substantially equidistant distances from the original positions.
  • a plurality of virtual positions of the receiving device are formed to the original positions, which are optionally spaced apart equidistantly from each other.
  • An advantageous embodiment of the invention provides that the modified video data set is converted into a modified video data set with images of increased resolution by using the respective particular homographies from the sequence of the original Images and the additional virtual images is a series of images with an increased resolution is generated, which is higher than an original resolution of the original images and the additional virtual images.
  • FIG. 1 shows a schematic representation for describing the sequence of a method for processing a video data record with original pictures
  • FIG. 2 shows a schematic illustration for explaining an exemplary embodiment for generating a virtual end image recorded with a virtual recording device, starting from a sequence of original images of a 3D scene recorded with an original recording device.
  • FIG. 3 shows a flow diagram for explaining a method for determining a position
  • FIG. 4 shows a flow chart for explaining a method for generating a virtual recording device
  • FIG. 6 is a flowchart for explaining a method for filling unfilled image contents of virtual final images
  • FIG. 7 shows a virtual end image (left) generated from 30 original images and a virtual end image (right) generated from 62 original images
  • FIG. 9 shows a schematic representation for explaining the method for generating a high-resolution virtual image
  • FIG. 10 shows four virtual final images of a video data record "stature" and the original one
  • the analysis of the video data set serving as the output of the method and to be processed with original images will first be described in more detail by means of the SfM analysis.
  • the aim of the SfM analysis is to determine outer and inner parameters of the recording device (camera) used to record the original images covered by the video record to be processed and the spatial coordinates of at least reference pixels in the original images of the video data set in a freely selectable coordinate system.
  • the SfM analysis requires a relative movement between the static scene to be recorded and the recording device.
  • relationships are searched for between the original images of the video data set.
  • Such geometric relationships which are also referred to as epipolar geometry, can be determined from a sufficient number of reference pixels in the original images (see, for example, Pollefeys: “Tutorial on 3D Modeling from images", European Conf. On Computer Vision (ECCV ), 2000).
  • projection matrices can be calculated for the capture device using the single value composition (see, for example, Hartley et al., “Multiple view geometry", Cambridge University Press, UK, 2003). If the correspondence between the reference pixels in the original images and the projection matrices is determined, the spatial coordinates for the previously determined reference pixels can be determined using triangulation (see, for example, R.
  • Reference pixels or objects can be any elements from the original images. Preferably, non-changing picture elements are selected in the pictures of the video data set. Various methods are known as such to select suitable reference pixels or objects.
  • the Harris detector (see, for example, CG Harris et al., "A combined corner and edge detector", In 4th Alvey Vision Conference, pp. 147-151, 1988) is one of the most frequently cited detectors with the aid of which Corner points or edges in images can be found by means of gradients in the intensity values. These vertices, which are distinguished by a high gradient in all directions, can be found or tracked more easily as reference pixels in the images of the video data set (cf., for example, C. Tomasi et al., "Detection and tracking of point features", Technical Report CMU-CS-91-132, Carnegie Mellon University Technical, 1991).
  • projection matrices P1 and P2 are determined by means of the single-value decomposition.
  • the reference coordinate system is aligned with the position of the first recording device (see, for example, Pollefeys: “Tutorial on 3D modeling from images", European Conf. On Computer Vision (ECCV ), 2000) If the projection matrices P1 and P2 are known, then spatial coordinates of the reference pixels can be found by triangulation (see, for example, R. Hartley et al., Computer Vision and Image Understanding, 68 (2): 146-157) , 1997).
  • the next step concerns the updating of the spatial coordinates of the reference picture elements and the movement of the recording device.
  • the projection matrix for the recording device for a next of the key frames is determined by the already existing 3D-2D reference picture element correspondences are known, as it is known as such (see, for example, Pollefeys: “Tutorial on 3D modeling from images", European Confession on Computer Vision (ECCV), 2000).
  • the spatial coordinates for the reference picture elements and the matrix of the recording device can be refined by means of further 3D-2D reference picture element correspondences. This procedure is repeated for all keyframes from the group of original frames in the video record to be edited.
  • a final fine-tuning of the spatial coordinates of the reference picture elements can then be carried out by means of global non-linear minimization techniques for all the original pictures of the video data set to be processed, which is also known as "bundle adjustment” (see, for example, B. Triggs et al. Bundle adjustment - a modern synthesis ", in” Vision Algorithms: Theory & Practice ", Springer-Verlag, 2000).
  • the following information is now available: spatial coordinates of the selected reference pixels in the original images of the video data set to be edited, spatial coordinates for the positions, and orientations for the recording device used to capture the original images relative to the selected one Coordinate system (external camera parameters) and the internal settings for the recording device used to capture the original images (internal camera (calibration) parameter).
  • additional virtual images with associated positions of the recording device used are then additionally generated, which will be explained in more detail below.
  • the virtual images are first generated as virtual output images for which there are only a limited number of virtual pixels, which in turn are related to the reference pixels selected above.
  • each of the virtual source images is a modified version of the reference image elements in the original images.
  • a complete virtual image namely a virtual final image
  • a complete virtual image can then finally be generated by using all image points or pixels from the original image are projected into the associated virtual final image.
  • one or more virtual end images can be generated for an original image, depending on how many virtual output images were assigned to an original image, which will be explained further below.
  • the arrangement of the virtual recording device requires the definition of a horizontal distance between the images, the so-called screen parallax values.
  • the average human eye distance is 64mm, ie for each original recording device at least one (or more for corresponding 3 D output devices) must be at least be determined receiving device in which the horizontal distance is about 64mm. If several virtual recording devices are to be generated, then the distances between the virtual recording devices each have to be equidistant about 64 mm.
  • the SFM analysis provided a relative reference of the positions and orientations of the original recording device and the reference picture elements to a selected coordinate system.
  • the following describes the steps for determining a virtual recording device (see FIG.
  • CT t. Q dimension within the selected reference coordinate system with "'"
  • ⁇ nt x is the horizontal distance of the virtual pickup device from the original pickup device ( ⁇ n-64mm) to the left or right (n is the number of virtual images to be created in one of two possible horizontal directions).
  • K is the internal camera matrix with the internal parameters of the original recording device
  • R 1 is the rotation matrices of the original recording device
  • J is the unit matrix and c 'or c t, virtuei ⁇ ⁇ 6 positions of the corresponding recording devices in inhomogeneous coordinates are (step 306).
  • H is a 3x3 matrix, therefore contains nine entries and is determined except for a scaling factor, / w * is known from the SfM analysis.
  • H i can be determined with a minimum number of correspondences between four reference pixels (see, for example, Hartley et al., "Multiple view geometry", Cambridge University Press, UK, 2003).
  • step 103 the steps of generating a virtual end image will be described in detail with reference to FIG. 4 (step 103):
  • step 401 densest original receptacle with * '* (step 401).
  • FIG. 5 shows an example of an original image (FIG. 5, left) to which a virtual image is to be generated and the corresponding virtual end image (FIG. 5, right) taken from another original image of the video data set, FIG was closest to the virtual image.
  • step 601 the steps for filling unfilled image contents (step 601) of the virtual end images with reference to FIG. 6:
  • Pixels of the virtual output image B v ⁇ rtue u associated original image B) for generating the virtual final image step 603.
  • Fig. 7 shows an example of a virtual end image generated from 30 original images of the original recording device (Fig. 7, left) and a virtual end image (Fig. 7, right) generated from 62 original images of the original recording device, resulting in an original image (Fig. 5, left) should be generated according to the eye distance of 64mm.
  • step 802 Generation of a virtual output image with that in step G2. fixed resolution (step 802).
  • B m , H (m,) median B, ( m,) m ed '*' / V "(step 806).
  • Fig. 10 shows four virtual images of a video data set "stature" which were generated according to the method described above (at equidistant intervals of 64 mm) and the original image in the middle.
  • Table 1 shows the result of experimental investigations using the method described above.
  • Various video data sets were examined, each of which were TV broadcasts or filming of a digital handheld camera.
  • the distance t s of the spatial center of gravity of the 3D scene is given in meters.
  • the last column shows the average number of original images used to create a virtual image.
  • FIG. 11 shows the same virtual end image of the video data set "stature" respectively, which was generated in accordance with the method described above
  • the right virtual end image in FIG. 11 was rendered in a higher resolution with the optional method (as described in section G. above) (1080x864 pixels) as the resolution of the original images (720x576 pixels)
  • the left virtual final image in Fig. 11 was generated by the method described in Sections E and F (resolution of the virtual final image corresponding to the resolution of original images of the video data set, 720x576 pixels) and then brought to higher resolution (1080x864) using Lanczos filtering.

Landscapes

  • Engineering & Computer Science (AREA)
  • Multimedia (AREA)
  • Signal Processing (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Geometry (AREA)
  • Computing Systems (AREA)
  • Computer Graphics (AREA)
  • General Physics & Mathematics (AREA)
  • Image Processing (AREA)
  • Testing, Inspecting, Measuring Of Stereoscopic Televisions And Televisions (AREA)
  • Television Signal Processing For Recording (AREA)
  • Image Analysis (AREA)

Abstract

Die Erfindung betrifft ein Verfahren zum Verarbeiten eines Videodatensatzes, welcher eine Folge von ursprünglichen Bildern umfasst, zu einem geänderten Videodatensatz, welcher zusätzlich zu der Folge von ursprünglichen Bildern aus diesen abgeleitete, virtuelle Bilder umfasst, in einer oder mehreren Datenverarbeitungseinheiten, bei dem eine SfM-Analyse für die ursprünglichen Bilder und eine jeweils zugeordnete ursprüngliche Position einer zum Aufnehmen der ursprünglichen Bilder genutzten Aufnahmeinrichtung durchgeführt wird, virtuelle Positionen für eine Aufnahmeeinrichtung zum Aufnehmen von virtuellen Bildern gebildet werden, für die virtuellen Positionen der Aufnahmeinrichtung mit zugehörigem virtuellen Ausgangsbild eine jeweilige Zuordnung zu wenigstens einer der ursprünglichen Positionen der Aufnahmeinrichtung mit zugehörigem ursprünglichen Bild gebildet wird, für die Zuordnungen eine jeweilige Homografie zwischen virtuellem Ausgangsbild und zugehörigem ursprünglichen Bild bestimmt wird und für die virtuellen Ausgangsbilder aus dem zugehörigen ursprünglichen Bild jeweils ein virtuelles Endbild erzeugt wird, indem unter Verwendung der jeweils bestimmten Homografie das ursprüngliche Bild in das zugehörige Endbild abgebildet wird.

Description

Verfahren zum Verarbeiten eines Videodatensatzes
Die Erfindung betrifft ein Verfahren zum Verarbeiten eines Videodatensatzes, welcher eine Folge von ursprünglichen Bildern umfasst, zu einem geänderten Videodatensatz, welcher zu- sätzlich zu der Folge ursprünglicher Bilder virtuelle Bilder umfasst, in einer oder mehreren Datenverarbeitungseinheiten.
Hintergrund der Erfindung
Derartige Verfahren zum Bearbeiten von Videodatensätzen werden unter anderem dazu benutzt, aus so genannten monokularen Videos Mehrfachdarstellungsvideos („Multi- View- Video") zu erzeugen. Solche Videosequenzen können zum Beispiel in Verbindung mit 3D- Anzeigen oder auto-stereoskopische Anzeigen genutzt werden, um dem Betrachter auch einen Tiefeneindruck des betrachteten Bildes zu vermitteln. Mit Hilfe der Verfahren zum Verarbei- ten von Videodatensätzen findet praktisch eine Transformation von Videosequenzen für zweidimensionale Darstellungen in Videosequenzen für eine dreidimensionale Darstellung statt. Hierfür wurden verschiedene Verfahren vorgeschlagen. Die existierenden Verfahren können grob in Verfahren zum Erzeugen eines kompletten 3 D-Modells für die im Bild eingefangene Szene (Hartley et al., "Multiple view geometry", Cambridge University Press, UK, 2003; Pollefeys: "Tutorial on 3D modeling from images", European Conf. on Computer Vision (ECCV), 2000; Tomasi et al., Journal of Computer Vision 9(2), S. 137-154, 1992; Knorr et al., "A modular scheme for 2D/3D conversion of TV broadcast", 3rd Int. Symposium on 3D Data Processing, Visualization, and Transmission (3DPVT), Chapel Hill, USA, 2006) und Verfahren unterteilt werden, bei denen eine stereoskopische Darstellung erzeugt wird, entwe- der mittels Berechnen von planaren Transformationen (vgl. Rotem et al., Proc. of the SPIE: Stereoscopic Displays and Virtual Reality Systems XII, Vol. 5664, S. 198-206, March 2005; WO 02/091754) oder mit Hilfe einer Tiefenanalyse für jedes Bild aus der Videosequenz, wobei die so genannte DIBR-Technologie (DIBR - „Depth-Image-Base-Rendering"); (K. Moustakas et al., IEEE Trans, on Circuits and Systems for Video Technology, Vol. 15, Nr. 8, S. 1065 - 1073, August 2005; K. T. Kim et al., "Synthesis of a high-resolution 3D stereoscopic image pair from a high-resolution monoscopic image and a low-resolution depth map", Proc. of the SPIE: Stereoscopic Displays and Applications IX, San Jose, USA, 1998; C. Fehn, "Depth-image-based rendering (DIBR), compression and transmission for a new approach on 3D-TV", Proc. of the SPIE: Stereoscopic Displays and Virtual Reality Systems XI, San Jose, USA, 2004; L. Zhang et al., "Stereoscopic image generation based on depth images", IEEE Int. Conf. on Image Processing (ICIP), Singapore, 2004; WO 2005/013623) genutzt wird.
Zu den Methoden, die versuchen, ein vollständiges 3D-Modell einer aufgenommenen Szene zu ermitteln, gehört die so genannte SfM- Analyse oder SfM-Technik (SfM - „ Structure from Motion "); (Pollefeys: "Tutorial on 3D modeling from images", European Conf. on Computer Vision (ECCV), 2000). Mit Hilfe der SfM-Analyse werden in einem frei wählbaren Koordinatensystem die räumlichen Koordinaten für die zur Aufnahme der Bilder der Videosequenz genutzten Aufnahmeeinrichtung ermittelt, zum Beispiel eine Kamera. Gleichzeitig können mit Hilfe dieser Analyse im gewählten Koordinatensystem die räumlichen Koordinaten für Referenzbildpunkte in den 2D-Bildern der existierenden Videosequenz berechnet werden. Die SfM-Technik kann allerdings eine Dichte und exakte 3 D-Modellierung nicht liefern, was jedoch für eine Erzeugung von stereoskopischen Bildern mit hoher Qualität notwendig ist. Das DIBR-Verfahren verlangt wiederum eine dichte Tiefenabschätzung, die ihrerseits äußerst zeitaufwendig und fehlerbehaftet ist.
In dem Dokument „The ORIGAMI Project: Advanced tools for creating and mixing real and Virtual content in film and TV production", in: IEE Proceedings - Vision, Image and Signal Processing, August 2005, Band 152, Nr. 4, Seiten 454 - 469, ISSN: 1350-245X von O. Grau, R. Koch, F. Lavagetto, A. Sarti, S. Tubaro und J. Woetzel wird ein Verfahren zum Verarbei- ten eines Videodatensatzes beschrieben, bei dem zu den ursprünglichen Bildern des Videodatensatzes weitere, aus den ursprünglichen Bildern abgeleitete virtuelle Bilder eingefügt werden, wobei eine SfM-Analyse zumindest für den so genannten „environment-Anteil" der ursprünglichen Bilder durchgeführt wird, durch welche die ursprüngliche Position einer zum Aufnehmen der ursprünglichen Bilder genutzten Aufnahmeeinrichtung bestimmt wird.
In dem Dokument „Video Synthesis at Tennis Player Viewpoint from Multiple View Videos", in: IEEE Proceedings - Virtual Reality 2005, März 2005, Seiten 281-282, ISSN: 1087- 8270, ISBN: 0-7803-8929-8 von K. Kimora und H. Saito wird ein Verfahren zum Erzeugen von virtuellen Ansichten bei einem Tennisspiel beschrieben. Hierbei werden aus ursprünglichen Bildern weitere virtuelle Bilder abgeleitet, wobei einem virtuellen Bild ein ursprüngli- ches Bild zugeordnet, anhand von korrespondierenden Punkten im ursprünglichen Bild und einem virtuellen Ausgangsbild eine Homografie bestimmt und das virtuelle Endbild durch Anwenden dieser Homografie auf das ursprüngliche Bild erzeugt wird. Bei dem bekannten Verfahren wird keine SfM- Analyse der ursprünglichen Bilder und eine jeweils zugeordnete ursprüngliche Position einer zum Aufnehmen der ursprünglichen Bilder genutzten Aufnahmeeinrichtung durchgeführt.
Zusammenfassung der Erfindung
Aufgabe der Erfindung ist es, ein verbessertes Verfahren zum Verarbeiten eines Videodatensatzes, welcher eine Folge ursprünglicher Bilder umfasst, zu einem geänderten Videodatensatz, welcher zusätzlich zu der Folge ursprünglicher Bilder virtuelle Bilder umfasst, in einer oder mehreren Datenverarbeitungseinheiten anzugeben, mit dem Mehrfachdarstellungs- Videosequenzen aus monokularen Videosequenzen erzeugt werden können, ohne dass dieses eine aufwendige dichte Tiefenanalyse der in den Bildern dargestellten Szenen erfordert.
Diese Aufgabe wird erfindungsgemäß durch ein Verfahren nach dem unabhängigen Anspruch 1 gelöst. Vorteilhafte Ausgestaltungen der Erfindung sind Gegenstand von abhängigen Unteransprüchen.
Die Erfindung umfasst den Gedanken, beim Verarbeiten eines Videodatensatzes mit ursprünglichen Bildern diese zunächst einer SfM-Analyse zu unterziehen. Weiterhin werden virtuelle Ausgangsbilder erzeugt, denen jeweils eine virtuelle Position einer zur Aufnahme des virtuellen Ausgangsbildes genutzten Aufnahmeeinrichtung, zum Beispiel eine Kamera, zugeordnet ist. Im folgenden wird dann jeder ursprünglichen Position der Aufnahmeeinrich- tung, zu der ein jeweiliges ursprüngliches Bild gehört, wenigstens eine der virtuellen Positionen der Aufnahmeeinrichtung für die virtuellen Ausgangsbilder zugeordnet. Für die so ermittelten Zuordnungen wird danach eine jeweilige Homografie zwischen ursprünglichem Bild und zugehörigem virtuellen Ausgangsbild ermittelt. Bei der jeweiligen Homografie handelt es sich um eine berechnete planare Transformation zwischen ursprünglichem Bild und zugehöri- gern virtuellen Ausgangsbild. Anschließend können die Homografien dazu genutzt werden, ein jeweiliges vollständiges virtuelles Bild, nämlich ein virtuelles Endbild, aus dem jeweils zugehörigen ursprünglichen Bild zu erzeugen. Der geänderte Videodatensatz umfasst dann neben den ursprünglichen Bildern die erzeugten virtuellen Endbilder. Die geänderte Videodatensequenz kann mit Hilfe einer geeigneten Wiedergabeeinrichtung genutzt werden, eine ste- reoskopische 3 D-Darstellung der in den Bildern gezeigten Szene zu erzeugen. Vorteile der Erfindung gegenüber den Verfahren zur Erstellung eines vollständigen 3D- Modells liegen zum einen in einer reduzierten Rechenkomplexität und zum anderen in der Vermeidung von störenden Artefakten bei der stereoskopischen 3 D-Darstellung, die bei der Erzeugung von virtuellen Bildern aus zuvor geschätzten 3D-Modellen entstehen. Gegenüber den Verfahren, die die sogenannte DIBR-Technologie verwenden, liegen Vorteile darin, dass der Einsatz der DIBR-Technologie nur in Verbindung mit der zusätzlichen Information der Tiefe für jeden Bildpunkt aller ursprünglichen Bilder des Videodatensatzes möglich ist. Die Bestimmung der Tiefeninformation aller Bildpunkte ist hingegen sehr rechenintensiv und fehleranfällig. Zudem ist eine Erhöhung der Auflösung (Super-Resolution) bei der Erzeugung eines virtuellen Bildes mit der DIBR-Technologie nicht möglich.
Bei einer vorteilhaften Ausgestaltung der Erfindung ist vorgesehen, dass die Zuordnungen gebildet werden, indem den virtuellen Positionen der Aufnahmeeinrichtung mit zugehörigem virtuellen Ausgangsbild jeweils wenigstens eine seitlich nächstliegende der ursprünglichen Positionen der Aufnahmeeinrichtung mit zugehörigem ursprünglichen Bild zugeordnet wird.
Eine zweckmäßige Weiterbildung der Erfindung sieht vor, dass die wenigstens eine seitlich nächstliegende, ursprüngliche Position der Aufnahmeeinrichtung in einem seitlichen Abstand von etwa 64mm zu der zugeordneten virtuellen Position der Aufnahmeeinrichtung gebildet ist. Der vorgeschlagene Abstand entspricht einem durchschnittlichen Augenabstand.
Eine Fortbildung der Erfindung kann vorsehen, dass die virtuellen Positionen für die Aufnahmeeinrichtung zum Aufnehmen der virtuellen Bilder in im Wesentlichen äquidistanten Abständen zu den ursprünglichen Positionen gebildet werden.
Bei einer bevorzugten Ausführungsform der Erfindung ist vorgesehen, dass zu den ursprünglichen Positionen jeweils mehrere virtuelle Positionen der Aufnahmeeinrichtung gebildet werden, die untereinander wahlweise äquidistant beabstandet sind.
Eine vorteilhafte Ausgestaltung der Erfindung sieht vor, dass der geänderte Videodatensatz in einen geänderten Videodatensatz mit Bildern erhöhter Auflösung umgewandelt wird, indem unter Verwendung der jeweils bestimmten Homografien aus der Folge der ursprünglichen Bilder und den zusätzlichen virtuellen Bildern eine Folge von Bildern mit einer erhöhten Auflösung erzeugt wird, die höher ist als eine ursprüngliche Auflösung der ursprünglichen Bilder und der zusätzlichen virtuellen Bilder.
Beschreibung bevorzugter Ausführungsbeispiele der Erfindung
Die Erfindung wird im Folgenden anhand von bevorzugten Ausführungsbeispielen unter Bezugnahme auf Figuren einer Zeichnung näher erläutert. Hierbei zeigen: Fig. 1 eine schematische Darstellung zur Beschreibung des Ablaufs eines Verfahrens zum Bearbeiten eines Videodatensatzes mit ursprünglichen Bildern,
Fig. 2 eine schematische Darstellung zur Erläuterung eines Ausführungsbeispiels für das Erzeugen eines mit einer virtuellen Aufnahmeeinrichtung aufgenommenen virtuellen Endbildes ausgehend von einer mit einer ursprünglichen Aufnahmeeinrichtung aufgenommenen Folge ursprünglicher Bilder einer 3D-Szene, Fig. 3 ein Ablaufdiagramm zur Erläuterung eines Verfahrens zum Bestimmen einer Position einer virtuellen Aufnahmeeinrichtung im Abstand zu einer ursprünglichen Aufnahmeeinrichtung, Fig. 4 ein Ablaufdiagramm zur Erläuterung eines Verfahrens zum Erzeugen eines virtuellen
Endbildes, Fig. 5 ein ursprüngliches Bild (links) und ein hierzu erzeugtes, zugehöriges virtuelles Endbild (rechts),
Fig. 6 ein Ablaufdiagramm zur Erläuterung eines Verfahrens zum Auffüllen nicht ausgefüllter Bildinhalte virtueller Endbilder,
Fig. 7 ein aus 30 ursprünglichen Bildern erzeugtes virtuelles Endbild (links) und ein aus 62 ursprünglichen Bildern erzeugtes virtuelles Endbild (rechts),
Fig. 8 ein Ablaufdiagramm für ein Verfahren zum Erzeugen eines hochauflösenden virtuellen Bildes, Fig. 9 eine schematische Darstellung zur Erläuterung des Verfahrens zum Erzeugen eines hochauflösenden virtuellen Bildes, Fig. 10 vier virtuelle Endbilder eines Videodatensatzes „Statur" sowie das ursprüngliche
Bild in der Mitte und
Fig. 11 zwei weitere virtuelle Endbilder des Videodatensatzes „Statur", wobei das virtuelle Endbild auf der rechten Seite mit höherer Auflösung erzeugt wurde. Im Folgenden wird zunächst die Analyse des als Ausgang des Verfahrens dienenden und zu bearbeitenden Videodatensatzes mit ursprünglichen Bildern mittels der SfM-Analyse näher beschrieben. Ziel der SfM-Analyse ist es, äußere und innere Parameter der zur Aufnahme der von dem zu bearbeitenden Videodatensatz umfassten ursprünglichen Bilder genutzten Aufnahmeeinrichtung (Kamera) sowie die räumlichen Koordinaten von zumindest Referenzbildpunkten in den ursprünglichen Bildern des Videodatensatzes in einem frei wählbaren Koordinatensystem zu ermitteln. Die SfM-Analyse verlangt eine Relativbewegung zwischen der aufzunehmenden statischen Szene und der Aufnahmeeinrichtung.
In einem Anfangsschritt werden Beziehungen zwischen den ursprünglichen Bildern des Videodatensatzes gesucht. Solche geometrischen Beziehungen, die auch als epipolare Geometrie bezeichnet werden, können aus einer ausreichenden Anzahl von Referenzbildpunkte in den ursprünglichen Bildern ermittelt werden (vgl. beispielsweise Pollefeys: "Tutorial on 3D mo- deling from images", European Conf. on Computer Vision (ECCV), 2000). Wenn die ursprünglichen Bilder miteinander in Beziehung gesetzt sind, können für die Aufnahmeeinrichtung Projektionsmatrizen berechnet werden, indem die Einzel wertdekomposition verwendet wird (vgl. zum Beispiel Hartley et al., "Multiple view geometry", Cambridge University Press, UK, 2003). Wenn die Korrespondenz zwischen den Referenzbildpunkten in den ur- sprünglichen Bildern und die Projektionsmatrizen ermittelt sind, können die räumlichen Koordinaten für die zuvor ermittelten Referenzbildpunkte unter Verwendung der Triangulation (vgl. beispielsweise R. Hartley et al., Computer Vision and Image Understanding, 68(2): 146- 157, 1997) berechnet werden. Für eine noch genauere Bestimmung der berechneten Parameter kann optional noch eine so genannte Bündelanpassung verwendet werden („ bündle ad- justment"; vgl. zum Beispiel B. Triggs et al., "Bündle adjustment - a modern synthesis", in "Vision Algorithms: Theory & Practice", Springer- Verlag, 2000).
Im Folgenden werden die zuvor grob skizzierten Verfahrensschritte der SfM-Analyse näher erläutert. A. Ermitteln von Referenzbildpunkten und Bildauswahl
Referenzbildpunkte oder -objekte können beliebige Elemente aus den ursprünglichen Bildern sein. Bevorzugt werden in den Bildern des Videodatensatzes sich nicht ändernde Bildelemen- te ausgewählt. Es sind verschiedene Verfahren als solche bekannt, geeignete Referenzbildpunkte oder -objekte auszuwählen. Der Harris-Detektor (vgl. beispielsweise CG. Harris et al., "A combined corner and edge detector", In 4th Alvey Vision Conference, S. 147-151, 1988) zählt dabei zu den am häufigsten zitierten Detektoren, mit dessen Hilfe Eckpunkte (Corner) oder Kanten in Bildern anhand von Gradienten bei den Intensitätswerten gefunden werden. Diese Eckpunkte, die sich durch einen hohen Gradienten in alle Richtungen auszeichnen, können als Referenzbildpunkte leichter in den Bildern des Videodatensatzes gefunden bzw. verfolgt werden (vgl. beispielsweise C. Tomasi et al., "Detection and tracking of point fea- tures", Technical Report CMU-CS-91-132, Carnegie Mellon University Technical, 1991).
B. Multidarstellungs-Rekonstruktion
Nach der Auswahl von Schlüsselbildern unter den ursprünglichen Bildern, nämlich von Bildern, die für die SfM-Analyse zunächst genutzt werden, und der Bestimmung der Referenzbildelemente wird zunächst eine Fundamentalmatrix F zwischen zwei ersten der Schlüsselbil- der des Videodatensatzes berechnet. Die RANSAC-Technik (RANSAC - „RANdom SAmple Consensus"; M. Fischler et al., Communications of the ACM, S. 381-385, 1981) liefert ein robustes Verfahren, welches einen Teil der Referenzbildelemente (Inliers) für die Berechnung von F auswählt. Danach werden Projektionsmatrizen Pl und P2 mittels der Einzelwert- Dekomposition bestimmt. Das Referenzkoordinatensystem wird mit der Position der ersten Aufnahmeeinrichtung ausgerichtet (vgl. zum Beispiel Pollefeys: "Tutorial on 3D modeling from images", European Conf. on Computer Vision (ECCV), 2000). Wenn die Projektionsmatrizen Pl und P2 bekannt sind, können dann räumliche Koordinaten der Referenzbildelemente mittels Triangulation gefunden werden (vgl. zum Beispiel R. Hartley et al., Computer Vision and Image Understanding, 68(2): 146-157, 1997).
Der nächste Schritt betrifft die Aktualisierung der räumlichen Koordinaten der Referenzbildelemente und der Bewegung der Aufnahmeeinrichtung. Erst wird die Projektionsmatrix für die Aufnahmeeinrichtung für ein nächstes der Schlüsselbilder bestimmt, indem die bereits existierenden 3D-2D-Referenzbildelement-Korrespondenzen genutzt werden, wie dieses als solches bekannt ist (vgl. zum Beispiel Pollefeys: "Tutorial on 3D modeling from images", European Conf. on Computer Vision (ECCV), 2000). Danach können die räumlichen Koordinaten für die Referenzbildelemente und die Matrix der Aufnahmeeinrichtung mittels weiterer 3D-2D-Referenzbildelement-Korrespondenzen verfeinert werden. Diese Prozedur wird für alle Schlüsselbilder aus der Gruppe der ursprünglichen Bilder in dem zu bearbeitenden Videodatensatz wiederholt.
Eine abschließende Feinanpassung der räumlichen Koordinaten der Referenzbildelemente kann dann mittels globaler nichtlinearer Minimierungstechniken für alle ursprünglichen Bilder des zu bearbeitenden Videodatensatzes ausgeführt werden, was auch als Bündelanpassung („ bündle adjustment") bekannt ist (vgl. zum Beispiel B. Triggs et al., "Bündle adjustment - a modern synthesis", in "Vision Algorithms: Theory & Practice", Springer- Verlag, 2000).
C. Selbstkalibrierung
Wenn die internen Einstellungen für die zum Aufnehmen der ursprünglichen Bilder genutzte
Aufnahmeeinrichtung (interne Kamera(-kalibrierungs)parameter) unbekannt sind, was häufig bei TV-Übertragungen, privaten Filmen oder Kinofilmen der Fall ist, muss eine Selbstkalib- rierungsprozedur ausgeführt werden. Dabei werden aus den zuvor bestimmten Projektions¬
S X0 matrizen die internen Kameramatrizen K1 — 0 S y0 mit den internen Parametern
0 0 1
der ursprünglichen Aufnahmeeinrichtung ( CCx '• Fokale Länge in Bildpunktkoordinaten in x-
Richtung, OC y '. Fokale Länge in Bildpunktkoordinaten in y-Richtung, S '. Scherungsparame-
ter, X0 '■ x-Koordinate des Hauptpunktes der Aufnahmeeinrichtung und yQ '• y-Koordinate des Hauptpunktes der Aufnahmeeinrichtung), die Rotationsmatrizen R, , welche die Parameter für die Ausrichtungen der ursprünglichen Aufnahmeeinrichtungen enthalten, und die Positionen C1 der ursprünglichen Aufnahmeeinrichtungen berechnet (vgl. beispielsweise Hartley et al., "Multiple view geometry", Cambridge University Press, UK, 2003 oder Pollefeys: "Tutorial on 3D modeling from images", European Conf. on Computer Vision (ECCV), 2000). Mit Hilfe der vorangehend erläuterten SfM-Analyse stehen nun die folgenden Informationen zur Verfügung: räumliche Koordinaten der ausgewählten Referenzbildelemente in den ursprünglichen Bildern des zu bearbeitenden Videodatensatzes, räumliche Koordinaten für die Positionen und Ausrichtungen für die zum Aufnehmen der ursprünglichen Bilder genutzte Aufnahmeeinrichtung relativ zu dem gewählten Koordinatensystem (externe Kameraparameter) und die internen Einstellungen für die zum Aufnehmen der ursprünglichen Bilder genutzte Aufnahmeeinrichtung (interne Kamera(-kalibrierungs)parameter). Ausgehend hiervon werden danach zusätzlich virtuelle Bilder mit zugehörigen Positionen der genutzten Aufnahmeeinrichtung erzeugt, was im Folgenden näher erläutert wird. Die virtuellen Bilder werden hierbei zunächst als virtuelle Ausgangsbilder erzeugt, für die nur eine begrenzte Anzahl von virtuellen Bildpunkten vorliegt, die ihrerseits in Beziehung zu den oben ausgewählten Referenzbildpunkten stehen.
Unter Verwendung des Ergebnisses der SfM-Analyse werden die räumlichen Referenzbild- punkte in die virtuellen Ausgangsbilder projiziert. So ergibt sich, dass jedes der virtuellen Ausgangsbilder eine abgewandelte Version der Referenzbildelemente in den ursprünglichen Bildern ist.
Unter Verwendung einer ermittelten Homografie zwischen virtuellem Ausgangsbild und zu- gehörigem ursprünglichen Bild, was in einem Folgeschritt ausgeführt wird (vgl. insbesondere Abschnitt E. unten), kann dann schließlich ein vollständiges virtuelles Bild, nämlich ein virtuelles Endbild, erzeugt werden, indem sämtliche Bildpunkte oder Bildelemente aus dem ursprünglichen Bild in das zugehörige virtuelle Endbild projiziert werden. Auf diese Weise können zu einem ursprünglichen Bild ein oder mehrere virtuelle Endbilder erzeugt werden, je nachdem wie viele virtuelle Ausgangsbilder einem ursprünglichen Bild zugeordnet wurden, was im Folgenden noch weiter erläutert wird.
D. Bestimmen der Positionen der virtuellen Aufnahmeeinrichtungen (Schritt 102)
Die Anordnung der virtuellen Aufnahmeeinrichtung erfordert die Definition eines horizontalen Abstandes zwischen den Bildern, die so genannten Bildschirm-Parallax- Werte. Der durchschnittliche menschliche Augenabstand beträgt 64mm, d.h. für jede ursprüngliche Aufnahmeeinrichtung muss mindestens eine (oder mehrere für entsprechende 3 D Ausgabegeräte) virtu- eile Aufnahmeeinrichtung bestimmt werden, bei der der horizontale Abstand etwa 64mm beträgt. Sollen mehrere virtuelle Aufnahmeeinrichtungen erzeugt werden, so müssen die Abstände zwischen den virtuellen Aufnahmeeinrichtungen jeweils äquidistant etwa 64mm betragen.
Im Folgenden wird die Bestimmung der Position einer virtuellen Aufnahmeeinrichtung im Abstand von 64mm zu einer ursprünglichen Aufnahmeeinrichtung näher beschrieben (vgl. Fig. 3)
Die SFM- Analyse lieferte einen relativen Bezug der Positionen und Ausrichtungen der ursprünglichen Aufnahmeeinrichtung und der Referenzbildelemente zu einem gewählten Koordinatensystem. Für die Bestimmung einer virtuellen Aufnahmeeinrichtung im Abstand von 64mm zu einer ursprünglichen Aufnahmeeinrichtung werden absolute Beziehungen benötigt, d.h. der Abstand zum Beilspiel zwischen zwei ursprünglichen Aufnahmeeinrichtungen oder zwischen dem gewählten Referenzkoordinatensystem und einer ursprünglichen Aufnahmeeinrichtung muss in Metern bekannt sein. Im Folgenden werden die Schritte zur Bestimmung einer virtuellen Aufnahmeeinrichtung beschrieben (vgl. Fig. 3):
Dl. Manuelle Eingabe der Distanz ts zwischen der ersten ursprünglichen Aufnahmeeinrich- tung der Folge der ursprünglichen Bilder und dem gewählten Referenzkoordinatensystem
(zum Beispiel der räumliche Schwerpunkt der 3 D-Referenzbildpunkte in Fig. 2) in Metern (Schritt 301).
D2. Normierung der Positionen ' der ursprünglichen Aufnahmeeinrichtungen auf ein met-
CT = t. Q risches Maß innerhalb des gewählten Referenzkoordinatensystems mit " '" ,
wobei " '" die Euklidische Distanz zwischen dem Ursprung des gewählten Referenzkoordinatensystems und der ersten ursprünglichen Aufnahmeeinrichtung ist (Schritt 302). D3. Berechnung der Positionen c i:.vinueii ^er virtuellen Aufnahmeeinrichtung
± n-tx
^ι,vιrtuell ~ ^i "*" Λ; 0 0 wobei R; die Inverse der Rotationsmatrix
'l l r12 r13
R = r 21 r 22 '23
>31 >*32 '33 der ursprünglichen Aufnahmeeinrichtung, für die die Position der
virtuellen Aufnahmeeinrichtung bestimmt wird, und ±n-t x der horizontale Abstand der virtuellen Aufnahmeeinrichtung von der ursprünglichen Aufnahmeeinrichtung (±n-64mm-) nacn links bzw. rechts ist (n ist die Anzahl der zu erzeugenden virtuellen Bilder in eine der beiden möglichen horizontalen Richtungen) (Schritt 303).
D4. Berechnung der Abstände der virtuellen Aufnahmeeinrichtung >>v'rtuel1 zu anen ur_
sprünglichen Aufnahmeeinrichtungen des Videodatensatzes ' (Schritt 304).
D5. Inversion der Normierung für die Positionen der virtuellen Aufnahmeeinrichtung
C1 *" i, virtuell
C i,, virtuell
(Schritt 305).
D6. Bestimmung der Projektionsmatrizen P1 der ursprünglichen Aufnahmeeinrichtungen mit
P. = KR. I - Q und Pi.virtueii der virtuellen Aufnahmeeinrichtungen mit
i, virtuell = KR. I - C i, virtuell
, wobei K die interne Kameramatrix mit den internen Parametern der ursprünglichen Aufnahmeeinrichtung, R1 die Rotationsmatrizen der ur-
sprünglichen Aufnahmeeinrichtung,
Figure imgf000012_0001
J die Einheitsmatrix und c ' bzw. c t,virtueiι ^6 Positionen der entsprechenden Aufnahmeeinrichtungen in inhomogenen Koordinaten sind (Schritt 306).
E. Erzeugen eines virtuellen Endbildes über Homografien (Schritt 103)
Referenzbildelemente in den ursprünglichen Bildern /w* (k = 1, 2, ...; Anzahl der Referenzbildelemente im i-ten Bild) einerseits und den virtuellen Ausgangsbildern mk,v,rtue!i andererseits stehen über die Homografϊe H in Beziehung. Wenn der Abstand zwischen der virtuellen Position der Aufnahmeeinrichtung für das virtuelle Ausgangsbild und der ursprünglichen Po- sition der Aufnahmeeinrichtung für das zugehörige ursprüngliche Bild klein ist, ergibt sich:
Ulk = H1 mk,vιrtuell-
H ist eine 3x3-Matrix, enthält deshalb neun Einträge und ist bis auf einen Skalierungsfaktor bestimmt, /w* ist aus der SfM-Analyse bekannt. mk,vιriueiι ergibt sich aus der Beziehung mk,vιrtueiι = Pi.virtueii Mk (Mk - räumliche Koordinaten der Referenzbildpunkte oder 3D Referenzbildpunkte). Somit kann H, bestimmt werden, und zwar mit einer minimalen Anzahl von Korrespondenzen zwischen vier Referenzbildpunkten (vgl. zum Beispiel Hartley et al., "Multiple view geometry", Cambridge University Press, UK, 2003).
Wenn die Homografie H zwischen einem virtuellen Ausgangsbild und dem zugeordneten ursprünglichen Bild bekannt ist, können danach alle Bildpunkte / Bildelemente aus dem ursprünglichen Bild in das zugehörige virtuelle Endbild projiziert werden, so dass das virtuelle Endbild entsteht. Bei nicht exakter Korrespondenz der Bildpunktraster wird eine bilineare Interpolation der Bildpunktwerte ausgeführt. Im Folgenden werden die Schritte der Erzeu- gung eines virtuellen Endbildes unter Bezugnahme auf Fig. 4 im Detail beschrieben (Schritt 103):
El. Projektion der 3D Referenzbildpunkte Mk in die der virtuellen Aufnahmeeinrichtung
dichteste ursprüngliche Aufnahmeeinrichtung mit * ' * (Schritt 401).
E2. Projektion der 3 D Referenzbildpunkte Mk in die virtuelle Aufnahmeeinrichtung mit m — P - M k, v,,ueii ,, v,tueii k χm Erzeugung eines virtuellen Ausgangsbildes (Schritt 402). E3. Bestimmung der Homografie zwischen dem virtuellen Ausgangsbild und dem der dichtesten ursprünglichen Aufnahmeeinrichtung zugeordneten ursprünglichen Bild mittels
Lösen der Gleichung * ' k^ιrtue" (zum Beispiel mittels Minimierung einer Trans- formationsfehlerfunktion (Hartley et al., "Multiple view geometry", Cambridge Universi- ty Press, UK, 2003) oder mithilfe der Direkten Linearen Transformation (Hartley et al., "Multiple view geometry", Cambridge University Press, UK, 2003) (Schritt 403).
E4. Projektion der Bildpunkte aus dem ursprünglichen Bild in das zugehörige virtuelle Aus- gangsbild über die im Schritt E3. bestimmte Transformationsmatrix H1 mit = l ϊ 2 Amahl aller Bildpunkte des
Figure imgf000014_0001
dem virtuellen Ausgangsbild Bvιrtueu zugehörigen ursprünglichen Bildes B) zur Erzeugung des virtuellen Endbildes (Schritt 404).
E5. Wiederholung der Schritte El. bis E4. für alle zu erzeugenden virtuellen Endbilder des Videodatensatzes.
Fig. 5 zeigt ein Beispiel für ein ursprüngliches Bild (Fig. 5, links), zu dem ein virtuelles Bild erzeugt werden soll, und das entsprechende virtuelle Endbild (Fig. 5, rechts), welches aus einem anderen ursprünglichen Bild des Videodatensatzes, das dem virtuellen Bild am dichtesten lag, erzeugt wurde.
F. Auffüllen nicht ausgefüllter Bildinhalte der virtuellen Endbilder (optional) (Schritt 405)
Da das Erzeugen eines virtuellen Endbildes nur durch das am dichtesten liegende ursprüngliche Bild nicht immer zu einem komplett mit Bildpunkten ausgefüllten Endbild führt (vgl. Fig. 5, rechts), müssen zusätzliche ursprüngliche Bilder der ursprünglichen Aufnahmeeinrichtung herangezogen werden. Im Folgenden werden die Schritte zum Auffüllen nicht ausgefüllter Bildinhalte (Schritt 601) der virtuellen Endbilder unter Bezugnahme auf Fig. 6 beschrieben:
Fl. Projektion der 3D Referenzbildpunkte Mi1 in die der virtuellen Aufnahmeeinrichtung
nächst dichteste ursprüngliche Aufnahmeeinrichtung mit * '-"e" k (Schritt 602). F2. Bestimmung der Homografϊe zwischen dem virtuellen Ausgangsbild und dem der nächst dichtesten ursprünglichen Aufnahmeeinrichtung zugeordneten ursprünglichen Bild mit¬
tels Lösen der Gleichung * ''"eu k,vinueii (zum Beispiel mittels Minimierung ei- ner Transformationsfehlerfunktion (Hartley et al., "Multiple view geometry", Cambridge
University Press, UK, 2003) oder mithilfe der Direkten Linearen Transformation (Hartley et al., "Multiple view geometry", Cambridge University Press, UK, 2003) (Schritt 603).
F3. Projektion noch fehlender Bildpunkte aus dem ursprünglichen Bild in das zugehörige virtuelle Ausgangsbild über die Transformationsmatrix H,neu mit
Krtuell{mj,Vlrtueu) = B{H,,neu - mhvιrtueU) = B{mj) ^ = χ χ ? AnzaW ^ fehlenden
Bildpunkte des dem virtuellen Ausgangsbild Bvιrtueu zugehörigen ursprünglichen Bildes B) zur Erzeugung des virtuellen Endbildes (Schritt 603).
F4. Wiederholung der Schritte Fl. bis F3. bis das virtuelle Endbild aufgefüllt ist (Der Grad der Füllung des virtuellen Endbildes ist dabei frei wählbar) (Schritt 601).
Fig. 7 zeigt ein Beispiel für ein aus 30 ursprünglichen Bildern der ursprünglichen Aufnahmeeinrichtung erzeugtes virtuelles Endbild (Fig. 7, links) und ein aus 62 ursprünglichen Bildern der ursprünglichen Aufnahmeeinrichtung erzeugtes virtuelles Endbild (Fig. 7, rechts), welches zu einem ursprünglichen Bild (Fig. 5, links) im Augenabstand von 64mm entsprechend erzeugt werden sollte.
G. Erzeugen von hochauflösenden virtuellen Bildern (optional) (Schritt 406)
Da gemäß Beschreibung im Abschnitt F. oben mehrere ursprüngliche Bilder einer ursprünglichen Aufnahmeeinrichtung zur Erzeugung eines virtuellen Endbildes verwendet werden können, kann die zusätzlich zur Verfügung stehende Information aller zur Erzeugung des virtuellen Endbildes verwendeten ursprünglichen Bilder dazu herangezogen werden, die Auflösung des virtuellen Endbildes zu erhöhen, was auch als Super-Resolution bezeichnet werden kann. Im Folgenden werden die Schritte zur Erzeugung eines hochauflösenden virtuellen Endbildes beschrieben (Fig. 8 und 9): Gl. Erzeugung eines virtuellen Endbildes wie in den Abschnitten E. und F. oben beschrieben (Schritte 401, ..., 405).
G2. Festlegung der neuen Auflösung eines virtuellen Endbildes (Schritt 801).
G3. Erzeugung eines virtuellen Ausgangsbildes mit der im Schritt G2. festgelegten Auflösung (Schritt 802).
G4. Berechnung der Positionen eines Bildpunktes des virtuellen Ausgangsbildes aus Schritt G3. in den im Schritt 1. verwendeten ursprünglichen Bildern über die im Schritt Gl. be¬
stimmten Homografien mit ' ' virtuell ^ = ^ 2, ..., Anzahl der ursprünglichen Bilder, die für die Erzeugung eines virtuellen Endbildes nach dem Schritt Gl. verwendet wurden) (Schritt 804).
G5. Berechnung der Bildpunktwerte an den im Schritt G4. berechneten Positionen in den ursprünglichen Bildern (Schritt 805).
G6. Berechnung des Medianwertes der im Schritt G5. berechneten Bildpunktwerte mit
Bm,H (m, ) = median B, (m, ) med ' *' / V " (Schritt 806).
G7. Projektion des Bildpunktwertes, welcher sich innerhalb eines definierten Toleranzbereiches um den Medianwert befindet und dessen Position am dichtesten am Bildpunktraster liegt (Fig. 9, ursprüngliches Bild 2) (Schritt 807).
G8. Wiederholung der Schritte G4. bis G8. bis das virtuelle Ausgangsbild aus dem Schritt G3. aufgefüllt ist (Schritt 803). Der Grad der Füllung ist frei wählbar. H. Experimentelle Untersuchungen
Fig. 10 zeigt vier virtuelle Bilder eines Videodatensatzes „Statur", die dem vorangehend beschriebenen Verfahren entsprechend (in äquidistanten Abständen von 64mm) erzeugt wurden, sowie das ursprüngliche Bild in der Mitte.
Tabelle 1 zeigt das Ergebnis experimenteller Untersuchungen unter Verwendung des oben beschriebenen Verfahrens. Verschiedene Videodatensätze wurden untersucht, bei denen es sich jeweils um TV-Übertragungen bzw. um Filmaufnahmen einer digitalen Handkamera handelte. Neben der Bildpunktauflösung ist der Abstand ts des räumlichen Schwerpunktes der 3D-Szene in Meter angegeben. In der letzten Spalte ist die mittlere Anzahl der verwendeten ursprünglichen Bilder zur Erzeugung eines virtuellen Bildes angegeben.
Tabelle 1
Figure imgf000017_0001
Fig. 11 zeigt jeweils das gleiche virtuelle Endbild des Videodatensatzes „Statur", die dem vorangehend beschriebenen Verfahren entsprechend erzeugt wurden. Das rechte virtuelle Endbild in Fig. 11 wurde mit dem optionalen Verfahren (wie im Abschnitt G. oben beschrieben) in einer höheren Auflösung (1080x864 Bildpunkte) als die Auflösung der ursprünglichen Bilder (720x576 Bildpunkte) erzeugt. Zum Vergleich dazu wurde das linke virtuelle Endbild in Fig. 11 mit dem in den Abschnitten E. und F. beschrieben Verfahren erzeugt (Auflösung des virtuellen Endbildes entsprechend der Auflösung der ursprünglichen Bilder des Videodatensatzes, 720x576 Bildpunkte) und anschließend mittels Lanczos-Filterung auf die höhere Auflösung (1080x864) gebracht.
Die in der vorstehenden Beschreibung, den Ansprüchen und der Zeichnung offenbarten Merkmale der Erfindung können sowohl einzeln als auch in beliebiger Kombination für die Verwirklichung der Erfindung in ihren verschiedenen Ausführungsformen von Bedeutung sein.

Claims

Ansprüche
1. Verfahren zum Verarbeiten eines Videodatensatzes, welcher eine Folge von ursprünglichen Bildern umfasst, zu einem geänderten Videodatensatz, welcher zusätzlich zu der Folge von ursprünglichen Bildern aus diesen abgeleitete, virtuelle Bilder umfasst, in einer oder mehreren Datenverarbeitungseinheiten, bei dem:
- eine SfM- Analyse für die ursprünglichen Bilder und eine jeweils zugeordnete ursprüngliche Position einer zum Aufnehmen der ursprünglichen Bilder genutzten Aufnahmeinrichtung durchgeführt wird, - virtuelle Positionen für eine Aufnahmeeinrichtung zum Aufnehmen von virtuellen
Bildern gebildet werden,
- für die virtuellen Positionen der Aufnahmeinrichtung mit zugehörigem virtuellen Ausgangsbild eine jeweilige Zuordnung zu wenigstens einer der ursprünglichen Positionen der Aufnahmeinrichtung mit zugehörigem ursprünglichen Bild gebildet wird, - für die Zuordnungen eine jeweilige Homografie zwischen virtuellem Ausgangsbild und zugehörigem ursprünglichen Bild bestimmt wird und
- für die virtuellen Ausgangsbilder aus dem zugehörigen ursprünglichen Bild jeweils ein virtuelles Endbild erzeugt wird, indem unter Verwendung der jeweils bestimmten Homografie das ursprüngliche Bild in das zugehörige Endbild abgebildet wird.
2. Verfahren nach Anspruch 1, dadurch gekennzeichnet, dass die Zuordnungen gebildet werden, indem den virtuellen Positionen der Aufnahmeinrichtung mit zugehörigem virtuellen Ausgangsbild jeweils wenigstens eine seitlich nächstliegende der ursprünglichen Positionen der Aufnahmeinrichtung mit zugehörigem ursprünglichen Bild zugeordnet wird.
3. Verfahren nach Anspruch 2, dadurch gekennzeichnet, dass die wenigstens eine seitlich nächstliegende, ursprüngliche Position der Aufnahmeinrichtung in einem seitlichen Abstand von etwa 64mm zu der zugeordneten virtuellen Position der Aufnahmeinrich- tung gebildet ist.
4. Verfahren nach einem der vorangehenden Ansprüche, dadurch gekennzeichnet, dass die virtuellen Positionen für die Aufnahmeeinrichtung zum Aufnehmen der virtuellen Bilder in im wesentlichen äquidistanten Abständen zu den ursprünglichen Positionen gebildet werden.
5. Verfahren nach einem der vorangehenden Ansprüche, dadurch gekennzeichnet, dass zu den ursprünglichen Positionen jeweils mehrere virtuelle Positionen der Aufnahmeeinrichtung gebildet werden, die untereinander wahlweise äquidistant beabstandet sind.
6. Verfahren nach einem der vorangehenden Ansprüche, dadurch gekennzeichnet, dass der geänderte Videodatensatz in einen geänderten Videodatensatz mit Bildern erhöhter Auflösung umgewandelt wird, indem unter Verwendung der jeweils bestimmten Homo- grafie aus der Folge der ursprünglichen Bilder und den zusätzlichen virtuellen Bildern eine Folge von Bildern mit einer erhöhten Auflösung erzeugt wird, die höher ist als eine ursprüngliche Auflösung der ursprünglichen Bilder und der zusätzlichen virtuellen Bilder.
PCT/DE2008/000742 2007-05-04 2008-05-02 Verfahren zum verarbeiten eines videodatensatzes WO2008135024A2 (de)

Priority Applications (1)

Application Number Priority Date Filing Date Title
US12/598,607 US8577202B2 (en) 2007-05-04 2008-05-02 Method for processing a video data set

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
DE102007021518.7 2007-05-04
DE102007021518A DE102007021518B4 (de) 2007-05-04 2007-05-04 Verfahren zum Verarbeiten eines Videodatensatzes

Publications (2)

Publication Number Publication Date
WO2008135024A2 true WO2008135024A2 (de) 2008-11-13
WO2008135024A3 WO2008135024A3 (de) 2009-06-04

Family

ID=39829256

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/DE2008/000742 WO2008135024A2 (de) 2007-05-04 2008-05-02 Verfahren zum verarbeiten eines videodatensatzes

Country Status (3)

Country Link
US (1) US8577202B2 (de)
DE (1) DE102007021518B4 (de)
WO (1) WO2008135024A2 (de)

Families Citing this family (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9124874B2 (en) * 2009-06-05 2015-09-01 Qualcomm Incorporated Encoding of three-dimensional conversion information with two-dimensional video sequence
US20130202191A1 (en) * 2012-02-02 2013-08-08 Himax Technologies Limited Multi-view image generating method and apparatus using the same
US9135715B1 (en) * 2012-03-22 2015-09-15 Google Inc. Local feature cameras for structure from motion (SFM) problems with generalized cameras
US9869863B2 (en) * 2015-10-05 2018-01-16 Unity IPR ApS Systems and methods for processing a 2D video
US10326979B2 (en) 2016-05-23 2019-06-18 Microsoft Technology Licensing, Llc Imaging system comprising real-time image registration
US10339662B2 (en) 2016-05-23 2019-07-02 Microsoft Technology Licensing, Llc Registering cameras with virtual fiducials
US10027954B2 (en) 2016-05-23 2018-07-17 Microsoft Technology Licensing, Llc Registering cameras in a multi-camera imager
JP6840968B2 (ja) * 2016-09-20 2021-03-10 富士通株式会社 形状推定方法、形状推定装置および形状推定プログラム
JP7023696B2 (ja) * 2017-12-12 2022-02-22 キヤノン株式会社 情報処理装置、情報処理方法及びプログラム

Family Cites Families (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6965379B2 (en) 2001-05-08 2005-11-15 Koninklijke Philips Electronics N.V. N-view synthesis from monocular video of certain broadcast and stored mass media content
AU2003201840A1 (en) * 2002-04-01 2003-10-23 Sony Corporation Reproducing method, reproducing apparatus, recording method, recording apparatus, and method for generating a management table
FR2840093B1 (fr) * 2002-05-27 2006-02-10 Real Eyes 3D Procede de numerisation par camera avec correction de la deformation et amelioration de la resolution
JP2006509292A (ja) * 2002-12-05 2006-03-16 コーニンクレッカ フィリップス エレクトロニクス エヌ ヴィ セグメント化されたイメージから偽エッジを除去するための装置及び方法
EP1654884A1 (de) 2003-08-05 2006-05-10 Koninklijke Philips Electronics N.V. Erzeugung von 3d-bildern
JP4184190B2 (ja) * 2003-08-21 2008-11-19 富士通株式会社 ヘッド制御方法および記録装置
US20060164509A1 (en) * 2004-12-14 2006-07-27 Andrew Marshall Stereo camera/viewer
US8160400B2 (en) * 2005-11-17 2012-04-17 Microsoft Corporation Navigating images using image based geometric alignment and object based controls
US20070132967A1 (en) * 2005-12-09 2007-06-14 Niranjan Damera-Venkata Generation of image data subsets
US8970680B2 (en) * 2006-08-01 2015-03-03 Qualcomm Incorporated Real-time capturing and generating stereo images and videos with a monoscopic low power mobile device
JP5154775B2 (ja) * 2006-08-18 2013-02-27 任天堂株式会社 ゲームプログラムおよびゲーム装置

Non-Patent Citations (8)

* Cited by examiner, † Cited by third party
Title
CHRISTOPH FEHN ET AL: "3D-TV Using Depth-Image-Based Rendering (DIBR)" 24. PICTURE CODING SYMPOSIUM;15-12-2004 - 17-12-2004; SAN FRANSISCO,, 15. Dezember 2004 (2004-12-15), XP030080155 *
EVERS-SENNE J-F ET AL: "Image-based rendering of complex scenes from a multi-camera rig Visual media production" IEE PROCEEDINGS: VISION, IMAGE AND SIGNAL PROCESSING, INSTITUTION OF ELECTRICAL ENGINEERS, GB, Bd. 152, Nr. 4, 5. August 2005 (2005-08-05), Seiten 470-480, XP006024831 ISSN: 1350-245X *
FEHN C: "Depth-image-based rendering (DIBR), compression, and transmission for a new approach on 3D-TV" PROCEEDINGS OF THE SPIE, SPIE, BELLINGHAM, VA; US, Bd. 5291, 31. Mai 2004 (2004-05-31), Seiten 93-104, XP002444222 ISSN: 0277-786X in der Anmeldung erwähnt *
KUNTER M ET AL: "Super-resolution Mosaicing using Embedded Hybrid Recursive Flow-based Segmentation" INFORMATION, COMMUNICATIONS AND SIGNAL PROCESSING, 2005 FIFTH INTERNAT IONAL CONFERENCE ON BANGKOK, THAILAND 06-09 DEC. 2005, PISCATAWAY, NJ, USA,IEEE, 6. Dezember 2005 (2005-12-06), Seiten 1297-1301, XP010937535 ISBN: 978-0-7803-9283-0 *
MIN KYU PARK ET AL: "Super-resolution image reconstruction: a technical overview" IEEE SIGNAL PROCESSING MAGAZINE, IEEE SERVICE CENTER, PISCATAWAY, NJ, US, Bd. 20, Nr. 3, 1. Mai 2003 (2003-05-01), Seiten 21-36, XP011097476 ISSN: 1053-5888 *
POLLEFEYS ET AL: "Visual Modeling with a Hand-Held Camera" INTERNATIONAL JOURNAL OF COMPUTER VISION, Bd. 59, Nr. 3, September 2004 (2004-09), Seiten 207-232, XP002519335 *
SEBASTIAN KNORR ET AL: "From 2D- to Stereo to Multi-view Video" 3DTV CONFERENCE, 2007, IEEE, PI, 7. Mai 2007 (2007-05-07), - 9. Mai 2007 (2007-05-09) Seiten 1-4, XP031158209 ISBN: 978-1-4244-0721-7 *
SEBASTIAN KNORR ET AL: "Super-Resolution Stereo and Multi-View Synthesis from Monocular Video Sequences" 3-D DIGITAL IMAGING AND MODELING, 2007. 3DIM '07. SIXTH INTERNATIONAL CONFERENCE ON, IEEE, PISCATAWAY, NJ, USA, 1. August 2007 (2007-08-01), Seiten 55-64, XP031130980 ISBN: 978-0-7695-2939-4 *

Also Published As

Publication number Publication date
WO2008135024A3 (de) 2009-06-04
US20100158482A1 (en) 2010-06-24
DE102007021518A1 (de) 2008-11-13
DE102007021518B4 (de) 2009-01-29
US8577202B2 (en) 2013-11-05

Similar Documents

Publication Publication Date Title
DE102007021518B4 (de) Verfahren zum Verarbeiten eines Videodatensatzes
CN101375315B (zh) 数字重制2d和3d运动画面以呈现提高的视觉质量的方法和系统
DE69635347T2 (de) Verfahren und system zum wiedergeben und kombinieren von bildern
EP2862356B1 (de) Verfahren und vorrichtung zur fusion von bildern
DE60209365T2 (de) Verfahren zur mehrfachansichtssynthese
CN111325693B (zh) 一种基于单视点rgb-d图像的大尺度全景视点合成方法
EP3427474B1 (de) Bildverarbeitungsverfahren, bildverarbeitungsmittel und bildverarbeitungsvorrichtung zur erzeugung von abbildungen eines teils eines dreidimensionalen raums
DE69734747T2 (de) Verfahren und Gerät zur Bildverarbeitung
EP2800350A2 (de) Anordnung und Verfahren zur Aufnahme und Wiedergabe von Bildern einer Szene und/oder eines Objektes
DE19746910A1 (de) Übertragung von Texturen fotografischer Bilder auf CAD-Ebenen
WO2011103865A2 (de) Verfahren und autostereoskopische anzeige zur erzeugung von dreidimensionalen bildern
DE112011103452T5 (de) Verfahren zum Angleichen von Pixeln einer Entfernungsdarstellung
CN101754042A (zh) 图像重构方法和图像重构系统
EP3830796A1 (de) Verfahren und datenverarbeitungssystem zur synthese von bildern
Park et al. Efficient viewer-centric depth adjustment based on virtual fronto-parallel planar projection in stereo 3D images
Knorr et al. Stereoscopic 3D from 2D video with super-resolution capability
Wang et al. Interactive free-viewpoint video generation
EP3539085A1 (de) 3d-referenzierung
DE10196664T5 (de) Szenenrekonstruktion und Kamerakalibrierung bei robuster Verwendung von Chiralität
Knorr et al. Super-resolution stereo-and multi-view synthesis from monocular video sequences
Knorr et al. From 2D-to stereo-to multi-view video
JP3122629B2 (ja) 任意視点画像生成装置
Kunter et al. Unsupervised object segmentation for 2D to 3D conversion
Wang et al. Depth image segmentation for improved virtual view image quality in 3-DTV
Zinger et al. Recent developments in free-viewpoint interpolation for 3DTV

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 08758003

Country of ref document: EP

Kind code of ref document: A2

WWE Wipo information: entry into national phase

Ref document number: 12598607

Country of ref document: US

122 Ep: pct application non-entry in european phase

Ref document number: 08758003

Country of ref document: EP

Kind code of ref document: A2