WO2008068097A2 - Verfahren zur videocodierung einer folge digitalisierter bilder - Google Patents

Verfahren zur videocodierung einer folge digitalisierter bilder Download PDF

Info

Publication number
WO2008068097A2
WO2008068097A2 PCT/EP2007/060957 EP2007060957W WO2008068097A2 WO 2008068097 A2 WO2008068097 A2 WO 2008068097A2 EP 2007060957 W EP2007060957 W EP 2007060957W WO 2008068097 A2 WO2008068097 A2 WO 2008068097A2
Authority
WO
WIPO (PCT)
Prior art keywords
pictures
images
gop
image
group
Prior art date
Application number
PCT/EP2007/060957
Other languages
English (en)
French (fr)
Other versions
WO2008068097A3 (de
Inventor
Peter Amon
Jürgen PANDEL
Original Assignee
Siemens Aktiengesellschaft
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Siemens Aktiengesellschaft filed Critical Siemens Aktiengesellschaft
Priority to US12/448,081 priority Critical patent/US20110194605A1/en
Priority to CN2007800454483A priority patent/CN101554056B/zh
Priority to JP2009539678A priority patent/JP5021759B2/ja
Priority to EP07821324A priority patent/EP2100455A2/de
Publication of WO2008068097A2 publication Critical patent/WO2008068097A2/de
Publication of WO2008068097A3 publication Critical patent/WO2008068097A3/de

Links

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/65Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using error resilience
    • H04N19/67Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using error resilience involving unequal error protection [UEP], i.e. providing protection according to the importance of the data
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/10Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
    • H04N19/102Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the element, parameter or selection affected or controlled by the adaptive coding
    • H04N19/103Selection of coding mode or of prediction mode
    • H04N19/114Adapting the group of pictures [GOP] structure, e.g. number of B-frames between two anchor frames
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/10Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
    • H04N19/169Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the coding unit, i.e. the structural portion or semantic portion of the video signal being the object or the subject of the adaptive coding
    • H04N19/177Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the coding unit, i.e. the structural portion or semantic portion of the video signal being the object or the subject of the adaptive coding the unit being a group of pictures [GOP]
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/30Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using hierarchical techniques, e.g. scalability
    • H04N19/31Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using hierarchical techniques, e.g. scalability in the temporal domain
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/50Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using predictive coding
    • H04N19/503Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using predictive coding involving temporal prediction
    • H04N19/51Motion estimation or motion compensation
    • H04N19/577Motion compensation with bidirectional frame interpolation, i.e. using B-pictures
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/65Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using error resilience
    • H04N19/66Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using error resilience involving data partitioning, i.e. separation of data into packets or partitions according to importance

Definitions

  • the invention relates to a method for video coding of a sequence of digitized images as well as to a method for transmitting the images and to a method for decoding the coded images. Moreover, the invention further relates to a corresponding transmitter for transmitting the coded pictures and a corresponding receiver for receiving and decoding the transmitted coded pictures.
  • GOP group of pictures
  • the remaining images are subjected to a prediction in which motion vectors are determined for a respective image, which describe the displacement of image blocks with respect to a reference image. In this way, a predicted picture is obtained, wherein the prediction error between the original picture and the predicted picture is coded and transmitted together with the motion vectors.
  • the pictures of a picture group coded by means of a prediction are called inter-pictures, since they are coded with respect to one or more reference pictures.
  • broadcast channels may be used to transmit encoded video content, allowing any user to receive the corresponding encoded content.
  • multimedia broadcasting cast Multicast Service MBMS
  • MBMS multimedia broadcasting cast Multicast Service
  • this delay arises from the fact that within the encoded video stream a random access point has to be found, from which the video decoder receiving the video data stream can process the video data stream. This type of delay is referred to as a video tune-in delay.
  • the points for random access are the intra-images described above, which are coded without regard to other images. Since only some of the images are intra-images, a delay occurs when switching to a broadcast channel until a corresponding intra-image is received.
  • FEC Forward Error Correction
  • FIG. 1 shows a conventional prediction structure known from the prior art for coding a picture group GOP.
  • the pictures with the reference symbol Px here are inter-pictures, from which further pictures of the picture group GOP are predicted, whereas the pictures with the reference character Nx are non-referenced pictures, from which no further pictures of the picture group GOP are predicted.
  • the image sequences shown in all the pictures are reproduced in the original order of the video stream, ie, in the natural temporal order, as the images of the image sequence follow one another. That is, the time axis runs in all subsequent illustrations in the horizontal direction from left to right, with higher numbering represent corresponding images of later times.
  • the arrows in all subsequent figures clarify which images are used to predict a picture. That is, the arrows point from a reference image from which the prediction is made to the predicted image predicted from the reference image.
  • the image group GOP consists of eight images by way of example
  • the first image IO of the image sequence is intra-coded and all subsequent images Pl to N7 are inter-coded, whereby the temporally preceding image is always used for the prediction.
  • the picture group GOP is transmitted in the order shown in Fig. 1, and at the end of the transmission, redundancy information FEC is added again for error protection.
  • the conventional transmission order is thus as follows:
  • FEC error protection data to understand that can be used to reconstruct faulty data of the GOPs.
  • the image sequence contains a plurality of non-referenced images Nl, N3, N5, N7 and N8, from which no further images of the
  • FIG. 1 a further prediction structure in the form of so-called multiple reference frames is also known, this prediction structure being shown in FIG.
  • an inter-image is predicted from a number of other images, which results from the fact that several arrows end in an inter-image.
  • the interframe N5 becomes out of the temporally preceding image P4 as well as the time-sequential pictures P6 and N8.
  • the prediction with the aid of multiple reference frames is not to be confused with the bidirectional prediction known from the prior art, in which the individual blocks of an image are predicted by weighted sum from the blocks of two different images.
  • each image block of the observed inter-image is always predicted from only one single image, but for each image block a different image can be used, from which the corresponding image block is predicted.
  • the prediction structure according to FIG. 3 also contains non-referenced images N1, N3, N5, N7 and N8.
  • N1, N3, N5, N7 and N8 Conventionally, the images of the image groups shown in FIGS. 2 and 3 are transmitted in the order in which the current is coded based on its prediction structure.
  • the conventional transmission order here is as follows:
  • the redundancy information is here divided into the two redundancy blocks FECl and FEC2.
  • the first redundancy block FECl protects the images 10, P2, P4, P6 and N8, whereas the second redundancy block FEC2 protects the images N1, N3, N5 and N7.
  • a temporally scalable video coding with multiple resolution levels is provided.
  • the first resolution step only the intra-picture 10 is transmitted here.
  • the prediction images P2, P4, P6 and N8 are transmitted in addition to the intraimage 10
  • the non-referected images N1, N3, N5 and N7 are next to the images 10, P2, P4, P6 and N8 .
  • the least possible delay is The images may be arranged in a modified transmission order which is as follows:
  • the images are arranged here in descending sequences of the resolution levels in subsequences such that first the images N1, N3, N5 and N7 added in the highest resolution level are transmitted and subsequently the images which have been added in the next lower resolution level, namely the images N8, P6, P4 and P2. Finally, at the end of the transmission order, the intraframe 10 is transmitted. Moreover, the redundancy blocks of the corresponding resolution level are always placed at the beginning of the subsequence of the images added at the respective resolution level.
  • the prediction structure shown in FIG. 4 is also known from the prior art, which is described in document [2]. is reproduced. There, a GOP is shown with fifteen images, with the intra-image 17 now not being located at the beginning of the GOP, but in the middle. This prediction structure also allows temporal scalability. In the lowest resolution level, only the intraframe 17 is transmitted here, in the second resolution level next to the image 17 the further prediction images Pl, P5, P9 and P13, in the third resolution level additionally the images P3 and PIl and in the highest resolution level additionally the non-image. referenced pictures NO, N2, N4, N6, N8, N10, N12 and N14.
  • the prediction structure of FIG. 4 has the disadvantage that the temporal scaling is not regular since the number of images in each resolution level (except the lowest one) is not divisible by a common factor. For example, the picture group with the second highest
  • a gap is created between two images between two GOPs, whereas within each GOP, only one gap is ever created from an image. This is because in the second highest resolution level, the images at each end of a GOP are omitted.
  • the object of the invention is to provide a method and a corresponding device for video coding and video decoding, which ensure a uniform playback of the video images with the least possible delay when a receiving device switches to a video image transmitting channel.
  • groups of images are formed, with a respective group of images comprising a plurality of temporally successive images in an original time sequence.
  • the original time This sequence corresponds to the actual time course of the scenarios shown in the video stream.
  • each group of pictures is encoded by forming a prediction structure, according to which one or more pictures of the group of pictures are determined as intraframes, which are respectively intra coded, and the other pictures of the group of pictures are determined as inter-pictures, each consisting of at least one reference picture Picture group are predicted and intercoded with respect to the at least one reference image.
  • the prediction structure is in this case designed such that: i) each intraframe is a reference image, from which at least one temporally earlier image of the image group compared to the intraframe and at least one later image of the image group compared to the intraframe are predicted; ii) the inter-images comprise a plurality of non-referenced images from which no images of the sequence are predicted.
  • Transmission order is the order in which the images are subsequently to be transmitted after encoding.
  • the coded intraframe (s) are arranged as the last frames of the transmission order. As a result, even when switching to a group of pictures at a late time, at least a reproduction of at least the intra-coded picture of the group of pictures is made possible.
  • all coded non-referenced images are arranged as first images at the beginning of the transmission sequence. Furthermore, in a preferred variant, a substantially central arrangement of the intraframe is ensured. This is achieved if, in the case of an odd number of images in the image group, the middle image of the image group is the intra-image and if the number of images in the image group is even, the intra-image is at the position in the image group that corresponds to the result of dividing the number of Pictures of the group of pictures by two o- this result plus one corresponds.
  • the image groups include not only non-referenced images as inter-images, but also those images from which one or more images of the image group are predicted.
  • these coded reference images are preferably arranged between the at least some of the coded non-referenced images and the one or more intra-coded images. In this way, a gradation of the images is made as to how important the corresponding images are in the decoding. The more important an image is in the execution of the decoding, the later it is arranged in the order of transmission.
  • redundancy data for error protection during the transmission of the respective image group is generated for each of the image groups, the redundancy data being inserted in the transmission sequence during the formation of the transmission sequence.
  • a respective group of pictures is scalable in a plurality of time resolution stages, the lowest resolution level comprising only the coded intra-picture (s), and each higher resolution level being characterized by a number of coded pictures which are at the higher resolution level compared to the next lower level Resolution level added.
  • the coded images in the transmission sequence are arranged in subsequences to which a resolution level is assigned, wherein a respective subsequence comprises the coded images which are added in the resolution level associated with the respective subsequence compared to the next lower resolution levels, the subsequences in the order of transmission in descending order of the resolution levels.
  • separate redundancy data are respectively formed for at least a portion of the subsequences, which are each arranged before the corresponding subsequence in the transmission order.
  • the separate redundancy data have at least partly different degrees of error protection, the degree of error protection for the redundancy data of a subsequence being preferably lower, the higher the resolution level of the subsequence ,
  • a regular temporal scalability is ensured by the fact that the resolution levels are characterized by a factor such that all resolution levels except the lowest comprises a number of images, which is divisible by the factor without residue.
  • the prediction structure is defined in such a way that a predetermined number of images are assigned to at least one non-referenced image, the non-referenced image being predicted from the image of the predetermined number of images which has been predicted by the lowest number of predictions was formed.
  • the predetermined number of images are the two reference images temporally nearest to the non-referenced image in the image sequence, i. the two temporally closest images, which are not non-referenced images.
  • At least a part of the inter-pictures is respectively predicted from a plurality of other pictures, wherein a respective inter-picture of the at least a part of the inter-pictures is subdivided into a plurality of blocks and for each block a single picture from the several other images from which the block is predicted.
  • the invention further relates to a method of transmitting a sequence of digitized images, wherein the sequence of digitized images is encoded according to the method of the invention and the images are subsequently transmitted in the temporal transmission order of the transmission sequence.
  • the transmission here preferably takes place via a broadcast service on one or more broadcast channels.
  • the invention further includes a corresponding method for decoding a sequence of digitized pictures which have been decoded and transmitted by the method according to the invention.
  • the decoding method the transmission sequences of the coded pictures of the picture group of the sequence are received. Subsequently, depending on the prediction structure used, the coded pictures of each transmission sequence are decoded. Finally, the decoded pictures of each transmission sequence are read out in the original temporal order of the picture group, whereby the original video stream is restored.
  • the invention further comprises a corresponding transmitter for transmitting a sequence of digitized images, the transmitter comprising means for enabling the encoding method according to the invention and the subsequent transmission of the coded images according to any variant of the invention.
  • the invention also relates to a receiver for
  • FIGS. 1 to 4 are groups of images coded according to prior art methods
  • FIGS. 5 to 12 are groups of images which are coded according to embodiments of the method according to the invention.
  • FIG. 13 shows a transmission system for a video stream with a transmitter according to the invention and a receiver according to the invention.
  • FIGS. 1 to 4 show different groups of images GOP which are coded by methods according to the prior art.
  • FIGS. 1 to 4 have already been explained in the foregoing, so that these figures will not be discussed any more.
  • FIG. 5 shows a group of pictures in a sequence of pictures, which is coded according to an embodiment of the method according to the invention.
  • the prediction structure shown is known per se from document [2], where the image group GOP has seven images and a tree-like prediction is formed by the image in the middle of the image group being the intra-image 13 from which the temporally preceding image Pl and the temporally subsequent image P5 be predicted.
  • the non-referenced images NO and N2 are reproduced from the image P1 and the non-referenced images P5 from the image P5 Pictures N4 and N6 predicted.
  • a transmission sequence is formed from the prediction structure according to FIG. 5, which has two separate redundancy blocks FEC1 and FEC2 and in which the non-referenced images are at the beginning of the transmission sequence.
  • the order of transmission is as follows:
  • the redundancy block FEC2 hereby protects the non-referenced images and the redundancy block FEC1 protects the intraframe as well as the images Pl and P5, which are used for the prediction of the non-referenced images.
  • sequence of contents of the image sequence playout buffer of FIG. 5 is as follows: (13) (13 Pl) (13 Pl NO) (13 Pl ⁇ N2) (13 N2I P5) (JT3 P5 N4) (P5 N £ N6) (P5_N6) (N6).
  • FIG. 6 shows a second variant with a prediction structure, which is a modification of the prediction structure according to FIG. 5.
  • the prediction structure according to FIG. 6 so-called shortened prediction paths are used.
  • the prediction of a non-referenced image always tries to use as a reference image an image which itself has arisen from a small number of predictions.
  • the non-referenced images N2 and N4 are each predicted from that of the two neighboring images which has arisen from fewer predictions. That is, in Fig. 6, the image N2 in In contrast to FIG. 5, it is predicted not from the image P1 but from the image 13, and the image N4 is predicted not from the image P5 but from the image 13. This increases the error robustness, since a loss of one or more images increases the likelihood that the remaining images can be decoded.
  • the expected value E of distorted images results as follows:
  • the error rate is thus reduced in the embodiment of FIG. 6 compared to the embodiment of FIG. 5.
  • the transmission order in the embodiment according to FIG. 6 is chosen as follows:
  • the sequence of contents of the playout buffer in the receiver is as follows:
  • Fig. 7 shows a prediction structure according to the same principle as Fig. 6 with shortened prediction paths, but with the length of the image group now increased to fifteen images. This results in a greater number of temporal scalability levels and more opportunities to split the error protection to the individual scalability levels.
  • Fig. 8 shows a prediction structure with a three-level regular scalability.
  • Regular scalability means that the temporal resolution is higher than the In the following picture groups GOP remains constant and in particular no enlarged gaps between the picture groups arise.
  • a dyadic temporal scalability is reproduced here.
  • Dyadic means that the number of images in the respective scalability or resolution level (except the lowest) is always divisible by 2. According to FIG.
  • the lowest first scalability level is represented by the intraframe 14
  • the second scalability level is formed by the image 14 and the further images NO, P2 and P6
  • the third scalability level is represented by the images of the lowest and the second scalability level formed the images Nl, N3, N5 and N7.
  • the images of the image group in FIG. 8 are arranged in the following transmission sequence with corresponding redundancy blocks FEC1 and FEC2:
  • the sequence of contents of the playout buffer in the receiver is as follows:
  • the first redundancy block FECl protects the images 14, P2, NO and P6, and the second redundancy block FEC2 protects the images N1, N3, N5 and N7. Since the latter images are not used by other images for prediction, the protection for these images is weaker. This realizes unequal error protection. In the case of uniform error protection, the two error protection blocks FEC1 and FEC2 can be combined to form an error protection block FEC.
  • FIG. 9 shows a prediction structure with further temporal scalability levels.
  • the prediction structure in FIG. 9 contains four scalability levels.
  • the non-referenced image NO is predicted directly from the image 14 and not from the image P2. This creates a further scalability level.
  • the lowest first scalability level consists of the image 14.
  • the second scalability level comprises the images 14 and NO.
  • images P2 and P6 are added.
  • the fourth scalability level is supplemented by the images Nl, N3, N5 and N7. Due to the further scalability level, a separate further error protection block FEC3 can be formed.
  • the order of transmission is chosen according to the invention as follows:
  • the sequence of contents of the playout buffer is as follows:
  • the redundancy block FEC1 protects the images 10 and 14, FEC2 protects the images P2 and P6 and FEC3 protects the images N1, N3, N5 and N7.
  • the requirements for the playout buffer can be reduced by predicating the image N1 not from the image P2 but from the image NO (ie the image NO then becomes the image PO).
  • FIG. 10 shows a further embodiment of the invention with a prediction structure for multistage dyadic temporal scalability, the length of the image group now comprising 16 images. According to the invention, the following transmission sequence results for FIG. 10:
  • the sequence of contents of the playout buffer is as follows:
  • FIGS. 11 and 12 show prediction structures using the multiple reference frames described above in which a plurality of reference images can be used for the prediction of an image.
  • 11 shows a prediction structure for a multi-level dyadic temporal scalability, in which two images are used for the images N1, N3 and N5 and one image is used for prediction for the other inter-images.
  • FIG. 12 shows a prediction for multi-level dyadic temporal scalability, in which the image N1 is composed of three images, the image P2 of two images, the image N3 of two images, the image N5 of two images, the image N7 of two Pictures and the other interpictures from a picture is predicted.
  • the sequence of contents of the playout buffer is as follows:
  • Fig. 13 shows a schematic representation of a transmission system according to the invention.
  • the system includes a transmitter 1 for broadcasting a video stream of encoded images.
  • This transmitter comprises a means 2 for forming groups of pictures, wherein a respective group of pictures comprises a plurality of temporally successive pictures in an original time sequence.
  • the transmitter 1 comprises means 3 for coding each group of pictures by forming a prediction structure according to which one or more pictures of the group of pictures are determined as intraframes which are intra-coded and the other pictures of the group of pictures are determined as inter-pictures, which are each predicted from at least one reference image of the image group and are inter-coded with respect to the at least one reference image, wherein the prediction structure is configured such that: i) each intraframe is a reference image, from which at least one temporally earlier image of the image group compared to the intraframe and at least one later image of the image group compared to the intraframe are predicted; ii) the inter-images comprise a plurality of non-referenced images from which no images of the sequence are predicted.
  • the transmitter further comprises a means 4 for transmitting the coded pictures, which is designed such that from the coded pictures of each picture group a transmission sequence with a temporal order of transmission is formed and the coded pictures are transmitted in the order of transmission, whereby at least some of the coded non-coded pictures are transmitted.
  • referenced images are the first images of the transmission order.
  • the images are transmitted by the transmitter 1 via a transmission link 5, preferably via one or more broadcast channels. These broadcast channels can be received by a receiver 6, and the data stream encoded therein can be read out by this receiver 6.
  • the receiver 6 comprises for this purpose a means 7 for receiving the transmission sequences of the coded pictures of the picture groups of the video stream and means 8 for decoding the pictures of each transmission sequence in dependence on the prediction structure and means 9 for reading the decoded pictures of each transmission sequence in the original one temporal order of the picture group.

Landscapes

  • Engineering & Computer Science (AREA)
  • Multimedia (AREA)
  • Signal Processing (AREA)
  • Compression Or Coding Systems Of Tv Signals (AREA)

Abstract

Die Erfindung betrifft ein Verfahren zur Videocodierung einer Folge digitalisierter Bilder, bei dem: Bildergruppen (GOP) gebildet werden, wobei eine jeweilige Bildergruppe (GOP) eine Mehrzahl von zeitlich aufeinander folgenden Bildern (N0, P1, N2, I3, N4, P5, N6) in einer ursprünglichen zeitlichen Reihenfolge umfasst; jede Bildergruppe (GOP) codiert wird, indem eine Prädiktionsstruktur gebildet wird, gemäß der ein oder mehrere Bilder der Bildergruppe (GOP) als Intrabilder (I3) bestimmt werden, welche jeweils intracodiert werden, und die anderen Bilder der Bildergruppe (GOP) als Interbilder (N0, P1, N2, N4, P5, N6) bestimmt werden, welche jeweils aus zu- mindest einem Referenzbild der Bildergruppe (GOP) prädiziert werden und in Bezug auf das zumindest eine Referenzbild in- tercodiert werden. Dabei ist die Prädiktionsstruktur derart ausgestaltet, dass jedes Intrabild (I3) ein Referenzbild ist, aus dem wenigstens ein gegenüber dem Intrabild (I3) zeitlich früheres Bild (P1) der Bildergruppe (GOP) und wenigstens ein gegenüber dem Intrabild (I3) zeitlich späteres Bild (P5) der Bildergruppe (GOP) prädiziert werden, und die Interbilder (N0, P1, N2, N4, P5, N6) mehrere nicht-referenzierte Bilder (N0, N6) umfassen, aus denen keine Bilder der Folge prädi- ziert werden. Aus den codierten Bildern (N0, P1, N2, I3, N4, P5, N6) der Bildergruppe (GOP) wird eine Übertragungssequenz mit einer zeitlichen Übertragungsreihenfolge gebildet, wobei zumindest einige der codierten nicht-referenzierten Bilder (N0, N1) die ersten Bilder der Übertragungsreihenfolge sind.

Description

Beschreibung
Verfahren zur Videocodierung einer Folge digitalisierter Bilder
Die Erfindung betrifft ein Verfahren zur Videocodierung einer Folge digitalisierter Bilder sowie ein Verfahren zum Aussenden der Bilder und ein Verfahren zum Decodieren der codierten Bilder. Darüber hinaus betrifft die Erfindung ferner einen entsprechenden Sender zum Aussenden der codierten Bilder und einen entsprechenden Empfänger zum Empfangen und Decodieren der ausgesendeten codierten Bilder.
Es gibt eine Vielzahl von Verfahren zur Videocodierung von digitalisierten Bildern. Diese Verfahren sind teilweise in entsprechenden Standards, wie z.B. dem Standard H.264/MPEG- 4 AVC festgeschrieben. Bei bekannten Videocodierverfahren werden die digitalisierten Bilder in Bildergruppen angeordnet (sog. GOP = Group of Pictures) , innerhalb derer die einzelnen Bilder codiert werden. Um eine effiziente Codierung zu erreichen, wird nur eine Auswahl von Bildern unabhängig von den anderen Bildern der Folge komplett intracodiert . Die restlichen Bilder werden einer Prädiktion unterzogen, bei der für ein jeweiliges Bild Bewegungsvektoren bestimmt werden, welche die Verschiebung von Bildblöcken in Bezug auf ein Referenzbild beschreiben. Auf diese Weise wird ein prädiziertes Bild ermittelt, wobei der Prädiktionsfehler zwischen ursprünglichem Bild und dem prädizierten Bild codiert wird und zusammen mit den Bewegungsvektoren übertragen wird. Die mit Hilfe ei- ner Prädiktion codierten Bilder einer Bildergruppe werden als Interbilder bezeichnet, da sie in Bezug auf ein oder mehrere Referenzbilder codiert werden.
Zur Übertragung von codierten Videoinhalten können beispiels- weise Broadcastkanäle verwendet werden, wodurch beliebige Benutzer die entsprechenden codierten Inhalte empfangen können. Aus dem Stand der Technik ist hierbei der Multimedia Broad- cast Multicast Service (MBMS) bekannt, mit dem zukünftig codierte Videoinhalte über Mobilfunk übertragen werden sollen. Bei der Übertragung über Broadcastkanäle besteht das Problem, dass eine systematische Verzögerung beim Aufschalten auf ei- nen Broadcastkanal mit einem entsprechenden Endgerät eines Benutzers auftritt. Diese Verzögerung entsteht unter anderem dadurch, dass innerhalb des codierten Videostroms ein Punkt für den wahlfreien Zugriff (sog. Random Access Point) gefunden werden muss, ab dem der Videodecoder, der den Videodaten- ström empfängt, den Videodatenstrom verarbeiten kann. Diese Art der Verzögerung wird als sog. Video Tune-in Delay bezeichnet. Die Punkte für einen wahlfreien Zugriff sind dabei die oben beschriebenen Intrabilder, welche ohne Berücksichtigung von anderen Bildern codiert werden. Da nur ein Teil der Bilder Intrabilder sind, kommt es somit beim Aufschalten auf einen Broadcastkanal zu einer Verzögerung, bis ein entsprechendes Intrabild empfangen wird.
Bei der Übertragung von codierten Videoinhalten werden häufig Fehlerkorrekturverfahren eingesetzt, insbesondere die hinlänglich aus dem Stand der Technik bekannte Forward Error Correction (im Folgenden FEC) . Bei solchen Fehlerschutzverfahren werden neben Datenpaketen, welche Videobilder enthalten, auch Redundanzpakete übertragen, mit denen eine Fehler- korrektur von Videobildern bei fehlerhafter Übertragung durchgeführt werden kann. Beim Einsatz von Fehlerkorrekturverfahren muss zur Durchführung der Fehlerkorrektur eine bestimmte Zeit gewartet werden, bis ausreichend Videodaten und Redundanzdaten empfangen werden. Hierdurch kommt es zu einer weiteren Verzögerung, welche auch als Initial Delay bezeichnet wird.
Im Folgenden werden in Bezug auf Fig. 1 bis Fig. 4 verschiedene Ansätze aus dem Stand der Technik beschrieben, mit denen die oben beschriebene Verzögerung eines codierten Videostroms beim Aufschalten auf einen Broadcastkanal vermindert werden kann . Fig. 1 zeigt eine aus dem Stand der Technik bekannte konventionelle Prädiktionsstruktur zur Codierung einer Bildergruppe GOP. Hier und im Folgenden werden dabei Intrabilder mit dem Bezugszeichen Ix (x = ganze Zahl) und Interbilder mit den Bezugszeichen Px bzw. Nx bezeichnet. Die Bilder mit dem Bezugszeichen Px sind hierbei Interbilder, aus denen weitere Bilder der Bildergruppe GOP prädiziert werden, wohingegen die Bilder mit dem Bezugszeichen Nx nicht-referenzierte Bilder sind, aus denen keine weiteren Bilder der Bildergruppe GOP prädiziert werden. Ferner sind die in allen Abbildungen dargestellten Bilderfolgen in der ursprünglichen Reihenfolge des Videostroms wiedergegeben, d.h. in der natürlichen zeitlichen Reihenfolge, wie die Bilder der Bilderfolge aufeinander folgen. D.h., die Zeitachse verläuft in allen nachfolgenden Abbildungen in horizontaler Richtung von links nach rechts, wobei höhere Nummerierungen entsprechende Bilder späterer Zeitpunkte darstellen. Die Pfeile in allen nachfolgenden Abbildungen verdeutlichen, welche Bilder zur Prädiktion eines Bildes he- rangezogen werden. D.h., die Pfeile zeigen von einem Referenzbild, aus dem die Prädiktion vorgenommen wird, zu dem prädizierten Bild, welches aus dem Referenzbild prädiziert wird.
In der herkömmlichen Prädiktionsstruktur gemäß Fig. 1, bei der die Bildergruppe GOP beispielhaft aus acht Bildern besteht, wird das erste Bild IO der Bilderfolge intracodiert und alle nachfolgenden Bilder Pl bis N7 werden intercodiert, wobei zur Prädiktion immer das zeitlich vorhergehende Bild verwendet wird. Üblicherweise wird die Bildergruppe GOP in der in Fig. 1 dargestellten Reihenfolge übertragen, wobei am Ende der Übertragung nochmals Redundanzinformationen FEC zum Fehlerschutz hinzugefügt wird. Die konventionelle Übertragungsreihenfolge lautet somit wie folgt:
IO Pl P2 P3 P4 P5 P6 N7 FEC. Hierbei sind unter "FEC" Fehlerschutzdaten zu verstehen, die zur Rekonstruktion fehlerhafter Daten des GOPs herangezogen werden können.
Es ist ferner bekannt, dass die Bilder auch in einer modifizierten Übertragungsreihenfolge übertragen werden, welche die umgekehrte Reihenfolge der konventionellen Übertragungsreihenfolge ist und somit wie folgt lautet:
N7 P6 P5 P4 P3 P2 Pl IO FEC.
Mit dieser modifizierten Übertragungsreihenfolge wird erreicht, dass bei einem Aufschalten in eine Bildergruppe GOP zumindest die am Schluss empfangenen Bilder decodiert werden können, weil diese Bilder nur wenig bzw. überhaupt keine Information aus anderen Bildern benötigen. Analog zur herkömmlichen Übertragungsreihenfolge werden die Redundanzdaten FEC auch am Schluss auch in der modifizierten Übertragungsreihenfolge gesendet.
In der Druckschrift [1] wird weiterhin eine gegenüber der Fig. 1 modifizierte Prädiktionsstruktur vorgeschlagen, welche in Fig. 2 wiedergegeben ist. Gemäß dieser Prädiktionsstruktur enthält die Bilderfolge mehrere nicht-referenzierte Bilder Nl, N3, N5, N7 und N8, aus denen keine weiteren Bilder der
Folge prädiziert werden. Da ferner die Bilder P2, P4, P6 und N8 nicht mehr aus dem direkt vorhergehenden Bild prädiziert werden, werden die Bilder IO und P4 mehrfach zur Prädiktion von zeitlich späteren Bildern eingesetzt.
Aus der obigen Druckschrift [1] ist ferner eine weitere Prädiktionsstruktur in der Form von sog. Multiple Reference Frames bekannt, wobei diese Prädiktionsstruktur in Fig. 3 gezeigt ist. Gemäß dieser Struktur wird ein Interbild aus meh- reren anderen Bildern prädiziert, was sich daraus ergibt, dass mehrere Pfeile in einem Interbild enden. Beispielsweise wird das Interbild N5 aus dem zeitlich vorhergehenden Bild P4 sowie den zeitlich nachfolgenden Bildern P6 und N8 prädi- ziert. Die Prädiktion mit Hilfe von Multiple Reference Frames ist dabei nicht zu verwechseln mit der aus dem Stand der Technik bekannten bidirektionalen Prädiktion, bei der die einzelnen Blöcke eines Bildes mittels gewichteter Summe aus den Blöcken zweier unterschiedlicher Bilder prädiziert wird. Bei der Prädiktion mit Multiple Reference Frames wird nämlich jeder Bildblock des betrachteten Interbildes immer nur aus einem einzigen Bild prädiziert, wobei für jeden Bildblock je- doch ein anderes Bild verwendet werden kann, aus dem der entsprechende Bildblock prädiziert wird.
Auch in der Prädiktionsstruktur gemäß Fig. 3 sind nicht- referenzierte Bilder Nl, N3, N5, N7 und N8 enthalten. Her- kömmlicherweise werden die Bilder der Bildergruppen gemäß Fig. 2 und Fig. 3 in der Reihenfolge übertragen, wie der Strom aufgrund seiner Prädiktionsstruktur codiert wird. Die konventionelle Übertragungsreihenfolge lautet hierbei wie folgt:
10 P2 Nl P4 N3 P6 N5 N8 N7 FECl FEC2.
Die Redundanzinformation ist hierbei in die beiden Redundanzblöcke FECl und FEC2 eingeteilt. Hierbei schützt der erste Redundanzblock FECl die Bilder 10, P2, P4, P6 und N8, wohingegen der zweite Redundanzblock FEC2 die Bilder Nl, N3, N5 und N7 schützt.
Mit den Prädiktionsstrukturen der Fig. 2 und Fig. 3 wird eine zeitlich skalierbare Videocodierung mit mehreren Auflösungsstufen geschaffen. In der ersten Auflösungsstufe wird hierbei nur das Intrabild 10 übertragen. In der zweiten Auflösungsstufe werden neben dem Intrabild 10 die Prädiktionsbilder P2, P4, P6 und N8 übertragen und in der dritten Auflösungsstufe neben den Bildern 10, P2, P4, P6 und N8 die nicht-refere- nzierten Bilder Nl, N3, N5 und N7. Um beim Aufschalten in eine momentan übertragene GOP eine möglichst geringe Verzöge- rung zu erreichen, können die Bilder in einer modifizierten Übertragungsreihenfolge angeordnet werden, welche wie folgt ist :
FEC2 Nl N3 N5 N7 FECl N8 P6 P4 P2 10.
Die Bilder werden hierbei in absteigender Reihenfolge der Auflösungsstufen in Untersequenzen derart angeordnet, dass zunächst die in der höchsten Auflösungsstufe hinzugekommenen Bilder Nl, N3, N5 und N7 übertragen werden und anschließend die Bilder, die in der nächstniedrigeren Auflösungsstufe hinzugekommen sind, nämlich die Bilder N8, P6, P4 und P2. Am Ende der Übertragungsreihenfolge wird schließlich das Intrabild 10 übertragen. Darüber hinaus werden die Redundanzblöcke der entsprechenden Auflösungsstufe immer am Anfang der Untersequenz der in der jeweiligen Auflösungsstufe hinzugekommenen Bilder angeordnet.
Mit der obigen modifizierten Übertragungsreihenfolge wird insbesondere erreicht, dass beim Aufschalten in eine GOP am
Anfang der GOP, beispielsweise innerhalb der Untersequenz der Bilder Nl, N3, N5 und N7 weiterhin eine Anzeige der Bilder mit verringerter Auflösung möglich ist, da die Bilder der niedrigen Auflösung später übertragen werden und keine Infor- mationen von den vorangegangenen Bildern benötigen. Die obigen Prädiktionsstrukturen gemäß Fig. 2 und Fig. 3 haben jedoch den Nachteil, dass beim Aufschalten in eine GOP ein ungleichmäßiges Aufspielen der Bilder auftreten kann. Werden z.B. nur die Bilder P2 und IO empfangen, da diese am Schluss des GOP übertragen werden, werden zunächst diese Bilder mit der halben zeitlichen Auflösung ausgespielt. Da die Bilder in der natürlichen Reihenfolge des Videostroms jedoch am Anfang der GOP stehen, entsteht hierdurch eine sehr große Lücke bis zur Anzeige der Bilder der nächsten GOP.
Aus dem Stand der Technik ist ferner die in Fig. 4 gezeigte Prädiktionsstruktur bekannt, welche in der Druckschrift [2] wiedergegeben ist. Dort ist eine GOP mit fünfzehn Bildern gezeigt, wobei das Intrabild 17 nunmehr nicht am Anfang der GOP, sondern in der Mitte angeordnet ist. Auch diese Prädiktionsstruktur ermöglicht eine zeitliche Skalierbarkeit. In der niedrigsten Auflösungsstufe wird hierbei nur das Intrabild 17 übertragen, in der zweiten Auflösungsstufe neben dem Bild 17 die weiteren Prädiktionsbilder Pl, P5, P9 und P13, in der dritten Auflösungsstufe zusätzlich die Bilder P3 und PIl und in der höchsten Auflösungsstufe zusätzlich die nicht- referenzierten Bilder NO, N2, N4, N6, N8, NlO, N12 und N14. Die Prädiktionsstruktur gemäß Fig. 4 weist den Nachteil auf, dass die zeitliche Skalierung nicht regelmäßig ist, da Anzahl der Bilder in jeder Auflösungsstufe (ausgenommen der niedrigsten) nicht durch einen gemeinsamen Faktor teilbar ist. Wird beispielsweise die Bildergruppe mit der zweithöchsten
Auflösungsstufe übertragen (d.h. die Bilder NO bis N14 werden weggelassen) , entsteht eine Lücke aus zwei Bildern zwischen zwei GOPs, wohingegen innerhalb jeder GOP immer nur eine Lücke aus einem Bild entsteht. Dies liegt daran, dass in der zweithöchsten Auflösungsstufe jeweils die Bilder an beiden Enden einer GOP weggelassen werden.
Aufgabe der Erfindung ist es, ein Verfahren und eine entsprechende Vorrichtung zur Videocodierung und Videodecodierung zu schaffen, welche ein gleichmäßiges Ausspielen der Videobilder mit möglichst geringer Verzögerung gewährleisten, wenn sich ein Empfangsgerät auf einen die Videobilder übertragenden Kanal aufschaltet.
Diese Aufgabe wird durch die unabhängigen Patentansprüche gelöst. Weiterbildungen der Erfindung sind in den abhängigen Ansprüchen definiert.
In dem erfindungsgemäßen Verfahren werden Bildergruppen ge- bildet, wobei eine jeweilige Bildergruppe eine Mehrzahl von zeitlich aufeinander folgenden Bildern in einer ursprünglichen zeitlichen Reihenfolge umfasst. Die ursprüngliche zeit- liehe Reihenfolge entspricht hierbei dem tatsächlichen zeitlichen Verlauf der im Videostrom wiedergegebenen Szenarien.
In dem Verfahren wird jede Bildergruppe codiert, indem eine Prädiktionsstruktur gebildet wird, gemäß der ein oder mehrere Bilder der Bildergruppe als Intrabilder bestimmt werden, welche jeweils intracodiert werden, und die anderen Bilder der Bildergruppe als Interbilder bestimmt werden, welche jeweils aus zumindest einem Referenzbild der Bildergruppe prädiziert werden und in Bezug auf das zumindest eine Referenzbild in- tercodiert werden. Die Prädiktionsstruktur ist hierbei derart ausgestaltet, dass: i) jedes Intrabild ein Referenzbild ist, aus dem wenigstens ein gegenüber dem Intrabild zeitlich früheres Bild der Bildergruppe und wenigstens ein gegenüber dem Intrabild zeitlich späteres Bild der Bildergruppe prädiziert werden; ii) die Interbilder mehrere nicht-referenzierte Bilder umfassen, aus denen keine Bilder der Folge prädiziert werden.
Aus den codierten Bildern der Bildergruppe wird anschließend eine Übertragungssequenz mit einer zeitlichen Übertragungsreihenfolge gebildet, wobei zumindest einige der codierten nicht-referenzierten Bilder die ersten Bilder der Übertra- gungsreihenfolge sind. Unter Übertragungsreihenfolge ist hierbei die Reihenfolge zu verstehen, in der die Bilder nach der Codierung anschließend zu übertragen sind.
Dadurch, dass in dem erfindungsgemäßen Verfahren nicht-refe- renzierte Bilder am Anfang der Bilderfolge stehen, wird es ermöglicht, dass beim Aufschalten in eine Bildergruppe oftmals die Wiedergabe dieser Bildergruppe in verminderter Auflösung möglich ist, da diejenigen Bilder, welche nicht zur Decodierung anderer Bilder benötigt werden, am Anfang der Bildergruppe übertragen werden. Darüber hinaus wird ein gleichmäßiges Ausspielen der Bilder dadurch ermöglicht, dass das Intrabild nicht am Rand der Bilderfolge angeordnet ist und aus dem Intrabild zumindest ein zeitlich früheres und ein zeitlich späteres Bild prädiziert wird.
In einer bevorzugten Ausführungsform der Erfindung werden das oder die codierten Intrabilder als die letzten Bilder der Ü- bertragungsreihenfolge angeordnet. Hierdurch wird selbst beim Aufschalten in eine Bildergruppe zu einem späten Zeitpunkt weiterhin eine Wiedergabe zumindest des intracodierten Bildes der Bildergruppe ermöglicht.
In einer weiteren bevorzugten Ausgestaltung des erfindungsgemäßen Verfahrens werden alle codierten nicht-referenzierten Bilder als erste Bilder am Anfang der Übertragungsreihenfolge angeordnet. Ferner wird in einer bevorzugten Variante eine im Wesentlichen mittige Anordnung des Intrabilds gewährleistet. Dies wird dadurch erreicht, dass bei ungeradzahliger Anzahl von Bildern in der Bildergruppe das mittlere Bild der Bildergruppe das Intrabild ist und bei einer geradzahligen Anzahl von Bildern in der Bildergruppe das Intrabild an derjenigen Stelle in der Bildergruppe steht, welche dem Ergebnis der Division der Anzahl von Bildern der Bildergruppe durch zwei o- der diesem Ergebnis plus eins entspricht.
In einer weiteren, besonders bevorzugten Ausführungsform der Erfindung umfassen die Bildergruppen als Interbilder nicht nur nicht-referenzierte Bilder, sondern auch solche Bilder, aus denen ein oder mehrere Bilder der Bildergruppe prädiziert werden. In der Übertragungsreihenfolge werden diese codierten Referenzbilder vorzugsweise zwischen den zumindest einigen der codierten nicht-referenzierten Bilder und dem oder den codierten Intrabildern angeordnet. Auf diese Weise wird eine Abstufung der Bilder dahingehend vorgenommen, wie wichtig die entsprechenden Bilder bei der Decodierung sind. Je wichtiger ein Bild bei der Durchführung der Decodierung ist, desto spä- ter wird es in der Übertragungsreihenfolge angeordnet. In einer weiteren bevorzugten Ausführungsform der Erfindung werden für die Bildergruppen jeweils Redundanzdaten zum Fehlerschutz bei der Übertragung der jeweiligen Bildergruppe erzeugt, wobei die Redundanzdaten bei der Bildung der Übertra- gungssequenz in die Übertragungsreihenfolge eingefügt werden. Es ist hierbei vorteilhaft, zumindest einen Teil der Redundanzdaten in der Übertragungsreihenfolge vor den ersten Bildern anzuordnen, da dann beim Aufschalten in eine Bildergruppe die eigentliche Bildinformation zu einem späteren Zeit- punkt folgt, als wenn die Redundanzinformation am Ende der Bildergruppe steht.
In einer weiteren Ausführungsform der Erfindung ist eine jeweilige Bildergruppe in mehreren zeitlichen Auflösungsstufen skalierbar, wobei die niedrigste Auflösungsstufe nur das oder die codierten Intrabilder umfasst und jede höhere Auflösungsstufe durch eine Anzahl von codierten Bildern charakterisiert ist, welche in der höheren Auflösungsstufe im Vergleich zur nächst niedrigeren Auflösungsstufe hinzukommen. Auf diese Weise wird eine vorteilhafte Kombination der Erfindung mit skalierbarer Videocodierung erreicht. Vorzugsweise werden hierbei die codierten Bilder in der Übertragungssequenz in Untersequenzen angeordnet, denen jeweils eine Auflösungsstufe zugeordnet ist, wobei eine jeweilige Untersequenz die codier- ten Bilder umfasst, welche in der der jeweiligen Untersequenz zugeordneten Auflösungsstufe im Vergleich zur nächst niedrigeren Auflösungsstufen hinzukommen, wobei die Untersequenzen in der Übertragungsreihenfolge in absteigender Reihenfolge der Auflösungsstufen angeordnet werden. Hierdurch wird si- chergestellt, dass beim Aufschalten in eine Bildergruppe eine möglichst hohe zeitliche Auflösung der Bilder erhalten bleibt.
In einer weiteren Ausgestaltung der Erfindung werden für zu- mindest einen Teil der Untersequenzen jeweils separate Redundanzdaten gebildet, welche jeweils vor der entsprechenden Untersequenz in der Übertragungsreihenfolge angeordnet werden. Hierdurch kann eine flexible Festlegung des Fehlerschutzes je nach Auflösungsstufe dadurch erreicht werden, dass die separaten Redundanzdaten zumindest teilweise unterschiedliche Grade an Fehlerschutz aufweisen, wobei der Grad an Fehler- schütz für die Redundanzdaten einer Untersequenz vorzugsweise umso geringer ist, je höher die Auflösungsstufe der Untersequenz ist.
In einer weiteren, besonders bevorzugten Ausführungsform der Erfindung wird eine regelmäßige zeitliche Skalierbarkeit dadurch sichergestellt, dass die Auflösungsstufen durch einen Faktor derart charakterisiert sind, dass alle Auflösungsstufen außer der niedrigsten eine Anzahl von Bildern umfasst, welche durch den Faktor ohne Rest teilbar ist.
In einer weiteren Ausgestaltung des erfindungsgemäßen Verfahrens ist die Prädiktionsstruktur derart festgelegt, dass wenigstens einem nicht-referenzierten Bild eine vorbestimmte Anzahl von Bildern zugeordnet wird, wobei das nicht-refe- renzierte Bild aus demjenigen Bild der vorbestimmten Anzahl an Bildern prädiziert wird, welches durch die geringste Anzahl an Prädiktionen gebildet wurde. Es wird somit zur Prädiktion eines Bildes immer ein Bild verwendet, welches aus möglichst wenigen vorhergehenden Prädiktionsschritten ent- standen ist. Hierdurch wird die Fehlerrobustheit erhöht, da bei einer fehlerhaften Übertragung die Fehlerfortpflanzung geringer ist. Vorzugsweise sind hierbei die vorbestimmte Anzahl von Bildern die zwei in der Bilderfolge zeitlich am nächsten zu dem nicht-referenzierten Bild liegenden Referenz- bilder, d.h. die zwei zeitlich am nächsten liegenden Bilder, welche keine nicht-referenzierten Bilder sind.
In einer weiteren Ausführungsform der Erfindung wird zumindest ein Teil der Interbilder jeweils aus mehreren anderen Bildern prädiziert, wobei ein jeweiliges Interbild des zumindest einen Teils der Interbilder in eine Vielzahl von Blöcken unterteilt ist und für jeden Block ein einzelnes Bild aus den mehreren anderen Bildern festgelegt ist, aus dem der Block prädiziert wird. Hierdurch wird das erfindungsgemäße Verfahren mit der eingangs erwähnten Prädiktion mit Multiple Refe- rence Frames kombiniert.
Neben dem oben beschriebenen Verfahren zur Videocodierung betrifft die Erfindung ferner ein Verfahren zum Aussenden einer Folge digitalisierter Bilder, wobei die Folge digitalisierter Bilder gemäß dem Verfahren der Erfindung codiert wird und die Bilder anschließend in der zeitlichen Übertragungsreihenfolge der Übertragungssequenz ausgesendet werden. Das Aussenden erfolgt hierbei vorzugsweise über einen Broadcast-Dienst auf einen oder mehreren Broadcastkanälen .
Neben dem oben beschriebenen Verfahren zur Videocodierung um- fasst die Erfindung ferner ein entsprechendes Verfahren zum Decodieren einer Folge digitalisierter Bilder, welche mit dem erfindungsgemäßen Verfahren decodiert und ausgesendet wurden. In dem Decodierverfahren werden die Übertragungssequenzen der codierten Bilder der Bildergruppe der Folge empfangen. Anschließend werden in Abhängigkeit von der verwendeten Prädiktionsstruktur die codierten Bilder jeder Übertragungssequenz decodiert. Schließlich werden die decodierten Bilder jeder Übertragungssequenz in der ursprünglichen zeitlichen Reihen- folge der Bildergruppe ausgelesen, wodurch der ursprüngliche Videostrom wiederhergestellt wird.
Neben den oben beschriebenen Verfahren umfasst die Erfindung ferner einen entsprechenden Sender zum Aussenden einer Folge digitalisierter Bilder, wobei der Sender Mittel aufweist, um das erfindungsgemäße Codierverfahren sowie das anschließende Aussenden der codierten Bilder gemäß jeder beliebigen Variante der Erfindung zu ermöglichen.
Die Erfindung betrifft darüber hinaus einen Empfänger zum
Empfangen und Decodieren einer mit dem erfindungsgemäßen Verfahren ausgesendeten Folge digitalisierter Bilder, wobei der Empfänger derart ausgestaltet ist, dass er Mittel aufweist, mit denen das oben beschriebene Decodierverfahren durchführbar ist.
Ausführungsbeispiele der Erfindung werden nachfolgend anhand der beigefügten Figuren detailliert beschrieben.
Es zeigen:
Fig. 1 bis Fig. 4 Bildergruppen, welche gemäß Verfahren nach dem Stand der Technik codiert werden;
Fig. 5 bis Fig. 12 Bildergruppen, welche gemäß Ausfüh- rungsformen des erfindungsgemäßen Verfahrens codiert werden; und
Fig. 13 ein Übertragungssystem für einen Videostrom mit einem erfindungsgemäßen Sen- der und einem erfindungsgemäßen Empfänger .
Fig. 1 bis Fig. 4 zeigen verschiedene Bildergruppen GOP, welche mit Verfahren nach dem Stand der Technik codiert werden. Fig. 1 bis Fig. 4 wurden bereits im Vorangegangenen erläutert, so dass auf diese Figuren nicht mehr eingegangen wird.
Fig. 5 zeigt eine Bildergruppe in einer Bilderfolge, welche gemäß einer Ausführungsform des erfindungsgemäßen Verfahrens codiert wird. Die gezeigte Prädiktionsstruktur ist an sich aus dem Dokument [2] bekannt, wobei die Bildergruppe GOP sieben Bilder aufweist und eine baumartige Prädiktion dadurch gebildet wird, dass das Bild in der Mitte der Bildergruppe das Intrabild 13 ist, aus dem das zeitlich vorhergehende Bild Pl und das zeitlich nachfolgende Bild P5 prädiziert werden.
Aus dem Bild Pl werden wiederum die nicht-referenzierten Bilder NO und N2 und aus dem Bild P5 die nicht-referenzierten Bilder N4 und N6 prädiziert. Aus der Prädiktionsstruktur gemäß Fig. 5 wird erfindungsgemäß eine Übertragungsreihenfolge gebildet, welche zwei separate Redundanzblöcke FECl und FEC2 aufweist und bei der die nicht-referenzierten Bilder am An- fang der Übertragungsreihenfolge stehen. Die Übertragungsreihenfolge lautet wie folgt:
FEC2 NO N2 N4 N6 FECl Pl P5 13.
Der Redundanzblock FEC2 schützt hierbei die nicht-referenzierten Bilder und der Redundanzblock FECl das Intrabild sowie die Bilder Pl und P5, welche zur Prädiktion von den nicht-referenzierten Bildern verwendet werden.
Da die Bilder nicht in der ursprünglichen Reihenfolge der
Bilderfolge im Empfänger decodiert werden, müssen die Bilder zur späteren Anzeige in einem empfangsseitigen sog. Playout- Puffer gespeichert werden. Dabei muss nach der Decodierung des Intrabildes 13 dieses Bild zunächst gespeichert werden. Nach der darauf folgenden Decodierung des Interbildes Pl verbleiben 13 und Pl im Speicher. Während der anschließenden Decodierung des nicht-referenzierten Bildes NO wird dieses Bild ebenfalls in dem Playout-Puffer gespeichert und nach Ab- schluss der Decodierung zur Anzeige ausgelesen und aus dem Puffer gelöscht. Nachfolgend ist eine Inhaltsfolge gezeigt, welche die Inhalte des Playout-Puffers nach jeder Decodierung eines Bildes wiedergibt. Die Inhalte des Puffers zu den jeweiligen Zeitpunkten sind in Klammern zusammengefasst, wobei das am rechten Ende in einer Klammer stehende Bild dasjenige Bild ist, welches zum jeweiligen Zeitpunkt decodiert wurde.
Ferner ist mit einem Unterstrich angezeigt, welches Bild nach der Decodierung zum jeweiligen Zeitpunkt aus dem Puffer ausgelesen und gelöscht wird. Das nachfolgende Inhaltsfolge- Schema wird auch in Bezug auf die Beschreibung der weiteren Ausführungsformen der Erfindung verwendet. Die Inhaltsfolge des Playout-Puffers für die Bilderfolge gemäß Fig. 5 lautet wie folgt: ( 13 ) ( 13 Pl ) ( 13 Pl NO ) ( 13 Pl^ N2 ) ( 13 N2I P5 ) (JT3 P5 N4 ) ( P5 N£ N6 ) ( P5_ N6 ) (N6 ) .
Es ist somit für die Ausführungsform der Fig. 5 ein Playout- Puffer von drei decodierten Bildern bereitzustellen.
In der obigen Ausführungsform schützt der erste Redundanzblock FECl die Bilder 13, Pl und P5 und der zweite Redundanz- block FEC2 die Bilder NO, N2, N4 und N6. Da letztere Bilder nicht von anderen Bildern zur Prädiktion verwendet werden, ist der Schutz für diese Bilder vorzugsweise schwächer. Ggf. kann der Fehlerschutz FEC2 komplett entfallen, wobei in diesem Fall nur die Referenzbilder 13, Pl und P5 geschützt wer- den. Hierdurch wird ein ungleicher Fehlerschutz UEP (UEP = Unequal Error Protection) erreicht. Demgegenüber werden bei einem gleichmäßigen Fehlerschutz EEP (EEP = Equal Error Protection) beide Fehlerschutzblöcke FECl und FEC2 zu einem Fehlerschutzblock FEC zusammengefasst . Geht man davon aus, dass ein Bild bei der Übertragung verloren geht (wobei eine
Gleichverteilung beim Verlust der Bilder angenommen wird) , ergibt sich für die Prädiktionsstruktur gemäß Fig. 5 ein Erwartungswert E von gestörten Bildern, der wie folgt lautet:
E = l/7-(4-l + 2-3 + 1-7) = 2,43.
Fig. 6 zeigt eine zweite Variante mit einer Prädiktionsstruktur, welche eine Abwandlung der Prädiktionsstruktur gemäß Fig. 5 ist. In der Prädiktionsstruktur gemäß Fig. 6 werden sog. verkürzte Prädiktionspfade verwendet. Dies bedeutet, dass bei der Prädiktion eines nicht-referenzierten Bildes immer versucht wird, als Referenzbild ein Bild zu verwenden, welches selbst aus einer geringen Anzahl von Prädiktionen entstanden ist. In dem Beispiel der Fig. 6 werden die nicht- referenzierten Bilder N2 und N4 jeweils aus demjenigen der beiden Nachbarbilder prädiziert, welches aus weniger Prädiktionen entstanden ist. D.h., in Fig. 6 wird das Bild N2 im Unterschied zu Fig. 5 nicht aus dem Bild Pl, sondern aus dem Bild 13 prädiziert, und das Bild N4 wird nicht aus dem Bild P5, sondern aus dem Bild 13 prädiziert. Dadurch wird die Feh- lerrobustheit erhöht, da bei einem Verlust von einem oder mehreren Bildern die Wahrscheinlichkeit dafür steigt, dass die übrigen Bilder decodiert werden können. Im Vergleich zur Ausführungsform gemäß Fig. 5 ergibt sich der Erwartungswert E von gestörten Bildern wie folgt:
E = l/7-(4-l + 2-2 + 1-7) = 2,14.
Die Fehleranfälligkeit wird somit in der Ausführungsform gemäß Fig. 6 gegenüber der Ausführungsform gemäß Fig. 5 reduziert .
Die Übertragungsreihenfolge in der Ausführungsform gemäß Fig. 6 wird hierbei wie folgt gewählt:
FEC2 NO N2 N4 N6 FECl Pl P5 P6 13.
Die Inhaltsfolge des Playout-Puffers im Empfänger ergibt sich dabei wie folgt:
(13) (13 Pl) (13 Pl NO) (13 Pl. N2) (13 N2: N4) (JE3_ N4 P5) (Nj4 P5 N6) (P5_ N6) (N6) .
Fig. 7 zeigt eine Prädiktionsstruktur nach dem gleichen Prinzip wie Fig. 6 mit verkürzten Prädiktionspfaden, wobei jedoch die Länge der Bildergruppe nunmehr auf fünfzehn Bilder erhöht wurde. Es ergibt sich dabei eine größere Anzahl von zeitlichen Skalierbarkeitsstufen und mehr Möglichkeiten, den Fehlerschutz auf die einzelnen Skalierbarkeitsstufen aufzuteilen .
Fig. 8 zeigt eine Prädiktionsstruktur mit einer dreistufigen regelmäßigen Skalierbarkeit. Regelmäßige Skalierbarkeit bedeutet hierbei, dass die zeitliche Auflösung über die aufein- ander folgenden Bildergruppen GOP hinweg konstant bleibt und insbesondere keine vergrößerten Lücken zwischen den Bildergruppen entstehen. In dem Beispiel der Fig. 8 ist hierbei eine dyadische zeitliche Skalierbarkeit wiedergegeben. Dyadisch bedeutet, dass die Anzahl der Bilder in der jeweiligen Ska- lierbarkeits- bzw. Auflösungsstufe (außer der niedrigsten) immer durch 2 teilbar ist. Gemäß Fig. 8 wird hierbei die niedrigste erste Skalierbarkeitsstufe durch das Intrabild 14 dargestellt, die zweite Skalierbarkeitsstufe wird durch das Bild 14 und die weiteren Bilder NO, P2 und P6 gebildet, und die dritte Skalierbarkeitsstufe wird durch die Bilder der niedrigsten und der zweiten Skalierbarkeitsstufe sowie die Bilder Nl, N3, N5 und N7 gebildet. Erfindungsgemäß werden die Bilder der Bildergruppe in Fig. 8 in folgender Übertragungs- reihenfolge mit entsprechenden Redundanzblöcken FECl und FEC2 angeordnet :
FEC2 Nl N3 N5 N7 FECl NO P2 P6 P4.
Die Inhaltsfolge des Playout-Puffers im Empfänger lautet dabei wie folgt:
(14) (14 P2) (14 P2 NO) (14 P2 Nl) (14 P2_ N3) (14 N_3 N5) (14 N5 P6) (N_5 P6 N7) (.P^ N7) (N7_) .
Hierbei schützt der erste Redundanzblock FECl die Bilder 14, P2, NO und P6 und der zweite Redundanzblock FEC2 die Bilder Nl, N3, N5 und N7. Da letztere Bilder nicht von anderen Bildern zur Prädiktion verwendet werden, ist der Schutz für die- se Bilder schwächer. Dies realisiert einen ungleichen Fehlerschutz. Bei einem gleichmäßigen Fehlerschutz können die beiden Fehlerschutzblöcke FECl und FEC2 zu einem Fehlerschutzblock FEC zusammengefasst werden.
Fig. 9 zeigt eine Prädiktionsstruktur mit weiteren zeitlichen Skalierbarkeitsstufen . Insgesamt enthält die Prädiktionsstruktur in Fig. 9 vier Skalierbarkeitsstufen . Im Unterschied zu Fig. 8 wird das nicht-referenzierte Bild NO direkt aus dem Bild 14 und nicht aus dem Bild P2 prädiziert. Hierdurch wird eine weitere Skalierbarkeitsstufe geschaffen. Gemäß Fig. 9 besteht die niedrigste erste Skalierbarkeitsstufe aus dem Bild 14. Die zweite Skalierbarkeitsstufe umfasst die Bilder 14 und NO. In der dritten Skalierbarkeitsstufe kommen die Bilder P2 und P6 hinzu. Die vierte Skalierbarkeitsstufe wird um die Bilder Nl, N3, N5 und N7 ergänzt. Aufgrund der weiteren Skalierbarkeitsstufe kann ein separater weiterer Fehler- schutzblock FEC3 gebildet werden. Die Übertragungsreihenfolge wird erfindungsgemäß hierbei wie folgt gewählt:
FEC3 Nl N3 N5 N7 FEC2 P2 P6 FECl NO 14.
Die Inhaltsfolge des Playout-Puffers ergibt sich dabei wie folgt:
(14) (14 NO) (14 P2) (14 P2 Nl) (14 P2_ N3) (14 N3 N5) (14 N5 P6) (N_5 P6 N7) (P6_ N7) (N7_) .
Auch in dieser Variante kann ein ungleicher Fehlerschutz erreicht werden. Der Redundanzblock FECl schützt dabei die Bilder 10 und 14, FEC2 schützt die Bilder P2 und P6 und FEC3 schützt die Bilder Nl, N3, N5 und N7.
Mit einer kleinen Änderung in der Prädiktionsstruktur gemäß Fig. 9 lassen sich die Anforderungen an den Playout-Puffer reduzieren, und zwar indem das Bild Nl nicht aus dem Bild P2, sondern aus dem Bild NO prädiziert wird (d.h. das Bild NO wird dann zum Bild PO) .
Fig. 10 zeigt eine weitere Ausführungsform der Erfindung mit einer Prädiktionsstruktur für eine mehrstufige dyadische zeitliche Skalierbarkeit, wobei die Länge der Bildgruppe nun- mehr 16 Bilder umfasst. Erfindungsgemäß ergibt sich für Fig. 10 folgende Übertragungsreihenfolge :
FEC3 Nl N3 N5 N7 N9 NIl N13 N15 FEC2 N2 N6 NlO P14 FECl PO P4 P12 18.
Die Inhaltsfolge des Playout-Puffers lautet dabei wie folgt:
(18) (18 P4) (18 P4 PO) (18 P4 Nl) (18 P4 N2_) (18 P4 N_3) (18 P^ N5) (18 N_5 N6) (18 N^ N7) (18 N7_ N9) (JN3 N9 NlO) (N9 NlO P12) (NlO P12 NIl) (P12 NIl N13) (P12 N13 P14) (N13 P14 N15) (Pl£ N15) (NL5) .
Fig. 11 und Fig. 12 zeigen Prädiktionsstrukturen unter der Verwendung der oben beschriebenen Multiple Reference Frames, bei denen für die Prädiktion eines Bildes mehrere Referenzbilder verwendet werden können. Fig. 11 zeigt hierbei eine Prädiktionsstruktur für eine mehrstufige dyadische zeitliche Skalierbarkeit, bei der für die Bilder Nl, N3 und N5 zwei Bilder und für die anderen Interbilder ein Bild zur Prädiktion herangezogen werden. Demgegenüber zeigt die Fig. 12 eine Prädiktion für eine mehrstufige dyadische zeitliche Skalierbarkeit, bei der das Bild Nl aus drei Bildern, das Bild P2 aus zwei Bildern, das Bild N3 aus zwei Bildern, das Bild N5 aus zwei Bildern, das Bild N7 aus zwei Bildern und die anderen Interbilder aus einem Bild prädiziert wird.
Für Fig. 11 und 12 ergibt sich folgende erfindungsgemäße Ü- bertragungsreihenfolge für die Bilder der Bildergruppe GOP:
FEC3 Nl N3 N5 N7 FEC2 P2 P6 FECl PO 14.
Die Inhaltsfolge des Playout-Puffers lautet dabei wie folgt:
(14) (14 PO) (14 P0_ P2) (14 P2 Nl) (14 P2_ N3) (14 N_3 N5) (14 N5 P6) (N5 P6 N7) (P6 N7) (N7) . Aus den oben beschriebenen Varianten der Erfindung ergeben sich mehrere Vorteile. Es wird ein gleichmäßigeres Ausspielen der Bilder beim Aufschalten auf einen Broadcastkanal ermöglicht. Ferner wird durch die gleichmäßige (z.B. dyadische) zeitliche Skalierbarkeit eine Möglichkeit geschaffen, dass mehrere Skalierbarkeitsstufen unterstützt werden können. Reicht z.B. der Fehlerschutz für nicht-referenzierte Bilder nicht aus, um diese korrekt zu decodieren, kann nur der restliche Videostrom mit der halben zeitlichen Auflösung (halbe Bildwiederholrate) angezeigt werden. Bei nicht regelmäßiger zeitlicher Skalierbarkeit würden die Bilder in unregelmäßigen zeitlichen Abständen angezeigt werden, was als störend empfunden wird. Ggf. können auch zwei unterschiedliche Serviceklassen definiert werden, wobei eine Klasse die volle zeitli- che Auflösung und die andere Klasse die reduzierte zeitliche Auflösung betrifft. Ein weiterer Vorteil der obigen erfindungsgemäßen Varianten mit verkürzten Prädiktionspfaden besteht darin, dass die Fehlerrobustheit der Übertragung erhöht wird.
Fig. 13 zeigt eine schematische Darstellung eines erfindungsgemäßen Übertragungssystems. Das System umfasst einen Sender 1 zum Aussenden eines Videostroms aus codierten Bildern. Dieser Sender umfasst ein Mittel 2 zum Bilden von Bildergruppen, wobei eine jeweilige Bildergruppe eine Mehrzahl von zeitlich aufeinander folgenden Bildern in einer ursprünglichen zeitlichen Reihenfolge umfasst. Darüber hinaus beinhaltet der Sender 1 ein Mittel 3 zum Codieren jeder Bildergruppe, indem eine Prädiktionsstruktur gebildet wird, gemäß der ein oder meh- rere Bilder der Bildergruppe als Intrabilder bestimmt werden, welche intracodiert werden, und die anderen Bilder der Bildergruppe als Interbilder bestimmt werden, welche jeweils aus zumindest einem Referenzbild der Bildergruppe prädiziert werden und in Bezug auf das zumindest eine Referenzbild interco- diert werden, wobei die Prädiktionsstruktur derart ausgestaltet ist, dass: i) jedes Intrabild ein Referenzbild ist, aus dem wenigstens ein gegenüber dem Intrabild zeitlich früheres Bild der Bildergruppe und wenigstens ein gegenüber dem Intrabild zeitlich späteres Bild der Bildergruppe prädiziert wer- den; ii) die Interbilder mehrere nicht-referenzierte Bilder umfassen, aus denen keine Bilder der Folge prädiziert werden. Der Sender umfasst ferner ein Mittel 4 zum Aussenden der codierten Bilder, welches derart ausgestaltet ist, dass aus den codierten Bildern jeder Bildergruppe eine Übertragungssequenz mit einer zeitlichen Übertragungsreihenfolge gebildet wird und die codierten Bilder in der Übertragungsreihenfolge ausgesendet werden, wobei zumindest einige der codierten nicht- referenzierten Bilder die ersten Bilder der Übertragungsrei- henfolge sind.
Die Bilder werden von dem Sender 1 über eine Übertragungsstrecke 5, vorzugsweise über einen oder mehrere Broadcastka- näle, übertragen. Diese Broadcastkanäle können von einem Emp- fänger 6 empfangen werden, und der darin codierte Datenstrom kann von diesem Empfänger 6 ausgelesen werden. Der Empfänger 6 umfasst hierzu ein Mittel 7 zum Empfangen der Übertragungssequenzen der codierten Bilder der Bildergruppen des Videostroms sowie ein Mittel 8 zum Decodieren der Bilder jeder Ü- bertragungssequenz in Abhängigkeit von der Prädiktionsstruktur und ein Mittel 9 zum Auslesen der decodierten Bilder jeder Übertragungssequenz in der ursprünglichen zeitlichen Reihenfolge der Bildergruppe.
Literaturverzeichnis :
[1] Dong Tian, Vinod Kumar MV, Miska Hannuksela, Stephan
Wenger, Moncef Gabbouj , "Improved H.264 /AVC Video Broadcast/Multicast" , in Proceedings of SPIE Visual
Communications and Image Processing 2005 (VCIP 2005) , Bejing, China, JuIy 2005.
[2] C. Bergeron, C. Lamy-Bergot, G. Pau, and B. Pesquet- Popescu, "Temporal Scalability through Adaptive
M-Band Filter Banks for Robust H.264/MPEG4 AVC Video Coding", EURASIP Journal on Applied Signal Processing, vol. 2006, Article ID 21930, 11 pages, 2006.

Claims

Patentansprüche
1. Verfahren zur Videocodierung einer Folge digitalisierter Bilder, bei dem: - Bildergruppen (GOP) gebildet werden, wobei eine jeweilige Bildergruppe (GOP) eine Mehrzahl von zeitlich aufeinander folgenden Bildern (NO, Pl, N2, 13, N4, P5, N6) in einer ursprünglichen zeitlichen Reihenfolge umfasst; jede Bildergruppe (GOP) codiert wird, indem eine Prädik- tionsstruktur gebildet wird, gemäß der ein oder mehrere Bilder der Bildergruppe (GOP) als Intrabilder (13) bestimmt werden, welche jeweils intracodiert werden, und die anderen Bilder der Bildergruppe (GOP) als Interbilder (NO, Pl, N2, N4, P5, N6) bestimmt werden, welche jeweils aus zumindest einem Referenzbild der Bildergruppe (GOP) prädiziert werden und in Bezug auf das zumindest eine Referenzbild intercodiert werden, wobei die Prädiktionsstruktur derart ausgestaltet ist, dass i) jedes Intrabild (13) ein Referenzbild ist, aus dem wenigstens ein gegenüber dem Intrabild (13) zeitlich früheres Bild (Pl) der Bildergruppe (GOP) und wenigstens ein gegenüber dem Intrabild (13) zeitlich späteres Bild (P5) der Bildergruppe (GOP) prädiziert werden; ii) die Interbilder (NO, Pl, N2, N4, P5, N6) mehrere nicht-referenzierte Bilder (NO, N6) umfassen, aus denen keine Bilder der Folge prädiziert werden; aus den codierten Bildern (NO, Pl, N2, 13, N4, P5, N6) der Bildergruppe (GOP) eine Übertragungssequenz mit ei- ner zeitlichen Übertragungsreihenfolge gebildet wird, wobei zumindest einige der codierten nicht-referen- zierten Bilder (NO, N2) die ersten Bilder der Übertragungsreihenfolge sind.
2. Verfahren nach Anspruch 1, bei dem das oder die codierten Intrabilder (13) die letzten Bilder der Übertragungsreihenfolge sind.
3. Verfahren nach Anspruch 1 oder 2, bei dem alle codierten nicht-referenzierten Bilder (NO, N2) die ersten Bilder der Übertragungsreihenfolge sind.
4. Verfahren nach einem der vorhergehenden Ansprüche, bei dem die Bildergruppe (GOP) ein Intrabild (13) enthält, welches bei ungeradzahliger Anzahl von Bildern (NO, Pl, N2, 13, N4, P5, N6) in der Bildergruppe (GOP) das mittlere Bild der BiI- dergruppe (GOP) ist und welches bei geradzahliger Anzahl von Bildern (NO, Pl, N2, 13, N4, P5, N6) in der Bildergruppe (GOP) an der Stelle in der Bildergruppe steht, welche dem Ergebnis der Division der Anzahl von Bildern (NO, Pl, N2, 13, N4, P5, N6) in der Bildergruppe (GOP) durch zwei oder diesem Ergebnis plus eins entspricht.
5. Verfahren nach einem der vorhergehenden Ansprüche, bei dem die Interbilder (NO, Pl, N2, N4, P5, N6) ein oder mehrere Referenzbilder (Pl, P5) umfassen, aus denen ein oder mehrere Bilder (NO, Pl, N2, N4, P5, N6) der Bildergruppe (GOP) prädi- ziert werden.
6. Verfahren nach Anspruch 5, bei dem die codierten Referenzbilder (Pl, P5) aus der Menge der Interbilder in der Übertra- gungsreihenfolge zwischen den zumindest einigen der codierten nicht-referenzierten Bilder (NO, N6) und dem oder den codierten Intrabildern (13) angeordnet sind.
7. Verfahren nach einem der vorhergehenden Ansprüche, bei dem für die Bildergruppen (GOP) jeweils Redundanzdaten (FECl,
FEC2) zum Fehlerschutz bei der Übertragung der jeweiligen Bildergruppe (GOP) erzeugt werden, wobei die Redundanzdaten (FECl, FEC2) bei der Bildung der Übertragungssequenz in die Übertragungsreihenfolge eingefügt werden.
8. Verfahren nach Anspruch 7, bei dem zumindest ein Teil der Redundanzdaten (FECl, FEC2) in der Übertragungsreihenfolge vor den ersten Bildern angeordnet ist.
9. Verfahren nach einem der vorhergehenden Ansprüche, bei dem eine jeweilige Bildergruppe (GOP) in mehreren zeitlichen Auflösungsstufen skalierbar ist, wobei die niedrigste Auflösungsstufe nur das oder die codierten Intrabilder (13) um- fasst und jede höhere Auflösungsstufe durch eine Anzahl von codierten Bildern (NO, Pl, N2, 13, N4, P5, N6) charakterisiert ist, welche in der höheren Auflösungsstufe im Vergleich zur nächst niedrigeren Auflösungsstufe hinzukommen.
10. Verfahren nach Anspruch 9, bei dem die codierten Bilder (NO, Pl, N2, 13, N4, P5, N6) in der Übertragungssequenz in Untersequenzen angeordnet werden, denen jeweils eine Auflösungsstufe zugeordnet ist, wobei eine jeweilige Untersequenz die codierten Bilder (NO, Pl, N2, 13, N4, P5, N6) umfasst, welche in der der jeweiligen Untersequenz zugeordneten Auflö- sungsstufe im Vergleich zur nächst niedrigeren Auflösungsstufe hinzukommen, wobei die Untersequenzen in der Übertragungssequenz in absteigender Reihenfolge der Auflösungsstufen angeordnet werden.
11. Verfahren nach Anspruch 9 oder 10 in Kombination mit Anspruch 7 oder 8, bei dem für zumindest einen Teil der Untersequenzen jeweils separate Redundanzdaten (FECl, FEC2) gebildet werden, welche jeweils vor der entsprechenden Untersequenz in der Übertragungsreihenfolge angeordnet werden.
12. Verfahren nach Anspruch 11, bei dem die separaten Redundanzdaten (FECl, FEC2) zumindest teilweise unterschiedliche Grade an Fehlerschutz aufweisen.
13. Verfahren nach Anspruch 12, bei dem der Grad an Fehlerschutz für die Redundanzdaten (FECl, FEC2) einer Untersequenz umso geringer ist, je höher die Auflösungsstufe der Untersequenz ist.
14. Verfahren nach einem der Ansprüche 9 bis 13, bei dem die Auflösungsstufen durch einen Faktor derart charakterisiert sind, dass alle Auflösungsstufen außer der niedrigsten eine Anzahl von Bildern (NO, Pl, N2, 13, N4, P5, N6) umfasst, welche durch den Faktor ohne Rest teilbar ist.
15. Verfahren nach einem der vorhergehenden Ansprüche, bei dem die Prädiktionsstruktur derart festgelegt ist, dass wenigstens einem nicht-referenzierten Bild (NO, N2, N4, N6) eine vorbestimmte Anzahl von Bildern zugeordnet wird, wobei das nicht-referenzierte Bild (NO, N2, N4, N6) aus demjenigen Bild der vorbestimmten Anzahl von Bildern prädiziert wird, welches durch die geringste Anzahl an vorhergehenden Prädiktionen gebildet wurde.
16. Verfahren nach Anspruch 15, bei dem die vorbestimmte An- zahl von Bildern die zwei in der Bildergruppe (GOP) zeitlich am nächsten zu dem nicht-referenzierten Bild (NO, Pl, N2, 13, N4, P5, N6) liegenden Referenzbilder sind.
17. Verfahren nach einem der vorhergehenden Ansprüche, bei dem zumindest ein Teil der Interbilder (NO, Pl, N2, N4, P5,
N6) jeweils aus mehreren anderen Bildern prädiziert werden, wobei ein jeweiliges Interbild des zumindest einen Teils der Interbilder (NO, Pl, N2, N4, P5, N6) in eine Vielzahl von Blöcken unterteilt ist und für jeden Block ein einzelnes Bild aus den mehreren anderen Bildern festgelegt ist, aus dem der Block prädiziert wird.
18. Verfahren zum Aussenden einer Folge digitalisierter Bilder (NO, Pl, N2, 13, N4, P5, N6) , wobei die Folge digitali- sierter Bilder (NO, Pl, N2, 13, N4, P5, N6) gemäß einem Verfahren nach einem der vorhergehenden Ansprüche codiert wird und die codierten Bilder (NO, Pl, N2, 13, N4, P5, N6) in der zeitlichen Übertragungsreihenfolge der Übertragungssequenz ausgesendet werden.
19. Verfahren nach Anspruch 18, bei dem das Aussenden über einen oder mehrere Broadcastkanäle erfolgt.
20. Verfahren zum Decodieren einer mit einem Verfahren nach Anspruch 18 oder 19 ausgesendeten Folge digitalisierter Bilder, bei dem: - die Übertragungssequenzen der codierten Bilder (NO, Pl, N2, 13, N4, P5, N6) der Bildergruppen (GOP) der Folge empfangen werden; in Abhängigkeit von der Prädiktionsstruktur die codierten Bilder (NO, Pl, N2, 13, N4, P5, N6) jeder Übertragungsse- quenz (GOP) decodiert werden; die decodierten Bilder (NO, Pl, N2, 13, N4, P5, N6) jeder Übertragungssequenz in der ursprünglichen zeitlichen Reihenfolge der Bildergruppe (GOP) ausgelesen werden.
21. Sender (1) zum Aussenden einer Folge digitalisierter Bilder, umfassend: ein Mittel (2) zum Bilden von Bildergruppen (GOP), wobei eine jeweilige Bildergruppe (GOP) eine Mehrzahl von zeitlich aufeinander folgenden Bildern (NO, Pl, N2, 13, N4, P5, N6) in einer ursprünglichen zeitlichen Reihenfolge umfasst ; ein Mittel (3) zum Codieren jeder Bildergruppe (GOP), indem eine Prädiktionsstruktur gebildet wird, gemäß der ein oder mehrere Bilder der Bildergruppe (GOP) als Intrabil- der (13) bestimmt werden, welche intracodiert werden, und die anderen Bilder der Bildergruppe als Interbilder (NO, Pl, N2, N4, P5, N6) bestimmt werden, welche jeweils aus zumindest einem Referenzbild der Bildergruppe prädiziert werden und in Bezug auf das zumindest eine Referenzbild intercodiert werden, wobei die Prädiktionsstruktur derart ausgestaltet ist, dass i) jedes Intrabild (13) ein Referenzbild ist, aus dem wenigstens ein gegenüber dem Intrabild (13) zeitlich früheres Bild (Pl) der Bildergruppe (GOP) und wenigstens ein gegenüber dem Intrabild (13) zeitlich späte- res Bild (P5) der Bildergruppe (GOP) prädiziert werden; ii) die Interbilder (NO, Pl, N2, N4, P5, N6) mehrere nicht-referenzierte Bilder (NO, N6) umfassen, aus denen keine Bilder der Folge prädiziert werden; - ein Mittel (4) zum Aussenden der codierten Bilder (NO, Pl, N2, 13, N4, P5, N6) , welches derart ausgestaltet ist, dass aus den codierten Bildern (NO, Pl, N2, 13, N4, P5, N6) jeder Bildergruppe (GOP) eine Übertragungssequenz mit einer zeitlichen Übertragungsreihenfolge ge- bildet wird und die codierten Bilder in der Übertragungsreihenfolge ausgesendet werden, wobei zumindest einige der codierten nicht-referenzierten Bilder (NO, Nl) die ersten Bilder der Übertragungsreihenfolge sind.
22. Empfänger (6) zum Empfangen und Decodieren einer mit einem Verfahren nach Anspruch 19 oder 20 ausgesendeten Folge digitalisierter Bilder, umfassend: ein Mittel (7) zum Empfangen der Übertragungssequenzen der codierten Bilder (NO, Pl, N2, 13, N4, P5, N6) der Bildergruppen (GOP) der Folge; ein Mittel (8) zum Decodieren der codierten Bilder (NO, Pl, N2, 13, N4, P5, N6) jeder Übertragungssequenz (GOP) in Abhängigkeit von der Prädiktionsstruktur; ein Mittel (9) zum Auslesen der decodierten Bilder (NO, Pl, N2, 13, N4, P5, N6) jeder Übertragungssequenz in der ursprünglichen zeitlichen Reihenfolge der Bildergruppe (GOP) .
PCT/EP2007/060957 2006-12-08 2007-10-15 Verfahren zur videocodierung einer folge digitalisierter bilder WO2008068097A2 (de)

Priority Applications (4)

Application Number Priority Date Filing Date Title
US12/448,081 US20110194605A1 (en) 2006-12-08 2007-10-15 Method for video-coding a series of digitized pictures
CN2007800454483A CN101554056B (zh) 2006-12-08 2007-10-15 用于对数字化的图像的序列进行视频编码的方法
JP2009539678A JP5021759B2 (ja) 2006-12-08 2007-10-15 デジタル画像シーケンスのビデオコーディング方法
EP07821324A EP2100455A2 (de) 2006-12-08 2007-10-15 Verfahren zur videocodierung einer folge digitalisierter bilder

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
DE102006057983A DE102006057983A1 (de) 2006-12-08 2006-12-08 Verfahren zur Vidoecodierung einer Folge digitalisierter Bilder
DE102006057983.6 2006-12-08

Publications (2)

Publication Number Publication Date
WO2008068097A2 true WO2008068097A2 (de) 2008-06-12
WO2008068097A3 WO2008068097A3 (de) 2008-09-12

Family

ID=39350804

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/EP2007/060957 WO2008068097A2 (de) 2006-12-08 2007-10-15 Verfahren zur videocodierung einer folge digitalisierter bilder

Country Status (6)

Country Link
US (1) US20110194605A1 (de)
EP (1) EP2100455A2 (de)
JP (1) JP5021759B2 (de)
CN (1) CN101554056B (de)
DE (1) DE102006057983A1 (de)
WO (1) WO2008068097A2 (de)

Families Citing this family (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8681866B1 (en) 2011-04-28 2014-03-25 Google Inc. Method and apparatus for encoding video by downsampling frame resolution
US9106787B1 (en) 2011-05-09 2015-08-11 Google Inc. Apparatus and method for media transmission bandwidth control using bandwidth estimation
US8856624B1 (en) * 2011-10-27 2014-10-07 Google Inc. Method and apparatus for dynamically generating error correction
US9490850B1 (en) 2011-11-28 2016-11-08 Google Inc. Method and apparatus for decoding packetized data
WO2013111976A1 (ko) * 2012-01-25 2013-08-01 한국전자통신연구원 점진 열화 순방향 오류 정정 방법 및 이를 수행하는 장치
US9185429B1 (en) 2012-04-30 2015-11-10 Google Inc. Video encoding and decoding using un-equal error protection
US10034023B1 (en) 2012-07-30 2018-07-24 Google Llc Extended protection of digital video streams
US9172740B1 (en) 2013-01-15 2015-10-27 Google Inc. Adjustable buffer remote access
US9311692B1 (en) 2013-01-25 2016-04-12 Google Inc. Scalable buffer remote access
US9225979B1 (en) 2013-01-30 2015-12-29 Google Inc. Remote access encoding
FR3041850B1 (fr) * 2015-09-30 2018-05-25 Vogo Procede d'encodage de flux de donnees video basees sur des groupements d'images (gop)
CN113347424B (zh) * 2021-05-27 2022-08-05 上海国茂数字技术有限公司 视频编码数据存储方法、装置及可读存储介质
CN115550688A (zh) * 2021-06-30 2022-12-30 华为技术有限公司 视频码流的处理方法、介质、程序产品和电子设备
CN117793367B (zh) * 2024-02-26 2024-06-04 此芯科技(上海)有限公司 一种图像编码方法及系统

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2004004310A2 (en) * 2002-06-28 2004-01-08 Dolby Laboratories Licensing Corporation Improved interpolation of video compression frames
US20060120449A1 (en) * 2004-12-06 2006-06-08 Lg Electronics Inc. Method of coding and decoding moving picture

Family Cites Families (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH1079949A (ja) * 1996-09-04 1998-03-24 Oki Electric Ind Co Ltd 画像符号化装置、画像復号化装置及び画像伝送システム
GB2364459B (en) * 2000-06-30 2004-03-31 Nokia Mobile Phones Ltd Video error resilience
MY136056A (en) * 2003-02-18 2008-08-29 Nokia Corp Picture decoding method
WO2006004331A1 (en) * 2004-07-07 2006-01-12 Samsung Electronics Co., Ltd. Video encoding and decoding methods and video encoder and decoder
FR2874292B1 (fr) * 2004-08-10 2007-01-26 Thales Sa Procede de mise en forme de trames d'une sequence video
US7751324B2 (en) * 2004-11-19 2010-07-06 Nokia Corporation Packet stream arrangement in multimedia transmission

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2004004310A2 (en) * 2002-06-28 2004-01-08 Dolby Laboratories Licensing Corporation Improved interpolation of video compression frames
US20060120449A1 (en) * 2004-12-06 2006-06-08 Lg Electronics Inc. Method of coding and decoding moving picture

Non-Patent Citations (4)

* Cited by examiner, † Cited by third party
Title
AVIS R ET AL: "A news edit system in an attache case-with Betacam SX" BROADCASTING CONVENTION, 1997. IBS 97., INTERNATIONAL (CONF. PUBL. 447 ) AMSTERDAM, NETHERLANDS 12-16 SEPT. 1997, LONDON, UK,IEE, UK, 12. September 1997 (1997-09-12), Seiten LP22-LP32, XP006508431 ISBN: 978-0-85296-694-5 *
BERGERON C ET AL: "Adaptive M-Band Hierarchical Filterbank for Compliant Temporal Scalability in H.264 Standard" ACOUSTICS, SPEECH, AND SIGNAL PROCESSING, 2005. PROCEEDINGS. (ICASSP ' 05). IEEE INTERNATIONAL CONFERENCE ON PHILADELPHIA, PENNSYLVANIA, USA MARCH 18-23, 2005, PISCATAWAY, NJ, USA,IEEE, Bd. 2, 18. März 2005 (2005-03-18), Seiten 69-72, XP010790578 ISBN: 978-0-7803-8874-1 *
JAE-YOUNG PYUN ET AL: "Packet loss resilience for MPEG-4 video stream over the Internet" 2002 DIGEST OF TECHNICAL PAPERS. INTERNATIONAL CONFERENCE ON CONSUMER ELECTRONICS, 20. Juni 2002 (2002-06-20), Seiten 164-165, XP002480687 Los Angeles, CA, USA *
WEN XU ET AL: "Efficient partitioning of unequal error protected mpeg video streams for multiple channel transmission" PROCEEDINGS 2002 INTERNATIONAL CONFERENCE ON IMAGE PROCESSING. ICIP 2002. ROCHESTER, NY, SEPT. 22 - 25, 2002; [INTERNATIONAL CONFERENCE ON IMAGE PROCESSING], NEW YORK, NY : IEEE, US, Bd. 2, 22. September 2002 (2002-09-22), Seiten 721-724, XP010608073 ISBN: 978-0-7803-7622-9 *

Also Published As

Publication number Publication date
WO2008068097A3 (de) 2008-09-12
US20110194605A1 (en) 2011-08-11
EP2100455A2 (de) 2009-09-16
CN101554056A (zh) 2009-10-07
JP5021759B2 (ja) 2012-09-12
JP2010512082A (ja) 2010-04-15
CN101554056B (zh) 2012-02-15
DE102006057983A1 (de) 2008-06-12

Similar Documents

Publication Publication Date Title
WO2008068097A2 (de) Verfahren zur videocodierung einer folge digitalisierter bilder
DE69917971T2 (de) Verfahren und Vorrichtung zur Verarbeitung von komprimierten Videodatenströmen
DE69817137T2 (de) Bildverarbeitung für elektronisches Wasserzeichensetzen
DE60109423T2 (de) Videokodierung mit prädiktiver bitebenenkodierung und progressiver fein-granularitätsskalierung (pfgs)
DE4305578B4 (de) Fehlerverdeckung in decodierten Videosignalen
DE60311231T2 (de) Verfahren zum ermöglichen von direktzugriff und spleissen in einem verschlüsselten videostrom
WO2009049974A2 (de) Verfahren und vorrichtung zum erstellen eines kodierten ausgangsvideostroms aus mindestens zwei kodierten eingangsvideoströmen, sowie verwendung der vorrichtung und kodierter eingangsvideostrom
WO2006024584A1 (de) Verfahren und vorrichtung zum codieren und decodieren
DE19752885C2 (de) Vorrichtung und Verfahren zum Erkennen und Maskieren von Video-Datenfehlern
EP2521357A1 (de) Verfahren und Vorrichtung zur Filterung von kodierten Bildpartitionen
DE102004056446A1 (de) Verfahren zur Transcodierung sowie Transcodiervorrichtung
DE60221807T2 (de) Lauflängenkodierung nichtkodierter makroblöcke
DE19744859B4 (de) Verfahren zum Codieren eines binären Formsignals
EP0834233B1 (de) Verfahren zur erzeugung und zur auswertung eines stroms von bilddaten für videoübertragung
EP0821531B1 (de) Codierung und Decodierung von Trickfilmen
DE3926154A1 (de) Signalverarbeitungssystem
EP0346637A2 (de) Verfahren zur Aufbereitung und Übertragung einer Bildsequenz
WO2002054779A2 (de) Verfahren zur header-kompression bei einer video-codierung
DE19749604A1 (de) Verfahren zum Kodieren eines Modus beim Kodieren binärer Formen
WO2006067053A1 (de) Bildencodierverfahren, sowie dazugehöriges bilddecodierverfahren, encodiervorrichtung und decodiervorrichtung
DE3726601C2 (de)
DE2703854A1 (de) Bilduebertragungsanlage
EP1815689A1 (de) Codierverfahren und decodierverfahren, sowie codiervorrichtung und decodiervorrichtung
DE19717453C2 (de) Verfahren zum Einblenden eines neuen Bildabschnittes an einer vorbestimmten Stelle eines datenreduzierten Video-Datenstromes
EP1285537A1 (de) Verfahren und eine anordnung zur codierung bzw. decodierung einer folge von bildern

Legal Events

Date Code Title Description
WWE Wipo information: entry into national phase

Ref document number: 200780045448.3

Country of ref document: CN

121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 07821324

Country of ref document: EP

Kind code of ref document: A2

WWE Wipo information: entry into national phase

Ref document number: 2007821324

Country of ref document: EP

ENP Entry into the national phase

Ref document number: 2009539678

Country of ref document: JP

Kind code of ref document: A

NENP Non-entry into the national phase

Ref country code: DE

WWE Wipo information: entry into national phase

Ref document number: 12448081

Country of ref document: US