WO2021160955A1

WO2021160955A1 - Procédé et dispositif de traitement de données de vidéo multi-vues

Info

Publication number: WO2021160955A1
Application number: PCT/FR2021/050207
Authority: WO
Inventors: Joël JUNG; Pavel Nikitin; Patrick GARUS
Original assignee: Orange
Priority date: 2020-02-14
Filing date: 2021-02-04
Publication date: 2021-08-19
Also published as: CN115104312A; EP4104446A1; FR3107383A1; US20230065861A1

Abstract

L'invention concerne un procédé de traitement de données d'une vidéo multi-vues selon lequel, pour au moins un bloc d'une image d'une vue codée dans un flux de données codées représentatif de la vidéo multi-vues, au moins une information est obtenue. Cette information indique un mode d'obtention d'au moins une donnée de synthèse, parmi un premier mode d'obtention et un deuxième mode d'obtention, la donnée de synthèse étant utilisée pour synthétiser au moins une image d'une vue intermédiaire de la vidéo multi-vues, ladite vue intermédiaire n'étant pas codée dans ledit flux de données codées. Le premier mode d'obtention correspond à un décodage d'au moins une information représentative de la au moins une donnée de synthèse à partir du flux de données codées, le deuxième mode d'obtention correspond à une obtention de la au moins une donnée de synthèse à partir d'au moins ladite image codée reconstruite. Au moins une partie d'une image de la vue intermédiaire est synthétisée à partir d'au moins ladite image codée reconstruite et ladite au moins une donnée de synthèse obtenue selon le mode d'obtention indiqué.

Description

DESCRIPTION

Procédé et dispositif de traitement de données de vidéo multi-vues

1. Domaine de l'invention

L'invention concerne les vidéos dites immersives, représentatives d'une scène capturée par une ou plusieurs caméras, incluant les vidéos pour la réalité virtuelle et la navigation libre. Plus particulièrement, l'invention concerne le traitement (codage, décodage, synthèse de vues intermédiaires) de données de telles vidéos.

2. Art Antérieur

Une vidéo immersive permet à un spectateur de regarder une scène de n'importe quel point de vue, même d'un point de vue qui n'a pas été capturé par une caméra. Un système d'acquisition typique est un ensemble de caméras, qui capture une scène avec plusieurs caméras situées en dehors de la scène ou avec des caméras divergentes construites sur une plate-forme sphérique. Les vidéos sont généralement affichées via des casques de réalité virtuelle (aussi connu sous le nom HMD pour Head Mounted Device en anglais), mais peuvent également être affichées sur des écrans 2D dotés d'un système supplémentaire pour interagir avec l'utilisateur.

La navigation libre dans une scène nécessite de gérer correctement chaque mouvement de l'utilisateur afin d'éviter le mal des transports. Le mouvement est généralement correctement capturé par le dispositif d'affichage (un casque HMD par exemple). Cependant, fournir les pixels corrects à l'affichage, quel que soit le mouvement de l'utilisateur (rotationnel ou en translation), est actuellement un problème. Cela nécessite plusieurs vues capturées et la possibilité de générer des vues virtuelles (synthétisées) supplémentaires, calculées à partir des vues capturées décodées et des profondeurs associées. Le nombre de vues à transmettre varie selon les cas d'utilisation. Toutefois, le nombre de vues à transmettre et la quantité de données associées est souvent volumineuse. Par conséquent, la transmission des vues est un aspect essentiel des applications de vidéos immersives. Il est donc nécessaire de réduire autant que possible le débit binaire des informations à transmettre sans compromettre la qualité de la synthèse des vues intermédiaires.

Dans un schéma de traitement de vidéo immersive typique, les vues sont capturées physiquement ou générées par ordinateur. Dans certains cas, les profondeurs sont également capturées avec des capteurs dédiés. Cependant, la qualité de ces informations de profondeurs est généralement mauvaise et empêche de synthétiser efficacement des points de vue intermédiaires. Des cartes de profondeur peuvent également être calculées à partir des images de texture des vidéos capturées. De nombreux algorithmes d'estimation de profondeurs existent et sont utilisés dans l'état de la technique.

Les images de texture et les informations de profondeur estimées sont codées et envoyées à un dispositif d'affichage d'un utilisateur, comme illustré en figure 1 . La figure 1 montre un schéma de traitement de vidéo immersive comprenant par exemple deux vues capturées ayant respectivement les informations de texture T_xo_yo et T_xiy0. Des informations de profondeur Dxoyo et Dxi_y0 associées à chaque vue T_xo_yo et T_{xi y}o sont estimées par un module d’estimation FE. Par exemple, les informations de profondeur D_x0yo et D_xiy0 sont obtenues par un logiciel d'estimation de profondeur (DERS pour Depth Estimation Reference Software en anglais), les vues Txoyo et T_{xi y}o et les informations de profondeur obtenues D_x0yo et D_xiy0 sont ensuite codées (CODEC), par exemple en utilisant un codeur MV-HEVC. Du côté du client, les vues T*_x0yo et T^* _xi yo et les profondeurs associées de chaque vue D*_x0yo et D^* _xiy0 sont décodées et utilisées par un algorithme de synthèse (SYNTHESIS) pour calculer des vues intermédiaires, par exemple ici des vues intermédiaires S_x0yo et S_xiy0. Par exemple, le logiciel VSRS (pour View Synthesis Reference en anglais) peut être utilisé comme algorithme de synthèse de vue. Lorsque les cartes de profondeur sont calculées avant le codage et la transmission des données codées d'une vidéo immersive, différents problèmes sont rencontrés. Notamment, le débit associé à la transmission des différentes vues est important. En particulier, bien que les cartes de profondeur coûtent généralement moins que la texture, elles restent une proportion importante du train de bits (entre 15% et 30% du total).

De plus, des cartes de profondeurs complètes sont générées et envoyées, alors que côté client, toutes les parties de toutes les cartes de profondeurs ne sont pas forcément utiles. En effet, les vues peuvent avoir des informations redondantes, ce qui rend certaines parties de cartes de profondeurs inutiles. De plus, dans certains cas, les spectateurs peuvent demander uniquement des points de vue spécifiques. Sans canal de retour entre le client et le serveur fournissant la vidéo immersive codée, l'estimateur de profondeur situé côté serveur ignore la connaissance de ces points de vue spécifiques.

Le calcul des informations de profondeur côté serveur évite toute interaction entre l'estimateur de profondeur et l'algorithme de synthèse. Par exemple, si un estimateur de profondeur souhaite informer l'algorithme de synthèse du fait qu'il ne peut pas trouver correctement la profondeur d'une zone spécifique, il doit transmettre cette information dans le flux binaire, très probablement sous la forme d'une carte binaire.

De plus, la configuration du codeur pour coder les cartes de profondeur afin d’obtenir le meilleur compromis entre la qualité de la synthèse et le coût de codage pour la transmission des cartes de profondeur n'est pas évidente. Enfin, le nombre de pixels à traiter par un décodeur est élevé lorsque les textures et les cartes de profondeur sont codées, transmises et décodées. Cela peut par exemple ralentir le déploiement des schémas de traitement de vidéos immersives sur des terminaux de type smartphone (pour téléphone intelligent en français).

Il existe donc un besoin d'améliorer l'état de la technique.

3. Exposé de l'invention

L'invention vient améliorer l'état de la technique. Elle concerne, à cet effet, un procédé de traitement de données d’une vidéo multi-vues, comprenant :

- l'obtention, pour au moins un bloc d’une image d’une vue codée dans un flux de données codées représentatif de la vidéo multi-vues, d’au moins une information indiquant un mode d’obtention d’au moins une donnée de synthèse, parmi un premier mode d’obtention et un deuxième mode d’obtention, ladite au moins une donnée de synthèse étant utilisée pour synthétiser au moins une image d’une vue intermédiaire de la vidéo multi-vues, ladite vue intermédiaire n’étant pas codée dans ledit flux de données codées, ledit premier mode d’obtention correspondant à un décodage d’au moins une information représentative de la au moins une donnée de synthèse à partir du flux de données codées, ledit deuxième mode d’obtention correspondant à une obtention de la au moins une donnée de synthèse à partir d’au moins ladite image codée reconstruite,

- l’obtention de la au moins une donnée de synthèse selon le mode d’obtention indiqué par ladite au moins une information,

- la synthèse d'au moins une partie d’une image de ladite vue intermédiaire à partir d'au moins ladite image codée reconstruite et ladite au moins une donnée de synthèse obtenue. L’invention permet de tirer parti de différents modes d’obtention de données de synthèse de manière flexible en permettant la sélection d’un mode d’obtention de chaque donnée de synthèse qui soit optimal, par exemple en termes de coût de codage/qualité de la donnée de synthèse ou bien en fonction des outils disponibles côté décodeur et/ou côté codeur. Cette sélection est flexible puisqu’elle peut avantageusement être réalisée au niveau bloc, image, vue ou vidéo. Le niveau de granularité du mode d’obtention des données de synthèse peut donc être adapté en fonction du contenu de la vidéo multi-vues par exemple ou bien des outils disponibles côté client/décodeur.

Selon un premier mode d’obtention, la donnée de synthèse est déterminée côté codeur, codée et transmise à un décodeur dans un flux de données. Selon ce premier mode d’obtention, la qualité de la donnée de synthèse peut être privilégiée puisqu’elle est déterminée à partir d’images originales, non codées par exemple. La donnée de synthèse ne souffre pas lors de son estimation des artefacts de codage des textures décodées.

Selon un deuxième mode d’obtention, la donnée de synthèse est déterminée côté décodeur. Selon ce deuxième mode d’obtention, les données nécessaires à la synthèse de vues intermédiaires sont obtenues à partir des vues décodées et reconstruites qui ont été transmises au décodeur. L'obtention de telles données de synthèse peut être réalisée au niveau du décodeur, ou bien par un module indépendant du décodeur prenant en entrée les vues décodées et reconstruites par le décodeur. Ce deuxième mode d’obtention permet de réduire le coût de codage des données de la vidéo multi-vues et le décodage de la vidéo multi- vues est simplifié, puisque le décodeur n'a plus à décoder les données utilisées pour la synthèse de vues intermédiaires.

L’invention permet également d’améliorer la qualité de la synthèse des vues intermédiaires. En effet dans certains cas, une donnée de synthèse estimée au décodeur peut être plus adaptée pour la synthèse de vues qu’une donnée de synthèse codée, par exemple lorsque des estimateurs différents sont disponibles côté client et côté serveur. Dans d’autres cas, la détermination de la donnée de synthèse au codeur peut être plus adaptée, par exemple lorsque les textures décodées présentent des artefacts de compression ou lorsque les textures ne comprennent pas suffisamment d’informations redondantes pour estimer les données de synthèse côté client.

Selon un mode particulier de réalisation de l’invention, ladite au moins une donnée de synthèse correspond à au moins une partie d'une carte de profondeur.

Selon un autre mode particulier de réalisation de l’invention, ladite au moins une information indiquant un mode d’obtention de la donnée de synthèse est obtenue par le décodage d’un élément de syntaxe. Selon ce mode particulier de réalisation de l’invention, l’information est codée dans le flux de données.

Selon un autre mode particulier de réalisation de l’invention, ladite au moins une information indiquant un mode d’obtention de la donnée de synthèse est obtenue à partir d’au moins une donnée codée pour l’image codée reconstruite. Selon ce mode particulier de réalisation de l’invention, l’information n’est pas directement codée dans le flux de données, elle est dérivée des données codées pour une image dans le flux de données. Le processus de dérivation de la donnée de synthèse est ici identique au codeur et au décodeur.

Selon un autre mode particulier de réalisation de l’invention, le mode d’obtention est sélectionné parmi le premier mode d’obtention et le deuxième mode d’obtention en fonction d’une valeur d’un paramètre de quantification utilisé pour coder au moins ledit bloc. Selon un autre mode particulier de réalisation de l’invention, le procédé comprend en outre, lorsque ladite au moins une information indique que la donnée de synthèse est obtenue selon le deuxième mode d’obtention :

- le décodage à partir d'un flux de données codées, d'au moins un paramètre de contrôle,

- l'application dudit paramètre de contrôle lors de l'obtention de ladite donnée de synthèse selon le deuxième mode d’obtention.

Ce mode particulier de réalisation de l'invention permet de contrôler le procédé d'obtention de la donnée de synthèse, par exemple il peut s’agir de contrôler les fonctionnalités d’un estimateur de profondeur telles la taille de la fenêtre de recherche ou la précision. Le paramètre de contrôle peut aussi indiquer quel estimateur de profondeur utiliser, et/ou les paramètres de cet estimateur, ou encore une carte de profondeur pour initialiser l’estimateur.

L’invention concerne également un dispositif de traitement de données de vidéo multi-vues, comprenant un processeur configuré pour :

- obtenir, pour au moins un bloc d’une image d’une vue codée dans un flux de données codées représentatif de la vidéo multi-vues, au moins une information indiquant un mode d’obtention d’au moins une donnée de synthèse, parmi un premier mode d’obtention et un deuxième mode d’obtention, ladite au moins une donnée de synthèse étant utilisée pour synthétiser au moins une image d’une vue intermédiaire de la vidéo multi-vues, ladite vue intermédiaire n’étant pas codée dans ledit flux de données codées, ledit premier mode d’obtention correspondant à un décodage d’au moins une information représentative de la au moins une donnée de synthèse à partir du flux de données codées, ledit deuxième mode d’obtention correspondant à une obtention de la au moins une donnée de synthèse à partir d’au moins ladite image codée reconstruite,

- obtenir la au moins donnée de synthèse selon le mode d’obtention indiqué par ladite au moins une information,

- synthétiser au moins une partie d’une image de ladite vue intermédiaire à partir d'au moins ladite image codée reconstruite et ladite au moins une donnée de synthèse obtenue.

Selon un mode particulier de réalisation de l’invention, le dispositif de traitement de données de vidéo multi-vues est compris dans un terminal.

L’invention concerne aussi un procédé de codage de données de vidéo multi-vues, comprenant :

- la détermination, pour au moins un bloc d’une image d’une vue dans un flux de données codées représentatif de la vidéo multi-vues, d’au moins une information indiquant un mode d’obtention d’au moins une donnée de synthèse, parmi un premier mode d’obtention et un deuxième mode d’obtention, ladite au moins une donnée de synthèse étant utilisée pour synthétiser au moins une image d’une vue intermédiaire de la vidéo multi-vues, ladite vue intermédiaire n’étant pas codée dans ledit flux de données codées, ledit premier mode d’obtention correspondant à un décodage d’au moins une information représentative de la au moins une donnée de synthèse à partir du flux de données codées, ledit deuxième mode d’obtention correspondant à une obtention de la au moins une donnée de synthèse à partir d’au moins ladite image codée reconstruite,

- le codage de ladite image dans le flux de données codées.

Selon un mode particulier de réalisation de l’invention, le procédé de codage comprend le codage dans le flux de données d’un élément de syntaxe associé à ladite information indiquant un mode d’obtention de la donnée de synthèse.

Selon un mode particulier de réalisation de l’invention, le procédé de codage comprend en outre, lorsque l’information indique que la donnée de synthèse est obtenue selon le deuxième mode d’obtention :

- le codage dans un flux de données codées, d'au moins un paramètre de contrôle à appliquer lors de l'obtention de ladite donnée de synthèse selon le deuxième mode d’obtention.

L’invention concerne aussi un dispositif de codage de données de vidéo multi-vues, comprenant un processeur et une mémoire configurés pour :

- déterminer, pour au moins un bloc d’une image d’une vue dans un flux de données codées représentatif de la vidéo multi-vues, au moins une information indiquant un mode d’obtention d’au moins une donnée de synthèse, parmi un premier mode d’obtention et un deuxième mode d’obtention, ladite au moins une donnée de synthèse étant utilisée pour synthétiser au moins une image d’une vue intermédiaire de la vidéo multi-vues, ladite vue intermédiaire n’étant pas codée dans ledit flux de données codées, ledit premier mode d’obtention correspondant à un décodage d’au moins une information représentative de la au moins une donnée de synthèse à partir du flux de données codées, ledit deuxième mode d’obtention correspondant à une obtention de la au moins une donnée de synthèse à partir d’au moins ladite image codée reconstruite,

- coder ladite image dans le flux de données codées.

Le procédé de traitement de données vidéo multi-vues selon l'invention peut être mis en oeuvre de diverses manières, notamment sous forme câblée ou sous forme logicielle. Selon un mode particulier de réalisation de l'invention, le procédé de traitement de données vidéo multi-vues est mis en œuvre par un programme d'ordinateur. L'invention concerne également un programme d'ordinateur comportant des instructions pour la mise en œuvre du procédé de traitement de données vidéo multi-vues selon l'un quelconque des modes particuliers de réalisation décrits précédemment, lorsque ledit programme est exécuté par un processeur. Un tel programme peut utiliser n’importe quel langage de programmation. Il peut être téléchargé depuis un réseau de communication et/ou enregistré sur un support lisible par ordinateur.

Ce programme peut utiliser n'importe quel langage de programmation, et être sous la forme de code source, code objet, ou de code intermédiaire entre code source et code objet, tel que dans une forme partiellement compilée, ou dans n'importe quelle autre forme souhaitable. L'invention vise aussi un support d'enregistrement ou support d'informations lisible par un ordinateur, et comportant des instructions d'un programme d'ordinateur tel que mentionné ci- dessus. Le support d'enregistrement mentionné ci-avant peut être n'importe quelle entité ou dispositif capable de stocker le programme. Par exemple, le support peut comporter un moyen de stockage, tel qu'une ROM, par exemple un CD ROM ou une ROM de circuit microélectronique, une clé USB, ou encore un moyen d'enregistrement magnétique, par exemple un disque dur. D'autre part, le support d'enregistrement peut correspondre à un support transmissible tel qu'un signal électrique ou optique, qui peut être acheminé via un câble électrique ou optique, par radio ou par d'autres moyens. Le programme selon l'invention peut être en particulier téléchargé sur un réseau de type Internet. Alternativement, le support d'enregistrement peut correspondre à un circuit intégré dans lequel le programme est incorporé, le circuit étant adapté pour exécuter ou pour être utilisé dans l'exécution du procédé en question.

4. Liste des figures

D’autres caractéristiques et avantages de l’invention apparaîtront plus clairement à la lecture de la description suivante d’un mode de réalisation particulier, donné à titre de simple exemple illustratif et non limitatif, et des dessins annexés, parmi lesquels :

[FIG. 1 ] La figure 1 illustre un schéma de traitement de données de vidéo multi-vues selon l'art antérieur.

[FIG. 2] La figure 2 illustre un schéma de traitement de données de vidéo multi-vues selon un mode particulier de réalisation de l’invention.

[FIG. 3A] La figure 3A illustre des étapes d'un procédé de traitement de données de vidéo multi-vues selon un mode particulier de réalisation de l'invention.

[FIG. 3B] La figure 3B illustre des étapes d'un procédé de traitement de données de vidéo multi-vues selon un autre mode particulier de réalisation de l'invention.

[FIG. 4A] La figure 4A illustre des étapes d'un procédé de codage de vidéo multi-vues selon des modes particuliers de réalisation de l'invention. [FIG. 4B] La figure 4B illustre des étapes d'un procédé de codage de vidéo multi-vues selon des modes particuliers de réalisation de l'invention.

[FIG. 5] La figure 5 illustre un exemple d’un schéma de traitement de données de vidéo multi- vues selon un mode particulier de réalisation de l’invention.

[FIG. 6A] La figure 6A illustre une matrice de texture d’une vidéo multi-vues selon un mode particulier de réalisation de l’invention.

[FIG. 6B] La figure 6B illustre des étapes du procédé de codage de la profondeur pour un bloc courant selon un mode particulier de réalisation de l’invention.

[FIG. 7A] La figure 7A illustre un exemple d’un flux de données selon un mode particulier de réalisation de l'invention.

[FIG. 7B] La figure 7B illustre un exemple d’un flux de données selon un autre mode particulier de réalisation de l'invention.

[FIG. 8] La figure 8 illustre un dispositif de codage de vidéo multi-vues selon un mode particulier de réalisation de l'invention.

[FIG. 9] La figure 9 illustre un dispositif de traitement de données de vidéo multi-vues selon un mode particulier de réalisation de l'invention.

5. Description d'un mode de réalisation de l'invention

La figure 1 , décrite ci-dessus, illustre un schéma de traitement de données de vidéo multi- vues selon l'art antérieur. Selon ce mode de réalisation, les informations de profondeur sont déterminées, codées et transmises dans un flux de données au décodeur qui les décode.

La figure 2 illustre un schéma de traitement de données de vidéo multi-vues selon un mode particulier de réalisation de l’invention. Selon ce mode particulier de réalisation de l’invention, les informations de profondeur ne sont pas codées dans le flux de données, mais déterminée côté client, à partir des images reconstruites de la vidéo multi-vues.

Selon le schéma illustré en figure 2, les images de texture T_xo_yo et T_xiyo issues de vues capturées sont codées (CODEC), par exemple en utilisant un codeur MV-HEVC, et envoyées à un dispositif d'affichage d'un utilisateur, par exemple. Côté client, les textures T^* _x0yo et T^* _xiy0 des vues sont décodées et utilisées pour estimer les informations de profondeurs D’_x0yo et D’_xiy0 associées à chaque vue T_x0yo et T_xiy0, par un module d’estimation FE. Par exemple, les informations de profondeur D’_x0yo et D’_xiy0 sont obtenues par un logiciel d'estimation de profondeur (DERS).

Les vues décodées T^* _x0yo et T^* _xiy0 et les profondeurs associées de chaque vue D’_x0yo et D’_xiy0 sont utilisées par un algorithme de synthèse (SYNTHESIS) pour calculer des vues intermédiaires, par exemple ici des vues intermédiaires S’_x0yo et S’_xiy0. Par exemple, le logiciel VSRS précité peut être utilisé comme algorithme de synthèse de vue. Lorsque les informations de profondeur sont estimées après transmission des données codées de la vidéo multi-vues, les problèmes suivants peuvent être rencontrés. A cause des artefacts de compression, par exemple les effets de bloc, ou le bruit de quantification, présents dans les textures décodées et utilisées pour estimer les informations de profondeur, particulièrement à bas débit, des valeurs de profondeur erronées peuvent être obtenues.

De plus, la complexité du terminal client est plus grande que lorsque les informations de profondeur sont transmises au décodeur. Ce qui peut impliquer d’utiliser des algorithmes d’estimation de profondeur plus simple au codeur, qui peuvent alors être mis en défaut dans les scènes complexes.

Côté client, il peut arriver que les informations de texture ne comprennent pas suffisamment de redondance pour réaliser l’estimation de la profondeur ou des données utiles à la synthèse, par exemple à cause du codage des informations de texture côté serveur au cours duquel des informations de texture peuvent ne pas être codées.

L’invention propose une méthode permettant de sélectionner un mode d’obtention des données de synthèse parmi un premier mode d’obtention (M1 ) selon lequel les données de synthèse sont codées et transmises au décodeur et un deuxième mode d’obtention (M2) selon lequel les données de synthèse sont estimées côté client. Cette méthode permet de tirer avantage des deux approches de manière flexible.

Pour cela, le meilleur chemin pour obtenir une ou des données de synthèse est sélectionné pour chaque image, ou chaque bloc ou pour toute autre granularité.

La figure 3A illustre des étapes d'un procédé de traitement de données de vidéo multi-vues selon un mode particulier de réalisation de l'invention. Selon ce mode particulier de réalisation de l’invention, le mode d’obtention sélectionné est codé et transmis au décodeur.

Un flux de données BS comprenant notamment des informations de texture d’une ou plusieurs vues d’une vidéo multi-vues est transmis au décodeur. On considère, par exemple, que deux vues ont été codées dans le flux de données BS.

Le flux de données BS comprend également au moins un élément de syntaxe représentatif d’une information indiquant un mode d’obtention d’au moins une donnée de synthèse, parmi un premier mode d’obtention M1 et un deuxième mode d’obtention M2.

Lors d’une étape 30, le décodeur décode les informations de texture du flux de données pour obtenir les textures T^* ₀ et T^*i.

Lors d’une étape 31 , l’élément de syntaxe représentatif de l’information indiquant un mode d’obtention est décodé à partir du flux de données. Cet élément de syntaxe est codé dans le flux de données pour au moins un bloc de l’image de texture d’une vue. Sa valeur peut donc changer à chaque bloc de texture d’une vue. Selon une autre variante, l’élément de syntaxe est codé une fois pour tous les blocs de l’image de texture d’une vue T₀ ou Ti. L’information indiquant un mode d’obtention d’une donnée de synthèse est donc la même pour tous les blocs de l’image de texture T₀ ou Ti.

Selon encore une autre variante, l’élément de syntaxe est codé une fois pour toutes les images de texture d’une même vue ou bien l’élément de syntaxe est codé une fois pour toutes les vues.

On considère, ici, la variante selon laquelle l’élément de syntaxe est codé pour chaque image de texture d’une vue. Suite à l’étape 31 , on obtient alors une information de mode d’obtention do associée à l’image de texture décodée T^* ₀ et une information de mode d’obtention di associée à l’image de texture décodée T^*i.

Lors d’une étape 32, il est vérifié pour chaque information d₀ et di indiquant un mode d’obtention des données de synthèse associées respectivement aux images de texture décodées T^* ₀ et T^*i si le mode d’obtention correspond au premier mode d’obtention M1 ou au deuxième mode d’obtention M2.

Si l’information do, respectivement di, indique le premier mode d’obtention M1 , lors d’une étape 34, les données de synthèse D^* ₀, respectivement D^*i, associées à l’image de texture décodée T^*o, respectivement T^*i, sont décodées à partir du flux de données BS.

Si l’information do, respectivement di, indique le deuxième mode d’obtention M2, lors d’une étape 33, les données de synthèse D⁺ ₀, respectivement D⁺i, associées à l’image de texture décodée T^* ₀, respectivement T^*i, sont estimées à partir des images de texture reconstruites de la vidéo multi-vues. Pour cela, l’estimation peut utiliser la texture décodée T^* ₀, respectivement T^*i , et éventuellement d’autres images de texture préalablement reconstruites. Lors d’une étape 35, les textures décodées T^* ₀ et T^*i et les informations de synthèse décodées (D^* ₀, D^*i) ou estimées (D⁺ ₀, D⁺i) sont utilisées pour synthétiser une image d’une vue intermédiaire S0.5.

La figure 3B illustre des étapes d'un procédé de traitement de données de vidéo multi-vues selon un autre mode particulier de réalisation de l'invention. Selon cet autre mode particulier de réalisation de l’invention, le mode d’obtention sélectionné n’est pas transmis au décodeur. Celui-ci dérive le mode d’obtention à partir des données de texture préalablement décodées. Un flux de données BS comprenant notamment des informations de texture d’une ou plusieurs vues d’une vidéo multi-vues est transmis au décodeur. On considère, par exemple, que deux vues ont été codées dans le flux de données BS.

Lors d’une étape 30’, le décodeur décode les informations de texture du flux de données pour obtenir les textures T^* ₀ et T^*i.

Lors d’une étape 32’, le décodeur obtient une information indiquant un mode d’obtention parmi un premier d’obtention M1 et un deuxième mode d’obtention M2, d’au moins une donnée de synthèse à utiliser pour synthétiser une image d’une vue intermédiaire. Selon une variante, cette information peut être obtenue pour chaque bloc de l’image de texture d’une vue. Le mode d’obtention peut donc changer à chaque bloc de texture d’une vue.

Selon une autre variante, cette information est obtenue une fois pour tous les blocs de l’image de texture d’une vue T^* ₀ ou T^*i. L’information indiquant un mode d’obtention d’une donnée de synthèse est donc la même pour tous les blocs de l’image de texture T^* ₀ ou T^*i.

Selon encore une autre variante, l’information est obtenue une fois pour toutes les images de texture d’une même vue ou bien l’information est obtenue une fois pour toutes les vues.

On considère, ici, la variante selon laquelle l’information est obtenue pour chaque image de texture d’une vue. Suite à l’étape 32’, on obtient alors une information de mode d’obtention d₀ associée à l’image de texture décodée T^* ₀et une information de mode d’obtention di associée à l’image de texture décodée T^*i. L’information de mode d’obtention est ici obtenue en appliquant le même processus de détermination qui a été appliqué au codeur. Un exemple de processus de détermination est décrit plus loin en relation avec la figure 4.

Suite à l’étape 32’, si l’information do, respectivement di, indique le premier mode d’obtention M1 , lors d’une étape 34’, les données de synthèse D^* ₀, respectivement D^*i, associées à l’image de texture décodée T^* ₀, respectivement T^*i , sont décodées à partir du flux de données BS.

Si l’information do, respectivement di, indique le deuxième mode d’obtention M2, lors d’une étape 33’, les données de synthèse D⁺ ₀, respectivement D⁺i, associées à l’image de texture décodée T^* ₀, respectivement T^*i, sont estimées à partir des images de texture reconstruites de la vidéo multi-vues. Pour cela, l’estimation peut utiliser la texture décodée T^* ₀, respectivement T^*i , et éventuellement d’autres images de texture préalablement reconstruites. Lors d’une étape 35’, les textures décodées T^* ₀ et T^*i et les informations de synthèse décodées (D^* ₀, D^*i) ou estimées (D⁺ ₀, D⁺i) sont utilisées pour synthétiser une image d’une vue intermédiaire S0.5.

Le procédé de traitement de données de vidéo multi-vues décrit ici selon des modes particuliers de réalisation de l’invention s’applique notamment dans le cas où les données de synthèse correspondent à des informations de profondeur. Toutefois, le procédé de traitement de données s’applique à tous types de données de synthèse, tel qu’une carte de segmentation en objets.

Il est possible pour une vue donnée à un instant donné de la vidéo d’appliquer le procédé décrit ci-dessus à plusieurs types de données de synthèse. Par exemple, si le module de synthèse est aidé par une carte de profondeur et une carte de segmentation en objets, ces deux types de données de synthèse peuvent être partiellement transmis au décodeur, l’autre partie étant dérivée par le décodeur ou le module de synthèse. Il est à noter également qu’une partie de la texture peut être estimée, par exemple par interpolation. La vue correspondant à une telle texture estimée au décodeur est considérée dans ce cas comme une donnée de synthèse.

Les exemples décrits ici comprennent deux vues de texture, produisant respectivement deux cartes de profondeur, mais d’autres combinaisons sont bien sûr possibles, incluant le traitement d’une carte de profondeur à un instant donné, associée à une ou plusieurs vues de textures.

La figure 4A illustre des étapes d'un procédé de codage de vidéo multi-vues selon un mode particulier de réalisation de l'invention. Le procédé de codage est décrit ici dans le cas de deux vues comprenant respectivement les textures T₀ et Ti.

Lors d’une étape 40, chaque texture T₀ et Ti est codée et décodée pour fournir les textures décodées T^* ₀ et T^*i . Il est à noter que les textures peuvent ici correspondre à une image d’une vue, ou bien un bloc d’une image d’une vue ou à tout autre type de granularité relative à des informations de texture d’une vidéo multi-vues.

Lors d’une étape 41 , des données de synthèse, par exemple des cartes de profondeur D⁺ ₀ et D⁺i sont estimées à partir des textures décodées T^* ₀ et T^*i, en utilisant un estimateur de profondeur. Il s’agit ici du deuxième mode d’obtention M2 des données de synthèse.

Lors d’une étape 42, les données de synthèse D₀ et Di sont estimées à partir des textures non codées To et Ti, par exemple en utilisant un estimateur de profondeur. Lors d’une étape 43, les données de synthèse obtenues D₀ et Di sont ensuite codées, puis décodées pour fournir des données de synthèse reconstruites D^* ₀ et D^*i. Il s’agit ici du premier mode d’obtention M1 des données de synthèse.

Lors d’une étape 44, il est déterminé un mode d’obtention à utiliser au décodeur pour obtenir les données de synthèse parmi le premier mode d’obtention M1 et le deuxième mode d’obtention M2.

Selon un mode particulier de réalisation de l’invention, un élément de syntaxe est codé dans le flux de données pour indiquer le mode d’obtention sélectionné. Selon ce mode particulier de réalisation de l’invention, différentes variantes sont possibles en fonction de la manière dont le débit et la distorsion sont évalués selon le critère à minimiser J=D-i R, où R correspond au débit, D correspond à la distorsion et l le lagrangien utilisé pour l’optimisation.

Une première variante repose sur la synthèse d’une vue intermédiaire ou d’un bloc d’une vue intermédiaire, dans le cas où le mode d’obtention est codé pour chaque bloc, et d’évaluer la qualité de la vue synthétisée, en considérant les deux modes d’obtention des données de synthèse. Une première version de la vue intermédiaire est donc synthétisée pour le mode d’obtention M2 à partir des textures décodées T^* ₀ et T^*i et des données de synthèses estimées D⁺ ₀ et D⁺i à partir des textures décodées T^* ₀ et T^*i. Le débit correspond alors au coût de codage des textures T^* ₀ et T^*i et au coût de codage de l’élément de syntaxe indiquant le mode d’obtention sélectionné. Ce débit peut être calculé de manière précise par l’utilisation par exemple d’un codeur entropique (par exemple un codage binaire arithmétique, un codage à longueur variable, avec ou sans adaptation du contexte).

Une deuxième version de la vue intermédiaire est également synthétisée pour le mode d’obtention M1 à partir des textures décodées T^* ₀ et T^*i et des données de synthèse décodées D^* ₀ et DY Le débit correspond alors au coût de codage des textures T^* ₀ et T^*i et des données de synthèse D^* ₀ et D^*i auquel s’ajoute le coût de codage de l’élément de syntaxe indiquant le mode d’obtention sélectionné. Ce débit peut être calculé comme indiqué ci-dessus.

Dans les deux cas, la distorsion peut être calculée par une métrique comparant l’image ou le bloc de la vue synthétisée avec l’image ou le bloc non codé de la vue synthétisée à partir des textures non codées T₀ et Ti et des données de synthèse non codées D₀ et Di.

Le mode d’obtention fournissant le coût débit/distorsion J le plus faible est sélectionné.

Selon une autre variante, il est possible de déterminer la distorsion en appliquant une métrique sans référence sur l’image ou le bloc synthétisé pour éviter d’utiliser la texture originale non compressée. Une telle métrique sans référence peut par exemple mesurer dans l’image ou le bloc synthétisé, la quantité de bruit, de flou, d’effet de bloc, la netteté des contours, etc... Selon une autre variante, la sélection du mode d’obtention est faite par exemple en comparant les données de synthèse D₀ et Di estimées à partir des textures non compressées et les données de synthèse D⁺ ₀ et D⁺i estimées à partir des textures codées-décodées. Si les données de synthèse sont assez proches, selon un critère déterminé, l’estimation des données de synthèse côté client sera plus efficace que le codage et la transmission des données de synthèse. Selon cette variante, on évite la synthèse d’une image ou d’un bloc d’une vue intermédiaire.

D’autres variantes sont également possibles pour déterminer un mode d’obtention des données de synthèse, lorsque celles-ci correspondent à des cartes de profondeur. La sélection d’un mode d’obtention peut par exemple dépendre des caractéristiques de l’information de profondeur. Par exemple, une information de profondeur générée par ordinateur ou une profondeur capturée de haute qualité sont plus susceptibles d’être adaptées au mode d’obtention M1. Selon cette variante, les cartes de profondeur peuvent également être estimées à partir des textures décodées comme décrit ci-dessus et mises en compétition avec les cartes de profondeur générées par ordinateur ou capturées en haute qualité. Les cartes de profondeur générées par ordinateur ou capturées en haute qualité remplacent alors les cartes de profondeur estimées à partir des textures non compressées dans le procédé décrit ci-dessus.

Selon une autre variante, la qualité de la profondeur peut être utilisée pour déterminer un mode d’obtention des données de synthèse. La qualité de la profondeur, qui peut être mesurée par une métrique objective appropriée, peut comprendre des informations pertinentes. Par exemple, lorsque la qualité de la profondeur est faible, ou lorsque la cohérence temporelle de la profondeur est faible, il est probable que le mode d’obtention M2 soit le plus adapté pour obtenir les informations de profondeur.

Une fois que le mode d’obtention des données de synthèse est sélectionné à l’issu de l’étape 44, lors d’une étape 45, un élément de syntaxe d représentatif du mode d’obtention sélectionné est codé dans le flux de données. Lorsque le mode sélectionné et codé correspond au premier mode d’obtention M1 , les données de synthèse D₀ et Di sont également codées dans le flux de données, pour le bloc ou l’image considérée.

Selon un mode particulier de réalisation de l’invention, lorsque le mode sélectionné et codé correspond au deuxième mode d’obtention M2, lors d’une étape 46, des informations supplémentaires peuvent également être codées dans le flux de données. Par exemple, de telles informations peuvent correspondre à un ou des paramètres de contrôle à appliquer au décodeur ou par un module de synthèse lors de l'obtention de ladite donnée de synthèse selon le deuxième mode d’obtention. Il peut s’agit de paramètres permettant de contrôler un estimateur de données de synthèse, ou de profondeur par exemple.

Par exemple, les paramètres de contrôle peuvent contrôler les fonctionnalités d’un estimateur de profondeur, tel qu’augmenter ou diminuer l’intervalle de recherche, ou augmenter ou diminuer la précision.

Les paramètres de contrôle peuvent indiquer comment une donnée de synthèse doit être estimée côté décodeur. Par exemple, les paramètres de contrôle indiquent quel estimateur de profondeur utiliser. Par exemple, lors de l’étape 41 d’estimation des cartes de profondeur, l’encodeur peut tester plusieurs estimateurs de profondeur et sélectionner l’estimateur fournissant le meilleur compromis débit/distorsion parmi : un estimateur de profondeur basé pixel, un estimateur de profondeur basé sur des déformations triangulaires (triangle-warping en anglais), un estimateur de profondeur rapide, un estimateur de profondeur à réseaux de neurones monoculaires, un estimateur de profondeur à réseaux de neurones utilisant de multiples références. Selon cette variante, le codeur informe le décodeur ou le module de synthèse d’utiliser un estimateur de données de synthèse similaire.

Selon une autre variante ou en complément de la variante précédente, les paramètres de contrôle peuvent comprendre des paramètres d’un estimateur de profondeur tels que l’intervalle de disparité, la précision, le modèle de réseau de neurones, la méthode d’optimisation ou d’agrégation, les facteurs de lissage des fonctions d’énergie, les fonctions de coût (basée couleur, basée corrélation, basée fréquence), une carte de profondeur simple pouvant servir d’initialisation à l’estimateur de profondeur côté client, etc.... La figure 4B illustre des étapes d'un procédé de codage de vidéo multi-vues selon un autre mode particulier de réalisation de l'invention. Selon le mode particulier de réalisation décrit ici, le mode d’obtention des données de synthèse n’est pas codé dans le flux de données, mais déduit à partir des informations codées qui seront disponibles au décodeur.

Le procédé de codage est décrit ici dans le cas de deux vues comprenant respectivement les textures To et Ti.

Lors d’une étape 40’, chaque texture T₀ et Ti est codée et décodée pour fournir les textures décodées T^* ₀ et T^*i . Il est à noter que les textures peuvent ici correspondre à une image d’une vue, ou bien un bloc d’une image d’une vue ou à tout autre type de granularité relative à des informations de texture d’une vidéo multi-vues.

Lors d’une étape 44’, il est déterminé un mode d’obtention à utiliser au décodeur pour obtenir les données de synthèse parmi le premier mode d’obtention M1 et le deuxième mode d’obtention M2.

Selon le mode particulier de réalisation décrit ici, le codeur peut utiliser toute d’information qui sera disponible au décodeur, pour décider du mode d’obtention qui doit être appliqué au bloc ou à l’image considérée.

Selon une variante, la sélection d’un mode d’obtention peut être basée sur un paramètre de quantification, par exemple, un QP (pour Quantization Parameter en anglais) utilisé pour coder une image ou un bloc de texture. Par exemple, lorsque le paramètre de quantification est supérieur à un seuil déterminé, le deuxième mode d’obtention est sélectionné, sinon le premier mode d’obtention est sélectionné.

Selon une autre variante, lorsque les données de synthèse correspondent à des informations de profondeur, les données de synthèse D₀ et Di peuvent être générées par ordinateur ou capturées en haute qualité. Ce type de données de synthèse est plus adapté au mode d’obtention M1. Ainsi, lorsque c’est le cas, le mode d’obtention des données de synthèse sélectionné sera alors le mode d’obtention M1 . Selon cette variante, une métadonnée doit être transmise au décodeur pour indiquer l’origine de la profondeur (générée par ordinateur, capturée en haute qualité). Cette information peut être transmise au niveau séquence de vues. A l’issue de l’étape 44’, si le premier mode d’obtention M1 est sélectionné, lors d’une étape 42’, les données de synthèse D₀ et Di sont estimées à partir des textures non codées T₀ et Ti , par exemple en utilisant un estimateur de profondeur. Cette estimation n’est bien sûr pas réalisée dans le cas où les données de synthèse sont issues d’une génération par ordinateur ou d’une capture en haute qualité.

Lors d’une étape 47’, les données de synthèse obtenues D₀ et Di sont ensuite codées dans le flux de données.

Lorsque le mode d’obtention sélectionné correspond au deuxième mode d’obtention M2, selon un mode particulier de réalisation de l’invention, des informations supplémentaires peuvent également être codées dans le flux de données, lors d’une étape 46’. Par exemple, de telles informations peuvent correspondre à un ou des paramètres de contrôle à appliquer au décodeur ou par un module de synthèse lors de l'obtention de ladite donnée de synthèse selon le deuxième mode d’obtention. De tels paramètres de contrôle sont similaires à ceux décrits en relation avec la figure 4A.

La figure 5 illustre un exemple d’un schéma de traitement de données de vidéo multi-vues selon un mode particulier de réalisation de l’invention.

Selon un mode particulier de réalisation de l’invention, une scène est capturée par un système de capture de vidéo CAPT. Par exemple, le système de capture de vues comprend une ou plusieurs caméras capturant la scène.

Selon l’exemple décrit ici, la scène est capturée par deux caméras convergentes, localisées en-dehors de la scène et regardant vers la scène depuis deux emplacements distincts. Les caméras sont donc à des distances différentes de la scène et ont des angles/orientations différents. Chaque caméra fournit une séquence d’images non compressées. Les séquences d’images comprennent respectivement une séquence d’images de texture T₀ et Ti.

Les images de texture T₀ et Ti issues des séquences d’images fournies respectivement par les deux caméras sont codées par un codeur COD, par exemple un codeur MV-HEVC qui est un codeur vidéo multi-vues. Le codeur COD fournit un flux de données BS qui est transmis à un décodeur DEC, par exemple via un réseau de données.

Lors du codage, les cartes de profondeur D₀ et Di sont estimées à partir des textures non compressées T₀ et Ti et les cartes de profondeur D⁺ ₀ et D⁺i sont estimées à partir des textures décodées T^* ₀ et T^*i en utilisant un estimateur de profondeur, par exemple l’estimateur DERS. Une première vue T’o localisée à une position capturée par une des caméras est synthétisée, par exemple ici la position 0, en utilisant la carte de profondeur D₀ et une deuxième vue T”₀ localisée à la même position est synthétisée en utilisant la carte de profondeur D⁺ ₀. La qualité des deux vues synthétisées est comparée, en calculant par exemple le PSNR (pour Peak Signal to Noise Ratio en anglais) entre chacune des vues synthétisées T’o, T”o et la vue capturée T₀ localisée à la même position. La comparaison permet de sélectionner un mode d’obtention pour la carte de profondeur D₀ parmi un premier mode d’obtention selon lequel la carte de profondeur D₀ est codée et transmise au décodeur et un deuxième mode d’obtention selon lequel la carte de profondeur D⁺ ₀ est estimée au décodeur. Le même procédé est itéré pour la carte de profondeur Di associée à la texture capturée Ti

La figure 7A illustre un exemple d’une partie d’un flux de données BS selon ce mode particulier de réalisation de l’invention. Le flux de données BS comprend les textures T₀ et Ti codées et les éléments de syntaxe d₀ et di indiquant respectivement pour chacune des textures T₀ et Ti le mode d’obtention des cartes de profondeur D₀ et Di. S’il est décidé de coder et transmettre la carte de profondeur D₀, respectivement Di, la valeur de l’élément de syntaxe d₀, respectivement di est par exemple 0, le flux de données BS comprend alors la carte de profondeur D₀, respectivement Di, codée.

S’il est décidé de ne pas coder la carte de profondeur D₀, respectivement Di, la valeur de l’élément de syntaxe d₀, respectivement di est par exemple 1 , le flux de données BS ne comprend alors pas la carte de profondeur D₀ respectivement Di. Il peut éventuellement comprendre, selon les variantes de réalisation, un ou des paramètres de contrôle PAR à appliquer lors de l’obtention la carte de profondeur D⁺ ₀, respectivement D⁺i, par le décodeur ou par le module de synthèse.

Le flux de données codées BS est ensuite décodé par le décodeur DEC. Par exemple, le décodeur DEC est compris dans un smartphone (pour téléphone intelligent en français) équipé de fonctionnalités de décodage de navigation libre. Selon cet exemple, un utilisateur regarde la scène du point de vue fourni par la première caméra. Puis, l’utilisateur fait glisser son point de vue lentement vers la gauche jusqu’à l’autre caméra. Pendant ce processus, le smartphone affiche des vues intermédiaires de la scène qui n’ont pas été capturées par les caméras.

Pour cela, le flux de données BS est parcouru et décodé par un décodeur MV-HEVC par exemple, pour fournir deux textures décodées T^* ₀ et T^*i L’élément de syntaxe d_k, avec k=0 ou 1 , associé à chaque texture est décodé. Si la valeur de l’élément de syntaxe d_k est 0, le décodeur décode alors la carte de profondeur D^* _k à partir du flux de données BS.

Si la valeur de l’élément de syntaxe d_k est 1 , la carte de profondeur D⁺ _k est estimée au décodeur ou par un module de synthèse à partir des textures décodées T^* ₀ et T^*i.

Un module de synthèse SYNTH, par exemple basé sur un algorithme de synthèse VVS (pour Versatile View Synthesizer en anglais), synthétise des vues intermédiaires avec les textures décodées T^* ₀ et T^*i et les cartes de profondeur décodées D^* ₀ et D^*i ou estimées D⁺ ₀ et D⁺i selon le cas pour synthétiser des vues intermédiaires comprises entre les vues correspondant aux textures T₀ et Ti.

Le schéma de traitement de données de vidéo multi-vues décrit en figure 5 n’est pas limité au mode de réalisation décrit ci-dessus.

Selon un autre mode particulier de réalisation de l’invention, la scène est capturée par six caméras omnidirectionnelles localisées dans la scène, à partir de six localisations différentes. Chaque caméra fournit une séquence d’images 2D selon un format de projection equi- rectangulaire (ERP pour Equi-Rectangular Projection en anglais). Les six textures issues des caméras sont codées à l’aide d’un codeur 3D-HEVC qui est un codeur multi-vues, fournissant un flux de données BS qui est par exemple transmis via un réseau de données. Lors du codage de la séquence multi-vues, une matrice 2x3 de textures source T (textures issues des caméras) est fournie en entrée du codeur. La figure 6A illustre une telle matrice de texture comprenant les textures T_Xiyj avec i =0, 1 ou 2 et j= 0, 1 ou 2.

Selon le mode de réalisation décrit ici, une matrice de cartes de profondeur source D est estimée à partir des textures non compressées en utilisant un estimateur de profondeur basé sur un réseau de neurones. La matrice de texture T est codée et décodée en utilisant le codeur 3D-HEVC fournissant la matrice de textures décodées T^*. La matrice de textures décodées T^* est utilisée pour estimer la matrice de cartes de profondeur D⁺ en utilisant l’estimateur de profondeur basé sur le réseau de neurones.

Selon le mode particulier de réalisation de l’invention décrit ici, la sélection d’un mode d’obtention pour la carte de profondeur associée à une texture est réalisée pour chaque bloc ou unité de codage (aussi connu sous le nom de CTU pour Coding Tree Unit en anglais, dans le codeur HEVC).

La figure 6B illustre les étapes du procédé de codage de la profondeur pour un bloc courant D_x0yo(x,y,t) à coder, où x,y correspond à la position du coin supérieur gauche du bloc dans l’image et t l’instant temporel de l’image.

On considère le premier bloc de la première carte de profondeur à coder à l’instant t=0 de la séquence vidéo, identifié par D_x0yo(0,0,0) par la suite. Lors du codage de ce premier bloc D_x0yo(0,0,0), on considère que la profondeur pour tous les autres blocs qui n’ont pas encore été traités provient de la profondeur source estimée D. Les autres blocs qui n’ont pas encore été traités appartiennent aussi bien à la vue courante xOyO qu’aux autres vues voisines.

Le codage de la profondeur pour le bloc courant D_x0yo(0,0,0) est d’abord évalué en déterminant un mode de codage optimal parmi différents outils de codage de la profondeur d’un bloc disponible au codeur. De tels outils de codage peuvent comprendre tout type d’outils de codage de profondeur disponibles dans un codeur multi-vues.

Lors d’une étape 60, la profondeur D_x0yo(0,0,0) du bloc courant est codée à l’aide d’un premier outil de codage fournissant une profondeur codée-décodée D^* _x0yo(0,0,0) pour le bloc courant. Lors d’une étape 61 , une vue à une position d’une des caméras est synthétisée à l’aide du logiciel de synthèse VVS par exemple. Par exemple, une vue à la position x1 yO est synthétisée en utilisant les vues décodées aux positions xOyO, x2y0 et x1y1 de la matrice de textures T. Lors de la synthèse de la vue, la profondeur pour tous les blocs de la vidéo multi-vues qui n’ont pas encore été traités provient de la profondeur source estimée D. La profondeur pour tous les blocs de la vidéo multi-vues pour lesquels la profondeur a déjà été codée, provient de la profondeur codé-décodée ou estimée à partir des textures décodées selon le mode d’obtention qui a été sélectionné pour chaque bloc. La profondeur du bloc courant utilisée pour la synthèse de la vue à la position x1y0 est la profondeur codée-décodée D^* _x0yo(0,0,0) selon l’outil de codage en cours d’évaluation. Lors de l’étape 62, la qualité de la vue synthétisée est évaluée en utilisant une métrique d’erreur, par exemple une erreur quadratique, entre la vue synthétisée à la position x1y0 et la vue source T_xiyo, et le coût de codage de la profondeur du bloc courant selon l’outil testé est calculé.

Lors d’une étape 63, il est vérifié si tous les outils de codage de la profondeur ont été testés pour le bloc courant, et si ce n’est pas le cas, les étapes 60 à 62 sont itérées pour l’outil de codage suivant, sinon, le procédé passe à l’étape 64.

Lors de l’étape 64, l’outil de codage de la profondeur fournissant le meilleur compromis débit/distorsion est sélectionné, par exemple celui qui minimise le critère débit/distorsion J=D+XR.

Lors d’une étape 65, une autre vue à la même position que lors de l’étape 61 est synthétisée en utilisant les textures décodées aux positions xOyO, x2y0 et x1y1 avec le logiciel VVS et la profondeur du bloc courant estimée D⁺ _x0yo(0,0,0).

Lors d’une étape 66, la distorsion entre la vue synthétisée à la position x1y0 et la vue source T_xiy0, est calculée et le coût de codage de la profondeur est mis à 0, puisque selon ce mode d’obtention, la profondeur n’est pas codée mais estimée au décodeur.

Lors d’une étape 67, il est décidé en fonction du coût débit/distorsion de chaque mode d’obtention de la profondeur le mode d’obtention optimal. Autrement dit, le mode d’obtention de la profondeur minimisant le critère débit/distorsion est sélectionné parmi le codage de la profondeur avec l’outil de codage optimal sélectionné lors de l’étape 64 et l’estimation de la profondeur au décodeur.

Lors d’une étape 68, un élément de syntaxe est codé dans le flux de données indiquant le mode d’obtention sélectionné pour le bloc courant. Si le mode d’obtention sélectionné correspond au codage de la profondeur, la profondeur est codée dans le flux de données selon l’outil de codage optimal sélectionné précédemment.

Les étapes 60 à 68 sont itérées en considérant le bloc suivant à traiter D_x0yo(64,0,0) par exemple si le premier bloc à une taille 64x64. T ous les blocs de la carte de profondeur associée à la texture de la vue à la position xOyO sont traités de manière correspondante en prenant en compte les profondeurs codées-décodées ou estimées des blocs précédemment traités lors de la synthèse de vue.

Les cartes de profondeur des autres vues sont également traitées de manière similaire.

Selon ce mode particulier de réalisation de l’invention, le flux de données codées comprend différentes informations pour chaque bloc. S’il a été décidé de coder et transmettre la profondeur pour un bloc donné, le flux de données comprend pour ce bloc, la texture codée du bloc, un bloc de données de profondeur codées et l’élément de syntaxe indiquant le mode d’obtention de la profondeur pour le bloc. S’il a été décidé de ne pas coder la profondeur pour le bloc, le flux de données comprend pour le bloc, la texture codée du bloc, un bloc d’information de profondeur comprenant une même valeur de niveau de gris, et l’élément de syntaxe indiquant le mode d’obtention de la profondeur pour le bloc.

Il est à noter que dans certains cas, le flux de données peut comprendre les textures codées de manières consécutives pour tous les blocs, puis les données de profondeur et les éléments de syntaxe des blocs.

Le décodage peut par exemple être réalisé via un casque de réalité virtuelle équipé de fonctionnalités de navigation libre, et porté par un utilisateur. L’utilisateur regarde la scène d’un point de vue fourni par une des six caméras. L’utilisateur regarde autour et commence lentement à se déplacer à l’intérieur de la scène. Le casque suit le mouvement de l’utilisateur et affiche des vues correspondantes de la scène qui n’ont pas été capturées par les caméras. Pour cela, le décodeur DEC décode la matrice de texture T^* à partir du flux de données codées. Les éléments de syntaxe pour chaque bloc sont également décodés à partir du flux de données codées. La profondeur de chaque bloc est obtenue par le décodage du bloc de données de profondeur codées pour le bloc ou par l’estimation des données de profondeur à partir des textures décodées selon la valeur de l’élément de syntaxe décodé pour le bloc.

Une vue intermédiaire est synthétisée en utilisant la matrice de texture décodée T^* et la matrice de profondeur reconstruite comprenant pour chaque bloc les données de profondeur obtenues en fonction du mode d’obtention indiqué par l’élément de syntaxe décodé pour le bloc.

Selon un autre mode particulier de réalisation de l’invention, le schéma de traitement de données de vidéo multi-vues décrit en figure 5 s’applique également dans le cas où l’élément de syntaxe n’est pas codé au niveau bloc ou au niveau image.

Par exemple, le codeur COD peut appliquer un mécanisme de décision au niveau image pour décider si la profondeur doit être transmise au décodeur ou estimée après le décodage.

Pour cela, le codeur, qui fonctionne en mode débit variable, alloue, de manière connue, des paramètres de quantification (QPs) aux blocs des images de texture de sorte à atteindre un débit global cible.

Une moyenne des QPs alloués à chaque bloc d’une image de texture est calculée, en utilisant éventuellement une pondération entre blocs. Ceci fournit un QP moyen pour l’image de texture, représentatif d’un niveau d’importance de l’image.

Si le QP moyen obtenu est au-dessus d’un seuil déterminé, cela signifie que le débit visé est un bas débit. Le codeur décide alors de calculer la carte de profondeur pour cette image de texture à partir des textures non compressées de la vidéo multi-vues, de coder la carte de profondeur calculée et de la transmettre dans le flux de données.

Si le QP moyen est au-dessous ou égal au seuil déterminé, le débit visé est un haut débit. Le codeur ne calcule pas la profondeur pour cette image de texture et passe à l’image de texture suivante. Aucune profondeur n’est codée pour cette image, ni aucun indicateur n’est transmis au décodeur.

La figure 7B illustre un exemple d’une partie de flux de données codées selon ce mode particulier de réalisation de l'invention.

Le flux de données codées comprend notamment les textures codées pour chaque image, ici To et Ti Le flux de données codées comprend également des informations permettant d’obtenir le QP moyen de chaque image. Par exemple celui-ci peut être codé au niveau image, ou bien classiquement obtenu à partir des QPs codés pour chaque bloc dans le flux de données.

Pour chaque image de texture T₀ et T 1 , le flux de données codées comprend également les données de profondeur calculées et codées D₀ et/ou Di selon la décision prise au codeur. On remarque ici que les éléments de syntaxe d₀ et di ne sont pas codés dans le flux de données. Lorsqu’il a été décidé d’estimer la profondeur pour une image de texture au décodeur, le flux de données peut comprendre des paramètres PAR à appliquer lors de l’estimation de la profondeur. Ces paramètres ont déjà été décrits plus haut.

Le décodeur DEC parcourt le flux de données codées et décode les images de textures T^* ₀ et T^*i Le décodeur applique le même mécanisme de décision que le codeur, en calculant le QP moyen de chaque image de texture. Le décodeur en déduit ensuite, à l’aide du seuil déterminé, qui peut être transmis dans le flux de données ou bien connu du décodeur, si la profondeur pour une image de texture donnée doit être décodée ou bien estimée.

Le décodeur fonctionne ensuite de manière similaire à ce qui a été décrit en relation avec le premier mode de réalisation de la figure 5.

La figure 8 présente la structure simplifiée d’un dispositif de codage COD adapté pour mettre en oeuvre le procédé de codage selon l'un quelconque des modes particuliers de réalisation de l'invention décrit précédemment, notamment en relation avec les figures 2, 4A et 4B. Le codeur COD peut par exemple correspondre au codeur COD décrit en relation avec la figure 5.

Selon un mode particulier de réalisation de l'invention, les étapes du procédé de codage sont mises en oeuvre par des instructions de programme d'ordinateur. Pour cela, le dispositif de codage COD a l'architecture classique d'un ordinateur et comprend notamment une mémoire MEM, une unité de traitement UT, équipée par exemple d'un processeur PROC, et pilotée par le programme d'ordinateur PG stocké en mémoire MEM. Le programme d'ordinateur PG comprend des instructions pour mettre en oeuvre les étapes du procédé de codage tel que décrit ci-dessus, lorsque le programme est exécuté par le processeur PROC.

A l'initialisation, les instructions de code du programme d'ordinateur PG sont par exemple chargées dans une mémoire avant d'être exécutées par le processeur PROC. Le processeur PROC de l'unité de traitement UT met notamment en oeuvre les étapes du procédé de codage décrit ci-dessus, selon les instructions du programme d'ordinateur PG.

La figure 9 présente la structure simplifiée d’un dispositif de traitement de données de vidéo multi-vues DTV adapté pour mettre en oeuvre le procédé de traitement de données multi-vues selon l'un quelconque des modes particuliers de réalisation de l'invention décrit précédemment, notamment en relation avec les figures 2, 3A, et 3B. Le dispositif de traitement de données de vidéo multi-vues DTV peut par exemple correspondre au module de synthèse SYNTH décrit en relation avec la figure 5 ou à un dispositif comprenant le module de synthèse SYNTH et le décodeur DEC de la figure 5.

Selon un mode particulier de réalisation de l'invention, le dispositif de traitement de données de vidéo multi-vues DTV a l'architecture classique d'un ordinateur et comprend notamment une mémoire MEMO, une unité de traitement UTO, équipée par exemple d'un processeur PROCO, et pilotée par le programme d'ordinateur PGO stocké en mémoire MEMO. Le programme d'ordinateur PGO comprend des instructions pour mettre en oeuvre les étapes du procédé de traitement de données de vidéo multi-vues tel que décrit ci-dessus, lorsque le programme est exécuté par le processeur PROCO.

A l'initialisation, les instructions de code du programme d'ordinateur PGO sont par exemple chargées dans une mémoire avant d'être exécutées par le processeur PROCO. Le processeur PROCO de l'unité de traitement UTO met notamment en oeuvre les étapes du procédé de traitement de données de vidéo multi-vues décrit ci-dessus, selon les instructions du programme d'ordinateur PGO.

Selon un mode particulier de réalisation de l'invention, le dispositif de traitement de données de vidéo multi-vues DTV comprend un décodeur DEC adapté pour décoder un ou des flux de données codées représentatif d'une vidéo multi-vues.

Claims

Revendications

1. Procédé de traitement de données d’une vidéo multi-vues, le procédé de traitement comprend:

- la synthèse d'au moins une partie d’une image de ladite vue intermédiaire à partir d'au moins ladite image codée reconstruite et ladite au moins une donnée de synthèse obtenue.

2. Procédé de traitement de données de vidéo multi-vues selon la revendication 1 , dans lequel ladite au moins une donnée de synthèse correspond à au moins une partie d'une carte de profondeur.

3. Procédé de traitement de données de vidéo multi-vues selon la revendication 1 ou la revendication 2, dans lequel ladite au moins une information indiquant un mode d’obtention de la donnée de synthèse est obtenue par le décodage d’un élément de syntaxe.

4. Procédé de traitement de données de vidéo multi-vues selon la revendication 1 ou la revendication 2, dans lequel ladite au moins une information indiquant un mode d’obtention de la donnée de synthèse est obtenue à partir d’au moins une donnée codée pour l’image codée reconstruite.

5. Procédé de traitement de données de vidéo multi-vues selon la revendication 4, dans lequel le mode d’obtention est sélectionné parmi le premier mode d’obtention et le deuxième mode d’obtention en fonction d’une valeur d’un paramètre de quantification utilisé pour coder au moins ledit bloc.

6. Procédé de traitement de données de vidéo multi-vues selon l'une quelconque des revendications 1 à 5, comprenant en outre, lorsque ladite au moins une information indique que la donnée de synthèse est obtenue selon le deuxième mode d’obtention :

7. Dispositif de traitement de données de vidéo multi-vues, comprenant un processeur configuré pour :

8. Terminal comprenant un dispositif selon la revendication 7.

9. Procédé de codage de données de vidéo multi-vues, le procédé de codage comprend :

- le codage de ladite image dans le flux de données codées.

10. Procédé de codage de données de vidéo multi-vues selon la revendication 9, comprenant le codage dans le flux de données d’un élément de syntaxe associé à ladite information indiquant un mode d’obtention de la donnée de synthèse.

11. Procédé de codage de données de vidéo multi-vues selon l'une quelconque des revendications 9 à 10 comprenant en outre, lorsque l’information indique que la donnée de synthèse est obtenue selon le deuxième mode d’obtention :

12. Dispositif de codage de données de vidéo multi-vues, comprenant un processeur et une mémoire configurés pour :

- coder ladite image dans le flux de données codées.

13. Programme d'ordinateur comportant des instructions pour la mise en oeuvre du procédé de traitement de données de vidéo multi-vues selon l'une quelconque des revendications 1 à 6, ou pour la mise en oeuvre du procédé de codage de données de vidéo multi-vues selon l’une quelconque des revendications 9 à 11 , lorsque le programme est exécuté par un processeur.

14. Support d'enregistrement lisible par ordinateur, et comportant des instructions d'un programme d'ordinateur selon la revendication 13.