WO2013087935A1

WO2013087935A1 - Procédé de traitement de séquence vidéo sur les terminaux mobiles en temps réel

Info

Publication number: WO2013087935A1
Application number: PCT/EP2012/075828
Authority: WO
Inventors: Guillaume LEMOINE
Original assignee: Guillaume LEMOINE; Phonitive
Priority date: 2011-12-16
Filing date: 2012-12-17
Publication date: 2013-06-20
Also published as: US20140300814A1; FR2984668B3; EP2791778A1; FR2984668A3; US8866970B1

Abstract

Le procédé d'incrustation d'une image à incruster au sein d'une séquence vidéo, pour terminal mobile de type tablette ou smartphone, comporte des étapes : 100 : de choix d'une image à incruster, 300 : de lecture de la séquence vidéo, 400 : d'affichage de la trame, 500 : de détermination de la présence d'une zone d'incrustation sur la trame, ladite zone d'incrustation étant préalablement identifiée, ou déduite selon un algorithme prédéfini, 600 : d'application d'une déformation sur l'image à incruster, de manière à faire coïncider cette image à incruster à la forme de la zone d'incrustation, 700 : d'affichage de l'image combinant la trame et l'image à incruster, disposée à la place de la zone d'incrustation.

Description

PROCÉDÉ DE TRAITEMENT DE SÉQUENCE VIDÉO SUR LES TERMINAUX

MOBILES EN TEMPS RÉEL

La présente invention est relative au domaine général du traitement d'images, notamment de séquences vidéo sur des terminaux mobiles. Elle concerne plus particulièrement un procédé d'incrustation d'images en temps réel au sein d'une séquence vidéo représentant par exemple des personnages en mouvement.

Préambule et art antérieur

On connaît déjà dans ce domaine des applications qui réalisent un suivi ("tracking") et un traitement informatique permettant de créer des transformations morphologiques successives résultants de calculs complexes ("morphing") sur un flux video. Néanmoins ces applications nécessitent généralement un traitement préalable et ne peuvent donc être qualifiées d'applications temps réel.

On connaît de même d'autres applications web (écrites en langage flash) qui permettent d'intégrer une image dans un flux vidéo en temps réel. Un traitement est appliqué à l'image afin qu'elle suive les déformations dues aux perspectives présentes dans le flux vidéo. Cette solution est uniquement disponible sur les réseaux interconnectés. Exposé de l'invention

L'invention concerne un procédé de traitement de séquence vidéo sur les terminaux mobiles, plus précisément, une incrustation en temps réel d'image dans le flux vidéo. Après un calcul des points d'incrustation, le flux vidéo est lu avec les images incrustées. Afin de réaliser l'incrustation, l'image est fusionnée au flux vidéo, trame par trame. Pour chaque trame, l'image est positionnée au bon endroit. Ce procédé implique le fait que l'image subisse en temps réel une transformation matricielle trapézoïdale afin qu'elle puisse s'adapter au flux vidéo.

L'invention vise en premier lieu un procédé d'incrustation d'une image à incruster au sein d'une séquence vidéo, pour terminal mobile de type tablette ou smartphone,

caractérisé en ce qu'il comporte des étapes :

100 : de choix d'une image à incruster,

300 : de lecture de la séquence vidéo,

400 : d'affichage de la trame,

500 : de détermination de la présence d'une zone d'incrustation sur la trame, ladite zone d'incrustation étant préalablement identifiée sur la trame, ou déduite du contenu de la trame selon un algorithme prédéfini,

et si une zone d'incrustation est identifiée sur la trame courante,

700 : d'affichage de l'image combinant la trame et l'image à incruster, disposée à la place de la zone d'incrustation.

On note que l'étape 100 peut intervenir également après le commencement de l'étape 300 de lecture de la vidéo.

Dans un mode particulier de mise en œuvre, le procédé comporte une étape 600 d'application d'une déformation sur l'image à incruster, de manière à faire coïncider cette image à incruster à la forme de la zone d'incrustation.

Dans un mode particulier de mise en œuvre, le procédé comporte une étape 750 de suivi du mouvement d'une zone d'incrustation, par identification des mouvements de pixels, soit en temps réel en utilisant les algorithmes connu de détection de mouvements, formes, ou reconnaissance d'objet par apprentissage, soit en pré-production.

Selon un mode de mise en œuvre, dans l'étape 500, l'identification de la zone d'incrustation est faite par entrée tactile par un utilisateur sur l'interface d'affichage du terminal mobile

Alternativement, dans l'étape 500, dans le cas où les points d'incrustation ne sont pas pré-calculés, des points d'incrustation définissant la zone d'incrustation sont calculés en temps réel par le terminal mobile, en utilisant des procédés de reconnaissances d'images par détection de mouvement ou reconnaissance d'objets par apprentissage.

Dans un mode particulier de mise en œuvre, dans l'étape 500, dans le cas d'une détermination préalable des points d'incrustation, un fichier comportant les coordonnées des points d'incrustation dans la séquence vidéo est associé à ladite séquence vidéo, de manière à être lu (au plus tard en même temps) par le terminal mobile.

Dans un mode particulier de mise en œuvre, dans l'étape 500, dans le cas d'une zone d'incrustation de forme trapézoïdale, le procédé comporte des moyens de lecture d'un tableau de coordonnées, associé à la séquence vidéo, ces coordonnées représentant, pour chaque trame, les positions des quatre points extrêmes de la zone d'incrustation, c'est-à-dire de l'image à incruster dans la vidéo.

Dans un mode particulier de mise en œuvre, dans l'étape 700, pour insérer l'image à incruster, lorsque la vidéo est affichée en temps réel sur le terminal mobile, le procédé met en œuvre une fonction chargée de chercher la transformation de l'image à incruster par rapport à la trame courante, ladite fonction étant appelée à chaque affichage de trame.

Dans un mode particulier de mise en œuvre, dans l'étape 700, pour insérer l'image à incruster, l'image de la vidéo est fusionnée avec l'image à incruster par re-calcul d'une image résultante par la fusion des données brutes des deux images, puis celle-ci est affichée.

Dans un mode particulier de mise en œuvre, le procédé comporte des étapes suivantes :

1320 lecture d'une trame de la séquence vidéo,

1330 division de la trame en au moins deux parties,

1350 lecture de la première partie représentant la séquence vidéo d'origine,

1360 lecture des informations d'opacité sur une seconde partie de la trame, correspondant à la trame secondaire,

1370 application de l'opacité sur la trame principale : détection des variations de couleur sur la trame inférieure sur un canal couleur pour modifier l'opacité sur la trame principale,

1800 affichage des masques de couleur.

Avantageusement, dans le cas où l'image à incruster est un masque de couleur le procédé comporte une étape de synchronisation du masque avec la séquence vidéo.

Dans un mode particulier de mise en œuvre, dans ce cas, la séquence vidéo et le masque sont synchronisés par un processus de double vidéo : la séquence vidéo originale se jouant dans une première partie, destinée à être affichée, et une seconde partie, non affichée, de cette séquence vidéo comportant uniquement les informations permettant les changements de couleur et la modification de l'opacité de la séquence vidéo, le procédé comportant, lors de l'affichage de la séquence vidéo sur le terminal mobile, une étape d'application des transformations d'opacité et/ou de couleurs données par la seconde partie sur la première partie.

Dans un mode plus particulier de réalisation, afin de différencier l'opacité des masques de couleurs appliqués, les informations d'opacité, ou de masque sont encodées dans un format de gestion des couleurs, un canal de couleur gérant l'opacité, et les autres canaux gérant les objets.

Présentation des figures

Les caractéristiques et avantages de l'invention seront mieux appréciés grâce à la description qui suit, description qui expose les caractéristiques de l'invention au travers d'un exemple non limitatif d'application.

La description s'appuie sur les figures annexées qui représentent :

Figure 1 : un organigramme des étapes impliquées dans le présent procédé,

Figure 2 : une illustration d'une trame d'une séquence vidéo dans le cas d'application d'une opacité sur une partie de l'image.

Description détaillée d'un mode de réalisation de l'invention

L'invention met en œuvre un terminal d'affichage, ici mais non limitativement de type smartphone. Ce terminal d'affichage est, dans le présent exemple non limitatif de réalisation, supposé doté de moyens de mémorisation de séquences d'images, de moyens de calcul, par exemple de type microprocesseur, adaptés à exécuter une application logicielle préalablement chargée en mémoire, de moyens d'affichage d'images, et avantageusement de moyens d'entrée de données par un utilisateur dudit terminal.

L'invention concerne un procédé de traitement d'une séquence vidéo sur un terminal mobile, notamment de type smartphone. La séquence vidéo dont il est ici question à titre d'exemple comporte des personnages ou des objets se déplaçant au sein de la zone d'affichage durant la séquence vidéo.

Le but du procédé est alors d'incruster une image, dite image à incruster, sur une partie d'un objet (par exemple le visage d'un personnage), dite zone d'incrustation, cette image à incruster suivant le mouvement de la zone d'incrustation de cet objet au cours de la séquence vidéo, de manière à créer une impression de réalisme.

On entend par image :

toute image 2D

toute image d'un objet 3D

tous masque de couleurs.

une séquence vidéo composée d'images successives La zone d'incrustation peut typiquement être le visage d'un personnage en mouvement, ledit personnage se rapprochant ou s'éloignant de la caméra, et le visage étant de face ou se tournant durant la séquence. La zone d'incrustation est une forme englobant la partie de l'objet à remplacer par l'image à incruster.

Typiquement, l'image à incruster est de forme trapézoïdale, rectangulaire, polygonale ou elliptique. La forme de la zone d'incrustation est, dans le présent exemple non limitatif de mise en œuvre du procédé, de même type que l'image à incruster : par exemple, si l'image à incruster présente la forme d'un polygone, la zone d'incrustation sera un polygone présentant le même nombre d'arêtes, tout en étant éventuellement déformé (angles différents et longueurs des arêtes différentes). De même, si l'image à incruster a la forme d'une ellipse, la zone d'incrustation sera également elliptique.

Dans le cas fréquent où la zone d'incrustation subit une déformation durant la séquence vidéo du fait du mouvement de l'objet relativement au point de prise de vue, le procédé permet de déterminer une fonction de déformation de la zone d'incrustation, puis de déformer de façon analogue l'image à incruster.

Dans un mode particulier de réalisation, ce procédé inclut une étape de pré-calcul de points particuliers de la séquence vidéo, dits points d'incrustation (c'est à dire des coordonnées dans le temps et sur une zone prédéterminée de la zone d'affichage) définissant la zone d'incrustation, afin de ne pas nécessiter d'intervention tierce durant l'incrustation, et d'être assez économe en ressources de calcul pour pouvoir être utilisé sur des terminaux mobiles.

Dans le cas oùles points d'incrustation ne sont pas pré-calculés, des points d'incrustation sont calculés en temps réel par le terminal mobile. Ceci est réalisé par exemple en utilisant des procédés de reconnaissances d'images par détection de mouvement ou reconnaissance d'objets par apprentissage.

Puis, afin de réaliser l'incrustation, l'image à incruster est fusionnée au flux vidéo, trame par trame.

Pour chaque trame, l'image à incruster est positionnée au bon endroit, c'est à dire à l'emplacement de la zone d'incrustation, en en reproduisant la forme.

Le positionnement à l'emplacement de la zone d'incrustation nécessite une identification préalable d'une zone mouvante intégrée au flux vidéo, par identification des mouvements de pixels soit en temps réel en utilisant les algorithmes connu de détection de mouvements, formes, ou reconnaissance d'objet par apprentissage, soit en pré-production.

Dans le cas de pré-production, c'est à dire d'une détermination préalable des points d'incrustation, manuellement ou par exécution d'une application logicielle si l'extraction des points d'incrustation est complexe (par exemple dans le cas de recherche d'un élément particulier de l'objet), un fichier comportant les coordonnées des points d'incrustation dans la séquence vidéo est associé à ladite séquence vidéo, de manière à être lu (au plus tard en même temps) par le terminal mobile.

De plus, il implique le fait que l'image subisse en temps réel une transformation matricielle, par exemple trapézoïdale afin qu'elle puisse s'adapter au flux vidéo. Cette transformation est calculée pour que l'image puisse être déformée afin de s'adapter à la perspective.

Dans ce cas d'une zone d'incrustation trapézoïdale, à chaque séquence vidéo correspond un tableau de coordonnées qui représentent pour chaque trame, les positions des quatre points extrêmes de la zone d'incrustation, c'est- à-dire de l'image à placer dans la vidéo.

Pour insérer l'image à incruster, le procédé peut utiliser deux techniques :

1 / Soit, lorsque la vidéo est jouée (c'est à dire affichée en temps réel), une fonction chargée de chercher la transformation par rapport à la trame courante est appelée à chaque affichage de trame.

Si des coordonnées d'une zone d'incrustation sont disponibles pour cette trame, l'image à incruster est affichée, à ces coordonnées, après avoir été déformée pour être fixée sur les coordonnées correspondantes (quatre points dans le cas d'un trapèze). C'est à dire que, dans un mode particulier de mise en œuvre, non limitatif, la forme de l'image à incruster et sa position dans l'image doivent correspondre exactement à la forme et la position de la zone d'incrustation à ce moment de la séquence vidéo.

Dans le cas contraire, si les coordonnées d'une zone d'incrustation ne sont pas disponibles, l'image à incruster n'est pas affichée.

21 Soit, l'image de la vidéo est fusionnée avec l'image à incruster par recalcul d'une image résultante par la fusion des données brutes des deux images, puis celle-ci est affichée. Cette deuxième technique permet d'économiser les ressources du terminal mobile.

Elle permet de réaliser des vidéos qui réagissent au toucher et se modifient en fonction de ce dernier dans une utilisation sur un terminal mobile disposant d'une fonction tactile.

Par exemple, dans une publicité, si l'utilisateur touche le pantalon d'un personnage sur l'affichage vidéo, le pantalon passe en subrillance (qui correspond à la zone à incruster). Une information sur ce pantalon peut alors être affichée dans une nouvelle fenêtre.

En référence à la figure 1 , on voit que le procédé comporte une première étape 100 de choix de l'image à incruster.

Dans une seconde étape 200, l'image à incruster est redimensionnée par un ajustement de l'utilisateur.

Ensuite, dans l'étape 300, la séquence vidéo est lue. Puis une trame de cette séquence vidéo est affichée dans l'étape 400.

Ensuite, l'étape 500 détermine si la trame comporte une zone d'incrustation (pour vérifier si cette image est susceptible de recevoir une image à incruster).

Si ce n'est pas le cas, le procédé retourne à l'étape 400, sinon, l'étape

600 est lancée.

Dans cette étape 600, une déformation trapézoïdale est appliquée à l'image à incruster de manière à ce que la forme de l'image à incruster corresponde à la forme de la zone d'incrustation.

Puis cette image est affichée dans l'étape 700, en remplacement de la zone d'incrustation. Après cette dernière étape, le procédé retourne à l'étape 400.

Détermination des plans d'incrustation et de l'opacité des objets à incruster

Afin de pouvoir appliquer des effets (ombres, effet de lumière, passage au second plan de l'image à incruster) sur la séquence vidéo, dans une variante de réalisation, une étape du procédé consiste à rendre la séquence vidéo plus ou moins opaque par endroits.

L'image à incruster pouvant être un masque de couleur, il est nécessaire de pouvoir synchroniser le masque avec la séquence vidéo concernée : l'affichage du masque sur la séquence de video doit être parfaitement synchronisé.

Pour ce faire, la séquence vidéo et le masque sont synchronisés par un processus de double vidéo : la séquence vidéo originale (sans masque) se joue dans la partie visible, mais une partie non affichée de cette séquence vidéo est composée par le masque.

Afin de différencier l'opacité des masques de couleurs appliqués, les informations d'opacité, ou de masque sont encodées dans le format RGB (ou tout autre système de gestion des couleurs), un canal de couleur gérant l'opacité, et les autres canaux gérant les objets.

Par exemple, comme on le voit sur la figure 2, l'objet à incruster est une voiture 210, et l'on souhaite changer la couleur de la tête d'un piéton 220 présent sur la séquence vidéo originale.

L'opacité est codée sur le canal B (Bleu) et le changement de couleur sur le canal R (Rouge).

La séquence vidéo est ici décomposée en deux parties : une première partie 230, ici mais non limitativement la partie supérieure de l'image du fichier vidéo transmis, représentant l'objet incrusté (la voiture) et la séquence vidéo originale, une seconde partie 240, ici mais non limitativement la partie inférieure de l'image du fichier vidéo transmis, n'affichant que les informations permettant les changements de couleur et la modification de l'opacité de la séquence vidéo.

Les informations sont donc encodées dans un seul fichier vidéo, et l'affichage est chargé d'appliquer les transformations d'opacité et/ou de couleurs données par la partie inférieur sur la partie supérieure. Le procédé comporte alors des étapes additionnelles suivantes :

1310 Chargement du fichier vidéo à modifier par incrustation d'une image,

1320 Lecture d'une trame de la séquence vidéo,

1330 Division de la trame en au moins deux parties,

1350 Lecture de la partie supérieure (vidéo d'origine),

1360 Lecture des informations d'opacité sur une seconde partie de la trame, correspondant à sur la trame secondaire,

1370 Application de l'opacité sur la trame principale : détection des variations de couleur sur la trame inférieure sur un canal couleur pour modifier l'opacité sur la trame principale.

Par exemple, on considère que l'opacité est gérée sur le canal rouge, dans la trame inférieure a trame inférieure a une pixel ayant une couleur en RGB correspondant a une valeur FF0000 en hexadécimal. On récupère donc la valeur R ici FF, pour l'appliquer sur l'opacité du pixel à afficher sur la trame principale. Le canal Alpha (opacité) de la trame principale aura donc pour valeur pour le pixel correspondant FF.

800 Affichage des masques de couleur

La transformation peut être un changement de couleur. Pour pouvoir modifier la couleur de différents objets en temps réel, il faut être capable de créé des masques correspondants.

Chaque masque est encodé en RGB sur la seconde partie de la trame. Cette encodage est composé de 2 parties : un canal est utilisé pour gérer l'opacité du masque, un autre canal pour identifier le masques.

Prenons par exemple une opacité sur encodé sur le canal R. Si la valeur du pixel est AA1 122, il sera possible d'en déduire que le masque 1 122 doit être affiché, avec une opacité ayant pour valeur AA. Avantages

Le procédé tel qu'il a été décrit présente plusieurs avantages:

- l'image incrustée donne une impression de se fondre dans le contexte de la vidéo.

- l'image apparaît exactement au moment où la trame du flux vidéo est affichée.

- plusieurs images peuvent être incrustées dans une vidéo, et en même temps, si plusieurs zones d'incrustations ont été définies.

- le calcul de la position de l'image se fait en temps réel.

- Le calcul et l'affichage se fait sur un terminal mobile.

- Le procédé permet de modifier l'objet de la vidéo par une interaction tactile.

Claims

REVENDICATIONS

1 . Procédé d'incrustation d'une image à incruster au sein d'une séquence vidéo, pour terminal mobile de type tablette ou smartphone,

caractérisé en ce qu'il comporte des étapes :

100 : de choix d'une image à incruster,

300 : de lecture de la séquence vidéo,

400 : d'affichage de la trame,

et si une zone d'incrustation est identifiée sur la trame courante,

2. Procédé selon la revendication 1 , caractérisé en ce qu'il comporte une étape 600 d'application d'une déformation sur l'image à incruster, de manière à faire coïncider cette image à incruster à la forme de la zone d'incrustation.

3. Procédé selon l'une quelconque des revendications 1 à 2, caractérisé en ce qu'il comporte une étape 750 de suivi du mouvement d'une zone d'incrustation, par identification des mouvements de pixels, soit en temps réel en utilisant les algorithmes connu de détection de mouvements, formes, ou reconnaissance d'objet par apprentissage, soit en pré-production.

4. Procédé selon l'une quelconque des revendications 1 à 3, caractérisé en ce que, dans l'étape 500, l'identification de la zone d'incrustation est faite par entrée tactile par un utilisateur sur l'interface d'affichage du terminal mobile

5. Procédé selon l'une quelconque des revendications 1 à 4, caractérisé en ce que, dans l'étape 500, dans le cas où les points d'incrustation ne sont pas pré-calculés, des points d'incrustation définissant la zone d'incrustation sont calculés en temps réel par le terminal mobile, en utilisant des procédés de reconnaissances d'images par détection de mouvement ou reconnaissance d'objets par apprentissage.

6. Procédé selon l'une quelconque des revendications 1 à 4, caractérisé en ce que, dans l'étape 500, dans le cas d'une détermination préalable des points d'incrustation, un fichier comportant les coordonnées des points d'incrustation dans la séquence vidéo est associé à ladite séquence vidéo, de manière à être lu (au plus tard en même temps) par le terminal mobile.

7. Procédé selon la revendication 6, caractérisé en ce que, dans l'étape 500, dans le cas d'une zone d'incrustation de forme trapézoïdale, le procédé comporte des moyens de lecture d'un tableau de coordonnées, associé à la séquence vidéo, ces coordonnées représentant, pour chaque trame, les positions des quatre points extrêmes de la zone d'incrustation, c'est-à-dire de l'image à incruster dans la vidéo.

8. Procédé selon l'une quelconque des revendications 1 à 7, caractérisé en ce que, dans l'étape 700, pour insérer l'image à incruster, lorsque la vidéo est affichée en temps réel sur le terminal mobile, le procédé met en œuvre une fonction chargée de chercher la transformation de l'image à incruster par rapport à la trame courante, ladite fonction étant appelée à chaque affichage de trame.

9. Procédé selon l'une quelconque des revendications 1 à 7, caractérisé en ce que, dans l'étape 700, pour insérer l'image à incruster, l'image de la vidéo est fusionnée avec l'image à incruster par re-calcul d'une image résultante par la fusion des données brutes des deux images, puis celle-ci est affichée.

10. Procédé selon l'une quelconque des revendications 1 à 9, caractérisé en ce qu'il comporte des étapes suivantes :

1320 lecture d'une trame de la séquence vidéo, 1330 division de la trame en au moins deux parties,

1800 affichage des masques de couleur.

1 1 . Procédé selon la revendication 10, caractérisé en ce que, dans le cas où l'image à incruster est un masque de couleur, le procédé comporte une étape de synchronisation du masque avec la séquence vidéo.

12. Procédé selon la revendication 1 1 , caractérisé en ce que la séquence vidéo et le masque sont synchronisés par un processus de double vidéo : la séquence vidéo originale se jouant dans une première partie, destinée à être affichée, et une seconde partie, non affichée, de cette séquence vidéo comportant uniquement les informations permettant les changements de couleur et la modification de l'opacité de la séquence vidéo, le procédé comportant, lors de l'affichage de la séquence vidéo sur le terminal mobile, une étape d'application des transformations d'opacité et/ou de couleurs données par la seconde partie sur la première partie.

13. Procédé selon la revendication 12, caractérisé en ce que, afin de différencier l'opacité des masques de couleurs appliqués, les informations d'opacité, ou de masque sont encodées dans un format de gestion des couleurs, un canal de couleur gérant l'opacité, et les autres canaux gérant les objets.