WO2018109372A1

WO2018109372A1 - Procédé de traitement d'image numérique

Info

Publication number: WO2018109372A1
Application number: PCT/FR2017/053534
Authority: WO
Inventors: Khrystyna Kyrgyzova
Original assignee: Cyclopus
Priority date: 2016-12-14
Filing date: 2017-12-13
Publication date: 2018-06-21
Also published as: FR3060180A1

Abstract

L'invention concerne un procédé de traitement d'une image initiale comprenant un sujet et un fond, comprenant si l'image initiale est en couleur, transformer (100) au moins un des canaux de l'image initiale en une image en niveaux de gris, et enregistrer ladite image en niveaux de gris dans une mémoire. Il est essentiellement caractérisé par déterminer (110) le contraste de l'image en niveaux de gris afin d'obtenir une matrice comprenant un ensemble de coefficients correspondant chacun à un pixel (P) de l'image en niveaux de gris, comparer (140) la valeur de chaque coefficient à une valeur seuil (Th), éventuellement respective, pour obtenir une image binarisée, sélectionner (145) les coefficients supérieurs à la valeur seuil, afin d'obtenir un masque binaire comprenant un ensemble de contours, remplir (150) l'intérieur des contours du masque binaire de façon homogène.

Description

PROCÉDÉ DE TRAITEMENT D'IMAGE NUMÉRIQUE.

DOMAINE DE L'INVENTION

La présente invention concerne le domaine du traitement d'image numérique, ci-après « image » par concision, prise par un dispositif de prise de vue, typiquement un appareil photo ou une caméra, ce pourquoi on entend indistinctement ici « image » et « prise de vue », le traitement d'image étant basé sur des calculs matriciels.

Une vidéo comprend une pluralité d'images séquentielles. Sauf précision contraire, on entend ici par « image » indistinctement une image photographique ou une image individuelle d'une vidéo. Pour acquérir des images, le dispositif de prise de vue comprend un dispositif optique (par exemple un ensemble d'au moins une lentille), un capteur numérique (par exemple un capteur CMOS / CCD / photodiodes). Typiquement, on prévoit également un dispositif électronique comprenant un calculateur (typiquement un processeur et par exemple un DSP), qui effectue au moins un algorithme de traitement d'images, ledit dispositif électronique pouvant être embarquédans le dispositif de prise de vue ou dans un ordinateur distinct.

Le traitement selon la présente invention consiste a minima à détecter le fond et/ou le sujet d'une image initale, afin de pouvoir ensuite par exemple séparer le sujet du fond sur lequel celui-ci se trouve, que ce soit dans une image individuelle ou pour toutes les images d'uneséquence vidéo, en vue notamment de fusionner le sujet avec le fond d'une autre image, dite image de fond, pour ajouter un objet virtuel entre le sujet et le fond, ou encore en supprimant des objets se situant devant le sujet (premier plan).

L'image de fond peut être une image d'une séquence vidéo.

Par définition, on entend ici par

« sujet » : tout élément situé dans le plan de mise au point du système optique ayant réalisé l'image,

« fond » (ou background par anglicisme) toutes les autres parties de l'image, devant ou derrière le sujet, « scène » l'ensemble des éléments (sujet(s), objet(s), etc.) réels détectés par le capteur du dispositif de prise de vue et représentés dans l'image.

En général, le sujet de la scène a des propriétés optiques différentes de celles du fond. 5Par exemple, dans le domaine de la vidéosurveillance, le sujet correspond à tous les objets (personnes, voitures etc.) qui se déplacent sur la scène, et le fond est un environnement fixe (rue, intérieur du bâtiment, etc.).

En vidéo, l'intérêt de la détection de fond est de pouvoir filmer un sujet dans un lOenvironnement quelconque, et par exemple d'intégrer ensuite le sujet sur un autre fond pour créer un autre environnement (autre décor et/ou ajout d'informations, animations supplémentaires, etc.) par montage vidéo.

Traditionnellement, l'opération d'extraction du sujet, pour pouvoir être automatisée, 15nécessite de réaliser la prise de vue dans un studio équipé d'un fond de couleur uniforme, généralement vert ou bleu. C'est ensuite en temps réel ou en post-production que le fond est « supprimé » informatiquement, en éliminant tous les pixels de la couleur uniforme choisie. Cette technique présente l'inconvénient de nécessiter des conditions de tournages très contrôlées (uniformité du fond, de l'éclairage, distance minimum du sujet par rapport au fond).

20

En outre, cette technique peut causer des erreurs ou des imperfections de traitements dans certains cas, par exemple elle peut éliminer des objets présentant au moins localement une teinte de même couleur que la couleur uniforme choisie et nécessiter diverses opérations dont un traitement colorimétrique.

25

Par ailleurs, l'opération de post-production est souvent au moins partiellement manuelle, elle peut être longue et fastidieuse, et nécessite des outils de calcul puissants pour pouvoir être réalisée en temps réel.

30 RESUME DE L'INVENTION

Plus précisément, l'invention concerne selon un premier de ses objets, un procédé de traitement d'un ensemble d'au moins une image numérique initiale comprenant un sujet et un fond, le procédé comprenant des étapes consistant à :

35 - si l'image initiale est en couleur, transformer (100) au moins un des canaux de l'image initiale en une image en niveaux de gris en niveaux de gris, et

enregistrer ladite image en niveaux de gris dans une mémoire. Il est essentiellement caractérisé en ce qu'il comprend en outre, des étapes consistant à : déterminer (110) le contraste de l'image en niveaux de gris, en calculant le niveau de netteté locale pour chaque pixel de l'image en niveaux de gris, afin d'obtenir une matrice d'image contrastée comprenant un ensemble de coefficients, chaque coefficient de la matrice de l'image contrastée correspondant à un pixel (P) de l'image en niveaux de gris, comparer (140) la valeur de chaque coefficient de la matrice de l'image contrastée à une valeur seuil (Th), éventuellement respective, enregistrée dans une mémoire, pour obtenir une image binarisée,

sélectionner (145) les coefficients de la matrice de l'image contrastée dont la valeur est supérieure à la valeur seuil, afin d'obtenir un masque binaire comprenant un ensemble de contours, et

remplir (150) l'intérieur des contours du masque binaire de façon homogène.

On peut prévoir en outre une étape (180) de filtrage des contours du masque binaire.

De préférence, l'étape (180) de filtrage des contours du masque binaire comprend une étape (190) de filtrage guidé dans laquelle l'image initiale en niveaux de gris sert d'image-guide sur le masque binaire, pour obtenir un masque en niveaux de gris. Dans un mode de réalisation, l'ensemble d'au moins une image numérique initiale est une séquence vidéo, le procédé comprenant en outre une étape (200) de filtrage temporel d'un nombre prédéfini d'images individuelles séquentielles de la vidéo.

De préférence, l'étape (110) de détermination contraste comprend une étape (130)consistant à calculer la matrice (c" ) résultante de la convolution de chacun des pixels de la matrice ( j " ) de l'image en niveaux de gris par un noyau Laplacien, le procédé comprenant optionnellement en outre et préalablement à l'étape (130), une étape (120) de filtrage passe- bas de l'image en niveaux de gris. On peut prévoir que la valeur du seuil (Th) est prédéterminée.

Le procédé peut comprendre en outre une étape consistant à :

extraire (160) le sujet de l'image initiale par application du masque binaire ou du masque en niveaux de gris sur l'image initiale. Le procédé peut comprendre en outre une étape de mélange par superposition de l'image initiale et de l'image de fond, réalisée en fonction de la valeur des coefficients de la matrice du masque, comme suit :

pour les coefficients de la matrice du masque dont la valeur est 1, les valeurs d'intensité des pixels du sujet de l'image initiale sont conservées sans modification, et les valeurs d'intensité des pixels du sujet de l'image de fond sont remplacées par lesdites valeurs d'intensité des pixels du sujet de l'image initiale, pour les coefficients de la matrice du masque dont la valeur est 0, les valeurs d'intensité des pixels du sujet de l'image initiale sont remplacées par les valeurs d'intensité des pixels du sujet de l'image de fond, et

pour les coefficients de la matrice du masque dont la valeur est comprise entre 0 et 1, l'intensité des pixels de l'image résultant dudit mélange est composée des valeurs des pixels du sujet de l'image initiale multipliées par les coefficients du masque plus les valeurs des pixels de l'image du fond multipliées par les coefficients inverses du masque..

On peut prévoir que l'étape de remplissage (150) comprend :

une opération de remplissage qui consiste à remplir l'intérieur des contours du masque, et optionnellement en outre :

une opération de dilatation qui consiste à grossir les traits de l'image binarisée selon un grossissement prédéfini.

Selon un autre de ses objets, l'invention concerne un programme d'ordinateur comprenant des instructions de code de programme pour l'exécution des étapes du procédé selon l'invention, lorsque ledit programme est exécuté sur un ordinateur.

Selon un autre de ses objets, l'invention concerne un support de mémoire informatique dans lequel est enregistré le programme d'ordinateur selon l'invention.

Selon un autre de ses objets, l'invention concerne un dispositif optique, comprenant unobjectif optique et une mémoire, dans lequel la mémoire comprend le programme d'ordinateur selon l'invention.

L'invention proposée ici est une méthode automatique de traitement d'image, y compris vidéo qui diffère donc des méthodes au moins partiellement manuelles de séparation d'un sujetvs. fond qui existent notamment dans les logiciels de retouche photo. L'invention proposée ici permet un grand nombre d'applications, et se révèle particulièrement pertinente pour plusieurs types d'applications, pour lesquelles les exigences en termes de qualité d'image, de temps de traitement et précision de détourage sont élevées. Avantageusement, la présente invention met en œuvre une solution passive, c'est-à-dire qu'elle ne nécessite pas de capteurs actifs de mesure de distance / profondeur, ce qui distingue la présente invention de tous les systèmes actifs, par exemple à base de capteurs infrarouge, qui peuvent en outre être perturbés par d'autres rayonnements infrarouge, e.g., le rayonnement du soleil.

En outre, selon l'invention, un seul objectif peut être utilisé, ce qui distingue la présente invention de tous les systèmes de stéréovision. De même, une seule image (une seule mise au point) peut être utilisée, ce qui rend la présente invention facile à mettre en œuvre. La présente invention élimine également la nécessité de fonds homogènes (par exemple verts ou bleus) utilisés en télévision ou cinéma. Le sujet peut donc porter des attributs / vêtements colorés en vert.

Enfin, la présente invention peut être mise en œuvre tant en intérieur qu'en extérieur.

D'autres caractéristiques et avantages de la présente invention apparaîtront plus clairement à la lecture de la description suivante donnée à titre d'exemple illustratif et non limitatif et faite en référence aux figures annexées. DESCRIPTIF DES DESSINS la figure 1A illustre une image initiale selon l'invention,

la figure 1B illustre une image finale selon l'invention,

la figure 2A illustre une image en niveaux de gris selon l'invention, en l'espèce le visagede la figure 1A,

la figure 2B illustre une image filtrée selon l'invention, en l'espèce l'image de la figure 2A filtrée par un filtre passe-bas,

la figure 2C illustre une image contrastée selon l'invention, en l'espèce l'image de la figure 2B transformée par un opérateur de Laplace,

la figure 3A illustre une image binarisée, en l'espèce l'image de la figure 2C, selon une première valeur de seuil,

la figure 3B illustre une image binarisée, en l'espèce l'image de la figure 2C, selon une deuxième valeur de seuil, la figure 3C illustre une image binarisée, en l'espèce l'image de la figure 2C, selon une troisième valeur de seuil,

la figure 3D illustre une image binarisée, en l'espèce l'image de la figure 2C, selon une quatrième valeur de seuil,

5 la figure 4A illustre le résultat d'une opération de dilatation des contours d'un masque d'une image binarisée, en l'espèce celle de la figure 3D,

la figure 4B illustre le résultat d'une opération de traitement du masque d'une image, en l'espèce celle de la figure 4A,

la figure 4C illustre le résultat d'une opération de remplissage effectuée sur le masque lOd'une image, en l'espèce celle de la figure 4B,

la figure 4D illustre le résultat d'une opération de traitement appliquée au masque d'une image, en l'espèce celle de la figure 4C,

la figure 4E illustre le résultat d'une opération de traitement appliquée au masque d'une image, en l'espèce celle de la figure 4D,

15 la figure 5A illustre le résultat de l'application du masque de la figure 4E à l'image initiale de la figure 2A combiné à un autre fond que le fond de l'image initiale,

la figure 5B illustre le résultat de l'application du masque de la figure 6A à l'image initiale de la figure 2A combiné au même fond que le fond de l'image de la figure 5A,

la figure 6A illustre le résultat d'un algorithme de filtrage guidé sur le masque de la figure 204E grâce à l'image-guide de la figure 2A,

la figure 7A illustre la fonction d'étalement de point, ou variation du diamètre du flou ε, en fonction de la distance entre un dispositif optique et un sujet, ledit dispositif optique ayant une longueur focale prédéterminée,

la figure 7B est une photographie illustrant la figure 7A, en l'espèce de 3 sujets (pommes) 25disposées à 3 distances distinctes d'un même dispositif optique,

la figure 8 illustre un schéma optique représentant l'estimation de flou de défocalisation ε en fonction de la distance du plan focal, et

la figure 9 illustre un mode de réalisation du procédé selon l'invention.

30 DESCRIPTION DETAILLEE

Principe

Dans la présente description, on suppose un sujet placé dans le plan de mise au point de 351'objectif d'un dispositif de prise de vue. Le dispositif de prise de vue peut être de type standard, monovoie (c'est-à-dire pas de vision stéréo). L'image de la scène comprenant le sujet est appelée « image initiale », figure 1A. Elle est par exemple enregistrée dans une mémoire, typiquement celle du dispositif de prise de vue ou envoyée sur une mémoire distante. Le traitement peut également être réalisé en diffusion en mode continu ou streaming par anglicisme, sans passer par la phase d'enregistrement devidéo.

Une image initiale est par exemple une image individuelle d'une séquence vidéo ou une image d'un appareil photo. Sauf précision contraire, il ne sera fait référence qu'à une image individuelle d'une séquence vidéo.

Comme illustré sur la figure 7, on définit par :

D, la distance à l'objectif, c'est-à-dire la distance entre le dispositif de prise de vue et le sujet,

DS, une distance dite « de sécurité », paramétrable, en avant et en arrière du sujet,

f, la focale de l'objectif utilisé par le dispositif de prise de vue.

La distance D et la focale f sont connues. La profondeur de champ est connue ou déterminée. De préférence, la distance de sécurité DS est inférieure ou égale à la profondeurde champ.

Par « avant », on entend en avant du sujet, et notamment entre le dispositif de prise de vue et le sujet. Par « arrière » ou « au-delà », on entend en arrière du sujet, donc au-delà de la distance D et éventuellement au-delà de la distance de sécurité DS.

La présente invention permet de supprimer tous les éléments de l'image initiale se situant au-delà de la distance de sécurité DS du sujet, comme décrit ci-après.

A cet effet, le principe de l'invention repose sur la segmentation de l'image initiale en utilisant les propriétés optiques distinctes du sujet et du fond dans ladite image initiale.

Le sujet étant dans le plan de mise au point situé à une distance D du capteur optique, ilest caractérisé par un très fort contraste. A l'inverse le fond, lui, a un contraste très faible.

La présente invention tire astucieusement partie de cette caractéristique et permet d'obtenir un traitement d'image capable de segmenter avec précision les zones à fort contraste et à faible contraste dans l'image initiale, et ce d'autant plus avec un dispositif optique capable d'avoir une forte différence de contraste entre le sujet et le fond.

La présente invention prend en entrée une image initiale et la transforme en une imagefinale, dont un exemple est illustré figure 1B, traitée, de résolution inférieure ou égale à celle de l'image initiale, dans laquelle le sujet de l'image initiale est détouré grâce à un masque, et dans laquelle le fond de l'image initiale est supprimé ou remplacé par un autre fond.

Niveaux de gris

L'image initiale peut être en couleur ou en niveau de gris.

Si l'image initiale d'une vidéo est en couleur, alors cela signifie que chaque image individuelle initiale n de la vidéo est composée de trois canaux couleurs : rouge Rⁿ, vert Gⁿ etbleu Bⁿ où pour le traitement numérique de l'image, chaque canal est une matrice. Chaque matrice comprend un ensemble de coefficients.

Ainsi, chaque pixel P de coordonnées (x_p, y_p) de l'image initiale est représenté par un vecteur (triplet) de valeur [Rⁿ(x_p, y_p), Gⁿ(x_p, y_p), Bⁿ(x_p, y_p)]. Pour une image en couleurs, il existedonc une correspondance entre un triplet de coefficients et un pixel.

Or, le principe de suppression de fond proposé ici n'est pas basé sur les informations de couleurs, et il est donc redondant de traiter ces trois canaux (ou matrices de pixels). Pour éviter cette redondance, il est préférable de ne traiter qu'un seul canal. Tous les calculs exposés ci-après peuvent ainsi n'être réalisés que pour ce canal unique, ce qui permet d'augmenter la vitesse de calcul et de diminuer le temps de traitement.

Pour une image en niveaux de gris, il existe donc une correspondance entre un pixel deladite image et un coefficient de sa matrice correspondante. Chaque pixel P est caractérisé par sa position (x, y) et sa valeur d'intensité pour chaque canal R(x, y), G(x, y) et B(x, y). On peut donc considérer ici indistinctement un pixel ou son coefficient correspondant.

Si l'image initiale est en couleur, on prévoit donc une étape 100 consistant à transformerau moins un des canaux de l'image initiale en niveaux de gris.

De préférence cette étape est mise en œuvre par tout logiciel approprié connu sur le marché. Par exemple, on peut utiliser la formule standard qui, pour chaque pixel, remplace le triplet de valeur d'intensité d'une image individuelle initiale n de la vidéo par une seule valeur avec une certaine proportion de l'intensité de chacun des canaux :

Γ(χ_ρ, y_p) = 0.2989 * Rⁿ(x_p, y_p) + 0.5870 *Gⁿ(x_p, y_p) + 0.1140 * Bⁿ(x_p, y_p) (1). A la fin de cette étape, l'image initiale de la vidéo se présente en forme de matrice Γ dont les valeurs sont comprises entre 0 et 1, chaque valeur correspondant à un niveau de gris.

Un exemple d'image en niveaux de gris est illustré en figure 2A. Par simplification on entend par matrice « grisée », la matrice correspondant à l'image en niveaux de gris.

Contraste

Au stade de l'image en niveaux de gris, il n'est pas encore possible de savoir si un pixel de l'image en niveaux de gris correspond au sujet ou au fond.

En effet, si on se limite à mesurer l'intensité lumineuse seule d'un pixel, cette unique mesure ne suffit pas à déterminer si ce pixel correspond à un point d'un objet appartenant au sujet ou au fond. II est possible de s'affranchir de ce problème.

A cet effet, on assume que plus un pixel est contrasté (ou net), plus la probabilité qu'il corresponde au sujet est grande. Inversement, moins un pixel est contrasté (ou net), plus la probabilité qu'il corresponde au sujet est faible. Par « pixel contrasté », on entend que la zoneautour d'un pixel donné est contrastée, c'est-à-dire présente par exemple un gradient de contraste supérieur à une valeur seuil.

En effet, au niveau optique, le niveau de contraste d'un objet dans une image dépend de la position de cet objet réel par rapport au plan de mise au point. Plus l'objet est loin du plan demise au point (notamment en arrière) du sujet, plus le contraste se dégrade, ce dont il résulte une observation de flou dans l'image dudit objet, comme illustré figure 7B.

On vise donc à remplacer un niveau de gris par un niveau de contraste ou de netteté pour chaque pixel.

A cet effet, on prévoit une étape 110 de détermination de contraste consistant à calculer le niveau de netteté locale pour chaque pixel P, c'est-à-dire à transformer la matrice Γ(χ_ρ, y_p) de l'image en niveaux de gris en une matrice Cⁿ(x_p, y_p) de même taille que l'image en niveaux de gris Γ(χ_ρ, y_p), également en niveaux de gris, et dont les valeurs représentent le niveau de netteté locale pour chaque pixel P.

Pour l'étape 110 de détermination de contraste, on prévoit d'utiliser une métrique de 5contraste.

Le niveau de netteté locale pour chaque pixel P est une valeur comprise en 0 et 1, calculée selon une fonction d'un gradient de luminosité selon une ou plusieurs directions prédéterminées à partir du pixel P. Plus le gradient est fort plus l'image est nette localement.

10

Par simplification, on entend donc ici par « pixel contrasté » la valeur de la fonction d'un gradient de contraste autour dudit pixel selon au moins une direction prédéterminée.

On peut prévoir une métrique de contraste de type fonction d'étalement du point. Il existe 15aussi de nombreux algorithmes de métrique de contraste qui permettant de réaliser cette transformation, par exemple une revue de ces méthodes est présentée à l'adresse https://wwwjesearchgate.net/publication/234073157. Par exemple une valeur 1 signifie un pixel très contrasté et une valeur 0 signifie un pixel pas contrasté, les valeurs intermédiaires correspondant à un contraste graduel entre ces deux extrêmes.

20

Une autre possibilité de mesurer le contraste (ou, à l'inverse, la quantité de flou), est de faire une estimation de la fonction d'étalement du point FEP (ou PSF pour Point Spread Function en anglais) pour une image. Elle est évaluée localement autour de chaque pixel et représentée par une matrice de petite taille (e.g., 15x15, 21x21). La forme de la FEP représente

251a forme du flou de l'image, et les caractéristiques de cette forme (comme la largeur, l'inclinaison ou autres) peuvent servir à évaluer le contraste de chaque pixel de l'image. Cependant, un inconvénient de cette méthode de mesure de contraste est qu'il faut prendre en compte la conception optique et le capteur du système optique, et réaliser un ensemble d'au moins une calibration de caméra pour pouvoir obtenir les différents niveaux de contraste et lier

30ensuite ces niveaux de contraste avec les caractéristiques de la FEP.

De préférence la transformation utilisée ici est un opérateur de Laplace, qui est une fonction omnidirectionnelle. Cette méthode est simple, donc rapide en temps de calculs, et efficace, et la seule décrite en détails ici.

35

Cependant l'opérateur de Laplace est sensible aux bruits d'acquisition qui sont inévitables dans les caméras. Aussi, pour négliger l'influence du bruit, on applique avantageusement préalablement un filtrage passe-bas 120, qui permet de lisser l'image obtenue. Le filtrage passe-bas est réalisé par application d'un filtre de convolution avec un noyau G, ce qui consiste à calculer la matrice j " résultante de la convolution de chacun des pixels de la matrice grisée Γ(χ_ρ, y_p) par le noyau G, soit Ί" = conv(iⁿ , G) .

En l'espèce, le noyau G est un noyau Gaussien.

En l'espèce, on utilise une forme discrète du noyau Gaussien G{x, y) = e ^2<j2

2πσ² qui se présente sous la forme de matrice d'une taille prédéfinie, en l'espèce carrée, par exemple une matrice 3*3 ; une matrice 5*5, etc.

A titre purement illustratif, le noyau G peut se présenter sous la forme discrète :

Par souci de clarté, l'image en niveaux de gris ainsi transformée est appelée image« filtrée ».

Un exemple d'image filtrée par un filtre passe-bas est illustré sur la figure 2B. On peut voir que l'image filtrée est légèrement floutée. Le niveau de ce flou dépend du filtre, notamment des paramètres de son noyau.

Après le filtrage passe-bas, la transformation par un opérateur de Laplace est aussi réalisée par une convolution, mais avec un autre noyau, et de préférence sous forme discrète. d²1 d²1

En l'espèce, on utilise le noyau L(x, y) =— j- +— pour calculer 130 la matrice c"

ox oy

résultante de la convolution de chacun des pixels de la matrice j " de l'image en niveaux de gris par le noyau Laplacien L, soit : c" = conv(i ⁿ , L)

Deux exemples typiques de noyaux Laplaciens discrets et carrés, en l'espèce 3*3, sont les suivants :

Le choix d'un noyau Laplacien ou d'un d'autre permet d'évaluer le contraste en utilisant les pixels verticaux, horizontaux, ou diagonaux, et de détecter les détails du sujet avec différents niveaux de contrastes

L'image filtrée ainsi transformée est appelée image « de mesure de contraste » et ci- après « image contrastée » par simplification. Un exemple d'image contrastée est illustré sur la figure 2C. Seuillage

Après l'étape de détermination de contraste, on prévoit une étape 140 de seuillage qui consiste à comparer la valeur de chaque pixel P de la matrice de l'image contrastée à une valeur seuil Th enregistrée dans une mémoire.

La valeur seuil Th peut être prédéterminée. Elle peut être identique pour tous les pixels ou différente pour au moins deux pixels, c'est-à-dire qu'à chaque pixel correspond une valeur seuil Th respective. La valeur seuil Th est choisie de sorte à simuler la valeur de la limite de netteté.

La comparaison avec la valeur seuil permet d'obtenir un résultat binaire : soit le résultat est positif, soit le résultat est négatif. Si le résultat est positif, c'est-à-dire que la valeur de la matrice de l'image contrastée correspondant à un pixel P donné est supérieure à la valeur seuil, alors on considère que ledit pixel P est suffisamment contrasté et fait partie du sujet.

Inversement, si le résultat est négatif, c'est-à-dire que la valeur de la matrice de l'imagecontrastée correspondant à un pixel P donné est inférieure à la valeur seuil, alors on considère que ledit pixel P est insuffisamment contrasté et fait partie du fond.

On peut donc déterminer le degré d'appartenance de pixel P de l'image contrastée au sujet ou au fond.

Il y a plusieurs options possibles pour l'étape de seuillage. Dans une première variante, la plus simple, on applique une valeur seuil uniforme sur toute l'image contrastée.

5 L'étape de seuillage permet de transformer la matrice Cⁿ en matrice binaire Bⁿ telle que :

Bⁿ = l si Cⁿ > Th, et

Bⁿ = 0 si Cⁿ < Th.

Par souci de clarté, l'image contrastée ainsi transformée est appelée image « binarisée ». lODes exemples d'images binarisées sont illustrés sur les figures 3A, 3B et 3C.

La figure 3A représente l'image contrastée de la figure 2C binarisée selon une première valeur de seuil Thl.

15 La figure 3B représente l'image contrastée de la figure 2C binarisée selon une deuxième valeur de seuil Th2.

La figure 3C représente l'image contrastée de la figure 2C binarisée selon une troisième valeur de seuil Th3.

20

La figure 4C représente l'image contrastée de la figure 2C binarisée selon une quatrième valeur de seuil Th4.

Dans les figures 3A, 3B et 3C, les traits blancs correspondent à Bⁿ = 1 pour lesquels on 25considère que les pixels correspondent au sujet, et les traits noirs correspondent à Bⁿ = 0 pour lesquels on considère que les pixels correspondent au fond.

En l'espèce, Thl < Th2 < Th3. Plus la valeur du seuil Th est élevée, moins le nombre de pixels considérés comme nets dans l'image contrastée est grand.

30

Dans une deuxième variante, plus sophistiquée, on applique une valeur seuil adaptative, c'est-à-dire que la valeur seuil n'est pas la même pour tous les pixels de l'image. Par exemple, on peut mettre en œuvre un seuil d'Otsu, comme décrit dans la publication de Nobuyuki Otsu, « A threshold sélection method from gray-level histograms », IEEE Trans. Sys., Man., Cyber., vol. 359, 1979, p. 62-66.

A partir de l'étape de seuillage, il est possible de déterminer les contours de l'image binarisée, ce qui permet de définir un masque, comprenant des contours. Traitement morphologique

La mesure de contraste étant basée sur un gradient, elle est d'autant plus fiable que 5l'image initiale présente des zones texturées, c'est-à-dire des zones locales avec un fort gradient, où par « fort » on entend supérieur à une valeur seuil prédéterminée.

En effet, il arrive que les zones de l'image initiale présentant des intensités homogènes ou quasi-homogènes, c'est-à-dire un faible gradient, où par « faible» on entend inférieur à une lOvaleur seuil prédéterminée, ne ressortent pas après l'étape de seuillage.

Or, on vise à obtenir un masque binaire plein : tout ce qui se situe à l'extérieur du contour du masque est considéré comme le fond, et tout ce qui se situe à l'intérieur du contour du maque est considéré comme le sujet, le contour présentant un fort niveau de contraste.

15

En conséquence, il peut être utile de mettre en œuvre une étape supplémentaire de traitement morphologique, pour remplir 150 les zones situées à l'intérieur des contours du masque de façon homogène.

20 Les détails des opérations de morphologie mathématique utilisées sont classiques et sont bien décrites dans diverses sources bibliographiques sur le traitement d'images, par exemple dans le livre sur la morphologie mathématique [Image analysis and mathematical morphology, by J. Serra. Académie Press, London, 1982].

25 Ainsi, dans un mode de réalisation, l'étape de morphologie mathématique, appliquée à l'image binarisée, comprend au moins l'une des opérations résumées ci-dessous, décrites séquentiellement.

Dilatation

30 On peut prévoir une opération de dilatation qui consiste à grossir les traits de l'image binarisée, selon un grossissement prédéfini. Cette opération permet de fermer les contours obtenus après l'étape de seuillage.

La figure 4A illustre un exemple d'une opération de dilatation effectuée sur l'image 35binarisée de la figure 3D. Il peut être avantageux de mettre en œuvre d'autres opérations de traitement qui visent à assurer que les contours du masque du sujet restent toujours fermés, comme illustré figure 4B, qui illustre le résultat d'une opération de traitement appliqué à la figure 4A.

5 Une fois que les contours du masque du sujet restent toujours fermés, on peut ensuite prévoir une opération de remplissage.

Remplissage

On prévoit une opération de remplissage qui consiste à remplir l'intérieur des contours du lOmasque, en l'espèce par une valeur binaire, et en l'espèce par la valeur binaire correspondant au sujet.

Par exemple, la figure 4C illustre le résultat d'une opération de remplissage appliquée à la figure 4B.

15

A ce stade, la forme globale du sujet est bien détectée par les contours du masque binaire.

On peut prévoir une autre opération de traitement du masque. Par exemple, la figure 4D 20illustre le résultat d'une telle opération de traitement appliquée au masque de la figure 4C.

La figure 4E illustre le résultat d'une autre opération de traitement appliquée au masque de la figure 4D.

25 Le paramétrage du traitement morphologique dépend de la résolution de l'image initiale et de la qualité de contours détectés par le filtrage de Laplace incluant le seuillage. Le paramétrage dépend donc avantageusement de la qualité de l'optique du dispositif optique et de son réglage.

30 La séquence d'opérations n'est que l'un des modes de réalisation possibles de traitement morphologique, mais par concision le seul décrit ici.

En l'espèce après l'opération d'ouverture, on obtient un masque binaire, illustré en figure 4E, qui représente une séparation sujet/fond où en l'espèce les valeurs binaires de la matrice 35du masque comprennent deux valeurs : une valeur binaire qui correspond au fond, en l'espèce en pixels noir, et l'autre valeur binaire qui correspond au sujet, en l'espèce en pixels blanc. Ce masque-là peut suffire pour certaines applications, car il permet de détourer le sujet du fond à un premier niveau.

Filtrage des contours

En fonction du sujet, typiquement en fonction du degré de détails du sujet, et de la qualité recherchée, l'application du masque obtenu après l'étape de traitement morphologique à l'image initiale peut aboutir à des résultats plus ou moins satisfaisants. Par exemple l'application du masque de la figure 4E à la combinaison de l'image initiale de la figure 2A et un autre fond (en l'espèce une montagne) aboutit au résultat illustré sur la figure 5A, qui en n'apparait pas suffisamment réaliste, le photomontage reste grossier, en particulier au niveau des cheveux dans la région des oreilles. Pour améliorer encore le résultat, on peut prévoir une étape de filtrage des contours 180, qui permet d'avoir des contours du sujet plus fins et exacts.

Pour cette étape, on utilise le masque binaire obtenu à la fin du traitement morphologique (c'est-à-dire une matrice binaire de même taille que celle de l'image initiale) et l'image initialegrisée.

Dans un mode de réalisation, la méthode de filtrage des contours consiste à mettre en œuvre un algorithme de filtrage guidé 190, comme décrit par exemple dans la publication "Guided Image Filtering", by Kaiming He, Jian Sun, and Xiaoou Tang, in ECCV 2010.

Ce filtrage permet de renforcer les contours du filtre grâce aux contours de l'image-guide qui sont détectés par des calculs de gradients. La taille du filtre permet de contrôler la taille de la région sur l'image-guide qui est prise en compte pour évaluer l'importance des contours. Ce post-traitement permet d'avoir une qualité de contours supérieure à celle du masque binaire simple (obtenu à la fin du traitement morphologique) et le masque obtenu est en niveaux gris et de même taille que le masque binaire initial.

Par exemple, la figure 6A illustre le résultat d'un algorithme de filtrage guidé sur lemasque de la figure 4E grâce à l'image-guide de la figure 2A. L'image initiale grisée sert d'image guide et permet d'affiner le masque de la figure 4E. Le masque résultant de l'étape de filtrage guidé n'est plus un masque binaire mais un masque en niveaux de gris.

Il est clair que le masque résultant de l'étape de filtrage guidé illustré sur la figure 6A est 5beaucoup plus précis et fin que le masque issu de l'étape de traitement morphologique illustré sur la figure 4E.

Ensuite, en appliquant le masque résultant de l'étape de filtrage guidé illustré sur la figure 6A à l'image initiale grisée illustrée sur la figure 2A, on obtient l'image illustrée sur la figure 5B lOqui, en comparaison avec la figure 5A, apparaît beaucoup plus réaliste.

Traitement global

Toutes les étapes et opérations précédemment décrites peuvent être appliquées à chaque 15image individuelle d'une séquence vidéo.

Toutefois, il peut arriver dans ce cas que cela génère des effets de gigue ou jitter par anglicisme, visible sur les bords du sujet, parce que le masque n'est pas exactement le même d'une image individuelle à une autre.

20

Filtrage temporel

Pour limiter cet effet, on peut prévoir, en plus des étapes précédentes, une étape de filtrage temporel 200, ce qui permet d'obtenir un effet de fluidité à l'observation de la vidéo 25traitée.

A cet effet, on prévoit de sélectionner une « fenêtre », c'est-à-dire un nombre prédéfini d'images individuelles séquentielles de la vidéo. A chaque image individuelle correspond donc un masque respectif, obtenu par traitement morphologique ou par filtrage guidé.

30

On peut prévoir que le filtrage temporel comprend au moins l'un des deux niveaux suivants.

Le premier niveau est un filtrage médian appliqué par pixel sur la fenêtre sélectionnée, ce 35qui permet d'éviter les sauts de masques et les valeurs aberrantes d'une image individuelle à une autre. Le deuxième niveau est un filtrage moyen appliqué par pixel sur la fenêtre sélectionnée, pour ajouter de la fluidité aux résultats de traitement.

Pour le premier ou le deuxième niveau de filtrage, on prend la position (x, y) d'un pixel Pdonné et les valeurs de masques de la même position (x, y) sur un ensemble prédéterminé d'images individuelles voisines.

On notera que le filtrage temporel est appliqué aux masques des images individuelles de la vidéo mais pas aux images individuelles elles-mêmes.

Grâce à cette caractéristique, les valeurs d'intensité de chaque image individuelle, comme les combinaisons de couleurs de chaque image individuelle, ne sont pas modifiées.

Mise au format

On prévoit de sélectionner ou extraire 160 le sujet de l'image initiale (grisée ou non) grâce au masque obtenu grâce au traitement morphologique ou au filtrage guidé, pour ensuite mélanger ledit sujet extrait avec une autre image, dite « image de fond ». L'image de fond peut être quelconque. Elle peut avoir une taille différente de celle de l'image initiale et une résolution différente de celle de l'image initiale. On peut prévoir une étape de mise à l'échelle de l'image de fond.

La valeur d'un coefficient, comprise entre 0 et 1, dans la matrice du masque indique leniveau d'intensité du sujet à réapparaître sur l'image finale.

Ainsi le mélange peut être réalisé en fonction de la valeur des coefficients de la matrice du masque, comme suit :

pour les coefficients de la matrice du masque dont la valeur est 1, on prend les valeurs d'intensité du sujet de l'image initiale sans modification, ce qui revient à remplacer 170 le fond de l'image initiale par des pixels correspondants de l'image de fond,

pour les coefficients de la matrice du masque dont la valeur est 0, on prend les valeurs d'intensité du fond de l'image de fond sans modification, et

- pour les coefficients de la matrice du masque dont la valeur est entre 0 et 1, on fait le mélange de l'intensité des pixels considérés avec les coefficients correspondant du masque. Ce qui signifie que l'intensité de l'image finale est composée des valeurs de l'image initiale (celles du sujet) multipliées par les coefficients du masque plus les valeurs de l'image du fond multipliées par les coefficients inverses du masque.

Par masque inverse, on entend que la matrice dudit masque inverse comprend descoefficients complémentaires des coefficients de la matrice du masque obtenu grâce au traitement morphologique ou au filtrage guidé. Par coefficients complémentaires, on entend que la somme d'un coefficient de la matrice du masque obtenu grâce au traitement morphologique ou au filtrage guidé, et du coefficient correspondant de la matrice du masque inverse est égale à l.

De préférence le mélange du sujet extrait avec le fond de l'image de fond est réalisé par simulation de transparence ou alpha blending par anglicisme.

La présente invention peut être mise en œuvre en post-traitement, par exemple pour desvidéos préenregistrées. Par exemple, le programme de post-traitement est un script Matlab (marque déposée) et la vidéo est en format HD (1920x1088).

La présente invention peut également être mise en œuvre en temps réel, par exemple pour une diffusion en mode continu ou streaming par anglicisme.

On peut prévoir une post-analyse supplémentaire différente du traitement morphologique déjà décrit. Cette analyse impose certains a priori, ou critères de sélection, comme par exemple la taille du sujet, sa position sur l'image initiale, sa forme, la quantité de sujets maximale à extraire, etc. qui permet de filtrer l'image initiale en ne laissant sur le masque binaire que lesobjets correspondant aux critères de sélection et de supprimer tous les autres objets.

Distance de sécurité

L'étape de détermination de contraste permet de calculer une matrice dont les valeurscorrespondent, pour chaque pixel de l'image contrastée, à un degré de netteté ou de contraste de celui-ci.

On peut estimer le flou de défocalisation, ou niveau de flou, en calculant la fonction d'étalement du point FEP, qui représente, pour un objet réel dans une scène donnée, lavariation de la taille ε en pixels dudit objet dans une image de ladite scène en fonction de la distance entre ledit objet et l'objectif ayant permis de réaliser l'image. Autrement dit, plus un objet est situé loin du plan de mise au point, plus sa FEP est grande, donc plus la représentation de cet objet dans l'image est floue.

Il y a toutefois une distance limite à dépasser pour considérer qu'un objet derrière ou 5devant le sujet (placé au plan de mise au point) soit flou. Il existe donc une zone de netteté ZN, ou profondeur de champ, dans laquelle est compris le plan de mise au point.

On peut donc définir une profondeur, appelée distance de sécurité DS, de préférence inférieure ou égale à la profondeur de champ, calculée depuis le plan de mise au point vers 101'arrière du sujet, et telle que tous les objets positionnés en dehors de cette distance de sécurité DS sont considérés comme suffisamment flous et seront supprimés dans l'image finale.

Plus la distance de sécurité DS est grande, plus le risque que des objets parasites, c'est- à-dire n'ayant par exemple pas d'intérêt par rapport au sujet, soient compris dans l'image finale 15est grand.

Pour diminuer la distance de sécurité DS, ce qui revient à avoir une forte pente de FEP, on peut modifier les caractéristiques du dispositif optique (ouverture, qualité optique, meilleure mise au point, taille des pixels, etc). Typiquement, plus la distance du sujet (en référence au 20dispositif de prise de vue) et la distance de sécurité sont courtes, plus la focale de l'objectif du dispositif de prise de vue doit être petite et inversement, ce qui amène, pour les courtes distances, à des systèmes optiques particuliers et complexes.

Optimisation optique

25

Un dispositif optique, typiquement une caméra ou un appareil photo (y compris d'un objet communicant, et notamment tout téléphone intelligent, tablette, etc), comprend un objectif optique et un capteur. Généralement, le dispositif optique comprend également une mémoire pour stocker les prises de vues, et un calculateur.

30

Il est possible de mettre en œuvre la présente invention soit en local sur le dispositif optique, soit à distance sur une machine distante vers laquelle sont envoyées la ou les images initiales, ladite machine comprenant une mémoire pour stocker les images initiales, et un calculateur.

35

Le capteur du dispositif optique est disposé de préférence dans le plan focal. La position relative du sujet et du dispositif optique est telle que le sujet est positionné dans la profondeur de champ ZN de l'objectif optique. Par exemple, la mise au point de l'objectif optique est faite sur le sujet.

On peut définir par :

- ZN_AV la zone de netteté avant, c'est-à-dire l'espace de la zone de netteté en avant du sujet (supposé ponctuel et placé au plan de mise au point), et ZN_AR la zone de netteté arrière, c'est-à-dire l'espace de la zone de netteté en arrière du sujet (supposé ponctuel et placé au plan de mise au point). De préférence, on choisit une distance de sécurité DS telle que DS < ZN_AR.

Pour un sujet d'épaisseur EP (ou profondeur selon l'axe optique de l'objectif optique), on choisit de préférence, on choisit de préférence une distance de sécurité DS telle que ZN_AR > DS > EP. En effet, tout élément de la scène compris dans la distance de sécurité est considérécomme appartenant au sujet.

De préférence on prévoit une distance de sécurité DS_AV en avant du sujet et une distance de sécurité DS_AR en arrière du sujet, la distance de sécurité DS_AV en avant du sujet pouvant être de valeur différente de la distance de sécurité DS_AR en arrière du sujet.

De préférence, on prévoit de configurer le dispositif optique de sorte que le gradient de flou selon l'axe optique soit supérieur à une valeur seuil prédéterminée.

La présente invention n'est pas limitée aux modes de réalisation précédemment décrits.

Claims

REVENDICATIONS

1. Procédé de traitement d'un ensemble d'au moins une image numérique initiale comprenant un sujet et un fond, le procédé comprenant des étapes consistant à :

si l'image initiale est en couleur, transformer (100) au moins un des canaux de l'image initiale en niveaux de gris, et

enregistrer ladite image en niveaux de gris dans une mémoire,

caractérisé en ce qu'il comprend en outre, des étapes consistant à :

déterminer (110) le contraste de l'image en niveaux de gris, en calculant le niveau de netteté locale pour chaque pixel de l'image en niveaux de gris, afin d'obtenir une matrice d'image contrastée comprenant un ensemble de coefficients, chaque coefficient de la matrice de l'image contrastée correspondant à un pixel (P) de l'image en niveaux de gris, comparer (140) la valeur de chaque coefficient de la matrice de l'image contrastée à une valeur seuil (Th), éventuellement respective, enregistrée dans une mémoire, pour obtenir une image binarisée,

- sélectionner (145) les coefficients de la matrice de l'image contrastée dont la valeur est supérieure à la valeur seuil, afin d'obtenir un masque binaire comprenant un ensemble de contours, et

remplir (150) l'intérieur des contours du masque binaire de façon homogène.

2. Procédé selon la revendication 1, comprenant en outre une étape (180) de filtrage des contours du masque binaire.

3. Procédé selon la revendication 2, dans lequel l'étape (180) de filtrage des contours du masque binaire comprend une étape (190) de filtrage guidé dans laquelle l'image initiale enniveaux de gris sert d'image-guide sur le masque binaire, pour obtenir un masque en niveaux de gris.

4. Procédé selon l'une quelconque des revendications précédentes, dans lequel l'ensemble d'au moins une image numérique initiale est une séquence vidéo, le procédécomprenant en outre une étape (200) de filtrage temporel d'un nombre prédéfini d'images individuelles séquentielles de la vidéo.

5. Procédé selon l'une quelconque des revendications précédentes, dans lequel l'étape (110) de détermination contraste comprend une étape (130) consistant à calculer la matrice (c" ) résultante de la convolution de chacun des pixels de la matrice ( j " ) de l'image en niveaux de gris par un noyau Laplacien, le procédé comprenant optionnellement en outre et préalablement à l'étape (130), une étape (120) de filtrage passe-bas de l'image en niveaux de gris.

6. Procédé selon l'une quelconque des revendications précédentes, dans lequel la valeur du seuil (Th) est prédéterminée, le procédé comprenant en outre une étape consistant à :

extraire (160) le sujet de l'image initiale par application du masque binaire ou du masque en niveaux de gris sur l'image initiale,

le procédé comprenant optionnellement en outre une étape de mélange par superposition de l'image initiale et de l'image de fond, réalisée en fonction de la valeur des coefficients de la matrice du masque, comme suit :

pour les coefficients de la matrice du masque dont la valeur est comprise entre 0 et 1, l'intensité des pixels de l'image résultant dudit mélange est composée des valeurs des pixels du sujet de l'image initiale multipliées par les coefficients du masque plus les valeurs des pixels de l'image du fond multipliées par les coefficients inverses du masque.

7. Procédé selon l'une quelconque des revendications précédentes, dans lequel l'étape de remplissage (150) comprend :

une opération de remplissage qui consiste à remplir l'intérieur des contours du masque,et optionnellement en outre :

8. Programme d'ordinateur comprenant des instructions de code de programme pour1'exécution des étapes du procédé selon l'une quelconque des revendications précédentes, lorsque ledit programme est exécuté sur un ordinateur.

9. Support de mémoire informatique dans lequel est enregistré le programme d'ordinateur selon la revendication 8.

10. Dispositif optique, comprenant un objectif optique et une mémoire, dans lequel la mémoire comprend le programme d'ordinateur selon la revendication 8.