WO2022171970A1

WO2022171970A1 - Dispositif et procede de traitement de donnees videos pour detection du vivant

Info

Publication number: WO2022171970A1
Application number: PCT/FR2022/050271
Authority: WO
Inventors: David Bouba; Idriss MGHABBAR; Olivier ROBLIN
Original assignee: Unissey
Priority date: 2021-02-15
Filing date: 2022-02-15
Publication date: 2022-08-18
Also published as: CA3207705A1; EP4292013A1; FR3119915B1; FR3119915A1

Abstract

Dispositif et procédé de traitement de données vidéos pour détection du vivant Dispositif et procédé de traitement de données vidéos pour détection du vivant Un dispositif d'analyse de données vidéo, comprend : - un premier analyseur (6) agencé pour exécuter une mesure de photopléthysmographie à distance sur des données vidéos (25) à analyser reçues en entrée, comprenant un séparateur (20) agencé pour déterminer des régions d'intérêts (27) dans les données vidéos à analyser (25), un agrégateur (22) agencé pour déterminer un signal de photopléthysmographie à distance à partir des données vidéos à analyser (25) relatives à chaque région d'intérêt, et un calculateur (24) agencé pour calculer un signal spectral à partir du signal de photopléthysmographie, et pour en tirer un ou plusieurs signaux physiologiques (29), - un testeur (8) agencé pour recevoir ledit un ou plusieurs signaux physiologiques (29) et pour retourner une première valeur de présence humaine, - un deuxième analyseur (10) agencé pour recevoir les données vidéos à analyser et pour leur appliquer un réseau de neurones pour en tirer une deuxième valeur de présence humaine, le réseau de neurones étant entraîné sur des données vidéos similaires aux données vidéos à analyser et des jeux de caractéristiques extraites de ces données vidéos obtenus par analyse locale et/ou par apprentissage automatique, et - un unificateur (12) agencé pour recevoir la première valeur de présence humaine et la deuxième valeur de présence humaine, et pour retourner une valeur de présence humaine unifiée.

Description

Titre : Dispositif et procédé de traitement de données vidéos pour détection du vivant

L’invention concerne le domaine de la détection de présence humaine, ou détection du vivant.

L’essor des nouvelles technologies a entraîné de nombreuses nouvelles applications automatisées ou semi-automatisées, comme l’authentification de personnes, pour autoriser un ou des accès à des données/emplacements confidentiels, garantir une présence à un endroit et un moment donné, etc.

Ces nouvelles applications posent de nouveaux défis afin de garantir l’authenticité des identifications. En effet, plusieurs types d’attaques ont été développées, que ce soit par la diffusion d’une photographie ou d’une vidéo d’une personne en lieu et place de la personne censée être authentifiée, le port d’un masque partiel ou complet, etc.

De ce fait, la détection du vivant est un domaine en plein essor, et vise d’une manière générale à vérifier si une personne sur une vidéo est bien une personne réellement filmée, et non une usurpation (« spoof » en anglais) sous l’une des formes mentionnées plus haut, ou une autre forme.

Des solutions ont été développées pour essayer de gérer ces situations. Par exemple, le document US 2016/0371555 décrit une méthode comprenant une analyse acoustique, une mesure de présence de pouls à partir de données vidéos, et une comparaison entre la mesure de présence de pouls à partir de données vidéos et une mesure physique par l’utilisateur souhaitant être authentifié/identifié.

Il va de soi que cette méthode est extrêmement intrusive, et pose des problèmes tant au niveau de l’accessibilité du service, c’est-à-dire la possibilité de le mettre en œuvre, que de l’acceptabilité, tant d’un point de vue légal qu’utilisateur. D’autres solutions, moins intrusives, sont basées sur l’analyse des données vidéos seules, afin d’extraire des caractéristiques des données vidéos et d’essayer de détecter s’il s’agit d’une vidéo filmant une vraie personne « en 3 dimensions », ou d’une vidéo d’une vidéo.

Cependant, les solutions moins intrusives présentent toutes le défaut d’être extrêmement vulnérables à diverses stratégies d’usurpation.

Par conséquent, les solutions de détection du vivant actuelles demandent de faire un choix entre être peu intrusives et pratiques mais insuffisamment fiables, ou être fiable mais très peu pratiques à mettre en œuvre et avec des barrières légales et de consentement.

L’invention vient améliorer la situation. À cet effet, elle propose un dispositif d’analyse de données vidéo, comprenant : un premier analyseur agencé pour exécuter une mesure de photopléthysmographie à distance sur des données vidéos à analyser reçues en entrée, comprenant un séparateur agencé pour déterminer des régions d’intérêts dans les données vidéos à analyser, un agrégateur agencé pour déterminer un signal de photopléthysmographie à distance à partir des données vidéos à analyser relatives à chaque région d’intérêt, et un calculateur agencé pour calculer un signal spectral à partir du signal de photopléthysmographie, et pour en tirer un ou plusieurs signaux physiologiques, un testeur agencé pour recevoir ledit un ou plusieurs signaux physiologiques et un ou plusieurs parmi le signal de photopléthysmographie et ledit signal spectral, et pour retourner une première valeur de présence humaine, un deuxième analyseur agencé pour recevoir les données vidéos à analyser et pour leur appliquer un réseau de neurones pour en tirer une deuxième valeur de présence humaine, le réseau de neurones étant entraîné sur des données vidéos similaires aux données vidéos à analyser et des jeux de caractéristiques extraites de ces données vidéos obtenus par analyse locale et/ou par apprentissage automatique, et un unificateur agencé pour recevoir la première valeur de présence humaine et la deuxième valeur de présence humaine, et pour retourner une valeur de présence humaine unifiée.

Ce dispositif est particulièrement avantageux car il permet de réaliser une détection du vivant de manière peu intrusive mais extrêmement fiable et robuste à l’encontre des méthodes d’usurpation connues. En effet, elle est basée exclusivement sur l’analyse des données vidéos, ce qui minimise son aspect intrusif. Pour autant, elle ne sacrifie rien à la fiabilité. En effet, la première valeur de présence humaine permet d’augmenter le rapport signal sur bruit par rapport aux mesures connues de photopléthysmographie à distance utilisées dans la détection du vivant, tout en protégeant contre une attaque par masque 3D, partiel ou pas. Simultanément, la deuxième valeur de présence humaine permet de se protéger contre les attaques classiques de reproduction de vidéo et autres.

Selon divers modes de réalisation, le dispositif peut présenter une ou plusieurs des caractéristiques suivantes :

- le séparateur est agencé pour appliquer un ou plusieurs parmi le groupe comprenant la méthode des cascades de Haar, un réseau de neurones profond afin de déterminer les contours du visage dans chaque trame des données vidéos, et pour découper ceux-ci en régions d’intérêts dans chaque trame,

- lequel le réseau de neurones profond est retinaface_mnet025_v2 ou resl0_300x300_ssd_iter_140000,

- le séparateur est agencé pour découper les données vidéos dans lesquelles ont été déterminées les contours du visage par analyse colorimétrique et/ou à partir de la reconnaissance de point caractéristique du visage,

- l’agrégateur est agencé pour déterminer un signal de photopléthysmographie à distance, pour chaque trame, à partir de la moyenne des composantes respectives R, G,

B des données vidéos de chaque région d’intérêt,

- l’agrégateur est en outre agencé pour déterminer un signal de photopléthysmographie à distance à partir d’une normalisation et d’un filtrage passe-bande à réponse impulsionnelle infinie ou finie appliqués à la moyenne des composantes respectives R, G, B des données vidéos de chaque région d’intérêt, - l’agrégateur est en outre agencé pour déterminer un signal de photopléthysmographie à distance à partir de la combinaison des signaux tirés des composantes respectives R,

G, B des données vidéos de chaque région d’intérêt,

- le calculateur est agencé pour recevoir signal de photopléthysmographie à distance et pour en tirer un ou plusieurs signaux physiologiques en appliquant un algorithme de Welch ou une transformation de Fourrer rapide et en tirant un ou plusieurs spectres, et en déterminant une plusieurs données physiologiques choisies dans un groupe comprenant le rythme cardiaque, le rythme respiratoire, ou la variation de fréquence cardiaque.

- le testeur un réseau de neurones qui a été entraîné avec une base de données de vidéos labellisées pour indiquer une présence humaine ou non, les données fournies à la couche d’entrée de ce réseau de neurone étant formées par le signal de données physiologiques déterminé pour chacune de ces vidéos.

- le deuxième analyseur comprend d’une part un réseau de neurones du type LSTM qui reçoit en entrée des caractéristiques de visage extraites des données vidéos en appliquant une extraction de type LBP et/ou une extraction de type SURF, et qui entraîné avec une base de données de vidéos labellisées pour indiquer une présence humaine ou non, et d’autre part un réseau de neurones profond basé sur l’architecture MobilenetV3 ou ResNext comprenant en sortie une couche de neurones dense normalisée par une couche appliquant la fonction Softmax, la fonction de coût principale pouvant mélanger perte d’entropie croisée, perte de focalisation, adoucissement de label et perte maximale d’entropie, et optionnellement une ou plusieurs fonctions de coûts auxiliaires basée sur une carte de profondeur, le signal rPPG, des attributs relatifs à la qualité de vidéo, des attributs relatifs à la couleur de peau, et des attributs relatifs au type d'appareil.

- l’unificateur est agencé pour effectuer une opération parmi un produit des valeurs entrée avec poids pondérés, l’application de modèles de régression logistique, une combinaison de type Min/max/average, ou un algorithme de forêt aléatoire.

L’invention concerne également un dispositif d’analyse de données vidéo, comprenant :

- un analyseur agencé pour recevoir les données vidéos et pour leur appliquer un réseau de neurones pour en tirer des caractéristiques profondes, le réseau de neurones étant entraîné sur des données vidéos similaires aux données vidéos à analyser et des jeux de caractéristiques extraites de ces données vidéos obtenus par analyse locale et/ou par apprentissage automatique,

- un séparateur agencé pour déterminer des régions d’intérêts dans les données vidéos à analyser, extraire des caractéristiques de régions d’intérêt -(127) couplé à un réseau de neurones agencé pour extraire des caractéristiques de visage,

- un agrégateur agencé pour déterminer un signal de photopléthysmographie à distance à partir des données vidéos à analyser relatives à chaque région d’intérêt et couplé à un réseau de neurones agencé pour extraire des caractéristiques de photopléthysmographie à distance,

- un réseau de neurones appliquant une fonction Softmax aux caractéristiques profondes, aux caractéristiques de régions d’intérêt, aux caractéristiques de visage et aux caractéristiques de photopléthysmographie à distance pour en tirer un score de carte de caractéristiques,

- un calculateur agencé pour calculer un score de photopléthysmographie à distance à partir de données issues de l’agrégateur ou du séparateur,

- un analyseur agencé pour calculer un score de luminosité à partir d’un traitement d’image qui analyse la luminosité des données vidéo en recherchant une dérive colorimétrique afin de caractériser la probabilité que les données vidéos aient été refilmées, et

- un unificateur agencé pour recevoir le score de carte de caractéristiques, le score de photopléthysmographie et le score de luminosité, et pour retourner une valeur de présence humaine unifiée.

L’invention concerne également un procédé de traitement de données vidéos mis en œuvre par ordinateur, comprenant recevoir des données vidéos, les traiter avec le dispositif selon l’invention, et retourner une valeur de présence humaine unifiée, [un programme d’ordinateur comprenant des instructions pour mettre en œuvre le dispositif selon l’invention et un support de stockage sur lequel est enregistré ce programme d’ordinateur. L’invention concerne enfin un produit de programme d’ordinateur comprenant des instructions pour mettre en œuvre le procédé lorsqu’il est exécuté sur un ordinateur, et un support de stockage sur lequel le produit de programme d’ordinateur est enregistré.

D’autres caractéristiques et avantages de l’invention apparaîtront mieux à la lecture de la description qui suit, tirée d’exemples donnés à titre illustratif et non limitatif, tirés des dessins sur lesquels :

[Fig. 1] La figure 1 représente un exemple schématique d’un dispositif selon l’invention,

[Fig. 2] La figure 2 représente un exemple schématique du premier analyseur de la figure 1, et

[Fig. 3] La figure 3 représente un mode de réalisation en variante du dispositif de la figure 1.

Les dessins et la description ci-après contiennent, pour l'essentiel, des éléments de caractère certain. Ils pourront donc non seulement servir à mieux faire comprendre la présente invention, mais aussi contribuer à sa définition, le cas échéant.

La figure 1 représente un exemple schématique de mise en œuvre de l’invention. Dans cet exemple, le dispositif 2 comprend une mémoire 4, un premier analyseur 6, un testeur 8, un deuxième analyseur 10 et un unificateur 12.

La mémoire 4 peut être tout type de stockage de données propre à recevoir des données numériques : disque dur, disque dur à mémoire flash, mémoire flash sous toute forme, mémoire vive, disque magnétique, stockage distribué localement ou dans le cloud, etc. Les données calculées par le dispositif peuvent être stockées sur tout type de mémoire similaire à la mémoire 4, ou sur celle-ci. Ces données peuvent être effacées après que le dispositif a effectué ses tâches ou conservées.

Dans l’exemple décrit ici, la mémoire 4 reçoit toutes les données nécessaires à la mise en œuvre du dispositif 2. Ces données sont de plusieurs natures. Elles peuvent comprendre des paramètres et/ou des jeux de paramètres pour mettre en œuvre le dispositif 2 ou l’un des éléments qu’il comprend, des données vidéos à analyser et optionnellement des données vidéos pouvant servir à entraîner l’un des éléments que comprend le dispositif 2.

Le premier analyseur 6, le testeur 8, le deuxième analyseur 10 et runifïcateur 12 sont des éléments accédant directement ou indirectement à la mémoire 4. Ils peuvent être réalisés sous la forme d’un code informatique approprié exécuté sur un ou plusieurs processeurs. Par processeurs, il doit être compris tout processeur adapté aux calculs décrits plus bas. Un tel processeur peut être réalisé de toute manière connue, sous la forme d’un microprocesseur pour ordinateur personnel, d’une puce dédiée de type FPGA ou SoC, d’une ressource de calcul sur une grille ou dans le cloud, d’un microcontrôleur, ou de toute autre forme propre à fournir la puissance de calcul nécessaire à la réalisation décrite plus bas. Un ou plusieurs de ces éléments peuvent également être réalisés sous la forme de circuits électroniques spécialisés tel un ASIC. Une combinaison de processeur et de circuits électroniques peut également être envisagée.

Dans l’exemple décrit ici, le premier analyseur 6 a pour fonction de recevoir des données vidéos à analyser, et de les traiter pour réaliser tout ou partie d’une mesure de photopléthysmographie à distance (ou mesure rPPG pour "remote photoplethysmography ” en anglais) et retourner des données pouvant être traitées par le testeur 8. Le testeur 8 a pour sa part un rôle de traitement des données issues du premier analyseur 6 afin de retourner une première valeur de présence humaine qui qualifie la détection du vivant par mesure rPPG. En variante, le premier analyseur 6 et le testeur 8 pourraient être vus comme une seule et même unité.

Pour rappel, la photopléthysmographie à distance est une technique de mesure optique à partir d’un flux vidéo permettant d’accéder à un signal cardiaque en mesurant les changements de volume sanguin dans les tissus.

En effet, pour toute personne, une partie de la lumière incidente sur sa peau est absorbée par cette dernière. Le sang absorbant fortement la lumière visible, la quantité de lumière réfléchie va varier avec la pulsation cardiaque. À chaque battement de cœur, l'afflux sanguin dans les vaisseaux capillaires et les artérioles augmente la quantité de sang dans les tissus cutanés et donc l’absorption de lumière. À l’inverse, lorsque le sang reflue, l’absorption de lumière diminue. Ce sont ces variations de la quantité de lumière absorbée qui sont à l'origine de variations subtiles de couleur dont l'analyse permet de remonter au signal cardiaque, et ensuite, à diverses données physiologiques (rythme cardiaque, rythme respiratoire, HRV, etc.).

De récentes recherches ont montré qu'il était possible de réaliser cette mesure à partir d’un flux vidéo issu d'une caméra standard, grâce à des algorithmes de vision par ordinateur et de traitement du signal, ce qui a donné naissance à la photopléthysmographie à distance (ci-après également désignée par l’acronyme rPPG), qui permet d’obtenir en sortie un signal similaire au signal mesuré par les oxymètres de pouls, mais à distance.

La figure 2 représente un mode de réalisation en exemple du premier analyseur 6. Comme on peut le voir sur cette figure, celui-ci comprend un séparateur 20, un agrégateur 22, et un calculateur 24. En tant qu’éléments du premier analyseur 6, le paragraphe plus haut concernant les moyens de les réaliser s’applique à l’identique.

La figure 2 permet également de mieux comprendre les opérations exécutées par le premier analyseur 6. Ainsi, des données vidéos 25 reçues en entrée du dispositif 2, et éventuellement stockées dans la mémoire 4 au moins de manière temporaire, sont transmises au séparateur 20.

Le séparateur 20 est agencé pour déterminer des régions d’intérêts dans les données vidéos 25. Dans le cas décrit ici, les données vidéos contiennent le visage des utilisateurs cherchant à être authentifiés. Ainsi, le séparateur 20 applique des algorithmes classiques tel que la méthode des cascades de Haar, un réseau de neurones profond (« Deep Neural Network » ou DNN en anglais) tel que retinaface_mnet025_v2 ou resl0_300x300_ssd_iter_140000 afin de déterminer dans un premier temps les contours du visage dans chaque trame des données vidéos 25, puis en découpant celui-ci en plusieurs régions identifiées là encore dans chaque trame, notamment en détectant les variations dans la peau du visage. La détection de peau peut être réalisée par analyse colorimétrique (à partir de la probabilité qu'une couleur de pixel soit de la peau, obtenue selon plusieurs méthodes possibles), à partir de la reconnaissance de point caractéristique du visage (yeux, nez, contours, etc.), ou en combinant les deux (étendre la couleur d'une zone particulière, nez par exemple, et soustraction des yeux et de la bouche). Le résultat est en un ensemble de données de régions d’intérêts 27 qui contiennent chacune les données vidéos des données vidéos 25 relative à une région d’intérêt particulière identifiée par le séparateur 20.

Ensuite, l’agrégateur 22 travaille sur chacune des données de régions d’intérêt 28 afin de préparer celles-ci pour en tirer un signal rPPG. Dans un mode de réalisation préférentiel, l’agrégateur 22 réalise une ou plusieurs des opérations suivantes :

- pour chaque trame, moyenner les composantes respectives R, G, B des données vidéos de régions d’intérêts 27, ce qui donne 3 signaux temporels pour chacune des données vidéos de régions d’intérêts 27,

- de manière optionnelle, normaliser et filtrer les 3 signaux temporels au moyen d’un filtre passe-bande à réponse impulsionnelle infinie ou finie pour éviter la distorsion de phase,

- de manière optionnelle, combiner les 3 signaux temporels résultants pour produire un signal de mesure rPPG 28 pour chaque région d’intérêt.

Enfin, le calculateur 24 est agencé pour recevoir tous les signaux de mesure rPPG 28 et pour en tirer un ou plusieurs spectres en appliquant l’algorithme de Welch ou en appliquant une transformation de Fourier rapide (FFT), et pour déterminer une plusieurs données physiologiques, tel que le rythme cardiaque, le rythme respiratoire, HRV (variabilité de la fréquence cardiaque).

La sortie du calculateur 24 est un signal de données physiologiques 29 qui est transmis au testeur 8 en vue de calculer une première valeur de présence humaine. Dans l’exemple décrit ici, le testeur 8 est mis en œuvre au moyen d’un réseau de neurones qui a été entraîné avec une base de données de vidéos labellisées « usurpation » ou « vivant », et pour lesquelles les données fournies à la couche d’entrée sont formées par le signal de données physiologiques 29 déterminé pour chacune de ces vidéos. Ce réseau de neurones peut être un modèle qui travaille sur le spectre (CNN monodimensionnel ou CNN bidimensionnel), ou encore un modèle qui travaille sur les signaux spatio-temporels issus de chacune des sous-zones déterminées précédemment, chaque sous-zone fournissant soit un signal temporel mixé, soit trois signaux R, G, B soit six signaux R, G, B, Y, U, V. L'architecture de ce réseau de neurones est inspirée du modèle ResNet 18 (18 couches) (https://arxiv.org/pdf/1512.03385.pdf). La fonction de perte estime l'erreur (erreur absolue moyenne ou MAE pour « Mean Absolute Error » ou erreur quadratique moyenne ou RMSE pour « Root Mean Squared Error ») sur le rythme cardiaque.

Dans l’exemple décrit ici, la première valeur de détection de présence humaine en sortie du testeur 8 peut être un score compris entre deux extrema dont l’un est associé à une usurpation et l’autre à une détection du vivant. En variante, la sortie peut être un booléen indiquant soit une usurpation, soit une détection du vivant.

En variante, le testeur 8 pourrait être réalisé au moyen d’un algorithme « classique », qui traite le signal de données physiologiques 29 pour calculer un score pour les données vidéos à analyser 25 correspondantes. Un tel score peut être compris entre deux extrema dont l’un est associé à une usurpation et l’autre à une détection du vivant. En variante, la sortie peut être un booléen indiquant soit une usurpation, soit une détection du vivant. Par exemple, à chaque mise à jour des modèles, un jeu de données de test peut être utilisé pour définir un seuil tel que, dans le jeu de données de test, toutes les attaques sont détectées (c’est-à-dire le cas où une vidéo à analyser ne correspond pas à la présence d’une personne).

Dans l’exemple décrit ici, le deuxième analyseur 10 a pour fonction de recevoir des données vidéos 25 à analyser, et d’analyser celles-ci en réalisant une extraction de caractéristiques permettant de déterminer s’il s’agit de données vidéos prises à partir d’une image 3D ou s’il s’agit d’une vidéo d’une image 2D (donc typiquement une usurpation). Dans l’exemple décrit ici, le deuxième analyseur 10 met en œuvre une extraction de données du visage pour isoler ces données dans les données vidéos 25, de manière similaire à ce qui est fait dans le premier analyseur 6, puis la détermination d’une part de caractéristiques dites « classiques » dans les données de visage et de caractéristiques issues d’un apprentissage profond dans les données vidéos 25.

Les caractéristiques classiques peuvent être obtenues par la mise en œuvre d’une extraction de type LBP (pour Local Binary Pattern en anglais ou Motif Binaire Local). Dans ce type d’extraction, les caractéristiques de type "motifs binaire local" encodent la distribution des différences binaires de chacun des pixels par rapport à ses pixels voisins. La représentation finale qui en est tirée est alors une distribution discrète (histogramme) qui permet l'utilisation de modèle d'apprentissage machine de type "forêt aléatoires" (Random Forest en anglais) ou SVM (pour Support Vector Machine en anglais, ou machines à vecteurs de support). En variante ou en complément, une extraction de type SURF (pour Speeded Up Robust Features en anglais, ou Caractéristiques Robustes Accélérées), qui encode des points d’intérêts (orientation, intensité) à différents endroits de l'image, permettant ainsi d'obtenir une représentation robuste. Par exemple, les points d’intérêts retenus peuvent être ceux identifiés pour un visage. Cette extraction est particulièrement intéressante car les recherches de la Demanderesse ont révélé que les reflets induits par la nature 2D des usurpations tendent à générer des points d’intérêts bruités et non localisés au endroits attendus du type œil, bouche, etc. contrairement à ce qui se passe dans les vidéos « vraies ». En combinant ces deux types d’extractions, les caractéristiques classiques obtenues peuvent encore être enrichies, par exemple avec des caractéristiques issues de corrélations temporelles entre différentes zones du visage (exemple: division en 25 zones).

Les caractéristiques issues d’un apprentissage profond sont obtenues en entraînant un réseau de neurones selon une architecture similaire à celle du MobilenetV3 (https://arxiv.org/pdf/1905.02244.pdf) ou celle de ResNext (https://arxiv.org/pdf/1611.05431.pdf) à partir de la base de données ImageNet (http://www.image-net.org ), puis en spécialisant le réseau de neurones obtenu en utilisant la base de données qui est utilisée pour entraîner le testeur 8. Ainsi, le réseau de neurones résultant peut être utiliser pour extraire des caractéristiques issues d’un apprentissage profond à partir des données vidéos 25 à analyser.

Les caractéristiques classiques sont ensuite utilisées par un réseau de neurones de type LSTM (Long Short Term Memory) pour déterminer un premier score pour la deuxième valeur de détection de présence humaine. L’apprentissage de ce réseau de neurones peut être basé sur l’utilisation d’une fonction de coût de type entropie croisée. Les travaux de la Demanderesse ont montré que ce type de réseau de neurones est plus performant que des modèles de type forêt aléatoire / gradient-boosting / SVM car il permet d'apprendre les dépendances entre les trames d'une même vidéo.

Les caractéristiques issues d’un apprentissage profond sont traitées au moyen d’une couche de neurones dense normalisée par une couche appliquant la fonction Softmax (fonction appliquant une régression logistique sur plusieurs classes afin d’attribuer des probabilités décimales à chaque classe d'un problème à plusieurs classes, la somme des probabilités étant égale à 1, avec pour entrée la moyenne des caractéristiques des trames des données vidéo 25 à analyser. Ce réseau de neurones peut être entraîné avec une fonction de coût principale pouvant mélanger perte d’entropie croisée, perte de focalisation, adoucissement de label et perte maximale d’entropie, et optionnellement une ou plusieurs fonctions de coûts auxiliaires basée sur une carte de profondeur, le signal rPPG, des attributs relatifs à la qualité de vidéo, des attributs relatifs à la couleur de peau, et des attributs relatifs au type d'appareil.

Le deuxième analyseur 10 peut alors retourner d’une part la valeur retournée pour les caractéristiques classiques et d’autre part la valeur retournée pour les caractéristiques issues d’un apprentissage profond ou une combinaison des deux.

Ainsi la deuxième valeur de détection de présence humaine peut être un couple ou une composition de ces valeurs.

Enfin, l’unificateur 12 effectue un produit des valeurs entrée avec poids pondérés. En variante, il serait possible d’utiliser des modèles de régression logistique, une combinaison de type Min/max/average, ou encore un algorithme de forêt aléatoire. Le résultat retourné est une valeur de présence humaine unifiée.

La Figure 3 représente un exemple d’un autre mode de réalisation du dispositif de la Figure 1, dans lequel le dispositif est conçu comme l’agrégation de plusieurs réseaux de neurones dont le but est de déduire des caractéristiques des signaux vidéos permettant à l’unificateur 12 de retourner un score.

Plus précisément, dans ce mode de réalisation, le deuxième analyseur 10 est utilisé pour produire un jeu 100 de 512 caractéristiques et le séparateur 20 est utilisé d’une part pour alimenter un réseau de neurones 30 du type RhythmNet (https://arxiv.org/pdf/1910.11515.pdf) pour extraire un autre jeu 300 de 512 caractéristiques, et d’autre part pour définir un jeu 127 comprenant 128 caractéristiques tiré des données de régions d’intérêts 27. En variante, le réseau de neurones 30 peut être remplacé par un modèle du type ResNext 18. Enfin, l’agrégateur 22 est utilisé pour alimenter un corrélateur 32 qui détermine un jeu 320 de 256 caractéristiques à partir des corrélations entre les signaux rPPG complets.

Le jeu de caractéristiques 100, le jeu de caractéristiques 127, le jeu de caractéristiques 300 et le jeu de caractéristiques 320 forment ensemble une carte de caractéristiques 33 qui est traitée par une couche de neurones dense normalisée par une couche appliquant la fonction Softmax 34, qui retourne un score de carte de caractéristiques à l’unificateur 12.

En parallèle, le dispositif 2 comprend en outre :

- un analyseur 36 optionnel qui comprend un réseau de neurones qui analyse le Moiré de la vidéo afin de caractériser la probabilité que la vidéo ait été refilmée, et qui produit un score de Moiré 360,

- un analyseur 38 qui comprend un traitement d’image classique qui analyse la luminosité de la vidéo afin de caractériser la probabilité que la vidéo ait été refilmée en recherchant une dérive colorimétrique, et qui produit un score de luminosité 360, et - un analyseur 40 optionnel qui comprend un réseau de neurones qui analyse le flou de la vidéo afin de caractériser la probabilité que la vidéo ait été refilmée, et qui produit une score de flou 400. Le score de Moiré 360, le score de luminosité 380 et le score de flou 400 sont également envoyées à Planificateur 12, avec un score rPPG 80 qui peut être issu du testeur 8 ou du réseau de neurones 30.

Enfin, l’unifîcateur 12 fonctionne de manière similaire à celui de la Figure 1, et traite l’ensemble des scores qui lui sont transmis pour retourner une valeur de présence humaine unifiée.

Claims

Revendications

[Revendication 1] Dispositif d’analyse de données vidéo, comprenant : un premier analyseur (6) agencé pour exécuter une mesure de photopléthysmographie à distance sur des données vidéos (25) à analyser reçues en entrée, comprenant un séparateur (20) agencé pour déterminer des régions d’intérêts (27) dans les données vidéos à analyser (25), un agrégateur (22) agencé pour déterminer un signal de photopléthysmographie à distance à partir des données vidéos à analyser (25) relatives à chaque région d’intérêt, et un calculateur (24) agencé pour calculer un signal spectral à partir du signal de photopléthysmographie, et pour en tirer un ou plusieurs signaux physiologiques (29), un testeur (8) agencé pour recevoir ledit un ou plusieurs signaux physiologiques (29) et pour retourner une première valeur de présence humaine, un deuxième analyseur (10) agencé pour recevoir les données vidéos à analyser et pour leur appliquer un réseau de neurones pour en tirer une deuxième valeur de présence humaine, le réseau de neurones étant entraîné sur des données vidéos similaires aux données vidéos à analyser et des jeux de caractéristiques extraites de ces données vidéos obtenus par analyse locale et/ou par apprentissage automatique, et un unificateur (12) agencé pour recevoir la première valeur de présence humaine et la deuxième valeur de présence humaine, et pour retourner une valeur de présence humaine unifiée.

[Revendication 2] Dispositif selon la revendication 1, dans lequel le séparateur (20) est agencé pour appliquer un ou plusieurs parmi le groupe comprenant la méthode des cascades de Haar, un réseau de neurones profond afin de déterminer les contours du visage dans chaque trame des données vidéos (25), et pour découper ceux-ci en régions d’intérêts (27) dans chaque trame.

[Revendication 3] Dispositif selon la revendication 2, dans lequel le réseau de neurones profond est retinaface_mnet025_v2 ou resl0_300x300_ssd_iter_140000.

[Revendication 4] Dispositif selon la revendication 2 ou 3, dans lequel le séparateur (20) est agencé pour découper les données vidéos (25) dans lesquelles ont été déterminées les contours du visage par analyse colorimétrique et/ou à partir de la reconnaissance de point caractéristique du visage.

[Revendication 5] Dispositif selon l’une des revendications précédentes, dans lequel l’agrégateur (22) est agencé pour déterminer un signal de photopléthysmographie à distance (28), pour chaque trame, à partir de la moyenne des composantes respectives R, G, B des données vidéos (25) de chaque région d’intérêt (27).

[Revendication 6] Dispositif selon la revendication 5, dans lequel l’agrégateur (22) est en outre agencé pour déterminer un signal de photopléthysmographie à distance à partir d’une normalisation et d’un filtrage passe-bande à réponse impulsionnelle infinie ou finie appliqués à la moyenne des composantes respectives R, G, B des données vidéos (25) de chaque région d’intérêt (27).

[Revendication 7] Dispositif selon la revendication 5 ou 6, dans lequel l’agrégateur (22) est en outre agencé pour déterminer un signal de photopléthysmographie à distance à partir de la combinaison des signaux tirés des composantes respectives R, G, B des données vidéos (25) de chaque région d’intérêt (27).

[Revendication 8] Dispositif selon l’une des revendications précédentes, dans lequel le calculateur (24) est agencé pour recevoir signal de photopléthysmographie à distance (28) et pour en tirer un ou plusieurs signaux physiologiques (29) en appliquant un algorithme de Welch ou une transformation de Fourier rapide et en tirant un ou plusieurs spectres, et en déterminant une plusieurs données physiologiques choisies dans un groupe comprenant le rythme cardiaque, le rythme respiratoire, ou la variation de fréquence cardiaque.

[Revendication 9] Dispositif selon l’une des revendications précédentes, dans lequel le testeur (8) un réseau de neurones qui a été entraîné avec une base de données de vidéos labellisées pour indiquer une présence humaine ou non, les données fournies à la couche d’entrée de ce réseau de neurone étant formées par le signal de données physiologiques (29) déterminé pour chacune de ces vidéos.

[Revendication 10] Dispositif selon l’une des revendications précédentes, dans lequel le deuxième analyseur (10) comprend d’une part un réseau de neurones du type LSTM qui reçoit en entrée des caractéristiques de visage extraites des données vidéos (25) en appliquant une extraction de type LBP et/ou une extraction de type SURF, et qui entraîné avec une base de données de vidéos labellisées pour indiquer une présence humaine ou non, et d’autre part un réseau de neurones profond basé sur l’architecture MobilenetV3 ou ResNext comprenant en sortie une couche de neurones dense normalisée par une couche appliquant la fonction Softmax, la fonction de coût principale pouvant mélanger perte d’entropie croisée, perte de focalisation, adoucissement de label et perte maximale d’entropie, et optionnellement une ou plusieurs fonctions de coûts auxiliaires basée sur une carte de profondeur, le signal rPPG, des attributs relatifs à la qualité de vidéo, des attributs relatifs à la couleur de peau, et des attributs relatifs au type d'appareil.

[Revendication 11] Dispositif selon l’une des revendications précédentes, dans lequel l’unificateur (12) est agencé pour effectuer une opération parmi un produit des valeurs entrée avec poids pondérés, l’application de modèles de régression logistique, une combinaison de type Min/max/average, ou un algorithme de forêt aléatoire.

[Revendication 12] Dispositif d’analyse de données vidéo, comprenant : un analyseur (10) agencé pour recevoir les données vidéos (25) et pour leur appliquer un réseau de neurones pour en tirer des caractéristiques profondes (100), le réseau de neurones étant entraîné sur des données vidéos similaires aux données vidéos à analyser et des jeux de caractéristiques extraites de ces données vidéos obtenus par analyse locale et/ou par apprentissage automatique,

- un séparateur (20) agencé pour déterminer des régions d’intérêts (27) dans les données vidéos à analyser (25), extraire des caractéristiques de régions d’intérêt (127) couplé à un réseau de neurones (30) agencé pour extraire des caractéristiques de visage (300), un agrégateur (22) agencé pour déterminer un signal de photopléthysmographie à distance à partir des données vidéos à analyser (25) relatives à chaque région d’intérêt (27) et couplé à un réseau de neurones (32) agencé pour extraire des caractéristiques de photopléthysmographie à distance (320), un réseau de neurones appliquant une fonction Softmax (34) aux caractéristiques profondes (100), aux caractéristiques de régions d’intérêt (127), aux caractéristiques de visage (300) et aux caractéristiques de photopléthysmographie à distance (320) pour en tirer un score de carte de caractéristiques, un calculateur (30 ; 8) agencé pour calculer un score de photopléthysmographie à distance (80) à partir de données issues de l’agrégateur (22) ou du séparateur (20), un analyseur (38) agencé pour calculer un score de luminosité (360) à partir d’un traitement d’image qui analyse la luminosité des données vidéo (25) en recherchant une dérive colorimétrique afin de caractériser la probabilité que les données vidéos (25) aient été refilmées, et un unificateur (12) agencé pour recevoir le score de carte de caractéristiques, score de photopléthysmographie à distance (80) et le score de luminosité (360), et pour retourner une valeur de présence humaine unifiée.

[Revendication 13] Programme d’ordinateur comprenant des instructions pour mettre en œuvre le dispositif selon l’une des revendications précédentes.

[Revendication 14] Support de stockage sur lequel est enregistré le programme d’ordinateur selon la revendication 13. [Revendication 15] Procédé mis en œuvre par ordinateur comprenant recevoir des données vidéos (25), les traiter avec le dispositif selon l’une des revendications 1 à 12, et retourner une valeur de présence humaine unifiée.