WO2021240092A1 - Prédiction d'un état émotionnel d'un utilisateur dans un environnement et déclenchement d'un service numérique en fonction de l'état émotionnel prédit - Google Patents

Prédiction d'un état émotionnel d'un utilisateur dans un environnement et déclenchement d'un service numérique en fonction de l'état émotionnel prédit Download PDF

Info

Publication number
WO2021240092A1
WO2021240092A1 PCT/FR2021/050871 FR2021050871W WO2021240092A1 WO 2021240092 A1 WO2021240092 A1 WO 2021240092A1 FR 2021050871 W FR2021050871 W FR 2021050871W WO 2021240092 A1 WO2021240092 A1 WO 2021240092A1
Authority
WO
WIPO (PCT)
Prior art keywords
interest
user
time series
time
emotion score
Prior art date
Application number
PCT/FR2021/050871
Other languages
English (en)
Inventor
Grégoire LEFEBVRE
Original Assignee
Orange
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Orange filed Critical Orange
Publication of WO2021240092A1 publication Critical patent/WO2021240092A1/fr

Links

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L67/00Network arrangements or protocols for supporting network services or applications
    • H04L67/2866Architectures; Arrangements
    • H04L67/30Profiles
    • H04L67/306User profiles
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q30/00Commerce
    • G06Q30/02Marketing; Price estimation or determination; Fundraising
    • G06Q30/0201Market modelling; Market analysis; Collecting market data
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q50/00Systems or methods specially adapted for specific business sectors, e.g. utilities or tourism
    • G06Q50/10Services
    • G06Q50/22Social work
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L67/00Network arrangements or protocols for supporting network services or applications
    • H04L67/50Network services
    • H04L67/51Discovery or management thereof, e.g. service location protocol [SLP] or web services
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L67/00Network arrangements or protocols for supporting network services or applications
    • H04L67/50Network services
    • H04L67/535Tracking the activity of the user
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L67/00Network arrangements or protocols for supporting network services or applications
    • H04L67/50Network services
    • H04L67/56Provisioning of proxy services

Abstract

Il est proposé notamment un procédé de prédiction d'un état émotionnel d'un utilisateur et de recommandation d'un service numérique en fonction de l'état émotionnel prédit. Ce procédé comprend : – une obtention de signaux d'intérêt mesurant respectivement un comportement de l'utilisateur, un état de l'environnement de l'utilisateur, et un contexte extérieur à l'environnement; – une détermination (P5) de séries temporelles d'intérêt (HUM_DB, IN_DB, OUT_DB) pour chaque signal d'intérêt; – une inférence (P7), à un instant courant, d'un score d'émotion (E) correspondant à une prédiction de l'état émotionnel à un instant ultérieur, à partir d'un modèle MOD structurant des corrélations temporelles et multimodales entre des valeurs des séries temporelles d'intérêt et un état émotionnel en fonction du temps; – une sélection d'au moins un service numérique en fonction du score d'émotion inféré, et une recommandation à l'utilisateur d'au moins un service numérique sélectionné, par l'intermédiaire d'une interface homme-machine; – un déclenchement (P12) d'au moins un service numérique recommandé, suite à un retour de l'utilisateur reçu via l'interface homme-machine.

Description

l
Description
PREDICTION D'UN ETAT EMOTIONNEL D'UN UTILISATEUR DANS UN ENVIRONNEMENT ET DECLENCHEMENT D'UN SERVICE NUMERIQUE EN FONCTION DE L'ETAT EMOTIONNEL PREDIT
Domaine technique
La présente divulgation relève du domaine de la science des données.
Plus particulièrement, la présente divulgation porte sur des procédés de prédiction d’état émotionnel et de déclenchement de service, ainsi que sur des programmes informatiques, des dispositifs de stockage lisibles par ordinateur et des circuits de traitement pour la mise en oeuvre de tels procédés.
Technique antérieure
Dans le cadre du maintien à domicile des personnes fragiles (ex : séniors, personnes souffrant de déficience, personnes isolées, etc.), il est primordial de pouvoir évaluer l’autonomie des occupants. Actuellement, des services de télé-vigilance mettent en oeuvre ce type d’évaluation en s’appuyant sur des systèmes d’actimétrie.
Dans ce cadre, il apparaît nécessaire d’avoir également une meilleure compréhension des émotions des occupants, afin de fournir une mesure d’autonomie plus robuste et des services adaptés. Cette mesure est un des indicateurs forts pour évaluer la bonne santé physique, sociale et morale des individus par le corps médical lors de services de télévigilance.
En effet, les émotions peuvent révéler des variations d’autonomie. Il est trivial de dire que l’ennui, la dépression, la colère ou au contraire la joie, le dynamisme ou l’entrain sont révélateurs du bien-être de la personne et ces caractéristiques influencent sa santé et le maintien à domicile.
L’analyse des émotions de personnes à domicile est un domaine de recherche actuel.
Différentes solutions proposées sont décrites ci-dessous. Ces solutions diffèrent au niveau de la nature des données analysées, notamment les expressions du visage, la voix, les gestes, les données issues de capteurs domotiques ou les données issues de capteurs de santé. En fonction de la nature des données analysées, les modèles mathématiques sous- jacents diffèrent également.
Il a été proposé dans B. Nagarajan and V. R. M. Oruganti, "Group Emotion Récognition in Adverse Face Détection," 2019 14th IEEE International Conférence on Automatic Face & Gesture Récognition (FG 2019), de mettre en oeuvre une reconnaissance d’émotions de groupe à partir d’images de visages. Les difficultés techniques rencontrées pour cette reconnaissance d’émotions sont liées à diverses hétérogénéités au niveau des images à analyser. En effet, sur certaines images, la tête des personnes peut être partiellement occultée. La pose du corps peut différer d’une image à l’autre ou d’une personne à l’autre sur une même image. Divers réglages intérieurs et extérieurs, tels que la luminosité et l’orientation des sources lumineuses ainsi que la définition des images à analyser peuvent également être hétérogènes. L’architecture de l’algorithme proposé s’appuie sur des réseaux neuronaux convolutifs pour extraire les caractéristiques d’un visage et sur un réseau bayésien pour modéliser les corrélations temporelles entre ces caractéristiques. Cependant, reconnaître les émotions d’une personne en se focalisant seulement sur des images du visage de la personne n’est pas réaliste pour une application grand public. En effet, même sans considérer les difficultés techniques précitées, une limitation supplémentaire est le taux très faible d’acceptation de caméras à domicile.
Il a été proposé dans J. Jia et al., "Inferring Emotions From Large-Scale Internet Voice Data," in IEEE Transactions on Multimedia, vol. 21 , no. 7, pp. 1853-1866, July 2019, un modèle de réseau neuronal qui utilise des informations acoustiques, des informations textuelles et trois indicateurs : un indicateur temporel, un indicateur descriptif et un indicateur géosocial. L’objectif visé est d’apporter des informations contextuelles donnant du sens à des informations acoustiques reçues par un assistant vocal en s’appuyant sur la durée d’une requête, sur l’objet de la requête et sur la localisation de l’utilisateur. Une limite de cette approche est que la détermination d’émotion nécessite à la fois que la personne dispose d’un assistant vocal et qu’elle en ait une utilisation régulière. Il serait souhaitable, pour estimer de manière plus robuste l’état émotionnel d’une personne, d’exploiter davantage de sources d’information. Une autre limite de cette approche est la nature des informations exploitées extraites des informations acoustiques, qui se résume à la durée et à l’objet des requêtes. Il serait souhaitable, toujours pour estimer de manière plus robuste l’état émotionnel d’une personne, de pouvoir extraire et exploiter, à partir d’informations acoustiques, d’autres données sémantiques.
Il a été proposé dans Z. Yang and S. S. Narayanan, "Modeling Dynamics of Expressive Body Gestures In Dyadic Interactions," in IEEE Transactions on Affective Computing, vol. 8, no. 3, pp. 369-381 , 1 July-Sept. 2017, un cadre statistique pour modéliser la dynamique des gestes corporels dans les interactions dyadiques. Les gestes corporels sont un canal d'expression non verbal, important lors de la communication affective. Ils véhiculent les attitudes et les émotions qui se déploient dynamiquement au cours d'une interaction interpersonnelle. Premièrement, la construction d’un modèle générique s’appuyant sur des modèles de mélange gaussiens représente la variabilité gestuelle indépendante du sujet. Ensuite, chaque séquence de gestes est décrite comme une concaténation de gestes sémantiques qui sont dérivés d'une structure d’un modèle de Markov caché construit en parallèle. Un inconvénient de cette approche est que certaines émotions ne sont pas perceptibles par le mouvement corporel, par exemple le dégoût. Par ailleurs certains gestes peuvent être communs à plusieurs types, ou classes, d’émotions, d’où une possibilité de confusion et de détermination incorrecte. Par exemple, les gestes d’une personne peuvent être similaires lorsque la personne est enthousiaste ou contente.
Il a été proposé dans D. Fedotov, Y. Matsuda and W. Minker, "From Smart to Personal Environment: Integrating Emotion Récognition into Smart Houses," 2019 IEEE International Conférence on Pervasive Computing and Communications Workshops (PerCom Workshops), la combinaison d’un système de dialogue et de reconnaissance des émotions dans une maison connectée. Les auteurs estiment que ces deux systèmes sont complémentaires et qu’ils permettent de suivre en permanence l'état de l'utilisateur, interagir avec lui en temps réel et en réaction aux changements d'humeur. L’objectif visé est d’adapter le système de dialogue à l’humeur perçue, confondue dans ces travaux avec l’émotion de la personne. Cependant, dans un service de maintien à domicile pour le bien- être et l’évaluation de la santé des occupants, l’humeur et l’émotion d’une personne doivent être distinguées.
Il a été proposé dans K. Lin, F. Xia, W. Wang, D. Tian and J. Song, "System Design for Big Data Application in Emotion-Aware Healthcare," in IEEE Access, vol. 4, pp. 6901-6909, 201 , un système améliorant les services de santé en tenant compte du facteur émotionnel. En effet, les systèmes de santé existants se concentrent uniquement sur le raisonnement logique mais ignorent le facteur de l’émotion de l’utilisateur, pourtant considéré comme un facteur important d’impact sur la santé humaine. Les capteurs utilisés sont des bracelets, des montres, des lunettes connectés, etc. Dans cette approche les capteurs sont portés par les utilisateurs ce qui est un frein pour le suivi médicalisé. En effet, l’acceptation de capteurs portés, intrusifs, est de manière générale faible. De plus leur utilisation est inadaptée par exemple pour des périodes de soin, de toilettes, etc.
Il existe donc un besoin de pouvoir remédier aux inconvénients cités précédemment et proposer une prédiction robuste de situations émotionnelles dites négatives de personnes dans un habitat connecté en vue d’inciter lesdites personnes à avoir des émotions dites plus positives. Il est, de plus, souhaitable que les sources exploitées soient multimodales. Résumé
La présente divulgation vient améliorer la situation.
Il est ainsi proposé, selon un premier aspect, un procédé de déclenchement d'un service numérique en fonction d'une prédiction d’un état émotionnel d’un utilisateur, le procédé étant mis en oeuvre par un circuit de traitement connecté à une pluralité d’équipements communicants installés dans un environnement occupé par l’utilisateur, le procédé comprenant:
- une obtention d’une pluralité de signaux d’intérêt acquis par les équipements communicants, la pluralité de signaux d’intérêt comprenant au moins : un signal d’intérêt d’un premier type mesurant un comportement de l’utilisateur, un signal d’intérêt d’un deuxième type mesurant un état de l’environnement, et un signal d’intérêt d’un troisième type indicatif d’un contexte extérieur à l’environnement;
- une détermination, pour chaque signal d'intérêt obtenu, d’une série temporelle d’intérêt formée d’une séquence de valeurs en fonction du temps; - une inférence à un instant courant d'un score d'émotion correspondant à une prédiction d'un état émotionnel de l'utilisateur à un instant ultérieur, à partir d'un modèle MOD structurant des corrélations temporelles et multimodales entre des valeurs de séries temporelles d'intérêt et un état émotionnel de l'utilisateur en fonction du temps;
- une sélection d'au moins un service numérique en fonction du score d'émotion inféré, et recommandation à l'utilisateur d'au moins un service numérique sélectionné, par l'intermédiaire d'une interface homme-machine exécutée sur un des équipements communicants;
- un déclenchement, suite à un retour de l'utilisateur reçu via l'interface homme-machine, d'au moins un service numérique recommandé, par l'intermédiaire d'un signal de commande transmis à au moins un équipement de la pluralité d’équipements communicants.
Plus précisément, ce procédé peut aussi être défini comme un procédé de prédiction d’un état émotionnel d’un utilisateur et de suggestion d’un service numérique prédéfini à l’utilisateur, ce procédé étant mis en oeuvre par un circuit de traitement connecté à une pluralité d’équipements communicants installés dans un environnement occupé par l’utilisateur, le procédé comprenant :
- une obtention d’une pluralité de signaux d’intérêt acquis par les équipements communicants, la pluralité de signaux d’intérêt comprenant au moins un signal d’intérêt d’un premier type mesurant un comportement de l’utilisateur, un signal d’intérêt d’un deuxième type mesurant un état de l’environnement et un signal d’intérêt d’un troisième type indicatif d’un contexte extérieur à l’environnement,
- pour chaque signal d’intérêt obtenu, une détermination, sur la base dudit signal obtenu, d’une série temporelle d’intérêt formée d’une séquence de valeurs en fonction du temps, - une obtention d’un modèle structurant des corrélations temporelles et multimodales entre les valeurs des séries temporelles d’intérêt et l’état émotionnel de l’utilisateur en fonction du temps,
- sur la base du modèle obtenu et des séries temporelles d’intérêt obtenues, une inférence, à un instant courant, d’un score d’émotion correspondant à une prédiction d’un état émotionnel de l’utilisateur à un instant ultérieur,
- sur la base du score d’émotion inféré, un déclenchement d’une routine d’animation d’une interface homme-machine pour suggérer à l’utilisateur au moins un service numérique prédéfini associé au score d’émotion inféré, et
- à l’obtention d’un retour de l’utilisateur, reçu par l’interface homme-machine, un déclenchement du service numérique prédéfini via un signal de commande transmis à au moins un équipement de la pluralité d’équipements communicants.
Le procédé proposé vise à répondre aux inconvénients cités précédemment et à proposer une prédiction robuste de situations émotionnelles « négatives » dans un habitat connecté pour promouvoir des services qui incitent les personnes à avoir des émotions « plus positives ». Un exemple de classification d’émotions est décrit dans Parrott, W. (2001), Emotions in Social Psychology, Key Readings in Social Psychology, Philadelphia: Psychology Press. Dans cet exemple, quinze classes d’émotions sont définies : neutre (1), dégoûté (2), paniqué (3), anxieux (4), en colère (5), colère froide (6), désespéré (7), triste (8), enthousiaste (9), content (10), intéressé (11), ennuyé (12), honteux (13), fier (14) et méprisant (15). Dans un exemple d’implémentation utilisant les classes d’émotions définies ci-dessus, les classes d’émotions dégoûté, paniqué, anxieux, en colère, désespéré, triste, ennuyé et honteux peuvent être considérées comme négatives et les classes d’émotions enthousiaste, content et intéressé peuvent être considérées comme positives.
Le procédé proposé est innovant sur les sources exploitées qui sont multimodales venant de trois domaines, à savoir :
- des informations propres aux comportements des individus, par exemple liées aux expressions faciales, à la voix, aux gestes, etc.,
- des informations de la maison connectée par exemple liées à la température, à l’humidité, à la consommation d’énergie, etc., et - des informations extérieures à la maison, par exemple liées aux prévisions météorologiques, aux actualités, etc.
Le procédé proposé est, de plus, original dans sa conception de bout en bout. En effet, la mise en oeuvre du procédé permet de traiter des données brutes reçues d’équipements communicants, d’inférer un score d’émotion indiquant une situation émotionnelle prédite, et de promouvoir un service adapté afin d’influencer cette situation émotionnelle prédite. Une reconnaissance d’émotions « négatives » est une référence situationnelle pour promouvoir des services invoquant des émotions « positives ».
Les caractéristiques exposées dans les paragraphes suivants peuvent, optionnellement, être mises en oeuvre. Elles peuvent être mises en oeuvre indépendamment les unes des autres ou en combinaison les unes avec les autres :
Dans un exemple, le procédé comprend en outre une collecte de signaux au cours du temps depuis la pluralité d’équipements communicants et une sélection des signaux d’intérêt parmi les signaux collectés.
En effet, le procédé est applicable dans de nombreuses configurations possibles d’installations domestiques, notamment aucune restriction n’est imposée sur la nature des équipements communicants présents dans l’installation domestique et des capteurs les équipant.
La pertinence relative des signaux collectés pour la prédiction de situation émotionnelle des habitants peut par exemple être évaluée au cours d’une phase de calibration du modèle, de sorte qu’il soit possible, sur la base de cette évaluation, de ne sélectionner que les signaux obtenus ayant une corrélation avérée avec une situation émotionnelle ultérieure de l’utilisateur. Ainsi, l’utilisation des ressources du circuit de traitement est optimisée pour la prédiction de la situation émotionnelle de l’utilisateur.
Dans un exemple, le procédé comprend en outre une segmentation temporelle des signaux d’intérêt, et les séries temporelles d’intérêt sont déterminées sur la base des signaux segmentés.
La segmentation temporelle permet de disposer de séries temporelles d’intérêt chronologiquement synchronisées. Par exemple, une segmentation temporelle en intervalles de temps de 30 secondes a pour effet que toutes les séries temporelles d’intérêt comportent, pour chaque intervalle de temps de 30 secondes, une valeur de grandeur d’intérêt associée. Cette synchronisation temporelle permet par exemple d’établir des corrélations multimodales entre les valeurs de différentes grandeurs d’intérêt au cours d’un même intervalle de temps, ou au cours d’intervalles de temps consécutifs. Ainsi, il est possible de structurer dans le modèle, par exemple, une corrélation entre le débit de parole de l’utilisateur au cours d’un intervalle de temps donné et ses gestes au cours d’un intervalle de temps suivant.
Dans un exemple, le procédé comprend en outre un traitement des signaux d’intérêt, tel qu’un filtrage passe-bas, une normalisation, ou un rééchantillonnage, et les séries temporelles d’intérêt sont déterminées sur la base des signaux traités.
Ce traitement permet, de manière générale, de mettre en forme les signaux d’intérêt en vue de l’inférence de la situation émotionnelle de l’utilisateur. A titre d’exemples, le filtrage passe-bas permet de débruiter l’information, la normalisation permet d’uniformiser les données et le rééchantillonnage de données permet de synchroniser les sources.
Dans un exemple, les valeurs des séries temporelles d’intérêt sont obtenues par classement des signaux d’intérêt par modalité selon une échelle discrète de valeurs associée audit signal.
Ce classement par modalité permet, en synthétisant les informations contenues dans les signaux d’intérêt, de mettre en évidence des sous-séquences récurrentes au sein de chaque série temporelle d’intérêt. Chaque sous-séquence récurrente ainsi mise en évidence peut servir de base à une corrélation temporelle. Ainsi, le classement par modalité d’un signal d’intérêt favorise la détection de corrélations temporelles relativement à ce signal d’intérêt. De même, le classement par modalité de plusieurs signaux d’intérêt a pour effet de favoriser la détection de corrélations multimodales entre ces signaux d’intérêt.
Dans un exemple, les corrélations temporelles et multimodales du modèle sont obtenues par apprentissage sur la base :
- pour chaque série temporelle d’intérêt, d’une sous-section de référence formée d’une portion de la séquence de valeurs, la portion couvrant une période temporelle de référence, et
- d’une base de connaissances répertoriant, pour une pluralité d’instants de la période temporelle de référence, un score d’émotion de référence indicatif de l’état émotionnel de l’utilisateur audit instant. Ainsi, après cet apprentissage, les séries temporelles d’intérêt continuent à être acquises de la même manière que pendant la période temporelle de référence, en utilisant les mêmes équipements communicants. Un score d’émotion ultérieur de l’utilisateur peut alors être inféré en s’appuyant sur les corrélations établies, dans les mêmes conditions, entre les scores d’émotions de la base de connaissance et les sous-sections de référence des séries temporelles d’intérêt.
Dans un exemple, le modèle comprend une corrélation temporelle donnée entre plusieurs valeurs d’une série temporelle d’intérêt donnée, et l’inférence du score d’émotion est basée sur la corrélation temporelle donnée.
Une sous-séquence particulière peut être identifiée au sein d’une série temporelle d’intérêt. Par exemple, une expression du visage indiquant un ennui peut être détectée de manière répétée au cours de plusieurs instants consécutifs. Il est ainsi possible d’inférer qu’à un instant ultérieur, cette expression du visage se maintiendra. Sur cette base, il est ainsi possible d’inférer un état émotionnel ultérieur « ennuyé ».
Dans un exemple, les séries temporelles d’intérêt sont regroupées en une pluralité de domaines informationnels, le modèle comprend, pour au moins un domaine informationnel donné, une corrélation multimodale donnée entre une pluralité de séries temporelles d’intérêt dudit domaine informationnel donné, et l’inférence du score d’émotion est basée sur la corrélation multimodale donnée.
Par exemple, un score d’émotion peut être inféré en se basant sur une corrélation multimodale avec les actualités et les informations météorologiques. Par exemple, un temps ensoleillé, associé à un événement d’actualité perçu positivement pour une personne donnée, peuvent généralement être corrélés à un état émotionnel positif de la personne donnée.
Dans un exemple, le procédé comprend une obtention d’une série temporelle latente formée d’une séquence de valeurs en fonction du temps, le modèle obtenu comprend une corrélation temporelle donnée entre plusieurs valeurs de la série temporelle latente, l’inférence du score d’émotion comprend une détermination, à l’instant courant, de la valeur de la série temporelle latente à l’instant courant sur la base de la corrélation temporelle donnée, et l’inférence du score d’émotion est basée sur la valeur déterminée de la série temporelle latente.
Une série temporelle latente permet de représenter une grandeur non mesurable, par exemple en l’absence de capteur adéquat, mais néanmoins corrélée à la fois à une ou plusieurs grandeurs mesurables et à l’état émotionnel de la personne. Cette série temporelle latente peut être manipulée en tant que telle par le modèle. Ainsi il est possible de structurer, à l’aide du modèle, une corrélation temporelle entre différentes valeurs de toute série temporelle, qu’elle soit relative à une grandeur mesurable ou à une grandeur latente.
Dans un exemple, le procédé comprend, sur la base du modèle et des séries temporelles obtenues, une détermination, à un instant courant, d’un niveau de confiance associé au score d’émotion inféré, le procédé comprend en outre une comparaison du niveau de confiance déterminé avec un seuil, et le déclenchement de la routine est basé sur le résultat de la comparaison.
Ainsi, pour un score d’émotion inféré donné, il est possible de ne recommander un service prédéfini à un utilisateur, par exemple, que si les corrélations multimodales et temporelles ont permis d’inférer le score d’émotion avec un niveau de confiance suffisant. Ceci évite de suggérer des services à un utilisateur sur la base de prédictions erronées de son état émotionnel ultérieur.
Dans un exemple, une pluralité de services numériques suggérés sont définis par des liens respectifs stockés dans une table de correspondance en association avec des seuils de scores d’émotion respectifs et, en cas de dépassement d’un seuil par le score d’émotion de l’utilisateur, au moins un lien d’un service numérique correspondant est lu pour suggérer ledit service numérique correspondant à l’utilisateur via l’interface homme-machine.
Ainsi, un service n’est recommandé à l’utilisateur que si l’intensité d’une émotion prédite est suffisamment importante. Ceci a pour effet de réserver la suggestion de services à l’utilisateur aux moments où l’exécution de ces services lui serait les plus utiles.
Dans un exemple, les liens respectifs sont stockés dans la table de correspondance selon un ordre de préférence, en cas de dépassement d’un seuil par le score d’émotion de l’utilisateur, une pluralité de liens de services numériques correspondants est lue selon l’ordre de préférence pour suggérer lesdits services numériques correspondants à l’utilisateur via l’interface homme-machine, le retour de l’utilisateur à l’invitation émise comprend une sélection d’un service numérique parmi lesdits services numériques correspondants, et l’ordre de préférence est mis à jour sur la base de ladite sélection.
Ainsi, une sélection de services est proposée à l’utilisateur et les services habituellement préférés parmi cette sélection seront mis davantage, ou plus fréquemment, en avant.
Il est également proposé un programme informatique comportant des instructions pour la mise en oeuvre du procédé ci-avant lorsque ce programme est exécuté par un processeur.
Il est également proposé un support d’enregistrement non transitoire lisible par un ordinateur sur lequel est enregistré un programme pour la mise en oeuvre du procédé ci- avant lorsque ce programme est exécuté par un processeur. Il est également proposé un circuit de traitement comprenant un processeur connecté au support d’enregistrement non transitoire ci-avant et à une interface de communication.
Brève description des dessins
D’autres caractéristiques, détails et avantages apparaîtront à la lecture de la description détaillée ci-après, et à l’analyse des dessins annexés, sur lesquels :
- La Figure 1 illustre schématiquement la structure d’un circuit de traitement, dans un exemple particulier de réalisation, pour la mise en œuvre du procédé de détermination proposé.
- La Figure 2 représente un ordinogramme d’un algorithme général d’un programme informatique, dans un exemple particulier de réalisation, pour la mise en œuvre du procédé de détermination proposé.
- La Figure 3 représente, sous la forme d’un réseau bayésien dynamique, un modèle de prédiction d’émotion pouvant être issu, dans un exemple particulier de réalisation, du procédé de détermination proposé. Description des modes de réalisation
Les dessins et la description ci-après contiennent, pour l’essentiel, des éléments de caractère certain. Ils pourront donc non seulement servir à mieux faire comprendre la présente divulgation, mais aussi contribuer à sa définition, le cas échéant.
On se réfère à présent à la Figure 1, qui représente un exemple de circuit de traitement intégré à un équipement communicant, installé dans un espace occupé par une personne, tel qu’un logement.
Le circuit de traitement comprend au moins un processeur PROC 100 raccordé à au moins une mémoire MEM 200 et à au moins une interface de communication COM 300.
Un équipement communicant est caractérisé par sa capacité à recevoir et transmettre des informations via l’interface de communication. Par exemple, dans une installation domestique, différents équipements communicants peuvent être configurés pour communiquer les uns avec les autres à travers un réseau de communication local et/ou un réseau de communication étendu. La communication peut être filaire et/ou par ondes radioélectriques. Certains équipements communicants peuvent être en outre équipés de capteurs permettant de recueillir des données.
On peut citer par exemple comme équipements communicants les smartphones, tablettes, ordinateurs, téléviseurs connectés, passerelles réseau, enceintes connectées, montres, bracelets ou bandeaux connectés, appareils électroménagers, stations météo, compteurs électriques, de gaz ou d’eau, éclairages connectés, caméras connectées, thermostats connectés, etc.
On se réfère à présent à la Figure 2, qui représente un ordinogramme d’un algorithme général d’un programme informatique stocké sur la mémoire MEM (200) du circuit de traitement représenté sur la Figure 1.
Ce circuit de traitement est configuré pour obtenir, ou recevoir SIGN OBT (P1 ), de manière continue, un flux de signaux. Chaque signal transporte au moins un type d’information numérique. Si le circuit de traitement est intégré à un équipement communicant muni d’un ou de plusieurs capteurs, alors la réception de signaux peut s’effectuer par acquisition à l’aide du ou desdits capteurs.
Par exemple, si l’équipement communicant comprend une caméra, alors il est possible de recueillir un enregistrement vidéo de la personne, en tant que signal transportant plusieurs types d’informations numériques. Cet enregistrement vidéo peut être analysé par le circuit de traitement afin d’identifier lesdites informations numériques. Il est ainsi possible de recueillir différentes caractéristiques du visage ou expressions faciales, différents gestes ou postures, des déplacements de la personne, une luminosité ambiante, etc.
La réception de signaux peut s’effectuer en parallèle via l’interface de communication du circuit de traitement, récepteur. Ainsi, il est possible de recevoir des signaux émis par d’autres équipements communicants, émetteurs, de l’installation domestique.
Par exemple, une enceinte connectée, en tant qu’équipement communicant émetteur, peut recueillir un enregistrement audio en tant que signal transportant des informations numériques. Le traitement de cet enregistrement audio directement par l’enceinte connectée peut permettre d’extraire par exemple un niveau sonore ambiant, un débit de parole d’une personne, une estimation de position de la personne, etc. Il est possible de transmettre chaque type d’information numérique extrait séparément. En d’autres termes, l’enceinte connectée peut transmettre une pluralité de signaux. Chaque signal transporte un type d’information numérique, à l’équipement communicant récepteur. Alternativement, l’enceinte connectée peut directement transmettre l’enregistrement audio à l’équipement communicant récepteur, sans traitement préalable. Dans ce cas, l’enceinte connectée transmet un signal, audio, transportant plusieurs types d’informations numériques. Par exemple, une station météo, en tant qu’équipement communicant émetteur, peut être munie de capteurs permettant de recueillir de manière continue différentes informations numériques domotiques. On peut citer à titre d’exemple la température ambiante dans différentes pièces, l’humidité, la pression atmosphérique, le taux de dioxyde de carbone, etc. Ces informations numériques domotiques peuvent être transmises sous la forme de séries temporelles, donc sous la forme de séquences de valeurs horodatées.
De manière générale, en fonction de la nature et de la configuration des différents équipements communicants préexistants au sein d’une installation domestique particulière, il est possible d’obtenir une grande variété d’informations numériques. En principe, les informations numériques ainsi obtenues sont hétérogènes à la fois par leur nature et leur format.
Trois catégories d’informations obtenues sont définies ci-après.
Une première catégorie d’informations concerne les informations décrivant le comportement de la personne. Par exemple, il peut s’agir de caractéristiques du visage, de la voix, des gestes, etc. Ce type d’information peut être issu par exemple d’équipements communicants comprenant des capteurs audio et/ou vidéo. Des sous-catégories peuvent être définies. Par exemple, une première sous-catégorie peut englober les caractéristiques du visage. Une deuxième sous-catégorie peut regrouper les caractéristiques de la voix.
Une deuxième catégorie d’informations concerne les informations liées à l’espace occupé par la personne. Par exemple, il peut s’agir de témoins d’ouverture de portes, de relevés de consommation d’eau, de gaz ou d’électricité, de mesures de température, de luminosité ou de niveau sonore, etc. Ce type d’information peut être acquis par exemple par des capteurs adéquats présents sur divers équipements d’habitat connecté.
Une troisième catégorie d’informations concerne une ou plusieurs informations liées à un contexte extérieur à la maison. Par exemple, il peut s’agir d’informations météorologiques, de fils d’actualité, d’indicateurs de pollution de l’air, etc. Ce type d’information peut être téléchargé par un équipement communicant, par exemple depuis un serveur distant.
Dans le contexte de la divulgation, il est considéré qu’au moins une information numérique est obtenue pour chaque catégorie d’informations définie ci-avant.
D’autres informations numériques n’appartenant à aucune des catégories précitées, ou appartenant à plusieurs catégories précitées, peuvent être obtenues.
En parallèle à la collecte de données par la réception du flux de signaux, il est possible pour le circuit de traitement d’opérer, pour chaque catégorie ou sous-catégorie d’informations, une sélection SIGN SELEC (P2) de signaux d’intérêt à traiter. Par exemple, il est possible de ne traiter qu’une sélection de 50 informations domotiques parmi 200 informations domotiques collectées.
De même il est possible de ne traiter qu’une sélection de 10 caractéristiques du visage parmi 50 collectées.
L’intérêt d’opérer une telle sélection est de minimiser les échanges de données entre équipements communicants en ignorant les caractéristiques n’ayant aucune influence sur l’état émotionnel de la personne.
Par exemple, il est possible d’opérer un suivi de l’état émotionnel d’une personne au cours d’une période étendue de plusieurs semaines ou mois. Ce suivi peut être mis en oeuvre par des itérations répétées du procédé proposé. Ce suivi peut mettre en évidence, par recoupements, que certaines informations obtenues sont décorrélées de l’état émotionnel de ladite personne. Partant de cette constatation, ces informations peuvent être ignorées à l’avenir.
De plus, une étude sociologique peut mettre en évidence que certaines informations obtenues peuvent être ignorées a priori.
Afin d’homogénéiser les signaux en vue de leur analyse ultérieure, il est possible pour le circuit de traitement de définir SIGN WIND (P3) une fenêtre d’analyse, ou un pas de mesure.
Par exemple, une information domotique telle qu’un niveau sonore ambiant peut être relevée de manière continue, être segmentée en intervalles consécutifs d’une durée prédéfinie, et être représentée par une série temporelle correspondant à une succession de niveaux sonores ambiants moyens au cours de chaque intervalle écoulé.
Par exemple, une information météorologique telle qu’une température ambiante extérieure peut être relevée de manière discrète de manière à former une série temporelle correspondant à une succession de valeurs instantanées.
Ainsi, il est possible de représenter chaque type d’information obtenu comme une série temporelle formée d’une séquence de valeurs horodatées. En d’autres termes, il est possible d’associer à chaque mesure un instant i correspondant et à chaque série temporelle comprenant n mesures une séquence d’instants consécutifs correspondants (0, 1 , ..., i-1 , i, i+1 , ... n-1 , n), chaque instant correspondant à un intervalle temporel prédéfini.
Dans un exemple d’implémentation, il est possible de segmenter les données toutes les minutes sans recouvrement. Le circuit de traitement peut mettre en œuvre divers traitements spécifiques SIGN PROC (P4) des signaux d’intérêt recueillis et segmentés.
Les traitements sont, de façon non exhaustive, du filtrage passe-bas pour débruiter l’information, de la normalisation pour uniformiser les données, du rééchantillonnage de données pour synchroniser les sources, etc.
Les signaux ainsi obtenus peuvent être classés SIGN CLASS (P5) par modalité. Le terme modalité désigne les différentes valeurs pouvant être prises relativement à un type d’information.
Dans un exemple d’implémentation, les caractéristiques des visages des individus peuvent être classées sur une échelle d’intensité émotionnelle de 1 à 5, afin de désigner respectivement l’intensité d’émotions telles que neutre, joyeux, dégoûté, en colère ou ennuyé. Pour les voix, le débit de la parole peut par exemple être classé sur une échelle de 1 à 4, désignant respectivement un débit lent, neutre, rapide ou très rapide. L’intensité des gestes peut être classée sur une échelle de 1 à 3, 1 désignant la personne au repos, 2 désignant des gestes d’intensité normale et 3 désignant des gestes énergiques.
De même les informations caractérisant la maison peuvent être catégorisées sur une échelle de valeurs. Par exemple, il est possible à l’aide d’un contacteur de déterminer à chaque instant si une porte est ouverte ou fermée. La série temporelle résultant du classement par modalité peut être par exemple une alternance de valeurs égales à 1 lorsque la porte est ouverte et à 2 lorsque la porte est fermée. La consommation d’eau, de gaz ou d’électricité peut être comparée à des seuils prédéfinis et être classée par modalité selon une échelle par exemple de 1 à 4, correspondant respectivement à une consommation très faible, faible, forte ou très forte. De même pour la température, la luminosité et le bruit ambiants. Les informations de contexte venant de l’extérieur de la maison peuvent également être classées. Un exemple d’échelle de 1 à 4 peut désigner respectivement un temps ensoleillé, pluvieux, neigeux ou nuageux. Il peut aussi être rendu compte des actualités majeures du jour à l’aide de telles échelles. Ainsi, il est possible d’affecter une modalité de 1 si l’actualité principale est de type politique, de 2 s’il l’agit d’une actualité sportive, etc. Il est également possible de considérer chaque type d’actualité séparément et d’affecter une modalité à chaque type d’actualités (politique, sportive, santé, de loisir, people etc.) en fonction de la présence ou absence de ce type d’actualité, d’une évaluation de leur intérêt pour la personne et/ou de leur caractère rassurant ou inquiétant. Ainsi, sont constituées des bases de données HUM DB, IN DB, OUT DB pour stocker respectivement les historiques des informations pré-classées pour les trois catégories d’informations, ou domaines informationnels, décrivant l’état des habitants (ex : visages, voix, gestes, etc.), de l’intérieur de l’habitat (ex : température, humidité, consommation d’énergie, etc.) et de l’extérieur de l’habitat (ex : actualités/news, météo, indice de pollution, etc.).
Un modèle MOD pré-appris est chargé MOD LD (P6) par le circuit de traitement. Le modèle MOD structure des corrélations temporelles et multimodales entre les différentes sources d’informations.
Il est à présent fait référence à un exemple d’implémentation, dans lequel le modèle MOD est un réseau bayésien dynamique. Les inventeurs ont constaté, par validation expérimentale, la robustesse de la prédiction d’un état émotionnel d’une personne sur la base d’un tel modèle.
Bien entendu, alternativement, tout type de modèle probabiliste, établissant des corrélations temporelles et multimodales, est applicable. Pour autant, les résultats ainsi procurés n’ont pas nécessairement une robustesse équivalente.
Le modèle MOD peut être préalablement déterminé, ou appris, lors d’une phase de calibration.
Cette détermination s’appuie sur des informations numériques précédemment collectées sur une durée prédéfinie, dite période de référence.
Par exemple, il est possible de s’appuyer sur :
- une sous-section des bases de données HUM DB, IN DB, OUT_DB, correspondant aux données collectées pendant une période d’une semaine, et
- une base de connaissance EM DB labélisant les émotions de la personne pendant cette même période.
Dans un exemple d’implémentation, quinze classes d’émotions peuvent être utilisées, soit neutre (1), dégoûté (2), paniqué (3), anxieux (4), en colère (5), colère froide (6), désespéré (7), triste (8), enthousiaste (9), content (10), intéressé (11), ennuyé (12), honteux (13), fier (14) et méprisant (15).
Les labels, désignant les classes d’émotions, peuvent être fournis par la personne elle- même, par exemple sous la forme d’un journal de bord. Alternativement, les labels peuvent être fournis par un tiers de confiance, soit la famille, un proche, le corps médical, etc. Les labels des émotions permettent ainsi d’apprendre des corrélations temporelles et des corrélations multimodales entre les bases de données HUM DB, IN DB, OUT DB et les labels d’émotions EM DB.
Ces corrélations constituent un exemple de modèle MOD personnalisé fourni dans une version initiale d’exploitation. Le modèle MOD est bien entendu amené à évoluer au cours du temps en fonction de l’évolution des données numériques accumulées.
Différents modèles MOD, correspondant à différentes personnes, dans différents logements, avec différentes installations domestiques, peuvent être rassemblés afin de constituer des modèles types, génériques, qui peuvent être applicables par défaut à une nouvelle personne dans un nouveau logement ayant une installation domestique comportant un ensemble d’équipements communicants donnés. Par ce biais, il est possible de s’affranchir, dans certains exemples d’implémentations, d’une phase de calibration.
Il est à présent fait référence à la Figure 3, représentant, dans un exemple d’implémentation, le modèle MOD sous la forme d’un réseau bayésien dynamique.
L’état émotionnel E, d’une personne à un instant i donné dépend potentiellement de l’historique récent des états émotionnels de la personne. En d’autres termes, il existe une corrélation temporelle entre l’état émotionnel E de la personne, d’une part, à un instant futur i+1 et, d’autre part, à l’instant courant i, à l’instant précédent i-1 , etc. Cette corrélation temporelle est représentée sur la Figure 3 par les flèches reliant les états émotionnels EM , E, et Ei+i.
Par ailleurs, il existe des corrélations multimodales entre l’état émotionnel Ei+i de la personne à un instant futur i+1 , d’une part, et différentes variables à l’instant courant i, d’autre part. Ces corrélations multimodales sont représentées représentée sur la Figure 3 par les flèches reliant U, R, V,, G,, T,, H,, Ci, N, et M, avec Ei+i.
On peut citer notamment des variables du premier domaine informationnel, désignant des états de la personne, telles que des caractéristiques du visage, notées F, de la voix, notées V ou des gestes, notées G.
On peut aussi citer des variables du deuxième domaine informationnel, désignant des informations domotiques, telles que la température intérieure, notée T, l’humidité intérieure, notée H, ou la consommation d’énergie, notée C.
On peut encore citer des variables du troisième domaine informationnel, désignant des informations de contexte extérieures au domicile, telles que des informations d’actualités, notées N, ou météo, notées M. On peut citer de plus des variables latentes (non-observables), notées L. De telles variables représentent des grandeurs non mesurables, par exemple en raison d’une absence de capteurs permettant de les mesurer. En l’espèce, une grandeur L est modélisée par corrélation multimodale et/ou temporelle avec d’autres données obtenues. Par exemple, la luminosité en intérieur peut être corrélée à l’éclairage naturel, donc à l’ensoleillement, et à l’éclairage artificiel. Ainsi, la luminosité peut être prise en compte par le modèle MOD même en l’absence de capteur de luminosité. En effet, en admettant les corrélations ci-avant, la luminosité à un instant donné peut être modélisée en s’appuyant sur des informations météorologiques, sur des données de fonctionnement d’éclairages communicants et/ou sur des valeurs modélisées de luminosité à des instants précédents.
On notera également que les informations produites par les variables latentes L, les habitants, le domicile et le contexte extérieur sont dépendantes dans le temps, c’est-à-dire que les instants i-1 et i, notamment, influencent l’instant i+1. En d’autres termes, il existe des corrélations temporelles internes à chacune de ces variables.
On notera également que la voix et le geste influencent les caractéristiques du visage. Ces corrélations multimodales sont représentées sur la Figure 3 par les flèches reliant V, et G, avec Fi+i. De même, le visage et la voix influencent les gestes et que le visage et les gestes influencent la voix.
De même, des informations de la maison sont corrélées (par exemple : la température et l’humidité influencent la consommation d’énergie, etc.). Également, les informations du contexte extérieur peuvent être liées (ex : météo et actualité, etc.).
Dans un exemple d’implémentation, il est possible d’exclure a priori certaines corrélations.
Par exemple il est possible de prévoir que, dans le modèle MOD, aucune corrélation ne soit structurée entre différents domaines informationnels. Aucune flèche ne relie sur la Figure 3 les variables F, V et G avec les variables T, H et C par exemple. On considère alors que ces domaines informationnels sont indépendants. Par exemple, il est possible de considérer que les informations produites par les habitants ne sont directement influencées ni par les informations domotiques ni par les informations de contexte extérieur, et vice versa.
De même il est possible de prévoir qu’une variable latente ne soit déterminée que par corrélation temporelle et non par corrélation multimodale. Ainsi, cette variable latente est indépendante des informations mesurées.
Les corrélations pouvant être exclues a priori ne concernent que les interactions entre différentes variables obtenues et/ou latentes, et non les corrélations entre une variable obtenue ou latente, d’une part, et un état émotionnel, d’autre part. En effet, les états émotionnels E sont potentiellement corrélés aux variables obtenues pour chaque domaine informationnel et à chaque variable latente L.
Le circuit de traitement infère, ou prédit EMOT PRED (P7), un état émotionnel E d’une personne à un instant ultérieur i+1 en s’appuyant sur les corrélations temporelles et multimodales structurées par le modèle MOD.
Ces corrélations sont appliquées à l'historique récent des informations obtenues, c’est-à- dire aux informations associées à l’instant courant i et aux informations associées à un ou plusieurs instants précédents i-1 , i-2, etc.
Lesdites informations obtenues englobent : celles issues des bases de données HUM DB, IN DB, OUT DB, et
- les valeurs des variables latentes L exploitées par le modèle MOD.
Lesdites informations obtenues englobent également l’état émotionnel courant de la personne, tel qu’inféré par une précédente itération.
Ainsi, le procédé proposé permet, à tout instant, à la fois de déterminer l’état émotionnel courant d’une personne et d’en prédire l’évolution au cours du temps.
Dans certains exemples de réalisation, une mesure de confiance Z peut être associée CONF COMP (P8), par le circuit de traitement, à la situation émotionnelle de la personne à l’instant i+1 inférée par le modèle MOD.
Par exemple, une valeur de maximum de vraisemblance que la situation émotionnelle soit à l’état 3 (i.e. classe représentant « paniqué ») est calculée. Plus cette valeur est haute, et plus la confiance accordée à la prédiction est élevée.
Dans certains exemples de réalisation, il peut être décidé de prendre en compte TEST DIFF (P9) à la fois la situation émotionnelle inférée et la mesure de confiance Z ainsi déterminée pour proposer un service.
Par exemple, il peut être prévu une double condition, telle que :
- si la mesure de confiance Z est supérieure à un seuil A prédéfini (sur une échelle de 0 à 1 , le seuil peut être fixé à 0.8 dans un exemple d’implémentation), et
- si la situation émotionnelle prédite de la personne est considérée comme « négative », alors un service adapté peut être proposé à la personne. Dans le cas contraire, il peut être prévu de ne proposer aucun service, de cesser l’itération courante du procédé à l’instant courant i, et de déclencher une itération ultérieure du procédé à l’instant ultérieur i+1 .
Dans un exemple d’implémentation, les classes « négatives » peuvent être choisies comme suit : dégoûté (2), paniqué (3), anxieux (4), en colère (5), colère froide (6), désespéré (7), triste (8), ennuyé (12) et honteux (13).
La situation émotionnelle à l’instant inférieur étant inférée, une recommandation de service, adaptée à la prédiction, peut être déclenchée par le circuit de traitement.
Ainsi, une routine d’animation d’une interface homme-machine de tout équipement communicant de l’installation domestique est déclenchée pour présenter SERV PRES (P10) le service recommandé à la personne.
Dans un exemple d’implémentation, la recommandation du service est exécutée sur le meilleur canal de diffusion pour la personne, telle que la TV du salon, une enceinte communicante, un smartphone, etc.
L’équipement communicant le plus adapté à cet effet peut être sélectionné par exemple sur la base des fonctionnalités offertes par les différents équipements communicants de l’installation.
Un autre critère peut être une estimation de distance, à l’instant courant, entre les différents équipements communicants et la personne, permettant de choisir, parmi les différents équipements communicants de l’installation aptes à déclencher les services proposés, celui étant le plus proche de la personne à l’instant courant.
La routine d’animation permet de suggérer à la personne au moins un service numérique prédéfini associé au score d’émotion inféré.
Par exemple, si la situation prédite est « paniqué », les services associés dans un modèle de préférences PREF peuvent être dans un ordre de préférence « une recommandation d’une vidéo comique », « une incitation à appeler un ami », ou « une augmentation du confort de la maison par le réglage automatique de la luminosité et du chauffage ».
D’autres exemples de services peuvent être décrits pour chaque situation émotionnelle « négative » selon les préférences et les habitudes des personnes.
Ces préférences peuvent être définies par les personnes elles-mêmes ou par un tiers de confiance, telle que la famille, un proche, ou le corps médical.
Ces préférences peuvent être définies, réorganisées ou mises à jour automatiquement par apprentissage des services utilisés dans le passé en corrélation avec les émotions prédites. L’objectif est toujours d’évoquer ou de maintenir une situation émotionnelle positive par le biais de services adaptés.
Le circuit de traitement peut ensuite évaluer TEST AGR (P11 ) le retour de la personne à la sollicitation du service adapté. En effet, si une liste de services possibles est suggérée, chaque service de la liste peut être soit activé, refusé, ou ignoré par la personne.
Si un service est activé par la personne, alors il est possible d’exécuter le service SERV EXEC (P12) proposé.
Il est également possible, le cas échéant, de mettre à jour PREF UPD (P13) le modèle des préférences PREF de la personne en fonction de la situation émotionnelle prédite et du service accepté.
Il est également possible de mettre à jour le modèle MOD en fonction du retour de la personne à la sollicitation du service adapté. En effet, il peut être prévu que la personne puisse signaler une prédiction incorrecte de son état émotionnel ultérieur, ou puisse signaler lorsque la prédiction est correcte, et ce afin d’améliorer les prédictions lors d’itérations suivantes du procédé.
Enfin, lorsqu’un service proposé est activé et exécuté, ou lorsqu’un service proposé est refusé, ou encore lorsqu’aucun service proposé n’est activé à l’issue d’un laps de temps prédéfini, l’itération du procédé à l’instant courant s’achève. Le circuit de traitement peut alors initier une nouvelle itération du procédé pour un instant ultérieur.

Claims

Revendications
1. Procédé de déclenchement d'un service numérique en fonction d'une prédiction d’un état émotionnel d’un utilisateur, le procédé étant mis en oeuvre par un circuit de traitement connecté à une pluralité d’équipements communicants installés dans un environnement occupé par l’utilisateur, le procédé comprenant :
- une obtention d’une pluralité de signaux d’intérêt acquis par les équipements communicants, la pluralité de signaux d’intérêt comprenant au moins : un signal d’intérêt d’un premier type mesurant un comportement de l’utilisateur, un signal d’intérêt d’un deuxième type mesurant un état de l’environnement, et un signal d’intérêt d’un troisième type indicatif d’un contexte extérieur à l’environnement ;
- une détermination (P5), pour chaque signal d'intérêt obtenu, d’une série temporelle d’intérêt (HUM DB, IN DB, OUT DB) formée d’une séquence de valeurs en fonction du temps ;
- une inférence à un instant courant d'un score d'émotion (E) correspondant à une prédiction d'un état émotionnel de l'utilisateur à un instant ultérieur, à partir d'un modèle MOD structurant des corrélations temporelles et multimodales entre des valeurs de séries temporelles d'intérêt et un état émotionnel de l'utilisateur en fonction du temps ;
- une sélection d'au moins un service numérique en fonction du score d'émotion (E) inféré, et une recommandation à l'utilisateur d'au moins un service numérique sélectionné, par l'intermédiaire d'une interface homme-machine exécutée sur un des équipements communicants ;
- un déclenchement (P12), suite à un retour de l'utilisateur reçu via ladite interface homme- machine, d'au moins un service numérique recommandé, par l'intermédiaire d'un signal de commande transmis à au moins un équipement de la pluralité d’équipements communicants.
2. Procédé selon la revendication précédente, comprenant en outre une collecte (P1) de signaux au cours du temps depuis la pluralité d’équipements communicants et une sélection (P2) des signaux d’intérêt parmi les signaux collectés.
3. Procédé selon l’une des revendications précédentes, comprenant en outre une segmentation temporelle (P3) des signaux d’intérêt, et dans lequel les séries temporelles d’intérêt sont déterminées sur la base des signaux segmentés.
4. Procédé selon l’une des revendications précédentes, comprenant en outre un traitement (P4) des signaux d’intérêt, et dans lequel les séries temporelles d’intérêt sont déterminées sur la base des signaux traités.
5. Procédé selon l’une des revendications précédentes, dans lequel les valeurs des séries temporelles d’intérêt sont obtenues par classement des signaux d’intérêt par modalité selon une échelle discrète de valeurs associée audit signal.
6. Procédé selon l’une des revendications précédentes, dans lequel les corrélations temporelles et multimodales du modèle MOD sont obtenues par apprentissage sur la base :
- pour chaque série temporelle d’intérêt, d’une sous-section de référence formée d’une portion de la séquence de valeurs, la portion couvrant une période temporelle de référence, et
- d’une base de connaissances répertoriant, pour une pluralité d’instants de la période temporelle de référence, un score d’émotion de référence indicatif de l’état émotionnel de l’utilisateur audit instant.
7. Procédé selon l’une des revendications précédentes, dans lequel :
- le modèle comprend une corrélation temporelle donnée entre plusieurs valeurs d’une série temporelle d’intérêt donnée, et
- l’inférence du score d’émotion est basée sur la corrélation temporelle donnée.
8. Procédé selon l’une des revendications précédentes, dans lequel :
- les séries temporelles d’intérêt sont regroupées en une pluralité de domaines informationnels,
- le modèle comprend, pour au moins un domaine informationnel donné, une corrélation multimodale donnée entre une pluralité de séries temporelles d’intérêt dudit domaine informationnel donné, et
- l’inférence du score d’émotion est basée sur la corrélation multimodale donnée.
9. Procédé selon l’une des revendications précédentes, dans lequel :
- le procédé comprend une obtention d’une série temporelle latente formée d’une séquence de valeurs en fonction du temps,
- le modèle obtenu comprend une corrélation temporelle donnée entre plusieurs valeurs de la série temporelle latente, et - l’inférence (P7) du score d’émotion comprend une détermination, à l’instant courant, de la valeur de la série temporelle latente à l’instant courant sur la base de la corrélation temporelle donnée, et l’inférence (P7) du score d’émotion est basée sur la valeur déterminée de la série temporelle latente.
10. Procédé selon l’une des revendications précédentes,
- le procédé comprenant, sur la base du modèle et des séries temporelles obtenues, une détermination (P8), à un instant courant, d’un niveau de confiance (Z) associé au score d’émotion inféré ;
- le procédé comprenant une comparaison (P9) du niveau de confiance déterminé (Z) avec un seuil (A) ;
- la sélection d'au moins un service numérique en fonction dudit score d'émotion inféré étant basée sur le résultat de la comparaison.
11. Procédé selon l’une des revendications précédentes, dans lequel une pluralité de services numériques à recommander sont définis par des liens respectifs stockés dans une table de correspondance (PREF) en association avec des seuils de scores d’émotion respectifs et, en cas de dépassement d’un seuil par le score d’émotion de l’utilisateur, au moins un lien d’un service numérique correspondant est lu pour recommander ledit service numérique correspondant à l’utilisateur via l’interface homme-machine.
12. Procédé selon la revendication précédente, dans lequel :
- les liens respectifs sont stockés dans la table de correspondance selon un ordre de préférence,
- en cas de dépassement d’un seuil par le score d’émotion de l’utilisateur, une pluralité de liens de services numériques correspondants est lue selon l’ordre de préférence pour recommander lesdits services numériques correspondants à l’utilisateur via l’interface homme-machine,
- le retour de l’utilisateur comprend une sélection d’un service numérique parmi lesdits services numériques recommandés, et
- l’ordre de préférence est mis à jour sur la base de ladite sélection.
13. Programme informatique comportant des instructions pour la mise en œuvre du procédé selon l’une des revendications 1 à 12 lorsque ce programme est exécuté par un processeur.
14. Support d’enregistrement non transitoire lisible par un ordinateur sur lequel est enregistré un programme pour la mise en oeuvre du procédé selon l’une des revendications 1 à 12 lorsque ce programme est exécuté par un processeur.
15. Circuit de traitement comprenant un processeur PROC (100) connecté à une interface de communication COM (300) et à un support d’enregistrement non transitoire MEM (200) selon la revendication 14.
PCT/FR2021/050871 2020-05-29 2021-05-18 Prédiction d'un état émotionnel d'un utilisateur dans un environnement et déclenchement d'un service numérique en fonction de l'état émotionnel prédit WO2021240092A1 (fr)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
FR2005714 2020-05-29
FR2005714A FR3111044A1 (fr) 2020-05-29 2020-05-29 Prédiction de situations émotionnelles négatives dans un habitat connecté pour promouvoir des services invoquant des émotions positives

Publications (1)

Publication Number Publication Date
WO2021240092A1 true WO2021240092A1 (fr) 2021-12-02

Family

ID=72709485

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/FR2021/050871 WO2021240092A1 (fr) 2020-05-29 2021-05-18 Prédiction d'un état émotionnel d'un utilisateur dans un environnement et déclenchement d'un service numérique en fonction de l'état émotionnel prédit

Country Status (2)

Country Link
FR (1) FR3111044A1 (fr)
WO (1) WO2021240092A1 (fr)

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20160270718A1 (en) * 2013-10-09 2016-09-22 Resmed Sensor Technologies Limited Fatigue monitoring and management system
US10481749B1 (en) * 2014-12-01 2019-11-19 Google Llc Identifying and rendering content relevant to a user's current mental state and context
US20200077942A1 (en) * 2013-03-15 2020-03-12 Youngblood Ip Holdings, Llc Stress reduction and sleep promotion system

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20200077942A1 (en) * 2013-03-15 2020-03-12 Youngblood Ip Holdings, Llc Stress reduction and sleep promotion system
US20160270718A1 (en) * 2013-10-09 2016-09-22 Resmed Sensor Technologies Limited Fatigue monitoring and management system
US10481749B1 (en) * 2014-12-01 2019-11-19 Google Llc Identifying and rendering content relevant to a user's current mental state and context

Non-Patent Citations (5)

* Cited by examiner, † Cited by third party
Title
B. NAGARAJANV. R. M. ORUGANTI: "Group Emotion Récognition in Adverse Face Detection", 2019 14TH IEEE INTERNATIONAL CONFÉRENCE ON AUTOMATIC FACE & GESTURE RÉCOGNITION (FG 2019, 2019
D. FEDOTOVY. MATSUDAW. MINKER: "From Smart to Personal Environment: Integrating Emotion Récognition into Smart Houses", IEEE INTERNATIONAL CONFÉRENCE ON PERVASIVE COMPUTING AND COMMUNICATIONS WORKSHOPS (PERCOM WORKSHOPS, 2019
J. JIA ET AL.: "Inferring Emotions From Large-Scale Internet Voice Data", IEEE TRANSACTIONS ON MULTIMEDIA, vol. 21, no. 7, July 2019 (2019-07-01), pages 1853 - 1866, XP011731700, DOI: 10.1109/TMM.2018.2887016
K. LINF. XIAW. WANGD. TIANJ. SONG: "System Design for Big Data Application in Emotion-Aware Healthcare", IEEE ACCESS, vol. 4, no. 201, pages 6901 - 6909, XP011633728, DOI: 10.1109/ACCESS.2016.2616643
Z. YANGS. S. NARAYANAN: "Modeling Dynamics of Expressive Body Gestures In Dyadic Interactions", IEEE TRANSACTIONS ON AFFECTIVE COMPUTING, vol. 8, no. 3, 1 July 2017 (2017-07-01), pages 369 - 381

Also Published As

Publication number Publication date
FR3111044A1 (fr) 2021-12-03

Similar Documents

Publication Publication Date Title
EP3583749B1 (fr) Enregistrement d'utilisateur pour ordinateur assistant intelligent
KR102450993B1 (ko) 분류기 모델과 컨텍스트 파라미터를 사용한 원격 미디어 분류 쿼리에 대한 응답
US8600918B2 (en) Action history search device
JP6984083B2 (ja) 視聴者エンゲージメントを評価するためのシステム
US20200020353A1 (en) Method, system and program product for perceiving and computing emotions
CN105229629B (zh) 用于估计对媒体内容的用户兴趣的方法、电子设备和介质
US10916245B2 (en) Intelligent hearing aid
US8838505B2 (en) Schedule management system using interactive robot and method and computer-readable medium thereof
US10380208B1 (en) Methods and systems for providing context-based recommendations
US10719544B2 (en) Providing media content based on user state detection
US20180060732A1 (en) Personalized intelligent wake-up system and method based on multimodal deep neural network
US10642231B1 (en) Switch terminal system with an activity assistant
US11631401B1 (en) Conversation system for detecting a dangerous mental or physical condition
EP3799047A1 (fr) Dispositif, système et procédé d'identification d'une scène à partir d'une séquence ordonnée de sons captés dans un environnement
US20190261929A1 (en) Biomarker Change Indicator for Behavioral Health
WO2021240092A1 (fr) Prédiction d'un état émotionnel d'un utilisateur dans un environnement et déclenchement d'un service numérique en fonction de l'état émotionnel prédit
Magara et al. MPlist: Context aware music playlist
US11594315B2 (en) Systems and methods for automatic activity tracking
FR3067483A1 (fr) Procede de detection de presence d'individus
CN104281516A (zh) 用媒体测量仪数据表征家庭的方法和设备
FR3068810A1 (fr) Procede et dispositif de commande d'un dispositif electronique
WO2023078356A1 (fr) Surveillance et interrogation d'événements autobiographiques
EP3846503A1 (fr) Procédé et système d'émission prédictive et automatique d'un signal domotique
FR3096495A1 (fr) Procédé et dispositif de mesure de l’usage d’un bâtiment connecté
FR3103611A1 (fr) Procédé et dispositif de suivi de l’activité d’une personne en perte d'autonomie

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 21732968

Country of ref document: EP

Kind code of ref document: A1

NENP Non-entry into the national phase

Ref country code: DE

122 Ep: pct application non-entry in european phase

Ref document number: 21732968

Country of ref document: EP

Kind code of ref document: A1