WO2015062991A1

WO2015062991A1 - Procédé d'analyse sémantique d'un flux vidéo en cours d'acquisition, terminal, produit programme d'ordinateur et medium correspondant

Info

Publication number: WO2015062991A1
Application number: PCT/EP2014/072890
Authority: WO
Inventors: Gwénolé QUELLEC; Mathieu LAMARD; Guy CAZUGUEL
Original assignee: Universite De Bretagne Occidentale; Telecom Bretagne
Priority date: 2013-10-31
Filing date: 2014-10-24
Publication date: 2015-05-07
Also published as: FR3012640A1; FR3012640B1

Abstract

Il est proposé un procédé d'analyse sémantique d'un flux vidéo en cours d'acquisition. Selon l'invention, un tel procédé comprend une étape d'apprentissage, ladite étape d'apprentissage délivrant au moins une caractéristique vidéo, appelée caractéristique bas-niveau, à partir d'au moins un paramètre représentatif d'une phase d'action sémantique de type prédéterminé, appelée phase d'action haut-niveau.

Description

Procédé d'analyse sémantique d'un flux vidéo en cours d'acquisition, terminal, produit programme d'ordinateur et médium correspondant

1. DOMAINE DE L'INVENTION

Le domaine de l'invention est celui de l'analyse sémantique de flux vidéo, notamment de flux vidéo en cours d'acquisition, par exemple des flux vidéos acquis pendant une intervention chirurgicale (notamment une opération de la cataracte ou un examen par endoscopie) ou relatifs à la surveillance d'un dispositif (notamment un distributeur de billets de banque ou une machine outil) ou d'un lieu particulier (par exemple une banque ou un magasin).

2. ARRIÈRE-PLAN TECHNOLOGIQUE

On s'attache plus particulièrement dans la suite de ce document à décrire la problématique existant dans le domaine des interventions chirurgicales, et tout spécialement des opérations de la cataracte, qui ont servi de base d'étude aux inventeurs de la présente demande de brevet. L'invention ne se limite bien sûr pas à ce domaine particulier d'application, mais présente un intérêt pour toute technique d'analyse sémantique de flux vidéo en temps réel devant faire face à une problématique proche ou similaire.

Avec l'essor des techniques de traitement numérique et de stockage de données médicales, des archives médicales considérables ont été constituées. Ainsi, on estime à 70 petabytes le volume des données digitales stockées en 2012 aux Etats Unis. En particulier, en ophtalmologie, de larges volumes de données, et notamment des vidéos, concernent les opérations de la cataracte, du fait de la fréquence de ce type d'intervention chirurgicale. Un consensus se dégage des professionnels de la santé sur la nécessité de tirer profit de cette énorme quantité de données pour l'amélioration des soins de santé.

Pour cela, il est nécessaire de structurer sémantiquement les vidéos médicales disponibles. On connaît, dans l'état de la technique, différents types de méthodes d'analyse sémantiques de vidéo permettant de structurer, en temps différé, des vidéos enregistrées préalablement. Ce type de méthode permet ainsi la génération automatique, ou semi- automatique, de comptes-rendus chirurgicaux ou encore la navigation dans des archives vidéo chirurgicales.

En particulier, certaines de ces techniques de l'art antérieur permettent également le découpage automatique en étapes chirurgicales d'une vidéo acquise préalablement. Cependant, ces techniques reposent sur des méthodes d'analyse très consommatrices en temps de calcul, ce qui ne permet pas une utilisation de ces techniques pour analyser un flux au fil de son acquisition.

De plus, ces méthodes nécessitent généralement la connaissance de la vidéo dans son intégralité avant de pouvoir analyser, en temps différé, la vidéo. Ceci est notamment le cas des méthodes basées sur l'algorithme "Dynamic Time Warping".

De plus, ces techniques reposent sur une phase de définition manuelle préalable des caractéristiques vidéo à utiliser pour la structuration d'un flux vidéo à analyser. De ce fait, elles demandent, pour être mises en œuvre, des compétences dans le domaine des techniques vidéo et une analyse pointue du domaine d'application par des spécialistes de la vidéo.

Enfin, le paramétrage manuel, qui oblige à sélectionner un ensemble relativement simple de caractéristiques vidéo, limite également les possibilités de découpage en étapes d'une vidéo.

3. OBJECTIFS DE L'INVENTION

L'invention, dans au moins un mode de réalisation, a notamment pour objectif de pallier certains de ces inconvénients de l'état de la technique.

Plus précisément, dans au moins un mode de réalisation de l'invention, un objectif est de fournir une technique qui permette une analyse en temps réel de flux vidéo.

Au moins un mode de réalisation de l'invention a également pour objectif de fournir une technique qui soit simple à mettre en œuvre et adaptée à une utilisation par une personne non spécialiste du domaine de la vidéo.

Un autre objectif d'au moins un mode de réalisation de l'invention est de fournir une telle technique qui permette à un utilisateur de bénéficier de nouveaux services.

4. EXPOSÉ DE L'INVENTION

L'invention concerne un procédé d'analyse sémantique d'un flux vidéo en cours d'acquisition.

Selon l'invention, le procédé d'analyse sémantique comprend une étape d'apprentissage, ladite étape d'apprentissage délivrant au moins une caractéristique vidéo, appelée caractéristique bas-niveau, à partir d'au moins un paramètre représentatif d'une phase d'action sémantique de type prédéterminé, appelée phase d'action haut-niveau. Ainsi, le procédé d'analyse sémantique permet d'obtenir une analyse de niveau applicatif d'un flux vidéo, par la mise en œuvre d'une étape d'apprentissage, au cours de laquelle sont mémorisées des caractéristiques bas-niveau du domaine de la vidéo (par exemple des caractéristiques liées à des mouvements, des formes, des couleurs ou des textures) en association avec des types prédéterminés d'actions de haut niveau du domaine d'application du procédé (par exemple des actions ou étapes clés d'une chirurgie) grâce à la fourniture de paramètres représentatifs de ces types prédéterminés d'actions (par exemple des mots clés (« anesthésie », « incision », « suture », « intermède ».... )).

Selon l'invention, cette association est réalisée automatiquement, par exemple à partir des annotations d'un expert du domaine d'application du procédé, lors du visionnage de flux vidéo dédiés à cet apprentissage, par exemple un ensemble d'enregistrements représentatifs de ce domaine d'application constituant une base d'apprentissage.

Ainsi l'invention offre l'avantage, pour un utilisateur non spécialiste du domaine de la vidéo, de pouvoir catégoriser des moments clés d'un flux vidéo à un niveau applicatif, c'est-à-dire à un niveau sémantique, sans avoir à déterminer de lui-même des caractéristiques vidéo bas niveau susceptibles de permettre la reconnaissance de ces moments clés.

Selon une caractéristique particulière de l'invention, ladite étape d'apprentissage détermine en outre une probabilité d'ordonnancement d'au moins deux types prédéterminés de phases d'action haut niveau.

Ainsi, l'étape d'apprentissage peut comprendre l'enregistrement de certains ordonnancements d'actions. Il peut s'agir de conditions d'ordonnancement obligatoires. Par exemple, un chirurgien peut indiquer qu'une phase d'application d'un produit désinfectant ou antiseptique précède toujours une incision. Il peut également s'agir d'une probabilité d'ordonnancement calculée à partir des flux de référence représentatifs du domaine d'applicatif du procédé d'analyse sémantique.

Selon une caractéristique particulière de l'invention, le procédé d'analyse sémantique comprend également une étape d'analyse sémantique dudit flux vidéo en cours d'acquisition, comprenant les sous-étapes suivantes :

• échantillonnage du flux vidéo en éléments ;

• pour un élément courant : o extraction d'au moins une caractéristique bas-niveau dudit élément courant ;

o détermination d'une probabilité d'appartenance dudit élément courant à un intermède, ledit intermède suivant et/ou précédant au moins une phase d'action haut-niveau dans ledit flux vidéo, ladite sous-étape de détermination d'une probabilité d'appartenance tenant compte de ladite au moins une caractéristique bas-niveau extraite.

Le procédé d'analyse sémantique met en œuvre une étape d'analyse sémantique d'un flux vidéo en temps réel, au cours de laquelle le flux en cours d'acquisition est découpé en séquences particulières d'éléments échantillonnés successifs, auxquelles une signification sémantique est associée, à partir des caractéristiques bas-niveau extraites des éléments échantillonnés. Une séquence peut ainsi représenter une phase d'action, c'est-à- dire un moment clé particulier du flux, sémantiquement parlant, pendant lequel se déroule une action, ou un intermède, c'est-à dire un moment sémantiquement « sans action » pour le domaine d'application considéré, précédant ou suivant au moins une phase d'action.

Un tel moment sans action sémantique peut par exemple consister, dans le cas d'un dispositif de surveillance vidéo d'un distributeur automatique de billets de banque, en une séquence d'éléments sans aucun individu à proximité du distributeur, quelque que soit la scène qui se déroule en arrière-plan (présence ou non de passants par exemple).

Dans certaines mises en œuvre du procédé d'analyse sémantique, plusieurs phases d'action peuvent se dérouler entre deux intermèdes consécutifs. Par exemple, il peut s'agir de deux actions se déroulant conjointement. Ainsi, par exemple, au cours d'une chirurgie, un chirurgien peut terminer une étape chirurgicale de la main gauche tout en démarrant une nouvelle étape de la main droite.

Selon une caractéristique particulière de l'invention, ladite étape d'analyse sémantique comprend en outre une sous-étape de décision d'appartenance dudit élément courant audit intermède, tenant compte d'un seuil prédéfini de ladite probabilité d'appartenance.

Ainsi, la décision d'assimiler un élément courant à une partie d'un intermède peut selon l'invention, tenir compte d'un seuil de probabilité différent selon les domaines d'application de l'invention. Ce seuil peut en particulier être déterminé, lors ou juste après la phase d'apprentissage, par des tests sur des flux de référence, de façon à maximiser empiriquement le taux de succès du procédé.

Selon une caractéristique particulière de l'invention, lorsque ladite probabilité d'appartenance dudit élément courant à un intermède est inférieure audit seuil prédéfini, ladite étape d'analyse sémantique comprend en outre une sous-étape de détermination d'une probabilité de déroulement d'un type prédéterminé de phase d'action.

En d'autres termes, lorsque l'élément courant appartient a priori à une phase d'action, le procédé d'analyse sémantique comprend une caractérisation de la phase d'action en cours. Il s'agit d'associer à cette phase d'action en cours un type prédéterminé adéquat.

Selon une caractéristique particulière de l'invention, ladite sous-étape de détermination d'une probabilité d'appartenance tient compte en outre de l'appartenance à un intermède ou une phase d'action d'au moins un élément précédant temporellement ledit élément courant dans ledit flux vidéo.

Ainsi, l'invention propose de tenir compte, dans certains modes de réalisation, des éléments déjà analysés du flux en cours d'acquisition pour l'analyse de l'élément courant. De cette façon, l'invention permet d'affiner l'analyse du flux vidéo au fil de son acquisition.

Selon une caractéristique particulière de l'invention, ladite sous-étape de détermination d'une probabilité d'appartenance tient compte d'un critère de voisinage d'au moins une caractéristique bas niveau dudit élément courant avec au moins un élément d'un flux de référence, acquis pendant ladite phase d'apprentissage.

Ainsi, la probabilité pour un élément courant d'appartenir à un intermède tient compte de l'existence, dans au moins un flux de référence, utilisé par exemple lors de l'étape d'apprentissage, d'éléments considérés par un expert comme appartenant à un intermède ou à une phase d'action et ayant des caractéristiques bas niveau similaires ou proches (c'est-à-dire des éléments voisins d'un point de vue vidéo). Dans certains modes de réalisation particuliers, la probabilité pour un élément courant d'appartenir à un intermède ou à une phase d'action peut par exemple être définie à partir du pourcentage de ses voisins, dans un ensemble de flux de référence, considérés comme appartenant à un intermède ou à une phase d'action.

De même, la sous-étape de détermination d'une probabilité de déroulement d'une phase d'action d'un type prédéterminé peut aussi tenir compte de la présence, dans le flux de référence, d'éléments associés par un expert, notamment lors de l'étape d'apprentissage, à une phase d'action d'un type particulier, et ayant des caractéristiques bas niveau similaires ou proches de celles de l'élément courant.

Selon une caractéristique particulière de l'invention, ledit critère de voisinage est une distance euclidienne pondérée d'au moins une des caractéristique bas-niveau dudit au moins un élément dudit flux de référence et dudit élément courant.

La pondération à utiliser peut notamment être déterminée par apprentissage.

Selon une caractéristique particulière de l'invention, ladite sous-étape de décision tient compte en outre de l'appartenance à un intermède d'un nombre minimum d'éléments successifs précédant ledit élément courant dans ledit flux vidéo.

De tels modes de réalisation permettent ainsi de filtrer le flux en cours d'acquisition, par exemple en présence de bruitage, de façon à ignorer les intermèdes de durée inférieure à un seuil minimum, c'est à dire comprenant un nombre d'éléments échantillonnés inférieurs à un certain seuil. Cela peut par exemple permettre d'ignorer des interruptions d'une seule phase d'action, comme lorsqu'un chirurgien change de compresse, lors d'une phase de pansage d'une incision.

Selon une caractéristique particulière de l'invention, ladite sous-étape de détermination d'une probabilité de déroulement d'un type prédéterminé de phase d'action tient compte de l'appartenance à un intermède ou à une phase d'action d'un élément précédant immédiatement ledit élément courant dans ledit flux vidéo.

Ainsi, lorsque l'élément courant a une probabilité faible d'être un intermède, c'est- à-dire lorsqu'il fait partie a priori d'une phase d'action, il peut soit constituer le premier élément d'une séquence représentative d'une nouvelle phase d'action, dont il marque donc le début, soit appartenir à une séquence d'éléments en cours d'acquisition, c'est-à-dire être une continuation d'une phase d'action déjà engagée.

L'appartenance de l'élément précédant immédiatement l'élément courant dans le flux à un intermède, indiquera avec une probabilité forte le démarrage d'une nouvelle phase d'action. Au contraire, si cet élément précédent appartient lui aussi à une phase d'action, cela peut augmenter la probabilité pour l'élément courant d'appartenir à la même phase d'action que l'élément précédent.

Selon une caractéristique particulière de l'invention, ladite sous-étape de détermination d'une probabilité de déroulement d'un type prédéterminé de phase d'action tient compte en outre d'au moins une probabilité de déroulement d'au moins un type prédéterminé de phase d'action déjà déterminée pour au moins un élément précédant temporellement ledit élément courant dans ledit flux vidéo.

Ainsi, comme souligné plus haut, l'appartenance de l'élément précédent le plus récemment acquis à une phase d'action d'un type prédéterminé peut augmenter la probabilité pour l'élément courant d'appartenir à cette même phase d'action. De plus, dans certains modes de réalisation qui comprennent, par exemple dans une étape d'apprentissage, la détermination d'une probabilité d'ordonnancement de certains types prédéterminés d'action, l'identification d'une phase d'action d'un premier type prédéterminé particulier peut augmenter la probabilité d'occurrence d'une phase d'action d'un second type prédéterminé. Par exemple, une phase d'application d'un produit désinfectant ou antiseptique peut augmenter la probabilité d'occurrence ultérieure d'une incision ou d'une suture.

Selon une caractéristique particulière de l'invention, ladite sous-étape de détermination d'une probabilité de déroulement d'un type prédéterminé de phase d'action est mise en œuvre selon une théorie mathématique dite « des fonctions de croyance ».

Selon un mode de réalisation particulier de l'invention, le procédé d'analyse sémantique comprend en outre une étape de prédiction d'un type prédéterminé d'action à venir, ladite prédiction tenant compte :

d'au moins une probabilité de déroulement d'au moins un type prédéterminé de phase d'action pour au moins un élément précédant temporellement ledit élément courant dans ledit flux vidéo ; d'au moins une probabilité d'ordonnancement du type prédéterminé de phase d'action dudit élément précédent et dudit type prédéterminé d'action à venir.

En particulier, cette prédiction peut, dans certains modes de réalisation, comprendre la génération d'une préconisation sur une interface utilisateur (par exemple la génération d'une proposition d'action par serveur vocal ou par incrustation sur une zone d'un écran de visualisation).

Ainsi, le procédé d'analyse sémantique permet d'aider une personne en charge de la réalisation des actions (par exemple un chirurgien dans le cadre de l'acquisition d'un flux vidéo relatif à un acte de chirurgie) à une prise de décision (par exemple dans le cadre d'une chirurgie dont le déroulement est inhabituel). Il peut aussi avoir une utilisation didactique, par exemple pour la formation d'acteurs du domaine (par exemple de jeunes chirurgiens ou des opérateurs d'un centre de télésurveillance, ... ).

Selon une caractéristique particulière de l'invention, ladite sous-étape de détermination d'une probabilité de déroulement d'un type prédéterminé de phase d'action tient compte en outre de la durée d'au moins un intermède précédant ladite phase d'action et/ou du nombre d'intermèdes précédant ladite phase d'action.

Plus simplement, l'étape de calcul d'une probabilité de déroulement d'un type prédéterminé de phase d'action tient compte de la durée et/ou du nombre d'intermèdes déjà survenus.

En effet, certains types prédéterminés de phase d'action peuvent avoir une plus grande probabilité d'occurrence lorsque l'intermède précédant immédiatement cette phase d'action a eu au moins une certaine durée. Il peut s'agir notamment dans le cas de la chirurgie de phases d'action qui nécessitent une préparation plus importante de l'équipe médicale ou des vérifications préalables (par exemple la vérification du dossier médical du patient avant la première incision).

Selon une caractéristique particulière de l'invention, le procédé d'analyse sémantique comprend en outre une étape de génération d'une alerte lorsque ladite étape de détermination d'une probabilité de déroulement d'un type prédéterminé de phase d'action aboutit à un type prédéterminé de phase d'action différent du type prédéterminé de phase d'action prédit lors de ladite étape de prédiction.

Ainsi, le procédé d'analyse sémantique permet d'alerter une personne en charge de la réalisation des actions ou un tiers habilité de l'occurrence d'une succession d'actions inhabituelle.

L'invention concerne également un terminal de communication comprenant :

des moyens d'apprentissage délivrant au moins une caractéristique vidéo, appelée caractéristique bas-niveau, à partir d'au moins un paramètre représentatif d'une phase d'action sémantique de type prédéterminé, appelée phase d'action haut-niveau.

Enfin, l'invention concerne également un produit programme d'ordinateur qui comprend des instructions de code de programme pour la mise en œuvre du procédé précité (dans l'un quelconque de ses différents modes de réalisation), lorsque ledit programme est exécuté sur un ordinateur. Dans un autre mode de réalisation de l'invention, il est proposé un médium de stockage lisible par ordinateur et non transitoire, stockant un programme d'ordinateur comprenant un jeu d'instructions exécutables par un ordinateur ou un processeur pour mettre en œuvre le procédé précité (dans l'un quelconque de ses différents modes de réalisation).

5. LISTE DES FIGURES

D'autres caractéristiques et avantages de l'invention apparaîtront à la lecture de la description suivante, donnée à titre d'exemple indicatif et non limitatif, et des dessins annexés, dans lesquels :

la figure 1 présente le principe général du procédé d'analyse sémantique; la figure 2 présente le déroulement de l'étape d'apprentissage du procédé d'analyse sémantique dans un mode de réalisation particulier ; la figure 3 présente le déroulement de l'étape d'analyse sémantique du procédé d'analyse sémantique dans un mode de réalisation particulier ; la figure 4 illustre la structure d'un terminal selon l'invention. Sur toutes les figures du présent document, les éléments et étapes identiques sont désignés par une même référence numérique.

6. DESCRIPTION DÉTAILLÉE

6.1 Principe générai

Le principe général de l'invention consiste à proposer une analyse sémantique d'un flux vidéo en cours d'acquisition basée sur des annotations sémantiques préalables de flux de référence par des experts du domaine applicatif et non, comme les solutions de l'art antérieur, basée sur la définition de caractéristiques vidéo particulières par des experts du domaine de la vidéo.

De ce fait, le procédé d'analyse sémantique peut être utilisé, quel que soit le domaine applicatif, sans étude technique préalable des caractéristiques vidéo d'enregistrements.

L'invention est décrite de façon détaillée dans le cas particulier d'une application à des flux vidéo relatifs à des opérations de la cataracte. Il est clair que de nombreux autres modes de réalisation de l'invention peuvent être envisagés, sans sortir du cadre de l'invention. On peut notamment prévoir une utilisation du procédé d'analyse sémantique pour analyser sémantiquement des flux vidéo relatifs à d'autres types d'opérations chirurgicales ou d'examens médicaux (notamment des examens par endoscopie ou des examens radiologiques), à de la vidéosurveillance (magasins, lieux ou dispositifs sensibles, postes de machines-outils, etc.).

Dans la présente demande de brevet, on appelle « intermède » une phase sans action de haut niveau, c'est-à-dire dans le cas particulier du mode de réalisation présenté, un moment de la chirurgie où aucun événement, pertinent sur le plan clinique, ne se déroule.

Une « phase d'action de haut niveau » représente, dans le cas particulier du mode de réalisation présenté, une tâche chirurgicale de haut-niveau. Dans certains modes de réalisation particuliers, elle peut aussi représenter une partie d'une tâche chirurgicale de haut niveau, ou deux tâches chirurgicales consécutives s'enchaînant sans interruption ou se déroulant au moins partiellement simultanément et donc considérées, pour l'analyse, comme une seule tâche.

Le procédé d'analyse sémantique comprend, selon un premier aspect, une étape d'apprentissage au cours de laquelle sont définis des paramètres représentatifs de phases d'action haut niveau, en association avec des portions de flux vidéo de référence, précédemment acquis. Ceci permet de structurer temporellement et sémantiquement ces flux vidéo de référence. Ces paramètres peuvent comprendre par exemple des mots clés du domaine d'application pour la désignation de phases d'action haut niveau. Par exemple, dans le cadre d'opérations de la cataracte, il peut s'agir de mots clés comme : « désinfection », «incision », « suture », « rhexis », « hydrodissection », « phacoemulsification », « epinucleus removal », « viscous agent injection », « implant setting-ip », « viscous agent removal », « stitching up ».

Le contenu de chaque portion est analysé automatiquement, par exemple par une méthode basée sur une technique d'analyse de contenus de vidéo, notamment une technique de type « Content-Based Video Retrieval (CBVR), selon la terminologie anglaise. Il peut s'agir par exemple de la méthode décrite par les inventeurs dans leur publication « Real Time Retrieval of Similar Videos with Application to Computer-Aided Surgery». Cette étape permet de décrire chaque portion de flux par un ensemble de caractéristiques vidéo, par exemple des caractéristiques de mouvement, de forme, de couleurs, de texture, ... Ainsi, le procédé d'analyse sémantique permet d'associer des caractéristiques bas- niveau particulières, du domaine de la vidéo (une quantité de mouvement, une information de texture, de forme, de couleurs,...), à chaque paramètre représentatif d'une phase d'action haut niveau du domaine médical (désinfection, incision, ...), désignée par un expert du domaine médical.

Selon un deuxième aspect, le procédé d'analyse sémantique permet d'analyser sémantiquement un flux vidéo pendant son acquisition, pour le découper en phase d'actions haut niveau du domaine d'application du procédé, à partir de ses caractéristiques vidéo de bas-niveau.

Cette méthode présente l'avantage d'être rapide et de ce fait d'être adaptée à une analyse au fil de l'eau d'un flux vidéo au cours de son acquisition, à l'inverse des solutions de l'art antérieur.

De ce fait, le procédé d'analyse sémantique offre des possibilités nouvelles à un utilisateur. En particulier, certains modes de réalisation permettent de prédire les actions qui devraient logiquement survenir, après l'élément courant du flux en cours d'acquisition. Plus précisément, le procédé d'analyse sémantique permet ainsi d'offrir une assistance à l'utilisateur (par exemple d'assister un chirurgien, au cours de l'une de ses opérations) :

d'une part, en lui suggérant des actions à accomplir ;

d'autre part, en avertissant l'utilisateur, ou un tiers, lorsque l'action en cours n'est pas celle qui devrait logiquement survenir.

Il peut en particulier être utilisé comme un outil d'aide à la décision, ou à but pédagogique, et également comme un outil d'alerte. Dans certains modes particuliers de réalisation, le procédé peut également comprendre une étape de construction, au fil de l'acquisition ou après l'étape d'analyse sémantique, d'un compte rendu sémantique de l'événement que représente le flux.

La figure 1 illustre un mode de réalisation particulier dans lequel le procédé comprend tout d'abord une étape d'apprentissage 100 à partir de flux de référence, puis une étape 120 d'analyse sémantique d'un flux lors de son acquisition. Il est clair que l'étape d'apprentissage peut, dans d'autres modes de réalisation, être mise en œuvre indépendamment de toute étape d'analyse, par exemple par un pool d'experts d'un domaine médical, qui souhaiteraient par exemple valoriser leur expertise. De même, l'étape d'analyse peut être mise en œuvre, sans étape d'apprentissage, par exemple par l'importation d'un fichier logiciel contenant des données représentatives d'un ensemble de flux de référence annotés sémantiquement, et semblables à celles résultant d'une étape d'apprentissage.

6.2 Exemple de mise en œuvre d'une étape d'apprentissage

On détaille ci après, en lien avec la figure 2, un exemple de mise en œuvre de l'étape d'apprentissage 100 du procédé d'analyse sémantique, pour une application au domaine des opérations de la cataracte.

Dans le mode de réalisation particulier présenté, l'étape d'apprentissage 100 comprend tout d'abord une sous-étape 210 d'acquisition d'un ensemble de flux de référence (« training dataset » SI) destinés à l'apprentissage. Ces flux de références peuvent par exemple être constitués par un ensemble d'enregistrements vidéo de chirurgies de la cataracte, réalisées par plusieurs chirurgiens dans différentes salles d'opérations, précédemment collectés. Ils peuvent également comprendre des flux vidéo transmis en temps réel lors d'une opération, dont la prise en compte définitive comme élément de référence peut être soumise à une validation ultérieure d'un expert du domaine.

6.2.1 Collecte des flux de référence

Les flux de référence peuvent notamment consister en des enregistrements collectés via des moyens d'acquisition et de stockage vidéo différents et disponibles sous des formats différents. Par exemple, il peut s'agir, pour l'un, d'un ensemble de une à plusieurs centaines de vidéos (par exemple 200) réalisées par une à plusieurs dizaines de chirurgiens (par exemple 10) dans plusieurs salles opératoires (par exemple 2) munies chacune de moyens d'acquisition et de stockage vidéo différents (par exemple une caméra vidéo CCD-IRIS SONY ^® et un enregistreur sur cassette vidéo DSR-20MDP SONY ^®), les données étant stockées sous un format MPEG2, avec la meilleure définition disponible sur ces appareils et, pour l'autre, d'un enregistreur vidéo utilisant un standard d'imagerie dédié au domaine médical, par exemple DICOM, comme le produit MediCap USB200 de MediCapture^®, les données étant stockées sous un format DVD. Des données démographiques (par exemple l'âge, le sexe, ...) ou contextuelles (par exemple des données médicales comme une pathologie, par exemple un diabète ou une surdité, ou une caractéristique physiologique, comme une inflammation ou une taille de pupille,...) peuvent également être associées à un enregistrement. Le procédé d'analyse sémantique présente l'avantage d'être adaptable à différents domaines d'application (notamment la chirurgie, la télésurveillance de lieux ou de dispositifs). Dans le mode de réalisation présenté, le paramétrage du procédé pendant la phase d'apprentissage permet l'optimisation de son efficacité au domaine d'application considéré. La phase d'apprentissage permet en effet de définir de façon judicieuse des paramètres en fonction de résultats obtenus sur l'ensemble des flux de référence.

Il s'agit notamment de paramétrer:

-i- les paramètres nécessaires à la technique d'analyse du contenu vidéo d'éléments ou séquences de flux vidéo mise en œuvre;

-ii- un seuil (τ_ρ) άβ probabilité d'appartenance à un intermède et un seuil

(rg) minimum de nombre d'éléments successifs appartenant à un intermède ;

-iii- un nombre (L) de preuves (selon la théorie des fonctions de croyance) à utiliser lors de l'étape d'analyse sémantique des phases d'actions ;

-iv- un nombre (M) de catégories de matrices non-stationnaires de probabilité ;

-v- un nombre (n) de voisins à prendre en compte pour un raisonnement par analogie (mis en œuvre lors de l'étape d'analyse sémantique 120) ;

-vi- les probabilités conditionnelles Ρ_η(Τ, \ η') du raisonnement par analogie ;

-vii- les matrices

de probabilité de transition entre actions.

Dans le mode de réalisation présenté, la technique d'analyse vidéo de sous- séquences est une technique d'analyse de contenus vidéo (ou « Content-Based Video Retrieval » (CBVR)), par exemple la technique décrite par les inventeurs.

Les probabilités conditionnelles du raisonnement par analogie et les matrices de probabilité de transition sont estimées grâce aux fréquences relatives observées dans l'ensemble de référence.

6.2.3 Apprentissage à la détection automatique d'intermèdes

Dans le mode de réalisation présenté en figure 2, l'étape d'apprentissage 100 comprend également une sous-étape de sélection aléatoire 220 d'un sous-ensemble d'entraînement S0, parmi l'ensemble SI des flux vidéo de référence, acquis lors d'une sous- étape d'acquisition 210. Les flux du sous-ensemble S0 seront ensuite utilisés pour définir, manuellement, le paramétrage de la détection d'intermède. Lorsque le paramétrage est effectué manuellement, comme dans le mode de réalisation illustré, une limitation de l'apprentissage à un nombre réduit de flux permet un gain de temps important en termes de temps d'apprentissage, par rapport à un apprentissage sur l'ensemble des flux de la base d'apprentissage.

Dans le mode de réalisation illustré, le sous-ensemble d'entraînement comprend par exemple une dizaine de flux vidéo.

L'étape d'apprentissage 100 comprend ensuite une sous-étape de segmentation 230 de chaque flux du sous-ensemble S0 d'entraînement par des experts du domaine, de façon à définir, grâce aux experts, tous les débuts et fins d'intermèdes des flux du sous- ensemble d'entraînement S0.

En outre, l'étape d'apprentissage comprend une sous-étape d'entraînement 240 de détection automatique des débuts et fins d'intermèdes des flux du sous-ensemble d'entraînement S0. Cet entraînement peut par exemple prendre la forme d'une validation croisée, notamment par une méthode de validation croisée de type « N-fold cross validation », sur le sous-ensemble d'entraînement S0.

Ainsi, dans le mode de réalisation présenté, le sous-ensemble d'entraînement S0 est à son tour découpé en plusieurs lots. Une itération, sur les lots découpés, de sous-étapes de détection automatique 250 des débuts et des fins d'intermèdes, suivie de sous-étapes d'analyse 260 du résultat de cette détection, par corrélation avec le résultat de la segmentation réalisée par des experts (étape 230), permet de valider, lors d'une sous-étape de validation 270, le paramétrage utilisé pour la détection des intermèdes.

Plus précisément, la sous-étape d'entraînement 240 permet de définir le seuil (Tp) àe probabilité d'appartenance à un intermède, et le seuil (τ§) minimum de nombre d'éléments successifs appartenant à un intermède à utiliser lors de l'étape d'analyse sémantique 120 pour décider si un élément appartient ou non à un intermède.

Le procédé comprend une évaluation en terme de sensibilité, c'est-à-dire une évaluation du pourcentage de vrais intermèdes détectés par le procédé d'analyse sémantique, et en terme de taux de fausse détection (ou « False positive Rate » (FPR), c'est- à-dire le taux de faux intermèdes détectés pour une vidéo par le procédé d'analyse sémantique). La mesure de la sensibilité et du FPR pour différentes valeurs du seuil de probabilité d'appartenance à un intermède (τ_ρ) et du seuil minimum de nombre d'éléments successifs appartenant à un intermède (τ§) permet d'établir une courbe d'analyse dite « Free Response Receiver Operating Characteristic » (« FROC Curve »), ayant en abscisse le FPR et en ordonnée la sensibilité, et de déterminer ainsi un couple de valeurs optimal de FPR et de sensibilité et donc, par déduction, des valeurs optimales des deux seuils Tp et τ§ .

Dans le mode de réalisation particulier présenté en figure 2, les valeurs suivantes sont ainsi choisies :

τ_ρ =0, 7;

τ_δ =0,8.

6.2.4 Définition de types prédéterminés de phases d'action

L'étape d'apprentissage 100 permet de paramétrer un nombre (i.) de preuves utilisées lors de l'étape d'analyse sémantique 120 des phases d'actions, un nombre (M) de catégories de matrices non-stationnaires de probabilité et un nombre (n) de voisins à prendre en compte pour le raisonnement par analogie (utilisé pour le critère de voisinage des phases d'actions lors de l'étape d'analyse sémantique 120). Ceux-ci sont optimisés grâce à une grille de recherche dans le sous-ensemble de flux de référence et par l'utilisation de méthodes graphiques (par exemple des méthodes utilisant des courbes de type « Receiver Operating Characteristic (ROC) Curve », comme présenté plus loin).

Dans le mode de réalisation présenté, chaque flux vidéo de l'ensemble de référence SI est segmenté temporellement par des experts de la cataracte, en sous-séquences représentant chacune au moins une phase d'action identifiée par un mot clé du domaine d'application. Par exemple, dans le cadre d'opérations de la cataracte, il peut s'agir des mots clés suivants : «incision », « rhexis », « hydrodissection », « phacoemulsification », « epinucleus removal », « viscous agent injection », « implant setting-ip », « viscous agent removal », « stitching up ». Une catégorie particulière (« miscellaneous ») peut éventuellement également être définie, pour regrouper des phases optionnelles (par exemple, dans le cadre d'opérations de la cataracte, « iris retractor setting-up », « iris retractor removal, « angle measurement », « landmark tracing » etc.

Dans le mode de réalisation particulier présenté, la méthode graphique se base sur des courbes « Receiver Operating Characteristic (ROC) Curve » établies pour chaque type prédéterminé de phase d'action défini par un expert. Elles comportent en abscisse le FPR et en ordonnée la sensibilité. Les performances associées aux types définis par l'expert sont évaluées par l'aire sous la courbe. Ceci permet notamment d'optimiser le choix du nombre (L) de preuves, du nombre (M) de catégories de matrices non-stationnaires de probabilité et du nombre (n) de voisins pour le raisonnement par analogie.

Par exemple, dans le mode particulier de réalisation présenté, les valeurs permettant de maximaliser l'aire sont les valeurs :

L = 10;

M = 4 ;

n <≡ {20,30,50,100}

6.3 Déroulement de l'étape d'analyse sémantique d'un flux en cours d'acquisition

On présente, en lien avec la figure 3 notamment, le déroulement de l'étape d'analyse sémantique 120 du procédé d'analyse sémantique dans un mode de réalisation particulier.

Dans le mode de réalisation présenté en figure 3, le procédé d'analyse sémantique comprend, une fois l'étape d'apprentissage 100 déroulée, une étape d'analyse sémantique 120 d'un flux vidéo en cours d'acquisition. Cette étape permet de segmenter automatiquement le flux en une suite de séquences représentant des intermèdes ou des phases d'action haut niveau.

Pour cela, le flux en cours d'acquisition est échantillonné (lors d'une étape d'échantillonnage 310), au fil de son acquisition, en éléments vidéo, ou sous-séquences vidéo, composés de quelques trames vidéo. Le procédé comprend également une sous- étape 320 d'extraction, pour chaque élément échantillonné, de caractéristiques bas niveau du domaine de la vidéo. Ces caractéristiques sont utilisées ensuite lors d'une étape 330 de détermination d'une probabilité d'appartenance d'un élément courant à un intermède, pour comparer le contenu vidéo de l'élément courant avec le contenu vidéo des éléments de l'ensemble SI de flux de référence et déterminer (par exemple grâce à la méthode déjà développée par les inventeurs) les voisins les plus proches, en terme de distance euclidienne, de l'élément courant. La probabilité d'appartenance à un intermède de l'élément courant est définie, dans le mode de réalisation présenté en figure 3, comme le pourcentage, parmi ces voisins, d'éléments de référence considérés comme appartenant à un intermède.

Dans certains modes de réalisation, l'étape d'analyse sémantique 120 comprend de plus une sous-étape 340 de décision sur l'appartenance de l'élément courant à un intermède ou à une phase d'action, selon que la probabilité d'appartenance soit supérieure ou inférieure au seuil (τ_ρ) de probabilité d'appartenance à un intermède paramétré lors de l'étape d'apprentissage. La sous-étape de décision 340 sur l'appartenance de l'élément courant à un intermède ou à une phase d'action peut également tenir compte des décisions déjà prises concernant des éléments déjà acquis du flux, c'est-à-dire concernant des éléments ayant précédé temporellement l'élément courant, et notamment du nombre d'éléments successifs précédant immédiatement l'élément courant et appartenant à un intermède. En particulier, la sous-étape de décision peut tenir compte d'un seuil (τ§) minimum de nombre d'éléments successifs appartenant à un intermède défini lors de l'étape de paramétrage. Lorsque la probabilité d'appartenance à un intermède en fonction du temps est une fonction bruitée, cette fonction peut être lissée par un filtre médian d'ordre n.

Ainsi, le procédé d'analyse sémantique permet un découpage temporel du flux vidéo en cours d'acquisition, avec une identification d'intervalles de temps représentant des intermèdes.

Les phases d'action contenues dans le flux vidéo sont définies par dualité avec les intermèdes détectés. Ainsi, une phase d'action est définie, selon le procédé d'analyse sémantique, comme l'action associée à l'intervalle de temps délimité par deux intermèdes consécutifs, ou par le début de l'acquisition du flux et le début du premier intermède, ou par la fin du dernier intermède et la fin de l'acquisition du flux.

6.3.1 Probabilité de déroulement d'une phase d'action d'un type prédéterminé

L'étape d'analyse sémantique 120 du procédé d'analyse sémantique vise notamment à permettre d'associer, à chaque phase d'action, un type prédéterminé, sélectionné parmi les types prédéterminés définis par un expert du domaine, notamment, comme dans le mode de réalisation présenté, lors d'une étape d'apprentissage 100 (par exemple "incision", " rhexis", "hydrodissection", etc.). La probabilité p_{k i} que le type prédéterminé 7] soit associé à une action A_k est obtenue, en utilisant la théorie mathématique des fonctions de croyance, par combinaison de plusieurs preuves, comme décrit ci-après.

Ainsi, dans le mode de réalisation présenté, l'étape d'analyse 120 comprend une sous-étape de détermination 350 d'une probabilité de déroulement d'un type prédéterminé de phase d'action. Celle-ci tient compte, dans le mode de réalisation présenté, de la première preuve que représente le pourcentage, dans l'ensemble SI de flux de référence, des plus proches voisins de l'élément courant qui appartiennent à un type prédéterminé d'action.

Dans certains modes de réalisation, le procédé comprend un raisonnement par analogie, basé sur des probabilités conditionnelles calculées sur l'ensemble SI de flux de référence.

Par exemple, le procédé peut comprendre une estimation, effectuée lors de l'étape d'apprentissage, de la probabilité conditionnelle P_n(T,- \ n') calculée sur l'ensemble SI de flux de référence, qu'un élément de l'ensemble SI de flux de référence appartienne à une phase d'action de type T„ lorsque voisins parmi ses n voisins les plus proches dans l'ensemble de référence sont de type Τ,.

Lors de l'étape d'analyse sémantique 120 du flux en cours d'acquisition, lorsque n' voisins parmi les n plus proches voisins de l'élément courant, dans l'ensemble de flux de référence, sont de type 7^", (c'est-à-dire lorsqu'il s'agit des mêmes conditions de probabilité que celles calculées sur l'ensemble SI de flux de référence), la probabilité p^ln> _kjj de déroulement d'une phase d'action de type 7^", est considérée comme étant la même que la probabilité P_n(Tj \ n'), calculée sur l'ensemble SI de flux de référence .

La théorie mathématique des fonctions de croyance peut être appliquée à la détermination des types prédéterminés à associer aux phases d'action.

Ainsi, l'estimation de la probabilité p^ln> _kjj de déroulement d'une phase d'action de type T; lorsque n' voisins parmi les n plus proches voisins de l'élément courant, dans l'ensemble de référence, sont de type T peut être optimisée en choisissant une valeur optimale du nombre n de voisins les plus proches à sélectionner. L'incertitude associée peut par exemple être modélisée par le biais de la théorie mathématique dite des fonctions de croyance (ou théorie Dempster-Shafer), bien connue de l'homme du métier.

Deux hypothèses sont envisagées : soit l'action A_k en cours est de type 7Ï (hypothèse

P ), soit elle ne l'est pas (Hypothèse P ). L'univers binaire pris en considération est n = {P ,

P }. Selon la théorie des fonctions de croyance, une masse de croyance (ou « belief mass» selon la terminologie anglaise) m_{k l 0} (χ) est affectée à chaque élément % de l'ensemble des possibles 2^Ω = {Φ, Ρ, Ρ, Ρ U P}.

Ainsi : m_uo (0) = O

m_Ki,o(^X) [0, 1], V X ^€ 2 Σ

χ^ m_k,₀(X) =l

La masse de croyance m_kl0 (χ) exprime la proportion de toutes les preuves disponibles qui rendent vraie l'assertion selon laquelle l'état actuel appartient à %mais pas à un sous-ensemble de χ. De ce fait, un des points clés pour la définition de m_kl0 est l'estimation d'une borne inférieure et d'une borne supérieure de la probabilité de réalisation de l'hypothèse P. La borne inférieure, notée bel _ki0, est appelée la croyance (ou « belief » selon la terminologie anglaise) de l'hypothèse P. La borne supérieure, notée p ,i,o, est appelée la plausibilité (ou « plausibility » selon la terminologie anglaise) de P .

Les bornes de la probabilité de réalisation de l'hypothèse P sont les bornes de la probabilité p^ln> _kjjde déroulement d'une phase d'action de type 7^",.

Ainsi :

bel _kl0(P ) = min_n p⁽ⁿ⁾ _k

pl _k,io(P ) = max_np^<n'_k/i

La fonction de masse de croyance m^/suit les définitions suivantes :

bel_kÀI(P) = m _{k I}(P)

pl_kÀI(P) = m _{k I}(P) + m_kÀI(Pu P).

Ceci, combiné avec l'équation m_kl0 (0) = 0, amène à :

m_{k 0} (0) = O

m _k/h0 ( P ) = bel _k/h0 ( P )

m_{k 0}(^P^ P)= Pl _k,io (P) - bel _o ( P )

m _{k 0}(P ) = l -pl _Kl0(P )■

Selon le procédé d'analyse sémantique, le contenu de la phase d'action courante peut être utilisé comme une première preuve.

Selon les modes de réalisation de l'invention, d'autres preuves peuvent également être utilisées. Ainsi, lorsque l'étape d'apprentissage 100 comprend une sous-étape de détermination d'une probabilité d'ordonnancement de certaines phases d'action, le contenu d'une phase d'action précédant temporellement l'élément courant peut également constituer une preuve pertinente pour la détermination du type prédéterminé de phase d'action à laquelle appartient l'élément courant. Par exemple, on sait qu'une phase d'action de type « incision » est habituellement suivie par une phase d'action de "rhexis" puis par une phase d'action de type "hydrodissection". Aussi, si la phase d'action précédant immédiatement l'élément courant est considérée comme étant de type « rhexis», elle même précédée d'une phase d'action de type « incision », la phase d'action en cours a une grande probabilité d'être de type "hydrodissection". De ce fait, les types prédéterminés de certaines actions déjà survenues, par exemple les (L-l) dernières phases d'action précédemment terminées, peuvent être également utilisés comme preuve pour la détermination du type prédéterminé de phase d'action à laquelle appartient l'élément courant.

Dans le mode de réalisation présenté, l'étape d'apprentissage permet de déterminer u n ordonnancement d'au moins certaines phases d'action de l'ensemble SI de flux de référence. Cet ordonnancement peut par exemple être codé sous forme de matrices de probabilité de transition. En effet, si on note 7^ la matrice NxN encodant les probabilités de transition entre des phases d'action séparées par / intermèdes,

est la probabilité, estimée sur l'ensemble de référence, que le chirurgien effectue une phase d'action de type T_j lorsqu'il a déjà effectué des phases d'actions de type Τ,.

Pour chaque preuve, une fonction de masse de croyance m _{k i} , où /= - 1 est définie. Les bornes inférieure et supérieure de la probabilité de l'hypothèse P (respectivement bel_{k l} (P) et pl_k ,- (P)) sont fournies par la matrice de probabilité de transition et les estimations p _k.r, :

bel_k P) = mm_n [T® p⁽ⁿ⁾ _k-l/ ,

pl_{k I}(P) = max_n [T® p⁽ⁿ⁾ _k-,ii

où

Les fonctions de masse de croyance m_{k l} i sont déterminées de façon similaire à la détermination de m_{k l 0} exposée ci-dessus. En particulier, les équations déjà énoncées : bel _kÀ0 (P) = min_n p⁽ⁿ⁾ _k,i et pl _kÀ0 « (P)= max_n p⁽ⁿ⁾ _k

sont des cas particuliers des équations précédentes avec 1=0 (matrice d'identité). Selon les modes de réalisation d u procédé d'analyse sémantiq ue, les preuves peuvent éventuellement être combinées. En effet, selon le procédé d'analyse sémantique, une fonction de masse m_{k i}i est définie pour chaque preuve /. Une règle de combinaison est utilisée pour convertir cette pluralité de fonctions de masse en une seule fonction de masse m_{k l} . Cette conversion tire partie des propriétés des règles de combinaison de pouvoir combiner toute pluralité de fonctions de croyance basiq ues. Cette propriété est importante pour la catégorisation de phases d'action, puisque le nombre de preuves peut varier, selon les modes de réalisation et selon la longueur du flux déjà acquis.

D'une part, lorsqu'un nombre L de preuves est défini lors de l'étape d'apprentissage, le nombre d'actions précédentes dont il est possible de tenir compte lors de l'étape d'analyse sémantique, en début d'acquisition du flux (pour les L premières actions qui surviennent) sera forcément inférieur à ce nombre L.

D'autre part, différentes règles de combinaison peuvent être mises en œuvre selon les modes de réalisation de l'invention. En particulier, dans le mode de réalisation illustré, la 5^ieme version de la règle de redistribution proportionnelle du conflit (ou PCR5 pour « fifth version of Proportional Conflict Red istribution Rule ») est utilisée.

Une fois que toutes les preuves ont été combinées, la probabilité qu'une action soit de type 77^' est estimée par la probabilité pignistique de P. Cette probabilité constitue un compromis entre la croyance et la plausabilité de P :

P_kii = m_{kii (}P) + m _i (P U ^~P )/2

Dans certains modes de réalisation, le type prédéterminé associé à une phase d'action est déterminé automatiquement à partir de son propre contenu (par comparaison aux phases d'action définies sur l'ensemble SI de flux de référence) (première preuve). D'autres preuves, comme le type prédéterminé d'au moins certaines des phases d'action déjà survenues, peuvent être prises en compte. Dans certains modes de réalisation, il peut ne pas être tenu compte du contenu des intermèdes déjà survenus pour la détermination du type prédéterminé associé à la phase d'action à laquelle appartient un élément courant. Dans d'autres modes de réalisation, au contraire, il peut être tenu compte du contenu des intermèdes précédant un élément courant, considéré comme appartenant à une phase d'action, pour la détermination du type prédéterminé associé à cette phase d'action.

En effet, même si, par définition, un intermède ne contient pas d'événement significatif au niveau du domaine d'application, donc pas de « contenu utile » au niveau applicatif, sa durée d_k peut donner une indication sur l'ordonnancement de deux phases d'action et en particulier sur le type prédéterminé de la phase d'action qui le suit probablement. Par exemple, si la durée d'un intermède est très courte, un chirurgien n'aura pas eu le temps par exemple de changer d'outil de chirurgie. De ce fait, les actions précédant et suivant l'intermède auront une probabilité plus forte d'appartenir au même type prédéterminé de phase d'action. Si l'intermède dure très longtemps, cela peut logiquement indiquer que quelque chose d'anormal s'est produit et que le chirurgien va recommencer une des actions précédemment survenues.

Dans un tel mode de réalisation, la probabilité de transition entre deux actions A _k._lik et A _k peut dépendre en particulier de la durée cumulée t _k._lik des intermèdes séparant les deux phases d'action (T =∑ ^' j^, _=k__{l + 1} Tj).

Pour chaque preuve /, /= 1.. L-l, tous les couples d'action (A A _k) de l'ensemble SI de flux de référence sont groupés en M catégories (notées _lt ... c^L _M), selon la valeur de

Une matrice de probabilité de transition T^{(l j)} est ensuite construite par estimation en fonction de l'ensemble SI de flux de référence en utilisant tous les couples (A _k.|, A _k) de la catégorie C_j.

La définition de la fonction de masse de croyance est similaire à celle présentée en liaison avec les modes de réalisation présentés plus haut, la matrice de probabilité f'¹ étant remplacée par une matrice de probabilité T^'^j).

6.4 Structure d'un terminal de communication selon l'invention

On présente, en relation avec la figure 4, la structure simplifiée d'un terminal de communication selon l'invention.

Un tel terminal comprend une mémoire 400 comprenant une mémoire tampon, une unité de traitement 410, équipée par exemple d'un microprocesseur μΡ, et pilotée par un programme d'ordinateur 420, dont l'exécution met en œuvre un procédé d'analyse sémantique, selon l'un des modes de réalisation particuliers de l'invention.

A l'initialisation, les instructions de code du programme d'ordinateur 420 sont par exemple chargées dans une mémoire RAM avant d'être exécutées par le processeur de l'unité de traitement 410.

L'unité de traitement 410 reçoit en entrée un flux vidéo. Le microprocesseur de l'unité de traitement 410 met en œuvre les étapes du procédé d'analyse sémantique décrit précédemment, selon les instructions du programme d'ordinateur 420.

A cette fin, le terminal de communication comprend, outre la mémoire tampon 400 et un module de réception ou d'acquisition d'un flux vidéo, un module d'apprentissage apte à délivrer au moins une caractéristique vidéo, appelée caractéristique bas-niveau, à partir d'au moins un paramètre représentatif d'une phase d'action sémantique de type prédéterminé, appelée phase d'action haut-niveau.

Ces modules sont pilotés par le microprocesseur de l'unité de traitement 410.

Selon un mode de réalisation, l'invention est mise en œuvre au moyen de composants logiciels et/ou matériels. Dans cette optique, le terme "module" peut correspondre dans ce document aussi bien à un composant logiciel, qu'à un composant matériel ou à un ensemble de composants matériels et logiciels.

Un composant logiciel correspond à un ou plusieurs programmes d'ordinateur, un ou plusieurs sous-programmes d'un programme, ou de manière plus générale à tout élément d'un programme ou d'un logiciel apte à mettre en œuvre une fonction ou un ensemble de fonctions, selon ce qui est décrit ci-dessus pour le module concerné. Un tel composant logiciel est exécuté par un processeur de données d'une entité physique (terminal, serveur, passerelle, set-top-box, routeur, ... ) et est susceptible d'accéder aux ressources matérielles de cette entité physique (mémoires, supports d'enregistrement, bus de communication, cartes électroniques d'entrées/sorties, interfaces utilisateur, ...).

De la même manière, un composant matériel correspond à tout élément d'un ensemble matériel (ou hardware) apte à mettre en œuvre une fonction ou un ensemble de fonctions, selon ce qui est décrit ci-dessus pour le module concerné. Il peut s'agir d'un composant matériel programmable ou avec processeur intégré pour l'exécution de logiciel, par exemple un circuit intégré, une carte à puce, une carte à mémoire, une carte électronique pour l'exécution d'un micrologiciel (firmware), etc.

Claims

REVENDICATIONS

Procédé d'analyse sémantique d'un flux vidéo en cou rs d'acquisition, caractérisé en ce qu'il comprend une étape d'apprentissage, ladite étape d'apprentissage délivrant au moins une caractéristique vidéo, appelée caractéristique bas-niveau, à partir d'au moins un paramètre représentatif d'une phase d'action sémantique de type prédéterminé, appelée phase d'action haut-niveau.

Procédé d'analyse sémantique selon la revendication 1, caractérisé en ce que ladite étape d'apprentissage détermine en outre une probabilité d'ordonnancement d'au moins deux types prédéterminés de phases d'action haut niveau.

Procédé d'analyse sémantique selon l'une quelconq ue des revendications 1 ou 2, caractérisé en ce qu'il comprend également une étape d'analyse sémantique dudit flux vidéo en cours d'acquisition, comprenant les sous-étapes suivantes :

• échantillonnage du flux vidéo en éléments ;

• pour un élément courant :

o extraction d'au moins une caractéristique bas-niveau dudit élément cou rant ;

o détermination d'u ne probabilité d'appartenance dud it élément courant à un intermède, ledit intermède suivant et/ou précédant au moins une phase d'action haut-niveau dans ledit flux vidéo, ladite sous-étape de détermination d'une probabilité d'appartenance tenant compte de ladite au moins une caractéristique bas-niveau extraite.

Procédé d'analyse sémantique selon la revendication 3, caractérisé en ce que ladite étape d'analyse sémantique comprend en outre une sous-étape de décision d'appartenance dudit élément courant audit intermède, tenant compte d'un seuil prédéfini de ladite probabilité d'appartenance.

Procédé d'analyse sémantique selon la revendication 4, caractérisé en ce que, lorsque ladite probabilité d'appartenance dudit élément courant à un intermède est inférieure audit seuil prédéfini, ladite étape d'analyse sémantique comprend en outre une sous-étape de détermination d'une probabilité de déroulement d'un type prédéterminé de phase d'action. Procédé d'analyse sémantique selon l'une des revendications 4 ou 5, caractérisé en ce que ladite sous-étape de détermination d'une probabilité d'appartenance tient compte en outre de l'appartenance à un intermède ou une phase d'action d'au moins un élément précédant temporellement ledit élément courant dans ledit flux vidéo.

Procédé d'analyse sémantique selon la revendication 6, caractérisé en ce que ladite sous-étape de détermination d'une probabilité d'appartenance tient compte d'un critère de voisinage d'au moins une caractéristique bas niveau dudit élément courant avec au moins un élément d'un flux de référence, acquis pendant ladite phase d'apprentissage.

Procédé d'analyse sémantique selon la revendication 7, caractérisé en ce que ledit critère de voisinage est une distance euclidienne pondérée d'au moins une des caractéristique bas-niveau dudit au moins un élément dudit flux de référence et dudit élément courant.

Procédé d'analyse sémantique l'une quelconque des revendications 4 à 8, caractérisé en ce que ladite sous-étape de décision tient compte en outre de l'appartenance à un intermède d'un nombre minimum d'éléments successifs précédant ledit élément courant dans ledit flux vidéo.

Procédé d'analyse sémantique selon la revendication 5, caractérisé en ce que ladite sous-étape de détermination d'une probabilité de déroulement d'un type prédéterminé de phase d'action tient compte de l'appartenance à un intermède ou à une phase d'action d'un élément précédant immédiatement ledit élément courant dans ledit flux vidéo.

Procédé d'analyse sémantique selon la revendication 5, caractérisé en ce que ladite sous-étape de détermination d'une probabilité de déroulement d'un type prédéterminé de phase d'action tient compte en outre d'au moins une probabilité de déroulement d'au moins un type prédéterminé de phase d'action déjà déterminée pour au moins un élément précédant temporellement ledit élément courant dans ledit flux vidéo.

Procédé d'analyse sémantique selon la revendication 5, caractérisé en ce que ladite sous-étape de détermination d'une probabilité de déroulement d'un type prédéterminé de phase d'action est mise en œuvre selon une théorie mathématique dite « des fonctions de croyance ».

Procédé d'analyse sémantique selon l'une quelconque des revendications 1 à 12, caractérisé en ce qu'il comprend en outre une étape de prédiction d'un type prédéterminé d'action à venir, ladite prédiction tenant compte :

d'au moins une probabilité de déroulement d'au moins un type prédéterminé de phase d'action pour au moins un élément précédant temporellement ledit élément courant dans ledit flux vidéo ;

d'au moins une probabilité d'ordonnancement du type prédéterminé de phase d'action dudit élément précédent et dudit type prédéterminé d'action à venir.

Procédé d'analyse sémantique selon la revendication 5, caractérisé en ce que ladite sous-étape de détermination d'une probabilité de déroulement d'un type prédéterminé de phase d'action tient compte en outre de la durée d'au moins un intermède précédant ladite phase d'action et/ou du nombre d'intermèdes précédant ladite phase d'action.

Procédé d'analyse sémantique selon la revendication 13, caractérisé en ce qu'il comprend en outre une étape de génération d'une alerte lorsque ladite étape de détermination d'une probabilité de déroulement d'un type prédéterminé de phase d'action aboutit à un type prédéterminé de phase d'action différent du type prédéterminé de phase d'action prédit lors de ladite étape de prédiction.

Terminal de communication caractérisé en ce qu'il comprend :

Produit programme d'ordinateur, comprenant des instructions de code de programme pour la mise en œuvre du procédé selon au moins une des revendications 1 à 15, lorsque ledit programme est exécuté sur un ordinateur. Médium de stockage lisible par ordinateur et non transitoire, stockant un programme d'ordinateur comprenant un jeu d'instructions exécutables par un ordinateur ou un processeur pour mettre en œuvre le procédé selon au moins une des revendications 1 à 15.