Dispositif de structuration d'un document multimédia représentant un événement
La présente invention concerne un dispositif automatisé de structuration d'une représentation, notamment vidéo, d'un événement se déroulant dans un espace matériel au cours du temps. Un procédé et un produit programme informatique font également partis de l'invention. Elle a des applications dans le domaine du traitement automatisé de données et plus particulièrement leur structuration, c'est-à-dire de la structure des données. Les données sont notamment des données vidéo mais elles peuvent concerner plus généralement des données électroniques ou informatiques, ces termes étant considérés équivalents vis-à-vis des buts de l'invention (les données étant in fine traitées par un équipement informatique). Ces données représentent des images et/ou des sons, voire des programmes informatiques (pour analyse de programmes) ou des listes de données (pour analyse de séquences génétiques).
On crée, recopie, utilise tous les jours des données vidéo, que ce soit dans un milieu professionnel ou dans le grand public. Cela entraîne une génération d'une quantité considérable d'information qu'il devient de plus en plus difficile de gérer. Des outils ont donc été proposés afin de pouvoir analyser automatiquement le contenu des vidéos par indexation selon des niveaux informationnels différents à des fins de création de tables de matières ou de tables d'index comme dans le domaine de l'information écrite. Le but de l'indexation vidéo est de fournir des informations permettant un accès non linéaire au contenu d'une vidéo. Par analogie avec un livre, on peut définir deux méthodes d'accès différentes. La première qui est la construction d'une « table des index » permettant de référencer des événements particuliers et la seconde qui est la construction d'une « table des matières » décrivant la structure du contenu.
Une application particulière de l'indexation vidéo concerne la problématique de la navigation dans du contenu vidéo notamment stocké sous forme numérique. Il s'agit d'une application que l'on retrouve dans le domaine grand public via les plate-formes dites « Digital Video Recorder » (DVR) permettant l'enregistrement et la relecture de programmes vidéos stockés sur un disque dur, ou dans le domaine
professionnel via des systèmes de gestion de contenu audiovisuel (« multimédia asset management Systems »).
Le domaine plus particulier de la présente invention concerne le problème de la construction d'une table des matières, autrement dit, la structuration d'un document vidéo. L'invention s'applique donc à des documents vidéo structurables, c'est-à-dire qui possèdent une structure définie comme, typiquement, des journaux télévisés et des événements sportifs.
En ce qui concerne les événements sportifs, on peut en distinguer deux grands types. Les premiers, les sports à temps borné, par exemple football, basket, rugby, et les seconds, les sports à scores bornés, par exemple tennis, volley, ping-pong. Ce sont les seconds qui offrent la structure la plus forte puisqu'ils se décomposent en « sets » et « points » alors que les premiers ne se décomposent qu'en « mi-temps ». La structuration des documents vidéo est un problème qui s'est posé relativement récemment. Les travaux dans ce domaine s'appliquent essentiellement aux événements sportifs. Ils consistent à identifier les phases de jeu d'une vidéo de sport.
Ils proposent le plus souvent une classification des plans en deux classes, vue globale du terrain ou non, à partir d'informations bas-niveau de la vidéo comme les couleurs, le mouvement, les contours par exemple. La connaissance à priori des informations vidéo possibles concernant ce type d'événement sportif n'est exploitée que pour définir le modèle de la vue globale et vérifier l'appartenance d'un plan à la classe de la vue globale. Ainsi dans l'article de D. Zhong, S-F Chang « Structure Analysis of Sports Video Using Domain Models », IEEE Conf. on Multimedia and Expo, Tokyo, Japan, Aug. 2001 , l'analyse de la structure d'une vidéo de sport consiste en la détection des vues de la zone de lancer pour le base-bail et des vues du terrain pour le tennis. Ces vues sont détectées par extraction et classification d'attributs globaux des images, puis par des règles de vérification à partir d'une segmentation objet.
Appliquée au football, la structuration se définit comme l'identification des phases de jeu et des phases de non-jeu. Dans l'article de P. Xu, and al. "Algorithms and System for segmentation and structure
analysis in soccer video", IEEE Conf. on Multimedia and Expo, Tokyo, Japan, Aug. 2001 , une simple caractéristique « couleur du terrain » est utilisée pour labelliser toutes les images en trois 'catégories (vue globale, plan rapproché et gros plan). Ensuite des règles heuristiques sont utilisées pour segmenter la séquence des résultats de catégorisation en jeu ou non-jeu.
Plus récemment, on a proposé d'appliquer les modèles de Markov cachés (HMM : Hidden Markov Models) à la structuration et la segmentation simultanées d'un match de football dans l'article de L. Xie, S-F Chang, A. Divakaram, H. Sun "Structure analysis of soccer video with hidden Markov models", Proc. of the Intl. Conf. on Acoustic, Speech and Signal Processing, Orlando, FL, USA, May 13-17, 2002. Chacune des classes jeu et non-jeu y est modélisée par un ensemble de six HMM. Chaque image est caractérisée par deux attributs bas-niveau : le rapport de couleurs dominantes et l'intensité du mouvement. Ces deux attributs sont extraits pour des images uniformément réparties dans la vidéo.
Les travaux précédents proposent d'identifier les vues globales du terrain du sport étudié. Les approches les plus intéressantes du point de vue de la structuration interprètent les vues globales détectées en terme de phase de jeu ou de non-jeu, sur la base de règles heuristiques ou statistiques. Cependant aucune approche ne propose de retrouver la structure globale d'une vidéo.
Un but de l'invention est de proposer un procédé d'analyse d'un document notamment vidéo, spécifique d'un événement dont on connaît a priori des règles générales gouvernant la structure et l'intégration de l'événement afin de pouvoir identifier les différents éléments de la structure globale du document. Le procédé proposé repose sur l'analyse de l'entrelacement temporel des plans constituant la vidéo. Pour réaliser cette analyse, un modèle statistique décrivant la structure du document est mis en œuvre, il s'agit des modèles de Markov cachés.
L'invention concerne donc, en premier, un dispositif de structuration d'un document multimédia représentant un événement, ledit document ayant été préalablement segmenté en plans. Selon l'invention, ledit dispositif comporte des moyens:
- de caractériser des plans obtenus par segmentation temporelle du document multimédia réalisée par extraction d'attributs permettant de caractériser les plans selon des classes prédéfinies en fonction du type de l'événement afin d'obtenir une suite d'observations 0=(O1 , 02, . OT), chaque observation correspondant à un plan,
- de modéliser spatio-temporellement le type d'événement, la modélisation permettant de définir une combinaison hiérarchique de règles de l'évolution temporelle d'états structurels du type d'événement et fonction du genre de la représentation, cette combinaison hiérarchique de règles décrivant la structure complète du document, les règles étant exprimées sous forme de modèles de Markov cachés (HMM) et représentant une unité logique, traduisant des relations probabilistes séquentielles au cours du temps entre N états Q=(q1 ,q2,.qN), chaque état du modèle étant associé à au moins un symbole d'observation représentatif d'une classe, le symbole d'observation étant représenté par au moins l'un des attributs extraits lors de la phase de caractérisation des plans, et chaque plan pouvant être associé à une classe par le biais de ses attributs,
- d'effectuer une phase d'apprentissage, sur un ensemble de représentations dudit genre dudit type d'événement, consistant à obtenir pour chaque modèle de Markov caché de la modélisation appliquée à l'ensemble des représentations, premièrement, la distribution de probabilité A={aij} de transition entre les états et, deuxièmement, à partir de la répartition quantitative de données pour chaque état, la distribution de probabilité B={bj(k)} des symboles d'observation et, troisièmement, la distribution d'états initiale,
- d'analyse et de structuration de la représentation à structurer dans laquelle les moyens du dispositif réalisent une opération de regroupement des plans en unités logiques selon la représentation structurée afin d'obtenir une suite d'états Q=(Q1 , Q2, . QT) pour la représentation à structurer qui maximise Pr(Q,O/(A,B,()) la probabilité de la suite d'observations d'états O par rapport à la distribution de probabilité A={aij} de transition entre les états, la distribution de probabilité B={bj(k)} des symboles d'observation et la distribution d'états
initiale, ladite séquence d'états Qs correspondant à la structure de la représentation.
En second lieu, l'invention concerne un procédé de structuration d'un document multimédia représentant un événement, ledit document ayant été préalablement segmenté en plans Selon l'invention, le procédé comporte les étapes :
- de caractérisation des plans obtenus par segmentation temporelle du document multimédia réalisée par extraction d'attributs permettant de caractériser les plans selon des classes prédéfinies en fonction du type de l'événement afin d'obtenir une suite d'observations 0=(01 , 02, . OT), chaque observation correspondant à un plan,
- de modélisation spatio-temporelle du type d'événement, la modélisation permettant de définir une combinaison hiérarchique de règles de l'évolution temporelle d'états structurels du type d'événement et fonction du genre de la représentation, cette combinaison hiérarchique de règles décrivant la structure complète du document, les règles étant exprimées sous forme de modèles de Markov cachés (HMM) traduisant des relations probabilistes séquentielles au cours du temps entre N états Q=(q1 ,q2, qN), chaque état du modèle étant associé à au moins un symbole d'observation représentatif d'une classe, le symbole d'observation étant représenté par au moins l'un des attributs extraits lors de la phase de caractérisation des plans, et chaque plan pouvant être associé à une classe par le biais de ses attributs, - d'apprentissage, sur un ensemble de représentations dudit genre dudit type d'événement, consistant à obtenir pour chaque modèle de Markov caché de la modélisation appliquée à l'ensemble des représentations, premièrement, la distribution de probabilité A={aij} de transition entre les états et, deuxièmement, à partir de la répartition quantitative de données pour chaque état, la distribution de probabilité B={bj(k)} des symboles d'observation et, troisièmement, la distribution d'états initiale,
- d'analyse et de structuration de la représentation à structurer dans laquelle le procédé réalise une opération de regroupement des plans selon la représentation structurée afin d'obtenir une suite d'états
Q=(Q1 , Q2, . QT) pour la représentation à structurer qui maximise Pr(Q,0/(A,B,Q) la probabilité de la suite d'observations d'états O par rapport à la distribution de probabilité A={aij} de transition entre les états, la distribution de probabilité B={bj(k)} des symboles d'observation et la distribution d'états initiale, ladite séquence d'états Qs correspondant à la structure de la représentation.
L'invention concerne également un produit programme informatique ainsi qu'un support informatique qui comprend des instructions de code de programme aptes au fonctionnement du dispositif selon l'une quelconque des caractéristiques du dispositif précédent prises isolément ou en combinaisons lorsque le programme est exécuté dans le moyen informatique.
La présente invention va maintenant être exemplifiée par la description qui suit, sans en être pour autant limitée, et en relation avec :
- la figure 1 qui représente un modèle de Markov caché (HMM) dans le cas d'un tirage pile ou face ;
- la figure 2 qui représente la segmentation d'une vidéo de tennis ;
- la figure 3 qui représente des HMMs pour certaines phases de vidéo de tennis ;
- la figure 4 qui représente des HMMs hiérarchiquement décomposés pour une partie complète de tennis ;
- la figure 5 qui représente un exemple de calcul pour détermination d'un jeu. Afin de décrire le dispositif et le procédé de l'invention, nous prenons pour exemple l'application à un événement qui est une partie de tennis et qui présente l'avantage d'avoir une. structure temporelle générale des mieux déterminée parmi les événements sportifs et qui peut donc être plus facilement exploitée. De plus, le tennis présente l'intérêt particulier de posséder une structure hiérarchique complexe en « sets », « jeux » et « points ». Des règles intrinsèques à l'événement peuvent donc être déterminées par modélisation. De plus les modalités de production des vidéos de tennis sont également bien connues et généralement reproductibles. Par exemple, un échange est filmé en plan large ou général du cours, un service commence par un plan
rapproché... Les données multimédia qui sont traitées sont ainsi de préférence des données vidéo d'un événement qui est une partie de tennis.
En général, les vidéos réalisées dans le cadre d'une retransmission télévisée d'un événement sportif sont généralement filmées à partir d'un nombre fini de caméras et donc de points de vue particuliers, et sont également soumises à des règles de réalisation spécifiques. Des règles liées à la réalisation du document, vidéo en l'espèce, peuvent donc également être déterminées par modélisation. On peut qualifier ces règles d'extrinsèques vis-à-vis de l'événement pour les différentier des précédentes bien qu'en réalité les règles de réalisation d'un document puissent dépendre dans une certaine mesure de l'événement.
Finalement, l'ensemble des règles, extrinsèques et intrinsèques, forme une hiérarchie de règles concernant l'événement entre une règle générale, principalement intrinsèque, et des règles de niveau inférieur s'imbriquant jusqu'à des règles de base, principalement extrinsèques.
On peut alors se servir de l'identification des différents plans représentés par leurs points de vue (vue globale du terrain, gros plan, publicité...) et de l'analyse de leur entrelacement temporel pour retrouver la structure en « sets », « jeux » et « points » d'un match de tennis.
Dans la description qui suit de l'invention, on suppose que la vidéo qui doit être structurée a déjà été segmentée en plans et que les plans sont identifiés par leurs images clés. On a donc préalablement analysé la vidéo à la recherche de classes d'images et plus généralement de classes de données. Ces classes, dans le cadre d'une vidéo sont, par exemple, les images en prise de vue générale, les images en prise de vue rapprochée, les images en ralenti... L'identification des plans peut notamment être réalisée selon la méthode décrite dans le document "Semantic Shot Classification in Sports Video", de L-Y. Duan, M. Xu, Q.Tian, publié dans le rapport "Proceedings of IS&T/SPIE Storage and Retrieval for Media Databases », pages 300-313, et édité en 2003.
Dans un premier temps de la description on rappelle ce que sont les modèles de Markov cachés (HMM) qui sont une technique largement
utilisée en traitement du signal. Le principe des HMMs est de construire un modèle qui décrit des occurrences d'observations (« symboles ») et d'utiliser ce modèle pour identifier d'autres séquences d'observations. Les HMMs ont été utilisés dans le domaine de la reconnaissance de la parole et de l'analyse cryptographique. Les HMMs sont ici utilisés dans l'analyse et la classification de la vidéo.
Dans un HMM, il y a un nombre fini d' « états » et le HMM est toujours dans l'un de ces états. A chaque temps d'horloge, il entre dans un nouvel état. Une fois la transition réalisée, un symbole de sortie dépendant de l'état actuel est généré. La transition entre deux états est décidée en fonction d'une probabilité de transition. Dans la présente invention, les états sont en relation avec les classes qui ont été déterminées dans les données.
Afin de mieux présenter ce que sont ces modèles de Markov cachés, on va prendre à titre d'exemple le cas d'un tirage à pile ou face. On suppose le scénario suivant avec deux personnes, chacune isolée dans des pièces distinctes, la première réalisant une série de tirage à pile ou face et communiquant les résultats à la seconde qui ne peut voir le déroulement de l'expérience. Pour la personne recevant les résultats des tirages, la séquence d'observation O consiste en une série de «pile» (P) et «face» (F):
0 = Oι 02 ...Oτ
= F F P P P F P ... F Le problème pour la seconde personne est de modéliser cette séquence d'observation O et plusieurs choix lui sont offerts :
(a) Un premier choix possible est de supposer qu'une seule pièce biaisée est utilisée pour l'expérience. Dans ce cas, on peut modéliser la situation par un modèle à deux états : pile et face. Un tel modèle est représenté par la figure 1 , partie (a) Pour compléter ce modèle, il suffit de déterminer le biais de la pièce, autrement dit de déterminer la probabilité Pr(pile) d'obtenir un pile.
(b) Un second choix pour modéliser la séquence d'observations est de supposer que deux pièces biaisées différentes sont utilisées pour expérience. Dans ce cas, on peut modéliser la situation par un modèle à deux états, chaque état représentant une des deux pièces. Chaque état
possède deux symboles d'observations ou de sortie (pile et face) et est caractérisé par sa probabilité d'obtenir des piles ou des faces, c'est-à- dire de générer i'un ou l'autre des symboles d'observations. Les transitions entre états correspondent à la probabilité qu'une pièce ou l'autre soit utilisée. Un tel modèle est représenté par la figure 1 , partie (b).
Dans le modèle de la Figure 1 (a), les états du modèle (pile ou face) sont directement observables. Dans le modèle de la Figure 1(b), les symboles d'observations (pile ou face) sont des fonctions de probabilités des états (pièce 1 ou 2). On parle alors de modèles de
Markov cachées.
Formellement, les états d'un HMM sont notés : Q=(qι, q
2, ...
où N est le nombre d'états et les symboles d'observation sont notés : V=(v
1 t v
2,... , v
M) où M est le nombre de symboles d'observation par état. La distribution de probabilité de transition entre états est représentée par une matrice : A={a,
j}, où a,
j= Pr(q
j à t+1 | q* à t), et la distribution de probabilité des symboles d'observation est représentée par une matrice : B={b
j(k)}, où b,(k) est la probabilité de générer l'observation v
k quand l'état courant est q. La distribution d'états initiale notée π=Pr(qi à t=1) contient les probabilités associées à chacun des états i au temps t=1. Un HMM est ainsi représenté par λ = (A, B, π). Dans le cas de la présente invention, après la modélisation, on doit retrouver une séquence d'états Q=(qι, q
2) ... qi) à partir d'une séquence d'observation O=(Oι 0
2 ...Oτ) donnée et on parle alors de « décodage » d'une séquence.
Le processus de décodage est constitué de deux phases : une première d'apprentissage et une seconde de résolution.
Durant la phase d'apprentissage, les probabilités de transition A entre les états et les probabilités d'observation B du HMM sont évaluées.
Cette étape permet d'ajuster les paramètres de λ = (A, B, π) afin de maximiser la probabilité Pr(0/λ) des séquences d'observations Oa servant à l'apprentissage.
Durant la phase de résolution, une nouvelle séquence d'observation O=Oι O2 ...Oτ est présentée au HMM. On cherche alors la
séquence d'état Q=q,ι q,2 ... qiτ qui « explique » le mieux les observations faites et qui est celle pour laquelle la probabilité Pr(Q,0/ λ) est maximale, soit :
Dans le cas de vidéo de sport, on connaît à priori certaines règles générales concernant l'événement sportif proprement dit et, également, certaines règles de production pour le montage des différents points de vue de caméras et que l'on peut qualifier de syntaxiques de la vidéo. Ainsi, les retransmissions sportives, de façon générale, suivent certaines règles de production, à savoir :
- Lorsqu'il y a une action de jeu, le point de vue comportant le plus d'informations est choisi ; il s'agit d'une vue large du terrain ;
- A la fin d'une action, un gros plan est réalisé sur le joueur l'ayant menée ,
- Pendant les temps morts, on cherche à diffuser un maximum d'informations annexes (telles que l'ambiance du stade, des joueurs, des entraîneurs) ainsi que des publicités ;
- Les ralentis sont signalés au téléspectateur par des transitions particulières (répétées pour chaque ralenti) telles que des fondus- enchaîné ou des volets.
En plus de ces règles générales de production et comme on l'a vu dans le cas du tennis qui suit ces règles générales de production lors de la réalisation de vidéos, des règles propres à ce jeu qui le structurent en sets, jeux et points, sont connues à priori. Une vidéo d'un match de tennis peut alors être modélisée comme représenté sur la Figure 2. Le résultat de cette modélisation permet une analyse de l'entrelacement temporel des plans constituant une vidéo de tennis.
Partant d'une vidéo de tennis, on opère un découpage en plans (« Elementary Shots ») de la vidéo. Une image représentative, image-clé, du contenu de chaque plan est également extraite. Les propriétés de bas-niveau de l'image clé sont ensuite utilisées dans un traitement de classification pour classer les plans en quatre classes (étiquetées) :
- Vue globale du terrain (G) ; - Gros-plan (CU) ;
- plan rapproché (B) ;
- Autres (O).
Ce dernier traitement de classification peut notamment être réalisé selon la méthode décrite dans le document "Semantic Shot Classification in Sports Video", de L-Y. Duan, M. Xu, Q.Tian, publié dans le rapport
"Proceedings of IS&T/SPIE Storage and Retrieval for Media
Databases », pages 300-313, et édité en 2003.
Ainsi, chaque plan est caractérisé, premièrement, par une étiquette (label) qui encapsule les informations bas-niveau de l'image et qui correspond à une des classes (on a ici une étiquette par classe) et, deuxièmement, par sa durée en nombre d'images. Notons que les transitions de type progressives sont en outre prises en compte comme les plans et étiquetées D.
A partir des connaissances à priori sur le tennis, on peut définir, par exemple, quatre règles de base de structuration du déroulement d'une vidéo de tennis:
- Un premier service manqué suivi d'un échange (« ace » ou non) ;
- Un échange (incluant les « aces ») ;
- Un temps Mort ;
- Un ralenti ou rediffusion.
Chaque règle structurelle de base est modélisée par un modèle de Markov caché, c'est-à-dire, comme représenté sur la Figure 3, par un ensemble d'états Q=(qι, q2, ... qN). Dans le cas d'un premier service raté suivi d'un échange on a la suite d'états possibles indiqués pour le sous modèle sub-HMM 1 sur la Figure 3 avec ses états référencés par (1) pour B qui est lui même un sous HMM, par (2) pour G, par (3) pour B et par (4) pour G. Dans le cas d'un échange on a la suite d'états possibles indiqués pour le sous modèle sub-HMM 2 sur la Figure 3 avec ses états référencés par (5) pour B et par (6) pour G. Dans le cas d'un temps mort, on a la suite d'états possibles indiqués pour le sous modèle sub-HMM 3 sur la Figure 3 avec ses états référencés par (7) pour B et par (8) pour G. Dans le cas d'une rediffusion, on a la suite d'états possibles indiqués
pour le sous modèle sub-HMM 4 sur la Figure 3 avec ses états référencés par (9) pour B, par (10) pour D, par (11) pour B, par (12) pour G et par (13) pour D. Notons que, pour simplifier, on utilise un « méta- état » noté B représentant une suite d'états CU et O comme représenté en haut de la Figure 3.
Chaque état dans ce modèle de Markov caché possède deux symboles d'observation : Vi qui est une étiquette (G, CU, B, O ou D), et v2 qui est une durée d en nombre d'images, soit {v-ι,v2}. Par conséquent, pour une observation Ot donnée, b,(1) qui concerne l'étiquette et qui est la probabilité de générer l'observation Vi quand l'état courant est q est définie par : b,(1)=1 si étiquette(Ot)= étiquette(q,)
0 sinon et b,(2) qui concerne la durée, est déterminée par la distribution des durées D, associée à l'état q,, modélisée par une gaussienne, un mélange de gaussiennes ou un histogramme notamment obtenus par apprentissage.
Soit, alors, la séquence d'observation O=Oι 02 ...Oτ produite à partir de la séquence vidéo de tennis où T est le nombre de plans dans la vidéo, et Ot = {étiquette, durée} pour 0<t<T.
L'état q, d'un premier service manqué ayant le label G (vue globale du terrain) sera généralement caractérisé par une distribution de durée courte. Ainsi, une observation portant l'étiquette G mais représentant un échange long aura une faible probabilité d'appartenir à q, (premier service manqué).
A titre d'exemple particulier, soit une observation Ot = {G,dt} et soient les états q, = {G,D,} et q, = {CU,Dj}. Les probabilités que Ot appartienne à l'état q, ou q s'écrivent respectivement : b,(Ot) = b((1) * b,(2) = 1 * Pr(dt/D,) b,(Ot) = b,(1 ) * b,(2) = 0 * Pr(dt/D,) =0
Les règles structurelles précédemment définies concernent certaines phases de jeu, en l'espèce des phases de jeu élémentaires.
Pour pouvoir analyser dans sa globalité la vidéo d'un match de tennis, on définit des règles à des niveaux de structuration supérieurs, hiérarchiquement, permettant de définir des modèles de Markov cachés
hiérarchiques. En l'espèce on utilise quatre niveaux de hiérarchies comme représenté sur la Figure 4.
- Le premier niveau modélise un match en deux sets gagnants (suite d'états sur la première ligne du haut); - Le deuxième niveau modélise un « set » d'étiquette S (suite d'états sur la deuxième ligne à partir du haut);
- Le troisième niveau modélise un jeu d'étiquette G (suite d'états sur la troisième ligne à gauche à partir du haut);
- Le quatrième niveau modélise un point d'étiquette P (suite d'états sur la quatrième ligne à partir du haut). Cette modélisation du point est composée de l'association d'états premier service raté + échange, échange et rediffusion qui ont été vus précédemment.
Notons que l'on a représenté le temps mort (ou « break ») d'étiquette BR, par la suite d'états correspondant au HMM élémentaire sub-HMM 3 précédemment vu.
La distribution de probabilité de transition entre états A={Aij}, et la distribution de probabilité des symboles d'observations B={bj(k)} sont estimées par apprentissage.
En présence d'une nouvelle séquence d'observations O correspondant à une vidéo de tennis, un algorithme de programmation dynamique permet de calculer la séquence d'états Q telle que la probabilité Pr(Q,O/λ) soit maximale, c'est-à-dire de fournir la séquence d'états réalisant le plus probablement la séquence d'observation comme représenté sur la Figure 1 donnant un exemple de résolution de la structure d'une vidéo de tennis par HMM.
Chaque état
appartient à l'un des HMMs modélisant les éléments structurels de base et modélise l'une des classes prédéfinies des plans, et appartient à une tranche particulière de la structure hiérarchique du document.
L'identification des états Q=(Qι , Q2, ..Qτ) correspondants à chaque plan permet donc de savoir si un plan représente un jeu ou non, de regrouper les plans consécutifs en éléments structurels de base selon le modèle auquel leurs états respectifs appartiennent et de localiser leur position dans la structure hiérarchique de document.
Cet algorithme de programmation dynamique utilisé pour le décodage d'une séquence peut être l'algorithme de Viterbi tel que l'on peut en trouver, si nécessaire, l'explication dans le document de Lawrence Rabiner : « A tutorial on hidden markov models and sélective applications in speech récognition » publié dans l'ouvrage de Alex Waibel and K. F. Lee, « Readings in Speech Récognition » publié aux éditions « Morgan » en 1993.
La figure 5 est un exemple illustratif du résultat de l'alignement d'une séquence d'états (référencés par des numéros encerclés) sur une séquence d'observation (décodage) et les probabilités mises en jeu. Les flèches horizontales indiquent les probabilités de transitions entre états et la valeur associée, la valeur de la probabilité de transition. Les flèches verticales indiquent les probabilités d'observations associées à chaque état et leur valeur. La partie supérieure de la Figure 5 indique la correspondance avec de déroulement de la partie.
L'exemple d'application à la vidéo de tennis qui a été donné et à fait l'objet d'une réalisation a donc mis en œuvre un traitement des données avec une observation par plan (image clé) impliquant une segmentation temporelle préalable de la vidéo et deux symboles d'observations par plan, les deux symboles étant la durée du plan et une étiquette de classe. De plus, les classes ont été choisies de façon à s'appliquer particulièrement aux vidéos de sports en général avec un mode de classification en quatre types de plans récurrents :plan général, gros plan, plan rapproché et autres (publicité, public,...). Enfin pour la topologies des HMMs élémentaires, le nombre d'états est fixe et fixé a priori, les transitions entre états ont été estimées dans la phase d'apprentissage par le biais des probabilités de transitions.
Les classes choisies dans l'exemple du tennis sont pertinentes vis à vis de l'utilisation de l'invention dans le cadre des événements sportifs en général. Elles sont cependant suffisamment génériques pour être appliquée directement à un autre type d'événement comme pour structuration de journaux télévisés, de débats ou de pièces de théâtre. Toutefois, si l'on recherche une qualité élevée de structuration on pourra soit mettre en œuvre d'autres modes de classification pour obtenir
ι
d'autres classes ou les préciser, soit rajouter un/des symboles d'observation aux états.
Cet exemple concernant le tennis est indicatif. En effet, certaines des règles et de leurs représentations pour certains des niveaux de la hiérarchisation peuvent s'exprimer d'une manière différente en fonction du nombre de classes que l'on met en œuvre. Toutefois, les niveaux les plus supérieurs sont généralement plus stables vis à vis du choix des classes prises en compte. En pratique, les règles et HMM des niveaux supérieurs, notamment pour la partie (match), le « set », le jeu et le point restent identiques vis à vis des changements de choix de classes prises en compte, seules les règles et HMM des niveaux les plus inférieurs et, en particulier, les règles et HMM élémentaires, étant modifiés en fonction du choix des classes. En effet, les niveaux supérieurs dépendent principalement de la structure de l'événement et les niveaux les plus bas de la représentation et notamment de la façon dont la production est réalisée (par exemple changement de plans ou non selon l'évolution du jeu dans le cas de la vidéo/images) et du type de données (vidéo/images et/ou sons et/ou textes) mises en œuvre.
Il est ainsi possible de mettre en œuvre l'invention d'une manière différente en fonction d'objectifs tels que la performance (rapidité) de classification et la finesse de la classification. On peut alors être amené à choisir un mode de classification rapide, par exemple sur la couleur dominante de l'image clé avec un nombre réduit de classes, par exemple deux : couleur du sol du cours et autre. De même, les règles et HMM peuvent être simplifiés par combinaisons de classes pour limiter le nombre d'étiquettes possibles et, par exemple seulement 2 étiquettes: (G) et (CU,B,O). Inversement, un mode de classification plus complexe peut être mis en œuvre afin d'affiner la structuration, par exemple dans lequel l'élément discriminant est la position du joueur et/ou de la balle par rapport au terrain, ce qui nécessite des calculs plus complexes lors de la classification.
On a donné un exemple d'application qui concerne une représentation vidéo. L'invention peut cependant s'appliquer à tout type de représentation multimédia, soit isolément ou en combinaison des images et/ou des sons et/ou des textes. Pour les sons, les données
I D
correspondent à des suites de signaux et les éléments caractéristiques des données peuvent être l'amplitude et/ou la fréquence qui permet de classer des suites de données, suivant la complexité des règles, on peut parvenir à des niveaux de structuration différents depuis une structuration simple, par exemple en commentaire individuel d'un journaliste versus des cris de foule, jusqu'à une reconnaissance verbale. Les sons peuvent être associés à la vidéo dans les modèles, un symbole d'observation supplémentaire correspondant aux sons étant utilisé, ce qui permet par exemple lors d'une partie de tennis de déterminer une faute (cri de l'arbitre) ou un point (cris de la foule). De même, des textes peuvent être structurés, la suite des symboles se déroulant séquentiellement comme les images se déroulant au cours du temps.