WO2004040471A1 - Dispositif de structuration d’un document multimedia representant un evenement - Google Patents

Dispositif de structuration d’un document multimedia representant un evenement Download PDF

Info

Publication number
WO2004040471A1
WO2004040471A1 PCT/FR2003/003192 FR0303192W WO2004040471A1 WO 2004040471 A1 WO2004040471 A1 WO 2004040471A1 FR 0303192 W FR0303192 W FR 0303192W WO 2004040471 A1 WO2004040471 A1 WO 2004040471A1
Authority
WO
WIPO (PCT)
Prior art keywords
states
representation
event
observation
rules
Prior art date
Application number
PCT/FR2003/003192
Other languages
English (en)
Inventor
Ewa Kijak
Lionel Oisel
François Le Clerc
Original Assignee
Thomson Licensing Sa
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Thomson Licensing Sa filed Critical Thomson Licensing Sa
Priority to AU2003285471A priority Critical patent/AU2003285471A1/en
Publication of WO2004040471A1 publication Critical patent/WO2004040471A1/fr

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/70Information retrieval; Database structures therefor; File system structures therefor of video data
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/40Scenes; Scene-specific elements in video content

Definitions

  • the present invention relates to an automated device for structuring a representation, in particular a video, of an event taking place in a material space over time.
  • a method and a computer program product are also part of the invention. It has applications in the field of automated data processing and more particularly their structuring, that is to say data structure.
  • the data are in particular video data but they can more generally relate to electronic or computer data, these terms being considered equivalent with respect to the aims of the invention (the data being ultimately processed by computer equipment).
  • These data represent images and / or sounds, or even computer programs (for program analysis) or lists of data (for analysis of genetic sequences).
  • DVR Digital Video Recorder
  • the more specific field of the present invention concerns the problem of constructing a table of contents, in other words, structuring a video document.
  • the invention therefore applies to structuring video documents, that is to say which have a defined structure such as, typically, television news and sporting events.
  • time-limited sports for example football, basketball, rugby
  • time-limited sports for example tennis, volleyball, table tennis.
  • the latter offer the strongest structure since they break down into “sets” and “points” while the former only break down into “half-time”.
  • the structuring of video documents is a problem that has arisen relatively recently.
  • the work in this area mainly applies to sporting events. They consist in identifying the game phases of a sports video.
  • structuring is defined as the identification of the phases of play and the phases of non-play.
  • a simple characteristic color of the pitch is used to label all the images in three 'categories (global view, close-up and close-up)
  • heuristic rules are used to segment the sequence of in-game or non-game categorization results.
  • HMM Hidden Markov Models
  • An object of the invention is to propose a method for analyzing a document, in particular a video document, specific to an event of which we know a priori general rules governing the structure and integration of the event in order to be able to identify the different elements of the overall structure of the document.
  • the proposed method is based on the analysis of the temporal interlacing of the planes making up the video. To carry out this analysis, a statistical model describing the structure of the document is used, these are hidden Markov models.
  • the invention therefore relates, first, to a device for structuring a multimedia document representing an event, said document having been previously segmented into plans.
  • the invention relates to a method for structuring a multimedia document representing an event, said document having been previously segmented into plans.
  • the method comprises the steps:
  • the invention also relates to a computer program product as well as to a computer medium which comprises program code instructions suitable for the operation of the device according to any one of the characteristics of the preceding device taken individually or in combinations when the program is executed in the IT means.
  • HMM hidden Markov model
  • FIG. 5 which represents an example of calculation for determining a game.
  • an event which is a game of tennis and which presents the advantage of having one. general time structure of the best determined among sporting events and which can therefore be more easily exploited.
  • tennis has the particular advantage of having a complex hierarchical structure in "sets", "games” and "points”. Rules intrinsic to the event can therefore be determined by modeling.
  • the methods of producing tennis videos are also well known and generally reproducible. For example, an exchange is filmed in wide or general plan of the course, a service begins with a plan close together ...
  • the multimedia data which is processed is thus preferably video data of an event which is a game of tennis.
  • videos produced as part of a televised broadcast of a sporting event are generally filmed from a finite number of cameras and therefore from particular points of view, and are also subject to specific production rules. Rules related to the production of the document, video in this case, can therefore also be determined by modeling. We can qualify these extrinsic rules vis-à-vis the event to differentiate them from the previous ones although in reality the rules for producing a document may depend to some extent on the event.
  • the set of rules, extrinsic and intrinsic forms a hierarchy of rules concerning the event between a general rule, mainly intrinsic, and lower level rules which overlap with basic rules, mainly extrinsic.
  • the video which is to be structured has already been segmented into shots and that the shots are identified by their key images.
  • These classes, in the context of a video are, for example, images in general shooting, images in close-up shooting, images in slow motion ...
  • the identification of shots can in particular be carried out according to the method described in the document "Semantic Shot Classification in Sports Video", from LY. Duan, M. Xu, Q.Tian, published in the report "Proceedings of IS & T / SPIE Storage and Retrieval for Media Databases", pages 300-313, and published in 2003.
  • HMM hidden Markov models
  • the HMM In an HMM, there is a finite number of "states" and the HMM is always in one of these states. At each clock time, it enters a new state. Once the transition has been completed, an output symbol depending on the current state is generated. The transition between two states is decided according to a probability of transition. In the present invention, the states are related to the classes that have been determined in the data.
  • q * to t), and the probability distribution of symbols d the observation is represented by a matrix: B ⁇ b j (k) ⁇ , where b, (k) is the probability of generating the observation v k when the current state is q.
  • the decoding process consists of two phases: a first learning and a second resolution.
  • transition probabilities A between the states and the observation probabilities B of the HMM are evaluated.
  • the point of view with the most information is chosen; it is a wide view of the terrain;
  • This latter classification processing can in particular be carried out according to the method described in the document "Semantic Shot Classification in Sports Video", by L-Y. Duan, M. Xu, Q.Tian, published in the report
  • each plan is characterized, firstly, by a label (label) which encapsulates the low-level information of the image and which corresponds to one of the classes (here we have a label by class) and, secondly, by its duration in number of images. Note that the gradual type transitions are also taken into account like the plans and labeled D.
  • a failed first service followed by an exchange we have the series of possible states indicated for the sub-HMM model 1 in Figure 3 with its states referenced by (1) for B which is itself a under HMM, by (2) for G, by (3) for B and by (4) for G.
  • b, (2) which concerns the duration is determined by the distribution of the durations D, associated with the state q ,, modeled by a Gaussian, a mixture of Gaussians or a histogram notably obtained by learning.
  • the state q, of a first missed service having the label G will generally be characterized by a distribution of short duration.
  • an observation bearing the label G but representing a long exchange will have a low probability of belonging to q, (first service missed).
  • the first level models a match in two winning sets (series of states on the first line at the top); - The second level models a “set” of label S (series of states on the second line from the top);
  • the third level models a set of label G (series of states on the third line on the left from the top);
  • the fourth level models a point of label P (series of states on the fourth line from the top). This modeling of the point is made up of the association of failed first service states + exchange, exchange and replay which have been seen previously.
  • a dynamic programming algorithm makes it possible to calculate the sequence of states Q such that the probability Pr (Q, O / ⁇ ) is maximum, this is ie to provide the sequence of states most likely performing the observation sequence as shown in Figure 1 giving an example of solving the structure of a tennis video by HMM.
  • Each state belongs to one of the HMMs modeling the basic structural elements and models one of the predefined classes of the plans, and belongs to a particular section of the hierarchical structure of the document.
  • the identification of the states Q (Q ⁇ , Q2, ..Q ⁇ ) corresponding to each plan therefore makes it possible to know whether a plan represents a game or not, to group the consecutive plans into basic structural elements according to the model to which their respective states belong and locate their position in the hierarchical document structure.
  • This dynamic programming algorithm used for the decoding of a sequence can be the Viterbi algorithm as we can find, if necessary, the explanation in the document by Lawrence Rabiner: "A tutorial on hidden markov models and selective applications in speech recognition ”published in the work of Alex Waibel and KF Lee,“ Readings in Speech Récognition ”published in editions“ Morgan ”in 1993.
  • FIG. 5 is an illustrative example of the result of the alignment of a sequence of states (referenced by circled numbers) on an observation sequence (decoding) and the probabilities involved.
  • the horizontal arrows indicate the probabilities of transitions between states and the associated value, the value of the probability of transition.
  • the vertical arrows indicate the probabilities of observations associated with each state and their value.
  • the upper part of Figure 5 indicates the correspondence with the course of the game.
  • the higher levels depend mainly on the structure of the event and the lower levels of the representation and in particular on the way in which the production is carried out (for example change of plans or not according to the evolution of the play in the video / images) and the type of data (video / images and / or sounds and / or texts) used.
  • the characteristic elements of the data can be the amplitude and / or the frequency which makes it possible to classify sequences of data, according to the complexity of the rules, it is possible to achieve different levels of structuring from a simple structuring , for example by individual comment from a journalist versus crowd cries, up to verbal recognition.
  • the sounds can be associated with the video in the models, an additional observation symbol corresponding to the sounds being used, which allows for example during a game of tennis to determine a fault (cry of the referee) or a point (crowd shouts).
  • texts can be structured, the sequence of symbols unfolding sequentially like the images unfolding over time.

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Image Analysis (AREA)

Abstract

Procédé et dispositif de structuration d'une représentation d'un événement, ledit procédé comportant : une phase de modélisation spatio-temporelle du type d'événement par une combinaison hiérarchique de règles structurelles exprimées sous forme de modèles de Markov cachés (HMM) avec des états associés à au moins un symbole d'observation, une phase d'apprentissage avec exécution d'une opération automatisée de segmentation et d'extraction de classes pour détermination des paramètres A,B,ir des HMMs, et une phase d'analyse et de structuration d'une représentation à structurer dans laquelle on détermine à partir des paramètres de HMM une séquence d'états Qs qui maximise Pr(Q,O/(A,B,7t)), ladite séquence d'états Qs correspondant à la structure de la représentation. Produit programme d'ordinateur pour exécution du procédé.

Description

Dispositif de structuration d'un document multimédia représentant un événement
La présente invention concerne un dispositif automatisé de structuration d'une représentation, notamment vidéo, d'un événement se déroulant dans un espace matériel au cours du temps. Un procédé et un produit programme informatique font également partis de l'invention. Elle a des applications dans le domaine du traitement automatisé de données et plus particulièrement leur structuration, c'est-à-dire de la structure des données. Les données sont notamment des données vidéo mais elles peuvent concerner plus généralement des données électroniques ou informatiques, ces termes étant considérés équivalents vis-à-vis des buts de l'invention (les données étant in fine traitées par un équipement informatique). Ces données représentent des images et/ou des sons, voire des programmes informatiques (pour analyse de programmes) ou des listes de données (pour analyse de séquences génétiques).
On crée, recopie, utilise tous les jours des données vidéo, que ce soit dans un milieu professionnel ou dans le grand public. Cela entraîne une génération d'une quantité considérable d'information qu'il devient de plus en plus difficile de gérer. Des outils ont donc été proposés afin de pouvoir analyser automatiquement le contenu des vidéos par indexation selon des niveaux informationnels différents à des fins de création de tables de matières ou de tables d'index comme dans le domaine de l'information écrite. Le but de l'indexation vidéo est de fournir des informations permettant un accès non linéaire au contenu d'une vidéo. Par analogie avec un livre, on peut définir deux méthodes d'accès différentes. La première qui est la construction d'une « table des index » permettant de référencer des événements particuliers et la seconde qui est la construction d'une « table des matières » décrivant la structure du contenu.
Une application particulière de l'indexation vidéo concerne la problématique de la navigation dans du contenu vidéo notamment stocké sous forme numérique. Il s'agit d'une application que l'on retrouve dans le domaine grand public via les plate-formes dites « Digital Video Recorder » (DVR) permettant l'enregistrement et la relecture de programmes vidéos stockés sur un disque dur, ou dans le domaine professionnel via des systèmes de gestion de contenu audiovisuel (« multimédia asset management Systems »).
Le domaine plus particulier de la présente invention concerne le problème de la construction d'une table des matières, autrement dit, la structuration d'un document vidéo. L'invention s'applique donc à des documents vidéo structurables, c'est-à-dire qui possèdent une structure définie comme, typiquement, des journaux télévisés et des événements sportifs.
En ce qui concerne les événements sportifs, on peut en distinguer deux grands types. Les premiers, les sports à temps borné, par exemple football, basket, rugby, et les seconds, les sports à scores bornés, par exemple tennis, volley, ping-pong. Ce sont les seconds qui offrent la structure la plus forte puisqu'ils se décomposent en « sets » et « points » alors que les premiers ne se décomposent qu'en « mi-temps ». La structuration des documents vidéo est un problème qui s'est posé relativement récemment. Les travaux dans ce domaine s'appliquent essentiellement aux événements sportifs. Ils consistent à identifier les phases de jeu d'une vidéo de sport.
Ils proposent le plus souvent une classification des plans en deux classes, vue globale du terrain ou non, à partir d'informations bas-niveau de la vidéo comme les couleurs, le mouvement, les contours par exemple. La connaissance à priori des informations vidéo possibles concernant ce type d'événement sportif n'est exploitée que pour définir le modèle de la vue globale et vérifier l'appartenance d'un plan à la classe de la vue globale. Ainsi dans l'article de D. Zhong, S-F Chang « Structure Analysis of Sports Video Using Domain Models », IEEE Conf. on Multimedia and Expo, Tokyo, Japan, Aug. 2001 , l'analyse de la structure d'une vidéo de sport consiste en la détection des vues de la zone de lancer pour le base-bail et des vues du terrain pour le tennis. Ces vues sont détectées par extraction et classification d'attributs globaux des images, puis par des règles de vérification à partir d'une segmentation objet.
Appliquée au football, la structuration se définit comme l'identification des phases de jeu et des phases de non-jeu. Dans l'article de P. Xu, and al. "Algorithms and System for segmentation and structure analysis in soccer video", IEEE Conf. on Multimedia and Expo, Tokyo, Japan, Aug. 2001 , une simple caractéristique « couleur du terrain » est utilisée pour labelliser toutes les images en trois 'catégories (vue globale, plan rapproché et gros plan). Ensuite des règles heuristiques sont utilisées pour segmenter la séquence des résultats de catégorisation en jeu ou non-jeu.
Plus récemment, on a proposé d'appliquer les modèles de Markov cachés (HMM : Hidden Markov Models) à la structuration et la segmentation simultanées d'un match de football dans l'article de L. Xie, S-F Chang, A. Divakaram, H. Sun "Structure analysis of soccer video with hidden Markov models", Proc. of the Intl. Conf. on Acoustic, Speech and Signal Processing, Orlando, FL, USA, May 13-17, 2002. Chacune des classes jeu et non-jeu y est modélisée par un ensemble de six HMM. Chaque image est caractérisée par deux attributs bas-niveau : le rapport de couleurs dominantes et l'intensité du mouvement. Ces deux attributs sont extraits pour des images uniformément réparties dans la vidéo.
Les travaux précédents proposent d'identifier les vues globales du terrain du sport étudié. Les approches les plus intéressantes du point de vue de la structuration interprètent les vues globales détectées en terme de phase de jeu ou de non-jeu, sur la base de règles heuristiques ou statistiques. Cependant aucune approche ne propose de retrouver la structure globale d'une vidéo.
Un but de l'invention est de proposer un procédé d'analyse d'un document notamment vidéo, spécifique d'un événement dont on connaît a priori des règles générales gouvernant la structure et l'intégration de l'événement afin de pouvoir identifier les différents éléments de la structure globale du document. Le procédé proposé repose sur l'analyse de l'entrelacement temporel des plans constituant la vidéo. Pour réaliser cette analyse, un modèle statistique décrivant la structure du document est mis en œuvre, il s'agit des modèles de Markov cachés.
L'invention concerne donc, en premier, un dispositif de structuration d'un document multimédia représentant un événement, ledit document ayant été préalablement segmenté en plans. Selon l'invention, ledit dispositif comporte des moyens: - de caractériser des plans obtenus par segmentation temporelle du document multimédia réalisée par extraction d'attributs permettant de caractériser les plans selon des classes prédéfinies en fonction du type de l'événement afin d'obtenir une suite d'observations 0=(O1 , 02, . OT), chaque observation correspondant à un plan,
- de modéliser spatio-temporellement le type d'événement, la modélisation permettant de définir une combinaison hiérarchique de règles de l'évolution temporelle d'états structurels du type d'événement et fonction du genre de la représentation, cette combinaison hiérarchique de règles décrivant la structure complète du document, les règles étant exprimées sous forme de modèles de Markov cachés (HMM) et représentant une unité logique, traduisant des relations probabilistes séquentielles au cours du temps entre N états Q=(q1 ,q2,.qN), chaque état du modèle étant associé à au moins un symbole d'observation représentatif d'une classe, le symbole d'observation étant représenté par au moins l'un des attributs extraits lors de la phase de caractérisation des plans, et chaque plan pouvant être associé à une classe par le biais de ses attributs,
- d'effectuer une phase d'apprentissage, sur un ensemble de représentations dudit genre dudit type d'événement, consistant à obtenir pour chaque modèle de Markov caché de la modélisation appliquée à l'ensemble des représentations, premièrement, la distribution de probabilité A={aij} de transition entre les états et, deuxièmement, à partir de la répartition quantitative de données pour chaque état, la distribution de probabilité B={bj(k)} des symboles d'observation et, troisièmement, la distribution d'états initiale,
- d'analyse et de structuration de la représentation à structurer dans laquelle les moyens du dispositif réalisent une opération de regroupement des plans en unités logiques selon la représentation structurée afin d'obtenir une suite d'états Q=(Q1 , Q2, . QT) pour la représentation à structurer qui maximise Pr(Q,O/(A,B,()) la probabilité de la suite d'observations d'états O par rapport à la distribution de probabilité A={aij} de transition entre les états, la distribution de probabilité B={bj(k)} des symboles d'observation et la distribution d'états initiale, ladite séquence d'états Qs correspondant à la structure de la représentation.
En second lieu, l'invention concerne un procédé de structuration d'un document multimédia représentant un événement, ledit document ayant été préalablement segmenté en plans Selon l'invention, le procédé comporte les étapes :
- de caractérisation des plans obtenus par segmentation temporelle du document multimédia réalisée par extraction d'attributs permettant de caractériser les plans selon des classes prédéfinies en fonction du type de l'événement afin d'obtenir une suite d'observations 0=(01 , 02, . OT), chaque observation correspondant à un plan,
- de modélisation spatio-temporelle du type d'événement, la modélisation permettant de définir une combinaison hiérarchique de règles de l'évolution temporelle d'états structurels du type d'événement et fonction du genre de la représentation, cette combinaison hiérarchique de règles décrivant la structure complète du document, les règles étant exprimées sous forme de modèles de Markov cachés (HMM) traduisant des relations probabilistes séquentielles au cours du temps entre N états Q=(q1 ,q2, qN), chaque état du modèle étant associé à au moins un symbole d'observation représentatif d'une classe, le symbole d'observation étant représenté par au moins l'un des attributs extraits lors de la phase de caractérisation des plans, et chaque plan pouvant être associé à une classe par le biais de ses attributs, - d'apprentissage, sur un ensemble de représentations dudit genre dudit type d'événement, consistant à obtenir pour chaque modèle de Markov caché de la modélisation appliquée à l'ensemble des représentations, premièrement, la distribution de probabilité A={aij} de transition entre les états et, deuxièmement, à partir de la répartition quantitative de données pour chaque état, la distribution de probabilité B={bj(k)} des symboles d'observation et, troisièmement, la distribution d'états initiale,
- d'analyse et de structuration de la représentation à structurer dans laquelle le procédé réalise une opération de regroupement des plans selon la représentation structurée afin d'obtenir une suite d'états Q=(Q1 , Q2, . QT) pour la représentation à structurer qui maximise Pr(Q,0/(A,B,Q) la probabilité de la suite d'observations d'états O par rapport à la distribution de probabilité A={aij} de transition entre les états, la distribution de probabilité B={bj(k)} des symboles d'observation et la distribution d'états initiale, ladite séquence d'états Qs correspondant à la structure de la représentation.
L'invention concerne également un produit programme informatique ainsi qu'un support informatique qui comprend des instructions de code de programme aptes au fonctionnement du dispositif selon l'une quelconque des caractéristiques du dispositif précédent prises isolément ou en combinaisons lorsque le programme est exécuté dans le moyen informatique.
La présente invention va maintenant être exemplifiée par la description qui suit, sans en être pour autant limitée, et en relation avec :
- la figure 1 qui représente un modèle de Markov caché (HMM) dans le cas d'un tirage pile ou face ;
- la figure 2 qui représente la segmentation d'une vidéo de tennis ;
- la figure 3 qui représente des HMMs pour certaines phases de vidéo de tennis ;
- la figure 4 qui représente des HMMs hiérarchiquement décomposés pour une partie complète de tennis ;
- la figure 5 qui représente un exemple de calcul pour détermination d'un jeu. Afin de décrire le dispositif et le procédé de l'invention, nous prenons pour exemple l'application à un événement qui est une partie de tennis et qui présente l'avantage d'avoir une. structure temporelle générale des mieux déterminée parmi les événements sportifs et qui peut donc être plus facilement exploitée. De plus, le tennis présente l'intérêt particulier de posséder une structure hiérarchique complexe en « sets », « jeux » et « points ». Des règles intrinsèques à l'événement peuvent donc être déterminées par modélisation. De plus les modalités de production des vidéos de tennis sont également bien connues et généralement reproductibles. Par exemple, un échange est filmé en plan large ou général du cours, un service commence par un plan rapproché... Les données multimédia qui sont traitées sont ainsi de préférence des données vidéo d'un événement qui est une partie de tennis.
En général, les vidéos réalisées dans le cadre d'une retransmission télévisée d'un événement sportif sont généralement filmées à partir d'un nombre fini de caméras et donc de points de vue particuliers, et sont également soumises à des règles de réalisation spécifiques. Des règles liées à la réalisation du document, vidéo en l'espèce, peuvent donc également être déterminées par modélisation. On peut qualifier ces règles d'extrinsèques vis-à-vis de l'événement pour les différentier des précédentes bien qu'en réalité les règles de réalisation d'un document puissent dépendre dans une certaine mesure de l'événement.
Finalement, l'ensemble des règles, extrinsèques et intrinsèques, forme une hiérarchie de règles concernant l'événement entre une règle générale, principalement intrinsèque, et des règles de niveau inférieur s'imbriquant jusqu'à des règles de base, principalement extrinsèques.
On peut alors se servir de l'identification des différents plans représentés par leurs points de vue (vue globale du terrain, gros plan, publicité...) et de l'analyse de leur entrelacement temporel pour retrouver la structure en « sets », « jeux » et « points » d'un match de tennis.
Dans la description qui suit de l'invention, on suppose que la vidéo qui doit être structurée a déjà été segmentée en plans et que les plans sont identifiés par leurs images clés. On a donc préalablement analysé la vidéo à la recherche de classes d'images et plus généralement de classes de données. Ces classes, dans le cadre d'une vidéo sont, par exemple, les images en prise de vue générale, les images en prise de vue rapprochée, les images en ralenti... L'identification des plans peut notamment être réalisée selon la méthode décrite dans le document "Semantic Shot Classification in Sports Video", de L-Y. Duan, M. Xu, Q.Tian, publié dans le rapport "Proceedings of IS&T/SPIE Storage and Retrieval for Media Databases », pages 300-313, et édité en 2003.
Dans un premier temps de la description on rappelle ce que sont les modèles de Markov cachés (HMM) qui sont une technique largement utilisée en traitement du signal. Le principe des HMMs est de construire un modèle qui décrit des occurrences d'observations (« symboles ») et d'utiliser ce modèle pour identifier d'autres séquences d'observations. Les HMMs ont été utilisés dans le domaine de la reconnaissance de la parole et de l'analyse cryptographique. Les HMMs sont ici utilisés dans l'analyse et la classification de la vidéo.
Dans un HMM, il y a un nombre fini d' « états » et le HMM est toujours dans l'un de ces états. A chaque temps d'horloge, il entre dans un nouvel état. Une fois la transition réalisée, un symbole de sortie dépendant de l'état actuel est généré. La transition entre deux états est décidée en fonction d'une probabilité de transition. Dans la présente invention, les états sont en relation avec les classes qui ont été déterminées dans les données.
Afin de mieux présenter ce que sont ces modèles de Markov cachés, on va prendre à titre d'exemple le cas d'un tirage à pile ou face. On suppose le scénario suivant avec deux personnes, chacune isolée dans des pièces distinctes, la première réalisant une série de tirage à pile ou face et communiquant les résultats à la seconde qui ne peut voir le déroulement de l'expérience. Pour la personne recevant les résultats des tirages, la séquence d'observation O consiste en une série de «pile» (P) et «face» (F):
0 = Oι 02 ...Oτ
= F F P P P F P ... F Le problème pour la seconde personne est de modéliser cette séquence d'observation O et plusieurs choix lui sont offerts :
(a) Un premier choix possible est de supposer qu'une seule pièce biaisée est utilisée pour l'expérience. Dans ce cas, on peut modéliser la situation par un modèle à deux états : pile et face. Un tel modèle est représenté par la figure 1 , partie (a) Pour compléter ce modèle, il suffit de déterminer le biais de la pièce, autrement dit de déterminer la probabilité Pr(pile) d'obtenir un pile.
(b) Un second choix pour modéliser la séquence d'observations est de supposer que deux pièces biaisées différentes sont utilisées pour expérience. Dans ce cas, on peut modéliser la situation par un modèle à deux états, chaque état représentant une des deux pièces. Chaque état possède deux symboles d'observations ou de sortie (pile et face) et est caractérisé par sa probabilité d'obtenir des piles ou des faces, c'est-à- dire de générer i'un ou l'autre des symboles d'observations. Les transitions entre états correspondent à la probabilité qu'une pièce ou l'autre soit utilisée. Un tel modèle est représenté par la figure 1 , partie (b).
Dans le modèle de la Figure 1 (a), les états du modèle (pile ou face) sont directement observables. Dans le modèle de la Figure 1(b), les symboles d'observations (pile ou face) sont des fonctions de probabilités des états (pièce 1 ou 2). On parle alors de modèles de
Markov cachées.
Formellement, les états d'un HMM sont notés : Q=(qι, q2, ...
Figure imgf000011_0001
où N est le nombre d'états et les symboles d'observation sont notés : V=(v1 t v2,... , vM) où M est le nombre de symboles d'observation par état. La distribution de probabilité de transition entre états est représentée par une matrice : A={a,j}, où a,j= Pr(qj à t+1 | q* à t), et la distribution de probabilité des symboles d'observation est représentée par une matrice : B={bj(k)}, où b,(k) est la probabilité de générer l'observation vk quand l'état courant est q. La distribution d'états initiale notée π=Pr(qi à t=1) contient les probabilités associées à chacun des états i au temps t=1. Un HMM est ainsi représenté par λ = (A, B, π). Dans le cas de la présente invention, après la modélisation, on doit retrouver une séquence d'états Q=(qι, q2) ... qi) à partir d'une séquence d'observation O=(Oι 02 ...Oτ) donnée et on parle alors de « décodage » d'une séquence.
Le processus de décodage est constitué de deux phases : une première d'apprentissage et une seconde de résolution.
Durant la phase d'apprentissage, les probabilités de transition A entre les états et les probabilités d'observation B du HMM sont évaluées.
Cette étape permet d'ajuster les paramètres de λ = (A, B, π) afin de maximiser la probabilité Pr(0/λ) des séquences d'observations Oa servant à l'apprentissage.
Durant la phase de résolution, une nouvelle séquence d'observation O=Oι O2 ...Oτ est présentée au HMM. On cherche alors la séquence d'état Q=q,ι q,2 ... q qui « explique » le mieux les observations faites et qui est celle pour laquelle la probabilité Pr(Q,0/ λ) est maximale, soit :
Figure imgf000012_0001
Dans le cas de vidéo de sport, on connaît à priori certaines règles générales concernant l'événement sportif proprement dit et, également, certaines règles de production pour le montage des différents points de vue de caméras et que l'on peut qualifier de syntaxiques de la vidéo. Ainsi, les retransmissions sportives, de façon générale, suivent certaines règles de production, à savoir :
- Lorsqu'il y a une action de jeu, le point de vue comportant le plus d'informations est choisi ; il s'agit d'une vue large du terrain ;
- A la fin d'une action, un gros plan est réalisé sur le joueur l'ayant menée ,
- Pendant les temps morts, on cherche à diffuser un maximum d'informations annexes (telles que l'ambiance du stade, des joueurs, des entraîneurs) ainsi que des publicités ;
- Les ralentis sont signalés au téléspectateur par des transitions particulières (répétées pour chaque ralenti) telles que des fondus- enchaîné ou des volets.
En plus de ces règles générales de production et comme on l'a vu dans le cas du tennis qui suit ces règles générales de production lors de la réalisation de vidéos, des règles propres à ce jeu qui le structurent en sets, jeux et points, sont connues à priori. Une vidéo d'un match de tennis peut alors être modélisée comme représenté sur la Figure 2. Le résultat de cette modélisation permet une analyse de l'entrelacement temporel des plans constituant une vidéo de tennis.
Partant d'une vidéo de tennis, on opère un découpage en plans (« Elementary Shots ») de la vidéo. Une image représentative, image-clé, du contenu de chaque plan est également extraite. Les propriétés de bas-niveau de l'image clé sont ensuite utilisées dans un traitement de classification pour classer les plans en quatre classes (étiquetées) :
- Vue globale du terrain (G) ; - Gros-plan (CU) ; - plan rapproché (B) ;
- Autres (O).
Ce dernier traitement de classification peut notamment être réalisé selon la méthode décrite dans le document "Semantic Shot Classification in Sports Video", de L-Y. Duan, M. Xu, Q.Tian, publié dans le rapport
"Proceedings of IS&T/SPIE Storage and Retrieval for Media
Databases », pages 300-313, et édité en 2003.
Ainsi, chaque plan est caractérisé, premièrement, par une étiquette (label) qui encapsule les informations bas-niveau de l'image et qui correspond à une des classes (on a ici une étiquette par classe) et, deuxièmement, par sa durée en nombre d'images. Notons que les transitions de type progressives sont en outre prises en compte comme les plans et étiquetées D.
A partir des connaissances à priori sur le tennis, on peut définir, par exemple, quatre règles de base de structuration du déroulement d'une vidéo de tennis:
- Un premier service manqué suivi d'un échange (« ace » ou non) ;
- Un échange (incluant les « aces ») ;
- Un temps Mort ;
- Un ralenti ou rediffusion.
Chaque règle structurelle de base est modélisée par un modèle de Markov caché, c'est-à-dire, comme représenté sur la Figure 3, par un ensemble d'états Q=(qι, q2, ... qN). Dans le cas d'un premier service raté suivi d'un échange on a la suite d'états possibles indiqués pour le sous modèle sub-HMM 1 sur la Figure 3 avec ses états référencés par (1) pour B qui est lui même un sous HMM, par (2) pour G, par (3) pour B et par (4) pour G. Dans le cas d'un échange on a la suite d'états possibles indiqués pour le sous modèle sub-HMM 2 sur la Figure 3 avec ses états référencés par (5) pour B et par (6) pour G. Dans le cas d'un temps mort, on a la suite d'états possibles indiqués pour le sous modèle sub-HMM 3 sur la Figure 3 avec ses états référencés par (7) pour B et par (8) pour G. Dans le cas d'une rediffusion, on a la suite d'états possibles indiqués pour le sous modèle sub-HMM 4 sur la Figure 3 avec ses états référencés par (9) pour B, par (10) pour D, par (11) pour B, par (12) pour G et par (13) pour D. Notons que, pour simplifier, on utilise un « méta- état » noté B représentant une suite d'états CU et O comme représenté en haut de la Figure 3.
Chaque état dans ce modèle de Markov caché possède deux symboles d'observation : Vi qui est une étiquette (G, CU, B, O ou D), et v2 qui est une durée d en nombre d'images, soit {v-ι,v2}. Par conséquent, pour une observation Ot donnée, b,(1) qui concerne l'étiquette et qui est la probabilité de générer l'observation Vi quand l'état courant est q est définie par : b,(1)=1 si étiquette(Ot)= étiquette(q,)
0 sinon et b,(2) qui concerne la durée, est déterminée par la distribution des durées D, associée à l'état q,, modélisée par une gaussienne, un mélange de gaussiennes ou un histogramme notamment obtenus par apprentissage.
Soit, alors, la séquence d'observation O=Oι 02 ...Oτ produite à partir de la séquence vidéo de tennis où T est le nombre de plans dans la vidéo, et Ot = {étiquette, durée} pour 0<t<T.
L'état q, d'un premier service manqué ayant le label G (vue globale du terrain) sera généralement caractérisé par une distribution de durée courte. Ainsi, une observation portant l'étiquette G mais représentant un échange long aura une faible probabilité d'appartenir à q, (premier service manqué).
A titre d'exemple particulier, soit une observation Ot = {G,dt} et soient les états q, = {G,D,} et q, = {CU,Dj}. Les probabilités que Ot appartienne à l'état q, ou q s'écrivent respectivement : b,(Ot) = b((1) * b,(2) = 1 * Pr(dt/D,) b,(Ot) = b,(1 ) * b,(2) = 0 * Pr(dt/D,) =0
Les règles structurelles précédemment définies concernent certaines phases de jeu, en l'espèce des phases de jeu élémentaires.
Pour pouvoir analyser dans sa globalité la vidéo d'un match de tennis, on définit des règles à des niveaux de structuration supérieurs, hiérarchiquement, permettant de définir des modèles de Markov cachés hiérarchiques. En l'espèce on utilise quatre niveaux de hiérarchies comme représenté sur la Figure 4.
- Le premier niveau modélise un match en deux sets gagnants (suite d'états sur la première ligne du haut); - Le deuxième niveau modélise un « set » d'étiquette S (suite d'états sur la deuxième ligne à partir du haut);
- Le troisième niveau modélise un jeu d'étiquette G (suite d'états sur la troisième ligne à gauche à partir du haut);
- Le quatrième niveau modélise un point d'étiquette P (suite d'états sur la quatrième ligne à partir du haut). Cette modélisation du point est composée de l'association d'états premier service raté + échange, échange et rediffusion qui ont été vus précédemment.
Notons que l'on a représenté le temps mort (ou « break ») d'étiquette BR, par la suite d'états correspondant au HMM élémentaire sub-HMM 3 précédemment vu.
La distribution de probabilité de transition entre états A={Aij}, et la distribution de probabilité des symboles d'observations B={bj(k)} sont estimées par apprentissage.
En présence d'une nouvelle séquence d'observations O correspondant à une vidéo de tennis, un algorithme de programmation dynamique permet de calculer la séquence d'états Q telle que la probabilité Pr(Q,O/λ) soit maximale, c'est-à-dire de fournir la séquence d'états réalisant le plus probablement la séquence d'observation comme représenté sur la Figure 1 donnant un exemple de résolution de la structure d'une vidéo de tennis par HMM.
Chaque état
Figure imgf000015_0001
appartient à l'un des HMMs modélisant les éléments structurels de base et modélise l'une des classes prédéfinies des plans, et appartient à une tranche particulière de la structure hiérarchique du document.
L'identification des états Q=(Qι , Q2, ..Qτ) correspondants à chaque plan permet donc de savoir si un plan représente un jeu ou non, de regrouper les plans consécutifs en éléments structurels de base selon le modèle auquel leurs états respectifs appartiennent et de localiser leur position dans la structure hiérarchique de document. Cet algorithme de programmation dynamique utilisé pour le décodage d'une séquence peut être l'algorithme de Viterbi tel que l'on peut en trouver, si nécessaire, l'explication dans le document de Lawrence Rabiner : « A tutorial on hidden markov models and sélective applications in speech récognition » publié dans l'ouvrage de Alex Waibel and K. F. Lee, « Readings in Speech Récognition » publié aux éditions « Morgan » en 1993.
La figure 5 est un exemple illustratif du résultat de l'alignement d'une séquence d'états (référencés par des numéros encerclés) sur une séquence d'observation (décodage) et les probabilités mises en jeu. Les flèches horizontales indiquent les probabilités de transitions entre états et la valeur associée, la valeur de la probabilité de transition. Les flèches verticales indiquent les probabilités d'observations associées à chaque état et leur valeur. La partie supérieure de la Figure 5 indique la correspondance avec de déroulement de la partie.
L'exemple d'application à la vidéo de tennis qui a été donné et à fait l'objet d'une réalisation a donc mis en œuvre un traitement des données avec une observation par plan (image clé) impliquant une segmentation temporelle préalable de la vidéo et deux symboles d'observations par plan, les deux symboles étant la durée du plan et une étiquette de classe. De plus, les classes ont été choisies de façon à s'appliquer particulièrement aux vidéos de sports en général avec un mode de classification en quatre types de plans récurrents :plan général, gros plan, plan rapproché et autres (publicité, public,...). Enfin pour la topologies des HMMs élémentaires, le nombre d'états est fixe et fixé a priori, les transitions entre états ont été estimées dans la phase d'apprentissage par le biais des probabilités de transitions.
Les classes choisies dans l'exemple du tennis sont pertinentes vis à vis de l'utilisation de l'invention dans le cadre des événements sportifs en général. Elles sont cependant suffisamment génériques pour être appliquée directement à un autre type d'événement comme pour structuration de journaux télévisés, de débats ou de pièces de théâtre. Toutefois, si l'on recherche une qualité élevée de structuration on pourra soit mettre en œuvre d'autres modes de classification pour obtenir ι
d'autres classes ou les préciser, soit rajouter un/des symboles d'observation aux états.
Cet exemple concernant le tennis est indicatif. En effet, certaines des règles et de leurs représentations pour certains des niveaux de la hiérarchisation peuvent s'exprimer d'une manière différente en fonction du nombre de classes que l'on met en œuvre. Toutefois, les niveaux les plus supérieurs sont généralement plus stables vis à vis du choix des classes prises en compte. En pratique, les règles et HMM des niveaux supérieurs, notamment pour la partie (match), le « set », le jeu et le point restent identiques vis à vis des changements de choix de classes prises en compte, seules les règles et HMM des niveaux les plus inférieurs et, en particulier, les règles et HMM élémentaires, étant modifiés en fonction du choix des classes. En effet, les niveaux supérieurs dépendent principalement de la structure de l'événement et les niveaux les plus bas de la représentation et notamment de la façon dont la production est réalisée (par exemple changement de plans ou non selon l'évolution du jeu dans le cas de la vidéo/images) et du type de données (vidéo/images et/ou sons et/ou textes) mises en œuvre.
Il est ainsi possible de mettre en œuvre l'invention d'une manière différente en fonction d'objectifs tels que la performance (rapidité) de classification et la finesse de la classification. On peut alors être amené à choisir un mode de classification rapide, par exemple sur la couleur dominante de l'image clé avec un nombre réduit de classes, par exemple deux : couleur du sol du cours et autre. De même, les règles et HMM peuvent être simplifiés par combinaisons de classes pour limiter le nombre d'étiquettes possibles et, par exemple seulement 2 étiquettes: (G) et (CU,B,O). Inversement, un mode de classification plus complexe peut être mis en œuvre afin d'affiner la structuration, par exemple dans lequel l'élément discriminant est la position du joueur et/ou de la balle par rapport au terrain, ce qui nécessite des calculs plus complexes lors de la classification.
On a donné un exemple d'application qui concerne une représentation vidéo. L'invention peut cependant s'appliquer à tout type de représentation multimédia, soit isolément ou en combinaison des images et/ou des sons et/ou des textes. Pour les sons, les données I D
correspondent à des suites de signaux et les éléments caractéristiques des données peuvent être l'amplitude et/ou la fréquence qui permet de classer des suites de données, suivant la complexité des règles, on peut parvenir à des niveaux de structuration différents depuis une structuration simple, par exemple en commentaire individuel d'un journaliste versus des cris de foule, jusqu'à une reconnaissance verbale. Les sons peuvent être associés à la vidéo dans les modèles, un symbole d'observation supplémentaire correspondant aux sons étant utilisé, ce qui permet par exemple lors d'une partie de tennis de déterminer une faute (cri de l'arbitre) ou un point (cris de la foule). De même, des textes peuvent être structurés, la suite des symboles se déroulant séquentiellement comme les images se déroulant au cours du temps.

Claims

REVENDICATIONS
1. Dispositif de structuration d'un document multimédia représentant un événement, ledit document ayant été préalablement segmenté en plans, caractérisé en ce que ledit dispositif comporte des moyens:
- de caractériser des plans obtenus par segmentation temporelle du document multimédia réalisée par extraction d'attributs permettant de caractériser les plans selon des classes prédéfinies en fonction du type de l'événement afin d'obtenir une suite d'observations 0=(01 , 02, . OT), chaque observation correspondant à un plan,
- de modéliser spatio-temporellement le type d'événement, la modélisation permettant de définir une combinaison hiérarchique de règles de l'évolution temporelle d'états structurels du type d'événement et fonction du genre de la représentation, cette combinaison hiérarchique de règles décrivant la structure complète du document, les règles étant exprimées sous forme de modèles de Markov cachés (HMM) et représentant une unité logique, traduisant des relations probabilistes séquentielles au cours du temps entre N états Q=(q1 ,q2,.qN), chaque état du modèle étant associé à au moins un symbole d'observation représentatif d'une classe, le symbole d'observation étant représenté par au moins l'un des attributs extraits lors de la phase de caractérisation des plans, et chaque plan pouvant être associé à une classe par le biais de ses attributs, - d'effectuer une phase d'apprentissage, sur un ensemble de représentations dudit genre dudit type d'événement, consistant à obtenir pour chaque modèle de Markov caché de la modélisation appliquée à l'ensemble des représentations, premièrement, la distribution de probabilité A={aij} de transition entre les états et, deuxièmement, à partir de la répartition quantitative de données pour chaque état, la distribution de probabilité B={bj(k)} des symboles d'observation et, troisièmement, la distribution d'états initiale,
- d'analyse et de structuration de la représentation à structurer dans laquelle les moyens du dispositif réalisent une opération de regroupement des plans en unités logiques selon la représentation structurée afin d'obtenir une suite d'états Q=(Q1 , Q2, . QT) pour la représentation à structurer qui maximise Pr(Q,0/(A,B,()) la probabilité de la suite d'observations d'états O par rapport à la distribution de probabilité A={aij} de transition entre les états, la distribution de probabilité B={bj(k)} des symboles d'observation et la distribution d'états initiale, ladite séquence d'états Qs correspondant à la structure de la représentation. • -
2. Dispositif selon la revendication 1 , caractérisé en ce que la représentation comporte des données d'au moins deux genres, les données du premier genre, notamment vidéo/images, étant en relation avec
- un premier symbole d'observation V1 p ledit premier symbole d'observation étant une étiquette d'attribution de classe à l'état observé selon un premier mode de classification et
- un second symbole d'observation V2,
- ledit dispositif comportant des moyens d'associer à chaque état au moins un symbole d'observation supplémentaire Vj avec i>=3 pour un second genre de données, notamment des sons, chaque symbole d'observation supplémentaire étant une étiquette d'attribution de classe(s) à l'état observé selon un autre mode de classification, les données de second genre de la représentation pouvant être classées selon cet autre mode en au moins deux classes, notamment classe bruit et classe silence dans le cas de sons, et le nombre d'étiquettes pour cet autre genre étant donc d'au moins deux.
3 Dispositif selon la revendication 1 ou 2 caractérisé en ce qu'il comporte des moyens de définir les classes en analysant les données sur l'ensemble desdites représentations dudit genre dudit type d'événement permettant de déterminer l'/les élément(s) discriminant(s) principaux permettant des regroupement de suite de données consécutives.
4. Dispositif selon l'une quelconque des revendications précédentes, caractérisé en ce que les règles structurelles définies hiérarchiquement sur le type de représentation comprennent une règle générale au niveau le plus supérieur de la hiérarchie concernant toute la durée de la représentation, et des règles de niveaux inférieurs jusqu'à un niveau de base, les règles s'exprimant de façon à ce qu'un modèle de Markov d'un niveau supérieur comporte au moins un état correspondant à un modèle de Markov d'un niveau inférieur, jusqu'au niveau de base.
5. Procédé de structuration d'un document multimédia représentant un événement, ledit document ayant été préalablement segmenté en plans, caractérisé en ce que ledit procédé comporte les étapes :
- de caractérisation des plans obtenus par segmentation temporelle du document multimédia réalisée par extraction d'attributs permettant de caractériser les plans selon des classes prédéfinies en fonction du type de l'événement afin d'obtenir uηe suite d'observations 0=(01 , 02, . OT), chaque observation correspondant à un plan,
- de modélisation spatio-temporelle du type d'événement, la modélisation permettant de définir une combinaison hiérarchique de règles de l'évolution temporelle d'états structurels du type d'événement et fonction du genre de la représentation, cette combinaison hiérarchique de règles décrivant la structure complète du document, les règles étant exprimées sous forme de modèles de Markov cachés (HMM) traduisant des relations probabilistes séquentielles au cours du temps entre N états Q=(q1 ,q2,.qN), chaque état du modèle étant associé à au moins un symbole d'observation représentatif d'une classe, le symbole d'observation étant représenté par au moins l'un des attributs extraits lors de la phase de caractérisation des plans, et chaque plan pouvant être associé à une classe par le biais de ses attributs,
- d'apprentissage, sur un ensemble de représentations dudit genre dudit type d'événement, consistant à obtenir pour chaque modèle de Markov caché de la modélisation appliquée à l'ensemble des représentations, premièrement, la distribution de probabilité A={aij} de transition entre les états et, deuxièmement, à partir de la répartition quantitative de données pour chaque état, la distribution de probabilité B={bj(k)} des symboles d'observation et, troisièmement, la distribution d'états initiale, - d'analyse et de structuration de la représentation à structurer dans laquelle le procédé réalise une opération de regroupement des plans selon la représentation structurée afin d'obtenir une suite d'états Q=(Q1 , Q2, . QT) pour la représentation à structurer qui maximise Pr(Q,0/(A,B,()) la probabilité de la suite d'observations d'états O par rapport à la distribution de probabilité A={aij} de transition entre les états, la distribution de probabilité B={bj(k)} des symboles d'observation et la distribution d'états initiale, ladite séquence d'états Qs correspondant à la structure de la représentation.
6. Produit programme d'ordinateur caractérisé en ce qu'il comprend des instructions de code de programme aptes à mettre en oeuvre le procédé selon la revendication 5 lorsque le programme est exécuté sur un ordinateur.
PCT/FR2003/003192 2002-10-28 2003-10-27 Dispositif de structuration d’un document multimedia representant un evenement WO2004040471A1 (fr)

Priority Applications (1)

Application Number Priority Date Filing Date Title
AU2003285471A AU2003285471A1 (en) 2002-10-28 2003-10-27 Device for structuring a multimedia document representing an event

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
FR0213977 2002-10-28
FR02/13977 2002-10-28

Publications (1)

Publication Number Publication Date
WO2004040471A1 true WO2004040471A1 (fr) 2004-05-13

Family

ID=32187577

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/FR2003/003192 WO2004040471A1 (fr) 2002-10-28 2003-10-27 Dispositif de structuration d’un document multimedia representant un evenement

Country Status (2)

Country Link
AU (1) AU2003285471A1 (fr)
WO (1) WO2004040471A1 (fr)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8634708B2 (en) 2006-12-21 2014-01-21 Thomson Licensing Method for creating a new summary of an audiovisual document that already includes a summary and reports and a receiver that can implement said method
US9400842B2 (en) 2009-12-28 2016-07-26 Thomson Licensing Method for selection of a document shot using graphic paths and receiver implementing the method

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5708767A (en) * 1995-02-03 1998-01-13 The Trustees Of Princeton University Method and apparatus for video browsing based on content and structure
US5872865A (en) * 1995-02-08 1999-02-16 Apple Computer, Inc. Method and system for automatic classification of video images

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5708767A (en) * 1995-02-03 1998-01-13 The Trustees Of Princeton University Method and apparatus for video browsing based on content and structure
US5872865A (en) * 1995-02-08 1999-02-16 Apple Computer, Inc. Method and system for automatic classification of video images

Non-Patent Citations (4)

* Cited by examiner, † Cited by third party
Title
DI ZHONG ET AL: "Structure analysis of sports video using domain models", IEEE, 22 August 2001 (2001-08-22), pages 920 - 923, XP010661937 *
HAO JIANG ET AL: "Video segmentation with the assistance of audio content analysis", MULTIMEDIA AND EXPO, 2000. ICME 2000. 2000 IEEE INTERNATIONAL CONFERENCE ON NEW YORK, NY, USA 30 JULY-2 AUG. 2000, PISCATAWAY, NJ, USA,IEEE, US, 30 July 2000 (2000-07-30), pages 1507 - 1510, XP010512791, ISBN: 0-7803-6536-4 *
STENGER B ET AL: "Topology free hidden Markov models: application to background modeling", IEEE, vol. 1, 7 July 2001 (2001-07-07), pages 294 - 301, XP010553996 *
SUDHIR G ET AL: "Automatic classification of tennis video for high-level content-based retrieval", CONTENT-BASED ACCESS OF IMAGE AND VIDEO DATABASE, 1998. PROCEEDINGS., 1998 IEEE INTERNATIONAL WORKSHOP ON BOMBAY, INDIA 3 JAN. 1998, LOS ALAMITOS, CA, USA,IEEE COMPUT. SOC, US, 1998, pages 81 - 90, XP010261522, ISBN: 0-8186-8329-5 *

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8634708B2 (en) 2006-12-21 2014-01-21 Thomson Licensing Method for creating a new summary of an audiovisual document that already includes a summary and reports and a receiver that can implement said method
US9400842B2 (en) 2009-12-28 2016-07-26 Thomson Licensing Method for selection of a document shot using graphic paths and receiver implementing the method

Also Published As

Publication number Publication date
AU2003285471A1 (en) 2004-05-25

Similar Documents

Publication Publication Date Title
Hanjalic Adaptive extraction of highlights from a sport video based on excitement modeling
EP1859614B1 (fr) Procede de selection de parties d&#39;une emission audiovisuelle et dispositif mettant en uvre le procede
Truong et al. Video abstraction: A systematic review and classification
Merler et al. Automatic curation of sports highlights using multimodal excitement features
US20120099793A1 (en) Video summarization using sparse basis function combination
WO2007120716A2 (fr) Procede et appareil permettant de resumer automatiquement une video
WO2000045603A1 (fr) Procede de traitement des signaux et dispositif de traitement de signaux video/vocaux
Kolekar et al. Semantic concept mining in cricket videos for automated highlight generation
EP2104937B1 (fr) Procede de creation d&#39;un nouveau sommaire d&#39;un document audiovisuel comportant deja un sommaire et des reportages et recepteur mettant en oeuvre le procede
Smeaton et al. Automatically selecting shots for action movie trailers
Chu et al. On broadcasted game video analysis: event detection, highlight detection, and highlight forecast
EP2524324B1 (fr) Procede de navigation parmi des identificateurs places dans des zones et recepteur mettant en oeuvre le procede
Ren et al. Football video segmentation based on video production strategy
Luo et al. Pyramidwise structuring for soccer highlight extraction
EP1556794A2 (fr) Procede de selection de germes pour le regroupement d&#39;images-cles
Chu et al. Explicit semantic events detection and development of realistic applications for broadcasting baseball videos
WO2004040471A1 (fr) Dispositif de structuration d’un document multimedia representant un evenement
Dange et al. Automatic video summarization for cricket match highlights using convolutional neural network
Jung et al. Player information extraction for semantic annotation in golf videos
Han A unified and efficient framework for court-net sports video analysis using 3D camera modeling
Choroś et al. Content-based scene detection and analysis method for automatic classification of TV sports news
Chen et al. Exciting event detection using multi-level multimodal descriptors and data classification
Lin et al. Sports video summarization with limited labeling datasets based on 3D neural networks
Benini et al. Statistical skimming of feature films
Rui et al. A unified framework for video summarization, browsing and retrieval

Legal Events

Date Code Title Description
AK Designated states

Kind code of ref document: A1

Designated state(s): AE AG AL AM AT AU AZ BA BB BG BR BY BZ CA CH CN CO CR CU CZ DE DK DM DZ EC EE ES FI GB GD GE GH GM HR HU ID IL IN IS JP KE KG KP KR KZ LC LK LR LS LT LU LV MA MD MG MK MN MW MX MZ NI NO NZ OM PG PH PL PT RO RU SC SD SE SG SK SL SY TJ TM TN TR TT TZ UA UG US UZ VC VN YU ZA ZM ZW

AL Designated countries for regional patents

Kind code of ref document: A1

Designated state(s): GH GM KE LS MW MZ SD SL SZ TZ UG ZM ZW AM AZ BY KG KZ MD RU TJ TM AT BE BG CH CY CZ DE DK EE ES FI FR GB GR HU IE IT LU MC NL PT RO SE SI SK TR BF BJ CF CG CI CM GA GN GQ GW ML MR NE SN TD TG

DFPE Request for preliminary examination filed prior to expiration of 19th month from priority date (pct application filed before 20040101)
121 Ep: the epo has been informed by wipo that ep was designated in this application
122 Ep: pct application non-entry in european phase
NENP Non-entry into the national phase

Ref country code: JP

WWW Wipo information: withdrawn in national office

Country of ref document: JP