WO2006129016A1 - Analyse et classification d'un flux multimedia en sequences homogenes - Google Patents

Analyse et classification d'un flux multimedia en sequences homogenes Download PDF

Info

Publication number
WO2006129016A1
WO2006129016A1 PCT/FR2006/001235 FR2006001235W WO2006129016A1 WO 2006129016 A1 WO2006129016 A1 WO 2006129016A1 FR 2006001235 W FR2006001235 W FR 2006001235W WO 2006129016 A1 WO2006129016 A1 WO 2006129016A1
Authority
WO
WIPO (PCT)
Prior art keywords
analysis method
metadata
stream
combination
classification
Prior art date
Application number
PCT/FR2006/001235
Other languages
English (en)
Inventor
Jérôme CHOURAQUI
Original Assignee
Nptv
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nptv filed Critical Nptv
Priority to EP06764707A priority Critical patent/EP1886238A1/fr
Publication of WO2006129016A1 publication Critical patent/WO2006129016A1/fr

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/70Information retrieval; Database structures therefor; File system structures therefor of video data
    • G06F16/73Querying
    • G06F16/738Presentation of query results
    • G06F16/739Presentation of query results in form of a video summary, e.g. the video summary being a video sequence, a composite still image or having synthesized frames

Definitions

  • the present invention relates to the field of signal processing.
  • the present invention more particularly relates to a method of analyzing a multimedia stream to provide information on it as a consumption aid or navigation in the stream.
  • US Pat. No. 6,278,446 discloses a system generating a hierarchical structure of a video and proposing navigation means in the structure.
  • the solution performs an analysis based on the detection of plans, among others by an analysis on color vectors.
  • This solution is specific to certain types of video programs, including television news and sports events. However, it does not make it possible to apprehend all types of programs and in particular provides structure of sequences very little representative in the case of video clips or advertisements, for example.
  • No. 6,697,564 discloses a system for browsing and editing a video based on an analysis of the audio to classify the determined sequences. Again, this solution has a limited approach since it does not take into account the images of the video.
  • the present invention intends to overcome the drawbacks of the prior art by proposing a method of analyzing a multimedia stream according to several approaches by using various filters and a classification of these sequences deduced from the analysis according to the most appropriate approach. performance.
  • the present invention aims to provide assistance to the user for the consumption or navigation in the multimedia stream.
  • the classification provided by the invention offers the user a new way of consuming content.
  • the invention also offers the following advantages:
  • the invention can provide video summaries or representative images to the electronic guides of the programs accessible on audiovisual terminals;
  • these same electronic program guides can be used by the system implementing the invention to optimize the choice of the filters to be applied to make the video summary (if the program is a television news or sports event, the filters to be applied to the multimedia feed will not be the same).
  • the invention relates in its most general sense to a method for analyzing a multimedia flow for the automatic calculation of its structure, comprising at least one step of producing metadata, characterized in that said production step consists of a treatment 35
  • each filter producing a metadata for each analyzed time sequence from said stream, the method then comprising a step of classifying the homogeneous sequences according to the result of a calculation on a combination of metadata corresponding to said sequences .
  • said combination can be determined by a parameterization, from a collection of families of combinations, by a constraint optimization calculation or automatically by means of an external system.
  • At least one family of combinations is established from the methods of producing an audiovisual program.
  • a descriptor is assigned to different combinations of metadata, said descriptor being selectable by a user via a graphical interface and passed as a parameter of the method.
  • said combination is a logical function determined by a parameterization.
  • learning is calculated by learning, said learning being able to consist of reverse engineering from a final classification of homogeneous sequence supplied to an expert system.
  • the method further comprises, and prior to said production step, a step of preprocessing said multimedia stream and a step of transmitting the processed stream to an item of equipment.
  • the method further comprises, prior to said classification step, a step of transmitting at least said metadata produced to a remote device.
  • said classification is a hierarchy of sequences, for example limited to two hierarchical levels.
  • said method further comprises a step of inserting said metadata produced in said multimedia stream to exploit these variables after transporting the stream containing them.
  • Figure 1 shows the different steps of an embodiment of the present invention
  • Figure 2 shows an architecture of a system for implementing the present invention.
  • Metadata means a set of information describing in an abstract and compact manner the element to which it is attached.
  • the metadata are also deterministic in that the same element (for example a multimedia sequence) in the same context provides the same metadata.
  • filter means a processing module of an incoming data stream providing, as output, metadata from decision criteria (rules). These decision criteria focus on the data flow and the context; for example, a filter analyzing a limited sequence of a movie may have decision criteria based on the sequence itself but also on the previous sequences (the context).
  • the incoming data of the filters may be video sequences ("sequence" in the order of sequential sequence in data time), sound, video combined with sound, metadata originating from a pre-processing of a multimedia stream, ...
  • homogeneous sequences means sequences that are associated substantially with the same metadata.
  • substantially specifies that sequences are considered homogeneous if their metadata are sufficiently close, for example their difference is less than a threshold: the homogeneous sequences are consistent with respect to the same criterion.
  • a multimedia stream 10 follows an organizational structure of more basic sequences. This structure reflects the artistic sense of the director and some constraints of editing. It is, indeed, quite clear that the realization of a feature film does not follow the same rules as those of a realization of a live sporting event.
  • An object of the present invention is to propose a representation in the form of metadata of such specificities of the stream and to render in the form of a classification this editing / production structure.
  • the media stream 10 includes video and audio.
  • the multimedia stream is modified.
  • This pretreatment step 12 may consist of a rate reduction, which is beneficial when the initial stream 10 requires too much bandwidth for its transmission during the process of the invention.
  • this pretreatment may make it possible to add complementary data to the stream that will be taken into account during the following steps or to substitute it with metadata associated with it.
  • This pretreatment 12 is performed by a machine type computer station or processing server 100 having sufficient processing capabilities for the image processing (processor, memory, adapted bus, ...), if possible in real time.
  • the stream 10 is uncompressed, the pretreatment consists in compressing the stream with the help of efficient servers in order to obtain a pre-processed stream 14 whose analysis can easily be deported to equipment with limited resources.
  • the preprocessing consists of a fingerprinting characterization of the multimedia stream.
  • This type of characterization is a compact representation, discriminating images and robust of the video sequence. It does not modify the stream and does not depend on the compression or modifications along the broadcast channel 130.
  • the multimedia stream 10 is pre-processed 12 in order to obtain for each data item of the sound stream "Fingerprint" to transmit only the flow of "fingerprints" instead of the original multimedia stream.
  • An example of a fingerprint in the case of a video, is obtained by comparing similar images within the stream. This comparison makes it possible to determine a representative image of the constituent planes or sequences of the flow. It is these representative images of the planes that are transmitted from the headend to the terminals that can display these images or the classification thereof as we will see later. ⁇
  • a set of filters 16 is then applied to the resulting stream 14, which produces metadata 18.
  • filters relating to the video component for example the analysis of change of plan and its frequency (for the advertising or the video clips, a plan is not preserved more than 2 seconds, unlike a film where these last more than 7 seconds), filter on the colors, brightness, recognition of banners, framing;
  • Audio component filters such as speaker voice signature, applause signature, noise / silence detection or speech / music detection, audio transition detection, spectral analysis, sound level analysis;
  • the choice of the filters to be applied is determined by the user by means of parameters entered in a graphic interface 120.
  • a graphic interface 120 When the user knows exactly which filter he wishes to apply to obtain an optimized classification of his media stream, it selects only this filter. In contrast, a lack of knowledge of the filters prompts to select all of them.
  • These filters perform unitarily and in parallel treatment on the stream 14.
  • several filters can be cascaded, in which case the output of a filter feeds a second filter.
  • the application of these filters 16 to stream 14 provides descriptive metadata 18 of this stream. For example, a filter using the audio stream of the multimedia stream can detect transitions between silence, speech and music.
  • the filter generates, at each change of sound context, a metadata indicating that a modification has taken place and the type of current sound context (silence, speech or music).
  • the filters 16 can be applied directly to the initial stream 10. This has the advantage of saving a processing step even if these treatments are surely more expensive in resources if the data 10 are bulky.
  • This step is performed on the processing server 100, the metadata can then be inserted into the broadcast video stream for exploitation to take place at another level of the broadcast chain 130, for example the injection of the metadata 18 into the broadcast streams. free fields of the MPEG standard.
  • each of the filters 16 is more or less relevant for the analysis of the flow 10. That is why, we generally use a combination 20 of several series of metadata (thus several combinations of filters) to try to characterize a mounting structure.
  • a combination of a filter analyzing plan changes with a second similarity filter will be used to find the point-by-point structure of the match.
  • points in tennis are always filmed according to a fixed plan. It is possible to detect each of the plans and then compare these plans to recognize the recurring plans.
  • the fixed course of the current course being the most common, it will be easy to use as point of reference point start and so to "chapter" a tennis match.
  • the user who knows the nature of the stream 10 to classify chooses the appropriate combination, that he can himself inform or select only if it has already been predefined in the system. For example, the user combines two or more metadata with a logical function.
  • the graphic interface 120 allows the user to specify the nature of the video stream analyzed and thus select the one or more filters adapted to this nature of video stream. In this case, the parameterization thus takes into account a hypothesis relating to the nature of the flow.
  • the combinations of one or more filters 16 have been previously marked with a specific descriptor characterizing the nature of the editing structure, for example "newscast”, “sporting event”, “feature film”, “advertisement”, etc.
  • the system can automatically consult a database making it possible to define the nature of the video stream before proceeding to the classification of sequences constituting it.
  • a database can be an electronic program guide (EPG that can be stored in the hard disk of the decoders that have it), a database accessible on the Internet or simply data integrated into an interactive application accessible from the terminal on which to perform the processing.
  • EPG electronic program guide
  • an expert may have defined and filled in the filter or group of filters suitable for characterizing a type of mounting structure.
  • the expert who knows the key elements in the production and / or editing of various types of multimedia streams, for example audiovisual programs (television news, advertising, film, variety show, sports event, etc.) ), determines beforehand the filter combination (s) that best characterize these various natures.
  • the system thus has families of combinations of different video embodiments. The user can choose between the different combinations available. Depending on the purpose of the video stream, the user can set certain constraints in the classification of homogeneous sequences, ie, for example, want a classification of a video stream of one hour in ten consecutive sequences of duration between 4 and 10 minutes.
  • the system chooses the combination according to the state variables obtained by the filters so as to respect the predefined constraints.
  • the system has an expert system capable of learning combination.
  • the principle is as follows: Segmentation and sequence classification is done manually by an expert.
  • the expert system takes as input the classification established "by hand" and the full video stream.
  • the expert system determines the possible combinations of the filters it has which allow it to obtain an identical or similar classification: it is reverse engineering or reverse engineering. Learning from a large number of video streams and manual classifications allows the system to have a large number of "learned" combinations that are very representative of the "logic" of editing.
  • CLASSIFICATION *** CLASSIFICATION *** The application of a particular combination of metadata (and therefore of filters) makes it possible to obtain a classification 22 of the multimedia stream in homogeneous sequences on one or more levels of hierarchy, for example a table subjects, an index, a video summary, a speaker search during a debate / interview.
  • One of the constraints of the system is to obtain a classification which respects the initial chronology of the video stream so that the homogeneous sequences follow each other in the "logical order". This classification operation is not too expensive in terms of resources and can therefore be performed on the "light" terminal just as much as the metadata 18 produced are not too bulky.
  • the system is used to propose a classification 22 of the multimedia stream 10 without having any prior knowledge of the nature of the latter.
  • each of the classifications that results is associated with a score 24.
  • the score 24 of each classification can be determined according to the ability to provide a classification close to one. standard classification described for example by: a minimum and maximum number of chapters at the first level of the hierarchy, a number of minimum and maximum hierarchical levels, etc.
  • the combination having given the best score is then considered as the most relevant and the nature of the multimedia stream 10 is thus raised to the user using the descriptor of the combination elected.
  • the production of the metadata 18 is carried out on the processing server 100.
  • the metadata flow generally of relatively low bit rate, is then transmitted to the personal terminal 110 via the network 130, the terminal on which the operation of classification.
  • the metadata 18 can be combined with the stream 10 before being transmitted on the broadcast network 130. This metadata can then be exploited to facilitate navigation within the multimedia stream, for example as chapters of indexing type or as search engine on key elements.
  • the metadata from a first treatment can be subject to the same or a new set of filters.

Landscapes

  • Engineering & Computer Science (AREA)
  • Multimedia (AREA)
  • Theoretical Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Television Signal Processing For Recording (AREA)
  • Two-Way Televisions, Distribution Of Moving Picture Or The Like (AREA)

Abstract

La présente invention se rapporte au domaine du traitement du signal. La présente invention concerne plus particulièrement un procédé d'analyse d'un flux multimédia (10) pour le calcul automatique de sa structure, comportant au moins une étape de production de métadonnées (18) consistant en un traitement dudit flux par une pluralité de filtres (16), chacun des filtres produisant une métadonnée (18) pour chaque séquence temporelle analysée issue dudit flux (10), le procédé comportant ensuite une étape de classification (22) des séquences homogènes en fonction du résultat d'un calcul sur une combinaison (20) de métadonnées correspondant auxdites séquences.

Description

ANALYSE ET CLASSIFICATION D'UN FLUX MULTIMÉDIA EN SÉQUENCES HOMOGÈNES
La présente invention se rapporte au domaine du traitement du signal.
La présente invention concerne plus particulièrement un procédé d'analyse d'un flux multimédia visant à fournir des informations sur celui-ci comme aide à la consommation ou navigation dans le flux.
Dans la pratique, on connaît l'utilisation du chapitrage des DVD. Celui-ci reflète la structure de montage et/ou le mode de réalisation du film. Cette classification sous forme de chapitres respecte la chronologie des séquences ce qui permet de naviguer aisément à travers le film ou les bonus. Généralement elle est réalisée manuellement, soit déduite du script de réalisation, soit lors du montage. Quelques solutions d'automatisation existent déjà.
On connaît notamment, par le brevet US 6 278 446, un système générant une structure hiérarchique d'une vidéo et proposant des moyens de navigation dans la structure. La solution réalise une analyse basée sur la détection de plans, entre autres par une analyse sur des vecteurs couleurs. Cette solution est spécifique à certains types de programmes vidéo, notamment les journaux télévisés et les événements sportifs. Cependant, elle ne permet pas d'appréhender tout type de programmes et fournit notamment des structures de séquences très peu représentatives dans le cas de clips vidéos ou de publicités, par exemple. On connaît également, par le brevet US 6 697 564, un système pour la navigation et l'édition d'une vidéo se basant sur une analyse de l'audio pour classifier les séquences déterminées. Encore une fois, cette solution a une approche limitée puisqu'elle ne tient pas compte des images de la vidéo.
Ces diverses solutions de l'art antérieur présentent plusieurs désavantages : • elles sont basées sur l'analyse soit des images soit de l'audio,
• elles ne proposent pas une pluralité d'analyses qui peuvent être comparées pour réaliser la meilleure classification possible, • enfin, elles ne sont efficaces que pour certains modes de réalisation de vidéo et fournissent des classifications peu représentatives pour d'autres.
La présente invention entend remédier aux inconvénients de l'art antérieur en proposant un procédé d'analyse d'un flux multimédia selon plusieurs approches en utilisant divers filtres et une classification de ces séquences déduites de l'analyse en fonction de l'approche la plus performante. La présente invention vise à fournir une aide à l'utilisateur pour la consommation ou la navigation dans le flux multimédia. La classification fournie par l'invention offre à l'utilisateur une nouvelle façon de consommer les contenus . L'invention offre également les avantages suivants :
• fournir une classification acceptable quelle que soit la structure de montage et de réalisation de la vidéo ; • prendre en compte, de façon non limitative, plusieurs critères audio et/ou visuels (image) pour l ' analyse .
L'invention présente plusieurs domaines d'application propices parmi lesquels on peut citer :
• la création automatique de résumés vidéo puisque la classification permet d'identifier les séquences clés de la vidéo . • la navigation dans un flux multimédia utilisant la classification comme sommaire vidéo.
• le classement de contenus en fonction de leur structure de montage et de réalisation (films, journaux télévisuels, publicités, ...) .
De plus, l'invention s 'interface aisément avec des systèmes externes :
• pour les enrichir : par exemple, l'invention peut fournir des résumés vidéo ou des images représentatives aux guides électroniques des programmes accessibles sur les terminaux audiovisuels ;
• pour s'appuyer sur eux : par exemple, ces mêmes guides électroniques des programmes peuvent être utilisés par le système mettant en œuvre l'invention pour optimiser au mieux le choix des filtres à appliquer pour réaliser le résumé vidéo (si l'émission est un journal télévisé ou un événement sportif, les filtres à appliquer sur le flux multimédia ne seront pas les mêmes).
À cet effet, l'invention concerne dans son acception la plus générale un Procédé d'analyse d'un flux multimédia pour le calcul automatique de sa structure, comportant au moins une étape de production de métadonnées, caractérisé en ce que ladite étape de production consiste en un traitement 35
dudit flux par une pluralité de filtres, chacun des filtres produisant une métadonnée pour chaque séquence temporelle analysée issue dudit flux, le procédé comportant ensuite une étape de classification des séquences homogènes en fonction du résultat d'un calcul sur une combinaison de métadonnées correspondant auxdites séquences.
Selon le mode de réalisation, ladite combinaison peut être déterminée par un paramétrage, à partir d'une collection de familles de combinaisons, par un calcul d'optimisation de contraintes ou automatiquement à l'aide d'un système externe.
Dans un mode de réalisation, au moins une famille de combinaisons est établie à partir des méthodes de réalisation d'un programme audiovisuel.
Éventuellement, un descripteur est affecté à différentes combinaisons de métadonnées, ledit descripteur pouvant être sélectionné par un utilisateur via une interface graphique et passé comme paramètre du procédé. Dans un mode de réalisation, ladite combinaison est une fonction logique déterminée par un paramétrage.
Dans une variante, elle est calculée par apprentissage, ledit apprentissage pouvant consister en une ingénierie inverse à partir d'une classification finale de séquence homogène fournie à un système expert.
Dans un mode de réalisation particulier, le procédé comprend, en outre et préalablement à ladite étape de production, une étape de prétraitement dudit flux multimédia et une étape de transmission du flux traité à un équipement.
Dans une variante, le procédé comprend, en outre et préalablement à ladite étape de classification, une étape de transmission d'au moins lesdites métadonnées produites à un équipement distant. Spécifiquement, ladite classification est une hiérarchisation des séquences, par exemple limitée à deux niveaux hiérarchiques .
Dans un mode de réalisation, ledit procédé comprend, en outre, une étape d'insertion desdites métadonnées produites dans ledit flux multimédia pour faire une exploitation de ces variables après transport du flux les contenant.
On comprendra mieux l'invention à l'aide de la description, faite ci-après à titre purement explicatif, d'un mode de réalisation de l'invention, en référence aux figures annexées dans lesquelles une même référence se rapporte au même élément ou élément similaire :
- la figure 1 représente les différentes étapes d'un mode de réalisation de la présente invention ; et la figure 2 représente une architecture d'un système pour la mise en œuvre de la présente invention.
Dans le cadre de la présente invention, on entend par « métadonnée » un ensemble d'informations décrivant de façon abstraite et compacte l'élément auquel il est rattaché. Les métadonnées sont également déterministes en ce qu'un même élément (par exemple une séquence multimédia) dans un même contexte fournit une même métadonnée.
Également, on entend par « filtre » un module de traitement d'un flux de données entrantes fournissant, en sortie, des métadonnées à partir de critères de décision (règles). Ces critères de décision portent essentiellement sur le flux de données et sur le contexte ; par exemple, un filtre analysant une séquence limitée d'un film peut posséder des critères de décision basés sur la séquence elle-même mais également sur les séquences précédentes (le contexte ) .
Dans le cadre de l'invention, les données entrantes des filtres peuvent être des séquences vidéo ( « séquence » au sens de suite ordonnée dans le temps de données), du son, de la vidéo combinée avec du son, des métadonnées issues d'un traitement préalable d'un flux multimédia, ...
De même, on entend par « séquences homogènes » les séquences qui sont associées sensiblement à la même métadonnées. Le terme « sensiblement » spécifie que des séquences sont considérées comme homogènes si leurs métadonnées sont suffisamment proches, par exemple leur différence est inférieure à un seuil : les séquences homogènes sont cohérentes par rapport à un même critère.
Un flux multimédia 10 suit une structure organisationnelle de séquences plus élémentaires. Cette structure reflète le sens artistique du réalisateur et certaines contraintes du montage. Il est, en effet, assez clair que la réalisation d'un long métrage ne suit pas les mêmes règles que celles d'une réalisation d'un événement sportif en direct. Un objet de la présente invention est de proposer une représentation sous forme de métadonnées de telles spécificités du flux et de restituer sous forme d'une classification cette structure de montage/réalisation.
*** PRETRAITEMENT ***
En référence à la figure 1, le flux multimédia 10 inclut de la vidéo et de l'audio. Lors d'un prétraitement 12, le flux multimédia est modifié.
Cette étape de prétraitement 12 peut consister en une réduction de débit, ce qui est bénéfique lorsque le flux initial 10 nécessite une trop grande bande passante pour sa transmission lors du processus de l'invention. Éventuellement, ce prétraitement peut permettre d'ajouter au flux des données complémentaires qui seront prises en compte lors des étapes suivantes ou bien de le substituer par des métadonnées qui lui sont associées. Ce prétraitement 12 est réalisé par une machine de type poste informatique ou serveur de traitement 100 possédant des capacités de traitements suffisantes pour le traitement de l'image (processeur, mémoires, bus adapté, ...), si possible en temps réel. Dans un exemple pratique, le flux 10 est non compressé, le prétraitement consiste à compressé le flux à l'aide de serveurs performants en vue d'obtenir un flux prétraité 14 dont l'analyse pourra facilement être déportée sur des équipements aux ressources limitées.
Dans un mode de réalisation, le prétraitement consiste en une caractérisation de type empreinte (fingerprinting) du flux multimédia. Ce type de caractérisation est une représentation compacte, discriminante des images et robuste de la séquence vidéo. Elle ne modifie pas le flux et ne dépend pas de la compression ou des modifications le long de la chaîne de diffusion 130. Par exemple, en tête de réseau, le flux multimédia 10 est prétraité 12 afin d'obtenir pour chaque donnée du flux son « fingerprint » afin de ne transmettre que le flux de « fingerprints » en lieu et place du flux multimédia original. Un exemple de fingerprint, dans le cas d'une vidéo, est obtenu par comparaison d'images similaires à l'intérieur du flux. Cette comparaison permet de déterminer une image représentative des plans ou séquences constitutives du flux. Ce sont ces images représentatives des plans qui sont transmises depuis la tête de réseau vers les terminaux qui peuvent procéder à l'affichage de ces images ou à la classification de celle-ci comme nous le verrons par la suite. δ
** * FILTRES ***
On applique ensuite, un ensemble de filtres 16 au flux obtenu 14, ce qui produit des métadonnées 18. Un certain nombre de filtres sont déjà connus de l'état de l'art : • filtres portant sur la composante vidéo, par exemple l'analyse de changement de plan et de sa fréquence (pour la publicité ou les clips vidéo, un plan n'est pas conservé plus de 2 secondes, contrairement à un film où ceux-ci perdurent au-delà de 7 secondes), filtre sur les couleurs, la luminosité, la reconnaissance de bandeaux, de cadrage ;
• filtres portant sur la composante audio, par exemple la signature vocale du locuteur, la signature d'applaudissements, la détection bruit/silence ou bien parole/musique, la détection de transition audio, analyse spectrale, analyse des niveaux sonores ;
• filtres locaux, c'est-à-dire appliqués image par image, par exemple l'analyse des caractéristiques (couleurs, contours, ...) d'une image ;
• filtres globaux, soit sur un ensemble d'images constituant une séquence, soit sur la totalité du flux, par exemple, la détection de changement de plans ou de transitions sonores.
Tous ces filtres de l'art antérieur et non exclusivement peuvent être mis en œuvre dans le cadre de la présente invention.
Dans un mode de réalisation, le choix des filtres à appliquer est déterminé par l'utilisateur au moyen de paramètres saisis dans une interface graphique 120. Ainsi, lors que l'utilisateur connaît pertinemment quel filtre il désire appliquer pour obtenir une classification optimisée de son flux multimédia, il sélectionne uniquement ce filtre. À l'opposé, une non-connaissance des filtres incite à sélectionner l'ensemble de ceux-ci. Ces filtres réalisent unitairement et en parallèle un traitement sur le flux 14. Éventuellement, plusieurs filtres peuvent être mis en cascade, auquel cas la sortie d'un filtre alimente un second filtre. L'application de ces filtres 16 au flux 14 fournit des metadonnées 18 descriptives de ce flux. À titre d'exemple, un filtre utilisant le flux sonore du flux multimédia peut détecter les transitions entre silence, parole et musique. Le filtre génère à chaque changement de contexte sonore une métadonnée indiquant qu'une modification a eu lieu et le type de contexte sonore courant (silence, parole ou musique).
Dans une alternative de réalisation, les filtres 16 peuvent être appliqués directement sur le flux initial 10. Ceci a pour avantage d'économiser une étape de traitements même si ces traitements sont sûrement plus coûteux en ressources si les données 10 sont volumineuses. Cette étape est réalisée sur le serveur de traitement 100, les métadonnées pouvant ensuite être insérées dans le flux vidéo diffusé pour qu'une exploitation ait lieu à un autre niveau de la chaîne de diffusion 130, par exemple l'injection des métadonnées 18 dans les champs libres de la norme MPEG.
*** COMBINAISON - GRAMMAIRE *** Selon les structures de montage et/ou de réalisation audiovisuelle, chacun des filtres 16 est plus ou moins pertinent pour l'analyse du flux 10. C'est pourquoi, on a généralement recours à une combinaison 20 de plusieurs séries de métadonnées (donc plusieurs combinaisons de filtres) pour essayer de caractériser une structure de montage .
Une approche rapide permet d'établir qu'utiliser un filtre de détection de changements de plans semble adapté à la structure de montage des journaux télévisés, comme cela est précisé dans le document US 6 278 446 précité. Cependant, lors de certains journaux ou interviews, il peut y avoir un changement de plan alors même que le locuteur reste le même. Le changement est alors interprété comme étant le début d'une nouvelle séquence de la vidéo et la structure de montage de la vidéo peut s'en trouver quelque peu altérée. Dans ce cas, la présence d'un filtre de détection de changement de locuteur associé au filtre de détection de changement de plans permet d'affiner le découpage du journal télévisé.
À titre d'exemple, pour un événement de type match de tennis, on utilisera une combinaison d'un filtre analysant les changements de plans avec un second filtre de similarité pour retrouver la structure du match point par point. En effet, les points au tennis sont toujours filmés selon un plan fixe. Il est possible de détecter chacun des plans et ensuite de comparer ces plans afin de reconnaître les plans récurrents. Le plan fixe de fond de cours, en cours de point, étant le plus fréquent, il sera facile de l'utiliser comme point de repère de début de point et ainsi de « chapitrer » un match de tennis.
L'utilisateur qui connaît la nature du flux 10 à classifier choisit la combinaison appropriée, qu'il peut lui-même renseigner ou uniquement sélectionner si celle-ci a déjà été prédéfinie dans le système. Par exemple, l'utilisateur combine deux ou plus métadonnées par une fonction logique. L'interface graphique 120 permet à l'utilisateur de préciser la nature du flux vidéo analysé et ainsi de sélectionner le ou plusieurs filtres adaptés à cette nature de flux vidéo. Dans ce cas, le paramétrage prend donc en compte une hypothèse portant sur la nature du flux. Idéalement, les combinaisons de un ou plusieurs filtres 16 ont été, au préalable, marquées avec un descripteur spécifique caractérisant la nature de la structure de montage, par exemple « journal télévisé », « événement sportif » , « long métrage » , « publicité » , ... Ces descripteurs permettent notamment à l'utilisateur de sélectionner aisément par l'interface graphique 120 la combinaison de filtres appropriée (voir précédemment dans la description). Par exemple, dans le cas d'une vidéo du type pause publicitaire, deux filtres, l'un basé sur la fréquence de changement de plan et l'autre basé sur les transitions audio, peuvent être combinés selon une logique ET pour établir une classification.
Dans une variante, le système peut consulter automatiquement une base de données permettant de définir la nature du flux vidéo avant de procéder à la classification de séquences le constituant. Une telle base de données peut être un guide électronique des programmes (EPG qui peut être mémorisé dans le disque dur des décodeurs qui en sont munis), une base de données accessibles sur Internet ou tout simplement des données intégrées dans une application interactive accessible depuis le terminal sur lequel est effectuer le traitement.
Éventuellement, au préalable, un expert pourra avoir défini et renseigné le filtre ou groupement de filtres adaptés à la caractérisation d'une nature de structure de montage. Dans la pratique, l'expert qui connaît les éléments clés dans la réalisation et/ou le montage de plusieurs nature de flux multimédia, par exemple des programmes audiovisuels (journal télévisé, publicité, film, émission de variété, événement sportif, ...), détermine au préalable la/les combinaisons de filtres qui caractérisent le mieux ces diverses natures. Le système possède ainsi des familles de combinaisons de différents modes de réalisation vidéo. L'utilisateur peut ainsi choisir entre les différentes combinaisons disponibles. Selon la finalité du flux vidéo, l'utilisateur peut fixer certaines contraintes dans la classification des séquences homogènes, à savoir, par exemple, désirer une classification d'un flux vidéo d'une heure en dix séquences consécutives de durée comprise entre 4 et 10 minutes. Le système choisit la combinaison en fonction des variables d'état obtenues par les filtres de manière à respecter les contraintes prédéfinies.
Dans un mode de réalisation particulier, le système dispose d'un système expert apte à l'apprentissage de combinaison. Le principe est le suivant : une segmentation et une classification des séquences est réalisée de façon manuelle par un expert. Le système expert prend en entrées la classification établie « à la main » et le flux vidéo intégral. Le système expert détermine ensuite les combinaisons possibles des filtres dont il dispose qui lui permettent d'obtenir une classification identique ou approchante : c'est l'ingénierie inverse ou reverse engineering. L'apprentissage à partir d'un grand nombre de flux vidéo et de classifications manuelles permet au système de disposer d'un grand nombre de combinaisons « apprises » très représentatives de la « logique » de montage.
*** CLASSIFICATION *** L'application d'une combinaison particulière de métadonnées (et donc de filtres) permet l'obtention d'une classification 22 du flux multimédia en séquences homogènes sur un ou plusieurs niveaux de hiérarchisation, par exemple une table des matières, un index, un résumé vidéo, une recherche de locuteur lors d'un débat/interview. Une des contraintes du système est d'obtenir une classification qui respecte la chronologie initiale du flux vidéo afin que les séquences homogènes se suivent dans l'« ordre logique ». Cette opération de classification n'est pas trop coûteuse en ressources et peut donc être réalisée sur le terminal « léger » tout autant que les métadonnées 18 produites ne sont pas trop volumineuses.
*** SCORES ***
Dans la configuration où l'utilisateur ne précise pas de paramètre, le système est utilisé pour proposer une classification 22 du flux multimédia 10 sans avoir aucune connaissance a priori de la nature de celui-ci. Un ensemble de combinaisons auxquelles sont associés des descripteurs
(voir précédemment dans la description), est donc appliqué au flux 10 et à chacune des classifications qui en résulte est associé un score 24. Le score 24 de chaque classification peut être déterminé en fonction de la capacité à fournir une classification proche d'une classification type décrite par exemple par : un nombre minimum et maximum de chapitres au premier niveau de la hiérarchie, un nombre de niveaux hiérarchiques minimum et maximum, etc.
La combinaison ayant donné le meilleur score est alors considérée comme la plus pertinente et la nature du flux multimédia 10 est ainsi remontée à l'utilisateur à l'aide du descripteur de la combinaison élue.
*** Traitement déporté ***
Avec le développement des terminaux personnels dont les ressources en traitement peuvent être nettement inférieures à celles d'un serveur de traitement dédié, il est envisagé de réaliser l'étape de prétraitement 12 sur le serveur de traitement 100 puis de transmettre le flux traité 14, idéalement de débit nettement inférieur, au terminal personnel 110 de l'utilisateur. La production des métadonnées et la classification sont alors réalisées sur l'équipement personnel 110. Des exemples de terminaux « légers » 110 sont les téléphones portables, les assistants personnels (PDA) et les décodeurs.
Selon une variante, la production des métadonnées 18 est réalisée sur le serveur de traitement 100. Le flux de métadonnées, généralement de débit relativement faible, est ensuite transmis au terminal personnel 110 par le réseau 130, terminal sur lequel est réalisée l'opération de classification. Cette solution est séduisante en ce qu'elle offre à l'utilisateur une grande liberté de personnalisation. En effet, les familles de combinaisons de filtres peuvent avoir été paramétrées par l'utilisateur ou en fonction de ses goûts.
Éventuellement, les métadonnées 18 peuvent être combinées au flux 10 avant d'être transmises sur le réseau de diffusion 130. Ces métadonnées peuvent ensuite être exploitées pour faciliter la navigation à l'intérieur du flux multimédia, par exemple comme indexation de type chapitrage ou comme moteur de recherche sur des éléments clés.
*** Récursivité ***
II apparaît clairement que l'invention peut être appliquée de façon récursive, les métadonnées issues d'un premier traitement pouvant être soumise au même ou à un nouveau jeu de filtres.

Claims

REVENDICATIONS
1. Procédé d'analyse d'un flux multimédia (10) pour le calcul automatique de sa structure de montage ou de réalisation, comportant au moins une étape de production de métadonnées (18), caractérisé en ce que ladite étape de production consiste en un traitement dudit flux par une pluralité de filtres (16), chacun des filtres produisant une métadonnée (18) pour chaque séquence temporelle analysée issue dudit flux (10), le procédé comportant ensuite une étape de classification (22) des séquences homogènes en fonction du résultat d'un calcul sur une combinaison (20) de métadonnées correspondant auxdites séquences .
2. Procédé d'analyse selon la revendication 1, caractérisé en ce que ladite combinaison (20) est déterminée par un paramétrage.
3. Procédé d'analyse selon la revendication 1, caractérisé en ce que ladite combinaison (20) est déterminée à partir d'une collection de familles de combinaisons.
4. Procédé d'analyse selon la revendication précédente, caractérisé en ce qu'au moins une famille de combinaisons est établie à partir des méthodes de réalisation d'un programme audiovisuel.
5. Procédé d'analyse selon la revendication 1, caractérisé en ce qu'un descripteur est affecté à différentes combinaisons de métadonnées (18), ledit descripteur pouvant être sélectionné par un utilisateur via une interface graphique (120) et passé comme paramètre du procédé.
6. Procédé d'analyse selon la revendication 1, caractérisé en ce que ladite combinaison (20) est déterminée par un calcul d'optimisation de contraintes.
7. Procédé d'analyse selon la revendication I1 caractérisé en ce que ladite combinaison (20) est déterminée automatiquement à l'aide d'un système externe.
8. Procédé d'analyse selon la revendication 1, caractérisé en ce que ladite combinaison (20) est une fonction logique déterminée par un paramétrage.
9. Procédé d'analyse selon la revendication 1, caractérisé en ce que ladite combinaison (20) est calculée par apprentissage.
10. Procédé d'analyse selon la revendication précédente, caractérisé en ce que ledit apprentissage consiste en une ingénierie inverse à partir d'une classification finale (22) de séquence homogène fournie à un système expert.
11. Procédé d'analyse selon la revendication 1, caractérisé en ce qu'il comprend, en outre et préalablement à ladite étape de production, une étape de prétraitement (12) dudit flux multimédia (10) et une étape de transmission du flux traité (14) à un équipement (110).
12. Procédé d'analyse selon la revendication 1, caractérisé en ce qu'il comprend, en outre et préalablement à ladite étape de classification (22), une étape de transmission d'au moins lesdites métadonnées (18) produites à un équipement distant (110).
13. Procédé d'analyse selon la revendication I1 caractérisé en ce que ladite classification (22) est une hiérarchisation des séquences.
14. Procédé d'analyse selon la revendication 1, caractérisé en ce qu'il comprend, en outre, une étape d'insertion desdites métadonnées produites dans ledit flux multimédia.
PCT/FR2006/001235 2005-05-31 2006-05-31 Analyse et classification d'un flux multimedia en sequences homogenes WO2006129016A1 (fr)

Priority Applications (1)

Application Number Priority Date Filing Date Title
EP06764707A EP1886238A1 (fr) 2005-05-31 2006-05-31 Analyse et classification d'un flux multimedia en sequences homogenes

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
FR0551432 2005-05-31
FR0551432A FR2886431B1 (fr) 2005-05-31 2005-05-31 Analyse et classificaton d'un flux multimedia en sequences homogenes

Publications (1)

Publication Number Publication Date
WO2006129016A1 true WO2006129016A1 (fr) 2006-12-07

Family

ID=34981122

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/FR2006/001235 WO2006129016A1 (fr) 2005-05-31 2006-05-31 Analyse et classification d'un flux multimedia en sequences homogenes

Country Status (3)

Country Link
EP (1) EP1886238A1 (fr)
FR (1) FR2886431B1 (fr)
WO (1) WO2006129016A1 (fr)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111291235A (zh) * 2020-05-13 2020-06-16 成都四方伟业软件股份有限公司 一种基于时序数据库的元数据存储方法及装置

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP0938054A2 (fr) * 1998-02-23 1999-08-25 Siemens Corporate Research, Inc. Système pour l'organisation interactive et la consultation rapide de données vidéo
US6697564B1 (en) * 2000-03-03 2004-02-24 Siemens Corporate Research, Inc. Method and system for video browsing and editing by employing audio

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP0938054A2 (fr) * 1998-02-23 1999-08-25 Siemens Corporate Research, Inc. Système pour l'organisation interactive et la consultation rapide de données vidéo
US6697564B1 (en) * 2000-03-03 2004-02-24 Siemens Corporate Research, Inc. Method and system for video browsing and editing by employing audio

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
FAN J., ELMAGARMID A. K.: "ClassView: Hierarchical Video Shot Classification, Indexing and Accessing", IEEE TRANSACTIONS ON MULTIMEDIA, vol. 6, no. 1, February 2004 (2004-02-01), pages 70 - 86, XP002347542 *
WAGNER N R: "FINGERPRINTING", PROCEEDINGS IEEE SYMPOSIUM ON SECURITY AND PRIVACY, 1984, pages 18 - 22, XP001117976 *

Also Published As

Publication number Publication date
FR2886431B1 (fr) 2009-06-12
EP1886238A1 (fr) 2008-02-13
FR2886431A1 (fr) 2006-12-01

Similar Documents

Publication Publication Date Title
US7143353B2 (en) Streaming video bookmarks
CN101395607B (zh) 用于自动生成多个图像的概要的方法和设备
CA2924065C (fr) Segmentation de contenu video basee sur un contenu
EP2403239B1 (fr) Procédé d'affichage de contenus audiovisuels adaptés et serveur correspondant
WO2010070142A2 (fr) Procede et systeme pour la fusion de donnees ou d'information
JP2005509229A (ja) 情報アラートのための方法及びシステム
FR2822261A1 (fr) Procede de navigation par calcul de groupes, recepteur mettant en oeuvre le procede, et interface graphique pour la presentation du procede
EP3506829A1 (fr) Prédiction de l'attention d'un auditoire lors d'une présentation
EP2104937B1 (fr) Procede de creation d'un nouveau sommaire d'un document audiovisuel comportant deja un sommaire et des reportages et recepteur mettant en oeuvre le procede
RU2413990C2 (ru) Способ и устройство для обнаружения границ элемента контента
EP3556102B1 (fr) Procede d'enregistrement d'un programme telediffuse a venir
WO2006129016A1 (fr) Analyse et classification d'un flux multimedia en sequences homogenes
FR3127664A1 (fr) Procédé de génération d’une chaîne de télévision personnalisée pour un utilisateur d’au moins un service de diffusion de contenus audiovisuels, procédé de traitement d’une demande d’accès à la chaîne personnalisée, dispositifs, équipement de service, terminal utilisateur, système et programmes d’ordinateur correspondants.
Glasberg et al. Cartoon-recognition using video & audio descriptors
El-Khoury et al. Unsupervised segmentation methods of TV contents
FR3083415A1 (fr) Traitement d'un bruit impulsionnel dans une sequence video
WO2010097540A1 (fr) Traitement d'un flux de données numériques
Barbieri Automatic summarization of narrative video
El-Khoury et al. Unsupervised TV program boundaries detection based on audiovisual features
FR3105689A1 (fr) Analyse d’un contenu multimédia
FR3137475A1 (fr) Procédé et dispositif d’estimation de l’authenticité d’un contenu audio ou vidéo et programme d’ordinateur associé
EP1383336A2 (fr) Procédé de décompression et de restitution d'un flux de données multimédia numériques compressées comprenant une pluralité d'entités encodées. Dispositif, système et signal correspondants
EP4250718A1 (fr) PROCEDE ET DISPOSITIF DE MODIFICATION D'UN CONTENU MULTIMEDIA EN FONCTION DE 
L'ATTENTION D'UN UTILISATEUR
Joyce Content-based temporal processing of video
FR2789196A1 (fr) Procede de generation de descriptions de documents multimedia

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application
WWE Wipo information: entry into national phase

Ref document number: 2006764707

Country of ref document: EP

NENP Non-entry into the national phase

Ref country code: DE

WWW Wipo information: withdrawn in national office

Country of ref document: DE

NENP Non-entry into the national phase

Ref country code: RU

WWW Wipo information: withdrawn in national office

Country of ref document: RU

WWP Wipo information: published in national office

Ref document number: 2006764707

Country of ref document: EP