WO2006129016A1

WO2006129016A1 - Analyse et classification d'un flux multimedia en sequences homogenes

Info

Publication number: WO2006129016A1
Application number: PCT/FR2006/001235
Authority: WO
Inventors: Jérôme CHOURAQUI
Original assignee: Nptv
Priority date: 2005-05-31
Filing date: 2006-05-31
Publication date: 2006-12-07
Also published as: FR2886431B1; EP1886238A1; FR2886431A1

Abstract

La présente invention se rapporte au domaine du traitement du signal. La présente invention concerne plus particulièrement un procédé d'analyse d'un flux multimédia (10) pour le calcul automatique de sa structure, comportant au moins une étape de production de métadonnées (18) consistant en un traitement dudit flux par une pluralité de filtres (16), chacun des filtres produisant une métadonnée (18) pour chaque séquence temporelle analysée issue dudit flux (10), le procédé comportant ensuite une étape de classification (22) des séquences homogènes en fonction du résultat d'un calcul sur une combinaison (20) de métadonnées correspondant auxdites séquences.

Description

ANALYSE ET CLASSIFICATION D'UN FLUX MULTIMÉDIA EN SÉQUENCES HOMOGÈNES

La présente invention se rapporte au domaine du traitement du signal.

La présente invention concerne plus particulièrement un procédé d'analyse d'un flux multimédia visant à fournir des informations sur celui-ci comme aide à la consommation ou navigation dans le flux.

Dans la pratique, on connaît l'utilisation du chapitrage des DVD. Celui-ci reflète la structure de montage et/ou le mode de réalisation du film. Cette classification sous forme de chapitres respecte la chronologie des séquences ce qui permet de naviguer aisément à travers le film ou les bonus. Généralement elle est réalisée manuellement, soit déduite du script de réalisation, soit lors du montage. Quelques solutions d'automatisation existent déjà.

On connaît notamment, par le brevet US 6 278 446, un système générant une structure hiérarchique d'une vidéo et proposant des moyens de navigation dans la structure. La solution réalise une analyse basée sur la détection de plans, entre autres par une analyse sur des vecteurs couleurs. Cette solution est spécifique à certains types de programmes vidéo, notamment les journaux télévisés et les événements sportifs. Cependant, elle ne permet pas d'appréhender tout type de programmes et fournit notamment des structures de séquences très peu représentatives dans le cas de clips vidéos ou de publicités, par exemple. On connaît également, par le brevet US 6 697 564, un système pour la navigation et l'édition d'une vidéo se basant sur une analyse de l'audio pour classifier les séquences déterminées. Encore une fois, cette solution a une approche limitée puisqu'elle ne tient pas compte des images de la vidéo.

Ces diverses solutions de l'art antérieur présentent plusieurs désavantages : • elles sont basées sur l'analyse soit des images soit de l'audio,

• elles ne proposent pas une pluralité d'analyses qui peuvent être comparées pour réaliser la meilleure classification possible, • enfin, elles ne sont efficaces que pour certains modes de réalisation de vidéo et fournissent des classifications peu représentatives pour d'autres.

La présente invention entend remédier aux inconvénients de l'art antérieur en proposant un procédé d'analyse d'un flux multimédia selon plusieurs approches en utilisant divers filtres et une classification de ces séquences déduites de l'analyse en fonction de l'approche la plus performante. La présente invention vise à fournir une aide à l'utilisateur pour la consommation ou la navigation dans le flux multimédia. La classification fournie par l'invention offre à l'utilisateur une nouvelle façon de consommer les contenus . L'invention offre également les avantages suivants :

• fournir une classification acceptable quelle que soit la structure de montage et de réalisation de la vidéo ; • prendre en compte, de façon non limitative, plusieurs critères audio et/ou visuels (image) pour l ' analyse .

L'invention présente plusieurs domaines d'application propices parmi lesquels on peut citer :

• la création automatique de résumés vidéo puisque la classification permet d'identifier les séquences clés de la vidéo . • la navigation dans un flux multimédia utilisant la classification comme sommaire vidéo.

• le classement de contenus en fonction de leur structure de montage et de réalisation (films, journaux télévisuels, publicités, ...) .

De plus, l'invention s 'interface aisément avec des systèmes externes :

• pour les enrichir : par exemple, l'invention peut fournir des résumés vidéo ou des images représentatives aux guides électroniques des programmes accessibles sur les terminaux audiovisuels ;

• pour s'appuyer sur eux : par exemple, ces mêmes guides électroniques des programmes peuvent être utilisés par le système mettant en œuvre l'invention pour optimiser au mieux le choix des filtres à appliquer pour réaliser le résumé vidéo (si l'émission est un journal télévisé ou un événement sportif, les filtres à appliquer sur le flux multimédia ne seront pas les mêmes).

À cet effet, l'invention concerne dans son acception la plus générale un Procédé d'analyse d'un flux multimédia pour le calcul automatique de sa structure, comportant au moins une étape de production de métadonnées, caractérisé en ce que ladite étape de production consiste en un traitement 35

dudit flux par une pluralité de filtres, chacun des filtres produisant une métadonnée pour chaque séquence temporelle analysée issue dudit flux, le procédé comportant ensuite une étape de classification des séquences homogènes en fonction du résultat d'un calcul sur une combinaison de métadonnées correspondant auxdites séquences.

Selon le mode de réalisation, ladite combinaison peut être déterminée par un paramétrage, à partir d'une collection de familles de combinaisons, par un calcul d'optimisation de contraintes ou automatiquement à l'aide d'un système externe.

Dans un mode de réalisation, au moins une famille de combinaisons est établie à partir des méthodes de réalisation d'un programme audiovisuel.

Éventuellement, un descripteur est affecté à différentes combinaisons de métadonnées, ledit descripteur pouvant être sélectionné par un utilisateur via une interface graphique et passé comme paramètre du procédé. Dans un mode de réalisation, ladite combinaison est une fonction logique déterminée par un paramétrage.

Dans une variante, elle est calculée par apprentissage, ledit apprentissage pouvant consister en une ingénierie inverse à partir d'une classification finale de séquence homogène fournie à un système expert.

Dans un mode de réalisation particulier, le procédé comprend, en outre et préalablement à ladite étape de production, une étape de prétraitement dudit flux multimédia et une étape de transmission du flux traité à un équipement.

Dans une variante, le procédé comprend, en outre et préalablement à ladite étape de classification, une étape de transmission d'au moins lesdites métadonnées produites à un équipement distant. Spécifiquement, ladite classification est une hiérarchisation des séquences, par exemple limitée à deux niveaux hiérarchiques .

Dans un mode de réalisation, ledit procédé comprend, en outre, une étape d'insertion desdites métadonnées produites dans ledit flux multimédia pour faire une exploitation de ces variables après transport du flux les contenant.

On comprendra mieux l'invention à l'aide de la description, faite ci-après à titre purement explicatif, d'un mode de réalisation de l'invention, en référence aux figures annexées dans lesquelles une même référence se rapporte au même élément ou élément similaire :

- la figure 1 représente les différentes étapes d'un mode de réalisation de la présente invention ; et la figure 2 représente une architecture d'un système pour la mise en œuvre de la présente invention.

Dans le cadre de la présente invention, on entend par « métadonnée » un ensemble d'informations décrivant de façon abstraite et compacte l'élément auquel il est rattaché. Les métadonnées sont également déterministes en ce qu'un même élément (par exemple une séquence multimédia) dans un même contexte fournit une même métadonnée.

Également, on entend par « filtre » un module de traitement d'un flux de données entrantes fournissant, en sortie, des métadonnées à partir de critères de décision (règles). Ces critères de décision portent essentiellement sur le flux de données et sur le contexte ; par exemple, un filtre analysant une séquence limitée d'un film peut posséder des critères de décision basés sur la séquence elle-même mais également sur les séquences précédentes (le contexte ) .

Dans le cadre de l'invention, les données entrantes des filtres peuvent être des séquences vidéo ( « séquence » au sens de suite ordonnée dans le temps de données), du son, de la vidéo combinée avec du son, des métadonnées issues d'un traitement préalable d'un flux multimédia, ...

De même, on entend par « séquences homogènes » les séquences qui sont associées sensiblement à la même métadonnées. Le terme « sensiblement » spécifie que des séquences sont considérées comme homogènes si leurs métadonnées sont suffisamment proches, par exemple leur différence est inférieure à un seuil : les séquences homogènes sont cohérentes par rapport à un même critère.

Un flux multimédia 10 suit une structure organisationnelle de séquences plus élémentaires. Cette structure reflète le sens artistique du réalisateur et certaines contraintes du montage. Il est, en effet, assez clair que la réalisation d'un long métrage ne suit pas les mêmes règles que celles d'une réalisation d'un événement sportif en direct. Un objet de la présente invention est de proposer une représentation sous forme de métadonnées de telles spécificités du flux et de restituer sous forme d'une classification cette structure de montage/réalisation.

*** PRETRAITEMENT ***

En référence à la figure 1, le flux multimédia 10 inclut de la vidéo et de l'audio. Lors d'un prétraitement 12, le flux multimédia est modifié.

Cette étape de prétraitement 12 peut consister en une réduction de débit, ce qui est bénéfique lorsque le flux initial 10 nécessite une trop grande bande passante pour sa transmission lors du processus de l'invention. Éventuellement, ce prétraitement peut permettre d'ajouter au flux des données complémentaires qui seront prises en compte lors des étapes suivantes ou bien de le substituer par des métadonnées qui lui sont associées. Ce prétraitement 12 est réalisé par une machine de type poste informatique ou serveur de traitement 100 possédant des capacités de traitements suffisantes pour le traitement de l'image (processeur, mémoires, bus adapté, ...), si possible en temps réel. Dans un exemple pratique, le flux 10 est non compressé, le prétraitement consiste à compressé le flux à l'aide de serveurs performants en vue d'obtenir un flux prétraité 14 dont l'analyse pourra facilement être déportée sur des équipements aux ressources limitées.

Dans un mode de réalisation, le prétraitement consiste en une caractérisation de type empreinte (fingerprinting) du flux multimédia. Ce type de caractérisation est une représentation compacte, discriminante des images et robuste de la séquence vidéo. Elle ne modifie pas le flux et ne dépend pas de la compression ou des modifications le long de la chaîne de diffusion 130. Par exemple, en tête de réseau, le flux multimédia 10 est prétraité 12 afin d'obtenir pour chaque donnée du flux son « fingerprint » afin de ne transmettre que le flux de « fingerprints » en lieu et place du flux multimédia original. Un exemple de fingerprint, dans le cas d'une vidéo, est obtenu par comparaison d'images similaires à l'intérieur du flux. Cette comparaison permet de déterminer une image représentative des plans ou séquences constitutives du flux. Ce sont ces images représentatives des plans qui sont transmises depuis la tête de réseau vers les terminaux qui peuvent procéder à l'affichage de ces images ou à la classification de celle-ci comme nous le verrons par la suite. δ

** * FILTRES ***

On applique ensuite, un ensemble de filtres 16 au flux obtenu 14, ce qui produit des métadonnées 18. Un certain nombre de filtres sont déjà connus de l'état de l'art : • filtres portant sur la composante vidéo, par exemple l'analyse de changement de plan et de sa fréquence (pour la publicité ou les clips vidéo, un plan n'est pas conservé plus de 2 secondes, contrairement à un film où ceux-ci perdurent au-delà de 7 secondes), filtre sur les couleurs, la luminosité, la reconnaissance de bandeaux, de cadrage ;

• filtres portant sur la composante audio, par exemple la signature vocale du locuteur, la signature d'applaudissements, la détection bruit/silence ou bien parole/musique, la détection de transition audio, analyse spectrale, analyse des niveaux sonores ;

• filtres locaux, c'est-à-dire appliqués image par image, par exemple l'analyse des caractéristiques (couleurs, contours, ...) d'une image ;

• filtres globaux, soit sur un ensemble d'images constituant une séquence, soit sur la totalité du flux, par exemple, la détection de changement de plans ou de transitions sonores.

Tous ces filtres de l'art antérieur et non exclusivement peuvent être mis en œuvre dans le cadre de la présente invention.

Dans un mode de réalisation, le choix des filtres à appliquer est déterminé par l'utilisateur au moyen de paramètres saisis dans une interface graphique 120. Ainsi, lors que l'utilisateur connaît pertinemment quel filtre il désire appliquer pour obtenir une classification optimisée de son flux multimédia, il sélectionne uniquement ce filtre. À l'opposé, une non-connaissance des filtres incite à sélectionner l'ensemble de ceux-ci. Ces filtres réalisent unitairement et en parallèle un traitement sur le flux 14. Éventuellement, plusieurs filtres peuvent être mis en cascade, auquel cas la sortie d'un filtre alimente un second filtre. L'application de ces filtres 16 au flux 14 fournit des metadonnées 18 descriptives de ce flux. À titre d'exemple, un filtre utilisant le flux sonore du flux multimédia peut détecter les transitions entre silence, parole et musique. Le filtre génère à chaque changement de contexte sonore une métadonnée indiquant qu'une modification a eu lieu et le type de contexte sonore courant (silence, parole ou musique).

Dans une alternative de réalisation, les filtres 16 peuvent être appliqués directement sur le flux initial 10. Ceci a pour avantage d'économiser une étape de traitements même si ces traitements sont sûrement plus coûteux en ressources si les données 10 sont volumineuses. Cette étape est réalisée sur le serveur de traitement 100, les métadonnées pouvant ensuite être insérées dans le flux vidéo diffusé pour qu'une exploitation ait lieu à un autre niveau de la chaîne de diffusion 130, par exemple l'injection des métadonnées 18 dans les champs libres de la norme MPEG.

*** COMBINAISON - GRAMMAIRE *** Selon les structures de montage et/ou de réalisation audiovisuelle, chacun des filtres 16 est plus ou moins pertinent pour l'analyse du flux 10. C'est pourquoi, on a généralement recours à une combinaison 20 de plusieurs séries de métadonnées (donc plusieurs combinaisons de filtres) pour essayer de caractériser une structure de montage .

Une approche rapide permet d'établir qu'utiliser un filtre de détection de changements de plans semble adapté à la structure de montage des journaux télévisés, comme cela est précisé dans le document US 6 278 446 précité. Cependant, lors de certains journaux ou interviews, il peut y avoir un changement de plan alors même que le locuteur reste le même. Le changement est alors interprété comme étant le début d'une nouvelle séquence de la vidéo et la structure de montage de la vidéo peut s'en trouver quelque peu altérée. Dans ce cas, la présence d'un filtre de détection de changement de locuteur associé au filtre de détection de changement de plans permet d'affiner le découpage du journal télévisé.

À titre d'exemple, pour un événement de type match de tennis, on utilisera une combinaison d'un filtre analysant les changements de plans avec un second filtre de similarité pour retrouver la structure du match point par point. En effet, les points au tennis sont toujours filmés selon un plan fixe. Il est possible de détecter chacun des plans et ensuite de comparer ces plans afin de reconnaître les plans récurrents. Le plan fixe de fond de cours, en cours de point, étant le plus fréquent, il sera facile de l'utiliser comme point de repère de début de point et ainsi de « chapitrer » un match de tennis.

L'utilisateur qui connaît la nature du flux 10 à classifier choisit la combinaison appropriée, qu'il peut lui-même renseigner ou uniquement sélectionner si celle-ci a déjà été prédéfinie dans le système. Par exemple, l'utilisateur combine deux ou plus métadonnées par une fonction logique. L'interface graphique 120 permet à l'utilisateur de préciser la nature du flux vidéo analysé et ainsi de sélectionner le ou plusieurs filtres adaptés à cette nature de flux vidéo. Dans ce cas, le paramétrage prend donc en compte une hypothèse portant sur la nature du flux. Idéalement, les combinaisons de un ou plusieurs filtres 16 ont été, au préalable, marquées avec un descripteur spécifique caractérisant la nature de la structure de montage, par exemple « journal télévisé », « événement sportif » , « long métrage » , « publicité » , ... Ces descripteurs permettent notamment à l'utilisateur de sélectionner aisément par l'interface graphique 120 la combinaison de filtres appropriée (voir précédemment dans la description). Par exemple, dans le cas d'une vidéo du type pause publicitaire, deux filtres, l'un basé sur la fréquence de changement de plan et l'autre basé sur les transitions audio, peuvent être combinés selon une logique ET pour établir une classification.

Dans une variante, le système peut consulter automatiquement une base de données permettant de définir la nature du flux vidéo avant de procéder à la classification de séquences le constituant. Une telle base de données peut être un guide électronique des programmes (EPG qui peut être mémorisé dans le disque dur des décodeurs qui en sont munis), une base de données accessibles sur Internet ou tout simplement des données intégrées dans une application interactive accessible depuis le terminal sur lequel est effectuer le traitement.

Éventuellement, au préalable, un expert pourra avoir défini et renseigné le filtre ou groupement de filtres adaptés à la caractérisation d'une nature de structure de montage. Dans la pratique, l'expert qui connaît les éléments clés dans la réalisation et/ou le montage de plusieurs nature de flux multimédia, par exemple des programmes audiovisuels (journal télévisé, publicité, film, émission de variété, événement sportif, ...), détermine au préalable la/les combinaisons de filtres qui caractérisent le mieux ces diverses natures. Le système possède ainsi des familles de combinaisons de différents modes de réalisation vidéo. L'utilisateur peut ainsi choisir entre les différentes combinaisons disponibles. Selon la finalité du flux vidéo, l'utilisateur peut fixer certaines contraintes dans la classification des séquences homogènes, à savoir, par exemple, désirer une classification d'un flux vidéo d'une heure en dix séquences consécutives de durée comprise entre 4 et 10 minutes. Le système choisit la combinaison en fonction des variables d'état obtenues par les filtres de manière à respecter les contraintes prédéfinies.

Dans un mode de réalisation particulier, le système dispose d'un système expert apte à l'apprentissage de combinaison. Le principe est le suivant : une segmentation et une classification des séquences est réalisée de façon manuelle par un expert. Le système expert prend en entrées la classification établie « à la main » et le flux vidéo intégral. Le système expert détermine ensuite les combinaisons possibles des filtres dont il dispose qui lui permettent d'obtenir une classification identique ou approchante : c'est l'ingénierie inverse ou reverse engineering. L'apprentissage à partir d'un grand nombre de flux vidéo et de classifications manuelles permet au système de disposer d'un grand nombre de combinaisons « apprises » très représentatives de la « logique » de montage.

*** CLASSIFICATION *** L'application d'une combinaison particulière de métadonnées (et donc de filtres) permet l'obtention d'une classification 22 du flux multimédia en séquences homogènes sur un ou plusieurs niveaux de hiérarchisation, par exemple une table des matières, un index, un résumé vidéo, une recherche de locuteur lors d'un débat/interview. Une des contraintes du système est d'obtenir une classification qui respecte la chronologie initiale du flux vidéo afin que les séquences homogènes se suivent dans l'« ordre logique ». Cette opération de classification n'est pas trop coûteuse en ressources et peut donc être réalisée sur le terminal « léger » tout autant que les métadonnées 18 produites ne sont pas trop volumineuses.

*** SCORES ***

Dans la configuration où l'utilisateur ne précise pas de paramètre, le système est utilisé pour proposer une classification 22 du flux multimédia 10 sans avoir aucune connaissance a priori de la nature de celui-ci. Un ensemble de combinaisons auxquelles sont associés des descripteurs

(voir précédemment dans la description), est donc appliqué au flux 10 et à chacune des classifications qui en résulte est associé un score 24. Le score 24 de chaque classification peut être déterminé en fonction de la capacité à fournir une classification proche d'une classification type décrite par exemple par : un nombre minimum et maximum de chapitres au premier niveau de la hiérarchie, un nombre de niveaux hiérarchiques minimum et maximum, etc.

La combinaison ayant donné le meilleur score est alors considérée comme la plus pertinente et la nature du flux multimédia 10 est ainsi remontée à l'utilisateur à l'aide du descripteur de la combinaison élue.

*** Traitement déporté ***

Avec le développement des terminaux personnels dont les ressources en traitement peuvent être nettement inférieures à celles d'un serveur de traitement dédié, il est envisagé de réaliser l'étape de prétraitement 12 sur le serveur de traitement 100 puis de transmettre le flux traité 14, idéalement de débit nettement inférieur, au terminal personnel 110 de l'utilisateur. La production des métadonnées et la classification sont alors réalisées sur l'équipement personnel 110. Des exemples de terminaux « légers » 110 sont les téléphones portables, les assistants personnels (PDA) et les décodeurs.

Selon une variante, la production des métadonnées 18 est réalisée sur le serveur de traitement 100. Le flux de métadonnées, généralement de débit relativement faible, est ensuite transmis au terminal personnel 110 par le réseau 130, terminal sur lequel est réalisée l'opération de classification. Cette solution est séduisante en ce qu'elle offre à l'utilisateur une grande liberté de personnalisation. En effet, les familles de combinaisons de filtres peuvent avoir été paramétrées par l'utilisateur ou en fonction de ses goûts.

Éventuellement, les métadonnées 18 peuvent être combinées au flux 10 avant d'être transmises sur le réseau de diffusion 130. Ces métadonnées peuvent ensuite être exploitées pour faciliter la navigation à l'intérieur du flux multimédia, par exemple comme indexation de type chapitrage ou comme moteur de recherche sur des éléments clés.

*** Récursivité ***

II apparaît clairement que l'invention peut être appliquée de façon récursive, les métadonnées issues d'un premier traitement pouvant être soumise au même ou à un nouveau jeu de filtres.

Claims

REVENDICATIONS

1. Procédé d'analyse d'un flux multimédia (10) pour le calcul automatique de sa structure de montage ou de réalisation, comportant au moins une étape de production de métadonnées (18), caractérisé en ce que ladite étape de production consiste en un traitement dudit flux par une pluralité de filtres (16), chacun des filtres produisant une métadonnée (18) pour chaque séquence temporelle analysée issue dudit flux (10), le procédé comportant ensuite une étape de classification (22) des séquences homogènes en fonction du résultat d'un calcul sur une combinaison (20) de métadonnées correspondant auxdites séquences .

2. Procédé d'analyse selon la revendication 1, caractérisé en ce que ladite combinaison (20) est déterminée par un paramétrage.

3. Procédé d'analyse selon la revendication 1, caractérisé en ce que ladite combinaison (20) est déterminée à partir d'une collection de familles de combinaisons.

4. Procédé d'analyse selon la revendication précédente, caractérisé en ce qu'au moins une famille de combinaisons est établie à partir des méthodes de réalisation d'un programme audiovisuel.

5. Procédé d'analyse selon la revendication 1, caractérisé en ce qu'un descripteur est affecté à différentes combinaisons de métadonnées (18), ledit descripteur pouvant être sélectionné par un utilisateur via une interface graphique (120) et passé comme paramètre du procédé.

6. Procédé d'analyse selon la revendication 1, caractérisé en ce que ladite combinaison (20) est déterminée par un calcul d'optimisation de contraintes.

7. Procédé d'analyse selon la revendication I₁ caractérisé en ce que ladite combinaison (20) est déterminée automatiquement à l'aide d'un système externe.

8. Procédé d'analyse selon la revendication 1, caractérisé en ce que ladite combinaison (20) est une fonction logique déterminée par un paramétrage.

9. Procédé d'analyse selon la revendication 1, caractérisé en ce que ladite combinaison (20) est calculée par apprentissage.

10. Procédé d'analyse selon la revendication précédente, caractérisé en ce que ledit apprentissage consiste en une ingénierie inverse à partir d'une classification finale (22) de séquence homogène fournie à un système expert.

11. Procédé d'analyse selon la revendication 1, caractérisé en ce qu'il comprend, en outre et préalablement à ladite étape de production, une étape de prétraitement (12) dudit flux multimédia (10) et une étape de transmission du flux traité (14) à un équipement (110).

12. Procédé d'analyse selon la revendication 1, caractérisé en ce qu'il comprend, en outre et préalablement à ladite étape de classification (22), une étape de transmission d'au moins lesdites métadonnées (18) produites à un équipement distant (110).

13. Procédé d'analyse selon la revendication I₁ caractérisé en ce que ladite classification (22) est une hiérarchisation des séquences.

14. Procédé d'analyse selon la revendication 1, caractérisé en ce qu'il comprend, en outre, une étape d'insertion desdites métadonnées produites dans ledit flux multimédia.