WO2023280946A1

WO2023280946A1 - Procede informatise de de-linearisation audiovisuelle

Info

Publication number: WO2023280946A1
Application number: PCT/EP2022/068798
Authority: WO
Inventors: Boris BORZIC; Elmahdi SADOUNI
Original assignee: Ecole Nationale Supérieure De L'Électronique Et De Ses Applications; Cy Cergy Paris Université; Centre National De La Recherche Scientifique
Priority date: 2021-07-08
Filing date: 2022-07-06
Publication date: 2023-01-12
Also published as: FR3125193A1; EP4335111A1

Abstract

Procédé informatisé de dé-linéarisation audiovisuelle permettant un séquençage d'un ou plusieurs fichiers vidéo numériques et une indexation des séquences issues du séquençage, en découpant virtuellement le ou les fichiers vidéo numériques en des séquences virtuelles numériques, chacune délimitée virtuellement par deux marqueurs temporels de séquence. Le procédé est destiné à produire et sélectionner automatiquement des séquences virtuelles de chaque fichier vidéo numérique, les fragments de fichier correspondant aux séquences virtuelles pouvant ensuite être extraits des fichiers vidéo numériques concernés pour constituer être visionnées ou enregistrées dans un nouveau fichier vidéo numérique.

Description

PROCEDE INFORMATISE DE DE-LINEARISATION

AUDIOVISUELLE

DOMAINE DE L’INVENTION La présente invention se rapporte au domaine de G identification et du traitement automatisé des données numériques, en particulier des fichiers vidéo numériques.

L’invention se rapporte plus précisément à un procédé informatisé de dé-linarisation audiovisuelle de fichiers vidéo numériques. ARRIÈRE-PLAN TECHNOLOGIQUE

La quantité d'informations générées dans la société d'aujourd'hui augmente de façon exponentielle. De plus, les données sont mises à disposition dans plusieurs dimensions sur différents supports numériques, tels que le flux vidéo, le flux audio et le flux texte.

Cette masse d'informations multimédias pose d’importants défis technologiques en ce qui concerne la manière dont les données multimédias peuvent être intégrées, traitées, organisées et indexées d'une manière sémantiquement significative pour faciliter une récupération efficace. Habituellement, une structure de contenu est conçue par le producteur des données avant que celles-ci ne soient générées et enregistrées. Pour permettre la récupération future basée sur le contenu, une telle structure sémantique prévue (ou encore métadonnées) doit être transmise avec le contenu aux utilisateurs lorsque le contenu est livré. De cette manière, les utilisateurs peuvent choisir ce qu'ils souhaitent en fonction de la description de ces métadonnées. Par exemple, chaque livre ou magazine est publié avec sa table des matières, à travers laquelle les utilisateurs peuvent trouver le numéro de page (index) où les informations souhaitées sont imprimées en passant simplement à la page. Une telle indexation de contenus hautement structurés a priori permet donc l’accès rapides à des parties spécifiques des documents et la constitution d’agrégats de séquences de documents, comme par exemple des playlists dans le cas de fichiers audio.

Cette structuration est rarement fournie dans le cas de données vidéo. Par exemple, pour un film destiné au cinéma, il n’est pas d’usage courant de fournir les indications permettant d’accéder aux différentes séquences composées par le cinéaste.

Un grand nombre de fichiers vidéo ne peuvent pas être structurées a priori. C’est le cas par exemple d’évènements filmés en direct, dont on ne peut pas prévoir le déroulement avant la réalisation du fichier vidéo numérique.

Enfin, l’indexation définie a priori par le producteur peut ne pas être pertinente du point de vue de l’utilisateur dont les critères de recherche ne sont pas toujours connus a priori non plus. Dans le cas des fichiers vidéo numériques, du fait de la difficulté d’accéder à une indexation pertinente, l’usage est donc de procéder à un étiquetage du fichier vidéo numérique dans son ensemble, de sorte que les métadonnées associées à un fichier vidéo numérique sont globales, comme par exemple le nom, la date de création, le format de fichier, la durée de visionnage. Un ensemble de métadonnées permet d’accéder à un fichier vidéo numérique dans son ensemble lorsqu’une recherche de contenu audiovisuel est effectuée. Ces métadonnées sont donc « globales ».

Il est connu d’enrichir les métadonnées « globales » associées à un fichier vidéo numérique par des métadonnées complémentaires, mais ces métadonnées sont toujours gérées au niveau global du fichier pour faciliter l’accès à la vidéo via un moteur de recherche. Par exemple, il est possible de récupérer des informations telles que l’auteur, les acteurs, le compositeur de la bande-son d’un film ou des commentaires de spectateurs sur internet et de compléter les métadonnées initiales avec ces métadonnées. Un tel enrichissement permet un accès plus efficace à un fichier vidéo numérique via un moteur de recherche.

Pour permettre de plus l’accès à une séquence pertinente d’un fichier vidéo numérique donné, plusieurs méthodes d’indexation a posteriori peuvent être envisagées, notamment des indexations manuelles. Ces méthodes sont cependant longues et fastidieuses. Dans le domaine de la recherche de contenus vidéo, l’utilisation de méthodes d’indexation automatiques est ainsi devenue incontournable.

Ua difficulté des contenus vidéo est qu’ils ne sont pas auto-descriptifs, contrairement aux médias textuels.

Ue document EP3252770A1 propose un procédé d’identification et de post-traitement automatique de contenu audiovisuel. Dans ce procédé, une description formelle du contenu du fichier vidéo numérique est fournie par un opérateur, comme par exemple un script dans le cas d’un film. Après l’extraction des flux image (c’est-à-dire contenant des données visuelles) et audio des données audiovisuelles, ces deux parties des données audiovisuelles sont décomposées en un ensemble de fragments successifs. Par ailleurs, la description formelle du fichier vidéo numérique est décomposée en parties logiques. Un motif de dialogue est généré à partir du flux audio uniquement. Une association des données audiovisuelles avec la description formelle correspondante est réalisée en associant des parties logiques de la description formelle à l’ensemble de fragments de données audiovisuelles, en utilisant le motif de dialogue. Ue fichier vidéo numérique peut alors être indexé puis manipulé sur la base de cette association.

Ue document US6714909B1 est un autre exemple dans lequel un procédé d’automatisation du processus d’indexation multimodal est proposé. Ue procédé comprend les étapes suivantes :

- séparer un flux de données multimédia en composants audio, visuels et textuels ; - segmenter les composants audio, vidéo et textuels du flux de données multimédia sur la base de différences sémantiques, les caractéristiques au niveau de la trame étant extraites du composant audio segmenté dans une pluralité de sous-bandes ;

- identifier au moins un locuteur cible à l'aide des composants audio et vidéo ;

- identifier des limites sémantiques de texte pour au moins l'un des locuteurs cibles identifiés pour générer des blocs de texte sémantiquement cohérents ;

- générer un résumé du contenu multimédia basé sur les composants audio, vidéo et textuel, les blocs de texte sémantiquement cohérents et le locuteur cible identifié ;

- dériver un sujet pour chacun des blocs de texte sémantiquement cohérents sur la base d'un ensemble de modèles de catégories de sujets ;

- générer une description multimédia de l'événement multimédia sur la base du locuteur cible identifié, des blocs de texte sémantiquement cohérents, du sujet identifié et du résumé généré.

Le procédé décrit dans le document EP3252770A1 présente l’inconvénient de nécessiter la fourniture d’une description formelle du fichier vidéo numérique. Le procédé décrit dans le document US6714909B1 présente l’inconvénient de nécessiter que le contenu des flux audio et ou textes du fichier vidéo numérique soit sémantiquement structuré, c’est-à-dire qu’il s’agit de pouvoir reconstituer un contenu audio qui a un sens par extraction et agrégation de séquences d’une vidéo donnée. Il ne peut donc pas être mis en œuvre pour agréger des séquences issues de fichiers vidéo différents ou pour des fichiers vidéo sémantiquement faiblement structurée. L’invention vise ainsi à proposer un procédé automatisé d’analyse, d’indexation et de montage d’un ensemble de fichiers vidéo numériquement éventuellement faiblement structurés sur des critères définis par l’utilisateur et sans indexation a priori du contenu de ces fichiers.

RÉSUMÉ DE L’INVENTION

Ainsi, l’invention se rapporte à un procédé informatisé de dé-linéarisation audiovisuelle permettant un séquençage d’un ou plusieurs fichiers vidéo numériques et une indexation des séquences issues du séquençage, en découpant virtuellement par marquage temporel le ou les fichiers vidéo numériques en des séquences virtuelles, chaque séquence virtuelle étant définie par deux marqueurs temporels de séquence et des descripteurs associés.

Le procédé comprend les étapes suivantes : a. réception d’un ou plusieurs fichiers vidéo numériques à analyser ; b. indexation de chacun des fichiers vidéo numériques dans un index primaire au moyen de descripteurs endogènes primaires associés permettant d’identifier chaque fichier vidéo numérique ; c. extraction automatique des flux de données audio, image, et texte de chacun des fichiers vidéo numériques ; d. au moyen d’une pluralité de dispositifs informatisés mettant en œuvre un algorithme d’apprentissage automatique choisis et/ou entraînés pour une typologie de fichiers vidéo numériques définie au préalable, analyse automatique, fichier par fichier de chacun des fichiers vidéo numériques, selon les quatre modalités : modalité image, modalité audio, modalité texte, modalité action permettant d’identifier les groupes d’images successives formant une action donnée, l’analyse produisant de manière automatique un ou plusieurs marqueurs temporels de découpe unimodaux pour chacune des modalités, un ou plusieurs descripteurs étant associés à chacun des marqueurs temporels de découpe unimodaux, e. production automatique, à l’issue de l’analyse de chacun des fichiers vidéo numériques, de marqueurs temporels de séquence candidats de découpe virtuelle, dans le but de délimiter des séquences virtuelles, et des descripteurs associés à ces marqueurs temporels de séquence candidats de découpe virtuelle, qui sont :

- soit des marqueurs temporels de découpe unimodaux des fichiers vidéo numériques, et qui sont appelés à l’issue de cette étape marqueurs temporels de séquence candidats unimodaux ;

- soit, pour chacun desdits fichiers vidéo numériques pris isolément, les codes temporels correspondants aux marqueurs temporels de découpe virtuelle unimodaux sont comparés et, à chaque fois qu’au moins deux marqueurs temporels de découpe unimodaux issus de modalités d’analyse différentes sont séparés par un intervalle de temps inférieur à une durée prédéterminée principale, un marqueur temporel de séquence candidat plurimodal, en lien mathématique avec les au moins deux marqueurs de séquence unimodaux, est créé ; f. pour chacun desdits fichiers vidéo numériques analysés, en fonction d’une borne inférieure et d’une borne supérieure définies pour déterminer la durée minimale et la durée maximale de chaque séquence, par rapport à la typologie du ou des fichiers vidéo numériques,

- sélection automatique, parmi les marqueurs temporels de séquence candidats unimodaux ou plurimodaux, de paires de marqueurs de séquence,

- chaque paire présentant un marqueur de début de séquence et un marqueur de fin de séquence, de sorte que la durée de chaque séquence retenue soit comprise entre lesdites bornes inférieure et supérieure,

- ces paires de marqueurs de séquence étant associées aux descripteurs associés auxdits marqueurs temporels de séquence candidats sélectionnés, ces descripteurs étant dès lors dits « descripteurs endogènes secondaires » ; g. indexation, dans un index secondaire qui est en relation d’héritage par rapport audit index primaire, de toutes les paires de marqueurs de séquence et des descripteurs associés permettant l’identification de chaque séquence, les séquences virtuelles étant identifiables et aptes à être recherchés au moins par les descripteurs endogènes secondaires et les descripteurs endogènes primaires. Grâce à ces dispositions, il est possible de séquencer un fichier vidéo numérique en séquences présentant une cohérence sémantique suivant une à quatre modalités différentes, sous forme de séquences virtuelles délimitées par des paires de marqueurs temporels de séquence et indexées par des descripteurs secondaires associées à ces marqueurs temporels de séquence ainsi que les descripteurs primaires associées au fichier vidéo numérique dont les séquences sont issues. L’espace en mémoire utilisé pour ces séquences correspond à l’espace nécessaire pour stocker les paires de marqueurs temporels et les descripteurs secondaires associés. C’est en cela que le séquençage est dit virtuel.

Selon un mode de réalisation, le procédé informatisé de dé-linéarisation audiovisuelle est caractérisé en ce qu’un extrait vidéo associé à une séquence virtuelle, obtenu par visualisation du fragment de fichier délimité par les deux marqueurs de séquence de la séquence virtuelle présente une unité de sens (autrement dit une cohérence sémantique) qui résulte de l’analyse automatique de chaque fichier vidéo numérique selon les quatre modalités et de la découpe virtuelle par rapport à cette analyse.

Grâce à cette disposition, les séquences virtuelles peuvent être extraites et les extraits vidéo correspondant aux séquences virtuelles peuvent être visualisés par un utilisateur qui percevra sa cohérence sémantique et pourra lui attribuer un sens global.

Selon un mode de réalisation, au moins un des deux marqueurs de séquence de chaque paire de marqueurs de séquence sélectionnée à l’étape f est un marqueur temporel de séquence candidat plurimodal et est alors dit marqueur de séquence plurimodal, et avantageusement chaque marqueur de séquence de chaque paire de marqueurs de séquence sélectionnée est un marqueur de séquence plurimodal.

De cette manière, le sens global de la séquence est soutenu par plusieurs modalités et avantageusement quatre modalités. Dans ce dernier cas, la cohérence sémantique est donc obtenue à la fois sur la modalité texte, la modalité action, la modalité audio et la modalité image.

Avantageusement :

- plus une découpe a un nombre de descripteurs endogènes important et plus cet extrait vidéo a de chances d’être retenu dans la playliste suite à la recherche de l’utilisateur qui présenterait ces descripteurs endogènes

-et plus ce nombre de descripteurs endogènes important présente par différentes modalités des résultats communs (et dans ce cas on parle de descripteurs plurimodaux) et plus cet extrait vidéo a de chances d’etre retenu dans la playlist qui sera décrite plus loin suite à la recherche de l’utilisateur qui présenterait ces descripteurs endogènes.

De façon générale, plus les marqueurs de découpe sont plurimodaux et plus les extraits vidéos sont coupés avec une granulométrie fine. Selon un mode de réalisation, pour chaque extrait vidéo, les descripteurs dits endogènes sont issus de la même modalité, ou d’une ou de plusieurs modalités différentes de la ou des modalités dont sont issues pour les marqueurs de découpe temporel de début et de fin de séquence de l’extrait vidéo

Dans un mode de réalisation particulier, à l’étape f, on distingue deux types de marqueurs de séquence plurimodaux :

- un marqueur de séquence plurimodal créé à partir de quatre marqueurs temporels de découpe unimodaux issus des quatre modalités différentes séparés deux-à-deux par un intervalle de temps inférieur à la durée prédéterminée principale est dit marqueur de séquence plurimodal principal et

- un marqueur de séquence plurimodal créé à partir de deux ou trois marqueurs temporels de découpe unimodaux issus d’autant de modalités parmi les quatre modalités, séparés deux-à- deux par un intervalle de temps inférieur à la durée prédéterminée principale est dit marqueur de séquence plurimodal secondaire.

Selon un mode de réalisation, au moins l’un des marqueurs de chaque paire de marqueurs de séquence est un marqueur de séquence plurimodal principal.

Grâce à cette disposition, le sens global de la séquence est soutenu par quatre modalités.

Selon un mode de réalisation, la modalité action est une modalité d’au moins un des deux marqueurs de séquence de la paire de marqueurs de séquence sélectionnée.

Grâce à cette disposition, la cohérence sémantique d’une séquence est au moins sous-tendue par la modalité action, qui joue un rôle particulier dans de nombreux fichiers vidéo. Par exemple, dans le domaine du sport, la séquence obtenue sera cohérente du point de vue des actions sportives.

Selon un mode de réalisation, des poids sont affectés à chacune des modalités pour la production des marqueurs de séquence candidats à l’étape e et/ou la sélection des marqueurs de séquence à l’étape f.

Grâce à cette disposition, la cohérence sémantique d’une séquence peut-être sous-tendue dans des proportions variées, éventuellement adaptées à des typologies vidéo, par les quatre modalités. Par exemple dans le domaine du sport, on pourra attribuer un poids plus élevé à la modalité action. Dans le domaine des cours en ligne, on pourra attribuer un poids plus élevé à la modalité texte.

Selon un mode de réalisation,

- pour des fichiers vidéo numériques dans le domaine du sport, le poids de la modalité action est supérieur à celui de la modalité image, lui-même supérieur aux poids des modalités texte et audio,

-pour des fichiers vidéo à fort contenu informationnel par la parole, le poids de la modalité texte est supérieur à celui des trois autres modalités. Grâce à cette disposition, la cohérence sémantique d’une séquence peut-être adaptée à une typologie de vidéo telle qu’une vidéo dans le domaine du sport ou à une vidéo à fort contenu informationnel telle qu’un documentaire ou un cours en ligne.

Selon un mode de réalisation, on affecte un poids aux descripteurs endogènes secondaires ainsi qu’aux descripteurs endogènes primaires pour caractériser leur importance dans les séquences, et ce poids est plus grand pour les descripteurs endogènes secondaires que celui des descripteurs endogènes primaires.

Les poids différents des descripteurs endogènes et exogènes permettent lors de la formulation d’une requête de recherche de séquences formulée ultérieurement de faire jouer des rôles différents à ces deux types de descripteurs. En particulier, si le poids des descripteurs endogènes est supérieur à celui des descripteurs exogènes, les résultats d’une recherche de séquences seront davantage basés sur les descripteurs endogènes que sur les descripteurs exogènes.

Selon un mode de réalisation, les descripteurs endogènes secondaires sont dits « unimodaux » lorsqu’ils correspondent à une seule modalité et sont dits « plurimodaux » lorsqu’ils sont détectés pour plusieurs modalités.

Grâce à cette disposition, il est possible de distinguer les descripteurs sous-tendus par une seule ou par plusieurs modalités, ce qui peut être utile lors d’une recherche de séquence de fichier vidéo dans laquelle on souhaite faire jouer des rôles différents à ces deux types de descripteurs. A cette fin, selon un mode de réalisation, une information sur le caractère unimodal ou plurimodal d’un descripteur endogène secondaire donné est conservée au cours du processus d’indexation. Par exemple, si la modalité image donne le descripteur « thermodynamique » , et la modalité texte donne aussi le descripteur « thermodynamique », alors on peut constituer un descripteur plurimodal « thermodynamique » (qui est issue des deux descripteurs précédents et est donc plus robuste sur l’intérêt de visionner cet extrait on s’intéresse à la thermodynamique).

Selon un mode de réalisation, l’étape f du procédé présente ces sous étapes, pour chaque fichier vidéo numérique, pour réaliser les séquences : i) - sélection d’un dernier marqueur de fin de séquence, notamment plurimodal, à partir de la fin du fichier vidéo numérique,

-et détermination de la présence d’un marqueur de séquence plurimodal à un code temporel compris entre deux codes temporels extrêmes, calculés par soustraction de la borne inférieure au code temporel du marqueur de fin sélectionné et par soustraction de la borne supérieure au code temporel du marqueur de fin sélectionné,

- sélection du marqueur plurimodal comme dernier marqueur de début de séquence si la présence est confirmée,

-sinon, détermination de la présence d’un marqueur unimodal dont la modalité est fonction de la typologie du fichier vidéo numérique entre les deux codes temporels extrêmes - sélection du marqueur unimodal comme dernier marqueur de début de séquence si la présence est confirmée,

-sinon, le dernier marqueur de début de séquence est désigné par la soustraction au code temporel du dernier marqueur de fin sélectionné de la borne supérieure ; ii), on réitère l’étape i) pour sélectionner un avant-dernier marqueur de début de séquence, le marqueur de début de séquence sélectionné à l’issue de l’étape i précédente jouant le rôle de dernier marqueur de fin de séquence sélectionné au début de l’étape i précédente ; iii) on réitère ainsi de suite la sous-étape ii) jusqu’au début du fichier vidéo numérique.

Grâce à cette disposition, la convergence du séquençage est assurée.

Selon un mode de réalisation, la durée prédéterminée principale est inférieure à 5 secondes, et optionnellement la durée maximale de chaque séquence sélectionnée est égale à deux minutes Grâce à cette disposition, les marqueurs de découpe unimodaux successifs sont séparés au maximum de 5 secondes, de sorte que les marqueurs de séquence candidats sont assez proches dans le temps et le séquençage est suffisamment fin.

Si le séquençage est assez fin, il est possible de constituer des séquences virtuelles dont la durée est limitée par une borne supérieure relativement faible. Ainsi, selon un mode de réalisation, la durée des séquences virtuelles sélectionnées est limitée par une borne supérieure. Par exemple, la durée séparant les deux marqueurs d’une paire de marqueurs de séquence est inférieure à 2 minutes, 1 minute ou 30 secondes.

Selon un mode de réalisation, au moins une étape supplémentaire d’enrichissement de l’indexation des séquences virtuelles par des descripteurs secondaires exogènes est effectuée à l’étape g.

Grâce à cette disposition, le séquençage peut être réitéré pour aboutir à un séquençage plus fin, puisque des informations complémentaires - exogènes - ont été ajoutées.

Selon un mode de réalisation, les descripteurs secondaires au moyen desquels les séquences identifiées sont indexées sont enrichis d’un indicateur chiffré ou lettré, tel qu’un score global d’une carte de collection numérique, calculé pour chaque séquence à partir des descripteurs secondaires de la séquence virtuelle et/ou des descripteurs primaires du fichier vidéo numérique dans lequel la séquence a été identifiée.

Grâce à cette disposition, les résultats d’une recherche ultérieure de séquence dans l’index secondaire pourront être ordonnés sur la base de cet indicateur chiffré ou lettré.

Selon un mode de réalisation, la modalité action comprend les sous-modalités : {détection de changement de plans, détection d’action suivant une typologie de fichiers vidéo numérique}, et chacune des sous-modalités de la modalité action permet de générer un jeu particulier de marqueurs temporels de découpe unimodaux.

Grâce à cette disposition, autant de jeux marqueurs temporels de découpe unimodaux que de sous-modalités (une modalité ne contenant pas de sous-modalité étant comptée comme une sous-modalité unique) pourront être obtenus, de sorte que le séquençage permettra de produire des séquences cohérentes suivant N sous-modalités, N étant compris entre un et le nombre total de sous-modalités, le séquençage pouvant identifier marqueurs de séquence plurimodaux basés sur 1 à N sous-modalités. Le séquençage est donc plus fin et présente une plus grande variété de point de vue que dans le cas où les sous-modalités d’une même modalité ne sont pas distinguées.

Selon un mode de réalisation, l’analyse suivant la modalité audio comprend la détection de bruit, la détection de musique et/ou la transcription de la parole en un flux texte.

Grâce à cette disposition, les différents aspects de la modalité audio peuvent être pris en compte pour la recherche de marqueurs de découpe unimodaux.

Selon un mode de réalisation, l’analyse suivant la modalité image comprend les sous-modalités {reconnaissance de forme ou d’objets ; agrégation de plans ; reconnaissance optique de caractères}, et chacune des sous-modalités de la modalité image permet de générer un jeu particulier de descripteurs unimodaux.

Grâce à cette disposition, les différents aspects de la modalité image peuvent être pris en compte pour la recherche de marqueurs de découpe unimodaux, sur le même principe que ce qui a été décrit pour les sous-modalités de la modalité action.

L’invention concerne aussi un procédé informatisé de production automatique d’une playlist ordonnée d’extraits vidéo de fichiers vidéo numériques, avec un flux de transmission de données, les fichiers vidéo numériques étant indexés dans un index primaire stocké dans une base de données documentaire contenant les fichiers vidéo numériques avec des descripteurs primaires, les fichiers vidéo numériques ayant été, au préalable et au moyen du procédé informatisé de dé-linéarisation suivant l’un des modes de réalisation précédents, découpés virtuellement par marquage temporel en des séquences virtuelles qui sont définies par deux marqueurs temporels de séquence formant une paire de marqueurs de séquence et par des descripteurs secondaire associés, les paires de marqueurs de séquence virtuelle et les descripteurs secondaires associés étant mémorisés dans un index secondaire stocké dans une base de données documentaire, l’index secondaire étant en relation d’héritage avec l’index primaire ces index étant accessibles via une interface graphique. Le procédé informatisé de recherche et de production automatique d’une playlist d’extraits vidéo comprend :

1. la formulation d’au moins une requête de recherche ;

2. la transmission de ladite requête de recherche à un serveur de recherche associé à la base de données ;

3. la détermination et la réception à partir de la base de données documentaire, en réponse à la requête de recherche transmise, du résultat de recherche qui est une liste automatique de paires de marqueurs temporels de séquences et des descripteurs associés, suivant un ordre qui est fonction des descripteurs associés à chaque séquence virtuelle et de la formulation de la requête de la recherche, les séquences virtuelles étant identifiables et aptes à être recherchées par les descripteurs secondaires et les descripteurs primaires;

4. raffichage et le visionnage à partir d’une télécommande virtuelle de la playlist qui présente tous les extraits vidéo associés à la liste automatique ordonnée de paires de marqueurs temporels reçue lors de l’étape 3, sans création de nouveau fichier vidéo numérique, la télécommande virtuelle permettant la navigation sur la playlist, chaque extrait vidéo de la playlist étant associé à une séquence virtuelle, et étant appelé lors du visionnage de la playlist via le flux de transmission de données à partir du fichier vidéo numérique indexé dans l’index primaire dans lequel a été identifiée la séquence virtuelle indexée dans l’index secondaire.

Dans le procédé informatisé de production automatique d’une playlist d’extraits vidéo,

- les fichiers vidéo numériques mémorisés ont été séquencés, et les séquences virtuelles des fichiers vidéo numériques ont été indexées dans l’index secondaire avant la formulation des critères de recherche et avant la réception du résultat de recherche par le client au moyen du procédé de séquençage tel que décrit plus haut ;

- la playlist automatique ordonnée est une liste de séquences vidéo du ou des fichiers vidéo numériques correspondant chacun à une séquence virtuelle d’un fichier vidéo numérique, suivant un ordre qui est fonction des descripteurs secondaires associés à chaque séquence et primaires associés à chaque fichier vidéo numérique. Grâce à cette disposition, il est possible de sélectionner une ou plusieurs séquences de fichiers vidéo numériques obtenus à l’issue du procédé de séquençage d’un ou plusieurs fichiers vidéo numériques, c’est-à-dire de manière automatisée sans qu’il soit nécessaire que l’utilisateur visualise l’intégralité d’un ou plusieurs fichiers vidéo numériques.

Cette sélection peut être faite au moyen d’une requête de recherche et la recherche est effectuée dans l’index secondaire contenant les descripteurs secondaires des séquences, qui est lié à l’index primaire contenant les descripteurs primaires des fichiers vidéo numériques dont sont issues les séquences.

Selon un mode de réalisation, lors de la détermination du résultat de recherche : - dans une sous-étape 1), le procédé détermine en fonction de la requête de recherche et des descripteurs de la ou des séquences virtuelles, si les séquences virtuelles sont essentielles (le nombre de descripteurs est pertinent ) ou d’ornement (le nombre de descripteurs n’est pas pertinent par rapport au critère défini pour les séquences virtuelles essentielles) ;

- dans une sous-étape 2) · lorsque les paires de marqueurs temporels de séquence virtuelle constituant la liste automatique sont identifiés dans un seul fichier vidéo numérique, le procédé produit via le flux de transmission soit une playlist exhaustive d’extraits vidéo associés à toutes les séquences virtuelles essentielles, soit un résumé avec une sélection d’extraits vidéo associés aux des séquences virtuelles essentielles en fonction de critères spécifiés par l’utilisateur,

• lorsque les paires de marqueurs temporels de séquence virtuelle constituant la liste automatique sont identifiés dans plusieurs fichiers vidéo numériques, le procédé produit via le flux de transmission une playlist d’extraits vidéo associés aux séquences virtuelles dites « zapping », de ces fichiers numériques avec une sélection des séquences virtuelles essentielles associées aux extraits vidéo en fonction de critères spécifiés par l’utilisateur.

Selon un mode de réalisation du procédé informatisé de production automatique d’une playlist ordonnée d’extraits vidéo de fichiers vidéo numériques,

-lorsque les paires de marqueurs temporels de séquence virtuelle constituant la liste automatique sont identifiés dans un seul fichier vidéo numérique, le procédé produit via le flux de transmission une playlist résumé avec une sélection d’extraits vidéo de ce fichier vidéo numérique en fonction de critères spécifiés par l’utilisateur lors de sa recherche,

-lorsque les paires de marqueurs temporels de séquence virtuelle constituant la liste automatique sont identifiés dans plusieurs fichiers vidéo numériques, le procédé produit via le flux de transmission une playlist d’extraits vidéo associés aux séquences virtuelles dite « zapping », de ces fichiers numériques avec une sélection des extraits vidéo en fonction de critères spécifiés par l’utilisateur lors de sa recherche.

Selon un mode de réalisation, le procédé informatisé de production automatique d’une playlist d’extraits vidéo permet, après production automatique d’une playlist ordonnée d’extraits vidéo de fichiers vidéos numériques, les opérations suivantes de navigation à partir de la télécommande virtuelle et à partir du flux de transmission de données :

- lecture, arrêt et reprise de l’extrait en cours de visionnage de la playlist qui comporte tous les extraits vidéo associés à la liste automatique obtenue à l’étape 3;

- pointage d’un extrait dans la playlist qui comporte tous les extraits vidéo associés à la liste automatique obtenue à l’étape 3 par avance rapide ou retour rapide ;

- sortie temporaire de l’extrait de la playlist qui comporte tous les extraits vidéo associés à la liste automatique obtenue à l’étape 3 pour visionner le fichier vidéo numérique d’origine de l’extrait, sans contraintes temporelles liées aux marqueurs temporels de début et de fin de la séquence virtuelle associée à l’extrait vidéo.

Avantageusement, cette comprend une seule barre de navigation pour tous les extraits vidéos disposés les uns à la suite des autres sur la playlist, suivant l’ordre des marqueurs de séquences fonction de la requête de l’utilisateur (qui présente les descripteurs associés aux marqueurs de découpe dans l’index secondaire).

Grâce à cette disposition, il est possible à partir d’une séquence identifiée comme intéressante pour l’utilisateur par rapport à ses critères de recherche de procéder, au choix de l’utilisateur à la lecture de la suite du fichier dans lequel cette séquence a été identifiée, ou de passer à une autre séquence identifiée comme intéressante.

Selon un mode de réalisation, le procédé de production automatique d’une playlist ordonnée d’extraits vidéo de fichiers vidéo numériques permet l’opération additionnelle suivante : d. nouvelle sortie temporaire du visionnage du fichier vidéo numérique d’origine de l’extrait en cours de lecture depuis l’opération c), pour visionner lors de l’étape d) un résumé créé automatiquement et préalablement à ce visionnage à partir de ce seul fichier numérique d’origine.

Selon un mode de réalisation, le procédé de production automatique d’une playlist ordonnée d’extraits vidéo de fichiers vidéo numériques permet l’opération additionnelle suivante : e. enregistrement de l’historique de navigation sur la playlist des séquences vidéo et création d’un nouveau fichier numérique qui est cet historique de navigation.

Selon un mode de réalisation, la requête de recherche formulée à l’étape 1 est multicritères, et combine une recherche sur le texte intégral, une recherche à facettes et en ce que les critères pour réaliser l’ordre pour la playlist automatique comprennent des critères chronologiques et/ou sémantiques et/ou de pertinence.

Cette disposition permet de formuler des requêtes de recherche aussi variées que possibles, y compris avec des suggestions sur la base des facettes ou des critères, et d’obtenir une liste ordonnée de résultats.

Suivant un mode de réalisation du procédé de production automatique d’une playlist ordonnée d’extraits vidéo de fichiers vidéo numériques, la requête de recherche formulée à l’étape 1 est effectuée de manière automatique à partir d’un ou plusieurs critères spécifiés par l’utilisateur choisis dans une liste comprenant : la durée souhaitée d’une playlist automatique ainsi que des critères sémantiques.

De cette manière, la recherche de séquences dans des fichiers vidéo numériques peut être entièrement automatisée à partir de critères de recherche minimaux.

Selon un mode de réalisation du procédé informatisé de production automatique d’une playlist ordonnée d’extraits vidéo de fichiers vidéo numériques, la requête de recherche formulée à l’étape 1 est réalisée par un robot conversationnel.

Selon un mode de réalisation, le procédé informatisé de production automatique d’une playlist ordonnée d’extraits vidéo de fichiers vidéo numériques comprend une étape de visualisation dans laquelle l’utilisateur visualise sur un premier écran un extrait vidéo de la playlist, et des descripteurs de la séquence virtuelle associée à l’extrait vidéo sur un deuxième écran synchronisé avec l’extrait vidéo. Selon un mode de réalisation, le procédé informatisé de production automatique d’une playlist ordonnée d’extraits vidéo de fichiers vidéo numériques comprend une étape de visualisation dans laquelle les descripteurs associés aux séquences virtuelles sont visualisés sur les extraits. Grâce à ces dispositions, l’utilisateur peut visualiser en même temps que les extraits vidéo les descripteurs sur la base desquels le procédé a considéré la séquence comme pertinente par rapport à la requête de recherche. De cette manière, l’utilisateur peut à la fois attribuer un sens global à l’extrait vidéo et le comparer au sens global qui pourrait lui être attribué sur la base des descripteurs qui lui ont été automatiquement associés.

Selon un mode de réalisation du procédé informatisé de production automatique d’une playlist ordonnée d’extraits vidéo de fichiers vidéo ,1a technologie utilisée est ElasticSearch®.

Selon un mode de réalisation du procédé informatisé de production automatique d’une playlist ordonnée d’extraits vidéo de fichiers vidéo numériques, l’accès aux fichiers vidéos se fait en mode « streaming ».

L’invention concerne en outre une liste automatique de paires de marqueurs de séquence et des descripteurs associés issue du procédé informatisé de production automatique d’une playlist ordonnée d’extraits vidéo de fichiers vidéo numériques, présentant des descripteurs endogènes et exogènes cohérents avec la requête de recherche.

Selon un mode de réalisation, dans la liste automatique de paires de marqueurs de séquence et des descripteurs associés issue du procédé informatisé de de production automatique d’une playlist ordonnée d’extraits vidéo de fichiers vidéo, toutes les séquences virtuelles (donc toutes les paires de marqueurs temporels de séquence) ont, comme marqueur de fin de séquence, au moins un marqueur de séquence plurimodal principal ou issu de trois modalités.

Selon un mode de réalisation, dans la liste automatique de paires de marqueurs de séquence et des descripteurs associés issue du procédé informatisé de production automatique d’une playlist ordonnée d’extraits vidéo de fichiers vidéo, le marqueur de fin de séquence de chaque paire de marqueurs temporels de séquence correspondant à chaque séquence virtuelle est issu au moins de la modalité action.

Selon un mode de réalisation, dans la liste automatique de paires de marqueurs de séquence et des descripteurs associés issue du procédé informatisé de production automatique d’une playlist ordonnée d’extraits vidéo de fichiers vidéo, les marqueurs temporels de séquence sont déterminés par une approche multimodale par analyse automatique, fichier par fichier de chacun desdits un ou plusieurs fichiers vidéo numériques, selon au moins deux des quatre modalités : modalité image, modalité audio, modalité texte, modalité action.

Selon un mode de réalisation de la liste automatique, , au moins deux marqueurs temporels de séquence sont déterminés de façon aléatoire ou unimodale.

L’invention porte aussi sur un procédé informatisé de montage avec découpe virtuelle sans création de fichier vidéo numérique, à partir du procédé informatisé de production automatique d’une playlist ordonnée d’extraits vidéo de fichiers vidéo numérique comprenant les étapes suivantes :

I. production automatique d’au moins une playlist ordonnée d’extraits vidéo de fichiers vidéo numériques et enregistrement de l’au moins une liste automatique ordonnée de paires de marqueurs temporels de séquence et des descripteurs associés issus de cette production, sans création de fichier vidéo numérique ;

II. navigation sur l’au moins une playlist automatique d’extraits vidéo de fichiers vidéo numériques, par flux de transmission des données

III. sélection par l’utilisateur d’une ou plusieurs séquences virtuelles associée à l’au moins une playlist automatique d’extraits vidéo de fichiers vidéo numériques pour réaliser une nouvelle playlist d’extraits vidéo dont l’ordre est modifiable par l’utilisateur.

Selon un mode de réalisation, le procédé informatisé de montage avec découpe virtuelle comprend les étapes suivantes :

- modification de la playlist automatique d’extraits vidéo par ajout et/ou retrait d’extraits vidéo à la playlist ;

- modification d’un ou de plusieurs extraits vidéo par prolongation ou réduction de la durée des séquences virtuelles associées aux extraits vidéo de la playlist, par déplacement des marqueurs de début et de fin de chaque séquence virtuelle ;

- modification des extraits vidéo par un effet visuel ou un effet sonore.

Grâce à cette disposition, une nouvelle vidéo peut être montée de manière très automatisée, sans manipulation de fichiers vidéo numériques pour les agréger ou les découper. Le montage est économe en mémoire et en temps de calcul puisqu’il est basé sur la manipulation des marqueurs de séquence.

Selon un mode de réalisation du procédé de navigation, la playlist d’extraits vidéo est générée automatiquement par un procédé informatisé de recherche et de production automatique d’une playlist ayant des extraits vidéo ordonnés selon un des modes de réalisation décrits plus haut. L’invention porte de plus sur Lutilisation d’extraits vidéo ou d’une playlist d’extraits vidéo obtenue par le procédé informatisé de recherche et de production automatique d’une playlist, ou par le procédé de montage selon un des modes de réalisation décrits plus haut, dans un réseau social ou dans un moteur de recherche ou pour constituer un nouveau fichier vidéo numérique. L’invention porte enfin sur un système informatisé comprenant :

- Au moins un module d’acquisition d’un ou plusieurs fichiers vidéo numériques ;

- Au moins un module répartiteur ;

- Au moins un module d’analyse multimodale ;

- Au moins un module de séquençage générant des séquences de fichiers vidéo numériques indexées ; - Au moins un module de recherche comprenant un client permettant de formuler une requête de recherche pour la mise en œuvre des étapes :

1. On reçoit par l’intermédiaire du module d’acquisition un ou plusieurs fichiers vidéo numériques à analyser ;

2. On indexe de manière automatique chacun desdits fichiers vidéo numériques dans un index primaire, à partir des descripteurs endogènes, dits primaires, dudit fichier vidéo numérique ;

3. On extrait les flux de données audio, images et texte de chacun des fichiers vidéo numériques ;

4. Au moyen d’une pluralité de dispositifs informatisés mettant en œuvre un algorithme d’apprentissage automatique choisis et/ou entraînés pour une typologie de fichiers vidéo définie au préalable et contenus dans le module d’analyse multimodale, on réalise une analyse fichier par fichier de chacun desdits un ou plusieurs fichiers vidéo numériques selon les quatre modalités : modalité image, modalité audio, modalité texte, modalité action, l’analyse produisant de manière automatique un ou plusieurs marqueurs temporels de découpe unimodaux pour chacune des modalités, un ou plusieurs descripteurs étant associés à chacun des marqueurs temporels de découpe unimodaux;

5. On fournit, à l’issue de l’analyse de chacun des fichiers vidéo numériques, des marqueurs temporels de séquence candidats, dans le but de déterminer des séquences virtuelles, et les descripteurs associés à ces marqueurs temporels de séquence candidats, qui sont :

- soit des marqueurs temporels de découpe unimodaux desdits fichiers vidéo numériques qui sont appelés à l’issue de cette étape marqueurs temporels de séquence candidats unimodaux ;

- soit, pour chacun desdits fichiers vidéo numériques pris isolément, les codes temporels correspondants auxdits marqueurs temporels de découpe unimodaux sont comparés et, à chaque fois qu’au moins deux marqueurs temporels de découpe unimodaux issus de modalités d’analyse différentes sont séparés par un intervalle de temps inférieur à une durée prédéterminée principale, un marqueur temporel de séquence candidat plurimodal, en lien mathématique avec les au moins deux marqueurs de découpe unimodaux, est créé ;

6. Pour chacun desdits fichiers vidéo numériques analysés, on définit en fonction de la typologie dudit fichier vidéo numérique une borne inférieure et une borne supérieure pour la durée d’une séquence et on sélectionne de manière automatique parmi les marqueurs de séquence candidats des paires de marqueurs de séquence, dits marqueurs de début et de fin de séquence, chaque paire de marqueurs de séquence présentant un marqueur de début de séquence et un marqueur de fin de séquence, de sorte que la durée de chaque séquence retenue soit comprise entre lesdites bornes inférieure et supérieure, ces paires de marqueurs de séquence étant associées aux descripteurs associés auxdits marqueurs temporels de séquence candidats sélectionnés, ces descripteurs étant dès lors dits « descripteurs endogènes secondaires » ;

7. On indexe au moyen du module de séquençage dans un index secondaire qui est en relation d’héritage par rapport à l’index primaire, toutes les paires de marqueurs de séquence au moyen des descripteurs associés permettant l’identification de chaque séquence, les séquences étant identifiables et aptes à être recherchés au moins par les descripteurs endogènes secondaires et les descripteurs endogènes primaires ;

8. On formule une requête de recherche de séquences de fichiers vidéo numériques au moyen du module de recherche ; chacun des modules comprenant les moyens de calculs nécessaires, chacun des modules autres que le module répartiteur communiquant avec le module répartiteur et le module répartiteur gérant la répartition des calculs entre les autres modules.

Selon un mode de réalisation du système informatisé, ce système comprend en outre au moins un module d’enrichissement des descripteurs primaires des fichiers vidéo numériques et/ou secondaires des séquences virtuelles de fichier vidéo numérique par des descripteurs complémentaires exogènes.

Selon un mode de réalisation du système informatisé, ce système comprend en outre module éditeur de vidéo communiquant avec le module de recherche.

BRÈVE DESCRIPTION DES DESSINS

Des modes de réalisation de l’invention seront décrits ci-dessous par référence aux dessins, décrits brièvement ci-dessous :

Fig. 1 représente un organigramme d’un dispositif permettant de mettre en œuvre le procédé d’analyse, de séquençage et d’indexation des séquences d’un fichier vidéo numérique.

Fig. 2a représente une première étape de séquençage d’un fichier vidéo numérique selon les quatre modalités : image, audio, texte et action.

Fig. 2b représente une deuxième étape de séquençage d’un fichier vidéo numérique selon les quatre modalités : image, audio, texte et action.

Fig. 2c représente une troisième étape de séquençage d’un fichier vidéo numérique selon les quatre modalités : image, audio, texte et action.

Fig. 3 représente les différentes interactions entre les modules et les services du procédé informatisé en lien avec les actions possibles de l’utilisateur.

Fig. 4 représente les étapes d’une itération du procédé de séquençage d’un fichier vidéo sur la bas de quatre modalités. Fig. 5a représente une interface graphique 55 pour le montage ou le visionnage d’une playlist.

Fig. 5b représente un autre mode de réalisation d’une interface graphique pour le montage ou le visionnage d’une playlist.

Fig. 6 représente de manière schématique l’effet de la manipulation de la télécommande virtuelle sur la playlist.

Fig. 7a représente un troisième mode de réalisation d’une interface graphique 55.

Fig. 7b représente un quatrième mode de réalisation d’une interface graphique 55.

Fig. 8 représente un cinquième mode de réalisation d’une interface graphique 55.

Fig. 9 représente un sixième mode de réalisation d’une interface graphique 55.

Fig. 10 représente un septième mode de réalisation d’une interface graphique 55.

Fig. 11 représente un huitième mode de réalisation d’une interface graphique 55.

Fig. 12 représente un neuvième mode de réalisation d’une interface graphique 55.

Sur les dessins, des références identiques désignent des objets identiques ou similaires.

DESCRIPTION DÉTAILLÉE

L’invention concerne un procédé d’analyse, de séquençage et d’indexation multimodale de données audiovisuelles numériques. Le format des données audiovisuelles n’est pas limité a priori. A titre d’exemple, les formats de fichiers vidéo numériques MPEG, MP4, AVI, WMV de la norme ISO/IEC peuvent être envisagés.

Les données audiovisuelles peuvent être disponibles sur internet, sur une vidéothèque numérique publique ou privée, ou encore fournies unitairement ou de manière groupée par un utilisateur particulier.

Des métadonnées sont intégrées au document audiovisuel, notamment des métadonnées techniques : niveau de compression, taille des fichiers, nombre de pixels, format, etc. de catalogage : titre, année de production, réalisateur, ...

Ces métadonnées seront appelées métadonnées « globales » dans la mesure où elles sont associées au fichier vidéo numérique dans son ensemble.

De manière générale, comme on le verra dans la suite, il n’est pas nécessaire que le fichier vidéo numérique soit structuré pour que le procédé de dé-linéarisation audiovisuelle suivant l’invention fonctionne. Un fichier vidéo numérique sans aucune métadonnée de catalogage peut tout-à-fait être séquencé automatiquement par le procédé suivant l’invention sans intervention humaine. C’est l’une des forces du procédé par rapport aux procédés de séquençage de l’art antérieur.

Notamment, même si le procédé de dé-linéarisation audiovisuelle peut être mis en œuvre sur des fichiers vidéo numériques structurés, tels que ceux utilisés dans les procédés de diffusion de type « broadcast », il est particulièrement pertinent dans le cas d’un fichier vidéo numérique non ou faiblement structuré, tels que ceux disponibles assez généralement su internet ou utilisés dans des procédés de diffusion de type « multicast », à titre d’exemple des vidéos YouTube®.

Le procédé comporte plusieurs étapes parcourues de manière non linéaire, nécessitant sa mise en œuvre sur un dispositif informatisé 8 de séquençage de fichier vidéo numérique, dont un mode de réalisation est représenté à la Fig. 1, comprenant plusieurs modules :

- Un module 1 d’acquisition, permettant la récupération d’un ou plusieurs fichiers vidéo à partir de sources variées et leur indexation au moyen de descripteurs dits primaires dans un index primaire ;

- Un module 2 répartiteur ;

- Un module 3 d’analyse multimodale ;

- Un module 4 d’enrichissement des métadonnées, optionnel ;

- Un module 5 de séquençage générant des séquences virtuelles (ou encore des fragments virtuels) du ou des fichiers vidéo numériques et les indexant dans un index secondaire au moyen de descripteurs secondaires ;

- Un module 6 de recherche, comprenant le client permettant de procéder à une recherche sur les séquences générées par le module 5 pour un ou plusieurs fichiers vidéo numériques.

- Optionnellement un module 4 d’enrichissement.

- Optionnellement un module 7 éditeur de vidéo comprenant une interface graphique permettant de procéder à une manipulation de séquences virtuelles produites à la suite d’une recherche de séquences virtuelles par le module 5.

On parlera de « séquence virtuelle » ou équivalemment de « fragment virtuel » de fichier vidéo numérique. Une séquence virtuelle de fichier vidéo numérique (pour simplifier dans la suite : séquence de fichier vidéo numérique, voire séquence) désigne un fragment virtuel du fichier vidéo numérique initial, de durée inférieure à celle du fichier initial, dans lequel la succession d’images entre le début et la fin du fragment est exactement la même que celle du fichier vidéo numérique initial (ou d’origine, ou encore dans lequel la séquence virtuelle a été identifiée) entre les deux instants correspondants, sans qu’un nouveau fichier vidéo numérique spécifique à la séquence ne soit constitué au niveau physique.

Une séquence virtuelle de fichier vidéo numérique est donc constituée uniquement par la donnée d’une paire de marqueurs temporels de séquence, comprenant un marqueur de début de séquence et un marqueur de fin de séquence.

Chaque marqueur temporel correspond à un code temporel (en anglais, « timecode ») particulier dans le fichier vidéo numérique initial.

Lorsqu’une séquence de fichier vidéo numérique virtuelle est identifiée, sont uniquement stockés en mémoire, par exemple dans une base de données documentaire, la paire de marqueurs temporels de séquence correspondante ainsi que les descripteurs permettant son indexation et ainsi l’accès à la séquence virtuelle par une recherche dans l’index.

Une séquence virtuelle de fichier vidéo numérique est donc indexée systématiquement au moyen d’un ou plusieurs descripteurs sémantiques, dits secondaires L’espace en mémoire de stockage utilisé pour mémoriser ces séquences « virtuelles » correspond à l’espace nécessaire pour stocker les paires de marqueurs temporels et les descripteurs secondaires associés. C’est en cela que le séquençage est dit virtuel.

En d’autres termes, il n’est pas nécessaire de créer un nouveau fichier vidéo numérique par séquence virtuelle, qui serait une copie d’un fragment du fichier vidéo numérique de départ, dans lequel a été identifiée la séquence.

Le procédé de séquençage et d’indexation suivant l’invention est donc particulièrement peu coûteux en mémoire.

Une séquence virtuelle de fichier vidéo numérique permet dans un deuxième temps, notamment en fonction des besoins de l’utilisateur, l’extraction d’un fragment « réel » d’un fichier vidéo numérique, c’est-à-dire la constitution d’un « extrait vidéo » de fichier vidéo numérique.

La constitution d’un extrait vidéo de fichier vidéo numérique peut par exemple se matérialiser par des modifications dans la mémoire vive d’un processeur par la visualisation du contenu entre les deux marqueurs de séquence de la séquence virtuelle choisie, notamment en streaming, notamment après une étape de décompression. Cette visualisation de l’extrait vidéo ne nécessite pas la constitution d’un nouveau fichier vidéo numérique et appelle directement le passage ou le fragment du fichier vidéo numérique d’origine grâce à la séquence virtuelle.

La constitution d’un extrait vidéo peut éventuellement dans certains cas se matérialiser dans une mémoire de stockage par l’enregistrement du fragment de fichier vidéo numérique associé à la séquence virtuelle sous forme d’un nouveau fichier vidéo numérique pouvant être de taille inférieure à celui du fichier vidéo numérique dans lequel la séquence virtuelle correspondante a été identifiée.

Le module 1 d’acquisition permet de copier à partir de sources de stockage variées et d’enregistrer sur un dispositif de stockage adéquat un ou plusieurs fichiers vidéo numériques que l’on souhaite analyser.

Le dispositif de stockage contient éventuellement d’autres fichiers déjà acquis et son contenu est augmenté au fur et à mesure de Lutilisation du dispositif. De préférence, le dispositif de stockage permet l’accès au fichier vidéo en mode « streaming ».

Notamment, il est possible de télécharger des vidéos thématiques à analyser via des connecteurs Web, sur la base d’une requête de recherche formulée sur un moteur de recherche internet. Il est aussi possible de copier tout ou partie des fichiers vidéo numériques d’un autre dispositif de stockage, tel qu’une clé USB ou un serveur d’archives par exemple. L’ensemble des fichiers vidéo numériques acquis par le module 1 peut être homogène d’un point de vue du contenu ou hétérogène.

On peut par exemple envisager d’acquérir des fichiers vidéo numériques sur un critère de date, comme tous les fichiers vidéo filmés un jour précis. Dans ce cas, l’ensemble de fichiers vidéo numériques n’aura aucune raison a priori d’être homogène du point de vue du contenu. Ou bien, un ou plusieurs fichiers vidéo numériques peuvent être acquis sur la base d’une combinaison de mots-clés. Par exemple, on peut envisager d’acquérir toutes les fichiers vidéo numériques correspondant aux matches de football de ligue 1 en France pour une année donnée. L’ensemble des fichiers présente alors un contenu en rapport avec le football. A titre d’exemple, le fonctionnement du procédé sera décrit à plusieurs reprises sur ce cas particulier du football. Il est important de noter que cet exemple, homogène dans le sens défini précédemment, n’est en rien limitatif et ne sert qu’à favoriser la compréhension du procédé. Le procédé peut être mis en œuvre dans tout domaine (sport, cours en ligne, conférences scientifiques, actualités télévisées, vidéos amateur, cinéma, ... ) ou bien sur plusieurs domaines à la fois. On parlera équivalemment de domaine ou de typologie du fichier vidéo numérique. Un domaine ou encore une typologie peuvent notamment être décrits à l’aide de descripteurs sémantiques.

Les différents modules sont constitués par des machines physiques ou virtuelles, donc par un ou plusieurs processeurs. Les machines sont organisées en fermes (« cluster » en anglais). Le dispositif comprend au moins un nœud maître (« master » en anglais) qui interagit avec une pluralité de nœuds « ouvriers » dits « workers ». Chacun des nœuds, maître et « workers », encapsule au moins les applications, ressources de stockage, moyens de calculs nécessaires pour la réalisation de la ou des tâches auxquelles il est dédié.

Toute solution d’orchestration de conteneurs permettant d’automatiser le déploiement, la mise à l’échelle de la gestion d’applications conteneurisées pourra être envisagée pour la réalisation de ce « cluster ». A titre d’exemple non limitatif, la technologie ElasticSearch®, disponible en Open Source pourra être employée.

Les fichiers vidéo numériques acquis par le module 1 sont donc stockés, par exemple dans une base de données documentaire, et ils sont de plus indexés dans un index dit « primaire », permettant de retrouver et d’accéder à chacun des fichiers vidéo numériques dans son ensemble.

L’index primaire est par exemple contenu dans la base de données documentaire. L’indexation d’un fichier vidéo numérique donné dans l’index primaire se fait au moyen de descripteurs dits « primaires ». Il s’agit par exemple de tout ou partie des métadonnées du fichier vidéo numérique. La base de données est de type documentaire, par opposition à relationnelle, en ce sens que la recherche dans la base de données n’est pas fondée sur un modèle relationnel ni limitée à un langage de type SQL fondé sur des opérateurs algébriques, comme cela sera décrit plus loin.

Chaque fichier vidéo numérique acquis par le module d’acquisition 1 est transmis au module répartiteur 2 qui est un nœud maître. Le module répartiteur 2 réceptionne et distribue les requêtes sur les nœuds « workers » adaptés pour l’exécution des requêtes et disponibles pour cette exécution.

D’éventuelles redondances des nœuds « workers » pourront être envisagées mais ne seront pas décrites ici en détail.

Après réception d’un fichier vidéo numérique, si les métadonnées du fichier vidéo numérique le permettent, le module répartiteur 2 peut lancer une étape préalable et optionnelle d’enrichissement des métadonnées au niveau du module 4 d’enrichissement.

Le module 4 d’enrichissement, qui est un nœud « worker », est notamment connecté à des bases de données externes, telles que des bases de données (4a) libres d’accès et d’exploitation (Open Data), des web services (4b) ou d’autres bases de données (4c), privées notamment.

Par exemple, à partir des métadonnées d’un fichier vidéo numérique d’un match de football contenant des informations sur la date, le lieu et les équipes en présence, on peut imaginer de récupérer, grâce au module 4 d’enrichissement, des données telles que les noms des joueurs, les couleurs des maillots, ou encore un éventuel déroulé textuel du match s’il existe. Toutefois, cette étape préalable n’est pas indispensable pour la mise en œuvre du procédé et elle peut ne pas être exécutée ou n’aboutir à aucun enrichissement effectif des métadonnées initialement associées au fichier vidéo numérique.

Le procédé se base sur des techniques de dé-linéarisation automatique du fichier vidéo numérique basées sur le contenu. On entend par dé-linéarisation la découverte et/ou la reconnaissance de structures sous-jacentes dans un fichier numérique, notamment un fichier vidéo numérique, sans intervention humaine. La dé-linéarisation est, dans le cadre de l’invention, basée sur le contenu du fichier numérique, y compris les métadonnées, enrichies ou non au préalable.

Juste après l’acquisition du fichier vidéo numérique ou après l’étape préalable d’enrichissement, le module répartiteur 2 peut déclencher dans un premier temps quatre analyses au niveau du module 3 d’analyse multimodale.

Le module 3 d’analyse multimodale est un nœud « worker » sur lequel sont mis en œuvre quatre dispositifs informatisés différents mettant chacun en œuvre un algorithme d’apprentissage automatique. Il s’agit par exemple de quatre réseaux de neurones différents. Ces réseaux de neurones analysent le fichier vidéo numérique avec des points de vue différents en parallèle.

Chacun de ces réseaux de neurones est choisi de manière adéquate pour extraire des marqueurs temporels de découpage potentiel du fichier vidéo numérique en séquences ayant une cohérence, c’est-à-dire un sens, par rapport à un point de vue d’analyse particulier.

Le flux image (équivalemment flux vidéo) du fichier vidéo numérique peut être considéré entre autres comme une collection ordonnée d’images. On peut donc attribuer un numéro d’ordre à chaque image, permettant de la retrouver au sein du fichier vidéo numérique.

Au sens de l’invention, un marqueur temporel de découpe correspond à un numéro d’ordre, ou équivalemment à un instant donné lors du visionnage de la vidéo, les dates pouvant être repérées par rapport à l’instant initial correspondant à la première image du fichier vidéo numérique. En particulier, un marqueur de découpe est associé à un code temporel (« timecode).

Les réseaux de neurones utilisés peuvent notamment être des réseaux de neurones convolutifs (« Convolutional Neuronal Network », CNN) et/ou récurrents.

Chacun de ces réseaux de neurones contient plusieurs couches successives de neurones, de manière à pouvoir subir une phase d’apprentissage de type apprentissage profond (« deep leaming »), non supervisé, semi-supervisé ou supervisé, de préférence pré-entraîné avant sa mise en œuvre dans le dispositif 8.

Le rôle de la supervision pourra être plus ou moins important suivant la modalité d’analyse. Par exemple, l’analyse des flux texte et son pourra, dans un mode de réalisation non limitatif être effectué par un réseau de neurones ayant subi une phase d’apprentissage non supervisé, et l’analyse du flux image pourra mettre en œuvre un réseau de neurones ayant subi une phase d’apprentissage supervisé ou semi-supervisé.

Le nombre et le type de couches sont choisis en fonction du type d’analyse à effectuer.

Un fichier vidéo numérique comprend des composantes (encore appelées « flux ») images (ou équivalemment vidéo), son (ou équivalemment audio) et texte placées dans un conteneur. Un fichier vidéo numérique contient éventuellement plusieurs flux audio et/ou plusieurs flux images.

Le flux de type texte comporte des éléments tels que des métadonnées, des sous-titres, la transcription du flux audio sous forme de texte lorsque cela est possible, etc.

Il est possible d’analyser chacune de ces composantes, ou flux, du fichier séparément.

Le premier réseau de neurones, dit analyseur suivant la modalité image (3a), est configuré pour réaliser une analyse du flux images, image par image. Il peut notamment procéder à des analyses de type : détection d’objets, de formes, de couleur, de texture, détection d’images similaires, océrisation. L’analyseur suivant la modalité image (3a) analyse le contenu de chaque image du fichier à analyser pixel par pixel. Il est, entre autres, doté d’un algorithme détecteur d’objets, de préférence capable d’analyser en temps réel un flux vidéo tout en gardant une bonne performance prédictive (algorithme disponible sous le nom « Yolo3 » par exemple). L’analyseur suivant la modalité image (3a) extrait un ensemble de primitives qui prennent en compte certaines représentations comme le contour, la texture, la forme, la couleur, puis il agrège les résultats dans une seule signature permettant les calculs de similarité notamment à travers une hybridation entre des algorithmes de Deep Leaming et de clustering non supervisés (« K Nearest Neighbors », KNN).

A partir d’un ensemble de primitives sur le contour, la texture, la forme, la couleur (reconnaissance de forme) l’algorithme agrège les résultats dans une signature permettant des calculs de similarité notamment à travers une hybridation entre des algorithmes de Deep Leaming et de clustering non supervisés (KNN) (agrégation de plans).

Il est également doté d’une fonctionnalité de recherche de symboles de type émoticônes par exemple, qui peuvent être ajoutés au fichier vidéo numérique avant son analyse par interaction avec l’utilisateur.

Dans un mode de réalisation particulier, la modalité image donne heu à une analyse suivant au moins trois sous-modalités :

- Détection d’objets, de formes

- Reconnaissance de texte dans les images (chronomètres, scores, texte sur des maillots de joueurs, texte dans des diapositives de présentation d’un enseignement, ... ) et analyse de ce texte (« océrisation »)

- agrégation de plans : les plans similaires détectés dans des images analysées une par une sont regroupés.

Le deuxième réseau de neurones est un réseau dit analyseur sonore (3b) ou équivalemment analyseur suivant la modalité audio ou suivant la modalité son. Il est doté d’un séparateur de pistes audio et d’un détecteur d’activité de paroles, de bruit, de musique, ...

Il permet l’analyse du flux audio en réalisant par exemple une détection de séquences musicales, de dialogues ou tout au moins de paroles, de bruit, de silence, ou encore une détection d’ambiances sonores ...

Le troisième réseau de neurones (3c) est un analyseur du flux texte ou équivalemment analyseur suivant la modalité texte, par exemple des métadonnées, des sous-titres lorsqu’ils sont disponibles, ou du texte obtenu après une extraction de texte de type « speech to text » sur la base de technologies de reconnaissance vocales connues, ou encore des informations « video tagging » décrit plus loin.

A partir d’algorithmes de NLP (« Natural Language Processing » - « Traitement de langage naturel ») mis en œuvre sur le texte (issu par exemple de la transcription « parole vers texte » (« speech to text »)), l’analyseur suivant la modalité texte (3c) découpe des phrases, des paragraphes en unités de sens traduisant un changement de sujet, ou la suite d’une argumentation suivant des modèles de l’analyse du discours.

L’analyseur suivant la modalité texte (3c) peut également, via une plateforme de traitement automatique des langues (T.A.L), éventuellement Open Source, extraire des métadonnées sémantiques pour alimenter des champs structurés à partir du texte intégral provenant du module 4, par exemple à partir de sources Web et/ou de réseaux sociaux.

Le quatrième réseau de neurones (3d) est un analyseur du flux vidéo dans son ensemble, afin de créer des marqueurs de découpage basés sur des notions dynamiques, telles que la notion d’action ou les changements de plan. Cette modalité d’analyse sera appelée équivalemment modalité action ou modalité évènement.

Le rôle de cet analyseur suivant la modalité action (3d) est de définir une typologie d’actions pour le fichier vidéo numérique à analyser, éventuellement sans connaissance a priori de ces actions.

Dans l’exemple du ping-pong, les actions pourraient inclure les phases de jeu effectif par opposition aux phases pendant lesquelles les joueurs ne jouent pas, par exemple : attendent le prochain service, ramassent la balle, ...

Des actions précises, telles qu’un coup-droit ou un revers offensif ou défensif peuvent être identifiées.

L’analyseur suivant la modalité action (3d) détecte dans un premier temps les changements de plans. Il est à noter que les changements de plans ne sont en général pas faits au hasard par un monteur, donc peuvent être porteurs d’une information riche, que l’on retrouve au moins partiellement grâce à cette détection des changements de plans. Les images caractéristiques de chaque plan sont ensuite envoyées à l’analyseur suivant la modalité image (3a). Dans un second temps, les informations restituées par l’analyseur suivant la modalité image (3a) sont analysées dans l’analyseur suivant la modalité action (3d) par un algorithme de détection d’actions.

Par exemple, un système d'estimation de pose dense (« dense pose » en anglais) peut être mis en œuvre, qui associe les pixels de deux images successives sur la base des intensités des différents pixels pour les mettre en correspondance l'une avec l'autre.

Un tel système peut faire du « video tracking » sans que des capteurs aient été positionnés sur les objets animés/sujets présents dans le contenu vidéo. Il est notamment possible de détecter des parties du corps humain et donc de suivre la trajectoire d’un joueur de football donné par exemple.

Une banque d’actions peut être constituée en vue d’une phase d’apprentissage supervisée, grâce notamment à cette estimation. Dans l’exemple du ping-pong, l’analyse du geste du bras d’un joueur sur un ensemble de fichiers vidéo numériques contenant chacun une séquence de coup-droits offensifs bien identifiées permet au réseau de neurones de reconnaître sur la base des positions successives du bras d’un joueur un coup-droit offensif dans un fichier vidéo qui n’a pas servi à l’apprentissage.

Un coup-droit offensif (« lifté »), dont le geste se fait du bas vers le haut est par exemple différent d’un coup-droit défensif (« coupé »), dont le geste se fait du haut vers le bas.

Des actions peuvent être définies hors du contexte du sport. Dans le domaine des vidéos d’actualité politique, une poignée de mains entre deux sujets peut être une action au sens de l’invention, et un réseau de neurones peut apprendre à reconnaître une telle action.

Dans le domaine de l’éducation, le fait qu’un professeur écrive sur un tableau peut constituer une action.

L’analyseur suivant la modalité action (3d) peut aussi exploiter le son associé aux images. Ainsi, pour des vidéos éducatives, une interruption dans le débit de locuteur peut être indicative d’un changement d’action au sens de ces vidéos, c’est-à-dire le passage d’une séquence du cours à une autre séquence.

L’analyseur suivant la modalité action (3d) peut aussi exploiter les informations de « video tagging », c’est-à-dire des métadonnées de type mots-clés ajoutés manuellement au fichier vidéo numérique, lorsqu’elles sont pertinentes du point de vue des actions qui ont été identifiées.

Dans un mode de réalisation particulier, la modalité action donne heu à au moins deux sous- modalités :

- La première sous-modalité est l’analyse (ou équivalemment la détection) des changements de plans

- La deuxième sous-modalité est la détection d’action au sens d’une typologie, telle qu’une typologie de fichiers vidéo numériques ou de geste ou de mouvement.

Le procédé peut inclure la phase d’apprentissage des réseaux de neurones sur un jeu de fichiers vidéo associées à un domaine particulier, par exemple un ensemble de fichiers vidéo concernant un sport particulier, ou un domaine scientifique particulier. Il peut aussi être mis en œuvre sur des réseaux de neurones entraînés au préalable pour un domaine choisi par G utilisateur par exemple.

En sortie du module 3 d’analyse multimodale, au moins quatre jeux de marqueurs temporels de découpe unimodaux, issus chacun d’une modalité, voire d’une sous-modalité d’une modalité, peuvent être fournis pour le fichier vidéo numérique, chacun des marqueurs temporels de découpe unimodaux étant associé à un jeu de descripteurs sémantiques, dits descripteurs endogènes unimodaux.

On rappelle qu’en particulier, les analyseurs suivant les modalités image (3a) et action (3d) peuvent fournir des jeux de marqueurs temporels de découpe unimodaux suivant plusieurs sous-modalités. Par exemple, des marqueurs temporels de découpe unimodaux différents peuvent être identifiés suivant une ou plusieurs des sous-modalités : changement de plans,

- agrégation de plans (par similarité, par exemple issu d’une même caméra)

- détection d'objets, de formes,

- océrisation.

Si on distingue les sous-modalités, il est donc possible d’obtenir plus de quatre jeux de marqueurs temporels de découpe unimodaux.

Il est aussi bien sûr possible de réduire le nombre de modalité ou de sous-modalité d’analyse pour fournir moins de quatre jeux de marqueurs temporels de découpe unimodaux. Dans ce cas, le séquençage sera moins fin.

Au sens de l’invention, un descripteur est un terme, qui peut être un nom commun ou un nom propre, un adjectif, un verbe, une locution, un mot composé ou un groupe de mots, et qui représente un concept. Seuls les descripteurs ou combinaisons de descripteurs peuvent être utilisés pour l’indexation. Les non-descripteurs pourront par contre être utilisés dans la formulation de la requête de recherche au niveau du module 6 de recherche et montage.

Les descripteurs peuvent optionnellement être définis dans un thésaurus propre au dispositif ou provenir de thésaurus existants. Un descripteur permet donc, dans un langage documentaire, de préciser le contenu du fichier vidéo numérique quand il est associé au fichier vidéo numérique dans sa globalité, ou d’une séquence de fichier vidéo numérique quand il est associé à cette dernière.

L’étape d’analyse peut être réalisée sur la base de métadonnées minimales. L’exemple schématique suivant permet de comprendre les différentes étapes du procédé. Faisons l’hypothèse qu’un utilisateur du dispositif souhaite analyser une vidéo :

- qu’il ne connaît pas a priori, qu’il ne souhaite pas visionner au préalable

- pour laquelle il ne dispose que d’un nom de fichier non signifiant

- dont la piste audio ne permet pas l’extraction de contenu textuel signifiant. Par exemple, elle ne contient que du bruit sans paroles identifiables, ou un fond musical sans paroles et sans rapport avec le contenu images.

Typiquement, le fichier vidéo numérique exemple est un fichier vidéo amateur « exemple 1 », réalisé au cours d’un match de football et dans une ambiance sonore très bruyante de sorte que les éventuelles paroles ne peuvent pas être mises en évidence dans le bruit de fond. Une première analyse par le module 3 d’analyse multimodale permet de faire émerger quelques descripteurs de type ballon, foot, maillot (et leurs couleurs), noms de certains joueurs, ambiance sonore stade de foot, correspondant à un séquençage relativement grossier après traitement des résultats du module 3 d’analyse multimodale par le module 5 de séquençage qui sera décrit plus loin. Le module répartiteur 2 peut optionnellement enrichir les descripteurs unimodaux identifiés et associés aux marqueurs temporels de découpe unimodaux par des descripteurs exogènes, soit en les transmettant au module 4 d’enrichissement, soit à partir des descripteurs déjà identifiés et stockés dans le dispositif lui -même, notamment dans les index primaire et secondaire.

Dans le cas de « l’exemple 1 », par une recherche internet de données contenant les mots clés « ballon, foot, noms des joueurs », des descripteurs complémentaires, ou équivalemment descripteurs exogènes, comme « match, but, mi-temps, ... » pourront être ajoutés. De tels descripteurs exogènes peuvent aussi être retrouvés sur la base de données du dispositif s’il a déjà analysé d’autres fichiers vidéo du type match de football.

Si le module 4 d’enrichissement est intervenu, le répartiteur relance une étape d’analyse par le module 3 d’analyse multimodale sur la base de ces descripteurs enrichis. Cette nouvelle étape génère des marqueurs temporels de découpe unimodaux plus nombreux et/ou plus adaptés à la vidéo analysée. Par exemple, une seconde étape d’analyse de la vidéo « exemple 1 » suite à l’enrichissement des descripteurs par le module 4 d’enrichissement permettra d’obtenir un séquençage sur la base des deux mi-temps et des buts marqués si ces évènements sont identifiés.

Le module 3 d’analyse multimodale utilisé a priori peut être « généraliste » c’est-à-dire adapté à des fichiers vidéo numériques dont le contenu est aussi varié que possible, ou encore spécialisé par apprentissage sur un jeu de vidéos ad hoc.

Si on souhaite analyser des vidéos du point de vue du sport, un module 3 d’analyse multimodale dédié à et entraîné sur ce domaine, voire sur un sport précis, pourra être mis en œuvre. Mais il est possible d’analyser une même vidéo avec plusieurs modules 3 d’analyse multimodale dédiés à plusieurs domaines différents pour obtenir différents séquençages, ou encore d’utiliser un ensemble de modules 3 pour faire évoluer le choix du module 3 d’analyse multimodale au fur et à mesure de l’enrichissement des métadonnées pour aller vers un module 3 d’analyse multimodale de plus en plus adapté au contenu du fichier vidéo numérique, sur lequel le dispositif n’avait pas de connaissance du domaine du contenu a priori.

Dans ce dernier cas de figure, une redondance du module 3 d’analyse multimodale est donc nécessaire, chacun des modules 3 d’analyse multimodale étant adapté à un domaine particulier et/ou généraliste.

Dans un mode de réalisation particulier, le module 3 d’analyse multimodale peut n’analyser le fichier que suivant deux modalités, par exemple si l’un des flux du fichier n’est pas exploitable, ou si l’on souhaite privilégier ces deux modalités.

A l’issue d’une étape dans le module 3 d’analyse multimodale, et d’une éventuelle étape d’enrichissement intermédiaire dans le module 4 d’enrichissement, les marqueurs temporels de découpe unimodaux et les descripteurs endogènes, et éventuellement exogènes, unimodaux associés sont transmis par le répartiteur au module 5 de séquençage.

Le module 5 de séquençage est lui aussi un module « worker ». Le séquenceur synthétise toutes les informations recueillies par le répartiteur pour créer des séquences homogènes, cohérentes et pertinentes, si possible suivant plusieurs des points de vue utilisés dans le module 3 d’analyse multimodale à la fois.

Dans l’exemple représenté sur les Fig. 2a, Fig. 2b et Fig. 2c, l’axe horizontal représente l’axe des temps pour le fichier vidéo numérique c’est-à-dire l’ordre d’apparition des différentes images qui le constituent ; les marqueurs temporels de découpe unimodaux associés à la modalité image sont par exemple représentés sur la ligne du haut, les marqueurs temporels de découpe unimodaux associés à la modalité visuelle audio sur la ligne, juste en- dessous , puis encore en-dessous les marqueurs temporels de découpe unimodaux associés à la modalité textuelle, et enfin les marqueurs temporels de découpe unimodaux associés à la modalité action sont représentés sur celle du bas.

A l’issue du séquençage, le module 5 de séquençage propose des marqueurs temporels de séquence candidats.

Un marqueur temporel de séquence candidat est :

- soit un marqueur temporel de séquence candidat plurimodal,

- soit un marqueur de séquence candidat unimodal.

Pour créer un marqueur temporel de séquence candidat plurimodal, on procède comme suit : si au moins deux marqueurs temporels de découpe unimodaux issus modalités différentes sont identifiés comme proches temporellement, un marqueur temporel de séquence candidat plurimodal, en relation mathématique avec ces marqueurs temporels de découpe unimodaux, est créé.

La proximité temporelle est définie par rapport à un critère de temps T2 spécifié au préalable : deux (ou plus) de marqueurs temporels de découpe unimodaux sont considérés comme temporellement proches s’ils sont séparés deux-à-deux par une durée inférieure à une durée prédéterminée T2, dite principale.

Un marqueur temporel de séquence plurimodal est créé en lien mathématique avec les marqueurs de découpe unimodaux qui sous-tendent sa création suivant une règle fixée au préalable.

Par exemple, le marqueur temporel de séquence plurimodal candidat est identique au marqueur temporel de découpe unimodal issu de la modalité audio. Ou encore, il peut correspondre au marqueur temporel le plus proche de la moyenne des codes temporels des n marqueurs temporels de découpe unimodaux identifiés comme proches temporellement. Un marqueur temporel de séquence candidat unimodal est quant à lui créé sur la base d’une seule modalité. Il est dans ce cas dit marqueur temporel de séquence candidat unimodal et identique au marqueur temporel de découpe unimodal identifié.

La figure 2a représente la décomposition d’un fichier vidéo numérique selon les quatre modalités : image, audio, texte et action.

Sur cette figure, deux marqueurs temporels de séquence candidats 21 plurimodaux sont détectés dans ce cas suivant quatre modalités.

Lorsque les quatre modalités possèdent des codes temporels identiques ou des codes temporels évalués comme proches, un marqueur de séquence candidat dit principal car issu de quatre modalités est détecté. Des marqueurs de séquence candidat sont donc dits « principaux » lorsqu’ils sont issus des quatre modalités. Les deux marqueurs temporels de séquence candidats 21 de la figure 2a sont donc plurimodaux principaux.

Des descripteurs endogènes plurimodaux, dits « principaux » car issus des quatre modalités, sont associés à chacun des marqueurs temporels de séquence candidats 21 plurimodaux principaux identifiés.

La figure 2b représente la décomposition du même fichier vidéo numérique que pour la figure 2a selon les quatre modalités : image, audio, texte et action.

Cette décomposition aboutit dans un premier temps à la détection de trois marqueurs temporels de séquences candidats 21 principaux, issus de quatre modalités différentes.

Des marqueurs temporels de séquence candidats 22 plurimodaux, mais issus seulement de trois modalités, peuvent être identifiés.

Lorsque trois modalités possèdent des codes temporels identiques ou des codes temporels évalués comme proches, un marqueur de séquence est identifié. Ce marqueur de séquence candidat plurimodal est dit secondaire, car plurimodal mais issu de moins de quatre modalités. Au marqueur de séquence candidat plurimodal secondaire sont associés des descripteurs endogènes plurimodaux, dits secondaires car plurimodaux mais issus de moins de quatre modalités.

Dans tous les cas, un marqueur de séquence candidat plurimodal, qu’il soit principal ou secondaire, peut être associé à des descripteurs endogènes multimodaux (ou équivalemment plurimodaux), issus des descripteurs unimodaux associés aux marqueurs temporels de découpe unimodaux de toutes les modalités qui ont permis de sélectionner le marqueur plurimodal.

Les descripteurs sont dits « endogènes » lorsqu’ils sont issus du séquençage du fichier vidéo numérique par le module (5) de séquençage mais pas d’une étape d’enrichissement par le module (4) à partir d’informations exogènes au fichier vidéo numérique.

Quatre marqueurs temporels de découpe candidats plurimodaux secondaires 22 issus de trois modalités peuvent être observés sur la figure 2b. Lorsque seulement deux modalités possèdent des codes temporels identiques ou des codes temporels évalués comme proches, un seuil de proximité pouvant être prédéterminé, un marqueur de découpe candidat plurimodal dit « secondaire », car plurimodal mais issu de moins de quatre modalités, est identifié, auquel sont associés des descripteurs multimodaux endogènes, dits secondaires car plurimodaux mais issus de moins de quatre modalités, dans un deuxième temps.

Ce cas est représenté sur la figure 2c, toujours pour le même fichier vidéo numérique que sur la figure 2a. Le séquençage permet la détection dans un premier temps de marqueurs de séquence candidats plurimodaux principaux 21, dans un deuxième temps de marqueurs de séquence candidats plurimodaux secondaires 22 issus de trois modalités, puis dans un troisième temps de marqueurs de séquence candidats plurimodaux secondaires 23.

De préférence, les marqueurs de découpe candidats plurimodaux sont donc dans un premier temps choisis par proximité temporelle sur quatre modalités, ce qui aboutit au choix des marqueurs de séquence candidats plurimodaux principaux 21.

Si le critère de proximité temporelle sur au moins quatre modalités ou sous-modalités différentes aboutit à un séquençage insuffisant, des marqueurs de séquence plurimodaux secondaires 22 ou 23 peuvent être sélectionnés sur la base d’une association de deux ou trois modalités.

Le séquençage est considéré comme « insuffisant » sur des critères évaluables de manière automatique. Par exemple, si au moins un intervalle de temps séparant deux marqueurs de séquence candidats successifs a une durée supérieure à une durée, dite durée seuil Tl, prédéterminée, définie par exemple par rapport à la durée totale du fichier vidéo numérique ou de manière absolue, le séquençage est insuffisant.

Une fois, les marqueurs temporels de séquence candidats identifiés, une sélection est faite parmi ces marqueurs de séquence candidats pour constituer une ou plusieurs paires de marqueurs de séquence, comprenant chacune un marqueur de début de séquence et un marqueur de fin de séquence.

Dans un mode de réalisation, la durée d’une séquence est, pour ce faire, bornée par une durée minimale D 1 et par une durée maximale D2 qui dépendent de la typologie du fichier vidéo numérique à séquencer.

Puis, un dernier marqueur de fin de séquence peut être, pour initialiser la constitution de paires de marqueurs de séquence, placé à partir de la fin du fichier vidéo numérique, soit exactement à la fin du fichier, soit par exemple au niveau d’un marqueur temporel de séquence candidat à condition qu’il soit séparé par un intervalle de temps inférieur à un seuil prédéterminé de la fin du fichier.

Ensuite, il peut être envisagé de procéder à des itérations des étapes suivantes : - On recherche un marqueur de séquence candidat plurimodal séparé d’une durée comprise entre les durées et DI et D2 du dernier marqueur de fin de séquence. S’il existe, il est effectivement retenu comme dernier marqueur de début de séquence et associé au dernier marqueur de fin de séquence pour constituer la dernière paire de marqueurs de séquence, qui délimite la dernière séquence virtuelle.

Si un marqueur de séquence candidat plurimodal se trouve à une durée inférieure à D 1 du dernier marqueur de fin de séquence, il peut ainsi être décidé de ne pas le retenir parce que le séquençage aboutirait à des séquences trop courtes pour qu’elles soient réellement d’intérêt.

- Sinon, si aucun marqueur de séquence candidat plurimodal n’est identifié en-deçà de la durée D2, un marqueur de séquence candidat unimodal séparé d’une durée comprise entre les durées et DI et D2 du dernier marqueur de fin de séquence est recherché. S’il existe, il est sélectionné comme dernier marqueur de début de séquence et associé au dernier marqueur de fin de séquence pour constituer la dernière paire de marqueurs de séquence, qui délimite la dernière séquence virtuelle.

- A défaut, un dernier marqueur de début de séquence est créé, séparé d’une durée D2 du marqueur de découpe identifié, de manière à assurer la convergence du processus.

- Puis le processus de recherche est réitéré pour sélectionner l’avant-demier marqueur de de début de séquence, le dernier marqueur de début de séquence jouant le rôle d’avant-dernier marqueur de fin de séquence dans l’algorithme décrit juste au-dessus.

- Et ainsi de suite jusqu’à ce que le début du fichier vidéo numérique soit atteint.

A chaque fois qu’une paire de marqueurs de séquence comprenant un marqueur de début de séquence et un marqueur de fin de séquence est constituée, une séquence est donc virtuellement constituée.

Dans un mode de réalisation particulier, au moins un des marqueurs de séquence de chaque paire de marqueurs de séquence est plurimodal. Optionnellement, les deux marqueurs de séquence de chaque paire de marqueurs de séquence sont plurimodaux.

Cette disposition permet d’assurer que les séquences identifiées ont une cohérence sémantique définie par plusieurs modalités.

Dans un mode de réalisation particulier, toujours dans le but d’accroître la finesse du séquençage en conservant une cohérence sémantique élevée, au moins un des marqueurs de séquence de chaque paire de marqueurs de séquence est plurimodal principal.

Dans un mode de réalisation particulier, des poids peuvent être affectés aux différentes modalités en fonction de la typologie du fichier vidéo numérique. Par exemple, pour des vidéos de type « sport », la modalité action peut jouer un rôle plus important dans le séquençage si son poids est plus élevé. Les poids des différentes modalités peuvent éventuellement être choisis en fonction de la nature du contenu analysé (connue a priori ou détectée au fur et à mesure des itérations) et/ou du critère de recherche de fichiers vidéo formulé par un utilisateur du dispositif 8. Chaque séquence virtuelle de fichier vidéo numérique peut être indexée dans un index secondaire au moyen des descripteurs endogènes, et le cas échéant exogènes, associés au marqueur de début de séquence, ainsi qu’à ceux associés au marqueur de fin de séquence. Les descripteurs associés au marqueur de début de séquence et/ou au marqueur de fin de séquence sont dits « secondaires » en ce sens qu’ils sont associés à une séquence de fichier vidéo numérique et non plus au fichier vidéo numérique dans son ensemble. Ils permettent l’indexation de la paire de marqueurs de séquence dans l’index secondaire.

L’index secondaire est en relation d’héritage avec l’index primaire de sorte que les descripteurs endogènes primaires, associés au fichier vidéo numérique, sont aussi associés à la séquence identifiée.

La relation d’héritage est à comprendre au sens de l’informatique, notamment de la programmation orientée objet : les séquences d’un fichier vidéo numérique sont « filles » de ce fichier numérique en ce sens que si le fichier vidéo numérique est indexé au moyen de descripteurs endogènes et, le cas échéant exogènes, primaires, la séquence hérite de ces descripteurs primaires et peut donc être recherchée dans l’index non seulement sur la base des descripteurs secondaires qui la caractérisent mais aussi sur la base des descripteurs primaires qui caractérisent le fichier vidéo numérique dont elle est « fille ».

En variante, la durée minimale d’une séquence de fichier vidéo n’est pas fixée a priori mais une séquence de fichier vidéo (ou équivalemment une paire de marqueurs temporels de séquence) n’est retenue dans l’index secondaire que si elle est associée à un nombre de descripteurs suffisants, par exemple pour qu’il y ait une probabilité significative de retrouver cette séquence à l’issue d’une requête de recherche.

Comme on l’a vu plus haut, dans l’hypothèse où il n’est pas possible de trouver des marqueurs de séquence plurimodaux, des marqueurs de séquences unimodaux peuvent être sélectionnés, avant une étape d’enrichissement et une nouvelle itération du processus de séquençage par exemple.

Les marqueurs de séquence unimodaux jouent alors le même rôle que les marqueurs de séquence plurimodaux dans le processus d’indexation, c’est-à-dire que les séquences correspondantes sont indexées sur la base des descripteurs unimodaux associés. Ce cas de figure n’est pas recherché en soi, mais permet d’assurer la convergence du processus de séquençage.

Selon un mode de réalisation, une information sur le caractère unimodal ou plurimodal d’un descripteur endogène secondaire donné est conservée au cours du processus d’indexation. Grâce à cette disposition, il est possible de distinguer les descripteurs secondaires plurimodaux des descripteurs unimodaux, ce qui peut être utile lors d’une recherche de séquence de fichier vidéo dans laquelle on souhaite faire jouer des rôles différents à ces deux types de descripteurs.

Dans une variante, on procède à l’analyse d’un fichier vidéo numérique non pas à rebours, mais en commençant par sélectionner un premier marqueur de séquence initial, puis un premier marqueur de séquence de fin et ainsi de suite jusqu’à ce que le fichier ait été intégralement parcouru en partant du début du fichier.

A la fin du processus de démontage vidéo, ou encore de dé-linéarisation, qu’il réalise, le séquenceur indexe donc dans un index secondaire toutes les séquences virtuelles validées, c’est-dire toutes les séquences virtuelles identifiées et délimitées par un marqueur de début de séquence et un marqueur de fin de séquence retenus par le module 5 de séquençage, à chacune desquelles est associé un jeu de descripteurs sémantiques secondaires endogènes et, le cas échéant, exogènes.

On notera qu’un marqueur temporel de séquence peut être associé par défaut à la première image et/ ou à la dernière image, de manière à assurer le séquençage de l’ensemble du fichier.

On notera aussi qu’une étape préliminaire de réduction du fichier vidéo numérique peut être réalisée de manière à ne procéder au séquençage que sur les fragments de fichier vidéo numérique présentant de l’intérêt.

On peut par exemple imaginer d’éliminer de manière automatique, grâce à des réseaux de neurones spécialisés, les fragments correspondant à des séquences de publicité, ou des fragments d’un fichier vidéo numérique amateur trop sombres pour qu’ils méritent d’être conservés. Cette étape permet de réduire le temps de séquençage du fichier.

Les descripteurs secondaires sélectionnés à l’issue de l’étape de séquençage sont secondaires car associés non pas à un fichier vidéo numérique dans sa totalité, comme des métadonnées « globales » ou de manière général comme des descripteurs « primaires », mais ils sont associés à une séquence en particulier.

Le module 5 de séquençage peut éventuellement être un cluster de séquenceurs, cette disposition permettant de répartir les requêtes sur les différents séquenceurs du cluster en fonction de la montée en charge du dispositif.

Le processus est itératif, c’est-à-dire que les descripteurs secondaires associés à une séquence virtuelle peuvent être enrichis par une recherche de descripteurs secondaires dits « exogènes », tels que des descripteurs de séquence existant déjà dans la base de données de descripteurs du dispositif et/ou au travers du module 4 d’enrichissement, avant qu’un nouveau séquençage ne soit relancé pour aboutir à un séquençage plus fin, sur la base des descripteurs primaires et secondaires endogènes et exogènes identifiés. Il est d’ailleurs possible de procéder, avant le séquençage d’un fichier vidéo numérique, à une étape d’enrichissement des descripteurs endogènes primaires de ce fichier vidéo numérique par des descripteurs exogènes, dits aussi primaires au moyen du module 4 d’enrichissement. Un fichier vidéo numérique est donc indexé dans l’index primaire au moyen de descripteurs primaires endogènes, et, le cas échéant, exogènes.

Selon un mode de réalisation, une information sur le caractère exogène ou endogène d’un descripteur primaire ou secondaire donné est conservée au cours du processus d’indexation. Grâce à cette disposition, il est possible de distinguer les descripteurs endogènes des descripteurs exogènes, ce qui peut être utile lors d’une recherche de séquence de fichier vidéo dans laquelle on souhaite faire jouer des rôles différents à ces deux types de descripteurs.

Dans le cas de « l’exemple 1 », si les séquences ont été définies à l’issue d’une première étape de séquençage sur la base de l’horaire repéré pour les buts et la mi-temps, il est possible par exemple de retrouver sur internet le match correspondant et d’enrichir les descripteurs secondaires endogènes de chaque séquence sur la base d’informations textuelles sur ce match.

Puis une nouvelle analyse par le module 3 d’analyse multimodale et un séquençage affiné par le module 5 de séquençage peuvent être effectués.

La Fig. 4 donne une représentation schématique des étapes d’une itération du procédé de séquençage d’un fichier vidéo sur la base de quatre modalités.

Ces étapes de va-et-vient entre les modules 3 d’analyse multimodale et 5 de séquençage, orchestrées par le module 2 répartiteur, peuvent être réitérées de manière contrôlée soit sur la base d’une limitation du nombre d’itérations, soit sur la base d’un séquençage suffisamment fin du fichier vidéo numérique. On peut par exemple arrêter le processus lorsqu’au moins un marqueur de séquence candidat a été identifié pour tout intervalle de temps t spécifié, quelques secondes à titre d’exemple. On a vu que les fichiers vidéo numériques acquis par le module 1 étaient indexés dans un index dit « primaire », permettant l’accès au fichier vidéo numérique dans son ensemble. Le module 5 de séquençage indexe les séquences identifiées du fichier vidéo numérique dans un index dit « secondaire ».

Le processus d’indexation des séquences de fichier vidéo numérique est de type parent/enfant : l’index du répartiteur pointe sur les informations générales du fichier vidéo numérique, donc sur l’index dit « primaire », alors que le séquenceur crée une indexation « secondaire » héritée. Dans un mode de réalisation, les index primaires et secondaires sont multi-champs et s’alimentent mutuellement à chaque itération. Par exemple, une étape de séquençage de la vidéo d’un match de football peut faire émerger N séquences dont la k-ième est associée un descripteur est « mi-temps ». L’information « mi-temps » est pertinente à la fois pour la séquence k mais aussi pour l’ensemble du fichier vidéo. L’indexation primaire du fichier vidéo peut donc être enrichie de l’information mi- temps et de la date de cette mi-temps dans le fichier.

Dans une seconde itération du séquençage, si par exemple on sait que trois buts sont à rechercher et que ces quatre buts sont identifiés avant la première mi-temps dont l’information est contenue dans l’index primaire, il sera possible d’associer les séquences de la seconde mi-temps qui pourraient se rapprocher d’un but à des actions offensives sans but réalisé. L’index secondaire est alors enrichi avec ces informations. Et ainsi de suite.

En résumé, des informations à caractère générique peuvent alimenter l’index primaire à partir de l’index secondaire et des informations à caractère au départ identifié comme générique et devenant particulièrement pertinentes pour une séquence particulière peuvent alimenter l’index secondaire à partir de l’index primaire.

L’invention permet donc de descendre, grâce à ce processus d’indexation, à une granulométrie bien plus fine dans une recherche de contenus dans des fichiers vidéo numériques que ce qui est permis par les processus d’indexation actuellement mis en œuvre pour ce type de fichiers, ainsi qu’à une possibilité de recherche de séquence à deux niveaux suivant les deux dimensions imbriquées créées par les deux index.

On comprend qu’après au moins un passage dans les modules 3 d’analyse multimodale et 5 de séquençage suivie d’une étape d’enrichissement des descripteurs via le module 4 répartiteur, une indexation automatisée des séquences identifiées dans le fichier vidéo numérique - l’indexation « secondaire » - peut être obtenue en l’absence de toute connaissance préalable sur le contenu de ce fichier vidéo numérique, et même si les contenus audio et textuels ne permettent pas d’obtenir des descripteurs pertinents à l’origine.

On comprend bien que cette indexation secondaire est dynamique, c’est-à-dire qu’elle peut être enrichie et affinée : au fur et à mesure que les analyses de vidéos d’un même domaine sont réalisées, le corpus de descripteurs pertinents associés à ce domaine sur la base duquel le module 3 d’analyse multimodale peut analyser un fichier vidéo numérique s’accroît. En conséquence, le premier fichier vidéo numérique analysé peut être ré-analysé après l’analyse de N autres fichiers vidéo numériques pour affiner son séquençage.

On comprend aussi que l’indexation secondaire peut être réalisée suivant des points de vue variés en fonction des requêtes de recherche vidéo effectuées par l’utilisateur sur la vidéothèque déjà analysée. En d’autres termes, un point de vue initial choisi pour l’indexation secondaire n’est pas absolument limitatif et peut toujours être modifié sur la base d’une recherche particulière. Par exemple, un fichier vidéo numérique pourrait avoir été constitué manuellement par l’agrégation de deux fichiers vidéo pour donner un fichier vidéo numérique contenant une séquence foot contenant entre autres un but de football spectaculaire suivie d’une séquence rugby contenant entre autres un essai de rugby spectaculaire. L’analyse de ce fichier vidéo numérique en mode sport donnerait deux séquences, une séquence (a) pour le foot et une séquence (b) pour le rugby, mais il n’y a aucune raison pour que le séquençage soit adapté au football plutôt qu’au rugby ou réciproquement.

Si lors d’une recherche via le module 6 de recherche décrit plus loin, sur la base de mots clés associés au football, la séquence (a) est présentée parmi les résultats de recherche parmi d’autres vidéos, le répartiteur peut relancer une analyse de la vidéo (a) sur des descripteurs adaptés au football, pour obtenir un séquençage et une indexation plus adaptée à ce sport particulier. Mais il peut refaire le même processus à un autre instant dans le cadre du rugby.

Il s’agit donc d’une indexation dynamique, ne nécessitant pas de connaissance a priori du contenu du fichier vidéo numérique et s’affinant et s’enrichissant au fur et à mesure de G utilisation du dispositif.

Une fois le critère d’arrêt des itérations rempli pour au moins un fichier vidéo numérique, le module 6 de recherche contient un « client », qui permet à un utilisateur d’accéder aux différentes séquences des fichiers vidéo analysés en formulant une requête de recherche.

Le module 6 de recherche constitue donc le niveau dit « front-end » du dispositif, c’est-à- dire par lequel l’utilisateur final interagit avec le dispositif, alors que les modules 1 à 5 en constituent le niveau dit « back-end », c’est-à-dire non visible par l’utilisateur final du dispositif.

Le module 6 de recherche peut communiquer avec un module 7 éditeur de vidéo, comprenant une interface de création, de montage et de visionnage d’extraits vidéo correspondant à des séquences virtuelles.

Le module 6 de recherche permet au moins à l’utilisateur de formuler une requête de recherche et d’en visualiser le résultat.

Lorsque le serveur de la base de données documentaire reçoit la requête ainsi formulée dans le client, une recherche, par mots-clés notamment, est effectuée sur les séquences de fichiers vidéo grâce à l’association {index primaire, index secondaire} fondée sur un lien d’héritage et grâce aux jeux de descripteurs qui ont été associés à chaque séquence de chaque fichier vidéo numérique lors de l’indexation secondaire.

La requête n’est pas une requête a priori basée sur un langage de base de données relationnelle, bien que cette possibilité puisse être envisagée. Il s’agit d’un requêtage du type utilisé par les moteurs de recherche, à savoir que la requête peut combiner une recherche en texte intégral, à facettes basée sur les descripteurs présents dans les index primaire et secondaire et numérique (par exemple, des tris peuvent être faits sur des critères de type chronologiques).

La requête de recherche peut être formulée par un utilisateur dans une interface utilisateur ou bien par un robot conversationnel (« chatbot » en anglais).

Le résultat de la recherche est alors affiché dans l’interface graphique du module 6 de recherche et montage et il se présente non pas sous forme d’une liste de fichiers vidéo mais d’une liste de séquences de fichiers vidéo, classées par ordre de pertinence.

La Fig. 3 représente les différentes interactions entre les modules et les services du procédé informatisé en lien avec les actions possibles de l’utilisateur.

Le principe est donc celui mis en œuvre pour les moteurs de recherche de sites web, qui permettent d’accéder directement aux pages qui composent les sites web, ou pour la constitution de playlists à partir d’un ensemble de fichiers audio dans lesquels des pistes ou chapitres sont prédéfinis. Toutefois, si ce principe est naturel pour ces deux types de médias, hautement structurés et conçus pour être indexés, il n’est pas utilisé pour tout type de fichier vidéo numérique en général, pour lesquels le choix a été fait historiquement de les indexer dans leur globalité du fait de la complexité de leur séquençage.

Le dispositif permet en résumé de constituer un moteur de recherche de séquences de fichier vidéo numérique, le séquençage de fichiers vidéo sur laquelle la recherche est effectué étant dynamique, c’est-à-dire être créé ou modifié ou adapté à l’issue de la formulation d’une nouvelle requête de recherche.

Ainsi, si l’on reprend l’exemple des matches de football, si l’utilisateur souhaite obtenir une vidéo composée de tous les buts marqués par le numéro 11 de l’équipe qui a gagné la Ligue 1 une année donnée en France, cela est possible grâce au procédé décrit ici, à partir de la seule donnée des fichiers vidéo complets des matches de ligue 1 en France et sans aucune intervention manuelle de sélection de séquence dans chacun des fichiers vidéo.

Dans le domaine des cours en ligne, il est de même possible de composer une vidéo composée de séquences de vidéos issues de fichiers vidéo différents, traitant chacune du sujet des développements limités, mais en ne sélectionnant que les portions de fichiers vidéo qui traitent du développement de Taylor-Lagrange. Cela représente un gain de temps considérable, puisqu’il n’est plus nécessaire de visionner l’ensemble des fichiers vidéo pertinents alors que seules des portions (séquences) de ces fichiers vidéo sont réellement adaptées à la requête de recherche formulée.

Le résultat de la recherche peut comprendre plusieurs séquences issues de plusieurs fichiers vidéo différents et/ou plusieurs séquences issues du même fichier vidéo numérique.

On notera d’ailleurs qu’au moins dans le premier cas de figure, la notion de cohérence temporelle entre les séquences de fichiers vidéo issues de la recherche est absente, ce qui va bien au-delà des possibilités des moteurs de recherche de vidéos actuels. Le chapitrage est alors un chapitrage à cheval sur plusieurs fichiers vidéo numériques.

La cohérence temporelle des séquences d’origine peut ne pas être respectée, même dans le cas où les séquences formant la liste retournée en réponse à la requête de recherche sont issues d’un même fichier vidéo numérique d’origine, puisque c’est la pertinence des séquences par rapport au critère de recherche qui fixe leur ordre d’apparition dans cette liste. La pertinence des séquences par rapport au critère de recherche est par exemple évaluée suivant des critères logiques et mathématiques, qui permettent d’attribuer un score à chaque séquence en fonction d’une requête. Les séquences sont alors présentées par ordre de score décroissant. Des étapes de filtrage préalables (langue, origine géographique, dates, ...) peuvent être prévues.

Dans un mode de réalisation particulier, lors de l’indexation, un poids plus élevé est affecté aux descripteurs secondaires qu’aux descripteurs primaires pour que le résultat de la recherche se base plus sur le contenu de la séquence que sur le contenu du fichier vidéo numérique dans sa globalité.

Grâce à l’architecture d’indexation (primaire et secondaire), un utilisateur peut donc réaliser plusieurs tâches dynamiquement à partir de fonctionnalités de recherche en texte intégral, de concepts sémantiques, de thématiques ou de filtres/facettes multicritères.

Le module 6 de recherche peut comprendre une interface utilisateur, telle qu’un ordinateur, une tablette, un smartphone par exemple.

Le module 7 éditeur de vidéo peut comprendre une interface utilisateur, telle qu’un ordinateur, une tablette, un smartphone par exemple.

L’interface utilisateur peut être commune aux modules 6 et 7.

L’utilisateur peut notamment, via l’une ou l’autre de ces interfaces : à partir de chaque séquence virtuelle, procéder à l’extraction de la séquence virtuelle à partir du fichier vidéo numérique pour produire un extrait vidéo qu’il peut visualiser, par exemple en streaming, ou enregistrer sous forme d’un nouveau fichier vidéo numérique. Dans le cas où un extrait vidéo est visualisé, il peut optionnellement visualiser simultanément les descripteurs, endogènes et/ou, le cas échéant exogènes, secondaires et/ou primaires associés à la séquence extraite.

- Faire un résumé à partir d’un fichier vidéo (soit par le « natural language Processing » pour des cours en lignes, soit par la reconnaissance d’images pour résumé de séquences sportives) ;

Constituer des playlists en associant des séquences similaires et/ou des séquences réponses à une requête, ces séquences étant potentiellement issues de différents fichiers vidéo d’origine et organisées dans la playlist suivant un critère autre qu’un critère temporel ; - Faire un montage virtuel en associant des séquences similaires et/ou des séquences réponses à une requête, ces séquences étant potentiellement issues de différents fichiers vidéo d’origine et organisées dans la playlist suivant un critère autre qu’un critère temporel ;

- Naviguer au sein de la playlist ou de la nouvelle vidéo ainsi montée, puisque ces dernières sont automatiquement chapitrées grâce au système d’indexation secondaire. Il est notamment possible de déclencher la lecture d’un chapitre au choix ou encore d’interrompre et de reprendre le défilement dynamique des extraits vidéo à partir d’une interface graphique adéquate.

- Synchroniser les extraits vidéo avec un "second écran" de type tableau de bord présentant des informations enrichies provenant de métriques ou de statistiques, issues d’un calcul d’indicateurs extraits des extraits vidéo. L’analyse des données peut alors éventuellement être couplée avec l’analyse vidéo. Le tableau de bord peut aussi présenter d’autres informations, telles que des définitions ou des "en savoir plus" issu du web encyclopédique, des cartes géographiques, des graphes ...

L’interface utilisateur peut comprendre une interface graphique 55 comprenant une zone 52 dédiée à la formulation de la requête de recherche et à l’affichage de ses résultats, une zone de visionnage des extraits vidéo (écran 1, référence 53), une seconde zone d’affichage (ou encore écran 2, référence 54), synchronisée avec l’écran 1 et une zone de télécommande virtuelle 51.

Lorsqu’une playlist est obtenue, dans un mode de réalisation particulier, chaque marqueur de fin de séquence de chaque séquence virtuelle associée à un extrait de la playlist est : plurimodal principal ou

- plurimodal secondaire et issu de trois modalités.

Cette disposition permet d’accroître la cohérence sémantique de la playlist dans son ensemble et sa cohérence par rapport au critère de recherche formulée.

La navigation peut grâce au système d’indexation primaire et secondaire peut être étendue en-dehors de la playlist sélectionnée : il est par exemple possible, à partir d’une séquence donnée de la playlist, de prolonger la lecture du fichier vidéo numérique duquel est issu la séquence au-delà de cette séquence en déplaçant les marqueurs de début et/ou de fin de séquence.

Des effets visuels, tels que, de manière non exhaustive, des ralentis, des agrandissements, des répétitions, peuvent être appliqués sur la playlist, soit au cours du visionnage, un ajout de texte, un arrêt sur image, etc., soit pour le montage d’un nouveau fichier vidéo numérique. Des effets sonores, tels qu’à titre non limitatif, la modification d’un fond sonore, un ajout de commentaire ou d’un autre son, peuvent être appliqués sur la playlist, soit au cours du visionnage, soit pour le montage d’un nouveau fichier vidéo numérique. La constitution d’une playlist ou le montage d’une nouvelle vidéo peut être entièrement automatisée à partir de la formulation de la requête de recherche. Toutefois, comme le système se comporte comme une tête de lecture virtuelle qui se déplace dynamiquement de séquence en séquence, à tout moment, si l’interface graphique du module 6 lui en donne la possibilité, l’utilisateur peut agir sur la playlist ou la nouvelle vidéo.

Dans un mode de réalisation, l’interface graphique du module 7 éditeur de vidéo propose ainsi des options de navigation sous forme de lecteur vidéo amélioré permet d’accéder au résumé quand le résultat de la recherche est une vidéo entière ou d’un zapping interactif au sein des séquences sélectionnées et agrégées. Un mode de réalisation d’une telle interface graphique 55, pour le montage ou le visionnage d’une playlist, peut être visualisé sur la Fig. 5a. Des descripteurs sélectionnables sont positionnés à gauche de l’écran 1 de visionnage de la playlist, la playlist peut être affichée au-dessus de l’écran 1, les descripteurs liés à la recherche de l’utilisateur sont affichés au- dessus de la playlist. La télécommande virtuelle 51 se situe en dessous de la playlist. Un second écran en lien avec l’extrait vidéo correspondant à la séquence virtuelle en cours de visionnage se situe à droite de la playlist et permet d’afficher des graphiques ou d’autres informations utiles en lien avec la playlist.

La Fig. 5b représente un autre mode de réalisation de l’interface graphique du dispositif 8 dans lequel des descripteurs sélectionnables sont positionné à gauche de l’écran de visionnage de la playlist, la playlist est visionnée dans l’écran 1 (référence 53), les descripteurs liés à la recherche de l’utilisateur sont situés au-dessus de la playlist et la télécommande virtuelle 51 se situe en dessous de la playlist

La Fig. 6 représente les actions effectuées lors de Futilisation de chaque bouton de la télécommande virtuelle sur un exemple de playlist créé à partir de trois fichiers vidéo numériques, la playlist étant composé à titre d’exemple de trois extraits différents.

La télécommande virtuelle comprend par exemple au moins 5 boutons virtuels.

Le bouton al permet le visionnage de l’extrait vidéo correspondant à la séquence en cours et l’arrêt du visionnage.

Lors de la pression du bouton a2, la lecture de l’extrait vidéo correspondant à la séquence en cours de visionnage sera prolongée dans le fichier vidéo numérique d’origine au-delà de la durée prévue pour cette séquence, une seconde pression du bouton a2 alors que le visionnage n’a pas encore dépassé la limite temporelle prévue pour la séquence annule la pression première du bouton a2, une seconde pression du bouton a2 lors du visionnage du fichier vidéo numérique en dehors de la limite temporelle prévue, arrête le visionnage du fichier vidéo numérique d’origine et reprend la playlist à la séquence suivante.

Le bouton a3 permet de revenir au début de la séquence précédant la séquence en cours de visionnage. Le bouton a4 permet de revenir au début (au timecode du marqueur de début) de la séquence en cours de visionnage.

Le bouton a5 permet d’arrêter le visionnage de la séquence en cours et lance la lecture de la séquence suivante.

D’autres boutons virtuels sont susceptibles d’être rajoutés :

- Un bouton (« -N s »), qui permet de revenir N secondes en arrière du fichier vidéo numérique de la séquence en cours permettant de revoir une séquence ou de voir N secondes avant le marqueur de début de la séquence virtuelle en cours ;

- Un bouton virtuel (« + Ns »), ce bouton permet d’avancer de N secondes en avant du fichier vidéo numérique de la séquence en cours permettant de sauter une séquence ou de voir 10 secondes après le marqueur de fin de la séquence virtuelle en cours.

Les boutons virtuels permettent d’interagir avec les marqueurs de début et de fin de séquence en arrière-plan.

La télécommande virtuelle permet donc une navigation souple au sein de la playlist automatique d’extraits vidéo de fichiers numériques, l’utilisateur pouvant à volonté visionner les extraits sélectionnés dans l’ordre de la playlist ou dans un ordre qui lui convient mieux voire étendre le visionnage d’un extrait avant ou après les marqueurs de découpe, et ce sans que des fichiers associés à chaque extrait ne soient créées et ne doivent être ouverts et/ou fermés pour passer d’un extrait à l’autre. Le confort et les potentialités de la navigation sont donc considérablement améliorées par rapport à ce qui est possible avec une playlist « statique » au sens de l’art antérieur.

Les Fig. 7a et Fig. 7b représentent deux exemples d’interface graphique 55.

La figure 7a représente une interface graphique du procédé informatisé, comprenant un premier écran 53 pour le visionnage de la playlist, un second écran 54 pour un graphique en lien avec la séquence en cours de visionnage et une télécommande virtuelle 51 située en dessous des deux écrans pour naviguer dans la playlist (dans laquelle les extraits vidéos sont disposés à la suite les uns des autres), ainsi qu’un bouton servant à mettre en plein écran la playlist.

La figure 7b représente une interface graphique 56 du procédé informatisé, comprenant un premier écran 53 pour le visionnage de la playlist, un second écran 54 pour mettre des messages en lien avec la vidéo ou pour communiquer avec d’autres utilisateurs, une télécommande virtuelle 51 située en dessous des deux écrans pour naviguer dans la playlist et un bouton servant à mettre en plein écran la playlist.

Lorsqu’un résultat de recherche ne comprend que des séquences virtuelles identifiées dans un seul et même fichier vidéo numérique, la playlist constituée d’extraits sur la base de ce résultat de recherche peut être exhaustive. Elle peut aussi ne contenir que les extraits considérés comme essentiels par rapport à des critères de recherche spécifiés par Eutilisateur.

Un score peut notamment être défini pour classer les séquences virtuelles de fichiers vidéo numériques en deux catégories : « essentiels » et « d’ornement » en fonction du nombre de descripteurs trouvés.

Lorsqu’un résultat de recherche comprend des séquences virtuelles issues de fichiers vidéo numériques différents, la playlist constituée d’extraits sur la base de ce résultat de recherche peut ne contenir que les extraits associés à des séquences virtuelles identifiées comme essentielles par rapport à des critères de recherche spécifiés par futilisateur.

La notion de résumé peut être définie par rapport à un domaine particulier. Dans le cas du sport, et en particulier du football, le résumé peut être construit à partir de mots-clés fournis par l’utilisateur ou définis au préalable, par exemple {but, carton jaune, carton rouge, changement de joueur, mi-temps}, les séquences pertinentes étant présentées dans l’ordre temporel du fichier vidéo numérique initiale dont elles sont issues.

Il est possible de naviguer dans cette playlist ou la nouvelle vidéo en sélectionnant ou désélectionnant certaines scènes, en vue d’un montage vidéo en temps réel, par exemple au travers d’une interface graphique comprenant une barre de menu et des boutons de contrôle activables par un clic souris, tels que « marche », « avance rapide », « arrêt », « sélection chapitre », ...

La recherche est possible en mode « plein texte » (ou encore « texte intégral ») et en mode recherche « à facettes », avec éventuellement une saisie semi-automatique. Les réponses facettées permettent d’affiner les critères de recherche et sont combinées avec des mots en texte intégral.

Par exemple, pour l’exemple du domaine du football, il est possible de réaliser une playlist comportant des buts sur corners de toutes les équipes de ligue 1 en Lrance sur un an à domicile dans le dernier 1/4 d’heure de match en une durée de l’ordre de 10 fois inférieure à celle nécessaire sur une plateforme professionnelle (Instat/Dartfish/Sportscode couplés aux data providers Opta/Bombstats), et la playlist n’est composée que des séquences de matches pertinentes et non de la totalité des matches.

Grâce au système d’indexation par héritage, les fichiers vidéo (dans l’exemple précédent, les matches) dont sont issues les séquences sont connues. Il est donc possible de prévoir une option permettant de visionner en partie ou en totalité les fichiers vidéo d’origine des séquences si nécessaire.

L’interfaçage entre le module 6 « front-end » et le niveau « back-end » composé des modules 1 à 5 peut se faire quel que soit le support du module 6 (ordinateur, tablette, smartphone, ... ) éventuellement sans recourir à une application propriétaire. Cela est notamment réalisable avec des technologies accessibles en Open Source, telles que la bibliothèque React du JavaScript.

Optionnellement, le dispositif peut être intégré à un réseau social, et proposer deux profils d’utilisation : les créateurs de fichiers vidéo par montage au moyen du module 7 éditeur de vidéo et les visionneurs (« followers ») qui suivent ces créateurs.

L’historique de navigation sur une playlist d’extraits de fichiers vidéo numériques obtenue suivant l’invention peut être enregistré. Il peut ensuite être partagé dans un réseau social ou utilisé pour monter de manière semi-automatique un nouveau fichier vidéo numérique.

La Fig. 8 représente une interface graphique du dispositif 8 comprenant un écran pour la représentation d’une carte mentale (« mindmap » en anglais) d’un répertoire de séquences ou de listes automatiques ou d’extraits ou de playlist enregistrés par l’utilisateur, une partie des sauvegardes étant publique et l’autre partie privée, en dessous de cet écran plusieurs onglets sont sélectionnables : Mindmap, Chatbot, Recherche par facette, Réseau social et éditeur vidéo.

La Fig. 9 représente une interface graphique 56 du dispositif 8, comprenant un écran pour la représentation du Chatbot interactif permettant d’effectuer une recherche de playlist ou de séquences au travers d’une discussion par mot clé, en dessous de cet écran plusieurs onglets sont sélectionnables : Mindmap, Chatbot, Recherche par facette, Réseau social et éditeur vidéo.

La Fig. 10 représente une interface graphique du dispositif 8, comprenant un écran pour la représentation de la recherche par facette, regroupant des descripteurs sous d’autres descripteurs plus généraux, permettant de rechercher par arborescence, en dessous de cet écran plusieurs onglets sont sélectionnables : Mindmap, Chatbot, Recherche par facette, Réseau social et éditeur vidéo.

La Fig. 11 représente une interface graphique du dispositif 8, comprenant un écran pour le réseau social intégré à l’invention, les utilisateurs partagent les playlists trouvées ou créées, en dessous de cet écran plusieurs onglets sont sélectionnables : Mindmap, Chatbot, Recherche par facette, Réseau social et éditeur vidéo.

La Fig. 12 représente une interface graphique du dispositif informatisé 8, comprenant un écran pour l’édition de vidéo, l’utilisateur peut modifier l’ordre des extraits et intégrer les extraits qu’il souhaite dans une playlist, en dessous de cet écran plusieurs onglets sont sélectionnables : Mindmap, Chatbot, Recherche par facette, Réseau social et éditeur vidéo.

LISTE DES SIGNES DE RÉFÉRENCE

1 : module d’acquisition

2 : module répartiteur

3 : module d’analyse multimodale 3 a : analyseur suivant la modalité image 3b : analyseur suivant la modalité audio 3 c : analyseur suivant la modalité texte 3d : analyseur suivant la modalité action 4 : module d’enrichissement

4a : base de données libre d’accès et d’exploitation 4b : web services 4c : autre type de base de données 5 : module séquenceur 6 : client

7 : module éditeur vidéo

8 : dispositif informatisé de séquençage de fichiers vidéo numériques

21 : marqueur de séquence candidat plurimodal principal

22 : marqueur de séquence candidat plurimodal secondaire tri-modalités 23 : marqueur de séquence candidat plurimodal secondaire bi-modalités

51 : télécommande virtuelle

52 : zone dédiée à la formulation de la requête de recherche et à l’affichage de ses résultats

53 : zone de visionnage des extraits vidéo (écran 1)

54 : zone d’affichage synchronisée avec l’écran 1 55 : interface graphique utilisateur

Claims

REVENDICATIONS

1. Procédé informatisé de dé-linéarisation audiovisuelle permettant un séquençage d’un ou plusieurs fichiers vidéo numériques et une indexation des séquences issues du séquençage, en découpant virtuellement par marquage temporel le ou les fichiers vidéo numériques en des séquences virtuelles, chaque séquence virtuelle étant définie par deux marqueurs temporels de séquence et des descripteurs associés, le procédé comprenant les étapes suivantes : a. réception d’un ou plusieurs fichiers vidéo numériques à analyser ; b. indexation de chacun desdits fichiers vidéo numériques dans un index primaire au moyen de descripteurs endogènes, dits primaires, associés permettant d’identifier chaque fichier vidéo numérique ; c. extraction automatique des flux de données audio, image, et texte de chacun desdits fichiers vidéo numériques ; d. au moyen d’une pluralité de dispositifs informatisés mettant en œuvre un algorithme d’apprentissage automatique choisis et/ou entraînés pour une typologie de fichiers vidéo numériques définie au préalable, analyse automatique, fichier par fichier de chacun desdits un ou plusieurs fichiers vidéo numériques, selon les quatre modalités : modalité image, modalité audio, modalité texte, modalité action permettant d’identifier les groupes d’images successives formant une action donnée, l’analyse produisant de manière automatique un ou plusieurs marqueurs temporels de découpe unimodaux pour chacune des modalités, un ou plusieurs descripteurs étant associés à chacun des marqueurs temporels de découpe unimodaux, e. production automatique, à l’issue de l’analyse de chacun desdits un ou plusieurs fichiers vidéo numériques, de marqueurs temporels de séquence candidats, dans le but de délimiter des séquences virtuelles, et des descripteurs associés à ces marqueurs temporels de séquence candidats, qui sont :

- soit des marqueurs temporels de découpe unimodaux desdits fichiers vidéo numériques, et qui sont appelés à l’issue de cette étape marqueurs temporels de séquence candidats unimodaux ;

- soit, pour chacun desdits fichiers vidéo numériques pris isolément, les codes temporels correspondants auxdits marqueurs temporels de découpe unimodaux sont comparés et, à chaque fois qu’au moins deux marqueurs temporels de découpe unimodaux issus de modalités d’analyse différentes sont séparés par un intervalle de temps inférieur à une durée prédéterminée principale (T2), un marqueur temporel de séquence candidat plurimodal, en lien mathématique avec les au moins deux marqueurs de découpe unimodaux, est créé ; f. pour chacun desdits fichiers vidéo numériques analysés, en fonction d’une borne inférieure et d’une borne supérieure définies pour déterminer la durée minimale et la durée maximale de chaque séquence, par rapport à la typologie du ou des fichiers vidéo numériques,

- chaque paire de marqueurs de séquence présentant un marqueur de début de séquence et un marqueur de fin de séquence, de sorte que la durée de chaque séquence retenue soit comprise entre lesdites bornes inférieure et supérieure,

- ces paires de marqueurs de séquence étant associées aux descripteurs associés auxdits marqueurs temporels de séquence candidats sélectionnés, ces descripteurs étant dès lors dits « descripteurs endogènes secondaires » ; g. indexation, dans un index secondaire qui est en relation d’héritage par rapport audit index primaire, de toutes les paires de marqueurs de séquence au moyen des descripteurs associés permettant l’identification de chaque séquence, les séquences virtuelles étant identifiables et aptes à être recherchées au moins par les descripteurs endogènes secondaires et les descripteurs endogènes primaires.

2. Procédé informatisé de dé-linéarisation audiovisuelle suivant la revendication 1 caractérisé en ce qu’un extrait vidéo associé à une séquence virtuelle, obtenu par visualisation du fragment de fichier délimité par les deux marqueurs de séquence de la séquence virtuelle présente une unité de sens qui résulte de l’analyse automatique de chaque fichier vidéo numérique selon les quatre modalités et de la découpe virtuelle par rapport à cette analyse.

3. Procédé informatisé de dé-linéarisation audiovisuelle suivant la revendication 1 ou la revendication 2, dans lequel au moins un des deux marqueurs de séquence de chaque paire de marqueurs de séquence sélectionnée à l’étape f, est un marqueur temporel de séquence candidat plurimodal et est alors dit marqueur de séquence plurimodal, et avantageusement chaque marqueur de séquence de chaque paire de marqueurs de séquence sélectionnée est un marqueur de séquence plurimodal.

4. Procédé informatisé de dé-linéarisation audiovisuelle selon l’une des revendications 1 à 3, dans lequel à l’étape f, on distingue deux types de marqueurs de séquence plurimodaux :

- un marqueur de séquence plurimodal créé à partir de quatre marqueurs temporels de découpe unimodaux issus des quatre modalités différentes séparés deux-à-deux par un intervalle de temps inférieur à ladite durée prédéterminée principale (T2) est dit marqueur de séquence plurimodal principal et

- un marqueur de séquence plurimodal créé à partir de deux ou trois marqueurs temporels de découpe unimodaux issus d’autant de modalités parmi les quatre modalités, séparés deux-à- deux par un intervalle de temps inférieur à ladite durée prédéterminée principale (T2) est dit marqueur de séquence plurimodal secondaire.

5. Procédé informatisé de dé-linéarisation audiovisuelle selon l’une des revendications 1 à 4, dans lequel au moins l’un des marqueurs de chaque paire de marqueurs de séquence est un marqueur de séquence plurimodal principal.

6. Procédé informatisé de dé-linéarisation audiovisuelle selon l’une des revendications 1 à 5, dans lequel la modalité action est une modalité d’au moins un des deux marqueurs de séquence de la paire de marqueurs de séquence sélectionnée.

7. Procédé informatisé de dé-linéarisation audiovisuelle selon l’une des revendications 1 à 6, dans lequel des poids sont affectés à chacune des modalités pour la production des marqueurs de séquence candidats à l’étape e et/ou la sélection des marqueurs de séquence à l’étape f.

8. Procédé informatisé de dé-linéarisation audiovisuelle suivant la revendication 7, dans lequel :

- pour des fichiers vidéo à fort contenu informationnel par la parole, le poids de la modalité texte est supérieur à celui des trois autres modalités.

9. Procédé informatisé de dé-linéarisation audiovisuelle suivant l’une quelconque des revendications 1 à 8, dans lequel on affecte un poids aux descripteurs endogènes secondaires ainsi qu’aux descripteurs endogènes primaires pour caractériser leur importance dans les séquences, et ce poids est plus grand pour les descripteurs endogènes secondaires que celui des descripteurs endogènes primaires.

10. Procédé informatisé de dé-linéarisation audiovisuelle suivant l’une quelconque des revendications 1 à 9, dans lequel les descripteurs endogènes secondaires sont dits « unimodaux » lorsqu’ils correspondent à une seule modalité et sont dits « plurimodaux » lorsqu’ils sont détectés pour plusieurs modalités.

11. Procédé informatisé de dé-linéarisation audiovisuelle suivant l’une quelconque des revendications 1 à 10, dans lequel l’étape f présente ces sous étapes, pour chaque fichier vidéo numérique, pour réaliser les séquences virtuelles : i) - sélection d’un dernier marqueur de fin de séquence, notamment plurimodal, à partir de la fin du fichier vidéo numérique,

- et détermination de la présence d’un marqueur de séquence plurimodal à un code temporel compris entre deux codes temporels extrêmes, calculés par soustraction de la borne inférieure au code temporel du marqueur de fin sélectionné et par soustraction de la borne supérieure au code temporel du marqueur de fin sélectionné,

- sinon, détermination de la présence d’un marqueur unimodal dont la modalité est fonction de la typologie du fichier vidéo numérique entre les deux codes temporels extrêmes

- sélection du marqueur unimodal comme dernier marqueur de début de séquence si la présence est confirmée,

- sinon, le dernier marqueur de début de séquence est désigné par la soustraction au code temporel du dernier marqueur de fin sélectionné de la borne supérieure ; ii) on réitère l’étape i) pour sélectionner un avant-dernier marqueur de début de séquence, le marqueur de début de séquence sélectionné à l’issue de l’étape i précédente jouant le rôle de dernier marqueur de fin de séquence sélectionné au début de l’étape i précédente ; iii) on réitère ainsi de suite la sous-étape ii) jusqu’au début du fichier vidéo numérique.

12. Procédé informatisé de dé-linéarisation audiovisuelle suivant l’une quelconque des revendications 1 à 11, dans lequel ladite durée prédéterminée principale (T2) est inférieure à 5 secondes, et optionnellement ladite durée maximale de chaque séquence sélectionnée est égale à deux minutes.

13. Procédé informatisé de dé-linéarisation audiovisuelle suivant l’une quelconque des revendications 1 à 12, dans lequel au moins une étape supplémentaire d’enrichissement de l’indexation des séquences virtuelles par des descripteurs secondaires exogènes est effectuée à l’étape g.

14. Procédé informatisé de dé-linéarisation audiovisuelle selon l’une des revendications précédentes, dans lequel les descripteurs secondaires au moyen desquels les séquences identifiées sont indexées sont enrichis d’un indicateur chiffré ou lettré, tel qu’un score global d’une carte de collection numérique, calculé pour chaque séquence virtuelle à partir des descripteurs secondaires de la séquence et/ou des descripteurs primaires du fichier vidéo numérique dans lequel la séquence a été identifiée.

15. Procédé informatisé de dé-linéarisation audiovisuelle suivant l’une quelconque des revendications 1 à 14, dans lequel la modalité action comprend les sous- modalités {détection de changement de plans, détection d’action suivant une typologie de fichiers vidéo numérique}, et en ce que chacune des sous-modalités de la modalité action permet de générer un jeu particulier de marqueurs temporels de découpe unimodaux.

16. Procédé informatisé de séquençage et d’indexation suivant l’une quelconque des revendications précédentes, dans lequel l’analyse suivant la modalité audio comprend la détection de bruit, la détection de musique et/ou la transcription de la parole en un flux texte.

17. Procédé informatisé de séquençage et d’indexation suivant l’une quelconque des revendications précédentes, dans lequel l’analyse suivant la modalité image comprend les sous-modalités { reconnaissance de forme ou d’objets ; agrégation de plans ; reconnaissance optique de caractères}, et en ce que chacune des sous-modalités de la modalité image permet de générer un jeu particulier de descripteurs unimodaux.

18. Procédé informatisé de production automatique d’une playlist ordonnée d’extraits vidéo de fichiers vidéo numériques, avec un flux de transmission de données, les fichiers vidéo numériques étant indexés dans un index primaire stocké dans une base de données documentaire contenant les fichiers vidéo numériques, avec des descripteurs primaires, les fichiers vidéo numériques ayant, au préalable et au moyen du procédé informatisé de dé linéarisation audiovisuelle suivant l’une quelconque des revendications 1 à 17, été découpés virtuellement par marquage temporel en des séquences virtuelles qui sont définies par deux marqueurs temporels de séquence formant une paire de marqueurs de séquence et par des descripteurs secondaires associés, les paires de marqueurs de séquence virtuelle et les descripteurs secondaires associés étant mémorisés dans un index secondaire stocké dans une base de données documentaire, l’index secondaire étant en relation d’héritage avec l’index primaire, ces index étant accessibles via une interface graphique, le procédé comprenant :

1. la formulation d’au moins une requête de recherche ;

2. la transmission de ladite requête de recherche à un serveur de recherche associé à ladite base de données ;

3. la détermination et la réception à partir de la base de données documentaire dudit serveur, en réponse à ladite requête de recherche transmise, du résultat de recherche qui est une liste automatique de paires de marqueurs temporels de séquences et des descripteurs associés, suivant un ordre qui est fonction des descripteurs associés à chaque séquence virtuelle et de la formulation de la requête de la recherche, les séquences virtuelles étant identifiables et aptes à être recherchées par les descripteurs secondaires et les descripteurs primaires ;

4. l’affichage et le visionnage à partir d’une télécommande virtuelle de la playlist qui présente tous les extraits vidéo associés à la liste automatique ordonnée de paires de marqueurs temporels et reçue lors de l’étape 3, sans création de nouveau fichier vidéo numérique, la télécommande virtuelle permettant la navigation sur la playlist, chaque extrait vidéo de la playlist :

- étant associé à une séquence virtuelle, et

- étant appelé lors du visionnage de la playlist, via le flux de transmission de données à partir du fichier vidéo numérique indexé dans l’index primaire, dans lequel a été identifiée ladite séquence virtuelle indexée dans l’index secondaire.

19. Procédé informatisé de production automatique d’une playlist ordonnée d’extraits vidéo de fichiers vidéo numériques selon la revendication 18, dans lequel :

20. Procédé informatisé de production automatique d’une playlist ordonnée d’extraits vidéo de fichiers vidéo numériques selon la revendication 18 ou la revendication 19, dans lequel le procédé permet les opérations suivantes de navigation à partir de la télécommande virtuelle et du flux de transmission de données : a. lecture, arrêt et reprise de l’extrait en cours de visionnage de la playlist qui comporte tous les extraits vidéo associés à la liste automatique obtenue à l’étape 3; b. pointage d’un extrait dans la playlist qui comporte tous les extraits vidéo, par avance rapide ou retour rapide ; c. sortie temporaire de l’extrait de la playlist qui comporte tous les extraits vidéo, pour visionner le fichier vidéo numérique d’origine de l’extrait, sans contraintes temporelles liées aux marqueurs temporels de début et de fin de la séquence virtuelle associée à l’extrait vidéo.

21. Procédé informatisé de production automatique d’une playlist ordonnée d’extraits vidéo de fichiers vidéo numériques selon la revendication 20, dans lequel le procédé permet l’opération additionnelle suivante : d. nouvelle sortie temporaire du visionnage du fichier vidéo numérique d’origine de l’extrait en cours de lecture depuis l’opération c), pour visionner lors de l’étape d) un résumé créé automatiquement et préalablement à ce visionnage à partir de ce seul fichier numérique d’origine.

22. Procédé informatisé de production automatique d’une playlist ordonnée d’extraits vidéo de fichiers vidéo numériques selon l’une des revendications 20 et 21, dans lequel le procédé permet l’opération additionnelle suivante : e. enregistrement de l’historique de navigation sur la playlist des séquences vidéo et création d’un nouveau fichier numérique qui est cet historique de navigation.

23. Procédé informatisé de production automatique d’une playlist ordonnée d’extraits vidéo de fichiers vidéo numériques selon l’une des revendications 18 à 22, dans lequel ladite requête de recherche formulée à l’étape 1 est multicritères, et combine une recherche sur le texte intégral, une recherche à facettes et en ce que les critères pour réaliser l’ordre pour ladite playlist automatique comprennent des critères chronologiques et/ou sémantiques et/ou de pertinence.

24. Procédé informatisé de production automatique d’une playlist ordonnée d’extraits vidéo de fichiers vidéo numériques selon l’une des revendications 18 à 23, dans lequel ladite requête de recherche formulée à l’étape 1 est effectuée de manière automatique à partir d’un ou plusieurs critères spécifiés par l’utilisateur choisis dans une liste comprenant : la durée souhaitée d’une playlist automatique ainsi que des critères sémantiques.

25. Procédé informatisé de production automatique d’une playlist ordonnée d’extraits vidéo de fichiers vidéo numériques selon l’une des revendications 18 à 24, dans lequel ladite requête de recherche formulée à l’étape 1 est réalisée par un robot conversationnel.

26. Procédé informatisé de production automatique d’une playlist ordonnée d’extraits vidéo de fichiers vidéo numériques selon l’une des revendications 18 à 25, comprenant une étape de visualisation dans laquelle l’utilisateur visualise sur un premier écran un extrait vidéo de la playlist, et des descripteurs de la séquence virtuelle associée à l’extrait vidéo sur un deuxième écran synchronisé avec l’extrait vidéo.

27. Procédé informatisé de production automatique d’une playlist ordonnée d’extraits vidéo de fichiers vidéo numériques selon l’une des revendications 18 à 26, comprenant une étape de visualisation dans laquelle les descripteurs associés aux séquences virtuelles sont visualisés sur les extraits.

28. Procédé informatisé de production automatique d’une playlist ordonnée d’extraits vidéo de fichiers vidéo numériques selon l’une des revendications 18 à 27, dans lequel la technologie utilisée est ElasticSearch.

29. Procédé informatisé de production automatique d’une playlist ordonnée d’extraits vidéo de fichiers vidéo numériques selon l’une des revendications 18 à 28, dans lequel le procédé accède aux fichiers vidéos en mode « streaming ».

30. Liste automatique de paires de marqueurs de séquence et des descripteurs associés issus du procédé de procédé informatisé de production automatique d’une playlist ordonnée d’extraits vidéo de fichiers vidéo numériques selon l’une des revendications 18 à 29, présentant des descripteurs endogènes et exogènes cohérents avec la requête de recherche.

31. Liste automatique de paires de marqueurs de séquence et des descripteurs associés selon la revendication 30, dans laquelle les marqueurs temporels de séquence sont déterminés par une approche multimodale par analyse automatique, fichier par fichier de chacun desdits un ou plusieurs fichiers vidéo numériques, selon au moins deux des quatre modalités : modalité image, modalité audio, modalité texte, modalité action.

32. Liste automatique de paires de marqueurs de séquence et des descripteurs associés selon l’une des revendications 30 et 31, dans laquelle au moins deux marqueurs temporels de séquence sont déterminés de façon aléatoire ou unimodale.

33. Procédé informatisé de montage avec découpe virtuelle sans création de fichier vidéo numérique, à partir du procédé informatisé de production automatique d’une playlist ordonnée d’extraits vidéo de fichiers vidéo numériques selon l’une des revendications 18 à 29, comprenant les étapes suivantes :

II. navigation sur l’au moins une playlist automatique d’extraits vidéo de fichiers vidéo numériques par flux de transmission des données ;

III. sélection par l’utilisateur d’une ou plusieurs séquences virtuelles associée à l’au moins une playlist automatique d’extraits vidéo de fichiers vidéo numériques, pour réaliser une nouvelle playlist d’extraits vidéo dont l’ordre est modifiable par l’utilisateur.

34. Procédé informatisé de montage avec découpe virtuelle selon la revendication précédente 33, comprenant l’une des étapes suivantes :

- modification de ladite nouvelle playlist automatique d’extraits vidéo par ajout et/ou retrait d’extraits vidéo à ladite nouvelle playlist ;

- modification d’un ou de plusieurs extraits vidéo par prolongation ou réduction de la durée des séquences virtuelles associées aux extraits vidéo de ladite nouvelle playlist, par déplacement des marqueurs de début et de fin de chaque séquence virtuelle ;

- modification des extraits vidéo par un effet visuel ou un effet sonore.

35. Utilisation des extraits vidéo ou d’une playlist d’extraits vidéo obtenue par le procédé de production automatique d’une playlist ordonnée d’extraits vidéo de fichiers vidéo numériques selon l’une des revendications 18 à 29, ou par le procédé de montage avec découpe virtuelle selon l’une quelconque des revendications 33 à 34, dans un réseau social ou dans un moteur de recherche.

36. Système informatisé comprenant : i. Au moins un module (1) d’acquisition d’un ou plusieurs fichiers vidéo numériques ; ii. Au moins un module (2) répartiteur ; iii. Au moins un module (3) d’analyse multimodale ; iv. Au moins un module (5) de séquençage générant des séquences de fichiers vidéo numériques indexées ; v. Au moins un module (6) de recherche comprenant un client permettant de formuler une requête de recherche, pour la mise en œuvre des étapes :

1. On reçoit par l’intermédiaire du module (1) d’acquisition un ou plusieurs fichiers vidéo numériques à analyser ;

3. On extrait les flux de données audio, images et texte de chacun desdits un ou plusieurs fichiers vidéo numériques ;

4. Au moyen d’une pluralité de réseaux de neurones choisis et/ou entraînés pour une typologie de fichiers vidéo définie au préalable et contenus dans le module (3) d’analyse multimodale, on réalise une analyse fichier par fichier de chacun desdits un ou plusieurs fichiers vidéo numériques selon les quatre modalités : modalité image, modalité audio, modalité texte, modalité action, l’analyse produisant de manière automatique un ou plusieurs marqueurs temporels de découpe unimodaux pour chacune des modalités, un ou plusieurs descripteurs étant associés à chacun des marqueurs temporels de découpe unimodaux;

5. On fournit, à l’issue de l’analyse de chacun desdits un ou plusieurs fichiers vidéo numériques, des marqueurs temporels de séquence candidats, dans le but de déterminer des séquences virtuelles, et les descripteurs associés à ces marqueurs temporels de séquence candidats, qui sont :

- soit des marqueurs temporels de découpe unimodaux desdits fichiers vidéo numériques, qui sont appelés à l’issue de cette étape marqueurs temporels de séquence candidats unimodaux ;

- soit pour chacun desdits fichiers vidéo numériques pris isolément, on compare les codes temporels correspondant auxdits marqueurs temporels de découpe unimodaux et, à chaque fois qu’au moins deux marqueurs de découpe unimodaux issus de modalités d’analyse différentes sont séparés par un intervalle de temps inférieur à une durée prédéterminée principale (T2), on crée un marqueur de séquence candidat plurimodal en lien mathématique avec les au moins deux marqueurs temporels de découpe unimodaux ;

6. Pour chacun desdits fichiers vidéo numériques analysés, on définit en fonction de la typologie dudit fichier vidéo numérique une borne inférieure et une borne supérieure pour la durée d’une séquence et on sélectionne de manière automatique parmi les marqueurs de séquence candidats des paires de marqueurs de séquence, dits marqueurs de début et de fin de séquence, chaque paire de marqueurs de séquence présentant un marqueur de début de séquence et un marqueur de fin de séquence, de sorte que la durée de chaque séquence retenue soit comprise entre lesdites bornes inférieure et supérieure, ces paires de marqueurs de séquence étant associées aux descripteurs associés auxdits marqueurs temporels de séquence candidats sélectionnés, ces descripteurs étant dès lors dits « descripteurs endogènes secondaires »;

7. On indexe au moyen du module (5) de séquençage dans un index secondaire qui est en relation d’héritage par rapport audit index primaire, toutes les paires de marqueurs de séquence au moyen des descripteurs associés permettant G identification de chaque séquence, les séquences étant identifiables et aptes à être recherchés au moins par les descripteurs endogènes secondaires et les descripteurs endogènes primaires ; 8. On formule une requête de recherche de séquences de fichiers vidéo numériques au moyen du module de recherche (6) ; chacun desdits modules (1) à (6) comprenant les moyens de calculs nécessaires, chacun desdits modules (1), (3), (5) et (6) communiquant avec ledit module (2) répartiteur et ledit module (2) répartiteur gérant la répartition des calculs entre lesdits modules (1), (3), (5) et (6).

37. Système suivant la revendication 36 comprenant en outre au moins un module (4) d’enrichissement des descripteurs primaires des fichiers vidéo et/ou secondaires des séquences virtuelles de fichier vidéo numérique par des descripteurs complémentaires exogènes.

38. Système suivant la revendication 36 ou la revendication 37 comprenant en outre un module (7) éditeur de vidéo communiquant avec le module (6) de recherche.