WO2023280946A1 - Procede informatise de de-linearisation audiovisuelle - Google Patents

Procede informatise de de-linearisation audiovisuelle Download PDF

Info

Publication number
WO2023280946A1
WO2023280946A1 PCT/EP2022/068798 EP2022068798W WO2023280946A1 WO 2023280946 A1 WO2023280946 A1 WO 2023280946A1 EP 2022068798 W EP2022068798 W EP 2022068798W WO 2023280946 A1 WO2023280946 A1 WO 2023280946A1
Authority
WO
WIPO (PCT)
Prior art keywords
sequence
digital video
markers
descriptors
playlist
Prior art date
Application number
PCT/EP2022/068798
Other languages
English (en)
Inventor
Boris BORZIC
Elmahdi SADOUNI
Original Assignee
Ecole Nationale Supérieure De L'Électronique Et De Ses Applications
Cy Cergy Paris Université
Centre National De La Recherche Scientifique
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Ecole Nationale Supérieure De L'Électronique Et De Ses Applications, Cy Cergy Paris Université, Centre National De La Recherche Scientifique filed Critical Ecole Nationale Supérieure De L'Électronique Et De Ses Applications
Priority to EP22748259.3A priority Critical patent/EP4335111A1/fr
Publication of WO2023280946A1 publication Critical patent/WO2023280946A1/fr

Links

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/43Processing of content or additional data, e.g. demultiplexing additional data from a digital video stream; Elementary client operations, e.g. monitoring of home network or synchronising decoder's clock; Client middleware
    • H04N21/432Content retrieval operation from a local storage medium, e.g. hard-disk
    • H04N21/4325Content retrieval operation from a local storage medium, e.g. hard-disk by playing back content from the storage medium
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/70Information retrieval; Database structures therefor; File system structures therefor of video data
    • G06F16/73Querying
    • G06F16/732Query formulation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/70Information retrieval; Database structures therefor; File system structures therefor of video data
    • G06F16/73Querying
    • G06F16/735Filtering based on additional data, e.g. user or group profiles
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/70Information retrieval; Database structures therefor; File system structures therefor of video data
    • G06F16/73Querying
    • G06F16/738Presentation of query results
    • G06F16/739Presentation of query results in form of a video summary, e.g. the video summary being a video sequence, a composite still image or having synthesized frames
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/47End-user applications
    • H04N21/472End-user interface for requesting content, additional data or services; End-user interface for interacting with content, e.g. for content reservation or setting reminders, for requesting event notification, for manipulating displayed content
    • H04N21/47202End-user interface for requesting content, additional data or services; End-user interface for interacting with content, e.g. for content reservation or setting reminders, for requesting event notification, for manipulating displayed content for requesting content on demand, e.g. video on demand
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/80Generation or processing of content or additional data by content creator independently of the distribution process; Content per se
    • H04N21/83Generation or processing of protective or descriptive data associated with content; Content structuring
    • H04N21/84Generation or processing of descriptive data, e.g. content descriptors

Definitions

  • the present invention relates to the field of identification and automated processing of digital data, in particular digital video files.
  • the invention relates more specifically to a computerized process for the audiovisual de-linearization of digital video files.
  • a large number of video files cannot be structured a priori. This is the case, for example, of events filmed live, the course of which cannot be predicted before the production of the digital video file.
  • the indexing defined a priori by the producer may not be relevant from the point of view of the user whose search criteria are not always known a priori either.
  • the practice is therefore to label the digital video file as a whole, so that the metadata associated with a digital video file are global, such as name, creation date, file format, viewing time.
  • a set of metadata provides access to a digital video file as a whole when a search for audiovisual content is performed. These metadata are therefore “global”.
  • the difficulty with video content is that it is not self-descriptive, unlike text media.
  • EU document EP3252770A1 proposes a process for the identification and automatic post-processing of audiovisual content.
  • a formal description of the content of the digital video file is provided by an operator, such as a script in the case of a film.
  • After extracting the image (i.e. containing visual data) and audio streams from the audiovisual data these two parts of the audiovisual data are broken down into a set of successive fragments.
  • the formal description of the digital video file is broken down into logical parts.
  • a dialog pattern is generated from the audio stream only.
  • An association of the audiovisual data with the corresponding formal description is achieved by associating logical parts of the formal description to the set of audiovisual data fragments, using the dialogue pattern.
  • a digital video file can then be indexed and then manipulated based on this association.
  • Ue document US6714909B1 is another example in which a method of automating the multimodal indexing process is proposed.
  • a process comprises the following steps:
  • the method described in document EP3252770A1 has the disadvantage of requiring the provision of a formal description of the digital video file.
  • the method described in the document US6714909B1 has the disadvantage of requiring that the content of the audio streams and or texts of the digital video file be semantically structured, that is to say that it is a question of being able to reconstitute an audio content which makes sense by extracting and aggregating footage from a given video. It cannot therefore be implemented to aggregate sequences from different video files or for semantically weakly structured video files.
  • the invention thus aims to propose an automated method of analysis, indexing and editing of a set of digitally possibly weakly structured video files on criteria defined by the user and without a priori indexing of the content of these files.
  • the invention relates to a computerized process for audiovisual de-linearization allowing sequencing of one or more digital video files and indexing of the sequences resulting from the sequencing, by virtually cutting by time stamping the digital video file(s) into virtual sequences, each virtual sequence being defined by two sequence time stamps and associated descriptors.
  • the method comprises the following steps: a. receiving one or more digital video files to be analyzed; b. indexing each of the digital video files in a primary index by means of associated primary endogenous descriptors making it possible to identify each digital video file; vs. automatic extraction of audio, image, and text data streams from each digital video file; d.
  • a multimodal candidate sequence time marker mathematically related to the at least two unimodal sequence markers, is created; f. for each of said digital video files analyzed, according to a lower limit and an upper limit defined to determine the minimum duration and the maximum duration of each sequence, with respect to the typology of the digital video file(s),
  • these pairs of sequence markers being associated with the descriptors associated with the said selected candidate sequence temporal markers, these descriptors therefore being referred to as “secondary endogenous descriptors”; g. indexing, in a secondary index which is in a relationship of inheritance with respect to said primary index, of all the pairs of sequence markers and of the associated descriptors allowing the identification of each sequence, the virtual sequences being identifiable and capable of being searched for less by the secondary endogenous descriptors and the primary endogenous descriptors.
  • sequence a digital video file in sequences presenting a semantic coherence according to one to four different modalities, in the form of virtual sequences delimited by pairs of sequence time markers and indexed by secondary descriptors associated with these sequence time stamps as well as the primary descriptors associated with the digital video file from which the sequences originate.
  • the space in memory used for these sequences corresponds to the space necessary to store the pairs of temporal markers and the associated secondary descriptors. It is in this that the sequencing is said to be virtual.
  • the computerized process for audiovisual de-linearization is characterized in that a video extract associated with a virtual sequence, obtained by viewing the file fragment delimited by the two sequence markers of the virtual sequence has a unit of meaning (in other words a semantic coherence) which results from the automatic analysis of each digital video file according to the four modalities and from the virtual cutting in relation to this analysis.
  • a video extract associated with a virtual sequence obtained by viewing the file fragment delimited by the two sequence markers of the virtual sequence has a unit of meaning (in other words a semantic coherence) which results from the automatic analysis of each digital video file according to the four modalities and from the virtual cutting in relation to this analysis.
  • the virtual sequences can be extracted and the video extracts corresponding to the virtual sequences can be viewed by a user who will perceive its semantic coherence and will be able to attribute an overall meaning to it.
  • At least one of the two sequence markers of each pair of sequence markers selected in step f is a plurimodal candidate sequence temporal marker and is then called a plurimodal sequence marker, and advantageously each sequence marker of each selected sequence tag pair is a multimodal sequence tag.
  • the so-called endogenous descriptors are derived from the same modality, or from one or more modalities different from the modality or modalities from which are derived for the start and end temporal cutting markers sequence of the video extract
  • step f two types of plurimodal sequence markers are distinguished:
  • main plurimodal sequence marker a plurimodal sequence marker created from four unimodal temporal cutting markers resulting from the four different modalities separated two-by-two by a time interval less than the main predetermined duration is called main plurimodal sequence marker and
  • plurimodal sequence marker created from two or three unimodal temporal cutting markers resulting from as many modalities among the four modalities, separated two-by-two by a time interval less than the main predetermined duration is said marker of secondary multimodal sequence.
  • At least one of the tags of each pair of sequence tags is a main multimodal sequence tag.
  • the action modality is a modality of at least one of the two sequence markers of the pair of sequence markers selected.
  • the semantic coherence of a sequence is at least underpinned by the action modality, which plays a special role in many video files.
  • the sequence obtained will be coherent from the point of view of sporting actions.
  • weights are assigned to each of the modalities for the production of candidate sequence markers in step e and/or the selection of sequence markers in step f.
  • the semantic coherence of a sequence can be underpinned in various proportions, possibly adapted to video typologies, by the four modalities. For example, in the field of sport, we can assign a higher weight to the action modality. In the field of online courses, we can assign a higher weight to the text modality.
  • the weight of the action modality is greater than that of the image modality, itself greater than the weight of the text and audio modalities
  • the weight of the text modality is greater than that of the other three modalities. Thanks to this arrangement, the semantic coherence of a sequence can be adapted to a video typology such as a video in the field of sports or to a video with high informational content such as a documentary or an online course.
  • a weight is assigned to the secondary endogenous descriptors as well as to the primary endogenous descriptors to characterize their importance in the sequences, and this weight is greater for the secondary endogenous descriptors than that of the primary endogenous descriptors.
  • the different weights of the endogenous and exogenous descriptors make it possible, when formulating a sequence search query formulated later, to play different roles for these two types of descriptors.
  • the weight of endogenous descriptors is greater than that of exogenous descriptors, the results of a sequence search will be based more on endogenous descriptors than on exogenous descriptors.
  • the secondary endogenous descriptors are said to be “unimodal” when they correspond to a single modality and are said to be “multimodal” when they are detected for several modalities.
  • thermodynamics information on the unimodal or multimodal character of a given secondary endogenous descriptor is kept during the indexing process. For example, if the image modality gives the “thermodynamics” descriptor, and the text modality also gives the “thermodynamics” descriptor, then we can create a “thermodynamics” plurimodal descriptor (which comes from the two previous descriptors and is therefore more robust on the interest of viewing this extract we are interested in thermodynamics).
  • step f of the method presents these sub-steps, for each digital video file, to produce the sequences: i) - selection of a last end-of-sequence marker, in particular multimodal, from the end digital video file,
  • the last sequence start marker is designated by the subtraction from the time code of the last end marker selected from the upper limit; ii), step i) is repeated to select a penultimate sequence start marker, the sequence start marker selected at the end of the previous step i playing the role of last sequence end marker selected at the start of the previous step i; iii) sub-step ii) is repeated in this way until the start of the digital video file.
  • the main predetermined duration is less than 5 seconds, and optionally the maximum duration of each selected sequence is equal to two minutes. so that the candidate sequence markers are close enough in time and the sequencing is fine enough.
  • the sequencing is fine enough, it is possible to constitute virtual sequences whose duration is limited by a relatively low upper limit.
  • the duration of the selected virtual sequences is limited by an upper limit.
  • the time between the two markers of a sequence marker pair is less than 2 minutes, 1 minute, or 30 seconds.
  • step g At least one additional step of enriching the indexing of the virtual sequences by exogenous secondary descriptors is carried out in step g.
  • the sequencing can be repeated to end up with finer sequencing, since additional - exogenous - information has been added.
  • the secondary descriptors by means of which the identified sequences are indexed are enriched with a numerical or lettered indicator, such as an overall score of a digital collection card, calculated for each sequence from the secondary descriptors the virtual sequence and/or the primary descriptors of the digital video file in which the sequence was identified.
  • a numerical or lettered indicator such as an overall score of a digital collection card
  • the results of a subsequent sequence search in the secondary index can be ordered on the basis of this encrypted or lettered indicator.
  • the action modality comprises the sub-modalities: ⁇ detection of change of shots, detection of action according to a typology of digital video files ⁇ , and each of the sub-modalities of the action modality makes it possible to generate a game particular of unimodal cut-out time markers.
  • the analysis according to the audio modality comprises noise detection, music detection and/or transcription of speech into a text stream.
  • the analysis according to the image modality includes the sub-modalities ⁇ shape or object recognition; plan aggregation; optical character recognition ⁇ , and each of the sub-modalities of the image modality makes it possible to generate a particular set of unimodal descriptors.
  • the invention also relates to a computerized method for the automatic production of an ordered playlist of video extracts from digital video files, with a data transmission stream, the digital video files being indexed in a primary index stored in a documentary database containing the digital video files with primary descriptors, the digital video files having been, beforehand and by means of the computerized process of de-linearization according to one of the preceding embodiments, cut virtually by time stamping into virtual sequences which are defined by two sequence time markers forming a pair of sequence markers and by associated secondary descriptors, the pairs of virtual sequence markers and the associated secondary descriptors being stored in a secondary index stored in a documentary database, the index secondary being in inheritance relation with the primary index these index being accessible via a graphical interface.
  • the computerized process of research and automatic production of a playlist of video extracts includes:
  • the stored digital video files have been sequenced, and the virtual sequences of the digital video files have been indexed in the secondary index before the search criteria are formulated and before the search result is received by the client by means of the sequencing process as described above;
  • the ordered automatic playlist is a list of video sequences of the digital video file(s) each corresponding to a virtual sequence of a digital video file, according to an order which is a function of the secondary descriptors associated with each sequence and primary descriptors associated with each video file digital. Thanks to this arrangement, it is possible to select one or more sequences of digital video files obtained at the end of the process for sequencing one or more digital video files, that is to say in an automated manner without required that the user view one or more digital video files in their entirety.
  • This selection can be made by means of a search query and the search is carried out in the secondary index containing the secondary descriptors of the sequences, which is linked to the primary index containing the primary descriptors of the digital video files from which the sequences.
  • the method determines according to the search query and the descriptors of the virtual sequence(s), whether the virtual sequences are essential (the number of descriptors is relevant) or ornamental (the number of descriptors is not relevant with respect to the criterion defined for the essential virtual sequences);
  • the method produced via the transmission stream is an exhaustive playlist video extracts associated with all the essential virtual sequences, or a summary with a selection of video extracts associated with the essential virtual sequences according to criteria specified by the user,
  • the method produces via the transmission stream a playlist of video extracts associated with the so-called “zapping" virtual sequences, of these digital files with a selection of the essential virtual sequences associated with the video extracts according to criteria specified by the user.
  • the method produces via the transmission stream a summary playlist with a selection of video extracts from this digital video file according to criteria specified by the user during his search,
  • the method produces via the transmission stream a playlist of video extracts associated with the so-called “zapping” virtual sequences, of these digital files with a selection of video extracts according to criteria specified by the user during his search.
  • the computerized method for automatically producing a playlist of video extracts allows, after automatic production of an ordered playlist of video extracts from digital video files, the following navigation operations from the virtual remote control and from the data transmission stream:
  • this comprises a single navigation bar for all the video extracts arranged one after the other on the playlist, according to the order of the sequence markers according to the user's request (which presents the descriptors associated with the markers cutting in the secondary index).
  • the method for automatically producing an ordered playlist of video extracts from digital video files allows the following additional operation: d. new temporary output from the viewing of the original digital video file of the extract being played from operation c), to view during step d) a summary created automatically and prior to this viewing from this single original digital file.
  • the method for automatically producing an ordered playlist of video extracts from digital video files allows the following additional operation: e. recording of browsing history on the playlist of video sequences and creation of a new digital file which is this browsing history.
  • the search query formulated in step 1 is multi-criteria, and combines a search on the full text, a faceted search and in that the criteria for carrying out the order for the automatic playlist include criteria chronological and/or semantic and/or relevance.
  • This arrangement makes it possible to formulate search queries as varied as possible, including with suggestions based on facets or criteria, and to obtain an ordered list of results.
  • the search query formulated in step 1 is carried out automatically on the basis of one or more criteria specified by the user chosen from a list comprising: the desired duration of an automatic playlist as well as semantic criteria.
  • the search query formulated in step 1 is carried out by a conversational robot.
  • the computerized method for automatically producing an ordered playlist of video extracts from digital video files comprises a viewing step in which the user displays on a first screen a video extract from the playlist, and descriptors of the virtual sequence associated with the video extract on a second screen synchronized with the video extract.
  • the computerized method for automatically producing an ordered playlist of video extracts from digital video files comprises a viewing step in which the descriptors associated with the virtual sequences are displayed on the extracts. Thanks to these arrangements, the user can view, at the same time as the video extracts, the descriptors on the basis of which the method has considered the sequence as relevant with respect to the search query. In this way, the user can both assign a global meaning to the video extract and compare it to the global meaning which could be attributed to it on the basis of the descriptors which have been automatically associated with it.
  • the technology used is ElasticSearch®.
  • access to the video files is done in “streaming” mode.
  • the invention further relates to an automatic list of pairs of sequence markers and associated descriptors resulting from the computerized method of automatically producing an ordered playlist of video extracts from digital video files, presenting endogenous and exogenous descriptors consistent with the request of research.
  • all the virtual sequences have, as end-of-sequence marker, at least one main multimodal sequence marker or sequence marker resulting from three modalities.
  • the end of sequence marker of each pair of sequence time markers corresponding to each virtual sequence is derived at least from the action modality.
  • the sequence time markers are determined by an approach multimodal by automatic analysis, file by file, of each of said one or more digital video files, according to at least two of the four modalities: image modality, audio modality, text modality, action modality.
  • At least two sequence time markers are determined randomly or unimodally.
  • the invention also relates to a computerized method of editing with virtual cutting without creating a digital video file, from the computerized method of automatic production an ordered playlist of video clips from digital video files comprising the following steps:
  • the computerized method of assembly with virtual cutting comprises the following steps:
  • the playlist of video extracts is generated automatically by a computerized method of searching and automatically producing a playlist having ordered video extracts according to one of the embodiments described above.
  • the invention further relates to the use of video extracts or a playlist of video extracts obtained by the computerized method of research and automatic production of a playlist, or by the editing method according to one of the embodiments described above, in a social network or in a search engine or to constitute a new digital video file.
  • the invention finally relates to a computerized system comprising:
  • At least one acquisition module for one or more digital video files At least one acquisition module for one or more digital video files
  • At least one sequencing module generating sequences of indexed digital video files;
  • At least one search module comprising a client making it possible to formulate a search query for the implementation of the steps:
  • One or more digital video files to be analyzed are received via the acquisition module;
  • Each of said digital video files is automatically indexed in a primary index, based on the endogenous, so-called primary, descriptors of said digital video file;
  • the audio, image and text data streams are extracted from each of the digital video files
  • a file analysis is carried out by file of each of said one or more digital video files according to the four modalities: image modality, audio modality, text modality, action modality, the analysis automatically producing one or more unimodal cutting time markers for each of the modalities, one or more descriptors being associated with each of the single-mode slice time markers;
  • candidate sequence time markers are provided, with the aim of determining virtual sequences, and the descriptors associated with these candidate sequence time markers, which are :
  • the time codes corresponding to said unimodal cutting time markers are compared and, each time that at least two unimodal cutting time markers resulting from different analysis modalities are separated by a time interval less than a main predetermined duration, a plurimodal candidate sequence temporal marker, in mathematical connection with the at least two unimodal cut markers, is created;
  • a lower limit and an upper limit are defined according to the type of said digital video file for the duration of a sequence and pairs of sequences are automatically selected from the candidate sequence markers.
  • sequence markers called start and end of sequence markers, each pair of sequence markers having a start of sequence marker and an end of sequence marker, such that the duration of each sequence retained is between said lower limits and superior, these pairs of sequence markers being associated with the descriptors associated with the said selected candidate sequence temporal markers, these descriptors therefore being referred to as “secondary endogenous descriptors”;
  • a search query for sequences of digital video files is formulated using the search module; each of the modules comprising the necessary calculation means, each of the modules other than the dispatcher module communicating with the dispatcher module and the dispatcher module managing the distribution of the calculations between the other modules.
  • this system further comprises at least one module for enriching the primary descriptors of the digital video files and/or the secondary descriptors of the virtual sequences of digital video files by exogenous complementary descriptors.
  • this system further comprises video editor module communicating with the research module.
  • Fig. 1 represents a flowchart of a device making it possible to implement the method of analysis, sequencing and indexing of the sequences of a digital video file.
  • Fig. 2a represents a first step in sequencing a digital video file according to the four modalities: image, audio, text and action.
  • Fig. 2b represents a second step of sequencing a digital video file according to the four modalities: image, audio, text and action.
  • Fig. 2c represents a third step of sequencing a digital video file according to the four modalities: image, audio, text and action.
  • Fig. 3 represents the different interactions between the modules and the services of the computerized process in connection with the possible actions of the user.
  • Fig. 4 represents the steps of an iteration of the method for sequencing a video file on the basis of four modalities.
  • Fig. 5a represents a graphical interface 55 for editing or viewing a playlist.
  • Fig. 5b shows another embodiment of a graphical interface for editing or viewing a playlist.
  • Fig. 6 schematically represents the effect of the manipulation of the virtual remote control on the playlist.
  • Fig. 7a shows a third embodiment of a graphical interface 55.
  • Fig. 7b shows a fourth embodiment of a graphical interface 55.
  • Fig. 8 shows a fifth embodiment of a graphical interface 55.
  • Fig. 9 shows a sixth embodiment of a graphical interface 55.
  • Fig. 10 shows a seventh embodiment of a graphical interface 55.
  • Fig. 11 shows an eighth embodiment of a graphical interface 55.
  • Fig. 12 shows a ninth embodiment of a graphical interface 55.
  • the invention relates to a method for the analysis, sequencing and multimodal indexing of digital audiovisual data.
  • the format of the audiovisual data is not limited a priori.
  • the digital video file formats MPEG, MP4, AVI, WMV of the ISO/IEC standard can be considered.
  • the audiovisual data may be available on the Internet, on a public or private digital video library, or even provided individually or in a group by a particular user.
  • Metadata is integrated into the audiovisual document, in particular technical metadata: compression level, file size, number of pixels, format, etc. cataloging: title, year of production, director, ...
  • This metadata will be referred to as "global” metadata insofar as it is associated with the digital video file as a whole.
  • a digital video file without any cataloging metadata can be sequenced automatically by the method according to the invention without human intervention. This is one of the strengths of the method compared to the sequencing methods of the prior art.
  • the audiovisual de-linearization process can be implemented on structured digital video files, such as those used in "broadcast” type distribution processes, it is particularly relevant in the case of a video file unstructured or weakly structured digital material, such as those generally available on the Internet or used in "multicast” type broadcasting processes, for example YouTube® videos.
  • the method comprises several steps traversed in a non-linear manner, requiring its implementation on a computerized device 8 for sequencing a digital video file, an embodiment of which is shown in FIG. 1, comprising several modules:
  • An acquisition module 1 allowing the recovery of one or more video files from various sources and their indexing by means of so-called primary descriptors in a primary index;
  • a sequencing module 5 generating virtual sequences (or even virtual fragments) of the digital video file(s) and indexing them in a secondary index by means of secondary descriptors;
  • a research module 6 comprising the client making it possible to carry out a search on the sequences generated by the module 5 for one or more digital video files.
  • an enrichment module 4 4.
  • module 7 video editor comprising a graphical interface allowing manipulation of virtual sequences produced following a search for virtual sequences by module 5.
  • a virtual sequence of digital video file designates a virtual fragment of the initial digital video file, of shorter duration than that of the initial file, in which the succession of images between the beginning and the end of the fragment is exactly the same as that of the initial digital video file (or original, or in which the virtual sequence was identified) between the two corresponding instants, without a specific new digital video file to the sequence is constituted at the physical level.
  • a virtual sequence of a digital video file is therefore constituted solely by the data of a pair of sequence time markers, comprising a start of sequence marker and an end of sequence marker.
  • Each time stamp corresponds to a particular timecode in the original digital video file.
  • a virtual digital video file sequence is therefore systematically indexed by means of one or more semantic descriptors, called secondary descriptors.
  • the space in storage memory used to memorize these "virtual" sequences corresponds to the space necessary to store the pairs of markers temporal and the associated secondary descriptors. This is what sequencing is called virtual.
  • the sequencing and indexing method according to the invention is therefore particularly inexpensive in terms of memory.
  • a virtual sequence of digital video file allows in a second time, in particular according to the needs of the user, the extraction of a "real" fragment of a digital video file, that is to say the constitution of a "video clip" of a digital video file.
  • the constitution of a video extract from a digital video file can for example take the form of modifications in the random access memory of a processor by viewing the content between the two sequence markers of the chosen virtual sequence, in particular in streaming, in particular after a decompression stage.
  • This visualization of the video extract does not require the constitution of a new digital video file and directly calls up the passage or the fragment of the original digital video file thanks to the virtual sequence.
  • the constitution of a video extract can possibly in certain cases materialize in a storage memory by the recording of the fragment of digital video file associated with the virtual sequence in the form of a new digital video file which can be of smaller size than that of the digital video file in which the corresponding virtual sequence has been identified.
  • the acquisition module 1 makes it possible to copy from various storage sources and to record on a suitable storage device one or more digital video files that one wishes to analyze.
  • the storage device may contain other files already acquired and its content is increased as the device is used.
  • the storage device allows access to the video file in “streaming” mode.
  • the set of digital video files acquired by the module 1 can be homogeneous from a content point of view or heterogeneous.
  • the process can be implemented in any field (sport, online courses, scientific conferences, television news, amateur videos, cinema, etc.) or even in several fields at the same time.
  • a domain or even a typology can in particular be described using semantic descriptors.
  • the different modules are made up of physical or virtual machines, and therefore of one or more processors.
  • the machines are organized into farms (“cluster” in English).
  • the device comprises at least one master node (“master” in English) which interacts with a plurality of “worker” nodes called “workers”.
  • master in English
  • workers workers
  • Each of the nodes, master and “workers”, encapsulates at least the applications, storage resources, means of calculation necessary for the realization of the task or tasks to which it is dedicated.
  • Any container orchestration solution that automates the deployment and scaling of the management of containerized applications can be considered for the creation of this “cluster”.
  • the ElasticSearch® technology available in Open Source, may be used.
  • the digital video files acquired by the module 1 are therefore stored, for example in a documentary database, and they are further indexed in a so-called "primary" index, making it possible to find and access each of the digital video files in his outfit.
  • the primary index is for example contained in the documentary database.
  • the indexing of a given digital video file in the primary index is done by means of so-called “primary” descriptors. This is for example all or part of the metadata of the digital video file.
  • the database is document-based, as opposed to relational, in the sense that searching the database is not based on a relational model or limited to an SQL-like language based on algebraic operators, such as this will be described later.
  • Each digital video file acquired by the acquisition module 1 is transmitted to the dispatcher module 2 which is a master node.
  • the dispatcher module 2 receives and distributes the requests on the "worker" nodes suitable for the execution of the requests and available for this execution.
  • the dispatcher module 2 can launch a preliminary and optional step of enriching the metadata at the level of the enrichment module 4.
  • the enrichment module 4 which is a "worker” node, is in particular connected to external databases, such as databases (4a) that are free to access and use (Open Data), web services (4b) or other databases (4c), private in particular.
  • databases (4a) that are free to access and use (Open Data), web services (4b) or other databases (4c), private in particular.
  • this preliminary step is not essential for the implementation of the method and it may not be executed or may not result in any effective enrichment of the metadata initially associated with the digital video file.
  • the method is based on techniques of automatic de-linearization of the digital video file based on the content.
  • delinearization is meant the discovery and/or recognition of underlying structures in a digital file, in particular a digital video file, without human intervention.
  • the de-linearization is, in the context of the invention, based on the content of the digital file, including the metadata, enriched or not beforehand.
  • the dispatcher module 2 can initially trigger four analyzes at the level of the multimodal analysis module 3.
  • Multimodal analysis module 3 is a “worker” node on which four different computerized devices are implemented, each implementing an automatic learning algorithm. These are, for example, four different neural networks. These neural networks analyze the digital video file with different viewpoints in parallel.
  • Each of these neural networks is chosen appropriately to extract temporal markers of potential cutting of the digital video file into sequences having coherence, i.e. meaning, with respect to a particular point of view of analysis .
  • the image stream (equivalently video stream) of the digital video file can be considered, among other things, as an ordered collection of images. We can therefore assign a sequence number to each image, allowing it to be found within the digital video file.
  • a cutting time marker corresponds to a sequence number, or equivalently to a given instant during the viewing of the video, the dates being able to be identified with respect to the initial instant corresponding to the first image digital video file.
  • a cutting marker is associated with a time code (“timecode”).
  • the neural networks used may in particular be convolutional neural networks (“Convolutional Neuronal Network”, CNN) and/or recurrent.
  • Each of these neural networks contains several successive layers of neurons, so as to be able to undergo a learning phase of the deep learning type ("deep leaming"), unsupervised, semi-supervised or supervised, preferably pre-trained before its implemented in device 8.
  • deep leaming the deep learning type
  • unsupervised, semi-supervised or supervised unsupervised, semi-supervised or supervised, preferably pre-trained before its implemented in device 8.
  • the role of supervision may be more or less important depending on the method of analysis.
  • the analysis of the text and sound streams may, in one non-limiting embodiment, be carried out by a neural network having undergone an unsupervised learning phase, and the analysis of the image stream may implement a network neurons that have undergone a supervised or semi-supervised learning phase.
  • the number and type of layers are chosen according to the type of analysis to be performed.
  • a digital video file includes components (also called “flows”) images (or equivalently video), sound (or equivalently audio) and text placed in a container.
  • a digital video file may contain several audio streams and/or several image streams.
  • the text type stream has things like metadata, subtitles, transcription of the audio stream as text where possible, etc.
  • the first neural network called an analyzer according to the image modality (3a)
  • the first neural network is configured to carry out an analysis of the image flow, image by image. It can in particular carry out analyzes of the type: detection of objects, shapes, color, texture, detection of similar images, ocerization.
  • the analyzer according to the image modality (3a) analyzes the content of each image of the file to be analyzed pixel by pixel. It is, among other things, equipped with an object detection algorithm, preferably capable of analyzing a video stream in real time while maintaining good predictive performance (algorithm available under the name “Yolo3” for example).
  • the analyzer following the image modality (3a) extracts a set of primitives which take into account certain representations such as the contour, the texture, the shape, the color, then it aggregates the results in a single signature allowing the calculations of similarity in particular to through a hybridization between Deep Leaming and unsupervised clustering algorithms (“K Nearest Neighbors”, KNN).
  • the algorithm aggregates the results in a signature allowing similarity calculations in particular through a hybridization between Deep Leaming algorithms and unsupervised clustering (KNN) (plane aggregation).
  • KNN unsupervised clustering
  • the image modality gives rise to an analysis according to at least three sub-modalities:
  • the second neural network is a so-called sound analyzer network (3b) or equivalently an analyzer according to the audio modality or according to the sound modality. It is equipped with an audio track separator and an activity detector for speech, noise, music, ...
  • the third neural network (3c) is a text flow analyzer or equivalent analyzer depending on the text modality, for example metadata, subtitles when available, or text obtained after a "speech" type text extraction to text” on the basis of known voice recognition technologies, or even “video tagging” information described later.
  • NLP Natural Language Processing
  • speech to text the analyzer following the text modality (3c) cuts sentences, paragraphs into units of meaning translating a change of subject, or the continuation of an argument according to models of the analysis of the speech.
  • the analyzer following the text modality (3c) can also, via an automatic language processing (T.A.L) platform, possibly Open Source, extract semantic metadata to feed structured fields from the full text coming from module 4, for example from web sources and/or social networks.
  • T.A.L automatic language processing
  • Open Source extract semantic metadata to feed structured fields from the full text coming from module 4, for example from web sources and/or social networks.
  • the fourth neural network (3d) is an analyzer of the video stream as a whole, in order to create cutting markers based on dynamic notions, such as the notion of action or shot changes.
  • This modality of analysis will be called equivalently action modality or event modality.
  • the actions could include the phases of actual play as opposed to the phases during which the players are not playing, for example: waiting for the next serve, picking up the ball, ...
  • the analyzer following the action modality (3d) first detects the changes of shots. It should be noted that the changes of shots are generally not made randomly by an editor, so they can carry rich information, which can be found at least partially thanks to this detection of the changes of shots.
  • the characteristic images of each plane are then sent to the analyzer according to the image modality (3a).
  • the information returned by the analyzer according to the image modality (3a) is analyzed in the analyzer according to the action modality (3d) by an action detection algorithm.
  • a dense pose estimation system can be implemented, which associates the pixels of two successive images based on the intensities of the different pixels to match them with each other. the other.
  • Such a system can perform “video tracking” without sensors having been positioned on the animated objects/subjects present in the video content.
  • a stock bank can be set up with a view to a supervised learning phase, thanks in particular to this estimation.
  • the analysis of a player's arm gesture on a set of digital video files each containing a sequence of well-identified offensive forehands allows the neural network to recognize, based on the successive positions of a player's arm, an offensive forehand in a video file that was not used for training.
  • topspin An offensive forehand
  • cut An offensive forehand
  • Actions can be defined outside the context of sport.
  • a handshake between two subjects can be an action in the sense of the invention, and a neural network can learn to recognize such an action.
  • the analyzer following the action modality (3d) can also exploit the sound associated with the images.
  • an interruption in the flow of the speaker can be indicative of a change of action in the sense of these videos, that is to say the passage from one sequence of the course to another sequence.
  • the analyzer following the action modality (3d) can also exploit "video tagging" information, i.e. metadata of the keyword type added manually to the digital video file, when they are relevant from the point of view of view of the actions that have been identified.
  • the action modality gives way to at least two sub-modalities:
  • the first sub-modality is the analysis (or equivalently the detection) of shot changes
  • the second sub-modality is action detection in the sense of a typology, such as a typology of digital video files or gesture or motion.
  • the method can include the phase of training the neural networks on a set of video files associated with a particular domain, for example a set of video files relating to a particular sport, or a particular scientific field. It can also be implemented on neural networks previously trained for a domain chosen by G user for example.
  • the analyzers according to the image (3a) and action (3d) modalities can provide sets of unimodal temporal markers according to several sub-modalities.
  • different unimodal cutting temporal markers can be identified according to one or more of the sub-modalities: change of planes,
  • a descriptor is a term, which may be a common noun or a proper noun, an adjective, a verb, a phrase, a compound word or a group of words, and which represents a concept. Only descriptors or combinations of descriptors can be used for indexing. The non-descriptors may, however, be used in the formulation of the search request at the level of module 6 of research and assembly.
  • descriptors can optionally be defined in a thesaurus specific to the device or come from existing thesaurus.
  • a descriptor therefore makes it possible, in documentary language, to specify the content of the digital video file when it is associated with the digital video file as a whole, or of a sequence of digital video file when it is associated with the latter.
  • the analysis step can be performed based on minimal metadata.
  • the following schematic example helps to understand the different steps of the process. Let's assume that a user of the device wants to analyze a video:
  • - whose audio track does not allow the extraction of significant textual content. For example, it contains only noise without identifiable words, or background music without words and unrelated to the image content.
  • the example digital video file is an "example 1" amateur video file, made during a football match and in a very noisy sound environment so that any words cannot be highlighted in the noise of background.
  • a first analysis by module 3 of multimodal analysis makes it possible to bring out a few descriptors of the ball, football, jersey type (and their colors), names of certain players, football stadium soundscape, corresponding to a relatively coarse sequencing after processing of the results of module 3 of multimodal analysis by module 5 of sequencing which will be described later.
  • the dispatcher module 2 can optionally enrich the unimodal descriptors identified and associated with the unimodal cutting time markers by exogenous descriptors, either by transmitting them to the enrichment module 4, or from the descriptors already identified and stored in the device itself. , especially in the primary and secondary indexes.
  • exogenous descriptors such as “match, goal, half-time, ...” may be added.
  • exogenous descriptors can also be found on the device's database if it has already analyzed other video files such as football matches.
  • the dispatcher restarts an analysis step by the multimodal analysis module 3 on the basis of these enriched descriptors.
  • This new step generates more unimodal cut-out time markers and/or more adapted to the analyzed video.
  • a second stage of analysis of the "example 1" video following the enrichment of the descriptors by the enrichment module 4 will make it possible to obtain a sequencing on the basis of the two halves and the goals scored if these events are identified.
  • Module 3 of multimodal analysis used a priori can be "generalist”, i.e. adapted to digital video files whose content is as varied as possible, or even specialized by learning on an ad hoc video game.
  • a multimodal analysis module 3 dedicated to and trained in this area, or even in a specific sport, can be implemented. But it is possible to analyze the same video with several 3 multimodal analysis modules dedicated to several different domains to obtain different sequencing, or to use a set of 3 modules to change the choice of the 3 multimodal analysis module as the metadata are enriched to move towards a multimodal analysis module 3 increasingly adapted to the content of the digital video file, on which the device had no a priori knowledge of the domain of the content.
  • each of the modules 3 of multimodal analysis being adapted to a particular and/or general field.
  • the multimodal analysis module 3 can only analyze the file according to two methods, for example if one of the streams of the file is not usable, or if one wishes to favor these two modalities.
  • the temporal markers of unimodal cutting and the endogenous, and possibly exogenous, associated unimodal descriptors are transmitted by the dispatcher to the module 5 of sequencing.
  • Sequencing module 5 is also a “worker” module. The sequencer synthesizes all the information collected by the dispatcher to create homogeneous, coherent and relevant sequences, if possible according to several of the points of view used in module 3 of multimodal analysis at the same time.
  • the horizontal axis represents the time axis for the digital video file, that is to say the order of appearance of the various images which constitute it;
  • the unimodal slice time markers associated with the image modality are for example represented on the top line, the unimodal slice time markers associated with the audio visual modality on the line, just below, then again below the time markers of unimodal cutouts associated with the textual modality, and finally the unimodal cutout temporal markers associated with the action modality are represented on the bottom one.
  • the sequencing module 5 proposes candidate sequence time markers.
  • a candidate sequence time stamp is:
  • plurimodal candidate sequence temporal marker To create a plurimodal candidate sequence temporal marker, one proceeds as follows: if at least two unimodal cutting temporal markers from different modalities are identified as temporally close, a plurimodal candidate sequence temporal marker, in mathematical relation with these temporal cutting markers unimodal, is created.
  • the temporal proximity is defined with respect to a time criterion T2 specified beforehand: two (or more) of unimodal cutting temporal markers are considered as temporally close if they are separated two-by-two by a duration less than a duration predetermined T2, called main.
  • a plurimodal sequence temporal marker is created in mathematical connection with the unimodal cutout markers which underlie its creation according to a rule fixed beforehand.
  • the candidate multimodal sequence time stamp is identical to the single-mode slice time stamp from the audio modality. Or again, it can correspond to the time marker closest to the mean of the time codes of the n unimodal cutting time markers identified as temporally close.
  • a unimodal candidate sequence time stamp is created based on a single modality. In this case, it is said to be a unimodal candidate sequence time marker and identical to the identified unimodal cut-out time marker.
  • Figure 2a represents the decomposition of a digital video file according to the four modalities: image, audio, text and action.
  • two candidate sequence time markers 21 plurimodal are detected in this case according to four modalities.
  • Candidate sequence markers are therefore said to be “main” when they come from the four modalities.
  • the two candidate sequence temporal markers 21 of FIG. 2a are therefore principal multimodal.
  • Endogenous plurimodal descriptors called “main” because they come from the four modalities, are associated with each of the 21 main plurimodal candidate sequence temporal markers identified.
  • FIG. 2b represents the breakdown of the same digital video file as for FIG. 2a according to the four modalities: image, audio, text and action.
  • This decomposition leads initially to the detection of three main candidate sequence temporal markers 21 , resulting from four different modalities.
  • Multi-modal, but only three-modality candidate sequence temporal markers 22 can be identified.
  • This plurimodal candidate sequence marker is said to be secondary because it is plurimodal but stems from less than four modalities.
  • the secondary plurimodal candidate sequence marker is associated with endogenous plurimodal descriptors, called secondary because they are plurimodal but come from less than four modalities.
  • a multimodal candidate sequence marker whether primary or secondary, can be associated with endogenous multimodal (or equivalently multimodal) descriptors, derived from the unimodal descriptors associated with the unimodal cut-off temporal markers of all the modalities which made it possible to select the multimodal marker.
  • the descriptors are said to be "endogenous" when they come from the sequencing of the digital video file by the sequencing module (5) but not from an enrichment step by the module (4) from information exogenous to the video file digital.
  • Two secondary candidate multimodal cut-out time markers 22 from three modalities can be seen in Figure 2b.
  • a proximity threshold being able to be predetermined
  • a multimodal candidate cutting marker called "secondary” because multimodal but resulting from less than four modalities, is identified, to which are associated endogenous multimodal descriptors, called secondary because multimodal but resulting from less than four modalities, in a second step.
  • FIG. 2c This case is represented in FIG. 2c, still for the same digital video file as in FIG. 2a.
  • the sequencing allows the detection in a first stage of main plurimodal candidate sequence markers 21, in a second stage of secondary plurimodal candidate sequence markers 22 resulting from three modalities, then in a third stage of secondary plurimodal candidate sequence markers 23.
  • the multimodal candidate cut markers are therefore initially chosen by temporal proximity out of four modalities, which leads to the choice of the main multimodal candidate sequence markers 21.
  • secondary multimodal sequence markers 22 or 23 can be selected based on a combination of two or three modalities.
  • the sequencing is considered “insufficient” on automatically assessable criteria. For example, if at least one time interval separating two successive candidate sequence markers has a duration greater than a predetermined duration, called the threshold duration T1, defined for example in relation to the total duration of the digital video file or absolutely, the sequencing is insufficient.
  • T1 a predetermined duration
  • candidate sequence time markers Once the candidate sequence time markers have been identified, a selection is made from among these candidate sequence markers to constitute one or more pairs of sequence markers, each comprising a start of sequence marker and an end of sequence marker.
  • the duration of a sequence is, to do this, limited by a minimum duration D 1 and by a maximum duration D2 which depend on the type of digital video file to be sequenced.
  • a last end of sequence marker can be, to initialize the constitution of pairs of sequence markers, placed from the end of the digital video file, either exactly at the end of the file, or for example at the level of a candidate sequence time stamp provided it is separated by a time interval less than a predetermined threshold from the end of the file.
  • a multimodal candidate sequence marker separated by a duration between the durations and D1 and D2 of the last end-of-sequence marker is sought. If it exists, it is effectively retained as the last sequence start marker and associated with the last sequence end marker to constitute the last pair of sequence markers, which delimits the last virtual sequence.
  • a multimodal candidate sequence marker is found at a duration less than D 1 from the last end-of-sequence marker, it can thus be decided not to retain it because the sequencing would result in sequences that are too short for them to be really of interest.
  • a unimodal candidate sequence marker separated by a duration between the durations and DI and D2 of the last end-of-sequence marker is sought . If it exists, it is selected as the last start-of-sequence marker and combined with the last end-of-sequence marker to form the last pair of sequence markers, which delimits the last virtual sequence.
  • a last sequence start marker is created, separated by a duration D2 from the identified cutting marker, so as to ensure the convergence of the process.
  • At least one of the sequence tags of each pair of sequence tags is multimodal.
  • the two sequence markers of each pair of sequence markers are multimodal.
  • This arrangement makes it possible to ensure that the identified sequences have a semantic coherence defined by several modalities.
  • At least one of the sequence markers of each pair of sequence markers is main multimodal.
  • weights can be assigned to the different modalities according to the typology of the digital video file. For example, for “sport” type videos, the action modality can play a more important role in the sequencing if its weight is higher.
  • the weights of the different modalities can optionally be chosen according to the nature of the content analyzed (known a priori or detected as the iterations progress) and/or the video file search criterion formulated by a user of the device 8.
  • Each virtual sequence of digital video file can be indexed in a secondary index by means of the endogenous descriptors, and if necessary exogenous, associated with the start of sequence marker, as well as those associated with the end of sequence marker.
  • descriptors associated with the start of sequence marker and/or with the end of sequence marker are said to be “secondary” in the sense that they are associated with a digital video file sequence and no longer with the digital video file as a whole. They allow the sequence marker pair to be indexed in the secondary index.
  • the secondary index is in a relationship of inheritance with the primary index so that the primary endogenous descriptors, associated with the digital video file, are also associated with the identified sequence.
  • the sequences of a digital video file are "daughters" of this digital file in the sense that if the digital video file is indexed means of endogenous and, where appropriate exogenous, primary descriptors, the sequence inherits these primary descriptors and can therefore be searched in the index not only on the basis of the secondary descriptors which characterize it but also on the basis of the primary descriptors which characterize the digital video file of which it is a "daughter".
  • the minimum duration of a video file sequence is not fixed a priori but a video file sequence (or equivalently a pair of sequence time stamps) is retained in the secondary index only if it is associated with a sufficient number of descriptors, for example for there to be a significant probability of finding this sequence at the end of a search query.
  • unimodal sequence markers can be selected, before an enrichment step and a new iteration of the process of sequencing for example.
  • Unimodal sequence markers then play the same role as multimodal sequence markers in the indexing process, i.e. the corresponding sequences are indexed on the basis of the associated unimodal descriptors. This scenario is not sought in itself, but makes it possible to ensure the convergence of the sequencing process.
  • information on the unimodal or multimodal character of a given secondary endogenous descriptor is kept during the indexing process. Thanks to this arrangement, it is possible to distinguish the multimodal secondary descriptors from the unimodal descriptors, which can be useful when searching for a video file sequence in which it is desired to make these two types of descriptors play different roles.
  • the analysis of a digital video file is not carried out backwards, but by starting by selecting a first initial sequence marker, then a first end sequence marker and so on until the file has been completely scanned starting from the beginning of the file.
  • the sequencer therefore indexes in a secondary index all the validated virtual sequences, that is to say all the virtual sequences identified and delimited by a marker of sequence start and an end of sequence marker retained by the sequencing module 5, each of which is associated with a set of endogenous and, where appropriate, exogenous secondary semantic descriptors.
  • a sequence time marker can be associated by default with the first image and/or the last image, so as to ensure the sequencing of the entire file.
  • a preliminary step of reducing the digital video file can be carried out so as to proceed with the sequencing only on the fragments of digital video file of interest.
  • the secondary descriptors selected at the end of the sequencing step are secondary because they are not associated with a digital video file in its entirety, like “global” metadata or generally like “primary” descriptors, but they are associated to a particular sequence.
  • the sequencing module 5 may optionally be a cluster of sequencers, this arrangement making it possible to distribute the requests to the various sequencers of the cluster according to the increase in load of the device.
  • the process is iterative, i.e. the secondary descriptors associated with a virtual sequence can be enriched by a search for so-called "exogenous" secondary descriptors, such as sequence descriptors already existing in the descriptor database. of the device and/or through the enrichment module 4, before a new sequencing is restarted in order to achieve finer sequencing, on the basis of the endogenous and exogenous primary and secondary descriptors identified. It is also possible to proceed, before the sequencing of a digital video file, to a step of enrichment of the primary endogenous descriptors of this digital video file by exogenous descriptors, also called primary by means of the enrichment module 4 . A digital video file is therefore indexed in the primary index by means of endogenous and, where appropriate, exogenous primary descriptors.
  • information on the exogenous or endogenous character of a given primary or secondary descriptor is kept during the indexing process. Thanks to this arrangement, it is possible to distinguish the endogenous descriptors from the exogenous descriptors, which can be useful when searching for a video file sequence in which one wishes to make these two types of descriptors play different roles.
  • example 1 if the sequences have been defined at the end of a first sequencing step on the basis of the schedule identified for the goals and half-time, it is possible for example to find the corresponding match on the Internet and to enrich the endogenous secondary descriptors of each sequence on the basis of textual information on this match.
  • Fig. 4 gives a schematic representation of the steps of an iteration of the sequencing process of a video file on the basis of four modalities.
  • the process of indexing digital video file sequences is of the parent/child type: the dispatcher's index points to the general information of the digital video file, therefore to the so-called "primary" index, while the sequencer creates an indexing "secondary" inherited.
  • the primary and secondary indexes are multi-field and mutually feed each iteration. For example, a step of sequencing the video of a football match can cause N sequences to emerge, the k-th of which is associated with a descriptor that is “half-time”. The “half-time” information is relevant both for the sequence k but also for the entire video file.
  • the primary indexing of the video file can therefore be enriched with the half-time information and the date of this half-time in the file.
  • wildcard information can populate the primary index from the secondary index
  • character information initially identified as generic and becoming particularly relevant to a particular sequence can populate the secondary index from the primary index
  • the invention therefore makes it possible to go down, thanks to this indexing process, to a much finer grain size in a search for content in digital video files than what is permitted by the indexing processes currently implemented for this type of files, as well as a two-level sequence search possibility according to the two nested dimensions created by the two indexes.
  • this secondary indexing is dynamic, that is to say that it can be enriched and refined: as the analyzes of videos of the same domain are carried out, the corpus of relevant descriptors associated to this domain on the basis of which the multimodal analysis module 3 can analyze a digital video file increases. As a result, the first analyzed digital video file can be re-analyzed after analyzing N other digital video files to refine its sequencing.
  • the secondary indexing can be carried out according to various points of view according to the video search requests carried out by the user on the video library already analyzed.
  • an initial point of view chosen for secondary indexing is not absolutely limiting and can always be modified on the basis of a particular search.
  • a digital video file could have been created manually by aggregating two video files to give a digital video file containing a football sequence containing, among other things, a spectacular football goal followed by a rugby sequence containing, among other things, a spectacular rugby. Analyzing this digital video file in sports mode would yield two sequences, one sequence (a) for football and one sequence (b) for rugby, but there is no reason why the sequencing should be suitable for football rather than in rugby or vice versa.
  • the dispatcher can relaunch an analysis of the video (a) on descriptors adapted to football, to obtain a sequencing and an indexing more adapted to this particular sport. But he can repeat the same process at another time in the context of rugby.
  • the search module 6 contains a “client”, which allows a user to access the various sequences of the video files analyzed by formulating a search query .
  • the research module 6 therefore constitutes the so-called “front-end” level of the device, that is to say through which the end user interacts with the device, while modules 1 to 5 constitute the so-called “back-end” level.
  • -end i.e. not visible to the end user of the device.
  • the research module 6 can communicate with a video editor module 7, comprising an interface for creating, editing and viewing video extracts corresponding to virtual sequences.
  • the search module 6 allows the user at least to formulate a search query and to visualize the result.
  • a search is carried out on the sequences of video files thanks to the association ⁇ primary index, secondary index ⁇ based on a inheritance link and thanks to the sets of descriptors that have been associated with each sequence of each digital video file during secondary indexing.
  • the query is not an a priori query based on a relational database language, although this possibility could be envisaged.
  • This is a query of the type used by search engines, i.e. the query can combine a full-text, faceted search based on the descriptors present in the primary and secondary and numerical (for example, sorting can be done on chronological type criteria).
  • the search query can be formulated by a user in a user interface or else by a conversational robot (“chatbot” in English).
  • the search result is then displayed in the graphical interface of the search and editing module 6 and it does not appear in the form of a list of video files but of a list of sequences of video files, classified in order of relevance.
  • Fig. 3 represents the different interactions between the modules and the services of the computerized process in connection with the possible actions of the user.
  • the principle is therefore that implemented for website search engines, which allow direct access to the pages that make up the websites, or for the constitution of playlists from a set of audio files in which tracks or chapters are predefined.
  • this principle is natural for these two types of media, highly structured and designed to be indexed, it is not used for any type of digital video file in general, for which the choice has historically been made to index them in their globality due to the complexity of their sequencing.
  • the device makes it possible in summary to constitute a search engine for digital video file sequences, the sequencing of video files on which the search is carried out being dynamic, that is to say to be created or modified or adapted at the end of formulating a new search query.
  • the search result may include several sequences from several different video files and/or several sequences from the same digital video file.
  • the temporal consistency of the original sequences may not be respected, even in the case where the sequences forming the list returned in response to the search query come from the same original digital video file, since this is the relevance of the sequences with respect to the search criterion which fixes their order of appearance in this list.
  • the relevance of the sequences in relation to the search criterion is for example evaluated according to logical and mathematical criteria, which make it possible to assign a score to each sequence according to a query.
  • the sequences are then presented in descending order of score.
  • Prior filtering steps (language, geographical origin, dates, etc.) may be provided.
  • a higher weight is assigned to the secondary descriptors than to the primary descriptors so that the search result is based more on the content of the sequence than on the content of the video file digital as a whole.
  • indexing architecture primary and secondary
  • a user can therefore perform several tasks dynamically from full-text search functionalities, semantic concepts, themes or multi-criteria filters/facets.
  • the research module 6 can comprise a user interface, such as a computer, a tablet, a smartphone for example.
  • the video editor module 7 can include a user interface, such as a computer, a tablet, a smartphone for example.
  • the user interface can be common to modules 6 and 7.
  • the user can in particular, via one or other of these interfaces: from each virtual sequence, extract the virtual sequence from the digital video file to produce a video extract that he can view , such as streaming, or saving as a new digital video file.
  • a video extract In the case where a video extract is displayed, it can optionally simultaneously display the endogenous and/or, where appropriate exogenous, secondary and/or primary descriptors associated with the extracted sequence.
  • the dashboard can also present other information, such as definitions or "find out more" from the encyclopedic web, geographical maps, graphs...
  • the user interface can comprise a graphical interface 55 comprising a zone 52 dedicated to formulating the search query and displaying its results, a zone for viewing video extracts (screen 1, reference 53), a second zone display (or even screen 2, reference 54), synchronized with screen 1 and a virtual remote control zone 51.
  • a graphical interface 55 comprising a zone 52 dedicated to formulating the search query and displaying its results, a zone for viewing video extracts (screen 1, reference 53), a second zone display (or even screen 2, reference 54), synchronized with screen 1 and a virtual remote control zone 51.
  • each end of sequence marker of each virtual sequence associated with an extract from the playlist is: main plurimodal or
  • This arrangement makes it possible to increase the semantic consistency of the playlist as a whole and its consistency with respect to the search criterion formulated.
  • Navigation can, thanks to the primary and secondary indexing system, be extended outside the selected playlist: it is for example possible, from a given sequence of the playlist, to extend the playback of the digital video file from which from the sequence beyond this sequence by moving the start and/or end of sequence markers.
  • Visual effects such as, in a non-exhaustive way, slow motions, enlargements, repetitions, can be applied to the playlist, either during viewing, an addition of text, a freeze frame, etc., or for the editing a new digital video file.
  • Sound effects such as, but not limited to, modifying a background sound, adding a commentary or another sound, can be applied to the playlist, either during viewing or for editing. a new digital video file. Building a playlist or editing a new video can be fully automated from the formulation of the search query. However, as the system behaves like a virtual playhead which moves dynamically from sequence to sequence, at any time, if the graphic interface of module 6 gives it the possibility, the user can act on the playlist or the new video.
  • the graphical interface of the video editor module 7 thus offers navigation options in the form of an improved video player allows access to the summary when the search result is an entire video or an interactive zapping within the selected and aggregated sequences.
  • a graphical interface 55 for editing or viewing a playlist, can be viewed in FIG. 5a. Selectable descriptors are positioned to the left of playlist viewing screen 1, the playlist can be displayed above screen 1, the descriptors related to the user's search are displayed above the playlist .
  • Virtual remote control 51 is located below the playlist.
  • a second screen linked to the video extract corresponding to the virtual sequence being viewed is located to the right of the playlist and allows you to display graphics or other useful information linked to the playlist.
  • Fig. 5b shows another embodiment of the graphical interface of the device 8 in which selectable descriptors are positioned to the left of the screen for viewing the playlist, the playlist is viewed in screen 1 (reference 53), the descriptors related to the user's search are located above the playlist and the virtual remote 51 is located below the playlist
  • Fig. 6 represents the actions performed when using each button of the virtual remote control on an example of a playlist created from three digital video files, the playlist being composed by way of example of three different extracts.
  • the virtual remote control comprises for example at least 5 virtual buttons.
  • the al button allows viewing of the video extract corresponding to the current sequence and stopping viewing.
  • buttons a2 and a2 When button a2 is pressed, the playback of the video extract corresponding to the sequence being viewed will be extended in the original digital video file beyond the duration provided for this sequence, a second press of button a2 while viewing has not yet exceeded the time limit provided for the sequence cancels the first press of button a2, a second press of button a2 when viewing the digital video file outside the time limit provided, stops viewing of the original digital video file and resumes the playlist at the next sequence.
  • Button a3 allows you to return to the start of the sequence preceding the sequence currently being viewed.
  • the a4 button allows you to return to the start (at the timecode of the start marker) of the sequence currently being viewed.
  • Button a5 stops viewing the current sequence and starts playing the next sequence.
  • -N s which allows you to go back N seconds in the digital video file of the current sequence, allowing you to review a sequence or to see N seconds before the start marker of the current virtual sequence;
  • this button allows you to advance N seconds ahead of the digital video file of the current sequence allowing you to skip a sequence or see 10 seconds after the end marker of the virtual sequence In progress.
  • the virtual remote control therefore allows flexible navigation within the automatic playlist of video extracts from digital files, the user being able to view the selected extracts at will in the order of the playlist or in an order that suits him better or even extending the viewing an extract before or after the cut markers, without the files associated with each extract being created and having to be opened and/or closed to switch from one extract to another.
  • the comfort and browsing potential are therefore considerably improved compared to what is possible with a “static” playlist within the meaning of the prior art.
  • Figs. 7a and Figs. 7b represent two examples of graphical interface 55.
  • FIG. 7a represents a graphic interface of the computerized method, comprising a first screen 53 for viewing the playlist, a second screen 54 for a graphic linked to the sequence being viewed and a virtual remote control 51 located below the two screens to navigate in the playlist (in which the video extracts are arranged one after the other), as well as a button used to put the playlist in full screen.
  • FIG. 7b represents a graphic interface 56 of the computerized method, comprising a first screen 53 for viewing the playlist, a second screen 54 for putting messages in connection with the video or for communicating with other users, a virtual remote control 51 located below the two screens to navigate in the playlist and a button used to put the playlist in full screen.
  • the playlist made up of extracts based on this search result can be exhaustive. It may also contain only extracts considered essential with respect to search criteria specified by the user.
  • a score can be defined to classify the virtual sequences of digital video files into two categories: "essential” and “ornamental” according to the number of descriptors found.
  • the playlist made up of extracts based on this search result may contain only the extracts associated with virtual sequences identified as essential with respect to criteria user-specified searches.
  • the concept of summary can be defined in relation to a particular domain.
  • the summary can be built from keywords provided by the user or defined beforehand, for example ⁇ goal, yellow card, red card, change of player, mid- time ⁇ , the relevant sequences being presented in the temporal order of the initial digital video file from which they originate.
  • the search is possible in "full text” mode (or even “full text”) and in "faceted” search mode, with optional semi-automatic completion. Faceted answers help refine search criteria and are combined with full-text words.
  • the inheritance indexing system thanks to the inheritance indexing system, the video files (in the previous example, the matches) from which the sequences originate are known. It is therefore possible to provide an option to view all or part of the original video files of the sequences if necessary.
  • module 6 "front-end” and the "back-end” level composed of modules 1 to 5 can be done whatever the support of module 6 (computer, tablet, smartphone, etc.) possibly without use a proprietary application. That is in particular achievable with technologies accessible in Open Source, such as the React JavaScript library.
  • the device can be integrated into a social network, and offer two user profiles: the creators of video files by editing using the video editor module 7 and the viewers (“followers”) who follow these creators.
  • the browsing history on a playlist of excerpts from digital video files obtained according to the invention can be recorded. It can then be shared in a social network or used to semi-automatically edit a new digital video file.
  • Fig. 8 represents a graphic interface of the device 8 comprising a screen for the representation of a mental map ("mindmap" in English) of a directory of sequences or automatic lists or extracts or playlist recorded by the user, a part of the backups being public and the other part private, below this screen several tabs are selectable: Mindmap, Chatbot, Search by facet, Social network and video editor.
  • Fig. 9 represents a graphic interface 56 of the device 8, comprising a screen for the representation of the interactive Chatbot making it possible to carry out a search for playlists or sequences through a discussion by keyword, below this screen several tabs are selectable: Mindmap, Chatbot, Facet Search, Social Network and Video Editor.
  • Fig. 10 represents a graphic interface of the device 8, comprising a screen for the representation of the search by facet, grouping descriptors under other more general descriptors, making it possible to search by tree structure, below this screen several tabs are selectable: Mindmap, Chatbot, Facet Search, Social Network and Video Editor.
  • Fig. 11 represents a graphic interface of the device 8, comprising a screen for the social network integrated into the invention, the users share the playlists found or created, below this screen several tabs are selectable: Mindmap, Chatbot, Search by facet, Network social and video editor.
  • Fig. 12 represents a graphic interface of the computerized device 8, comprising a screen for editing video, the user can modify the order of the extracts and integrate the extracts he wishes into a playlist, below this screen several tabs are selectable: Mindmap, Chatbot, Facet Search, Social Network and Video Editor.
  • multimodal analysis module 3 a analyzer according to the image modality 3b: analyzer according to the audio modality 3 c: analyzer according to the text modality 3d: analyzer according to the action modality 4: enrichment module

Landscapes

  • Engineering & Computer Science (AREA)
  • Multimedia (AREA)
  • Theoretical Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Computational Linguistics (AREA)
  • Signal Processing (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Human Computer Interaction (AREA)
  • Mathematical Physics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Television Signal Processing For Recording (AREA)
  • Two-Way Televisions, Distribution Of Moving Picture Or The Like (AREA)

Abstract

Procédé informatisé de dé-linéarisation audiovisuelle permettant un séquençage d'un ou plusieurs fichiers vidéo numériques et une indexation des séquences issues du séquençage, en découpant virtuellement le ou les fichiers vidéo numériques en des séquences virtuelles numériques, chacune délimitée virtuellement par deux marqueurs temporels de séquence. Le procédé est destiné à produire et sélectionner automatiquement des séquences virtuelles de chaque fichier vidéo numérique, les fragments de fichier correspondant aux séquences virtuelles pouvant ensuite être extraits des fichiers vidéo numériques concernés pour constituer être visionnées ou enregistrées dans un nouveau fichier vidéo numérique.

Description

PROCEDE INFORMATISE DE DE-LINEARISATION
AUDIOVISUELLE
DOMAINE DE L’INVENTION La présente invention se rapporte au domaine de G identification et du traitement automatisé des données numériques, en particulier des fichiers vidéo numériques.
L’invention se rapporte plus précisément à un procédé informatisé de dé-linarisation audiovisuelle de fichiers vidéo numériques. ARRIÈRE-PLAN TECHNOLOGIQUE
La quantité d'informations générées dans la société d'aujourd'hui augmente de façon exponentielle. De plus, les données sont mises à disposition dans plusieurs dimensions sur différents supports numériques, tels que le flux vidéo, le flux audio et le flux texte.
Cette masse d'informations multimédias pose d’importants défis technologiques en ce qui concerne la manière dont les données multimédias peuvent être intégrées, traitées, organisées et indexées d'une manière sémantiquement significative pour faciliter une récupération efficace. Habituellement, une structure de contenu est conçue par le producteur des données avant que celles-ci ne soient générées et enregistrées. Pour permettre la récupération future basée sur le contenu, une telle structure sémantique prévue (ou encore métadonnées) doit être transmise avec le contenu aux utilisateurs lorsque le contenu est livré. De cette manière, les utilisateurs peuvent choisir ce qu'ils souhaitent en fonction de la description de ces métadonnées. Par exemple, chaque livre ou magazine est publié avec sa table des matières, à travers laquelle les utilisateurs peuvent trouver le numéro de page (index) où les informations souhaitées sont imprimées en passant simplement à la page. Une telle indexation de contenus hautement structurés a priori permet donc l’accès rapides à des parties spécifiques des documents et la constitution d’agrégats de séquences de documents, comme par exemple des playlists dans le cas de fichiers audio.
Cette structuration est rarement fournie dans le cas de données vidéo. Par exemple, pour un film destiné au cinéma, il n’est pas d’usage courant de fournir les indications permettant d’accéder aux différentes séquences composées par le cinéaste.
Un grand nombre de fichiers vidéo ne peuvent pas être structurées a priori. C’est le cas par exemple d’évènements filmés en direct, dont on ne peut pas prévoir le déroulement avant la réalisation du fichier vidéo numérique.
Enfin, l’indexation définie a priori par le producteur peut ne pas être pertinente du point de vue de l’utilisateur dont les critères de recherche ne sont pas toujours connus a priori non plus. Dans le cas des fichiers vidéo numériques, du fait de la difficulté d’accéder à une indexation pertinente, l’usage est donc de procéder à un étiquetage du fichier vidéo numérique dans son ensemble, de sorte que les métadonnées associées à un fichier vidéo numérique sont globales, comme par exemple le nom, la date de création, le format de fichier, la durée de visionnage. Un ensemble de métadonnées permet d’accéder à un fichier vidéo numérique dans son ensemble lorsqu’une recherche de contenu audiovisuel est effectuée. Ces métadonnées sont donc « globales ».
Il est connu d’enrichir les métadonnées « globales » associées à un fichier vidéo numérique par des métadonnées complémentaires, mais ces métadonnées sont toujours gérées au niveau global du fichier pour faciliter l’accès à la vidéo via un moteur de recherche. Par exemple, il est possible de récupérer des informations telles que l’auteur, les acteurs, le compositeur de la bande-son d’un film ou des commentaires de spectateurs sur internet et de compléter les métadonnées initiales avec ces métadonnées. Un tel enrichissement permet un accès plus efficace à un fichier vidéo numérique via un moteur de recherche.
Pour permettre de plus l’accès à une séquence pertinente d’un fichier vidéo numérique donné, plusieurs méthodes d’indexation a posteriori peuvent être envisagées, notamment des indexations manuelles. Ces méthodes sont cependant longues et fastidieuses. Dans le domaine de la recherche de contenus vidéo, l’utilisation de méthodes d’indexation automatiques est ainsi devenue incontournable.
Ua difficulté des contenus vidéo est qu’ils ne sont pas auto-descriptifs, contrairement aux médias textuels.
Ue document EP3252770A1 propose un procédé d’identification et de post-traitement automatique de contenu audiovisuel. Dans ce procédé, une description formelle du contenu du fichier vidéo numérique est fournie par un opérateur, comme par exemple un script dans le cas d’un film. Après l’extraction des flux image (c’est-à-dire contenant des données visuelles) et audio des données audiovisuelles, ces deux parties des données audiovisuelles sont décomposées en un ensemble de fragments successifs. Par ailleurs, la description formelle du fichier vidéo numérique est décomposée en parties logiques. Un motif de dialogue est généré à partir du flux audio uniquement. Une association des données audiovisuelles avec la description formelle correspondante est réalisée en associant des parties logiques de la description formelle à l’ensemble de fragments de données audiovisuelles, en utilisant le motif de dialogue. Ue fichier vidéo numérique peut alors être indexé puis manipulé sur la base de cette association.
Ue document US6714909B1 est un autre exemple dans lequel un procédé d’automatisation du processus d’indexation multimodal est proposé. Ue procédé comprend les étapes suivantes :
- séparer un flux de données multimédia en composants audio, visuels et textuels ; - segmenter les composants audio, vidéo et textuels du flux de données multimédia sur la base de différences sémantiques, les caractéristiques au niveau de la trame étant extraites du composant audio segmenté dans une pluralité de sous-bandes ;
- identifier au moins un locuteur cible à l'aide des composants audio et vidéo ;
- identifier des limites sémantiques de texte pour au moins l'un des locuteurs cibles identifiés pour générer des blocs de texte sémantiquement cohérents ;
- générer un résumé du contenu multimédia basé sur les composants audio, vidéo et textuel, les blocs de texte sémantiquement cohérents et le locuteur cible identifié ;
- dériver un sujet pour chacun des blocs de texte sémantiquement cohérents sur la base d'un ensemble de modèles de catégories de sujets ;
- générer une description multimédia de l'événement multimédia sur la base du locuteur cible identifié, des blocs de texte sémantiquement cohérents, du sujet identifié et du résumé généré.
Le procédé décrit dans le document EP3252770A1 présente l’inconvénient de nécessiter la fourniture d’une description formelle du fichier vidéo numérique. Le procédé décrit dans le document US6714909B1 présente l’inconvénient de nécessiter que le contenu des flux audio et ou textes du fichier vidéo numérique soit sémantiquement structuré, c’est-à-dire qu’il s’agit de pouvoir reconstituer un contenu audio qui a un sens par extraction et agrégation de séquences d’une vidéo donnée. Il ne peut donc pas être mis en œuvre pour agréger des séquences issues de fichiers vidéo différents ou pour des fichiers vidéo sémantiquement faiblement structurée. L’invention vise ainsi à proposer un procédé automatisé d’analyse, d’indexation et de montage d’un ensemble de fichiers vidéo numériquement éventuellement faiblement structurés sur des critères définis par l’utilisateur et sans indexation a priori du contenu de ces fichiers.
RÉSUMÉ DE L’INVENTION
Ainsi, l’invention se rapporte à un procédé informatisé de dé-linéarisation audiovisuelle permettant un séquençage d’un ou plusieurs fichiers vidéo numériques et une indexation des séquences issues du séquençage, en découpant virtuellement par marquage temporel le ou les fichiers vidéo numériques en des séquences virtuelles, chaque séquence virtuelle étant définie par deux marqueurs temporels de séquence et des descripteurs associés.
Le procédé comprend les étapes suivantes : a. réception d’un ou plusieurs fichiers vidéo numériques à analyser ; b. indexation de chacun des fichiers vidéo numériques dans un index primaire au moyen de descripteurs endogènes primaires associés permettant d’identifier chaque fichier vidéo numérique ; c. extraction automatique des flux de données audio, image, et texte de chacun des fichiers vidéo numériques ; d. au moyen d’une pluralité de dispositifs informatisés mettant en œuvre un algorithme d’apprentissage automatique choisis et/ou entraînés pour une typologie de fichiers vidéo numériques définie au préalable, analyse automatique, fichier par fichier de chacun des fichiers vidéo numériques, selon les quatre modalités : modalité image, modalité audio, modalité texte, modalité action permettant d’identifier les groupes d’images successives formant une action donnée, l’analyse produisant de manière automatique un ou plusieurs marqueurs temporels de découpe unimodaux pour chacune des modalités, un ou plusieurs descripteurs étant associés à chacun des marqueurs temporels de découpe unimodaux, e. production automatique, à l’issue de l’analyse de chacun des fichiers vidéo numériques, de marqueurs temporels de séquence candidats de découpe virtuelle, dans le but de délimiter des séquences virtuelles, et des descripteurs associés à ces marqueurs temporels de séquence candidats de découpe virtuelle, qui sont :
- soit des marqueurs temporels de découpe unimodaux des fichiers vidéo numériques, et qui sont appelés à l’issue de cette étape marqueurs temporels de séquence candidats unimodaux ;
- soit, pour chacun desdits fichiers vidéo numériques pris isolément, les codes temporels correspondants aux marqueurs temporels de découpe virtuelle unimodaux sont comparés et, à chaque fois qu’au moins deux marqueurs temporels de découpe unimodaux issus de modalités d’analyse différentes sont séparés par un intervalle de temps inférieur à une durée prédéterminée principale, un marqueur temporel de séquence candidat plurimodal, en lien mathématique avec les au moins deux marqueurs de séquence unimodaux, est créé ; f. pour chacun desdits fichiers vidéo numériques analysés, en fonction d’une borne inférieure et d’une borne supérieure définies pour déterminer la durée minimale et la durée maximale de chaque séquence, par rapport à la typologie du ou des fichiers vidéo numériques,
- sélection automatique, parmi les marqueurs temporels de séquence candidats unimodaux ou plurimodaux, de paires de marqueurs de séquence,
- chaque paire présentant un marqueur de début de séquence et un marqueur de fin de séquence, de sorte que la durée de chaque séquence retenue soit comprise entre lesdites bornes inférieure et supérieure,
- ces paires de marqueurs de séquence étant associées aux descripteurs associés auxdits marqueurs temporels de séquence candidats sélectionnés, ces descripteurs étant dès lors dits « descripteurs endogènes secondaires » ; g. indexation, dans un index secondaire qui est en relation d’héritage par rapport audit index primaire, de toutes les paires de marqueurs de séquence et des descripteurs associés permettant l’identification de chaque séquence, les séquences virtuelles étant identifiables et aptes à être recherchés au moins par les descripteurs endogènes secondaires et les descripteurs endogènes primaires. Grâce à ces dispositions, il est possible de séquencer un fichier vidéo numérique en séquences présentant une cohérence sémantique suivant une à quatre modalités différentes, sous forme de séquences virtuelles délimitées par des paires de marqueurs temporels de séquence et indexées par des descripteurs secondaires associées à ces marqueurs temporels de séquence ainsi que les descripteurs primaires associées au fichier vidéo numérique dont les séquences sont issues. L’espace en mémoire utilisé pour ces séquences correspond à l’espace nécessaire pour stocker les paires de marqueurs temporels et les descripteurs secondaires associés. C’est en cela que le séquençage est dit virtuel.
Selon un mode de réalisation, le procédé informatisé de dé-linéarisation audiovisuelle est caractérisé en ce qu’un extrait vidéo associé à une séquence virtuelle, obtenu par visualisation du fragment de fichier délimité par les deux marqueurs de séquence de la séquence virtuelle présente une unité de sens (autrement dit une cohérence sémantique) qui résulte de l’analyse automatique de chaque fichier vidéo numérique selon les quatre modalités et de la découpe virtuelle par rapport à cette analyse.
Grâce à cette disposition, les séquences virtuelles peuvent être extraites et les extraits vidéo correspondant aux séquences virtuelles peuvent être visualisés par un utilisateur qui percevra sa cohérence sémantique et pourra lui attribuer un sens global.
Selon un mode de réalisation, au moins un des deux marqueurs de séquence de chaque paire de marqueurs de séquence sélectionnée à l’étape f est un marqueur temporel de séquence candidat plurimodal et est alors dit marqueur de séquence plurimodal, et avantageusement chaque marqueur de séquence de chaque paire de marqueurs de séquence sélectionnée est un marqueur de séquence plurimodal.
De cette manière, le sens global de la séquence est soutenu par plusieurs modalités et avantageusement quatre modalités. Dans ce dernier cas, la cohérence sémantique est donc obtenue à la fois sur la modalité texte, la modalité action, la modalité audio et la modalité image.
Avantageusement :
- plus une découpe a un nombre de descripteurs endogènes important et plus cet extrait vidéo a de chances d’être retenu dans la playliste suite à la recherche de l’utilisateur qui présenterait ces descripteurs endogènes
-et plus ce nombre de descripteurs endogènes important présente par différentes modalités des résultats communs (et dans ce cas on parle de descripteurs plurimodaux) et plus cet extrait vidéo a de chances d’etre retenu dans la playlist qui sera décrite plus loin suite à la recherche de l’utilisateur qui présenterait ces descripteurs endogènes.
De façon générale, plus les marqueurs de découpe sont plurimodaux et plus les extraits vidéos sont coupés avec une granulométrie fine. Selon un mode de réalisation, pour chaque extrait vidéo, les descripteurs dits endogènes sont issus de la même modalité, ou d’une ou de plusieurs modalités différentes de la ou des modalités dont sont issues pour les marqueurs de découpe temporel de début et de fin de séquence de l’extrait vidéo
Dans un mode de réalisation particulier, à l’étape f, on distingue deux types de marqueurs de séquence plurimodaux :
- un marqueur de séquence plurimodal créé à partir de quatre marqueurs temporels de découpe unimodaux issus des quatre modalités différentes séparés deux-à-deux par un intervalle de temps inférieur à la durée prédéterminée principale est dit marqueur de séquence plurimodal principal et
- un marqueur de séquence plurimodal créé à partir de deux ou trois marqueurs temporels de découpe unimodaux issus d’autant de modalités parmi les quatre modalités, séparés deux-à- deux par un intervalle de temps inférieur à la durée prédéterminée principale est dit marqueur de séquence plurimodal secondaire.
Selon un mode de réalisation, au moins l’un des marqueurs de chaque paire de marqueurs de séquence est un marqueur de séquence plurimodal principal.
Grâce à cette disposition, le sens global de la séquence est soutenu par quatre modalités.
Selon un mode de réalisation, la modalité action est une modalité d’au moins un des deux marqueurs de séquence de la paire de marqueurs de séquence sélectionnée.
Grâce à cette disposition, la cohérence sémantique d’une séquence est au moins sous-tendue par la modalité action, qui joue un rôle particulier dans de nombreux fichiers vidéo. Par exemple, dans le domaine du sport, la séquence obtenue sera cohérente du point de vue des actions sportives.
Selon un mode de réalisation, des poids sont affectés à chacune des modalités pour la production des marqueurs de séquence candidats à l’étape e et/ou la sélection des marqueurs de séquence à l’étape f.
Grâce à cette disposition, la cohérence sémantique d’une séquence peut-être sous-tendue dans des proportions variées, éventuellement adaptées à des typologies vidéo, par les quatre modalités. Par exemple dans le domaine du sport, on pourra attribuer un poids plus élevé à la modalité action. Dans le domaine des cours en ligne, on pourra attribuer un poids plus élevé à la modalité texte.
Selon un mode de réalisation,
- pour des fichiers vidéo numériques dans le domaine du sport, le poids de la modalité action est supérieur à celui de la modalité image, lui-même supérieur aux poids des modalités texte et audio,
-pour des fichiers vidéo à fort contenu informationnel par la parole, le poids de la modalité texte est supérieur à celui des trois autres modalités. Grâce à cette disposition, la cohérence sémantique d’une séquence peut-être adaptée à une typologie de vidéo telle qu’une vidéo dans le domaine du sport ou à une vidéo à fort contenu informationnel telle qu’un documentaire ou un cours en ligne.
Selon un mode de réalisation, on affecte un poids aux descripteurs endogènes secondaires ainsi qu’aux descripteurs endogènes primaires pour caractériser leur importance dans les séquences, et ce poids est plus grand pour les descripteurs endogènes secondaires que celui des descripteurs endogènes primaires.
Les poids différents des descripteurs endogènes et exogènes permettent lors de la formulation d’une requête de recherche de séquences formulée ultérieurement de faire jouer des rôles différents à ces deux types de descripteurs. En particulier, si le poids des descripteurs endogènes est supérieur à celui des descripteurs exogènes, les résultats d’une recherche de séquences seront davantage basés sur les descripteurs endogènes que sur les descripteurs exogènes.
Selon un mode de réalisation, les descripteurs endogènes secondaires sont dits « unimodaux » lorsqu’ils correspondent à une seule modalité et sont dits « plurimodaux » lorsqu’ils sont détectés pour plusieurs modalités.
Grâce à cette disposition, il est possible de distinguer les descripteurs sous-tendus par une seule ou par plusieurs modalités, ce qui peut être utile lors d’une recherche de séquence de fichier vidéo dans laquelle on souhaite faire jouer des rôles différents à ces deux types de descripteurs. A cette fin, selon un mode de réalisation, une information sur le caractère unimodal ou plurimodal d’un descripteur endogène secondaire donné est conservée au cours du processus d’indexation. Par exemple, si la modalité image donne le descripteur « thermodynamique » , et la modalité texte donne aussi le descripteur « thermodynamique », alors on peut constituer un descripteur plurimodal « thermodynamique » (qui est issue des deux descripteurs précédents et est donc plus robuste sur l’intérêt de visionner cet extrait on s’intéresse à la thermodynamique).
Selon un mode de réalisation, l’étape f du procédé présente ces sous étapes, pour chaque fichier vidéo numérique, pour réaliser les séquences : i) - sélection d’un dernier marqueur de fin de séquence, notamment plurimodal, à partir de la fin du fichier vidéo numérique,
-et détermination de la présence d’un marqueur de séquence plurimodal à un code temporel compris entre deux codes temporels extrêmes, calculés par soustraction de la borne inférieure au code temporel du marqueur de fin sélectionné et par soustraction de la borne supérieure au code temporel du marqueur de fin sélectionné,
- sélection du marqueur plurimodal comme dernier marqueur de début de séquence si la présence est confirmée,
-sinon, détermination de la présence d’un marqueur unimodal dont la modalité est fonction de la typologie du fichier vidéo numérique entre les deux codes temporels extrêmes - sélection du marqueur unimodal comme dernier marqueur de début de séquence si la présence est confirmée,
-sinon, le dernier marqueur de début de séquence est désigné par la soustraction au code temporel du dernier marqueur de fin sélectionné de la borne supérieure ; ii), on réitère l’étape i) pour sélectionner un avant-dernier marqueur de début de séquence, le marqueur de début de séquence sélectionné à l’issue de l’étape i précédente jouant le rôle de dernier marqueur de fin de séquence sélectionné au début de l’étape i précédente ; iii) on réitère ainsi de suite la sous-étape ii) jusqu’au début du fichier vidéo numérique.
Grâce à cette disposition, la convergence du séquençage est assurée.
Selon un mode de réalisation, la durée prédéterminée principale est inférieure à 5 secondes, et optionnellement la durée maximale de chaque séquence sélectionnée est égale à deux minutes Grâce à cette disposition, les marqueurs de découpe unimodaux successifs sont séparés au maximum de 5 secondes, de sorte que les marqueurs de séquence candidats sont assez proches dans le temps et le séquençage est suffisamment fin.
Si le séquençage est assez fin, il est possible de constituer des séquences virtuelles dont la durée est limitée par une borne supérieure relativement faible. Ainsi, selon un mode de réalisation, la durée des séquences virtuelles sélectionnées est limitée par une borne supérieure. Par exemple, la durée séparant les deux marqueurs d’une paire de marqueurs de séquence est inférieure à 2 minutes, 1 minute ou 30 secondes.
Selon un mode de réalisation, au moins une étape supplémentaire d’enrichissement de l’indexation des séquences virtuelles par des descripteurs secondaires exogènes est effectuée à l’étape g.
Grâce à cette disposition, le séquençage peut être réitéré pour aboutir à un séquençage plus fin, puisque des informations complémentaires - exogènes - ont été ajoutées.
Selon un mode de réalisation, les descripteurs secondaires au moyen desquels les séquences identifiées sont indexées sont enrichis d’un indicateur chiffré ou lettré, tel qu’un score global d’une carte de collection numérique, calculé pour chaque séquence à partir des descripteurs secondaires de la séquence virtuelle et/ou des descripteurs primaires du fichier vidéo numérique dans lequel la séquence a été identifiée.
Grâce à cette disposition, les résultats d’une recherche ultérieure de séquence dans l’index secondaire pourront être ordonnés sur la base de cet indicateur chiffré ou lettré.
Selon un mode de réalisation, la modalité action comprend les sous-modalités : {détection de changement de plans, détection d’action suivant une typologie de fichiers vidéo numérique}, et chacune des sous-modalités de la modalité action permet de générer un jeu particulier de marqueurs temporels de découpe unimodaux.
Grâce à cette disposition, autant de jeux marqueurs temporels de découpe unimodaux que de sous-modalités (une modalité ne contenant pas de sous-modalité étant comptée comme une sous-modalité unique) pourront être obtenus, de sorte que le séquençage permettra de produire des séquences cohérentes suivant N sous-modalités, N étant compris entre un et le nombre total de sous-modalités, le séquençage pouvant identifier marqueurs de séquence plurimodaux basés sur 1 à N sous-modalités. Le séquençage est donc plus fin et présente une plus grande variété de point de vue que dans le cas où les sous-modalités d’une même modalité ne sont pas distinguées.
Selon un mode de réalisation, l’analyse suivant la modalité audio comprend la détection de bruit, la détection de musique et/ou la transcription de la parole en un flux texte.
Grâce à cette disposition, les différents aspects de la modalité audio peuvent être pris en compte pour la recherche de marqueurs de découpe unimodaux.
Selon un mode de réalisation, l’analyse suivant la modalité image comprend les sous-modalités {reconnaissance de forme ou d’objets ; agrégation de plans ; reconnaissance optique de caractères}, et chacune des sous-modalités de la modalité image permet de générer un jeu particulier de descripteurs unimodaux.
Grâce à cette disposition, les différents aspects de la modalité image peuvent être pris en compte pour la recherche de marqueurs de découpe unimodaux, sur le même principe que ce qui a été décrit pour les sous-modalités de la modalité action.
L’invention concerne aussi un procédé informatisé de production automatique d’une playlist ordonnée d’extraits vidéo de fichiers vidéo numériques, avec un flux de transmission de données, les fichiers vidéo numériques étant indexés dans un index primaire stocké dans une base de données documentaire contenant les fichiers vidéo numériques avec des descripteurs primaires, les fichiers vidéo numériques ayant été, au préalable et au moyen du procédé informatisé de dé-linéarisation suivant l’un des modes de réalisation précédents, découpés virtuellement par marquage temporel en des séquences virtuelles qui sont définies par deux marqueurs temporels de séquence formant une paire de marqueurs de séquence et par des descripteurs secondaire associés, les paires de marqueurs de séquence virtuelle et les descripteurs secondaires associés étant mémorisés dans un index secondaire stocké dans une base de données documentaire, l’index secondaire étant en relation d’héritage avec l’index primaire ces index étant accessibles via une interface graphique. Le procédé informatisé de recherche et de production automatique d’une playlist d’extraits vidéo comprend :
1. la formulation d’au moins une requête de recherche ;
2. la transmission de ladite requête de recherche à un serveur de recherche associé à la base de données ;
3. la détermination et la réception à partir de la base de données documentaire, en réponse à la requête de recherche transmise, du résultat de recherche qui est une liste automatique de paires de marqueurs temporels de séquences et des descripteurs associés, suivant un ordre qui est fonction des descripteurs associés à chaque séquence virtuelle et de la formulation de la requête de la recherche, les séquences virtuelles étant identifiables et aptes à être recherchées par les descripteurs secondaires et les descripteurs primaires;
4. raffichage et le visionnage à partir d’une télécommande virtuelle de la playlist qui présente tous les extraits vidéo associés à la liste automatique ordonnée de paires de marqueurs temporels reçue lors de l’étape 3, sans création de nouveau fichier vidéo numérique, la télécommande virtuelle permettant la navigation sur la playlist, chaque extrait vidéo de la playlist étant associé à une séquence virtuelle, et étant appelé lors du visionnage de la playlist via le flux de transmission de données à partir du fichier vidéo numérique indexé dans l’index primaire dans lequel a été identifiée la séquence virtuelle indexée dans l’index secondaire.
Dans le procédé informatisé de production automatique d’une playlist d’extraits vidéo,
- les fichiers vidéo numériques mémorisés ont été séquencés, et les séquences virtuelles des fichiers vidéo numériques ont été indexées dans l’index secondaire avant la formulation des critères de recherche et avant la réception du résultat de recherche par le client au moyen du procédé de séquençage tel que décrit plus haut ;
- la playlist automatique ordonnée est une liste de séquences vidéo du ou des fichiers vidéo numériques correspondant chacun à une séquence virtuelle d’un fichier vidéo numérique, suivant un ordre qui est fonction des descripteurs secondaires associés à chaque séquence et primaires associés à chaque fichier vidéo numérique. Grâce à cette disposition, il est possible de sélectionner une ou plusieurs séquences de fichiers vidéo numériques obtenus à l’issue du procédé de séquençage d’un ou plusieurs fichiers vidéo numériques, c’est-à-dire de manière automatisée sans qu’il soit nécessaire que l’utilisateur visualise l’intégralité d’un ou plusieurs fichiers vidéo numériques.
Cette sélection peut être faite au moyen d’une requête de recherche et la recherche est effectuée dans l’index secondaire contenant les descripteurs secondaires des séquences, qui est lié à l’index primaire contenant les descripteurs primaires des fichiers vidéo numériques dont sont issues les séquences.
Selon un mode de réalisation, lors de la détermination du résultat de recherche : - dans une sous-étape 1), le procédé détermine en fonction de la requête de recherche et des descripteurs de la ou des séquences virtuelles, si les séquences virtuelles sont essentielles (le nombre de descripteurs est pertinent ) ou d’ornement (le nombre de descripteurs n’est pas pertinent par rapport au critère défini pour les séquences virtuelles essentielles) ;
- dans une sous-étape 2) · lorsque les paires de marqueurs temporels de séquence virtuelle constituant la liste automatique sont identifiés dans un seul fichier vidéo numérique, le procédé produit via le flux de transmission soit une playlist exhaustive d’extraits vidéo associés à toutes les séquences virtuelles essentielles, soit un résumé avec une sélection d’extraits vidéo associés aux des séquences virtuelles essentielles en fonction de critères spécifiés par l’utilisateur,
• lorsque les paires de marqueurs temporels de séquence virtuelle constituant la liste automatique sont identifiés dans plusieurs fichiers vidéo numériques, le procédé produit via le flux de transmission une playlist d’extraits vidéo associés aux séquences virtuelles dites « zapping », de ces fichiers numériques avec une sélection des séquences virtuelles essentielles associées aux extraits vidéo en fonction de critères spécifiés par l’utilisateur.
Selon un mode de réalisation du procédé informatisé de production automatique d’une playlist ordonnée d’extraits vidéo de fichiers vidéo numériques,
-lorsque les paires de marqueurs temporels de séquence virtuelle constituant la liste automatique sont identifiés dans un seul fichier vidéo numérique, le procédé produit via le flux de transmission une playlist résumé avec une sélection d’extraits vidéo de ce fichier vidéo numérique en fonction de critères spécifiés par l’utilisateur lors de sa recherche,
-lorsque les paires de marqueurs temporels de séquence virtuelle constituant la liste automatique sont identifiés dans plusieurs fichiers vidéo numériques, le procédé produit via le flux de transmission une playlist d’extraits vidéo associés aux séquences virtuelles dite « zapping », de ces fichiers numériques avec une sélection des extraits vidéo en fonction de critères spécifiés par l’utilisateur lors de sa recherche.
Selon un mode de réalisation, le procédé informatisé de production automatique d’une playlist d’extraits vidéo permet, après production automatique d’une playlist ordonnée d’extraits vidéo de fichiers vidéos numériques, les opérations suivantes de navigation à partir de la télécommande virtuelle et à partir du flux de transmission de données :
- lecture, arrêt et reprise de l’extrait en cours de visionnage de la playlist qui comporte tous les extraits vidéo associés à la liste automatique obtenue à l’étape 3;
- pointage d’un extrait dans la playlist qui comporte tous les extraits vidéo associés à la liste automatique obtenue à l’étape 3 par avance rapide ou retour rapide ;
- sortie temporaire de l’extrait de la playlist qui comporte tous les extraits vidéo associés à la liste automatique obtenue à l’étape 3 pour visionner le fichier vidéo numérique d’origine de l’extrait, sans contraintes temporelles liées aux marqueurs temporels de début et de fin de la séquence virtuelle associée à l’extrait vidéo.
Avantageusement, cette comprend une seule barre de navigation pour tous les extraits vidéos disposés les uns à la suite des autres sur la playlist, suivant l’ordre des marqueurs de séquences fonction de la requête de l’utilisateur (qui présente les descripteurs associés aux marqueurs de découpe dans l’index secondaire).
Grâce à cette disposition, il est possible à partir d’une séquence identifiée comme intéressante pour l’utilisateur par rapport à ses critères de recherche de procéder, au choix de l’utilisateur à la lecture de la suite du fichier dans lequel cette séquence a été identifiée, ou de passer à une autre séquence identifiée comme intéressante.
Selon un mode de réalisation, le procédé de production automatique d’une playlist ordonnée d’extraits vidéo de fichiers vidéo numériques permet l’opération additionnelle suivante : d. nouvelle sortie temporaire du visionnage du fichier vidéo numérique d’origine de l’extrait en cours de lecture depuis l’opération c), pour visionner lors de l’étape d) un résumé créé automatiquement et préalablement à ce visionnage à partir de ce seul fichier numérique d’origine.
Selon un mode de réalisation, le procédé de production automatique d’une playlist ordonnée d’extraits vidéo de fichiers vidéo numériques permet l’opération additionnelle suivante : e. enregistrement de l’historique de navigation sur la playlist des séquences vidéo et création d’un nouveau fichier numérique qui est cet historique de navigation.
Selon un mode de réalisation, la requête de recherche formulée à l’étape 1 est multicritères, et combine une recherche sur le texte intégral, une recherche à facettes et en ce que les critères pour réaliser l’ordre pour la playlist automatique comprennent des critères chronologiques et/ou sémantiques et/ou de pertinence.
Cette disposition permet de formuler des requêtes de recherche aussi variées que possibles, y compris avec des suggestions sur la base des facettes ou des critères, et d’obtenir une liste ordonnée de résultats.
Suivant un mode de réalisation du procédé de production automatique d’une playlist ordonnée d’extraits vidéo de fichiers vidéo numériques, la requête de recherche formulée à l’étape 1 est effectuée de manière automatique à partir d’un ou plusieurs critères spécifiés par l’utilisateur choisis dans une liste comprenant : la durée souhaitée d’une playlist automatique ainsi que des critères sémantiques.
De cette manière, la recherche de séquences dans des fichiers vidéo numériques peut être entièrement automatisée à partir de critères de recherche minimaux.
Selon un mode de réalisation du procédé informatisé de production automatique d’une playlist ordonnée d’extraits vidéo de fichiers vidéo numériques, la requête de recherche formulée à l’étape 1 est réalisée par un robot conversationnel.
Selon un mode de réalisation, le procédé informatisé de production automatique d’une playlist ordonnée d’extraits vidéo de fichiers vidéo numériques comprend une étape de visualisation dans laquelle l’utilisateur visualise sur un premier écran un extrait vidéo de la playlist, et des descripteurs de la séquence virtuelle associée à l’extrait vidéo sur un deuxième écran synchronisé avec l’extrait vidéo. Selon un mode de réalisation, le procédé informatisé de production automatique d’une playlist ordonnée d’extraits vidéo de fichiers vidéo numériques comprend une étape de visualisation dans laquelle les descripteurs associés aux séquences virtuelles sont visualisés sur les extraits. Grâce à ces dispositions, l’utilisateur peut visualiser en même temps que les extraits vidéo les descripteurs sur la base desquels le procédé a considéré la séquence comme pertinente par rapport à la requête de recherche. De cette manière, l’utilisateur peut à la fois attribuer un sens global à l’extrait vidéo et le comparer au sens global qui pourrait lui être attribué sur la base des descripteurs qui lui ont été automatiquement associés.
Selon un mode de réalisation du procédé informatisé de production automatique d’une playlist ordonnée d’extraits vidéo de fichiers vidéo ,1a technologie utilisée est ElasticSearch®.
Selon un mode de réalisation du procédé informatisé de production automatique d’une playlist ordonnée d’extraits vidéo de fichiers vidéo numériques, l’accès aux fichiers vidéos se fait en mode « streaming ».
L’invention concerne en outre une liste automatique de paires de marqueurs de séquence et des descripteurs associés issue du procédé informatisé de production automatique d’une playlist ordonnée d’extraits vidéo de fichiers vidéo numériques, présentant des descripteurs endogènes et exogènes cohérents avec la requête de recherche.
Selon un mode de réalisation, dans la liste automatique de paires de marqueurs de séquence et des descripteurs associés issue du procédé informatisé de de production automatique d’une playlist ordonnée d’extraits vidéo de fichiers vidéo, toutes les séquences virtuelles (donc toutes les paires de marqueurs temporels de séquence) ont, comme marqueur de fin de séquence, au moins un marqueur de séquence plurimodal principal ou issu de trois modalités.
Selon un mode de réalisation, dans la liste automatique de paires de marqueurs de séquence et des descripteurs associés issue du procédé informatisé de production automatique d’une playlist ordonnée d’extraits vidéo de fichiers vidéo, le marqueur de fin de séquence de chaque paire de marqueurs temporels de séquence correspondant à chaque séquence virtuelle est issu au moins de la modalité action.
Selon un mode de réalisation, dans la liste automatique de paires de marqueurs de séquence et des descripteurs associés issue du procédé informatisé de production automatique d’une playlist ordonnée d’extraits vidéo de fichiers vidéo, les marqueurs temporels de séquence sont déterminés par une approche multimodale par analyse automatique, fichier par fichier de chacun desdits un ou plusieurs fichiers vidéo numériques, selon au moins deux des quatre modalités : modalité image, modalité audio, modalité texte, modalité action.
Selon un mode de réalisation de la liste automatique, , au moins deux marqueurs temporels de séquence sont déterminés de façon aléatoire ou unimodale.
L’invention porte aussi sur un procédé informatisé de montage avec découpe virtuelle sans création de fichier vidéo numérique, à partir du procédé informatisé de production automatique d’une playlist ordonnée d’extraits vidéo de fichiers vidéo numérique comprenant les étapes suivantes :
I. production automatique d’au moins une playlist ordonnée d’extraits vidéo de fichiers vidéo numériques et enregistrement de l’au moins une liste automatique ordonnée de paires de marqueurs temporels de séquence et des descripteurs associés issus de cette production, sans création de fichier vidéo numérique ;
II. navigation sur l’au moins une playlist automatique d’extraits vidéo de fichiers vidéo numériques, par flux de transmission des données
III. sélection par l’utilisateur d’une ou plusieurs séquences virtuelles associée à l’au moins une playlist automatique d’extraits vidéo de fichiers vidéo numériques pour réaliser une nouvelle playlist d’extraits vidéo dont l’ordre est modifiable par l’utilisateur.
Selon un mode de réalisation, le procédé informatisé de montage avec découpe virtuelle comprend les étapes suivantes :
- modification de la playlist automatique d’extraits vidéo par ajout et/ou retrait d’extraits vidéo à la playlist ;
- modification d’un ou de plusieurs extraits vidéo par prolongation ou réduction de la durée des séquences virtuelles associées aux extraits vidéo de la playlist, par déplacement des marqueurs de début et de fin de chaque séquence virtuelle ;
- modification des extraits vidéo par un effet visuel ou un effet sonore.
Grâce à cette disposition, une nouvelle vidéo peut être montée de manière très automatisée, sans manipulation de fichiers vidéo numériques pour les agréger ou les découper. Le montage est économe en mémoire et en temps de calcul puisqu’il est basé sur la manipulation des marqueurs de séquence.
Selon un mode de réalisation du procédé de navigation, la playlist d’extraits vidéo est générée automatiquement par un procédé informatisé de recherche et de production automatique d’une playlist ayant des extraits vidéo ordonnés selon un des modes de réalisation décrits plus haut. L’invention porte de plus sur Lutilisation d’extraits vidéo ou d’une playlist d’extraits vidéo obtenue par le procédé informatisé de recherche et de production automatique d’une playlist, ou par le procédé de montage selon un des modes de réalisation décrits plus haut, dans un réseau social ou dans un moteur de recherche ou pour constituer un nouveau fichier vidéo numérique. L’invention porte enfin sur un système informatisé comprenant :
- Au moins un module d’acquisition d’un ou plusieurs fichiers vidéo numériques ;
- Au moins un module répartiteur ;
- Au moins un module d’analyse multimodale ;
- Au moins un module de séquençage générant des séquences de fichiers vidéo numériques indexées ; - Au moins un module de recherche comprenant un client permettant de formuler une requête de recherche pour la mise en œuvre des étapes :
1. On reçoit par l’intermédiaire du module d’acquisition un ou plusieurs fichiers vidéo numériques à analyser ;
2. On indexe de manière automatique chacun desdits fichiers vidéo numériques dans un index primaire, à partir des descripteurs endogènes, dits primaires, dudit fichier vidéo numérique ;
3. On extrait les flux de données audio, images et texte de chacun des fichiers vidéo numériques ;
4. Au moyen d’une pluralité de dispositifs informatisés mettant en œuvre un algorithme d’apprentissage automatique choisis et/ou entraînés pour une typologie de fichiers vidéo définie au préalable et contenus dans le module d’analyse multimodale, on réalise une analyse fichier par fichier de chacun desdits un ou plusieurs fichiers vidéo numériques selon les quatre modalités : modalité image, modalité audio, modalité texte, modalité action, l’analyse produisant de manière automatique un ou plusieurs marqueurs temporels de découpe unimodaux pour chacune des modalités, un ou plusieurs descripteurs étant associés à chacun des marqueurs temporels de découpe unimodaux;
5. On fournit, à l’issue de l’analyse de chacun des fichiers vidéo numériques, des marqueurs temporels de séquence candidats, dans le but de déterminer des séquences virtuelles, et les descripteurs associés à ces marqueurs temporels de séquence candidats, qui sont :
- soit des marqueurs temporels de découpe unimodaux desdits fichiers vidéo numériques qui sont appelés à l’issue de cette étape marqueurs temporels de séquence candidats unimodaux ;
- soit, pour chacun desdits fichiers vidéo numériques pris isolément, les codes temporels correspondants auxdits marqueurs temporels de découpe unimodaux sont comparés et, à chaque fois qu’au moins deux marqueurs temporels de découpe unimodaux issus de modalités d’analyse différentes sont séparés par un intervalle de temps inférieur à une durée prédéterminée principale, un marqueur temporel de séquence candidat plurimodal, en lien mathématique avec les au moins deux marqueurs de découpe unimodaux, est créé ;
6. Pour chacun desdits fichiers vidéo numériques analysés, on définit en fonction de la typologie dudit fichier vidéo numérique une borne inférieure et une borne supérieure pour la durée d’une séquence et on sélectionne de manière automatique parmi les marqueurs de séquence candidats des paires de marqueurs de séquence, dits marqueurs de début et de fin de séquence, chaque paire de marqueurs de séquence présentant un marqueur de début de séquence et un marqueur de fin de séquence, de sorte que la durée de chaque séquence retenue soit comprise entre lesdites bornes inférieure et supérieure, ces paires de marqueurs de séquence étant associées aux descripteurs associés auxdits marqueurs temporels de séquence candidats sélectionnés, ces descripteurs étant dès lors dits « descripteurs endogènes secondaires » ;
7. On indexe au moyen du module de séquençage dans un index secondaire qui est en relation d’héritage par rapport à l’index primaire, toutes les paires de marqueurs de séquence au moyen des descripteurs associés permettant l’identification de chaque séquence, les séquences étant identifiables et aptes à être recherchés au moins par les descripteurs endogènes secondaires et les descripteurs endogènes primaires ;
8. On formule une requête de recherche de séquences de fichiers vidéo numériques au moyen du module de recherche ; chacun des modules comprenant les moyens de calculs nécessaires, chacun des modules autres que le module répartiteur communiquant avec le module répartiteur et le module répartiteur gérant la répartition des calculs entre les autres modules.
Selon un mode de réalisation du système informatisé, ce système comprend en outre au moins un module d’enrichissement des descripteurs primaires des fichiers vidéo numériques et/ou secondaires des séquences virtuelles de fichier vidéo numérique par des descripteurs complémentaires exogènes.
Selon un mode de réalisation du système informatisé, ce système comprend en outre module éditeur de vidéo communiquant avec le module de recherche.
BRÈVE DESCRIPTION DES DESSINS
Des modes de réalisation de l’invention seront décrits ci-dessous par référence aux dessins, décrits brièvement ci-dessous :
Fig. 1 représente un organigramme d’un dispositif permettant de mettre en œuvre le procédé d’analyse, de séquençage et d’indexation des séquences d’un fichier vidéo numérique.
Fig. 2a représente une première étape de séquençage d’un fichier vidéo numérique selon les quatre modalités : image, audio, texte et action.
Fig. 2b représente une deuxième étape de séquençage d’un fichier vidéo numérique selon les quatre modalités : image, audio, texte et action.
Fig. 2c représente une troisième étape de séquençage d’un fichier vidéo numérique selon les quatre modalités : image, audio, texte et action.
Fig. 3 représente les différentes interactions entre les modules et les services du procédé informatisé en lien avec les actions possibles de l’utilisateur.
Fig. 4 représente les étapes d’une itération du procédé de séquençage d’un fichier vidéo sur la bas de quatre modalités. Fig. 5a représente une interface graphique 55 pour le montage ou le visionnage d’une playlist.
Fig. 5b représente un autre mode de réalisation d’une interface graphique pour le montage ou le visionnage d’une playlist.
Fig. 6 représente de manière schématique l’effet de la manipulation de la télécommande virtuelle sur la playlist.
Fig. 7a représente un troisième mode de réalisation d’une interface graphique 55.
Fig. 7b représente un quatrième mode de réalisation d’une interface graphique 55.
Fig. 8 représente un cinquième mode de réalisation d’une interface graphique 55.
Fig. 9 représente un sixième mode de réalisation d’une interface graphique 55.
Fig. 10 représente un septième mode de réalisation d’une interface graphique 55.
Fig. 11 représente un huitième mode de réalisation d’une interface graphique 55.
Fig. 12 représente un neuvième mode de réalisation d’une interface graphique 55.
Sur les dessins, des références identiques désignent des objets identiques ou similaires.
DESCRIPTION DÉTAILLÉE
L’invention concerne un procédé d’analyse, de séquençage et d’indexation multimodale de données audiovisuelles numériques. Le format des données audiovisuelles n’est pas limité a priori. A titre d’exemple, les formats de fichiers vidéo numériques MPEG, MP4, AVI, WMV de la norme ISO/IEC peuvent être envisagés.
Les données audiovisuelles peuvent être disponibles sur internet, sur une vidéothèque numérique publique ou privée, ou encore fournies unitairement ou de manière groupée par un utilisateur particulier.
Des métadonnées sont intégrées au document audiovisuel, notamment des métadonnées techniques : niveau de compression, taille des fichiers, nombre de pixels, format, etc. de catalogage : titre, année de production, réalisateur, ...
Ces métadonnées seront appelées métadonnées « globales » dans la mesure où elles sont associées au fichier vidéo numérique dans son ensemble.
De manière générale, comme on le verra dans la suite, il n’est pas nécessaire que le fichier vidéo numérique soit structuré pour que le procédé de dé-linéarisation audiovisuelle suivant l’invention fonctionne. Un fichier vidéo numérique sans aucune métadonnée de catalogage peut tout-à-fait être séquencé automatiquement par le procédé suivant l’invention sans intervention humaine. C’est l’une des forces du procédé par rapport aux procédés de séquençage de l’art antérieur.
Notamment, même si le procédé de dé-linéarisation audiovisuelle peut être mis en œuvre sur des fichiers vidéo numériques structurés, tels que ceux utilisés dans les procédés de diffusion de type « broadcast », il est particulièrement pertinent dans le cas d’un fichier vidéo numérique non ou faiblement structuré, tels que ceux disponibles assez généralement su internet ou utilisés dans des procédés de diffusion de type « multicast », à titre d’exemple des vidéos YouTube®.
Le procédé comporte plusieurs étapes parcourues de manière non linéaire, nécessitant sa mise en œuvre sur un dispositif informatisé 8 de séquençage de fichier vidéo numérique, dont un mode de réalisation est représenté à la Fig. 1, comprenant plusieurs modules :
- Un module 1 d’acquisition, permettant la récupération d’un ou plusieurs fichiers vidéo à partir de sources variées et leur indexation au moyen de descripteurs dits primaires dans un index primaire ;
- Un module 2 répartiteur ;
- Un module 3 d’analyse multimodale ;
- Un module 4 d’enrichissement des métadonnées, optionnel ;
- Un module 5 de séquençage générant des séquences virtuelles (ou encore des fragments virtuels) du ou des fichiers vidéo numériques et les indexant dans un index secondaire au moyen de descripteurs secondaires ;
- Un module 6 de recherche, comprenant le client permettant de procéder à une recherche sur les séquences générées par le module 5 pour un ou plusieurs fichiers vidéo numériques.
- Optionnellement un module 4 d’enrichissement.
- Optionnellement un module 7 éditeur de vidéo comprenant une interface graphique permettant de procéder à une manipulation de séquences virtuelles produites à la suite d’une recherche de séquences virtuelles par le module 5.
On parlera de « séquence virtuelle » ou équivalemment de « fragment virtuel » de fichier vidéo numérique. Une séquence virtuelle de fichier vidéo numérique (pour simplifier dans la suite : séquence de fichier vidéo numérique, voire séquence) désigne un fragment virtuel du fichier vidéo numérique initial, de durée inférieure à celle du fichier initial, dans lequel la succession d’images entre le début et la fin du fragment est exactement la même que celle du fichier vidéo numérique initial (ou d’origine, ou encore dans lequel la séquence virtuelle a été identifiée) entre les deux instants correspondants, sans qu’un nouveau fichier vidéo numérique spécifique à la séquence ne soit constitué au niveau physique.
Une séquence virtuelle de fichier vidéo numérique est donc constituée uniquement par la donnée d’une paire de marqueurs temporels de séquence, comprenant un marqueur de début de séquence et un marqueur de fin de séquence.
Chaque marqueur temporel correspond à un code temporel (en anglais, « timecode ») particulier dans le fichier vidéo numérique initial.
Lorsqu’une séquence de fichier vidéo numérique virtuelle est identifiée, sont uniquement stockés en mémoire, par exemple dans une base de données documentaire, la paire de marqueurs temporels de séquence correspondante ainsi que les descripteurs permettant son indexation et ainsi l’accès à la séquence virtuelle par une recherche dans l’index.
Une séquence virtuelle de fichier vidéo numérique est donc indexée systématiquement au moyen d’un ou plusieurs descripteurs sémantiques, dits secondaires L’espace en mémoire de stockage utilisé pour mémoriser ces séquences « virtuelles » correspond à l’espace nécessaire pour stocker les paires de marqueurs temporels et les descripteurs secondaires associés. C’est en cela que le séquençage est dit virtuel.
En d’autres termes, il n’est pas nécessaire de créer un nouveau fichier vidéo numérique par séquence virtuelle, qui serait une copie d’un fragment du fichier vidéo numérique de départ, dans lequel a été identifiée la séquence.
Le procédé de séquençage et d’indexation suivant l’invention est donc particulièrement peu coûteux en mémoire.
Une séquence virtuelle de fichier vidéo numérique permet dans un deuxième temps, notamment en fonction des besoins de l’utilisateur, l’extraction d’un fragment « réel » d’un fichier vidéo numérique, c’est-à-dire la constitution d’un « extrait vidéo » de fichier vidéo numérique.
La constitution d’un extrait vidéo de fichier vidéo numérique peut par exemple se matérialiser par des modifications dans la mémoire vive d’un processeur par la visualisation du contenu entre les deux marqueurs de séquence de la séquence virtuelle choisie, notamment en streaming, notamment après une étape de décompression. Cette visualisation de l’extrait vidéo ne nécessite pas la constitution d’un nouveau fichier vidéo numérique et appelle directement le passage ou le fragment du fichier vidéo numérique d’origine grâce à la séquence virtuelle.
La constitution d’un extrait vidéo peut éventuellement dans certains cas se matérialiser dans une mémoire de stockage par l’enregistrement du fragment de fichier vidéo numérique associé à la séquence virtuelle sous forme d’un nouveau fichier vidéo numérique pouvant être de taille inférieure à celui du fichier vidéo numérique dans lequel la séquence virtuelle correspondante a été identifiée.
Le module 1 d’acquisition permet de copier à partir de sources de stockage variées et d’enregistrer sur un dispositif de stockage adéquat un ou plusieurs fichiers vidéo numériques que l’on souhaite analyser.
Le dispositif de stockage contient éventuellement d’autres fichiers déjà acquis et son contenu est augmenté au fur et à mesure de Lutilisation du dispositif. De préférence, le dispositif de stockage permet l’accès au fichier vidéo en mode « streaming ».
Notamment, il est possible de télécharger des vidéos thématiques à analyser via des connecteurs Web, sur la base d’une requête de recherche formulée sur un moteur de recherche internet. Il est aussi possible de copier tout ou partie des fichiers vidéo numériques d’un autre dispositif de stockage, tel qu’une clé USB ou un serveur d’archives par exemple. L’ensemble des fichiers vidéo numériques acquis par le module 1 peut être homogène d’un point de vue du contenu ou hétérogène.
On peut par exemple envisager d’acquérir des fichiers vidéo numériques sur un critère de date, comme tous les fichiers vidéo filmés un jour précis. Dans ce cas, l’ensemble de fichiers vidéo numériques n’aura aucune raison a priori d’être homogène du point de vue du contenu. Ou bien, un ou plusieurs fichiers vidéo numériques peuvent être acquis sur la base d’une combinaison de mots-clés. Par exemple, on peut envisager d’acquérir toutes les fichiers vidéo numériques correspondant aux matches de football de ligue 1 en France pour une année donnée. L’ensemble des fichiers présente alors un contenu en rapport avec le football. A titre d’exemple, le fonctionnement du procédé sera décrit à plusieurs reprises sur ce cas particulier du football. Il est important de noter que cet exemple, homogène dans le sens défini précédemment, n’est en rien limitatif et ne sert qu’à favoriser la compréhension du procédé. Le procédé peut être mis en œuvre dans tout domaine (sport, cours en ligne, conférences scientifiques, actualités télévisées, vidéos amateur, cinéma, ... ) ou bien sur plusieurs domaines à la fois. On parlera équivalemment de domaine ou de typologie du fichier vidéo numérique. Un domaine ou encore une typologie peuvent notamment être décrits à l’aide de descripteurs sémantiques.
Les différents modules sont constitués par des machines physiques ou virtuelles, donc par un ou plusieurs processeurs. Les machines sont organisées en fermes (« cluster » en anglais). Le dispositif comprend au moins un nœud maître (« master » en anglais) qui interagit avec une pluralité de nœuds « ouvriers » dits « workers ». Chacun des nœuds, maître et « workers », encapsule au moins les applications, ressources de stockage, moyens de calculs nécessaires pour la réalisation de la ou des tâches auxquelles il est dédié.
Toute solution d’orchestration de conteneurs permettant d’automatiser le déploiement, la mise à l’échelle de la gestion d’applications conteneurisées pourra être envisagée pour la réalisation de ce « cluster ». A titre d’exemple non limitatif, la technologie ElasticSearch®, disponible en Open Source pourra être employée.
Les fichiers vidéo numériques acquis par le module 1 sont donc stockés, par exemple dans une base de données documentaire, et ils sont de plus indexés dans un index dit « primaire », permettant de retrouver et d’accéder à chacun des fichiers vidéo numériques dans son ensemble.
L’index primaire est par exemple contenu dans la base de données documentaire. L’indexation d’un fichier vidéo numérique donné dans l’index primaire se fait au moyen de descripteurs dits « primaires ». Il s’agit par exemple de tout ou partie des métadonnées du fichier vidéo numérique. La base de données est de type documentaire, par opposition à relationnelle, en ce sens que la recherche dans la base de données n’est pas fondée sur un modèle relationnel ni limitée à un langage de type SQL fondé sur des opérateurs algébriques, comme cela sera décrit plus loin.
Chaque fichier vidéo numérique acquis par le module d’acquisition 1 est transmis au module répartiteur 2 qui est un nœud maître. Le module répartiteur 2 réceptionne et distribue les requêtes sur les nœuds « workers » adaptés pour l’exécution des requêtes et disponibles pour cette exécution.
D’éventuelles redondances des nœuds « workers » pourront être envisagées mais ne seront pas décrites ici en détail.
Après réception d’un fichier vidéo numérique, si les métadonnées du fichier vidéo numérique le permettent, le module répartiteur 2 peut lancer une étape préalable et optionnelle d’enrichissement des métadonnées au niveau du module 4 d’enrichissement.
Le module 4 d’enrichissement, qui est un nœud « worker », est notamment connecté à des bases de données externes, telles que des bases de données (4a) libres d’accès et d’exploitation (Open Data), des web services (4b) ou d’autres bases de données (4c), privées notamment.
Par exemple, à partir des métadonnées d’un fichier vidéo numérique d’un match de football contenant des informations sur la date, le lieu et les équipes en présence, on peut imaginer de récupérer, grâce au module 4 d’enrichissement, des données telles que les noms des joueurs, les couleurs des maillots, ou encore un éventuel déroulé textuel du match s’il existe. Toutefois, cette étape préalable n’est pas indispensable pour la mise en œuvre du procédé et elle peut ne pas être exécutée ou n’aboutir à aucun enrichissement effectif des métadonnées initialement associées au fichier vidéo numérique.
Le procédé se base sur des techniques de dé-linéarisation automatique du fichier vidéo numérique basées sur le contenu. On entend par dé-linéarisation la découverte et/ou la reconnaissance de structures sous-jacentes dans un fichier numérique, notamment un fichier vidéo numérique, sans intervention humaine. La dé-linéarisation est, dans le cadre de l’invention, basée sur le contenu du fichier numérique, y compris les métadonnées, enrichies ou non au préalable.
Juste après l’acquisition du fichier vidéo numérique ou après l’étape préalable d’enrichissement, le module répartiteur 2 peut déclencher dans un premier temps quatre analyses au niveau du module 3 d’analyse multimodale.
Le module 3 d’analyse multimodale est un nœud « worker » sur lequel sont mis en œuvre quatre dispositifs informatisés différents mettant chacun en œuvre un algorithme d’apprentissage automatique. Il s’agit par exemple de quatre réseaux de neurones différents. Ces réseaux de neurones analysent le fichier vidéo numérique avec des points de vue différents en parallèle.
Chacun de ces réseaux de neurones est choisi de manière adéquate pour extraire des marqueurs temporels de découpage potentiel du fichier vidéo numérique en séquences ayant une cohérence, c’est-à-dire un sens, par rapport à un point de vue d’analyse particulier.
Le flux image (équivalemment flux vidéo) du fichier vidéo numérique peut être considéré entre autres comme une collection ordonnée d’images. On peut donc attribuer un numéro d’ordre à chaque image, permettant de la retrouver au sein du fichier vidéo numérique.
Au sens de l’invention, un marqueur temporel de découpe correspond à un numéro d’ordre, ou équivalemment à un instant donné lors du visionnage de la vidéo, les dates pouvant être repérées par rapport à l’instant initial correspondant à la première image du fichier vidéo numérique. En particulier, un marqueur de découpe est associé à un code temporel (« timecode).
Les réseaux de neurones utilisés peuvent notamment être des réseaux de neurones convolutifs (« Convolutional Neuronal Network », CNN) et/ou récurrents.
Chacun de ces réseaux de neurones contient plusieurs couches successives de neurones, de manière à pouvoir subir une phase d’apprentissage de type apprentissage profond (« deep leaming »), non supervisé, semi-supervisé ou supervisé, de préférence pré-entraîné avant sa mise en œuvre dans le dispositif 8.
Le rôle de la supervision pourra être plus ou moins important suivant la modalité d’analyse. Par exemple, l’analyse des flux texte et son pourra, dans un mode de réalisation non limitatif être effectué par un réseau de neurones ayant subi une phase d’apprentissage non supervisé, et l’analyse du flux image pourra mettre en œuvre un réseau de neurones ayant subi une phase d’apprentissage supervisé ou semi-supervisé.
Le nombre et le type de couches sont choisis en fonction du type d’analyse à effectuer.
Un fichier vidéo numérique comprend des composantes (encore appelées « flux ») images (ou équivalemment vidéo), son (ou équivalemment audio) et texte placées dans un conteneur. Un fichier vidéo numérique contient éventuellement plusieurs flux audio et/ou plusieurs flux images.
Le flux de type texte comporte des éléments tels que des métadonnées, des sous-titres, la transcription du flux audio sous forme de texte lorsque cela est possible, etc.
Il est possible d’analyser chacune de ces composantes, ou flux, du fichier séparément.
Le premier réseau de neurones, dit analyseur suivant la modalité image (3a), est configuré pour réaliser une analyse du flux images, image par image. Il peut notamment procéder à des analyses de type : détection d’objets, de formes, de couleur, de texture, détection d’images similaires, océrisation. L’analyseur suivant la modalité image (3a) analyse le contenu de chaque image du fichier à analyser pixel par pixel. Il est, entre autres, doté d’un algorithme détecteur d’objets, de préférence capable d’analyser en temps réel un flux vidéo tout en gardant une bonne performance prédictive (algorithme disponible sous le nom « Yolo3 » par exemple). L’analyseur suivant la modalité image (3a) extrait un ensemble de primitives qui prennent en compte certaines représentations comme le contour, la texture, la forme, la couleur, puis il agrège les résultats dans une seule signature permettant les calculs de similarité notamment à travers une hybridation entre des algorithmes de Deep Leaming et de clustering non supervisés (« K Nearest Neighbors », KNN).
A partir d’un ensemble de primitives sur le contour, la texture, la forme, la couleur (reconnaissance de forme) l’algorithme agrège les résultats dans une signature permettant des calculs de similarité notamment à travers une hybridation entre des algorithmes de Deep Leaming et de clustering non supervisés (KNN) (agrégation de plans).
Il est également doté d’une fonctionnalité de recherche de symboles de type émoticônes par exemple, qui peuvent être ajoutés au fichier vidéo numérique avant son analyse par interaction avec l’utilisateur.
Dans un mode de réalisation particulier, la modalité image donne heu à une analyse suivant au moins trois sous-modalités :
- Détection d’objets, de formes
- Reconnaissance de texte dans les images (chronomètres, scores, texte sur des maillots de joueurs, texte dans des diapositives de présentation d’un enseignement, ... ) et analyse de ce texte (« océrisation »)
- agrégation de plans : les plans similaires détectés dans des images analysées une par une sont regroupés.
Le deuxième réseau de neurones est un réseau dit analyseur sonore (3b) ou équivalemment analyseur suivant la modalité audio ou suivant la modalité son. Il est doté d’un séparateur de pistes audio et d’un détecteur d’activité de paroles, de bruit, de musique, ...
Il permet l’analyse du flux audio en réalisant par exemple une détection de séquences musicales, de dialogues ou tout au moins de paroles, de bruit, de silence, ou encore une détection d’ambiances sonores ...
Le troisième réseau de neurones (3c) est un analyseur du flux texte ou équivalemment analyseur suivant la modalité texte, par exemple des métadonnées, des sous-titres lorsqu’ils sont disponibles, ou du texte obtenu après une extraction de texte de type « speech to text » sur la base de technologies de reconnaissance vocales connues, ou encore des informations « video tagging » décrit plus loin.
A partir d’algorithmes de NLP (« Natural Language Processing » - « Traitement de langage naturel ») mis en œuvre sur le texte (issu par exemple de la transcription « parole vers texte » (« speech to text »)), l’analyseur suivant la modalité texte (3c) découpe des phrases, des paragraphes en unités de sens traduisant un changement de sujet, ou la suite d’une argumentation suivant des modèles de l’analyse du discours.
L’analyseur suivant la modalité texte (3c) peut également, via une plateforme de traitement automatique des langues (T.A.L), éventuellement Open Source, extraire des métadonnées sémantiques pour alimenter des champs structurés à partir du texte intégral provenant du module 4, par exemple à partir de sources Web et/ou de réseaux sociaux.
Le quatrième réseau de neurones (3d) est un analyseur du flux vidéo dans son ensemble, afin de créer des marqueurs de découpage basés sur des notions dynamiques, telles que la notion d’action ou les changements de plan. Cette modalité d’analyse sera appelée équivalemment modalité action ou modalité évènement.
Le rôle de cet analyseur suivant la modalité action (3d) est de définir une typologie d’actions pour le fichier vidéo numérique à analyser, éventuellement sans connaissance a priori de ces actions.
Dans l’exemple du ping-pong, les actions pourraient inclure les phases de jeu effectif par opposition aux phases pendant lesquelles les joueurs ne jouent pas, par exemple : attendent le prochain service, ramassent la balle, ...
Des actions précises, telles qu’un coup-droit ou un revers offensif ou défensif peuvent être identifiées.
L’analyseur suivant la modalité action (3d) détecte dans un premier temps les changements de plans. Il est à noter que les changements de plans ne sont en général pas faits au hasard par un monteur, donc peuvent être porteurs d’une information riche, que l’on retrouve au moins partiellement grâce à cette détection des changements de plans. Les images caractéristiques de chaque plan sont ensuite envoyées à l’analyseur suivant la modalité image (3a). Dans un second temps, les informations restituées par l’analyseur suivant la modalité image (3a) sont analysées dans l’analyseur suivant la modalité action (3d) par un algorithme de détection d’actions.
Par exemple, un système d'estimation de pose dense (« dense pose » en anglais) peut être mis en œuvre, qui associe les pixels de deux images successives sur la base des intensités des différents pixels pour les mettre en correspondance l'une avec l'autre.
Un tel système peut faire du « video tracking » sans que des capteurs aient été positionnés sur les objets animés/sujets présents dans le contenu vidéo. Il est notamment possible de détecter des parties du corps humain et donc de suivre la trajectoire d’un joueur de football donné par exemple.
Une banque d’actions peut être constituée en vue d’une phase d’apprentissage supervisée, grâce notamment à cette estimation. Dans l’exemple du ping-pong, l’analyse du geste du bras d’un joueur sur un ensemble de fichiers vidéo numériques contenant chacun une séquence de coup-droits offensifs bien identifiées permet au réseau de neurones de reconnaître sur la base des positions successives du bras d’un joueur un coup-droit offensif dans un fichier vidéo qui n’a pas servi à l’apprentissage.
Un coup-droit offensif (« lifté »), dont le geste se fait du bas vers le haut est par exemple différent d’un coup-droit défensif (« coupé »), dont le geste se fait du haut vers le bas.
Des actions peuvent être définies hors du contexte du sport. Dans le domaine des vidéos d’actualité politique, une poignée de mains entre deux sujets peut être une action au sens de l’invention, et un réseau de neurones peut apprendre à reconnaître une telle action.
Dans le domaine de l’éducation, le fait qu’un professeur écrive sur un tableau peut constituer une action.
L’analyseur suivant la modalité action (3d) peut aussi exploiter le son associé aux images. Ainsi, pour des vidéos éducatives, une interruption dans le débit de locuteur peut être indicative d’un changement d’action au sens de ces vidéos, c’est-à-dire le passage d’une séquence du cours à une autre séquence.
L’analyseur suivant la modalité action (3d) peut aussi exploiter les informations de « video tagging », c’est-à-dire des métadonnées de type mots-clés ajoutés manuellement au fichier vidéo numérique, lorsqu’elles sont pertinentes du point de vue des actions qui ont été identifiées.
Dans un mode de réalisation particulier, la modalité action donne heu à au moins deux sous- modalités :
- La première sous-modalité est l’analyse (ou équivalemment la détection) des changements de plans
- La deuxième sous-modalité est la détection d’action au sens d’une typologie, telle qu’une typologie de fichiers vidéo numériques ou de geste ou de mouvement.
Le procédé peut inclure la phase d’apprentissage des réseaux de neurones sur un jeu de fichiers vidéo associées à un domaine particulier, par exemple un ensemble de fichiers vidéo concernant un sport particulier, ou un domaine scientifique particulier. Il peut aussi être mis en œuvre sur des réseaux de neurones entraînés au préalable pour un domaine choisi par G utilisateur par exemple.
En sortie du module 3 d’analyse multimodale, au moins quatre jeux de marqueurs temporels de découpe unimodaux, issus chacun d’une modalité, voire d’une sous-modalité d’une modalité, peuvent être fournis pour le fichier vidéo numérique, chacun des marqueurs temporels de découpe unimodaux étant associé à un jeu de descripteurs sémantiques, dits descripteurs endogènes unimodaux.
On rappelle qu’en particulier, les analyseurs suivant les modalités image (3a) et action (3d) peuvent fournir des jeux de marqueurs temporels de découpe unimodaux suivant plusieurs sous-modalités. Par exemple, des marqueurs temporels de découpe unimodaux différents peuvent être identifiés suivant une ou plusieurs des sous-modalités : changement de plans,
- agrégation de plans (par similarité, par exemple issu d’une même caméra)
- détection d'objets, de formes,
- océrisation.
Si on distingue les sous-modalités, il est donc possible d’obtenir plus de quatre jeux de marqueurs temporels de découpe unimodaux.
Il est aussi bien sûr possible de réduire le nombre de modalité ou de sous-modalité d’analyse pour fournir moins de quatre jeux de marqueurs temporels de découpe unimodaux. Dans ce cas, le séquençage sera moins fin.
Au sens de l’invention, un descripteur est un terme, qui peut être un nom commun ou un nom propre, un adjectif, un verbe, une locution, un mot composé ou un groupe de mots, et qui représente un concept. Seuls les descripteurs ou combinaisons de descripteurs peuvent être utilisés pour l’indexation. Les non-descripteurs pourront par contre être utilisés dans la formulation de la requête de recherche au niveau du module 6 de recherche et montage.
Les descripteurs peuvent optionnellement être définis dans un thésaurus propre au dispositif ou provenir de thésaurus existants. Un descripteur permet donc, dans un langage documentaire, de préciser le contenu du fichier vidéo numérique quand il est associé au fichier vidéo numérique dans sa globalité, ou d’une séquence de fichier vidéo numérique quand il est associé à cette dernière.
L’étape d’analyse peut être réalisée sur la base de métadonnées minimales. L’exemple schématique suivant permet de comprendre les différentes étapes du procédé. Faisons l’hypothèse qu’un utilisateur du dispositif souhaite analyser une vidéo :
- qu’il ne connaît pas a priori, qu’il ne souhaite pas visionner au préalable
- pour laquelle il ne dispose que d’un nom de fichier non signifiant
- dont la piste audio ne permet pas l’extraction de contenu textuel signifiant. Par exemple, elle ne contient que du bruit sans paroles identifiables, ou un fond musical sans paroles et sans rapport avec le contenu images.
Typiquement, le fichier vidéo numérique exemple est un fichier vidéo amateur « exemple 1 », réalisé au cours d’un match de football et dans une ambiance sonore très bruyante de sorte que les éventuelles paroles ne peuvent pas être mises en évidence dans le bruit de fond. Une première analyse par le module 3 d’analyse multimodale permet de faire émerger quelques descripteurs de type ballon, foot, maillot (et leurs couleurs), noms de certains joueurs, ambiance sonore stade de foot, correspondant à un séquençage relativement grossier après traitement des résultats du module 3 d’analyse multimodale par le module 5 de séquençage qui sera décrit plus loin. Le module répartiteur 2 peut optionnellement enrichir les descripteurs unimodaux identifiés et associés aux marqueurs temporels de découpe unimodaux par des descripteurs exogènes, soit en les transmettant au module 4 d’enrichissement, soit à partir des descripteurs déjà identifiés et stockés dans le dispositif lui -même, notamment dans les index primaire et secondaire.
Dans le cas de « l’exemple 1 », par une recherche internet de données contenant les mots clés « ballon, foot, noms des joueurs », des descripteurs complémentaires, ou équivalemment descripteurs exogènes, comme « match, but, mi-temps, ... » pourront être ajoutés. De tels descripteurs exogènes peuvent aussi être retrouvés sur la base de données du dispositif s’il a déjà analysé d’autres fichiers vidéo du type match de football.
Si le module 4 d’enrichissement est intervenu, le répartiteur relance une étape d’analyse par le module 3 d’analyse multimodale sur la base de ces descripteurs enrichis. Cette nouvelle étape génère des marqueurs temporels de découpe unimodaux plus nombreux et/ou plus adaptés à la vidéo analysée. Par exemple, une seconde étape d’analyse de la vidéo « exemple 1 » suite à l’enrichissement des descripteurs par le module 4 d’enrichissement permettra d’obtenir un séquençage sur la base des deux mi-temps et des buts marqués si ces évènements sont identifiés.
Le module 3 d’analyse multimodale utilisé a priori peut être « généraliste » c’est-à-dire adapté à des fichiers vidéo numériques dont le contenu est aussi varié que possible, ou encore spécialisé par apprentissage sur un jeu de vidéos ad hoc.
Si on souhaite analyser des vidéos du point de vue du sport, un module 3 d’analyse multimodale dédié à et entraîné sur ce domaine, voire sur un sport précis, pourra être mis en œuvre. Mais il est possible d’analyser une même vidéo avec plusieurs modules 3 d’analyse multimodale dédiés à plusieurs domaines différents pour obtenir différents séquençages, ou encore d’utiliser un ensemble de modules 3 pour faire évoluer le choix du module 3 d’analyse multimodale au fur et à mesure de l’enrichissement des métadonnées pour aller vers un module 3 d’analyse multimodale de plus en plus adapté au contenu du fichier vidéo numérique, sur lequel le dispositif n’avait pas de connaissance du domaine du contenu a priori.
Dans ce dernier cas de figure, une redondance du module 3 d’analyse multimodale est donc nécessaire, chacun des modules 3 d’analyse multimodale étant adapté à un domaine particulier et/ou généraliste.
Dans un mode de réalisation particulier, le module 3 d’analyse multimodale peut n’analyser le fichier que suivant deux modalités, par exemple si l’un des flux du fichier n’est pas exploitable, ou si l’on souhaite privilégier ces deux modalités.
A l’issue d’une étape dans le module 3 d’analyse multimodale, et d’une éventuelle étape d’enrichissement intermédiaire dans le module 4 d’enrichissement, les marqueurs temporels de découpe unimodaux et les descripteurs endogènes, et éventuellement exogènes, unimodaux associés sont transmis par le répartiteur au module 5 de séquençage.
Le module 5 de séquençage est lui aussi un module « worker ». Le séquenceur synthétise toutes les informations recueillies par le répartiteur pour créer des séquences homogènes, cohérentes et pertinentes, si possible suivant plusieurs des points de vue utilisés dans le module 3 d’analyse multimodale à la fois.
Dans l’exemple représenté sur les Fig. 2a, Fig. 2b et Fig. 2c, l’axe horizontal représente l’axe des temps pour le fichier vidéo numérique c’est-à-dire l’ordre d’apparition des différentes images qui le constituent ; les marqueurs temporels de découpe unimodaux associés à la modalité image sont par exemple représentés sur la ligne du haut, les marqueurs temporels de découpe unimodaux associés à la modalité visuelle audio sur la ligne, juste en- dessous , puis encore en-dessous les marqueurs temporels de découpe unimodaux associés à la modalité textuelle, et enfin les marqueurs temporels de découpe unimodaux associés à la modalité action sont représentés sur celle du bas.
A l’issue du séquençage, le module 5 de séquençage propose des marqueurs temporels de séquence candidats.
Un marqueur temporel de séquence candidat est :
- soit un marqueur temporel de séquence candidat plurimodal,
- soit un marqueur de séquence candidat unimodal.
Pour créer un marqueur temporel de séquence candidat plurimodal, on procède comme suit : si au moins deux marqueurs temporels de découpe unimodaux issus modalités différentes sont identifiés comme proches temporellement, un marqueur temporel de séquence candidat plurimodal, en relation mathématique avec ces marqueurs temporels de découpe unimodaux, est créé.
La proximité temporelle est définie par rapport à un critère de temps T2 spécifié au préalable : deux (ou plus) de marqueurs temporels de découpe unimodaux sont considérés comme temporellement proches s’ils sont séparés deux-à-deux par une durée inférieure à une durée prédéterminée T2, dite principale.
Un marqueur temporel de séquence plurimodal est créé en lien mathématique avec les marqueurs de découpe unimodaux qui sous-tendent sa création suivant une règle fixée au préalable.
Par exemple, le marqueur temporel de séquence plurimodal candidat est identique au marqueur temporel de découpe unimodal issu de la modalité audio. Ou encore, il peut correspondre au marqueur temporel le plus proche de la moyenne des codes temporels des n marqueurs temporels de découpe unimodaux identifiés comme proches temporellement. Un marqueur temporel de séquence candidat unimodal est quant à lui créé sur la base d’une seule modalité. Il est dans ce cas dit marqueur temporel de séquence candidat unimodal et identique au marqueur temporel de découpe unimodal identifié.
La figure 2a représente la décomposition d’un fichier vidéo numérique selon les quatre modalités : image, audio, texte et action.
Sur cette figure, deux marqueurs temporels de séquence candidats 21 plurimodaux sont détectés dans ce cas suivant quatre modalités.
Lorsque les quatre modalités possèdent des codes temporels identiques ou des codes temporels évalués comme proches, un marqueur de séquence candidat dit principal car issu de quatre modalités est détecté. Des marqueurs de séquence candidat sont donc dits « principaux » lorsqu’ils sont issus des quatre modalités. Les deux marqueurs temporels de séquence candidats 21 de la figure 2a sont donc plurimodaux principaux.
Des descripteurs endogènes plurimodaux, dits « principaux » car issus des quatre modalités, sont associés à chacun des marqueurs temporels de séquence candidats 21 plurimodaux principaux identifiés.
La figure 2b représente la décomposition du même fichier vidéo numérique que pour la figure 2a selon les quatre modalités : image, audio, texte et action.
Cette décomposition aboutit dans un premier temps à la détection de trois marqueurs temporels de séquences candidats 21 principaux, issus de quatre modalités différentes.
Des marqueurs temporels de séquence candidats 22 plurimodaux, mais issus seulement de trois modalités, peuvent être identifiés.
Lorsque trois modalités possèdent des codes temporels identiques ou des codes temporels évalués comme proches, un marqueur de séquence est identifié. Ce marqueur de séquence candidat plurimodal est dit secondaire, car plurimodal mais issu de moins de quatre modalités. Au marqueur de séquence candidat plurimodal secondaire sont associés des descripteurs endogènes plurimodaux, dits secondaires car plurimodaux mais issus de moins de quatre modalités.
Dans tous les cas, un marqueur de séquence candidat plurimodal, qu’il soit principal ou secondaire, peut être associé à des descripteurs endogènes multimodaux (ou équivalemment plurimodaux), issus des descripteurs unimodaux associés aux marqueurs temporels de découpe unimodaux de toutes les modalités qui ont permis de sélectionner le marqueur plurimodal.
Les descripteurs sont dits « endogènes » lorsqu’ils sont issus du séquençage du fichier vidéo numérique par le module (5) de séquençage mais pas d’une étape d’enrichissement par le module (4) à partir d’informations exogènes au fichier vidéo numérique.
Quatre marqueurs temporels de découpe candidats plurimodaux secondaires 22 issus de trois modalités peuvent être observés sur la figure 2b. Lorsque seulement deux modalités possèdent des codes temporels identiques ou des codes temporels évalués comme proches, un seuil de proximité pouvant être prédéterminé, un marqueur de découpe candidat plurimodal dit « secondaire », car plurimodal mais issu de moins de quatre modalités, est identifié, auquel sont associés des descripteurs multimodaux endogènes, dits secondaires car plurimodaux mais issus de moins de quatre modalités, dans un deuxième temps.
Ce cas est représenté sur la figure 2c, toujours pour le même fichier vidéo numérique que sur la figure 2a. Le séquençage permet la détection dans un premier temps de marqueurs de séquence candidats plurimodaux principaux 21, dans un deuxième temps de marqueurs de séquence candidats plurimodaux secondaires 22 issus de trois modalités, puis dans un troisième temps de marqueurs de séquence candidats plurimodaux secondaires 23.
De préférence, les marqueurs de découpe candidats plurimodaux sont donc dans un premier temps choisis par proximité temporelle sur quatre modalités, ce qui aboutit au choix des marqueurs de séquence candidats plurimodaux principaux 21.
Si le critère de proximité temporelle sur au moins quatre modalités ou sous-modalités différentes aboutit à un séquençage insuffisant, des marqueurs de séquence plurimodaux secondaires 22 ou 23 peuvent être sélectionnés sur la base d’une association de deux ou trois modalités.
Le séquençage est considéré comme « insuffisant » sur des critères évaluables de manière automatique. Par exemple, si au moins un intervalle de temps séparant deux marqueurs de séquence candidats successifs a une durée supérieure à une durée, dite durée seuil Tl, prédéterminée, définie par exemple par rapport à la durée totale du fichier vidéo numérique ou de manière absolue, le séquençage est insuffisant.
Une fois, les marqueurs temporels de séquence candidats identifiés, une sélection est faite parmi ces marqueurs de séquence candidats pour constituer une ou plusieurs paires de marqueurs de séquence, comprenant chacune un marqueur de début de séquence et un marqueur de fin de séquence.
Dans un mode de réalisation, la durée d’une séquence est, pour ce faire, bornée par une durée minimale D 1 et par une durée maximale D2 qui dépendent de la typologie du fichier vidéo numérique à séquencer.
Puis, un dernier marqueur de fin de séquence peut être, pour initialiser la constitution de paires de marqueurs de séquence, placé à partir de la fin du fichier vidéo numérique, soit exactement à la fin du fichier, soit par exemple au niveau d’un marqueur temporel de séquence candidat à condition qu’il soit séparé par un intervalle de temps inférieur à un seuil prédéterminé de la fin du fichier.
Ensuite, il peut être envisagé de procéder à des itérations des étapes suivantes : - On recherche un marqueur de séquence candidat plurimodal séparé d’une durée comprise entre les durées et DI et D2 du dernier marqueur de fin de séquence. S’il existe, il est effectivement retenu comme dernier marqueur de début de séquence et associé au dernier marqueur de fin de séquence pour constituer la dernière paire de marqueurs de séquence, qui délimite la dernière séquence virtuelle.
Si un marqueur de séquence candidat plurimodal se trouve à une durée inférieure à D 1 du dernier marqueur de fin de séquence, il peut ainsi être décidé de ne pas le retenir parce que le séquençage aboutirait à des séquences trop courtes pour qu’elles soient réellement d’intérêt.
- Sinon, si aucun marqueur de séquence candidat plurimodal n’est identifié en-deçà de la durée D2, un marqueur de séquence candidat unimodal séparé d’une durée comprise entre les durées et DI et D2 du dernier marqueur de fin de séquence est recherché. S’il existe, il est sélectionné comme dernier marqueur de début de séquence et associé au dernier marqueur de fin de séquence pour constituer la dernière paire de marqueurs de séquence, qui délimite la dernière séquence virtuelle.
- A défaut, un dernier marqueur de début de séquence est créé, séparé d’une durée D2 du marqueur de découpe identifié, de manière à assurer la convergence du processus.
- Puis le processus de recherche est réitéré pour sélectionner l’avant-demier marqueur de de début de séquence, le dernier marqueur de début de séquence jouant le rôle d’avant-dernier marqueur de fin de séquence dans l’algorithme décrit juste au-dessus.
- Et ainsi de suite jusqu’à ce que le début du fichier vidéo numérique soit atteint.
A chaque fois qu’une paire de marqueurs de séquence comprenant un marqueur de début de séquence et un marqueur de fin de séquence est constituée, une séquence est donc virtuellement constituée.
Dans un mode de réalisation particulier, au moins un des marqueurs de séquence de chaque paire de marqueurs de séquence est plurimodal. Optionnellement, les deux marqueurs de séquence de chaque paire de marqueurs de séquence sont plurimodaux.
Cette disposition permet d’assurer que les séquences identifiées ont une cohérence sémantique définie par plusieurs modalités.
Dans un mode de réalisation particulier, toujours dans le but d’accroître la finesse du séquençage en conservant une cohérence sémantique élevée, au moins un des marqueurs de séquence de chaque paire de marqueurs de séquence est plurimodal principal.
Dans un mode de réalisation particulier, des poids peuvent être affectés aux différentes modalités en fonction de la typologie du fichier vidéo numérique. Par exemple, pour des vidéos de type « sport », la modalité action peut jouer un rôle plus important dans le séquençage si son poids est plus élevé. Les poids des différentes modalités peuvent éventuellement être choisis en fonction de la nature du contenu analysé (connue a priori ou détectée au fur et à mesure des itérations) et/ou du critère de recherche de fichiers vidéo formulé par un utilisateur du dispositif 8. Chaque séquence virtuelle de fichier vidéo numérique peut être indexée dans un index secondaire au moyen des descripteurs endogènes, et le cas échéant exogènes, associés au marqueur de début de séquence, ainsi qu’à ceux associés au marqueur de fin de séquence. Les descripteurs associés au marqueur de début de séquence et/ou au marqueur de fin de séquence sont dits « secondaires » en ce sens qu’ils sont associés à une séquence de fichier vidéo numérique et non plus au fichier vidéo numérique dans son ensemble. Ils permettent l’indexation de la paire de marqueurs de séquence dans l’index secondaire.
L’index secondaire est en relation d’héritage avec l’index primaire de sorte que les descripteurs endogènes primaires, associés au fichier vidéo numérique, sont aussi associés à la séquence identifiée.
La relation d’héritage est à comprendre au sens de l’informatique, notamment de la programmation orientée objet : les séquences d’un fichier vidéo numérique sont « filles » de ce fichier numérique en ce sens que si le fichier vidéo numérique est indexé au moyen de descripteurs endogènes et, le cas échéant exogènes, primaires, la séquence hérite de ces descripteurs primaires et peut donc être recherchée dans l’index non seulement sur la base des descripteurs secondaires qui la caractérisent mais aussi sur la base des descripteurs primaires qui caractérisent le fichier vidéo numérique dont elle est « fille ».
En variante, la durée minimale d’une séquence de fichier vidéo n’est pas fixée a priori mais une séquence de fichier vidéo (ou équivalemment une paire de marqueurs temporels de séquence) n’est retenue dans l’index secondaire que si elle est associée à un nombre de descripteurs suffisants, par exemple pour qu’il y ait une probabilité significative de retrouver cette séquence à l’issue d’une requête de recherche.
Comme on l’a vu plus haut, dans l’hypothèse où il n’est pas possible de trouver des marqueurs de séquence plurimodaux, des marqueurs de séquences unimodaux peuvent être sélectionnés, avant une étape d’enrichissement et une nouvelle itération du processus de séquençage par exemple.
Les marqueurs de séquence unimodaux jouent alors le même rôle que les marqueurs de séquence plurimodaux dans le processus d’indexation, c’est-à-dire que les séquences correspondantes sont indexées sur la base des descripteurs unimodaux associés. Ce cas de figure n’est pas recherché en soi, mais permet d’assurer la convergence du processus de séquençage.
Selon un mode de réalisation, une information sur le caractère unimodal ou plurimodal d’un descripteur endogène secondaire donné est conservée au cours du processus d’indexation. Grâce à cette disposition, il est possible de distinguer les descripteurs secondaires plurimodaux des descripteurs unimodaux, ce qui peut être utile lors d’une recherche de séquence de fichier vidéo dans laquelle on souhaite faire jouer des rôles différents à ces deux types de descripteurs.
Dans une variante, on procède à l’analyse d’un fichier vidéo numérique non pas à rebours, mais en commençant par sélectionner un premier marqueur de séquence initial, puis un premier marqueur de séquence de fin et ainsi de suite jusqu’à ce que le fichier ait été intégralement parcouru en partant du début du fichier.
A la fin du processus de démontage vidéo, ou encore de dé-linéarisation, qu’il réalise, le séquenceur indexe donc dans un index secondaire toutes les séquences virtuelles validées, c’est-dire toutes les séquences virtuelles identifiées et délimitées par un marqueur de début de séquence et un marqueur de fin de séquence retenus par le module 5 de séquençage, à chacune desquelles est associé un jeu de descripteurs sémantiques secondaires endogènes et, le cas échéant, exogènes.
On notera qu’un marqueur temporel de séquence peut être associé par défaut à la première image et/ ou à la dernière image, de manière à assurer le séquençage de l’ensemble du fichier.
On notera aussi qu’une étape préliminaire de réduction du fichier vidéo numérique peut être réalisée de manière à ne procéder au séquençage que sur les fragments de fichier vidéo numérique présentant de l’intérêt.
On peut par exemple imaginer d’éliminer de manière automatique, grâce à des réseaux de neurones spécialisés, les fragments correspondant à des séquences de publicité, ou des fragments d’un fichier vidéo numérique amateur trop sombres pour qu’ils méritent d’être conservés. Cette étape permet de réduire le temps de séquençage du fichier.
Les descripteurs secondaires sélectionnés à l’issue de l’étape de séquençage sont secondaires car associés non pas à un fichier vidéo numérique dans sa totalité, comme des métadonnées « globales » ou de manière général comme des descripteurs « primaires », mais ils sont associés à une séquence en particulier.
Le module 5 de séquençage peut éventuellement être un cluster de séquenceurs, cette disposition permettant de répartir les requêtes sur les différents séquenceurs du cluster en fonction de la montée en charge du dispositif.
Le processus est itératif, c’est-à-dire que les descripteurs secondaires associés à une séquence virtuelle peuvent être enrichis par une recherche de descripteurs secondaires dits « exogènes », tels que des descripteurs de séquence existant déjà dans la base de données de descripteurs du dispositif et/ou au travers du module 4 d’enrichissement, avant qu’un nouveau séquençage ne soit relancé pour aboutir à un séquençage plus fin, sur la base des descripteurs primaires et secondaires endogènes et exogènes identifiés. Il est d’ailleurs possible de procéder, avant le séquençage d’un fichier vidéo numérique, à une étape d’enrichissement des descripteurs endogènes primaires de ce fichier vidéo numérique par des descripteurs exogènes, dits aussi primaires au moyen du module 4 d’enrichissement. Un fichier vidéo numérique est donc indexé dans l’index primaire au moyen de descripteurs primaires endogènes, et, le cas échéant, exogènes.
Selon un mode de réalisation, une information sur le caractère exogène ou endogène d’un descripteur primaire ou secondaire donné est conservée au cours du processus d’indexation. Grâce à cette disposition, il est possible de distinguer les descripteurs endogènes des descripteurs exogènes, ce qui peut être utile lors d’une recherche de séquence de fichier vidéo dans laquelle on souhaite faire jouer des rôles différents à ces deux types de descripteurs.
Dans le cas de « l’exemple 1 », si les séquences ont été définies à l’issue d’une première étape de séquençage sur la base de l’horaire repéré pour les buts et la mi-temps, il est possible par exemple de retrouver sur internet le match correspondant et d’enrichir les descripteurs secondaires endogènes de chaque séquence sur la base d’informations textuelles sur ce match.
Puis une nouvelle analyse par le module 3 d’analyse multimodale et un séquençage affiné par le module 5 de séquençage peuvent être effectués.
La Fig. 4 donne une représentation schématique des étapes d’une itération du procédé de séquençage d’un fichier vidéo sur la base de quatre modalités.
Ces étapes de va-et-vient entre les modules 3 d’analyse multimodale et 5 de séquençage, orchestrées par le module 2 répartiteur, peuvent être réitérées de manière contrôlée soit sur la base d’une limitation du nombre d’itérations, soit sur la base d’un séquençage suffisamment fin du fichier vidéo numérique. On peut par exemple arrêter le processus lorsqu’au moins un marqueur de séquence candidat a été identifié pour tout intervalle de temps t spécifié, quelques secondes à titre d’exemple. On a vu que les fichiers vidéo numériques acquis par le module 1 étaient indexés dans un index dit « primaire », permettant l’accès au fichier vidéo numérique dans son ensemble. Le module 5 de séquençage indexe les séquences identifiées du fichier vidéo numérique dans un index dit « secondaire ».
Le processus d’indexation des séquences de fichier vidéo numérique est de type parent/enfant : l’index du répartiteur pointe sur les informations générales du fichier vidéo numérique, donc sur l’index dit « primaire », alors que le séquenceur crée une indexation « secondaire » héritée. Dans un mode de réalisation, les index primaires et secondaires sont multi-champs et s’alimentent mutuellement à chaque itération. Par exemple, une étape de séquençage de la vidéo d’un match de football peut faire émerger N séquences dont la k-ième est associée un descripteur est « mi-temps ». L’information « mi-temps » est pertinente à la fois pour la séquence k mais aussi pour l’ensemble du fichier vidéo. L’indexation primaire du fichier vidéo peut donc être enrichie de l’information mi- temps et de la date de cette mi-temps dans le fichier.
Dans une seconde itération du séquençage, si par exemple on sait que trois buts sont à rechercher et que ces quatre buts sont identifiés avant la première mi-temps dont l’information est contenue dans l’index primaire, il sera possible d’associer les séquences de la seconde mi-temps qui pourraient se rapprocher d’un but à des actions offensives sans but réalisé. L’index secondaire est alors enrichi avec ces informations. Et ainsi de suite.
En résumé, des informations à caractère générique peuvent alimenter l’index primaire à partir de l’index secondaire et des informations à caractère au départ identifié comme générique et devenant particulièrement pertinentes pour une séquence particulière peuvent alimenter l’index secondaire à partir de l’index primaire.
L’invention permet donc de descendre, grâce à ce processus d’indexation, à une granulométrie bien plus fine dans une recherche de contenus dans des fichiers vidéo numériques que ce qui est permis par les processus d’indexation actuellement mis en œuvre pour ce type de fichiers, ainsi qu’à une possibilité de recherche de séquence à deux niveaux suivant les deux dimensions imbriquées créées par les deux index.
On comprend qu’après au moins un passage dans les modules 3 d’analyse multimodale et 5 de séquençage suivie d’une étape d’enrichissement des descripteurs via le module 4 répartiteur, une indexation automatisée des séquences identifiées dans le fichier vidéo numérique - l’indexation « secondaire » - peut être obtenue en l’absence de toute connaissance préalable sur le contenu de ce fichier vidéo numérique, et même si les contenus audio et textuels ne permettent pas d’obtenir des descripteurs pertinents à l’origine.
On comprend bien que cette indexation secondaire est dynamique, c’est-à-dire qu’elle peut être enrichie et affinée : au fur et à mesure que les analyses de vidéos d’un même domaine sont réalisées, le corpus de descripteurs pertinents associés à ce domaine sur la base duquel le module 3 d’analyse multimodale peut analyser un fichier vidéo numérique s’accroît. En conséquence, le premier fichier vidéo numérique analysé peut être ré-analysé après l’analyse de N autres fichiers vidéo numériques pour affiner son séquençage.
On comprend aussi que l’indexation secondaire peut être réalisée suivant des points de vue variés en fonction des requêtes de recherche vidéo effectuées par l’utilisateur sur la vidéothèque déjà analysée. En d’autres termes, un point de vue initial choisi pour l’indexation secondaire n’est pas absolument limitatif et peut toujours être modifié sur la base d’une recherche particulière. Par exemple, un fichier vidéo numérique pourrait avoir été constitué manuellement par l’agrégation de deux fichiers vidéo pour donner un fichier vidéo numérique contenant une séquence foot contenant entre autres un but de football spectaculaire suivie d’une séquence rugby contenant entre autres un essai de rugby spectaculaire. L’analyse de ce fichier vidéo numérique en mode sport donnerait deux séquences, une séquence (a) pour le foot et une séquence (b) pour le rugby, mais il n’y a aucune raison pour que le séquençage soit adapté au football plutôt qu’au rugby ou réciproquement.
Si lors d’une recherche via le module 6 de recherche décrit plus loin, sur la base de mots clés associés au football, la séquence (a) est présentée parmi les résultats de recherche parmi d’autres vidéos, le répartiteur peut relancer une analyse de la vidéo (a) sur des descripteurs adaptés au football, pour obtenir un séquençage et une indexation plus adaptée à ce sport particulier. Mais il peut refaire le même processus à un autre instant dans le cadre du rugby.
Il s’agit donc d’une indexation dynamique, ne nécessitant pas de connaissance a priori du contenu du fichier vidéo numérique et s’affinant et s’enrichissant au fur et à mesure de G utilisation du dispositif.
Une fois le critère d’arrêt des itérations rempli pour au moins un fichier vidéo numérique, le module 6 de recherche contient un « client », qui permet à un utilisateur d’accéder aux différentes séquences des fichiers vidéo analysés en formulant une requête de recherche.
Le module 6 de recherche constitue donc le niveau dit « front-end » du dispositif, c’est-à- dire par lequel l’utilisateur final interagit avec le dispositif, alors que les modules 1 à 5 en constituent le niveau dit « back-end », c’est-à-dire non visible par l’utilisateur final du dispositif.
Le module 6 de recherche peut communiquer avec un module 7 éditeur de vidéo, comprenant une interface de création, de montage et de visionnage d’extraits vidéo correspondant à des séquences virtuelles.
Le module 6 de recherche permet au moins à l’utilisateur de formuler une requête de recherche et d’en visualiser le résultat.
Lorsque le serveur de la base de données documentaire reçoit la requête ainsi formulée dans le client, une recherche, par mots-clés notamment, est effectuée sur les séquences de fichiers vidéo grâce à l’association {index primaire, index secondaire} fondée sur un lien d’héritage et grâce aux jeux de descripteurs qui ont été associés à chaque séquence de chaque fichier vidéo numérique lors de l’indexation secondaire.
La requête n’est pas une requête a priori basée sur un langage de base de données relationnelle, bien que cette possibilité puisse être envisagée. Il s’agit d’un requêtage du type utilisé par les moteurs de recherche, à savoir que la requête peut combiner une recherche en texte intégral, à facettes basée sur les descripteurs présents dans les index primaire et secondaire et numérique (par exemple, des tris peuvent être faits sur des critères de type chronologiques).
La requête de recherche peut être formulée par un utilisateur dans une interface utilisateur ou bien par un robot conversationnel (« chatbot » en anglais).
Le résultat de la recherche est alors affiché dans l’interface graphique du module 6 de recherche et montage et il se présente non pas sous forme d’une liste de fichiers vidéo mais d’une liste de séquences de fichiers vidéo, classées par ordre de pertinence.
La Fig. 3 représente les différentes interactions entre les modules et les services du procédé informatisé en lien avec les actions possibles de l’utilisateur.
Le principe est donc celui mis en œuvre pour les moteurs de recherche de sites web, qui permettent d’accéder directement aux pages qui composent les sites web, ou pour la constitution de playlists à partir d’un ensemble de fichiers audio dans lesquels des pistes ou chapitres sont prédéfinis. Toutefois, si ce principe est naturel pour ces deux types de médias, hautement structurés et conçus pour être indexés, il n’est pas utilisé pour tout type de fichier vidéo numérique en général, pour lesquels le choix a été fait historiquement de les indexer dans leur globalité du fait de la complexité de leur séquençage.
Le dispositif permet en résumé de constituer un moteur de recherche de séquences de fichier vidéo numérique, le séquençage de fichiers vidéo sur laquelle la recherche est effectué étant dynamique, c’est-à-dire être créé ou modifié ou adapté à l’issue de la formulation d’une nouvelle requête de recherche.
Ainsi, si l’on reprend l’exemple des matches de football, si l’utilisateur souhaite obtenir une vidéo composée de tous les buts marqués par le numéro 11 de l’équipe qui a gagné la Ligue 1 une année donnée en France, cela est possible grâce au procédé décrit ici, à partir de la seule donnée des fichiers vidéo complets des matches de ligue 1 en France et sans aucune intervention manuelle de sélection de séquence dans chacun des fichiers vidéo.
Dans le domaine des cours en ligne, il est de même possible de composer une vidéo composée de séquences de vidéos issues de fichiers vidéo différents, traitant chacune du sujet des développements limités, mais en ne sélectionnant que les portions de fichiers vidéo qui traitent du développement de Taylor-Lagrange. Cela représente un gain de temps considérable, puisqu’il n’est plus nécessaire de visionner l’ensemble des fichiers vidéo pertinents alors que seules des portions (séquences) de ces fichiers vidéo sont réellement adaptées à la requête de recherche formulée.
Le résultat de la recherche peut comprendre plusieurs séquences issues de plusieurs fichiers vidéo différents et/ou plusieurs séquences issues du même fichier vidéo numérique.
On notera d’ailleurs qu’au moins dans le premier cas de figure, la notion de cohérence temporelle entre les séquences de fichiers vidéo issues de la recherche est absente, ce qui va bien au-delà des possibilités des moteurs de recherche de vidéos actuels. Le chapitrage est alors un chapitrage à cheval sur plusieurs fichiers vidéo numériques.
La cohérence temporelle des séquences d’origine peut ne pas être respectée, même dans le cas où les séquences formant la liste retournée en réponse à la requête de recherche sont issues d’un même fichier vidéo numérique d’origine, puisque c’est la pertinence des séquences par rapport au critère de recherche qui fixe leur ordre d’apparition dans cette liste. La pertinence des séquences par rapport au critère de recherche est par exemple évaluée suivant des critères logiques et mathématiques, qui permettent d’attribuer un score à chaque séquence en fonction d’une requête. Les séquences sont alors présentées par ordre de score décroissant. Des étapes de filtrage préalables (langue, origine géographique, dates, ...) peuvent être prévues.
Dans un mode de réalisation particulier, lors de l’indexation, un poids plus élevé est affecté aux descripteurs secondaires qu’aux descripteurs primaires pour que le résultat de la recherche se base plus sur le contenu de la séquence que sur le contenu du fichier vidéo numérique dans sa globalité.
Grâce à l’architecture d’indexation (primaire et secondaire), un utilisateur peut donc réaliser plusieurs tâches dynamiquement à partir de fonctionnalités de recherche en texte intégral, de concepts sémantiques, de thématiques ou de filtres/facettes multicritères.
Le module 6 de recherche peut comprendre une interface utilisateur, telle qu’un ordinateur, une tablette, un smartphone par exemple.
Le module 7 éditeur de vidéo peut comprendre une interface utilisateur, telle qu’un ordinateur, une tablette, un smartphone par exemple.
L’interface utilisateur peut être commune aux modules 6 et 7.
L’utilisateur peut notamment, via l’une ou l’autre de ces interfaces : à partir de chaque séquence virtuelle, procéder à l’extraction de la séquence virtuelle à partir du fichier vidéo numérique pour produire un extrait vidéo qu’il peut visualiser, par exemple en streaming, ou enregistrer sous forme d’un nouveau fichier vidéo numérique. Dans le cas où un extrait vidéo est visualisé, il peut optionnellement visualiser simultanément les descripteurs, endogènes et/ou, le cas échéant exogènes, secondaires et/ou primaires associés à la séquence extraite.
- Faire un résumé à partir d’un fichier vidéo (soit par le « natural language Processing » pour des cours en lignes, soit par la reconnaissance d’images pour résumé de séquences sportives) ;
Constituer des playlists en associant des séquences similaires et/ou des séquences réponses à une requête, ces séquences étant potentiellement issues de différents fichiers vidéo d’origine et organisées dans la playlist suivant un critère autre qu’un critère temporel ; - Faire un montage virtuel en associant des séquences similaires et/ou des séquences réponses à une requête, ces séquences étant potentiellement issues de différents fichiers vidéo d’origine et organisées dans la playlist suivant un critère autre qu’un critère temporel ;
- Naviguer au sein de la playlist ou de la nouvelle vidéo ainsi montée, puisque ces dernières sont automatiquement chapitrées grâce au système d’indexation secondaire. Il est notamment possible de déclencher la lecture d’un chapitre au choix ou encore d’interrompre et de reprendre le défilement dynamique des extraits vidéo à partir d’une interface graphique adéquate.
- Synchroniser les extraits vidéo avec un "second écran" de type tableau de bord présentant des informations enrichies provenant de métriques ou de statistiques, issues d’un calcul d’indicateurs extraits des extraits vidéo. L’analyse des données peut alors éventuellement être couplée avec l’analyse vidéo. Le tableau de bord peut aussi présenter d’autres informations, telles que des définitions ou des "en savoir plus" issu du web encyclopédique, des cartes géographiques, des graphes ...
L’interface utilisateur peut comprendre une interface graphique 55 comprenant une zone 52 dédiée à la formulation de la requête de recherche et à l’affichage de ses résultats, une zone de visionnage des extraits vidéo (écran 1, référence 53), une seconde zone d’affichage (ou encore écran 2, référence 54), synchronisée avec l’écran 1 et une zone de télécommande virtuelle 51.
Lorsqu’une playlist est obtenue, dans un mode de réalisation particulier, chaque marqueur de fin de séquence de chaque séquence virtuelle associée à un extrait de la playlist est : plurimodal principal ou
- plurimodal secondaire et issu de trois modalités.
Cette disposition permet d’accroître la cohérence sémantique de la playlist dans son ensemble et sa cohérence par rapport au critère de recherche formulée.
La navigation peut grâce au système d’indexation primaire et secondaire peut être étendue en-dehors de la playlist sélectionnée : il est par exemple possible, à partir d’une séquence donnée de la playlist, de prolonger la lecture du fichier vidéo numérique duquel est issu la séquence au-delà de cette séquence en déplaçant les marqueurs de début et/ou de fin de séquence.
Des effets visuels, tels que, de manière non exhaustive, des ralentis, des agrandissements, des répétitions, peuvent être appliqués sur la playlist, soit au cours du visionnage, un ajout de texte, un arrêt sur image, etc., soit pour le montage d’un nouveau fichier vidéo numérique. Des effets sonores, tels qu’à titre non limitatif, la modification d’un fond sonore, un ajout de commentaire ou d’un autre son, peuvent être appliqués sur la playlist, soit au cours du visionnage, soit pour le montage d’un nouveau fichier vidéo numérique. La constitution d’une playlist ou le montage d’une nouvelle vidéo peut être entièrement automatisée à partir de la formulation de la requête de recherche. Toutefois, comme le système se comporte comme une tête de lecture virtuelle qui se déplace dynamiquement de séquence en séquence, à tout moment, si l’interface graphique du module 6 lui en donne la possibilité, l’utilisateur peut agir sur la playlist ou la nouvelle vidéo.
Dans un mode de réalisation, l’interface graphique du module 7 éditeur de vidéo propose ainsi des options de navigation sous forme de lecteur vidéo amélioré permet d’accéder au résumé quand le résultat de la recherche est une vidéo entière ou d’un zapping interactif au sein des séquences sélectionnées et agrégées. Un mode de réalisation d’une telle interface graphique 55, pour le montage ou le visionnage d’une playlist, peut être visualisé sur la Fig. 5a. Des descripteurs sélectionnables sont positionnés à gauche de l’écran 1 de visionnage de la playlist, la playlist peut être affichée au-dessus de l’écran 1, les descripteurs liés à la recherche de l’utilisateur sont affichés au- dessus de la playlist. La télécommande virtuelle 51 se situe en dessous de la playlist. Un second écran en lien avec l’extrait vidéo correspondant à la séquence virtuelle en cours de visionnage se situe à droite de la playlist et permet d’afficher des graphiques ou d’autres informations utiles en lien avec la playlist.
La Fig. 5b représente un autre mode de réalisation de l’interface graphique du dispositif 8 dans lequel des descripteurs sélectionnables sont positionné à gauche de l’écran de visionnage de la playlist, la playlist est visionnée dans l’écran 1 (référence 53), les descripteurs liés à la recherche de l’utilisateur sont situés au-dessus de la playlist et la télécommande virtuelle 51 se situe en dessous de la playlist
La Fig. 6 représente les actions effectuées lors de Futilisation de chaque bouton de la télécommande virtuelle sur un exemple de playlist créé à partir de trois fichiers vidéo numériques, la playlist étant composé à titre d’exemple de trois extraits différents.
La télécommande virtuelle comprend par exemple au moins 5 boutons virtuels.
Le bouton al permet le visionnage de l’extrait vidéo correspondant à la séquence en cours et l’arrêt du visionnage.
Lors de la pression du bouton a2, la lecture de l’extrait vidéo correspondant à la séquence en cours de visionnage sera prolongée dans le fichier vidéo numérique d’origine au-delà de la durée prévue pour cette séquence, une seconde pression du bouton a2 alors que le visionnage n’a pas encore dépassé la limite temporelle prévue pour la séquence annule la pression première du bouton a2, une seconde pression du bouton a2 lors du visionnage du fichier vidéo numérique en dehors de la limite temporelle prévue, arrête le visionnage du fichier vidéo numérique d’origine et reprend la playlist à la séquence suivante.
Le bouton a3 permet de revenir au début de la séquence précédant la séquence en cours de visionnage. Le bouton a4 permet de revenir au début (au timecode du marqueur de début) de la séquence en cours de visionnage.
Le bouton a5 permet d’arrêter le visionnage de la séquence en cours et lance la lecture de la séquence suivante.
D’autres boutons virtuels sont susceptibles d’être rajoutés :
- Un bouton (« -N s »), qui permet de revenir N secondes en arrière du fichier vidéo numérique de la séquence en cours permettant de revoir une séquence ou de voir N secondes avant le marqueur de début de la séquence virtuelle en cours ;
- Un bouton virtuel (« + Ns »), ce bouton permet d’avancer de N secondes en avant du fichier vidéo numérique de la séquence en cours permettant de sauter une séquence ou de voir 10 secondes après le marqueur de fin de la séquence virtuelle en cours.
Les boutons virtuels permettent d’interagir avec les marqueurs de début et de fin de séquence en arrière-plan.
La télécommande virtuelle permet donc une navigation souple au sein de la playlist automatique d’extraits vidéo de fichiers numériques, l’utilisateur pouvant à volonté visionner les extraits sélectionnés dans l’ordre de la playlist ou dans un ordre qui lui convient mieux voire étendre le visionnage d’un extrait avant ou après les marqueurs de découpe, et ce sans que des fichiers associés à chaque extrait ne soient créées et ne doivent être ouverts et/ou fermés pour passer d’un extrait à l’autre. Le confort et les potentialités de la navigation sont donc considérablement améliorées par rapport à ce qui est possible avec une playlist « statique » au sens de l’art antérieur.
Les Fig. 7a et Fig. 7b représentent deux exemples d’interface graphique 55.
La figure 7a représente une interface graphique du procédé informatisé, comprenant un premier écran 53 pour le visionnage de la playlist, un second écran 54 pour un graphique en lien avec la séquence en cours de visionnage et une télécommande virtuelle 51 située en dessous des deux écrans pour naviguer dans la playlist (dans laquelle les extraits vidéos sont disposés à la suite les uns des autres), ainsi qu’un bouton servant à mettre en plein écran la playlist.
La figure 7b représente une interface graphique 56 du procédé informatisé, comprenant un premier écran 53 pour le visionnage de la playlist, un second écran 54 pour mettre des messages en lien avec la vidéo ou pour communiquer avec d’autres utilisateurs, une télécommande virtuelle 51 située en dessous des deux écrans pour naviguer dans la playlist et un bouton servant à mettre en plein écran la playlist.
Lorsqu’un résultat de recherche ne comprend que des séquences virtuelles identifiées dans un seul et même fichier vidéo numérique, la playlist constituée d’extraits sur la base de ce résultat de recherche peut être exhaustive. Elle peut aussi ne contenir que les extraits considérés comme essentiels par rapport à des critères de recherche spécifiés par Eutilisateur.
Un score peut notamment être défini pour classer les séquences virtuelles de fichiers vidéo numériques en deux catégories : « essentiels » et « d’ornement » en fonction du nombre de descripteurs trouvés.
Lorsqu’un résultat de recherche comprend des séquences virtuelles issues de fichiers vidéo numériques différents, la playlist constituée d’extraits sur la base de ce résultat de recherche peut ne contenir que les extraits associés à des séquences virtuelles identifiées comme essentielles par rapport à des critères de recherche spécifiés par futilisateur.
La notion de résumé peut être définie par rapport à un domaine particulier. Dans le cas du sport, et en particulier du football, le résumé peut être construit à partir de mots-clés fournis par l’utilisateur ou définis au préalable, par exemple {but, carton jaune, carton rouge, changement de joueur, mi-temps}, les séquences pertinentes étant présentées dans l’ordre temporel du fichier vidéo numérique initiale dont elles sont issues.
Il est possible de naviguer dans cette playlist ou la nouvelle vidéo en sélectionnant ou désélectionnant certaines scènes, en vue d’un montage vidéo en temps réel, par exemple au travers d’une interface graphique comprenant une barre de menu et des boutons de contrôle activables par un clic souris, tels que « marche », « avance rapide », « arrêt », « sélection chapitre », ...
La recherche est possible en mode « plein texte » (ou encore « texte intégral ») et en mode recherche « à facettes », avec éventuellement une saisie semi-automatique. Les réponses facettées permettent d’affiner les critères de recherche et sont combinées avec des mots en texte intégral.
Par exemple, pour l’exemple du domaine du football, il est possible de réaliser une playlist comportant des buts sur corners de toutes les équipes de ligue 1 en Lrance sur un an à domicile dans le dernier 1/4 d’heure de match en une durée de l’ordre de 10 fois inférieure à celle nécessaire sur une plateforme professionnelle (Instat/Dartfish/Sportscode couplés aux data providers Opta/Bombstats), et la playlist n’est composée que des séquences de matches pertinentes et non de la totalité des matches.
Grâce au système d’indexation par héritage, les fichiers vidéo (dans l’exemple précédent, les matches) dont sont issues les séquences sont connues. Il est donc possible de prévoir une option permettant de visionner en partie ou en totalité les fichiers vidéo d’origine des séquences si nécessaire.
L’interfaçage entre le module 6 « front-end » et le niveau « back-end » composé des modules 1 à 5 peut se faire quel que soit le support du module 6 (ordinateur, tablette, smartphone, ... ) éventuellement sans recourir à une application propriétaire. Cela est notamment réalisable avec des technologies accessibles en Open Source, telles que la bibliothèque React du JavaScript.
Optionnellement, le dispositif peut être intégré à un réseau social, et proposer deux profils d’utilisation : les créateurs de fichiers vidéo par montage au moyen du module 7 éditeur de vidéo et les visionneurs (« followers ») qui suivent ces créateurs.
L’historique de navigation sur une playlist d’extraits de fichiers vidéo numériques obtenue suivant l’invention peut être enregistré. Il peut ensuite être partagé dans un réseau social ou utilisé pour monter de manière semi-automatique un nouveau fichier vidéo numérique.
La Fig. 8 représente une interface graphique du dispositif 8 comprenant un écran pour la représentation d’une carte mentale (« mindmap » en anglais) d’un répertoire de séquences ou de listes automatiques ou d’extraits ou de playlist enregistrés par l’utilisateur, une partie des sauvegardes étant publique et l’autre partie privée, en dessous de cet écran plusieurs onglets sont sélectionnables : Mindmap, Chatbot, Recherche par facette, Réseau social et éditeur vidéo.
La Fig. 9 représente une interface graphique 56 du dispositif 8, comprenant un écran pour la représentation du Chatbot interactif permettant d’effectuer une recherche de playlist ou de séquences au travers d’une discussion par mot clé, en dessous de cet écran plusieurs onglets sont sélectionnables : Mindmap, Chatbot, Recherche par facette, Réseau social et éditeur vidéo.
La Fig. 10 représente une interface graphique du dispositif 8, comprenant un écran pour la représentation de la recherche par facette, regroupant des descripteurs sous d’autres descripteurs plus généraux, permettant de rechercher par arborescence, en dessous de cet écran plusieurs onglets sont sélectionnables : Mindmap, Chatbot, Recherche par facette, Réseau social et éditeur vidéo.
La Fig. 11 représente une interface graphique du dispositif 8, comprenant un écran pour le réseau social intégré à l’invention, les utilisateurs partagent les playlists trouvées ou créées, en dessous de cet écran plusieurs onglets sont sélectionnables : Mindmap, Chatbot, Recherche par facette, Réseau social et éditeur vidéo.
La Fig. 12 représente une interface graphique du dispositif informatisé 8, comprenant un écran pour l’édition de vidéo, l’utilisateur peut modifier l’ordre des extraits et intégrer les extraits qu’il souhaite dans une playlist, en dessous de cet écran plusieurs onglets sont sélectionnables : Mindmap, Chatbot, Recherche par facette, Réseau social et éditeur vidéo.
LISTE DES SIGNES DE RÉFÉRENCE
1 : module d’acquisition
2 : module répartiteur
3 : module d’analyse multimodale 3 a : analyseur suivant la modalité image 3b : analyseur suivant la modalité audio 3 c : analyseur suivant la modalité texte 3d : analyseur suivant la modalité action 4 : module d’enrichissement
4a : base de données libre d’accès et d’exploitation 4b : web services 4c : autre type de base de données 5 : module séquenceur 6 : client
7 : module éditeur vidéo
8 : dispositif informatisé de séquençage de fichiers vidéo numériques
21 : marqueur de séquence candidat plurimodal principal
22 : marqueur de séquence candidat plurimodal secondaire tri-modalités 23 : marqueur de séquence candidat plurimodal secondaire bi-modalités
51 : télécommande virtuelle
52 : zone dédiée à la formulation de la requête de recherche et à l’affichage de ses résultats
53 : zone de visionnage des extraits vidéo (écran 1)
54 : zone d’affichage synchronisée avec l’écran 1 55 : interface graphique utilisateur

Claims

REVENDICATIONS
1. Procédé informatisé de dé-linéarisation audiovisuelle permettant un séquençage d’un ou plusieurs fichiers vidéo numériques et une indexation des séquences issues du séquençage, en découpant virtuellement par marquage temporel le ou les fichiers vidéo numériques en des séquences virtuelles, chaque séquence virtuelle étant définie par deux marqueurs temporels de séquence et des descripteurs associés, le procédé comprenant les étapes suivantes : a. réception d’un ou plusieurs fichiers vidéo numériques à analyser ; b. indexation de chacun desdits fichiers vidéo numériques dans un index primaire au moyen de descripteurs endogènes, dits primaires, associés permettant d’identifier chaque fichier vidéo numérique ; c. extraction automatique des flux de données audio, image, et texte de chacun desdits fichiers vidéo numériques ; d. au moyen d’une pluralité de dispositifs informatisés mettant en œuvre un algorithme d’apprentissage automatique choisis et/ou entraînés pour une typologie de fichiers vidéo numériques définie au préalable, analyse automatique, fichier par fichier de chacun desdits un ou plusieurs fichiers vidéo numériques, selon les quatre modalités : modalité image, modalité audio, modalité texte, modalité action permettant d’identifier les groupes d’images successives formant une action donnée, l’analyse produisant de manière automatique un ou plusieurs marqueurs temporels de découpe unimodaux pour chacune des modalités, un ou plusieurs descripteurs étant associés à chacun des marqueurs temporels de découpe unimodaux, e. production automatique, à l’issue de l’analyse de chacun desdits un ou plusieurs fichiers vidéo numériques, de marqueurs temporels de séquence candidats, dans le but de délimiter des séquences virtuelles, et des descripteurs associés à ces marqueurs temporels de séquence candidats, qui sont :
- soit des marqueurs temporels de découpe unimodaux desdits fichiers vidéo numériques, et qui sont appelés à l’issue de cette étape marqueurs temporels de séquence candidats unimodaux ;
- soit, pour chacun desdits fichiers vidéo numériques pris isolément, les codes temporels correspondants auxdits marqueurs temporels de découpe unimodaux sont comparés et, à chaque fois qu’au moins deux marqueurs temporels de découpe unimodaux issus de modalités d’analyse différentes sont séparés par un intervalle de temps inférieur à une durée prédéterminée principale (T2), un marqueur temporel de séquence candidat plurimodal, en lien mathématique avec les au moins deux marqueurs de découpe unimodaux, est créé ; f. pour chacun desdits fichiers vidéo numériques analysés, en fonction d’une borne inférieure et d’une borne supérieure définies pour déterminer la durée minimale et la durée maximale de chaque séquence, par rapport à la typologie du ou des fichiers vidéo numériques,
- sélection automatique, parmi les marqueurs temporels de séquence candidats unimodaux ou plurimodaux, de paires de marqueurs de séquence,
- chaque paire de marqueurs de séquence présentant un marqueur de début de séquence et un marqueur de fin de séquence, de sorte que la durée de chaque séquence retenue soit comprise entre lesdites bornes inférieure et supérieure,
- ces paires de marqueurs de séquence étant associées aux descripteurs associés auxdits marqueurs temporels de séquence candidats sélectionnés, ces descripteurs étant dès lors dits « descripteurs endogènes secondaires » ; g. indexation, dans un index secondaire qui est en relation d’héritage par rapport audit index primaire, de toutes les paires de marqueurs de séquence au moyen des descripteurs associés permettant l’identification de chaque séquence, les séquences virtuelles étant identifiables et aptes à être recherchées au moins par les descripteurs endogènes secondaires et les descripteurs endogènes primaires.
2. Procédé informatisé de dé-linéarisation audiovisuelle suivant la revendication 1 caractérisé en ce qu’un extrait vidéo associé à une séquence virtuelle, obtenu par visualisation du fragment de fichier délimité par les deux marqueurs de séquence de la séquence virtuelle présente une unité de sens qui résulte de l’analyse automatique de chaque fichier vidéo numérique selon les quatre modalités et de la découpe virtuelle par rapport à cette analyse.
3. Procédé informatisé de dé-linéarisation audiovisuelle suivant la revendication 1 ou la revendication 2, dans lequel au moins un des deux marqueurs de séquence de chaque paire de marqueurs de séquence sélectionnée à l’étape f, est un marqueur temporel de séquence candidat plurimodal et est alors dit marqueur de séquence plurimodal, et avantageusement chaque marqueur de séquence de chaque paire de marqueurs de séquence sélectionnée est un marqueur de séquence plurimodal.
4. Procédé informatisé de dé-linéarisation audiovisuelle selon l’une des revendications 1 à 3, dans lequel à l’étape f, on distingue deux types de marqueurs de séquence plurimodaux :
- un marqueur de séquence plurimodal créé à partir de quatre marqueurs temporels de découpe unimodaux issus des quatre modalités différentes séparés deux-à-deux par un intervalle de temps inférieur à ladite durée prédéterminée principale (T2) est dit marqueur de séquence plurimodal principal et
- un marqueur de séquence plurimodal créé à partir de deux ou trois marqueurs temporels de découpe unimodaux issus d’autant de modalités parmi les quatre modalités, séparés deux-à- deux par un intervalle de temps inférieur à ladite durée prédéterminée principale (T2) est dit marqueur de séquence plurimodal secondaire.
5. Procédé informatisé de dé-linéarisation audiovisuelle selon l’une des revendications 1 à 4, dans lequel au moins l’un des marqueurs de chaque paire de marqueurs de séquence est un marqueur de séquence plurimodal principal.
6. Procédé informatisé de dé-linéarisation audiovisuelle selon l’une des revendications 1 à 5, dans lequel la modalité action est une modalité d’au moins un des deux marqueurs de séquence de la paire de marqueurs de séquence sélectionnée.
7. Procédé informatisé de dé-linéarisation audiovisuelle selon l’une des revendications 1 à 6, dans lequel des poids sont affectés à chacune des modalités pour la production des marqueurs de séquence candidats à l’étape e et/ou la sélection des marqueurs de séquence à l’étape f.
8. Procédé informatisé de dé-linéarisation audiovisuelle suivant la revendication 7, dans lequel :
- pour des fichiers vidéo numériques dans le domaine du sport, le poids de la modalité action est supérieur à celui de la modalité image, lui-même supérieur aux poids des modalités texte et audio,
- pour des fichiers vidéo à fort contenu informationnel par la parole, le poids de la modalité texte est supérieur à celui des trois autres modalités.
9. Procédé informatisé de dé-linéarisation audiovisuelle suivant l’une quelconque des revendications 1 à 8, dans lequel on affecte un poids aux descripteurs endogènes secondaires ainsi qu’aux descripteurs endogènes primaires pour caractériser leur importance dans les séquences, et ce poids est plus grand pour les descripteurs endogènes secondaires que celui des descripteurs endogènes primaires.
10. Procédé informatisé de dé-linéarisation audiovisuelle suivant l’une quelconque des revendications 1 à 9, dans lequel les descripteurs endogènes secondaires sont dits « unimodaux » lorsqu’ils correspondent à une seule modalité et sont dits « plurimodaux » lorsqu’ils sont détectés pour plusieurs modalités.
11. Procédé informatisé de dé-linéarisation audiovisuelle suivant l’une quelconque des revendications 1 à 10, dans lequel l’étape f présente ces sous étapes, pour chaque fichier vidéo numérique, pour réaliser les séquences virtuelles : i) - sélection d’un dernier marqueur de fin de séquence, notamment plurimodal, à partir de la fin du fichier vidéo numérique,
- et détermination de la présence d’un marqueur de séquence plurimodal à un code temporel compris entre deux codes temporels extrêmes, calculés par soustraction de la borne inférieure au code temporel du marqueur de fin sélectionné et par soustraction de la borne supérieure au code temporel du marqueur de fin sélectionné,
- sélection du marqueur plurimodal comme dernier marqueur de début de séquence si la présence est confirmée,
- sinon, détermination de la présence d’un marqueur unimodal dont la modalité est fonction de la typologie du fichier vidéo numérique entre les deux codes temporels extrêmes
- sélection du marqueur unimodal comme dernier marqueur de début de séquence si la présence est confirmée,
- sinon, le dernier marqueur de début de séquence est désigné par la soustraction au code temporel du dernier marqueur de fin sélectionné de la borne supérieure ; ii) on réitère l’étape i) pour sélectionner un avant-dernier marqueur de début de séquence, le marqueur de début de séquence sélectionné à l’issue de l’étape i précédente jouant le rôle de dernier marqueur de fin de séquence sélectionné au début de l’étape i précédente ; iii) on réitère ainsi de suite la sous-étape ii) jusqu’au début du fichier vidéo numérique.
12. Procédé informatisé de dé-linéarisation audiovisuelle suivant l’une quelconque des revendications 1 à 11, dans lequel ladite durée prédéterminée principale (T2) est inférieure à 5 secondes, et optionnellement ladite durée maximale de chaque séquence sélectionnée est égale à deux minutes.
13. Procédé informatisé de dé-linéarisation audiovisuelle suivant l’une quelconque des revendications 1 à 12, dans lequel au moins une étape supplémentaire d’enrichissement de l’indexation des séquences virtuelles par des descripteurs secondaires exogènes est effectuée à l’étape g.
14. Procédé informatisé de dé-linéarisation audiovisuelle selon l’une des revendications précédentes, dans lequel les descripteurs secondaires au moyen desquels les séquences identifiées sont indexées sont enrichis d’un indicateur chiffré ou lettré, tel qu’un score global d’une carte de collection numérique, calculé pour chaque séquence virtuelle à partir des descripteurs secondaires de la séquence et/ou des descripteurs primaires du fichier vidéo numérique dans lequel la séquence a été identifiée.
15. Procédé informatisé de dé-linéarisation audiovisuelle suivant l’une quelconque des revendications 1 à 14, dans lequel la modalité action comprend les sous- modalités {détection de changement de plans, détection d’action suivant une typologie de fichiers vidéo numérique}, et en ce que chacune des sous-modalités de la modalité action permet de générer un jeu particulier de marqueurs temporels de découpe unimodaux.
16. Procédé informatisé de séquençage et d’indexation suivant l’une quelconque des revendications précédentes, dans lequel l’analyse suivant la modalité audio comprend la détection de bruit, la détection de musique et/ou la transcription de la parole en un flux texte.
17. Procédé informatisé de séquençage et d’indexation suivant l’une quelconque des revendications précédentes, dans lequel l’analyse suivant la modalité image comprend les sous-modalités { reconnaissance de forme ou d’objets ; agrégation de plans ; reconnaissance optique de caractères}, et en ce que chacune des sous-modalités de la modalité image permet de générer un jeu particulier de descripteurs unimodaux.
18. Procédé informatisé de production automatique d’une playlist ordonnée d’extraits vidéo de fichiers vidéo numériques, avec un flux de transmission de données, les fichiers vidéo numériques étant indexés dans un index primaire stocké dans une base de données documentaire contenant les fichiers vidéo numériques, avec des descripteurs primaires, les fichiers vidéo numériques ayant, au préalable et au moyen du procédé informatisé de dé linéarisation audiovisuelle suivant l’une quelconque des revendications 1 à 17, été découpés virtuellement par marquage temporel en des séquences virtuelles qui sont définies par deux marqueurs temporels de séquence formant une paire de marqueurs de séquence et par des descripteurs secondaires associés, les paires de marqueurs de séquence virtuelle et les descripteurs secondaires associés étant mémorisés dans un index secondaire stocké dans une base de données documentaire, l’index secondaire étant en relation d’héritage avec l’index primaire, ces index étant accessibles via une interface graphique, le procédé comprenant :
1. la formulation d’au moins une requête de recherche ;
2. la transmission de ladite requête de recherche à un serveur de recherche associé à ladite base de données ;
3. la détermination et la réception à partir de la base de données documentaire dudit serveur, en réponse à ladite requête de recherche transmise, du résultat de recherche qui est une liste automatique de paires de marqueurs temporels de séquences et des descripteurs associés, suivant un ordre qui est fonction des descripteurs associés à chaque séquence virtuelle et de la formulation de la requête de la recherche, les séquences virtuelles étant identifiables et aptes à être recherchées par les descripteurs secondaires et les descripteurs primaires ;
4. l’affichage et le visionnage à partir d’une télécommande virtuelle de la playlist qui présente tous les extraits vidéo associés à la liste automatique ordonnée de paires de marqueurs temporels et reçue lors de l’étape 3, sans création de nouveau fichier vidéo numérique, la télécommande virtuelle permettant la navigation sur la playlist, chaque extrait vidéo de la playlist :
- étant associé à une séquence virtuelle, et
- étant appelé lors du visionnage de la playlist, via le flux de transmission de données à partir du fichier vidéo numérique indexé dans l’index primaire, dans lequel a été identifiée ladite séquence virtuelle indexée dans l’index secondaire.
19. Procédé informatisé de production automatique d’une playlist ordonnée d’extraits vidéo de fichiers vidéo numériques selon la revendication 18, dans lequel :
-lorsque les paires de marqueurs temporels de séquence virtuelle constituant la liste automatique sont identifiés dans un seul fichier vidéo numérique, le procédé produit via le flux de transmission une playlist résumé avec une sélection d’extraits vidéo de ce fichier vidéo numérique en fonction de critères spécifiés par l’utilisateur lors de sa recherche,
-lorsque les paires de marqueurs temporels de séquence virtuelle constituant la liste automatique sont identifiés dans plusieurs fichiers vidéo numériques, le procédé produit via le flux de transmission une playlist d’extraits vidéo associés aux séquences virtuelles dite « zapping », de ces fichiers numériques avec une sélection des extraits vidéo en fonction de critères spécifiés par l’utilisateur lors de sa recherche.
20. Procédé informatisé de production automatique d’une playlist ordonnée d’extraits vidéo de fichiers vidéo numériques selon la revendication 18 ou la revendication 19, dans lequel le procédé permet les opérations suivantes de navigation à partir de la télécommande virtuelle et du flux de transmission de données : a. lecture, arrêt et reprise de l’extrait en cours de visionnage de la playlist qui comporte tous les extraits vidéo associés à la liste automatique obtenue à l’étape 3; b. pointage d’un extrait dans la playlist qui comporte tous les extraits vidéo, par avance rapide ou retour rapide ; c. sortie temporaire de l’extrait de la playlist qui comporte tous les extraits vidéo, pour visionner le fichier vidéo numérique d’origine de l’extrait, sans contraintes temporelles liées aux marqueurs temporels de début et de fin de la séquence virtuelle associée à l’extrait vidéo.
21. Procédé informatisé de production automatique d’une playlist ordonnée d’extraits vidéo de fichiers vidéo numériques selon la revendication 20, dans lequel le procédé permet l’opération additionnelle suivante : d. nouvelle sortie temporaire du visionnage du fichier vidéo numérique d’origine de l’extrait en cours de lecture depuis l’opération c), pour visionner lors de l’étape d) un résumé créé automatiquement et préalablement à ce visionnage à partir de ce seul fichier numérique d’origine.
22. Procédé informatisé de production automatique d’une playlist ordonnée d’extraits vidéo de fichiers vidéo numériques selon l’une des revendications 20 et 21, dans lequel le procédé permet l’opération additionnelle suivante : e. enregistrement de l’historique de navigation sur la playlist des séquences vidéo et création d’un nouveau fichier numérique qui est cet historique de navigation.
23. Procédé informatisé de production automatique d’une playlist ordonnée d’extraits vidéo de fichiers vidéo numériques selon l’une des revendications 18 à 22, dans lequel ladite requête de recherche formulée à l’étape 1 est multicritères, et combine une recherche sur le texte intégral, une recherche à facettes et en ce que les critères pour réaliser l’ordre pour ladite playlist automatique comprennent des critères chronologiques et/ou sémantiques et/ou de pertinence.
24. Procédé informatisé de production automatique d’une playlist ordonnée d’extraits vidéo de fichiers vidéo numériques selon l’une des revendications 18 à 23, dans lequel ladite requête de recherche formulée à l’étape 1 est effectuée de manière automatique à partir d’un ou plusieurs critères spécifiés par l’utilisateur choisis dans une liste comprenant : la durée souhaitée d’une playlist automatique ainsi que des critères sémantiques.
25. Procédé informatisé de production automatique d’une playlist ordonnée d’extraits vidéo de fichiers vidéo numériques selon l’une des revendications 18 à 24, dans lequel ladite requête de recherche formulée à l’étape 1 est réalisée par un robot conversationnel.
26. Procédé informatisé de production automatique d’une playlist ordonnée d’extraits vidéo de fichiers vidéo numériques selon l’une des revendications 18 à 25, comprenant une étape de visualisation dans laquelle l’utilisateur visualise sur un premier écran un extrait vidéo de la playlist, et des descripteurs de la séquence virtuelle associée à l’extrait vidéo sur un deuxième écran synchronisé avec l’extrait vidéo.
27. Procédé informatisé de production automatique d’une playlist ordonnée d’extraits vidéo de fichiers vidéo numériques selon l’une des revendications 18 à 26, comprenant une étape de visualisation dans laquelle les descripteurs associés aux séquences virtuelles sont visualisés sur les extraits.
28. Procédé informatisé de production automatique d’une playlist ordonnée d’extraits vidéo de fichiers vidéo numériques selon l’une des revendications 18 à 27, dans lequel la technologie utilisée est ElasticSearch.
29. Procédé informatisé de production automatique d’une playlist ordonnée d’extraits vidéo de fichiers vidéo numériques selon l’une des revendications 18 à 28, dans lequel le procédé accède aux fichiers vidéos en mode « streaming ».
30. Liste automatique de paires de marqueurs de séquence et des descripteurs associés issus du procédé de procédé informatisé de production automatique d’une playlist ordonnée d’extraits vidéo de fichiers vidéo numériques selon l’une des revendications 18 à 29, présentant des descripteurs endogènes et exogènes cohérents avec la requête de recherche.
31. Liste automatique de paires de marqueurs de séquence et des descripteurs associés selon la revendication 30, dans laquelle les marqueurs temporels de séquence sont déterminés par une approche multimodale par analyse automatique, fichier par fichier de chacun desdits un ou plusieurs fichiers vidéo numériques, selon au moins deux des quatre modalités : modalité image, modalité audio, modalité texte, modalité action.
32. Liste automatique de paires de marqueurs de séquence et des descripteurs associés selon l’une des revendications 30 et 31, dans laquelle au moins deux marqueurs temporels de séquence sont déterminés de façon aléatoire ou unimodale.
33. Procédé informatisé de montage avec découpe virtuelle sans création de fichier vidéo numérique, à partir du procédé informatisé de production automatique d’une playlist ordonnée d’extraits vidéo de fichiers vidéo numériques selon l’une des revendications 18 à 29, comprenant les étapes suivantes :
I. production automatique d’au moins une playlist ordonnée d’extraits vidéo de fichiers vidéo numériques et enregistrement de l’au moins une liste automatique ordonnée de paires de marqueurs temporels de séquence et des descripteurs associés issus de cette production, sans création de fichier vidéo numérique ;
II. navigation sur l’au moins une playlist automatique d’extraits vidéo de fichiers vidéo numériques par flux de transmission des données ;
III. sélection par l’utilisateur d’une ou plusieurs séquences virtuelles associée à l’au moins une playlist automatique d’extraits vidéo de fichiers vidéo numériques, pour réaliser une nouvelle playlist d’extraits vidéo dont l’ordre est modifiable par l’utilisateur.
34. Procédé informatisé de montage avec découpe virtuelle selon la revendication précédente 33, comprenant l’une des étapes suivantes :
- modification de ladite nouvelle playlist automatique d’extraits vidéo par ajout et/ou retrait d’extraits vidéo à ladite nouvelle playlist ;
- modification d’un ou de plusieurs extraits vidéo par prolongation ou réduction de la durée des séquences virtuelles associées aux extraits vidéo de ladite nouvelle playlist, par déplacement des marqueurs de début et de fin de chaque séquence virtuelle ;
- modification des extraits vidéo par un effet visuel ou un effet sonore.
35. Utilisation des extraits vidéo ou d’une playlist d’extraits vidéo obtenue par le procédé de production automatique d’une playlist ordonnée d’extraits vidéo de fichiers vidéo numériques selon l’une des revendications 18 à 29, ou par le procédé de montage avec découpe virtuelle selon l’une quelconque des revendications 33 à 34, dans un réseau social ou dans un moteur de recherche.
36. Système informatisé comprenant : i. Au moins un module (1) d’acquisition d’un ou plusieurs fichiers vidéo numériques ; ii. Au moins un module (2) répartiteur ; iii. Au moins un module (3) d’analyse multimodale ; iv. Au moins un module (5) de séquençage générant des séquences de fichiers vidéo numériques indexées ; v. Au moins un module (6) de recherche comprenant un client permettant de formuler une requête de recherche, pour la mise en œuvre des étapes :
1. On reçoit par l’intermédiaire du module (1) d’acquisition un ou plusieurs fichiers vidéo numériques à analyser ;
2. On indexe de manière automatique chacun desdits fichiers vidéo numériques dans un index primaire, à partir des descripteurs endogènes, dits primaires, dudit fichier vidéo numérique ;
3. On extrait les flux de données audio, images et texte de chacun desdits un ou plusieurs fichiers vidéo numériques ;
4. Au moyen d’une pluralité de réseaux de neurones choisis et/ou entraînés pour une typologie de fichiers vidéo définie au préalable et contenus dans le module (3) d’analyse multimodale, on réalise une analyse fichier par fichier de chacun desdits un ou plusieurs fichiers vidéo numériques selon les quatre modalités : modalité image, modalité audio, modalité texte, modalité action, l’analyse produisant de manière automatique un ou plusieurs marqueurs temporels de découpe unimodaux pour chacune des modalités, un ou plusieurs descripteurs étant associés à chacun des marqueurs temporels de découpe unimodaux;
5. On fournit, à l’issue de l’analyse de chacun desdits un ou plusieurs fichiers vidéo numériques, des marqueurs temporels de séquence candidats, dans le but de déterminer des séquences virtuelles, et les descripteurs associés à ces marqueurs temporels de séquence candidats, qui sont :
- soit des marqueurs temporels de découpe unimodaux desdits fichiers vidéo numériques, qui sont appelés à l’issue de cette étape marqueurs temporels de séquence candidats unimodaux ;
- soit pour chacun desdits fichiers vidéo numériques pris isolément, on compare les codes temporels correspondant auxdits marqueurs temporels de découpe unimodaux et, à chaque fois qu’au moins deux marqueurs de découpe unimodaux issus de modalités d’analyse différentes sont séparés par un intervalle de temps inférieur à une durée prédéterminée principale (T2), on crée un marqueur de séquence candidat plurimodal en lien mathématique avec les au moins deux marqueurs temporels de découpe unimodaux ;
6. Pour chacun desdits fichiers vidéo numériques analysés, on définit en fonction de la typologie dudit fichier vidéo numérique une borne inférieure et une borne supérieure pour la durée d’une séquence et on sélectionne de manière automatique parmi les marqueurs de séquence candidats des paires de marqueurs de séquence, dits marqueurs de début et de fin de séquence, chaque paire de marqueurs de séquence présentant un marqueur de début de séquence et un marqueur de fin de séquence, de sorte que la durée de chaque séquence retenue soit comprise entre lesdites bornes inférieure et supérieure, ces paires de marqueurs de séquence étant associées aux descripteurs associés auxdits marqueurs temporels de séquence candidats sélectionnés, ces descripteurs étant dès lors dits « descripteurs endogènes secondaires »;
7. On indexe au moyen du module (5) de séquençage dans un index secondaire qui est en relation d’héritage par rapport audit index primaire, toutes les paires de marqueurs de séquence au moyen des descripteurs associés permettant G identification de chaque séquence, les séquences étant identifiables et aptes à être recherchés au moins par les descripteurs endogènes secondaires et les descripteurs endogènes primaires ; 8. On formule une requête de recherche de séquences de fichiers vidéo numériques au moyen du module de recherche (6) ; chacun desdits modules (1) à (6) comprenant les moyens de calculs nécessaires, chacun desdits modules (1), (3), (5) et (6) communiquant avec ledit module (2) répartiteur et ledit module (2) répartiteur gérant la répartition des calculs entre lesdits modules (1), (3), (5) et (6).
37. Système suivant la revendication 36 comprenant en outre au moins un module (4) d’enrichissement des descripteurs primaires des fichiers vidéo et/ou secondaires des séquences virtuelles de fichier vidéo numérique par des descripteurs complémentaires exogènes.
38. Système suivant la revendication 36 ou la revendication 37 comprenant en outre un module (7) éditeur de vidéo communiquant avec le module (6) de recherche.
PCT/EP2022/068798 2021-07-08 2022-07-06 Procede informatise de de-linearisation audiovisuelle WO2023280946A1 (fr)

Priority Applications (1)

Application Number Priority Date Filing Date Title
EP22748259.3A EP4335111A1 (fr) 2021-07-08 2022-07-06 Procede informatise de de-linearisation audiovisuelle

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
FRFR2107439 2021-07-08
FR2107439A FR3125193A1 (fr) 2021-07-08 2021-07-08 Procédé informatisé de dé-linéarisation audiovisuelle

Publications (1)

Publication Number Publication Date
WO2023280946A1 true WO2023280946A1 (fr) 2023-01-12

Family

ID=78649350

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/EP2022/068798 WO2023280946A1 (fr) 2021-07-08 2022-07-06 Procede informatise de de-linearisation audiovisuelle

Country Status (3)

Country Link
EP (1) EP4335111A1 (fr)
FR (1) FR3125193A1 (fr)
WO (1) WO2023280946A1 (fr)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116233104A (zh) * 2023-05-10 2023-06-06 广州耐奇电气科技有限公司 基于Elasticsearch的物联网大数据热力监控系统及其监控装置
CN116646911A (zh) * 2023-07-27 2023-08-25 成都华普电器有限公司 应用于数字化电源并联模式的电流均流分配方法及系统
CN117478824A (zh) * 2023-12-27 2024-01-30 苏州元脑智能科技有限公司 会议视频生成方法、装置、电子设备及存储介质

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6714909B1 (en) 1998-08-13 2004-03-30 At&T Corp. System and method for automated multimedia content indexing and retrieval
EP2166506A2 (fr) * 2002-04-02 2010-03-24 Verizon Business Global LLC Système de facturation pour des services fournis via des communications instantanées
US20150113013A1 (en) * 2013-10-23 2015-04-23 At&T Intellectual Property I, L.P. Video content search using captioning data
US20150293928A1 (en) * 2014-04-14 2015-10-15 David Mo Chen Systems and Methods for Generating Personalized Video Playlists
EP3252770A1 (fr) 2016-06-01 2017-12-06 Limecraft NV Identification et traitement automatiques de données audiovisuelles

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6714909B1 (en) 1998-08-13 2004-03-30 At&T Corp. System and method for automated multimedia content indexing and retrieval
EP2166506A2 (fr) * 2002-04-02 2010-03-24 Verizon Business Global LLC Système de facturation pour des services fournis via des communications instantanées
US20150113013A1 (en) * 2013-10-23 2015-04-23 At&T Intellectual Property I, L.P. Video content search using captioning data
US20150293928A1 (en) * 2014-04-14 2015-10-15 David Mo Chen Systems and Methods for Generating Personalized Video Playlists
EP3252770A1 (fr) 2016-06-01 2017-12-06 Limecraft NV Identification et traitement automatiques de données audiovisuelles

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116233104A (zh) * 2023-05-10 2023-06-06 广州耐奇电气科技有限公司 基于Elasticsearch的物联网大数据热力监控系统及其监控装置
CN116646911A (zh) * 2023-07-27 2023-08-25 成都华普电器有限公司 应用于数字化电源并联模式的电流均流分配方法及系统
CN116646911B (zh) * 2023-07-27 2023-10-24 成都华普电器有限公司 应用于数字化电源并联模式的电流均流分配方法及系统
CN117478824A (zh) * 2023-12-27 2024-01-30 苏州元脑智能科技有限公司 会议视频生成方法、装置、电子设备及存储介质
CN117478824B (zh) * 2023-12-27 2024-03-22 苏州元脑智能科技有限公司 会议视频生成方法、装置、电子设备及存储介质

Also Published As

Publication number Publication date
FR3125193A1 (fr) 2023-01-13
EP4335111A1 (fr) 2024-03-13

Similar Documents

Publication Publication Date Title
Amato et al. AI in the media and creative industries
EP1859614B1 (fr) Procede de selection de parties d'une emission audiovisuelle et dispositif mettant en uvre le procede
US8799253B2 (en) Presenting an assembled sequence of preview videos
US9342596B2 (en) System and method for generating media bookmarks
EP4335111A1 (fr) Procede informatise de de-linearisation audiovisuelle
US8156114B2 (en) System and method for searching and analyzing media content
Lokoč et al. Is the reign of interactive search eternal? findings from the video browser showdown 2020
US20060122984A1 (en) System and method for searching text-based media content
US20120239690A1 (en) Utilizing time-localized metadata
EP1368756A1 (fr) Procede de navigation par calcul de groupes de documents, recepteur mettant en oeuvre le procede, et interface graphique pour la presentation du procede
EP2104937B1 (fr) Procede de creation d'un nouveau sommaire d'un document audiovisuel comportant deja un sommaire et des reportages et recepteur mettant en oeuvre le procede
US20140115622A1 (en) Interactive Video/Image-relevant Information Embedding Technology
EP2524324B1 (fr) Procede de navigation parmi des identificateurs places dans des zones et recepteur mettant en oeuvre le procede
US20100281046A1 (en) Method and web server of processing a dynamic picture for searching purpose
Shamma et al. Network arts: exposing cultural reality
Saravanan Segment based indexing technique for video data file
Bailer et al. A video browsing tool for content management in postproduction
Knauf et al. Produce. annotate. archive. repurpose-- accelerating the composition and metadata accumulation of tv content
TWI780333B (zh) 動態處理並播放多媒體內容的方法及多媒體播放裝置
Zavesky et al. Searching visual semantic spaces with concept filters
Anilkumar et al. Sangati—a social event web approach to index videos
Smeaton et al. Interactive searching and browsing of video archives: Using text and using image matching
Peronikolis et al. Personalized Video Summarization: A Comprehensive Survey of Methods and Datasets
Volkmer Semantics of video shots for content-based retrieval
Kang Video abstraction techniques for a digital library

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 22748259

Country of ref document: EP

Kind code of ref document: A1

DPE1 Request for preliminary examination filed after expiration of 19th month from priority date (pct application filed from 20040101)
WWE Wipo information: entry into national phase

Ref document number: 2022748259

Country of ref document: EP

ENP Entry into the national phase

Ref document number: 2022748259

Country of ref document: EP

Effective date: 20231208

NENP Non-entry into the national phase

Ref country code: DE