WO2021123563A1 - Analyse d'un contenu multimedia - Google Patents

Analyse d'un contenu multimedia Download PDF

Info

Publication number
WO2021123563A1
WO2021123563A1 PCT/FR2020/052333 FR2020052333W WO2021123563A1 WO 2021123563 A1 WO2021123563 A1 WO 2021123563A1 FR 2020052333 W FR2020052333 W FR 2020052333W WO 2021123563 A1 WO2021123563 A1 WO 2021123563A1
Authority
WO
WIPO (PCT)
Prior art keywords
multimedia content
content
learning
events
analysis
Prior art date
Application number
PCT/FR2020/052333
Other languages
English (en)
Inventor
Laurent Jean Brunel
Louis-Xavier Carbonnel
Original Assignee
Orange
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Orange filed Critical Orange
Publication of WO2021123563A1 publication Critical patent/WO2021123563A1/fr

Links

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/20Servers specifically adapted for the distribution of content, e.g. VOD servers; Operations thereof
    • H04N21/25Management operations performed by the server for facilitating the content distribution or administrating data related to end-users or client devices, e.g. end-user or client device authentication, learning user preferences for recommending movies
    • H04N21/251Learning process for intelligent management, e.g. learning user preferences for recommending movies
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/40Information retrieval; Database structures therefor; File system structures therefor of multimedia data, e.g. slideshows comprising image and additional audio data
    • G06F16/43Querying
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/20Servers specifically adapted for the distribution of content, e.g. VOD servers; Operations thereof
    • H04N21/25Management operations performed by the server for facilitating the content distribution or administrating data related to end-users or client devices, e.g. end-user or client device authentication, learning user preferences for recommending movies
    • H04N21/258Client or end-user data management, e.g. managing client capabilities, user preferences or demographics, processing of multiple end-users preferences to derive collaborative data
    • H04N21/25866Management of end-user data
    • H04N21/25891Management of end-user data being end-user preferences
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/45Management operations performed by the client for facilitating the reception of or the interaction with the content or administrating data related to the end-user or to the client device itself, e.g. learning user preferences for recommending movies, resolving scheduling conflicts
    • H04N21/4508Management of client data or end-user data
    • H04N21/4532Management of client data or end-user data involving end-user characteristics, e.g. viewer profile, preferences
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/45Management operations performed by the client for facilitating the reception of or the interaction with the content or administrating data related to the end-user or to the client device itself, e.g. learning user preferences for recommending movies, resolving scheduling conflicts
    • H04N21/466Learning process for intelligent management, e.g. learning user preferences for recommending movies
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/45Management operations performed by the client for facilitating the reception of or the interaction with the content or administrating data related to the end-user or to the client device itself, e.g. learning user preferences for recommending movies, resolving scheduling conflicts
    • H04N21/466Learning process for intelligent management, e.g. learning user preferences for recommending movies
    • H04N21/4662Learning process for intelligent management, e.g. learning user preferences for recommending movies characterized by learning algorithms
    • H04N21/4666Learning process for intelligent management, e.g. learning user preferences for recommending movies characterized by learning algorithms using neural networks, e.g. processing the feedback provided by the user
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/47End-user applications
    • H04N21/475End-user interface for inputting end-user data, e.g. personal identification number [PIN], preference data
    • H04N21/4755End-user interface for inputting end-user data, e.g. personal identification number [PIN], preference data for defining user preferences, e.g. favourite actors or genre
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/47End-user applications
    • H04N21/488Data services, e.g. news ticker
    • H04N21/4882Data services, e.g. news ticker for displaying messages, e.g. warnings, reminders
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/80Generation or processing of content or additional data by content creator independently of the distribution process; Content per se
    • H04N21/81Monomedia components thereof
    • H04N21/8126Monomedia components thereof involving additional data, e.g. news, sports, stocks, weather forecasts
    • H04N21/8133Monomedia components thereof involving additional data, e.g. news, sports, stocks, weather forecasts specifically related to the content, e.g. biography of the actors in a movie, detailed information about an article seen in a video program

Definitions

  • the invention relates generally to telecommunications, and more specifically to access to audiovisual content. It applies more particularly to user terminals and / or platforms, handling such content.
  • a content is captured and broadcast in real time (for example a live television channel), it is not possible to launch actions related to its content, which is not necessarily known in advance.
  • US Patent No. 12 / 059,618 describes a personalized event notification system using real-time video analysis.
  • a live video stream is automatically monitored and characteristics of the video stream are analyzed against criteria that relate to an event previously identified by a user.
  • the criteria relate to the characteristics of the image or audio in the video stream. If the criteria are met, the user is informed that the event has occurred and this notification can be done through messages on the video display screen (e.g. on the TV screen) or through '' other messaging techniques (eg SMS or e-mail).
  • the criteria can define a particular logo and the user is notified if the scan detects the logo in the video stream.
  • the event defined by this method remains limited to the recognition of a model (in English, “pattern”) contained in the audio or video stream. It is based on the detection of predefined characteristic elements in the video. Therefore, this approach cannot estimate more complex events, such as the level of violence in certain content. In addition, it is often faulty because it cannot take into account the variations which may accompany the event. In addition, this method is very complex to implement for several contents and several events.
  • the invention improves the state of the art. For this purpose, it proposes a method for analyzing multimedia content.
  • the method comprises the following steps:
  • E30 first audio and / or video events (EVS ') (called preferred events) relating to first multimedia contents;
  • the method is implemented on an analysis device (DAN).
  • DAN analysis device
  • Multimedia content is understood to mean digital content which contains at least one image, text or sound data. Multimedia content can be received by broadcast (streaming, television, radio chitin, etc.) or stored on a medium (hard disk, database, server, etc.).
  • broadcast streaming, television, radio chitin, etc.
  • medium hard disk, database, server, etc.
  • event is understood to mean a characteristic or a set of characteristics linked to at least one of the media constituting the content; in conjunction with the previous examples, it can be a song, an actor, a level of violence, a face, a score in a sports match or in the course of a game , etc.
  • An event can be defined via a user interface for example, or automatically, by learning the uses of at least one user in particular.
  • detecting said presence comprises generating (E31) an estimate of said presence of said first events, in said portion of said second multimedia content (C), by a first audio and / or video content analysis model .
  • At least one of said first events is obtained from a user interface coupled to said device.
  • At least one of said first events is obtained as a function of a content consumption history.
  • At least one of said first events is obtained using a second analysis model of said content consumption history.
  • the first analysis model is that of a first neural network (RN) and comprises coefficients of the neural network optimized by an implementation on said first contents, and the method comprises in besides a step of:
  • the second analysis model can be driven by a second neural network, to analyze the user's preferences (for example from its consumption history) and thus obtain “first” events (or preferred events).
  • triggering at least one action relating to the provision of said second multimedia content comprises a start or an end of reproduction of said second content.
  • triggering at least one action relating to the provision of said first multimedia content comprises a notification of the presence of said first content on a user interface.
  • the method comprises, on an analysis device, the following steps:
  • a preferred event of a user can be obtained for example by an analysis of his preferences
  • prior knowledge of multimedia content is not necessary to trigger the estimation of the presence of an event in this content.
  • the estimation of the presence of the event depends in particular on a real-time analysis of the images and sounds that make up the content and no longer only on information describing the content determined in advance, nor on a pattern. predetermined to be analyzed in the sequence.
  • analysis is understood to mean a method applying to multimedia content in order to deduce therefrom the presence of at least one event.
  • the analysis can provide an output, in conjunction with the previous examples, an estimate of the presence of the song, the actor, the score, a level of violence of a certain threshold, etc. This estimate can be accompanied, for example, by a probability, or by a reliability index.
  • real-time analysis is understood to mean an analysis of the multimedia content in association with a time base (reception time for broadcast content, playback time for stored content).
  • a method as described above further includes the steps of:
  • provision is meant at least one action which can make it possible to inform a user of the availability of the multimedia content: notification message (including for example a proposal for access or switching (“zapping”) to the content. media available), recording (on a medium that is accessible to the user), content delivery, content or channel switching, etc.
  • notification message including for example a proposal for access or switching (“zapping”) to the content. media available
  • recording on a medium that is accessible to the user
  • content delivery content or channel switching, etc.
  • a user can automatically view a concert when his favorite song is broadcast on a channel, or available in streaming, or recorded in the local network; be automatically notified of a movie in which their favorite actor plays; be informed of the level of violence in a film, etc.
  • this invention can therefore allow the operator who manages the contents of a user and the people who consume the video stream not to be dependent on the metadata provided by the television channels to render this type of service. For example, it suffices for the user to inform his terminal or this operator of the criterion (s) that interest him for the multimedia content to be made available to the user (or his terminal) by the terminal and / or the operator. .
  • It may be a provision on a user terminal, when the method is implemented on the user's terminal, or a provision for a user terminal when the method is implemented on another device than the user terminal.
  • a provision When a provision includes a notification of the availability of content, the provision may for example include a proposal for access to the content and / or a proposal for the choice of a terminal on which the access will be made. .
  • a notification on a user's mobile terminal can offer a user a choice between accessing the content on a television or on his mobile terminal.
  • Such an embodiment can find application cases in “multitasking”. In particular, a user could thus continue to watch a family program on his television set, while watching the goal sequences of his favorite football team on his mobile terminal.
  • the analysis model is that of a neural network and comprises the optimized coefficients of the neural network, and the analysis further comprises a step of:
  • a neural network is used to carry out the analysis of the content.
  • Such networks are known for their ability to deal with a wide variety of problems. They also make it possible to deal with unstructured problems, that is to say problems on which no prior information is available.
  • the neural network can for example detect with a certain reliability index a level of violence in the content submitted to it.
  • the provision consists in giving access to the multimedia content to at least one terminal of the user.
  • the analysis step concludes in the presence in the analyzed content of the event that the user has signified as one of his favorites, the content is made available to the user, in particular to viewing or recording.
  • the content could for example be routed (streaming, download, broadcast, etc.) to the user's home gateway, to be delivered on his TV screen, or recorded on a hard drive of the local network, etc.
  • the provision consists in notifying the presence of the content, on at least one terminal of the user.
  • a notification is sent to the user (for example via the home gateway for display on one of its terminals) so that it can react accordingly (download content, change channels, etc.)
  • the invention also proposes a method for learning characteristics of multimedia contents.
  • the learning method comprises, for example on a learning device (DAP) the steps of:
  • At least one of said first events is a function of a content consumption history.
  • the learning method uses a neural network (RN) and the step of obtaining a first analysis model comprises training the neural network (RN) by the following steps:
  • the learning method takes into account a complexity criterion in its optimization.
  • the learning method comprises, on a learning device, the steps of: - acquire a plurality of multimedia contents;
  • the invention offers a method of learning on several multimedia contents likely to contain events of interest for users.
  • This learning can be carried out for example by an artificial intelligence (AI) engine using supervised learning.
  • AI artificial intelligence
  • the purpose of this training is to identify a certain number of triggering characteristics, or events, of all the videos.
  • the analysis model includes all the elements necessary for subsequent analysis of multimedia content.
  • the learning method uses a neural network and the step of generating an analysis model consists in training the neural network by the following sub-steps:
  • the analysis model derived from the neural network comprises in particular the optimized coefficients of the neural network, which can be supplied very simply to an analysis device.
  • the learning method takes into account a complexity criterion in its optimization.
  • the analysis model can be adapted, during training, to the analysis device in which it will be implemented. If the latter has limited computing power, it is in particular possible to envisage producing a model that is not very complex, so that it can be implemented on the device.
  • the invention also proposes a method for learning the preferences of at least one user, comprising steps of: acquiring at least one action relating to having multimedia content carried out during consumption of said content; associating said action with at least a portion of said content being consumed; recording of said action and of said associated portion in connection with said user (for example in connection with an identifier of said user).
  • the invention also relates to a device for analyzing multimedia content comprising a memory (M '), a processor (PROC') and a module for acquiring multimedia content (COM2) configured to implement the analysis method. previously described in any of its embodiments.
  • said memory (M '), said processor (PROC') and said module for acquiring multimedia content (COM2) are configured for:
  • E30 first audio and / or video events (EVS ') relating to first multimedia contents;
  • the analysis device comprises a memory, a processor, an artificial intelligence module, a module for acquiring multimedia content, configured for:
  • the invention also relates to a device for learning characteristics of multimedia contents for implementing one or other of the learning methods described above in any one of their embodiments.
  • the invention thus relates to a device for learning the characteristics of multimedia content comprising a memory, a processor, a module for acquiring multimedia content, a module for generating a learning model.
  • said device further comprises an artificial intelligence module
  • said memory, said processor, said artificial intelligence module and said module for acquiring multimedia content a module for generating a learning model configured to: acquire at least one related action have a multimedia content performed during consumption of said content; associating said action with at least a portion of said content being consumed; recording of said action and of said associated portion in connection with said user (for example in connection with an identifier of said user).
  • said memory, said processor, said artificial intelligence module and said module for acquiring multimedia content, a module for generating a learning model configured for:
  • the invention also relates to a server or service platform comprising an analysis device as described above.
  • the invention also relates to a server or service platform comprising a learning device as described above.
  • the invention also relates to a domestic gateway or a terminal comprising an analysis device as described above.
  • the invention also relates to a system for analyzing multimedia content, comprising:
  • the system being configured in such a way that the analysis device receives the learning model generated by the learning device.
  • the invention also relates to a computer program comprising instructions for implementing one of the above methods according to any one of the particular embodiments described above, when said program is executed by a processor.
  • the method can be implemented in various ways, in particular in wired form or in software form.
  • This program can use any programming language, and be in the form of source code, object code, or intermediate code between source code and object code, such as in a form partially compiled, or in any other desirable form.
  • the invention also relates to a recording medium or information medium readable by a computer, and comprising instructions of a computer program as mentioned above.
  • the aforementioned recording media can be any entity or device capable of storing the program.
  • the medium can comprise a storage means, such as a ROM, for example a CD ROM or a microelectronic circuit ROM, or else a magnetic recording means, for example a hard disk.
  • the recording media can correspond to a transmissible medium such as an electrical or optical signal, which can be conveyed via an electrical or optical cable, by radio or by other means.
  • the programs according to the invention can in particular be downloaded from an Internet type network.
  • the recording media can correspond to an integrated circuit in which the program is incorporated, the circuit being adapted to execute or to be used in the execution of the method in question.
  • Figure 1 illustrates the context of an embodiment of the invention
  • FIG. 2 illustrates an architecture of the devices involved in a system according to one embodiment of the invention
  • FIG. 3 illustrates steps of a learning and analysis method according to one embodiment of the invention.
  • the general idea of the invention is to rely on a learning approach, which makes it possible, for example, to train an artificial intelligence module, such as a neural network, to detect events of interest to a consumer ( user) of content. Multimedia. These events of interest are also referred to in the present application as “preferred events”.
  • the neural network evolves to learn to recognize a set of events of interest in a plurality of multimedia contents.
  • actions relating to this content can be triggered (for example notification, zapping or recording).
  • notification for example, zapping or recording.
  • a user watches channel A, knowing that channel B is broadcasting a football match, an embodiment of the invention allows him to program an automatic zapping on channel B when a goal is scored, by signaling as an event of interest the advent of a goal.
  • a zapping can be programmed, during a match involving an athlete or a team designated as “preferred” by the user, in the event of equalization of the score or when this athlete or this team is leading.
  • a user who has specified the appearance of a favorite actor as a favorite event receives a notification when the actor appears in content that he is not watching.
  • a content being rendered contains a particular shape (logo for example) or a particular image
  • the rendering of this content can be terminated.
  • a user watches channel A knowing that channel B is broadcasting a story in which he has expressed an interest, one embodiment of the invention allows him to automatically record channel B when the report begins.
  • FIG. 1 represents the general context of an embodiment of the invention, in which a telecommunications system comprises a first local network or LAN (Local Area Network, 1) and a network of the wide type, or WAN (Wide Area Network , 2).
  • LAN Local Area Network
  • WAN Wide Area Network
  • the LAN network is a home network and the WAN network is an Internet network.
  • a LAN network could be a company network and the WAN 2 network could be of any type (cellular, GSM - Global System for Mobile Communications, UMTS - Universal Mobile Telecommunications System, Wifi - Wireless, DVB- Digital Video Broadcast, etc.) without departing from the scope of the invention.
  • a management element of the WAN network for example a server (5) of a telecommunications operator, located for example at the “network head”, is responsible for the content learning procedure.
  • a second network management element (6) such as a domestic, residential, professional gateway, a hub, etc.
  • terminal equipment T1, T2
  • T1 terminal equipment
  • These terminals are able to receive multimedia content from the second network management element (6) (such as the home gateway) on the local network.
  • These contents can come from the local network or from the extended network.
  • a local network also referred to hereinafter as a home network
  • a home network is a computer network which links together, with or without wires, the terminal equipment, or more simply terminals, a home (computers, printing devices, storage, connected objects, etc.), able to communicate with each other.
  • a home network can include router equipment, also commonly called a gateway, an intermediate element ensuring the redirection, or routing, of data packets between the various terminals and networks connected to it.
  • a user of such a network can execute a given service on a given terminal having specific characteristics (for example, viewing multimedia content C).
  • the multimedia content C can be, without loss of generality, coming from a network of DVB, IP, etc. type.
  • a digital broadcast network of the DVB (acronym for Digital Video Broadcast) type has an underlying infrastructure which may be supported by satellite (SAT), digital terrestrial television, or even cable, not shown.
  • the terminals could also be connected to a DVB-IP type network, also called IPTV, that is to say ensuring the broadcasting of digital television or the supply of content, for example in VOD (VideO).
  • VOD VideO
  • On Demand from the Internet network under the control of a service operator ensuring the quality of the delivery (for example, an operator's TV, associated with a digital decoder and a home gateway from the same operator).
  • the multiplexed digital contents are received by a digital decoder, also called STB (Set Top Box) via appropriate reception media (antennas, cables, ADSL, etc.) and the various programs that constitute them are deconstructed.
  • a digital decoder also called STB (Set Top Box)
  • reception media antennas, cables, ADSL, etc.
  • multiplexed and decoded before playback by the terminals eg televisions
  • the terminal can also be designed to access content streamed from the WAN or the LAN. In this case, we speak of “connected” television, that is to say that the terminal can be connected to the Internet network in order to provide a set of services to users.
  • OTT television allows a user of a terminal connected to the Internet network to render digital chitins or Web content on the television.
  • this type of “connected” terminal interfaces with the gateway in charge of the user's local network and thereby accesses a content server in the extended network.
  • a terminal can access the content from inside a local network, for example from a streaming device associated with a local hard disk (not shown).
  • a content analysis device which can be located on a server (5) of the operator, or on the home gateway (6), on a terminal , or on any other equipment of the remote or local network capable of performing such an analysis.
  • a learning device which is preferably located on a server (5) of the operator (which may or may not be different from the analysis server) but could also be located on the home gateway, or on any other network equipment capable of carrying out such learning.
  • the method according to the invention comprises a training and an analysis, which are presented below in two stages, or distinct phases, for simplicity. It is understood however that, as underlined above, the learning can be carried out several times (in particular in parallel or after the analysis) and that the analysis can be continuous. :
  • the learning can comprise on the one hand an “upstream” learning phase (prior to the analyzes phase) to characterize events from content, and on the other hand a learning phase.
  • flow of the user's habits on his content consumption preferences in particular of content analyzed according to the analysis method of the invention.
  • the two trainings can be carried out on the same device (for example on a server or a service platform) or on different devices (for example the upstream training can be carried out on a server, learning on the fly being performed (locally for example) on a home gateway or on a user terminal). So ; the user may for example be offered content corresponding to his preferences among all the content being broadcast, with furthermore for example a possibility of dynamically switching from one content to another so as not to lose any of his hobbies.
  • N multimedia contents are selected, on which to perform a learning of characteristics, or events, to using, for example, an artificial intelligence module.
  • the learning phase is for example capable of defining parameters to then make it possible, from any content received, to provide at output an indication of correspondence between the content received and at least one of the events processed by the 'learning.
  • a characteristic relates to the presence of a given actor in the content.
  • This learning phase is for example a machine learning phase, in English "machine learning” (ML).
  • machine learning or statistical learning, relates in particular to the design, analysis, development and implementation of methods allowing a machine (in the broad sense) to evolve through a systematic process, and thus to fulfill difficult or problematic tasks by algorithmic means.
  • a possible example of machine learning is that of classification, the purpose of which is to label each piece of data by associating it with a class.
  • a neural network is used, for example.
  • the network evolves to learn to recognize a set of characteristic elements which make it possible to confirm the presence of an event in a content.
  • the learning phase provides as output a “model” made up of a set of data (software, parameters, optimized coefficients of the neural network, etc.).
  • this model is called an “analysis model” (MA).
  • analysis when content is received (or analyzed in real time on a storage medium such as a hard disk), the analysis program is implemented on an analysis device (DAN).
  • DAN analysis device
  • the analysis device uses (inherits from) the analysis model (MA) provided by the training device.
  • the analysis module calls on the neural network (RN), with as input the analysis model and the content, possibly new, to be analyzed, intended for example to be visualized and / or listened to by one or more local network users if their criteria (event preferences) are met. If the analysis module detects the presence (possibly accompanied by a reliability index) of a triggering event, an action can be taken relating to the provision of the content for one or more users of the local network (as a start or end of restitution and / or recording of content).
  • RN neural network
  • a user 1 of the terminal T1 will be able to receive the content directly since one of his criteria (for example the presence of a certain actor, such as an actor corresponding to a preference of the user 1) has been met, whereas a user 2 of the terminal T2 may receive a notification (according to which, for example the content C contains a musical sequence, such as a sequence corresponding to a preference of the user 2).
  • one of his criteria for example the presence of a certain actor, such as an actor corresponding to a preference of the user 1
  • a user 2 of the terminal T2 may receive a notification (according to which, for example the content C contains a musical sequence, such as a sequence corresponding to a preference of the user 2).
  • the analysis module can be located on the home gateway 6.
  • the preferences of the users of the local network can be taken into account.
  • the characteristics associated with a user can be recorded in a profile relating to that user.
  • the parameters of the neural network corresponding to the trigger characteristics can advantageously be implemented in relation to this user (via this user profile in particular).
  • the analysis module can be located on an analysis server / platform 5 of the operator.
  • the analysis can for example benefit from a processing power greater than that from which it is possible to benefit on the domestic gateway 6.
  • the analysis can furthermore be centralized. A content or a notification relating to the content can thus be sent to the home gateway in the event that one of the content received by the platform contains an event of interest to the local network of the gateway.
  • the analysis can take account of a profile and / or preferences of one or more users.
  • the method can for example comprise obtaining E10, E30 of a list of events preferred by at least one user and relating to multimedia contents.
  • a user can inform an operator of the criteria (s) (or events) that interest him.
  • the use of an analysis model can also make it possible to obtain events likely to be of interest to the user according to his past consumption of content,
  • FIG. 2 illustrates an architecture of the devices involved in a system according to an embodiment of the invention.
  • the DAP learning device has for example the conventional architecture of a computer and comprises in particular a memory M, a processing unit UT, equipped for example with a processor PROC, and controlled by the computer program PGAP stored in memory M.
  • the code instructions of the PGAP computer program are for example loaded into a memory before being executed by the processor PROC.
  • the processor PROC of the processing unit UT notably implements the steps of the learning program according to any one of the particular embodiments described in relation to FIGS. 1 and 2, according to the instructions of the PGAP computer program .
  • the learning device can also include:
  • an MA module in charge of generating the analysis model; this module is capable, in one embodiment, of generating an analysis module of variable complexity, as a function of a complexity criterion (imposed by the analysis device which will implement the analysis module);
  • a communication module COM1 for managing all the inputs / outputs of the device, in particular acquiring the multimedia content, and transmitting the analysis model to an analysis device if it is distinct from the learning device;
  • a module for obtaining the events to be processed EVS, for example a database manager; • optionally a base BA for storing the pairs made up of the contents and their associated events feeding the module RN.
  • the DAN analysis device has for example the classic architecture of a computer and can also include:
  • a memory M ′ a processing unit UT ′, equipped for example with a processor PROC ′, and controlled by the computer program PGAN stored in memory M ′.
  • the code instructions of the analysis computer program PGAN are for example loaded into a memory before being executed by the processor PROC '.
  • the processor PROC 'of the processing unit UT' notably implements the steps of the analysis method according to any one of the particular embodiments described in relation to FIGS. 1 and 2, according to the instructions of the program d PGAN computer.
  • the PGAN program is in particular responsible for implementing the artificial intelligence module RN with the analysis model inherited from the learning device.
  • a communication module for managing all the inputs / outputs of the device, in particular acquiring the multimedia content to be analyzed and the analysis model MA of the learning device if it is distinct from the analysis device;
  • the terminal T1 has for example the classic architecture of a computer and can also include:
  • a memory M ′ a processing unit UT ′, equipped for example with a processor PROC ′, and controlled by the computer program PGAN stored in memory M ′.
  • the code instructions of the analysis computer program PGAN are for example loaded into a memory before being executed by the processor PROC '.
  • the processor PROC 'of the processing unit UT' notably implements at least partially steps E20 for obtaining events of interest for at least one user of the terminal and for making content available according to one. any of the particular embodiments described in relation to FIGS. 1 and 2, according to the instructions of the computer program PGAN. • a communication module for managing all the inputs / outputs of the device, in particular acquiring the preferred events to be transmitted to the analysis device and receiving the multimedia content to be made available.
  • FIG. 3 illustrates steps of the provision method according to one embodiment of the invention.
  • the method comprises at least some of the learning steps described below, in correspondence with a plurality of events (such as actors, sports sequence including a shot on goal, cutout, film comprising scenes of extreme violence, etc.) corresponding for example to a plurality of users (set or subset of subscribers to the audiovisual service of the operator, all the terminal users of the local network, etc.).
  • the learning aims to make the analysis model capable of detecting (or recognizing) the plurality of events in content intended for one or more users.
  • an initialization of the analysis module (according to this example a neural network) is performed.
  • EVS a set of events denoted EVS
  • Network initialization is relative to this set of events.
  • An event of the EVS set may have been obtained in different ways depending on the embodiments. For example, it may have been transmitted to the learning device by the service gateways, or may have been created by the operator, or come from a third party, etc.
  • the method acquires a plurality (preferably, a large volume) of digital contents C0 ... CN, preferably but not necessarily representative of the “preferred” events EVS. Indeed, a content representative of any of the “preferred” events can also be useful for training in the detection of these preferred events. These contents can be chosen for example by the operator, manually or automatically.
  • the method comprises an association (for example by human action) of at least some of the contents acquired in the first step E1 with at least one type. event, from the EVS set of events.
  • the set of data corresponding to the pairs (content, event) can for example constitute a learning base BA.
  • the method implements the learning proper of the neural network RN.
  • the neural network initially untrained for example, is supplied with content (in particular with content coming from data from the BA learning base) to transform it until it is more able to perform relevant analyzes for users. To this end, it obtains (receives) iteratively or successively as input data (for example pairs (content, event)) coming from for example the BA learning base.
  • the learning base is optional, the data associating contents and events being able to be supplied to the neural network in an iterative manner without calling on a database.
  • the neural network processes the data associating contents and events (such as the pairs (content, event)) obtained successively and / or at each iteration, to allow the updating of the coefficients of the neural network.
  • RN in order to improve the convergence of the algorithm (for example until obtaining a convergence of the algorithm).
  • the analysis model is considered stable, so learning can be stopped.
  • the coefficients of the network are said to be “fixed”, “converged” or “optimized”. These optimized coefficients, as well as all the data useful for the subsequent implementation of the neural network, can be stored in what is called the "analysis module" MA which can be transmitted to analysis devices to process the data. user content.
  • the neural network training to recognize the facial features of an actor retains in its MA learning model, at the end of the learning phase, optimized coefficients and possibly elements of analysis. like facial features from different angles, sizes, qualities, etc. to be able to find it in any context and any content.
  • the neural network can be any, of any known type, for example a convolutional neural network.
  • the method implements, for example, an iterative algorithm of the “gradient algorithm” type with an approach known as “gradient descent” and “back-propagation”, to find the coefficients of the neural network RN making it possible to d '' achieve the best classification performance.
  • the neural network RN comprises:
  • one or more layers intended to filter and determine the characteristic elements of the media of the content (images, sequences of images, texts and sounds, ...); for this, it implements the application of software bricks such as:
  • the learning base BA and / or the analysis model can come from specialized software libraries already preconstituted (for example pre-trained).
  • the learning method can take into account in its optimization a complexity criterion, so as to achieve for example a compromise between the performance and the complexity (power, time, etc.) of the necessary computation.
  • a complexity criterion for example known to those skilled in the art that the complexity of the neural network can be controlled by adding or pruning cells.
  • the method comprises a second phase P2, called analysis phase, to implement in real time the neural network RN on the analysis module (and perform inferences from the neural network ).
  • the analysis module is located according to this example in the network gateway.
  • it is located in a server 5 of the network operator.
  • the analysis model MA comprising in particular the optimized coefficients of the neural network, resulting from the training, is implemented on the analysis device. It controls the neural network RN which, from content received by the service gateway (according to another embodiment, a server 5 of the network operator), delivers an estimate (with a certain reliability) of 'at least one type of event (s) present in the content, in real time.
  • the type of event can in particular belong to a list of (preferred) events of interest obtained E10, E30 (possibly via one or more gateways if the analysis device is implemented on a server) of at least one user.
  • a provision action can be carried out: By provision by means for example a sending of the content to a terminal (or to a gateway if the analysis module is located in the network), a notification, a recording, etc.
  • the content can be played by the terminal T1 in a step E21 (for example viewed by the user of the terminal).
  • the method can also include learning the events of interest to be detected during the analysis.
  • at least one event of interest can be obtained by learning the habits and centers of interest of at least one user (for example a history of content consumption). Such learning can also lead to an (automatic) identification of a more or less complex event appreciated by the user.
  • the analysis phase can then include a phase of detecting these events of interest.
  • an event of interest can be defined by a user, or learned automatically (via a second analysis model for example) at the end and measurement of the uses of contents of a user (for example for each use).
  • events of interest may correspond to preferences and / or rejections of a user.
  • the second analysis model can for example be a second analysis model of a second neural network analyzing the preferences of a user to enrich a library of events.
  • the neural network can be replaced by any artificial intelligence module capable of fulfilling the same functions (or similar functions): machine learning by decision trees, statistical methods, logistic regression, linear discriminant analysis, genetic algorithms, etc. .

Landscapes

  • Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Multimedia (AREA)
  • Signal Processing (AREA)
  • Theoretical Computer Science (AREA)
  • Evolutionary Computation (AREA)
  • Artificial Intelligence (AREA)
  • Computer Graphics (AREA)
  • Computing Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Human Computer Interaction (AREA)
  • Two-Way Televisions, Distribution Of Moving Picture Or The Like (AREA)

Abstract

L'invention concerne un procédé d'analyse d'un contenu multimédia et un procédé d'apprentissage associé. Le procédé d'analyse est caractérisé en ce qu'il comporte, sur un dispositif d'analyse (DAN), les étapes suivantes : - obtenir (E30) des premiers événements audio et/ou vidéo (EVS') relatifs à des premiers contenus multimédia; - lors de l'obtention d'un second contenu multimédia (C), déclencher en temps réel une action portant sur une mise à disposition dudit second contenu multimédia en fonction d'une présence, dans au moins une portion dudit second contenu multimédia (C), d'un au moins (EV) desdits premiers évènements audio et/ou vidéo (EVS'). L'invention concerne également des procédés d'apprentissage et les dispositifs, système, produits programme d'ordinateur et supports correspondants

Description

DESCRIPTION
TITRE : Analyse d'un contenu multimédia
Domaine de l'invention
L'invention se rapporte de manière générale aux télécommunications, et plus précisément à l'accès aux contenus audiovisuels. Elle s'applique plus particulièrement à des terminaux utilisateurs et/ou à des plateformes, manipulant de tels contenus.
Art Antérieur
Il existe aujourd'hui des méthodes pour déclencher une action sur un contenu audiovisuel, par exemple un enregistrement ou un changement de visualisation du contenu (zapping). Cependant ces actions sont généralement déclenchées sur la base d'informations insérées dans le flux vidéo (aussi appelées métadonnées). Par exemple il est possible de changer de chitine diffusée lorsqu'on atteint l'heure de diffusion théorique d'un programme, sur la base de telles métadonnées.
Ceci suppose cependant que ces informations soient insérées à l'avance dans le flux vidéo, ce qui est fastidieux et parfois peu efficace.
De surcroît si un contenu est capturé et diffusé en temps réel (par exemple une chaîne de télévision en direct), il n'est pas possible de lancer des actions liées à son contenu, qui n'est pas forcément connu à l'avance.
Le brevet US déposé sous le numéro 12/059,618 décrit un système de notification d'événements personnalisés à l'aide d'une analyse vidéo en temps réel. Dans un mode de réalisation, un flux vidéo en direct est automatiquement surveillé et les caractéristiques du flux vidéo sont analysées par rapport à des critères qui se rapportent à un événement identifié au préalable par un utilisateur. Les critères ont trait aux caractéristiques de l'image ou de l'audio dans le flux vidéo. Si les critères sont remplis, l'utilisateur est informé que l'événement s'est produit et cette notification peut être effectuée par le biais de messages sur l'écran d'affichage vidéo (par exemple sur l'écran de télévision) ou d'autres techniques de messagerie (par exemple, SMS ou courrier électronique). Dans un exemple, les critères peuvent définir un logo particulier et l'utilisateur est averti si l'analyse détecte le logo dans le flux vidéo.
Cependant l'événement défini par cette méthode reste limité à la reconnaissance d'un modèle (en anglais, « pattern ») contenu dans le flux audio ou vidéo. Elle se fonde sur la détection d'éléments caractéristiques prédéfinis dans la vidéo. De ce fait, cette approche ne peut estimer des événements plus complexes, comme par exemple le niveau de violence dans certains contenus. De plus, elle est souvent mise en défaut car ne pouvant prendre en compte les variations qui peuvent accompagner l'événement De surcroît cette méthode est très complexe à mettre en œuvre pour plusieurs contenus et plusieurs événements.
Exposé de l'invention L'invention vient améliorer l'état de la technique. Elle propose à cet effet un procédé d'analyse d'un contenu multimédia.
Dans au moins un mode de réalisation, le procédé comporte les étapes suivantes :
- obtenir (E30) des premiers événements audio et/ou vidéo (EVS') (dits évènements préférés) relatifs à des premiers contenus multimédia ;
- lors de l'obtention d'un second contenu multimédia (C), déclencher en temps réel une action portant sur une mise à disposition dudit second contenu multimédia en fonction d'une présence, dans au moins une portion dudit second contenu multimédia (C), d'un au moins (EV) desdits premiers évènements audio et/ou vidéo (EVS').
Dans au moins un mode de réalisation, le procédé est mis en œuvre sur un dispositif d'analyse (DAN).
Par « contenu multimédia », on entend un contenu numérique qui contient au moins une image, un texte ou une donnée sonore. Le contenu multimédia peut être reçu en diffusion (streaming, chitine de télévision, de radio, etc.) ou stocké sur un support (disque dur, base de données, serveur, etc.).
Par « événement», on entend une caractéristique ou un ensemble de caractéristiques liées à l'un au moins des médias constituant le contenu; en liaison avec les exemples précédents, il peut s'agir d'une chanson, d'un acteur, d'un niveau de violence, d'un visage, d'un score dans une rencontre sportive ou dans le déroulement d'un jeu, etc. Un évènement peut être défini via une interface utilisateur par exemple, ou automatiquement, par un apprentissage des usages d'au moins un utilisateur notamment.
Dans au moins un mode de réalisation, détecter ladite présence comprend générer (E31) une estimation de ladite présence desdits premiers évènements, dans ladite portion dudit second contenu multimédia (C), par un premier modèle d'analyse de contenus audio et/ou vidéo.
Dans au moins un mode de réalisation, au moins un desdits premier évènements est obtenu depuis une interface utilisateur couplée audit dispositif.
Dans au moins un mode de réalisation, au moins un desdits premier évènements est obtenu en fonction d'un historique de consommation de contenus.
Dans au moins un mode de réalisation, au moins un desdits premier évènements est obtenu en utilisant un second modèle d'analyse dudit historique consommation de contenus.
Dans au moins un mode de réalisation, le premier modèle d'analyse est celui d'un premier réseau de neurones (RN) et comporte des coefficients du réseau de neurones optimisés par une mise en œuvre sur lesdits premiers contenus , et le procédé comporte en outre une étape de :
- mettre en œuvre le premier réseau de neurones sur le second contenu multimédia(C), avec les coefficients optimisés.
Dans au moins un mode de réalisation, le second modèle d'analyse peut être piloté par un second réseau de neurones, pour analyser les préférences de l'utilisateur (par exemple à partir de son historique de consommation) et obtenir ainsi des « premiers » évènements (ou évènements préférés).
Dans au moins un mode de réalisation, déclencher au moins une action portant sur la mise à disposition dudit second contenu multimédia comprend un début ou une fin de restitution dudit second contenu.
Dans au moins un mode de réalisation, déclencher au moins une action portant sur la mise à disposition dudit premier contenu multimédia comprend une notification de la présence dudit premier contenu sur une interface utilisateur.
Dans au moins un mode de réalisation, le procédé comporte, sur un dispositif d'analyse, les étapes suivantes :
- obtenir une liste d'événements préférés relatifs à des contenus multimédia ;
- obtenir un modèle d'analyse de contenus multimédia ;
- analyser un contenu multimédia en temps réel en utilisant le modèle d'analyse ;
- générer une estimation de la présence, dans le contenu multimédia, d'un événement au moins de la liste d'évènements préférés.
Un évènement préféré d'un utilisateur peut être obtenu par exemple par une analyse de ses préférences
Avantageusement selon l'invention, la connaissance préalable d'un contenu multimédia n'est pas nécessaire pour déclencher l'estimation de la présence d'un événement dans ce contenu. L'estimation de la présence de l'événement dépend notamment d'une analyse en temps réel des images et des sons qui composent le contenu et non plus seulement d'informations de description du contenu déterminées à l'avance, ni d'un motif prédéterminé à analyser dans la séquence.
Par « analyse », on entend un procédé s'appliquant au contenu multimédia pour en déduire une présence d'un événement au moins. L'analyse peut fournir en sortie, en liaison avec les exemples précédents, une estimation de la présence de la chanson, de l'acteur, du score, un niveau de violence d'un certain seuil, etc. Cette estimation peut être accompagnée par exemple d'une probabilité, ou d'un indice de fiabilité.
Par analyse « en temps réel » on entend une analyse du contenu multimédia en association avec une base de temps (temps de réception pour un contenu diffu sé, temps de lecture pour un contenu stocké).
Selon un au moins mode de réalisation de l'invention, un procédé tel que décrit ci-dessus inclut en outre les étapes de :
- obtenir au moins un événement préféré d'un utilisateur au moins, relatif à un contenu multimédia ;
- mettre à disposition le contenu multimédia en fonction du résultat de l'estimation de la présence de l'événement préféré. Par « mise à disposition » on entend au moins une action qui peut permettre d'informer un utilisateur de la disponibilité du contenu multimédia : message de notification (incluant par exemple une proposition d'accès ou de basculement (« zapping ») vers le contenu multimédia disponible), enregistrement (sur un support qui est accessible à l'utilisateur), acheminement du contenu, basculement de contenu ou de chaîne, etc. Ainsi par exemple, un utilisateur pourra visualiser automatiquement un concert quand sa chanson préférée est diffusée sur une chaîne, ou disponible en streaming, ou enregistrée dans le réseau local ; être automatiquement notifié d'un film dans lequel joue son acteur préféré ; être informé du niveau de violence dans un film, etc. Dans au moins certains de ses modes de réalisations, cette invention peut donc permettre à l'opérateur qui gère les contenus d'un utilisateur et aux personnes qui consomment le flux vidéo de ne pas être dépendants des métadonnées fournies par les chaînes de télévision pour rendre ce type de service. Il suffit par exemple que l'utilisateur informe son terminal ou cet opérateur du ou des critères qui l'intéressent pour que le contenu multimédia soit mis à disposition de l'utilisateur (ou de son terminal) par le terminal et/ou l'opérateur.
Il peut s'agir d'une mise à disposition sur un terminal utilisateur, lorsque le procédé est mis en œuvre sur le terminal de l'utilisateur, ou d'une mise à disposition pour un terminal utilisateur lorsque le procédé est mis en œuvre sur un autre dispositif que le terminal utilisateur.
Lorsqu'une mise à disposition comprend une notification de la disponibilité d'un contenu, la mise à disposition peut comprendre par exemple une proposition d'accès au contenu et /ou une proposition du choix d'un terminal sur lequel sera effectué l'accès. Ainsi, une notification sur un terminal mobile d'un utilisateur peut proposer à un utilisateur un choix entre un accès au contenu sur un téléviseur ou sur son terminal mobile. Un tel mode de réalisation peut trouver des cas d'application dans le « multitâches ». Notamment, un utilisateur pourrait ainsi continuer à regarder un programme familial sur son téléviseur, tout en regardant les séquences de but de son équipe de football préférée sur son terminal mobile.
Selon au moins un mode de réalisation de l'invention, qui pourra être mis en œuvre alternativement ou cumulativement avec le précédent, dans un procédé tel que décrit ci-dessus, le modèle d'analyse est celui d'un réseau de neurones et comporte les coefficients optimisés du réseau de neurones, et l'analyse comporte en outre une étape de :
- mettre en œuvre le réseau de neurones sur le contenu multimédia, avec les coefficients optimisés.
Avantageusement selon ce mode, un réseau de neurones est utilisé pour réaliser l'analyse du contenu. De tels réseaux sont connus pour leur capacité à traiter des problèmes divers et variés. Ils permettent par ailleurs de traiter des problèmes non structurés, c'est-à-dire des problèmes sur lesquels on ne dispose d'aucune information au préalable. Le réseau de neurones peut par exemple détecter avec un certain indice de fiabilité un niveau de violence dans le contenu qui lui est soumis.
Selon au moins un mode de réalisation, la mise à disposition consiste à donner accès au contenu multimédia à un terminal au moins de l'utilisateur. Avantageusement selon cette variante, si l'étape d'analyse conclut à la présence dans le contenu analysé de l'événement que l'utilisateur a signifié comme l'un de ses préférés, le contenu est rendu disponible pour l'utilisateur, notamment pour un visionnage ou un enregistrement. Le contenu pourra par exemple être acheminé (en streaming, téléchargement, diffusion, etc.) vers la passerelle domestique de l'utilisateur, pour être délivré sur son écran TV, ou enregistré sur un disque dur du réseau local, etc.
Selon au moins un mode de réalisation, qui pourra être mis en œuvre alternativement ou cumulativement avec le précédent, la mise à disposition consiste à notifier la présence du contenu, sur au moins un terminal de l'utilisateur.
Avantageusement selon cette variante, si l'étape d'analyse conclut à la présence dans le contenu analysé de l'événement que l'utilisateur a signifié comme l'un de ses préférés, une notification est transmise à l'utilisateur (par exemple via la passerelle domestique pour affichage sur l'un de ses terminaux) afin qu'il puisse réagir en conséquence (télécharger le contenu, changer de chaîne, etc.)
Selon une autre caractéristique fonctionnelle, l'invention propose aussi un procédé d'apprentissage de caractéristiques de contenus multimédia.
Selon au moins un mode de réalisation, le procédé d'apprentissage comporte, par exemple sur un dispositif d'apprentissage (DAP) les étapes de :
- acquérir (E1) une pluralité de premiers contenus multimédia (C0...CN) ;
- associer (E2) au moins un premier événement (EV) à au moins un desdits premiers contenus acquis
(C);
- obtenir un premier modèle d'analyse (MA) par apprentissage à partir desdits premiers évènements et premiers contenus associés (EV, C).
Selon au moins un mode de réalisation, au moins un desdits premiers évènements est fonction d'un historique de consommation de contenus.
Selon au moins un mode de réalisation, le procédé d'apprentissage utilise un réseau de neurones (RN) et l'étape d'obtenir un premier modèle d'analyse comprend un entraînement du réseau de neurones (RN) par les étapes suivantes :
- recevoir itérativement en entrée desdits premiers contenus et premiers évènements associés (EV,
C). (C, EV) ;
- optimiser les coefficients du réseau de neurones (RN) à partir desdits premiers contenus et premiers évènements associés;
- construire ledit premier modèle d'analyse (MA) à partir des coefficients optimisés.
Selon au moins un mode de réalisation, le procédé d'apprentissage prend en compte dans son optimisation un critère de complexité.
Selon au moins un mode de réalisation le procédé d'apprentissage comporte, sur un dispositif d'apprentissage les étapes de : - acquérir une pluralité de contenus multimédia ;
- associer au moins un événement à au moins un contenu acquis pour constituer au moins un couple de données d'apprentissage ;
- générer un modèle d'analyse à partir des couples de données d'apprentissage.
Avantageusement, l'invention offre une méthode d'apprentissage sur plusieurs contenus multimédia susceptibles de contenir des événements d'intérêt pour des utilisateurs. Cet apprentissage peut être réalisé par exemple par un moteur d'intelligence artificielle (IA) utilisant un apprentissage supervisé. Cet apprentissage a pour but de dégager un certain nombre de caractéristiques de déclenchement, ou événements, de l'ensemble des vidéos. Une fois les contenus et les événements associés entrés dans le dispositif d'apprentissage, celui-ci génère un modèle d'analyse. Le modèle d'analyse comprend tous les éléments nécessaires pour une analyse ultérieure d'un contenu multimédia.
Selon un mode de mise en œuvre particulier de l'invention, le procédé d'apprentissage utilise un réseau de neurones et l' étape de générer un modèle d'analyse consiste à entraîner le réseau de neurones par les sous-étapes suivantes :
- recevoir itérativement en entrée un couple de données d'apprentissage ;
- optimiser les coefficients du réseau de neurones ;
- construire le modèle d'analyse à partir des coefficients optimisés.
Avantageusement selon ce mode, c'est un réseau de neurones qui est utilisé pour réaliser l'apprentissage. De tels réseaux sont connus pour leur capacité à traiter des problèmes divers et variés. Ils permettent par ailleurs de traiter des problèmes non structurés, c'est-à-dire des problèmes sur lesquels on ne dispose d'aucune information au préalable. Le modèle d'analyse issu du réseau de neurones comprend notamment les coefficients optimisés du réseau de neurones, qui vont pouvoir être fournis très simplement à un dispositif d'analyse.
Selon une variante de ce mode de réalisation, le procédé d'apprentissage prend en compte dans son optimisation un critère de complexité.
Avantageusement selon cette variante, le modèle d'analyse peut être adapté, pendant l'apprentissage, au dispositif d'analyse dans lequel il va être mis en œuvre. Si ce dernier dispose d'une puissance de calcul limité, on peut notamment envisager de réaliser un modèle peu complexe, afin qu'il puisse être mis en œuvre sur le dispositif.
Selon une autre caractéristique fonctionnelle, l'invention propose aussi un procédé d'apprentissage de préférences d'au moins un utilisateur, comprenant des étapes de : acquérir au moins une action en lien avoir un contenu multimédia effectuée lors d'une consommation dudit contenu ; association de ladite action à au moins une portion dudit contenu en cours de consommation ; enregistrement de ladite action et de ladite portion associées en liaison avec ledit utilisateur (par exemple en liaison avec un identifiant dudit utilisateur).
L'invention concerne également un dispositif d'analyse d'un contenu multimédia comprenant une mémoire (M'), un processeur (PROC') et un module pour acquérir un contenu multimédia (COM2) configurés pour mettre en œuvre le procédé d'analyse décrit précédemment dans l'un quelconque de ses modes de réalisation.
Selon au moins un mode de réalisation, ladite mémoire (M'), ledit processeur (PROC') et ledit module pour acquérir un contenu multimédia (COM2), sont configurés pour :
- obtenir (E30) des premiers événements audio and/or vidéo (EVS') relatifs à des premiers contenus multimédia ;
- lors de l'obtention d'un second contenu multimédia (C), déclencher en temps réel une action portant sur une mise à disposition dudit second contenu multimédia en fonction d'une présence, dans au moins une portion dudit second contenu multimédia (C), d'un au moins (EV) desdits premiers évènements audio et/ou vidéo (EVS').
Selon au moins un mode de réalisation, le dispositif d'analyse comprend une mémoire, un processeur, un module d'intelligence artificielle, un module pour acquérir un contenu multimédia, configurés pour :
- obtenir une liste d'événements préférés relatifs à des contenus multimédia ;
- obtenir un modèle d'analyse de contenus multimédia ;
- analyser un contenu multimédia en temps réel en utilisant le modèle d'analyse ;
- générer une estimation de la présence, dans le contenu multimédia, d'un événement au moins de la liste d'évènements préférés.
L'invention concerne également un dispositif d'apprentissage de caractéristiques de contenus multimédia pour mettre en œuvre l'un ou l'autre des procédés d'apprentissage décrit précédemment dans l'un quelconque leurs modes de réalisation.
L'invention concerne ainsi un dispositif d'apprentissage de caractéristiques de contenus multimédia comprenant une mémoire, un processeur, un module pour acquérir un contenu multimédia, un module pour générer un modèle d'apprentissage.
Selon au moins un mode de réalisation, ledit dispositif comprend en outre un module d'intelligence artificielle
Selon au moins un mode de réalisation, ladite mémoire, ledit processeur, et ledit module pour acquérir un contenu multimédia, un module pour générer un modèle d' apprentissage configurés pour: Selon au moins un mode de réalisation, ladite mémoire, ledit processeur, et ledit module pour acquérir un contenu multimédia, un module pour générer un modèle d' apprentissage configurés pour:
- acquérir (E1) une pluralité de premiers contenus multimédia (C0...CN);
- associer (E2) au moins un premier événement (EV) à au moins un desdits premiers contenus acquis (C,) au moins un desdits premiers évènements étant fonction d'un historique de consommation de contenus;
- - obtenir un premier modèle d'analyse (MA) par apprentissage à partir desdits premiers évènements et premiers contenus associés (EV, C).
Selon au moins un mode de réalisation, ladite mémoire, ledit processeur, ledit module d'intelligence artificielle et ledit module pour acquérir un contenu multimédia, un module pour générer un modèle d'apprentissage configurés pour : acquérir au moins une action en lien avoir un contenu multimédia effectuée lors d'une consommation dudit contenu ; association de ladite action à au moins une portion dudit contenu en cours de consommation ; enregistrement de ladite action et de ladite portion associées en liaison avec ledit utilisateur (par exemple en liaison avec un identifiant dudit utilisateur).
Selon au moins un mode de réalisation, ladite mémoire, ledit processeur, ledit module d'intelligence artificielle et ledit module pour acquérir un contenu multimédia, un module pour générer un modèle d'apprentissage configurés pour :
- acquérir une pluralité de contenus multimédia ;
- associer au moins un événement à au moins un contenu acquis pour constituer au moins un couple de données d'apprentissage ;
- générer un modèle d'analyse à partir des couples de données d'apprentissage. L'invention concerne également un serveur ou plateforme de service comprenant un dispositif d'analyse tel que décrit précédemment.
L'invention concerne également un serveur ou plateforme de service comprenant un dispositif d'apprentissage tel que décrit précédemment.
L'invention concerne également une passerelle domestique ou un terminal comportant un dispositif d'analyse tel que décrit précédemment.
L'invention concerne également un système pour analyser un contenu multimédia, comprenant:
- un dispositif d'analyse tel que décrit précédemment,
- un dispositif d'apprentissage tel que décrit précédemment, le système étant configuré de telle manière que le dispositif d'analyse reçoit le modèle d'apprentissage généré par le dispositif d'apprentissage.
L'invention concerne également un programme d'ordinateur comportant des instructions pour la mise en œuvre de l'un des procédés ci-dessus selon l'un quelconque des modes particuliers de réalisation décrits précédemment, lorsque ledit programme est exécuté par un processeur. Le procédé peut être mis en œuvre de diverses manières, notamment sous forme câblée ou sous forme logicielle. Ce programme peut utiliser n'importe quel langage de programmation, et être sous la forme de code source, code objet, ou de code intermédiaire entre code source et code objet, tel que dans une forme partiellement compilée, ou dans n'importe quelle autre forme souhaitable.
L'invention vise aussi un support d'enregistrement ou support d'informations lisible par un ordinateur, et comportant des instructions d'un programme d'ordinateur tel que mentionné ci-dessus. Les supports d'enregistrement mentionnés ci-avant peuvent être n'importe quelle entité ou dispositif capable de stocker le programme. Par exemple, le support peut comporter un moyen de stockage, tel qu'une ROM, par exemple un CD ROM ou une ROM de circuit microélectronique, ou encore un moyen d'enregistrement magnétique, par exemple un disque dur. D'autre part, les supports d'enregistrement peuvent correspondre à un support transmissible tel qu'un signal électrique ou optique, qui peut être acheminé via un câble électrique ou optique, par radio ou par d'autres moyens. Les programmes selon l'invention peuvent être en particulier téléchargés sur un réseau de type Internet.
Alternativement, les supports d'enregistrement peuvent correspondre à un circuit intégré dans lequel le programme est incorporé, le circuit étant adapté pour exécuter ou pour être utilisé dans l'exécution du procédé en question.
Ces dispositifs, système et programme d'ordinateur présentent des caractéristiques et avantages analogues à ceux décrits précédemment en relation avec les procédés d'analyse d'un contenu et d'apprentissage de contenus.
Liste des figures
D'autres caractéristiques et avantages de l'invention apparaîtront plus clairement à la lecture de la description suivante de modes de réalisation particuliers, donnés à titre de simples exemples illustratifs et non limitatifs, et des dessins annexés, parmi lesquels :
[Fig. 1] La figure 1 illustre le contexte d'un mode de réalisation l'invention ;
[Fig. 2] La figure 2 illustre une architecture des dispositifs impliqués dans un système selon un mode de réalisation de l'invention ;
[Fig. 3] La figure 3 illustre des étapes d'un procédé d'apprentissage et d'analyse selon un mode de réalisation de l'invention.
Description d'un mode de réalisation de l'invention Principe général de l'invention
L'idée générale de l'invention est de s'appuyer sur une approche par apprentissage, qui permet par exemple d'entraîner un module d'intelligence artificielle, comme un réseau de neurones, à détecter des événements d'intérêt pour un consommateur (utilisateur) de contenus. Multimédia. Ces événements d'intérêt sont aussi appelés dans la présente demande « événements préférés ». Lors de l'apprentissage, le réseau de neurones évolue pour apprendre à reconnaître un ensemble d'événements d'intérêt dans une pluralité de contenus multimédia. Lors d'une étape ultérieure d'analyse, on peut réaliser une détection automatique d'événements d'intérêt contenus dans le flux audio ou vidéo associé à un nouveau contenu.
Par la suite, on peut déclencher des actions relatives à ce contenu (par exemple notification, zapping ou enregistrement). Par exemple, si un utilisateur regarde la chaîne A, sachant que la chaîne B diffuse un match de football, un mode de réalisation de l'invention lui permet de programmer un zapping automatique sur la chaîne B lorsqu'un but est marqué, en signalant comme événement d'intérêt l'avènement d'un but. Selon un autre exemple, un zapping peut être programmé, lors d'un match impliquant un sportif ou une équipe désignée comme « préférée» par l'utilisateur, en cas d'égalisation du score ou lorsque ce sportif ou cette équipe est entête. Selon encore un autre exemple, un utilisateur qui a précisé l'apparition d'un acteur préféré en tant qu' événement préféré reçoit une notification lorsque l'acteur apparaît dans un contenu qu'il n'est pas en train de regarder. Selon encore un autre exemple, si un contenu en cours de restitution contient une forme (logo par exemple) ou une image particulière, il peut être mis fin à la restitution de ce contenu. Selon encore un autre exemple, si un utilisateur regarde la chaîne A, sachant que la chaîne B diffuse un reportage au sujet duquel il a manifesté un intérêt, un mode de réalisation de l'invention lui permet d'enregistrer automatiquement la chaîne B lorsque le reportage débute.
Modes particuliers de réalisation de l'invention.
La figure 1 représente le contexte général d'un mode de réalisation l'invention, dans lequel un système de télécommunication comporte un premier réseau local ou LAN (Local Area Network, 1) et un réseau de type étendu, ou WAN (Wide Area Network, 2). Selon cet exemple non limitatif, le réseau LAN est un réseau domestique et le réseau WAN est un réseau Internet. Plus largement, un réseau LAN pourrait être un réseau d'entreprise et le réseau WAN 2 pourrait être de n'importe quel type (cellulaire, GSM - Global System for Mobile Communications, UMTS - Universal Mobile Télécommunications System, Wifi - Wireless, DVB- Digital Video Broadcast, etc.) sans sortir du cadre de l'invention.
Selon cet exemple, un élément de gestion du réseau WAN ; par exemple un serveur (5) d'un opérateur de télécommunications, situé par exemple en « tête de réseau », est chargé de la procédure d'apprentissage des contenus.
Selon cet exemple, un second élément de gestion du réseau (6) (comme une passerelle domestique, résidentielle, professionnelle, un hub, etc.) et des équipements terminaux (T1, T2) sont connectés sur le réseau local 1. Il s'agit respectivement selon l'exemple d'un smartphone (T2) et d'un téléviseur (T1). Ces terminaux sont aptes à recevoir sur le réseau local un contenu multimédia en provenance du second élément de gestion du réseau (6) (comme la passerelle domestique). Ces contenus peuvent être issus du réseau local ou du réseau étendu.
On rappelle qu'un réseau local, aussi appelé dans la suite réseau domestique, est un réseau informatique qui relie ensemble, avec ou sans fils, les équipements terminaux, ou plus simplement terminaux, d'une maison (ordinateurs, périphériques d'impression, de stockage, objets connectés, etc.), aptes à communiquer ensemble. Un réseau domestique peut comporter un équipement routeur, aussi communément appelé passerelle, élément intermédiaire assurant la redirection, ou routage, des paquets de données entre les différents terminaux et réseaux qui lui sont connectés. Un utilisateur d'un tel réseau peut exécuter un service donné sur un terminal donné disposant de caractéristiques propres (par exemple, visualiser un contenu multimédia C).
Le contenu multimédia C peut être, sans perte de généralité, issu d'un réseau de type DVB, IP, etc. On rappelle qu'un réseau numérique diffusé de type DVB (acronyme de Digital Video Broadcast) dispose d'une infrastructure sous-jacente pouvant avoir pour support le satellite (SAT), la télévision numérique de terre, ou encore le câble, non représentés. Alternativement ou de manière complémentaire, les terminaux pourraient également être connectés à un réseau de type DVB- IP, aussi appelé IPTV, c'est-à-dire assurant la diffusion de télévision numérique ou la fourniture de contenus, par exemple en VOD (VidéO à la Demande) à partir du réseau Internet sous le contrôle d'un opérateur de service assurant la qualité de la délivrance (par exemple, la TV d'un opérateur, associée à un décodeur numérique et une passerelle domestique du même opérateur). Dans ces deux cas, les contenus numériques multiplexés sont reçus par un décodeur numérique, aussi appelé STB (Set Top Box) via des supports de réception appropriés (antennes, câbles, ADSL, etc.) et les différents programmes qui les constituent sont dé-multiplexés et décodés avant restitution par les terminaux (e.g. téléviseurs) connectés à la STB. Un tel décodeur, non représenté, peut être associé à la passerelle ou directement intégré dans le terminal. Le terminal peut aussi être prévu pour accéder aux contenus streamés à partir du WAN ou du LAN. On parle, dans ce cas, de télévision « connectée », c'est-à-dire que le terminal peut être raccordé au réseau Internet afin de fournir un ensemble de services aux utilisateurs. Si la restitution ne s'effectue pas sous le contrôle d'un opérateur de service, on parle aussi dans ce cas de contenus de type OTT, acronyme de l' appellation anglaise « Over The Top ». La télévision OTT permet à un utilisateur d'un terminal connecté au réseau Internet de restituer des chitines numériques ou des contenus Web sur le téléviseur. Généralement, ce type de terminal « connecté » s 'interface avec la passerelle en charge du réseau local de l'utilisateur et accède par là à un serveur de contenus dans le réseau étendu. Enfin, un tel terminal peut accéder aux contenus depuis l'intérieur de réseau local, par exemple depuis un dispositif de streaming associé à un disque dur local (non représenté). Dans la suite, on parle indifféremment de contenu multimédia pour des contenus reçus à partir d'un réseau de diffusion (DBV, IPTV), en OTT, et/ou via un téléchargement (streaming, téléchargement de fichier, etc.)
Dans tous ces cas de figure, on suppose que le contenu est analysé par un dispositif d'analyse de contenus, qui peut se trouver sur un serveur (5) de l'opérateur, ou sur la passerelle domestique (6), sur un terminal, ou sur tout autre équipement du réseau distant ou local apte à effectuer une telle analyse. Au préalable, un apprentissage a été effectué sur plusieurs contenus. Cet apprentissage s'effectue sur un dispositif d'apprentissage, qui se trouve de préférence sur un serveur (5) de l'opérateur (qui peut être différent ou non du serveur d'analyse) mais pourrait aussi être situé sur la passerelle domestique, ou sur tout autre équipement de réseau apte à réaliser un tel apprentissage.
Comme exposé ci-avant, le procédé selon l'invention comprend un apprentissage et une analyse, qui sont présentés ci-après en deux temps, ou phases distinctes, par simplicité. Il est entendu cependant que, comme souligné ci-avant, l'apprentissage peut être effectué plusieurs fois (notamment en parallèle ou après l'analyse) et que l'analyse peut être continue. :
Ainsi, dans certains modes de réalisation, l'apprentissage peut comprendre d'une part une phase d'apprentissage « en amont » (préalable à la phase analyses) pour caractériser des évènements à partir de contenus, et d'autre part un apprentissage au fil de l'eau des habitudes de l'usager sur ses préférences de consommation de contenus (notamment de contenus analysés selon le procédé d'analyse de l'invention). Les deux apprentissages peuvent être effectués sur un même dispositif (par exemple sur un serveur ou une plateforme de service) ou sur des dispositifs différents (par exemple l'apprentissage amont peut être effectué sur un serveur, l'apprentissage au fil de l'eau étant effectué (localement par exemple) sur une passerelle domestique ou sur un terminal utilisateur). Ainsi ; l'usager peut se voit proposer par exemple des contenus correspondant à ses préférence parmi l'ensemble des contenus en cours de diffusion, avec en outre par exemple une possibilité de passer dynamiquement d'un contenu à l'autre pour ne rien perdre de ses centres d'intérêt.
Première phase : apprentissage de caractéristiques et événements
Dans le mode de réalisation détaillé, dans un premier temps, qui correspond à au moins une phase dite d'apprentissage, N contenus multimédias (où N est un entier naturel) sont sélectionnés, sur lesquels faire un apprentissage de caractéristiques, ou événements, à l'aide par exemple d'un module d'intelligence artificielle. La phase d'apprentissage est par exemple capable de définir des paramètres pour permettre ensuite, à partir de n'importe quel contenu reçu, de fournir en sortie une indication de correspondance entre le contenu reçu et l'un au moins des événements traités par l'apprentissage. Par exemple une telle caractéristique est relative à la présence d'un acteur donné dans le contenu.
Cette phase d'apprentissage est par exemple une phase d'apprentissage automatique, en anglais « machine learning » (ML). On rappelle que l'apprentissage automatique, ou apprentissage statistique, concerne notamment la conception, l'analyse, le développement et l'implémentation de méthodes permettant à une machine (au sens large) d'évoluer par un processus systématique, et ainsi de remplir des tâches difficiles ou problématiques par des moyens algorithmiques. Un exemple possible d'apprentissage automatique est celui de la classification dont le but est d'étiqueter chaque donnée en l'associant à une classe. Selon au moins un mode de réalisation, on utilise par exemple un réseau de neurones (RN). Lors de l'étape d'apprentissage, le réseau évolue pour apprendre à reconnaître un ensemble d'éléments caractéristiques qui permettent de confirmer la présence d'un événement dans un contenu. Par exemple, si on souhaite apprendre à la machine la présence d'un acteur dans une séquence vidéo, on lui présente des films et contenus dans lesquels apparaît cet acteur en l'entraînant à retrouver toutes les séquences où il apparaît. Le même procédé peut s'appliquer pour la détection d'un but dans une séquence sportive, l'identité de l'équipe qui a marqué, la reconnaissance d'un lieu, d'une ville, certaines formes de violence dans les contenus, une chanson, etc.
La phase d'apprentissage fournit en sortie un « modèle » constitué d'un ensemble de données (logiciel, paramètres, coefficients optimisés du réseau de neurones, etc.). Dans la suite on appelle ce modèle « modèle d'analyse » (MA).
Seconde phase : analyse d'un contenu
Dans une seconde phase, dite d'analyse, lorsqu'un contenu est reçu (ou analysé en temps réel sur un support de stockage tel qu'un disque dur), le programme d'analyse est mis en œuvre sur un dispositif d'analyse (DAN). Ce contenu peut être un nouveau contenu, ou un contenu qui a fait partie de l'apprentissage.
Le dispositif d'analyse utilise le (hérite du) modèle d'analyse (MA) fourni par le dispositif d'apprentissage.
Selon au moins un mode de réalisation, le module d'analyse fait appel au réseau de neurones (RN), avec en entrée le modèle d'analyse et le contenu, éventuellement nouveau, à analyser, destiné par exemple à être visualisé et/ou écouté par un ou plusieurs utilisateurs du réseau local si leurs critères (préférences événementielles) sont remplis. Si le module d'analyse détecte la présence (assortie éventuellement d'un indice de fiabilité) d'un événement déclencheur, une action peut être prise relativement à la mise à disposition du contenu pour un ou plusieurs utilisateurs du réseau local (comme un début ou une fin de restitution et/ou d'enregistrement d'un contenu). Par exemple, un utilisateur 1 du terminal T1 pourra recevoir directement le contenu puisque l'un de ses critères (par exemple présence d'un certain acteur, tel qu'un acteur correspondant à une préférence de l'utilisateur 1) a été rencontré, alors qu'un utilisateur 2 du terminal T2 pourra recevoir une notification (selon laquelle, par exemple le contenu C contient une séquence musicale, telle qu'une séquence correspondant à une préférence de l'utilisateur 2).
Selon un mode de réalisation, le module d'analyse peut se trouver sur la passerelle domestique 6. Avantageusement dans ce cas, les préférences des utilisateurs du réseau local peuvent être prises en compte. Par exemple, les caractéristiques associées à un utilisateur peuvent être enregistrées dans un profil relatif à cet utilisateur. Les paramètres du réseau de neurones correspondant aux caractéristiques de déclenchement peuvent avantageusement être mis en œuvre en relation avec cet utilisateur (via ce profil utilisateur notamment). Selon un autre mode de réalisation, le module d'analyse peut se trouver sur un serveur/plateforme d'analyse 5 de l'opérateur. Avantageusement dans ce cas, l'analyse peut par exemple bénéficier d'une puissance de traitement supérieure à celle dont il est possible de bénéficier sur la passerelle domestique 6. Dans un tel mode de réalisation, l'analyse peut de surcroît centralisée. Un contenu ou une notification relative au contenu peut ainsi être envoyée vers la passerelle domestique dans le cas où l'un des contenus reçus par la plateforme contient un événement intéressant le réseau local de la passerelle.
Comme souligné ci-avant, dans certains modes de réalisations, l'analyse peut tenir compte d'un profil et/ou de préférences d'un ou plusieurs utilisateurs. Le procédé peut par exemple comprendre une obtention E10, E30 d'une liste d'événements préférés par au moins un utilisateur et relatifs à des contenus multimédia. Par exemple, un utilisateur peut informer un opérateur du ou des critères (ou évènements) qui l'intéressent. L'utilisation d'un modèle d'analyse peut aussi permettre d'obtenir des évènements susceptibles d'intéresser l'utilisateur en fonction de ses consommations passées de contenus,
La figure 2 illustre une architecture des dispositifs impliqués dans un système selon un mode de réalisation de l'invention.
Le dispositif d'apprentissage DAP possède par exemple l'architecture classique d'un ordinateur et comprend notamment une mémoire M, une unité de traitement UT, équipée par exemple d'un processeur PROC, et pilotée par le programme d'ordinateur PGAP stocké en mémoire M. A l'initialisation, les instructions de code du programme d'ordinateur PGAP sont par exemple chargées dans une mémoire avant d'être exécutées par le processeur PROC. Le processeur PROC de l'unité de traitement UT met notamment en œuvre les étapes du programme d'apprentissage selon l'un quelconque de modes particuliers de réalisation décrits en relation avec les figures 1 et 2, selon les instructions du programme d'ordinateur PGAP.
Le dispositif d'apprentissage peut comporter aussi :
• un module RN d'intelligence artificielle apte à effectuer un apprentissage automatique ;
• un module MA en charge de la génération du modèle d'analyse ; ce module est capable, dans un mode de réalisation, de générer un module d'analyse de complexité variable, en fonction d'un critère de complexité (imposé par le dispositif d'analyse qui mettra en œuvre le module d'analyse) ;
• un module COM1 de communication pour gérer toutes les entrées/sorties du dispositif, notamment acquérir les contenus multimédia, et transmettre le modèle d'analyse à un dispositif d'analyse s'il est distinct du dispositif d'apprentissage ;
• un module pour obtenir les événements à traiter, EVS, par exemple un gestionnaire de base de données ; • optionnellement une base BA pour stocker les couples constitués des contenus et de leurs événements associés alimentant le module RN.
Le dispositif d'analyse DAN a par exemple l'architecture classique d'un ordinateur et peut comprendre aussi :
• une mémoire M', une unité de traitement UT', équipée par exemple d'un processeur PROC', et pilotée par le programme d'ordinateur PGAN stocké en mémoire M'. A l'initialisation, les instructions de code du programme d'ordinateur PGAN d'analyse sont par exemple chargées dans une mémoire avant d'être exécutées par le processeur PROC'.
• Le processeur PROC' de l'unité de traitement UT' met notamment en œuvre les étapes du procédé d'analyse selon l'un quelconque de modes particuliers de réalisation décrits en relation avec les figures 1 et 2, selon les instructions du programme d'ordinateur PGAN. Le programme PGAN est notamment chargé de mettre en œuvre le module d'intelligence artificielle RN avec le modèle d'analyse héritée du dispositif d'apprentissage.
• un module RN d'intelligence artificielle ;
• un module MA en charge de l'obtention et la mise en œuvre du modèle d'analyse ;
• un module de communication pour gérer toutes les entrées/sorties du dispositif, notamment acquérir le contenu multimédia à analyser et le modèle d'analyse MA du dispositif d'apprentissage s'il est distinct du dispositif d'analyse ;
• un module EVS' apte à obtenir le ou les événements) d'intérêt pour l'analyse.
Le terminal T1 a par exemple l'architecture classique d'un ordinateur et peut comprendre aussi :
• une mémoire M', une unité de traitement UT', équipée par exemple d'un processeur PROC', et pilotée par le programme d'ordinateur PGAN stocké en mémoire M'. A l'initialisation, les instructions de code du programme d'ordinateur PGAN d'analyse sont par exemple chargées dans une mémoire avant d'être exécutées par le processeur PROC'.
• Le processeur PROC' de l'unité de traitement UT' met notamment en œuvre au moins partiellement des étapes d'obtention E20 d'événements d'intérêt pour au moins un utilisateur du terminal et de mise à disposition de contenu selon l'un quelconque de modes particuliers de réalisation décrits en relation avec les figures 1 et 2, selon les instructions du programme d'ordinateur PGAN. • un module de communication pour gérer toutes les entrées/sorties du dispositif, notamment acquérir les évènements préférés à transmettre au dispositif d'analyse et recevoir le contenu multimédia à mettre à disposition.
La figure 3 illustre des étapes du procédé de mise à disposition selon un mode de réalisation de l'invention.
Dans une première phase d'apprentissage P1, préalable par exemple à la mise en œuvre en temps réel du réseau de neurones RN, le procédé comporte au moins certaines des étapes d'apprentissage décrites ci-après , en correspondance avec une pluralité d'événements (tels que des acteurs, séquence sportive incluant un tir au but, remise de coupe, film comprenant des scènes de violence extrême, etc.) correspondant par exemple à une pluralité d'utilisateurs (ensemble ou sous- ensemble des abonnés au service audiovisuel de l'opérateur, ensemble des utilisateurs de terminaux du réseau local, etc.). L'apprentissage vise à rendre le modèle d'analyse apte à détecter (ou reconnaître) la pluralité d'évènements dans des contenus destinés à un ou plusieurs utilisateurs.
Selon la figure 3, dans une première étape E0 de la phase d'apprentissage P1, une initialisation du module d'analyse (selon cet exemple un réseau de neurones) est effectuée. Dans la description qui suit, on suppose que l'apprentissage s'effectue sur un ensemble d'événements noté EVS, à soumettre au module d'analyse. L'initialisation du réseau est relative à cet ensemble d'événements. Un événement de l'ensemble EVS peut avoir été obtenu de différentes façons selon les modes de réalisation. Par exemple, il peut avoir été transmis au dispositif d'apprentissage par les passerelles de service, ou avoir être créé par l'opérateur, ou provenir d'un tiers, etc.
Dans une étape E1 de la phase d'apprentissage P1, le procédé acquiert une pluralité (de préférence, un volume important) de contenus numériques C0... CN, de préférence mais pas nécessairement représentatifs des événements « préférés » EVS. En effet, un contenu représentatif d'aucun des évènements « préférés » peut aussi être utile à un apprentissage de la détection de ces évènements préférés. Ces contenus peuvent être choisis par exemple par l'opérateur, manuellement ou automatiquement.
Dans une étape E2 (dite « d'annotation ») de la phase d'apprentissage P1, le procédé comprend une association (par exemple par action humaine) d' au moins certains des contenus acquis dans la première étape E1 à au moins un type d'événement, à partir de l'ensemble EVS des événements. L'ensemble des données correspondant aux couples (contenu, événement) peut constituer par exemple une base d'apprentissage BA.
Dans une étape E3, dite d'apprentissage, de la phase d'apprentissage P1, le procédé met en œuvre l'apprentissage à proprement parler du réseau de neurones RN. Le réseau de neurones, au départ non entraîné par exemple, est alimenté en contenus (notamment en contenus provenant des données de la base d'apprentissage BA) pour le transformer jusqu'à ce qu'il soit davantage apte à faire des analyses pertinentes pour les usagers. A cette fin, il obtient (reçoit) itérativement ou successivement en entrée des données (par exemple des couples (contenu, événement)) provenant par exemple de la base d'apprentissage BA. On notera que la base d'apprentissage est facultative, les données associant contenus et événements pouvant être fournis au réseau de neurones de manière itérative sans faire appel à une base de données.
Dans le mode de réalisation détaillé, le réseau de neurones traite les données associant contenus et événements (tels que les couples (contenu, événement)) obtenues successivement et/ou à chaque itération, pour permettre la mise à jour des coefficients du réseau de neurones RN, afin d'améliorer la convergence de l'algorithme (par exemple jusqu'à obtenir une convergence de l'algorithme). Dans certains modes de réalisation, lorsque les performances de reconnaissance des événements sont jugées correctes, le modèle d'analyse est considéré stable, on peut donc cesser l'apprentissage. Les coefficients du réseau sont dits « figés », « convergés » ou « optimisés ». Ces coefficients optimisés, ainsi que toutes les données utiles à l'implémentation ultérieure du réseau de neurones, peuvent être stockés dans ce qu'on appelle le « module d'analyse » MA qui peut être transmis à des dispositifs d'analyse pour traiter les contenus des usagers.
Par exemple, le réseau de neurones s'entraînant à reconnaître les traits du visage d'un acteur conserve dans son modèle d'apprentissage MA, à l'issue de la phase d'apprentissage, des coefficients optimisés et éventuellement des éléments d'analyse comme les traits du visage sous différents angles, tailles, qualités, etc. pour être capable de le retrouver dans n'importe quel contexte et n'importe quel contenu.
On notera que le réseau de neurones peut être quelconque, de tout type connu, par exemple un réseau de neurones convolutif. Pour cela, le procédé met en œuvre, par exemple, un algorithme itératif du type «algorithme du gradient» avec une approche dite par «descente du gradient» et «back- propagation », pour rechercher les coefficients du réseau de neurones RN permettant d'obtenir la meilleure performance de classification.
Selon un exemple, le réseau de neurones RN comporte:
- une ou plusieurs couches destinées à filtrer et déterminer les éléments caractéristiques des médias du contenu (images, séquences d'images, textes et sons, ...) ; pour cela, il met en œuvre l'application de briques logicielles telles que :
• reconnaissance de formes, mouvements, visages, sons, voix, etc.
• estimation de la violence d'une scène
• etc.
- une ou plusieurs couches connectées réalisant une classification du contenu dans un nombre limité (fini) d'événements ;
- une dernière couche utilisant une fonction permettant d'estimer les probabilités d'appartenance d'un contenu à chaque événement. Une probabilité comprise entre 0 et 1 peut être associée à chaque contenu pour un événement Une telle probabilité peut être convertie en indice de fiabilité. Selon une variante, la base d'apprentissage BA et/ou le modèle d'analyse peuvent être issus de bibliothèques logicielles spécialisées déjà préconstituées (par exemple pré-entraînés).
Selon une variante, le procédé d'apprentissage peut prendre en compte dans son optimisation un critère de complexité, de manière à réaliser par exemple un compromis entre la performance et la complexité (puissance, temps, etc.) de calcul nécessaire. Il est par exemple connu de l'homme du métier que l'on peut contrôler la complexité du réseau de neurones par ajout ou élagage de cellules. On pourra donc adapter selon cet exemple le réseau à la complexité de la machine hébergeant le dispositif d'analyse utilisé (e.g. réduire le nombre de couches el/ou de cellules el/ou le type de cellules si le dispositif d'analyse dispose de capacités limitées, comme par exemple un terminal de type passerelle de réseau, un routeur, un ordinateur domestique, etc.)
A l'issue de cette première phase d'apprentissage, le procédé comprend une deuxième phase P2, dite d'analyse, pour implémenter en temps réel le réseau de neurones RN sur le module d'analyse (et effectuer des inférences du réseau de neurones). Le module d'analyse est situé selon cet exemple dans la passerelle de réseau.
Selon un autre mode de réalisation, elle est située dans un serveur 5 de l'opérateur de réseau.
Dans une étape E30, le modèle d'analyse MA comportant notamment les coefficients optimisés du réseau de neurones, issus de l'apprentissage, est mis en œuvre sur le dispositif d'analyse. Il contrôle le réseau de neurones RN qui, à partir d'un contenu reçu par la passerelle de service (selon un autre mode de réalisation, un serveur 5 de l'opérateur de réseau), délivre une estimation (avec une certaine fiabilité) d'au moins un type d' événement(s) présent(s) dans le contenu, en temps réel. Le type d'évènement peut notamment appartenir à une liste d'évènements d'intérêt (préférés) obtenue E10, E30 (éventuellement via une ou plusieurs passerelles si le dispositif d'analyse est mis en œuvre sur un serveur) d'au moins un utilisateur. Dans une étape E31, si un événement a été détecté dans le contenu avec une fiabilité suffisamment élevée, par exemple si l'indice de fiabilité est supérieur à une valeur seuil donnée, une action de mise à disposition peut être menée : Par mise à disposition par entend par exemple un envoi du contenu vers un terminal (ou vers une passerelle si le module d'analyse se trouve dans le réseau), une notification, un enregistrement, etc.
A titre d'exemple, le contenu peut être joué par le terminal T1 dans une étape E21 (par exemple visualisé par l'utilisateur du terminal).
Outre l'apprentissage du modèle d'analyse, le procédé peut également comprendre un apprentissage des évènements d'intérêt à détecter lors de l'analyse. Par exemple, au moins un évènement d'intérêt peut être obtenu par apprentissage des habitudes et des centres d'intérêt d'au moins un utilisateur (par exemple un historique de consommation de contenues). Un tel apprentissage peut aussi aboutir à une identification (automatique) d'un évènement plus ou moins complexe apprécié par l'utilisateur. La phase d'analyse peut ensuite comprendre une phase de détection de ces évènements d'intérêt. Ainsi, dans certains modes de réalisation, à l'inverse de solutions de l'art antérieur (utilisant par exemple des métadonnées et/ou des données de configuration statiques), il n'est pas nécessaire d'associer à un contenu, avant le début de la consommation de ce contenu, tous les évènements particuliers susceptibles de correspondre à un intérêt d'un utilisateur. Par exemple, un évènement d'intérêt peut être défini par un utilisateur, ou appris automatiquement (via un second modèle d'analyse par exemple) au fin- et mesure des usages de contenus d'un utilisateur (par exemple à chaque usage). Par exemple, des évènements d'intérêt peuvent correspondre à des préférences et/ou à des rejets d'un utilisateur. Le second modèle d'analyse peut par exemple être un second modèle d'analyse d'un second réseau neuronal analysant les préférences d'un utilisateur pour enrichir une bibliothèque d'évènements
Il va de soi que le mode de réalisation qui a été décrit ci-dessus a été donné à titre purement indicatif et nullement limitatif, et que de nombreuses modifications peuvent être facilement apportées par l'homme de l'art sans pour autant sortir du cadre de l'invention.
Notamment, le réseau de neurone peut être remplacé par tout module d'intelligence artificielle apte à remplir les mêmes fonctions (ou des fonctions similaires): apprentissage automatique par arbres de décision, méthodes statistiques, régression logistique, analyse discriminante linéaire, algorithmes génétiques, etc.

Claims

REVENDICATIONS
1. Procédé d'analyse d'un contenu multimédia (C), le procédé étant caractérisé en ce qu'il comporte, sur un dispositif d'analyse (DAN), les étapes suivantes :
- obtenir (E30) des premiers événements audio et/ou vidéo (EVS') relatifs à des premiers contenus multimédia ;
- lors de l'obtention d'un second contenu multimédia (C), déclencher en temps réel une action portant sur une mise à disposition dudit second contenu multimédia en fonction d'une présence, dans au moins une portion dudit second contenu multimédia (C), d'un au moins (EV) desdits premiers évènements audio et/ou vidéo (EVS').
2. Procédé d'analyse d'un contenu multimédia (C) selon la revendication 1 caractérisé en ce que détecter ladite présence comprend générer (E31) une estimation de ladite présence desdits premiers évènements, dans ladite portion dudit second contenu multimédia (C), par un premier modèle d'analyse de contenus audio et/ou vidéo.
3. Procédé d'analyse d'un contenu multimédia (C) selon la revendication 1 ou 2 caractérisé en ce qu'au moins un desdits premier évènements est obtenu depuis une interface utilisateur couplée audit dispositif.
4. Procédé d'analyse d'un contenu multimédia (C) selon l'une quelconque des revendications 1 à
3 caractérisé en ce qu'au moins un desdits premier évènements est obtenu en fonction d'un historique de consommation de contenus.
5. Procédé d'analyse d'un contenu multimédia (C) selon l'une quelconque des revendications 1 à
4 caractérisé en ce qu'au moins un desdits premier évènements est obtenu en utilisant un second modèle d'analyse dudit historique consommation de contenus.
6. Procédé d'analyse d'un contenu multimédia selon l'une quelconque des revendications 1 à 5, caractérisé en ce que le premier modèle d'analyse est celui d'un premier réseau de neurones (RN) et comporte des coefficients du réseau de neurones optimisés par une mise en œuvre sur lesdits premiers contenus , et en ce que en ce que le procédé comporte en outre une étape de :
- mettre en œuvre le premier réseau de neurones sur le second contenu multimédia(C), avec les coefficients optimisés.
7. Procédé d'analyse d'un contenu multimédia selon l'une des revendications 1 à 6, caractérisé en ce que déclencher au moins une action portant sur la mise à disposition dudit second contenu multimédia comprend un début ou une fin de restitution dudit second contenu.
8. Procédé d'analyse d'un contenu multimédia selon la revendication 1 à 7, caractérisé en ce que déclencher au moins une action portant sur la mise à disposition dudit premier contenu multimédia comprend une notification de la présence dudit premier contenu sur une interface utilisateur.
9. Procédé d'apprentissage de caractéristiques de contenus multimédia, le procédé étant caractérisé en ce qu'il comporte, sur un dispositif d'apprentissage (DAP) les étapes de :
- acquérir (E1) une pluralité de premiers contenus multimédia ( C0...CN) ;
- associer (E2) au moins un premier événement (EV) à au moins un desdits premiers contenus acquis (C), au moins un desdits premiers évènements étant fonction d'un historique de consommation de contenus;
- obtenir un premier modèle d'analyse (MA) par apprentissage à partir desdits premiers évènements et premiers contenus associés (EV, C).
10. Procédé d'apprentissage de caractéristiques de contenus multimédia selon la revendication 9, caractérisé en ce que le procédé d'apprentissage utilise un réseau de neurones (RN) et en ce que l'étape d'obtenir un premier modèle d'analyse comprend un entraînement du réseau de neurones (RN) par les étapes suivantes :
- recevoir itérativement en entrée desdits premiers contenus et premiers évènements associés
(EV, C). (C, EV) ;
- optimiser les coefficients du réseau de neurones (RN) à partir desdits premiers contenus et premiers évènements associés;
- construire ledit premier modèle d'analyse (MA) à partir des coefficients optimisés.
11. Procédé d'apprentissage de caractéristiques de contenus multimédia selon la revendication 9 ou 10 ou 10, caractérisé en ce que le procédé d'apprentissage prend en compte dans son optimisation un critère de complexité.
12. Dispositif (DAN) d'analyse d'un contenu multimédia, comprenant une mémoire (M') , un processeur (PROC'), un module pour acquérir un contenu multimédia (COM2), configurés pour :
- obtenir (E30) des premiers événements audio and/or vidéo (EVS') relatifs à des premiers contenus multimédia ;
- lors de l'obtention d'un second contenu multimédia (C), déclencher en temps réel une action portant sur une mise à disposition dudit second contenu multimédia en fonction d'une présence, dans au moins une portion dudit second contenu multimédia (C), d'un au moins (EV) desdits premiers évènements audio et/ou vidéo (EVS').
13. Dispositif d'apprentissage (DAP) de caractéristiques de contenus multimédia comprenant une mémoire (M),un processeur (PROC), un module d'intelligence artificielle (RN), un module pour acquérir un contenu multimédia (COM1), un module pour générer un modèle d'apprentissage (MA) configurés pour :
- acquérir (E1) une pluralité de premiers contenus multimédia (C0...CN);
- associer (E2) au moins un premier événement (EV) à au moins un desdits premiers contenus acquis (C,) au moins un desdits premiers évènements étant fonction d'un historique de consommation de contenus; - - obtenir un premier modèle d'analyse (MA) par apprentissage à partir desdits premiers évènements et premiers contenus associés (EV, C).
14. Serveur ou plateforme de service comprenant un dispositif d'analyse selon la revendication 12.
15. Serveur ou plateforme de service comprenant un dispositif d'apprentissage selon la revendication 13.
16. Passerelle domestique ou terminal comportant un dispositif d'analyse selon la revendication
12.
17. Système pour analyser un contenu multimédia, comprenant :
- un dispositif d'analyse selon la revendication 12 et
- un dispositif d'apprentissage selon la revendication 13, le système étant configuré de telle manière que le dispositif d'analyse reçoit le modèle d'apprentissage généré par le dispositif d'apprentissage.
18. Programme d'ordinateur apte à être mis en œuvre sur un dispositif tel que défini dans la revendication 12 ou 13, le programme comprenant des instructions de code qui, lorsque le programme est exécuté par un processeur, réalise les étapes du procédé défini selon l'une des revendications 1 à 8 ou 9 à 11.
PCT/FR2020/052333 2019-12-20 2020-12-08 Analyse d'un contenu multimedia WO2021123563A1 (fr)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
FR1915321A FR3105689A1 (fr) 2019-12-20 2019-12-20 Analyse d’un contenu multimédia
FRFR1915321 2019-12-20

Publications (1)

Publication Number Publication Date
WO2021123563A1 true WO2021123563A1 (fr) 2021-06-24

Family

ID=70008787

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/FR2020/052333 WO2021123563A1 (fr) 2019-12-20 2020-12-08 Analyse d'un contenu multimedia

Country Status (2)

Country Link
FR (1) FR3105689A1 (fr)
WO (1) WO2021123563A1 (fr)

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5410344A (en) * 1993-09-22 1995-04-25 Arrowsmith Technologies, Inc. Apparatus and method of selecting video programs based on viewers' preferences
US5961808A (en) 1993-05-14 1999-10-05 Kiyokawa Mekki Kougyo Co., Ltd. Metal film resistor having fuse function and method for producing the same
EP2290958A1 (fr) * 1998-07-17 2011-03-02 United Video Properties Inc. Système de télévision doté d'une recherche de programme assistée pour l'utilisateur
US20160239737A1 (en) * 2015-02-13 2016-08-18 Yahoo!, Inc. Future event detection
US20180242045A1 (en) * 2017-02-21 2018-08-23 The Directv Group, Inc. Customized recommendations of multimedia content streams

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8949878B2 (en) * 2001-03-30 2015-02-03 Funai Electric Co., Ltd. System for parental control in video programs based on multimedia content information
US9070141B2 (en) * 2012-11-30 2015-06-30 Facebook, Inc. Updating features based on user actions in online systems
US9485528B2 (en) * 2014-04-28 2016-11-01 Rovi Guides, Inc. Methods and systems for preventing users from terminating services based on use

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5961808A (en) 1993-05-14 1999-10-05 Kiyokawa Mekki Kougyo Co., Ltd. Metal film resistor having fuse function and method for producing the same
US5410344A (en) * 1993-09-22 1995-04-25 Arrowsmith Technologies, Inc. Apparatus and method of selecting video programs based on viewers' preferences
EP2290958A1 (fr) * 1998-07-17 2011-03-02 United Video Properties Inc. Système de télévision doté d'une recherche de programme assistée pour l'utilisateur
US20160239737A1 (en) * 2015-02-13 2016-08-18 Yahoo!, Inc. Future event detection
US20180242045A1 (en) * 2017-02-21 2018-08-23 The Directv Group, Inc. Customized recommendations of multimedia content streams

Also Published As

Publication number Publication date
FR3105689A1 (fr) 2021-06-25

Similar Documents

Publication Publication Date Title
FR2874472A1 (fr) Procede, article de fabrication et dispositif destines a mettre a jour un logiciel dans un dispositif individuel
WO2006100268A2 (fr) Procede d'envoi de commande a un serveur de flux de donnees numeriques et appareil implementant le procede
FR2853126A1 (fr) Procede de reconnaissance de parole distribuee
EP3021594A1 (fr) Procédé de classement d'un contenu et recommandation de contenu dans un guide électronique des programmes
FR3004054A1 (fr) Generation et restitution d'un flux representatif d'un contenu audiovisuel
EP2596628A1 (fr) Procédé de planification des enregistrements de programmes de télévision pour un utilisateur
EP4161081A1 (fr) Procédé de génération d'une chaîne de télévision personnalisée pour un utilisateur d'un terminal configuré pour accéder à au moins un service de diffusion de contenus audiovisuels, dispositif, équipement de service, système et programme d'ordinateur correspondants.
FR2893470A1 (fr) Procede et dispositif de creation d'une sequence video representative d'une sequence video numerique et procedes et dispositifs de transmission et reception de donnees video associes
WO2021123563A1 (fr) Analyse d'un contenu multimedia
EP3022909A1 (fr) Procede de diffusion adaptative de flux multimedia en utilisant un indice d'energie
WO2019220034A1 (fr) Gestion du téléchargement progressif adaptatif d'un contenu numérique au sein d'un terminal de restitution d'un réseau de communication local
WO2018114108A1 (fr) Procede d'enregistrement d'un programme telediffuse a venir
EP1182878A1 (fr) Système de communication, émetteur, récepteur, méthode utilisant un descripteur de stockage de données
FR3074629A1 (fr) Procede de gestion de la consommation electrique d'un dispositif electronique.
EP4055831A1 (fr) Procédé de gestion de zapping de contenus multimédias numériques obtenu par téléchargement progressif adaptatif (has), dispositif de gestion, lecteur de flux multimédia et programme d'ordinateur correspondants
FR3096541A1 (fr) Procédé de gestion du téléchargement progressif adaptatif (HAS) d’un contenu numérique diffusé en temps réel, gestionnaire, terminal lecteur de flux multimédia et programme d’ordinateur correspondants.
WO2016170288A1 (fr) Système de création et de restitution d'un document composite.
WO2017064400A1 (fr) Enrichissement contextuel par reconnaissance audio
EP4254968A1 (fr) Procédé de génération d'une chaîne de télévision virtuelle pour un utilisateur d' au moins un service de diffusion de contenus audiovisuels, dispositif de génération, équipement de service et programme d ordinateur correspondants
EP4109905A1 (fr) Gestion du téléchargement progressif adaptatif d'un contenu numérique en mode économiseur d'écran
EP4348985A1 (fr) Équipement et procede de restitution de contenu audio dans le cadre d'un service numerique interactif
WO2022229563A1 (fr) Caracterisation d'un utilisateur par association d'un son a un element interactif
FR3134940A1 (fr) Gestion de la restitution d’un contenu multimédia
EP1886238A1 (fr) Analyse et classification d'un flux multimedia en sequences homogenes
FR3116685A1 (fr) Personnalisation de flux multimédia en fonction de données dynamiques issues d’objets connectés

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 20842271

Country of ref document: EP

Kind code of ref document: A1

NENP Non-entry into the national phase

Ref country code: DE

122 Ep: pct application non-entry in european phase

Ref document number: 20842271

Country of ref document: EP

Kind code of ref document: A1