WO2017064400A1 - Enrichissement contextuel par reconnaissance audio - Google Patents

Enrichissement contextuel par reconnaissance audio Download PDF

Info

Publication number
WO2017064400A1
WO2017064400A1 PCT/FR2016/052599 FR2016052599W WO2017064400A1 WO 2017064400 A1 WO2017064400 A1 WO 2017064400A1 FR 2016052599 W FR2016052599 W FR 2016052599W WO 2017064400 A1 WO2017064400 A1 WO 2017064400A1
Authority
WO
WIPO (PCT)
Prior art keywords
current
content
audiovisual
signatures
audiovisual content
Prior art date
Application number
PCT/FR2016/052599
Other languages
English (en)
Inventor
David Vincent
Mouhtar Haidar
Dimitri FAGUE
Original Assignee
Tdf
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tdf filed Critical Tdf
Priority to EP16791656.8A priority Critical patent/EP3363208A1/fr
Publication of WO2017064400A1 publication Critical patent/WO2017064400A1/fr

Links

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/41Structure of client; Structure of client peripherals
    • H04N21/4104Peripherals receiving signals from specially adapted client devices
    • H04N21/4126The peripheral being portable, e.g. PDAs or mobile phones
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/43Processing of content or additional data, e.g. demultiplexing additional data from a digital video stream; Elementary client operations, e.g. monitoring of home network or synchronising decoder's clock; Client middleware
    • H04N21/439Processing of audio elementary streams
    • H04N21/4394Processing of audio elementary streams involving operations for analysing the audio stream, e.g. detecting features or characteristics in audio streams
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/20Servers specifically adapted for the distribution of content, e.g. VOD servers; Operations thereof
    • H04N21/27Server based end-user applications
    • H04N21/278Content descriptor database or directory service for end-user access
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/45Management operations performed by the client for facilitating the reception of or the interaction with the content or administrating data related to the end-user or to the client device itself, e.g. learning user preferences for recommending movies, resolving scheduling conflicts
    • H04N21/462Content or additional data management, e.g. creating a master electronic program guide from data received from the Internet and a Head-end, controlling the complexity of a video stream by scaling the resolution or bit-rate based on the client capabilities
    • H04N21/4622Retrieving content or additional data from different sources, e.g. from a broadcast channel and the Internet
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/80Generation or processing of content or additional data by content creator independently of the distribution process; Content per se
    • H04N21/85Assembly of content; Generation of multimedia applications
    • H04N21/858Linking data to content, e.g. by linking an URL to a video object, by creating a hotspot
    • H04N21/8586Linking data to content, e.g. by linking an URL to a video object, by creating a hotspot by using a URL

Definitions

  • the present invention relates to the field of contextual enrichment of audiovisual content, and in particular, but not exclusively, content broadcast by television channels.
  • It relates more specifically contextual enrichment implementing auditory recognition of audiovisual content displayed on a user rendering device (a TV for example), by a user terminal (such as a smartphone or "smartphone” for example). ) without requiring a connection between the device and the terminal.
  • a user rendering device a TV for example
  • a user terminal such as a smartphone or "smartphone” for example
  • Auditory recognition techniques are known for the purpose of recognizing extracts of audio contents such as musical tracks.
  • the enrichment then consists, after recognition of the extract by using a database storing all the musical tracks (or signatures thereof) recognizable by the service, to return to the user the name of the artist, the music track, and possibly the album from which it is extracted.
  • the present invention improves the situation.
  • a first aspect of the invention relates to a method for enriching audiovisual content, the method comprising the following steps implemented in a first service platform, the service platform comprising a local database storing associations between audiovisual content signatures and sources of audiovisual content on the one hand and associations between sources of audiovisual content and contextual content on the other hand:
  • the request upon receipt of a user request from a first user terminal, the request comprising a candidate signature, identifying a source of audiovisual content by comparison between the candidate signature and the signatures stored in the local database;
  • the present invention provides a dynamic update of both contextual content enriching broadcast audiovisual content and both signatures for the recognition of audiovisual content being broadcast. This makes it possible to apply the enrichment to any broadcasted content, even when it is not known in advance (as may be the case when broadcasting television programs).
  • the audiovisual content considered which may be a film, a television program, a radio program, a music video, an advertisement, etc.
  • Contextual content is any informative data relating to audiovisual content, and can cover any text, audio, video, photo, etc.
  • the set of current audiovisual content signatures respectively associated with the audiovisual source identifiers may be received from a broadcast manager and the method may further include the following steps implemented by the broadcast manager:
  • Generating and distributing common signatures is thus centralized, which reduces the complexity and software resources of service platforms.
  • the responsiveness of service platforms to compare signatures and extract contextual content is thus improved.
  • the current signatures may have a duration D1
  • the signature generator may store the set of current signatures of audiovisual contents respectively associated with the identifiers of audiovisual content sources, and the method may furthermore comprise the following steps implemented by the signature generator:
  • update of the current signature given by deleting a final period of duration D2 of the current signature given and adding at the beginning of the current signature given the signature extract of duration D2 corresponding to the current audio extract associated with the same audiovisual content source identifier as the current signature given.
  • Such a dynamic sliding window generation of signatures makes it possible to ensure that an updated current signature is constantly available relative to the audiovisual content that is being broadcast on a given audiovisual content source.
  • the signature generator is dedicated to the generation of signatures, and not to the generation of associated contextual contents, the complexity of the calculations performed is reduced and the reactivity of the generation of signatures is improved.
  • the current audio extracts of duration D2 can be received continuously at the end of each period of duration D2.
  • the signature generation is carried out continuously and the enrichment service is thus accessible at any time for the user.
  • the set of current contextual contents respectively associated with audiovisual content source identifiers can be received from a notification manager, the method further comprising the following steps implemented by the manager notifications:
  • broadcasting to a set of service platforms, comprising at least said first service platform, a set comprising at least the current contextual content associated with the identifier of the given audio-visual content source.
  • the detection module can store a set of contextual contents, and the method can furthermore comprise the following steps implemented by the detection module:
  • the audio-visual excerpt can be an audio extract acquired by microphone, a video extract without sound, or a video and audio extract.
  • this embodiment provides a relevant selection of contextual content.
  • the detection module is dedicated to the extraction of contextual contents, and not the generation of signatures, the complexity of the calculations performed is reduced and the responsiveness of the extraction of contextual content is improved.
  • the detection module may store a set of contextual contents in association with respective reference signatures, further comprising the following steps implemented by the detection module:
  • Such a variant makes it possible to pool the current signatures generated by the signature generator between the detection module and the broadcast manager.
  • the identifiers of the sources of audiovisual content may be ordered according to a popularity criterion and the identification of a source of audiovisual content may comprise successive comparisons between the candidate signature and the signatures stored in the order of identifiers of the audiovisual content sources associated with them respectively.
  • Such an order makes it possible to reduce, on average, the number of comparisons to be made before detecting a correspondence between the candidate signature and a stored signature, which reduces the complexity of the calculations and improves the responsiveness associated with the enrichment of broadcast audiovisual contents. .
  • the first user terminal may implement the following steps:
  • the extracted contextual content can be transmitted to the first user terminal in association with the identifier of the audiovisual content source identified, the request may furthermore comprise an identifier of the last source of audiovisual content identified and the identification of the A source of audiovisual content may include successive comparisons between the candidate signature and the stored signatures starting with the stored signature in association with the identifier of the last identified audiovisual content source.
  • the last source of audiovisual content also makes it possible to reduce, on average, the number of comparisons to be made in identifying the source of audiovisual content. Indeed, it is likely that the user has not changed the source of audiovisual content between two successive requests.
  • the identification of the source of audiovisual content may comprise successive comparisons between the candidate signature and the stored signatures, starting with the stored signature in association with the identifier of the last source of audiovisual content identified and then according to the order audiovisual content sources associated with them respectively
  • the candidate signature may have a duration less than a duration of the signatures stored in the local database.
  • this embodiment makes it possible to ensure that the candidate signature is included in one of the stored signatures, regardless of the technology for transporting the audiovisual content.
  • a second aspect of the invention relates to a computer program comprising instructions for the implementation of the method according to the first aspect of the invention, when this program is executed by a processor.
  • a third aspect of the invention relates to a service platform for enriching audiovisual content, comprising a local database storing associations between audiovisual content signatures and audiovisual content sources on the one hand and associations between sources of audiovisual content, the service platform further comprising a reception unit and a processor configured for implementing the following steps:
  • said request upon reception by the receiving unit of a user request from a first user terminal, said request comprising a candidate signature, identifying a source of audiovisual content by comparison between the candidate signature and the signatures stored in the local database ;
  • a fourth aspect of the invention relates to a system comprising a service platform according to the third aspect of the invention, a broadcast manager configured to transmit to the service platform the set of current signatures of audiovisual content respectively associated with the service identifiers. audiovisual content sources, and a notification manager configured to transmit to the service platform said least current contextual content associated with an audiovisual content source identifier.
  • FIG. 1 shows a system according to one embodiment of the invention
  • FIG. 2 is a diagram showing the steps of a method according to one embodiment of the invention.
  • Figure 3 shows a service platform according to one embodiment of the invention
  • FIG. 4 shows a broadcast manager according to one embodiment of the invention
  • FIG. 5 illustrates a notification manager according to one embodiment of the invention
  • FIG. 6 presents a first user terminal according to one embodiment of the invention
  • FIG. 7 illustrates a signature generator according to one embodiment of the invention
  • FIG. 8 shows a detection module according to one embodiment of the invention.
  • FIG. 9 illustrates the generation of a current signature and a candidate signature as a function of time, according to certain embodiments of the invention.
  • Figure 1 shows a system according to one embodiment of the invention.
  • the system comprises a first user terminal 10 and a second user terminal 11.
  • the first user terminal 10 may be a smartphone-type mobile phone, a laptop, a desktop computer, a tablet touch, or more generally any user terminal allowing access to a network, such as an Internet type network for example.
  • the first user terminal 10 can access an access point 12 via a wired interface (Ethernet cable for example) or wireless (Wi-fi, Bluetooth, etc.).
  • the first user terminal 10 is able to acquire audio data (audio content) from the second user terminal 11.
  • the first user terminal 10 may be equipped with at least one microphone. This audio data can be acquired continuously, or over a period of time, on activation of the user for example, via the use of a user interface (touch screen, keyboard, mouse, etc.).
  • the second user terminal 11 may be a terminal capable of receiving audiovisual contents from one or more sources of audiovisual content (television channels, radio stations, Netflix-type Internet channels, for example) and reproducing at least the audio component of the contents. audiovisual.
  • the second user terminal 1 1 may be a TV or a laptop or desktop.
  • the example of a television receiving television channels is considered for illustrative purposes.
  • the first user terminal is able to acquire audio content reproduced by the TV 1 1 (from the audiovisual content received on the current television channel) and to generate a candidate signature based on the audio content.
  • signature refers to any set of characteristics determined from audio content. The determination of such signatures is well known and is not described in more detail in the following.
  • the candidate signature may have a duration D3 equal to, for example, 10 seconds.
  • the first user terminal 10 may for example generate a signature of 10 seconds every 10 seconds, and transmitting each time the generated signature to a first service platform 13.1 via the access point 12, as detailed in the following.
  • Candidate signature generation variants are described in the following.
  • a plurality of service platforms 13.1, 13.2 ... 13.n, including the first service platform 13.1 is included in the system according to the invention.
  • Each of the service platforms may for example cover a geographical area of its own, or may be dedicated to a group of users of its own.
  • Each service platform 13.1 -13. n is able to access, via an Internet-type network for example, to a broadcast manager 14 connected to a signature generator 15 and to a notification manager 16 connected to a detection module 17.
  • Each service platform 13.1 -13. n may include a local database storing associations between audiovisual content signatures and audiovisual content sources on the one hand and associations between audiovisual content sources and contextual content on the other hand. These associations will be better understood from the description below.
  • the signature generator 15 is able to generate audio signatures in association with sources of audiovisual content in parallel.
  • a signature generator can be used for each television channel.
  • each television channel (more generally each source of audiovisual content) is identified by an identifier.
  • the signature generator 15 thus stores a current signature of a duration D1, D1 being for example equal to 30 seconds, in association with each television channel identifier.
  • the current signature of duration D1 associated with the identifier of a given television channel is thus representative of the last period of duration D1 of the audio stream broadcast on the given television channel.
  • the signature generator 15 can receive in parallel the audio streams coming from all the television channels, and continuously extract a current audio extract (the last period of duration D2 of the audio stream) in order to generate continuously (all periods D2) signature extracts of duration D2, from the current audio extract of duration D2 of the audio stream, D2 may be equal to one second for example.
  • Each current audio extract (and the corresponding signature extract) is associated with the television channel identifier from which it is derived. Then, for each given current signature, the current signature given is updated by deleting a final period of duration D2 of the given current signature and adding, at the beginning of the given current signature, the generated signature extract corresponding to the current signature.
  • current audio extract associated with the same TV channel identifier as the current signature given.
  • the current signatures are updated by sliding window, which makes it possible to maintain with high granularity (for example 1 second) signatures representative of the last period of duration D1 (for example 30 seconds) broadcast on each television channel. .
  • the set of current signatures thus updated is then transmitted, preferably at the end of each period of duration D2 (every second for example) to the broadcast manager 14.
  • the broadcast manager 14, preferably to the after each period of duration D2, can thus broadcast to all service platforms 13.1 -13.
  • the set of current signatures so that they store the set of current signatures. No restriction is attached to the distribution of the set of current signatures (of the "multicast” or "broadcast” type for example).
  • the broadcast manager 14 may further be in charge of managing the number of authorized user connections per service platform 13.1 - 13.n.
  • each service platform 13.1 -13. n can update its local database by modifying the stored signatures based on the received current signatures. For example, previously stored signatures are all deleted and replaced by the current signatures received.
  • the service platform may store the last N signatures associated with a given TV channel identifier, where N is an integer greater than 1.
  • N is an integer greater than 1.
  • Contextual content means any information, any data, of any format whatsoever (audio, text, URL link, video, photo) related to a main content (audiovisual content broadcast on television channels).
  • a main content audiovisual content broadcast on television channels.
  • contextual content related to the advertisement may be a URL link allowing a redirection to the merchant site to buy the product.
  • contextual content related to the film may be a subtitle file, a summary of the film, a URL link to an article criticizing the film, a video summarizing the film, a photo of the movie poster, etc.
  • the detection module 17 is able, upon acquisition of an audiovisual extract of a stream broadcast by a given television channel, to identify audiovisual content being broadcast and to extract contextual content related to the audiovisual content. currently being broadcast.
  • the audio-visual clip may be an audio clip, a video clip, or an excerpt that includes video data and audio data.
  • the audiovisual extract comprises at least video data, which facilitates the identification of the audiovisual content being broadcast.
  • Video and / or audio identification algorithms are well known and are not detailed in what follows.
  • audiovisual content such as a movie may be associated with director, actor, or other metadata, and all contextual content associated with the same metadata (or some of that metadata) may be retrieved. , or one of them can be selected.
  • the detection module 17 When current contextual content is extracted according to the audiovisual content being broadcast on the given television channel, the detection module 17 transmits the current contextual content in association with the identifier of the given television channel, to the notification manager 16. In addition, the detection module 17 can determine current contextual content for each of the television channels, and transmit to the notification manager 16 all of the current contextual content respectively associated with TV channel identifiers.
  • the current contextual content to be associated with a television channel identifier may be imposed by a server of the television channel (or by the server of an advertiser) able to communicate with the notification manager 16.
  • the detection module 17 is not used and the server of the television channel can instruct the notification server 17 to broadcast to the service platforms 13.1 -13.
  • n contextual content to associate with the identifier of the television channel may be imposed by a server of the television channel (or by the server of an advertiser) able to communicate with the notification manager 16.
  • the notification manager 16 may broadcast a set comprising at least the current contextual content associated with the identifier from the television channel given to service platforms 13.1 -13. not.
  • each service platform 13.1 -13. n updates its local database by modifying the contextual contents according to the set of at least one current contextual content received. For example, the last contextual content associated with the identifier of the given television channel is deleted and replaced by the current contextual content.
  • the current contextual content is also associated with a period of validity, and, at the expiration of the period of validity, each service platform 13.1 -13. n can delete the current contextual content stored in association with the identifier of the given television channel.
  • Each service platform 13.1 -13. n thus has dynamically updated associations between audiovisual content signatures and sources of audiovisual content on the one hand and between audiovisual content sources and contextual content on the other hand.
  • the user terminal 10 can transmit to the first service platform 13.1 a request comprising the candidate signature.
  • the sending of the request, and the preliminary determination of the candidate signature, can be triggered by the launching of a dedicated application on the first user terminal 10.
  • the service platform 13.1 On receiving the request comprising the candidate signature, the service platform 13.1 compares the candidate signature (of duration D3) with the signatures stored in its local database (of duration D1 greater than D3). In the case where a match is detected between the candidate signature and a given stored signature, the associated audiovisual content source in the local database at the given stored signature is identified. The contextual content associated with the source of audiovisual content identified is thus extracted from the local database by the service platform 13.1 and transmitted to the first user terminal 10.
  • the user thus has on his first user terminal 10 contextual content enriching the audiovisual content displayed on the second user terminal 11.
  • the duration D1 is preferably greater than D3. Indeed, depending on the technology of transport of the audiovisual stream displayed on the second User terminal 1 1, the transport time varies (for example terrestrial broadcasting and satellite broadcasting involves different transport times). In order to ensure that, whatever the transport technology used for the audiovisual stream, the candidate signature can be included in one of the signatures stored in the local database of the service platform 13.1, the duration D1 is longer. large than D3 (for example a multiple of D3).
  • the candidate signature generated by the first user terminal 10 can be updated at the end of each period D2 (every second for example, or at the same frequency as the update of the signatures in the signature generator 15).
  • the first user terminal 10 can acquire every second an audio extract from the second user terminal 1 1 and determine a signature extract on this basis.
  • the last generated candidate signature is then modified by deleting the final period of duration D2 of the signature (the oldest second) and inserting the signature extract at the beginning of the candidate signature. This makes it possible to ensure that the candidate signature of duration D3 (which can be 10 seconds as detailed above) is dynamically updated at each period D2.
  • the candidate signature thus updated can be transmitted to the service platform every m * D2 periods, where m is an integer greater than or equal to 1.
  • the sending of each request comprising the updated candidate signature is at the initiative of the user.
  • Figure 2 is an exchange diagram illustrating the steps implemented by the entities of the system.
  • the signature generator 15 acquires a current audio extract of duration D2 for each audiovisual content source identifier.
  • the signature generator generates for each current audio extract a signature extract of duration D2.
  • the signature generator 15 can update the current signature given by deleting a final period of duration D2 of the given current signature and adding at the beginning of the given current signature the signature extract of duration D2 corresponding to the current audio extract associated with the same audiovisual content source identifier as said given current signature.
  • the signature generator delays for a period D2 before executing steps 200 to 202 again.
  • the signature generator transmits to the broadcast manager 14 the set of current signatures of audiovisual contents respectively associated with the identifiers of audiovisual content sources.
  • the set of current signatures respectively associated with the identifiers of audiovisual content sources can also be transmitted to the detection module 17.
  • the broadcast manager 14 can check the availability of the service platforms 13.1 -13. not.
  • the broadcast manager 14 broadcasts to all of the service platforms 13.1 -13. n (or at least at the first service platform 13.1) the set of current signatures of audiovisual content respectively associated with the identifiers of audiovisual content sources.
  • the service platform 13.1 updates its local database by modifying the stored signatures according to the signatures. received, as detailed above.
  • the detection module 17 acquires an audiovisual extract corresponding to at least the given audiovisual content source (see description below). before, with reference to Figure 1).
  • the detection module 17 extracts a current contextual content from the set of contextual contents stored in the detection module 17, as a function of the audio-visual extract corresponding to the given audio-visual content source. 7
  • step 209 can be implemented by considering each current signature as a candidate signature for a search in a database of reference signatures associated with contextual contents. In this case, the preliminary step 208 is not implemented.
  • This embodiment makes it possible to pool the current signatures generated by the signature generator 15 between the detection module 17 and the broadcast manager 14.
  • the detection module 17 transmits to the notification manager 16 a set comprising at least the current contextual content in association with the identifier of the given audio-visual content source.
  • the detection module can delay during a period D4, before repeating steps 208 to 210.
  • the notification manager 16 stores the set comprising at least the current contextual content in association with the identifier of the given audiovisual content source, received from the detection module 17.
  • the notification manager 16 can receive directly from a server of a television channel contextual content to associate with an identifier of the television channel.
  • the notification manager 16 broadcasts to the set of service platforms 13.1 -13. n (or at least at the first service platform 13.1) a set comprising at least the current contextual content associated with the given audiovisual content source identifier.
  • a step 214 upon reception of the set comprising at least the current contextual content associated with an audiovisual content source identifier, update of the local database by modifying the contextual contents as a function of the set comprising the less current contextual content.
  • an application is launched at an optional step 215 on the first user terminal 10, the application being dedicated to the contextual enrichment according to the invention .
  • the first user terminal 10 can acquire, by a microphone, audio content from the second user terminal 11.
  • the audio content may be content of duration D3 for generating a candidate signature, or content of duration D2 for updating a previously generated candidate signature.
  • a candidate signature is generated according to the audio content acquired by the first user terminal 10.
  • a request comprising the candidate signature is generated by the first user terminal 10.
  • the generated request is transmitted to the first service platform 13.1 by the first user terminal 10.
  • the first user terminal 10 can delay during a period D2 before repeating the steps 216 and 217 making it possible to generate a new candidate signature.
  • a request is not necessarily generated, as described above, since the transmission of a request may occur preferentially for all m * D2 periods, where m is an integer.
  • the first service platform 13.1 On receiving the user request from the first user terminal 20, the first service platform 13.1 identifies, at a step 221, a source of audiovisual content by comparison between the candidate signature and the signatures stored in the local database.
  • the first service platform 13.1 extracts from its local database the contextual content associated with the source of audiovisual content identified.
  • the extracted contextual content is transmitted to the first user terminal 10, which thus has a contextual content enabling the enrichment of the audiovisual content displayed on the second user terminal 11.
  • the contextual content may be transmitted with the identifier of the audiovisual content source identified. So the first user terminal 10 also has the identifier of the audiovisual content source that broadcasts the audiovisual content displayed on the second user terminal 11, and can integrate this identifier when transmitting a new request.
  • This enables the first service platform 13.1, during the signature comparison step 221, to start by comparing the candidate signature with the stored signature in association with the audiovisual content source identified in the request. Indeed, the probability that the user has not changed the source is high, and software resources of the service platform are thus saved (the average number of comparisons to be performed is reduced).
  • the identifiers of the audiovisual content sources are ordered in the service platforms 13.1 -13. n according to a popularity criterion (from the most consulted to the least consulted). There are no restrictions on the popularity criteria: for example, it may be the number of views of the source of audiovisual content for a given time slot, or a ranking by the user himself.
  • the identification of a source of audiovisual content comprises successive comparisons between the candidate signature and the stored signatures according to the order of the identifiers of the audiovisual content sources which are respectively associated with the audiovisual content sources. signatures.
  • the popularity criterion can moreover be used in combination with the audiovisual content source identifier inserted into the user's request: the identification of the audiovisual content source comprises successive comparisons between the candidate signature and the stored signatures starting with the stored signature in association with the identifier of the last source of audiovisual content identified in the request, then according to the order of the audiovisual content source identifiers that are respectively associated with the signatures.
  • FIG. 3 illustrates a first service platform 13.1 according to one embodiment of the invention.
  • the first service platform 13.1 includes a RAM 303 and a processor 302 for storing instructions for implementing steps 207, 214, 221, 222 and 223 of the method described above.
  • the service platform 13.1 may further include a local database 304 for storing the associations between audiovisual content signatures and audiovisual content sources on the one hand and the associations between audiovisual content sources and contextual content of somewhere else.
  • the first service platform 13.1 also comprises an input interface 301 intended to receive the set of current signatures of audiovisual contents respectively associated with audio-visual content source identifiers of the broadcast manager 14, the set of at least current contextual content associated with an audiovisual content source identifier of the notification manager 16 and the request of the first device of the user.
  • the first service platform 13.1 also comprises an output interface 305 able to transmit to the first user terminal 10 the contextual content extracted from the local database 304.
  • FIG. 4 illustrates a broadcast manager 14 according to one embodiment of the invention.
  • the broadcast manager 14 comprises a random access memory 403 and a processor 402 for storing instructions enabling the implementation of step 205 of the method described above.
  • the broadcast manager 14 may further include a local database 404 for storing the associations between current audiovisual content signatures and audiovisual content sources.
  • the broadcast manager 14 further comprises an input interface 401 intended to receive the set of current signatures of audiovisual contents respectively associated with audio-visual content source identifiers of the signature generator 15 and an output interface 405 able to broadcast to service platforms 13.1 -13. n the set of current signatures of audiovisual contents respectively associated with identifiers of audiovisual content sources.
  • Figure 5 illustrates a notification manager 16 according to an embodiment of the invention.
  • the notification manager 16 comprises a random access memory 503 and a processor 502 for storing instructions enabling the implementation of step 212 of the method described above.
  • the notification manager 16 may further include a local database 504 for storing associations between audiovisual content sources and contextual contents.
  • the notification manager 16 furthermore comprises an input interface 501 intended to receive the set of contextual contents respectively associated with audio-visual content source identifiers of the detection module 17 (or directly from a television channel server or from the an advertiser's server) and a 505 output interface capable of broadcasting to the service platforms 13.1 -13. n the set of contextual contents respectively associated with audiovisual content source identifiers.
  • FIG. 6 illustrates a first user terminal 10 according to one embodiment of the invention.
  • the first user terminal 10 comprises a random access memory 604 and a processor 603 for storing instructions for carrying out the steps 215, 216, 217, 218 and 220 of the method described above.
  • the first user terminal 10 may further include a local database 606 for storing the identifier of the last source of audiovisual content received from the first service platform 13.1 and for storing the generated candidate signatures.
  • the local database 606 can also store the application dedicated to the enrichment of audiovisual content according to the invention.
  • the first user terminal 10 further comprises a microphone 601 for acquiring audio content from the second user terminal 10 and a user interface 602 for receiving commands from the user (launching the dedicated application, reading the received contextual content, etc. ).
  • the audio content may be from an audio stream acquired directly by wire from the second user terminal 20 (DLNA feature for example), and in this case, the microphone 601 is optional.
  • the first user terminal 10 further includes a screen 605 for displaying a visual component of the contextual content and a speaker 608 for rendering the audio component of the contextual content.
  • the first user terminal 10 further comprises an input interface 601 intended to receive the contextual content, optionally accompanied by the identifier of the source of audiovisual content given, from the first service platform 13.1, and an output interface 607 capable of transmit the generated request to the first service platform 13.1.
  • Figure 7 illustrates a signature generator 15 according to one embodiment of the invention.
  • the signature generator 15 comprises a random access memory 703 and a processor 702 for storing instructions enabling the implementation of steps 200 to 203 of the method described above.
  • the signature generator 15 may further include a local database 704 for storing the current audiovisual content signatures in association with the audiovisual content sources.
  • the signature generator 15 furthermore comprises an input interface 501 intended to receive the audiovisual streams of the various audio-visual content sources and an output interface 705 capable of transmitting to the broadcast manager 14 (and optionally to the detection module 1 7) the associations between current signatures and identifiers of audiovisual content sources.
  • FIG. 8 illustrates a detection module 17 according to one embodiment of the invention.
  • the detection module 17 comprises a random access memory 803 and a processor 802 for storing instructions for carrying out the steps 208, 209 and 21 1 of the method described above.
  • the detection module 17 may further include a local database 804 for storing the contextual contents for extracting current contextual content.
  • each contextual content is associated with a reference signature
  • the processor 802 is able to search the current signatures received from the signature generator 15, among the reference signatures, in order to extract contextual content to be associated with a channel identifier.
  • the detection module 17 furthermore comprises an interface 801 that can be a module for acquiring an audiovisual extract (camera, microphone, for example) or that can be a network interface capable of receiving the current signatures and the identifiers of content sources.
  • the detection module includes an output interface 805 capable of transmitting to the notification manager 16 the set of at least one current contextual content associated with the identifier of the given audio-visual content source.
  • FIG. 9 illustrates the generation of a current signature 900 and a candidate signature 903 as a function of time, according to some embodiments of the invention.
  • the signature generator 15 has a current signature 900 which has been transmitted to the service platforms 13.1 -13. not.
  • the current signature 900 has a duration D1, which can be equal to 30 seconds for example.
  • a current audio extract is received with an audiovisual content source identifier and the signature generator generates a signature extract 901 of duration D2.
  • the current signature 900 is thus updated by erasing a final period 902 of duration D2 and adding to the top of the current signature (between ti and t 2) given to extract a signature 901 of length D2.
  • the duration D2 may be equal to one second.
  • the first service platform 13.1 can receive a candidate signature 903 of duration D3 of the first user terminal 10.
  • the duration D3 may be equal to 10 seconds.
  • the current signature received at the instant ti may have a delay ⁇ indicating that the candidate signature 903 corresponds to an audio extract of the stream retarded delay ⁇ compared to current signatures 900.
  • the fact of having a duration D1 that is substantially greater (for example a multiple) than the duration D3 allows a comparison to be made between the candidate signature 903 and the current signatures 900 whatever the delay ⁇ between 0 and (D1-D3).
  • the candidate signature 903 can be updated in the same way as the current signatures 900.

Abstract

Enrichissement contextuel par reconnaissance audio L'invention concerne un procédé d'enrichissement d'un contenu audiovisuel, une plateforme de service comprenant une base de données locale stockant des associations entre des signatures de contenu audiovisuel et des sources de contenu audiovisuel et des associations entre des sources de contenu audiovisuel et des contenus contextuels: sur réception d'un ensemble de signatures courantes de contenus audiovisuels, mise à jour(207)de la base de données locale par modification des signatures stockées en fonction des signatures courantes reçues; sur réception d'un ensemble d'au moins un contenu contextuel courant, mise à jour(214)de la base de données locale par modification des contenus contextuels en fonction de l'ensemble d'au moins un contenu contextuel courant; sur réception d'une requête d'un premier terminal utilisateur comprenant une signature candidate, identification (221) d'une source de contenu audiovisuel par comparaison entre la signature candidate et les signatures stockées dans la base de données locale; extraction(222)de la base de données locale d'un contenu contextuel associé à la source de contenu audiovisuel identifiée; transmission(223)au premier terminal utilisateur du contenu contextuel extrait.

Description

Enrichissement contextuel par reconnaissance audio
La présente invention concerne le domaine de l'enrichissement contextuel de contenus audiovisuels, et en particulier, mais non exclusivement, de contenus diffusés par des chaînes de télévision.
Elle concerne plus précisément l'enrichissement contextuel mettant en œuvre une reconnaissance auditive des contenus audiovisuels affichés sur un dispositif de rendu d'utilisateur (un téléviseur par exemple), par un terminal utilisateur (tel qu'un téléphone intelligent ou « Smartphone » par exemple) sans requérir de connexion entre le dispositif et le terminal.
Des techniques de reconnaissance auditive sont connues dans le but de reconnaître des extraits de contenus audio tels que des pistes musicales. L'enrichissement consiste alors, après reconnaissance de l'extrait par utilisation d'une base de données stockant l'ensemble des pistes musicales (ou des signatures de celles-ci) reconnaissables par le service, à retourner à l'utilisateur le nom de l'artiste, de la piste musicale, et éventuellement de l'album dont elle est extraite.
Toutefois, des telles techniques sont uniquement utilisables pour un ensemble de contenus statiques, sans prévoir de mise à jour dynamique de la base de données. Ces techniques ne sont ainsi aucunement transposables à l'enrichissement de contenus diffusés en direct tel que des programmes de télévision.
La présente invention vient améliorer la situation.
Un premier aspect de l'invention concerne un procédé d'enrichissement d'un contenu audiovisuel, le procédé comprenant les étapes suivantes mises en œuvre dans une première plateforme de service, la plateforme de service comprenant une base de données locale stockant des associations entre des signatures de contenu audiovisuel et des sources de contenu audiovisuel d'une part et des associations entre des sources de contenu audiovisuel et des contenus contextuels d'autre part :
sur réception d'un ensemble de signatures courantes de contenus audiovisuels respectivement associés à des identifiants de sources de contenu audiovisuel, mise à jour de la base de données locale par modification des signatures stockées en fonction des signatures courantes reçues ;
sur réception d'un ensemble d'au moins un contenu contextuel courant associé à un identifiant de source de contenu audiovisuel, mise à jour de la base de données locale par modification des contenus contextuels en fonction de l'ensemble d'au moins un contenu contextuel courant;
sur réception d'une requête d'utilisateur depuis un premier terminal utilisateur, la requête comprenant une signature candidate, identifier une source de contenu audiovisuel par comparaison entre la signature candidate et les signatures stockées dans la base de données locale ;
extraction de la base de données locale d'un contenu contextuel associé à la source de contenu audiovisuel identifiée ;
transmission au premier terminal utilisateur du contenu contextuel extrait.
Ainsi, la présente invention prévoit une mise à jour dynamique à la fois de contenus contextuels enrichissant les contenus audiovisuels diffusés et à la fois des signatures permettant la reconnaissance d'un contenu audiovisuel en cours de diffusion. Ceci permet d'appliquer l'enrichissement à n'importe quel contenu diffusé, même lorsqu'il n'est pas connu à l'avance (comme ce peut être le cas lors de la diffusion d'émissions de télévision). Aucune restriction n'est attachée au contenu audiovisuel considéré qui peut être un film, une émission de télévision, une émission de radio, un vidéoclip, une publicité, etc. Aucune restriction n'est non plus attachée à la source de contenu audiovisuel qui peut être une chaîne de télévision, une chaîne sur internet, une station radio, etc.
Le contenu contextuel est toute donnée informative relative au contenu audiovisuel, et peut couvrir toute donnée textuelle, audio, vidéo, photo, etc.
Dans un mode de réalisation, l'ensemble de signatures courantes de contenus audiovisuels respectivement associés aux identifiants de sources audiovisuelles peut être reçu depuis un gestionnaire de diffusion et le procédé peut comprendre en outre les étapes suivantes mises en œuvre par le gestionnaire de diffusion :
- réception depuis un générateur de signature de l'ensemble de signatures courantes de contenus audiovisuels respectivement associés aux identifiants de sources de contenu audiovisuel ; - diffusion à un ensemble de plateformes de service, comprenant au moins la première plateforme de service, de l'ensemble de signatures courantes de contenus audiovisuels respectivement associés aux identifiants de sources de contenu audiovisuel.
La génération et la diffusion des signatures courantes sont ainsi centralisées ce qui permet de réduire la complexité et les ressources logicielles des plateformes de service. La réactivité des plateformes de service pour comparer les signatures et extraire un contenu contextuel est ainsi améliorée.
En complément, les signatures courantes peuvent avoir une durée D1 , le générateur de signature peut stocker l'ensemble de signatures courantes de contenus audiovisuels respectivement associés aux identifiants de sources de contenu audiovisuel, et le procédé peut comprendre en outre les étapes suivantes mises en œuvre par le générateur de signature :
- réception d'extraits audio courants de durée D2 ;
- association de chacun des extraits audio courants avec un identifiant de source de contenu audiovisuel ;
- génération, pour chaque extrait audio courant, d'un extrait de signature de durée D2 ;
- pour chaque signature courante donnée, mise à jour de la signature courante donnée en effaçant une période finale de durée D2 de la signature courante donnée et en ajoutant au début de la signature courante donnée l'extrait de signature de durée D2 correspondant à l'extrait audio courant associé au même identifiant de source de contenu audiovisuel que la signature courante donnée.
Une telle génération dynamique par fenêtre glissante de signatures permet d'assurer d'avoir en permanence une signature courante mise à jour relativement au contenu audiovisuel qui est en cours de diffusion sur une source de contenu audiovisuel donnée. En outre, le générateur de signature étant dédié à la génération de signatures, et non pas à la génération des contenus contextuels associés, la complexité des calculs effectués est réduite et la réactivité de la génération des signatures est améliorée.
En complément, les extraits audio courants de durée D2 peuvent être reçus en continu à l'issue de chaque période de durée D2. La génération de signature est effectuée en continu et le service d'enrichissement est ainsi accessible à n'importe quel moment pour l'utilisateur.
Selon un mode de réalisation de l'invention, l'ensemble de contenus contextuels courants respectivement associés à des identifiants de sources de contenu audiovisuel peut être reçu depuis un gestionnaire de notifications, le procédé comprenant en outre les étapes suivantes mises en œuvre par le gestionnaire de notifications :
- réception depuis un module de détection de l'ensemble d'au moins un contenu contextuel courant associé à un identifiant de source de contenu audiovisuel donnée;
- diffusion à un ensemble de plateformes de service, comprenant au moins ladite première plateforme de service, d'un ensemble comprenant au moins le contenu contextuel courant associé à l'identifiant de la source de contenu audiovisuel donnée.
Ainsi, la sélection et la diffusion des contenus contextuels sont centralisées ce qui permet de réduire la complexité et les ressources logicielles des plateformes de service. La réactivité des plateformes de service pour comparer les signatures et extraire un contenu contextuel est ainsi améliorée.
En complément, le module de détection peut stocker un ensemble de contenus contextuels, et le procédé peut comprendre en outre les étapes suivantes mises en œuvre par le module de détection :
- acquisition d'un extrait audiovisuel correspondant à au moins la source de contenu audiovisuel donnée ;
- extraction d'un contenu contextuel courant parmi l'ensemble de contenus contextuels stockés, en fonction de l'extrait audio correspondant à la source de contenu audiovisuel donnée ;
- transmission d'un ensemble comprenant au moins le contenu contextuel courant en association avec l'identifiant de la source de contenu audiovisuel donné, au gestionnaire de notifications.
L'extrait audiovisuel peut être un extrait audio acquis par microphone, un extrait vidéo sans son, ou un extrait vidéo et audio. Ainsi, ce mode de réalisation assure une sélection pertinente de contenus contextuels. En outre, le module de détection étant dédié à l'extraction de contenus contextuels, et non pas à la génération des signatures, la complexité des calculs effectués est réduite et la réactivité de l'extraction de contenus contextuels est améliorée.
En variante, le module de détection peut stocker un ensemble de contenus contextuels en association avec des signatures de référence respectives, comprenant en outre les étapes suivantes mises en œuvre par le module de détection :
- réception de l'ensemble de signatures courantes de contenus audiovisuels respectivement associés à des identifiants de sources de contenu audiovisuel ;
- comparaison de la signature courante associée à l'identifiant de la source de contenu audiovisuel donné, avec les signatures de référence, afin d'extraire un contenu contextuel courant ;
- transmission d'un ensemble comprenant au moins le contenu contextuel courant en association avec l'identifiant de la source de contenu audiovisuel donné, au gestionnaire de notifications.
Une telle variante permet de mutualiser les signatures courantes générées par le générateur de signature, entre le module de détection et le gestionnaire de diffusion.
Dans un mode de réalisation, les identifiants des sources de contenu audiovisuel peuvent être ordonnés selon un critère de popularité et l'identification d'une source de contenu audiovisuel peut comprendre des comparaisons successives entre la signature candidate et les signatures stockées selon l'ordre des identifiants des sources de contenu audiovisuel qui leur sont respectivement associées.
Un tel ordre permet de réduire, en moyenne, le nombre de comparaisons à effectuer avant de détecter une correspondance entre la signature candidate et une signature stockée, ce qui réduit la complexité des calculs et améliore la réactivité associée à l'enrichissement de contenus audiovisuels diffusés.
Dans un mode de réalisation, le premier terminal utilisateur peut mettre en œuvre les étapes suivantes :
acquisition d'un contenu audio issu d'un deuxième terminal utilisateur ;
génération de la signature candidate en fonction du contenu audio acquis ;
génération d'une requête comprenant la signature candidate.
En complément, le contenu contextuel extrait peut être transmis au premier terminal utilisateur en association avec l'identifiant de la source de contenu audiovisuel identifiée, la requête peut comprendre en outre un identifiant de la dernière source de contenu audiovisuel identifiée et l'identification de la source de contenu audiovisuel peut comprendre des comparaisons successives entre la signature candidate et les signatures stockées en commençant par la signature stockée en association avec l'identifiant de la dernière source de contenu audiovisuel identifiée.
La prise en compte de la dernière source de contenu audiovisuel permet également de réduire, en moyenne, le nombre de comparaisons à effectuer dans l'identification de la source de contenu audiovisuel. En effet, il est probable que l'utilisateur n'ait pas changé la source de contenu audiovisuel entre deux requêtes successives.
En complément, l'identification de la source de contenu audiovisuel peut comprendre des comparaisons successives entre la signature candidate et les signatures stockées en commençant par la signature stockée en association avec l'identifiant de la dernière source de contenu audiovisuel identifiée puis selon l'ordre des sources de contenu audiovisuel qui leur sont respectivement associées
La combinaison de ces deux critères permet également la réduction du nombre moyen de comparaisons à effectuer dans l'identification de la source de contenu audiovisuel.
Dans un mode de réalisation de l'invention, la signature candidate peut avoir une durée inférieure à une durée des signatures stockées dans la base de données locale.
Comme expliqué dans la description qui va suivre, ce mode de réalisation permet d'assurer que la signature candidate est comprise dans l'une des signatures stockées, et ce quel que soit la technologie de transport du contenu audiovisuel.
Un deuxième aspect de l'invention concerne un programme d'ordinateur comportant des instructions pour la mise en œuvre du procédé selon le premier aspect de l'invention, lorsque ce programme est exécuté par un processeur.
Un troisième aspect de l'invention concerne une plateforme de service pour l'enrichissement d'un contenu audiovisuel, comprenant une base de données locale stockant des associations entre des signatures de contenu audiovisuel et des sources de contenu audiovisuel d'une part et des associations entre des sources de contenu audiovisuel, la plateforme de service comprenant en outre une unité de réception et un processeur configuré pour la mise en œuvre des étapes suivantes :
sur réception par l'unité de réception d'un ensemble de signatures courantes de contenus audiovisuels respectivement associés à des identifiants de sources de contenu audiovisuel, mise à jour de la base de données locale par modification des signatures stockées en fonction des signatures courantes reçues ;
sur réception par l'unité de réception d'un ensemble d'au moins un contenu contextuel courant associé à un identifiant de source de contenu audiovisuel, mise à jour de la base de données locale par modification des contenus contextuels en fonction de l'ensemble d'au moins un contenu contextuel courant;
sur réception par l'unité de réception d'une requête d'utilisateur depuis un premier terminal utilisateur, ladite requête comprenant une signature candidate, identifier une source de contenu audiovisuel par comparaison entre la signature candidate et les signatures stockées dans la base de données locale ;
extraction de la base de données locale d'un contenu contextuel associé à la source de contenu audiovisuel identifiée ;
transmission au premier terminal utilisateur du contenu contextuel extrait.
Un quatrième aspect de l'invention concerne un système comprenant une plateforme de service selon le troisième aspect de l'invention, un gestionnaire de diffusion configuré pour transmettre à la plateforme de service l'ensemble de signatures courantes de contenus audiovisuels respectivement associés aux identifiants de sources de contenu audiovisuel, et un gestionnaire de notifications configuré pour transmettre à la plateforme de service ledit au moins un contenu contextuel courant associé à un identifiant de source de contenu audiovisuel.
D'autres caractéristiques et avantages de l'invention apparaîtront à l'examen de la description détaillée ci-après, et des dessins annexés sur lesquels:
• la figure 1 présente un système selon un mode de réalisation de l'invention;
• la figure 2 est un diagramme représentant les étapes d'un procédé selon un mode de réalisation de l'invention ;
• la figure 3 présente une plateforme de service selon un mode de réalisation de l'invention ;
• la figure 4 présente un gestionnaire de diffusion selon un mode de réalisation de l'invention ;
· la figure 5 illustre un gestionnaire de notifications selon un mode de réalisation de l'invention ;
• la figure 6 présente un premier terminal utilisateur selon un mode de réalisation de l'invention ;
• la figure 7 illustre un générateur de signature selon un mode de réalisation de l'invention ;
• la figure 8 présente un module de détection selon un mode de réalisation de l'invention ;
• la figure 9 illustre la génération d'une signature courante et d'une signature candidate en fonction du temps, selon certains modes de réalisation de l'invention.
La figure 1 présente un système selon un mode de réalisation de l'invention.
Le système comprend un premier terminal utilisateur 10 et un deuxième terminal utilisateur 1 1 .
Le premier terminal utilisateur 10 peut être un téléphone portable de type Smartphone, un ordinateur portable, un ordinateur de bureau, une tablette tactile, ou plus généralement tout terminal utilisateur permettant l'accès à un réseau, tel qu'un réseau de type internet par exemple. A cet effet, le premier terminal utilisateur 10 peut accéder à un point d'accès 12 via une interface filaire (câble Ethernet par exemple) ou sans fil (Wi-fi, Bluetooth, etc). En outre, le premier terminal utilisateur 10 est apte à acquérir des données audio (un contenu audio) issues du deuxième terminal utilisateur 1 1 . A cet effet, le premier terminal utilisateur 10 peut être équipé d'au moins un microphone. Ces données audio peuvent être acquises en continu, ou sur une période donnée, sur activation de l'utilisateur par exemple, via l'utilisation d'une interface utilisateur (écran tactile, clavier, souris, etc).
Le deuxième terminal utilisateur 1 1 peut être un terminal apte à recevoir des contenus audiovisuels depuis une ou plusieurs sources de contenu audiovisuelle (chaînes de télévision, stations radio, chaînes Internet de type Youtube par exemple) et à reproduire au moins la composante audio des contenus audiovisuels. A cet effet, le deuxième terminal utilisateur 1 1 peut être un téléviseur ou encore un ordinateur portable ou de bureau. Dans ce qui suit, l'exemple d'un téléviseur recevant des chaînes de télévision est considéré à titre illustratif.
Comme détaillé dans ce qui suit, le premier terminal utilisateur est apte à acquérir des contenus audio reproduits par le téléviseur 1 1 (à partir du contenu audiovisuel reçu sur la chaîne de télévision courante) et à générer une signature candidate sur la base du contenu audio. On appelle « signature » tout ensemble de caractéristiques déterminé à partir d'un contenu audio. La détermination de telles signatures est bien connue et n'est pas décrit plus en détails dans ce qui suit.
La signature candidate peut avoir une durée D3, égale par exemple à 10 secondes. Le premier terminal utilisateur 10 peut par exemple générer une signature de 10 secondes toutes les 10 secondes, et transmettant à chaque fois la signature générée à une première plateforme de service 13.1 via le point d'accès 12, comme détaillé dans ce qui suit. Des variantes de génération de signatures candidates sont décrites dans ce qui suit.
Une pluralité de plateformes de service 13.1 , 13.2 ... 13.n, comprenant la première plateforme de service 13.1 est comprise dans le système selon l'invention. Chacune des plateformes de service peut par exemple couvrir une zone géographique qui lui est propre, ou peut être dédiée à un groupe d'utilisateurs qui lui est propre.
Chaque plateforme de service 13.1 -13. n est apte à accéder, via un réseau de type internet par exemple, à un gestionnaire de diffusion 14 relié à un générateur de signature 15 et à un gestionnaire de notification 16 relié à un module de détection 17.
Chaque plateforme de service 13.1 -13. n peut comprendre une base de données locale stockant des associations entre des signatures de contenu audiovisuel et des sources de contenu audiovisuel d'une part et des associations entre des sources de contenu audiovisuel et des contenus contextuels d'autre part. Ces associations seront mieux comprises au vu de la description ci-après.
Le générateur de signature 15 est apte à générer des signatures audio en association avec des sources de contenu audiovisuel en parallèle. De manière alternative un générateur de signature peut être utilisé pour chaque chaîne de télévision. A cet effet, chaque chaîne de télévision (plus généralement chaque source de contenu audiovisuel) est identifiée par un identifiant.
Le générateur de signature 15 stocke ainsi une signature courante d'une durée D1 , D1 étant par exemple égal à 30 secondes, en association avec chaque identifiant de chaîne de télévision.
La signature courante de durée D1 associée à l'identifiant d'une chaîne de télévision donnée est ainsi représentative de la dernière période de durée D1 du flux audio diffusé sur la chaîne de télévision donnée.
Afin de mettre à jour en continu les signatures courantes stockées, le générateur de signature 15 peut recevoir en parallèle les flux audio issus de l'ensemble des chaînes de télévision, et extraire en continu un extrait audio courant (la dernière période de durée D2 du flux audio) afin de générer en continu (toutes les périodes D2) des extraits de signature de durée D2, à partir de l'extrait audio courant de durée D2 du flux audio, D2 pouvant être égal à une seconde par exemple. Chaque extrait audio courant (et l'extrait de signature correspondant) est associé à l'identifiant de chaîne de télévision dont il est issu. Ensuite, pour chaque signature courante donnée, la signature courante donnée est mise à jour en effaçant une période finale de durée D2 de la signature courante donnée et en ajoutant, au début de la signature courante donnée, l'extrait de signature généré correspondant à l'extrait audio courant associé au même identifiant de chaîne de télévision que la signature courante donnée.
Ainsi, les signatures courantes sont mises à jour par fenêtre glissante, ce qui permet de maintenir avec une granularité élevée (1 seconde par exemple) des signatures représentatives de la dernière période de durée D1 (30 seconde par exemple) diffusée sur chaque chaîne de télévision.
L'ensemble des signatures courantes ainsi mises à jour est ensuite transmis, de préférence à l'issue de chaque période de durée D2 (toutes les secondes par exemple) au gestionnaire de diffusion 14. Le gestionnaire de diffusion 14, de préférence à l'issue de chaque période de durée D2, peut ainsi diffuser à l'ensemble des plateformes de service 13.1 -13. n l'ensemble de signatures courantes, afin qu'elles stockent l'ensemble de signatures courantes. Aucune restriction n'est attachée à la diffusion de l'ensemble de signatures courantes (de type « multicast » ou « broadcast » par exemple).
La mise à jour des signatures courantes sera mieux comprise en référence à la figure 9 décrite ci-après.
Le gestionnaire de diffusion 14 peut en outre être en charge de gérer le nombre de connexions d'utilisateurs autorisé par plateforme de service 13.1 - 13.n.
Sur réception de l'ensemble de signatures courantes de contenus audiovisuels respectivement associés à des identifiants de sources de contenu audiovisuel, chaque plateforme de service 13.1 -13. n peut mettre à jour sa base de données locale par modification des signatures stockées en fonction des signatures courantes reçues. Par exemple, les signatures précédemment stockées sont toutes supprimées et remplacées par les signatures courantes reçues. En variante, la plateforme de service peut stocker les N dernières signatures associées à un identifiant de chaîne de télévision donné, N étant un entier supérieur à 1 . Ainsi, sur réception d'une signature courante depuis le générateur de signature 15, la plus ancienne signature parmi les N dernières signatures est supprimée et remplacée par la signature courante reçue.
En parallèle, le module de détection 17 stocke un ensemble de contenus contextuels. On entend par contenu contextuel toute information, toute donnée, de quelque format que ce soit (audio, texte, lien URL, vidéo, photo) ayant un lien avec un contenu principal (les contenus audiovisuels diffusés sur les chaînes de télévision). Par exemple, lorsque le contenu audiovisuel diffusé sur une chaîne de télévision est une publicité pour un produit donné, un contenu contextuel en lien avec la publicité peut être un lien URL permettant une redirection vers le site marchand permettant d'acheter le produit. En variante, lorsque le contenu audiovisuel diffusé sur une chaîne de télévision est un film, un contenu contextuel en lien avec le film peut être un fichier de sous-titres, un résumé du film, un lien URL vers un article critiquant le film, une vidéo résumant le film, une photo de l'affiche du film, etc.
Ainsi, le module de détection 17 est apte, sur acquisition d'un extrait audiovisuel d'un flux diffusé par une chaîne de télévision donnée, à identifier un contenu audiovisuel en cours de diffusion et à extraire un contenu contextuel en lien avec le contenu audiovisuel en cours de diffusion. L'extrait audiovisuel peut être un extrait audio, un extrait vidéo ou un extrait comprenant des données vidéo et des données audio. De préférence, l'extrait audiovisuel comprend au moins des données vidéo, ce qui facilite l'identification du contenu audiovisuel en cours de diffusion. Aucune restriction n'est cependant attachée à la manière d'identifier le contenu audiovisuel en cours de diffusion sur une chaîne. Des algorithmes d'identification vidéo et/ou audio sont bien connus et ne sont pas détaillés dans ce qui suit.
Aucune restriction n'est par ailleurs attachée à la manière dont un contenu contextuel courant est extrait à partir du contenu audiovisuel identifié. Par exemple, un contenu audiovisuel tel qu'un film peut être associé à des métadonnées relatives au réalisateur, à un acteur, ou autre, et tous les contenus contextuels étant associés à ces mêmes métadonnées (ou à certaines de ces métadonnées) peuvent être extraits, ou l'un d'entre eux peut être sélectionné.
Lorsqu'un contenu contextuel courant est extrait en fonction du contenu audiovisuel en cours de diffusion sur la chaîne de télévision donnée, le module de détection 17 transmet le contenu contextuel courant en association avec l'identifiant de la chaîne de télévision donnée, au gestionnaire de notifications 16. En complément, le module de détection 17 peut déterminer un contenu contextuel courant pour chacune des chaînes de télévision, et transmettre au gestionnaire de notifications 16 l'ensemble des contenus contextuels courants respectivement associés à des identifiants de chaînes de télévision.
Aucune restriction n'est attachée à la fréquence à laquelle les contenus contextuels courants sont extraits. Par exemple, sur détection d'un changement de programme sur une chaîne de télévision, il peut être choisi d'extraire un nouveau contenu contextuel courant à associer à l'identifiant de cette chaîne de télévision. En variante, des contenus contextuels courants pour l'ensemble des chaînes de télévision peuvent être extraits à une fréquence fixe (période D4, de 30 minutes par exemple).
En variante, le contenu contextuel courant à associer à un identifiant de chaîne de télévision peut être imposé par un serveur de la chaîne de télévision (ou par le serveur d'un annonceur) apte à communiquer avec le gestionnaire de notifications 16. Dans ce cas, le module de détection 17 n'est pas utilisé et le serveur de la chaîne de télévision peut ordonner au serveur de notifications 17 de diffuser aux plateformes de service 13.1 -13. n un contenu contextuel à associer à l'identifiant de la chaîne de télévision.
Sur réception du contenu contextuel courant (ou de l'ensemble de contenus contextuels courants) associé à l'identifiant de la chaîne de télévision donné, le gestionnaire de notifications 16 peut diffuser un ensemble comprenant au moins le contenu contextuel courant associé à l'identifiant de la chaîne de télévision donné aux plateformes de service 13.1 -13. n.
Ainsi, sur réception de l'ensemble d'au moins un contenu contextuel courant associé à l'identifiant de source de contenu audiovisuel donnée, chaque plateforme de service 13.1 -13. n met à jour sa base de données locale par modification des contenus contextuels en fonction de l'ensemble d'au moins un contenu contextuel courant reçu. Par exemple, le dernier contenu contextuel associé à l'identifiant de la chaîne de télévision donnée est supprimé et remplacé par le contenu contextuel courant. En variante, le contenu contextuel courant est également associé à une durée de validité, et, à l'expiration de la durée de validité, chaque plateforme de service 13.1 -13. n peut supprimer le contenu contextuel courant stocké en association avec l'identifiant de la chaîne de télévision donnée.
Chaque plateforme de service 13.1 -13. n dispose ainsi d'associations mises à jour dynamiquement entre des signatures de contenu audiovisuel et des sources de contenu audiovisuel d'une part et entre des sources de contenu audiovisuel et des contenus contextuels d'autre part.
Ces associations permettent de traiter des requêtes issues de terminaux utilisateurs en vue d'enrichir un contenu contextuel affiché (ou plus généralement rendu) sur un dispositif tel que le deuxième terminal utilisateur 1 1 .
A cet effet, le terminal utilisateur 10 peut transmettre à la première plateforme de service 13.1 une requête comprenant la signature candidate. L'envoi de la requête, et la détermination préalable de la signature candidate, peuvent être déclenchés par le lancement d'une application dédiée sur le premier terminal utilisateur 10.
Sur réception de la requête comprenant la signature candidate, la plateforme de service 13.1 compare la signature candidate (de durée D3) avec les signatures stockées dans sa base de données locale (de durée D1 supérieure à D3). Dans le cas où une correspondance est détectée entre la signature candidate et une signature stockée donnée, la source de contenu audiovisuel associée dans la base de données locale à la signature stockée donnée est identifiée. Le contenu contextuel associé à la source de contenu audiovisuel identifiée est ainsi extrait de la base de données locale par la plateforme de service 13.1 et transmis au premier terminal utilisateur 10.
L'utilisateur dispose ainsi sur son premier terminal utilisateur 10 d'un contenu contextuel enrichissant le contenu audiovisuel visualisé sur le deuxième terminal utilisateur 1 1 .
La durée D1 est de préférence supérieure à D3. En effet, en fonction de la technologie de transport du flux audiovisuel affiché sur le deuxième 5 terminal utilisateur 1 1 , le temps de transport varie (par exemple une diffusion terrestre et une diffusion par satellite implique des temps de transport différent). Afin d'assurer que, quelle que soit la technologie de transport utilisée pour le flux audiovisuel, la signature candidate puisse être comprise dans l'une des signatures stockées dans la base de données locale de la plateforme de service 13.1 , la durée D1 est plus grande que D3 (par exemple un multiple de D3).
En outre, en complément, la signature candidate générée par le premier terminal utilisateur 10 peut être mise à jour à l'issue de chaque période D2 (toutes les secondes par exemple, soit à la même fréquence que la mise à jour des signatures dans le générateur de signatures 15). A cet effet, le premier terminal utilisateur 10 peut acquérir toutes les secondes un extrait audio issu du deuxième terminal utilisateur 1 1 et déterminer un extrait de signature sur cette base. La dernière signature candidate générée est ensuite modifiée en supprimant la période finale de durée D2 de la signature (la seconde la plus ancienne) et en insérant l'extrait de signature au début de la signature candidate. Ceci permet d'assurer que la signature candidate de durée D3 (pouvant être 10 secondes comme détaillé ci-avant) est mise à jour dynamiquement à chaque période D2.
La signature candidate ainsi mise à jour peut être transmise à la plateforme de service toutes les m*D2 périodes, m étant un entier supérieur ou égal à 1 . En variante, l'envoi de chaque requête comprenant la signature candidate mise à jour est à l'initiative de l'utilisateur.
Les relations entre les différentes durées D1 à D3 seront mieux comprises en référence à la figure 9 décrite ci-après.
La figure 2 est un diagramme d'échange illustrant les étapes mises en œuvre par les entités du système.
A une étape 200, le générateur de signature 15 acquiert un extrait audio courant de durée D2 pour chaque identifiant de source de contenu audiovisuel. A une étape 201 , le générateur de signature génère pour chaque extrait audio courant un extrait de signature de durée D2.
A une étape 202, pour chaque signature courante donnée, le générateur de signature 15 peut mettre à jour la signature courante donnée en effaçant une période finale de durée D2 de la signature courante donnée et en ajoutant au début de la signature courante donnée l'extrait de signature de durée D2 correspondant à l'extrait audio courant associé au même identifiant de source de contenu audiovisuel que ladite signature courante donnée.
A une étape 203, le générateur de signature temporise pendant une période D2 avant d'exécuter à nouveau les étapes 200 à 202.
A une étape 204 consécutive à l'étape 202, le générateur de signature transmet au gestionnaire de diffusion 14 l'ensemble de signatures courantes de contenus audiovisuels respectivement associés aux identifiants de sources de contenu audiovisuel. De manière optionnelle, l'ensemble des signatures courantes respectivement associées aux identifiants de sources de contenu audiovisuel peuvent être également transmises au module de détection 17.
A une étape optionnelle 205, le gestionnaire de diffusion 14 peut vérifier la disponibilité des plateformes de service 13.1 -13. n.
A une étape 206, le gestionnaire de diffusion 14 diffuse à l'ensemble des plateformes de services 13.1 -13. n (ou au moins à la première plateforme de service 13.1 ) l'ensemble de signatures courantes de contenus audiovisuels respectivement associés aux identifiants de sources de contenu audiovisuel.
A une étape 207, sur réception de l'ensemble de signatures courantes de contenus audiovisuels respectivement associés à des identifiants de sources de contenu audiovisuel, la plateforme de service 13.1 met à jour sa base de données locale par modification des signatures stockées en fonction des signatures courantes reçues, comme détaillé ci-dessus.
A une étape 208, en parallèle des étapes précédentes (avant, après ou pendant l'exécution des étapes 200 à 207), le module de détection 17 acquiert un extrait audiovisuel correspondant à au moins la source de contenu audiovisuel donnée (voir description ci-avant, en référence à la figure 1 ).
A une étape 209, le module de détection 17 extrait un contenu contextuel courant parmi l'ensemble de contenus contextuels stockés dans le module de détection 17, en fonction de l'extrait audiovisuel correspondant à la source de contenu audiovisuel donné. 7
Selon un mode de réalisation, lorsque l'étape 204 détaillée ci-avant comprend la transmission de l'ensemble de signatures courantes au module de détection 17, l'étape 209 peut être mise en œuvre en considérant chaque signature courante comme une signature candidate pour une recherche dans une base de signatures de référence associées à des contenus contextuels. Dans ce cas, l'étape préalable 208 n'est pas mise en œuvre.
Ce mode de réalisation permet de mutualiser les signatures courantes générées par le générateur de signature 15, entre le module de détection 17 et le gestionnaire de diffusion 14.
A une étape 210, le module de détection 17 transmet au gestionnaire de notification 16 un ensemble comprenant au moins le contenu contextuel courant en association avec l'identifiant de la source de contenu audiovisuel donné.
En outre, à l'issue de l'étape 209, à une étape 21 1 , le module de détection peut temporiser durant une période D4, avant de recommencer les étapes 208 à 210.
A une étape 212, le gestionnaire de notifications 16 stocke l'ensemble comprenant au moins le contenu contextuel courant en association avec l'identifiant de la source de contenu audiovisuel donné, reçu depuis le module de détection 17. En outre, comme décrit ci-avant, le gestionnaire de notifications 16 peut recevoir directement depuis un serveur d'une chaîne de télévision un contenu contextuel à associer avec un identifiant de la chaîne de télévision.
A une étape 213, le gestionnaire de notifications 16 diffuse à l'ensemble de plateformes de service 13.1 -13. n (ou au moins à la première plateforme de service 13.1 ) un ensemble comprenant au moins le contenu contextuel courant associé à l'identifiant de source de contenu audiovisuel donnée.
A une étape 214, sur réception de l'ensemble comprenant au moins le contenu contextuel courant associé à un identifiant de source de contenu audiovisuel, mise à jour de la base de données locale par modification des contenus contextuels en fonction de l'ensemble comprenant au moins le contenu contextuel courant. En parallèle des étapes précédentes, (avant, après, ou pendant les étapes 200 à 214), une application est lancée à une étape optionnelle 215 sur le premier terminal utilisateur 10, l'application étant dédiée à l'enrichissement contextuel selon l'invention.
A une étape 21 6, le premier terminal utilisateur 10 peut acquérir, par un microphone, un contenu audio issu du deuxième terminal utilisateur 1 1 . Comme détaillé ci-avant, le contenu audio peut être un contenu de durée D3 permettant de générer une signature candidate, ou un contenu de durée D2 permettant de mettre à jour une signature candidate précédemment générée.
A une étape 217, une signature candidate est générée en fonction du contenu audio acquis par le premier terminal utilisateur 10.
A une étape 218, une requête comprenant la signature candidate est générée par le premier terminal utilisateur 10.
A une étape 219, la requête générée est transmise à la première plateforme de service 13.1 par le premier terminal utilisateur 10.
A l'issue de l'étape 219, le premier terminal utilisateur 10 peut temporiser durant une période D2 avant de répéter les étapes 216 et 217 permettant de générer une nouvelle signature candidate. A l'étape 218 suivante, une requête n'est pas nécessairement générée, comme décrit ci- avant, puisque la transmission d'une requête peut intervenir préférentiellement toutes les m*D2 périodes, m étant un entier.
Sur réception de la requête d'utilisateur depuis le premier terminal utilisateur 20, la première plateforme de service 13.1 identifie, à une étape 221 une source de contenu audiovisuel par comparaison entre la signature candidate et les signatures stockées dans la base de données locale.
A une étape 222, la première plateforme de service 13.1 extrait de sa base de données locale le contenu contextuel associé à la source de contenu audiovisuel identifiée.
A une étape 223, le contenu contextuel extrait est transmis au premier terminal utilisateur 10, qui dispose ainsi d'un contenu contextuel permettant l'enrichissement du contenu audiovisuel affiché sur le deuxième terminal utilisateur 1 1 . En outre, le contenu contextuel peut être transmis avec l'identifiant de la source de contenu audiovisuel identifiée. Ainsi, le premier terminal utilisateur 10 dispose en outre de l'identifiant de la source de contenu audiovisuel qui diffuse le contenu audiovisuel affiché sur le deuxième terminal utilisateur 1 1 , et peut intégrer cet identifiant lors de la transmission d'une nouvelle requête. Ceci permet à la première plateforme de service 13.1 , lors de l'étape 221 de comparaisons de signatures, de commencer par comparer la signature candidate à la signature stockée en association avec la source de contenu audiovisuel identifié dans la requête. En effet, la probabilité que l'utilisateur n'ait pas changé la source est élevée, et des ressources logicielles de la plateforme de service sont ainsi économisées (le nombre moyen de comparaisons à effectuer est réduit).
En variante, les identifiants des sources de contenu audiovisuel sont ordonnés dans les plateformes de service 13.1 -13. n selon un critère de popularité (de la plus consultée à la moins consultée). Aucune restriction n'est attachée au critère de popularité : par exemple, il peut s'agir du nombre de consultations de la source de contenu audiovisuel pour une tranche horaire donnée, ou bien un classement établi par l'utilisateur lui-même.
Lorsque les identifiants des sources de contenu audiovisuel sont ordonnés ainsi, l'identification d'une source de contenu audiovisuel comprend des comparaisons successives entre la signature candidate et les signatures stockées selon l'ordre des identifiants des sources de contenu audiovisuel qui sont respectivement associés aux signatures.
Le critère de popularité peut par ailleurs être utilisé en combinaison avec l'identifiant de source de contenu audiovisuel inséré dans la requête de l'utilisateur : l'identification de la source de contenu audiovisuel comprend des comparaisons successives entre la signature candidate et les signatures stockées en commençant par la signature stockée en association avec l'identifiant de la dernière source de contenu audiovisuel identifiée dans la requête, puis selon l'ordre des identifiants de sources de contenu audiovisuel qui sont respectivement associés aux signatures.
La figure 3 illustre une première plateforme de service 13.1 selon un mode de réalisation de l'invention.
La première plateforme de service 13.1 comprend une mémoire vive 303 et un processeur 302 pour stocker des instructions permettant la mise en œuvre des étapes 207, 214, 221 , 222 et 223 du procédé décrit ci-avant. La plateforme de service 13.1 peut en outre comporter une base de données locale 304 pour stocker les associations entre des signatures de contenu audiovisuel et des sources de contenu audiovisuel d'une part et les associations entre des sources de contenu audiovisuel et des contenus contextuels d'autre part.
La première plateforme de service 13.1 comporte en outre une interface d'entrée 301 destinée à recevoir l'ensemble de signatures courantes de contenus audiovisuels respectivement associés à des identifiants de sources de contenu audiovisuel du gestionnaire de diffusion 14, l'ensemble d'au moins un contenu contextuel courant associé à un identifiant de source de contenu audiovisuel du gestionnaire de notifications 16 et la requête du premier dispositif de l'utilisateur. La première plateforme de service 13.1 comprend en outre une interface de sortie 305 apte à transmettre au premier terminal utilisateur 10 le contenu contextuel extrait de la base de données locale 304.
La figure 4 illustre un gestionnaire de diffusion 14 selon un mode de réalisation de l'invention.
Le gestionnaire de diffusion 14 comprend une mémoire vive 403 et un processeur 402 pour stocker des instructions permettant la mise en œuvre de l'étape 205 du procédé décrit ci-avant. Le gestionnaire de diffusion 14 peut en outre comporter une base de données locale 404 pour stocker les associations entre des signatures courantes de contenu audiovisuel et des sources de contenu audiovisuel .
Le gestionnaire de diffusion 14 comporte en outre une interface d'entrée 401 destinée à recevoir l'ensemble de signatures courantes de contenus audiovisuels respectivement associés à des identifiants de sources de contenu audiovisuel du générateur de signature 15 et une interface de sortie 405 apte à diffuser aux plateformes de service 13.1 -13. n l'ensemble de signatures courantes de contenus audiovisuels respectivement associés à des identifiants de sources de contenu audiovisuel. La figure 5 illustre un gestionnaire de notifications 16 selon un mode de réalisation de l'invention.
Le gestionnaire de notifications 16 comprend une mémoire vive 503 et un processeur 502 pour stocker des instructions permettant la mise en œuvre de l'étape 212 du procédé décrit ci-avant. Le gestionnaire de notifications 16 peut en outre comporter une base de données locale 504 pour stocker les associations entre des sources de contenu audiovisuel et des contenus contextuels.
Le gestionnaire de notifications 16 comporte en outre une interface d'entrée 501 destinée à recevoir l'ensemble de contenus contextuels respectivement associés à des identifiants de sources de contenu audiovisuel du module de détection17 (ou directement depuis un serveur de chaîne de télévision ou depuis le serveur d'un annonceur) et une interface de sortie 505 apte à diffuser aux plateformes de service 13.1 -13. n l'ensemble de contenus contextuels respectivement associés à des identifiants de sources de contenu audiovisuel.
La figure 6 illustre un premier terminal utilisateur 10 selon un mode de réalisation de l'invention.
Le premier terminal utilisateur 10 comprend une mémoire vive 604 et un processeur 603 pour stocker des instructions permettant la mise en œuvre des étapes 215, 216, 217, 218 et 220 du procédé décrit ci-avant. Le premier terminal utilisateur 10 peut en outre comporter une base de données locale 606 pour stocker l'identifiant de la dernière source de contenu audiovisuel reçu depuis la première plateforme de service 13.1 et pour stocker les signatures candidates générées. La base de données locale 606 peut également stocker l'application dédiée à l'enrichissement de contenu audiovisuel selon l'invention.
Le premier terminal utilisateur 10 comprend en outre un microphone 601 pour acquérir un contenu audio issu du deuxième terminal utilisateur 10 et une interface utilisateur 602 pour recevoir des commandes de l'utilisateur (lancement de l'application dédiée, lecture du contenu contextuel reçu, etc). De manière alternative, le contenu audio peut être issu d'un flux audio acquis directement par voie filaire depuis le deuxième terminal utilisateur 20 (fonctionnalité DLNA par exemple), et dans ce cas, le microphone 601 est optionnel. Le premier terminal utilisateur 10 comprend en outre un écran 605 pour afficher une composante visuelle du contenu contextuel et un haut-parleur 608 pour rendre la composante audio du contenu contextuel.
Le premier terminal utilisateur 10 comporte en outre une interface d'entrée 601 destinée à recevoir le contenu contextuel, optionnellement accompagné de l'identifiant de la source de contenu audiovisuel donnée, depuis la première plateforme de service 13.1 , et une interface de sortie 607 apte transmettre la requête générée à la première plateforme de service 13.1 .
La figure 7 illustre un générateur de signature 15 selon un mode de réalisation de l'invention.
Le générateur de signature 15 comprend une mémoire vive 703 et un processeur 702 pour stocker des instructions permettant la mise en œuvre des étapes 200 à 203 du procédé décrit ci-avant. Le générateur de signature 15 peut en outre comporter une base de données locale 704 pour stocker les signatures courantes de contenu audiovisuel en association avec les sources de contenu audiovisuel .
Le générateur de signature 15 comporte en outre une interface d'entrée 501 destinée à recevoir les flux audiovisuels des différentes sources de contenu audiovisuel et une interface de sortie 705 apte transmettre au gestionnaire de diffusion 14 (et optionnellement au module de détection 1 7) les associations entre les signatures courantes et les identifiants de sources de contenu audiovisuel .
La figure 8 illustre un module de détection 17 selon un mode de réalisation de l'invention.
Le module de détection 17 comprend une mémoire vive 803 et un processeur 802 pour stocker des instructions permettant la mise en œuvre des étapes 208, 209 et 21 1 du procédé décrit ci-avant. Le module de détection 17 peut en outre comporter une base de données locale 804 pour stocker les contenus contextuels en vue d'extraire un contenu contextuel courant. En outre, dans le cas où les signatures courantes sont reçues depuis le générateur de signature 15, chaque contenu contextuel est associé à une signature de référence, et le processeur 802 est apte à rechercher les signatures courantes reçues depuis le générateur de signature 15, parmi les signatures de référence, afin d'extraire un contenu contextuel à associer à un identifiant de chaîne.
Le module de détection 17 comporte en outre une interface 801 pouvant être un module d'acquisition d'un extrait audiovisuel (caméra, microphone, par exemple) ou pouvant être une interface réseau apte à recevoir les signatures courantes et les identifiants de sources de contenu audiovisuel depuis le générateur de signature 15. Le module de détection comprend une interface de sortie 805 apte transmettre au gestionnaire de notifications 16 l'ensemble d'au moins un contenu contextuel courant associé à l'identifiant de la source de contenu audiovisuel donnée.
La figure 9 illustre la génération d'une signature courante 900 et d'une signature candidate 903 en fonction du temps, selon certains modes de réalisation de l'invention. A un instant ti , le générateur de signature 15 dispose d'une signature courante 900 qui a été transmise aux plateformes de service 13.1 -13. n. Comme précédemment détaillé, la signature courante 900 a une durée D1 , pouvant être égale à 30 secondes par exemple. A l'instant t2, correspondant à une durée D2 après l'instant ti , un extrait audio courant est reçu avec un identifiant de source de contenu audiovisuel et le générateur de signature génère un extrait de signature 901 de durée D2. La signature courante 900 est ainsi mise à jour en effaçant une période finale 902 de durée D2 et en ajoutant au début de la signature courante (entre ti et t2) donnée, l'extrait de signature 901 de durée D2. Comme précédemment détaillé, la durée D2 peut être égale à une seconde.
En outre, à l'instant ti , la première plateforme de service 13.1 peut recevoir une signature candidate 903 de durée D3 du premier terminal utilisateur 10. Comme précédemment détaillé la durée D3 peut être égale à 10 secondes.
En raison de la variabilité des technologies de transport des flux audiovisuels, la signature courante reçue à l'instant ti peut avoir un retard Δ indiquant que la signature candidate 903 correspond à un extrait audio du flux retardé du retard Δ par rapport aux signatures courantes 900.
Ainsi, comme illustré sur la figure 9, le fait d'avoir une durée D1 sensiblement supérieure (par exemple un multiple) à la durée D3 permet de permettre une comparaison entre la signature candidate 903 et les signatures courantes 900 quel que soit le retard Δ compris entre 0 et (D1 -D3).
Comme détaillé précédemment, la signature candidate 903 peut être mise à jour de la même manière que les signatures courantes 900.
La présente invention ne se limite pas aux formes de réalisation décrites ci-avant à titre d'exemples ; elle s'étend à d'autres variantes.

Claims

REVENDICATIONS
1 . Procédé d'enrichissement d'un contenu audiovisuel, ledit procédé comprenant les étapes suivantes mises en œuvre dans une première plateforme de service (13.1 ), ladite plateforme de service comprenant une base de données locale (304) stockant des associations entre des signatures de contenu audiovisuel et des sources de contenu audiovisuel d'une part et des associations entre des sources de contenu audiovisuel et des contenus contextuels d'autre part :
sur réception d'un ensemble de signatures courantes de contenus audiovisuels respectivement associés à des identifiants de sources de contenu audiovisuel, mise à jour (207) de la base de données locale par modification des signatures stockées en fonction des signatures courantes reçues ;
sur réception d'un ensemble d'au moins un contenu contextuel courant associé à un identifiant de source de contenu audiovisuel, mise à jour (214) de la base de données locale par modification des contenus contextuels en fonction de l'ensemble d'au moins un contenu contextuel courant;
sur réception d'une requête d'utilisateur depuis un premier terminal utilisateur (10), ladite requête comprenant une signature candidate, identification (221 ) d'une source de contenu audiovisuel par comparaison entre la signature candidate et les signatures stockées dans la base de données locale ;
extraction (222) de la base de données locale d'un contenu contextuel associé à la source de contenu audiovisuel identifiée ;
transmission (223) au premier terminal utilisateur du contenu contextuel extrait.
2. Procédé selon la revendication 1 , dans lequel l'ensemble de signatures courantes de contenus audiovisuels respectivement associés aux identifiants de sources audiovisuelles est reçu depuis un gestionnaire de diffusion (14), le procédé comprenant en outre les étapes suivantes mises en œuvre par ledit gestionnaire de diffusion :
- réception (204) depuis un générateur de signature (15) de l'ensemble de signatures courantes de contenus audiovisuels respectivement associés aux identifiants de sources de contenu audiovisuel ; - diffusion (206) à un ensemble de plateformes de service (13.1 -13. n), comprenant au moins ladite première plateforme de service (13.1 ), de l'ensemble de signatures courantes de contenus audiovisuels respectivement associés aux identifiants de sources de contenu audiovisuel .
3. Procédé selon la revendication 2, dans lequel les signatures courantes ont une durée D1 , dans lequel le générateur de signature (15) stocke l'ensemble de signatures courantes de contenus audiovisuels respectivement associés aux identifiants de sources de contenu audiovisuel, ledit procédé comprenant en outre les étapes suivantes mises en œuvre par le générateur de signature :
- réception (200) d'extraits audio courants de durée D2 ;
- association (200) de chacun des extraits audio courants avec un identifiant de source de contenu audiovisuel ;
- génération (201 ), pour chaque extrait audio courant, d'un extrait de signature de durée D2 ;
- pour chaque signature courante donnée, mise à jour (202) de ladite signature courante donnée en effaçant une période finale de durée D2 de la signature courante donnée et en ajoutant au début de la signature courant donnée l'extrait de signature de durée D2 correspondant à l'extrait audio courant associé au même identifiant de source de contenu audiovisuel que ladite signature courante donnée.
4. Procédé selon la revendication 3, dans lequel les extraits audio courants de durée D2 sont reçus en continu à l'issue de chaque période de durée D2.
5. Procédé selon l'une des revendications précédentes, dans lequel l'ensemble de contenus contextuels courants respectivement associés à des identifiants de sources de contenu audiovisuel est reçu depuis un gestionnaire de notifications (16), le procédé comprenant en outre les étapes suivantes mises en œuvre par le gestionnaire de notifications :
- réception (210) depuis un module de détection (17) de l'ensemble d'au moins un contenu contextuel courant associé à un identifiant de source de contenu audiovisuel donnée; - diffusion (213) à un ensemble de plateformes de service (13.1 -13. n), comprenant au moins ladite première plateforme de service (13.1 ), d'un ensemble comprenant au moins le contenu contextuel courant associé à l'identifiant de la source de contenu audiovisuel donnée.
6. Procédé selon la revendication 5, dans lequel le module de détection (17) stocke un ensemble de contenus contextuels, comprenant en outre les étapes suivantes mises en œuvre par le module de détection :
- acquisition (208) d'un extrait audiovisuel correspondant à au moins la source de contenu audiovisuel donnée ;
- extraction (209) d'un contenu contextuel courant parmi l'ensemble de contenus contextuels stockés, en fonction de l'extrait audio correspondant à la source de contenu audiovisuel donnée ;
- transmission (210) d'un ensemble comprenant au moins le contenu contextuel courant en association avec l'identifiant de la source de contenu audiovisuel donné, au gestionnaire de notifications.
7. Procédé selon la revendication 5, dans lequel le module de détection (17) stocke un semble de contenus contextuels en association avec des signatures de référence respectives, comprenant en outre les étapes suivantes mises en œuvre par le module de détection :
- réception (204) de l'ensemble de signatures courantes de contenus audiovisuels respectivement associés à des identifiants de sources de contenu audiovisuel ;
- comparaison de la signature courante associée à l'identifiant de la source de contenu audiovisuel donné, avec les signatures de référence, afin d'extraire (209) un contenu contextuel courant ;
- transmission (210) d'un ensemble comprenant au moins le contenu contextuel courant en association avec l'identifiant de la source de contenu audiovisuel donné, au gestionnaire de notifications.
8. Procédé selon l'une des revendications précédentes, dans lequel les identifiants des sources de contenu audiovisuel sont ordonnés selon un critère de popularité et dans lequel l'identification d'une source de contenu audiovisuel comprend des comparaisons successives entre la signature candidate et les signatures stockées selon l'ordre des identifiants des sources de contenu audiovisuel qui leur sont respectivement associées.
9. Procédé selon l'une des revendications précédentes, dans lequel le premier terminal utilisateur (10) met en œuvre les étapes suivantes :
acquisition (216) d'un contenu audio issu d'un deuxième terminal utilisateur ;
- génération (217) de la signature candidate en fonction du contenu audio acquis ;
génération (218) d'une requête comprenant ladite signature candidate.
10. Procédé selon la revendication 9, dans lequel le contenu contextuel extrait est transmis au premier terminal utilisateur (10) en association avec l'identifiant de la source de contenu audiovisuel identifiée, dans lequel la requête comprend en outre un identifiant de la dernière source de contenu audiovisuel identifiée et dans lequel l'identification de la source de contenu audiovisuel comprend des comparaisons successives entre la signature candidate et les signatures stockées en commençant par la signature stockée en association avec l'identifiant de la dernière source de contenu audiovisuel identifiée.
1 1 . Procédé selon les revendications 8 et 10, dans lequel l'identification de la source de contenu audiovisuel comprend des comparaisons successives entre la signature candidate et les signatures stockées en commençant par la signature stockée en association avec l'identifiant de la dernière source de contenu audiovisuel identifiée puis selon l'ordre des sources de contenu audiovisuel qui leur sont respectivement associées
12. Procédé selon l'une des revendications précédentes, dans lequel la signature candidate a une durée D3 inférieure à une durée D1 des signatures stockées dans la base de données locale.
13. Programme d'ordinateur comportant des instructions pour la mise en œuvre du procédé selon l'une des revendications 1 à 12, lorsque ce programme est exécuté par un processeur.
14. Plateforme de service (13.1 ) pour l'enrichissement d'un contenu audiovisuel, comprenant une base de données locale (304) stockant des associations entre des signatures de contenu audiovisuel et des sources de contenu audiovisuel d'une part et des associations entre des sources de contenu audiovisuel, ladite plateforme de service comprenant en outre une unité de réception (301 ) et un processeur (302) configuré pour la mise en œuvre des étapes suivantes :
sur réception par l'unité de réception d'un ensemble de signatures courantes de contenus audiovisuels respectivement associés à des identifiants de sources de contenu audiovisuel, mise à jour de la base de données locale par modification des signatures stockées en fonction des signatures courantes reçues ;
sur réception par l'unité de réception d'un ensemble d'au moins un contenu contextuel courant associé à un identifiant de source de contenu audiovisuel, mise à jour de la base de données locale par modification des contenus contextuels en fonction de l'ensemble d'au moins un contenu contextuel courant;
sur réception par l'unité de réception d'une requête d'utilisateur depuis un premier terminal utilisateur (10), ladite requête comprenant une signature candidate, identification d'une source de contenu audiovisuel par comparaison entre la signature candidate et les signatures stockées dans la base de données locale ;
extraction de la base de données locale d'un contenu contextuel associé à la source de contenu audiovisuel identifiée ;
transmission au premier terminal utilisateur du contenu contextuel extrait.
15. Système comprenant au moins une plateforme de service (13.1 ) selon la revendication 13, un gestionnaire de diffusion (14) configuré pour transmettre à la plateforme de service l'ensemble de signatures courantes de contenus audiovisuels respectivement associés aux identifiants de sources de contenu audiovisuel, et un gestionnaire de notifications (16) configuré pour transmettre à la plateforme de service ledit au moins un contenu contextuel courant associé à un identifiant de source de contenu audiovisuel.
PCT/FR2016/052599 2015-10-12 2016-10-07 Enrichissement contextuel par reconnaissance audio WO2017064400A1 (fr)

Priority Applications (1)

Application Number Priority Date Filing Date Title
EP16791656.8A EP3363208A1 (fr) 2015-10-12 2016-10-07 Enrichissement contextuel par reconnaissance audio

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
FR1559688 2015-10-12
FR1559688A FR3042369B1 (fr) 2015-10-12 2015-10-12 Enrichissement contextuel par reconnaissance audio

Publications (1)

Publication Number Publication Date
WO2017064400A1 true WO2017064400A1 (fr) 2017-04-20

Family

ID=55299612

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/FR2016/052599 WO2017064400A1 (fr) 2015-10-12 2016-10-07 Enrichissement contextuel par reconnaissance audio

Country Status (3)

Country Link
EP (1) EP3363208A1 (fr)
FR (1) FR3042369B1 (fr)
WO (1) WO2017064400A1 (fr)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2021058384A1 (fr) * 2019-09-26 2021-04-01 Tdf Procédé d'identification de flux audio provenant d'une pluralité de sources, système, récepteur et programme associé au procédé

Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20050004941A1 (en) * 2001-11-16 2005-01-06 Maria Kalker Antonius Adrianus Cornelis Fingerprint database updating method, client and server
EP2085894A1 (fr) * 2008-01-31 2009-08-05 Alcatel Lucent Procédé de génération de donnés permettant la recherche de compléments de contenus, système et serveur pour la mise en oeuvre du procédé
US20090307201A1 (en) * 2002-04-03 2009-12-10 Dunning Ted E Associating and linking compact disc metadata
WO2010025418A1 (fr) * 2008-08-29 2010-03-04 Disney Enterprises, Inc. Système et procédé permettant une action personnalisée sur la base d'une comparaison de contenus délivrés avec une base de données d'empreintes de contenu
EP2603012A1 (fr) * 2011-12-06 2013-06-12 France Télécom Notification relative à des contenus diffusés
WO2014067968A1 (fr) * 2012-10-30 2014-05-08 Tdf Procédé et module de basculement d'un premier programme vers un deuxième programme, procédé de diffusion, tête de réseau, programme d'ordinateur et medium de stockage correspondants
US20150039646A1 (en) * 2013-08-02 2015-02-05 Google Inc. Associating audio tracks with video content
FR3016720A1 (fr) * 2014-01-20 2015-07-24 Tdf Procede et systeme de delivrance de coupons de reduction et de gestion desdits coupons.

Patent Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20050004941A1 (en) * 2001-11-16 2005-01-06 Maria Kalker Antonius Adrianus Cornelis Fingerprint database updating method, client and server
US20090307201A1 (en) * 2002-04-03 2009-12-10 Dunning Ted E Associating and linking compact disc metadata
EP2085894A1 (fr) * 2008-01-31 2009-08-05 Alcatel Lucent Procédé de génération de donnés permettant la recherche de compléments de contenus, système et serveur pour la mise en oeuvre du procédé
WO2010025418A1 (fr) * 2008-08-29 2010-03-04 Disney Enterprises, Inc. Système et procédé permettant une action personnalisée sur la base d'une comparaison de contenus délivrés avec une base de données d'empreintes de contenu
EP2603012A1 (fr) * 2011-12-06 2013-06-12 France Télécom Notification relative à des contenus diffusés
WO2014067968A1 (fr) * 2012-10-30 2014-05-08 Tdf Procédé et module de basculement d'un premier programme vers un deuxième programme, procédé de diffusion, tête de réseau, programme d'ordinateur et medium de stockage correspondants
US20150039646A1 (en) * 2013-08-02 2015-02-05 Google Inc. Associating audio tracks with video content
FR3016720A1 (fr) * 2014-01-20 2015-07-24 Tdf Procede et systeme de delivrance de coupons de reduction et de gestion desdits coupons.

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2021058384A1 (fr) * 2019-09-26 2021-04-01 Tdf Procédé d'identification de flux audio provenant d'une pluralité de sources, système, récepteur et programme associé au procédé
FR3101451A1 (fr) * 2019-09-26 2021-04-02 Tdf Procédé d’identification de flux audio provenant d’une pluralité de sources, système, récepteur et programme associé au procédé

Also Published As

Publication number Publication date
EP3363208A1 (fr) 2018-08-22
FR3042369B1 (fr) 2017-12-08
FR3042369A1 (fr) 2017-04-14

Similar Documents

Publication Publication Date Title
EP2811749B1 (fr) Synchronisation de contenus multimédia sur deuxième écran
JP5828501B2 (ja) 番組コンテキストに基づくモバイルコンテンツの提示
US9734153B2 (en) Managing related digital content
US9703781B2 (en) Managing related digital content
EP3646548B1 (fr) Procédé de transmission d'un contenu audio interrompu dans un récepteur hybride, système, récepteur et programme associé au procédé
WO2012131258A1 (fr) Procede d'acces a un service, notamment un portail web, par un terminal de restitution d'un flux multimedia
FR3028631A1 (fr) Procede de classement d'un contenu et recommandation de contenu dans un guide electronique des programmes
WO2017064400A1 (fr) Enrichissement contextuel par reconnaissance audio
US8234158B1 (en) Analyzing text streams for cue points of advertisements in a media stream
US20150020125A1 (en) System and method for providing interactive or additional media
EP4161081A1 (fr) Procédé de génération d'une chaîne de télévision personnalisée pour un utilisateur d'un terminal configuré pour accéder à au moins un service de diffusion de contenus audiovisuels, dispositif, équipement de service, système et programme d'ordinateur correspondants.
WO2017158274A1 (fr) Acquisition d'extraits d'un flux multimédia sur un terminal
FR2927183A1 (fr) Procede de generation de donnees permettant la recherche de complements de contenus, systeme, terminal et serveur pour la mise en oeuvre du procede
FR3005386A1 (fr) Procede et dispositif de fourniture d’une partie deja diffusee d’un flux multimedia, terminal utilisateur, programme d’ordinateur et medium de stockage correspondants
WO2001091344A2 (fr) Procede de diffusion d'elements d'information multimedia
FR2917553A1 (fr) Procede de diffusion d'un element complementaire, serveur et terminal correspondants
WO2009112556A1 (fr) Procede de restitution d'au moins un contenu multimedia personnalise, terminal et programme d'ordinateur correspondants
FR2956787A1 (fr) Procede et serveur pour detecter un programme video recu par un usager
FR3009103A1 (fr) Generation de listes de reproduction de contenus personnalisees
FR2983605A1 (fr) Dispositif et procede de selection et de mise a jour du profil d'un utilisateur.
EP2915330A1 (fr) Procédé et module de basculement d'un premier programme vers un deuxième programme, procédé de diffusion, tête de réseau, programme d'ordinateur et medium de stockage correspondants
FR3032584A1 (fr) Acces ameliore a un contenu numerique
WO2020216926A1 (fr) Commande d'un service utilisant le traitement d'un flux comprenant des donnees multimedias
EP4254968A1 (fr) Procédé de génération d'une chaîne de télévision virtuelle pour un utilisateur d' au moins un service de diffusion de contenus audiovisuels, dispositif de génération, équipement de service et programme d ordinateur correspondants
WO2016156386A1 (fr) Système de diffusion de contenus audio et/ou vidéo par un réseau wifi local, et appareils mettant en œuvre le procédé

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 16791656

Country of ref document: EP

Kind code of ref document: A1

NENP Non-entry into the national phase

Ref country code: DE

WWE Wipo information: entry into national phase

Ref document number: 2016791656

Country of ref document: EP