WO2020183079A1 - Procédé de restitution d'un contenu audiovisuel - Google Patents

Procédé de restitution d'un contenu audiovisuel Download PDF

Info

Publication number
WO2020183079A1
WO2020183079A1 PCT/FR2020/050258 FR2020050258W WO2020183079A1 WO 2020183079 A1 WO2020183079 A1 WO 2020183079A1 FR 2020050258 W FR2020050258 W FR 2020050258W WO 2020183079 A1 WO2020183079 A1 WO 2020183079A1
Authority
WO
WIPO (PCT)
Prior art keywords
language
audio stream
action
restitution
peripheral
Prior art date
Application number
PCT/FR2020/050258
Other languages
English (en)
Inventor
Mathieu Rivoalen
Hervé Marchand
Original Assignee
Orange
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Orange filed Critical Orange
Publication of WO2020183079A1 publication Critical patent/WO2020183079A1/fr

Links

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/47End-user applications
    • H04N21/485End-user interface for client configuration
    • H04N21/4856End-user interface for client configuration for language selection, e.g. for the menu or subtitles
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/41Structure of client; Structure of client peripherals
    • H04N21/422Input-only peripherals, i.e. input devices connected to specially adapted client devices, e.g. global positioning system [GPS]
    • H04N21/42203Input-only peripherals, i.e. input devices connected to specially adapted client devices, e.g. global positioning system [GPS] sound input device, e.g. microphone

Definitions

  • the present invention relates to the field of the consumption of audiovisual content.
  • it relates to a method for restoring audiovisual content for which at least one video stream and a first audio stream associated with a first language are available.
  • the content is in a default language, called the “original version” (VO)
  • VO original version
  • the user has the possibility of modifying the language (ie of selecting another audio stream) either at by means of a dedicated menu, by navigating with the remote control, or for more recent equipment and players, by means of a voice control by directly requesting the change of language.
  • the present invention thus relates according to a first aspect to a method for restoring audiovisual content for which at least one video stream and a first audio stream associated with a first language are available, the method comprising the implementation by a module of data processing of a stage equipment
  • a second audio stream associated with said second language is available for said audiovisual content, and an auxiliary peripheral capable of reproducing an audio stream is connected to said equipment item, said set of possible reproduction actions associated with said second language comprising a reproduction action of said second audio stream on the auxiliary peripheral (such a playback action offers maximum comfort for the users because it makes it possible to restore two audio streams in two different languages, always without the slightest manipulation);
  • a plurality of auxiliary peripherals is connected to said equipment, an action of restoring said second audio stream on an auxiliary peripheral of said plurality being chosen in step (c) as a function of at least one parameter associated with each auxiliary peripheral (thus it is possible to reproduce more than two audio streams always with the same level of comfort, always without the slightest additional manipulation);
  • step (c) comprises the signaling of the auxiliary peripheral of the action of restitution of said second chosen audio stream (such an operation allows the user to immediately know how the audio stream in his language will be restored to him, and to do not have to search); • a subtitling associated with said second language is available for said audiovisual content, said set of possible restitution actions associated with said second language comprising an action of adding said subtitling associated with said second language to the video stream (a such subtitling allows an additional user to have restitution in his language even if there are no or more auxiliary peripherals, always without the slightest additional manipulation);
  • a second audio stream associated with said second language is available for said audiovisual content and a subtitling associated with said first language is available for said audiovisual content
  • said set of possible restitution actions associated with said second language comprising an action of restitution of the second audio stream on the main device instead of the first audio stream and adding said subtitling associated with said first language to the video stream (this action makes it possible to manage all the language combinations of audio streams and / or subtitles). titling, and to guarantee that the maximum number of users benefit from a reproduction in their language, always without the slightest additional manipulation);
  • the restitution action chosen in step (c) is an action comprising the addition of a subtitle to the video stream if said set of possible restitution actions associated with said second language does not include an action playback of a second audio stream on an auxiliary peripheral (such a hierarchy of playback actions is that which maximizes the comfort of the entire audience);
  • step (a) comprises beforehand the detection of the first language spoken by at least one user in the vicinity of said main peripheral (this makes it possible directly to launch the reproduction in a language suitable for the audience, with even less manipulation at launch );
  • the detection of a language spoken by at least one user in the vicinity of said main peripheral comprises the acquisition by a sound acquisition module of a speech from said user, and the analysis of said acquired speech so as to identify the language spoken (this is a very efficient and fully automatic language detection solution: users don't have to do anything);
  • said sound acquisition module is that of a voice control peripheral connected to the equipment and further comprising a loudspeaker, the signaling of the auxiliary peripheral of the action of restitution of said second chosen audio stream being implemented by means of said loudspeaker (such devices connected speaker type are widespread, and very easily allow independent management of the language detection and feedback (action signaling) functionalities;
  • said speech is a voice command (this makes it possible at the same time to detect the language and to control the restitution, so that the necessary manipulations are further reduced);
  • said voice command designates an auxiliary peripheral of said plurality, the restitution action chosen in step (c) being the restitution action of said second audio stream on the designated auxiliary device (thus it is still possible in the same command to choose which auxiliary device to use, so that manipulations are minimal).
  • the invention relates to computer equipment comprising a data processing module and connected to a main peripheral, characterized in that the data processing module is configured for:
  • the invention relates to a computer program product comprising code instructions for the execution of a method according to the first aspect of restitution of an audiovisual content for which at least one stream is available.
  • video and a first audio stream associated with a first language and a storage means readable by computer equipment on which a computer program product comprises code instructions for the execution of a method according to the first aspect of restitution of an audiovisual content for which at least one stream is available video and a first audio stream associated with a first language.
  • FIG. 1 which is a diagram of a general network architecture for the implementation of the invention.
  • the invention provides a method for restoring audiovisual content, implemented by equipment 1.
  • video we mean only visual content, in other words “moving image” without sound.
  • audio we mean only sound content, without video.
  • audiovisual content denotes content having both a video component and an audio component, i.e. AV media. Audiovisual content is often inappropriately called video, even though it has an audio component.
  • the equipment 1 is typically a gateway from an Internet service provider or a decoder, in particular of the Set-Top box type (multimedia box), but also a connected television, a media center, a game console, etc.
  • the content could for example be provided as part of an online television service, replay, video on demand (VOD), etc.
  • At least one video stream and a first audio stream associated with a first language are available for said content.
  • Said flows are the components mentioned above, and can be of different types depending on the format of the content and the way it is made available.
  • the term “stream” is encountered mainly in the case of streaming, but is clear to those skilled in the art in all cases (we also find the word “track” for example for a DVD).
  • a plurality of audio streams associated with various languages are available for said content, then said to be multilingual.
  • a second audio stream associated with a second language and a third audio stream associated with a third language will be designated, but there may be more.
  • there can be several audio streams for example several first audio streams associated with the first language
  • various quality levels for example number of independent channels, compression rate, etc.
  • there can be multiple video streams corresponding to various quality levels eg resolution, number of frames per second, etc.).
  • subtitles each associated with a language.
  • Closed captions generally take the form of graphic or textual content that can be overlaid (in a synchronized fashion) with the video stream.
  • the computer equipment 1 can be of any type, in particular a mobile terminal of the smartphone or touch pad type, but also a personal computer, an Internet access box, a gateway, a decoder, etc. It comprises a data processing module 11 (a processor) and advantageously a data storage module 12 (a memory).
  • a data processing module 11 a processor
  • a data storage module 12 a memory
  • At least one main peripheral 2 is connected to said equipment 1.
  • main device is meant equipment capable of fully rendering audiovisual content, that is to say of rendering both a video stream and an audio stream.
  • the main device 2 includes video output and audio output, typically a television or computer. It should be noted that it can very well be confused with equipment 1, for example in the case of a personal computer or a connected television.
  • main peripheral we can understand a set of interconnected peripherals, for example a video projector with a series of speakers connected to the audio output, or a television with headphones. audio. All that is required is for the device to be able to receive an audio stream and a video stream and output them both in one way or another.
  • At least one auxiliary peripheral 3a, 3b capable of reproducing an audio stream is also connected to said equipment 1.
  • each auxiliary device 3a, 3b is only able to reproduce an audio stream, that is to say not able to reproduce a video stream.
  • These are typically "personal” devices, meaning that they only deliver an audio stream to one person without disturbing others, i.e. headsets, headphones, earphones, etc. It will be understood, however, that it could be any other audio device such as a portable speaker.
  • the system can include a sound acquisition module 40, either integrated into the equipment 1, the main peripheral 2 or an auxiliary peripheral 3a, 3b, or a voice control peripheral 4 connected to the equipment 1.
  • voice control peripheral is understood to mean equipment dedicated to the recognition of voice commands, typically taking the form of a connected speaker implementing a virtual assistant (for example the Djingo speaker of the Applicant will be mentioned) or even of a connected speaker. a micro remote control.
  • the voice control peripheral 4 can include its own speaker 41. Note that device 4 can be confused with an auxiliary device 3a, 3b, if for example it is a headset with microphone.
  • each device 2, 3a, 3b, 4 can be connected to equipment 1 directly or indirectly (for example by being in the same local network), wired or wireless.
  • the main device 2 can be a television connected via HDMI to the decoder, a first auxiliary device 3 has a headset connected to a socket headset of the decoder, a second auxiliary device 3b of the headphones connected via Bluetooth to the decoder, and the voice control device 4 a connected speaker using a Wi-Fi connection to the local network generated by the gateway.
  • the present method begins with a step (a) of restitution on the main peripheral 2 of said video streams and first audio stream (available for the audiovisual content) . More precisely, the equipment 1 controls this restitution, in particular by supplying the flows to the main peripheral 2, in a conventional manner.
  • step (a) comprises beforehand the detection of the first language spoken by at least one user in the vicinity of said main peripheral 2.
  • the detection of a language spoken by at least one user in the vicinity of said main peripheral device 2 can comprise the acquisition by the sound acquisition module 40 of a speech from said user, and the analysis of said acquired speech so as to identify the spoken language.
  • one or more users can simply enter the languages they speak beforehand on an interface of equipment 1 (then the first is selected randomly or in order of information).
  • this can be permanently, at regular intervals, or preferably based on voice commands, i.e. said speech is a voice command. This is particularly suitable in the case of a voice control device 4.
  • the voice control device 4 detects both a voice command to play back the Django Unchained movie and the French language, and therefore launches the step (a) the reproduction of this film in French (ie the first language is French).
  • the voice control device 4 would have detected the same voice command but the English language, and therefore would have launched in step (a) the playback of this same movie. in English (ie the first language is English).
  • "Ok Djingo” is here what we call a request to invoke a voice command, or "wake-up word”: the voice control device 4 knows that a voice command follows this expression, so it does not need to try to analyze every speech.
  • a second language (other than the first language) spoken by at least one user in the vicinity of said main peripheral device 2 is detected (while playback in the first language is in progress).
  • a second user starts speaking in the second language.
  • the detection of the second language spoken by at least one user in the vicinity of said main peripheral 2 can also include the acquisition by the sound acquisition module 40 of a speech of said user, and analysis of said acquired speech so as to identify the language spoken, or one or more users can simply enter the languages they speak beforehand on an interface of the equipment 1.
  • this can be permanently, at regular intervals, or preferably based on voice commands, i.e. said speech is a voice command. This is particularly suitable in the case of a voice control device 4.
  • the voice control device 4 detects both a voice command request for a new language (we will see more details on this subject below) and the English language, and therefore understand that we are in the presence of a multilingual audience at least French-English (ie the second language is English).
  • a restitution action chosen from a set of possible restitution actions associated with said second language, which will allow the user speaking in the second language. language to follow the audiovisual content, without having made the slightest selection of menu or other: everything is done automatically.
  • steps (b) and (c) can be repeated: in the event of subsequent detection of a third language other than the first and second languages spoken by at least one user in the vicinity of said main peripheral 2, a restitution action chosen from among a set of possible restitution actions associated with said third language is implemented, and so on.
  • a restitution action chosen from among a set of possible restitution actions associated with said third language is implemented, and so on.
  • restitution action is meant one or more elementary tasks (possibly in combination) corresponding to launching or interruption of stream restitution and / or subtitling.
  • Said set contains several possible actions depending on the audio streams, available subtitles, as well as any available auxiliary peripherals 3a, 3b.
  • auxiliary device 3a, 3b capable of reproducing an audio stream is connected to said equipment 1, an action for restoring said second audio stream on the auxiliary peripheral 3a, 3b (if there is a plurality of auxiliary peripherals 3a, 3b connected to said equipment 1, there is preferably for each auxiliary peripheral 3a, 3b a possible action for restoring said second stream to this auxiliary peripheral 3a, 3b);
  • Case 1. corresponds to the preferred case, in which both the first language and the second language have an audio stream (for example English and French), and at least one auxiliary peripheral 3a, 3b is usable.
  • the implementation of this action consists in continuing to restore the audio stream in the first language on the main peripheral 2, while initiating the reproduction of the second audio stream on said auxiliary peripheral 3a, 3b.
  • two users of two different languages can simultaneously watch the audiovisual content, each in their own language (the user speaking the second language only has to equip himself with the auxiliary peripheral 3a - typically a headset - to access the second stream. audio without disturbing the user speaking the first language).
  • At least one action for restoring said second audio stream on the auxiliary peripheral 3a, 3b is in the list, it is preferably chosen because it is the most ergonomic.
  • step (c) includes the choice between these actions (i.e. between these auxiliary devices 3a, 3b).
  • at least one parameter can be associated with each of the auxiliary devices 3a, 3b, such as an order, a criterion on the quality of the audio stream, a user habit, etc., the choice was made on the basis of a rule and values of said parameter.
  • the parameter can be a name or a property of the auxiliary peripheral 3a, 3b and in a case of recognition of a voice command in step (c), this can designate an auxiliary peripheral 3a, 3b of said plurality (on the basis of said name / property), and then the restitution action chosen in step (c) is the restitution action of said second audio stream on the designated auxiliary device 3a, 3b.
  • the equipment 1 can store on the memory 12 a database of known auxiliary peripherals 3a, 3b, of their state (usable, already used, not connected) and of the associated values of the parameters.
  • Case 2 corresponds to the existence of subtitling in the second language, generally chosen for lack of anything better, ie if said set of possible restitution actions associated with said second language does not include any restitution action d 'a second audio stream on an auxiliary device 3a, 3b.
  • auxiliary peripheral 3a, 3b capable of reproducing an audio stream connected to said equipment 1 (for example, if a single auxiliary peripheral is already used by a user speaking a second language, a user speaking a third language may be forced to use subtitling, on a “first come first served” basis).
  • the case 3. is a rarer case that could arise in the case where it is necessary to add subtitles for the second language for lack of an auxiliary device available, but where there is only an audio stream available in that language.
  • the implementation of this action consists in swapping the first and second languages: for the first language we switch to subtitling, and for the second language we use the audio stream (i.e. we restore the second stream instead of of the first stream), so that each user can still benefit from a reproduction in their language.
  • the list is empty, ie that there is no possible action, in particular if a large number of spoken languages is detected: indeed, the maximum number of restorable languages is equal to number of auxiliary devices + 2 (i.e. an audio stream and a subtitle on the main device 2).
  • the list may also be empty if the detected language is too rare and there is no audio stream or corresponding subtitles available.
  • step (c) In the event of an empty list, either nothing is done in step (c), for lack of options, but alternatively, a default action can be implemented so that everyone can still follow, for example a sub -titling in English or restitution on the main device 2 of the audio stream in the original language. It is still possible to have to undo a previous action for this (eg subtitling in a rarer language).
  • step (c) comprises the signaling of the action chosen and implemented, and in particular, if it is an action for restoring an audio stream on an auxiliary device 3a, 3b, the signaling of this auxiliary device 3a, 3b.
  • This signal can be audible, possibly in the language detected, for example in the previous example the main peripheral 2 (or any other equipment) pronounces "English track now played on the Bose headset".
  • the signaling is implemented by means of this loudspeaker 41, which avoids interrupting the audio stream reproduced on a main or auxiliary peripheral. .
  • equipment 1 is a Set-Top box type decoder
  • main peripheral 2 is a television
  • auxiliary peripheral 3a a headset connected by wire
  • voice controlled peripheral 4 of the Djingo connected speaker type with sound acquisition means 40 and a loudspeaker 41.
  • Four users speak respectively in French, Spanish, Italian, and Portuguese and for the Django film we have audio streams in English (original version), French, Spanish and Portuguese, and subtitles in many languages.
  • the first action is chosen (because preferential) and users are informed by the connected speaker that the audio stream in Spanish will be played on the headphones;
  • a default action is chosen, in this case add English subtitles (ie instead of Italian subtitles) and users are informed by the connected speaker that there are subtitles in English will be added to the video stream.
  • the invention relates to the computer equipment 1 for implementing the method according to the first aspect.
  • this computer equipment 1 comprises a data processing module 1 1 and may further comprise a data storage module 12, etc., and is connected at least to one main peripheral 2, and possibly to at least one peripheral.
  • the data processing module 11 is thus configured for: Control the reproduction on said main peripheral 2 of a video stream and of a first audio stream associated with a first language available for audiovisual content;
  • the invention relates to a computer program product comprising code instructions for the execution (in particular on the data processing module 1 1 of the computer equipment 1) of a method according to the first aspect of the invention for the reproduction of audiovisual content for which at least one video stream and a first audio stream associated with a first language are available, as well as storage means readable by computer equipment (the data storage 12 of the computer equipment 1) on which this computer program product is found.

Landscapes

  • Engineering & Computer Science (AREA)
  • Multimedia (AREA)
  • Signal Processing (AREA)
  • Human Computer Interaction (AREA)
  • Two-Way Televisions, Distribution Of Moving Picture Or The Like (AREA)
  • Electrically Operated Instructional Devices (AREA)

Abstract

La présente invention concerne un procédé de restitution d'un contenu audiovisuel pour lequel sont disponibles au moins un flux vidéo et un premier flux audio associé à une première langue, le procédé comprenant la mise en œuvre par un module de traitement de données (11) d'un équipement (1) d'étapes de (a) Restitution sur un périphérique principal (2) connecté audit équipement (1) desdits flux vidéo et premier flux audio; (b) Détection d'une deuxième langue autre que la première langue parlée par au moins un utilisateur au voisinage dudit périphérique principal (2); (c) Mise en œuvre d'une action de restitution choisie parmi un ensemble d'actions de restitution possibles associées à ladite deuxième langue.

Description

DESCRIPTION
Titre : Procédé de restitution d’un contenu audiovisuel
DOMAINE TECHNIQUE GENERAL
La présente invention concerne le domaine de la consommation de contenus audiovisuels.
Plus précisément, elle concerne un procédé de restitution d’un contenu audiovisuel pour lequel sont disponibles au moins un flux vidéo et un premier flux audio associé à une première langue.
ETAT DE L’ART
De nombreux contenus audiovisuels (films, séries, émissions, événements, etc.) sont proposés de manière « multilingue », c’est-à-dire avec plusieurs flux audio (on parle aussi de « pistes » audio) correspondant à plusieurs langues.
Généralement, au lancement de la lecture, le contenu est dans une langue par défaut, dite « version originale » (VO), et l’utilisateur a la possibilité de modifier la langue (i.e. de sélection d’un autre flux audio) soit au moyen d’un menu dédié, en naviguant avec la télécommande, soit pour des équipements et des lecteurs plus récents, au moyen d’un contrôle vocal en demandant directement le changement de langue.
Un problème se pose si l’auditoire est un groupe international, et souhaite donc plusieurs langues. Aujourd’hui, la solution classique est de rajouter un sous-titrage dans une deuxième langue (à nouveau au moyen d’un menu dédié, en naviguant avec la télécommande). Sinon les utilisateurs choisissent une langue qui plait à tout le monde, par exemple en anglais.
Dans tous les cas, cela ne satisfait jamais vraiment l’auditoire, et reste complexe en termes de manipulations.
Il serait par conséquent souhaitable de disposer d’une nouvelle solution de gestion des langues lors de la restitution d’un contenu audiovisuel qui soit plus simple, plus efficace, et plus agréable pour les utilisateurs.
PRESENTATION DE L’INVENTION La présente invention se rapporte ainsi selon un premier aspect à un procédé de restitution d’un contenu audiovisuel pour lequel sont disponibles au moins un flux vidéo et un premier flux audio associé à une première langue, le procédé comprenant la mise en œuvre par un module de traitement de données d’un équipement d’étapes de
(a) Restitution sur un périphérique principal connecté audit équipement desdits flux vidéo et premier flux audio ;
(b) Détection d’une deuxième langue autre que la première langue parlée par au moins un utilisateur au voisinage dudit périphérique principal ;
(c) Mise en œuvre d’une action de restitution choisie parmi un ensemble d’actions de restitution possibles associées à ladite deuxième langue.
L’idée de choisir et mettre en œuvre une action de restitution sur la base d’une langue détectée d’un utilisateur permet automatiquement d’adapter la restitution à l’auditoire, et donc d’éviter toute manipulation fastidieuse.
Selon des caractéristiques avantageuses et non-limitatives :
• un deuxième flux audio associé à ladite deuxième langue est disponible pour ledit contenu audiovisuel, et un périphérique auxiliaire apte à restituer un flux audio est connecté audit équipement, ledit ensemble d’actions de restitution possibles associées à ladite deuxième langue comprenant une action de restitution dudit deuxième flux audio sur le périphérique auxiliaire (une telle action de restitution offre un confort maximal pour les utilisateurs car elle permet de restituer deux flux audio dans deux langues différentes, toujours sans la moindre manipulation) ;
• une pluralité de périphérique auxiliaires est connecté audit équipement, une action de restitution dudit deuxième flux audio sur un périphérique auxiliaire de ladite pluralité étant choisie à l’étape (c) en fonction d’au moins un paramètre associé à chaque périphérique auxiliaire (ainsi il est possible de restituer plus de deux flux audio toujours avec le même niveau de confort, toujours sans la moindre manipulation supplémentaire) ;
• l’étape (c) comprend le signalement du périphérique auxiliaire de l’action de restitution dudit deuxième flux audio choisie (une telle opération permet à l’utilisateur de savoir immédiatement comment le flux audio dans sa langue va lui être restitué, et de ne pas avoir à chercher) ; • un sous-titrage associé à ladite deuxième langue est disponible pour ledit contenu audiovisuel, ledit ensemble d’actions de restitution possibles associées à ladite deuxième langue comprenant une action d’ajout dudit sous-titrage associé à ladite deuxième langue au flux vidéo (un tel sous-titrage permet à un utilisateur supplémentaire d’avoir une restitution dans sa langue même s’il n’y a pas ou plus de périphériques auxiliaire, toujours sans la moindre manipulation supplémentaire) ;
• un deuxième flux audio associé à ladite deuxième langue est disponible pour ledit contenu audiovisuel et un sous-titrage associé à ladite première langue est disponible pour ledit contenu audiovisuel, ledit ensemble d’actions de restitution possibles associées à ladite deuxième langue comprenant une action de restitution du deuxième flux audio sur le périphérique principal au lieu du premier flux audio et d’ajout dudit sous-titrage associé à ladite première langue au flux vidéo (cette action permet de gérer toutes les combinaisons de langues de flux audio et/ou sous-titrage, et de garantir que le nombre maximum d’utilisateurs bénéficie d’une restitution dans sa langue, toujours sans la moindre manipulation supplémentaire) ;
• l’action de restitution choisie à l’étape (c) est une action comprenant l’ajout d’un sous-titrage au flux vidéo si ledit ensemble d’actions de restitution possibles associées à ladite deuxième langue ne comprend pas d’action de restitution d’un deuxième flux audio sur un périphérique auxiliaire (une telle hiérarchie des actions de restitution est celle qui maximise le confort de l’ensemble de l’auditoire) ;
• l’étape (a) comprend préalablement la détection de la première langue parlée par au moins un utilisateur au voisinage dudit périphérique principal (cela permet directement de lancer la restitution dans une langue adaptée à l’auditoire, avec encore moins de manipulations au lancement) ;
• la détection d’une langue parlée par au moins un utilisateur au voisinage dudit périphérique principal comprend l’acquisition par un module d’acquisition sonore d’une parole dudit utilisateur, et l’analyse de ladite parole acquise de sorte à identifier la langue parlée (il s’agit d’une solution très efficace et complètement automatique de détection des langues : les utilisateurs n’ont rien à faire) ;
• ledit module d’acquisition sonore est celui d’un périphérique de contrôle vocal connecté à l’équipement et comprenant en outre un haut-parleur, le signalement du périphérique auxiliaire de l’action de restitution dudit deuxième flux audio choisie étant mis en oeuvre au moyen dudit haut-parleur (de tels périphériques de type enceinte connectée sont très répandus, et permettent très facilement de gérer de façon autonome les fonctionnalités de détection de langue et de feed-back (signalement d’action)) ;
• ladite parole est une commande vocale (cela permet en même temps de détecter la langue et de commander la restitution, de sorte que les manipulations nécessaires sont encore réduites) ;
• ladite commande vocale désigne un périphérique auxiliaire de ladite pluralité, l’action de restitution choisie à l’étape (c) étant l’action de restitution dudit deuxième flux audio sur le périphérique auxiliaire désigné (ainsi on peut encore dans une même commande choisir quel périphérique auxiliaire utiliser, de sorte que les manipulations sont minimales).
Selon un deuxième aspect, l’invention concerne un équipement informatique comprenant un module de traitement de données et connecté à un périphérique principal, caractérisé en ce que le module de traitement de données est configuré pour :
- Commander la restitution sur ledit périphérique principal d’un flux vidéo et d’un premier flux audio associé à une première langue disponibles pour un contenu audiovisuel ;
Détecter une deuxième langue autre que la première langue parlée par au moins un utilisateur au voisinage dudit périphérique principal ;
Commander la mise en œuvre d’une action de restitution choisie parmi un ensemble d’actions de restitution possibles associées à ladite deuxième langue
Selon un troisième et un quatrième aspects, l’invention concerne un produit programme d’ordinateur comprenant des instructions de code pour l’exécution d’un procédé selon le premier aspect de restitution d’un contenu audiovisuel pour lequel sont disponibles au moins un flux vidéo et un premier flux audio associé à une première langue ; et un moyen de stockage lisible par un équipement informatique sur lequel un produit programme d’ordinateur comprend des instructions de code pour l’exécution d’un procédé selon le premier aspect de restitution d’un contenu audiovisuel pour lequel sont disponibles au moins un flux vidéo et un premier flux audio associé à une première langue. PRESENTATION DES FIGURES
D’autres caractéristiques et avantages de la présente invention apparaîtront à la lecture de la description qui va suivre d’un mode de réalisation préférentiel. Cette description sera donnée en référence à :
[Fig. 1] annexée qui est un schéma d’une architecture générale de réseau pour la mise en œuvre de l’invention.
DESCRIPTION DETAILLEE
Architecture
En référence à la figure 1 , l’invention propose un procédé de restitution d’un contenu audiovisuel, mis en œuvre par un équipement 1.
Dans un souci de clarté, dans la suite de la présente description on distinguera « vidéo » et « audio ». Par vidéo, on entend seulement un contenu visuel, en d’autres termes « l’image animée » sans le son. Par audio, on entend seulement un contenu sonore, sans vidéo. Ainsi, par « contenu audiovisuel », il est désigné un contenu présentant à la fois une composante vidéo et une composante audio, i.e. un média AV. Un contenu audiovisuel est souvent appelé de manière inappropriée une vidéo, bien qu’ayant une composante audio.
On suppose que ledit contenu audiovisuel dont la restitution est mise en œuvre est fourni par l’équipement 1 . On comprend que le contenu peut être directement stocké par l’équipement 1 (si ce dernier est par exemple un ordinateur ou un terminal mobile), lu d’un moyen de stockage tel qu’un DVD, ou fourni à la volée si l’équipement 1 est connecté à un réseau 20 tel qu’internet et reçu en streaming (lecture en continu). Dans ce dernier cas, l’équipement 1 est typiquement une passerelle d’un fournisseur d’accès à Internet ou un décodeur, en particulier de type Set-Top box (boîtier multimédia), mais également une télévision connectée, un media center, une console de jeux, etc. Le contenu pourra par exemple être fourni dans le cadre d’un service de télévision en ligne, de replay, de vidéo à la demande (VOD), etc.
Au moins un flux vidéo et un premier flux audio associé à une première langue sont disponibles pour ledit contenu. Lesdits flux sont les composantes évoquées ci-avant, et peuvent être de différentes natures selon le format du contenu et sa façon d’être mis à disposition. Le terme « flux » se rencontre principalement dans le cas du streaming, mais est clair pour l’homme du métier dans tous les cas (on trouver également le mot « piste » par exemple pour un DVD).
De manière préférée une pluralité de flux audio associés à diverses langues sont disponibles pour ledit contenu, alors dit multilingue. Dans la suite de la description on désignera seulement un deuxième flux audio associé à une deuxième langue et un troisième flux audio associé à une troisième langue, mais il pourra y en avoir davantage. A noter que pour une même langue il peut y avoir plusieurs flux audios (par exemple plusieurs premiers flux audio associés à la première langue), correspondant à divers niveaux de qualité (par exemple nombre de canaux indépendants, taux de compression, etc.). Similairement il peut y avoir plusieurs flux vidéo correspondant à divers niveaux de qualité (par exemple résolution, nombre d’image par seconde, etc.).
Comme l’on verra il peut y avoir également disponibles un ou plusieurs sous- titrages eux-même chacun associés à une langue. A noter qu’il y a généralement plus de langues pour lesquelles un sous-titrage est disponible que de langues pour lesquelles un flux audio est disponible. Les sous-titrages prennent généralement la forme d’un contenu graphique ou textuel pouvant être superposé (de manière synchronisée) au flux vidéo.
L’équipement informatique 1 peut être de n’importe quel type, en particulier un terminal mobile de type smartphone ou tablette tactile, mais également un ordinateur personnel, un boîtier d’accès à internet, une passerelle, un décodeur, etc. Il comprend un module de traitement de données 1 1 (un processeur) et avantageusement un module de stockage de données 12 (une mémoire).
Au moins un périphérique principal 2 est connecté audit équipement 1 . Par périphérique principal, on entend un équipement capable de restituer entièrement contenu audiovisuel, c’est-à-dire de restituer aussi bien un flux vidéo qu’un flux audio. En d’autres termes, le périphérique principal 2 comprend une sortie vidéo et une sortie audio, c’est typiquement une télévision ou un ordinateur. On note qu’il peut tout à fait être confondu avec l’équipement 1 , par exemple dans le cas d’un ordinateur personnel ou d’une télévision connectée.
A noter que par « périphérique principal », on peut entendre un ensemble de périphériques interconnectés, par exemple un vidéoprojecteur avec une série d’enceintes connectées sur la sortie audio, on une télévision avec un casque audio. Il suffit que le périphérique soit apte à recevoir un flux audio et un flux vidéo et les restituer tous les deux d’une manière ou d’une autre.
De manière avantageuse, au moins un périphérique auxiliaire 3a, 3b apte à restituer un flux audio est également connecté audit équipement 1. Dans l’exemple de la figure 1 il y a deux périphérique auxiliaires 3a, 3b.
Préférentiellement, chaque périphérique auxiliaire 3a, 3b n’est apte que à restituer un flux audio, c’est-à-dire pas apte à restituer un flux vidéo. Il s’agit typiquement de périphériques « personnels » c’est-à-dire ne restituant un flux audio que pour une personne sans gêner les autres, i.e. des casques audio, des écouteurs, des oreillettes, etc. On comprendra néanmoins qu’il pourrait s’agir de n’importe quel autre périphérique audio tel qu’une enceinte portable.
Enfin, le système peut comprendre un module d’acquisition sonore 40, soit intégré à l’équipement 1 , au périphérique principale 2 ou un périphérique auxiliaire 3a, 3b, soit d’un périphérique de contrôle vocal 4 connecté à l’équipement 1. Par périphérique de contrôle vocal, on entend un équipement dédié à la reconnaissance de commandes vocales, prenant typiquement la forme d’une enceinte connectée mettant en oeuvre un assistant virtuel (on citera par exemple l’enceinte Djingo de la Demanderesse) ou encore d’une télécommande micro. A ce titre, le périphérique de contrôle vocal 4 peut comprendre son propre haut-parleur 41 . A noter que le périphérique 4 peut être confondu avec un périphérique auxiliaire 3a, 3b, si par exemple c’est un casque avec micro.
En ce qui concerne les connexions, chaque périphérique 2, 3a, 3b, 4 peut être connecté à l’équipement 1 directement ou indirectement (par exemple en étant dans le même réseau local), filairement ou sans-fil.
Par exemple, si l’équipement 1 est un décodeur de type Set-Top box connecté au réseau internet via une passerelle, le périphérique principal 2 peut être une télévision connectée en HDMI au décodeur, un premier périphérique auxiliaire 3a un casque connecté sur une prise casque du décodeur, un deuxième périphérique auxiliaire 3b des écouteurs connectés en Bluetooth au décodeur, et le périphérique de contrôlé vocal 4 une enceinte connectée utilisant une connexion Wi-Fi au réseau local généré par la passerelle.
Tous les périphériques 2, 3a, 3b, 4 sont naturellement déposés au voisinage les uns des autres (i.e. dans la même pièce), car on suppose que le contenu audiovisuel va être restitué pour un auditoire d’utilisateurs assemblés U1 , U2. On note qu’il est par contre possible que l’équipement 1 soit éloigné. Procédé
Le présent procédé, mis en œuvre par le module de traitement de données 1 1 de l’équipement 1 , commence par une étape (a) de restitution sur le périphérique principal 2 desdits flux vidéo et premier flux audio (disponibles pour le contenu audiovisuel). Plus précisément, l’équipement 1 commande cette restitution, notamment en fournissant les flux au périphérique principal 2, de manière classique.
A noter que la première langue peut être une langue par défaut (le français pour des équipements français), ou une langue originale du contenu audiovisuel (« VO »). Alternativement et de manière préférée, l’étape (a) comprend préalablement la détection de la première langue parlée par au moins un utilisateur au voisinage dudit périphérique principal 2.
La détection d’une langue parlée par au moins un utilisateur au voisinage dudit périphérique principal 2 peut comprendre l’acquisition par le module d’acquisition sonore 40 d’une parole dudit utilisateur, et l’analyse de ladite parole acquise de sorte à identifier la langue parlée. Alternativement, un ou plusieurs utilisateurs peuvent simplement renseigner les langues qu’ils parlent préalablement sur une interface de l’équipement 1 (alors la première est sélectionnée aléatoirement ou par ordre de renseignement).
Dans le cas d’une acquisition sonore, celle-ci peut être en permanence, à intervalles réguliers, ou préférentiellement basée sur des commandes vocales, i.e. ladite parole est une commande vocale. Ceci est particulièrement adapté dans le cas d’un périphérique de contrôle vocal 4.
Par exemple l’utilisateur dit seulement « Ok Djingo, je veux voir le film Django », et le périphérique de contrôle vocal 4 détecte à la fois une commande vocale de restitution du film Django Unchained et la langue française, et donc lance à l’étape (a) la restitution de ce film en français (i.e. la première langue est le français). Similairement, s’il avait dit « Ok Djingo, please play Django », le périphérique de contrôle vocal 4 aurait détecté la même commande vocale mais la langue anglaise, et donc aurait lancé à l’étape (a) la restitution de ce même film en anglais (i.e. la première langue est l’anglais). On note que « Ok Djingo » est ici ce que l’on appelle une requête d’invocation de commande vocale, ou « wake-up word » : le périphérique de contrôle vocal 4 sait qu’une commande vocale suit cette expression, donc il n’a pas besoin de chercher à analyser chaque parole.
Dans une étape (b), une deuxième langue (autre que la première langue) parlée par au moins un utilisateur au voisinage dudit périphérique principal 2 est détectée (alors que la restitution dans la première langue est en cours). Typiquement, dans l’auditoire un deuxième utilisateur se met à parler dans la deuxième langue.
Si plusieurs langues ont été directement renseignées avant le lancement, on suppose qu’on est en présence d’une détection d’une deuxième langue (comme expliqué, typiquement la deuxième renseignée)
Sinon, similairement à ce qui possible durant l’étape (a), la détection de la deuxième langue parlée par au moins un utilisateur au voisinage dudit périphérique principal 2 peut encore comprendre l’acquisition par le module d’acquisition sonore 40 d’une parole dudit utilisateur, et l’analyse de ladite parole acquise de sorte à identifier la langue parlée, ou un ou plusieurs utilisateurs peuvent simplement renseigner les langues qu’ils parlent préalablement sur une interface de l’équipement 1.
Dans le cas d’une acquisition sonore, celle-ci peut être en permanence, à intervalles réguliers, ou préférentiellement basée sur des commandes vocales, i.e. ladite parole est une commande vocale. Ceci est particulièrement adapté dans le cas d’un périphérique de contrôle vocal 4.
Par exemple (en supposant qu’on a une restitution en cours en français) le deuxième utilisateur dit seulement « Ok Djingo, I do not understand this language, help me », et le périphérique de contrôle vocal 4 détecte à la fois une commande vocale de requête de nouvelle langue (on verra plus de détails à ce sujet là-dessus plus loin) et la langue anglaise, et donc comprend qu’on est en présence d’un auditoire multilingue au moins français-anglais (i.e. la deuxième langue est l’anglais).
Alors, de façon innovante, dans une étape (c) est mise en œuvre une action de restitution choisie parmi un ensemble d’actions de restitution possibles associées à ladite deuxième langue, ce qui va permettre au l’utilisateur s’exprimant dans la deuxième langue de suivre le contenu audiovisuel, sans qu’il ait fait la moindre sélection de menu ou autre : tout se fait automatiquement.
Comme l’on verra, les étapes (b) et (c) peuvent être répétées : en cas de détection subséquente d’une troisième langue autre que les première et deuxième langues parlée par au moins un utilisateur au voisinage dudit périphérique principal 2, est mise en oeuvre d’une action de restitution choisie parmi un ensemble d’actions de restitution possibles associées à ladite troisième langue, et ainsi de suite. L’homme du métier saura transposer la suite de la description au cas d’une troisième langue, quatrième langue, etc.
Ensemble d’actions de restitution possibles associées à ladite deuxième langue
Par action de restitution on entend une ou plusieurs tâches élémentaires (éventuellement en combinaison) correspondant à des lancement ou interruption de restitution de flux et/ou sous-titrage.
Ledit ensemble contient plusieurs actions possibles en fonction des flux audio, des sous-titres disponibles, ainsi que des éventuels périphériques auxiliaires 3a, 3b disponibles.
Ainsi, tout ou partie des actions suivantes peuvent être dans la liste :
1. si un deuxième flux audio associé à ladite deuxième langue est disponible pour ledit contenu audiovisuel, et un périphérique auxiliaire 3a, 3b apte à restituer un flux audio est connecté audit équipement 1 , une action de restitution dudit deuxième flux audio sur le périphérique auxiliaire 3a, 3b (s’il y a une pluralité de périphérique auxiliaires 3a, 3b connectés audit équipement 1 , il y a préférentiellement pour chaque périphérique auxiliaire 3a, 3b une action possible de restitution dudit deuxième flux sur ce périphérique auxiliaire 3a, 3b) ;
2. si un sous-titrage associé à ladite deuxième langue est disponible pour ledit contenu audiovisuel (et si aucun sous-titrage n’est en cours), une action d’ajout dudit sous-titrage associé à ladite deuxième langue au flux vidéo ;
3. si un deuxième flux audio associé à ladite deuxième langue est disponible pour ledit contenu audiovisuel et un sous-titrage associé à ladite première langue est disponible pour ledit contenu audiovisuel, une action de restitution du deuxième flux audio sur le périphérique principal 2 au lieu du premier flux audio et d’ajout dudit sous-titrage associé à ladite première langue au flux vidéo. Le cas 1 . correspond au cas préféré, dans lequel aussi bien la première langue et la deuxième langue disposent d’un flux audio (par exemple anglais et français), et au moins un périphérique auxiliaire 3a, 3b est utilisable. La mise en œuvre de cette action consiste à continuer de restituer sur le périphérique principal 2 le flux audio dans la première langue, tout en initiant la restitution du deuxième flux audio sur ledit périphérique auxiliaire 3a, 3b. Ainsi, deux utilisateurs de deux langues différentes peuvent regarder simultanément le contenu audiovisuel, chacun dans leur langue (l’utilisateur parlant la deuxième langue n’a qu’à s’équiper du périphérique auxiliaire 3a - typiquement un casque - pour accéder au deuxième flux audio sans déranger l’utilisateur parlant la première langue).
Si au moins une action de restitution dudit deuxième flux audio sur le périphérique auxiliaire 3a, 3b est dans la liste, celle-ci est préférentiellement choisie car c’est la plus ergonomique.
S’il y a éventuellement plusieurs actions de ce type (car il y a plusieurs périphérique auxiliaire 3a, 3b utilisables), l’étape (c) comprend le choix entre ces actions (i.e. entre ces périphériques auxiliaires 3a, 3b). Pour cela, au moins un paramètre peut être associé à chacun des périphériques auxiliaires 3a, 3b, comme un ordre, un critère sur la qualité du flux audio, une habitude des utilisateurs, etc., le choix était fait sur la base d’une règle et des valeurs dudit paramètre.
En particulier, le paramètre peut être un nom ou une propriété du périphérique auxiliaire 3a, 3b et dans un cas de reconnaissance d’une commande vocale à l’étape (c), celle-ci peut désigner un périphérique auxiliaire 3a, 3b de ladite pluralité (sur la base dudit nom/propriété), et alors l’action de restitution choisie à l’étape (c) est l’action de restitution dudit deuxième flux audio sur le périphérique auxiliaire 3a, 3b désigné.
Par exemple, dans le cas où on a deux périphérique auxiliaires 3a, 3b dont un casque filaire Bose et des écouteurs Bluetooth, si l’utilisateur dit la commande vocale « Ok Djingo, I do not understand this language, I want to use the Bose headset », alors sur la base du paramètre « Bose » associé au premier périphérique 3a, ce dernier sera celui désigné.
A noter qu’en l’absence de paramètre, du moins de paramètres concluant pour faire un choix (si par exemple les deux flux audio ont la même qualité, et que l’utilisateur ne nomme pas de périphérique auxiliaire), le choix pourra être aléatoire ou arbitraire. Un apprentissage peut d’ailleurs automatique se faire. De façon pratique, l’équipement 1 peut stocker sur la mémoire 12 une base de données des périphériques auxiliaires 3a, 3b connus, de leur état (utilisable, déjà utilisé, non-connecté) et des valeurs associées des paramètres.
Le cas 2. correspond à l’existence d’un sous-titrage en la deuxième langue, généralement choisie faute de mieux, i.e. si ledit ensemble d’actions de restitution possibles associées à ladite deuxième langue ne comprend pas d’action de restitution d’un deuxième flux audio sur un périphérique auxiliaire 3a, 3b.
Cela signifie en pratique que soit il n’y a pas de deuxième flux audio associé à ladite deuxième langue disponible pour ledit contenu audiovisuel (typiquement, la deuxième langue est une langue plus rare que le français ou l’anglais, pour laquelle il n’y a pas eu de doublage), ou s’il n’y a pas (ou plus) de périphérique auxiliaire 3a, 3b apte à restituer un flux audio connecté audit équipement 1 (par exemple, si un unique périphérique auxiliaire est déjà utilisé par un utilisateur parlant une deuxième langue, un utilisateur parlant une troisième langue pourra être contraint de recourir au sous-titrage, selon un principe de « premier arrivé premier servi »).
La mise en oeuvre d’une telle action est l’ajout du sous-titrage, i.e. le flux vidéo est restitué avec les sous-titres incrustés, aucune action n’est mise en oeuvre en ce qui concerne les flux audio.
Le cas 3. est un cas plus rare qui pourrait se poser dans le cas où il faudrait ajouter des sous-titres pour la deuxième langue faute de périphérique auxiliaire disponible, mais où il n’y aurait que un flux audio disponible dans cette langue. Ainsi, la mise en oeuvre de cette action consiste à permuter les première et deuxième langues : pour la première langue on passe au sous-titrage, et pour la deuxième langue on utilise le flux audio (i.e. on restitue le deuxième flux en lieu et place du premier flux), de sorte que chaque utilisateur puisse bénéficier quand même d’une restitution dans sa langue.
A nouveau une telle action est choisie faute de mieux.
A noter qu’il est possible que la liste soit vide, i.e. qu’il n’y ait aucune action possible, en particulier si un grand nombre de langues parlées est détecté : en effet, le nombre de langues restituables au maximum est égal au nombre de périphériques auxiliaires + 2 (i.e. un flux audio et un sous-titrage sur le périphérique principal 2). La liste peut également être vide si la langue détectée est trop rare et qu’il n’y a ni flux audio ni sous-titrage correspond disponible.
En cas de liste vide soit rien n’est fait à l’étape (c), faute d’options, mais alternativement, une action par défaut peut être mise en œuvre pour que tout le monde puisse quand même suivre, par exemple un sous-titrage en anglais ou la restitution sur le périphérique principal 2 du flux audio dans la langue originale. Il reste possible de devoir annuler une action précédente pour ça (par exemple un sous-titrage dans une langue plus rare).
Avantageusement, l’étape (c) comprend le signalement de l’action choisie et mise en œuvre, et en particulier, si c’est une action de restitution d’un flux audio sur un périphérique auxiliaire 3a, 3b, le signalement de ce périphérique auxiliaire 3a, 3b. Ce signalement peut être sonore, éventuellement dans la langue détectée, par exemple dans l’exemple précédent le périphérique principal 2 (ou un autre équipement quelconque) prononce « English track now played on the Bose headset ». De manière préférée, en cas de périphérique de contrôle vocal 4 comprenant un haut-parleur 41 , le signalement est mis en œuvre au moyen de ce haut-parleur 41 , ce qui évite d’interrompre le flux audio restitué sur un périphérique principal ou auxiliaire.
Exemple plus détaillé
Supposons la situation suivante : l’équipement 1 est un décodeur de type Set-Top box, le périphérique principal 2 est une télévision, on a un unique périphérique auxiliaire 3a (un casque connecté filairement), et on a un périphérique de contrôlé vocal 4 de type une enceinte connectée Djingo (avec moyens d’acquisition sonore 40 et un haut-parleur 41 ). Quatre utilisateurs parlent respectivement en français, espagnol, italien, et portugais et pour le film Django on dispose de flux audio en anglais (VO), français, espagnol et portugais, et de sous-titrage dans de nombreuses langues.
- (a) le premier utilisateur dit « Ok Djingo, je veux voir le film Django », le français est détecté comme la première langue, et la restitution avec un flux audio en français est lancée sur la télévision ; - (b) le deuxième utilisateur dit « Ok Djingo, quiero ver esta pellicula pero no la comprendo », l’espagnol est détecté comme la seconde langue, et les actions de restitution possibles suivantes sont identifiées :
o Restitution d’un flux audio en espagnol sur le casque, et o Ajout d’un sous-titrage en en espagnol ;
- (c) La première action est choisie (car préférentielle) et les utilisateurs sont informés par l’enceinte connectée que le flux audio en espagnol va être restitué sur le casque ;
- (b’) Le troisième utilisateur dit « Ok Djingo, nemmeno io capisco », l’italien est détecté comme troisième langue, et l’unique action de restitution possibles suivante est identifiée : ajout d’un sous-titrage en italien. En effet, il n’y a pas de flux audio en italien disponible
- (c’) Cette action est choisie (il n’y a pas d’autre choix) et les utilisateurs sont informés par l’enceinte connectée que des sous-titres en italien vont être ajoutés au flux vidéo ;
- (b”) Le quatrième utilisateur dit « Ok Djingo, Eu falo portugues », le portugais est détecté comme quatrième langue, et aucune action de restitution possible n’est identifiée : il y a un flux audio en portugais mais pas de périphérique auxiliaire disponible, et il y a déjà des sous-titres en italien
- (c”) Une action par défaut est choisie, en l’espèce ajouter un sous-titrage en anglais (i.e. à la place du sous-titrage en italien) et les utilisateurs sont informés par l’enceinte connectée que des sous-titres en anglais vont être ajoutés au flux vidéo.
Serveur de sécurité et équipement informatique
Selon un deuxième aspect, l’invention concerne l’équipement informatique 1 pour la mise en oeuvre du procédé selon le premier aspect.
Comme expliqué, cet équipement informatique 1 comprend un module de traitement de données 1 1 et peut en outre comprendre un module de stockage de données 12, etc., et est connecté au moins à un périphérique principal 2, et éventuellement à au moins un périphérique auxiliaire 3a, 3b et/ou un périphérique de contrôle vocal 4.
Le module de traitement de données 1 1 est ainsi configuré pour : Commander la restitution sur ledit périphérique principal 2 d’un flux vidéo et d’un premier flux audio associé à une première langue disponibles pour un contenu audiovisuel ;
Détecter une deuxième langue autre que la première langue parlée par au moins un utilisateur au voisinage dudit périphérique principal 2 ;
Commander la mise en oeuvre d’une action de restitution choisie parmi un ensemble d’actions de restitution possibles associées à ladite deuxième langue.
Produit programme d’ordinateur
Selon un troisième et un quatrième aspects, l’invention concerne un produit programme d’ordinateur comprenant des instructions de code pour l’exécution (en particulier sur le module de traitement de données 1 1 de l’équipement informatique 1 ) d’un procédé selon le premier aspect de l’invention de restitution d’un contenu audiovisuel pour lequel sont disponibles au moins un flux vidéo et un premier flux audio associé à une première langue, ainsi que des moyens de stockage lisibles par un équipement informatique (le module de stockage de données 12 de l’équipement informatique 1 ) sur lequel on trouve ce produit programme d’ordinateur.

Claims

REVENDICATIONS
1. Procédé de restitution d’un contenu audiovisuel pour lequel sont disponibles au moins un flux vidéo et un premier flux audio associé à une première langue, le procédé comprenant la mise en oeuvre par un module de traitement de données (1 1 ) d’un équipement (1 ) d’étapes de
(d) Restitution sur un périphérique principal (2) connecté audit équipement (1 ) desdits flux vidéo et premier flux audio ;
(e) Détection d’une deuxième langue autre que la première langue parlée par au moins un utilisateur au voisinage dudit périphérique principal (2) ;
(f) Mise en oeuvre d’une action de restitution choisie parmi un ensemble d’actions de restitution possibles associées à ladite deuxième langue.
2. Procédé selon la revendication 1 , dans lequel un deuxième flux audio associé à ladite deuxième langue est disponible pour ledit contenu audiovisuel, et un périphérique auxiliaire (3a, 3b) apte à restituer un flux audio est connecté audit équipement (1 ), ledit ensemble d’actions de restitution possibles associées à ladite deuxième langue comprenant une action de restitution dudit deuxième flux audio sur le périphérique auxiliaire (3a, 3b).
3. Procédé selon la revendication 2, dans lequel une pluralité de périphérique auxiliaires (3a, 3b) est connecté audit équipement (1 ), une action de restitution dudit deuxième flux audio sur un périphérique auxiliaire (3a, 3b) de ladite pluralité étant choisie à l’étape (c) en fonction d’au moins un paramètre associé à chaque périphérique auxiliaire (3a, 3b).
4. Procédé selon la revendication 3, dans lequel l’étape (c) comprend le signalement du périphérique auxiliaire (3a, 3b) de l’action de restitution dudit deuxième flux audio choisie.
5. Procédé selon l’une des revendications 1 à 4, dans lequel un sous-titrage associé à ladite deuxième langue est disponible pour ledit contenu audiovisuel, ledit ensemble d’actions de restitution possibles associées à ladite deuxième langue comprenant une action d’ajout dudit sous-titrage associé à ladite deuxième langue au flux vidéo.
6. Procédé selon l’une des revendications 1 à 5, dans lequel un deuxième flux audio associé à ladite deuxième langue est disponible pour ledit contenu audiovisuel et un sous-titrage associé à ladite première langue est disponible pour ledit contenu audiovisuel, ledit ensemble d’actions de restitution possibles associées à ladite deuxième langue comprenant une action de restitution du deuxième flux audio sur le périphérique principal (2) au lieu du premier flux audio et d’ajout dudit sous-titrage associé à ladite première langue au flux vidéo.
7. Procédé selon l’une des revendications 5 et 6, dans lequel l’action de restitution choisie à l’étape (c) est une action comprenant l’ajout d’un sous-titrage au flux vidéo si ledit ensemble d’actions de restitution possibles associées à ladite deuxième langue ne comprend pas d’action de restitution d’un deuxième flux audio sur un périphérique auxiliaire (3a, 3b).
8. Procédé selon l’une des revendications 1 à 7, dans lequel l’étape (a) comprend préalablement la détection de la première langue parlée par au moins un utilisateur au voisinage dudit périphérique principal (2).
9. Procédé selon l’une des revendications 1 à 8, dans lequel la détection d’une langue parlée par au moins un utilisateur au voisinage dudit périphérique principal (2) comprend l’acquisition par un module d’acquisition sonore (40) d’une parole dudit utilisateur, et l’analyse de ladite parole acquise de sorte à identifier la langue parlée.
10. Procédé selon les revendications 4 et 9 en combinaison, dans lequel ledit module d’acquisition sonore (30) est celui d’un périphérique de contrôle vocal (4) connecté à l’équipement (1 ) et comprenant en outre un haut-parleur (41 ), le signalement du périphérique auxiliaire (3a, 3b) de l’action de restitution dudit deuxième flux audio choisie étant mis en oeuvre au moyen dudit haut-parleur (41 ).
11. Procédé selon l’une des revendications 9 et 10, dans laquelle ladite parole est une commande vocale.
12. Procédé selon les revendications 3 et 1 1 en combinaison, dans laquelle ladite commande vocale désigne un périphérique auxiliaire (3a, 3b) de ladite pluralité, l’action de restitution choisie à l’étape (c) étant l’action de restitution dudit deuxième flux audio sur le périphérique auxiliaire (3a, 3b) désigné.
13. Equipement informatique (1 ) comprenant un module de traitement de données (1 1 ) et connecté à un périphérique principal (2), caractérisé en ce que le module de traitement de données (1 1 ) est configuré pour :
Commander la restitution sur ledit périphérique principal (2) d’un flux vidéo et d’un premier flux audio associé à une première langue disponibles pour un contenu audiovisuel ;
Détecter une deuxième langue autre que la première langue parlée par au moins un utilisateur au voisinage dudit périphérique principal (2) ; Commander la mise en œuvre d’une action de restitution choisie parmi un ensemble d’actions de restitution possibles associées à ladite deuxième langue
14. Produit programme d’ordinateur comprenant des instructions de code pour l’exécution d’un procédé selon l’une des revendications 1 à 12 de restitution d’un contenu audiovisuel pour lequel sont disponibles au moins un flux vidéo et un premier flux audio associé à une première langue, lorsque ledit programme est exécuté par un ordinateur.
15. Moyen de stockage lisible par un équipement informatique sur lequel un produit programme d’ordinateur comprend des instructions de code pour l’exécution d’un procédé selon l’une des revendications 1 à 12 de restitution d’un contenu audiovisuel pour lequel sont disponibles au moins un flux vidéo et un premier flux audio associé à une première langue.
PCT/FR2020/050258 2019-03-08 2020-02-13 Procédé de restitution d'un contenu audiovisuel WO2020183079A1 (fr)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
FR1902390A FR3093607A1 (fr) 2019-03-08 2019-03-08 Procédé de restitution d’un contenu audiovisuel
FR1902390 2019-03-08

Publications (1)

Publication Number Publication Date
WO2020183079A1 true WO2020183079A1 (fr) 2020-09-17

Family

ID=67383984

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/FR2020/050258 WO2020183079A1 (fr) 2019-03-08 2020-02-13 Procédé de restitution d'un contenu audiovisuel

Country Status (2)

Country Link
FR (1) FR3093607A1 (fr)
WO (1) WO2020183079A1 (fr)

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20110063317A1 (en) * 2009-09-14 2011-03-17 Gharaat Amir H Multifunction Multimedia Device
WO2013168254A1 (fr) * 2012-05-10 2013-11-14 三菱電機株式会社 Système de navigation pour corps mobiles
US20160240195A1 (en) * 2015-02-15 2016-08-18 Lenovo (Beijing) Co., Ltd. Information processing method and electronic device
US20170238026A1 (en) * 2016-02-11 2017-08-17 Motorola Mobility Llc Determining a Playback Rate of Media for a Requester

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20110063317A1 (en) * 2009-09-14 2011-03-17 Gharaat Amir H Multifunction Multimedia Device
WO2013168254A1 (fr) * 2012-05-10 2013-11-14 三菱電機株式会社 Système de navigation pour corps mobiles
US20160240195A1 (en) * 2015-02-15 2016-08-18 Lenovo (Beijing) Co., Ltd. Information processing method and electronic device
US20170238026A1 (en) * 2016-02-11 2017-08-17 Motorola Mobility Llc Determining a Playback Rate of Media for a Requester

Also Published As

Publication number Publication date
FR3093607A1 (fr) 2020-09-11

Similar Documents

Publication Publication Date Title
US10779016B2 (en) Apparatus, systems and methods for a content commentary community
JP5528324B2 (ja) スピーチ認識技術を使用して生成されるメタデータにより映像コンテンツに注釈をつける方法及び装置
US9147433B2 (en) Identifying a locale depicted within a video
RU2495539C2 (ru) Устройство отображения с объектно-ориентированным 3-мерным представлением координат места возникновения звука
KR100425302B1 (ko) 광 디스크 재생 방법
JP5765940B2 (ja) 画像を再生するための方法及び装置
US20130330056A1 (en) Identifying A Cinematic Technique Within A Video
JP4331217B2 (ja) 映像再生装置および方法
JP2020522733A (ja) 自動発話認識を使用して生成された入力を発話に基づいて訂正する方法およびシステム
US20070130588A1 (en) User-customized sound themes for television set-top box interactions
JP2011130279A (ja) コンテンツ提供サーバ、コンテンツ再生装置、コンテンツ提供方法、コンテンツ再生方法、プログラムおよびコンテンツ提供システム
JP4735413B2 (ja) コンテンツ再生装置およびコンテンツ再生方法
JP2007329833A (ja) 情報処理システム、記録再生装置、再生端末、情報処理方法、およびプログラム
WO2020183079A1 (fr) Procédé de restitution d'un contenu audiovisuel
US8843961B2 (en) Multiple resolution audio and video systems, methods of production, delivery and uses thereof
KR100597669B1 (ko) 멀티미디어 콘텐츠의 재생이 가능한 이동통신단말기 및 그재생방법
EP2489185B1 (fr) Procede pour rajouter un contenu vocal a un contenu video et dispositif mettant en oeuvre le procede
JP4191221B2 (ja) 記録再生装置、同時記録再生制御方法、および同時記録再生制御プログラム
CN103310815B (zh) 再现装置和再现装置的控制方法
JP6646172B1 (ja) 多言語コンテンツの教育用再生方法、そのためのデータ構造及びプログラム
KR101057798B1 (ko) 모바일 장치와 bd-j 규격을 지원하는 재생 장치를 이용한 애플리케이션 운용 방법
KR20070059572A (ko) 디지털 기록/재생 시스템에서의 타이틀 부가정보 처리 장치및 방법
JP2006254257A (ja) 視聴制限装置
US20090172015A1 (en) Apparatus and method for playing mapped objects
US20100138424A1 (en) Methods and Apparatus for the Creation and Editing of Media Intended for the Enhancement of Existing Media

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 20710214

Country of ref document: EP

Kind code of ref document: A1

NENP Non-entry into the national phase

Ref country code: DE

122 Ep: pct application non-entry in european phase

Ref document number: 20710214

Country of ref document: EP

Kind code of ref document: A1