WO2017191397A1

WO2017191397A1 - Procédé et dispositif de synchronisation de sous-titres

Info

Publication number: WO2017191397A1
Application number: PCT/FR2017/051032
Authority: WO
Inventors: Nicolas Bellardie; Romain Carbou
Original assignee: Orange
Priority date: 2016-05-03
Filing date: 2017-04-28
Publication date: 2017-11-09
Also published as: FR3051092A1

Abstract

L'invention concerne un procédé de synchronisation d'un sous-titre (ST) compris dans un ensemble ordonné (S) de sous-titres associé à un contenu multimédia (V), avec un segment audio (AC) du contenu multimédia (V), le procédé étant caractérisé en ce qu'il comporte : - une étape de conversion automatique, en texte (TXT), d'un segment audio courant (AC) du contenu multimédia (V); - une étape de recherche dans ledit ensemble ordonné (S) de sous-titres, d'un sous-titre (ST) correspondant audit texte (TXT); - si un sous-titre (ST) correspondant audit texte (TXT) est identifié, une étape de synchronisation dudit sous-titre identifié (ST) avec ledit segment audio courant (AC).

Description

Procédé et dispositif de synchronisation de sous-titres Arrière-plan de l'invention

L'invention se rapporte au domaine général de la gestion de contenus multimédias. Elle concerne plus particulièrement la synchronisation d'un sous-titre compris dans un fichier de sous-titres associé à un contenu multimédia (ex. film, série télévisée, actualités, vidéo, programme radio, chanson...) avec un segment audio (ex. parole, dialogue, effet sonore, ambiance sonore, etc.) de ce contenu multimédia.

Aujourd'hui, les systèmes multimédia sont fortement répandus, par exemple sous la forme de décodeurs TV (« set-top box » en anglais), de télévisions connectées, de centres multimédias (ordinateurs personnels permettant la distribution de médias au sein du foyer).

Ces systèmes peuvent associer des sous-titres aux œuvres audio ou audiovisuelles et les afficher de façon synchronisée avec le flux multimédia. De nombreux sites proposent maintenant des sous-titres réalisés par des volontaires et mis gracieusement à disposition du public dans un certain nombre de langues.

Cependant, la synchronisation est délicate, car elle est le plus souvent basée sur un système d'horodatage de chaque ligne de sous-titres. Lorsque le débit du flux est modifié ou lorsque l'œuvre est amputée d'une partie de son contenu par exemple lors de montages spécifiques à certains pays, les sous-titres sont irrémédiablement décalés.

Dans l'état actuel de la technique, il existe des moyens pour recaler les sous-titres, voire pour changer le débit total d'un fichier de sous-titres. Néanmoins, ces méthodes sont difficiles à utiliser et ne permettent pas d'obtenir une synchronisation satisfaisante.

Une méthode utilisée pour résoudre un problème de décalage entre un flux audio et un sous-titre se présente comme suit : un spectateur regarde les sous-titres affichés sur l'œuvre tout en écoutant les paroles ou dialogues de l'œuvre ; il détecte à un moment donné un décalage entre le son et le sous-titre ; il interrompt alors la lecture de l'œuvre pour chercher dans un fichier de sous-titres un sous-titre correct afin de le recaler.

Cette méthode lourde et inefficace exige que le spectateur entende et comprenne les paroles ou dialogues pour détecter le décalage et identifier un sous-titre correct dans un fichier de sous-titres. Une telle méthode ne peut être utilisée par un spectateur sourd ou ne maîtrisant pas suffisamment la langue du flux multimédia.

Objet et résumé de l'invention

L'invention vise notamment à améliorer cette situation en proposant, selon un premier aspect de l'invention, un procédé de synchronisation d'un sous-titre compris dans un ensemble ordonné de sous-titres associé à un contenu multimédia, avec un segment audio du contenu multimédia. Ce procédé comporte :

une étape de conversion automatique, en texte, d'un segment audio courant du contenu multimédia;

- une étape de recherche dans l'ensemble ordonné de sous-titres, d'un sous-titre correspondant au texte; et

si un sous-titre correspondant au texte est identifié, une étape de synchronisation du sous-titre identifié avec le segment audio courant.

Selon un deuxième aspect, l'invention vise aussi un dispositif de synchronisation d'un sous-titre compris dans un ensemble ordonné de sous-titres associé à un contenu multimédia, avec un segment audio du contenu multimédia, le dispositif comportant :

un module de conversion automatique, en texte, d'un segment audio courant du contenu multimédia;

un module de recherche dans l'ensemble ordonné de sous-titres, d'un sous-titre correspondant au texte; et

un module de synchronisation, activé si un sous-titre correspondant au texte est identifié, du sous-titre identifié avec le segment audio courant.

L'invention propose ainsi avantageusement d'utiliser une conversion automatique audio-texte pour faciliter l'identification dans un ensemble ordonné de sous-titres, d'un sous-titre adéquat à un segment audio (ex. parole, dialogue, chant...) d'un contenu multimédia (ex. audio, vidéo...)- Réalisée par une technique de reconnaissance vocale (« speech to text » ou « speech récognition » en anglais) connue en soi, cette conversion automatique permet d'analyser la voix humaine pour la transcrire sous la forme d'un texte exploitable par un ordinateur.

L'ensemble ordonné de sous-titres peut être constitué par un fichier de sous-titres. En variante, les sous-titres peuvent être compris dans le flux multimédia, soit de façon groupée (par exemple au début du flux) soit répartis dans le flux.

La conversion automatique du segment audio courant en texte (le segment audio courant correspondant au segment audio en cours d'analyse selon le procédé conforme à l'invention), l'invention facilite et accélère l'identification du sous-titre correspondant au segment audio courant.

Avantageusement, l'invention ne nécessite plus, comme dans l'état actuel de la technique, d'entendre et de comprendre un segment audio pour détecter un décalage entre le son et le sous-titre et identifier un sous-titre correspondant au segment audio.

En outre, l'utilisation de la conversion automatique audio-texte permet une automatisation, c'est-à-dire sans intervention humaine, des opérations (ex. la recherche du sous- titre adéquat et la synchronisation du sous-titre adéquat identifié) du processus de synchronisation. L'invention évite, comme c'est le cas dans l'état actuel de la technique, d'interrompre la lecture du contenu et de chercher manuellement le sous-titre correct dans un ensemble ordonné de sous-titre pour effectuer le recalage. L'automatisation du processus de synchronisation augmente l'efficacité de la synchronisation tout en améliorant l'expérience de l'utilisateur du contenu multimédia.

Dans un mode de réalisation particulier, les étapes du procédé de synchronisation sont réalisées de façon préalable à la restitution du contenu multimédia. Le procédé de synchronisation peut ainsi constituer en un prétraitement réalisé avant le démarrage de la restitution du contenu multimédia. Dans ce cas, le segment audio courant analysé n'est pas restitué à l'utilisateur. Le procédé peut ainsi être mis en œuvre sans diffusion sonore audible par l'utilisateur.

Ce mode de réalisation permet de préparer un contenu multimédia corrigé (ex. celui intégrant des sous-titres synchronisés, ou celui auquel est associé un ensemble ordonné de sous- titres dont des sous-titres sont synchronisés, etc.) pour une restitution ultérieure.

Dans un mode de réalisation particulier, le contenu multimédia est interrompu momentanément pour identifier le sous-titre correspondant au texte. Cela laisse au processus du temps supplémentaire pour effectuer la recherche. Ce mode de réalisation est utile notamment lorsque le consommateur du contenu multimédia n'est pas un utilisateur final, mais une personne ou un automate produisant à son tour une opération d'édition du contenu résultant.

Dans un mode de réalisation particulier, les étapes du procédé de synchronisation sont réalisées à la volée lors d'une restitution continue du contenu multimédia.

Autrement dit, les étapes, notamment, de la conversion du segment audio courant, de l'identification du sous-titre adéquat (celui correspondant au texte), et de la synchronisation du sous-titre identifié avec le segment audio courant sont accomplies automatiquement avant la restitution du segment audio suivant le segment audio courant, pendant la restitution continue du contenu multimédia (ex. flux vidéo, flux audio restitué en temps réel...). Dans ce cas, le segment audio courant est celui au point de restitution.

Ce mode de réalisation permet une synchronisation automatique et imperceptible pendant la restitution en temps réel du contenu. Dans l'état actuel de la technique, ceci est inenvisageable, la contrainte temps réel ne permettant pas un arrêt momentané du contenu pour recaler un sous-titre. Cette synchronisation garantit une expérience multimédia sans couture.

Dans un mode de réalisation particulier, le procédé comporte en outre :

- une étape pour détecter que la langue dans laquelle les sous-titres de l'ensemble ordonné de sous-titres sont rédigées est différente d'une langue déterminée dans laquelle les sous- titres doivent être restitués; et

une étape de traduction des sous-titres de l'ensemble ordonné de sous-titres dans une langue déterminée, le sous-titre identifié étant un sous-titre traduit dans cette langue déterminée.

Ce mode de réalisation concerne en particulier un cas où un spectateur veut regarder son contenu multimédia avec les sous-titres rédigés dans une langue dont les sous-titres ne sont pas disponibles dans le contenu multimédia. Par conséquent, ce mode de réalisation propose de traduire les sous-titres dans une langue déterminée ou spécifiée par exemple par le spectateur, puis d'identifier un sous-titre traduit (correspondant au texte obtenu par conversion). Ce mode de réalisation permet de modifier, de manière flexible, la langue des sous-titres.

Dans un mode de réalisation particulier, le procédé comporte en outre :

une étape pour détecter que la langue dans laquelle les sous-titres l'ensemble ordonné de sous-titres sont rédigées est différente de celle du contenu multimédia ; et

une étape de traduction du texte dans la langue des sous-titres, le sous-titre identifié correspondant au texte traduit dans la langue des sous-titres.

Autrement dit, avant de rechercher un sous-titre correspondant au segment audio courant dans l'ensemble ordonné de sous-titres, il est détecté que la langue dans laquelle sont rédigés les sous-titres (ou la plupart des sous-titres) de l'ensemble ordonné de sous-titres est différente de celle des (ou de la plupart des) paroles ou dialogues du contenu. Dans ce cas, la langue du texte obtenu par conversion étant différente de celle des sous-titres, le texte est traduit dans la langue des sous-titres afin d'effectuer l'étape de recherche du procédé.

Comme dans l'art antérieur, la langue des sous-titres est généralement identifiée immédiatement à partir des sous-titres et celle du contenu multimédia précisée dans les métadonnées du contenu.

Ce mode de réalisation permet ainsi une identification de sous-titres en langue étrangère (c'est-à-dire ceux rédigés dans une différente langue que le son du contenu) pour la synchronisation.

On note que les étapes de ce mode de réalisation peuvent succéder à l'étape de traduction des sous-titres du mode de réalisation précédent. Autrement dit, les sous-titres inclus dans le contenu multimédia ou dans un fichier de sous-titres sont traduits dans une langue déterminée, puis il est détecté que cette langue déterminée (celle des sous-titres traduits) est différente de celle du contenu multimédia. Le texte est ensuite traduit dans cette langue déterminée et est utilisé dans l'étape de recherche du procédé pour identifier un sous-titre adéquat (i.e. correspondant au texte traduit), ce sous-titre identifié étant un sous-titre traduit dans la langue déterminée.

Dans un mode de réalisation particulier, au cours de l'étape de recherche du procédé, l'identification du sous-titre correspondant au texte comporte :

- une étape de recherche d'au moins un mot du texte dans au moins un sous-titre cible de l'ensemble ordonné de sous-titres; et

une étape de calcul d'un taux de mots au moins partiellement reconnus pour chaque sous-titre cible;

le sous-titre correspondant au texte étant choisi parmi au moins un sous-titre cible, ce sous-titre ayant un taux de mots reconnus supérieur à un seuil prédéterminé et/ou ayant le taux de mots reconnus le plus élevé.

Autrement dit, afin d'identifier le sous-titre adéquat (celui correspondant au texte obtenu par conversion du segment audio courant), ce mode de réalisation propose de comparer au moins un sous-titre cible (par ex. un sous-titre associé au segment courant ou précédent, rédigé dans une langue originale indiquée par le contenu multimédia ou par un fichier externe de sous- titres, et, le cas échéant traduit dans une langue déterminée) de l'ensemble ordonné de sous-titres avec le texte obtenu par conversion à partir du segment audio courant (et éventuellement traduit dans la langue des sous-titres ou dans la langue déterminée), pour chercher à reconnaître un ou plusieurs mots du texte dans chaque sous-titre cible.

Ensuite, on calcule un taux de mots au moins partiellement reconnus (ex. 4 mots reconnus sur 5, 1 mot reconnu sur 2) pour chaque sous-titre cible. Le sous-titre cible dont le taux de mots reconnus est maximum ou supérieur à un seuil prédéterminé (ex. 50%, 80%) est alors déterminé comme le sous-titre correspondant au texte.

Ce mode de réalisation apporte de la flexibilité dans l'étape de la recherche du sous- titre adéquat, car il n'impose pas que tous les mots du texte soient reconnus.

Dans un mode de réalisation particulier, au moins un mot du texte est au moins partiellement reconnu dans le sous-titre cible tout en tenant compte d'au moins une variante du mot. Dans ce mode de réalisation, le mot compris dans le texte n'est pas seulement comparé directement avec celui compris dans le sous-titre cible, mais il est remplacé, par exemple lorsqu'il n'est pas identifié par comparaison directe, par au moins une variante du mot telle que son synonyme, homophone, une expression idiomatique, etc., chaque variante étant comparée avec un mot du sous-titre cible. Dans un mode de réalisation, les variantes (synonyme, homophone, expression idiomatique) du mot du texte sont fournies lors de la traduction du texte au moyen d'un dictionnaire sémantique numérique.

Ce mode de réalisation permet d'étendre la recherche.

Dans un mode de réalisation particulier, s'il existe un doute sur la correspondance entre un sous-titre et le texte, ce doute peut être levé en analysant le segment audio suivant. En effet, si pour le segment audio suivant, une correspondance peut être établie entre le texte du segment audio suivant et un sous-titre, le doute peut être levé positivement.

Dans un mode de réalisation, le sous-titre cible est le sous-titre associé à un segment audio précédant le segment audio courant. Dans une variante, le sous-titre cible est le sous-titre associé au segment audio courant (par exemple s'il n'y pas de segment audio précédent). Dans une autre variante, les sous-titres cibles sont le sous-titre précédent et au moins un sous-titre suivant le sous-titre précédent (autrement dit le sous-titre courant et éventuellement d'autres subséquents). Dans une autre variante, les sous-titres cibles sont le sous-titre courant et au moins un sous-titre suivant le sous-titre courant.

On rappelle que dans des exemples de l'art antérieur, un sous-titre dans un fichier de sous-titres (ex. un fichier du format SubRip avec une extension .srt, ou du format sub, ssa, txt, etc.) peut comporter un numéro du sous-titre (ex. 1, 2, 3, etc.), un texte du sous-titre, un horodatage d'entrée indiquant le début du sous-titre et un horodatage de sortie du sous-titre indiquant la fin du sous-titre, la différence entre ces deux horodatages définissant la durée du sous-titre (ex. 01 :03 :27 :000 / 01 :03 :29 :015, la durée étant 2 secondes 15 millisecondes).

Le sous-titre précédent s'entend ici par un sous-titre dont l'horodatage d'entrée (ou de restitution) coïncide sensiblement avec celui du segment audio précédent, autrement dit, celui qui doit être restitué, lors de ou immédiatement après la restitution du segment audio précédent. Le sous-titre suivant le sous-titre précédent désigne alors celui qui est positionné, dans l'ensemble ordonné de sous-titres, après le sous-titre précédent.

En effet, il est très probable en réalité que le sous-titre adéquat au segment audio courant soit positionné après le sous-titre précédent. Ainsi, l'utilisation d'au moins un sous-titre cible à partir du sous-titre précédent permet une identification plus efficace du sous-titre adéquat. En variante, au moins un sous-titre cible peut être déterminé d'une autre façon. Par exemple, un sous-titre cible est déterminé s'il est vérifié que son horodatage d'entrée relève d'une période déterminée (ex. 5 secondes, 10 secondes, etc.) autour du segment audio courant.

Dans un mode de réalisation particulier, le procédé comporte en outre une étape de réglage des horodatages de tous les sous-titres suivant le sous-titre identifié. Par exemple, cette étape est effectuée s'il est détecté que les sous-titres sont conformes en contenu mais se déroulent plus rapidement ou plus lentement que le contenu multimédia avec un rapport de vitesse constant par rapport à celui-ci. Ce mode de réalisation permet d'éviter de réaliser les étapes du procédé à chaque sous-titre mais de synchroniser tous les sous-titres restants en une seule fois. Cela augmente l'efficacité de la synchronisation des sous-titres.

On note qu'il n'est pas nécessaire de réaliser les opérations du procédé à chaque sous- titre si le processus détecte une grande conformité entre le contenu et les sous-titres à restituer. Il est envisageable d'effectuer le procédé de façons ponctuelles.

Dans un mode de réalisation particulier, si aucun sous-titre correspondant au texte du segment audio courant n'est identifié, le procédé est remis en œuvre pour un segment audio suivant. Autrement dit, il procède à la conversion automatique en texte du segment audio suivant et à la recherche dans l'ensemble ordonné de sous-titres d'un sous-titre correspondant au texte pour ce segment audio suivant. Ce mode de réalisation est particulièrement avantageux pour une synchronisation pendant une restitution continue du contenu multimédia (ex. flux vidéo temps- réel). En variante, le contenu multimédia est interrompu momentanément pour effectuer une recherche approfondie (ex. en utilisant un nombre accru de sous-titres cibles, en envisageant plus de synonymes, d'homophones, d'expressions idiomatiques, etc.).

Selon un troisième aspect, l'invention vise un équipement comportant :

des moyens d'obtention d'un contenu multimédia et d'un ensemble ordonné de sous- titres ; un décodeur comprenant un dispositif de synchronisation selon l'invention ; et des moyens d'acheminement du contenu multimédia et de l'ensemble ordonné de sous-titres vers le décodeur.

Les avantages et caractéristiques particuliers du dispositif de synchronisation et du système selon l'invention sont identiques à ceux du procédé décrit ci-dessus et ne seront pas rappelés ici.

On peut en outre également envisager, dans d'autres modes de réalisation, que le procédé de synchronisation, le dispositif de synchronisation et le système selon l'invention présentent en combinaison tout ou partie des caractéristiques précitées.

Dans un mode particulier de réalisation, les différentes étapes du procédé de synchronisation sont déterminées par des instructions d'un programme d'ordinateur.

En conséquence, l'invention vise aussi un programme d'ordinateur sur un support d'information, ce programme étant susceptible d'être mis en œuvre dans un ordinateur, pour la mise en œuvre des étapes du procédé de synchronisation selon l'invention, tel que brièvement décrit ci-dessus.

Ce programme peut utiliser n'importe quel langage de programmation, et être sous la forme de code source, code objet, ou de code intermédiaire entre code source et code objet, tel que dans une forme partiellement compilée, ou dans n'importe quelle autre forme souhaitable.

L'invention vise aussi un support d'information lisible par un ordinateur, et comportant des instructions du programme d'ordinateur tel que mentionné ci-dessus.

Le support d'information peut être n'importe quel entité ou dispositif capable de stocker le programme. Par exemple, le support peut comporter un moyen de stockage, tel qu'une ROM, par exemple un CD ROM ou une ROM de circuit microélectronique, ou encore un moyen d'enregistrement magnétique, par exemple une disquette (« floppy dise » en anglais), un disque dur, ou une clé USB.

D'autre part, le support d'information peut être un support transmissible tel qu'un signal électrique ou optique, qui peut être acheminé via un câble électrique ou optique, par radio ou par d'autres moyens. Les programmes selon l'invention peuvent être en particulier téléchargés sur un réseau de type Internet.

Alternativement, le support d'information peut être constitué de circuits intégrés dans lesquels le programme est incorporé, les circuits étant adaptés pour exécuter ou pour être utilisés dans l'exécution du procédé en question.

Brève description des dessins

D'autres caractéristiques et avantages de la présente invention ressortiront de la description faite ci-dessous, en référence aux dessins annexés qui en illustrent un exemple de réalisation dépourvu de tout caractère limitatif. Sur les figures :

la figure 1 représente un équipement EQ conforme à l'invention dans un mode particulier de réalisation de l'invention ; la figure 2 représente l'architecture matérielle d'un dispositif de synchronisation conforme à l'invention dans un mode particulier de réalisation de l'invention ;

la figure 3 représente les principales étapes d'un procédé de synchronisation mis en œuvre par le dispositif de synchronisation conforme à l'invention pour synchroniser un sous-titre compris dans un ensemble ordonné de sous-titres associé à un contenu multimédia, avec un segment audio du contenu multimédia dans un mode particulier de réalisation de l'invention ;

la figure 4 illustre un exemple d'un flux vidéo associé à un ensemble ordonné de sous- titres avant et après une synchronisation conforme à l'invention. Description détaillée de l'invention

La figure 1 représente, dans son environnement, un équipement EQ conforme à l'invention dans un mode particulier de réalisation de l'invention. Cet équipement EQ (ex. téléphone, set-top-box, ordinateur, lecteur multimédia etc.) comprend un décodeur DEC muni d'un dispositif de synchronisation DS conforme à l'invention.

Dans le mode de réalisation décrit ici, le dispositif de synchronisation DS est mis en œuvre au sein du décodeur DEC. En variante, le dispositif de synchronisation DS est mis en œuvre dans un équipement externe au décodeur DEC.

L'équipement EQ comporte également des moyens MO (ex. antenne, interface entrée/sortie) d'obtention d'un contenu multimédia V et d'un ensemble ordonné de sous-titres S, et des moyens MA d'acheminement du contenu multimédia V et de l'ensemble S vers le décodeur

DEC.

Dans le mode de réalisation décrit ici, l'équipement EQ est lié à un écran externe. En variante, l'équipement EQ comporte un écran.

Dans l'exemple de la figure 1, l'équipement EQ permet au dispositif de synchronisation DS intégré dans le décodeur DEC, de synchroniser un sous-titre ST (qui n'est pas illustré sur la figure 1) compris dans un ensemble ordonné S de sous-titres inclus dans le contenu multimédia, ici un flux vidéo V, avec un segment audio AC (non illustré sur la figure 1) de ce contenu multimédia, pour que le segment audio AC et le sous-titre ST soient restitués de façon synchronisée sur l'écran.

Dans le mode de réalisation décrit ici, l'équipement EQ obtient via ses moyens MO l'ensemble ordonné de sous-titres S à partir du flux vidéo V reçu d'un réseau de communications NW. En variante, l'équipement EQ obtient via ses moyens MO l'ensemble S à partir d'un fichier externe de sous-titres obtenu d'une mémoire locale ou externe.

Conformément à l'invention, la synchronisation du sous-titre ST mise en œuvre par le dispositif de synchronisation DS comporte une étape de conversion automatique d'un segment audio courant AC en texte TXT et une identification du sous-titre ST correspondant au texte TXT. Comme mentionné précédemment, par « segment audio courant », on entend le segment audio en cours d'analyse par le dispositif de synchronisation DS. Dans le mode de réalisation décrit ici, l'équipement EQ communique via ses moyens MO avec le réseau NW de communications pour recevoir le flux vidéo V. Aucune limitation n'est attachée à la nature du réseau NW de communications. Il peut s'agir indifféremment d'un réseau de télécommunications fixe, mobile, sans fil, optique, filaire, etc. En variante, l'équipement EQ obtient via ses moyens MO un fichier vidéo V localement. Aucune limitation n'est attachée à la nature du contenu multimédia V. Il peut s'agir indifféremment d'un flux ou d'un fichier d'un film, d"une série télévisée, d'actualités, d'une vidéo, d'un programme radio, d'une chanson, etc.

De même, aucune limitation n'est attachée à la nature de l'ensemble ordonné de sous- titres S. Il peut s'agir indifféremment d'un ensemble ordonné de sous-titres inclus (de manière distribuée ou regroupée) dans un flux ou fichier multimédia, ou enregistrés dans un fichier externe de sous-titres de format srt, sub, ssa, txt, etc.

Dans le mode de réalisation décrit ici, le dispositif de synchronisation DS a l'architecture matérielle d'un ordinateur, telle que représentée schématiquement à la figure 2.

En relation avec la figure 2, le dispositif de synchronisation DS comporte notamment un processeur 10, une mémoire non volatile réinscriptible 11, une mémoire morte de type ROM (pour « Read-only memory », en anglais) 12, une mémoire vive de type RAM (pour « Random- access memory », en anglais) 13 et un module ML de lecture.

Le module ML de lecture permet au dispositif de synchronisation DS de lire l'ensemble ordonné S de sous-titres et le flux vidéo V obtenus par le décorateur DEC afin de réaliser la synchronisation conformément à l'invention.

La mémoire morte 12 du dispositif de synchronisation DS constitue un support d'enregistrement conforme à l'invention, lisible par le processeur 10 et sur lequel est enregistré un programme d'ordinateur PG conforme à l'invention comportant des instructions pour l'exécution des étapes d'un procédé de synchronisation selon l'invention tel qu'il est mis en œuvre par le dispositif de synchronisation DS et dont les étapes sont détaillées ultérieurement en référence à la figure 3.

Ce programme d'ordinateur PG définit de façon équivalente des modules fonctionnels du dispositif de synchronisation DS (modules logiciels ici), et notamment ici un module MC de conversion automatique du segment audio courant AC du contenu multimédia V, un module MR de recherche d'un sous-titre ST et un module MS de synchronisation du sous-titre ST.

Les fonctions de ces modules logiciels sont détaillées ultérieurement en référence aux étapes du procédé de synchronisation selon l'invention.

Nous allons maintenant décrire, en référence à la figure 3, les principales étapes d'un procédé de synchronisation mis en œuvre par le dispositif de synchronisation DS de la figure 2 pour synchroniser un sous-titre ST compris dans l'ensemble ordonné de sous-titres S associé au flux vidéo V, avec une ligne de dialogue AC de ce flux V dans un mode particulier de réalisation de l'invention. Conformément à l'invention, l'identification du sous-titre ST correspondant au segment audio courant AC est réalisée par l'intermédiaire d'un texte TXT obtenu par conversion automatiquement à partir du segment audio courant AC.

A titre d'exemple et en référence à la figure 4, un flux vidéo d'origine comporte cinq segments audio, ici cinq lignes de dialogue, chacune ayant un horodatage Hi (i=l, 2,...,5) représentant l'instant de restitution de la ligne de dialogue. L'ensemble ordonné S de sous-titres associé à ce flux vidéo origine comporte cinq sous-titres STi (i= l, 2,...,5) correspondant aux cinq lignes de dialogue, chacun ayant également un horodatage Hi (i= l, 2,...,5) représentant l'instant de restitution du sous-titre STi.

Dans l'exemple présenté ici, le flux vidéo d'origine est amputé d'une partie comprenant la troisième ligne de dialogue (« Très bien ») résultant le flux vidéo V. Cette amputation entraine une désynchronisation ou un décalage entre le son et le sous-titre à partir de la troisième ligne de dialogue. En particulier, si l'invention n'était pas mise en œuvre, le sous-titre ST3 « Fine » serait restitué à l'horodatage H3 en correspondance avec le flux « Merci ».

Nous allons maintenant décrire, en référence à la figure 3 et à la figure 4, en détails les étapes du procédé mis en œuvre par le dispositif de synchronisation DS dans un mode particulier de réalisation de l'invention.

Dans ce mode de réalisation, le procédé de synchronisation comporte une phase préliminaire E10 comprenant les étapes E12 à E16 décrites ci-après, pour vérifier si les sous-titres compris dans l'ensemble ordonné S de sous-titres doivent être traduits et si un texte obtenu par conversion d'une ligne de dialogue du flux vidéo V doit être traduit. En variante, cette phase E10 comporte seulement les étapes E14 à E16 pour vérifier s'il est nécessaire de traduire un texte obtenu par conversion d'une ligne de dialogue du flux vidéo V. Dans un autre mode de réalisation, cette phase E10 n'est pas effectuée.

Le dispositif de synchronisation DS détecte (E12) si la langue LS, ici l'anglais, dans laquelle les sous-titres STi de l'ensemble ordonné S de sous-titres sont rédigés est différente d'une langue déterminée LD dans laquelle les sous-titres STi doivent être restitués. Si la langue LS est différente de la langue déterminée LD, les sous-titres STi de l'ensemble ordonné S sont traduits (E13) dans la langue déterminée LD.

Si non, comme supposé dans ce mode de réalisation, le dispositif de synchronisation

DS détecte si la langue LS, ici l'anglais, des sous-titres STi de l'ensemble ordonné S de sous-titres est différente de la langue LV, ici le français, du flux vidéo V. Cette langue LV du flux vidéo V est ici par exemple indiquée dans les métadonnées comprises dans le flux vidéo V.

Si le dispositif de synchronisation DS détecte (E14) que la langue LS des sous-titres STi est identique à la langue LV du flux vidéo V, il détermine et mémorise (E15) qu'un texte obtenu par conversion d'une ligne de dialogue ne doit pas être traduit dans la langue LS des sous-titres STi. Sinon, il détermine et mémorise (E16) que le texte doit être traduit dans la langue LS des sous-titres STi.

C'est le cas dans l'exemple décrit ici.

Ensuite, le dispositif de synchronisation DS analyse un segment audio du flux vidéo V pour le synchroniser avec un sous-titre STi compris dans l'ensemble ordonné S. On note que cette analyse peut être appliquée à partir du premier segment audio du flux vidéo V ou à partir d'un quelconque segment audio du flux vidéo V. Autrement dit, le procédé selon l'invention peut être effectué de façon ponctuelle, et non pas sur l'intégralité du flux vidéo V.

On suppose ici que le segment audio courant AC, c'est-à-dire ici celui qui est au point de restitution, est « Merci », la troisième ligne de dialogue du flux vidéo V. Cette ligne de dialogue courante AC a maintenant l'horodatage H3 représentant l'instant où elle est restituée durant la restitution du flux vidéo V.

Le dispositif de synchronisation DS obtient (E20) cette ligne de dialogue courante AC par son module ML de lecture.

Ensuite, il convertit (E30) automatiquement, par son module MC de conversion, la ligne de dialogue courante AC « Merci » en texte TXT3 « Merci » illustré sur la figure 4. Ce texte TXT3 a un horodatage H3 correspondant à celui de la ligne de dialogue courante AC. Comme mentionné ci-avant, cette conversion automatique est réalisée à l'aide d'une technique de reconnaissance vocale (« speech to text » en anglais) permettant d'analyser la voix humaine pour la transcrire sous la forme d'un texte exploitable par un ordinateur.

Comme précédemment mentionné, il est déterminé et mémorisé, au cours de l'étape E16 de la phase préliminaire E10, que le texte obtenu par conversion d'une ligne de dialogue doit être traduit dans la langue LS (l'anglais dans cet exemple) des sous-titres STi de l'ensemble ordonné S.

Par conséquent, le dispositif de synchronisation DS traduit (E40) le texte TXT3 obtenu par conversion de la ligne de dialogue courante AC dans la langue LS des sous-titres STi. Cette étape E40 de traduction résulte ici alors un texte traduit TXT3' « Thanks » en anglais, ce texte traduit TXT3' gardant l'horodatage H3 du texte TXT3.

Ensuite, le dispositif de synchronisation DS effectue par son module MR de recherche, une phase E50 de recherche d'un sous-titre correspondant au texte traduit TXT3' dans l'ensemble ordonné S de sous-titres. Cette phase E50 de recherche comporte ici les étapes E51 à E54 suivantes.

Le dispositif de synchronisation DS détermine (E51) au moins un sous-titre cible STp à partir de l'ensemble ordonné S de sous-titres. Dans ce mode de réalisation, ces sous-titres cibles STp sont déterminés à partir d'un sous-titre associé à un segment audio précédent le segment audio courant AC, c'est à dire à partir d'un sous-titre précédent (ici du sous-titre ST2). On suppose ici que les sous-titres cibles STp comportent ST2, ST3 et ST4. En variante, au moins un sous-titre cible peut être autrement déterminé. Par exemple, un sous-titre cible est déterminé s'il est vérifié que son horodatage de restitution relève d'une période déterminée comprenant celui du segment audio courant AC.

Suite à la détermination des sous-titres cibles STp, le dispositif de synchronisation DS cherche à reconnaître (E52) au moins un mot Mi du texte TXT3' dans chaque sous-titre cible STp (ici ST2, ST3 et ST4). Comme illustré à la figure 4, il recherche le mot Mi « Thanks » du texte TXT3' dans le sous-titre ST2 « How are you », ST3 « Fine » et ST4 « Thank you ».

Dans ce mode de réalisation, le mot Mi « Thanks » est reconnu dans le sous-titre ST4 tout en tenant compte d'une expression idiomatique « Thank you ».

Ensuite, le dispositif de synchronisation DS calcule (E53) un taux R de mots au moins partiellement reconnus pour chaque sous-titre cible STp. Il obtient ici les taux R de mots reconnus 0, 0 et 100% respectivement pour les sous-titres cibles ST2, ST3 et ST4.

Suite au calcul des taux R, le dispositif de synchronisation DS détermine (E54) s'il existe, parmi les sous-titres cibles STp, un sous-titre ST correspondant au texte obtenu par conversion TXT de la ligne de dialogue courante AC, ici au texte TXT3' en outre traduit dans la langue LS des sous-titres du fichier S de sous-titres.

Dans ce mode de réalisation, il détermine (E54) que le sous-titre ST4 dont le taux R de mots reconnus est le plus élevé comme le sous-titre ST correspondant au texte TXT3'. De façon alternative ou additionnelle, il peut déterminer un sous-titre cible STp dont le taux R de mots reconnus atteint un seuil Tr prédéterminé (ex. 50%, 80%) comme le sous-titre correspondant au texte.

S'il est déterminé (E54) qu'aucun sous-titre cible STp ne correspond au texte TXT, le procédé de synchronisation peut passer à un segment audio suivant, ici la ligne de dialogue « Au revoir » de l'horodatage H4, ou il peut interrompre momentanément le flux vidéo V pour effectuer une recherche approfondie par exemple en utilisant plus de sous-titres cibles, en tenant en compte plus de synonymes, d'homophones, d'expressions idiomatiques, etc.

On suppose ici qu'il est déterminé (E54) qu'il existe, parmi les sous-titres cibles STp, le sous-titre ST4 qui correspond au texte TXT3' car ce sous-titre ST4 a le taux R de mots reconnus le plus élevé. De façon alternative ou additionnelle, il peut déterminer l'existence d'un sous-titre STp correspondant au texte TXT si ce sous-titre a un taux R de mots reconnus atteignant ou supérieur à un seuil prédéterminé.

Par conséquent, le dispositif de synchronisation DS identifie (E60) ici le sous-titre ST4 comme le sous-titre ST correspondant au texte TXT à l'issue de la phase E50 de recherche.

Dans un autre mode de réalisation, le contenu multimédia est traité par le dispositif de synchronisation DS de façon préalable à la restitution du contenu (c'est-à-dire non pas analysé au cours d'une restitution en temps réel). S'il existe un doute sur la correspondance entre un sous- titre et le texte du segment audio courant, ce doute peut être levé en analysant le segment audio suivant. En effet, si pour le segment audio suivant, une correspondance peut être établie entre le texte du segment audio suivant et un sous-titre, le doute peut être levé positivement. Le dispositif de synchronisation DS synchronise (E70) alors, par son module MS de synchronisation, le sous-titre ST identifié, ici ST4, avec la ligne de dialogue courante AC (« Merci »). Autrement dit, il avance le sous-titre identifié ST à l'horodatage H3 de la ligne de dialogue courante AC.

Ainsi, le dispositif de synchronisation DS synchronise le sous-titre ST4 avec la ligne de dialogue courante AC. C'est à dire, l'horodatage du sous-titre ST4 n'est plus H4, mais synchronisé avec l'horodatage H3 de la ligne de dialogue courante AC. De la même façon et au fur et à mesure, le dispositif de synchronisation DS peut appliquer le procédé aux lignes de dialogue restantes du flux vidéo V.

Dans ce mode de réalisation, suite à la synchronisation de la ligne de dialogue courante AC, le dispositif de synchronisation DS règle (E80) les horodatages de tous les sous-titres suivant STr le sous-titre identifié, ici l'horodatage du sous-titre ST5.

En variante, il effectue ce réglage ultérieur, après avoir synchronisé plusieurs sous- titres et lorsqu'il détecte une grande conformité entre le contenu et les sous-titres à restituer, ou lorsqu'il détecte que les sous-titres sont conformes en contenu mais se déroulent plus rapidement ou plus lentement que le flux vidéo avec un rapport de vitesse constant par rapport à celui-ci.

On note que dans ce mode de réalisation, les étapes du procédé de synchronisation sont réalisées à la volée de la restitution en temps réel du flux vidéo V.

Autrement dit, ces étapes sont accomplies avant la restitution de la ligne de dialogue suivante pendant la restitution en temps réel du flux vidéo V.

Ainsi, cela permet une synchronisation automatique au rythme d'une restitution en temps réel du flux tout en garantissant une expérience spectateur sans couture.

Dans un autre mode de réalisation, les étapes du procédé de synchronisation sont réalisées de façon préalable à la restitution d'un fichier vidéo.

Claims

REVENDICATIONS

1. Procédé de synchronisation d'un sous-titre (ST) compris dans un ensemble ordonné (S) de sous-titres associé à un contenu multimédia (V), avec un segment audio (AC) du contenu multimédia (V), le procédé étant caractérisé en ce qu'il comporte :

une étape (E30) de conversion automatique, en texte (TXT), d'un segment audio (AC) courant du contenu multimédia (V);

une étape (E50) de recherche dans ledit ensemble ordonné (S) de sous-titres (STi), d'un sous-titre (ST) correspondant audit texte (TXT);

- si un sous-titre (ST) correspondant audit texte (TXT) est identifié (E60), une étape

(E70) de synchronisation dudit sous-titre (ST) identifié avec ledit segment audio courant (AC).

2. Procédé selon la revendication 1 comportant en outre :

une étape (E12) pour détecter que la langue (LS) dans laquelle les sous-titres (STi) dudit ensemble ordonné (S) de sous-titres sont rédigés est différente d'une langue déterminée (LD) dans laquelle lesdits sous-titres (STi) doivent être restitués;

une étape (E13) de traduction des sous-titres (STi) dudit ensemble ordonné (S) de sous-titres dans ladite langue déterminée (LD), ledit sous-titre identifié (ST) étant un sous-titre traduit dans cette langue déterminée (LD).

3. Procédé selon la revendication 1 ou 2 comportant en outre :

une étape (E14) pour détecter que la langue (LS) dans laquelle les sous-titres (STi) dudit ensemble ordonné (S) de sous-titres sont rédigées est différente de celle (LV) du contenu multimédia (V); et

- une étape (E40) de traduction dudit texte (TXT) dans la langue (LS) des sous-titres

(STi), ledit sous-titre identifié (ST, ST4) correspondant au texte traduit (TXT3 dans ladite langue (LS) des sous-titres (STi).

4. Procédé selon l'une quelconque des revendications 1 à 3 dans lequel, au cours de ladite étape (E50) de recherche, l'identification dudit sous-titre (ST) correspondant audit texte (TXT) comporte :

une étape (E52) de recherche d'au moins un mot (Mi) dudit texte (TXT, TXT3 dans au moins un sous-titre cible (STp) dudit ensemble ordonné de sous-titres (S); et

une étape (E53) de calcul d'un taux (R) de mots au moins partiellement reconnus pour chaque sous-titre cible (STp);

ledit sous-titre (ST, ST4) correspondant audit texte (TXT, TXT3 étant choisi parmi au moins un sous-titre cible (STp), ce sous-titre (ST, ST4) ayant un taux (R) de mots reconnus supérieur à un seuil prédéterminé (Tr) et/ou ayant le taux (R) de mots reconnus le plus élevé.

5. Procédé selon la revendication 4 dans lequel un dit sous-titre cible (STp) est le sous-titre (STi) associé à un segment audio précédant le segment audio courant (AC).

6. Procédé selon la revendication 4 ou 5 dans lequel ladite étape (E52) de recherche du mot (Mi) est effectuée en tenant compte d'au moins une variante dudit au moins un mot (Mi) dudit texte (TXT, TXT3 , par exemple, un synonyme, un homophone, une expression idiomatique, etc.

7. Procédé selon l'une quelconque des revendications 1 à 6 dans lequel les étapes du procédé de synchronisation sont réalisées de façon préalable à la restitution du contenu multimédia (V).

8. Procédé selon l'une quelconque des revendications 1 à 7 dans lequel ledit contenu multimédia (V) est interrompu momentanément pour identifier le sous-titre (ST, ST4) correspondant au texte (TXT, TXT3 -

9. Procédé selon l'une quelconque des revendications 1 à 6 dans lequel les étapes du procédé sont réalisées à la volée d'une restitution continue du contenu multimédia (V).

10. Procédé selon l'une quelconque des revendications 1 à 9 dans lequel le procédé comporte en outre une étape (E80) de réglage des horodatages de tous les sous-titres (STr, ST5) suivant ledit sous-titre identifié (ST, ST4).

11. Procédé selon l'une quelconque des revendications 1 à 10 dans lequel le procédé recommence pour un segment audio suivant si aucun sous-titre correspondant au texte (TXT, TXT3 n'est identifié.

12. Dispositif de synchronisation d'un sous-titre (ST) compris dans un ensemble ordonné (S) de sous-titres associé à un contenu multimédia (V), avec un segment audio (AC) du contenu multimédia (V), le dispositif étant caractérisé en ce qu'il comporte :

un module (MC) de conversion automatique, en texte (TXT), d'un segment audio courant (AC) du contenu multimédia (V);

un module (MR) de recherche dans ledit ensemble ordonné (S) de sous-titres, d'un sous-titre (ST) correspondant au texte (TXT);

un module (MS) de synchronisation du sous-titre identifié (ST) avec le segment audio courant (AC), ce module (MS) étant activé sur l'identification du sous-titre (ST) correspondant au texte (TXT).

13. Equipement (EQ) comportant :

des moyens (MO) d'obtention d'un contenu multimédia (V) et d'un ensemble ordonné de sous-titres (S) ;

un décodeur (DEC) comprenant un dispositif de synchronisation (DS) selon la revendication 12; et

des moyens (MA) d'acheminement dudit contenu multimédia (V) et dudit ensemble ordonné de sous-titres (S) vers ledit décodeur (DEC).

14. Programme d'ordinateur (PG) comportant des instructions pour l'exécution des étapes d'un procédé selon l'une quelconque des revendications 1 à 11, lorsque ledit programme (PG) est exécuté par un processeur.

15. Support d'enregistrement lisible par un ordinateur sur lequel est enregistré un programme d'ordinateur (PG) selon la revendication 14.