WO2005069617A1

WO2005069617A1 - Sous-titrage d’un flux audio ou video dans un document multimedia

Info

Publication number: WO2005069617A1
Application number: PCT/FR2004/003094
Authority: WO
Inventors: Emmanuel Le Huerou
Original assignee: France Telecom
Priority date: 2003-12-17
Filing date: 2004-12-01
Publication date: 2005-07-28
Also published as: FR2864406A1

Abstract

Un document multimédia (DM) comprenant au moins un appel d'un flux résultant (FR) est demandé par un terminal d'usager (T) depuis un serveur (SW). Un générateur de sous-titre (GS) génère au moins une partie de sous-titre (PST) d'un flux audio (FA) ou vidéo (FV) en temps réel et transmet la partie de sous-titre générée à un serveur de production (SP) qui insère la partie de sous-titre transmise dans un flux de commande (FC). Le serveur de production code le flux de commande en tant que flux résultant appelé dans le document afin que le sous-titre puisse être modifié indépendamment du flux audio ou vidéo.

Description

SOUS-TITRAGE D ' UN FLUX AUDIO OU VIDEO DANS UN DOCUMENT MULTIMEDIA

La présente invention concerne un procédé et un système pour sous-titrer en temps réel un flux audio ou vidéo dans un document multimédia.

Actuellement le sous-titrage d'une séquence vidéo diffusée dans un document multimédia élaboré à l'aide d'outil Rich Media est incorporé complètement aux images de la vidéo. Par conséquent il est impossible d'agir uniquement sur le sous-titre indépendamment de la vidéo. Le sous-titre de la séquence vidéo est généralement produit par un opérateur de saisie. Un clavier de saisie ultra-rapide, appelé clavier "Velotype", combine les avantages de la sténographie et de la dactylographie en se fondant sur une écriture syllabique. L'opérateur augmente considérablement sa vitesse de saisie grâce à 37 touches réparties en trois groupes : consonnes initiales, voyelles et consonnes finales. L'opérateur produit une syllabe en frappant simultanément plusieurs touches. Une partie informatique du clavier place les caractères de la syllabe dans le bon ordre.

L'article "A DISTRIBUTED LIVE SUBTITLING SYSTEM", XP-002298697, de Marks, publié le 11 Septembre 2003 concerne un système distribué de sous- titrage en temps réel dans le contexte du sous- titrage de programmes télévisuels. Une station de travail pour sous-titrer est distante d'un dispositif pour insérer des sous-titres que lui envoie la station de travail. Des opérateurs de saisie de sous- titres modifient notamment la couleur des sous-titres avant l'insertion des sous-titres dans des programmes télévisuels. Mais l'usager final ne peut pas modifier les sous-titres. De plus, cet article concerne le sous-titrage de programmes télévisuels et pas le sous-titrage de document multimédia.

La présente invention a pour objectif de diffuser en temps réel à partir d'un document multimédia au moins un sous-titre d'un flux continu audio ou vidéo afin que le sous-titre soit un objet multimédia indépendant et ainsi susceptible de traitement spécifique tel qu'une modification de la fonte des caractères du sous-titre. Un avantage de 1 ' invention est la génération du sous-titre sur un site géographique distant de celui de l'émetteur du flux audio ou vidéo et de ceux où le sous-titre généré est traité.

Pour atteindre cet objectif, un procédé pour sous-titrer en temps réel un flux audio produit par une source dans un document multimédia demandé par un terminal d'usager à travers un réseau depuis un moyen serveur comprenant un appel d'au moins un flux résultant dans le document multimédia est caractérisé en ce qu * il comprend les étapes suivantes : - génération de partie de sous-titre du flux audio en temps réel dans un moyen de génération de sous-titre recevant le flux audio de la source ; - transmission d'au moins une partie de sous- titre générée à un moyen de production ; - insertion d'au moins une partie de sous-titre transmise dans un flux de commande dans le moyen de production ; et - codage du flux de commande en le flux résultant dans le moyen de production afin que le flux résultant soit transmis au moyen serveur et appelé par le terminal d'usager dans le document multimédia. L'invention génère ainsi en temps réel un sous- titre d ' un flux audio ou vidéo et modifie en temps réel un flux de commande comportant le sous-titre généré afin qu ' après décodage du flux résultant appelé, le sous-titre généré et contenu dans le flux résultant soit lu dans le terminal requérant le document multimédia.

Le procédé de sous-titrage peut comprendre, en outre, un codage et un multiplexage du flux audio et du flux de commande en le flux résultant, ou un multiplexage du flux audio et du flux de commande en le flux résultant qui est codé, dans le moyen de production qui reçoit le flux audio de la source, et un démultiplexage et un décodage de flux résultant en des flux audio et de commande codés qui sont décodés, ou un décodage du flux résultant qui est démultiplexé en le flux audio et le flux de commande, afin de reproduire le flux audio simultanément à la lecture de la partie de sous-titre ; ou un codage et un multiplexage d'un flux vidéo incluant le flux audio et un flux d'image et le flux de commande en le flux résultant, ou un multiplexage du flux vidéo et du flux de commande en le flux résultant qui est codé, dans le moyen de production qui reçoit le flux vidéo de la source comprenant le flux audio et le flux image et un démultiplexage et un décodage du flux résultant en des flux vidéo et de commande codés qui sont décodés, ou un décodage du flux résultant qui est démultiplexé en le flux vidéo et le flux de commande, afin de reproduire le flux vidéo simultanément à la lecture de la partie de sous- titre.

La génération d'une partie de sous-titre comprend soit un sous-titrage manuel du flux audio à l'aide d'un clavier de saisie ultra-rapide, soit un sous-titrage automatique du flux audio basée sur une reconnaissance vocale du flux audio. La génération d'une partie de sous-titre peut aussi comprendre au moins une traduction de la partie de sous-titre, en une partie de sous-titre traduite transmise au moyen de production pour être insérée dans le flux de commande. La partie de sous-titre transmise au moyen de production peut inclure un identificateur du locuteur d'une partie du flux audio correspondant à la partie de sous-titre.

L'invention concerne aussi un système de sous- titrage en temps réel d'un flux audio produit par une source pour la mise en œuvre du procédé de l'invention. Le système est caractérisé en ce qu'il comprend : - un moyen recevant le flux audio de la source pour générer au moins une partie de sous-titre du flux audio en temps réel ; - un moyen de production pour insérer au moins une partie de sous-titre transmise par le moyen pour générer, dans un flux de commande ; et - un moyen pour coder le flux de commande comprenant au moins une partie de sous-titre en le flux résultant transmis au moyen serveur et appelé par le terminal d'usager dans le document multimédia. Le système peut comprendre en outre un moyen relié au moyen pour coder et au terminal d'usager à travers ledit réseau et pour diffuser au terminal le flux résultant appelé, un moyen dans le terminal pour décoder le flux résultant appelé diffusé et un moyen dans le terminal pour lire au moins la partie de sous-titre insérée dans le flux résultant appelé diffusé dans le document multimédia. De plus, au moins deux des éléments suivants sont rassemblés dans un unique élément : la source, le moyen pour générer, le moyen de production associé au moyen pour coder, le moyen serveur.

D ' autres caractéristiques et avantages de la présente invention apparaîtront plus clairement à la lecture de la description suivante de plusieurs réalisations préférées de l'invention, à titre d'exemples non limitatifs, en référence aux dessins annexés correspondants dans lesquels : - la figure 1 est un bloc-diagramme schématique d'un système de sous-titrage selon une réalisation de

1 ' invention ; et - la figure 2 est un algorithme schématique du procédé de sous-titrage selon la réalisation de l'invention.

On suppose qu'un flux vidéo comporte un flux image et un flux audio multiplexes. Un terminal d'usager demande classiquement auprès d'un serveur web un document multimédia DM. Comme indiqué ci-dessus, l'objectif de l'invention consiste à incorporer au document multimédia au moins un sous-titre d'un flux audio ou vidéo. Dans l'invention, le document multimédia DM est par exemple codé selon le langage Javascript et le langage HTML (HyperText Markup Language) ou DHTML (Dynamic HyperText Markup Language) . Le document multimédia peut comprendre d'autres éléments que le sous-titre, tels que des images statiques, des animations et des sons.

En référence à la figure 1, le système de sous- titrage mettant en œuvre le procédé de sous-titrage selon une réalisation préférée de 1 ' invention comprend principalement une source audio ou vidéo S, au moins un terminal T d'un usager US, au moins un générateur de sous-titre GS, un serveur de production SP, un serveur de diffusion SD et un serveur web SW.

La source S, le terminal T et le générateur GS sont connectés à un réseau d'accès RA à travers des liaisons de télécommunications LT. Pour des raisons de simplicité, la source S, le terminal T et le générateur GS sont supposés être connectés à un réseau d'accès commun, alors qu'en réalité ils peuvent être connectés à des réseaux d'accès différents reliés entre eux par des réseaux de paquets reliés entre eux. Chaque liaison LT et le réseau RA peuvent être classiquement une ligne téléphonique et le réseau téléphonique commuté RTC lui-même connecté à un réseau de transmission de paquets à haut débit RP de type internet. Selon d'autres variantes, la liaison de télécommunications LT est une ligne xDSL (Digital Subscriber Line) ou une ligne RNIS (Réseau Numérique à Intégration de Services) reliée au réseau d'accès correspondant. Les serveurs SP, SD et SW sont connectés directement au réseau de paquets RP. Le terminal d'usager T est par exemple un ordinateur personnel relié directement par modem à la liaison LT. Selon d'autres exemples, le terminal d'usager T comprend un dispositif ou objet électronique de télécommunications personnel à l'usager qui peut être un assistant numérique personnel PDA. Le terminal T peut être tout autre terminal domestique portable ou non tel que micro- ordinateur, téléphone, console de jeux vidéo, etc. Le terminal T est desservi par une ligne téléphonique et le réseau téléphonique commuté, en tant que liaison de télécommunications LT et réseau d'accès RA, pour être connecté au réseau de transmission de paquets. Selon un autre exemple, le terminal d'usager T est par exemple du type récepteur de télévision intelligent. Le récepteur de télévision coopère avec une télécommande à afficheur et clavier alphanumérique servant également de souris à travers une liaison infrarouge. En variante, la télécommande est complétée par un clavier plus complet sans fil relié par liaison radioelectrique de proximité au téléviseur. Selon encore un autre exemple, le terminal T est un terminal de radiocommunications cellulaire mobile, la liaison de télécommunications LT est un canal de radiocommunications, et le réseau d'accès RA est le réseau fixe d'un réseau de radiocommunications, par exemple de type GSM (Global System for Mobile communications) avec un service GPRS (General Packet Radio Service), ou de type UMTS (Universal Mobile Télécommunications System) . Pour des raisons de clarté, un seul terminal d'usager est représenté sur la figure 1, alors qu'une multitude de terminaux d'usager peuvent demander le document multimédia DM dans les limites de saturation du système. Les terminaux d'usager et les réseaux d'accès ne sont pas limités aux exemples ci-dessus et peuvent être constitués par d'autres terminaux et réseaux d'accès connus. Les terminaux d'usager sont dotés d'un lecteur multimédia LM de document multimédia qui est par exemple le lecteur "Windows Media Player" de Microsoft Corporation. On ne distingue pas un navigateur internet utilisé pour l'appel d'un document multimédia et le lecteur multimédia destiné à la lecture et l'affichage des flux, et on considère ces deux entités confondues dans le lecteur multimédia LM.

La source audio ou vidéo S délivre en temps réel et en continu un flux audio FA ou vidéo FV analogique ou directement numérique. La source S est composé d'un système d'acquisition de données audio ou vidéo et d'un terminal connecté au réseau d'accès RA et assurant des échanges de données audio ou vidéo. Lorsque le flux audio FA ou vidéo FV délivré est analogique, un convertisseur analogique-numérique convertit le flux analogique en flux numérique. Le flux numérique est ensuite codé afin que la source S envoie le flux codé au générateur de sous-titre GS et au serveur de production SP à travers les réseaux RA et RP.

Le générateur de sous-titre GS comprend pour la mise en œuvre de 1 ' invention notamment un clavier de saisie ultra-rapide Velotype CVE, un opérateur de saisie VE formé à l'utilisation du clavier Velotype, un haut-parleur HP ou tout autre moyen de restitution d'un flux audio et un terminal de sous-titrage TS. La source S et le générateur GS sont reliés à travers le réseau d'accès RA. Si le flux provenant de la source S est codé, le terminal de sous-titrage le décode. Lorsque le flux provenant de la source S est un flux vidéo, le générateur GS extrait un flux audio FA et un flux image FI du flux vidéo FV généralement en démultiplexant le flux vidéo. Le flux image FI extrait du flux vidéo FV est traité pour être affiché à l'écran du terminal TS de l'opérateur de saisie VE. L'opérateur VE saisit en simultané grâce au clavier Velotype CVE du texte correspondant à la parole ou aux paroles de locuteur incluses dans le flux audio restitué par le haut-parleur HP à travers une interface de saisie du type traitement de texte. Le texte saisi par l'opérateur constitue le sous-titre ST du flux audio ou vidéo. Le terminal TS assure la transmission du sous-titre ST au serveur de production SP à travers les réseaux RA et RP. Dans une variante, le terminal de sous-titrage TS comprend deux terminaux distincts, l'un assurant la réception du flux provenant de la source S et 1 ' autre la transmission du sous-titre ST au serveur de production SP. Les deux terminaux sont par exemple un terminal de radiocommunications cellulaire mobile pour assurer la réception et un ordinateur pour assurer la transmission. Dans une autre variante, le générateur de sous- titre est un système de génération automatique de sous-titre basée sur une reconnaissance vocale de la parole ou des paroles incluses dans le flux audio FA. Dans une autre variante pouvant être combinée à la variante précédente, le générateur de sous-titre traduit manuellement via l'opérateur, ou automatiquement le sous-titre dans une langue différente de la langue d'une parole ou de paroles dans le flux audio. Dans une autre variante, le système de sous- titrage comprend plusieurs générateurs de sous-titre GS sous-titrant chacun dans une langue différente, ces générateurs pouvant être manuels ou automatiques . Les générateurs automatiques comportent alors la reconnaissance vocale couplée à une traduction.

Le serveur de production SP comprend notamment une unité de traitement UT et un codeur audio-vidéo EC implémentant un flux de commande. Si un flux entrant FA ou FV est déjà codé par la source S, le codeur EC décode ou agit directement sur le flux entrant codé. Lorsqu'il s'agit d'un flux vidéo FV entrant, le codeur EC démultiplexe le flux vidéo en un flux audio FA et un flux image FI. Le codeur EC selon 1 ' invention met en œuvre également un flux complémentaire, appelé flux de commande FC, qui inclut des commandes qui sont notamment liées à des caractéristiques temporelles et de contenu du flux audio ou vidéo codé délivré en temps réel. Le flux de commande FC transporte, outre des commandes, des données d'un autre type que des données audio ou vidéo, par exemple des données textuelles. Des commandes synchronisent ces données d'un autre type entre elles et avec les flux audio et/ou vidéo. Dans la présente invention, les données d'un autre type sont le sous-titre généré ST saisi par 1 ' opérateur VE et les flux audio ou vidéo peuvent ne transporter aucune donnée. Le codeur audio-vidéo EC code le flux audio FA ou vidéo FV et le flux de commande FC pour une diffusion en temps réel ou non de flux codés selon des paramètres de configuration tels qu'un type de codage, un type de compression, une largeur de bande, un nombre d'image par seconde, une résolution d'image, etc. Le codeur audio-vidéo EC peut être analogue au codeur Windows Media Encoder de Microsoft Corporation implémentant un flux de commande "Script Command" , ou au codeur RealNetworks Producer de RealNetworks implémentant un flux de commande "RM Events" .

Le serveur de diffusion SD, dit serveur de "streaming", reçoit du codeur EC dans le serveur de production SP un flux FR résultant du multiplexage du flux audio ou vidéo codé et du flux de commande codé. Le serveur SD est destiné à diffuser en continu un flux résultant diffusé FRD composé des flux audio ou vidéo et de commande codés et multiplexes. Le flux FRD est diffusé en temps réel ou en en différé afin que le terminal de l'usager T télécharge et affiche en continu le contenu des flux composant le flux FRD. Comme vu précédemment, le codage des flux FA ou FV et FC n'est pas réalisé par le serveur de diffusion SD mais par le serveur de production SP. Le serveur web SW est un serveur web classique répondant aux requêtes des terminaux des usagers par 1 ' envoi du document multimédia DM à travers les réseaux RA et RP. Les autres éléments tels que images statistiques, animations et sons peuvent être mémorisés dans une mémoire du serveur web.

Dans une autre variante, la source S et le serveur de production SP sont à proximité et reliés par une liaison radio sans fil de faible portée de type WiFi ou Bluetooth, ou par une liaison câblée classique. Dans cette variante, le flux audio ou vidéo n'est pas nécessairement soumis au codage/décodage entre la source et le serveur de production. La source S et le serveur de production sont alors considérés comme rassemblés dans un unique élément . Encore dans une autre variante, la source S et le générateur de sous-titre GS sont à proximité et reliés par une liaison radio sans fil de faible portée de type WiFi ou Bluetooth, ou par une liaison câblée classique. Dans cette variante, le flux audio ou vidéo n'est pas nécessairement soumis au codage/décodage entre la source et le serveur de production. La source S et le générateur de sous- titre GS sont alors considérés comme rassemblés dans un unique élément. Les deux précédentes variantes peuvent être combinées entre elles. Le procédé de sous-titrage comprend principalement des étapes E0 à E12 montrées à la figure 2. A l'étape E0, un administrateur du serveur de production SP initialise les paramètres de configuration du codeur EC. A l'étape El, le terminal de sous-titrage TS et le serveur de production SP se connectent à la source S. A 1 ' étape E2 , la source S transmet en continu et en temps réel le flux audio FA ou vidéo FV au terminal de sous-titrage TS et au serveur de production SP.

Après 1 ' étape E2 , 1 'unité de traitement UT applique à l'étape E31 des requêtes d'état de codeur ReqC toutes les N secondes au codeur EC tant que le site SP est en service afin de déterminer un état courant EtC du codeur. N est un nombre entier prédéterminé, par exemple égal à 1. Si le codeur EC ne répond pas, alors l'état courant du codeur est dit inactif N. Si le codeur est actif, il répond à une requête ReqC en transmettant l'état courant EtC dans une réponse RepC à l'unité de traitement UT, à l'étape E32. Les états possibles du codeurs sont : - inactif N, - prêt à coder P, - en cours de codage C. La distinction entre 1 ' état prêt à coder P et l'état en cours de codage C apporte plus de précision à l'opérateur VE qui peut, le cas échéant, avertir 1 ' administrateur du serveur de production SP que le codeur EC est prêt à coder alors qu ' il devrait être en cours de codage. Mais cette distinction n'est pas indispensable.

Suite à 1 ' étape E2 et parallèlement aux étapes E31 et E32, le terminal de sous-titrage TS se connecte au serveur de production SP à l'étape E41. A l'étape E42, le terminal TS transmet des requêtes d' état de production ReqP au serveur de production SP toutes les M secondes afin de déterminer un état courant de production EtP du serveur de production SP. M est un nombre entier prédéterminé par exemple de l'ordre de dix. A l'étape E 3, l'unité de traitement UT répond à une requête ReqP en transmettant au terminal TS une réponse RepP incluant 1 ' état courant de production EtP équivalent à l'état courant du codeur EtC, déterminé régulièrement aux étapes E31 et E32 toutes les N secondes. A la suite des étapes cycliques E31-E32 et E42-

E43, le terminal de sous-titrage TS informe à l'étape E5 1 ' opérateur VE de 1 ' état courant de production EtP par un message d'alerte affiché sur l'écran du terminal TS. Lorsque 1 ' état courant de production est 1 ' état prêt à coder P, l'opérateur VE débute ou continue la saisie du sous-titre ST en simultané, à l'étape E6. Lorsque 1 ' état courant de production est différent de prêt à coder P, l'opérateur VE attend le prochain message à l'étape E51 jusqu'à ce qu'un nouveau message l'informe que l'état courant de production est l'état prêt à coder P. L'opérateur VE décide à l'instant de son choix la transmission d'une dernière partie de sous-titre saisie PST au serveur de production SP par le terminal de sous-titrage TS en actionnant une touche particulière de son clavier environ toutes les X secondes à 1 ' étape E7. La dernière partie de sous- titre saisie PST est la partie saisie de sous-titre depuis le dernier envoi d'une autre partie de sous- titre. Dans une variante, la partie de sous-titre est envoyée à la suite d'une saisie d'un caractère de délimitation par l'opérateur, tel que virgule ou point. Dans une autre variante, le terminal de sous- titrage envoie automatiquement toutes les X secondes une partie de sous-titre PST, X étant un entier prédéterminé par exemple de 1 ' ordre de 5. Le terminal de sous-titrage TS mémorise en continu dans une mémoire tampon le sous-titre saisi par l'opérateur VE. Chaque partie de sous-titre PST est transmise par le terminal de sous-titrage TS selon le protocole HTTP (HyperText Transfer Protocol) sous la forme d'un petit fichier basé sur la syntaxe du langage XML (extensible Markup Language). Le petit fichier comporte éventuellement une balise "langue" afin de préciser la langue dans laquelle est sous- titré le flux audio FA.

Le serveur de production SP reçoit ainsi en temps réel d'une part le flux audio FA ou vidéo FV et d'autre part les parties de sous-titre saisies PST au moins dans une langue. A la réception d'une partie de sous-titre PST courante, l'unité de traitement UT mémorise dans une mémoire tampon du serveur de production SP la partie de sous-titre courante éventuellement en fonction de sa langue et applique des commandes nécessaires au codeur EC pour que celui-ci insère dans le flux de commande FC la partie de sous-titre courante à l'étape E8. Dans une variante, l'unité de traitement UT réalise un traitement sur au moins une partie de sous-titre PST mémorisée, avant de lui appliquer les commandes. Le traitement est par exemple une reconstitution de phrases complètes à partir d'au moins une partie de sous-titre et/ou une traduction de la partie de sous-titre et/ou une correction orthographique de la partie de sous-titre, etc. Le codeur EC code et multiplexe en continu et en temps réel le flux audio FA, ou le flux audio et le flux image FI inclus dans le flux vidéo FV et le flux de commande FC à l'étape E9, afin que le serveur de production SP mémorise et transmette un flux résultant FR au serveur de diffusion SD, à l'étape E10. Le flux résultant FR ne comporte pas toujours une composante issue du flux de commande. La composante issue du flux de commande est présente dans le flux résultant particulièrement si une partie de sous-titre PST est disponible pour être transmise au terminal T, c'est-à-dire si l'opérateur VE a commandé la transmission d'une partie du sous-titre au serveur SP. En général, l'insertion du sous-titre dans le flux de commande et de codage et le multiplexage des flux sont réalisés selon cet ordre, mais peuvent être ordonnés différemment selon les caractéristiques du codeur EC. Le flux résultant FR est mémorisé dans une base de données du serveur de diffusion SD afin par exemple de le conserver pour un service de vidéo sur demande VOD (Video On Demand) . Préalablement, à l'étape E10, le terminal d'usager T appelle classiquement un document multimédia DM dans le serveur web SW en se connectant au serveur web SW et en requérant le document multimédia DM par exemple dans un formulaire adressé par le serveur SW. En réponse à l'appel du flux résultant dans le document DM, le flux résultant à diffuser FRD est transmis en continu et en temps réel par le serveur de diffusion SD au terminal d'usager T à travers les réseaux RP et RA à l'étape Eli. Le serveur de diffusion est susceptible de contenir différents flux résultants contenant des sous-titres du flux audio FA en différentes langues. Le lecteur multimédia LM du terminal d'usager T affichant le document multimédia DM démultiplexe le flux résultant diffusé FRD, décode chaque flux démultiplexé, puis lit chaque flux décodé appelé par le code du document multimédia DM sur le terminal d'usager T à l'étape E12. Le lecteur affiche également éventuellement les autres éléments du document tels que images statiques, animations et sons. Le sous-titre peut être ainsi avantageusement manipuler indépendamment du flux audio ou du flux vidéo. Lorsque le flux de commande comprend le sous- titre, le lecteur affiche le sous-titre grâce à un code spécifique contenu dans le document multimédia. Ce code spécifique est généralement un code en langage Javascript contenu dans le code HTML ou DHTML du document multimédia DM. Le sous-titre est alors affiché dans le document multimédia par le lecteur, en fonction des paramètres de configuration du lecteur choisi par l'usager du terminal T. Dans une variante restreinte, la source S ne transmet le flux audio FA ou le flux vidéo FV qu'au générateur de sous-titre GS sans le transmettre au serveur de production SP qui insère les parties de sous-titre PST dans le flux de commande FC et qui ne transmet que le flux de commande en tant que flux résultant FR, sans flux audio ou vidéo, au serveur de diffusion SD. L'usager US du terminal T lit alors les parties de sous-titre affichées dans le terminal sans aucune reproduction de flux audio ou vidéo. Dans la variante de plusieurs générateurs de sous-titre générant chacun des sous-titres dans des langues différentes, l'usager US du terminal peut choisir la langue de sous-titre indépendamment de la langue du flux audio FA.

Dans d'autres réalisations, au moins deux des serveurs SP, SD et SW sont rassemblés en un unique serveur. Selon une autre architecture du système de sous-titrage, le serveur de production, le serveur de diffusion et le serveur web sont rassemblés dans un unique serveur. Dans une autre réalisation, le générateur de sous-titre introduit, par reconnaissance de locuteur automatique ou par l'opérateur de saisie, dans le fichier XML transmis au serveur de production 1 ' identification du locuteur à 1 ' origine de la partie du flux audio correspondant à une partie de sous- titre respective, c'est-à-dire le nom et/ou le prénom et/ou un quelconque identificateur du locuteur. Ceci permet de préciser à l'usager US du terminal T les locuteurs des parties de sous-titre.

Dans une autre réalisation, lorsque le flux vidéo ne comporte qu'un flux image, le générateur de sous-titre est alors un générateur de commentaire et 1 ' opérateur VE un commentateur des images du flux vidéo.

Claims

REVENDICATIONS

1 - Procédé pour sous-titrer en temps réel un flux audio (FA) produit par une source (S) dans un document multimédia (DM) demandé par un terminal d'usager (T) à travers un réseau (RA, RP) depuis un moyen serveur (SD, SW) et comprenant un appel d'au moins un flux résultant (FR, FRD) dans le document multimédia, une génération (E6) de partie de sous- titre (PST) du flux audio en temps réel dans un moyen de génération de sous-titre (GS) recevant le flux audio de la source et une transmission (E7) d'au moins une partie de sous-titre générée à un moyen de production (SP), caractérisé en ce qu'il comprend les étapes suivantes : - insertion (E8) d'au moins une partie de sous- titre transmise dans un flux de commande (FC) dans le moyen de production ; et - codage (E9) du flux de commande (FC) en le flux résultant dans le moyen de production afin que le flux résultant (FR, FRD) soit transmis au moyen serveur (SD, SW) et appelé par le terminal d'usager (T) dans le document multimédia (DM). 2 - Procédé conforme à la revendication 1, comprenant après une transmission (E10-E11) du flux résultant appelé (FR) au terminal (T) un décodage (E12) du flux résultant appelé dans le terminal, et une lecture (E12) d'au moins la partie de sous-titre (PST) insérée dans le flux résultant appelé dans le document multimédia (DM) .

3 - Procédé conforme à la revendication 1 ou 2, comprenant un codage et un multiplexage (E9) du flux audio (FA) et du flux de commande (FC) en le flux résultant (FR), ou un multiplexage du flux audio et du flux de commande en le flux résultant qui est codé, dans le moyen de production (SP) qui reçoit le flux audio (FA) de la source (S), et un démultiplexage et un décodage (E12) de flux résultant en des flux audio et de commande codés qui sont décodés, ou un décodage du flux résultant qui est démultiplexé en le flux audio et le flux de commande, afin de reproduire le flux audio (FA) simultanément à la lecture de la partie de sous-titre.

4 - Procédé conforme à la revendication 1 ou 2 , comprenant un codage et un multiplexage (E9) d'un flux vidéo (FV) incluant le flux audio (FA) et un flux d'image (FI) et le flux de commande (FC) en le flux résultant (FR), ou un multiplexage du flux vidéo et du flux de commande en le flux résultant qui est codé, dans le moyen de production (SP) qui reçoit le flux vidéo (FV) de la source (S), comprenant le flux audio (FA) et le flux image (FI), et un démultiplexage et un décodage (E12) du flux résultant en des flux vidéo et de commande codés qui sont décodés, ou un décodage du flux résultant qui est démultiplexé en le flux vidéo et le flux de commande, afin de reproduire le flux vidéo (FV) simultanément à la lecture de la partie de sous-titre (PST).

5 - Procédé conforme à l'une quelconque des revendications 1 à 4, dans lequel la génération (E6) d'une partie de sous-titre comprend un sous-titrage manuel du flux audio (FA) à l'aide d'un clavier de saisie ultra-rapide (CVE).

6 - Procédé conforme à l'une quelconque des revendications 1 à 4, dans lequel la génération (E6) d'une partie de sous-titre comprend un sous-titrage automatique du flux audio (FA) basée sur une reconnaissance vocale du flux audio. 7 - Procédé conforme à l'une quelconque des revendications 1 à 6, dans lequel la génération (E6) d'une partie de sous-titre (PST) comprend au moins une traduction de la partie de sous-titre, en une partie de sous-titre traduite transmise au moyen de production (SP) pour être insérée dans le flux de commande (FC) .

8 - Procédé conforme à l'une quelconque des revendications 1 à 7, dans lequel la partie de sous- titre (PST) transmise au moyen de production (SP) inclut un identificateur du locuteur d'une partie du flux audio (FA) correspondant à la partie de sous- titre (ST). 9 - Système pour sous-titrer en temps réel un flux audio (FA) produit par une source (S) dans un document multimédia (DM) demandé par un terminal d'usager (T) à travers un réseau (RA, RP) depuis un moyen serveur (SD, SW) comprenant un appel d'au moins un flux résultant (FR, FRD) dans le document multimédia et un moyen (GS) recevant le flux audio de la source pour générer au moins une partie de sous- titre (PST) du flux audio en temps réel, caractérisé en ce qu ' il comprend : - un moyen de production (SP) pour insérer au moins une partie de sous-titre transmise par le moyen pour générer, dans un flux de commande (FC) ; et - un moyen (EC) pour coder le flux de commande (FC) comprenant au moins une partie de sous-titre en le flux résultant transmis au moyen serveur (SD, SW) et appelé par le terminal d'usager (T) dans le document multimédia (DM) .

10 - Système conforme à la revendication 9, caractérisé en ce que le terminal d'usager (T) comprend un moyen (LM) pour décoder le flux résultant appelé et un moyen (LM) pour lire au moins la partie de sous-titre (PST) insérée dans le flux résultant appelé dans le document multimédia (DM) .

11 - Système conforme à la revendication 9, caractérisé en ce qu'il comprend un moyen (SD) relié au moyen pour coder (EC) et au terminal d'usager (T) à travers ledit réseau (RA, RP) et pour diffuser au terminal (T) le flux résultant appelé (FR) , un moyen (LM) dans le terminal pour décoder le flux résultant appelé diffusé (FRD) et un moyen (LM) dans le terminal pour lire au moins la partie de sous-titre (PST) insérée dans le flux résultant appelé diffusé dans le document multimédia (DM) .

12 - Système conforme à l'une quelconque des revendications 9 à 11, dans lequel au moins deux des éléments suivants sont rassemblés dans un unique élément : la source (S), le moyen pour générer (GS), le moyen de production (SP) associé au moyen pour coder (EC), le moyen serveur (SD, SW) .

13 - Système conforme à la revendication 11, dans lequel au moins deux des moyens serveur (SW,

SD), pour produire et coder (SP, EC) et pour diffuser (SD) sont rassemblés en un unique serveur.