WO2004080072A1 - System for the dynamic sub-titling of television and radio broadcasts - Google Patents

System for the dynamic sub-titling of television and radio broadcasts

Info

Publication number
WO2004080072A1
WO2004080072A1 PCT/FR2004/000175 FR2004000175W WO2004080072A1 WO 2004080072 A1 WO2004080072 A1 WO 2004080072A1 FR 2004000175 W FR2004000175 W FR 2004000175W WO 2004080072 A1 WO2004080072 A1 WO 2004080072A1
Authority
WO
WIPO (PCT)
Prior art keywords
signal
language
audio signal
subtitling
eqm
Prior art date
Application number
PCT/FR2004/000175
Other languages
French (fr)
Inventor
Ghislain Moncomble
Original Assignee
France Telecom
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by France Telecom filed Critical France Telecom
Publication of WO2004080072A1 publication Critical patent/WO2004080072A1/en

Links

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/20Servers specifically adapted for the distribution of content, e.g. VOD servers; Operations thereof
    • H04N21/23Processing of content or additional data; Elementary server operations; Server middleware
    • H04N21/233Processing of audio elementary streams
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/26Speech to text systems
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/20Servers specifically adapted for the distribution of content, e.g. VOD servers; Operations thereof
    • H04N21/23Processing of content or additional data; Elementary server operations; Server middleware
    • H04N21/234Processing of video elementary streams, e.g. splicing of video streams, manipulating MPEG-4 scene graphs
    • H04N21/2343Processing of video elementary streams, e.g. splicing of video streams, manipulating MPEG-4 scene graphs involving reformatting operations of video signals for distribution or compliance with end-user requests or end-user device requirements
    • H04N21/234336Processing of video elementary streams, e.g. splicing of video streams, manipulating MPEG-4 scene graphs involving reformatting operations of video signals for distribution or compliance with end-user requests or end-user device requirements by media transcoding, e.g. video is transformed into a slideshow of still pictures or audio is converted into text
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/47End-user applications
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/47End-user applications
    • H04N21/485End-user interface for client configuration
    • H04N21/4856End-user interface for client configuration for language selection, e.g. for the menu or subtitles
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/47End-user applications
    • H04N21/488Data services, e.g. news ticker
    • H04N21/4884Data services, e.g. news ticker for displaying subtitles
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N5/00Details of television systems
    • H04N5/222Studio circuitry; Studio devices; Studio equipment
    • H04N5/262Studio circuits, e.g. for mixing, switching-over, change of character of image, other special effects ; Cameras specially adapted for the electronic generation of special effects
    • H04N5/278Subtitling
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N7/00Television systems
    • H04N7/14Systems for two-way working
    • H04N7/141Systems for two-way working between two video terminals, e.g. videophone
    • H04N7/147Communication arrangements, e.g. identifying the communication as a video-communication, intermediate storage of the signals
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N7/00Television systems
    • H04N7/16Analogue secrecy systems; Analogue subscription systems
    • H04N7/162Authorising the user terminal, e.g. by paying; Registering the use of a subscription channel, e.g. billing
    • H04N7/165Centralised control of user terminal ; Registering at central
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N7/00Television systems
    • H04N7/08Systems for the simultaneous or sequential transmission of more than one television signal, e.g. additional information signals, the signals occupying wholly or partially the same frequency band, e.g. by time division
    • H04N7/087Systems for the simultaneous or sequential transmission of more than one television signal, e.g. additional information signals, the signals occupying wholly or partially the same frequency band, e.g. by time division with signal insertion during the vertical blanking interval only
    • H04N7/088Systems for the simultaneous or sequential transmission of more than one television signal, e.g. additional information signals, the signals occupying wholly or partially the same frequency band, e.g. by time division with signal insertion during the vertical blanking interval only the inserted signal being digital
    • H04N7/0884Systems for the simultaneous or sequential transmission of more than one television signal, e.g. additional information signals, the signals occupying wholly or partially the same frequency band, e.g. by time division with signal insertion during the vertical blanking interval only the inserted signal being digital for the transmission of additional display-information, e.g. menu for programme or channel selection
    • H04N7/0885Systems for the simultaneous or sequential transmission of more than one television signal, e.g. additional information signals, the signals occupying wholly or partially the same frequency band, e.g. by time division with signal insertion during the vertical blanking interval only the inserted signal being digital for the transmission of additional display-information, e.g. menu for programme or channel selection for the transmission of subtitles

Definitions

  • the present invention relates to a system for dynamically captioning television and radio signals.
  • the main problem encountered is the cost of subtitling.
  • the average cost of one hour of subtitling is around 25 euros per hour, or 1500 euros per hour.
  • the additional cost of subtitling is directly attributable to the channels and represents up to 2% of the budget of a television program.
  • captioning by live shorthand requires a very fast typing speed, at a rate of more than 220 words per minute, and a very high typing quality.
  • cost of transcription charged to the television channel remains high.
  • a teletext decoder generally incorporated in televisions appeared in order to activate subtitling remotely with better readability by printing clear subtitles on a black strip, a position of the subtitle varying according to the speaker, different colors for voices ("off") external to the image and for descriptions of the soundscape, setting the text to the rhythm of the images, etc.
  • Subtitling is carried directly in the television signal on at least two raster lines provided for this purpose.
  • This system avoids burning the copy and offers a reduction in cost, better flexibility for a change of subtitle corresponding for example to a change of language, and great freedom in the position of the subtitle, on, below or above the image. But this system remains confined to this precise framework. These techniques are based either on a preparation of the program before it is broadcast, or on an intervention during the broadcasting of the program but always with the help of rapid and costly human action.
  • US Patent 5,815,196 discloses a method and a device for continuously producing subtitling of an input audio / video signal translated into a target language during a videophone communication, but without a user can interact directly with the subtitle produced.
  • the objective of the present invention is to automatically and subtitle an audio signal, in particular from television or radio, in real time by offering customization of the subtitling to the user.
  • a system for dynamically captioning an audio signal continuously received by receiving equipment comprising means for converting the received audio signal into a captioning signal including subtitles, and combining means audio signal and subtitling signal, is characterized in that it comprises
  • the combining means combines the delayed audio signal and the subtitling signal into a subtitled audio signal with subtitles formatted according to the display parameters in order to apply the subtitled audio signal with subtitles formatted to the equipment.
  • Another advantage of the invention is to allow the user to personalize the subtitling in real time, since the subtitles are formatted according to the display parameters during dynamic subtitling.
  • the system may include means for detecting a closed caption signal in the audio signal so that the means for combining formats closed captioning of the detected closed caption signal display settings.
  • the invention also offers the possibility for the user to display the subtitling generated by the means for converting, or detected in the audio signal, according to a language chosen by the user.
  • the means for storing memorizes an identifier defining a language determined beforehand by the user of the equipment.
  • the system then preferably comprises means for determining an identifier of a language of the detected subtitling signal, means for comparing the stored language identifier with the language identifier of the subtitling signal, and at least a means for translating the subtitles of the subtitling signal into subtitles of the language determined beforehand when the Language identifiers are different in order to apply the subtitles of the determined language in the form of the closed captioning signal to combine.
  • the means for converting may comprise means for filtering the continuous audio signal into a voice signal and a noisy signal, means for analyzing the voice signal in order to produce voice parameters, recognition means voice converting the voice signal into a text signal, means for segmenting the voice signal into periodic time text segments, means for determining a context of each text segment based on averages of the voice parameters over the duration of the text segment and in function of the text segment so that contexts are involved in converting the speech signal into the text signal performed by the speech recognition means, and means for aggregating the text segments into a captioning signal.
  • the system may also include means for determining a language of the current segment of the speech signal so that the means for converting dynamically determines the subtitle signal according to the determined language.
  • the system of the invention can also be used to subtitle an audio video signal.
  • the system may include means for extracting the audio signal from an audio video signal which is received by the system and the equipment and which is applied to the converting means and the buffer means in place of the audio signal.
  • FIG. 1 is a schematic block diagram of a subtitling system according to a first embodiment of the invention, in the environment of a terminal user installation comprising several receiving equipment and several servers of sub- titration;
  • FIG. 2 is an algorithm of steps executed by the subtitling system according to the first embodiment for subtitling an audio video signal;
  • FIG. 3 is a schematic block diagram of a preferred embodiment of a language converter included in the subtitling system according to the invention.
  • channel denotes either a channel or a transmission channel for broadcasting a sound broadcasting program or a television program, and the program company broadcasting said program.
  • program designates a succession of sound or television broadcasting programs, also called magazines, broadcast by a specific channel.
  • the subtitling system essentially comprises a terminal installation of IT user and an STT subtitling server, or more generally several subtitling servers.
  • the IT user terminal installation includes M receiver equipment EQl, ... EQm, ... EQM with 1 ⁇ m ⁇ M.
  • one EQl of the equipment is a sound broadcasting receiver fitted with a display can selectively receive broadcasts from several sound broadcasting stations (stations).
  • Another EQm equipment is a personal computer (PC), for example connected to a packet network of the Internet network type, or connected to a cable network for distribution of television program and / or sound broadcasting.
  • a last piece of EQM equipment is a television receiver which is for example provided with means for receiving television signals to receive predetermined television programs and equipped with one or more decoders for receiving programs transmitted via a satellite and / or via a cable distribution network.
  • the EQl to EQM equipment is controlled via a distributed bus BU by a central processing unit UCit in the IT installation.
  • a central processing unit UCit in the IT installation.
  • all or part of the BU bus can be replaced by a proximity radio link of the Bluetooth type or according to the 802.11b standard.
  • the UCit central unit essentially comprises a microcontroller connected to various peripherals such as a Mit buffer memory, a closed captioning generator GS, an IC communication interface and optionally a keyboard and a screen.
  • the central unit, the buffer memory, the captioning generator and the communication interface are physically included in a housing independent of the equipment.
  • the UCit central unit with peripherals is integrated into the computer or the broadcasting receiver or the radio receiver. EQm television.
  • the UCit central unit constitutes a basic module which can serve various home automation equipment such as that illustrated in FIG. 1 as well as one or more mobile telephones and radiotelephones, an alarm center, etc.
  • the communication interface IC is adapted to a telecommunications link LT connected to an access network RA of the installation IT.
  • the link LT and the network RA can conventionally be a telephone line and the switched telephone network PSTN itself connected to a high speed packet transmission network RP of the internet type.
  • the telecommunications link LT is an xDSL line (Digital Subscriber Line) or an ISDN line (Digital Network with Service Integration) connected to the corresponding access network.
  • the link LT can also be confused with one of the links serving one of the equipment's EQm through one of the distribution networks RD defined below.
  • the IT terminal installation can be organized around a DVB-MHP platform (Digital Video Broadcasting-Multimedia Home Platform) for which the telecommunications link LT is asymmetrical with a return path at low speed to the network RA access.
  • DVB-MHP platform Digital Video Broadcasting-Multimedia Home Platform
  • Figure 1 also schematically shows the telecommunications system surrounding the IT user terminal installation.
  • the references RD and TR designate respectively one or more distribution networks for scheduled sound and television broadcasting programs and one or more head ends broadcasting programs and managed by various television and sound broadcasting program companies.
  • All of the RD distribution networks include in particular analog and / or digital broadcasting networks for broadcasting programs capable of being received by the radio receiver EQl, terrestrial analog and digital cable, wireless (radioelectric) networks, by satellites in analog and digital modes for broadcasting television programs and possibly sound broadcasting capable of being received by the television receiver EQM.
  • All the RD distribution networks also include the Internet network through which the computer EQm is capable of receiving radio and / or television broadcasts broadcast by certain program companies.
  • Each closed captioning server STT is connected to the program distribution network RD and to the terminal installation of the user IT via the packet network RP and the access network RA.
  • the functionalities of the closed captioning server STT are located in a headend TR, or more generally, the server STT is connected to the broadcast distribution networks RD. In this case, subtitling is carried out at least in part before broadcasting.
  • the scheduled programs are subtitled by slight anticipation, at least a few minutes before their broadcast, which offers almost no time lag.
  • the processing of an audio video signal by the subtitling system has a certain duration which generates a relatively small delay or time difference between the incoming SAV signal into the system and the closed captioned SAVST signal out of the system.
  • the delay due to subtitling is made up by the continuous audio video signal which will then be duplicated but with subtitles at the start of the subtitle. titration, or by a message of the "subtitling in progress" type, or by any other predetermined audio / video sequence.
  • the STT server comprises a central processing unit UCs and a set of peripherals including at least one database, a linguistic converter CL described in detail below and an AV video analyzer.
  • a central processing unit UCs and a set of peripherals including at least one database, a linguistic converter CL described in detail below and an AV video analyzer.
  • Many variants of the hardware distribution of the components of the IT user terminal installation and of the STT subtitling server can be deduced from the embodiment of the invention illustrated in FIG. 1.
  • the Mit buffer memory and the GS generator are included in the STT server in order to simplify the installation of the user, as well as part of the processing carried out by the central processing unit UCit is then executed in the central unit UCs of the STT server.
  • the language converter CL, the AV video analyzer and the database BD are installed in the user installation IT, and the processing which was carried out by the central unit UCs is then executed in the processing unit UCit.
  • Other intermediate variants between the thin client / heavy server architecture and the heavy client / thin server architecture such as that of the preferred embodiment presented in FIG. 1 are conceivable.
  • all of the processing carried out thereafter is executed upstream of the broadcasting of the programs, in a network head TR.
  • the user's terminal installation is almost reduced to the equipment EQl to EQM.
  • closed captioning parameters means PAC activation parameters, PAF display parameters and an IL language identifier.
  • the activation parameters characterize an activation period of the subtitling system according to the invention as a function of start and end dates and times and / or of the type of program.
  • the PAC activation parameters refer, among other things, to program grids of a chain.
  • the PAF display parameters characterize the display of the subtitles on the display included in the user's receiving equipment, such as positioning, font type, colors allocated to the different speakers, display by continuous scrolling text or static sentences, etc.
  • the language identifier IL defines a subtitle language.
  • a preference program is used to store in the database BD and configure preferences on the subtitling desired by the user in order to establish and store parameters PAC, PAF and IL and the modify if desired.
  • the preference program is executed by the STT server via the packet network RP, or directly by the central unit UCit of the IT terminal installation when the database BD is included in the IT installation.
  • the preference program presents a complete list of equipment EQl to EQM of the user via a display in the IT installation so that the user selects the equipment for which he wishes to modify the subtitling parameters when the identifiers of several of the user's devices were registered during his subscription.
  • Subtitling parameters can be proposed by default to the user, or the current parameters if the user has already selected or modified these parameters.
  • a first page invites the user to enter PAC activation parameters programmable by the user according to dates and times or directly according to programs chosen from a program schedule. Each time the user validates an entry page, the entered values of the parameters are sent to the STT server for storage in the BD database, or directly in the BD database of the terminal installation for architecture.
  • the IT terminal installation does not have human-machine interface means such as a mouse or keyboard, the parameters corresponding to the user's preferences are selected by default. If the captioning of the invention is carried out in a TR network head and the IT terminal installation is essentially reduced to equipment EQl to EQM, the parameters are modified by the user via any other means, for example by a telephone or radiotelephone terminal or by an operator when subscribing to the subtitling service according to the invention.
  • FIG. 2 shows an algorithm of steps E1 to
  • step E1 the user U of the IT installation powers up the latter and selects an equipment EQm in order to globally activate the subtitling system of the invention.
  • a predetermined pressure from a remote control of the selected equipment EQm when this selected equipment contains the UCit central unit, or a switch to the switch-on position of a button on the box integrating the UCit central unit powers up the UCit unit.
  • This reads from memory and then automatically transmits an identifier IU of the user U and an identifier IEQm of the equipment EQm selected by the user U to the server STT. Switching on the UCit central unit empties the Mit buffer.
  • the server STT identifies the user U who has subscribed to the subtitling service, by comparing the identifier received IU with the identifiers of the users subscribed in the database BD, in step E2.
  • the STT server requests the user to enter the UI identifier and a password which has been given to him in the IT installation. assigned when subscribing to the service in order to transmit the identifier and password to the STT server for verification.
  • the central unit UCs reads the subtitling parameters PAC, PAF and IL from the database BD in correspondence with the user identifier IU in order to analyze them according to the following steps in view to produce the subtitles in the selected equipment EQm for the selected channel.
  • the PAC activation parameters are considered by the central unit UCs, so that the generator GS and the converter CL, or more generally the system, are only active during the duration of activation determined by the parameters PAC.
  • the central unit UCs in the STT server invites the user to select a chain in the equipment EQm which then transmits an ICM identifier of the selected chain to the STT server via the UCit unit, in step E3.
  • the equipment EQm and the audio video signal chain to be subtitled have been preselected by the user U, in particular when subscribing to the subtitling service, and the identifiers IEQm and ICM have been registered in correspondence with the identifier U of user U in the database BD.
  • the EQm equipment is simply powered up awaiting subtitling.
  • the audio video signal SAV of the selected channel received by the selected equipment is temporarily stored temporarily in the buffer memory Mit in a delayed audio signal SAVR. Like any after-sales audio video signal, this includes periodic time marks such as frame alignment words, packet synchronization words, video or line frame synchronization signals, etc.
  • the UCit unit transmits a determined synchronization time reference from the server ST so that the latter begins captioning for the channel selected relative to the user U in response to the synchronization time reference.
  • the duration of storage of the after-sales service signal depends on the processing time for the subtitling of the after-sales service signal by the device, including the time of routing of the messages exchanged between the terminal installation IT of the user U and the sub-server - STT title.
  • the central unit UCs of the server STT selects the channel designated by the identifier received ICH from among all the channels available at the level of the server in step E5.
  • the central unit checks whether the audio video signal SAV identified by the channel identifier ICH is being closed captioned by the STT server and whether the closed caption settings for the current closed caption match the settings PAC and IL selected by the user. When the parameters match, the subtitling is continued in step E8, otherwise the after-sales service signal continues processing in step E6.
  • the central unit UCs triggers the processing of the after-sales service signal of the selected chain in response to the synchronization time frame received with the parameters IU, IEQm and ICH. From the synchronization time mark, the following time marks in the service signal are detected and included in the signal by the central unit UCs.
  • the central unit UCs processes the service signal so that the AV video analyzer detects closed captioning in the service signal.
  • the AV video analyzer extracts the ST subtitles from the SAV signal and a language determination unit 8 (FIG. 3) of the language converter CL determines the identifier IL of the language of the subtitling in step E61.
  • the central unit UCs compares it to the identifier IL of the language determined beforehand by the user read in the database BD, in step E62. If the language identifiers are identical, the STT server continues the process with the subsequent step E8.
  • the AV analyzer detects closed captioning by optical character recognition (OCR).
  • OCR optical character recognition
  • the time required for image analysis by this shape recognition is not penalizing for the following reasons.
  • Subtitles are very often positioned in a lower portion of an image, the analysis is considerably limited. To be visible to the user, the subtitles are in large type, typed generally with good contrast to the image. They are therefore simple to recognize, which limits the power of optical character recognition and therefore its duration.
  • a minimum perception time is such that the subtitling changes on average approximately every five seconds, and at least every three about seconds. The AV audio analyzer thus analyzes only a lower portion (the fifth) of the images per minimum three-second period.
  • step E62 where the language identifier of the subtitling in the after-sales service signal is not identical to the language identifier IL determined by the user, a translation module 41 (FIG. 3 ) included in the linguistic converter CL translates the subtitles extracted from the signal SAV into subtitles of the language determined by the language identifiers IL of the user, in step E63 which is followed by step E8.
  • the linguistic converter CL dynamically determines the subtitling ST of the SAV signal as a function of the audio signal SA therein and of the language used in this audio signal and translates the subtitling into the language defined by the user as a function of the language identifier IL determined by the latter as is more detailed later with reference to FIG. 3.
  • the subtitling signal ST comprising the subtitles deduced from the corresponding after-sales signal and the PAF display parameters as well as the time marks previously detected in the after-sales signal and delayed by the subtitling operation are sent continuously during the progressive processing of the after-sales service signal by the STT server at the IT terminal installation in step E8.
  • step E8 All the processing steps up to step E8 have caused a delay necessary for the execution of the processing in the STT server.
  • step E9 the closed captioning generator GS in the terminal installation IT synchronizes in function of the time marks and combines the subtitling signal ST received by the IT installation with the delayed audio video signal SAVR of the selected channel ICH read in the buffer buffer Mit, that is to say the subtitles with the audio signal of the SAV signal dialogue in order to produce an audio video signal subtitled SAVST.
  • the closed captioning generator uses speech alignment techniques known as detection of change of camera plane in the SAVR signal. If a subtitle is present when the plan is changed, the user tends to look at the image and then come back to the text. The user then loses the place to read in the present subtitle and resumes reading at the beginning of the same subtitle at the risk of not reading it in full.
  • the GS generator takes care that each subtitle is not disturbed by a change of plan.
  • the subtitling generator GS dynamically generates an audio-video signal with subtitles SAVST according to the display parameters PAF read from the database BD and received by the central unit UCit of the installation terminal in step E8.
  • the PAF display parameters are transmitted by the STT server so that the GS generator receives any modifications to these parameters as quickly as possible to adapt the subtitling accordingly during system operation.
  • the audio video signal subtitled SAVST with the subtitles embedded in the images of the initial signal SAV is displayed in step Eli by the display of the selected receiving equipment EQm of user U with a delay relative to the initial signal received after-sales service.
  • the GS subtitling generator affixes the new texts instead of those deduced from a translation and / or format according to the display parameters PAF. In the other cases, the subtitling is positioned in the lower part of the images.
  • the GS generator determines a display duration of each subtitle as a function of the length of the subtitle to be displayed and of an average reading time. This display duration is at least equal to approximately three seconds and can extend significantly in one direction or the other with respect to the recognized sentences.
  • the closed captioning server STT includes a linguistic converter CL, the operation of which is described below with reference to FIG. 3.
  • the linguistic converter comprises an audio extractor 1, an audio filter 2, a voice analyzer 3, a voice recognition module 4, a translation module 41, a segmentation unit 51, a segment context determination unit 5, a contextual database 45, a general context determination unit 6, an audio comparator 7, an audio database 71, and a language determination unit 8.
  • context designates a list of key words or expressions and their equivalents. Each key word or phrase characterizes a context that can be addressed in any what multimedia document. Certain contexts are combinations of contexts, or in the case of current or regional contexts, combinations of contexts specified by a proper name, such as for example: Brittany Weather, Afghanistan War, etc.
  • a continuous audio signal SA of indefinite duration is extracted from the audio video signal SAV in the audio extractor 1 adapted to the standard relating to the signal SAV, and is applied to the audio filter 2. It will be assumed that the audio signal SA received by the server STT is digital; otherwise, the audio signal received is analog and converted by an analog-digital converter included in the audio filter 2.
  • the unit 12 further comprises a buffer memory continuously storing the audio signal SA for a duration greater than a predetermined duration DS of segments of the audio signal.
  • the capacity of the buffer memory is such that it records a maximum of a portion of the audio signal SA having a duration at least ten times approximately greater than that DS of the segments.
  • the unit 12 segments the audio signal SA into time and periodic segments ..., S n , ... as the audio signal is received.
  • the predetermined duration DS of the audio signal segments depends on the ratio between the quality of the conversion and the processing time of the segments of the signal SA desired by the converter CL. A minimum duration of 15 seconds is typically sufficient for the converter to ensure minimum quality.
  • the segmentation is not based on a temporal characteristic but depends on a syntactic element such as a word, or a group of words or a sentence.
  • a syntactic element is for example defined by a sound level above a threshold predetermined and framed by intervals of the audio signal having a sound level below the predetermined threshold and considered as silences.
  • the filter 2 filters by spectral subtraction or adaptive filtering the audio signal SA in order to dissociate it into a signal comprising only voice and called "voice signal” SV and a signal comprising background noises and called “noisy signal” SB.
  • Filter 2 is for example based on a linear predictive analysis LPC (Linear Predictive Coding) and isolates different acoustic components in an audio signal such as voice, vocal noise and pure music.
  • LPC Linear Predictive Coding
  • the voice signal SV is then processed in parallel by the voice analyzer 3 and the voice recognition module 4.
  • the vocal analyzer 3 analyzes the vocal signal SV in order to continuously determine a list of parameters PVS n characterizing the vocal segment SV, called "list of vocal parameters".
  • the list of voice parameters is not fixed but includes, among other things, acoustic and particularly prosodic parameters such as the vibration frequency, intensity, flow, timbre and also other parameters such as the relative age of the speaker.
  • the voice signal In addition to voice analysis, the voice signal
  • SV is subject to the voice recognition module 4.
  • the known language determination unit 8 When the language of the voice signal SV is considered to be unknown, the known language determination unit 8 is inserted between the filter 2 and the voice recognition module 4. The unit 8 dynamically determines the language of the voice signal SV if it this is not previously known. For multi-language information for example, the language of the voice signal is thus recognized continuously. If the language of the audio signal is predetermined and taken as the default language, so the language determination unit 8 is not necessary.
  • the voice recognition module 4 transforms the voice signal SV into a text signal ST, called the subtitling signal. Several speech recognition modules can be used to optimize processing.
  • the module 4 considers the results of a context study carried out beforehand in order to refine the recognition and the transcription of the voice signal SV.
  • the voice recognition module 4 considers the results of a context study carried out beforehand in order to refine the recognition and the translation of the voice signal.
  • the context is translated into syntactic elements, that is to say key words and expressions, with high probabilities of being included in a portion of the voice signal. For example, the context of a relatively periodic or frequent advertising or news spot in an audio signal emitted by a sound broadcasting station is predicted by knowing the detailed program of this station, or by deducing it from advertising spots or previous news.
  • contexts in the form of key words and expressions constitute contexts pre-stored and managed in a contextual database 45 linked to module 4 and to units 5 and 6.
  • the contexts in base 45 are also completed and refined by automatic consultation of external databases according to the contexts recently detected.
  • the contexts are thus gradually improved during the processing of the audio signal SA to facilitate recognition speech in the voice recognition module 4.
  • Module 4 can rely on Natural Language Understanding NLU software.
  • the segmentation unit 51 segments the text signal ST into temporal and periodic text segments ..., S n , ... as the voice signal SV is received in a buffer memory and in synchronism with the time markers in the service signal.
  • the segmentation unit 51 further comprises a buffer memory continuously storing the voice signal SV for a duration greater than a predetermined duration DS of voice signal segments SV.
  • the capacity of the buffer memory is such that it stores a maximum of a portion of the voice signal SV having a duration at least ten times approximately greater than that DS of the segments.
  • the predetermined duration DS of the text signal segments depends on the ratio between the quality of the conversion and the processing time of the signal SA desired by the converter CL. A minimum duration of 15 seconds is typically sufficient for the system to ensure minimum quality.
  • the segmentation is not based on a temporal characteristic but depends on a syntactic element such as a word, or a group of words or a sentence.
  • the unit 5 determines one or more contexts CS n of the current text segment S n as a function of the average PVS n of each voice parameter PVS over the current text segment and as a function of the content of the current text segment S n .
  • contexts established and stored previously are also used to determine the context in unit 5 and contribute to increasing the relevance of new segment contexts which will in turn participate in determining the contexts of next segments.
  • a general context is determined initially before any indexing for subtitling of the audio signal SA as a function of parameters external to the system and linked inter alia to the source of the audio video signal SAV.
  • This general context is based by the unit 5 on the context of a determined number of segment preceding the current segment S n when the context of the immediately preceding segment is not determined.
  • the general context determination unit 6 compares the context CS n of the current text segment S n to the context CS n -i of the preceding text segment S n - ⁇ in order to determine time limits of a current general context CG] ⁇ .
  • the unit 6 determines an upper time bound of general context which is confused with an upper time bound of the current segment S n when the contexts CS n , CS n - ⁇ of the current segment and of the segment preceding the current segment are similar, and which is kept confused with the upper time bound of the segment S n - ⁇ preceding the current segment when the context CS n of the current segment is not similar to the context CS n - of the previous segment.
  • the general context CGk compared to a text segment context remains unchanged during one or more consecutive text segments whose contexts jointly define the general context.
  • the set of consecutive textual segments defining the general context CG ⁇ is limited by time limits respectively confused with the lower bound, also called the anterior bound, of the first textual segment treated of the set and the upper bound BS ⁇ , also called the bound posterior, of the last textual segment treated of the whole.
  • periodic portions of the voice signal SV having a duration greater than and proportional to the duration DS of the periodic text segments S n of the audio signal SA are each processed several times by the functional means 3 to 6. For example, passing a portion of the voice signal SV two to K times through means 2 to 6 refines the relevance of the contexts of this portion.
  • the number K of processing cycles of an audio signal portion depends on the time constraints, on the quality of each processing in means 2 to 6 and on the memory capacity. buffer in the segmentation unit 51. The faster the linguistic converter CL must process the audio video signal SAV, the smaller the number K.
  • the unit 5 determines some contexts of the current text segment S n in order to further segment the text signal ST into different general contexts in the unit 6.
  • intervals of different general contexts n ' not having a priori lower and upper time limits combined are juxtaposed during common voice segments, which increases the accuracy of general information about the audio signal.
  • the linguistic converter CL also includes the audio comparator 7 in relation to an audio database 71 in which pieces of audio data such as music, songs, advertising jingles, flashes of light are stored. and sound effects. More generally, the database 71 has previously recorded any piece of audio data preferably qualified by audio parameters PASp and contexts CAp whose time limits are staggered with respect to a fixed reference point of audio data, such as the beginning of a song or a jingle. The database 71 thus contains pieces of typed audio data which are used to interrupt the continuous audio signal SA with respect to a general context, during a "context jump", such as an advertising spot, for a short insert having a context different from that of a relatively long subject or theme in the SA signal.
  • a context jump such as an advertising spot
  • the audio comparator 7 comprises a buffer memory and a segmentation unit.
  • the comparator compares samples of audio pieces contained in the audio database 71.
  • the substantially identical samples allow the comparator to determine portions of audio signal SA corresponding to complete pieces or parts of audio pieces contained in the base 71.
  • the parameters PASp and the context CAp of the identified portion of the audio signal SA are applied to unit 5 over the duration of the determined portion, replacing the PVS n averages of the voice parameters on the current segment of the content of the text segment S n .
  • the textual segments S n are thus qualified respectively by voice parameters PASp and audio contexts CAp read in the database 71.
  • the audio comparator 7 also participates in improving the quality of context determination since the parameters PASp and the contexts CAp associated with the audio data and contained in the audio database 71 are determined both manually and therefore very precisely, as well as automatically .
  • the noisy signal SB comprising the residual non-vocal part of the current segment SA produced by the filter 2 is applied by the filter 2 to the audio comparator 7, in order to attempt to qualify the noisy signal SB by parameters PAS and contexts CA coming from the audio database 71 and thus to improve the context determination in the unit 5 and to inform the contextual base
  • the machines hosting the management means managing the audio database 71 can be shared.
  • the management means is associated with the audio comparator 7.
  • the linguistic converter CL does not have an audio comparator 7 or an audio database 71.
  • the linguistic converter CL comprises at least one translation module 41.
  • the module 41 is activated when the unit 8 finds that the language designated by the language identifier IL read in correspondence with the user identifier IU in the database BD data is different from the language of the signal SV determined by the unit 8.
  • the translation module 41 translates the text signal ST into a text signal translated STR into said designated language and applied to the segmentation unit 51.
  • the voice recognition module 4 and the translation module 41 use a common context analysis in order to improve the result of these two modules.
  • the language converter CL does not include a translation module.
  • Textual segments S n of the audio video signal SAV possibly translated are thus continuously applied to the central unit UCs at the output of the converter CL.
  • the units 5 and 6 aggregate the text segments S n into a subtitling signal ST.
  • the text segments S n are sent directly to the terminal installation IT via the networks RP and RA and are aggregated in the subtitling generator GS.
  • the captioning service offered by the system of the invention may be subject to billing according to the captioned channel, its frequency of listening, and the parameters selected by the user, such as those requiring a translation of the caption. titration in a language other than that of the original audio signal.
  • the subtitling system is also applicable to any installation receiving an audio signal SA and having a means of displaying the subtitles ST and a means of listening to the audio signal.
  • the installation comprises at least one radio receiver, or else a telephone or radiotelephone terminal in particular for subtitling the speech signal, as an audio signal, of the distant interlocutor during a telephone conversation.
  • the subtitling system is applicable to the field of audio conferencing or videoconferencing and more generally of a conference to subtitle the audio signal of a speaker during the conference.

Landscapes

  • Engineering & Computer Science (AREA)
  • Multimedia (AREA)
  • Signal Processing (AREA)
  • Human Computer Interaction (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Computer Security & Cryptography (AREA)
  • Two-Way Televisions, Distribution Of Moving Picture Or The Like (AREA)

Abstract

The invention relates to a system for automatic sub-titling of an audio signal in real time. Display parameters (PAF) fixed by the user of the equipment (EQm) are stored. A linguistic converter (CL) converts the audio signal (SAV) into a sub-title signal (ST), the audio signal being temporarily buffered during the conversion. A sub-title generator (GS) combines the audio signal which has been temporarily buffered and the sub-title signal to give a sub-titled audio signal (SAVST) suitable for the equipment (EQm), with sub-titles formatted according to the display parameters (PAF).

Description

Système de sous-titrage dynamique de signaux de télévision et radiophoniques Dynamic captioning system for television and radio signals
La présente invention concerne un système pour sous-titrer dynamiquement des signaux de télévision et radiophoniques.The present invention relates to a system for dynamically captioning television and radio signals.
L'adaptation des programmes télévisés aux personnes sourdes et malentendantes ou de langues étrangères est déjà connue depuis plusieurs années mais n'est pas suffisante. Actuellement, le volume d'heures sous-titrées par l'ensemble des chaînes de télévision françaises représente une proportion de 12 % environ du total des heures de programmes diffusées. Même si les chaînes de télévision offrent bien plus d'heures de sous-titrage que le quota imposé dans leurs cahiers des charges, elles ne satisfont pas la demande et les 12 % sous-titrés restent largement en dessous des pays voisins comme l'Allemagne ou la Suisse.The adaptation of television programs to deaf and hard of hearing people or people of foreign languages has already been known for several years but is not sufficient. Currently, the volume of hours subtitled by all French television channels represents a proportion of approximately 12% of the total hours of broadcast programs. Even if the television channels offer many more hours of subtitling than the quota imposed in their specifications, they do not meet demand and the 12% subtitled remain far below neighboring countries like Germany or Switzerland.
Le principal problème rencontré est le coût du sous-titrage. Actuellement, le coût moyen d'une heure de sous-titrage est de l'ordre de 25 euros HT la minute, soit 1500 euros HT l'heure. Le surcoût des sous-titrages est directement imputable aux chaînes et représente jusqu'à 2 % du budget d'une émission télévisée.The main problem encountered is the cost of subtitling. Currently, the average cost of one hour of subtitling is around 25 euros per hour, or 1500 euros per hour. The additional cost of subtitling is directly attributable to the channels and represents up to 2% of the budget of a television program.
Le sous-titrage traditionnel impose une phase dite de détection durant laquelle un opérateur visionne l'émission, transcrit en texte les dialogues, et marque des repères temporels ("time codes") au début et à la fin de chaque zone de sous- titrage de l'image continue. Puis une phase de montage produit une copie du signal vidéo initial (master vidéo) avec des sous-titres correctement positionnés en fonction des repères temporels.Traditional subtitling imposes a so-called detection phase during which an operator watches the program, transcribes the text into text, and marks time codes at the start and end of each subtitling area. of the image continues. Then an editing phase produces a copy of the initial video signal (video master) with subtitles correctly positioned according to the time marks.
Il manque parmi les programmes télévisuels sous- titrés surtout le sous-titrage de programmes en direct, à cause des difficultés techniques pour effectuer très rapidement ce sous-titrage. En effet la technique décrite précédemment n'est pas applicable en temps réel du fait des nombreuses manipulations. Une technique de sténotypie avec transcription par ordinateur en temps réel a alors été mise en place. Les marques temporelles de l'image auxquelles la parole se rapporte sont mémorisées en correspondance avec les signes sténographiques saisis. Le texte transcrit par l'ordinateur est ainsi indexé à l'image dès la saisie, et non lors de la phase de détection, phase extrêmement longue et fastidieuse. La sténotypie supprime pratiquement la phase de montage, puisque les sous-titres sont déjà indexés sur les marques temporelles. La transcription en texte des signes sténographiques entre deux marques temporelles dure environ 3 secondes. Toutes les marques temporelles sont décalées de 2 secondes environ pour que les sous-titres soient synchronisés de manière optimale. L'un des atouts de la sténotypie est la production de sous-titres en direct à l'aide d'un module d'incrustation qui les diffuse en temps réel.There is a lack of captioning of live programs among closed captioned television programs, due to technical difficulties in making this captioning very quickly. Indeed the technique described above is not applicable in real time due to the numerous manipulations. A stenotyping technique with real-time computer transcription was then implemented. The temporal marks of the image to which the speech relates are memorized in correspondence with the stenographic signs entered. The text transcribed by the computer is thus indexed to the image as soon as it is captured, and not during the detection phase, an extremely long and tedious phase. Shorthand virtually eliminates the editing phase, since the subtitles are already indexed to the time stamps. The transcription into text of the shorthand signs between two time marks takes approximately 3 seconds. All time stamps are offset by approximately 2 seconds so that the subtitles are optimally synchronized. One of the strengths of shorthand is the production of live subtitles using an overlay module which broadcasts them in real time.
Cependant le sous-titrage par sténotypie en direct nécessite une très grande vitesse de saisie, à raison de plus de 220 mots à la minute, et une très grande qualité de frappe. De plus le coût de la transcription à la charge de la chaîne de télévision reste encore élevé. En parallèle, un décodeur de télétexte généralement incorporé dans les téléviseurs est apparu afin d'activer à distance un sous-titrage avec une meilleure lisibilité par impression de sous- titres clairs sur un bandeau noir, une position du sous-titre variant en fonction du locuteur, des couleurs différentes pour des voix ("off") externes à l'image et pour des descriptions d'ambiance sonore, un calage du texte sur le rythme des images, etc. Le sous-titrage est véhiculé directement dans le signal télévisuel sur au moins deux lignes de trame prévues à cet effet.However, captioning by live shorthand requires a very fast typing speed, at a rate of more than 220 words per minute, and a very high typing quality. In addition, the cost of transcription charged to the television channel remains high. In parallel, a teletext decoder generally incorporated in televisions appeared in order to activate subtitling remotely with better readability by printing clear subtitles on a black strip, a position of the subtitle varying according to the speaker, different colors for voices ("off") external to the image and for descriptions of the soundscape, setting the text to the rhythm of the images, etc. Subtitling is carried directly in the television signal on at least two raster lines provided for this purpose.
Avec le brassage culturel accentué par l'Europe, la population francophone ne maîtrisant pas la langue à l'oral a besoin d'un appui écrit. Le sous-titrage linguistique, non compris les sous-titrages classiques pour des films en version originale, n'est pas envisageable dans n'importe quelle langue du fait du nombre restreint d'usagers. Le coût du sous- titrage serait prohibitif en comparaison au nombre d'usagers. Le sous-titrage virtuel répond à cette problématique mais dans un cadre bien précis, celui des films projetés sur écran. Le sous-titrage virtuel présenté au public est basé sur une copie d'un film sous-titré au moyen d'un système générant des sous- titres par micro-ordinateur et les projetant avec un vidéo-projecteur synchronisé au projecteur du film. Ce système évite de graver la copie et offre une réduction du coût, une meilleure souplesse pour un changement de sous-titre correspondant par exemple à un changement de langue, et une grande liberté dans la position du sous-titre, sur, au-dessous ou au- dessus de l'image. Mais ce système reste cantonné à ce cadre précis. Ces techniques reposent soit sur une préparation du programme avant diffusion de celui-ci, soit sur une intervention au cours de la diffusion du programme mais toujours à l'aide d'une action humaine rapide et coûteuse.With the cultural mix accentuated by Europe, the French-speaking population who do not speak the spoken language needs written support. Linguistic subtitling, not including classic subtitling for films in original version, is not possible in any language due to the limited number of users. The cost of subtitling would be prohibitive compared to the number of users. Virtual subtitling responds to this problem, but within a very specific framework, that of films projected on screen. The virtual subtitling presented to the public is based on a copy of a subtitled film by means of a system generating subtitles by microcomputer and projecting them with a video projector synchronized with the film projector. This system avoids burning the copy and offers a reduction in cost, better flexibility for a change of subtitle corresponding for example to a change of language, and great freedom in the position of the subtitle, on, below or above the image. But this system remains confined to this precise framework. These techniques are based either on a preparation of the program before it is broadcast, or on an intervention during the broadcasting of the program but always with the help of rapid and costly human action.
Le brevet US 5 815 196 divulgue un procédé et un dispositif pour produire en continu un sous-titrage d'un signal audio/vidéo d'entrée traduit dans une langue cible au cours d'une communication visiophonique, mais sans qu'un usager ne puisse interagir directement avec le sous-titre produit.US Patent 5,815,196 discloses a method and a device for continuously producing subtitling of an input audio / video signal translated into a target language during a videophone communication, but without a user can interact directly with the subtitle produced.
Toutes ces techniques ne proposent aucune véritable action du téléspectateur ou de l'usager sur le sous-titrage.All these techniques do not offer any real action by the viewer or the user on subtitling.
L'objectif de la présente invention est de sous- titrer automatiquement et en temps réel un signal audio, notamment de télévision ou radiophonique, en offrant une personnalisation du sous-titrage à 1 'usager.The objective of the present invention is to automatically and subtitle an audio signal, in particular from television or radio, in real time by offering customization of the subtitling to the user.
Pour atteindre cet objectif, un système pour sous-titrer dynamiquement un signal audio reçu en continu par un équipement récepteur, comprenant un moyen pour convertir le signal audio reçu en un signal de sous-titrage incluant des sous-titres, et un moyen de combinaison de signal audio et de signal de sous-titrage, est caractérisé en ce qu'il comprendTo achieve this objective, a system for dynamically captioning an audio signal continuously received by receiving equipment, comprising means for converting the received audio signal into a captioning signal including subtitles, and combining means audio signal and subtitling signal, is characterized in that it comprises
un moyen pour mémoriser des paramètres d'affichage déterminés préalablement par un usager de 1 ' équipement, et - un moyen tampon pour mémoriser temporairement le signal audio reçu en un signal audio retardé de la durée de conversion dans le moyen pour convertir,means for memorizing display parameters determined beforehand by a user of the equipment, and a buffer means for temporarily storing the received audio signal into an audio signal delayed by the conversion time in the means for converting,
- et en ce que le moyen de combinaison combine le signal audio retardé et le signal de sous-titrage en un signal audio sous-titré avec des sous-titres formatés selon les paramètres d'affichage afin d'appliquer le signal audio sous-titré avec des sous- titres formatés à l'équipement. Un autre avantage de l'invention est de permettre à l'usager de personnaliser en temps réel le sous-titrage, puisque les sous-titres sont formatés selon les paramètres d'affichage au cours du sous-titrage dynamique. Lorsque le signal audio comprend déjà un sous- titrage, le système peut comprendre un moyen pour détecter un signal de sous-titrage dans le signal audio afin que le moyen pour combiner formate des sous-titres du signal de sous-titrage détecté en fonction des paramètres d'affichage.- and in that the combining means combines the delayed audio signal and the subtitling signal into a subtitled audio signal with subtitles formatted according to the display parameters in order to apply the subtitled audio signal with subtitles formatted to the equipment. Another advantage of the invention is to allow the user to personalize the subtitling in real time, since the subtitles are formatted according to the display parameters during dynamic subtitling. When the audio signal already includes closed captioning, the system may include means for detecting a closed caption signal in the audio signal so that the means for combining formats closed captioning of the detected closed caption signal display settings.
L'invention offre également la possibilité à l'usager d'afficher le sous-titrage généré par le moyen pour convertir, ou détecté dans le signal audio, selon une langue choisie par l'usager. Dans ce cas, le moyen pour mémoriser mémorise un identificateur définissant une langue déterminée préalablement par l'usager de l'équipement. Le système comprend alors de préférence un moyen pour déterminer un identificateur d'une langue du signal de sous-titrage détecté, un moyen pour comparer l'identificateur de langue mémorisé à l'identificateur de langue du signal de sous-titrage, et au moins un moyen pour traduire les sous-titres du signal de sous-titrage en des sous-titres de la langue déterminée préalablement lorsque les identificateurs de langue sont différents afin d'appliquer les sous-titres de la langue déterminée sous la forme du signal de sous-titrage au moyen pour combiner. Selon une réalisation préférée de l'invention, le moyen pour convertir peut comprendre un moyen pour filtrer le signal audio continu en un signal vocal et un signal bruité, un moyen pour analyser le signal vocal afin de produire des paramètres vocaux, un moyen de reconnaissance vocale convertissant le signal vocal en un signal textuel, un moyen pour segmenter le signal vocal en des segments textuels temporels périodiques, un moyen pour déterminer un contexte de chaque segment textuel en fonction de moyennes des paramètres vocaux sur la durée du segment textuel et en fonction du segment textuel afin que les contextes soient impliqués dans la conversion du signal vocal en le signal textuel exécutée par le moyen de reconnaissance vocale, et un moyen pour agréger les segments textuels en un signal de sous-titrage. Le système peut comprendre également un moyen pour déterminer une langue du segment courant du signal vocal afin que le moyen pour convertir détermine dynamiquement le signal de sous- titrage en fonction de la langue déterminée.The invention also offers the possibility for the user to display the subtitling generated by the means for converting, or detected in the audio signal, according to a language chosen by the user. In this case, the means for storing memorizes an identifier defining a language determined beforehand by the user of the equipment. The system then preferably comprises means for determining an identifier of a language of the detected subtitling signal, means for comparing the stored language identifier with the language identifier of the subtitling signal, and at least a means for translating the subtitles of the subtitling signal into subtitles of the language determined beforehand when the Language identifiers are different in order to apply the subtitles of the determined language in the form of the closed captioning signal to combine. According to a preferred embodiment of the invention, the means for converting may comprise means for filtering the continuous audio signal into a voice signal and a noisy signal, means for analyzing the voice signal in order to produce voice parameters, recognition means voice converting the voice signal into a text signal, means for segmenting the voice signal into periodic time text segments, means for determining a context of each text segment based on averages of the voice parameters over the duration of the text segment and in function of the text segment so that contexts are involved in converting the speech signal into the text signal performed by the speech recognition means, and means for aggregating the text segments into a captioning signal. The system may also include means for determining a language of the current segment of the speech signal so that the means for converting dynamically determines the subtitle signal according to the determined language.
Selon une autre réalisation, le système de l'invention peut être également utilisé pour sous- titrer un signal audio vidéo. Dans cette réalisation, le système peut comprendre un moyen pour extraire le signal audio d'un signal audio vidéo qui est reçu par le système et l'équipement et qui est appliqué au moyen pour convertir et au moyen tampon à la place du signal audio. D'autres caractéristiques et avantages de la présente invention apparaîtront plus clairement à la lecture de la description suivante de plusieurs réalisations préférées de l'invention en référence aux dessins annexés correspondants dans lesquels :According to another embodiment, the system of the invention can also be used to subtitle an audio video signal. In this embodiment, the system may include means for extracting the audio signal from an audio video signal which is received by the system and the equipment and which is applied to the converting means and the buffer means in place of the audio signal. Other characteristics and advantages of the present invention will appear more clearly on reading the following description of several preferred embodiments of the invention with reference to the corresponding appended drawings in which:
- la figure 1 est un bloc-diagramme schématique d'un système de sous-titrage selon une première réalisation de l'invention, dans l'environnement d'une installation terminale d'usager comprenant plusieurs équipements récepteurs et de plusieurs serveurs de sous-titrage; la figure 2 est un algorithme d'étapes exécutées par le système de sous-titrage selon la première réalisation pour sous-titrer un signal audio vidéo ; et- Figure 1 is a schematic block diagram of a subtitling system according to a first embodiment of the invention, in the environment of a terminal user installation comprising several receiving equipment and several servers of sub- titration; FIG. 2 is an algorithm of steps executed by the subtitling system according to the first embodiment for subtitling an audio video signal; and
- la figure 3 est un bloc-diagramme schématique d'une réalisation préférée d'un convertisseur linguistique inclus dans le système de sous-titrage selon l'invention.- Figure 3 is a schematic block diagram of a preferred embodiment of a language converter included in the subtitling system according to the invention.
Dans la suite, le terme "chaîne" désigne indifféremment un canal ou une voie de transmission pour diffuser un programme de radiodiffusion sonore ou un programme de télévision, et la société de programme diffusant ledit programme. Le terme "programme" désigne une succession d'émissions de radiodiffusion sonore ou de télévision, appelées également magazines, diffusées par une chaîne déterminée .In the following, the term "channel" denotes either a channel or a transmission channel for broadcasting a sound broadcasting program or a television program, and the program company broadcasting said program. The term "program" designates a succession of sound or television broadcasting programs, also called magazines, broadcast by a specific channel.
En référence à la figure 1, le système de sous- titrage selon une première réalisation de l'invention comprend essentiellement une installation terminale d'usager IT et un serveur de sous-titrage STT, ou plus généralement plusieurs serveurs de sous-titrage. L'installation terminale d'usager IT comprend M équipements récepteurs EQl, ... EQm, ... EQM avec 1 < m < M. Par exemple, l'un EQl des équipements est un récepteur de radiodiffusion sonore muni d'un afficheur pouvant recevoir sélectivement les émissions de plusieurs chaînes (stations) de radiodiffusion sonore. Un autre équipement EQm est un ordinateur personnel (PC) par exemple relié à un réseau de paquets du type réseau Internet, ou relié à un réseau câblé de distribution de programme d'émission de télévision et/ou de radiodiffusion sonore. Un dernier équipement EQM est un récepteur de télévision qui est par exemple doté de moyens de réception de signaux de télévision pour recevoir des programmes de télévision prédéterminés et doté d'un ou de plusieurs décodeurs pour recevoir des programmes transmis via un satellite et/ou via un réseau câblé de distribution.With reference to FIG. 1, the subtitling system according to a first embodiment of the invention essentially comprises a terminal installation of IT user and an STT subtitling server, or more generally several subtitling servers. The IT user terminal installation includes M receiver equipment EQl, ... EQm, ... EQM with 1 <m <M. For example, one EQl of the equipment is a sound broadcasting receiver fitted with a display can selectively receive broadcasts from several sound broadcasting stations (stations). Another EQm equipment is a personal computer (PC), for example connected to a packet network of the Internet network type, or connected to a cable network for distribution of television program and / or sound broadcasting. A last piece of EQM equipment is a television receiver which is for example provided with means for receiving television signals to receive predetermined television programs and equipped with one or more decoders for receiving programs transmitted via a satellite and / or via a cable distribution network.
Les équipements EQl à EQM sont pilotés à travers un bus distribué BU par une unité centrale de traitement UCit dans l'installation IT. En variante, tout ou partie du bus BU peut être remplacé par une liaison radioélectrique de proximité de type Bluetooth ou selon la norme 802.11b. L'unité centrale UCit comprend essentiellement un microcontrôleur relié à divers périphériques tels qu'une mémoire tampon Mit, un générateur de sous- titrage GS, une interface de communication IC et optionnellement un clavier et un écran. L'unité centrale, la mémoire tampon, le générateur de sous- titrage et l'interface de communication sont inclus physiquement dans un boîtier indépendant des équipements. En variante, l'unité centrale UCit avec les périphériques est intégrée dans l'ordinateur ou le récepteur de radiodiffusion ou le récepteur de télévision EQm. L'unité centrale UCit constitue un module de base qui peut desservir divers équipements domotiques tels que ceux illustrés à la figure 1 ainsi qu'un ou plusieurs téléphones et radiotéléphones mobiles, une centrale d'alarme, etc. L'interface de communication IC est adaptée à une liaison de télécommunications LT reliée à un réseau d'accès RA de l'installation IT. La liaison LT et le réseau RA peuvent être classiquement une ligne téléphonique et le réseau téléphonique commuté RTC lui-même connecté à un réseau de transmission de paquets à haut débit RP de type internet. Selon d'autres variantes, la liaison de télécommunications LT est une ligne xDSL (Digital Subscriber Line) ou une ligne RNIS (Réseau Numérique à Intégration de Services) reliée au réseau d'accès correspondant. La liaison LT peut être aussi confondue avec l'une des liaisons desservant l'un EQm des équipements à travers l'un de réseaux de distribution RD définis ci-dessous.The EQl to EQM equipment is controlled via a distributed bus BU by a central processing unit UCit in the IT installation. As a variant, all or part of the BU bus can be replaced by a proximity radio link of the Bluetooth type or according to the 802.11b standard. The UCit central unit essentially comprises a microcontroller connected to various peripherals such as a Mit buffer memory, a closed captioning generator GS, an IC communication interface and optionally a keyboard and a screen. The central unit, the buffer memory, the captioning generator and the communication interface are physically included in a housing independent of the equipment. Alternatively, the UCit central unit with peripherals is integrated into the computer or the broadcasting receiver or the radio receiver. EQm television. The UCit central unit constitutes a basic module which can serve various home automation equipment such as that illustrated in FIG. 1 as well as one or more mobile telephones and radiotelephones, an alarm center, etc. The communication interface IC is adapted to a telecommunications link LT connected to an access network RA of the installation IT. The link LT and the network RA can conventionally be a telephone line and the switched telephone network PSTN itself connected to a high speed packet transmission network RP of the internet type. According to other variants, the telecommunications link LT is an xDSL line (Digital Subscriber Line) or an ISDN line (Digital Network with Service Integration) connected to the corresponding access network. The link LT can also be confused with one of the links serving one of the equipment's EQm through one of the distribution networks RD defined below.
Selon une autre variante, l'installation terminale IT peut être organisée autour d'une plateforme DVB-MHP (Digital Video Broadcasting-Multimedia Home Platform) pour laquelle la liaison de télécommunications LT est asymétrique avec une voie de retour à débit faible vers le réseau d'accès RA.According to another variant, the IT terminal installation can be organized around a DVB-MHP platform (Digital Video Broadcasting-Multimedia Home Platform) for which the telecommunications link LT is asymmetrical with a return path at low speed to the network RA access.
La figure 1 montre également d'une manière schématique le système de télécommunications environnant l'installation terminale d'usager IT. En particulier, les repères RD et TR désignent respectivement un ou plusieurs réseaux de distribution d'émissions programmées de radiodiffusion sonore et de télévision et une ou plusieurs têtes de réseau diffusant des émissions et gérées par diverses sociétés de programme de radiodiffusion sonore et de télévision. L'ensemble des réseaux de distribution RD comprend notamment des réseaux de radiodiffusion analogiques et/ou numériques pour diffuser des émissions capables d'être reçues par le récepteur radio EQl, des réseaux câblés, hertziens (radioélectriques) terrestres analogiques et numériques, par satellites en modes analogique et numérique pour diffuser des émissions de télévision et éventuellement de radiodiffusion sonore susceptibles d'être reçues par le récepteur de télévision EQM. L'ensemble des réseaux de distribution RD comprend également le réseau Internet à travers lequel l'ordinateur EQm est capable de recevoir des émissions radio et/ou de télévision que diffusent certaines sociétés de programme.Figure 1 also schematically shows the telecommunications system surrounding the IT user terminal installation. In particular, the references RD and TR designate respectively one or more distribution networks for scheduled sound and television broadcasting programs and one or more head ends broadcasting programs and managed by various television and sound broadcasting program companies. All of the RD distribution networks include in particular analog and / or digital broadcasting networks for broadcasting programs capable of being received by the radio receiver EQl, terrestrial analog and digital cable, wireless (radioelectric) networks, by satellites in analog and digital modes for broadcasting television programs and possibly sound broadcasting capable of being received by the television receiver EQM. All the RD distribution networks also include the Internet network through which the computer EQm is capable of receiving radio and / or television broadcasts broadcast by certain program companies.
Chaque serveur de sous-titrage STT est relié au réseau de distribution d'émissions RD et à l'installation terminale de l'usager IT via le réseau de paquets RP et le réseau d'accès RA. Selon une autre variante, les fonctionnalités du serveur de sous-titrage STT sont situées dans une tête de réseau TR, ou plus généralement, le serveur STT est relié aux réseaux de distribution d'émissions RD. Dans ce cas le sous-titrage est effectué au moins en partie avant diffusion.Each closed captioning server STT is connected to the program distribution network RD and to the terminal installation of the user IT via the packet network RP and the access network RA. According to another variant, the functionalities of the closed captioning server STT are located in a headend TR, or more generally, the server STT is connected to the broadcast distribution networks RD. In this case, subtitling is carried out at least in part before broadcasting.
Les programmes prévus, sauf ceux en direct, sont sous-titrés par légère anticipation, au moins quelques minutes environ avant leur diffusion, ce qui offre un sous-titrage quasiment sans décalage temporel. En effet comme expliqué par la suite, le traitement d'un signal audio vidéo par le système de sous-titrage a une certaine durée qui engendre un retard ou décalage temporel relativement faible entre le signal entrant SAV dans le système et le signal sous-titré SAVST sortant du système. Lorsque le sous- titrage intervient au cours de l'affichage d'un signal audio vidéo continu, le retard dû au sous- titrage est comblé par le signal audio vidéo continu qui sera alors dupliqué mais avec des sous-titres au début du sous-titrage, ou par un message du type "sous-titrage en cours", ou par tout autre séquence prédéterminée audio/vidéo. Le serveur STT comporte une unité centrale de traitement UCs et un ensemble de périphériques dont au moins une base de données, un convertisseur linguistique CL décrit en détail ci-dessous et un analyseur vidéo AV. De nombreuses variantes de la répartition matérielle des composants de l'installation terminale d'usager IT et du serveur de sous-titrage STT peuvent être déduites de la réalisation de l'invention illustrée à la figure 1. Selon une première variante d'architecture appelée "client léger/serveur lourd", la mémoire tampon Mit et le générateur GS sont inclus dans le serveur STT afin de simplifier l'installation de l'usager, au même titre qu'une partie du traitement réalisée par l'unité centrale de traitement UCit est alors exécutée dans l'unité centrale UCs du serveur STT.The scheduled programs, except the live ones, are subtitled by slight anticipation, at least a few minutes before their broadcast, which offers almost no time lag. Indeed, as explained below, the processing of an audio video signal by the subtitling system has a certain duration which generates a relatively small delay or time difference between the incoming SAV signal into the system and the closed captioned SAVST signal out of the system. When subtitling occurs during the display of a continuous audio video signal, the delay due to subtitling is made up by the continuous audio video signal which will then be duplicated but with subtitles at the start of the subtitle. titration, or by a message of the "subtitling in progress" type, or by any other predetermined audio / video sequence. The STT server comprises a central processing unit UCs and a set of peripherals including at least one database, a linguistic converter CL described in detail below and an AV video analyzer. Many variants of the hardware distribution of the components of the IT user terminal installation and of the STT subtitling server can be deduced from the embodiment of the invention illustrated in FIG. 1. According to a first variant of architecture called "thin client / heavy server", the Mit buffer memory and the GS generator are included in the STT server in order to simplify the installation of the user, as well as part of the processing carried out by the central processing unit UCit is then executed in the central unit UCs of the STT server.
Selon une deuxième variante d'architecture appelée "client lourd/serveur léger", le convertisseur linguistique CL, l'analyseur vidéo AV et la base de données BD sont implantés dans l'installation d'usager IT, et le traitement qui était réalisé par l'unité centrale UCs est alors exécuté dans l'unité de traitement UCit. D'autres variantes intermédiaires entre l'architecture client léger/serveur lourd et l'architecture client lourd/serveur léger comme celle de la réalisation préférée présentée à la figure 1 sont envisageables.According to a second variant of architecture called "thick client / thin server", the language converter CL, the AV video analyzer and the database BD are installed in the user installation IT, and the processing which was carried out by the central unit UCs is then executed in the processing unit UCit. Other intermediate variants between the thin client / heavy server architecture and the heavy client / thin server architecture such as that of the preferred embodiment presented in FIG. 1 are conceivable.
Selon une autre réalisation, l'ensemble des traitements réalisés par la suite sont exécutés en amont de la diffusion des programmes, dans une tête de réseau TR. Dans ce cas, l'installation terminale de l'usager est réduite quasiment aux équipements EQl à EQM.According to another embodiment, all of the processing carried out thereafter is executed upstream of the broadcasting of the programs, in a network head TR. In this case, the user's terminal installation is almost reduced to the equipment EQl to EQM.
Les termes "paramètres de sous-titrage" désignent des paramètres d'activation PAC, des paramètres d'affichage PAF et un identificateur de langue IL. Les paramètres d'activation caractérisent une période d'activation du système de sous-titrage selon l'invention en fonction de dates et d'heures de début et de fin et/ou du type de programme. Les paramètres d'activation PAC font référence entre autre à des grilles de programme d'une chaîne. Les paramètres d'affichage PAF caractérisent l'affichage des sous-titres sur l'afficheur inclus dans un équipement récepteur de l'usager, comme le positionnement, la fonte des caractères, les couleurs allouées aux différents locuteurs, l'affichage par défilement continu du texte ou par phrases statiques, etc. L'identificateur de langue IL définit une langue des sous-titres.The term "closed captioning parameters" means PAC activation parameters, PAF display parameters and an IL language identifier. The activation parameters characterize an activation period of the subtitling system according to the invention as a function of start and end dates and times and / or of the type of program. The PAC activation parameters refer, among other things, to program grids of a chain. The PAF display parameters characterize the display of the subtitles on the display included in the user's receiving equipment, such as positioning, font type, colors allocated to the different speakers, display by continuous scrolling text or static sentences, etc. The language identifier IL defines a subtitle language.
Dans une autre réalisation de l'invention, un programme de préférences sert à mémoriser dans la base de données BD et paramétrer des préférences sur le sous-titrage souhaité par l'usager afin d'établir et mémoriser des paramètres PAC, PAF et IL et les modifier si cela est souhaité. Le programme de préférence est exécuté par le serveur STT via le réseau de paquets RP, ou directement par l'unité centrale UCit de l'installation terminale IT lorsque la base de données BD est incluse dans l'installation IT.In another embodiment of the invention, a preference program is used to store in the database BD and configure preferences on the subtitling desired by the user in order to establish and store parameters PAC, PAF and IL and the modify if desired. The preference program is executed by the STT server via the packet network RP, or directly by the central unit UCit of the IT terminal installation when the database BD is included in the IT installation.
Par exemple, le programme de préférence présente une liste complète des équipements EQl à EQM de l'usager via un afficheur dans l'installation IT afin que l'usager sélectionne l'équipement pour lequel il souhaite modifier les paramètres de sous-titrage lorsque les identificateurs de plusieurs équipements de l'usager ont été enregistrés lors de son abonnement. Des paramètres de sous-titrage peuvent être proposés par défaut à l'usager, ou bien les paramètres actuels si l'usager a déjà sélectionné ou modifié ces paramètres. Une première page invite l'usager à saisir des paramètres d'activation PAC programmables par l'usager selon des dates et des heures ou directement selon des émissions choisies à partir d'une grille de programme. A chaque validation de l'usager d'une page de saisie, les valeurs saisies des paramètres sont envoyées au serveur STT pour mémorisation dans la base de données BD, ou directement dans la base de données BD de l'installation terminale pour l'architecture "client lourd/serveur léger". Il en est de même pour les paramètres d'affichage PAF et les identificateurs de langue IL. Si l'installation terminale IT ne dispose pas de moyen d'interface homme-machine comme une souris ou un clavier, les paramètres correspondant aux préférences de l'usager sont sélectionnés par défaut. Si le sous-titrage de l'invention est réalisé dans une tête de réseau TR et l'installation terminale IT est réduite essentiellement aux équipements EQl à EQM, les paramètres sont modifiés par l'usager via tout autre moyen, par exemple par un terminal téléphonique ou radiotéléphonique ou par une opératrice lors de la souscription au service de sous-titrage selon l'invention.For example, the preference program presents a complete list of equipment EQl to EQM of the user via a display in the IT installation so that the user selects the equipment for which he wishes to modify the subtitling parameters when the identifiers of several of the user's devices were registered during his subscription. Subtitling parameters can be proposed by default to the user, or the current parameters if the user has already selected or modified these parameters. A first page invites the user to enter PAC activation parameters programmable by the user according to dates and times or directly according to programs chosen from a program schedule. Each time the user validates an entry page, the entered values of the parameters are sent to the STT server for storage in the BD database, or directly in the BD database of the terminal installation for architecture. "heavy client / thin server". The same is true for PAF display settings and IL language identifiers. If the IT terminal installation does not have human-machine interface means such as a mouse or keyboard, the parameters corresponding to the user's preferences are selected by default. If the captioning of the invention is carried out in a TR network head and the IT terminal installation is essentially reduced to equipment EQl to EQM, the parameters are modified by the user via any other means, for example by a telephone or radiotelephone terminal or by an operator when subscribing to the subtitling service according to the invention.
La figure 2 montre un algorithme d'étapes El àFIG. 2 shows an algorithm of steps E1 to
Eli exécutées par le système de sous-titrage selon la première réalisation pour sous-titrer un signal audio vidéo SAV transmis par le réseau de distribution RD vers l'un EQm des équipements récepteurs de l'installation IT.Eli executed by the subtitling system according to the first embodiment to subtitle an audio video audio signal transmitted by the distribution network RD to one EQm of the receiving equipment of the IT installation.
A l'étape El, l'usager U de l'installation IT met sous tension celle-ci et sélectionne un équipement EQm afin d'activer globalement le système de sous-titrage de l'invention. Par exemple, une pression prédéterminée d'une télécommande de l'équipement sélectionné EQm lorsque cet équipement sélectionné contient l'unité centrale UCit, ou un basculement à la position de mise en marche d'un bouton sur le boîtier intégrant l'unité centrale UCit met sous tension l'unité UCit. Celle-ci lit en mémoire et transmet alors automatiquement un identificateur IU de l'usager U et un identificateur IEQm de l'équipement EQm sélectionné par l'usager U au serveur STT. La mise sous tension de l'unité centrale UCit vide la mémoire tampon Mit.In step E1, the user U of the IT installation powers up the latter and selects an equipment EQm in order to globally activate the subtitling system of the invention. For example, a predetermined pressure from a remote control of the selected equipment EQm when this selected equipment contains the UCit central unit, or a switch to the switch-on position of a button on the box integrating the UCit central unit powers up the UCit unit. This reads from memory and then automatically transmits an identifier IU of the user U and an identifier IEQm of the equipment EQm selected by the user U to the server STT. Switching on the UCit central unit empties the Mit buffer.
Le serveur STT identifie l'usager U qui a souscrit au service de sous-titrage, en comparant l'identificateur reçu IU avec les identificateurs des usagers abonnés dans la base de données BD, à l'étape E2. Dans une variante, le serveur STT demande à l'usager de saisir dans l'installation IT l'identificateur IU et un mot de passe qui lui a été attribué lors de l'abonnement au service afin de transmettre l'identificateur et le mot de passe au serveur STT pour vérification. Puis à l'étape E2, l'unité centrale UCs lit les paramètres de sous- titrage PAC, PAF et IL dans la base de données BD en correspondance avec l'identificateur d'usager IU afin de les analyser selon les étapes suivantes en vue de produire les sous-titres dans l'équipement sélectionné EQm pour la chaîne sélectionnée. Les paramètres d'activation PAC sont considérés par l'unité centrale UCs, afin que le générateur GS et le convertisseur CL, ou plus généralement le système, ne soient actifs seulement pendant la durée d'activation déterminée par les paramètres PAC. Après l'identification de l'usager à l'étape E2, l'unité centrale UCs dans le serveur STT invite l'usager à sélectionner une chaîne dans l'équipement EQm qui transmet ensuite un identificateur ICM de la chaîne sélectionnée au serveur STT via l'unité UCit, à l'étape E3.The server STT identifies the user U who has subscribed to the subtitling service, by comparing the identifier received IU with the identifiers of the users subscribed in the database BD, in step E2. In a variant, the STT server requests the user to enter the UI identifier and a password which has been given to him in the IT installation. assigned when subscribing to the service in order to transmit the identifier and password to the STT server for verification. Then in step E2, the central unit UCs reads the subtitling parameters PAC, PAF and IL from the database BD in correspondence with the user identifier IU in order to analyze them according to the following steps in view to produce the subtitles in the selected equipment EQm for the selected channel. The PAC activation parameters are considered by the central unit UCs, so that the generator GS and the converter CL, or more generally the system, are only active during the duration of activation determined by the parameters PAC. After identifying the user in step E2, the central unit UCs in the STT server invites the user to select a chain in the equipment EQm which then transmits an ICM identifier of the selected chain to the STT server via the UCit unit, in step E3.
En variante, l'équipement EQm et la chaîne du signal audio vidéo à sous-titrer ont été présélectionnés par l'usager U notamment lors de la souscription au service de sous-titrage, et les identificateurs IEQm et ICM ont été inscrits en correspondance avec l'identificateur IU de l'usager U dans la base de données BD. Dans cette variante, l'équipement EQm est simplement mis sous tension en attente d'un sous-titrage. A l'étape suivante E4, le signal audio vidéo SAV de la chaîne sélectionnée reçu par l'équipement sélectionné est mémorisé en continu temporairement dans la mémoire tampon Mit en un signal audio retardé SAVR. Comme tout signal audio vidéo SAV, celui-ci inclut des repères temporels périodiques tels que des mots de verrouillage de trame, des mots de synchronisation de paquet, des signaux de synchronisation de trame vidéo ou de ligne, etc. Ces repères temporels sont comptés modulo au nombre prédéterminé et mémorisé dans la mémoire tampon Mit en réponse à la sélection de l'identificateur ICH de la chaîne par l'usager. L'unité UCit transmet alors un repère temporel de synchronisation déterminé du serveur ST afin que celui-ci débute le sous-titrage pour la chaîne sélectionnée relativement à l'usager U en réponse au repère temporel de synchronisation. La durée de mémorisation du signal SAV dépend du temps de traitement pour le sous-titrage du signal SAV par le dispositif, y compris le temps d'acheminement des messages échangés entre l'installation terminale IT de l'usager U et le serveur de sous-titrage STT. En parallèle, l'unité centrale UCs du serveur STT sélectionne la chaîne désignée par l'identificateur reçu ICH parmi toutes les chaînes disponibles au niveau du serveur à l'étape E5.As a variant, the equipment EQm and the audio video signal chain to be subtitled have been preselected by the user U, in particular when subscribing to the subtitling service, and the identifiers IEQm and ICM have been registered in correspondence with the identifier U of user U in the database BD. In this variant, the EQm equipment is simply powered up awaiting subtitling. In the next step E4, the audio video signal SAV of the selected channel received by the selected equipment is temporarily stored temporarily in the buffer memory Mit in a delayed audio signal SAVR. Like any after-sales audio video signal, this includes periodic time marks such as frame alignment words, packet synchronization words, video or line frame synchronization signals, etc. These time marks are counted modulo to the predetermined number and stored in the buffer buffer Mit in response to the selection of the ICH identifier of the chain by the user. The UCit unit then transmits a determined synchronization time reference from the server ST so that the latter begins captioning for the channel selected relative to the user U in response to the synchronization time reference. The duration of storage of the after-sales service signal depends on the processing time for the subtitling of the after-sales service signal by the device, including the time of routing of the messages exchanged between the terminal installation IT of the user U and the sub-server - STT title. In parallel, the central unit UCs of the server STT selects the channel designated by the identifier received ICH from among all the channels available at the level of the server in step E5.
En variante, l'unité centrale vérifie si le signal audio vidéo SAV identifié par l'identificateur de chaîne ICH est en cours de sous-titrage par le serveur STT et si les paramètres de sous-titrage pour le sous-titrage actuel correspondent aux paramètres PAC et IL sélectionnés par l'usager. Lorsque les paramètres correspondent, le sous-titrage est poursuivi à l'étape E8, dans le cas contraire le signal SAV continue le traitement à l'étape E6. A l'étape Eβ, l'unité centrale UCs déclenche le traitement du signal SAV de la chaîne sélectionnée en réponse au repère temporel de synchronisation reçu avec les paramètres IU, IEQm et ICH. A partir du repère temporel de synchronisation, les repères temporels suivants dans le signal SAV sont détectés et inclus dans le signal par l'unité centrale UCs. L'unité centrale UCs traite le signal SAV afin que l'analyseur vidéo AV détecte un sous-titrage dans le signal SAV. Lorsque le signal SAV comporte déjà un sous- titrage, l'analyseur vidéo AV extrait les sous-titres ST du signal SAV et une unité de détermination de langue 8 (figure 3) du convertisseur linguistique CL détermine l'identificateur IL de la langue du sous- titrage à l'étape E61. L'unité centrale UCs le compare à l'identificateur IL de la langue déterminée préalablement par l'usager lu dans la base de données BD, à l'étape E62. Si les identificateurs de langue sont identiques, le serveur STT poursuit le procédé par l'étape ultérieure E8.Alternatively, the central unit checks whether the audio video signal SAV identified by the channel identifier ICH is being closed captioned by the STT server and whether the closed caption settings for the current closed caption match the settings PAC and IL selected by the user. When the parameters match, the subtitling is continued in step E8, otherwise the after-sales service signal continues processing in step E6. In step Eβ, the central unit UCs triggers the processing of the after-sales service signal of the selected chain in response to the synchronization time frame received with the parameters IU, IEQm and ICH. From the synchronization time mark, the following time marks in the service signal are detected and included in the signal by the central unit UCs. The central unit UCs processes the service signal so that the AV video analyzer detects closed captioning in the service signal. When the SAV signal already has subtitling, the AV video analyzer extracts the ST subtitles from the SAV signal and a language determination unit 8 (FIG. 3) of the language converter CL determines the identifier IL of the language of the subtitling in step E61. The central unit UCs compares it to the identifier IL of the language determined beforehand by the user read in the database BD, in step E62. If the language identifiers are identical, the STT server continues the process with the subsequent step E8.
Par exemple, si le sous-titrage n'est pas séparé du signal reçu SAV ou s'il n'est pas récupérable automatiquement, comme pour un signal audio-vidéo MPEG4 avec un marquage descriptif via le langage SMIL (Synchronized Multimedia Intégration Language) , l'analyseur AV détecte le sous-titrage par une reconnaissance optique de caractère (OCR) . La durée nécessaire à l'analyse d'image par cette reconnaissance de forme n'est pas pénalisante pour les raisons suivantes. Les sous-titres étant très souvent positionnés dans une portion basse d'une image, l'analyse en est considérablement limitée. Pour être visible de l'usager, les sous-titres sont en gros caractères dactylographiés généralement avec un bon contraste par rapport à l'image. Ils sont donc simples à reconnaître, ce qui limite la puissance de reconnaissance optique de caractères et donc sa durée. Un temps de perception minimal est tel que le sous-titrage change en moyenne toutes les cinq secondes environ, et au minimum toutes les trois secondes environ. L'analyseur audio AV analyse ainsi seulement une portion (le cinquième) inférieure des images par période de trois secondes minimum.For example, if the subtitling is not separated from the after-sales service signal or if it is not automatically recoverable, as for an MPEG4 audio-video signal with descriptive marking via the SMIL language (Synchronized Multimedia Integration Language) , the AV analyzer detects closed captioning by optical character recognition (OCR). The time required for image analysis by this shape recognition is not penalizing for the following reasons. Subtitles are very often positioned in a lower portion of an image, the analysis is considerably limited. To be visible to the user, the subtitles are in large type, typed generally with good contrast to the image. They are therefore simple to recognize, which limits the power of optical character recognition and therefore its duration. A minimum perception time is such that the subtitling changes on average approximately every five seconds, and at least every three about seconds. The AV audio analyzer thus analyzes only a lower portion (the fifth) of the images per minimum three-second period.
Dans le cas contraire, à l'étape E62 où l'identificateur de langue du sous-titrage dans le signal SAV n'est pas identique à l'identificateur de langue IL déterminé par l'usager, un module de traduction 41 (figure 3) inclus dans le convertisseur linguistique CL traduit les sous-titres extraits du signal SAV en des sous-titres de la langue déterminée par les identificateurs de langue IL de l'usager, à l'étape E63 qui est suivie par l'étape E8.Otherwise, in step E62 where the language identifier of the subtitling in the after-sales service signal is not identical to the language identifier IL determined by the user, a translation module 41 (FIG. 3 ) included in the linguistic converter CL translates the subtitles extracted from the signal SAV into subtitles of the language determined by the language identifiers IL of the user, in step E63 which is followed by step E8.
En revenant à l'étape E6, lorsque l'analyseur vidéo AV ne détecte aucun sous-titre dans le signal SAV, le convertisseur linguistique CL détermine dynamiquement le sous-titrage ST du signal SAV en fonction du signal audio SA dans celui-ci et de la langue utilisée dans ce signal audio et traduit le sous-titrage dans la langue définie par l'usager en fonction de l'identificateur de langue IL déterminé par celui-ci comme cela est ultérieurement plus détaillé en référence à la figure 3.Returning to step E6, when the AV video analyzer does not detect any subtitle in the SAV signal, the linguistic converter CL dynamically determines the subtitling ST of the SAV signal as a function of the audio signal SA therein and of the language used in this audio signal and translates the subtitling into the language defined by the user as a function of the language identifier IL determined by the latter as is more detailed later with reference to FIG. 3.
Le signal de sous-titrage ST comportant les sous-titres déduits du signal SAV correspondant et les paramètres d'affichage PAF ainsi que les repères temporels détectés précédemment dans le signal SAV et retardés par l'opération de sous-titrage sont envoyés continuellement pendant le traitement progressif du signal SAV par le serveur STT à l'installation terminale IT à l'étape E8.The subtitling signal ST comprising the subtitles deduced from the corresponding after-sales signal and the PAF display parameters as well as the time marks previously detected in the after-sales signal and delayed by the subtitling operation are sent continuously during the progressive processing of the after-sales service signal by the STT server at the IT terminal installation in step E8.
Toutes les étapes de traitement jusqu'à l'étape E8 ont engendré un retard nécessaire à l'exécution du traitement dans le serveur STT.All the processing steps up to step E8 have caused a delay necessary for the execution of the processing in the STT server.
A l'étape E9, le générateur de sous-titrage GS dans l'installation terminale IT synchronise en fonction des repères temporels et combine le signal de sous-titrage ST reçu par l'installation IT avec le signal audio vidéo retardé SAVR de la chaîne sélectionnée ICH lu dans la mémoire tampon Mit, c'est-à-dire les sous-titres avec le signal audio de dialogue du signal SAV afin de produire un signal audio vidéo sous-titré SAVST.In step E9, the closed captioning generator GS in the terminal installation IT synchronizes in function of the time marks and combines the subtitling signal ST received by the IT installation with the delayed audio video signal SAVR of the selected channel ICH read in the buffer buffer Mit, that is to say the subtitles with the audio signal of the SAV signal dialogue in order to produce an audio video signal subtitled SAVST.
Le générateur de sous-titrage utilise des techniques d'alignement de parole connues comme une détection de changement de plan de caméra dans le signal SAVR. Si un sous-titre est présent lors de changement de plan, l'usager a tendance à regarder l'image puis à revenir vers le texte. L'usager perd à ce moment l'endroit de lecture dans le sous-titre présent et reprend la lecture au début du même sous- titre au risque de ne pas le lire en entier. Le générateur GS prend soin que chaque sous-titre ne soit pas perturbé par un changement de plan.The closed captioning generator uses speech alignment techniques known as detection of change of camera plane in the SAVR signal. If a subtitle is present when the plan is changed, the user tends to look at the image and then come back to the text. The user then loses the place to read in the present subtitle and resumes reading at the beginning of the same subtitle at the risk of not reading it in full. The GS generator takes care that each subtitle is not disturbed by a change of plan.
Ensuite à l'étape E10, le générateur de sous- titrage GS génère dynamiquement un signal audio vidéo sous-titré SAVST selon les paramètres d'affichage PAF lus dans la base de données BD et reçus par l'unité centrale UCit de l'installation terminale à l'étape E8. Les paramètres d'affichage PAF sont transmis par le serveur STT afin que le générateur GS reçoive le plus rapidement possible d'éventuelles modifications de ces paramètres pour adapter en conséquence le sous-titrage au cours du fonctionnement du système. Le signal audio vidéo sous-titré SAVST avec les sous- titres incrustés dans les images du signal initial SAV est affiché à l'étape Eli par l'afficheur de l'équipement récepteur sélectionné EQm de l'usager U avec un retard par rapport au signal initial reçu SAV. La combinaison des signaux SAVR et ST dans le générateur GS, tout comme notamment la conversion dans le convertisseur CL, est terminée à l'expiration de la durée d'activation en fonction de laquelle les paramètres d'activation PAC sont déterminés et surveillés par l'autre unité UCs. Si le signal SAV comporte déjà un sous-titrage (étape E6, oui) , le générateur de sous-titrage GS appose les nouveaux textes au lieu et place de ceux déduits d'une traduction et/ou du format selon les paramètres d'affichage PAF. Dans les autres cas, le sous-titrage est positionné dans la partie inférieure des images. Le générateur GS détermine une durée d'affichage de chaque sous-titre en fonction de la longueur du sous-titre à afficher et d'un temps de lecture moyen. Cette durée d'affichage est au moins égale à trois secondes environ et peut déborder sensiblement dans un sens ou dans l'autre par rapport aux phrases reconnues.Then in step E10, the subtitling generator GS dynamically generates an audio-video signal with subtitles SAVST according to the display parameters PAF read from the database BD and received by the central unit UCit of the installation terminal in step E8. The PAF display parameters are transmitted by the STT server so that the GS generator receives any modifications to these parameters as quickly as possible to adapt the subtitling accordingly during system operation. The audio video signal subtitled SAVST with the subtitles embedded in the images of the initial signal SAV is displayed in step Eli by the display of the selected receiving equipment EQm of user U with a delay relative to the initial signal received after-sales service. The combination of the SAVR and ST signals in the GS generator, as well as in particular the conversion in the converter CL, is ended at the expiration of the activation time according to which the PAC activation parameters are determined and monitored by the other unit UCs. If the after-sales service signal already includes subtitling (step E6, yes), the GS subtitling generator affixes the new texts instead of those deduced from a translation and / or format according to the display parameters PAF. In the other cases, the subtitling is positioned in the lower part of the images. The GS generator determines a display duration of each subtitle as a function of the length of the subtitle to be displayed and of an average reading time. This display duration is at least equal to approximately three seconds and can extend significantly in one direction or the other with respect to the recognized sentences.
Le serveur de sous-titrage STT comporte un convertisseur linguistique CL dont le fonctionnement est décrit ci-dessous en référence à la figure 3.The closed captioning server STT includes a linguistic converter CL, the operation of which is described below with reference to FIG. 3.
Le convertisseur linguistique selon l'invention comprend un extracteur audio 1, un filtre audio 2, un analyseur vocal 3, un module de reconnaissance vocale 4, un module de traduction 41, une unité de segmentation 51, une unité de détermination de contexte de segment 5, une base de données contextuelle 45, une unité de détermination de contexte général 6, un comparateur audio 7, une base de données audio 71, et une unité de détermination de langue 8.The linguistic converter according to the invention comprises an audio extractor 1, an audio filter 2, a voice analyzer 3, a voice recognition module 4, a translation module 41, a segmentation unit 51, a segment context determination unit 5, a contextual database 45, a general context determination unit 6, an audio comparator 7, an audio database 71, and a language determination unit 8.
Dans la suite le terme "contexte" désigne une liste de mots ou expressions clés et de leurs équivalents. Chaque mot ou expression clé caractérise un contexte susceptible d'être abordé dans n'importe quel document multimédia. Certains contextes sont des combinaisons de contextes, ou dans le cas de contextes d'actualités ou régionaux, des combinaisons de contextes précisés par un nom propre, telles que par exemple: Météo Bretagne, Guerre Afghanistan, etc. Un signal audio continu SA de durée indéterminée est extrait du signal audio vidéo SAV dans l'extracteur audio 1 adapté à la norme relative au signal SAV, et est appliqué au filtre audio 2. Il sera supposé que le signal audio SA reçu par le serveur STT est numérique ; sinon, le signal audio reçu est analogique et converti par un convertisseur analogique-numérique inclus dans le filtre audio 2.In the following, the term "context" designates a list of key words or expressions and their equivalents. Each key word or phrase characterizes a context that can be addressed in any what multimedia document. Certain contexts are combinations of contexts, or in the case of current or regional contexts, combinations of contexts specified by a proper name, such as for example: Brittany Weather, Afghanistan War, etc. A continuous audio signal SA of indefinite duration is extracted from the audio video signal SAV in the audio extractor 1 adapted to the standard relating to the signal SAV, and is applied to the audio filter 2. It will be assumed that the audio signal SA received by the server STT is digital; otherwise, the audio signal received is analog and converted by an analog-digital converter included in the audio filter 2.
L'unité 12 comporte en outre une mémoire tampon mémorisant en continu le signal audio SA pendant une durée supérieure à une durée prédéterminée DS de segments de signal audio. En pratique, la capacité de la mémoire tampon est telle qu'elle enregistre au maximum une portion du signal audio SA ayant une durée au moins dix fois environ supérieure à celle DS des segments. L'unité 12 segmente le signal audio SA en segments temporels et périodiques ... , Sn, ... au fur et à mesure de la réception du signal audio. La durée prédéterminée DS des segments de signal audio dépend du rapport entre la qualité de la conversion et le temps de traitement des segments du signal SA souhaité par le convertisseur CL. Une durée minimale de 15 secondes est typiquement suffisante au convertisseur pour assurer une qualité minimale. Dans une autre réalisation préférée de l'invention, la segmentation n'est pas fondée sur une caractéristique temporelle mais dépend d'un élément syntaxique comme un mot, ou un groupe de mots ou une phrase. Un élément syntaxique est par exemple défini par un niveau sonore supérieur à un seuil prédéterminé et encadré d'intervalles du signal audio ayant un niveau sonore inférieur au seuil prédéterminé et considérés comme des silences.The unit 12 further comprises a buffer memory continuously storing the audio signal SA for a duration greater than a predetermined duration DS of segments of the audio signal. In practice, the capacity of the buffer memory is such that it records a maximum of a portion of the audio signal SA having a duration at least ten times approximately greater than that DS of the segments. The unit 12 segments the audio signal SA into time and periodic segments ..., S n , ... as the audio signal is received. The predetermined duration DS of the audio signal segments depends on the ratio between the quality of the conversion and the processing time of the segments of the signal SA desired by the converter CL. A minimum duration of 15 seconds is typically sufficient for the converter to ensure minimum quality. In another preferred embodiment of the invention, the segmentation is not based on a temporal characteristic but depends on a syntactic element such as a word, or a group of words or a sentence. A syntactic element is for example defined by a sound level above a threshold predetermined and framed by intervals of the audio signal having a sound level below the predetermined threshold and considered as silences.
Le filtre 2 filtre par soustraction spectrale ou filtrage adaptatif le signal audio SA afin de le dissocier en un signal comprenant uniquement de la voix et appelée "signal vocal" SV et un signal comprenant des bruits de fond et appelée "signal bruité" SB. Le filtre 2 est par exemple basé sur une analyse prédictive linéaire LPC (Linear Prédictive Coding) et isole différentes composantes acoustiques dans un signal audio comme la voix, le bruit vocal et la musique pure.The filter 2 filters by spectral subtraction or adaptive filtering the audio signal SA in order to dissociate it into a signal comprising only voice and called "voice signal" SV and a signal comprising background noises and called "noisy signal" SB. Filter 2 is for example based on a linear predictive analysis LPC (Linear Predictive Coding) and isolates different acoustic components in an audio signal such as voice, vocal noise and pure music.
Le signal vocal SV est ensuite traité en parallèle par l'analyseur vocal 3 et le module de reconnaissance vocale 4.The voice signal SV is then processed in parallel by the voice analyzer 3 and the voice recognition module 4.
L'analyseur vocal 3 analyse le signal vocal SV afin de déterminer en continu une liste de paramètres PVSn caractérisant le segment vocal SV, appelée "liste de paramètres vocaux". La liste de paramètres vocaux n'est pas fixe mais comporte entre autre des paramètres acoustiques et particulièrement prosodiques comme la fréquence de vibration, l'intensité, le débit, le timbre et également d'autres paramètres comme l'âge relatif du locuteur.The vocal analyzer 3 analyzes the vocal signal SV in order to continuously determine a list of parameters PVS n characterizing the vocal segment SV, called "list of vocal parameters". The list of voice parameters is not fixed but includes, among other things, acoustic and particularly prosodic parameters such as the vibration frequency, intensity, flow, timbre and also other parameters such as the relative age of the speaker.
En parallèle à l'analyse vocale, le signal vocalIn addition to voice analysis, the voice signal
SV est soumis au module de reconnaissance vocale 4.SV is subject to the voice recognition module 4.
Lorsque la langue du signal vocal SV est considérée comme inconnue, l'unité de détermination de langue connue 8 est insérée entre le filtre 2 et le module de reconnaissance vocale 4. L'unité 8 détermine dynamiquement la langue du signal vocal SV si celle- ci n'est pas préalablement connue. Pour des informations multi-langues par exemple, la langue du signal vocal est reconnue ainsi en continue. Si la langue du signal audio est prédéterminée et prise comme langue par défaut, alors l'unité de détermination de langue 8 n'est pas nécessaire. Le module de reconnaissance vocale 4 transforme le signal vocal SV en un signal textuel ST, dit signal de sous-titrage. Plusieurs modules de reconnaissance vocale peuvent être utilisés à des fins d'optimisation du traitement.When the language of the voice signal SV is considered to be unknown, the known language determination unit 8 is inserted between the filter 2 and the voice recognition module 4. The unit 8 dynamically determines the language of the voice signal SV if it this is not previously known. For multi-language information for example, the language of the voice signal is thus recognized continuously. If the language of the audio signal is predetermined and taken as the default language, so the language determination unit 8 is not necessary. The voice recognition module 4 transforms the voice signal SV into a text signal ST, called the subtitling signal. Several speech recognition modules can be used to optimize processing.
Dans une variante, le module 4 considère les résultats d'une étude de contexte effectuée préalablement afin d'affiner la reconnaissance et la transcription du signal vocal SV. Le module de reconnaissance vocale 4 considère les résultats d'étude de contexte effectuée préalablement afin d'affiner la reconnaissance et la traduction du signal vocal. Le contexte se traduit en des éléments syntaxiques, c'est-à-dire des mots et expressions clés, présentant des probabilités élevées pour être inclus dans une portion du signal vocal. Par exemple, le contexte d'un spot publicitaire ou d'actualités relativement périodique ou fréquent dans un signal audio émis par une station de radiodiffusion sonore est prédit en connaissant le programme détaillé de cette station, ou en le déduisant de spots publicitaires ou d'actualités précédents. Divers contextes sous la forme de mots et expressions clés, comme définis ci-dessus, constituent des contextes pré-mémorisés et gérés dans une base de données contextuelle 45 liée au module 4 et aux unités 5 et 6. Les contextes dans la base 45 sont également complétés et affinés par consultation automatique de base de données externes en fonction des contextes récemment détectés. Les contextes sont ainsi améliorés progressivement au cours du traitement du signal audio SA pour faciliter la reconnaissance vocale dans le module de reconnaissance vocale 4. Le module 4 peut s'appuyer sur un logiciel de compréhension en langage naturel (Natural Language Understanding NLU) . L'unité de segmentation 51 segmente le signal textuel ST en segments textuels temporels et périodiques ... , Sn, ... au fur et à mesure de la réception du signal vocal SV dans une mémoire tampon et en synchronisme avec les repères temporels dans le signal SAV. En effet l'unité de segmentation 51 comporte en outre une mémoire tampon mémorisant en continu le signal vocal SV pendant une durée supérieure à une durée prédéterminée DS de segments de signal vocal SV. En pratique, la capacité de la mémoire tampon est telle qu'elle enregistre au maximum une portion du signal vocal SV ayant une durée au moins dix fois environ supérieure à celle DS des segments. La durée prédéterminée DS des segments de signal textuel dépend du rapport entre la qualité de la conversion et le temps de traitement du signal SA souhaité par le convertisseur CL. Une durée minimale de 15 secondes est typiquement suffisante au système pour assurer une qualité minimale.In a variant, the module 4 considers the results of a context study carried out beforehand in order to refine the recognition and the transcription of the voice signal SV. The voice recognition module 4 considers the results of a context study carried out beforehand in order to refine the recognition and the translation of the voice signal. The context is translated into syntactic elements, that is to say key words and expressions, with high probabilities of being included in a portion of the voice signal. For example, the context of a relatively periodic or frequent advertising or news spot in an audio signal emitted by a sound broadcasting station is predicted by knowing the detailed program of this station, or by deducing it from advertising spots or previous news. Various contexts in the form of key words and expressions, as defined above, constitute contexts pre-stored and managed in a contextual database 45 linked to module 4 and to units 5 and 6. The contexts in base 45 are also completed and refined by automatic consultation of external databases according to the contexts recently detected. The contexts are thus gradually improved during the processing of the audio signal SA to facilitate recognition speech in the voice recognition module 4. Module 4 can rely on Natural Language Understanding NLU software. The segmentation unit 51 segments the text signal ST into temporal and periodic text segments ..., S n , ... as the voice signal SV is received in a buffer memory and in synchronism with the time markers in the service signal. Indeed, the segmentation unit 51 further comprises a buffer memory continuously storing the voice signal SV for a duration greater than a predetermined duration DS of voice signal segments SV. In practice, the capacity of the buffer memory is such that it stores a maximum of a portion of the voice signal SV having a duration at least ten times approximately greater than that DS of the segments. The predetermined duration DS of the text signal segments depends on the ratio between the quality of the conversion and the processing time of the signal SA desired by the converter CL. A minimum duration of 15 seconds is typically sufficient for the system to ensure minimum quality.
Dans une autre réalisation préférée de l'invention la segmentation n'est pas fondée sur une caractéristique temporelle mais dépend d'un élément syntaxique comme un mot, ou un groupe de mots ou une phrase.In another preferred embodiment of the invention, the segmentation is not based on a temporal characteristic but depends on a syntactic element such as a word, or a group of words or a sentence.
L'unité 5 détermine un ou plusieurs contextes CSn du segment textuel courant Sn en fonction de la moyenne PVSn de chaque paramètre vocal PVS sur le segment textuel courant et en fonction du contenu du segment textuel courant Sn. Dans une variante préférée, des contextes établis et mémorisés précédemment servent également à la détermination du contexte dans l'unité 5 et contribuent à augmenter la pertinence de nouveaux contextes de segment qui participeront à leur tour à la détermination de contextes de prochains segments. Dans une autre variante, un contexte général est déterminé initialement avant toute indexation pour sous-titrage du signal audio SA en fonction de paramètres externes au système et liés entre autre à la source du signal audio vidéo SAV. Lorsque le signal audio SA à traiter est celui reçu par un récepteur radiophonique ou de télévision, des grilles de programme ou des informations sur celles-ci ainsi que toutes informations susceptibles de renseigner le contexte du signal vocal SV enrichissent la base de données contextuelle 45. Ce contexte général est basé par l'unité 5 sur le contexte d'un nombre déterminé de segment précédant le segment courant Sn lorsque le contexte du segment immédiatement précédent n'est pas déterminé . L'unité de détermination de contexte général 6 compare le contexte CSn du segment textuel courant Sn au contexte CSn-i du segment textuel précédent Sn-ι afin de déterminer des bornes temporelles d'un contexte général courant CG]ζ. L'unité 6 détermine une borne temporelle supérieure de contexte général qui est confondue avec une borne temporelle supérieure du segment courant Sn lorsque les contextes CSn, CSn-ι du segment courant et du segment précédant le segment courant sont similaires, et qui est maintenue confondue avec la borne temporelle supérieure du segment Sn-ι précédant le segment courant lorsque le contexte CSn du segment courant n'est pas similaire au contexte CSn- du segment précédent.The unit 5 determines one or more contexts CS n of the current text segment S n as a function of the average PVS n of each voice parameter PVS over the current text segment and as a function of the content of the current text segment S n . In a preferred variant, contexts established and stored previously are also used to determine the context in unit 5 and contribute to increasing the relevance of new segment contexts which will in turn participate in determining the contexts of next segments. In another variant, a general context is determined initially before any indexing for subtitling of the audio signal SA as a function of parameters external to the system and linked inter alia to the source of the audio video signal SAV. When the audio signal SA to be processed is that received by a radio or television receiver, program grids or information thereon as well as any information capable of informing the context of the voice signal SV enrich the contextual database 45. This general context is based by the unit 5 on the context of a determined number of segment preceding the current segment S n when the context of the immediately preceding segment is not determined. The general context determination unit 6 compares the context CS n of the current text segment S n to the context CS n -i of the preceding text segment S n -ι in order to determine time limits of a current general context CG] ζ. The unit 6 determines an upper time bound of general context which is confused with an upper time bound of the current segment S n when the contexts CS n , CS n -ι of the current segment and of the segment preceding the current segment are similar, and which is kept confused with the upper time bound of the segment S n -ι preceding the current segment when the context CS n of the current segment is not similar to the context CS n - of the previous segment.
Le contexte général CGk comparativement à un contexte de segment textuel demeure inchangé au cours d'un ou plusieurs segments textuels consécutifs dont les contextes définissent en commun le contexte général. L'ensemble des segments textuels consécutifs définissant le contexte général CG^ est limité par des bornes temporelles respectivement confondues avec la borne inférieure, dite également borne antérieure, du premier segment textuel traité de l'ensemble et la borne supérieure BS^, dite également borne postérieure, du dernier segment textuel traité de l'ensemble.The general context CGk compared to a text segment context remains unchanged during one or more consecutive text segments whose contexts jointly define the general context. The set of consecutive textual segments defining the general context CG ^ is limited by time limits respectively confused with the lower bound, also called the anterior bound, of the first textual segment treated of the set and the upper bound BS ^, also called the bound posterior, of the last textual segment treated of the whole.
A des fins d'optimisation de la conversion du signal audio SA, des portions périodiques du signal vocal SV ayant une durée supérieure et proportionnelle à la durée DS des segments textuels Sn périodiques du signal audio SA sont traitées chacun plusieurs fois par les moyens fonctionnels 3 à 6. Par exemple, un passage d'une portion du signal vocal SV deux à K fois à travers les moyens 2 à 6 affine la pertinence des contextes de cette portion. Le nombre K de cycles de traitement d'une portion de signal audio, comme indiqué schématiquement en 36 dans la figure 3, dépend des contraintes de temps, de la qualité de chaque traitement dans les moyens 2 à 6 et de la capacité de la mémoire tampon dans l'unité de segmentation 51. Plus le convertisseur linguistique CL doit traiter rapidement le signal audio vidéo SAV, plus le nombre K est petit.For the purpose of optimizing the conversion of the audio signal SA, periodic portions of the voice signal SV having a duration greater than and proportional to the duration DS of the periodic text segments S n of the audio signal SA are each processed several times by the functional means 3 to 6. For example, passing a portion of the voice signal SV two to K times through means 2 to 6 refines the relevance of the contexts of this portion. The number K of processing cycles of an audio signal portion, as shown diagrammatically at 36 in FIG. 3, depends on the time constraints, on the quality of each processing in means 2 to 6 and on the memory capacity. buffer in the segmentation unit 51. The faster the linguistic converter CL must process the audio video signal SAV, the smaller the number K.
Egalement à des fins d'optimisation du convertisseur linguistique, l'unité 5 détermine quelques contextes du segment textuel courant Sn pour segmenter davantage le signal textuel ST en différents contextes généraux dans l'unité 6. Ainsi des intervalles de différents contextes généraux n'ayant pas a priori des bornes temporelles inférieures et supérieures confondues sont juxtaposés pendant des segments vocaux communs, ce qui augmente la précision des informations générales relatives au signal audio.Also for the purpose of optimizing the linguistic converter, the unit 5 determines some contexts of the current text segment S n in order to further segment the text signal ST into different general contexts in the unit 6. Thus intervals of different general contexts n ' not having a priori lower and upper time limits combined are juxtaposed during common voice segments, which increases the accuracy of general information about the audio signal.
Comme montré à la figure 3, le convertisseur linguistique CL comprend également le comparateur audio 7 en relation avec une base de données audio 71 dans laquelle sont mémorisées des morceaux de données audio tels que des musiques, des chansons, des jingles publicitaires, des flashs d'information et des bruitages. Plus généralement, la base de données 71 a enregistré préalablement tout morceau de donnée audio de préférence qualifiée par des paramètres audio PASp et des contextes CAp dont les bornes temporelles sont échelonnées par rapport à un repère fixe d'une donnée audio, telle que le début d'une chanson ou d'un jingle. La base de données 71 contient ainsi des morceaux de données audio typés qui sont utilisés pour interrompre le signal audio continu SA relativement à un contexte général, lors d'un "saut de contexte", tel que spot publicitaire, pour un encart court ayant un contexte différent de celui d'un sujet ou thème relativement long dans le signal SA.As shown in FIG. 3, the linguistic converter CL also includes the audio comparator 7 in relation to an audio database 71 in which pieces of audio data such as music, songs, advertising jingles, flashes of light are stored. and sound effects. More generally, the database 71 has previously recorded any piece of audio data preferably qualified by audio parameters PASp and contexts CAp whose time limits are staggered with respect to a fixed reference point of audio data, such as the beginning of a song or a jingle. The database 71 thus contains pieces of typed audio data which are used to interrupt the continuous audio signal SA with respect to a general context, during a "context jump", such as an advertising spot, for a short insert having a context different from that of a relatively long subject or theme in the SA signal.
Le comparateur audio 7 comprend une mémoire tampon et une unité de segmentation. Le comparateur compare des échantillons de morceaux audio contenus dans la base de données audio 71. Les échantillons sensiblement identiques permettent au comparateur de déterminer des portions de signal audio SA correspondant à des morceaux complets ou des parties de morceaux audio contenus dans la base 71. Les paramètres PASp et le contexte CAp de la portion identifiée du signal audio SA sont appliqués à l'unité 5 sur toute la durée de la portion déterminée, en remplacement des moyennes PVSn des paramètres vocaux sur le segment courant du contenu du segment textuel Sn. Les segments textuels Sn sont ainsi qualifiés respectivement par des paramètres vocaux PASp et des contextes audio CAp lus dans la base de données 71.The audio comparator 7 comprises a buffer memory and a segmentation unit. The comparator compares samples of audio pieces contained in the audio database 71. The substantially identical samples allow the comparator to determine portions of audio signal SA corresponding to complete pieces or parts of audio pieces contained in the base 71. The parameters PASp and the context CAp of the identified portion of the audio signal SA are applied to unit 5 over the duration of the determined portion, replacing the PVS n averages of the voice parameters on the current segment of the content of the text segment S n . The textual segments S n are thus qualified respectively by voice parameters PASp and audio contexts CAp read in the database 71.
Le comparateur audio 7 participe également à l'amélioration de la qualité de détermination des contextes puisque les paramètres PASp et les contextes CAp associés aux données audio et contenus dans la base de données audio 71 sont déterminés aussi bien manuellement et donc très précisément, qu' automatiquement .The audio comparator 7 also participates in improving the quality of context determination since the parameters PASp and the contexts CAp associated with the audio data and contained in the audio database 71 are determined both manually and therefore very precisely, as well as automatically .
Dans un souci d'amélioration de la détermination des contextes, le signal bruité SB comportant la partie non vocale résiduelle du segment courant SA produite par le filtre 2 est appliqué par le filtre 2 au comparateur audio 7, afin de tenter de qualifier le signal bruité SB par des paramètres PAS et des contextes CA provenant de la base de données audio 71 et ainsi d'améliorer la détermination de contexte dans l'unité 5 et de renseigner la base contextuelleIn order to improve the determination of contexts, the noisy signal SB comprising the residual non-vocal part of the current segment SA produced by the filter 2 is applied by the filter 2 to the audio comparator 7, in order to attempt to qualify the noisy signal SB by parameters PAS and contexts CA coming from the audio database 71 and thus to improve the context determination in the unit 5 and to inform the contextual base
45 par de nouveaux contextes. Afin de constituer rapidement des données audio dans la base 71, les machines hébergeant le moyen de gestion gérant la base de données audio 71 peuvent être mutualisées.45 through new contexts. In order to rapidly constitute audio data in the base 71, the machines hosting the management means managing the audio database 71 can be shared.
Dans une autre variante, le moyen de gestion est associé au comparateur audio 7.In another variant, the management means is associated with the audio comparator 7.
En variante, le convertisseur linguistique CL ne dispose pas de comparateur audio 7 ni de base de données audio 71.As a variant, the linguistic converter CL does not have an audio comparator 7 or an audio database 71.
S'il s'agit du sous-titrage d'un signal audio émis par une station de radiodiffusion sonore ou autre, l'extracteur audio 1 peut être également supprimé . Le convertisseur linguistique CL comprend au moins un module de traduction 41. Le module 41 est activé lorsque l'unité 8 constate que la langue désignée par l'identificateur de langue IL lu en correspondance avec l'identificateur d'usager IU dans la base de données BD est différente de la langue du signal SV déterminée par l'unité 8. Le module de traduction 41 traduit le signal textuel ST en un signal textuel traduit STR dans ladite langue désignée et appliqués à l'unité de segmentation 51. De préférence, le module de reconnaissance vocale 4 et le module de traduction 41 exploitent une analyse de contexte commune afin d'améliorer le résultat de ces deux modules. Dans une autre réalisation, le convertisseur linguistique CL ne comporte pas de module de traduction.In the case of subtitling of an audio signal emitted by a sound broadcasting station or the like, the audio extractor 1 can also be deleted. The linguistic converter CL comprises at least one translation module 41. The module 41 is activated when the unit 8 finds that the language designated by the language identifier IL read in correspondence with the user identifier IU in the database BD data is different from the language of the signal SV determined by the unit 8. The translation module 41 translates the text signal ST into a text signal translated STR into said designated language and applied to the segmentation unit 51. Preferably, the voice recognition module 4 and the translation module 41 use a common context analysis in order to improve the result of these two modules. In another embodiment, the language converter CL does not include a translation module.
Des segments textuels Sn du signal audio vidéo SAV éventuellement traduits sont ainsi appliqués en continu à l'unité centrale UCs en sortie du convertisseur CL. De préférence, les unités 5 et 6 agrègent les segments textuels Sn en un signal de sous-titrage ST. Cependant en variante, les segments textuels Sn sont envoyés directement à l'installation terminale IT via les réseaux RP et RA et sont agrégés dans le générateur de sous-titrage GS .Textual segments S n of the audio video signal SAV possibly translated are thus continuously applied to the central unit UCs at the output of the converter CL. Preferably, the units 5 and 6 aggregate the text segments S n into a subtitling signal ST. However as a variant, the text segments S n are sent directly to the terminal installation IT via the networks RP and RA and are aggregated in the subtitling generator GS.
Le service de sous-titrage proposé par le système de l'invention peut être assujetti à une facturation selon la chaîne sous-titrée, sa fréquence d'écoute, et les paramètres sélectionnés par l'usager, comme ceux imposant une traduction du sous- titrage dans une autre langue que celle du signal audio d'origine. Le système de sous-titrage est applicable également à n'importe quelle installation recevant un signal audio SA et disposant d'un moyen d'affichage des sous-titres ST et d'un moyen d'écoute du signal audio. Par exemple, l'installation comporte au moins un récepteur radiophonique, ou bien un terminal téléphonique ou radiotéléphonique notamment pour sous-titrer le signal de parole, en tant que signal audio, de l'interlocuteur éloigné pendant une conversation téléphonique. Selon d'autres réalisations, le système de sous-titrage est applicable au domaine de l' audioconférence ou de la visioconférence et plus généralement d'une conférence pour sous-titrer le signal audio d'un locuteur pendant la conférence.The captioning service offered by the system of the invention may be subject to billing according to the captioned channel, its frequency of listening, and the parameters selected by the user, such as those requiring a translation of the caption. titration in a language other than that of the original audio signal. The subtitling system is also applicable to any installation receiving an audio signal SA and having a means of displaying the subtitles ST and a means of listening to the audio signal. For example, the installation comprises at least one radio receiver, or else a telephone or radiotelephone terminal in particular for subtitling the speech signal, as an audio signal, of the distant interlocutor during a telephone conversation. According to other embodiments, the subtitling system is applicable to the field of audio conferencing or videoconferencing and more generally of a conference to subtitle the audio signal of a speaker during the conference.
Toutes ces réalisations sont particulièrement utiles pour les malentendants participant à une conférence. All of these achievements are particularly useful for the hearing impaired attending a conference.

Claims

REVENDICATIONS
1 - Système pour sous-titrer dynamiquement un signal audio (SAV) reçu en continu par un équipement récepteur (EQm) , comprenant un moyen (CL) pour convertir le signal audio reçu (SAV) en un signal de sous-titrage (ST) incluant des sous-titres, et un moyen de combinaison de signal audio et de signal de sous-titrage, caractérisé en ce qu'il comprend : - un moyen (BD) pour mémoriser des paramètres d'affichage (PAF) déterminés préalablement par un usager de l'équipement (EQm), et un moyen tampon (Mit) pour mémoriser temporairement le signal audio reçu (SAV) en un signal audio retardé (SAVR) de la durée de conversion dans le moyen pour convertir,1 - System for dynamically captioning an audio signal (SAV) continuously received by a receiving equipment (EQm), comprising means (CL) for converting the received audio signal (SAV) into a subtitling signal (ST) including subtitles, and means for combining audio signal and subtitling signal, characterized in that it comprises: - means (BD) for storing display parameters (PAF) determined beforehand by a user of the equipment (EQm), and a buffer means (Mit) for temporarily storing the received audio signal (SAV) into a delayed audio signal (SAVR) of the conversion duration in the means for converting,
- et en ce que le moyen de combinaison (GS) combine le signal audio retardé (SAVR) et le signal de sous-titrage (ST) en un signal audio sous-titré (SAVST) avec des sous-titres formatés selon les paramètres d'affichage (PAF) afin d'appliquer le signal audio sous-titré avec des sous-titres formatés à l'équipement (EQm).- and in that the combining means (GS) combines the delayed audio signal (SAVR) and the subtitling signal (ST) into a subtitled audio signal (SAVST) with subtitles formatted according to the parameters d display (PAF) in order to apply the audio signal subtitled with formatted subtitles to the equipment (EQm).
2 - Système conforme à la revendication 1, comprenant un moyen (AV) pour détecter un signal de sous-titrage dans le signal audio (SAV) afin que le moyen de combinaison (GS) formate des sous-titres du signal de sous-titrage détecté en fonction des paramètres d'affichage (PAF).2 - System according to claim 1, comprising means (AV) for detecting a subtitling signal in the audio signal (SAV) so that the combining means (GS) formats subtitles of the subtitling signal detected based on display settings (PAF).
3 - Système conforme à la revendication 2, caractérisé en ce que le moyen pour mémoriser (BD) mémorise un identificateur (IL) définissant une langue déterminée préalablement par l'usager de l'équipement (EQm), et en ce que le système comprend un moyen (8) pour déterminer un identificateur d'une langue du signal de sous-titrage détecté, un moyen3 - System according to claim 2, characterized in that the means for storing (BD) stores an identifier (IL) defining a language determined beforehand by the user of the equipment (EQm), and in that the system comprises means (8) for determining an identifier of a language of the detected subtitling signal, means
(UCs) pour comparer l'identificateur de langue mémorisé à l'identificateur de langue du signal de sous-titrage, et au moins un moyen (41) pour traduire les sous-titres du signal de sous-titrage (ST) en des sous-titres de la langue déterminée préalablement lorsque les identificateurs de langue sont différents afin d'appliquer les sous-titres de la langue déterminée sous la forme du signal de sous-titrage(UCs) for comparing the stored language identifier with the language identifier of the subtitle signal, and at least one means (41) for translating the subtitles of the subtitle signal (ST) into subtitles -titles of the predetermined language when the language identifiers are different in order to apply the subtitles of the determined language in the form of the subtitling signal
(ST) au moyen de combinaison (GS) .(ST) by means of combination (GS).
4 - Système conforme à l'une quelconque des revendications 1 à 3, dans lequel le moyen pour convertir (CL) comprend un moyen (2) pour filtrer le signal audio continu en un signal vocal (SV) et un signal bruité (SB) , un moyen (3) pour analyser le signal vocal (SV) afin de produire des paramètres vocaux (PVS) , un moyen de reconnaissance vocale (4) convertissant le signal vocal (SV) en un signal textuel (ST) , un moyen (51) pour segmenter le signal vocal (SV) en des segments textuels temporels périodiques (Sn) , un moyen (5, 6) pour déterminer un contexte (CSn) de chaque segment textuel en fonction de moyennes (PVSn) des paramètres vocaux sur la durée du segment textuel et en fonction du segment textuel (Sn) afin que les contextes soient impliqués dans la conversion du signal vocal (SV) en le signal textuel (ST) exécutée par le moyen de reconnaissance vocale (4), et un moyen (5, 6) pour agréger les segments textuels (Sn) en un signal de sous-titrage (ST) .4 - System according to any one of claims 1 to 3, wherein the means for converting (CL) comprises means (2) for filtering the continuous audio signal into a voice signal (SV) and a noisy signal (SB) , means (3) for analyzing the speech signal (SV) to produce speech parameters (PVS), speech recognition means (4) converting the speech signal (SV) into a text signal (ST), means ( 51) for segmenting the voice signal (SV) into periodic time text segments (S n ), means (5, 6) for determining a context (CS n ) of each text segment as a function of means (PVS n ) of the parameters voice over the duration of the text segment and as a function of the text segment (S n ) so that the contexts are involved in the conversion of the voice signal (SV) into the text signal (ST) executed by the voice recognition means (4), and means (5, 6) for aggregating the text segments (S n ) into a closed captioning signal (ST).
5 - Système conforme à la revendication 4, comprenant un moyen (8) pour déterminer une langue du signal vocal (SV) afin que le moyen pour convertir (CL) détermine dynamiquement le signal de sous- titrage (ST) en fonction de la langue déterminée.5 - System according to claim 4, comprising means (8) for determining a language of the voice signal (SV) so that the means for converting (CL) dynamically determines the subtitle signal (ST) according to the determined language.
6 - Système conforme à la revendication 4 ou 5, caractérisé en ce que le moyen pour mémoriser (BD) mémorise un identificateur (IL) définissant une langue déterminée préalablement par l'usager de l'équipement (EQm), et en ce que le système comprend au moins un moyen (41) pour traduire le signal textuel (ST) en un signal traduit (STR) selon la langue désignée par l'identificateur de langue (IL), le signal textuel traduit (STR) étant appliqué au moyen pour segmenter (51) .6 - System according to claim 4 or 5, characterized in that the means for storing (BD) stores an identifier (IL) defining a language determined beforehand by the user of the equipment (EQm), and in that the system includes at least one means (41) for translating the text signal (ST) into a translated signal (STR) according to the language designated by the language identifier (IL), the translated text signal (STR) being applied to the means for segment (51).
7 - Système conforme à la revendication 6, dans lequel le moyen de reconnaissance vocale (4) et le moyen pour traduire (41) exploitent une analyse de contexte commune .7 - System according to claim 6, wherein the voice recognition means (4) and the means for translating (41) use a common context analysis.
8 - Système conforme à l'une quelconque des revendications 1 à 7, comprenant un moyen (BD) pour mémoriser des paramètres d'activation (PAC) déterminés par l'usager en fonction d'une durée d'activation du système, afin que le moyen pour convertir (CL) convertisse et le moyen de combinaison (GS) combine seulement pendant la durée d'activation.8 - System according to any one of claims 1 to 7, comprising means (BD) for memorizing activation parameters (PAC) determined by the user as a function of a duration of activation of the system, so that the means for converting (CL) converts and the combining means (GS) combines only during the activation period.
9 - Système conforme à l'une quelconque des revendications 1 à 8, comprenant un moyen (UCit) pour sélectionner une chaîne de réception afin que le signal audio reçu (SAV) à convertir corresponde à la chaîne de réception sélectionnée. 10 - Système conforme à l'une quelconque des revendications 1 à 9, comprenant un moyen (1) pour extraire le signal audio (SA) d'un signal audio vidéo (SAV) qui est reçu par le système et l'équipement (EQm) et qui est appliqué au moyen pour convertir (CL) et au moyen tampon (Mit) à la place du signal audio (SAV) .9 - System according to any one of claims 1 to 8, comprising means (UCit) for selecting a reception chain so that the received audio signal (SAV) to be converted corresponds to the selected reception chain. 10 - System according to any one of claims 1 to 9, comprising means (1) for extracting the audio signal (SA) from an audio video signal (SAV) which is received by the system and the equipment (EQm ) and which is applied to the converting means (CL) and to the buffer means (Mit) in place of the audio signal (SAV).
11 - Système conforme à l'une quelconque des revendications 1 à 10, dans lequel le moyen tampon11 - System according to any one of claims 1 to 10, wherein the buffer means
(Mit) et le moyen de combinaison (GS) sont inclus dans une installation terminale (IT) de l'usager reliée au moins à l'équipement récepteur (EQm), et le moyen pour mémoriser (BD) et le moyen pour convertir (CL) sont inclus dans un serveur (STT) .(Mit) and the combining means (GS) are included in a terminal installation (IT) of the user connected at least to the receiving equipment (EQm), and the means for memorizing (BD) and the means for converting ( CL) are included in a server (STT).
12 - Système conforme à l'une quelconque des revendications 1 à 10, inclus dans une installation terminale (IT) de l'usager reliée au moins à l'équipement récepteur (EQm).12 - System according to any one of claims 1 to 10, included in a terminal installation (IT) of the user connected at least to the receiving equipment (EQm).
13 - Système conforme à l'une quelconque des revendications 1 à 10, inclus dans un moyen serveur (STT ; TR) pour transmettre le signal audio sous- titré (SAVST) au moins à l'équipement récepteur (EQm) . 13 - System according to any one of claims 1 to 10, included in a server means (STT; TR) for transmitting the subtitled audio signal (SAVST) at least to the receiving equipment (EQm).
PCT/FR2004/000175 2003-02-04 2004-01-27 System for the dynamic sub-titling of television and radio broadcasts WO2004080072A1 (en)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
FR03/01286 2003-02-04
FR0301286A FR2850821B1 (en) 2003-02-04 2003-02-04 DYNAMIC SUBTITLING SYSTEM OF TELEVISION AND RADIO SIGNALS

Publications (1)

Publication Number Publication Date
WO2004080072A1 true WO2004080072A1 (en) 2004-09-16

Family

ID=32696354

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/FR2004/000175 WO2004080072A1 (en) 2003-02-04 2004-01-27 System for the dynamic sub-titling of television and radio broadcasts

Country Status (2)

Country Link
FR (1) FR2850821B1 (en)
WO (1) WO2004080072A1 (en)

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2007120896A2 (en) 2006-04-14 2007-10-25 At & T Corp. On-demand language translation for television programs
US9959872B2 (en) 2015-12-14 2018-05-01 International Business Machines Corporation Multimodal speech recognition for real-time video audio-based display indicia application
EP3422203A1 (en) * 2017-06-29 2019-01-02 Vestel Elektronik Sanayi ve Ticaret A.S. Computer implemented simultaneous translation method simultaneous translation device
CN112086095A (en) * 2020-09-10 2020-12-15 深圳前海微众银行股份有限公司 Data processing method, device, equipment and storage medium
US11032623B1 (en) * 2020-04-08 2021-06-08 Realtek Semiconductor Corporation Subtitled image generation apparatus and method
CN113596355A (en) * 2020-04-14 2021-11-02 瑞昱半导体股份有限公司 Caption image generating device and method

Families Citing this family (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2006240826A (en) * 2005-03-03 2006-09-14 Mitsubishi Electric Corp Display device inside elevator car
WO2007086860A1 (en) * 2006-01-27 2007-08-02 Thomson Licensing Closed-captioning system and method
US20100265397A1 (en) * 2009-04-20 2010-10-21 Tandberg Television, Inc. Systems and methods for providing dynamically determined closed caption translations for vod content
US10425696B2 (en) 2017-07-11 2019-09-24 Sony Corporation User placement of closed captioning
CN110415706A (en) * 2019-08-08 2019-11-05 常州市小先信息技术有限公司 A kind of technology and its application of superimposed subtitle real-time in video calling

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5815196A (en) * 1995-12-29 1998-09-29 Lucent Technologies Inc. Videophone with continuous speech-to-subtitles translation
EP1158799A1 (en) * 2000-05-18 2001-11-28 Deutsche Thomson-Brandt Gmbh Method and receiver for providing subtitle data in several languages on demand
WO2001095631A2 (en) * 2000-06-09 2001-12-13 British Broadcasting Corporation Generation subtitles or captions for moving pictures
US20020087569A1 (en) * 2000-12-07 2002-07-04 International Business Machines Corporation Method and system for the automatic generation of multi-lingual synchronized sub-titles for audiovisual data
EP1246166A2 (en) * 2001-03-29 2002-10-02 Matsushita Electric Industrial Co., Ltd. Speech recognition based captioning system

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5815196A (en) * 1995-12-29 1998-09-29 Lucent Technologies Inc. Videophone with continuous speech-to-subtitles translation
EP1158799A1 (en) * 2000-05-18 2001-11-28 Deutsche Thomson-Brandt Gmbh Method and receiver for providing subtitle data in several languages on demand
WO2001095631A2 (en) * 2000-06-09 2001-12-13 British Broadcasting Corporation Generation subtitles or captions for moving pictures
US20020087569A1 (en) * 2000-12-07 2002-07-04 International Business Machines Corporation Method and system for the automatic generation of multi-lingual synchronized sub-titles for audiovisual data
EP1246166A2 (en) * 2001-03-29 2002-10-02 Matsushita Electric Industrial Co., Ltd. Speech recognition based captioning system

Cited By (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2007120896A2 (en) 2006-04-14 2007-10-25 At & T Corp. On-demand language translation for television programs
WO2007120896A3 (en) * 2006-04-14 2008-10-23 At & T Corp On-demand language translation for television programs
EP2509312A3 (en) * 2006-04-14 2013-05-01 AT & T Corp. On-demand language translation for television programs
US8589146B2 (en) 2006-04-14 2013-11-19 At&T Intellectual Property Ii, L.P. On-Demand language translation for television programs
US9374612B2 (en) 2006-04-14 2016-06-21 At&T Intellectual Property Ii, L.P. On-demand language translation for television programs
US9959872B2 (en) 2015-12-14 2018-05-01 International Business Machines Corporation Multimodal speech recognition for real-time video audio-based display indicia application
EP3422203A1 (en) * 2017-06-29 2019-01-02 Vestel Elektronik Sanayi ve Ticaret A.S. Computer implemented simultaneous translation method simultaneous translation device
US11032623B1 (en) * 2020-04-08 2021-06-08 Realtek Semiconductor Corporation Subtitled image generation apparatus and method
CN113596355A (en) * 2020-04-14 2021-11-02 瑞昱半导体股份有限公司 Caption image generating device and method
CN113596355B (en) * 2020-04-14 2024-04-16 瑞昱半导体股份有限公司 Subtitle image generating apparatus and method
CN112086095A (en) * 2020-09-10 2020-12-15 深圳前海微众银行股份有限公司 Data processing method, device, equipment and storage medium
CN112086095B (en) * 2020-09-10 2024-01-19 深圳前海微众银行股份有限公司 Data processing method, device, equipment and storage medium

Also Published As

Publication number Publication date
FR2850821B1 (en) 2005-04-29
FR2850821A1 (en) 2004-08-06

Similar Documents

Publication Publication Date Title
US20230245661A1 (en) Video conference captioning
US9547642B2 (en) Voice to text to voice processing
US20120284028A1 (en) Methods and apparatus to present a video program to a visually impaired person
US20040044532A1 (en) System and method for remote audio caption visualizations
WO2017191397A1 (en) Method and device for synchronising subtitles
WO2004080072A1 (en) System for the dynamic sub-titling of television and radio broadcasts
CN111836062A (en) Video playing method and device and computer readable storage medium
WO2003043329A2 (en) Control broadcast programme signal, control write and read systems, related production and broadcasting channel
CN110933485A (en) Video subtitle generating method, system, device and storage medium
US20130132521A1 (en) Presenting alternative media content based on environmental factors
CN112423081A (en) Video data processing method, device and equipment and readable storage medium
FR3025925A1 (en) METHOD FOR CONTROLLING PRESENTATION MODES OF SUBTITLES
WO2013057438A1 (en) Method for the sending and sound reproduction of audio information
CN109905756B (en) Television caption dynamic generation method based on artificial intelligence and related equipment
EP3556102B1 (en) Method of recording a forthcoming telebroadcast program
US20170048578A1 (en) Program output apparatus, program management server, supplemental information management server, method for outputting program and supplemental information, and recording medium
US11416530B1 (en) Subtitle rendering based on the reading pace
FR3025926A1 (en) METHOD FOR CONTROLLING THE DISPLAY SPEED OF SUBTITLES
CN115359796A (en) Digital human voice broadcasting method, device, equipment and storage medium
FR2904170A1 (en) MOBILE TERMINATION APPARATUS AND DIGITAL BROADCAST RECEIVING METHOD THEREOF
FR2894104A1 (en) Interactive menu providing method for e.g. mobile telephone, involves generating interactive menu from data pertaining to broadcast content and transmitting generated menu to user communication terminal through return path of network
JP2008294722A (en) Motion picture reproducing apparatus and motion picture reproducing method
CN114911448A (en) Data processing method, device, equipment and medium
Costa-Montenegro et al. SubTitleMe, subtitles in cinemas in mobile devices
WO2024052372A1 (en) Intelligent voice synthesis

Legal Events

Date Code Title Description
AK Designated states

Kind code of ref document: A1

Designated state(s): AE AG AL AM AT AU AZ BA BB BG BR BW BY BZ CA CH CN CO CR CU CZ DE DK DM DZ EC EE EG ES FI GB GD GE GH GM HR HU ID IL IN IS JP KE KG KP KR KZ LC LK LR LS LT LU LV MA MD MG MK MN MW MX MZ NA NI NO NZ OM PG PH PL PT RO RU SC SD SE SG SK SL SY TJ TM TN TR TT TZ UA UG US UZ VC VN YU ZA ZM ZW

AL Designated countries for regional patents

Kind code of ref document: A1

Designated state(s): BW GH GM KE LS MW MZ SD SL SZ TZ UG ZM ZW AM AZ BY KG KZ MD RU TJ TM AT BE BG CH CY CZ DE DK EE ES FI FR GB GR HU IE IT LU MC NL PT RO SE SI SK TR BF BJ CF CG CI CM GA GN GQ GW ML MR NE SN TD TG

121 Ep: the epo has been informed by wipo that ep was designated in this application
122 Ep: pct application non-entry in european phase