WO2006075079A1 - Procede d’encodage de pistes audio d’un contenu multimedia destine a une diffusion sur terminaux mobiles - Google Patents

Procede d’encodage de pistes audio d’un contenu multimedia destine a une diffusion sur terminaux mobiles Download PDF

Info

Publication number
WO2006075079A1
WO2006075079A1 PCT/FR2006/000039 FR2006000039W WO2006075079A1 WO 2006075079 A1 WO2006075079 A1 WO 2006075079A1 FR 2006000039 W FR2006000039 W FR 2006000039W WO 2006075079 A1 WO2006075079 A1 WO 2006075079A1
Authority
WO
WIPO (PCT)
Prior art keywords
audio tracks
transcoding
terminal
multimedia content
format
Prior art date
Application number
PCT/FR2006/000039
Other languages
English (en)
Inventor
Marc Emerit
Original Assignee
France Telecom
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by France Telecom filed Critical France Telecom
Publication of WO2006075079A1 publication Critical patent/WO2006075079A1/fr

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/16Vocoder architecture
    • G10L19/173Transcoding, i.e. converting between two coded representations avoiding cascaded coding-decoding
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/008Multichannel audio signal coding or decoding using interchannel correlation to reduce redundancy, e.g. joint-stereo, intensity-coding or matrixing

Definitions

  • the invention relates to encoding audio tracks of a multimedia content intended in particular for transmission over a cellular network, thus typically to mobile terminals with reduced equipment in terms of sound reproduction.
  • the most common audio format is stereo. More and more mobile devices are able to play sound content in this format today. When the content is on the terminal, he just plays the tracks as they are. Nevertheless, if this content is prepared to be broadcast (for example in so-called "streaming" mode), it is systematically brought back into mono mode beforehand, in particular to minimize network throughput.
  • the terminal user loses the immersion effect offered by sound spatialization and, above all, the pleasure of listening to this content. Given, moreover, that the size of the terminal screens current is relatively small, reading multimedia content on mobile devices, with poor sound quality, is not really attractive today.
  • the present invention improves the situation.
  • the audio tracks of a multimedia content are obtained, defining a spatialisation effect intended for rendering in a room,
  • a transcoding is carried out by filtering said tracks in order to obtain only two audio tracks intended to feed a reproduction device with two loudspeakers, in particular a headset with two earpieces, that includes a terminal,
  • a compression coding of the two audio tracks is carried out for transmission to the terminal, via a network, in particular a cellular network.
  • the bandwidth consumption of two audio tracks, rather than a monophonic track in the prior art, for transmission in a cellular network of the multimedia content proves to be adequate with the current communication capabilities and standards.
  • AAC compression encoding for “Advanced Audio Coding” and corresponding to the coding / decoding of two stereo sound tracks of multimedia content
  • HEAAC for "High Efficiency Advanced Audio Coding”
  • the required bit rate is 16 or 24 kbits per second for two stereo channels, which still leaves about 80 kbits per second for the image (on the first generation UMTS networks), so enough bandwidth in the targeted applications.
  • the compression ratio of audio content in 5.1 format (so that at least five sound channels are provided), without significant loss of quality, is at best of the order of 96 kbits / s. This value would then be too high for transmission via networks, even of GPRS or UMTS type, directly in 5.1 format, when the image accompanies the sound.
  • the rendering devices on the mobile terminals are very limited. It is at best a stereophonic headphone, generally with reduced bandwidth, so that multimedia content in 5.1 format, even if they could be carried on the aforementioned networks, should, on arrival, be transcoded to Stereo format, through the terminals.
  • this processing step is advantageously transferred by applying it before transmission (in particular by streaming), directly to the multimedia content delivered in post-production.
  • the application of the invention is not limited to the broadcasting of content by streaming servers, in particular via cellular networks and on mobile terminals. It is quite possible to transmit the contents after encoding via a WIFI or BLUETOOTH terminal, via a computer equipped with a USB connection to the terminal, or on a memory card of the mobile terminal.
  • the advantages provided by the invention remain the same, namely a small memory footprint and few treatments to provide in the terminal.
  • the invention is well suited to the context of mobile terminals which have little storage memory and little processing capacity compared to devices such as computers including living room.
  • the terminal can also be equipped with two remote loudspeakers, alternatively a two-ear headset.
  • This embodiment is always within the scope of the present invention. Indeed, if the terminal is equipped with a pair of speakers, it is always possible to provide additional transcoding processing, conducted at the terminal, and consisting of an adaptation of binaural stereo format for headphones to a format of listening on two distant speakers, while maintaining 3D audio effects and sound immersion. Typically, it may be a transcoding process from binaural format to transaural or "cross talk cancellation".
  • this transcoding step is advantageously performed with a transcoding unit which is upstream of the network.
  • the present invention also aims at such a transcoding unit, which includes means for filtering the tracks of the multimedia content to obtain two audio tracks for feeding a playback device to two loudspeakers, including a headset with two earpieces of a terminal, including mobile.
  • FIG. 1a illustrates an installation for implementing the method according to the invention
  • FIG. 1b represents an advantageous embodiment of process steps in the sense of the invention
  • - Figure 2 shows a standard implementation of stereo broadening
  • FIG. 3 represents an optimized implementation of the stereo widening, according to a preferred embodiment of the invention.
  • FIG. 4 shows a standard implementation of the 5.1 to binaural stereo mix
  • FIG. 5 represents an optimized implementation in five filters of the 5.1 mix towards binaural stereo, according to a preferred embodiment of the invention
  • FIG. 6 represents an optimized implementation in four filters of the 5.1 mix towards binaural stereo
  • FIG. 7 schematically illustrates a modeling of the filterings to be carried out for the transcoding applied preferentially in the process within the meaning of the invention.
  • the invention makes available to users of mobile terminals the quality of sound and immersion offered in multimedia content that is in stereo audio format (mainly music video clips) and / or format multichannel, for example 5.1 (for movies, trailers, or other). It consists in adapting existing contents during a post-production phase so that they are in a format compatible with the constraints of a service for mobile terminals, especially in view of the limited speeds in cellular networks, the limited computing power of mobile terminals and the weakness of the equipment for rendering terminals (at best equipped with a simple stereo headset).
  • the contents can be broadcast from a server called "streaming".
  • a transcoding sound effects for their adaptation to stereo headsets.
  • These effects can be a stereo broadening (described below) or 5.1 mixing to binaural stereo, advantageously followed by a spectrum compensation soundtrack to the terminal, as discussed below.
  • the present invention thus makes it possible to provide mobile terminal users with the quality of sound and immersion offered in the multimedia contents, by binaural reproduction with a stereo widening effect (for example for a reproduction of music) and / or with a 5.1 surround effect (eg for movie playback).
  • a post-production unit 10 delivers (arrow CM) raw multimedia content, not encoded in compression, typically.
  • a transcoding unit 11 in the sense of the invention receives these raw contents and adapts in particular the sound tracks for broadcasting via a cellular network 14.
  • the raw contents can be in 5.1 sound format, while the transcoding unit 11 will turn this format into a binaural format suitable for listening from a CA stereo headset, provided with two headsets OG (left) and OD (right), as discussed below.
  • the transcoding unit 11 further codes the sound data in compression using standardized coders, in order to adapt to the limited bandwidth of the network 14 and / or because of the small memory size of the terminal .
  • the transcoding unit 11 provides the processed multimedia contents SO, ready to be broadcast and available, for this purpose, from the broadcasting operator 12.
  • a broadcast head 13 transmits, via the cellular network 14, the encoded contents and intended for mobile terminals such as a TEL mobile phone, a PDA PDA, a laptop LAP, or others.
  • mobile terminals such as a TEL mobile phone, a PDA PDA, a laptop LAP, or others.
  • These terminals are, of course, equipped with compression decoding means, homologous to the encoders of the transcoding unit 11. They are also, in general, equipped with sound reproduction means such as a stereo headset CA, for listening to multimedia content.
  • mobile users are thus provided with the quality of sound and immersion offered in the multimedia contents which are in the stereo audio format, or even in the multichannel format, such as 5.1.
  • 3D sound aims to provide all or part of this spatialization, absent from monophonic systems such as conventional phones.
  • the general public is nowadays familiar with 3D sound through cinema, the equipment of domestic restitution such as the "home cinema", the music or the games on computers.
  • Sound spatialization is a source of information and listening comfort. It provides information on the positions of sound sources in an environment and allows you to isolate a conversation among others.
  • the sound space "immerses” an auditor in a place.
  • the spatialization effects of sound are intended to reproduce this immersion, reinforcing a sense of realism.
  • spatialization in 3D sound reproduces a "room effect” and provides the desired sensation of envelopment in the concert halls.
  • 3D sound requires a broadcast on several speakers or, as discussed below, on a stereo headphones with two earpieces, with an impact on all the elements of the audio system including the creation of the content (natural or synthesized), transport (via one or more networks) and restitution.
  • multimedia applications have contributed to the appearance of new formats and / or devices, now generalized, which are recalled below.
  • binaural stereo Another format, now for multimedia applications whose sound is output on a headset with two earpieces, is the binaural stereo. This technique seeks to simulate the pressure field induced by sound sources at the entrance of the ear canals. Binaural headphone listening ensures immersion close to natural perception. Two widely used applications are:
  • Step broadening it is to create two virtual speakers more distant and / or more distant than the actual speakers for example a stereo headphones. Thanks to this spatialization effect, used to enrich the sound of multimedia contents, the listener has the sensation of receiving a vast sound field while the speakers can be all ready for him.
  • HE-AAC possibly associated with parametric representation techniques of spatialization
  • - and from 16 to 24 kbit / s for binaural stereo (Virtual Dolby system
  • the realization first proposes a stereo widening 20, thus aiming to create at least two virtual speakers for 3D audio rendering using only two channels.
  • binaural stereo is used for headphone rendering
  • transaural stereo is an additional processing for rendering on two remote speakers.
  • the user's terminal if it includes a rendering device with two distant speakers, will comprise also, advantageously, a conventional processing module for transcoding the binaural format to a transaural format or equivalent. This treatment is therefore conducted at the terminal itself.
  • the terminai in the general case, is equipped with a headset with two headsets as a playback device, so that the multimedia content that the terminal receives, in general, is in the format binaural.
  • the virtual speakers are perceived outside the head for headphone listening in the general application within the meaning of the invention.
  • This treatment creates the sensation of enlargement.
  • an equalization filter (not shown), of the "perceptual" type, which increases the amplitude of the CM signals in the low and high frequencies, is added
  • the harmonics corresponding to the low frequencies can also be added.
  • the feeling of quality improvement is advantageously increased by distorting the original content CM, although this step 20, although advantageous, is optional.
  • the equalization filter also allows individualization of the 3D audio rendering. Indeed, at the time of decoding at the terminal, it is preferred to add a treatment to individualize the 3D rendering because, without this treatment, the virtual speakers frontal would be perceived either above the head by the listener, behind. This is a known psychoacoustic limit of non-individualized binaural rendering. As this treatment is clean and specific to each individual, this step can only be performed by the terminal.
  • two filters are provided for this purpose, the characteristics of which depend on the chosen directions of the virtual loudspeakers, the HRTFs (for "Head Related Transfer Functions") initially used for encoding and the listener himself.
  • the HRTFs that are initially used for encoding are preferably standard functions of a standard bust called "Kemar feast". It is recalled that these HRTF model the diffraction or more generally the perturbation of the acoustic waves that produces the head and the torso of an individual, which allows besides this individual to locate a sound source in the 3D space.
  • the interindividual variations take the form of hollows and bumps in the spectra of the HRTFs. From one individual to another, these hollows and bumps are more or less accentuated and their central frequencies vary slightly around an average value. Then, at the level of the filters that the terminal uses for an individualization, the individualization processing preferably consists of a set of potentiometers to be activated, making it possible to adjust these frequency parameters.
  • a next step 21, in the sense of the invention, is to create at least five virtual speakers for 3D audio rendering using only two channels. This step will be described in detail later. It is simply indicated here that it can be combined with a compression encoding.
  • room effects it is possible to add room effects to increase the perceived distance of the virtual speakers and / or to increase the feeling of wrapping. Indeed, at the time of encoding the signals (5.1 to stereo mixing, preferably with stereo widening), it is preferred to add a room effect (reverb), giving the sensation that the virtual speakers are even more distant and to increase the feeling of wrapping.
  • a room effect reverb
  • the multichannel signals are encoded in stereo. They may undergo further treatments, as will be seen further, or, already here, be stored and / or broadcast by streaming in compressed stereo.
  • This measurement within the meaning of the invention, advantageously makes it possible to perform the conversion from 5.1 to binaural stereo before broadcasting, rather than to apply the conversion in real time directly to the terminals, as is known in the art. previous (eg WinDVD® processing on terminals such as home computers).
  • An optional, but advantageous, dynamic compensation step 22 is then provided.
  • the sound dynamic of an apparatus measures its ability to reproduce low level and high level sounds simultaneously. In the field of image processing, we would speak of image contrast.
  • the dynamics of converters and rendering transducers in mobile terminals is more limited than that of converters and rendering transducers in studios, especially post-production, where multimedia contents have been created. In order not to lose the low intensity sounds without saturating the other sounds, it is better to compress the dynamics of the contents. This is a compensation consisting in raising the low sound intensities and decreasing the high intensities.
  • an additional bandwidth and spectrum compensation step 23 in particular according to the type of terminal for which a multimedia content is intended and / or the type of transport network.
  • the sound bandwidth of a device is the the difference between the lowest and the highest frequency of sound that the device is able to reproduce or convey, while retaining that the devices rarely severely cut the intensity below and above the threshold frequencies.
  • the spectrum of a transducer is generally not flat over the entire audible frequency band. It is therefore possible to correct, to a certain extent, the spectra of the signals to be broadcast in order to minimize the spectral distortions engendered by the devices.
  • an average spectral equalizing filter is applied which advantageously compensates for the distortions brought by the transport chain to the restitution by the terminal.
  • the method can then be continued by a conventional step 24 of multimedia content streaming, proper.
  • the process in the sense of the invention preferably comprises the following steps:
  • step 21 a mixing of the multichannel signals 5.1 or more (6.1, 7.1, etc.) in binaural stereo (or Virtual Surround) is carried out.
  • This step may optionally be combined or replaced with / by the stereophonic widening step 20 described above,
  • the spectrum of the rendering chain is advantageously compensated up to the rendering by the terminal by increasing the intensity of the at least low frequencies, in particular to compensate for poor quality of the headphones (step 23), it is advantageously compensated for the dynamic of the rendering chain of the terminal (step 22), and
  • step 25 then compress (step 25) the two channels obtained and intended for playback by the headset of a terminal, encoding AAC or stereo HEACC, and then multiplexed the coded frames in a streaming format. Then the content is ready to go online on a mobile network.
  • the content no longer requires any subsequent processing to that of a decoding in compression to be played by the terminal, so that the computing load required for the terminal is advantageously minimal.
  • Conventional stereo terminals can therefore play these contents with a good rendering quality providing a very satisfactory immersion effect.
  • the device for rendering a mobile terminal which typically consists of a stereo headset with earphones, with a reduced bandwidth and dynamic range, is perfectly known here. It is then possible to process and store the multimedia contents directly in the format in which they will be played by the terminals, that is to say in binaural stereo with, advantageously, compensation of the bandwidth and the dynamics.
  • streaming services over cellular networks simply include the following operations, only encoders / decoders used which may differ according to the network supporting the streaming and / or the compression rate: at the post-production output, to adapt a multimedia content to the streaming context, the multimedia content is recovered in a given format (MPEG1, MPEG2 , DVD, or other), then it is read, by demultiplexing and decompression, to compress it again for the intended application, if necessary with an adaptation for monophonic reproduction when it comes to transit via a cellular network limited bandwidth.
  • the compression encodings are typically the AMR or I 1 AAC in a cellular network context, for example of the GPRS or UMTS type.
  • this type of coding and, preferably, the AAC or HEACC coding will advantageously be preserved, without thereby modifying the coding / decoding structures with respect to the prior art.
  • the terminals use a so-called "multimedia player" routine, which is adapted to the binaural, according to the invention, for receiving and playing the multimedia contents on the terminals equipped with a headset with two earpieces.
  • Binaural stereo requires the use of two filters to synthesize a virtual speaker:
  • a filter that models the acoustic path followed by the acoustic waves from the position of the virtual speaker to the entrance of the auditory canal of the left ear
  • These filters depend on the position of the virtual speaker, the ear and the listener. They are modeled preferentially in the form of a filter with finite-phase finite impulse response and a delay line to minimize their size and, thus, computational load and memory footprint.
  • an input stereo bus 30 delivers two channels: a left channel Vg and a right channel Vd which are each processed by two filters, respectively 31 and 32, and 33 and 34.
  • the operators 35 and 36 are operators of sum, so that one retrieves two filtered channels Vg and Vd which are intended for an output stereo bus 37.
  • Hsum (H1g + H2g) / 2
  • Od Hsum * Sum - Hdiff * diff
  • the filtering steps provide only two filters Hsum and Hdiff instead of four filters.
  • the operator 41 applies a sum to the channels Vg and Vd from the input stereo bus 40. This sum is filtered by a single filter 43, whereas the operator 42 applies a difference to the channels Vg and Vd, which difference is then filtered by a single filter 43.
  • the sum operator 45 reconstitutes a left channel Vg and the difference operator 46 reconstructs a right channel Vd which, with the left channel Vg, are intended for the stereo bus of exit 47.
  • the processing requires at least ten filters.
  • the filters 51 to 54, with the sum operators 55 and 56 already apply to the left Vg and right Vd channels that delivers the input stereo bus 50, a treatment substantially equivalent to that of the stereo broadening of the Figure 2.
  • stereo widening can be advantageously combined with mixing 5.1 to binaural stereo by selecting appropriate filtering parameters for the filters 51 to 54.
  • treatment of left channels and right Vd Vg s from s of the surround input stereo bus can be processed by filters 62 to 65 suitably parameterized, before being summed by the operators 66 and 67. It is the same for the monophonic central channel Vc from a mono input bus 57, which is filtered in principle twice by the filters 60 and 61 for delivering two left and right channels.
  • the filtering has been optimized in order to limit to five filters 82, 83, 86, 87 and 88 the conversion from 5.1 to binaural stereo of FIG. 4, advantageously formulating the symmetry hypothesis of FIG. hearing between left ear and right ear.
  • the rendering at the level of the central channel of the 5.1 by the central virtual speaker (channel Vc) requires only a filter since the filters 60 and 61 of FIG. 4 would be equal according to this hypothesis. .
  • a difference is advantageously applied to the channels Vg and Vd (operator 81) and then a filter (filter 83) on the difference channel, with the above hypothesis of symmetry of the virtual speakers H1 and H2. by report to the auditor AU.
  • the processing of the Vg s and Vd s surround channels remains unchanged with respect to the embodiment of FIG. 5.
  • the treatments carried out by the filters described above, adapted for 5.1 formats are very easily adaptable to 6.1, 7.1 or other formats.
  • the invention also applies to such formats. Indeed, there are now audio formats containing more than six channels. 6.1 or even 7.1 is currently available on some content distributed on DVD. Research teams are currently working on a 10.2 format. It should be noted that the invention is not limited to transcoding a 5.1 format.
  • the mixer in binaural stereo for an application to a terminal headset.
  • the initial format of the content may be different from the 5.1 multichannel format (6.1 or others), and that it may simply be stereophonic.

Abstract

L'invention concerne un transcodage de pistes audio d'un contenu multimédia, pour adapter ces pistes à une lecture sur un terminal mobile équipé d'un casque à oreillettes. A cet effet : - on obtient les pistes audio (CM) d'un contenu multimédia, définissant un effet de spatialisation destiné à une restitution dans une salle, - on effectue un transcodage (11) par filtrage desdites pistes pour obtenir deux pistes audio destinées à alimenter le casque (CA) stéréo d'un terminal mobile, - et on effectue ensuite un codage en compression de ces deux pistes audio en vue d'une transmission (13) vers le terminal, via un réseau cellulaire (14).

Description

Procédé d'encodage de pistes audio d'un contenu multimédia destiné à une diffusion sur terminaux mobiles
L'invention concerne l'encodage de pistes audio d'un contenu multimédia destiné notamment à une transmission par un réseau cellulaire, donc typiquement vers des terminaux mobiles à équipement réduit en terme de restitution du son.
De nombreux contenus multimédias actuels (films, bandes annonces, ou autres) sont sonorisés avec un effet de spatialisation, tel que l'effet dit "dolby surround ®" par exemple avec au minimum cinq voies de sortie (appelé "5.1" ci-après). Aujourd'hui, pratiquement tous les films sont sonorisés avec un effet surround 5.1 , ou encore 6.1 , 7.1 ou plus. Or, les terminaux mobiles (téléphones portables, assistants personnels PDA, ou autres) sont rarement équipés de cinq haut-parleurs pour la restitution du son en 5.1. La solution préconisée actuellement pour surmonter ce problème consiste à transcoder le son des contenus multimédias, avant leur transmission vers les terminaux, de 5.1 vers du monophonique pour une restitution prévue sur une seule voie, ou, au mieux, vers du stéréophonique pour une restitution sur deux voies.
Le format audio le plus répandu est la stéréo. De plus en plus de terminaux mobiles sont capables de jouer un contenu sonore selon ce format, aujourd'hui. Lorsque le contenu est sur le terminal, il se contente de jouer les pistes telles qu'elles sont. Néanmoins, si ce contenu est préparé pour être diffusé (par exemple en mode dit de "streaming"), il est systématiquement ramené en mode mono au préalable, notamment afin de minimiser le débit réseau.
En mettant en œuvre ces solutions, l'utilisateur du terminal perd l'effet d'immersion offert par la spatialisation sonore et, surtout, le plaisir d'écoute de ce contenu. Etant donné, par ailleurs, que la taille des écrans de terminaux actuels est relativement petite, la lecture des contenus multimédias sur les terminaux mobiles, avec un son de qualité médiocre, n'est pas vraiment attractive aujourd'hui.
La présente invention vient améliorer la situation.
Elle propose à cet effet un procédé de transcodage des pistes audio d'un contenu multimédia destiné à être lu par des terminaux, notamment des terminaux mobiles, équipés de moyens de restitution du son comportant typiquement deux haut-parleurs, dans lequel :
- on obtient les pistes audio d'un contenu multimédia, définissant un effet de spatialisation destiné à une restitution dans une salle,
- on effectue un transcodage par filtrage desdites pistes pour obtenir seulement deux pistes audio destinées à alimenter un dispositif de restitution à deux haut-parleurs, notamment un casque à deux oreillettes, que comporte un terminal,
- on effectue un codage en compression desdites deux pistes audio en vue d'une transmission vers le terminal, via un réseau, notamment un réseau cellulaire.
On comprendra alors que la restitution du son sur deux voies, auprès du terminal mobile offre un bien meilleur ressenti, par rapport à une diffusion monophonique telle que mise en œuvre dans l'art antérieur. Surtout, de nombreux effets peuvent être prévus sur deux voies de restitution, par exemple une synthèse binaurale, un élargissement stéréophonique, ou autres.
Par ailleurs, la consommation en bande passante de deux pistes audio, plutôt qu'une piste monophonique dans l'art antérieur, pour la transmission dans un réseau cellulaire du contenu multimédia, s'avère adéquate avec les capacités et les standards de communication actuels. Par exemple, pour un encodage en compression au format AAC (pour "Advanced Audio Coding" et correspondant à du codage/décodage de deux pistes stéréo du son d'un contenu multimédia) ou HEAAC (pour "High Efficiency Advanced Audio Coding"), le débit requis est de 16 ou de 24 kbits par seconde pour deux voies stéréo, ce qui laisse encore environ 80 kbits par seconde pour l'image (sur les réseaux UMTS de première génération), donc assez de bande passante dans les applications visées. D'un autre côté, le taux de compression d'un contenu audio au format 5.1 (donc où cinq canaux sonores, au minimum, sont prévus), sans perte notable de qualité, est, au mieux, de l'ordre de 96 kbits/s. Cette valeur serait alors trop élevée pour une transmission via des réseaux, même de type GPRS ou UMTS, directement au format 5.1 , lorsque de l'image accompagne le son.
En outre, les dispositifs de restitution sur les terminaux mobiles sont très limités. Il s'agit au mieux d'un casque stéréophonique, généralement à bande passante réduite, si bien que les contenus multimédias au format 5.1 , même s'ils pouvaient être véhiculés sur les réseaux précités, devraient, à l'arrivée, être transcodés au format stéréo, par les terminaux.
Ainsi, dans le procédé au sens de l'invention, on déporte avantageusement cette étape de traitement en l'appliquant avant la transmission (notamment par streaming), directement sur le contenu multimédia délivré en post-production.
Selon l'un des avantages que procure la présente invention, on peut alors effectuer le streaming de contenus multimédias vers des terminaux, notamment (mais aucunement limitativement) vers des terminaux mobiles à travers un réseau cellulaire, en minimisant à la fois le débit à travers le réseau et la complexité des traitements qui sont à la charge du terminal.
On précise toutefois que l'application de l'invention ne se restreint pas à la diffusion des contenus par des serveurs en streaming en particulier via des réseaux cellulaires et sur des terminaux mobiles. Il est tout à fait envisageable de transmettre les contenus après encodage via une borne WIFI ou BLUETOOTH, via un ordinateur équipé d'une connexion USB vers le terminal, ou sur une carte mémoire du terminal mobile. Les avantages apportés par l'invention restent les mêmes, à savoir un faible encombrement mémoire et peu de traitements à prévoir dans le terminal. L'invention s'adapte bien au contexte des terminaux mobiles qui ont peu de mémoire de stockage et peu de capacité de traitement comparés à des dispositifs tels que des ordinateurs notamment de salon.
On indique en outre que le terminal peut aussi être équipé de deux haut- parleurs distants, en variante d'un casque à deux oreillettes. Cette réalisation s'inscrit toujours dans le cadre de la présente invention. En effet, si le terminal est équipé d'une paire de haut-parleurs, il est toujours possible de prévoir un traitement supplémentaire de transcodage, mené auprès du terminal, et consistant en une adaptation du format stéréo binaural pour casque vers un format d'écoute sur deux haut-parleurs distants, tout en conservant les effets audio 3D et d'immersion sonore. Typiquement, il pourra s'agir d'un traitement de transcodage du format binaural vers du transaural ou du "cross talk cancellation".
Pour ce qui concerne le transcodage général au sens de l'invention typiquement d'un format multicanal (impliquant une restitution sur plus de deux haut-parleurs, tel que 5.1 , 7.1 ou autre) vers un format binaural ou transaural (impliquant une restitution sur deux haut-parleurs seulement), cette étape de transcodage est avantageusement effectuée auprès d'une unité de transcodage qui est en amont du réseau.
A ce titre, la présente invention vise aussi une telle unité de transcodage, qui comporte des moyens de filtrage des pistes du contenu multimédia pour obtenir deux pistes audio destinées à alimenter un dispositif de restitution à deux haut-parieurs, notamment un casque à deux oreillettes d'un terminal, notamment mobile.
D'autres caractéristiques et avantages de l'invention apparaîtront à l'examen de la description détaillée ci-après, et des dessins annexés sur lesquels :
- la figure 1a illustre une installation pour la mise en œuvre du procédé selon l'invention ;
- la figure 1 b représente une réalisation avantageuse d'étapes du procédé au sens de l'invention ; - la figure 2 représente une implémentation standard de l'élargissement stéréo ;
- la figure 3 représente une implémentation optimisée de l'élargissement stéréo, selon une réalisation préférée de l'invention ;
- la figure 4 représente une implémentation standard du mixage 5.1 vers de la stéréo binaurale ;
- la figure 5 représente une implémentation optimisée en cinq filtres du mixage 5.1 vers de la stéréo binaurale, selon une réalisation préférée de l'invention ;
- la figure 6 représente une implémentation optimisée en quatre filtres du mixage 5.1 vers de la stéréo binaurale ; et
- la figure 7 illustre schématiquement une modélisation des filtrages à mener pour le transcodage appliqué préférentiellement dans le procédé au sens de l'invention.
De manière générale, l'invention permet de mettre à disposition des utilisateurs de terminaux mobiles la qualité de son et d'immersion offerte dans les contenus multimédia qui sont au format audio stéréo (principalement de la musique de clips vidéo) et/ou au format multicanal, par exemple 5.1 (pour les films, les bandes annonces, ou autres). Elle consiste à adapter des contenus existants lors d'une phase de post-production afin qu'ils soient dans un format compatible avec les contraintes d'un service pour les terminaux mobiles, compte tenu notamment des débits limités dans les réseaux cellulaires, des puissances de calcul limitées des terminaux mobiles et de la faiblesse des équipements de restitution des terminaux (équipés au mieux d'un simple casque stéréophonique). Les contenus peuvent être diffusés à partir d'un serveur dit "de streaming".
On indique néanmoins que d'autres possibilités existent pour mettre les contenus à disposition des usagers, telles que l'usage de bornes dites "wifi", ou de bornes au protocole bluetooth, ou encore d'ordinateurs avec liaison filaire ou sans fil.
Au sens de l'invention, on ajoute dans la chaîne de post-production de contenus multimédias pour les terminaux mobiles, un transcodage des effets sonores pour leur adaptation à des casques stéréo. Ces effets peuvent être un élargissement stéréo (décrit plus loin) ou du mixage 5.1 vers de la stéréo binaurale, suivi avantageusement d'une compensation du spectre de la chaîne de rendu sonore jusqu'au terminal, comme on le verra plus loin.
La présente invention permet donc de mettre à disposition des utilisateurs de terminaux mobiles la qualité de son et d'immersion offerte dans les contenus multimédia, par une restitution binaurale avec un effet d'élargissement stéréo (par exemple pour une restitution de musique) et/ou avec un effet surround 5.1 (par exemple pour une restitution de films).
En se référant à la figure 1a, présentée ici à titre d'exemple d'application, une unité de post-production 10 délivre (flèche CM) des contenus multimédias bruts, non encodés en compression, typiquement. Une unité de transcodage 11 au sens de l'invention reçoit ces contenus bruts et adapte notamment les pistes son pour une diffusion via un réseau cellulaire 14. Par exemple, les contenus bruts peuvent être au format son 5.1 , tandis que l'unité de transcodage 11 va transformer ce format en un format binaural adapté pour une écoute à partir d'un casque stéréophonique CA, muni de deux oreillettes OG (gauche) et OD (droite), comme on le verra plus loin. Le cas échéant, l'unité de transcodage 11 code en outre les données sonores en compression grâce à des codeurs normalisés, en vue d'une adaptation à la bande passante limitée du réseau 14 et/ou en raison de la faible taille mémoire du terminal.
Finalement, l'unité de transcodage 11 fournit les contenus multimédias traités SO, prêt à être diffusés et à disposition, à cet effet, de l'opérateur de diffusion 12. En mode streaming, une tête de diffusion 13 transmet, via le réseau cellulaire 14, les contenus encodés et destinés aux terminaux mobiles tels qu'un téléphone mobile TEL, un assistant numérique personnel PDA, un ordinateur portable LAP, ou autres. Ces terminaux sont, bien entendus, équipés de moyens de décodage en compression, homologues des codeurs de l'unité de transcodage 11. Ils sont en outre, de façon générale, équipés de moyens de restitution sonore tels qu'un casque stéréophonique CA, pour l'écoute des contenus multimédias.
Selon un avantage que procure l'invention, on met ainsi à disposition des utilisateurs de terminaux mobiles la qualité de son et d'immersion offerte dans les contenus multimédia qui sont au format audio stéréo, voire au format multicanal, tel que 5.1.
On rappelle ci-après quelques effets de spatialisation sonore et le ressenti qu'ils procurent.
Habituellement, un auditeur perçoit l'espace sonore en trois dimensions (ou "3D" ci-après) en analysant le son parvenant à ses deux oreilles. Le son 3D vise à fournir tout ou partie de cette spatialisation, absente des systèmes monophoniques tels que les téléphones classiques. Le grand public est aujourd'hui familier du son 3D à travers le cinéma, les équipements de restitution domestiques tels que le "home cinéma", la musique ou les jeux sur ordinateurs. La spatialisation sonore est source d'information et de confort d'écoute. Elle renseigne sur les positions des sources sonores dans un environnement et permet notamment d'isoler une conversation parmi d'autres.
Par les réflexions sur les parois et l'effet de réverbération, l'espace sonore "immerge" un auditeur dans un lieu. Les effets de spatialisation du son visent à reproduire cette immersion, renforçant une sensation de réalisme. Par exemple, la spatialisation en son 3D reproduit un "effet de salle" et procure la sensation recherchée d'enveloppement dans les salles de concert.
En principe, le son 3D requiert une diffusion sur plusieurs haut-parleurs ou, comme on le verra plus loin, sur un casque stéréo à deux oreillettes avec alors un impact sur tous les éléments de la chaîne audio comportant la création du contenu (naturel ou synthétisé), le transport (via un ou plusieurs réseaux) et la restitution.
Ainsi, les applications multimédias ont contribué à l'apparition de nouveaux formats et/ou dispositifs, maintenant généralisés, qui sont rappelés ci-après.
Depuis la stéréophonie (utilisation de deux haut-parleurs pour restituer une différence voie gauche - voie droite), le format 5.1 a été utilisé pour la première fois en 1977 pour le film 1Va guerre des étoiles" sous la forme analogique "Dolby Surround'®. Ce format a été amélioré successivement en 1992 par le Dolby Digital® et en 1999 par sa version EX. Cette technologie, comme ses concurrentes (par exemple DTS et SDDS), enrichit la stéréophonie (incluant déjà deux haut-parleurs principaux) grâce à :
- une voie centrale qui restitue une image sonore stable pour les dialogues,
- des canaux arrière (gauche et droite),
- éventuellement un canal basses fréquences procurant une sensation d'enveloppement. Elle nécessite donc au minimum cinq haut-parleurs en tout, et plus généralement six haut-parleurs avec le canal de basses fréquences. Ces formats se répandent largement aujourd'hui, grâce notamment à des supports multimédias comme le DVD.
Un autre format, maintenant pour des applications multimédias dont le son est restitué sur un casque à deux oreillettes, concerne la stéréo binaurale. Cette technique cherche à simuler le champ de pression induit par les sources sonores à l'entrée des conduits auditifs. L'écoute binaurale au casque assure une immersion proche de la perception naturelle. Deux applications très répandues sont :
- Virtual Dolby Surround® : en créant au moins cinq haut-parleurs virtuels, elle procure la sensation d'écouter du 5.1 mais sur un système stéréophonique (casque ou enceintes). Cette solution permet aussi de transporter du "5.7" sur deux voies et d'utiliser ce format sur des réseaux à bas débits (tels que des réseaux mobiles), selon un avantage que procure la présente invention ;
- "l'élargissement stéréo" : il s'agit de créer deux haut-parleurs virtuels plus écartés et/ou plus distants que les haut-parleurs réels par exemple d'un casque stéréophonique. Grâce à cet effet de spatialisation, utilisé pour enrichir le son des contenus multimédias, l'auditeur a la sensation de recevoir un vaste champ sonore alors que les haut-parleurs peuvent être tout prêt de lui.
On connaît encore d'autres formats de restitution tels que le traitement ambiophonique (de l'anglais "Ambisonics"). Ce format multicanal s'adapte aux capacités du réseau ou des terminaux (en terme de scalabilité) et donne la possibilité d'interagir avec une scène sonore.
On retiendra néanmoins que le format 5.1 et l'élargissement stéréo sont actuellement les plus compatibles avec les réseaux de transmission, notamment en télécommunication mobile. A l'heure actuelle, les programmes musicaux multicanaux (5.1) de la télévision numérique nécessitent un débit de 384 kbit/s au format Dolby Ditigal (AC3). Les progrès récents en compression de débit combinée à la spatialisation sonore (notamment décrits dans la demande FR-0302397 de la Demanderesse) permettent de réduire substantiellement cette valeur de débit. En effet, il suffit maintenant de : - 96 à 128 kbit/s pour des contenus 5.1 (avec un codage en MPEG4
HE-AAC éventuellement associé à des techniques de représentation paramétrique de la spatialisation), - et de 16 à 24 kbit/s pour la stéréo binaurale (système Virtual Dolby
Surround® de 5.1 en stéréo). Cette dernière valeur de débit est comparable aux débits effectifs courants des applications son sur le réseau
GPRS ou sur le futur réseau UMTS.
En référence à la figure 1b, on décrit ci-après une réalisation avantageuse au sens de l'invention du traitement des données sonores issues, dans la chaîne de traitement, de l'unité de post-production 10 (figure 1a) et destinées à la transmission via le réseau cellulaire 14.
La réalisation propose tout d'abord un élargissement stéréo 20, visant ainsi à créer au moins deux haut-parleurs virtuels pour un rendu audio 3D n'utilisant que deux canaux.
Le plus souvent, on utilise la stéréo binaurale pour un rendu au casque, tandis que la stéréo transaurale est un traitement supplémentaire destiné à un rendu sur deux haut-parleurs distants. On comprendra que dans le contexte de téléphonie mobile, un rendu uniquement au casque est visé. Toutefois, dans une réalisation avantageuse, pour ne pas pénaliser les utilisateurs d'une écoute sur deux haut-parleurs distants, on prévoit un transcodage, en amont du réseau, vers un format binaural. Ensuite, le terminal de l'utilisateur, s'il comporte un dispositif de restitution à deux haut-parleurs distants, comportera aussi, de façon avantageuse, un module de traitement classique pour un transcodage du format binaural vers un format transaural ou équivalent. Ce traitement est donc mené auprès du terminal même. Dans ce qui suit, on considère que le terminai, dans le cas général, est équipé d'un casque à deux oreillettes en tant que dispositif de restitution, de sorte que le contenu multimédia que reçoit le terminal, de façon générale, est au format binaural.
Avec le traitement d'élargissement stéréo, les haut-parleurs virtuels sont perçus à l'extérieur de la tête pour une écoute au casque dans l'application générale au sens de l'invention. Ce traitement crée la sensation d'élargissement. Préférentiellement, on ajoute un filtre d'égalisation (non représenté), de type "perceptif, qui augmente l'amplitude des signaux CM dans les fréquences basses et hautes. En complément ou en variante, on peut ajouter aussi les harmoniques correspondant aux basses fréquences fondamentales manquantes. On accroît avantageusement la sensation d'amélioration de qualité en distordant cependant le contenu original CM. Cette étape 20, bien qu'avantageuse, est toutefois optionnelle.
On indique que le filtre d'égalisation permet aussi une individualisation du rendu audio 3D. En effet, au moment du décodage auprès du terminal, il est préféré d'ajouter un traitement permettant d'individualiser le rendu 3D car, sans ce traitement, les haut-parleurs virtuels frontaux seraient perçus soit au- dessus de la tête par l'auditeur, soit derrière. Il s'agit là d'une limite psychoacoustique connue du rendu binaural non individualisé. Comme ce traitement est propre et spécifique à chaque individu, cette étape ne peut être effectuée que par le terminal. Préférentiellement, on prévoit à cet effet deux filtres dont les caractéristiques dépendent des directions choisies des haut-parleurs virtuels, des HRTF (pour "Head Related Transfert Functions") utilisés initialement pour l'encodage et de l'auditeur lui-même. On indique que les HRTF qui sont utilisés initialement pour l'encodage sont préférentiellement des fonctions standard d'un buste standard dit "fête de Kemar". On rappelle que ces HRTF modélisent la diffraction ou plus généralement la perturbation des ondes acoustiques que produit la tête et le torse d'un individu, ce qui permet d'ailleurs à cet individu de localiser une source sonore dans l'espace 3D.
On rappelle en outre que les variations interindividuelles prennent la forme de creux et de bosses dans les spectres des HRTF. D'un individu à l'autre, ces creux et bosses sont plus ou moins accentués et leurs fréquences centrales varient légèrement autour d'une valeur moyenne. Alors, au niveau des filtres qu'utilise le terminal pour une individualisation, le traitement d'individualisation consiste préférentiellement en un jeu de potentiomètres à activer, permettant d'ajuster ces paramètres fréquentiels.
On retiendra, en termes plus généraux, que l'on prévoit une étape de filtrage des signaux reçus, auprès du terminal, consistant en une spatialisation pour de la stéréo binaurale adaptée à un utilisateur du terminal.
Une étape suivante 21 , au sens de l'invention, consiste à créer au moins cinq haut-parleurs virtuels pour un rendu audio 3D n'utilisant que deux canaux. Cette étape sera décrite en détail plus loin. On indique ici simplement qu'elle peut être combinée à un encodage en compression.
On peut prévoir encore, en complément ou en variante, d'ajouter des effets de salle pour accroître la distance perçue des haut-parleurs virtuels et/ou augmenter la sensation d'enveloppement. En effet, au moment de l'encodage des signaux (mixage 5.1 vers stéréo, préférentiellement avec élargissement stéréo), il est préféré d'ajouter un effet de salle (réverbération), donnant la sensation que les haut-parleurs virtuels sont encore plus lointains et pour accroître la sensation d'enveloppement.
Ainsi, à l'issue de cette étape 21 , les signaux multicanaux sont encodés en stéréo. Ils peuvent subir d'autres traitements ultérieurs, comme on le verra plus loin, ou, déjà ici, être stockés et/ou diffusés par streaming en stéréo compressée. Cette mesure, au sens de l'invention, permet avantageusement d'effectuer la conversion de 5.1 vers stéréo binaurale avant la diffusion, plutôt que d'appliquer la conversion en temps réel directement auprès des terminaux, comme ce qui est connu dans l'art antérieur (par exemple le traitement WinDVD® sur des terminaux tels que des ordinateurs de salon).
On prévoit ensuite une étape optionnelle, quoique avantageuse, de compensation de dynamique 22. La dynamique sonore d'un appareil mesure sa capacité à restituer des sons de faible niveau et de fort niveau de manière simultanée. Dans le domaine de traitement d'image, on parlerait de contraste d'image. La dynamique des convertisseurs et des transducteurs de rendu dans les terminaux mobiles est plus limitée que celle des convertisseurs et des transducteurs de rendu dans des studios, notamment de post-production, où les contenus multimédias ont été créés. Pour ne pas perdre les sons de faible intensité sans saturer les autres sons, il est préférable de compresser la dynamique des contenus. Il s'agit alors d'une compensation consistant à relever les basses intensités sonores et diminuer les fortes intensités.
On indique que la qualité des transducteurs et des convertisseurs numériques analogiques de restitution des terminaux mobiles, même équipés de casques stéréophoniques, est habituellement prévue pour la bande passante téléphonique. Elle est donc réduite par rapport à celle disponible pour des supports multimédias correspondant à des films de cinéma, et restitués sur des ordinateurs de salon ou sur des télévisions.
Dans une étape ultérieure optionnelle, on peut prévoir avantageusement une étape supplémentaire 23 de compensation de la bande passante et du spectre, notamment selon le type de terminal auquel est destiné un contenu multimédia et/ou le type de réseau de transport. On rappelle que la bande passante sonore d'un appareil (terminal ou équipement du réseau) est la différence entre la plus basse et la plus haute fréquence du son que l'appareil est capable de restituer ou véhiculer, en retenant toutefois que les appareils coupent rarement l'intensité de manière brutale en dessous et au-delà des fréquences seuils. Par ailleurs, le spectre d'un transducteur n'est généralement pas plat sur toute la bande de fréquence audible. Il est donc possible de corriger, dans une certaine mesure, les spectres des signaux à diffuser afin de réduire au minimum les distorsions spectrales qu'engendrent les appareils. On applique à cet effet, à l'étape 23, un filtre d'égalisation spectrale moyen qui compense avantageusement les distorsions apportées par la chaîne de transport jusqu'à la restitution par le terminal.
Le procédé peut se poursuivre ensuite par une étape classique 24 de streaming de contenus multimédias, proprement dit.
Ainsi, le procédé au sens de l'invention comporte préférentiellement les étapes suivantes :
- on mène, à l'étape 21 , un mixage des signaux multicanaux 5.1 ou plus (6.1 , 7.1 , etc) en stéréo binaurale (ou Virtual Surround). Cette étape peut éventuellement être combinée ou remplacée à/par l'étape d'élargissement stéréophonique 20 décrite ci-avant,
- on compense avantageusement le spectre de la chaîne de rendu jusqu'à la restitution par le terminal en augmentant l'intensité des basses fréquences au moins, notamment pour compenser une mauvaise qualité des écouteurs (étape 23), - on compense avantageusement la dynamique de la chaîne de rendu du terminal (étape 22), et
- préférentiellement, on compresse ensuite (étape 25) les deux canaux obtenus et destinés à la restitution par le casque d'un terminal, en codage AAC ou HEACC stéréo, puis on multiplexe les trames codées dans un format de streaming. Ensuite, le contenu est prêt pour être mis en ligne sur un réseau mobile. Avantageusement, le contenu ne nécessite plus aucun traitement ultérieur à celui d'un décodage en compression pour être joué par le terminal, de sorte que la charge de calcul nécessaire pour le terminal est avantageusement minimale. Les terminaux stéréo classiques peuvent donc jouer ces contenus avec une bonne qualité de rendu procurant un effet très satisfaisant d'immersion. De façon très optionnelle, on pourra prévoir néanmoins un traitement réalisé par le terminal pour booster les basses fréquences afin de compenser des petites différences de filtrage entre le filtre de correction spectrale moyen appliqué à l'étape 23 et un filtre de correction spécifique au terminal.
Dans les contextes de télévision ou de restitution par un équipement connecté à un ordinateur, on peut difficilement savoir, par exemple, si le contenu est écouté en stéréo sur enceintes ou sur casque, ou encore sur un système "home cinéma" en 5.1. Des traitements complémentaires pour adapter le contenu au dispositif de restitution doivent être réalisés en temps réel sur l'équipement (télévision, ordinateur, ou autres). Contrairement à ces contextes de restitution, on connaît parfaitement ici le dispositif de restitution d'un terminal mobile qui est typiquement constitué d'un casque stéréo à oreillettes, avec une bande passante et une dynamique réduites. On peut alors traiter et stocker les contenus multimédias directement dans le format dans lequel ils seront joués par les terminaux, c'est-à-dire en stéréo binaurale avec, avantageusement, une compensation de la bande passante et de la dynamique.
En particulier, on comprendra que les étapes de traitement telles que les étapes 20 à 23 d'adaptation pour des terminaux à casques stéréophoniques, si elles sont appliquées dans l'art antérieur, sont menées par le terminal mobile. En effet, habituellement, les services de streaming sur les réseaux cellulaires comprennent simplement les opérations qui suivent, seuls les codeurs/décodeurs utilisés pouvant différer suivant le réseau supportant le streaming et/ou le débit de compression : en sortie de post-production, pour adapter un contenu multimédia au contexte de streaming, on récupère le contenu multimédia dans un format donné (MPEG1 , MPEG2, DVD, ou autre), puis on le lit, par démultiplexage et décompression, pour le compresser à nouveau pour l'application visée, le cas échéant avec une adaptation pour une restitution monophonique lorsqu'il s'agit de transiter via un réseau cellulaire à bande passante limitée.
On indique en outre que les codages en compression sont typiquement l'AMR ou I1AAC en contexte de réseau cellulaire, par exemple de type GPRS ou UMTS. Au sens de l'invention, on conservera avantageusement ce type de codage et, de préférence, le codage AAC ou HEACC, sans modifier ainsi les structures de codage/décodage par rapport à l'art antérieur. De leur côté, les terminaux utilisent une routine dite "player multimédia", qui est adaptée au binaural, selon l'invention, pour recevoir et jouer les contenus multimédias sur les terminaux équipés d'un casque à deux oreillettes.
On décrit ci-après quelques modes de réalisation préférés des traitements prévus aux étapes 20 à 23 ci-avant.
La stéréo binaurale nécessite l'utilisation de deux filtres pour synthétiser un haut-parleur virtuel :
- un filtre qui modélise le chemin acoustique suivi par les ondes acoustiques depuis la position du haut-parleur virtuel jusqu'à l'entrée du conduit auditif de l'oreille gauche,
- et un autre filtre, équivalent, pour l'oreille droite.
Ces filtres dépendent de la position du haut-parleur virtuel, de l'oreille et de l'auditeur. Ils sont modélisés préférentiellement sous la forme d'un filtre à réponse impulsionnelle finie à phase minimale et d'une ligne à retard afin de minimiser leur taille et, ainsi, la charge de calcul et l'encombrement mémoire.
En se référant à la figure 2, dans le cas d'un élargissement stéréo standard, le traitement nécessite quatre filtres. En effet, un bus stéréo d'entrée 30 délivre deux voies : une voie gauche Vg et une voie droite Vd qui sont traitées chacune par deux filtres, respectivement 31 et 32, et 33 et 34. Les opérateurs 35 et 36 sont des opérateurs de somme, de sorte que l'on récupère deux voies filtrées Vg et Vd qui sont destinées à un bus stéréo de sortie 37.
On recherche toutefois une mise en œuvre économique par rapport à cette réalisation standard, en terme de nombre de filtres à prévoir. La réalisation optimisée de l'élargissement stéréo, représentée sur la figure 3, permet de réduire par au moins un facteur de deux le nombre de filtres utilisés.
A cet effet, on suppose que les visages des auditeurs sont symétriques. Ainsi, pour toutes les positions de haut-parleurs virtuels situés dans le plan médian entre les oreilles de l'auditeur, les filtres de la voie de gauche et de la voie de droite sont égaux par hypothèse. En se référant à la figure 7, deux haut- parleurs virtuels H1 et H2 ont des positions symétriques par rapport à l'auditeur AU et émettent respectivement les signaux S1 et S2. On prévoit les filtres respectifs H1d et H2d pour modéliser le signal Od reçu par l'oreille droite et les filtres H1g et H2g pour modéliser le signal Og reçu par l'oreille gauche, en supposant donc que H1g=H2d et H1d=H2g.
Le signal reçu par l'oreille gauche vaut : Og = H1g x S1 + H2g x S2
Le signal reçu par l'oreille droite vaut : Od = H1d x S1 + H2d x S2, ou encore, comme indiqué ci-avant, Od = H2g x S1 + H1g x S2
On notera que :
Og+Od = (H1g+H2g) (S1+S2), et OG-Od = (H1g-H2g)(S1-S2)
En posant :
Sum = S1+S2, et Djff = S1-S2, et en nommant les filtres suivants :
Hsum = (H1g+H2g)/2 , et
Hdiff = (H1g-H2g) /2, on a : Og = Hsum*Sum + HdifTDiff, et
Od = Hsum*Sum - Hdiff*diff
Ainsi, les étapes de filtrage prévoient uniquement deux filtres Hsum et Hdiff au lieu de quatre filtres. En se référant à la figure 3, l'opérateur 41 applique une somme aux voies Vg et Vd issue du bus stéréo d'entrée 40. Cette somme est filtrée par un unique filtre 43, tandis que l'opérateur 42 applique une différence aux voies Vg et Vd, laquelle différence est ensuite filtrée par un unique filtre 43. L'opérateur somme 45 reconstitue une voie gauche Vg et l'opérateur différence 46 reconstitue une voie droite Vd qui, avec la voie gauche Vg, sont destinées au bus stéréo de sortie 47.
Dans le cas d'un mixage du format 5.1 vers une stéréo binaurale, dans une réalisation standard telle que représentée sur la figure 4, le traitement requiert au moins dix filtres. On remarquera déjà que les filtres 51 à 54, avec les opérateurs somme 55 et 56, appliquent déjà aux voies gauche Vg et droite Vd que délivre le bus stéréo d'entrée 50, un traitement sensiblement équivalent à celui de l'élargissement stéréo de la figure 2. On comprendra ainsi qu'un élargissement stéréo peut être avantageusement combiné au mixage 5.1 vers stéréo binaurale en choisissant des paramètres de filtrage adéquats pour les filtres 51 à 54. De même, le traitement des voies gauche Vgs et droite Vds issues du bus stéréo d'entrée de surround peuvent être traitées par des filtres 62 à 65 paramétrés de façon adéquate, avant d'être sommées par les opérateurs 66 et 67. Il en est de même pour la voie centrale monophonique Vc issue d'un bus d'entrée mono 57, qui est filtrée en principe deux fois par les filtres 60 et 61 pour délivrer deux voies gauche et droite.
On peut prévoir en outre une voie centrale dans les basses fréquences Vb issue du bus d'entrée mono 59 qui, quant à elle, subit préférentiellement un gain 68 et une séparation en voies gauche et droite.
Toutes ces voies gauche et droite issues des filtres et du gain 68 sont finalement additionnées par les opérateurs 69 à 74 pour former deux canaux entre lesquels on applique respectivement une somme et une différence (comme avec les opérateurs 45 et 46 de la figure 3) pour délivrer finalement les deux voies respectives Vg et Vd qui alimentent le bus de sortie stéréo 75.
Dans la réalisation préférée de la figure 5, on a optimisé le filtrage pour limiter à cinq filtres 82, 83, 86, 87 et 88 la conversion de 5.1 à stéréo binaurale de la figure 4, en formulant avantageusement l'hypothèse de symétrie de l'audition entre oreille gauche et oreille droite. D'ailleurs, en suivant cette hypothèse, le rendu au niveau du canal central du 5.1 par le haut-parleur virtuel central (voie Vc) ne nécessite qu'un filtre puisque les filtres 60 et 61 de la figure 4 seraient égaux selon cette hypothèse.
Dans la variante avantageuse de la figure 6, on indique que les voies centrales Vc (dialogues) et Vb (des basses fréquences amplifiées par l'opérateur de gain
89) sont simplement mixées par l'opérateur somme 97, puis encore mixées aux voies gauche Vg et droite Vd issues du bus stéréo d'entrée principal 50, avant d'être filtrées par le filtre de la voie somme 82. Comme précédemment
(figure 5), on applique avantageusement une différence aux voies Vg et Vd (opérateur 81) puis un filtrage (filtre 83) sur la voie de différence, avec donc l'hypothèse ci-avant de symétrie des haut-parleurs virtuels H1 et H2 par rapport à l'auditeur AU. Le traitement des voies de surround Vgs et Vds reste inchangé par rapport au mode de réalisation de la figure 5.
Ainsi, on comprendra que peu de filtres suffisent pour la mise en œuvre du procédé selon l'invention, par une unité de transcodage adéquate 11 telle que représentée sur la figure 1. A ce titre, la présente invention vise aussi une telle unité de transcodage.
Bien entendu, les traitements menés par les filtres décrits ci-avant, adaptés pour des formats 5.1 , sont très facilement adaptables à des formats 6.1 , 7.1 ou autres. De manière générale, l'invention s'applique aussi à de tels formats. En effet, il existe maintenant des formats audio contenant plus de six canaux. On trouve actuellement du format 6.1 , voire 7.1 , sur certains contenus distribués sur support DVD. Des équipes de recherche travaillent actuellement sur un format 10.2. On retiendra que l'invention ne se limite en rien au transcodage d'un format 5.1.
Par ailleurs, il peut être prévu la succession des étapes suivantes :
- obtenir le contenu initial au format stéréophonique classique, - puis l'enrichir au format 5.1 (ou 6.1 ou autres),
- puis le mixer en stéréo binaurale pour une application à un casque de terminal.
On comprendra donc que le format initial du contenu peut être différent du format multicanal 5.1 (6.1 ou autres), et qu'il peut être simplement stéréophonique.

Claims

Revendications
1. Procédé de transcodage des pistes audio d'un contenu multimédia, dans lequel : - on obtient les pistes audio (CM) d'un contenu multimédia, définissant un effet de spatialisation destiné à une restitution dans une salle, - on effectue un transcodage (21) par filtrage desdites pistes pour obtenir deux pistes audio destinées à alimenter un dispositif de restitution à deux haut-parleurs (CA) que comporte un terminal, - on effectue un codage en compression (25) desdites deux pistes audio en vue d'une transmission vers le terminal, via un réseau (14).
2. Procédé selon la revendication 1 , caractérisé en ce que ledit terminal est un terminal mobile et en ce que ledit réseau est un réseau cellulaire.
3. Procédé selon l'une des revendications 1 et 2, caractérisé en ce que le dispositif de restitution du terminal comporte un casque (CA) à deux oreillettes.
4. Procédé selon l'une des revendications précédentes, caractérisé en ce que les pistes audio du contenu multimédia sont agencées selon un format multicanal pour définir un au moins un effet surround, et en ce que ledit transcodage comporte une opération de conversion (21) dudit format multicanal vers un format stéréophonique binaural.
5. Procédé selon la revendication 4, caractérisé en ce que les pistes audio du contenu multimédia sont agencées selon un format multicanal 5.1.
6. Procédé selon l'une des revendications précédentes, caractérisé en ce que ledit transcodage comporte un traitement d'élargissement stéréophonique (20).
7. Procédé selon l'une des revendications précédentes, caractérisé en ce qu'il comporte une étape supplémentaire, avant le codage en compression (25), de compensation de dynamique (22) pour adapter lesdites deux pistes audio à une restitution sur un casque de terminal mobile.
8. Procédé selon l'une des revendications précédentes, caractérisé en. ce qu'il comporte une étape supplémentaire, avant le codage en compression (25), d'enrichissement spectral (23) pour adapter lesdites deux pistes audio à une restitution sur un casque de terminal mobile, de bande passante limitée.
9. Procédé selon l'une des revendications précédentes, caractérisé en ce que lesdites deux pistes audio codées en compression sont destinées à une diffusion en mode de streaming (24), via le réseau (14).
10. Procédé selon l'une des revendications précédentes, caractérisé en ce que l'étape de transcodage est effectuée auprès d'une unité de transcodage (11) en amont du réseau (14).
11. Procédé selon l'une des revendications précédentes, caractérisé en ce que l'on prévoit une étape de filtrage des signaux reçus, auprès du terminal, consistant en une spatialisation pour de la stéréo binaurale adaptée à un utilisateur du terminal.
12. Unité de transcodage de pistes audio (CM) d'un contenu multimédia, définissant un effet de spatialisation destiné à une restitution dans une salle, caractérisée en ce qu'elle comporte des moyens de filtrage (11) desdites pistes pour obtenir deux pistes audio destinées à alimenter un dispositif de restitution à deux haut-parleurs, notamment un casque à deux oreillettes, d'un terminal, notamment d'un terminal mobile.
13. Unité de transcodage selon la revendication 12, caractérisée en ce que les moyens de filtrage comportent au moins :
- un opérateur de somme (41) pour additionner au moins deux voies principales gauche (Vg) et droite (Vd), et un filtre (43) de ladite somme, - un soustracteur (42) entre les voies gauche et droite principales (Vg1Vd) et un filtre (44) de la soustraction,
- un opérateur de somme (45) entre ladite somme filtrée et ladite soustraction filtrée pour délivrer une voie gauche (Vg) transcodée,
- et un soustracteur (46) entre ladite somme filtrée et ladite soustraction filtrée pour délivrer une voie droite (Vd) transcodée.
14. Unité de transcodage selon la revendication 13, caractérisé en ce qu'elle est agencée pour effectuer un élargissement stéréophonique.
15. Unité de transcodage selon l'une des revendications 12 à 14, caractérisée en ce que les pistes audio du contenu multimédia sont agencées selon un format multicanal pour définir au moins un effet surround, et en ce que les moyens de filtrage comportent au moins quatre filtres (82,83,86,87) pour une conversion dudit format multicanal vers un format stéréophonique binaural.
16. Unité de transcodage selon la revendication 15, prise en combinaison avec la revendication 13, caractérisée en ce que les moyens de filtrage comportent, en outre, au moins :
- un soustracteur (85) des voies gauche et droite de surround (Vgs,Vds) ainsi qu'un filtre (87) de la soustraction, et
- un opérateur de somme (84) desdites voies gauche et droite de surround (Vgs,Vds) ainsi qu'un filtre (86) de la soustraction.
17. Unité de transcodage selon la revendication 16, caractérisée en ce que les pistes audio du contenu multimédia sont agencées selon un format 5.1 , et en ce que ledit opérateur somme (98) pour additionner les deux voies principales gauche (Vg) et droite (Vd) applique ladite somme en outre à au moins une voie centrale (Vc).
18. Unité de transcodage selon la revendication 17, caractérisée en ce que les pistes audio du contenu multimédia comportent en outre un canal de basses fréquences (Vb), en ce que les moyens de filtrage comportent un opérateur de gain (89) du canal de basses fréquences, et en ce que ledit opérateur somme (98) pour additionner les deux voies principales gauche (Vg) et droite (Vd) applique ladite somme en outre au canal de basses fréquences (Vb) amplifié par l'opérateur de gain (89).
19. Unité de transcodage selon l'une des revendications 12 à 18, caractérisée en ce qu'elle comporte en outre un module de codage en compression (25) des voies gauche et droite transcodées (Vg, Vd).
PCT/FR2006/000039 2005-01-14 2006-01-09 Procede d’encodage de pistes audio d’un contenu multimedia destine a une diffusion sur terminaux mobiles WO2006075079A1 (fr)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
FR0500414 2005-01-14
FR0500414 2005-01-14

Publications (1)

Publication Number Publication Date
WO2006075079A1 true WO2006075079A1 (fr) 2006-07-20

Family

ID=34953456

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/FR2006/000039 WO2006075079A1 (fr) 2005-01-14 2006-01-09 Procede d’encodage de pistes audio d’un contenu multimedia destine a une diffusion sur terminaux mobiles

Country Status (1)

Country Link
WO (1) WO2006075079A1 (fr)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11269589B2 (en) 2019-12-23 2022-03-08 Dolby Laboratories Licensing Corporation Inter-channel audio feature measurement and usages
CN116261008A (zh) * 2022-12-14 2023-06-13 海信视像科技股份有限公司 音频处理方法和音频处理装置

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6487535B1 (en) * 1995-12-01 2002-11-26 Digital Theater Systems, Inc. Multi-channel audio encoder
US6493674B1 (en) * 1997-08-09 2002-12-10 Nec Corporation Coded speech decoding system with low computation
US20030014136A1 (en) * 2001-05-11 2003-01-16 Nokia Corporation Method and system for inter-channel signal redundancy removal in perceptual audio coding

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6487535B1 (en) * 1995-12-01 2002-11-26 Digital Theater Systems, Inc. Multi-channel audio encoder
US6493674B1 (en) * 1997-08-09 2002-12-10 Nec Corporation Coded speech decoding system with low computation
US20030014136A1 (en) * 2001-05-11 2003-01-16 Nokia Corporation Method and system for inter-channel signal redundancy removal in perceptual audio coding

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
EMERIT M ET AL: "INTERFACES ET TRAITEMENTS SONORES AUDIO INTERFACES AND SIGNAL PROCESSING", ANNALES DES TELECOMMUNICATIONS - ANNALS OF TELECOMMUNICATIONS, PRESSES POLYTECHNIQUES ET UNIVERSITAIRES ROMANDES, LAUSANNE, CH, vol. 55, no. 9/10, September 2000 (2000-09-01), pages 526 - 537, XP000968164, ISSN: 0003-4347 *

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11269589B2 (en) 2019-12-23 2022-03-08 Dolby Laboratories Licensing Corporation Inter-channel audio feature measurement and usages
CN116261008A (zh) * 2022-12-14 2023-06-13 海信视像科技股份有限公司 音频处理方法和音频处理装置

Similar Documents

Publication Publication Date Title
EP1600042B1 (fr) Procede de traitement de donnees sonores compressees, pour spatialisation
US9794686B2 (en) Controllable playback system offering hierarchical playback options
JP5956994B2 (ja) 拡散音の空間的オーディオの符号化及び再生
EP2042001B1 (fr) Spatialisation binaurale de donnees sonores encodees en compression
CN1655651B (zh) 用于合成听觉场景的方法和设备
CN102100088B (zh) 用于使用基于对象的元数据产生音频输出信号的装置和方法
CA2699004C (fr) Procede et dispositif de decodage d'un signal audio
US20140086414A1 (en) Efficient audio coding having reduced bit rate for ambient signals and decoding using same
EP2489206A1 (fr) Traitement de donnees sonores encodees dans un domaine de sous-bandes
WO2018059742A1 (fr) Procede de conversion, d'encodage stereophonique, de decodage et de transcodage d'un signal audio tridimensionnel
US20070297624A1 (en) Digital audio encoding
EP2009891B1 (fr) Transmission de signal audio dans un système de conférence audio immersive
CN112562696A (zh) 具有离散对象的音频的分层编码
WO2006075079A1 (fr) Procede d’encodage de pistes audio d’un contenu multimedia destine a une diffusion sur terminaux mobiles
EP3729832A1 (fr) Traitement d'un signal monophonique dans un décodeur audio 3d restituant un contenu binaural
KR100598602B1 (ko) 가상 입체 음향 생성 장치 및 그 방법
EP3920552B1 (fr) Traitement centralise d'un flux audio d'entree
EP4203486A1 (fr) Boitier decodeur pour la restitution d'une piste audio additionnelle
Pfanzagl-Cardone The ‘AURO-3D®’System and Format
FR3040253B1 (fr) Procede de mesure de filtres phrtf d'un auditeur, cabine pour la mise en oeuvre du procede, et procedes permettant d'aboutir a la restitution d'une bande sonore multicanal personnalisee
Wang Soundfield analysis and synthesis: recording, reproduction and compression.

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application
NENP Non-entry into the national phase

Ref country code: DE

122 Ep: pct application non-entry in european phase

Ref document number: 06709053

Country of ref document: EP

Kind code of ref document: A1

WWW Wipo information: withdrawn in national office

Ref document number: 6709053

Country of ref document: EP