WO2017093666A1 - Décompositions successives de filtres audio - Google Patents

Décompositions successives de filtres audio Download PDF

Info

Publication number
WO2017093666A1
WO2017093666A1 PCT/FR2016/053153 FR2016053153W WO2017093666A1 WO 2017093666 A1 WO2017093666 A1 WO 2017093666A1 FR 2016053153 W FR2016053153 W FR 2016053153W WO 2017093666 A1 WO2017093666 A1 WO 2017093666A1
Authority
WO
WIPO (PCT)
Prior art keywords
filters
individual
independent components
weighting coefficients
individuals
Prior art date
Application number
PCT/FR2016/053153
Other languages
English (en)
Inventor
Felipe RUGELES OSPINA
Marc Emerit
Original Assignee
Orange
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Orange filed Critical Orange
Priority to US15/780,948 priority Critical patent/US10555105B2/en
Priority to EP16815620.6A priority patent/EP3384688B1/fr
Publication of WO2017093666A1 publication Critical patent/WO2017093666A1/fr

Links

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S7/00Indicating arrangements; Control arrangements, e.g. balance control
    • H04S7/30Control circuits for electronic adaptation of the sound field
    • H04S7/302Electronic adaptation of stereophonic sound system to listener position or orientation
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S1/00Two-channel systems
    • H04S1/007Two-channel systems in which the audio signals are in digital form
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S7/00Indicating arrangements; Control arrangements, e.g. balance control
    • H04S7/30Control circuits for electronic adaptation of the sound field
    • H04S7/307Frequency adjustment, e.g. tone control
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S2420/00Techniques used stereophonic systems covered by H04S but not provided for in its groups
    • H04S2420/01Enhancing the perception of the sound image or of the spatial distribution using head related transfer functions [HRTF's] or equivalents thereof, e.g. interaural time difference [ITD] or interaural level difference [ILD]
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S7/00Indicating arrangements; Control arrangements, e.g. balance control
    • H04S7/30Control circuits for electronic adaptation of the sound field
    • H04S7/302Electronic adaptation of stereophonic sound system to listener position or orientation
    • H04S7/303Tracking of listener position or orientation
    • H04S7/304For headphones

Definitions

  • the present invention relates to the field of the restitution of sound data.
  • telecommunication terminals especially mobile terminals, for which it is envisaged a sound reproduction with a stereophonic listening system (a headset for example) allowing the listener to position the sound sources in space.
  • a stereophonic listening system a headset for example
  • the invention exploits linear invariant and stationary systems that can be characterized by a set of filters depending on a direction between the sound source and one of the auditory canals of the listener.
  • This set of filters represents the directivity of the system.
  • the filters can be represented in their time (as impulse response) or frequency (as transfer function) form.
  • an individual or an artificial head with a microphone at the entrance of each auditory canal are particular cases of such an invariant and stationary linear system.
  • the system can be characterized by its transfer functions, specific to each individual.
  • the transfer functions define the spatial characteristics of the individual's hearing by taking into account the reflections related to his morphology.
  • the transfer functions are conventionally called RTF type transfer functions for "Head Related Transfer Function", when the filters are given in the frequency domain, and HRIR for "Head Related Impulse Response", when the filters are given in the domain. temporal. It is possible to switch from one representation to another by a Fourier transform.
  • the HRTF transfer functions are thus a set of complex values. It is possible to return to real values by taking their respective modules: the modules of the HRTFs are thus obtained.
  • the invention can be generalized to directivity of systems having different shapes and / or numbers of sensors (for example a mobile phone with 3 microphones). Without impairing the generalization of the invention to any linear system that can be characterized by ORTF, and to facilitate the understanding of the invention, it is considered here the particular case of DTF transfer functions. Indeed one can pass DTF transfer functions HRTF transfer functions by calculating minimal phase filters associated with DTF transfer functions and adding a delay delay modeling propagation delays between capsules (inter-aural delay by a human ). The customization of these delays is obtained by other well known techniques not described here.
  • a technique using HRTF transfer functions is binaural synthesis. This technique relies on the use of so-called "binaural" filters, which reproduce the acoustic transfer functions between the sound source (s) and the auditory canals of the listener. These filters are used to simulate auditory location indices that allow a listener to locate sound sources in real listening situations.
  • the techniques related to binaural synthesis are therefore based on a pair of binaural signals that feeds a rendering system.
  • the two binaural signals can be obtained by signal processing, by filtering a monophonic signal through binaural filters that reproduce the properties of acoustic propagation between the source placed at a given position and each of the auditory canals of the listener.
  • the binaural synthesis can be used for different renditions such as for example a playback by means of a headset with two earpieces, or by means of two loudspeakers.
  • the goal is reconstruction of a sound field at the level of the listener's ears almost identical to that which would have induced real sources in space.
  • Binaural filters take into account all the acoustic phenomena that modify the acoustic waves in their path between the source and the auditory canals of the listener. Acoustic phenomena include diffraction by the head of the listener and reflections on the auditory horn and the upper torso of the user.
  • acoustic phenomena vary according to the position of the sound source with respect to the listener and the variations allow the listener to locate the source in the space. Indeed, these variations determine a form of acoustic coding of the position of the source.
  • the auditory system of an individual knows, by learning, to interpret this coding to locate the sound source or sources.
  • a quality binaural synthesis is therefore based on binaural filters that best reproduce the acoustic coding naturally produced by the listener's body, taking into account the individual characteristics of its morphology.
  • binaural rendering performance degradation is induced, which is reflected in particular by an intracranial perception of sources and confusion between the front and rear locations.
  • the binaural filters represent the acoustic transfer functions or transfer functions of the HRTF type which model the transformations generated by the torso, the head and the horn of the listener on the acoustic signal coming from a sound source.
  • HRTF transfer functions
  • Each sound source position is associated with a pair of HRTF functions, one for each ear.
  • these HRTF transfer functions carry the acoustic fingerprint of the morphology of the individual on which they were measured.
  • the HRTF transfer functions are obtained during a measurement phase. A selection of directions that cover more or less finely all of the space surrounding the listener is fixed. For each direction, HRTF transfer functions left and right are measured by means of microphones inserted at the entrance of the auditor's ear canals. In general, a sphere centered on the listener is thus defined.
  • the measurement For a measurement of good quality, the measurement must be performed in an anechoic chamber, or deaf chamber, so that only the reflections and acoustic phenomena related to the listener are taken into account.
  • M directions we obtain, for a given listener, a database of 2M transfer functions of type H RTF (because two right and left auditory channels) representing, for each auditory canal, each of the positions of sources.
  • a practical solution that is starting to emerge is to offer the user the ability to measure their own HRTF transfer functions in their usual listening environment to emulate their listening experience on a headset. in the studio or in his living room.
  • the drawbacks associated with this type of solution are linked to the fact of measuring only a small number of fixed positions and making it difficult to separate the information related to the broadcasting device itself and the listening location.
  • a first track consists of calculating the filters from the acquisition of the morphology of the listener and in particular of his flag.
  • Customization can also be based on the transformation of non-individual HRTF transfer functions extracted from a database including morphologies associated with HRTF transfer functions ("Individualization of Spectral Indices for Binaural Synthesis: Research and Exploitation of Interindividual Similarities"). the adaptation or reconstruction of HRTF, "Guillon, P, PhD Thesis, University of Maine, Le Mans, France, 2009).
  • the transformation of the HRTF transfer functions to adapt them to a given individual is then controlled by comparing the morphologies of the origin flag from the database and the target flag of the given individual. This comparison is based on a technique of matching the three-dimensional meshes of the pavilions. Another method consists in using morphological parameters to create or deform a three-dimensional mesh, which will then be used for a detailed calculation and a numerical simulation of the HRTF transfer functions of the individual, for example by finite element of the border. It is also possible, from the morphological parameters of a given individual, to search a database for a third individual with similar morphological parameters.
  • One method for acquiring pavilion morphology is to use a three-dimensional scan, but this method is sometimes problematic in that it requires both specific hardware and implementation.
  • the first approach is to study the ability of auditors to appropriate generic HRTF transfer functions that are not initially adapted to them.
  • the second approach suggests a computer learning of the reactions of a user participating in an interactive game or answering an interactive questionnaire. The computer iteratively recreates the HRTF transfer function set that is suitable for the user based on the observation of its location performance and / or responses.
  • the present invention improves the situation.
  • a first aspect of the invention relates to a process for processing individualized data and representative of the directivity of an individualized audio system, the method comprising the following steps:
  • the successive decomposition in a first base of N independent components common to all the individuals of the first set, then in a second base of P independent components advantageously makes it possible to compress the stored data.
  • the numbers N and P of independent components may be chosen according to criteria related to the size of the stored data and the desired accuracy for the filter sets.
  • the second base of P independent components may be a P-order spherical harmonics base and the second set of weighting coefficients may be a set of spherical coefficients.
  • the decomposition in a base of spherical harmonics advantageously makes it possible to have sets of spherical coefficients that are easily transformable by applying transformations involving a rotation.
  • each individual of the initial set of individuals may further be associated with a set of morphological data, and the method may further comprise the following steps:
  • Storing the filter sets in the form of morphological data advantageously makes it possible to easily apply transformations in order to adapt the second set of weighting coefficients of an individual of the initial set.
  • the initial set can thus be used as a starting point for a quick and non-binding determination of filter sets for users other than users of the initial set.
  • the transformation may comprise at least the application of a rotation matrix to the set of spherical coefficients associated with the selected individual.
  • the method may further comprise the following steps: - application of a homothety with N independent components, the homothety being determined from the current morphological data, in order to obtain N independent transformed components;
  • the method may further comprise the following steps:
  • the method comprises the application of an inverse Fourier transform to the new set of filters prior to temporal resampling.
  • the morphological data relate at least to the auditory flag of the user.
  • morphological data having the most influence on the filter set associated with an individual are taken into account when determining a new game for a new individual.
  • the filters may be transfer functions in the frequency domain (or the modules of these transfer functions), each independent component may be a function having a non-zero spectrum in a frequency band given, and the given frequency bands can be distinct.
  • independent components can be expressed in logarithmic frequency scale.
  • the modules of the set of filters can be deconvolved by a spatial mean of the modules of the set of filters and the N independent components can be determined from the deconvolved modules.
  • This embodiment makes it possible to reduce the variance of the filters by eliminating the common part of all the filters and makes it possible to work on real rather than complex values (DTF).
  • a second aspect of the invention relates to a computer program product comprising program code instructions recorded on a computer readable medium for performing the steps of the method according to the first aspect of the invention.
  • a third aspect relates to an individualized data processing device representative of the directivity of an audio system, the device comprising a processor configured for:
  • FIG. 1 is a diagram representing the steps of a data processing method according to one embodiment of the invention.
  • FIG. 2 represents a decomposition of a set of filters in a base of independent components according to one embodiment of the invention
  • FIG. 3 represents independent components obtained from an initial set of filter sets according to one embodiment of the invention
  • FIG. 4 illustrates directivity figures for the same independent component for eight different individuals, according to one embodiment of the invention
  • FIG. 5 illustrates a device according to one embodiment of the invention.
  • Figure 1 is a diagram illustrating the general steps of a data processing method according to an embodiment of the invention.
  • a custom filter set is obtained.
  • the initial set of individuals is a restricted set of individuals for whom state-of-the-art solutions could be applied to obtain a custom set of filters for each individual.
  • each individual has been tested in an anechoic chamber to obtain at least one set of custom filters.
  • two sets of custom filters are obtained for each individual, one for each ear canal.
  • the sets of filters of the initial set of individuals are stored at a step 102, for example in a memory of a device implementing the method according to the invention.
  • Filter sets can be expressed as matrix coefficients.
  • the example of HRTF transfer functions in the frequency domain is considered in an unrestricted way as filter sets.
  • N independent components common to the sets of filters obtained are determined.
  • the independent component decomposition disclosed in the document "Independent Behavior Analysis", Stone JV, 2004, John Wiley & Sons can be applied to the filter modules of a set (HRTF transfer functions), the modules being optionally deconvoluted (frequency division) by the spatial mean of the set of filters.
  • HRTF transfer functions Harmonics, or a set
  • Such an operation is equivalent to removing HRTF transfer functions frequency components common to all filters.
  • Such deconvolved modules are called DTF thereafter.
  • the modules may be optionally smoothed so as to keep only the frequency variations that are relevant from a perceptual point of view.
  • any HRTF transfer function module (or DTF) of the initial set of individuals can be reconstructed by a linear combination of weighted coefficient weighted independent components, as shown in FIG.
  • a first matrix 200 of coefficients wy, i varying between 1 and M (2 * M being the total number of measured directions, M filters corresponding to one of the two ears of the listener) and j varying between 1 and N represents the coefficients of weighting obtained after decomposition of the filters corresponding to one of the ears of a game on a base formed of N independent components.
  • a second matrix 201 of coefficients c n, f, with n varying between 1 and N and f varying between 1 and F represents the coefficients of N independent components, each line corresponding to one of N independent components.
  • a third matrix 202 represents a set of filters (deconvoluted modules HRTF transfer functions in the previous example) for an individual, for an ear, obtained in step 1 01, and includes coefficients d m, f, m varying between 1 and M and f varying between 1 and F.
  • Each line m of the third matrix 202 represents a filter for a direction of the given space, and each column corresponds to a frequency (or a frequency band more precisely), thus reflecting the spectrum of HRTF transfer functions.
  • the modules of the HRTF transfer functions can be logarithmic or linear scale, in abscissa or ordinate, which results in four distinct configurations (linear, linear), (logarithmic, linear), (linear, logarithmic) and (logarithmic, logarithmic).
  • a logarithmic scale on the abscissa amounts to resampling the spectrum of a transfer function (a line of the matrix 202) with a logarithmic and non-linear frequency step, which more accurately reflects the perceptual functioning of the human ear. (more sensitive in high frequencies than low frequencies).
  • a logarithmic scale on the y-axis amounts to considering 20 * log-i 0 (abs (HRTF)), abs (HRTF) representing the modules of the transfer functions H RTF.
  • each line of the second matrix 201 represents an independent component, each coefficient of the line corresponding to the energy of the independent component in a given frequency band.
  • the first matrix 200 depends on the azimuth and the elevation (on the ordinate) and the weights assigned to each independent component (on the abscissa).
  • the set of coefficients w min for a given column n represents, for an individual, the directivity for an independent component for the component n.
  • Each index m corresponding to a measurement for a direction (azimuth (m), elevation (m)).
  • the first matrix 200 is determined in a step 104, by decomposition of each of the sets of filters obtained in step 101, in the base formed from the N independent components.
  • the coefficients of a column of the first matrix 200 represent the values of the weights for an independent component for the different directions of measurements. They thus represent a figure of spatial directivity.
  • FIG. 4 illustrates such spatial directivity figures for eight individuals of the initial set of individuals, according to one embodiment of the invention. It can be seen in Figure 4 that spatial directivities are similar from one individual to another and that rotations can be applied to approximate these spatial directivities.
  • FIG. 4 presents the weighting coefficients of the first matrix 200, for each individual, applied to the third independent component (third line of the second matrix 201) for eight different individuals. These are therefore the respective third columns of the first matrices 200 for the eight individuals.
  • the columns are redrawn by the same elevation and represented in a three-dimensional way.
  • the abscissa corresponds to the azimuth expressed in degrees
  • the ordinate corresponds to the elevation in degrees.
  • the third dimension is represented by color variations (in shades of gray in Figure 4). The shades of gray represent the weighting coefficient values.
  • Figure 4 can thus be interpreted as a set of directivity figures for the third independent components of eight individuals in the initial set.
  • the invention provides for decomposing at step 105 each set of weighting coefficients (each first matrix 200 of an individual of the initial set ) in a base of P functions independent in the mathematical sense, for example in a basis of spherical harmonics of order P-1, in order to obtain a set of spherical coefficients.
  • the choice of the base of spherical harmonics allows the easy application of rotations to the sets of spherical coefficients in order to recalculate a new set of spherical coefficients following a rotation of the measurement frame, which is not the case of a basis of two-dimensional independent components.
  • the determination of a set of spherical coefficients amounts to making a Spatial Fourier transform of the directivities (of a first matrix 200, therefore).
  • the decomposition of the directivities cw lc p for the component independent ic to the order P in spherical harmonics is expressed as follows:
  • HS i is a vector of the size of the number of measurements and whose value is the value of the spherical harmonic i for the measurement direction corresponding to the index m (azimuth (m), elevation (m))
  • each set of spherical coefficients obtained in association with an individual identifier to which it corresponds.
  • the decomposition in spherical harmonics thus makes it possible to completely characterize a set of filters corresponding to the directivity of the ear canal of one of the individuals by means of spherical coefficients q ui which are of dimension P * N, where P-1 is the order decomposition into spherical harmonics and N the number of independent components.
  • the base of spherical harmonics and the N independent components are common to all individuals, and thus to all sets of HRTF or DTF filters.
  • N 64 independent components
  • the values of the base of spherical harmonics they can be calculated or stored in tables.
  • N and P can thus be chosen according to a compromise between the compression level and storage constraints, and this to ensure that the complexity of HRTF transfer functions is reduced after successive decompositions.
  • a second advantage arising from the successive application of a decomposition on a basis of N independent components and then on a basis of spherical harmonics is related to the customization of the transfer functions HRTF or DTF.
  • the steps 101 to 106 detailed previously have been applied to an initial set of individuals, the set comprising a small number of individuals (about fifty for example) because of the complexity related to the acquisition of the functions of HRTF transfer at step 101.
  • sets of spherical coefficients determined for this small number of individuals can also be used to quickly determine a set of filters for a new individual, not belonging to the initial set.
  • the method according to the invention may comprise obtaining current morphological data of a new individual.
  • a transformation that can include a simple rotation defined by three axes of rotation ( ⁇ , ⁇ , ⁇ ).
  • ⁇ , ⁇ , ⁇ a simple rotation defined by three axes of rotation
  • the parameters ⁇ , ⁇ , ⁇ and ⁇ may further depend on a factor f representing a frequency band or a set of frequency bands.
  • morphological data of the individuals of the first set can also be obtained in step 101 previously described and then stored in step 102. These morphological data can describe the geometry of the linear system whose directivity is characterized by the set of associated filters.
  • the current morphological data are compared with the set of morphological data of the individuals of the initial set, with a view to selecting, at a step 109, an individual from the initial set. For example, the individual of the initial set having the parameters closest to the current parameters is selected.
  • the individual of the initial set having the parameters closest to the current parameters is selected.
  • a transformation to be applied to the set of spherical coefficients associated with the selected individual is determined from the current morphological data.
  • the transformation is determined by determining the first parameters that make it possible to pass data Morphological data to the morphological data of the selected individual of the initial set. In the example above, the values of the rotation found in the previous step are used. From these first parameters, the transformation parameters are deduced making it possible to transform the set of filters of the selected individual into a new set of filters.
  • such a method amounts to determining a transformation model and its parameters on the sets of filters characterizing the directivity of the systems from a signal point of view, another transformation model and its describing parameters, the geometries, shapes or morphologies of the systems, and also to determine a function to match these two models.
  • the transformation is then applied to the set of spherical coefficients associated with the selected individual in order to obtain a set of spherical coefficients transformed at a step 1 1 1.
  • the set of transformed spherical coefficients is stored in association with an identifier of the new individual at a step 1 12.
  • homothety ⁇ can be applied in different ways:
  • the first matrix 200 is obtained from the set of transformed spherical coefficients
  • FIG. 5 shows device 500 according to one embodiment of the invention.
  • the device 500 comprises a random access memory 503 and a processor 502 for storing instructions for carrying out the steps 101 to 112 of the method described above with reference to FIG. 1.
  • the device also comprises a database 504 for storing data intended to be stored after the application of the method, in particular the sets of spherical coefficients, the independent components, and optionally the base of spherical harmonics.
  • the device 500 further comprises an input interface 501 intended to receive the sets of filters of the initial set of individuals, and optionally the morphological parameters of the individuals of the initial set and the current morphological parameters.
  • the device 500 further comprises an output interface 505 for the transmission of data resulting from the application of the method according to the invention. For example, the output interface may transmit the modified filter set or the transformed spherical coefficient set obtained for the new user.
  • the present invention makes it possible to improve the quality of audio immersive rendering in binaural systems, since it makes it possible to easily obtain a set of filters personalized for an individual from morphological data, without requiring long and costly measurements on each of the individuals.
  • the invention thus applies to communications services including audio conferencing and content broadcasting services or applications (music, movies, games, user interfaces, etc.).
  • the present invention allows the compression of filter sets (HRTF or DTF for example), which facilitates the storage, exchange or loading thereof.

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Signal Processing (AREA)
  • Multimedia (AREA)
  • Stereophonic System (AREA)

Abstract

L'invention concerne un procédé de traitement de données individualisées et représentatives de la directivité d'un système audio individualisé, le procédé comprenant les étapes suivantes: - obtenir (101), pour chaque individu d'un ensemble initial d'individus, au moins un jeu de filtres personnalisé; - déterminer (103) N composantes indépendantes communes aux jeux de filtres obtenus; - décomposer (104) chacun des jeux obtenus dans une première base constituée à partir des N composantes indépendantes en vue d'obtenir, pour chaque jeu de filtres, un premier jeu de coefficients de pondération; - décomposer (105) chaque premier jeu de coefficients de pondération dans une deuxième base de P composantes indépendantes, afin d'obtenir un deuxième jeu de coefficients de pondération; - stocker (106) chaque deuxième jeu de coefficients de pondération obtenu en association avec un identifiant d'individu parmi l'ensemble initial d'individus.

Description

Décompositions successives de filtres audio
La présente invention concerne le domaine de la restitution de données sonores.
Elle trouve des applications, en particulier, mais non exclusivement, dans le cadre de services de télécommunication proposant une restitution spatialisée du son, comme par exemple dans le cas d'une audioconférence entre plusieurs locuteurs, d'une diffusion de bande annonce de cinéma ou d'une diffusion de tout type de contenu audio multicanal. L'invention s'applique également dans le cas de terminaux de télécommunication, notamment mobiles, pour lesquels il est envisagé un rendu sonore avec un système d'écoute stéréophonique (un casque par exemple) permettant à l'auditeur de positionner les sources sonores dans l'espace.
A cet effet, l'invention exploite des systèmes linéaires invariants et stationnaires pouvant être caractérisés par un ensemble de filtres dépendant d'une direction entre la source sonore et l'un des conduits auditifs de l'auditeur.
Cet ensemble de filtres représente la directivité du système. Les filtres peuvent être représentés sous leur forme temporelle (sous forme de réponse impulsionnelle) ou fréquentielle (sous forme de fonction de transfert).
A titre d'exemple, un individu ou une tête artificielle avec un microphone à l'entrée de chaque conduit auditif sont des cas particuliers d'un tel système linéaire invariant et stationnaire. Dans ce cas le système peut être caractérisé par ses fonctions de transfert, spécifiques à chaque individu.
Les fonctions de transfert définissent les caractéristiques spatiales d'audition de l'individu en prenant en compte notamment les réflexions liées à sa morphologie.
Les fonctions de transfert sont classiquement appelées fonctions de transfert de type H RTF pour « Head Related Transfer Function », quand les filtres sont donnés dans le domaine fréquentiel, et HRIR pour « Head Related Impulse Response », quand les filtres sont donnés dans le domaine temporel. Il est possible de passer d'une représentation à une autre par une transformée de Fourier. Les fonctions de transfert HRTF sont donc un ensemble de valeurs complexes. Il est possible de revenir à des valeurs réelles en prenant leurs modules respectifs : on obtient ainsi les modules des HRTF.
La division de chaque module par la moyenne spatiale des modules pour une fréquence donnée permet d'obtenir ce qui est communément nommé dans la littérature « Directional Transfer Function ».
L'invention peut être généralisée à des directivités de systèmes présentant des formes et/ou des nombres de capteurs différents (par exemple un téléphone mobile avec 3 microphones). Sans nuire à la généralisation de l'invention à tout système linéaire pouvant être caractérisé par des ORTF, et afin de faciliter la compréhension de l'invention, il est considéré par la suite le cas particulier des fonctions de transfert DTF. En effet on peut passer des fonctions de transfert DTF aux fonctions de transfert HRTF en calculant des filtres à phase minimale associés aux fonctions de transfert DTF et en y ajoutant un retard modélisant les retards de propagations entre les capsules (retard inter-aural par un humain). La personnalisation de ces retards est obtenue par d'autres techniques bien connues et non décrites ici.
Une technique utilisant des fonctions de transfert de type HRTF est la synthèse binaurale. Cette technique repose sur l'utilisation de filtres dits « binauraux », qui reproduisent les fonctions de transfert acoustiques entre la ou les sources sonores et les conduits auditifs de l'auditeur. Ces filtres servent à simuler des indices de localisation auditive qui permettent à un auditeur de localiser les sources sonores en situation d'écoute réelle.
Les techniques liées à la synthèse binaurale sont donc basées sur une paire de signaux binauraux qui alimente un système de restitution. Les deux signaux binauraux peuvent être obtenus par traitement du signal, en filtrant un signal monophonique par les filtres binauraux qui reproduisent les propriétés de la propagation acoustique entre la source placée à une position donnée et chacun des conduits auditifs de l'auditeur.
La synthèse binaurale peut être utilisée pour différentes restitutions comme par exemple une restitution au moyen d'un casque avec deux oreillettes, ou au moyen de deux haut-parleurs. L'objectif est la reconstruction d'un champ sonore au niveau des oreilles de l'auditeur pratiquement identique à celui qu'auraient induit les sources réelles dans l'espace.
Les filtres binauraux prennent en compte l'ensemble des phénomènes acoustiques qui modifient les ondes acoustiques dans leur trajet entre la source et les conduits auditifs de l'auditeur. Les phénomènes acoustiques comprennent notamment la diffraction par la tête de l'auditeur et les réflexions sur le pavillon auditif et le haut du torse de l'utilisateur.
Ces phénomènes acoustiques varient selon la position de la source sonore par rapport à l'auditeur et les variations permettent à l'auditeur de localiser la source dans l'espace. En effet, ces variations déterminent une forme de codage acoustique de la position de la source. Le système auditif d'un individu sait, par apprentissage, interpréter ce codage pour localiser la ou les sources sonores.
Néanmoins, les phénomènes acoustiques de diffraction/réflexion dépendent fortement de la morphologie de l'auditeur. Une synthèse binaurale de qualité repose donc sur des filtres binauraux qui reproduisent au mieux le codage acoustique que produit naturellement le corps de l'auditeur, en prenant en compte les spécificités individuelles de sa morphologie.
Lorsque ces conditions ne sont pas respectées, une dégradation des performances du rendu binaural est induite, ce qui se traduit notamment par une perception intracrânienne des sources et des confusions entre les localisations avant et arrière.
Ainsi, les filtres binauraux représentent les fonctions de transfert acoustiques ou fonctions de transfert de type HRTF qui modélisent les transformations engendrées par le torse, la tête et le pavillon de l'auditeur sur le signal acoustique provenant d'une source sonore. A chaque position de source sonore est associée une paire de fonctions HRTF, une pour chaque oreille. De plus, ces fonctions de transfert HRTF portent l'empreinte acoustique de la morphologie de l'individu sur lequel elles ont été mesurées.
De manière bien connue, les fonctions de transfert HRTF sont obtenues au cours d'une phase de mesure. Une sélection de directions qui couvrent plus ou moins finement l'ensemble de l'espace entourant l'auditeur est fixée. Pour chaque direction, les fonctions de transfert HRTF gauche et droite sont mesurées au moyen de microphones insérés à l'entrée des conduits auditifs de l'auditeur. En générale, une sphère centrée sur l'auditeur est ainsi définie.
Pour une mesure de bonne qualité, la mesure doit être réalisée dans une chambre anéchoïque, ou chambre sourde, de sorte que seules les réflexions et phénomènes acoustiques liés à l'auditeur soient pris en compte. Au final, si M directions sont mesurées, on obtient, pour un auditeur donné, une base de donnée de 2M fonctions de transfert de type H RTF (car deux canaux auditifs droit et gauche) représentant, pour chaque conduit auditif, chacune des positions des sources. Ces techniques nécessitent donc de réaliser les mesures sur l'auditeur directement. La durée d'une telle opération de mesure est très longue car il est nécessaire de mesurer un grand nombre de directions.
Certains individus passent ainsi de longues heures en laboratoire afin d'y faire analyser la signature acoustique associée à leur physionomie dans le détail, ainsi que leurs capacités de perception de l'espace sonore en trois dimensions. Ces individus bénéficient ensuite d'une écoute binaurale façonnée à partir des résultats d'analyse, offrant un confort et une impression sonore de grande qualité.
Afin de faire profiter de cette qualité et de ce confort à un ensemble plus large d'auditeurs, notamment dans le cadre de services destinés au grand public, il est nécessaire de disposer de filtres personnalisés à chacun des auditeurs.
Il est toutefois difficilement concevable de mesurer l'ensemble des clients d'un service dans des chambres sourdes (qui sont rares et coûteuses). De plus, la durée et la pénibilité des mesures sont difficilement supportables pour le grand public.
Il est ainsi souhaitable de disposer de solutions permettant d'obtenir les signatures acoustiques d'individus de manière rapide, fiable et peu intrusive afin de pouvoir généraliser les résultats obtenus en chambre anéchoïque sur un petit nombre de sujets, à une population très importante.
Une solution pratique commençant à émerger consiste à proposer à l'utilisateur de mesurer ses propres fonctions de transfert HRTF dans son lieu habituel d'écoute afin d'émuler sur un casque sonore son expérience d'écoute en studio ou dans son salon. Les inconvénients liés à ce type de solutions sont liés au fait de ne mesurer qu'un faible nombre de positions fixes et de rendre difficile la séparation entre l'information liée au dispositif de diffusion proprement dit et le lieu d'écoute. Différentes études ont été consacrées à l'élaboration de méthodes permettant de réduire certaines contraintes pratiques comme la mesure dynamique (« Dynamic measurement of room impulse responses using a moving microphone », Ajdler, Sbaiz, Vetterli, 2007) ou la mesure réciproque, dans laquelle les rôles du microphone et du haut-parleur sont inversés (« Fast head-related transfer function measurement via reciprocity » , Zotkin, Duraiswami, Grassi, Gumerov, 2006). Les applications de cette solution sont limitées aux studios de mixage professionnel ou aux installations « home-cinema ».
Différentes pistes proposant des solutions alternatives sont explorées. Une première piste consiste à calculer les filtres à partir de l'acquisition de la morphologie de l'auditeur et notamment de son pavillon. La personnalisation peut également être basée sur la transformation de fonctions de transfert HRTF non individuelles extraites d'une base de données incluant les morphologies associées aux fonctions de transfert HRTF (« Individualisation des indices spectraux pour la synthèse binaurale : recherche et exploitation des similarités interindividuelles pour l'adaptation ou la reconstruction de HRTF », Guillon, P, PhD Thesis, Université du Maine, Le Mans, France, 2009).
La transformation des fonctions de transfert HRTF pour les adapter à un individu donné est alors pilotée par la comparaison des morphologies du pavillon origine issu de la base de données et du pavillon cible de l'individu donné. Cette comparaison repose sur une technique d'appariement des maillages tridimensionnels des pavillons. Une autre méthode consiste à utiliser des paramètres morphologiques pour créer ou déformer un maillage tridimensionnel, qui sera ensuite utilisé pour un calcul détaillé et une simulation numérique des fonctions de transfert HRTF de l'individu, par éléments finis de frontière par exemple. Il est également possible, à partir des paramètres morphologiques d'un individu donné, de rechercher dans une base de données un individu tiers possédant des paramètres morphologiques proches. Certains travaux proposent d'exploiter en entrée un maillage tridimensionnel de la morphologie du sujet et plus particulièrement de son pavillon, et d'autres des mesures de paramètres morphologiques des utilisateurs. Une méthode pour acquérir la morphologie du pavillon consiste à utiliser un scan tridimensionnel, mais cette méthode est parfois problématique dans la mesure où elle nécessite à la fois un matériel et une mise en œuvre spécifiques.
Des solutions alternatives sont mises au point soit en dérivant des scans tridimensionnels à partir d'un jeu de photographies (« Reconstructing head models from photographs for individualized 3D-audio processing », Dellepiane, Pietroni, Tsingos, Asselot, Scopigno, 2008), soit en utilisant des méthodes issues du traitement d'images permettant d'obtenir des maillages tridimensionnels à partir d'une caméra et de techniques de reconstruction (« shape from shading », « shape from structured light ») ou encore à partir des capteurs de type Kinect™ associés à des techniques d'analyse de profondeur.
D'autres travaux tentent de mettre en place des méthodes d'apprentissage qui regroupent deux approches opposées.
La première approche consiste à étudier la capacité des auditeurs à s'approprier des fonctions de transfert HRTF génériques et qui ne leur sont pas adaptées au départ. La deuxième approche, au contraire, suggère un apprentissage par un ordinateur des réactions d'un utilisateur participant à un jeu interactif ou répondant à un questionnaire interactif. L'ordinateur reconstitue de manière itérative le jeu de fonctions de transfert HRTF qui convient à l'utilisateur à partir de l'observation de ses performances de localisation et/ou de ses réponses.
Toutefois, le stockage des jeux de fonctions de transfert, leur transmission et leur chargement sont compliqués du fait de la taille des données représentant chaque jeu de fonctions de transfert.
De plus, les solutions nécessaires à la personnalisation d'un jeu de fonction de transfert, pour l'adapter à un auditeur donné, autres que les mesures en chambre sourde n'existent pas encore. Or comme expliqué ci- avant, les mesures en chambres sourdes sont complexes et coûteuses en ressources matérielles et logicielles ainsi qu'en temps, et ne sont ainsi pas transposables sur une grande population.
La présente invention vient améliorer la situation.
A cet effet, un premier aspect de l'invention concerne un procédé de traitement de données individualisées et représentatives de la directivité d'un système audio individualisé, le procédé comprenant les étapes suivantes:
- obtenir, pour chaque individu d'un ensemble initial d'individus, au moins un jeu de filtres personnalisé ;
- déterminer N composantes indépendantes communes aux jeux de filtres obtenus ;
- décomposer chacun des jeux obtenus (ou leurs modules) dans une première base constituée à partir des N composantes indépendantes en vue d'obtenir, pour chaque jeu de filtres (ou leurs modules), un premier jeu de coefficients de pondération ;
- décomposer chaque premier jeu de coefficients de pondération dans une deuxième base de P composantes indépendantes, afin d'obtenir un deuxième jeu de coefficients de pondération ;
- stocker chaque deuxième jeu de coefficients de pondération obtenu en association avec un identifiant d'individu parmi l'ensemble initial d'individus.
La décomposition successive dans une première base de N composantes indépendantes commune à tous les individus du premier ensemble, puis dans une deuxième base de P composantes indépendantes permet avantageusement de compresser les données stockées. A cet effet, les nombres N et P de composantes indépendantes peuvent être choisis en fonction de critères liés à la taille des données stockées et à la précision souhaitée pour les jeux de filtre.
Selon un mode de réalisation de l'invention, la deuxième base de P composantes indépendantes peut être une base d'harmoniques sphériques d'ordre P et le deuxième jeu de coefficients de pondération peut être un jeu de coefficients sphériques. La décomposition dans une base d'harmoniques sphériques permet avantageusement de disposer de jeux de coefficients sphériques aisément transformables par application transformations comportant une rotation.
Selon un mode de réalisation de l'invention, chaque individu de l'ensemble initial d'individus peut en outre être associé à un ensemble de données morphologiques, et le procédé peut comprendre en outre les étapes suivantes :
- obtention de données morphologiques courantes d'un nouvel individu ;
- sélection d'un individu parmi l'ensemble initial par comparaison entre les données morphologiques courantes et les ensembles de données morphologiques des individus de l'ensemble initial ;
- application d'une transformation au deuxième jeu de coefficients de pondération associé à l'individu sélectionné en vue d'obtenir un deuxième jeu de coefficients de pondération transformé, la transformation étant déterminée à partir des données morphologiques courantes ;
- stockage du deuxième jeu de coefficients de pondération transformé en association avec un identifiant du nouvel individu.
Le stockage des jeux de filtres sous la forme de données morphologiques permet avantageusement d'appliquer de manière aisée des transformations afin d'adapter le deuxième jeu de coefficients de pondération d'un individu de l'ensemble initial. L'ensemble initial peut ainsi être utilisé comme point de départ pour une détermination rapide et non contraignante de jeux de filtres pour des utilisateurs autres que les utilisateurs de l'ensemble initial.
En complément, la transformation peut comprendre au moins l'application d'une matrice de rotation au jeu de coefficients sphériques associé à l'individu sélectionné.
L'application d'une matrice de rotation à un jeu de coefficients dans une base de coordonnées sphériques permet d'appliquer aisément une rotation aux directivités des jeux de filtres représentés, et permettent ainsi d'adapter facilement les jeux de filtres des individus de l'ensemble initial.
En complément, le procédé peut comprendre en outre les étapes suivantes : - application d'une homothétie aux N composantes indépendantes, l'homothétie étant déterminée à partir des données morphologiques courantes, afin d'obtenir N composantes indépendantes transformées ;
- multiplication du jeu de coefficients sphériques transformé par une matrice formée par les N composantes indépendantes transformées, en vue d'obtenir un jeu de filtres modifié en association avec l'identifiant du nouvel individu.
En variante, le procédé peut comprendre en outre les étapes suivantes :
- multiplication du jeu de coefficients sphériques transformé par une matrice formée par les N composantes indépendantes, en vue d'obtenir un nouveau jeu de filtres ;
- application d'une homothétie par ré-échantillonnage temporel du nouveau jeu de filtres en vue d'obtenir un jeu de filtres modifié en association avec l'identifiant du nouvel individu.
En complément, lorsque le nouveau jeu de filtres est dans le domaine fréquentiel, le procédé comprend l'application d'une transformée de Fourier inverse au nouveau jeu de filtres préalablement au ré-échantillonnage temporel.
Selon un mode de réalisation, les données morphologiques sont relatives au moins au pavillon auditif de l'utilisateur.
Ainsi, les données morphologiques ayant le plus d'influence sur le jeu de filtre associé à un individu, sont prises en compte lors de la détermination d'un nouveau jeu pour un nouvel individu.
Selon des modes de réalisation de l'invention, les filtres peuvent être des fonctions de transfert dans le domaine fréquentiel (ou les modules de ces fonctions de transferts), chaque composante indépendante peut être une fonction ayant un spectre non nul dans une bande de fréquence donnée, et les bandes de fréquences données peuvent être distinctes.
En complément, les composantes indépendantes peuvent être exprimées en échelle logarithmique de fréquences.
L'utilisation d'une échelle logarithmique permet de traduire de manière plus précise le fonctionnement perceptif de l'oreille humaine (plus sensible dans les hautes fréquences que les basses fréquences). Selon un mode de réalisation, pour chaque jeu de filtres obtenu, les modules du jeu de filtres peuvent être déconvolués par une moyenne spatiale des modules du jeu de filtres et les N composantes indépendantes peuvent être déterminées à partir des modules déconvolués.
Ce mode de réalisation permet de réduire la variance des filtres en éliminant la partie commune à tous les filtres et permet de travailler sur des valeurs réelles plutôt que complexes (DTF).
Un deuxième aspect de l'invention concerne un produit programme d'ordinateur comprenant des instructions de code de programme enregistrées sur un support lisible par un ordinateur, pour l'exécution des étapes du procédé selon le premier aspect de l'invention.
Un troisième aspect concerne un dispositif de traitement de données individualisées et représentatives de la directivité d'un système audio, le dispositif comprenant un processeur configuré pour:
- obtenir, via une interface d'entrée du dispositif, pour chaque individu d'un ensemble initial d'individus, au moins un jeu de filtres personnalisé ;
- déterminer N composantes indépendantes communes aux jeux de filtres obtenus ;
- décomposer chacun des jeux (ou leurs modules) obtenus dans une première base constituée à partir des N composantes indépendantes en vue d'obtenir, pour chaque jeu de filtres, un premier jeu de coefficients de pondération ;
- décomposer chaque premier jeu de coefficients de pondération (ou leurs modules) dans une deuxième base de P composantes indépendantes, afin d'obtenir un deuxième jeu de coefficients de pondération ;
- stocker, dans une mémoire du dispositif, chaque deuxième jeu de coefficients de pondération obtenu en association avec un identifiant d'individu parmi l'ensemble initial d'individus. D'autres caractéristiques et avantages de l'invention apparaîtront à l'examen de la description détaillée ci-après, et des dessins annexés sur lesquels:
- la figure 1 est un diagramme représentant les étapes d'un procédé de traitement de données selon un mode de réalisation de l'invention;
- la figure 2 représente une décomposition d'un jeu de filtres dans une base de composantes indépendantes selon un mode de réalisation de l'invention;
- la figure 3 représente des composantes indépendantes obtenues à partir d'un ensemble initial de jeux de filtres selon un mode de réalisation de l'invention ;
- la figure 4 illustre des figures de directivité pour une même composante indépendante pour huit individus distincts, selon un mode de réalisation de l'invention ;
- la figure 5 illustre un dispositif selon un mode de réalisation de l'invention.
La figure 1 est un diagramme illustrant les étapes générales d'un procédé de traitement de données selon un mode de réalisation de l'invention.
A une étape 101 , pour chaque individu d'un ensemble initial d'individus, un jeu de filtres personnalisé est obtenu. L'ensemble initial d'individus est un ensemble restreint d'individus pour lesquels les solutions de l'état de la technique ont pu être appliqués afin d'obtenir un jeu de filtres personnalisé pour chacun des individus.
Par exemple, chaque individu a fait l'objet de tests en chambre anéchoïque afin d'obtenir au moins un jeu de filtres personnalisé. Généralement, deux jeux de filtres personnalisés sont obtenus pour chaque individu, un pour chaque conduit auditif.
Aucune restriction n'est cependant attachée à la manière dont ont été acquis les jeux de filtres à l'étape 101 . Les jeux de filtres de l'ensemble initial d'individus sont stockés à une étape 102, par exemple dans une mémoire d'un dispositif mettant en œuvre le procédé selon l'invention.
Les jeux de filtres peuvent être exprimés sous la forme de coefficients d'une matrice. Comme détaillé précédemment, l'exemple de fonctions de transfert HRTF dans le domaine fréquentiel est considéré de manière non restrictive en tant que jeux de filtres. A une étape 1 03, N composantes indépendantes communes aux jeux de filtres obtenus sont déterminées. Par exemple, la décomposition en composantes indépendantes divulguée dans le document « Independent comportent analysis », Stone J.V, 2004, John Wiley & Sons, peut être appliquée aux modules des filtres d'un jeu (fonctions de transfert HRTF), les modules étant optionnellement déconvolués (division fréquentielle) par la moyenne spatiale du jeu de filtres. Une telle opération est équivalente à retirer des fonctions de transfert HRTF les composantes fréquentielles communes à tous les filtres. De tels modules déconvolués sont appelés DTF par la suite. Les modules peuvent être lissés de manière optionnelle afin de ne conserver que les variations fréquentielles pertinentes d'un point de vue perceptif.
Ainsi, n'importe quel module de fonction de transfert HRTF (ou DTF) de l'ensemble initial d'individus peut être reconstruit par une combinaison linéaire de composantes indépendantes pondérées par des coefficients de pondération, tel qu'illustré sur la figure 2.
Une première matrice 200 de coefficients wy, i variant entre 1 et M ( 2*M étant le nombre total de directions mesurées, M filtres correspondant à une des deux oreilles de l'auditeur) et j variant entre 1 et N représente les coefficients de pondération obtenus après décomposition des filtres correspondant à l'une des oreilles d'un jeu sur une base formée des N composantes indépendantes.
Une deuxième matrice 201 de coefficients cn,f, avec n variant entre 1 et N et f variant entre 1 et F représente les coefficients des N composantes indépendantes, chaque ligne correspondant à l'une des N composantes indépendantes.
Une troisième matrice 202 représente un jeu de filtres (les modules déconvolués des fonctions de transfert HRTF dans l'exemple précédent) pour un individu, pour une oreille, obtenu à l'étape 1 01 , et comprend des coefficients dm,f, m variant entre 1 et M et f variant entre 1 et F. Chaque ligne m de la troisième matrice 202 représente un filtre pour une direction de l'espace donnée, et chaque colonne correspond à une fréquence (ou une bande de fréquences plus précisément), traduisant ainsi le spectre des fonctions de transfert HRTF. Les modules des fonctions de transfert HRTF peuvent être en échelle logarithmique ou linéaire, en abscisse ou en ordonnée, ce qui résulte en quatre configurations distinctes (linéaire, linéaire), (logarithmique, linéaire), (linéaire, logarithmique) et (logarithmique, logarithmique). Une échelle logarithmique en abscisse revient à ré-échantillonner le spectre d'une fonction de transfert (une ligne de la matrice 202) avec un pas fréquentiel logarithmique et non linéaire, ce qui traduit de manière plus précise le fonctionnement perceptif de l'oreille humaine (plus sensible dans les hautes fréquences que les basses fréquences). Une échelle logarithmique en ordonnée revient à considérer 20*log-i0(abs(HRTF)), abs(HRTF) représentant les modules des fonctions de transfert H RTF.
Comme indiqué ci-dessus, chaque ligne de la deuxième matrice 201 représente une composante indépendante, chaque coefficient de la ligne correspondant à l'énergie de la composante indépendante dans une bande de fréquences donnée.
La figure 3 présente un ensemble de spectres pour N=20 composantes indépendantes, selon un mode de réalisation de l'invention. Ces N composantes indépendantes peuvent être déterminées à l'étape 103 précédemment décrite, à partir de l'ensemble des troisièmes matrices 202 des individus de l'ensemble initial. Comme illustré sur la figure 3, chaque composante indépendante peut correspondre à une bande du spectre dans laquelle l'énergie est non nulle, les composantes indépendantes présentant des supports du spectre disjoints.
La première matrice 200 dépend de l'azimut et de l'élévation (en ordonnée) et des poids affectés à chaque composante indépendante (en abscisse). L'ensemble des coefficients wmin pour une colonne n donnée, représente, pour un individu, la directivité pour une composante indépendante pour la composante n. Chaque indice m correspondant à une mesure pour une direction (azimut (m), élévation(m)). La première matrice 200 est déterminée à une étape 104, par décomposition de chacun des jeux de filtres obtenus à l'étape 101 , dans la base constituée à partir des N composantes indépendantes. Les coefficients d'une colonne de la première matrice 200 représentent les valeurs des pondérations pour une composante indépendante pour les différentes directions de mesures. Elles représentent ainsi une figure de directivité spatiale.
La figure 4 illustre de telles figures de directivité spatiale pour huit individus de l'ensemble initial d'individus, selon un mode de réalisation de l'invention. On constate sur la figure 4 que les directivités spatiales se ressemblent d'un individu à un autre et que des rotations peuvent être appliquées pour rapprocher ces directivités spatiales.
La figure 4 présente en particulier les coefficients de pondération de la première matrice 200, pour chaque individu, appliqués à la troisième composante indépendante (troisième ligne de la deuxième matrice 201 ) pour huit individus différents. Ce sont donc les troisièmes colonnes respectives des premières matrices 200 pour les huit individus. Les colonnes sont redécoupées par même élévation et représentées de manière tridimensionnelle. L'abscisse correspond à l'azimut exprimée en degrés, et l'ordonnée correspond à l'élévation en degrés. La troisième dimension est représentée par des variations de couleurs (en teintes de gris sur la figure 4). Les teintes de gris représentent les valeurs de coefficients de pondérations. La figure 4 peut ainsi être interprétée comme un ensemble de figures de directivités pour les troisièmes composantes indépendantes de huit individus de l'ensemble initial.
Afin de rechercher de telles rotations et de diminuer encore la quantité d'informations décrivant un individu, l'invention prévoit de décomposer à une étape 105, chaque jeu de coefficients de pondération (chaque première matrice 200 d'un individu de l'ensemble initial) dans une base de P fonctions indépendantes au sens mathématique, par exemple dans une base d'harmoniques sphériques d'ordre P-1 , afin d'obtenir un jeu de coefficients sphériques. Le choix de la base d'harmoniques sphériques permet l'application aisée de rotations aux jeux de coefficients sphériques afin de recalculer un nouveau jeu de coefficients sphériques suite à une rotation du référentiel de mesure, ce qui n'est pas le cas d'une base de composantes indépendantes en deux dimensions.
La détermination d'un jeu de coefficients sphériques revient à réaliser une transformée de Fourier Spatiale des directivités (d'une première matrice 200 donc). La décomposition des directivités cwlc p pour la composante indépendante ic à l'ordre P en harmoniques sphériques s'exprime de la manière suivante :
Figure imgf000017_0001
dans lequel HS i est un vecteur de la taille du nombre de mesures et dont la valeur vaut la valeur de l'harmonique sphérique i pour la direction de mesure correspondant à l'indice m (azimut(m), elevation(m))
A partir de chaque jeu de filtres d'un individu de l'ensemble initial, on obtient ainsi un jeu de coefficients sphériques. A une étape 106, chaque jeu de coefficients sphériques obtenu en association avec un identifiant d'individu auquel il correspond.
La décomposition en harmoniques sphériques permet ainsi de caractériser entièrement un jeu de filtres correspondant à la directivité du conduit auditif de l'un des individus au moyen de des coefficients sphériques qui sont de dimension P*N, où P-1 est l'ordre de la décomposition en harmoniques sphériques et N le nombre de composantes indépendantes.
La base d'harmoniques sphériques et les N composantes indépendantes sont communes à tous les individus, et donc à tous les jeux de filtres HRTF ou de DTF.
L'application successive d'une décomposition sur une base de N composantes indépendantes puis sur une base d'harmoniques sphériques permet un premier avantage qui est de réduire la quantité d'informations à analyser et permet de compresser les jeux de filtres HRTF.
A titre d'exemple, les solutions actuelles prévoient l'acquisition de jeux de filtres HRTF comprenant 1680 directions, pour deux oreilles d'un individu, pour une taille de filtre de 512 points à 48 kHz de fréquence d'échantillonnage, soit 1680*2*512=1720320 valeurs flottantes.
Une décomposition sur N=64 composantes indépendantes, puis sur une base d'harmoniques sphériques d'ordre 20 permet une reconstruction quasi parfaite en stockant uniquement 2*64*(20+1 )=2688, soit un facteur de compression de 640. Il convient également de stocker les 64 composantes indépendantes (64*512=32768). Quant aux valeurs de la base d'harmoniques sphériques, elles peuvent être calculées ou stockées dans des tables. Ces dernières et les N composantes indépendantes sont communes à tous les jeux de filtres des individus.
Les valeurs N et P peuvent ainsi être choisies en fonction d'un compromis entre le niveau de compression et des contraintes de stockage, et ce afin d'assurer que la complexité des fonctions de transfert HRTF est réduite après décompositions successives.
Un deuxième avantage découlant de l'application successive d'une décomposition sur une base de N composantes indépendantes puis sur une base d'harmoniques sphériques est lié à la personnalisation des fonctions de transfert HRTF ou DTF. En effet, les étapes 101 à 106 détaillées précédemment ont été appliquées à un ensemble initial d'individus, l'ensemble comprenant un nombre restreint d'individus (une cinquantaine par exemple) du fait de la complexité liée à l'acquisition des fonctions de transfert HRTF à l'étape 101 . Or, les jeux de coefficients sphériques déterminés pour ce nombre restreint d'individus peuvent également être utilisés pour déterminer rapidement un jeu de filtres pour un nouvel individu, n'appartenant pas à l'ensemble initial. L'avantage de la décomposition sur une base d'harmoniques sphériques est que, pour réaliser une rotation de l'ensemble d'un jeu de filtres HRTF ou DTF (rotation du référentiel de mesure), il suffit d'appliquer une matrice de rotation à au jeu de coefficients sphériques cw correspondant (voir à cet effet la thèse « Représentation de champs acoustiques, application à la transmission et à la reproduction de scènes sonores complexes dans un contexte multimédia », Daniel J, Université de Paris 6, 2000).
A cet effet, à une étape 107, le procédé selon l'invention peut comprendre l'obtention de données morphologiques courantes d'un nouvel individu. En effet, il est possible de passer d'une morphologie d'un individu à une morphologie d'un nouvel individu en appliquant une transformation pouvant comprendre une simple rotation définie par trois axes de rotation (θ,φ,ρ). En outre une homothétie λ peut être appliquée. Les paramètres de transformation peuvent être obtenus par comparaison entre deux maillages tridimensionnels de deux individus, et plus généralement par comparaison entre des données morphologiques des individus de l'ensemble initial et les données morphologiques courantes du nouvel individu.
Les paramètres θ,φ,ρ et λ peuvent en outre dépendre d'un facteur f représentant une bande de fréquences ou un ensemble de bandes de fréquences.
A cet effet, des données morphologiques des individus du premier ensemble peuvent également être obtenus à l'étape 101 précédemment décrite puis stockés à l'étape 102. Ces données morphologiques peuvent décrire la géométrie du système linéaire dont la directivité est caractérisée par le jeu de filtres associé.
Aucune restriction n'est attachée aux moyens utilisés pour obtenir les données morphologiques des individus de l'ensemble initial ainsi que les données morphologiques courantes. Par exemple, elles peuvent être obtenues par des mesures directes sur l'individu, à partir de photographies ou encore à l'aide du scanner tridimensionnel de type Kinect™ par exemple. Les données morphologiques liées au pavillon de l'individu peuvent particulièrement être pris en compte dans la détermination des paramètres de transformation. En effet, le pavillon est le facteur le plus influençant dans l'information des jeux de filtres HRTF.
Ainsi, à une étape 108, les données morphologiques courantes sont comparées avec l'ensemble des données morphologiques des individus de l'ensemble initial, en vue de sélectionner, à une étape 109, un individu parmi l'ensemble initial. Par exemple, l'individu de l'ensemble initial ayant les paramètres les plus proches des paramètres courants est sélectionné. A titre d'exemple en considérant les données morphologiques à stocker et comparer comme étant des maillages 3D des pavillons, on peut rechercher dans la base le maillage 3D qui, après une rotation et une homothétie, sera le plus proche du maillage 3D courant. Aucune restriction n'est attachée au critère utilisé pour caractériser la proximité des paramètres morphologiques.
A une étape 1 10, une transformation à appliquer au jeu de coefficients sphériques associé à l'individu sélectionné est déterminée à partir des données morphologiques courantes. La transformation est déterminée en déterminant des premiers paramètres qui permettent de passer des données morphologiques courantes aux données morphologiques de l'individu sélectionné de l'ensemble initial. Dans l'exemple ci-dessus, les valeurs de la rotation trouvée à l'étape précédente sont utilisées. A partir de ces premiers paramètres, sont déduits les paramètres de transformation permettant de transformer le jeu de filtres de l'individu sélectionné en un nouveau jeu de filtres.
De manière générale, une telle méthode revient à déterminer un modèle de transformation et ses paramètres sur les jeux de filtres caractérisant les directivités des systèmes d'un point de vue signal, un autre modèle de transformation et ses paramètres décrivant, les géométries, formes ou morphologies des systèmes, et également de déterminer une fonction pour faire correspondre ces deux modèles.
La transformation est ensuite appliquée au jeu de coefficients sphériques associé à l'individu sélectionné afin d'obtenir un jeu de coefficients sphériques transformé à une étape 1 1 1 .
Le jeu de coefficients sphériques transformé est stocké en association avec un identifiant du nouvel individu à une étape 1 12.
En outre, l'homothétie λ peut être appliquée de différentes manières :
- dilatation fréquentielle des N composantes indépendantes de la deuxième matrice 201 d'un facteur λ, puis application de la multiplication matricielle de la figure 2 pour obtenir un nouveau jeu de filtres HRTF ou DTF. Dans ce calcul, la première matrice 200 est obtenue à partir du jeu de coefficients sphériques transformé ;
- application de la multiplication matricielle de la figure 2, la première matrice 200 étant obtenue à partir du jeu de coefficients sphériques transformé, puis application d'une transformée de Fourier inverse pour revenir dans le domaine temporel, et application de l'homothétie λ par un ré-échantillonnage temporel. La transformée de Fourier inverse est ainsi appliquée dans l'exemple particulier des jeux de filtres HRTF ou DTF. Toutefois, elle n'est pas nécessaire dans le cas où l'invention est appliquée à des jeux de filtres dans le domaine temporel. La figure 5 représente dispositif 500 selon un mode de réalisation de l'invention.
Le dispositif 500 comprend une mémoire vive 503 et un processeur 502 pour stocker des instructions permettant la mise en œuvre des étapes 101 à 1 12 du procédé décrit ci-avant en référence à la figure 1 . Le dispositif comporte aussi une base de données 504 pour le stockage de données destinées à être conservées après l'application du procédé, notamment les jeux de coefficients sphériques, les composantes indépendantes, et optionnellement la base d'harmoniques sphériques. Le dispositif 500 comporte en outre une interface d'entrée 501 destinée à recevoir les jeux de filtres de l'ensemble initial d'individus, et optionnellement les paramètres morphologiques des individus de l'ensemble initial et les paramètres morphologiques courants. Le dispositif 500 comprend en outre une interface de sortie 505 pour la transmission des données résultant de l'application du procédé selon l'invention. Par exemple, l'interface de sortie peut transmettre le jeu de filtres modifié ou le jeu de coefficients sphériques transformé obtenu pour le nouvel utilisateur.
La présente invention ne se limite pas aux formes de réalisation décrites ci-avant à titre d'exemples ; elle s'étend à d'autres variantes.
Ainsi, la présente invention permet d'améliorer la qualité de rendu immersive audio dans les systèmes binauraux, puisqu'elle permet d'obtenir aisément un jeu de filtres personnalisé pour un individu à partir de données morphologiques, sans requérir de mesures longues et coûteuses sur chacun des individus. L'invention s'applique ainsi aux services de communications dont l'audioconférence et les services ou applications de diffusion de contenus (musique, films, jeux, interfaces utilisateur, etc). En outre, la présente invention permet la compression des jeux de filtres (HRTF ou DTF par exemple), ce qui facilite le stockage, l'échange ou le chargement de ceux-ci.

Claims

REVENDICATIONS
1 . Procédé de traitement de données individualisées et représentatives de la directivité d'un système audio individualisé, ledit procédé comprenant les étapes suivantes:
- obtenir (101 ), pour chaque individu d'un ensemble initial d'individus, au moins un jeu de filtres personnalisé ;
- déterminer (103) N composantes indépendantes communes aux jeux de filtres obtenus ;
- décomposer (104) chacun des jeux obtenus dans une première base constituée à partir des N composantes indépendantes en vue d'obtenir, pour chaque jeu de filtres, un premier jeu de coefficients de pondération ;
- décomposer (105) chaque premier jeu de coefficients de pondération dans une deuxième base de P composantes indépendantes, afin d'obtenir un deuxième jeu de coefficients de pondération ;
- stocker (106) chaque deuxième jeu de coefficients de pondération obtenu en association avec un identifiant d'individu parmi l'ensemble initial d'individus.
2. Procédé selon la revendication 1 , dans lequel la deuxième base de P composantes indépendantes est une base d'harmoniques sphériques d'ordre P-1 et le deuxième jeu de coefficients de pondération est un jeu de coefficients sphériques.
3. Procédé selon la revendication 1 ou 2, dans lequel chaque individu de l'ensemble initial d'individus est en outre associé à un ensemble de données morphologiques comprenant en outre les étapes suivantes :
- obtention (107) de données morphologiques courantes d'un nouvel individu ;
- sélection (109) d'un individu parmi l'ensemble initial par comparaison entre les données morphologiques courantes et les ensembles de données morphologiques des individus de l'ensemble initial ;
- application (1 1 1 ) d'une transformation au deuxième jeu de coefficients de pondération associé à l'individu sélectionné en vue d'obtenir un deuxième jeu de coefficients de pondération transformé, la transformation étant déterminée à partir des données morphologiques courantes ;
- stockage (1 12) du deuxième jeu de coefficients de pondération transformé en association avec un identifiant du nouvel individu.
4. Procédé selon la revendication 3, dans lequel la transformation comprend au moins l'application d'une matrice de rotation au jeu de coefficients sphériques associé à l'individu sélectionné.
5. Procédé selon la revendication 4, dans lequel le procédé comprend en outre les étapes suivantes :
- application d'une homothétie aux N composantes indépendantes, ladite homothétie étant déterminée à partir des données morphologiques courantes, afin d'obtenir N composantes indépendantes transformées ;
- multiplication du jeu de coefficients sphériques transformé par une matrice formée par les N composantes indépendantes transformées, en vue d'obtenir un jeu de filtres modifié en association avec l'identifiant du nouvel individu.
6. Procédé selon la revendication 4, dans lequel le procédé comprend en outre les étapes suivantes :
- multiplication du jeu de coefficients sphériques transformé par une matrice formée par les N composantes indépendantes, en vue d'obtenir un nouveau jeu de filtres ;
- application d'une homothétie par ré-échantillonnage temporel du nouveau jeu de filtres en vue d'obtenir un jeu de filtres modifié en association avec l'identifiant du nouvel individu.
7. Procédé selon la revendication 6, dans lequel lorsque le nouveau jeu de filtres est dans le domaine fréquentiel, le procédé comprend l'application d'une transformée de Fourier inverse au nouveau jeu de filtres préalablement au rééchantillonnage temporel.
8. Procédé selon l'une des revendications 3 à 7, dans lequel les données morphologiques sont relatives au moins au pavillon auditif de l'utilisateur.
9. Procédé selon l'une des revendications précédentes, dans lequel les filtres sont des fonctions de transfert dans le domaine fréquentiel, dans lequel chaque composante indépendante est une fonction ayant un spectre non nul dans une bande de fréquence donnée, et dans lequel les bandes de fréquences données sont distinctes.
10. Procédé selon la revendication 9, dans lequel les composantes indépendantes sont exprimées en échelle logarithmique de fréquences.
1 1 . Procédé selon l'une des revendications précédentes, dans lequel, pour chaque jeu de filtres obtenu, des modules du jeu de filtres sont déconvolués par une moyenne spatiale des modules du jeu de filtres et dans lequel les N composantes indépendantes sont déterminées à partir des modules déconvolués.
12. Produit programme d'ordinateur comprenant des instructions de code de programme enregistrées sur un support lisible par un ordinateur, pour l'exécution des étapes du procédé selon l'une quelconques des revendications 1 à 1 1 .
13. Dispositif de traitement de données individualisées et représentatives de la directivité d'un système audio, ledit dispositif (500) comprenant un processeur configuré pour:
- obtenir, via une interface d'entrée (501 ) du dispositif, pour chaque individu d'un ensemble initial d'individus, au moins un jeu de filtres personnalisé ;
- déterminer N composantes indépendantes communes aux jeux de filtres obtenus ;
- décomposer chacun des jeux obtenus dans une première base constituée à partir des N composantes indépendantes en vue d'obtenir, pour chaque jeu de filtres, un premier jeu de coefficients de pondération ; - décomposer chaque premier jeu de coefficients de pondération dans une deuxième base de P composantes indépendantes, afin d'obtenir un deuxième jeu de coefficients de pondération ;
- stocker, dans une mémoire (504) du dispositif, chaque deuxième jeu de coefficients de pondération obtenu en association avec un identifiant d'individu parmi l'ensemble initial d'individus.
PCT/FR2016/053153 2015-12-01 2016-11-30 Décompositions successives de filtres audio WO2017093666A1 (fr)

Priority Applications (2)

Application Number Priority Date Filing Date Title
US15/780,948 US10555105B2 (en) 2015-12-01 2016-11-30 Successive decompositions of audio filters
EP16815620.6A EP3384688B1 (fr) 2015-12-01 2016-11-30 Décompositions successives de filtres audio

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
FR1561637 2015-12-01
FR1561637A FR3044459A1 (fr) 2015-12-01 2015-12-01 Decompositions successives de filtres audio

Publications (1)

Publication Number Publication Date
WO2017093666A1 true WO2017093666A1 (fr) 2017-06-08

Family

ID=55542812

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/FR2016/053153 WO2017093666A1 (fr) 2015-12-01 2016-11-30 Décompositions successives de filtres audio

Country Status (4)

Country Link
US (1) US10555105B2 (fr)
EP (1) EP3384688B1 (fr)
FR (1) FR3044459A1 (fr)
WO (1) WO2017093666A1 (fr)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP4085660A4 (fr) 2019-12-30 2024-05-22 Comhear Inc. Procédé pour fournir un champ sonore spatialisé

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
FR2958825A1 (fr) * 2010-04-12 2011-10-14 Arkamys Procede de selection de filtres hrtf perceptivement optimale dans une base de donnees a partir de parametres morphologiques

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5659619A (en) * 1994-05-11 1997-08-19 Aureal Semiconductor, Inc. Three-dimensional virtual audio display employing reduced complexity imaging filters

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
FR2958825A1 (fr) * 2010-04-12 2011-10-14 Arkamys Procede de selection de filtres hrtf perceptivement optimale dans une base de donnees a partir de parametres morphologiques

Non-Patent Citations (6)

* Cited by examiner, † Cited by third party
Title
QINGHUA HUANG ET AL: "A reduced order model of head-related impulse responses based on independent spatial feature extraction", ACOUSTICS, SPEECH AND SIGNAL PROCESSING, 2009. ICASSP 2009. IEEE INTERNATIONAL CONFERENCE ON, IEEE, PISCATAWAY, NJ, USA, 19 April 2009 (2009-04-19), pages 281 - 284, XP031459221, ISBN: 978-1-4244-2353-8 *
SOHNI ANKIT ET AL: "Extraction of pinna spectral notches in the median plane of a virtual spherical microphone array", 2014 4TH JOINT WORKSHOP ON HANDS-FREE SPEECH COMMUNICATION AND MICROPHONE ARRAYS (HSCMA), IEEE, 12 May 2014 (2014-05-12), pages 142 - 146, XP032610755, DOI: 10.1109/HSCMA.2014.6843268 *
SPAGNOL S ET AL: "On the Relation Between Pinna Reflection Patterns and Head-Related Transfer Function Features", IEEE TRANSACTIONS ON AUDIO, SPEECH AND LANGUAGE PROCESSING, IEEE SERVICE CENTER, NEW YORK, NY, USA, vol. 21, no. 3, 1 March 2013 (2013-03-01), pages 508 - 519, XP011498281, ISSN: 1558-7916, DOI: 10.1109/TASL.2012.2227730 *
WEN ZHANG ET AL: "Efficient Continuous HRTF Model Using Data Independent Basis Functions: Experimentally Guided Approach", IEEE TRANSACTIONS ON AUDIO, SPEECH AND LANGUAGE PROCESSING, IEEE SERVICE CENTER, NEW YORK, NY, USA, vol. 17, no. 4, 1 May 2009 (2009-05-01), pages 819 - 829, XP011254540, ISSN: 1558-7916, DOI: 10.1109/TASL.2009.2014265 *
ZHANG WEN ET AL: "Insights into head-related transfer function: Spatial dimensionality and continuous representation", THE JOURNAL OF THE ACOUSTICAL SOCIETY OF AMERICA, AMERICAN INSTITUTE OF PHYSICS FOR THE ACOUSTICAL SOCIETY OF AMERICA, NEW YORK, NY, US, vol. 127, no. 4, 1 April 2010 (2010-04-01), pages 2347 - 2357, XP012135348, ISSN: 0001-4966, DOI: 10.1121/1.3336399 *
ZOTKIN D N ET AL: "Rendering Localized Spatial Audio in a Virtual Auditory Space", IEEE TRANSACTIONS ON MULTIMEDIA,, 1 August 2004 (2004-08-01), pages 553 - 564, XP008155991, DOI: 10.1109/TMM.2004.827516 *

Also Published As

Publication number Publication date
EP3384688A1 (fr) 2018-10-10
US20180288554A1 (en) 2018-10-04
FR3044459A1 (fr) 2017-06-02
US10555105B2 (en) 2020-02-04
EP3384688B1 (fr) 2021-02-17

Similar Documents

Publication Publication Date Title
EP3348079B1 (fr) Procédé et système d'élaboration d'une fonction de transfert relative à la tête adaptée à un individu
EP1836876B1 (fr) Procédé et dispositif d'individualisation de hrtfs par modélisation
EP2898707B1 (fr) Calibration optimisee d'un systeme de restitution sonore multi haut-parleurs
EP1992198B1 (fr) Optimisation d'une spatialisation sonore binaurale a partir d'un encodage multicanal
EP1946612B1 (fr) Individualisation de hrtfs utilisant une modelisation par elements finis couplee a un modele correctif
EP1563485B1 (fr) Procede de traitement de donnees sonores et dispositif d'acquisition sonore mettant en oeuvre ce procede
EP2258119B1 (fr) Procede et dispositif pour la determination de fonctions de transfert de type hrtf
FR2899424A1 (fr) Procede de synthese binaurale prenant en compte un effet de salle
EP3475943B1 (fr) Procede de conversion et d'encodage stereophonique d'un signal audio tridimensionnel
EP1479266B1 (fr) Procede et dispositif de pilotage d'un ensemble de restitution d'un champ acoustique
EP1586220B1 (fr) Procede et dispositif de pilotage d'un ensemble de restitution a partir d'un signal multicanal
EP2920979B1 (fr) Acquisition de données sonores spatialisées
CA2484588A1 (fr) Procede et systeme de representation d'un champ acoustique
EP3384688B1 (fr) Décompositions successives de filtres audio
FR3065137A1 (fr) Procede de spatialisation sonore
EP3449643B1 (fr) Procédé et système de diffusion d'un signal audio à 360°
FR3073659A1 (fr) Modelisation d'ensemble de fonctions de transferts acoustiques propre a un individu, carte son tridimensionnel et systeme de reproduction sonore tridimensionnelle
Duraiswami et al. Capturing and recreating auditory virtual reality
FR2782228A1 (fr) Dispositif de simulation sonore et procede pour realiser un tel dispositif
FR3040253A1 (fr) Procede de mesure de filtres phrtf d'un auditeur, cabine pour la mise en oeuvre du procede, et procedes permettant d'aboutir a la restitution d'une bande sonore multicanal personnalisee
WO2014102199A1 (fr) Dispositif et procede d'interpolation spatiale de sons

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 16815620

Country of ref document: EP

Kind code of ref document: A1

WWE Wipo information: entry into national phase

Ref document number: 15780948

Country of ref document: US

NENP Non-entry into the national phase

Ref country code: DE

WWE Wipo information: entry into national phase

Ref document number: 2016815620

Country of ref document: EP