WO2014102199A1 - Dispositif et procede d'interpolation spatiale de sons - Google Patents

Dispositif et procede d'interpolation spatiale de sons Download PDF

Info

Publication number
WO2014102199A1
WO2014102199A1 PCT/EP2013/077746 EP2013077746W WO2014102199A1 WO 2014102199 A1 WO2014102199 A1 WO 2014102199A1 EP 2013077746 W EP2013077746 W EP 2013077746W WO 2014102199 A1 WO2014102199 A1 WO 2014102199A1
Authority
WO
WIPO (PCT)
Prior art keywords
hrtf
model
interpolation
target
point
Prior art date
Application number
PCT/EP2013/077746
Other languages
English (en)
Inventor
Matthieu AUSSAL
Original Assignee
Digital Media Solutions
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Digital Media Solutions filed Critical Digital Media Solutions
Publication of WO2014102199A1 publication Critical patent/WO2014102199A1/fr

Links

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S7/00Indicating arrangements; Control arrangements, e.g. balance control
    • H04S7/30Control circuits for electronic adaptation of the sound field
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S2400/00Details of stereophonic systems covered by H04S but not provided for in its groups
    • H04S2400/01Multi-channel, i.e. more than two input channels, sound reproduction with two speakers wherein the multi-channel information is substantially preserved
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S2420/00Techniques used stereophonic systems covered by H04S but not provided for in its groups
    • H04S2420/01Enhancing the perception of the sound image or of the spatial distribution using head related transfer functions [HRTF's] or equivalents thereof, e.g. interaural time difference [ITD] or interaural level difference [ILD]
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S3/00Systems employing more than two channels, e.g. quadraphonic
    • H04S3/002Non-adaptive circuits, e.g. manually adjustable or static, for enhancing the sound image or the spatial distribution

Definitions

  • the present invention applies to the field of high fidelity sound reproduction devices, including audio headsets. More specifically, the devices according to the invention are intended to allow a faithful spatial rendering of sounds in an audio reproduction headset worn by a user.
  • a headset without specific processing allows a degraded rendering of a multi-channel mix, less than that of a speaker broadcast
  • the purpose of spatialized audio rendering devices is to simulate the source of sounds from several sources distributed in space. To perform this spatial rendering with sufficient fidelity, it is necessary to take into account in particular the path differences between a sound source and each of the user's ears and interference between the acoustic waves and the body of the user.
  • the present invention solves this problem by interpolating the HRTF coefficients on data resulting from a linear decomposition defined as the sum of a model of the morphology of the user's head and a residue.
  • the invention discloses a binaural processing method of at least one prerecorded sound signal channel to be listened to by a listener comprising a step of accessing a database of HRTF transfer functions corresponding to measurements of sound signals perceived by a target representative of said listener from sources distributed over a discrete sphere (200) of variable radius centered on said target; a step of interpolating a point (X, Y) of said sphere where a sound source is located; said method being characterized in that it further comprises, i) prior to the interpolation step, a step of decomposing at least part of the HRTF functions into a representative part of a model of said target and a residual part; ii) after the interpolation step, a step of recomposing the HRTF function of the point (X, Y
  • the model is parameterized by at least one morphological parameter of said representative target of said listener.
  • the HRTF function at the point (X, Y) is the product of the value of an HRTF function at the point (X, Y) according to the model for said target and the center of gravity of the model residuals at several points surrounding the point ( X, Y) after elimination of the values modeled at these points.
  • the decomposition step and the recomposition step are applied only for the phase of the HRTF functions.
  • the HRTF function of the model is chosen from the group comprising modelizations by a sphere, an ellipse, a combination of spheres, ellipses and triangles.
  • the HRTF function of the model of the target is constructed from a simulation on a geometrical model of the body of said listener.
  • the invention also provides a device and a computer program for implementing the method, as well as a binaural sound reproduction system including said device or said computer program.
  • the invention thus allows the use of a parametric, spherical, elliptical or more complex model, which is therefore adaptable to the morphology of the person. Also, it is possible to decompose the transfer functions into a representative part of the modeling and a representative part of the interpolation. Thus, the more the model is representative of the morphology of the subject and therefore the more faithful he is, the closer he is to measurements. Thus, interpolation errors, focused on the specific part, are minimized. Making more accurate interpolations than when done directly on the transfer functions themselves allows you to use fewer points and thus use smaller databases.
  • FIG. 1 represents the problem to be solved in a helmet listening device
  • FIG. 2 shows a view of a user with some sound sources
  • FIG. 3 graphically illustrates a method of linear interpolation on quadruple mesh of the coefficients of the transfer functions
  • FIG. 4 represents the flowchart of the interpolation processes of the coefficients of the transfer functions according to the invention
  • FIGS. 5a and 5b respectively illustrate the transfer functions and their impulse response in the azimuth plane before deleting the modeled part
  • FIGS. 6a and 6b respectively illustrate the transfer functions and their impulse response in the azimuthal plane after deletion of the modeled part
  • Figure 1 represents the problem to be solved in a headphone listening device.
  • a sound wave front 150 emitted by a sound source 1 10 traverses different paths 160, 170 to reach the right and left ears (respectively 130, 140) located on either side of a head 120. path generate in the brain a perception of spatial provenance which is one of the elements of the quality of reproduction that music lovers, in particular, will expect from a high-fidelity headset.
  • the sound wave interferes with the parts of the user's head that it meets on its way, the nose 180, the various elements of the ears 130, 140.
  • HRTF transfer functions make it possible to take into account these interference to include them in the signal processing applied to the two listening channels of a high-fidelity headphones so that the user thus reconstructs the location of the sound source 1 10. For a given location (in distance, azimuth and elevation), there is a transfer function per ear.
  • the HRTF functions are the Fourier transforms of Head-Related Impulse Response (HRIR) responses.
  • Figure 2 shows a view of a user with some sound sources.
  • the sound sources 220, 230, 240, 250, 260, 270 ... are positioned on a sphere 200.
  • the HRTF functions of a high-fidelity reproduction headphone should normally be personalized for a given individual 210, headphone user, and should also include a number of transfer functions corresponding to the desired spatial resolution in azimuth and elevation. It is desirable to achieve a spatial resolution defined in the two angular directions over a range of 360 ° in azimuth and -90 ° / + 90 ° in elevation. For a moving source, the desired resolution must be less than 3 °. At 3 °, if one wanted to have HRTF functions corresponding to real measurements for all these points, it would take 7200 measurements per user, which is not practicable. On the other hand, for sources and a fixed user, the HRTFs of the source locations are sufficient.
  • the number of measurement points is limited at a time to reduce the time required to acquire the data and to avoid a very large storage space.
  • the spatial resolution normally used may be of the order of 5 to 15 ° in each of the angular directions.
  • the processing device then interpolates between the acquired measurements to calculate the coefficients of the transfer functions for angular values of lower resolution.
  • a conventional solution consists in carrying out a linear interpolation between the measurement points closest to the source for which the HRTF functions are to be calculated. But, the measurement points taken into account in an interpolation (measurement points closest to the sound source) are not temporally aligned.
  • the device and method of the invention overcome these drawbacks of the prior art.
  • Figure 3 graphically illustrates a method of interpolating the coefficients of the transfer functions.
  • a linear interpolation at the point of X, Y coordinates in azimuth and in elevation can be achieved by taking the center of gravity of the four points 310, 320, 330, 340 of the cell in which said point X, Y is located .
  • FIG. 4 represents the flowchart of the interpolation processes of the coefficients of the transfer functions according to the invention.
  • the principle of the invention consists in eliminating, during a step 410, the morphological model linked to the original HRTFs of the measurements before carrying out the interpolation intended to take into account the approximate position of the source on the sphere during a period of time. step 420 and then insert the morphological model of the listener calculated exactly during a step 430.
  • the linear decomposition by model is carried out in this way:
  • m the value of a remainder or residue of the part of the listener's body measured after subtraction of the modeled HRTF from the measured HRTF
  • interpolation function is any (linear, harmonic, ...)
  • Modeled HRTFs can be obtained analytically, as in the case of a spherical model of the type disclosed in Duda et al., R. O. Duda and W. M. Martens (1998). "Range dependence of the response of a spherical head model", J. Acoust. Soc. Am., 104, pp. 3048-3058, or by numerical simulation (NA Gumerov, A.
  • the measured body part (person or manikin) and the listener's body that are modeled may include the head alone or also include the torso.
  • model decomposition is to allow a temporal alignment of the HRTF coefficients between which the interpolation will be performed. This alignment is achieved by deleting the ITD, which is included in the model considered.
  • step 420 an interpolation is performed between the points for which HRTF coefficients are available, preferably provided by regular measurements.
  • One of the interpolation methods has been commented on in Figure 3.
  • the model can be customized using morphological parameters of the listener, if these are available, or use generic parameters if not.
  • This method of the invention allows:
  • FIGS. 5a and 5b respectively illustrate the transfer functions and their impulse responses without application of the method of the invention.
  • FIGS. 6a and 6b respectively illustrate the transfer functions and their impulse responses after application of the method of the invention.
  • FIGS. 5a and 6a show in an azimuth / frequency diagram the HRTF respectively before and after deletion of the modeled part prior to the interpolation
  • Figures 5b and 6b show in an azimuth / time diagram the HRIR under the same conditions as those of Figures 5a and 5a. The comparison of these two last figures confirm the temporal alignment of the impulse responses, visible at reference 610b, when, according to the method of the invention, a decomposition by model is carried out.
  • Figures 7a to 7d graphically illustrate the performance of the filtering method of the invention compared with different methods of the prior art.
  • curves 710a and 710b linear interpolation of the HRTFs, without separation of the amplitude and the phase and without decomposition of the HRTFs in part modeled / simulated and part residue
  • curves 720a and 720b linear interpolation of the HRTFs, with separation of the amplitude and the phase and without decomposition of the HRTFs in part modeled / simulated and part residue;
  • curves 730a and 730b linear interpolation of the HRTFs, without separation of the amplitude and the phase and with decomposition of the HRTFs in part modeled / simulated and part residue;
  • curve 740a linear interpolation of the HRTFs, with separation of the amplitude and the phase and with decomposition of the HRTFs in part modeled / simulated and part residue.
  • the linear interpolation is made between the two HRTFs of the plane surrounding the calculated HRTF; these two HRTFs have a gap between them of 30 °.
  • the curves 7c and 7d are identical to the curves 7a and 7b, except that the parameters of the model used for the decomposition coincide much less well with the morphology of the listener.
  • the interpolation on the amplitude and the phase of the residues of the decomposition by the model improves very significantly in the temporal dimension (gains of 3 to 8 dB) the results of the calculation of the HRTFs in all the configurations compared to the realization of a direct interpolation on the HRTFs;
  • the gains are of the same order when the residues are interpolated only on the phase
  • the gains on the frequency dimension are also important when comparing the method of the invention with a conventional interpolation in which amplitude and phase are jointly processed;
  • the invention can be implemented on an audio processing application development environment comprising a general-purpose CPU of the PC type, signal processing processors in sufficient number for the number of channels to be processed, a workshop development, parameterization and simulation of signal processing functions of the type mentioned in a comment in FIG. 4, for example under MatLab, one or more audio measurement databases.
  • an audio processing application development environment comprising a general-purpose CPU of the PC type, signal processing processors in sufficient number for the number of channels to be processed, a workshop development, parameterization and simulation of signal processing functions of the type mentioned in a comment in FIG. 4, for example under MatLab, one or more audio measurement databases.

Landscapes

  • Physics & Mathematics (AREA)
  • Engineering & Computer Science (AREA)
  • Acoustics & Sound (AREA)
  • Signal Processing (AREA)
  • Stereophonic System (AREA)

Abstract

L'invention s'applique à un système de reproduction audio binaural. Selon l'invention, préalablement à une étape d'interpolation des fonctions de transfert de la tête d'un utilisateur dudit système, on décompose les fonctions de transfert obtenues par mesures par une représentation géométrique d'un modèle de la tête de l'utilisateur et postérieurement à l'étape d'interpolation, on recompose la fonction interpolée avec ladite représentation géométrique. Avantageusement, les étapes de décomposition et de recomposition peuvent ne s'appliquer qu'à la phase ou qu'à l'amplitude des fonctions de transfert. Avantageusement, le modèle de tête peut être construit par une étape de simulation ou être choisi sur une liste de modèles a priori. L'invention permet ainsi de personnaliser les fonctions de transfert en fonctions des caractéristiques d'un auditeur. L'invention permet d'améliorer de manière significative la qualité des résultats de l'interpolation et donc le rendu audio du système de reproduction.

Description

DISPOSITIF ET PROCEDE D'INTERPOLATION SPATIALE DE SONS
La présente invention s'applique au domaine des dispositifs de reproduction sonore haute-fidélité, notamment des casques audio. Plus spécifiquement, les dispositifs selon l'invention ont pour but de permettre un rendu spatial fidèle des sons dans un casque de reproduction audio porté par un utilisateur. Un casque audio sans traitement spécifique ne permet qu'un rendu dégradé d'un mixage multi-canal, inférieur à celui d'une diffusion sur enceinte Le but des dispositifs de rendu audio spatialisé est de simuler la provenance des sons de plusieurs sources réparties dans l'espace. Pour effectuer ce rendu spatial avec une fidélité suffisante, il est nécessaire de tenir compte notamment des différences de chemin entre une source sonore et chacune des oreilles de l'utilisateur et des interférences entre les ondes acoustiques et le corps de l'utilisateur. Ces éléments sont traditionnellement mesurés pour être inclus dans une chaîne de traitement de signal numérique destinée à restituer à l'utilisateur portant un casque les éléments lui permettant de reconstituer la localisation des sources sonores en utilisant des fonctions de transfert de la tête (en anglais « Head Related Transfer Functions » ou « HRTF »). Il serait fastidieux et coûteux d'utiliser un nombre de mesures de la fonction HRTF adaptée à un utilisateur donné correspondant à une résolution spatiale de quelques degrés angulaires qui serait nécessaire pour un rendu de grande qualité. Les mesures étant nécessairement discrètes, il est en tout état de cause nécessaire dans les dispositifs de l'art antérieur de procéder par interpolation entre des points correspondant aux mesures d'une fonction HRTF ayant une résolution spatiale de plusieurs degrés (5° pour certaines bases, 10 à 15° plus couramment). Ces méthodes de l'art antérieur génèrent notamment des erreurs audibles et des artefacts de localisation sur les points interpolés, lesdites erreurs étant particulièrement sensibles à certaines fréquences.
Le manque d'alignement temporel des mesures interpolées est une des principales causes de ces erreurs. En outre, dans les implémentations réalisées, la taille des bases de données de mesures nécessaires est très élevée, notamment pour pallier cet inconvénient critique, notamment pour un équipement à très haute fidélité.
La présente invention résout ce problème en procédant à une interpolation des coefficients HRTF, sur des données résultant d'une décomposition linéaire définie comme la somme d'un modèle de la morphologie de la tête de l'utilisateur et d'un résidu. A cet effet, l'invention divulgue un procédé de traitement binaural d'au moins un canal de signaux sonores préenregistrés pour être écoutés par un auditeur comprenant une étape d'accès à une base de données de fonctions de transfert HRTF correspondant à des mesures de signaux sonores perçus par une cible représentative dudit auditeur en provenance de sources réparties sur une sphère discrète (200) de rayon variable centrée sur ladite cible; une étape d'interpolation d'un point (X, Y) de ladite sphère où se situe une source sonore; ledit procédé étant caractérisé en ce qu'il comprend en outre, i) préalablement à l'étape d'interpolation, une étape de décomposition d'au moins une partie des fonctions HRTF en une partie représentative d'un modèle de la dite cible et une partie résiduelle; ii) postérieurement à l'étape d'interpolation, une étape de recomposition de la fonction HRTF du point (X, Y) à partir d'une valeur d'une fonction HRTF pour ledit modèle audit point et d'une valeur interpolée entre parties résiduelles aux points d'interpolation.
Avantageusement, le modèle est paramétré par au moins un paramètre morphologique de ladite cible représentative dudit auditeur.
Avantageusement, la fonction HRTF au point (X, Y) est le produit de la valeur d'une fonction HRTF au point (X, Y) selon le modèle pour ladite cible et du barycentre des résidus du modèle en plusieurs points entourant le point (X, Y) après élimination des valeurs modélisées en ces points.
Avantageusement, l'étape de décomposition et l'étape de recomposition ne sont appliquées que pour la phase des fonctions HRTF.
Avantageusement, la fonction HRTF du modèle est choisie dans le groupe comprenant des modélisations par une sphère, une ellipse, une combinaison de sphères, d'ellipses et de triangles.
Avantageusement, la fonction HRTF du modèle de la cible est construite à partir d'une simulation sur un modèle géométrique du corps dudit auditeur.
L'invention prévoit également un dispositif et un programme d'ordinateur pour mettre en œuvre le procédé, ainsi qu'un système de reproduction sonore binaural incluant ledit dispositif ou ledit programme d'ordinateur. L'invention permet ainsi l'utilisation d'un modèle paramétrique, sphérique, elliptique ou plus complexe, qui est donc adaptable à la morphologie de la personne. De ce fait également, il est possible de décomposer les fonctions de transfert en une partie représentative de la modélisation et une partie représentative de l'interpolation. Ainsi, plus le modèle est représentatif de la morphologie du sujet et donc plus il est fidèle, plus il est proche des mesures. Ainsi, les erreurs d'interpolation, concentrées sur la partie spécifique, sont minimisées. Le fait de réaliser des interpolations plus exactes que lorsqu'elles sont effectuées directement sur les fonctions de transfert elles-mêmes permet d'utiliser moins de points et donc d'utiliser des bases de données de taille plus réduite.
L'invention sera mieux comprise, ses différentes caractéristiques et avantages ressortiront de la description qui suit de plusieurs exemples de réalisation et de ses figures annexées dont :
- La figure 1 représente la problématique à résoudre dans un dispositif d'écoute au casque ;
- La figure 2 représente une vue d'un utilisateur avec quelques sources sonores ;
- La figure 3 illustre graphiquement une méthode d'interpolation linéaire sur maille quadrangle des coefficients des fonctions de transfert;
- La figure 4 représente l'organigramme des traitements d'interpolation des coefficients des fonctions de transfert selon l'invention ;
- Les figures 5a et 5b illustrent respectivement les fonctions de transfert et leur réponse impulsionnelle dans le plan azimutal avant suppression de la partie modélisée
- Les figures 6a et 6b illustrent respectivement les fonctions de transfert et leur réponse impulsionnelle dans le plan azimutal après suppression de la partie modélisée
- Les figures 7a à 7d illustrent graphiquement les performances de la méthode de filtrage de l'invention comparées avec différentes méthodes de l'art antérieur.
La figure 1 représente la problématique à résoudre dans un dispositif d'écoute au casque.
Un front d'onde sonore 150 émis par une source sonore 1 10 parcourt des chemins différents 160, 170 pour parvenir aux oreilles droite et gauche (respectivement 130, 140) situées de part et d'autre d'une tête 120. Ces différences de chemin génèrent dans le cerveau une perception de provenance spatiale qui est un des éléments de la qualité de reproduction que les mélomanes, notamment, attendront d'un casque haute-fidélité. En outre, l'onde sonore interfère avec les parties de la tête de l'utilisateur qu'elle rencontre sur son chemin, le nez 180, les différents éléments des oreilles 130, 140. Des fonctions de transfert HRTF permettent de prendre en compte ces interférences pour les inclure dans le traitement de signal appliqué aux deux voies d'écoute d'un casque de haute-fidélité de sorte que l'utilisateur reconstitue ainsi la localisation de la source sonore 1 10. Pour une localisation donnée (en distance, azimut et élévation), il existe une fonction de transfert par oreille. Les fonctions HRTF sont les transformées de Fourier des réponses impulsionnelles de la tête aux ondes sonores (en anglais, Head-Related Impulse Response ou HRIR).
La figure 2 représente une vue d'un utilisateur avec quelques sources sonores.
Les sources sonores 220, 230, 240, 250, 260, 270... sont positionnées sur une sphère 200. Les fonctions HRTF d'un casque de reproduction haute-fidélité devraient normalement être personnalisées pour un individu donné 210, utilisateur du casque, et devraient également comporter un nombre de fonctions de transfert correspondant à la résolution spatiale souhaitée en azimut et en élévation. Il est souhaitable d'atteindre une résolution spatiale définie selon les deux directions angulaires, sur une plage de 360° en azimut et -90°/+90° en élévatin. Pour une source en mouvement, la résolution souhaitée doit être inférieure à 3° . A 3° , si l'on cherchait à avoir des fonctions HRTF correspondant à des mesures réelles pour tous ces points, il faudrait 7200 mesures par utilisateur, ce qui n'est pas praticable. En revanche, pour des sources et un utilisateur fixes, les HRTF des localisations des sources suffisent.
En pratique on limite le nombre de points de mesure à la fois pour réduire le temps nécessaire à l'acquisition des données et pour éviter un espace de stockage très important. La résolution spatiale normalement utilisée peut être de l'ordre de 5 à 15° dans chacune des directions angulaires. Le dispositif de traitement réalise alors des interpolations entre les mesures acquises pour calculer les coefficients des fonctions de transfert pour des valeurs angulaires de résolution inférieure. Une solution classique consiste à réaliser une interpolation linéaire entre les points de mesure les plus proches de la source pour laquelle on veut calculer les fonctions HRTF. Mais, les points de mesure pris en compte dans une interpolation (points de mesure les plus proches de la source sonore) ne sont pas temporellement alignés. En conséquence, la différence de temps de parcours entre oreilles (ou Interaural Time Différence, ITD), la différence d'amplitude (ou Interaural Level Différence, ILD) et la déformation spectrale, qui sont des caractéristiques fondamentales pour la reproduction spatialisée, ne sont pas correctement pris en compte dans ce type d'interpolation. Cette technique génère donc des erreurs significatives qui sont audibles.
Le dispositif et le procédé de l'invention remédient à ces inconvénients de l'art antérieur.
La figure 3 illustre graphiquement une méthode d'interpolation des coefficients des fonctions de transfert.
Comme illustré sur la figure, une interpolation linéaire au point de coordonnées X, Y en azimut et en site peut être réalisée en prenant le barycentre des quatre points 310, 320, 330, 340 de la cellule dans laquelle ledit point X, Y est localisé.
Cette méthode ne permet cependant pas de pallier les problèmes liés au décalage temporel des filtres.
La figure 4 représente l'organigramme des traitements d'interpolation des coefficients des fonctions de transfert selon l'invention.
Le principe de l'invention consiste à supprimer au cours d'une étape 410 le modèle morphologique lié aux HRTF originales des mesures avant de réaliser l'interpolation destinée à prendre en compte la position approchée de la source sur la sphère au cours d'une étape 420 puis à insérer le modèle morphologique de l'auditeur calculé de manière exacte au cours d'une étape 430. La décomposition linéaire par modèle s'effectue de la sorte :
- HRTFm la fonction de transfert mesurée (pour un auditeur différent de l'auditeur actuel),
- HRTFm, m celle modélisée de l'auditeur mesuré (pour un auditeur différent de l'auditeur actuel),
- RESr,m la valeur d'un reste ou résidu de la partie du corps de l'auditeur mesuré après soustraction de la HRTF modélisée à la HRTF mesurée,
- HRTFa celle de l'auditeur,
- HRTFm, a celle modélisée de l'auditeur,
- RESFr,a la valeur d'un reste ou résidu de la partie du corps de l'auditeur. après soustraction de la HRTF modélisée pour l'auditeur considéré à la HRTF mesurée.
Sous l'hypothèse d'une modélisation exacte du filtrage HRTF :
HRTFa = HRTFm, a et HRTFm = HRTFm, m
Cependant, cette modélisation étant par nature non exacte, elle peut néanmoins se réécrire sous la forme
HRTFa = HRTFm, a * (1 + RESr,a) et HRTFm = HRTFm, m * (1 + RESr,m) En faisant l'hypothèse que les variations interindividuelles des résidus sont négligeables devant celles des modèles, il est raisonnable de supposer que, pour un modèle adapté, les résidus sont équivalents : RESr,a ~ RESr,m
Ainsi, il suffit d'interpoler sur une maille quelconque HRTFm/HRTFm,m, pour obtenir une valeur approchée de (1 +RESr,m), donc un équivalent de (1 +RESr,a). En multipliant le résultat par le modèle morphologique de l'auditeur calculé à la position exacte HRTFm,a( Θ, [¾]), on obtient la formule générique suivante:
HRTFa ~ HRTFm,a * interpolation(1 + HRTFm/HRTFm,m)
où la fonction interpolation est quelconque (linéaire, harmonique, ...)
Les HRTFs modélisées peuvent être obtenues de manière analytique, comme dans le cas d'un modèle sphérique du type de celui exposé dans la publication de Duda et al, R. O. Duda and W.M. Martens (1998). "Range dependence of the response of a spherical head model", J. Acoust. Soc. Am., 104, pp. 3048-3058, ou par simulation numérique (N. A. Gumerov, A. O'Donovan, R. Duraiswami, and D. N. Zotkin. Computation of the head-related transfer function via the fast multipole accelerated boundary élément method and its représentation via the spherical harmonie spectrum. Technical Report CS-TR-4936 (also UMIACSTR-2009-06), Department of Computer Science, University of Maryland, Collège Park - 2009).
La partie du corps mesuré (personne ou mannequin) et du corps de l'auditeur qui sont modélisées peuvent comprendre la tête seule ou inclure également le torse.
Une conséquence de la décomposition par modèle est de permettre un alignement temporel des coefficients HRTF entre lesquels l'interpolation sera effectuée. Cet alignement est obtenu par la suppression de l'ITD, qui est incluse dans le modèle considéré.
Au cours de l'étape 420, on réalise une interpolation entre les points pour lesquels on dispose de coefficients HRTF, de préférence fournis par des mesures régulières. Une des méthodes d'interpolation a été exposée en commentaire à la figure 3.
On peut également réaliser avantageusement la ou les interpolations séparément sur l'amplitude et sur la phase du point de l'espace modélisé en représentation polaire.
Le modèle peut être personnalisé en utilisant des paramètres morphologiques de l'auditeur, si ceux-ci sont disponibles, ou utiliser des paramètres génériques dans le cas contraire.
Cette méthode de l'invention permet :
- Une forte diminution des artefacts d'interpolation ; - L'utilisation d'un modèle paramétrique, donc adaptable à la morphologie de l'utilisateur ; un modèle paramétrique peut en outre être remplacé par des simulations numériques de modèles morphologiques de plus en plus complexes, ce qui permet une réelle adaptation des fonctions HRTF de l'utilisateur sur des paramètres maîtrisés ;
- La décomposition de chaque fonction HRTF en une partie modélisée et une partie approchée par interpolation ;
- La limitation de la taille des bases de données nécessaires à l'interpolation ; pour un modèle sphérique, la taille de la base de données est de l'ordre de 2Mo) ;
Les figures 5a et 5b illustrent respectivement les fonctions de transfert et leurs réponses impulsionnelles sans application de la méthode de l'invention.
Les figures 6a et 6b illustrent respectivement les fonctions de transfert et leurs réponses impulsionnelles après application de la méthode de l'invention.
Les figures 5a et 6a représentent dans un diagramme azimut/fréquence les HRTF respectivement avant et après suppression de la partie modélisée préalable à l'interpolation
Les figures 5b et 6b représentent dans un diagramme azimut/temps les HRIR dans les mêmes conditions que celles des figures 5a et 5a. La comparaison de ces deux dernières figures confirment bien l'alignement temporel des réponses impulsionnelles, visible à la référence 610b, lorsqu'on procède, selon la méthode de l'invention, à une décomposition par modèle. Les figures 7a à 7d illustrent graphiquement les performances de la méthode de filtrage de l'invention comparées avec différentes méthodes de l'art antérieur.
Toutes les courbes des quatre figures représentent en ordonnée l'erreur relative entre les HRTFs interpolées et leurs références, ladite erreur étant exprimée en dB d'erreur quadratique moyenne (Mean Square Error ou MSE). Les mesures sont faites dans le plan azimutal (d'élévation nulle), l'abscisse indiquant les valeurs d'azimut de mesure.
Les courbes des figures 7a et 7b comparent, respectivement en temps et en fréquence, les erreurs MSE dans les cas suivants :
- courbes 710a et 710b : interpolation linéaire des HRTFs, sans séparation de l'amplitude et de la phase et sans décomposition des HRTFs en partie modélisée/simulée et partie résidu ; - courbes 720a et 720b : interpolation linéaire des HRTFs, avec séparation de l'amplitude et de la phase et sans décomposition des HRTFs en partie modélisée/simulée et partie résidu ;
- courbes 730a et 730b : interpolation linéaire des HRTFs, sans séparation de l'amplitude et de la phase et avec décomposition des HRTFs en partie modélisée/simulée et partie résidu ;
- courbe 740a : interpolation linéaire des HRTFs, avec séparation de l'amplitude et de la phase et avec décomposition des HRTFs en partie modélisée/simulée et partie résidu.
Dans l'exemple non limitatif de ces mesures, l'interpolation linéaire est faite entre les deux HRTFs du plan entourant la HRTF calculée ; ces deux HRTFs ont un écart entre elles de 30° .
Les courbes 7c et 7d sont identiques aux courbes 7a et 7b, sauf que les paramètres du modèle utilisé pour la décomposition coïncident beaucoup moins bien avec la morphologie de l'auditeur.
Les enseignements de ces courbes sont les suivants :
- lorsque les paramètres du modèle sont bien ajustés à la morphologie de la tête de l'auditeur, la réalisation de l'interpolation sur l'amplitude et la phase des résidus de la décomposition par le modèle améliore de manière très importante dans la dimension temporelle (gains de 3 à 8 dB) les résultats du calcul des HRTFs dans toutes les configurations par rapport à la réalisation d'une interpolation directe sur les HRTFs ;
- les gains sont du même ordre lorsque l'on ne réalise l'interpolation des résidus que sur la phase ;
- les gains sur la dimension fréquentielle sont également importants lorsque l'on compare la méthode de l'invention à une interpolation classique dans laquelle amplitude et phase sont traitées conjointement ;
- l'ajustement des paramètres du modèle a un impact significatif sur la qualité des résultats.
L'invention peut être mise en œuvre sur un environnement de développement d'applications de traitement audio comprenant une unité centrale d'usage général de type PC, des processeurs de traitement de signal en nombre suffisant pour le nombre de voies à traiter, un atelier de développement, de paramétrage et de simulation de fonctions de traitement du signal du type de celles mentionnées en commentaire à la figure 4, par exemple sous MatLab, une ou plusieurs bases de données de mesures audio. Les exemples décrits ci-dessus sont donc donnés à titre d'illustration de certains des modes de réalisation de l'invention. Ils ne limitent en aucune manière le champ de l'invention qui est défini par les revendications qui suivent.

Claims

REVENDICATIONS
1 . Procédé de traitement binaural d'au moins un canal de signaux sonores préenregistrés pour être écoutés par un auditeur comprenant :
- Une étape d'accès à une base de données de fonctions de transfert HRTF correspondant à des mesures de signaux sonores perçus par une cible représentative dudit auditeur en provenance de sources réparties sur une sphère discrète (200) de rayon variable centrée sur ladite cible;
- Une étape d'interpolation d'un point (X, Y) de ladite sphère où se situe une source sonore (1 10);
Ledit procédé étant caractérisé en ce qu'il comprend en outre :
- Préalablement à l'étape d'interpolation, une étape de décomposition d'au moins une partie des fonctions HRTF en une partie représentative d'un modèle (120) de la dite cible et une partie résiduelle;
- Postérieurement à l'étape d'interpolation, une étape de recomposition de la fonction HRTF du point (X, Y) à partir d'une valeur d'une fonction HRTF pour ledit modèle audit point et d'une valeur interpolée entre parties résiduelles aux points d'interpolation.
2. Procédé de traitement binaural selon la revendication 1 , caractérisé en ce que le modèle est paramétré par au moins un paramètre morphologique de ladite cible représentative dudit auditeur.
3. Procédé de traitement binaural selon l'une des revendications 1 à
2, caractérisé en ce que la fonction HRTF au point (X, Y) est le produit de la valeur d'une fonction HRTF au point (X, Y) selon le modèle pour ladite cible et du barycentre des résidus du modèle en plusieurs points (310, 320, 330, 340) entourant le point (X, Y) après élimination des valeurs modélisées en ces points.
4. Procédé de traitement binaural selon l'une des revendications 1 à
3, caractérisé en ce que l'étape de décomposition et l'étape de recomposition ne sont appliquées que pour la phase des fonctions HRTF.
5. Procédé de traitement binaural selon l'une des revendications 1 à
4, caractérisé en ce que la fonction HRTF du modèle est choisie dans le groupe comprenant des modélisations par une sphère, une ellipse, une combinaison de sphères, d'ellipses et de triangles.
6. Procédé de traitement binaural selon l'une des revendications 1 à 4, caractérisé en ce que la fonction HRTF du modèle de la cible est construite à partir d'une simulation sur un modèle géométrique du corps dudit auditeur.
7. Dispositif de traitement binaural d'au moins un canal de signaux sonores préenregistrés pour être écoutés par un auditeur comprenant :
- Un module d'accès à une base de données de fonctions de transfert
HRTF correspondant à des mesures de signaux sonores perçus par une cible représentative dudit auditeur en provenance de sources réparties sur une sphère discrète (200) de rayon variable centrée sur ladite cible;
- Un module d'interpolation d'un point (X, Y) de ladite sphère où se situe une source sonore (1 10);
Ledit dispositif étant caractérisé en ce qu'il comprend en outre :
- En entrée du module d'interpolation, un module de décomposition d'au moins une partie des fonctions HRTF en une partie représentative d'un modèle (120) de ladite cible et une partie résiduelle ;
- En sortie du module d'interpolation, un module de recomposition de la fonction HRTF du point (X, Y) à partir d'une valeur d'une fonction HRTF pour ledit modèle audit point et d'une valeur interpolée entre parties résiduelles aux points d'interpolation.
8. Programme d'ordinateur comprenant des instructions de code de programme permettant l'exécution du procédé selon l'une des revendications 1 à 7 lorsque le programme est exécuté sur un ordinateur, ledit programme d'ordinateur comprenant :
- Un module d'accès à une base de données de fonctions de transfert
HRTF correspondant à des mesures de signaux sonores perçus par une cible représentative dudit utilisateur en provenance de sources réparties sur une sphère discrète (200) de rayon variable centrée sur laditecible;
- Un module d'interpolation d'un point (X, Y) de ladite sphère où se situe une source sonore (1 10);
Ledit programme d'ordinateur étant caractérisé en ce qu'il comprend en outre : - En entrée du module d'interpolation, un module de décomposition d'au moins une partie des fonctions HRTF en une partie représentative d'un modèle (120) de ladite cible et une partie résiduelle ;
- En sortie du module d'interpolation, un module de recomposition de la fonction HRTF du point (X, Y) à partir d'une valeur d'une fonction HRTF pour ledit modèle audit point et d'une valeur interpolée entre parties résiduelles aux points d'interpolation.
9. Système de reproduction audio binaural comprenant au moins un dispositif de traitement binaural selon la revendication 7 ou un programme d'ordinateur selon la revendication 8.
PCT/EP2013/077746 2012-12-28 2013-12-20 Dispositif et procede d'interpolation spatiale de sons WO2014102199A1 (fr)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
FR1262945 2012-12-28
FR1262945A FR3000637A1 (fr) 2012-12-28 2012-12-28 Dispositif et procede d'interpolation spatiale de sons

Publications (1)

Publication Number Publication Date
WO2014102199A1 true WO2014102199A1 (fr) 2014-07-03

Family

ID=47989200

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/EP2013/077746 WO2014102199A1 (fr) 2012-12-28 2013-12-20 Dispositif et procede d'interpolation spatiale de sons

Country Status (2)

Country Link
FR (1) FR3000637A1 (fr)
WO (1) WO2014102199A1 (fr)

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2007048900A1 (fr) * 2005-10-27 2007-05-03 France Telecom Individualisation de hrtfs utilisant une modelisation par elements finis couplee a un modele correctif
JP2008312113A (ja) * 2007-06-18 2008-12-25 Nippon Hoso Kyokai <Nhk> 頭部伝達関数補間装置

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2007048900A1 (fr) * 2005-10-27 2007-05-03 France Telecom Individualisation de hrtfs utilisant une modelisation par elements finis couplee a un modele correctif
JP2008312113A (ja) * 2007-06-18 2008-12-25 Nippon Hoso Kyokai <Nhk> 頭部伝達関数補間装置

Non-Patent Citations (4)

* Cited by examiner, † Cited by third party
Title
DURAISWAMI R ET AL: "Interpolation and range extrapolation of hrtfs", ACOUSTICS, SPEECH, AND SIGNAL PROCESSING, 2004. PROCEEDINGS. (ICASSP ' 04). IEEE INTERNATIONAL CONFERENCE ON MONTREAL, QUEBEC, CANADA 17-21 MAY 2004, PISCATAWAY, NJ, USA,IEEE, PISCATAWAY, NJ, USA, vol. 4, 17 May 2004 (2004-05-17), pages 45 - 48, XP010718401, ISBN: 978-0-7803-8484-2 *
GUMEROV NAIL ET AL: "Computation of the head-related transfer function via the fast multipole accelerated boundary element method and its spherical harmonic representation", THE JOURNAL OF THE ACOUSTICAL SOCIETY OF AMERICA, AMERICAN INSTITUTE OF PHYSICS FOR THE ACOUSTICAL SOCIETY OF AMERICA, NEW YORK, NY, US, vol. 127, no. 1, 1 January 2010 (2010-01-01), pages 370 - 386, XP012135160, ISSN: 0001-4966, DOI: 10.1121/1.3257598 *
KATZ BRIAN F G: "Boundary element method calculation of individual head-related transfer function. I. Rigid model calculation", THE JOURNAL OF THE ACOUSTICAL SOCIETY OF AMERICA, AMERICAN INSTITUTE OF PHYSICS FOR THE ACOUSTICAL SOCIETY OF AMERICA, NEW YORK, NY, US, vol. 110, no. 5, 1 November 2001 (2001-11-01), pages 2440 - 2448, XP012002596, ISSN: 0001-4966, DOI: 10.1121/1.1412440 *
WATANABE K ET AL: "INTERPOLATION OF HEAD-RELATED TRANSFER FUNCTIONS BASED ON THE COMMON-ACOUSTICAL-POLE AND RESIDUE MODEL", ACOUSTICAL SCIENCE AND TECHNOLOGY, ACOUSTICAL SOCIETY OF JAPAN, TOKYO, JP, vol. 24, no. 5, 1 January 2003 (2003-01-01), pages 335 - 337, XP008052073, ISSN: 1346-3969, DOI: 10.1250/AST.24.335 *

Also Published As

Publication number Publication date
FR3000637A1 (fr) 2014-07-04

Similar Documents

Publication Publication Date Title
EP2898707B1 (fr) Calibration optimisee d&#39;un systeme de restitution sonore multi haut-parleurs
Cuevas-Rodríguez et al. 3D Tune-In Toolkit: An open-source library for real-time binaural spatialisation
Romigh et al. Efficient real spherical harmonic representation of head-related transfer functions
EP0790753B1 (fr) Système de spatialisation sonore, et procédé pour sa mise en oeuvre
EP1836876B1 (fr) Procédé et dispositif d&#39;individualisation de hrtfs par modélisation
Schönstein et al. HRTF selection for binaural synthesis from a database using morphological parameters
US10880669B2 (en) Binaural sound source localization
Ben-Hur et al. Loudness stability of binaural sound with spherical harmonic representation of sparse head-related transfer functions
EP1479266B1 (fr) Procede et dispositif de pilotage d&#39;un ensemble de restitution d&#39;un champ acoustique
EP1586220B1 (fr) Procede et dispositif de pilotage d&#39;un ensemble de restitution a partir d&#39;un signal multicanal
Wierstorf et al. Binaural assessment of multichannel reproduction
Ziegelwanger et al. Modeling the direction-continuous time-of-arrival in head-related transfer functions
CA2484588C (fr) Procede et systeme de representation d&#39;un champ acoustique
Pulkki et al. Superhuman spatial hearing technology for ultrasonic frequencies
Aussal et al. ITD interpolation and personalization for binaural synthesis using spherical harmonics
Watanabe et al. Estimation of interaural level difference based on anthropometry and its effect on sound localization
FR2858403A1 (fr) Systeme et procede de determination d&#39;une representation d&#39;un champ acoustique
Arend et al. Magnitude-corrected and time-aligned interpolation of head-related transfer functions
FR3065137A1 (fr) Procede de spatialisation sonore
WO2014102199A1 (fr) Dispositif et procede d&#39;interpolation spatiale de sons
US11190896B1 (en) System and method of determining head-related transfer function parameter based on in-situ binaural recordings
Bau et al. Estimation of the optimal spherical harmonics order for the interpolation of head-related transfer functions sampled on sparse irregular grids
EP3384688A1 (fr) Décompositions successives de filtres audio
EP2987339B1 (fr) Procédé de restitution sonore d&#39;un signal numérique audio
Skarha Performance Tradeoffs in HRTF Interpolation Algorithms for Object-Based Binaural Audio

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 13814953

Country of ref document: EP

Kind code of ref document: A1

NENP Non-entry into the national phase

Ref country code: DE

32PN Ep: public notification in the ep bulletin as address of the adressee cannot be established

Free format text: CONSTATATION DE LA PERTE D UN DROIT CONFORMEMENT A LA REGLE 112(1) CBE (OEB FORM 1205 EN DATE DU 16/11/2015)

122 Ep: pct application non-entry in european phase

Ref document number: 13814953

Country of ref document: EP

Kind code of ref document: A1