WO2015032009A1 - Small system and method for decoding audio signals into binaural audio signals - Google Patents
Small system and method for decoding audio signals into binaural audio signals Download PDFInfo
- Publication number
- WO2015032009A1 WO2015032009A1 PCT/CL2014/000043 CL2014000043W WO2015032009A1 WO 2015032009 A1 WO2015032009 A1 WO 2015032009A1 CL 2014000043 W CL2014000043 W CL 2014000043W WO 2015032009 A1 WO2015032009 A1 WO 2015032009A1
- Authority
- WO
- WIPO (PCT)
- Prior art keywords
- binaural
- recording
- acquisition system
- sound
- clause
- Prior art date
Links
Classifications
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04S—STEREOPHONIC SYSTEMS
- H04S1/00—Two-channel systems
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04S—STEREOPHONIC SYSTEMS
- H04S2400/00—Details of stereophonic systems covered by H04S but not provided for in its groups
- H04S2400/15—Aspects of sound capture and related signal processing for recording or reproduction
Definitions
- the present invention consists of a system of reduced size for binaural recording and / or reproduction of binaural audio signals that allow the user to experience the three-dimensional sound experience.
- the invention also proposes an associated methodology to effect said recording and / or reproduction, a computer program associated with said methodology, and the manufacturing process of said system.
- the technology to record and / or reproduce video in three dimensions (3D) is an important innovation in the entertainment industry, successfully applied both on a large scale, such as in cinemas, as well as on a smaller scale, for example in systems portable and / or for home use.
- the recording and / or reproduction of three-dimensional sound has not developed as its video pair, which has resulted in the experience of three-dimensional sound experienced by users when listening to a recorded sound is not yet similar with respect to what the human being actually listens in natural circumstances.
- the human being is able to identify the location of sounds around them very precisely (back, sides, up, down, near, far, etc.).
- the human auditory system perceives the sound differently in each ear according to each source specific sound and its location.
- the human brain is able to process these differences allowing you to identify the direction and distance of the origin of the sound.
- stereo speakers There are several types of speakers, in terms of dimensions and principles of operation, but all are based on the transformation of electrical energy into mechanical energy and, finally, acoustic waves. Most of the speakers used today (in theaters, cars, shops, studios, headphones and home appliances) work with an electromagnet that moves a coil, which in turn moves a cone that generates acoustic waves.
- the surround system defines the use of five or more channels with speakers generally organized in a horizontal plane, in addition to a low frequency channel with 10% of the sound intensity of the rest of the channels. Given the organization of the speakers, an enveloping (or surround) effect of the sound can be generated in the plane of the speakers, partially similar to a three-dimensional field of sounds, as long as the listener is in a central position in relation to the organization of the speakers.
- the alternative that solves the practical, economic and technical deficiencies of the surround system is the simulation of the human auditory process that allows identifying the origin of sounds through the use of headphones.
- This technology is known as binaural reproduction, and is capable of providing a sensation of three-dimensional immersion, personalized for each listener.
- the reproduction of sound material in 3D has been the subject of research for several decades, both in the surround format and with binaural technology.
- researchers have made measurements with an artificial head for the simulation of sounds in the three-dimensional field, developing applications of robotic localization; and the personalization and parameterization of anthropometric models (also called structural models) that allow simulating 3D sounds for any physiognomy, among others.
- HRTF Head-Related Transfer Function
- 201 developed a customized structural model for an anatomy that explains the relationship that exists between the elevation of a sample and the radius of the head as a part of a structural model of the HRTF, and in particular the relationship that exists between the azimuth of a sample and the dimensions of the ear in function with the PRTF.
- DJ Kistler et al. A model of head-related transfer functions based on principal components analysis and minimum-phase reconstruction
- US patent 8,265,284 discloses an apparatus for generating a binaural audio signal that includes a demultiplexer and decoder that receives audio information consisting of an M-channel audio signal that is a mixture of an audio signal of channel N and spatial parameter data to mix the audio signal of channel M with the audio signal of channel N.
- a conversion processor converts spatial parameters of the information of spatial parameters into the first parameters binaurals in response to at least one binaural perceptual transfer function.
- a matrix processor converts the M-channel audio signal into a first stereo signal in response to the first binaural parameters and a stereo filter generates the binaural audio signal by filtering the first stereo signal.
- the filter coefficients for the stereo filter are determined in response to at least one of the binaural perception transfer functions by a coefficient processor, wherein said transfer function is a HRTF.
- a transfer function is a HRTF.
- US 8,265,284 relates to the generation of binaural signal for content that has previously been mixed with spatial characteristics, such as a 5.1 surround mix of music or sound for images. Because it only uses parametrized HRTF of human auditory perception, it does not try to model the response of the acquisition system with which the quality of a 3D signal would be captured. Therefore, said system would be imprecise in the transformation of a variety of microphones with a characteristic spatial pattern in a binaural signal, since it does not take into account the structure of the components involved in the capture of sound waves as a relevant parameter. for audio processing with a transfer function.
- the challenge of the present invention is to design a system and its methodology for binaural recording, wherein said system and method can be adapted to a professional or home-made 3D video camera, as well as to any other type of device. reduced size, and that resolves the current technological limitations described previously.
- the present invention addresses the challenge of offering a recording system of reduced size, preferably of millimeter dimensions, for example capable of being used inside a video camera, smart phone or even smaller devices, where said system recovers waves of acoustically filtered sound that decodes in such a way that when it is reproduced by means of a conventional type of hearing aid or hearing aid device, it is heard exactly how an observer would experience it from the perspective of the scene.
- the invention also discloses a recording method used by the system identified above for the processing of the audio signal, a computer program that applies said method and the manufacturing process of said system.
- the specific objects of this invention are to provide a sound recording system having in an embodiment of the invention, an acoustic filter device that minimize the correlation in the response to the same sound originated from any pair of points with different spherical angle and a binaural processing decoder device, which takes the measured sound response within two acoustic filters, and rescue the information of the location of the sound, which is implicit in the audio signals, transforming it into a pair of signals with the characteristics that would have to be heard by the human being.
- the human auditory system perceives the sound differently in each ear according to the location of that source. Based on this, the brain uses a series of signals derived from the perception of sound to calculate this location, of which the most important are:
- Xi, X r All these characteristics can be represented in a vector (Xi, X r ), in which Xj and X r contain the input information of the signal, for example, the level, phase and spectrum representation of the sound, at a given moment , in the left and right ear respectively.
- the first is the use of a physical model to make the recording of sounds, which interprets the sound around them in a similar way to what happens with human anatomy.
- a recording technique that is capable of detecting the four signals indicated above that the brain uses to locate sounds.
- this category we can find the aforementioned dummy head method, the famous Jecklin disc, the microphones developed by the Japanese company Otokinoko, and the methods that use binaural microphones that are placed in the ears of the recording artist.
- the device is used to make the recordings in situ, that is, the location of the sounds is given by the relative position of the head at the time of recording.
- the second category groups the methods using a mathematical model of the dimensions of a particular head and digital sound processing to synthesize audio signals that the brain interprets as binaural.
- the best known of these models uses a HRTF, which is obtained for each head by measuring the response of microphones located inside the ear, when stimulated by sounds with all the existing frequencies in the human auditory range. These sounds are placed in different positions of the 3D space, in a place where there are no sound reflections that interfere with the duration of the HRTF (typically an anechoic chamber), where the recordings of the microphones are evaluated and stored for each location.
- HRTF typically an anechoic chamber
- the invention consists of developing a method and devices belonging to the first and second category, combining a physical system for recording binaural sounds with a methodology applied to estimate a Binaural Transformation. (BF) of the signals captured.
- BF Binaural Transformation.
- the invention consists of developing a method and devices belonging to the first category, that is, a physical method that minimizes the correlation in response to the same sound originating from any pair of points, with a different spherical angle.
- Said method and devices are capable of recovering all the information that allows the human being to locate sounds in space, since it minimizes the correlation in the response of the system as a result of equal signals emitted from different spherical locations that help to preserve the information related to the location of the sound.
- one embodiment of the system of the invention proposes an acoustic filter device with materiality and parameterized specifications for each spherical angle of a defined discretization or sampling grid.
- this device which is called Acoustic Filter of Angular Parametrization (APAF, acronym in English for Angular Parameterization Acoustic Filter), is applied to a pair of sound capturing devices, for example, microphones of dimensions according to the specifications, to measure more thoroughly the transfer function related to this system, obtained based on its input and output signals.
- APAF Acoustic Filter of Angular Parametrization
- MFS microphones-filter system
- acquisition system is developed. through a combination of existing algorithms of artificial intelligence for the approximation of functions, and thus achieve the function of desired transformation.
- this transformation function takes a part of the audio captured by the acquisition system and converts it into a signal as it would be heard by a normal human head.
- a d mmy or model head is used and a calculation is made to obtain the HRTF of this head.
- Equivalent measurements are made for the acquisition, modeling and obtaining system of an MFS Transfer Function (MFSTF, for the Microphones-Filter System Transfer Functior ⁇ ). From the information of the HRTF and MFSTF, equal parameters are learned such as the typical binaural signals that are then used in the transformation function to approach the binaural audio.
- MFSTF MFS Transfer Function
- the desired transformation function is obtained by means of a training and validation process carried out with pairs of results of each transfer function (HRTF and MFSTF) and their parameters calculated for the sounds emitted from the same angular location. relative. Then, the process approximates the MFSTF to the HRTF of said system, obtaining the Binaural Transformation (BT, acronym in English for Binaural
- Transformatiori that converts the acquired signal into a binaural reproduction signal.
- the system and method make up an integral design that is capable of recording audio and then processing it for reproduction as a sound environment in three dimensions.
- Figure 1 shows a listening pattern of a specific sound emitted from the source point S, where Xi is the input signal received by the left ear and X r is the input signal received by the right ear.
- Figure 2 shows a block diagram of the processing performed on the audio signals, which is the basis of the decoding process to find the binaural representation.
- Figure 3 shows a schematic view of one of the preferred embodiments of the invention.
- the present invention describes a method and binaural recording system, capable of recording sound and decoding its spatial characteristics, which when reproduced with hearing aid-type devices offers a three-dimensional representation of the recorded sound scene.
- Said system and method offer a solution of reduced size, preferably of millimeter dimensions, which can be applied and / or integrated into professional, domestic, portable devices such as cell phones, among others.
- said recording system consists of at least two APAF acoustic filter units, where each filter unit has a sound sensor unit in its interior.
- a microphone that transforms the acoustic signal or sound wave into an electrical signal or an audio signal.
- the arrangement of the APAF units is known as an acoustic filter device or APAF device.
- Each APAF unit which are physically separated in one mode, minimizes the angular (spherical) correlation of the response to any pair of identical sounds with frequencies in the human range, measured from the sound sensor unit that is located within the Each unit of acoustic filter.
- said sound sensor unit consists of a high gain omnidirectional microphone in proportion to its size.
- the acoustic filter units and sound sensors used are of millimeter dimensions, which facilitates their integration into existing recording devices such as professional, portable or domestic appliances.
- the present invention considers that the frequency curve of the sound sensor unit used is not excessively different from that of the conventional microphones used in the recording studios, so any non-linearity in the response may be corrected by later equalization stages.
- the construction of an APAF device comprises materials commonly used in the production of video cameras, smart phones and their accessories, microphones, acoustic absorption and acoustic resonance, the objective being to obtain the minimum angular correlation for a pair of identical sounds emitted from sources located in different angular positions, measured based on an average index of the result obtained for each pair of sounds. Then, the main objective of the acoustic filter device is to preserve the location information of the sound contained in an audio signal, which provides the effects of the variation of the sound spectrum and the variation of the sound level of the received sound wave. Also, due to the spatial separation of the sound sensor units, there is a variation in the time in which the sound events are acquired by each sound sensor, and therefore said time difference is also contained in the signals of audio as information.
- the APAF device offers:
- An APAF device with its APAF units that has been coupled to a sound sensor unit or microphone, consists of a subsystem called the microphones-filter system (MFS) or acquisition system, which is one of the central axes for the recording of sound of the present invention.
- MFS microphones-filter system
- acquisition system which is one of the central axes for the recording of sound of the present invention.
- a decoder device is used that translates or transforms the signal recovered by the sound capture device into a three-dimensional signal like that which the human ear hears.
- the decoding device consists of means for storing calculation and processing information, such as acoustic measurements made to the MFS and a dummy head system, by applying a transformation to the MFS output signal to obtain a binaural reproduction signal in a type of hearing aid device or conventional hearing aids.
- the acoustic measurements made to both the MFS and the dummy head to determine the transformation function are made based on a sound sample that contains all the frequencies that the human being can hear, where said sample can be of the type white noise, impulses or sinusoidal sweep.
- the samples are taken with the dummy head for the determined N locations and with the same location N to the MFS or acquisition system, where the samples taken are analyzed for correlation between signals and iteration.
- the experimental approach used is generating pulses (or pulse type signals such as a "sinusoidal sweep” or a maximum length sequence "MLS", for Maximum Sequence) based on a semi-uniform elevation agreement. and rotations in the horizontal plane (azimuth) over the center of a sphere. That is, the signals emitted from the spherical arrangement are measured for both the dummy head and the binaural acquisition system. Then, the dummy head measurements help to obtain the HRTF corresponding to the dummy head and the descriptive parameters of it.
- the transformation function of the decoding device is obtained from the acoustic measurements taken from the dummy head (HRTF) and from the transfer function of the acquisition system (MFSTF) in conjunction with the intelligence algorithm artificial that approximates the function that maps both responses, through its descriptive parameters.
- the transformation function in the decoding device is an approximation function obtained by supervised learning (or an equivalent machine learning technique), in which the input signal to the learning method may come from one embodiment of the invention of the microphones of the system, representing the sound waves X
- Said artificial intelligence system comprises a programmed learning algorithm in computer systems or software, where said learning algorithm is parameterized to evaluate the best combination of parameters in the validation stage.
- learning algorithm is parameterized to evaluate the best combination of parameters in the validation stage.
- the output is the reconstruction of the separated audio segments in the original points.
- the software of the invention is integrated in the system of small size, it is necessary to perform the previous steps in a microprocessor to have an independent solution, with a digital analog converter of high frequency sampling and a digital analogue output converter.
- the previous steps can be incorporated into the memory of the devices that house them, for example, portable devices that already have a framework to communicate with their processor, memory, analogue digital converters, data buses, etc.
- the validation and training of the artificial intelligence system consists of establishing a mathematical correlation between the functions of transfer of the signals captured by the dummy head (generic HRTF) and the transfer functions of the signals captured with MFS (MFSTF).
- MFSTF transfer functions of the signals captured with MFS
- Binaural Transformation BF
- 3 ⁇ 4_MSF corresponds to the parameterized transfer function of the acquisition system, for the position ⁇ , which will be correlated with the transfer function of the dummy head.
- BF 0 corresponds to the Binaural Transformation described above.
- 3 ⁇ 4_dummy is the HRTF parameterized for the dummy head, for position ⁇ .
- the validation and training stage is carried out in order to find the value for B 0 to achieve the equality of the equation previously described for all the angular positions.
- the parameterized transfer functions of said system could be represented as coefficients that describe the Interaural Time Difference (ITD) for the left microphones. and right.
- This parameterized transfer function can be easily approximated to an HRTF that has been parameterized in the same way, in which case the transformation function would be a monotonous function that maps the ITDs captured by the acquisition system to the corresponding ITDs that occur in a human head
- the audio signals picked up by the acquisition system, or in another modality a filtered version of these, can be fed to the transformation function, which would generate an approximate binaural representation of the input audio signal.
- the output can be written as a linear combination of the inputs and transfer functions that must be estimated in the training and validation stage, using for example the following equation:
- the binaural recording system (1) object of the present invention describes an operation methodology consisting of in recording the sound using at least a pair of sound sensor devices (2) or microphones, wherein the sound sensor devices are wrapped in an acoustic filter device or APAF (3), comprising the connection of said units the system of microphones-filter or acquisition system (4).
- the recording stage comprises the standard digital audio recording processes, that is, pre-amplification, anti-wing filter, sampling, analog-digital conversion, decoding and storage, among others.
- the output audio signal of the acquisition system is processed in a decoder device (5) belonging to the binaural recording system, which applies the Binaural Transformation (BF) to said signal and, preferably, stores it in at least one storage unit, converting it into a pair of signals capable of being understood by a human who listens to them by means of conventional type hearing aids or hearing aids (6) and, in an alternative modality, by means of conventional stereo speakers.
- a decoder device (5) belonging to the binaural recording system, which applies the Binaural Transformation (BF) to said signal and, preferably, stores it in at least one storage unit, converting it into a pair of signals capable of being understood by a human who listens to them by means of conventional type hearing aids or hearing aids (6) and, in an alternative modality, by means of conventional stereo speakers.
- the method and system of the invention allow to improve the stereophonic depth of the audio signals in the conventional speakers, thus improving the sound image and the Surround experience of different conventional audio systems.
- the acquisition system can be replaced by a plurality of spatially separated sound sensor devices or microphones, which together are used to minimize the angular (spherical) correlation of the response to any pair of sounds identical with frequencies in the human range.
- a system transfer function composed of a plurality of microphones with the aim of correlating said function to the associated parameterized HRTF, obtaining the Binaural Transformation (BF) that applies the decoding device of the signal to convert it into a binaural listening signal that allows recreating the real three-dimensional environment with respect to the capture of sounds by the human ear.
- BF Binaural Transformation
- a difference of time, phase and intensity that occurs in the plurality of arrangement of sound sensor devices provides enough information to determine the position of a sound source from the Binaural Transformation (BF), so the system of acquisition of the invention can be replaced by said arrangement.
- BF Binaural Transformation
- the acquisition system ie the APAF device enclosing the sound sensor units
- a portable device such as a video camera, photographic camera, smart phone, tablet and / or smart watch, or any other type of device for binaural recording, wherein said set forms a new acquisition system.
- the binaural transformation applied by the decoding device is adapted to the geometric or structural configuration formed by the new acquisition system consisting of a portable device that integrates in its structure at least two microphones, spatially separated, wherein said binaural transformation allows the sound wave captured by the acquisition system to be captured recreating the real three-dimensional environment with respect to the perception of sounds by the human ear.
- the decoding device has all the necessary information to decode the spatiality information that is already present in these two microphones and transform it into a human binaural signal.
- the methodology of the invention can be applied to existing devices as long as they already have at least two integrated microphones, so that after obtaining the transfer function of said device-microphones system, or MFSTF considering the device as a filter, and To approximate it to the associated HRTF, we can obtain the transformation function that must be applied by the decoding device that converts the input signal into a binaural signal to listen in three dimensions.
- the acquisition system could be part of the common components of a portable device that consists of at least two sound sensors or microphones, in which the structure of the portable device and its support act as the acoustic filter device enveloping at least two of the sound sensors or microphones mentioned.
- said device is integrated into the binaural recording system and, alternatively, into the reproduction system, wherein in a convenient embodiment, said decoding device can be implemented in a program computer previously included in a device or that can be installed in the storage memory of the same.
- Said program includes the implementation of the decoding algorithm based on the learning algorithm that allows obtaining the transfer function of the acquisition system or MFSTF, correlated with the generic HRTF, with the aim of converting the output signal of the acquisition system into a binaural reproduction signal.
- This objective is fulfilled when obtaining a Binaural Transformation (BF) that allows the signal of a specific acquisition system (microphones-filter, microphones-device, plurality of microphones, among others) to be converted to a stereo binaural signal to listen through of conventional hearing aids or hearing aid type sound reproduction devices.
- BF Binaural Transformation
- the computer program for the binaural recording and, alternatively, its reproduction could consist of information storage means to store the information coming from the sound waves captured by a reception device in at least one storage unit, processing means of the information to obtain the relevant parameters of the stored information, means of comparison to correlate the parameters of the stored information with a parameterized HRTF, previously stored in at least one storage unit, means of information processing to obtain the Binaural Transformation (BF) and apply it to the stored information, storage means to save the binaural transformation of the stored information for its later recovery and reproduction, if necessary.
- information storage means to store the information coming from the sound waves captured by a reception device in at least one storage unit
- processing means of the information to obtain the relevant parameters of the stored information
- means of comparison to correlate the parameters of the stored information with a parameterized HRTF, previously stored in at least one storage unit
- means of information processing to obtain the Binaural Transformation (BF) and apply it to the stored information
- storage means to save the binaural transformation of the stored information for its later recovery and reproduction, if necessary.
Landscapes
- Physics & Mathematics (AREA)
- Engineering & Computer Science (AREA)
- Acoustics & Sound (AREA)
- Signal Processing (AREA)
- Stereophonic System (AREA)
Abstract
The invention relates to a small system and method for binaural recording, which can record sound and decode it into a three-dimensional format, making available the reproduction thereof in three dimensions using reproduction devices such as headphones or conventional headphones, where said method and system offer a portable recording solution of preferably millimeter-size dimensions, that can be built into professional or household recording devices. The invention further relates to a computer program for binaural recording, and to a method for producing the recording system of the invention.
Description
MÉTODO Y SISTEMA DE TAMAÑO REDUCIDO PARA LA DECODIFICACIÓN DE SEÑALES DE AUDIO EN SEÑALES DE AUDIO BINAURAL MEMORIA DESCRIPTIVA CAMPO DE APLICACION METHOD AND REDUCED SIZE SYSTEM FOR THE DECODING OF AUDIO SIGNALS IN BINAURAL AUDIO SIGNALS DESCRIPTIVE MEMORY FIELD OF APPLICATION
La presente invención consiste en un sistema de tamaño reducido para grabación binaural y/o reproducción de señales de audio binaurales que permiten al usuario sentir la experiencia del sonido tridimensional. Además, la invención también propone una metodología asociada para efectuar dicha grabación y/o reproducción, un programa computacional asociado a dicha metodología, y el proceso de fabricación de dicho sistema. The present invention consists of a system of reduced size for binaural recording and / or reproduction of binaural audio signals that allow the user to experience the three-dimensional sound experience. In addition, the invention also proposes an associated methodology to effect said recording and / or reproduction, a computer program associated with said methodology, and the manufacturing process of said system.
ANTECEDENTES DE LA INVENCION BACKGROUND OF THE INVENTION
La tecnología para grabar y/o reproducir video en tres dimensiones (3D) es una importante innovación en la industria del entretenimiento, aplicándose exitosamente tanto a gran escala, como por ejemplo en salas de cine, así como a escala menor, por ejemplo en sistemas portátiles y/o de uso en el hogar. Sin embargo, la grabación y/o reproducción de sonido tridimensional no se ha desarrollado como su par en video, lo que ha resultado en que la experiencia de sonido tridimensional que experimentan los usuarios al escuchar un sonido grabado aún no sea similar respecto a lo que el ser humano en realidad escucha en circunstancias naturales. The technology to record and / or reproduce video in three dimensions (3D) is an important innovation in the entertainment industry, successfully applied both on a large scale, such as in cinemas, as well as on a smaller scale, for example in systems portable and / or for home use. However, the recording and / or reproduction of three-dimensional sound has not developed as its video pair, which has resulted in the experience of three-dimensional sound experienced by users when listening to a recorded sound is not yet similar with respect to what the human being actually listens in natural circumstances.
En este contexto, el ser humano es capaz de identificar la localización de los sonidos a su alrededor de manera muy precisa (atrás, a los lados, arriba, abajo, cerca, lejos, etc.). El sistema auditivo humano percibe el sonido de manera diferente en cada oído de acuerdo a cada fuente
sonora específica y su localización. Por su parte, el cerebro humano es capaz de procesar dichas diferencias permitiéndole identificar la dirección y distancia del origen del sonido. In this context, the human being is able to identify the location of sounds around them very precisely (back, sides, up, down, near, far, etc.). The human auditory system perceives the sound differently in each ear according to each source specific sound and its location. For its part, the human brain is able to process these differences allowing you to identify the direction and distance of the origin of the sound.
Actualmente, la forma más común de escuchar sonido grabado es mediante parlantes estéreo. Existen varios tipos de parlantes, en cuanto a dimensiones y principios de funcionamiento, pero todos se basan en la transformación de energía eléctrica en energía mecánica y, finalmente, en ondas acústicas. La mayoría de los parlantes usados hoy en día (en salas de cine, automóviles, tiendas, estudios, audífonos y aparatos domésticos) funcionan con un electroimán que mueve una bobina, que a su vez mueve un cono que genera ondas acústicas. Currently, the most common way to listen to recorded sound is through stereo speakers. There are several types of speakers, in terms of dimensions and principles of operation, but all are based on the transformation of electrical energy into mechanical energy and, finally, acoustic waves. Most of the speakers used today (in theaters, cars, shops, studios, headphones and home appliances) work with an electromagnet that moves a coil, which in turn moves a cone that generates acoustic waves.
Por otra parte, el estándar comercial utilizado actualmente en la mayoría de las salas de cine modernas y en los hogares de los consumidores más exigentes, es el sistema surround. Dicho sistema define el uso de cinco o más canales con parlantes generalmente organizados en un plano horizontal, además de un canal de frecuencias bajas con un 10% de la intensidad sonora del resto de los canales. Dada la organización de los parlantes, se puede generar un efecto envolvente (o surround) del sonido en el plano de los parlantes, parcialmente similar a un campo tridimensional de sonidos, siempre y cuando el oyente se sitúe en una posición central con relación a la organización de los parlantes. On the other hand, the commercial standard currently used in most modern movie theaters and in the homes of the most demanding consumers is the surround system. This system defines the use of five or more channels with speakers generally organized in a horizontal plane, in addition to a low frequency channel with 10% of the sound intensity of the rest of the channels. Given the organization of the speakers, an enveloping (or surround) effect of the sound can be generated in the plane of the speakers, partially similar to a three-dimensional field of sounds, as long as the listener is in a central position in relation to the organization of the speakers.
La alternativa que resuelve las deficiencias prácticas, económicas y técnicas del sistema surround, es la simulación del proceso auditivo humano que permite identificar el origen de los sonidos mediante el uso de audífonos. Esta tecnología se conoce como reproducción binaural, y es capaz de brindar una sensación de inmersión tridimensional, personalizada para cada oyente.
La reproducción de material sonoro en 3D ha sido tema de investigación desde hace varias décadas, tanto en el formato surround como con tecnología binaural. En este contexto, los investigadores han realizado mediciones con una cabeza artificial para la simulación de sonidos en el campo tridimensional, desarrollando aplicaciones de localización robótica; y la personalización y parametrización de modelos antropométricos (también llamados modelos estructurales) que permiten simular sonidos 3D para cualquier fisionomía, entre otras. Al respecto, es bien sabido que existen diferencias de tiempo, de fase y de intensidad para un mismo sonido percibido en cada tímpano, en donde además efectos como la difracción, refracción y absorción de las ondas sonoras por el torso, los hombros, la cabeza y el exterior de la oreja, modifican el espectro del sonido que llega a los tímpanos. Son estos fenómenos los que permiten naturalmente al ser humano percibir el sonido en tres dimensiones, pudiendo localizar la posición de una fuente sonora a su alrededor. The alternative that solves the practical, economic and technical deficiencies of the surround system is the simulation of the human auditory process that allows identifying the origin of sounds through the use of headphones. This technology is known as binaural reproduction, and is capable of providing a sensation of three-dimensional immersion, personalized for each listener. The reproduction of sound material in 3D has been the subject of research for several decades, both in the surround format and with binaural technology. In this context, researchers have made measurements with an artificial head for the simulation of sounds in the three-dimensional field, developing applications of robotic localization; and the personalization and parameterization of anthropometric models (also called structural models) that allow simulating 3D sounds for any physiognomy, among others. In this regard, it is well known that there are differences of time, phase and intensity for the same sound perceived in each eardrum, where also effects such as diffraction, refraction and absorption of sound waves by the torso, shoulders, head and the outside of the ear, modify the spectrum of sound that reaches the eardrums. These phenomena are those that naturally allow the human being to perceive the sound in three dimensions, being able to locate the position of a sound source around it.
En este contexto, la grabación binaural de sonidos ambientales, se realiza actualmente con cualquiera de las siguientes técnicas: In this context, the binaural recording of environmental sounds is currently performed with any of the following techniques:
• Grabación con cabeza dummy. Se logra con un par de micrófonos ubicados dentro de los oídos de la cabeza de un modelo especialmente diseñado para estos efectos. • Recording with dummy head. It is achieved with a pair of microphones located inside the ears of the head of a model specially designed for these effects.
• Grabación con micrófonos binaurales para oídos. Utiliza micrófonos diseñados para ubicarlos dentro o cerca de los canales auditivos de un ser humano, al igual que los audífonos. • Recording with binaural ear microphones. It uses microphones designed to be placed in or near the hearing channels of a human being, just like hearing aids.
• Grabación con micrófonos tipo Otokinoko. Se aproxima al efecto binaural producido por la cabeza humana, mediante un dispositivo que emula la forma de algunas asimetrías que existen en la fisiología humana.
Estas técnicas tienen diversas limitaciones prácticas y/o problemas para una reproducción binaural fidedigna. Para el caso de la grabación con una cabeza dummy, la técnica es muy poco portátil, ya que requiere la instalación de un modelo de escala humana (torso) en el lugar de la grabación. Para el caso de los micrófonos binaurales que se insertan en los oídos, se trata de una solución no integrada en términos de hardware y que no provee consistencia desde una perspectiva de audio al asociarlo con la captura simultánea de otros formatos de media. En el caso de los micrófonos tipo Otokinoko, la aproximación simplificada de la anatomía humana no es suficiente por si sola para lograr una reproducción binaural fiel y tiene limitantes de escalabilidad a dispositivos de grabación de menor tamaño. Por último, todas estas técnicas están diseñadas para una anatomía estándar o promedio, por lo que al ser reproducida presenta un problema de generalización que dependerá de la distancia que exista entre la anatomía del oyente y la anatomía humana promedio. • Recording with Otokinoko type microphones. It approximates the binaural effect produced by the human head, through a device that emulates the shape of some asymmetries that exist in human physiology. These techniques have various practical limitations and / or problems for reliable binaural reproduction. For the case of the recording with a dummy head, the technique is very little portable, since it requires the installation of a model of human scale (torso) in the place of the recording. In the case of binaural microphones that are inserted in the ears, it is a solution not integrated in terms of hardware and that does not provide consistency from an audio perspective when associated with the simultaneous capture of other media formats. In the case of Otokinoko type microphones, the simplified approach of the human anatomy is not enough by itself to achieve a faithful binaural reproduction and has scalability limitations to smaller recording devices. Finally, all these techniques are designed for a standard or average anatomy, so when reproduced presents a problem of generalization that will depend on the distance between the anatomy of the listener and the average human anatomy.
Para la síntesis binaural de sonidos específicos, se puede utilizar una técnica de mezcla que requiere medir la Función de Transferencia Relacionada a la Cabeza (HRTF, sigla en inglés para Head-Related Transfer Function). Esta función se obtiene midiendo la respuesta en cada oído frente a una señal tipo impulso (generalmente en el extremo exterior del conducto auditivo). El resultado caracteriza la forma en la que el sonido es percibido por el oyente, pues contiene en forma implícita la fisonomía de éste. Debido a la habilidad intrínseca del ser humano para localizar sonidos, es plausible la idea de posicionar un sonido con un alto grado de fidelidad en el campo 3D del oyente, al aplicar la HRTF a dicho sonido. For the binaural synthesis of specific sounds, a mixing technique can be used that requires measuring the Head-Related Transfer Function (HRTF). This function is obtained by measuring the response in each ear against a pulse-type signal (usually at the outer end of the ear canal). The result characterizes the way in which the sound is perceived by the listener, since it contains implicitly the physiognomy of the listener. Due to the intrinsic ability of human beings to locate sounds, the idea of positioning a sound with a high degree of fidelity in the 3D field of the listener is plausible, when applying the HRTF to said sound.
Debido a la relación directa que existe entre la anatomía del modelo objeto de las mediciones y la HRTF, dicha función puede variar considerablemente de persona a persona. Las diferencias pueden aumentar dependiendo de la ubicación relativa del estímulo respecto al
usuario, lo cual ha sido estudiado en profundidad para cambios en azimut, elevación y distancia. En este contexto, investigaciones han medido cómo un oyente responde frente a una HRTF genérica, observándose que la respuesta en el plano horizontal no presenta grandes variaciones en distintos oyentes, mientras que las diferencias cuando se usa HRTF para variaciones en elevación inciden en una alta tasa de error para la localización de sonidos en el campo tridimensional. Due to the direct relationship between the anatomy of the model object of the measurements and the HRTF, this function can vary considerably from person to person. The differences may increase depending on the relative location of the stimulus with respect to user, which has been studied in depth for changes in azimuth, elevation and distance. In this context, research has measured how a listener responds to a generic HRTF, observing that the response in the horizontal plane does not present large variations in different listeners, while the differences when using HRTF for variations in elevation affect a high rate of error for the location of sounds in the three-dimensional field.
Siguiendo la línea anterior se pueden encontrar diversos estudios relacionados con muéstreos de HRTF para anatomías específicas. En el año 2001, CIPIC Interface Laboratory de la Universidad de California Davis profundizó en las diferencias de muestreo en 45 sujetos distintos, publicando dichos resultados en "The CIPIC HRTF datábase", en Applications of Signal Processing to Audio and Acoustics, 2001 IEEE Workshop on the, pp. 99 -102, 2001, by V. Algazi et al. En el análisis y modelamiento es posible encontrar desarrollos como el que fue publicado para aplicaciones de localización robótica por C. Pinho et al. titulado "A Bayesian Binaural System for 3D Sound-Source Localization", en Cognitive Systems, (Karlsruhe, Alemania), 2008. Asimismo, también es posible encontrar desarrollos relacionados a la personalización y parametrización de modelos antropométricos (también llamados modelos estructurales) que permitan la simulación de sonidos 3D para cualquier fisionomía. Recientes investigaciones proponen una función de transformación para una oreja en particular y su relación con la HRTF, que se le ha llamado PRTF (sigla en inglés para Pinna-Related Transfer Functiori). En particular, en el año 2011 M. Geronazzo et al. ("Customized 3d sound for innovative interaction design", en Proc. Italian ACM SigCHI Conf. on Computer-Human Interaction, (Alghero, Italia), pp. 1-3, 201 1) desarrolló un modelo estructural personalizado para una anatomía que explica la
relación que existe entre la elevación de un muestreo y el radio de la cabeza como una parte de un modelo estructural de la HRTF, y en particular se estudia la relación que existe entre el azimut de una muestra y las dimensiones de la oreja en función con la PRTF. Otro estudio realizado por D. J. Kistler et al. ("A model of head-related transfer functions based on principal components analysis and minimum-phase reconstruction", The Journal of theFollowing the previous line you can find several studies related to HRTF samples for specific anatomies. In 2001, CIPIC Interface Laboratory of the University of California Davis delved into the sampling differences in 45 different subjects, publishing these results in "The CIPIC HRTF datábase", in Applications of Signal Processing to Audio and Acoustics, 2001 IEEE Workshop on the, pp. 99-102, 2001, by V. Algazi et al. In the analysis and modeling, it is possible to find developments such as the one published for robotic localization applications by C. Pinho et al. entitled "A Bayesian Binaural System for 3D Sound-Source Localization", in Cognitive Systems, (Karlsruhe, Germany), 2008. Likewise, it is also possible to find developments related to the personalization and parameterization of anthropometric models (also called structural models) that allow the simulation of 3D sounds for any physiognomy. Recent research proposes a transformation function for a particular ear and its relationship with the HRTF, which has been called PRTF (acronym in English for Pinna-Related Transfer Functiori). In particular, in the year 2011 M. Geronazzo et al. ("Customized 3d sound for innovative interaction design", in Proc. Italian ACM SigCHI Conf. On Computer-Human Interaction, (Alghero, Italy), pp. 1-3, 201 1) developed a customized structural model for an anatomy that explains the relationship that exists between the elevation of a sample and the radius of the head as a part of a structural model of the HRTF, and in particular the relationship that exists between the azimuth of a sample and the dimensions of the ear in function with the PRTF. Another study conducted by DJ Kistler et al. ("A model of head-related transfer functions based on principal components analysis and minimum-phase reconstruction", The Journal of the
Acoustical Society of America, vol. 91, no. 3, pp. 1637-1647, 1992) propone un modelo de cinco funciones base obtenidas a partir del Análisis de Componentes Principales (PCA, sigla en inglés para Principal Components Analysis) para aproximar cualquier HRTF, demostrando que la localización entre la HRTF real y la modelada prácticamente no variaba. Acoustical Society of America, vol. 91, no. 3, pp. 1637-1647, 1992) proposes a model of five base functions obtained from the Principal Component Analysis (PCA) to approximate any HRTF, demonstrating that the location between the real HRTF and the modeled one practically does not It varied.
Por otra parte, la patente estadounidense 8.265.284 describe un aparato para generar una señal de audio binaural que incluye un demultiplexor y decodificador que recibe información de audio que consta de una señal de audio de canal M que es una mezcla de una señal de audio de canal N y de datos de parámetros espaciales para mezclar la señal de audio de canal M con la señal de audio de canal N. De acuerdo con dicho documento, un procesador de conversión convierte parámetros espaciales de la información de parámetros espaciales en los primeros parámetros binaurales como respuesta a al menos una función de transferencia perceptual de binaural. Luego, un procesador de matriz convierte la señal de audio de canal M en una primera señal estéreo en respuesta a los primeros parámetros binaurales y un filtro estéreo genera la señal de audio binaural filtrando la primera señal estéreo. Los coeficientes del filtro para el filtro estéreo se determinan en respuesta a por lo menos una de las funciones de transferencia de percepción binaural por un procesador de coeficiente, en el que dicha función de transferencia es una HRTF. Con respecto a esto, el documento estadounidense 8.265.284 se refiere a la generación de señal binaural para el contenido que ha sido mezclado previamente con características espaciales, tales como una mezcla surround 5.1 de música o sonido para
imágenes. Debido a que sólo utiliza HRTF parametrizada de la percepción auditiva humana, no trata de modelar la respuesta del sistema de adquisición con el que sería capturada la calidad de una señal 3D. Por lo tanto, dicho sistema resultaría impreciso en la transformación de una variedad de micrófonos con un patrón espacial característico en una señal binaural, ya que no tiene en cuenta la estructura de los componentes implicados en la captura de las ondas de sonido como un parámetro relevante para el procesamiento del audio con una función de transferencia. On the other hand, US patent 8,265,284 discloses an apparatus for generating a binaural audio signal that includes a demultiplexer and decoder that receives audio information consisting of an M-channel audio signal that is a mixture of an audio signal of channel N and spatial parameter data to mix the audio signal of channel M with the audio signal of channel N. According to said document, a conversion processor converts spatial parameters of the information of spatial parameters into the first parameters binaurals in response to at least one binaural perceptual transfer function. Then, a matrix processor converts the M-channel audio signal into a first stereo signal in response to the first binaural parameters and a stereo filter generates the binaural audio signal by filtering the first stereo signal. The filter coefficients for the stereo filter are determined in response to at least one of the binaural perception transfer functions by a coefficient processor, wherein said transfer function is a HRTF. With respect to this, US 8,265,284 relates to the generation of binaural signal for content that has previously been mixed with spatial characteristics, such as a 5.1 surround mix of music or sound for images. Because it only uses parametrized HRTF of human auditory perception, it does not try to model the response of the acquisition system with which the quality of a 3D signal would be captured. Therefore, said system would be imprecise in the transformation of a variety of microphones with a characteristic spatial pattern in a binaural signal, since it does not take into account the structure of the components involved in the capture of sound waves as a relevant parameter. for audio processing with a transfer function.
Como es posible notar, el desafío de la presente invención es diseñar un sistema y su metodología para grabación binaural, en donde dicho sistema y método se puedan adaptar a una cámara de video 3D profesional o casera, así como a cualquier otro tipo de dispositivo de tamaño reducido, y que resuelva las limitaciones tecnológicas actuales descritas previamente. As it is possible to note, the challenge of the present invention is to design a system and its methodology for binaural recording, wherein said system and method can be adapted to a professional or home-made 3D video camera, as well as to any other type of device. reduced size, and that resolves the current technological limitations described previously.
DESCRIPCION DE LA INVENCION DESCRIPTION OF THE INVENTION
La presente invención aborda el desafío de ofrecer un sistema de grabación de tamaño reducido, de preferencia de dimensiones milimétricas, por ejemplo susceptible de ser utilizado dentro de una cámara de video, teléfono inteligente o dispositivos aún más pequeños, en donde dicho sistema recupera ondas de sonido filtradas acústicamente que decodifica de tal forma que cuando éste se reproduzca mediante un dispositivo de reproducción tipo audífonos o audífonos convencionales, se escuche exactamente como lo experimentaría un observador desde la perspectiva de la escena. Adicionalmente, la invención también revela un método de grabación utilizado por el sistema identificado anteriormente para el procesamiento de la señal de audio, un programa computacional que aplica dicho método y el proceso de fabricación del sistema mencionado. The present invention addresses the challenge of offering a recording system of reduced size, preferably of millimeter dimensions, for example capable of being used inside a video camera, smart phone or even smaller devices, where said system recovers waves of acoustically filtered sound that decodes in such a way that when it is reproduced by means of a conventional type of hearing aid or hearing aid device, it is heard exactly how an observer would experience it from the perspective of the scene. Additionally, the invention also discloses a recording method used by the system identified above for the processing of the audio signal, a computer program that applies said method and the manufacturing process of said system.
Los objetivos específicos de esta invención son proporcionar un sistema de grabación de sonido que posea en una modalidad de la invención, un dispositivo de filtro acústico que
minimice la correlación en la respuesta a un mismo sonido originado desde cualquier par de puntos con distinto ángulo esférico y un dispositivo decodificador de procesamiento binaural, que tome la respuesta sonora medida dentro de dos filtros acústicos, y rescate la información de la localización del sonido, la cual está implícita en las señales de audio, transformándola a un par de señales con las características que tendrían al ser escuchadas por el ser humano. The specific objects of this invention are to provide a sound recording system having in an embodiment of the invention, an acoustic filter device that minimize the correlation in the response to the same sound originated from any pair of points with different spherical angle and a binaural processing decoder device, which takes the measured sound response within two acoustic filters, and rescue the information of the location of the sound, which is implicit in the audio signals, transforming it into a pair of signals with the characteristics that would have to be heard by the human being.
Para una mejor comprensión de la tecnología descrita en la presente invención es necesario entender lo esencial acerca de la escucha en tres dimensiones y la simulación de este fenómeno mediante la grabación binaural. For a better understanding of the technology described in the present invention it is necessary to understand the essentials about listening in three dimensions and the simulation of this phenomenon by binaural recording.
Para una fuente sonora específica, el sistema auditivo humano percibe el sonido de manera diferente en cada oído de acuerdo a la localización de dicha fuente. En base a esto, el cerebro utiliza una serie de señales derivadas de la percepción del sonido para calcular esta localización, de las cuales las más importantes son: For a specific sound source, the human auditory system perceives the sound differently in each ear according to the location of that source. Based on this, the brain uses a series of signals derived from the perception of sound to calculate this location, of which the most important are:
• Diferencias de tiempo interaural, dadas por el retardo de la llegada de la onda sonora al oído más lejano a la fuente; • Interaural time differences, given by the delay of the arrival of the sound wave to the ear furthest from the source;
• Diferencias de nivel interaural, que corresponden a las diferencias en intensidad con la que la onda sonora llega a cada oído; • Interaural level differences, which correspond to the differences in intensity with which the sound wave reaches each ear;
• Diferencias de fase interaural, dadas por la distinta fase de la onda sonora en cada oído; y • Interaural phase differences, given by the different phase of the sound wave in each ear; Y
• Diferencias del espectro del sonido, dadas por la absorción, resonancia y/o difracción de ciertas frecuencias, generadas por la fisionomía del oyente en función de la
ubicación relativa de la fuente del sonido. En forma particular son muy incidentes en el tipo de diferencias los efectos producidos por las orejas, cabeza, cuello y torso. • Differences in the sound spectrum, given by the absorption, resonance and / or diffraction of certain frequencies, generated by the physiognomy of the listener in function of the relative location of the source of the sound. In particular, the effects produced by the ears, head, neck and torso are very incidents in the type of differences.
Todas estas características se pueden representar en un vector (Xi, Xr), en el cual Xj y Xr contienen la información de entrada de la señal, por ejemplo, la representación de nivel, fase y espectro del sonido, en un momento dado, en el oído izquierdo y derecho respectivamente. All these characteristics can be represented in a vector (Xi, X r ), in which Xj and X r contain the input information of the signal, for example, the level, phase and spectrum representation of the sound, at a given moment , in the left and right ear respectively.
Parte de la literatura científica hasta el día de hoy se enfoca en determinar cuáles de estas señales tienen mayor o menor importancia en la localización de distintos sonidos, y en el estudio de otras señales y procesos que participan en la localización. Sin perjuicio de lo anterior, se han creado nuevos métodos que permiten la grabación y reproducción del sonido de manera aceptablemente fiel a como lo percibimos en realidad (en 3D), que pueden agruparse en una de las siguientes categorías: Part of the scientific literature to this day focuses on determining which of these signals have more or less importance in the location of different sounds, and in the study of other signals and processes involved in localization. Notwithstanding the foregoing, new methods have been created that allow the recording and reproduction of sound in an acceptably faithful manner to how we perceive it in reality (in 3D), which can be grouped in one of the following categories:
La primera es la utilización de un modelo físico para realizar la grabación de sonidos, que interprete el sonido a su alrededor de manera similar a lo que ocurre con la anatomía humana. En otras palabras, una técnica de grabación que sea capaz de detectar las cuatro señales indicadas anteriormente que utiliza el cerebro para la localización de los sonidos. En esta categoría podemos encontrar el método de la cabeza dummy ya mencionada, el famoso disco de Jecklin, los micrófonos desarrollados por la compañía japonesa Otokinoko, y los métodos que utilizan micrófonos binaurales que se colocan en los oídos de quien realiza la grabación. En todos los casos, el aparato es utilizado para realizar las grabaciones in situ, es decir, la localización de los sonidos queda dada por la posición relativa de la cabeza al momento de la grabación. Es posible hacer creer al cerebro que dicho sonido efectivamente proviene de la localización deseada, siempre que el oyente utilice audífonos situados de manera similar a los micrófonos utilizados
para realizar la grabación con el aparato, y naturalmente, que las características del modelo sean lo más similar posible a las de la fisionomía humana promedio. En general estos métodos involucran la localización del sonido a cambio del tamaño y portabilidad del aparato, además de tener un problema de generalización en relación a la anatomía específica de cada oyente. The first is the use of a physical model to make the recording of sounds, which interprets the sound around them in a similar way to what happens with human anatomy. In other words, a recording technique that is capable of detecting the four signals indicated above that the brain uses to locate sounds. In this category we can find the aforementioned dummy head method, the famous Jecklin disc, the microphones developed by the Japanese company Otokinoko, and the methods that use binaural microphones that are placed in the ears of the recording artist. In all cases, the device is used to make the recordings in situ, that is, the location of the sounds is given by the relative position of the head at the time of recording. It is possible to make the brain believe that the sound actually comes from the desired location, provided that the listener uses headphones located in a similar way to the microphones used. to make the recording with the apparatus, and naturally, that the characteristics of the model are as similar as possible to those of the average human physiognomy. In general, these methods involve locating the sound in exchange for the size and portability of the device, as well as having a problem of generalization in relation to the specific anatomy of each listener.
La segunda categoría agrupa los métodos utilizando un modelo matemático de las dimensiones de una cabeza en particular y el procesamiento de sonido digital para sintetizar señales de audio que el cerebro interpreta como binaural. El más conocido de estos modelos utiliza una HRTF, la cual se obtiene para cada cabeza mediante la medición de la respuesta de micrófonos situados dentro del oído, al ser estimulados mediante sonidos con todas las frecuencias existentes en el rango auditivo humano. Estos sonidos son situados en distintas posiciones del espacio 3D, en un lugar en el que no existan reflexiones sonoras que interfieran con la duración de la HRTF (típicamente una cámara anecóica), dónde las grabaciones de los micrófonos son evaluadas y almacenadas para cada ubicación. Mediante la convolución matemática de un sonido cualquiera con la respuesta obtenida para una localización específica, es posible hacer creer al cerebro que dicho sonido efectivamente proviene de la localización deseada, siempre que el oyente utilice audífonos situados de manera similar a los micrófonos utilizados para obtener la HRTF. Este método alcanza un resultado personalizado y muy preciso para la anatomía que se utilica al hacer las mediciones (que en particular puede ser una cabeza dummy), y por lo mismo puede resultar en un audio de baja fidelidad para un oyente cuya fisiología difiera de la utilizada para realizar las medidas. Además, sólo sirve para la reproducción de un número finito (y por motivos prácticos, pequeño) de señales a situar en el campo 3D del oyente, excluyendo así todos los sonidos ambientales continuos, como por ejemplo, el sonido del mar o el de la lluvia en el bosque.
En este contexto, la presente invención busca resolver las limitantes de los métodos para ambas categorías, introduciendo una nueva tecnología de grabación, cumpliendo con los siguientes requisitos: · Permite una grabación fiel y una reproducción de sonidos con un origen continuo en el espacio (sonidos ambientales); The second category groups the methods using a mathematical model of the dimensions of a particular head and digital sound processing to synthesize audio signals that the brain interprets as binaural. The best known of these models uses a HRTF, which is obtained for each head by measuring the response of microphones located inside the ear, when stimulated by sounds with all the existing frequencies in the human auditory range. These sounds are placed in different positions of the 3D space, in a place where there are no sound reflections that interfere with the duration of the HRTF (typically an anechoic chamber), where the recordings of the microphones are evaluated and stored for each location. By mathematical convolution of any sound with the response obtained for a specific location, it is possible to make the brain believe that the sound actually comes from the desired location, provided that the listener uses headphones located in a similar way to the microphones used to obtain the HRTF This method achieves a personalized and very precise result for the anatomy that is used when making the measurements (which in particular can be a dummy head), and therefore can result in low fidelity audio for a listener whose physiology differs from the used to make the measurements. In addition, it only serves to reproduce a finite number (and for practical reasons, small) of signals to be placed in the 3D field of the listener, thus excluding all continuous environmental sounds, such as the sound of the sea or the sound of the rain in the forest. In this context, the present invention seeks to resolve the limitations of the methods for both categories, introducing a new recording technology, fulfilling the following requirements: · It allows faithful recording and reproduction of sounds with a continuous origin in space (sounds environmental);
• Puede adaptarse a dimensiones milimétricas para ser instalada en dispositivos de tamaño reducido tanto para profesionales como consumidores; • It can be adapted to millimeter dimensions to be installed in small devices for both professionals and consumers;
· Es capaz de usar una transformada para mapear los sonidos grabados por el sistema, en una representación del sonido con forma humana. · It is able to use a transform to map the sounds recorded by the system, in a representation of the sound with human form.
Luego, con el fin de cumplir con los requisitos ya mencionados, la invención consiste en desarrollar un método y dispositivos que pertenezcan a la primera y segunda categoría, combinando un sistema físico para la grabación de sonidos binaurales con una metodología aplicada para estimar una Transformación Binaural (BF) de las señales capturadas. Then, in order to comply with the aforementioned requirements, the invention consists of developing a method and devices belonging to the first and second category, combining a physical system for recording binaural sounds with a methodology applied to estimate a Binaural Transformation. (BF) of the signals captured.
En primer lugar, la invención consiste en desarrollar un método y dispositivos pertenecientes a la primera categoría, es decir, un método físico que minimice la correlación en respuesta a un mismo sonido originado desde cualquier par de puntos, con un ángulo esférico distinto. Dicho método y dispositivos son capaces de recuperar toda la información que permite al ser humano localizar sonidos en el espacio, ya que minimiza la correlación en la respuesta del sistema como resultado a señales iguales emitidas desde diferentes ubicaciones esféricas que ayudan a conservar la información relacionada a la localización del sonido.
Para lo anterior, una modalidad del sistema de la invención propone un dispositivo de filtro acústico con materialidad y especificaciones parametrizadas para cada ángulo esférico de una discretización definida o grilla de muestreo. De acuerdo al método de la invención este dispositivo, que se denomina Filtro Acústico de Parametrización Angular (APAF, sigla en inglés para Angular Parameterization Acoustic Filter), es aplicado a un par de dispositivos captadores de sonido, por ejemplo, micrófonos de dimensiones acordes a las especificaciones, para medir más a fondo la función de transferencia relacionada a este sistema, obtenido en base sus señales de entrada y salida. Posteriormente, y en base a la segunda categoría de los métodos para la grabación binaural, se desarrolla un algoritmo de decodificación de la información capturada por el sistema micrófonos-filtro (MFS, sigla en inglés para Microphones-Filter System) o sistema de adquisición, mediante una combinación de algoritmos ya existentes de inteligencia artificial para la aproximación de funciones, y así alcanzar la función de trasformación deseada. Se espera que dicha función de trasformación tome una parte del audio capturado por el sistema de adquisición y lo convierta en una señal tal cual la escucharía una cabeza humana normal. Con el fin de obtener esta función de trasformación, se utiliza una cabeza d mmy o modelo y se realiza un cálculo para obtener el HRTF de esta cabeza. Se realizan medidas equivalentes para el sistema de adquisición, modelación y obtención de una Función de Transferencia MFS (MFSTF, sigla en inglés para Microphones-Filter System Transfer Functiorí). De la información de la HRTF y MFSTF, se aprenden como pares iguales los parámetros de localización tales como las típicas señales binaurales que luego se utilizan en la función de transformación para aproximarse al audio binaural.
En este sentido, la función de trasformación deseada se obtiene por medio de un proceso de entrenamiento y validación que se realiza con pares de resultados de cada función de transferencia (HRTF y MFSTF) y sus parámetros calculados para los sonidos emitidos desde la misma ubicación angular relativa. Luego, el proceso aproxima el MFSTF al HRTF de dicho sistema, obteniendo la Transformación Binaural (BT, sigla en inglés para BinauralFirst, the invention consists of developing a method and devices belonging to the first category, that is, a physical method that minimizes the correlation in response to the same sound originating from any pair of points, with a different spherical angle. Said method and devices are capable of recovering all the information that allows the human being to locate sounds in space, since it minimizes the correlation in the response of the system as a result of equal signals emitted from different spherical locations that help to preserve the information related to the location of the sound. For the foregoing, one embodiment of the system of the invention proposes an acoustic filter device with materiality and parameterized specifications for each spherical angle of a defined discretization or sampling grid. According to the method of the invention, this device, which is called Acoustic Filter of Angular Parametrization (APAF, acronym in English for Angular Parameterization Acoustic Filter), is applied to a pair of sound capturing devices, for example, microphones of dimensions according to the specifications, to measure more thoroughly the transfer function related to this system, obtained based on its input and output signals. Subsequently, and based on the second category of methods for binaural recording, an algorithm of decoding the information captured by the microphones-filter system (MFS, acronym in English for Microphones-Filter System) or acquisition system is developed. through a combination of existing algorithms of artificial intelligence for the approximation of functions, and thus achieve the function of desired transformation. It is expected that this transformation function takes a part of the audio captured by the acquisition system and converts it into a signal as it would be heard by a normal human head. In order to obtain this transformation function, a d mmy or model head is used and a calculation is made to obtain the HRTF of this head. Equivalent measurements are made for the acquisition, modeling and obtaining system of an MFS Transfer Function (MFSTF, for the Microphones-Filter System Transfer Functiorí). From the information of the HRTF and MFSTF, equal parameters are learned such as the typical binaural signals that are then used in the transformation function to approach the binaural audio. In this sense, the desired transformation function is obtained by means of a training and validation process carried out with pairs of results of each transfer function (HRTF and MFSTF) and their parameters calculated for the sounds emitted from the same angular location. relative. Then, the process approximates the MFSTF to the HRTF of said system, obtaining the Binaural Transformation (BT, acronym in English for Binaural
Transformatiori) que convierte la señal adquirida en una señal de reproducción binaural. Así, el sistema y método conforman un diseño integral que es capaz de grabar audio y luego procesarlo para su reproducción como un ambiente de sonido en tres dimensiones. Transformatiori) that converts the acquired signal into a binaural reproduction signal. Thus, the system and method make up an integral design that is capable of recording audio and then processing it for reproduction as a sound environment in three dimensions.
BREVE DESCRIPCION DE LAS FIGURAS BRIEF DESCRIPTION OF THE FIGURES
La naturaleza de la invención se comprenderá mejor a partir de la siguiente descripción detallada de varias modalidades específicas, dadas solo a modo de ejemplo, con referencia a los dibujos adjuntos, en los que: The nature of the invention will be better understood from the following detailed description of several specific embodiments, given only by way of example, with reference to the accompanying drawings, in which:
La Figura 1 , muestra un esquema de audición de un sonido específico emitido desde el punto fuente S, donde Xi es la señal de entrada recibida por el oído izquierdo y Xr es la señal de entrada recibida por el oído derecho. Figure 1 shows a listening pattern of a specific sound emitted from the source point S, where Xi is the input signal received by the left ear and X r is the input signal received by the right ear.
La Figura 2, muestra un diagrama de bloques del procesamiento realizado a las señales de audio, que es la base del proceso de decodificación para encontrar la representación binaural. Figure 2 shows a block diagram of the processing performed on the audio signals, which is the basis of the decoding process to find the binaural representation.
La Figura 3, muestra una vista esquemática de una de las modalidades preferidas de la invención. Figure 3 shows a schematic view of one of the preferred embodiments of the invention.
DESCRIPCION DETALLADA
La presente invención describe un método y sistema de grabación binaural, capaz de grabar sonido y decodificar sus características espaciales, el cual al ser reproducido con dispositivos tipo audífonos ofrece una representación tridimensional de la escena de sonido grabada. Dicho sistema y método ofrecen una solución de tamaño reducido, de dimensiones preferentemente milimétricas, que se pueden aplicar y/o integrar a dispositivos profesionales, domésticos, portátiles como los celulares, entre otros. DETAILED DESCRIPTION The present invention describes a method and binaural recording system, capable of recording sound and decoding its spatial characteristics, which when reproduced with hearing aid-type devices offers a three-dimensional representation of the recorded sound scene. Said system and method offer a solution of reduced size, preferably of millimeter dimensions, which can be applied and / or integrated into professional, domestic, portable devices such as cell phones, among others.
En una modalidad de la invención dicho sistema de grabación consiste en al menos dos unidades de filtros acústicos APAF, donde cada unidad de filtros tiene en su interior una unidad de sensores de sonido. Por ejemplo, un micrófono que transforma la señal acústica u onda de sonido en señal eléctrica o señal de audio. La disposición de las unidades de APAF se conoce como dispositivo de filtro acústico o dispositivo APAF. Cada unidad APAF, las cuales están físicamente separadas en una modalidad, minimiza la correlación angular (esférica) de la respuesta a cualquier par de sonidos idénticos con frecuencias en el rango humano, medidos desde la unidad de sensores de sonidos que se ubica al interior de cada unidad de filtro acústico. De manera preferencial, dicha unidad de sensores de sonido consiste en un micrófono omnidireccional de alta ganancia en proporción a su tamaño. En este contexto, en una modalidad preferente de la invención, las unidades de filtro acústico y sensores de sonido utilizadas son de dimensiones milimétricas, lo que facilita su integración a dispositivos de grabación existentes como aparatos profesionales, portátiles o de uso doméstico. De esta manera, la presente invención considera que la curva de frecuencia de la unidad de sensores de sonido utilizada no es excesivamente diferente a la de los micrófonos convencionales utilizados en los estudios de grabación, por lo que cualquier no-linealidad en la respuesta puede ser corregida por etapas de ecualización posteriores.
La construcción de un dispositivo APAF comprende materiales comúnmente utilizados en la producción de cámaras de video, teléfono inteligente y sus accesorios, micrófonos, absorción acústica y resonancia acústica, siendo el objetivo obtener la mínima correlación angular para un par de sonidos idénticos emitidos de fuentes ubicadas en distintas posiciones angulares, medidos en base a un índice promedio del resultado obtenido para cada par de sonidos. Entonces, el objetivo principal del dispositivo de filtro acústico es preservar la información de localización del sonido contenida en una señal de audio, que proporciona los efectos de la variación del espectro de sonido y la variación del nivel de sonido de la onda de sonido recibida. Asimismo, debido a la separación espacial de las unidades de sensores de sonido, hay una variación en el tiempo en el que los eventos de sonido son adquiridos por cada sensor de sonido, y por lo tanto dicha diferencia de tiempo también está contenida en las señales de audio como información. In one embodiment of the invention said recording system consists of at least two APAF acoustic filter units, where each filter unit has a sound sensor unit in its interior. For example, a microphone that transforms the acoustic signal or sound wave into an electrical signal or an audio signal. The arrangement of the APAF units is known as an acoustic filter device or APAF device. Each APAF unit, which are physically separated in one mode, minimizes the angular (spherical) correlation of the response to any pair of identical sounds with frequencies in the human range, measured from the sound sensor unit that is located within the Each unit of acoustic filter. Preferably, said sound sensor unit consists of a high gain omnidirectional microphone in proportion to its size. In this context, in a preferred embodiment of the invention, the acoustic filter units and sound sensors used are of millimeter dimensions, which facilitates their integration into existing recording devices such as professional, portable or domestic appliances. In this way, the present invention considers that the frequency curve of the sound sensor unit used is not excessively different from that of the conventional microphones used in the recording studios, so any non-linearity in the response may be corrected by later equalization stages. The construction of an APAF device comprises materials commonly used in the production of video cameras, smart phones and their accessories, microphones, acoustic absorption and acoustic resonance, the objective being to obtain the minimum angular correlation for a pair of identical sounds emitted from sources located in different angular positions, measured based on an average index of the result obtained for each pair of sounds. Then, the main objective of the acoustic filter device is to preserve the location information of the sound contained in an audio signal, which provides the effects of the variation of the sound spectrum and the variation of the sound level of the received sound wave. Also, due to the spatial separation of the sound sensor units, there is a variation in the time in which the sound events are acquired by each sound sensor, and therefore said time difference is also contained in the signals of audio as information.
Para lograr la variación del espectro de sonido el dispositivo APAF ofrece: To achieve the variation of the sound spectrum, the APAF device offers:
• Un sistema de densidad variable, que varía de forma paramétricamente angular (elevación y azimut); • A variable density system, which varies parametrically angular (elevation and azimuth);
• Cancelación/habilitación de ciertas frecuencias, que se logra a través de canales de longitud diferentes junto con lo cual el sonido viaja antes de llegar al micrófono• Cancellation / enabling of certain frequencies, which is achieved through different length channels together with which the sound travels before reaching the microphone
(similar a cómo funciona un micrófono direccional, es decir, lograr la cancelación de sonido de ciertas direcciones a través de la cancelación de fase).
La variación de nivel se consigue de forma natural por la separación espacial de ambos micrófonos, y debido a la absorción/disipación experimentada por el sonido al pasar a través del dispositivo. Un dispositivo APAF con sus unidades APAF que ha sido acoplado a una unidad de sensores de sonido o micrófono, consta de un subsistema denominado sistema micrófonos-filtro (MFS) o sistema de adquisición, el cual es uno de los ejes centrales para la grabación de sonido de la presente invención. Para que el sonido registrado por el MFS sea grabado y/o reproducido de forma binaural se utiliza un dispositivo decodificador que traduce o transforma la señal recuperada por el dispositivo captador de sonidos a una señal tridimensional como la que escucha el oído humano. Con este propósito, el dispositivo de decodificación consta de medios para almacenar información de cálculo y procesamiento, como mediciones acústicas realizados al MFS y a un sistema de cabeza dummy, aplicando una transformación a la señal de salida del MFS para obtener una señal de reproducción binaural en un dispositivo de reproducción tipo audífonos o audífonos convencionales. (similar to how a directional microphone works, that is, achieving cancellation of sound from certain directions through phase cancellation). The level variation is achieved naturally by the spatial separation of both microphones, and due to the absorption / dissipation experienced by the sound as it passes through the device. An APAF device with its APAF units that has been coupled to a sound sensor unit or microphone, consists of a subsystem called the microphones-filter system (MFS) or acquisition system, which is one of the central axes for the recording of sound of the present invention. For the sound recorded by the MFS to be recorded and / or reproduced binaurally, a decoder device is used that translates or transforms the signal recovered by the sound capture device into a three-dimensional signal like that which the human ear hears. For this purpose, the decoding device consists of means for storing calculation and processing information, such as acoustic measurements made to the MFS and a dummy head system, by applying a transformation to the MFS output signal to obtain a binaural reproduction signal in a type of hearing aid device or conventional hearing aids.
En este contexto, las mediciones acústicas realizadas tanto al MFS como a la cabeza dummy para determinar la función de transformación, se efectúan en base a una muestra sonora que contiene todas las frecuencias que el ser humano puede escuchar, donde dicha muestra puede ser del tipo ruido blanco, impulsos o barrido sinusoidal. In this context, the acoustic measurements made to both the MFS and the dummy head to determine the transformation function are made based on a sound sample that contains all the frequencies that the human being can hear, where said sample can be of the type white noise, impulses or sinusoidal sweep.
Una vez que se ha determinado la muestra sonora con la cual se medirá tanto el MFS como la cabeza dummy, se define una grilla de muestreo, la cual puede corresponder a un conjunto de características similares a las utilizadas por V. R. Algazi et al. ("The CIPIC HRTF datábase" In Proc. 2001 IEEE Workshop on Applications of Signal Processing to Audio and
Acoustics (WASPAA 2001), New Paltz, NY, USA, October 2001), es decir, N = 1250 puntos emisores de sonido, lo que es considerado un estándar en el mundo académico para mediciones de HRTF. Sin embargo, puede utilizarse cualquier tipo de grilla adecuada para este tipo de mediciones. Once the sound sample has been determined with which both the MFS and the dummy head will be measured, a sampling grid is defined, which may correspond to a set of characteristics similar to those used by VR Algazi et al. ("The CIPIC HRTF datábase" In Proc. 2001 IEEE Workshop on Applications of Signal Processing to Audio and Acoustics (WASPAA 2001), New Paltz, NY, USA, October 2001), that is, N = 1250 sound emitting points, which is considered a standard in the academic world for HRTF measurements. However, any type of grid suitable for this type of measurements can be used.
Posteriormente, se efectúa la toma de muestras con la cabeza dummy para las ubicaciones N determinadas y con la misma ubicación N al MFS o sistema de adquisición, en donde a las muestras tomadas se les realiza un análisis de correlación entre señales e iteración. En este sentido, el enfoque experimental utilizado está generando pulsos (o señales de tipo pulso como un "barrido sinusoidal" o una secuencia longitud máxima "MLS", sigla en inglés para Máximum Length Sequence) a partir de un acuerdo semi-uniforme de elevaciones y rotaciones en el plano horizontal (azimut) sobre el centro de una esfera. Es decir, las señales emitidas desde la disposición esférica se miden tanto para la cabeza dummy como para el sistema de adquisición binaural. Luego, las mediciones a la cabeza dummy ayudan a obtener la HRTF correspondiente a la cabeza dummy y los parámetros descriptivos de ésta. Se hacen las mediciones equivalentes al sistema de adquisición para la modelación y obtención de la función de transferencia de dicho sistema (MFSTF), y los parámetros descriptivos de ésta. Finalmente, ambas funciones de transferencia están correlacionadas entre sí, en el que se utiliza un método de aprendizaje supervisado para obtener la función de transformación que traduce esta correlación. Subsequently, the samples are taken with the dummy head for the determined N locations and with the same location N to the MFS or acquisition system, where the samples taken are analyzed for correlation between signals and iteration. In this sense, the experimental approach used is generating pulses (or pulse type signals such as a "sinusoidal sweep" or a maximum length sequence "MLS", for Maximum Sequence) based on a semi-uniform elevation agreement. and rotations in the horizontal plane (azimuth) over the center of a sphere. That is, the signals emitted from the spherical arrangement are measured for both the dummy head and the binaural acquisition system. Then, the dummy head measurements help to obtain the HRTF corresponding to the dummy head and the descriptive parameters of it. The measurements equivalent to the acquisition system are made for the modeling and obtaining of the transfer function of said system (MFSTF), and the descriptive parameters of it. Finally, both transfer functions are correlated with each other, in which a supervised learning method is used to obtain the transformation function that translates this correlation.
En este contexto, la función de transformación del dispositivo decodifícador se obtiene a partir de las mediciones acústicas tomadas de la cabeza dummy (HRTF) y de la función de transferencia del sistema de adquisición (MFSTF) en conjunto con el algoritmo de inteligencia
artificial que aproxima la función que mapea ambas respuestas, mediante sus parámetros descriptivos. In this context, the transformation function of the decoding device is obtained from the acoustic measurements taken from the dummy head (HRTF) and from the transfer function of the acquisition system (MFSTF) in conjunction with the intelligence algorithm artificial that approximates the function that maps both responses, through its descriptive parameters.
Como se indicó anteriormente, la función de transformación en el dispositivo de descodificación es una función de aproximación que se obtiene por aprendizaje supervisado (o una técnica de aprendizaje automático equivalente), en el que la señal de entrada al método de aprendizaje, puede provenir en una modalidad de la invención de los micrófonos del sistema, representando las ondas de sonido X| y Xr como se muestra en la Figura 1 para el caso de dos sensores, y la señal de salida es representada por Y) y Yr. As indicated above, the transformation function in the decoding device is an approximation function obtained by supervised learning (or an equivalent machine learning technique), in which the input signal to the learning method may come from one embodiment of the invention of the microphones of the system, representing the sound waves X | and X r as shown in Figure 1 for the case of two sensors, and the output signal is represented by Y) and Y r .
Dicho sistema de inteligencia artificial comprende un algoritmo de aprendizaje programado en sistemas computacionales o software, en donde dicho algoritmo de aprendizaje se encuentra parametrizado para evaluar la mejor combinación de parámetros en la etapa de validación. En este sentido, los pasos del algoritmo se pueden resumir en: Said artificial intelligence system comprises a programmed learning algorithm in computer systems or software, where said learning algorithm is parameterized to evaluate the best combination of parameters in the validation stage. In this sense, the steps of the algorithm can be summarized as follows:
1. La adquisición de las señales de entrada del sistema de adquisición, en el que dichas señales son tratadas como un vector del tipo Xi, Xr (o Xi, X2, ... XN si se utilizan varios micrófonos como una modalidad del sistema de adquisición). 1. The acquisition of the input signals of the acquisition system, in which said signals are treated as a vector of the type Xi, X r (or Xi, X 2 , ... XN if several microphones are used as a mode of the acquisition system).
2. El análisis y separación de los segmentos de señal de entrada que describen los eventos de sonido relevantes. 2. The analysis and separation of the input signal segments that describe the relevant sound events.
3. El pre-procesamiento de los segmentos y la obtención de parámetros descriptores de direccionalidad. Los descriptores de direccionalidad proveen información estimativa sobre los posibles orígenes de la señal y permiten utilizar dicha información para los
siguientes pasos, en el que cada señal de salida (izquierda - derecha) es sintetizada utilizando una o más transformaciones que se encuentran en la etapa de validación y entrenamiento, lo que minimiza el margen de error. 4. La convolución de los segmentos con las funciones de transferencia determinadas de acuerdo con el paso 2. Preferentemente, esta convolución está en el dominio del tiempo, aunque también se puede utilizar un producto punto del vector en el dominio de frecuencia, o una operación equivalente en otro dominio. Para que el sistema funcione en tiempo real, se puede utilizar un método de convolución de tipo superponer-añadir para que este proceso no represente un retraso perceptible para el usuario. 3. The pre-processing of the segments and the obtaining of descriptive parameters of directionality. Directionality descriptors provide estimated information about the possible origins of the signal and allow the use of this information for the next steps, in which each output signal (left-right) is synthesized using one or more transformations that are in the validation and training stage, which minimizes the margin of error. 4. The convolution of the segments with the transfer functions determined according to step 2. Preferably, this convolution is in the time domain, although a product point of the vector can also be used in the frequency domain, or an operation equivalent in another domain. In order for the system to work in real time, a convolution method of superpose-add type can be used so that this process does not represent a noticeable delay for the user.
5. La salida es la reconstrucción de los segmentos de audio separados en los puntos originales. 5. The output is the reconstruction of the separated audio segments in the original points.
Puesto que el software de la invención está integrado en el sistema de tamaño reducido, es necesario realizar los pasos anteriores en un microprocesador para tener una solución independiente, con un convertidor análogo digital de muestreo de alta frecuencia y un convertidor análogo digital de salida. Por otro lado, los pasos anteriores pueden ser incorporados en la memoria de los dispositivos que los albergan, por ejemplo, dispositivos portátiles que ya tienen un marco para comunicarse con su procesador, memoria, convertidores análogo digitales, buses de datos, etc. Since the software of the invention is integrated in the system of small size, it is necessary to perform the previous steps in a microprocessor to have an independent solution, with a digital analog converter of high frequency sampling and a digital analogue output converter. On the other hand, the previous steps can be incorporated into the memory of the devices that house them, for example, portable devices that already have a framework to communicate with their processor, memory, analogue digital converters, data buses, etc.
Como se describió anteriormente, la validación y entrenamiento del sistema de inteligencia artificial consta de establecer una correlación matemática entre las funciones de
transferencia de las señales capturadas por la cabeza dummy (HRTF genérica) y las funciones de transferencia de las señales capturadas con MFS (MFSTF). Para establecer esta correlación se aplican índices matemáticos que permiten la evaluación del desempeño del decodifícador, en términos de la correlación obtenida y la sensación de inmersión al oyente. As described above, the validation and training of the artificial intelligence system consists of establishing a mathematical correlation between the functions of transfer of the signals captured by the dummy head (generic HRTF) and the transfer functions of the signals captured with MFS (MFSTF). To establish this correlation, mathematical indexes are applied that allow the evaluation of the decoding performance, in terms of the correlation obtained and the sensation of immersion in the listener.
Luego, se establece la mejor combinación de parámetros para la transformación, obteniéndo la mejor función de transformación que convierte la señal de salida del MFS en una señal binaural de reproducción. Esta transformación o función de transformación es llamada Transformación Binaural (BF). Then, the best combination of parameters for the transformation is established, obtaining the best transformation function that converts the output signal of the MFS into a binaural reproduction signal. This transformation or transformation function is called Binaural Transformation (BF).
En este contexto, como por ejemplo sólo para el dominio de la frecuencia, en el paso de validación y entrenamiento se pretende que, para cada ubicación Θ en la grilla de medición, la siguiente igualdad sea cierta: In this context, as for example only for the frequency domain, in the validation and training step it is intended that, for each location Θ in the measurement grid, the following equality is true:
¾_MSF * BF0— H0_dummy ¾_MSF * BF 0 - H 0 _dummy
Donde: Where:
¾_MSF corresponde a la función de transferencia parametrizada del sistema de adquisición, para la posición Θ, que va a estar correlacionada con la función de transferencia de la cabeza dummy. ¾_MSF corresponds to the parameterized transfer function of the acquisition system, for the position Θ, which will be correlated with the transfer function of the dummy head.
BF0 corresponde a la Transformación Binaural descrita anteriormente. BF 0 corresponds to the Binaural Transformation described above.
¾_dummy es la HRTF parametrizada para la cabeza dummy, para la posición Θ. ¾_dummy is the HRTF parameterized for the dummy head, for position Θ.
Es decir, la etapa de validación y la entrenamiento se lleva a cabo a fin de encontrar el valor para B0 para lograr la igualdad de la ecuación anteriormente descrita para todas las posiciones angulares.
Por ejemplo, en una modalidad donde el sistema de adquisición tiene dos micrófonos, las funciones de transferencia parametrizadas de dicho sistema podrían ser representadas como coeficientes que describen la Diferencia de Tiempo Interaural (ITD, sigla en inglés para Interaural Time Differencé) entre los micrófonos izquierdo y derecho. Dicha función de transferencia parametrizada se puede fácilmente aproximar a una HRTF que haya sido parametrizada de la misma manera, en cuyo caso la función de transformación sería una función monótona que mapea los ITD capturados por el sistema de adquisición a los ITD correspondientes que ocurren en una cabeza humana. Las señales de audio captadas por el sistema de adquisición, o en otra modalidad una versión filtrada de éstos, pueden ser alimentadas a la función de transformación, lo que generaría una representación binaural aproximada de la señal de audio de entrada. That is, the validation and training stage is carried out in order to find the value for B 0 to achieve the equality of the equation previously described for all the angular positions. For example, in a modality where the acquisition system has two microphones, the parameterized transfer functions of said system could be represented as coefficients that describe the Interaural Time Difference (ITD) for the left microphones. and right. This parameterized transfer function can be easily approximated to an HRTF that has been parameterized in the same way, in which case the transformation function would be a monotonous function that maps the ITDs captured by the acquisition system to the corresponding ITDs that occur in a human head The audio signals picked up by the acquisition system, or in another modality a filtered version of these, can be fed to the transformation function, which would generate an approximate binaural representation of the input audio signal.
En el caso de múltiples micrófonos, la salida puede ser escrita como una combinación lineal de las entradas y funciones de transferencia que deben ser estimadas en la etapa de entrenamiento y validación, utilizando por ejemplo la siguiente ecuación: In the case of multiple microphones, the output can be written as a linear combination of the inputs and transfer functions that must be estimated in the training and validation stage, using for example the following equation:
Y¡ = Ci DXi DH, + C2 DX2 nH2 + ... + CN DXN Ü HN donde X¡ es la señal de entrada i-ésima H¡ es la i-ésima función parametrizada asociada y C¡ es el parámetro de ponderación de i-ésimo. En este sentido, cada parámetro de ponderación está relacionado con cada señal de entrada y directamente relacionado a la correlación con la función HRTF. La figura 2 muestra una generalización de la metodología descrita anteriormente para obtener una señal de audio binaural de acuerdo con la invención. Yi = Ci DXi DH, + C 2 DX 2 nH 2 + ... + CN DXN Ü HN where Xi is the i-th input signal H i is the i-th associated parameterized function and C i is the parameter of weighting of i-th. In this sense, each weighting parameter is related to each input signal and directly related to the correlation with the HRTF function. Figure 2 shows a generalization of the methodology described above to obtain a binaural audio signal according to the invention.
En base a lo anterior, de acuerdo a la modalidad de la Figura 3, el sistema de grabación binaural (1) objeto de la presente invención describe una metodología de operación que consiste
en grabar el sonido utilizando al menos un par de dispositivos de sensores de sonido (2) o micrófonos, en donde los dispositivos de sensores de sonido se encuentran envueltos en un dispositivo de filtro acústico o APAF (3), comprendiendo la conexión de dichas unidades el sistema de micrófonos-filtro o sistema de adquisición (4). Adicionalmente, la etapa de grabación comprende los procesos estándar de grabación de audio digital, es decir, pre-amplificación, filtro anti alas, muestreo, conversión análoga-digital, decodificación y almacenamiento, entre otras. Based on the foregoing, according to the embodiment of Figure 3, the binaural recording system (1) object of the present invention describes an operation methodology consisting of in recording the sound using at least a pair of sound sensor devices (2) or microphones, wherein the sound sensor devices are wrapped in an acoustic filter device or APAF (3), comprising the connection of said units the system of microphones-filter or acquisition system (4). Additionally, the recording stage comprises the standard digital audio recording processes, that is, pre-amplification, anti-wing filter, sampling, analog-digital conversion, decoding and storage, among others.
Posteriormente, la señal de audio de salida del sistema de adquisición es procesada en un dispositivo decodificador (5) perteneciente al sistema de grabación binaural, el cual aplica la Transformación Binaural (BF) a dicha señal y, preferentemente, la almacena en al menos una unidad de almacenamiento, convirtiéndola en un par de señales capaces de ser comprendidas por un humano que las escucha mediante dispositivos de reproducción tipo audífonos o audífonos convencionales (6) y, en una modalidad alternativa, por medio de altavoces estéreo convencionales. De hecho, aunque mediante el uso de altavoces estéreo convencionales no es posible obtener el efecto binaural deseado, el método y sistema de la invención permiten mejorar la profundidad estereofónica de las señales de audio en los altavoces convencionales, mejorando así la imagen del sonido y la experiencia envolvente de diferentes sistemas de audio convencional. La Transformación Binaural (BF) aplicada por el dispositivo decodificador se obtiene a partir del análisis de las funciones de transferencia para el sistema adquisición y para una cabeza dummy, tal como se ha indicado en los párrafos precedentes. Subsequently, the output audio signal of the acquisition system is processed in a decoder device (5) belonging to the binaural recording system, which applies the Binaural Transformation (BF) to said signal and, preferably, stores it in at least one storage unit, converting it into a pair of signals capable of being understood by a human who listens to them by means of conventional type hearing aids or hearing aids (6) and, in an alternative modality, by means of conventional stereo speakers. In fact, although by the use of conventional stereo speakers it is not possible to obtain the desired binaural effect, the method and system of the invention allow to improve the stereophonic depth of the audio signals in the conventional speakers, thus improving the sound image and the Surround experience of different conventional audio systems. The Binaural Transformation (BF) applied by the decoding device is obtained from the analysis of the transfer functions for the acquisition system and for a dummy head, as indicated in the preceding paragraphs.
En una modalidad de la invención, el sistema de adquisición puede ser reemplazado por una pluralidad de dispositivos de sensor de sonido o micrófonos separados espacialmente, los cuales en conjunto se utilizan para minimizar la correlación angular (esférica) de la respuesta a cualquier par de sonidos idénticos con frecuencias en el rango humano. Luego, se establece una
función de transferencia del sistema compuesto de una pluralidad de micrófonos con el objetivo de correlacionar dicha función a la HRTF parametrizada asociada, obteniéndose la Transformación Binaural (BF) que aplica el dispositivo decodifícador de la señal para convertirla en una señal de escucha binaural que permite recrear el ambiente tridimensional real respecto a la captación de sonidos por parte del oído humano. Luego, una diferencia de tiempo, fase e intensidad que ocurre en la pluralidad del arreglo de dispositivos de sensores de sonido aporta suficiente información para determinar la posición de una fuente sonora a partir de la Transformación Binaural (BF), por lo que el sistema de adquisición de la invención puede ser reemplazado por dicho arreglo. En este contexto, debido a la pluralidad de dispositivos o micrófonos de sensores de sonidos separados espacialmente, se entiende que el sistema está compuesto por 3 o más de dichos dispositivos. In one embodiment of the invention, the acquisition system can be replaced by a plurality of spatially separated sound sensor devices or microphones, which together are used to minimize the angular (spherical) correlation of the response to any pair of sounds identical with frequencies in the human range. Then, a system transfer function composed of a plurality of microphones with the aim of correlating said function to the associated parameterized HRTF, obtaining the Binaural Transformation (BF) that applies the decoding device of the signal to convert it into a binaural listening signal that allows recreating the real three-dimensional environment with respect to the capture of sounds by the human ear. Then, a difference of time, phase and intensity that occurs in the plurality of arrangement of sound sensor devices provides enough information to determine the position of a sound source from the Binaural Transformation (BF), so the system of acquisition of the invention can be replaced by said arrangement. In this context, due to the plurality of spatially separated sound sensor devices or microphones, it is understood that the system is composed of 3 or more of said devices.
En otra modalidad de la invención el sistema de adquisición, es decir el dispositivo APAF envolviendo las unidades de sensor de sonido, está integrado a un dispositivo portátil como una cámara de video, cámara fotográfica, teléfono inteligente, tableta y/o reloj inteligente, o cualquier otro tipo de dispositivo para la grabación binaural, en donde dicho conjunto conforma un nuevo sistema de adquisición. En este contexto, la transformación binaural aplicada por el dispositivo decodifícador se encuentra adaptada a la configuración geométrica o estructural conformada por el nuevo sistema de adquisición que consiste en un dispositivo portátil que integra en su estructura al menos dos micrófonos, separados espacialmente, en donde dicha transformación binaural permite que la onda sonora captada por el sistema de adquisición sea capturada recreando el ambiente tridimensional real respecto a la percepción de sonidos por parte del oído humano. En este escenario, existe una diferencia de tiempo y una diferencia de intensidad del sonido que, en conjunto con el objeto físico (el mismo dispositivo) que separa ambos micrófonos, que en este caso actúa como dispositivo de filtro acústico o dispositivo
APAF, permite una diferencia en el contenido de frecuencia (espectro de sonido) que cada micrófono captura para un sonido dado. El espectro de sonido se altera aún más por el soporte del dispositivo, por ejemplo el usuario que lo sujeta; su torso, cabeza, brazos y manos afectarán al sonido dependiendo de qué manera sostenga el dispositivo, ya sea en posición vertical u horizontal. Esta diferencia en el espectro también se tiene en consideración en la metodología para la decodifícación y procesamiento del sonido binaural. De esta manera, el dispositivo decodifícador posee toda la información necesaria para decodificar la información de espacialidad que ya está presente en estos dos micrófonos y transformarla en una señal binaural humana. Adicionalmente, la metodología de la invención puede aplicarse a dispositivos existentes siempre y cuando éstos ya posean al menos dos micrófonos integrados, con lo cual luego de obtener la función de transferencia de dicho sistema dispositivo-micrófonos, o MFSTF considerando el dispositivo como filtro, y aproximarla a la HRTF asociada, se puede obtener la función de transformación que debe ser aplicada por el dispositivo decodifícador que convierte la señal de entrada en una señal binaural para escuchar en tres dimensiones. En esta modalidad, el sistema de adquisición podría ser parte de los componentes comunes de un dispositivo portátil que consta de al menos dos sensores de sonido o micrófonos, en el que la estructura del dispositivo portátil y su soporte actúan como el dispositivo de filtro acústico envolviendo al menos dos de los sensores de sonido o micrófonos mencionados. Respecto al dispositivo decodifícador, en una modalidad preferente de la invención, dicho dispositivo se encuentra integrado al sistema de grabación binaural y, de manera alternativa, al sistema de reproducción, en donde en una modalidad conveniente, dicho dispositivo decodifícador puede ser implementado en un programa computacional previamente incluido en un dispositivo o que puede ser instalado en la memoria de almacenamiento del mismo. Dicho programa incluye la implementación del algoritmo de decodifícación basado en el
algoritmo de aprendizaje que permite obtener la función de transferencia del sistema de adquisición o MFSTF, correlacionada con la HRTF genérica, con el objetivo de convertir la señal de salida del sistema de adquisición en una señal de reproducción binaural. Tal objetivo se cumple al obtener una Transformación Binaural (BF) que permite que la señal de un determinado sistema de adquisición (micrófonos-filtro, micrófonos-dispositivo, pluralidad de micrófonos, entre otros) sea convertida a una señal binaural estéreo para escuchar a través de audífonos convencionales o dispositivos de reproducción de sonido tipo audífonos. In another embodiment of the invention, the acquisition system, ie the APAF device enclosing the sound sensor units, is integrated into a portable device such as a video camera, photographic camera, smart phone, tablet and / or smart watch, or any other type of device for binaural recording, wherein said set forms a new acquisition system. In this context, the binaural transformation applied by the decoding device is adapted to the geometric or structural configuration formed by the new acquisition system consisting of a portable device that integrates in its structure at least two microphones, spatially separated, wherein said binaural transformation allows the sound wave captured by the acquisition system to be captured recreating the real three-dimensional environment with respect to the perception of sounds by the human ear. In this scenario, there is a time difference and a difference in sound intensity that, in conjunction with the physical object (the same device) that separates both microphones, which in this case acts as an acoustic filter device or device APAF, allows a difference in the frequency content (sound spectrum) that each microphone captures for a given sound. The sound spectrum is further altered by the support of the device, for example the user holding it; Your torso, head, arms and hands will affect the sound depending on which way you hold the device, either in a vertical or horizontal position. This difference in spectrum is also taken into account in the methodology for the decoding and processing of binaural sound. In this way, the decoding device has all the necessary information to decode the spatiality information that is already present in these two microphones and transform it into a human binaural signal. Additionally, the methodology of the invention can be applied to existing devices as long as they already have at least two integrated microphones, so that after obtaining the transfer function of said device-microphones system, or MFSTF considering the device as a filter, and To approximate it to the associated HRTF, we can obtain the transformation function that must be applied by the decoding device that converts the input signal into a binaural signal to listen in three dimensions. In this embodiment, the acquisition system could be part of the common components of a portable device that consists of at least two sound sensors or microphones, in which the structure of the portable device and its support act as the acoustic filter device enveloping at least two of the sound sensors or microphones mentioned. With respect to the decoding device, in a preferred embodiment of the invention, said device is integrated into the binaural recording system and, alternatively, into the reproduction system, wherein in a convenient embodiment, said decoding device can be implemented in a program computer previously included in a device or that can be installed in the storage memory of the same. Said program includes the implementation of the decoding algorithm based on the learning algorithm that allows obtaining the transfer function of the acquisition system or MFSTF, correlated with the generic HRTF, with the aim of converting the output signal of the acquisition system into a binaural reproduction signal. This objective is fulfilled when obtaining a Binaural Transformation (BF) that allows the signal of a specific acquisition system (microphones-filter, microphones-device, plurality of microphones, among others) to be converted to a stereo binaural signal to listen through of conventional hearing aids or hearing aid type sound reproduction devices.
Luego, el programa computacional para la grabación binaural y, alternativamente, su reproducción, podría constar de medios de almacenamiento de información para guardar la información proveniente de las ondas sonoras captadas por un dispositivo de recepción en al menos una unidad de almacenamiento, medios de procesamiento de la información para obtener los parámetros relevantes de la información guardada, medios de comparación para correlacionar los parámetros de la información almacenada con una HRTF parametrizada, guardados previamente en al menos una unidad de almacenamiento, medios de procesamiento de la información para obtener la Transformación Binaural (BF) y aplicarla a la información guardada, medios de almacenamiento para guardar la transformación binaural de la información almacenada para su posterior recuperación y reproducción, de ser necesario.
Then, the computer program for the binaural recording and, alternatively, its reproduction, could consist of information storage means to store the information coming from the sound waves captured by a reception device in at least one storage unit, processing means of the information to obtain the relevant parameters of the stored information, means of comparison to correlate the parameters of the stored information with a parameterized HRTF, previously stored in at least one storage unit, means of information processing to obtain the Binaural Transformation (BF) and apply it to the stored information, storage means to save the binaural transformation of the stored information for its later recovery and reproduction, if necessary.
Claims
1. Sistema de tamaño reducido para la grabación binaural que comprende: 1. System of reduced size for the binaural recording that includes:
- un sistema de adquisición para recuperar ondas de sonido filtradas acústicamente del entorno y convertirlas en señales de audio; - an acquisition system for recovering sound waves acoustically filtered from the environment and converting them into audio signals;
- un dispositivo decodifícador que recibe las señales de audio provenientes del sistema de adquisición y que las convierte en una señal binaural que recrea un ambiente de escucha tridimensional al usuario. - a decoding device that receives the audio signals from the acquisition system and that converts them into a binaural signal that recreates a three-dimensional listening environment for the user.
2. El sistema de tamaño reducido para grabación binaural de la cláusula 1, en donde el sistema de adquisición comprende al menos dos sensores de sonidos o micrófonos separados espacialmente, situados al interior de un dispositivo de filtro acústico, donde la disposición física del filtro acústico y los micrófonos se llama Sistema de Micrófonos-Filtro (MFS). 2. The reduced-size system for binaural recording of clause 1, wherein the acquisition system comprises at least two spatially separated sound sensors or microphones, located within an acoustic filter device, where the physical arrangement of the acoustic filter and the microphones are called Microphone-Filter System (MFS).
3. El sistema de tamaño reducido para grabación binaural de la cláusula 1, en donde el sistema de adquisición comprende una pluralidad de sensores de sonidos o micrófonos separados espacialmente. 3. The reduced-size system for binaural recording of clause 1, wherein the acquisition system comprises a plurality of spatially separated sound sensors or microphones.
4. El sistema de tamaño reducido para grabación binaural de la cláusula 1, en donde el sistema de adquisición comprende al menos dos sensores de sonidos o micrófonos incorporados en un dispositivo portátil o cualquier otro dispositivo para la grabación y/o reproducción, donde la estructura del dispositivo portátil y su soporte actúan como un dispositivo de filtro acústico. 4. The reduced-size system for binaural recording of clause 1, wherein the acquisition system comprises at least two sound sensors or microphones incorporated in a portable device or any other device for recording and / or reproduction, where the structure of the portable device and its support act as an acoustic filter device.
5. El sistema de tamaño reducido para grabación binaural de la cláusula 1, en donde el dispositivo decodifícador consta de medios para almacenar, calcular y procesar información para
obtener una función de transformación binaural que aproxima una función de transferencia parametrizada del sistema de adquisición (MFSTF) a una función de transferencia relacionada a la cabeza (HRTF) genérica parametrizada. 5. The reduced-size system for binaural recording of clause 1, wherein the decoding device comprises means for storing, calculating and processing information for obtain a binaural transformation function that approximates a parametrized transfer function of the acquisition system (MFSTF) to a parametrized generic head-related transfer function (HRTF).
6. El sistema de tamaño reducido para grabación binaural de la cláusula 5, en donde el dispositivo decodificador comprende además medios para almacenar, calcular y procesar información para aplicar la función de transformación binaural a la señal de audio recibida, transformándola en la señal binaural. 6. The reduced-size system for binaural recording of clause 5, wherein the decoding device further comprises means for storing, calculating and processing information to apply the binaural transformation function to the received audio signal, transforming it into the binaural signal.
7. El sistema de tamaño reducido para grabación binaural de la cláusula 1, en donde el sistema comprende además un dispositivo de reproducción de tipo auricular, utilizado para la reproducción de la señal binaural. 7. The reduced-size system for binaural recording of clause 1, wherein the system further comprises an atrial-type playback device, used for the reproduction of the binaural signal.
8. El sistema de tamaño reducido para grabación binaural de la cláusula 1, en donde el sistema de grabación comprende además parlantes estéreo convencionales, utilizados para la reproducción de la señal binaural. 8. The reduced-size system for binaural recording of clause 1, wherein the recording system further comprises conventional stereo speakers, used for the reproduction of the binaural signal.
9. Sistema de tamaño reducido para grabación binaural que consta de: 9. System of reduced size for binaural recording that consists of:
- un sistema de adquisición para la recuperación de ondas de sonido filtradas acústicamente del entorno y conversión de éstas en señales de audio, en donde el sistema de adquisición comprende al menos dos sensores de sonidos o micrófonos separados espacialmente, situados al interior de un dispositivo de filtro acústico, donde la disposición física del filtro acústico y los micrófonos se llama Sistema de Micrófonos-Filtro (MFS); - an acquisition system for recovering sound waves acoustically filtered from the environment and converting them into audio signals, wherein the acquisition system comprises at least two spatially separated sound sensors or microphones, located inside a recording device. acoustic filter, where the physical arrangement of the acoustic filter and the microphones is called Microphone Filter System (MFS);
- un dispositivo decodificador que recibe las señales de audio provenientes del sistema de adquisición y que las convierte en una señal binaural que recrea un ambiente de escucha
tridimensional para el usuario, en donde el dispositivo decodificador consta de medios para almacenar, calcular y procesar información para obtener la función de transferencia binaural que aproxima una función de transferencia parametrizada del sistema de adquisición (MFSTF) a una HRTF genérica parametrizada y para aplicar dicha función de transferencia binaural a la señal de audio recibida, transformándola en la señal binaural. - a decoder device that receives audio signals from the acquisition system and converts them into a binaural signal that recreates a listening environment three-dimensional for the user, wherein the decoding device comprises means for storing, calculating and processing information to obtain the binaural transfer function that approximates a parametrized transfer function of the acquisition system (MFSTF) to a parametrized generic HRTF and to apply said binaural transfer function to the received audio signal, transforming it into the binaural signal.
10. El sistema de tamaño reducido para grabación binaural de la cláusula 9, en donde el dispositivo de filtro acústico comprende al menos dos unidades de filtro acústico, cada una envolviendo cada uno de los al menos dos dispositivos de sensores o micrófonos separados espacialmente. 10. The reduced-size system for binaural recording of clause 9, wherein the acoustic filter device comprises at least two acoustic filter units, each one enclosing each of the at least two spatially separated sensor devices or microphones.
11. El sistema de tamaño reducido para grabación binaural de la cláusula 10, en donde las unidades de filtro acústico están físicamente separadas. 11. The reduced-size system for binaural recording of clause 10, wherein the acoustic filter units are physically separated.
12. El sistema de tamaño reducido para grabación binaural de la cláusula 9, en donde los micrófonos son omnidireccionales y de alta ganancia en proporción a su tamaño. 12. The reduced-size system for binaural recording of clause 9, where the microphones are omnidirectional and high gain in proportion to their size.
13. El sistema de tamaño reducido para grabación binaural de la cláusula 9, en donde el sistema de adquisición es de dimensiones milimétricas, facilitando su integración a dispositivos de grabación ya existentes. 13. The system of reduced size for binaural recording of clause 9, where the acquisition system is of millimeter dimensions, facilitating its integration to existing recording devices.
14. El sistema de tamaño reducido para grabación binaural de la cláusula 9, en donde el dispositivo de filtro acústico está construido de una densidad variable, que varía angularmente, paramétricamente y con diferentes canales de longitud a lo largo de lo cual el sonido viaja antes de alcanzar el micrófono, cancelando y/o potenciando ciertas frecuencias.
14. The reduced-size system for binaural recording of clause 9, wherein the acoustic filter device is constructed of a variable density, which varies angularly, parametrically and with different length channels along which the sound travels before to reach the microphone, canceling and / or boosting certain frequencies.
15. El sistema de tamaño reducido para grabación binaural de la cláusula 9, en donde el sistema de adquisición es parte de un dispositivo portátil, la estructura del dispositivo portátil y su soporte, que actúa como el dispositivo de filtro acústico. 15. The reduced-size system for binaural recording of clause 9, wherein the acquisition system is part of a portable device, the structure of the portable device and its support, which acts as the acoustic filter device.
16. El sistema de tamaño reducido para grabación binaural de la cláusula 9, en donde el sistema de grabación comprende además un dispositivo de reproducción de tipo audífono, utilizado para la reproducción de la señal binaural. 16. The reduced-size system for binaural recording of clause 9, wherein the recording system further comprises a hearing aid-type playback device, used for the reproduction of the binaural signal.
17. El sistema de tamaño reducido para grabación binaural de la cláusula 9, en donde el sistema de grabación comprende además parlantes estéreo convencionales, utilizados para la reproducción de la señal binaural. 17. The reduced-size system for binaural recording of clause 9, wherein the recording system further comprises conventional stereo speakers, used for the reproduction of the binaural signal.
18. Sistema de tamaño reducido para grabación binaural que consta de: 18. Small-sized system for binaural recording consisting of:
un sistema de adquisición para la recuperación de ondas de sonido filtradas acústicamente del entorno y conversión de éstas en señales de audio, en donde el sistema de adquisición comprende al menos dos sensores de sonidos o micrófonos separados espacialmente, situados al interior de un dispositivo de filtro acústico, donde la disposición física del filtro acústico y los micrófonos se llama Sistema de Micrófonos-Filtro (MFS); an acquisition system for recovering sound waves acoustically filtered from the environment and converting them into audio signals, wherein the acquisition system comprises at least two spatially separated sound sensors or microphones, located inside a filter device acoustic, where the physical arrangement of the acoustic filter and the microphones is called Microphone-Filter System (MFS);
un dispositivo decodificador que recibe las señales de audio provenientes del sistema de adquisición y que las convierte en una señal binaural que recrea un ambiente de escucha tridimensional para el usuario, en donde el dispositivo decodificador consta de medios para almacenar, calcular y procesar información para obtener la función de transferencia binaural que aproxima una función de transferencia parametrizada del sistema de adquisición (MFSTF) a una HRTF genérica parametrizada y para aplicar dicha función de transferencia binaural a la señal de audio recibida, transformándola en la señal binaural;
donde el sistema de adquisición es parte de los componentes comunes de un dispositivo portátil que consta de al menos dos sensores de sonidos o micrófonos, en donde la estructura del dispositivo portátil actúa como el dispositivo de filtro acústico envolviendo al menos dos de los ya mencionados sensores de sonido o micrófonos; y a decoder device that receives the audio signals from the acquisition system and that converts them into a binaural signal that recreates a three-dimensional listening environment for the user, wherein the decoding device consists of means to store, calculate and process information to obtain the binaural transfer function that approximates a parametrized transfer function of the acquisition system (MFSTF) to a parametrized generic HRTF and to apply said binaural transfer function to the received audio signal, transforming it into the binaural signal; wherein the acquisition system is part of the common components of a portable device consisting of at least two sound sensors or microphones, wherein the structure of the portable device acts as the acoustic filter device involving at least two of the aforementioned sensors of sound or microphones; Y
donde el dispositivo de decodificación es implementado en un programa computacional previamente incluido en el dispositivo portátil o que puede ser instalado en su memoria de almacenamiento. where the decoding device is implemented in a computer program previously included in the portable device or that can be installed in its storage memory.
19. El sistema de tamaño reducido para grabación binaural de la cláusula 18, en donde el sistema de grabación comprende además un dispositivo de reproducción de tipo audífono, utilizado para la reproducción de la señal binaural. 19. The reduced-size system for binaural recording of clause 18, wherein the recording system further comprises a hearing aid-type playback device, used for the reproduction of the binaural signal.
20. El sistema de tamaño reducido para grabación binaural de la cláusula 18, en donde el sistema de grabación comprende además parlantes estéreo convencionales, utilizados para la reproducción de la señal binaural. 20. The reduced-size system for binaural recording of clause 18, wherein the recording system further comprises conventional stereo speakers, used for the reproduction of the binaural signal.
21. El sistema de tamaño reducido para grabación binaural de la cláusula 18, en donde el dispositivo de filtro acústico comprende además el soporte que sostiene la estructura del dispositivo portátil, que en una modalidad es el usuario que sostiene dicho dispositivo. 21. The reduced-size system for binaural recording of clause 18, wherein the acoustic filter device further comprises the support that supports the structure of the portable device, which in one embodiment is the user holding said device.
22. Método de grabación binaural que consta de las siguientes etapas: 22. Binaural recording method consisting of the following stages:
recuperar ondas de sonido filtradas acústicamente del entorno por un sistema de adquisición, convirtiéndolas en señales de audio; recover sound waves acoustically filtered from the environment by an acquisition system, converting them into audio signals;
transmitir las señales de audio desde el sistema de adquisición a un dispositivo decodificador;
procesar las señales de audio en un dispositivo decodifícador, convirtiéndolas en señales binaurales. transmitting the audio signals from the acquisition system to a decoding device; process the audio signals in a decoding device, converting them into binaural signals.
23. El método de grabación binaural de la cláusula 22, en donde la etapa de procesar las señales de audio comprenden: 23. The binaural recording method of clause 22, wherein the step of processing the audio signals comprises:
recibir la señal de audio del sistema de adquisición; receive the audio signal from the acquisition system;
obtener la función de transferencia parametrizada de dicho sistema (MFSTF); obtain the parameterized transfer function of said system (MFSTF);
correlacionar dicha función de transferencia parametrizada con la HRTF genérica parametrizada; y correlating said parameterized transfer function with the parameterized generic HRTF; Y
obtener la transformación binaural. get the binaural transformation.
24. El método de grabación binaural de la cláusula 22, en donde la etapa de recuperar los sonidos filtrados acústicamente por el sistema de adquisición comprende minimizar la correlación angular (esférica) de la respuesta a cualquier par de sonidos idénticos con frecuencias en el rango humano, procedente de fuentes situadas en distintas posiciones angulares. 24. The binaural recording method of clause 22, wherein the step of recovering sounds acoustically filtered by the acquisition system comprises minimizing the angular (spherical) correlation of the response to any pair of identical sounds with frequencies in the human range , coming from sources located in different angular positions.
25. El método de grabación y reproducción binaural de la cláusula 22, en donde la etapa de recuperar los sonidos filtrados acústicamente por el sistema de adquisición comprende: 25. The binaural recording and reproduction method of clause 22, wherein the step of recovering the sounds acoustically filtered by the acquisition system comprises:
conservar la información de la localización del sonido contenida en la señal de audio, que proporciona los efectos de la variación del espectro del sonido y la variación del nivel del sonido de la onda sonora recuperada; y to preserve the information of the location of the sound contained in the audio signal, which provides the effects of the variation of the sound spectrum and the variation of the sound level of the recovered sound wave; Y
conservar la variación en la información de tiempo en el que los eventos de sonido son adquiridos por el sistema de adquisición.
keep the variation in the time information in which the sound events are acquired by the acquisition system.
26. El método de grabación binaural de la cláusula 23, en donde la etapa de procesamiento de las señales de audio comprende además la aplicación de la transformación binaural a la señal recibida, generando la señal binaural. 26. The binaural recording method of clause 23, wherein the step of processing the audio signals further comprises applying the binaural transformation to the received signal, generating the binaural signal.
27. El método de grabación y reproducción binaural de la cláusula 25, en donde la información conservada considera la configuración geométrica del sistema de adquisición en conjunto con las alteraciones causadas por el usuario que está sosteniendo el sistema de adquisición, en el que ambas características permiten la diferencia en el contenido de frecuencia (espectro de sonido) y la diferencia de tiempo que el sistema de adquisición recupera para un determinado sonido. 27. The binaural recording and reproduction method of clause 25, wherein the conserved information considers the geometric configuration of the acquisition system in conjunction with the alterations caused by the user that is holding the acquisition system, in which both characteristics allow the difference in frequency content (sound spectrum) and the difference in time that the acquisition system recovers for a certain sound.
28. El método de grabación binaural de la cláusula 27, caracterizado por que se implementa en un dispositivo portátil, como en un teléfono inteligente o similar. 28. The binaural recording method of clause 27, characterized in that it is implemented in a portable device, such as in a smart phone or the like.
29. El método de grabación binaural que consta de: 29. The binaural recording method that consists of:
- recuperar las ondas de sonido del entorno filtradas acústicamente mediante un sistema de adquisición y convertirlas en señales de audio, en el que dicha recuperación consta de, - recover acoustic sound waves from the environment by means of an acquisition system and convert them into audio signals, in which said recovery consists of,
- minimizar la correlación angular (esférica) de la respuesta a cualquier par de sonidos idénticos con frecuencias en el rango humano, procedente de fuentes colocados en diferentes posiciones angulares; - minimize the angular (spherical) correlation of the response to any pair of identical sounds with frequencies in the human range, coming from sources placed in different angular positions;
- conservar la información de la localización del sonido contenida en la señal de audio, proporcionando los efectos de la variación del espectro del sonido y la variación del nivel del sonido de la onda de sonido recuperada; y - preserve the information of the location of the sound contained in the audio signal, providing the effects of the variation of the sound spectrum and the variation of the sound level of the recovered sound wave; Y
o conservar la variación en la información de tiempo en el que los eventos de sonido son adquiridos por el sistema de adquisición;
transmitir las señales de audio desde el sistema de adquisición a un dispositivo de descodificación; or keep the variation in the time information in which the sound events are acquired by the acquisition system; transmitting the audio signals from the acquisition system to a decoding device;
procesar las señales de audio en un dispositivo de descodificación, convirtiéndolas en señales binaurales, en el que dicho procesamiento consta de processing the audio signals in a decoding device, converting them into binaural signals, wherein said processing consists of
- la recepción de la señal del sistema de adquisición; - reception of the acquisition system signal;
- la obtención de la función de transferencia parametrizada de dicho sistema; - obtaining the parameterized transfer function of said system;
- la correlación de dicha función de transferencia parametrizada con la HRTF genérica; - the correlation of said parameterized transfer function with the generic HRTF;
- la obtención de la transformación binaural; y - obtaining the binaural transformation; Y
- la aplicación de la transformación binaural a la señal recibida, generando la señal binaural; - the application of the binaural transformation to the received signal, generating the binaural signal;
30. El método de grabación y reproducción binaural de la cláusula 29, en donde la información conservada considera la configuración geométrica del sistema de adquisición en conjunto con las alteraciones causadas por el usuario que está sosteniendo el sistema de adquisición, en el que ambas características permiten la diferencia en el contenido de frecuencia (espectro de sonido) y la diferencia de tiempo que el sistema de adquisición recibe para un determinado sonido. 30. The binaural recording and reproduction method of clause 29, wherein the conserved information considers the geometric configuration of the acquisition system in conjunction with the alterations caused by the user that is holding the acquisition system, in which both characteristics allow the difference in frequency content (sound spectrum) and the difference in time that the acquisition system receives for a particular sound.
31. El método de grabación binaural de la cláusula 30, caracterizado por que se implementa en un dispositivo portátil, como en un teléfono inteligente o similar. 31. The binaural recording method of clause 30, characterized in that it is implemented in a portable device, such as in a smart phone or the like.
32. Un programa computacional para la grabación binaural que comprende: 32. A computer program for binaural recording that includes:
medios de almacenamiento de información para almacenar la información proveniente de señales acústicas u ondas de sonido recuperadas por un dispositivo de captación o sistema de adquisición en al menos una unidad de almacenamiento;
medios de procesamiento de información para obtener de la función de transferencia de la información almacenada; information storage means for storing information from acoustic signals or sound waves recovered by a pick-up device or acquisition system in at least one storage unit; information processing means to obtain from the transfer function of the stored information;
medios de comparación para correlacionar la función de transferencia parametrizada de la información almacenada a una HRTF parametrizada genérica previamente almacenada en al menos una unidad de almacenamiento; comparison means for correlating the parameterized transfer function of the stored information to a generic parametrized HRTF previously stored in at least one storage unit;
medios de procesamiento de información para obtener la transformada binaural y aplicarla a la información almacenada; information processing means to obtain the binaural transform and apply it to the stored information;
medios de almacenamiento para almacenar transformada binaural de la información almacenada para su posterior rescate y reproducción. Storage means to store binaural transformed stored information for later rescue and reproduction.
33. Un programa computacional para la grabación binaural, que comprende la implementación del método de las reivindicaciones 22 o 29 en un dispositivo portátil. 33. A computational program for binaural recording, comprising the implementation of the method of claims 22 or 29 in a portable device.
34. Procedimiento de fabricación de un sistema de tamaño reducido para grabación binaural que comprende las etapas de: 34. Manufacturing process of a system of reduced size for binaural recording comprising the steps of:
proveer un sistema de adquisición que minimice la correlación angular de la respuesta a cualquier par de sonidos idénticos; provide an acquisition system that minimizes the angular correlation of the response to any pair of identical sounds;
definir un tipo de muestra a considerar para medir la respuesta del impulso, que abarque todas las frecuencias deseadas que el usuario puede escuchar; define a type of sample to be considered to measure the impulse response, covering all the desired frequencies that the user can listen to;
- medir la función de transferencia relacionada al sistema de adquisición (MFSFT), utilizando la muestra definida; - measure the transfer function related to the procurement system (MFSFT), using the defined sample;
medir la función de transferencia relacionada a una cabeza dummy (HRTF), utilizando la muestra definida;
desarrollar un algoritmo de decodificación de la información recuperada por el sistema de adquisición, seleccionando la función de transformación que mejor aproxime la función que mapea las respuestas a ambas funciones de transferencia parametrizadas; measure the transfer function related to a dummy head (HRTF), using the defined sample; develop an algorithm for decoding information retrieved by the acquisition system, selecting the transformation function that best approximates the function that maps the responses to both parameterized transfer functions;
entrenar y validar la función de transformación seleccionada, estableciendo una correlación matemática entre las transformaciones de las señales capturadas por la cabeza dummy y por el sistema de adquisición; train and validate the selected transformation function, establishing a mathematical correlation between the transformations of the signals captured by the dummy head and by the acquisition system;
establecer índices matemáticos que permitan evaluar el desempeño de la decodificación en términos de la correlación lograda y la sensación de inmersión del oyente; establish mathematical indexes that allow evaluating the performance of the decoding in terms of the correlation achieved and the sensation of immersion of the listener;
seleccionar la transformación binaural para ser aplicada en un dispositivo de decodificación. select the binaural transformation to be applied in a decoding device.
35. Procedimiento de fabricación de un sistema de tamaño reducido para la grabación binaural según la reivindicación 34, en el que las etapas de medición de la función de transferencia relacionada con el sistema de adquisición (MFSFT) y la función de transferencia relacionada con una cabeza dummy (HRTF) comprenden la toma de muestras con la cabeza dummy para ubicaciones N determinadas y con las mismas ubicaciones N al sistema de adquisición, en donde se hace un análisis de correlación entre las señales y la iteración a estas muestras. 35. Method of manufacturing a small-sized system for binaural recording according to claim 34, wherein the steps of measuring the transfer function related to the acquisition system (MFSFT) and the transfer function related to a head dummy (HRTF) comprise the sampling with the dummy head for determined N locations and with the same N locations to the acquisition system, where a correlation analysis is made between the signals and the iteration to these samples.
36. Procedimiento de fabricación de un sistema de tamaño reducido para la grabación binaural según la reivindicación 35, en la que el sistema de grabación está integrado y/o es parte de un dispositivo portátil, como un teléfono inteligente.
36. Method of manufacturing a small-sized system for binaural recording according to claim 35, wherein the recording system is integrated and / or is part of a portable device, such as a smartphone.
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US201361875178P | 2013-09-09 | 2013-09-09 | |
US61/875,178 | 2013-09-09 |
Publications (1)
Publication Number | Publication Date |
---|---|
WO2015032009A1 true WO2015032009A1 (en) | 2015-03-12 |
Family
ID=52627661
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
PCT/CL2014/000043 WO2015032009A1 (en) | 2013-09-09 | 2014-09-09 | Small system and method for decoding audio signals into binaural audio signals |
Country Status (1)
Country | Link |
---|---|
WO (1) | WO2015032009A1 (en) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
EP3465355A4 (en) * | 2016-06-01 | 2020-01-15 | Downey, Patrick M. | Method of music instruction |
Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20040170281A1 (en) * | 1996-02-16 | 2004-09-02 | Adaptive Audio Limited | Sound recording and reproduction systems |
US20050080616A1 (en) * | 2001-07-19 | 2005-04-14 | Johahn Leung | Recording a three dimensional auditory scene and reproducing it for the individual listener |
US20050238176A1 (en) * | 2004-04-27 | 2005-10-27 | Kenji Nakano | Binaural sound reproduction apparatus and method, and recording medium |
US20080056517A1 (en) * | 2002-10-18 | 2008-03-06 | The Regents Of The University Of California | Dynamic binaural sound capture and reproduction in focued or frontal applications |
US20110211702A1 (en) * | 2008-07-31 | 2011-09-01 | Mundt Harald | Signal Generation for Binaural Signals |
US20120130713A1 (en) * | 2010-10-25 | 2012-05-24 | Qualcomm Incorporated | Systems, methods, and apparatus for voice activity detection |
US20120128160A1 (en) * | 2010-10-25 | 2012-05-24 | Qualcomm Incorporated | Three-dimensional sound capturing and reproducing with multi-microphones |
US20130202114A1 (en) * | 2010-11-19 | 2013-08-08 | Nokia Corporation | Controllable Playback System Offering Hierarchical Playback Options |
-
2014
- 2014-09-09 WO PCT/CL2014/000043 patent/WO2015032009A1/en active Application Filing
Patent Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20040170281A1 (en) * | 1996-02-16 | 2004-09-02 | Adaptive Audio Limited | Sound recording and reproduction systems |
US20050080616A1 (en) * | 2001-07-19 | 2005-04-14 | Johahn Leung | Recording a three dimensional auditory scene and reproducing it for the individual listener |
US20080056517A1 (en) * | 2002-10-18 | 2008-03-06 | The Regents Of The University Of California | Dynamic binaural sound capture and reproduction in focued or frontal applications |
US20050238176A1 (en) * | 2004-04-27 | 2005-10-27 | Kenji Nakano | Binaural sound reproduction apparatus and method, and recording medium |
US20110211702A1 (en) * | 2008-07-31 | 2011-09-01 | Mundt Harald | Signal Generation for Binaural Signals |
US20120130713A1 (en) * | 2010-10-25 | 2012-05-24 | Qualcomm Incorporated | Systems, methods, and apparatus for voice activity detection |
US20120128160A1 (en) * | 2010-10-25 | 2012-05-24 | Qualcomm Incorporated | Three-dimensional sound capturing and reproducing with multi-microphones |
US20130202114A1 (en) * | 2010-11-19 | 2013-08-08 | Nokia Corporation | Controllable Playback System Offering Hierarchical Playback Options |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
EP3465355A4 (en) * | 2016-06-01 | 2020-01-15 | Downey, Patrick M. | Method of music instruction |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Cuevas-Rodríguez et al. | 3D Tune-In Toolkit: An open-source library for real-time binaural spatialisation | |
Li et al. | Measurement of head-related transfer functions: A review | |
Zhang et al. | Surround by sound: A review of spatial audio recording and reproduction | |
US10129681B2 (en) | Calibrating listening devices | |
KR102257695B1 (en) | Sound field re-creation device, method, and program | |
Jot et al. | Augmented reality headphone environment rendering | |
CN112005559B (en) | Method for improving positioning of surround sound | |
CN106134223A (en) | Reappear audio signal processing apparatus and the method for binaural signal | |
Birnie et al. | Mixed source sound field translation for virtual binaural application with perceptual validation | |
Thiemann et al. | A multiple model high-resolution head-related impulse response database for aided and unaided ears | |
Zandi et al. | Individualizing head-related transfer functions for binaural acoustic applications | |
Mccormack et al. | Six-Degrees-of-Freedom Binaural Reproduction of Head-Worn Microphone Array Capture | |
Geronazzo et al. | Personalization support for binaural headphone reproduction in web browsers | |
WO2020026548A1 (en) | Information processing device, information processing method, and acoustic system | |
US20240349001A1 (en) | Method and system for determining individualized head related transfer functions | |
WO2015032009A1 (en) | Small system and method for decoding audio signals into binaural audio signals | |
Vennerød | Binaural reproduction of higher order ambisonics-a real-time implementation and perceptual improvements | |
Jayaram et al. | HRTF Estimation in the Wild | |
Hiipakka | Estimating pressure at the eardrum for binaural reproduction | |
Oldfield | The analysis and improvement of focused source reproduction with wave field synthesis | |
Rumsey | Binaural audio and virtual acoustics | |
Koyama | Boundary integral approach to sound field transform and reproduction | |
Fonseca et al. | Measurement of car cabin binaural impulse responses and auralization via convolution | |
WO2019174442A1 (en) | Adapterization equipment, voice output method, device, storage medium and electronic device | |
Vorländer | Virtual acoustics: opportunities and limits of spatial sound reproduction |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
121 | Ep: the epo has been informed by wipo that ep was designated in this application |
Ref document number: 14842043 Country of ref document: EP Kind code of ref document: A1 |
|
NENP | Non-entry into the national phase |
Ref country code: DE |
|
122 | Ep: pct application non-entry in european phase |
Ref document number: 14842043 Country of ref document: EP Kind code of ref document: A1 |
|
122 | Ep: pct application non-entry in european phase |
Ref document number: 14842043 Country of ref document: EP Kind code of ref document: A1 |