WO2022023417A2 - System und verfahren zur kopfhörerentzerrung und raumanpassung zur binauralen wiedergabe bei augmented reality - Google Patents

System und verfahren zur kopfhörerentzerrung und raumanpassung zur binauralen wiedergabe bei augmented reality Download PDF

Info

Publication number
WO2022023417A2
WO2022023417A2 PCT/EP2021/071151 EP2021071151W WO2022023417A2 WO 2022023417 A2 WO2022023417 A2 WO 2022023417A2 EP 2021071151 W EP2021071151 W EP 2021071151W WO 2022023417 A2 WO2022023417 A2 WO 2022023417A2
Authority
WO
WIPO (PCT)
Prior art keywords
audio
impulse responses
sound
binaural
user
Prior art date
Application number
PCT/EP2021/071151
Other languages
English (en)
French (fr)
Other versions
WO2022023417A3 (de
Inventor
Thomas Sporer
Original Assignee
Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V.
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. filed Critical Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V.
Priority to EP21751796.0A priority Critical patent/EP4189974A2/de
Priority to JP2023506248A priority patent/JP2023536270A/ja
Publication of WO2022023417A2 publication Critical patent/WO2022023417A2/de
Publication of WO2022023417A3 publication Critical patent/WO2022023417A3/de
Priority to US18/158,724 priority patent/US20230164509A1/en

Links

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S7/00Indicating arrangements; Control arrangements, e.g. balance control
    • H04S7/30Control circuits for electronic adaptation of the sound field
    • H04S7/305Electronic adaptation of stereophonic audio signals to reverberation of the listening space
    • H04S7/306For headphones
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S3/00Systems employing more than two channels, e.g. quadraphonic
    • H04S3/008Systems employing more than two channels, e.g. quadraphonic in which the audio signals are in digital form, i.e. employing more than two discrete digital channels
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R1/00Details of transducers, loudspeakers or microphones
    • H04R1/10Earpieces; Attachments therefor ; Earphones; Monophonic headphones
    • H04R1/1083Reduction of ambient noise
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R2225/00Details of deaf aids covered by H04R25/00, not provided for in any of its subgroups
    • H04R2225/41Detection or adaptation of hearing aid parameters or programs to listening situation, e.g. pub, forest
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R2225/00Details of deaf aids covered by H04R25/00, not provided for in any of its subgroups
    • H04R2225/43Signal processing in hearing aids to enhance the speech intelligibility
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R2460/00Details of hearing devices, i.e. of ear- or headphones covered by H04R1/10 or H04R5/033 but not provided for in any of their subgroups, or of hearing aids covered by H04R25/00 but not provided for in any of its subgroups
    • H04R2460/01Hearing devices using active noise cancellation
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R25/00Deaf-aid sets, i.e. electro-acoustic or electro-mechanical hearing aids; Electric tinnitus maskers providing an auditory perception
    • H04R25/50Customised settings for obtaining desired overall acoustical characteristics
    • H04R25/505Customised settings for obtaining desired overall acoustical characteristics using digital signal processing
    • H04R25/507Customised settings for obtaining desired overall acoustical characteristics using digital signal processing implemented by neural network or fuzzy logic
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R5/00Stereophonic arrangements
    • H04R5/027Spatial or constructional arrangements of microphones, e.g. in dummy heads
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R5/00Stereophonic arrangements
    • H04R5/033Headphones for stereophonic communication
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R5/00Stereophonic arrangements
    • H04R5/04Circuit arrangements, e.g. for selective connection of amplifier inputs/outputs to loudspeakers, for loudspeaker detection, or for adaptation of settings to personal preferences or hearing impairments
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S2400/00Details of stereophonic systems covered by H04S but not provided for in its groups
    • H04S2400/01Multi-channel, i.e. more than two input channels, sound reproduction with two speakers wherein the multi-channel information is substantially preserved
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S2400/00Details of stereophonic systems covered by H04S but not provided for in its groups
    • H04S2400/11Positioning of individual sound objects, e.g. moving airplane, within a sound field
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S2400/00Details of stereophonic systems covered by H04S but not provided for in its groups
    • H04S2400/15Aspects of sound capture and related signal processing for recording or reproduction
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S2420/00Techniques used stereophonic systems covered by H04S but not provided for in its groups
    • H04S2420/01Enhancing the perception of the sound image or of the spatial distribution using head related transfer functions [HRTF's] or equivalents thereof, e.g. interaural time difference [ITD] or interaural level difference [ILD]
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S7/00Indicating arrangements; Control arrangements, e.g. balance control
    • H04S7/30Control circuits for electronic adaptation of the sound field
    • H04S7/301Automatic calibration of stereophonic sound system, e.g. with test microphone
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S7/00Indicating arrangements; Control arrangements, e.g. balance control
    • H04S7/30Control circuits for electronic adaptation of the sound field
    • H04S7/302Electronic adaptation of stereophonic sound system to listener position or orientation
    • H04S7/303Tracking of listener position or orientation
    • H04S7/304For headphones

Definitions

  • the present invention relates to Kcyhn iurEQ and room mmf, of binaural display in augmented reality, (AW
  • SH Selective Hearing
  • Time and level differences alone are not sufficient to determine the exact position of a sound source:
  • the locations with the same time and level difference are on a hyperboloid.
  • the resulting ambiguity in localization is called cone-of-confusion.
  • every sound source is reflected by the boundary surfaces.
  • Each of these so-called mirror sources lies on another hyperboloid.
  • the human sense of hearing combines the information about the direct sound and the associated reflections into one auditory event and thus resolves the ambiguity of the cone-of-confusion.
  • the reflections associated with a sound source increase the perceived loudness of the sound source.
  • Binaural hearing uses all of these aspects together. Furthermore, loud sources of interference that are easy to localize can be actively ignored. According to the state of the art, classic hearing aids are mostly monaural, ie the signal processing for the right and left ear is completely independent in terms of frequency response and dynamic compression. As a result, time, level and frequency differences between the ear signals are lost.
  • Modern, so-called binaural hearing aids couple the correction factors of the two hearing aids. They often have several microphones, but usually only the microphone with the "most speech-like" signal is selected, but no explicit beamforming is calculated. In complex listening situations, desired and undesired sound signals are amplified in the same way, and concentration on desired sound components is therefore not encouraged.
  • Audio analysis has a number of specific challenges that need to be addressed. Due to their complexity, deep learning models are very data-hungry. Compared to the research areas of image processing and speech processing, only relatively small data sets are currently available for audio processing. The largest data set is the AudioSet data set from Google [83] with around 2 million sound samples and 632 different sound event classes, although most of the data sets used in research are much smaller. This small amount of training data can be addressed, for example, with transfer learning (transfer learning), in which a model that has been pre-trained on a large data set is then fine-tuned to a smaller data set with new classes intended for the application (fine tuning) [77 ].
  • transfer learning transfer learning
  • Real-time capability of the sound source detection algorithms is of elementary importance in the scenario of use planned in this project within a headphone.
  • a trade-off between the complexity of the neural network and the maximum possible number of arithmetic operations on the underlying computing platform must be carried out. Even if a sound event has a longer duration, it still has to be recognized as quickly as possible in order to start an appropriate source separation.
  • Audio signals at different locations in the city can both measure noise levels and classify between 14 different acoustic scene and event classes [69]. Processing in the v a -iren on the
  • Source separation algorithms usually leave behind artifacts such as distortion and crosstalk between the sources [5], which are generally perceived as annoying by the listener. However, such artefacts can be partially masked and thus reduced by mixing the tracks again (re-mixing) [10].
  • ANC Active Noise Control
  • the first products allow the microphone signals to also be passed through to the headphones in order to reduce passive isolation.
  • Sennheiser offers the function with the AMBEO headset [88] and Bragi in the product "The Dash Pro".
  • this option is only the beginning.
  • this function is to be greatly expanded so that not only the full ambient noise can be switched on or off / *x ⁇ , but also individual signal components (such as only speech or A!armsnr ⁇ * e ' If necessary, only listening can be heard at night.
  • the French company Orosound enables the wearer of the headset "Tilde Earphones" [89] to adjust the strength of the ANC with a slider.
  • the voice of a conversation partner can also be passed through while the ANCs are activated. This works but only if the interlocutor is in a frontal SCT cone A riclv. « ⁇ .w « ⁇ nfit is not possible.
  • a method was disclosed which is designed to generate a listening environment for a user. The method includes receiving a signal that reflects an ambient listening environment of the user, and also processing the signal «; using a microprocessor to at least one sound type a f '''of sound types in the ambient
  • the method includes receiving user preferences for each of the plurality of sound types, modifying the signal for each sound type in the ambient listening environment, and a ; ' VngWv W s modified signal on at least one speaker to create a listening environment.
  • Headphone equalization and room adaptation of binaural playback in augmented reality (AR) represent a significant problem ⁇ in a typical scenario, a human listener wears acoustically (partially) transparent headphones and hears his surroundings through them.
  • additional sound sources are reproduced via the headphones, which are embedded in the real environment in such a way that it is not possible for the listener to distinguish between the real sound scene and the additional sound.
  • tracking is used to determine in which direction the head is turned and where the listener is in the room (six degrees of freedom (6DoF)). It is known from research that good results (i.e. externalization and correct localization) are achieved when the room acoustics of the recording and playback rooms match or when the recording is adapted to the playback room.
  • 6DoF six degrees of freedom
  • a measured BRIR is carried out without headphones, either individually or with an artificial head using a probe microphone.
  • the spatial properties of the recording room are analyzed based on the measured BRIR.
  • the headphone transfer function is then measured individually or with an artificial head using a probe microphone at the same location. This determines an equalization function.
  • a source to be augmented is convolved with the position-correct, optionally adjusted, BRIR in order to obtain two raw channels. Convolve the raw channels with the equalization function to get the headphone signals.
  • the headphone signals are reproduced via headphones.
  • claim 1 provides a system, claim 19 a method and claim 20 a computer program according to embodiments of the invention
  • a system with an embodiment of the invention comprises an anal, sAw for determining a plurality of binaural room impulse responses and a loudspeaker signal generator for generating at least two loudspeaker signals depending on the plurality of binaural room impulse responses and depending on the audio source signal of at least one audio source.
  • the analyzer is designed to determine the plurality of binaural spatial impulse responses in such a way that each of the plurality of binaural spatial impulse responses takes into account an effect resulting from the wearing of headphones by a user.
  • the plurality of binaural spatial impulse responses are determined such that each of the plurality of binaural spatial impulse responses takes into account an effect resulting from a user wearing a headphone.
  • a computer program according to an embodiment of the invention is provided with a program code for carrying out the method described above.
  • FIG. 1 shows a system according to an embodiment.
  • FIG 2 shows another system for supporting selective hearing according to another embodiment.
  • FIG. 3 shows a system for recording selective listening that includes a user interface.
  • Fig. 4 shows a system for supporting selective hearing since it comprises a hearing aid with two corresponding loudspeakers.
  • Figure 5a shows a selective hearing support system comprising a housing structure and two speakers. shows a system to support ! Hearing that includes headphones with two speakers.
  • Fig. 6 shows a system ', in one embodiment , 'V' O min, which includes a remote device
  • FIG. 7 shows a system according to an embodiment comprising five sub-systems.
  • FIG. 8 shows a corresponding scenario according to an embodiment.
  • FIG. 10 illustrates a processing workflow of an SH application according to an embodiment.
  • FIG. 1 shows a system according to an embodiment.
  • the system includes an analyzer 152 for determining a plurality of binaural spatial impulse responses.
  • the system comprises a loudspeaker signal generator 154 for generating at least two loudspeaker signals depending on the plurality of binaural room impulse responses and depending on the audio source signal from at least one audio source.
  • the analyzer 152 is configured to determine the plurality of binaural spatial impulse responses such that each of the plurality of binaural spatial impulse responses takes into account an effect resulting from a user's rumble of a headphone.
  • the system P can include the headphones, wherein the headphones can be designed, for example, to output the at least wG loudspeaker signals.
  • the headphones can include, for example, two headphone capsules and, for example, at least one microphone for measuring sound in each of the two headphone capsules, wherein the at least one microphone for measuring dos: nalis can be arranged in each of the two headphone capsules.
  • the analyzer 152 can be designed, for example, to carry out the determination of the majority of the binaural room impulse responses using the measurement of the at least one microphone in each of the two headphone capsules
  • a headphone which is intended for binaural reproduction always has at least two headphone capsules (one each for left and right ear), whereby more than two capsules (e.g. for different Frequ* 11 in 1 'pw '.can also be seen.
  • the at least one microphone in each of the two headphone capsules can be configured, for example, to generate one or more recordings of a sound situation in a playback room before the start of playback of the at least two loudspeaker signals through the headphones, from the one or more recordings an estimate of a To determine the raw audio signal of at least one audio source and to determine a binaural room impulse response of the plurality of binaural room impulse responses for the audio source in the playback room.
  • the at least one microphone in each of the two headphone capsules can be designed, for example, to generate one or more additional recordings of the sound situation in the reproduction room during the playback of the at least two loudspeaker signals through the headphones, of which one or more additional recordings an augmented one subtract signal and determine the estimate of the raw audio signal from one or more audio sources and determine the binaural room impulse response of the plurality of binaural room impulse responses for the audio source in the playback room.
  • the analyzer 152 may be configured to determine spatial acoustic properties of the playback room and adjust the plurality of binaural spatial impulse responses depending on the spatial acoustic properties.
  • the at least one microphone can be, for example, in each of the two headphone capsules for measuring the sound close to the entrance of the ear canal ⁇ , c icnat.
  • the system can Ul . . in or more microphones outside of the two headphone capsules to measure the sound situation in the
  • the headphones can comprise a bracket , for example, with at least one of the one or more additional microphones being arranged on the bracket, for example.
  • the speaker signal generator 154 may be configured to generate the at least two speaker signals by convolving each of the plurality of binaural room impulse responses with an audio source signal of a plurality of one or more audio source signals.
  • the analyzer 152 can be configured, for example, to determine at least one of the plurality of binaural spatial impulse responses (or several or all binaural spatial impulse responses) as a function of a movement of the headphones.
  • the system can include a sensor in order to determine a movement of the headphones.
  • the sensor may be a sensor, such as an accelerometer, having at least 3 DoF (three degrees of freedom) to detect head rotations.
  • a 6 DoF sensor (English: six degrees of freedom sensor) can be used.
  • Certain aspects of the invention address the technical challenge that it is often too loud in a listening environment, certain noises are annoying in the listening environment, and selective listening is desired.
  • the human brain itself is capable of being selective in [ Uren, but intelligent* u Clinical aids can significantly improve selective hearing. Just as glasses help many people in today's life to perceive their surroundings better, there are hearing aids for hearing, but in many situations people with normal hearing can also benefit from the support of intelligent systems.
  • hearing aids the (acoustic) environment must be analyzed by the technical system, individual sound sources must be identified so that they can be treated separately.
  • the BRIR is measured with headphones either individually or with headphones using a probe microphone.
  • the spatial properties of the recording room are analyzed based on the measured BRIR.
  • At least one built-in microphone in each shell records the real sound situation in the playback room before playback begins. From these recordings, an estimate of the raw audio signal from one or more sources is determined and the respective BRIR of the sound source/audio source in the playback room is determined. The acoustic room properties of the playback room are determined from this estimate and the BRIR of the recording room is thus adjusted.
  • At least one built-in microphone in each shell records the real sound situation in the playback room during playback.
  • the augmented signal is first subtracted from these recordings, then an estimate of the raw audio signal from one or more sources is determined and the respective BRIR of the sound source/audio source in the playback room is determined.
  • the acoustic room properties of the playback room are determined from this estimate and the BRIR of the recording room is thus adjusted.
  • the headphone signals are reproduced via headphones. 1 « öinar Jurur let one in vein to arrange.
  • additional Wüki are optionally attached to the outside of the headphones, possibly also to the top of the bracket, for measuring and analyzing the situation in the playback room.
  • sound from natural and augmented sources is realized to be the same.
  • Embodiments realize that no measurement of headphone characteristics is required.
  • Embodiments thus provide concepts for measuring the spatial properties of the rendering space.
  • Some embodiments provide a seed and (post) optimization of the spatial adaptation.
  • the concepts provided also work if the room acoustics of the playback room change, e.g. if the listener changes to another room.
  • embodiments are based on installing different techniques for hearing assistance in technical systems and combining them in such a way that an improvement in the quality of sound and quality of life (e.g. desired sound is louder, undesired sound is quieter, better speech intelligibility) both for people with normal hearing and for people with damage to the hearing is achieved.
  • quality of sound and quality of life e.g. desired sound is louder, undesired sound is quieter, better speech intelligibility
  • FIG. 2 shows a system for supporting selective listening according to an embodiment.
  • the system includes a detector i tu for detecting an audio source signal portion of one or more audio sources using at least two received microphone signals of a listening environment.
  • the system also includes a position determiner 120 for assigning position information to each of the one or more audio sources. 130 to assign r the one or
  • the system also includes a signal component modifier 140 for changing the audio source signal component of at least one audio source of the one or more audio sources depending on the audio signal type of the audio source signal component of the at least one audio source in order to obtain a modified audio signal component of the at least one audio source.
  • a signal component modifier 140 for changing the audio source signal component of at least one audio source of the one or more audio sources depending on the audio signal type of the audio source signal component of the at least one audio source in order to obtain a modified audio signal component of the at least one audio source.
  • the analyzer 152 and the loudspeaker signal generator 154 of Fig. 1 together form a signal generator 150.
  • the analyzer 152 of the signal generator 150 is designed to generate the plurality of binaural spatial impulse responses, the plurality of binaural spatial impulse responses being a plurality of binaural spatial impulse responses for each audio source of the one or more audio sources which, depending on the position information of this audio source and one Orientation of a user's head.
  • the loudspeaker signal generator 154 of the signal generator 150 is designed to generate the at least two loudspeaker signals as a function of the plurality of binaural room impulse responses and as a function of the modified audio signal component of the at least one audio source.
  • the detector 110 may be configured to detect the audio source signal portion of the one or more audio sources using deep learning models.
  • the position determiner 120 can be designed, for example, to determine the position information for each of the one or more audio sources depending on a recorded image or on a recorded video.
  • the position determiner 120 can be designed, for example, to determine the position information for each of the one or more audio sources as a function of the video by detecting a lip movement of a person in the video
  • the *>n' ⁇ i' can be designed to determine one or more acoustic properties of the listening environment as a function of the at least two received microphone signals.
  • the signal generator 150 can be configured, for example, to determine the plurality of binaural room impulse responses depending on the one or more acoustic properties of the listening environment.
  • the signal component modifier 140 can be designed, for example, to select the at least one audio source whose audio source signal component is modified depending on a previously learned user scenario and to modify it depending on the previously learned user scenario.
  • the system may include a user interface 160 for selecting the previously learned user scenario from a set of two or more previously learned user scenarios.
  • a user interface 160 for selecting the previously learned user scenario from a set of two or more previously learned user scenarios.
  • 3 shows such a system according to an embodiment, which additionally comprises such a user interface 160 .
  • the detector 110 and/or the position determiner 120 and/or the audio type classifier 130 and/or the signal component modifier 140 and/or the signal generator 150 can be implemented, for example, parallel signal processing using a Hough transform or under Perform using a plurality of VLSI chips or using a plurality of memristors.
  • the system can include, for example, a hearing aid 170 serving as a hearing aid for users with hearing impairments and/or hearing impairments, the hearing aid having at least two loudspeakers * s > .. . i Output of at least two loudspeaker signals, FIG. 4 shows such a system according to one
  • Embodiment that such a hearing aid 170 with two corresponding speakers 171, 172 includes
  • the system may include, for example, at least two speakers 181, 182 for outputting the at least two speaker signals and a housing structure 183 accommodating the at least two speakers, the at least one housing structure 183 being adapted to be attached to a head 185 of a user or another
  • the system can include headphones bV, for example, which include at least two loudspeakers a' for outputting the at least two loudspeaker signals.
  • Fig. 5b ao M a corresponding headphone 180 with two speakers 181 182 according to an 't Arrangementsform.
  • the detector 110 and the position determiner 120 and the audio type classifier 130 and the signal component modifier 140 and the signal generator 150 can be integrated into the headset 180 .
  • the system may include a remote device 190 that includes detector 110 and position determiner 120 and audio type classifier 130 and signal component modifier 140 and signal generator 150 .
  • the remote device 190 can be spatially separated from the headphones 180, for example.
  • remote device 190 may be a smartphone.
  • Embodiments do not necessarily use a microprocessor, but use parallel signal processing steps, such as Hough transformation, VLSI chips or memristors for the power-saving implementation, including artificial neural networks.
  • the auditory environment mvi is spatially recorded and reproduced, which on the one hand uses more than one signal to represent the input signal and on the other hand also uses a spatial reproduction.
  • n * “ .. Deep Learning (DL) models (e.g. CNN, RCNN 8 M Siamese Network) and simultaneously processes the information from at least two microphone channels, mi ' Vns one microphone in each Hearable is. According to the like ... ⁇ .. e Ac yso several output signals (according to the individual sound sources) together mii. their respective spatial position. If the recording device (microphones) is connected to the head, then the positions ' change. , effectss from head movements. This enables a natural nki i ⁇ cio . i sound, :trcb turning to
  • the signal analysis algorithms are based on a deep learning architecture, for example.
  • Alternative variants with an analysis unit or variants with separate networks are used for the aspects of localization, detection and source separation.
  • the alternative use of generalized cross-correlation takes account of the frequency-dependent shadowing by the head and improves localization, detection and source separation.
  • different source categories e.g. speech, vehicles, male/female/child's voice, warning tones, etc.
  • the source separation networks are also trained for high signal quality, as well as the localization networks with targeted stimuli for high localization accuracy.
  • the training steps mentioned above use, for example, multi-channel audio data, with a first training run usually being carried out in the laboratory with simulated or recorded audio data. This is followed by a training session in different natural environments (e.g. living room, classroom, train station, (industrial) production environment, etc.), i.e. transfer learning and domain adaptation takes place.
  • natural environments e.g. living room, classroom, train station, (industrial) production environment, etc.
  • the position detector could be coupled to one or more cameras to also determine the visual position of sound/audio sources.
  • the position detector could be coupled to one or more cameras to also determine the visual position of sound/audio sources.
  • lip movement and the audio signals coming from the source separator are correlated and thus a more precise localization is achieved.
  • the auralization is performed using binaural synthesis.
  • the binaural synthesis offers the further advantage that it is possible not to completely delete unwanted L components, but only to reduce them to the extent that they
  • the analysis of the auditory environment is not only used to separate the objects, but also to analyze the acoustic properties (eg reverberation time, initial time gap). These properties are then used in the binaural synthesis to adapt the pre-stored (possibly also individualized) binaural room impulse responses (BRIR) to the actual room. Due to the reduction in room divergence, the listener has a significantly reduced listening effort when understanding the optimized signals. Minimizing room divergence affects the externalization of auditory events and thus the plausibility of spatial audio reproduction in the listening room. There are no known solutions in the prior art for speech understanding or for the general understanding of optimized signals.
  • a user interface is used to determine which sound sources are selected. According to the invention, this is done here by prior learning of different user scenarios, such as “amplify speech right from the front” (conversation with one person), “amplify speech in the range of +-60 degrees” (conversation in a group), “suppress music and amplify music ’ (I don’t want to hear concert goers), ‘make everything quiet’ (I want my peace), ‘suppress all calls and warning tones’, etc.
  • Some embodiments are independent of the hardware used, i.e. both open and closed headphones can be used.
  • the signal processing can be integrated in the headphones, in an ev* - -n device, or also in a smartphone.
  • signals from the smartphone e.g. music, telephony
  • an ecosystem for “selective listening with cl support” be > ' r? kills.
  • Exemplary embodiments relate to the “personalized auditory reality ( PARty )”.
  • PARty personalized auditory reality
  • the listener is able to amplify, reduce or modify defined acoustic objects.
  • Some embodiments u-, n the analysis of the real sound environment and detection of the individual akus m ⁇ i Qjekte, the separation, tracking and editability of the existing objects unu uie reconstruction and playback of the modified acoustic scene.
  • a detection of sound events, a separation of the sound events, and a suppression of some of the sound events is implemented.
  • AI methods meaning in particular deep learning-based methods.
  • Embodiments of the invention contribute to the technological development for recording, signal processing and reproduction of spatial audio.
  • embodiments create spatiality and three-dimensionality in multimedia systems when the user interacts
  • Exemplary embodiments are based on researched knowledge of perceptual and cognitive processes of spatial hearing.
  • Scene decomposition This includes a room-acoustic recording of the real environment and parameter estimation and/or a position-dependent sound field analysis.
  • Scene Representation This includes representation and identification of the objects and the environment and/or efficient representation and storage.
  • scene composition and playback This includes an adjustment and Vt wQumig of the objects and the environment and/or a rendering and a fi ig.
  • This i technical and/or auditory quality measurement Signal processing: This includes feature extraction and dataset generation for ML (machine learning).
  • Estimation of room and environment acoustics This includes in-situ measurement and estimation of room acoustic parameters and/or provision of room acoustic characteristics for source separation and ML.
  • Auralization This includes a spatial audio reproduction with an auditory fit to the environment and/or a validation and evaluation and/or a proof of function and a quality assessment.
  • FIG. 8 shows a corresponding scenario according to an embodiment.
  • Embodiments combine concepts for sound source detection, classification, separation, localization, and enhancement, highlighting recent advances in each area and showing relationships between them.
  • Unified concepts are provided that can combine detect/classify/locate and separate/enhance sound sources to provide both the flexibility and robustness required for real-life SH.
  • embodiments provide suitable concepts for real-time performance with low latency in dealing with the dynamics of real-life auditory scenes.
  • Some of the embodiments utilize deep learning concepts, machine hearing and smart headphones (fengi smart hearables) that allow listeners to selectively modify their auditory scene.
  • Embodiments provide the possibility for a listener to selectively improve, dampen, suppress or correct sound sources in the auditory scene by means of a hearing device such as a comm, earphones etc.
  • Fig. 9 illustrates a scenario according to an embodiment with four external sound sources. (In Fig. 9: Keep - keep; Suppress - suppress; Alarm - alarm; Cellphone - Handy; Speaker X - speaker X; City Noise - city noise; Source Control - source control).
  • the user represents the center of the auditory scene.
  • four external sound sources (S1-S4) are active around the user.
  • S1-S4 are active around the user.
  • Sources S1-S4 can be attenuated, enhanced or suppressed with their respective sliders.
  • the listener can define sound sources or events to be retained or suppressed in the auditory scene.
  • the background noise of the city is to be suppressed while alarms or ringing of telephones are to be retained.
  • the user always has the option of playing an additional audio stream such as music or radio via the hearing device.
  • the user is usually the center of the system and controls the auditory scene via a control unit.
  • the user can edit the auditory scene with a
  • the next step is a capture/classification/localization stage.
  • the acquisition is necessary, e.g. B. when the user wants to keep every speech utterance occurring in the auditory scene.
  • classification might be necessary, e.g. B. if the user wants to keep fire alarms in the auditory scene, but not phone rings or office noise.
  • the location of the source is relevant to the system. This is the case, for example, with the four sources in Figure 9: the user can choose to remove or attenuate the sound source coming from a certain direction, regardless of the type or characteristics of the source.
  • FIG. 10 illustrates a processing workflow of an SH application according to an embodiment.
  • I Fig. 10 One distinguishes selective listening from virtual and amplified auditory environments by restricting selective listening to those applications where only real audio sources are modified in the auditory scene without attempting to add any virtual sources to the scene.
  • embodiments utilize sound source localization, which refers to the ability to detect the position of a sound source in the auditory scene.
  • a source location usually refers to the direction of arrival (DOA) of a given source, which can be given either as a 2D coordinate (azimuth) or, if it includes an elevation, as a 3D coordinate .
  • DOA direction of arrival
  • Some systems also estimate the distance from the source to the microphone as location information [3]
  • location In the context of music processing, location often refers to the panning of the source in the final mix and is usually given as an angle in degrees [4],
  • embodiments utilize sound source detection, which refers to the ability to determine whether any instance of a given type of sound source is present in the auditory scene.
  • An example of a detection process is to determine if any speaker is present in the scene. In this context, determining the number of speakers in the scene or the identity of the speakers goes beyond the scope of sound source detection.
  • Detection can be understood as a binary classification process where the classes correspond to source present and source absent. In embodiments vo. > Sound source classification is used, which assigns a class designation from a Gi ⁇ of predefined classes to a given sound wave or sound event.
  • An example of a classification process is to determine whether a wbone sound cjwV corresponds to speech, music, or ambient noise. Sound source classifications and detection are closely related concepts.
  • > ⁇ w ification systems include a detection ' vufe by considering "no class" as one of the possible -xw.qunions, Ir ' i cases learns - most implicitly - to detect the presence or absence of a sound source, ui . tt not compelled to assign a class designation if there is insufficient evidence that any of the samphire! is active.
  • embodiments utilize sound source separation, which refers to the extraction of a given sound source from an audio mix or an auditory scene.
  • sound source separation is the extraction of a singing voice from an audio mix in which other musical instruments are played simultaneously in addition to the singer [5].
  • Sound source separation becomes relevant in a selective listening scenario, as it enables the suppression of sound sources of no interest to the listener.
  • Some sound separation systems implicitly perform a detection process before extracting the sound source from the mix. However, this is not necessarily the rule and so we emphasize the distinction between these operations.
  • the separation often serves as a pre-processing stage for other types of analysis such as source enhancement [6] or classification [7].
  • Sound Source Identification is used, which goes one step further and aims to identify specific instances of a sound source in an Aud ⁇ v MI. Speaker identification is perhaps the most common use n source identification today. The goal of this process is to identify whether a specific speaker is present in the scene. In the example in Figure 1, the user has selected "Speaker X" as one of the sources to keep in the auditory scene. This requires hierarchies that go beyond capturing and classifying speech, and requires speaker-specific models that allow for this precise identification. For example, embodiments utilize sound source enhancement, which refers to the process of increasing the prominence of a given sound source in the auditory scene.[8] In the case of speech signals, the goal is often to improve their quality and increase perception of intelligibility.
  • source enhancement refers to the concept of making remixes and is often performed to add a musical instrument (sound source) to the mix to let stand out.
  • Applications for making remixes often use sound separation pre-stages (sound Separation front-enc to preserve the individual sound sources and to change the characteristics of the mix [10], Although sound enhancement can be preceded by a sound source separation stage, this is not always the case, and therefore emphasize we also emphasize the distinction between these two terms.
  • some of the embodiments use, for example, one of the following concepts, such as the detection and classification of acoustic scenes and events [18] in this context
  • Methods for audio event detection (AED) in home settings have been proposed, where the goal is to capture the time boundaries of a given sound event within 10-second recordings [19], [20].
  • 10 sound event classes were considered, including cat, dog, speech, alarm, and running water.
  • noise labels in classification is particularly relevant for applications to selective hearing, in which the class designators * can be so different that q" bk ' ky high-quality designations are very expensive [24], noise designations b for sound event classification were in (25] mmn «S mt wo ge syndromes rtiuuubte loss functions on the basis of * V. ( k' ⁇ Kr ⁇ ⁇ "uz ⁇ R* ''' ohow ways to evaluate both data with noise labels and manual data are presented.
  • some embodiments implement simultaneous detection and localization of sound events.
  • some embodiments, as in [27], perform the detection as a multi-label classification process and the location is given as the 3D coordinates of the direction of arrival (DOA) for each sound event.
  • DOA direction of arrival
  • Some embodiments use concepts of voice activity detection and speaker recognition/identification for SH.
  • Voice activity detection has been addressed in noisy environments using denoising autoencoders [28], recurrent neural networks [29] or as an end-to-end system using raw waveforms [30].
  • Many systems have been proposed in the literature for speaker recognition applications [31], with the vast majority focusing on increasing robustness to different conditions, for example with data augmentation or with improved embeddings that facilitate recognition [32]- [34], So some of the embodiments utilize these concepts.
  • sound source localization is closely related to the problem of source counting, since the number of sound sources in the auditory scene is usually not known in real-life applications.
  • Some systems operate on the assumption that the number of sources in the scene is known. This is the case, for example, with the model presented in [39], which uses histograms of active intensity vectors to locate the sources.
  • [40] proposes, from a controlled perspective, a CNN-based algorithm to estimate the DOA of multiple speakers in the auditory scene using phase maps as input representations. In contrast, several works in the literature collectively estimate the number of sources in the scene and their location information.
  • Sound source localization algorithms can be computationally demanding as they often involve scanning a large space around the auditory scene [42].
  • some of the embodiments use concepts that expand the search space by using clustering algorithms [43] or by performing multi-resolution searches [42] relative to best practices such as those based on the steered-response phase transform (steered response power phase transform, SRP-PHAT).
  • Other methods make matrix sparsity requirements and assume that only one sound source is predominant in a given time-frequency domain [44].
  • unprocessed waveforms Some of the embodiments utilize these concepts.
  • some embodiments employ concepts of speaker independent separation. There a separation occurs without any prior information about the speakers in the scene [46] Some embodiments also evaluate the spatial location of the speaker to perform a separation [47].
  • Some embodiments employ music sound separation (MSS) concepts to extract a music source from an audio mix [5], such as main instrument/accompaniment separation concepts [52]. These algorithms take the most prominent sounds in the mix, regardless of their class designation, and try to separate them from the rest of the accompaniment.
  • Some embodiments use vocal separation concepts [53] In most cases, either specific source models [54] or data-driven models [55] are used to capture the character ⁇ t'ka of the vocal.
  • systems such as that provided in FIG . 5A do not explicitly include a classification or a detection stage to achieve separation, the data-driven nature of these approaches allows these systems to implicitly learn to detect the singing voice with some accuracy prior to separation .
  • ANC anti-noise
  • ANC Active Noise Cancellation
  • ANC systems mainly aim to reduce background noise for headphone users by employing an anti-noise signal to cancel it [11]
  • ANC can be considered a special case of SH and faces an equally stringent requirement [14].
  • Some work focused refer to anti-noise in specific environments such as automotive interiors [56] or operational scenarios [57].
  • the work in [56] analyzes the cancellation of different types of noise, such as road noise and engine noise, and requires unified systems capable of dealing with different types of noise.
  • Some work has focused on developing ANC systems for canceling noise over specific spatial regions.
  • ANC is discussed over a spatial region using spherical harmonics as basis functions to represent the noise field.
  • Some of the embodiments use sound source enhancement concepts.
  • Speech enhancement is often performed in conjunction with sound source separation approaches, where the basic idea is to first extract the speech utterance and then apply enhancement techniques to the isolated speech signal [6].
  • the concepts described here are employed by some of the embodiments.
  • Source enhancement in the context of music mostly refers to applications for making music remixes.
  • speech enhancement where the assumption is often that the speech utterance is only affected by noise sources
  • music applications mostly assume that other sound sources (musical instruments) are playing simultaneously with the source to be enhanced. Therefore, music remix applications are always provided preceded by a source separation application. For example, in [10] early jazz recordings were remixed using techniques to separate lead and accompaniment, harmonic and percussion instruments to achieve a better tonal balance in the mix.
  • [63] investigated the use of different vocal separation algorithms to vary the relative loudness of the vocal and backing track, showing that a 6 dB increase is possible by introducing slight but audible distortions into the final mix.
  • the authors explore ways to improve music perception for cochlear implant users by applying sound source separation techniques to achieve new mixes. The concepts described there are used by some of the embodiments.
  • the amount of acceptable latency is both frequency and attenuation dependent, but can be as low as 1 ms for around 5 dB attenuation from frequencies below 200 Hz [14].
  • a final consideration regarding SH applications refers to the quality perception of the modified auditory scene. A significant amount of work has been done on methodologies for reliable audio quality assessment In some embodiments, concepts for counting and localization in [41], for localization and detection in [27], for separation and classification in [65] and for separation ut ⁇ , len in [66] are used as described there.
  • Some embodiments employ concepts to improve the robustness of current machine hearing methods as described in [25], [26], [32], [34], new emerging directions range adaptation [67] and learning based on datasets recorded with multiple devices [68].
  • Some of the embodiments employ concepts for improving the computational efficiency of machine hearing as described in [48], or concepts described in [30], [45], [50], [61] that are able to deal with unprocessed waveforms.
  • Some embodiments implement a unified optimization scheme that combines detection/classification/location and separation/enhancement to selectively modify sound sources in the scene, with independent detection, separation, localization, classification, and enhancement methods being reliable and applicable to SH provide the required robustness and flexibility.
  • Some embodiments are suitable for real-time processing, with a good trade-off between algorithmic complexity and performance.
  • Some embodiments combine ANC and listening. For example, the auditory scene is first classified and then ANC is selectively applied.
  • the transfer functions map the properties of the sound sources, as well as the direct sound between the objects and the user, as well as all reflections that occur in the room. In order to ensure correct spatial audio reproductions for the room acoustics of a real room in which the listener is currently located, the transfer functions must also represent the room acoustic properties of the listening room with sufficient accuracy.
  • the challenge lies in the appropriate recognition and separation of the individual audio objects when a large number of audio objects are present. Furthermore, the audio signals of the objects in the recording position or in the listening position of the room overlap. Both the room acoustics and the superimposition of the audio signals change when the objects and/or the listening positions in the room change.
  • Room acoustics parameters must be estimated quickly enough in the case of relative movement. A low latency of the estimation is more important than a high accuracy. On the other hand, if the position of the source and receiver do not change (static case), a high degree of accuracy is required.
  • room acoustics parameters, as well as room geometry and listener position are estimated or extracted from a stream of audio signals. The audio signals are recorded in a real environment in which the source(s) and receiver(s) can move in any direction, and in which the source(s) and/or receiver(s) change their orientation in any way be able.
  • the to i. iioinialstioim can be the result of any microphone setup snim 'fern ein or r,n>hl ⁇ na mics includes.
  • the streams will work into a sion I ⁇ i *i ⁇ . - u o m
  • a second data stream is generated by a 6DoF (“ s of freedom” - degrees of freedom: three dimensions each for position in space) sensor » the
  • the position data stream is fed into an oDoF signal processing stage for preprocessing or further A ⁇ i, ⁇ 'n.
  • the output of the 6DoF signal processing, the audio feature extraction stage and the pre-processed microphone streams is fed into a machine learning block by estimating the listening room (size, geometry, reflective surfaces) and the position of the microphone field in the room.
  • a user behavior model is applied to enable a more robust estimation. This model takes into account limitations of human movements (e.g. continuous movement, speed, etc.), as well as the probability distribution of different types of movements.
  • Some of the embodiments realize a blind estimation of room acoustics parameters by using arbitrary microphone arrays and by adding position and pose information of the user, and by analyzing the data with machine learning methods.
  • Systems according to embodiments may be used for acoustic augmented reality (AAR), for example.
  • AAR acoustic augmented reality
  • Some embodiments involve removing reverberations from the recorded signals.
  • Examples of such forms of implementation are hearing aids for the normal and hard of hearing.
  • the reverberation can be removed from the input signal of the microphone setup with the help of the estimated Paranr Un * - ⁇ iiA'im.
  • the room-acoustic parameters which are part of the audio scenes, are adapted to the room-acoustic parameters of the listening room.
  • the available IBRIIRs are adapted to the room acoustic parameters of the listening room.
  • the device is formed. obtain microphone data comprising one or more microphone signals.
  • the device is designed to receive tracking data relating to a position and/or an orientation of a user.
  • the device is designed to determine the one or more room acoustics parameters as a function of the microphone data and as a function of the tracking data.
  • the device may be configured to use machine learning to determine the one or more room acoustic parameters based on the microphone data and based on the tracking data.
  • the device may be configured to employ machine learning in that the device may be configured to employ a neural network.
  • the device may be configured to use cloud-based processing for machine learning.
  • the one or more S"mmacoustics" parameters may e.g. include a reverberation time.
  • the one or more room acoustic parameters may include a direct-to-reverberation ratio.
  • the tracking data to indicate the user's location may include, for example, an x-coordinate, a y-coordinate, and a z-coordinate.
  • the tracking data to indicate the user's orientation may include, for example, a pitch coordinate, a yaw coordinate, and a roll coordinate.
  • the device can be designed, for example, to transform the one or more microphone signals from a time domain into a frequency domain, wherein the device can be designed, for example, to extract one or more characteristics of the one or more microphone signals in the frequency domain, and wherein the device can be designed, for example, to determine the one or more room acoustics parameters depending on the associated characteristics.
  • the device may be configured to use cloud-based processing to extract the one or more features.
  • the device may include a microfort array of multiple microphones to capture the multiple microphone signals.
  • the microphone arrangement can be designed, for example, to be worn on the body by a user.
  • system described above may further comprise, for example, a device as described above for determining one or more room acoustic parameters.
  • the signal portion modifier 140 can be configured, for example, to change the audio source signal portion of the at least one audio source of the one or more audio sources as a function of at least one of the one or more room acoustics parameters; and/or the signal generator 150 can be designed, for example, to generate at least one of the plurality of binaural room impulse responses for each audio source of the one or more audio sources depending on the at least one of the one or more room acoustics parameters.
  • Figure 7 shows a system according to an embodiment comprising five sub-systems (sub-systems 1-5).
  • Sub-system 1 includes a microphone setup of one, two or more individual microphones, which can be combined to form a microphone array if more than one microphone is available.
  • the positioning and relative arrangement of the microphone(s) can be arbitrary.
  • the microphone assembly can be part of a device worn by the user or may be a separate device positioned in the space of interest
  • sub-system 1 comprises a tracking device to measure the user's translational positions and the user's head pose in space. Up to 6-DOF (x-coordinate, y-coordinate, z-coordinate, pitch angle, yaw angle, roll angle) can be measured.
  • the tracking device can be positioned on a user's head, or it can be split into different sub-devices to measure the required DOFs and placed on the user or not on the user.
  • Subsystem 1 thus represents an input interface that includes a microphone signal input interface 101 and a position information input interface 102 .
  • Sub-system 2 includes signal processing for the captured microphone signal(s). This includes frequency transformations and/or time domain based processing. Furthermore, this includes methods for combining different microphone signals in order to realize field processing. It is possible to feed back from subsystem 4 in order to adapt parameters of the signal processing in subsystem 2.
  • the signal processing block of the microphone signal(s) can be part of the device in which the microphone(s) are built or it can be part of a separate device. It can also be part of cloud-based processing.
  • sub-system 2 includes signal processing for the recorded tracking data. This includes frequency transforms and/or time domain based processing. It also includes methods to improve the technical quality of the signals using noise reduction, G, Phyg, interpolation and extrapolation. It also includes procedures to derive information from higher levels. This includes speeds, accelerations, travel directions, rest times, movement areas, movement paths. Further, this includes predicting a near-future trajectory and a near-future velocity.
  • the signal processing block of the tracking signals can be part of the tracking device or it can be part of a separate device. It can also be part of Cioud-based processing. n ins/the
  • the kV ⁇ mass extraction B!ock can be part of the user's wearable device » or it can be I t.» of a separate device. It can also be part of cloud-based processing.
  • module 121 can be the result of an audio type classification on sub-system 2, pass module 111 (feedback).
  • subsystems 2 and 3 can also implement the signal generator 150, for example by subsystem 2 » module 111 generating the binaural room impulse responses and generating the loudspeaker signals.
  • Sub-system 4 includes methods and algorithms to estimate room acoustic parameters using the processed microphone signal(s), the extracted features of the microphone signal(s), and the processed tracking data.
  • the output of this block is the room acoustic parameters as rest data and a control and modification of the parameters of the microphone signal processing in subsystem 2.
  • the machine learning block 131 can be part of the user's device or it can be part of a separate device. It can also be part of cloud-based processing.
  • sub-system 4 includes post-processing of the room-acoustic resting data parameters (for example in block 132). This includes a detection of outliers, a combination of single parameters to a new parameter, smoothing, extrapolation » j. un and plausibility check.
  • This block also gets information v ⁇ > , ',> ss terri 2. This includes near-future positions of the user in the space to estimate near-future acoustic parameters m'.
  • This block can be part of the user's device or it can be part of a pumped device. It can also be part of cloud-based processing.
  • Sub-system 5 includes the storage of the room-acoustic parameters
  • Downstream systems (e.g. in memory 141). Allocation of the parameters can be done just-in- ti ' I r 'be celebrated, and/or d ⁇ ' w /erlauf kam i ... e ⁇ > IL nn ' i den.
  • the storage can be in the device, since « « you » m l'imm r or near Vintage your Nu iui is located, or be made in a « m ANwl I MH ih n system.
  • One use case of an embodiment is home entertainment and relates to users in a home environment.
  • a user would like to concentrate on certain playback devices such as TV, radio, PC, tablet and block out other sources of interference (from other users' devices or children, construction noise, street noise).
  • the user is in the vicinity of the preferred playback device and selects the device or its position. Regardless of the user's position, the selected device or sound source positions are acoustically highlighted until the user cancels their selection.
  • the user goes near the target location.
  • the user selects the target sound source via a suitable interface, and the hearable adjusts the audio playback based on the user's position, user's line of sight and the target sound source, so that the target sound source can be clearly understood even in the presence of background noise.
  • the user moves close to a particularly disruptive sound source.
  • the user selects this noise source via a suitable interface, and the hearable (hearing aid) adjusts the audio playback based on the user's position, user's line of sight and the noise source in order to explicitly mask out the noise source.
  • E_ lo TM for example in the case of presencelusi Irr cheeky on a> in 'ar as well as other sources of interference: ⁇ H i or attenuate.
  • the speakers are randomly distributed and move relative to the listener.
  • Noise wi H - 1 Music can be comparatively loud under certain circumstances.
  • the selected speaker VVÜU is acoustically highlighted and recognized even after pauses in speaking, changing his position ⁇ the pose.
  • a hearable recognizes a speaker in the user's environment.
  • the user can use a suitable control option (e.g. line of sight, attention control) to select preferred speakers.
  • the hearable adapts the audio playback according to the user's line of sight and the selected target sound source in order to be able to understand the target sound source even with background noise.
  • the user is addressed directly by a (previously) non-preferred speaker, who must at least be audible to ensure natural communication.
  • Another use case of another embodiment is in the automobile, where a user is in his (or in) a car. While driving, the user would like to actively direct their acoustic attention to certain playback devices such as navigation devices, radio or conversation partners in order to be able to better understand them in addition to the background noise (wind, engine, passengers).
  • certain playback devices such as navigation devices, radio or conversation partners in order to be able to better understand them in addition to the background noise (wind, engine, passengers).
  • the user and the target sound sources are in fixed positions inside the vehicle.
  • the user is static in relation to the reference system, but the vehicle itself moves.
  • An adapted tracking solution is therefore necessary.
  • the selected sound source position is acoustically highlighted until the user cancels the selection or until warning signals stop the device from functioning.
  • a user gets into the car and the device recognizes the surroundings.
  • the user can switch between the target sound sources using a suitable control option (e.g. speech recognition), and the hearable adjusts the audio playback according to the user's line of sight and the selected target sound source in order to be able to understand the target sound source well even with background noise.
  • a suitable control option e.g. speech recognition
  • traffic-related warning signals for example, interrupt the normal process and cancel Am u ,U ds user. Then WH " performed in restart of the normal process.
  • Another application of a further exemplary embodiment is live music and relates to a visitor to a live music event.
  • the visitor to a concert or live music performance would like to use the hearable to increase the focus on the performance and block out distracting listeners.
  • the audio signal itself can be optimized, for example to compensate for an unfavorable listening position or room acoustics.
  • the visitor is between many sources of interference, but the performances are usually relatively loud.
  • the target sound sources are in fixed positions or at least in a defined area, but the user can be very mobile (e.g. dancing).
  • the selected sound source position is acoustically highlighted until the user cancels the selection or until warning signals stop the device from functioning.
  • the user selects the stage area or the musician(s) as the target sound source(s).
  • the user can use a suitable control option to define the position of the stage/musicians, and the hearable adapts the audio playback to the target sound source according to the user's viewing direction and the selected target sound source to be able to understand well even with background noise.
  • warning information e.g. evacuation, impending thunderstorms at open-air events
  • warning signals can interrupt the normal process and override the user's selection. The normal process then restarts.
  • a further application of another exemplary embodiment is for large events and concerns visitors at large events. For example, at major events (e.g. football stadium, ice hockey stadium, large concert hall, etc.).
  • major events e.g. football stadium, ice hockey stadium, large concert hall, etc.
  • Hearable can be used to emphasize the voices of family and friends who would otherwise be lost in the noise of the crowds.
  • a large event takes place in a stadium or a large concert hall where a large number of visitors go.
  • a group family, friends, Scr. K ;use
  • One or more children lose eye contact with the group and, despite the high noise level, call out to the group due to the surrounding noise. Then the user turns off voice recognition, and Hearable no longer amplifies the voice(s).
  • one person from the group on the Hearable chooses the voice of the missing child.
  • the hearable localizes the voice. Then the hearable amplifies the voice and the user can find the missing item again (quicker) using the amplified voice.
  • the missing child also wears a hearable, for example, and selects the voice of their parents.
  • the hearable amplifies the parents' voice(s). The reinforcement then allows the child to locate its parents. So the child can walk back to his parents.
  • the missing child also wears a hearable and selects the voice of their parents. The hearable locates the parent's voice(s) and the hearable announces the distance to the voices. The child can find its parents more easily. An optional playback of an artificial voice from the hearable for the distance announcement is provided.
  • the hearables are coupled for a targeted amplification of the voice(s) and voice profiles are stored.
  • a further application of a further exemplary embodiment is leisure sports and relates to leisure athletes. Listening to music while exercising is popular, but it also poses risks. Warning signals or other road users may not be heard. In addition to music playback, the hearable can react to warning signals or shouts and temporarily interrupt music playback.
  • Another use case in this context is sport in small groups. [ s arables of the sports group can be connected to ensure good communication with each other during the sport while other disturbing noises are suppressed.
  • the user is mobile and any warning signals are overlaid by numerous sources of interference.
  • the problem is that not all warning signals may affect the user
  • the hearable immediately suspends music playback and acoustically highlights the warning signal or the communication partner until the user cancels his selection.
  • the music continues to play normally.
  • a user does sports and listens to music via Hearabie. Warning signals or shouts affecting the user are automatically recognized and the Hearabie interrupts music playback.
  • the Hearabie adjusts the audio playback in order to be able to clearly understand the target scbaiiquelietclie acoustic environment. Then fumblen ⁇ s
  • Hearabie auto W M (e.g. after the end of the warning signal » ⁇ : r at the request of the user with the music playback soU ''.
  • athletes in a group can connect their hearables, for example.
  • the speech intelligibility between the group members is optimized and at the same time other disturbing noises are suppressed.
  • Another application of another embodiment is snoring suppression and affects all sleep seekers disturbed by snoring. People whose partners snore, for example, are disturbed in their nightly rest and have problems sleeping.
  • the Hearabie provides relief by suppressing the snoring noises, thus ensuring nightly rest and domestic peace. At the same time, the Hearabie allows other noises (crying babies, alarm sirens, etc.) to pass through so that the user is not completely acoustically isolated from the outside world.
  • a snoring detection is provided, for example.
  • the user has trouble sleeping due to snoring noises. By using the hearable, the user can then sleep better again, which has a stress-reducing effect.
  • rt U ü wjt the user wears the Hearabie while sleeping. He switches the Hearabie to sleep mode, which suppresses all snoring noises. After sleeping, he turns off the Hearabie v i r.
  • noises such as construction noise, lawn mower noise, etc. can be suppressed while sleeping.
  • a r '-er wn Jungsfaii w. ⁇ w ,en Aoshmrungsbeispiels is a diagnostic device for users in everyday life.
  • the Hearabie records the preferences (eg: which sound sources, which amplification/attenuation are chosen) and establishes U ⁇ the duration of use For example, if the user uses the device in everyday life or in the use cases mentioned over several months or years, the hearable creates analyzes based on the selected setting and the suggestions and recommendations to the mutzer.
  • the user wears the hearable over a long period of time (months to years).
  • the device automatically creates analyzes based on hearing preferences, and the device provides recommendations and warnings when hearing loss begins.
  • a further application of another exemplary embodiment is a therapy device and affects users with hearing impairments in everyday life.
  • a therapy device In its role as a transitional device to the hearing aid, potential patients are treated at an early stage and dementia is thus treated preventively.
  • Other possibilities are use as a concentration trainer (e.g. for ADHD), treatment of tinnitus and stress reduction.
  • the user has hearing or attention problems and uses the hearable temporarily/transitionally as a hearing aid.
  • this is reduced by the hearable, for example by: amplification of all signals (hearing impairment), high selectivity for preferred sound sources (attention deficits), reproduction of therapy noises (tinnitus treatment).
  • the user selects a form of therapy independently or on the advice of a doctor and makes the preferred settings, and the hearable carries out the selected therapy.
  • the Hearable detects hearing problems from UC-PR01 and the Hearable automatically adjusts playback based on the problems detected and informs the user when
  • a person switches on the attached hearable.
  • the user sets the hearable to select nearby voices, and the hearable amplifies the closest voice or a few nearby voices while suppressing background noise.
  • the user understands the relevant voice(s) better.
  • a person puts the hearable on permanent noise suppression.
  • the user turns on the function of recognizing occurring voices and then amplifying them. This allows the user to continue working with less noise.
  • the hearable When addressed directly from a radius of x meters, the hearable then amplifies the voice/s. The user can thus converse with the other person(s) at low noise levels. After the conversation, the hearable switches back to noise-cancelling mode alone, and after work, the user turns the hearable back off.
  • Another application of another exemplary embodiment is passenger transport and relates to users in a motor vehicle for passenger transport.
  • a user and driver of a passenger transporter would like to be distracted as little as possible by the people being transported while driving.
  • the passengers are the main source of interference, communication with them is also necessary at times.
  • the Hearable suppresses background noise from the occupants by default.
  • the user can manually override the suppression using a suitable control option (e.g. voice recognition, button in the vehicle).
  • the Hearable adjusts the audio playback according to the selection.
  • the hearable detects that a passenger is actively addressing the driver and temporarily disables noise cancellation.
  • Another application of a further embodiment is school and training and relates to teachers and students in the classroom.
  • the hearable has two roles, with the functions of the devices being partially coupled.
  • the teacher's/presenter's device suppresses background noise and amplifies speech/questions from the ranks of the students.
  • the hearables of the listeners can be controlled via the teacher's device. In this way, particularly important content can be highlighted without having to speak louder. Students can adjust their Hearable to better understand the teacher and block out disruptive classmates.
  • a '" ix comes u ' , > vi , i , » ⁇ , ' . i > , u , ' t '
  • your and student devices can be coupled, for example.
  • the selectivity of the student device can be controlled at times by the teacher device. For particularly important content, the teacher changes the activity of the student devices to amplify their voice.
  • Another use case of another embodiment is in the military and pertains to soldiers.
  • Verbal communication between soldiers on deployment takes place on the one hand via radios and on the other hand via shouts and direct addressing.
  • Radio is mostly used when greater distances have to be bridged and when communication between different units and subgroups is to be carried out.
  • a fixed radio etiquette is often applied.
  • Shouting and direct addressing is mostly used for communication within a squad or group. Difficult acoustic conditions can arise during the deployment of soldiers (e.g. screaming people, noise from weapons, storms), which can impair both communication channels.
  • a soldier's equipment often includes a radio set with earphones. In addition to the purpose of audio reproduction, these also protect against excessive sound pressure levels.
  • the soldier is on duty. Shouts and speech are automatically recognized and the system amplifies them while simultaneously attenuating background noise.
  • the SVC- 'OM adjusts the spatial audio reproduction in order to understand the target sound source well
  • the soldiers in a group can be known to the system. Only audio from those group members will pass through.
  • the hearable can be used at confusing large events (celebrations, protests) for preventive crime detection.
  • the selectivity of the hearable is controlled by keywords, e.g. calls for help or calls for violence. This requires an analysis of the content of the audio signal (e.g. speech recognition).
  • the security officer is surrounded by many loud sound sources, and the officer and all of the sound sources may be in motion.
  • a caller for help is not audible or only faintly audible under normal hearing conditions (poor SNR).
  • the manually or automatically selected sound source is acoustically highlighted until the user cancels the selection.
  • a virtual sound object is placed at the position/direction of the interesting sound source in order to be able to easily find the location (e.g. in the event of a one-time call for help).
  • the hearable recognizes sound sources with potential sources of danger.
  • a security officer chooses which sound source or event he would like to investigate (e.g. by selecting it on a tablet).
  • the hearable then adjusts the audio playback in order to be able to understand and locate the target sound source even with background noise.
  • a locating signal can be placed in the direction/distance of the source.
  • Another use case of another embodiment is stage communication and relates to musicians.
  • stages at rehearsals or concerts e.g. band » orchestra » choir » musical
  • individual instruments (groups) that could still be heard in other surroundings cannot be heard.
  • the Hearabie can emphasize these voices and make them audible again and thus improve or ensure the interaction of the individual musicians.
  • the use could also reduce the noise level of individual musicians and thus prevent hearing loss by ; t ⁇ Hw percussion is muffled, and at the same time the musicians could still hear everything important.
  • Hearabie For example, a musician without Hearabie no longer hears at least one other voice on stage. Here the Hearabie can then be used. When the rehearsal or the concert is over, the user puts the Hearabie back down after switching it off.
  • the user turns on the Hearabie. He selects one or more desired musical instruments to be amplified. When playing music together, the selected musical instrument is amplified by the Hearabie and thus made audible again. After making music, the user turns the Hearabie off again.
  • the user turns on the Hearabie. He selects the desired musical instrument whose volume is to be reduced. 7. When making music together, the Hearabie now reduces the volume of the selected musical instrument so that the user only hears it at a moderate volume.
  • Another application of a further exemplary embodiment is source separation as a software module for hearing aids in terms of the ecosystem and relates to hearing aid manufacturers and hearing aid users.
  • Hearing aid manufacturers can use source separation as an additional tool for their hearing aids and offer it to their customers.
  • Hearing aids could also benefit from the development.
  • Uzenzmocfeii for other markets/devices (headphones, mobile phones, etc.) is also conceivable.
  • hearing aid users find it difficult to separate different sources in a complex PiWvun situation, for example to focus on to place a specific speaker
  • external additional systems e.g.
  • the user uses a hearing aid with the additional function for selective hearing.
  • the additional function for selective hearing.
  • he can also focus on individual sources without external intervention by separating the sources, /'i n I n
  • the user switches off the additional function and continues to hear normally with the hearing aid.
  • a hearing device user buys a new hearing device with an integrated additional function for selective hearing.
  • the user sets the selective hearing function on the hearing aid.
  • the user selects a profile (e.g. amplify loudest/nearest source, amplify voice recognition of specific voices from the personal environment (as with the UC-CE5 at major events).
  • the hearing aid amplifies the respective source/s according to the set profile and at the same time suppresses background noise if necessary , and the hearing aid user hears individual sources from the complex auditory scene instead of just a "noise muddle" from acoustic sources.
  • the hearing device user buys the additional function for selective listening as software or the like for his own hearing device.
  • the user installs the add-on feature for their hearing aid.
  • the user sets the selective listening function on the hearing aid.
  • the user selects a profile (amplify loudest/closest source, amplify voice recognition of specific voices from their personal environment (like the UC-CE5 at major events), and the hearing aid amplifies the source(s) according to the set profile, while suppressing background noise if necessary.
  • the hearing aid user hears individual sources from the complex auditory scene instead of just a "noise muddle" from acoustic sources.
  • the hearable can provide voice profiles that can be stored.
  • Another application of another embodiment is in professional sports and involves athletes in competition.
  • sports such as biathlon, triathlon, cycling, marathon, etc.
  • professional athletes depend on information from their coaches or communication with teammates.
  • you want to protect yourself from loud noises being in at the biathlon, loud cheering, party horns, etc.
  • the hearable could be for the respective sport/athlete n
  • the user may be very mobile and the nature of the noise depends on the sport. Due to the intense sporting activity, the athlete is not able to control the device actively or only to a limited extent. However, in most sports there is a fixed procedure (biathlon: running, shooting) and the important discussion partners (coaches, team members) can be defined in advance. Noise is suppressed in general or in certain phases of the sport. Communication between athletes and team members and coaches is always emphasized.
  • the athlete uses a hearable specially adapted to the sport.
  • the Hearable suppresses background noise fully automatically (preset), especially in situations where a high degree of attention is required for the sport in question.
  • the Hearable automatically highlights coaches and team members when they are within hearing range.
  • a further application of a further exemplary embodiment is ear training and relates to music students, professional musicians, amateur musicians.
  • a hearable is used in a targeted manner in order to be able to follow individual voices filtered out.
  • the voices in the background can't be clearly heard because you only hear the voices in the foreground. With the hearable you could then emphasize a voice of your choice using the instrument or similar in order to be able to practice it more specifically.
  • the user turns on the hearable. He selects the desired musical instrument that is to be amplified, Hi listening to the piece of music, the Hearable amplifies the voice/s of the musical instrument, turns down the volume of the remaining elements and the user can thus hear his own voice better
  • the user turns on the hearable. He selects the desired musical instrument to be suppressed. When listening to the song, the voice(s) of the selected song will be muted so that only the remaining voices can be heard. The user can then practice the voice on their own instrument with the other voices without being distracted by the voice from the recording.
  • the hearable may provide stored musical instrument profiles.
  • Another use case of another embodiment is occupational safety and concerns workers in noisy environments. Workers in noisy environments, for example in machine halls or on construction sites, must protect themselves from noise, but also be able to perceive warning signals and communicate with employees.
  • Warning signals (: ' K jeralarm) are highlighted acoustically and the user may interrupt his work.
  • c' ' ⁇ the user eg after his work and uses Hearable as hearing protection If d ⁇ I .
  • the communication partner is selected with the help of suitable interfaces (here, for example, eye control) and highlighted acoustically
  • Live translator software module and affects users of a live translator.
  • Live translators translate spoken foreign languages in real time and can benefit from an upstream source separation software module.
  • the software module can extract the target speaker and potentially improve the translation.
  • the software module is part of a live translator (dedicated device or smartphone app).
  • the user can select the target speaker via the display of the device. It is advantageous that the translator and the target sound source usually do not move or move very little during the translation. The selected sound source position is acoustically emphasized and thus potentially improves the translation.
  • a user wants to have a conversation in a foreign language or listen to a foreign speaker.
  • the user selects the target speaker through a suitable interface (e.g. GUI on the display) and the software module optimizes the audio recording for further use in the translator.
  • a suitable interface e.g. GUI on the display
  • a further application of another exemplary embodiment is working skis for emergency services and relates to the fire brigade, THW, possibly the police. rescuers.
  • emergency services good communication is essential for a successful deployment. It is often not possible for the emergency services to wear hearing protection despite loud ambient noise, since then no communication with each other is possible. For example, firefighters must be able to communicate and understand commands precisely despite the loud engine noise, some of which is happening over radios. For this reason, emergency services are exposed to a high level of noise pollution, where the Hearing Protection Ordinance cannot be implemented. On the one hand, a hearable would offer hearing protection for the emergency services and, on the other hand, would continue to enable communication between the emergency services. Other points are that the emergency services with the help of the Hearabie when wearing helmets/protective equipment are acoustically un > ⁇ ⁇ >>i w ⁇ !t and thus himself
  • the user wears the hearable during an operation. He turns on the hearable.
  • the hearable suppresses ambient noise and amplifies the speech of colleagues and other nearby speakers (e.g. fire victims).
  • the user wears the hearable during an operation. He turns on the Hearable, and the Hearable blocks out ambient noise and amplifies co-workers' speech over the radio.
  • the hearable is specially designed to meet a structural suitability for use in accordance with a use regulation.
  • the hearable may have an interface to a radio device.
  • aspects have been described in the context of a device or a system, it is understood that these aspects also represent a description of the corresponding method, so that a block or a component of a device or a system can also be used as a corresponding method step or as a Feature of a process step is to be understood.
  • aspects described in connection with or as a method step also constitute a description of a corresponding block or detail or feature of a corresponding apparatus or system.
  • Some or all of the method steps may be performed by hardware apparatus (or using a hardware apparatus) such as a microprocessor, a programmable computer or an electronic circuit. In some embodiments, some or more of the essential process steps can be performed by such an apparatus.
  • ir ir be at least partially implemented in software.
  • the implementation can be done using a digital secure medium, for example wee «. * '•er floppy disk, one
  • the digital storage medium can be computer-readable.
  • some embodiments according to the invention comprise a data carrier having electronically readable control signals capable of interacting with a programmable computer system in such a way that one of the methods described herein is carried out.
  • embodiments of the present invention can be implemented as a computer program product with a program code, wherein the program code is effective to perform one of the methods when the computer program product runs on a computer.
  • the program code can also be stored on a machine-readable carrier, for example.
  • exemplary embodiments include the computer program for performing one of the methods described herein, the computer program being stored on a machine-readable carrier.
  • an exemplary embodiment of the method according to the invention is therefore a computer program that has a program code for performing one of the methods described herein when the computer program runs on a computer.
  • Data carrier (or a dsg V.wu b f storage medium or a computer-readable kt Jtu,n) on which the computer program for performing any of the procedures described herein is recorded* PRG data carrier or the digital storage ledium or the computer-readable ⁇ . m are typically tangible and/or non-ephemeral.
  • a further exemplary embodiment of the method according to the invention is therefore a data stream or a sequence of signals which represents the computer program for carrying out one of the methods described herein.
  • the Another embodiment includes a processing device, such as a computer or programmable logic device, configured or adapted to perform any of the methods described herein.
  • Another embodiment includes a computer on which the computer program for performing one of the methods described herein is installed.
  • a further exemplary embodiment according to the invention comprises a device or a system which is designed to transmit a computer program for carrying out at least one of the methods described herein to a recipient.
  • the transmission can take place electronically or optically, for example.
  • the recipient may be a computer, mobile device, storage device, or similar device.
  • the device or the system can, for example, comprise a file server for transmission of the computer program to the recipient.
  • a programmable logic device e.g., a field programmable gate array, an FPGA
  • a field programmable gate array may cooperate with a microprocessor to perform any of the methods described herein.
  • the methods are performed on the part of any hardware device. This can be universally replaceable hardware such as a computer processor (CPU) or hardware specific to the process such as an ASIC.

Landscapes

  • Engineering & Computer Science (AREA)
  • Multimedia (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Signal Processing (AREA)
  • Stereophonic System (AREA)
  • Headphones And Earphones (AREA)
  • Stereophonic Arrangements (AREA)
  • Soundproofing, Sound Blocking, And Sound Damping (AREA)

Abstract

Ein System wird bereitgestellt. Das System umfasst einen Analysator (152) zur Bestimmung einer Mehrzahl von binauralen Raumimpulsantworten und einen Lautsprechersignal- Erzeuger (154) zur Erzeugung von wenigstens zwei Lautsprechersignalen abhängig von der Mehrzahl der binauralen Raumimpulsantworten und abhängig von dem Audioquellsignal von wenigstens einer Audioquelle. Der Analysator (152) ist ausgebildet, die Mehrzahl der binauralen Raumimpulsantworten so zu bestimmen, dass jede der Mehrzahl der binauralen Raumimpulsantworten einen Effekt berücksichtigt, der aus dem Tragen eines Kopfhörers durch einen Nutzer resultiert.

Description

System uni Verfahren zur Kopfhörerentzerrung uni Raumanpassung zur binauralen Wiedergabe bei Augmer sality
Beschreibung
Die vorliegenden Erfindung beziehen sich auf Kcyhn iurentzerrung und Raurmmf , von binauraler Wiedergabe bei Augmented Realit, (AW
Selektives Hören (eng!.: Selective Hearing, SH) bezieht sich auf die Fähigkeit der Hörer, ihre Aufmerksamkeit auf eine bestimmte Schallquelle oder auf eine Mehrzahl von Schallquellen in ihrer auditiven Szene zu richten. Dies wiederum impliziert, dass der Fokus der Hörer für uninteressante Quellen vermindert wird.
So sind menschliche Hörer in der Lage, sich auch in lauten Umgebungen zu verständigen. Dabei werden in der Regel verschiedene Aspekte ausgenutzt: So gibt es beim Hören mit zwei Ohren richtungsabhängige Zeit- und Pegelunterschiede und eine richtungsabhängige unterschiedliche spektrale Färbung des Schalls. Durch letzteres ist das Gehör bereits beim einohrigem Hören in der Lage die Richtung einer Schalquelle zu bestimmen und damit verschiedene Klangquellen zu trennen.
Zeit- und Pegelunterschiede sind alleine nicht ausreichend die genaue Position einer Schallquelle fest zustellen: Die Orte mit gleichen Zeit- und Pegelunterschied befinden sich auf einem Hyperboloiden. Die so entstehende Mehrdeutigkeit der Ortsbestimmung nennt sich Cone-of-Confusion. In Räumen wird jede Schallquelle von den Begrenzungsflächen reflektiert. Jede dieser sogenannten Spiegelquellen liegt auf einem weiteren Hyperboloiden. Der menschliche Hörsinn kombiniert die Information über den Direktschall und die zugehörigen Reflexionen zu einem Hörereignis und löst damit die Mehrdeutigkeit des Cone-of-Confusion auf. Gleichzeitig vergrößern die zu einer Schallquelle gehörenden Reflexionen die empfundene Lautheit der Schallquelle.
Des Weiteren sind bei natürlichen Schallquellen, wie insbesondere Sprache, die
Signalanteile unterschiedlicher Fiequenz zeitlich gekoppelt. Beim binauralen Hören werden alle diese Aspekte zusammen eingesetzt. Ferner können laute, gut zu lokalisierende Störquellen quasi aktiv ignoriert werden. Gemäß dem Stand der Technik ariv v klassische Hörgeräte meist monaural, d.h. die Signalverarbeitung für rechtes und linkes Ohr ist bezüglich Frequenzgang und Dynamikkompression komplett unabhängig. Dadurch gehen Zeit-, Pegel- und Frequenzunterschiede zwischen den Ohrsignalen verloren.
Moderne, sogenannte binaurale Hörgeräte koppeln die Korrekturfaktoren der beiden Hörgeräte. Oft haben sie mehrere Mikrofone, aber i.d.R. wird oft nur das Mikrofon mit dem „sprachähnlichsten“ Signal ausgewählt, aber kein explizites Beamforming gerechnet. In komplexen Hörsituationen werden gewünschte und unerwünschte Schallsignale in gleicher Weise verstärkt und damit eine Konzentration auf erwünschte Schallkomponenten nicht unterstützt.
Im Bereich der Freisprechanlagen, z.B. für Telefone, werden bereits heute mehrere Mikrofone verwendet und aus den einzelnen Mikrofonsignalen sogenannte Beams berechnet: Schall der aus der Richtung des Beams kommt wird verstärkt, Schall aus anderen Richtungen reduziert. Heutige Verfahren lernen das konstante Hintergrundgeräusch (z.B. Motor- und Windgeräusche im Auto), lernen laute, durch einen weiteren Beam gut lokalisierbare Störungen und subtrahieren diese vom Nutzsignal (Beispiel: Generalized Sidelobe Canceler). Teilweise werden in Telefoniesysteme Erkenner eingesetzt, die die statischen Eigenschaften von Sprache erkennen und alles, was nicht wie Sprache strukturiert ist, wird unterdrückt. Bei Freisprecheinrichtungen wird aber am Ende nur ein Monosignal übertragen, die räumliche Information, welche zur Erfassung der Situation und insbesondere zur Schaffung der Illusion als „wäre man da“ durchaus interessant ist, insbesondere wenn mehrere Sprecher gemeinsam telefonieren, geht auf dem Übertragungsweg verloren. Durch die Unterdrückung von Nichtsprachsignalen gehen wichtige Informationen über die akustische Umgebung des Gesprächspartners verloren was die Kommunikation behindern kann.
Der Mensch kann von Natur aus "selektiv hören" und sich bewusst auf einzelne Klangquellen in seinem Umfeld fokussieren. Ein automatisches System zum selektiven Hören mittels künstlicher Intelligenz (Kl) muss die dahinter liegenden Konzepte zuerst erlernen. Die automatische Zerlegung akustischer Szenen (Scene Decomposition) benötigt zuerst eine Erkennung und Klassifikation aller aktiven Klangquellen gefolgt von einer Trennung um sie als separate Audioobjekte weiter verarbeiten, verstärken oder abschwächen zu können.
Im Forschungsfeld Auditory Scene Analysis wird versucht, anhand eines aufgenommenen Audiosignals sowohl zeitlokalisierte Klangereignisse wie Schritte, Klatschen oder Schreie als auch globalere akustische Szenen wie Konzert, Restaurant oder Supermarkt zu detektieren und zu klassifizieren. Aktuelle Verfahren nutzen hierbei ausschließlich Verfahren aus dem Bereich Künstliche Intelligenz (Kl) und Deep Learning. Hierbei erfolgt ein datengetriebenes Lernen von tiefen neuronalen Netzen (Deep Neural Networks), die auf Basis von großen Trainingsmengen lernen, charakteristische Muster im Audiosignal zu erkennen [70]. Vor allem inspiriert durch Fortschritte in den Forschungsbereichen Bildverarbeitung (Computer Vision) und Sprachverarbeitung (Natural Language Processing) werden hier i.d.R. Mischungen aus Faltungsnetzwerken (Convolutional Neural Networks) zur zweidimensionalen Mustererkennung in Spektrogramm-Darstellungen sowie rekurrierende Schichten (Recurrent Neural Networks) zur zeitlichen Modellierung von Klängen verwendet.
Für die Audioanalyse gibt es eine Reihe von spezifischen Herausforderungen, die es zu bewältigen gilt. Deep Learning Modelle sind aufgrund ihrer Komplexität sehr datenhungrig. Im Vergleich zu den Forschungsgebieten Bildverarbeitung und Sprachverarbeitung stehen aktuell für Audioverarbeitung nur verhältnismäßig kleine Datensätze zur Verfügung. Als größter Datensatz ist der AudioSet Datensatz von Google [83] mit ca. 2 Millionen Klangbeispielen und 632 verschiedenen Klangereignisklassen zu nennen, wobei die meisten in der Forschung verwendeten Datensätze wesentlich kleiner sind. Diese geringe Menge an Trainingsdaten kann z.B. mit Transfer-Lernen (Transfer Learning) adressiert werden, in dem ein auf einem großen Datensatz vortrainiertes Modell anschließend auf einen für den An-wendungsfall bestimmten kleineren Datensatz mit neuen Klassen feinabgestimmt wird (Fine-Tuning) [77]. Weiterhin werden Verfahren aus dem teilüberwachten Lernen (Semi-Supervised Learning) ein-gesetzt, um auch die im Allgemeinen in großer Menge verfügbaren nicht annotierten Audiodaten mit in das Training einzubeziehen. Bildern) sondern zu einer komplexen phasenabhängigen Überlagerung kommt. Aktuelle Algorithmen im Deep Leuirning nutzen sogenannte "Attention" Mechanismen, die den Modellen beispielsweise ermöglichen, sich bei der Klassiiiiilkfoiori auf bestimmte
:\ n M icnte oder Frequenzbereiche zu fokussieren |[23) Die Erkennung von l ' >n t· I I, missen wird weiterhin durch die hohe Varianz bezüglich ihrer Dauer erschwert wlgwi Ohmen sollen sowohl sehr kurze Ereignisse wie z.B. einen Pistolenschuss als auch Lange Er ignis;'.? wie einen vorbeifahrenden Zug robust erkennen.
Durch die starke Abhängigkeit der Modelle von den akustischen Bedingungen bei der Aufnahme der Trainingsdaten zeigen sie in neuen akustischen Umgebungen, welche sich z.B. im Raumhall oder der Mikrofonierung unterscheiden, oftmals ein unerwartetes Verhalten. Verschiedene Lösungsansätze wurden entwickelt um dieses Problem abzumildern. Durch Datenanreicherungsverfahren (engl. Data Augmentation) wird z.B. versucht, mitels Simulation verschiedener akustischer Bedingung [68] und auch künstlicher Überlagerung verschiedener Klangquellen eine höhere Robustheit & Invarianz der Modelle zu erreichen. Weiterhin können die Parameter in komplexen neuronalen Netzwerken unterschiedlich regularisiert werden, so dass ein Übertrainieren & Spezialisieren auf die Trainingsdaten verhindert wird und gleichzeitig eine bessere Generalisierung auf ungesehene Daten erreicht wird, ln den letzten Jahren wurden verschiedene Algorithmen zur "Domain Adaptation" [67] vorgeschlagen, um bereits trainierte Modelle auf neue Anwendungsbedingungen anzupassen. In dem in diesem Projekt geplanten Einsatzszenario innerhalb eines Kopfhörers ist eine Echtzeitfähigkeit der Klangquellenerkennungsalgorithmen von elementarer Bedeutung. Hierbei muss zwangsläufig eine Abwägung zwischen Komplexität des neuronalen Netzes und der maximal möglichen Anzahl von Rechenoperationen auf der zugrundeliegenden Rechenplattform durchgeführt werden. Auch wenn ein Klangereignis eine längere Dauer hat, muss es trotzdem möglichst schnell erkannt werden, um eine entsprechende Quellentrennung zu starten.
Am Fraunhofer IDMT erfolgte in den letzten Jahren eine Vielzahl an Forschungsarbeiten im Beirei h der outomstisdhen KlrnoqucTtenmfo nnung Ilm imrschungspirajekt "StndtLäirm" wurde ein veifoilies Sensoirnw ulk ernVu I ii welches anhand von cRifgeniomimenen
Audiosignalen an verschiedenen Standorten inneirh dl mer Stadt sowohl Lärmpegel messen kann als auch zwischen 14 verschiedenen akustischen Szenen- und Ereignisklassen klassifizieren kann [69]. Die Verarbeitung in den v ein -iren auf der
Embedded-Plattform Raspberry Pi 3 enok-t ctebei in Echtzeit, ln einer Vorarbeit wurden neuartige Ansätze zur Datenkompression von Spektrogrammen basierend auf Autoencoder-Netzwerken untersucht [71]. Die Anwendung von Verfahren aus dem Deep
Learning im Bereich Musiksignalverarh^Vrm (Music Information Retrieva!) konnten zuletzt in Anwendungen wie Musiktransl* <pf > Ί [76], [77], Akkorderkennung [78] und Instrumentenerkennung [79] große Fortschritte erzielt werden. Im Bereich der industriellen Audioverarheitung wurden neue Datensätze etabliert und Verfahren dps m ·r Learning z.B. zur akustischen Zustandsüberwachung von elektrischen Motoren uw w 1 [ibj.
In dem in diesem Ausführungsbeispiel adressierten Szenario muss von mehreren Klangquellen ausgegangen werden, deren Anzahl und Typ zunächst unbekannt ist und sich ständig ändern kann. Für die Klangquellen-trennung sind besonders mehrere Quellen mit ähnlichen Charakteristika wie z.B. mehrere Sprecher eine große Herausforderung [80].
Um eine hohe räumliche Auflösung zu erreichen, müssen mehrere Mikrofone in Form eines Arrays verwendet werden [72] Im Gegensatz zu üblichen Audioaufnahmen in mono (1 Kanal) oder Stereo (2 Kanäle) erlaubt solch ein Aufnahmeszenario eine genaue Lokalisation der Schallquellen um den Hörer.
Quellentrennungsalgorithmen hinterlassen üblicherweise Artefakte wie Verzerrungen und Übersprechen zwischen den Quellen [5], welche vom Hörer im Allgemeinen als störend empfunden werden. Durch ein erneutes Mischen der Spuren (Re-Mixing) können solche Artefakte aber zum Teil maskiert und damit reduziert werden [10].
Zur Verbesserung der "blinden" Queilentrennung (Blind Sc* ' epa' ct '.iri werden oftmals
Zusatzinformationen wie z B. erkant « iah! und Art der Quellen c 1 u i! m »n schätzte räumliche Position genutzt (Informed Source Separation [74]). F u Meetings, in dem mehrere Sprecher aktiv sind, können aktuelle Analysesysteme gleichzeitig die Anzahl der Sprecher schätzen, ihre jeweilige zeitlich * 'Vivität bestimmen und sie anschließend per Quellentrennung isolieren [66].
Am Fraunhofer IDMT wurden in den letzten Jahren viele Untersuchungen zur perzeptionsbasierten Evaluation von Klangquellentrennungsalgorithmen durchgeführt. [73]
Im V n < L der Musiksignalverarbeitung wurde ein echtzeitfähiger Algorithmus zur Vtwnung des Soloinstruments sow ‘ wr Begieitinstrumeniu t utwickelt, welcher eine Grundfrequenzschätzung des Soloinstruments als Zusatzinformation ausnutzt [81]. Ein Kopfhörer beeinflussen die akustische Wahrnehmung der Umgebung maßgeblich. Je nach Bauart des Kopfhörers wird der Schalleinfall auf den Weg zu den Ohren unterschiedlich stark gedämpft. In-Ear-Kopfhörer blockieren die Ohrkanäle vollständig [85]. Die Ohrmuschel umschließende, geschlossene Kopfhörer schneiden den Hörer akustisch ebenfalls stark von der äußeren Umgebung ab. Offene und halboffene Kopfhörer lassen dagegen Schall noch ganz bzw. teilweise durch [84] In vielen Anwendungen des täglichen Lebens ist es gewünscht, dass Kopfhörer den ungewünschten Umgebungsschall stärker abschotten, als sie es durch ihre Bauart ermöglichen.
Mit Active-Noise-Control (ANC) können störende Einflüsse von außen zusätzlich abgedämpft werden. Dies wird realisiert, in dem eintreffende Schallsignale von Mikrofonen des Kopfhörers aufgenommen und von den Lautsprechern so wiedergegeben werden, dass sich diese Schallanteile mit den Kopfhörer-durchdringenden Schallanteilen durch eine Interferenz auslöschen. Insgesamt kann so eine starke akustische Abschottung von der Umgebung erreicht werden. Dies birgt jedoch in zahlreichen Alltags-situationen Gefahren, weshalb der Wunsch besteht, auf Bedarf diese Funktion intelligent zu schalten.
Erste Produkte erlauben, dass die Mikrofonsignale auch in den Kopfhörer durchgeleitet werden, um die passive Abschottung zu verringern. So gibt es neben Prototypen [86] bereits Produkte, die mit der Funktion „transparentes Hören“ werben. Beispielsweise bietet Sennheiser mit dem AMBEO-Headset [88] und Bragi im Produkt "The Dash Pro" die Funktion an. Diese Möglichkeit stellt jedoch erst den Anfang dar. Zukünftig soll diese Funktion stark erweitert werden, so dass nicht nur die vollen Umgebungsgeräusche an- oder ausges / *x\ werden können, sondern einzelne Signalanteile (wie etwa nur Sprache oder A!armsnr\* e' bei Bedarf ausschließlich hört nacht werden können. Die französische Firma Orosound ermöglicht es dem Träger des Headsets "Tilde Earphones" [89] die Stärke des ANC mit einem Slider anzupassen. Zusätzlich kann die Stimme eines Gesprächspartners auch während aktivierten ANCs durchgeleitet werden. Dies funktioniert jedoch nur, wenn sich der Gesprächspartner in einem SCT-Kegel frontal gegenüber befindet. Eine riclv.« \.w« \npassung ist nicht möglich. In der Offenlegungsschrift US 2015 195641 A1 (siehe [91]) wurde ein Verfahren offenbart, welches zur Erzeugung einer Hörumgebung für einen Nutzer ausgelegt ist. Dabei umfasst das Verfahren ein Empfangen eines Signals, das eine ambiente Hörumgebung des Nutzers ctenrfeSlt, ferner eine Verarbeitung des Signal«; unter Verwendung eines Mikroprozessors, um zumindest einen Klangtyp einer f ' ' ' von Klangtypen in der ambienten
Hörumgebung zu identifizieren. Des Weiteren umfasst das Verfahren einen Empfang von Nutzerpräferenzen für jeden der Mehrzahl von Klangtypen, ein Modifizieren des Signals für jeden Klangtyp in der ambienten Hörumgebung und ein;' VngWv W s modifizierten Signals auf wenigstens einem Lautsprecher um eine Hörumgebu»^ tui J i NM c zu erzeugen.
Ein wesentliches Problem stellt die Kopfhörerentzerrung und die Raumanpassung von binauraler Wiedergabe bei Augmented Reality (AR) dar¬ in einem typischen Szenario trägt ein menschlicher Hörer einen akustisch (teilweise) transparenten Kopfhörer und hört durch diesen hindurch seine Umgebung. Zusätzlich werden über den Kopfhörer zusätzliche Schallquellen wiedergegeben die sich in die reale Umgebung so einbetten, dass es für den Hörer nicht möglich ist zwischen der realen Schall- Szene und der zusätzlichen Schall zu unterscheiden.
In der Regel wird mittels Tracking bestimmt, in welche Richtung der Kopf gedreht wird und wo im Raum sich der Hörer befindet (six degrees of freedom (6DoF)). Aus der Forschung ist bekannt, dass gute Ergebnisse (d.h. Externalisierung und korrekte Lokalisation) erzielt werden, wenn die Raumakustik von Aufnahme- und Wiedergaberaum übereinstimmten oder wenn die Aufnahme an den Wiedergaberaum angepasst wird.
Eine beispielhafte Lösung kann dabei wie folgt realisiert sein:
In einem ersten Schritt erfolgt eine Messt,« r BRIR ohne Kopfhörer entweder individualisiert oder mit Kunstkopf mittels Sondenmikrofon.
In einem zweiten Schritt erfolgt dann eine Analyse der Raumeigenschaften des Aufnahmeraumes anhand der gemessenen BRIR.
In einem dritten Schritt erfolgt dann eine Messung der Kopfhörer-Übertragungsfunktion individualisiert oder mit Kunstkopf mittels Sondenmikrofon am selben Ort. Dadurch wird eine Entzerrungsfunktion bestimmt. Dann erfolgt in einem weiteren Schritt eine Faltung einer zu augmentierenden Quelle mit der positions-richtigen, optional angepassten, BRIR um zwei Roh-Kanäle zu erhalten. Faltung der Roh-Kanäle mit der Entzerrungsfunktion um die Kopfhörersignale zu erhalten.
Schließlich erfolgt in einem weiteren Schritt eine Wiedergabe der Kopfhörersignale über Kopfhörer.
Es ergibt sich jedoch das Problem, dass, wenn der Kopfhörer aufgesetzt wird, der Einfluss der Ohrmuschel auf die BRIR verschwindet. D.h. die BRIRs sind anders als ohne Kopfhörer. Dadurch klingen natürliche Schallquellen anders als ohne Kopfhörer, die virtuellen augmentierten Schallquellen werden aber so wiedergegeben als wäre kein Kopfhörer vorhanden.
Es wäre wünschenswert, dass Konzepte bereitgestellt werden, die eine einfache, schnelle und effiziente Bestimmung der Raumeigenschaften des Wiedergaberaumes ermöglichen.
Im Folgenden werden Ausführungsformen der Erfindung bereitgestellt.
So stellt Anspruch 1 ein System, Anspruch 19 ein Verfahren und Anspruch 20 ein Computerprogramm gemäß Ausführungsformen der Erfindung bereit
Ein Sys l miß einer Ausführ iwyAorm der Erfindung umfasst einen Anal·, sAw zur Bestimmung einer Mehrzahl von binauralen Raumimpulsantworten uno e.nen Lautsprechersignal-Erzeuger zur Erzeugung von wenigstens zwei Lautsprechersignalen abhängig von der Mehrzahl der binauralen Raumimpulsantworten und abhängig von dem Audioquellsignal von wenigstens einer Audioquelle. Der Analysator ist ausgebildet, die Mehrzahl der binauralen Raumimpulsantworten so zu bestimmen, dass jede der Mehrzahl der binauralen Raumimpulsantworten einen Effekt berücksichtigt, der aus dem Tragen eines Kopfhörers durch einen Nutzer resultiert. De
Bestimmung einer Mehrzahl von binauralen Raumimpulsantworten Und:
Erzeugung von wenigstens zwei Lautsprechersignalen abhängig von der Mehrzahl der binauralen Raunimpulsantworten und abhängig von dem Audioquellsignal von wenigstens einer Audioquelle.
Die Mehrzahl der binauralen Raumimpulsantworten werden so bestimmt, dass jede der Mehrzahl der binauralen Raumimpulsantworten einen Effekt berücksichtigt, der aus dem Tragen eines Kopfhörers durch einen Nutzer resultiert.
Ferner wird ein Computerprogramm gemäß einer Ausführungsform der Erfindung mit einem Programmcode zur Durchführung des oben beschriebenen Verfahrens bereitgestellt.
Nachfolgend werden bevorzugte Ausführungsformen der Erfindung unter Bezugnahme auf die Zeichnungen beschrieben.
In den Zeichnungen ist dargestellt:
Fig. 1 zeigt ein System gemäß einer Ausführungsform.
Fig. 2 zeigt ein weiteres System zur Unterstützung von selektivem Hören gemäß einer weiteren Ausführungsform.
Fig. 3 zeigt ein System zur U '> oitzung von selektivem Hören, das eine Benutzeroberfläche umfasst.
Fig. 4 zeigt ein System zur Unterstützung von selektivem Hören, da sin Hörgerät mit zwei entsprechenden Lautsprechern umfasst.
Fig, 5a zeigt ein System zur Unterstützung von selektivem Hören, das eine Gehäusestruktur und zwei Lausprecher umfasst. zeigt ein System zur Unterstützung von ! Hören, das einen Kopfhörer mit zwei Lautsprechern umfasst. Fig 6 zeigt ein System «, im i> einer Ausführuii'V'O min, das ein entferntes Gerät
190 umfasst, das den Detektor und den IPositionsbestimimer und den
Audiotyp-Klassifikator und den Signalanteil-Modifizierer und den Signalgenerator umfasst.
Fig. 7 zeigt ein System gemäß einer Ausführungsform, das fünf Sub-Systeme umfasst.
Fig. 8 stellt ein entsprechendes Szenario gemäß einem Ausführungsbeispiel dar.
Fig. 9 stellt ein Szenario gemäß einer Ausführungsform mit vier externen
Schallquellen dar.
Fig. 10 stellt einen Verarbeitungsworkflow einer SH-Anwendung gemäß einer Ausführungsform dar.
Fig. 1 zeigt ein System gemäß einer Ausführungsform.
Das System umfasst einen Analysator 152 zur Bestimmung einer Mehrzahl von binauralen Raumimpulsantworten.
Des Weiteren umfasst das System einen Lautsprechersignal-Erzeuger 154 zur Erzeugung von wenigstens zwei Lautsprechersignalen abhängig von der Mehrzahl der binauralen Raumimpulsantworten und abhängig von dem Audioquellsignal von wenigstens einer Audioquelle.
Der Analysator 152 ist ausgebildet, die Mehrzahl der binauralen Raumimpulsantworten so zu bestimmen, dass jede der Mehrzahl der binauralen Raumimpulsantworten einen Effekt berücksichtigt, der aus dem i rrmen eines Kopfhörers durch einen Nutzer resultiert.
In einer Ausführungsform kann das System P den Kopfhörer umfassen, wobei der Kopfhörer z.B. ausgebildet sein kann, die wenigstens wG Lautspirecheirsignale auszugeiben. Gemäß einer Ausführungsform kann der Kopfhörer z.B. zwei Kopfhörerkapseln und z.B. mindestens ein Mikrofon zur Messung von Schall in jeder der zwei Kopfhörerkapseln umfassen« wobei in jeder der zwei Kopfhörerkapseln z.B. das mindestens eine Mikrofon zur Messung dos : nalis angeordnet sein kann. Der Analysator 152 kann dabei z.B. ausgebildet sein, die Bestimmung der Mehrzahl der binauralen Raumimpuisantworten unter Verwendung der Messung des mindestens einen Mikrofons in jeder der zwei Kopfhörerkapseln durchzuführen Ein Kopfhörer, welcher für die binaurale Wiedergabe gedacht ist, bat dabei immer mindestens zwei Kopfhörerkapseln (je eine für linkes und rechtes Ohr), wobei auch mehr als zwei Kapseln (z.B. für unterschiedliche Frequ* 11 in 1 'p w '.gesehen sein können.
In einer Ausführungsform kann das mindestens eine Mikrofon in jeder der zwei Kopfhörerkapseln z.B. ausgebildet sein, vor Beginn einer Wiedergabe der wenigstens zwei Lautsprechersignale durch den Kopfhörer, ein oder mehrere Aufnahmen einer Schallsituation in einem Wiedergaberaum zu erzeugen, aus den ein oder mehreren Aufnahmen eine Schätzung eines Roh-Audiosignals wenigstens einer Audioquelle zu bestimmen und eine binaurale Raumimpulsantwort der Mehrzahl der binauralen Raumimpulsantworten für die Audioquelle in dem Wiedergaberaum zu bestimmen.
Gemäß einer Ausführungsform kann das mindestens eine Mikrofon in jeder der zwei Kopfhörerkapseln z.B. ausgebildet sein, während der Wiedergabe der wenigstens zwei Lautsprechersignale durch den Kopfhörer, ein oder mehrere weitere Aufnahmen der Schallsituation in dem Wiedergaberaum zu erzeugen, von diesen ein oder mehreren weiteren Aufnahmen ein augmentiertes Signal abzuziehen und die Schätzung des Roh- Audiosignals von einer oder mehreren Audioquellen zu bestimmen und die binaurale Raumimpulsantwort der Mehrzahl der binauralen Raumimpulsantworten für die Audioquelle in dem Wiedergaberaum zu bestimmen.
In einer Ausführungsform kann der Analysator 152 z.B. ausgebildet sein, akustische Raumeigenschaften des Wiedergaberaumes zu bestimmen und die Mehrzahl der binauralen Raumimpuisantworten abhängig von den akustischen Raumeigenschaften anzupassen.
Gemäß einer Ausführungsform kann das mindestens eine Mikrofon z.B. in jeder der zwei Kopfhörerkapseln zur Messung des Schalls nahe am Eingang des Ohrkanals \ , c icnat sein. In einer Am Msrungsform kann das Systun Ul . . in oder mehrere weitere Mikrofone außerhalb der zwei Kopfhörerkapseln zur Messung der Schallsituation in dem
Wiede irg a Ibe ra u m u mfa ssen.
' ' miß einer Ausführungsform kann der Kopfhörer z.B. einen Bügel umfassen, wobei wenigstens eines der ein oder mehreren weiteren Mikrofone z.B. an dem Bügel angeordnet ist.
In einer Ausführungsform kann der Lautsprechersignal-Erzeuger 154 z.B. ausgebildet sein, die wenigstens zwei Lautsprechersignale zu erzeugen, indem jede der Mehrzahl der binauralen Raumimpulsantworten mit einem Audioquellsignal einer Mehrzahl von ein oder mehreren Audioquellsignalen gefaltet wird.
Gemäß einer Ausführungsform kann der Analysator 152 z.B. ausgebildet sein, wenigstens eine der Mehrzahl der binauralen Raumimpulsantworten (oder mehrere oder alle binauralen Raumimpulsantworten) in Abhängigkeit von einer Bewegung des Kopfhörers zu bestimmen.
In einer Ausführungsform kann dabei das System einen Sensor umfassen, um eine Bewegung des Kopfhörers zu bestimmen. Der Sensor kann z.B. ein Sensor, beispielsweise ein Beschleunigungsaufnehmer, sein, der mindestens 3 DoF (englisch: three degrees of freedom; deutsch: drei Freiheitsgrade) aufweist, um Kopfdrehungen zu erfassen. Beispielsweise kann z.B. ein 6 DoF Sensor (englisch: six degrees of freedom sensor; deutsch: Sechs-Freiheitsgrade-Sensor) eingesetzt werden.
Bestimmte Ausfühl uiv wurmen der Erfindung adressieren die technische Herausforderung, dass es oft in einer Hörumgebung zu laut ist, bestimmte Geräusche in der Hörumgebung störend sind, und selektives Hören gewünscht ist. Das menschliche Gehirn selbst ist zwar gut zu selektiv· in [ Uren imstande, aber intelligent* u Klinische Hilfen können selektives Hören deutlich verbessern. So wie Brillen im heutigen Leben sehr vielen Menschen helfen, ihre Umgebung besser wahrzunehmen, gibt es für das Hören Hörgeräte, aber in vielen Situationen können auch normal Hörende von der Unterstützung durch intelligente Systeme profitieren. Um „intelligenten Hearables“ (Hörgeräte) zu realisieren, ist durch das technische System die (akustische) Umgebung zu analysieren, einzelne Klangquellen sind zu identifizieren, um diese getrennt voneinander behandeln zu können. Zu diesen Themen gibt es Vorarbeiten, aber eine in Echtzeit ftransgaient für unsere Ohren) und mit hoher Tonqualität (damit das Gehonte von einer normalen akustischen Umgebung nicht unterscheidbar ist) arbeitende m l·, ' < und Verarbeiten v v r gesamten akustischen i fl 11, o I ·< ui iu urde im Stand der i *,J ·i ulk noch nicht realisiert,
Nach i ' G I O werden verbesserte Konzepte für maschinelles Hören (engl.: (Vhmlhiirie Listeiiih^ ivn ncwciit.
In einem ersten Schritt erfolgt eine Messung der BRIR mit Kopfhörer entweder individualisiert oder mit Kopfhörer mittels Sondenmikrofon.
In einem zweiten Schritt erfolgt eine Analyse der Raumeigenschaften des Aufnahmeraumes anhand der gemessenen BRIR.
Optional nimmt z.B. in einem dritten Schritt mindestens ein eingebautes Mikrofon in jeder Muschel vor Beginn der Wiedergabe die reale Schallsituation im Wiedergaberaum auf. Aus diesen Aufnahmen wird eine Schätzung des Roh-Audiosignals von einer oder mehreren Quellen bestimmt und die jeweilige BRIR der Schallquelle/Audioquelle im Wiedergaberaum bestimmt. Aus dieser Schätzung werden die akustischen Raumeigenschaften des Wiedergaberaumes bestimmt und damit die BRIR des Aufnahmeraumes angepasst.
Weiter optional nimmt z.B. in einem weiteren Schritt mindestens ein eingebautes Mikrofon in jeder Muschel während der Wiedergabe die reale Schallsituation im Wiedergaberaum auf. Aus diesen Aufnahmen wird zunächst das augmentierte Signal abgezogen, dann eine Schätzung des Roh-Audiosignals von einer oder mehreren Quellen bestimmt und die jeweilige BRIR der Schallquelle/Audioquelle im Wiedergaberaum bestimmt. Aus dieser Schätzung werden die akustischen Raumeigenschaften des Wiedergaberaumes bestimmt und damit die BRIR des Aufnahmeraumes angepasst.
In einem in n n Schritt wird «ine II in» »ng einer zu augmentiereivien Que ll mii der positions-richtigen. <'pn na! nih " m-uivn BRIR durchgeführt, um die Kopfhörersignale zu erhallten.
Schließlich erfolgt in einem weiteren Schritt eine Wiedergabe der Kopfhörersignale über Kopfhörer. 1« öinar ihrur let ein in Ader zur sordnet.
Gemäß einer Ausführungsform werden optional zusätzliche Wüki außen am Kopfhörer, u.U. auch oben am Bügel, zur Messung und Analyse der Situation im Wiedergaberaum angecrcinet. ln Ausführungsformen wird ein Klang von natürlichen und augmentierten Quellen realisiert, der gleich ist.
Ausführungsformen realisieren, dass keine Messung der Eigenschaften des Kopfhörers erforderlich sind.
Ausführungsformen stellen so Konzepte zur Messung der Raumeigenschaften des Wiedergaberaumes bereit.
Manche Ausführungsformen stellen einen Startwert und (Nach-)Optimierung der Raumadaption bereit. Die bereitgestellten Konzepte funktionieren auch, wenn sich die Raumakustik des Wiedergaberaumes ändert, wenn der Hörer z.B. in einen anderen Raum wechselt.
Ausführungsformen basieren unter anderem darauf, unterschiedliche Techniken zur Hörunterstützung in technischen Systemen einzubauen und so zu kombinieren, dass eine Verbesserung der Klang- und Lebensqualität (z.B. erwünschter Schall lauter, unerwünschter Schall leiser, bessere Sprachverständlichkeit) sowohl für normalhörende als auch für Menschen mit Schädigungen des Gehörs erzielt wird.
Fig. 2 zAgt ein System zur Unterstützung von selektivem Hören gemäß einem Ausführui spiel.
Das System umfasst einen Detektor i tu zur Detektion eines Audioqueiien-Signalanteils von ein oder mehreren Audioquelien unter Verwendung von wenigstens zwei empfangenen Mikrofonsignaien einer Hörumgebung.
Des Weiteren umfasst das System einen .Positionsbestimmer 120 zur Zuweisung von Positionsinformation zu jeder der ein oder mehreren Audioquelien. 130 zur Zuordr r der ein oder
Des Weiteren umfasst das System einen Signalanteil-Modifizierer 140 zur Veränderung des Audioquellen-Signalanteils von wenigstens einer Audioquelle der ein oder mehreren Audioquellen abhängig von dem Audiosignaltyp des Audioquellen-Signalanteils der wenigstens einen Audioquelle, um einen modifizierten Audiosignalanteil der wenigstens einen Audioquelle zu erhalten.
Der Analysator 152 und der Lautsprechersignal-Erzeuger 154 der Fig. 1 bilden zusammen einen Signalgenerator 150.
Der Analysator 152 des Signalgenerators 150 ist zur Erzeugung der Mehrzahl von binauralen Raumimpulsantworten ausgebildet, wobei es sich bei der Mehrzahl von binauralen Raumimpulsantworten um eine Mehrzahl von binauralen Raumimpulsantworten für jede Audioquelle der ein oder mehreren Audioquellen handelt, die abhängig von der Positionsinformation dieser Audioquelle und einer Orientierung eines Kopfes eines Nutzers sind.
Der Lautsprechersignal-Erzeuger 154 des Signalgenerators 150 ist ausgebildet, die von wenigstens zwei Lautsprechersignale abhängig von der Mehrzahl der binauralen Raumimpulsantworten und abhängig von dem modifizierten Audiosignalanteil der wenigstens einen Audioquelle zu erzeugen.
Gemäß einer Ausführungsform kann der Detektor 110 z.B. ausgebildet sein, den Audioquellen-Signalanteil der ein oder mehreren Audioquellen unter Verwendung von Deep Learning Modellen zu detektieren.
In einer Ausführungsform kann die Positionsbestimmer 120 z.B. ausgebildet sein, die zu jedem der ein oder mehreren Audioquellen die Positionsinformation abhängig von einem aufgenommenen Bild oder von einem aufgenommenen Video zu bestimmen.
Gemäß einer Ausführungsform kann der Positionsbestimmer 120 z.B. ausgebildet sein, die zu jedem der ein oder mehreren Audioquellen die Positionsinformation abhängig von dem Video zu bestimmen, indem eine Lippenbewegung einer Person in dem Video detektiert In einer Ausführungsform kann der * > n ' \ i »gebildet sein, ein oder mehrere akustische Eigenschaften der Horumgebung abhängig von den wenigstens zwei empfangenen Mikrofonsignalen zu bestimmen.
Gemäß einer Ausführungsform kann der Signalgenerator 150 z.B. ausgebildet sein, die Mehrzahl der binauralen Raumimpulsantworten abhängig von den ein oder mehreren akustischen Eigenschaften der Hörumgebung zu bestimmen. ln einer Ausführungsform kann der Signalanteii-Modifizierer 140 z.B. ausgebildet sein, die wenigstens eine Audioquelle, deren Audioquellen-Signalanteil modifiziert wird, abhängig von einem zuvor erlernten Benutzerszenario auszuwählen und abhängig von dem zuvor erlernten Benutzerszenario zu modifizieren.
Gemäß einer Ausführungsform kann das System z.B. eine Benutzeroberfläche 160 zur Auswahl des zuvor erlernten Benutzerszenarios aus einer Gruppe von zwei oder mehreren zuvor erlernten Benutzerszenarien umfassen. Fig. 3 zeigt ein solches System gemäß einer Ausführungsform, das zusätzlich eine derartige Benutzeroberfläche 160 umfasst.
In einer Ausführungsform kann der Detektor 110 und/oder der Positionsbestimmer 120 und/oder der Audiotyp-Klassifikator 130 und/oder der Signalanteii-Modifizierer 140 und/oder der Signalgenerator 150 z.B. ausgebildet sein, parallele Signalverarbeitung unter Verwendung einer Hough-T ransformation oder unter Einsatz einer Mehrzahl von VLSI- Chips oder unter Einsatz einer Mehrzahl von Memristoren durchzuführen.
Gemäß einer Ausführungsform kann das System z.B ein Hörgerät 170 umfassen, das als Hörhilfe für in ihrer Hörfähigkeit eingeschränkte und/oder hörgeschädigte Nutzer dient, wobei das Hörgerät wenigstens zwei Lautsprecher * s > .. . i Ausgabe der wenigstens zwei Lautsprechersignaie umfasst, Fig. 4 zeigt ein solches System gemäß einer
Ausführungsform, dass ein derartiges Hörgerät 170 mit zwei entsprechenden Lautsprechern 171, 172 umfasst
In einer Ausführungsform kann das System z.B. wenigstens zwei Lautsprecher 181, 182 zur Ausgabe der wenigstens zwei Lautsprechersignale und eine Gehäusestruktur 183 umfassen, die die wenigstens zwei Lautsprecher aufnimmt, wobei die mindestens eine Gehäusestruktur 183 geeignet ist, an einem Kopf 185 eines Nutzers oder einem anderen Gemäß einer Ausführungsform kann das System z.B. einen Kopfhör bV umfassen, der wenigstens zwei Lautsprecher a ' zur Ausgabe der wenigstens zwei Lautsprechersignale umfasst. Fig. 5b ao M einen entsprechenden Kopfhörer 180 mit zwei Lautsprechern 181 182 gemäß einer an ’t hrungsform.
In einer Ausführungsform kann z.B. der Detektor 110 und der Positionsbestimmer 120 und der Audiotyp-Klassifikator 130 und der Signalanteil-Modifizierer 140 und der Signalgenerator 150 in den Kopfhörer 180 integriert sein.
Gemäß einer Ausführungsform, dargesteilt in Fig. 6 kann das System z.B. ein entferntes Gerät 190 umfassen, das den Detektor 110 und den Positionsbestimmer 120 und den Audiotyp-Klassifikator 130 und den Signalanteil-Modifizierer 140 und den Signalgenerator 150 umfasst. Das entfernte Gerät 190 kann dabei z.B. von dem Kopfhörer 180 räumlich getrennt sein.
In einer Ausführungsform kann das entfernte Gerät 190 z.B. ein Smartphone sein.
Ausführungsformen nutzen nicht zwanghaft einen Mikroprozessor, sondern verwenden parallele Signalverarbeitungsschritte, wie z.B. Hough-Transformation, VLSI-Chips oder Memristoren zur stromsparenden Realisierung, u.a. auch von künstlichen neuronalen Netzen.
In Ausführungsformen wird die auditorische Umge mvi räumlich ei fas t und wiedergegeben, was einerseits mehr als ein Signal zur Repräsentation des Eingangssignals, andererseits auch eine räumliche Wiedergabe nutzt.
In Ausführungsiorr"en erfolgt: die Signaltrennung n *" .. Deep Learning (DL) Modellen (z.B. CNN, RCNN 8 M Siamese Network) und bearbeitet simultan die Informationen von mindestens zwei Mikrofonkanälen, wobei mi ' Vns ein Mikrofon in jedem Hearable ist. Erfindungsgemäß werden durch die gerne...^..e Ac yso mehrere Ausgangssignale (entsprechend den einzelnen Klangquellen) zusammen mii. ihrer jeweiligen räumlichen Position bestimmt. Ist die Aufnahmeeinrichtung (Mikrofone) mit dem Kopf verbunden dann verändern sich die Positione ' . , ekte bei Kopfbewegungen. Dies ermöglicht eine natürliche nki i^cio . i Schall, : trcb Hinwendung zum
In manchen Ausführungsformen beruhen die Algorithmen zur Signalanalyse beispielsweise auf einer Deep Learning Architektur. Dabei werden alternativ Varianten mit einer Analyse- Einheit oder Varianten mit getrennten Netzen für die Aspekte Lokalisierung, Erkennung und Quellentrennung verwendet. Durch die alternative Verwendung von generalized cross- correlation (Korrelation versus Zeitversatz) wird der Frequenzabhängigen Abschattung durch den Kopf Rechnung getragen und die Lokalisierung, Erkennung und Queüentrennung verbessert.
Gemäß einer Ausführungsform werden in einer Trainingsphase durch den Erkenner verschiedene Quellenkategorien (z.B. Sprache, Fahrzeuge, männlich/weiblich/Kinderstimme, Warntöne, etc.) gelernt. Hierbei werden auch die Quelltrennungsnetze auf hohe Signalqualität trainiert, sowie die Lokalisationsnetze mit gezielten Stimuli auf eine hohe Genauigkeit der Lokalisation.
Die oben genannte Trainingsschritte benutzen beispielsweise mehrkanalige Audiodaten, wobei in der Regel ein erster T rainingsdurchgang im Labor mit simulierten oder aufgezeichneten Audiodaten erfolgt. Dies ist gefolgt von einem Trainingsdurchgang in unterschiedlichen natürlichen Umgebungen (z.B. Wohnzimmer, Klassenzimmer, Bahnhof, (industrielle) Produktionsumgebungen, etc.), d.h. es erfolgt ein Transfer Learning und eine Domain Adaptation.
Alternativ oder zusätzlich könnte der Erkenner für die Position mit einer oder mehreren Kameras gekoppelt werden um auch die visuelle Position von Schallquellen/Audioquellen zu bestimmen. Bei Sprache werden hierbei Lippenbewegung und die aus dem Quellentrenner kommenden Audiosignale korreliert und damit eine genauere Lokalisation erzielt.
Nach dem Training existiert ein DL-Modell mit Netzarchitektur und den dazugehörigen Parametern.
In manchen Ausführungsformen erfolgt die Auralisierung mittels Binauralsynthese. Die Binauralsynthese bietet den weiteren Vorteil, dass es möglich ist unerwümj L Komponenten nicht vollständig zu löschen, sondern nur soweit zu reduzieren, dass sie Gemäß mancher Ausführungsformen wird die Analyse der auditorischen Umgebung nicht nur zur Trennung der Objekte verwendet sondern auch zur Analyse der akustischen Eigenschaften (z.B. Nachhallzeit, Initital Time Gap) verwendet. Diese Eigenschaften werden dann in der Binauralsynthese eingesetzt um die vorgespeicherten (evtl auch individualisierten) binauralen Raumimpulsantworten (BRIR) an den tatsächlichen Raum anzupassen. Durch die Reduktion der Raumdivergenz hat der Hörer eine deutlich reduzierte Höranstrengung beim Verstehen der optimierten Signale. Eine Minimierung der Raumdivergenz hat Auswirkung auf die Externalisierung der Hörereignisse und somit auf die Plausibilität der räumlichen Audiowiedergabe im Abhörraum. Zum Sprachverstehen oder zum allgemeinem Verstehen von optimierten Signalen existieren im Stand der Technik keine bekannten Lösungen.
In Ausführungsformen wird mittels einer Benutzeroberfläche bestimmt, welche Schallquellen ausgewählt werden. Erfindungsgemäß erfolgt dies hier durch das vorherige Lernen unterschiedlicher Benutzerszenarien, wie z.B. „verstärke Sprache genau von vorne“ (Gespräch mit einer Person), „verstärke Sprache im Bereich +-60 Grad“ (Gespräch in der Gruppe), „unterdrücke Musik und verstärke Musik“ (Konzertbesucher will ich nicht hören), „mach alles Leise“ (ich will meine Ruhe), „unterdrücke alles Rufe und Warntöne“, etc.
Manche Ausführungsformen sind unabhängig von der verwendeten Hardware, d.h. sowohl offene als auch geschlossene Kopfhörer können verwendet werden. Die Signalverarbeitung kann in den Kopfhörer integriert sein, in einem ev* — -n Gerät sein, oder auch in einem Smartphone integriert sein. Optional können zi h zur Wiedergabe von akustisch aufgenommenen und verarbeiteten Signalen auch Signale aus dem Smartphone (z.B. Musik, Telefonie) direkt wiedergegeben werden.
In anderen Ausfüh-'’ ;-\TTormen wird ein Ökosystem für „selektives Hören mit Kl- Unterstützung“ be > ' r? killt. Ausführungsbeispiele beziehen sich auf die „personalisierte auditorische Ree v e (Personalized Auditory Reality - PARty). In einer solchen personalisierten I ung ist der Hörer in der Lage, definierte akustische Objekte zu verstärken, zu mindern oder zu modifizieren. Zur Erschaffung eines an die individuellen Bedürfnisse angepassten Klangerlebnisses sind eine Reihe von Analyse- und "'1 Ui
Manche Ausführungsformen u- , n die Analyse der realen Schallumgebung und Erfassung der einzelnen akus m Ή i Qjekte, die Separation, Verfolgung und Edltierbarkeit der vorhandenen Objekte unu uie Rekonstruktion und die Wiedergabe der modifizierten akustischen Szene.
In Ausführungsbeispielen wird eine Erkennung von Klangereignissen, eine Trennung der Klangereignisse, und eine Unterdrückung mancher der Kiangereignisse realisiert.
In Ausführungsformen kommen Kl-Verfahren (insbesondere Deep-Learning-basierte Verfahren gemeint) zum Einsatz.
Ausführungsformen der Erfindung tragen zur technologischen Entwicklung für Aufnahme, Signalverarbeitung und Wiedergabe von räumlichem Audio bei.
Ausführungsformen erzeugen z.B. Räumlichkeit und Dreidimensionalität in multimedialen Systemen bei interagierendem Nutzer
Ausführungsbeispiele basieren dabei auf erforschtem Wissen von perzeptiven und kognitiven Vorgängen des räumlichen Hörens.
Manche Ausführungsformen nutzen zwei oder mehrere der nachfolgenden Konzepte:
Szenenzerlegung: Dies umfasst eine raumakustische Erfassung der realen Umgebung und Parameterschätzung und/oder eine positionsabhängige Schallfeldanalyse.
Szenenrepräsentation: Dies umfasst eine Repräsentation und Identifikation der Objekte und der Umgebung und/oder eine effiziente Darstellung und Speicherung.
Szenenzusammensetzung und Wiedergabe; Dies umfasst eine Anpassung und Vt wQumig der Objekte und der Umgebung und/oder ein Rendering und eine fi ig.
Qualitätsevaluierung; Dies i technische und/oder auditive Qualitätsmessung Signalaufbereitung: Dies umfasst eine Merkmalsextraktion sowie Datensatzerzeugung für ML (Maschinelles Lernen).
Schätzung Raum- und Umgebungsakustik: Dies umfasst eine in-situ Messung und Schätzung raumakustischer Parameter und/oder eine Bereitstellung von Raumakustikmerkmalen für Quellentrennung und ML.
Auralisierung: Dies umfasst eine räumliche Audiowiedergabe mit auditiver Passung zur Umgebung und /oder eine Validierung und Evaluierung und/oder einen Funktionsnachweis und eine Qualitätsabschätzung.
Fig. 8 stellt ein entsprechendes Szenario gemäß einem Ausführungsbeispiel dar.
Ausführungsformen kombinieren Konzepte für die Erfassung, Klassifikation, Trennung, Lokalisation und Verbesserung von Schallquellen, wobei jüngste Fortschritte in jedem Bereich hervorgehoben und Zusammenhänge zwischen ihnen aufgezeigt werden.
Es werden einheitliche Konzepte bereitgestellt, die Schallquellen kombinieren erfassen/klassifizieren/lokalisieren und trennen/verbessern können, um sowohl die für SH im echten Leben erforderliche Flexibilität als auch Robustheit bereitzustellen.
Ferner stellen Ausführungsformen für Echtzeitleistu' > eignete Konzepte mit einer geringen Latenz sind im Umgang mit der Dynamik auditiver Szenen im echten Leben bereit.
Manche der Ausführungsformen nutzen Konzepte für tiefes Lernen (engl.: Deep Learning), maschinelles Hören und smarte Kopfhörer fengi smart hearables), die es Hörern ermöglichen, ihre auditive Szene selektiv zu modifizieren.
Ausführungsformen stellen dabei die Möglichkeit für einen Hörer bereit, Schallquellen in der auditiven Szene mittels einer Hörvorrichtung wie Ko - m, Ohrhörern etc. selektiv zu verbessern, zu dämpfen, zu unterdrücken oder zu rr» en. Fig. 9 stellt ein Szenario gemäß einer Ausführungsform mit vier externen Schallquellen dar. (In Fig. 9 bedeuten: Keep - Beibehalten; Suppress - Unterdrücken; Alarm - Alarm; Cellphone - Handy; Speaker X - Sprecher X; City Noise - Stadtgeräusche; Source Control - Quellensteuerung).
In Fig. 9 stellt der Benutzer den Mittelpunkt der auditiven Szene dar. In diesem Fall sind vier externe Schallquellen (S1-S4) um den Benutzer herum aktiv. Eine
Benutzerschnittstelle ermöglicht es dem Hörer, die auditive Szene zu beeinflussen. Die Quellen S1-S4 können mit ihren entsprechenden Schiebern gedämpft, verbessert oder unterdrückt werden. Wie in Fig. 2 zu sehen ist, kann der Hörer Schallquellen oder - ereignisse definieren, die beibehalten werden sollen oder in der auditiven Szene unterdrückt werden sollen. In Fig. 2 sollen die Hintergrundgeräusche der Stadt unterdrückt werden, während Alarme oder das Klingeln von Telefonen beibehalten werden sollen. Der Benutzer hat jederzeit die Möglichkeit, einen zusätzlichen Audiostream wie Musik oder Radio über die Hörvorrichtung abzuspielen.
Der Benutzer ist in der Regel der Mittelpunkt des Systems und steuert die auditive Szene mittels einer Steuereinheit. Der Benutzer kann die auditive Szene mit einer
Benutzerschnittstelle wie der in Fig. 9 dargestellten oder mit jeder beliebigen Art von Interaktion wie Sprachsteuerung, Gesten, Blickrichtung etc. modifizieren. Sobald der Benutzer Feedback an das System gegeben hat, besteht der nächste Schritt in einer Erfassungs-/Klassifikations-/Lokalisationsstufe. In einigen Fällen ist nur die Erfassung notwendig, z. B. wenn der Benutzer jede in der auditiven Szene auftretende Sprachäußerung beibehalten möchte. In anderen Fällen könnte Klassifikation notwendig sein, z. B. wenn der Benutzer Feueralarme in der auditiven Szene beibehalten möchte, jedoch nicht Telefonklingeln oder Bürolärm. In einigen Fällen ist nur der Standort der Quelle für das System relevant. Dies ist zum Beispiel bei den vier Quellen in Fig. 9 der Fall: Der Benutzer kann sich dazu entscheiden, die aus einer bestimmten Richtung kommende Schallquelle zu entfernen oder zu dämpfen, unabhängig von der Art oder den Charakteristika der Quelle.
Fig. 10 stellt einen Verarbeitungsworkflow einer SH-Anwendung gemäß einer Ausführungsform dar.
I Fig. 10 Man unterscheidet selektives Hören von virtuellen und verstärkten auditiven Umgebungen, indem wir selektives Hören auf diejenigen Anwendungen beschränken, bei denen nur echte Audioquellen in der auditiven Szene modifiziert werden, ohne zu versuchen, der Szene irgendwelche virtuellen Quellen hinzuzufügen.
Aus einer Perspektive des maschinellen Hörens erfordern es Anwendungen für selektives Hören, dass Technologien Schallquellen automatisch erfassen, lokalisieren, klassifizieren, trennen und verbessern. Um die Terminologie bezüglich selektivem Hören weiter zu verdeutlichen, definieren wir die folgenden Begriffe, wobei wir deren Unterschiede und Zusammenhänge hervorheben:
In Ausführungsformen wird z.B. Schallquellenlokalisation (engl.: Sound Source Localization) genutzt, die sich auf die Fähigkeit bezieht, die Position einer Schallquelle in der auditiven Szene zu erfassen. Im Zusammenhang mit Audioverarbeitung bezieht sich ein Quellenstandort üblicherweise auf die Ankunftsrichtung (engl.: direction of arrival, DOA) einer gegebenen Quelle, die entweder als 2D-Koordinate (Azimut) oder, wenn sie eine Erhöhung umfasst, als 3D-Koordinate gegeben sein kann. Einige Systeme schätzen auch die Entfernung von der Quelle zu dem Mikrofon als Standortinformation [3], Im Zusammenhang mit Musikverarbeitung bezieht sich der Standort oft auf das Panning der Quelle in der finalen Abmischung und ist üblicherweise als Winkel in Grad angegeben [4],
Gemäß Ausführungsformen wird z.B. Schallquellenerfassung (engl.: Sound Source Detection) genutzt, die sich auf die Fähigkeit bezieht, zu bestimmen, ob irgendeine Instanz eines gegebenen Schallquellentyps in der auditiven Szene vorliegt. Ein Beispiel für einen Erfassungsvorgang besteht darin, zu bestimmen, ob irgendein Sprecher in der Szene anwesend ist. In diesem Zusammenhang geht das Bestimmen der Anzahl von Sprechern in der Szene oder der Identität der Sprecher über den Umfang der Schallquellenerfassung hinaus. Erfassung kann als binärer Klassifikationsvorgang verstanden werden, bei der die Klassen den Angaben „Quelle anwesend“ und „Quelle abwesend“ entsprechen. In Ausführungsformen v o . > Schallqueilenki.w ^Kation (engl.: Sound Source Classification) genutzt, die einer gegebenen Sen .»welle oder einem gegebenen Schallereignis eine Klassenbezeichnung aus einer Gi \ vordefinierter Klassen zuordnet. Ein Beispiel für einen Klassifikationsvorgang besteht darin, zu bestimmen, ob eine wbone SchallcjwV Sprache, Musik oder Umgebungsgeräuschen entspricht. SchallquellenklassiV.vbcn md -erfassung sind eng zusT^whangende Konzepte. In einigen Fällen enthalte?, >\ w ifikationssysteme eine Erfass ' vufe, indem „keine Klasse“ als eine der möglichen -x-w.chnungen betrachtet wird, Ir ' i Fällen lernt - am implizit, die Anwesenheit oder Abwesenheit einer Schallquelle zu erfassen, ui. t t n.cht dazu gezwungen, eine Kiassenbezeichni ' t zuordnen, wenn keine hinreichenden Hinweise darauf vorliegen, dass irgendeine der Queller! aktiv ist.
Gemäß Ausführungsformen wird z.B. Schallquellentrennung (engl.: Sound Source Separation) genutzt, die sich auf die Extraktion einer gegebenen Schallquelle aus einer Audioabmischung oder einer auditiven Szene bezieht. Ein Beispiel für Schaliquellentrennung ist die Extraktion einer Singstimme aus einer Audioabmischung, bei der neben dem Sänger weitere Musikinstrumente simultan gespielt werden [5]. Schallquellentrennung wird in einem selektiven Hörszenario relevant, da es das Unterdrücken von für den Hörer nicht interessanten Schallquellen ermöglicht. Einige Schalltrennungssysteme führen implizit einen Erfassungsvorgang durch, bevor sie die Schallquelle aus der Abmischung extrahieren. Dies ist jedoch nicht zwangsläufig die Regel, und daher heben wir die Unterscheidung zwischen diesen Vorgängen hervor. Zusätzlich dient die Trennung oft als Vorverarbeitungsstufe für andere Analysearten wie Quellenverbesserung [6] oder -klassifikation [7].
In Ausführungsformen wird z.B. Schallquelienidentifizierung (engl.: Sound Source Identification) genutzt, die einen Schritt weiter geht und darauf abzielt, spezifische Instanzen einer Schallquelle in einem Aud Ί v MI zu identifizieren. Sprecheridentifizierung ist heute die vielleicht häufigste Verwendung n Quellenidentifizierung. Das Ziel besteht bei diesem Vorgang darin, zu identifizieren, ob ein spezifischer Sprecher in der Szene anwesend ist. Bei dem Beispiel in Fig. 1 hat der Benutzer „Sprecher X“ als eine der in der auditiven Szene beizubehaltenden Quellen ausgewählt. Dies erford i l ihnologien, die über die Erfassung und Klassifikation von Sprache hinausgehen, und verlangt sprecherspezifische Modelle, die diese präzise Identifizierung ermöglichen. Gemäß Ausführungsformen wird z.B. Schallquellenverbesserung (engl.: Sound Source Enhancement) genutzt, die sich auf den Prozess bezieht, das Herausstechen einer gegebenen Schallquelle in der auditiven Szene zu erhöhen [8] Im Fall von Sprachsignalen besteht das Ziel oft darin, deren Qualitäts- und Verständlichkeitswahrnehmung zu erhöhen. Ein übliches Szenario für Sprachverbesserung ist das Entrauschen von Sprachäußerungen, die durch Rauschen beeinträchtigt sind [9], Im Zusammenhang von Musikverarbeitung bezieht sich Quellenverbesserung auf das Konzept des Herstellens von Remixen und wird oft durchgeführt, um ein Musikinstrument (eine Schallquelle) in der Abmischung mehr herausstechen zu lassen. Anwendungen zum Herstellen von Remixen verwenden oft Schalltrennungsvorstufen (sound Separation front-enc griff auf die einzelnen Schallquellen zu erhalten und die Charakteristika der Abmischung zu verändern [10], Obwohl der Schallverbesserung eine Schallquellentrennungsstufe vorausgehen kann, ist dies nicht immer der Fall, und daher heben wir auch die Unterscheidung zwischen diesen beiden Begriffen hervor.
Im Bereich der Schallquellenerfassung, -klassifikation und -Identifizierung (engl.: Sound Source Detection, Classification and Identification) setzen manche der Ausführungsformen z.B. eines des nachfolgenden Konzepte ein, wie z.B, die Erfassung und Klassifikation akustischer Szenen und Ereignisse [18] In diesem Zusammenhang wurden Methoden für Audioereigniserfassung (engl.: audio event detection, AED) in häuslichen Umgebungen vorgeschlagen, bei denen das Ziel darin besteht, die Zeitgrenzen eines gegebenen Schallereignisses innerhalb von 10-sekündigen Aufnahmen zu erfassen [19], [20]. In diesem besonderen Fall wurden 10 Schallereignisklassen berücksichtigt, darunter Katze, Hund, Sprachäußerung, Alarm und laufendes Wasser. Methoden für die Erfassung polyphoner Schallereignisse (mehrerer simultaner Ereignisse) wurden in der Literatur auch vorgeschlagen [21], [22], In [21] wird eine Methode für die Erfassung polyphoner Schallereignisse vorgeschlagen, bei der insgesamt 61 Schallereignisse aus Situationen aus dem echten Leben unter Verwendung von Binäre-Aktivität-Detektoren auf der Basis eines rekurrenten neuronalen Netzes (engl.: recurrent neural network, RNN) mittels bidirektionalem langem Kurzzeitgedächtnis (engl.: bidirectional long short-term memory, BLSTM) erfasst werden.
Manche Ausführungsformen integrieren z.B., um mit spärlich bezeichneten Daten umzugehen, vorübergehende Aufmerksamkeitsmechanismen, um sich zur Klassifikation auf bestimmte Regionen des Signals zu konzentrieren [23]. Das Problem von Rauschbezeichnungen bei der Klassifikation ist besonders relevant für Anwendungen für selektives Hören, bei denen die Klassenbezeichr * so verschieden sein können, dass q" b k'ky hochwertige Bezeichnungen sehr kostsi ' sind [24], Geräuschbezeichnungen b zur Schallereigniskiassifikation wurden in (25] mmn «S m t wo geräus rtiuuubte Verlustfunktionen auf der Basis der * V . ( k' \ Kr·· "uz ΆΊ R* ' ' owie Möglichkeiten, sowohl Daten mit Geräusch bezeichnungen ais auch manuell cnnete Daten auszuwerten, präsentiert werden. Gleichermaßen pwmw iiert [26] « in b WH i für Audioereignisklassifikation auf der Basis eines faltenden mnironalers fkl.vn (engl.: convolutional neurai network, CNN), das einen Verifizierungsschritt für Geräuschbezeichnungen auf der Basis eines Vorhersagekonsenses des CNN bei mehreren Segmenten des Testbeispiels einschließt.
Einige Ausführungsformen realisieren beispielsweise, Schallereignisse simultan zu erfassen und zu verorten. So führen manche Ausführungsformen, wie in [27] die Erfassung als einen Klassifikationsvorgang mit mehreren Bezeichnungen durch, und der Standort wird als die 3D-Koordinaten der Ankunftsrichtung (DOA) für jedes Schallereignis gegeben.
Manche Ausführungsformen nutzen Konzepte der Stimmaktivitätserfassung und an Sprechererkennung/-identifizierung für SH. Stimmaktivitätserfassung wurde in geräuschvollen Umgebungen unter Verwendung von entrauschenden Autoencodern [28], rekurrenten neuronalen Netzen [29] oder als Ende-zu-Ende-System unter Verwendung unverarbeiteter Signalverläufe (raw waveforms) [30] thematisiert. Für Sprechererkennungsanwendungen wurden viele Systeme in der Literatur vorgeschlagen [31], wobei sich die überwiegende Mehrheit darauf konzentriert, die Robustheit gegenüber verschiedenen Bedingungen zu erhöhen, beispielsweise mit Datenvergrößerung oder mit verbesserten Einbettungen, die die Erkennung erleichtern [32]— [34], So nutzen einige der Ausführungsformen diese Konzepte.
Weitere Ausführungsformen nutzen Konzepte zur Klassifikation von Musikinstrumenten für die Schallereigniserfassung. Die Klassifikation von Musikinstrumenten sowohl in monophonen als auch polyphonen Umgebungen wurde in der Literatur behandelt [35], [36] In [35] wird das vorherrschende Instrument in 3-sekündigen Audiosegmenten unter 11 Instrumentenklassen klassifiziert, wobei einig Aggregationsv rtVhren vorgeschlagen werden < k K K 'maßen wirt QI [37] eine M thode für die Erfassung der Aktivität von Musikinstrumenten vor, die in der Lage ist, Instrumente in einer feineren zeitlichen Auflösung von 1 Sek zu erfassen. Ein beträchtliches Maß an Forschung wurde in dem Bereich der ^ ^ 2, - betrieben. Insbesondere wurden Methoden wie [38] für den Vorgang des Erfassens von Segmenten in einer Audioaufnahme vorgeschlagen, bei denen die Singstimme aktiv ist. Manche Ausführungsformen nutzen diese Konzepte.
Manche der Ausführungsformen nutzen zur Schatlquel!enlokalisation (engl.: Sound Source Localization) eines der nachfolgend diskutieren Konzepte. So hängt Schallquellenlokalisation eng mit dem Problem des Quellenzählens zusammen, da die Anzahl von Schallquellen in der auditiven Szene üblicherweise in Anwendungen aus dem echten Leben nicht bekannt ist. Einige Systeme arbeiten unter der Annahme, dass die Anzahl von Quellen in der Szene bekannt ist. Dies ist beispielsweise bei dem in [39] präsentierten Modell der Fall, das Histogramme aktiver Intensitätsvektoren verwendet, um die Quellen zu verorten. [40] schlägt aus einer kontrollierten Perspektive einen CNN- basierten Algorithmus vor, um die DOA mehrerer Sprecher in der auditiven Szene unter Verwendung von Phasenkarten als Eingabedarstellungen zu schätzen. Im Gegensatz dazu schätzen mehrere Arbeiten in der Literatur gemeinsam die Anzahl von Quellen in der Szene und deren Standortinformationen. Dies ist bei [41] der Fall, wo ein System für eine Lokalisation mehrerer Sprecher in geräuschvollen und hallenden Umgebungen vorgeschlagen wird. Das System verwendet ein komplexwertiges Gaußsches Mischmodell (engl.: Gaussian Mixture Model, GMM), um sowohl die Anzahl von Quellen als auch deren Standortinformationen zu schätzen. Die dort beschriebenen Konzepte werden von manchen der Ausführungsformen eingesetzt.
Algorithmen zur Schallquellenlokalisation können rechentechnisch anspruchsvoll sein, da sie oft ein Abtasten eines großen Raums um die auditive Szene herum umfassen [42]. Um rechentechnische Anforderungen hinsichtlich der Lokalisationsalgorithmen zu reduzieren, nutzen einige der Ausführungsformen Konzepte, die den Suchraum durch den Einsatz von Clustering-Algorithmen [43] oder durch Durchführen von Mehrfachauflösungssuchen [42] bezüglich bewährter Verfahren wie diejenigen auf der Basis der Steered-Response- Phasentransformation (steered response power phase transform, SRP-PHAT) reduzieren. Andere Verfahren stellen Anforderungen an die Dünnbesetztheit der Matrix und setzen voraus, dass nur eine Schallquelle in einem gegebenen Zeit-Frequenz-Bereich vorherrschend ist [44], Unlängst wurde in [45] ein Ende-zu-Ende-System für Azimuterfassung direkt aus den unverarbeiteten Signalverläufen vorgeschlagen. Einige der Ausführungsformen nutzen diese Konzepte. Insbesondere setzen einige Ausführungsformen Konzepte der sprecherunabhängigen Trennung ein. Dort erfolgt eine Trennung ohne jegliche Vorabinformationen über die Sprecher in der Szene [46] Einige Ausführungsformen werten auch den räumlichen Standort des Sprechers aus, um eine Trennung durchzuführen [47].
In Anbetracht der Wichtigkeit rechentechnischer Leistung bei Anwendungen für selektives Hören ist die Forschung mit dem konkreten Ziel, geringe Latenz zu erzielen, besonders relevant. Es wurden einige Arbeiten vorgeschlagen, um Sprachtrennung mit geringer Latenz (< 10 ms) mit geringfügigen verfügbaren Lerndaten durchzuführen [48]. Um durch Framing-Analyse im Frequenzbereich verursachte Verzögerungen zu vermeiden, gehen einige Systeme das Trennungsproblem dahin gehend an, dass sie vorsichtig im Zeitbereich anzuwendende Filter entwerfen [49]. Andere Systeme erzielen eine Trennung mit geringer Latenz durch direktes Modellieren des Zeitbereichssignals unter Verwendung eines Codierer-Decodierer-Rahmens [50]. Im Gegensatz dazu versuchten einige Systeme, die Framing-Verzögerung bei Ansätzen der Frequenzbereichstrennung zu reduzieren [51]. Diese Konzepte werden von manchen der Ausführungsformen eingesetzt.
Manche Ausführungsformen setzen Konzepte zur Trennung von Musiktönen (engl.: music sound Separation, MSS) ein, die eine Musikquelle aus einer Audioabmischung zu extrahieren [5], etwa Konzepte zur Trennung von Hauptinstrument und Begleitung [52]. Diese Algorithmen nehmen die herausstechenste Schalle in der Abmischung, unabhängig von ihrer Klassenbezeichnung, und versuchen, sie von der restlichen Begleitung zu trennen. Manchen Ausführungsformen nutzen Konzepte zur Singstimmentrennung [53] In den meisten Fällen werden entweder bestimmte Quellenmodelle [54] oder datengesteuerte Modelle [55] dazu verwendet, die Charakter^t'ka der Singstimme einzufangen. Obwohl Systeme wie das in '5A vorgesem ngene nicht explizit eine Klassifikations- oder eine Erfassungsstufe einschließen, um eine Trennung zu erzielen, ermöglicht es das datengesteuerte Wesen dieser Ansätze diesen Systemen, implizit zu lernen, die Singstimme mit einer gewissen Genauigkeit vor der Trennung zu erfassen. Eine andere Klasse von Algorithmen im Musikbereich versucht, eine Trennung durchzuführen, indem u ;h der Standort der Quellen verwendet wird [4], ohne zu versuchen, die Quelle vor der Trennung zu klassifizieren oder zu erfassen. Einige der Ausführungsformen setzen Antischall (ANC)-Konzepte ein, z.B. die Aktive Lärmkompensation (ANC). ANC-Systeme zielen hauptsächlich darauf ab, Hintergrundrauschen für Benutzer von Kopfhörern zu reduzieren, indem ein Antischallsignal eingesetzt wird, um sie aufzuheben [11] ANC kann als Sonderfall von SH betrachtet werden und steht vor einer gleichermaßen strengen Anforderung [14], Einige Arbeiten konzentrierten sich auf Antischall in spezifischen Umgebungen wie Automobilinnenräume [56] oder betriebliche Szenarios [57]. Die Arbeit in [56] analysiert die Aufhebung verschiedener Arten von Geräuschen wie Straßenlärm und Motorengeräusche und erfordert einheitliche Systeme, die in der Lage sind, mit verschiedenen Arten von Geräuschen umzugehen. Einige Arbeiten konzentrierten sich auf das Entwickeln von ANC- Systemen zur Aufhebung von Geräuschen über spezifischen räumlichen Regionen. In [58] wird ANC übereiner räumlichen Region unter Verwendung von Kugelflächenfunktionen als Basisfunktionen zur Darstellung des Geräuschfelds thematisiert. Einige der Ausführungsformen setzen die hier beschriebenen Konzepte ein.
Manche der Ausführungsformen nutzen Konzepte zur Schallquellenverbesserung (engl.: Sound Source Enhancement).
Im Zusammenhang mit Sprachverbesserung ist eine der häufigsten Anwendungen die Sprachverbesserung, die durch Rauschen beeinträchtigt sind. Viele Arbeiten konzentrierten auf Phasenverarbeitung der Einkanalsprachverbesserung [8] Aus der Perspektive des Bereichs der tiefen neuronalen Netze wurde das Problem des Entrauschens von Sprachäußerungen in [59] mit entrauschenden Decodierern (engl.: denoising decoders) thematisiert, in [60] als ein nicht lineares Regressionsproblem zwischen sauberen und verrauschten Sprachäußerungen unter Verwendung eines tiefen neuronales Netzes (engl.: deep neural network, DNN) und in [61] als ein Ende-zu-Ende-System unter Verwendung erzeugender gegnerischer Netzwerke (engl.: Generative Adversarial Networks, GAN). In vielen Fällen wird die Sprachverbesserung als eine Vorstufe für Systeme zur automatischen Spracherkennung (engl.: automatic speech recognition, ASR) verwendet, wie es in [62] der Fall ist, wo Sprachverbesserung mit einem LSTM RNN angegangen wird. Sprachverbesserung wird oft zusammen mit Ansätzen der Schallquellentrennung ausgeführt, bei der der Grundgedanke darin besteht, zunächst die Sprachäußerung zu extrahieren, um anschließend Verbesserungstechniken auf das isolierte Sprachsignal anzuwenden [6], Die hier beschriebenen Konzepte werden von manchen der Ausführungsformen eingesetzt. Quellenverbesserung im Zusammenhang mit Musik bezieht sich meist auf Anwendungen zum Herstellen von Musikremixen. Im Gegensatz zu Sprachverbesserung, bei der die Annahme oft darin besteht, dass die Sprachäußerung nur durch Rauschquellen beeinträchtigt wird, nehmen Musikanwendungen meistens an, dass andere Schallquellen (Musikinstrumente) simultan mit der zu verbessernden Quelle spielen. Daher sind Musik- Remix-Anwendungen immer so bereitgestellt, dass ihnen eine Quellentrennungsanwendung vorausgeht. Beispielsweise wurden in [10] frühe Jazz- Aufnahmen geremixt, indem Techniken zur Trennung von Hauptinstrument und Begleitung sowie von harmonischen Instrumenten und Schlaginstrumenten angewandt wurden, um eine bessere Klangbalance in der Abmischung zu erzielen. Gleichermaßen untersuchte [63] die Verwendung verschiedener Algorithmen zur Singstimmentrennung, um die relative Lautstärke der Singstimme und der Begleitspur zu verändern, wodurch gezeigt wurde, dass eine Erhöhung von 6 dB durch Einfuhren geringfügiger, jedoch hörbarer Verzerrungen in die finale Abmischung möglich ist. In [64] untersuchen die Autoren Möglichkeiten, die Musikwahrnehmung für Benutzer von Cochlea-Implantaten zu verbessern, indem Techniken zur Schallquellentrennung angewandt werden, um neue Abmischungen zu erzielen. Die dort beschriebenen Konzepte werden von einigen der Ausführungsformen genutzt.
Eine der größten Herausforderungen bei Anwendungen für selektives Hören bezieht sich auf die strengen Anforderungen in Bezug auf die Verarbeitungszeit. Der komplette Verarbeitungsworkflow muss mit minimaler Verzögerung ausgeführt werden, um die Natürlichkeit und Qualitätswahrnehmung für den Benutzer zu erhalten. Die maximale akzeptable Latenz eines Systems hängt stark von der Anwendung und von der Komplexität der auditiven Szene ab. Zum Beispiel schlagen McPherson et ai. 10 ms als akzeptablen Latenzbezug für interaktive Musikschnittstellen vor [12]. Für Musikaufführungen über ein Netzwerk berichten die Autoren in [13], dass Verzögerungen in dem Bereich zwischen 20- 25 und 50-60 ms wahrnehmbar werden. Jedoch erfordern Antischall- Technologien/T echnologien der Aktiven Lärmkompensation (active noise cancellation, ANC) für bessere Leistung ultrageringe Latenzverarbeitung. Bei diesen Systemen ist der Umfang akzeptabler Latenz sowohl frequenz- als auch dämpfungsabhängig, kann jedoch für eine etwa 5-dB-Dämpfung von Frequenzen unter 200 Hz bis zu 1 ms gering sein [14], Eine abschließende Betrachtung hinsichtlich SH-Anwendungen bezieht sich auf die Qualitätswahrnehmung der modifizierten auditiven Szene. Ein erheblicher Arbeitsaufwand wurde bezüglich der Methodiken für eine zuverlässige Bewertung der Audioqualität bei In manchen Ausführungsformen werden Konzepte für Zählen und Lokalisation in [41], für Lokalisation und Erfassung in [27], für Trennung und Klassifikation in [65] und für Trennung ut\ , len in [66], wie dort beschrieben, eingesetzt.
Manche Ausführungsformen setzen Konzepte zur Verbesserung der Robustheit derzeitiger Verfahren für maschinelles Hören ein, wie in [25], [26], [32], [34] beschrieben, die neue aufstrebende Richtungen die Bereichsanpassung [67] und das Lernen auf der Basis von mit mehreren Geräten aufgenommenen Datensätzen umfassen [68].
Einige der Ausführungsformen setzen Konzepte zur Verbesserung der rechentechnischen Effizienz des maschinellen Hörens, wie in [48] beschrieben, ein, oder in [30], [45], [50], [61] beschriebene Konzepte, die in der Lage sind, mit unverarbeiteten Signalverläufen umzugehen.
Manche Ausführungsformen realisieren ein einheitliches Optimierungsschema, das kombiniert erfasst/klassifiziert/lokalisiert und trennt/verbessert, um Schallquellen in der Szene selektiv modifizieren zu können, wobei voneinander unabhängige Erfassungs-, Trennungs-, Lokalisations-, Klassifikations- und Verbesserungsverfahren zuverlässig sind und die für SH erforderliche Robustheit und Flexibilität bereitstellen.
Einige Ausführungsformen sind für Echtzeitverarbeitung geeignet, wobei eine gute Abwägung zwischen algorithmischer Komplexität und Leistung erfolgt.
Manche Ausführungsformen kombinieren ANC und m,·« Hören. Es wird beispielsv Ό zunächst die auditive Szene klassifiziei t und uann selektiv ANC angewendet.
Nachfolgend werden weitere Ausführungsformen bereitgestellt. Hörumgebung mit virtuellen Audioobjekten anzureichern die
1 m von jeder der Positionen der Audioobjekte zu jeder der I sn der
Zuhörer in einem Raum hinreichend genau 1
Die Transferfunktionen bilden die Eigenschaften der Soundquellen ab, sowie den Direktschall zwischen den Objekten und dem Nutzer, sowie aller Reflektionen, die in dem Raum auftreten. Um korrekte räumliche Audioreproduktionen für die Raumakustik eines realen Raums sicherzustellen, in dem sich der Zuhörer gegenwärtig befindet, müssen die Transferfunktionen zudem die raumakustischen Eigenschaften des Zuhörraums hinreichend genau abbilden.
In Audiosystemen, die für die Darstellung von individuellen Audioobjekten an unterschiedlichen Positionen in dem Raum geeignet sind, liegt, bei Vorhandensein einer großen Anzahl von Audioobjekten, die Herausforderung in der geeigneten Erkennung und Separierung der individuellen Audioobjekte. Des Weiteren überlappen die Audiosignale der Objekte in der Aufnahmeposition oder in der Hörposition des Raums. Sowohl die Raumakustiken als auch die Überlagerung der Audiosignale ändern sich, wenn sich die Objekte und/oder die Hörpositionen im Raum ändern.
Die Schätzung von Raumakustik-Parametern muss bei relativer Bewegung hinreichend schnell erfolgen. Dabei ist eine geringe Latenz der Schätzung wichtiger als eine hohe Genauigkeit. Ändern sich Position von Quelle und Empfänger nicht (statischer Fall) ist dagegen eine hohe Genauigkeit nötig. Im vorgeschlagenen System werden Raumakustik- Parameter, sowie die Raumgeometrie und die Hörerposition aus einem Strom von Audiosignalen geschätzt bzw. extrahiert. Dabei werden die Audiosignale in einer realen Umgebung aufgenommen, in der die Quelle(n) und der/die Empfänger sich in beliebige Richtungen bewegen können, und in der die Quelle(n) und/oder der/die Empfänger ihre Orientierung auf beliebige Weise ändern können.
Der An. i. iioinialstioim kann das Ergebnis eines beliebigen Mikrofon Setups snim 'fern ein oder r,n> hl· na Mikrofone umfasst. Die Ströme werden in eine Sion I ^i arbeifi *i ·. - u o m
Vorvei *rh itung und/oder weiteren Analyse eing speist. Danach ein; die Au&guLu in uiia. Meirkri fe ' traktionsstufe eingespeist. Diese Stufe schätzt die RauimakustilfeParaimeteu z.B. T60 (Nachhallzeit), ORR (Direkt-zu-Nachhall Verhältnis) und andere. Ein zweiter Datenstrom wird von einem 6DoF („ s of freedom“ - Freiheitsgrade: je drei Dimensionen für Position im Raum un itung) Sensor erzeugt» der die
Orientierung und Position des Mikrofon-Setups aufzeichnet. Der Positions-Datenstrom wird in eiitw oDoF Signalverarbeitungsstufe zur Vorverarbeitung oder weiteren Aΐi,Ί'n eingespeist.
Die Ausgabe der 6DoF Signalverarbeitung, der Audio-Merkmalsextraktionsstufe und der vorverarbeiteten Mikrofonströme wird in einen Maschinen-Lern-Block eingespeist, indem der Hörraum (Größe, Geometrie, reflektierende Oberflächen) und die Position des Mikrofonfeldes in dem Raum geschätzt werden. Zusätzlich wird ein Nutzer-Verhaltens- Modell angewandt, um eine robustere Schätzung zu ermöglichen. Dieses Modell berücksichtigt Einschränkungen der menschlichen Bewegungen (z.B. kontinuierliche Bewegung, Geschwindigkeit, u.a.), sowie die Wahrscheinlichkeitsverteilung von unterschiedlichen Arten von Bewegungen.
Manche der Ausführungsformen realisieren eine blinde Schätzung von Raumakustik- Parametern durch Verwendung beliebiger Mikrofonanordnungen und durch Hinzufügen von Positions- und Posen-Information des Nutzers, sowie durch Analyse der Daten mit Verfahren des maschinellen Lernens.
Systeme gemäß Ausführungsformen können beispielsweise für akustische angereicherte Realität (AAR) verwendet werden. Dort muss eine virtuelle Raumimpulsantwort aus den geschätzten Parametern synthetisiert werden.
Manche Ausführungsformen beinhalten die Entfernung des Nachhalls aus den aufgenommenen Signalen. Eieispiele für solch, msführungsformen sind Hörhilfen für Normal- und Schwerhörige. Dabei kann dem Einaangssignal des Mikrofon-Setups der Nachhall durch die Hilfe der geschätzten Paranr Un entfernt *- < iiA'im.
Eine weitere Anwendung Ir in der räumlichen Synthese von Audioszenen, die in einem anderen Raum als dem aktuellen Hörraum erzeugt wurden. Zu diesem Zweck erfolgt eine Anpassung der raumakustischen Parametern, welche Bestandteil in der Audioszenen sind, an die raumakustischen Parameter des Hörraums. ln den Fällen einer binauralen Synthese werden hierzu die verfügbaren IBRIIRs an die raumakustischen Parameter des Hörraums angepasst. Die Vorrichtung ist ausgebildet. Mikrofon-Daten zu erhalten, die ein oder mehrere Mikrofonsignale umfassen.
Ferner ist die Vorrichtung ausgebildet, Nachverfolgungsdaten betreffend eine Position und/oder eine Orientierung eines Nutzers zu erhalten.
Darüber hinaus ist die Vorrichtung ausgebildet, die ein oder mehreren Raumakustik- Parameter abhängig von den Mikrofon-Daten und abhängig von den Nachverfolgungsdaten zu bestimmen.
Gemäß einer Ausführungsform kann die Vorrichtung z.B. ausgebildet sein, maschinelles Lernen einzusetzen, um abhängig von den Mikrofon-Daten und abhängig von den Nachverfolgungsdaten die ein oder mehreren Raumakustik-Parameter zu bestimmen.
In einer Ausführungsform kann die Vorrichtung z.B. ausgebildet sein, maschinelles Lernen dadurch einzusetzen, dass die Vorrichtung ausgebildet sein kann, ein neuronales Netz einzusetzen.
Gemäß einer Ausführungsform kann die Vorrichtung z.B. ausgebildet sein, zum maschinellen Lernen, Cloud-basierte Verarbeitung einzusetzen.
In einer Ausführungsform können die ein oder mehreren S „mmakustik-Parameterz.B. eine Nachhallzeit umfassen.
Gemäß einer Ausführungsform können die ein oder mehreren Raumakustik-Parameter z.B. ein Direkt-zu-Nachhall Verhältnis umfassen.
In einer Ausführungsform können die Nachverfolgungsdaten, um die Position des Nutzers zu bezeichnen, z.B. eine x-Koordinate, eine y-Koordinate und eine z-Koordinate umfassen.
Gemäß einer Ausführungsform können die Nach erfolgungsdaten, um die Orientierung des Nutzers zu bezeichnen, z.B eine Pitch-Koordinate, eine Yaw-Koordinate und eine Roll- Koordinate umfassen. In einer Ausfühinungstorm kann die Vorrichtung z.B. ausgebildet sein, die ein oder mehreren Mikrofonsignale aus einer Zeitdomäne in eine Frequenzdomäne zu transformieren, wobei die Vorrichtung z.B. ausgebildet sein kann, ein oder mehi\ u I lerkmale der ein oder mehreren Mikrofonsignale in der Frequenzdomäne zu extrahieren, und wobei die Vorrichtung z.B ausgebilcW rein kann, die ein oder mehreren Raumakustik-Rat i i wr abhängig von den ein odet I « I> liieren Merkmalen zu bestimmen.
Gemäß einer Ausführungsform kann die Vorrichtung z.B. ausgebildet sein, zum Extrahieren der ein oder mehreren Merkmale Cloud-basierte Verarbeitung einzusetzen.
In einer Ausführungsform kann die Vorrichtung z.B. eine Mikrofortanordnung von mehreren Mikrofonen umfassen, um die mehreren Mikrofonsignale aufzunehmen.
Gemäß einer Ausführungsform kann die Mikrofonanordnung z.B. ausgebildet sein, von einem Nutzer am Körper getragen zu werden.
In einer Ausführungsform kann das oben beschriebene System des Weiteren z.B. eine oben beschriebene Vorrichtung zur Bestimmung von ein oder mehreren Raumakustik- Parametern umfassen.
Gemäß einer Ausführungsform kann der Signalanteil-Modifizierer 140 z.B. ausgebildet sein, die Veränderung des Audioquellen-Signalanteiis der wenigstens einen Audioquelle der ein oder mehreren Audioquellen abhängig von wenigstens einem der ein oder mehreren Raumakustik-Parametern durchzuführen; und/oder der Signalgenerator 150 kann z.B. ausgebildet sein, die Erzeugung von wenigstens einer der Mehrzahl von binauralen Raumimpulsantworten für jede Audioquelle der ein oder mehreren Audioquellen abhängig von der wenigstens einem der ein oder mehreren Raumakustik-Parametern durchzuführen.
Fig. 7 zeigt ein System gemäß einer Ausführungsform, das fünf Sub-Systeme (Sub-System 1 - 5) umfasst.
Sub-System 1 umfasst ein Mikrofon-Setup von einem, zwei oder mehreren einzelnen Mikrofonen, die zu einem Mikrofonfeld kombiniert werden können, falls mehr als ein Mikrofon verfügbar ist Die Positionierung und die relative Anordnung des Mikrofons/der Mikrofone zueinander können beliebig sein. Die Mikrofonanordnung kann Teil eines Geräts sein, das von dem Benutzer getragen wird, oder kann ein separates Gerät sein, das in dem interessierenden Raum positioniert wird
Des Weiteren umfasst Sub-System 1 ein Nachverfolgungs-Gerät, um die translatorischen Positionen des Nutzers und der Kopf-Pose des Nutzers in dem Raum zu messen. Bis zu 6- DOF (x-Koordinate, y-Koordinate, z-Koordinate, Pitch-Winkel, Yaw-Winkel, Roll-Winkel) können gemessen werden. Das Nachverfolgungs-Gerät kann an dem Kopf eines Benutzers positioniert werden, oder es kann in verschiedene Unter-Geräte aufgeteilt werden, um die benötigten DOFs zu messen, und es kann an dem Benutzer oder nicht am Benutzer platziert werden.
Sub-System 1 stellt also eine Eingangsschnittstelle dar, die eine Mikrofonsignal- Eingangsschnittstelle 101 und eine Positionsinformations-Eingangsschnittstelle 102 umfasst.
Sub-System 2 umfasst Signalverarbeitung für das aufgenommene Mikrofonsignal/die aufgenommenen Mikrofonsignale. Dies umfasst Frequenztransformationen und/oder Zeit- Domänen-basierte Verarbeitung. Des Weiteren umfasst dies Verfahren zum Kombinieren verschiedener Mikrofonsignale, um Feldverarbeitung zu realisieren. Ein Zurückführen von dem Subsystem 4 ist möglich, um Parameter der Signalverarbeitung im Subsystem 2 anzupassen. Der Signalverarbeitungsblock des Mikrofonsignals/der Mikrofonsignale kann Teil des Geräts sein, in dem das Mikrofon/die Mikrofone eingebaut sind, oder er kann Teil eines getrennten Geräts sein. Er kann auch Teil einer Cloud-basierten Verarbeitung sein.
Des Weiteren umfasst Sub-System 2 Signalverarbeitung für die aufgezeichneten Nachverfolgungs-Daten. Dies umfasst Frequenztransformationen und/oder Zeit-Domänen- basiertes Verarbeiten. Des Weiteren umfasst sie Verfahren, um die technische Qualität der Signale zu verbessern, indem Rauschunterdrückung, G, düng, Interpolation und Extrapolation eingesetzt werden. Sie umfasst zudem Verfahren, um Informationen höherer Ebenen abzuleiten. Dies umfasst Geschwindigkeiten, Beschleunigungen, Weg-Richtungen, Ruhezeiten, Bewegungs-Bereiche, Bewegungspfade. Des Weiteren umfasst dies die Vorhersage eines Bewegungspfads der nahen Zukunft und einer Geschwindigkeit der nahen Zukunft. Der Signalverarbeitungs-Block der Nachverfolgungs-Signale kann Teil des Nachverfolgungs-Geräts sein, oder er kann Teil eines separaten Geräts sein. Er kann auch Teil einer Cioud-basierten Verarbeitung sein. n ins/der
Der kV Ί ma!sextraktions-B!ock kann Teil des tragbaren Geräts des Nutzers sein» oder er kann I t.» eines separaten Geräts sein. Er kann auch Teil einer Cloud-basierten Verarbeitung sein.
Sub-Systeme 2 und 3 realisieren mit ihren Modulen 111 und 121 zusammen beispielsweise den Detektor 110, den Audiotyp-Klassifikator 130 und den Signalanteil-Modifizierer 140. Beispielsweise kann Sub-System 3, Modul 121 das Ergebnis einer Audiotyp-Klassifikation an Sub-System 2, Modul 111 übergeben (zurückkoppeln). Sub-System 2, Modul 112 realisiert beispielsweise einen Positionsbestimmer 120. Ferner können einer Ausführungsform die Sub-Systeme 2 und 3 auch den Signalgenerator 150 realisieren, indem z.B. Sub-System 2» Modul 111 die binauralen Raumimpulsantworten erzeugt und die Lautsprechersignale generiert.
Sub-System 4 umfasst Verfahren und Algorithmen, um raumakustische Parameter unter Verwendung des verarbeiteten Mikrofonsignals/der verarbeiteten Mikrofonsignale, der extrahierten Merkmale des Mikrofonsignals/der Mikrofonsignale und die verarbeiteten Nachverfolgungs-Daten zu schätzen. Die Ausgabe dieses Blocks sind die raumakustischen Parameter als Ruhedaten und eine Steuerung und Änderung der Parameter der Mikrofon- Signalverarbeitung im Subsystem 2. Der Maschinen-Lern-Block 131 kann Teil des Geräts des Nutzers sein oder er kann Teil eines separaten Geräts sein. Er kann auch Teil einer Cloud-basierten Verarbeitung sein.
Des Weiteren umfasst Sub-System 4 eine Nachverarbeitung der raumakustischen Ruhedaten-Parameter (z.B. in Block 132). Dies umfasst eine Detektion von Ausreißern, eine Kombination von einzelnen Parametern zu einem neuen Parameter, Glätung, Extrapolation» j. u n und Plausibilitätsprüfung. Dieser Block bekommt auch Informationen v< >, ' ,> s s terri 2. Dies umfasst Positionen der nahen Zukunft des Nutzers in dem Raum, um akustische Parameter der nahen Zukunft m' schätzen. Dieser Block kann Teil des Geräts des Nutzers sein oder er kann Teil eines pumten Geräts sein. Er kann auch Teil einer Cloud-basierten Verarbeitung sein.
Sub-System 5 umfasst die Speicherung un ' * * > n der raumakustischen Paramelm ür
Downstream-Systeme (z.B. in Speicher 141). uie Aiiokation der Parameter kann just-in- ti ' I r 'feiert werden, und/oder d < ' w /erlauf kam i ... e Ί> I L n n ' i den. Die Speicherung kann in denn Gerät, da« «irh »m l'imm r oder nah». dein Nu iui befindet, vorgenommen werden, oder in ein« m ANwl I MH ih n System vorgenommen werden.
Im I i Anwendiingsfällle für Ausführungsbeispiele der Erfindung
Ein Anwendungsfall eines Ausführungsbeispiels ist Home Entertainment und betrifft Nutzer in heimischer Umgebung.
Beispielsweise möchte sich ein Benutzer auf bestimmte Wiedergabegräte wie zum Beispiel TV, Radio, PC, Tablet konzentrieren und andere Störquellen (von Geräten anderer Nutzer oder Kindern, Baulärm, Straßenlärm) ausblenden. Der Benutzer befindet sich dabei in der Nähe des bevorzugten Wiedergabegeräts und wählt das Gerät bzw. dessen Position aus. Unabhängig von der Position des Benutzers wir das ausgewählte Gerät bzw. die Schallquellenpositionen akustisch hervorgehoben bis der Nutzer seine Auswahl aufhebt.
Z. B. begibt sich der Nutzer begibt sich in Nähe der Zielschaiiquelie. Der Nutzer wählt über ein geeigntes Interface Zielschallquelle aus, und das Hearable passt auf Basis der Nutzerposition, Nutzerblickrichtung sowie der Zielschalquelle die Audiowiedergabe entsprechend an, um die Zielschallquelle auch bei Störgeräuschen gut verstehen zu können.
Alternativ begibt sich der Nutzer in die Nähe einer besonders störenden Schallquelle. Der Nutzer wählt über ein geeigntes Interface diese Störschallquelle aus, und das Hearable (Hörgerät) passt auf Basis der Nutzerposition, Nutzerblickrichtung sowie der Störschallquelle die Audiowiedergabe entsprechend an, um die Störschallquelle explizit auszublencien.
Ein weiterer HI eines weiteren Austul ip,ii igv.b« arty, bei der sich ein n mehreren Sprechern In· he !
E_ lo™ beispielsweise bei Anwesenlusi Irr frechen auf ein> i n ’ar sowie andere Störquellen : H i bzw. dämpfen. Die
Steuer! <ng d Jarf in diesem Andwendungsfall ■ np' aktive Interaktion vom
Nutzer d wäre an, > ' u- rung > >' der Selektivität anhand von oder { in Indil·- i für K ionsschwierigkeiten (Häufige
Fremd! starke L 0
Beispielsweise sind die Sprecher zufällig verteilt und bewegen sich relativ zum Hörer. Außerdem gibt es regelmäßige Spreche en, neue Sprecher kommen hinzu, andere Sprecher entfernen sich. Störgeräusche wi H - 1 Musik sind unter Umständen vergleichsweise laut. Der ausgewählte Sprecher VVÜU akustisch hervorgehoben und auch nach Sprechpausen, Änderung seiner Position < der Pose wieder erkannt.
Z.B. erkennt ein Hearable einen Sprecher im Umfeld des Nutzer. Der Benutzer kann durch eine geeignete Steuerrungsmöglichkeit (z.B. Blickrichtung, Aufmerksamkeitssteuerung) bevorzugte Sprecher auswählen. Das Hearable passt entsprechend der Nutzerblickrichtung sowie der gewählten Zielschalquelle die Audiowiedergabe an, um die Zielschallquelle auch bei Störgeräuschen gut verstehen zu können.
Alternativ wird der Nutzer von einem (bisher) nicht bevorzugten Sprecher direkt angesprochen muss dieser zumindest hörbar sein um eine natürliche Kommunikation zu gewährleisten.
Ein anderer Anwendungsfall eines anderen Ausführungsbeispiels ist im Automobil, bei dem sich ein Nutzer in seinem (oder in einem) KFZ befindet. Der Benutzer möchte während der Fahrt seine akustische Aufmerksamkeit aktiv auf bestimmte Wiedergabegeräte wie zum Beispiel Navigationsgeräte, Radio oder Gesprächspartner richten um diese neben den Störgeräuschen (Wind, Motor, Mitfahrer) besser verstehen zu können.
Beispielsweise befinden sich der Benutzer und die Zielschallquellen auf festen Positionen innerhalb des KFZs. Der Nutzer ist zum Bezugssystem zwar statisch, aber das KFZ selber bewegt sich. Ein angepasste Tracking Lösung ist daher notwendig. Die ausgewählte Schallquellenpositionen wird akustisch hervorgehoben bis der Nutzer seine Auswahl aufhebt oder bis Warnsignale die Funktion des Geräts aussetzen.
Z.B. begibt ein Nutzer sich ins KFZ und Umgebung wird von Gerät erkannt. Der Benutzer kann durch eine geeignete Steuerrungsmöglichkeit (z.B. Spracherkennung) zwischen den Zielschallquellen wechseln, und das Hearable passt entsprechend der Nutzerblickrichtung sowie der gewählten Zielschalquelle die Audiowiedergabe an, um die Zielschallquelle auch bei Störgeräuschen gut verstehen zu können. Alternativ unterbrechen z.B. verkehrsrelevante Warnsignale den normalen Ablauf und heben Am u ,U d s Nutzers auf. Dann WH " in Neustart des normalen Ablaufs durchgeführt.
Ein anderer Anwendungsfall eines weiteren Ausführungsbeispiels ist Live-Musik und betrifft einen Besucher einer Live-Musik Veranstaltung. Beispielsweise möchte der Besucher eines Konzerts oder Live-Musikdarbietungen mit Hilfe des Hearables den Fokus auf die Darbietung erhöhen und störende Mithörer auszublenden. Zusätzlich kann das Audiosignal selber optimiert werden um Beispielsweise eine ungünstige Hörposition oder Raumaakustik auszugleichen.
Z.B. befindet sich der Besucher zwischen vielen Störquellen, aber die Darbietungen sind meist verhältnismäßig laut. Die Zielschallquellen befinden sich auf festen Positionen oder zumindest in einem definiertem Bereich, jedoch kann der Benutzer sehr mobil sein (z.B. Tanz). Die ausgewählte Schallquellenpositionen wird akustisch hervorgehoben bis der Nutzer seine Auswahl aufhebt oder bis Warnsignale die Funktion des Geräts aussetzen.
Beispielsweise wählt der Benutzer den Bühnenbereich oder den/die Musiker als Zielschallquelle(n) aus Benutzer kann durch eine geeignete Steuerrungsmöglichkeit die Position der Bühne/der Musiker definieren, und das Hearable passt entsprechend der Nutzerblickrichtung sowie der gewählten Zielschalquelle die Audiowiedergabe an, um die Zielschallquelle auch bei Störgeräuschen gut verstehen zu können.
Alternativ können z.B, Warninformationen (z.B. Evakuierung, Drohendes Gewitter bei Freiiuftveranstaltungen) und Warnsignale den normalen Ablauf unterbrechen und heben Auswahl des Nutzers auf. Danach kommt es zum Neustart des normalen Ablaufs.
Ein weiterer Anwendungsfall eines anderen Ausführungsbeispiels ist sind Großveranstaltungen und betreffen Besucher bei Großveranstaltungen. So kann bei Großveranstaltungen (z.B. Fußball-, Eishockeystadion, große Konzerthalle etc.) ein
Hearable genutzt werden, um die Stimme von Familienangehörigen und Freunden hervorzuheben, die andernfalls im Lärm der M nrwhenmassen untergehen würden.
Beispiels^ >i · findet eine Großveranstaltung in einem Stadion oder einer großen Konzerthalle statt, wo sehr viele Besucher hingehen. Eine Gruppe (Familie, Freunde, Scr. K ;use) besucht die Veranstaltung und befindet sich vor oder im Veranstaltungsgelände, wo eine große Menschenmasse an Besuchern herumläuft. Ein oder mehrere Kinder verlieren den Blickkontakt zur Gruppe und rufen trotz großem Lärmpegel durch die Umgebungsgeräusche nach der Gruppe. Dann w Mer Benutzer die Stimmenerkennung ab, das und Hearable verstärkt die Stimme(n) nicht mehr.
Z.B. wählt eine Person aus der Gruppe am Hearable die Stimme des vermissten Kindes aus. Das Hearable lokalisiert die Stimme. Dann verstärkt das Hearable die Stimme, und der Benutzer kann das vermisste anhand der verstärkten Stimme (schneller) wiederfinden.
Alternative trägt das vermisste Kind z.B. auch ein Hearable und wählt die Stimme seiner Eltern aus. Das Hearable verstärkt die Stimme(n) der Eltern. Durch die Verstärkung kann das Kind dann seine Eltern lokalisieren. So kann das Kind zurück zu seinen Eltern laufen. Oder, alternativ trägt das vermisste Kind z.B. auch ein Hearable und wählt die Stimme seiner Eltern aus. Das Hearable lokalisiert die Stimme(n) der Eltern, und das Hearable sagt die Entfernung zu den Stimmen durch. Das Kind kann seine Eltern so leichter wiederfinden. Optional ist eine Wiedergabe einer künstlichen Stimme aus dem Hearable für die Entfernungsdurchsage vorgesehen.
Beispielsweise ist eine Kopplung der Hearables für eine zielgerichtete Verstärkung der Stimme(n) vorgesehen und Stimmenprofile sind eingespeichert.
Ein weiterer Anwendungsfall eines weiteren Ausführungsbeispiels ist Freizeitsport und betrifft Freizeitsportler. So ist das Hören von Musik während dem Sport beliebt, aber birgt auch Gefahren. Warnsignale oder andere Verkehrsteilnehmer werden eventuell nicht gehört. Das Hearable kann neben der Musikwiedergabe, auf Warnsignale oder Zurufe reagieren und die Musikwiedergabe zeitweise unterbrechen. Ein weiterer Anwendungsfall in diesem Kontext ist der Sport in Kleingruppen. [ s arables der Sportgruppe können verbunden werden um während des Sports eine gute Kommunikation untereinander zu gewährleisten während andere Störgeräusche unterdrückt werden.
Beispielsweise ist der Benutzer mobil und eventuelle Warnsignale sind über lagert von zahlreichreichen Störquellen. Problematisch ist, dass eventuell nicht alle Warnsignale den Benutzer betreffen |Weit entfernte Sirenen in der Stadt, Hupen auf der Straße) So setzt das Hearable die Musikwiederga v Momatisch aus und hebt das Warnsignal oder den Kommunikationspartner akustisch hervor bis der Nutzer seine Auswahl aufhebt. An , d wird die Musik normal weiter abgespielt. Z B betreibt ein Nutzer Sport und hört Musik über Hearabie, Den Nutzer betreffende Warnsignale oder Zurufe werden automatisch erkannt und das Hearabie unterbricht die Musikwiedergabe, Dabei passt das Hearabie die Audiowiedergabe an, um die Zielscbaiiquelietclie akustische Umgebung gut verstehen zu können. Dann fähn { s
Hearabie auto W M (z.B. nach Ende des Warnsignal » < : r nach Wunsch des Nutzer mit der Musikwiede soU ‘' fort.
Alternativ können Sportler einer Gruppe beispielsweise ihre Hearables verbinden. Die Spracheverständlichkeit zwischen den Gruppenmitgliedern wird optimiert und gleichzeitig werden andere Störgeräusche unterdrückt.
Ein anderer Anwendungsfall eines anderen Ausführungsbeispiels ist Schnarchunterdrückung und betrifft alle vom Schnarchen gestörte Schlafsuchende. Personen, deren Partner beispielsweise schnarchen, werden in ihrer nächtlichen Ruhe gestört und haben Probleme beim Schlafen. Das Hearabie verschafft Abhilfe, indem es die Schnarchgeräusche unterdrückt und so die nächtliche Ruhe sichert und für häuslichen Frieden sorgt. Gleichzeitig lässt das Hearabie andere Geräusche (Babygeschrei, Alarmsirene etc.) durch, damit der Benutzer akustisch nicht völlig von der Außenwelt abgeschottet ist. Eine Schnarcherkennung ist z.B. vorgesehen.
Beispielsweise hat der Benutzer hat Schlafprobleme durch Schnarchgeräusche. Durch Nutzung des Hearables kann der Benutzer dann wieder besser schlafen, was stressmindernd wirkt. rt U ü wjt der Benutzer trägt das Hearabie während des Schlafens. Er schaltet das Hearabie auf Schiafmodus, der alle Schnarchgeräusche unterdrückt. Nach dem Schlafen schaltet er das Hearabie v i r aus.
Alternativ lassen sich andere Geräusche wie Baulärm, Rasenmäherlärm o.ä. während des Schlafens unterdrücken.
Ein r '-er wn Jungsfaii w. ^ w ,en Aoshmrungsbeispiels ist ein Diagnosegrät für Nutzer im Alltag. Das Hearabie zeichnet die Präferenzen (z.B.: welche Schallquellen, welche Verstärkung/Dämpfung werden gewählt) auf und erstellt U · die Nutzungsdauer ßeispielswei u G\jt der Benutzer das Gerät im Alltag bzw. bei den genannten Use-Cases über mehrere Monat oder Jahre, Das Hearable erstellt Analysen auf Basis der gewählten Einstellung und mbi Ahnungen und Empfehlungen an den Mutzer.
Z.B. trägt der Nutzer das Hearable über einen langen Zeitraum (Monate bis Jahre). Das Gerät erstellt selbständlich Analysen auf Basis der Hörpräferenzen, und das Gerät gibt Empfehlung und Warnungen bei einsetzendem Hörverlust.
Ein weiterer Anwendungsfall eines anderen Ausführungsbeispiels ist ein Therapiegerät und betrifft Nutzer mit Hörschaden im Alltag. In der Rolle als Übergangsgerät zum Hörgerät werden potentielle Patienten frühzeitig versorgt und somit Demenz präventiv behandelt. Andere Möglichkeiten sind Einsatz als Konzentrationstrainer (z.B. Für ADHS), Behandlung von Tinnitus und Stressminderung.
Beispielsweise hat der Benutzer Hör-, oder Aufmerksamkeitsprobleme und nutzt das Hearable zeitweise/übergangsweise als Hörgerät. Je nach Hörproblem wird dieses durch das Hearable gemindert beispielsweise durch: Verstärkung aller Signale (Schwerhörigkeit), Hohe Selektivität für bevorzugte Schallquellen (Aufmerksamkeitsdefizite), Wiedergabe von Thereapiegeräuschen (Tinitusbehandlung).
Nutzer wählt selbständig, oder auf Rat eines Arztes, eine Therapieform aus und trifft die bevorzugten Einstellungen, und das Hearable führt die gewählte Therapie aus.
Alternativ erkennt das Hearable erkennt Hörprobleme aus UC-PR01, und das Hearable passt Wiedergabe auf Basis der erkannten Probleme automatisch an und informiert den Nutzer,
Ein weiterer Anwendungsfall eines weitere^ Au ,G'rungsbei pmr Arbeit im öffentlichen Bereich und betrifft Arbeitnehmer im AV AM Isen Bereich ;\ru n> firner im öffentlichen Bereich (Krankenhäuser, Kinderärzte. Flughafenschalter, Erzieher. Gastronomie, Serviceschalter etc.ff die während der Arbeit ein* n S'. nen Lärmpegel ausgesetzt sind, tragen ein i k wniA um die Sprache einer oder nur weniger Personen zur besseren und z.B.
Beispielsweise sind Arbeitnehmer in ihrem Arbeitsumfeld einem hohen Lärmpegel ausgesetzt und müssen sich trotz des Hintergrundlärms mit Kunden, Patienten oder Arbeitskollegen unterhalten ohne, dass sie in ruhigere Umgebungen ausweichen können. Krankenhauspersonal ist einem hohen Lärmpegel durch Geräusche und dem Piepen medizinischer Geräte (oder anderem Arbeitslärm) ausgesetzt und muss sich trotzdem mit Patienten oder Kollegen verständigen können. Kinderärzte sowie Erzieher arbeiten inmitten von Kinderlärm ggf. -geschrei und müssen mit den Eltern reden können. Am Flughafenschalter hat das Personal Schwierigkeiten die Fluggäste bei einem hohen Lärmpegel in der Flughafenhalle zu verstehen. In der Gastronomie haben es die Keller schwer im Lärmpegel bei gut besuchten Gaststätten die Bestellwünsche ihrer Gäste zu hören. Dann stellt der Benutzer z.B. die Stimmenselektion ab, und das Hearable verstärkt die Stimme(n) nicht mehr.
Z.B. schaltet eine Person das aufgesetzte Hearable ein. Der Benutzer stellt das Hearable auf Stimmenselektion nahgelegener Stimmen ein, und das Hearable verstärkt die nächstgelegene Stimme bzw. wenige Stimmen im näheren Umfeld und unterdrückt gleichzeitig Hintergrundgeräusche. Der Benutzer versteht die relevante/n Stimme/n besser.
Alternativ stellt eine Person das Hearable auf Dauergeräuschunterdrückung. Der Benutzer schaltet die Funktion ein, auftretende Stimmen zu erkennen und dann zu verstärken. So kann der Benutzer bei geringerem Lärmpegel Weiterarbeiten. Bei direkter Ansprache aus einem Umkreis von x Metern verstärkt das Hearable dann die Stimme/n. Der Benutzer kann sich so bei geringem Lärmpegel mit der anderen Person/den anderen Personen unterhalten. Nach der Unterhaltung schaltet das Hearable zurück in den alleinigen Lärmminderungsmodus, und nach der Arbeit schaltet der Benutzer das Hearable wieder aus.
Ein anderer Anwendungsfall eines anderen Ausführungsbeispiels ist Personentransport und betrifft Nutzer in einem KFZ zum Personentransport. Beispielsweise möchte ein Benutzer und Fahrer eines Personentransporters während der Fahrt möglichst wenig durch die beförderten Personen abgelenkt werden. Die Mitfahrer sind zwar die Hauptstörquelle, aber es ist zeitweise auch eine Kommunkation mit Ihnen notwendig. Beispielsweise unterdrückt das Hearable standardmäßig Störgeräusche der Insassen. Der Benutzer kann durch eine geeignete Steuerrungsmöglichkeit (z.B. Spracherkennung, Taste im KFZ) die Unterdrückung manuell aufheben. Dabei passt das Hearable die Audiowiedergabe entsprechend der Auswahl an.
Alternativ erkennt das Hearable, dass ein Mitfahrer den Fahrer aktiv anspricht und deaktiviert die Geräuschunterdrückung zeitweise.
Ein anderer Anwendungsfall eines weiteren Ausführungsbeispiels ist Schule und Ausbildung und betrifft Lehrer und Schüler im Unterricht. In einem Beispiel hat das Hearable zwei Rollen wobei die Funktionen der Geräte teilweise gekoppelt sind. Das Gerät des Lehrers/Vortagenden unterdrückt Störgeräusche und verstärkt Sprache/Fragen aus den Reihen der Schüler. Weiterhin kann über das Lehrergerät die Hearables der Zuhörer gesteuert werden. So können besonders wichtige Inhalte hervorgehoben werden ohne lauter sprechen zu müssen. Die Schüler können ihr Hearable einstellen um die Lehrer besser verstehen zu können und störende Mitschüler auszublenden.
Beispielsweise befinden Lehrer und Schüler sich in definierten Bereichen in geschlossenen Räumen (dies ist der Regelfall). Sind alle Geräte miteinander gekoppelt, dann sind die relativen Positionen austauschbar was wiederum die Quellentrennung vereinfacht. Die ausgewählte Schallquelle wird akustisch hervorgehoben bis der Nutzer (Lehrer/Schüler) seine Auswahl aufhebt oder bis Warnsignale die Funktion des Geräts aussetzen.
D , n " ’itiert eA ' > ! > Ί < > . M \ i w · ■ " » ' - ' " m »> > N
A ■ ,i! - he. De A * > > , ' > * ; ' w;. » <t , ** A< » , }
' ' \ auf den > "w>' * > ' >'* ' > >' f . \ 1 r L h ^ ^ „ '
A ' " ix Kommt u ' , > v i , i , » < , ' . i > , u , ' t '
" sein, w , '' > ·· ' u * 1 ' 1 t' ' m · N i. Alternativ könne n I Ihrer- und Schülergerät z.B. gekoppelt sein. Durch das Lehrergerät kann die Selektivität der Schülergerät« zeitweise gesteuert werden. Bei besonders wichtigen Inhalten ändert der Lehrer di' ;·< Dktiviiät der Schülergeräte um seine Stimme zu verstärken.
Ein weiterer Anwendungsfall eines anderen Ausführungsbeispiels ist das Militär und betrifft Soldaten. Die verbale Kommunikation zwischen Soldaten im Einsatz erfolgt zum Einen über Funkgeräte und zum Anderen über Zurufe und direktes Ansprechen. Funk wird meistens verwendet, wenn größere Distanzen überbrückt werden müssen und wenn zwischen verschieden Einheiten und Teilgruppen kommuniziert werden soll. Es kommt oft eine festgelegte Funk-Etiquette zur Anwendung. Zurufe und direktes Ansprechen erfolgt meistens zur Kommunikation innerhalb eines Trupps oder Gruppe.Während des Einsatzes von Soldaten kann es zu erschwerten akustischen Bedingungen kommen (bspw. schreiende Menschen, Waffenlärm, Unwetter), welche beide Kommunikationswege beeinträchtigen können. Zur Ausrüstung eines Soldaten gehört oft eine Funkgarnitur mit Ohrhörer. Diese erfüllen neben dem Zweck der Audiowiedergabe auch Schutzfunktionen vor zu hohen Schalldruckpegeln. Diese Geräte sind oft mit Mikrofonen ausgestattet, um Umweltsignale an die Ohren des Trägers zu bringen. Eine aktive Geräuschunterdrückung ist ebenfalls Bestandteil derartiger Systeme. Eine Erweiterung des Funktionsumfanges ermöglicht ein Zurufen und direktes Ansprechen von Soldaten in einer geräuschbehafteten Umgebung durch intelligente Dämpfung der Störgeräusche und eine selektive Hervorhebung von Sprache mit einer richtungsgetreuen Wiedergabe, Hierzu müssen die relativen Positionen der Soldaten im Raum/Gelände bekannt sein. Weiterhin müssen Sprachsignale und Störgeräusche räumlich und inhaltlich voneinander getrennt werden. Das System muss auch mit hohen SNR-Pegeln von leisem Flüstern bis hin zu Schreien und Explosionsgeräuschen zurechtkommen. Die Vorteile eines derartiges Systems sind: verbale Kommunikation zwischen Soldaten in störgeräuschbehafteter Umgebung, Beibehaltung eines Gehörschutzes, Verzichtbarkeit auf Funk-Etiquette, Abhörsicherheit (da keine Funklösung).
Beispielsweise kann das Zurufen und direkte Ansprechen zwischen Soldaten iin I Umsatz durch Störgeräusche erschwert werden. Diese Problematik wird aktuell durch Funklösungen im Nahbereich und für größere Distanzen adressiert. Das neu-; : vrtetn ermöglicht das Zurufen und direkte Ansprechen im Nahbereich durch eine intelligent und mpfung der
Z.B. befindet sich der Soldat im Einsatz. Zurufe und Sprache wird automatisch erkannt und das System verstärkt diese bei gleichzeitiger Dämpfung der Nebengeräusche, Das SVC-'OM passt die räumliche Audiowiedergabe an, um die Zielschallquelle gut verstehen zu kt n m n
Alternativ können dem System z.B. die sich in einer Gruppe befindlichen Soldaten bekannt sein. Nur Audiosignals von diesen Gruppenmitgliedern werden durchgelassen.
Ein weiterer Anwendungsfall eines weiteren Ausführungsbeispiels betrifft Sicherheitspersonal und Sicherheitsbeamte. So kann z.B. das Hearable bei unübersichtlichen Großveranstaltungen (Feiern, Proteste) zur präventiven Verbrechungserkennung eingesetzt werden. Die Selektivität des Hearables wird durch Stichworte gesteuert z.B. durch Hilfe-Rufe oder Aufrufe zur Gewalt. Das setzt eine inhaltliche Analyse des Audiosignals (z.B: Spracherkennung) voraus.
Beispielsweise ist der Sicherheitsbeamte von vielen lauten Schallquellen umgeben, wobei der Beamte und alle Schallquellen in Bewegung sein können. Ein Hilfe-Rufender ist unter normalen Hörbedingungen nicht oder nur leise hörbar (schlechter SNR). Die manuell oder automatische ausgewählte Schallquelle wird akustisch hervorgehoben bis der Nutzer die Auswahl aufhebt. Optional wird an der Position/Richtung der interessanten Schallquelle ein virtuelles Schallobjekt platziert um den Ort leicht finden zu können (z.B. für den Fall eines einmaligen Hilferufs).
Z.B. erkennt das Hearable Schallquellen mit potentiellen Gefahrenquellen. Ein Sicherheitsbeamter wählt welcher Schallquelle bzw. welchem Ereignis er nachgehen möchte (z.B. durch Auswahl auf einem Tablett). Das Hearable passt daraufhin die Audiowiedergabe an, um die Zielschallquelle auch bei Störgeräuschen gut verstehen und orten zu können.
Q' mativ kann beispielsweise, wenn die Zielschallquelle verstummt ist, ein Ortungssignalii ixichtung/Distanz der Quelle platziert werden.
Ein anderer Anwendungsfall eines anderen Ausführungsbeispiels ist Bühnenkommunikation und betrifft Musiker. Auf Bühnen können bei Proben oder Konzerten (z,B. Band» Orchester» Chor» Musical) auf Grund schwieriger akustischer Verhältnisse einzelne Instrumente(ngruppe) nicht gehört werden, die in anderen Umgebungen noch zu hören waren. Dadurch wird das Zusammenspiel beeinträchtigt, da wichtige (Begleit- )Stimmen nicht mehr wahrnehmbar sind. Das Hearabie kann diese Stimme/n hervorheben und wieder hörbar machen und somit das Zusammenspiel der einzelnen Musiker verbessern bzw. sichern. Mit dem Einsatz könnte auch die Lärm ' wkmg einzelner Musiker verringert werden und damit Hörverluste verbeugen, indem ; t · Hw Schlagzeug gedämpft wird, und gleichzeitig könnten die Musiker noch alles Wichtige hören.
Beispielsweise hört ein Musiker ohne Hearabie auf der Bühne mindestens eine andere Stimme nicht mehr. Hier kann das Hearabie dann eingesetzt werden. Wenn die Probe bzw. das Konzert zu Ende ist, setzt der Benutzer das Hearabie nach dem Ausschalten wieder ab.
In einem Beispiel schaltet der Benutzer das Hearabie ein. Er wählt ein oder mehrere gewünschte Musikinstrumente, die verstärkt werden soll, aus. Beim gemeinsamen Musizieren wird nun vom Hearabie das ausgewählte Musikinstrument verstärkt und somit wieder hörbar gemacht. Nach dem Musizieren schaltet der Benutzer das Hearabie wieder aus.
In einem alternativen Beispiel schaltet der Benutzer schaltet das Hearabie ein. Er wählt das gewünschte Musikinstrument, dessen Lautstärke verringert werden soll, aus. 7. Beim gemeinsamen Musizieren wird nun vom Hearabie das ausgewählte Musikinstrument in der Lautstärke verringert, sodass der Benutzer dieses nur noch auf gemäßigter Lautstärke hört.
In dem Hearabie können beispielsweise Musikinstrumentprofile eingespeichert sein.
Ein anderer Anwendungsfall eines weiteren Ausführungsbeispiels ist Guellentrennung als Softwaremodul für Hörgeräte im Sinne des Ökosystems und betrifft Hörgerätehersteller bzw. Hörgerätenutzer. HörgerätehersteSier können Quellentrennung als Zusatztool für ihre Hörgeräte nutzen und den Kunden anbieten. So könnten auch Hörgeräte von der Entwicklung profitieren. Denkbar ist auch ein Uzenzmocfeii für andere Märkte/Geräte (Kopfhörer, Handys, etc.).
Beispielsweise haben es Hörgerätenutzer schwierig, bei einer komplexen PiWvun Situation verschiedene Quellen voneinander zu trennen, um beispielsweise den Fokus auf einen bestimmten Sprecher zu legen Um auch ohne externe Zusatzsysteme (z.B
Übertragung von Signalen von Mobilfunkanalagen über Bluetooth, gezielte Signalübertragung in Klassenräumen über eine FM-Anlage oder induktive Höranlagen) selektiv hören zu können, verwendet der Nutzer ein Hörgerät mit der Zusatzfunktion zum selektiven Hören. So kann er auch ohne Fremdzutun durch Quellentrennung einzelne Quellen fokussieren, /'i n I n Je stellt der Benutzer die Zusatzfunktion aus und hört normal mit dem Hörgerät weiter.
Beispielsweise kauft sich ein Hörgerätenutzer ein neues Hörgerät mit integrierter Zusatzfunktion zum selektiven Hören. Der Benutzer stellt die Funktion zum selektiven Hören am Hörgerät ein. Dann wählt der Benutzer ein Profil aus (z.B. lauteste/nächstgelegene Quelle verstärken, Stimmenerkennung bestimmter Stimmen aus dem persönlichen Umfeld verstärken (wie beim UC-CE5 Großveranstaltungen). Das Hörgerät verstärkt entsprechend des eingestellten Profils die jeweilige Quelle/n und unterdrückt gleichzeitig bei Bedarf Hintergrundlärm, und der Hörgerätenutzer hört einzelne Quellen aus der komplexen auditiven Szene anstatt nur einen „LärmbreiTWirrwarr aus akustischen Quellen.
Alternativ kauft sich der Hörgerätenutzer beispielsweise die Zusatzfunktion zum selektiven Hören als Software o.ä. für sein eigenes Hörgerät. Der Benutzer installiert die Zusatzfunktion für sein Hörgerät. Dann stellt der Benutzer stellt die Funktion zum selektiven Hören am Hörgerät ein. Der Benutzer wählt ein Profil aus (lauteste/nächstgelegene Quelle verstärken, Stimmenerkennung bestimmter Stimmen aus dem persönlichen Umfeld verstärken (wie beim UC-CE5 Großveranstaltungen), und das Hörgerät verstärkt entsprechend des eingestellten Profils die jeweilige Quelle/n und unterdrückt gleichzeitig bei Bedarf Hintergrundlärm. Dabei hört der Hörgerätenutzer einzelne Quellen aus der komplexen auditiven Szene anstatt nur einen „LärmbreiTWirrwarr aus akustischen Quellen.
Das Hearable kann beispielsweise einspeicherbare Stimmenprofile vorsehen.
Ein weiterer Anwendui i> y 1 11 eines anderen Ausführungsbeispiels ist Profisport und betrifft Sportler im Wetkampf. In üpotiarten wie Biathlon, Triathlon, Radrennen, Marathon usw. sind Profisportler auf die Informationen ihrer Trainer oder die Kommunikation mit Teamkollegen anaewiesen. Allerdings gibt es auch Situationen in denen Sie sich vor lauten Geräuschen (Sein« i n beim Biathlon, lautes Jubeln, Partytröten usw.) schützen wollen, um sich konzentrieren zu können. Das Hearable könnte für die jeweilige Sportart/Sportler n
Beispielsweise kann der Benutzer sehr mobil sein, und die Art der Störgeräusche ist abhängig von der Sportart. Aufgrund der intensiven sportlichen Belastung ist keine oder nur wenig aktive Steuerung des Geräts durch den Sportler möglich. Allerdings gibt es in den meisten Sportarten einen festgelegten Ablauf (Biathlon: Laufen, Schießen) und die wichtigen Gesprächspartner (Trainer, Teammitglieder) können vorher definiert werden Lärm wird dabei generell oder in bestimmten Phasen des Sports unterdrückt. Die Kommunikations zwischen Sportler und Teammitgliedern sowie Trainer wird stets hervorgehoben.
Z.B. nutzt der Sportler ein speziell auf die Sportart eingestelltes Hearable. Das Hearable unterdrückt vollautomatisch (voreingestellt) Störgeräusche, besonders in Situation wo bei der jeweiligen Sportart ein hohes Maß an Aufmerksamkeit gefordert ist. Der Weiteren hebt das Hearable vollautomatisch (voreingestellt) Trainer und Teammitglieder hervor, wenn diese in Hörreichweite sind.
Ein weiterer Anwendungsfall eines weiteren Ausführungsbeispiels ist Gehörbildung und betrifft Musikschüler- und Studenten, professionelle Musiker, Amateurmusiker. Für Musikproben (z.B. im Orchester, in einer Band, im Ensemble, im Musikunterricht) wird ein Hearable gezielt genutzt, um einzelne Stimmen herausgefiltert mitverfolgen zu können. Vor allem zu Beginn von Proben ist es hilfreich sich fertige Aufnahmen der Stücke anzuhören und die eigene Stimme mitzuverfolgen. Je nach Komposition sind die Stimmen im Hintergrund nicht gut herauszuhören, da man nur die vordergründigen Stimmen hört. Mit dem Hearable könnte man dann eine Stimme seiner Wahl anhand des Instrumentes o.ä. hervorheben, um sie gezielter üben zu können.
(Amu hwW Musikstudenten können das Hearable auch nutzen ihre Fähigkeit zur
Gehoibiiduny zu trainieren, um sich gezielt auf Aufnahmeprüfungen vorzubereiten, indem Schritt für Schritt einzelne Hervorhebungen minimiert werden, bis sie am Ende ohne ' Art die einzelnen Stimmen aus komplexen ' uv* n zu extrahieren. i 'im weitere mögliche Anwendung stellt Karaoke da, w®nn 7 P kein Singstar o.ä. in der ist. Dann kann man nach Belieben aus einem W"· » S>V die Gesangsstimme(n) n‘ » drücken, um für das Karaokesingen nur die Instrumentalversion zu hören. Beispielsweise fängt ein Musiker an, eine Stimme aus einem Musikstück neu zu lernen. Er hört sich die Aufnahme zu dem Musikstück über eine CD-Anlage oder einem anderen üvcmhemedium an. Ist der Benutzer fertig mit Üben, schalte! er das Hearable dann v 0 ' aus.
In einem Beispiel schaltet der Benutzer das Hearable ein. Er wählt das gewünschte Musikinstrument, das verstärkt werden soll, aus Hi Anhören des Musikstücks verstärkt das Hearable die Stimme/n des Musikinstruments, regelt die Lautstärke der restlichen mente herunter und der Benutzer kann so die eigene Stimme besser mi
In einem alternativen Beispiel schaltet der Benutzer das Hearable ein. Er wählt das gewünschte Musikinstrument, das unterdrückt werden soll, aus. Beim Anhören des Musikstücks werden die Stimme/n des ausgewählten Musikstücks unterdrückt, sodass nur die restlichen Stimmen zu hören sind. Der Benutzer kann dann die Stimme auf dem eigenen Instrument mit den anderen Stimmen üben, ohne von der Stimme aus der Aufnahme abgelenkt zu werden.
In den Beispielen kann das Hearable eingespeicherte Musikinstrumentprofile vorsehen.
Ein anderer Anwendungsfall eines anderen Ausführungsbeispiels ist Arbeitssicherheit und betrifft Arbeiter in lauter Umgebung. Arbeiter in lauter Umgebung zum Beispiel in Maschinenhallen oder auf Baustellen müssen sich vor Lärm schützen, aber auch Warnsignale wahrnehmen können sowie mit Mitarbeiter kommunizieren können.
Beispielsweise iv -findet sich der Benutzer in einer sehr lauten Umgebung und die Zielschallquellen ^'‘.ynsignale, Mitarbeiter) sind unter Umständen deutlich leiser als die Stm v'/m ' P r buUu er kann mobil sein üv ' die Störgeräusche ist mmik ortsstabil. Lärm wiiü wie bei einem Gehörschutz dmu hw "senkt und das Hearabl* ίk i ί vollautomisch Warnsignal hervor. Kommunikation mit ki'lm beiter wird durch Verstärkung von Sprecherquellen gewährleistet
Z.B. geht der Benutzer seiner Arbeit nach und nutzt Hearable als Gehörschutz. Warnsignale (: ’ K jeralarm) werden akustisch hervorgehoben, und der Benutzer unterbricht ggf. seine Arbeit. Alternat! c' ' Ή der Benutzer z B seiner Arbeit nach und nutzt Hearable als Gehörschutz Wenn d< < I . iarf noch Kommunikation mit Mitarbeiter besteht, wird mit Hilfe geeigner Schnittstellen (hier z.B.i Blicksteuerung) der Kommunukationspartner gewählt und akustisch hervorgehoben
Ein anderer Anwendungsfall eines weiteren Ausführungsbeispiels ist Quellentrennung als
Softwaremodul für Live-Übersetzer und betrifft Nutzer eines Live-Übersetzers. Live- Übersetzer übersetzen gesprochene Fremdsprachen in Echtzeit und können von einem vorgeschalteten Softwaremodul zur Quellentrennung profitieren. Vor allem für den Fall, dass mehrere Sprecher anwesend sind, kann das Softwaremodul den Zielsprecher extrahieren und die Übersetzung damit potentiell verbessern.
Beispielsweise ist das Softwaremodul Bestandteil eines Live-Übersetzers (dediziertes Gerät oder Smartphone App). Nutzer kann Zielsprecher beispielsweise über Display des Geräts auswählen. Vorteilhaft ist, dass sich der Übersetzer und die Zielschallquelle für die Zeit der Übersetzung in der Regel nicht oder wenig bewegen. Die ausgewählte Schallquellenpositionen wird akustisch hervorgehoben und verbessert somit potentiell die Übersetzung.
Z.B. möchte ein Nutzer ein Gespräch in Fremdsprache führen oder einem Fremsprachler zuhören. Der Nutzer wählt Zielsprecher durch geeignetes Interface (z.B: GUI auf Display) und das Softwaremodul optimiert die Audioaufnahme für die weitere Verwendung im Übersetzer.
Ein weiterer Anwendungsfall eines anderen Ausführungsbeispiels ist Arbeitsschi ' \ <m Einsatzkräften und betrifft Feuerwehr, THW, ggf. Polizei. Rettungskräfte. Bei Einsatzkräften ist eine gute Kommunikation für eine erfolgreiche Einsatzbewäitigung essentiell. Häufig ist es nicht möglich für die Einsatzkräfte einen Gehörschutz zu tragen trotz lautem Umgebungslärm, da dann keine Kommunikation untereinander möglich ist. Feuerwehrleute müssen beispielsweise trotz lauter Motorengeräusche Befehle exakt mitteilen und verstehen können, was zum Teil über Funkgeräte geschieht. Daher sind Einsatzkräfte einer hohen Lärmbelastung ausgesetzt, bei der die Gehörschutzverordnung nicht umsetzbar ist. Ein Hearable würde zum einen Gehörschutz für die Einsatzkräfte bieten und zum anderen die Kommunikation zwischen den Einsatzkräften weiterhin ermöglichen. Weitere Punkte sind, dass die Einsatzkräfte mit Hilfe des Hearabies beim Tragen von Helmen/Schutzausrüstung akustisch nicht von der Un> \ < > >i w ^ !t sind und somit sich
Z.B. trägt der Benutzer das Hearable während eines Einsatzes. Er schaltet das Hearable ein. Das Hearable unterdrückt Umgebungslärm und verstärkt die Sprache von Kollegen und anderen nahegelegenen Sprechern (z.B. Brandopfern).
Alternativ trägt der Benutzer trägt das Hearable während eines Einsatzes. Er schaltet das Hearable ein, und das Hearable unterdrückt Umgebungslärm und verstärkt die Sprache von Kollegen übers Funkgerät.
Gegebenenfalls ist das Hearable besonders dafür ausgelegt, eine bauliche Eignung für Einsätze entsprechend einer Einsatzvorschrift zu erfüllen. Eventuelle weist das Hearable eine Schnittstelle zu einem Funkgerät auf.
Obwohl manche Aspekte im Zusammenhang mit einer Vorrichtung bzw. einem System beschrieben wurden, versteht es sich, dass diese Aspekte auch eine Beschreibung des entsprechenden Verfahrens darstellen, sodass ein Block oder ein Bauelement einer Vorrichtung bzw. eines Systems auch als ein entsprechender Verfahrensschritt oder als ein Merkmal eines Verfahrensschrittes zu verstehen ist. Analog dazu stellen Aspekte, die im Zusammenhang mit einem oder als ein Verfahrensschritt beschrieben wurden, auch eine Beschreibung eines entsprechenden Blocks oder Details oder Merkmals einer entsprechenden Vorrichtung bzw. Systems dar. Einige oder alle der Verfahrensschritte können durch einen Hardware-Apparat (oder unter Verwendung eines Hardware- Apparats), wie zum Beispiel einen Mikroprozessor, einen programmierbaren Computer oder einer elektronischen Schaltung durchgeführt werden. Bei einigen Ausführungsbeispielen können einige oder mehrere der wichtigsten Verfahrensschritte durch einen solchen Apparat ausgeführt werden.
Je nacl Erfindui ire oder ir zumindest teilweise in Software implementiert sein. Die Implementierung kann unter Verwendung eines digitalen ensichermediums, beispielswee «. * '•er Floppy-Disk, einer
DVD, einer BluRay Disc, einer CD, eines ROM, eines PROM, eines EPROM, eines EEPROM oder eines FLASH-Speichers, einer Festplatte oder eines anderen magnetischen oder optischen Speichers durchgeführt werden, auf dem elektronisch lesbare Steuersignale gespeichert sind, die mit einem programmierbaren Computersystem derart Zusammenwirken können oder Zusammenwirken, dass das jeweilige Verfahren durchgeführt wird. Deshalb kann das digitale Speichermedium computerlesbar sein.
Manche Ausführungsbeispiele gemäß der Erfindung umfassen also einen Datenträger, der elektronisch lesbare Steuersignale aufweist, die in der Lage sind, mit einem programmierbaren Computersystem derart zusammenzuwirken, dass eines der hierin beschriebenen Verfahren durchgeführt wird.
Allgemein können Ausführungsbeispiele der vorliegenden Erfindung als Computerprogrammprodukt mit einem Programmcode implementiert sein, wobei der Programmcode dahin gehend wirksam ist, eines der Verfahren durchzuführen, wenn das Computerprogrammprodukt auf einem Computer abläuft.
Der Programmcode kann beispielsweise auch auf einem maschinenlesbaren Träger gespeichert sein.
Andere Ausführungsbeispiele umfassen das Computerprogramm zum Durchführen eines der hierin beschriebenen Verfahren, wobei das Computerprogramm auf einem maschinenlesbaren Träger gespeichert ist. Mit anderen Worten ist ein Ausführungsbeispiel des erfindungsgemäßen Verfahrens somit ein Computerprogramm, das einen Programmcode zum Durchführen eines der hierin beschriebenen Verfahren aufweist, wenn das Computerprogramm auf einem Computer abiäuft.
Ein weiteres Ausführu o ^ ol der erfindungsgemäßen Verfahren ist somit ein
Datenträger (oder ein dsg V.wu bf-eichermedium oder ein computerlesbares kt Jtu,n), auf dem das Computerprogramm zum Durchführen eines der hierin besehe .'ben i v erfahren aufgezeichnet is* PRG Datenträger oder das digitale Speichern ledium oder das computerlesbare \ . m sind typischerweise greifbar und/oder nicht flüchtig.
Ein weiteres Ausführungsbeispiel des erfindungsgemaßen Verfahrens ist somit ein Datenstrom oder eine Sequenz von Signalen, der bzw. die das Computerprogramm zum Durchführen eines der hierin beschriebenen Verfahren darstellt bzw. darstellen. Der Ein weiteres Ausführungsbeispiel umfasst eine Verarbeitungseinrichtung, beispielsweise einen Computer oder ein programmierbares Logikbauelement, die dahin gehend konfiguriert oder angepasst ist, eines der hierin beschriebenen Verfahren durchzuführen.
Ein weiteres Ausführungsbeispiel umfasst einen Computer, auf dem das Computerprogramm zum Durchführen eines der hierin beschriebenen Verfahren installiert ist.
Ein weiteres Ausführungsbeispiel gemäß der Erfindung umfasst eine Vorrichtung oder ein System, die bzw. das ausgelegt ist, um ein Computerprogramm zur Durchführung zumindest eines der hierin beschriebenen Verfahren zu einem Empfänger zu übertragen. Die Übertragung kann beispielsweise elektronisch oder optisch erfolgen. Der Empfänger kann beispielsweise ein Computer, ein Mobilgerät, ein Speichergerät oder eine ähnliche Vorrichtung sein. Die Vorrichtung oder das System kann beispielsweise einen Datei-Server zur Übertragung des Computerprogramms zu dem Empfänger umfassen.
Bei manchen Ausführungsbeispielen kann ein programmierbares Logikbauelement (beispielsweise ein feldprogrammierbares Gatterarray, ein FPGA) dazu verwendet werden, manche oder alle Funktionalitäten der hierin beschriebenen Verfahren durchzuführen. Bei manchen Ausführungsbeispielen kann ein feldprogrammierbares Gatterarray mit einem Mikroprozessor Zusammenwirken, um eines der hierin beschriebenen Verfahren durchzuführen. Allgemein werden die Verfahren bei einigen Ausführungsbeispielen seitens einer beliebigen Hardwarevorrichtung durchgeführt. Diese kann eine universell ersetzbare Hardware wie ein Computerprozessor (CPU) sein oder für das Verfahren spezifische Hardware, wie beispielsweise ein ASIC.
Die oben beschriebenen Ausführungsbeispiele stellen lediglich eine Veranschaulichung der Prinzipien der vorliegenden Erfindung dar. Es versteht sich, dass Modifikationen und Variationen der hierin beschriebenen Anordnungen und Einzelheiten anderen Fachleuten einleuchten werden. Deshalb ist beabsichtigt, dass die Erfindung lediglich durch den Schutzumfang der nachstehenden Patentansprüche und nicht durch die spezifischen Einzelheiten, die anhand der Beschreibung und der Erläuterung der Ausführungsbeispiele hierin präsentiert wurden, beschränkt sei. V. Valimaki, A. Franck, J. Rnmo, H. Gamper, and L. Savioja, ‘A IKNM listening using ' M'adset: Enhancing audio perception in real, augmented, and virtual environments,” IEEE Signal Processing Magazine, Bd. 32, Nr. 2, S. 92-99, März
2015.
[2] K. Brandenburg, E. Cano, F. Klein, T. Köllmer, H. Lukashevich, A. Neidhardt, U. Sloma, and S. Werner, “Plausible augmentation of auditory scenes using dynamic binaural synthesis for personalized auditory realities," in Proc. of AES International Conference on Audio for Virtual and Augmented Reality, Aug 2018.
[3] S. Argentieri, P. Dans, and P. Soures, “A survey on sound source localization in robotics: From binaural to array Processing methods," Computer Speech Language, Bd. 34, Nr. 1, S. 87-112, 2015.
[4] D. FitzGerald, A. Liutkus, and R. Badeau, “Projection-based demixing of spatial audio,” IEEE/ACM Trans on Audio, Speech, and Language Processing, Bd. 24, Nr. 9, S. 1560-1572, 2016.
[5] E. Cano, D. FitzGerald, A. Liutkus, M. D. Plumbley, and F. Stöter, “Musical source Separation: An introduction,” IEEE Signal Processing Magazine, Bd. 36, Nr. 1, S. 31-40, Jan 2019.
[6] S. Gannot, E. Vincent, S. MarkoviHvGolan, and A. Ozerov, “A Consolidated perspective on multimicrophone I 4 enhancement and source Separation,” IEEE/ACM Transactions on Audio u ' ch, and Language Processing, Bd. 25, Nr. 4, S. 692-730, April 2017.
1. 1 E. Cano, J. Nowak, and S. Grollmisch, “Exploring sound source * * neu m for acoustic condition monitoring in industrial scenarios," in Proc. of oih European Signal Processing Conference (EUSIPCO), Aug 2017, S. 2264-2268.
[8] T. Gerkmann, M. Krawczyk-Becker, and i I ! V ux, “Phase Processing for single- channel speech enhancement: History and recent advances,” IEEE Signal Processing Magazine, Bd. 32, Nr. 2, S. 55-66, März 2015. d S.
[10] D. Malz» E. Cano, and J. Abeßer» “New sonorities for early jazz recordings using sound source Separation and automatic mixing tools,” in Proc. of the 16th International Society for Music Information Retrieval Conference. Malaga, Spain: ISMIR, Okt. 20 >.
[11] S. M. Kuo and D. R. Morgan, “Active noise control: a tutorial review,” Proceedings of the IEEE, Bd. 87, Nr. 6, S. 943-973, Juni 1999.
[12] A. McPherson, R. Jack, and G. Moro, “Action-sound latency: Are our tools fast enough?" in Proceedings of the International Conference on New Interfaces for Musical Expression, Juli 2016.
[13] C. Rottondi, C. Chafe, C. Allocchio, and A. Sarti, “An overview on networked music performance technologies," IEEE Access, Bd. 4, S. 8823-8843, 2016.
[14] S. Liebich, J. Fabry, P. Jax, and P. Vary, "Signal Processing challenges for active noise cancellation headphones,” in Speech Communication; 13th ITG-Symposium, Okt 2018, S. 1-5.
[15] E. Cano, J. Liebetrau, D. Fitzgerald, and K. Brandenburg, 5 'w w nensions of perceptual quality of sound source ^ ' . ation,” in Proc. of IEEE International Conference on Acoustics, Speech am< al Processing (ICASSP), April 2018, S.
6 :
[16] P. M. Delgado and J. Herre, “Objective assessment of spatial audio quality using directional ifHidness maps,” in Proc. of IEEE International Conference on Acoustics, Speech an il Processing (ICASSP), Mai 2019, S. 621-625.
[17] C. H. Taal, R. C. Hendriks, R. Heusdens, and J. Jensen, “An algorithm for intelligibility prediction of time-frequency v <;rVd noisy Speech,” IEEE Transactions on Audio, Speech, and Language Procei wwj Bd. 19, Nr. 7, S. 21 ' " ' Sep.
2011. [18] M. D. Plumbley, C. Kroos, J. P. Belio, G. Richard, D P. Eis, and A. Mesaros, Proceedings of the Detection and Classification of Acoustic Scenes and Events 2 h> Ά orkshop (DCASE2018). Tampere University of Technology, Laboratory of
Signal Processing, 2018
[19] R. Sertzei, N. Turpault, H. Eghbal-Zadeh, and A. Parag Shah, “Large- Scale Weakly Labeled Semi-Supervised Sound Event Detection in Domestic Environments,” Juli 2018, submitted to DCASE2018 Workshop.
[20] L. JiaKai, “Mean teacher convolution System for dcase 2018 task 4,” DCASE2018 Challenge, Tech. Rep., September 2018.
[21] G. Parascandoio, H. Huttunen, and T. Virtanen, “Recurrent neural networks for polyphonic sound event detection in real life recordings," in Proc. of IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP), März 2016, S. 6440-6444.
[22] E. Ct akir and T. Virtanen, “End-to-end polyphonic sound event detection using convolutional recurrent neural networks with learned time-frequency representation input,” in Proc. of International Joint Conference on Neural Networks (IJCNN), Juli 2018, S. 1-7.
[23] Y. Xu, Q. Kong, W. Wang, and M. D. Plumbley, “Large-Scaie Weakiy Supervised
Audio Classification Using Gated Convolutional Neural Network,' in Proceedings of the IEEE international Conference on Acoustics, Speech and Signal Processing (ICASSP 1 AB, Caioh a, 2018 S 121-125.
[24] B. Frenay and M Verleysen, “Classification in the presenee of labei noise: A survey," IEEE Transactions on Neural Networks am . 1 . wning Systems, Bd. 25, Nr. 5, S.
. »IG, Mai 2014,
[25] E. Fonseca, M, Plakal, D P. W. Ellis, F. Font, X. Favory, and X. Serra, “Learning sound event dassifiers from web audio with noisy labels,” in Proceedings of IEEE International * hG'»'m on Acoustics, Speech and Signal Processing (ICASSP), Brighton, UK -r‘\ [26] M. P uh i und G. ''ViHrrrr, “Training general-purpose audio tagging networks with noisy Habels and iin imne self-verification,” in Proceediinos of tlu I k i- Ί II I !
Classification of ;\< 'u nc Scenes and Events 2018 Woi kshop >P '"Ί m
Surrey, UK, 2018.
[27] S. Adavanne, A. Politis, J. Nikunen, and T. Virtanen, “Sound event locaiization and detection of overlapping sources using convolutional recurrent neural networks,” IEEE Journal of Selected Topics in Signal Processing, S. 1-1, 2018.
[28] Y. Jung, Y. Kim, Y. Choi, and H. Kim, “Joint learning using denoising variational autoencoders for voice activity detection,” in Proc. of Interspeech, September 2018, S. 1210-1214.
[29] F. Eyben, F. Weninger, S. Squartini, and B. Schüller, “Real-life voice activity detection with LSTM recurrent neural networks and an application to hollywood movies,” in Proc. of IEEE International Conference on Acoustics, Speech and Signal Processing, Mai 2013, S. 483-487.
[30] R. Zazo-Candil, T. N. Sainath, G. Simko, and C. Parada, “Feature learning with raw- waveform CLDNNs for voice activity detection," in Proc. of INTERSPEECH, 2016.
[31] M. McLaren, Y. Lei, and L. Ferrer, “Advances in deep neural network approaches to Speaker recognition,” in Proc. of IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP), April 2015, S. 4814-4818.
[32] D Snyder, D. Garcia-Romero, G. Seil, l l .h V and S. Khudanpur, “X-vectors: Robust PINN ernbeddings for Speaker recognition,” in Proc. of IEEE International
Conference on Acoustics, Speech and Signal Piocessing (ICASSP), April 2018, 8 5329-5333
[33] M. McLaren, P C ssfan, M. K. Nandwrn"' I G-rrer, and IE. Yilmaz, “How h* ίii,.iih your Speaker ernbeddings extractor," in i m > , 2018. [ , ■ . J. W. I , “The II . .
System: it adv , , . * 3roc, o :
3633— 3bo / .
[35] Y, Han, J, Kim, and K. Lee, “Deep convolutiorrd r i’t-w networks for predominant Instrument recognition in polyphonic music," 1 l ’ TI Transactions on Audio, Speech, and Language Processing, Bd. 25, Nr. 1, S, 2m- T 1, Jan 2017.
[36] V. Lonstanlen and C.-E. Cella, “Deep convolutional networks on the pitch spiral for musical Instrument recognition," in Proceedings of the 17th International Society for Music Information Retrieval Conference. New York, USA: ISMIR, 2016, S. 612-618.
[37] S. Gururani, C. Summers, and A. Lerch, "Instrument activity detection in polyphonic music using deep neural networks,” in Proceedings of the 19th International Society for Music Information Retrieval Conference. Paris, France: ISMIR, Sep. 2018, S. 569-576.
[38] J. Schlutter and B. Lehner, “Zero mean convolutions for level-invariant singing voice detection,” in Proceedings of the 19th International Society for Music Information Retrieval Conference. Paris, France: ISMIR, Sep. 2018, S. 321-326.
[39] S. Delikaris-Manias, D. Pavlidi, A. Mouchtaris, and V. Pulkki, “DOA estimation with histogram analysis of spatially constrained active intensity vectors,” in Proc. of IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP), März 2017, S. 526-530.
[40] S. Chakrab Ί , md E. A. P. Habets, “Multi-speaker DOA estimation using deep convolutional networks trained with noise Signals,” IEEE Journal of Selected Topics in Signal Processing, Bd. 13, Nr. 1, S. 8- 21, März 2019.
[41] X. Li, L. Girin, R. Horaud, and S. Gannot, “Multiple-speaker localization based on cSt ' < > ,T features and likelihood maximization with spatial sparsity regularization,” y m , , mm Transactions on Audio, Speech an ' Language Processing, Bd. 25, Nr. 10, fc>. iyy /— 2012, Okt 2017. [43] D. Yook, T. Lee, and Y. Cho, “Fast sound source localization using two-level search space clusterimg," IEEE Transactions on Cybernetics, Bd. 46, Nr. < 6 20-26, Jan 2016.
[44] D. Pavlidi, A. Griffin, M. Puigt, and A. Mouchtaris, “Real-time multiple sound source localization and counting using a circular microphone array,” IEEE Transactions on Audio, Speech, and Language Processing, Bd. 21, Nr. 10, S. 2193-2206, Okt 2013.
[45] P. Vecchiotti, N. Ma, S. Squartini, and G. J. Brown, “End-to-end binaural sound localisation from the raw waveform,” in Proc. of IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP), Mai 2019, S. 451-455.
[46] Y. Luo, Z. Chen, and N. Mesgarani, “Speaker-independent speech Separation with deep attractor network,” IEEE/ACM Transactions on Audio, Speech, and Language Processing, Bd. 26, Nr. 4, S. 787-796, April 2018.
[47] Z. Wang, J. Le Roux, and J. R. Hershey, “Multi-channel deep clustering: Discriminative spectral and spatial embeddings for speaker-independent speech Separation,” in Proc. of IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP), April 2018, S. 1-5.
[48] G. Naithani, T. Barker, G. Parascandolo, L. Bramsltw, N. H. Pontoppidan, and T. Virtanen, “Low latency sound source Separation using convolutional recurrent neural t k^iks,” in Proc. of IEEE Workshop on Applications of Signal Processing to Audio and Acoustics (WASPAA), Okt 20 ' . 6 l ·.
[49] M. Sunohara, C. Haruta, and N. Ono, “Low-Iatency real-time blind source Separation for hearing aids based on time-domain Implementation of online independent vector analysis with truncation of non-causal components,” in Proc. of IEEE International Conference on Acoustics, Speech and Signal Processing ilOAEEW März 2017, S. 216-220. [50] Y. Luo and IN Mesgarani, “TaSINet: Time-domain audio Separation network for realtime, single-channel Speech Separation,” in Proc. of IEEE international Conference on Acoustics, Speech and Signal Processing (ICASSP), April 2018, S 696-700,
[51] J. Chua, G. Weng, and W. B. Kleijn, 'Conv lutive blind souirce Separation with low Im« I n'Y ” in Proc. of IEEE International Woikshop on Acoustic Signal Enhancement tk V ΊI IN, ' ; p, 2016, S. 1-5.
[52] Z. Rafii, A. Liutkus, F. Stöter, S. I. Mimilakis, D. FitzGerald, and B. Pardo, “An overview of lead and accompaniment Separation in music," IEEE/ACM Transactions on Audio, Speech, and Language Processing, Bd. 26, Nr. 8, S. 1307-1335, Aug 2018.
[53] F.-R. Stöter, A. Liutkus, and N. Ito, “The 2018 Signal Separation evaluation campaign,” in Latent Variable Analysis and Signal Separation, Y. Deville, S. Gannot, R. Mason, M. D. Plumbley, and D. Ward, Eds. Cham: Springer International Publishing, 2018, S. 293-305.
[54] J.-L. Durrieu, B. David, and G. Richard, “A musically motivated midlevel representation for pitch estimation and musical audio source Separation,” Selected Topics in Signal Processing, IEEE Journal of, Bd. 5, Nr. 6, S. 1180 -1191, Okt. 2011.
[55] S. Uhlich, M. Porcu, F. Giron, M. Enenkl, T. Kemp, N. Takahashi, and Y. Mitsufuji, “Improving music source Separation based on deep neural networks through data augmentation and network biending, ” in Proc. of IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP), 2017.
[56] P. N. SamarasiiHil, W. Zlhang, cih ! i I > Ί hayapalla, “Recent adwainces in active noice control iinm«1,’ automobile calbins: Toward quieter cars,” IEEE Signal Processing Ma Jiim Ul. 33, Nr. 6, 8, 61-73, Nov 2016.
[57] 1 . 8 II apini, IR IL Pinie II 1 Mrd'-ir—, ·ΐi6 I I C'clh- "Hybrid approach to noise control of inAtciiriall « HIIMHA V« IY IUS,” A| ( li» 6 \ «, iwi , Bei 125, S 102 -
112, 2017, [59] X. Lu, Y. Tsao, S. and C. Hort, “Speech enhancement based on deep denoising autoencc oc. of Interspeech, 2013.
[60] Y. Xu, J. Du, L. Dai, and C. Lee, “L regression approach to speech enhancement based on deep neural networks," IEEE/ACM Transactions on Audio, Speech, and Language Processing, Bd. 23, Nr. 1, S. 7-19, Jan 2015.
[61] S. Pascual, A. Bonafonte, and J. Serrä, “SEGAN: speech enhancement generative adversarial network,” in Proc. of Interspeech, August 2017, S. 3642-3646.
[62] F. Weninger, H. Erdogan, S. Watanabe, E. Vincent, J. Le Roux, J. R. Hershey, and B. Schüller, “Speech enhancement with LSTM recurrent neural networks and its application to noise-robust ASR,” in Latent Variable Analysis and Signal Separation, E, Vincent, A. Yeredor, Z. Koldovsky, and P. Tichavsky, Eds. Cham: Springer International Publishing, 2015, S. 91-99.
[63] H. Wierstorf, D. Ward, R. Mason, E. M. Grais, C. Hummersone, and M. D. Plumbley, “Perceptual evaluation of source Separation for remixing music,” in Proc. of Audio Engineering Society Convention 143, Okt 2017.
[64] J. Pons, J. Janer, T. Rode, and W. Nogueira, “Remixing music using source
Separation algorithms to improve the musical experience of cochlear implant users,” The Journal of the Acoustical Society of America, Bd. L ' 6, S. 4338-4349,
2016.
[65] Q, Kong, Y. Xu, W. Wang, and M. D. Plumbley, “A joint separation-classification mode! for sound event detection of weakly labelled data,“ in Proceedinqs of !1P International Conference on Acoustics, Speech and Signal Processing '' \H'P" März 2018.
T. v. Neumann, K. Kinoshita, M. Delcroix, S, Araki, T. Nakatani, and R. Haeb- Umbach, “All-neural online source Separation, counting, and diarization for meeting c ” in and
IVICtl iLU
[87] S, Gharib, K. Drossos, E. Cakir, D. Serdyuk, a;ut * i anen, “Unsupervised adversan ' d i lain adapiation for acousiic scene Classification,” in Proceedings of the Dete < ^ n and Classification of Acoustic Scenes and Events Workshop ( DCASE} N v<smber 2018, S, 138-142.
[68] A. Mesaros, T. Heittola, and T. Virtanen, “A multi-device dataset for urban acoustic scene Classification,” in Proceedings of the Detection and Classification of Acoustic Scenes and Events Workshop, Surrey, UK, 2018.
[69] J. Abeßer, M. Götze, S. Kühnlenz, R. Gräfe, C. Kühn, T. Clauß, H. Lukashevich, "A Distributed Sensor Network for Monitoring Noise Level and Noise Sources in Urban Environments," in Proceedings of the 6th IEEE International Conference on Future Internet of Things and Cloud (FiCloud), Barcelona, Spain, pp. 318-324., 2018.
[70] T. Virtanen, M. D. Plumbley, D. Ellis (Eds.), "Computational Analysis of Sound Scenes and Events," Springer, 2018.
[71] J. Abeßer, S. loannis Mimilakis, R. Gräfe, H. Lukashevich, "Acoustic scene Classification by combining autoencoder-based dimensionality reduction and convolutional neural net-works," in Proceedings of the 2nd DCASE Workshop on Detection and Classification of Acoustic Scenes and Events, Munich, Germany, 2017.
[72] A. Avni, J, /\lsmu s M. Geierc, S. Spors, H. Wierstorf, B Rafaely, "Spatial perception of sound fields recorded by spherical microphone arrays with varying spatial resolution,” Journal of the Acoustic Society of America, 1 t pp. 2711-2721, 2013.
[73] E. Cano, D. FitzGeraid, K. Brandenburg, “Evaluation of quality of sound source Separation aigorithms: Human perception vs quantitative metrics,” in Proceedings of the 24th European Signal Processi; H · .7 nference (EUSIPCO), pp. 1758-1762, 2016. [74] S. Marchand, “Audio scene iransformation using informed source Separation," The Journal of the Acousticai Society of America, 140(4), p. 3091, 2016.
[75] S. Grollmisch, J. Abeßer, J. Liebetrau, H. i > n ' \> ch, "Sounding industry: Challenges and datasets for industrial sount? an. >y >, in Proceedings of the
< Ui i Mfopean Signal Processing Conference if.'UAPYA'H <oingereicht), \ Viuna, Spain, 2019.
[76] J. Abeßer, M. Müller, "Fundamental frequency contour Classification: A comparison between hand-crafted and CNN-based features, " in Proceedings of the 44th IEEE International Conference on Acoustics, Speech, and Signal Processing (ICASSP), 2019.
[77] J. Abeßer, S. Balke, M. Müller, "Improving bass saliency estimation using labe! propagation and transfer learning," in Proceedings of the 19th International Society for Music Information Retrieval Conference (ISMIR), Paris, France, pp. 306-312, 2018.
[78] C.-R. Nagar, J. Abeßer, S. Grollmisch, "Towards CNN-based acoustic modeling of seventh chords for recognition chord recognition," in Proceedings of the 16th Sound & Music Computing Conference (SMC) (eingereicht), Malaga, Spain, 2019.
[79] J. S. Gomez, J. Abeßer, E. Cano, "Jazz solo Instrument Classification with convolutional neural networks, source Separation, and transfer learning", in Proceedings of the 19th International Society for Music Information Retrieval Conference (ISMIR), Paris, France, pp. 577- 584, 2018.
[80] J. R. Hershey, Z. Chen, i I > } > ux, S. Watanabe, "Deep clustering; Discriminative embeddings for Segmentation and Separation," in Proceedings of the IEEE International Conference on Acoustics, Speech and Sign s i > *>oessing (ICASSP), p 5, 2016.
[81] E. Cano, G. Schüller, C. Dittmar, "Pitch-informed solo and accompaniment Separation towards its use in music education applications", EURASiP Journal on Advances in Signal Processing, 2014:23, A i G [82] S. I CT n o« « .i r t Y.
- eedings of t U 18 ' sssing
21-725, 2018.
[83] J. F. Gemmeke, D. P. W. Ellis, D. Freedman, A. Jansen, W. Lawrence, R. C. Moore, M. Plakal, M. Ritter, "Audio Set: An ontology and human-labeled dataset for audio events," in Proceedings of the IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP), New Orleans, USA, 2017.
[84] Kleiner, M. “Acoustics and Audio Technology,”. 3rd ed. USA: J. Ross Publishing, 2012.
[85] M. Dickreiter, V. Dittel, W. Hoeg, M. Wöhr, M. „Handbuch der Tonstudiotechnik,“ A. medienakademie (Eds). 7th ed. Vol. 1. München: K.G. Saur Verlag, 2008.
[86] F. Müller, M. Karau. „Transparant hearing,“ in: CHI ,02 Extended Abstracts on Human Factors in Computing Systems (CHI EA Ό2), Minneapolis, USA, pp. 730- 731, April 2002.
[87] L. Vieira. "Super hearing: a study on virtual prototyping for hearables and hearing aids," Master Thesis, Aalborg University, 2018. Verfügbar unter: https://projekter.aau.dk/projekter/files/287515943/MasterThesis_Luis.pdf. sh 1, 2019],
[90] ano * F„ Ί., , J„ S U. , n, in 44. , für «ik > '
2018. [91]

Claims

I
1. System, umfassend; ein Analysator (152) zur Bestimmung einer Mehrzahl von binauralen Raumimpulsantworten, einen Lautsprechersignal-Erzeuger (154) zur Erzeugung von wenigstens zwei Lautsprechersignalen abhängig von der Mehrzahl der binauralen Raumimpulsantworten und abhängig von dem Audioquellsigna! von wenigstens einer Audioquelle, wobei der Analysator (152) ausgebildet ist, die Mehrzahl der binauralen Raumimpulsantworten so zu bestimmen, dass jede der Mehrzahl der binauralen Raumimpulsantworten einen Effekt berücksichtigt, der aus dem Tragen eines Kopfhörers durch einen Nutzer resultiert.
2. System nach Anspruch 1, wobei das System den Kopfhörer umfasst, wobei der Kopfhörer ausgebildet ist, die wenigstens zwei Lautsprechersignale auszugeben.
3. System nach Anspruch 1 oder 2, wobei der Kopfhörer zwei Kopfhörerkapseln und mindestens ein Mikrofon zur Messung von Schall in jeder der zwei Kopfhörerkapseln unds sh , gn< Gϊ ;n jeder der zwei Koch o M \v 'n das mindestens eine Mikrofon zur Mk -mnq des Schalls angeordnet ist, m dn > der Analysator (152) ausgebildet ist, die IVrhmmung der Mehrzahl der Dinauralen Raumimpulsantworten unter Verwendung der Messung des mindestens einen Mikrofons in jeder der zwei Kopfhörerkapseln durchzuführen.
4. System i wobei das mindestens eine Mikrofon in jeder der zwei Kopfhörerkapseln ausgebildet ist, vor Beginn einer Wiedergabe der wenigstens zwei Lautsprechersignale durch den Kopfhörer, ein oder mehrere Aufnahmen einer Schallsituation in einem Wied rgaberaum zu erzeugen, aus den ein oder mehreren Aufnahmen eine
S.' eines Roh-Audiosignals wenigstens einer Audioquelle zu bestimmen und eine binaurale Raumimpulsantwort der Mehrzahl der binauralen Raumimpulsantworten für die Audioquelle in dem Wiedergaberaum zu bestimmen.
5. System nach Anspruch 4 wobei das mindestens eine Mikrofon in jeder der zwei Kopfhörerkapseln ausgebildet ist, während der Wiedergabe der wenigstens zwei Lautsprechersignale durch den Kopfhörer, ein oder mehrere weitere Aufnahmen der Schallsituation in dem Wiedergaberaum zu erzeugen, von diesen ein oder mehreren weiteren Aufnahmen ein augmentiertes Signal abzuziehen und die Schätzung des Roh-Audiosignals von einer oder mehreren Audioquellen zu bestimmen und die binaurale Raumimpulsantwort der Mehrzahl der binauralen Raumimpulsantworten für die Audioquelle in dem Wiedergaberaum zu bestimmen.
6. System nach Anspruch 4 oder 5, wobei der Analysator (152) ausgebildet ist, akustische Raumeigenschaften des Wiedergaberaumes zu bestimmen und die Mehrzahl der binauralen Raumimpulsantworten abhängig von den akustischen Raumeigenschaften anzupassen.
7. System nach einem der Ansprüche 4 bis 6, wobei das mindestens eine Mikrofon in jeder der zwei Kopfhörerkapseln zur Messung des Schalls nahe am Eingang des Ohrkanals angeordnet ist.
8. System nach einem der Ansprüche 4 bis 7, jm ein zur f ig aer in aerr
9. System nach Anspruch 8, wobei der Kopfhörer einen Bügel umfasst, wobei wenigstens eines der ein oder mehreren weiteren Mikrofone an dem Bügel angeordnet ist.
10. System nach einem der vorherigen Ansprüche, wobei der Lautsprechersignal-Erzeuger (154) ausgebildet ist, die wenigstens zwei Lautsprechersignale zu erzeugen, indem jede der Mehrzahl der binauralen Raumimpulsantworten mit einem Audioquellsignal einer Mehrzahl von ein oder mehreren Audioquellsignalen gefaltet wird.
11. System nach einem der vorherigen Ansprüche, wobei der Analysator (152) ausgebildet ist, wenigstens eine der Mehrzahl der binauralen Raumimpulsantworten in Abhängigkeit von einer Bewegung des Kopfhörers zu bestimmen.
12. System nach Anspruch 11 , wobei das S/Aem < inen Sensor umfasst, um eine ; i M\\ des Kopfhörers zu bestimmen.
13. System nach einem der vorherigen Ansprüche, wobei das System des ΆΆ n u umfasst: einen Detektor (110) zur Detektion eines Audioquellen-Signalanteiis von ein oder mehreren Audioquelien unter Verwendung von m g, in, s zwei empfangenen (mi »ofonsignaien einer Hörumgebung, einen Positionsbestimmer (120) zur Zuweisung von Positionsinformation zu jeder der ein oder mehreren Audioquelien, einen Signalanteil-Modifizierer (140) zur Veränderung des Audioquellen- Signalanteils von wenigstens einer Audiot^ u der ein oder mehreren Audioquellen abhängig von dem Audiosignaltyp des A .d: _ellen-Signalanteils der wenigstens einen Audioqueli« um einen modifizierten Audiosignalanteil der wenigstens einen
Audioqueile zu e , und wobei der Analysator (152) und der Lautsprechersignal-Erzeuger (154) zusammen einen Signalgenerator (150) bilden, wobei der Analysator (152) des Signalgenerators (150) zur Erzeugung der Mehrzahl von binauralen Raumimpulsantworten ausgebildet ist, wobei es sich bei der Mehrzahl von binauralen Raumimpulsantworten um eine Mehrzahl von binauralen Raumimpulsantworten für jede Audioqueile der ein oder mehreren Audioquellen handelt, die abhängig von der Positionsinformation dieser Audioqueile und einer Orientierung eines Kopfes eines Nutzers sind, und wobei der Lautsprechersignal-Erzeuger (154) des Signalgenerators (150) ausgebildet ist die von wenigstens zwei Lautsprechersignale abhängig von der Mehrzahl der binauralen Raumimpulsantworten und abhängig von dem modifizierten Audiosignalanteil der wenigstens einen Audioqueile zu erzeugen.
14. System nach Anspruch 13, wobei der Detektor (110) ausgebildet ist, den Audioquellen-Signalanteil der ein oder mehreren Audioquellen unter Verwendung von Deep Learning Modellen zu detektieren.
15. System nach Anspruch 13 oder 14, wobei die Positionsbestimmer (120) ausgebildet ist, die zu jedem der ein oder mehreren Audioquellen die Positionsinformation abhängig von einem aufgenommenen Bild oder von einem aufgenommenen Video zu bestimmen.
16. System nach einem der Ansprüche 13 bis 15, wobei der Signalaotcii-Modifizierer (140) ausgebildet ist, die wenigstens eine
Audioquelle, deren Audicquellen-Signalanteil modifiziert wird, abhängig von einem zuvor erlernten Benutzerszenario auszuwählen und abhängig von dem zuvor erlernten Benutzerszenario zu modifizieren,
17. System nach einem der Ansprüche 13 bis 16, wobei das System ein entferntes Gerät (190) umfasst, das den Detektor (110) und den Positionsbestimmer (120) und den Audiotyp-Klassifikator (130) und den Signalanteil-Modifizierer (140) und den Signalgenerator (150) umfasst, wobei das entfernte Gerät von dem Kopfhörer räumlich getrennt sind.
18. System nach Anspruch 17, wobei das entfernte Gerät (190) ein Smartphone ist.
19. Verfahren, umfassend:
Bestimmung einer Mehrzahl von binauralen Raumimpulsantworten,
Erzeugung von wenigstens zwei Lautsprechersignalen abhängig von der Mehrzahl der binauralen Raumimpulsantworten und abhängig von dem Audioquellsignal von wenigstens einer Audioquelle, wobei die Mehrzahl der binauralen Raumimpulsantworten so bestimmt werden, dass jede der Mehrzahl der binauralen Raumimpulsantworten einen Effekt berücksichtigt, der aus dem Tragen eines Kopfhörers durch einen Nutzer resultiert.
20. Computerprogramm mit einem Programmcode zur Durchführung des Verfahrens nach Anspruch 19.
PCT/EP2021/071151 2020-07-31 2021-07-28 System und verfahren zur kopfhörerentzerrung und raumanpassung zur binauralen wiedergabe bei augmented reality WO2022023417A2 (de)

Priority Applications (3)

Application Number Priority Date Filing Date Title
EP21751796.0A EP4189974A2 (de) 2020-07-31 2021-07-28 System und verfahren zur kopfhörerentzerrung und raumanpassung zur binauralen wiedergabe bei augmented reality
JP2023506248A JP2023536270A (ja) 2020-07-31 2021-07-28 拡張現実におけるバイノーラル再生のためのヘッドホン等化および室内適応のためのシステムおよび方法
US18/158,724 US20230164509A1 (en) 2020-07-31 2023-01-24 System and method for headphone equalization and room adjustment for binaural playback in augmented reality

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
EP20188945.8A EP3945729A1 (de) 2020-07-31 2020-07-31 System und verfahren zur kopfhörerentzerrung und raumanpassung zur binauralen wiedergabe bei augmented reality
EP20188945.8 2020-07-31

Related Child Applications (1)

Application Number Title Priority Date Filing Date
US18/158,724 Continuation US20230164509A1 (en) 2020-07-31 2023-01-24 System and method for headphone equalization and room adjustment for binaural playback in augmented reality

Publications (2)

Publication Number Publication Date
WO2022023417A2 true WO2022023417A2 (de) 2022-02-03
WO2022023417A3 WO2022023417A3 (de) 2022-03-24

Family

ID=71899608

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/EP2021/071151 WO2022023417A2 (de) 2020-07-31 2021-07-28 System und verfahren zur kopfhörerentzerrung und raumanpassung zur binauralen wiedergabe bei augmented reality

Country Status (4)

Country Link
US (1) US20230164509A1 (de)
EP (2) EP3945729A1 (de)
JP (1) JP2023536270A (de)
WO (1) WO2022023417A2 (de)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20230199420A1 (en) * 2021-12-20 2023-06-22 Sony Interactive Entertainment Inc. Real-world room acoustics, and rendering virtual objects into a room that produce virtual acoustics based on real world objects in the room
WO2023208333A1 (en) * 2022-04-27 2023-11-02 Huawei Technologies Co., Ltd. Devices and methods for binaural audio rendering

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20150195641A1 (en) 2014-01-06 2015-07-09 Harman International Industries, Inc. System and method for user controllable auditory environment customization

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
DE102014210215A1 (de) * 2014-05-28 2015-12-03 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Ermittlung und Nutzung hörraumoptimierter Übertragungsfunktionen
US10409548B2 (en) * 2016-09-27 2019-09-10 Grabango Co. System and method for differentially locating and modifying audio sources

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20150195641A1 (en) 2014-01-06 2015-07-09 Harman International Industries, Inc. System and method for user controllable auditory environment customization

Non-Patent Citations (83)

* Cited by examiner, † Cited by third party
Title
A. AVNIJ. AHRENSM. GEIERCS. SPORSH. WIERSTORFB. RAFAELY: "Spatial perception of sound fields recorded by spherical microphone arrays with varying spatial resolution", JOURNAL OF THE ACOUSTIC SOCIETY OF AMERICA, vol. 133, no. 5, 2013, pages 2711 - 2721, XP012173358, DOI: 10.1121/1.4795780
A. MCPHERSONR. JACKG. MORO: "Action-sound latency: Are our tools fast enough?", PROCEEDINGS OF THE INTERNATIONAL CONFERENCE ON NEW INTERFACES FOR MUSICAL EXPRESSION, July 2016 (2016-07-01)
A. MESAROST. HEITTOLAT. VIRTANEN: "A multi-device dataset for urban acoustic scene classification", PROCEEDINGS OF THE DETECTION AND CLASSIFICATION OF ACOUSTIC SCENES AND EVENTS WORKSHOP, SURREY, UK, 2018
B. FRENAYM. VERLEYSEN: "Classification in the presence of label noise: A survey", IEEE TRANSACTIONS ON NEURAL NETWORKS AND LEARNING SYSTEMS, vol. 25, no. 5, May 2014 (2014-05-01), pages 845 - 869, XP011545535, DOI: 10.1109/TNNLS.2013.2292894
BRANDENBURG, K.CANO CERON, E.KLEIN, F.KÖLLMER, T.LUKASHEVICH, H.NEIDHARDT, A.NOWAK, J.SLOMA, U.WERNER, S.: "Personalized auditory reality", 44. JAHRESTAGUNG FÜR AKUSTIK (DAGA), GARCHING BEI MÜNCHEN, DEUTSCHE GESELLSCHAFT FÜR AKUSTIK (DEGA, 2018
C. H. TAALR. C. HENDRIKSR. HEUSDENSJ. JENSEN: "An algorithm for intelligibility prediction of time-frequency weighted noisy speech", IEEE TRANSACTIONS ON AUDIO, SPEECH, AND LANGUAGE PROCESSING, vol. 19, no. 7, September 2011 (2011-09-01), pages 2125 - 2136, XP011335558, DOI: 10.1109/TASL.2011.2114881
C. ROTTONDIC. CHAFEC. ALLOCCHIOA. SARTI: "An overview on networked music performance technologies", IEEE ACCESS, vol. 4, 2016, pages 8823 - 8843
C.-R. NAGARJ. ABESSERS. GROLLMISCH: "Towards CNN-based acoustic modeling of seventh chords for recognition chord recognition", PROCEEDINGS OF THE 16TH SOUND & MUSIC COMPUTING CONFERENCE (SMC) (EINGEREICHT), MALAGA, SPAIN, 2019
D. FITZGERALDA. LIUTKUSR. BADEAU: "Projection-based demixing of spatial audio", IEEE/ACM TRANS. ON AUDIO, SPEECH, AND LANGUAGE PROCESSING, vol. 24, no. 9, 2016, pages 1560 - 1572
D. MATZE. CANOJ. ABESSER: "Proc. of the 16th International Society for Music Information Retrieval Conference", October 2015, ISMIR, article "New sonorities for early jazz recordings using sound source separation and automatic mixing tools", pages: 749 - 755
D. PAVLIDIA. GRIFFINM. PUIGTA. MOUCHTARIS: "Real-time multiple sound source localization and counting using a circular microphone array", IEEE TRANSACTIONS ON AUDIO, SPEECH, AND LANGUAGE PROCESSING, vol. 21, no. 10, 2013, pages 2193 - 2206, XP011521588, DOI: 10.1109/TASL.2013.2272524
D. SNYDER, D. GARCIA-ROMERO, G, SEIL, D. POVEY, S. KHUDANPUR: "X-vectors: Robust DNN embeddings for Speaker recognition", PROC. OF IEEE INTERNATIONAL CONFERENCE ON ACOUSTICS, SPEECH AND SIGNAL PROCESSING (ICASSP, April 2018 (2018-04-01), pages 5329 - 5333, XP033403941, DOI: 10.1109/ICASSP.2018.8461375
D. YOOKT. LEEY. CHO: "Fast sound source localization using two-level search space clustering", IEEE TRANSACTIONS ON CYBERNETICS, vol. 46, no. 1, January 2016 (2016-01-01), pages 20 - 26, XP011594358, DOI: 10.1109/TCYB.2015.2391252
E. C CAKIRT. VIRTANEN: "End-to-end polyphonic sound event detection using convolutional recurrent neural networks with learned time-frequency representation input", PROC. OF INTERNATIONAL JOINT CONFERENCE ON NEURAL NETWORKS (IJCNN, July 2018 (2018-07-01), pages 1 - 7
E. CANOD. FITZGERALDA. LIUTKUSM. D. PLUMBLEYF. STÖTER: "Musical source separation: An introduction", IEEE SIGNAL PROCESSING MAGAZINE, vol. 36, no. 1, January 2019 (2019-01-01), pages 31 - 40, XP011694891, DOI: 10.1109/MSP.2018.2874719
E. CANOD. FITZGERALDK. BRANDENBURG: "Evaluation of quality of sound source separation algorithms: Human perception vs quantitative metrics", PROCEEDINGS OF THE 24TH EUROPEAN SIGNAL PROCESSING CONFERENCE (EUSIPCO, 2016, pages 1758 - 1762, XP033011238, DOI: 10.1109/EUSIPCO.2016.7760550
E. CANOG. SCHULLERC. DITTMAR: "Pitch-informed solo and accompaniment separation towards its use in music education applications", EURASIP JOURNAL ON ADVANCES IN SIGNAL PROCESSING, vol. 23, 2014, pages 1 - 19
E. CANOJ. LIEBETRAUD. FITZGERALDK. BRANDENBURG: "The dimensions of perceptual quality of sound source separation", PROC. OF IEEE INTERNATIONAL CONFERENCE ON ACOUSTICS, SPEECH AND SIGNAL PROCESSING (ICASSP, April 2018 (2018-04-01), pages 601 - 605, XP033401636, DOI: 10.1109/ICASSP.2018.8462325
E. CANOJ. NOWAKS. GROLLMISCH: "Exploring sound source separation for acoustic condition monitoring in industrial scenarios", PROC. OF 25TH EUROPEAN SIGNAL PROCESSING CONFERENCE (EUSIPCO, August 2017 (2017-08-01), pages 2264 - 2268, XP033236389, DOI: 10.23919/EUSIPCO.2017.8081613
E. FONSECAM. PLAKALD. P. W. ELLISF. FONTX. FAVORYX. SERRA: "Learning sound event classifiers from web audio with noisy labels", PROCEEDINGS OF IEEE INTERNATIONAL CONFERENCE ON ACOUSTICS, SPEECH AND SIGNAL PROCESSING (ICASSP), BRIGHTON, UK, 2019
F. EYBENF. WENINGERS. SQUARTINIB. SCHULLER: "Real-life voice activity detection with LSTM recurrent neural networks and an application to hollywood movies", PROC. OF IEEE INTERNATIONAL CONFERENCE ON ACOUSTICS, SPEECH AND SIGNAL PROCESSING, May 2013 (2013-05-01), pages 483 - 487, XP032509188, DOI: 10.1109/ICASSP.2013.6637694
F. GRONDINF. MICHAUD: "Lightweight and optimized sound source localization and tracking methods for open and closed microphone array configurations", ROBOTICS AND AUTONOMOUS SYSTEMS, vol. 113, 2019, pages 63 - 80
F. MÜLLERM. KARAU.: "Transparant hearing", CHI ,02 EXTENDED ABSTRACTS ON HUMAN FACTORS IN COMPUTING SYSTEMS (CHI EA '02), MINNEAPOLIS, USA, April 2002 (2002-04-01), pages 730 - 731
F. WENINGERH. ERDOGANS. WATANABEE. VINCENTJ. LE ROUXJ. R. HERSHEYB. SCHULLER: "Latent Variable Analysis and Signal Separation", 2015, SPRINGER INTERNATIONAL PUBLISHING, article "Speech enhancement with LSTM recurrent neural networks and its application to noise-robust ASR", pages: 293 - 305
G. NAITHANIT. BARKERG. PARASCANDOLOL. BRAMSLTWN. H. PONTOPPIDANT. VIRTANEN: "Low latency sound source separation using convolutional recurrent neural networks", PROC. OF IEEE WORKSHOP ON APPLICATIONS OF SIGNAL PROCESSING TO AUDIO AND ACOUSTICS (WASPAA, 2017, pages 71 - 75, XP033264904, DOI: 10.1109/WASPAA.2017.8169997
G. PARASCANDOLOH. HUTTUNENT. VIRTANEN: "Recurrent neural networks for polyphonic sound event detection in real life recordings", PROC. OF IEEE INTERNATIONAL CONFERENCE ON ACOUSTICS, SPEECH AND SIGNAL PROCESSING (ICASSP, March 2016 (2016-03-01), pages 6440 - 6444
G. S. PAPINIR. IL. PINTOIE. B. MEDEIROSF. B. COELHO: "Hybrid approach to noise control of industriall exhaust systems", APPLIED ACOUSTICS, vol. 125, 2017, pages 102 - 112, XP085026079, DOI: 10.1016/j.apacoust.2017.03.017
H. WIERSTORFD. WARDR. MASONE. M. GRAISC. HUMMERSONEM. D. PLUMBLEY: "Perceptual evaluation of source separation for remixing music", PROC. OF AUDIO ENGINEERING SOCIETY CONVENTION, vol. 143, 2017
J. ABESSERM. GÖTZES. KÜHNLENZR. GRÄFEC. KÜHNT. CLAUSSH. LUKASHEVICH: "A Distributed Sensor Network for Monitoring Noise Level and Noise Sources in Urban Environments", PROCEEDINGS OF THE 6TH IEEE INTERNATIONAL CONFERENCE ON FUTURE INTERNET OF THINGS AND CLOUD (FICLOUD), BARCELONA, SPAIN, 2018, pages 318 - 324, XP033399745, DOI: 10.1109/FiCloud.2018.00053
J. ABESSERM. MÜLLER: "Fundamental frequency contour classification: A comparison between hand-crafted and CNN-based features", PROCEEDINGS OF THE 44TH IEEE INTERNATIONAL CONFERENCE ON ACOUSTICS, SPEECH, AND SIGNAL PROCESSING (ICASSP, 2019
J. ABESSERS. BALKEM. MÜLLER: "Improving bass saliency estimation using label propagation and transfer learning", PROCEEDINGS OF THE 19TH INTERNATIONAL SOCIETY FOR MUSIC INFORMATION RETRIEVAL CONFERENCE (ISMIR), PARIS, FRANCE, 2018, pages 306 - 312
J. ABESSERS. LOANNIS MIMILAKISR. GRÄFEH. LUKASHEVICH: "Acoustic scene classification by combining autoencoder-based dimensionality reduction and convolutional neural net-works", PROCEEDINGS OF THE 2ND DCASE WORKSHOP ON DETECTION AND CLASSIFICATION OF ACOUSTIC SCENES AND EVENTS, MUNICH, GERMANY, 2017
J. CHUAG. WANGW. B. KLLEIJN: "Convolutive blind source Separation with low latency", PROC. OF IEEE INTERNATIONAL WORKSHOP ON ACOUSTIC SIGNAL ENHANCEMENT (IIWAENC, September 2016 (2016-09-01), pages 1 - 5, XP032983095, DOI: 10.1109/IWAENC.2016.7602895
J. F. GEMMEKED. P. W. ELLISD. FREEDMANA. JANSENW. LAWRENCER. C. MOOREM. PLAKALM. RITTER: "Audio Set: An ontology and human-labeled dataset for audio events", PROCEEDINGS OF THE IEEE INTERNATIONAL CONFERENCE ON ACOUSTICS, SPEECH AND SIGNAL PROCESSING (ICASSP), NEW ORLEANS, USA, 2017
J. PONSJ. JANERT. RODEW. NOGUEIRA: "Remixing music using source separation algorithms to improve the musical experience of cochlear implant users", THE JOURNAL OF THE ACOUSTICAL SOCIETY OF AMERICA, vol. 140, no. 6, 2016, pages 4338 - 4349, XP012214619, DOI: 10.1121/1.4971424
J. R. HERSHEYZ. CHENJ. LE ROUXS. WATANABE: "Deep clustering: Discriminative embeddings for segmentation and separation", PROCEEDINGS OF THE IEEE INTERNATIONAL CONFERENCE ON ACOUSTICS, SPEECH AND SIGNAL PROCESSING (ICASSP, 2016, pages 31 - 35, XP032900557, DOI: 10.1109/ICASSP.2016.7471631
J. S. GÖMEZJ. ABESSERE. CANO: "Jazz solo instrument classification with convolutional neural networks, source separation, and transfer learning", PROCEEDINGS OF THE 19TH INTERNATIONAL SOCIETY FOR MUSIC INFORMATION RETRIEVAL CONFERENCE (ISMIR), PARIS, FRANCE, 2018, pages 577 - 584
J. ZHANGT. D. ABHAYAPALAW. ZHANGP. N. SAMARASINGHES. JIANG: "Active noise control over space: A wave domain approach", IEEE/ACM TRANSACTIONS ON AUDIO, SPEECH, AND LANGUAGE PROCESSING, vol. 26, no. 4, April 2018 (2018-04-01), pages 774 - 786
J.-L. DURRIEUB. DAVIDG. RICHARD: "A musically motivated midlevel representation for pitch estimation and musical audio source separation", SELECTED TOPICS IN SIGNAL PROCESSING, IEEE JOURNAL OF, vol. 5, no. 6, 2011, pages 1180 - 1191, XP011386718, DOI: 10.1109/JSTSP.2011.2158801
K. BRANDENBURGE. CANOF. KLEINT. KÖLLMERH. LUKASHEVICHA. NEIDHARDTU. SLOMAS. WERNER: "Plausible augmentation of auditory scenes using dynamic binaural synthesis for personalized auditory realities", PROC. OF AES INTERNATIONAL CONFERENCE ON AUDIO FOR VIRTUAL AND AUGMENTED REALITY, August 2018 (2018-08-01)
KLEINER, M.: "Acoustics and Audio Technology", 2012, J. ROSS PUBLISHING
L. JIAKAI: "Mean teacher convolution system for dcase 2018 task 4", DCASE2018 CHALLENGE, TECH. REP., September 2018 (2018-09-01)
L. VIEIRA: "Master Thesis", 2018, AALBORG UNIVERSITY, article "Super hearing: a study on virtual prototyping for hearables and hearing aids"
M. DICKREITERV. DITTELW. HOEGM. WÖHR: "Handbuch der Tonstudiotechnik", vol. 1, 2008, K.G. SAUR VERLAG
M. DORFERG WIDMER: "Training general-purpose audio tagging networks with noisy labeis and iterative self-verification", PROCEEDINGS OF THE DETECTION AND CLASSIFICATION OF ACOUSTIC SCENES AND EVENTS 2018 WORKSHOP (DCASE2018), SURREY, UK, 2018
M. MCLAREND. CASTANM. K. NANDWANAL FERRERE. YILMAZ: "How to train your speaker embeddings extractor", ODYSSEY, 2018
M. MCLARENY. LEIL. FERRER: "Advances in deep neural network approaches to speaker recognition", PROC. OF IEEE INTERNATIONAL CONFERENCE ON ACOUSTICS, SPEECH AND SIGNAL PROCESSING (ICASSP, April 2015 (2015-04-01), pages 4814 - 4818
M. SUNOHARAC. HARUTAN. ONO: "Low-Iatency real-time blind source separation for hearing aids based on time-domain implementation of online independent vector analysis with truncation of non-causal components", PROC. OF IEEE INTERNATIONAL CONFERENCE ON ACOUSTICS, SPEECH AND SIGNAL PROCESSING (ICASSP, March 2017 (2017-03-01), pages 216 - 220
P. M. DELGADOJ. HERRE: "Objective assessment of spatial audio quality using directional loudness maps", PROC. OF IEEE INTERNATIONAL CONFERENCE ON ACOUSTICS, SPEECH AND SIGNAL PROCESSING (ICASSP, May 2019 (2019-05-01), pages 621 - 625, XP033566358, DOI: 10.1109/ICASSP.2019.8683810
P. N. SAMARASINGHEW. ZHANGT. D. ABHAYAPALA: "Recent advances in active noise control inside automobile cabins: Toward quieter cars", IEEE SIGNAL PROCESSING MAGAZINE, vol. 33, no. 6, November 2016 (2016-11-01), pages 61 - 73, XP011633441, DOI: 10.1109/MSP.2016.2601942
P. VECCHIOTTIN. MAS. SQUARTINIG. J. BROWN: "End-to-end binaural sound localisation from the raw waveform", PROC. OF IEEE INTERNATIONAL CONFERENCE ON ACOUSTICS, SPEECH AND SIGNAL PROCESSING (ICASSP, May 2019 (2019-05-01), pages 451 - 455
Q. KONGY. XUW. WANGM. D. PLUMBLEY: "A joint separation-classification model for sound event detection of weakly labelled data", PROCEEDINGS OF IEEE INTERNATIONAL CONFERENCE ON ACOUSTICS, SPEECH AND SIGNAL PROCESSING (ICASSP, March 2018 (2018-03-01)
R. SERIZELN. TURPAULTH. EGHBAL-ZADEHA. PARAG SHAH: "Large- Scale Weakly Labeled Semi-Supervised Sound Event Detection in Domestic Environments", DCASE2018 WORKSHOP, July 2018 (2018-07-01)
R. ZAZO-CANDILT. N. SAINATHG. SIMKOC. PARADA: "Feature learning with rawwaveform CLDNNs for voice activity detection", PROC. OF INTERSPEECH, 2016
S. ADAVANNEA. POLITISJ. NIKUNENT. VIRTANEN: "Sound event localization and detection of overlapping sources using convolutional recurrent neural networks", IEEE JOURNAL OF SELECTED TOPICS IN SIGNAL PROCESSING, 2018, pages 1 - 1
S. ARGENTIERIP. DANSP. SOURES: "A survey on sound source localization in robotics: From binaural to array processing methods", COMPUTER SPEECH LANGUAGE, vol. 34, no. 1, 2015, pages 87 - 112, XP029225205, DOI: 10.1016/j.csl.2015.03.003
S. CHAKRABARTYE. A. P. HABETS: "Multi-speaker DOA estimation using deep convolutional networks trained with noise signals", IEEE JOURNAL OF SELECTED TOPICS IN SIGNAL PROCESSING, vol. 13, no. 1, March 2019 (2019-03-01), pages 8 - 21
S. DELIKARIS-MANIASD. PAVLIDIA. MOUCHTARISV. PULKKI: "DOA estimation with histogram analysis of spatially constrained active intensity vectors", PROC. OF IEEE INTERNATIONAL CONFERENCE ON ACOUSTICS, SPEECH AND SIGNAL PROCESSING (ICASSP, March 2017 (2017-03-01), pages 526 - 530, XP033258473, DOI: 10.1109/ICASSP.2017.7952211
S. GANNOTE. VINCENTS. MARKOVICH-GOLANA. OZEROV: "A consolidated perspective on multimicrophone speech enhancement and source eparation", IEEE/ACM TRANSACTIONS ON AUDIO, SPEECH, AND LANGUAGE PROCESSING, vol. 25, no. 4, April 2017 (2017-04-01), pages 692 - 730, XP058372577, DOI: 10.1109/TASLP.2016.2647702
S. GHARIBK. DROSSOSE. CAKIRD. SERDYUKT. VIRTANEN: "Unsupervised adversarial domain adaptation for acoustic scene classification", PROCEEDINGS OF THE DETECTION AND CLASSIFICATION OF ACOUSTIC SCENES AND EVENTS WORKSHOP (DCASE, November 2018 (2018-11-01), pages 138 - 142
S. GROLLMISCH, J. ABESSER, J. LIEBETRAU, H. LUKASHEVICH: "Sounding industry: Challenges and datasets for industrial sound analysis (ISA)", PROCEEDINGS OF THE 27TH EUROPEAN SIGNAL PROCESSING CONFERENCE (EUSIPCO) (EINGEREICHT), A CORUNA, SPAIN, 2019
S. GURURANIC. SUMMERSA. LERCH: "Proceedings of the 19th International Society for Music Information Retrieval Conference", September 2018, ISMIR, article "Instrument activity detection in polyphonic music using deep neural networks", pages: 321 - 326
S. I. MIMILAKISK. DROSSOSJ. F. SANTOSG. SCHULLERT. VIRTANENY. BENGIO: "Monaural Singing Voice Separation with Skip-Filtering Connections and Recurrent Inference of Time-Frequency Mask", PROCEEDINGS OF THE IEEE INTERNATIONAL CONFERENCE ON ACOUSTICS, SPEECH, AND SIGNAL PROCESSING (ICASSP), CALGARY, CANADA, 2018, pages 721 - 725
S. LIEBICHJ. FABRYP. JAXP. VARY: "Signal processing challenges for active noise cancellation headphones", SPEECH COMMUNICATION; 13TH ITG-SYMPOSIUM, October 2018 (2018-10-01), pages 1 - 5
S. M. KUOD. R. MORGAN: "Active noise control: a tutorial review", PROCEEDINGS OFTHE IEEE, vol. 87, no. 6, June 1999 (1999-06-01), pages 943 - 973
S. MARCHAND: "Audio scene transformation using informed source separation", THE JOURNAL OF THE ACOUSTICAL SOCIETY OF AMERICA, vol. 140, no. 4, 2016, pages 3091
S. O. SADJADIJ. W. PELECANOSS. GANAPATHY: "The IBM speaker recognition system: Recent advances and error analysis", PROC. OF INTERSPEECH, 2016, pages 3633 - 3637
S. PASCUALA. BONAFONTEJ. SERRÄ: "SEGAN: speech enhancement generative adversarial network", PROC. OF INTERSPEECH, August 2017 (2017-08-01), pages 3642 - 3646
S. UHLICHM. PORCUF. GIRONM. ENENKLT. KEMPN. TAKAHASHIY. MITSUFUJI: "Improving music source separation based on deep neural networks through data augmentation and network blending", PROC. OF IEEE INTERNATIONAL CONFERENCE ON ACOUSTICS, SPEECH AND SIGNAL PROCESSING (ICASSP, 2017
T. GERKMANNM. KRAWCZYK-BECKERJ. LE ROUX: "Phase processing for single-channel speech enhancement: History and recent advances", IEEE SIGNAL PROCESSING MAGAZINE, vol. 32, no. 2, March 2015 (2015-03-01), pages 55 - 66, XP011573073, DOI: 10.1109/MSP.2014.2369251
T. V. NEUMANNK. KINOSHITAM. DELCROIXS. ARAKIT. NAKATANIR. HAEB-UMBACH: "All-neural online source separation, counting, and diarization for meeting analysis", PROC. OF IEEE INTERNATIONAL CONFERENCE ON ACOUSTICS, SPEECH AND SIGNAL PROCESSING (ICASSP, May 2019 (2019-05-01), pages 91 - 95
V. LONSTANLENC.-E. CELLA: "Proceedings of the 17th International Society for Music Information Retrieval Conference", 2016, ISMIR, article "Deep convolutional networks on the pitch spiral for musical instrument recognition", pages: 612 - 618
V. VALIMAKIA. FRANCKJ. RAMOH. GAMPERL. SAVIOJA: "Assisted listening using a headset: Enhancing audio perception in real, augmented, and virtual environments", IEEE SIGNAL PROCESSING MAGAZINE, vol. 32, no. 2, March 2015 (2015-03-01), pages 92 - 99, XP011573083, DOI: 10.1109/MSP.2014.2369191
X. LIL. GIRINR. HORAUDS. GANNOT: "Multiple-speaker localization based on direct-path features and likelihood maximization with spatial sparsity regularization", IEEE/ACM TRANSACTIONS ON AUDIO, SPEECH, AND LANGUAGE PROCESSING, vol. 25, no. 10, October 2017 (2017-10-01), pages 1997 - 2012
X. LUY. TSAOS. MATSUDAC. HORI: "Speech enhancement based on deep denoising autoencoder", PROC. OF INTERSPEECH, 2013
Y. HANJ. KIMK. LEE: "Deep convolutional neural networks for predominant instrument recognition in polyphonic music", IEEE/ACM TRANSACTIONS ON AUDIO, SPEECH, AND LANGUAGE PROCESSING, vol. 25, no. 1, January 2017 (2017-01-01), pages 208 - 221
Y. ILUON. MESGARANI: "TaSNet: Time-domain audio Separation network for realltime, single-channel speech separation", PROC. OF IEEE INTERNATIONAL CONFERENCE ON ACOUSTICS, SPEECH AND SIGNAL PROCESSING (ICASSP, April 2018 (2018-04-01), pages 696 - 700
Y. JUNGY. KIMY. CHOIH. KIM: "Joint learning using denoising variational autoencoders for voice activity detection", PROC. OF INTERSPEECH, September 2018 (2018-09-01), pages 1210 - 1214
Y. LUOZ. CHENN. MESGARANI: "Speaker-independent speech separation with deep attractor network", IEEE/ACM TRANSACTIONS ON AUDIO, SPEECH, AND LANGUAGE PROCESSING, vol. 26, no. 4, April 2018 (2018-04-01), pages 787 - 796
Y. XUJ. DUL. DAIC. LEE: "A regression approach to speech enhancement based on deep neural networks", IEEE/ACM TRANSACTIONS ON AUDIO, SPEECH, AND LANGUAGE PROCESSING, vol. 23, no. 1, January 2015 (2015-01-01), pages 7 - 19
Y. XUQ. KONGW. WANGM. D. PLUMBLEY: "Large-Scale Weakly Supervised Audio Classification Using Gated Convolutional Neural Network", PROCEEDINGS OF THE IEEE INTERNATIONAL CONFERENCE ON ACOUSTICS, SPEECH AND SIGNAL PROCESSING (ICASSP), CALGARY, AB, CANADA, 2018, pages 121 - 125
Z. RAFIIA. LIUTKUSF. STÖTERS. I. MIMILAKISD. FITZGERALDB. PARDO: "An overview of lead and accompaniment separation in music", IEEE/ACM TRANSACTIONS ON AUDIO, SPEECH, AND LANGUAGE PROCESSING, vol. 26, no. 8, August 2018 (2018-08-01), pages 1307 - 1335
Z. WANG, J. LE ROUX, J. R. HERSHEY: "Multi-channel deep clustering: Discriminative spectral and spatial embeddings for speaker-independent speech separation", PROC. OF IEEE INTERNATIONAL CONFERENCE ON ACOUSTICS, SPEECH AND SIGNAL PROCESSING (ICASSP, April 2018 (2018-04-01), pages 1 - 5, XP033400917, DOI: 10.1109/ICASSP.2018.8461639

Also Published As

Publication number Publication date
JP2023536270A (ja) 2023-08-24
EP4189974A2 (de) 2023-06-07
US20230164509A1 (en) 2023-05-25
EP3945729A1 (de) 2022-02-02
WO2022023417A3 (de) 2022-03-24

Similar Documents

Publication Publication Date Title
WO2021023667A1 (de) System und verfahren zur unterstützung von selektivem hören
Gabbay et al. Visual speech enhancement
Wang Time-frequency masking for speech separation and its potential for hearing aid design
Darwin Listening to speech in the presence of other sounds
Arons A review of the cocktail party effect
DE102007048973B4 (de) Vorrichtung und Verfahren zum Erzeugen eines Multikanalsignals mit einer Sprachsignalverarbeitung
CN110517705B (zh) 一种基于深度神经网络和卷积神经网络的双耳声源定位方法和系统
Bressler et al. Bottom-up influences of voice continuity in focusing selective auditory attention
US10825353B2 (en) Device for enhancement of language processing in autism spectrum disorders through modifying the auditory stream including an acoustic stimulus to reduce an acoustic detail characteristic while preserving a lexicality of the acoustics stimulus
CN107210032A (zh) 在掩蔽语音区域中掩蔽再现语音的语音再现设备
Marxer et al. The impact of the Lombard effect on audio and visual speech recognition systems
CN112352441B (zh) 增强型环境意识系统
WO2014191798A1 (en) An audio scene apparatus
US20230164509A1 (en) System and method for headphone equalization and room adjustment for binaural playback in augmented reality
CN103325383A (zh) 音频处理方法和音频处理设备
Hummersone A psychoacoustic engineering approach to machine sound source separation in reverberant environments
EP3216235B1 (de) Vorrichtung und verfahren zur tonsignalverarbeitung
EP2405673A1 (de) Verfahren zum Lokalisieren einer Audioquelle und mehrkanaliges Hörsystem
Keshavarzi et al. Use of a deep recurrent neural network to reduce wind noise: Effects on judged speech intelligibility and sound quality
Josupeit et al. Modeling speech localization, talker identification, and word recognition in a multi-talker setting
Abel et al. Novel two-stage audiovisual speech filtering in noisy environments
Somayazulu et al. Self-Supervised Visual Acoustic Matching
CN113347551B (zh) 一种单声道音频信号的处理方法、装置及可读存储介质
Gul et al. Preserving the beamforming effect for spatial cue-based pseudo-binaural dereverberation of a single source
US20230267942A1 (en) Audio-visual hearing aid

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 21751796

Country of ref document: EP

Kind code of ref document: A2

DPE1 Request for preliminary examination filed after expiration of 19th month from priority date (pct application filed from 20040101)
ENP Entry into the national phase

Ref document number: 2023506248

Country of ref document: JP

Kind code of ref document: A

WWE Wipo information: entry into national phase

Ref document number: 2021751796

Country of ref document: EP

ENP Entry into the national phase

Ref document number: 2021751796

Country of ref document: EP

Effective date: 20230228

NENP Non-entry into the national phase

Ref country code: DE