WO2014138758A2 - Verfahren zur erhöhung der sprachverständlichkeit - Google Patents

Verfahren zur erhöhung der sprachverständlichkeit Download PDF

Info

Publication number
WO2014138758A2
WO2014138758A2 PCT/AT2014/000045 AT2014000045W WO2014138758A2 WO 2014138758 A2 WO2014138758 A2 WO 2014138758A2 AT 2014000045 W AT2014000045 W AT 2014000045W WO 2014138758 A2 WO2014138758 A2 WO 2014138758A2
Authority
WO
WIPO (PCT)
Prior art keywords
module
speech signal
noise
signal
speech
Prior art date
Application number
PCT/AT2014/000045
Other languages
English (en)
French (fr)
Other versions
WO2014138758A3 (de
Inventor
Lukas PFEIFENBERGER
Original Assignee
Commend International Gmbh
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Commend International Gmbh filed Critical Commend International Gmbh
Publication of WO2014138758A2 publication Critical patent/WO2014138758A2/de
Publication of WO2014138758A3 publication Critical patent/WO2014138758A3/de

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Processing of the speech or voice signal to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • G10L21/0216Noise filtering characterised by the method used for estimating noise
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Processing of the speech or voice signal to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • G10L21/0216Noise filtering characterised by the method used for estimating noise
    • G10L2021/02161Number of inputs available containing the signal or the noise to be suppressed
    • G10L2021/02166Microphone arrays; Beamforming

Definitions

  • the invention relates to a method for increasing the speech intelligibility of an audio signal, a barrier system with a communication system, an emergency call system and a communication unit, according to the preamble of claims 1, 34, 36 and 39.
  • Systems are already known in which from a mixture of
  • the recording takes place via a single microphone, from which the recorded sound or the audio signal is transmitted to an evaluation unit.
  • the evaluation unit is then preferably via a software tries the noise with the
  • the object of the invention is to provide a method for increasing
  • the object of the invention is to avoid the known disadvantages of the prior art and to improve.
  • Another object of the invention is to achieve the best possible speech quality with simultaneous specification of the noise suppression by optimal evaluation of the speech signal. This specification is given as a numeric value in dB (decibels).
  • the object of the invention is achieved in that the speech intelligibility is achieved by reducing the volume of the noise from the speaker's place, wherein for receiving the audio signal at least two
  • Microphone channels are used, which the audio signal to a
  • a first module in particular a DOA estimation module, for
  • a second module in particular a GSC beamforming module, for
  • a third module in particular a multichannel postfilter module, for
  • An essential advantage of the solution according to the invention is also that analyzes already known from the prior art can be supplemented or exchanged with new analyzes and technologies in a simple manner. It is also advantageous that, depending on the field of application, the different modules can be optimally adapted, so that the best possible speech recognition and speech reproduction can be created. In addition, a significant advantage over the prior art that a direction detection of the speech signal is performed first, so characterized an optimized recording of the speech signal can be made undamped, whereby the remaining area outside the recording direction filtered out better, or are absorbed only attenuated. It is advantageous in the inventive solution but also that the
  • Direction detection works robust enough even at high noise levels to reliably detect the direction and activity of the speaker. This information is useful in many communication systems (barriers, etc.) to establish a voice-controlled connection.
  • the DOA-estimation module a directivity of the microphone sensitivity is generated in the direction of the speaker, the main lobe with the movement of the
  • the main lobe has a width of -20 ° and + 20 ° to the current position of the speaker, with the usable frequency range 20 to 20 000 Hz, is achieved in an advantageous manner that an optimized recording can be done and an easier suppression of the surrounding noise is possible.
  • a tracking of the main lobe can be done a more concentrated evaluation, so that a much higher voice quality is achieved as possible
  • main lobe is designed such that minimal fluctuations, such as head movements of the
  • the audio signal in particular a microphone signal
  • Zm (j) the audio signal in particular the mth microphone signal
  • Audio signal in particular microphone signals, via the algorithm
  • Direct sound to diffuse sound is achieved in an advantageous manner that an optimal assessment of the direction of the useful speech signal is made possible.
  • a cost function is formed, it is achieved that an optimal basis for the direction determination is formed.
  • An advantage is a procedure in which the determined direction of the speech signal and / or the data for this purpose are transferred from the first module to the second module, since a high-quality evaluation of the speech signal is thereby possible.
  • the vector A (Qj) describes the transfer functions from the speaker to all microphones.
  • Tr (r N w ⁇ M - Tr (iW ' f / r ⁇ ) A m (W H T
  • Delay to be processed is achieved in an advantageous manner that for the user as well as no time delays are noticeable.
  • a further module in particular a so-called Echocanceller module, for reducing acoustic echoes, together with the modules one to three in a single operating software is used, is achieved in an advantageous manner that This can prevent echoes and feedbacks for voice input and voice output.
  • Transfer functions between the microphones calculated, is used, since this can be achieved an improvement in quality.
  • the arrangement of the microphones is determined during operation, with only an area for the distance of the microphones is specified.
  • the resulting speech signal is either output directly and / or, preferably permanently, in one
  • Speech memory is stored, the signal transport via any medium and / or protocol takes place.
  • an emergency call system in which the central unit and / or communication system for carrying out the
  • Data lines, telephone lines, radio signals and / or Internet connections is formed, since thereby the optimal connection type for the data transmission can be selected. Thus, a secure and best possible transmission is achieved.
  • Voice signal is connected to the transmission unit for the external hotline, as a direct data transmission, in particular the voice signal is possible.
  • Fig.1 is a schematic representation of a communication system
  • FIG. 3 is a perspective view of an angle of incidence of a speech signal of a user
  • FIG. 4 is a plan view of a barrier system, in a simplified, schematic representation
  • FIG. 5 shows another plan view of an embodiment of an emergency call system, in a simplified, schematic representation.
  • Sound sources 2 for generating a noise 3 such as
  • a user 4 is diagrammatically shown for generating a speech signal 5.
  • the communication system 1 is designed to increase speech intelligibility of the 5 audio signal 6, in particular of the speech signal 5, and in the exemplary embodiment shown comprises, for example, an evaluation unit 8 and an output unit 9, the individual components preferably having a modular structure.
  • the speech intelligibility is achieved by reducing the volume of the noise 3 from the location of a speaker or user 4.
  • the recording unit 7 is connected to the evaluation unit 8, wherein for receiving the audio signal 6 the recording means 7 consists of at least two
  • Microphones 10, 1 1 is formed. Basically, it is possible to use any number of microphones 10, 1 1 for the recording of the audio signal 6, wherein it has been shown that up to four microphones 10, 1 1 as
  • the communication system 1, in particular the evaluation unit 8 and the output unit 9, is designed such that the operation via a
  • the evaluation unit 8 is thereby formed of three modules 12, 13 and 14 with different functions, the first module 12, in particular a DOA estimation module 12, for determining the direction of the speech signal 5, the second module 13, in particular a GSC - Beamforming module 13, for detection and separation of the speech signal 5 of the noise 3 and the third module 14, in particular a multichannel postfilter module 14, for subtracting the noise 3 from the speech signal 5 comprises.
  • the first module 12 in particular a DOA estimation module 12, for determining the direction of the speech signal 5
  • the second module 13 in particular a GSC - Beamforming module 13, for detection and separation of the speech signal 5 of the noise 3
  • the third module 14, in particular a multichannel postfilter module 14, for subtracting the noise 3 from the speech signal 5 comprises.
  • DCSE a so-called “Dual Channal Speech Enhancement", abbreviated DCSE system, carried out, wherein the DCSE system describes a technical-mathematical method, which of the
  • the advantage of the DCSE is that the voice signal 5 is reproduced clearly and with high quality at the remote station, with an optimal minimization or filtering out the noise, such as echoes and ambient noise, is performed.
  • the speech signal 5 of the user 4 is received via the microphones 10, 1 1, wherein the microphone 10, 1 1 and the
  • This received signal is transmitted as an audio signal 6 to the evaluation unit 8, from which now the processing of the audio signal 8 takes place.
  • the direction of the speech signal 5 is first determined, for which purpose a directivity of the microphone sensitivity in the direction of the speaker or user 4 is generated, wherein a main lobe 15, as shown in FIG. 2, is tracked with the movement of a speaker 4. It is in Fig. 2 a
  • the shaded area in the middle is transmitted undamped and forms the main lobe 15, whereas the remaining areas are strongly suppressed with -20dB.
  • the area of greatest sensitivity (main lobe 15) is found between -20 ° and + 20 °, corresponding to the hatched area.
  • This main lobe 15 tracks the movements of the speaker, and is also wide enough to accommodate for minimal variations such as head movements. That is, the user 4 often moves the head slightly when speaking, this being recognized and by tracking the main lobe 15 again the best possible recording is achieved.
  • the other areas above 6000Hz at + -90 ° are the so-called side lobes 16 (Sidelobes). However, due to the high frequency, these do not represent a deterioration in quality.
  • the main lobe 15 thus comprises a width of -20 ° and + 20 ° around the current position of the speaker 4, the usable frequency range comprising 20 to 20,000 Hz.
  • the width of the main lobe 5 decreases with increasing frequency in the bandwidth, wherein the main lobe 15 is designed such that minimal fluctuations, such as head movements of the
  • the following algorithm "Direct-to-Diffiffusion Ratio" is processed in the first module 12, in particular in the DOA estimation module 12, for estimating or determining the direction of the speech signal 5.
  • the result is a spectral density estimate over time averaging according to the following algorithm calculated. From the spectral density estimate, the complex spatial
  • the sound field of the noise 3 is considered to be ideally isotropic:
  • Equation 1 .4 By integrating Equation 1 .4 over the complex Fourier spectrum, one obtains a cost function which has a definite maximum at the angle of incidence of the speech signal 5:
  • This condition is used to a Add-on module 17 (RTF-estimation module 17), which will be described later in detail and shown in Fig. 1, call.
  • RTF-estimation module 17 the absolute value of the relative transfer function between the mth and mth microphone 10, 11 is estimated. This amount is calculated from the short-term power density spectra of the microphone signals:
  • Module 13 depends directly on this transfer function. It is calculated for each of the m microphones 10, 11.
  • the Störschall 3 can be any kind of noise, but also the echo of any existing intercom, including the additional module 17 is present.
  • the noise 3 is not necessarily an acoustic center
  • the first module 12 thus includes the determination of the direction of arrival of the speech signal 5, which is required for the subsequent modules 13 and 14.
  • the following sketch in Fig. 3 illustrates the occurrence of the direction of incidence of a speech signal 5 s (k) at the microphone array.
  • Fig. 3 is a diagrammatic representation for illustrating the
  • Sound source 2 in particular of the speech signal 5, is roughly derivable.
  • the determined direction of the speech signal 5 and / or the data for this is transferred from the first module 12 to the second module 13.
  • the distribution of the audio signal 6 into the speech signal 5 and the noise 3, the direction of the speech signal 5 and / or the data of the first module 12 taken into account.
  • This module 13 thus provides an estimate of the useful and noise separately. This estimate is the more accurate, the more accurately the direction of the speaker 4 in the aforementioned module 12 can be determined.
  • Speech signal 5 is based on a directional sound field, and the noise 3 is a diffuse or isotropic sound field.
  • Noise signals 3 are used. Any namely first be a division into the noise 3 and the speech signal 5 and for the
  • the data from the interference signals 3 would no longer be available and the Direction determination can not be so accurate.
  • the data for the interference signals 3 it would be possible for the data for the interference signals 3 to be stored and for the direction determination to be incorporated so that the two modules could be exchanged.
  • the computational effort is higher and the algorithms have to be adapted accordingly.
  • the data or the signals, in particular the speech signal 5 and the noise 3 are transferred to the third module 14.
  • the third module 14 in the so-called multichannel postfilter module, a mathematical method based on a spatial autocorrelation matrix of the signals is used, which determines the ratio of speech signal energy to interfering energy (SNR) in the output signal of the second module 13.
  • W (jQ) of the GSC beamformer third module 14
  • the estimate of the speech signal 5 and the noise 3 at the GSC module 13 can be given as follows:
  • the vector Z (jü) describes the audio signal 6 at all M microphones 10, 1 1 according to equation 1.1.
  • the vector A A (Qj) describes the relative transfer functions between the microphones 10, 1 1 from Equation 1 .9, which with the DOA
  • Speech signals 5 and the noise 3 are obtained by direct calculation of the respective signal energies:
  • Equation 1.5 This results in the long-term spectral density estimates of the speech signal 5 and the noise 3:
  • the determined speech signal 5 is transferred to the output unit 9.
  • the signals transmitted by the second module 13 will be processed approximately in real time, preferably with a delay of 32 ms, so that virtually no noticeable time delay occurs. Furthermore, a reduction of the noise 3 by 25 dB is achieved by the third module 14.
  • an output device 21, in particular a loudspeaker 22 is connected to the output unit 9.
  • the output means 21 is not integrated directly in the communication system 1, but arranged externally via lines. Of course, it is possible for the output means 21 to be integrated directly into the communication system 1, for example by means of a
  • Communication system 1 decentralized to the voice input position, in particular the location of the user 4, to position, so that the receiving means 7 is arranged locally on the user 4 and this is connected via one or more lines with l o the communication system 1, in particular the evaluation unit 8.
  • communication systems 1 are in the communication system 1
  • optimal parameterization of the evaluation unit 8 can take place via extensive automated language tests which are based on German and English speech corpora.
  • the communication system 1 one or more
  • another additional module 17, in particular the so-called RTF estimation module 17, which calculates the relative acoustic transfer functions between the microphones 10, 1 1 from the direction information of the first module 12, can be used in the communication system 1.
  • the arrangement of the microphones 10, 1 1 is determined during operation, with only an area for the distance of the microphones 10, 1 1 is specified, ie, that suburb an optimal setting with respect to the possible
  • Language position of the user 4 can be made. Due to the optimal speech processing, it is also possible that the resulting speech signal 5 is either output directly and / or stored, preferably permanently, in a speech memory, wherein the signal can be transported via any medium and / or protocol. Thus, from the communication system due to deposited
  • Communication systems 1 uses the information of several, in particular two microphone channels to distinguish between interference and useful sound 3 and 5.
  • any other known design possibility can be selected, in particular by a microprocessor control. It is only important that in an implementation in other systems or
  • Fig. 4 is a barrier system 25, for example, for a parking garage u / o
  • the barrier system 25 is located at an access road 26.
  • such systems have decentralized reporting centers 27 on, in which a central unit 28 is arranged to control all components, that is connected to the central unit 28, the communication system 1, which is preferably also decentralized, a control unit 29 of the barrier system 25 connected to the barriers 30 and connected, for this purpose
  • a serial or parallel data / control network 31 is preferably used.
  • Speech signal 5 takes place in the central unit 28, so that at the place where the user is 4, ie in the input or output area, the communication system 1 is formed by the receiving means 7.
  • Speech traffic is necessary, both in the messaging center 27 and on the communication system 1 suburb of the user a recording means 7 and a
  • the evaluation of the speech signal 5 can take place, that is, so that the central unit and / or communication system for implementing the method, as described above, is formed.
  • Fig. 5 is another embodiment for the application of a
  • Communication system 1 shown.
  • the communication system 1 in an emergency call system 32 for example, for roads, in particular
  • each reporting point 34 and the central unit 28 has a transmission unit 35.
  • the transmission unit 35 is through
  • Central unit 28 functions smoothly, it is advantageous if each hotline 34 and thus the communication unit 1 and the central unit 28 are coded, so that the individual hotlines 34 can be addressed individually. It is also possible for the output unit 9 for the voice signal 5 to be connected to the transmission unit 35 for the external message point 34 so that the output unit 9 can be activated directly by the central unit 28, or a voice signal 5 from the user 4 in the control center can be issued. Basically, it should be noted that the communication unit 1 can also be used in other areas, such as in traffic tunnels, industrial parks, hotel complexes, etc. It is also possible that the
  • Communication unit 1 still further modules, such as a display for displaying information, an input block for entering codes, numbers, names, etc., has. Furthermore, it is also possible that to
  • Intercom system is used, this can be connected to an activation button or switch.
  • FIGS. 1 to 3, 4, 5 can form the subject of independent solutions according to the invention.
  • the relevant objects and solutions according to the invention are the

Abstract

Die Erfindung betrifft ein Verfahren zur Erhöhung der Sprachverständlichkeit eines Audiosignals (6), das aus einem Gemisch von Störgeräuschen (3) und Sprachsignalen (5) besteht, in digitalen elektroakustischen Kommunikationsanlagen (1 ). Die Sprachverständlichkeit wird durch Verminderung der Lautstärke der Störgeräusche (3) vom Ort eines Sprechers (4) erreicht. Zur Aufnahme des Audiosignals (6) werden zumindest zwei Mikrofonkanäle verwendet, welche das Audiosignal (6) an eine Auswerteeinheit (8) weiterleiten, in der das Störgeräusch (3) auf elektronischem Wege minimiert wird und das erzeugte Sprachsignal (5) von der Kommunikationsanlage (1 ) über eine Ausgabeeinheit (9) wiedergegeben wird. Der Betrieb der Kommunikationsanlage (1) und/oder der Auswerteeinheit (8) wird über eine Betriebssoftware, sichergestellt. Die Auswerteeinheit (8) umfasst - ein erstes Modul (12), insbesondere ein DOA-Estimation-Modul (12), zur Bestimmung der Richtung des Sprachsignals (5), - ein zweites Modul (13), insbesondere ein GSC-Beamforming-Modul (13), zur Feststellung und Trennung des Sprachsignals (5) von den Störgeräuschen (3) und - ein drittes Modul (14), insbesondere ein Multichannel-Postfilter-Modul (14), zur Subtraktion des Störgeräusches (3) vom Sprachsignal (5).

Description

Verfahren zur Erhöhung der Sprachverständlichkeit Die Erfindung beschreibt ein Verfahren zur Erhöhung der Sprachverständlichkeit eines Audiosignals, eines Schrankensystems mit einer Kommunikationsanlage, einer Notrufanlage und einer Kommunikationseinheit, gemäß dem Oberbegriff der Ansprüche 1 , 34, 36 und 39. Es sind bereits Systeme bekannt, bei denen aus einem Gemisch von
Störgeräuschen und Sprachsignalen zur besseren Verständlichkeit versucht wird, die Störgeräusch auszufiltern. Hierzu erfolgt die Aufnahme über ein einziges Mikrofon, von dem aus der aufgenommene Schall, bzw. das Audiosignal an eine Auswerteeinheit übertragen wird. In der Auswerteeinheit wird anschließend bevorzugt über eine Software versucht die Störgeräusche mit den
verschiedensten bekannten Algorithmen auszufiltern. Nachteilig ist hierbei, dass durch die Verwendung eines einzelnen Mikrofones stets ein Kompromiss zwischen Störgeräusch-Reduktion und erzielbarer Sprachqualität zu treffen ist. Weiters ist aus dem Stand der Technik bekannt, dass derartige Systeme dazu neigen, selbst störende Nebengeräusche zu erzeugen, welche unter dem Begriff „musical artefacts" bekannt sind.
Die Aufgabe der Erfindung liegt darin, ein Verfahren zur Erhöhung der
Sprachverständlichkeit eines Audiosignals, eines Schrankensystems mit einer Kommunikationsanlage, einer Notrufanlage und einer Kommunikationseinheit zu schaffen, bei dem die Wiedergabe-Qualität des Sprachsignals verbessert wird. Eine weitere Aufgabe der Erfindung liegt darin, die Aufnahmequalität des
Sprachsignals zu verbessern. Darüber hinaus liegt die Aufgabe der Erfindung darin, die bekannten Nachteile aus dem Stand der Technik zu vermeiden und zu verbessern. Eine weitere Aufgabe der Erfindung liegt darin, durch optimale Auswertung des Sprachsignals die bestmögliche Sprachqualität bei gleichzeitiger Vorgabe der Störgeräusch-Unterdrückung zu erzielen. Diese Vorgabe erfolgt als numerischer Wert in dB (Dezibel).
Die Aufgabe der Erfindung wird dadurch gelöst, dass die Sprachverständlichkeit durch Verminderung der Lautstärke der Störgeräusche vom Ort des Sprechers erreicht wird, wobei zur Aufnahme des Audiosignals zumindest zwei
Mikrofonkanäle verwendet werden, welche das Audiosignal an eine
Auswerteeinheit weiterleiten, in der das Störgeräusch auf elektronischem Wege minimiert wird und das erzeugte Sprachsignal von der Kommunikationsanlage über eine Ausgabeeinheit wiedergegeben wird und dass der Betrieb der
Kommunikationsanlage und/oder der Auswerteeinheit über eine Betriebssoftware, sichergestellt wird und dass die Auswerteeinheit
- ein erstes Modul, insbesondere ein DOA-Estimation-Modul, zur
Bestimmung der Richtung des Sprachsignals,
- ein zweites Modul, insbesondere ein GSC-Beamforming-Modul, zur
Feststellung und Trennung des Sprachsignals von den Störgeräuschen und
- ein drittes Modul, insbesondere ein Multichannel-Postfilter-Modul, zur
Subtraktion des Störgeräusches vom Sprachsignal
umfasst.
Vorteilhaft ist dabei, dass durch die modularisierte Auswertung in einfache Art und Weise eine Erweiterung der Auswertemöglichkeiten geschaffen wird, sodass eine vielfältige Einsatzmöglichkeit geschaffen wird. Beispielsweise ist es dabei möglich, dass eine einseitige Spracherkennung durch Ergänzung eines weiteren Moduls auf eine beidseitige Sprachkommunikation ausgebaut werden kann. Ein
wesentlicher Vorteil bei der erfindungsgemäßen Lösung ist auch, dass bereits aus dem Stand der Technik bekannte Analysen mit neuen Analysen und Technologien auf einfache Art und Weise ergänzt oder ausgetauscht werden können. Von Vorteil ist auch, dass je nach Anwendungsgebiet die unterschiedlichen Module optimal angepasst werden können, so dass die bestmögliche Spracherkennung und Sprachwiedergabe geschaffen werden kann. Darüber hinaus ist ein wesentlicher Vorteil gegenüber dem Stand der Technik, dass zuerst eine Richtungserkennung des Sprachsignals durchgeführt wird, sodass dadurch eine optimierte Aufnahme des Sprachsignals ungedämpft vorgenommen werden kann, wodurch die restlichen Bereich außerhalb der Aufnahmerichtung besser ausgefiltert, bzw. nur gedämpft aufgenommen werden. Vorteilhaft ist bei der erfindungsgemäßen Lösung aber auch, dass die
Richtungserkennung auch bei hohen Störgeräuschpegeln robust genug arbeitet, um die Richtung und die Aktivität des Sprechers zuverlässig zu erkennen. Diese Information ist in vielen Kommunikationssystemen (Schranken, etc.) nützlich um eine sprachgesteuerte Verbindung aufzubauen.
Es sind aber auch die Maßnahmen von Vorteil, bei dem im ersten Modul, dem DOA-Estimation-Modul, eine Richtwirkung der Mikrofonempfindlichkeit in Richtung des Sprechers erzeugt wird, wobei die Hauptkeule mit der Bewegung des
Sprechers nachgeführt wird, damit wird der Aufnahmepegel für das Sprachsignal im Verhältnis zum Störgeräusch verbessert.
Bei der Maßnahme, bei der die Hauptkeule eine Breite von -20° und +20° um die aktuelle Position des Sprechers umfasst, wobei der nutzbare Frequenzbereich 20 bis 20 000 Hz umfasst, wird in vorteilhafter Weise erreicht, dass eine optimierte Aufnahme erfolgen kann und eine einfachere Ausblendung der umliegenden Geräusche möglich ist. Durch die Begrenzung der Hauptkeule und ev. einer Nachführung der Hauptkeule kann eine konzentriertere Auswertung erfolgen, sodass eine wesentlich höhere Sprachqualität erzielt wird, da eventuelle
Überschneidungen mit den Störgeräuschen reduziert werden.
Eine vorteilhafte Maßnahme liegt darin, dass die Breite der Hauptkeule mit steigender Frequenz in der Bandbreite abnimmt, da dadurch wiederum eine konzentriertere Auswertung geschaffen wird.
Vorteilhaft ist auch eine Maßnahme, bei der die Hauptkeule derart ausgelegt wird, dass minimale Schwankungen, wie beispielsweise Kopfbewegungen des
Sprechers, automatisch ausgeglichen werden, da dadurch immer eine optimale Sprachaufnahme für die Auswertung ermöglicht wird. Auch kann damit eine Vereinfachung der Richtungsbestimmung des Sprachsignals, insbesondere des Standort des Sprechers, erzielt werden, da diese Daten für die
Richtungsbestimmung herangezogen werden können.
Bei den Maßnahmen, bei dem im ersten Modul, insbesondere in dem DOA- Estimation Modul, folgender Algorithmus„Direct-to-Diffiffusion Ratio" zur
Schätzung bzw. Festlegung der Richtung des Sprachsignals läuft bzw.
abgearbeitet wird, ist von Vorteil, dass durch die Verwendung eines speziellen Algorithmus eine qualitativ hohe Auswertung durchgeführt werden kann.
Von Vorteil ist bei dem Vorgehen, bei dem sich das Audiosignal, insbesondere ein Mikrofonsignal, am Mikrofon durch das Störgeräusch und das Sprachsignal derart zusammen setzt und derart definiert wird
Figure imgf000006_0001
wobei Zm(j) das Audiosignal, insbesondere des m-ten Mikrofonsignal,
N(j) das Störsignal,
S(j) das Sprachsignal und
Δτηι die Richtung definieren,
da dadurch eine automatische Zuordnung der aufgenommen Signale geschaffen wird, sodass eine automatische Auswertung möglich ist.
Es ist aber auch eine Maßnahme von Vorteil, bei der im ersten Modul eine
Spektraldichteschätzung über eine Zeitmittelung entsprechend dem folgenden Algorithmus
Figure imgf000006_0002
berechnet wird.
Bei einem Vorgehen, bei dem aus der Spektraldichteschätzung eine komplexe räumlich Kohärenz zwischen dem ersten Audiosignal und dem weiteren
Audiosignal, insbesondere Mikrofonsignalen, über den Algorithmus
Figure imgf000007_0001
berechnet wird, wobei TDDR O.) das Verhältnis aus den Energien des
Direktschalles zum diffusen Schall beschreibt, wird in vorteilhafter Weise erreicht, dass eine optimale Einschätzung der Richtung des nützlichen Sprachsignals ermöglicht wird.
Von Vorteil ist dabei das Vorgehen, das Sprachsignal dem Direktschall und das Störsignal dem diffusen Schall zuzuordnen und ein derartiges Verhältnis wie folgt zu bilden:
1 DDRUW
Figure imgf000007_0002
Vorteilhaft ist die Maßnahme, bei dem das Störgeräusch als ideal isotropisch betrachtet wird und derart definiert wird:
sm{kdmmi )
= ~ Σ ~ Durch die Maßnahme, bei der durch Integration über das komplexe
Fourierspektrum entsprechend der Formel
Figure imgf000007_0003
eine Kostenfunktion gebildet wird, wird erreicht, dass eine optimale Basis für die Richtungsbestimmung gebildet wird.
Von Vorteil sind die Maßnahmen, bei dem durch Vorgabe von mehreren, insbesondere fünfzig, möglichen Einfallswinkeln zwischen -90° und +90° man den wahrscheinlichen Einfallswinkel für das Maximum der Kostenfunktion gemäß der Formel
Afm -— arg m&xj (Arm) erhält, da dadurch in einfacher Weise die Richtungsbestirnmung vorgenommen werden kann.
Bei einem Vorgehen, bei dem im Modul„RTF-Estimation" der Betrag der
Übertragungsfunktion zwischen dem m-ten und dem m'-ten Mikrofon gemäß der Formel
Figure imgf000008_0001
berechnet wird, wird erreicht, dass Exemplartoleranzen der Mikrofone
ausgeglichen werden. Dadurch kann der teure uns aufwändige Abgleich der verwendeten Mikrofone entfallen.
Die Maßnahmen, bei dem mit dem Vorhandensein eines Sprachsignals und einem ermittelten Einfallswinkel eine Transferfunktion gemäß der Formel
Äm > Ü) - \Äm,(jüy;e~j nf' ^" . ermittelt wird, sind von Vorteil, da dadurch eine Weiterverarbeitung der Daten und/oder Signale vereinfacht wird.
Bei einem Vorgehen, bei dem im zweiten Modul die Aufteilung der über die Mikrofonkanäle aufgenommenen Audiosignale in ein Sprachsignal und in ein Störgeräusch erfolgt, ist von Vorteil, dass dazu entsprechende Algorithmen verwendet werden können. Diese entsprechen dem Stand der Technik.
Von Vorteil ist ein Vorgehen, bei dem die ermittelte Richtung des Sprachsignals und/oder die Daten hierfür vom ersten Modul an das zweite Modul übergeben werden, da dadurch eine qualitativ hochwertige Auswertung des Sprachsignals möglich ist.
Durch die Maßnahmen, bei dem bei der Aufteilung des Audiosignales in das Sprachsignal und dem Störgeräusch die Richtung des Sprachsignals und/oder die Daten des ersten Moduls berücksichtigt werden, wird in vorteilhafter Weise erreicht, dass dadurch die in Richtung des Nutzers erzeugten Daten bzw. Signale bevorzugt werden können und somit eine wesentlich bessere Auswertung durchgeführt werden kann.
Vorteilhaft ist auch eine Maßnahme, bei der im dritten Modul, im so genannten Multichannel-Postfilter-Modul, ein mathematisches Verfahren basierend auf einer räumlichen Autokorrelationsmatrix der Signale zum Einsatz kommt, welches das Verhältnis von Sprachsignal-Energie zu Störsignal-Energie (SNR) im
Ausgabesignal des zweiten Modules ermittelt.
Auch ist ein Vorgehen von Vorteil, bei dem im dritten Modul unter Verwendung einer Filterfunkton "W(jO)" eines GSC-Beamformers die Schätzung des
Sprachsignals und des Störgeräusches wie folgt angegeben wird:
Sijü) ^ Ä(ßl)WHiji})Z(jQ)
Figure imgf000009_0001
dabei beschreibt der Vektor A(Qj) die Transferfunktionen vom Sprecher zu allen Mikrofonen.
Von Vorteil ist ein Vorgehen, bei dem sich aus der Formel
Figure imgf000009_0002
die Langzeit-Spektraldichteschätzung des Sprachsignals und respektive des Störgeräusches ergibt, da dadurch eine bessere Trennung des Sprachsignals vom Störgeräuschen ermöglicht wird.
Ein Vorteil ergibt sich durch die Maßnahmen, bei der eine effiziente
Implementation für die Langzeit-Spektraldichteschätzung gemäß der Formel ϊ> (I\v,v) = M
M
Tr (rNM - Tr (iW' f/r^) = Am (WHT
M erfolgt, da dadurch eine optimale Ausfilterung der Störgeräusche möglich ist.
Auch eine Verbesserung der Trennung der Signale, wird durch die Maßnahmen erreicht, bei der die Kurzzeit-Spektralschätzung durch direkte Berechnung gemäß der Formel
<§ - ÄWHTNN
Figure imgf000010_0001
- ÄWHTN.y + ÄWHTNNH
erhalten wird.
Durch die Maßnahmen, bei der das Verhältnis des Sprachsignals zum
Störgeräusch gemäß dem Algorithmus
Figure imgf000010_0002
berechnet wird, ist eine Ausfilterung der Störgeräusche effizient möglich.
Bei einem Vorgehen, bei dem im dritten Modul die vom zweiten Modul
übergebenen Signale annähernd in Echtzeit, vorzugsweise mit 32 ms
Verzögerung, verarbeitet werden, wird in vorteilhafter Weise erreicht, dass für den Nutzer so gut wie keine Zeitverzögerungen wahrnehmbar sind.
Das Vorgehen, bei dem vom dritten Modul eine Absenkung des Störgeräusches um 25 dB erreicht wird, hat zum Vorteil, dass dadurch bereits die Störgeräusche nur mehr gedämpft aufgenommen werden. Somit ist die Qualität des
aufgenommen Sprachsignals wesentlich besser.
Von Vorteil ist, dass eine optimale Parametrierung der Auswerteeinheit über umfangreiche automatisierte Sprachtests, welche auf deutschen und englischen Sprachkorpora basieren, erfolgt, da dadurch eine optimale Anpassung der Anlage vor Ort unter Berücksichtigung der baulichen Gegebenheiten vorgenommen werden kann. Insbesondere kann dabei auf Echos an der Sprachstelle Rücksicht genommen werden. Um eine umfangreiche Einsatzmöglichkeit zu schaffen, ist es von Vorteil, wenn eine zusätzliche weitere Software zur Steuerung angeschlossener Komponenten in der Kommunikationsanlage abgearbeitet wird und/oder Daten von der
Kommunikationsanlage an angeschlossene Komponenten übergeben werden.
Durch die Maßnahmen, bei denen bei einem Einsatz in einer Gegensprechanlage ein weiteres Modul, insbesondere ein sogenanntes Echocanceller-Modul, zur Reduzierung von akustischen Echos, zusammen mit den Modulen eins bis drei in einer einzigen Betriebssoftware eingesetzt wird, wird in vorteilhafter Weise erreicht, dass dadurch Echos und Rückkopplungen für die Spracheingabe und Sprachausgabe verhindert werden können.
Auch ist ein Vorgehen von Vorteil, bei dem ein weiteres zusätzliches Modul, insbesondere ein sogenanntes RTF-Estimation-Modul, welches aus der
Richtungsinformation des ersten Moduls die relativen akustischen
Transferfunktionen zwischen den Mikrofonen berechnet, eingesetzt wird, da dadurch eine Verbesserung der Qualität erzielt werden kann.
Für die bestmögliche Sprachaufnahme ist es von Vorteil, wenn die Anordnung der Mikrofone während des Betriebes ermittelt wird, wobei lediglich ein Bereich für den Abstand der Mikrofone vorgegeben wird.
Auch ist ein Vorgehen möglich, bei dem das resultierende Sprachsignal entweder direkt ausgegeben wird und/oder, vorzugsweise permanent, in einem
Sprachspeicher abgelegt wird, wobei der Signaltransport über ein beliebiges Medium und/oder Protokoll erfolgt.
Vorteilhaft ist auch ein Vorgehen, bei dem von der Kommunikationsanlage aufgrund von hinterlegten Sprachbefehlen angeschlossene Komponenten aktiviert und deaktiviert werden, da dadurch keine Aktivierungselemente benötigt werden, sondern alles per Sprache ansteuerbar ist. Somit sind theoretisch beliebig viele Steuermöglichkeiten vorhanden. Weiters werden die Aufgaben der Erfindung auch durch ein Schrankensystem mit einer Kommunikationsanlage gelöst, bei dem die Kommunikationsanlage und/oder die Zentraleinheit zur Durchführung des Verfahrens nach einem oder mehreren der Ansprüche 1 bis 18 ausgebildet ist. Vorteilhaft ist dabei, dass dadurch ein Einsatzgebiet geschaffen wird, bei dem mit sehr vielen umliegenden
Störgeräuschen, insbesondere von vorbeifahrenden Fahrzeugen, zu rechnen ist.
Dabei ist ein Vorgehen von Vorteil, bei dem die Wiedergabe des Sprachsignals über die Ausgabeeinheit in der Meldezentrale erfolgt, dass dadurch bei Problemen an der Schrankenanlage oder bei Fragen eines Kunden bzw. Nutzers diesem auch über die erfindungsgemäße Kommunikationsanlage eine Sprachausgabe und somit eine Rückmeldung ermöglicht wird.
Auch werden die Aufgaben der Erfindung durch eine Notrufanlage gelöst, bei der die Zentraleinheit und/oder Kommunikationsanlage zur Durchführung des
Verfahrens nach einem oder mehreren der Ansprüche 1 bis 18 ausgebildet ist. Von Vorteil ist hierbei, dass dadurch der Einsatz mehrerer
Kommunikationsanlagen in einem Gesamtsystem möglich ist. Von Vorteil ist eine Anordnung, bei der die Übertragungseinheit durch
Datenleitungen, Telefonleitungen, Funksignale und/oder Internetverbindungen gebildet ist, da dadurch die optimale Verbindungsart für die Datenübertragung ausgewählt werden kann. Somit wird eine sichere und bestmögliche Übertragung erreicht.
Auch ist eine Anordnung von Vorteil, bei der die Ausgabeeinheit für das
Sprachsignal mit der Übertragungseinheit für die externe Meldestelle verbunden ist, da dadurch eine direkte Datenübertragung, insbesondere des Sprachsignals, möglich ist.
Schließlich werden die Aufgaben der Erfindung auch durch eine
Kommunikationseinheit gelöst, bei der die Kommunikationsanlage in
Verkehrstunneln, Industrieparks, Hotelanlagen, usw. einsetzbar ist. Die Erfindung wird nachstehend mit mehreren Ausführungsbeispielen
beschrieben.
Es zeigen:
Fig.1 eine schematische Darstellung einer Kommunikationsanlage;
Fig.2 eine symbolhafte Darstellung eines Richtdiagramms für eine Schallquelle zu Mikrofonen der Kommunikationsanlage;
Fig.3 eine schaubildliche Darstellung für einen Einfallswinkel eines Sprachsignals eines Nutzers;
Fig.4 eine Draufsicht auf eine Schrankenanlage, in vereinfachter, schematischer Darstellung;
Fig.5 eine weitere Draufsicht eines Ausführungsbeispiels für ein Notrufsystem, in vereinfachter, schematischer Darstellung. Einführend sei festgehalten, dass in den beschriebenen Ausführungsformen gleiche Teile mit gleichen Bezugszeichen bzw. gleichen Bauteilbezeichnungen versehen werden, wobei die in der gesamten Beschreibung enthaltenen
Offenbarungen sinngemäß auf gleiche Teile mit gleichen Bezugszeichen bzw. gleichen Bauteilbezeichnungen übertragen werden können. Auch sind die in der Beschreibung gewählten Lageangaben, wie z.B. oben, unten, seitlich usw. auf die unmittelbar beschriebene sowie dargestellte Figur bezogen und sind bei einer Lageänderung sinngemäß auf die neue Lage zu übertragen. Weiters können auch Einzelmerkmale oder Merkmalskombinationen aus den gezeigten und
beschriebenen unterschiedlichen Ausführungsbeispielen für sich eigenständige, erfinderische oder erfindungsgemäße Lösungen darstellen.
In den Figuren 1 bis 3 ist eine bevorzugt digitale elektroakustische
Kommunikationsanlage 1 mit unterschiedlich symbolhaft dargestellten
Schallquellen 2 zum Erzeugen eines Störgeräusche 3, wie beispielsweise
Industrielärm, Autolärm, Musiklärm, Handylärm, usw., gezeigt. Weiters ist schaubildlich ein Nutzer 4 zum Erzeugen eines Sprachsignals 5 dargestellt. Die beiden Schallquellen 2, insbesondere die Störgeräusche 3 und das Sprachsignal 5, bilden zusammen ein Audiosignal 6, welches von einem Aufnahmemittel 7 aufgenommen wird.
Die Kommunikationsanlage 1 ist zur Erhöhen der Sprachverständlichkeit des 5 Audiosignals 6, insbesondere des Sprachsignals 5, ausgebildet und umfasst bei dem dargestellten Ausführungsbeispiel beispielsweise ein Auswerteeinheit 8 und eine Ausgabeeinheit 9, wobei die einzelnen Komponenten bevorzugt modular aufgebaut sind. Dabei wird die Sprachverständlichkeit durch Verminderung der Lautstärke der Störgeräusche 3 vom Ort eines Sprechers bzw. Nutzers 4 erreicht. l o Hierzu ist mit der Auswerteeinheit 8 das Aufnahmemittie 7 verbunden, wobei zur Aufnahme des Audiosignals 6 das Aufnahmemittel 7 aus zumindest zwei
Mikrofonen 10, 1 1 gebildet ist. Grundsätzlich ist es mögliche, eine beliebige Anzahl an Mikrofonen 10, 1 1 für die Aufnahme des Audiosignals 6 zu verwenden, wobei es sich jedoch gezeigt hat, dass bis zu vier Mikrofone 10, 1 1 sich als
1 5 geeignet herausgestellt haben. Dabei ist nämlich zu beachten, je mehr Mikrofone 10, 1 1 angeschlossen werden, desto höher ist der Aufwand für die Auswertung des Sprachsignals 5, wodurch sich längere Laufzeiten bzw. Verzögerungen ergeben können. D.h., dass das von den hier gezeigten zwei Mikrofonen 10, 1 1 aufgenommene Audiosignal 6, welches sich aus dem Sprachsignal 5 und
0 Störgeräuschen 3 zusammen setzt, an die Kommunikationsanlage 1 ,
insbesondere der Auswerteeinheit 8, weitergeleitet wird, in der das Störgeräusch 3 auf elektronischem Wege minimiert wird und das erzeugte Sprachsignal 5 von der Kommunikationsanlage über die Ausgabeeinheit 9 wiedergegeben wird. 5 Dabei ist die Kommunikationsanlage 1 , insbesondere die Auswerteeinheit 8 und die Ausgabeeinheit 9, derart ausgebildet, dass der Betrieb über eine
Betriebssoftware sichergestellt ist, d.h., dass in den einzelnen Modulen eine bzw. mehrere Programme laufen und darin entsprechende Algorithmen,
Verfahrensabläufe, usw. abgearbeitet werden. Die Auswerteeinheit 8, wird dabei0 aus drei Modulen 12, 13 und 14 mit unterschiedlichen Funktionen gebildet, wobei das erste Modul 12, insbesondere ein DOA-Estimation-Modul 12, zur Bestimmung der Richtung des Sprachsignals 5, das zweite Modul 13, insbesondere ein GSC- Beamforming-Modul 13, zur Feststellung und Trennung des Sprachsignals 5 von den Störgeräuschen 3 und das dritte Modul 14, insbesondere ein Multichannel- Postfilter-Modul 14, zur Subtraktion des Störgeräusches 3 vom Sprachsignal 5 umfasst. Bei der erfindungsgemäßen Lösung wird ein sogenanntes„Dual Channal Speech Enhancement", abgekürzt DCSE-System, durchgeführt, wobei das DCSE-System ein technisch-mathematisches Verfahren beschreibt, welches von der
Kommunikationsanlage 1 , insbesondere der einzelnen Module, umgesetzt wird. Der Vorteil des DCSE liegt darin, dass das Sprachsignal 5 klar verständlich und mit hoher Qualität an der Gegenstelle wiedergegeben wird, wobei dazu eine optimale Minimierung bzw. Ausfilterung der Störgeräusche, wie beispielsweise Echos und Umgebungslärm, durchgeführt wird.
Wie bereits zuvor kurz erwähnt, wird das Sprachsignal 5 des Nutzers 4 über die Mikrofone 10, 1 1 aufgenommen, wobei die Mikrofon 10, 1 1 auch die
Nebengeräusche um den Nutzer 4 in Form von den Störgeräuschen 3 aufnimmt. Dieses aufgenommen Signal wird als Audiosignal 6 an die Auswerteeinheit 8 übergeben, von der nunmehr die Aufbereitung des Audiosignals 8 erfolgt. Vom ersten Modul 12 wird zuerst die Richtung des Sprachsignals 5 ermittelt, wozu eine Richtwirkung der Mikrofonempfindlichkeit in Richtung des Sprechers bzw. Nutzers 4 erzeugt wird, wobei eine Hauptkeule 15, wie aus Fig. 2 ersichtlich, mit der Bewegung eines Sprechers 4 nachgeführt wird. Dabei ist in Fig. 2 ein
Diagramm für die Mikrofonempfindlichkeit für zwei Mikrofone 10, 1 1 dargestellt, wobei hierbei die Einfallsrichtung des Schalles gegen die Frequenz aufgetragen ist. Der schraffierte Bereich in der Mitte wird dabei unbedämpft übertragen und bildet die Hauptkeule 15, wogegen die restlichen Bereiche mit -20dB stark unterdrückt werden. Der Bereich der größten Empfindlichkeit (Hauptkeule 15) ist zwischen -20° und +20°, entsprechend dem schraffierten Bereich zu finden. Diese Hauptkeule 15 wird mit den Bewegungen des Sprechers nachgeführt, und ist auch ausreichend breit, um minimale Schwankungen wie etwa Kopfbewegungen auszugleichen. D.h., dass der Nutzer 4 oftmals beim Sprechen den Kopf leicht bewegt, wobei dies erkannt wird und durch Nachführen der Hauptkeule 15 wiederum die bestmögliche Aufnahme erzielt wird. Die weiteren Bereiche oberhalb von 6000Hz bei +-90° sind die sog. Nebenkeulen 16 (Sidelobes). Aufgrund der hohen Frequenz stellen diese jedoch keine Qualitätsbeeinträchtigung dar. Die Hauptkeule 15 umfasst also eine Breite von -20° und +20° um die aktuelle Position des Sprechers 4 umfasst, wobei der nutzbare Frequenzbereich 20 bis 20 000 Hz umfasst. Gleichzeitig nimmt die Breite der Hauptkeule 5 mit steigender Frequenz in der Bandbreite ab, wobei die Hauptkeule 15 derart ausgelegt wird, dass minimale Schwankungen, wie beispielsweise Kopfbewegungen des
Sprechers, automatisch ausgeglichen werden.
Um eine Richtungsbestimmung durchführen zu können, wird im ersten Modul 12, insbesondere in dem DOA-Estimation Modul 12, folgender Algorithmus„Direct-to- Diffiffusion Ratio" zur Schätzung bzw. Festlegung der Richtung des Sprachsignals 5 abgearbeitet. Dabei wird das Audiosignal 6, insbesondere ein Mikrofonsignal, am Mikrofon 10, 1 1 durch das Störgeräusch 3 und das Sprachsignal 5 derart zusammen gesetzt und derart definiert:
Zm (j ) = S( )e~jSift Tm + NU")- (1-1) Zm(j) definiert dabei das Audiosignal 6, insbesondere des m-ten Mikrofonsignal, N(j) das Störsignal 3, S(j) das Sprachsignal 5 und Δτιτι die Richtung definieren.
Daraus wird nunmehr eine Spektraldichteschätzung über eine Zeitmittelung entsprechend dem folgenden Algorithmus
Figure imgf000016_0001
berechnet. Aus der Spektraldichteschätzung wird die komplexe räumliche
Kohärenz zwischen dem m-ten und dem m'-ten Mikrofon 10, 1 1 über folgenden Zusammenhang ermittelt:
Figure imgf000017_0001
wobei TDDRQD) das Verhältnis aus den Energien des Direktschalles zum diffusen Schall beschreibt. Eine wesentliche Grundvoraussetzung ist dabei die
Beobachtung, dass der Direktschall hauptsächlich aus dem Sprachsignal 5, und der diffuse Schall hauptsächlich aus dem Störgeräusch 3 besteht:
Figure imgf000017_0002
Dabei wird das Schallfeld des Störgeräusches 3 als ideal isotropisch betrachtet:
, s (kdmm' )
κα '',m. m.'
Durch Integration von Gleichung 1 .4 über das komplexe Fourierspektrum erhält man eine Kostenfunktion, welche ein eindeutiges Maximum beim Einfallswinkel des Sprachsignals 5 aufweist:
J(ärmml) (L6)
Figure imgf000017_0003
Durch Vorgabe von 50 möglichen Einfallswinkeln m zwischen -90° und +90° und jeweiliges Lösen von Gleichung 1 .6 erhält man den wahrscheinlichsten
Einfallswinkel als Maximum dieser Kostenfunktion:
Afm = 8xg maxJ(Arm). (1.7)
Dabei erhält man eine globale Bedingung für das Vorhandensein eines
Sprachsignales 5 durch ϋ(Δτιτι) > 1. Diese Bedingung wird verwendet um ein Zusatzmodul 17 (RTF-estimation Modul 17), welches später noch im Detail beschrieben wird und in Fig. 1 dargestellt ist, aufzurufen. In diesem Zusatzmodul 17 wird der Absolutbetrag der relativen Übertragungsfunktion zwischen dem m-ten und dem m'-ten Mikrofon 10, 1 1 geschätzt. Dieser Betrag wird aus den Kurzzeit- Leistungsdichtespektren der Mikrofonsignale berechnet:
Figure imgf000018_0001
Diese Schätzung ist nur bei Vorhandensein eines Sprachsignales 5 gültig. Damit und mit dem Einfallswinkel Δτηη ergibt sich die relative Transferfunktion AA(üj) zu
Am (ßi) = \Am (jü} \, ( 1.9 )
Die korrekte Funktion des GSC-Beamformer-Modules 13, also des zweiten
Moduls 13, hängt unmittelbar von dieser Transferfunktion ab. Sie wird für jedes der m Mikrofone 10, 11 berechnet.
Zusammenfassend kann also gesagt werden, dass im ersten Modul 12 die
Schätzung der Richtung, aus welcher der Nutzschall auf das Mikrofonarray trifft (also der Ort, wo der Sprecher 4 vor dem Gerät steht) beschrieben wird. Der Störschall 3 kann dabei jegliche Art von Lärm sein, aber auch das Echo von einer ggf. vorhandenen Gegensprechanlage, wozu das Zusatzmodul 17 vorhanden ist. Dem Störgeräusch 3 ist dabei nicht zwingend ein akustisches Zentrum
zugeordnet. Das erste Modul 12 umfasst also die Bestimmung der Einfallsrichtung des Sprachsignales 5, welche für die nachfolgenden Module 13 und 14 benötigt wird. Nachstehende Skizze in Fig. 3 veranschaulicht das Zustandekommen der Einfallsrichtung eines Sprachsignales 5 s(k) am Mikrofonarray.
In Fig. 3 ist eine schaubildliche Darstellung zum Veranschaulichen vom
Zustandekommen der Einfallsrichtung des Sprachsignals 5 am Mikrofon 10, 1 1 gezeigt. Hierzu wurden jedoch eine Anordnung mit drei Mikrofonen 10 und 11 als Mikrofonarray gezeigt, um eine bessere Wirkungsweise erkennen zu können. Daraus ist ersichtlich, dass sich aufgrund der unterschiedlichen Positionen der Mikrofone 10, 1 1 unterschiedliche Abstände 18 bis 20 zu den Mikrofonen 10, 1 1 ergeben. Somit kommen auch unterschiedlich Aufnahmezeiten zu Stande, sodass aufgrund der unterschiedlichen Aufnahmezeiten auch die Richtung der
Schallquelle 2, insbesondere des Sprachsignals 5, grob herleitbar ist.
Zurückkommend zu Fig.1 wird die ermittelte Richtung des Sprachsignals 5 und/oder die Daten hierfür vom ersten Modul 12 an das zweite Modul 13 übergeben. Im zweiten Modul 13 erfolgt die Aufteilung der über die Mikrofonkanäle aufgenommenen Audiosignale 6 in ein Sprachsignal 5 und in ein Störgeräusch 3. Dabei werden bei der Aufteilung des Audiosignales 6 in das Sprachsignal 5 und das Störgeräusch 3 die Richtung des Sprachsignals 5 und/oder die Daten des ersten Moduls 12 berücksichtigt. Dieses Modul 13 liefert also eine Schätzung des Nutz- und Störschalles getrennt voneinander. Diese Schätzung ist umso genauer, je exakter die Richtung des Sprechers 4 im vorher genannten Modul 12 ermittelt werden kann. Dem
Sprachsignal 5 wird dabei ein gerichtetes Schallfeld zu Grunde gelegt, und den Störgeräuschen 3 ein diffuses bzw. isotropes Schallfeld.
Dabei sind schon einige aus dem Stand der Technik bekannte Verfahren zum Trennen des Audiosignals 6 in das Sprachsignal 5 und den Störgeräuschen 3 bekannt, die entsprechend eingesetzt werden, wozu hierzu nicht mehr näher auf den Ablauf des Trennverfahrens eingegangen wird.
Wesentlich ist nur, dass zuerst die Richtungsbestimmung mit dem gesamten aufgenommen Schallspektrum, also den Störschall 3 und dem Sprachsignal 5, durchgeführt wird und erst anschließend die Auftrennung der Signale
vorgenommen wird. Damit können auch für die Richtungsbestimmung die
Störsignale 3 herangezogen werden. Würde nämlich zuerst eine Aufteilung in die Störgeräusche 3 und das Sprachsignal 5 erfolgen und für die
Richtungsbestimmung nur das Sprachsignal 5 herangezogen werden, so würde die Daten von den Störsignalen 3 nicht mehr zur Verfügung stehen und die Richtungsbestimmung nicht so exakt erfolgen können. Grundsätzlich wäre es möglich, dass die Daten für die Störsignale 3 gespeichert werden und für die Richtungsbestimmung mit einfließen können, sodass die beiden Module getauscht werden könnten. Hierbei ist jedoch der Rechenaufwand höher und es müssten die Algorithmen entsprechend angepasst werden.
Nachdem eine Äuftrennung des Audiosignals 6 im zweiten Modul 13 vollbracht ist, werden die Daten bzw. die Signale, insbesondere das Sprachsignal 5 und die Störgeräusche 3, an das dritte Modul 14 übergeben. Im dritten Modul 14, im so genannten Multichannel-Postfilter-Modul, kommt ein mathematisches Verfahren basierend auf einer räumlichen Autokorrelationsmatrix der Signale zum Einsatz, welches das Verhältnis von Sprachsignal-Energie zu Störsignal-Energie (SNR) im Ausgabesignal des zweiten Modules 13 ermittelt. Unter Verwendung der Filterfunktion W(jQ) des GSC-Beamformers (drittes Modul 14) kann die Schätzung des Sprachsignales 5 und des Störgeräusches 3 am GSC-Modul 13 wie folgt angegeben werden:
S'ü«) = Ä(jü)WR{jü)Z(jü)
JVij O) - Z{jü) - Si jO) , "
Dabei beschreibt der Vektor Z(jü) das Audiosignal 6 an allen M Mikrofonen 10, 1 1 nach Gleichung 1.1 . Der Vektor AA(Qj) beschreibt die relativen Transferfunktionen zwischen den Mikrofonen 10, 1 1 aus Gleichung 1 .9, welche mit dem DOA
Algorithmus ermittelt wurden. Die Kurzzeit-Spektralschätzungen des
Sprachsignales 5 und des Störgeräusches 3 erhält man durch direkte Berechnung der jeweiligen Signalenergien:
M ( 2.2' Unter der Annahme eines idealen isotropischen Störgeräusch-Schallfeldes lässt sich die Matrix ΓΝΝ definieren. Sie beschreibt die räumliche Kohärenz zwischen allen Kombinationen aus allen Mikrofonsignalen. Jedes Element dieser Matrix ist durch Gleichung 1.5 definiert. Damit ergeben sich die langzeit- Spektraldichteschätzungen des Sprachsignales 5 und des Störgeräusches 3:
: FNN - TNNH -
Figure imgf000021_0001
+ AWHrKNWA
Hierbei wurde zur besseren Lesbarkeit das komplexe Argument jO weggelassen. Das gesuchte Verhältnis der Energien des Sprachsignales 5 und der
Störgeräusche 3 am Ausgang des GSC-Beamformer-Modules 13 ergibt sich dann zu:
Figure imgf000021_0002
Zur effizienten Implementation von Gleichung 2.3 werden folgende Identitäten verwendet:
2> U\v.v) = M
M
Tr (rN XH) = Tr (AWHTNN ) = T Am {WHTxy) m
"\ I
Tr ( ÄWHFNNH ) = Tr ( ÄHÄWHT.vNw) = \Am\2WHrN?t-W.
m— l
Nachdem die Auswertung durchgeführt wurde, wird das ermittelte Sprachsignal 5 an die Ausgabeeinheit 9 übergegeben. Im dritten Modul 14 werden die vom zweiten Modul 13 übergebenen Signale annähernd in Echtzeit, vorzugsweise mit 32 ms Verzögerung, verarbeitet werden, sodass so gut wie keine wahrnehmbare Zeitverzögerung auftritt. Weiters wird vom dritten Modul 14 eine Absenkung des Störgeräusches 3 um 25 dB erreicht. Weiters ist aus Fig. 1 ersichtlich, dass an die Ausgabeeinheit 9 ein Ausgabemittel 21 , insbesondere ein Lautsprecher 22, verbunden ist. Dabei ist das Ausgabemittel 21 nicht direkt in der Kommunikationsanlage 1 integriert, sondern über Leitungen extern angeordnet. Selbstverständlich ist es möglich, dass Ausgabemittel 21 direkt 5 in die Kommunikationsanlage 1 zu integrieren, um beispielsweise einen
kompakten Aufbau zu erhalten. Es ist aber auch möglich, die
Kommunikationsanlage 1 dezentral zur Spracheingabeposition, insbesondere dem Ort des Nutzers 4, zu positionieren, sodass dadurch das Aufnahmemittel 7 vor Ort beim Nutzer 4 angeordnet ist und dieses über eine oder mehrere Leitungen mit l o der Kommunikationsanlage 1 , insbesondere der Auswerteeinheit 8, verbunden wird.
Damit bei der Installation der Kommunikationsanlage 1 eine optimale Einsteilung vorgenommen werden kann, sind in der Kommunikationsanlage 1
15 unterschiedlichsten Tools und/oder Test-Software, wie beispielsweise ein
Installationstool, ein Spracherkennungstooi, Sprachtest, usw., integriert.
Beispielsweise kann eine optimale Parametrierung der Auswerteeinheit 8 über umfangreiche automatisierte Sprachtests, welche auf deutsche und englische Sprachkorpora basieren, erfolgen.
0
Auch ist es möglich, dass die Kommunikationsanlage 1 eine oder mehrere
Schnittstellen 23 aufweist, mit der Daten mit externen angeschlossenen bzw. drahtlos verbundenen Komponenten ausgetauscht und/oder gesteuert werden. Dabei wird beispielsweise eine zusätzliche weitere Software zur Steuerung
5 angeschlossener Komponenten in der Kommunikationsanlage 1 abgearbeitet und/oder Daten von der Kommunikationsanlage 1 an angeschlossene bzw.
verbundenen Komponenten übergeben.
Wie zuvor bereits erwähnt, kann in der Kommunikationsanlage 1 ein weiteres0 zusätzliches Modul 17, insbesondere das sogenannte RTF-Estimation-Modul 17, welches aus der Richtungsinformation des ersten Moduls 12 die relativen akustischen Transferfunktionen zwischen den Mikrofonen 10, 1 1 berechnet, eingesetzt werden. Bei einem Einsatz der Kommunikationsanlage 1 in einer Gegensprechanlage wird ein weiteres Modul 24, insbesondere ein sogenanntes Echochanceller-Modul 24, zur Reduzierung von akustischen Echos, zusammen mit den Modulen 12 bis 14 eins bis drei in einer einzigen Betriebssoftware eingesetzt, wie dies schematisch dargestellt ist. Darüber hinaus ist es möglich, dass die Anordnung der Mikrofone 10, 1 1 während des Betriebes ermittelt wird, wobei lediglich ein Bereich für den Abstand der Mikrofone 10, 1 1 vorgegeben wird, d.h., dass Vorort eine optimale Einstellung im Bezug auf die mögliche
Sprachposition des Nutzers 4 vorgenommen werden kann. Aufgrund der optimale Sprachaufbereitung ist es auch möglich, dass das resultierende Sprachsignal 5 entweder direkt ausgegeben wird und/oder, vorzugsweise permanent, in einem Sprachspeicher abgelegt wird, wobei der Signaltransport über ein beliebiges Medium und/oder Protokoll erfolgen kann. Somit können von der Kommunikationsanlage aufgrund von hinterlegten
Sprachbefehlen angeschlossene Komponenten aktiviert und deaktiviert werden.
Man kann also sagen, dass die Sprachverständlichkeit erhöht wird, indem bei gleichbleibender Sprachqualität die Lautheit der Störgeräusche 3 vermindert wird. Dies erfolgt auf elektronischem Wege als Teil der Betriebssoftware der
Kommunikationsanlagen 1. Das Verfahren nutzt dabei die Information mehrerer, insbesondere zweier Mikrofonkanäle, um zwischen Stör- und Nutzschall 3 und 5 zu unterscheiden. Grundsätzlich wird weiters darauf hingewiesen, dass anstelle eines modularen Aufbaus jede andere bekannte Aufbaumöglichkeit gewählt werden kann, insbesondere durch eine Mikroprozessorsteuerung. Hierbei ist es lediglich wichtig, dass bei einer Implementierung in andere Systeme bzw.
Aufbauten die entsprechenden Algorithmen verwendet werden, um eine
verbesserte Sprachausgabe zu erreichen.
In Fig. 4 ist eine Schrankenanlage 25 beispielsweise für ein Parkhaus u/o
Tiefgarage, usw., schematisch und symbolhaft dargestellt.
Wie schematisch dargestellt, befindet sich die Schrankenanlage 25 an einer Zufahrt 26. Üblicherweise weisen derartige Anlagen dezentrale Meldezentralen 27 auf, in der eine Zentraleinheit 28 zur Steuerung aller Komponenten angeordnet ist, d.h., dass an der Zentraleinheit 28 die Kommunikationsanlage 1 , die bevorzugt ebenfalls dezentral positioniert ist, eine Steuereinheit 29 der Schrankenanlage 25 mit dem Schranken 30 angeschlossen bzw. verbunden sind, wobei hierzu
5 bevorzugt ein serielles oder paralleles Daten-/Steuer-Netzwerk 31 verwendet wird.
Hierbei ist es möglich, dass beispielsweise nunmehr die Auswertung des
Sprachsignals 5 in der Zentraleinheit 28 erfolgt, sodass an jenem Ort, wo sich der Nutzer 4 befindet, also im Ein- oder Ausgangsbereich, die Kommunikationsanlage 1 durch das Aufnahmemittel 7 gebildet wird. Die Wiedergabe des Sprachsignals 5 l o über die Ausgabeeinheit 9, insbesondere über das Ausgabemittel 21 , erfolgt in der Meldezentrale 27. Da bei derartigen Anlagen jedoch ein gegenseitiger
Sprechverkehr notwendig ist, ist sowohl in der Meldezentrale 27 als auch an der Kommunikationsanlage 1 Vorort beim Nutzer ein Aufnahmemittel 7 und ein
Ausgabemittel 21 , gemäß Beschreibung zu Fig. 1 , vorhanden. Dadurch kann der
1 5 Nutzer 4 an der Schrankenanlage 21 mit einem Nutzer 4 in der Meldezentrale
(nicht dargestellt) kommunizieren. Selbstverständlich ist es auch möglich, dass in der Kommunikationsanlage 1 die Auswertung des Sprachsignals 5 stattfinden kann, d.h., also, dass die Zentraleinheit und/oder Kommunikationsanlage zur Durchführung des Verfahrens, wie zuvor beschrieben, ausgebildet ist.
0
In Fig. 5 ist ein weiteres Ausführungsbeispiel für die Anwendung einer
Kommunikationsanlage 1 gezeigt. Hierbei wird die Kommunikationsanlage 1 in einer Notrufanlage 32 beispielsweise für Verkehrsstraßen, insbesondere
Autobahnen 33, Schnellstraßen, Highways, usw., eingesetzt, wobei hierzu eine5 Vielzahl von Meldesteilen 34 installiert bzw. eingesetzt werden, d.h., dass bei diesem Ausführungsbeispiel mehrere Kommunikationsanlagen 1 zusammen wirken, wobei jede Kommunikationsanlage 1 für sich eigenständig das DCSE- System zum Aufbereiten des Sprachsignals 5 durchführt oder dies zentral in einer Zentraleinheit 28 für alle Meldestellen 34 mit der Kommunikationsanlage 1
0 durchführt, d.h., dass die Zentraleinheit 28 und/oder Kommunikationsanlage 1 zur Durchführung des Verfahrens, wie zuvor beschrieben, ausgebildet ist. Bei dem Ausführungsbeispiel weist jede Meldestelle 34 und die Zentraleinheit 28 eine Übertragungseinheit 35 auf. Die die Übertragungseinheit 35 ist durch
Datenleitungen, Telefonleitungen, Funksignale und/oder Internetverbindungen gebildet. Dabei ist es auch möglich, dass die unterschiedlichen Systeme miteinander kombiniert werden, d.h., dass beispielsweise alle Meldestellen 34 über Datenleitungen 36 miteinander verbunden sind und an einer Zentrallen Stelle 37 eine Übersetzung auf ein Funksignal oder eine Internetverbindung 38 für das Internat 39 stattfindet, sodass eine weit entfernte Zentraleinheit 28 über das Funksignal oder die Internetverbindung 38 verbunden wird, wie dies schematisch beim Ausführungsbeispiel in Fig. 5 dargestellt ist. Damit ein unverwechselbarer Datenaustausch zwischen den Meldestellen 34 untereinander und der
Zentraleinheit 28 reibungslos funktioniert, ist es von Vorteil, wenn jede Meldestelle 34 und somit die Kommunikationseinheit 1 und die Zentraleinheit 28 codiert sind, sodass die einzelnen Meldestellen 34 einzelnen angesprochen werden können. Dabei ist es auch möglich, dass die Ausgabeeinheit 9 für das Sprachsignal 5 mit der Übertragungseinheit 35 für die externe Meldestelle 34 verbunden ist, sodass von der Zentraleinheit 28 direkt die Ausgabeeinheit 9 aktiviert werden kann, bzw. ein Sprachsignal 5 vom Nutzer 4 in der Zentrale ausgegeben werden kann. Grundsätzlich wird darauf hingewiesen, dass die Kommunikationseinheit 1 auch in anderen Gebieten eingesetzt werden kann, wie beispielsweise in Verkehrstunnel, Industrieparks, Hotelanlagen, usw. Auch ist es möglich, dass die
Kommunikationseinheit 1 noch weitere Module, wie beispielsweise ein Display zum Anzeigen von Informationen, ein Eingabeblock zum Eingeben von Codes, Nummern, Namen, usw., aufweist. Weiters ist es auch möglich, dass zum
Aktivieren der Kommunikationsanlage 1 diese mit einem Aktivierungsmittel verbunden sind. Insbesondere wenn die Kommunikationsanlage 1 als
Gegensprechanlage eingesetzt wird, kann diese mit einem Aktivierungsknopf bzw. Schalter verbunden sein.
Der Ordnung halber sei abschließend darauf hingewiesen, dass zum besseren Verständnis des Aufbaus dieser bzw. dessen Bestandteile teilweise
unmaßstäblich und/oder vergrößert und/oder verkleinert dargestellt wurden. Die den eigenständigen erfinderischen Lösungen zugrunde liegende Aufgabe kann der Beschreibung entnommen werden.
Vor allem können die einzelnen in den Fig. 1 bis 3, 4, 5 gezeigten Ausführungen den Gegenstand von eigenständigen, erfindungsgemäßen Lösungen bilden. Die diesbezüglichen, erfindungsgemäßen Aufgaben und Lösungen sind den
Detailbeschreibungen dieser Figuren zu entnehmen.
Bezugszei c hen l iste :
1 Kommunikationsanlage
2 Schallquelle
3 Störgeräusche
4 Nutzer
5 Sprachsignal
6 Audiosignal
7 Aufnahmemittel
8 Auswerteeinheit
9 Ausgabeeinheit
10 Mikrofon
11 Mikrofon
12 Modul
13 Modul
14 Modul
15 Hauptkeule
16 Nebenkeule
17 Zusatzmodul
18 Abstand
19 Abstand
20 Abstand
21 Ausgabemittel
22 Lautsprecher
23 Schnittstelle
24 Modul
25 Schrankenanlage
26 Zufahrt
27 Meldezentrale
28 Zentraleinheit
29 Steuereinheit
30 Schranken
31 Netzwerk Notrufanlage Autobahn
Meldestelle
Übertragungseinheit Datenleitung
Stelle
Internetverbindung Internet

Claims

Patentansprüche:
1. Verfahren zur Erhöhung der Sprachverständlichkeit eines Audiosignals (6), das aus einem Gemisch von Störgeräuschen (3) und Sprachsignalen (5) besteht, in digitalen elektroakustischen Kommunikationsanlagen (1 ), dadurch
gekennzeichnet, dass die Sprachverständlichkeit durch Verminderung der
Lautstärke der Störgeräusche (3) vom Ort eines Sprechers (4) erreicht wird, wobei zur Aufnahme des Audiosignals (6) zumindest zwei Mikrofonkanäle verwendet werden, welche das Audiosignal (6) an eine Auswerteeinheit (8) weiterleiten, in der das Störgeräusch (3) auf elektronischen Wege minimiert wird und das erzeugte Sprachsignal (5) von der Kommunikationsanlage (1 ) über eine
Ausgabeeinheit (9) wiedergegeben wird und dass der Betrieb der
Kommunikationsanlage (1 ) und/oder der Auswerteeinheit (8) über eine
Betriebssoftware, sichergestellt wird und dass die Auswerteeinheit (8)
- ein erstes Modul (12), insbesondere ein DOA-Estimation-Modul (12), zur Bestimmung der Richtung des Sprachsignals (5),
- ein zweites Modul ( 3), insbesondere ein GSC-Beamforming-Modul (13), zur Feststellung und Trennung des Sprachsignals (5) von den
Störgeräuschen (3) und
- ein drittes Modul (14), insbesondere ein Multichannel-Postfilter-Modul (14), zur Subtraktion des Störgeräusches (3) vom Sprachsignal (5)
umfasst. 2. Verfahren nach Anspruch , dadurch gekennzeichnet, dass im ersten Modul (12), dem DOA-Estimation-Modul (12), eine Richtwirkung der
Mikrofonempfindlichkeit in Richtung des Sprechers (4) erzeugt wird, wobei eine Hauptkeule (15) mit der Bewegung des Sprechers (4) nachgeführt wird. 3. Verfahren nach Anspruch 2, dadurch gekennzeichnet, dass die Hauptkeule (15) eine Breite von -20° und +20° um die aktuelle Position des Sprechers (4) umfasst, wobei der nutzbare Frequenzbereich 20 bis 20 000 Hz umfasst.
4. Verfahren nach mindestens einem der vorhergehenden Ansprüche 2 oder 3, dadurch gekennzeichnet, dass die Breite der Hauptkeule (15) mit steigender Frequenz in der Bandbreite abnimmt. 5. Verfahren nach mindestens einem der vorhergehenden Ansprüche 2 bis 4, dadurch gekennzeichnet, dass die Hauptkeule (15) derart ausgelegt wird, dass minimale Schwankungen, wie beispielsweise Kopfbewegungen des Sprechers (4), automatisch ausgeglichen werden. 6. Verfahren nach mindestens einem der vorhergehenden Ansprüche 1 bis 5, dadurch gekennzeichnet, dass im ersten Modul (12), insbesondere in dem DOA- Estimation Modul (12), folgender Algorithmus„Direct-to-Diffiffusion Ratio" zur Schätzung bzw. Festlegung der Richtung des Sprachsignals (5) läuft bzw.
abgearbeitet wird.
7. Verfahren nach mindestens einem der vorhergehenden Ansprühe 1 bis 6 dadurch gekennzeichnet, dass das Audiosignal (6), insbesondere ein
Mikrofonsignal, am Mikrofon (10, 1 1 ) durch das Störgeräusch (3) und das
Sprachsignal (5) derart zusammen setzt und derart definiert wird
wobei Zm(j) das Audiosignal (6), insbesondere des m-ten Mikrofonsignal,
N(j) das Störsignal (3),
S(j) das Sprachsignal (5) und
Δτ,η die Richtung definieren.
8. Verfahren nach mindestens einem oder mehreren der vorhergehenden
Ansprüche 1 bis 7, dadurch gekennzeichnet, dass im ersten Modul (12) eine Spektraldichteschätzung über eine Zeitmittelung entsprechend dem folgenden Algorithmus
berechnet wird.
9. Verfahren nach mindestens einem oder mehreren der vorhergehenden Ansprüche 1 bis 8, dadurch gekennzeichnet, dass aus der
Spektraidichteschätzung eine komplexe räumlich Kohärenz zwischen dem ersten Audiosignal (6) und dem weiteren Audiosignal (6), insbesondere Mikrofonsignalen, 5 über den Algorithmus
Figure imgf000031_0001
ΐ'οοββϊ)
berechnet wird, wobei TDDR (jö) + 1 das Verhältnis aus den Energien des
Direktschalles zum diffusen Schall beschreibt. l o 10. Verfahren nach mindestens einem oder mehreren der vorherhehenden
Ansprüche 1 bis 9, dadurch gekennzeichnet, dass aus dem Sprachsignal (5) der Direktschall und aus dem Störsignal (3) der diffuse Schall gebildet wird und ein derartiges Verhältnis wie folgt bilden: i DDRK l} -
Figure imgf000031_0002
15
1 1 . Verfahren nach mindestens einem oder mehreren der vorhergehenden
Ansprüche 1 bis 10, dadurch gekennzeichnet, dass das Störgeräusch (3) als ideal isotropisch betrachtet wird und derart definiert wird:
, ,( ) . _ smikdjnjn' ) 0
12. Verfahren nach mindestens einem oder mehreren der vorhergehenden
Ansprüche 1 bis 1 1 , dadurch gekennzeichnet, dass durch Integration über das komplexe Fourierspektrum entsprechend der Formel
Figure imgf000031_0003
5 eine Kostenfunktion gebildet wird.
13. Verfahren nach mindestens einem oder mehreren der vorhergehenden Ansprüche 1 bis 12, dadurch gekennzeichnet, dass durch Vorgabe von mehreren, insbesondere fünfzig, möglichen Einfallswinkeln zwischen -90° und +90° man den wahrscheinlichen Einfallswinkel für das Maximum der Kostenfunktion gemäß der Formel
Δτ,,, = arg maxJ(Ärm } erhält.
14. Verfahren nach mindestens einem oder mehreren der vorhergehenden Ansprüche 1 bis 13, dadurch gekennzeichnet, dass im Zusatzmodul (17)„RTF- Estimation" ein Betrag der Übertragungsfunktion zwischen dem m-ten und dem m'-ten Mikrofon gemäß der Formel
Figure imgf000032_0001
berechnet wird.
15. Verfahren nach mindestens einem oder mehreren der vorhergehenden Ansprüche 1 bis 14, dadurch gekennzeichnet, dass mit dem Vorhandensein eines Sprachsignals und einem ermittelten Einfallswinkel eine Transferfunkton gemäß der Formel
Am (jQ) = Wm(jO) ermittelt wird.
16. Verfahren nach mindestens einem oder mehreren der vorhergehenden Ansprüche 1 bis 14, dadurch gekennzeichnet, dass im zweiten Modul (13) die Aufteilung der über die Mikrofonkanäle aufgenommenen Audiosignale (6) in ein Sprachsignal (5) und in ein Störgeräusch (3) erfolgt.
17. Verfahren nach mindestens einem oder mehreren der vorhergehenden Ansprüche 1 bis 16, dadurch gekennzeichnet, dass die ermittelte Richtung des Sprachsignals (5) und/oder die Daten hierfür vom ersten Modul (12) an das zweite Modul (13) übergeben werden.
18. Verfahren nach mindestens einem oder mehreren der vorhergehenden Ansprüche 1 bis 17, dadurch gekennzeichnet, dass bei der Aufteilung des
Audiosignales (6) in das Sprachsignal (5) und dem Störgeräusch (3) die Richtung des Sprachsignals (5) und/oder die Daten des ersten Moduls (12) berücksichtigt werden. 9. Verfahren nach mindestens einem oder mehreren der vorhergehenden
Ansprüche 1 bis 18, dadurch gekennzeichnet, dass im dritten Modul (14), im so genannten Multichannel-Postfilter-Modul (14), ein mathematisches Verfahren basierend auf einer räumlichen Autokorrelationsmatrix der Signale zum Einsatz kommt, welches das Verhältnis von Sprachsignal-Energie zu Störsignal-Energie (SNR) im Ausgabesignal des zweiten Modules (13) ermittelt.
20. Verfahren nach mindestens einem oder mehreren der vorhergehenden Ansprüche 1 bis 19, dadurch gekennzeichnet, dass im dritten Modul (14) unter Verwendung einer Filterfunkton "W(jO)" eines GSC-Beamformers die Schätzung des Sprachsignals (5) und des Störgeräusches (3) wie folgt angegeben wird:
s(jii) = Ä(jn)wH ü)z{jü)
Figure imgf000033_0001
dabei beschreibt der Vektor A(Qj) das Audiosignal (6) an allen Mikrofonen (10, 1 1 ). 21 . Verfahren nach mindestens einem oder mehreren der vorhergehenden Ansprüche 1 bis 20, dadurch gekennzeichnet, dass sich aus der Formel
M m=l
M m,= l die Langzeit-Spektraldichteschätzung des Sprachsignals (5) und respektive des Störgeräusches (3) ergibt.
22. Verfahren nach mindestens einem oder mehreren der vorhergehenden Ansprüche 1 bis 21 , dadurch gekennzeichnet, dass eine effizienten
Implementation für die Langzeit-Spektraldichteschätzung gemäß der Formel
Tr [Γ MN) = M
M
Tr frV v WAw ) - Tr ( ÄWH T X Y ) = V Am ( WHT X ,-)
m.= 1
Tr ( ÄWHFN NH) - Tr (ÄHÄWHTNNw) = \Am\2WHTxxW
m = l
erfolgt. 23. Verfahren nach mindestens einem oder mehreren der vorhergehenden Ansprüche 1 bis 22, dadurch gekennzeichnet, dass die Kurzzeit- Spektralschätzung durch direkte Berechnung gemäß der Formel
9M = AWHTNifa
Φ ^ = TNN ~ rNNH - AWHTNN + ÄWHFNMH
erhalten wird.
24. Verfahren nach mindestens einem oder mehreren der vorhergehenden Ansprüche 1 bis 23, dadurch gekennzeichnet, dass das Verhältnis des
Sprachsignals (5) zum Störgeräusch (3) gemäß dem Algorithmus ξ{ ϊ) = _ ^iui _ !
Tr ( Φ ^ I φ55
\ - ' " j
berechnet wird.
25. Verfahren nach einem oder mehreren der vorhergehenden Ansprüche 1 bis 24, dadurch gekennzeichnet, dass im dritten Modul (14) die vom zweiten Modul (13) übergebenen Signale annähernd in Echtzeit, vorzugsweise mit 32 ms Verzögerung, verarbeitet werden.
26. Verfahren nach einem oder mehreren der vorhergehenden Ansprüche 1 bis 25, dadurch gekennzeichnet, dass vom dritten Modul (14) eine Absenkung des Störgeräusches (3) um 25 dB erreicht wird. 27. Verfahren nach einem oder mehreren der vorhergehenden Ansprüche 1 bis
26, dadurch gekennzeichnet, dass eine optimale Parametrierung der
Auswerteeinheit (8) über umfangreiche automatisierte Sprachtests, welche auf deutsche und englische Sprachkorpora basieren, erfolgt. 28. Verfahren nach einem oder mehreren der vorhergehenden Ansprüchen 1 bis
27, dadurch gekennzeichnet, dass eine zusätzliche weitere Software zur
Steuerung angeschlossener Komponenten in der Kommunikationsanlage (1 ) abgearbeitet wird und/oder Daten von der Kommunikationsanlage (1) an angeschlossene Komponenten übergeben werden.
29. Verfahren nach einem oder mehreren der vorhergehenden Ansprüche 1 bis
28, dadurch gekennzeichnet, dass bei einem Einsatz in einer Gegensprechanlage ein weiteres Modul (24), insbesondere ein sogenanntes Echochanceller-Modul (24), zur Reduzierung von akustischen Echos, zusammen mit den Modulen (10, 1 1 , 12) eins bis drei in einer einzigen Betriebssoftware eingesetzt wird.
30. Verfahren nach Anspruch 1 , dadurch gekennzeichnet, dass ein weiteres zusätzliches Modul (17), insbesondere ein sogenanntes RTF-Estimation-Modul (17), welches aus der Richtungsinformation des ersten Moduls (12) die relativen akustischen Transferfunktionen zwischen den Mikrofonen (10, 1 1 ) berechnet, eingesetzt wird.
31. Verfahren nach einem oder mehreren der vorhergehenden Ansprüche 1 bis 30, dadurch gekennzeichnet, dass die Anordnung der Mikrofone (10, 1 1 ) während des Betriebes ermittelt wird, wobei lediglich ein Bereich für den Abstand der Mikrofone (10, 1 1 ) vorgegeben wird.
32. Verfahren nach einem oder mehreren der vorhergehenden Ansprüche 1 bis
31 , dadurch gekennzeichnet, dass das resultierende Sprachsignal (5) entweder direkt ausgegeben wird und/oder, vorzugsweise permanent, in einem
Sprachspeicher abgelegt wird, wobei der Signaltransport über ein beliebiges Medium und/oder Protokoll erfolgt.
33. Verfahren nach einem oder mehreren der vorhergehenden Ansprüche 1 bis
32, dadurch gekennzeichnet, dass von der Kommunikationsanlage (1 ) aufgrund von hinterlegten Sprachbefehlen angeschlossene Komponenten aktiviert und deaktiviert werden.
34. Schrankensystem (25) mit einer Kommunikationsanlage (1 ), die eine
Zentraleinheit aufweist, an der die Kommunikationsanlage (1 ), die
Schrankenanlagen (25), eine Meldezentrale (27) und weitere Komponenten angeschlossen sind, dadurch gekennzeichnet, dass die Kommunikationsanlage (1) und/oder die Zentraleinheit (28) zur Durchführung des Verfahrens nach einem oder mehreren der Ansprüche 1 bis 18 ausgebildet ist.
35. Schrankensystem (25) nach Anspruch 18, dadurch gekennzeichnet, dass die Wiedergabe des Sprachsignals (5) über die Ausgabeeinheit (9) in der
Meldezentrale (27) erfolgt.
36. Notrufanlage (32), umfassend eine Zentraleinheit (28) an der eine
Kommunikationsanlage (1 ) angeschlossen ist, wobei die Zentraleinheit (28) bevorzugt über Übertragungseinheit (35) mit einer externen Meldestelle (34) verbunden ist, dadurch gekennzeichnet, dass die Zentraleinheit (28) und/oder Kommunikationsanlage (1 ) zur Durchführung des Verfahrens nach einem oder mehreren der Ansprüche 1 bis 18 ausgebildet ist. 37. Notrufanlage (32) nach Anspruch 36, dadurch gekennzeichnet, dass die Übertragungseinheit (35) durch Datenleitungen (36), Telefonleitungen,
Funksignale und/oder Internetverbindungen (38) gebildet ist
38. Notrufanlage (32) nach Anspruch 36 oder 37, dadurch gekennzeichnet, dass die Ausgabeeinheit (9) für das Sprachsignal (5) mit der Übertragungseinheit (35) für die externe Meldestelle (34) verbunden ist.
5 39. Kommunikationseinheit (1), die zur Durchführung des Verfahrens nach einem oder mehreren der Ansprüche 1 bis 18 geeignet ist, dadurch gekennzeichnet, dass diese in Verkehrstunnel, Industrieparks, Hotelanlagen, usw. einsetzbar ist.
!()
PCT/AT2014/000045 2013-03-15 2014-03-10 Verfahren zur erhöhung der sprachverständlichkeit WO2014138758A2 (de)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
ATA207/2013 2013-03-15
ATA207/2013A AT514412A1 (de) 2013-03-15 2013-03-15 Verfahren zur Erhöhung der Sprachverständlichkeit

Publications (2)

Publication Number Publication Date
WO2014138758A2 true WO2014138758A2 (de) 2014-09-18
WO2014138758A3 WO2014138758A3 (de) 2014-12-18

Family

ID=50483339

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/AT2014/000045 WO2014138758A2 (de) 2013-03-15 2014-03-10 Verfahren zur erhöhung der sprachverständlichkeit

Country Status (2)

Country Link
AT (1) AT514412A1 (de)
WO (1) WO2014138758A2 (de)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106251877A (zh) * 2016-08-11 2016-12-21 珠海全志科技股份有限公司 语音声源方向估计方法及装置
DE102016118007A1 (de) 2016-09-23 2018-03-29 Gira Giersiepen Gmbh & Co. Kg Verfahren für den Betrieb mindestens einer Gebäudegegensprechanlage und eine entsprechende Gebäudegegensprechanlage
DE102016220365A1 (de) 2016-10-18 2018-04-19 Audi Ag Verfahren zum Betreiben einer Audioausgabevorrichtung, Audioausgabevorrichtung für ein Kraftfahrzeug und Kraftfahrzeug
US10636404B2 (en) 2017-07-27 2020-04-28 Volkswagen Atiengesellschaft Method for compensating for interfering noises in a hands-free apparatus in a motor vehicle, and hands-free apparatus

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
BR112012031656A2 (pt) * 2010-08-25 2016-11-08 Asahi Chemical Ind dispositivo, e método de separação de fontes sonoras, e, programa

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
None

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106251877A (zh) * 2016-08-11 2016-12-21 珠海全志科技股份有限公司 语音声源方向估计方法及装置
CN106251877B (zh) * 2016-08-11 2019-09-06 珠海全志科技股份有限公司 语音声源方向估计方法及装置
DE102016118007A1 (de) 2016-09-23 2018-03-29 Gira Giersiepen Gmbh & Co. Kg Verfahren für den Betrieb mindestens einer Gebäudegegensprechanlage und eine entsprechende Gebäudegegensprechanlage
DE102016220365A1 (de) 2016-10-18 2018-04-19 Audi Ag Verfahren zum Betreiben einer Audioausgabevorrichtung, Audioausgabevorrichtung für ein Kraftfahrzeug und Kraftfahrzeug
DE102016220365B4 (de) 2016-10-18 2022-02-17 Audi Ag Verfahren zum Betreiben einer Audioausgabevorrichtung, Audioausgabevorrichtung für ein Kraftfahrzeug und Kraftfahrzeug
US10636404B2 (en) 2017-07-27 2020-04-28 Volkswagen Atiengesellschaft Method for compensating for interfering noises in a hands-free apparatus in a motor vehicle, and hands-free apparatus

Also Published As

Publication number Publication date
AT514412A1 (de) 2014-12-15
WO2014138758A3 (de) 2014-12-18

Similar Documents

Publication Publication Date Title
DE60022304T2 (de) Verfahren und Anordnung zur Ortung von Sprechern
EP1595427B1 (de) Verfahren und vorrichtung zur separierung von schallsignalen
DE112014006865B4 (de) Echounterdrücker
DE69827911T2 (de) Verfahren und einrichtung zur mehrkanaligen kompensation eines akustischen echos
EP1977626B1 (de) Verfahren zur aufnahme einer tonquelle mit zeitlich variabler richtcharakteristik und zur wiedergabe
EP0668007B1 (de) Mobilfunkgerät mit freisprecheinrichtung
DE10351509B4 (de) Hörgerät und Verfahren zur Adaption eines Hörgeräts unter Berücksichtigung der Kopfposition
DE69634841T2 (de) Verfahren und Vorrichtung zur Echokompensation
EP1143416A2 (de) Geräuschunterdrückung im Zeitbereich
DE102014002899A1 (de) Verfahren, Vorrichtung und Herstellung zur Zwei-Mikrofon-Array-Sprachverbesserung für eine Kraftfahrzeugumgebung
EP1064822A1 (de) Verfahren und einrichtung zum betrieb einer mikrofonanordnung, insbesondere in einem kraftfahrzeug
WO2014138758A2 (de) Verfahren zur erhöhung der sprachverständlichkeit
DE102006047983A1 (de) Verarbeitung eines Eingangssignals in einem Hörgerät
EP0747880A2 (de) Spracherkennungssystem
DE112012006780T5 (de) Strahlformungsvorrichtung
DE10043064B4 (de) Verfahren und Vorrichtung zur Elimination von Lautsprecherinterferenzen aus Mikrofonsignalen
DE102016007873A1 (de) Vorrichtung und Verfahren zur Erzeugung von akustischen Signalen
DE102018000281A1 (de) Vorrichtung zum Erfassen von Objekten
DE102019105458B4 (de) System und Verfahren zur Zeitverzögerungsschätzung
WO1999016285A1 (de) Verfahren zur optimierung des empfangs akustischer signale und elektrisches gerät
EP2996313B1 (de) Kommunikationsanlage für kraftfahrzeuge
DE60000333T2 (de) System und verfahren zum verarbeiten von antennensignalen
DE102007014816B4 (de) Kommunikationssystem und Verfahren zum Betreiben eines Kommunikationssystems in einem Fahrzeug
EP1916872B1 (de) Differentielles Richtmikrofonsystem und Hörhilfsgerät mit einem solchen differentiellen Richtmikrofonsystem
DE102014100642A1 (de) Anordnung und Verfahren zur Erfassung von Signalen

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 14717089

Country of ref document: EP

Kind code of ref document: A2

122 Ep: pct application non-entry in european phase

Ref document number: 14717089

Country of ref document: EP

Kind code of ref document: A2