WO2021151915A1 - Verfahren und vorrichtung zur erkennung von akustischen anomalien - Google Patents

Verfahren und vorrichtung zur erkennung von akustischen anomalien Download PDF

Info

Publication number
WO2021151915A1
WO2021151915A1 PCT/EP2021/051804 EP2021051804W WO2021151915A1 WO 2021151915 A1 WO2021151915 A1 WO 2021151915A1 EP 2021051804 W EP2021051804 W EP 2021051804W WO 2021151915 A1 WO2021151915 A1 WO 2021151915A1
Authority
WO
WIPO (PCT)
Prior art keywords
abcd
audio segments
anomaly
audio
feature vectors
Prior art date
Application number
PCT/EP2021/051804
Other languages
English (en)
French (fr)
Inventor
Jakob Abesser
Original Assignee
Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V.
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. filed Critical Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V.
Priority to EP21702020.5A priority Critical patent/EP4097695B1/de
Publication of WO2021151915A1 publication Critical patent/WO2021151915A1/de
Priority to US17/874,072 priority patent/US20220358952A1/en

Links

Classifications

    • GPHYSICS
    • G08SIGNALLING
    • G08BSIGNALLING OR CALLING SYSTEMS; ORDER TELEGRAPHS; ALARM SYSTEMS
    • G08B13/00Burglar, theft or intruder alarms
    • G08B13/02Mechanical actuation
    • G08B13/04Mechanical actuation by breaking of glass
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/48Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
    • G10L25/51Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
    • GPHYSICS
    • G08SIGNALLING
    • G08BSIGNALLING OR CALLING SYSTEMS; ORDER TELEGRAPHS; ALARM SYSTEMS
    • G08B13/00Burglar, theft or intruder alarms
    • G08B13/16Actuation by interference with mechanical vibrations in air or other fluid
    • G08B13/1654Actuation by interference with mechanical vibrations in air or other fluid using passive vibration detection systems
    • G08B13/1672Actuation by interference with mechanical vibrations in air or other fluid using passive vibration detection systems using sonic detecting means, e.g. a microphone operating in the audio frequency range
    • GPHYSICS
    • G08SIGNALLING
    • G08BSIGNALLING OR CALLING SYSTEMS; ORDER TELEGRAPHS; ALARM SYSTEMS
    • G08B21/00Alarms responsive to a single specified undesired or abnormal condition and not otherwise provided for
    • G08B21/02Alarms for ensuring the safety of persons
    • G08B21/04Alarms for ensuring the safety of persons responsive to non-activity, e.g. of elderly persons
    • G08B21/0438Sensor means for detecting
    • G08B21/0469Presence detectors to detect unsafe condition, e.g. infrared sensor, microphone

Definitions

  • Embodiments of the present invention relate to a method and a device for detecting acoustic anomalies. Further exemplary embodiments relate to a corresponding computer program. According to exemplary embodiments, a normal situation is recognized and anomalies are recognized in comparison to this normal situation.
  • a recording typically encompasses a certain period of time which, when viewed below, is subdivided into one or more time windows. Based on this subdivision and depending on the length of the noise (cf. transient or longer, stationary sound), a noise can extend over one or more audio segments / time windows.
  • an anomaly that is to say a sound deviation from the “normal acoustic state”, that is to say the amount of noises regarded as “normal”, must be recognized.
  • anomalies are broken glass (burglary detection), a pistol shot (monitoring of public events) or a chainsaw (monitoring of nature reserves).
  • the problem is that the sound of the anomaly (not-OK-class) is often not known or cannot be precisely defined or described (e.g. how can a broken machine sound?).
  • the second problem is that novel algorithms for sound classification using deep neural networks are very sensitive to changed (and often unknown) acoustic conditions in the operational scenario.
  • classification models that are trained with audio data can be achieved with a high-quality microphone, for example were recorded, with the classification of audio data which were recorded by means of a poorer microphone, only poor recognition rates.
  • Possible solution approaches are in the area of "Domain Adaptation", ie the adaptation of the models or the audio data to be classified in order to achieve greater robustness in recognition, but in practice it is often logistically difficult and too expensive to make representative audio recordings Record at the later place of use of an audio analysis system and then annotate them with regard to the contained sound events.
  • the third problem of audio analysis of environmental noises lies in concerns about data protection, since classification methods can theoretically also be used to recognize and transcribe speech signals (e.g. when recording a conversation near the audio sensor).
  • a classification model based on machine learning algorithms can be trained to recognize certain noise classes by means of supervised learning.
  • Current studies show that neural networks in particular are very sensitive to changed acoustic conditions and that additional adaptation of classification models to the respective acoustic situation of the application has to be carried out.
  • the object of the present invention is to create a concept for the detection of anomalies which optimizes the learning behavior and which enables a reliable and precise detection of anomalies.
  • Embodiments of the present invention provide a method for detecting acoustic anomalies.
  • the method comprises the steps of obtaining a long-term recording with a plurality of first audio segments assigned to respective first time windows and analyzing the plurality of first audio segments in order to each of the A plurality of the first audio segments have a first feature vector describing the respective first audio segment, such as e.g. B. to obtain a spectrum for the audio segment (time-frequency spectrum) or an audio fingerprint with certain characteristics for the audio segment.
  • the result of the analysis of a long-term recording subdivided into a plurality of time windows is a plurality of first (one- or multi-dimensional) feature vectors for the plurality of first audio segments (assigned to the corresponding times / windows of the long-term recording) that correspond to the Represent "normal state".
  • the method comprises further steps of hardening a further recording with one or more second audio segments assigned to respective second audio windows and analyzing the one or more second audio segments in order to obtain one or more feature vectors describing the one or more second audio segments.
  • the result of the second part of the method is, for example, a large number of second feature vectors (e.g. with corresponding points in time of the further recording).
  • the one or more second feature vectors are compared with the plurality of first feature vectors (for example by comparing the identities or similarities or by recognizing a sequence) in order to recognize at least one anomaly.
  • the recognition of different forms of anomalies would be conceivable, namely a sound anomaly (i.e. recognition of the first appearance of a previously unheard sound), a temporal anomaly (e.g. changed repetition pattern of a sound that has already been heard) or a spatial anomaly (occurrence of a sound that has already been heard in a previously unknown spatial position).
  • Embodiments of the present invention are based on the knowledge that a “normal acoustic state” and “normal noises” can be learned independently solely through a long-term sound analysis (phase 1 of the method comprising the steps of obtaining a long-term recording and analyzing the same). This means that this long-term sound analysis results in an independent or autonomous adaptation of an analysis system to a specific acoustic scene. No annotated training data (recording + semantic class annotation) are required, which saves a great deal of time, effort and costs.
  • this acoustic "normal state” or the "normal” noises have been recorded, the current noise environment can be carried out in a subsequent analysis phase (phase 2 with the steps of obtaining a further recording and analyzing it).
  • phase 1 involves learning a model using the normal background noise on the basis of a statistical procedure or machine learning, whereby this model then allows (in phase 2) to compare currently recorded background noise with it with regard to their degree of novelty (probability of an anomaly).
  • Another advantage of this approach is that the privacy of people who may be in the direct vicinity of the acoustic sensors is protected.
  • the multitude of first audio segments in themselves and / or in their order describes this normal situation.
  • the multiplicity of the first audio segments represents a kind of reference in itself and / or in their combination.
  • the aim of the method is to identify anomalies in comparison to this normal situation.
  • the result of the clustering described above is a description of the reference on the basis of first audio segments.
  • the second audio segments are then compared individually or in their combination (that is, sequence) with the reference in order to represent the anomaly.
  • the anomaly is a deviation of the current acoustic situation described by the second feature vectors from the reference described by the first feature vectors.
  • the first feature vectors alone or in their combination represent a reference mapping of the normal state, while the second feature vectors individually or in their combination describe the current acoustic situation, so that in the step 126 the anomaly can be recognized in the form of a deviation of the description of the current acoustic situation (cf. second feature vectors) from the reference (cf. first feature vectors).
  • the anomaly is thus defined in that at least one of the second acoustic feature vectors deviates from the sequence of the first acoustic feature vectors. Possible deviations can be: aural anomalies, temporal anomalies and spatial anomalies.
  • a large number of first audio segments are recorded by phase 1, which are also referred to below as “normal” or “normal” noises / audio segments. According to exemplary embodiments knowing these “normal” audio segments makes it possible to recognize a so-called aural anomaly. In this case, the substep of identifying a second feature vector, which differs from the analyzed first feature vectors, is then carried out.
  • the method comprises the substep of identifying a repetition pattern in the plurality of first time windows. Repeating audio segments are identified and the resulting pattern is determined. According to exemplary embodiments, the identification takes place on the basis of repeated, identical or similar first feature vectors belonging to different first audio segments. In accordance with exemplary embodiments, identical and similar first feature vectors or first audio segments can also be grouped into one or more groups during identification.
  • the method includes the recognition of a sequence of first feature vectors belonging to the first audio segments or the recognition of a sequence of groups of identical or similar first feature vectors or first audio segments.
  • the basic steps therefore advantageously make it possible to recognize normal noises or to recognize normal audio objects.
  • the combination of these normal audio objects in terms of time in a specific sequence or a specific repetition pattern then represents, in total, a normal acoustic state.
  • this method then enables the sub-step of comparing the repeat pattern of the first audio segments and / or sequence in the first audio segments with the repeat pattern of the second audio segments and / or sequence in the second audio segments to take place. This comparison enables the detection of a temporal anomaly.
  • the method can include the step of determining a respective position for the respective first audio segments. According to an exemplary embodiment, it is also possible to determine the respective position for the respective second audio segments are made. According to an exemplary embodiment, this then enables the detection of a spatial anomaly to be undertaken through the substep of comparing the position assigned to the respective first audio segments with the position assigned to the corresponding respective second audio segment.
  • At least two microphones are used for spatial localization, for example, while one microphone is sufficient for the other two types of anomaly.
  • each feature vector can each have one dimension or several dimensions for the different audio segments.
  • a possible implementation of a feature vector would be a time-frequency spectrum, for example.
  • the dimensional space can also be reduced.
  • the method includes the step of reducing the dimensions of the feature vector.
  • the method can have the step of determining a probability of occurrence of the respective first audio segment and of giving up the probability of occurrence together with the respective first feature vector.
  • the method can have the step of determining a probability of occurrence of the respective first audio segment and outputting the probability of occurrence with the respective first feature vector and an associated first time window.
  • the method can also run in a computer-implemented manner.
  • the method has a computer program with a program code for carrying out the method.
  • FIG. 1 For exemplary embodiments, relate to a device with an interface and a processor.
  • the interface is used to obtain a long-term recording with a multiplicity of first audio segments assigned to respective first time windows and to obtain a further recording with one or more second audio segments assigned to respective second time windows.
  • the processor is designed to handle the plurality of the first audio segments in order to obtain a first feature vector describing the respective first audio segment for each of the plurality of first audio segments.
  • the processor is designed to analyze the one or more second audio segments in order to obtain one or more feature vectors describing the one or more second audio segments.
  • the processor is designed to match the one or more second feature vectors with the plurality of first feature vectors in order to identify at least one anomaly.
  • the device comprises a receiving unit connected to the interface, such as, for. B. a microphone or a microphone array.
  • the microphone array advantageously enables a position to be determined, as has already been explained above.
  • the device comprises an output interface for outputting the above-explained probability of occurrence.
  • FIG. 1 shows a schematic flow diagram to illustrate the method according to a basic exemplary embodiment
  • FIG. 3 shows a schematic block diagram to illustrate a device according to a further exemplary embodiment.
  • 1 shows a method 100 which is divided into two phases 110 and 120.
  • Step 112 includes a long Time recording of the normal acoustic state in the application scenario.
  • the analysis device 10 (cf. FIG. 3) is set up in the target environment, so that a long-term recording 113 of the normal state is recorded.
  • This long-term recording can, for example, last for 10 minutes, 1 hour or 1 day (generally more than 1 minute, more than 30 minutes, more than 5 hours or more than 24 hours and / or up to 10 hours, up to 1 day, up to 3 days or up to 10 days (including the time window defined by the upper and lower).
  • This long-term recording 113 is then subdivided, for example.
  • the subdivision can be in equally long time ranges, such as B. 1 second or 0.1 seconds or dynamic time ranges.
  • Each time range comprises an audio segment.
  • step 114 which is generally referred to as analyzing, these audio segments are examined separately or in combination.
  • a so-called feature vector 115 (first feature vectors) is determined for each audio segment during the analysis.
  • each feature vector 115 “codes” the sound at a specific point in time.
  • Feature vectors 115 can be determined, for example, by an energy spectrum for a specific frequency range or generally a time-frequency spectrum.
  • step 114 typical or dominant noises can then optionally also be identified by means of unsupervised learning processes (for example clustering).
  • unsupervised learning processes for example clustering
  • time segments or audio segments are grouped which here express similar feature vectors 115 and which accordingly have a similar sound.
  • No semantic classification of a sound eg “car” or “airplane”
  • unsupervised learning takes place on the basis of frequencies of repetitive or similar audio segments.
  • an unsupervised learning of the temporal sequence and / or typical repetition patterns of certain noises to take place in step 114.
  • the result of the clustering is a compilation of audio segments or noises that are normal or typical for this area. For example, a probability of occurrence can also be assigned to each audio segment. Furthermore, a Repetition patterns or a sequence, that is to say a combination of several audio segments, can be identified that is typical or normal for the current environment. For this purpose, different audio segments can also be assigned a probability to each grouping, each repetition pattern or each sequence.
  • phase 120 has the three basic steps 122 and 124 and 126.
  • an audio recording 123 is again recorded. This is typically significantly shorter in comparison to the audio recording 113. This audio recording is shorter in comparison to audio recording 113, for example. However, it can also be a continuous audio recording.
  • This audio recording 123 is then analyzed in a subsequent step 124. The content of this step is comparable to step 114. In this case, the digital audio recording 123 is again converted into feature vectors. If these second feature vectors 125 are now available, they can be compared with the feature vectors 115.
  • step 126 The comparison is made in step 126 with the aim of determining anomalies. Very similar feature vectors and very similar sequences of feature vectors indicate that there is no anomaly. Deviations from previously determined patterns (repeated patterns, typical sequences, etc.) or deviations from the previously determined audio segments identified by other / new feature vectors indicate an anomaly. These are recognized in step 126. In step 126, different types of anomalies can be identified. These are for example:
  • a probability can be output for each of the three types of anomaly at time X. This is illustrated by arrows 126z, 126k and 126r (one arrow per anatomy type) in FIG.
  • threshold values can be defined in accordance with exemplary embodiments when feature vectors are similar or when groups of feature vectors are similar, so that the result then also has one
  • threshold for an anomaly.
  • This application of threshold values can also be linked to the output of the probability distribution or appear in combination with it, e. B. to enable more accurate temporal detection of anomalies.
  • step 114 in the adjustment phase 110 can also have an unsupervised learning of typical spatial positions and / or movements of specific noises.
  • the microphone 18 shown in FIG. 3 two microphones or a microphone array with at least two microphones are present.
  • a spatial localization of the current dominant sound sources / audio segments is then also possible in the second phase 120 by means of a multi-channel recording.
  • the technology on which this is based can, for example, be beamforming.
  • 2a illustrates the temporal anomaly.
  • audio segments ABC for both phase 1 and phase 2 are plotted along the time axis t; in phase 1 it was recognized that a normal situation or normal sequence exists such that the audio segments ABC appear in the sequence ABC. A repetition pattern was recognized for one of them, which can be followed by another group ABC after the first group ABC.
  • this pattern ABCABC is recognized in phase 2, it can be assumed that no anomaly or at least no temporal anomaly is present. If, however, the pattern ABCAABC shown here is recognized, then there is a temporal anomaly, since a further audio segment A is arranged between the two groups ABC. This audio segment A or abnormal audio segment A is provided with a double frame.
  • FIG. 2b A sound anomaly is further illustrated in FIG. 2b.
  • the audio segments ABCABC were again recorded along the time axis t (cf. FIG. 2a).
  • the acoustic anomaly during detection is shown by the fact that a further audio segment, here audio segment D, appears in phase 2.
  • This audio segment D has an increased length, e.g. B. over two time ranges and is therefore illustrated as DD.
  • the acoustic anomaly is provided with a double frame in the order of species of the audio segment.
  • This sonic anomaly can be, for example, a sound that was never heard during the learning phase.
  • a thunder can be present here, which differs in terms of loudness / intensity and in terms of length from the previous elements ABC.
  • a local anomaly is illustrated.
  • two audio segments A and B were recognized at two different positions, position 1 and position 2.
  • both elements A and B were recognized, and it was established through localization that both audio segment A and audio segment B are at position 1.
  • the presence of audio segment B at position 1 represents a spatial anomaly.
  • the device 10 essentially comprises the input interface 12, such as, for. B. a microphone interface and a processor 14.
  • the processor 14 receives the one or more (simultaneously present) audio signals from the microphone 18 or the microphone array 18 'and analyzes them. To this end, it essentially carries out steps 114, 124 and 126 explained in connection with FIG. 1.
  • the result to be output (cf. output interface 16) is a set of feature vectors that represent the normal state or, in phase 2, an output of the anomalies recognized, e.g. B. assigned to a specific type and / or assigned to a specific point in time.
  • a probability of anomalies or a probability of anomalies at specific times or, in general, a probability of feature vectors at specific times can take place.
  • the device 10 or the audio system is designed in accordance with exemplary embodiments (simultaneously) different types of anomalies, e.g. B. to recognize at least two anomalies.
  • the following areas of application are conceivable:
  • aspects have been described in connection with a device, it goes without saying that these aspects also represent a description of the corresponding method, so that a block or a component of a device can also be used as a corresponding method step or as a feature of a method step understand is. Analogously, aspects that have been described in connection with or as a method step also represent a description of a corresponding block or details or features of a corresponding device.
  • Some or all of the method steps can be carried out by a hardware apparatus (or under Using a hardware device) such as a microprocessor, a programmable computer ter or an electronic circuit. In some exemplary embodiments, some or more of the most important process steps can be carried out by such an apparatus.
  • exemplary embodiments of the invention can be implemented in hardware or in software.
  • the implementation can be implemented using a digital storage medium such as a floppy disk, DVD, Blu-ray disk, CD, ROM, PROM, EPROM, EEPROM or FLASH memory, hard disk or other magnetic or optical Memory are carried out on the electronically readable control signals are stored, which can interact with a programmable computer system or cooperate in such a way that the respective method is carried out.
  • the digital storage medium can therefore be computer-readable.
  • Some exemplary embodiments according to the invention thus include a data carrier which has electronically readable control signals which are able to interact with a programmable computer system in such a way that one of the methods described herein is carried out.
  • exemplary embodiments of the present invention can be implemented as a computer program product with a program code, the program code being effective to carry out one of the methods when the computer program product runs on a computer.
  • the program code can, for example, also be stored on a machine-readable carrier.
  • exemplary embodiments include the computer program for performing one of the methods described herein, the computer program being stored on a machine-readable carrier.
  • an exemplary embodiment of the method according to the invention is thus a computer program which has a program code for performing one of the methods described herein when the computer program runs on a computer.
  • a further exemplary embodiment of the method according to the invention is thus a data carrier (or a digital storage medium or a computer-readable medium) on which the computer program for performing one of the methods described herein is recorded.
  • the data carrier, the digital storage medium or the computer-readable medium are typically tangible and / or non-transitory or non-transitory.
  • a further exemplary embodiment of the method according to the invention is thus a data stream or a sequence of signals which represents or represents the computer program for carrying out one of the methods described herein.
  • the data stream or the sequence of signals can, for example, be configured to be transferred via a data communication connection, for example via the Internet.
  • Another exemplary embodiment comprises a processing device, for example a computer or a programmable logic component, which is configured or adapted to carry out one of the methods described herein.
  • a processing device for example a computer or a programmable logic component, which is configured or adapted to carry out one of the methods described herein.
  • Another exemplary embodiment comprises a computer on which the computer program for performing one of the methods described herein is installed.
  • a further exemplary embodiment according to the invention comprises a device or a system which is designed to transmit a computer program for carrying out at least one of the methods described herein to a receiver.
  • the transmission can take place electronically or optically, for example.
  • the receiver can be, for example, a computer, a mobile device, a storage device or a similar device.
  • the device or the system can comprise, for example, a file server for transmitting the computer program to the recipient.
  • a programmable logic component for example a field-programmable gate array, an FPGA
  • a field-programmable gate array can interact with a microprocessor in order to carry out one of the methods described herein.
  • the methods in some exemplary embodiments are implemented by a any hardware device performed. This can be hardware that can be used universally, such as a computer processor (CPU), or hardware specific to the method, such as an ASIC, for example.
  • the devices described herein can be implemented, for example, using a hardware apparatus, or using a computer, or using a combination of a hardware apparatus and a computer.
  • the devices described herein, or any components of the devices described herein, can be implemented at least partially in hardware and / or in software (computer program).
  • the methods described herein can be implemented, for example, using a hardware apparatus, or using a computer, or using a combination of a hardware apparatus and a computer.

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Human Computer Interaction (AREA)
  • Health & Medical Sciences (AREA)
  • Multimedia (AREA)
  • Acoustics & Sound (AREA)
  • Computational Linguistics (AREA)
  • Signal Processing (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Emergency Management (AREA)
  • Business, Economics & Management (AREA)
  • Gerontology & Geriatric Medicine (AREA)
  • General Health & Medical Sciences (AREA)
  • Measurement Of Mechanical Vibrations Or Ultrasonic Waves (AREA)
  • Testing And Monitoring For Control Systems (AREA)
  • Emergency Alarm Devices (AREA)

Abstract

Ein Verfahren (100) zur Detektion von Anomalien umfassend folgende Schritte: Erhalten einer Langzeitaufnahme (113) mit einer Vielzahl von ersten Audiosegmenten (ABCD) zugeordnet zu jeweiligen ersten Zeitfenstern; Analysieren der Vielzahl der ersten Audiosegmente (ABCD), um zu jedem der Vielzahl der ersten Audiosegmente (ABCD) einen das jeweilige erste Audiosegment (ABCD) beschreibenden ersten Merkmalsvektor zu erhalten; Erhalten einer weiteren Aufnahme (123) mit einem oder mehreren zweiten Audiosegmenten (ABCD) zugeordnet zu jeweiligen zweiten Zeitfenstern; Analysieren der einen oder mehreren zweiten Audiosegmente (ABCD), um einen oder mehrere die einen oder mehreren zweiten Audiosegmente (ABCD) beschreibenden Merkmalsvektoren zu erhalten; Abgleichen der einen oder mehreren zweiten Merkmalsvektoren mit der Vielzahl der ersten Merkmalsvektoren, um zumindest eine Anomalie, wie z.B. eine zeitliche, klangliche oder räumliche Anatomie, zu erkennen.

Description

Verfahren und Vorrichtung zur Erkennung von akustischen Anomalien
Beschreibung
Ausführungsbeispiele der vorliegenden Erfindung beziehen sich auf ein Verfahren, eine Vorrichtung zur Erkennung von akustischen Anomalien. Weitere Ausführungsbeispiele be- ziehen sich auf ein entsprechendes Computerprogramm. Entsprechend Ausführungsbei- spielen erfolgt die Erkennung einer Normalsituation sowie die Erkennung von Anomalien im Vergleich zu dieser Normalsituation.
In realen akustischen Szenen existiert i.d.R. eine komplexe Überlagerung mehrerer Klang- quellen. Diese können vorder- und hintergründig sowie beliebig räumlich positioniert sein. Ebenso ist eine Vielzahl möglicher Klänge denkbar, welche von sehr kurzen transienten Signalen (z. B. Klatschen, Schuss) bis zu längeren, stationären Klängen (Sirene, vorbeifah- rende Bahn) reichen können. Eine Aufnahme umfasst typischerweise einen bestimmten Zeitraum, der bei nachfolgender Betrachtung in ein oder mehrere Zeitfenster untergliedert ist. Ein Geräusch kann sich ausgehend von dieser Unterteilung und je nach Geräuschlänge (vgl. transientes oder längerer, stationärer Klang) über ein oder mehrere Audiosegment/ Zeitfenster hinweg erstrecken.
In vielen Anwendungsszenarien muss eine Anomalie, also eine klangliche Abweichung vom „akustischen Normalzustand", also der Menge als „normal" angesehener Geräusche, erkannt werden. Beispiele solcher Anomalien sind Glasbruch (Einbruchsdetektion), ein Pistolenschuss (Überwachung öffentlicher Ereignisse) oder eine Kettensäge (Überwa- chung von Naturschutzgebieten).
Problematisch ist, dass der Klang der Anomalie (Nicht-in-Ordnung-Klasse) oft nicht bekannt ist oder nicht genau definiert oder beschrieben werden kann (z. B. wie kann eine kaputte Maschine klingen?).
Das zweite Problem liegt darin, dass neuartige Algorithmen zur Klangklassifikation mittels tiefer neuronaler Netze sehr empfindlich gegenüber veränderten (und oftmals unbekann- ten) akustischen Bedingungen im Einsatzszenario sind. So erreichen Klassifikationsmo- delle, die mit Audiodaten trainiert werden, welche bspw. mit einem hochwertigen Mikrofon aufgenommen wurden, bei der Klassifikation von Audiodaten, welche mittels eines schlech- teren Mikrofons aufgenommen wurden, nur schlechte Erkennungsraten. Mögliche Lösungs- ansätze liegen im Bereich „Domain Adaptation", also der Anpassung der Modelle oder der zu klassifizierenden Audiodaten, um eine höhere Robustheit in der Erkennung zu erreichen, ln der Praxis ist es aber logistisch oft schwierig und zu teuer, repräsentative Audioaufnah- men am späteren Einsatzort eines Audioanalysesystems aufzunehmen und anschließend bezüglich enthaltener Klangereignisse zu annotieren.
Das dritte Problem der Audioanalyse von Umweltgeräuschen liegt in datenschutzrecht- lichen Bedenken, da Klassifikationsverfahren theoretisch auch zur Erkennung und Tran- skription von Sprachsignalen (z. B. bei der Aufnahme einer Unterhaltung in der Nähe des Audiosensors) genutzt werden können.
Die Klassifikationsmodelle von bestehenden Stand der Technik-Lösungen gestalten wie folgt:
Wenn die zu detektierende klangliche Anomalie genau spezifiziert werden kann, so kann ein Klassifikationsmodell basierend auf maschinellen Lernalgorithmen mittels überwachten Lernens (supervised learning) auf die Erkennung bestimmter Geräusch- klassen trainiert werden. Aktuelle Studien zeigen, dass insbesondere neuronale Netze sehr empfindlich gegenüber veränderten akustischen Bedingungen sind und eine zu- sätzliche Adaptierung von Klassifikationsmodellen an die jeweilige akustische Situa- tion der Anwendung durchgeführt werden muss.
Ausgehend von oben erläuterten Nachteilen besteht der Bedarf nach einem verbesserten Ansatz. Aufgabe der vorliegenden Erfindung ist es, ein Konzept zur Detektion von Anomalien zu schaffen, das in Bezug auf das Anlernverhalten optimiert und das eine zuverlässige und genaue Erkennung von Anomalien ermöglicht.
Die Aufgabe wird durch unabhängige Patentansprüche gelöst.
Ausführungsbeispiele der vorliegenden Erfindung schaffen ein Verfahren zur Erkennung von akustischen Anomalien. Das Verfahren umfasst die Schritte des Erhaltene einer Langzeit- aufnahme mit einer Vielzahl von ersten Audiosegmenten zugeordnet zu jeweiligen ersten Zeitfenstern und des Analysierens der Vielzahl der ersten Audiosegmente, um zu jedem der Vielzahl der ersten Audiosegmente einen das jeweilige erste Audiosegment beschreibenden ersten Merkmalsvektor, wie z. B. ein Spektrum für das Audiosegment (Zeit-Frequenz-Spekt- rum) oder einen Audiofingerabdruck mit bestimmten Charakteristika für das Audiosegment zu erhalten. Beispielsweise ist das Resultat der Analyse einer in eine Vielzahl von Zeitfens- tern unterteilte Langzeitaufnahme eine Vielzahl von ersten (ein- oder mehrdimensionalen) Merkmalsvektoren für die Vielzahl der ersten Audiosegmente (zugeordnet zu den entspre- chenden Zeitpunkten/-fenstern der Langzeitaufnahme), die den „Normalzustand“ repräsen- tieren. Das Verfahren umfasst weitere Schritte des Erhärtens einer weiteren Aufnahme mit einem oder mehreren zweiten Audiosegmenten zugeordnet zu jeweiligen zweiten Audio- fenstern und des Analysierens der ein oder mehreren zweiten Audiosegmente, um ein oder mehrere die ein oder mehreren zweiten Audiosegmente beschreibenden Merkmalsvektoren zu erhalten. Insofern ist das Ergebnis des zweiten Teils des Verfahrens beispielsweise eine Vielzahl von zweiten Merkmalsvektoren (z. B. mit entsprechenden Zeitpunkten der weiteren Aufnahme). In einem nachfolgenden Schrit erfolgt dann das Abgleichen der ein oder meh- reren zweiten Merkmalsvektoren mit der Vielzahl der ersten Merkmalsvektoren (z. B. durch Vergleich der Identitäten oder Ähnlichkeiten oder durch Erkennen einer Reihenfolge), um zumindest eine Anomalie zu erkennen. Denkbar wären entsprechend Ausführungsbeispie- len das Erkennen von unterschiedlichen Formen von Anomalien, nämlich eine klangliche Anomalie (das heißt ein Erkennen eines erstmaligen Auftretens eines bisher ungehörten Klanges), einer zeitlichen Anomalie (z. B. verändertes Wiederholmuster eines bereits gehör- ten Klanges) oder eine räumliche Anomalie (Auftretens eines bereits gehörten Klanges an einer bisher unbekannten räumlichen Position).
Ausführungsbeispielen der vorliegenden Erfindung liegt die Erkenntnis zugrunde, dass al- leine durch eine Langzeitklanganalyse (Phase 1 des Verfahrens umfassend die Schritte Er- halten einer Langzeitaufnahme und Analysieren derselben) selbstständig ein „akustischer Normalzustand“ und „normale Geräusche“ angelernt werden können. D.h., dass durch diese Langzeitklanganalyse ein selbstständiges bzw. autonomes Anpassen eines Analysesystems an eine bestimmte akustische Szene erfolgt. Es sind keine annotierten Trainingsdaten (Auf- nahme + semantische Klassenannotation) erforderlich, was eine große Ersparnis an Zeit, Aufwand und Kosten darstellt. Wenn dieser akustische „Normalzustand“ bzw. die „normalen“ Geräusche erfasst sind, kann die aktuelle Geräuschumgebung in einer nachfolgenden Ana- lysephase (Phase 2 mit den Schritten Erhalten einer weiteren Aufnahme und Analysieren derselben) erfolgen. Hierbei erfolgt ein Abgleich der aktuellen Audiosegment / aktuellen Ge- räuschkulisse mit den im Vorfeld / in Phase 1 erkannten bzw. angelernten „normalen“ Ge- räuschen. Im Allgemeinen heißt das, dass Phase 1 ein Erlernen eines Modells anhand der normalen Geräuschkulisse auf Basis eines statistischen Verfahrens bzw. maschinellen Ler- nens ermöglicht, wobei dieses Modell es anschließend (in Phase 2) erlaubt, aktuell aufge- nommene Geräuschkulisse damit bezüglich ihres Neuigkeitsgrades (Wahrscheinlichkeit ei- ner Anomalie) abzugleichen.
Ein weiterer Vorteil dieses Ansatzes liegt darin, dass die Privatsphäre der sich möglicher- weise im direkten Umfeld der akustischen Sensoren befindlichen Menschen geschützt ist. Man spricht hier von Privacy-by-design. Systembedingt ist keine Spracherkennung möglich, da Schnittstelle (Audio rein, Anomaliewahrscheinlichkeitsfunktion raus) klar definiert ist. Da- mit lassen sich mögliche Datenschutzbedenken beim Einsatz der akustischen Sensoren zer- streuen.
Nachdem also die Langzeitaufnahme die akustische Normalsituation darstelit, beschreibt die Vielzahl von ersten Audiosegmenten in sich und/oder in ihrer Reihenfolge diese Normalsitu- ation. Insofern stellt die Vielzahl der ersten Audiosegmente für sich und/oder in ihrer Kombi- nation eine Art Referenz dar. Ziel des Verfahrens ist es, Anomalien im Vergleich zu dieser Normalsituation zu erkennen. Das heißt also, dass entsprechend Ausführungsbeispielen das Ergebnis des oben beschriebenen Clusterings eine Beschreibung der Referenz anhand von ersten Audiosegmenten ist. Im Schritt, in welchem die Anomalie festgestellt wird, werden dann die zweiten Audiosegmente für sich oder in ihrer Kombination (das heißt Reihenfolge) mit der Referenz verglichen, um die Anomalie darzustellen. Die Anomalie ist eine Abwei- chung der aktuellen akustischen Situation beschrieben durch die zweiten Merkmalsvektoren von der Referenz beschrieben durch die ersten Merkmalsvektoren. Mit anderen Worten aus- gedrückt heißt das, dass entsprechend Ausführungsbeispielen die ersten Merkmalsvektoren für sich oder in ihrer Kombination eine Referenzabbildung des Normalzustands darstellen, während die zweiten Merkmalsvektoren für sich oder in ihrer Kombination die aktuelle akus- tische Situation beschreiben, so dass in dem Schritt 126 die Anomalie in Form einer Abwei- chung der Beschreibung der aktuellen akustischen Situation (vgl. zweite Merkmalsvektoren) von der Referenz (vgl. erste Merkmalsvektoren) erkannt werden kann. Somit ist die Anomalie dadurch definiert, dass zumindest einer der zweiten akustischen Merkmalsvektoren von der Folge der ersten akustischen Merkmalsvektoren abweicht. Mögliche Abweichungen können sein: klangliche Anomalien, zeitliche Anomalien und räumliche Anomalien.
Entsprechend einem Ausführungsbeispiel sind also durch die Phase 1 eine Vielzahl von ers- ten Audiosegmenten erfasst, die nachfolgend auch als „normale“ bzw. „normal“ angesehene Geräusche/Audiosegmente bezeichnet werden. Entsprechend Ausführungsbeispielen ist unter Kenntnis dieser „normalen“ Audiosegmente es ermöglicht, eine sogenannte klangliche Anomalie zu erkennen. Hierbei wird dann der Unterschritt des Identifizierens eines zweiten Merkmalsvektors, der sich von den analysierten ersten Merkmalsvektoren unterscheidet, durchgeführt.
Entsprechend weiteren Ausführungsbeispielen umfasst das Verfahren beim Analysieren den Unterschritt des Identifizierens eines Wiederholmusters in der Vielzahl der ersten Zeitfenster. Hierbei werden also sich wiederholende Audiosegmente identifiziert und das daraus resul- tierende Muster bestimmt. Entsprechend Ausführungsbeispielen erfolgt das Identifizieren anhand von sich wiederholenden, identischen oder ähnlichen ersten Merkmalsvektoren zu- gehörig zu unterschiedlichen ersten Audiosegmenten. Entsprechend Ausführungsbeispielen kann beim Identifizieren auch ein Gruppieren von identischen und ähnlichen ersten Merk- malsvektoren bzw. ersten Audiosegmenten zu einer oder mehreren Gruppen erfolgen.
Entsprechend Ausführungsbeispielen umfasst das Verfahren das Erkennen einer Reihen- folge von ersten Merkmalsvektoren zugehörig zu den ersten Audiosegmenten oder das Er- kennen einer Reihenfolge von Gruppen von identischen oder ähnlichen ersten Merkmals- vektoren bzw. ersten Audiosegmenten. Durch die Basisschritte ist es also vorteilhafterweise möglich, normale Geräusche zu erkennen bzw. normale Audioobjekte zu erkennen. Die Kombination dieser normalen Audioobjekte in zeitlicher Hinsicht zu einer bestimmten Rei- henfolge oder einem bestimmten Wiederholmuster stellt dann also in Summe einen akusti- schen Normalzustand dar.
Entsprechend weiteren Ausführungsbeispielen wäre es auch denkbar, dass ein Wiederhol- muster in dem einen oder mehreren zweiten Zeitfenstern und/oder eine Reihenfolge von zweiten Merkmatsvektoren zugehörig zu unterschiedlichen zweiten Audioobjekten bzw. von Gruppen von identischen oder ähnlichen zweiten Merkmalsvektoren erkannt wird. Dieses Verfahren ermöglicht dann entsprechend weiteren Ausführungsbeispielen , dass beim Ab- gleichen der Unterschritt des Abgleichens des Wiederholmusters der ersten Audiosegmente und/oder Reihenfolge bei den ersten Audiosegmenten mit dem Wiederholmuster der zweiten Audiosegmente und/oder Reihenfolge bei den zweiten Audiosegmenten erfolgt. Dieser Ab- gleich ermöglicht das Erkennen von einer zeitlichen Anomalie.
Entsprechend einem weiteren Ausführungsbeispiel kann das Verfahren den Schritt des Best- immens einer jeweiligen Position für die jeweiligen ersten Audiosegmente umfassen. Ent- sprechend einem Ausführungsbeispiel kann auch das Bestimmen der jeweiligen Position für die jeweiligen zweiten Audiosegmente vorgenommen werden. Dies ermöglicht dann ent- sprechend einem Ausführungsbeispiel, dass durch den Unterschritt des Abgleichs der Posi- tion zugeordnet zu den jeweiligen ersten Audiosegmenten mit der Position zugeordnet zu dem entsprechenden jeweiligen zweiten Audiosegment das Erkennen einer räumlichen Ano- malie vorgenommen wird.
Es sei angemerkt, dass für eine räumliche Lokalisation beispielsweise mind. 2 Mikrofone verwendet werden, während für die anderen beiden Anomalietypen ein Mikrofon ausreicht.
Wie oben bereits angedeutet, kann jeder Merkmalsvektor (erster und zweiter Merkmalsvek- tor) für die unterschiedlichen Audiosegmente jeweils eine Dimension oder mehrere Dimen- sionen aufweisen. Eine mögliche Realisierung eines Merkmalsvektors wäre beispielsweise ein Zeit-Frequenz-Spektrum. Entsprechend einem Ausführungsbeispiel kann auch der Di- mensionsraum reduziert sein. Insofern umfasst entsprechend Ausführungsbeispielen das Verfahren den Schritt des Reduzierens der Dimensionen des Merkmalsvektors.
Entsprechend einem weiteren Ausführungsbeispiel kann das Verfahren den Schritt des Best- immens einer Auftretenswahrscheinlichkeit des jeweiligen ersten Audiosegments und des Aufgebens der Auftretenswahrscheinlichkeit zusammen mit dem jeweiligen ersten Merk- malsvektor aufweisen. Alternativ kann das Verfahren den Schritt des Bestimmens einer Auf- tretenswahrscheinlichkeit des jeweiligen ersten Audiosegments und des Ausgebens der Auf- tretenswahrscheinlichkeit mit dem jeweiligen ersten Merkmalsvektor und einem zugehörigen ersten Zeitfenster aufweisen. Insofern erfolgt eine Ausgabe der Auftretenswahrscheinlichkeit für das jeweilige Audiosegment bzw. eine nähere Wahrscheinlichkeit des Auftretens des Au- diosegments zu diesem Zeitpunkt. Das Ausgeben erfolgt mit dem entsprechenden Daten- satz bzw. Merkmalsvektor.
Entsprechend einem Ausführungsbeispiel kann das Verfahren auch Computer-implemen- tiert ablaufen. Insofern weist das Verfahren ein Computerprogramm mit einem Programm- code zur Durchführung des Verfahrens auf.
Weitere Ausführungsbeispiele beziehen sich auf eine Vorrichtung mit einer Schnittstelle und einem Prozessor. Die Schnittstelle dient zum Erhalten einer Langzeitaufnahme mit einer Vielzahl von ersten Audiosegmenten zugeordnet zu jeweiligen ersten Zeitfenstern sowie zum Erhalten einer weiteren Aufnahme mit einem oder mehreren zweiten Audiosegmenten zugeordnet zu jeweiligen zweiten Zeitfenstern. Der Prozessor ist ausgebildet, um die Vielzahl der ersten Audiosegmente zu analysieren, um zu jedem der Vielzahl der ersten Audioseg- mente einen das jeweilige erste Audiosegment beschreibenden ersten Merkmalsvektor zu erhalten. Ferner ist der Prozessor ausgebildet, um das eine oder mehrere zweiten Audio- segmente zu analysieren, um einen oder mehrere die einen oder mehreren zweiten Audio- segmente beschreibenden Merkmalsvektoren zu erhalten. Ferner ist der Prozessor ausge- bildet, um den einen oder mehreren zweiten Merkmalsvektoren mit der Vielzahl der ersten Merkmalsvektoren abzugleichen, um zumindest eine Anomalie zu erkennen.
Entsprechend Ausführungsbeispielen umfasst die Vorrichtung eine mit der Schnittstelle ver- bundene Aufnahmeeinheit, wie z. B. ein Mikrofon oder ein Mikrofon-Array. Das Mikrofon- Array ermöglicht vorteilhafterweise eine Positionsbestimmung, wie sie oben bereits erläutert wurde. Entsprechend weiteren Ausführungsbeispielen umfasst die Vorrichtung eine Ausga- beschnittstelle zur Ausgabe der oben erläuterten Auftretenswahrscheinlichkeit.
Ausführungsbeispiele der vorliegenden Erfindung werden anhand der beiliegenden Zeich- nungen erläutert. Es zeigen:
Fig. 1 ein schematisches Flussdiagramm zur Illustration des Verfahrens gemäß einem Basisausführungsbeispiel;
Fig. 2 eine schematische Tabelle zur Illustration von unterschiedlichen Anomalietypen; und
Fig. 3 ein schematisches Blockschaltbild zur Illustration einer Vorrichtung gemäß einem weiteren Ausführungsbeispiel.
Bevor der nachfolgenden Ausführungsbeispiele der vorliegenden Erfindung anhand der bei- liegenden Zeichnungen erläutert werden, sei darauf hingewiesen, dass gleichwirkende Ele- mente und Strukturen mit gleichem Bezugszeichen versehen sind, so dass die Beschreibung derer aufeinander anwendbar bzw. austauschbar ist.
Fig. 1 zeigt ein Verfahren 100, das in zwei Phasen 110 und 120 untergliedert ist.
In der ersten Phase 110, die als Justierphase bezeichnet wird, gibt es zwei Basisschritte. Dies ist mit dem Bezugszeichen 112 und 114 markiert. Der Schritt 112 umfasst eine Lang- Zeitaufnahme des akustischen Normalzustands im Anwendungsszenario. Hierbei wird bei- spielsweise die Analysevorrichtung 10 (vgl. Fig. 3) in der Zielumgebung aufgestellt, so dass eine Langzeitaufnahme 113 des Normalzustands erfasst wird. Diese Langzeitaufnahme kann beispielsweise eine Dauer von 10 Minuten, 1 Stunde oder 1 Tag umfassen (allgemein größer 1 Minute, größer 30 Minuten, größer 5 Stunden oder größer 24 Stunden und/oder bis zu 10 Stunden, bis zu 1 Tage, bis zu 3 Tage oder bis zu 10 Tage (inklusiver der durch die oberen und unteren definierten Zeitfenster).
Diese Langzeitaufnahme 113 wird dann beispielsweise untergliedert. Die Untergliederung kann in gleich lange Zeitbereiche, wie z. B. 1 Sekunde oder 0,1 Sekunden oder auch dyna- mischer Zeitbereiche erfolgen. Jeder Zeitbereich umfasst ein Audiosegment. Im Schritt 114, der allgemein als Analysieren bezeichnet wird, werden diese Audiosegment separat oder in Kombination untersucht. Hierzu wird beim Analysieren für jedes Audiosegment ein soge- nannter Merkmalsvektor 115 (erste Merkmalsvektoren) ermittelt. Allgemein gesagt heißt es, dass in der Umwandlung von einer digitalen Aufnahme 113 in ein oder mehrere Merkmals- vektoren 115 - z. B. mittels tiefer neuronaler Netze - erfolgt, wobei jeder Merkmalsvektor 115 den Klang zu einem bestimmten Zeitpunkt „codiert“. Merkmalsvektoren 115 können bei- spielsweise durch ein Energiespektrum für einen bestimmten Frequenzbereich oder allge- mein ein Zeit-Frequenz-Spektrum bestimmt werden.
An dieser Stelle sei gleich angemerkt, dass es optionaler Weise möglich ist, dass eine Re- duktion der Dimensionaiität des Merkmalsraums der Merkmalsvektoren 115 mittels statisti- scher Verfahren (z. B. Hauptkomponentenanalyse) erfolgt. Bei dem Schritt 114 können dann auch optionaler Weise typische bzw. dominante Geräusche mitels unüberwachter Lernver- fahren (z. B. Clustering) identifiziert werden. Hierbei werden Zeitabschnitte bzw. Audioseg- mente gruppiert, die hier ähnliche Merkmalsvektoren 115 ausprägen und die entsprechend einen ähnlichen Klang besitzen. Hierbei ist keine semantische Klassifikation eines Geräu- sches (z. B. „Auto“ oder „Flugzeug“) nötig. Insofern erfolgt ein sogenanntes unüberwachtes Lernen anhand von Häufigkeiten sich wiederholender oder sich ähnlicher Audiosegmente. Entsprechend einem weiteren Ausführungsbeispiel wäre es auch denkbar, dass bei dem Schritt 114 ein unüberwachtes Lernen der zeitlichen Reihenfolge und/oder typischer Wie- derholmuster bestimmte Geräusche erfolgt.
Das Ergebnis des Clusterings ist eine Zusammenstellung von Audiosegmenten bzw. Geräu- schen, die für diesen Bereich normal bzw. typisch sind. Beispielsweise kann auch jedem Audiosegment eine Auftretenswahrscheinlichkeit zugeordnet werden. Ferner kann auch ein Wiederholmuster bzw. eine Reihenfolge, das heißt also eine Kombination mehrerer Audio- segmente identifiziert werden, die für die aktuelle Umgebung typisch bzw. normal ist. Hierzu kann jeder Gruppierung, jedem Wiederholmuster oder jeder Abfolge unterschiedliche Audi- osegmente ebenso eine Wahrscheinlich zugeordnet werden.
Am Ende der Justierphase sind also Audiosegmente bzw. gruppierte Audiosegmente be- kannt und als Merkmalsvektoren 115 beschrieben, die typisch für diese Umgebung sind, ln einem nächsten Schritt bzw. in einer nächsten Phase 120 wird dann dieses gelernte Wissen entsprechend angewendet. Die Phase 120 hat die drei Basisschritte 122 und 124 und 126.
Im Schritt 122 wird wiederum eine Audioaufnahme 123 aufgenommen. Diese ist im Vergleich zur Audioaufnahme 113 typischerweise wesentlich kürzer. Diese Audioaufnahme ist bei- spielsweise im Vergleich zur Audioaufnahme 113 kürzer. Es kann sich allerdings auch um eine kontinuierliche Audioaufnahme handeln. Diese Audioaufnahme 123 wird dann in einem nachgelagerten Schritt 124 analysiert. Dieser Schritt ist mit dem Schritt 114 inhaltlich ver- gleichbar. Hierbei erfolgt wiederum eine Umwandlung der digitalen Audioaufnahme 123 in Merkmalsvektoren. Wenn nun diese zweite Merkmalsvektoren 125 vorliegen, können sel- bige mit den Merkmalsvektoren 115 verglichen werden.
Der Vergleich erfolgt im Schritt 126 mit der Zielsetzung, Anomalien festzustellen. Sehr ähn- liche Merkmalsvektoren und sehr ähnliche Reihenfolgen von Merkmalsvektoren deuten da- rauf hin, dass keine Anomalie vorliegt. Abweichungen von vorher bestimmten Mustern (Wie- derholmustern, typischen Reihenfolgen etc.) oder Abweichungen von den vormals bestimm- ten Audiosegmenten gekennzeichnet durch andere/neue Merkmalsvektoren deuten auf eine Anomalie hin. Diese werden in dem Schritt 126 erkannt. Bei dem Schritt 126 können unter- schiedliche Typen von Anomalien erkannt werden. Diese sind beispielsweise:
- klangliche Anomalie (neuer, bisher ungehörter Klang)
- zeitliche Anomalie (bereits gehörter Klang tritt zeitlich „unpassend" auf, wiederholt sich zu schnell oder tritt in falscher Reihenfolge mit anderen Klängen auf)
- räumliche Anomalie (bereits gehörter Klang tritt an „ungewohnter" räumlicher Position auf oder die entsprechende Quelle folgt einem un- gewohnten räumlichen Bewegungsmuster)
Diese Anomalien werden bezugnehmend auf Fig. 2 näher erläutert. Optionaler Weise kann die Ausgabe einer Wahrscheinlichkeit für jede der drei Anomalie- arten zum Zeitpunkt X erfolgen, Das ist mit den Pfeilen 126z, 126k und 126r (je ein Pfeil pro Anatomieart) in Fig. 3 illustriert.
An dieser Stelle sei angemerkt, dass beim Vergleich der Merkmaisvektoren häufig keine Identität, sondern nur Ähnlichkeit vorliegt. Insofern können entsprechend Ausführungs- beispielen Schwellwerte definiert sein, wann sich Merkmalsvektoren ähneln bzw. wann sich Gruppen von Merkmalsvektoren ähneln, so dass dann das Resultat auch einen
Schwellwert für eine Anomalie voriegt. Diese Schwellenwerteanwendung kann sich auch an die Ausgabe der Wahrscheinlichkeitsverteilung anknüpfen bzw. in dieser in Kombina- tion auftauchen, z. B. um genauere zeitliche Erkennungen von Anomalien zu ermögli- chen.
Entsprechend weiteren Ausführungsbeispielen ist es auch möglich, räumliche Anomalien zu erkennen. Hierzu kann der Schritt 114 in der Justierphase 110 auch ein unüberwach- tes Lernen typischer räumlicher Positionen und/oder Bewegungen bestimmte Geräusche aufweisen. Typischerweise sind dann in solchem Fall stat dem in Fig. 3 dargestellten Mikrofon 18 zwei Mikrofone oder ein Mikrofon-Array mit zumindest zwei Mikrofonen vor- handen. In einer solchen Situation ist dann in der zweiten Phase 120 durch eine mehrka- nalige Aufnahme auch eine räumliche Lokalisierung der aktuellen dominanten Schall- quellen/Audiosegmente möglich. Hier zugrundeliegende Technologie kann beispiels- weise Beamforming sein.
Bezugnehmend auf Fig. 2a-2c werden nun drei unterschiedliche Anomalien erläutert. Fig. 2a illustriert die zeitliche Anomalie. Hier sind jeweils Audiosegmente ABC sowohl für die Phase 1 als auch die Phase 2 entlang der Zeitachse t aufgetragen, in der Phase 1 wurde erkannt, dass eine normale Situation bzw. normale Reihenfolge derart besteht, dass die Audiosegmente ABC in der Reihenfolge ABC auftauchen. Für einen wurde ein Wieder- holmuster erkannt, das nach der ersten Gruppe ABC eine weitere Gruppe ABC folgen kann.
Wenn genau dieses Muster ABCABC in Phase 2 erkannt wird, kann davon ausgegangen werden, dass keine Anomalie bzw. zumindest keine zeitliche Anomalie vorliegt. Falls aber das hier dargestellte Muster ABCAABC erkannt wird, so liegt eine zeitliche Anoma- lie vor, da ein weiteres Audiosegment A zwischen den zwei Gruppen ABC angeordnet ist. Dieses Audiosegment A bzw. anomale Audiosegment A ist mit einem Doppelrahmen ver- sehen.
Weiter in Fig. 2b ist eine klangliche Anomalie illustriert. In Phase 1 wurden wiederum die Audiosegmente ABCABC entlang der Zeitachse t aufgenommen (vgl. Fig. 2a). Die klang- liche Anomalie beim Erkennen zeigt sich dadurch, dass ein weiteres Audiosegment, hier das Audiosegment D, in Phase 2 auftaucht. Dieses Audiosegment D hat eine vergrößerte Länge, z. B. über zwei Zeitbereiche und ist deshalb als DD illustriert. Die klangliche Ano- malie ist in der Artenordnung der Audiosegment mit einem Doppelrahmen versehen. Bei dieser klanglichen Anomalie kann es sich beispielsweise um einen Klang handeln, der während der Lernphase nie gehört wurde. Beispielsweise kann hier ein Donner vorliegen, der sich in Bezug auf die Lautheit/Intensität und in Bezug auf die Länge von den vorheri- gen Elementen ABC unterscheidet.
In Bezug auf Fig. 2c ist eine örtliche Anomalie illustriert. In der initialen Lernphase wur- den zwei Audiosegment A und B an zwei verschiedenen Positionen, Position 1 und Posi- tionen 2, erkannt. Während der Phase 2 wurden beide Elemente A und B wiedererkannt, wobei durch Lokalisierung festgestellt wurde, dass sowohl das Audiosegment A als auch das Audiosegment B sich an Positionen 1 befinden. Das Voriiegen vom Audiosegment B an Position 1 stellt eine räumliche Anomalie dar.
Bezugnehmend auf Fig. 3 wird nun eine Vorrichtung 10 zur Klanganalyse erläutert. Die Vorrichtung 10 umfasst im Wesentlichen die Eingabeschnittstelle 12, wie z. B. eine Mik- rofonschnittstelle sowie einen Prozessor 14. Der Prozessor 14 empfängt die einen oder mehreren (zeitgleich vorliegenden) Audiosignale von dem Mikrofon 18 bzw. dem Mikro- phon-Array 18‘ und analysiert diese. Hierzu führt er im Wesentlichen die im Zusammen- hang mit Fig. 1 erläuterten Schritte 114, 124 und 126 durch. Jeder Phase ist das auszu- gebende Ergebnis (vgl. Ausgabeschnittstelle 16) eine Menge von Merkmalsvektoren, die den Normalzustand repräsentieren oder in Phase 2 eine Ausgabe der erkannten Anoma- lien, z. B. zugeordnet zu einem bestimmten Typ und/oder zugeordnet zu einem bestimm- ten Zeitpunkt.
Darüber hinaus kann bei der Schnittstelle 16 auf eine Wahrscheinlichkeit von Anomalien oder eine Wahrscheinlichkeit von Anomalien zu bestimmten Zeitpunkten oder allgemein eine Wahrscheinlichkeit von Merkmalsvektoren zu bestimmten Zeitpunkten erfolgen. Entsprechend Ausführungsbeispielen ist die Vorrichtung 10 bzw. das Audiosystem aus- gebildet, (gleichzeitig) verschiedene Typen von Anomalien, z. B. zumindest zwei Anoma- lien, zu erkennen. Folgen Anwendungsgebiete wären denkbar:
• Sicherheitsüberwachung von Gebäuden und Anlagen o Detektion von Einbrüchen (z. B. Glasbruch)/Beschädigungen (Vandalis- mus)
• Predictive Maintenance o Erkennung von beginnendem Fehlverhalten von Maschinen aufgrund un- gewöhnlicher Klänge
• Überwachung öffentlicher Plätze/Ereignisse (Sportereignisse, Mu- sikereignisse, Demonstrationen, Kundgebungen usw.) o Erkennung von Gefahrengeräuschen (Explosion, Schuss, Hilfeschreie)
• Verkehrsmonitoring o Erkennen bestimmter Fahzeuggeräusche (z. B. durchdrehende Reifen — Raser)
• Logistikmonitoring o Überwachung von Bausteilen — Erkennung von Unfällen (Einsturz, Hilfe- schreie)
• Health o akustische Überwachung des normalen Alltags älterer/kranker Men- schen o Erkennung von Stürzen/Hilfeschreien
Obwohl manche Aspekte im Zusammenhang mit einer Vorrichtung beschrieben wurden, versteht es sich, dass diese Aspekte auch eine Beschreibung des entsprechenden Verfah- rens darstellen, sodass ein Block oder ein Bauelement einer Vorrichtung auch als ein ent- sprechender Verfahrensschritt oder als ein Merkmal eines Verfahrensschrittes zu verstehen ist. Analog dazu stellen Aspekte, die im Zusammenhang mit einem oder als ein Verfahrens- schritt beschrieben wurden, auch eine Beschreibung eines entsprechenden Blocks oder Details oder Merkmals einer entsprechenden Vorrichtung dar. Einige oder alle der Verfah- rensschritte können durch einen Hardware-Apparat (oder unter Verwendung eines Hard- ware-Apparats), wie zum Beispiel einen Mikroprozessor, einen programmierbaren Compu- ter oder eine elektronische Schaltung ausgeführt werden. Bei einigen Ausführungsbeispie- len können einige oder mehrere der wichtigsten Verfahrensschritte durch einen solchen Apparat ausgeführt werden.
Je nach bestimmten Implementierungsanforderungen können Ausführungsbeispiele der Er- findung in Hardware oder in Software implementiert sein. Die Implementierung kann unter Verwendung eines digitalen Speichermediums, beispielsweise einer Floppy-Disk, einer DVD, einer Blu-ray Disc, einer CD, eines ROM, eines PROM, eines EPROM, eines EEPROM odereines FLASH-Speichers, einer Festplatte odereines anderen magnetischen oder optischen Speichers durchgeführt werden, auf dem elektronisch lesbare Steuersignale gespeichert sind, die mit einem programmierbaren Computersystem derart Zusammenwir- ken können oder Zusammenwirken, dass das jeweilige Verfahren durchgeführt wird. Des- halb kann das digitale Speichermedium computerlesbar sein.
Manche Ausführungsbeispiele gemäß der Erfindung umfassen also einen Datenträger, der elektronisch lesbare Steuersignale aufweist, die in der Lage sind, mit einem programmier- baren Computersystem derart zusammenzuwirken, dass eines der hierin beschriebenen Verfahren durchgeführt wird.
Allgemein können Ausführungsbeispiele der vorliegenden Erfindung als Computerpro- grammprodukt mit einem Programmcode implementiert sein, wobei der Programmcode da- hingehend wirksam ist, eines der Verfahren durchzuführen, wenn das Computerprogramm- produkt auf einem Computer abiäuft.
Der Programmcode kann beispielsweise auch auf einem maschinenlesbaren Träger ge- speichert sein.
Andere Ausführungsbeispiele umfassen das Computerprogramm zum Durchführen eines der hierin beschriebenen Verfahren, wobei das Computerprogramm auf einem maschinen- lesbaren Träger gespeichert ist.
Mit anderen Worten ist ein Ausführungsbeispiel des erfindungsgemäßen Verfahrens somit ein Computerprogramm, das einen Programmcode zum Durchführen eines der hierin be- schriebenen Verfahren aufweist, wenn das Computerprogramm auf einem Computer ab- läuft. Ein weiteres Ausführungsbeispiel der erfindungsgemäßen Verfahren ist somit ein Datenträ- ger (oder ein digitales Speichermedium oder ein computerlesbares Medium), auf dem das Computerprogramm zum Durchführen eines der hierin beschriebenen Verfahren aufge- zeichnet ist. Der Datenträger, das digitale Speichermedium oder das computerlesbare Me- dium sind typischerweise gegenständlich und/oder nicht-vergänglich bzw. nicht-vorüberge- hend.
Ein weiteres Ausführungsbeispiel des erfindungsgemäßen Verfahrens ist somit ein Daten- strom oder eine Sequenz von Signalen, der bzw. die das Computerprogramm zum Durch- führen eines der hierin beschriebenen Verfahren darstellt bzw. darstellen. Der Datenstrom oder die Sequenz von Signalen kann bzw. können beispielsweise dahingehend konfiguriert sein, über eine Datenkommunikationsverbindung, beispielsweise über das Internet, trans- feriert zu werden.
Ein weiteres Ausführungsbeispiel umfasst eine Verarbeitungseinrichtung, beispielsweise einen Computer oder ein programmierbares Logikbauelement, die dahingehend konfigu- riert oder angepasst ist, eines der hierin beschriebenen Verfahren durchzuführen.
Ein weiteres Ausführungsbeispiel umfasst einen Computer, auf dem das Computerpro- gramm zum Durchführen eines der hierin beschriebenen Verfahren installiert ist.
Ein weiteres Ausführungsbeispiel gemäß der Erfindung umfasst eine Vorrichtung oder ein System, die bzw. das ausgelegt ist, um ein Computerprogramm zur Durchführung zumin- dest eines der hierin beschriebenen Verfahren zu einem Empfänger zu übertragen. Die Übertragung kann beispielsweise elektronisch oder optisch erfolgen. Der Empfänger kann beispielsweise ein Computer, ein Mobilgerät, ein Speichergerät oder eine ähnliche Vorrich- tung sein. Die Vorrichtung oder das System kann beispielsweise einen Datei-Server zur Übertragung des Computerprogramms zu dem Empfänger umfassen.
Bei manchen Ausführungsbeispielen kann ein programmierbares Logikbauelement (bei- spielsweise ein feldprogrammierbares Gatterarray, ein FPGA) dazu verwendet werden, manche oder alle Funktionalitäten der hierin beschriebenen Verfahren durchzuführen. Bei manchen Ausführungsbeispielen kann ein feldprogrammierbares Gatterarray mit einem Mikroprozessor Zusammenwirken, um eines der hierin beschriebenen Verfahren durchzu- führen. Allgemein werden die Verfahren bei einigen Ausführungsbeispielen seitens einer beliebigen Hardwarevorrichtung durchgeführt. Diese kann eine universell einsetzbare Hard- ware wie ein Computerprozessor (CPU) sein oder für das Verfahren spezifische Hardware, wie beispielsweise ein ASIC.
Die hierin beschriebenen Vorrichtungen können beispielsweise unter Verwendung eines Hardware-Apparats, oder unter Verwendung eines Computers, oder unter Verwendung ei- ner Kombination eines Hardware-Apparats und eines Computers implementiert werden.
Die hierin beschriebenen Vorrichtungen, oder jedwede Komponenten der hierin beschrie- benen Vorrichtungen können zumindest teilweise in Hardware und/oder in Software (Com- puterprogramm) implementiert sein.
Die hierin beschriebenen Verfahren können beispielsweise unter Verwendung eines Hard- ware-Apparats, oder unter Verwendung eines Computers, oder unter Verwendung einer Kombination eines Hardware-Apparats und eines Computers implementiert werden.
Die hierin beschriebenen Verfahren, oder jedwede Komponenten der hierin beschriebenen Verfahren können zumindest teilweise durch Hardware und/oder durch Software ausgeführt werden.
Die oben beschriebenen Ausführungsbeispiele stellen lediglich eine Veranschaulichung der Prinzipien der vorliegenden Erfindung dar. Es versteht sich, dass Modifikationen und Vari- ationen der hierin beschriebenen Anordnungen und Einzelheiten anderen Fachleuten ein- leuchten werden. Deshalb ist beabsichtigt, dass die Erfindung lediglich durch den Schutz- umfang der nachstehenden Patentansprüche und nicht durch die spezifischen Einzelheiten, die anhand der Beschreibung und der Erläuterung der Ausführungsbeispiele hierin präsen- tiert wurden, beschränkt sei.
Wissenschaftliche Literatur
[Borges_2008] N. Borges, G. G. L. Meyer: Unsupervised Distributional Anomaly Detection for a Self-Diagnostic Speech Activity Detector, GISS, 2008, pp. 950-955. [Ntalampiras_2009] S. Ntalampiras, I. Potamitis, N. Fakotakis: On Acoustic Surveillance of Hazardous Situations, ICASSP, 2009, pp. 165-168.
[Borges_2009] N. Borges, G. G. L. Meyer: Trimmed KL Divergence between Gaussian Mixtures for Robust Unsupervised Acoustic Anomaly Detection, INTERSPEECH, 2009. [Marchi_2015] E. Marchi, F. Vesperini, F. Eyben, S. Squartini, B. Schüller: A Novel Ap- proach for Automatic Acoustic Novelty Detection using a Denoising Autoencoder with Bi- directional LSTM Neural Networks, ICASSP 2015, pp. 1996-2000.
[Valenzise_2017] G. Valenzise, L. Gerosa, M. Tagliasacchi, F. Antopnacci, A. Sarti:
Scream and Gunshot Detection and Localization for Audio-Surveillance Systems, IEEE ICAVSBS, 2017, pp. 21-26.
[Komatsu_2017] T. Komatsu, R. Kondo: Detection of Anomaly Acoustic Scenes based an a Temporal Dissimilarity Model, ICASSP 2017, pp. 376-380.
[Tuor_2017] A. Tuor, S. Kaplan, B. Hutchinson, N. Nichols, S. Robinson: Deep Learning for
Unsupervised Insider Threat Detection in Structured Cybersecurity Data Streams, AAAI 2017, pp. 224231.

Claims

Patentansprüche
1. Verfahren (100) zur Erkennung von akustischen Anomalien, mit folgenden Schritten:
Erhalten (113) einer Langzeitaufnahme mit einer Vielzahl von ersten Audiosegmen- ten (ABCD) zugeordnet zu jeweiligen ersten Zeitfenstern;
Analysieren (114) der Vielzahl der ersten Audiosegmente (ABCD), um zu jedem der Vielzahl der ersten Audiosegmente (ABCD) einen das jeweilige erste Audiosegment (ABCD) beschreibenden ersten Merkmalsvektor zu erhalten;
Erhalten (123) einer weiteren Aufnahme mit einem oder mehreren zweiten Audio- segmenten (ABCD) zugeordnet zu jeweiligen zweiten Zeitfenstern;
Analysieren (124) der einen oder mehreren zweiten Audiosegmente (ABCD), um einen oder mehrere die einen oder mehreren zweiten Audiosegmente (ABCD) be- schreibenden Merkmalsvektoren zu erhalten;
Abgleichen (126) der einen oder mehreren zweiten Merkmalsvektoren mit der Viel- zahl der ersten Merkmalsvektoren, um zumindest eine Anomalie im Vergleich zu einer akustischen Normalsituation für diese Umgebung zu erkennen.
2. Verfahren (100) gemäß Anspruch 1, wobei die Anomalie eine klangliche, zeitliche und/oder räumliche Anomalie umfasst; und/oder wobei die Anomalie eine klangliche Anomalie in Kombination mit einer zeitlichen Anomalie oder eine klangliche Anomalie in Kombination mit einer räumliche Anoma- lie oder eine zeitliche Anomalie in Kombination mit einer räumliche Anomalie um- fasst.
3. Verfahren (100) gemäß Anspruch 1 oder 2, wobei das Verfahren (100) beim Analy- sieren den Unterschritt des Identifizierens eines Wiederholungsmusters in der Viel- zahl der ersten Zeitfenster umfasst.
4. Verfahren (100) gemäß Anspruch 3, wobei das Identifizieren anhand von sich wie- derholenden, identischen oder ähnlichen ersten Merkmalsvektoren zugehörig zu un- terschiedlichen ersten Audiosegmenten (ABCD) erfolgt.
5. Verfahren (100) gemäß Anspruch 3 oder 4, wobei beim Identifizieren ein Gruppieren von identischen oder ähnlichen ersten Merkmalsvektoren zu einer oder mehreren Gruppen erfolgt.
6. Verfahren (100) gemäß einem vorherigen Ansprüche, wobei das Verfahren (100) das Erkennen einer Reihenfolge von ersten Merkmalsvektoren zugehörig zu unter- schiedlichen ersten Audiosegmenten (ABCD) oder das Erkennen einer Reihenfolge von Gruppen von identischen oder ähnlichen ersten Merkmalsvektoren umfasst.
7. Verfahren (100) gemäß einem der Ansprüche 3 bis 6, wobei das Verfahren (100) das Identifizieren eines Wiederholmusters in dem einen oder mehreren zweiten Zeit- fenstern umfasst; und/oder wobei das Verfahren (100) das Erkennen einer Reihenfolge von zweiten Merkmals- vektoren zugehörig zu unterschiedlichen zweiten Audiosegmenten (ABCD) oder das Erkennen einer Reihenfolge von Gruppen von identischen oder ähnlichen zweiten Merkmalsvektoren umfasst.
8. Verfahren (100) gemäß Anspruch 7, wobei das Verfahren (100) den Unterschritt des Abgleichens des Wiederholmusters der ersten Audiosegmente (ABCD) und/oder Reihenfolge bei den ersten Audiosegmenten (ABCD) mit dem Wiederholmuster der zweiten Audiosegmente (ABCD) und/oder Reihenfolge bei den zweiten Audioseg- menten (ABCD) umfasst, um eine zeitliche Anomalie zu erkennen.
9. Verfahren (100) gemäß einem vorherigen Ansprüche, wobei das Abgleichen den Unterschritt des Identifizierens eines zweiten Merkmalsvektors, der sich von den analysierten ersten Merkmalsvektoren unterscheidet, umfasst, um eine klangliche Anomalie zu erkennen.
10. Verfahren (100) gemäß einem der vorherigen Ansprüche, wobei der Merkmalsvek- tor eine Dimension, mehrere Dimensionen oder einen reduzierten Dimensionsraum aufweist; und/oder wobei das Verfahren (100) den Schritt des Reduzierens der Dimensionen des Merk- malsvektors umfasst.
11. Verfahren (100) gemäß einem der vorherigen Ansprüche, wobei das Verfahren (100) den Schritt des Bestimmens einer jeweiligen Position für die jeweiligen ersten Audiosegmente (ABCD) umfasst.
12. Verfahren (100) gemäß Anspruch 11, wobei das Verfahren (100) den Schritt des Bestimmens einer jeweiligen Position für die jeweiligen zweiten Audiosegmente (ABCD) umfasst, und wobei das Verfahren (100) den Unterschritt des Abgleichens der Position zugeord- net zu dem jeweiligen ersten Audiosegment (ABCD) mit der Position zugeordnet zu dem entsprechenden jeweiligen zweiten Audiosegment (ABCD) umfasst, um eine räumliche Anomalie zu erkennen.
13. Verfahren (100) gemäß einem der vorherigen Ansprüche, wobei das Verfahren (100) den Schritt des Bestimmens einer Auftretenswahrscheinlichkeit des jeweiligen ersten Audiosegments (ABCD) und des Ausgebens der Auftretenswahrscheinlich- keit mit dem jeweiligen ersten Merkmalsvektor aufweist oder wobei das Verfahren (100) den Schritt des Bestimmens einer Auftretenswahrscheinlichkeit des jeweiligen ersten Audiosegments A(BCD) und des Ausgebens der Auftretenswahrscheinlich- keit mit dem jeweiligen ersten Merkmalsvektor und einem ersten Zeitfenster um- fasst.
14. Verfahren gemäß einem der vorherigen Ansprüche, wobei die Vielzahl der ersten Audiosegmente und/oder die Vielzahl der ersten Audiosegmente in ihrer Reihen- folge einen akustischen Normalzustand im Anwendungsszenario beschreiben und/oder eine Referenz darstellen; und/oder wobei die eine Anomalie erkannt wird, wenn eine oder mehrere zweite Merkmals- vektoren von der Vielzahl der ersten Merkmalsvektoren abweicht.
15. Verfahren gemäß einem der vorherigen Ansprüche, wobei die Langzeitaufnahme mindestens eine Dauer von 10 Minuten oder von mindestens 1 Stunde oder von mindestens 24 Stunden umfasst; und/oder wobei die weitere Aufnahme ein Zeitfenster oder insbesondere ein Zeitfenster von kleiner 5 Minuten, kleiner 1 Minute oder kleiner 10 Sekunden umfasst.
16. Computerprogramm mit einem Programmcode, der, wenn er auf einem Computer abläuft, einen oder mehrere Schrite des Verfahrens (100) gemäß der vorherigen Ansprüche ausführt.
17. Vorrichtung (10) zum Erkennen von akustischen Anomalie, mit folgenden Merkma- len: einer Schnittstelle (12) zum Erhalten einer Langzeitaufnahme (113) mit einer Viel- zahl von ersten Audiosegmenten (ABCD) zugeordnet zu jeweiligen ersten Zeitfens- tern sowie zum Erhalten einer weiteren Aufnahme (123) mit einem oder mehreren zweiten Audiosegmenten (ABCD) zugeordnet zu jeweiligen zweiten Zeitfenstern; einen Prozessor (14), der zum Analysieren der Vielzahl der ersten Audiosegmente (ABCD) ausgebildet ist, um zu jedem der Vielzahl der ersten Audiosegmente (ABCD) einen das jeweilige erste Audiosegment (ABCD) beschreibenden ersten Merkmalsvektor zu erhalten, und der zum Analysieren der einen oder mehreren zweiten Audiosegmente (ABCD) ausgebildet ist, um einen oder mehrere die einen oder mehreren zweiten Audiosegmente (ABCD) beschreibenden Merkmalsvektoren zu erhalten, und der zum Abgleichen der einen oder mehreren zweiten Merkmals- vektoren mit der Vielzahl der ersten Merkmalsvektoren ausgebildet ist, um zumin- dest eine Anomalie im Vergleich zu einer akustischen Normalsituation für diese Um- gebung zu erkennen.
18. Vorrichtung (10) gemäß Anspruch 17, wobei die Vorrichtung (10) ein Mikrofon (18) oder ein Mikrofon-Array umfasst, das mit der Schnittstelle (12) verbunden ist.
19. Vorrichtung (10) gemäß Anspruch 17 und 18, wobei die Vorrichtung (10) eine Aus- gabeschnittstelle zur Ausgabe einer Auftretenswahrscheinlichkeit des jeweiligen ersten Audiosegments (ABCD) mit dem jeweiligen ersten Merkmalsvektor oder zur Ausgabe einer Auftretenswahrscheinlichkeit des jeweiligen ersten Audiosegments (ABCD) mit dem jeweiligen ersten Merkmalsvektor und einem ersten Zeitfenster um- fasst.
PCT/EP2021/051804 2020-01-27 2021-01-27 Verfahren und vorrichtung zur erkennung von akustischen anomalien WO2021151915A1 (de)

Priority Applications (2)

Application Number Priority Date Filing Date Title
EP21702020.5A EP4097695B1 (de) 2020-01-27 2021-01-27 Verfahren und vorrichtung zur erkennung von akustischen anomalien
US17/874,072 US20220358952A1 (en) 2020-01-27 2022-07-26 Method and apparatus for recognizing acoustic anomalies

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
DE102020200946.5 2020-01-27
DE102020200946.5A DE102020200946A1 (de) 2020-01-27 2020-01-27 Verfahren und Vorrichtung zur Erkennung von akustischen Anomalien

Related Child Applications (1)

Application Number Title Priority Date Filing Date
US17/874,072 Continuation US20220358952A1 (en) 2020-01-27 2022-07-26 Method and apparatus for recognizing acoustic anomalies

Publications (1)

Publication Number Publication Date
WO2021151915A1 true WO2021151915A1 (de) 2021-08-05

Family

ID=74285498

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/EP2021/051804 WO2021151915A1 (de) 2020-01-27 2021-01-27 Verfahren und vorrichtung zur erkennung von akustischen anomalien

Country Status (4)

Country Link
US (1) US20220358952A1 (de)
EP (1) EP4097695B1 (de)
DE (1) DE102020200946A1 (de)
WO (1) WO2021151915A1 (de)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114220457A (zh) * 2021-10-29 2022-03-22 成都中科信息技术有限公司 双通道通信链路的音频数据处理方法、装置及存储介质

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
DE102012211154A1 (de) * 2012-06-28 2014-01-02 Robert Bosch Gmbh Überwachungssystem, Freiflächenüberwachung sowie Verfahren zur Überwachung eines Überwachungsbereichs
EP2988105A2 (de) * 2014-08-20 2016-02-24 HST High Soft Tech GmbH Vorrichtung und verfahren zur automatischen erkennung und klassifizierung von hörbaren akustischen signalen in einem überwachungsbereich
DE102017010402A1 (de) * 2017-11-09 2019-05-09 Guido Mennicken Automatisiertes Verfahren zur Überwachung von Waldgebieten auf Rodungsaktivitäten
WO2019215166A1 (de) * 2018-05-07 2019-11-14 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Vorrichtung, verfahren und computerprogramm zur akustischen überwachung eines überwachungsbereichs

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
FR2944903B1 (fr) * 2009-04-24 2016-08-26 Thales Sa Systeme et methode pour detecter des evenements audio anormaux
FR2994495B1 (fr) * 2012-08-10 2015-08-21 Thales Sa Procede et systeme pour detecter des evenements sonores dans un environnement donne
US10134422B2 (en) * 2015-12-01 2018-11-20 Qualcomm Incorporated Determining audio event based on location information
DE102017012007B4 (de) 2017-12-22 2024-01-25 HST High Soft Tech GmbH Vorrichtung und Verfahren zur universellen akustischen Prüfung von Objekten

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
DE102012211154A1 (de) * 2012-06-28 2014-01-02 Robert Bosch Gmbh Überwachungssystem, Freiflächenüberwachung sowie Verfahren zur Überwachung eines Überwachungsbereichs
EP2988105A2 (de) * 2014-08-20 2016-02-24 HST High Soft Tech GmbH Vorrichtung und verfahren zur automatischen erkennung und klassifizierung von hörbaren akustischen signalen in einem überwachungsbereich
DE102017010402A1 (de) * 2017-11-09 2019-05-09 Guido Mennicken Automatisiertes Verfahren zur Überwachung von Waldgebieten auf Rodungsaktivitäten
WO2019215166A1 (de) * 2018-05-07 2019-11-14 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Vorrichtung, verfahren und computerprogramm zur akustischen überwachung eines überwachungsbereichs

Non-Patent Citations (7)

* Cited by examiner, † Cited by third party
Title
A. TUOR, S. KAPLAN, B. HUTCHINSON, N. NICHOLS, S. ROBINSON: "Deep Learning for Unsupervised Insider Threat Detection in Structured Cybersecurity Data Streams", AAAI, 2017, pages 224231
E. MARCHIF. VESPERINIF. EYBENS. SQUARTINIB. SCHULLER: "A Novel Approach for Automatic Acoustic Novelty Detection using a Denoising Autoencoder with Bidirectional LSTM Neural Networks", ICASSP, 2015, pages 1996 - 2000
G. VALENZISEL. GEROSAM. TAGLIASACCHIF. ANTOPNACCIA. SARTI: "Scream and Gunshot Detection and Localization for Audio-Surveillance Systems", IEEE ICAVSBS, 2017, pages 21 - 26
N. BORGESG. G. L. MEYER: "Trimmed KL Divergence between Gaussian Mixtures for Robust Unsupervised Acoustic Anomaly Detection", INTERSPEECH, 2009
N. BORGESG. G. L. MEYER: "Unsupervised Distributional Anomaly Detection for a Self-Diagnostic Speech Activity Detector", CISS, 2008, pages 950 - 955, XP031282999
S. NTALAMPIRASI. POTAMITISN. FAKOTAKIS: "On Acoustic Surveillance of Hazardous Situations", ICASSP, 2009, pages 165 - 168
T. KOMATSUR. KONDO: "Detection of Anomaly Acoustic Scenes based an a Temporal Dissimilarity Model", ICASSP, 2017, pages 376 - 380, XP033258443, DOI: 10.1109/ICASSP.2017.7952181

Also Published As

Publication number Publication date
EP4097695B1 (de) 2024-02-21
EP4097695A1 (de) 2022-12-07
US20220358952A1 (en) 2022-11-10
DE102020200946A1 (de) 2021-07-29

Similar Documents

Publication Publication Date Title
DE60124842T2 (de) Rauschrobuste Mustererkennung
DE69722980T2 (de) Aufzeichnung von Sprachdaten mit Segmenten von akustisch verschiedenen Umgebungen
EP3317878A1 (de) Verfahren und vorrichtung zum erzeugen einer datenbank
DE202017102381U1 (de) Vorrichtung zum Verbessern der Robustheit gegen "Adversarial Examples"
DE112020004052T5 (de) Sequenzmodelle zur audioszenenerkennung
WO2005111598A1 (de) Vorrichtung und verfahren zur beurteilung einer güteklasse eines zu prüfenden objekts
DE102014118450A1 (de) Audiobasiertes System und Verfahren zur Klassifikation von fahrzeuginternem Kontext
DE102014012184A1 (de) Vorrichtung und Verfahren zur automatischen Erkennung und Klassifizierung von akustischen Signalen in einem Überwachungsbereich
EP3291234B1 (de) Verfahren zum beurteilen einer qualität eines stimmeinsatzes eines sprechenden
EP4097695B1 (de) Verfahren und vorrichtung zur erkennung von akustischen anomalien
EP3977430A1 (de) Verfahren und vorrichtung zur detektion von rauch
WO2022013045A1 (de) Verfahren zum automatischen lippenlesen mittels einer funktionskomponente und zum bereitstellen der funktionskomponente
DE60025333T2 (de) Sprachdetektion mit stochastischer konfidenzmassbewertung des frequenzspektrums
WO2011039351A1 (de) Verfahren und vorrichtung zum erkennen einer fehldetektion eines objekts in einem bild
DE102020209446A1 (de) Computerimplementiertes Verfahren und Computerprogramm zum maschinellen Lernen einer Robustheit eines akustischen Klassifikators, akustisches Klassifikationssystem für automatisiert betreibbare Fahrsysteme und automatisiert betreibbares Fahrsystem
WO2022180218A1 (de) Vorrichtung zur verarbeitung von mindestens einem eingangsdatensatz unter verwendung eines neuronalen netzes sowie verfahren
DE102021207849A1 (de) Verfahren zum Nachtrainieren einer Videoüberwachungsvorrichtung, Computerprogramm, Speichermedium und Videoüberwachungsvorrichtung
DE102020200847A1 (de) Verfahren und Vorrichtung zur Objektidentifikation basierend auf Sensordaten
DE102020213289A1 (de) Bildverarbeitungssystem
DE102019213697A1 (de) Verfahren zum Erkennen einer Annäherung und/oder Entfernung eines Einsatzfahrzeugs relativ zu einem Fahrzeug
DE102019207700A1 (de) Klassifikationsvorrichtung zur Objektdetektion in Umfeldsensordaten und Verfahren
DE102023200017B3 (de) Verfahren zur Fehlererkennung in Montage- und Instandhaltungsprozessen
DE112013004687T5 (de) System und Verfahren zum Verarbeiten von Ereignissen in einer Umgebung
DE102016213807A1 (de) Konzept zum Überwachen eines Parkplatzes für Kraftfahrzeuge
DE102020202603A1 (de) Vorrichtung und Verfahren zum Erkennen eines charakteristischen Signals im Umfeld eines Fahrzeugs

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 21702020

Country of ref document: EP

Kind code of ref document: A1

DPE1 Request for preliminary examination filed after expiration of 19th month from priority date (pct application filed from 20040101)
NENP Non-entry into the national phase

Ref country code: DE

ENP Entry into the national phase

Ref document number: 2021702020

Country of ref document: EP

Effective date: 20220829