WO2010122056A2 - Systeme et methode pour detecter des evenements audio anormaux - Google Patents

Systeme et methode pour detecter des evenements audio anormaux Download PDF

Info

Publication number
WO2010122056A2
WO2010122056A2 PCT/EP2010/055266 EP2010055266W WO2010122056A2 WO 2010122056 A2 WO2010122056 A2 WO 2010122056A2 EP 2010055266 W EP2010055266 W EP 2010055266W WO 2010122056 A2 WO2010122056 A2 WO 2010122056A2
Authority
WO
WIPO (PCT)
Prior art keywords
segment
audio
segments
classes
vector
Prior art date
Application number
PCT/EP2010/055266
Other languages
English (en)
Other versions
WO2010122056A3 (fr
Inventor
François CAPMAN
Bertrand Ravera
Original Assignee
Thales
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Thales filed Critical Thales
Priority to BRPI1014280A priority Critical patent/BRPI1014280A2/pt
Priority to MX2011011214A priority patent/MX2011011214A/es
Priority to US13/266,101 priority patent/US8938404B2/en
Priority to EP10718923A priority patent/EP2422301A2/fr
Priority to SG2011078235A priority patent/SG175350A1/en
Publication of WO2010122056A2 publication Critical patent/WO2010122056A2/fr
Publication of WO2010122056A3 publication Critical patent/WO2010122056A3/fr

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/16Sound input; Sound output
    • G06F3/165Management of the audio stream, e.g. setting of volume, audio stream path

Definitions

  • the object of the present invention is a system and method for detecting sound events that are considered abnormal with respect to a typical sound environment.
  • the invention applies, in particular, in monitoring applications of areas, places or spaces.
  • the prior art distinguishes two processes. The first is a detection process. The second is a process of classifying detected events.
  • the major drawbacks of the supervised approach stem from the need to have to specify the abnormal events beforehand, and to collect a sufficient and statistically representative quantity of these events.
  • the specification of events is not always possible, and the collection of a sufficient number of achievements to enrich a database, either. It is also necessary, for each new configuration, to conduct a new supervised learning.
  • the supervision task requires human intervention (manual or semi-automatic segmentation, labeling, etc.).
  • the flexibility of these solutions is therefore limited in terms of use, and taking into account new environments is difficult to implement.
  • learning event models takes into account the background noise and its variability, in fact, it can in some cases not be robust.
  • the idea of the invention rests, in particular, on a new approach in which the method uses an automated learning step, that is to say which does not require in normal operation of human intervention, the different elements, sensors or other devices constituting the self-sufficient system to model an environment.
  • the invention relates to a method for detecting abnormal audio events in a given environment, characterized in that it comprises at least the following steps:
  • a phase of use which comprises the analysis of an audio stream, with extraction of the acoustic parameters, an automatic segmentation step of said analyzed flow identical to that used during the learning phase and a step during which the likelihood of each statistical model contained in the database is determined on each of the segments of the analyzed audio stream, • said likelihood determination step leading to a likelihood value ⁇ corresponding to the most probable, maximum likelihood model, which is compared a threshold value in order to trigger or not a presence signal or absence of audio anomalies in the audio stream analyzed.
  • the modeling step is, for example, a statistical modeling of the segment classes which consists in modeling the probability density of the set of acoustic parameters of each segment class using a mixed Gaussian or GMM mixture. .
  • the modeling step is a statistical modeling of the segment classes which consists in modeling the probability density of the set of acoustic parameters of each segment class using a Markov or HMM type model.
  • the learning step consists, for example, in using an algorithm that makes it possible to position centroids uniformly distributed in the parameter space by performing the following steps:
  • class_number class_nb + 1): one looks for the segment which maximizes the cumulated distance with the centroids identified with the previous iteration,
  • Stopping criterion either when the predefined number of classes is reached, or when the distance between the segment found and the centroids identified at the previous iteration is less than a threshold.
  • the automatic segmentation step uses, for example, the principle of the dendrogram.
  • the automatic segmentation step can select a segmentation level by using one of the following criteria:
  • said method uses, for example, a K-average algorithm or an LBG-type algorithm for the step of grouping the segments into classes or a version derived from the K-average algorithm.
  • the size of the model can be determined automatically by applying a threshold Smax on the distance between the last two grouped classes, that is to say, to minimize the number of possible segments while minimizing the grouping distance considered.
  • the acoustic parameters used can be chosen from the following list: spectral, temporal or spectral-temporal parameters associated with the audio stream.
  • the invention also relates to a system for detecting audio anomalies in a given environment, characterized in that it comprises at least the following elements:
  • One or more audio sensors suitable for detecting audio streams • One or more audio sensors suitable for detecting audio streams
  • a pretreatment module adapted to execute an automatic segmentation of the acoustic parameters extracted from the audio stream to be analyzed,
  • a likelihood calculation module taking as input the audio model of the database and the likelihood calculation result executed on an analyzed audio stream, • A comparison module of the obtained likelihood value and a threshold value.
  • the system comprises, for example, a first preprocessing module and a first database development module are stored in a first processor for the learning phase of the system and in that it comprises a second preprocessing module and a second module of the likelihood calculation, the likelihood calculation module receiving as input information on the models from the database.
  • the system comprises, for example, a central station or surveillance room equipped with several Ei control screens, a video stream redirection module, a main screen Ep, several sets Zi each consisting of one or more associated audio sensors to video cameras Ci, Vi, said modules Ci, Vi being connected to a module adapted to determine a likelihood value ⁇ i, said likelihood values ⁇ i being transmitted to the central station.
  • the likelihood values thus determined can be used to order the associated video streams to provide assistance to an operator (automatic selection of the priority stream to the main screen, or manual selection by the operator from the ordered display of the screens
  • Priority flows are, for example, those with the lowest likelihood values.
  • FIG. 1 an example of a detection system according to the invention
  • FIG. 2 the steps implemented during the learning phase and the recognition phase of the system according to the invention
  • FIG. 4 an algorithm that can be implemented to build a dictionary
  • FIG. 6 a detailed example of the steps in the use phase of FIG. 2, and
  • the audio detection system can also be used to prioritize video streams from multiple cameras. This mode of use can be particularly adapted to a monitoring application by providing assistance to the security operator in charge of viewing live video streams.
  • the detection system according to the invention will use two separate processors having different calculation capacities. On the upper part of the figure is represented the system used during the learning period of the system, while on the lower part, an example system for capturing anomalies and recognizing these anomalies is shown.
  • the system may include a single processor having sufficient computing and processing capabilities to perform the learning step and the recognition step.
  • FIG. 1 schematizes an exemplary architecture of the system implemented by the invention, for which part concerns the learning of a database that will be used for the recognition of noises and abnormal sound events on a platform of subway.
  • the system comprises an audio sensor 1 of sounds, of sound noises present in an area to be monitored or of which it is desired to analyze sound events.
  • the data received on this audio sensor 1 is transmitted, firstly, to a device 3 containing a filter and an analog-digital converter known to those skilled in the art, then via an input 4 to a processor 5 comprising a module 6 detailed in Figure 2 preprocessing 7.
  • the models thus generated are transmitted via an output 8 of the processor 3 to a database 9.
  • This database 9 will contain models corresponding to classes of acoustic parameters representative of a audio environment considered normal.
  • This database will be initialized during a learning phase and may be updated during the operation of the detection system according to the invention.
  • Database 9 is also used when recognizing noise or detecting abnormal audio events.
  • the system also includes, for the recognition of abnormal audio events, one or more audio sensors 10, each sensor 10 being connected to a device 11 comprising a filter and an analog digital converter or ADC.
  • the data detected by the audio sensor and formatted by the filter and the ADC are transmitted to a processor 13 via an input 12.
  • the processor comprises a preprocessing module 14 detailed in FIG. 2, then a module 15 for recognizing processed data, said module receiving information from the database 9 by a link 16 which can be wired or not.
  • the result "abnormal audio event” or “abnormal audio events” is transmitted via the output 17 of the processor to either a PC-type device 18, allowing the display of the result, or to a device triggering a signal. alarm 19 or to a system 19 'for redirecting the video stream and the alarm according to for example the diagram in FIG. 5.
  • the preprocessing modules 6 and 14 must be identical in order to ensure the compatibility of the models of the database.
  • the audio sensors 2 and 10 may be sensors having similar or identical characteristics (type, characteristic and positioning in the environment) in order to overcome the differences in the shaping of the signals between the phases. learning and testing.
  • the transmission of data between the different devices can be performed via wired links, or wireless systems, such as Bluetooth, .... local wireless networks or abbreviated English WLAN, etc.
  • FIG. 5 An example of another system architecture will be given, by way of illustration and not limitation, in Figure 5. This architecture allows in particular to prioritize different video streams from different cameras or video devices associated with surveillance sensors.
  • the system may also include a buffer memory whose function, among other things, is to store the latest abnormal audio data or events.
  • This buffer can thus allow a monitoring operator to access the streams recorded during the generation of an alarm.
  • This memory is similar to storing video streams in CCTV.
  • FIG. 2 represents an example for the sequence of the steps implemented during the method according to the invention, the left part of the figure corresponding to the learning phase while the right part to the use phase.
  • a first step is the automated learning of the system.
  • the system will record thanks to the sensor for a duration T
  • T A initially set the noise and / or representative background sound of the subway platform.
  • This learning phase is automated and unsupervised.
  • the acoustic parameters that will be used are generally spectral, temporal or spectro-temporal parameters. It is thus possible to use a modeling of the spectral envelope of the noise picked up by the microphone, such as cepstral parameters or cepstral vectors.
  • the audio stream in this case will be modeled by a sequence of cepstral vectors.
  • an audio sequence representative of a sound environment in the initially targeted surveillance area is captured.
  • the acoustic parameters are extracted during an extraction step 2.1, from the audio signal, from the audio sequence, using a short-term sliding analysis window.
  • This analysis technique being known to those skilled in the art, it will not be explained.
  • One way of proceeding is to consider scan frames whose duration is for example of the order of 20 to 60ms, with a typical overlap of 50%.
  • the acoustic parameters considered by the method are chosen according to the properties of the signals to be modeled.
  • the duration of an analysis frame generally takes into account hypotheses of stationary of the analyzed signal on the horizon of the frame.
  • cepstral parameters that model the spectral envelope are often used in combination with other, more specific parameters that can be used to model temporal or spectral properties.
  • the ZCR (Zero Crossing Rate) rate in the time domain or in the spectral range can be cited as the measurement known by the abbreviation "SFM" (Spectral Flatness Measure). These two measurements are part of the parameters used to distinguish the speech signals voiced by noise signals.
  • SFM Standard Flatness Measure
  • the next step 2.2 is an automatic segmentation step from the parameter vectors extracted in step 2.1.
  • the purpose of this segmentation step is to group the vectors that are close, for example, using a predefined distance criterion.
  • the criterion will be chosen according to the type of acoustic parameters that have been used to characterize the background sound or audio.
  • This segmentation can be performed in several ways, for example by using one of the following techniques: detection of breakage of trajectories or models, temporal decomposition, or dendrogram which corresponds to a graphical representation of a hierarchical classification tree implementing evidence of gradual inclusion of classes.
  • the segmentation principle will consist of grouping frames in a so-called bottom-up approach using an appropriate distance (adapted to the parameters).
  • the dendrogram provides a set of possible segmentations (segmentation by level of the dendrogram).
  • the method then uses a buffer implemented in the system to include at least one segment or group of vectors. Such a buffer memory is conventionally used, it is not shown for reasons of simplification.
  • the set of segments thus calculated will be used to construct a dictionary whose number of classes Nc is predefined, or else determined automatically on a criterion of interclass distances for example. This corresponds to steps 2.3 and 2.4.
  • the segments are grouped into classes by implementing a K-average algorithm (K-Means), or an "LBG” algorithm (Linde-Buzo-Gray) or any other algorithm having the same or similar functionalities used by a person skilled in the art.
  • K-Means K-average algorithm
  • LBG Longde-Buzo-Gray
  • step 2.4 is to model the probability density of the set of acoustic parameters of each segment class, using, for example, a mixture model of Gaussian, better known by the abbreviation GMM (Gaussian Mixture Model).
  • GMM Gaussian Mixture Model
  • the algorithm generally used to find the maximum likelihood of the parameters of the probabilistic model when it depends on unobservable latent variables is better known by the abbreviation "EM” for Expectation-Maximization, and will be used for the phase learning system.
  • the number of Gaussians used may be predefined or automatically determined from a criterion derived from the information theory of the "MDL” type, abbreviated as "Anglo-Saxon”. "Minimum Description Length" in which the best assumption for a dataset is that which leads to the widest compression of data.
  • the system therefore has a database 9 corresponding to the learning of the system, that is to say comprising a sound model of the environment to be monitored.
  • the learning corpus (set of signals representative of the sound environment to be modeled) is analyzed.
  • the analysis consists in extracting parameters from each frame with a recovery. Typically, the duration of the analysis frame is a few tens of ms, and the recovery is generally 50%. Depending on the type of environment, it may be preferable to use a longer or shorter frame to better take into account the degree of stationing signals.
  • Several types of analysis are possible (spectral analysis, cepstrale, temporal, ).
  • the analysis of a frame results in a parameter vector, which is stored in a "first in first out” memory better known as "FIFO" (for First In First Out). represented for the sake of clarity.
  • the size of this memory is equal to the number of elements (vectors in this case of application) used by the dendrogram.
  • the corresponding duration (proportional to the size of the memory) may be of the order of a few hundred ms, or even a few seconds for highly stationary background noise. This duration must generally be chosen so as to incorporate at least one audio event considered a priori as elementary. However, a Compromise can be achieved to reduce the delay introduced by the processing during the use phase of the system. The minimization of the number of vectors makes it possible to obtain a result of the more reactive detection process.
  • the dendrogram is here used to automatically obtain a segmentation of the audio signal.
  • the principle consists in grouping in a "bottom-up" approach the input elements of the dendrogram. This method makes it possible to obtain a segmentation for all the different possible levels, in other words for a number of segments ranging from the initial number of elements to a single segment.
  • each element is the representative of its class. If N is the number of elements (vectors) at the input of the dendrogram, then there are N classes at the lowest level.
  • the number of segments is decremented to go to the higher level after grouping the two closest classes according to a distance criterion (defined according to the parameters used).
  • a distance criterion defined according to the parameters used.
  • groupings possible according to the distance that one seeks to minimize for the selection of the classes to be grouped.
  • the 4 main methods of grouping are:> minimal distance between class vectors or in Anglo-Saxon
  • the stop criterion used is, for example, based on the minimum distance between the two last grouped classes.
  • FIG. 3 shows an example of groupings according to the N classes for a bottom-up approach, the vertical axis corresponding to the vectors, the horizontal axis schematizing the buffer memory of the dendrogram. At the end of this grouping, the method makes it possible to obtain 3, then 2, then a vector represented by a single letter R for the grouping.
  • the automatic segmentation method must finally automatically select a level of segmentation that will be considered optimal according to a criterion to be defined.
  • a first criterion is to apply an Smax threshold on the distance between the last two grouped classes (the higher the level of the dendrogram, the greater the distance between the classes to be grouped). It is therefore a question of minimizing the number of possible segments while minimizing the grouping distance considered.
  • the distance criterion In cases 1) and 2), the distance criterion must be less than a threshold while minimizing the number of segments. In cases 3) and 4), the correlation criterion must be greater than a threshold while minimizing the number of segments.
  • the segmentation described above is applied to the entire learning base.
  • the segments thus obtained are grouped by class using, for example, a learning algorithm of the LBG (Line-Buzo-Gray) type or a K-average type algorithm.
  • LBG Line-Buzo-Gray
  • K-average type algorithm a learning algorithm of the LBG (Line-Buzo-Gray) type or a K-average type algorithm.
  • B I centroid of index k
  • the number of classes can either be fixed a priori, or determined automatically using a stopping criterion based on the minimum distance between centroids (it is not necessary to increase the number of centroids if they are sufficiently close to a certain criterion).
  • the determination of the threshold used for this stopping criterion can be based on a spectral distance (possibly calculated on a non-linear scale of the MEL or Bark type frequencies to introduce a constraint related to the perception of sounds). This spectral distance can generally be calculated from the parameters used in computing the associated spectral envelopes.
  • An alternative is to determine the threshold from the correlation between the distances used with the parameters and the spectral distances.
  • Stopping criterion either when the predefined number of classes is reached, or when the distance between the segment found and the centroids identified at the previous iteration is less than a threshold.
  • the threshold may be related to a spectrally weighted perceptual distance.
  • the EM (Expectation-Maximization) algorithm is used to build a GMM model by segment class.
  • a criterion of type minimum length "MDL" Minimum Description Length
  • MDL Minimum Description Length
  • Figure 5 shows an example of a threshold set in the graph of the score distribution profiles of normal audio events and abnormal audio events.
  • the threshold makes it possible to ensure a compromise between the numbers of false alarms and false rejections. If the shaded areas (see figure), annotated Aa, and An are equal, the probability of false alarms is equal to the probability of false rejections.
  • Principle of the detection system ( Figure 6)
  • the segmentation module is preferably identical to that implemented for the learning phase.
  • the log likelihood or log likelihood of each GMM model 4.3 is calculated.
  • a threshold 4.4 is then applied to the maximum log-likelihood obtained (most likely GMM model) to decide whether or not an abnormal event is present.
  • the detection threshold of the system can be determined automatically from a predefined basis 4.5 of abnormal events which makes it possible to estimate the distribution of anomalous event scores and to compare it with the distribution of the scores obtained on the data. learning.
  • the threshold can then be chosen to have a point of operation of the system favoring either the false alarm rate or the false rejection rate.
  • the distributions of normal events and abnormal events are obtained from the learning sequences, and simulated sequences, respectively.
  • the simulated sequences are obtained by superimposing the abnormal events on the learning sequences at different levels of signal to noise ratio RSB (Signal to Noise Ratio).
  • RSB Signal to Noise Ratio
  • the noise is the sound environment represented by the learning sequences
  • the signal is the abnormal event.
  • the optimal threshold can then be determined according to the desired compromise from the distributions thus obtained. It is possible to use models other than GMM: HMM (Hidden Markov model).
  • Markov or "HMM” type models make it possible to take into account the temporal evolution of the sound event on the horizon of a segment.
  • the learning algorithms are known in the field of voice recognition in particular.
  • Automatic segmentation can be used to initialize the learning of HMM models, which are then used for online segmentation using a Viterbi algorithm.
  • a standard HMM topology can be used: Bakis model (left-right model). However, it is possible to maintain automatic segmentation and constrain upstream segmentation.
  • the system can be in continuous operation, which means that it continuously picks up the sounds or audio streams present in the area to be monitored or an operator can control the operation of the system over periods of time previously fixed by a operator.
  • the right part of Figure 2 shows the steps for the use phase.
  • the first step 3.1 will be to extract the acoustic parameters of the analyzed audio stream.
  • step 2.1 of the learning phase remains valid.
  • the same method of segmentation 3.1 is applied to the sequence of acoustic parameters of the analyzed audio stream. It is the same for the segmentation step 3.2 which is executed in the same way as step 2.2.
  • the system has the segments (characteristics of the audio stream being analyzed). He then applies a likelihood step, that is to say that the likelihood of each GMM statistical model obtained during the learning is calculated on each of the segments obtained in step 2.2. It is possible to apply likelihood normalization procedures before making the decision to detect or not detect an audio anomaly.
  • the likelihood calculation is applied for each class K and a score or likelihood ⁇ k is assigned to a segment. This value is compared with a threshold value set beforehand. An anomalous event hypothesis is generated if none of the GMM models produces a score above a threshold. This non-detection threshold (normal event) can be determined automatically from the training data. The detection of a normal event can be taken on the horizon of the segment in question or on the horizon of several consecutive segments.
  • the acoustic parameters used for segmentation may be different from those used for modeling. It is indeed quite relevant to perform the segmentation according to a spectral criterion (cepstral parameters) and to add additional specific parameters for modeling that allow a finer modeling.
  • the decision thresholds can be predefined from knowledge, a priori, on the signals, or learned by simulating abnormal conditions.
  • Different types of classification modules can be used in parallel, to improve performance through a merge stage.
  • Different types of parameters can be used for detection and classification to maximize the discrimination power of the system between normal and abnormal events.
  • Unsupervised and supervised approaches can complement each other.
  • the system and method described above can be combined with a conventional classified classification solution by limiting false alarms.
  • the classification is activated only when abnormal event is detected. The detection is done taking into account the sound environment and therefore with greater robustness.
  • FIG. 7 schematizes an exemplary architecture comprising several devices making it possible to record sounds such as audio sensors Ci, in particular abnormal audio events.
  • the audio sensors are associated with a video camera Vi.
  • a preprocessing module At the level of the video camera and audio sensor assembly, it is possible to integrate a preprocessing module.
  • the assembly thus formed is connected, for example, to a calculator Pi comprising an abnormal event recognition module, and a database 9 containing the models used to recognize the abnormal events.
  • Each calculator Pi is connected to a central or monitoring room comprising, for example, several screens Ei surveillance.
  • the central receives the audio and video streams. It includes an Fr module to prioritize video streams from cameras according to their importance.
  • the links for transferring data from one device to another are, for example, wired links, or wireless links, of the Bluetooth type, or the system is part of a wireless local area network or WLAN ( Wireless Local Area Network).
  • the likelihood calculation can be used to order the associated video streams to provide operator assistance (for automatic selection of the priority stream to the main screen, or to facilitate manual selection by the operator from the orderly display of control screens
  • Priority streams are those with the lowest likelihoods (highest probability of having an abnormal audio event).
  • the models obtained during the learning phase can be supplemented by other models obtained during a subsequent learning phase.
  • the system can then simply use both sets of models as a reference for the normal sound environment, or use a set of models resulting from a more elaborate grouping process. It is possible to synthesize new models using a Gaussian distance criterion (such as the Battacharyya distance, or the Kullback-Leibler divergence measure).
  • Another approach is to apply the initial classification system to the new learning data, to retain among the new data those that score below a predefined threshold to learn new models. These new models are then added to the previous ones.
  • the solution of the invention is not supervised, the system and the method have the advantage of being able to be used in different environments and without a priori abnormal events to detect.
  • the learning phase of the system is automated from automatic segmentation of speech or audio captured to learning patterns used in the system. This automation also makes it possible to envisage a mode of operation with regular or continuous updating.
  • Another advantage resulting from the automation of the processing chain is the possible reinitialization of the system to a new scenario or a new environment, as well as its possibility of evolution and adaptation over time.

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Software Systems (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Medical Informatics (AREA)
  • Multimedia (AREA)
  • Computing Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Mathematical Physics (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Computation (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • General Health & Medical Sciences (AREA)
  • Human Computer Interaction (AREA)
  • Image Analysis (AREA)
  • Measurement Of Mechanical Vibrations Or Ultrasonic Waves (AREA)

Abstract

Procédé pour détecter des évènements audio anormaux dans un environnement donné, caractérisé en ce qu'il comporte au moins : · une étape automatisée d'apprentissage de la modélisation de l'environnement à surveiller au cours de laquelle une base de données (9) est élaborée par extraction de paramètres acoustiques (2.1) liés à des flux audio captés sur une période de temps fixée et une segmentation automatique (2.2) non supervisée des dits flux, suivi d'une étape de regroupement des segments par classes (2.3) et d'une modélisation statistique des classes de segments (2.4), · une phase d'utilisation qui comprend l'analyse d'un flux audio, avec extraction des paramètres acoustiques (3.1), une étape de segmentation automatique (3.2) dudit flux analysé sensiblement identique à celle utilisée lors de la phase d'apprentissage et une étape au cours de laquelle la vraisemblance (3.3) de chaque modèle statistique contenu dans la base de données est déterminée sur chacun des segments du flux audio analysé, · ladite étape de détermination des vraisemblances conduisant à une valeur l de vraisemblance qui est comparée à une valeur seuil afin de déclencher ou non un signal de présence ou d'absence d'anomalies audio dans le flux audio analysé.

Description

SYSTEME ET METHODE POUR DETECTER DES EVENEMENTS AUDIO
ANORMAUX
L'objet de la présente invention concerne un système et un procédé permettant de détecter des événements sonores considérés comme étant anormaux par rapport à un environnement sonore habituel.
L'invention s'applique, notamment, dans des applications de surveillance de zones, d'endroits ou d'espaces.
Dans le domaine de la surveillance et de l'analyse d'environnements, les systèmes conventionnels et connus de l'art antérieur s'appuient principalement sur des technologies image et vidéo.
Dans le domaine de la surveillance utilisant l'audio, les problèmes techniques posés sont notamment les suivants : 1 ) comment détecter des événements sonores spécifiques et/ou anormaux ?
2) comment avoir des solutions robustes au bruit de fond et à ses variabilités, c'est-à-dire des solutions qui sont fiables et qui ne génèrent pas de signaux d'alarmes continuellement, ou de façon intempestive ?
3) comment classifier les différents événements enregistrés ?
Dans le domaine de l'analyse d'événements sonores, l'art antérieur distingue deux processus. Le premier est un processus de détection. Le second est un processus de classification des événements détectés.
Les méthodes de détection classiques pour des événements sonores, s'appuient, en général, sur l'extraction de paramètres caractéristiques des signaux que l'on cherche à détecter. Les paramètres sont en général, des paramètres temporels, fréquentiels ou mixtes. Dans le cas des méthodes de classification connues de l'art antérieur, ces dernières sont en général basées sur des approches dites supervisées, où un modèle par événement à classifier est obtenu à partir de données d'apprentissage segmentées et labellisées. Ces solutions reposent, par exemple, sur des algorithmes de classification connus sous les abréviations anglo-saxonnes HMM pour Hidden Markov Model, GMM pour Gaussian Mixture Model, SVM pour Support Vector Machine ou encore NN pour Neural Network. Ces modèles sont connus de l'Homme du métier et ne seront pas détaillés. La proximité des données de test réelles et des données d'apprentissage conditionne les performances de ces systèmes de classification.
Les inconvénients majeurs de l'approche supervisée proviennent de la nécessité de devoir spécifier au préalable les événements anormaux, et de collecter une quantité suffisante et statistiquement représentative de ces événements. La spécification des événements n'est pas toujours possible, et la collecte d'un nombre suffisant de réalisations pour enrichir une base de données, non plus. Il est aussi nécessaire, pour chaque nouvelle configuration, de procéder à un nouvel apprentissage supervisé. La tâche de supervision requiert une intervention humaine (segmentation manuelle ou semi-automatique, labellisation, etc.). La flexibilité de ces solutions est donc limitée en termes d'usage, et la prise en compte de nouveaux environnements est difficile à mettre en œuvre. Enfin, l'apprentissage de modèles d'événements tient compte du bruit de fond et de sa variabilité, de fait, il peut dans certains cas ne pas être robuste. Ces démarches peuvent être désignées comme des approches non automatisées, c'est-à-dire qu'elles nécessitent une intervention humaine.
Malgré tous les résultats que procurent ces systèmes, les solutions prévues dans l'art antérieur ne permettent pas de traiter correctement les événements audio qui ne sont pas prédéfinis. La robustesse à l'environnement ainsi que sa variabilité sont limitées.
L'idée de l'invention repose, notamment, sur une nouvelle approche dans laquelle le procédé fait appel à une étape d'apprentissage automatisée, c'est-à-dire qui ne demande pas en fonctionnement normal d'intervention humaine, les différents éléments, capteurs ou autres dispositifs constituant le système se suffisant à eux-mêmes pour modéliser un environnement.
L'invention concerne un procédé pour détecter des événements audio anormaux dans un environnement donné, caractérisé en ce qu'il comporte au moins les étapes suivantes:
• une étape automatisée d'apprentissage de la modélisation dudit environnement au cours de laquelle une base de données est élaborée par extraction de paramètres acoustiques liés à des flux audio captés sur une période de temps fixée et une segmentation automatique non supervisée des dits flux, suivi d'une étape de regroupement des segments par classes, et d'une modélisation statistique des classes de segments,
• une phase d'utilisation qui comprend l'analyse d'un flux audio, avec extraction des paramètres acoustiques, une étape de segmentation automatique dudit flux analysé identique à celle utilisée lors de la phase d'apprentissage et une étape au cours de laquelle la vraisemblance de chaque modèle statistique contenu dans la base de données est déterminée sur chacun des segments du flux audio analysé, • ladite étape de détermination des vraisemblances conduisant à une valeur λ de vraisemblance correspondant au modèle le plus probable, maximum des vraisemblances, qui est comparée à une valeur seuil afin de déclencher ou non un signal de présence ou d'absence d'anomalies audio dans le flux audio analysé. L'étape de modélisation est, par exemple, une modélisation statistique des classes de segments qui consiste à modéliser la densité de probabilité de l'ensemble des paramètres acoustiques de chaque classe de segments à l'aide d'un mélange de gaussiennes mixtes ou GMM.
Selon une autre variante l'étape de modélisation est une modélisation statistique des classes de segments qui consiste à modéliser la densité de probabilité de l'ensemble des paramètres acoustiques de chaque classe de segments à l'aide d'un modèle de type Markov ou HMM. L'étape d'apprentissage consiste, par exemple, à utiliser un algorithme qui permet de positionner des centroïdes uniformément répartis dans l'espace des paramètres en exécutant les étapes suivantes :
1. Calcul du vecteur moyen à partir de l'ensemble des données d'apprentissage,
2. Recherche du segment le plus éloigné du vecteur moyen et initialisation du premier centroïde comme étant le vecteur moyen du segment trouvé (nb_classe = 1 ),
3. Itérations permettant d'incrémenter le nombre de classes (nb_classe = nb_classe + 1 ) : on recherche le segment qui maximise la distance cumulée aux centroïdes identifiés à l'itération précédente,
4. Critère d'arrêt : soit lorsque le nombre prédéfini de classes est atteint, soit lorsque la distance entre le segment trouvé et les centroïdes identifiés à l'itération précédente est inférieure à un seuil.
L'étape de segmentation automatique utilise, par exemple, le principe du dendrogramme.
L'étape de segmentation automatique peut sélectionner un niveau de segmentation en utilisant l'un des critères suivants :
• appliquer un seuil Smax sur la distance entre les deux dernières classes regroupées c'est-à-dire minimiser le nombre de segments possibles tout en minimisant la distance de regroupement considérée, et/ou • le maximum sur les segments d'un même niveau du maximum sur les vecteurs d'un même segment (de la distance entre le vecteur et le vecteur moyen du segment) et/ou
• le maximum sur les segments d'un même niveau de la moyenne sur les vecteurs d'un même segment (distance entre le vecteur et le vecteur moyen du segment) et/ou • le minimum sur les segments d'un même niveau du minimum sur les vecteurs d'un même segment (du coefficient d'inter-corrélation normalisée entre le vecteur et le vecteur moyen du segment) et/ou
• le minimum sur les segments d'un même niveau de la moyenne sur les vecteurs d'un même segment (du coefficient d'inter-corrélation normalisée entre le vecteur et le vecteur moyen du segment).
Lors de la phase d'apprentissage, ledit procédé utilise, par exemple, un algorithme K-moyenne ou un algorithme de type LBG pour l'étape de regroupement des segments en classes ou encore une version dérivée de l'algorithme K-moyenne.
La taille du modèle peut être déterminée de manière automatique en appliquant un seuil Smax sur la distance entre les deux dernières classes regroupées, c'est-à-dire minimiser le nombre de segments possibles tout en minimisant la distance de regroupement considérée. Les paramètres acoustiques utilisés peuvent être choisis parmi la liste suivante : des paramètres spectraux, temporels ou spectraux-temporels associés au flux audio.
L'invention concerne aussi un système de détection d'anomalies audio dans un environnement donné caractérisé en ce qu'il comporte au moins les éléments suivants :
• Un ou plusieurs capteurs audio adaptés à détecter des flux audio,
• Un module de prétraitement adapté à exécuter une segmentation automatique des paramètres acoustiques extraits du flux audio à analyse, • Un module adapté à élaborer une base de données représentative du modèle de l'environnement à surveiller,
• Un module de calcul de vraisemblance prenant en entrée le modèle audio de la base de données et le résultat de calcul de vraisemblance exécuté sur un flux audio analysé, • Un module de comparaison de la valeur de vraisemblance obtenue et d'une valeur seuil. Le système comporte, par exemple, un premier module de prétraitement et un premier module d'élaboration de la base de données sont mémorisés dans un premier processeur pour la phase d'apprentissage du système et en ce qu'il comporte un deuxième module de prétraitement et un deuxième module du calcul de vraisemblance, le module de calcul de vraisemblance recevant en entrée des informations sur les modèles issus de la base de données.
Le système comporte, par exemple, une station centrale ou salle de surveillance équipée de plusieurs écrans de contrôle Ei, d'un module de redirection des flux vidéo, un écran principal Ep, plusieurs ensembles Zi constitués chacun d'un ou plusieurs capteurs audio associés à des caméras vidéo Ci, Vi, lesdits modules Ci, Vi étant en liaison avec un module adapté à déterminer une valeur de vraisemblance λi, lesdites valeurs de vraisemblance λi étant transmises à la station centrale. Les valeurs de vraisemblance ainsi déterminées peuvent servir à ordonner les flux vidéos associés afin de fournir une aide à un opérateur (sélection automatique du flux prioritaire vers l'écran principal, ou sélection manuelle par l'opérateur à partir de l'affichage ordonné des écrans de contrôle. Les flux prioritaires sont, par exemple, ceux ayant les valeurs de vraisemblance les plus faibles.
D'autres caractéristiques et avantages de la présente invention apparaîtront mieux à la lecture d'un exemple non limitatif de réalisation en se référant aux figures qui représentent :
• La figure 1 , un exemple de système de détection selon l'invention, • La figure 2, les étapes mises en œuvre lors de la phase d'apprentissage et la phase de reconnaissance du système selon l'invention,
• La figure 3, un exemple de regroupement de classes,
• La figure 4, un algorithme pouvant être mis en œuvre pour construire un dictionnaire,
• La figure 5, le profil des distributions de scores des événements audio anormaux et des événements audio normaux, • La figure 6, un exemple détaillé des étapes au niveau de la phase d'utilisation de la figure 2, et
• La figure 7, un autre exemple de système selon l'invention.
La description qui suit va être donnée à titre illustratif et nullement limitatif pour une surveillance et une détection d'événements audio anormaux, tels que des cris, dans un environnement sonore bruyant, par exemple, un quai de métro. Le système de détection audio peut aussi être utilisé pour hiérarchiser des flux vidéo provenant de plusieurs caméras. Ce mode d'utilisation peut être particulièrement adapté à une application de surveillance en procurant une aide à l'opérateur de sécurité en charge de visionner en direct les différents flux vidéo.
Dans l'exemple illustré à la figure 1 , le système de détection selon l'invention va utiliser deux processeurs séparés ayant des capacités de calcul différentes. Sur la partie supérieure de la figure est représenté le système utilisé pendant la période d'apprentissage du système, alors que sur la partie inférieure, un exemple de système de capture des anomalies et de reconnaissance de ces anomalies est représenté.
Dans certains cas d'utilisation, le système peut comporter un seul processeur ayant des capacités de calcul et de traitement suffisantes pour exécuter l'étape d'apprentissage et l'étape de reconnaissance.
La figure 1 schématise un exemple d'architecture du système mise en œuvre par l'invention, pour laquelle une partie concerne l'apprentissage d'une base de données qui sera utilisée pour la reconnaissance des bruits et des événements sonores anormaux sur un quai de métro. Le système comprend un capteur audio 1 de sons, de bruits sonores présents dans une zone à surveiller ou dont on souhaite faire une analyse d'événements sonores. Les données reçues sur ce capteur audio 1 sont transmises, tout d'abord, à un dispositif 3 contenant un filtre et un convertisseur analogique- numérique connus de l'Homme du métier, puis via une entrée 4 à un processeur 5 comprenant un module 6 détaillé à la figure 2 de prétraitement des données, un module d'apprentissage 7. Les modèles ainsi générés sont transmis via une sortie 8 du processeur 3 à une base de données 9. Cette base de données 9 va contenir des modèles correspondant à des classes de paramètres acoustiques représentatifs d'un environnement audio considéré comme normal. Cette base de données va être initialisée lors d'une phase d'apprentissage et pourra être mise à jour au cours du fonctionnement du système de détection selon l'invention. La base de données 9 est aussi utilisée lors de la reconnaissance de bruit ou de détection d'événements audio anormaux. Le système comprend aussi pour la reconnaissance des événements audio anormaux, un ou plusieurs capteurs audio 10, chaque capteur 10 étant relié à un dispositif 1 1 comprenant un filtre et un convertisseur analogique numérique ou CAN. Les données détectées par le capteur audio et mises en forme par le filtre et le CAN sont transmises à un processeur 13, via une entrée 12. Le processeur comporte un module de prétraitement 14 détaillé à la figure 2, puis un module 15 de reconnaissance des données traitées, ledit module recevant des informations de la base de données 9 par une liaison 16 qui peut être filaire ou non. Une fois les informations traitées, le résultat « événement audio anormal » ou « événements audio anormal » est transmis via la sortie 17 du processeur soit vers un dispositif de type PC, 18, permettant l'affichage du résultat, soit vers un dispositif déclenchant une alarme 19 ou encore vers un système 19' de redirection du flux vidéo et de l'alarme selon par exemple le schéma figure 5. Les modules de prétraitement 6 et 14 doivent être identiques afin d'assurer la compatibilité des modèles de la base de données 8. D'autre part, les capteurs audio 2 et 10 peuvent être des capteurs présentant des caractéristiques similaires ou identiques (type, caractéristique et positionnement dans l'environnement) afin de s'affranchir des différences de mise en forme des signaux entre les phases d'apprentissage et de test.
La transmission des données entre les différents dispositifs peuvent être effectuées via des liaisons filaires, ou encore des systèmes sans fil, tels que Bluetooth, ....les réseaux locaux sans-fil ou en abrégé anglo-saxon WLAN, etc.
Un exemple d'une autre architecture système sera donné, à titre illustratif et non limitatif, à la figure 5. Cette architecture permet notamment de hiérarchiser différents flux vidéo issus de différentes caméras ou dispositifs vidéo associés aux capteurs de surveillance.
Le système peut aussi comporter une mémoire tampon ayant notamment pour fonction de stocker les dernières données ou événements audio anormaux. Cette mémoire tampon peut ainsi permettre à un opérateur de surveillance d'accéder aux flux enregistrés lors de la génération d'une alarme. Cette mémoire est similaire au stockage des flux vidéo en vidéosurveillance.
Dans le cas d'un système mettant en œuvre un unique processeur, on peut envisager l'utilisation d'un ou de plusieurs capteurs audio, associés chacun à des filtres positionnés avant le processeur.
La figure 2 représente un exemple pour l'enchainement des étapes mises en œuvre au cours du procédé selon l'invention, la partie gauche de la figure correspondant à la phase d'apprentissage alors que la partie droite à la phase d'utilisation. Une première étape correspond à l'apprentissage automatisé du système. Le système va enregistrer grâce au capteur pendant une durée TA fixée initialement les bruits et/ou le fond sonore représentatif du quai de métro. Cette phase d'apprentissage est automatisée et non supervisée. Les paramètres acoustiques qui vont être utilisés sont en général des paramètres spectraux, temporels ou spectro-temporels. Il est ainsi possible d'utiliser une modélisation de l'enveloppe spectrale du bruit capté par le microphone, tels que les paramètres cepstraux ou vecteurs cepstraux. Le flux audio, dans ce cas va être modélisé par une séquence de vecteurs cepstraux.
Au cours de la phase d'apprentissage automatisée, une séquence audio représentative d'un environnement sonore dans la zone de surveillance visée initialement est captée. Les paramètres acoustiques sont extraits lors d'une étape d'extraction 2.1 , à partir du signal audio, de la séquence audio, en utilisant une fenêtre d'analyse glissante à court terme. Cette technique d'analyse étant connue de l'Homme du métier, elle ne sera pas explicitée. Une manière de procéder est de considérer des trames d'analyse dont la durée est par exemple de l'ordre de 20 à 60ms, avec un recouvrement typique de 50%. Les paramètres acoustiques considérés par le procédé sont choisis en fonction des propriétés des signaux à modéliser. La durée d'une trame d'analyse tient généralement compte d'hypothèses de stationnante du signal analysé sur l'horizon de la trame.
Dans le domaine de la parole, les paramètres cepstraux qui modélisent l'enveloppe spectrale sont souvent utilisés combinés à d'autres paramètres plus spécifiques permettant de modéliser des propriétés temporelles ou spectrales. On peut citer à titre d'exemple le taux de passage par zéro (ZCR, Zéro Crossing Rate) dans le domaine temporel ou dans le domaine spectral la mesure connue sous l'abréviation anglo-saxonne « SFM » (Spectral Flatness Measure). Ces deux mesures font partie des paramètres utilisés pour distinguer les signaux de parole voisés de signaux de bruit. De nombreux paramètres sont décrits dans la littérature permettant de modéliser une ou plusieurs caractéristiques des signaux analysés (harmonicité, stationnante, enveloppe spectrale, enveloppe temporelle, énergie localisée en fréquence, ...).
L'étape suivante 2.2 est une étape de segmentation automatique à partir des vecteurs de paramètres extraits lors de l'étape 2.1. L'objectif de cette étape de segmentation est de regrouper les vecteurs qui sont proches, par exemple, en utilisant un critère de distance prédéfinie. Le critère sera choisi en fonction du type de paramètres acoustiques qui ont été utilisés pour caractériser le fond sonore ou audio. Cette segmentation peut être effectuée de plusieurs manières, par exemple en utilisant une des techniques listées ci-après: détection de rupture de trajectoires ou de modèles, décomposition temporelle, ou dendrogramme qui correspond à une représentation graphique d'un arbre de classification hiérarchique mettant en évidence l'inclusion progressive des classes. Dans le cas de l'utilisation du dendrogramme, sur un horizon de plusieurs trames, ce qui correspond à quelques secondes, le principe de segmentation va consister à regrouper des trames dans une approche dite ascendante ou « bottom-up » en utilisant une distance appropriée (adaptée aux paramètres). Le dendrogramme fournit un ensemble de segmentations possibles (une segmentation par niveau du dendrogramme). Plusieurs critères peuvent être utilisés pour retenir une segmentation pour la suite du traitement : seuil sur la distance entre segments, ou sur un coefficient de corrélation intra-segment par exemple. Le procédé utilise alors une mémoire tampon implémentée au sein du système devant comprendre au moins un segment ou groupe de vecteurs. Une telle mémoire tampon étant classiquement utilisée, elle n'est pas représentée pour des raisons de simplification.
L'ensemble des segments ainsi calculés vont être utilisés pour construire un dictionnaire dont le nombre de classes Nc est prédéfini, ou encore déterminé automatiquement sur un critère de distances interclasses par exemple. Ceci correspond aux étapes 2.3 et 2.4.
Ainsi, lors de l'étape 2.3, les segments sont regroupés par classes en mettant en œuvre un algorithme de type K-moyenne (K-Means), ou un algorithme « LBG » (Linde-Buzo-Gray) ou tout autre algorithme ayant les mêmes fonctionnalités ou des fonctionnalités similaires, utilisés par un Homme du métier.
Les segments étant regroupés par classes (étape 2.3), l'étape suivante (étape 2.4) consiste à modéliser la densité de probabilité de l'ensemble des paramètres acoustiques de chaque classe de segments, en utilisant, par exemple, un modèle de mélange de gaussiennes, plus connu sous l'abréviation anglo-saxonne GMM (Gaussian Mixture Model). L'algorithme généralement utilisé pour trouver le maximum de vraisemblance des paramètres du modèle probabiliste lorsque celui-ci dépend de variables latentes non observables est plus connu sous l'abréviation anglo-saxonne « EM » pour Expectation-Maximization, et sera utilisé pour la phase d'apprentissage du système. Le nombre de gaussiennes utilisées peut être prédéfini ou déterminé de manière automatique à partir d'un critère issu de la théorie d'information de type « MDL » abréviation anglo-saxonne de « Minimum Description Length » dans lequel la meilleure hypothèse pour un ensemble de données est celle qui conduit à la compression la plus large de données.
A l'issue de cette étape, le système possède donc une base de données 9 correspondant à l'apprentissage du système, c'est-à-dire comprenant un modèle sonore de l'environnement à surveiller. Cette base de données, comporte, pour chaque classe déterminée, la modélisation de la distribution des paramètres audio utilisés, ce qui correspond à l'ensemble {GMMk}, k=1 ,....K avec K le nombre de classes, lorsque le modèle de mélange de Gaussiennes a été utilisé.
Une manière d'exécuter la phase d'apprentissage non supervisée est détaillée ci-après. Approche de segmentation automatique par dendroqramme
Le corpus d'apprentissage (ensemble des signaux représentatifs de l'environnement sonore à modéliser) est analysé. L'analyse consiste à extraire des paramètres à partir de chaque trame avec un recouvrement. Typiquement, la durée de la trame d'analyse est de quelques dizaines de ms, et le recouvrement est en général de 50 %. En fonction du type d'environnement, il peut être préférable d'utiliser une trame plus ou moins longue afin de prendre en compte au mieux le degré de stationnante des signaux. Plusieurs types d'analyses sont possibles (analyse spectrale, cepstrale, temporelle, ...). De l'analyse d'une trame résulte un vecteur de paramètres, qui est stocké dans une mémoire de type « premier entré premier sorti » plus connue sous l'abréviation anglo-saxonne « FIFO » (pour First In First Out), mémoire non représentée pour des raisons de clarté. La taille de cette mémoire (nombre de vecteurs mémorisés) est égale au nombre d'éléments (vecteurs dans le cas présent d'application) utilisés par le dendrogramme. La durée correspondante (proportionnelle à la taille de la mémoire) peut être de l'ordre de quelques centaines de ms, voire quelques secondes pour des bruits de fond fortement stationnaires. Cette durée doit être en général être choisie de manière à incorporer au minimum un événement audio considéré a priori comme élémentaire. Cependant, un compromis peut-être réalisé afin de réduire le retard introduit par le traitement lors de la phase d'utilisation du système. La minimisation du nombre de vecteurs permet d'obtenir un résultat du processus de détection plus réactif. Le dendrogramme est ici utilisé pour obtenir de manière automatique une segmentation du signal audio. Le principe consiste à regrouper dans une approche précitée « bottom-up » les éléments en entrée du dendrogramme. Cette méthode permet d'obtenir une segmentation pour tous les différents niveaux possibles, autrement dit pour un nombre de segments allant du nombre initial d'éléments à un segment unique.
A l'initialisation, chaque élément est le représentant de sa classe. Si N est le nombre d'éléments (vecteurs) en entrée du dendrogramme, il y a donc N classes au niveau le plus bas.
Ensuite, le nombre de segments est décrémenté pour passer au niveau supérieur après regroupement des deux classes les plus proches selon un critère de distance (définie en fonction des paramètres utilisés). Il existe plusieurs types de regroupements possibles selon la distance que l'on cherche à minimiser pour la sélection des classes à regrouper. Les 4 principales méthodes de regroupement sont les suivantes: > distance minimale entre les vecteurs des classes ou en anglo-saxon
« single linkage »,
> distance maximale entre les vecteurs des classes ou en anglo-saxon « complète linkage »,
> distance moyenne entre les vecteurs des classes ou en anglo-saxon ou en anglo-saxon « average linkage »,
> distance entre les vecteurs moyens (centroïdes) ou en anglo-saxon « centroid linkage ».
Le critère d'arrêt utilisé est, par exemple, basé sur la distance minimale entre les deux dernières classes regroupées. Sur la figure 3 est représenté un exemple de regroupements selon les N classes pour une approche bottom-up, l'axe vertical correspondante aux vecteurs, l'axe horizontal schématisant la mémoire tampon du dendrogramme. A l'issue de ce regroupement, le procédé permet d'obtenir 3, puis 2, puis un vecteur représenté par une seule lettre R pour le regroupement.
Le procédé de segmentation automatique doit enfin sélectionner de manière automatique un niveau de segmentation qui sera considéré optimal selon un critère à définir.
Un premier critère consiste à appliquer un seuil Smax sur la distance entre les deux dernières classes regroupées (plus on monte dans les niveaux du dendrogramme plus la distance entre les classes à regrouper est grande). Il s'agit donc de minimiser le nombre de segments possibles tout en minimisant la distance de regroupement considérée.
D'autres critères peuvent être utilisés comme par exemple:
1. le maximum sur les segments d'un même niveau du maximum sur les vecteurs d'un même segment (de la distance entre le vecteur et le vecteur moyen du segment) ;
2. le maximum sur les segments d'un même niveau de la moyenne sur les vecteurs d'un même segment (distance entre le vecteur et le vecteur moyen du segment) ;
3. le minimum sur les segments d'un même niveau du minimum sur les vecteurs d'un même segment (du coefficient d'inter-corrélation normalisée entre le vecteur et le vecteur moyen du segment) ;
4. le minimum sur les segments d'un même niveau de la moyenne sur les vecteurs d'un même segment (du coefficient d'inter- corrélation normalisée entre le vecteur et le vecteur moyen du segment).
Les Notations alternatives pouvant être utilisées sont par exemple
MAX { MAX { distance (x, ck ) } )
;=1, ,N "- -j 1 ι xxee SSeegemmeennttkk (x,ck) } J\
Figure imgf000016_0001
3. MIN I MIN { corrélatiσι (x,ck) } \ k=l,...,N-j xε Segmentk
4 MIN \ MOYENNE { corrélation (x, c . ) } ( k=l, ,N- Λ xε Segment k J
où j=indice de niveau = 0, ...,N-1 (Niveau 0 : N classes, Niveau N-1 : 1 classe) où k = indice de segment (classe) pour le niveau j = 1 ,..., N-j où x est un vecteur du segment (classe) d'indice k où Ck est le vecteur moyen (centroïde) du segment (classe) k
Dans les cas 1 ) et 2), le critère de distance doit être inférieur à un seuil tout en minimisant le nombre de segments. Dans les cas 3) et 4), le critère de corrélation doit être supérieur à un seuil tout en minimisant le nombre de segment.
Construction d'un dictionnaire par regroupements des segments similaires
La segmentation décrite précédemment est appliquée à l'ensemble de la base d'apprentissage. Les segments ainsi obtenus sont regroupés par classe en utilisant par exemple un algorithme d'apprentissage du type LBG (Line-Buzo-Gray) ou un algorithme de type K-moyenne. Ces algorithmes permettent d'associer chaque segment à une classe, elle-même représentée par un vecteur moyen (centroïde). Un critère simple de distance entre un segment et le centroïde consiste à calculer la distance cumulée du centroïde à chacun des vecteurs du segment considéré. Ceci peut s'exprimer de la manière suivante :
Nvecteurs distance (S ,ck) = ∑distance (xn,ck) = distance entre le segment S et le
B=I centroïde d'indice k où Xn est un vecteur du segment s, n = 1 ,...,N vecteurs Le nombre de classes peut soit être fixé a priori, soit déterminé de manière automatique en utilisant un critère d'arrêt basé sur la distance minimale entre centroïdes (il n'est pas nécessaire d'augmenter le nombre de centroïdes si ceux-ci sont suffisamment proches selon un certain critère). La détermination du seuil utilisé pour ce critère d'arrêt peut être basée sur une distance spectrale (éventuellement calculée sur une échelle non-linéaire des fréquences du type MEL ou Bark pour introduire une contrainte liée à la perception des sons). Cette distance spectrale peut généralement être calculée à partir des paramètres utilisés en calculant les enveloppes spectrales associées. Une alternative consiste à déterminer le seuil à partir de la corrélation entre les distances utilisées avec les paramètres et les distances spectrales.
Dans la mesure où certains événements normaux peuvent être sous-représentés, une version modifiée d'apprentissage consiste à utiliser un algorithme qui permet de positionner des centroïdes uniformément répartis dans l'espace des paramètres. Un exemple d'algorithme est représenté à la figure 4:
1 ) Calcul du vecteur moyen à partir de l'ensemble des données d'apprentissage. 2) Recherche du segment le plus éloigné du vecteur moyen et initialisation du premier centroïde comme étant le vecteur moyen du segment trouvé (nb_classe = 1 )
3) Itérations permettant d'incrémenter le nombre de classes (nb_classe = nb_classe + 1 ) : on recherche le segment qui maximise la distance cumulée aux centroïdes identifiés à l'itération précédente.
4) Critère d'arrêt : soit lorsque le nombre prédéfini de classes est atteint, soit lorsque la distance entre le segment trouvé et les centroïdes identifiés à l'itération précédente est inférieure à un seuil. Le seuil peut être lié à une distance perceptuelle pondérée spectralement. Apprentissage des GMM
L'algorithme EM (« Expectation-Maximization ») est utilisé pour construire un modèle GMM par classe de segments. Un critère de type longueur minimale « MDL » (Minimum Description Length) peut être utilisé pour déterminer le nombre optimal de Gaussiennes par modèles, sinon un nombre de Gaussiennes par défaut est prédéfini.
La figure 5 représente un exemple de seuil positionné dans le graphe des profils de distribution des scores des événements audio normaux et des événements audio anormaux. Le seuil permet d'assurer un compromis entre les nombres de fausses alarmes et de faux rejets. Si les surfaces grisées (voir figure), annotés Aa, et An sont égales, la probabilité de fausses alarmes est égale à la probabilité de faux rejets. Principe du système de détection (figure 6)
Le module de segmentation est, de préférence, identique à celui mis en œuvre pour la phase d'apprentissage. Sur chaque segment détecté 4.2 on calcule la vraisemblance logarithmique ou « log-vraisemblance » de chaque modèle GMM 4.3. Un seuil 4.4 est alors appliqué sur la log- vraisemblance maximale obtenue (modèle GMM le plus probable) pour décider de la présence ou non d'un événement anormal. Le seuil de détection du système peut être déterminé de manière automatique à partir d'une base 4.5 prédéfinie d'événements anormaux qui permet d'estimer la distribution de scores d'événements anormaux et de la comparer à la distribution des scores obtenus sur les données d'apprentissage. Le seuil peut être alors choisi pour avoir un point de fonctionnement du système privilégiant soit le taux de fausses alarmes soient le taux de faux rejets. De manière pratique, les distributions des événements normaux et des événements anormaux sont obtenues à partir des séquences d'apprentissages, et de séquences simulées respectivement. Les séquences simulées sont obtenues en superposant les événements anormaux aux séquences d'apprentissage à différents niveaux de rapport signal sur bruit RSB (Rapport Signal à Bruit). Dans ce cas le bruit est l'environnement sonore représenté par les séquences d'apprentissage, et le signal est l'événement anormal. Le seuil optimal peut alors être déterminé selon le compromis souhaité à partir des distributions ainsi obtenues. II est possible d'utiliser d'autres modèles que les GMM : comme les HMM (Hidden Markov model).
Les modèles de type Markov ou « HMM » permettent de prendre en compte l'évolution temporelle de l'événement sonore sur l'horizon d'un segment. Les algorithmes d'apprentissage sont connus dans le domaine de la reconnaissance vocale notamment. La segmentation automatique peut être utilisée pour initialiser l'apprentissage des modèles HMM, ceux-ci étant utilisés par la suite pour faire la segmentation en ligne en utilisant un algorithme de Viterbi. Une topologie standard des HMM peut être utilisée : modèle de Bakis (modèle gauche-droite). Il est cependant possible de conserver la segmentation automatique et de contraindre la segmentation en amont.
Le système possédant une base de données représentative du milieu dans lequel on souhaite détecter des anomalies audio de fonctionnement, la description va maintenant détailler les étapes mises en œuvre lors du fonctionnement normal du système de détection des anomalies audio.
Le système peut être en marche en continu, ce qui veut dire qu'il capte en continu les sons ou flux audio présents dans la zone à surveiller ou bien un opérateur peut commander le fonctionnement du système sur des périodes de temps fixées au préalable par un opérateur.
La partie droite de la figure 2 représente les étapes pour la phase d'utilisation. Ainsi la première étape 3.1 va être d'extraire les paramètres acoustiques du flux audio analysé.
La méthode décrite pour l'étape 2.1 de la phase d'apprentissage reste valable. Une même méthode de segmentation 3.1 est appliquée à la séquence de paramètres acoustiques du flux audio analysé. Il en est de même pour l'étape de segmentation 3.2 qui est exécutée de la même manière que l'étape 2.2.
Lors de l'étape suivante 3.3, le système dispose des segments (caractéristiques du flux audio en cours d'analyse). Il applique alors une étape de vraisemblance, c'est-à-dire que la vraisemblance de chaque modèle statistique GMM obtenus lors de l'apprentissage est calculée sur chacun des segments obtenus lors de l'étape 2.2. Il est possible d'appliquer des procédures de normalisation des vraisemblances avant de prendre la décision de détection ou de non détection d'une anomalie audio. Le calcul des vraisemblances est appliqué pour chaque classe K et un score ou vraisemblance λk est attribué à un segment. Cette valeur est comparée à une valeur seuil fixée au préalable. Une hypothèse d'événement anormal est générée si aucun des modèles GMM ne produit de score supérieur à un seuil. Ce seuil de non détection (d'événement normal) peut être déterminé de façon automatique à partir des données d'apprentissage. La détection d'un événement normal peut être prise à l'horizon du segment considéré ou à l'horizon de plusieurs segments consécutifs.
Les paramètres acoustiques utilisés pour la segmentation peuvent être différents de ceux utilisés pour la modélisation. Il est en effet assez pertinent d'effectuer la segmentation selon un critère spectral (paramètres cepstraux) et d'ajouter pour la modélisation des paramètres spécifiques additionnels permettant une modélisation plus fine.
Les seuils de décision peuvent être prédéfinis à partir de connaissances, a priori, sur les signaux, ou appris en simulant des conditions anormales.
Différents types de modules de classification peuvent être utilisés en parallèle, pour améliorer les performances au travers d'un étage de fusion. Différents types de paramètres peuvent être utilisés pour la détection et la classification afin de maximiser le pouvoir de discrimination du système entre les événements normaux et anormaux. Les approches non supervisées et supervisées peuvent se compléter avantageusement. Le système et le procédé décrits ci-dessus peuvent être combinés avec une solution classique supervisée de classification en limitant les fausses alarmes. La classification n'est alors activée que lorsqu'un événement anormal est détecté. La détection se fait en tenant compte de l'environnement sonore et donc avec une plus grande robustesse.
Dans le cadre des applications de surveillance nécessitant le déploiement d'un réseau de transmission, il est possible sans sortir du cadre de l'invention d'envisager une architecture distribuée avec des traitements centralisés sur un serveur et des traitements déportés au plus près du capteur de l'audio (les traitements peuvent être : la réduction du débit de transmission, des fonctionnalités locales de réveil de capteurs complémentaires : image, vidéo....)
La figure 7 schématise un exemple d'architecture comprenant plusieurs dispositifs permettant d'enregistrer des sons tels que des capteurs audio Ci, notamment des événements audio anormaux. Les capteurs audio sont associés à une caméra vidéo Vi. Au niveau de l'ensemble caméra vidéo et capteur audio, il est possible d'intégrer un module de prétraitement. L'ensemble ainsi formé est relié, par exemple, à un calculateur Pi comportant un module de reconnaissance des événements anormaux, et une base de données 9 contenant les modèles utilisés pour reconnaître les événements anormaux. Chaque calculateur Pi est relié à un central ou salle de surveillance comprenant, par exemple plusieurs écrans Ei de surveillance. Le central reçoit les flux audio et vidéo. Il comprend un module Fr permettant de hiérarchiser les flux vidéo issus des caméras en fonction de leur importance. Les liaisons permettant le transfert des données d'un dispositif à un autre sont, par exemple, des liaisons filaires, ou des liaisons sans fil, de type Bluetooth, ou encore, le système fait partie d'un réseau local sans fil ou WLAN (Wireless Local Area Network).
Le calcul des vraisemblances peut servir à ordonner les flux vidéo associés afin de fournir une aide à l'opérateur (pour réaliser une sélection automatique du flux prioritaire vers l'écran principal, ou pour faciliter une sélection manuelle par l'opérateur à partir de l'affichage ordonné des écrans de contrôle. Les flux prioritaires sont ceux ayant les vraisemblances les plus faibles (probabilité la plus élevé d'avoir un événement audio anormal). Les modèles obtenus lors de la phase d'apprentissage peuvent être complétés par d'autres modèles obtenus lors d'une phase d'apprentissage ultérieure. Le système peut alors simplement utiliser les deux ensemble de modèles comme référence de l'environnement sonore normal, ou utilisé un ensemble de modèles résultant d'un processus de regroupement plus élaboré. Il est possible de synthétiser de nouveaux modèles en utilisant un critère de distance entre Gaussiennes (comme par exemple la distance de Battacharyya, ou la mesure de divergence Kullback- Leibler). Une autre approche consiste à appliquer le système de classification initial aux nouvelles données d'apprentissage, à ne retenir parmi les nouvelles données celles qui obtiennent un score inférieur à un seuil prédéfini pour apprendre de nouveaux modèles. Ces nouveaux modèles viennent alors s'ajouter aux précédents.
La solution de l'invention n'étant pas supervisée, le système et le procédé présentent notamment l'avantage de pouvoir être utilisés dans des environnements différents et sans a priori des événements anormaux à détecter. La phase d'apprentissage du système est automatisée de la segmentation automatique de la parole ou de l'audio capté à l'apprentissage des modèles utilisés dans le système. Cette automatisation permet en outre d'envisager un mode de fonctionnement avec mise à jour régulière ou en continu.
Un autre avantage résultant de l'automatisation de la chaîne de traitement est la réinitialisation possible du système à un nouveau scénario ou à un nouvel environnement, ainsi que sa possibilité d'évolution et d'adaptation dans le temps.

Claims

REVENDICATIONS
1 - Procédé pour détecter des événements audio anormaux dans un environnement donné, caractérisé en ce qu'il comporte au moins : • une étape automatisée d'apprentissage de la modélisation dudit environnement au cours de laquelle une base de données (9) est élaborée par extraction de paramètres acoustiques (2.1 ) liés à des flux audio captés sur une période de temps fixée et une segmentation automatique (2.2) non supervisée des dits flux, suivi d'une étape de regroupement des segments par classes (2.3), et d'une modélisation statistique des classes de segments (2.4),
• une phase d'utilisation qui comprend l'analyse d'un flux audio, avec extraction des paramètres acoustiques (3.1 ), une étape de segmentation automatique (3.2) dudit flux analysé identique à celle utilisée lors de la phase d'apprentissage et une étape au cours de laquelle la vraisemblance (3.3) de chaque modèle statistique contenu dans la base de données (9) est déterminée sur chacun des segments du flux audio analysé,
• ladite étape de détermination des vraisemblances conduisant à une valeur λ de vraisemblance qui correspond au modèle le plus probable, max des vraisemblances qui est comparée à une valeur seuil afin de déclencher ou non un signal de présence ou d'absence d'anomalies audio dans le flux audio analysé.
2 - Procédé selon la revendication 1 caractérisé en ce que l'étape de modélisation est une modélisation statistique des classes de segments qui consiste à modéliser la densité de probabilité de l'ensemble des paramètres acoustiques de chaque classe de segments à l'aide d'un mélange de gaussiennes mixtes ou GMM. 3 - Procédé selon la revendication 1 caractérisé en ce que l'étape de modélisation est une modélisation statistique des classes de segments qui consiste à modéliser la densité de probabilité de l'ensemble des paramètres acoustiques de chaque classe de segments à l'aide d'un modèle de type Markov ou HMM .
4 - Procédé selon la revendication 1 caractérisé en ce que l'étape d'apprentissage consiste à utiliser un algorithme qui permet de positionner des centroïdes uniformément répartis dans l'espace des paramètres en exécutant les étapes suivantes :
1 ) Calcul du vecteur moyen à partir de l'ensemble des données d'apprentissage,
2) Recherche du segment le plus éloigné du vecteur moyen et initialisation du premier centroïde comme étant le vecteur moyen du segment trouvé (nb_classe = 1 ),
3) Itérations permettant d'incrémenter le nombre de classes (nb_classe = nb_classe + 1 ) : on recherche le segment qui maximise la distance cumulée aux centroïdes identifiés à l'itération précédente,
4) Critère d'arrêt : soit lorsque le nombre prédéfini de classes est atteint, soit lorsque la distance entre le segment trouvé et les centroïdes identifiés à l'itération précédente est inférieure à un seuil.
5 - Procédé selon la revendication 1 caractérisé en ce que l'étape de segmentation automatique utilise le principe du dendrogramme.
6 - Procédé selon la revendication 5 caractérisé en ce que l'étape de segmentation automatique sélectionne un niveau de segmentation en utilisant l'un des critères suivants :
• appliquer un seuil Smax sur la distance entre les deux dernières classes regroupées c'est-à-dire minimiser le nombre de segments possibles tout en minimisant la distance de regroupement considérée, et/ou
• le maximum sur les segments d'un même niveau du maximum sur les vecteurs d'un même segment (de la distance entre le vecteur et le vecteur moyen du segment) et/ou
• le maximum sur les segments d'un même niveau de la moyenne sur les vecteurs d'un même segment (distance entre le vecteur et le vecteur moyen du segment) et/ou
• le minimum sur les segments d'un même niveau du minimum sur les vecteurs d'un même segment (du coefficient d'inter-corrélation normalisée entre le vecteur et le vecteur moyen du segment) et/ou
• le minimum sur les segments d'un même niveau de la moyenne sur les vecteurs d'un même segment (du coefficient d'inter-corrélation normalisée entre le vecteur et le vecteur moyen du segment).
7 - Procédé selon la revendication 1 caractérisé en ce que lors de la phase d'apprentissage, ledit procédé utilise un algorithme K-Moyenne ou un algorithme LBG pour l'étape de regroupement des segments en classes ou une version dérivée de l'algorithme K-moyenne.
8 - Procédé selon la revendication 7 caractérisé en ce que la taille du modèle est déterminée de manière automatique en utilisant un critère d'arrêt basé sur la distance minimale entre les deux dernières classes regroupées.
9 - Procédé selon la revendication 1 caractérisé en ce que les paramètres acoustiques utilisés sont choisis parmi la liste suivante : des paramètres spectraux, temporels ou spectraux-temporels associés au flux audio.
10 - Système de détection d'anomalies audio dans un environnement donné caractérisé en ce qu'il comporte au moins les éléments suivants : • Un ou plusieurs capteurs audio (2, 10) adaptés à détecter des flux audio,
• Un module de prétraitement (6) adapté à exécuter une segmentation automatique des paramètres acoustiques extraits du flux audio à analyse,
• Un module (7) adapté à élaborer une base de données (9) représentative du modèle de l'environnement à surveiller,
• Un module (15) de calcul de vraisemblance prenant en entrée le modèle audio de la base de données (9) et le résultat de calcul de vraisemblance exécuté sur un flux audio analysé,
• Un module de comparaison de la valeur de vraisemblance obtenue et d'une valeur seuil.
1 1 - Système selon la revendication 10 caractérisé en ce qu'il comporte un premier module de prétraitement (6) et un premier module (7) d'élaboration de modèles stockés dans la base de données (9) pour la phase d'apprentissage du système et en ce qu'il comporte un deuxième module de prétraitement (14) et un deuxième module (15) du calcul de la valeur de vraisemblance, ledit deuxième module (15) recevant en entrée des informations sur les modèles issus de la base de données (9).
12 - Système selon l'une des revendications 10 ou 1 1 caractérisé en ce qu'il comporte une station centrale (30) ou salle de surveillance équipée de plusieurs écrans de contrôle Ei, d'un module de redirection des flux vidéo, un écran principal Ep, plusieurs ensembles Zi constitués chacun d'un ou plusieurs capteurs audio associés à des caméras vidéo Ci, Vi, lesdits modules (Ci, Vi) étant en liaison avec un module adapté à déterminer une valeur de vraisemblance λi, lesdites valeurs de vraisemblance λi étant transmises à la station centrale.
PCT/EP2010/055266 2009-04-24 2010-04-21 Systeme et methode pour detecter des evenements audio anormaux WO2010122056A2 (fr)

Priority Applications (5)

Application Number Priority Date Filing Date Title
BRPI1014280A BRPI1014280A2 (pt) 2009-04-24 2010-04-21 sistema e ,método para detectar eventos de áudio anormais
MX2011011214A MX2011011214A (es) 2009-04-24 2010-04-21 Sistema y metodo para detectar eventos de audio anormales.
US13/266,101 US8938404B2 (en) 2009-04-24 2010-04-21 System and method for detecting abnormal audio events
EP10718923A EP2422301A2 (fr) 2009-04-24 2010-04-21 Systeme et methode pour detecter des evenements audio anormaux
SG2011078235A SG175350A1 (en) 2009-04-24 2010-04-21 System and method for detecting abnormal audio events

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
FR0902007A FR2944903B1 (fr) 2009-04-24 2009-04-24 Systeme et methode pour detecter des evenements audio anormaux
FR0902007 2009-04-24

Publications (2)

Publication Number Publication Date
WO2010122056A2 true WO2010122056A2 (fr) 2010-10-28
WO2010122056A3 WO2010122056A3 (fr) 2010-12-16

Family

ID=41402413

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/EP2010/055266 WO2010122056A2 (fr) 2009-04-24 2010-04-21 Systeme et methode pour detecter des evenements audio anormaux

Country Status (8)

Country Link
US (1) US8938404B2 (fr)
EP (1) EP2422301A2 (fr)
BR (1) BRPI1014280A2 (fr)
FR (1) FR2944903B1 (fr)
MX (1) MX2011011214A (fr)
MY (1) MY157136A (fr)
SG (1) SG175350A1 (fr)
WO (1) WO2010122056A2 (fr)

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102201230A (zh) * 2011-06-15 2011-09-28 天津大学 一种突发事件语音检测方法
FR2981189A1 (fr) * 2011-10-10 2013-04-12 Thales Sa Systeme et procede non supervise d'analyse et de structuration thematique multi resolution de flux audio
CN103366738A (zh) * 2012-04-01 2013-10-23 佳能株式会社 生成声音分类器和检测异常声音的方法和设备及监视系统
EP2696344A1 (fr) * 2012-08-10 2014-02-12 Thales Procede et systeme pour detecter des evenements sonores dans un environnement donne
CN109844739A (zh) * 2016-09-09 2019-06-04 国家科学研究中心 用于在多种信号中模式识别的方法
CN112349296A (zh) * 2020-11-10 2021-02-09 胡添杰 一种基于声音识别的地铁站台安全监测方法
CN116631443A (zh) * 2021-02-26 2023-08-22 武汉星巡智能科技有限公司 基于振动频谱对比的婴儿哭声类别检测方法、装置及设备

Families Citing this family (43)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10809966B2 (en) * 2013-03-14 2020-10-20 Honeywell International Inc. System and method of audio information display on video playback timeline
US10007716B2 (en) * 2014-04-28 2018-06-26 Moogsoft, Inc. System for decomposing clustering events from managed infrastructures coupled to a data extraction device
US11010220B2 (en) 2013-04-29 2021-05-18 Moogsoft, Inc. System and methods for decomposing events from managed infrastructures that includes a feedback signalizer functor
US10803133B2 (en) 2013-04-29 2020-10-13 Moogsoft Inc. System for decomposing events from managed infrastructures that includes a reference tool signalizer
US10700920B2 (en) 2013-04-29 2020-06-30 Moogsoft, Inc. System and methods for decomposing events from managed infrastructures that includes a floating point unit
US10013476B2 (en) * 2014-04-28 2018-07-03 Moogsoft, Inc. System for decomposing clustering events from managed infrastructures
US9396256B2 (en) 2013-12-13 2016-07-19 International Business Machines Corporation Pattern based audio searching method and system
US10873508B2 (en) 2015-01-27 2020-12-22 Moogsoft Inc. Modularity and similarity graphics system with monitoring policy
US10425291B2 (en) 2015-01-27 2019-09-24 Moogsoft Inc. System for decomposing events from managed infrastructures with prediction of a networks topology
US11817993B2 (en) 2015-01-27 2023-11-14 Dell Products L.P. System for decomposing events and unstructured data
US11303502B2 (en) 2015-01-27 2022-04-12 Moogsoft Inc. System with a plurality of lower tiers of information coupled to a top tier of information
US11924018B2 (en) 2015-01-27 2024-03-05 Dell Products L.P. System for decomposing events and unstructured data
US10979304B2 (en) 2015-01-27 2021-04-13 Moogsoft Inc. Agent technology system with monitoring policy
US10686648B2 (en) * 2015-01-27 2020-06-16 Moogsoft Inc. System for decomposing clustering events from managed infrastructures
CN106323452B (zh) * 2015-07-06 2019-03-29 中达电子零组件(吴江)有限公司 一种设备异音的检测方法及检测装置
US10142483B2 (en) * 2015-12-22 2018-11-27 Intel Corporation Technologies for dynamic audio communication adjustment
US10141009B2 (en) * 2016-06-28 2018-11-27 Pindrop Security, Inc. System and method for cluster-based audio event detection
WO2018005316A1 (fr) 2016-07-01 2018-01-04 Bostel Technologies, Llc Phonodermoscopie, système et procédé dispositif médical destiné au diagnostic de la peau
US11298072B2 (en) * 2016-07-01 2022-04-12 Bostel Technologies, Llc Dermoscopy diagnosis of cancerous lesions utilizing dual deep learning algorithms via visual and audio (sonification) outputs
WO2018053537A1 (fr) 2016-09-19 2018-03-22 Pindrop Security, Inc. Améliorations de la reconnaissance de locuteurs dans un centre d'appels
WO2018053518A1 (fr) 2016-09-19 2018-03-22 Pindrop Security, Inc. Caractéristiques de bas niveau de compensation de canal pour la reconnaissance de locuteur
US20180150697A1 (en) * 2017-01-09 2018-05-31 Seematics Systems Ltd System and method for using subsequent behavior to facilitate learning of visual event detectors
JP6485567B1 (ja) * 2018-02-27 2019-03-20 オムロン株式会社 適合性判定装置、適合性判定方法及びプログラム
JP6810097B2 (ja) * 2018-05-21 2021-01-06 ファナック株式会社 異常検出器
US10475468B1 (en) 2018-07-12 2019-11-12 Honeywell International Inc. Monitoring industrial equipment using audio
JP6614623B1 (ja) * 2018-11-02 2019-12-04 国立研究開発法人産業技術総合研究所 不明水検出装置、不明水検出方法、プログラム及び不明水検出システム
CN109599120B (zh) * 2018-12-25 2021-12-07 哈尔滨工程大学 一种基于大规模养殖场厂哺乳动物异常声音监测方法
WO2020159917A1 (fr) 2019-01-28 2020-08-06 Pindrop Security, Inc. Repérage de mots-clés et découverte de mots non supervisés pour une analyse de fraude
US11019201B2 (en) 2019-02-06 2021-05-25 Pindrop Security, Inc. Systems and methods of gateway detection in a telephone network
US10665251B1 (en) 2019-02-27 2020-05-26 International Business Machines Corporation Multi-modal anomaly detection
WO2020198354A1 (fr) 2019-03-25 2020-10-01 Pindrop Security, Inc. Détection d'appels provenant d'assistants vocaux
US12015637B2 (en) 2019-04-08 2024-06-18 Pindrop Security, Inc. Systems and methods for end-to-end architectures for voice spoofing detection
US11488622B2 (en) * 2019-12-16 2022-11-01 Cellular South, Inc. Embedded audio sensor system and methods
US11784888B2 (en) 2019-12-25 2023-10-10 Moogsoft Inc. Frequency-based sorting algorithm for feature sparse NLP datasets
DE102020200946A1 (de) * 2020-01-27 2021-07-29 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung eingetragener Verein Verfahren und Vorrichtung zur Erkennung von akustischen Anomalien
JP7445503B2 (ja) 2020-04-09 2024-03-07 日本放送協会 異常音検知装置及びそのプログラム
US11450340B2 (en) 2020-12-07 2022-09-20 Honeywell International Inc. Methods and systems for human activity tracking
US11443758B2 (en) * 2021-02-09 2022-09-13 International Business Machines Corporation Anomalous sound detection with timbre separation
US11765501B2 (en) 2021-03-10 2023-09-19 Honeywell International Inc. Video surveillance system with audio analytics adapted to a particular environment to aid in identifying abnormal events in the particular environment
US11620827B2 (en) 2021-03-22 2023-04-04 Honeywell International Inc. System and method for identifying activity in an area using a video camera and an audio sensor
CN114121050A (zh) * 2021-11-30 2022-03-01 云知声智能科技股份有限公司 音频播放方法、装置、电子设备和存储介质
US11836982B2 (en) 2021-12-15 2023-12-05 Honeywell International Inc. Security camera with video analytics and direct network communication with neighboring cameras
CN114781467B (zh) * 2022-06-22 2022-09-06 济南嘉宏科技有限责任公司 一种基于振动相似度的故障检测方法

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN100429716C (zh) * 2002-08-19 2008-10-29 皇家飞利浦电子股份有限公司 用于检测记录载体上的异常的扫描设备和方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
None

Cited By (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102201230A (zh) * 2011-06-15 2011-09-28 天津大学 一种突发事件语音检测方法
FR2981189A1 (fr) * 2011-10-10 2013-04-12 Thales Sa Systeme et procede non supervise d'analyse et de structuration thematique multi resolution de flux audio
WO2013053705A1 (fr) * 2011-10-10 2013-04-18 Thales Systeme et procede non supervise d'analyse et de structuration thematique multi resolution de flux audio
CN103366738A (zh) * 2012-04-01 2013-10-23 佳能株式会社 生成声音分类器和检测异常声音的方法和设备及监视系统
EP2696344A1 (fr) * 2012-08-10 2014-02-12 Thales Procede et systeme pour detecter des evenements sonores dans un environnement donne
FR2994495A1 (fr) * 2012-08-10 2014-02-14 Thales Sa Procede et systeme pour detecter des evenements sonores dans un environnement donne
CN109844739A (zh) * 2016-09-09 2019-06-04 国家科学研究中心 用于在多种信号中模式识别的方法
CN109844739B (zh) * 2016-09-09 2023-07-18 国家科学研究中心 用于在多种信号中模式识别的方法
CN112349296A (zh) * 2020-11-10 2021-02-09 胡添杰 一种基于声音识别的地铁站台安全监测方法
CN116631443A (zh) * 2021-02-26 2023-08-22 武汉星巡智能科技有限公司 基于振动频谱对比的婴儿哭声类别检测方法、装置及设备
CN116631443B (zh) * 2021-02-26 2024-05-07 武汉星巡智能科技有限公司 基于振动频谱对比的婴儿哭声类别检测方法、装置及设备

Also Published As

Publication number Publication date
MX2011011214A (es) 2011-11-18
US20120185418A1 (en) 2012-07-19
US8938404B2 (en) 2015-01-20
MY157136A (en) 2016-05-13
FR2944903A1 (fr) 2010-10-29
FR2944903B1 (fr) 2016-08-26
WO2010122056A3 (fr) 2010-12-16
EP2422301A2 (fr) 2012-02-29
SG175350A1 (en) 2011-11-28
BRPI1014280A2 (pt) 2019-04-30

Similar Documents

Publication Publication Date Title
WO2010122056A2 (fr) Systeme et methode pour detecter des evenements audio anormaux
EP2696344B1 (fr) Procede et systeme pour detecter des evenements sonores dans un environnement donne
EP0594480B1 (fr) Procédé de détection de la parole
EP3767558B1 (fr) Procede et dispositif de determination d'une duree estimee avant un incident technique dans une infrastructure informatique a partir de valeurs d'indicateurs de performance
EP4000234A1 (fr) Procédé et dispositif de détection d'anomalies, produit-programme d'ordinateur et support porteur non transitoire lisible par ordinateur correspondants
EP3155608A1 (fr) Procede de suivi d'une partition musicale et procede de modelisation associe
EP1877826B1 (fr) Détecteur séquentiel markovien
CN110852215A (zh) 一种多模态情感识别方法、系统及存储介质
WO2003048711A2 (fr) System de detection de parole dans un signal audio en environnement bruite
FR3098940A1 (fr) Procédé et dispositif de détermination d’une valeur de risque d’incident technique dans une infrastructure informatique à partir de valeurs d’indicateurs de performance
FR2979447A1 (fr) Procede de configuration d'un dispositif de detection a capteur, programme d'ordinateur et dispositif adaptatif correspondants
EP4027269A1 (fr) Procédé de construction et d'entraînement d'un détecteur de la présence d'anomalies dans un signal temporel, dispositifs et procédé associés
EP3252563B1 (fr) Détermination d'un contexte de mobilité d'un utilisateur porteur d'un équipement muni de capteurs inertiels
CN113345466A (zh) 基于多麦克风场景的主说话人语音检测方法、装置及设备
EP2766825B1 (fr) Systeme et procede non supervise d'analyse et de structuration thematique multi resolution de flux audio
JP2018109739A (ja) 音声フレーム処理用の装置及び方法
WO2007051940A1 (fr) Procede et dispositif de calcul de mesure de similarite entre une representation d'un segment audio de reference et une representation d'un segment audio a tester et procede et dispositif de suivi d'un locuteur de reference
EP3543904A1 (fr) Procédé de contrôle de détection de scènes et appareil correspondant
US20230317102A1 (en) Sound Event Detection
Martín-Gutiérrez et al. An End-to-End Speaker Diarization Service for improving Multimedia Content Access
WO2023237498A1 (fr) Dispositif de traitement de donnees par voie d'apprentissage, procede, programme et systeme correspondant
EP4099044A1 (fr) Methode et dispositif de classification d'impulsions de signaux radar
WO2024061989A1 (fr) Procédé de traitement de signal monodimensionnel, dispositif et programme correspondant
WO2007003505A1 (fr) Procédé et dispositif de segmentation et de labellisation du contenu d'un signal d'entrée se présentant sous la forme d'un flux continu de données d'entrée indifférenciées.
Segerholm Unsupervised Online Anomaly Detection in Multivariate Time-Series

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 10718923

Country of ref document: EP

Kind code of ref document: A2

NENP Non-entry into the national phase

Ref country code: DE

WWE Wipo information: entry into national phase

Ref document number: MX/A/2011/011214

Country of ref document: MX

Ref document number: 2010718923

Country of ref document: EP

WWE Wipo information: entry into national phase

Ref document number: 13266101

Country of ref document: US

REG Reference to national code

Ref country code: BR

Ref legal event code: B01A

Ref document number: PI1014280

Country of ref document: BR

ENP Entry into the national phase

Ref document number: PI1014280

Country of ref document: BR

Kind code of ref document: A2

Effective date: 20111024