WO2021233758A1 - Determining the state of health of a system on the basis of a network of measured time sequences - Google Patents

Determining the state of health of a system on the basis of a network of measured time sequences Download PDF

Info

Publication number
WO2021233758A1
WO2021233758A1 PCT/EP2021/062666 EP2021062666W WO2021233758A1 WO 2021233758 A1 WO2021233758 A1 WO 2021233758A1 EP 2021062666 W EP2021062666 W EP 2021062666W WO 2021233758 A1 WO2021233758 A1 WO 2021233758A1
Authority
WO
WIPO (PCT)
Prior art keywords
sub
network
nodes
subsequence
extracted
Prior art date
Application number
PCT/EP2021/062666
Other languages
French (fr)
Inventor
Themis Palpanas
Paul Boniol
Mohammed Meftah
Emmanuel Remy
Original Assignee
Electricite De France
Universite De Paris
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Electricite De France, Universite De Paris filed Critical Electricite De France
Publication of WO2021233758A1 publication Critical patent/WO2021233758A1/en

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • G06N20/10Machine learning using kernel methods, e.g. support vector machines [SVM]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F17/00Digital computing or data processing equipment or methods, specially adapted for specific functions
    • G06F17/10Complex mathematical operations
    • G06F17/18Complex mathematical operations for evaluating statistical data, e.g. average values, frequency distributions, probability functions, regression analysis

Definitions

  • the present disclosure relates to methods for determining the state of health of systems equipped with sensors, as well as to computer programs, computer readable storage devices and processing circuits for the implementation. such processes.
  • Monitoring an operating equipment consists of setting up a system that reports in real time on the status of the equipment.
  • the equipment is equipped with sensors, in particular digital sensors which measure physical parameters (flow rate, pressure, temperature, number of beats per minute, etc.).
  • the measurements from these sensors can therefore be stored and analyzed, mainly in the form of time series, which are sequences of time-stamped values.
  • the industrial internet of things for example for monitoring the operation of an industrial device or system, such as for example a production line bringing together several devices, or an industrial site such as a factory or a grouping of such sites,
  • SCADA systems for example integrated into electricity production sites
  • - health for example for monitoring a physiological parameter such as cardiac activity or sleep activity,
  • a known anomaly detection method consists in detecting the data samples whose Euclidean distance from their closest neighbor in n-dimensional space is the greatest. This method is based on the notion of discord.
  • the notion of discord of a time series T is defined as follows. Among all the subsequences of size i in T, the discord of T is the subsequence T i, t which has the greatest distance from its nearest neighbor. Formally, the nearest neighbor is defined as follows:
  • FIG. 1 An illustration of this definition is shown in Figure 1.
  • a point symbolizes a sub-sequence of T.
  • Three groups of sub-sequences 201, 202, 203 are represented there including an isolated sub-sequence Ti, Even if the information that the notion of discord provides is useful and interesting in some French Description use case, approaches using it fail when the time series of interest contains several similar anomalous samples.
  • only isolated abnormal subsequences, such as the subsequence Ti, l 201 can be detected by their distance di from their nearest neighbor. Recurrent anomalies Tj, l or Tk, l having a relatively small distance dj or dk with their nearest neighbor remain undetected.
  • m th Discord has been proposed to solve this problem.
  • the notion of m th Discord of a time series T is defined as follows. Among all the subsequences of size l in T, the m th Discord of T is the subsequence Ti, l which has the greatest distance from its m th nearest neighbor. An illustration of this definition is shown in Figure 2. In this figure, a dot symbolizes a subsequence of T. As in Figure 1, three groups of subsequences 201, 202, 203 are shown there as well as an isolated subsequence Ti, l. If the 3 rd Discord of T, i.e.
  • each isolated subsequence Ti , l like 201, each isolated pair of subsequences like 202 and each isolated triplet Tk, l of subsequences like 203 are detected as anomalies by their distance di, 3, dk, 3.
  • the groups of subsequences Tj, l comprising more than three subsequences, therefore having a relatively small distance dj, 3 with their third closest neighbor are not detected as anomalies.
  • the two preceding concepts can be grouped together in the concept of Top km th Discord, defined as follows.
  • a sub-sequence Ti, l is the Top km th Discord of T if it has the k th greatest distance from its m th closest neighbor. Therefore, T's Discord is also the Top 11 th Discord. In addition, T's m th Discord is rated Top 1 m th Discord.
  • the known methods based on the notion of m th Discord aim to search for the subsequences having the m th closest furthest neighbor. However, these methods are found to be very sensitive to the change in the value of the parameter m. Small variations in this parameter can cause false positives to appear, that is to say, sub-sequences detected as abnormal when they are not.
  • methods based on the local outlier factor comprises a step of calculating a degree measuring the density of the neighborhood of each subsequence. This method requires a parameter k indicating the number of neighbors to consider in order to measure the density of the neighborhood.
  • a method for determining a state of health of a system of interest equipped with a sensor the method being implemented by a processing circuit comprising a processor and a memory , and comprising: - obtaining an OBT T of a time series formed by a sequence of measurements from the sensor as a function of time, - an extraction EXTR Tj, l of a plurality of sub-sequences of the same size l from of the time series, each sub-sequence extracted being formed by a number l of consecutive measurements in time, of said sequence of measurements, - A CONST G l (N, ⁇ ) construction of a network representing the time series, the network comprising a set of nodes and weighted connections between nodes, where each node represents a set of extracted subsequences, and each weighted connection between two nodes represents the number of times a subsequence represented by one of the nodes is followed by a sub-se
  • the method comprises the extraction EXTR Tj, l, from the time series, of all the sub-sequences of the time series formed by the same number l of consecutive measurements over time .
  • the construction CONST G l (N, ⁇ ) of the network comprises a projection PRJ Tj, l of each sub-sequence extracted into a vector of a two-dimensional space, and a CONST N construction of a set of nodes of the network, where each node corresponds to a dense area of two-dimensional space.
  • the projection PRJ Tj, l of each sub-sequence extracted into a vector of a two-dimensional space comprises: - for each sub-sequence extracted, a REP construction Vj, l of a vector representing the subsequence, each term of the vector being a sum of a subset of components of the subsequence, - A reduction of dimensions RED 3D of a first matrix formed by the set of vectors representing the subs -sequences extracted to obtain a second matrix where each vector representing an extracted subsequence only comprises three dimensions, and - A ROT calculation of a third matrix obtained by rotating the second matrix, where a first dimension of the third matrix is defined so that the subsequences extending along this dimension are constant subsequences, and the other two dimensions are orthogonal to the first, and - The definition of the two dimensions of the projection space sub-sequences like the other two dimensions of the third matrix.
  • each vector representing an extracted subsequence comprises a number ⁇ - l of terms where each term is a sum of ⁇ components of the subsequence, and ⁇ is between 0.1 * l and 0.5 * l.
  • the vector representing a subsequence is defined by: Where Tk is the k-th component of the subsequence and ⁇ is an integer of determined value.
  • the reduction in dimensions of the first matrix is implemented by Principal Component Analysis.
  • the CONST N construction of the nodes of the network comprises the implementation of a circular scan of two-dimensional space by a set of radial scan vectors of different angular positions, and for each radial scanning vector: - the identification of the set of points of intersection of the projections of the sub-sequences extracted with the radial scanning vector, and - the construction of a node of the network as a local maximum of density of the points intersection identified.
  • the number of nodes is not fixed.
  • the CONST N construction of the nodes of the network comprises the calculation of a density estimation function per kernel applied to each set of intersection points corresponding to a position in the space of the vector radial scanning, the estimation function being defined by: where I 4 is the set of points of intersection of the projections of the time series with a radial scan vector forming an angle ⁇ with respect to the x-axis of two-dimensional space, r is the number of vectors of radial sweep, h is a passband parameter, ⁇ is an average, ⁇ is a standard deviation and n is the number of points contained in I 4 .
  • each extracted sub-sequence is associated with the node closest to its two-dimensional projection
  • the construction of the network further comprises the EXT CNX construction of a connection between two nodes corresponding respectively to of the extracted sub-sequences which follow one another.
  • the attribution of a normality score to a sub-sequence comprises: - The identification of a path formed by a consecutive series of nodes of the network to form said sub-sequence, and - The calculation of the normality score as a function of the weight of the connections of the network forming the path, and of the number of connections associated with each node of the network included in the path.
  • a computer program comprising instructions for the implementation of the method according to the above description, when this program is executed by a processor.
  • a non-transient recording medium readable by a computer on which is recorded a program for the implementation of the method according to the above description, when this program is executed by a processor.
  • a processing circuit comprising a processor connected to a non-transient recording medium according to the above description. The proposed method makes it possible to determine a state of health of a system of interest, for example by detecting anomalies of a time series measured on the system of interest, without prior knowledge of the system.
  • the proposed method makes it possible to correctly identify unique anomalies, that is to say a behavior which has never been observed, but also recurring anomalies, which may be linked for example to a degraded operation of the equipment. , without prior knowledge.
  • the network constructed from a sub-sequence of determined size then makes it possible to evaluate a normal or abnormal character of any sub-sequence of the series, of size greater than or equal to the size of the sub-sequences. sequences used for the construction of the network.
  • the method also has good detection precision for a reduced computation time compared to the prior art.
  • the fact of projecting the sequences in a two-dimensional space makes it possible to reduce the computation times necessary for the construction of the network.
  • FIG. 1 graphically represents a known example of anomaly detection for an example of the distribution of subsequences.
  • Fig.2 graphically represents another known example of anomaly detection for an example of distribution of subsequences.
  • FIG.3a represents an example of time series T.
  • Fig.3b represents examples of sub-sequences T1, T2 and T3 extracted from the time series T of FIG. 3a.
  • Fig.3c is a representation of a projection according to three determined dimensions of the sub-sequences extracted from the time series T of FIG. 3a.
  • Fig.3d [0044] [Fig.3d] represents the two-dimensional projection of the subsequences extracted from the time series T of Figure 3b, where the subsequences T1, T2 and T3 are indicated, and the creation of nodes .
  • FIG.3e represents an example of a part of nodes and connections between nodes obtained from the projection of figure 3d.
  • Fig.4 [0046]
  • FIG. 4 shows an example of constructions of sets of points of intersection between the projections of the subsequences extracted with radial scan vectors.
  • Fig.5a [0047]
  • FIG.5a represents, on the top graph, an example of a time series, and on the bottom graph a normality score associated with the sub-sequences forming the time series.
  • Fig.5b [0048]
  • FIG. 5b represents an example of a network constructed from the time series of FIG. 5a.
  • FIG.6 schematically shows a system provided with three sensors and a processing circuit for implementing the method for determining the state of health of the system.
  • Fig.7 [0050]
  • FIG. 7 represents the main steps of a method for determining a state of health of a system according to one embodiment.
  • Description of the Embodiments [0051] The drawings and the description below essentially contain elements of a certain nature. They can therefore not only serve to better understand this disclosure, but also contribute to its definition, if applicable. With reference to FIG. 6, many SYS systems are equipped with sensors C making it possible to measure quantities indicative of their operation in the form of time series which are sequences of time-stamped values.
  • a pump in an industrial site, is equipped with a flow sensor accounting for the outlet speed of a fluid.
  • a patient can be fitted with an EKG machine to report cardiac activity (especially heart rate).
  • the system of interest can therefore be a technical system, such as for example an industrial installation (factory, electricity production installation, etc.), a connected object, a vehicle, a building, an electrical or electronic device. , etc., equipped with one or more sensors capable of measuring at least one physical quantity representative of the state of the system of interest.
  • the physical quantity is a value liable to change over time, and may be, for example but not limited to, a quantity relating to a temperature, a position, a speed, a frequency, wavelength, a quantity of heat or thermal flux, luminous flux, current, voltage, etc. as well as their temporal derivatives.
  • the system of interest can also be a living being, such as for example a human being or an animal, equipped with one or more sensors capable of measuring at least one physiological quantity of the system of interest.
  • the physiological quantity is liable to change over time and may be, for example but not limited to, a pulse, temperature, heart rate, oxygen level in the blood, a blood glucose value, etc.
  • These SYS systems can be equipped with processing circuits making it possible to store and process the measurements locally.
  • an objective may be to detect on the basis of temperature measurements by the sensor whether the industrial appliance is functioning properly. Ideally, this detection is implemented automatically and without prior knowledge of the preprogrammed temperature cycle, nor of any anomalies in relation to this preprogrammed temperature cycle, in other words without supervision.
  • an objective may be to detect on the basis of electrocardiograms whether the electrical activity of the heart of the person or of the animal is normal. This detection is carried out automatically and without supervision, in particular without first providing examples of normal EKGs or EKGs with abnormal characteristics.
  • connected objects such as an intelligent factory where a sensor makes it possible to measure a pressure or a temperature in an installation, or even a connected vehicle whose behavior can be monitored for example by the analysis of vibration data measured by a sensor.
  • the processing circuit shown comprises a processor CPU connected to a recording medium non-transient MEM on which is recorded a program for the implementation of a method as described below when this program is executed by the processor CPU.
  • FIG. 7 illustrates the main steps of an embodiment of a method for determining a state of health of a system of interest equipped with a sensor.
  • the system of interest may be a steam generator of an electricity production plant, equipped, among other things, with a water level sensor.
  • determination of a state of health one understands for example the determination of a state of normal operation or not of the system of interest, or also the determination of a faulty state or not of the system of interest.
  • the method makes it possible to determine this state on the basis of an analysis of at least one series of measurements one or more physical quantities of the system of interest acquired by the sensor (s) with which it is equipped.
  • a time series T formed of a sequence of measurements from the sensor as a function of time, is obtained OBT T (S1), the sequence being liable to include anomalies in these measurements.
  • the time series obtained is a history of measurements taken by the level sensor, spaced by a regular time interval, each measurement corresponding to a value of the level of steam in the steam generator at measurement time.
  • The size of the time series T, that is to say the total number of measurement points, is denoted
  • the time series thus obtained is then processed in order to determine, as the “state of health of the system of interest”, whether the steam generator exhibits normal or abnormal behavior over the period of interest considered, corresponding to the series temporal.
  • the treatment is therefore carried out without prior knowledge of the presence or absence of anomalies in the time series.
  • many systems of interest are equipped with a plurality of sensors and configured to obtain a time series from each sensor.
  • a centrifugal pump is at least equipped with two pressure sensors (suction and discharge) and a flow sensor, all absolutely necessary to determine the performance and therefore to quantify the proper functioning of the equipment.
  • the determination method makes it possible to process, together or separately, several time series, it is considered in this exemplary embodiment, for reasons of simplicity, the processing of one of time series originating from a single sensor in order to determine the state of health of a system of interest.
  • All the sub-sequences Ti, l are extracted EXTR Ti, l (S2) from the time series T, these sub-sequences possibly comprising anomalies, giving the process an absence of supervision.
  • the sub-sequences Ti, l extracted are subsets of consecutive measurements within the time series. Each sub-sequence Ti, l begins at index i, ie at the ith measurement point of T, and contains the following l points.
  • a sub- given sequence Ti, l has the size l and a single point of T can be seen as a subsequence of size 1.
  • the point of the time series T having the index i can be alternatively denoted Ti, 1, or Ti .
  • the set of sub-sequences extracted has the same size l.
  • step S2 comprises the extraction of all the sub-sequences of size l of the time series T.
  • FIG. 3a an example of time series T has been shown from which three are extracted. T1, T2 and T3 sub-sequences of the same size.
  • each sub-sequence thus extracted can correspond to a fixed number of consecutive measurements, for example of the order of 10, 20, 50 or 100 measurements, within a time sequence of several hours or several. days, with a measurement step for example of the order of a few seconds to a few minutes.
  • the method then comprises the construction CONST G l (N, ⁇ ) (step S3) of a network R representing the time series T from all the sub-sequences extracted.
  • the construction of this model is carried out with the subsequences comprising the anomalies.
  • # a set of nodes.
  • a connection is a tuple w (x i , x j ) with x i , x j ⁇ N, and the weight of a connection is denoted w (x i , x j ).
  • a set of connections is denoted E.
  • a graph is defined by the pair (#, E) and denoted by G ⁇ #, E ⁇ .
  • a network is a graph G l (N, ⁇ , x, y) where x and y are respectively values assigned to nodes and connections.
  • the degree of a node is the number of connections entering and leaving the node. It is denoted deg (N (i) ).
  • the network is constructed such that each node of the network represents a set of extracted subsequences, and each connection between two nodes represents the number of times an extracted subsequence corresponding to one of the nodes linked by the connection follows another corresponding to the other node, in the time sequence T.
  • the construction of the network includes the projection PRJ Ti, l (S31) of each sub-sequence extracted from the time series T in a two-dimensional space.
  • this projection firstly comprises the REP representation Vi, l (S311) of each subsequence extracted by a vector each term of which is a sum of a component subset of the subsequence.
  • each sub-sequence Ti, l is represented by a vector defined as follows: where ⁇ is an integer parameter less than l which can be set by a user.
  • a convolutional operation of size ⁇ is therefore applied to each extracted sub-sequence to obtain the vector representing it.
  • This representation makes it possible to remove noise and residual disturbances, while keeping the main evolutions of the sub-sequence.
  • Each extracted sub-sequence being represented by a vector of size l- ⁇
  • FIG. 3d there is shown the projection of the sub-sequences extracted from the time series T shown in Figure 3a in three dimensions at the end of step S312 of reduction of the dimensions.
  • the two-dimensional projection keeping only the two dimensions orthogonal to the dimension of the constant subsequences, is represented.
  • the sub-sequences T1 and T2 are close in the two-dimensional projection space because they do not vary by the shape but by the mean value, while the sub-sequence T3 is far from the first two due to its difference in shape.
  • the construction of the network comprises the construction CONST N (S32) of a set of nodes N where each node N corresponds to a dense region of space two-dimensional projection.
  • the number of nodes is not fixed.
  • the set of values of ⁇ , l ' set of nodes # is constructed as follows:
  • the function f ⁇ is a kernel density estimation function applied to each subset radius, the function ⁇ represents the average of a subset radius, that is to say the average position of the points of intersection forming the radius subset, and the function ⁇ represents the standard deviation of the positions of the points of intersection forming the radius subset.
  • n is the number of points in the considered subset radius, which can be denoted by ⁇ I 4 ⁇ .
  • r is the number of radius subsets, which corresponds to the number of angles ⁇ in the set ⁇ , and therefore to the number of radial scan vectors. r can be set by the user.
  • h is a parameter called bandwidth of the function fh, which controls the degree of smoothing of the density estimate.
  • the value of h is optimal for according to the DW Scott publication, “Multivariate Density Estimation. Theory, Practice, Visualization. Wiley 1992.
  • the method comprises extracting the connections between the EXT CNX nodes (S33) as well as the weights associated with each connection. For this, we go through the set SProj (T, l, ⁇ ) of the projections of the sub-sequences extracted in two dimensions, and with each subsequence contained in this set is associated one of the nodes # of the network.
  • this set is constructed as follows:
  • the function S finds the node closest to each point in P where a point of P is the two-dimensional projection of a subsequence extracted from the time series, and d is the geometric distance.
  • the network associated with the time series T is denoted G l (N, ⁇ ), the index l coming from the fact that it is built from the set of projected subsequences of size l.
  • G l N, ⁇
  • a connection is created between two nodes each time a subsequence of the set P corresponding to a node is followed by a subsequence corresponding to another node. The number of times the connection takes place corresponds to the weight of the connection.
  • SCOR Tj, l (S4) is assigned a normality score to at least one subsequence T j, lq , where l ⁇ ⁇ l, that is to say that the sub -sequence to which a score is attributed may have a size greater than or equal to that of the sub-sequences used for the construction of the network.
  • the normality score is defined as a function of the path that must be taken in the network to obtain the sub-sequence, or in other words, as a function of the set of nodes and of connections between the nodes forming the sub-sequence. sequence.
  • a normality score is attributed to several subsequences, for example to all the subsequences of the time series whose size is greater than or equal to l.
  • Series2Path denotes the function which has a sub-sequence of the time series T associates all of the successive nodes of the network corresponding to this sub-sequence
  • the score of a sub-sequence of the time series is determined as a function of the weights of the connections traversed to form the sub-sequence, and of the degrees of the nodes traversed.
  • connection weights the higher the weight of a connection, the more often this transition takes place in the time series.
  • the degree of a node provides information on the centrality of the node in the network: the more central the node, the higher the score.
  • the Norm normality score is defined as follows: where w is the weight of a connection and deg is the degree of a node.
  • the normality score can be inverted to become an anomaly score.
  • ID Tk, l S5 at least one abnormal subsequence in the time series used to construct the graph, indicating an anomaly in the functioning of the system of interest.
  • a subsequence with a particularly low normality score or respectively a high abnormality score may be considered abnormal.
  • the fact of having the abnormal sub-sequences makes it possible to have the times and the different types of anomalies detected on the sensor of the system of interest, which makes it possible to determine DET SoH (S6) a state of health of the system of interest. For example, it is possible to determine a cause of abnormal subsequences such as degradation, wear of a component, unexpected event, etc. Then, depending on the analysis made on the causes of the anomalies, corrective, repair or prediction actions on the operation of the system can be implemented.
  • an alert can be generated to attract the attention of an operator of the system of interest (or, if the system of interest is a person, the person themselves or a doctor or caregiver, or if the system of interest is an animal, the owner of the animal or a veterinarian) on the need to intervene to remedy this anomaly.
  • an intervention a repair or maintenance operation can be planned or re-planned, if for example a maintenance operation was planned but must be brought forward.
  • additional treatments can be implemented to identify or diagnose the nature or the cause of the failure of the system of interest considered. It is also possible to use this information to enrich feedback on the operation of the system, for example by updating a database relating to the operation of the system.
  • FIG. 5a there is shown the example, in the top graph, of a time series representing a measurement of the water level in a steam generator of a power plant
  • FIG. 5b shows a graph obtained from this time series by application of the above method.
  • the width of the connections between the nodes is proportional to their weight.
  • An example of a recurrent transition has been shown on the arrow TN and on the arrow TA an example of a rare or abnormal transition.
  • the bottom graph represents an anomaly score calculated for the subsequences forming the time series and, used to construct the graph represented in FIG. 5b, and which makes it possible to quickly identify the abnormal subsequences. .

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Software Systems (AREA)
  • Mathematical Physics (AREA)
  • General Engineering & Computer Science (AREA)
  • Pure & Applied Mathematics (AREA)
  • Mathematical Analysis (AREA)
  • Mathematical Optimization (AREA)
  • Computational Mathematics (AREA)
  • Databases & Information Systems (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Algebra (AREA)
  • Operations Research (AREA)
  • Evolutionary Biology (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Probability & Statistics with Applications (AREA)
  • Artificial Intelligence (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Computation (AREA)
  • Medical Informatics (AREA)
  • Computing Systems (AREA)
  • Measuring And Recording Apparatus For Diagnosis (AREA)
  • Testing And Monitoring For Control Systems (AREA)

Abstract

The invention proposes a method for determining a state of health of a system of interest equipped with a sensor, comprising: - obtaining a time series of measurements, - extracting sub-sequences of the series, - constructing a network representing the time series, in which each node represents sub-sequences, and each weighted connection between two nodes represents the number of times a sub-sequence represented by one of the nodes is followed by a sub-sequence represented by the other node, - attributing a normality score to at least one sub-sequence of the series on the basis of a set of connected nodes of the network forming the sub-sequence, - identifying at least one abnormal sub-sequence, on the basis of the normality scores, and on the basis of the identified abnormal sub-sequence, determining the state of health of the system of interest.

Description

Description Description
Titre : Détermination de l’état de santé d’un système à partir d’un réseau de séquences temporelles mesurées Title: Determination of the state of health of a system from a network of measured temporal sequences
Domaine technique Technical area
[0001] La présente relève du domaine de la science des données. [0001] This is in the field of data science.
[0002] Plus particulièrement, la présente divulgation porte sur des procédés de détermination d’état de santé de systèmes équipés de capteurs, ainsi que sur des programmes informatiques, des dispositifs de stockage lisibles par ordinateur et des circuits de traitement pour la mise en oeuvre de tels procédés. [0002] More particularly, the present disclosure relates to methods for determining the state of health of systems equipped with sensors, as well as to computer programs, computer readable storage devices and processing circuits for the implementation. such processes.
Technique antérieure Prior art
[0003] La surveillance d’un matériel en fonctionnement consiste à mettre en place un système qui rende compte en temps réel de l’état du matériel. Très classiquement, le matériel est équipé de capteurs, en particulier de capteurs numériques qui mesurent des paramètres physiques (un débit, une pression, une température, un nombre de battements par minute...). [0003] Monitoring an operating equipment consists of setting up a system that reports in real time on the status of the equipment. Very conventionally, the equipment is equipped with sensors, in particular digital sensors which measure physical parameters (flow rate, pressure, temperature, number of beats per minute, etc.).
[0004] Les mesures de ces capteurs peuvent donc être stockées et analysées, principalement sous forme de séries temporelles, qui sont des séquences de valeurs horodatées. [0004] The measurements from these sensors can therefore be stored and analyzed, mainly in the form of time series, which are sequences of time-stamped values.
[0005] L’analyse de ces séries temporelles, en particulier la détection d’anomalie, permet donc de surveiller l’état du matériel et le cas échéant de lancer des alarmes lors d’une sortie du domaine de fonctionnement normal du matériel, pouvant avoir des conséquences sur l’exploitation comme des blocages de production, de l’usure prématurée ou autres. [0005] The analysis of these time series, in particular the detection of an anomaly, therefore makes it possible to monitor the state of the equipment and, if necessary, to launch alarms when leaving the normal operating range of the equipment, which can have consequences on the operation such as production blockages, premature wear or other.
[0006] La détection d’anomalies dans des séries temporelles de grande taille, typiquement dans des séries temporelles formées de données accumulées au cours de plusieurs années avec une granularité de l’ordre de la seconde, est un problème important trouvant des applications dans un grand nombre de domaines, incluant notamment : - l’aéronautique, l’automobile et le ferroviaire, par exemple pour la surveillance du fonctionnement de véhicules, The detection of anomalies in large time series, typically in time series formed from data accumulated over several years with a granularity of the order of a second, is an important problem finding applications in a large number of areas, including in particular: - aeronautics, automobiles and railways, for example for monitoring the operation of vehicles,
- les villes et usines intelligentes, par exemple pour la prévision de consommation électrique, - smart cities and factories, for example for forecasting electricity consumption,
- l’internet des objets, par exemple pour la détection de gestes et mouvements provenant d’une montre connectée, - the Internet of Things, for example for the detection of gestures and movements from a connected watch,
- l’internet industriel des objets, par exemple pour la surveillance du fonctionnement d’un appareil ou d’un système industriel, tel que par exemple une ligne de production rassemblant plusieurs appareils, ou encore un site industriel tel qu’une usine ou un groupement de tels sites, - the industrial internet of things, for example for monitoring the operation of an industrial device or system, such as for example a production line bringing together several devices, or an industrial site such as a factory or a grouping of such sites,
- les systèmes de contrôle tels que les systèmes SCADA, par exemple intégrés au sein de sites de production d’électricité, - control systems such as SCADA systems, for example integrated into electricity production sites,
- la santé, par exemple pour la surveillance d’un paramètre physiologique tel que l'activité cardiaque ou l’activité du sommeil, - health, for example for monitoring a physiological parameter such as cardiac activity or sleep activity,
- l’économie et la finance, par exemple pour la détection des fraudes, - economics and finance, for example for the detection of fraud,
- les télécommunications et les systèmes d’information, par exemple pour la gestion de centres de données, - telecommunications and information systems, for example for the management of data centers,
- la cybersécurité, par exemple pour la détection d’intrusions, - cybersecurity, for example for intrusion detection,
- les services web, par exemple pour l’analyse de sessions web utilisateur pour la détection de comportements nouveaux, et - web services, for example for analyzing user web sessions for the detection of new behaviors, and
- le droit, par exemple pour l’analyse des affaires judiciaires et la caractérisation d’éléments discriminants. - law, for example for the analysis of court cases and the characterization of discriminating elements.
[0007] Il est alors souhaitable de détecter, parmi des échantillons de données issus d’une série temporelle, chaque échantillon étant formé d’une sous-séquence de valeurs horodatées extraites de la série temporelle, ceux s’écartant d’une norme et constituant ainsi des anomalies. [0007] It is then desirable to detect, among data samples from a time series, each sample being formed from a sub-sequence of time-stamped values extracted from the time series, those deviating from a standard and thus constituting anomalies.
[0008] Plusieurs méthodes connues de détection d’anomalies peuvent être appliquées soit directement aux échantillons de données sans prétraitement préliminaire, soit en s’appuyant sur une représentation discrète de la série temporelle. Several known methods for detecting anomalies can be applied either directly to data samples without preprocessing. preliminary, or based on a discrete representation of the time series.
[0009] Il est en effet connu de définir un espace de représentation, utilisant un nombre minimal de variables, dans lequel les échantillons de données peuvent être représentés et classifiés. Différentes méthodes connues permettent de définir un tel espace de représentation, notamment les transformées de Fourier discrètes, les transformées par ondelettes, les décompositions en valeurs singulières en utilisant une analyse en composantes principales, les approximations par fonctions linéaires par morceaux telles que SAX, etc. Ces méthodes permettent de transformer chaque échantillon de données obtenu en un jeu de n valeurs. Il est ainsi possible de représenter graphiquement l’ensemble des échantillons de données sous la forme d’un nuage de points dans un espace à n dimensions, chaque point correspondant à un échantillon de données. La ressemblance entre deux échantillons de données peut être exprimée comme la distance euclidienne entre les deux points correspondant à ces deux échantillons dans l’espace à n dimensions. Plus cette distance est faible, plus les deux échantillons sont ressemblants. [0009] It is in fact known to define a representation space, using a minimum number of variables, in which the data samples can be represented and classified. Various known methods make it possible to define such a representation space, in particular discrete Fourier transforms, wavelet transforms, singular value decompositions using a principal component analysis, approximations by piecewise linear functions such as SAX, etc. These methods make it possible to transform each data sample obtained into a set of n values. It is thus possible to graphically represent all the data samples in the form of a point cloud in an n-dimensional space, each point corresponding to a data sample. The resemblance between two data samples can be expressed as the Euclidean distance between the two points corresponding to these two samples in n-dimensional space. The smaller this distance, the more similar the two samples are.
[0010] Une méthode de détection d’anomalie connue consiste à détecter les échantillons de données dont la distance euclidienne avec leur plus proche voisin dans l’espace à n dimensions est la plus grande. Cette méthode s’appuie sur la notion de discord. La notion de discord d’une série temporelle T est définie comme suit. Parmi toutes les sous-séquences de taille i dans T, le discord de T est la sous- séquence T i,t qui a la distance la plus grande avec son plus proche voisin. Formellement, le plus proche voisin est défini comme suit :
Figure imgf000005_0001
A known anomaly detection method consists in detecting the data samples whose Euclidean distance from their closest neighbor in n-dimensional space is the greatest. This method is based on the notion of discord. The notion of discord of a time series T is defined as follows. Among all the subsequences of size i in T, the discord of T is the subsequence T i, t which has the greatest distance from its nearest neighbor. Formally, the nearest neighbor is defined as follows:
Figure imgf000005_0001
Le discord est donc défini comme suit :
Figure imgf000005_0002
Discord is therefore defined as follows:
Figure imgf000005_0002
Une illustration de cette définition est représentée sur la figure 1 . Sur cette figure, un point symbolise une sous-séquence de T. Trois groupes de sous-séquences 201 , 202, 203 y sont représentés dont une sous-séquence isolée Ti, Même si l’information que la notion de discord apporte est utile et intéressante dans certains French Description cas d’usage, les approches l’utilisant échouent dès lors que la série temporelle d’intérêt contient plusieurs échantillons anormaux similaires. Ici, seules les sous- séquences anormales isolées, comme la sous-séquence Ti,ℓ 201 peuvent être détectées par leur distance di avec leur plus proche voisin. Des anomalies récurrentes Tj,ℓ ou Tk,ℓ ayant une distance dj ou dk relativement faible avec leur plus proche voisin restent indétectées. [0011] La notion de mth Discord a été proposée pour résoudre ce problème. La notion de mth Discord d’une série temporelle T est définie comme suit. Parmi toutes les sous-séquences de taille ℓ dans T, le mth Discord de T est la sous-séquence Ti,ℓ qui a la distance la plus grande avec son mième plus proche voisin. Une illustration de cette définition est représentée sur la figure 2. Sur cette figure, un point symbolise une sous-séquence de T. Comme sur la figure 1, trois groupes de sous-séquences 201, 202, 203 y sont représentés de même qu’une sous-séquence isolée Ti,ℓ. Si le 3rd Discord de T, c’est-à-dire la distance entre chaque sous-séquence et son troisième plus proche voisin, est retenu comme paramètre définissant une anormalité d’une sous-séquence, alors chaque sous-séquence isolée Ti,ℓ comme 201, chaque paire isolée de sous-séquences comme 202 et chaque triplet isolé Tk,ℓ de sous-séquences comme 203 sont détectés comme anomalies par leur distance di,3, dk,3. En revanche, les groupes de sous-séquences Tj,ℓ comprenant plus de trois sous-séquences, donc ayant une distance dj,3 relativement faible avec leur troisième plus proche voisin, ne sont pas détectés comme anomalies. [0012] Les deux notions précédentes peuvent être regroupées dans la notion de Top k mth Discord, définie comme suit. Une sous-séquence Ti,ℓ est le Top k mth Discord de T si celle-ci a la kième distance la plus grande avec son mième plus proche voisin. Par conséquent, le discord de T est également le Top 11th Discord. De plus, mth Discord de T se note Top 1 mth Discord. De manière générale, les méthodes connues s’appuyant sur la notion de mth Discord ont pour but de chercher les sous- séquences ayant le mième plus proche voisin le plus éloigné. Cependant, ces méthodes se trouvent être très sensibles au changement de valeur du paramètre m. De petites variations de ce paramètre peuvent causer l’apparition de faux positifs, c’est-à-dire de sous-séquences détectées comme anormales alors qu’elles ne le sont pas. An illustration of this definition is shown in Figure 1. In this figure, a point symbolizes a sub-sequence of T. Three groups of sub-sequences 201, 202, 203 are represented there including an isolated sub-sequence Ti, Even if the information that the notion of discord provides is useful and interesting in some French Description use case, approaches using it fail when the time series of interest contains several similar anomalous samples. Here, only isolated abnormal subsequences, such as the subsequence Ti, ℓ 201 can be detected by their distance di from their nearest neighbor. Recurrent anomalies Tj, ℓ or Tk, ℓ having a relatively small distance dj or dk with their nearest neighbor remain undetected. The notion of m th Discord has been proposed to solve this problem. The notion of m th Discord of a time series T is defined as follows. Among all the subsequences of size ℓ in T, the m th Discord of T is the subsequence Ti, ℓ which has the greatest distance from its m th nearest neighbor. An illustration of this definition is shown in Figure 2. In this figure, a dot symbolizes a subsequence of T. As in Figure 1, three groups of subsequences 201, 202, 203 are shown there as well as an isolated subsequence Ti, ℓ. If the 3 rd Discord of T, i.e. the distance between each subsequence and its third closest neighbor, is retained as a parameter defining an abnormality of a subsequence, then each isolated subsequence Ti , ℓ like 201, each isolated pair of subsequences like 202 and each isolated triplet Tk, ℓ of subsequences like 203 are detected as anomalies by their distance di, 3, dk, 3. On the other hand, the groups of subsequences Tj, ℓ comprising more than three subsequences, therefore having a relatively small distance dj, 3 with their third closest neighbor, are not detected as anomalies. The two preceding concepts can be grouped together in the concept of Top km th Discord, defined as follows. A sub-sequence Ti, ℓ is the Top km th Discord of T if it has the k th greatest distance from its m th closest neighbor. Therefore, T's Discord is also the Top 11 th Discord. In addition, T's m th Discord is rated Top 1 m th Discord. In general, the known methods based on the notion of m th Discord aim to search for the subsequences having the m th closest furthest neighbor. However, these methods are found to be very sensitive to the change in the value of the parameter m. Small variations in this parameter can cause false positives to appear, that is to say, sub-sequences detected as abnormal when they are not.
[0013] Les méthodes précédemment citées ne permettent pas de couvrir tous les cas possibles de détection d’anomalies. Dans le cas où le nombre d’anomalies n’est pas connu (en outre la majorité des cas, dont ceux concernant la détection de défaillance matérielle de capteurs dans leur historique de fonctionnement), et dans le cas où les anomalies se répètent (et donc chaque anomalie possédant un très proche voisin), les méthodes utilisant ces définitions ne fonctionnent pas de manière optimale. Elles présentent soit des difficultés à fournir une réponse fiable (avec un taux faible de détections correctes), ou nécessitent un temps de calcul élevé. [0013] The previously cited methods do not make it possible to cover all the possible cases of detection of anomalies. In the case where the number of anomalies is not known (in addition the majority of cases, including those concerning the detection of hardware failure of sensors in their operating history), and in the case where the anomalies are repeated (and therefore each anomaly has a very close neighbor), the methods using these definitions do not work optimally. They either present difficulties in providing a reliable response (with a low rate of correct detections), or require a high computation time.
[0014] D’autres méthodes relevant du domaine de la détection de valeurs aberrantes, pas spécifiquement dédiées au domaine des séries temporelles, sont connues. Des méthodes basées sur le facteur local aberrant (l’expression en anglais « Local Outlier Factor » (LOF) est fréquemment utilisée) sont des exemples de telles méthodes connues. De manière similaire aux méthodes utilisant le mth Discord, les méthodes basées sur le facteur local aberrant comprennent une étape de calcul d’un degré mesurant la densité du voisinage de chaque sous-séquence. Cette méthode exige un paramètre k indiquant le nombre de voisins à considérer pour mesurer la densité du voisinage. Other methods falling within the field of the detection of outliers, not specifically dedicated to the field of time series, are known. Methods based on the local outlier factor (the expression "Local Outlier Factor" (LOF) is frequently used) are examples of such known methods. Similarly to methods using the m th Discord, methods based on the local aberrant factor comprises a step of calculating a degree measuring the density of the neighborhood of each subsequence. This method requires a parameter k indicating the number of neighbors to consider in order to measure the density of the neighborhood.
[0015] De même, d’autres méthodes connues visent à évaluer l’isolement de chaque sous-séquence. Cet isolement est mesuré en construisant des arbres binaires aléatoires divisant l’espace des sous-séquences de la série temporelle en question en deux à chaque nœud, jusqu’à obtenir seulement une sous-séquence dans chaque zone de l’espace. La profondeur de l’arbre est utilisée pour construire un score indiquant les sous-séquences considérées anormales. Plus la profondeur pour atteindre la sous-séquence à évaluer est grande, plus la sous-séquence en question est considérée comme normale. Réciproquement, plus la profondeur est courte, plus la sous-séquence sera considérée anormale. Dans le but d’homogénéiser et stabiliser le score, plusieurs arbres aléatoires sont construits et un score moyen est établi. [0016] Comme indiqué précédemment, ces méthodes ne sont pas spécifiquement dédiées aux sous-séquences de séries temporelles, celles-ci échouent donc dans certains cas testés lors de notre évaluation expérimentale. Ne pas pouvoir détecter tous les types d’anomalies est préjudiciable car l’état du système étudié n’est alors pas précisément surveillé. Ainsi, la capacité de prédiction d’une usure prématurée, d’une défaillance ou d’une dégradation s’en trouve affectée négativement. Likewise, other known methods aim to evaluate the isolation of each sub-sequence. This isolation is measured by constructing random binary trees dividing the space of the subsequences of the time series in question into two at each node, until only one subsequence is obtained in each area of the space. The depth of the tree is used to construct a score indicating the sub-sequences considered abnormal. The greater the depth to reach the subsequence to be evaluated, the more the subsequence in question is considered normal. Conversely, the shorter the depth, the more abnormal the subsequence will be considered. In order to homogenize and stabilize the score, several random trees are constructed and an average score is established. As indicated previously, these methods are not specifically dedicated to the sub-sequences of time series, they therefore fail in certain cases tested during our experimental evaluation. Not being able to detect all types of anomalies is detrimental because the state of the system studied is then not precisely monitored. Thus, the ability to predict premature wear, failure or degradation is negatively affected.
[0017] Finalement, des solutions utilisant des méthodes d’apprentissage machine profond, plus particulièrement des réseaux de neurones récurrents, désignés par l’expression en anglais « Long Short T erm Memory » , ont été récemment proposées. Un inconvénient de ces méthodes est que le taux de détection correcte n’est optimisé qu’à la condition que des exemples de sous-séquences normales, voire dans certains cas des exemples de différents types d’anomalies soient préalablement fournis et identifiés comme tels. Ces méthodes nécessitent donc une supervision préalable, ce qui représente un frein à leur diffusion. [0017] Finally, solutions using deep machine learning methods, more particularly recurrent neural networks, designated by the expression in English "Long Short Term Memory", have recently been proposed. A disadvantage of these methods is that the correct detection rate is only optimized on the condition that examples of normal subsequences, or even in some cases examples of different types of anomalies are previously provided and identified as such. These methods therefore require prior supervision, which hinders their dissemination.
[0018] Les approches qui ont été proposées jusqu'à présent dans la littérature pour la détection d’anomalies dans des séries temporelles, par exemple issues de capteurs, rassemblant des mesures d’un paramètre physique au cours du temps ont de sérieuses limites : soit elles requièrent des connaissances préalables du domaine, soit elles deviennent lourdes et coûteuses à utiliser dans des situations où des anomalies récurrentes du même type se présentent. The approaches which have been proposed so far in the literature for the detection of anomalies in time series, for example from sensors, bringing together measurements of a physical parameter over time have serious limits: either they require prior knowledge of the field, or they become cumbersome and expensive to use in situations where recurring anomalies of the same type occur.
[0019] Il existe donc un besoin de pouvoir détecter un grand nombre de type d’anomalies de fonctionnement de manière générique et scalable, adaptable à la surveillance de tout système équipé d’un capteur apte à mesurer une valeur indicative d’un état de fonctionnement courant du système. Il est souhaitable que la détection soit fiable, c’est-à-dire que les anomalies de fonctionnement comme les fonctionnements normaux soient correctement identifiés comme tels. Il est, de plus, souhaitable que la détection ne nécessite aucune supervision. There is therefore a need to be able to detect a large number of types of operating anomalies in a generic and scalable manner, adaptable to the monitoring of any system equipped with a sensor capable of measuring a value indicative of a state of current system operation. It is desirable that the detection be reliable, that is to say that operating anomalies like normal operations are correctly identified as such. It is, moreover, desirable that the detection does not require any supervision.
Résumé Abstract
[0020] La présente divulgation vient améliorer la situation. [0021] A cet égard, il est proposé un procédé de détermination d’un état de santé d’un système d’intérêt équipé d’un capteur, le procédé étant mis en œuvre par un circuit de traitement comportant un processeur et une mémoire, et comprenant : - une obtention OBT T d’une série temporelle formée d’une séquence de mesures issues du capteur en fonction du temps, - Une extraction EXTR Tj,ℓ d’une pluralité de sous-séquences de même taille l à partir de la série temporelle, chaque sous-séquence extraite étant formée d’un nombre l de mesures consécutives dans le temps, de ladite séquence de mesures, - Une construction CONST G(N, ε) d’un réseau représentant la série temporelle, le réseau comprenant un ensemble de nœuds et de connexions pondérées entre les nœuds, où chaque nœud représente un ensemble de sous-séquences extraites, et chaque connexion pondérée entre deux nœuds représente le nombre de fois où une sous-séquence représentée par un des nœuds est suivie par une sous-séquence représentée par l’autre nœud, - Une attribution SCOR Tj,ℓ d’un score de normalité à au moins une sous- séquence de la série temporelle présentant une taille supérieure ou égale à la taille l des sous-séquences extraites, à partir d’un ensemble de nœuds connectés du réseau formant la sous-séquence, - Une identification ID Tk,ℓ d’au moins une sous-séquence anormale, indiquant une anomalie de fonctionnement du système d’intérêt, sur la base des scores de normalité attribués, et - Sur la base de ladite au moins une sous-séquence anormale identifiée, une détermination DET SoH de l’état de santé du système d’intérêt. [0022] Dans un mode de réalisation, le procédé comprend l’extraction EXTR Tj,ℓ, à partir de la série temporelle, de l’ensemble des sous-séquences de la série temporelle formées du même nombre l de mesures consécutives dans le temps. [0023] Dans un mode de réalisation, la construction CONST G(N, ε) du réseau comprend une projection PRJ Tj,ℓ de chaque sous-séquence extraite en un vecteur d’un espace à deux dimensions, et une construction CONST N d’un ensemble de nœuds du réseau, où chaque nœud correspond à une zone dense de l’espace à deux dimensions. [0024] Dans un mode de réalisation, la projection PRJ Tj,ℓ de chaque sous- séquence extraite en un vecteur d’un espace à deux dimensions comprend : - pour chaque sous-séquence extraite, une construction REP Vj,ℓ d’un vecteur représentant la sous-séquence, chaque terme du vecteur étant une somme d’un sous-ensemble de composantes de la sous-séquence, - Une réduction de dimensions RED 3D d’une première matrice formée par l’ensemble des vecteurs représentant les sous-séquences extraites pour obtenir une deuxième matrice où chaque vecteur représentant une sous- séquence extraite ne comprend plus que trois dimensions, et - Un calcul ROT d’une troisième matrice obtenue par rotation de la deuxième matrice, où une première dimension de la troisième matrice est définie de sorte que les sous-séquences s’étendant selon cette dimension soient des sous-séquences constantes, et les deux autres dimensions sont orthogonales à la première, et - La définition des deux dimensions de l’espace de projection des sous- séquences comme les deux autres dimensions de la troisième matrice. [0025] Dans un mode de réalisation, chaque vecteur représentant une sous- séquence extraite comprend un nombre λ- ℓ de termes où chaque terme est une somme de λ composantes de la sous-séquence, et λ est compris entre 0.1* ℓ et 0.5* ℓ. [0026] Dans un mode de réalisation, le vecteur représentant une sous-séquence est défini par :
Figure imgf000010_0001
Où Tk est la k-ième composante de la sous-séquence et λ est un entier de valeur déterminée. [0027] Dans un mode de réalisation, la réduction de dimensions de la première matrice est mise en œuvre par Analyse en Composantes Principales. [0028] Dans un mode de réalisation, la construction CONST N des nœuds du réseau comprend la mise en œuvre d’un balayage circulaire de l’espace à deux dimensions par un ensemble de vecteurs de balayage radiaux de positions angulaires différentes, et pour chaque vecteur de balayage radial : - l’identification de l’ensemble des points d’intersection des projections des sous-séquences extraites avec le vecteur de balayage radial, et - la construction d’un nœud du réseau comme un maximum local de densité des points d’intersection identifiés. En d’autres termes, le nombre de nœuds n’est pas fixé. [0029] Dans un mode de réalisation, la construction CONST N des nœuds du réseau comprend le calcul d’une fonction d’estimation de densité par noyau appliquée à chaque ensemble de points d’intersection correspondant à une position dans l’espace du vecteur de balayage radial, la fonction d’estimation étant définie par :
Figure imgf000011_0001
où ℐ4 est l’ensemble des points d’intersection des projections des séries temporelles avec un vecteur de balayage radial formant un angle ψ par rapport à l’axe des abscisses de l’espace à deux dimensions, r est le nombre de vecteurs de balayage radiaux, h est un paramètre de bande passante, μ est une moyenne, σ est un écart-type et n est le nombre de points contenus dans ℐ4 . [0030] Dans un mode de réalisation, chaque sous-séquence extraite est associée au nœud le plus proche de sa projection en deux dimensions, et la construction du réseau comprend en outre la construction EXT CNX d’une connexion entre deux nœuds correspondant respectivement à des sous-séquences extraites qui se suivent. [0031] Dans un mode de réalisation, l’attribution d’un score de normalité à une sous-séquence comprend : - L’identification d’un chemin formé d’une série consécutives de nœuds du réseau pour former ladite sous-séquence, et - Le calcul du score de normalité en fonction du poids des connexions du réseau formant le chemin, et du nombre de connexions associé à chaque nœud du réseau compris dans le chemin. [0032] Selon un autre objet, il est proposé un programme informatique comportant des instructions pour la mise en œuvre du procédé selon la description qui précède, lorsque ce programme est exécuté par un processeur. [0033] Selon un autre objet, il est proposé un support d’enregistrement non transitoire lisible par un ordinateur sur lequel est enregistré un programme pour la mise en œuvre du procédé selon la description qui précède, lorsque ce programme est exécuté par un processeur. [0034] Selon un autre projet, il est proposé un circuit de traitement comprenant un processeur connecté à un support d’enregistrement non transitoire selon la description qui précède. [0035] Le procédé proposé permet de déterminer un état de santé d’un système d’intérêt, par exemple en détectant des anomalies d’une série temporelle mesurée sur le système d’intérêt, sans connaissance préalable du système. En particulier, le procédé proposé permet d’identifier correctement des anomalies uniques, c’est-à- dire un comportement qui n’a jamais été observé, mais également des anomalies récurrentes, qui peuvent être liées par exemple à un fonctionnement dégradé du matériel, sans connaissances préalables. [0036] En outre, le réseau construit à partir de sous-séquence de taille déterminée permet ensuite d’évaluer un caractère normal ou anormal de n’importe quelle sous séquence de la série, de taille supérieure ou égale à la taille des sous-séquences utilisées pour la construction du réseau. [0037] Le procédé présente également une bonne précision de détection pour un temps de calcul réduit par rapport à l’art antérieur. En particulier, le fait de projeter les séquences dans un espace à deux dimensions permet de diminuer les temps de calculs nécessaires pour la construction du réseau. De plus, le procédé proposé n’implique qu’un nombre limité de parcours linéaires de la série temporelle à savoir : un premier parcours pour le calcul de la projection des séries temporelle, un deuxième pour l’extraction des nœuds et un dernier pour l’extraction des connexions. Brève description des dessins [0038] D’autres caractéristiques, détails et avantages apparaîtront à la lecture de la description détaillée ci-après, et à l’analyse des dessins annexés, sur lesquels : Fig.1 [0039] [Fig. 1] représente graphiquement un exemple connu de détection d’anomalie pour un exemple de répartition de sous-séquences. Fig.2 [0040] [Fig. 2] représente graphiquement un autre exemple connu de détection d’anomalie pour un exemple de répartition de sous-séquences. Fig.3a [0041] [Fig.3a] représente un exemple de série temporelle T. Fig.3b [0042] [Fig. 3b] représente des exemples de sous-séquences T1, T2 et T3 extraites de la série temporelle T de la figure 3a. Fig.3c [0043] [Fig. 3c] est une représentation d’une projection selon trois dimensions déterminées des sous-séquences extraites de la série temporelle T de la figure 3a. Fig.3d [0044] [Fig.3d] représente la projection en deux dimensions des sous-séquences extraites de la série temporelle T de la figure 3b, où sont indiquées les sous- séquences T1, T2 et T3, et la création de nœuds. Fig.3e [0045] [Fig. 3e] représente un exemple d’une partie de nœuds et de connexions entre les nœuds obtenus à partir de la projection de la figure 3d. Fig.4 [0046] [Fig. 4] représente un exemple de constructions d’ensembles de points d’intersection entre les projections des sous-séquences extraites avec des vecteurs de balayage radiaux. Fig.5a [0047] [Fig.5a] représente, sur le graphe du haut, un exemple de série temporelle, et sur le graphe du bas un score de normalité associé aux sous-séquences formant la série temporelle. Fig.5b [0048] [Fig. 5b] représente un exemple de réseau construit à partir de la série temporelle de la figure 5a. Fig.6 [0049] [Fig.6] représente schématiquement un système muni de trois capteurs et un circuit de traitement pour la mise en œuvre du procédé de détermination de l’état de santé du système. Fig.7 [0050] [Fig. 7] représente les principales étapes d’un procédé de détermination d’un état de santé d’un système selon un mode de réalisation. Description des modes de réalisation [0051] Les dessins et la description ci-après contiennent, pour l’essentiel, des éléments de caractère certain. Ils pourront donc non seulement servir à mieux faire comprendre la présente divulgation, mais aussi contribuer à sa définition, le cas échéant. [0052] En référence à la figure 6, de nombreux systèmes SYS sont équipés de capteurs C permettant de mesurer des grandeurs indicatives de leur fonctionnement sous la forme de séries temporelles qui sont des séquences de valeurs horodatées. [0053] Par exemple, dans un site industriel, une pompe est équipée d’un capteur de débit rendant compte de la vitesse de sortie d’un fluide. En médecine, on peut équiper un patient d’un appareil électrocardiographe pour rendre compte de l’activité cardiaque (en particulier le rythme cardiaque). [0054] Le système d’intérêt peut donc être un système technique, comme par exemple une installation industrielle (usine, installation de production d’électricité, etc.), un objet connecté, un véhicule, un bâtiment, un appareil électrique ou électronique, etc., équipé d’un ou plusieurs capteurs aptes à mesurer au moins une grandeur physique représentative de l’état du système d’intérêt. La grandeur physique est une valeur susceptible d’évoluer dans le temps, et peut être, par exemple mais non limitativement, une grandeur relative à une température, une position, une vitesse, une fréquence, longueur d’onde, une quantité de chaleur ou un flux thermique, un flux lumineux, un courant, une tension, etc. ainsi que leurs dérivées temporelles. [0055] Le système d’intérêt peut également être un être vivant, comme par exemple un être humain ou un animal, équipé d’un ou plusieurs capteurs aptes à mesurer au moins une grandeur physiologique du système d’intérêt. La grandeur physiologique est susceptible d’évoluer dans le temps et peut être, par exemple mais non limitativement, une valeur de pouls, de température, un rythme cardiaque, un taux d’oxygène dans le sang, une valeur de glycémie, etc. [0056] Ces systèmes SYS peuvent être équipés de circuits de traitement permettant de stocker et de traiter les mesures localement. Avec l’émergence des systèmes dits intelligents et communicants, il est de plus possible de transmettre les mesures acquises à un circuit de traitement distant en vue d’un traitement centralisé. Le traitement des mesures acquises peut permettre de qualifier le fonctionnement du système considéré. [0057] Par exemple, en considérant comme système un appareil industriel devant suivre un cycle de température préprogrammé et en considérant comme capteur associé une sonde de température, un objectif peut être de détecter sur la base de mesures de température par le capteur si l’appareil industriel fonctionne correctement. Idéalement, cette détection est mise en œuvre automatiquement et sans connaissance préalable du cycle de température préprogrammé, ni d’éventuelles anomalies par rapport à ce cycle de température préprogrammé, autrement dit sans supervision. [0058] Par exemple, en considérant comme système une personne ou un animal et en considérant comme capteur associé un électrocardiographe, un objectif peut être de détecter sur la base d’électrocardiogrammes si l’activité électrique du cœur de la personne ou de l’animal est normale. Cette détection est mise en œuvre automatiquement et sans supervision, notamment sans fournir au préalable d’exemples d’électrocardiogrammes normaux ou d’électrocardiogrammes présentant des caractéristiques anormales. [0059] Un autre exemple encore est celui des objets connectés, comme une usine intelligente où un capteur permet de mesurer une pression ou une température dans une installation, ou encore un véhicule connecté dont le comportement peut être surveillé par exemple par l’analyse de données de vibrations mesurées par un capteur. [0060] Un exemple d’un tel circuit de traitement PROC, effectuant le procédé de traitement des données mesurées décrit ci-après, est représenté sur la figure 6. Le circuit de traitement représenté comporte un processeur CPU raccordé à un support d’enregistrement non transitoire MEM sur lequel est enregistré un programme pour la mise en œuvre d’un procédé tel que décrit ci-après lorsque ce programme est exécuté par le processeur CPU. [0061] On se réfère à présent à la figure 7 qui illustre les principales étapes d’un mode de réalisation d’un procédé de détermination d’un état de santé d’un système d’intérêt équipé d’un capteur. Dans un exemple, dont une représentation est fournie aux figures 5a et 5b, le système d’intérêt peut être un générateur de vapeur d’une centrale de production électrique, équipé, entre autres, d’un capteur de niveau d’eau. Par « détermination d’un état de santé », on comprend par exemple la détermination d’un état de fonctionnement normal ou non du système d’intérêt, ou encore la détermination d’un état défaillant ou non du système d’intérêt. Le procédé permet de déterminer cet état sur la base d’une analyse d’au moins une série de mesures d’une ou plusieurs grandeurs physiques du système d’intérêt acquise(s) par le ou les capteurs dont il est équipé. [0062] Une série temporelle T, formée d’une séquence des mesures issues du capteur en fonction du temps, est obtenue OBT T (S1), la séquence étant susceptible de comporter des anomalies dans ces mesures. Dans l’exemple indiqué ci-avant, la série temporelle obtenue est un historique de mesures relevées par le capteur de niveau, espacées d’un intervalle de temps régulier, chaque mesure correspondant à une valeur de niveau de vapeur dans le générateur de vapeur au temps de la mesure. La taille de la série temporelle T, c’est-à-dire le nombre total de points de mesure, est notée |T|. La série temporelle ainsi obtenue est ensuite traitée afin de déterminer, en tant qu’« état de santé du système d’intérêt », si le générateur de vapeur présente un comportement normal ou anormal sur la période d’intérêt considérée, correspondant à la série temporelle. Le traitement est donc réalisé sans connaissances apriori sur la présence ou non d’anomalies dans la série temporelle. [0063] Il est à noter que, bien évidemment, dans diverses applications industrielles, de nombreux systèmes d’intérêt sont équipés d’une pluralité de capteurs et configurés pour obtenir de chaque capteur une série temporelle. Par exemple, une pompe centrifuge est a minima équipée de deux capteurs de pression (d’aspiration et de refoulement) et d’un capteur de débit, tous absolument nécessaires pour en déterminer le rendement et donc quantifier le bon fonctionnement du matériel. Bien que le procédé de détermination permette de traiter, ensemble ou séparément, plusieurs séries temporelles, il est considéré dans cet exemple de réalisation, pour des raisons de simplicité, le traitement d’une de séries temporelles issues d’un seul capteur afin de déterminer l’état de santé d’un système d’intérêt. [0064] Toutes les sous-séquences Ti,ℓ sont extraites EXTR Ti,ℓ (S2) à partir de la série temporelle T, ces sous-séquences pouvant comprendre des anomalies, conférant au procédé une absence de supervision. Les sous-séquences Ti,ℓ extraites sont des sous-ensembles de mesures consécutives au sein de la série temporelle. Chaque sous-séquence Ti,ℓ commence à l’indice i, soit au ième point de mesure de T, et contient les ℓ points qui suivent. Par conséquent, une sous- séquence Ti,ℓ donnée a pour taille ℓ et un simple point de T peut être vu comme une sous-séquence de taille 1. Par exemple le point de la série temporelle T ayant pour indice i peut être alternativement noté Ti,1, ou Ti. Ici l’ensemble des sous- séquences extraites présente la même taille ℓ. Dans un mode de réalisation l’étape S2 comprend l’extraction de l’ensemble des sous-séquences de taille ℓ de la série temporelle T. En référence à la figure 3a, on a représenté un exemple de série temporelle T dont sont extraites trois sous-séquences T1, T2 et T3 de même taille. Ces sous-séquences sont représentées en version plus développée dans la figure 3b, où on remarque que les sous-séquences T1 et T2 présentent sensiblement la même forme, mais avec des différences de valeurs, tandis que la séquence T3 présente une forme différente des deux premières. Ces sous-séquences sont utilisées comme un exemple non limitatif mais purement illustratif de la description qui suit. [0065] La taille des sous-séquences extraites peut être déterminée par un utilisateur. Dans l’exemple considéré, chaque sous-séquence ainsi extraite peut correspondre à un nombre fixe de mesures consécutives, par exemple de l’ordre de 10, 20, 50 ou 100 mesures, au sein d’une séquence temporelle de plusieurs heures ou plusieurs jours, avec un pas de mesure par exemple de l’ordre de quelques secondes à quelques minutes. [0066] Le procédé comprend ensuite la construction CONST G(N, ε) (étape S3) d’un réseau R représentant la série temporelle T à partir de toutes les sous- séquences extraites. Ainsi, la construction de ce modèle est réalisée avec les sous- séquences comprenant les anomalies. On utilise pour la suite les notations suivantes. Un nœud est défini comme un objet abstrait identifié par un entier, et on note # un ensemble de nœuds. Une connexion est un tuple w( xi, xj)avec xi, xj ∈ N, et le poids d’une connexion est noté w( xi, xj). Un ensemble de connexions est noté ℰ. Un graphe est défini par la paire (#, ℰ) et noté G^#, ℰ^. Un réseau est un graphe G(N,ε,x,y) où x et y sont respectivement des valeurs attribuées aux nœuds et aux connexions. Enfin, le degré d’un nœud est le nombre de connexions entrant et sortant du nœud. Il est noté deg(N(i)). [0067] Le réseau est construit de telle sorte que chaque nœud du réseau représente un ensemble de sous-séquences extraites, et chaque connexion entre deux nœuds représente le nombre de fois où une sous-séquence extraite correspondant à l’un des nœuds reliés par la connexion en suit une autre correspondant à l’autre nœud, dans la séquence temporelle T. [0068] Pour ce faire, la construction du réseau comprend la projection PRJ Ti,ℓ (S31) de chaque sous-séquence extraite de la série temporelle T dans un espace de deux dimensions. Dans un mode de réalisation, cette projection comprend d’abord la représentation REP Vi,ℓ (S311) de chaque sous-séquence extraite par un vecteur dont chaque terme est une somme d’un sous-ensemble de composante de la sous-séquence. Typiquement, chaque sous-séquence Ti,ℓ est représentée par un vecteur défini comme suit :
Figure imgf000019_0001
où λ est un paramètre entier inférieur à ℓ pouvant être fixé par un utilisateur. Avantageusement, λ peut être fixé entre λ=0.1*ℓ et λ=0.5*ℓ Une opération convolutionnelle de taille λ est donc appliquée à chaque sous-séquence extraite pour obtenir le vecteur la représentant. Cette représentation permet de supprimer du bruit et des perturbations résiduelles, tout en gardant les évolutions principales de la sous-séquence. [0069] Chaque sous-séquence extraite étant représentée par un vecteur de taille ℓ- λ, l’ensemble des sous-séquences ainsi représenté forme une matrice que l’on note Proj(T, ℓ, λ) ∈ P|^|,ℓ/+(ℝ) où M|T|,ℓ-λ est l’ensemble des matrices ayant |T| lignes et ℓ- λ colonnes. On effectue ensuite une opération de réduction de dimensions RED 3D (S312) de cette première matrice Proj(T, ℓ, λ) pour parvenir à un espace en trois dimensions, c’est-à-dire pour obtenir une deuxième matrice comprenant toujours |T| lignes, chaque ligne correspondant à un vecteur représentant une sous-séquence extraite, mais ne comprenant plus que trois colonnes. On note cette deuxième matrice Projr(T, ℓ, λ). [0070] Le procédé comprend ensuite le calcul ROT (S313) d’une troisième matrice obtenue par rotation de cette deuxième matrice, de telle sorte qu’une première dimension de cette troisième matrice soit colinéaire aux sous-séquences constantes de la séquence temporelle, et que les deux autres dimensions soient orthogonales à celle-ci. De cette troisième matrice, on ne retient que ces deux autres dimensions comme espace à deux dimensions pour la projection des sous-séquences extraites. En effet, le fait de projeter les sous-séquences selon ces deux dimensions permet de ne conserver après la projection des sous-séquences que des informations sur la forme des sous-séquences, ce qui permet de privilégier la détection des anomalies de forme des sous-séquences, par opposition aux anomalies de valeurs, caractérisées par la valeur moyenne des sous-séquences, et qui sont plutôt détectables selon la première dimension.
The present disclosure improves the situation. In this regard, there is proposed a method for determining a state of health of a system of interest equipped with a sensor, the method being implemented by a processing circuit comprising a processor and a memory , and comprising: - obtaining an OBT T of a time series formed by a sequence of measurements from the sensor as a function of time, - an extraction EXTR Tj, ℓ of a plurality of sub-sequences of the same size l from of the time series, each sub-sequence extracted being formed by a number l of consecutive measurements in time, of said sequence of measurements, - A CONST G (N, ε) construction of a network representing the time series, the network comprising a set of nodes and weighted connections between nodes, where each node represents a set of extracted subsequences, and each weighted connection between two nodes represents the number of times a subsequence represented by one of the nodes is followed by a sub-sequence represented ée by the other node, - A SCOR Tj, ℓ attribution of a normality score to at least one subsequence of the time series having a size greater than or equal to the size l of the extracted subsequences, from d '' a set of connected nodes of the network forming the subsequence, - An identification ID Tk, ℓ of at least one abnormal subsequence, indicating an operating anomaly of the system of interest, on the basis of the assigned normality scores , and - On the basis of said at least one abnormal sub-sequence identified, a determination DET SoH of the state of health of the system of interest. In one embodiment, the method comprises the extraction EXTR Tj, ℓ, from the time series, of all the sub-sequences of the time series formed by the same number l of consecutive measurements over time . In one embodiment, the construction CONST G (N, ε) of the network comprises a projection PRJ Tj, ℓ of each sub-sequence extracted into a vector of a two-dimensional space, and a CONST N construction of a set of nodes of the network, where each node corresponds to a dense area of two-dimensional space. In one embodiment, the projection PRJ Tj, ℓ of each sub-sequence extracted into a vector of a two-dimensional space comprises: - for each sub-sequence extracted, a REP construction Vj, ℓ of a vector representing the subsequence, each term of the vector being a sum of a subset of components of the subsequence, - A reduction of dimensions RED 3D of a first matrix formed by the set of vectors representing the subs -sequences extracted to obtain a second matrix where each vector representing an extracted subsequence only comprises three dimensions, and - A ROT calculation of a third matrix obtained by rotating the second matrix, where a first dimension of the third matrix is defined so that the subsequences extending along this dimension are constant subsequences, and the other two dimensions are orthogonal to the first, and - The definition of the two dimensions of the projection space sub-sequences like the other two dimensions of the third matrix. In one embodiment, each vector representing an extracted subsequence comprises a number λ- ℓ of terms where each term is a sum of λ components of the subsequence, and λ is between 0.1 * ℓ and 0.5 * ℓ. In one embodiment, the vector representing a subsequence is defined by:
Figure imgf000010_0001
Where Tk is the k-th component of the subsequence and λ is an integer of determined value. In one embodiment, the reduction in dimensions of the first matrix is implemented by Principal Component Analysis. In one embodiment, the CONST N construction of the nodes of the network comprises the implementation of a circular scan of two-dimensional space by a set of radial scan vectors of different angular positions, and for each radial scanning vector: - the identification of the set of points of intersection of the projections of the sub-sequences extracted with the radial scanning vector, and - the construction of a node of the network as a local maximum of density of the points intersection identified. In other words, the number of nodes is not fixed. In one embodiment, the CONST N construction of the nodes of the network comprises the calculation of a density estimation function per kernel applied to each set of intersection points corresponding to a position in the space of the vector radial scanning, the estimation function being defined by:
Figure imgf000011_0001
where ℐ 4 is the set of points of intersection of the projections of the time series with a radial scan vector forming an angle ψ with respect to the x-axis of two-dimensional space, r is the number of vectors of radial sweep, h is a passband parameter, μ is an average, σ is a standard deviation and n is the number of points contained in ℐ 4 . In one embodiment, each extracted sub-sequence is associated with the node closest to its two-dimensional projection, and the construction of the network further comprises the EXT CNX construction of a connection between two nodes corresponding respectively to of the extracted sub-sequences which follow one another. In one embodiment, the attribution of a normality score to a sub-sequence comprises: - The identification of a path formed by a consecutive series of nodes of the network to form said sub-sequence, and - The calculation of the normality score as a function of the weight of the connections of the network forming the path, and of the number of connections associated with each node of the network included in the path. According to another object, there is proposed a computer program comprising instructions for the implementation of the method according to the above description, when this program is executed by a processor. According to another object, there is proposed a non-transient recording medium readable by a computer on which is recorded a program for the implementation of the method according to the above description, when this program is executed by a processor. According to another project, there is proposed a processing circuit comprising a processor connected to a non-transient recording medium according to the above description. The proposed method makes it possible to determine a state of health of a system of interest, for example by detecting anomalies of a time series measured on the system of interest, without prior knowledge of the system. In particular, the proposed method makes it possible to correctly identify unique anomalies, that is to say a behavior which has never been observed, but also recurring anomalies, which may be linked for example to a degraded operation of the equipment. , without prior knowledge. In addition, the network constructed from a sub-sequence of determined size then makes it possible to evaluate a normal or abnormal character of any sub-sequence of the series, of size greater than or equal to the size of the sub-sequences. sequences used for the construction of the network. The method also has good detection precision for a reduced computation time compared to the prior art. In particular, the fact of projecting the sequences in a two-dimensional space makes it possible to reduce the computation times necessary for the construction of the network. In addition, the proposed method involves only a limited number of linear paths of the time series, namely: a first path for the calculation of the projection of the time series, a second for the extraction of the nodes and a last for the 'extraction of connections. Brief description of the drawings [0038] Other characteristics, details and advantages will become apparent on reading the detailed description below, and on analyzing the appended drawings, in which: FIG. 1 [0039] [FIG. 1] graphically represents a known example of anomaly detection for an example of the distribution of subsequences. Fig.2 [0040] [Fig. 2] graphically represents another known example of anomaly detection for an example of distribution of subsequences. Fig.3a [0041] [Fig.3a] represents an example of time series T. Fig.3b [0042] [Fig. 3b] represents examples of sub-sequences T1, T2 and T3 extracted from the time series T of FIG. 3a. Fig.3c [0043] [Fig. 3c] is a representation of a projection according to three determined dimensions of the sub-sequences extracted from the time series T of FIG. 3a. Fig.3d [0044] [Fig.3d] represents the two-dimensional projection of the subsequences extracted from the time series T of Figure 3b, where the subsequences T1, T2 and T3 are indicated, and the creation of nodes . Fig.3e [0045] [Fig. 3e] represents an example of a part of nodes and connections between nodes obtained from the projection of figure 3d. Fig.4 [0046] [Fig. 4] shows an example of constructions of sets of points of intersection between the projections of the subsequences extracted with radial scan vectors. Fig.5a [0047] [Fig.5a] represents, on the top graph, an example of a time series, and on the bottom graph a normality score associated with the sub-sequences forming the time series. Fig.5b [0048] [Fig. 5b] represents an example of a network constructed from the time series of FIG. 5a. Fig.6 [0049] [Fig.6] schematically shows a system provided with three sensors and a processing circuit for implementing the method for determining the state of health of the system. Fig.7 [0050] [Fig. 7] represents the main steps of a method for determining a state of health of a system according to one embodiment. Description of the Embodiments [0051] The drawings and the description below essentially contain elements of a certain nature. They can therefore not only serve to better understand this disclosure, but also contribute to its definition, if applicable. With reference to FIG. 6, many SYS systems are equipped with sensors C making it possible to measure quantities indicative of their operation in the form of time series which are sequences of time-stamped values. For example, in an industrial site, a pump is equipped with a flow sensor accounting for the outlet speed of a fluid. In medicine, a patient can be fitted with an EKG machine to report cardiac activity (especially heart rate). The system of interest can therefore be a technical system, such as for example an industrial installation (factory, electricity production installation, etc.), a connected object, a vehicle, a building, an electrical or electronic device. , etc., equipped with one or more sensors capable of measuring at least one physical quantity representative of the state of the system of interest. The physical quantity is a value liable to change over time, and may be, for example but not limited to, a quantity relating to a temperature, a position, a speed, a frequency, wavelength, a quantity of heat or thermal flux, luminous flux, current, voltage, etc. as well as their temporal derivatives. The system of interest can also be a living being, such as for example a human being or an animal, equipped with one or more sensors capable of measuring at least one physiological quantity of the system of interest. The physiological quantity is liable to change over time and may be, for example but not limited to, a pulse, temperature, heart rate, oxygen level in the blood, a blood glucose value, etc. These SYS systems can be equipped with processing circuits making it possible to store and process the measurements locally. With the emergence of so-called intelligent and communicating systems, it is also possible to transmit the measurements acquired to a remote processing circuit with a view to centralized processing. The processing of the acquired measurements can make it possible to qualify the operation of the system considered. For example, by considering as a system an industrial device having to follow a preprogrammed temperature cycle and by considering as an associated sensor a temperature probe, an objective may be to detect on the basis of temperature measurements by the sensor whether the industrial appliance is functioning properly. Ideally, this detection is implemented automatically and without prior knowledge of the preprogrammed temperature cycle, nor of any anomalies in relation to this preprogrammed temperature cycle, in other words without supervision. [0058] For example, considering a person or an animal as a system and considering an electrocardiograph as an associated sensor, an objective may be to detect on the basis of electrocardiograms whether the electrical activity of the heart of the person or of the animal is normal. This detection is carried out automatically and without supervision, in particular without first providing examples of normal EKGs or EKGs with abnormal characteristics. Yet another example is that of connected objects, such as an intelligent factory where a sensor makes it possible to measure a pressure or a temperature in an installation, or even a connected vehicle whose behavior can be monitored for example by the analysis of vibration data measured by a sensor. An example of such a processing circuit PROC, performing the measured data processing method described below, is shown in Figure 6. The processing circuit shown comprises a processor CPU connected to a recording medium non-transient MEM on which is recorded a program for the implementation of a method as described below when this program is executed by the processor CPU. Reference is now made to FIG. 7 which illustrates the main steps of an embodiment of a method for determining a state of health of a system of interest equipped with a sensor. In one example, a representation of which is provided in FIGS. 5a and 5b, the system of interest may be a steam generator of an electricity production plant, equipped, among other things, with a water level sensor. By “determination of a state of health”, one understands for example the determination of a state of normal operation or not of the system of interest, or also the determination of a faulty state or not of the system of interest. The method makes it possible to determine this state on the basis of an analysis of at least one series of measurements one or more physical quantities of the system of interest acquired by the sensor (s) with which it is equipped. A time series T, formed of a sequence of measurements from the sensor as a function of time, is obtained OBT T (S1), the sequence being liable to include anomalies in these measurements. In the example indicated above, the time series obtained is a history of measurements taken by the level sensor, spaced by a regular time interval, each measurement corresponding to a value of the level of steam in the steam generator at measurement time. The size of the time series T, that is to say the total number of measurement points, is denoted | T |. The time series thus obtained is then processed in order to determine, as the “state of health of the system of interest”, whether the steam generator exhibits normal or abnormal behavior over the period of interest considered, corresponding to the series temporal. The treatment is therefore carried out without prior knowledge of the presence or absence of anomalies in the time series. It should be noted that, of course, in various industrial applications, many systems of interest are equipped with a plurality of sensors and configured to obtain a time series from each sensor. For example, a centrifugal pump is at least equipped with two pressure sensors (suction and discharge) and a flow sensor, all absolutely necessary to determine the performance and therefore to quantify the proper functioning of the equipment. Although the determination method makes it possible to process, together or separately, several time series, it is considered in this exemplary embodiment, for reasons of simplicity, the processing of one of time series originating from a single sensor in order to determine the state of health of a system of interest. All the sub-sequences Ti, ℓ are extracted EXTR Ti, ℓ (S2) from the time series T, these sub-sequences possibly comprising anomalies, giving the process an absence of supervision. The sub-sequences Ti, ℓ extracted are subsets of consecutive measurements within the time series. Each sub-sequence Ti, ℓ begins at index i, ie at the ith measurement point of T, and contains the following ℓ points. Therefore, a sub- given sequence Ti, ℓ has the size ℓ and a single point of T can be seen as a subsequence of size 1. For example the point of the time series T having the index i can be alternatively denoted Ti, 1, or Ti . Here the set of sub-sequences extracted has the same size ℓ. In one embodiment, step S2 comprises the extraction of all the sub-sequences of size ℓ of the time series T. With reference to FIG. 3a, an example of time series T has been shown from which three are extracted. T1, T2 and T3 sub-sequences of the same size. These subsequences are represented in a more developed version in figure 3b, where we notice that the subsequences T1 and T2 have substantially the same shape, but with differences in values, while the sequence T3 has a different shape from the two raw. These sub-sequences are used as a nonlimiting example but purely illustrative of the description which follows. The size of the sub-sequences extracted can be determined by a user. In the example considered, each sub-sequence thus extracted can correspond to a fixed number of consecutive measurements, for example of the order of 10, 20, 50 or 100 measurements, within a time sequence of several hours or several. days, with a measurement step for example of the order of a few seconds to a few minutes. The method then comprises the construction CONST G (N, ε) (step S3) of a network R representing the time series T from all the sub-sequences extracted. Thus, the construction of this model is carried out with the subsequences comprising the anomalies. The following notations are used for the continuation. A node is defined as an abstract object identified by an integer, and we denote # a set of nodes. A connection is a tuple w (x i , x j ) with x i , x j ∈ N, and the weight of a connection is denoted w (x i , x j ). A set of connections is denoted ℰ. A graph is defined by the pair (#, ℰ) and denoted by G ^ #, ℰ ^. A network is a graph G (N, ε, x, y) where x and y are respectively values assigned to nodes and connections. Finally, the degree of a node is the number of connections entering and leaving the node. It is denoted deg (N (i) ). The network is constructed such that each node of the network represents a set of extracted subsequences, and each connection between two nodes represents the number of times an extracted subsequence corresponding to one of the nodes linked by the connection follows another corresponding to the other node, in the time sequence T. To do this, the construction of the network includes the projection PRJ Ti, ℓ (S31) of each sub-sequence extracted from the time series T in a two-dimensional space. In one embodiment, this projection firstly comprises the REP representation Vi, ℓ (S311) of each subsequence extracted by a vector each term of which is a sum of a component subset of the subsequence. Typically, each sub-sequence Ti, ℓ is represented by a vector defined as follows:
Figure imgf000019_0001
where λ is an integer parameter less than ℓ which can be set by a user. Advantageously, λ can be fixed between λ = 0.1 * ℓ and λ = 0.5 * ℓ A convolutional operation of size λ is therefore applied to each extracted sub-sequence to obtain the vector representing it. This representation makes it possible to remove noise and residual disturbances, while keeping the main evolutions of the sub-sequence. Each extracted sub-sequence being represented by a vector of size ℓ- λ, the set of sub-sequences thus represented forms a matrix which we denote by Proj (T, ℓ, λ ) ∈ P | ^ |, ℓ / + (ℝ) where M | T |, ℓ-λ is the set of matrices having | T | rows and ℓ- λ columns. An operation of reduction of dimensions RED 3D (S312) of this first matrix Proj (T, ℓ, λ) is then carried out to arrive at a three-dimensional space, that is to say to obtain a second matrix always comprising | T | rows, each row corresponding to a vector representing an extracted subsequence, but comprising only three columns. We denote this second matrix Proj r (T, ℓ, λ). The method then comprises the ROT calculation (S313) of a third matrix obtained by rotating this second matrix, such that a first dimension of this third matrix is collinear with the constant subsequences of the temporal sequence, and that the other two dimensions are orthogonal to this one. From this third matrix, only these two other dimensions are retained as two-dimensional space for the projection of the extracted sub-sequences. Indeed, the fact of projecting the sub-sequences according to these two dimensions makes it possible to keep after the projection of the sub-sequences only information on the shape of the sub-sequences, which makes it possible to privilege the detection of the form anomalies of the sub-sequences. -sequences, as opposed to value anomalies, characterized by the mean value of the sub-sequences, and which are rather detectable according to the first dimension.
[0071] En notant une sous-séquence unitaire, on définit un
Figure imgf000020_0001
vecteur caractérisant la composante des sous-séquences constantes noté
Figure imgf000020_0007
Figure imgf000020_0002
PCA3 retourne les trois composantes importantes de l’Analyse en Composantes Principales précédemment citée, min et max correspondent respectivement aux valeurs minimales et maximales de la série temporelle. En notant
Figure imgf000020_0006
les vecteurs unitaires de la base orthonormée issue de l’analyse en composante principale, on calcule les angles :
Figure imgf000020_0003
By noting a unit sub-sequence, we define a
Figure imgf000020_0001
vector characterizing the component of constant subsequences noted
Figure imgf000020_0007
Figure imgf000020_0002
PCA 3 returns the three important components of the Principal Component Analysis mentioned above, min and max correspond respectively to the minimum and maximum values of the time series. Noting
Figure imgf000020_0006
the unit vectors of the orthonormal base resulting from the analysis in principal component, one calculates the angles:
Figure imgf000020_0003
Et à partir de ces angles, on calcule la matrice de rotation suivante :
Figure imgf000020_0004
où sont les matrices de rotation respectivement
Figure imgf000020_0005
associées aux angles Φx, Φy, Φz. [0072] La matrice résultant de cette opération a donc sa première composante alignée à
Figure imgf000021_0002
Les vecteurs unitaires sous-jacents sont sont
Figure imgf000021_0004
les vecteurs résultant de la rotation précédente. L’espace de deux dimensions
Figure imgf000021_0003
qui est conservé pour la projection des sous-séquences pour les étapes suivantes est donc SProj(T, ℓ,λ) sur les dimensions
Figure imgf000021_0005
And from these angles, we calculate the following rotation matrix:
Figure imgf000020_0004
where are the rotation matrices respectively
Figure imgf000020_0005
associated with the angles Φ x , Φ y , Φ z . The matrix resulting from this operation therefore has its first component aligned with
Figure imgf000021_0002
The underlying unit vectors are are
Figure imgf000021_0004
the vectors resulting from the previous rotation. Two-dimensional space
Figure imgf000021_0003
which is kept for the projection of the subsequences for the following steps is therefore SProj (T, ℓ, λ) on the dimensions
Figure imgf000021_0005
[0073] En référence à la figure 3c, on a représenté la projection des sous- séquences extraites de la série temporelle T représentée sur la figure 3a en trois dimensions à l’issue de l’étape S312 de réduction des dimensions. Sur la figure 3d, la projection en deux dimensions, en ne conservant que les deux dimensions orthogonales à la dimension des sous-séquences constantes, est représentée. On observe sur cette figure que les sous-séquences T1 et T2 sont voisines dans l’espace de projection à deux dimensions car elles ne varient pas par la forme mais par la valeur moyenne, tandis que la sous-séquence T3 est éloignée des deux premières du fait de sa différence de forme. Referring to Figure 3c, there is shown the projection of the sub-sequences extracted from the time series T shown in Figure 3a in three dimensions at the end of step S312 of reduction of the dimensions. In FIG. 3d, the two-dimensional projection, keeping only the two dimensions orthogonal to the dimension of the constant subsequences, is represented. We observe in this figure that the sub-sequences T1 and T2 are close in the two-dimensional projection space because they do not vary by the shape but by the mean value, while the sub-sequence T3 is far from the first two due to its difference in shape.
[0074] Une fois les sous-séquences projetées dans l’espace à deux dimensions, la construction du réseau comprend la construction CONST N (S32) d’un ensemble de noeuds N où chaque nœud N correspond à une région dense de l’espace de projection à deux dimensions. Le nombre de nœuds n’est pas fixé. Once the sub-sequences are projected into two-dimensional space, the construction of the network comprises the construction CONST N (S32) of a set of nodes N where each node N corresponds to a dense region of space two-dimensional projection. The number of nodes is not fixed.
[0075] Pour cela, on effectue un balayage de l’espace à deux dimensions par un ensemble de vecteurs radiaux définis comme est
Figure imgf000021_0007
l’angle formé entre le vecteur radial et l’axe de l’espace à deux dimensions, et
Figure imgf000021_0006
tous les segments [xi-1xi] de la série temporelle formés par deux points consécutifs de la projection de la série T dans l’espace à deux dimensions : P = SProj(T, ℓ,λ). On appelle radius subset l’ensemble de ces points d’intersection
Figure imgf000021_0009
avec le vecteur
Figure imgf000021_0008
Formellement :
Figure imgf000021_0001
où x est le produit vectoriel. Sur la figure 4, on a représenté deux exemples de radius subsets pour deux valeurs d’angle y différentes. [0076] Une fois les radius subsets obtenus, les nœuds du réseau sont définis en estimant la densité de chaque radius subset puis en attribuant chaque maximum local à un nœud N. Formellement, en notant ^ l’ensemble des valeurs de ψ, l’ensemble des nœuds #est construit comme suit :
Figure imgf000022_0001
[0077] La fonction f^ est une fonction d’estimation de densité de noyau appliquée à chaque radius subset, la fonction μ représente la moyenne d’un radius subset, c’est-à-dire la position moyenne des points d’intersection formant le radius subset, et la fonction σ représente l’écart-type des positions des points d’intersection formant le radius subset. n est le nombre de points dans le radius subset considéré, qui peut être noté ^ℐ4^. r est le nombre de radius subsets, qui correspond au nombre d’angles ψ dans l’ensemble Ψ, et donc au nombre de vecteurs de balayage radiaux. r peut être fixé par l’utilisateur. Il est de préférence compris entre 1 et 360, et de préférence entre 20 et 100, pour permettre un balayage de l’espace précis mais limitant le nombre de nœuds et donc le temps de calcul nécessaire pour construire le réseau et l’utiliser. Par exemple r peut être égal à 50. h enfin est un paramètre appelé bande passante de la fonction fh, qui contrôle le degré de lissage de l’estimation de densité. La valeur de h est optimale pour d’après la
Figure imgf000022_0002
publication de D. W. Scott, « Multivariate Density Estimation. Theory, Practice, Visualization. Wiley 1992. [0078] De retour à la figure 3d, on peut observer les nœuds du
Figure imgf000022_0003
réseau construits à partir des maxima locaux identifiés pour les deux radius subsets représentés (ψ et ψ+1), qui sont les mêmes que ceux de la figure 4. Le nombre de nœuds s’adapte donc au nombre de zones denses dans l’espace de deux dimensions, et donc, à la dynamique de la série temporelle. [0079] Une fois obtenu l’ensemble des nœuds du réseau, le procédé comprend l’extraction des connexions entre les nœuds EXT CNX (S33) ainsi que les poids associés à chaque connexion. Pour cela, on parcourt l’ensemble SProj(T, ℓ, λ) des projections des sous-séquences extraites en deux dimensions, et à chaque sous- séquence contenue dans cet ensemble est associé l’un des nœuds #du réseau. En notant # l’ensemble des nœuds du réseau et ℰ l’ensemble des connexions du réseau, cet ensemble est construit comme suit :
Figure imgf000023_0001
[0080] En d’autres termes, la fonction S trouve le nœud le plus proche de chaque point dans P où un point de P est la projection en deux dimensions d’une sous- séquence extraite de la série temporelle, et d est la distance géométrique. Le réseau associé à la série temporelle T est noté G(N, ε), l’indice ℓ provenant du fait qu’il est construit à partir de l’ensemble des sous-séquences projetées de taille ℓ. [0081] Puis, une connexion est créée entre deux nœuds à chaque fois qu’une sous-séquence de l’ensemble P correspondant à un nœud est suivie d’une sous- séquence correspondant à un autre nœud. Le nombre de fois où la connexion a lieu correspond au poids de la connexion. [0082] En référence à la figure 3e, on a représenté un exemple de connexions entre les nœuds précédemment identifiés dans la figure 3d. [0083] Une fois le réseau obtenu, on attribue SCOR Tj,ℓ (S4) un score de normalité à au moins une sous-séquence Tj,ℓq, où ℓ^ ≥ ℓ, c’est-à-dire que la sous-séquence à laquelle on attribue un score peut présenter une taille supérieure ou égale à celle des sous-séquences utilisées pour la construction du réseau. En effet, le score de normalité est défini en fonction du chemin qu’il faut emprunter dans le réseau pour obtenir la sous-séquence, ou dit autrement, en fonction de l’ensemble des nœuds et de connexions entre les nœuds formant la sous-séquence. Dans un mode de réalisation, un score de normalité est attribué à plusieurs sous-séquences, par exemple à l’ensemble des sous-séquences de la série temporelle dont la taille est supérieure ou égale à ℓ .
For this, we perform a two-dimensional space scan by a set of radial vectors defined as is
Figure imgf000021_0007
the angle formed between the radial vector and the axis of two-dimensional space, and
Figure imgf000021_0006
all the segments [x i-1 x i ] of the time series formed by two consecutive points of the projection of the series T in two-dimensional space: P = SProj (T, ℓ, λ). We call radius subset the set of these intersection points
Figure imgf000021_0009
with vector
Figure imgf000021_0008
Formally:
Figure imgf000021_0001
where x is the cross product. In FIG. 4, two examples of radius subsets have been shown for two different angle values y. Once the radius subsets have been obtained, the nodes of the network are defined by estimating the density of each radius subset then by assigning each local maximum to a node N. Formally, by noting ^ the set of values of ψ, l ' set of nodes # is constructed as follows:
Figure imgf000022_0001
The function f ^ is a kernel density estimation function applied to each subset radius, the function μ represents the average of a subset radius, that is to say the average position of the points of intersection forming the radius subset, and the function σ represents the standard deviation of the positions of the points of intersection forming the radius subset. n is the number of points in the considered subset radius, which can be denoted by ^ ℐ 4 ^. r is the number of radius subsets, which corresponds to the number of angles ψ in the set Ψ, and therefore to the number of radial scan vectors. r can be set by the user. It is preferably between 1 and 360, and preferably between 20 and 100, to allow precise space scanning but limiting the number of nodes and therefore the calculation time necessary to build the network and use it. For example r can be equal to 50. h finally is a parameter called bandwidth of the function fh, which controls the degree of smoothing of the density estimate. The value of h is optimal for according to the
Figure imgf000022_0002
DW Scott publication, “Multivariate Density Estimation. Theory, Practice, Visualization. Wiley 1992. Returning to figure 3d, we can observe the nodes of the
Figure imgf000022_0003
network constructed from the local maxima identified for the two radius subsets represented (ψ and ψ + 1), which are the same as those in figure 4. The number of nodes therefore adapts to the number of dense areas in two-dimensional space, and therefore to the dynamics of the time series. Once all the nodes of the network have been obtained, the method comprises extracting the connections between the EXT CNX nodes (S33) as well as the weights associated with each connection. For this, we go through the set SProj (T, ℓ, λ) of the projections of the sub-sequences extracted in two dimensions, and with each subsequence contained in this set is associated one of the nodes # of the network. By noting # the set of network nodes and ℰ the set of network connections, this set is constructed as follows:
Figure imgf000023_0001
In other words, the function S finds the node closest to each point in P where a point of P is the two-dimensional projection of a subsequence extracted from the time series, and d is the geometric distance. The network associated with the time series T is denoted G (N, ε), the index ℓ coming from the fact that it is built from the set of projected subsequences of size ℓ. Then, a connection is created between two nodes each time a subsequence of the set P corresponding to a node is followed by a subsequence corresponding to another node. The number of times the connection takes place corresponds to the weight of the connection. Referring to Figure 3e, there is shown an example of connections between the nodes previously identified in Figure 3d. Once the network has been obtained, SCOR Tj, ℓ (S4) is assigned a normality score to at least one subsequence T j, ℓq , where ℓ ^ ≥ ℓ, that is to say that the sub -sequence to which a score is attributed may have a size greater than or equal to that of the sub-sequences used for the construction of the network. Indeed, the normality score is defined as a function of the path that must be taken in the network to obtain the sub-sequence, or in other words, as a function of the set of nodes and of connections between the nodes forming the sub-sequence. sequence. In a mode of realization, a normality score is attributed to several subsequences, for example to all the subsequences of the time series whose size is greater than or equal to ℓ.
[0084] On note Series2Path la fonction qui a une sous-séquence de la série temporelle T associe l’ensemble des noeuds successifs du réseau correspondant à cette sous-séquence
Figure imgf000024_0001
Figure imgf000024_0002
Series2Path denotes the function which has a sub-sequence of the time series T associates all of the successive nodes of the network corresponding to this sub-sequence
Figure imgf000024_0001
Figure imgf000024_0002
[0085] Le score d’une sous-séquence de la série temporelle est déterminé en fonction des poids des connexions parcourues pour former la sous-séquence, et des degrés des noeuds parcourus. Concernant les poids de connexion, plus le poids d’une connexion est élevé, et plus cette transition a lieu souvent dans la série temporelle. Par ailleurs, le degré d’un nœud apporte une information sur la centralité du nœud dans le réseau : plus le nœud est central, et plus le score est grand. Dans un mode de réalisation, le score de normalité Norm est défini comme suit :
Figure imgf000024_0003
où w est le poids d’une connexion et deg est le degré d’un nœud.
The score of a sub-sequence of the time series is determined as a function of the weights of the connections traversed to form the sub-sequence, and of the degrees of the nodes traversed. Regarding connection weights, the higher the weight of a connection, the more often this transition takes place in the time series. Moreover, the degree of a node provides information on the centrality of the node in the network: the more central the node, the higher the score. In one embodiment, the Norm normality score is defined as follows:
Figure imgf000024_0003
where w is the weight of a connection and deg is the degree of a node.
[0086] En variante, le score de normalité peut être inversé pour devenir un score d’anomalie. [0086] Alternatively, the normality score can be inverted to become an anomaly score.
[0087] Une fois les scores calculés, il est possible d’identifier ID Tk, ℓ (S5) au moins une sous-séquence anormale dans la série temporelle utilisée pour construire le graphe, indiquant une anomalie de fonctionnement du système d’intérêt. Par exemple, une sous-séquence avec un score de normalité particulièrement faible (ou respectivement un score d’anormalité élevé) peut être considérée comme anormale. Once the scores are calculated, it is possible to identify ID Tk, ℓ (S5) at least one abnormal subsequence in the time series used to construct the graph, indicating an anomaly in the functioning of the system of interest. For example, a subsequence with a particularly low normality score (or respectively a high abnormality score) may be considered abnormal.
[0088] Le fait de disposer des sous-séquences anormales permet de disposer des moments et des différents types d’anomalies relevées sur le capteur du système d’intérêt, ce qui permet de déterminer DET SoH (S6) un état de santé du système d’intérêt. Par exemple, il est possible de déterminer une cause des sous-séquences anormales telles que dégradation, usure d’un composant, évènement inopiné, etc. Puis, en fonction de l’analyse qui a été faite sur les causes des anomalies, des actions de correction, de réparation, ou de prédiction sur le fonctionnement du système peuvent être mises en place. Par exemple, une alerte peut être générée pour attirer l’attention d’un opérateur du système d’intérêt (ou, si le système d’intérêt est une personne, la personne elle-même ou un médecin ou soignant, ou encore, si le système d’intérêt est un animal, le propriétaire de l’animal ou un vétérinaire) sur la nécessité d’intervenir pour remédier à cette anomalie. En variante, une intervention, une opération de réparation ou de maintenance peut être planifiée ou re-planifiée, si par exemple une opération de maintenance était prévue mais doit être avancée. En variante, des traitements complémentaires peuvent être mis en œuvre pour identifier ou diagnostiquer la nature ou la cause de la défaillance du système d’intérêt considéré. Il est également possible d’exploiter ces informations pour enrichir le retour d’expérience quant au fonctionnement du système, par exemple en mettant à jour une base de données relative au fonctionnement du système. [0089] En référence à la figure 5a, on a représenté l’exemple, sur le graphe du haut, d’une série temporelle représentant une mesure de niveau d’eau dans un générateur de vapeur d’une centrale de production électrique, et sur la figure 5b on a représenté un graphe obtenu à partir de cette série temporelle par application du procédé qui précède. Dans cette représentation, la largeur des connexions entre les nœuds est proportionnelle à leur poids. On a représenté sur la flèche TN un exemple de transition récurrente et sur la flèche TA un exemple de transition rare ou anormale. De retour à la figure 5a, le graphe du bas représente un score d’anomalie calculé pour les sous-séquences formant la série temporelle et, utilisée pour construire le graphe representé figure 5b, et qui permet d’identifier rapidement les sous-séquences anormales. The fact of having the abnormal sub-sequences makes it possible to have the times and the different types of anomalies detected on the sensor of the system of interest, which makes it possible to determine DET SoH (S6) a state of health of the system of interest. For example, it is possible to determine a cause of abnormal subsequences such as degradation, wear of a component, unexpected event, etc. Then, depending on the analysis made on the causes of the anomalies, corrective, repair or prediction actions on the operation of the system can be implemented. For example, an alert can be generated to attract the attention of an operator of the system of interest (or, if the system of interest is a person, the person themselves or a doctor or caregiver, or if the system of interest is an animal, the owner of the animal or a veterinarian) on the need to intervene to remedy this anomaly. As a variant, an intervention, a repair or maintenance operation can be planned or re-planned, if for example a maintenance operation was planned but must be brought forward. As a variant, additional treatments can be implemented to identify or diagnose the nature or the cause of the failure of the system of interest considered. It is also possible to use this information to enrich feedback on the operation of the system, for example by updating a database relating to the operation of the system. Referring to Figure 5a, there is shown the example, in the top graph, of a time series representing a measurement of the water level in a steam generator of a power plant, and FIG. 5b shows a graph obtained from this time series by application of the above method. In this representation, the width of the connections between the nodes is proportional to their weight. An example of a recurrent transition has been shown on the arrow TN and on the arrow TA an example of a rare or abnormal transition. Returning to FIG. 5a, the bottom graph represents an anomaly score calculated for the subsequences forming the time series and, used to construct the graph represented in FIG. 5b, and which makes it possible to quickly identify the abnormal subsequences. .

Claims

Revendications [Revendication 1] Procédé de détermination d’un état de santé d’un système d’intérêt équipé d’un capteur, le procédé étant mis en œuvre par un circuit de traitement comportant un processeur et une mémoire, et comprenant : - Une obtention OBT T (S1) d’une série temporelle (T) qui est une série de mesures acquises par le capteur en fonction du temps et dans laquelle une anomalie de fonctionnement du système d’intérêt est recherchée, - Une extraction EXTR Tj,ℓ (S2) de l’ensemble des sous-séquences de taille ℓ de la série temporelle T, chaque sous-séquence extraite étant formée d’un nombre l de mesures consécutives dans le temps, de ladite série de mesures, - Une construction CONST "^#, ℰ^ (S3) d’un réseau représentant la série temporelle, le réseau comprenant un ensemble de nœuds et de connexions pondérées entre les nœuds, où chaque nœud représente un ensemble de sous- séquences extraites, et chaque connexion pondérée entre deux nœuds représente le nombre de fois où une sous-séquence représentée par un des nœuds est suivie par une sous-séquence représentée par l’autre nœud, - Une attribution SCOR Tj,ℓ (S4) d’un score de normalité de sous-séquences Tj,l de la série temporelle T, présentant une taille supérieure ou égale à la taille l des sous-séquences extraites, à partir d’un ensemble de nœuds connectés du réseau G(N, ε) , représentant la sous-séquence Tj,l, - Une identification ID Tk,ℓ (S5) d’au moins une sous-séquence anormale, indiquant une anomalie de fonctionnement du système d’intérêt, sur la base des scores de normalité attribués, et - Sur la base de ladite au moins une sous-séquence anormale identifiée, une détermination DET SoH (S6) de l’état de santé du système d’intérêt. [Revendication 2] Procédé de détermination selon la revendication précédente, [Revendication 3] dans lequel la construction CONST "^#, ℰ^ du réseau comprend une projection PRJ Tj,ℓ (S31) de chaque sous-séquence extraite en un vecteur d’un espace à deux dimensions, et une construction CONST N (S32) d’un ensemble de nœuds du réseau, où chaque nœud correspond à une zone dense de l’espace à deux dimensions. Procédé de détermination selon la revendication précédente, dans lequel la projection PRJ Tj,ℓ (S31) de chaque sous-séquence extraite en un vecteur d’un espace à deux dimensions comprend : - Pour chaque sous-séquence extraite, une construction REP Vj,ℓ (S311) d’un vecteur représentant la sous-séquence, chaque terme du vecteur étant une somme d’un sous-ensemble de composantes de la sous-séquence, - Une réduction de dimensions RED 3D (S312) d’une première matrice formée par l’ensemble des vecteurs représentant les sous-séquences extraites pour obtenir une deuxième matrice où chaque vecteur représentant une sous- séquence extraite ne comprend plus que trois dimensions, et - Un calcul ROT (S313) d’une troisième matrice obtenue par rotation de la deuxième matrice, où une première dimension de la troisième matrice est définie de sorte que les sous-séquences s’étendant selon cette dimension soient des sous-séquences constantes, et les deux autres dimensions sont orthogonales à la première, et - La définition des deux dimensions de l’espace de projection des sous- séquences comme les deux autres dimensions de la troisième matrice. [Revendication 4] Procédé selon la revendication 3, dans lequel chaque vecteur représentant une sous-séquence extraite comprend un nombre λ- ℓ de termes où chaque terme est une somme de λ composantes de la sous-séquence, et λ est compris entre 0.1* ℓ et 0.5* ℓ. [Revendication 5] Procédé selon la revendication 3 ou 4, dans lequel le vecteur représentant une sous-séquence est défini par :
Figure imgf000027_0001
Où Tk est la k-ième composante de la sous-séquence et λ est un entier de valeur déterminée. [Revendication 6] Procédé selon la revendication 3 à 5, dans lequel la réduction de dimensions de la première matrice est mise en œuvre par Analyse en Composantes Principales. [Revendication 7] Procédé selon l’une des revendications 3 à 6, dans lequel la construction CONST N (S32) des nœuds du réseau comprend la mise en œuvre d’un balayage circulaire de l’espace à deux dimensions par un ensemble de vecteurs de balayage radiaux de positions angulaires différentes, et pour chaque vecteur de balayage radial : - l’identification de l’ensemble des points d’intersection des projections des sous-séquences extraites avec le vecteur de balayage radial, et - la construction d’un nœud du réseau comme un maximum local de densité des points d’intersection identifiés. [Revendication 8] Procédé selon la revendication précédente, dans lequel la construction CONST N (S32) des nœuds du réseau comprend le calcul d’une fonction d’estimation de densité par noyau appliquée à chaque ensemble de points d’intersection correspondant à une position dans l’espace du vecteur de balayage radial, la fonction d’estimation étant définie par :
Figure imgf000028_0001
Où est l’ensemble des points d’intersection des projections des séries temporelles avec un vecteur de balayage radial formant un angle ψ par rapport à l’axe des abscisses de l’espace à deux dimensions, r est le nombre de vecteurs de balayage radiaux, h est un paramètre de bande passante, μ est une moyenne, σ est un écart-type et n est le nombre de points contenus dans
Figure imgf000028_0002
[Revendication 9] Procédé selon l’une des revendications 2 à 8, dans lequel chaque sous-séquence extraite est associée au nœud le plus proche de sa projection en deux dimensions, et la construction du réseau comprend en outre la construction EXT CNX (S33) d’une connexion entre deux nœuds correspondant respectivement à des sous-séquences extraites qui se suivent. [Revendication 10] Procédé selon l’une des revendications précédentes, dans lequel l’attribution d’un score de normalité à une sous-séquence comprend : - L’identification d’un chemin formé d’une série consécutive de nœuds du réseau pour former ladite sous-séquence, et - Le calcul du score de normalité en fonction du poids des connexions du réseau formant le chemin, et du nombre de connexions associé à chaque nœud du réseau compris dans le chemin. [Revendication 11] Procédé selon l’une des revendications précédentes, dans lequel le système d’intérêt est équipé d’une pluralité de capteurs et configurés pour obtenir de chaque capteur une série temporelle. [Revendication 12] Procédé selon l’une des revendications précédentes, comprenant en outre, à partir de l’état de santé déterminé pour le système d’intérêt, la mise en œuvre d’au moins une action parmi le groupe comprenant : - Génération d’une alerte, - Identification d’une défaillance du système d’intérêt, - Planification d’une opération de maintenance ou de réparation du système d’intérêt. [Revendication 13] Procédé selon l’une des revendications précédentes, dans lequel le système d’intérêt est un système technique, et le capteur est apte à mesurer une grandeur physique du système technique, ou le système d’intérêt est une personne ou un animal, et le capteur est apte à mesurer au moins une grandeur physiologique de la personne ou de l’animal. [Revendication 14] Procédé selon l’une des revendications précédentes, dans lequel le système est une pompe centrifuge équipée de deux capteurs de pression d’aspiration et de refoulement, et d’un capteur de débit [Revendication 15] Procédé selon l’une des revendications précédentes, dans lequel le système est un générateur de vapeur et chaque mesure correspondant à une valeur de niveau de vapeur dans le générateur de vapeur [Revendication 16] Procédé selon l’une des revendications précédentes, dans lequel le système une personne ou un animal, le capteur associé est un électrocardiographe, le procédé permettant de détecter sur la base d’électrocardiogrammes si l’activité électrique du cœur de la personne ou de l’animal est normale [Revendication 17] Procédé selon l’une des revendications précédentes, dans lequel le système est objet connecté, tel qu’une usine intelligente où un capteur permet de mesurer une pression ou une température dans une installation, ou encore un véhicule connecté dont le comportement est surveillé par l’analyse de données de vibrations mesurées par un capteur. [Revendication 18] Programme informatique comportant des instructions pour la mise en œuvre du procédé selon l’une des revendications 1 à 17 lorsque ce programme est exécuté par un processeur (CPU). [Revendication 19] Support d’enregistrement non transitoire lisible par un ordinateur sur lequel est enregistré un programme pour la mise en œuvre du procédé selon l’une des revendications 1 à 17 lorsque ce programme est exécuté par un processeur (CPU). [Revendication 20] Circuit de traitement comprenant un processeur connecté à un support d’enregistrement non transitoire selon la revendication 17.
Claims [Claim 1] Method for determining a state of health of a system of interest equipped with a sensor, the method being implemented by a processing circuit comprising a processor and a memory, and comprising: - A obtaining OBT T (S1) of a time series (T) which is a series of measurements acquired by the sensor as a function of time and in which an operating anomaly of the system of interest is sought, - An extraction EXTR Tj, ℓ (S2) of all the sub-sequences of size ℓ of the time series T, each sub-sequence extracted being formed by a number l of consecutive measurements in time, of said series of measurements, - A CONST construction " ^ #, ℰ ^ (S3) of a network representing the time series, the network comprising a set of nodes and weighted connections between nodes, where each node represents a set of extracted subsequences, and each weighted connection between two nodes represents the number of times a subsequence represented by one of the nodes is followed by a subsequence represented by the other node, - A SCOR assignment Tj, ℓ (S4) of a normality score of subsequences Tj, l of the time series T , having a size greater than or equal to the size l of the sub-sequences extracted, from a set of connected nodes of the network G (N, ε), representing the sub-sequence Tj, l, - An identification ID Tk , ℓ (S5) of at least one abnormal subsequence, indicating an anomaly in the functioning of the system of interest, on the basis of the assigned normality scores, and - On the basis of said at least one identified abnormal subsequence , a determination DET SoH (S6) of the state of health of the system of interest. [Claim 2] Determination method according to the preceding claim, [Claim 3] wherein the CONST " ^ #, ℰ ^ construct of the lattice comprises a projection PRJ Tj, ℓ (S31) of each sub-sequence extracted into a vector of a two-dimensional space, and a CONST N construct (S32) of a set of nodes of the network, where each node corresponds to a dense area of two-dimensional space. Determination method according to the preceding claim, wherein the projection PRJ Tj, ℓ (S31) of each sub -sequence extracted into a vector from a two-dimensional space comprises: - For each sub-sequence extracted, a REP construct Vj, ℓ (S311) of a vector representing the sub-sequence, each term of the vector being a sum of d 'a subset of components of the subsequence, - A reduction of dimensions RED 3D (S312) of a first matrix formed by the set of vectors representing the sub-sequences extracted to obtain a second matrix where each vector representing an extracted subsequence only has three dimensions sions, and - A ROT (S313) calculation of a third matrix obtained by rotating the second matrix, where a first dimension of the third matrix is defined such that the subsequences extending along this dimension are sub- constant sequences, and the other two dimensions are orthogonal to the first, and - The definition of the two dimensions of the projection space of the subsequences as the other two dimensions of the third matrix. [Claim 4] The method of claim 3, wherein each vector representing an extracted subsequence comprises a number λ- ℓ of terms where each term is a sum of λ components of the subsequence, and λ is between 0.1 * ℓ and 0.5 * ℓ. [Claim 5] The method of claim 3 or 4, wherein the vector representing a subsequence is defined by:
Figure imgf000027_0001
Where Tk is the k-th component of the subsequence and λ is an integer of determined value. [Claim 6] The method according to claim 3 to 5, wherein the reduction in dimensions of the first matrix is carried out by Principal Component Analysis. [Claim 7] The method according to one of claims 3 to 6, wherein the CONST N (S32) construction of the nodes of the network comprises the implementation of a circular scan of the two-dimensional space by a set of vectors of radial scanning of different angular positions, and for each radial scanning vector: - the identification of the set of intersection points of the projections of the sub-sequences extracted with the radial scanning vector, and - the construction of a network node as a local maximum density of the identified intersection points. [Claim 8] The method of the preceding claim, wherein the CONST N (S32) construction of the nodes of the network comprises calculating a per-core density estimation function applied to each set of intersection points corresponding to a position. in the space of the radial scan vector, the estimation function being defined by:
Figure imgf000028_0001
Where is the set of points of intersection of the time series projections with a radial scan vector forming an angle ψ with respect to the x-axis of two-dimensional space, r is the number of radial scan vectors , h is a bandwidth parameter, μ is an average, σ is a standard deviation and n is the number of points contained in
Figure imgf000028_0002
[Claim 9] The method according to one of claims 2 to 8, wherein each extracted subsequence is associated with the node closest to its projection in two dimensions, and the construction of the network further comprises the construction EXT CNX (S33) of a connection between two nodes corresponding respectively to extracted subsequences which follow one another. [Claim 10] Method according to one of the preceding claims, in which the attribution of a normality score to a sub-sequence comprises: - The identification of a path formed by a consecutive series of nodes of the network for forming said sub-sequence, and - calculating the normality score as a function of the weight of the connections of the network forming the path, and of the number of connections associated with each node of the network included in the path. [Claim 11] Method according to one of the preceding claims, in which the system of interest is equipped with a plurality of sensors and configured to obtain a time series from each sensor. [Claim 12] Method according to one of the preceding claims, further comprising, from the state of health determined for the system of interest, the implementation of at least one action from the group comprising: - Generation an alert, - Identification of a failure of the system of interest, - Planning of a maintenance or repair operation of the system of interest. [Claim 13] Method according to one of the preceding claims, in which the system of interest is a technical system, and the sensor is able to measure a physical quantity of the technical system, or the system of interest is a person or a person. animal, and the sensor is able to measure at least one physiological quantity of the person or of the animal. [Claim 14] Method according to one of the preceding claims, in which the system is a centrifugal pump equipped with two suction and discharge pressure sensors, and a flow sensor. [Claim 15] Method according to one of the preceding claims, in which the system is a steam generator and each measurement corresponding to a value of the level of steam in the steam generator [Claim 16] Method according to one of the preceding claims , wherein the a person or animal system, the associated sensor is an electrocardiograph, the method for detecting on the basis of electrocardiograms whether the electrical activity of the heart of the person or animal is normal [Claim 17] Method according to one of the preceding claims, in which the system is a connected object, such as a smart factory where a sensor makes it possible to measure a pressure or a temperature in an installation, or else a connected vehicle whose behavior is monitored by the device. analysis of vibration data measured by a sensor. [Claim 18] Computer program comprising instructions for implementing the method according to one of claims 1 to 17 when this program is executed by a processor (CPU). [Claim 19] Non-transient recording medium readable by a computer on which is recorded a program for the implementation of the method according to one of claims 1 to 17 when this program is executed by a processor (CPU). [Claim 20] A processing circuit comprising a processor connected to a non-transient recording medium according to claim 17.
PCT/EP2021/062666 2020-05-20 2021-05-12 Determining the state of health of a system on the basis of a network of measured time sequences WO2021233758A1 (en)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
FR2005261A FR3110719B1 (en) 2020-05-20 2020-05-20 Determining the state of health of a system from a network of measured time sequences
FRFR2005261 2020-05-20

Publications (1)

Publication Number Publication Date
WO2021233758A1 true WO2021233758A1 (en) 2021-11-25

Family

ID=72885621

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/EP2021/062666 WO2021233758A1 (en) 2020-05-20 2021-05-12 Determining the state of health of a system on the basis of a network of measured time sequences

Country Status (2)

Country Link
FR (1) FR3110719B1 (en)
WO (1) WO2021233758A1 (en)

Non-Patent Citations (6)

* Cited by examiner, † Cited by third party
Title
BONIOL P ET AL: "Automated Anomaly Detection in Large Sequences", 2020 IEEE 36TH INTERNATIONAL CONFERENCE ON DATA ENGINEERING (ICDE), 20-24 APRIL 2020, 16 April 2020 (2020-04-16), pages 1834 - 1837, XP033774271, DOI: 10.1109/ICDE48307.2020.00182 *
BONIOL P ET AL: "Series2Graph : graph-based subsequence anomaly detection for time series", PROCEEDINGS OF THE VLDB ENDOWMENT, vol. 13, no. 12, August 2020 (2020-08-01), New York, NY, pages 1821 - 1834, XP055766870, ISSN: 2150-8097, DOI: 10.14778/3407790.3407792 *
BONIOL P ET AL: "Unsupervised Subsequence Anomaly Detection in Large Sequences", PROCEEDINGS OF THE VLDB 2020 PHD WORKSHOP, 31 AUGUST 2020, 31 August 2020 (2020-08-31), XP055766872, Retrieved from the Internet <URL:http://ceur-ws.org/Vol-2652/paper02.pdf> [retrieved on 20210119] *
D. W. SCOTT: "Theory, Practice, Visualization", 1992, WILEY, article "Multivariate Density Estimation."
HAIBIN CHENG ET AL: "A Robust Graph-Based Algorithm for Detection and Characterization of Anomalies in Noisy Multivariate Time Series", DATA MINING WORKSHOPS, 2008. ICDMW '08. IEEE INTERNATIONAL CONFERENCE ON, IEEE, PISCATAWAY, NJ, USA, 15 December 2008 (2008-12-15), pages 349 - 358, XP031383773, ISBN: 978-0-7695-3503-6 *
VASHEGHANI FARAHANI I ET AL: "Time Series Anomaly Detection from a Markov Chain Perspective", 2019 18TH IEEE INTERNATIONAL CONFERENCE ON MACHINE LEARNING AND APPLICATIONS (ICMLA), 16 December 2019 (2019-12-16), pages 1000 - 1007, XP033719660, DOI: 10.1109/ICMLA.2019.00170 *

Also Published As

Publication number Publication date
FR3110719A1 (en) 2021-11-26
FR3110719B1 (en) 2022-12-23

Similar Documents

Publication Publication Date Title
Niu et al. Intelligent condition monitoring and prognostics system based on data-fusion strategy
Cerrada et al. A review on data-driven fault severity assessment in rolling bearings
EP2368161B1 (en) Detection of anomalies in an aircraft engine
US7565262B2 (en) Bayesian sensor estimation for machine condition monitoring
EP0573357B1 (en) Diagnostic procedure for an on-going process
EP3172548B1 (en) Method for detecting anomalies in a distribution network, in particular for drinking water
US20080294374A1 (en) Principal component analysis based fault classification
EP2966526B1 (en) A method and a system for merging health indicators of a device
US20180121275A1 (en) Method and apparatus for detecting and managing faults
FR3032786A1 (en) DATA PROCESSING AND MODELING SYSTEM FOR ANALYZING THE ENERGY CONSUMPTION OF A SITE
CN105593864B (en) Analytical device degradation for maintenance device
FR2939928A1 (en) STANDARDIZATION OF DATA USED FOR MONITORING AN AIRCRAFT ENGINE
Gupta et al. A real-time adaptive model for bearing fault classification and remaining useful life estimation using deep neural network
WO2014064396A2 (en) System for monitoring a set of components of a device
EP1820170B1 (en) Suppression of false alarms among alarms produced in a monitored information system
US10360249B2 (en) System and method for creation and detection of process fingerprints for monitoring in a process plant
WO2021233758A1 (en) Determining the state of health of a system on the basis of a network of measured time sequences
Aye et al. Fault detection of slow speed bearings using an integrated approach
FR3049713A1 (en) ACTIVE SYSTEM FOR GROUNDING A TREE WITH DIAGNOSTIC ANALYSIS OF A WAVY FORM
EP4035084A1 (en) Techniques for alerting metric baseline behavior change
Febriansyah et al. Outlier detection and decision tree for wireless sensor network fault diagnosis
Kosińska et al. Detection of Cluster Anomalies With ML Techniques
JP2020052676A (en) State monitor and wind power generator using the same
CN114548259B (en) PISA fault identification method based on Semi-supervised Semi-KNN model
CN118093290A (en) Method, device, equipment and medium for detecting server heat dissipation abnormality

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 21723997

Country of ref document: EP

Kind code of ref document: A1

NENP Non-entry into the national phase

Ref country code: DE

122 Ep: pct application non-entry in european phase

Ref document number: 21723997

Country of ref document: EP

Kind code of ref document: A1